Dice Similarity Coefficient (DSC)는 두 집합 간의 겹침 정도를 정량적으로 평가하는 대표적인 metric으로, 특히 3D 의료 영상 segmentation에서 예측 결과와 정답의 유사도를 측정하는 데 널리 사용됩니다. DSC는 대상 구조의 크기와 상관없이 normalize된 값을 제공하여, 배경에 비해 상대적으로 작은 정답 label에 대해서도 효과적으로 평가할 수 있습니다.

➡️ 정의

집합 와 집합 B가 있을 때, DSC는 아래와 같이 정의됩니다.

$ DSC = \frac{2|A \cap B|}{|A| + |B|} \tag{1} $

  • \({|A|}\)와 \({|B|}\): 각각 집합 A와 에 속하는 원소의 수 (영상에서는 복셀(voxel) 또는 픽셀의 수)
  • : 두 집합이 겹치는 영역의 원소 수

➡️ 직관적 이해

DSC 값은 0과 1 사이의 값을 가지며,

  • 1에 가까울수록 두 집합이 거의 완벽하게 일치함을 의미하고,
  • 0에 가까울수록 겹침이 적음을 나타냅니다.

즉, DSC는 예측 segmentation과 정답 segmentation 간의 겹침 정도를 직관적으로 확인할 수 있는 지표로, 배경과 대상 구조의 크기 차이가 큰 경우에도 정규화된 평가를 제공합니다.

➡️ DSC Loss: 불균형 데이터에 대한 보완

3D 의료 영상 segmentation에서는 배경 영역이 매우 큰 반면, 실제 관심 대상(예: 병변, 장기 등)은 상대적으로 작은 경우가 많습니다. 이때 일반적인 손실 함수(Cross Entropy 등)는 큰 배경 영역에 의해 학습이 치우칠 위험이 있습니다. DSC의 normalize 특성을 활용하면, 크기에 상관없이 정답 label에 대해 효과적인 학습을 도모할 수 있습니다.

DSC Loss는 다음과 같이 정의됩니다.

$ \text{DSC Loss} = 1 - \frac{2\sum_{i=1}^{N} p_i g_i}{\sum_{i=1}^{N} p_i + \sum_{i=1}^{N} g_i} \tag{2} $

여기서,

  • 는 예측 값 (보통 softmax나 sigmoid 출력 후 확률 값),
  • 는 정답 label (0 또는 1),
  • \({N}\)은 전체 셀의 수를 의미합니다.

이 손실 함수는

  • 클래스 불균형 문제를 완화하고,
  • 작은 크기의 정답 label도 모델이 충분히 학습하도록 유도합니다.

➡️ 3D Segmentation으로의 확장

3D 의료 영상 segmentation 평가 및 학습에서 DSC와 DSC Loss의 적용 과정은 다음과 같습니다:

  1. Mask 표현
    예측된 segmentation mask와 정답 segmentation mask를 각각 3차원 Binary Mask로 표현합니다.
  2. 겹침 영역 계산
    두 Mask의 겹치는 복셀 수를 계산하여, DSC를 산출합니다.
  3. DSC Loss 적용
    위 정의를 활용하여 DSC Loss를 계산하고, 이를 최적화 목표로 사용함으로써 크기 불균형에도 강인한 모델 학습을 도모합니다.
  • 높은 DSC 값: 예측 결과가 정답과 유사함을 의미
  • 낮은 DSC 값: 예측 결과와 정답 간 차이가 큼을 나타냄
  • DSC Loss: 값이 0에 가까울수록 예측이 정답과 유사함을 의미하며, 학습 과정에서 최소화하는 것이 목표입니다.

이와 같이 DSC와 DSC Loss는 특히 배경에 비해 상대적으로 작은 대상 구조의 segmentation에서 유용한 평가 및 학습 도구로 자리 잡고 있습니다.

'Study' 카테고리의 다른 글

Hausdorff Distance (HD) in 3D segmentation  (2) 2024.12.10

Hausdorff Distance (HD)는 두 집합 사이의 거리 개념을 정의하는 수학적 측정법입니다. 이는 주로 두 집합 간에 가장 멀리 떨어진 점들의 거리를 측정하는 데 사용됩니다. 이를 통해 두 집합이 얼마나 비슷한지 또는 얼마나 멀리 떨어져 있는지 평가할 수 있습니다.

 

➡️ 정의

집합 \({A}\)와 \({B}\)가 있다고 가정합시다. 각각은 유클리드 공간(예: 2D plane, 3D space) 상의 점들로 이루어진 집합입니다. 이 때 Hausdorff Distance는 다음과 같이 정의됩니다.

 

1. 단방향 Hausdorff Distance

  • \({h(A, B)}\) : 집합 \({A}\)의 각 점에서 집합 \({B}\)로의 최소 거리 중 최대값

$ {h(A, B)} = \max_{a \in A} \min_{b \in B} \|a - b\| \tag{1} $

 

  • \({\|a - b\|}\) : 점 \({a}\)와 점 \({b}\) 사이의 유클리드 거리
  • \({\min_{b \in B} \|a - b\|}\) : 점 \({a}\)에서 집합 \({B}\)의 가장 가까운 점까지의 거리
  • \({\max_{a \in A}}\) : 집합 \({A}\)에서 가장 큰 거리 선택

2. 양방향 Hausdorff Distance

단방향 Hausdorff Distance를 각 집합마다 수행하여 최대값을 갖는 거리를 선택

 

$ H(A, B) = \max(h(A, B), h(B, A)) \tag{2} $

즉 집합 \({A}\)에서 \({B}\)까지의 거리와 \({B}\)에서 \({A}\)까지의 거리 중 더 큰 값이 양방향 HD값으로 선택됨

 

 

➡️ 직관적 이해

Hausdorff Distance는 두 집합 간의 "가장 큰 거리"를 측정합니다. 예를 들어, 두 집합이 거의 겹치더라도 특정 점이 멀리 떨어져 있다면 HD 값은 커집니다. 이는 가장 나쁜 경우에 민감한 Metric으로, Outlier에 민감하다고 볼 수도 있지만 최악의 시나리오를 탐지하는 데에는 적합할 수 있습니다.

 

➡️ 3D Segmentation으로의 확장

HD는 컴퓨터 비전 분야에서도 특히 3D 의료 영상 segmetation의 3D 구조 (예측된 segment와 정답 segment) 사이의 유사도를 평가하는데 많이 사용됩니다.  

 

구체적인 과정

  1. 학습된 모델을 통해 예측된 segmentation mask \({P}\)와 정답 segmentation mask \({G}\)는 3차원 공간의 점 집합으로 표현됨
    1. 1 일반적으로 \({P}\)와 \({G}\)는 Binary mask 형식의 0과 1로 표현된 segmentation mask로 표현함
  2. \({P}\)와 \({G}\)의 표면 점들을 추출하고, 각 점에서 상대 집합까지의 유클리드 거리 계산
  3. 2번 과정을 \({P}\)와 \({G}\)를 기준으로 각각 수행하여 양방향으로 최대 거리를 선택

 

결과 해석과 한계점

  1. HD 값이 작을수록 \({P}\)가 \({G}\)와 유사함을 나타냄
  2. 큰 HD 값은 특정 영역 (점 위치)에서 큰 불일치가 있음을 의미
  3. HD는 최악의 시나리오에 초점을 맞추므로, 한두 개의 이상치(Outlier)에 매우 민감
    • 따라서, 보다 안정적인 평가를 위해 Average Hausdorff Distance (AHD) 또는 95 percentile의 거리 최대값을 사용하는 HD95와 같은 변형된 Metric을 사용하기도 함

 

 

'Study' 카테고리의 다른 글

Dice Similarity Coefficient (DSC) in 3D segmentation  (0) 2025.03.13

+ Recent posts