Dice Similarity Coefficient (DSC)는 두 집합 간의 겹침 정도를 정량적으로 평가하는 대표적인 metric으로, 특히 3D 의료 영상 segmentation에서 예측 결과와 정답의 유사도를 측정하는 데 널리 사용됩니다. DSC는 대상 구조의 크기와 상관없이 normalize된 값을 제공하여, 배경에 비해 상대적으로 작은 정답 label에 대해서도 효과적으로 평가할 수 있습니다.
➡️ 정의
집합 와 집합 B가 있을 때, DSC는 아래와 같이 정의됩니다.
$ DSC = \frac{2|A \cap B|}{|A| + |B|} \tag{1} $
- \({|A|}\)와 \({|B|}\): 각각 집합 A와 에 속하는 원소의 수 (영상에서는 복셀(voxel) 또는 픽셀의 수)
- : 두 집합이 겹치는 영역의 원소 수
➡️ 직관적 이해
DSC 값은 0과 1 사이의 값을 가지며,
- 1에 가까울수록 두 집합이 거의 완벽하게 일치함을 의미하고,
- 0에 가까울수록 겹침이 적음을 나타냅니다.
즉, DSC는 예측 segmentation과 정답 segmentation 간의 겹침 정도를 직관적으로 확인할 수 있는 지표로, 배경과 대상 구조의 크기 차이가 큰 경우에도 정규화된 평가를 제공합니다.
➡️ DSC Loss: 불균형 데이터에 대한 보완
3D 의료 영상 segmentation에서는 배경 영역이 매우 큰 반면, 실제 관심 대상(예: 병변, 장기 등)은 상대적으로 작은 경우가 많습니다. 이때 일반적인 손실 함수(Cross Entropy 등)는 큰 배경 영역에 의해 학습이 치우칠 위험이 있습니다. DSC의 normalize 특성을 활용하면, 크기에 상관없이 정답 label에 대해 효과적인 학습을 도모할 수 있습니다.
DSC Loss는 다음과 같이 정의됩니다.
$ \text{DSC Loss} = 1 - \frac{2\sum_{i=1}^{N} p_i g_i}{\sum_{i=1}^{N} p_i + \sum_{i=1}^{N} g_i} \tag{2} $
여기서,
- 는 예측 값 (보통 softmax나 sigmoid 출력 후 확률 값),
- 는 정답 label (0 또는 1),
- \({N}\)은 전체 셀의 수를 의미합니다.
이 손실 함수는
- 클래스 불균형 문제를 완화하고,
- 작은 크기의 정답 label도 모델이 충분히 학습하도록 유도합니다.
➡️ 3D Segmentation으로의 확장
3D 의료 영상 segmentation 평가 및 학습에서 DSC와 DSC Loss의 적용 과정은 다음과 같습니다:
- Mask 표현
예측된 segmentation mask와 정답 segmentation mask를 각각 3차원 Binary Mask로 표현합니다. - 겹침 영역 계산
두 Mask의 겹치는 복셀 수를 계산하여, DSC를 산출합니다. - DSC Loss 적용
위 정의를 활용하여 DSC Loss를 계산하고, 이를 최적화 목표로 사용함으로써 크기 불균형에도 강인한 모델 학습을 도모합니다.
- 높은 DSC 값: 예측 결과가 정답과 유사함을 의미
- 낮은 DSC 값: 예측 결과와 정답 간 차이가 큼을 나타냄
- DSC Loss: 값이 0에 가까울수록 예측이 정답과 유사함을 의미하며, 학습 과정에서 최소화하는 것이 목표입니다.
이와 같이 DSC와 DSC Loss는 특히 배경에 비해 상대적으로 작은 대상 구조의 segmentation에서 유용한 평가 및 학습 도구로 자리 잡고 있습니다.
'Study' 카테고리의 다른 글
Hausdorff Distance (HD) in 3D segmentation (2) | 2024.12.10 |
---|