본 논문의 목적은 의료 영역의 이미지 segmentation의 성능을 개선하여 기존보다 더 나은 모델을 만드는 것이 목적이다. 기존의 이미지와 달리 의료 영역의 이미지들은 x-ray와 CT 등 데이터의 형태가 다른 분포를 보이고 있을 뿐만 아니라, 적은 데이터셋과 레이블링의 어려움 등으로 인하여 최적화된 모델의 개발은 필수적이다.
<br>
<br>이를 위해 우리는 두 가지 형태의 개선 방식을 개발하였다. 기존의 실험에서는 손실 함수를 학습에 이용할 때 특별한 분석 없이 같이 사용하여 좋은 성능을 내였다. 우리는 데이터셋의 양성 영역과 음성 영역의 초점을 맞추어 가장 최적화된 손실 함수를 사용하는 방법을 제안하였다. 이를 통해 기존의 학습 결과보다 성능을 개선하였다.
<br>
<br>또 다른 개선 방식으로는 Vision Transformer의 인코더를 개선하여 segmentation 성능을 개선하는 모델을 제안하였다. 기존에 Vision Transformer를 의료 이미지 segmentation에 활용할 때 하나의 층에서 하나의 encoder block만 사용했던 모델들과 달리, 우리는 크기가 다른 세 개의 block을 하나의 layer에 사용하는 GSA Block을 개발하였다. GSA Block을 통해 기존에 보지 못했던 다양한 이미지의 정보를 한 번에 학습하여 모델의 성능을 개선하였다.
<br>
<br>본 연구에서는 의료 이미지 segmentation 수행 시에, 의료 이미지에 맞는 개선점들이 많고, 이를 학습 시에 쓰이는 다양한 부분들을 개선하여 더 나은 모델을 만들 수 있음을 보였다.