고려대, 의료영상 진단추론 AI 경진대회 1위…스탠포드대 팀 제쳐

고려대 컴퓨터학과 강재우 교수팀
인공지능 국제대회 RadSum 1위
스탠포드, 유니버시티 칼리지 런던, 지멘스 연구그룹 제쳐
다른 팀들은 언어모델, 고려대 팀은 멀티모달 AI
23만 장의 흉부 X-ray 영상과 12만 건의 검사 결과
탄생한 AI 모델 ‘CheXOFA’

등록 2023-07-14 오후 2:08:32

수정 2023-07-14 오후 2:08:32
가 가

[이데일리 김현아 기자]

기념촬영을 하고 있는 고려대 컴퓨터학과 연구팀. 왼쪽부터 성무진 석박사통합과정(고려대), 김강우 석박사통합과정(고려대), 강재우 교수(고려대), 김하정 석사과정(고려대), 김찬휘 석사과정(고려대), 김현재 박사과정(고려대)

RadSum 챌린지의 문제 예시

고려대학교(총장 김동원) 컴퓨터학과 강재우 교수 연구팀이 흉부 X-ray 영상에 대한 검사결과를 요약하는 인공지능 시스템 국제경진대회 RadSum에서 1위를 차지했다. 고려대 팀은 김강우, 김하정, 김찬휘, 성무진, 김현재 등 대학원생과 지도교수인 강재우 교수로 구성됐다.

미국 스탠포드 대학교 (Stanford University), 독일 지멘스 (Siemens), 영국 유니버시티 칼리지 런던 (University College London), 미국 텍사스 대학 샌 안토니오 (The University of Texas at San Antonio) 등을 제쳤다.

RadSum 대회는 스탠포드 의료 이미지 인공지능 센터(AIMI; Center for Artificial Intelligence in Medicine & Imaging)에서 주관하는 대회다.

강재우 교수 연구팀이 참여한 MIMIC-CXR 챌린지는 흉부 X-ray 영상과 검사소견을 기반으로 진단을 추론하는 과제를 수행한다.

예를 들어, 흉부 X-ray 영상과 임상의가 작성한 검사소견을 기반으로 최종 결론에 해당하는 추정진단을 생성해야 한다.

다른팀은 언어모델만..고려대 팀은 시각정보+언어정보로

대부분의 참가팀들이 챗GPT의 뿌리 기술인 트랜스포머(Transformer) 구조의 언어모델을 사용해 텍스트 형태의 검사소견만을 입력으로 받아 진단을 생성한 반면, 강재우 교수팀은 X-ray 영상의 시각정보와 검사소견의 언어정보를 동시에 활용하는 시각언어모델 CheXOFA를 개발해 대회에 참가했다.

멀티모달 AI

CheXOFA 역시 Transformer에 기반한 모델이나 텍스트 뿐만 아니라 이미지, 영상 등도 같이 입력 및 출력(생성) 할 수 있도록 확장된 멀티모달 인공지능 모델이다.

CheXOFA는 약 23만 장의 흉부 X-ray 영상과 임상의들이 작성한 약 12만 건의 검사결과를 사전학습했다.

입력된 영상과 소견으로부터 진단을 생성하는 본 대회에서 활용되었던 기능 이외에도 X-ray 영상만을 입력으로 받아 영상에 대한 검사소견을 생성하는 등 다양한 태스크를 수행할 수 있다.

한편 RadSum 대회는 2023년 1월에 학습 데이터를 공개하였고 이후 3개월간 참가팀들이 각자의 방식으로 인공지능 모델을 개발해 학습시켰다. 4월 6일 테스트 데이터가 공개된 이후 4월 28일까지 리더보드가 운영되며 각 참가팀들의 인공지능 모델의 성능 경합이 이뤄졌다.

대회 최종 순위와 우승팀은 현재 캐나다 토론토에서 개최 중인 세계 최고 권위 인공언어지능 학회인 ACL(Association for Computational Linguistics)의 BioNLP 2023 워크샵에서 현지시각 7월 13일에 발표됐다.

이번 대회는 고려대학교 연구팀을 중심으로 마이크로소프트 연구소 아시아 (Microsoft Research Asia), 아이젠사이언스, 카이스트, 베이징 항공항천대학 (Beihang University)의 연구원들이 힘을 보태 다국적팀을 구성해 참가했다.