MEDICHECK 건강

건강

진단검사에 데이터과학
(data science)의
옷 입히기

요즈음 학술모임이나 기업업무 회의에서 인공지능(AI), 빅데이터(big data), 기계학습(machine learning), 심층학습(deep learning), 데이터마이닝(data mining) 같은 단어들이 대화에 곧잘 등장한다. 이는 우리가 이미 4차 산업사회의 한복판에 있음을 말한다. 언급된 내용은 모두 데이터를 기반으로 하기 때문에 4차 산업사회는 데이터과학이라는 새로운 학문을 기반으로 형성되고 발전한다고 할 수 있다.

조한익 한국건강관리협회
중앙검사의원장

데이터과학은 의료라는 사람들의 건강을 유지하고 질병을 예방·치료하는 모든 행위, 그리고 이와 관련된 전문 분야와 기술을 포함하는 거대한 환경에서 어느 위치에서 어떤 역할을 해나갈 것인가? 의학과 의료는 자연과학과 인문사회과학의 전 분야에 걸쳐 뿌리를 박고 영양을 섭취하면서 발전해왔다. 대표적인 기반이 화학, 물리, 생물학 등 전통 자연과학인데, 지난 70여 년간 성장해온 데이터과학은 이들 못지않은 힘으로 의료 발전을 뒷받침하게 될 것이다.

데이터과학이 진단검사의학에 어떤 영향을 주고 있고 앞으로 줄 것인가? 지난 50여 년간 컴퓨터를 활용한 전산화가 발달하면서 현재 대부분의 의료기관은 검사업무와 결과 관리 등에 정보화 기술을 최대한 활용하고 있다. 그러면 데이터과학이 무엇을 더 추가해 줄 수 있는가? 한마디로 기존의 컴퓨터 기술로 발전한 검사의학에 새로운 옷을 입혀 검사의학의 전 과정을 개선, 검사 결과의 신뢰도를 높이고 명품 검사 결과의 활용을 극대화할 것이다. 다시 말해 검사의 선택, 검사 시행, 검사 결과 산출, 의사에 의한 활용 등 진단검사의 전 과정이 새롭게 디자인될 것이다.

의사들이 의료에서 행하는 의사결정(decision making)의 70~80%는 진단검사 결과를 핵심 근거로 삼고 있다. 즉 검사 결과의 품질은 의료의 품질을 결정한다 할 수 있다. 데이터과학에 기반한 기술들은 환자의 상태에 적합한 검사를 선택하고 전체 검사 과정을 최상의 방법으로 관리해 신뢰할 수 있는 검사 결과를 산출한 다음, 이를 적절하게 시각화하여 의사에게 제공함으로써 검사 결과를 정확하게 활용할 수 있도록 도울 수 있다. 데이터과학에 기반해 구축된 AI 기술이 적절한 검사를 선택하고 검사 방법, 오류 발생 방지, 결과의 신뢰도 검증 등 전 과정을 최적화하고 결과의 시각화로 결과 활용을 극대화하는 것이다.

검사 과정도 데이터과학에 기반한 관리로 최선의 검사 방법을 선택하고 과정을 최적화하여 오류 발생을 예방하고, 그래도 피할 수 없이 생기는 오류는 실시간으로 발견·제거하는 일 등은 데이터과학으로 구축된 AI가 해줄 것으로 전망된다.

진단검사업무에 활용하는 데이터과학

데이터과학을 진단검사업무에 활용하는 구체적인 과정을 살펴보자. 먼저 검사실에서 발생하는 데이터를 수집하고 이를 정제, 전처리하여 초기 데이터세트를 구축한다. 이 데이터세트에 들어 있는 데이터를 데이터마이닝 기법으로 분석하는데, 데이터마이닝 기법으로는 패턴인식(pattern recognition), 회귀분석(regression analysis), 클러스터링, 의사결정나무(decision trees), 분류(classification) 등이 있다. 이를 데이터의 성격과 분석 목적에 따라 적절하게 사용한다. 여기에서 생산된 정보들을 활용, 기계학습을 거쳐 알고리즘을 구성하고 그 알고리즘에서 생산된 정보를 쉽게 볼 수 있도록 보고 형태로 만들어 전달하면 이는 의사결정의 근거로 활용된다. 의료에서 발생하는 의사결정에 가장 큰 영향을 미치는 데이터를 가장 많이 생산하는 검사의학에서는 그 데이터의 정확성과 신뢰성 그리고 활용성을 높이기 위해 AI 등 데이터과학의 기법과 기술을 최대한 활용해야 한다.

이를 위해서는 체계적인 접근이 필요하다. 전문의, 전공의, 병리사등 검사실 직원들이 기본적인 정보 기술과 데이터 관리와 관련된 통계, 코딩, 소프트웨어에 대한 훈련이 돼 있어야 한다. 특히 전공의 과정에서 AI 활용 전문가가 되도록 집중 훈련이 필요할 것이다. 컴퓨팅 기술, 기초 확률이론, 매트릭스, 네트워크와 그래프 이론, 최적화 등 수학적 이론 이해, 탐색적 데이터 분석, 통계적 모델링, 모델 평가, 시뮬레이션, 통계적 실험, 문제 해결을 위한 알고리즘 구성, 고급 수준의 프로그래밍 언어 구사, 데이터 수집·정리·관리, 불필요한 데이터 제거, 데이터베이스 구축, 데이터에서 추출된 지식의 평가 및 활용 등이 교육 내용에 포함되어야 한다.

이상을 실현하려면 진단검사의학 전문의와 임상병리사 중에서 데이터과학자가 양성되어야 할 것이다. 우리나라의 현실에서는 큰 규모의 대학병원에 최소한 20명 정도만 확보되어도 이들을 중심으로 데이터과학에 관심 있는 검사의학 전문가들이 배움 집단을 만들어 이 분야를 개척해나가면 4차 산업사회의 발전 속도에 맞춰 진단검사 분야가 발전할 것으로 여겨진다. 특히 데이터과학 분야의 빠른 발전 속도에 맞추어 진단검사의 옷을 갈아입기 위해서는 검사의학 전문가들이 데이터과학에 쉽게 접근할 수 있도록 각 의료기관과 전문학회에서 전략을 세우고 주위 환경을 조성해야 한다.

조한익

· 한국건강관리협회 중앙검사의원장

- (現)서울대학교 명예교수(의학)의

- (前)한국건강관리협회 회장

- (前)서울대학교 의과대학 교수