밤늦게 갑자기 아이가 열이 나거나, 건강 검진 결과지를 받아들고 불안감이 엄습할 때, 우리는 가장 먼저 누구를 찾을까요? 병원 문은 닫았고, 인터넷 검색은 불안하고… 이런 순간, 마치 마법처럼 내 옆에 ‘똑똑한 AI 의사 챗봇’이 있다면 어떨까요? 상상만으로도 든든한데요. 최근 구글과 여러 AI 기업들이 이 꿈을 현실로 만들기 위해 땀 흘리고 있다는 소식이 들려옵니다.
구글 AMIE, 의사만큼 똑똑했지만…
최근 구글이 깜짝 놀랄 만한 연구 결과를 발표했죠. 의료용 LLM 챗봇 ‘AMIE(Articulate Medical Intelligence Explorer)’가 실제 의사들과 겨뤄보니, 진단 정확도가 거의 맞먹는 수준이었다는 겁니다! 게다가 환자와의 대화 과정에서 심각한 안전 문제도 발견되지 않았고요. 정말 놀랍지 않나요? AI가 이제는 우리 몸의 이상까지도 척척 알아내는 시대가 오고 있다는 얘기인 셈이죠.
이쯤 되면 ‘와, 당장 출시해야 하는 거 아니야?’ 싶지만, 구글은 아직 시기상조라고 선을 그었습니다. 구글 딥마인드 연구원은 형평성, 공정성, 안전성 같은 여러 난제를 해결해야 한다고 강조했죠. 마치 엄청난 잠재력을 가진 신약 후보 물질을 발견했지만, 인체에 어떤 부작용을 일으킬지 몰라 출시를 미루는 것과 비슷하다고 보면 돼요. ‘혹시라도 예상치 못한 문제라도 생기면 어쩌지?’ 하는 신중함이 엿보입니다.
이놈의 AI는 너무 빨리 진화해
문제는 이겁니다. AI는 쉴 새 없이 발전하는데, 사람 대상의 임상 시험처럼 엄격한 검증은 엄청난 시간과 비용이 든다는 거죠. 한 연구에서 사용된 GPT-4o 모델만 해도 1년도 안 되어 ‘구식’이 되어버릴 정도니까요. 마치 매달 새 차가 나오는 F1 경주에서, 새 차가 나올 때마다 처음부터 충돌 테스트를 해야 하는 상황이랄까요? 기술 발전 속도를 따라잡지 못하는 검증 시스템이 가장 큰 난관인 셈입니다.
자기 자식은 다 예뻐 보여? 제3자 평가가 중요한 이유
그래서 ‘벤치마킹’ 이야기가 나옵니다. 아무리 좋은 제품이라도 만든 회사가 ‘우리 제품 최고예요!’라고 외치는 것만으로는 한계가 명확하죠. ‘자기 제품은 자기 자식이라 다 예뻐 보이는 법’이니까요. 공정하고 신뢰할 수 있는 ‘제3자’의 평가가 절실하다는 겁니다. 다양한 제3자가 나서야 혹시 모를 ‘사각지대’도 막을 수 있고요. 오픈AI도 이런 외부 평가의 중요성을 인정하며 ‘헬스벤치(HealthBench)’ 같은 평가 툴을 내놓았고, 스탠퍼드 대학에서는 여러 의료 과제를 종합적으로 평가하는 ‘메드헬름(MedHELM)’ 프레임워크를 개발했죠.
에디터의 시선
하지만 메드헬름도 아직 갈 길이 멉니다. 단순 질문-답변이 아닌, 실제 진료처럼 여러 번 대화가 오가는 복잡한 상황까지 평가하기는 어렵다는 거죠. 스탠퍼드의 샤흐 교수는 이런 복합적인 평가 시스템을 구축하려면 시간과 돈이 엄청나게 필요하다고 토로합니다. 솔직히 말해서, ‘이런 기업들이 헬스케어 제품 내놓는 걸 막을 방법은 없다. 우리가 할 수 있는 유일한 일은 벤치마크에 자금을 지원하는 것뿐’이라고 뼈 때리는 말을 남겼죠.
그렇다고 해서 ‘AI 의사 챗봇이 완벽해야만 한다!’고 주장하는 사람은 없습니다. 사실 의사들도 실수를 하니까요. 어쩌다 한 번 의사를 만날 수 있는 사람에게는, 때로는 실수하더라도 꾸준히 옆에서 대화해 줄 AI가 훨씬 큰 도움이 될 수도 있다는 거죠. 완벽보다 ‘접근성’이 더 중요한 경우도 있으니까요. AI 의사 챗봇은 분명 우리 삶을 바꿀 잠재력을 품고 있습니다. 하지만 기술의 발전 속도와 안전, 윤리적 검증 속도 사이의 괴리. 이 간극을 어떻게 메울지가 가장 큰 숙제인 셈이죠. 여러분은 ‘똑똑하지만 완벽하지 않은 AI 의사’가 우리 삶에 더 깊이 들어오는 것을 환영하시나요, 아니면 아직은 좀 더 신중해야 한다고 보시나요? 이 질문에 대한 답은 우리 모두가 함께 찾아가야 할 겁니다.