“AI가 알려준 건강정보 믿었는데”…의료 답변 절반이 틀렸다 :SODA

AI 챗봇으로 건강 정보를 찾는 이용자가 늘고 있는 가운데, 부정확한 답변이 실제 판단에 영향을 줄 수 있다는 지적이 나온다. 사진은 챗GPT를 이용해 생성한 이미지.

인공지능(AI) 챗봇이 제공하는 의료 상담의 약 절반이 부정확하거나 부적절한 것으로 나타났다는 연구 결과가 나왔다. 일상적으로 건강 정보를 묻는 이용자가 늘고 있지만, ‘확신에 찬 오답’이 실제 판단을 왜곡할 수 있다는 점에서 우려가 커지고 있다.

최근 국제 학술지 ‘BMJ Open’에 게재된 연구에 따르면 챗GPT, 제미나이, 메타 AI, 그록, 딥시크 등 주요 AI 챗봇 5종을 대상으로 의료 질문을 평가한 결과, 전체 응답의 약 50%가 ‘문제가 있는 수준’으로 분류됐다. 이 중 약 20%는 ‘심각한 오류’로 판단됐다.

연구진은 5개 건강 분야에 걸쳐 총 50개의 질문을 제시해 답변을 분석했다. 백신이나 암처럼 비교적 표준화된 정보가 축적된 영역에서는 상대적으로 정확도가 높았지만, 줄기세포나 영양처럼 해석이 필요한 주제에서는 오류가 크게 늘어났다. 특히 개방형 질문에서 부정확한 답변 비율이 높게 나타났다.

● 왜 위험한가…“확신에 찬 오답”

이번 연구에서 주목된 지점은 단순한 오류 비율이 아니라 답변 방식이다. 챗봇은 불완전하거나 잘못된 정보를 제시하면서도 단정적인 표현을 사용하는 경우가 많았다.

연구진에 따르면 어떤 플랫폼도 질문에 대해 완전하고 정확한 참고문헌 목록을 제시하지 못했으며, 답변을 거부한 사례도 극히 일부에 그쳤다. 정확도뿐 아니라 오류를 확신에 찬 어조로 전달하는 방식이 이용자 오해를 키울 수 있다는 지적이다.

● 이용 급증 속 제도 공백…“건강 격차 우려”

AI 챗봇은 빠르게 확산되며 건강 상담 도구로 자리 잡고 있다. 오픈AI에 따르면 매주 2억 명 이상이 ChatGPT를 통해 건강 관련 질문을 하는 것으로 알려졌다.

연구진은 별도의 교육이나 관리 없이 챗봇이 확산될 경우 잘못된 정보가 오히려 확대될 수 있다고 경고했다.

이들은 “AI 챗봇은 공공 의료 정보 전달 과정에서 중요한 행동적 한계를 드러냈다”며 “대중을 대상으로 한 의료 커뮤니케이션에서 챗봇 활용 방식에 대한 재검토가 필요하다”고 밝혔다.

이어 “이들 시스템은 권위 있어 보이지만 오류를 포함한 답변을 생성할 수 있다”고 덧붙였다.

관련 논문
https://bmjopen.bmj.com/content/16/4/e112695

최현정 기자 phoebe@donga.com