AI 챗봇으로 건강 정보를 찾는 이용자가 늘고 있는 가운데, 부정확한 답변이 실제 판단에 영향을 줄 수 있다는 지적이 나온다. 사진은 챗GPT를 이용해 생성한 이미지.
최근 국제 학술지 ‘BMJ Open’에 게재된 연구에 따르면 챗GPT, 제미나이, 메타 AI, 그록, 딥시크 등 주요 AI 챗봇 5종을 대상으로 의료 질문을 평가한 결과, 전체 응답의 약 50%가 ‘문제가 있는 수준’으로 분류됐다. 이 중 약 20%는 ‘심각한 오류’로 판단됐다.
연구진은 5개 건강 분야에 걸쳐 총 50개의 질문을 제시해 답변을 분석했다. 백신이나 암처럼 비교적 표준화된 정보가 축적된 영역에서는 상대적으로 정확도가 높았지만, 줄기세포나 영양처럼 해석이 필요한 주제에서는 오류가 크게 늘어났다. 특히 개방형 질문에서 부정확한 답변 비율이 높게 나타났다.
● 왜 위험한가…“확신에 찬 오답”
연구진에 따르면 어떤 플랫폼도 질문에 대해 완전하고 정확한 참고문헌 목록을 제시하지 못했으며, 답변을 거부한 사례도 극히 일부에 그쳤다. 정확도뿐 아니라 오류를 확신에 찬 어조로 전달하는 방식이 이용자 오해를 키울 수 있다는 지적이다.
● 이용 급증 속 제도 공백…“건강 격차 우려”
AI 챗봇은 빠르게 확산되며 건강 상담 도구로 자리 잡고 있다. 오픈AI에 따르면 매주 2억 명 이상이 ChatGPT를 통해 건강 관련 질문을 하는 것으로 알려졌다.
이들은 “AI 챗봇은 공공 의료 정보 전달 과정에서 중요한 행동적 한계를 드러냈다”며 “대중을 대상으로 한 의료 커뮤니케이션에서 챗봇 활용 방식에 대한 재검토가 필요하다”고 밝혔다.
이어 “이들 시스템은 권위 있어 보이지만 오류를 포함한 답변을 생성할 수 있다”고 덧붙였다.
관련 논문
https://bmjopen.bmj.com/content/16/4/e112695
최현정 기자 phoebe@donga.com