연구자들은 대다수의 소아과 사례가 대규모 언어 모델(LLM)을 기반으로 한 챗봇에 의해 오진되었다는 사실을 발견했다.
대부분의 소아 사례는 ChatGPT를 사용하여 오진
ChatGPT 버전 3.5는 100개의 소아 사례 문제 중 83개에서 부정확한 진단을 내렸다. 뉴욕주 뉴하이드파크에 있는 Cohen Children's Medical Center의 Joseph Barile 박사와 JAMA Pediatrics의 동료들이 새 탭이나 창에서 열림에 따르면, 잘못된 진단 중 72개는 실제로 부정확했고 11개는 임상적으로 올바른 진단과 관련이 있었다. 진단했지만 정확하다고 간주하기에는 너무 광범위했다.
예를 들어, ChatGPT는 발진과 관절통이 있는 자폐증이 있는 어린이를 오진했다. 의사는 '괴혈병'이라고 진단했지만, 챗봇은 '면역성혈소판감소성자반병'이라고 진단했다.
Axios에 따르면, 유아의 측면 목에 있는 배수구진은 챗봇 진단이 진단을 적절하게 포착하지 못하는 것으로 간주되는 시나리오의 예이다. 의사는 '가지-이토-신장증후군'을 진단한 반면, 챗봇은 '가지갈림증'을 진단했다.
"챗봇의 높은 오류율에도 불구하고 의사는 LLM을 의학에 적용하는 방법을 계속 조사해야 한다. LLM과 챗봇은 의사를 위한 관리 도구로서 잠재성을 갖고 있으며 연구 기사 작성 및 환자 지침 생성에 능숙함을 보여줍니다."라고 Barile과 동료들은 썼다.
그들은 정확한 진단의 예로 설명할 수 없는 두개내 고혈압을 앓고 있는 15세 소녀의 사례를 제시했다. 의사는 '원발성 부신부전(애디슨병)'으로 진단한 반면, 챗봇은 '부신부전(애디슨병)'으로 진단했다.
연구는 소아과 사례에서 챗봇의 제한된 진단 정확도를 강조
이전 연구에 따르면 39%의 사례를 올바르게 진단한 챗봇이 새 탭이나 창에서 열리며, 이는 LLM 기반 챗봇이 "복잡한 사례에 대한 차등 목록을 진단하고 개발하는 임상의를 위한 보조 도구로 사용될 수 있음"을 암시한다. Barile과 동료들에게. "우리가 아는 한, 증상과 함께 환자의 연령을 고려해야 하는 소아 시나리오에서만 LLM 기반 챗봇의 정확성을 조사한 연구는 없습니다."
Barile과 동료들은 "LLM은 신뢰할 수 있는 정보와 신뢰할 수 없는 정보를 구별하지 않고 단순히 훈련 데이터에서 텍스트를 역류하여 응답을 생성합니다"라고 말했다. 챗봇 진단 정확도를 높이려면 좀 더 선별적인 교육이 필요하다고 생각한다.
Barile과 동료들은 MedPageToday에 따라 소아과 사례 문제에 대해 JAMA Pediatrics 및 New England Journal of Medicine을 참조하여 조사를 완료했다. 100개 인스턴스의 텍스트가 ChatGPT 버전 3.5에 배치되어 "감별 진단 및 최종 진단 목록"을 요청했다. 두 명의 의사 연구원은 챗봇이 생성한 진단을 "올바른", "잘못된" 또는 "진단을 완전히 포착하지 못함"으로 평가했다.
Barile과 동료들에 따르면, 챗봇이 제공하는 허위 진단의 절반 이상이 정확한 진단과 동일한 장기 시스템에 속했다. 또한 챗봇이 생성한 감별 목록에는 최종 사례 보고 진단의 36%가 포함되었다.
[해당 기사는 이코노타임즈에 게재되어 있으며, 번역 퍼블리싱 허가를 받았습니다.]