보도에 따르면 ChatGPT는 의료 검사를 통과할 수 있는 능력을 갖추고 있지만, 새로운 연구에 따르면 흉통을 호소하는 환자의 입원 여부 판단과 같은 심각한 건강 평가에 ChatGPT를 의존하는 것은 현명하지 못한 결정일 수 있습니다.
ChatGPT는 영리하지만 핵심을 파악하는 데는 실패합니다
PLOS ONE 저널에 발표된 연구에서 ChatGPT는 수천 명의 흉통 환자를 대상으로 한 연구에서 동일한 환자에 대해 일관되지 않은 심장 질환 위험 수준을 반환하여 다른 결론을 제시했습니다.
워싱턴 주립대학교 엘슨 S. 플로이드 의과대학의 연구원이자 이번 연구의 주저자인 토마스 헤스턴 박사는 다음과 같이 말했습니다
"ChatGPT는 일관성 있게 작동하지 않았습니다. 동일한 데이터를 제공했을 때, ChatGPT는 위험도를 낮게 평가했다가 다음번에는 중간 위험도로 평가했고, 때로는 높은 위험도로 평가하기도 했습니다."
출처: WSU .
연구원들에 따르면, 이 문제는 최신 버전의 소프트웨어인 ChatGPT-4에 내장된 무작위성 때문일 가능성이 높습니다. 무작위성은 자연어를 모방하여 답변을 다양화하는 데 도움이 되기 때문입니다. 그러나 헤스턴은 이러한 수준의 무작위성이 의료 분야의 사용 사례에는 적합하지 않으며, 일관된 단일 답변을 요구하기 때문에 위험할 수 있다고 말합니다.
흉통은 병원 응급실에서 흔히 접하는 증상이기 때문에 의사들은 환자의 상태가 얼마나 긴급한지 신속하게 평가해야 합니다.
증상 만으로 쉽게 식별 dent 수 있지만 , 위험도가 낮은 환자들은 더욱 까다롭다"며, 특히 외래 진료로 귀가시킬지 아니면 입원시킬지 결정해야 할 때 어려움을 느낀다고 말했다.
다른 시스템들이 더 신뢰할 만한 것으로 입증되었습니다
ChatGPT와 같은 AI 신경망은 방대한 데이터 세트와 수많은 매개변수로 학습되어 수십억 개의 변수를 단 몇 초 만에 평가할 수 있으므로 복잡한 시나리오를 훨씬 빠르고 상세하게 이해할 수 있습니다.
헤스턴 박사는 의료 전문가들이 심장 질환 위험 평가에 주로 HEART와 TIMI라는 두 가지 모델을 사용한다고 말하며, 나이, 병력, 증상 등 여러 변수를 활용하는 소프트웨어 방식이 ChatGPT보다 변수 수가 적어 선호한다고 밝혔습니다.
이번 연구를 위해 헤스턴 박사와 같은 대학 세인트루이스 캠퍼스의 로렌스 루이스 박사는 각각 10,000개의 무작위로 시뮬레이션된 사례로 구성된 세 가지 데이터 세트를 사용했습니다. 첫 번째 데이터 세트는 심장 척도에서 추출한 5개의 변수를 포함했고, 두 번째 데이터 세트는 TIMI 척도에서 추출한 7개의 변수를 포함했으며, 세 번째 데이터 세트는 무작위로 선택된 44개의 변수를 포함했습니다.
첫 번째와 두 번째 데이터 세트의 경우, ChatGPT는 TIMI 및 HEART 점수를 고정값으로 사용했을 때와 비교하여 개별 시뮬레이션 사례에 대해 45%~48%의 확률로 일관성 없는 위험 평가를 내렸습니다. 그러나 세 번째 데이터 세트의 경우, 여러 번 실행했음에도 불구하고 ChatGPT는 동일한 사례에 대해 서로 다른 결과를 반환했습니다.
연구 결과가 만족스럽지 못했음에도 불구하고 기술이 발전함에 따라 의료 분야에서 인공지능(GenAI)의 잠재력이 더욱 커질 것이라고 생각합니다 . 그의 말에 따르면, 의료 기록을 시스템에 업로드하고 응급 상황 발생 시 의사는 ChatGPT에게 환자에 대한 가장 중요한 정보를 요청할 수 있습니다. 또한 ChatGPT에게 가능한 진단과 각 진단에 대한 근거를 제시해 달라고 요청할 수도 있어 의사가 문제를 파악하는 데 도움이 될 것입니다.

