보고서에 따르면 ChatGPT는 건강 검진을 통과할 수 있는 능력이 있지만, 새로운 연구에 따르면 흉통이 있는 환자가 입원해야 하는 경우와 같은 일부 심각한 건강 평가에 ChatGPT에 의존하는 것은 현명한 결정이 아닐 것이라고 합니다.
ChatGPT는 영리하지만 심장 평가에 실패합니다.
PLOS ONE 저널에 발표된 연구에서 ChatGPT는 수천 명의 흉통 환자가 참여한 연구에서 동일한 환자에 대해 일관되지 않은 심장 위험 수준을 반환함으로써 다른 결론을 제시했습니다.
이번 연구의 주 저자이기도 한 워싱턴 주립대학교 엘슨 S. 플로이드 의과대학의 연구원인 토마스 헤스턴 박사는 다음과 같이 말했습니다.
“ChatGPT는 일관된 방식으로 행동하지 않았습니다. 정확히 동일한 데이터가 주어지면 ChatGPT는 낮은 위험 점수를 부여한 다음 다음 번에는 중간 위험 점수를 부여하고 때로는 높은 위험을 부여하기도 합니다.”
출처: WSU .
연구원들에 따르면 이 문제는 아마도 최신 버전의 소프트웨어인 ChatGPT-4에 내장된 무작위성 때문일 것입니다. 이는 자연어를 모방하기 위해 답변을 다양화하는 데 도움이 되기 때문입니다. 그러나 Heston은 이와 동일한 수준의 무작위성은 의료 분야의 사용 사례에는 효과가 없으며 단일하고 일관된 답변을 요구하기 때문에 위험할 수 있다고 말합니다.
흉통은 병원 응급실에서 매일 나타나는 증상이므로 의사는 환자 상태의 긴급성을 신속하게 평가해야 합니다.
매우 심각한 환자 중 일부는 증상 으로 쉽게 식별 dent 더 까다로운 환자는 위험이 낮은 환자라고 Heston 박사는 말했습니다. 특히 누군가가 집으로 보내질 만큼 위험이 없는지 결정해야 할 때 더욱 그렇습니다. 외래 진료 서비스를 받거나 입원해야 합니다.
다른 시스템의 신뢰성이 더 높은 것으로 입증됨
대규모 데이터세트와 함께 수많은 매개변수에 대해 학습된 ChatGPT와 같은 AI 신경망은 수십억 개의 변수를 몇 초 만에 평가할 수 있으므로 복잡한 시나리오를 훨씬 더 빠르고 자세하게 이해할 수 있는 능력을 제공합니다.
Heston 박사는 의료 전문가들이 심장 위험 평가를 위해 HEART와 TIMI라는 두 가지 모델을 주로 사용하며, 연령, 건강 이력, 증상 등 다양한 변수를 사용하고 ChatGPT보다 더 적은 변수에 의존하기 때문에 소프트웨어를 좋아한다고 말합니다.
연구를 위해 같은 대학교 세인트루이스 캠퍼스의 Heston 박사와 그의 동료인 Dr. Lawrence Lewis는 각각 10,000개의 무작위로 시뮬레이션된 사례로 구성된 3개의 데이터 세트를 사용했습니다. 한 데이터 세트에는 심장 척도의 5개 변수가 있었습니다. 다른 하나는 TIMI의 7개 변수를 포함했습니다. 세 번째에는 무작위로 선택된 44개의 변수가 있었습니다.
처음 두 데이터 세트의 경우 ChatGPT는 TIMI 및 HEART의 일정한 점수와 비교하여 개별 시뮬레이션 사례에 대해 45%~48%의 시간 동안 일관되지 않은 위험 평가를 생성했습니다. 그러나 세 번째 데이터 세트의 경우 ChatGPT는 여러 번 실행했음에도 불구하고 동일한 사례에 대해 다른 결과를 반환했습니다.
연구 의 불만족스러운 결과에도 불구하고 기술이 발전함에 따라 의료 분야에서 GenAI의 잠재력이 더 커진다고 생각합니다 . 그에 따르면 의료 기록을 시스템에 업로드할 수 있으며 응급 상황이 발생하면 의사는 ChatGPT에 환자에 대한 가장 중요한 사실을 제공하도록 요청할 수 있습니다. 또한 몇 가지 가능한 진단과 각 진단에 대한 추론을 생성하도록 요청받을 수 있으며, 이는 의사가 문제를 파악하는 데 도움이 됩니다.
Cryptopolitan Academy : 2025 년에 돈을 키우고 싶습니까? 다가오는 웹 클래스에서 DeFi 로 수행하는 방법을 배우십시오 당신의 지점을 저장하십시오