Segundo relatos, o ChatGPT tem a capacidade de passar em exames médicos, mas não seria prudente confiar nele para algumas avaliações de saúde sérias, por exemplo, se um paciente com dor no peito precisar ser hospitalizado, de acordo com uma nova pesquisa.
O ChatGPT é inteligente, mas falha na avaliação do coração
Em uma pesquisa publicada na revista PLOS ONE, o ChatGPT apresentou conclusões diferentes, retornando níveis inconsistentes de risco cardíaco para o mesmo paciente em um estudo que envolveu milhares de pacientes com dor no peito.
Um pesquisador da Faculdade de Medicina Elson S. Floyd da Universidade Estadual de Washington, o Dr. Thomas Heston, que também foi o autor principal da pesquisa, disse:
“O ChatGPT não estava se comportando de maneira consistente; com os mesmos dados, o ChatGPT atribuía uma pontuação de baixo risco, na vez seguinte um risco intermediário e, ocasionalmente, chegava a atribuir um alto risco.”
Fonte: WSU .
Segundo os pesquisadores, o problema provavelmente se deve ao grau de aleatoriedade presente na versão mais recente do software, o ChatGPT-4, pois isso o ajuda a diversificar suas respostas para imitar a linguagem natural. Mas Heston afirma que esse mesmo nível de aleatoriedade não funciona para aplicações na área da saúde e pode ser perigoso, já que exige uma resposta única e consistente.
Os médicos precisam avaliar rapidamente a urgência do quadro clínico do paciente, visto que dores no peito são uma queixa comum em salas de emergência hospitalares.
Alguns dos pacientes mais graves podem ser facilmente identificados dent seus sintomas , mas os mais difíceis de diagnosticar são aqueles com menor risco, disse o Dr. Heston, especialmente quando é preciso decidir se o risco de alguém estar baixo o suficiente para receber alta com tratamento ambulatorial ou se a internação é necessária.
Outros sistemas se mostram mais confiáveis
Uma rede neural de IA como o ChatGPT, treinada com um grande número de parâmetros e conjuntos de dados enormes, consegue avaliar bilhões de variáveis em segundos, o que lhe confere a capacidade de compreender um cenário complexo mais rapidamente e de forma muito mais detalhada.
O Dr. Heston afirma que os profissionais médicos utilizam principalmente dois modelos para avaliação de risco cardíaco, chamados HEART e TIMI, e que prefere softwares porque eles usam diversas variáveis, incluindo idade, histórico de saúde e sintomas, e dependem de menos variáveis do que o ChatGPT.
Para o estudo de pesquisa, o Dr. Heston e seu colega, o Dr. Lawrence Lewis, do campus de St. Louis da mesma universidade, utilizaram três conjuntos de dados com 10.000 casos simulados aleatoriamente cada. Um conjunto de dados continha cinco variáveis da escala cardíaca; outro incluía sete variáveis do TIMI; e o terceiro tinha 44 variáveis que foram selecionadas aleatoriamente.
Nos dois primeiros conjuntos de dados, o ChatGPT apresentou avaliações de risco inconsistentes em 45% a 48% dos casos simulados individualmente, em comparação com a pontuação constante do TIMI e do HEART. Já no terceiro conjunto de dados, apesar de múltiplas execuções, o ChatGPT retornou resultados diferentes para os mesmos casos.
O Dr. Heston acredita que existe um grande potencial para a Inteligência Artificial Geral (GenAI) na área da saúde à medida que a tecnologia avança, apesar dos resultados insatisfatórios do estudo . Segundo ele, os prontuários médicos podem ser carregados nos sistemas e, em caso de emergência, os médicos podem solicitar ao ChatGPT que forneça as informações mais importantes sobre o paciente. Também é possível solicitar que o sistema gere possíveis diagnósticos e a justificativa para cada um, o que ajudará os médicos a identificar a causa do problema.

