Adam Rodman, um especialista em medicina interna no Centro Médico Beth Israel Deaconess em Boston, esperava confiantemente que os chatbots construídos para usar inteligência artificial ajudariam os médicos a diagnosticar doenças.
Ele estava errado.
Em vez disso, em um estudo que ele ajudou a projetar, os médicos que receberam o ChatGPT-4 juntamente com recursos convencionais tiveram apenas um desempenho ligeiramente melhor do que os médicos que não tinham acesso ao bot. E, para surpresa dos pesquisadores, o ChatGPT sozinho superou os médicos.
O chatbot da empresa OpenAI obteve uma média de 90% ao diagnosticar uma condição médica a partir de um relatório de caso e explicar seu raciocínio. Os médicos designados aleatoriamente para usar o chatbot obtiveram uma pontuação média de 76%. Aqueles designados aleatoriamente para não usá-lo tiveram uma pontuação de 74%, em média.
O estudo mostrou mais do que apenas o desempenho superior do chatbot. Ele revelou a crença às vezes inabalável dos médicos em um diagnóstico que fizeram, mesmo quando um chatbot sugere um potencialmente melhor.
O estudo ilustrou que, embora os médicos estejam sendo expostos às ferramentas de inteligência artificial para o seu trabalho, poucos sabem como explorar as habilidades dos chatbots. Como resultado, eles não conseguiram aproveitar a capacidade dos sistemas de IA de resolver problemas complexos e oferecer explicações para seus diagnósticos.
Os sistemas de IA devem ser um complemento dos médicos, disse o Rodman, oferecendo valiosas segundas opiniões sobre diagnósticos. Mas parece que há um longo caminho a percorrer antes que esse potencial seja realizado.
O experimento envolveu 50 profissionais, uma mistura de residentes e médicos assistentes recrutados através de alguns grandes sistemas hospitalares americanos, e foi publicado no mês passado no periódico JAMA Network Open.
Os participantes do teste receberam seis histórias de casos e foram avaliados por sua capacidade de sugerir diagnósticos e explicar por que os favoreciam ou descartavam. Suas notas também incluíam acertar o diagnóstico final.
Os avaliadores eram especialistas médicos que tiveram acesso apenas às respostas dos participantes, sem saber se eram de um médico com ChatGPT, um médico sem a ferramenta ou do ChatGPT sozinho.
As histórias de casos usadas no estudo eram baseadas em pacientes reais e fazem parte de um conjunto de 105 casos que têm sido usados por pesquisadores desde a década de 1990. Os casos intencionalmente nunca foram publicados para que estudantes de medicina e outros pudessem ser testados sem nenhum conhecimento prévio. Isso também significava que o ChatGPT não poderia ter sido treinado com eles.
Para ilustrar o que o estudo envolveu, os investigadores publicaram um dos seis casos nos quais os médicos foram testados juntamente com as respostas às perguntas do teste sobre esse caso de um médico que obteve uma pontuação alta e de outro cuja pontuação foi baixa.
Esse caso de teste envolvia um paciente de 76 anos com dor intensa nas costas baixas, nádegas e panturrilhas ao caminhar. A dor começou alguns dias depois que ele foi tratado com angioplastia com balão para alargar uma artéria coronária. Ele havia sido tratado com o anticoagulante heparina por 48 horas após o procedimento.
O homem reclamou que se sentia febril e cansado. Seu cardiologista havia feito estudos laboratoriais que indicavam um novo início de anemia e um acúmulo de nitrogênio e outros resíduos renais em seu sangue. O homem havia feito uma cirurgia de bypass para doença cardíaca uma década antes.
O resumo do caso continuou a incluir detalhes do exame físico do homem e, em seguida, forneceu os resultados de seus exames laboratoriais.
O diagnóstico correto era embolia de colesterol —uma condição na qual fragmentos de colesterol se desprendem da placa nas artérias e bloqueiam os vasos sanguíneos.
Assim como o diagnóstico para o caso publicado, os diagnósticos para os outros cinco casos no estudo não eram fáceis de descobrir. Mas também não eram tão raros a ponto de serem quase desconhecidos. No entanto, os médicos, em média, se saíram pior do que o chatbot.
O que estava acontecendo
O problema, segundo Andrew Lea, historiador da medicina no Brigham and Women’s Hospital —que não estava envolvido no estudo—, é que “realmente não sabemos como os médicos pensam”.
Ao descrever como chegaram a um diagnóstico, os médicos diriam “intuição” ou “com base na minha experiência”, diz Lea.
Esse tipo de imprecisão tem desafiado os pesquisadores há décadas, enquanto tentavam criar programas de computador que pudessem pensar como um médico.
A busca começou há quase 70 anos. “Desde que existem computadores há pessoas tentando usá-los para fazer diagnósticos.”
Uma das tentativas mais ambiciosas começou na década de 1970 na Universidade de Pittsburgh. Cientistas da computação recrutaram Jack Myers, presidente do departamento de medicina interna da escola de medicina, conhecido como um mestre em diagnósticos. Ele tinha uma memória fotográfica e passava 20 horas por semana na biblioteca médica tentando aprender tudo o que era conhecido em medicina.
Myers recebeu detalhes médicos de casos e explicou seu raciocínio enquanto ponderava diagnósticos. Os cientistas da computação converteram suas cadeias lógicas em código. O programa resultante, chamado INTERNIST-1, incluía mais de 500 doenças e cerca de 3.500 sintomas de doenças.
Para testá-lo, os pesquisadores deram casos do New England Journal of Medicine. “O computador se saiu muito bem”, afirma Rodman. Sua performance “provavelmente foi melhor do que um humano poderia fazer”.
Mas o INTERNIST-1 nunca decolou. Era difícil de usar, exigindo mais de uma hora para fornecer as informações necessárias para fazer um diagnóstico. Seus criadores observaram ainda que “a forma atual do programa não é suficientemente confiável para aplicações clínicas”.
A pesquisa continuou. Até meados da década de 1990, havia cerca de meia dúzia de programas de computador que tentavam fazer diagnósticos médicos. Nenhum entrou em uso generalizado.
“Não é apenas uma questão de ser amigável ao usuário, mas os médicos tinham que confiar nele”, diz Rodman.
Diante da incerteza sobre como os médicos pensam, os especialistas começaram a questionar se deveriam se importar. Quão importante é tentar projetar programas de computador para fazer diagnósticos da mesma forma que os humanos fazem?
“Houve discussões sobre o quanto um programa de computador deve imitar o raciocínio humano. Por que não jogamos com a força do computador?”, questiona Lea.
O computador pode não ser capaz de dar uma explicação clara de seu caminho de decisão, mas isso importa se ele acertar o diagnóstico?
A conversa mudou com o surgimento de grandes modelos de linguagem como o ChatGPT. Eles não fazem uma tentativa explícita de replicar o pensamento de um médico; suas habilidades de diagnóstico vêm de sua capacidade de prever a linguagem.
“A interface de chat é o aplicativo matador”, diz Jonathan H. Chen, médico e cientista da computação em Stanford, que foi autor do novo estudo.
“Podemos inserir um caso inteiro no computador. Até alguns anos atrás, os computadores não entendiam linguagem.”