Estou me divertindo nesta semana com as matérias completamente diferentes publicadas pelos maiores veículos da imprensa estadunidense sobre a utilidade da inteligência artificial para a medicina. Segundo o Washington Post, “o ChatGPT pouco ajuda médicos a fazer diagnósticos“. Para o New York Times, ao contrário, o ChatGPT “ganha dos médicos em matéria de diagnosticar doenças”. Fica parecendo que o ChatGPT ao mesmo tempo presta e não presta.
O divertido é que as duas notícias tratam do mesmo estudo, publicado em outubro no periódico JAMA Network Open, e as chamadas das duas matérias estão tecnicamente corretas, mas nenhuma menciona a conclusão mais importante: o ChatGPT é de pouca ajuda apenas porque os médicos não sabem usar a ferramenta.
Cinquenta médicos em três hospitais diferentes toparam se submeter a um teste que consistia em diagnosticar, em uma hora, relatórios escritos de seis casos clínicos preparados pelos autores do estudo. Chegar ao diagnóstico correto não bastava; o teste exigia elaborar três diagnósticos possíveis; relatar os indícios contra e a favor de cada um; e apontar o diagnóstico mais provável, e os exames que poderiam confirmar o diagnóstico. O resultado do teste, como uma prova na faculdade, foi então corrigido por avaliadores externos, com nota de zero a dez.
Metade dos médicos podia consultar o ChatGPT, ferramenta de inteligência artificial disponível comercialmente; a outra metade, não. Resultado: nota 7.4 para uns, 7.6 para os outros –donde a chamada da matéria do Washington Post.
Mas os autores também experimentaram, eles mesmos, consultar o ChatGPT com a descrição dos seis casos clínicos, e dar os testes, repetidos três vezes, para os mesmos avaliadores. Resultado: nota 9.5 –donde a chamada do New York Times.
Porém, a conclusão mais óbvia, para mim, é outra. Se o ChatGPT na mão dos autores dá conta do recado, mas na mão dos médicos não faz diferença, é porque os médicos que fizeram o teste não sabem usar a ferramenta à sua disposição. Se soubessem, teriam tido a cola perfeita, e tirado ao menos 9.5, como o algoritmo sozinho.
O problema é que a qualidade do resultado de algoritmos do tipo large language models, como o ChatGPT, depende crucialmente da formulação do prompt, a requisição feita ao algoritmo. Os autores do estudo, que sabiam o que estavam fazendo, formularam sua requisição de maneira eficaz, com instruções diretas, completas, e todas as informações que os médicos receberam; já os médicos que tiveram acesso à mesma ferramenta obviamente não souberam usá-la. Se aprenderem, poderão gabaritar diagnósticos em muito menos tempo.
ChatGPT obviamente não sabe nada, muito menos é médico: é apenas um algoritmo que gera texto usando a probabilidade de ocorrência de palavras no material usado para seu treino. Dada muita energia, oportunidade para tentativa e erro e feedback de instrutores, o resultado, para médicos e algoritmo, é geração de padrões, em uns pelo cérebro, em outros pelos seus circuitos.
A diferença fundamental é que somente um deles entende o que e por que está fazendo, e ainda se importa profundamente com o resultado –a começar pelo exame clínico, feito em pessoa, que levanta os dados para o diagnóstico. O ChatGPT só faz o que faz porque usa os padrões do conhecimento gerado por médicos. Sem médicos, o algoritmo não tem o que aprender, e para no tempo.
LINK PRESENTE: Gostou deste texto? Assinante pode liberar sete acessos gratuitos de qualquer link por dia. Basta clicar no F azul abaixo.