IA: alucinações são mais frequentes em modelos mais novos - 06/05/2025 - Tec

No mês passado, um robô de IA (inteligência artificial) que gerencia o suporte técnico da Cursor, uma ferramenta emergente para programadores de computador, alertou vários clientes sobre uma mudança na política da empresa. Ele informou que eles não poderiam mais usar o Cursor em mais de um computador.

Em posts irritados em fóruns da internet, os clientes reclamaram. Alguns cancelaram suas contas na Cursor. E alguns ficaram ainda mais irritados quando perceberam o que havia acontecido: a IA havia anunciado uma mudança de política que não existia.

“Não temos tal política. Você é livre para usar o Cursor em várias máquinas”, escreveu o CEO e cofundador da empresa, Michael Truell, em um post no Reddit. “Infelizmente, esta é uma resposta incorreta de um bot de suporte de IA de primeira linha.”

Mais de dois anos após o surgimento do ChatGPT, empresas de tecnologia, trabalhadores de escritório e consumidores comuns estão usando bots de IA para uma variedade cada vez maior de tarefas. Mas ainda não há como garantir que esses sistemas produzam informações precisas.

As tecnologias mais novas e poderosas —os chamados sistemas de raciocínio de empresas como OpenAI, Google e a startup chinesa DeepSeek— estão gerando mais erros, não menos. Enquanto suas habilidades matemáticas melhoraram notavelmente, seu domínio sobre os fatos ficou mais instável. Não está totalmente claro o porquê disso.

Os bots de IA atuais são baseados em sistemas matemáticos complexos que aprendem suas habilidades analisando enormes quantidades de dados digitais. Eles não decidem —e não podem decidir— o que é verdadeiro e o que é falso. Às vezes, simplesmente inventam coisas, um fenômeno que alguns pesquisadores de IA chamam de alucinações. Em um teste, as taxas de alucinação dos sistemas de IA mais recentes chegaram a 79%.

Esses sistemas usam probabilidades matemáticas para adivinhar a melhor resposta, não um conjunto rígido de regras definidas por engenheiros humanos. Portanto, cometem certo número de erros. “Apesar de nossos melhores esforços, eles sempre vão alucinar”, disse Amr Awadallah, ex-executivo do Google e CEO da Vectara, uma startup que constrói ferramentas de IA para empresas. “Isso nunca vai desaparecer.”

Por vários anos, esse fenômeno levantou preocupações sobre a confiabilidade dos sistemas. Embora sejam úteis em algumas situações —como escrever trabalhos acadêmicos, resumir documentos de escritório e gerar código de computador— seus erros podem causar problemas.

Os bots de IA vinculados a mecanismos de busca como Google e Bing às vezes geram resultados de pesquisa ridiculamente errados. Se você perguntar sobre uma boa maratona na Costa Oeste, eles podem sugerir uma corrida na Filadélfia. Se informarem o número de residências em Illinois, podem citar uma fonte que não inclui essa informação.

Essas alucinações podem não ser um grande problema para muitas pessoas, mas são uma questão séria para quem usa a tecnologia com documentos judiciais, informações médicas ou dados comerciais sensíveis.

“Você gasta muito tempo tentando descobrir quais respostas são factuais e quais não são”, disse Pratik Verma, cofundador e CEO da Okahu, uma empresa que ajuda negócios a navegar pelo problema das alucinações. “Não lidar adequadamente com esses erros basicamente elimina o valor dos sistemas de IA, que deveriam automatizar tarefas para você.”

A Cursor e Truell não responderam aos pedidos de comentário.

Por mais de dois anos, empresas como OpenAI e Google melhoraram constantemente seus sistemas de IA e reduziram a frequência desses erros. Mas com o uso de novos sistemas de raciocínio, os erros estão aumentando. Os sistemas mais recentes da OpenAI alucinam a uma taxa maior do que o sistema anterior da empresa, de acordo com os próprios testes da companhia.

A empresa descobriu que o o3 —seu sistema mais poderoso— alucinou 33% das vezes ao executar seu teste de referência PersonQA, que envolve responder perguntas sobre figuras públicas. Isso é mais do que o dobro da taxa de alucinação do sistema de raciocínio anterior da OpenAI, chamado o1. O novo o4-mini alucinou a uma taxa ainda maior: 48%.

Ao executar outro teste chamado SimpleQA, que faz perguntas mais gerais, as taxas de alucinação para o3 e o4-mini foram de 51% e 79%. O sistema anterior, o1, alucinou 44% das vezes.

Em um artigo detalhando os testes, a OpenAI disse que mais pesquisas eram necessárias para entender a causa desses resultados. Como os sistemas de IA aprendem com mais dados do que as pessoas conseguem processar, os especialistas têm dificuldade em determinar por que eles se comportam da maneira que o fazem.

Testes realizados por empresas independentes e pesquisadores indicam que as taxas de alucinação também estão aumentando para modelos de raciocínio de empresas como Google e DeepSeek.

Desde o final de 2023, a empresa de Awadallah, Vectara, tem monitorado com que frequência os chatbots se desviam da verdade. A empresa pede que esses sistemas realizem uma tarefa simples que é facilmente verificável: resumir reportagens noticiosas específicas. Mesmo assim, os chatbots persistentemente inventam informações.

A pesquisa original da Vectara estimou que, nessa situação, os chatbots inventavam informações pelo menos 3% das vezes e, às vezes, até 27%.

No um ano e meio desde então, empresas como OpenAI e Google reduziram esses números para a faixa de 1% ou 2%. Outras, como a Anthropic, ficaram em torno de 4%. Mas as taxas de alucinação neste teste aumentaram com os sistemas de raciocínio. O sistema de raciocínio da DeepSeek, R1, alucinou 14,3% das vezes. O o3 da OpenAI subiu para 6,8%.

(O New York Times processou a OpenAI e sua parceira, Microsoft, acusando-as de violação de direitos autorais em relação ao conteúdo de notícias relacionado a sistemas de IA. OpenAI e Microsoft negaram essas acusações.)

Por anos, empresas como a OpenAI confiaram em um conceito simples: quanto mais dados da internet alimentassem seus sistemas de IA, melhor seria o desempenho deles. Mas eles usaram praticamente todo o texto em inglês disponível na internet, o que significava que precisavam de uma nova maneira de melhorar seus chatbots.

Então, essas empresas estão se apoiando mais fortemente em uma técnica que os cientistas chamam de aprendizado por reforço. Com esse processo, um sistema pode aprender comportamentos por tentativa e erro. Está funcionando bem em certas áreas, como matemática e programação de computadores, mas ficando aquém em outras.

“A maneira como esses sistemas são treinados, eles começarão a se concentrar em uma tarefa —e começarão a esquecer outras”, disse Laura Perez-Beltrachini, pesquisadora da Universidade de Edimburgo que está entre uma equipe examinando de perto o problema das alucinações.

Outro problema é que os modelos de raciocínio são projetados para passar tempo “pensando” em problemas complexos antes de chegar a uma resposta. À medida que tentam resolver um problema passo a passo, correm o risco de alucinar em cada etapa. Os erros podem se acumular conforme passam mais tempo pensando.

Os bots mais recentes revelam cada passo aos usuários, o que significa que os usuários também podem ver cada erro. Pesquisadores também descobriram que, em muitos casos, os passos exibidos por um bot não têm relação com a resposta que ele eventualmente fornece.

“O que o sistema diz que está pensando não é necessariamente o que ele está pensando”, disse Aryo Pradipta Gema, pesquisador de IA da Universidade de Edimburgo e pesquisador da Anthropic.

Source link

D	S	T	Q	Q	S	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

O que há de novo

quais as denúncias e o que a empresa diz sobre elas

Revisão da Moody’s acaba com sonho do grau de investimento

Brasil recebe certificado de livre de febre aftosa sem vacinação

IA: alucinações são mais frequentes em modelos mais novos – 06/05/2025 – Tec

Marisa Maiô conquistou o Brasil; quem é o dono? – 07/06/2025 – Ronaldo Lemos

Nintendo Switch 2 esgota no Brasil no 1º dia de vendas – 05/06/2025 – Tec

Nvidia leva IA de ponta para polo de tecnologia em Goiás – 05/06/2025 – Tec

Nintendo Switch 2 é lançado hoje; conheça o console – 05/06/2025 – Tec

Mercado, táxi e pizza online anteciparam domínio dos apps – 04/06/2025 – Tec

Instagram rastreou donos de Android na internet sem avisar – 04/06/2025 – Tec

Jogos do Brasileiro mostram mais bets do que bola rolando – 07/06/2025 – Esporte

Há 5 anos, consórcio deu transparência a dados da pandemia – 07/06/2025 – Equilíbrio e Saúde

Conferência sobre o oceano da ONU luta para ser relevante – 07/06/2025 – Ambiente

Nossas escolhas

Jogos do Brasileiro mostram mais bets do que bola rolando – 07/06/2025 – Esporte

Libertadores não terá os dois mais bem colocados na final – 07/06/2025 – O Mundo É uma Bola

Em plano de Ancelotti ante Equador, faltou a melhor parte – 07/06/2025 – Tostão

Mais popular

JD defende Donald Trump em embate público com Musk

Israel anuncia morte de terrorista que sequestrou família Bibas

Era Trump coloca em xeque papel das organizações internacionais

Assine para atualizações

O que há de novo

IA: alucinações são mais frequentes em modelos mais novos – 06/05/2025 – Tec

Folha Mercado

Related Posts