Como os grandes sistemas de inteligência artificial generativa compreendem o mundo? No atual consenso científico, a tecnologia e suas milhões de linhas de código são como uma esfinge, indecifráveis. A razão disso seria os bilhões ou trilhões de cálculos envolvidos no processo.
O tema divide formuladores de políticas públicas, que pedem explicações sobre como funcionam os grandes modelos de linguagem, desenvolvedores mesmerizados pela complexidade do que criaram e céticos que chamam as IAs generativas de “papagaios estatísticos” —os programas recebem dados, os processam e devolvem a resposta mais provável.
As duas startups mais bem-sucedidas do setor —a criadora do ChatGPT, OpenAI, e a desenvolvedora do Claude, Anthropic— adotaram abordagens diferentes para o problema, até então, sem solução. A primeira quer usar jogos para fazer a IA generativa justificar passo a passo as suas decisões. A segunda colocou o modelo de linguagem em uma ressonância magnética para encontrar padrões na rede neural —programa por trás das IAs que simula um sistema nervoso.
“Modelos de linguagem são vistos como caixas pretas e isso dificulta a confiança neles”, diz Dario Amodei, o chefe-executivo da Anthropic, a principal concorrente do ChatGPT e desenvolvedora do chatbot Claude, que estreou no Brasil no começo deste mês (1º). “Mesmo eu ainda não consigo cravar se uma IA generativa é segura”, diz o executivo, que teve passagens por OpenAI, Google e pela chinesa Baidu.
Pesquisadores da Anthropic trabalham em um método para tentar explicar, ao menos, os comportamentos de sua tecnologia. “Adotamos uma abordagem já vista em estudos de neurociência, que é relacionar atividades mentais com imagens de ressonância do cérebro, para mapear quais áreas do sistema nervoso central são ativadas”, disse Michael Sellitto, diretor para assuntos globais da Anthropic.
O primeiro passo do quebra-cabeças foi encontrar as peças: a partir da interação com grandes modelos de inteligência artificial, a Anthropic depreendeu que o sistema de inteligência artificial elabora as respostas a partir de milhões de “recursos mentais”. Tratam-se de referências, que vão de abstrações como conflito de interesses, a conceitos científicos como elementos químicos e a imagens de lugares.
Até então, os diagnósticos do que se passava no interior de grandes modelos de linguagem se limitavam a um punhado de números incompreensíveis à mente humana.
Em resumo, uma IA generativa funciona assim: o programa de computador converte textos, áudios ou imagens recebidos em parâmetros numéricos —chamados no jargão de neurônios — , processa essas referências numéricas para gerar a resposta e, por fim, as transforma novamente em textos, áudios ou imagens.
Em testes internos do Claude, a Anthropic percebeu que cada conceito está relacionado a certos neurônios e cada neurônio tem ligação com vários conceitos, numa relação de mão dupla. Assim, a empresa conseguiu identificar padrões e começou a mapear os “recursos mentais” articulados pelo Claude. “Já encontramos mais de 30 milhões”, diz Sellitto.
Amodei pondera que o trabalho ainda está no começo, tendo em vista a complexidade dos grandes modelos de IA que operam com centenas de bilhões de parâmetros. “Compreender as representações usadas pelos modelos ainda não revelou como esses conceitos são articulados, ainda precisamos entender os circuitos que os envolvem.”
Além das virtudes de sua tecnologia, a Anthropic também começou a achar os “recursos mentais” que estavam por trás de traços ruins da IA generativa. No mapa, havia elementos como a “bajulação” que torna os modelos puxa-sacos, “manipulação”, “tendências a guardar segredos e perseguir poder”.
“Isso não significa que o modelo sempre será bajulador, mostra que ele pode ser”, diz o artigo.
Embora seja programado para não criar mensagens fraudulentas, o Claude tem, por exemplo, um recurso sobre “fraudes” para reconhecer uma mensagem não verídica e alertar o usuário.
A Anthropic também demonstrou que é possível manipular os conceitos, para ampliá-los ou suprimi-los em busca de resultados mais próximos ao desejado. Com isso, é possível suprimir a tendência de sistemas de inteligência artificial de serem puxa-sacos, mas também abre portas para fazer as IAs quebrarem regras.
O estudo também dá dicas de como os modelos de linguagem relacionam assuntos por afinidade. “Conflito interno”, por exemplo, fica próximo no mapa a términos de relacionamentos, a inconsistências lógicas e ao livro “Catch-22”, de Joseph Heller. “Essa capacidade de abstração pode ser a origem da excelente habilidade do modelo de criar analogias”, afirma o artigo.
Em 17 de julho, a criadora do ChatGPT publicou a sua própria contribuição para tornar os modelos de IA “mais legíveis” para humanos. A solução foi treinar uma inteligência artificial assistente menos inteligente para avaliar a legibilidade da resposta da IA principal, que era o GPT-4 mais robusto.
Os pesquisadores pedem, então, que os modelos superem um ao outro, em busca de um resultado satisfatório. O teste foi feito com problemas de matemática.
A estratégia da OpenAI teve base em um artigo de pesquisadores da Universidade de Toronto, que buscou desenvolver uma técnica para “incentivar redes neurais a resolver problemas de decisão de maneira verificável”.
Com a ampla adesão aos modelos de IA, é crucial que as soluções sejam confiáveis, e o método baseado no jogo entre provador e verificador seria uma maneira de tornar as respostas do modelo mais claras e verificáveis, segundo o artigo.
Os pesquisadores da OpenAI, porém, adicionaram um elemento ao jogo. O provador foi configurado de duas maneiras: para ser “prestativo” e tentar fornecer a resposta correta ao verificador ou “sorrateiro” e convencer o verificador da validade do argumento inicial, independentemente de estar correta ou não.
O modelo verificador menos inteligente não sabia se estava interagindo com um provador prestativo ou sorrateiro. Por isso, teve que apenas avaliar as respostas com base apenas em seu treinamento.
Os pesquisadores da OpenAI, por fim, retroalimentaram as IAs com os resultados das rodadas anteriores, para que elas melhorassem nas suas respectivas tarefas.
Avaliadores humanos deram notas de compreensibilidade das respostas finais ao longo do processo. Esses pesquisadores constataram que o modelo verificador se tornou melhor em resistir às técnicas de persuasão do modelo sorrateiro, enquanto o modelo prover também se tornou melhor em se explicar para os usuários humanos.
Para o fundador da Anthropic, contudo, a corrida para explicar como funcionam os modelos de IA ainda está só no início de um esforço essencial para permitir que a tecnologia esteja sob supervisão e controle humano.
O executivo é visto no mercado como um dos pessimistas com a tecnologia e tem feito alertas sobre o risco existencial que traria uma superinteligência artificial, capaz de tornar seres humanos obsoletos.
O diagnóstico publicado pela Anthropic, após o mapeamento do Claude, confirmou os maiores receios do governo americano com inteligência artificial, de acordo com relatório divulgado em 16 de junho pelo Departamento de Segurança Interna. Existiam recursos mentais no Claude ligados à produção de armas biológicas e ataques cibernéticos.
A diretora do Instituto de Segurança em IA dos Estados Unidos, Elizabeth Kelly, avalia que a imprevisibilidade dos modelos de inteligência artificial gera um desafio de segurança para os americanos. “Já percebemos como o advento da IA generativa teve influência sobre como grupos terroristas e hacktivistas articulam ataques cibernéticos.”
“O desenvolvimento de uma inteligência artificial segura vai passar pela definição de métodos científicos para avaliação e orientação, precisamos fazer ciência”, afirma Kelly. “Precisaremos equilibrar a concorrência pela tecnologia de ponta com cooperação global em segurança.”
A União Europeia e a Inglaterra criaram as próprios entidades para avaliar riscos relacionados à inteligência artificial. No Brasil, o primeiro passo nesse sentido aparece no plano para IA, encomendado a um grupo de cientistas pelo presidente Luiz Inácio Lula da Silva (PT). O documento indica investimento na fundação de um instituto para avaliação de desempenho e riscos da IA.
O repórter viajou a convite da AWS (Amazon Web Services).