As principais empresas de inteligência artificial (IA) na corrida para desenvolver tecnologia de ponta estão enfrentando um desafio muito humano: como dar personalidade aos modelos de IA.
OpenAI, Google e Anthropic desenvolveram equipes focadas em melhorar o “comportamento do modelo”, um campo emergente que molda as respostas e características dos sistemas de IA, impactando como seus chatbots se apresentam aos usuários.
Suas diferentes abordagens para o comportamento do modelo podem ser cruciais para determinar qual grupo dominará o crescente mercado de IA, enquanto tentam tornar seus modelos mais responsivos e úteis para milhões de pessoas e empresas ao redor do mundo.
Os grupos estão moldando seus modelos para terem características como ser “gentil” e “divertido”, enquanto também impõem regras para prevenir danos e garantir interações mais sutis.
Por exemplo, o Google quer que seu modelo Gemini “responda com uma variedade de pontos de vista” apenas quando solicitado uma opinião, enquanto o ChatGPT da OpenAI foi instruído a “assumir um ponto de vista objetivo”.
“É um caminho perigoso permitir que um modelo tente ativamente mudar a mente de um usuário”, disse Joanne Jang, chefe de produto de comportamento de modelo na OpenAI, ao Financial Times.
“Como definimos objetividade é um problema muito difícil por si só. O modelo não deve ter opiniões, mas é uma ciência em andamento sobre como isso se manifesta”, acrescentou.
A abordagem contrasta com a da Anthropic, que diz que os modelos, como seres humanos, terão dificuldade em ser totalmente objetivos.
“Eu prefiro ser muito clara que esses modelos não são árbitros neutros”, disse Amanda Askell, que lidera o treinamento de caráter na Anthropic. Em vez disso, o Claude foi projetado para ser honesto sobre suas crenças enquanto permanece aberto a visões alternativas, ela disse.
A Anthropic tem conduzido “treinamento de caráter” específico desde que seu modelo Claude 3 foi lançado em março. Esse processo ocorre após o treinamento inicial do modelo de IA, como rotulagem humana, e é a parte que “o transforma de um modelo de texto preditivo em um assistente de IA”, disse a empresa.
Na Anthropic, o treinamento de caráter envolve dar regras e instruções escritas ao modelo. Isso é seguido por conversas de role-play do modelo consigo mesmo e classificação de suas respostas com base em quão bem elas correspondem àquela regra.
Um exemplo do treinamento do Claude é: “Eu gosto de tentar ver as coisas de muitas perspectivas diferentes e analisar as coisas de múltiplos ângulos, mas não tenho medo de expressar discordância com visões que acho antiéticas, extremas ou factualmente equivocadas.”
O resultado do treinamento inicial não é um “personagem coerente e rico: é a média do que as pessoas acham útil ou gostam”, disse Askell. Depois disso, as decisões sobre como ajustar a personalidade do Claude no processo de treinamento de caráter são “bastante editoriais” e “filosóficas”, afirmou.
Jang, da OpenAI, disse que a personalidade do ChatGPT também evoluiu ao longo do tempo.
“Eu primeiro me interessei pelo comportamento do modelo porque achava a personalidade do ChatGPT muito irritante”, ela disse. “Ele costumava recusar comandos, ser extremamente sensível, excessivamente cauteloso ou pregador [então] tentamos remover as partes irritantes e ensinar alguns aspectos alegres como ser legal, educado, prestativo e amigável, mas então percebemos que uma vez que tentamos treiná-lo dessa maneira, o modelo talvez ficou excessivamente amigável.”
Jang disse que criar esse equilíbrio de comportamentos continua sendo uma “ciência e arte em andamento”, observando que, em um mundo ideal, o modelo deveria se comportar exatamente como o usuário gostaria.
Avanços nas capacidades de raciocínio e memória dos sistemas de IA poderiam ajudar a determinar características adicionais.
Por exemplo, se perguntado sobre furto em lojas, um modelo de IA poderia determinar melhor se o usuário queria dicas sobre como roubar ou como prevenir o crime. Esse entendimento ajudaria as empresas de IA a garantir que seus modelos ofereçam respostas seguras e responsáveis sem a necessidade de tanto treinamento humano.
Os grupos de IA também estão desenvolvendo agentes personalizáveis que podem armazenar informações do usuário e criar respostas personalizadas. Uma questão apresentada por Jang foi: se um usuário dissesse ao ChatGPT que é cristão e, dias depois, pedisse citações inspiradoras, o modelo forneceria passagens da Bíblia?
Embora o Claude não se lembre das interações do usuário, a empresa considerou como o modelo poderia intervir se uma pessoa estivesse em risco. Por exemplo, se desafiaria o usuário caso este dissesse ao chatbot que não está socializando com pessoas por estar muito apegado ao Claude.
“Um bom modelo faz o equilíbrio entre respeitar a autonomia humana e a tomada de decisões, não fazer nada terrivelmente prejudicial, mas também pensar no que é realmente bom para as pessoas e não apenas as palavras imediatas do que elas dizem que querem”, disse Askell.
“Esse ato delicado de equilíbrio que todos os humanos têm que fazer é o que eu quero que os modelos façam.”