Suchir Balaji passou quase quatro anos como pesquisador de IA (inteligência artificial) na OpenAI. Entre outros projetos, ele ajudou a reunir e organizar as enormes quantidades de dados da internet que a empresa usou para construir seu chatbot online, o ChatGPT.
Na época, ele não considerou cuidadosamente se a empresa tinha o direito legal de construir seus produtos dessa maneira. Ele assumiu que a startup de San Francisco era livre para usar qualquer dado da internet, fosse ele protegido por direitos autorais ou não.
Mas após o lançamento do ChatGPT no final de 2022, ele refletiu mais sobre o que a empresa estava fazendo. Ele chegou à conclusão de que o uso de dados protegidos por direitos autorais pela OpenAI violava a lei e que tecnologias como o ChatGPT estavam prejudicando a internet.
Em agosto, Balaji, de 25 anos, deixou a OpenAI porque não queria mais contribuir para tecnologias que ele acreditava trazer mais danos do que benefícios à sociedade. “Se você acredita no que eu acredito, você tem que simplesmente deixar a empresa”, disse ele em entrevistas recentes ao The New York Times.
Nos últimos dois anos, várias pessoas e empresas processaram diversas empresas de IA, incluindo a OpenAI, argumentando que usaram ilegalmente material protegido por direitos autorais para treinar suas tecnologias. Aqueles que entraram com ações incluem programadores de computador, artistas, gravadoras, autores de livros e organizações de notícias.
Em dezembro, o The New York Times processou a OpenAI e seu principal parceiro, a Microsoft, alegando que usaram milhões de artigos publicados pelo Times para construir chatbots que agora competem com o veículo de notícias como fonte de informação confiável. Ambas as empresas negaram as alegações.
Muitos pesquisadores que trabalharam dentro da OpenAI e outras empresas de tecnologia alertaram que as tecnologias de IA poderiam causar sérios danos. Mas a maioria desses avisos tem sido sobre riscos futuros, como sistemas de IA que um dia poderiam ajudar a criar novas armas biológicas ou até mesmo destruir a humanidade.
Balaji acredita que as ameaças são mais imediatas. O ChatGPT e outros chatbots, para ele, estão destruindo a viabilidade comercial dos indivíduos, empresas e serviços de internet que criaram os dados digitais usados para treinar esses sistemas de IA.
“Este não é um modelo sustentável para o ecossistema da internet como um todo”, disse ele ao Times.
A OpenAI discorda de Balaji em comunicado: “Construímos nossos modelos de IA usando dados publicamente disponíveis, de maneira protegida pelo uso justo e princípios relacionados, e apoiada por precedentes legais de longa data e amplamente aceitos. Consideramos esse princípio justo para os criadores, necessário para os inovadores e crítico para a competitividade dos EUA.”
Em 2013, uma startup em Londres chamada DeepMind revelou uma tecnologia de IA que aprendeu a jogar jogos clássicos de Atari por conta própria, incluindo Space Invaders, Pong e Breakout.
Durante um ano sabático após o ensino médio e como estudante de ciência da computação na Universidade da Califórnia, em Berkeley, Balaji começou a explorar a ideia central por trás das tecnologias da DeepMind: um sistema matemático chamado rede neural que poderia aprender habilidades analisando dados digitais.
Em 2020, ele se juntou a um fluxo de graduados de Berkeley que foram trabalhar para a OpenAI. No início de 2022, Balaji começou a reunir dados digitais para um novo projeto chamado GPT-4. Esta era uma rede neural que passou meses analisando praticamente todo texto em inglês na internet.
Ele e seus colegas, disse Balaji, trataram isso como um projeto de pesquisa. Embora a OpenAI tivesse recentemente se transformado em uma empresa lucrativa e começado a vender acesso a uma tecnologia semelhante chamada GPT-3, eles não pensavam em seu trabalho como algo que competiria com os serviços de internet existentes. O GPT-3 não era um chatbot. Era uma tecnologia que permitia a empresas e programadores de computador construir outros aplicativos de software.
“Com um projeto de pesquisa, você pode, de modo geral, treinar com qualquer dado”, disse Balaji. “Essa era a mentalidade na época.”
Então a OpenAI lançou o ChatGPT. Inicialmente impulsionado por um precursor do GPT-4 e mais tarde pelo próprio GPT-4, o chatbot chamou a atenção de centenas de milhões de pessoas e rapidamente se tornou uma fonte de receita.
A OpenAI, a Microsoft e outras empresas afirmaram que usar dados da internet para treinar seus sistemas de IA atende aos requisitos da doutrina de “uso justo”.
Balaji não acredita que esses critérios tenham sido atendidos. Ele argumenta que quando um sistema como o GPT-4 aprende com dados, ele faz uma cópia completa desses dados. A partir daí, uma empresa como a OpenAI pode então ensinar o sistema a gerar uma cópia exata dos dados, ou ensinar o sistema a gerar texto que de forma alguma é uma cópia. A realidade, para ele, é que as empresas ensinam os sistemas a fazer algo intermediário.
A tecnologia viola a lei, argumentou Balaji, porque em muitos casos, compete diretamente com as obras protegidas por direitos autorais das quais aprendeu. Os modelos generativos são projetados para imitar dados online, disse ele, para que possam substituir “basicamente qualquer coisa” na internet, desde notícias até fóruns online.
O problema maior, disse ele, é que à medida que as tecnologias de IA substituem os serviços de internet existentes, elas estão gerando informações falsas e às vezes completamente inventadas —o que os pesquisadores chamam de “alucinações”. A internet, disse ele, está mudando para pior.
Bradley J. Hulbert, um advogado de propriedade intelectual que se especializa nessa área, disse que as leis de direitos autorais intelectuais atualmente em vigor foram escritas bem antes do surgimento da IA e que nenhum tribunal ainda decidiu se tecnologias de IA como o ChatGPT violam a lei.
Ele também argumentou que o Congresso deveria criar uma nova lei que aborde essa tecnologia. “Dado que a IA está evoluindo tão rapidamente é hora de o Congresso intervir.”
Balaji concordou. “A única saída para tudo isso é a regulamentação”.