O equilíbrio entre fomentar a inovação e garantir a proteção de direitos autorais é um dos principais desafios da regulação global de IA. Modelos de inteligência artificial generativa dependem de grandes volumes de dados para treinar suas redes neurais, mas o uso de conteúdo protegido —sem autorização ou remuneração— levanta questões legais e éticas.
A discussão envolve a aplicabilidade do “fair use” —doutrina que permite o uso de obras protegidas em determinadas circunstâncias— adaptada ao contexto do treinamento de IA (“fair training”).
As teses favoráveis ao “fair training” são
- Dados são utilizados como insumos técnicos para ensinar o modelo sobre as relações estatísticas entre os seus elementos, não sendo relevante o conteúdo autoral em si para o seu treinamento
- Aprendizagem de máquina é comparável ao processo humano de autoaprendizagem indutivo
- É possível coibir práticas anticompetitivas e abusivas vedando o uso de dados exclusivamente extraídos para o treinamento de sistema de concorrente
- “fair training” não impede a responsabilização dos agentes pelos resultados (“outputs”) que violem direitos autorais
- Aumento da concorrência, evitando que apenas grandes empresas monopolizem o treinamento de modelos devido aos custos de licenciamento
Por outro lado, diversos litígios nos EUA ajudam a ilustrar a complexidade do debate. Casos como Richard Kadrey x Meta e Doe x GitHub apontam que o uso de conteúdo protegido por IA pode infringir direitos autorais.
No caso do GitHub, o tribunal considerou que até mesmo um risco de 1% de reprodução não autorizada no treinamento do Copilot justificava a continuidade do processo. Já no embate entre The New York Times e OpenAI, questiona-se o uso indevido de grandes volumes de dados qualificados para treinamento, resultando em “outputs” similares às obras originais.
Já acordos como o da OpenAI com a agência de notícias Associated Press demonstram alternativas cooperativas, nas quais o uso de conteúdo protegido é remunerado e ocorre dentro de parâmetros transparentes.
Na União Europeia, o EU AI Act exige conformidade com as leis de direitos autorais e publicação de resumos detalhados sobre os conteúdos utilizados no treinamento, para permitir que os titulares identifiquem possíveis violações.
Paralelamente, a Copyright Directive estabelece exceções para mineração de texto e dados, aplicáveis a fins de pesquisa e outros usos comerciais ou não, desde que os titulares não tenham reservado seus direitos de forma explícita.
O EU AI Act também exclui sua aplicação de sistemas de IA desenvolvidos exclusivamente para pesquisa científica e atividades de teste antes de sua colocação em serviço.
Assim, o Marco Regulatório do Brasil pode se beneficiar dessas experiências, abordando questões como:
- Divulgação de resumos dos conteúdos protegidos usados no treinamento
- Modelos de IA remunerem titulares de forma razoável, considerando fatores como porte da empresa, complexidade do sistema, grau de utilização do conteúdo e impacto econômico da prática
- Permitir o treinamento para fins de pesquisa e desenvolvimento, desde que observados limites proporcionais e o respeito aos direitos dos titulares
- Estimular acordos entre titulares e desenvolvedores para criar um ambiente regulatório flexível
O desafio central do Marco Regulatório será permitir o desenvolvimento de práticas responsáveis que garantam um mercado competitivo e inovador, sem violar direitos, comprometer a criatividade humana ou desestimular quem gera conteúdo qualificado.