Openai suspeita que os modelos Deepseek AI da China, significativamente mais baratos que os colegas ocidentais, podem ter sido treinados usando dados do OpenAI. Essa revelação, após a queda de ações da Nvidia, provocou preocupação dentro da indústria de tecnologia dos EUA e levou o presidente Trump a chamá-lo de "alerta".
O modelo R1 da Deepseek, construído sobre o Deepseek-V3 de código aberto, possui custos de treinamento significativamente mais baixos (estimados em US $ 6 milhões) e requisitos computacionais em comparação com modelos ocidentais como o ChatGPT. Embora essa reivindicação seja contestada por alguns, alimentou as ansiedades dos investidores sobre os bilhões que estão sendo investidos na IA pelos gigantes da tecnologia americana. O aplicativo da Deepseek também nos subiu rapidamente paradas de download, destacando ainda mais seu impacto.
O OpenAI e a Microsoft estão agora investigando se a Deepseek violou os Termos de Serviço da Openai, empregando "destilação", uma técnica que extrai dados de modelos maiores para treinamento. O Openai confirmou à Bloomberg que combate ativamente essas práticas, enfatizando a importância da colaboração com o governo dos EUA para proteger sua tecnologia. David Sacks, o Czar da AI do presidente Trump, corroborou essas preocupações, citando evidências substanciais de destilação de conhecimento dos modelos Openai.
A situação é irônica, dada a própria OpenAi, enfrenta acusações de usar conteúdo da Internet protegido por direitos autorais para treinar o ChatGPT. Essa hipocrisia tem sido amplamente observada, com os críticos apontando a justificação anterior do OpenAI de que o uso de material protegido por direitos autorais é necessário para o treinamento de modelos de IA líderes. A posição da Openai é ainda mais complicada pelos processos em andamento do New York Times e 17 autores alegando violação de direitos autorais. Esses processos destacam a questão controversa do treinamento de modelos de IA em material protegido por direitos autorais, um debate importante no cenário generativo de IA em rápida evolução. O precedente legal é ainda mais confuso por um escritório de direitos autorais dos EUA em 2018 que decidiu que a arte gerada pela IA não pode ser protegida por direitos autorais.