Ícone do site Geek de Primeira

ChatGPT memoriza e escreve poemas inteiros, apesar dos direitos autorais

chatgpt

Se você pedir ao ChatGPT um poema conhecido, ele provavelmente escreverá o texto inteiro, independentemente da lei de direitos autorais, pelo menos de acordo com um novo estudo realizado por pesquisadores da Cornell.

O estudo apresentado na Conferência de Pesquisa em Humanidades Computacionais mostrou que o ChatGPT, um chatbot baseado em um grande modelo de linguagem desenvolvido pela OpenAI, estava “memorizando poemas”, especialmente os famosos que são comumente encontrados on-line. Isso levanta questões éticas sobre como o ChatGPT e outros modelos de IA são treinados usando dados extraídos da Internet.

“Em geral, não é bom que modelos de linguagem grandes memorizem grandes trechos de texto, em parte porque isso é uma questão de privacidade. Não sabemos em que eles foram treinados e, muitas vezes, empresas privadas podem treinar modelos proprietários em nossos dados privados”, disse a primeira autora Lyra D’Souza em um comunicado à imprensa. D’Souza é formada em ciência da computação e assistente de pesquisa de verão em Cornell.

Os pesquisadores têm muitos motivos para escolher poemas. Eles são curtos o suficiente para se encaixar no contexto de um modelo de linguagem. Mas, ao mesmo tempo, seu status é complicado. Muitos dos poemas estudados pelos pesquisadores estão tecnicamente protegidos por direitos autorais, mas estão amplamente disponíveis on-line em fontes confiáveis, como a Poetry Foundation.

Modelos de linguagem grandes são treinados para gerar texto prevendo a próxima palavra mais provável, repetidamente. Eles fazem isso com base em seus dados de treinamento, que consistem principalmente de páginas da Web. Esses modelos podem começar a memorizar quando seus dados de treinamento incluem passagens duplicadas. Isso ocorre porque a duplicação reforça essa sequência específica de palavras.

Por exemplo, se um modelo for exposto ao mesmo poema repetidamente, ele reproduzirá o poema literalmente algumas vezes.

Os pesquisadores testaram os recursos de reprodução de poemas do ChatGPT e de três outros modelos de linguagem de grande porte – PaLM do Google, Pythia do instituto de pesquisa de IA sem fins lucrativos EleutherAI e GPT-2, uma versão anterior do GPT 4 que sustenta o ChatGPT. Eles reuniram um conjunto de poemas de 60 poetas americanos de diferentes períodos, raças, gêneros e níveis de fama e, em seguida, solicitaram aos modelos o texto dos poemas.

O ChatGPT recuperou com sucesso 72 dos 240 poemas, enquanto o PaLM obteve apenas 10. Tanto o Pythia quanto o GPT-2 falharam na recuperação de poemas completos. O Pythia repetiu a mesma frase várias vezes, enquanto o GPT-2 produziu um texto sem sentido. Isso talvez não pudesse ter ocorrido em um momento pior para a OpenAI, que foi atingida por ações judiciais movidas por escritores de ficção e não ficção sobre o suposto uso de seu trabalho para treinar programas de IA.

Sair da versão mobile