Gigantes da tecnologia usam legendas do YouTube para treinamento de IA sem permissão

- A Apple e outras empresas desenvolvedoras de IA, como a Anthropic e a Nvidia, foram flagradas usando legendas do YouTube sem permissão para treinar seus sistemas de IA.
- O conjunto de dados “YouTube Subtitles” foi desenvolvido pela EleutherAI e publicado em 2020.
- A OpenAI utilizou um milhão de horas de vídeos do YouTube para treinar seu modelo GPT-4.
Apple, Nvidia e Anthropic foram flagradas usando legendas do YouTube para treinar modelos de IA, o que viola as políticas da plataforma. Uma reportagem da Proof News e da Wired mostrou que essas empresas utilizaram um conjunto de dados com transcrições de milhares de vídeos do YouTube sem obter a licença adequada.
Leia também: Órgão regulador do Reino Unido inicia investigação sobre a contratação de talentos em IA pela Microsoft
O estudo revelou que a Apple, a Nvidia e a Anthropic utilizaram o conjunto de dados de legendas do YouTube. Esse conjunto de dados consiste em transcrições de 173.536 vídeos do YouTube, provenientes de 48.000 canais. Os vídeos incluem canais educacionais como a Khan Academy e o MIT, canais de notícias como o The Wall Street Journal e criadores de conteúdo renomados como MrBeast e Marques Brownlee.
YouTubers populares reagem à exploração de dados
Marques Brownlee, um YouTuber popular, comentou sobre o assunto no X. Ele disse: "A Apple coletou dados para IA de outras empresas. Uma delas coletou muitos dados/transcrições de vídeos do YouTube, incluindo os meus." Embora a Apple possa não ter coletado os dados diretamente, Brownlee apontou que esse problema persistirá.
O conjunto de dados “YouTube Subtitles” foi desenvolvido pela EleutherAI e publicado em 2020. Ele contém 5,7 GB de dados, incluindo legendas de vídeos do YouTube que foram removidos da plataforma.
De acordo com os termos e condições do YouTube, o acesso a vídeos por "meios automatizados" é proibido. A existência de legendas em vídeos removidos só agrava o problema, levantando questões sobre privacidade e violação de direitos autorais.
A Salesforce, organização também envolvida na investigação, admitiu ter usado o referido conjunto de dados.
“O conjunto de dados Pile mencionado no artigo de pesquisa foi treinado em 2021 para fins acadêmicos e de pesquisa. O conjunto de dados estava disponível publicamente e foi liberado sob uma licença permissiva.”
porta-voz da Salesforce
No entanto, o uso de conteúdo do YouTube sem permissão ainda é controverso até hoje. Em abril, o CEO do YouTube, Neal Mohan, afirmou que usar vídeos, transcrições ou trechos do YouTube para treinamento de IA é uma "clara violação" das políticas. Contudo, segundo o New York Times, a OpenAI utilizou um milhão de horas de vídeos do YouTube para treinar seu modelo GPT-4.
Batalhas judiciais eclodem sobre o uso de conteúdo da internet por empresas de IA
A questão das empresas de IA que utilizam conteúdo da internet sem autorização aumentou após o lançamento do ChatGPT. Além disso, criadores de conteúdo estão processando a Stability AI e a Midjourney por supostamente copiarem obras protegidas por direitos autorais sem permissão. O Google, proprietário do YouTube, enfrentou ações coletivas relacionadas a alegações semelhantes, afirmando que ações judiciais desse tipo ameaçam a base da IA generativa.
Em entrevista ao The Wall Street Journal, a diretora de tecnologia da OpenAI, Mira Murati, não esclareceu se a empresa utilizou vídeos de plataformas de mídia social para treinar esse novo modelo. O CEO da Microsoft AI, Mustafa Suleyman, afirmou que o conteúdo na web aberta é considerado uso justo desde a década de 1990, com base no que ele chamou de “contrato socialtrac.
Não se limite a ler notícias sobre criptomoedas. Compreenda-as. Assine nossa newsletter. É grátis.
Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Brenda Kanana
Brenda possui mais de 4 anos de experiência especializada em criptomoedas, inteligência artificial e tecnologias emergentes. Ela trabalhou na Zycrypto, Blockchain Reporter, The Coin Republic e agora, na Cryptopolitan , é sua casa. Sua formação em Sociologia pela Universidade Técnica de Mombasa a mantém em sintonia com o que seus leitores desejam.
- Quais criptomoedas podem te fazer ganhar dinheiro?
- Como aumentar a segurança da sua carteira digital (e quais realmente valem a pena usar)
- Estratégias de investimento pouco conhecidas que os profissionais utilizam
- Como começar a investir em criptomoedas (quais corretoras usar, as melhores criptomoedas para comprar etc.)















