ÚLTIMAS NOTÍCIAS
SELECIONADO PARA VOCÊ
SEMANALMENTE
MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

Gigantes da tecnologia usam legendas do YouTube para treinamento de IA sem permissão

PorBrenda KananaBrenda Kanana
Tempo de leitura: 2 minutos
Gigantes da tecnologia usam legendas do YouTube para treinamento de IA sem permissão
  • A Apple e outras empresas desenvolvedoras de IA, como a Anthropic e a Nvidia, foram flagradas usando legendas do YouTube sem permissão para treinar seus sistemas de IA.
  • O conjunto de dados “YouTube Subtitles” foi desenvolvido pela EleutherAI e publicado em 2020.
  • A OpenAI utilizou um milhão de horas de vídeos do YouTube para treinar seu modelo GPT-4. 

Apple, Nvidia e Anthropic foram flagradas usando legendas do YouTube para treinar modelos de IA, o que viola as políticas da plataforma. Uma reportagem da Proof News e da Wired mostrou que essas empresas utilizaram um conjunto de dados com transcrições de milhares de vídeos do YouTube sem obter a licença adequada. 

Leia também: Órgão regulador do Reino Unido inicia investigação sobre a contratação de talentos em IA pela Microsoft

O estudo revelou que a Apple, a Nvidia e a Anthropic utilizaram o conjunto de dados de legendas do YouTube. Esse conjunto de dados consiste em transcrições de 173.536 vídeos do YouTube, provenientes de 48.000 canais. Os vídeos incluem canais educacionais como a Khan Academy e o MIT, canais de notícias como o The Wall Street Journal e criadores de conteúdo renomados como MrBeast e Marques Brownlee. 

YouTubers populares reagem à exploração de dados

Marques Brownlee, um YouTuber popular, comentou sobre o assunto no X. Ele disse: "A Apple coletou dados para IA de outras empresas. Uma delas coletou muitos dados/transcrições de vídeos do YouTube, incluindo os meus." Embora a Apple possa não ter coletado os dados diretamente, Brownlee apontou que esse problema persistirá.

O conjunto de dados “YouTube Subtitles” foi desenvolvido pela EleutherAI e publicado em 2020. Ele contém 5,7 GB de dados, incluindo legendas de vídeos do YouTube que foram removidos da plataforma. 

De acordo com os termos e condições do YouTube, o acesso a vídeos por "meios automatizados" é proibido. A existência de legendas em vídeos removidos só agrava o problema, levantando questões sobre privacidade e violação de direitos autorais.

A Salesforce, organização também envolvida na investigação, admitiu ter usado o referido conjunto de dados. 

“O conjunto de dados Pile mencionado no artigo de pesquisa foi treinado em 2021 para fins acadêmicos e de pesquisa. O conjunto de dados estava disponível publicamente e foi liberado sob uma licença permissiva.”

porta-voz da Salesforce 

No entanto, o uso de conteúdo do YouTube sem permissão ainda é controverso até hoje. Em abril, o CEO do YouTube, Neal Mohan, afirmou que usar vídeos, transcrições ou trechos do YouTube para treinamento de IA é uma "clara violação" das políticas. Contudo, segundo o New York Times, a OpenAI utilizou um milhão de horas de vídeos do YouTube para treinar seu modelo GPT-4. 

Batalhas judiciais eclodem sobre o uso de conteúdo da internet por empresas de IA

A questão das empresas de IA que utilizam conteúdo da internet sem autorização aumentou após o lançamento do ChatGPT. Além disso, criadores de conteúdo estão processando a Stability AI e a Midjourney por supostamente copiarem obras protegidas por direitos autorais sem permissão. O Google, proprietário do YouTube, enfrentou ações coletivas relacionadas a alegações semelhantes, afirmando que ações judiciais desse tipo ameaçam a base da IA ​​generativa. 

Em entrevista ao The Wall Street Journal, a diretora de tecnologia da OpenAI, Mira Murati, não esclareceu se a empresa utilizou vídeos de plataformas de mídia social para treinar esse novo modelo. O CEO da Microsoft AI, Mustafa Suleyman, afirmou que o conteúdo na web aberta é considerado uso justo desde a década de 1990, com base no que ele chamou de “contrato socialtrac. 

Existe um meio-termo entre deixar o dinheiro no banco e arriscar tudo em criptomoedas. Comece com este vídeo gratuito sobre finanças descentralizadas.

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrondentdentdentdentdentdentdentdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

MAIS… NOTÍCIAS
INTENSIVO AVANÇADAS
CURSO