ÚLTIMAS NOTÍCIAS

ao vivo O Irã abandona as negociações de paz com Trump devido aos ataques israelenses ao Líbano, derrubando os mercados

Atualizações ao vivo há 19 horas
A CFTC bane Mashinsky de negociar criptomoedas para sempre, encerrando o primeiro caso de empréstimo em criptomoedas da agência reguladora

57 minutos atrás Regulamento
A MGX explora a aquisição multimilionária da operadora de data centers DayOne em uma tentativa de dominar a infraestrutura de IA

2 horas atrás Tecnologia
O Japão planeja investir US$ 65 bilhões em IA física até 2040 para compensar a redução da força de trabalho

5 horas atrás Economia

SELECIONADO PARA VOCÊ

SEMANALMENTE

MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

Gigantes da tecnologia usam legendas do YouTube para treinamento de IA sem permissão

Por

Brenda Kanana

Tempo de leitura: 2 minutos - 16 de julho de 2024

Gigantes da tecnologia usam legendas do YouTube para treinamento de IA sem permissão

A Apple e outras empresas desenvolvedoras de IA, como a Anthropic e a Nvidia, foram flagradas usando legendas do YouTube sem permissão para treinar seus sistemas de IA.
O conjunto de dados “YouTube Subtitles” foi desenvolvido pela EleutherAI e publicado em 2020.
A OpenAI utilizou um milhão de horas de vídeos do YouTube para treinar seu modelo GPT-4.

Apple, Nvidia e Anthropic foram flagradas usando legendas do YouTube para treinar modelos de IA, o que viola as políticas da plataforma. Uma reportagem da Proof News e da Wired mostrou que essas empresas utilizaram um conjunto de dados com transcrições de milhares de vídeos do YouTube sem obter a licença adequada.

O estudo revelou que a Apple, a Nvidia e a Anthropic utilizaram o conjunto de dados de legendas do YouTube. Esse conjunto de dados consiste em transcrições de 173.536 vídeos do YouTube, provenientes de 48.000 canais. Os vídeos incluem canais educacionais como a Khan Academy e o MIT, canais de notícias como o The Wall Street Journal e criadores de conteúdo renomados como MrBeast e Marques Brownlee.

YouTubers populares reagem à exploração de dados

Marques Brownlee, um YouTuber popular, comentou sobre o assunto no X. Ele disse: "A Apple coletou dados para IA de outras empresas. Uma delas coletou muitos dados/transcrições de vídeos do YouTube, incluindo os meus." Embora a Apple possa não ter coletado os dados diretamente, Brownlee apontou que esse problema persistirá.

O conjunto de dados “YouTube Subtitles” foi desenvolvido pela EleutherAI e publicado em 2020. Ele contém 5,7 GB de dados, incluindo legendas de vídeos do YouTube que foram removidos da plataforma.

De acordo com os termos e condições do YouTube, o acesso a vídeos por "meios automatizados" é proibido. A existência de legendas em vídeos removidos só agrava o problema, levantando questões sobre privacidade e violação de direitos autorais.

A Salesforce, organização também envolvida na investigação, admitiu ter usado o referido conjunto de dados.

“O conjunto de dados Pile mencionado no artigo de pesquisa foi treinado em 2021 para fins acadêmicos e de pesquisa. O conjunto de dados estava disponível publicamente e foi liberado sob uma licença permissiva.”
porta-voz da Salesforce

No entanto, o uso de conteúdo do YouTube sem permissão ainda é controverso até hoje. Em abril, o CEO do YouTube, Neal Mohan, afirmou que usar vídeos, transcrições ou trechos do YouTube para treinamento de IA é uma "clara violação" das políticas. Contudo, segundo o New York Times, a OpenAI utilizou um milhão de horas de vídeos do YouTube para treinar seu modelo GPT-4.

Batalhas judiciais eclodem sobre o uso de conteúdo da internet por empresas de IA

A questão das empresas de IA que utilizam conteúdo da internet sem autorização aumentou após o lançamento do ChatGPT. Além disso, criadores de conteúdo estão processando a Stability AI e a Midjourney por supostamente copiarem obras protegidas por direitos autorais sem permissão. O Google, proprietário do YouTube, enfrentou ações coletivas relacionadas a alegações semelhantes, afirmando que ações judiciais desse tipo ameaçam a base da IA generativa.

Em entrevista ao The Wall Street Journal, a diretora de tecnologia da OpenAI, Mira Murati, não esclareceu se a empresa utilizou vídeos de plataformas de mídia social para treinar esse novo modelo. O CEO da Microsoft AI, Mustafa Suleyman, afirmou que o conteúdo na web aberta é considerado uso justo desde a década de 1990, com base no que ele chamou de “contrato socialtrac.

Não se limite a ler notícias sobre criptomoedas. Compreenda-as. Assine nossa newsletter. É grátis.

Apple Nvidia OpenAI YouTube

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Brenda Kanana

Brenda possui mais de 4 anos de experiência especializada em criptomoedas, inteligência artificial e tecnologias emergentes. Ela trabalhou na Zycrypto, Blockchain Reporter, The Coin Republic e agora, na Cryptopolitan , é sua casa. Sua formação em Sociologia pela Universidade Técnica de Mombasa a mantém em sintonia com o que seus leitores desejam.

ÍNDICE

2. Batalhas judiciais eclodem sobre o uso de conteúdo da internet por empresas de IA

Compartilhe este artigo

MAIS… NOTÍCIAS

MOSTRAR TUDO

5 aplicações engenhosas do ChatGPT e o que você deve fazer a respeito

Há 3 anos, John Palmer, da área de tecnologia

93% dos líderes empresariais preferem soluções baseadas em IA para a gestão da sustentabilidade da marca, segundo a Reuters

Há 3 anos, John Palmer, da área de tecnologia

Eis como Macron apoia o ecossistema de IA vibrante e produtivo da França

Há 3 anos, Tech Glory Kaburu

A Bloomberg estima que o mercado de IA generativa atingirá US$ 1,3 trilhão até 2032

3 anos atrás, Aamir Sheikh, da área de tecnologia

O que é Base? A rede Ethereum de camada 2 lançada pela Coinbase

21 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Dogecoin vs. Bitcoin: Principais Diferenças Técnicas

20 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
O que é TVL (Valor Total Bloqueado) em criptomoedas?

14 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Como ler um white paper de criptomoedas?

13 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Ripple vs. XRP vs. XRP Ledger: Qual a diferença?

13 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
O que é uma carteira multisig em criptomoedas?

10 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes

CURSO INTENSIVO DE CRIPTOMOEDAS AVANÇADAS

Quais criptomoedas podem te fazer ganhar dinheiro?
Como aumentar a segurança da sua carteira digital (e quais realmente valem a pena usar)
Estratégias de investimento pouco conhecidas que os profissionais utilizam
Como começar a investir em criptomoedas (quais corretoras usar, as melhores criptomoedas para comprar etc.)