ÚLTIMAS NOTÍCIAS

ao vivo AO VIVO: O Federal Reserve mantém as taxas de juros inalteradas na primeira reunião de Kevin Warsh

Atualizações ao vivo de 17 de junho de 2026
CZ argumenta que agentes de IA levarão as finanças baseadas em criptomoedas a bilhões de pessoas em todo o mundo

Notícias de 2 horas atrás
Solana lidera todas as blockchains em número de detentores de ativos reais, remodelando o cenário competitivo da tokenização

Notícias de 3 horas atrás
A OpenAI implementa tracde crédito e limites de gastos para o ChatGPT Enterprise

5 horas atrás Tecnologia

SELECIONADO PARA VOCÊ

SEMANALMENTE

MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

Empresas de IA dependem de editoras premium para obter dados de treinamento, revela nova pesquisa

Por

Brenda Kanana

Tempo de leitura: 2 minutos - 9 de novembro de 2024

Robô com inteligência artificial e logotipos de grandes empresas de mídia ao fundo

A OpenAI e o Google, grandes empresas de IA, estão usando artigos dos principais canais de publicação para treinar modelos de linguagem.
Segundo um estudo realizado pela Ziff Davis, as fontes são filtradas com base na classificação dos resultados de busca.
As editoras estão preocupadas com o fato de as empresas de IA estarem usando seu conteúdo sem permissão.

Grandes empresas de tecnologia, incluindo OpenAI, Google, Meta e Anthropic, dependem de material de alta qualidade e protegido por direitos autorais de editoras renomadas para treinar seus grandes modelos de linguagem (LLMs).

Segundo um estudo realizado pela Ziff Davis, empresa controladora da CNET, IGN e Mashable, o conteúdo de alta qualidade desempenha um papel fundamental no treinamento de modelos de IA. O estudo demonstra que fontes confiáveis são preferidas para o treinamento de conjuntos de dados em empresas de IA, visando aprimorar o desempenho dos modelos, mas a contribuição dessas fontes é frequentemente negligenciada.

Na pesquisa, o advogado de IA da Ziff Davis, George Wukoson, e o diretor de tecnologia, Joey Fortuna, afirmaram que as empresas de IA escolhem os dados de treinamento com base na classificação de sites de autoridade com altas posições nos mecanismos de busca. Sites populares e de alta qualidade são escolhidos para aprimorar os modelos, pois possuem boa reputação. Uma estratégia que, segundo o estudo, permite aos desenvolvedores de IA refinar o modelo de linguagem.

Ziff Davis destacou que importantes fornecedores de conteúdo, como Axel Springer, Future PLC, Hearst, News Corp e The New York Times, entre outros, contribuíram para o desenvolvimento de conjuntos de dados de treinamento. Em particular, foidentque 12,04% do OpenWebText2, usado na criação do GPT-3 da OpenAI, veio dessas editoras renomadas.

Mark Zuckerberg também opinou sobre o debate em curso a respeito do uso de conteúdo no treinamento de IA. Em uma entrevista recente ao The Verge, Zuckerberg reconheceu que a coleta de dados para IA é um desafio, mas também apontou que o conteúdo de criadores ou editores individuais pode não ter tanto impacto. Ele afirmou: "Acho que criadores ou editores individuais tendem a superestimar o valor de seu conteúdo específico no contexto geral disso."

Editoras processam empresas de IA

O sigilo em torno das fontes de dados de treinamento gerou preocupação entre editores e consumidores. O New York Times e o Wall Street Journal entraram recentemente com processos contra empresas de IA, alegando que elas violaram as leis de direitos autorais ao usar seu conteúdo.

Embora a OpenAI tenha avançado nos esforços para obter licenciamento de conteúdo de organizações de mídia como o Financial Times e a DotDash Meredith, diversas empresas de IA ainda operam sem as devidas licenças. O relatório afirma ainda que “os principais desenvolvedores de LLM não divulgam mais seus dados de treinamento como faziam antigamente”.

Embora o valor das empresas de IA esteja em ascensão, a lacuna entre os titãs da tecnologia e as empresas de mídia tradicionais permanece enorme. Gigantes da tecnologia como Google e Meta, que têm um valor estimado de US$ 2,2 trilhões e US$ 1,5 trilhão, respectivamente, continuam na vanguarda da IA generativa, enquanto startups como OpenAI e Anthropic são avaliadas em US$ 157 bilhões e US$ 40 bilhões, respectivamente.

Por outro lado, as editoras ainda enfrentam demissões e reestruturações, o que evidencia a pressão financeira de adaptação a um ambiente cada vez mais defipela IA. Como resultado da concorrência com conteúdo gerado pelo usuário e conteúdo baseado em IA, inúmeras editoras enfrentam desafios em termos de redução de custos e de pessoal.

Se você está lendo isto, já está um passo à frente. Continue assim assinando nossa newsletter.

Google Meta OpenAI

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Brenda Kanana

Brenda possui mais de 4 anos de experiência especializada em criptomoedas, inteligência artificial e tecnologias emergentes. Ela trabalhou na Zycrypto, Blockchain Reporter, The Coin Republic e agora, na Cryptopolitan , é sua casa. Sua formação em Sociologia pela Universidade Técnica de Mombasa a mantém em sintonia com o que seus leitores desejam.

ÍNDICE

1. Editoras processam empresas de IA

Compartilhe este artigo

MAIS… NOTÍCIAS

MOSTRAR TUDO

5 aplicações engenhosas do ChatGPT e o que você deve fazer a respeito

Há 3 anos, John Palmer, da área de tecnologia

93% dos líderes empresariais preferem soluções baseadas em IA para a gestão da sustentabilidade da marca, segundo a Reuters

Há 3 anos, John Palmer, da área de tecnologia

Eis como Macron apoia o ecossistema de IA vibrante e produtivo da França

Há 3 anos, Tech Glory Kaburu

A Bloomberg estima que o mercado de IA generativa atingirá US$ 1,3 trilhão até 2032

3 anos atrás, Aamir Sheikh, da área de tecnologia

O que é Base? A rede Ethereum de camada 2 lançada pela Coinbase

21 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Dogecoin vs. Bitcoin: Principais Diferenças Técnicas

20 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
O que é TVL (Valor Total Bloqueado) em criptomoedas?

14 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Como ler um white paper de criptomoedas?

13 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Ripple vs. XRP vs. XRP Ledger: Qual a diferença?

13 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
O que é uma carteira multisig em criptomoedas?

10 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes

CURSO INTENSIVO DE CRIPTOMOEDAS AVANÇADAS

Quais criptomoedas podem te fazer ganhar dinheiro?
Como aumentar a segurança da sua carteira digital (e quais realmente valem a pena usar)
Estratégias de investimento pouco conhecidas que os profissionais utilizam
Como começar a investir em criptomoedas (quais corretoras usar, as melhores criptomoedas para comprar etc.)