ÚLTIMAS NOTÍCIAS
SELECIONADO PARA VOCÊ
SEMANALMENTE
MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

Empresas de IA dependem de editoras premium para obter dados de treinamento, revela nova pesquisa

PorBrenda KananaBrenda Kanana
Tempo de leitura: 2 minutos
Robô com inteligência artificial e logotipos de grandes empresas de mídia ao fundo
  • A OpenAI e o Google, grandes empresas de IA, estão usando artigos dos principais canais de publicação para treinar modelos de linguagem.
  • Segundo um estudo realizado pela Ziff Davis, as fontes são filtradas com base na classificação dos resultados de busca.
  • As editoras estão preocupadas com o fato de as empresas de IA estarem usando seu conteúdo sem permissão.

Grandes empresas de tecnologia, incluindo OpenAI, Google, Meta e Anthropic, dependem de material de alta qualidade e protegido por direitos autorais de editoras renomadas para treinar seus grandes modelos de linguagem (LLMs). 

Segundo um estudo realizado pela Ziff Davis, empresa controladora da CNET, IGN e Mashable, o conteúdo de alta qualidade desempenha um papel fundamental no treinamento de modelos de IA. O estudo demonstra que fontes confiáveis ​​são preferidas para o treinamento de conjuntos de dados em empresas de IA, visando aprimorar o desempenho dos modelos, mas a contribuição dessas fontes é frequentemente negligenciada.

Na pesquisa, o advogado de IA da Ziff Davis, George Wukoson, e o diretor de tecnologia, Joey Fortuna, afirmaram que as empresas de IA escolhem os dados de treinamento com base na classificação de sites de autoridade com altas posições nos mecanismos de busca. Sites populares e de alta qualidade são escolhidos para aprimorar os modelos, pois possuem boa reputação. Uma estratégia que, segundo o estudo, permite aos desenvolvedores de IA refinar o modelo de linguagem.

Ziff Davis destacou que importantes fornecedores de conteúdo, como Axel Springer, Future PLC, Hearst, News Corp e The New York Times, entre outros, contribuíram para o desenvolvimento de conjuntos de dados de treinamento. Em particular, foidentque 12,04% do OpenWebText2, usado na criação do GPT-3 da OpenAI, veio dessas editoras renomadas.

Mark Zuckerberg também opinou sobre o debate em curso a respeito do uso de conteúdo no treinamento de IA. Em uma entrevista recente ao The Verge, Zuckerberg reconheceu que a coleta de dados para IA é um desafio, mas também apontou que o conteúdo de criadores ou editores individuais pode não ter tanto impacto. Ele afirmou: "Acho que criadores ou editores individuais tendem a superestimar o valor de seu conteúdo específico no contexto geral disso." 

Editoras processam empresas de IA

O sigilo em torno das fontes de dados de treinamento gerou preocupação entre editores e consumidores. O New York Times e o Wall Street Journal entraram recentemente com processos contra empresas de IA, alegando que elas violaram as leis de direitos autorais ao usar seu conteúdo. 

Embora a OpenAI tenha avançado nos esforços para obter licenciamento de conteúdo de organizações de mídia como o Financial Times e a DotDash Meredith, diversas empresas de IA ainda operam sem as devidas licenças. O relatório afirma ainda que “os principais desenvolvedores de LLM não divulgam mais seus dados de treinamento como faziam antigamente”. 

Embora o valor das empresas de IA esteja em ascensão, a lacuna entre os titãs da tecnologia e as empresas de mídia tradicionais permanece enorme. Gigantes da tecnologia como Google e Meta, que têm um valor estimado de US$ 2,2 trilhões e US$ 1,5 trilhão, respectivamente, continuam na vanguarda da IA ​​generativa, enquanto startups como OpenAI e Anthropic são avaliadas em US$ 157 bilhões e US$ 40 bilhões, respectivamente. 

 Por outro lado, as editoras ainda enfrentam demissões e reestruturações, o que evidencia a pressão financeira de adaptação a um ambiente cada vez mais defipela IA. Como resultado da concorrência com conteúdo gerado pelo usuário e conteúdo baseado em IA, inúmeras editoras enfrentam desafios em termos de redução de custos e de pessoal.

Existe um meio-termo entre deixar o dinheiro no banco e arriscar tudo em criptomoedas. Comece com este vídeo gratuito sobre finanças descentralizadas.

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrondentdentdentdentdentdentdentdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

MAIS… NOTÍCIAS
INTENSIVO AVANÇADAS
CURSO