Gigantes da tecnologia ultrapassam limites para alimentar a demanda por dados da IA

By James Kinoti
Atualizado em: 6 de abril de 2024, 12h39 UTC

Tempo de leitura: 3 minutos

507313

Conteúdo

1. Iniciativa Whisper da OpenAI: Mineração de conversas do YouTube

2. A crise dos dados: impulsionando abordagens não convencionais

3. A necessidade imperativa de conjuntos de dados massivos

Compartilhar link:

Neste post:

Gigantes da tecnologia recorrem a métodos controversos para coletar dados de IA.
A OpenAI transcreve vídeos do YouTube, e o Google e a Meta estão considerando comprar conteúdo protegido por direitos autorais.
Debates legais e éticos surgem em relação ao uso de vastos conjuntos de dados pela IA.

Seja através do trabalho da OpenAI , do Google e da Meta, ou do financiamento da IA no setor industrial, que engloba diversos meios, como a coleta ou o acúmulo de enormes volumes de dados digitais de maneiras criativas, porém controversas, é evidente que as capacidades e habilidades de automação estão aumentando. Notavelmente, os esforços que envolvem ações como as descritas acima (ou seja, levar em consideração os limites legais e as políticas corporativas) equivalem à quantidade considerável de dados utilizada para treinar os sistemas de IA.

Iniciativa Whisper da OpenAI: Mineração de conversas do YouTube

Nossa história com o Whisper começou no ano passado. Há uma enorme escassez de textos em inglês de alta qualidade, o que causa atrasos na oferta de conteúdo educacional. O Whisper foi o próximo passo do Google. Ele compreendeu o oceano de diálogos do YouTube e foi desenvolvido como um aplicativo de texto para fala. A própria ferramenta, baseada em inteligência artificial, consiste em mais de um milhão de horas de vídeos do YouTube analisados por IA para gerar novos textos (essencialmente, uma nova conversa) e foi utilizada para treinar modelos de IA, desde os mais avançados até o GPT-4, a versão mais recente do chatbot ChatGPT.

Embora alguns funcionários argumentassem que as filmagens da Microsoft para a OpenAI plagiariam o YouTube em todos os aspectos, a ética do plágio ainda era debatível; além disso, alguns funcionários admitiram que seria impossível alinhar-se precisamente às intenções do YouTube. Da mesma forma, a obtenção de objeções no processamento algorítmico dos vídeos paratraco conteúdo textual e alimentar os modelos de IA poderia ter sido considerada uma ameaça aos direitos autorais dos criadores de vídeo, causando indignação.

Veja também: Hard fork do Polygon corrige bug após falha de rede

A Meta, empresa controladora do Facebook e do Instagram, também estava preocupada com o uso de elementos protegidos por direitos autorais de editoras como a Simon & Schuster, entre outras. Ao mesmo tempo, discutiu-se a aquisição de conteúdo da internet em geral, o que poderia acarretar em infrações de direitos autorais.

A crise dos dados: impulsionando abordagens não convencionais

A coleta de dados, marcada pela alta competitividade, ajuda a destacar a importância crucial dos dados e adent-los no desenvolvimento da tecnologia de IA. A linguagem, ao ser incorporada à IA, exige conjuntos de dados de treinamento cada vez maiores, incluindo os da Commonwealth, que hoje são manipulados até mesmo para acessar plataformas como Wikipedia e Reddit. Para empresas de tecnologia — especialmente aquelas com dificuldade de acesso a fontes de dados comuns, como bancos de dados tradicionais — a criação de modelos baseados em IA pode ser uma solução alternativa bastante atraente nesses casos.

Empresas de tecnologia indicam que a coleta de dados é necessária para o treinamento de IA, enquanto o mesmo processo é questionado judicialmente. Em sua defesa, a OpenAI e a Microsoft venceram uma ação judicial por uso indevido de material protegido por direitos autorais. Mesmo assim, alegaram que suas ações se enquadravam no princípio legal do uso justo. Nos últimos anos, o número de pedidos submetidos ao Escritório de Direitos Autorais dos EUA por detentores de direitos autorais ultrapassou 10.000, o que demonstra claramente que a legislação de direitos autorais na era da IA é singular e inédita. Consequentemente, os principais atores do setor enfrentam constantemente riscos relacionados à violação de diversas obras sob o pretexto de que não há finalidades licenciadas para os modelos que utilizam IA.

Veja também: Traders de criptomoedas dão as boas-vindas ao bot de negociação Sigmax.io

A necessidade imperativa de conjuntos de dados massivos

De modo geral, o trabalho de Kaipan e Jared, cientista da escala, tem sido involuntariamente épico no desenvolvimento da IA. Conteúdo baseado em dados é um dos componentes da IA necessários para o processo de treinamento, mas ela não funciona bem sem modelos que tenham sido bem treinados e operem de forma eficaz. Com o aumento da tecnologia de inteligência artificial, a demanda por dados para ter sucesso no mercado cresce a um ritmo acelerado, deixando as empresas com questões relacionadas a leis, ética e privacidade. Portanto, os algoritmos de inteligência artificial precisam usar esses conjuntos de dados para obter sucesso no mercado.

O comportamento de coleta de dados de empresas VIP está sendo desfigurado para de IA ; o juramento metodológico típico está sendo flexibilizado. Seja por meio de suas palestras no YouTube ou pela criação de geradores de dados sintéticos, essas empresas são líderes em uma missão para descobrir quais são, de fato, as questões de direito, ética e privacidade.

Mais tarde, poderão virar motivo de piada no mar. Devido ao surgimento dos enormes conjuntos de dados necessários para impulsionar o processo de inovação, exige-se que os líderes da sociedade participem ativamente de um diálogo construtivo para desenvolver regras e padrões que equilibrem os esforços de inovação com os princípios éticos dos direitos de propriedade intelectual e da privacidade.

Matéria original de: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

Aprimore sua estratégia com mentoria + ideias diárias - 30 dias de acesso gratuito ao nosso programa de trading.

Compartilhar link:

Leia o aviso legal

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. O Cryptopolitan não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamos tron a realização de pesquisas independentes dent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Escolha do editor

Carregando artigos selecionados pela equipe editorial...

Gigantes da tecnologia ultrapassam limites para alimentar a demanda por dados da IA

Conteúdo

Neste post:

Iniciativa Whisper da OpenAI: Mineração de conversas do YouTube

A crise dos dados: impulsionando abordagens não convencionais

A necessidade imperativa de conjuntos de dados massivos

Compartilhar link:

Mais lidas

Fique por dentro das notícias sobre criptomoedas e receba atualizações diárias na sua caixa de entrada

Escolha do editor

Cadastre-se e fique por dentro do topo

Os mercados se movem rapidamente.

Nós nos movemos mais rápido.

Entre. Informe-se.
Saia na frente.

Gigantes da tecnologia ultrapassam limites para alimentar a demanda por dados da IA

Conteúdo

Neste post:

Iniciativa Whisper da OpenAI: Mineração de conversas do YouTube

A crise dos dados: impulsionando abordagens não convencionais

A necessidade imperativa de conjuntos de dados massivos

Compartilhar link:

Mais lidas

Fique por dentro das notícias sobre criptomoedas e receba atualizações diárias na sua caixa de entrada

Escolha do editor

Cadastre-se e fique por dentro do topo

Siga-nos

- A newsletter de criptomoedas que te mantém sempre um passo à frente -

Os mercados se movem rapidamente.

Nós nos movemos mais rápido.

Entre. Informe-se. Saia na frente.

Entre. Informe-se.
Saia na frente.