Seja através do trabalho da OpenAI , do Google e da Meta, ou do financiamento da IA no setor industrial, que engloba diversos meios, como a coleta ou o acúmulo de enormes volumes de dados digitais de maneiras criativas, porém controversas, é evidente que as capacidades e habilidades de automação estão aumentando. Notavelmente, os esforços que envolvem ações como as descritas acima (ou seja, levar em consideração os limites legais e as políticas corporativas) equivalem à quantidade considerável de dados utilizada para treinar os sistemas de IA.
Iniciativa Whisper da OpenAI: Mineração de conversas do YouTube
Nossa história com o Whisper começou no ano passado. Há uma enorme escassez de textos em inglês de alta qualidade, o que causa atrasos na oferta de conteúdo educacional. O Whisper foi o próximo passo do Google. Ele compreendeu o oceano de diálogos do YouTube e foi desenvolvido como um aplicativo de texto para fala. A própria ferramenta, baseada em inteligência artificial, consiste em mais de um milhão de horas de vídeos do YouTube analisados por IA para gerar novos textos (essencialmente, uma nova conversa) e foi utilizada para treinar modelos de IA, desde os mais avançados até o GPT-4, a versão mais recente do chatbot ChatGPT.
Embora alguns funcionários argumentassem que as filmagens da Microsoft para a OpenAI plagiariam o YouTube em todos os aspectos, a ética do plágio ainda era debatível; além disso, alguns funcionários admitiram que seria impossível alinhar-se precisamente às intenções do YouTube. Da mesma forma, a obtenção de objeções no processamento algorítmico dos vídeos paratraco conteúdo textual e alimentar os modelos de IA poderia ter sido considerada uma ameaça aos direitos autorais dos criadores de vídeo, causando indignação.
A Meta, empresa controladora do Facebook e do Instagram, também estava preocupada com o uso de elementos protegidos por direitos autorais de editoras como a Simon & Schuster, entre outras. Ao mesmo tempo, discutiu-se a aquisição de conteúdo da internet em geral, o que poderia acarretar em infrações de direitos autorais.
A crise dos dados: impulsionando abordagens não convencionais
A coleta de dados, marcada pela alta competitividade, ajuda a destacar a importância crucial dos dados e adent-los no desenvolvimento da tecnologia de IA. A linguagem, ao ser incorporada à IA, exige conjuntos de dados de treinamento cada vez maiores, incluindo os da Commonwealth, que hoje são manipulados até mesmo para acessar plataformas como Wikipedia e Reddit. Para empresas de tecnologia — especialmente aquelas com dificuldade de acesso a fontes de dados comuns, como bancos de dados tradicionais — a criação de modelos baseados em IA pode ser uma solução alternativa bastante atraente nesses casos.
Empresas de tecnologia indicam que a coleta de dados é necessária para o treinamento de IA, enquanto o mesmo processo é questionado judicialmente. Em sua defesa, a OpenAI e a Microsoft venceram uma ação judicial por uso indevido de material protegido por direitos autorais. Mesmo assim, alegaram que suas ações se enquadravam no princípio legal do uso justo. Nos últimos anos, o número de pedidos submetidos ao Escritório de Direitos Autorais dos EUA por detentores de direitos autorais ultrapassou 10.000, o que demonstra claramente que a legislação de direitos autorais na era da IA é singular e inédita. Consequentemente, os principais atores do setor enfrentam constantemente riscos relacionados à violação de diversas obras sob o pretexto de que não há finalidades licenciadas para os modelos que utilizam IA.
A necessidade imperativa de conjuntos de dados massivos
De modo geral, o trabalho de Kaipan e Jared, cientista da escala, tem sido involuntariamente épico no desenvolvimento da IA. Conteúdo baseado em dados é um dos componentes da IA necessários para o processo de treinamento, mas ela não funciona bem sem modelos que tenham sido bem treinados e operem de forma eficaz. Com o aumento da tecnologia de inteligência artificial, a demanda por dados para ter sucesso no mercado cresce a um ritmo acelerado, deixando as empresas com questões relacionadas a leis, ética e privacidade. Portanto, os algoritmos de inteligência artificial precisam usar esses conjuntos de dados para obter sucesso no mercado.
O comportamento de coleta de dados de empresas VIP está sendo desfigurado para de IA ; o juramento metodológico típico está sendo flexibilizado. Seja por meio de suas palestras no YouTube ou pela criação de geradores de dados sintéticos, essas empresas são líderes em uma missão para descobrir quais são, de fato, as questões de direito, ética e privacidade.
Mais tarde, poderão virar motivo de piada no mar. Devido ao surgimento dos enormes conjuntos de dados necessários para impulsionar o processo de inovação, exige-se que os líderes da sociedade participem ativamente de um diálogo construtivo para desenvolver regras e padrões que equilibrem os esforços de inovação com os princípios éticos dos direitos de propriedade intelectual e da privacidade.
Matéria original de: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
Aprimore sua estratégia com mentoria + ideias diárias - 30 dias de acesso gratuito ao nosso programa de trading.

