Seja no trabalho da OpenAI , Google e Meta, ou no financiamento da IA para o setor industrial, que abrange vários meios, como a coleta ou acumulação de enormes volumes de dados digitais de diferentes maneiras criativas, porém controversas, fica claro que as habilidades e capacidades de automação estão aumentando. Notavelmente, os esforços que envolvem ações como as medidas descritas acima (ou seja, levando em consideração os limites legais e as políticas corporativas) são equivalentes à quantidade considerável de dados usada para treinar os sistemas de IA.
Iniciativa de sussurros da OpenAI: Minerando conversas do YouTube
Nossa história com o Whisper começou no ano passado. Há uma escassez avassaladora de textos em inglês de alta qualidade, o que causa atrasos na entrega de conteúdo educacional. O Whisper foi o próximo passo do Google. Ele entendeu o oceano de diálogos do YouTube e foi desenvolvido como texto, um aplicativo de conversão de texto em voz. A ferramenta em si, com tecnologia de IA, que consiste em mais de um milhão de horas de vídeos do YouTube auditados por IA para gerar novos textos (essencialmente, uma nova conversa), tem sido utilizada para treinar modelos de IA produzidos desde o mais avançado até o GPT-4, a versão mais recente do chatbot ChatGPT.
Embora alguns funcionários argumentassem que as filmagens da OpenAI na Microsoft plagiariam o YouTube em todos os aspectos, a ética do plágio ainda era discutível; além disso, alguns funcionários admitiram que seria impossível alinhar precisamente com as intenções do YouTube. Da mesma forma, a obtenção de objeções no processamento algorítmico dos vídeos paratraco conteúdo textual para alimentar os modelos de IA pode ter sido considerada uma ameaça aos direitos autorais dos criadores dos vídeos, causando indignação.
A Meta, empresa controladora do Facebook e do Instagram, também estava preocupada com o uso de elementos protegidos por direitos autorais de editoras como a Simon & Schuster, entre outras. Ao mesmo tempo, também discutiu a aquisição de conteúdo geral da web, com o potencial de ser flagrada em violação de direitos autorais.
A crise de dados: impulsionando abordagens não convencionais
A coleta de dados, repleta de concorrência, ajuda a destacar a posição central dos dados edent-los no desenvolvimento da tecnologia de IA. A linguagem em uma IA comanda cada vez mais conjuntos de dados de treinamento, incluindo a Commonwealth, que hoje são manipulados de fora dessas fontes, como a Wikipédia e o Reddit. Para empresas de tecnologia — especialmente aquelas com dificuldade de acessar fontes de dados muito comuns, como armazenamentos de dados tradicionais —, criar modelos baseados em IA pode ser uma solução alternativa bastante desejável nesses casos.
Empresas de tecnologia afirmam que a coleta de dados é necessária para o treinamento em IA, enquanto o mesmo processo está sendo questionado judicialmente. Em sua defesa, a OpenAI e a Microsoft venceram uma alegação sobre o uso ilegal de material protegido por direitos autorais contra elas. Ainda assim, elas alegaram que suas ações se enquadram no princípio legal do uso justo. Nos últimos anos, o número de solicitações submetidas ao Escritório de Direitos Autorais dos EUA por detentores de direitos autorais ultrapassou 10.000, o que demonstra claramente que a lei de direitos autorais na era da IA é única e totalmente nova. Consequentemente, os principais participantes sempre enfrentam perigos relacionados à violação de muitas obras, sob o pretexto de que não há fins licenciados para os modelos que utilizam IA com base nisso.
O imperativo dos conjuntos de dados massivos
No geral, o trabalho de Kaipan, cientista da escala, tem sido involuntariamente épico no desenvolvimento de IA. O conteúdo baseado em dados é um dos componentes da IA necessários para o processo de treinamento, mas não pode funcionar bem sem modelos bem treinados e que operem com eficácia. Com o aumento da tecnologia de inteligência artificial, a demanda por dados para ter sucesso no mercado aumenta rapidamente, deixando as empresas com questões relacionadas a leis, ética e privacidade. Portanto, os algoritmos de inteligência artificial devem utilizar esses conjuntos de dados para ter sucesso no mercado.
O comportamento de coleta de dados dos VIPs está sendo desfigurado para de IA ; o juramento metodológico típico está sendo tornado mais rigoroso. Seja por meio de uma de suas palestras no YouTube ou da criação de dados sintéticos generativos, essas empresas são líderes em uma missão para descobrir o que realmente são as questões de lei, ética e privacidade.
Mais tarde, eles podem se tornar uma piada no mar. Devido ao surgimento dos enormes conjuntos de dados necessários para impulsionar o processo de inovação, os líderes da sociedade são obrigados a participar ativamente de um diálogo construtivo para desenvolver regras e padrões nos quais os esforços de inovação sejam equilibrados com os princípios éticos de direitos de propriedade intelectual e privacidade.
História original de: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
Quer que seu projeto seja apresentado às mentes mais brilhantes do mundo das criptomoedas? Apresente-o em nosso próximo relatório do setor, onde dados encontram impacto.

