Empresas de IA navegam por áreas cinzentas legais em relação aos dados de treinamento

Por

Brian Koome

Tempo de leitura: 4 minutos - 6 de abril de 2024

A OpenAI e o Google estão sendo criticados por coletarem dados de treinamento. A OpenAI transcreve vídeos do YouTube e o Google usa o conteúdo com permissão.
A Meta está considerando comprar uma grande editora para coletar dados para inteligência artificial em meio a preocupações com a privacidade.
A indústria de IA enfrenta escassez de dados e está explorando soluções como dados sintéticos, mas as preocupações legais e éticas persistem.

Ao discutir o recente debate sobre como a Open e o Google obtêm seus dados para se adequarem ao modelo, você notará que dois termos dominam a discussão: Open e Google. Os artigos publicados recentemente no The Wall Street Journal e no The New York Times ilustram que a forma como as empresas de IA coletam dados não atendeu aos padrões exigidos e gerou questionamentos sobre a veracidade dos dados e a abordagem ética adotada na criação do sistema de IA.

Táticas questionáveis da OpenAI

No entanto, em seu auge, o New York Times destacou os resultados mais abrangentes alcançados pela OpenAI com o Whisper. Esse modelo de transcrição de áudio para texto é apresentado como um complemento à tecnologia LP-4 (Processador de Linguagem) da OpenAI. De fato, o carro autônomo da OpenAI não se baseia na coleta de informações, um desafio enfrentado pela empresa; esta última entra em ação em situações específicas.

Embora a popularidade inicial das leis de coleta de dados estivesse relacionada a considerações de uso justo de direitos autorais, estas também se tornaram uma base legal para essas leis. Como Brockman afirmou, um dos membros fundadores e CEO da OpenAI forneceu algumas informações necessárias para a transcrição. No entanto, ele prossegue dizendo que o historiador também contribuiu para a transcrição.

No entanto, a Google Corporation está assumindo o protagonismo até mesmo em questões menores, em detrimento de empreendimentos maiores como este. Por exemplo, uma organização de coleta de dados como a OpenAI é menor e se envolve em projetos voltados para a gigante do setor, enquanto o usuário foi apenas advertido, sem que o YouTube lhe apontasse o culpado.

Além dessa abordagem, o Facebook também abordou a base de conformidade dos Termos de Serviço e proibiu ações não autorizadas, especialmente a chamada coleta de dados. No caso de John Conly (porta-voz do YouTube), ele respondeu à pergunta sobre se os modelos foram usados para treinamento de IA baseado em conteúdo após a coleta de dados de criadores de conteúdo.

Pelo contrário. Além do treinamento de máquinas, o Meta é um problema atual que leva à sua inviabilidade. O de IA da empresa, que obteve sucesso na rivalidade com a OpenAI, considerou que ambas as equipes utilizaram todos os meios disponíveis para trabalhar em um resultado melhor para suas empresas, incluindo pensamento original, sem dar atenção a qualquer questão em favor da parte derrotada.

A Meta parece ter preparado tipos de perguntas que visavam obter respostas sobre qual trabalho seria delegado, quem seria o responsável pela compra de livros e de quais editoras especializadas em áreas específicas. Embora a experiência do usuário na rede seja extremamente impressionante, políticas governamentais estabelecidas tomaram a iniciativa de interferir na privacidade individual, o que foi evidenciado em 2018 pelo escândalo da Cambridge Analytica.

O panorama mais amplo do treinamento em IA enfrenta um dilema premente: por um lado, a questão da escassez de dados tornou-se mais crítica nos últimos anos; por outro, embora a relação entre os dois problemas permaneça, os pesquisadores sempre insistem na necessidade de dados adequados para aumentar a precisão e o desempenho.

Além disso, a previsão do Wall Street Journal desperta entusiasmo, projetando altas acima de todas as metas para o início de 2020 e fechando o ano com o ponto mais alto do mercado. Esse método se baseia em dois fatores: a utilização de modelos, que podem ser sintéticos para estabelecer uma matriz externa, e um currículo de processo decisório, no qual os modelos aprendem com suas decisões. Não espere que eles produzam resultados, mas permita que sejam observáveis.

Implicações legais e éticas

A ausência de uma regra contra a pirataria pode trazer problemas, pois nada permite que os usuários acessem itens protegidos por direitos autorais, e questões de entendimento podem surgir em relação a leis, ética, etc. Os dados se tornam propriedade intangível e a base para saber e declarar o que é seu e o que não é, em que os dados e o usuário são reconhecidos como a fonte do negócio quando o uso desses dados é injustificado? Esse risco obrigaria a equipe de P&D a se concentrar em revisá-los e encontrar soluções.

A relação com o propósito das ações coletivas implica que a privacidade e o uso de dados são questões que a organização desconhece o suficiente para legitimar suas operações. De fato, os desafios (como as questões éticas relativas ao processo de mineração de dados utilizado para pesquisa e desenvolvimento em IA) se tornam complexos porque precisamos considerar as restrições regulatórias e a privacidade dos dados (já que a natureza dos dados está inserida no contexto de como são processados e utilizados).

A competição mais acirrada do futuro da IA reside emdentos melhores dados para o treinamento dos sistemas de IA e, mais ainda, em saber se esses dados estarão sujeitos a estruturas regulatórias éticas e legais comuns. Tudo relacionado à IA, por sua própria natureza, enfatiza e amplia conceitos como inovação e implementação por meio de filtros de conjuntos de dados para empresas.

Sendo uma tecnologia, a Inteligência Artificial nunca é estática, portanto o principal problema será sempre o uso de dados, e continuará sendo uma das prioridades dos membros da comunidade que se consolidam utilizando a Inteligência Artificial da melhor forma.

Matéria original de: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb

Se você está lendo isto, já está um passo à frente. Continue assim assinando nossa newsletter.

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Brian Koome

Brian Koome tem mais de sete anos de experiência em reportagens sobre blockchain e criptomoedas, atuando no setor desde 2017. Ele contribuiu para publicações de destaque, incluindo o BlockToday.com. Além disso, desenvolveu o curso Ethereum 101 para o BitDegree.org antes de se juntar ao Cryptopolitan como redator em tempo integral. Brian escreve guias permanentes (EGs), análises aprofundadas, entrevistas e análises de preços. Seu foco em DeFi, inovação em blockchain e projetos cripto emergentes encanta os leitores.

ÍNDICE

1. Táticas questionáveis da OpenAI

2. Implicações legais e éticas

Compartilhe este artigo