FREE REPORT: A New Way to Earn Passive Income in 2025 DOWNLOAD

Os custos ocultos dos modelos de treinamento de IA

Nesta postagem:

  • O desenvolvimento de modelos de IA é caro, custando centenas de milhões devido às necessidades de computação e dados.
  • Os elevados custos dos dados centralizam o desenvolvimento da IA, levantando preocupações éticas.
  • Gruposdent trabalham em conjuntos de dados abertos, com novas estratégias, como dados generativos, ainda em teste.

A construção e o suporte de modelos modernos de IA exigem investimentos significativos, que podem ultrapassar centenas de milhões de dólares. As estimativas indicam que estes custos poderão atingir mil milhões de dólares num futuro próximo. 

Essa despesa se deve principalmente ao poder de computação onde entidades como as GPUs Nvidia são usadas, que podem custar cerca de US$ 30.000 cada e podem exigir milhares a mais para serem eficientes. Os pesquisadores afirmaram que a qualidade e a quantidade do conjunto de dados de treinamento utilizado no desenvolvimento de tais modelos são muito importantes. 

Líderes da indústria revelam custos surpreendentes do desenvolvimento de IA

De acordo com James Betker da OpenAI, o desempenho de um modelo é uma função dos dados de treinamento e não do design ou arquitetura do modelo. Sua afirmação é que modelos treinados em conjuntos de big data alcançarão os mesmos resultados. Portanto, os dados são a chave para o avanço da tecnologia de IA.

Dario Amodei, CEO da empresa de IA Anthropic AI, compartilhou seus insights sobre os aspectos financeiros desses desafios no podcast In Good Company. Ele afirmou que o treinamento dos modelos atuais, como o ChatGPT-4, está estimado em cerca de US$ 100 milhões, e o treinamento para modelos futuros pode exigir US$ 10-100 bilhões nos próximos anos.

Os modelos generativos de IA, e aqueles criados por grandes empresas, são, em sua essência, modelos estatísticos. Portanto, eles usam muitos exemplos para prever os resultados mais prováveis. Kyle Lo, do Allen Institute for AI (AI2), afirma que o ganho no desempenho pode ser atribuído principalmente aos dados, especialmente quando o ambiente de treinamento é consistente. 

Veja também  Especialistas dizem que Linda Yaccarino foi criada para falhar com x

A centralização de dados levanta questões éticas e de acessibilidade

O elevado custo da obtenção de dados de boa qualidade está a tornar o desenvolvimento da IA ​​uma reserva de algumas grandes empresas no mundo desenvolvido. Esta agregação de recursos é também uma fonte de preocupação relativamente à disponibilidade de tecnologia de IA e à possibilidade de utilização indevida. 

Só a OpenAI gastou centenas de milhões de dólares em licenças de dados, e a Meta considerou comprar editores para acesso aos dados. Espera-se que o mercado de dados de treinamento em IA se expanda e os corretores de dados provavelmente se beneficiarão desta oportunidade. 

Os problemas surgem de práticas questionáveis ​​de aquisição de dados. Segundo os relatórios, muitas empresas capturaram grandes volumes de conteúdo sem a autorização dos proprietários desses conteúdos, e algumas empresas aproveitam dados de diferentes plataformas e não remuneram os usuários. Como informamos anteriormente, a OpenAI usou seu modelo de transcrição de áudio Whisper para transcrever mais de um milhão de horas de vídeos do YouTube para ajustar o GPT-4.

As organizações trabalham para criar conjuntos de dados de treinamento de IA de acesso aberto

Dado que a corrida à aquisição de dados apresenta alguns problemas, são necessários alguns esforços por parte de partesdent para disponibilizar abertamente os conjuntos de dados de formação. Algumas organizações, como EleutherAI e Hugging Face, estão criando grandes conjuntos de dados que estão disponíveis ao público para desenvolvimento de IA.

Veja também  SpaceX de Elon Musk concorda em investir US $ 2 bilhões em xai

O Wall Street Journal destacou recentemente duas estratégias potenciais para resolver problemas de aquisição de dados: geração generativa de dados e aprendizagem curricular. Os dados sintéticos são criados usando os próprios modelos de IA, enquanto a aprendizagem curricular tenta fornecer aos modelos dados de alta qualidade de forma estruturada para que possam fazer conexões mesmo com menos dados. No entanto, ambos os métodos ainda estão em fase de desenvolvimento e sua eficácia ainda não foi testada. 

Principais diferenças : os projetos de criptografia de ferramenta secreta usam para obter cobertura de mídia garantida

Compartilhar link:

Isenção de responsabilidade. As informações fornecidas não são conselhos de negociação. Cryptopolitan.com não se responsabiliza por quaisquer investimentos feitos com base nas informações fornecidas nesta página. Recomendamos tron dent e /ou consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Mais Lidos

Carregando artigos mais lidos...

Fique por dentro das notícias sobre criptografia, receba atualizações diárias em sua caixa de entrada

Escolha do editor

Carregando artigos da Escolha do Editor...

- O boletim informativo criptográfico que o mantém à frente -

Os mercados se movem rapidamente.

Nós nos movemos mais rápido.

Inscreva -se no Cryptopolitan diariamente e fique com as informações de criptografia oportunas, nítidas e relevantes diretamente para sua caixa de entrada.

Junte -se agora e
nunca perca um movimento.

Entre. Obtenha os fatos.
Siga em frente.

Assine o CryptoPolitan