A construção e o suporte de modelos modernos de IA exigem investimentos significativos, que podem ultrapassar centenas de milhões de dólares. As estimativas indicam que estes custos poderão atingir mil milhões de dólares num futuro próximo.
Essa despesa se deve principalmente ao poder de computação onde entidades como as GPUs Nvidia são usadas, que podem custar cerca de US$ 30.000 cada e podem exigir milhares a mais para serem eficientes. Os pesquisadores afirmaram que a qualidade e a quantidade do conjunto de dados de treinamento utilizado no desenvolvimento de tais modelos são muito importantes.
Líderes da indústria revelam custos surpreendentes do desenvolvimento de IA
De acordo com James Betker da OpenAI, o desempenho de um modelo é uma função dos dados de treinamento e não do design ou arquitetura do modelo. Sua afirmação é que modelos treinados em conjuntos de big data alcançarão os mesmos resultados. Portanto, os dados são a chave para o avanço da tecnologia de IA.
Dario Amodei, CEO da empresa de IA Anthropic AI, compartilhou seus insights sobre os aspectos financeiros desses desafios no podcast In Good Company. Ele afirmou que o treinamento dos modelos atuais, como o ChatGPT-4, está estimado em cerca de US$ 100 milhões, e o treinamento para modelos futuros pode exigir US$ 10-100 bilhões nos próximos anos.
Os modelos generativos de IA, e aqueles criados por grandes empresas, são, em sua essência, modelos estatísticos. Portanto, eles usam muitos exemplos para prever os resultados mais prováveis. Kyle Lo, do Allen Institute for AI (AI2), afirma que o ganho no desempenho pode ser atribuído principalmente aos dados, especialmente quando o ambiente de treinamento é consistente.
A centralização de dados levanta questões éticas e de acessibilidade
O elevado custo da obtenção de dados de boa qualidade está a tornar o desenvolvimento da IA uma reserva de algumas grandes empresas no mundo desenvolvido. Esta agregação de recursos é também uma fonte de preocupação relativamente à disponibilidade de tecnologia de IA e à possibilidade de utilização indevida.
Só a OpenAI gastou centenas de milhões de dólares em licenças de dados, e a Meta considerou comprar editores para acesso aos dados. Espera-se que o mercado de dados de treinamento em IA se expanda e os corretores de dados provavelmente se beneficiarão desta oportunidade.
Os problemas surgem de práticas questionáveis de aquisição de dados. Segundo os relatórios, muitas empresas capturaram grandes volumes de conteúdo sem a autorização dos proprietários desses conteúdos, e algumas empresas aproveitam dados de diferentes plataformas e não remuneram os usuários. Como informamos anteriormente, a OpenAI usou seu modelo de transcrição de áudio Whisper para transcrever mais de um milhão de horas de vídeos do YouTube para ajustar o GPT-4.
As organizações trabalham para criar conjuntos de dados de treinamento de IA de acesso aberto
Dado que a corrida à aquisição de dados apresenta alguns problemas, são necessários alguns esforços por parte de partesdent para disponibilizar abertamente os conjuntos de dados de formação. Algumas organizações, como EleutherAI e Hugging Face, estão criando grandes conjuntos de dados que estão disponíveis ao público para desenvolvimento de IA.
O Wall Street Journal destacou recentemente duas estratégias potenciais para resolver problemas de aquisição de dados: geração generativa de dados e aprendizagem curricular. Os dados sintéticos são criados usando os próprios modelos de IA, enquanto a aprendizagem curricular tenta fornecer aos modelos dados de alta qualidade de forma estruturada para que possam fazer conexões mesmo com menos dados. No entanto, ambos os métodos ainda estão em fase de desenvolvimento e sua eficácia ainda não foi testada.
Principais diferenças : os projetos de criptografia de ferramenta secreta usam para obter cobertura de mídia garantida