Google e Harvard lançam conjunto de dados com 1 milhão de livros em domínio público para treinamento de IA

Por

Enacy Mapakame

Tempo de leitura: 2 minutos - 12 de dezembro de 2024

A iniciativa ampliará o acesso a mais informações para que as empresas de IA possam treinar seus modelos.
A OpenAI e a Microsoft financiaram o projeto de Harvard.
Os quase um milhão de livros abrangem diversos gêneros e foram digitalizados como parte do programa Google Books.

A Universidade de Harvard, em conjunto com o Google, lançou um conjunto de dados com um milhão de livros de domínio público para treinar a próxima geração de IA.

Os livros abrangem diversos gêneros, idiomas e autores, como Dickens, Dante e Shakespeare, que não estão mais protegidos por direitos autorais devido à sua antiguidade. A nova iniciativa de conjunto de dados surge em um momento em que os dados para treinamento de IA são naturalmente caros e mais adequados para empresas de tecnologia com grandes recursos financeiros.

Harvard recebeu apoio financeiro de gigantes da tecnologia

Segundo um artigo do TechCrunch, a iniciativa é liderada pela Institutional Data Initiative (IDI) de Harvard. Essa iniciativa contém livros provenientes do projeto de digitalização de livros do Google, o Google Books.

Outros livros contidos no conjunto de dados incluem livros didáticos de matemática checos e dicionários de bolso galeses.

Em março, a universidade anunciou o IDI, declarando claramente seus planos de criar um "canal confiável para dados jurídicos para IA". Desde então, pouco se ouviu falar sobre o projeto até o lançamento oficial na quinta-feira, financiado pelas gigantes da tecnologia Microsoft e OpenAI.

O conjunto de dados não é exclusividade do Vale do Silício, mas o IDI o abriu para qualquer pessoa, desde laboratórios de pesquisa até startups de IA que desejam treinar seus grandes modelos de linguagem.

Ao disponibilizar o conjunto de dados para todos, o diretor executivo do IDI, Greg Leppert, afirmou que o objetivo é igualar as condições de concorrência, em um momento em que o custo do treinamento de IA permanece alto e proibitivo para empresas menores, tornando-o um privilégio apenas daquelas com orçamentos enormes.

Leppert acrescentou que o conjunto de dados é "rigorosamente revisado", o que, de acordo com o Fudzilla, presumivelmente significa que alguém verificou se Bard realmente havia desaparecido e saído do caminho.

O conjunto de dados de Harvard precisará de mais recursos

Segundo Leppert, que comparou o potencial do conjunto de dados ao Linux, o sistema operacional de código aberto, o sucesso do conjunto de dados de Harvard dependerá de uma série de variáveis. Leppert afirmou que seu sucesso exigirá mais recursos, conhecimento especializado e uma "pitada de magia" das mesmas corporações com vastos recursos financeiros que a iniciativa visa desafiar.

O milhão de livros contidos no conjunto de dados foram digitalizados como parte do programa Google Books. A Fudzilla descreve a iniciativa como uma cápsula do tempo digital de quando as ambições do Google de digitalizar todos os livros pareciam excêntricas em vez de distópicas.

No entanto, Leppert está otimista quanto aos usos potenciais do projeto, sugerindo ainda que ele poderia ser um verdadeiro tesouro, ajudando a treinar modelos de IA para todos, desde startups de garagem até conglomerados corporativos.

Embora alguns tenham elogiado a iniciativa como um salto revolucionário na democratização da IA, a Fudzilla opina que alguns podem ver isso como um meio sutil de garantir que qualquer novato ambicioso com alguns terabytes de espaço em servidor possa agora competir na corrida para desenvolver o próximo ChatGPT.

No entanto, precisarão de mais recursos para competir e conquistar uma dent do mercado. O ChatGPT foi lançado em novembro de 2022 e obteve sucesso imediato, o que impulsionou a corrida por modelos de IA generativa em todo o mundo. Contudo, o desenvolvimento desses modelos gerou uma sede por dados para aprimorá-los, e esse desejo por mais dados causou problemas relacionados à quantidade de informações que podem ser obtidas sem que isso seja ilegal.

Até o momento, editoras como o Wall Street Journal e o New York Times processaram a OpenAI e a Perplexity pelo uso não autorizado de seus dados.

As mentes mais brilhantes do mundo das criptomoedas já leem nossa newsletter. Quer participar? Junte-se a elas.

Google

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Enacy Mapakame

Enacy Mapakame é jornalista com mais de 10 anos de experiência em notícias de negócios e finanças. Ela cobre mercados de capitais e tecnologias emergentes – o metaverso, IA e criptomoedas. Enacy é formada em Estudos de Mídia e Sociedade (BSc) com honras.

ÍNDICE

1. Harvard recebeu apoio financeiro de gigantes da tecnologia

2. O conjunto de dados de Harvard precisará de mais recursos

Compartilhe este artigo