Google и Гарвардский университет представили набор данных, содержащий 1 миллион книг, находящихся в общественном достоянии, для обучения ИИ

Автор:

Энаси Мапакаме

2 минуты чтения, 12 декабря 2024 г.

Эта инициатива расширит доступ компаний, занимающихся разработкой искусственного интеллекта, к большему объему информации для обучения своих моделей.
Проект в Гарварде финансировался компаниями OpenAI и Microsoft.
Почти миллион книг, отсканированных в рамках программы Google Books, представляют различные жанры.

Гарвардский университет совместно с Google выпустил набор данных, содержащий миллион книг, находящихся в общественном достоянии, для обучения следующего поколения искусственного интеллекта.

Эти книги охватывают различные жанры, языки и авторов, таких как Диккенс, Данте и Шекспир, и больше не защищены авторским правом из-за своего возраста. Новая инициатива по созданию наборов данных появилась в то время, когда обучающие данные для ИИ, естественно, дороги и лучше всего подходят для технологических компаний с большими финансовыми возможностями.

Гарвард получил финансовую поддержку от технологических гигантов

Согласно статье TechCrunch, инициатива возглавляется Институциональной инициативой данных Гарвардского университета (IDI). Эта инициатива включает книги, полученные в рамках давнего проекта Google по сканированию книг Google Books.

В набор данных также входят чешские учебники по математике и валлийские карманные словари.

В марте университет анонсировал IDI, четко заявив о своих планах создать «надежный канал для передачи правовых данных для ИИ». С тех пор о проекте почти ничего не было слышно, пока в четверг не состоялся официальный запуск, а технологические гиганты Microsoft и OpenAI не профинансировали его.

Этот набор данных предназначен не только для Кремниевой долины, но и открыт для всех желающих, от исследовательских лабораторий до стартапов в области искусственного интеллекта, стремящихся обучить свои большие языковые модели.

Как заявил исполнительный директор IDI Грег Лепперт, открытие доступа к набору данных для всех желающих призвано выровнять условия конкуренции в условиях, когда стоимость обучения ИИ остается высокой и недоступной для небольших компаний, делая ее прерогативой тех, кто располагает огромными бюджетами.

Лепперт добавил, что набор данных «тщательно проверен», что, по словам Фудзиллы, предположительно означает, что кто-то проверил, действительно ли Бард исчез и не мешал.

Для работы с набором данных Гарвардского университета потребуется больше ресурсов

По словам Лепперта, который сравнил потенциал набора данных с Linux, операционной системой с открытым исходным кодом, успех набора данных Гарварда будет зависеть от ряда переменных. Лепперт сказал, что для его успеха потребуется больше ресурсов, экспертных знаний и «немного волшебства» от тех самых богатых корпораций, которым эта инициатива призвана противостоять.

Миллион книг, содержащихся в этом наборе данных, были отсканированы в рамках программы Google Books. Fudzilla описывает эту инициативу как цифровую капсулу времени, сохранившую те времена, когда амбиции Google отсканировать каждую книгу казались скорее причудливыми, чем антиутопическими.

Однако Лепперт с оптимизмом оценивает потенциальные возможности проекта, предполагая, что он может стать настоящим кладезем знаний, помогая обучать модели искусственного интеллекта для всех — от небольших стартапов до крупных корпоративных конгломератов.

Хотя некоторые хвалят эту инициативу как революционный шаг вперед в демократизации ИИ, Fudzilla считает, что некоторые могут рассматривать это как тонкий способ обеспечить любому амбициозному новичку с несколькими терабайтами серверного пространства возможность участвовать в гонке за разработку следующего ChatGPT.

Однако им потребуется больше ресурсов, чтобы конкурировать и занять dent на рынке. ChatGPT, запущенный в ноябре 2022 года, сразу же добился успеха, что подстегнуло гонку за генеративными моделями ИИ по всему миру. Однако разработка этих моделей породила потребность в данных для их совершенствования, и это стремление к получению большего количества данных создало проблемы с тем, какой объем информации можно получить, не украв ее.

На сегодняшний день такие издательства, как Wall Street Journal и New York Times, подали в суд на OpenAI и Perplexity за использование их данных без разрешения.

Не просто читайте новости о криптовалютах. Разберитесь в них. Подпишитесь на нашу рассылку. Это бесплатно.

Google

Поделитесь этой статьей

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Энаси Мапакаме

Энаси Мапакаме — журналистка с более чем 10-летним опытом работы в сфере деловых и финансовых новостей. Она освещает рынки капитала и новые технологии — метавселенную, искусственный интеллект и криптовалюты. Энаси имеет степень бакалавра наук в области медиа и социальных исследований с отличием.

ОГЛАВЛЕНИЕ

1. Гарвард получил финансовую поддержку от технологических гигантов

2. Для работы с набором данных Гарвардского университета потребуется больше ресурсов

Поделитесь этой статьей