ПОСЛЕДНИЕ НОВОСТИ
ПОДОБРАНО ДЛЯ ВАС
Еженедельно
ОСТАВАЙТЕСЬ НА ВЕРШИНЕ

Лучшие аналитические материалы о криптовалютах прямо в вашу электронную почту.

Google и Гарвардский университет представили набор данных, содержащий 1 миллион книг, находящихся в общественном достоянии, для обучения ИИ

Автор:Энаси МапакамеЭнаси Мапакаме
2 минуты чтения,
  • Эта инициатива расширит доступ компаний, занимающихся разработкой искусственного интеллекта, к большему объему информации для обучения своих моделей.
  • Проект в Гарварде финансировался компаниями OpenAI и Microsoft.
  • Почти миллион книг, отсканированных в рамках программы Google Books, представляют различные жанры.

Гарвардский университет совместно с Google выпустил набор данных, содержащий миллион книг, находящихся в общественном достоянии, для обучения следующего поколения искусственного интеллекта.

Эти книги охватывают различные жанры, языки и авторов, таких как Диккенс, Данте и Шекспир, и больше не защищены авторским правом из-за своего возраста. Новая инициатива по созданию наборов данных появилась в то время, когда обучающие данные для ИИ, естественно, дороги и лучше всего подходят для технологических компаний с большими финансовыми возможностями.

Гарвард получил финансовую поддержку от технологических гигантов

Согласно статье TechCrunch, инициатива возглавляется Институциональной инициативой данных Гарвардского университета (IDI). Эта инициатива включает книги, полученные в рамках давнего проекта Google по сканированию книг Google Books.

В набор данных также входят чешские учебники по математике и валлийские карманные словари.

В марте университет анонсировал IDI, четко заявив о своих планах создать «надежный канал для передачи правовых данных для ИИ». С тех пор о проекте почти ничего не было слышно, пока в четверг не состоялся официальный запуск, а технологические гиганты Microsoft и OpenAI не профинансировали его.

Этот набор данных предназначен не только для Кремниевой долины, но и открыт для всех желающих, от исследовательских лабораторий до стартапов в области искусственного интеллекта, стремящихся обучить свои большие языковые модели.

исполнительный директор IDI Грег Лепперт, открытие доступа к набору данных для всех желающих заявил призвано выровнять условия конкуренции в условиях, когда стоимость обучения ИИ остается высокой и недоступной для небольших компаний, делая ее прерогативой тех, кто располагает огромными бюджетами.

Лепперт добавил, что набор данных «тщательно проверен», что, по словам Фудзиллы, предположительно означает, что кто-то проверил, действительно ли Бард исчез и не мешал.

Для работы с набором данных Гарвардского университета потребуется больше ресурсов

По словам Лепперта, который сравнил потенциал набора данных с Linux, операционной системой с открытым исходным кодом, успех набора данных Гарварда будет зависеть от ряда переменных. Лепперт сказал, что для его успеха потребуется больше ресурсов, экспертных знаний и «немного волшебства» от тех самых богатых корпораций, которым эта инициатива призвана противостоять.

Миллион книг, содержащихся в этом наборе данных, были отсканированы в рамках программы Google Books. Fudzilla описывает эту инициативу как цифровую капсулу времени, сохранившую те времена, когда амбиции Google отсканировать каждую книгу казались скорее причудливыми, чем антиутопическими.

Однако Лепперт с оптимизмом оценивает потенциальные возможности проекта, предполагая, что он может стать настоящим кладезем знаний, помогая обучать модели искусственного интеллекта для всех — от небольших стартапов до крупных корпоративных конгломератов.

Хотя некоторые хвалят эту инициативу как революционный шаг вперед в демократизации ИИ, Fudzilla считает, что некоторые могут рассматривать это как тонкий способ обеспечить любому амбициозному новичку с несколькими терабайтами серверного пространства возможность участвовать в гонке за разработку следующего ChatGPT.

Однако им потребуется больше ресурсов, чтобы конкурировать и занять dent на рынке. ChatGPT, запущенный в ноябре 2022 года, сразу же добился успеха, что подстегнуло гонку за генеративными моделями ИИ по всему миру. Однако разработка этих моделей породила потребность в данных для их совершенствования, и это стремление к получению большего количества данных создало проблемы с тем, какой объем информации можно получить, не украв ее.

На сегодняшний день такие издательства, как Wall Street Journal и New York Times, подали в суд на OpenAI и Perplexity за использование их данных без разрешения.

Самые умные криптоаналитики уже читают нашу рассылку. Хотите присоединиться? Вступайте в их ряды.

Поделитесь этой статьей

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Энаси Мапакаме

Энаси Мапакаме

Энаси Мапакаме — журналистка с более чем 10-летним опытом работы в сфере деловых и финансовых новостей. Она освещает рынки капитала и новые технологии — метавселенную, искусственный интеллект и криптовалюты. Энаси имеет степень бакалавра наук в области медиа и социальных исследований с отличием.

ЕЩЕ… НОВОСТИ
ЭКСПРЕСС- ПО ГЛУБОКОЙ
КУРС