Google и Гарвардский университет представили набор данных, содержащий 1 миллион книг, находящихся в общественном достоянии, для обучения ИИ

- Эта инициатива расширит доступ компаний, занимающихся разработкой искусственного интеллекта, к большему объему информации для обучения своих моделей.
- Проект в Гарварде финансировался компаниями OpenAI и Microsoft.
- Почти миллион книг, отсканированных в рамках программы Google Books, представляют различные жанры.
Гарвардский университет совместно с Google выпустил набор данных, содержащий миллион книг, находящихся в общественном достоянии, для обучения следующего поколения искусственного интеллекта.
Эти книги охватывают различные жанры, языки и авторов, таких как Диккенс, Данте и Шекспир, и больше не защищены авторским правом из-за своего возраста. Новая инициатива по созданию наборов данных появилась в то время, когда обучающие данные для ИИ, естественно, дороги и лучше всего подходят для технологических компаний с большими финансовыми возможностями.
Гарвард получил финансовую поддержку от технологических гигантов
Согласно статье TechCrunch, инициатива возглавляется Институциональной инициативой данных Гарвардского университета (IDI). Эта инициатива включает книги, полученные в рамках давнего проекта Google по сканированию книг Google Books.
В набор данных также входят чешские учебники по математике и валлийские карманные словари.
В марте университет анонсировал IDI, четко заявив о своих планах создать «надежный канал для передачи правовых данных для ИИ». С тех пор о проекте почти ничего не было слышно, пока в четверг не состоялся официальный запуск, а технологические гиганты Microsoft и OpenAI не профинансировали его.
Этот набор данных предназначен не только для Кремниевой долины, но и открыт для всех желающих, от исследовательских лабораторий до стартапов в области искусственного интеллекта, стремящихся обучить свои большие языковые модели.
исполнительный директор IDI Грег Лепперт, открытие доступа к набору данных для всех желающих заявил призвано выровнять условия конкуренции в условиях, когда стоимость обучения ИИ остается высокой и недоступной для небольших компаний, делая ее прерогативой тех, кто располагает огромными бюджетами.
Лепперт добавил, что набор данных «тщательно проверен», что, по словам Фудзиллы, предположительно означает, что кто-то проверил, действительно ли Бард исчез и не мешал.
Для работы с набором данных Гарвардского университета потребуется больше ресурсов
По словам Лепперта, который сравнил потенциал набора данных с Linux, операционной системой с открытым исходным кодом, успех набора данных Гарварда будет зависеть от ряда переменных. Лепперт сказал, что для его успеха потребуется больше ресурсов, экспертных знаний и «немного волшебства» от тех самых богатых корпораций, которым эта инициатива призвана противостоять.
Миллион книг, содержащихся в этом наборе данных, были отсканированы в рамках программы Google Books. Fudzilla описывает эту инициативу как цифровую капсулу времени, сохранившую те времена, когда амбиции Google отсканировать каждую книгу казались скорее причудливыми, чем антиутопическими.
Однако Лепперт с оптимизмом оценивает потенциальные возможности проекта, предполагая, что он может стать настоящим кладезем знаний, помогая обучать модели искусственного интеллекта для всех — от небольших стартапов до крупных корпоративных конгломератов.
Хотя некоторые хвалят эту инициативу как революционный шаг вперед в демократизации ИИ, Fudzilla считает, что некоторые могут рассматривать это как тонкий способ обеспечить любому амбициозному новичку с несколькими терабайтами серверного пространства возможность участвовать в гонке за разработку следующего ChatGPT.
Однако им потребуется больше ресурсов, чтобы конкурировать и занять dent на рынке. ChatGPT, запущенный в ноябре 2022 года, сразу же добился успеха, что подстегнуло гонку за генеративными моделями ИИ по всему миру. Однако разработка этих моделей породила потребность в данных для их совершенствования, и это стремление к получению большего количества данных создало проблемы с тем, какой объем информации можно получить, не украв ее.
На сегодняшний день такие издательства, как Wall Street Journal и New York Times, подали в суд на OpenAI и Perplexity за использование их данных без разрешения.
Самые умные криптоаналитики уже читают нашу рассылку. Хотите присоединиться? Вступайте в их ряды.
Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.
Энаси Мапакаме
Энаси Мапакаме — журналистка с более чем 10-летним опытом работы в сфере деловых и финансовых новостей. Она освещает рынки капитала и новые технологии — метавселенную, искусственный интеллект и криптовалюты. Энаси имеет степень бакалавра наук в области медиа и социальных исследований с отличием.
КУРС
- Какие криптовалюты могут принести вам деньги?
- Как повысить безопасность своего кошелька (и какие из них действительно стоит использовать)
- Малоизвестные инвестиционные стратегии, используемые профессионалами
- Как начать инвестировать в криптовалюту (какие биржи использовать, какую криптовалюту лучше купить и т.д.)














