ПОСЛЕДНИЕ НОВОСТИ
ПОДОБРАНО ДЛЯ ВАС
Еженедельно
ОСТАВАЙТЕСЬ НА ВЕРШИНЕ

Лучшие аналитические материалы о криптовалютах прямо в вашу электронную почту.

Скрытые издержки обучения моделей ИИ

КБренда КананаБренда Канана
2 минуты чтения,
Скрытые издержки обучения моделей ИИ
  • Разработка моделей искусственного интеллекта — дорогостоящий процесс, требующий сотен миллионов долларов из-за вычислительных мощностей и больших объемов данных.
  • Высокие затраты на данные приводят к централизации разработки ИИ, что вызывает этические проблемы.
  • dent группы работают с открытыми наборами данных, а новые стратегии, такие как генеративные данные, все еще находятся на стадии тестирования.

Создание и поддержка современных моделей искусственного интеллекта требуют значительных инвестиций, которые могут превышать сотни миллионов долларов. По оценкам, в ближайшем будущем эти затраты могут достичь миллиарда долларов. 

Эти затраты в основном связаны с вычислительной мощностью, где используются такие компоненты, как графические процессоры Nvidia, стоимость каждого из которых может составлять около 30 000 долларов, а для обеспечения высокой эффективности может потребоваться еще несколько тысяч таких процессоров. Исследователи отмечают, что качество и количество обучающих данных, используемых при разработке таких моделей, имеют очень важное значение. 

Лидеры отрасли раскрывают колоссальные затраты на разработку ИИ

По словам Джеймса Беткера из OpenAI, производительность модели зависит от обучающих данных, а не от дизайна или архитектуры модели. Он утверждает , что модели, обученные на больших наборах данных, достигнут одинаковых результатов. Следовательно, данные являются ключом к развитию технологий искусственного интеллекта. 

Дарио Амодей, генеральный директор компании Anthropic AI, занимающейся разработкой искусственного интеллекта, поделился своими соображениями о финансовых аспектах этих проблем в подкасте In Good Company. Он заявил, что обучение существующих моделей, таких как ChatGPT-4, оценивается примерно в 100 миллионов долларов, а обучение будущих моделей может потребовать от 10 до 100 миллиардов долларов в ближайшие несколько лет.

Генеративные модели искусственного интеллекта, в том числе и те, что создаются крупными компаниями, по своей сути являются статистическими моделями. Поэтому они используют множество примеров для прогнозирования наиболее вероятных результатов. Кайл Ло из Института искусственного интеллекта им. Аллена (AI2) говорит, что повышение производительности в основном объясняется данными, особенно когда среда обучения является стабильной. 

Централизация данных вызывает этические проблемы и вопросы доступности

Высокая стоимость получения качественных данных делает разработку ИИ прерогативой нескольких крупных компаний в развитых странах. Такая концентрация ресурсов также вызывает опасения относительно доступности технологий ИИ и возможности их неправомерного использования. 

Только компания OpenAI потратила сотни миллионов долларов на лицензирование данных, а Meta рассматривала возможность приобретения издателей для доступа к данным. Ожидается, что рынок данных для обучения ИИ будет расширяться, и брокеры данных, вероятно, выиграют от этой возможности. 

Проблемы возникают из-за сомнительных методов сбора данных. Согласно отчетам, многие компании собирали большие объемы контента без разрешения его владельцев, а некоторые компании используют данные с различных платформ и не выплачивают пользователям вознаграждение. Как мы сообщали ранее, OpenAI использовала свою модель транскрипции аудио Whisper для расшифровки более миллиона часов видео на YouTube с целью доработки GPT-4.

Организации работают над созданием общедоступных наборов данных для обучения искусственного интеллекта

Поскольку гонка за сбором данных сопряжена с определенными трудностями, необходимы усилияdent сторон для обеспечения открытого доступа к обучающим наборам данных. Некоторые организации, такие как EleutherAI и Hugging Face, создают большие наборы данных, доступные для общественности для разработки ИИ.

Недавно Wall Street Journal выделил две потенциальные стратегии решения проблем сбора данных: генеративное создание данных и обучение на основе учебных программ. Синтетические данные создаются с помощью самих моделей ИИ, в то время как обучение на основе учебных программ стремится предоставить моделям высококачественные данные в структурированном виде, чтобы они могли устанавливать связи даже при меньшем объеме данных. Однако оба метода все еще находятся на стадии разработки, и их эффективность еще не проверена. 

Существует золотая середина между хранением денег в банке и рискованными инвестициями в криптовалюту. Начните с этого бесплатного видео о децентрализованных финансах.

Поделитесь этой статьей

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtrondentdentdentdentdentdentdentdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

ЕЩЕ… НОВОСТИ
ЭКСПРЕСС- ПО ГЛУБОКОЙ
КУРС