Инновационный подход к обучению агентов искусственного интеллекта (ИИ), известный как Human Guided Exploration (HuGE), стал преобразующим методом в исследованиях ИИ. HuGE, разработанный совместно исследователями из Массачусетского технологического института, Гарвардского университета и Вашингтонского университета, позволяет агентам ИИ быстрее и эффективнее осваивать новые задачи с помощью обратной связи от неспециалистов. Эта инновационная технология призвана произвести революцию в том, как агенты ИИ приобретают новые навыки, позволяя роботамdentизучать сложные задачи под руководством обратной связи, полученной от краудсорсинга.
Проблемы в обучении ИИ
Обучение агентов ИИ выполнению новых задач обычно включает в себя процесс, называемый обучением с подкреплением, в ходе которого агент учится методом проб и ошибок, получая вознаграждение за действия, которые приближают его к заранееdefiцели. Во многих случаях экспертам приходится тщательно разрабатывать функцию вознаграждения — механизм стимулирования, который мотивирует агента ИИ исследовать и действовать. Однако разработка этих функций вознаграждения может оказаться трудоемкой, неэффективной и сложной для масштабирования, особенно для сложных задач, включающих несколько шагов.
Краудсорсинговая обратная связь как решение
Подход HuGE представляет собой революционный сдвиг, используя краудсорсинговую обратную связь, полученную от неопытных пользователей, для управления процессами обучения агентов ИИ. В отличие от традиционных методов, основанных на специально разработанных функциях вознаграждения, HuGE позволяет агентам ИИ учиться быстрее, даже при работе с зашумленными данными от неспециалистов, чьи отзывы могут содержать ошибки, которые могут нарушить работу других методов.
Разделение процесса обучения
Исследователи HuGE разделили процесс обучения на два отдельных компонента, каждый из которых управляется своим алгоритмом. Этот подход отделяет выбор цели от этапа исследования, позволяя агенту эффективно учиться с помощью обратной связи, полученной от краудсорсинга. Двумя ключевыми компонентами HuGE являются следующие:
1. Алгоритм выбора цели . Эта часть подхода постоянно обновляется на основе отзывов неопытных пользователей. Вместо того, чтобы использовать обратную связь в качестве прямой функции вознаграждения, она направляет исследование агента. Пользователи предоставляют входные данные, выбирая, какое состояние ближе к желаемой цели, что позволяет агенту соответствующим образом корректировать свое исследование.
2. Исследование агента. Агент ИИ dent исследует свое окружение, руководствуясь отзывами селектора целей. Он собирает данные, такие как изображения или видео своих действий, которые затем отправляются пользователям для получения дополнительной обратной связи. Этот цикл сужает область исследования агента, направляя его на многообещающие пути достижения цели.
Преимущества HuGE
HuGE предлагает несколько преимуществ по сравнению с традиционными методами обучения агентов ИИ:
- Более быстрое обучение. Этот подход позволяет агентам ИИ быстрее осваивать новые задачи, даже если обратная связь от человека содержит ошибки или неточности.
- Асинхронная обратная связь: HuGE позволяет асинхронно собирать отзывы от неопытных пользователей со всего мира, что делает его масштабируемым и универсальным решением.
- Автономное обучение. Агенты могут продолжать обучение автономно, даже если обратная связь ограничена или задерживается, обеспечивая постоянный прогресс.
Реальные и симулированные испытания
Исследователи провели обширные испытания как на смоделированных, так и на реальных задачах, чтобы подтвердить эффективность HuGE. В ходе моделирования они успешно обучили агентов ИИ выполнять сложные задачи с длинными последовательностями действий, например укладывать блоки в определенном порядке или перемещаться по сложным лабиринтам. Реальные эксперименты включали обучение роботизированных рук рисованию фигур и сбору объектов, а данные были получены от неопытных пользователей из 13 стран и трех континентов.
Масштабирование и будущие приложения
Многообещающие результаты HuGE и простота получения обратной связи от неспециалистов позволяют предположить, что она имеет большой потенциал для расширения масштабов обучения ИИ. В будущем этот метод может позволить роботам учиться и выполнять определенные задачи в домах пользователей, не требуя физической демонстрации. Полагаясь на обратную связь, полученную от краудсорсинга, роботы могут исследовать автономно, руководствуясь коллективным мнением неспециалистов.
Исследователи подчеркивают важность обеспечения соответствия агентов ИИ человеческим ценностям и этическим соображениям. Поскольку агенты ИИ учатся и принимают решенияdent, этические принципы и соответствие ценностям имеют решающее значение для их безопасного и ответственного использования.
Будущие направления
Команда стремится и дальше совершенствовать подход HuGE. Они планируют дать возможность агентам ИИ учиться с помощью различных форм общения, таких как естественный язык и физическое взаимодействие с роботами. Кроме того, они изучают возможность использования HuGE для одновременного обучения нескольких агентов, открывая новые возможности для совместного обучения ИИ.
Human Guided Exploration (HuGE) знаменует собой значительный шаг вперед в обучении ИИ, упрощая процесс обучения агентов ИИ новым задачам. Используя коллективную мудрость неопытных пользователей, HuGE ускоряет обучение, снижает потребность в функциях вознаграждения, разработанных экспертами, и открывает путь роботам к самостоятельному приобретению сложных навыков. Поскольку область искусственного интеллекта продолжает развиваться, HuGE является свидетельством потенциала совместного и коллективного обучения в формировании будущего интеллектуальных агентов.
Криптополитическая академия: Хотите вырастить свои деньги в 2025 году? Узнайте, как сделать это с DeFi в нашем предстоящем веб -классе. Сохраните свое место