Новаторский подход к обучению агентов искусственного интеллекта (ИИ), известный как «Исследование, управляемое человеком» (HuGE), стал революционным методом в исследованиях ИИ. Разработанный совместно исследователями из Массачусетского технологического института, Гарвардского университета и Вашингтонского университета, HuGE позволяет агентам ИИ быстрее и эффективнее осваивать новые задачи с помощью обратной связи от неспециалистов. Эта инновационная методика призвана произвести революцию в том, как агенты ИИ приобретают новые навыки, позволяя роботамdentосваивать сложные задачи под руководством краудсорсинговой обратной связи.
Проблемы в обучении ИИ
Обучение ИИ-агентов выполнению новых задач обычно включает в себя процесс, называемый обучением с подкреплением, при котором агент учится методом проб и ошибок, получая вознаграждение за действия, приближающие его к заранееdefiцели. Во многих случаях экспертам-людям приходится тщательно разрабатывать функцию вознаграждения — механизм стимулирования, мотивирующий ИИ-агента к исследованию и действиям. Однако разработка таких функций вознаграждения может быть трудоемкой, неэффективной и сложной в масштабировании, особенно для сложных задач, включающих несколько этапов.
Обратная связь от пользователей как решение
Подход HuGE совершает революционный сдвиг, используя обратную связь, полученную от пользователей, не являющихся экспертами, для управления процессом обучения ИИ-агентов. В отличие от традиционных методов, которые полагаются на специально разработанные функции вознаграждения, HuGE позволяет ИИ-агентам учиться быстрее, даже при работе с зашумленными данными от неспециалистов, чья обратная связь может содержать ошибки, способные нарушить работу других методов.
Разделение процесса обучения
Исследователи, разработавшие HuGE, разделили процесс обучения на два отдельных компонента, каждый из которых управляется собственным алгоритмом. Такой подход отделяет выбор цели от фазы исследования, позволяя агенту эффективно обучаться с помощью обратной связи, полученной от множества пользователей. Два ключевых компонента HuGE следующие:
1. Алгоритм выбора цели : Эта часть подхода постоянно обновляется на основе обратной связи от пользователей, не являющихся экспертами. Вместо использования обратной связи в качестве прямой функции вознаграждения, она направляет исследование агента. Пользователи предоставляют входные данные, выбирая состояние, которое ближе к желаемой цели, что позволяет агенту соответствующим образом корректировать свое исследование.
2. Исследование агентом: ИИ-агент dent исследует окружающую среду, руководствуясь обратной связью от селектора целей. Он собирает данные, такие как изображения или видео своих действий, которые затем отправляются пользователям для получения дополнительной обратной связи. Этот цикл сужает области исследования агента, направляя его к перспективным путям для достижения цели.
Преимущества HuGE
HuGE предлагает ряд преимуществ по сравнению с традиционными методами обучения агентов искусственного интеллекта:
- Ускоренное обучение: такой подход позволяет агентам ИИ быстрее осваивать новые задачи, даже если обратная связь от человека содержит ошибки или неточности.
- Асинхронная обратная связь: HuGE позволяет собирать отзывы от пользователей, не являющихся экспертами, по всему миру в асинхронном режиме, что делает его масштабируемым и универсальным решением.
- Автономное обучение: Агенты могут продолжать обучение автономно, даже при ограниченной или запоздалой обратной связи, обеспечивая непрерывный прогресс.
Реальные и имитационные испытания
Исследователи провели обширные тесты как в смоделированных, так и в реальных условиях, чтобы подтвердить эффективность HuGE. В симуляциях им удалось успешно обучить агентов ИИ выполнять сложные задачи с длинными последовательностями действий, такие как складывание блоков в определенном порядке или прохождение замысловатых лабиринтов. Эксперименты в реальных условиях включали обучение роботизированных манипуляторов рисованию фигур и подъему объектов, при этом данные были получены от пользователей, не являющихся экспертами, из 13 стран и трех континентов.
Масштабирование и будущие области применения
Обнадеживающие результаты HuGE и простота получения обратной связи от неспециалистов позволяют предположить, что этот метод обладает большим потенциалом для масштабирования обучения ИИ. В будущем этот метод позволит роботам обучаться и выполнять определенные задачи в домах пользователей без необходимости физических демонстраций. Опираясь на краудсорсинговую обратную связь, роботы смогут автономно исследовать окружающий мир, руководствуясь коллективным вкладом неспециалистов.
Исследователи подчеркивают важность обеспечения соответствия агентов ИИ человеческим ценностям и этическим соображениям. Поскольку агенты ИИ обучаются и принимают решенияdent, этические принципы и соответствие ценностям имеют решающее значение для их безопасного и ответственного использования.
Перспективы на будущее
Команда стремится к дальнейшему совершенствованию подхода HuGE. Они планируют дать возможность агентам ИИ учиться на основе различных форм общения, таких как естественный язык и физическое взаимодействие с роботами. Кроме того, они изучают возможность использования HuGE для одновременного обучения нескольких агентов, что открывает новые возможности для совместного обучения ИИ.
Метод Human Guided Exploration (HuGE) представляет собой значительный шаг вперед в обучении ИИ, упрощая процесс обучения агентов новым задачам. Используя коллективный опыт пользователей, не являющихся экспертами, HuGE ускоряет обучение, снижает потребность в разработанных экспертами функциях вознаграждения и открывает путь для автономного освоения роботами сложных навыков. По мере дальнейшего развития области ИИ, HuGE служит свидетельством потенциала совместного и управляемого коллективом обучения в формировании будущего интеллектуальных агентов.

