Новаторский подход к обучению агентов искусственного интеллекта (ИИ), известный как Human Guided Exploration (HuGE), стал революционным методом в исследованиях ИИ. Разработанный совместно исследователями из Массачусетского технологического института, Гарвардского университета и Вашингтонского университета, HuGE позволяет агентам ИИ быстрее и эффективнее осваивать новые задачи с помощью обратной связи от неспециалистов. Эта инновационная технология призвана произвести революцию в процессе приобретения новых навыков агентами ИИ, позволяя роботамdentосваивать сложные задачи, руководствуясь обратной связью, полученной от краудсорсинга.
Проблемы обучения ИИ
Обучение агентов ИИ выполнению новых задач обычно включает в себя процесс, называемый обучением с подкреплением, в ходе которого агент обучается методом проб и ошибок, получая вознаграждение за действия, приближающие его к заранееdefiцели. Во многих случаях экспертам-людям приходится тщательно разрабатывать функцию вознаграждения – механизм стимулирования, мотивирующий агента ИИ к исследованию и действию. Однако разработка этих функций вознаграждения может быть трудоемкой, неэффективной и сложной для масштабирования, особенно для сложных задач, состоящих из нескольких этапов.
Обратная связь, полученная с помощью краудсорсинга, как решение
Подход HuGE представляет собой революционный прорыв, используя краудсорсинговую обратную связь, полученную от неэкспертов, для управления процессами обучения ИИ-агентов. В отличие от традиционных методов, основанных на экспертно разработанных функциях вознаграждения, HuGE позволяет ИИ-агентам обучаться быстрее, даже при работе с некорректными данными от неэкспертов, чья обратная связь может содержать ошибки, способные нарушить работу других методов.
Разделение процесса обучения
Исследователи, создавшие HuGE, разделили процесс обучения на два отдельных компонента, каждый из которых управляется своим алгоритмом. Такой подход позволяет отделить выбор цели от фазы исследования, позволяя агенту эффективно обучаться, используя краудсорсинговую обратную связь. Два ключевых компонента HuGE:
1. Алгоритм выбора цели : эта часть подхода постоянно обновляется на основе отзывов неспециалистов. Вместо того, чтобы использовать обратную связь как функцию прямого вознаграждения, он направляет исследование агента. Пользователи вносят свой вклад, выбирая состояние, наиболее близкое к желаемой цели, что позволяет агенту соответствующим образом корректировать исследование.
2. Исследование агентом: ИИ-агент самостоятельно dent окружающую среду, руководствуясь обратной связью селектора целей. Он собирает данные, такие как изображения или видео своих действий, которые затем отправляются пользователям-людям для дальнейшей обратной связи. Этот цикл сужает области исследования агента, направляя его к перспективным путям для достижения цели.
Преимущества HuGE
HuGE предлагает ряд преимуществ по сравнению с традиционными методами обучения агентов ИИ:
- Более быстрое обучение: этот подход позволяет агентам ИИ быстрее осваивать новые задачи, даже если обратная связь от человека содержит ошибки или неточности.
- Асинхронная обратная связь: HuGE позволяет асинхронно собирать обратную связь от пользователей-неспециалистов по всему миру, что делает его масштабируемым и универсальным решением.
- Автономное обучение: агенты могут продолжать обучение автономно, даже если обратная связь ограничена или задержана, что обеспечивает непрерывный прогресс.
Реальные и имитационные испытания
Исследователи провели обширные испытания как в смоделированных, так и в реальных условиях, чтобы подтвердить эффективность HuGE. В ходе симуляций они успешно обучили ИИ-агентов выполнять сложные задачи с длительными последовательностями действий, такие как укладка блоков в определённом порядке или прохождение запутанных лабиринтов. Эксперименты в реальных условиях включали обучение роботизированных рук рисовать фигуры и поднимать предметы. Данные были собраны у пользователей-неспециалистов из 13 стран на трёх континентах.
Масштабирование и будущие приложения
Многообещающие результаты HuGE и простота получения обратной связи от неспециалистов свидетельствуют о большом потенциале для масштабирования обучения ИИ. В будущем этот метод позволит роботам обучаться и выполнять конкретные задачи дома у пользователей без необходимости физической демонстрации. Опираясь на краудсорсинговую обратную связь, роботы смогут исследовать мир автономно, руководствуясь коллективными рекомендациями неспециалистов.
Исследователи подчеркивают важность соответствия агентов ИИ человеческим ценностям и этическим принципам. Поскольку агенты ИИ обучаются и принимают решенияdent, этические принципы и соответствие ценностям имеют решающее значение для их безопасного и ответственного применения.
Будущие направления
Команда намерена и дальше совершенствовать подход HuGE. Они планируют дать возможность агентам ИИ обучаться, используя различные формы коммуникации, такие как естественный язык и физическое взаимодействие с роботами. Кроме того, они изучают возможность использования HuGE для одновременного обучения нескольких агентов, открывая новые возможности для совместного обучения ИИ.
Human Guided Exploration (HuGE) знаменует собой значительный шаг вперёд в обучении ИИ, упрощая процесс обучения ИИ-агентов новым задачам. Используя коллективный разум пользователей-неспециалистов, HuGE ускоряет обучение, снижает потребность в разработанных экспертами функциях вознаграждения и открывает роботам путь к автономному освоению сложных навыков. По мере развития области ИИ, HuGE служит свидетельством потенциала совместного и коллективного обучения в формировании будущего интеллектуальных агентов.
Зарегистрируйтесь на Bybit и начните торговать, получив приветственные подарки на сумму 30 050 долларов США.

