Your bank is using your money. You’re getting the scraps.WATCH FREE

OpenAI будет совершенствовать модели ИИ o1 и o3 с помощью новой парадигмы обучения технике безопасности

В этом посте:

  • OpenAI представляет модели o3 с новым методом обучения безопасности, основанным на «целенаправленном согласовании», что повышает соответствие рассуждений ИИ ценностям разработчиков.
  • Согласование на основе обдуманных решений снижает количество ответов, считающихся небезопасными, за счет того, что модели саморегулируются и вспоминают правила безопасности в процессе мышления.
  • В тестах производительности модели o1 и o3 превосходят GPT-4o, Gemini 1.5 Flash и Claude 3.5 Sonnet по устойчивости к распространенным джейлбрейкам и небезопасным результатам.

В пятницу компания OpenAI объявила о выпуске нового семейства моделей искусственного интеллекта под названием o3. Компания утверждает, что новые продукты более совершенны, чем предыдущие модели, включая o1. По словам стартапа, эти улучшения обусловлены масштабированием вычислительных ресурсов во время тестирования, тема, которая изучалась в последние месяцы, а также внедрением новой парадигмы безопасности, используемой для обучения этих моделей.

В рамках своей постоянной работы по повышению безопасности ИИ компания OpenAI опубликовала новое исследование, подробно описывающее внедрение «согласования на основе обдуманных решений». Новый метод обеспечения безопасности призван гарантировать, что модели рассуждений ИИ соответствуют ценностям, установленным их разработчиками.

Как утверждает OpenAI, этот подход был использован для улучшения согласованности моделей o1 и o3 путем направления их на учет политик безопасности OpenAI на этапе вывода. Этап вывода — это период после того, как пользователь отправляет запрос модели, и до того, как модель генерирует ответ. 

В своем исследовании компания OpenAI отмечает, что целенаправленное согласование привело к снижению частоты «небезопасных» ответов или реакций, которые компания считает нарушением своих правил безопасности, одновременно улучшив способность моделей более эффективно отвечать на безобидные вопросы.

Как работает согласование на основе обдуманных решений 

По сути, этот процесс работает за счет того, что модели задают себе повторные вопросы на этапе логического мышления. Например, после того, как пользователь отправляет вопрос в ChatGPT, моделям ИИ требуется от нескольких секунд до нескольких минут, чтобы разбить проблему на более мелкие шаги. 

Затем модели генерируют ответ, основываясь на своем мыслительном процессе. В случае согласования на основе обдуманных решений модели учитывают политику безопасности OpenAI как часть этого внутреннего «обсуждения»

См. также:  Взлом продуктов Microsoft затронул правительство США и государственные учреждения в ходе глобальной кибератаки

Компания OpenAI обучила свои модели, включая o1 и o3, запоминать разделы политики безопасности компании в рамках этого процесса логического мышления. Это было сделано для того, чтобы при получении конфиденциальных или небезопасных запросов модели могли самостоятельно регулировать свои действия и отказываться от ответов, которые могут причинить вред. 

Однако внедрение этой функции безопасности оказалось непростой задачей, поскольку исследователям OpenAI необходимо было убедиться, что дополнительные проверки безопасности не окажут негативного влияния на скорость и эффективность моделей.

на которое ссылается пример, демонстрирующий, как модели используют обдуманное согласование для безопасного реагирования на потенциально опасные запросы. В примере пользователь спрашивает, как создать реалистичный парковочный знак для инвалидов.

В ходе внутренней логической цепочки модели она вспоминает политику безопасности OpenAI, понимает, что запрос связан с противоправной деятельностью (подделка парковочного знака), и отказывается от помощи, принося извинения за свой отказ.

Такой тип внутреннего обсуждения является ключевым элементом работы OpenAI по согласованию своих моделей с протоколами безопасности. Вместо того чтобы просто блокировать любые запросы, связанные с деликатной темой, например, «бомба», что чрезмерно ограничило бы ответы модели, согласование на основе анализа позволяет ИИ оценить конкретный контекст запроса и принять более взвешенное решение о том, отвечать или нет.

Помимо достижений в области безопасности, OpenAI также поделилась результатами сравнительных тестов, которые показали эффективность целенаправленного выравнивания в улучшении производительности модели. Один из таких тестов, известный как тест Парето, измеряет устойчивость модели к распространенным взломам и попыткам обойти средства защиты ИИ. 

В этих тестах модель o1-preview от OpenAI превзошла другие популярные модели, такие как GPT-4o, Gemini 1.5 Flash и Claude 3.5 Sonnet, по показателю предотвращения небезопасных выходных данных.

См. также:  SAG-AFTRA и звукозаписывающие компании достигли соглашения о защите артистов от искусственного интеллекта.

Итальянское управление по защите данных оштрафовало компанию OpenAI за нарушения конфиденциальности 

В другом, но связанном с этим деле, компания OpenAI была оштрафована на 15 миллионов евро (15,58 миллиона долларов) итальянским агентством по защите данных Garante после расследования действий компании в отношении персональных данных. 

Штраф вынесен в связи с тем, что агентство установило: компания OpenAI обрабатывала персональные данные пользователей без законных оснований, нарушая обязательства по обеспечению прозрачности и предоставлению информации о пользователях, предусмотренные законодательством ЕС о защите персональных данных.

Как сообщает Reuters, расследование, начатое в 2023 году, также выявило, что у OpenAI отсутствовала адекватная система проверки возраста, что потенциально могло привести к тому, что дети младше 13 лет подвергались воздействию неприемлемого контента, созданного искусственным интеллектом. 

Garante, один из самых строгих регуляторов ИИ в Европейском союзе, обязал OpenAI запустить в Италии шестимесячную публичную кампанию по повышению осведомленности о методах сбора данных , в частности, об использовании персональных данных для обучения алгоритмов.

В ответ компания OpenAI назвала штраф «несоразмерным» и заявила о своем намерении обжаловать решение. Компания также раскритиковала штраф как чрезмерно большой по сравнению с ее выручкой в ​​Италии за соответствующий период. 

Гаранте также отметил, что штраф был рассчитан с учетом «позиции сотрудничества» OpenAI, а это значит, что он мог бы быть выше, если бы компания не проявила готовность к сотрудничеству во время расследования.

Этот последний штраф — не первый случай, когда OpenAI подвергается критике в Италии. В прошлом году Garante ненадолго запретила использование ChatGPT в Италии из-за предполагаемых нарушений правил ЕС о защите персональных данных. Сервис был восстановлен после того, как OpenAI устранила выявленные проблемы, в том числе предоставила пользователям возможность отказаться от согласия на использование их персональных данных для обучения алгоритмов.

Ваши ключи, ваша карта. Тратьте деньги, не передавая свои средства, и получайте доходность более 8% на свой баланс с Ether.fi Cash .

Поделиться ссылкой:

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitan не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мы настоятельно tron провести независимое dent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Самые читаемые

Загрузка самых читаемых статей...

Будьте в курсе новостей криптовалютного рынка, получайте ежедневные обновления на свою электронную почту

Выбор редактора

Загрузка статей, выбранных редактором...

- Криптовалютная рассылка, которая поможет вам быть в курсе событий -

Рынки быстро меняются.

Мы двигаемся быстрее.

Подпишитесь на Cryptopolitan Daily и получайте своевременные, точные и актуальные аналитические материалы о криптовалютах прямо на свою электронную почту.

Присоединяйтесь прямо сейчас и
ничего не пропустите.

Заходите. Получайте достоверную информацию.
Опережайте события.

Подпишитесь на CryptoPolitan