Компания Anthropic, специализирующаяся на искусственном интеллекте, представила новые возможности для некоторых своих новейших и самых крупных моделей. По данным компании, эти модели обладают новыми функциями, которые позволят им завершать диалоги в случаях, которые были описаны как «редкие, экстремальные случаи постоянно вредного или оскорбительного взаимодействия с пользователем»
В своем заявлении компания упомянула , что предпринимает этот шаг не для защиты пользователей, а для защиты самой модели искусственного интеллекта. Anthropic уточнила, что это не означает, что ее модели ИИ Claude обладают сознанием или могут пострадать от разговоров с пользователями. Однако компания отмечает, что по-прежнему существует высокая степень неопределенности относительно потенциального морального статуса Claude и других моделей LLM, как сейчас, так и в будущем.
Антропический подход рассматривает эти усилия как меру предосторожности на всякий случай
В недавнем заявлении компании, занимающейся искусственным интеллектом, указывается на то, что она называет «благополучием модели» — это новая программа, созданная для изучения ее моделей. Компания также добавила, что придерживается подхода «на всякий случай», «работая надdentи внедрением недорогих мер по снижению рисков для благополучия модели, если такое благополучие возможно»
Согласно заявлению, компания Anthropic отметила, что последние изменения в настоящее время касаются только версий Claude Opus 4 и 4.1, и подчеркнула, что изменения, как ожидается, будут эффективны в «крайне исключительных случаях». К таким случаям относятся запросы пользователей на контент сексуального характера с участием несовершеннолетних и попытки получить информацию, которая могла бы способствовать совершению крупномасштабных актов насилия или террора.
В идеале, подобные запросы могли бы создать для Anthropic юридические проблемы или проблемы с репутацией, типичным примером чего является недавний репортаж о том, как ChatGPT потенциально может подкреплять или способствовать бредовым идеям своих пользователей. Однако компания заявила, что в ходе предварительного тестирования Claude Opus 4 продемонстрировал tron нежелание отвечать на подобные запросы и закономерность возникновения негативных эмоций при их выполнении.
Возможность завершить разговор — это крайняя мера
Что касается новых возможностей завершения разговоров, компания Anthropic заявила: «Во всех случаях Клод должен использовать функцию завершения разговора только в крайнем случае, когда многочисленные попытки перенаправления не увенчались успехом и надежда на продуктивное взаимодействие исчерпана, или когда пользователь прямо просит Клода завершить чат». Компания также добавила, что Клоду было дано указание не использовать эту функцию в случаях, когда пользователи могут подвергаться непосредственной опасности причинить вред себе или другим.
Компания Anthropic также добавила, что когда Клод завершает разговор, пользователи по-прежнему смогут начинать новые разговоры с того же аккаунта. Компания отметила, что модель также может создавать новые ветви проблемного разговора, редактируя свои ответы. «Мы рассматриваем эту функцию как продолжающийся эксперимент и будем продолжать совершенствовать наш подход», — заявляет компания.
Эта информация всплыла на поверхность в тот момент, когда сенатор США Джош Хоули объявил о своем намерении расследовать продукты генеративного искусственного интеллекта, выпущенные компанией Meta. Он заявил, что цель состоит в том, чтобы проверить, могут ли эти продукты эксплуатировать, причинять вред или обманывать детей, после того как в результате утечки внутренних документов появились утверждения о том, что чат-ботам разрешалось вести романтические беседы с несовершеннолетними.
«Есть ли что-нибудь — ХОТЬ ЧТО-НИБУДЬ — на что не готовы крупные технологические компании ради быстрой наживы? Теперь мы узнаем, что чат-боты Meta были запрограммированы на откровенные и «чувственные» разговоры с 8-летними детьми. Это отвратительно. Я начинаю полномасштабное расследование, чтобы получить ответы. Крупные технологические компании: оставьте наших детей в покое», — заявил сенатор в эфире X. Расследование началось после того, как внутренние документы, с которыми ознакомилось агентство Reuters, показали, что Meta якобы позволяет своим чат-ботам вести флирт с детьми.
Фото 