Пользователи OpenAIdentуязвимость. Вскоре после публикации OpenAI модели o1, своей первой модели «рассуждений» на основе искусственного интеллекта, было замечено странное поведение. Оказывается, когда запрос задается на английском языке, модель иногда начинает «думать» на языке, отличном от английского, например, на китайском или персидском.
Один пользователь написал: «[O1] внезапно начал думать по-китайски где-то в середине». Кроме того, совершенно другой пользователь на X также спросил: «Почему [o1] внезапно начал думать по-китайски?»
Почему o1 pro внезапно начал думать на китайском? Ни одна часть разговора (более 5 сообщений) не была на китайском… очень интересно… влияние обучающих данных pic.twitter.com/yZWCzoaiit
– Ришаб Джайн (@RishabJainK) 9 января 2025 г.
Согласно наблюдениям, при возникновении проблемы, требующей решения, o1 начинает свой «мыслительный» процесс, включающий последовательность шагов рассуждения, ведущих к ответу. Окончательный ответ o1 будет на английском языке, если запрос будет написан на этом языке.
Тем не менее, перед формулированием своего вывода модель будет выполнять определенные процедуры на другом языке.
Примечательно, что OpenAI не предоставила объяснения странному поведению o1 и даже не признала его. Так в чем же может быть причина?
Вот некоторые теории специалистов в области искусственного интеллекта.
Генеральный директор Hugging Face Клеман Деланг упомянул на X , что модели логического мышления, такие как o1, обучаются на наборах данных с большим количеством китайских иероглифов.
Кроме того, по словам Теда Сяо, исследователя из Google DeepMind, такие организации, как OpenAI, используют сторонние сервисы разметки данных на китайском языке, и переход на китайский язык является примером «китайского языкового влияния на рассуждения»
Тед Сяо написал в посте на X : «Лаборатории искусственного интеллекта, такие как OpenAI и Anthropic, используют сторонние сервисы разметки данных для обработки информации на уровне докторской диссертации в науке, математике и программировании; из-за доступности квалифицированной рабочей силы и стоимости многие из этих поставщиков данных находятся в Китае».
По всей видимости, в процессе обучения метки, которые также называютсяdentили аннотациями, помогают моделям понимать и интерпретировать данные.
Например, метки, используемые для обучения модели распознавания изображений, могут состоять из подписей, которые относятся к каждому человеку, месту или объекту, изображенному на изображении, или из обозначений, окружающих объекты.
Кроме того, исследования показали, что предвзятая классификация может приводить к предвзятым моделям. Например, среднестатистический аннотатор более склонен помечать фразы на афроамериканском диалекте английского языка (AAVE).
Это известно как неформальная грамматика, используемая некоторыми афроамериканцами и считающаяся токсичной. В результате, детекторы токсичности на основе искусственного интеллекта, обученные на этих обозначениях, воспринимают AAVE как чрезмерно токсичный.
Тем не менее, теория разметки китайских данных o1 не принимается другими экспертами. Они подчеркивают, что o1 с одинаковой вероятностью может перейти на хинди, тайский или любой другой язык, помимо китайского, при попытке сформулировать решение.
Напротив, эти эксперты утверждают, что o1 и другие модели рассуждений, возможно, используют наиболее эффективные языки для достижения цели.
В связи с этим исследователь в области искусственного интеллекта Мэтью Гуздиал сказал: «Модель не знает, что такое язык или что языки бывают разными». Это связано с тем, что токены, подобно маркировке, потенциально могут вносить предвзятость.
В частности, различные пословные переводчики исходят из предположения, что пробел в предложении обозначает новое слово. Это происходит независимо от того, что не во всех языках пробелы используются для разделения слов.
Однако Лука Сольдайни, научный сотрудник некоммерческого Института искусственного интеллекта имени Аллена, подчеркнул, что с уверенностью это определить невозможно. Он заявил: «Такие наблюдения в отношении развернутой системы ИИ невозможно подтвердить из-за непрозрачности этих моделей […] Это один из многочисленных примеров, когда подчеркивается важность прозрачности при создании систем ИИ».
Проблемы OpenAI
2024 год стал для OpenAI настоящими американскими горками. Компания и её генеральный директор Сэм Альтман начали год с судебного иска со стороны Илона Маска. Он утверждал, что компания отошла от своей первоначальной некоммерческой цели, сделав упор на прибыль, а не на общественную пользу.
За последний год восемь американских газет, включая New York Daily News, Chicago Tribune и Denver Post, подали в суд на OpenAI и Microsoft. Они обвинили компанию в использовании миллионов защищенных авторским правом публикаций для обучения чат-ботов с искусственным интеллектом без разрешения и оплаты. Они утверждали, что эта технология нарушает их права интеллектуальной собственности.
Кроме того, Мира Мурати, технический директор OpenAI, объявила о своем уходе. Это был ключевой момент, поскольку ее технологические навыки имели решающее значение для развития компании.
Кроме того, OpenAI столкнулась с рядом трудностей при работе с ChatGPT, таких как периодические сбои, ошибки, приводившие к неточным или бессмысленным ответам от чат-бота, и опасения по поводу конфиденциальности пользователей. Также были случаи, когда ИИ генерировал предвзятый или оскорбительный контент.

