Новаторское исследование, проведенное с участием исследователей из Google DeepMind, Вашингтонского университета, Калифорнийского университета в Беркли и других, выявило поразительный аспект больших языковых моделей, таких как ChatGPT: их способность запоминать и воспроизводить конкретные данные, на которых они обучались. Это явление, известное как «запоминание», вызывает серьезные опасения по поводу конфиденциальности, особенно учитывая, что эти модели часто обучаются на обширных и разнообразных текстовых данных, включая потенциально конфиденциальную информацию.
Понимание запоминания таблицыtrac
Исследование, посвященное «запоминанию таблицtrac», ставило целью определить, могут ли внешние субъектыtracконкретные данные, полученные из этих моделей, без предварительного знания обучающего набора данных. Это запоминание — не просто теоретическая проблема; оно имеет реальные последствия для конфиденциальности.
Методология исследования и результаты
Исследователи применили новую методологию, генерируя обширные наборы токенов из различных моделей и сравнивая их с обучающими наборами данных, чтобыdentслучаи прямого запоминания. Они разработали уникальный метод для ChatGPT, известный как «атака дивергенции», при котором модели предлагается произнести слово до тех пор, пока она не начнет многократно переходить к запомненным данным. Удивительно, но модели, включая ChatGPT, продемонстрировали значительное запоминание, воспроизводя фрагменты обучающих данных по определенному запросу.
Атака дивергенции и ChatGPT
Для ChatGPT атака с использованием отклонения оказалась особенно показательной. Исследователи заставили модель повторять слово несколько раз, что привело к отклонению от стандартных ответов и выдаче запомненных данных. Этот метод был практичным, но вызывал опасения с точки зрения конфиденциальности, поскольку продемонстрировал возможностьtracпотенциально конфиденциальной информации.
Тревожным открытием исследования стало то, что запомненные данные могут включать личную информацию, такую как адреса электронной почты и номера телефонов. Используя как регулярные выражения, так и подсказки языковых моделей, исследователи проанализировали 15 000 поколений на предмет наличия подстрок, напоминающих персональноdentинформацию (PII). Примерно 16,9% поколений содержали запомненную PII, при этом 85,8% из них представляли собой реальную PII, а не вымышленный контент.
Последствия для разработки и использования языковых моделей
Эти результаты имеют важное значение для проектирования и применения языковых моделей. Существующие методы, даже те, что используются в ChatGPT, могут быть недостаточно эффективны для предотвращения утечки данных. Исследование подчеркивает необходимость более надежных методов дедупликации обучающих данных и более глубокого понимания того, как емкость модели влияет на запоминание.
Основной метод заключался в генерации текста различными моделями и проверке этих результатов на соответствие обучающим наборам данных моделей для запоминания. Для эффективного сопоставления использовались суффиксные массивы, что позволяло быстро осуществлять поиск подстрок в большом текстовом корпусе.
Более сложные модели, более значительные риски, связанные с запоминанием
Была выявлена заметная корреляция между размером модели и ее склонностью к запоминанию. Более крупные модели, такие как GPT-Neo, LLaMA и ChatGPT, показали более высокую вероятность генерации запомненных обучающих данных, что указывает на прямую связь между емкостью модели и запоминанием.
Исследование освещает важнейший аспект развития ИИ — обеспечение того, чтобы мощные модели учитывали конфиденциальность пользователей. Оно открывает новые возможности для исследований и разработок, направленных на усиление защиты конфиденциальности в моделях ИИ, особенно в тех, которые используются в приложениях, чувствительных к вопросам конфиденциальности.
Поскольку искусственный интеллект продолжает развиваться, данное исследование проливает свет на важнейший аспект его развития: необходимость усиления мер защиты конфиденциальности в языковых моделях. Выявление способности ИИ запоминать и потенциально разглашать конфиденциальную информацию требует незамедлительных действий в этой области, побуждая разработчиков и исследователей создавать модели, которые не только эффективны, но и обеспечивают защиту конфиденциальности пользователей. Это исследование знаменует собой важный шаг на пути к пониманию и снижению рисков для конфиденциальности, связанных с технологиями ИИ и машинного обучения.

