ПОСЛЕДНИЕ НОВОСТИ
ПОДОБРАНО ДЛЯ ВАС
Еженедельно
ОСТАВАЙТЕСЬ НА ВЕРШИНЕ

Лучшие аналитические материалы о криптовалютах прямо в вашу электронную почту.

Возникающие риски для конфиденциальности в ИИ: проблема запоминания в языковых моделях

КДжон ПалмерДжон Палмер
2 минуты чтения,
Конфиденциальность

  • Риск запоминания данных в ИИ: модели, подобные ChatGPT, могут воспроизводить обучающие данные, что вызывает опасения по поводу конфиденциальности.
  • Атака типа «дивергенция» на ChatGPT выявляет потенциальную возможность утечки конфиденциальных данных.
  • Более крупные модели ИИ демонстрируют более высокую склонность к запоминанию и разглашению конфиденциальной информации.

Новаторское исследование, проведенное с участием исследователей из Google DeepMind, Вашингтонского университета, Калифорнийского университета в Беркли и других, выявило поразительный аспект больших языковых моделей, таких как ChatGPT: их способность запоминать и воспроизводить конкретные данные, на которых они обучались. Это явление, известное как «запоминание», вызывает серьезные опасения по поводу конфиденциальности, особенно учитывая, что эти модели часто обучаются на обширных и разнообразных текстовых данных, включая потенциально конфиденциальную информацию.

Понимание запоминания таблицыtrac

Исследование, посвященное «запоминанию таблицtrac», ставило целью определить, могут ли внешние субъектыtracконкретные данные, полученные из этих моделей, без предварительного знания обучающего набора данных. Это запоминание — не просто теоретическая проблема; оно имеет реальные последствия для конфиденциальности.

Методология исследования и результаты

Исследователи применили новую методологию, генерируя обширные наборы токенов из различных моделей и сравнивая их с обучающими наборами данных, чтобыdentслучаи прямого запоминания. Они разработали уникальный метод для ChatGPT, известный как «атака дивергенции», при котором модели предлагается произнести слово до тех пор, пока она не начнет многократно переходить к запомненным данным. Удивительно, но модели, включая ChatGPT, продемонстрировали значительное запоминание, воспроизводя фрагменты обучающих данных по определенному запросу.

Атака дивергенции и ChatGPT

Для ChatGPT атака с использованием отклонения оказалась особенно показательной. Исследователи заставили модель повторять слово несколько раз, что привело к отклонению от стандартных ответов и выдаче запомненных данных. Этот метод был практичным, но вызывал опасения с точки зрения конфиденциальности, поскольку продемонстрировал возможностьtracпотенциально конфиденциальной информации.

Тревожным открытием исследования стало то, что запомненные данные могут включать личную информацию, такую ​​как адреса электронной почты и номера телефонов. Используя как регулярные выражения, так и подсказки языковых моделей, исследователи проанализировали 15 000 поколений на предмет наличия подстрок, напоминающих персональноdentинформацию (PII). Примерно 16,9% поколений содержали запомненную PII, при этом 85,8% из них представляли собой реальную PII, а не вымышленный контент.

Последствия для разработки и использования языковых моделей

Эти результаты имеют важное значение для проектирования и применения языковых моделей. Существующие методы, даже те, что используются в ChatGPT, могут быть недостаточно эффективны для предотвращения утечки данных. Исследование подчеркивает необходимость более надежных методов дедупликации обучающих данных и более глубокого понимания того, как емкость модели влияет на запоминание.

Основной метод заключался в генерации текста различными моделями и проверке этих результатов на соответствие обучающим наборам данных моделей для запоминания. Для эффективного сопоставления использовались суффиксные массивы, что позволяло быстро осуществлять поиск подстрок в большом текстовом корпусе.

Более сложные модели, более значительные риски, связанные с запоминанием

Была выявлена ​​заметная корреляция между размером модели и ее склонностью к запоминанию. Более крупные модели, такие как GPT-Neo, LLaMA и ChatGPT, показали более высокую вероятность генерации запомненных обучающих данных, что указывает на прямую связь между емкостью модели и запоминанием.

Исследование освещает важнейший аспект развития ИИ — обеспечение того, чтобы мощные модели учитывали конфиденциальность пользователей. Оно открывает новые возможности для исследований и разработок, направленных на усиление защиты конфиденциальности в моделях ИИ, особенно в тех, которые используются в приложениях, чувствительных к вопросам конфиденциальности.

Поскольку искусственный интеллект продолжает развиваться, данное исследование проливает свет на важнейший аспект его развития: необходимость усиления мер защиты конфиденциальности в языковых моделях. Выявление способности ИИ запоминать и потенциально разглашать конфиденциальную информацию требует незамедлительных действий в этой области, побуждая разработчиков и исследователей создавать модели, которые не только эффективны, но и обеспечивают защиту конфиденциальности пользователей. Это исследование знаменует собой важный шаг на пути к пониманию и снижению рисков для конфиденциальности, связанных с технологиями ИИ и машинного обучения.

Не просто читайте новости о криптовалютах. Разберитесь в них. Подпишитесь на нашу рассылку. Это бесплатно.

Поделитесь этой статьей

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Джон Палмер

Джон Палмер

Джон Мурангири пришел в Cryptopolitan обладая навыками анализа рынка. Джон (он же JP) окончил Университет Найроби со степенью бакалавра в области массовых коммуникаций и медиаисследований. Ранее он публиковал аналитические материалы о криптовалютном рынке на InsideBitcoins.com и Metacoingraph.

ЕЩЕ… НОВОСТИ
ЭКСПРЕСС- КУРС ПО ГЛУБОКОЙ КРИПТОГРАФИИ