ПОСЛЕДНИЕ НОВОСТИ

Компания Alephium предупреждает о необходимости отзыва ликвидности до дальнейшего уведомления в связи с тем, что хакеры вывели 815 000 долларов

Новости от 30 мая 2026 г.
Zama: ЗаморозкаtraccUSDC Smart Contract стала побочным эффектом от мошенничества Overnight Finance

Новости от 30 мая 2026 г.
Бывший игрок НБА Тристан Томпсон попал в заголовки новостей, подав иск на 2 миллиона долларов и ультиматум о проведении вазэктомии

Новости от 30 мая 2026 г.
Хакеры вывели 5,4 млн долларов из моста Gravity между Ethereum и Cosmos

Новости от 30 мая 2026 г.

ПОДОБРАНО ДЛЯ ВАС

Еженедельно

ОСТАВАЙТЕСЬ НА ВЕРШИНЕ

Лучшие аналитические материалы о криптовалютах прямо в вашу электронную почту.

Возникающие риски для конфиденциальности в ИИ: проблема запоминания в языковых моделях

Джон Палмер

2 минуты чтения, 29 ноября 2023 г.

Риск запоминания данных в ИИ: модели, подобные ChatGPT, могут воспроизводить обучающие данные, что вызывает опасения по поводу конфиденциальности.

Атака типа «дивергенция» на ChatGPT выявляет потенциальную возможность утечки конфиденциальных данных.

Более крупные модели ИИ демонстрируют более высокую склонность к запоминанию и разглашению конфиденциальной информации.

Новаторское исследование, проведенное с участием исследователей из Google DeepMind, Вашингтонского университета, Калифорнийского университета в Беркли и других, выявило поразительный аспект больших языковых моделей, таких как ChatGPT: их способность запоминать и воспроизводить конкретные данные, на которых они обучались. Это явление, известное как «запоминание», вызывает серьезные опасения по поводу конфиденциальности, особенно учитывая, что эти модели часто обучаются на обширных и разнообразных текстовых данных, включая потенциально конфиденциальную информацию.

Понимание запоминания таблицыtrac

Исследование, посвященное «запоминанию таблицtrac», ставило целью определить, могут ли внешние субъектыtracконкретные данные, полученные из этих моделей, без предварительного знания обучающего набора данных. Это запоминание — не просто теоретическая проблема; оно имеет реальные последствия для конфиденциальности.

Методология исследования и результаты

Исследователи применили новую методологию, генерируя обширные наборы токенов из различных моделей и сравнивая их с обучающими наборами данных, чтобыdentслучаи прямого запоминания. Они разработали уникальный метод для ChatGPT, известный как «атака дивергенции», при котором модели предлагается произнести слово до тех пор, пока она не начнет многократно переходить к запомненным данным. Удивительно, но модели, включая ChatGPT, продемонстрировали значительное запоминание, воспроизводя фрагменты обучающих данных по определенному запросу.

Атака дивергенции и ChatGPT

Для ChatGPT атака с использованием отклонения оказалась особенно показательной. Исследователи заставили модель повторять слово несколько раз, что привело к отклонению от стандартных ответов и выдаче запомненных данных. Этот метод был практичным, но вызывал опасения с точки зрения конфиденциальности, поскольку продемонстрировал возможностьtracпотенциально конфиденциальной информации.

Тревожным открытием исследования стало то, что запомненные данные могут включать личную информацию, такую как адреса электронной почты и номера телефонов. Используя как регулярные выражения, так и подсказки языковых моделей, исследователи проанализировали 15 000 поколений на предмет наличия подстрок, напоминающих персональноdentинформацию (PII). Примерно 16,9% поколений содержали запомненную PII, при этом 85,8% из них представляли собой реальную PII, а не вымышленный контент.

Последствия для разработки и использования языковых моделей

Эти результаты имеют важное значение для проектирования и применения языковых моделей. Существующие методы, даже те, что используются в ChatGPT, могут быть недостаточно эффективны для предотвращения утечки данных. Исследование подчеркивает необходимость более надежных методов дедупликации обучающих данных и более глубокого понимания того, как емкость модели влияет на запоминание.

Основной метод заключался в генерации текста различными моделями и проверке этих результатов на соответствие обучающим наборам данных моделей для запоминания. Для эффективного сопоставления использовались суффиксные массивы, что позволяло быстро осуществлять поиск подстрок в большом текстовом корпусе.

Более сложные модели, более значительные риски, связанные с запоминанием

Была выявлена заметная корреляция между размером модели и ее склонностью к запоминанию. Более крупные модели, такие как GPT-Neo, LLaMA и ChatGPT, показали более высокую вероятность генерации запомненных обучающих данных, что указывает на прямую связь между емкостью модели и запоминанием.

Исследование освещает важнейший аспект развития ИИ — обеспечение того, чтобы мощные модели учитывали конфиденциальность пользователей. Оно открывает новые возможности для исследований и разработок, направленных на усиление защиты конфиденциальности в моделях ИИ, особенно в тех, которые используются в приложениях, чувствительных к вопросам конфиденциальности.

Поскольку искусственный интеллект продолжает развиваться, данное исследование проливает свет на важнейший аспект его развития: необходимость усиления мер защиты конфиденциальности в языковых моделях. Выявление способности ИИ запоминать и потенциально разглашать конфиденциальную информацию требует незамедлительных действий в этой области, побуждая разработчиков и исследователей создавать модели, которые не только эффективны, но и обеспечивают защиту конфиденциальности пользователей. Это исследование знаменует собой важный шаг на пути к пониманию и снижению рисков для конфиденциальности, связанных с технологиями ИИ и машинного обучения.

Не просто читайте новости о криптовалютах. Разберитесь в них. Подпишитесь на нашу рассылку. Это бесплатно.

Поделитесь этой статьей

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Джон Палмер

Джон Мурангири пришел в Cryptopolitan обладая навыками анализа рынка. Джон (он же JP) окончил Университет Найроби со степенью бакалавра в области массовых коммуникаций и медиаисследований. Ранее он публиковал аналитические материалы о криптовалютном рынке на InsideBitcoins.com и Metacoingraph.

ОГЛАВЛЕНИЕ

1. Понимание запоминания таблицыtrac

2. Методология исследования и результаты

3. Атака дивергенции и ChatGPT

4. Последствия для разработки и использования языковых моделей

5. Более сложные модели, более значительные риски, связанные с запоминанием

Поделитесь этой статьей

ЕЩЕ… НОВОСТИ

ПОКАЗАТЬ ВСЕ

5 оригинальных применений ChatGPT и что с ними делать

3 года назад Tech Джон Палмер

решения на основе искусственного интеллекта

По данным Reuters, 93% руководителей предприятий отдают предпочтение решениям на основе искусственного интеллекта для управления устойчивым развитием бренда

3 года назад Tech Джон Палмер

Французская экосистема искусственного интеллекта

Вот как Макрон поддерживает динамичную и продуктивную экосистему искусственного интеллекта во Франции

3 года назад Tech Glory Kaburu

По оценкам Bloomberg, к 2032 году объем рынка генеративного искусственного интеллекта достигнет 1,3 триллиона долларов

3 года назад Tech Аамир Шейх

Что такое Base? Сеть Ethereum Layer-2, запущенная Coinbase

21 октября 2025 г. Изучение криптовалют: руководства для начинающих
Dogecoin против Bitcoin: ключевые технические различия

20 октября 2025 г. Изучение криптовалют: руководства для начинающих
Что такое TVL (Total Value Locked) в криптовалюте?

14 октября 2025 г. Изучение криптовалют: руководства для начинающих
Как читать криптодокумент?

13 октября 2025 г. Изучение криптовалют: руководства для начинающих
Ripple против XRP против XRP Ledger: в чем разница?

13 октября 2025 г. Изучение криптовалют: руководства для начинающих
Что такое мультиподписной кошелек в криптовалюте?

10 октября 2025 г. Изучение криптовалют: руководства для начинающих

ЭКСПРЕСС- КУРС ПО ГЛУБОКОЙ КРИПТОГРАФИИ

Какие криптовалюты могут принести вам деньги?
Как повысить безопасность своего кошелька (и какие из них действительно стоит использовать)
Малоизвестные инвестиционные стратегии, используемые профессионалами
Как начать инвестировать в криптовалюту (какие биржи использовать, какую криптовалюту лучше купить и т.д.)