ПОСЛЕДНИЕ НОВОСТИ

жить В прямом эфире: Федеральная резервная система сохранила процентные ставки без изменений на первом заседании Кевина Уорша

17 июня 2026 г. — Прямая трансляция.
Комиссия по ценным бумагам и биржам (SEC) задается вопросом, имеют ли еще смысл правила свопов, принятые в эпоху закона Додда-Фрэнка

7 минут назад Новости
CZ утверждает, что агенты искусственного интеллекта обеспечат доступ к криптофинансам миллиардам людей по всему миру

3 часа назад Новости
Solana лидирует среди всех блокчейнов по количеству держателей реальных активов, меняя конкурентную карту токенизации

5 часов назад Новости

ПОДОБРАНО ДЛЯ ВАС

Еженедельно

ОСТАВАЙТЕСЬ НА ВЕРШИНЕ

Лучшие аналитические материалы о криптовалютах прямо в вашу электронную почту.

Исследователи Microsoft представили инновационную методику удаления специфических знаний из больших языковых моделей

Бренда Канана

3 минуты чтения, 7 октября 2023 г.

Исследователи Microsoft представили новый способ заставить модели искусственного интеллекта забывать определенную информацию, например, информацию о Гарри Поттере, без масштабной переподготовки.
Их трехэтапная методика эффективно удаляет знания всего за один час работы графического процессора, сохраняя при этом общую производительность ИИ.
Этот прорыв вселяет надежду на появление в будущем более адаптивных и этичных моделей искусственного интеллекта.

В рамках значительного прогресса в области искусственного интеллекта группа исследователей из Microsoft представила новаторский подход к выборочной модификации определенных знаний в больших языковых моделях (LLM). Эта революционная методология, подробно описанная в недавней статье на известной платформе arXiv.org, решает актуальную проблему, связанную с использованием материалов, защищенных авторским правом, во время обучения LLM. Кроме того, она предлагает перспективное решение вопроса о том, могут ли эти модели адаптироваться без масштабного переобучения.

Значительный скачок в адаптивности.

Крупные языковые модели, включая ChatGPT от OpenAI, Llama 2 от Meta и Claude 2 от Anthropic,tracзначительное внимание и подверглись тщательному анализу благодаря своей исключительной способности генерировать текстовый контент на основе обширных наборов данных, на которых они обучаются, включая материалы, защищенные авторским правом. Проблема настройки этих моделей для удаления или отмены усвоения определенной информации давно вызывает озабоченность.

Эффективное удаление данных за один час работы графического процессора.

Исследователииз Microsoft, а именно Ронен Элдан и Марк Руссинович, предложили элегантное решение этой проблемы. В своей статье они представили трехэтапную технику, предназначенную для аппроксимации процесса удаления определенной информации из языковых моделей. Наиболее примечательным аспектом их подхода является его эффективность. В частности, они продемонстрировали способность удалить все знания, относящиеся к книгам о Гарри Поттере, включая персонажей и детали сюжета, всего за один час тонкой настройки на графическом процессоре. Такой высокий уровень эффективности открывает значительные перспективы для разработки более адаптивных и отзывчивых языковых моделей.

Разбор трехэтапной техники

Методика Элдана и Руссиновича знаменует собой заметный отход от традиционного подхода к машинному обучению, который в основном сосредоточен на накоплении знаний без предоставления простых механизмов для отказа от старых знаний. Их инновационный подход включает три основных шага:

1.dentрелевантных токенов: На начальном этапе модель обучается с использованием целевых данных — в данном случае, книг о Гарри Поттере. Модельdentтокены, наиболее тесно связанные с целевыми данными, сравнивая свои прогнозы с прогнозами, полученными базовой моделью. Этот начальный шаг является основой для точного определения знаний, которые необходимо удалить.

2. Замена уникальных выражений: Второй шаг включает замену уникальных выражений, специфичных для серии книг о Гарри Поттере, на их общие аналоги. Таким образом, исследователи создают альтернативные прогнозы, которые фактически отражают результаты модели, лишенной специфических обучающих данных. Эта замена является ключевым элементом в процессе стирания знаний.

3. Тонкая настройка и удаление: Заключительный этап посвящен тонкой настройке базовой модели с использованием альтернативных прогнозов. В процессе тонкой настройки исходный текст удаляется из памяти модели при наличии контекста, связанного с серией книг о Гарри Поттере. Этот важный шаг позволяет модели «забыть» сложные сюжеты книг о Гарри Поттере.

Оценка успеха

Элдан и Руссинович провели всестороннюю серию тестов, чтобы оценить эффективность своей методологии. Они исследовали способность модели генерировать или обсуждать контент, связанный с серией книг о Гарри Поттере, используя 300maticсгенерированных подсказок и тщательно проанализировав вероятности появления токенов. Что особенно важно, их результаты показывают, что после всего лишь часа тонкой настройки модель могла практически «забыть» подробные описания событий из серии книг о Гарри Поттере. Примечательно, что это «забывание» оказало минимальное влияние на производительность модели в стандартных бенчмарк-тестах, таких как ARC, BoolQ и Winogrande.

Последствия и направления будущих исследований

Хотя эта новаторская методика демонстрирует значительные перспективы, крайне важно подчеркнуть, что необходимы дальнейшие исследования для уточнения и расширения методологии, особенно в отношении более широких задач разучивания в рамках больших языковых моделей. Стоит отметить, что этот подход может быть особенно эффективен для художественных текстов, таких как серия книг о Гарри Поттере, благодаря наличию уникальных отсылок.

Поскольку системы искусственного интеллекта продолжают играть все более важную роль в различных областях, способность избирательно забывать или разучиваться на определенной информации приобретает первостепенное значение. Данная методология представляет собой основополагающий шаг на пути к разработке более ответственных, адаптивных и соответствующих законодательству программ обучения. Она обладает потенциалом для решения этических задач, учета общественных ценностей и удовлетворения специфических потребностей пользователей по мере дальнейшего развития области ИИ.

Не просто читайте новости о криптовалютах. Разберитесь в них. Подпишитесь на нашу рассылку. Это бесплатно.

Поделитесь этой статьей

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Бренда Канана

Бренда обладает более чем 4-летним опытом работы в области криптовалют, искусственного интеллекта и новых технологий. Она работала в Zycrypto, Blockchain Reporter, The Coin Republic, а теперь работает в Cryptopolitan . Ее образование в области социологии, полученное в Техническом университете Момбасы, позволяет ей быть в курсе событий, волнующих читателей.

ОГЛАВЛЕНИЕ

1. Значительный скачок в адаптивности.

2. Эффективное удаление данных за один час работы графического процессора.

3. Разбор трехэтапной техники

4. Оценка успеха

5. Последствия и направления будущих исследований

Поделитесь этой статьей

ЕЩЕ… НОВОСТИ

ПОКАЗАТЬ ВСЕ

5 оригинальных применений ChatGPT и что с ними делать

3 года назад Tech Джон Палмер

решения на основе искусственного интеллекта

По данным Reuters, 93% руководителей предприятий отдают предпочтение решениям на основе искусственного интеллекта для управления устойчивым развитием бренда

3 года назад Tech Джон Палмер

Французская экосистема искусственного интеллекта

Вот как Макрон поддерживает динамичную и продуктивную экосистему искусственного интеллекта во Франции

3 года назад Tech Glory Kaburu

По оценкам Bloomberg, к 2032 году объем рынка генеративного искусственного интеллекта достигнет 1,3 триллиона долларов

3 года назад Tech Аамир Шейх

Что такое Base? Сеть Ethereum Layer-2, запущенная Coinbase

21 октября 2025 г. Изучение криптовалют: руководства для начинающих
Dogecoin против Bitcoin: ключевые технические различия

20 октября 2025 г. Изучение криптовалют: руководства для начинающих
Что такое TVL (Total Value Locked) в криптовалюте?

14 октября 2025 г. Изучение криптовалют: руководства для начинающих
Как читать криптодокумент?

13 октября 2025 г. Изучение криптовалют: руководства для начинающих
Ripple против XRP против XRP Ledger: в чем разница?

13 октября 2025 г. Изучение криптовалют: руководства для начинающих
Что такое мультиподписной кошелек в криптовалюте?

10 октября 2025 г. Изучение криптовалют: руководства для начинающих

ЭКСПРЕСС- КУРС ПО ГЛУБОКОЙ КРИПТОГРАФИИ

Какие криптовалюты могут принести вам деньги?
Как повысить безопасность своего кошелька (и какие из них действительно стоит использовать)
Малоизвестные инвестиционные стратегии, используемые профессионалами
Как начать инвестировать в криптовалюту (какие биржи использовать, какую криптовалюту лучше купить и т.д.)