В рамках значительного прогресса в области искусственного интеллекта группа исследователей из Microsoft представила новаторский подход к выборочной модификации определенных знаний в больших языковых моделях (LLM). Эта революционная методология, подробно описанная в недавней статье на известной платформе arXiv.org, решает актуальную проблему, связанную с использованием материалов, защищенных авторским правом, во время обучения LLM. Кроме того, она предлагает перспективное решение вопроса о том, могут ли эти модели адаптироваться без масштабного переобучения.
Значительный скачок в адаптивности.
Крупные языковые модели, включая ChatGPT от OpenAI, Llama 2 от Meta и Claude 2 от Anthropic,tracзначительное внимание и подверглись тщательному анализу благодаря своей исключительной способности генерировать текстовый контент на основе обширных наборов данных, на которых они обучаются, включая материалы, защищенные авторским правом. Проблема настройки этих моделей для удаления или отмены усвоения определенной информации давно вызывает озабоченность.
Эффективное удаление данных за один час работы графического процессора.
Исследователи из Microsoft , а именно Ронен Элдан и Марк Руссинович, предложили элегантное решение этой проблемы. В своей статье они представили трехэтапную технику, предназначенную для аппроксимации процесса удаления определенной информации из языковых моделей. Наиболее примечательным аспектом их подхода является его эффективность. В частности, они продемонстрировали способность удалить все знания, относящиеся к книгам о Гарри Поттере, включая персонажей и детали сюжета, всего за один час тонкой настройки на графическом процессоре. Такой высокий уровень эффективности открывает значительные перспективы для разработки более адаптивных и отзывчивых языковых моделей.
Разбор трехэтапной техники
Методика Элдана и Руссиновича знаменует собой заметный отход от традиционного подхода к машинному обучению, который в основном сосредоточен на накоплении знаний без предоставления простых механизмов для отказа от старых знаний. Их инновационный подход включает три основных шага:
1.dentрелевантных токенов: На начальном этапе модель обучается с использованием целевых данных — в данном случае, книг о Гарри Поттере. Модельdentтокены, наиболее тесно связанные с целевыми данными, сравнивая свои прогнозы с прогнозами, полученными базовой моделью. Этот начальный шаг является основой для точного определения знаний, которые необходимо удалить.
2. Замена уникальных выражений: Второй шаг включает замену уникальных выражений, специфичных для серии книг о Гарри Поттере, на их общие аналоги. Таким образом, исследователи создают альтернативные прогнозы, которые фактически отражают результаты модели, лишенной специфических обучающих данных. Эта замена является ключевым элементом в процессе стирания знаний.
3. Тонкая настройка и удаление: Заключительный этап посвящен тонкой настройке базовой модели с использованием альтернативных прогнозов. В процессе тонкой настройки исходный текст удаляется из памяти модели при наличии контекста, связанного с серией книг о Гарри Поттере. Этот важный шаг позволяет модели «забыть» сложные сюжеты книг о Гарри Поттере.
Оценка успеха
Элдан и Руссинович провели всестороннюю серию тестов, чтобы оценить эффективность своей методологии. Они исследовали способность модели генерировать или обсуждать контент, связанный с серией книг о Гарри Поттере, используя 300maticсгенерированных подсказок и тщательно проанализировав вероятности появления токенов. Что особенно важно, их результаты показывают, что после всего лишь часа тонкой настройки модель могла практически «забыть» подробные описания событий из серии книг о Гарри Поттере. Примечательно, что это «забывание» оказало минимальное влияние на производительность модели в стандартных бенчмарк-тестах, таких как ARC, BoolQ и Winogrande.
Последствия и направления будущих исследований
Хотя эта новаторская методика демонстрирует значительные перспективы, крайне важно подчеркнуть, что необходимы дальнейшие исследования для уточнения и расширения методологии, особенно в отношении более широких задач разучивания в рамках больших языковых моделей. Стоит отметить, что этот подход может быть особенно эффективен для художественных текстов, таких как серия книг о Гарри Поттере, благодаря наличию уникальных отсылок.
Поскольку системы искусственного интеллекта продолжают играть все более важную роль в различных областях, способность избирательно забывать или разучиваться на определенной информации приобретает первостепенное значение. Данная методология представляет собой основополагающий шаг на пути к разработке более ответственных, адаптивных и соответствующих законодательству программ обучения. Она обладает потенциалом для решения этических задач, учета общественных ценностей и удовлетворения специфических потребностей пользователей по мере дальнейшего развития области ИИ.

