Новое исследование показало, что большие языковые модели (LLM), обученные на Полученные результаты представляют собой новую проблему для разработчиков искусственного интеллекта, которые полагаются на ограниченные наборы данных, созданных человеком, для создания контента.
Читайте также: Дипфейки с использованием искусственного интеллекта мешают властям США защищать детей – отчет
Исследователи искусственного интеллекта из Кембриджского и Оксфордского университетов в Великобритании попытались написать подсказки, опираясь на набор данных, содержащий только контент, созданный ИИ. Результат не был идеальным, поскольку вызвал непонятные ответы.
ИИ все еще нуждается в людях, чтобы иметь смысл
Один из авторов статьи, Жакар Шумайлов из Кембриджского университета, сказал, что существует необходимость контроля качества данных, которые поступают в LLM, технологию, лежащую в основе чат-ботов с генеративным искусственным интеллектом, таких как ChatGPT и Gemini от Google. Шумайлов сказал:
«Идея в том, что мы должны быть очень осторожны с тем, что попадает в наши тренировочные данные. [Иначе] все всегда будет доказуемо идти не так».
Это явление известно как «коллапс модели», уточнил Шумайлов. Доказано, что это влияет на все виды моделей искусственного интеллекта, включая те, которые специализируются на создании изображений с использованием текстовых подсказок.
Согласно исследованию , повторяющиеся текстовые подсказки с использованием данных, сгенерированных ИИ для одной модели, в конечном итоге приводили к тарабарщине. Например, исследователи обнаружили, что одна система, протестированная на тексте о башнях средневековых церквей Великобритании, выдала повторяющийся список зайцев всего через девять поколений.
Комментируя результаты, ученый-компьютерщик из Калифорнийского университета Хани Фарид сравнил обвал данных с проблемами, присущими инбридингу животных.
«Если вид скрещивается со своим собственным потомством и не диверсифицирует свой генофонд, это может привести к коллапсу вида», — сказал Фарид.
Когда исследователи внедрили данные, сгенерированные человеком, в данные ИИ, коллапс произошел медленнее, чем когда они работали исключительно на контенте, сгенерированном ИИ.

Исследователи: ИИ может усилить предвзятое отношение к группам меньшинств
Языковые модели работают путем создания ассоциаций между токенами — словами или частями слов — в огромных фрагментах текста, часто взятых из Интернета. Они генерируют текст, выдавая статистически наиболее вероятное следующее слово на основе заученных закономерностей.
Читайте также: Плюшевый мишка По на базе ChatGPT читает детям сказки на ночь
Исследование, опубликованное в журнале Nature 24 июля, показало, что информация, упомянутая несколько раз в наборах данных, скорее всего, не будет повторяться. Исследователи опасаются, что это может негативно повлиять на и без того маргинализированные группы меньшинств.
Чтобы предотвратить крах модели в реальных случаях использования, в исследовании было предложено ставить водяные знаки на контент, созданный искусственным интеллектом, и контент, созданный человеком. Но это также может бытьmatic из-за отсутствия координации между конкурирующими компаниями в области искусственного интеллекта, говорится в сообщении.
Результаты исследования появились в то время, когда усиливаются споры о том, приведет ли ИИ к полному исключению людей из создания контента, включая написание романов и газетных статей.
Результаты исследования, озаглавленные «Модели искусственного интеллекта разрушаются при обучении на рекурсивно сгенерированных данных», положили конец этой дискуссии — люди пока не исключены из уравнения.
Ваши криптовые новости заслуживают внимания - Wire Key Miniate ставит вас на 250 лучших сайтов