Независимо от того, есть ли работа OpenAI , Google и Meta, финансирующая промышленный сектор с помощью ИИ, которая включает в себя различные методы, такие как сбор или накопление огромных объёмов цифровых данных различными, но нестандартными, способами, очевидно, что возможности и возможности автоматизации расширяются. Примечательно, что усилия, связанные с такими действиями, как принятие описанных выше мер (т.е. с учётом правовых ограничений и корпоративных политик), эквивалентны значительному объёму данных, используемых для обучения систем ИИ.
Инициатива OpenAI «Шепот»: анализ разговоров на YouTube
Наша история с Whisper началась всего в прошлом году. В мире катастрофически не хватает качественных текстов на английском языке, что приводит к задержкам в предоставлении образовательных услуг. Whisper стал следующим шагом Google. Он понимал весь океан диалогов на YouTube и был разработан как приложение для преобразования текста в речь. Сам инструмент на базе искусственного интеллекта, состоящий из более чем миллиона часов видео YouTube, которые ИИ анализирует для генерации новых текстов (по сути, нового диалога), использовался для обучения моделей искусственного интеллекта, разработанных от самых современных до GPT-4, последней версии чат-бота ChatGPT.
Хотя некоторые сотрудники утверждали, что материалы OpenAI, созданные Microsoft, будут плагиатом YouTube по всем направлениям, этика плагиата всё ещё оставалась спорной; кроме того, некоторые сотрудники признавали, что точное соответствие намерениям YouTube было бы невозможно. Аналогичным образом, получение возражений против алгоритмической обработки видео дляtracтекстового контента для передачи моделям ИИ могло быть расценено как угроза авторским правам создателей видео, что вызвало возмущение.
Компания Meta, материнская компания Facebook и Instagram, также была обеспокоена использованием элементов, защищённых авторским правом, таких издательств, как Simon & Schuster, и других. В то же время компания обсуждала возможность приобретения общего веб-контента, что потенциально могло привести к нарушению авторских прав.
Кризис данных: внедрение нетрадиционных подходов
Сбор данных в условиях конкуренции помогает отметить ключевую роль данных иdentеё в развитии технологий ИИ. Язык, превращающий ИИ в ИИ, охватывает всё больше обучающих наборов данных, включая данные Содружества, которые сегодня обрабатываются вплоть до Википедии и Reddit из других источников. Для технологических компаний, особенно тех, которые испытывают трудности с доступом к распространённым источникам данных, таким как традиционные хранилища данных, создание моделей на базе ИИ может стать альтернативным решением, которое может быть достаточно желательным в таких случаях.
Компании, работающие в сфере технологий, указывают на необходимость сбора данных для обучения ИИ, в то время как сам процесс оспаривается в суде с юридической точки зрения. В свою защиту OpenAI и Microsoft выиграли дело о незаконном использовании материалов, защищенных авторским правом. Тем не менее, они заявили, что их действия соответствуют правовому принципу добросовестного использования. В последние годы количество заявлений, поданных в Бюро по авторским правам США правообладателями, превысило 10 000, что наглядно демонстрирует уникальность и новизну авторского права в эпоху ИИ. Следовательно, основные игроки постоянно сталкиваются с рисками, связанными с нарушением прав на многие работы под предлогом отсутствия лицензированных целей для моделей, использующих ИИ на этой основе.
Необходимость в массивных наборах данных
В целом, работа Кайпана, «de Jared, science the scale», стала неожиданно эпическим достижением в области разработки ИИ. Контент, основанный на данных, — один из компонентов, необходимых для процесса обучения ИИ, но он не может функционировать должным образом без хорошо обученных и эффективных моделей. С развитием технологий искусственного интеллекта спрос на данные для достижения успеха на рынке стремительно растёт, что ставит перед компаниями вопросы, связанные с законодательством, этикой и конфиденциальностью. Поэтому алгоритмы искусственного интеллекта должны использовать эти наборы данных для достижения успеха на рынке.
Методы сбора данных, применяемые V.IP, искажаются ради ИИ ; типичная методологическая клятва становится более грубой. Будь то выступления на YouTube или создание генераторов синтетических данных, эти компании являются лидерами, стремящимися понять, в чём на самом деле заключаются проблемы права, этики и конфиденциальности.
В будущем они могут стать посмешищем в море. В связи с появлением огромных массивов данных, необходимых для развития инновационного процесса, лидерам общества необходимо активно участвовать в конструктивном диалоге для разработки правил и стандартов, в которых инновационные усилия будут сбалансированы с этическими принципами прав интеллектуальной собственности и конфиденциальности.
Оригинальная история отсюда: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
Хотите, чтобы ваш проект увидели лучшие умы криптоиндустрии? Расскажите о нём в нашем следующем отраслевом отчёте, где данные сталкиваются с влиянием.

