Компании, занимающиеся искусственным интеллектом, разбираются в юридических спорах, касающихся обучающих данных

Брайан Куме

4 минуты чтения, 6 апреля 2024 г.

Компании OpenAI и Google подвергаются критике за сбор обучающих данных. OpenAI занимается расшифровкой видео с YouTube, а Google использует контент с разрешения правообладателя.
Компания Meta рассматривает возможность приобретения крупного издателя для сбора данных для искусственного интеллекта на фоне опасений по поводу конфиденциальности.
Индустрия искусственного интеллекта сталкивается с дефицитом данных и изучает такие решения, как синтетические данные, но юридические и этические проблемы остаются.

В ходе недавних дебатов о том, как Open и Google подгоняют свои данные под модель, вы заметите, что в дискуссии доминируют два термина: Open и Google. Статьи, опубликованные в The Wall Street Journal и New York Times, показывают, что методы сбора данных компаниями, работающими в сфере ИИ, были неудовлетворительными и создали головную боль в вопросе о том, какие данные являются достоверными и какой этический аспект был использован при создании системы, связанной с ИИ.

Сомнительная тактика OpenAI

Однако на пике популярности газета New York Times подчеркивала более масштабные результаты, достигнутые Open AI с помощью Whisper. Эта модель преобразования аудио в текст разработана как дополнение к технологии языкового процессора Open AI, LP-4. Действительно, беспилотный автомобиль OpenAI создается не за счет сбора информации, что является сложной задачей для компании; скорее, именно сбор информации становится актуальным в таких условиях.

Хотя первоначальная популярность законов о сборе данных была связана с соображениями добросовестного использования авторских прав, последнее также стало правовой основой для этих законов. Как выразился Брокман, один из основателей и генеральный директор OpenAI предоставил некоторую информацию, необходимую для транскрипции. Однако он добавляет, что историк также внес свой вклад в транскрипцию.

Однако корпорация Google занимает центральное место даже в таких мелких проблемах, как эта, в более крупных проектах, например, в проекте по сбору данных, подобном OpenAI, который реализуется небольшой организацией и ориентирован на гиганта индустрии, а пользователя лишь предупредили, но не сообщили, кто именно будет виноват в действиях YouTube.

Помимо этого подхода, Facebook также рассмотрел основания для соблюдения условий использования и запретил несанкционированные действия, особенно так называемый сбор данных. В случае с Джоном Конли (представителем YouTube) он ответил на вопрос о том, использовались ли модели для обучения ИИ на основе контента после сбора данных от создателей контента.

Напротив. Помимо обучения машин, на чью сторону Meta приходится решать текущую проблему, ведущую к ее нецелесообразности. ИИ в компании, добившаяся успеха в соперничестве с OpenAI, посчитала, что обе команды использовали все доступные средства для достижения лучшего результата для своих компаний, включая оригинальное мышление, не обращая внимания ни на какие факторы в пользу отвергнутой стороны.

Похоже, компания Meta подготовила ряд вопросов, на которые она рассчитывала получить ответы, определяя, какая работа будет делегирована, кто будет отвечать за закупку книг у каких издателей, специализирующихся в конкретных областях. Хотя пользовательский опыт в сети впечатляет, сложившаяся государственная политика взяла на себя инициативу по вмешательству в частную жизнь граждан, что было особенно ярко продемонстрировано в 2018 году в деле Cambridge Analytica.

В более широком контексте обучения ИИ мы сталкиваемся с насущной дилеммой: с одной стороны, вопрос о нехватке данных за последние пару лет стал еще острее, с другой — хотя связь между этими двумя проблемами сохраняется, исследователи всегда настаивают на наличии достаточного количества данных для повышения точности и улучшения производительности.

Кроме того, прогноз Wall Street Journal вызывает энтузиазм, предсказывая рост выше всех целевых показателей, отметив его на начало 2020 года и достигнув пика рыночной капитализации к концу года. Этот метод основан на двух факторах: использовании моделей, которые могут быть синтетическими для построения внешней матрицы, и учебном процессе принятия решений, в рамках которого модели учатся на основе своих решений. Не следует ожидать от них результатов, но необходимо обеспечить их наблюдаемость.

Правовые и этические последствия

Отсутствие правила о защите от пиратства может создать проблемы, поскольку ничто не позволит пользователям получить доступ к защищенным авторским правом материалам, и могут возникнуть сложности с пониманием вопросов права, этики и т.д. Становятся ли данные нематериальной собственностью и основой для определения того, что принадлежит вам, а что нет, когда данные и пользователь считаются источником бизнеса, если использование этих данных неоправданно? Этот риск заставит руководителей программ научно-исследовательской группы сосредоточиться на их анализе и поиске ответов.

В контексте целей коллективных исков, проблема заключается в том, что организация недостаточно хорошо разбирается в вопросах конфиденциальности и использования данных, чтобы обеспечить законность своей деятельности. Действительно, проблемы (например, этические вопросы, касающиеся процесса интеллектуального анализа данных, используемого в исследованиях и разработках в области ИИ) усложняются, поскольку необходимо учитывать нормативные ограничения и конфиденциальность данных (так как характер данных зависит от того, как они обрабатываются и используются).

Самая жесткая конкуренция в сфере ИИ в будущем заключается вdentнаилучших данных для обучения систем ИИ, и, что еще важнее, в том, будут ли такие данные соответствовать общим этическим или правовым нормам. Все, что связано с ИИ, по своей природе подчеркивает и расширяет такие понятия, как инновации и внедрение посредством фильтрации наборов данных для корпораций.

Будучи технологическим искусственным интеллектом, он никогда не стоит на месте, поэтому главной проблемой всегда будет использование данных, и это останется одним из приоритетов для членов сообщества, которые формируются посредством использования искусственного интеллекта наилучшим образом.

Оригинал статьи: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb

Если вы это читаете, значит, вы уже впереди. Оставайтесь на шаг впереди, подписавшись на нашу рассылку.

Поделитесь этой статьей

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Брайан Куме

Брайан Куме обладает более чем семилетним опытом работы в сфере блокчейна и криптовалют, активно участвуя в отрасли с 2017 года. Он сотрудничал с ведущими изданиями, включая BlockToday.com. Кроме того, он разработал курс Ethereum 101 для BitDegree.org, прежде чем присоединиться Cryptopolitan в качестве штатного автора. Брайан пишет обзоры, проводит углубленные исследования, берет интервью и анализирует цены. Его внимание к DeFi, инновациям в блокчейне и новым криптопроектам привлекает читателей.

ОГЛАВЛЕНИЕ

1. Сомнительная тактика OpenAI

2. Правовые и этические последствия

Поделитесь этой статьей