AI 기업들이 학습 데이터 관련 법적 회색지대를 헤쳐나가고 있다

에 의해

브라이언 쿰

읽는 데 4분 소요 , 2024년 4월 6일

OpenAI와 구글이 학습 데이터 수집으로 비난을 받고 있습니다. OpenAI는 유튜브 영상의 자막을 생성하고, 구글은 허가를 받아 콘텐츠를 사용합니다.
개인정보 보호에 대한 우려가 커지는 가운데, 메타는 인공지능 개발을 위한 데이터 수집을 위해 주요 출판사 인수를 검토하고 있다.
인공지능 산업은 데이터 부족에 직면하여 합성 데이터와 같은 해결책을 모색하고 있지만, 법적 및 윤리적 우려가 여전히 남아 있습니다.

최근 오픈 소스 기업과 구글 이 모델에 맞춰 데이터를 수집하는 방식에 대한 논쟁을 살펴보면 , '오픈 소스'와 '구글'이라는 두 단어가 논쟁의 중심을 차지하고 있음을 알 수 있습니다. 월스트리트 저널과 뉴욕 타임스에 최근 게재된 기사들은 AI 관련 기업들의 데이터 수집 방식이 부적절했으며, 어떤 데이터가 진실인지, 그리고 AI 시스템 개발에 어떤 윤리적 기준이 적용되었는지에 대한 의문을 제기했습니다.

OpenAI의 의심스러운 전술

하지만 뉴욕 타임스는 최고조에 달했을 때 오픈 AI가 위스퍼(Whisper)를 통해 제시한 더 큰 성과를 강조했습니다. 이 음성-텍스트 변환 모델은 오픈 AI의 언어 처리기인 LP-4 기술을 보완하기 위해 개발되었습니다. 실제로 오픈 AI의 자율주행차는 정보 수집 자체에 의해 결정되는 것이 아니라, 정보 수집이 이러한 조건 하에서 중요한 역할을 하게 됩니다.

데이터 수집 행위가 초기에 인기를 얻은 것은 공정 사용 저작권 문제 때문이었지만, 이 저작권은 이러한 행위의 법적 근거가 되기도 했습니다. 브록먼의 말에 따르면, 오픈AI의 창립 멤버 중 한 명이자 CEO가 녹취록 작성에 필요한 정보를 제공했다고 합니다. 하지만 그는 역사학자 또한 녹취록 작성에 기여했다고 덧붙였습니다.

하지만 구글은 이러한 사소한 문제부터 오픈AI와 같은 대규모 사업에 이르기까지 모든 일에 중심적인 역할을 하고 있습니다. 즉, 데이터 수집 기능을 제공하는 오픈AI는 규모가 작은 조직임에도 불구하고 업계 거대 기업을 겨냥한 프로젝트에 참여하고 있으며, 유튜브는 사용자에게 경고만 했을 뿐 누구의 책임인지 알려주지 않았습니다.

이러한 접근 방식 외에도 페이스북은 이용약관 준수 근거를 마련하고 무단 행위, 특히 소위 데이터 스크래핑을 금지했습니다. 유튜브 대변인 존 콘리는 콘텐츠 제작자로부터 데이터를 수집한 후 콘텐츠 기반 AI 학습에 모델을 사용했는지 여부에 대한 질문에 답변했습니다.

그 반대입니다. 메타가 현재 해결해야 할 과제이자 실현 불가능성을 야기하는 문제인 머신 러닝 훈련과 관련해서도 마찬가지입니다. AI 그룹은 양 팀 모두 각 회사에 더 나은 결과를 가져오기 위해 모든 수단을 동원했으며, 여기에는 상대 팀에 유리한 어떤 요소에도 주의를 기울이지 않고 독창적인 사고를 하는 것도 포함되었다고 평가했습니다.

메타는 위임된 업무의 내용, 특정 분야 전문 출판사의 도서 구매 책임자, 그리고 업무 분담 방식 등에 대한 답변을 얻기 위해 미리 질문 유형을 준비한 것으로 보입니다. 네트워크의 사용자 경험은 매우 훌륭하지만, 기존 정부 정책은 개인 정보 보호에 개입하려는 경향을 보이며, 이는 2018년 캠브리지 애널리티카 사태를 통해 부각되었습니다.

인공지능 학습 분야 전반은 시급한 딜레마에 직면해 있습니다. 한편으로는 지난 몇 년간 데이터 부족 문제가 더욱 심각해지고 있고, 다른 한편으로는 데이터 부족 문제가 있습니다. 이 두 문제는 밀접한 관련이 있지만, 연구자들은 정확도 향상과 성능 증대를 위해 충분한 데이터 확보를 항상 강조하고 있습니다.

또한 월스트리트 저널의 예측은 열광을 불러일으키며, 2020년 초의 모든 목표치를 뛰어넘어 연말에 최고점을 기록할 것으로 전망했습니다. 이러한 예측은 두 가지 요소에 기반합니다. 첫째, 외부 매트릭스를 나타내는 합성 모델에 의존하는 것이고, 둘째, 모델이 의사결정 과정을 통해 학습하는 것입니다. 모델이 반드시 결과를 내놓을 것이라고 기대해서는 안 되지만, 그 과정을 관찰할 수 있도록 하는 것이 중요합니다.

법적 및 윤리적 함의

저작권 침해 규정이 없다면 저작권이 있는 콘텐츠에 사용자가 접근할 수 없게 되어 문제가 발생할 수 있으며, 법률, 윤리 등과 관련된 이해 충돌이 발생할 수도 있습니다. 데이터가 무형 자산이 되어 무엇이 자신의 것이고 무엇이 아닌지를 명확히 구분하는 기준이 되는 것일까요? 데이터와 사용자가 사업의 원천으로 인식되고, 해당 데이터의 무단 사용이 정당화되지 않는다면 어떻게 될까요? 이러한 위험은 연구 개발팀의 프로그램 책임자들이 집중적으로 검토하고 해결책을 모색해야 할 과제를 안겨줄 것입니다.

집단 소송 캠페인의 목적과 관련된 관계는 해당 조직이 운영의 정당성을 확보하기 위해 필요한 만큼의 개인정보 보호 및 데이터 사용에 대한 충분한 정보를 갖고 있지 않다는 점을 시사합니다. 실제로, 인공지능 연구 개발에 사용되는 데이터 마이닝 과정과 관련된 윤리적 문제 등 여러 가지 난제들은 데이터의 처리 및 사용 방식이라는 맥락 속에서 데이터의 본질이 결정되기 때문에 규제 제한과 개인정보 보호를 고려해야 하므로 더욱 복잡해집니다.

미래의 가장 치열한 AI 경쟁은 AI 시스템 훈련에 가장 적합한 데이터를dent데 있으며, 더 나아가 그러한 데이터가 일반적인 윤리적 또는 법적 규제 체계를 준수할 수 있는지 여부에 달려 있습니다. AI와 관련된 모든 것은 본질적으로 기업을 위한 데이터 세트 필터링을 통해 혁신과 구현과 같은 개념을 강조하고 확장합니다.

인공지능 기술은 끊임없이 발전하기 때문에, 핵심적인 문제는 항상 데이터 활용 방식이 될 것이며, 이는 인공지능을 최대한 활용하려는 커뮤니티 구성원들의 최우선 과제 중 하나로 남을 것입니다.

원문 출처: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb

암호화폐 뉴스를 단순히 읽는 데 그치지 마세요. 이해하세요. 저희 뉴스레터를 구독하세요. 무료입니다.

이 기사를 공유하세요

면책 조항: 제공된 정보는 투자 조언이 아닙니다. Cryptopolitan이 페이지에 제공된 정보를 바탕으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다.tron권장합니다dent .

브라이언 쿰

브라이언 쿰은 2017년부터 블록체인 및 암호화폐 업계에서 활동하며 7년 이상의 경력을 쌓았습니다. 그는 BlockToday.com을 비롯한 주요 매체에 기고했으며, Cryptopolitan 정규 작가로 합류하기 전에는 BitDegree.org에서 Ethereum 과정을 개발하기도 했습니다. 브라이언은 핵심 가이드(EG), 심층 분석, 인터뷰, 가격 분석 등을 다룹니다. 특히 DeFi, 블록체인 혁신, 그리고 새롭게 떠오르는 암호화폐 프로젝트에 대한 그의 관심은 독자들에게 큰 호응을 얻고 있습니다.

1. OpenAI의 의심스러운 전술

2. 법적 및 윤리적 함의

이 기사를 공유하세요