오픈AI 의 기업들이 AI에 투자하면서 산업계는 다양한 방식으로 막대한 양의 디지털 데이터를 수집 및 축적하고 있지만, 이는 여러 가지 논란의 여지가 있습니다. 자동화 능력과 역량이 증가하고 있다는 것은 분명합니다. 특히, 위에서 언급한 조치들(즉, 법적 한계와 기업 정책을 고려한 조치들)을 취하는 데 드는 노력은 AI 시스템 학습에 사용되는 상당한 양의 데이터와 맞먹는 수준입니다.
OpenAI의 위스퍼 프로젝트: 유튜브 대화 분석
저희의 위스퍼(Whisper) 이야기는 바로 작년에 시작되었습니다. 수준 높은 영어 텍스트가 턱없이 부족하여 교육 전달에 차질이 생기는 문제가 심각했습니다. 위스퍼는 구글이 이러한 문제를 해결하기 위해 개발한 차세대 솔루션입니다. 위스퍼는 유튜브의 방대한 대화 데이터를 분석하여 텍스트 음성 변환 애플리케이션으로 개발되었습니다. 이 AI 기반 도구는 100만 시간 이상의 유튜브 영상을 AI가 분석하여 새로운 텍스트(사실상 새로운 대화)를 생성하는 방식으로 만들어졌으며, 최첨단 AI 모델부터 최신 챗봇인 GPT-4에 이르기까지 다양한 AI 모델 학습에 활용되었습니다.
일부 직원들은 OpenAI가 마이크로소프트의 영상을 무분별하게 표절하는 것이라고 주장했지만, 표절의 윤리적 문제는 여전히 논란의 여지가 있었습니다. 또한 일부 직원들은 유튜브의 의도와 정확히 일치하는 것은 불가능하다고 인정했습니다. 마찬가지로, 알고리즘을 통해 영상에서 텍스트 콘텐츠를trac하여 AI 모델에 입력하는 방식에 대한 반발은 영상 제작자의 저작권을 침해하는 것으로 여겨져 큰 반발을 불러일으켰습니다.
페이스북과 인스타그램의 모회사인 메타는 사이먼앤슈스터 등 출판사의 저작권이 있는 요소를 사용하는 것에 대해서도 우려를 표명했습니다. 동시에 일반 웹 콘텐츠 인수와 관련하여 저작권 침해 문제에 휘말릴 가능성에 대해서도 논의했습니다.
데이터 부족 현상: 비전통적인 접근 방식을 이끌어내는 요인
치열한 데이터 수집 경쟁은 데이터의 핵심적인 위치를 부각하고 인공지능 기술 개발에 있어 데이터의 중요성을dent합니다. 인공지능에 언어를 학습시키기 위해서는 점점 더 많은 훈련 데이터 세트가 필요하며, 여기에는 위키피디아나 레딧과 같은 기존 데이터 소스 외부에서 가져온 데이터까지 포함됩니다. 특히 전통적인 데이터 저장소와 같은 일반적인 데이터 소스에 접근하기 어려운 기술 기업들에게 있어, 인공지능 기반 모델 개발은 충분히 매력적인 대안이 될 수 있습니다.
기술 기업들은 AI 학습에 데이터 수집이 필수적이라고 주장하지만, 동일한 과정이 법적으로 문제가 되는 것은 아닙니다. 오픈AI 와 마이크로소프트는 저작권 자료를 불법적으로 사용했다는 혐의에 대해 승소했지만, 자신들의 행위는 공정 사용 원칙에 부합한다고 주장했습니다. 최근 미국 저작권청에 제출된 저작권자 등록 신청 건수가 1만 건을 넘어섰는데, 이는 AI 시대의 저작권법이 독특하고 새롭게 변화하고 있음을 분명히 보여줍니다. 결과적으로 주요 기업들은 AI 모델에 허가된 용도가 없다는 명목으로 수많은 저작물을 침해할 위험에 항상 직면하고 있습니다.
대규모 데이터 세트의 필요성
전반적으로, 카이판 드 자레드의 연구는 인공지능 개발에 있어 의도치 않게 엄청난 성과를 거두었습니다. 데이터 기반 콘텐츠는 인공지능 학습 과정에 필요한 구성 요소 중 하나이지만, 제대로 학습되고 효율적으로 작동하는 모델 없이는 제대로 기능할 수 없습니다. 인공지능 기술의 발전과 함께 시장에서 성공하기 위한 데이터의 수요가 급증하면서 기업들은 법률, 윤리, 개인정보 보호와 관련된 문제에 직면하고 있습니다. 따라서 인공지능 알고리즘은 시장에서 성공하기 위해 이러한 데이터 세트를 활용해야 합니다.
VIP의 데이터 수집 행태는 AI 기술 향상을 위해 변형되고 있으며, 기존의 방법론적 원칙은 퇴색되고 있습니다. 유튜브 강연을 통해서든, 합성 데이터 생성 도구를 통해서든, 이 기업들은 법, 윤리, 그리고 개인정보 보호 문제의 진정한 본질을 규명하기 위한 사명을 띠고 있습니다.
나중에 바다 위에서 웃음거리가 될 수도 있습니다. 혁신 과정을 추진하는 데 필요한 방대한 데이터 세트가 등장함에 따라, 사회 지도자들은 혁신 노력과 지적 재산권 및 사생활 보호라는 윤리적 원칙 사이의 균형을 유지하는 규칙과 기준을 개발하기 위한 건설적인 대화에 적극적으로 참여해야 합니다.
원문 출처: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
멘토링과 매일 새로운 아이디어로 전략을 더욱 정교하게 다듬으세요 - 저희 트레이딩 프로그램

