기술 대기업들이 AI의 데이터 수요를 충족시키기 위해 한계를 뛰어넘고 있다

By James Kinoti
최종 업데이트: 2024년 4월 6일 오후 12시 39분 (UTC)

읽는 데 3분 소요

507313

내용물

1. OpenAI의 위스퍼 프로젝트: 유튜브 대화 분석

2. 데이터 부족 현상: 비전통적인 접근 방식을 이끌어내는 요인

3. 대규모 데이터 세트의 필요성

공유 링크:

이 게시글 내용:

거대 기술 기업들이 인공지능 데이터 수집을 위해 논란이 되는 방법을 사용하고 있다.
OpenAI는 유튜브 동영상을 텍스트로 변환하고 있으며, 구글과 메타는 저작권이 있는 콘텐츠를 구매하는 것을 고려하고 있습니다.
인공지능이 방대한 데이터셋을 사용하는 것을 둘러싸고 법적, 윤리적 논쟁이 벌어지고 있다.

오픈AI 의 기업들이 AI에 투자하면서 산업계는 다양한 방식으로 막대한 양의 디지털 데이터를 수집 및 축적하고 있지만, 이는 여러 가지 논란의 여지가 있습니다. 자동화 능력과 역량이 증가하고 있다는 것은 분명합니다. 특히, 위에서 언급한 조치들(즉, 법적 한계와 기업 정책을 고려한 조치들)을 취하는 데 드는 노력은 AI 시스템 학습에 사용되는 상당한 양의 데이터와 맞먹는 수준입니다.

OpenAI의 위스퍼 프로젝트: 유튜브 대화 분석

저희의 위스퍼(Whisper) 이야기는 바로 작년에 시작되었습니다. 수준 높은 영어 텍스트가 턱없이 부족하여 교육 전달에 차질이 생기는 문제가 심각했습니다. 위스퍼는 구글이 이러한 문제를 해결하기 위해 개발한 차세대 솔루션입니다. 위스퍼는 유튜브의 방대한 대화 데이터를 분석하여 텍스트 음성 변환 애플리케이션으로 개발되었습니다. 이 AI 기반 도구는 100만 시간 이상의 유튜브 영상을 AI가 분석하여 새로운 텍스트(사실상 새로운 대화)를 생성하는 방식으로 만들어졌으며, 최첨단 AI 모델부터 최신 챗봇인 GPT-4에 이르기까지 다양한 AI 모델 학습에 활용되었습니다.

일부 직원들은 OpenAI가 마이크로소프트의 영상을 무분별하게 표절하는 것이라고 주장했지만, 표절의 윤리적 문제는 여전히 논란의 여지가 있었습니다. 또한 일부 직원들은 유튜브의 의도와 정확히 일치하는 것은 불가능하다고 인정했습니다. 마찬가지로, 알고리즘을 통해 영상에서 텍스트 콘텐츠를trac하여 AI 모델에 입력하는 방식에 대한 반발은 영상 제작자의 저작권을 침해하는 것으로 여겨져 큰 반발을 불러일으켰습니다.

관련 기사: 네트워크 오류 후 발생한 버그를 폴리곤 하드 포크로 수정

페이스북과 인스타그램의 모회사인 메타는 사이먼앤슈스터 등 출판사의 저작권이 있는 요소를 사용하는 것에 대해서도 우려를 표명했습니다. 동시에 일반 웹 콘텐츠 인수와 관련하여 저작권 침해 문제에 휘말릴 가능성에 대해서도 논의했습니다.

데이터 부족 현상: 비전통적인 접근 방식을 이끌어내는 요인

치열한 데이터 수집 경쟁은 데이터의 핵심적인 위치를 부각하고 인공지능 기술 개발에 있어 데이터의 중요성을dent합니다. 인공지능에 언어를 학습시키기 위해서는 점점 더 많은 훈련 데이터 세트가 필요하며, 여기에는 위키피디아나 레딧과 같은 기존 데이터 소스 외부에서 가져온 데이터까지 포함됩니다. 특히 전통적인 데이터 저장소와 같은 일반적인 데이터 소스에 접근하기 어려운 기술 기업들에게 있어, 인공지능 기반 모델 개발은 충분히 매력적인 대안이 될 수 있습니다.

기술 기업들은 AI 학습에 데이터 수집이 필수적이라고 주장하지만, 동일한 과정이 법적으로 문제가 되는 것은 아닙니다. 오픈AI 와 마이크로소프트는 저작권 자료를 불법적으로 사용했다는 혐의에 대해 승소했지만, 자신들의 행위는 공정 사용 원칙에 부합한다고 주장했습니다. 최근 미국 저작권청에 제출된 저작권자 등록 신청 건수가 1만 건을 넘어섰는데, 이는 AI 시대의 저작권법이 독특하고 새롭게 변화하고 있음을 분명히 보여줍니다. 결과적으로 주요 기업들은 AI 모델에 허가된 용도가 없다는 명목으로 수많은 저작물을 침해할 위험에 항상 직면하고 있습니다.

참고로 암호화폐 트레이더는 Sigmax.io 트레이딩 봇을 환영합니다.

대규모 데이터 세트의 필요성

전반적으로, 카이판 드 자레드의 연구는 인공지능 개발에 있어 의도치 않게 엄청난 성과를 거두었습니다. 데이터 기반 콘텐츠는 인공지능 학습 과정에 필요한 구성 요소 중 하나이지만, 제대로 학습되고 효율적으로 작동하는 모델 없이는 제대로 기능할 수 없습니다. 인공지능 기술의 발전과 함께 시장에서 성공하기 위한 데이터의 수요가 급증하면서 기업들은 법률, 윤리, 개인정보 보호와 관련된 문제에 직면하고 있습니다. 따라서 인공지능 알고리즘은 시장에서 성공하기 위해 이러한 데이터 세트를 활용해야 합니다.

VIP의 데이터 수집 행태는 AI 기술 향상을 위해 변형되고 있으며, 기존의 방법론적 원칙은 퇴색되고 있습니다. 유튜브 강연을 통해서든, 합성 데이터 생성 도구를 통해서든, 이 기업들은 법, 윤리, 그리고 개인정보 보호 문제의 진정한 본질을 규명하기 위한 사명을 띠고 있습니다.

나중에 바다 위에서 웃음거리가 될 수도 있습니다. 혁신 과정을 추진하는 데 필요한 방대한 데이터 세트가 등장함에 따라, 사회 지도자들은 혁신 노력과 지적 재산권 및 사생활 보호라는 윤리적 원칙 사이의 균형을 유지하는 규칙과 기준을 개발하기 위한 건설적인 대화에 적극적으로 참여해야 합니다.

원문 출처: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

멘토링과 매일 새로운 아이디어로 전략을 더욱 정교하게 다듬으세요 - 저희 트레이딩 프로그램

공유 링크:

면책 조항을 읽어보세요

면책 조항: 제공된 정보는 투자 조언이 아닙니다. Cryptopolitan 이 페이지에 제공된 정보를 바탕으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다. dent tron 권장합니다 .

가장 많이 읽은 글

암호화폐 뉴스 최신 정보를 받아보세요. 매일 업데이트되는 소식을 이메일로 받아보실 수 있습니다

에디터 추천

에디터 추천 기사를 불러오는 중...

기술 대기업들이 AI의 데이터 수요를 충족시키기 위해 한계를 뛰어넘고 있다

내용물

이 게시글 내용:

OpenAI의 위스퍼 프로젝트: 유튜브 대화 분석

데이터 부족 현상: 비전통적인 접근 방식을 이끌어내는 요인

대규모 데이터 세트의 필요성

공유 링크:

가장 많이 읽은 글

암호화폐 뉴스 최신 정보를 받아보세요. 매일 업데이트되는 소식을 이메일로 받아보실 수 있습니다

에디터 추천

가입하고 최신 소식을 받아보세요

시장은 빠르게 움직입니다.

우리는 더 빠르게 움직입니다.

뛰어드세요. 사실을 파악하세요.
앞서 나가세요.

기술 대기업들이 AI의 데이터 수요를 충족시키기 위해 한계를 뛰어넘고 있다

내용물

이 게시글 내용:

OpenAI의 위스퍼 프로젝트: 유튜브 대화 분석

데이터 부족 현상: 비전통적인 접근 방식을 이끌어내는 요인

대규모 데이터 세트의 필요성

공유 링크:

가장 많이 읽은 글

암호화폐 뉴스 최신 정보를 받아보세요. 매일 업데이트되는 소식을 이메일로 받아보실 수 있습니다

에디터 추천

가입하고 최신 소식을 받아보세요

팔로우하세요

- 당신을 앞서나가게 하는 암호화폐 뉴스레터 -

시장은 빠르게 움직입니다.

우리는 더 빠르게 움직입니다.

뛰어드세요. 사실을 파악하세요. 앞서 나가세요.

뛰어드세요. 사실을 파악하세요.
앞서 나가세요.