최신 뉴스
당신을 위해 엄선되었습니다
주간
최고 자리를 유지하세요

최고의 암호화폐 관련 정보를 이메일로 받아보세요.

구글과 하버드 대학교가 인공지능 학습을 위한 100만 권의 공개 도서 데이터셋을 공개했습니다

에나에나시 마파카메시 마파카메 지음
읽는 데 2분 소요
  • 이 이니셔티브를 통해 AI 회사는 모델을 훈련하는 데 필요한 정보에 더 쉽게 접근할 수 있게 됩니다.
  • OpenAI와 Microsoft가 하버드 프로젝트에 자금을 지원했습니다.
  • 약 100만 권에 달하는 책은 여러 장르에 걸쳐 있으며, Google 도서 프로그램의 일환으로 스캔되었습니다.

하버드 대학은 구글과 협력하여 차세대 AI를 훈련하기 위해 퍼블릭 도메인 도서 100만 권으로 구성된 데이터 세트를 공개했습니다.

이 책들은 디킨스, 단테, 셰익스피어처럼 오래된 작품으로 인해 더 이상 저작권 보호를 받지 못하는 작가, 언어, 장르를 아우릅니다. AI 학습 데이터는 당연히 가격이 비싸고 자금력이 풍부한 기술 기업에 가장 적합하기 때문에 새로운 데이터 세트 이니셔티브가 도입되었습니다.

하버드, 거대 기술 기업으로부터 재정 지원 받아

테크크런치 기사에 따르면, 이 프로젝트는 하버드 대학교의 기관 데이터 이니셔티브(IDI)가 주도하고 있습니다. 이 프로젝트에는 구글의 오랜 도서 스캔 프로젝트인 구글 북스.

데이터 세트에 포함된 다른 책으로는 체코어 수학 교과서와 웨일스어 휴대용 사전이 있습니다.

이 대학은 지난 3월 IDI를 공개하며 "AI를 위한 신뢰할 수 있는 법률 데이터 전달망"을 구축하겠다는 계획을 분명히 밝혔습니다. 그 이후로는 목요일 공식 출범하고 기술 대기업인 마이크로소프트와 오픈AI가 자금을 지원하기 전까지 별다른 소식이 없었습니다.

이 데이터 세트는 실리콘 밸리만의 전유물이 아니며, IDI는 연구실부터 대규모 언어 모델을 훈련하고자 하는 AI 스타트업까지 누구에게나 공개했습니다.

데이터 세트를 누구에게나 공개함으로써, 트는 AI를 훈련하는 비용이 여전히 높고 소규모 기업이 감당하기 어려워 막대한 예산을 가진 기업만이 이를 이용할 수 있는 상황에서, 경쟁의 장을 균등하게 만들기 위한 것이라고 말했습니다.

에 따르면 이는 푸질라 아마도 바드가 정말로 사라졌는지, 더 이상 문제가 되지 않는지 누군가가 확인했다는 의미일 것이다.

하버드 데이터 세트에는 더 많은 리소스가 필요합니다.

이 데이터셋의 잠재력을 오픈소스 운영체제인 리눅스에 비유한 레퍼트에 따르면, 하버드 데이터셋의 성공은 여러 변수에 달려 있습니다. 레퍼트는 이 성공에는 더 많은 자원, 전문 지식, 그리고 이 이니셔티브의 도전 과제인 자금력이 풍부한 기업들의 "약간의 마법"이 필요할 것이라고 말했습니다.

데이터 세트에 포함된 백만 권의 책은 구글 북스 프로그램의 일환으로 스캔되었습니다. 퍼질라는 이 프로젝트를 구글이 모든 책을 스캔하겠다는 야망이 디스토피아적이기보다는 기발해 보였던 시절의 디지털 타임캡슐이라고 설명합니다.

그러나 레퍼트는 이 프로젝트의 잠재적 활용 가능성에 대해 낙관적이며, 차고 스타트업부터 대기업에 이르기까지 모든 사람을 위한 AI 모델을 훈련하는 데 도움이 되는 귀중한 보물 창고가 될 수 있다고 제안했습니다.

일부에서는 이 이니셔티브를 AI 민주화의 혁명적 도약으로 칭찬했지만, Fudzilla는 일부에서는 이를 몇 테라바이트의 서버 공간을 가진 야심찬 신생 기업이 이제 차세대 ChatGPT 개발 경쟁에서 경쟁할 수 있도록 하는 미묘한 수단으로 볼 수도 있다고 생각합니다.

하지만 경쟁에서 우위를 점하고 시장 dent 높이려면 더 많은 자원이 필요할 것입니다. ChatGPT는 2022년 11월 출시 직후 큰 성공을 거두며 전 세계적으로 생성 AI 모델 경쟁에 불을 지폈습니다. 그러나 이러한 모델 개발은 모델을 완벽하게 만들기 위한 데이터에 대한 갈증을 불러일으켰고, 이러한 더 많은 데이터에 대한 갈망은 데이터를 훔치지 않고 얼마나 많은 정보를 확보할 수 있는지에 대한 문제를 야기했습니다.

지금까지 월스트리트 저널과 뉴욕 타임스 같은 출판사들은 고소 허가 없이 데이터를 사용했다며 OpenAI와 Perplexity를

암호화폐 분야의 최고 전문가들이 이미 저희 뉴스레터를 구독하고 있습니다. 함께하고 싶으신가요? 지금 바로 참여하세요.

이 기사를 공유하세요

면책 조항: 제공된 정보는 투자 조언이 아닙니다. Cryptopolitan이 페이지에 제공된 정보를 바탕으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다.tron권장합니다dent .

에나시 마파카메

에나시 마파카메

에나시 마파카메는 10년 이상 비즈니스 및 금융 뉴스 분야에서 경력을 쌓은 기자입니다. 자본 시장과 메타버스, 인공지능, 암호화폐 등 신흥 기술을 취재합니다. 에나시는 미디어 및 사회학 학사 학위(우등)를 소지하고 있습니다.

더 많은 뉴스
심층 암호
화폐 속성 강좌