메타에 따르면 멀티 토큰 예측은 AI 모델 속도를 3배 향상시킵니다

- 메타 분석가들의 연구에 따르면 다중 토큰 예측은 LLM의 성능을 향상시킬 수 있습니다.
- 이 기술은 여러 개의 출력 헤드를 사용하여 동시에 예측을 수행하는 것을 포함합니다.
- 이 과정은 동일한 기본 추론 아키텍처를 사용하므로 메모리나 시간 측면에서 추가적인 비용이 발생하지 않습니다.
Meta의 연구원들은 언어 모델을 훈련시켜 여러 토큰을 한 번에 예측하도록 하면 샘플 효율성이 향상된다고 밝혔습니다.
Llama나 ChatGPT 같은 대규모 언어 모델은 보통 다음 토큰 예측을 위해 학습되지만, 이 새로운 접근 방식을 사용하면 더 나은 성능을 얻을 수 있습니다.
단일 토큰 예측 기법이란 무엇인가요?
다중 토큰 예측 기법은 생성형 작업보다 최대 3배 빠른 속도를 제공하여 일부 시나리오에서 상당한 이점을 제공하지만, 모든 유형의 모델에 적용 가능한 만능 해결책은 아닙니다. 이 기법은 개선의 여지가 많으며, 일부 LLM(로지스틱 회귀 모델) 응용 분야에서는 강력한 도구가 될 수 있습니다.
보다 명확하게 설명하자면, 전통적인 LLM 학습 과정은 "다음 토큰 예측"이라는 접근 방식을 사용하며, 이 방식에서 모델은 주어진 시퀀스에서 바로 다음에 올 토큰 하나만 예측합니다.
자동화된 프로세스에서 예측된 토큰은 입력에 추가되고, 이 과정은 제공된 전체 텍스트 입력에 대해 반복적으로 수행되어 모델이 일반적인 패턴을 학습하고 논리적이고 일관된 텍스트로 구성된 출력을 생성하는 능력을 개발합니다.
이 기법에는 몇 가지 단점이 있는데, 바로 다음 토큰만 처리하기 때문에 모델이 텍스트의 국소적인 패턴에 지나치게 집중하게 되고 추론을 통해서만 가능한 예측을 무시하게 된다는 점입니다.
이 기술의 또 다른 문제점은 인간이 아주 적은 양의 텍스트로도 정상적인 언어 출력 흐름을 만들어낼 수 있는 수준에 도달하려면 엄청난 양의 데이터셋을 모델에 입력해야 한다는 점입니다.
다중 토큰 예측을 통해 3배 빠른 속도 구현

Meta 가 제안한 새로운 멀티 토큰 접근 방식에서는 LLM이 학습 과정에서 서로 다른 위치의 여러 토큰을 동시에 예측하도록 지시됩니다. 연구진은 시간 및 메모리 처리와 같은 추가 리소스를 필요로 하지 않는 간단한 예측 아키텍처를 멀티 토큰 예측에 사용했습니다.
연구원들은 대부분의 LLM에서 이미 사용되고 있는 것과 동일한 Transformer 아키텍처를 사용했지만, 출력 헤드를 단일에서 다중으로 늘리고 각 토큰에 하나씩 할당하여 다중 토큰 예측을 수용하도록 일부 변경을 가했습니다.
이러한 방식으로, 결론을 도출하고 예측을 하기 위해 모델은 동일한 기본 예측 전략을 사용하지만, 여러 개의 헤드를 활용하여 프로세스 속도를 높일 수 있다고 연구 논문은 밝힌다
"비용이 들지 않고 간단한 다중 토큰 예측은 더tron하고 빠른 트랜스포머 모델을 학습시키는 데 효과적인 수정 사항입니다."
출처: 메타.
연구진은 연구 과정에서 해당 기법을 작은 모델에 적용했을 때는 만족스럽지 못한 결과를 얻었지만, 더 큰 모델에 적용했을 때는 평균 이상의 결과를 얻었고, 모델 크기가 커질수록 결과가 계속 향상되는 것을 발견했습니다. 연구 보고서에 따르면,
"이 방법은 모델 규모가 커질수록 점점 더 유용해지며, 여러 에포크 동안 학습할 때도 그 매력을 유지합니다. 특히 코딩과 같은 생성형 벤치마크에서 성능이 두드러지게 향상되며, 저희 모델은tron기준 모델보다 일관되게 몇 퍼센트 포인트 높은 성능을 보여줍니다."
출처: 메타.
연구진은 또한 다중 토큰 예측 기법을 통해 모델이 논리적 결과를 도출하는 속도가 세 배 빨라졌으며, 이는 추가 비용이 거의 또는 전혀 들지 않는다는 장점과 함께 유용하다고 밝혔습니다.
이 글을 읽고 계시다면 이미 앞서 나가고 계신 겁니다. 뉴스레터를 구독하시면 더욱 유익한 정보를 받아보실 수 있습니다.
면책 조항: 제공된 정보는 투자 조언이 아닙니다. Cryptopolitan이 페이지에 제공된 정보를 바탕으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다.tron권장합니다dent .

아미르 셰이크
아미르는 암호화폐 및 기술 업계에서 약 6년의 경력을 쌓은 기술 전문 기자입니다. MAJ 대학교에서 재무 및 마케팅 MBA 학위를 취득했으며, 현재 Cryptopolitan에서 암호화폐 시장의 최신 동향과 가격 예측을 보도하고 있습니다.
화폐 속성 강좌
- 어떤 암호화폐로 돈을 벌 수 있을까요?
- 지갑으로 보안을 강화하는 방법 (그리고 실제로 사용할 만한 지갑은 무엇일까요?)
- 전문가들이 사용하는 잘 알려지지 않은 투자 전략
- 암호화폐 투자 시작하는 방법 (어떤 거래소를 사용해야 하는지, 어떤 암호화폐를 사는 것이 가장 좋은지 등)















