아이폰에 생성형 AI를 구현하는 데 있어 중요한 진전으로, 애플 연구진은 모바일 기기의 RAM 제한을 극복하는 획기적인 방법을 개발했습니다. 오픈AI의 ChatGPT-4와 같은 대규모 언어 모델(LLM)은 막대한 연산 능력을 요구하기 때문에 일반적으로 강력한 서버를 필요로 합니다. 하지만 GPT-4에 대항하기 위해 개발된 구글의 최신 Gemini AI는 스마트폰에 최적화된 '나노' 버전을 제공합니다. 이 나노 버전은 양자화 기술을 사용하여 모델의 매개변수를 18억 또는 36억으로 줄였습니다. 현재 이 나노 버전 중 하나가 구글 픽셀 8 프로 스마트폰에 탑재되어 있으며, 아마존에서 799달러에 할인 판매 중입니다.
구글의 제미니 나노 개발은 중요한 진전이지만, 퀄컴은 자사의 새로운 스냅드래곤 8 3세대 SoC가 최대 100억 개의 파라미터를 가진 생성형 AI LLM을 지원할 수 있다고 주장합니다. 이는 구글의 역량을 뛰어넘는 것이지만, GPT-4가 최적의 성능을 발휘하는 데 필요한 1조 7천억 개의 파라미터에는 여전히 크게 못 미칩니다. 양자화는 모바일 SoC에서의 처리 속도를 향상시키지만, 필연적으로 정확성과 효율성을 저하시킵니다. 따라서 모바일 기기에서 더 큰 규모의 LLM을 처리할 수 있는 능력은 성능 향상에 매우 중요합니다.
애플의 기발한 해결책
스마트폰에서 생성형 AI를 구현하는 데 있어 가장 큰 장애물 중 하나는 상당한 RAM 요구량입니다. 예를 들어, 스냅드래곤 8 3세대에서 지원되는 Meta의 Llama 2처럼 70억 개의 파라미터를 가진 파라미터당 8비트로 축소된 LLM 모델은 최소 7GB의 RAM을 탑재한 스마트폰을 필요로 합니다. 애플의 아이폰 15 Pro 시리즈는 8GB의 RAM을 자랑하는데, 이는 Llama 2와 같은 애플이 개발한 LLM이 현재 아이폰의 성능 한계에 근접할 것임을 시사합니다. 이러한 RAM 제한을 극복하기 위해 애플 연구진은 새로운 접근 방식을 고안했습니다.
플래시 스토리지 증강
"LLM을 순식간에 처리: 제한된 메모리로 효율적인 대규모 언어 모델 추론"이라는 제목의 연구 논문에서 애플의 생성형 AI 연구원들은 아이폰의 플래시 스토리지를 활용하여 기기의 내장 시스템 RAM을 보완하는 방법을 소개합니다. 플래시 스토리지의 대역폭은 LDDR5/X 모바일 RAM에 미치지 못하지만, 애플 연구원들은 이러한 내재적인 한계를 독창적으로 극복했습니다. 그들의 방법은 AI 모델이 플래시 스토리지에 저장된 이전에 처리된 데이터를 재사용할 수 있도록 하는 "윈도잉" 기법과, 읽기 속도를 높이기 위해 LLM 데이터를 최적으로 구성하는 "행-열 번들링" 기법을 결합한 것입니다.
아이폰에서 생성형 인공지능의 미래 전망
애플은 아직 LLM 기반 제품을 공개하지 않았지만, iOS 18과 함께 출시되어 차세대 아이폰 16 Pro 모델에 탑재될 예정인 LLM 기반의 더욱 스마트해진 Siri에 대한 소문이 돌고 있습니다. 이러한 제품이 실제로 출시된다면, 애플은 혁신적인 RAM 확장 방식을 활용하여 기기 내 실행에 가능한 최대 매개변수 수를 갖춘 LLM 모델을 구현할 수 있는 유리한 위치에 놓이게 될 것입니다.
2024년 생성형 AI의 전망
기술 업계가 생성형 AI 기능을 발전시키기 위해 끊임없이 노력함에 따라, 2024년은 생성형 AI가 스마트폰의 일반적인 기능이 되는 해가 될 것으로 예상됩니다. 이 분야의 강력한 플레이어인 삼성은 다음 달 출시될 갤럭시 S24 시리즈를 통해 향상된 생성형 AI 기능을 선보일 준비를 하고 있습니다. 애플의 혁신적인 RAM 증강 방식과 삼성의 향후 개발을 통해 소비자들은 모바일 기기에서 AI 기반 기능의 성능과 기능이 크게 향상될 것으로 기대할 수 있습니다.
애플이 RAM 용량 제한을 극복하고 대규모 언어 모델을 기기 내에서 실행할 수 있도록 한 선구적인 접근 방식은 아이폰에서 생성형 AI를 현실로 만드는 데 중요한 진전을 의미합니다. 구글의 제미니 나노와 퀄컴의 스냅드래곤 8 3세대 등 경쟁이 심화되는 가운데, 2024년은 생성형 AI가 일상적인 스마트폰 경험에 통합되는 데 있어 전환점이 될 것으로 예상됩니다.

