Apple a franchi une étape importante vers l'intégration de l'IA générative sur iPhone en introduisant une méthode révolutionnaire pour contourner les limitations de RAM des appareils mobiles. Les grands modèles de langage (LLM), tels que ChatGPT-4 d'OpenAI, sont réputés pour leurs exigences de calcul considérables, nécessitant généralement des serveurs puissants pour leur traitement. Cependant, Gemini AI de Google, conçu pour rivaliser avec GPT-4, propose une variante « Nano » optimisée pour les smartphones. Cette adaptation utilise des techniques de quantification pour réduire le nombre de paramètres du modèle à 1,8 milliard ou 3,6 milliards. Actuellement, l'une de ces variantes Nano équipe les smartphones Pixel 8 Pro de Google, disponibles au prix réduit de 799 $ sur Amazon.
Bien que les efforts de Google avec Gemini Nano constituent une avancée significative, Qualcomm affirme que son nouveau SoC Snapdragon 8 Gen 3 peut prendre en charge des modèles linéaires logiques (LLM) d'IA générative comportant jusqu'à 10 milliards de paramètres. Si cela surpasse les capacités de Google, cela reste bien en deçà des 1 700 milliards de paramètres nécessaires au fonctionnement optimal de GPT-4. La quantification, bien qu'elle facilite le traitement sur les SoC mobiles, sacrifie inévitablement la précision et l'efficacité. Par conséquent, la capacité à gérer des LLM plus importants sur les appareils mobiles devient essentielle pour améliorer leurs performances.
La solution ingénieuse d'Apple
L'un des principaux obstacles au déploiement de l'IA générative sur smartphones réside dans les exigences considérables en matière de RAM. Par exemple, un modèle LLM réduit à 8 bits par paramètre avec 7 milliards de paramètres, tel que Llama 2 de Meta pris en charge par le Snapdragon 8 Gen 3, nécessiterait un smartphone doté d'au moins 7 Go de RAM. La gamme iPhone 15 Pro d'Apple dispose de 8 Go de RAM, ce qui signifie qu'un modèle LLM développé par Apple, comme Llama 2, atteindrait les limites des capacités actuelles des iPhone. Pour pallier cette limitation de RAM, les chercheurs d'Apple ont mis au point une approche novatrice.
Augmentation du stockage flash
Dans un article de recherche intitulé « LLM en un éclair : Inférence efficace de grands modèles de langage avec une mémoire limitée », les chercheurs d'Apple spécialisés en IA générative présentent une méthode qui exploite le stockage flash de l'iPhone pour compléter la mémoire vive (RAM) système intégrée. Bien que la bande passante du stockage flash soit inférieure à celle de la RAM mobile LDDR5/X, les chercheurs d'Apple ont ingénieusement contourné cette limitation. Leur méthode combine le « fenêtrage », qui permet au modèle d'IA de réutiliser des données précédemment traitées et stockées sur le stockage flash, avec le « regroupement lignes-colonnes », une technique qui organise de manière optimale les données du LLM pour des vitesses de lecture plus rapides.
Perspectives d'avenir pour l'IA générative sur iPhone
Bien qu'Apple n'ait pas encore dévoilé de produit basé sur la technologie LLM, des rumeurs évoquent l'arrivée imminente d'une Siri plus intelligente, elle aussi basée sur LLM, qui devrait être lancée avec iOS 18 et fonctionner sur les nouveaux modèles d'iPhone 16 Pro. Le cas échéant, Apple sera en mesure d'utiliser sa méthode innovante d'extension de la RAM pour proposer un modèle LLM doté du nombre maximal de paramètres compatibles avec une exécution sur l'appareil.
Le paysage de l'IA générative en 2024
Alors que l'industrie technologique poursuit sans relâche ses efforts pour faire progresser l'intelligence artificielle générative (IAG), 2024 semble être l'année où l'IAG deviendra une fonctionnalité courante sur les smartphones. Samsung, acteur majeur dans ce domaine, se prépare à dévoiler ses offres d'IAG améliorées avec le lancement de la série Galaxy S24 le mois prochain. Grâce à la méthode innovante d'Apple pour augmenter la mémoire vive et aux développements à venir de Samsung, les consommateurs peuvent s'attendre à une transformation considérable des capacités et des performances des fonctionnalités basées sur l'IA sur leurs appareils mobiles.
L'approche novatrice d'Apple pour surmonter les limitations de la RAM et faciliter l'exécution sur l'appareil de modèles de langage complexes représente une avancée majeure vers l'intégration de l'IA générative sur iPhone. Face à une concurrence accrue, notamment avec les progrès réalisés par les puces Gemini Nano de Google et Snapdragon 8 Gen 3 de Qualcomm, l'année 2024 s'annonce comme un tournant décisif pour l'intégration de l'IA générative dans l'expérience utilisateur quotidienne des smartphones.

