La collection Qwen 3 inclut huit modèles, dont six denses (600 millions, 1,7, 4, 8, 14 et 32 milliards de paramètres), et deux modèles Mixture of Experts (MoE). Les modèles MoE font respectivement 30 milliards (dont trois actifs) et 235 milliards de paramètres (dont 22 actifs). Les plus petits modèles (0,6, 1,7, 4B) disposent d’une fenêtre de contexte de 32 000 tokens, tandis que les autres LLM sont dotés du mécanisme YaRN, ce qui permet d’atteindre 128 000 tokens. Il faut toutefois modifier le fichier de configuration JSON associé au LLM pour en profiter avec vLLM ou Slang.
Huit modèles, deux fleurons
Le fournisseur dit vouloir proposer des modèles pour tous les équipements, du pc portable (2 à 16 Go de RAM), en passant par la station de travail (RTX 4090 24 Go de VRAM, RTX 5090, 32 Go de VRAM) et le GPU data centers moyen de gamme (L40S – 48 Go de VRAM) jusqu’au serveur équipé de quatre GPU Nvidia H100 (minimum).
Dans un même temps, Alibaba Cloud prend le même chemin qu’Anthropic, Google et IBM en proposant ses « premiers » modèles de raisonnement hybrides. Ces LLM incluent un mécanisme pour activer le mode « pensée » et ont été entraînés sur 119 langues, langages de programmation et dialectes.
En ce sens, le fournisseur met surtout en avant Qwen 3-235B-A22B et Qwen 3-32B dont les performances égaleraient ou surpasseraient OpenAI o1, o3-mini, Deepseek R1, Grok 3 beta, et Gemini 2.5 Pro. Qwen 3-30B-A3B est placé face à GPT-4o, Gemma 3-27B et DeepSeek V3. Les scores très élevés semblent indiquer une forme de « bourrage » des évaluations.
« Ce qui est étonnant, c’est que le modèle épars Qwen3-30B-A3B est à égalité avec le modèle dense Qwen3-32B », écrit Niels Rogge, ingénieur logiciel chez ML6 et ancien d’Hugging Face, sur LinkedIn. « Cela signifie que vous pouvez obtenir les performances d’un modèle 32B avec la vitesse d’inférence d’un modèle qui active seulement 3 milliards de paramètres ».
Pour ce faire, Alibaba Cloud aurait eu recours à 36 000 milliards de tokens, tandis qu’il a entraîné Qwen 2.5 sur 18 000 milliards de tokens. Outre un plus grand volume de contenus extraits du Web, les chercheurs d’Alibaba Cloud expliquent avoir constitué des jeux de données PDF. Ceux-là ont été traités par le LLM multimodal Qwen 2.5 VL. Pour l’apprentissage du code et des mathématiques, le fournisseur chinois a utilisé des données synthétiques générées par les modèles Qwen 2.5 Coder et Math.
Pour Qwen 3 235B-A22B et Qwen 3-32B, Alibaba Cloud évoque trois étapes de pré-entraînement. La première constituait à entraîner le plus gros modèle sur plus de 30 000 milliards de tokens avec une fenêtre de contexte de 4 000 tokens. Celle-ci se concentre sur les connaissances générales en langue et en culture. La deuxième phase était consacrée aux tâches de raisonnement, les sciences dures et la programmation, en ajoutant 5 000 milliards de tokens. « Dans l’étape finale, nous avons utilisé des données de contexte long de haute qualité pour étendre la longueur du contexte à 32 000 tokens. Cela garantit que le modèle peut traiter efficacement des entrées plus longues », ajoutent les chercheurs.
Alibaba Cloud reprend la méthodologie de DeepSeek
Lors du post-entraînement, comme la plupart des fournisseurs de LLM, Alibaba Cloud a repris la méthodologie de DeepSeek en utilisant de longs prompts de chain of tought, un « départ à froid » à l’aide de règles. Le modèle « checkpoint » ainsi obtenu a été utilisé pour générer des cheminements de pensée et des instructions longues, utilisés pour entraîner le checkpoint de la phase suivante. Il s’agissait de rendre disponible le mode hybride (instruction classique ou raisonnement). « Enfin, lors de la quatrième et dernière phase, nous avons appliqué un apprentissage par renforcement à plus de 20 tâches générales », dont le suivi d’instruction, de formats et les fonctions agentiques.
Les deux modèles « frontières » ont servi ensuite à distiller leurs connaissances pour les six autres plus légers. Alibaba Cloud dit également avoir effectué plusieurs modifications d’architectures, mais n’en précise pas la nature. Les tests effectués par les internautes tendent à prouver que le fournisseur a fourni un effort sur la vitesse de réponses de ses LLM. Une démonstration du plus petit modèle laisse à penser qu’il peut produire aux alentours des 40/50 tokens à la seconde sur un SoC Apple M1.
Comme ses concurrents, le fournisseur cloud met en avant sa prise en charge des scénarios agentiques. Ainsi, il dit avoir amélioré la prise en charge de Model Context Protocol (MCP), le framework agentique proposé par Anthropic.
L’entreprise chinoise n’éviterait pas les hallucinations ou un certain manque de connaissances concernant des informations locales, note un utilisateur allemand. L’opacité concernant les données utilisées lors de l’entraînement peut aussi dissuader certaines entreprises d’utiliser ces modèles, même localement. Par exemple, Capgemini avait interdit l’usage de DeepSeek R1 et V3.
Plus de détails sur l’article original.