Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et du contenu exclusif sur la couverture de l’IA de pointe. apprendre encore plus
La startup chinoise d’IA DeepSeek, connue pour défier les principaux fournisseurs d’IA avec ses technologies open source innovantes, a publié aujourd’hui un nouveau modèle ultra-large : DeepSeek-V3.
Disponible via visage étreignant Dans le cadre de l’accord de licence de la société, le nouveau modèle est livré avec les paramètres 671B mais utilise une architecture de mélange experte pour activer uniquement certains paramètres afin de gérer des tâches données avec précision et efficacité. Selon les références partagées par DeepSeek, cette offre est déjà en tête des classements, surpassant les principaux modèles open source, notamment Llama 3.1-405b de Meta, et dépassant considérablement les performances des modèles fermés d’Anthropic et d’OpenAI.
Cette version marque un autre développement majeur comblant le fossé entre l’IA fermée et open source. Enfin, DeepSeek, qui a commencé comme une émanation d’un hedge fund quantitatif chinois Gestion du capital de haut volOn espère que ces développements ouvriront la voie à l’intelligence artificielle générale (AGI), où les modèles auront la capacité de comprendre ou d’apprendre n’importe quelle tâche intellectuelle qu’un humain peut accomplir.
Qu’apporte DeepSeek-V3 ?
Comme son prédécesseur DeepSeek-V2, le nouveau modèle ultra-large utilise la même architecture de base qui s’articule autour de Attention latente multi-têtes (MLA) Et deepsikmoiCette approche garantit le maintien d’une formation et d’une inférence efficaces – avec des « experts » spécialisés et partagés (des réseaux de neurones individuels plus petits au sein d’un modèle plus large) activant 37B des 671B paramètres pour chaque jeton.
Bien que l’architecture de base garantisse de solides performances pour DeepSeek-V3, la société a également introduit deux innovations pour placer la barre encore plus haut.
La première est une stratégie d’équilibrage de charge auxiliaire sans perte. Il surveille et ajuste dynamiquement la charge des experts pour les utiliser de manière équilibrée sans compromettre les performances globales du modèle. La seconde est la prédiction multi-jetons (MTP), qui permet au modèle de prédire simultanément plusieurs futurs jetons. Cette innovation augmente non seulement l’efficacité de la formation, mais permet également au modèle de fonctionner trois fois plus rapidement, générant jusqu’à 60 jetons par seconde.
« Au cours de la pré-formation, nous avons formé DeepSeek-V3 sur 14,8 tonnes de jetons diversifiés et de haute qualité… Ensuite, nous avons procédé à une expansion de la longueur de référence en deux étapes pour DeepSeek-V3 », a écrit la société dans un communiqué. document technique Détails du nouveau modèle. «Dans la première étape, la longueur de référence maximale est augmentée à 32K, et dans la deuxième étape, elle est augmentée à 128K. Ensuite, nous avons effectué une post-formation, y compris un réglage fin supervisé (SFT) et un apprentissage par renforcement (RL) sur le modèle de base de DeepSeq-V3 pour l’aligner sur les préférences humaines et libérer davantage son potentiel. Au cours de la phase post-formation, nous développons la capacité de raisonnement des modèles de la série DeepSeekR1, tout en maintenant soigneusement l’équilibre entre la précision du modèle et la durée de génération.
Plus précisément, pendant la phase de formation, DeepSeek a utilisé plusieurs optimisations matérielles et algorithmiques, notamment le cadre de formation de précision mixte FP8 et l’algorithme DualPipe pour le parallélisme des pipelines, afin de réduire le coût du processus.
Dans l’ensemble, il affirme que l’intégralité de la formation de DeepSeek-V3 est réalisée en environ 2 788 000 heures GPU H800, soit environ 5,57 millions de dollars, en supposant un prix de location de 2 dollars par heure GPU. C’est bien moins que les millions de dollars généralement dépensés pour la pré-formation de grands modèles de langage.
Par exemple, on estime que Llama-3.1 a été formé avec un investissement de plus de 500 millions de dollars.
Le modèle open source le plus robuste actuellement disponible
Malgré une formation rentable, DeepSeek-V3 est devenu le modèle open source le plus robuste du marché.
La société a effectué plusieurs tests pour comparer les performances de l’IA et a noté qu’elle surpassait les principaux modèles open source, notamment Llama-3.1-405b et Quen 2.5-72b. Il a également surpassé le GPT-4o à source fermée sur la plupart des benchmarks, à l’exception de SimpleQA et FRAMES, axés sur l’anglais, où le modèle OpenAI est arrivé en tête avec des scores de 38,2 et 80,5 (contre 24,9 et 73,3, respectivement).
En particulier, les performances de DeepSeek-v3 se sont particulièrement démarquées dans les tests de référence axés sur le chinois et les mathématiques, obtenant de meilleurs résultats que tous ses pairs. Au test Math-500, son score était de 90,2, le score de 80 de Quain étant le deuxième meilleur.
Le seul modèle qui a réussi à défier DeepSeq-v3 était le Cloud 3.5 Sonnet d’Anthropic, qui l’a surpassé avec des scores plus élevés dans MMLU-Pro, IF-Eval, GPQA-Diamond, SWE Verified et Adder-Edit.
🚀 Introducing DeepSeek-V3!
— DeepSeek (@deepseek_ai) December 26, 2024
Biggest leap forward yet:
⚡ 60 tokens/second (3x faster than V2!)
💪 Enhanced capabilities
🛠 API compatibility intact
🌍 Fully open-source models & papers
🐋 1/n pic.twitter.com/p1dV9gJ2Sd
Les travaux montrent que l’open source se rapproche des modèles fermés, promettant des performances presque identiques pour différentes tâches. Le développement de tels systèmes est extrêmement bénéfique pour l’industrie car il élimine potentiellement la possibilité qu’un grand acteur de l’IA dirige le jeu. Il offre également aux entreprises de nombreuses options parmi lesquelles choisir et avec lesquelles travailler lors de l’organisation de leur pile.
Actuellement, le code de DeepSeek-V3 est disponible GitHub sous la licence MIT, tandis que le modèle est fourni sous la licence de modèle de l’entreprise. Les entreprises peuvent également tester de nouveaux modèles discussion en recherche profondeUne plateforme comme ChatGPT, et un accès à l’API pour un usage professionnel. Fournir l’API DeepSeek Même prix que DeepSeek-V2 Jusqu’au 8 février. Après cela, il facturera 0,27 $/million de jetons d’entrée (avec un impact en espèces de 0,07 $/million de jetons) et 1,10 $/million de jetons de sortie.
Source link