Google Research et DeepMind viennent d’annoncer le lancement de VaultGemma, un modèle révolutionnaire qui marque une étape importante dans le développement d’intelligence artificielle protégeant la confidentialité des données. Ce nouveau modèle open-source devient le plus grand modèle de langage au monde entièrement entraîné avec la confidentialité différentielle.
Un modèle d’un milliard de paramètres conçu pour la confidentialité
VaultGemma présente des caractéristiques techniques particulières qui le distinguent des autres modèles de langage. Avec ses 1 milliard de paramètres et 26 couches, ce modèle utilise une architecture Decoder-only Transformers optimisée pour la formation privée. Sa configuration technique comprend des activations GeGLU avec une dimension feedforward de 13 824, un mécanisme Multi-Query Attention avec une portée globale de 1 024 tokens et une normalisation RMSNorm en configuration prénorme.
La longueur de séquence a été réduite à 1 024 tokens, une modification stratégique qui diminue les coûts de calcul et permet des tailles de lots plus importantes sous les contraintes de confidentialité différentielle. Le tokenizer SentencePiece utilise un vocabulaire de 256 000 tokens pour traiter efficacement le texte d’entrée.
La confidentialité différentielle appliquée à grande échelle
La confidentialité différentielle représente une technique mathématique robuste qui ajoute du bruit calibré pendant l’entraînement pour empêcher la mémorisation. VaultGemma utilise l’algorithme DP-SGD (Differentially Private Stochastic Gradient Descent) avec écrêtage de gradient et ajout de bruit gaussien.
L’implémentation s’appuie sur JAX Privacy avec des optimisations pour la scalabilité. Les innovations techniques comprennent l’écrêtage vectorisé par exemple pour l’efficacité parallèle, l’accumulation de gradients pour simuler de gros lots et l’échantillonnage de Poisson tronqué intégré dans le chargeur de données.
Le modèle atteint une garantie formelle de confidentialité différentielle de (ε ≤ 2.0, δ ≤ 1.1e-10) au niveau séquence. Cette garantie signifie qu’il devient statistiquement impossible de déterminer si une séquence particulière était présente dans les données d’entraînement.
Des lois d’échelle spécifiques aux modèles privés
L’équipe de recherche a développé de nouvelles lois d’échelle adaptées à l’entraînement avec confidentialité différentielle. Ces lois modélisent précisément les compromis entre budget de calcul, budget de confidentialité et utilité du modèle.
La recherche révèle qu’il faut entraîner un modèle beaucoup plus petit avec des tailles de lots beaucoup plus importantes que celles utilisées sans confidentialité différentielle. Cette approche optimise l’utilisation des ressources tout en maintenant de fortes garanties de confidentialité.
L’entraînement de VaultGemma sur 2 048 puces TPUv6e utilisant le partitionnement GSPMD et la compilation MegaScale XLA a validé ces lois d’échelle. Avec une taille de lot d’environ 518 000 tokens, 100 000 itérations d’entraînement et un multiplicateur de bruit de 0,614, la perte obtenue était à moins de 1% des prédictions des lois d’échelle.
Performances et comparaisons avec les modèles existants
Les évaluations montrent que VaultGemma maintient une utilité respectable malgré les contraintes de confidentialité. Sur les benchmarks académiques standards, le modèle obtient 26,45 sur ARC-C contre 38,31 pour Gemma-3 1B, 68,0 sur PIQA contre 70,51 pour GPT-2 1,5B et 11,24 sur TriviaQA contre 39,75 pour Gemma-3 1B.
Ces résultats suggèrent que les modèles entraînés avec confidentialité différentielle atteignent actuellement des performances comparables aux modèles non-privés d’il y a environ cinq ans. Cette comparaison illustre l’écart de performance actuel que la recherche future devra réduire systématiquement.
Les tests de mémorisation confirment l’efficacité de l’approche : VaultGemma ne présente aucune mémorisation détectable de ses données d’entraînement, contrairement aux modèles Gemma non-privés. Cette caractéristique prouve l’efficacité de l’entraînement avec confidentialité différentielle pour prévenir les fuites de données.
Données d’entraînement et préparation
VaultGemma a été entraîné sur le même jeu de données de 13 000 milliards de tokens que Gemma 2. Ce corpus se compose principalement de texte anglais provenant de documents web, de code et d’articles scientifiques.
Le jeu de données a subi plusieurs étapes de filtrage pour supprimer le contenu dangereux ou sensible, réduire l’exposition aux informations personnelles et prévenir la contamination des données d’évaluation. Ces mesures garantissent la sécurité et l’équité dans l’évaluation comparative.
Disponibilité et impact sur la communauté de recherche
Google met VaultGemma à disposition sur Hugging Face et Kaggle, accompagné d’un rapport technique détaillé. Cette publication vise à faire progresser le développement de la nouvelle génération d’IA privée.
Le modèle fournit à la communauté de recherche une base solide pour développer l’IA privée. L’approche démontre qu’il est possible d’entraîner des modèles de langage à grande échelle avec des garanties rigoureuses de confidentialité différentielle sans les rendre impraticables à utiliser.
VaultGemma représente un changement vers la construction de modèles non seulement capables mais aussi sûrs, transparents et respectueux de la vie privée par conception. Cette innovation ouvre la voie à une adoption plus large des techniques de préservation de la confidentialité dans le développement de l’IA.
L’écart d’utilité qui persiste entre les modèles entraînés avec et sans confidentialité différentielle peut être réduit systématiquement avec davantage de recherche sur la conception de mécanismes pour l’entraînement privé. VaultGemma et la recherche associée permettront à la communauté de construire la prochaine génération d’IA sûre, responsable et privée pour tous.