Pour les chercheurs

Documentation technique et données de validation

Cette section fournit l’ensemble des détails techniques sur la méthodologie et les tests de Veridi. Si vous évaluez la rigueur du système, concevez des systèmes similaires ou cherchez une faille, commencez ici.

Ce qui est disponible

Rapport de validation : Documentation par affirmation de l’audit de validation initial en trois phases de février 2026 (base Veridi v2.2, avant unification) : 97 affirmations couvrant 8 domaines, 9 catégories de verdicts, 26 scénarios adversariaux (24 dans le corpus de calibration plus ADV-025 et ADV-026 ajoutés après la référence pour la couverture de la self-référence), 4 langues non anglophones et des vérités contestées de manière authentique. Le corpus de calibration courant a depuis crû à 100 lignes via l’extension GTS-D Vague 1 ajoutée le 2026-05-04 (5/5 réussites), et la méthodologie a depuis étendu les verdicts de 9 à 12 et les vecteurs de manipulation de 12 à 13. Le rapport de validation reste l’audit canonique par affirmation de la base de février 2026 ; les chiffres de calibration actuels se trouvent sur la page de calibration.

Tests adversariaux : Les 13 vecteurs d’attaque de Veridi (étendus par le vecteur #13 Amorçage-puis-défection (manipulation de la confiance par utilisateur) en v1.2), comment chacun est détecté, et les performances de la méthodologie face à 26 affirmations adversariales (12 à vecteur unique, 14 à vecteurs multiples). Comprend 4 affirmations fondées sur des schémas de désinformation documentés dans le monde réel et 2 affirmations de self-référence (ADV-025 méthodologie, ADV-026 substrat). (Le compte distinct de Pragma est 14 vecteurs ; Praxis ajoute 6 vecteurs natifs plus 8 hérités de Pragma, soit 14 références croisées combinées. Les trois taxonomies sont liées mais non identiques ; consultez la documentation des contre-mesures de gaming de chaque produit pour la liste précise des vecteurs.)

Calibrage de la confiance : Le cadre d’attribution des indices de confiance : plafonds structurels par niveau, coefficients de fiabilité disciplinaire avec étiquettes de transparence des sources, et règles d’interaction qui préviennent les résultats multiplicatifs absurdes.

Contre-mesures anti-manipulation : Documentation détaillée des 13 procédures de détection de la désinformation, incluant les indices de difficulté de détection, la gravité de l’impact, la relation avec l’Indice de fiabilité institutionnelle, le vecteur de self-référence du substrat avec son plafond de confiance de 75 %, et le vecteur d’Amorçage-puis-défection (manipulation de la confiance par utilisateur) ajouté en v1.2 avec son principe structurel de précondition de contournement.

Discipline de la source de vérité : L’engagement de la méthodologie selon lequel chaque verdict remonte à une source récupérée en direct, sans corpus local, sans substitution par les connaissances du modèle et sans réplication du contenu des sources. À consulter si vous évaluez Veridi par rapport à des outils d’IA qui s’appuient sur la mémoire des données d’entraînement ou sur du contenu mis en cache ; ce choix structurel a des conséquences sur le risque d’hallucination, sur la responsabilité prouvable et sur l’exposition à la gestion des droits.

Chiffres clés

Veridi v1.2 (mai 2026), mesuré sur le corpus de calibration de 100 lignes :

IndicateurValeur
Total des affirmations de calibration100
Correctes99
Partielles1
Échouées0
Précision globale99,0 %
Brier global0,0745
Brier sélectif (89 verdicts engagés)0,0253
Justesse des abstentions11/11
Domaines couverts8
Catégories de verdicts définies12
Catégories de verdicts exercées dans la calibration10
Scénarios adversariaux dans le corpus de calibration24
Vecteurs d’attaque définis13
Vecteurs d’attaque exercés dans la calibration12 (le vecteur #13 est détecté structurellement, pas via une ligne étiquetée)
Cas limites de verdicts18 (tous résolus correctement)
Langues non anglophones testées4 (japonais, turc, chinois, hindi)
Affirmations bloquantes réussies4/4

Limites connues

Ces limites sont décrites en détail dans le rapport de validation et la page des limites connues. En résumé :

  • Des résultats quasi parfaits justifient un examen attentif. La suite de tests a été conçue par les mêmes personnes qui ont élaboré la méthodologie.
  • La validation a été réalisée par la propre implémentation de la méthodologie (l’IA suivant les procédures), et non par des volontaires humains ; les résultats ne reflètent donc pas uniquement la méthodologie définie.
  • La plupart des affirmations adversariales ont été construites pour les tests, bien que 4 soient fondées sur des schémas de désinformation réels.
  • La méthodologie n’a pas encore été testée à grande échelle avec des utilisateurs humains.
  • Le corpus de calibration statique de 100 lignes dispose d’intervalles de confiance bootstrap publiés, mais la calibration en direct sur des affirmations en production reste en démarrage à froid ; la détection de dérive Brier-lite (Praxis et Pragma) requiert N≥50 par cellule avant qu’un signalement puisse se déclencher.

Nous accueillons la validation externe, en particulier les affirmations conçues pour produire des résultats incorrects. Pour demander les fichiers méthodologiques complets ou soumettre des affirmations de test, utilisez notre formulaire de contact.