Pour les chercheurs
Documentation technique et données de validation
Cette section fournit l’ensemble des détails techniques sur la méthodologie et les tests de Veridi. Si vous évaluez la rigueur du système, concevez des systèmes similaires ou cherchez une faille, commencez ici.
Ce qui est disponible
Rapport de validation : Documentation par affirmation de l’audit de validation initial en trois phases de février 2026 (base Veridi v2.2, avant unification) : 97 affirmations couvrant 8 domaines, 9 catégories de verdicts, 26 scénarios adversariaux (24 dans le corpus de calibration plus ADV-025 et ADV-026 ajoutés après la référence pour la couverture de la self-référence), 4 langues non anglophones et des vérités contestées de manière authentique. Le corpus de calibration courant a depuis crû à 100 lignes via l’extension GTS-D Vague 1 ajoutée le 2026-05-04 (5/5 réussites), et la méthodologie a depuis étendu les verdicts de 9 à 12 et les vecteurs de manipulation de 12 à 13. Le rapport de validation reste l’audit canonique par affirmation de la base de février 2026 ; les chiffres de calibration actuels se trouvent sur la page de calibration.
Tests adversariaux : Les 13 vecteurs d’attaque de Veridi (étendus par le vecteur #13 Amorçage-puis-défection (manipulation de la confiance par utilisateur) en v1.2), comment chacun est détecté, et les performances de la méthodologie face à 26 affirmations adversariales (12 à vecteur unique, 14 à vecteurs multiples). Comprend 4 affirmations fondées sur des schémas de désinformation documentés dans le monde réel et 2 affirmations de self-référence (ADV-025 méthodologie, ADV-026 substrat). (Le compte distinct de Pragma est 14 vecteurs ; Praxis ajoute 6 vecteurs natifs plus 8 hérités de Pragma, soit 14 références croisées combinées. Les trois taxonomies sont liées mais non identiques ; consultez la documentation des contre-mesures de gaming de chaque produit pour la liste précise des vecteurs.)
Calibrage de la confiance : Le cadre d’attribution des indices de confiance : plafonds structurels par niveau, coefficients de fiabilité disciplinaire avec étiquettes de transparence des sources, et règles d’interaction qui préviennent les résultats multiplicatifs absurdes.
Contre-mesures anti-manipulation : Documentation détaillée des 13 procédures de détection de la désinformation, incluant les indices de difficulté de détection, la gravité de l’impact, la relation avec l’Indice de fiabilité institutionnelle, le vecteur de self-référence du substrat avec son plafond de confiance de 75 %, et le vecteur d’Amorçage-puis-défection (manipulation de la confiance par utilisateur) ajouté en v1.2 avec son principe structurel de précondition de contournement.
Discipline de la source de vérité : L’engagement de la méthodologie selon lequel chaque verdict remonte à une source récupérée en direct, sans corpus local, sans substitution par les connaissances du modèle et sans réplication du contenu des sources. À consulter si vous évaluez Veridi par rapport à des outils d’IA qui s’appuient sur la mémoire des données d’entraînement ou sur du contenu mis en cache ; ce choix structurel a des conséquences sur le risque d’hallucination, sur la responsabilité prouvable et sur l’exposition à la gestion des droits.
Chiffres clés
Veridi v1.2 (mai 2026), mesuré sur le corpus de calibration de 100 lignes :
| Indicateur | Valeur |
|---|---|
| Total des affirmations de calibration | 100 |
| Correctes | 99 |
| Partielles | 1 |
| Échouées | 0 |
| Précision globale | 99,0 % |
| Brier global | 0,0745 |
| Brier sélectif (89 verdicts engagés) | 0,0253 |
| Justesse des abstentions | 11/11 |
| Domaines couverts | 8 |
| Catégories de verdicts définies | 12 |
| Catégories de verdicts exercées dans la calibration | 10 |
| Scénarios adversariaux dans le corpus de calibration | 24 |
| Vecteurs d’attaque définis | 13 |
| Vecteurs d’attaque exercés dans la calibration | 12 (le vecteur #13 est détecté structurellement, pas via une ligne étiquetée) |
| Cas limites de verdicts | 18 (tous résolus correctement) |
| Langues non anglophones testées | 4 (japonais, turc, chinois, hindi) |
| Affirmations bloquantes réussies | 4/4 |
Limites connues
Ces limites sont décrites en détail dans le rapport de validation et la page des limites connues. En résumé :
- Des résultats quasi parfaits justifient un examen attentif. La suite de tests a été conçue par les mêmes personnes qui ont élaboré la méthodologie.
- La validation a été réalisée par la propre implémentation de la méthodologie (l’IA suivant les procédures), et non par des volontaires humains ; les résultats ne reflètent donc pas uniquement la méthodologie définie.
- La plupart des affirmations adversariales ont été construites pour les tests, bien que 4 soient fondées sur des schémas de désinformation réels.
- La méthodologie n’a pas encore été testée à grande échelle avec des utilisateurs humains.
- Le corpus de calibration statique de 100 lignes dispose d’intervalles de confiance bootstrap publiés, mais la calibration en direct sur des affirmations en production reste en démarrage à froid ; la détection de dérive Brier-lite (Praxis et Pragma) requiert N≥50 par cellule avant qu’un signalement puisse se déclencher.
Nous accueillons la validation externe, en particulier les affirmations conçues pour produire des résultats incorrects. Pour demander les fichiers méthodologiques complets ou soumettre des affirmations de test, utilisez notre formulaire de contact.