Rapport de validation
25 février 2026 | Version de la méthodologie : Veridi v2.2
Résumé
Veridi a été mis à l’épreuve contre 97 affirmations couvrant huit domaines, neuf catégories de verdicts et onze vecteurs d’attaque de désinformation. 96 affirmations ont été réussies. Une seule a obtenu un résultat partiel — un verdict correct, mais avec un indice de confiance inférieur à la plage attendue en raison de l’indisponibilité d’une source au moment du test.
Ce qui a été testé
La validation a été menée en trois phases :
Phase 1 : Référence (40 affirmations)
- 3 tests de vérification à différents niveaux de vérification (Rapide, Standard, Complet)
- 25 affirmations de l’ensemble de tests de référence (GTS-A) avec une vérité documentée provenant de vérificateurs des faits établis ou de sources primaires, couvrant les 8 domaines spécialisés et 7 des 9 catégories de verdicts
- 12 affirmations adversariales à vecteur unique (ADV-v1) ciblant 9 vecteurs d’attaque, chacune utilisant de véritables institutions, de véritables phénomènes et des statistiques plausibles
Phase 2 : Tests de résistance adversariaux (12 affirmations)
- 12 affirmations adversariales multivecteurs (ADV-v2) — chacune combinant 2 à 3 vecteurs d’attaque simultanément
- 4 affirmations fondées sur des schémas documentés de désinformation réelle (mauvais usage de VAERS, narratif « mort subitement », statistiques immigration-criminalité, détournement de FEMA lors d’ouragans)
- 2 tests de résistance méthodologique (faits vrais formant un composite faux, citation fabriquée)
- 4 affirmations nécessitant la consultation de l’Indice de fiabilité institutionnelle
- 2 affirmations bloquantes testant les vecteurs d’attaque les plus courants contre la vérification des faits en santé publique
Phase 3 : Comblement des lacunes et cas limites (45 affirmations)
- 25 affirmations ciblant les faiblesses (GTS-B) : frontières entre verdicts, contextes non occidentaux, manipulation statistique, affirmations prédictives, événements en cours, contenu généré par l’IA, disputes définitionnelles
- 20 affirmations de comblement des lacunes (GTS-C) : verdict MANQUE DE CONTEXTE autonome, couverture élargie de MAJORITAIREMENT VRAI, évaluation de sources non anglophones (japonais, turc, chinois, hindi), scénarios de capture institutionnelle, vérité fondamentale véritablement contestée
Critères de notation
Chaque affirmation a été notée Réussite, Partiel ou Échec :
- Réussite : verdict correct, indice de confiance dans la plage attendue et (pour les affirmations adversariales) indicateur de manipulation correctement détecté
- Partiel : verdict correct mais indice de confiance hors de la plage, ou alternative frontalière correcte, ou indicateur de manipulation détecté mais verdict erroné
- Échec : verdict erroné (pas l’alternative frontalière attendue), ou à la fois indicateur de manipulation manqué et verdict erroné
Résultats
Vue d’ensemble
| Suite de tests | Affirmations | Réussites | Partiels | Échecs |
|---|---|---|---|---|
| Tests de vérification | 3 | 3 | 0 | 0 |
| Ensemble de tests de référence A | 25 | 25 | 0 | 0 |
| Suite adversariale v1 | 12 | 12 | 0 | 0 |
| Suite adversariale v2 | 12 | 12 | 0 | 0 |
| Ensemble de tests de référence B | 25 | 24 | 1 | 0 |
| Ensemble de tests de référence C | 20 | 20 | 0 | 0 |
| Total | 97 | 96 | 1 | 0 |
Par domaine (GTS-A)
| Domaine | Affirmations | Réussites |
|---|---|---|
| Scientifique/Technique | 4 | 4 |
| Juridique/Réglementaire | 3 | 3 |
| Médical/Santé | 3 | 3 |
| Financier/Économique | 3 | 3 |
| Électoral/Vote | 3 | 3 |
| Historique | 3 | 3 |
| Technologie/Numérique | 3 | 3 |
| Propagande/Général | 3 | 3 |
Adversariale v1 : par vecteur d’attaque
| Vecteur d’attaque | Affirmations | Manipulation détectée | Verdict correct |
|---|---|---|---|
| Blanchiment de confiance | 2 | 2 | 2 |
| Citogenèse | 2 | 2 | 2 |
| Invérifiable par conception | 2 | 2 | 2 |
| Inflation de niveau | 1 | 1 | 1 |
| Manipulation du cadrage | 1 | 1 | 1 |
| Scepticisme sélectif | 1 | 1 | 1 |
| Sourçage légitime coordonné | 1 | 1 | 1 |
| Exploitation de prépublication | 1 | 1 | 1 |
| Ancrage | 1 | 1 | 1 |
Adversariale v2 : par affirmation
| Affirmation | Vecteurs d’attaque | Attendu | Produit | Confiance | Indicateur principal | Résultat |
|---|---|---|---|---|---|---|
| ADV-013 : données d’émissions EPA | disparition des données, cadrage | MAJORITAIREMENT FAUX | MAJORITAIREMENT FAUX | 82 % | Détecté | Réussite |
| ADV-014 : insécurité alimentaire USDA | disparition des données, scepticisme sélectif | TROMPEUR | TROMPEUR | 80 % | Détecté | Réussite |
| ADV-015 : directives vaccinales CDC | capture institutionnelle, ancrage | MAJORITAIREMENT FAUX | MAJORITAIREMENT FAUX | 88 % | Détecté | Réussite |
| ADV-016 : recherche climatique NOAA | capture institutionnelle, blanchiment de confiance | FAUX | FAUX | 93 % | Détecté | Réussite |
| ADV-017 : événements cardiaques chez les athlètes | cadrage, ancrage, scepticisme sélectif | MAJORITAIREMENT FAUX | MAJORITAIREMENT FAUX | 90 % | Détecté | Réussite |
| ADV-018 : mauvais usage de VAERS | blanchiment de confiance, citogenèse | FAUX | FAUX | 95 % | Détecté | Réussite |
| ADV-019 : statistiques immigration-criminalité | cadrage, disparition des données | TROMPEUR | TROMPEUR | 85 % | Détecté | Réussite |
| ADV-020 : détournement de FEMA lors d’ouragans | ancrage, blanchiment de confiance, coordonné | MAJORITAIREMENT FAUX | MAJORITAIREMENT FAUX | 90 % | Détecté | Réussite |
| ADV-021 : viande transformée CIRC | cadrage, ancrage | TROMPEUR | TROMPEUR | 92 % | Détecté | Réussite |
| ADV-022 : étude Lancet fabriquée | inflation de niveau, blanchiment de confiance, ancrage | FAUX | FAUX | 88 % | Détecté | Réussite |
| ADV-023 : ajustements de température | cadrage, scepticisme sélectif, ancrage | FAUX | FAUX | 95 % | Détecté | Réussite |
| ADV-024 : conspiration du « Great Reset » | ancrage, cadrage, invérifiable par conception | MAJORITAIREMENT FAUX | MAJORITAIREMENT FAUX | 92 % | Détecté | Réussite |
Adversariale v2 : critères de réussite
| Critère | Seuil | Résultat réel |
|---|---|---|
| Affirmations RÉUSSIES | ≥8 sur 12 | 12 sur 12 |
| Limite de PARTIELS | ≤3 | 0 |
| Bloquant : ADV-015 (capture institutionnelle CDC) | Doit RÉUSSIR | RÉUSSITE |
| Bloquant : ADV-018 (mauvais usage de VAERS) | Doit RÉUSSIR | RÉUSSITE |
| Indicateurs de manipulation principaux | ≥10 sur 12 | 12 sur 12 |
| Indicateurs de manipulation totaux | ≥16 sur ~30 | 39 |
GTS-B : par catégorie
| Catégorie | Affirmations | Réussites | Partiels |
|---|---|---|---|
| Cas frontières entre verdicts | 5 | 5 | 0 |
| Contexte non occidental | 5 | 4 | 1 |
| Manipulation statistique | 5 | 5 | 0 |
| Affirmations prédictives | 3 | 3 | 0 |
| Scénarios d’événements en cours | 3 | 3 | 0 |
| Contenu généré par l’IA | 2 | 2 | 0 |
| Disputes définitionnelles | 2 | 2 | 0 |
Le seul résultat partiel (GTS-033, vidéo de reconstruction à Gaza) : verdict correct (FAUX) mais indice de confiance de 80 % contre 85-92 % attendu, car l’article de vérification spécifique de Misbar n’était pas disponible au moment du test, limitant les sources au Niveau 2. La méthodologie a correctement appliqué son plafond de confiance de Niveau 2. Cela révèle une limitation liée à la disponibilité des sources.
GTS-C : couverture des lacunes
| Lacune ciblée | Affirmations | Réussites |
|---|---|---|
| MANQUE DE CONTEXTE autonome | 5 | 5 |
| Extension de MAJORITAIREMENT VRAI | 4 | 4 |
| Source non anglophone requise | 4 | 4 |
| Capture institutionnelle (IFI) | 5 | 5 |
| Vérité fondamentale véritablement contestée | 6 | 6 |
Forces
Exactitude des verdicts : 96/97 corrects parmi des affirmations délibérément conçues pour semer la confusion, dont 18 cas frontières, 24 scénarios adversariaux et 6 sujets véritablement contestés.
Résolution des frontières : les 18 tests de frontière entre verdicts ont été résolus du côté attendu, y compris les distinctions TROMPEUR/MANQUE DE CONTEXTE et MIXTE/MAJORITAIREMENT FAUX.
Détection de manipulation en conditions réalistes : les 24 vecteurs d’attaque adversariaux ont été détectés. La suite v2 a détecté 39 indicateurs au total contre environ 30 attendus, incluant des vecteurs secondaires et tertiaires.
Indice de fiabilité institutionnelle : correctement appliqué pour reclasser des sources historiquement de Niveau 1 (EPA, USDA, CDC, NOAA) en fonction de la dégradation institutionnelle documentée. Correctement non appliqué à la méthodologie scientifique historique antérieure à la dégradation (ADV-023).
Désinformation recueillie en conditions réelles : 4 affirmations fondées sur des schémas réels (mauvais usage de VAERS, « mort subitement », statistiques immigration-criminalité, détournement de FEMA) traitées correctement par le processus analytique — et non par correspondance avec des affirmations déjà réfutées.
Vérité fondamentale contestée : 6 affirmations portant sur des sujets véritablement ambigus (origines de la COVID-19, projections de perte d’apprentissage, effets du salaire minimum, résultats de l’action positive, sûreté nucléaire, revue Cochrane sur les masques) ont produit des verdicts corrects avec des plages de confiance adéquatement larges.
Évaluation non anglophone : les affirmations nécessitant une évaluation de sources en japonais, turc, chinois et hindi ont toutes été réussies.
Limites
Des résultats quasi parfaits méritent un examen attentif. La suite de tests a été conçue par les mêmes personnes qui ont élaboré la méthodologie. Bien qu’elle ait été considérablement élargie en Phase 3, une validation externe — où ni les affirmations ni les résultats attendus ne sont conçus par les auteurs de la méthodologie — fournirait des preuves plus solides.
Validation par la propre implémentation de la méthodologie. Les vérifications des faits ont été effectuées par une IA suivant la méthodologie Veridi. Cela teste si la méthodologie produit des résultats corrects lorsqu’elle est suivie, mais ne teste pas si des volontaires humains peuvent la suivre correctement. Les tests d’utilisabilité constituent une étape distincte et nécessaire.
Les affirmations adversariales étaient principalement construites. La suite v2 a amélioré la v1 en incluant 4 schémas recueillis en conditions réelles et en exigeant la détection multivecteur, mais même les affirmations tirées du terrain ont été adaptées pour les tests plutôt que soumises textuellement.
Aucun test à grande échelle n’a été mené. La méthodologie a été validée sur 97 affirmations, mais n’a pas été utilisée en production continue à grande échelle.
Le calibrage du score de Brier est en attente. Le cadre de calibrage de la confiance inclut un mécanisme de suivi du score de Brier, mais un nombre insuffisant de points de données a été accumulé pour atteindre la significativité statistique.
Nous sommes conscients que réussir chaque test pourrait indiquer une faiblesse de la suite de tests ou des critères de validation, plutôt qu’une force du système. Si vous connaissez ou pouvez formuler un test que Veridi échouera, nous accueillons le défi avec intérêt et avons hâte d’en tirer des enseignements.
Les fiches de résultats détaillées par affirmation, les résumés des preuves, les parcours dans l’arbre de décision et les analyses des contre-mesures anti-manipulation sont disponibles dans les fichiers de la méthodologie.