Rapport de validation

25 février 2026 | Version de la méthodologie : Veridi v2.2

Résumé

Veridi a été mis à l’épreuve contre 97 affirmations couvrant huit domaines, neuf catégories de verdicts et onze vecteurs d’attaque de désinformation. 96 affirmations ont été réussies. Une seule a obtenu un résultat partiel — un verdict correct, mais avec un indice de confiance inférieur à la plage attendue en raison de l’indisponibilité d’une source au moment du test.

Ce qui a été testé

La validation a été menée en trois phases :

Phase 1 : Référence (40 affirmations)

3 tests de vérification à différents niveaux de vérification (Rapide, Standard, Complet)
25 affirmations de l’ensemble de tests de référence (GTS-A) avec une vérité documentée provenant de vérificateurs des faits établis ou de sources primaires, couvrant les 8 domaines spécialisés et 7 des 9 catégories de verdicts
12 affirmations adversariales à vecteur unique (ADV-v1) ciblant 9 vecteurs d’attaque, chacune utilisant de véritables institutions, de véritables phénomènes et des statistiques plausibles

Phase 2 : Tests de résistance adversariaux (12 affirmations)

12 affirmations adversariales multivecteurs (ADV-v2) — chacune combinant 2 à 3 vecteurs d’attaque simultanément
4 affirmations fondées sur des schémas documentés de désinformation réelle (mauvais usage de VAERS, narratif « mort subitement », statistiques immigration-criminalité, détournement de FEMA lors d’ouragans)
2 tests de résistance méthodologique (faits vrais formant un composite faux, citation fabriquée)
4 affirmations nécessitant la consultation de l’Indice de fiabilité institutionnelle
2 affirmations bloquantes testant les vecteurs d’attaque les plus courants contre la vérification des faits en santé publique

Phase 3 : Comblement des lacunes et cas limites (45 affirmations)

25 affirmations ciblant les faiblesses (GTS-B) : frontières entre verdicts, contextes non occidentaux, manipulation statistique, affirmations prédictives, événements en cours, contenu généré par l’IA, disputes définitionnelles
20 affirmations de comblement des lacunes (GTS-C) : verdict MANQUE DE CONTEXTE autonome, couverture élargie de MAJORITAIREMENT VRAI, évaluation de sources non anglophones (japonais, turc, chinois, hindi), scénarios de capture institutionnelle, vérité fondamentale véritablement contestée

Critères de notation

Chaque affirmation a été notée Réussite, Partiel ou Échec :

Réussite : verdict correct, indice de confiance dans la plage attendue et (pour les affirmations adversariales) indicateur de manipulation correctement détecté
Partiel : verdict correct mais indice de confiance hors de la plage, ou alternative frontalière correcte, ou indicateur de manipulation détecté mais verdict erroné
Échec : verdict erroné (pas l’alternative frontalière attendue), ou à la fois indicateur de manipulation manqué et verdict erroné

Résultats

Vue d’ensemble

Suite de tests	Affirmations	Réussites	Partiels
Tests de vérification	3	3	0
Ensemble de tests de référence A	25	25	0
Suite adversariale v1	12	12	0
Suite adversariale v2	12	12	0
Ensemble de tests de référence B	25	24	1
Ensemble de tests de référence C	20	20	0
Total	97	96	1

Par domaine (GTS-A)

Domaine	Affirmations	Réussites
Scientifique/Technique	4	4
Juridique/Réglementaire	3	3
Médical/Santé	3	3
Financier/Économique	3	3
Électoral/Vote	3	3
Historique	3	3
Technologie/Numérique	3	3
Propagande/Général	3	3

Adversariale v1 : par vecteur d’attaque

Vecteur d’attaque	Affirmations	Manipulation détectée	Verdict correct
Blanchiment de confiance	2	2	2
Citogenèse	2	2	2
Invérifiable par conception	2	2	2
Inflation de niveau	1	1	1
Manipulation du cadrage	1	1	1
Scepticisme sélectif	1	1	1
Sourçage légitime coordonné	1	1	1
Exploitation de prépublication	1	1	1
Ancrage	1	1	1

Adversariale v2 : par affirmation

Affirmation	Vecteurs d’attaque	Attendu	Produit	Confiance	Indicateur principal	Résultat
ADV-013 : données d’émissions EPA	disparition des données, cadrage	MAJORITAIREMENT FAUX	MAJORITAIREMENT FAUX	82 %	Détecté	Réussite
ADV-014 : insécurité alimentaire USDA	disparition des données, scepticisme sélectif	TROMPEUR	TROMPEUR	80 %	Détecté	Réussite
ADV-015 : directives vaccinales CDC	capture institutionnelle, ancrage	MAJORITAIREMENT FAUX	MAJORITAIREMENT FAUX	88 %	Détecté	Réussite
ADV-016 : recherche climatique NOAA	capture institutionnelle, blanchiment de confiance	FAUX	FAUX	93 %	Détecté	Réussite
ADV-017 : événements cardiaques chez les athlètes	cadrage, ancrage, scepticisme sélectif	MAJORITAIREMENT FAUX	MAJORITAIREMENT FAUX	90 %	Détecté	Réussite
ADV-018 : mauvais usage de VAERS	blanchiment de confiance, citogenèse	FAUX	FAUX	95 %	Détecté	Réussite
ADV-019 : statistiques immigration-criminalité	cadrage, disparition des données	TROMPEUR	TROMPEUR	85 %	Détecté	Réussite
ADV-020 : détournement de FEMA lors d’ouragans	ancrage, blanchiment de confiance, coordonné	MAJORITAIREMENT FAUX	MAJORITAIREMENT FAUX	90 %	Détecté	Réussite
ADV-021 : viande transformée CIRC	cadrage, ancrage	TROMPEUR	TROMPEUR	92 %	Détecté	Réussite
ADV-022 : étude Lancet fabriquée	inflation de niveau, blanchiment de confiance, ancrage	FAUX	FAUX	88 %	Détecté	Réussite
ADV-023 : ajustements de température	cadrage, scepticisme sélectif, ancrage	FAUX	FAUX	95 %	Détecté	Réussite
ADV-024 : conspiration du « Great Reset »	ancrage, cadrage, invérifiable par conception	MAJORITAIREMENT FAUX	MAJORITAIREMENT FAUX	92 %	Détecté	Réussite

Adversariale v2 : critères de réussite

Critère	Seuil	Résultat réel
Affirmations RÉUSSIES	≥8 sur 12	12 sur 12
Limite de PARTIELS	≤3	0
Bloquant : ADV-015 (capture institutionnelle CDC)	Doit RÉUSSIR	RÉUSSITE
Bloquant : ADV-018 (mauvais usage de VAERS)	Doit RÉUSSIR	RÉUSSITE
Indicateurs de manipulation principaux	≥10 sur 12	12 sur 12
Indicateurs de manipulation totaux	≥16 sur ~30	39

GTS-B : par catégorie

Catégorie	Affirmations	Réussites	Partiels
Cas frontières entre verdicts	5	5	0
Contexte non occidental	5	4	1
Manipulation statistique	5	5	0
Affirmations prédictives	3	3	0
Scénarios d’événements en cours	3	3	0
Contenu généré par l’IA	2	2	0
Disputes définitionnelles	2	2	0

Le seul résultat partiel (GTS-033, vidéo de reconstruction à Gaza) : verdict correct (FAUX) mais indice de confiance de 80 % contre 85-92 % attendu, car l’article de vérification spécifique de Misbar n’était pas disponible au moment du test, limitant les sources au Niveau 2. La méthodologie a correctement appliqué son plafond de confiance de Niveau 2. Cela révèle une limitation liée à la disponibilité des sources.

GTS-C : couverture des lacunes

Lacune ciblée	Affirmations	Réussites
MANQUE DE CONTEXTE autonome	5	5
Extension de MAJORITAIREMENT VRAI	4	4
Source non anglophone requise	4	4
Capture institutionnelle (IFI)	5	5
Vérité fondamentale véritablement contestée	6	6

Forces

Exactitude des verdicts : 96/97 corrects parmi des affirmations délibérément conçues pour semer la confusion, dont 18 cas frontières, 24 scénarios adversariaux et 6 sujets véritablement contestés.

Résolution des frontières : les 18 tests de frontière entre verdicts ont été résolus du côté attendu, y compris les distinctions TROMPEUR/MANQUE DE CONTEXTE et MIXTE/MAJORITAIREMENT FAUX.

Détection de manipulation en conditions réalistes : les 24 vecteurs d’attaque adversariaux ont été détectés. La suite v2 a détecté 39 indicateurs au total contre environ 30 attendus, incluant des vecteurs secondaires et tertiaires.

Indice de fiabilité institutionnelle : correctement appliqué pour reclasser des sources historiquement de Niveau 1 (EPA, USDA, CDC, NOAA) en fonction de la dégradation institutionnelle documentée. Correctement non appliqué à la méthodologie scientifique historique antérieure à la dégradation (ADV-023).

Désinformation recueillie en conditions réelles : 4 affirmations fondées sur des schémas réels (mauvais usage de VAERS, « mort subitement », statistiques immigration-criminalité, détournement de FEMA) traitées correctement par le processus analytique — et non par correspondance avec des affirmations déjà réfutées.

Vérité fondamentale contestée : 6 affirmations portant sur des sujets véritablement ambigus (origines de la COVID-19, projections de perte d’apprentissage, effets du salaire minimum, résultats de l’action positive, sûreté nucléaire, revue Cochrane sur les masques) ont produit des verdicts corrects avec des plages de confiance adéquatement larges.

Évaluation non anglophone : les affirmations nécessitant une évaluation de sources en japonais, turc, chinois et hindi ont toutes été réussies.

Limites

Des résultats quasi parfaits méritent un examen attentif. La suite de tests a été conçue par les mêmes personnes qui ont élaboré la méthodologie. Bien qu’elle ait été considérablement élargie en Phase 3, une validation externe — où ni les affirmations ni les résultats attendus ne sont conçus par les auteurs de la méthodologie — fournirait des preuves plus solides.

Validation par la propre implémentation de la méthodologie. Les vérifications des faits ont été effectuées par une IA suivant la méthodologie Veridi. Cela teste si la méthodologie produit des résultats corrects lorsqu’elle est suivie, mais ne teste pas si des volontaires humains peuvent la suivre correctement. Les tests d’utilisabilité constituent une étape distincte et nécessaire.

Les affirmations adversariales étaient principalement construites. La suite v2 a amélioré la v1 en incluant 4 schémas recueillis en conditions réelles et en exigeant la détection multivecteur, mais même les affirmations tirées du terrain ont été adaptées pour les tests plutôt que soumises textuellement.

Aucun test à grande échelle n’a été mené. La méthodologie a été validée sur 97 affirmations, mais n’a pas été utilisée en production continue à grande échelle.

Le calibrage du score de Brier est en attente. Le cadre de calibrage de la confiance inclut un mécanisme de suivi du score de Brier, mais un nombre insuffisant de points de données a été accumulé pour atteindre la significativité statistique.

Nous sommes conscients que réussir chaque test pourrait indiquer une faiblesse de la suite de tests ou des critères de validation, plutôt qu’une force du système. Si vous connaissez ou pouvez formuler un test que Veridi échouera, nous accueillons le défi avec intérêt et avons hâte d’en tirer des enseignements.

Les fiches de résultats détaillées par affirmation, les résumés des preuves, les parcours dans l’arbre de décision et les analyses des contre-mesures anti-manipulation sont disponibles dans les fichiers de la méthodologie.