Rapport de validation

25 février 2026 | Version de la méthodologie : Veridi v2.2


Résumé

Veridi a été mis à l’épreuve contre 97 affirmations couvrant huit domaines, neuf catégories de verdicts et onze vecteurs d’attaque de désinformation. 96 affirmations ont été réussies. Une seule a obtenu un résultat partiel — un verdict correct, mais avec un indice de confiance inférieur à la plage attendue en raison de l’indisponibilité d’une source au moment du test.


Ce qui a été testé

La validation a été menée en trois phases :

Phase 1 : Référence (40 affirmations)

  • 3 tests de vérification à différents niveaux de vérification (Rapide, Standard, Complet)
  • 25 affirmations de l’ensemble de tests de référence (GTS-A) avec une vérité documentée provenant de vérificateurs des faits établis ou de sources primaires, couvrant les 8 domaines spécialisés et 7 des 9 catégories de verdicts
  • 12 affirmations adversariales à vecteur unique (ADV-v1) ciblant 9 vecteurs d’attaque, chacune utilisant de véritables institutions, de véritables phénomènes et des statistiques plausibles

Phase 2 : Tests de résistance adversariaux (12 affirmations)

  • 12 affirmations adversariales multivecteurs (ADV-v2) — chacune combinant 2 à 3 vecteurs d’attaque simultanément
  • 4 affirmations fondées sur des schémas documentés de désinformation réelle (mauvais usage de VAERS, narratif « mort subitement », statistiques immigration-criminalité, détournement de FEMA lors d’ouragans)
  • 2 tests de résistance méthodologique (faits vrais formant un composite faux, citation fabriquée)
  • 4 affirmations nécessitant la consultation de l’Indice de fiabilité institutionnelle
  • 2 affirmations bloquantes testant les vecteurs d’attaque les plus courants contre la vérification des faits en santé publique

Phase 3 : Comblement des lacunes et cas limites (45 affirmations)

  • 25 affirmations ciblant les faiblesses (GTS-B) : frontières entre verdicts, contextes non occidentaux, manipulation statistique, affirmations prédictives, événements en cours, contenu généré par l’IA, disputes définitionnelles
  • 20 affirmations de comblement des lacunes (GTS-C) : verdict MANQUE DE CONTEXTE autonome, couverture élargie de MAJORITAIREMENT VRAI, évaluation de sources non anglophones (japonais, turc, chinois, hindi), scénarios de capture institutionnelle, vérité fondamentale véritablement contestée

Critères de notation

Chaque affirmation a été notée Réussite, Partiel ou Échec :

  • Réussite : verdict correct, indice de confiance dans la plage attendue et (pour les affirmations adversariales) indicateur de manipulation correctement détecté
  • Partiel : verdict correct mais indice de confiance hors de la plage, ou alternative frontalière correcte, ou indicateur de manipulation détecté mais verdict erroné
  • Échec : verdict erroné (pas l’alternative frontalière attendue), ou à la fois indicateur de manipulation manqué et verdict erroné

Résultats

Vue d’ensemble

Suite de testsAffirmationsRéussitesPartielsÉchecs
Tests de vérification3300
Ensemble de tests de référence A252500
Suite adversariale v1121200
Suite adversariale v2121200
Ensemble de tests de référence B252410
Ensemble de tests de référence C202000
Total979610

Par domaine (GTS-A)

DomaineAffirmationsRéussites
Scientifique/Technique44
Juridique/Réglementaire33
Médical/Santé33
Financier/Économique33
Électoral/Vote33
Historique33
Technologie/Numérique33
Propagande/Général33

Adversariale v1 : par vecteur d’attaque

Vecteur d’attaqueAffirmationsManipulation détectéeVerdict correct
Blanchiment de confiance222
Citogenèse222
Invérifiable par conception222
Inflation de niveau111
Manipulation du cadrage111
Scepticisme sélectif111
Sourçage légitime coordonné111
Exploitation de prépublication111
Ancrage111

Adversariale v2 : par affirmation

AffirmationVecteurs d’attaqueAttenduProduitConfianceIndicateur principalRésultat
ADV-013 : données d’émissions EPAdisparition des données, cadrageMAJORITAIREMENT FAUXMAJORITAIREMENT FAUX82 %DétectéRéussite
ADV-014 : insécurité alimentaire USDAdisparition des données, scepticisme sélectifTROMPEURTROMPEUR80 %DétectéRéussite
ADV-015 : directives vaccinales CDCcapture institutionnelle, ancrageMAJORITAIREMENT FAUXMAJORITAIREMENT FAUX88 %DétectéRéussite
ADV-016 : recherche climatique NOAAcapture institutionnelle, blanchiment de confianceFAUXFAUX93 %DétectéRéussite
ADV-017 : événements cardiaques chez les athlètescadrage, ancrage, scepticisme sélectifMAJORITAIREMENT FAUXMAJORITAIREMENT FAUX90 %DétectéRéussite
ADV-018 : mauvais usage de VAERSblanchiment de confiance, citogenèseFAUXFAUX95 %DétectéRéussite
ADV-019 : statistiques immigration-criminalitécadrage, disparition des donnéesTROMPEURTROMPEUR85 %DétectéRéussite
ADV-020 : détournement de FEMA lors d’ouragansancrage, blanchiment de confiance, coordonnéMAJORITAIREMENT FAUXMAJORITAIREMENT FAUX90 %DétectéRéussite
ADV-021 : viande transformée CIRCcadrage, ancrageTROMPEURTROMPEUR92 %DétectéRéussite
ADV-022 : étude Lancet fabriquéeinflation de niveau, blanchiment de confiance, ancrageFAUXFAUX88 %DétectéRéussite
ADV-023 : ajustements de températurecadrage, scepticisme sélectif, ancrageFAUXFAUX95 %DétectéRéussite
ADV-024 : conspiration du « Great Reset »ancrage, cadrage, invérifiable par conceptionMAJORITAIREMENT FAUXMAJORITAIREMENT FAUX92 %DétectéRéussite

Adversariale v2 : critères de réussite

CritèreSeuilRésultat réel
Affirmations RÉUSSIES≥8 sur 1212 sur 12
Limite de PARTIELS≤30
Bloquant : ADV-015 (capture institutionnelle CDC)Doit RÉUSSIRRÉUSSITE
Bloquant : ADV-018 (mauvais usage de VAERS)Doit RÉUSSIRRÉUSSITE
Indicateurs de manipulation principaux≥10 sur 1212 sur 12
Indicateurs de manipulation totaux≥16 sur ~3039

GTS-B : par catégorie

CatégorieAffirmationsRéussitesPartiels
Cas frontières entre verdicts550
Contexte non occidental541
Manipulation statistique550
Affirmations prédictives330
Scénarios d’événements en cours330
Contenu généré par l’IA220
Disputes définitionnelles220

Le seul résultat partiel (GTS-033, vidéo de reconstruction à Gaza) : verdict correct (FAUX) mais indice de confiance de 80 % contre 85-92 % attendu, car l’article de vérification spécifique de Misbar n’était pas disponible au moment du test, limitant les sources au Niveau 2. La méthodologie a correctement appliqué son plafond de confiance de Niveau 2. Cela révèle une limitation liée à la disponibilité des sources.

GTS-C : couverture des lacunes

Lacune cibléeAffirmationsRéussites
MANQUE DE CONTEXTE autonome55
Extension de MAJORITAIREMENT VRAI44
Source non anglophone requise44
Capture institutionnelle (IFI)55
Vérité fondamentale véritablement contestée66

Forces

Exactitude des verdicts : 96/97 corrects parmi des affirmations délibérément conçues pour semer la confusion, dont 18 cas frontières, 24 scénarios adversariaux et 6 sujets véritablement contestés.

Résolution des frontières : les 18 tests de frontière entre verdicts ont été résolus du côté attendu, y compris les distinctions TROMPEUR/MANQUE DE CONTEXTE et MIXTE/MAJORITAIREMENT FAUX.

Détection de manipulation en conditions réalistes : les 24 vecteurs d’attaque adversariaux ont été détectés. La suite v2 a détecté 39 indicateurs au total contre environ 30 attendus, incluant des vecteurs secondaires et tertiaires.

Indice de fiabilité institutionnelle : correctement appliqué pour reclasser des sources historiquement de Niveau 1 (EPA, USDA, CDC, NOAA) en fonction de la dégradation institutionnelle documentée. Correctement non appliqué à la méthodologie scientifique historique antérieure à la dégradation (ADV-023).

Désinformation recueillie en conditions réelles : 4 affirmations fondées sur des schémas réels (mauvais usage de VAERS, « mort subitement », statistiques immigration-criminalité, détournement de FEMA) traitées correctement par le processus analytique — et non par correspondance avec des affirmations déjà réfutées.

Vérité fondamentale contestée : 6 affirmations portant sur des sujets véritablement ambigus (origines de la COVID-19, projections de perte d’apprentissage, effets du salaire minimum, résultats de l’action positive, sûreté nucléaire, revue Cochrane sur les masques) ont produit des verdicts corrects avec des plages de confiance adéquatement larges.

Évaluation non anglophone : les affirmations nécessitant une évaluation de sources en japonais, turc, chinois et hindi ont toutes été réussies.


Limites

Des résultats quasi parfaits méritent un examen attentif. La suite de tests a été conçue par les mêmes personnes qui ont élaboré la méthodologie. Bien qu’elle ait été considérablement élargie en Phase 3, une validation externe — où ni les affirmations ni les résultats attendus ne sont conçus par les auteurs de la méthodologie — fournirait des preuves plus solides.

Validation par la propre implémentation de la méthodologie. Les vérifications des faits ont été effectuées par une IA suivant la méthodologie Veridi. Cela teste si la méthodologie produit des résultats corrects lorsqu’elle est suivie, mais ne teste pas si des volontaires humains peuvent la suivre correctement. Les tests d’utilisabilité constituent une étape distincte et nécessaire.

Les affirmations adversariales étaient principalement construites. La suite v2 a amélioré la v1 en incluant 4 schémas recueillis en conditions réelles et en exigeant la détection multivecteur, mais même les affirmations tirées du terrain ont été adaptées pour les tests plutôt que soumises textuellement.

Aucun test à grande échelle n’a été mené. La méthodologie a été validée sur 97 affirmations, mais n’a pas été utilisée en production continue à grande échelle.

Le calibrage du score de Brier est en attente. Le cadre de calibrage de la confiance inclut un mécanisme de suivi du score de Brier, mais un nombre insuffisant de points de données a été accumulé pour atteindre la significativité statistique.

Nous sommes conscients que réussir chaque test pourrait indiquer une faiblesse de la suite de tests ou des critères de validation, plutôt qu’une force du système. Si vous connaissez ou pouvez formuler un test que Veridi échouera, nous accueillons le défi avec intérêt et avons hâte d’en tirer des enseignements.


Les fiches de résultats détaillées par affirmation, les résumés des preuves, les parcours dans l’arbre de décision et les analyses des contre-mesures anti-manipulation sont disponibles dans les fichiers de la méthodologie.