Limites connues

Portée et état de la validation

Il s’agit de contraintes réelles ; nous ne faisons pas preuve de fausse modestie. Les comprendre est important pour une utilisation appropriée du système.


Nous avons mené notre propre validation jusqu’à présent

La suite de tests a été conçue par les mêmes personnes qui ont élaboré la méthodologie. Les verdicts attendus et les critères de détection ont été définis par des personnes qui connaissent intimement les arbres de décision. Bien que la suite de tests se soit considérablement élargie au fil de trois phases (couvrant finalement la vérité fondamentale véritablement contestée, les sources non anglophones, les schémas de désinformation réelle et le contenu généré par l’IA), une validation externe, où ni les affirmations ni les résultats attendus ne sont conçus par les auteurs de la méthodologie, fournirait des preuves plus solides.

Nous avons explicitement invité des parties externes à soumettre des affirmations qu’elles estiment que Veridi traitera incorrectement. Nous accueillons ces défis avec intérêt.

Les tests avec des volontaires humains sont la prochaine étape

La validation a été menée par une IA suivant les procédures documentées de la méthodologie. Cela confirme que la méthodologie produit des résultats corrects lorsqu’elle est suivie comme prévu, mais ne teste pas si des volontaires humains (les utilisateurs visés) peuvent la suivre correctement, que ce soit comme processus manuel (plutôt qu’assisté par l’IA) ou en termes de formulation des affirmations de manière à ce que le système les traite correctement.

Les tests d’utilisabilité avec de véritables volontaires constituent une étape de validation nécessaire et distincte. Questions à résoudre : une affirmation formulée de manière négligente, vague ou contradictoire peut-elle être traitée de façon fiable ? Une personne non spécialiste peut-elle suivre les arbres de décision ? Les définitions de la hiérarchie des sources mènent-elles à une classification cohérente ? Les contre-mesures anti-manipulation sont-elles exploitables par quelqu’un sans formation en analyse de la désinformation ?

Aucun test à grande échelle n’a encore été mené

Veridi v1.2 (mai 2026) a été validé sur 100 affirmations de calibration dans un environnement de test contrôlé ; la méthodologie n’a pas encore été utilisée en production continue à grande échelle. Les conditions réelles introduisent des variables que les tests ne peuvent pas entièrement reproduire : des affirmations qui ne correspondent pas à des catégories nettes, des preuves en évolution rapide, des affirmations dans des langues ou des domaines non encore testés, et des techniques adversariales non encore documentées.

Le calibrage de la confiance est en phase de collecte de données

La méthodologie inclut un cadre de suivi du score de Brier pour mesurer si les indices de confiance correspondent aux résultats réels au fil du temps. Les résultats sont définis comme la correspondance avec la vérité factuelle externe (résultats électoraux, décisions judiciaires, réplications scientifiques) plutôt que la persistance du verdict. Depuis la v1.2.1 (Praxis et Pragma), le cadre fonctionne en production sous forme de détection de dérive Brier-lite : minimum N≥50 par cellule avant le déclenchement d’un signalement ; seuils verrouillés à ±0,10 de déviation Brier absolue ; les fichiers de méthodologie ne sont jamais auto-modifiés et les signalements sont remontés à un mainteneur pour révision. L’ensemble de données de calibrage statique de Veridi contient désormais 100 entrées (Brier global de 0,0745 ; Brier sélectif de 0,0253 sur 89 verdicts engagés, avec intervalles de confiance bootstrap à 95 % publiés sur la page de calibration), bien que la plupart proviennent d’ensembles de tests connus. Un calibrage statistiquement significatif sur les affirmations en production réelle, dont les résultats ne sont pas connus au moment de la vérification, est encore en démarrage à froid : en attendant que suffisamment de données de production s’accumulent, les indices de confiance doivent être compris comme des estimations structurées fondées sur la qualité des sources, et non comme des probabilités validées empiriquement.

Coefficients disciplinaires : 4 fondés empiriquement, 9 étiquetés comme estimations d’experts

Parmi les treize coefficients de fiabilité disciplinaire du cadre de calibrage de la confiance, seuls quatre reposent sur des bases empiriques solides issues d’études de réplication évaluées par les pairs. Les autres sont étiquetés « estimation d’expert — validation empirique nécessaire ». Cela est divulgué explicitement dans le cadre (présenter des chiffres non sourcés comme faisant autorité serait du calibrage de façade), mais cela signifie que les coefficients sont des hypothèses, pas des faits établis.

La couverture non anglophone est limitée

La méthodologie a été testée avec des sources en japonais, turc, chinois et hindi. Elle n’a pas été testée en arabe, russe, portugais, coréen, ni dans de nombreuses autres langues où la désinformation opère à grande échelle. L’implémentation par IA peut traiter la plupart des langues écrites, mais les cadres spécifiques de la méthodologie (en particulier l’IFI) sont principalement calibrés pour les contextes institutionnels anglophones.

L’IFI couvre un nombre limité d’institutions

L’Indice de fiabilité institutionnelle couvre actuellement les agences fédérales américaines, les agences fédérales canadiennes (Statistique Canada, IRCC, Santé Canada, ECCC, Banque du Canada) et un petit nombre d’institutions internationales (TurkStat, China NBS). Il ne couvre pas la plupart des autres agences gouvernementales, les organisations internationales, les établissements universitaires, ni les entités du secteur privé dont la fiabilité pourrait être en question.

Le reportage original dépasse la portée du système

Veridi évalue les preuves existantes ; il ne produit pas de nouvelles preuves. Il ne peut pas contacter des sources, demander des documents, mener des entrevues, déposer des demandes d’accès à l’information ni effectuer du journalisme d’enquête. Les affirmations nécessitant un reportage original pour être résolues recevront un indice de confiance plus faible ou un verdict INVÉRIFIABLE.

Les affirmations adversariales étaient principalement construites

Quatre des 24 affirmations adversariales de test étaient fondées sur des schémas documentés de désinformation réelle, mais même celles-ci ont été adaptées et formalisées pour les tests. La méthodologie devrait éventuellement être testée contre de la désinformation brute et non modifiée telle qu’elle apparaît réellement sur les médias sociaux, les sites d’information et les communications politiques.

Deux partiels de scénarios dorés Praxis demeurent non résolus (PRXG-015, PRXG-018)

La régression ciblée du 2026-05-26 contre Praxis v1.4 a mesuré 38/40 PRXG PASS (95 %). Des 6 PARTIELS antérieurs du référentiel 2026-03-21, 4 se résolvent en PASS sous la restructuration de l’algorithme de classement v1.2 et les règles associées. Deux demeurent PARTIELS avec des lacunes méthodologiques documentées :

  • PRXG-015 (utilisateur L1, organisations vides, aucune amplification de moment) : Le bonus d’entrée organisationnelle L1 de v1.2 se déclenche correctement (+2 sur la note brute P2), mais sans amplification de moment dans le scénario, la note combinée bonifiée reste sous le seuil de viabilité de 3,0. Pour résoudre pleinement, le bonus L1 devrait lever le plancher de la note combinée comme exception structurelle, ou une exception de voie-unique devrait s’appliquer lorsque L1+organisations-vides tient. Aucune des deux n’est présente en v1.4.
  • PRXG-018 (présidence de commission avec autorité de décision sur l’enjeu) : Le modificateur d’autorité de décision v1.2 lève le plafond P3 de 21 % à 40 % quand decision_authority=true, mais le plafond de preuves de voie P1 (50 %) produit toujours une confiance de levier mécanique plus élevée. Le test attend que « l’autorité institutionnelle de l’utilisateur EST son mécanisme » soit le cadrage dominant, ce qui requiert soit une nouvelle levée du plafond P3 quand l’utilisateur EST le décideur institutionnel, soit une règle de re-classification routant l’action sous P3 indépendamment des avantages mécaniques de P1.

Les deux lacunes sont des raffinements méthodologiques tractables. Inscrites comme RT-068 dans le registre de remédiation du projet pour considération en v1.4.1. En attendant les raffinements, les deux PARTIELS sont documentés comme des cas connus où la méthodologie sous-recommande la voie supérieure attendue ; les recommandations que Praxis produit pour ces scénarios restent défendables (la voie défendable-mais-non-attendue, pas une absence de voie), mais elles ne correspondent pas au routage de levier attendu par le test.

La surface de validation s’est élargie en 2026 ; les résultats ne sont pas encore publiés

La Phase 5 Vague 1 (avril 2026) et la Vague 2 Semaine 1 (mai 2026) ont ajouté de nouveaux cadres d’évaluation : une échelle de préparation pour le juge StrongREJECT capabilité-conscient (4 paliers de préparation), un document de protocole Multitrait-Multimethod (MTMM) avec matrice trait × méthode et quatre règles de décision Campbell-Fiske pré-enregistrées pour les trois méthodologies, et une spécification Inspect AI (Veridi). Ces cadres sont documentés et prêts à exécuter ; les résultats qu’ils produisent ne sont pas encore publiés. Les panels d’experts MTMM ne sont pas en cours d’exécution ce trimestre. En attendant que ces cadres aient été exécutés de bout en bout et que leurs résultats soient publiés, l’état de validation de la méthodologie demeure ancré aux résultats en environnement contrôlé de la validation de février 2026 ainsi qu’à la détection de dérive Brier-lite opérationnelle en production.

Certains sites bloquent notre user-agent de robot déclaré

Chaque requête web émise par Veridi porte le user-agent déclaré Veridi Fact-Checker/1.0 accompagné d’une URL de contact. Le robot respecte robots.txt. Certains sites avec des défenses anti-robot (notamment certains grands médias d’information et sites d’entreprises d’IA) retournent un HTTP 403 au user-agent déclaré, ce qui signifie que le vérificateur de faits voit l’URL mais ne peut pas en récupérer le contenu. Lorsque cela se produit, les vérifications de faits impliquant ces sources sont routées vers UNVERIFIABLE ou INSUFFICIENT EVIDENCE avec une note dans LIMITATIONS documentant le blocage. Nous ne contournons pas ce blocage en imitant un user-agent de navigateur ; l’intégrité du système exige qu’il s’identifie comme tel. Voir la page d’information sur le robot pour ce que le robot fait et comment les opérateurs peuvent l’autoriser.

La couche d’IA a ses propres contraintes

Veridi est implémenté comme un système de consignes pour Claude (Anthropic), adaptable à d’autres modèles. Cela signifie :

  • Les données d’entraînement de l’IA ont une date limite des connaissances. Les affirmations portant sur des événements très récents peuvent manquer de connaissances de base suffisantes. (Cela est atténué par des directives explicites de recherche préalable.)
  • Les systèmes d’IA peuvent produire des erreurs au ton assuré. Les contrôles structurels de la méthodologie (hiérarchie des sources, contre-mesures anti-manipulation, plafonds de confiance) sont conçus pour limiter ce phénomène, mais ne peuvent pas l’éliminer.
  • Différents modèles ou versions d’IA peuvent produire des résultats différents en suivant la même méthodologie. La méthodologie a été validée sur une seule implémentation.

Notre ensemble de vecteurs de désinformation connus n’est pas exhaustif

Les treize vecteurs d’attaque documentés couvrent les techniques de désinformation les plus courantes et les mieux comprises, mais ne constituent pas un catalogue complet. De nouvelles techniques émergent, et certaines techniques existantes peuvent ne pas encore être documentées dans la méthodologie. Les contre-mesures anti-manipulation doivent être considérées comme une base solide, et non comme une défense exhaustive.


Ce que nous faisons pour y remédier

LimiteProchaine étape
Validation autoréférentielleRecherche active d’affirmations de test externes
Utilisabilité humaine non testéeTests d’utilisabilité avec des volontaires prévus
Tests à grande échelleDéploiement contrôlé avec surveillance
Calibrage de la confianceAccumulation de données pour le score de Brier
Coefficients disciplinairesRevue de la littérature pour fondement empirique
Couverture non anglophoneTests linguistiques élargis
Couverture de l’IFIÉvaluations institutionnelles supplémentaires
Tests de désinformation bruteCollecte d’affirmations recueillies en conditions réelles
Résultats des cadres de la Vague 2Exécuter les panels StrongREJECT et MTMM ; publier les résultats
Sites bloquant le robot déclaréDémarches d’allowlist auprès des opérateurs

Si vous pouvez identifier des limites supplémentaires que nous aurions manquées, nous souhaitons le savoir.