Limites connues
Portée et état de la validation
Il s’agit de contraintes réelles ; nous ne faisons pas preuve de fausse modestie. Les comprendre est important pour une utilisation appropriée du système.
Nous avons mené notre propre validation jusqu’à présent
La suite de tests a été conçue par les mêmes personnes qui ont élaboré la méthodologie. Les verdicts attendus et les critères de détection ont été définis par des personnes qui connaissent intimement les arbres de décision. Bien que la suite de tests se soit considérablement élargie au fil de trois phases — couvrant finalement la vérité fondamentale véritablement contestée, les sources non anglophones, les schémas de désinformation réelle et le contenu généré par l’IA — une validation externe, où ni les affirmations ni les résultats attendus ne sont conçus par les auteurs de la méthodologie, fournirait des preuves plus solides.
Nous avons explicitement invité des parties externes à soumettre des affirmations qu’elles estiment que Veridi traitera incorrectement. Nous accueillons ces défis avec intérêt.
Les tests avec des volontaires humains sont la prochaine étape
La validation a été menée par une IA suivant les procédures documentées de la méthodologie. Cela confirme que la méthodologie produit des résultats corrects lorsqu’elle est suivie comme prévu, mais ne teste pas si des volontaires humains — les utilisateurs visés — peuvent la suivre correctement, que ce soit comme processus manuel (plutôt qu’assisté par l’IA) ou en termes de formulation des affirmations de manière à ce que le système les traite correctement.
Les tests d’utilisabilité avec de véritables volontaires constituent une étape de validation nécessaire et distincte. Questions à résoudre : une affirmation formulée de manière négligente, vague ou contradictoire peut-elle être traitée de façon fiable ? Une personne non spécialiste peut-elle suivre les arbres de décision ? Les définitions de la hiérarchie des sources mènent-elles à une classification cohérente ? Les contre-mesures anti-manipulation sont-elles exploitables par quelqu’un sans formation en analyse de la désinformation ?
Aucun test à grande échelle n’a encore été mené
La méthodologie a été validée sur 97 affirmations dans un environnement de test contrôlé. Elle n’a pas été utilisée en production continue à grande échelle. Les conditions réelles introduisent des variables que les tests ne peuvent pas entièrement reproduire : des affirmations qui ne correspondent pas à des catégories nettes, des preuves en évolution rapide, des affirmations dans des langues ou des domaines non encore testés, et des techniques adversariales non encore documentées.
Le calibrage de la confiance est en phase de collecte de données
La méthodologie inclut un cadre de suivi du score de Brier pour mesurer si les indices de confiance correspondent aux résultats réels au fil du temps. Ce cadre est conçu mais n’a pas accumulé suffisamment de points de données pour une analyse statistique. En attendant, les indices de confiance doivent être compris comme des estimations structurées fondées sur la qualité des sources, et non comme des probabilités validées empiriquement.
Coefficients disciplinaires : 4 fondés empiriquement, 9 étiquetés comme estimations d’experts
Parmi les treize coefficients de fiabilité disciplinaire du cadre de calibrage de la confiance, seuls quatre reposent sur des bases empiriques solides issues d’études de réplication évaluées par les pairs. Les autres sont étiquetés « estimation d’expert — validation empirique nécessaire ». Cela est divulgué explicitement dans le cadre — présenter des chiffres non sourcés comme faisant autorité serait du calibrage de façade — mais cela signifie que les coefficients sont des hypothèses, pas des faits établis.
La couverture non anglophone est limitée
La méthodologie a été testée avec des sources en japonais, turc, chinois et hindi. Elle n’a pas été testée en arabe, russe, portugais, coréen, ni dans de nombreuses autres langues où la désinformation opère à grande échelle. L’implémentation par IA peut traiter la plupart des langues écrites, mais les cadres spécifiques de la méthodologie (en particulier l’IFI) sont principalement calibrés pour les contextes institutionnels anglophones.
L’IFI couvre un nombre limité d’institutions
L’Indice de fiabilité institutionnelle couvre actuellement les agences fédérales américaines et un petit nombre d’institutions internationales (TurkStat, China NBS). Il ne couvre pas la plupart des agences gouvernementales non américaines, les organisations internationales, les établissements universitaires, ni les entités du secteur privé dont la fiabilité pourrait être en question.
Le reportage original dépasse la portée du système
Veridi évalue les preuves existantes ; il ne produit pas de nouvelles preuves. Il ne peut pas contacter des sources, demander des documents, mener des entrevues, déposer des demandes d’accès à l’information ni effectuer du journalisme d’enquête. Les affirmations nécessitant un reportage original pour être résolues recevront un indice de confiance plus faible ou un verdict INVÉRIFIABLE.
Les affirmations adversariales étaient principalement construites
Quatre des 24 affirmations adversariales de test étaient fondées sur des schémas documentés de désinformation réelle, mais même celles-ci ont été adaptées et formalisées pour les tests. La méthodologie devrait éventuellement être testée contre de la désinformation brute et non modifiée telle qu’elle apparaît réellement sur les médias sociaux, les sites d’information et les communications politiques.
La couche d’IA a ses propres contraintes
Veridi est implémenté comme un système de consignes pour Claude (Anthropic), adaptable à d’autres modèles. Cela signifie :
- Les données d’entraînement de l’IA ont une date limite des connaissances. Les affirmations portant sur des événements très récents peuvent manquer de connaissances de base suffisantes. (Cela est atténué par des directives explicites de recherche préalable.)
- Les systèmes d’IA peuvent produire des erreurs au ton assuré. Les contrôles structurels de la méthodologie (hiérarchie des sources, contre-mesures anti-manipulation, plafonds de confiance) sont conçus pour limiter ce phénomène, mais ne peuvent pas l’éliminer.
- Différents modèles ou versions d’IA peuvent produire des résultats différents en suivant la même méthodologie. La méthodologie a été validée sur une seule implémentation.
Notre ensemble de vecteurs de désinformation connus n’est pas exhaustif
Les onze vecteurs d’attaque documentés couvrent les techniques de désinformation les plus courantes et les mieux comprises, mais ne constituent pas un catalogue complet. De nouvelles techniques émergent, et certaines techniques existantes peuvent ne pas encore être documentées dans la méthodologie. Les contre-mesures anti-manipulation doivent être considérées comme une base solide, et non comme une défense exhaustive.
Ce que nous faisons pour y remédier
| Limite | Prochaine étape |
|---|---|
| Validation autoréférentielle | Recherche active d’affirmations de test externes |
| Utilisabilité humaine non testée | Tests d’utilisabilité avec des volontaires prévus |
| Tests à grande échelle | Déploiement contrôlé avec surveillance |
| Calibrage de la confiance | Accumulation de données pour le score de Brier |
| Coefficients disciplinaires | Revue de la littérature pour fondement empirique |
| Couverture non anglophone | Tests linguistiques élargis |
| Couverture de l’IFI | Évaluations institutionnelles supplémentaires |
| Tests de désinformation brute | Collecte d’affirmations recueillies en conditions réelles |
Si vous pouvez identifier des limites supplémentaires que nous aurions manquées, nous souhaitons le savoir.