Pour les chercheurs

Documentation technique et données de validation

Cette section fournit l’ensemble des détails techniques sur la méthodologie et les tests de Veridi. Si vous évaluez la rigueur du système, concevez des systèmes similaires ou cherchez une faille, commencez ici.

Ce qui est disponible

Rapport de validation : Documentation complète du processus de validation en trois phases : 97 affirmations couvrant 8 domaines, 9 catégories de verdicts, 24 scénarios adversariaux, 4 langues non anglophones et des vérités contestées de manière authentique. Comprend les résultats par affirmation, les critères de réussite et une discussion honnête des limites.

Tests adversariaux : Les 11 vecteurs d’attaque, comment chacun est détecté, et les performances de la méthodologie face à 24 affirmations adversariales (12 à vecteur unique, 12 à vecteurs multiples). Comprend 4 affirmations fondées sur des schémas de désinformation documentés dans le monde réel.

Calibrage de la confiance : Le cadre d’attribution des indices de confiance : plafonds structurels par niveau, coefficients de fiabilité disciplinaire avec étiquettes de transparence des sources, et règles d’interaction qui préviennent les résultats multiplicatifs absurdes.

Contre-mesures anti-manipulation : Documentation détaillée des 11 procédures de détection de la désinformation, incluant les indices de difficulté de détection, la gravité de l’impact et la relation avec l’Indice de fiabilité institutionnelle.

Chiffres clés

IndicateurValeur
Total des affirmations testées97
Réussies96
Partielles1
Échouées0
Domaines couverts8
Catégories de verdicts testées9
Scénarios adversariaux24
Vecteurs d’attaque testés11 (tous détectés)
Indicateurs de manipulation primaires déclenchés24/24 (100 %)
Total des indicateurs déclenchés (ADV-v2)39 (contre environ 30 attendus)
Cas limites de verdicts18 (tous résolus correctement)
Langues non anglophones testées4 (japonais, turc, chinois, hindi)
Affirmations bloquantes réussies4/4

Limites connues

Ces limites sont décrites en détail dans le rapport de validation et la page des limites connues. En résumé :

  • Des résultats quasi parfaits justifient un examen attentif. La suite de tests a été conçue par les mêmes personnes qui ont élaboré la méthodologie.
  • La validation a été réalisée par la propre implémentation de la méthodologie (l’IA suivant les procédures), et non par des volontaires humains ; les résultats ne reflètent donc pas uniquement la méthodologie définie.
  • La plupart des affirmations adversariales ont été construites pour les tests, bien que 4 soient fondées sur des schémas de désinformation réels.
  • La méthodologie n’a pas encore été testée à grande échelle avec des utilisateurs humains.
  • Les données de calibrage par score de Brier n’ont pas encore accumulé suffisamment de points de données pour atteindre une signification statistique.

Nous accueillons la validation externe, en particulier les affirmations conçues pour produire des résultats incorrects.