Pour les chercheurs
Documentation technique et données de validation
Cette section fournit l’ensemble des détails techniques sur la méthodologie et les tests de Veridi. Si vous évaluez la rigueur du système, concevez des systèmes similaires ou cherchez une faille, commencez ici.
Ce qui est disponible
Rapport de validation : Documentation complète du processus de validation en trois phases : 97 affirmations couvrant 8 domaines, 9 catégories de verdicts, 24 scénarios adversariaux, 4 langues non anglophones et des vérités contestées de manière authentique. Comprend les résultats par affirmation, les critères de réussite et une discussion honnête des limites.
Tests adversariaux : Les 11 vecteurs d’attaque, comment chacun est détecté, et les performances de la méthodologie face à 24 affirmations adversariales (12 à vecteur unique, 12 à vecteurs multiples). Comprend 4 affirmations fondées sur des schémas de désinformation documentés dans le monde réel.
Calibrage de la confiance : Le cadre d’attribution des indices de confiance : plafonds structurels par niveau, coefficients de fiabilité disciplinaire avec étiquettes de transparence des sources, et règles d’interaction qui préviennent les résultats multiplicatifs absurdes.
Contre-mesures anti-manipulation : Documentation détaillée des 11 procédures de détection de la désinformation, incluant les indices de difficulté de détection, la gravité de l’impact et la relation avec l’Indice de fiabilité institutionnelle.
Chiffres clés
| Indicateur | Valeur |
|---|---|
| Total des affirmations testées | 97 |
| Réussies | 96 |
| Partielles | 1 |
| Échouées | 0 |
| Domaines couverts | 8 |
| Catégories de verdicts testées | 9 |
| Scénarios adversariaux | 24 |
| Vecteurs d’attaque testés | 11 (tous détectés) |
| Indicateurs de manipulation primaires déclenchés | 24/24 (100 %) |
| Total des indicateurs déclenchés (ADV-v2) | 39 (contre environ 30 attendus) |
| Cas limites de verdicts | 18 (tous résolus correctement) |
| Langues non anglophones testées | 4 (japonais, turc, chinois, hindi) |
| Affirmations bloquantes réussies | 4/4 |
Limites connues
Ces limites sont décrites en détail dans le rapport de validation et la page des limites connues. En résumé :
- Des résultats quasi parfaits justifient un examen attentif. La suite de tests a été conçue par les mêmes personnes qui ont élaboré la méthodologie.
- La validation a été réalisée par la propre implémentation de la méthodologie (l’IA suivant les procédures), et non par des volontaires humains ; les résultats ne reflètent donc pas uniquement la méthodologie définie.
- La plupart des affirmations adversariales ont été construites pour les tests, bien que 4 soient fondées sur des schémas de désinformation réels.
- La méthodologie n’a pas encore été testée à grande échelle avec des utilisateurs humains.
- Les données de calibrage par score de Brier n’ont pas encore accumulé suffisamment de points de données pour atteindre une signification statistique.
Nous accueillons la validation externe, en particulier les affirmations conçues pour produire des résultats incorrects.