Cadre de calibrage de la confiance

Comment les indices de confiance sont attribués

L’indice de confiance d’une évaluation Veridi représente la solidité des preuves appuyant le verdict, et non la certitude que le verdict est correct. Une affirmation peut recevoir un verdict clair (FAUX) avec une confiance modérée si les preuves sont solides mais proviennent uniquement de sources de niveau 2.

Depuis la v2.5, la confiance est présentée sous forme de bande verbale plutôt que sous forme de pourcentage entier brut :

BandePlage indicative
Quasi certaine91-95 %
Élevée76-90 %
Modérée51-75 %
Faible26-50 %
Spéculative≤25 %

Le plafond structurel imposé par le niveau de source est affiché à côté de la bande à titre contextuel (p. ex., « Confiance élevée · plafond : sources de Niveau 2 uniquement »), rendant explicites la solidité des preuves et le facteur structurel qui borne l’évaluation.


Confiance dans le verdict et probabilité

Depuis la v2.3, Veridi sépare explicitement deux concepts souvent confondus :

  • Confiance dans le verdict (ce que Veridi rapporte) : dans quelle mesure les preuves appuient le verdict. Une affirmation notée FAUX avec 75 % de confiance signifie que les preuves pointent fortement vers FAUX, mais que le sourçage comporte des limites.
  • Probabilité (la probabilité que l’affirmation sous-jacente soit vraie) : une question distincte. Une affirmation peut être presque certainement fausse (forte probabilité de fausseté) alors que les preuves disponibles sont indirectes (confiance modérée dans le verdict).

Cette séparation suit la norme ICD 203 Standard B, qui interdit de mélanger la confiance analytique avec les évaluations de probabilité. Pour les affirmations prédictives, Veridi rapporte également une expression de probabilité utilisant une échelle verbale standardisée.


Plafonds structurels

La confiance est plafonnée par la qualité du meilleur sourçage disponible :

Niveau de sourçagePlafond de confiance
Plusieurs sources de niveau 1 concordantes95 %
Niveau 1 + corroboration de niveau 290 %
Sources de niveau 2 uniquement80 %
Niveau 3 avec corroboration65 %
Niveau 4 uniquement50 %
Aucun sourçage / assertion seule25 %

Ces plafonds sont structurels et non négociables. Ils empêchent le système d’être trompé par le volume ; de multiples sources de faible qualité ne peuvent pas se substituer à une seule source de haute qualité.


Coefficients de fiabilité disciplinaire

Chaque domaine académique et scientifique possède un coefficient de fiabilité reflétant les taux de réplication publiés et la stabilité méthodologique. Ces coefficients sont des annotations déclarées, et non des multiplicateurs de confiance.

DomaineCoefficientSource
Mathématiques0,99Estimation d’expert : les preuves sont vérifiées par déduction
Physique / Chimie0,95Estimation d’expert : cohérent avec des taux de réplication élevés
Sciences du climat (physique)0,90Estimation d’expert : fondée sur les niveaux de confiance du GIEC
Ingénierie0,90Estimation d’expert : nécessite une validation empirique
Génomique / Biologie moléculaire0,85Estimation d’expert : nécessite une validation empirique
Médecine clinique (ECR)0,80Ioannidis (2005), efforts de réplication subséquents
Économie (micro/expérimentale)0,75Camerer et al. (2016) — taux de réplication d’environ 61 %
Épidémiologie / Santé publique0,70Estimation d’expert : fondée sur la variation méta-analytique
Économie (macro)0,60Estimation d’expert : nécessite une validation empirique
Science politique0,60Estimation d’expert : nécessite une validation empirique
Psychologie (après 2015)0,55Open Science Collaboration (2015) — réplication d’environ 36-39 %
Médias sociaux / Numérique0,55Estimation d’expert : nécessite une validation empirique
Sciences de la nutrition0,50Estimation d’expert : fondée sur Ioannidis (2018)

Règles de transparence du sourçage

Chaque coefficient porte une étiquette explicite :

  • Source évaluée par les pairs : Cite l’article ou la méta-analyse spécifique. Seuls Physique/Chimie (inféré), Médecine clinique (Ioannidis), Psychologie (OSC 2015) et Économie-micro (Camerer 2016) reposent sur des fondements empiriques solides.
  • Estimation d’expert : Explicitement étiquetée comme « estimation d’expert — nécessite une validation empirique ». C’est une question d’honnêteté. Présenter des chiffres non sourcés comme faisant autorité relève du théâtre de calibrage.

La variation au sein d’un même domaine peut être considérable. Une affirmation d’épidémiologie nutritionnelle (~0,40) et une affirmation d’essai clinique randomisé en nutrition (~0,70) sont très différentes, même si toutes deux relèvent des « Sciences de la nutrition » (0,50). Lors de l’évaluation d’une affirmation spécifique, l’évaluation note si le sous-domaine diverge significativement de la moyenne du domaine.


Interaction entre les plafonds et les coefficients

Le problème qu’ils résolvent

Un prototype utilisait une interaction multiplicative : plafond de niveau x coefficient disciplinaire = confiance. Cela produisait des résultats absurdes : plafond de niveau 2 à 80 % x Nutrition à 0,55 = 44 % de confiance pour une affirmation nutritionnelle bien sourcée. Le calcul pénalisait un bon sourçage dans les domaines contestés.

L’interaction actuelle

Les plafonds de niveau et les coefficients disciplinaires remplissent des fonctions épistémiques différentes et ne se multiplient pas.

  • Les plafonds de niveau plafonnent la confiance en fonction de la qualité du sourçage. Ils répondent à la question : « Quelle est la fiabilité de notre chaîne de preuves ? »
  • Les coefficients disciplinaires sont des annotations déclarées. Ils répondent à la question : « À quelle fréquence les résultats dans ce domaine se confirment-ils dans le temps ? »

Une affirmation nutritionnelle bien sourcée avec des preuves de niveau 1 obtient la confiance appropriée en fonction du plafond de niveau. Le coefficient disciplinaire (0,50) est communiqué à titre contextuel (le lecteur doit savoir que les sciences de la nutrition ont un faible taux de réplication), mais il ne réduit pas mécaniquement l’indice de confiance.


Suivi par score de Brier

La méthodologie comprend un cadre de suivi de la précision du calibrage dans le temps à l’aide de scores de Brier. Pour chaque évaluation, l’indice de confiance est enregistré parallèlement au résultat final (lorsqu’il est connu).

Depuis la v2.5, le protocole Brier définit le « résultat » comme la correspondance avec la vérité factuelle externe — résultats électoraux, décisions judiciaires, réplications scientifiques, déterminations réglementaires et événements similaires vérifiables de manière indépendante — plutôt que la persistance du verdict (le fait que le système produirait la même réponse à nouveau). Chaque résolution est étiquetée avec un type de résolution issu d’une taxonomie définie, rendant explicite le type d’événement externe qui a résolu l’affirmation.

Cela permet de mesurer si, par exemple, les affirmations évaluées à 80 % de confiance sont effectivement correctes environ 80 % du temps. L’ensemble de données de calibrage contient actuellement plus de 50 entrées dans calibration.jsonl, bien que la plupart proviennent d’ensembles de tests connus avec une vérité factuelle préétablie. La véritable valeur de calibrage proviendra des affirmations en production dont le résultat n’est pas connu au moment de la vérification. Au fur et à mesure de l’utilisation du système en production, les données de calibrage s’accumuleront et le cadre fournira une rétroaction empirique sur la précision de la confiance.


Mécanismes de calibrage supplémentaires

Plafond d’événement en cours : Les affirmations portant sur des événements de moins de 72 heures reçoivent automatiquement un plafond de confiance reflétant le manque de fiabilité des premiers comptes rendus.

Escalade automatique : Si des indicateurs de manipulation sont détectés lors d’une évaluation de niveau Standard, le système passe automatiquement au niveau Complet pour une analyse plus approfondie. Les 12 affirmations ADV-v2 ont correctement déclenché ce mécanisme.

Normes de preuve symétriques : La même charge de la preuve est appliquée à une affirmation et à sa contre-affirmation. Cela prévient le vecteur d’attaque du scepticisme sélectif, où des normes impossiblement élevées sont appliquées à un côté tandis que l’autre est accepté sans preuve.

Évaluation de la directivité des preuves (Standard+) : Chaque évaluation classe les preuves comme Directes, Partiellement indirectes ou Indirectes, en notant les types d’indirectivité spécifiques (population, contexte, temporel, métrique). Cela suit les critères d’indirectivité GRADE et aide les lecteurs à évaluer dans quelle mesure les preuves citées répondent à l’affirmation spécifique.

Registre des hypothèses (Complet+) : Pour les verdicts non triviaux, les hypothèses explicites sont documentées avec des énoncés de conséquence-si-faux. Au niveau Forensique, l’analyse de sensibilité des hypothèses évalue si chaque hypothèse, si elle s’avérait erronée, modifierait le verdict.