Cadre de calibrage de la confiance

Comment les indices de confiance sont attribués

L’indice de confiance d’une évaluation Veridi représente la solidité des preuves appuyant le verdict, et non la certitude que le verdict est correct. Une affirmation peut recevoir un verdict clair (FAUX) avec une confiance modérée (75 %) si les preuves sont solides mais proviennent uniquement de sources de niveau 2.


Plafonds structurels

La confiance est plafonnée par la qualité du meilleur sourçage disponible :

Niveau de sourçagePlafond de confiance
Plusieurs sources de niveau 1 concordantes95 %
Niveau 1 + corroboration de niveau 290 %
Sources de niveau 2 uniquement80 %
Niveau 3 avec corroboration65 %
Niveau 4 uniquement50 %
Aucun sourçage / assertion seule25 %

Ces plafonds sont structurels et non négociables. Ils empêchent le système d’être trompé par le volume ; de multiples sources de faible qualité ne peuvent pas se substituer à une seule source de haute qualité.


Coefficients de fiabilité disciplinaire

Chaque domaine académique et scientifique possède un coefficient de fiabilité reflétant les taux de réplication publiés et la stabilité méthodologique. Ces coefficients sont des annotations déclarées, et non des multiplicateurs de confiance.

DomaineCoefficientSource
Mathématiques0,99Estimation d’expert : les preuves sont vérifiées par déduction
Physique / Chimie0,95Estimation d’expert : cohérent avec des taux de réplication élevés
Sciences du climat (physique)0,90Estimation d’expert : fondée sur les niveaux de confiance du GIEC
Ingénierie0,90Estimation d’expert : nécessite une validation empirique
Génomique / Biologie moléculaire0,85Estimation d’expert : nécessite une validation empirique
Médecine clinique (ECR)0,80Ioannidis (2005), efforts de réplication subséquents
Économie (micro/expérimentale)0,75Camerer et al. (2016) — taux de réplication d’environ 61 %
Épidémiologie / Santé publique0,70Estimation d’expert : fondée sur la variation méta-analytique
Économie (macro)0,60Estimation d’expert : nécessite une validation empirique
Science politique0,60Estimation d’expert : nécessite une validation empirique
Psychologie (après 2015)0,55Open Science Collaboration (2015) — réplication d’environ 36-39 %
Médias sociaux / Numérique0,55Estimation d’expert : nécessite une validation empirique
Sciences de la nutrition0,50Estimation d’expert : fondée sur Ioannidis (2018)

Règles de transparence du sourçage

Chaque coefficient porte une étiquette explicite :

  • Source évaluée par les pairs : Cite l’article ou la méta-analyse spécifique. Seuls Physique/Chimie (inféré), Médecine clinique (Ioannidis), Psychologie (OSC 2015) et Économie-micro (Camerer 2016) reposent sur des fondements empiriques solides.
  • Estimation d’expert : Explicitement étiquetée comme « estimation d’expert — nécessite une validation empirique ». C’est une question d’honnêteté. Présenter des chiffres non sourcés comme faisant autorité relève du théâtre de calibrage.

La variation au sein d’un même domaine peut être considérable. Une affirmation d’épidémiologie nutritionnelle (~0,40) et une affirmation d’essai clinique randomisé en nutrition (~0,70) sont très différentes, même si toutes deux relèvent des « Sciences de la nutrition » (0,50). Lors de l’évaluation d’une affirmation spécifique, l’évaluation note si le sous-domaine diverge significativement de la moyenne du domaine.


Interaction entre les plafonds et les coefficients

Le problème qu’ils résolvent

Un prototype utilisait une interaction multiplicative : plafond de niveau x coefficient disciplinaire = confiance. Cela produisait des résultats absurdes : plafond de niveau 2 à 80 % x Nutrition à 0,55 = 44 % de confiance pour une affirmation nutritionnelle bien sourcée. Le calcul pénalisait un bon sourçage dans les domaines contestés.

L’interaction actuelle

Les plafonds de niveau et les coefficients disciplinaires remplissent des fonctions épistémiques différentes et ne se multiplient pas.

  • Les plafonds de niveau plafonnent la confiance en fonction de la qualité du sourçage. Ils répondent à la question : « Quelle est la fiabilité de notre chaîne de preuves ? »
  • Les coefficients disciplinaires sont des annotations déclarées. Ils répondent à la question : « À quelle fréquence les résultats dans ce domaine se confirment-ils dans le temps ? »

Une affirmation nutritionnelle bien sourcée avec des preuves de niveau 1 obtient la confiance appropriée en fonction du plafond de niveau. Le coefficient disciplinaire (0,50) est communiqué à titre contextuel (le lecteur doit savoir que les sciences de la nutrition ont un faible taux de réplication), mais il ne réduit pas mécaniquement l’indice de confiance.


Suivi par score de Brier

La méthodologie comprend un cadre de suivi de la précision du calibrage dans le temps à l’aide de scores de Brier. Pour chaque évaluation, l’indice de confiance est enregistré parallèlement au résultat final (lorsqu’il est connu). Cela permet de mesurer si, par exemple, les affirmations évaluées à 80 % de confiance sont effectivement correctes environ 80 % du temps.

Ce système de suivi est conçu mais n’a pas encore accumulé suffisamment de points de données pour atteindre une signification statistique. Au fur et à mesure de l’utilisation du système en production, les données de calibrage s’accumuleront et le cadre fournira une rétroaction empirique sur la précision de la confiance.


Mécanismes de calibrage supplémentaires

Plafond d’événement en cours : Les affirmations portant sur des événements de moins de 72 heures reçoivent automatiquement un plafond de confiance reflétant le manque de fiabilité des premiers comptes rendus.

Escalade automatique : Si des indicateurs de manipulation sont détectés lors d’une évaluation de niveau Standard, le système passe automatiquement au niveau Complet pour une analyse plus approfondie. Les 12 affirmations ADV-v2 ont correctement déclenché ce mécanisme.

Normes de preuve symétriques : La même charge de la preuve est appliquée à une affirmation et à sa contre-affirmation. Cela prévient le vecteur d’attaque du scepticisme sélectif, où des normes impossiblement élevées sont appliquées à un côté tandis que l’autre est accepté sans preuve.