Cadre de calibrage de la confiance
Comment les indices de confiance sont attribués
L’indice de confiance d’une évaluation Veridi représente la solidité des preuves appuyant le verdict, et non la certitude que le verdict est correct. Une affirmation peut recevoir un verdict clair (FAUX) avec une confiance modérée (75 %) si les preuves sont solides mais proviennent uniquement de sources de niveau 2.
Plafonds structurels
La confiance est plafonnée par la qualité du meilleur sourçage disponible :
| Niveau de sourçage | Plafond de confiance |
|---|---|
| Plusieurs sources de niveau 1 concordantes | 95 % |
| Niveau 1 + corroboration de niveau 2 | 90 % |
| Sources de niveau 2 uniquement | 80 % |
| Niveau 3 avec corroboration | 65 % |
| Niveau 4 uniquement | 50 % |
| Aucun sourçage / assertion seule | 25 % |
Ces plafonds sont structurels et non négociables. Ils empêchent le système d’être trompé par le volume ; de multiples sources de faible qualité ne peuvent pas se substituer à une seule source de haute qualité.
Coefficients de fiabilité disciplinaire
Chaque domaine académique et scientifique possède un coefficient de fiabilité reflétant les taux de réplication publiés et la stabilité méthodologique. Ces coefficients sont des annotations déclarées, et non des multiplicateurs de confiance.
| Domaine | Coefficient | Source |
|---|---|---|
| Mathématiques | 0,99 | Estimation d’expert : les preuves sont vérifiées par déduction |
| Physique / Chimie | 0,95 | Estimation d’expert : cohérent avec des taux de réplication élevés |
| Sciences du climat (physique) | 0,90 | Estimation d’expert : fondée sur les niveaux de confiance du GIEC |
| Ingénierie | 0,90 | Estimation d’expert : nécessite une validation empirique |
| Génomique / Biologie moléculaire | 0,85 | Estimation d’expert : nécessite une validation empirique |
| Médecine clinique (ECR) | 0,80 | Ioannidis (2005), efforts de réplication subséquents |
| Économie (micro/expérimentale) | 0,75 | Camerer et al. (2016) — taux de réplication d’environ 61 % |
| Épidémiologie / Santé publique | 0,70 | Estimation d’expert : fondée sur la variation méta-analytique |
| Économie (macro) | 0,60 | Estimation d’expert : nécessite une validation empirique |
| Science politique | 0,60 | Estimation d’expert : nécessite une validation empirique |
| Psychologie (après 2015) | 0,55 | Open Science Collaboration (2015) — réplication d’environ 36-39 % |
| Médias sociaux / Numérique | 0,55 | Estimation d’expert : nécessite une validation empirique |
| Sciences de la nutrition | 0,50 | Estimation d’expert : fondée sur Ioannidis (2018) |
Règles de transparence du sourçage
Chaque coefficient porte une étiquette explicite :
- Source évaluée par les pairs : Cite l’article ou la méta-analyse spécifique. Seuls Physique/Chimie (inféré), Médecine clinique (Ioannidis), Psychologie (OSC 2015) et Économie-micro (Camerer 2016) reposent sur des fondements empiriques solides.
- Estimation d’expert : Explicitement étiquetée comme « estimation d’expert — nécessite une validation empirique ». C’est une question d’honnêteté. Présenter des chiffres non sourcés comme faisant autorité relève du théâtre de calibrage.
La variation au sein d’un même domaine peut être considérable. Une affirmation d’épidémiologie nutritionnelle (~0,40) et une affirmation d’essai clinique randomisé en nutrition (~0,70) sont très différentes, même si toutes deux relèvent des « Sciences de la nutrition » (0,50). Lors de l’évaluation d’une affirmation spécifique, l’évaluation note si le sous-domaine diverge significativement de la moyenne du domaine.
Interaction entre les plafonds et les coefficients
Le problème qu’ils résolvent
Un prototype utilisait une interaction multiplicative : plafond de niveau x coefficient disciplinaire = confiance. Cela produisait des résultats absurdes : plafond de niveau 2 à 80 % x Nutrition à 0,55 = 44 % de confiance pour une affirmation nutritionnelle bien sourcée. Le calcul pénalisait un bon sourçage dans les domaines contestés.
L’interaction actuelle
Les plafonds de niveau et les coefficients disciplinaires remplissent des fonctions épistémiques différentes et ne se multiplient pas.
- Les plafonds de niveau plafonnent la confiance en fonction de la qualité du sourçage. Ils répondent à la question : « Quelle est la fiabilité de notre chaîne de preuves ? »
- Les coefficients disciplinaires sont des annotations déclarées. Ils répondent à la question : « À quelle fréquence les résultats dans ce domaine se confirment-ils dans le temps ? »
Une affirmation nutritionnelle bien sourcée avec des preuves de niveau 1 obtient la confiance appropriée en fonction du plafond de niveau. Le coefficient disciplinaire (0,50) est communiqué à titre contextuel (le lecteur doit savoir que les sciences de la nutrition ont un faible taux de réplication), mais il ne réduit pas mécaniquement l’indice de confiance.
Suivi par score de Brier
La méthodologie comprend un cadre de suivi de la précision du calibrage dans le temps à l’aide de scores de Brier. Pour chaque évaluation, l’indice de confiance est enregistré parallèlement au résultat final (lorsqu’il est connu). Cela permet de mesurer si, par exemple, les affirmations évaluées à 80 % de confiance sont effectivement correctes environ 80 % du temps.
Ce système de suivi est conçu mais n’a pas encore accumulé suffisamment de points de données pour atteindre une signification statistique. Au fur et à mesure de l’utilisation du système en production, les données de calibrage s’accumuleront et le cadre fournira une rétroaction empirique sur la précision de la confiance.
Mécanismes de calibrage supplémentaires
Plafond d’événement en cours : Les affirmations portant sur des événements de moins de 72 heures reçoivent automatiquement un plafond de confiance reflétant le manque de fiabilité des premiers comptes rendus.
Escalade automatique : Si des indicateurs de manipulation sont détectés lors d’une évaluation de niveau Standard, le système passe automatiquement au niveau Complet pour une analyse plus approfondie. Les 12 affirmations ADV-v2 ont correctement déclenché ce mécanisme.
Normes de preuve symétriques : La même charge de la preuve est appliquée à une affirmation et à sa contre-affirmation. Cela prévient le vecteur d’attaque du scepticisme sélectif, où des normes impossiblement élevées sont appliquées à un côté tandis que l’autre est accepté sans preuve.