Boucle de rétroaction de calibration

Comment les recommandations sont tenues responsables

Un système de recommandation qui ne suit pas son propre historique ne peut pas s’améliorer. Les deux décennies de recherche de Tetlock sur le jugement politique des experts ont établi que la qualité des prévisions s’améliore lorsque les prévisionnistes sont tenus responsables de leur calibration antérieure. Mellers et al. (2014) ont constaté que la formation, le travail en équipe et le suivi contribuent chacun indépendamment à l’amélioration de la calibration dans le Good Judgment Project. Aucun des trois n’est substituable.

Veridi formule des affirmations à confiance calibrée. Pragma émet des recommandations de politiques avec des bandes de confiance explicites. Praxis attribue des bandes de confiance de levier aux voies recommandées. Sans suivi des résultats, les trois sont non calibrés par construction : il n’y a pas de boucle fermée reliant l’attribution de confiance au temps T à ce qui s’est passé au temps T+N.

La boucle de rétroaction de calibration ferme cette boucle.

Ce que la boucle calcule

Les soumetteurs qui consentent au suivi des résultats peuvent rapporter ce qui s’est réellement passé à intervalles après leur soumission initiale : 1 semaine, 1 mois, 6 mois, 1 an (avec P9 contentieux étendu à 3 ans pour les rôles judiciaires lents). Les schémas varient selon la méthodologie et la voie, mais chaque rapport correspond à un signal numérique :

Veridi : verified (le verdict s’est confirmé) correspond à 1,0 ; falsified correspond à 0,0 ; uncertain est exclu du calcul.
Pragma : adopted correspond à 1,0 ; partial_adoption à 0,5 ; rejected et reversed à 0,0 ; stalled est exclu.
Praxis : action_taken / sustained_engagement / leverage_realized correspondent à 1,0 ; harm_experienced correspond à 0,0.

À partir de ces signaux, le système calcule des scores Brier-lite : par voie × catégorie d’enjeu pour Praxis, par recommandation × catégorie de juridiction pour Pragma, à l’échelle de la méthodologie pour Veridi. Brier est la métrique canonique d’évaluation des prévisionnistes (Tetlock & Gardner 2015) : erreur quadratique entre la probabilité prédite et le résultat réalisé. Plus c’est bas, mieux c’est calibré.

La page de calibration en direct affiche des fenêtres de 30/60/90 jours par méthodologie. Lorsque la fenêtre la plus longue contient moins de cinq résultats résolvables, le panneau affiche « boucle de calibration non encore active pour cette méthodologie » et attend que le signal s’accumule.

Ce qui déclenche un indicateur

Trois passes de détection s’exécutent sur les données de résultats agrégées :

Dérive Brier (Praxis). Par cellule voie × catégorie d’enjeu avec N≥50 résultats : se déclenche si le taux observé vs. le plafond de levier de la voie dévie de ≥0,15 en valeur absolue, OU si le Brier de la cellule vs. la base de référence méthodologique dévie de ≥0,10 en valeur absolue.

Taux de préjudice élevé (Praxis). Par voie : se déclenche si le taux de harm_experienced dépasse le plafond de classe de risque de la voie selon Praxis_Sustainability_Risk.md : voies à faible risque (P1, P4, P5) à 5%, voies à risque moyen (P2, P3, P6, P7) à 15%, voies à risque élevé (P8 Action Directe, P9 Contentieux) à 30%.

Dérive Pragma. À l’échelle de la méthodologie : se déclenche si mean_actual vs. mean_predicted dépasse 0,15 en valeur absolue.

Lorsqu’une passe se déclenche, une ligne est insérée dans la file d’examen. La détection est idempotente. La même clé ne génère pas d’indicateurs ouverts en doublon.

La discipline critique : auto-signalement, PAS auto-ajustement

Lorsqu’un indicateur se déclenche, un responsable de la méthodologie examine la file à /admin/calibration-flags, choisit une décision (raise_ceiling / lower_ceiling / add_modifier / no_action), et la décision est consignée. Les fichiers de méthodologie (Praxis_Leverage_Matching.md, Pragma_Confidence_Calibration.md, etc.) sont ensuite édités par un humain à la prochaine révision méthodologique.

Le système ne modifie jamais les fichiers de méthodologie de manière programmatique. Ceci est porteur.

Praxis_Outcome_Tracking.md §5(a) fournit la justification : « Examiner, ne pas auto-ajuster — la dérive de calibration due à un faible N ou à un biais de rapport est un risque. » Trois raisons rendent l’auto-ajustement dangereux même à grand N :

Biais de rapport. La soumission de résultats est volontaire ; les cohortes les plus disposées à rapporter penchent positivement (ou négativement) et les signaux de dérive qui en proviennent ne sont pas représentatifs de la population.
Causalité inversée. Le taux d’action observé d’une voie peut dépasser son plafond parce que le système a correctement recommandé une stratégie à fort levier ; abaisser automatiquement le plafond sur ce signal dégraderait la méthodologie.
Cohérence méthodologique. Les plafonds de voies, les hypothèses de classes de risque et les contre-mesures de gaming forment un système interdépendant. Un changement à un plafond a des implications pour les autres (par exemple, la règle d’héritage de confiance Pragma ↔ Praxis). Un responsable de la méthodologie raisonne sur l’ensemble ; un script de détection ne le fait pas.

Anonymat et consentement

Le rapport de résultats est volontaire. Sans consentement explicite au moment de la livraison de la recommandation, aucun suivi n’a lieu. Le retrait par demande est toujours disponible via le même bascule.

Tous les champs en texte libre des soumissions de résultats passent par un anonymiseur côté serveur qui retire les courriels, numéros de téléphone, adresses postales et expressions rôle + employeur avant l’agrégation. La charge utile brute est sous contrôle d’accès ; les requêtes d’agrégation ne voient que la forme anonymisée.

Des planchers de k-anonymat empêchent les vues d’administration d’exposer des données par cellule sous le seuil. Le défaut est k=10. Les voies Praxis sensibles à exposition individuelle identifiable au préjudice (P3 Levier Professionnel, P8 Action Directe, P9 Contentieux) sont par défaut à k=20 selon Praxis_Outcome_Tracking.md §4. Les deux seuils sont ajustables par les administrateurs.

Ce qui est livré, ce qui est reporté

Livré en v1.3 :

Calcul de score Brier-lite pour les trois méthodologies
Détection de seuils sur les trois passes ci-dessus
File d’examen administrateur avec consignation des décisions
Surface de calibration 30/60/90 jours sur la page de calibration en direct
K-anonymat de sensibilité par voie

Reporté à v1.4 :

Détection de signal d’épuisement (nécessite la capture du niveau d’engagement par résultat absente du schéma actuel)
Classificateur de catégorie d’enjeu basé sur LLM (la taxonomie actuelle est par mots-clés)
Outils de flux de travail résultat → édition de méthodologie (décision d’examen → génération de PR contre le dépôt de méthodologie). Pour l’instant, le responsable édite manuellement les fichiers de méthodologie après consultation de la file d’examen.

Références croisées

Accord entre évaluateurs et signal d’historique : le patron auto-signalement, pas auto-ajustement régit aussi les planchers d’α de Krippendorff et le plancher de taux de faux positifs à l’intake sur 30 jours pour les refus adversariaux.
Vue d’ensemble de la méthodologie
Méthodologie ouverte
Journal des modifications
Limites connues