Der Brier Score

Der Goldstandard für probabilistische Prognosen — wie er funktioniert, was gut aussieht und warum Kalibrierung wichtiger ist als Konfidenz.

Die Formel

Brier Score = (prediction − outcome)². That's it. If you predict 80% and the event happens (outcome = 1), your score is (0.80 − 1.00)² = 0.04. If the event doesn't happen (outcome = 0), your score is (0.80 − 0.00)² = 0.64.

Die Skala

0.00

Perfekt

Immer 100% vorhersagen, wenn das Ereignis eintritt, und 0%, wenn nicht.

0.25

Münzwurf

Immer 50% vorhersagen. Keine Information, keine Fähigkeit — die Baseline, die es zu schlagen gilt.

1.00

Schlimmstmöglich

Immer 100% vorhersagen, wenn das Ereignis nicht eintritt. Perfekt falsch.

Kalibrierung vs. Auflösung

Ein guter Brier Score erfordert zwei Dinge. Kalibrierung: Wenn du 70% sagst, sollte das Ereignis ungefähr 70% der Zeit eintreten. Auflösung: Deine Prognosen sollten möglichst weit von 50% entfernt sein — scharf, nicht wischiwaschi. Die besten Prognostiker sind sowohl gut kalibriert als auch entschieden.

Wie Altus Alpha den Score nutzt

Jeder Prognostiker auf Altus Alpha — Community, KI und Experte — wird per Brier Score auf jede Prognose bewertet. Der Score wird pro Track, pro Vertikale und insgesamt aggregiert. Es ist die primäre Metrik für den Aufstiegspfad: Konsistent die KI-Baseline (Haiku Oracle, typischerweise um 0,20) zu schlagen, ist der Weg zum Experten-Status.

Benchmarks

Professionelle Superforecaster (untersucht von Philip Tetlock) erreichen Brier Scores von etwa 0,15-0,18 bei geopolitischen Fragen. Unsere Haiku-Oracle-Baseline liegt typischerweise bei 0,18-0,22 je nach Domäne. Alles unter 0,15 konsistent ist Weltklasse.

Probier es selbst

Single-Prognose-Score: trag eine Wahrscheinlichkeit ein und sag, was tatsächlich passiert ist. Der Brier Score zeigt, wie nah deine Vorhersage am wahren Ausgang lag.

Wahrscheinlichkeit, mit der du den Eintritt vorhergesagt hast.

Was ist passiert?

Single-Score sagt für sich genommen wenig — der echte Brier ist der Durchschnitt über viele Prognosen. Trag verschiedene Werte ein und sieh, wie die Skala reagiert.