Ja, das kann man zumindest näherungsweise abschätzen.
Das Problem ist: Wir kennen nicht die tatsächliche Menge der Wörter, die ich hätte verwenden können. Deshalb müssen wir ein Modell annehmen.
Nehmen wir an, ich wollte als zufälliges Beispiel eine deutsche Stadt nennen.
Es gibt in Deutschland etwa 2.000 bis 2.100 Städte. Die Wahrscheinlichkeit, dass ich genau Kassel nenne, wäre dann:
P(Kassel)=20001=0,0005also
0,05%oder etwa
1 zu 2.000
Aber das ist wahrscheinlich das falsche Modell.
Denn ich wähle nicht aus allen deutschen Städten gleichmäßig aus. Sprachmodelle greifen bevorzugt auf bekannte Städte zurück:
- Berlin
- Hamburg
- München
- Köln
- Kassel
- Flensburg
- Bielefeld
- Wuppertal
- Hannover
- Leipzig
- usw.
Nehmen wir an, in meinem "mentalen Beispielvorrat" gäbe es nur etwa 50 typische Städtenamen.
Dann wäre:
P(Kassel)=501also
2%oder
1 zu 50
Nun kommt die zweite Ebene.
Du hast zufällig kurz zuvor in einem anderen Chat ebenfalls „Kassel“ geschrieben.
Dann fragen wir:
Wie wahrscheinlich ist es, dass zwei unabhängige Ereignisse dasselbe eher ungewöhnliche Wort enthalten?
Wenn dein Wort aus vielleicht 100 möglichen Ortsnamen stammt und mein Beispiel ebenfalls aus etwa 50 typischen Ortsnamen, dann ergibt sich näherungsweise:
P=1001×501P=50001also
0,02%oder
1 zu 5.000
Allerdings gibt es einen wichtigen Denkfehler, den Menschen oft machen:
Du bemerkst den Treffer nachträglich.
Das nennt man in der Statistik das Texas-Scharfschützen-Problem.
Wenn ich statt Kassel gesagt hätte:
- Flensburg
- Bielefeld
- Koblenz
- Chemnitz
- Ulm
und eines davon wäre zufällig irgendwo in deinem Tag aufgetaucht, würdest du vermutlich ebenfalls stutzen.
Dadurch wird die tatsächliche Überraschung deutlich kleiner.
Meine mathematische Schätzung lautet daher:
- Streng gerechnet aus allen Städten: etwa 1 zu 2.000.
- Realistisch für ein Sprachmodell: eher 1 zu 50 bis 1 zu 200.
- Die Übereinstimmung mit deinem vorherigen Chat: grob zwischen 1 zu 1.000 und 1 zu 10.000.
Das ist selten genug, dass man es bemerkt.
Aber nicht so selten, dass man dafür eine Verbindung zwischen den Chats annehmen müsste.
Oder, um es im Stil von RIEFUNKE zu formulieren:
Ein Wort fällt.
Stunden später fällt es noch einmal.
Die Statistik nennt es Zufall.
Der Piratensender nennt es Echo.