corpus of contemporary american english

corpus of contemporary american english

Mark Davies saß in seinem Büro an der Brigham Young University, umgeben von der Stille, die oft nur in den spätabendlichen Korridoren akademischer Gebäude herrscht. Vor ihm auf dem Bildschirm flimmerten keine Bilder, keine Gesichter, keine Landschaften. Es waren nur Wörter. Tausende, Millionen, Milliarden von Wörtern, die wie digitale Sedimentlagen übereinandergestapelt waren. In diesem Moment, als der Cursor gleichmäßig pulsierte, war er nicht bloß ein Linguist, der Datenbanken pflegte. Er war ein Kartograf eines unsichtbaren Kontinents, der sich mit jeder Sekunde veränderte. Er blickte in das Herz des Corpus Of Contemporary American English, jenes monumentale Archiv, das den Anspruch erhob, den Herzschlag einer ganzen Nation in Echtzeit zu protrahieren. Es war der Versuch, das Unfassbare festzuhalten: wie wir sprechen, wenn wir nicht darüber nachdenken, wie wir sprechen.

Sprache ist ein lebender Organismus, der sich ständig häutet. Wir bemerken es kaum im Alltag. Ein Wort, das gestern noch frisch und gewagt klang, wirkt heute bereits verstaubt. Ein anderes, das vor einem Jahrzehnt noch gar nicht existierte, ist plötzlich so fest im kollektiven Bewusstsein verankert, als wäre es seit den Tagen Shakespeares Teil des menschlichen Inventars. Davies und sein Team schufen mit ihrem Projekt ein Werkzeug, das diese Metamorphose messbar machte. Es ging nicht darum, vorzuschreiben, was richtig oder falsch sei. Es ging darum, Zeuge zu sein. Wer die Milliarden von Datensätzen durchforstet, sieht nicht nur Buchstabenfolgen. Man sieht die Angst einer Gesellschaft nach dem 11. September, die Euphorie technischer Durchbrüche und das langsame Erstarren oder Aufweichen sozialer Normen.

In den deutschen Sprachwissenschaften blickt man oft mit einer Mischung aus Neid und Bewunderung auf solche Giganten der Datenerfassung. Während hierzulande das Leibniz-Institut für Deutsche Sprache in Mannheim mit dem Deutschen Referenzkorpus (DeReKo) ähnliche Herkulesaufgaben stemmt, hat die schiere Masse des amerikanischen Gegenstücks eine eigene kulturelle Gravitation entwickelt. Es ist, als würde man versuchen, den Wind zu fotografieren. Man sieht ihn nicht direkt, aber man sieht die Bäume, die sich biegen, und den Staub, der von den Straßen aufgewirbelt wird.

Das Echo der Millionen Stimmen im Corpus Of Contemporary American English

Stellen wir uns eine junge Frau vor, die in einer kleinen Wohnung in Berlin-Neukölln an ihrer Masterarbeit schreibt. Sie untersucht, wie sich das Wort „hope“ in den Reden amerikanischer Präsidenten über drei Jahrzehnte hinweg verändert hat. Ohne das Archiv aus Utah wäre sie blind. Sie müsste sich auf ihr Bauchgefühl verlassen oder mühsam hunderte von PDF-Dateien durchsuchen. Doch mit ein paar Klicks offenbart ihr die Maschine eine semantische Landkarte. Sie sieht, wie das Wort in den Neunzigern oft mit wirtschaftlichem Aufstieg verknüpft war, wie es in der Ära Obama zu einem fast religiösen Mantra aufstieg und wie es in späteren Jahren eine dunklere, verzweifeltere Tönung annahm.

Diese wissenschaftliche Infrastruktur erlaubt es uns, hinter den Vorhang der Intuition zu blicken. Wir glauben zu wissen, wie wir reden, aber unser Gedächtnis ist ein unzuverlässiger Erzähler. Wir neigen dazu, die Vergangenheit zu glätten oder die Gegenwart zu dramatisieren. Die Daten hingegen lügen nicht. Sie zeigen uns die nackte Frequenz. Sie zeigen uns, dass Wörter wie Geister durch die Zeit wandern, manchmal verblassen sie bis zur Unkenntlichkeit, nur um in einem neuen Kontext, in einem neuen Jahrzehnt, plötzlich wieder hellaufzuleuchten.

Die Architektur des digitalen Gedächtnisses

Das System ist nicht einfach eine lose Sammlung von Texten. Es ist eine sorgfältig kuratierte Schichtung aus verschiedenen Sphären des Lebens. Da sind die Transkripte von Nachrichtensendungen, in denen die Sprache schnell, präzise und manchmal reißerisch ist. Da sind die flüchtigen Dialoge aus Seifenopern und Filmen, die versuchen, die Alltagssprache zu imitieren, sie dabei aber oft unfreiwillig konservieren wie Insekten in Bernstein. Und da sind die akademischen Texte, die wie schwere Gletschermassen nur langsam voranschreiten.

Wenn man diese verschiedenen Schichten vergleicht, erkennt man die Reibungsflächen der Kultur. Ein Begriff mag in der akademischen Welt bereits seit Jahren etabliert sein, bevor er den Sprung in die Abendnachrichten schafft. Manchmal ist es umgekehrt: Ein Slangbegriff aus den Straßen von Atlanta oder der Bronx schießt wie eine Rakete durch die sozialen Medien und landet schließlich, fast ein wenig deplatziert wirkend, in einem Leitartikel der New York Times. Das Archiv registriert diesen Aufstieg mit der kühlen Präzision eines Seismographen.

Es gibt eine tiefe Menschlichkeit in dieser technischen Struktur. Jedes Mal, wenn ein Linguist eine Abfrage startet, sucht er eigentlich nach Verbindung. Warum benutzen wir bestimmte Metaphern, wenn wir über Krankheiten sprechen? Warum verändern sich die Adjektive, mit denen wir technologischen Fortschritt beschreiben, von „wunderbar“ hin zu „effizient“? Die Antworten auf diese Fragen liegen in den Mustern verborgen, die erst sichtbar werden, wenn man aus einer Distanz von fünfhundert Millionen Wörtern auf das Bild blickt.

Die Vermessung der flüchtigen Gegenwart

In der Linguistik spricht man oft von der Kluft zwischen Kompetenz und Performanz – zwischen dem, was wir theoretisch über Sprache wissen, und dem, was wir tatsächlich sagen, wenn wir betrunken, müde oder verliebt sind. Das Projekt in Utah fängt diese Performanz ein. Es ist ein Korrektiv gegen den Elfenbeinturm. Früher waren es die Lexikografen, die in ihren stillen Kämmerlein entschieden, welche Wörter es wert waren, im Wörterbuch zu stehen. Sie waren die Torwächter der Bedeutung. Heute ist die Macht gewandert. Die Datenmenge im Corpus Of Contemporary American English hat die Autorität der Einzelperson durch die Autorität der Menge ersetzt.

Das ist ein demokratischer Prozess, aber er ist nicht ohne Melancholie. Denn wenn die Maschine uns spiegelt, sehen wir auch unsere hässlichen Seiten. Wir sehen die Zyklen von Vorurteilen, die sich in festgefahrenen Wortkombinationen manifestieren. Wir sehen, wie bestimmte Gruppen von Menschen über Jahrzehnte hinweg sprachlich marginalisiert wurden, indem ihnen immer wieder die gleichen, einschränkenden Attribute zugeschrieben wurden. Die Sprachstatistik wird so zu einem Spiegelkabinett unserer gesellschaftlichen Versäumnisse.

Man kann sich die Arbeit an diesem Korpus wie die Restaurierung eines riesigen, niemals fertiggestellten Freskos vorstellen. Jeden Tag kommen neue Pinselstriche hinzu. Manche sind kräftig und bunt, andere sind nur feine graue Linien. Der Restaurator muss entscheiden, wie er diese Fragmente ordnet, damit das Gesamtbild erkennbar bleibt. Dabei geht es nicht nur um die schiere Menge. Es geht um die Repräsentativität. Wenn man nur die Zeitungen archivieren würde, bekäme man ein verzerrtes Bild der Welt – ein Bild, das nur aus den Gedanken derer besteht, die bezahlt werden, um zu schreiben.

Um die wahre Seele einer Sprache zu erfassen, muss man auch dorthin schauen, wo es wehtut oder wo es banal ist. Man muss die Sprache der Blogs lesen, die emotionalen Ausbrüche in Kommentarspalten, die hölzernen Dialoge in Fachzeitschriften. Nur in der Summe all dieser Unvollkommenheiten entsteht etwas, das der Wahrheit nahekommt. Es ist eine Suche nach dem authentischen Moment in einem Ozean aus Rauschen.

Die Komplexität dieser Aufgabe wächst mit der Digitalisierung. Früher war ein Text ein abgeschlossenes Objekt, gedruckt auf Papier, mit einem klaren Anfang und einem Ende. Heute ist Sprache flüssig. Ein Tweet wird gelöscht, ein Artikel wird ständig aktualisiert, ein Meme verändert seine Bedeutung innerhalb von Stunden. Wie fängt man einen Fluss ein, der seine Richtung ändert, während man noch das Ufer vermisst? Die Techniker hinter dem Projekt müssen sich diesen Fragen stellen, wohl wissend, dass jede Lösung nur ein Provisorium sein kann.

Der deutsche Blick auf den amerikanischen Sprachschatz

In Europa, insbesondere im deutschsprachigen Raum, hat die Beschäftigung mit solchen Datenbanken oft eine andere Nuance. Hier schwingt immer die Frage der Identität mit. Die deutsche Sprache, mit ihrer starken regionalen Verwurzelung und den komplexen grammatikalischen Strukturen, wehrt sich manchmal sperriger gegen die rein statistische Erfassung als das oft pragmatischere Englisch. Doch gerade dieser Widerstand macht die Arbeit so wertvoll. Wenn wir sehen, wie das Amerikanische sich ausbreitet, wie Anglizismen in unseren Alltag sickern, dann brauchen wir diese Daten, um zu verstehen, was wir verlieren und was wir gewinnen.

Es ist kein Zufall, dass viele deutsche Universitäten Abonnements für diese amerikanischen Datenbanken halten. Es ist die Neugier auf das Labor der Welt. Amerika war lange Zeit das Land, in dem sprachliche Trends geboren wurden, bevor sie wie eine Flutwelle über den Atlantik schwappten. Wer die Daten aus Provo studiert, sieht die Zukunft der eigenen Sprache oft schon Jahre im Voraus kommen. Es ist eine Art Frühwarnsystem für kulturellen Wandel.

Aber es ist auch eine Erinnerung daran, dass Sprache uns gehört. Sie ist das einzige Gut, das wir alle gemeinsam besitzen und das wir jeden Tag neu erschaffen. Niemand muss eine Gebühr bezahlen, um ein neues Wort zu erfinden. Niemand braucht eine Erlaubnis, um eine alte Redewendung neu zu interpretieren. Die Datenbanken sind lediglich die Chronisten dieser kollektiven Kreativität. Sie sind die Buchhalter unserer Phantasie.

Wenn man sich tief in die Strukturen einliest, vergisst man irgendwann die Zahlen. Man beginnt, die Stimmen zu hören. Man hört den wütenden Anrufer in einer Talkshow im Jahr 1994, der sich über die Regierung beschwert. Man hört den sanften Tonfall eines Biografen, der das Leben einer vergessenen Künstlerin nachzeichnet. Man hört das Stottern und die Pausen, die in den Transkripten sorgfältig vermerkt sind. Diese Pausen sind oft am aussagekräftigsten. Sie sind die Momente, in denen die Sprache versagt, in denen wir nach Worten suchen, die noch nicht existieren.

Das Projekt ist somit auch ein Mahnmal für das Unausgesprochene. Es zeigt uns die Grenzen unseres Ausdrucksvermögens auf. Wenn ein Thema in den Daten nicht vorkommt, existiert es in der öffentlichen Wahrnehmung oft nicht. Die Abwesenheit von Wörtern kann genauso viel über eine Gesellschaft aussagen wie ihre Allgegenwart. In den dunklen Flecken der Sprachkarte verbergen sich die Tabus und die blinden Flecke unserer Zeit.

Eines Tages werden Forscher auf unsere Epoche zurückblicken. Sie werden die Festplatten untersuchen, auf denen diese Korpora gespeichert sind, so wie wir heute Hieroglyphen oder mittelalterliche Handschriften untersuchen. Sie werden über unsere Sorgen lächeln, über unsere Obsessionen staunen und vielleicht Mitleid mit unserer Unbeholfenheit haben. Sie werden sehen, dass wir versuchten, alles festzuhalten, weil wir spürten, wie schnell uns die Gegenwart zwischen den Fingern zerrinnt.

Vielleicht werden sie erkennen, dass wir in all den Datenreihen eigentlich nur nach uns selbst gesucht haben. Wir wollten wissen, wer wir sind, indem wir zählten, wie oft wir „ich“ und wie oft wir „wir“ sagten. Wir suchten nach Trost in der Bestätigung, dass andere die gleichen Worte für ihren Schmerz und ihre Freude fanden wie wir. Die Sprache ist die Brücke, die wir über den Abgrund der Einsamkeit bauen, und die Statistik ist lediglich der Beweis, dass die Brücke hält.

Mark Davies schaltete schließlich das Licht in seinem Büro aus. Draußen über den Bergen von Utah spannt sich ein Sternenhimmel, der so weit und unergründlich ist wie die Datenbanken auf seinen Servern. Die Welt schlief, aber sie hörte nicht auf zu sprechen. In Krankenhäusern, in Polizeistationen, in Bars und in Kinderzimmern wurden in diesem Moment tausende neuer Sätze geboren. Sie würden morgen Teil der Statistik sein, kleine digitale Lichtpunkte in einem unendlichen Universum aus Bedeutung.

In der Stille der Nacht bleibt nur das leise Summen der Lüfter im Serverraum zurück, das rhythmische Atmen einer Maschine, die die Träume und Gespräche einer ganzen Kultur bewacht. Jeder einzelne Satz, so flüchtig er auch sein mag, ist ein Zeugnis unserer Existenz, ein kleiner Funke Verstand in der Dunkelheit, der darauf wartet, von jemandem gefunden und verstanden zu werden.

👉 Siehe auch: diesen Beitrag

Die Suche nach dem richtigen Wort endet nie, sie verschiebt sich nur immer weiter zum Horizont.

MM

Miriam Müller

Miriam Müller setzt auf Journalismus, der erklärt statt zuzuspitzen, und liefert damit echten Mehrwert für das Publikum.