plot scatter plot in r

plot scatter plot in r

Stell dir vor, du sitzt in einer Präsentation vor dem Vorstand eines mittelständischen Logistikunternehmens. Du hast die letzten zwei Wochen damit verbracht, Lieferkettenverzögerungen zu analysieren. Dein Ziel ist es, den Zusammenhang zwischen Treibstoffpreisen und Lieferzeiten zu demonstrieren. Du öffnest RStudio, lädst den Datensatz mit 500.000 Zeilen und tippst hektisch den Befehl für einen Plot Scatter Plot In R ein. Das Ergebnis? Ein riesiger, schwarzer Tintenklecks auf dem Bildschirm, bei dem man vor lauter Overplotting absolut nichts erkennt. Der CEO fragt: „Und was genau sehe ich da jetzt?“ Du stammelst etwas von Korrelationen, aber die Botschaft ist verloren. In diesem Moment hast du nicht nur deine Glaubwürdigkeit eingebüßt, sondern das Unternehmen wird die Entscheidung über die Routenoptimierung um einen weiteren Monat verschieben. Das kostet Zehntausende Euro an verbranntem Diesel. Ich habe das oft erlebt. Analysten glauben, dass ein Standardbefehl ausreicht, um komplexe Realitäten abzubilden. Das ist ein Irrtum, der Zeit und Nerven frisst.

Das Märchen von den Standardeinstellungen beim Plot Scatter Plot In R

Der erste Fehler, den fast jeder macht, ist der blinde Glaube an die Standardparameter von plot() oder geom_point(). Wer einfach nur die Variablen x und y übergibt, bekommt ein Ergebnis, das technisch korrekt, aber inhaltlich wertlos ist. In der Praxis führen Standardeinstellungen dazu, dass Ausreißer den gesamten Maßstab verzerren. Ich sah einmal ein Projekt in der Pharmabranche, bei dem eine fehlerhafte Kalibrierung eines Sensors dazu führte, dass ein einzelner Datenpunkt den gesamten Plot so weit zusammendrückte, dass die eigentliche Wirkstoffkurve wie eine flache Linie aussah. Das Team dachte drei Tage lang, das Experiment sei gescheitert. Dabei war es nur ein Darstellungsproblem.

Warum Transparenz kein Bonus sondern Pflicht ist

Wenn du Tausende von Punkten hast, liegen diese oft übereinander. Ohne den Parameter alpha zu setzen, weißt du nicht, ob an einer Stelle ein Punkt liegt oder zehntausend. Ein massiver schwarzer Bereich suggeriert eine Bedeutung, die vielleicht gar nicht da ist, oder er überdeckt die feine Struktur der Daten. Wer die Deckkraft nicht auf Werte wie 0.1 oder 0.05 reduziert, lügt sich bei der visuellen Analyse in die eigene Tasche. Es geht hier nicht um Ästhetik. Es geht darum, Dichte zu verstehen.

Die Falle der falschen Skalierung und Logarithmen

Ein häufiger Grund für das Scheitern bei der Erstellung von Grafiken ist das Ignorieren von Verteilungen. Viele wirtschaftliche Daten, wie Einkommen oder Firmengrößen, folgen Potenzgesetzen. Wenn du diese linear darstellst, kleben 99 % deiner Daten am linken unteren Rand, während ein paar Giganten den Rest des Platzes beanspruchen.

In meiner Laufbahn habe ich erlebt, wie ein Analyst versuchte, die Nutzeraktivität einer App darzustellen. Er weigerte sich, eine logarithmische Skala zu verwenden, weil er fürchtete, die Stakeholder würden das nicht verstehen. Das Resultat war ein Diagramm, das völlig aussagelos blieb. Erst als wir die Achsen transformierten, wurde sichtbar, dass es zwei völlig verschiedene Nutzergruppen gab – die Gelegenheitsnutzer und die Power-User. Ohne diese Erkenntnis wäre das Marketingbudget komplett falsch verteilt worden. Es ist dein Job als Praktiker, die Daten so aufzubereiten, dass die Wahrheit ans Licht kommt, auch wenn du dafür eine Skala erklären musst.

Plot Scatter Plot In R und das Problem mit kategorialen Daten

Es klingt banal, aber ich sehe es immer wieder: Leute versuchen, einen Scatterplot mit Variablen zu erstellen, die eigentlich Faktoren oder Kategorien sind, ohne die Punkte zu „jittern“. Wenn du die Zufriedenheit auf einer Skala von 1 bis 5 gegen das Alter aufträgst, landen alle Punkte exakt auf den Linien der ganzen Zahlen. Du siehst nur fünf Reihen von Punkten. Du hast keine Ahnung, ob bei „Stufe 4“ nun 100 oder 10.000 Leute sind.

Hier hilft nur jitter. Das fügt ein minimales Rauschen hinzu, damit die Punktwolke „aufbricht“. Aber Vorsicht: Wer zu viel Rauschen hinzufügt, verfälscht die Datenlage. Ein erfahrener Praktiker weiß genau, wie viel Unschärfe nötig ist, um die Masse sichtbar zu machen, ohne die Position der Einzelwerte unbrauchbar zu machen. Wer das ignoriert, produziert Grafiken, die zwar ordentlich aussehen, aber die statistische Signifikanz verschleiern.

Vorher-Nachher: Von der Datenwüste zur Erkenntnis

Schauen wir uns ein konkretes Beispiel aus der Kreditrisikoanalyse an.

Vorher: Ein Analyst bekommt den Auftrag, den Zusammenhang zwischen Kredithöhe und Ausfallwahrscheinlichkeit darzustellen. Er nutzt den Basisbefehl für einen Scatterplot. Das Ergebnis ist eine dichte Wand aus Punkten. Da viele Kredite in runden Summen vergeben werden (z.B. 10.000, 20.000 Euro), bilden sich vertikale Streifen. Man erkennt keinen Trend. Der Bericht wird mit dem Kommentar „kein klarer Zusammenhang erkennbar“ abgeheftet. Die Bank vergibt weiterhin riskante Kredite in bestimmten Segmenten, weil das Risiko im Rauschen untergegangen ist.

Nachher: Der Analyst nutzt eine hexagonale Binning-Struktur anstatt einzelner Punkte (geom_hex). Er transformiert die Kredithöhe logarithmisch, um die extremen Großkredite einzufangen. Zusätzlich legt er eine geglättete Regressionslinie (LOESS-Smoothing) über die Daten. Plötzlich wird klar: Ab einer bestimmten Kredithöhe steigt das Risiko nicht linear, sondern exponentiell an. Diese eine Grafik führt dazu, dass die Bank ihre Kreditrichtlinien für Summen über 50.000 Euro sofort verschärft. Die Zeitinvestition für die saubere Aufbereitung betrug zwei Stunden. Die Ersparnis durch vermiedene Kreditausfälle ging in die Millionen.

Der Unterschied liegt nicht im Werkzeug R selbst, sondern in der Entscheidung, wie man die Punkte im Raum verteilt und zusammenfasst.

Überfrachtung mit Farben und Legenden

Ein technischer Fehler, der oft unterschätzt wird, ist der falsche Einsatz von Farben. Ich habe Grafiken gesehen, in denen 15 verschiedene Kategorien mit 15 verschiedenen Farben dargestellt wurden. Das menschliche Auge kann das nicht mehr verarbeiten. Es entsteht kognitive Überlastung.

Die Farbwahl als strategisches Werkzeug

Wenn du Farben nutzt, dann um eine Geschichte zu erzählen. Willst du eine bestimmte Gruppe hervorheben? Dann färbe nur diese Gruppe ein und lass den Rest der Punkte in einem neutralen Hellgrau im Hintergrund. So lenkst du den Blick des Betrachters sofort auf das Wesentliche. In Deutschland legen wir Wert auf Präzision und Klarheit. Ein bunter Regenbogen auf einem Diagramm wirkt unprofessionell und lenkt von der harten Faktenlage ab. Nutze Farben wie ein Skalpell, nicht wie einen Breitpinsel.

Die Performance-Falle bei großen Datensätzen

Wenn du mit Millionen von Zeilen arbeitest, wird R langsam. Ein simpler Plot-Befehl kann dann dazu führen, dass deine Session abstürzt oder der Export der PDF-Datei mehrere hundert Megabyte groß wird, weil jeder einzelne Punkt als Vektorgrafik gespeichert wird. Das ist ein klassischer Anfängerfehler.

In der Praxis greifen wir hier zu Tricks. Entweder wir plotten nur eine repräsentative Stichprobe (Subsampling), oder wir nutzen Rastergrafiken innerhalb des Plots. Es bringt keinen Mehrwert, 10 Millionen Punkte zu zeichnen, wenn das menschliche Auge auf einem Monitor ohnehin nur ein paar tausend Pixel auflösen kann. Wer das nicht versteht, verschwendet Rechenzeit und blockiert teure Serverressourcen. Ich habe Teams gesehen, die Stunden auf das Rendern von Berichten gewartet haben, nur weil sie vergessen hatten, die Daten vor dem Plotten zu aggregieren.

Realitätscheck

Erfolgreich zu sein bedeutet hier nicht, den kompliziertesten Code zu schreiben. Es bedeutet zu akzeptieren, dass eine Grafik ein Kommunikationsmittel ist, kein Selbstzweck. Wenn du glaubst, dass du mit einem Einzeiler in R komplexe geschäftliche Probleme lösen kannst, wirst du scheitern.

Die Wahrheit ist: 80 % der Arbeit finden statt, bevor du überhaupt den ersten Punkt zeichnest. Es geht um Datenreinigung, das Handling von fehlenden Werten und die Entscheidung, welche Achsentransformation die Realität am ehrlichsten wiedergibt. Du wirst Fehler machen. Du wirst Korrelationen sehen, die nur Schein sind, weil du Ausreißer nicht bereinigt hast. Das gehört dazu. Aber wenn du aufhörst, Scatterplots als einfache Bilder zu betrachten und anfängst, sie als statistische Modelle zu begreifen, sparst du dir und deinem Arbeitgeber eine Menge Geld. Es gibt keine Abkürzung zur Erfahrung – du musst die Daten spüren und verstehen, wie sie sich unter verschiedenen Lichtwinkeln verhalten. Wer nur „schöne Bildchen“ machen will, soll PowerPoint nutzen. In R arbeiten wir für die nackte Wahrheit.

HH

Hannah Hartmann

Mit faktenbasierter Arbeitsweise liefert Hannah Hartmann Beiträge, die Leserinnen und Lesern Orientierung im Nachrichtengeschehen geben.