Abstract

Zahlreiche Prozesse in Medien, Politik, Wirtschaft und Wissenschaft beziehen Daten zu Suchhäufigkeiten und Suchtrends bei Google in ihre Entscheidungen ein. Diese Daten stellt Google kostenlos über Google Trends bereit - auf Basis von Stichproben, deren Repräsentativität zugesichert wird. Dem Analyse- und Beratungsunternehmen HASE & IGEL fielen bei seiner Arbeit Widersprüche auf, die Zweifel an dieser Repräsentativität aufkommen ließen: so zeigen Daten, die aus Google Trends für denselben Suchbegriff (z.B. “Kurzarbeit”) und denselben Zeitraum (z.B. 1. Quartal 2020) zu verschiedenen Zeitpunkten (z.B. einmal um 20 Uhr, einmal um 21 Uhr) abgerufen werden, Werte, die so stark voneinander abweichen, dass die Trends mitunter in gänzlich verschiedene Richtungen weisen. Ein Team aus Mitarbeitern von HASE & IGEL, der Abteilung Very Large Business Applications der Uni Oldenburg sowie des L3S Research Centers der Uni Hannover untersuchte Häufigkeit, Ausmaß und Muster dieser Abweichungen. Es wurde deutlich, dass solche Widersprüche systematisch in Google Trends Daten auftreten und insbesondere bei Analysezeiträumen von weniger als 8 Monaten oft so stark ausfallen, dass sie Analysen stark verfälschen können. Die von Google beteuerte Repräsentativität der Stichproben ist in einem z.T. erheblichen Anteil der Fälle erwiesenermaßen nicht gegeben. Das seitens Google vorgebrachte Argument, entsprechende Defizite in der Zuverlässigkeit von Google Trends Daten seien auf geringe Suchvolumina zurückzuführen, greift eindeutig zu kurz: zwar ist der Zusammenhang zwischen Suchvolumen und Datenqualität signifikant, doch erklärt er bestenfalls die Hälfte der Widersprüche in den Daten und trifft nicht auf alle Suchbegriffe gleichermaßen zu. Offenkundig gibt es weitere Einflussfaktoren, die zum Teil alle Suchbegriffe gleichzeitig betreffen und nur durch Google aufgeklärt werden könnten. Für Anwender ist die Arbeit mit Google Trends Daten daher mit deutlichen Risiken behaftet, zudem die Analyse zeigt, dass der in Google Trends genannte Indexwert nur begrenzt Rückschlüsse auf das tatsächliche Suchvolumen zulässt.

Links and resources

Tags