Abstract

Während die klassische Definition von Big Data ursprünglich nur die drei Größen Datenmenge (Volume), Datenrate (Velocity) und Datenvielfalt (Variety) umfasste, ist in jüngster Zeit der Wahrheitsgehalt (Veracity) als weitere Dimension mehr und mehr in den wissenschaftlichen und praktischen Fokus gerückt. Der noch immer wachsende Bereich der Sozialen Medien und damit verbundene benutzergenerierte Datenmengen verlangen nach neuen Methoden, die die enthaltene Datenunschärfe abschätzen und kontrollieren können. Dieser Beitrag widmet sich einem Aspekt der Datenunschärfe und stellt einen neuartigen Ansatz vor, der die Verlässlichkeit von benutzergenerierten Daten auf Basis von wiederkehrenden Mustern abschätzt. Zu diesem Zweck wird eine große Menge von Twitter-Statusnachrichten mit geographischer Standortinformation aus San Francisco untersucht und mit Points of Interest (POIs), wie beispielsweise Bars, Restaurants oder Parks, in Verbindung gebracht. Das vorgeschlagene Modell wird durch kausale Beziehungen zwischen Points of Interest und den in der Umgebung vorliegenden Twitter-Meldungen validiert. Weiterhin wird die zeitliche Dimension dieser Beziehung in Betracht gezogen, um so in Abhängigkeit der Art des POI wiederkehrende Muster zu identifizieren. Die durchgeführten Analysen münden in einem Indikator, der die Verlässlichkeit von vorliegenden Daten in räumlicher und zeitlicher Dimension abschätzt.

Links and resources

Tags