Twitter wird sein frisch eingekauftes Echtzeit-DV-System Storm als Open Source veröffentlichen. Damit wird die Technik für die Parallelisierung von Datenbankabfragen für alle verfügbar.
Was verrät die Wortwahl bei Twitter über die Laune des Verfassers? Sehr viel, sagen US-Wissenschaftler. Sie haben Millionen Tweets ausgewertet und festgestellt, wann die Nutzer in Hochstimmung sind - und wann man sie besser nicht anspricht.
Tweets2011
As part of the TREC 2011 microblog track, Twitter provided identifiers for approximately 16 million tweets sampled between January 23rd and February 8th, 2011. The corpus is designed to be a reusable, representative sample of the twittersphere - i.e. both important and spam tweets are included.
Current (beta) version is 0.9.19 (25 JUN 2009). Download instructions After installation set the application premissions for twibble as described in this post.
D. Tang, F. Wei, N. Yang, M. Zhou, T. Liu, and B. Qin. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), page 1555--1565. Baltimore, Maryland, Association for Computational Linguistics, (June 2014)
M. McCord, and M. Chuah. Proceedings of the 8th International Conference on Autonomic and Trusted Computing, page 175--186. Berlin, Heidelberg, Springer-Verlag, (2011)
Y. Duan, L. Jiang, T. Qin, M. Zhou, and H. Shum. Proceedings of the 23rd International Conference on Computational Linguistics, page 295--303. Stroudsburg, PA, USA, Association for Computational Linguistics, (2010)