Apache Tika is a toolkit for detecting and extracting metadata and structured text content from various documents using existing parser libraries. You can find the latest release on the download page. See the Getting Started guide for instructions on how to start using Tika.
U. Schindler, and I. Drost. Java Magazin, (2010)Zusätzlich interessante Punkte die im Artikel erwähnt werden:
1) Die Häufigkeit einzelner Suchanfragen ist meist zipf-verteilt.
2) Abstandsberechnung bei Geodaten über Haversinus.
3) Cartesian Tiers
4) Wissenschaftliches Infosystem PANGAEA
5) KML Regionen Dokumentation von Google
6) Geohshes.