@book{citeulike:576709,
title = {Learning to Classify Text Using Support Vector Machines: Methods, Theory and Algorithms},
address = {Norwell, MA, USA},
author = {Thorsten Joachims},
publisher = {Kluwer Academic Publishers},
url = {http://portal.acm.org/citation.cfm?id=572351},
year = {2002},
isbn = {079237679X}, comment = {Ich habe versucht mit der Dissertation von Thorsten Joachims die Frage zu klaeren, ob man bei Bag of Word Stemming verwenden sollte oder nicht, und dabei eine Begruendung zu finden.
Leider gibt er keine verallgemeinerbare Begruendung Stemming nicht zu benutzten.
Auf S.33 sagt er zu seinen "Design Choices":
"""
* Feature selection (e.g. stemming, stopword removal, etc.) is not used unless noted otherwise.
* Stemming is performes using the Porter algorithm [Porter, 1980] implemented by B.Frakes and C.Cox.
"""
In Abschnitt 6.3 "Experiments" evaluiert er die 12 Kombinationen aus Word-Weighting, Stopword Removal und Stemming mittels mehrerer Korpora. Auf S. 110 sagt er:
"""
Regarding stemming and stopword removal, both methods most frequently select stopword removal, but no stemming for the Ohsumed corpus. The preference is less clear for the other two collections. For WebKB, the xi-alpha-estimators tie between using a stop list or not. On Reuters, stemming and stopword removal is selected with fairly equal frequency by both estimators.
"""
Im weiteren sagt er, dass er kein Stemming benutzt, um die Evaluierung einfach zu halten.
In Kapitel 10 "Conclusions" schreibt er unter "Autonomy and Flexibility" (S. 176):
"""
Chapter 6 [wie oben zitiert] shows how selecting among multiple representations, processing steps like stemming, stopword removal, and weighting schemes, as well as setting other learning parameters can be done efficiently and without need for expert interventions.
"""
Aus Thorstens Dissertation kann ich nicht herauslesen, dass man bei Bag of Words kein Stemming verwenden sollte. Er formuliert es viel eher vorsichtig im Sinne von: "Du musst ueberpruefen, ob fuer Dein task und dein Corpus Stemming zu besseren Ergebnissen fuehrt oder nicht."
}, priority = {0}, citeulike-article-id = {576709},
keywords = {allpurpose }
}