Data Mining versus Text Mining - wo liegt der Unterschied?
Im Text Mining werden ausschließlich textuelle Daten verarbeitet, strukturierte Daten liegen dabei brach. Im Data Mining geht es hingegen meist um strukturierte Daten. Indem Text Mining-Funktionalität in Data-Mining-Werkzeuge eingebunden wird, können sämtliche Datenarten in die Analyse einfließen. Beide Analyse-Diszipline sind verwandt - schließlich geht es in beiden Fällen um das nicht triviale Durchforsten von Daten mit unbekanntem, oft überraschendem Ergebnis.
Was sind die Herausforderungen beim Text Mining?
Die größte Herausforderung liegt im Verstehen von Text, also auf der semantischen Ebene. Das automatisierte Verstehen von Bedeutungen ist bisher nicht ausreichend gelöst, während die Syntax-Ebene - also die Zerlegung der Sprache in Worte und Grammatik - heute nicht mehr als Problem gilt.
Die schlichteste Form von Text Mining bewegt sich nur auf Wortebene. Nächste Stufe ist die Syntax, mit der grammatikalischen Zerlegung von Sätzen. Dabei werden die Wörter bestimmten Wortarten wie Nomen, Verb, Adjektiv zugeordnet (Tagging). Die Annotation erfolgt meist in XML. Auf dieser Ebene ist auch das Natural Language Processing (NLP) angesiedelt.
In Bereichen, die neben der Syntax auch die Semantik einbeziehen, werden Systeme technisch deutlich aufwendiger. Dazu gehören Anwendungen, die nicht nur nach Schlüsselwörtern in Texten suchen, sondern nach Bedeutungen oder die Kurzzusammenfassungen von Texten erstellen. Meiner Einschätzung nach werden erst im Verlauf der nächsten fünf Jahre Data Mining und Text Mining gemeinsam auf einer höheren semantischen Ebene ankommen.
Was sind mögliche Anwendungsgebiete?
Klassische Anwendungen von reinem Text Mining finden sich vor allem im Bereich Information Retrieval (IR). Ein Paradebeispiel dafür ist Google: Es geht immer darum, die Antwort auf eine Frage zu finden. Hier wird in der Forschung daran gearbeitet, auch andere Daten einzubeziehen. Anstatt wie bisher Informationen direkt aus Web-Pages zu extrahieren, werden die Anfrage-Log-Files des Search Engines untersucht - und damit die Interaktionen der User mit Seiten, aus denen sie Informationen beziehen wollen. Die zusätzlichen Anhaltspunkte aus traditionellen Quellen wie natürlich-sprachlichem Text oder Semi-strukturierten Text wie Tabellen sollen dabei helfen, die Qualität des Outputs weiter zu verbessern. Auch das Wissen, ob die Informationen von einem Experten oder einem Laien benötigt werden, könnten dabei helfen, passender zugeschnittene Informationen zurückzuliefern.
Es lässt sich auch eine starke Tendenz feststellen, Text Mining im Security-Bereich einzusetzen. Beispielsweise adressiert die Europäische Kommission Sicherheitsfragen, indem sie Nachrichtentexte nach Begriffen durchsucht, die auf Terrorakte hinweisen könnten.
Welche Methoden werden angewandt und gibt es hier neue Entwicklungen?
Neben dem Natural Language Processing (NLP), also der Spracherkennung und Sprachsynthese, gehört Clustering ganz ähnlich wie beim Data Mining zu den traditionellen Methoden. Der wesentliche Trend besteht derzeit darin, Text Mining durch das Einbeziehen weiterer Daten zu personalisieren. Ein Beispiel dafür ist auch das Thema Spamfilter, die in Unternehmen verwendet werden. Hier wird es immer wichtiger, dass je nach Person unterschieden wird, was Spam ist und was nicht: während für die meisten Mitarbeiter Mails zu Bankkrediten irrelevant sind, könnte es für die Finanzabteilung sinnvoll sein, diese Mails zu lesen.
Was ist beim Zusammenspiel von Data Mining und Text Mining wichtig?
Text wird sehr häufig in unstrukturierter Form gespeichert, in E-Mails, PDF-Dateien oder auch in Freitext-Feldern. Letztlich ist es für die Performance und Qualität von Data Mining bereichernd, Informationen aus Text zu extrahieren und zu verwerten. Durch integrierte Text-Mining-Funktionalität lässt sich die Qualität der Modelle zum Teil deutlich verbessern - der Nutzen macht sich beispielsweise in gesteigerten Responseraten von Kampagnen oder im erfolgreichen Churn Management (Abwanderungsverhalten der Kunden) bemerkbar.
Wo sieht sich hier KXEN?
Der KXEN Text Coder bezieht Text in die Data-Mining-Analysen ein. Die Verarbeitung der textuellen Daten erfolgt mit KXEN, indem alle Textfelder in einer Datei zusammengefasst, Wörter extrahiert und Filter angewendet werden. Füllwörter wie "und", "der", "von" oder "auf" ohne eigenen Informationsgehalt werden aussortiert. Anhand von Grammatikfiltern erfolgt eine Zuordnung der Wörter zu gemeinsamen Wurzeln. Anschließend wird eine Variable für jede ermittelte Wortwurzel hinzugefügt und für jeden Kunden die Anzahl des Auftretens dieser Wurzel im zugeordneten Textfeld angegeben. Mit einfachem NLP bewegt sich das Werkzeug auf der Ebene von Textklassifizierung und -Kategorisierung.
Während klassisches Text Mining nur freien Text analysiert, bezieht KXEN sämtliche Variablen mit ein, zum Beispiel auch Ergebnisse von Multiple-Choice-Fragen. Entscheidend ist letztlich die gemeinsame Auswertung von Text-, Transaktions- Verhaltens- und numerischen Daten, durch die sich ansonsten nicht sichtbare Zusammenhänge aufdecken lassen.
Können Sie anhand von ein, zwei kurzen Anwendungsbeispielen mit Referenzkunden die Möglichkeiten von Text Mining in der Praxis erläutern?
Es gibt eine breite Spannweite von Anwendungsbereichen. Die französische Post setzt KXEN beispielsweise ein, um Übergriffe (verbal oder körperlich) auf die Mitarbeiter in den Postfilialen zu analysieren. Die Postangestellten berichten von solchen Vorfällen in einem Formular, das neben Click-Boxen auch Felder für freien Text enthält, der ebenfalls analysiert wird. Sinn dabei ist, durch Vorhersage-Ergebnisse und Aussagen aus dem Data Mining Übergriffe zu verhindern. Dazu fließen auch Daten aus dem Geo-Marketing ein, sodass regionale Zusammenhänge erkennbar werden. Nach eigenen Angaben konnte La Poste so eine deutliche Verringerung entsprechender Vorfälle erzielen.
Die Kombination von Data- und Text-Mining wird von Eptica (einem Spin-out des Airbus-Herstellers EADS) für seine Software genutzt, die eingehende E-Mails kategorisiert und dem richtigen Ansprechpartner im Unternehmen zuzuordnen. Ein weiteres Beispiel ist die Anwendung im Automotive-Bereich. OEMs nutzen die Lösung, um Aussagen über die Zuverlässigkeit von Fahrzeugteilen zu erhalten. Die Vertragswerkstätten protokollieren Reparaturen mit Hilfe von Formularen, die auch Freitext enthalten. Ziel ist unter anderem festzustellen, ob Teile bestimmter Zulieferer in den ersten zwei Jahren häufiger ausfallen.
Wie schätzen Sie den Markt für Text Mining ein - wie wird er sich entwickeln?
Einfach aufgrund der zunehmenden Entwicklung des Internet wird auch Text Mining - gepaart mit Data Mining - immer wichtiger. Tieferes Wissen über die Bedürfnisse desjenigen, der fragt, in die Informationssuche mit einzubeziehen, ist ein wesentlicher Aspekt künftiger Information-Retrieval-Anwendungen.



7/2011
6/2011
5/2011


Mag. Carl-Markus Piswanger, MAS ist freier Journalist, Projektberater und hauptberuflich IT-Architekt. Er ist ausgebildeter Versicherungskaufmann, studierter Historiker und postgradualer E-Government-Experte. Er war beim ISP Netway, der Österreichischen Post und der Seibersdorf Research beschäftigt und seit 2004 als IT-Architekt im Bundesrechenzentrum. Der Wiener ist glücklich nicht verheiratet und hat einen Sohn. 