Newsfeed abonnieren
Business Intelligence | CPM

Interview mit Francoise Soulie Fogelman, KXEN

Herausforderung Text Mining

Françoise Soulie Fogelman leitet beim Data Minig Spezialisten KXEN den Bereich Geschäftsentwicklung. Sie verfügt über 30 Jahre Erfahrung im Bereich Datenanalyse, Data Mining und CRM - sowohl aus der akademischen Sicht als auch aus der Praxis. MONITOR traf sie zum Gespräch.

Data Mining versus Text Mining - wo liegt der Unterschied?

Im Text Mining werden ausschließlich textuelle Daten verarbeitet, strukturierte Daten liegen dabei brach. Im Data Mining geht es hingegen meist um strukturierte Daten. Indem Text Mining-Funktionalität in Data-Mining-Werkzeuge eingebunden wird, können sämtliche Datenarten in die Analyse einfließen. Beide Analyse-Diszipline sind verwandt - schließlich geht es in beiden Fällen um das nicht triviale Durchforsten von Daten mit unbekanntem, oft überraschendem Ergebnis.

Was sind die Herausforderungen beim Text Mining?

Die größte Herausforderung liegt im Verstehen von Text, also auf der semantischen Ebene. Das automatisierte Verstehen von Bedeutungen ist bisher nicht ausreichend gelöst, während die Syntax-Ebene - also die Zerlegung der Sprache in Worte und Grammatik - heute nicht mehr als Problem gilt.

Die schlichteste Form von Text Mining bewegt sich nur auf Wortebene. Nächste Stufe ist die Syntax, mit der grammatikalischen Zerlegung von Sätzen. Dabei werden die Wörter bestimmten Wortarten wie Nomen, Verb, Adjektiv zugeordnet (Tagging). Die Annotation erfolgt meist in XML. Auf dieser Ebene ist auch das Natural Language Processing (NLP) angesiedelt.

In Bereichen, die neben der Syntax auch die Semantik einbeziehen, werden Systeme technisch deutlich aufwendiger. Dazu gehören Anwendungen, die nicht nur nach Schlüsselwörtern in Texten suchen, sondern nach Bedeutungen oder die Kurzzusammenfassungen von Texten erstellen. Meiner Einschätzung nach werden erst im Verlauf der nächsten fünf Jahre Data Mining und Text Mining gemeinsam auf einer höheren semantischen Ebene ankommen.

Was sind mögliche Anwendungsgebiete?

Klassische Anwendungen von reinem Text Mining finden sich vor allem im Bereich Information Retrieval (IR). Ein Paradebeispiel dafür ist Google: Es geht immer darum, die Antwort auf eine Frage zu finden. Hier wird in der Forschung daran gearbeitet, auch andere Daten einzubeziehen. Anstatt wie bisher Informationen direkt aus Web-Pages zu extrahieren, werden die Anfrage-Log-Files des Search Engines untersucht - und damit die Interaktionen der User mit Seiten, aus denen sie Informationen beziehen wollen. Die zusätzlichen Anhaltspunkte aus traditionellen Quellen wie natürlich-sprachlichem Text oder Semi-strukturierten Text wie Tabellen sollen dabei helfen, die Qualität des Outputs weiter zu verbessern. Auch das Wissen, ob die Informationen von einem Experten oder einem Laien benötigt werden, könnten dabei helfen, passender zugeschnittene Informationen zurückzuliefern.

Es lässt sich auch eine starke Tendenz feststellen, Text Mining im Security-Bereich einzusetzen. Beispielsweise adressiert die Europäische Kommission Sicherheitsfragen, indem sie Nachrichtentexte nach Begriffen durchsucht, die auf Terrorakte hinweisen könnten.

Welche Methoden werden angewandt und gibt es hier neue Entwicklungen?

Neben dem Natural Language Processing (NLP), also der Spracherkennung und Sprachsynthese, gehört Clustering ganz ähnlich wie beim Data Mining zu den traditionellen Methoden. Der wesentliche Trend besteht derzeit darin, Text Mining durch das Einbeziehen weiterer Daten zu personalisieren. Ein Beispiel dafür ist auch das Thema Spamfilter, die in Unternehmen verwendet werden. Hier wird es immer wichtiger, dass je nach Person unterschieden wird, was Spam ist und was nicht: während für die meisten Mitarbeiter Mails zu Bankkrediten irrelevant sind, könnte es für die Finanzabteilung sinnvoll sein, diese Mails zu lesen.

Was ist beim Zusammenspiel von Data Mining und Text Mining wichtig?

Text wird sehr häufig in unstrukturierter Form gespeichert, in E-Mails, PDF-Dateien oder auch in Freitext-Feldern. Letztlich ist es für die Performance und Qualität von Data Mining bereichernd, Informationen aus Text zu extrahieren und zu verwerten. Durch integrierte Text-Mining-Funktionalität lässt sich die Qualität der Modelle zum Teil deutlich verbessern - der Nutzen macht sich beispielsweise in gesteigerten Responseraten von Kampagnen oder im erfolgreichen Churn Management (Abwanderungsverhalten der Kunden) bemerkbar.

Wo sieht sich hier KXEN?

Der KXEN Text Coder bezieht Text in die Data-Mining-Analysen ein. Die Verarbeitung der textuellen Daten erfolgt mit KXEN, indem alle Textfelder in einer Datei zusammengefasst, Wörter extrahiert und Filter angewendet werden. Füllwörter wie "und", "der", "von" oder "auf" ohne eigenen Informationsgehalt werden aussortiert. Anhand von Grammatikfiltern erfolgt eine Zuordnung der Wörter zu gemeinsamen Wurzeln. Anschließend wird eine Variable für jede ermittelte Wortwurzel hinzugefügt und für jeden Kunden die Anzahl des Auftretens dieser Wurzel im zugeordneten Textfeld angegeben. Mit einfachem NLP bewegt sich das Werkzeug auf der Ebene von Textklassifizierung und -Kategorisierung.

Während klassisches Text Mining nur freien Text analysiert, bezieht KXEN sämtliche Variablen mit ein, zum Beispiel auch Ergebnisse von Multiple-Choice-Fragen. Entscheidend ist letztlich die gemeinsame Auswertung von Text-, Transaktions- Verhaltens- und numerischen Daten, durch die sich ansonsten nicht sichtbare Zusammenhänge aufdecken lassen.

Können Sie anhand von ein, zwei kurzen Anwendungsbeispielen mit Referenzkunden die Möglichkeiten von Text Mining in der Praxis erläutern?

Es gibt eine breite Spannweite von Anwendungsbereichen. Die französische Post setzt KXEN beispielsweise ein, um Übergriffe (verbal oder körperlich) auf die Mitarbeiter in den Postfilialen zu analysieren. Die Postangestellten berichten von solchen Vorfällen in einem Formular, das neben Click-Boxen auch Felder für freien Text enthält, der ebenfalls analysiert wird. Sinn dabei ist, durch Vorhersage-Ergebnisse und Aussagen aus dem Data Mining Übergriffe zu verhindern. Dazu fließen auch Daten aus dem Geo-Marketing ein, sodass regionale Zusammenhänge erkennbar werden. Nach eigenen Angaben konnte La Poste so eine deutliche Verringerung entsprechender Vorfälle erzielen.

Die Kombination von Data- und Text-Mining wird von Eptica (einem Spin-out des Airbus-Herstellers EADS) für seine Software genutzt, die eingehende E-Mails kategorisiert und dem richtigen Ansprechpartner im Unternehmen zuzuordnen. Ein weiteres Beispiel ist die Anwendung im Automotive-Bereich. OEMs nutzen die Lösung, um Aussagen über die Zuverlässigkeit von Fahrzeugteilen zu erhalten. Die Vertragswerkstätten protokollieren Reparaturen mit Hilfe von Formularen, die auch Freitext enthalten. Ziel ist unter anderem festzustellen, ob Teile bestimmter Zulieferer in den ersten zwei Jahren häufiger ausfallen.

Wie schätzen Sie den Markt für Text Mining ein - wie wird er sich entwickeln?

Einfach aufgrund der zunehmenden Entwicklung des Internet wird auch Text Mining - gepaart mit Data Mining - immer wichtiger. Tieferes Wissen über die Bedürfnisse desjenigen, der fragt, in die Informationssuche mit einzubeziehen, ist ein wesentlicher Aspekt künftiger Information-Retrieval-Anwendungen.

Über KXEN
KXEN betreibt Customer-Lifecycle-Analyse für Unternehmen, die durch Data Mining ihre Wettbewerbsfähigkeit steigern wollen. Die KXEN-Technologie liefert umfangreiche Anylase-Tools zur Kundenakquise, zum Cross- und Up-Selling sowie zur Kundenbindung an mehr als 500 Kundenstandorten überall auf der Welt. 1998 gegründet, liegen die Hauptstandorte von KXEN im kalifornischen San Francisco und in Paris. Weitere Informationen unter www.kxen.com.

 

weitersagen: drucken
Print-Archiv
Folgen Sie uns
Termine

14. Februar

AIRO Tower, 1010 Wien

Vmware KMU-Roadshow 2012

16. Februar

All seasons Hotel, 4020 Linz

Vmware KMU-Roadshow 2012

21. Februar

Hotel Salzburg West, 5073 Salzburg-Wals

Vmware KMU-Roadshow 2012

22. Februar

Hotel Grauer Bär, 6020 Innsbruck

Vmware KMU-Roadshow 2012

28. Februar

Hotel Mercure Graz Messe, 8010 Graz

Vmware KMU-Roadshow 2012

1. März

Wirtschaftskammer Österreich

E-Day 2012

6. März - 10. März

Hannover

CeBIT 2012

Leser empfehlen
MONITOR-Newsletter

Abonnieren Sie unseren Newsletter!

E-Mail:
Die von Ihnen angegebene E-Mail Adresse wird von MONITOR Online weder an Dritte weitergegeben noch zu anderen Zwecken verwendet.
MONITOR-Autoren
Mag. Carl-Markus Piswanger

Mag. Carl-Markus Piswanger, MAS ist freier Journalist, Projektberater und hauptberuflich IT-Architekt. Er ist ausgebildeter Versicherungskaufmann, studierter Historiker und postgradualer E-Government-Experte. Er war beim ISP Netway, der Österreichischen Post und der Seibersdorf Research beschäftigt und seit 2004 als IT-Architekt im Bundesrechenzentrum. Der Wiener ist glücklich nicht verheiratet und hat einen Sohn. ..mehr..

Die neuesten Artikel:

© Copyright 1983-2012 by MONITOR / Bohmann Druck und Verlag Gesellschaft m.b.H. & Co. KG (www.bohmann.at)

Add to Google  | Abo | Themenvorschau | Mediadaten | Inserate buchen | Kontakt | Impressum