Was bedeutet "Text Mining"?

Blog / Einsatz von Text-Mining / taod Consulting GmbH

Daten und Kontext

Kategorien
Data Strategy

Schlagworte
Textanalyse, Predictive Analytics

Autor
Philipp Kremer

Lesedauer
4 Minuten

Definition und Anwendungsbeispiele der textuellen Datenanalyse

 

Text Mining, auch bekannt als Text Analytics, ist ein Prozess der Wertschöpfung aus großen Mengen unstrukturierter Textdaten. Die meisten Unternehmen verfügen über eine große Menge an textbasierten Daten zum Beispiel aus Memos, E-Mails, Berichten oder Kundendatensätzen und -kommunikation. Auch Texte und Kommentare auf Websites, Blogs und in Social Media Posts nehmen mit der gesteigerten Kundenkommunikation zu. Während der Text so strukturiert ist, dass er für einen Menschen Sinn ergibt, ist er aus analytischer Sicht unstrukturiert. Insbesondere, weil er nicht in eine relationale Datenbank oder Zeilen und Spalten einer Tabellenkalkulation integrierbar ist.

 

Was bedeutet Text Mining?

Text Mining Verfahren sind heutzutage in der Lage, Informationen hervorzubringen, die Unternehmen vorher nicht erfassen konnten. Der Zugriff auf riesige Textdatensätze und die verbesserte technische Leistungsfähigkeit ermöglichen es, Texte zu analysieren, um zusätzliche hochwertige Informationen zu generieren. Mittels Machine-Learning-Verfahren und Algorithmen lassen sich Texte nach wiederkehrenden Mustern, Formulierungen und Schlagworten analysieren und kategorisieren. So kann beispielsweise Text auf kommerziell relevante Muster wie eine Zunahme oder Abnahme des positiven Feedbacks von Kunden untersucht werden. Daraus entstehen neue Erkenntnisse, die zu Produktoptimierungen oder anderen interessanten Maßnahmen führen könnten.

 

Wann wird Text Mining eingesetzt?

Im Wesentlichen gibt es vier wesentliche Prozesse beziehungsweise Aufgaben, für die Text Mining eingesetzt werden:

  • Textkategorisierung

  • Text-Clustering

  • Sentimentanalyse (Stimmungsanalyse)

  • Dokumentenzusammenfassung

Bei der Textkategorisierung wird eine definierte Struktur auf den Text angewendet, die man dann für die Analyse oder Abfrage verwendet. Dies kann hilfreich sein, wenn Unternehmen über eine große Menge an Textdaten verfügen, die für einen einfacheren Zugriff und eine einfachere Bedienung klassifiziert werden müssen. Spamfilter verwenden solche Klassifizierungen, um den Text in eingehenden E-Mails zu bewerten und zu entscheiden, ob diese Spam sind oder nicht. Auch das E-Mail-Routing verwendet diese Technik, um eine an eine allgemeine Adresse eingehende E-Mail an einen geeigneteren Empfänger umzuleiten, basierend auf dem im Text behandelten Inhalt.

Text-Clustering bündelt automatisch riesige Textmengen zu sinnvollen Themen oder Kategorien für eine schnelle Informationsrecherche oder -filterung. Suchmaschinen verwenden Text-Clustering, um aussagekräftige Suchergebnisse zu liefern. Wird beispielsweise „Zelle“ in eine Suchmaschine eingegeben, gruppieren sich die Ergebnisse um die Themenbereiche „Biologie“, „Batterie“ und „Gefängnis“, da alle diese Begriffe eine andere Definition des Wortes „Zelle“ verwenden.

Die Sentimentanalyse ist besonders nützlich, wenn Unternehmen Trends, Muster und Meinungsbilder innerhalb verschiedener Textdateien erkennen wollen. Die Sentimentanalyse, auch als „Opinion Mining“ bekannt, versucht, die subjektive Meinung oder das Gefühl aus dem Text zu extrahieren. Die Analyse hilft Unternehmen herauszufinden, ob die darin enthaltenen Aussagen positiv, negativ oder neutral sind.

Die Dokumentenzusammenfassung ermöglicht es, Dokumente automatisch mit einem Computerprogramm zu verdichten, um die wichtigsten Punkte des Originaldokuments zu erhalten. Dies kann sehr nützlich sein, wenn die vorhandenen Textdateien sehr groß sind, die Zeit für eine manuelle Zusammenfassung aber nicht ausreicht. Suchmaschinen nutzen diese Technologie ebenfalls, um Websites in Ergebnislisten zusammenzufassen.

 

Welche Erkenntnisse fördert Text Mining?

Text Mining ist besonders nützlich für die Informationsbeschaffung und -extraktion, der Mustererkennung, der Stimmungsanalyse (Sentimentanalyse), beim Tagging und innerhalb der prädiktiven Analytik. Im Wesentlichen geht es darum, mehr Informationen aus dem Text zu erhalten.

Text Mining Verfahren beantworten dabei Fragen wie:

  • Was halten unsere Kunden/Mitarbeiter von unserem Produkt/Unternehmen?

  • Wie wird unser Employer Brand von Social Media Nutzern wahrgenommen?

  • Welche sind die wichtigsten Punkte, über die sich Kunden und Kundinnen bei uns beschweren?

  • Was sind die wichtigsten Trends auf der Grundlage der Suchbegriffe, die Kunden und Kundinnen auf unserer Website verwenden?

 

Wie wird Text Mining eingesetzt?

Die zu analysierende Textdatei muss nicht nur digitalisiert, sondern auch editierbar sein. Das ist ein wichtiger Faktor. Wenn eine Seite aus einem Buch als JPEG-Datei kopiert oder ein Bild von einer Seite in einem Buch aufgenommen wird, existiert zwar technisch gesehen eine digitale Kopie des Textes. Diese wäre aber wertlos, wenn Text-Mining Verfahren durchgeführt werden sollen. Für diese Verfahren wird eine bearbeitbare Datei benötigt, bei der beispielsweise der Text veränderbar oder nach bestimmten Wörtern durchsuchbar ist (zum Beispiel PDF- und Word-Dateien).

In vielen Unternehmen findet der Informationsaustausch bereits zu einem Großteil digital statt. Textdateien werden oftmals in universell verarbeitbaren Formaten wie dem PDF versendet. Ist das Ziel jedoch Texte, die nur in Papierform vorliegen, zu analysieren, dann müssen diese digitalisiert und bearbeitbar werden. Das bedeutet nicht nur, eine elektronische Kopie des Dokuments zu anzufertigen, sondern es in digitaler Form neu zu generieren.

Um relevante Informationen in kurzer Zeit aus den entsprechenden Textdateien zu extrahieren, ist es von Vorteil, sogenannte Stoppwörter aus den Texten zu entfernen. Zu den Stoppwörtern zählen Wörter wie „jedoch“, „da“, „von“ und so weiter, die häufig in allen Texten vorkommen, aber keine eindeutigen Informationen über den Inhalt oder die Bedeutung des Textes vermitteln.

 

Praxisbeispiele

Ein klassisches Beispiel für eine unternehmensinterne Verwendung von Text Mining ist die Evaluation der Mitarbeiterzufriedenheit. Der einfachste Weg für diesen Anwendungsfall Daten zu sammeln ist, eine quantitative Umfrage durchzuführen, in der die Mitarbeiter auf verschiedene Fragen mit Hilfe einer Skala das Unternehmen bewerten können. Sind tiefgreifende Einblicke gewünscht, werden zusätzlich offene Fragen hinzugefügt, um so qualitative Ergebnisse zu bekommen.

Text-Mining-Verfahren würden es Unternehmen ermöglichen, diesen unstrukturierten Text zu bewerten und Trends- oder Meinungscluster im ganzen Unternehmen, in Abteilungen oder in bestimmten Teams festzustellen.

Die Umfrage könnten beispielsweise in eine Tag Cloud umgewandelt werden, die alle Textdaten aus den Fragebögen sammelt und verteilt, je nachdem, wie viele Personen ein bestimmtes Wort erwähnt haben. Das größte Wort in einer Tag Cloud bezieht sich daher auf das Wort, das von den meisten Mitarbeitenden verwendet wurde. Wenn das größte Wort in einer Tag Cloud einer Befragung der Belegschaft beispielsweise „unzufrieden“ ist, dann hat das Unternehmen eindeutig Probleme, und sollte anhand dieser Ergebnisse Maßnahmen ableiten.

 

Tipps & Fallstricke

Text Mining kann je nach Anwendungsfall einiges an Zeit in Anspruch nehmen. Insbesondere wenn es darum geht, physische Dokumente in digitale Dateien umzuwandeln. Unternehmen sollten sich daher im Klaren sein, welche Ziele sie mit Text Mining verfolgen und welche Erkenntnisse sie gewinnen möchten.

Bei der Ergebnisauswertung empfiehlt sich zudem eine manuelle Kontrolle, beispielsweise anhand von Stichproben im Ausgangsmaterial. Häufig muss man Verfahren neu justieren und anpassen, um sicherzustellen, dass das Richtige gemessen wird. Da Sprache immer kontextabhängig ist, kann die Konstruktion eins Nebensatzes die Sinnhaftigkeit oder Aussage des voran gegangenen Satzes diametral umkehren.

UP
Kontakt aufnehmen
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram