Newsfeed abonnieren
20 Jahre MONITOR

Die Steigerung der Wertschöpfung mit Data Warehousing und Business Intelligence

Heute verfügen Unternehmen über gewaltige Mengen an Daten. In jede Transaktion sind EDV-Anlagen involviert, jede Abteilung sammelt eigene Daten, die sie zur Erledigung ihrer Aufgaben benötigt. Ein Unternehmen ist dadurch immer auch eine weite, kaum überschaubare Landschaft verteilter Daten. Sie der Analyse zugänglich zu machen, ist die Grundidee von Data Warehousing und Business Intelligence.

Ilse u. Rudolf Wolf

Der Begriff "Business Intelligence" wurde 1993 von der Gartner Group geprägt und beschreibt die Zugriffs- und Analysemöglichkeiten von Endanwendern auf im Unternehmen gespeicherte Daten und Informationen. Dabei werden Führungsinformationssysteme wie Executive Information System (EIS), Decision Support System (DSS), die multidimensionale Analyse OLAP, Data Mining und Management Information System (MIS) mit eingeschlossen.

Business Intelligence-Lösungen

Diese unterscheiden sich von bisherigen Management Informationssystemen und Executive Information Systemen dadurch, dass sie Daten aus unternehmensinternen und -externen Quellen integrieren können. Grundlage jeder Business Intelligence-Lösung ist ein Data Warehouse, das ein Sammeln, Vereinheitlichen und Analysieren von vorhandenen Daten ermöglicht.

Business Intelligence Software

Die benötigte BI-Software unterstützt die Anwender darin, "Just in Time"-Informationen zur Steuerung von Geschäftsprozessen zu erhalten. Sie wird in Anwendungen wie Data Warehouses, Data Marts, MIS oder EIS eingesetzt. Mit Business Intelligence Tools können die in den multidimensionalen Datenwürfeln (PowerCubes) enthaltenen Informationen analysiert und grafisch aufbereitet werden.

Die Business Intelligence Plattform

Die klassische Business Intelligence Plattform besteht in der Regel aus fünf integrierten Komponenten. Dazu gehören:

  • 1.Eine Lösung für die Informationsversorgung (Extrahieren, Transformieren und Laden von Daten (ETL-Tools), die einen Zugriff auf alle verfügbaren Datenquellen (ERP, Legacy und OLTP) ermöglicht.
  • 2.Eine Oberfläche für das Verwalten der Metadaten des Data Warehouse oder Data Marts.
  • 3.Eine unternehmesweit skalierbare, Server-basierte Architektur, deren Kernmodule für Adhoc-Reporting, OLAP-Analyse, Visualisierung und Data Mining das gesamte Spektrum an Business Intelligence Funktionen umfassen.
  • 4.Ein vorkonfiguriertes BI-Portal stellt den Endanwendern eine Benutzeroberfläche zur Verfügung, die beliebig auf den jeweiligen Informationsbedarf angepasst werden kann.
  • 5.Eine über alle Komponenten hinweg durchgehende Lösung für die Informationssicherheit.

Was ist ein Data Warehouse ?

Der Begriff Data Warehouse ist in der Literatur nicht klar definiert. Im allgemeinen wird in der Praxis unter einem Data Warehouse eine Zusammenfassung aller Methoden verstanden, die dazu dienen, Unternehmensdaten aus verschiedensten Quellen, mit der Möglichkeit der Beantwortung von geschäftskritischen Fragen und der Entscheidungsfindung schnell zusammenzuführen. Ein Data Warehouse ist daher ein Verbund von neuen und historischen Daten eines Unternehmens und ist eine themenorientierte, integrierte, zeitbezogene und dauerhafte Sammlung von Informationen zur Entscheidungsunterstützung des Managements.

Während das Data Warehouse eine unternehmensweite Datenbasis darstellt, sind Data Marts kleinere Data Warehouses, z.B. auf Abteilungsbasis. Bei der Planung eines Data Marts wird auf die Anforderungen eines Teilbereichs eines Unternehmens eingegangen. Der Vorteil liegt darin, dass nicht die komplette Datenbasis eines Unternehmens sofort abgebildet werden muss, sondern nur die Daten, die für Fragestellungen des jeweiligen Bereichs oder der jeweiligen Abteilung benötigt werden.

Im Normalfall stellen Data Marts den ersten Implementierungs-Schritt bei der Etablierung eines unternehmensweiten Data Warehouses dar, nachdem zuvor die spezifischen Anforderungen und das Gesamtdesign des Data Warehouses definiert worden sind. Dieser Ansatz beschleunigt den Aufbau einer Data Warehouse-Lösung und reduziert das Risiko im Vergleich zum umgekehrten Weg, erst das Data Warehouse zu erstellen und dann die Data Marts. Gegenüber bereichsübergreifenden Lösungen finden Data Marts oft den Vorzug, da sie in relativ kurzer Zeit zu vergleichsweise geringen Kosten realisiert werden können.

Als schlüsselfertige Standardlösung ist ein Data Warehouse nicht zu kaufen. Größe und Konzept sind von Unternehmensstruktur und Anforderungen der Benutzer abhängig. Wer beginnt, muss allerdings nicht sofort einen riesigen Datenpool planen.

Vom Datenberg zum Wissen

Doch bevor es so weit ist, müssen erst einmal zwei Probleme gelöst werden. Erstens: das Unternehmen hat meist keine große Datensammlung, sondern viele kleine. Und die lagern separat in kleinen Datenbanken. Das zweite Problem: die Daten liegen in verschiedenen Formaten vor.

Wer aus Daten Informationen ziehen will, muss daher die unterschiedlichen Datenquellen zusammenfassen, in die für Datenanalyse geeignete Form aufbereiten und den Anwendern verfügbar machen. Das alles kann ein Data Warehouse. Als zentrale Datenbank sammelt es regelmäßig Einträge aus den operativen Systemen, ordnet und verdichtet sie und versieht sie mit beschreibenden Zusatzinformationen, so genannten Metadaten. Im Data Warehouse werden daher die Daten und Informationen zusätzlich zur Datenhaltung in den operativen Systemen abgespeichert. Die Trennung in operatives System und Data Warehouse entlastet das operative System und bietet die Möglichkeit, interne und externe Datenquellen zu integrieren.

Die Überführung von Daten aus internen und externen Quellen in ein Data Warehouse wird unter dem Begriff Transformation zusammengefasst und besteht im Einzelnen aus der Filterung, Harmonisierung, Verdichtung und Anreicherung der Daten. Im Rahmen der Filterung erfolgt zunächst die Anbindung der unterschiedlichen Datenquellen. Anschließend werden vorhandene Fehler in den Datenbeständen beseitigt, wobei zwischen einfachen und logischen Fehlern differenziert werden kann. Die Harmonisierung umfasst die themenbezogene Gruppierung der Daten nach Kunden, Produkten oder Organisationseinheiten. Hierzu gehört neben der Zusammenfassung der Daten aus den unterschiedlichen Datenquellen auch die einheitliche Kodierung von Attributen und die Abstimmung der Schlüsselbeziehungen. Liegen die Daten in bereinigter und konsistenter Form vor, werden sie im Anschluss daran verdichtet. Die Auswertung der Daten erfolgt auf der Analyseebene mit Hilfe von Business Intelligence-Werkzeugen.

Datensicherung und -archivierung

Damit ein Data Warehouse bei Datenverlust, Software- und Hardware-Fehlern wieder hergestellt werden kann, müssen die Daten genau wie bei einem operationalen System regelmäßig gesichert werden.

Beim Archivieren werden die Daten in einem Format aus dem System genommen, das gegebenenfalls eine schnelle Rückspeicherung gestattet. Für die Analyse kann es z.B. erforderlich sein, die Daten der letzten drei Jahre aufzubewahren, wobei die Daten der letzten sechs Monate direkt verfügbar bleiben. In einer solchen Umgebung ist es oft erforderlich, einen Vergleich mit den entsprechenden Monaten des Vorjahres durchzuführen. Dafür müssen temporär die Daten einiger Monate aus dem Archiv wieder zurückgespeichert werden. Das erfolgt in der Regel mit einem HSM (Hierarchical Storage Management) System: Online-Dokumente mit der Wahrscheinlichkeit eines häufigen Zugriffs liegen auf schnellen Medien (Festplatten), rund bis 3 Monate nach Ablage. Nearline-Dokumente normalerweise 3 Monate - 1 Jahr werden in einer Jukebox aufbewahrt. Offline-Dokumente nach 1 Jahr oder länger: das Medium muss manuell oder mittels Bandroboter online gemacht werden.

Die Tendenz - im DWH auch Dokumente zum Geschäftsfall mitabzulegen - ist einleuchtend, wenn man beachtet, dass immer mehr Firmen Data Warehousing einsetzen, um ihr CRM (Customer Relationship Management) in den Griff zu bekommen. Bei ProActive Warehousing (B2B = Business to Business via Internet mit dem Endkunden) broadcasted das Warehouse dynamisch aufgebaute Angebote an den Einzelkunden (Reichweite, Customizing). Dazu bedarf es einer historischen User Profil Information, sowie der BSC (Balance Score Card).

Abfrageverwaltung

Die Abfrageverwaltung ist der Systemprozess, der die Abfragen verwaltet und sie dadurch beschleunigt, dass er sie an die effektivsten Datenquellen lenkt. Dieser Prozess muss auch dafür Sorge tragen, dass alle Systemressourcen auf die effektivste Art genutzt werden, was gewöhnlich durch ein Planen von Abfrage geschieht. Die Abfrageverwaltung kann auch für die Überwachung aktueller Abfrageprofile verwendet werden. Diese Informationen werden dann vom Data Warehouse-Verwaltungsprozess verwendet, um festzulegen, welche Aggregationen zu erzeugen sind.

Durch verschiedene Tools können die Benutzer selbständig auf die dort gespeicherten Informationen zugreifen und diese analysieren. Die Benutzer eines DWH müssen wissen, welche Informationen ihnen zur Verfügung stehen, das heißt, sie benötigen einen Informationskatalog in dem die "Daten über die Daten" (Metadaten), in einer für sie verständlichen Form beschrieben werden.

Das Wort "meta" stammt aus dem Griechischen und bedeutet ursprünglich unter, neben oder danach. Metadaten sind demnach im wesentlichen Daten, die etwas anderes beschreiben. In einem Data Warehouse werden durch Metadaten beschrieben: Die Herkunft der Daten, die Zusammensetzung der Daten, die Regeln für die Transformation der Daten aus den Quelldatenbeständen, die Verdichtungsstufen, Informationen über verdichtete Daten und deren Hierarchien.

Analysemöglichkeiten des Datawarehouses

Einfache Abfrage-Werkzeuge stoßen in großen Data Warehouse-Umgebungen sehr schnell an die Grenzen ihrer Leistungsfähigkeit. Um den Performance- und Analyseproblemen gerecht zu werden, wurden spezielle Technologien entwickelt, die für solche Abfragen optimiert wurden.

Im Rahmen der Datenanalyse stehen zwei Begriffe im Vordergrund: OLAP (Online Analytical Processing) und Data Mining. OLAP konzentriert sich bei der Analyse hauptsächlich auf das Berichtswesen. Die Daten werden aus den Datenquellen in einem multidimensionalem Datenwürfel (OLAP-Cube) zusammengefasst und dann in Berichten mit Tabellen und Grafiken angezeigt. Der Anwender kann sich die Kriterien, die für ihn interessant sind, auswählen und miteinander kombinieren. Internet- und Intranet erweitern die Fähigkeiten von OLAP. Viele OLAP- Werkzeuge bieten die Möglichkeit Reports über das World Wide Web oder ein Intranet durchzuführen. Der Mitarbeiter kann über einen Browser auf den OLAP-Server seines Unternehmens zugreifen, erhält die notwendigen Daten und erstellt ortsunabhängig und flexibel die gewünschten Analysen. Während OLAP die Antwort auf gezielte Fragen gibt, schürfen Data Mining-Tools nach unbekannten Zusammenhängen innerhalb der Unternehmensdaten.

OLAP-Architekturen

Durch OLAP (Online Analytical Processing) bekommt der Endbenutzer die Möglichkeit, durch die Informationsbasis des Unternehmens zu navigieren und detaillierte (Drill-Down) beziehungsweise aggregierte (Roll-Up) betriebswirtschaftliche Daten zu betrachten. Die Grundelemente der multidimensionalen OLAP-Navigation sind Cubes, Dimensionen, Hierarchien und Measures. Dadurch, dass die Daten in dieser Form aufbereitet werden, können die Anwender leicht und intuitiv durch einen komplexen Datensatz navigieren.

Die ROLAP-Architektur: Hier wird mit Hilfe von SQL über eine Standardschnittstelle auf eine relationale Datenbank zugegriffen. Die Datenbank dient als Datenbasis für die OLAP-Analyse, bei der die multidimensionalen Abfragen in eine Sequenz von SQL-Befehlen übersetzt werden. Um eine multidimensionale Darstellung zu ermöglichen, werden die Daten tabellarisch aufbereitet. Die ROLAP-Architektur hat den Vorteil, dass der Anwender direkt auf die Rohdaten zugreifen kann, ohne zuvor in einer dazwischenliegenden multidimensionalen Datenbank suchen zu müssen. Der Nachteil der ROLAP-Architektur ist, dass die großen Daten- und Dimensionsmengen eine schlechte Performance bewirken.

Die MOLAP-Architektur: Data Warehouses, die auf der Basis der MOLAP-Architektur aufgeteilt werden, halten die Daten in einer multidimensionalen Datenbank. Sie bedienen sich verdichteter Würfel, so dass multidimensionale Abfragen direkt möglich sind. Das hat aber zur Folge, dass das Datenmodell und die Daten in viel stärkerem Maße transformiert werden müssen, als es beim Einsatz der ROLAP-Architektur notwendig ist. Der Vorteil dieser Architektur besteht in den schnellen Zugriffen auf die Daten.

Die HOLAP-Architektur: Kombiniert die ROLAP- und MOLAP-Architekturen und nutzt die Vorteile der beiden anderen Architekturen: hohe Performance bei großer Skalierbarkeit.

Data Mining - eine elektronische Schatzsuche

Der Name "Data Mining" kommt daher, dass man wie in einer Edelstein-Mine den Gesamt-Datenbestand "abschürft". Data Mining ist daher so etwas Ähnliches wie elektronischer Bergbau, weil in einem Datenberg mit Hilfe einer Software zwar keine Edelsteine gesucht werden, aber nach unerwarteten Zusammenhängen zwischen den Daten, die man dann möglichst Gewinn bringend nutzen kann.

Data Mining bezeichnet nicht eine einzelne Technik, sondern umfasst den gesamten Prozess von der Bereitstellung der Daten bis zur Anwendung der Erkenntisse.

Die konkreten Einzelschritte hängen naturgemäß von der konkreten Situation ab. In den meisten Fällen lassen sich aber vier Phasen im Data Mining-Prozess erkennen denen jeweils eine Reihe charakteristischer Schritte zugeordnet werden können, die je nach Aufgabenstellung meist mehrmals durchlaufen werden. Data Mining ist also ein iterativer Prozess.

Mit der Anwendung von Data Mining werden wissenschaftlich abgesicherte Verfahren aus unterschiedlichen Bereichen (z.B. neuronale Netze) eingesetzt. Data Mining arbeitet datengesteuert, d.h. ausgehend von den Daten selbst werden Hypothesen aufgestellt, die anschließend mit Hilfe benutzerdefinierter Qualitätsheuristiken bewertet werden.

Bei einer datengesteuerten Analyse ist wichtig, dass die Daten aktuell sind und sich in einem einwandfreien Zustand befinden. Dem Prüfen und Säubern der Daten (Preprocessing) kommt demnach eine zentrale Rolle im Data-Mining-Prozess zu. Data Mining unterscheidet sich somit grundlegend von Datenbankabfragen bei denen der Benutzer Anfragen konkret vorgibt und die erhaltenen Daten lediglich aufsammelt.

Darstellung des Datamining Prozesses

Der Datamining Prozess untergliedert sich in drei Hauptbereiche, die Grundlage bilden die fünf Aktionen: Datenauswahl, -transformation, Datamining Interpretation und Präsentation des neuen Wissens. Die Aktion des Datamining kann mit Hilfe von unterschiedlichen Datamining-Operationen erfolgen wie z.B.: Vorhersage- und Klassifikationsmodellen, Link-Analyse, Datenbanksegmentierung und Ermittlung von Abweichungen (Ausreißern). Die Datamining-Operationen werden mit Hilfe von unterschiedlichen Techniken durchgeführt: z.B. Induktion, Neuronale Netze, Entscheidungsbäume, Genetische Algorithmen. Dabei sollte nicht außer Acht gelassen werden, dass nicht ausschließlich eine Technik benutzt wird um eine bestimmte Datamining-Operation durchzuführen, sondern zumeist kommen unterschiedliche Techniken gemeinsam zum Einsatz.

Ein Data Warehouse beinhaltet unterschiedlichste Daten, jedoch sind nicht alle notwendig um das Data Mining- Ziel zu erreichen. Der erste Schritt des Data Mining Prozesses beschäftigt sich damit, die Datentypen auszuwählen, die verwendet werden sollen.

Für die Klassifizierung der Daten gibt es mehrere Alternativen, z.B. die Anwendung neuronaler Netze, induktive Verfahren wie Entscheidungsbäume oder rein statistische Verfahren. Oft wird auch eine Kombination der Verfahren und somit eine multistrategische Analyse durchgeführt.

Wissensmanagement mit Verifikations- und Discovery-Techniken

Mit Verifikations-Techniken werden Hypothesen und Fragen von Anwendungsexperten formuliert und dann mit Hilfe verschiedener Abfrage- und Analysetools anhand der Daten bestätigt oder verworfen. Dieses Modell liegt den meisten klassischen statistischen Analysemethoden (Reports u. multidimensionale Tabellen, Korrelationen, Varianzanalyse, Diskriminanzanalyse, Faktorenanalyse, Regression, Forecasting Miethoden) zu Grunde.

Discovery-Techniken werden eingesetzt, um vorher nicht bekannte Zusammenhänge und Trends in den Daten zu entdecken. Discovery-Techniken sind automatisierte statistische Verfahren, Entscheidungsbaum-Algorithmen, Clusteranalysen oder Neuronale Netze. Mit Discovery-Techniken werden Hypothesen automatisch generiert und gleichzeitig anhand der Daten überprüft. Der Algorithmus kann daher auch neue und überraschende Hypothesen liefern.

Säubern der Daten und Datentransformation

Nachdem die zu untersuchenden Daten identifiziert wurden, ist es normalerweise notwendig, bestimmte Transformationen der Daten durchzuführen um z.B. Extremwerte (Ausreißer), die das Ergebnis verfälschen zu eliminieren. Die Art der Umwandlung wird durch die gewählte Data Mining Operation bestimmt. Die Art der Transformation variiert von der Umwandlung eines Datentyps in einen anderen, z.B. Umwandlung von Nominalwerten in numerische, so dass diese von einem neuronalen Netz verarbeitet werden können, bis zur Definition von neuen Attributen. Diese werden entweder durch mathematische oder logische Operationen bezüglich des Wertes von einen oder mehreren Datenbankattributen definiert.

Interpretation der Ergebnisse

Die extrahierte Information wird analysiert, die besten Informationen werden identifiziert. Letztendlich werden die aus dem Data-Mining-Prozess gewonnenen Informationen visualisiert (grafisch oder logisch). Hierzu stehen verschiedene Tools zur Verfügung.

Oft wird festgestellt, dass es notwendig ist die Data Mining Operationen zu überarbeiten, weil das Ergebnis nicht zufrieden stellend ist. So kann es nach der Darstellung der Ergebnisse einer Transformation notwendig sein, zusätzliche Daten auszuwählen. In diesem Fall muss der Datenselektionsschritt wiederholt werden.

Den letzten Schritt des KDD-Prozesses bildet die Anwendung des erhaltenen Wissens (Modelle, Regeln, Muster) im täglichen Geschäftsgang.

Der Nutzen des Data Mining

Durch die Interpretation der durch Data Mining gefundenen Informationen, lassen sich Aktionen seitens der Unternehmensführung planen und durchführen. Data Mining ermöglicht es bestehende Marketingstrategien zu optimieren oder neu zu planen, Zielgruppen gezielt und effektiv anzusprechen und das "Customer Relationsship Management" (CRM) zu verbessern.

Mit Data Mining lassen sich beispielsweise Kundenprofile erstellen, Korrelationen zwischen Produktverkäufen aufdecken und Markttrends identifizieren. Dazu gehört auch die Warenkorbanalyse, also die Analyse über das Kaufverhalten im Produktmix, d.h. welche Käufergruppen sind die profitabelsten Kunden, um so diese Bereiche auszubauen.

Data Mining ist eines der hoffnungsvollsten Wachstumsfelder im Software- und Beratungsgewerbe.

Data Mining und der Datenschutz

Mit der ständig zunehmenden Leistungsfähigkeit der Informations- und Kommunikationstechnik wächst die Menge gespeicherter personenbezogener Daten in Wirtschaft und Verwaltung weiter an. Zunehmend kommen automatisierte Verfahren zum Einsatz, die das gesammelte Datenmaterial effektiv verwalten und analysieren.

Diese Entwicklung schafft neben Vorteilen neue Gefahren und Risiken für das Grundrecht auf informationelle Selbstbestimmung und für den Schutz der Privatsphäre. Persönlichkeitsprofile, automatisierte Vorhersagen von Verhaltens- und Handlungsweisen, Manipulationsmöglichkeiten und zu lange Speicherung sind befürchtete Gefahren.

Die Planungsabteilungen in den Supermärkten setzen immer mehr auf Kundenprofile. Mit sogenanntem "micro-marketing" wird angestrebt, Konsumenten und sogar einzelne Kunden in ihren Konsumgewohnheiten zu "identifizieren" und ihnen genau das Produkt zu verkaufen, das sie angeblich brauchen.

Damit beginnt ein aufwendiger Ablauf: Zuerst einmal müssen die Kunden geködert werden, ihre persönlichen Daten abzugeben. Einkaufende werden umworben, sich ihre persönliche "Kundenkarte" ausstellen zu lassen. Dies ist keine Kreditkarte im herkömmlichen Sinne, sondern ein elektronisches Gutscheinheft, in dem jedes einzelne Produkt eines jeden Einkaufs gespeichert wird - ab einer bestimmten Einkaufssumme winken Vergünstigungen.

Dieses Sammeln von Daten ermöglicht es, schon nach kurzer Zeit Kundenprofile zu erstellen und diese gezielt mit maßgeschneiderten Werbeangeboten zu nutzen. Es können aber auch die Kundengewohnheiten ausgewertet werden um auf Grund dieser Gewohnheiten Entscheidungen ganz anderer Natur treffen zu können (z.B. Alkoholverbrauch in einem bestimmten Zeitraum beeinflusst die Kreditwürdigkeit des Kunden).

Im Hintergrund aber geht es noch um einen ganz anderen Markt: den Handel mit Kundenprofilen. So kommt das Unternehmen nicht nur durch eine rationalisierte Marketingstrategie zu einer Steigerung seiner Profitrate, sondern mischt nun ebenso im Milliardenmarkt der Konsumentendaten mit, indem die gesammelten Profile an andere Firmen weiterverkauft werden. Hier bietet allerdings eine Entscheidung des Österreichischen Obersten Gerichtshofs einen gewissen Schutz: 1999 wurde ein Fall des Data Minings verhandelt und entschieden, dass es unter anderem für den Kunden deutlich erkennbar sein muss, an wen die mittels Kundenkarte erhobenen Daten weitergeleitet werden.

weitersagen: drucken
Termine

18. Juni - 22. Juni

In ganz Österreich

SAP Mittelstandstage

Print-Archiv
Folgen Sie uns
Leser empfehlen
MONITOR-Newsletter

Abonnieren Sie unseren Newsletter!

E-Mail:
Die von Ihnen angegebene E-Mail Adresse wird von MONITOR Online weder an Dritte weitergegeben noch zu anderen Zwecken verwendet.
MONITOR-Autoren
Alexander Hackl

Alexander Hackl ist freier Journalist in Wien. Er ist Absolvent des Master- Programms „Qualitätsjournalismus“ an der Donau-Universität Krems und spezialisiert auf Technologiethemen. Seit drei Jahren ist er als Autor für den MONITOR und das Wirtschaftsmagazin FORMAT tätig. Das Hauptaugenmerk in seiner Arbeit liegt auf Informations- technologie im Kontext gesellschaftlich-wirtschaftlicher Zusammenhänge. ..mehr..

Die neuesten Artikel:

© Copyright 1983-2012 by MONITOR / Bohmann Druck und Verlag Gesellschaft m.b.H. & Co. KG (www.bohmann.at)

Add to Google  | Abo | Themenvorschau | Mediadaten | Inserate buchen | Kontakt | Impressum