Data Lakes: Neue Erkenntnisse aus riesigen Datenmengen ableiten


interessant 0 Firmen 0 User

01.09.2017 09:53

Data Lakes: Neue Erkenntnisse aus riesigen Datenmengen ableiten

Data Lakes schaffen die Voraussetzung dafür, dass alle Mitarbeiter beliebig lange auf benötigte Daten zugreifen können. Sie sind damit ein wichtiges Instrument, das Innovationen in allen Branchen ermöglicht.

Das Internet hat Daten und Informationen für Milliarden Menschen auf der ganzen Welt zugänglich gemacht. Ausgerechnet in Unternehmen war der Zugriff auf Daten jedoch bislang einigen wenigen vorbehalten. Das hat sich nun geändert. Schneller und kostengünstiger Arbeitsspeicher, neue Speichertechnologien und Datenwerkzeuge ermöglichen es Unternehmen aller Größen, riesige Datenmengen ohne hohen Kostenaufwand zu erfassen und zu speichern. Dabei kann es sich sowohl um strukturierte Daten (beispielsweise Daten in den Feldern von Tabellen oder Datenbanken) als auch um unstrukturierte Daten (E-Mails oder Beiträge in sozialen Netzwerken) handeln. Auf diesen riesigen Data Lake können dann alle Mitarbeiter des Unternehmens zugreifen, um schnell zu neuen Erkenntnissen zu gelangen.

Lesen Sie, wie Unternehmen maschinelles Lernen nutzen, um auf Basis von Big Data Lösungen für die drängenden Fragen der Zeit zu finden.

 

Aufdecken von Betrug durch Korrelation von Daten

Die Organisation Financial Industry Regulatory Authority (FINRA), deren Aufgabe die Beaufsichtigung der Marktteilnehmer im US-Wertpapierhandel ist, hat sich bei der Entwicklung von Strategien zur Bekämpfung von Betrug und Insidergeschäften bislang vor allem auf die Erfahrung ihrer Mitarbeiter verlassen. Nach wie vor ist diese Erfahrung eine wichtige Stütze, doch die FINRA greift nun zusätzlich auf einen Data Lake zu und ist so in der Lage, Muster aufzudecken, die dem menschlichen Auge verborgen bleiben.

Die Aufsichtsbehörde verarbeitet tagtäglich mehr als fünf Petabyte Transaktionsdaten aus unterschiedlichen Quellen. Infolge der Ablösung der herkömmlichen Datenbank- und Speichertechnologie durch einen Data Lake konnte die FINRA einen Self-Service-Prozess einrichten, über den Analysten Daten ohne Unterstützung durch die IT-Abteilung abrufen können. Hatte die Suche nach den benötigten Informationen früher noch mehrere Stunden gedauert, benötigen die Analysten nun nur noch 90 Sekunden.

Während sich herkömmliche Datenbanken gut dafür eigneten, Daten miteinander zu verknüpfen – um etwa sämtliche Transaktionen einer bestimmten Person nachzuverfolgen –, können die Anwender mithilfe der neuen Data-Lake-Konfigurationen nun auch Beziehungen aufdecken, von deren Existenz sie gar nichts wussten.

Die Datenexperten können nach verdächtigen Verhaltensmustern suchen, die auf Betrug, manipulierte Marketingunterlagen und den Verstoß gegen Vorschriften schließen lassen. Dadurch konnte die FINRA im vergangenen Jahr 373 Bußgeldbescheide in Höhe von insgesamt 134,4 Mio. US-Dollar ausstellen – laut Law360 ein neuer Rekord.

 

 

Auch Data Lakes sind komplex

„In den letzten 20 Jahren sind unzählige Millionen in Data-Warehousing-Lösungen geflossen. Unternehmen sollten nicht davon ausgehen, dass sie diese Daten nun einfach in einen Data Lake verschieben können“, so Mike Ferguson, Geschäftsführer des britischen Analystenhauses Intelligent Business Strategies. Ferguson ist jedoch überzeugt, dass dank der Effizienz von Data Lakes mehr Kapazitäten in Data Warehouses für Abfragen, Berichte und Analysen zur Verfügung stehen.

Zudem führt der Einsatz von Data Lakes auch nicht dazu, dass die Bereinigung und Verwaltung von Daten überflüssig werden – sie sind eine wichtige Voraussetzung dafür, dass hilfreiche Erkenntnisse aus den Daten abgeleitet werden können.

Unternehmen benötigen außerdem strenge Data-Governance-Prozesse. Es muss klar definiert werden, wer auf die Daten zugreifen, sie verteilen, ändern, löschen oder in sonstiger Weise bearbeiten darf. Unternehmen müssen außerdem sicherstellen, dass die erfassten Daten aus einer rechtmäßigen Quelle stammen.

Immer häufiger ist es Aufgabe eines Chief Data Officer (CDO), dafür zu sorgen, dass die wachsende Zahl der Mitarbeiter mit Zugriff auf Daten diese auch effektiv und verantwortungsbewusst nutzt. Einer Prognose des Marktforschungsunternehmens Gartner zufolge wird es bereits 2019 in 90 Prozent aller Großunternehmen einen CDO geben.

Data Lakes lassen sich auf verschiedene Weise konfigurieren: als zentrales oder verteiltes Repository mit Speichersystemen in der lokalen Infrastruktur, in der Cloud oder in einer Hybridumgebung. Manche Unternehmen haben auch mehrere Data Lakes implementiert.

„Viele meiner Kunden versuchen aus naheliegenden Gründen, einen zentralen Data Lake zu realisieren. Es ist wesentlich einfacher, Daten an einem zentralen Ort zu verwalten und zu erfassen“, so Ferguson. „Oft entsteht dadurch jedoch an anderer Stelle zusätzliche Komplexität. Viele von ihnen stellen fest, dass für die Verwaltung von Daten über mehrere Datenspeicher hinweg ein verteilter Data Lake erforderlich ist.“

Die enormen Kapazitäten von Data Lakes führen außerdem dazu, dass sich der einst überschaubare Datenfluss zu einem gewaltigen Strom entwickelt hat. „Neue Daten werden heute in extremer Geschwindigkeit und in sehr großen Mengen erzeugt“, erklärt Ferguson. „Wir müssen nach Lösungen suchen, wie wir Komplexität abbauen können. Meist heißt diese Lösung Automatisierung. Unternehmen erwarten, dass ihnen Informationsmanagement-Software wie ein Informationskatalog helfen kann, die Erfassung von Daten zu beschleunigen und diese automatisch zu klassifizieren, Profilen zuzuordnen, zu organisieren und leicht auffindbar zu machen.“

Angebote SAP
Bitte teilen via: