Flüchtlinge - Chance für Big Data

03.12.2015 11:48

Flüchtlinge - Chance für Big Data

Flüchtlinge sind vor allem eines: eine Chance für Deutschland. Die etwa 11 Milliarden Euro vom deutschen Staat für die Bewältigung der Flüchtlingskrise werden "ähnlich wie ein Konjunkturprogramm" wirken. Und auch jeder Flüchtling hat eines gemein: Sie sind in erster Linie Konsumierende. Die oftmals komplexen arabischen Namen stellen hierbei allerdings auch eine Herausforderung für Datenbanken und die Datenqualität dar. Ein Whitepaper zeigt nun, wie man der Komplexität Herr wird.

Arabische Namen sind oft sehr komplex

Auch auf Banken, Energieversorger und viele weitere Branchen kommen in der nächsten Zeit zahlreiche neue Kunden zu. Und arabische Namen wie „Abderrahim Al Husseini“ oder „Oumaima El Khatib“ stellen herkömmliche Kundendatenbanken vor neue Anforderungen, denn sie sind in der Regel erheblich komplexer als mitteleuropäische Namen.

Neben dem persönlichen Namen gibt es oft noch Beinamen, Abstammungsbezeichnungen unterschiedlichster Art oder Ehrennamen. Und damit steigt auch das Risiko von Falscherfassungen und Buchstabendrehern, insbesondere bei der telefonischen Aufnahme der Adressen in Call-Centern oder durch falsch ausgefüllte Onlineformulare.

First time right: Unnötige Kosten vermeiden

Dazu kommt das Risiko der Mehrfacherfassung, weil der angehende Kunde eventuell nicht weiß, dass er sich schon einmal bei diesem Unternehmen angemeldet hat und auch die Mitarbeiter dort dies nicht bemerken. Schon jetzt gehen Schätzungen selbst bei gut gepflegten Kundendatenbanken von zwei bis zehn Prozent Dubletten aus. Bei schlecht gepflegten Datenbanken können diese Zahlen sogar auf bis Prozent steigen.

Die Folgen sind unnötige Kosten, beispielsweise durch Retouren. Daher ist es sinnvoll, von vornherein auf die Datenqualität zu achten und dabei menschliche Intelligenz mit computergestützten Systemen zu kombinieren, um Kunden später richtig ansprechen zu können. Denn die bisher einigermaßen zuverlässig arbeitenden Prozeduren zur Dublettenerkennung und Adressvalidierung stoßen bei „exotischeren“ Namen aus dem Irak, Syrien oder Afghanistan schnell an ihre Grenzen.

Neben den herkömmlichen Algorithmen kommen deshalb in einer guten Datenqualitätssoftware zunehmend auch wissensbasierte Methoden zum Einsatz. Sie wenden Einsichten der Computerlinguistik zur Spracherkennung und -synthese an, um eine deutlich höhere Erkennungsquote von Dubletten und Fehlern zu erreichen.

Sinnvollerweise sollte die Datenbereinigung auch nach dem „First-Time-Right-Prinzip“ erfolgen, bei dem Daten direkt bei der Eingabe in eine Datenbank oder ins CRM-System auf ihre Richtigkeit überprüft werden. So können bereits zahlreiche Datenverunreinigungen und Dubletten zugunsten einer hohen Datenqualität verhindert werden.

Bei guten Software-Lösungen kontrolliert das System unmittelbar bei der Eingabe eines neuen Kunden die Daten beispielsweise auf ihre Groß-und Kleinschreibung, die korrekte Geschlechts-Zuordnung und die Syntax. Gleichzeitig können E-Mail-Adressen automatisch validiert und postalische Adressdaten geprüft werden.

Wie Unternehmen auch unter den neuen Herausforderungen eine hohe Datenqualität in ihren Kundendatenbanken sicherstellen können, können Sie detailliert in diesem Whitepaper nachlesen: