ABOUT NORCOM

Compliance-konforme Klassifizierung von Dokumenten

Die Aufgabe

Der Kunde möchte seine konzernweiten Dokumente automatisch nach einem vorgegebenen System in verschiedene Kategorien klassifizieren um ein verlässliches Data Life-Cycle Management und eine compliance-gerechte Ablage der Dokumente zu erreichen.

 

Die Herausforderung

Der riesige Datenmenge (Petabyte-scale). Es gibt eine Vielzahl von Dokumententypen mit stark heterogenen Dokumenteninhalten.

 

Unsere Lösung

Es wurde ein Natural Language Klassifikator auf Basis von Machine Learning implementiert. In einem ersten Schritt erfolgte der Ingest aller notwendigen Daten, sowie deren Exploration, Bereinigung und Klassifizierung, nach Dateityp und Sprache. Ein Fokus lag dabei auf deutschsprachigen Word, pdf- und E-Mail-Dokumenten, die einen Großteil der zu analysierenden Daten ausmachen. Mit nur geringem Aufwand konnte danach eine hohe Genauigkeit in der Klassifizierung der Dokumenten erzielt werden. Die eingesetzte Lösung  erwies sich dabei insbesondere aufgrund der Big-Data nativen Skalierbarkeit und der Flexibilität und Geschwindigkeit, mit der neue Algorithmen in einer Enterprise-Umgebung bereitgestellt werden können, als ausschlaggebend für die effiziente Erstellung und Bewertung der Lösung.

 

Der Kundennutzen

Neue Dokumente werden automatisch verschlagwortet und klassifiziert, so dass ein verlässliches Life-Cycle-Management abgebildet werden kann. Im Zuge immer strengerer Regulierungen eine wichtige Funktion, um die Einhaltung von Compliance über alle Ebenen und von allen Mitarbeitern sicherzustellen.

Projekt-

steckbrief

Unsere Rolle

  • Unterstützung des Kunden durch Architekten, Data Scientists

Unsere Tätigkeiten

  • Einlesen, Interpretation und Exploration heterogener Dokumente

  • Entwicklung, Training und Testen mehrerer Analysen und Pipelines für die Klassifizierung von konzernweiten Unterlagen in mehreren inhaltlich begründeten Klassen mittels maschinellen Lernens

  • Durchführung eines Machine Learning Workshops zur Erstellung von Klassifikatoren und deren Produktivsetzung

Technologien & Methoden

  • Applikationen: DaSense, Eagle

  • Sprachen/Frameworks: Python, Jupyter, Spark.ML, Bert, Hadoop, Scikit-Learn, Tensorflow,

  • Methoden: Maschinelles Lernen, Natural Language Processing, Deep Learning, Word Embeddings, Visualisierungen

KONTAKT AUFNEHMEN UND MEHR ERFAHREN: