ABOUT NORCOM

KI gestützte Rechnungsprüfung

Die Aufgabe

Rechnungen müssen auf Konsistenz geprüft und Auffälligkeiten wie z.B. Doppelabrechnungen sichtbar gemacht werden. Als aufwändiger manueller Prozess soll dies weitestgehend automatisiert werden, durch Einsatz von Advanced Analytics sollen auch seltene und komplexe Auffälligkeiten einfach auffindbar werden.

 

Die Herausforderung

Rechnungen lagen in gescannter Form mit unterschiedlicher Scan-Qualität vor, die Seitenanzahl und Reihenfolge war variabel, die darin enthaltenen Informationen waren sowohl strukturiert (Tabellen) als auch unstrukturiert (Freitext), beides mit starken strukturellen Variationen. 

Unsere Lösung

Wir erstellten eine Pipeline bestehend aus OCR, Tabellenerkennung und Information Extraction. Integraler Bestandteil der Pipeline war eine automatische Bewertung der Qualität der Extraktionsergebnisse mit der Möglichkeit einer kontrollierten Optimierung. Rechnungen wurden über die Erkennung naher Duplikate zusammengeführt und Doppeleinträge und andere Auffälligkeiten mittels Advanced Analytics sichtbar gemacht. Eine skalierbare Architektur stellt die Funktionsweise der Pipeline auch auf großen Daten sichtbar und ermöglicht die Analyse statistischer Auffälligkeiten.

Der Kundennutzen

Dank Automatisierung müssen nur noch wenige Rechnungen manuell überprüft werden, was zu deutlichen Zeit- und Kosteneinsparungen führt. Die Erkennungsrate von Auffälligkeiten ist dank Advanced Analytics deutlich gesteigert.

Projekt-

steckbrief

Unsere Rolle

  • Unterstützung des Kunden durch Data Scientists und Data Engineers

Unsere Tätigkeiten

  • Einrichten von Big Data Workflows zur Aufbereitung und Indizierung von Dokumenten, inkl. OCR

  • Etablieren von Analyse- und Machine Learning Pipelines zur Extraktion von Information aus unstrukturierten Dokumenteninhalten und Tabellen

  • Analyse und Visualisierung der Informationen

Technologien & Methoden

  • Applikationen: Eagle

  • Datenbanken: pdf, Elastic

  • Sprachen / Frameworks: Python (Anaconda Stack), Hadoop, Spark, Tesseract

  • Methoden: OCR, Natural Language Processing, Information Extraction, Machine Learning

KONTAKT AUFNEHMEN UND MEHR ERFAHREN: