norcom.de/News Deduplication

ABOUT NORCOM

Intelligentes Nachrichtenmanagement / Duplikaterkennung

Die Aufgabe

In einem Redaktionssystem strömen täglich riesige Mengen von Nachrichtenmeldungen aus verschiedensten Agenturen ein. Oft ist es unklar, wie die Meldungen entstanden sind und aus welchen Quellen die Informationen darin ursprünglich stammen. Die Kenntnis der Quellen ist aber Voraussetzung für die Prüfung auf Echtheit der Informationen und der Erkennung von Falschmeldungen. Die Recherche wird dabei durch die Vielzahl naher Duplikate erschwert, Suchen nach Inhalten liefern oft zu viele, redundante Treffer. Erstellt wurde eine Lösung, die alle zu einer Meldung ähnlichen Meldungen identifiziert, Duplikate und nahe Duplikate filtriert und daraus eine Meldungsgeschichte in Form eines Stammbaums erstellt.

Die Herausforderung

Die Suche nach ähnlichen Meldungen erfordert ein Vergleich mit jeder anderen Meldung. Dabei stößt man bereits bei einer relativ kleinen Anzahl an Meldungen an die Grenzen heutiger Rechenkapazitäten.

Unsere Lösung

Zunächst wurde ein Algorithmus trainiert, der neue Meldungen erkennt und diesen automatisiert Nachrichtenkategorien (Sport, Wirtschaft, etc) auf Basis der Meldungsinhalte zuweist. Der so verkleinerte Suchraum ist allerdings immer noch zu groß, um mit Standard-Methoden effizient ähnliche Meldungen zu finden. Zum Einsatz kam daher ein Hashing-Trick, der jeder Meldung einen numerischen Hash zuordnet, und zwar so, dass ähnlichen Meldungen ähnliche Hashes zugewiesen werden. Durch Ablage der Hashes in einer Look-Up-Tabelle können nun alle zu einer Meldung ähnlichen Meldungen einfach abgerufen und anhand der darin enthaltenen Daten eine Meldungshistorie erstellt werden.

Der Kundennutzen

Dank Deduplizierung können sich Redakteure auf die wesentlichen Nachrichten fokussieren. Die Anordnung entlang eines Meldungsstammbaums unterstützt bei der Recherche zur Entstehung der darin enthaltenen Informationen.

Themenübersicht

Projekt-

steckbrief

Unsere Rolle

Unterstützung des Kunden durch Data Scientists und Data Engineers

Unsere Tätigkeiten

Automatisierung der Aufbereitung und Indizierung von Dokumenten
Etablieren von Analyse- und Machine Learning Pipelines zur Klassifizierung der Dokumente
Extraktion von Information aus den unstrukturierten Dokumenteninhalten

Technologien & Methoden

Applikationen: Eagle
Daten/-banken: Elastic, Hbase
Sprachen / Frameworks: Python (Anaconda Stack), Hadoop, Spark
Methoden: Natural Language Processing, Information Extraction, Machine Learning, Locality Sensitive Hashing

ABOUT NORCOM

Intelligentes Nachrichtenmanagement / Duplikaterkennung

Projekt-

steckbrief

KONTAKT AUFNEHMEN UND MEHR ERFAHREN!