K.REX Inhalte

Warum K.REX?

In Ermittlungsfällen der Strafverfolgung und Kriminalitätsbekämpfung fallen große Mengen an heterogenen Dokumenten (z.B. aus Beschlagnahmen, Konto-Öffnungen) an, die von Ermittlerinnen und Ermittlern gesichtet und hinsichtlich ihrer inhaltlichen (strafrechtlichen) Relevanz bewertet werden müssen. Ohne maschinelle Unterstützung ist das stark steigende Datenaufkommen nicht zu bewältigen. Während der Mensch ganz selbstverständlich Schlussfolgerungen aus Struktur, optischer Anmutung und bildlichen Elementen wie Logos, Stempel oder handschriftlichen Ergänzungen in Dokumenten zieht, bleibt diese Information textbasierten maschinellen Verfahren verborgen. Ist der Text fehlerbehaftet (etwa aus OCR-Verarbeitung) sind die Inhalte damit unter Umständen für eine computergestützte Analyse wertlos – die Dokumente gehen für die Beweisführung verloren.

Der Mensch sieht…

Die Maschine sieht…

Welche Inhalte werden in K.REX behandelt?

Methoden für effiziente semantische Annotation

Es wird eine modulare, übertrag- und adaptierbare Ontologie zur Abbildung der relevanten Begrifflichkeiten und Beziehungen modelliert, die sich in mehrere Abschnitte gliedern lässt. Basis bildet ein segment-beschreibendes Modell. In steigender Spezifizität ordnen Modell-Ebenen die inhaltliche Bedeutung der Dokument-Elemente ein. Die Formulierung der Wissensbasis als Ontologie stellt eine manuelle und maschinelle Verarbeitbarkeit sicher. Die Aufteilung der Ontologie nach Generizitätsgrad gestattet es, bei der Adaption auf neue Ermittlungsfälle die auszutauschenden bzw. neuen Teile lokal zu halten und damit die Nebeneffekte zu minimieren. Es werden Abläufe entwickelt, die maschinelle Lernverfahren mit Entscheidungsverfahren kombinieren, um zu bestimmen, welche Benutzereingaben das Lernverfahren am besten unterstützen. Minimierung des Annotationsaufwands und Maximierung der Datensatzdiversität bei ausreichender Klassifikationsleistung sind zentral. Die Art der Fragestellungen an den Benutzer (Richtig/Falsch, Multiple choice) wird ebenso beleuchtet wie die Problemstellungen, die sich durch Multimodalität der Daten und durch potentielle Unteranpassung ergeben. Der Document Annotator gewinnt mittels einer einfach zu bedienenden Oberfläche Trainings-Daten für die lernenden Algorithmen aus Benutzerinput und kapselt Algorithmen und Verfahren in einem Labor-Prototyp, um diese für die Evaluierung effizient anwendbar bereitzustellen.

Wahrnehmungssimulierende Erschließung von Textinhalten

Mit state-of-the-art-Verfahren wird auf domänenspezifischen Dokumenten eine Vergleichsbasis für die weiterentwickelten Algorithmen und gleichzeitig eine Ausgangsbasis für manuelle Korrekturen und Benutzer-Annotationen erstellt (Baseline). In einer zweiten Phase werden neue Modelle für Wort- und Konzept-Darstellung entwickelt, die den zweidimensionalen Text-Kontext verwerten. Dieses revolutionäre Verfahren wird dazu beitragen, die fehlenden typischen Text-Merkmale (z.B. Sätze, Absätze) durch die Topologie des Dokumentes zu kompensieren. Diese Methode verbessert sowohl die Qualität der Klassifikation der Dokumente als auch der einzelnen Segmente. In einem finalen Schritt kombinieren neuronale Netzwerke Text, Text-Position, und segmentierte Bild-Information zu einem optimalen Ergebnis.

Layoutbasierte Segmentierung und bildverarbeitende Erschließung der Dokument-Elemente

Die bildverarbeitende Erschließung teilt sich in vier thematische Schwerpunkte: (i) die Segmentierung in semantisch zusammengehörende Dokumentbausteine, (ii) die segmentbasierte Klassifikation des Gesamtdokuments anhand der optischen Eigenschaften der Segmente in ihrem Kontext, (iii) die inhaltliche Zuordnung der Segmente zu durch die Ontologie vorgegebenen Klassen (Fußzeile, Logo, Signatur) und (iv) entweder die Zuordnung der Segmente zu einer bestehenden Entität oder die Zusammenfassung ähnlicher Segmente zu Gruppen. Zur Realisierung der angestrebten Funktionalitäten werden im Rahmen des Arbeitspaketes sowohl regelbasierte Analysemethoden als auch Machine-Learning-Verfahren eingesetzt und bezüglich Genauigkeit, Verlässlichkeit und Robustheit evaluiert. Spezielle Beachtung findet die Evaluierung der Generalisierungsfähigkeit der Methoden auf den von den Bedarfsträgern – unter Einhaltung sämtlicher datenrechtlicher Vorschriften und höchster Datensicherheit – zur Verfügung gestellten Datensätzen, welche inhaltlich und strukturell stark von den der Entwicklung zugrunde liegenden Datensätzen (öffentliche Dokumente) abweichen werden.

Soziotechnische Aspekte der KI-gestützten Ermittlungspraxis

Lernprozesse zwischen Menschen und Maschinen erfordern ein hohes Maß an Verantwortung und Transparenz. Aspekte von Vertrauen in Prozesse, die künstliche Intelligenz integrieren, um Klassifizierungen und Sortierungen zu unterstützen, sowie deren Handhabung werden im theoretischen Rahmen des Projekts systematisiert. Weiters werden die Handlungsspielräume in Diskussionsgruppen mit den Bedarfsträgern ausgelotet und in der Trainings- und Evaluierungsphase gemeinsam aufgearbeitet. Zentrale Frage hierbei wird sein: Wie kann man die Leistung von und das Vertrauen in selbstlernende Methoden und Verfahren verbessern und dabei nachhaltige ethische Rahmenbedingungen schaffen? Geplanter Output sind neben akademischen Publikationen auch öffentliche Veranstaltungen zu Auswirkungen von KI in Arbeitsprozessen der öffentlichen Verwaltung im Bereich der Strafverfolgung und Kriminalitätsbekämpfung und ein policy brief.

Welche Ziele werden in K.REX verfolgt?

Verbesserung der Treffergenauigkeit

Durch die multimodale Kombination von Dokumentaspekten wird eine Senkung der Fehlerrate bei der Erkennung von domänenbezogenen Elementen um 10-50% verglichen mit einem rein textbasierten state-of-the-art Word Embedding-Ansatz erwartet. Der hohe Zielwert lässt sich durch einen großen Anteil an Dokumenten begründen, deren geringe Textqualität durch den kombinierten Ansatz kompensiert werden soll, sowie durch die integrative Betrachtung der bildlichen Elemente.

Effiziente Annotation

Durch adaptives, dynamisches Lernen wird bei gleicher oder niedrigerer Fehlerrate ein deutlich geringerer Aufwand für das Erzeugen von Trainingsdaten bzw. für die Korrektur von Annotationen erwartet.

Übertragbarkeit auf unbekannte Daten

Die Treffergenauigkeit hinsichtlich öffentlicher Dokumente soll annähernd jener, bezogen auf ermittlungsfallspezifische Dokumente, bei gleicher Domäne entsprechen.

Adaptierbarkeit auf spezifische Fall-Modelle

Jeder Ermittlungsfall weist Besonderheiten auf, die sich im konkreten Analyse-Modell widerspiegeln müssen. Um einen möglichst positiven Effekt hinsichtlich der Ermittlungszeit und der Ermittlungsergebnisse zu erreichen, ist die Adaptierbarkeit des Ansatzes durch Ermittlerinnen und Ermittler selbst notwendig.

Die sozialwissenschaftliche Perspektive

Die sozialwissenschaftliche Perspektive soll dabei helfen, die Leistung von und das Vertrauen in die Entwicklung zu verbessern, die Erwartungen und Erfahrungen zusammenzubringen und für die Implementation der Use Cases sowie deren Evaluierung zu analysieren, die ethischen Rahmenbedingungen abzuklären, aber auch neue Möglichkeiten für Maßnahmen im Hinblick auf KI im Ermittlungsprozess auszuloten.

Welcher Nutzen soll aus K.REX resultieren?

Primäre Zielgruppe und Anwender des gegenständlichen Forschungsvorhabens sind die Organisationen der Strafverfolgung, Kriminalitäts- und Betrugsbekämpfung. Rasche und effektive Bekämpfung von Finanz-, Korruptions- und Wirtschaftskriminalität setzt eine hohe Aufdeckungswahrscheinlichkeit und eine rasche und angemessene Sanktion eines rechtswidrigen Verhaltens voraus. Gerade in diesen Kriminalitätsbereichen kommt es mangels Ressourcen auf Seiten der Strafverfolgungsbehörden zu einer im Verhältnis geringen Aufklärungsquote, zu langen Verfahrensdauern und letztlich zu einer geringen Wahrscheinlichkeit als Täter zur Verantwortung gezogen zu werden. Laut einer Nutzenanalyse des BMF wird durch semantische Analyseverfahren eine drastische Verkürzung der Durchlaufzeiten um 50% erwartet, was einem Kosten-Nutzen-Verhältnis von 1:10 entspricht. Der Bedarfsträger BMJ hat im Rahmen von Widerspruchsverfahren gemäß § 112 StPO zeigen können, dass durch den Einsatz dieser Technologien die relevante Menge zu sichtender Daten auf etwa 6% des Ausgangsmaterials reduziert werden kann (=Reduktion um 94%!), resultierend in einer massiven Zeitersparnis bei allen Beteiligten (Justiz, Betroffener einer Sicherstellung, Beschuldigter). Da erwartet wird, dass die angestrebten Methoden und Technologien die Qualität der inhaltlichen Interpretation weiter signifikant erhöhen, wird von einer weiteren Reduktion der Durchlaufzeit auf 25% der ursprünglichen Verfahrensdauer ausgegangen. Gleichzeitig haben derartige Verfahren das Potential, durch die gesteigerte Einbringbarkeit von Ansprüchen (20% im Bereich der Steuerfahndung) erhebliche Mehrergebnisse zu realisieren. Außerdem wird eine Entlastung der Ermittlerinnen und Ermittler von Routineaufgaben erreicht. Dieser Nutzeneffekt wird sich in Zukunft durch die rasant steigenden Datenmengen noch wesentlich erhöhen.

Zusammenfassend wird folgender direkter Nutzen erwartet:

  • Entlastung der hochqualifizierten Ermittlerinnen und Ermittler von Routine-Tätigkeiten
  • Konzentration der Ermittlungstätigkeit auf die Analyse betrugsrelevanter Sachverhalte
  • Verkürzung der Durchlaufzeiten und Erhöhung der Fallzahlen
  • Erhöhung der Präventivwirkung
  • Verbesserung der Qualität der Ermittlungsergebnisse
  • Flexibilität durch die Möglichkeit der fallbezogenen Optimierung der Analysemodelle