Risikobewertung von Dokumenten mit KI - OpenText Magellan Risk Guard

Anwendungsbeispiel: Wie man eine Anbindung an die Magellan Risk Guard API von OpenText erstellt.

Risikobewertung von Dokumenten mit KI - OpenText Magellan Risk Guard

In unseren Tutorials stellen wir regelmäßig Anwendungsbeispiele, APIs und Schnittstellen vor, die man mit Bordmitteln von Synesty anbinden kann, ohne dass es bisher ein fertiges Add-On von Synesty gibt.

In diesem Artikel schauen wir uns die REST API Magellan Risk Guard von OpenText an. Wir zeigen, wie man mit Synesty eine Schnittstelle baut, um damit automatisiert Dokumente zu prüfen.

OpenText Magellan Risk Guard

Dank der Präsenz von ChatGPT sind KI-Services zur Zeit in aller Munde. Der Informationsmanagement Anbieter OpenText setzt KI in vielen ihrer Produkte ein.

Das Produkt Magellan Risk Guard ist uns dabei besonders ins Auge gesprungen, denn es hilft uns bei einem wichtigen Thema mit dem wir ständig in der E-Commerce und IT-Welt konfrontiert werden: Datenschutz und Compliance

Heutzutage steigt die Menge der in Unternehmenssystemen gespeicherten Informationen exponentiell. Damit nehmen leider auch die Risiken für Ihr Unternehmen und seine Reputation durch unangemessene oder vertrauliche Inhalte & Informationen zu. Eine manuelle Klassifizierung dieser Inhalte ist aufgrund der Datenmenge zeitaufwendig oder sogar schlicht unmöglich und außerdem anfällig für Fehleinschätzungen durch menschliche Fehler.

Was kann die Magellan Risk Guard Schnittstelle?

OpenText Magellan Risk Guard nutzt maschinelles Lernen, um Inhalte von Dokumenten zu erkennen. Das kann man für Texterkennung und Klassifizierung nutzen, um z.B. schädliche, sensible und unangemessene Texte, Bilder, Video- und Audiodateien in Unternehmensinhalten aufzudecken. Magellan Risk Guard ist als KI-Produkt und als API-Service für das Informationsrisikomanagement erhältlich und ermöglicht es Unternehmen, auf entdeckte risikobehaftete Inhalte zu reagieren, um die Compliance zu erhöhen und die Data Governance zu verbessern.

Der Magellan Risk Guard REST Service ist eine zustandslose API-Schnittstelle, die mit Magellan Text Mining Informationen aus Dokumenten extrahieren kann. Das kann man nutzen für z.B.:

  • Erkennung von PII (Persönlich identifizierbare Informationen wie z.B. Name, Email), Persönliche sichere Informationen (PSI wie Krankheitsdiagnosen, Zugangsdaten)
  • Klassifizierung von Bildern zur Erkennung von Bedrohungen/Risiken (Gewalt, Alkohol, Waffen) oder Erkennung von Hate Speech
  • Erkennung von Aufbewahrungsfristen für bestimmte Dokumente erkennen
  • Erkennung von Daten auf Rechnungsbelegen wie Ländercodeerkennung, z.B. zur steuerlichen Einordnung

Wer oder wozu braucht das?

Es gibt verschiedene Gründe, warum Unternehmen Ihre Daten automatisiert nach bestimmten Inhalten scannen sollten oder auch müssen, wie z.B.:

  • Eigentümer von systemrelevanten Plattformen sind verpflichtet, den von seinen Nutzern eingestellten Content zu überprüfen (Der European Union Digital Services Act (DSA) hat vorgesehen, dass jede Plattform, die von mehr als 10 Prozent der Bürger genutzt wird, als systemrelevant gilt.)
  • Ein Unternehmen wurde zu einer hohen Geldstrafe verurteilt, weil es Log-in- und Zahlungsinformationen von fast 400.000 Personen preisgegeben hat.
  • Eine bekannte Fast-Food-Kette durchlief einen PR-Skandal im Zusammenhang mit Nacktfotos von Mitarbeitern, die auf den Servern des Unternehmens gefunden wurden. (Quelle: https://blogs.opentext.de/wir-stellen-vor-opentext-magellan-risk-guard/)

Aktueller Fall: ChatGPT und Datenschutz

Um zu verhindern das sensible Daten versehentlich an externe Dienste wie ChatGPT übertragen werden (z.B. falls Sie unser ChatGPT Add-On nutzen), könnten Sie Ihre jeweiligen Anfragen vor Übertragung von der Magellan Risk Guard API auf personenbezogene oder sensible Daten Prüfen lassen, und nur die Daten übermitteln, die als unkritisch angesehen werden.

Dass das ein Problem ist, zeigt die Sperrung des KI-basierten Chatbot ChatGPT durch Italiens Datenschutzbehörde.

Tutorial - Anbindung mit Synesty an Magellan Risk Guard REST API, um Dokumente zu verarbeiten

Im folgenden Abschnitt zeigen wir Schritt für Schritt, wie sie eine Anbindung mit Synesty erstellen.

In unserem Beispiel UseCase sollen Dokumente, welche personenbezogene Daten beinhalten, die das normalerweise nicht sollten, erkannt werden. Daraufhin soll ein Alert in Form einer E-Mail an eine bestimmte Person gesendet werden, um auf das Dokument und Ihre Inhalte aufmerksam zu machen.

OpenText Developer Backend

Für die Nutzung von Magellan Risk Guard muss zunächst ein OpenText Developer Testaccount angelegt werden. In dessen Backend werden eine neuer Tenant und eine neue App erstellt, mit deren API-Keys später Anfragen an die Magellan Risk Guard REST API durchgeführt werden können.

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild2

API-Zugang einrichten

Die Risk Guard API verwendet die OAuth2 ClientCredentials Authentication, die man in Synesty als HTTP-Account konfigurieren kann. Dazu hinterlegt man einen HTTP-Account mit folgenden Daten:

  • Type: OAuth 2.0
  • baseURL: https://na-1-dev.api.opentext.com/mtm-riskguard/api/v1/process
  • Granttype: Client Credentials
  • ClientID: (befindet sich in der ot2_client_details_{Ihr APP Name}_confidential.json welche am Ende der App Erstellung heruntergeladen wurde)
  • Client Secret: (befindet sich in der ot2_client_details_{Ihr APP Name}_confidential.json welche am Ende der App Erstellung heruntergeladen wurde)
  • Token URL: https://na-1-dev.api.opentext.com/tenants/{MY TENANT ID}/oauth2/token

    • Die Tenant ID befindet sich in der ot2_client_details_{Ihr APP Name}_confidential.json welche am Ende der App Erstellung heruntergeladen wurde.
  • Header Prefix: Bearer

Ein Klick auf "Konfiguration starten" füllt dann den Access-Token, der für die API-Calls gebraucht wird.

Kontentanalyse über die Risk Guard API

Um ein Dokument vom Risk Guard auf Risiken prüfen zu lassen, erstellen wir einen Flow. Dieser besteht zunächst aus den Steps URLDownload und JSONReaderVisual.

Mit dem URLDownload (1) wird ein Beispiel-Dokument über die API hochgeladen. Die Response des URLDownloads ist eine .JSON-Datei, mit den gefundenen Datensätzen. Der JSONReaderVisual (2) liest diese dann ein und extrahiert die Felder, die wir benötigen.

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild3

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild4

Kategorien der gefundenen Datensätze: Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild6

jeder einzelne gefundene Datensatz: Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild7

Das Ergebnis ist ein Spreadsheet der in dem Dokument gefundenen:

  • Risikokategorien wie Gewalt, Alkohol, Waffen, Pornografie und mehr
  • Persönlich identifizierbare Informationen (PII) wie Name, Kreditkartennummern oder Versicherungsnummern
  • Vertrauliche personenbezogene Daten (SPII) wie z. B. Performance-Daten, Finanz-/Steuerdaten oder politische Meinungen

Mit dem Mapper Step kann das Spreadsheet dann nach den eigenen Wünschen aufbereitet werden.

Zur Verbesserung der Übersicht können die Spaltentitel gekürzt/vereinfacht werden:

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild8

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild9

Mit einem Mappingset lassen Sich die CartridgeIDs (Entitätstyp des Datensatzes) lesbar ausgeben:

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild10

Die wichtigsten Spalten und deren Bedeutung:

  • ConfidenceScore = Wie sicher sich Risk Guard ist, den Datensatz den richtigen Entitätstypen zugeordnet zu haben.
  • RelevancyScore = Wie wichtig die Entität oder Klassifizierung für eine Datei ist, z. B.: Wenn eine "Telefonnummer" dreimal in einem Dokument gefunden wurde, ist sie relevanter als eine Nummer, die nur einmal gefunden wurde.
  • Frequency = Wie viele Vorkommen eines einzelnen Datensatzes wurden gefunden?

Spalten in denen die Werte der Datensätze ausgegeben werden:

  • Subterm.value = Wert des extrahierten Datensatzes

    • In dieser Spalte wurde während unserer Tests für jeden Datensatz ein Wert ausgegeben.
  • nfinderNormalized = Extrahierter Datensatz

    • In dieser Spalte wurden während unserer Tests für die meisten Datensätze ein Wert ausgegeben, in einigen Zellen fehlten allerdings Werte.
  • ClientNormalized = Extrahierter Datensatz

    • In dieser Spalte wurden nur die Werte der Social Security Numbers ausgegeben. Die restlichen Zellen blieben leer.

In den restlichen Spalten werden nur sporadisch Werte ausgegeben:

  • MainTermValue = Extrahierter Datensatz
  • Subterm.value_1 = Extrahierter Datensatz
  • Subterm.value_2 = Extrahierter Datensatz

Übersicht über das Spreadsheet:

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild11

Was können wir mit den gewonnenen Daten machen?

Die Rohdaten der API könnte man jetzt noch etwas weiter aufbereiten. Dafür werden wir das Spreadsheet so bearbeiten (Spalten entfernen, Gruppieren nach CartridgeIDs), dass wir sehen, wie oft welche Datensätze in unserem Dokument gefunden wurden:

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild12

Den Flow erweitern wir uns jetzt, um z.B. eine Alarm-E-Mail zu verschicken, wenn in einem Dokument personenbezogene Daten gefunden wurden.

Falls keine personenbezogenen Daten gefunden wurden, kann der Flow an der Stelle abgebrochen werden. Das kann man mit dem Step StopFlowIf realisieren.

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild13

Andernfalls soll weiter gemacht werden.

Jetzt werden mit mehreren Filter Steps die relevanten Datensätze kategorisiert:

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild17

Filter 1: Filter - Personally Identifiable Information

Filterbedingung:

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild14

( Für Datensätze welche nur in Kombination mit anderen als personenbezogen gelten, können hier auch Bedingungen mit UND erstellt werden. )

Filter 2: Filter - Personally Identifiable Financial information

Filterbedingung:

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild15

Filter 3: Filter - Access Data

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild16

Nachdem gefiltert wurde, kann nun die Alarm-Email erzeugt und verschickt werden. Dazu verwenden wir den Step EmailSend.

Wir wählen einen Empfänger und geben den Betreff ein.

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild17

Im Feld Message schreiben wir unsere Nachricht und lassen uns die gefundenen Datensätze mit ihrer Häufigkeit nach unseren Kategorien geordnet auflisten. Die Email-Nachricht kann mit Freemarker-Scripting von Synesty erstellt werden. Darin werden die Ergebnisse der vorherigen Filter-Steps ausgegeben.

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild19

Ergebnis

So sieht das ganze dann aus wenn wir auf Vorschau anzeigen klicken:

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild20

...und so sieht dann nach der Flowausführung die E-Mail aus:

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild21

Fazit

Durch die stetig wachsende Menge von Daten und Inhalten, steigen die Risiken für die Unternehmen. Eine manuelle Bewertung von Content ist aufgrund der Datenmenge zeitaufwendig und anfällig für Fehleinschätzungen durch menschliche Fehler. Durch geeignete Software Tools kann man diese Risiken erkennen und reagieren.

Mit unserem Testbeispiel haben wir gezeigt, wie man die API von OpenText Magellan Risk Guard in kurzer Zeit anbinden kann, um damit eigene Inhalte automatisiert zu analysieren.

Falls Sie das ganze jetzt einmal selbst testen möchten, schauen Sie sich unsere Flow-Vorlage dazu an.

Mehr über die Möglichkeiten der Software erfahren Sie in diesem Video:

Das Video wird bei Klick von Youtube geladen und abgespielt. Dabei stellt Ihr Browser eine Verbindung zu den Youtube-Servern her. Es gelten die Datenschutzhinweise von Google / Youtube

Sprechen Sie uns gern an, wenn Sie weitere Fragen dazu haben.

Weitere Informationen

Unser Whitepaper für Macher: No Code Integration & Automatisierung

Verwandte Beiträge


Aktualisiert am March 31, 2023
Chatten Sie mit uns