Risikobewertung von Dokumenten mit KI - OpenText Magellan Risk Guard

Anwendungsbeispiel: Wie man eine Anbindung an die Magellan Risk Guard API von OpenText erstellt.

In unseren Tutorials stellen wir regelmäßig Anwendungsbeispiele, APIs und Schnittstellen vor, die man mit Bordmitteln von Synesty anbinden kann, ohne dass es bisher ein fertiges Add-On von Synesty gibt.

In diesem Artikel schauen wir uns die REST API Magellan Risk Guard von OpenText an. Wir zeigen, wie man mit Synesty eine Schnittstelle baut, um damit automatisiert Dokumente zu prüfen.

OpenText Magellan Risk Guard

Dank der Präsenz von ChatGPT sind KI-Services zur Zeit in aller Munde. Der Informationsmanagement Anbieter OpenText setzt KI in vielen ihrer Produkte ein.

Das Produkt Magellan Risk Guard ist uns dabei besonders ins Auge gesprungen, denn es hilft uns bei einem wichtigen Thema mit dem wir ständig in der E-Commerce und IT-Welt konfrontiert werden: Datenschutz und Compliance

Heutzutage steigt die Menge der in Unternehmenssystemen gespeicherten Informationen exponentiell. Damit nehmen leider auch die Risiken für Ihr Unternehmen und seine Reputation durch unangemessene oder vertrauliche Inhalte & Informationen zu. Eine manuelle Klassifizierung dieser Inhalte ist aufgrund der Datenmenge zeitaufwendig oder sogar schlicht unmöglich und außerdem anfällig für Fehleinschätzungen durch menschliche Fehler.

Was kann die Magellan Risk Guard Schnittstelle?

OpenText Magellan Risk Guard nutzt maschinelles Lernen, um Inhalte von Dokumenten zu erkennen. Das kann man für Texterkennung und Klassifizierung nutzen, um z.B. schädliche, sensible und unangemessene Texte, Bilder, Video- und Audiodateien in Unternehmensinhalten aufzudecken. Magellan Risk Guard ist als KI-Produkt und als API-Service für das Informationsrisikomanagement erhältlich und ermöglicht es Unternehmen, auf entdeckte risikobehaftete Inhalte zu reagieren, um die Compliance zu erhöhen und die Data Governance zu verbessern.

Der Magellan Risk Guard REST Service ist eine zustandslose API-Schnittstelle, die mit Magellan Text Mining Informationen aus Dokumenten extrahieren kann. Das kann man nutzen für z.B.:

Erkennung von PII (Persönlich identifizierbare Informationen wie z.B. Name, Email), Persönliche sichere Informationen (PSI wie Krankheitsdiagnosen, Zugangsdaten)
Klassifizierung von Bildern zur Erkennung von Bedrohungen/Risiken (Gewalt, Alkohol, Waffen) oder Erkennung von Hate Speech
Erkennung von Aufbewahrungsfristen für bestimmte Dokumente erkennen
Erkennung von Daten auf Rechnungsbelegen wie Ländercodeerkennung, z.B. zur steuerlichen Einordnung

Wer oder wozu braucht das?

Es gibt verschiedene Gründe, warum Unternehmen Ihre Daten automatisiert nach bestimmten Inhalten scannen sollten oder auch müssen, wie z.B.:

Eigentümer von systemrelevanten Plattformen sind verpflichtet, den von seinen Nutzern eingestellten Content zu überprüfen (Der European Union Digital Services Act (DSA) hat vorgesehen, dass jede Plattform, die von mehr als 10 Prozent der Bürger genutzt wird, als systemrelevant gilt.)
Ein Unternehmen wurde zu einer hohen Geldstrafe verurteilt, weil es Log-in- und Zahlungsinformationen von fast 400.000 Personen preisgegeben hat.
Eine bekannte Fast-Food-Kette durchlief einen PR-Skandal im Zusammenhang mit Nacktfotos von Mitarbeitern, die auf den Servern des Unternehmens gefunden wurden. (Quelle: https://blogs.opentext.de/wir-stellen-vor-opentext-magellan-risk-guard/)

Aktueller Fall: ChatGPT und Datenschutz

Um zu verhindern das sensible Daten versehentlich an externe Dienste wie ChatGPT übertragen werden (z.B. falls Sie unser ChatGPT Add-On nutzen), könnten Sie Ihre jeweiligen Anfragen vor Übertragung von der Magellan Risk Guard API auf personenbezogene oder sensible Daten Prüfen lassen, und nur die Daten übermitteln, die als unkritisch angesehen werden.

Dass das ein Problem ist, zeigt die Sperrung des KI-basierten Chatbot ChatGPT durch Italiens Datenschutzbehörde.

Tutorial - Anbindung mit Synesty an Magellan Risk Guard REST API, um Dokumente zu verarbeiten

Im folgenden Abschnitt zeigen wir Schritt für Schritt, wie sie eine Anbindung mit Synesty erstellen.

In unserem Beispiel UseCase sollen Dokumente, welche personenbezogene Daten beinhalten, die das normalerweise nicht sollten, erkannt werden. Daraufhin soll ein Alert in Form einer E-Mail an eine bestimmte Person gesendet werden, um auf das Dokument und Ihre Inhalte aufmerksam zu machen.

OpenText Developer Backend

Für die Nutzung von Magellan Risk Guard muss zunächst ein OpenText Developer Testaccount angelegt werden. In dessen Backend werden eine neuer Tenant und eine neue App erstellt, mit deren API-Keys später Anfragen an die Magellan Risk Guard REST API durchgeführt werden können.

API-Zugang einrichten

Die Risk Guard API verwendet die OAuth2 ClientCredentials Authentication, die man in Synesty als HTTP-Account konfigurieren kann. Dazu hinterlegt man einen HTTP-Account mit folgenden Daten:

Type: OAuth 2.0
baseURL: https://na-1-dev.api.opentext.com/mtm-riskguard/api/v1/process
Granttype: Client Credentials
ClientID: (befindet sich in der ot2_client_details_{Ihr APP Name}_confidential.json welche am Ende der App Erstellung heruntergeladen wurde)
Client Secret: (befindet sich in der ot2_client_details_{Ihr APP Name}_confidential.json welche am Ende der App Erstellung heruntergeladen wurde)
Token URL: https://na-1-dev.api.opentext.com/tenants/{MY TENANT ID}/oauth2/token
- Die Tenant ID befindet sich in der ot2_client_details_{Ihr APP Name}_confidential.json welche am Ende der App Erstellung heruntergeladen wurde.
Header Prefix: Bearer

Ein Klick auf "Konfiguration starten" füllt dann den Access-Token, der für die API-Calls gebraucht wird.

Kontentanalyse über die Risk Guard API

Um ein Dokument vom Risk Guard auf Risiken prüfen zu lassen, erstellen wir einen Flow. Dieser besteht zunächst aus den Steps URLDownload und JSONReaderVisual.

Mit dem URLDownload (1) wird ein Beispiel-Dokument über die API hochgeladen. Die Response des URLDownloads ist eine .JSON-Datei, mit den gefundenen Datensätzen. Der JSONReaderVisual (2) liest diese dann ein und extrahiert die Felder, die wir benötigen.

Kategorien der gefundenen Datensätze:

jeder einzelne gefundene Datensatz:

Das Ergebnis ist ein Spreadsheet der in dem Dokument gefundenen:

Risikokategorien wie Gewalt, Alkohol, Waffen, Pornografie und mehr
Persönlich identifizierbare Informationen (PII) wie Name, Kreditkartennummern oder Versicherungsnummern
Vertrauliche personenbezogene Daten (SPII) wie z. B. Performance-Daten, Finanz-/Steuerdaten oder politische Meinungen

Mit dem Mapper Step kann das Spreadsheet dann nach den eigenen Wünschen aufbereitet werden.

Zur Verbesserung der Übersicht können die Spaltentitel gekürzt/vereinfacht werden:

Mit einem Mappingset lassen Sich die CartridgeIDs (Entitätstyp des Datensatzes) lesbar ausgeben:

Die wichtigsten Spalten und deren Bedeutung:

ConfidenceScore = Wie sicher sich Risk Guard ist, den Datensatz den richtigen Entitätstypen zugeordnet zu haben.
RelevancyScore = Wie wichtig die Entität oder Klassifizierung für eine Datei ist, z. B.: Wenn eine "Telefonnummer" dreimal in einem Dokument gefunden wurde, ist sie relevanter als eine Nummer, die nur einmal gefunden wurde.
Frequency = Wie viele Vorkommen eines einzelnen Datensatzes wurden gefunden?

Spalten in denen die Werte der Datensätze ausgegeben werden:

Subterm.value = Wert des extrahierten Datensatzes
- In dieser Spalte wurde während unserer Tests für jeden Datensatz ein Wert ausgegeben.
nfinderNormalized = Extrahierter Datensatz
- In dieser Spalte wurden während unserer Tests für die meisten Datensätze ein Wert ausgegeben, in einigen Zellen fehlten allerdings Werte.
ClientNormalized = Extrahierter Datensatz
- In dieser Spalte wurden nur die Werte der Social Security Numbers ausgegeben. Die restlichen Zellen blieben leer.

In den restlichen Spalten werden nur sporadisch Werte ausgegeben:

MainTermValue = Extrahierter Datensatz
Subterm.value_1 = Extrahierter Datensatz
Subterm.value_2 = Extrahierter Datensatz

Übersicht über das Spreadsheet:

Was können wir mit den gewonnenen Daten machen?

Die Rohdaten der API könnte man jetzt noch etwas weiter aufbereiten. Dafür werden wir das Spreadsheet so bearbeiten (Spalten entfernen, Gruppieren nach CartridgeIDs), dass wir sehen, wie oft welche Datensätze in unserem Dokument gefunden wurden:

Den Flow erweitern wir uns jetzt, um z.B. eine Alarm-E-Mail zu verschicken, wenn in einem Dokument personenbezogene Daten gefunden wurden.

Falls keine personenbezogenen Daten gefunden wurden, kann der Flow an der Stelle abgebrochen werden. Das kann man mit dem Step StopFlowIf realisieren.

Andernfalls soll weiter gemacht werden.

Jetzt werden mit mehreren Filter Steps die relevanten Datensätze kategorisiert:

Filter 1: Filter - Personally Identifiable Information

Filterbedingung:

( Für Datensätze welche nur in Kombination mit anderen als personenbezogen gelten, können hier auch Bedingungen mit UND erstellt werden. )

Filter 2: Filter - Personally Identifiable Financial information

Filterbedingung:

Filter 3: Filter - Access Data

Nachdem gefiltert wurde, kann nun die Alarm-Email erzeugt und verschickt werden. Dazu verwenden wir den Step EmailSend.

Wir wählen einen Empfänger und geben den Betreff ein.

Im Feld Message schreiben wir unsere Nachricht und lassen uns die gefundenen Datensätze mit ihrer Häufigkeit nach unseren Kategorien geordnet auflisten. Die Email-Nachricht kann mit Freemarker-Scripting von Synesty erstellt werden. Darin werden die Ergebnisse der vorherigen Filter-Steps ausgegeben.

Ergebnis

So sieht das ganze dann aus wenn wir auf Vorschau anzeigen klicken:

...und so sieht dann nach der Flowausführung die E-Mail aus:

Fazit

Durch die stetig wachsende Menge von Daten und Inhalten, steigen die Risiken für die Unternehmen. Eine manuelle Bewertung von Content ist aufgrund der Datenmenge zeitaufwendig und anfällig für Fehleinschätzungen durch menschliche Fehler. Durch geeignete Software Tools kann man diese Risiken erkennen und reagieren.

Mit unserem Testbeispiel haben wir gezeigt, wie man die API von OpenText Magellan Risk Guard in kurzer Zeit anbinden kann, um damit eigene Inhalte automatisiert zu analysieren.

Falls Sie das ganze jetzt einmal selbst testen möchten, schauen Sie sich unsere Flow-Vorlage dazu an.

Mehr über die Möglichkeiten der Software erfahren Sie in diesem Video:

Das Video wird bei Klick von Youtube geladen und abgespielt. Dabei stellt Ihr Browser eine Verbindung zu den Youtube-Servern her. Es gelten die Datenschutzhinweise von Google / Youtube

Sprechen Sie uns gern an, wenn Sie weitere Fragen dazu haben.

Weitere Informationen

Flow-Vorlage zum ausprobieren des Beispiels. Sie brauchen dafür nur einen kostenlosen Testaccount
Magellan Risk Guard API Doku
Magellan Risk Guard stellt sich vor

Unser Whitepaper für Macher: No Code Integration & Automatisierung

Jetzt kostenlos anfordern