Risikobewertung von Dokumenten mit KI - OpenText Magellan Risk Guard

Anwendungsbeispiel: Wie man eine Anbindung an die Magellan Risk Guard API von OpenText erstellt.
In einem früheren Blog-Artikel haben wir vorgestellt, wie man die REST-API OpenText RiskGuard mit nativen Funktionen von Synesty anbindet, ohne dass es bereits ein fertiges Synesty-Add-On gibt.
Jetzt haben wir ein neues Add-on für diese Verbindung entwickelt. In diesem Artikel zeigen wir, wie Sie dieses Add-on verwenden, um mit Synesty eine Verbindung mit der Schnittstelle aufzubauen, um Dokumente automatisch mit dem Risk Guard zu prüfen.
OpenText Magellan Risk Guard
Dank der Präsenz von ChatGPT sind KI-Services zur Zeit in aller Munde. Der Informationsmanagement Anbieter OpenText setzt KI in vielen ihrer Produkte ein.
Das Produkt Magellan Risk Guard ist uns dabei besonders ins Auge gesprungen, denn es hilft uns bei einem wichtigen Thema mit dem wir ständig in der E-Commerce und IT-Welt konfrontiert werden: Datenschutz und Compliance
Heutzutage steigt die Menge der in Unternehmenssystemen gespeicherten Informationen exponentiell. Damit nehmen leider auch die Risiken für Ihr Unternehmen und seine Reputation durch unangemessene oder vertrauliche Inhalte & Informationen zu. Eine manuelle Klassifizierung dieser Inhalte ist aufgrund der Datenmenge zeitaufwendig oder sogar schlicht unmöglich und außerdem anfällig für Fehleinschätzungen durch menschliche Fehler.
Was kann die Magellan Risk Guard Schnittstelle?
OpenText Magellan Risk Guard nutzt maschinelles Lernen, um Inhalte von Dokumenten zu erkennen. Das kann man für Texterkennung und Klassifizierung nutzen, um z.B. schädliche, sensible und unangemessene Texte, Bilder, Video- und Audiodateien in Unternehmensinhalten aufzudecken. Magellan Risk Guard ist als KI-Produkt und als API-Service für das Informationsrisikomanagement erhältlich und ermöglicht es Unternehmen, auf entdeckte risikobehaftete Inhalte zu reagieren, um die Compliance zu erhöhen und die Data Governance zu verbessern.
Der Magellan Risk Guard REST Service ist eine zustandslose API-Schnittstelle, die mit Magellan Text Mining Informationen aus Dokumenten extrahieren kann. Das kann man nutzen für z.B.:
- Erkennung von PII (Persönlich identifizierbare Informationen wie z.B. Name, Email), Persönliche sichere Informationen (PSI wie Krankheitsdiagnosen, Zugangsdaten)
- Klassifizierung von Bildern zur Erkennung von Bedrohungen/Risiken (Gewalt, Alkohol, Waffen) oder Erkennung von Hate Speech
- Erkennung von Aufbewahrungsfristen für bestimmte Dokumente erkennen
- Erkennung von Daten auf Rechnungsbelegen wie Ländercodeerkennung, z.B. zur steuerlichen Einordnung
Wer oder wozu braucht das?
Es gibt verschiedene Gründe, warum Unternehmen Ihre Daten automatisiert nach bestimmten Inhalten scannen sollten oder auch müssen, wie z.B.:
- Eigentümer von systemrelevanten Plattformen sind verpflichtet, den von seinen Nutzern eingestellten Content zu überprüfen (Der European Union Digital Services Act (DSA) hat vorgesehen, dass jede Plattform, die von mehr als 10 Prozent der Bürger genutzt wird, als systemrelevant gilt.)
- Ein Unternehmen wurde zu einer hohen Geldstrafe verurteilt, weil es Log-in- und Zahlungsinformationen von fast 400.000 Personen preisgegeben hat.
- Eine bekannte Fast-Food-Kette durchlief einen PR-Skandal im Zusammenhang mit Nacktfotos von Mitarbeitern, die auf den Servern des Unternehmens gefunden wurden. (Quelle: https://blogs.opentext.de/wir-stellen-vor-opentext-magellan-risk-guard/)
Aktueller Fall: ChatGPT und Datenschutz
Um zu verhindern das sensible Daten versehentlich an externe Dienste wie ChatGPT übertragen werden (z.B. falls Sie unser ChatGPT Add-On nutzen), könnten Sie Ihre jeweiligen Anfragen vor Übertragung von der Magellan Risk Guard API auf personenbezogene oder sensible Daten Prüfen lassen, und nur die Daten übermitteln, die als unkritisch angesehen werden.
Dass das ein Problem ist, zeigt die Sperrung des KI-basierten Chatbot ChatGPT durch Italiens Datenschutzbehörde.
Tutorial - Anbindung von Synesty an die Magellan Risk Guard REST API zur Verarbeitung von Dokumenten
Im folgenden Abschnitt zeigen wir Schritt für Schritt, wie Sie eine Anbindung mit Synesty erstellen.
In unserem Beispiel UseCase sollen Dokumente, welche personenbezogene Daten beinhalten, die das normalerweise nicht sollten, erkannt werden. Daraufhin soll ein Alert in Form einer E-Mail an eine bestimmte Person gesendet werden, um auf das Dokument und Ihre Inhalte aufmerksam zu machen.
OpenText Developer Backend
Für die Nutzung von Magellan Risk Guard muss zunächst ein OpenText Developer Testaccount angelegt werden. In dessen Backend werden eine neuer Tenant und eine neue App erstellt, mit deren API-Keys später Anfragen an die Magellan Risk Guard REST API durchgeführt werden können.
Eine detaillierte Anleitung dazu finden Sie in unserer Dokumentation.
API-Zugang einrichten
Unter Meine Verbindung muss ein neuer OpenText - Risk Guard Account angelegt werden, um die Verbindung mit der OpenText API herzustellen.
Eine detaillierte Anleitung dazu finden Sie in unserer Dokumentation.
Kontentanalyse über die Risk Guard API
Um ein Dokument vom Risk Guard auf Risiken prüfen zu lassen, erstellen wir einen Flow.
Der Flow besteht zunächst aus den Steps URLDownload, OpenText-RiskGuard-Check-Documents, JSONReaderVisual und Mapper.
Mit dem URLDownload (1) wird ein Beispieldokument heruntergeladen.
Der Step OpenText-RiskGuard-Check-Documents (2) lädt dann die Datei über die Risk Guards API hoch und liefert uns die Antwort derer.
Mit einem Klick auf die Schaltfläche Vorschau
wird uns ein Spreadsheet der Antwort angezeigt, aus dem hervorgeht, welche Kategorien von Datensätzen gefunden wurden.
In unserem Fall hat Magellan Risk Guard Finanz- und Steuerinformationen
in der Kategorie Personenbezogene Informationen
gefunden.
Die Spalte details
enthält einen JSON-String, in dem jeder gefundene Datensatz aufgelistet ist:
Nun parsen wir die details
-Spalte mit dem JSONReaderVisual Step (3).
Das Ergebnis ist ein Spreadsheet der in dem Dokument gefundenen:
- Risikokategorien wie Gewalt, Alkohol, Waffen, Pornografie und mehr
- Personal Identifiable Information (PII) wie Name, Kreditkartennummern oder Versicherungsnummern
- Sensible persönliche Daten (SPII) wie Leistungsdaten, Finanz-/Steuerdaten oder politische Meinungen
Mit dem Step Mapper kann das Spreadsheet nach eigenen Wünschen bearbeitet werden.
Um die Übersicht zu verbessern, können die Spaltenüberschriften verkürzt/vereinfacht werden:
Mit einem Mappingset können Sie die CartridgeIDs
(Entitätstyp des Datensatzes) lesbar machen.
Die wichtigsten Spalten und deren Bedeutung:
ConfidenceScore
= Wie sicher sich Risk Guard ist, den Datensatz den richtigen Entitätstypen zugeordnet zu haben.RelevancyScore
= Wie wichtig die Entität oder Klassifizierung für eine Datei ist, z. B.: Wenn eine “Telefonnummer” dreimal in einem Dokument gefunden wurde, ist sie relevanter als eine Nummer, die nur einmal gefunden wurde.Frequency
= Wie viele Vorkommen eines einzelnen Datensatzes wurden gefunden?
Spalten in denen die Werte der Datensätze ausgegeben werden:
-
Subterm.value
= Wert des extrahierten Datensatzes- In dieser Spalte wurde während unserer Tests für jeden Datensatz ein Wert ausgegeben.
-
nfinderNormalized
= Wert des extrahierten Datensatzes- In dieser Spalte wurden während unserer Tests für die meisten Datensätze ein Wert ausgegeben, in einigen Zellen fehlten allerdings Werte.
-
ClientNormalized
= Wert des extrahierten Datensatzes- In dieser Spalte wurden nur die Werte der Social Security Numbers ausgegeben. Die restlichen Zellen blieben leer.
In den restlichen Spalten werden nur sporadisch Werte ausgegeben:
-
MainTermValue
= Wert des extrahierten Datensatzes -
Subterm.value_1
= Wert des extrahierten Datensatzes -
Subterm.value_2
= Wert des extrahierten Datensatzes
Übersicht über das Spreadsheet:
Was können wir mit den gewonnenen Daten machen?
Die Rohdaten der API können nun ein wenig weiterverarbeitet werden. Dazu werden wir das Tabellenblatt so bearbeiten (Spalten entfernen, nach CartridgeIDs gruppieren), dass wir sehen können, wie oft welche Datensätze in unserem Dokument gefunden wurden:
Wir erweitern nun den Flow, um eine Alarm-E-Mail zu senden, wenn personenbezogene Daten in einem Dokument gefunden werden.
Wenn keine personenbezogenen Daten gefunden wurden, kann der Flow an dieser Stelle gestoppt werden. Sie können dies mit dem Step StopFlowIf tun.
Andernfalls sollte er fortgesetzt werden.
Nun werden die relevanten Datensätze mit mehreren Filter-Steps kategorisiert:
Filter 1: Filter - Persönlich identifizierbare Informationen
Filterbedingung:
(Für Datensätze, die nur in Kombination mit anderen als personenbezogen gelten, können hier auch Bedingungen mit UND erstellt werden).
Filter 2: Filter - Persönlich identifizierbare Finanzinformationen
Filterbedingung:
Filter 3: Filter - Zugangsdaten
Nach der Filterung kann nun die Alarm-E-Mail erstellt und versendet werden. Dazu verwenden wir den Step EmailSend.
Wir wählen einen Empfänger aus und geben den Betreff ein:
Im Feld Nachricht schreiben wir unsere Nachricht und listen die gefundenen Datensätze mit ihrer Häufigkeit nach unseren Kategorien auf. Die Auflistung wird mit Freemarker-Skripting erstellt und enthält die Ergebnisse der vorangegangenen Filter-Steps.
Ergebnis
So sieht das ganze dann aus wenn wir auf Vorschau anzeigen klicken:
…und so sieht dann nach der Flowausführung die E-Mail aus:
Fazit
Durch die stetig wachsende Menge von Daten und Inhalten, steigen die Risiken für die Unternehmen. Eine manuelle Bewertung von Content ist aufgrund der Datenmenge zeitaufwendig und anfällig für Fehleinschätzungen durch menschliche Fehler. Durch geeignete Software Tools kann man diese Risiken erkennen und reagieren.
Mit unserem Testbeispiel haben wir gezeigt, wie man die API von OpenText Magellan Risk Guard in kurzer Zeit anbinden kann, um damit eigene Inhalte automatisiert zu analysieren.
Falls Sie das ganze jetzt einmal selbst testen möchten, schauen Sie sich unsere Flow-Vorlage dazu an.
Mehr über die Möglichkeiten der Software erfahren Sie in diesem Video:
Sprechen Sie uns gern an, wenn Sie weitere Fragen dazu haben.
Weitere Informationen
- Flow-Vorlage zum ausprobieren des Beispiels. Sie brauchen dafür nur einen kostenlosen Testaccount
- Synesty OpenText-Risk Guard AddOn Dokumentation
- Magellan Risk Guard API Doku
- Magellan Risk Guard stellt sich vor
Unser Whitepaper für Macher: No Code Integration & Automatisierung
Verwandte Beiträge
Aktualisiert am 2023-06-14