DeepFakes – tiefe Angriffe auf die Wahrheit

18.03.2022, ein Beitrag von

Der Begriff „DeepFake“ begegnet den Landesmedienanstalten in letzter Zeit immer öfter. Warum? Die Medienanstalten der Länder wirken im Rahmen ihres gesetzlichen Auftrags auf die Sicherung der Meinungsvielfalt hin. DeepFakes greifen aber genau dort an – sie sind per KI (Künstlicher Intelligenz) manipulierte Medieninhalte und haben sich von einer Spielerei zu einer realen Bedrohung für Unternehmen, Politik, Gesellschaft und Demokratie entwickelt. Welche Bedrohung von DeepFakes ausgeht und ob es sich hierbei um tiefe Angriffe auf die Wahrheit handelt, wollen wir mit den Expert:innen Prof. Dr. Ulrike Klinger (Professorin für „Political Theory and Digital Democracy“ an der European New School of Digital Studies, Europa Universität Viadrina), Prof. Dr. Antonio Krüger (Leiter des Deutschen Forschungszentrums für Künstliche Intelligenz und Professor für Medieninformatik an der Universität des Saarlandes), Patrick Aichroth (Leiter der Forschungsgruppe Media Distribution & Sicherheit, Fraunhofer-Institut für Digitale Medientechnologie IDMT) und Kevin Baum (Philosoph und Informatiker an der Universität des Saarlandes, Mitinitiator von Algoright e.V.) diskutieren.

Was sind DeepFakes?

Prof. Krüger: Der Begriff DeepFake ist eine Wortkombination aus „Deep“, was auf Deep Learning, einer KI-Technik mit zugrunde liegenden künstlichen neuronalen Netzen hinweist und „Fake“ für Fälschung. Als DeepFakes bezeichnet man grundsätzlich mit Methoden der Künstlichen Intelligenz manipulierte Medieninhalte wie Audio, Photo, Video in einer Qualität, die nicht ohne Weiteres oder gar nicht als Fake zu erkennen sind. Die wohl bekannteste Variante von DeepFakes ist das sogenannte Face-Swap. Das meint den Austausch des Gesichts einer Quellperson mit dem Gesicht einer Zielperson in einem Bild oder einem Video. Damit können Aussagen und Handlungen vorgetäuscht werden, die die betreffenden Personen nie gesagt oder ausgeführt haben.

Prof. Klinger: Besonders gut funktioniert dies mit Prominenten und Politiker:innen, weil von diesen sehr viele Fotos und Videos vorhanden sind. Diese Technologie ist mittlerweile kostengünstig und einfach verfügbar, so dass praktisch jede und jeder mit technischen Grundkenntnissen Bilder und Videos glaubhaft manipulieren kann. In einfachen Worten kann man sich DeepFakes als eine Art Adobe Photoshop für audiovisuelles Material vorstellen.

Aichroth: Audio-Manipulationen und Sprachsynthese spielen in der öffentlichen Diskussion um Desinformation oft eine geringere Rolle als visuelle Fälschungen, sollten aber nicht unterschätzt werden: Sprache transportiert oft einen Großteil der Information und bietet daher zahlreiche Angriffsmöglichkeiten. Unter bestimmten Bedingungen kann man heute schon synthetisches Material erzeugen, das durch einen menschlichen Hörer kaum noch als solches zu erkennen ist – heute ist es noch sehr schwierig, DeepFakes zu synthetisieren, die so überzeugend sind, dass sie einer intensiveren Prüfung standhalten. Die Synthesetechniken werden aber immer besser und handhabbarer, es ist also nur eine Frage der Zeit, bis hier erhebliche Probleme entstehen. Neben den oft diskutierten DeepFakes auf Basis von Sprachsynthese spielen aber auch „ShallowFakes“ eine wichtige Rolle, die z.B. durch nachträgliche Veränderung wie z.B. Schnitt oder Veränderung der Geschwindigkeit entstehen. Sie sind einfach zu erstellen und dennoch oft schwer zu erkennen, und daher das häufiger eingesetzte Instrument.

Wie werden solche DeepFakes gestaltet und programmiert?

Baum: Bei DeepFakes spielen GANs, Generative Adversarial Networks (zu Deutsch: erzeugende gegnerische Netzwerke) eine große Rolle. Oft stellt man sich ein KI-Tool zum Erstellen von DeepFakes monolithisch vor. So als ob man vorne das Originalvideo eingibt, ein Video von einer anderen Person als zweite Komponente hinzufügt und am Ende die Person A sagt, was Person B ihr in den Mund gelegt hat. Es lohnt sich aber diese Blackbox-Ansicht um eine Ebene „aufzudröseln“. Sie haben in dieser Blackbox vereinfacht gesagt zwei Komponenten. Die eine Komponente, die für jedes Bild Vorschläge generiert, wie das Resultat aussehen würde und eine zweite, die das generierte Bild überprüft. In dieser Blackbox spielen also zwei KIs gegeneinander. Beide KIs lernen in diesem System. Warum das eine Rolle spielt? In der Blackbox ist zwar schon die technische Komponente zur Entdeckung von DeepFakes integriert, allerdings ist auch ersichtlich, dass die Komponente, die die DeepFakes generiert, immer einen Vorsprung gegenüber der Komponente hat, die DeepFakes detektiert.

Prof. Krüger: Die Trainings von DeepFake-Systemen umfassen bei wirklich guten Fälschungen 50.000 Iterationen und mehr. Der Decoder erzeugt das gefälschte Bild bzw. Video, indem er das Modell des Gesichts in das Zielformat einsetzt. Im Bereich Audio sind KI-Technologien wie „Text-to-Speech“ (TTS), ein Teilbereich von „Natural Language Processing“ (NLP), schon sehr weit, Stimmen immer realistischer nachzuahmen, so dass synthetische Stimmen menschlichen immer ähnlicher werden. Schon jetzt gibt es verschiedene verfügbare KI-Anwendungen (z.B. „Voice Mimicry“, „Lyrebird“, „Voice Cloning“), die zum Beispiel Stimmen existierender Personen täuschend echt imitieren und die jeder zu Hause ausprobieren kann.

Wie kann man DeepFakes erkennen?

Aichroth: Viele Manipulationen und auch die Synthese von Inhalten hinterlassen Spuren, die man aufspüren und mit denen man Aussagen z.B. zur Erstellung prüfen kann – allerdings existieren bislang noch keine Verfahren, die z.B. eine nachhaltige und umfassende Erkennung von Sprachsynthese ermöglichen – daran wird aktuell intensiv gearbeitet.

Baum: Jenseits technischer Marker gibt es Punkte, die noch nicht so gut funktionieren. Klassische Merkmale von Personen, wie Haaransatz, aber auch Schmuck im Gesicht wie Piercings, Ohrringe werden bislang von KIs noch nicht gut generiert. Ebenso interessante, komplizierte oder sich verändernde Lichtverhältnisse sowie sich bewegende Gesichtsbereiche. Allerdings werden DeepFakes immer besser. Meiner Meinung besteht nur noch für die nächsten drei bis fünf Jahre eine Chance, DeepFakes mit menschlichem Auge zu erkennen.

Prof. Krüger: Im technisch-forensischen Bereich gilt grundsätzlich: Je höher aufgelöst ein gefaktes Bild oder Video ist, desto eher kann der Mensch die Fälschung anhand minimaler Artefakte erkennen. Im Bereich Social Media allerdings, in dem DeepFakes hauptsächlich verbreitet werden, handelt es sich in der Regel um Videos und Bilder mit relativ schlechter Qualität. Wenn überhaupt, sind diese eher niedrigaufgelösten Medieninhalte wiederum nur durch den Einsatz von speziellen KI-Systemen als Fälschung zu entlarven, die genau darauf trainiert sind. Diese Systeme wie etwa „Reality Defender“ (AI Foundation) oder „FaceForensics“ (TU München) sind starke Assistenzsysteme für Medienforensiker, die dann zusätzlich weitere Parameter und Metadaten wie räumliche Umgebung, Stimme, Zeitpunkt und Ort der Veröffentlichung etc. in ihre Prüfung mit einbeziehen.

Welche Gefahren sind mit DeepFakes verbunden?

Prof. Klinger: Die manipulative Gefahr, die zumindest potentiell von DeepFakes ausgeht, hat vor allem mit zwei Elementen zu tun: Sie verleihen Desinformation höhere Glaubwürdigkeit und die Technologie ist mittlerweile auch für Laien sehr einfach zugänglich. Eine der größten Gefahren wird bislang im Bereich politischer Kommunikation, Desinformation und der Manipulation öffentlicher Meinung, etwa vor Wahlen vermutet. Es könnte in der Tat disruptive Effekte haben, wenn z.B. manipulierte Videos von Politiker:innen kursieren. Indem DeepFakes die Informationen verzerren können, die Wähler:innen ihren Entscheidungen zu Grunde legen, könnten sie die Integrität demokratischer Prozesse unterminieren. Allerdings glauben Menschen nicht alles, was sie sehen – die Wirkung hängt immer vom Individuum und vom Kontext ab. Hinzu kommt, dass politische Präferenzen meist recht stabile Einstellungen sind, so dass die Wirkung von Wahlwerbung oder der Demobilisierung politischer Opposition vor Wahlen durch mediale Inhalte nicht überschätzt werden darf. Bislang sind das alles sehr dramatische, aber noch eher potentielle Gefahren. Mir ist kein Wahlkampf bekannt, in dem DeepFakes bislang eine relevante Rolle gespielt hätten. Man kann das fast erstaunlich finden, denn so neu ist die Technologie nicht mehr. Dies liegt auch daran, dass große Plattformen wie Facebook manipulierte Videos löschen und in Methoden zur Entdeckung solcher Inhalte investieren. Real eingesetzt werden DeepFakes bislang vor allem im Bereich der Pornografie und für misogyne Inhalte – so werden etwa die Gesichter prominenter Frauen ohne ihre Zustimmung oder ihr Wissen in pornografische Videos eingefügt. Dies ist tatsächlich ein relevanter und höchst problematischer Anwendungsbereich dieser Technologie. Eine weitere Gefahr besteht im Bereich der Internet-Kriminalität, etwa in Betrugsfällen. Auch hier besteht die (potentielle) Gefahr wesentlich darin, dass Menschen nicht notwendigerweise leichtgläubig sind, sondern schlicht keinerlei Lebenserfahrungen damit haben, wie einfach es ist, Stimmen und Gesichter zu manipulieren.

Prof. Krüger: Der Mensch ist ein soziales Wesen, aber nicht immer ehrlich. Und das Veröffentlichen und Verbreiten von falschen Nachrichten und unwahren Behauptungen ist sehr alt, wahrscheinlich so alt wie die Sprache selbst. Der Mensch ist vor allem auch ein audio-visuelles Wesen. Wenn wir hören, was jemand sagt, in einer Filmsequenz sehen, was er tut, wirkt das auf uns im ersten Schritt glaubwürdig. Heute obliegt die Distribution von Nachrichten und Medieninhalten nicht mehr nur den klassischen Medien (Print, TV, Radio), deren übergeordnete Redaktionskontrolle eine Wahrheitsvermutung in gewisser Weise legitimierte. Durch das Internet, insbesondere Social Media, und durch die rasante technische Entwicklung im Bereich der mobilen Endgeräte ist heute nicht nur jeder in der Lage, audiovisuelle Inhalte zu erstellen, sondern diese auch mit relevanter Reichweite zu verbreiten.

Baum: Wir denken bei DeepFakes immer daran, man legt seinem Gegner etwas in den Mund. Fast perfider ist die Variante: Ich produziere entschärften Content meines Selbst oder – noch eine Variante – lasse meine ursprüngliche Aussage in einer Lawine von 1000 Versionen meines Selbst untergehen. Am Ende weiß keiner mehr, welche Version echt ist. Die Gefahr besteht a) in der Unterminierung der Vertrauensbasis von Medien an sich, auch ohne dass ein Missbrauch notwendig wäre, und b) in dieser Personalisierung und lawinenartigen Massenproduktion von Versionen eines Videos.

Wie kann man DeepFakes im Kontext von Desinformation vorbeugen und begegnen?

Prof. Krüger: Es gibt wissenschaftlich-technologischen, politischen, juristischen und kulturellen Handlungsbedarf. Technologisch wird an verschiedenen Möglichkeiten gearbeitet, DeepFakes zu verhindern, bzw. deren Enttarnung zu erleichtern. Insbesondere wird der Einsatz von digitalen Wasserzeichen, der Blockchain-Technologie oder der konsequenten Zertifizierung von Software geprüft. Die EU-Kommission arbeitet an einer Regulierung von KI-Technologie. Die Politik ist bestrebt, Content-Distributoren in die Pflicht zu nehmen, um eine Flut von DeepFakes zu verhindern. Unternehmen wie Facebook, Microsoft, Google und Amazon oder staatliche Institutionen wie etwa das amerikanische Verteidigungsministerium investieren große Summen in die Entwicklung von DeepFake Detection Tools. Kulturell geht es darum, bereits an den Schulen Medien- und Informationskompetenz zu vermitteln und generell die Bürger:innen entsprechend zu sensibilisieren, so dass z.B. Wahlentscheidungen nicht durch Fälschungen und falsche Fakten beeinflusst werden können.

Prof. Klinger: Aufgrund ihres hohen Schadenspotentials sollte sich Technologieregulierung mit DeepFakes beschäftigen – etwa im Kontext von Plattformregulierung (aber auch Wahlkampf- und Parteiengesetzgebung). Man wird DeepFakes aber nicht komplett verhindern können, gerade im Bereich Pornografie und Kriminalität. Daher ist es wichtig, im Rahmen von Bildungsangeboten Menschen zu sensibilisieren – nicht nur in den Schulen, auch und gerade mit Angeboten für ältere Menschen.

Aichroth: Um Desinformation zu begegnen, sollte man sich der unterschiedlichen Formen bewusst sein: “Framing” (bewusstes Weglassen / Betonen von Informationen) wurde schon immer eingesetzt, gewinnt aber bei einer stark polarisierten Diskussion zu Themen deutlich an Bedeutung und Gefährlichkeit. Das dürfte auch ein Grund sein, warum bereits primitive (und eigentlich leicht durchschaubare) Manipulationen und Fälschungen oft starke Effekte erzielen und schwer „einzufangen“ sind: Je stärker die Polarisierung, umso eher sind Menschen bereit, selbst offensichtliche Fälschungen als Bestätigung der eigenen Meinung zu betrachten (Stichwort: Confirmation Bias). Unter Desinformation im engeren Sinne fallen v.a. Dekontextualisierung, Manipulation und Fabrikation / Synthese. Technologie ist ein wichtiges Hilfsmittel, um Desinformation zu begegnen, z.B. in Form von Verfahren zur Erkennung von Synthese und Manipulationen, zur Analyse von Herkunft und Beziehungen von Medienobjekten, einer beschleunigten Recherche, oder dem Einsatz von digitalen Signaturen, um die Echtheit von Material zu gewährleisten. Technologie kann aber durch die Bereitstellung von objektiveren Analysen oder veränderte Empfehlungsmechanismen auch helfen, Polarisierungen und Verzerrungen abzumildern. Leider werden diese Möglichkeiten bisher nicht annähernd ausgeschöpft, viele Empfehlungssysteme befördern problematische menschliche „Biases“ heute eher als sie zu vermindern. Das wird sich hoffentlich in den kommenden Jahren ändern. Allgemein kann man sagen, dass sich Mensch und Maschine ergänzen müssen, um Desinformationen zu begegnen. Und im wahrsten Sinne des Wortes ist ein „kritischer, rationaler Diskurs“ wohl das beste Gegenmittel. Dazu gehört auch das Etablieren einer “Falsifikationskultur”: Informationen müssen mit möglichst vielen falsifizierbaren Aussagen versehen sein, um eine Prüfung zu ermöglichen.

Wie wirken sich DeepFakes auf das Vertrauen in Medien aus?

Prof. Krüger: Die Grenze zwischen zulässiger Bearbeitung von Medieninhalten und DeepFake ist fließend. Die moderate Bearbeitung von Fotos ist seit Jahren üblich und bekannt. Durch die neue Dimension der DeepFakes werden FakeNews allerdings noch gefährlicher. Es ist zu erwarten, dass die Glaubwürdigkeit von Medieninhalten leiden und das Vertrauen in Medien allgemein weiter erodieren wird. Aber hier wird Künstliche Intelligenz einen wirkungsvollen Beitrag liefern können und die Forensiker bei der Erkennung von medialen Fälschungen unterstützen.

Baum: Wir müssen wieder Wege finden, unter noch größerer Unsicherheit als wir das in den letzten Jahren hatten, unsere Meinungsbildung auszugestalten. Dazu gehört ein bildungstechnischer Aspekt, nämlich jenseits der Tatsache, dass es DeepFakes gibt, müssen Diskursteilnehmer:innen wieder in der Lage sein zu sagen: „Ich habe eine Meinung und ich habe diese Meinung aus bestimmten Gründen, aber das schließt nicht aus, dass ich falsch liege.“ Trotzdem muss ich mich nicht der Meinung enthalten – was übrigens auch eine Option ist, die den meisten Diskursteilnehmer:innen manchmal nicht klar zu sein scheint. Aber ich kann eben auch eine Meinung haben, die noch nicht in Stein gemeißelt ist.

Aichroth: Vertrauen kann vermutlich v.a. dann erhalten bleiben bzw. entstehen, wenn man Medien eine möglichst rationale und unabhängige Prüfung von Informationen zutraut. Neben der Erkennung von objektiv falsifizierbaren Informationen bzw. Desinformationen muss das gerade bei Interpretationen auch den selbstkritischen Blick auf eigene „Biases“ beinhalten. Neben einer entsprechenden Awareness können auch Arbeitsabläufe und Werkzeuge helfen, mit dieser Herausforderung umzugehen.

 

Der Artikel ist im Jugendschutz- und Medienkompetenzbericht der Landesmedienanstalten erschienen.