Künstliche Stimmen synthetisieren und erkennen

Audio-Deep Fakes sind eine Herausforderung für die Telekom, daher synthetisiert die Lösung Stimmen von Vorständen und kann sie von Fakes unterscheiden.

Das Problem

01

Das Projekt

01

Als Großkonzern mit hoher digitaler Affinität ist die Telekom zahlreichen Risiken und Betrugsversuchen ausgesetzt. Nebst klassischem Phishing gehört dazu in den letzten Jahren vermehrt auch Versuche durch Audio Deep Fakes. Diese werden genutzt, um beispielsweise an Konzerninterna zu gelangen, Überweisungen zu veranlassen oder durch falsche Audio- und Video Botschaften Marktmanipulation zu betreiben.

Durch immer besser werdende Open Source Tools - und einem beinahe endlosen Datenpool an öffentlich zugänglichen Aufnahmen von Auftritten durch Telekom Führungskräfte - werden diese Deepfakes für das menschliche Ohr immer schwerer als solche zu identifizieren.

Daher wurde mit den Innovationssparte der Telekom, der T-Labs ein Projekt gestartet um KI zu nutzen um eben diese Unterscheidung zuverlässig zu automatisieren und die Betrugsversuche konsequent zu unterbinden.

Die Lösung

02

Unser Beitrag

02

Unser Lösungsansatz bestand aus zwei Teilen: der Sprachsynthese (um die Güte unseres Models zu testen) und dem tatsächlichen Tool zur Klassifikation von Fälschungen.

Die Sprachsynthese bestand aus einem Encoder, der die Stimme einer Zielperson anhand eines Audio-Samples kodiert, einem Synthesizer, der das Audio-Spektrogramm (d.h. ein 2D-Bild) eines gegebenen Textes unter Verwendung der kodierten Stimme erstellt und einem Vocoder, der abschließend das Audio aus dem Spektrogramm erzeugt.

Das Tool zur Erkennung von Fälschungen wurde mit öffentlich zugänglichen Datensätzen trainiert. Die normalisierten und beschnittenen 2s Audiosequenzen wurden in ein Mel-Spektrogramm mit fester Dimension umgewandelt und ein CNN-basiertes Netzwerk trainiert.

Dadurch konnten für zahlreiche Führungskräfte auf Basis öffentlichen Materials Deepfakes erstellt werden und diese mittels des Tools mit 98.6% Zuverlässigkeit als echt oder fake klassifiziert werden.

Unser Ergebnis

03
10+
Stimmen von Führungskräften täuschungsecht synchronisiert
98.6%
Zuverlässigkeit bei der Identifikation von Fakes
>2s
Audiomaterial um eine Klassifizierung vorzunehmen
10+
Stimmen von Führungskräften täuschungsecht synchronisiert
98.6%
Zuverlässigkeit bei der Identifikation von Fakes
>2s
Audiomaterial um eine Klassifizierung vorzunehmen

Kontaktieren Sie uns

  • Kritische und ganzheitliche Bewertung des Ansatzes
  • Entwicklung von Leitfaden zur zuverlässigen Umsetzung
  • Kostenfrei und unverbindlich
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Wir möchten Sie kennenlernen!

Jetzt Ihre KI-Reise mit uns starten

Jetzt im Merantix Momentum Newsletter anmelden.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.

Kontaktieren Sie uns

  • Kritische und ganzheitliche Bewertung des Ansatzes
  • Entwicklung von Leitfaden zur zuverlässigen Umsetzung
  • Kostenfrei und unverbindlich
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Wir möchten Sie kennenlernen!

Jetzt Ihre KI-Reise mit uns starten

Jetzt im Merantix Momentum Newsletter anmelden.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.