Eigentlich wollte ich diesen Text als Newsletter versenden. Nämlich dann, wenn meine nächste Kolumne über Chancen und Risiken von Künstlicher Intelligenz im Podcasting bei basicthinking erschienen wäre. Doch die lässt leider auf sich warten und der Text ist eh zu lang für einen Newsletter. Deshalb gibts jetzt einen ganz ungeplanten Blogartikel. Viel Spaß beim Lesen!
Tool-Tipps für Podcast-Transkriptionen
Ich nutze Künstliche Intelligenz, um Transkripte meiner Podcastfolgen zu erstellen. Denn ich arbeite vorzugsweise mit Text, um Social-Media-Beiträge fürs Marketing meiner Folgen zu texten. Früher – und damit meine ich bis vor ca. fünf Jahren – saß ich stundenlang vor iMovie, um eine Podcastfolge mit einem Bild zu einem Video zu transformieren, dieses dann auf Youtube hochzuladen, um es dann in Text umwandeln zu lassen. Danach saß ich dann nochmal ca. 5 Stunden vor diesem „Transkript“ und hab es auf deutsch übersetzt und Groß- und Kleinschreibung sowie Punkte und Kommas eingesetzt.
Heute geht das zwar auch nicht in Sekunden, aber mithilfe von KI-Apps, wie Whisper Transcribe (für iOS und Windows) oder Aiko (nur iOS), präziser und in weniger als acht Stunden.
Das Beste daran: Die Tools laufen lokal. Ich gehe also nicht das Risiko ein, dass die Audiodateien im Netz landen und eine KI damit trainiert wird und ich befürchten muss, dass demnächst mein Stimmklon meinen Mann anruft und sich für mich ausgibt. Ich habe das getestet, indem ich das Internet gekappt habe.
Damit ist es auch für meine Podcast-Gäste in Ordnung eine Transkription zu erstellen. Klar, lokal geht es etwas langsamer als online, aber ich kann Persönlichkeitsrechte, Recht am eignen Wort, Datenschutz und Urheberrechte schützen. Und ich bin selbstbestimmt, auch im Hinblick auf mein digitales Erbe.
Menschen erkennen sich am Klang ihrer Stimme
Für meine Kolumne habe ich mich mit den Chancen und Risiken von Künstlicher Intelligenz im Podcasting beschäftigt. Nützlich finde ich die Möglichkeiten der Speech to Text, also der Transkription. Doch wie oben schon erwähnt, betrifft es eben auch die Persönlichkeitsrechte, das Recht am eignen Wort, den Datenschutz und die Urheberrechte. Die Arbeit mit Künstlicher Intelligenz, vor allem beim Voice Cloning, öffnet leider auch Tür und Tor für Missbrauch und Betrug.
Was ist Voice Cloning?
Text-to-Speech wandelt Texte in gesprochene Sprache um. Dabei unterscheidet man zwischen Sprachwiedergabe, die auf eingesprochenen Aufnahmen basiert, und Sprachsynthese, die Sprache rein rechnerisch erzeugt. Moderne Systeme kombinieren Natural Language Processing (NLP) zur Textanalyse mit Digital Signal Processing (DSP) zur Sprachausgabe. So entstehen natürlich klingende Stimmen.
Voice Cloning und Künstliche Intelligenz sind im Audiobereich längst im Einsatz
Voice Cloning kopiert Stimmen digital und reproduziert sie täuschend echt – selbst aus kurzen Sprachaufnahmen. Diese Technologie findet Anwendung in der Filmindustrie und zunehmend im Podcasting.
Bei „The Rock – Radio Helgoland“, das Thore Laufenberg betreibt, werden künstliche Stimmen von ehemaligen Moderatoren verwendet. Das Radio läuft komplett KI-gesteuert. Seven. One Audio experimentierte mit „Gebrüder Glittch“ (2023), einem KI-generierten Märchen-Podcast. Die KI übernimmt Storytelling, Sprachsynthese und sogar die Covergestaltung.
Ich konnte dem Märchen-Podcast nicht lange zuhören, weil es nicht natürlich klingt. Die menschliche Stimme hat Höhen und Tiefen, Atmer, Versprecher, Wärme, Charisma. KI-Stimmen sind eindimensional, langweilig und einschläfernd. Kurz: sie sind gefühlslos.
Wir Menschen erkennen uns am Klang unserer Stimmen und die Gespräche haben einen menschlichen Klang. Auch oder gerade im Internet.
Das Cluetrain Manifest von 1999
Ich habe mich ans Cluetrain-Manifest erinnert. Das wurde 1999 online veröffentlicht und 2002 als Buch.
Zu der Zeit als Boris Becker „Bin ich schon drin?“ fragte und zu „zu Hochzeiten des Dotcom-Booms“ veröffentlichen die US-Amerikanern Rick Levine, Christopher Locke, Doc Searls und David Weinberger „95 Thesen für die neue Unternehmenskultur im digitalen Zeitalter“, die von zahlreichen Expert:innen unterschrieben wurden.
Mit den 95 Thesen stützen sie die Kernaussage des Manifests:
Wenn Du heute nur Zeit hast für eine Einsicht, dann sollte es diese sein …
Wir sind keine Zuschauer oder Empfänger oder Endverbraucher oder Konsumenten.
Wir sind Menschen – und unser Einfluß entzieht sich eurem Zugriff.Kommt damit klar.
Ich halte Punkt 3 und Punkte 5 für immer noch aktuell:
Von Menschen geführte Gespräche haben einen menschlichen Klang. Sie werden mit einer authentischen menschlichen Stimme geführt.
Und unter Punkt 5:
Menschen erkennen einander am Klang ihrer Stimme.
New Clues und weitere Gedanken
Noch ein paar Gedanken zu diesem Thema: Mittlerweile gibt es auch die New Clues und darin verlinken David Weinberger und Doc Searls auf einen Artikel aus 2014 (die New Clues erschienen 2025).
„The year weg et creeped out by algorithms“: Im Wesentlichen geht es im Text um das Konzept des „Uncanny Valley“. Das Konzept bezieht sich auf ein Phänomen in der Robotik und der künstlichen Intelligenz. Es beschreibt die unangenehme, unheimliche Reaktion von Menschen auf Roboter oder digitale Darstellungen, die fast, aber nicht ganz menschlich wirken. Die Autorin Zeynep Tufekci argumentiert, dass Menschen sich unwohl fühlen, wenn Computer nicht mehr nur Aufgaben automatisieren, sondern Urteile und Entscheidungen treffen, die normalerweise menschliche Abwägung erfordern.
Sie stellt drei Hauptentwicklungen heraus:
- Die zunehmende zentrale Rolle digitaler Geräte in allen Lebensbereichen
- Die zentralisierte Kontrolle durch Plattformen über unsere digitalen Interaktionen und
- Der Einsatz von Algorithmen für subjektive Urteile wie „Relevanz“ oder „Wichtigkeit“.
Die Autorin prognostiziert im Text (der 2014 erschien!), dass das Jahr 2015 den Beginn einer breiteren Auseinandersetzung mit diesen „urteilenden Maschinen“ markieren wird.
Zeynep Tufekci ist Assistenzprofessorin an der School of Information and Library Science der University of North Carolina und schreibt regelmäßig für die New York Times.
Bemerkenswert, dass sich viele Vorhersagen aus 2014 bestätigt haben.
Künstliche Intelligenz intelligent nutzen
Für mich bedeutet das, das ich die Vorzüge von Künstlicher Intelligenz in einem Arbeitsalltag gerne nutzen werde, wenn es um Zeitersparnis geht. Ich werde weiterhin lokale KI nutzen, um meine Podcasts zu transkibieren. Doch um Podcasts zu erstellen, die so nie eingesprochen wurde, wie im letzten Newsletter gezeigt, davon halte ich Abstand. So gerne ich am Puls der Zeit bin und Neues ausprobiere, ich werde die AI-Tools in WhatsApp oder Instagram nicht nutzen.
Denn „Wenn du nichts bezahlen musst, bist du das Produkt“ (das Zitat wird Edward Snowden zugeschrieben, ich konnte das nicht verifizieren). Am Ende bezahlen wir die Nutzung mit unseren Daten.
Wie stehst du zum Thema Künstliche Intelligenz? Antworte gerne im Kommentarfeld unter diesem Artikel.
Mehr davon? Abonniere meinen Newsletter, das Text & Podcast Magazin, und erhalte alle 4 Wochen eine Mail mit neuen Artikeln.
Im Text & Podcast Newsletter erhältst du regelmäßig spannende Trends, Diskussionen und (Geheim-)Tipps aus der Podcastszene – egal ob ausführlich recherchiert, fundiert eingeordnet oder kritisch kommentiert, aber ganz sicher auf den Punkt gebracht. Ich höre, lese und analysiere für dich, damit du den Überblick behältst. 🎧 📖
Schreibe einen Kommentar