Text & Podcast

by Valerie Wagner

Menschen erkennen sich am Klang ihrer Stimme

Eigentlich wollte ich diesen Text als Newsletter versenden. Nämlich dann, wenn meine nächste Kolumne über Chancen und Risiken von Künstlicher Intelligenz im Podcasting bei basicthinking erschienen wäre. Doch die lässt leider auf sich warten und der Text ist eh zu lang für einen Newsletter. Deshalb gibts jetzt einen ganz ungeplanten Blogartikel. Viel Spaß beim Lesen!

Tool-Tipps für Podcast-Transkriptionen

Ich nutze Künstliche Intelligenz, um Transkripte meiner Podcastfolgen zu erstellen. Denn ich arbeite vorzugsweise mit Text, um Social-Media-Beiträge fürs Marketing meiner Folgen zu texten. Früher – und damit meine ich bis vor ca. fünf Jahren – saß ich stundenlang vor iMovie, um eine Podcastfolge mit einem Bild zu einem Video zu transformieren, dieses dann auf Youtube hochzuladen, um es dann in Text umwandeln zu lassen. Danach saß ich dann nochmal ca. 5 Stunden vor diesem „Transkript“ und hab es auf deutsch übersetzt und Groß- und Kleinschreibung sowie Punkte und Kommas eingesetzt.

Heute geht das zwar auch nicht in Sekunden, aber mithilfe von KI-Apps, wie Whisper Transcribe (für iOS und Windows) oder Aiko (nur iOS), präziser und in weniger als acht Stunden.

Das Beste daran: Die Tools laufen lokal. Ich gehe also nicht das Risiko ein, dass die Audiodateien im Netz landen und eine KI damit trainiert wird und ich befürchten muss, dass demnächst mein Stimmklon meinen Mann anruft und sich für mich ausgibt. Ich habe das getestet, indem ich das Internet gekappt habe.

Damit ist es auch für meine Podcast-Gäste in Ordnung eine Transkription zu erstellen. Klar, lokal geht es etwas langsamer als online, aber ich kann Persönlichkeitsrechte, Recht am eignen Wort, Datenschutz und Urheberrechte schützen. Und ich bin selbstbestimmt, auch im Hinblick auf mein digitales Erbe.

Menschen erkennen sich am Klang ihrer Stimme

Für meine Kolumne habe ich mich mit den Chancen und Risiken von Künstlicher Intelligenz im Podcasting beschäftigt. Nützlich finde ich die Möglichkeiten der Speech to Text, also der Transkription. Doch wie oben schon erwähnt, betrifft es eben auch die Persönlichkeitsrechte, das Recht am eignen Wort, den Datenschutz und die Urheberrechte. Die Arbeit mit Künstlicher Intelligenz, vor allem beim Voice Cloning, öffnet leider auch Tür und Tor für Missbrauch und Betrug.

Was ist Voice Cloning?

Text-to-Speech wandelt Texte in gesprochene Sprache um. Dabei unterscheidet man zwischen Sprachwiedergabe, die auf eingesprochenen Aufnahmen basiert, und Sprachsynthese, die Sprache rein rechnerisch erzeugt. Moderne Systeme kombinieren Natural Language Processing (NLP) zur Textanalyse mit Digital Signal Processing (DSP) zur Sprachausgabe. So entstehen natürlich klingende Stimmen.

Voice Cloning und Künstliche Intelligenz sind im Audiobereich längst im Einsatz

Voice Cloning kopiert Stimmen digital und reproduziert sie täuschend echt – selbst aus kurzen Sprachaufnahmen. Diese Technologie findet Anwendung in der Filmindustrie und zunehmend im Podcasting.

Bei „The Rock – Radio Helgoland“, das Thore Laufenberg betreibt, werden künstliche Stimmen von ehemaligen Moderatoren verwendet. Das Radio läuft komplett KI-gesteuert. Seven. One Audio experimentierte mit „Gebrüder Glittch“ (2023), einem KI-generierten Märchen-Podcast. Die KI übernimmt Storytelling, Sprachsynthese und sogar die Covergestaltung.

Ich konnte dem Märchen-Podcast nicht lange zuhören, weil es nicht natürlich klingt. Die menschliche Stimme hat Höhen und Tiefen, Atmer, Versprecher, Wärme, Charisma. KI-Stimmen sind eindimensional, langweilig und einschläfernd. Kurz: sie sind gefühlslos.

Wir Menschen erkennen uns am Klang unserer Stimmen und die Gespräche haben einen menschlichen Klang. Auch oder gerade im Internet.

Das Cluetrain Manifest von 1999

Ich habe mich ans Cluetrain-Manifest erinnert. Das wurde 1999 online veröffentlicht und 2002 als Buch.

Zu der Zeit als Boris Becker „Bin ich schon drin?“ fragte und zu „zu Hochzeiten des Dotcom-Booms“ veröffentlichen die US-Amerikanern Rick Levine, Christopher Locke, Doc Searls und David Weinberger „95 Thesen für die neue Unternehmenskultur im digitalen Zeitalter“, die von zahlreichen Expert:innen unterschrieben wurden.

Mit den 95 Thesen stützen sie die Kernaussage des Manifests:

Wenn Du heute nur Zeit hast für eine Einsicht, dann sollte es diese sein …

Wir sind keine Zuschauer oder Empfänger oder Endverbraucher oder Konsumenten.
Wir sind Menschen – und unser Einfluß entzieht sich eurem Zugriff.

Kommt damit klar.

Ich halte Punkt 3 und Punkte 5 für immer noch aktuell:

Von Menschen geführte Gespräche haben einen menschlichen Klang. Sie werden mit einer authentischen menschlichen Stimme geführt.

Und unter Punkt 5:

Menschen erkennen einander am Klang ihrer Stimme.

New Clues und weitere Gedanken

Noch ein paar Gedanken zu diesem Thema: Mittlerweile gibt es auch die New Clues und darin verlinken David Weinberger und Doc Searls auf einen Artikel aus 2014 (die New Clues erschienen 2025).

„The year weg et creeped out by algorithms“: Im Wesentlichen geht es im Text um das Konzept des „Uncanny Valley“. Das Konzept bezieht sich auf ein Phänomen in der Robotik und der künstlichen Intelligenz. Es beschreibt die unangenehme, unheimliche Reaktion von Menschen auf Roboter oder digitale Darstellungen, die fast, aber nicht ganz menschlich wirken. Die Autorin Zeynep Tufekci argumentiert, dass Menschen sich unwohl fühlen, wenn Computer nicht mehr nur Aufgaben automatisieren, sondern Urteile und Entscheidungen treffen, die normalerweise menschliche Abwägung erfordern.

Sie stellt drei Hauptentwicklungen heraus:

  1. Die zunehmende zentrale Rolle digitaler Geräte in allen Lebensbereichen
  2. Die zentralisierte Kontrolle durch Plattformen über unsere digitalen Interaktionen und
  3. Der Einsatz von Algorithmen für subjektive Urteile wie „Relevanz“ oder „Wichtigkeit“.

Die Autorin prognostiziert im Text (der 2014 erschien!), dass das Jahr 2015 den Beginn einer breiteren Auseinandersetzung mit diesen „urteilenden Maschinen“ markieren wird.

Zeynep Tufekci ist Assistenzprofessorin an der School of Information and Library Science der University of North Carolina und schreibt regelmäßig für die New York Times.

Bemerkenswert, dass sich viele Vorhersagen aus 2014 bestätigt haben.

Künstliche Intelligenz intelligent nutzen

Für mich bedeutet das, das ich die Vorzüge von Künstlicher Intelligenz in einem Arbeitsalltag gerne nutzen werde, wenn es um Zeitersparnis geht. Ich werde weiterhin lokale KI nutzen, um meine Podcasts zu transkibieren. Doch um Podcasts zu erstellen, die so nie eingesprochen wurde, wie im letzten Newsletter gezeigt, davon halte ich Abstand. So gerne ich am Puls der Zeit bin und Neues ausprobiere, ich werde die AI-Tools in WhatsApp oder Instagram nicht nutzen.

Denn „Wenn du nichts bezahlen musst, bist du das Produkt“ (das Zitat wird Edward Snowden zugeschrieben, ich konnte das nicht verifizieren). Am Ende bezahlen wir die Nutzung mit unseren Daten.

Wie stehst du zum Thema Künstliche Intelligenz? Antworte gerne im Kommentarfeld unter diesem Artikel.

Mehr davon? Abonniere meinen Newsletter, das Text & Podcast Magazin, und erhalte alle 4 Wochen eine Mail mit neuen Artikeln.

Im Text & Podcast Newsletter erhältst du regelmäßig spannende Trends, Diskussionen und (Geheim-)Tipps aus der Podcastszene – egal ob ausführlich recherchiert, fundiert eingeordnet oder kritisch kommentiert, aber ganz sicher auf den Punkt gebracht. Ich höre, lese und analysiere für dich, damit du den Überblick behältst. 🎧 📖

Über die Autorin

Folge mir auf:


Kommentare

2 Antworten zu „Menschen erkennen sich am Klang ihrer Stimme“

  1. Die Vorteile der KI nutzen: Da bin ich ganz bei dir, das sollten wir machen.
    Aber einen Podcast zu veröffentlichen, den es gar nicht gab, finde ich genauso abwegig, wie Bilder von Situationen zu machen, die es gar nicht gegeben hat.
    Was ich mir vorstellen kann: Meine eigenen, selbst erstellten Inhalte zum Anhören zur Verfügung zu stellen. Allerdings müsste das Erstellen mit der Funktion einhergehen, den Inhalt wie einen geschriebenen Text so nachzubearbeiten, dass es eben mein individueller Inhalt bleibt.
    Mal sehen, wie sich das alles entwickelt. Ich bin gespannt.

    1. Mac oder auch Windows können ja schon Sprachausgabe und können Inhalte vorlesen, für WordPress Blogs gibt es sogar schon Plugins, die das übernehmen https://de.wordpress.org/plugins/tags/text-to-speech/ und dann gibts noch Screenreader die eingesetzt werden. Das finde ich auch alles praktisch und mittels Plugin so einen Service zu bieten sicherlich nutzerfreundlich.

      In meinem letzten Newsletter habe ich darüber geschrieben, wie ich NotebookLM von Google getestet habe (hier gehts zum Newsletter https://steadyhq.com/de/valeriewagner-textundpodcast/posts/03296acc-8655-45f4-9faf-aceaf5ad2136?secret_token=w6P5TdRdNXqdcxQl8MXSw9v31VjiBV6l-jMqyfdOJRGKdRWqwz2gANXJrT-obaec) Und wie spooky das war, als aus meinem Bericht über eine Krimibuchautorin ein 13-minütiger Podcast wurde. Damals, vor ein paar Wochen, noch auf englisch. Mittlerweile kann NotebookLM auch deutsch bzw. man kann das mittels Prompt steuern.

      Ich denke es wird noch schwieriger werden, Inhalte auseinander zu halten – und es wird immer mehr Inhalte geben. Die Frage wird immer öfter sein: Was ist KI, was ist Mensch? KI wird alles beeinflussen. Am 1. Mai auf einem „Hock“, wie sie hier in Südbaden sagen, habe ich mich mit einem älteren Paar unterhalten, die die KI in WhatsApp ganz selbstverständlich nutzen. In einem Webinar schrieben viele Teilnehmerinnen im Chat, das sie nicht mehr über Google suchen, sondern nur noch Chat GPT verwenden.

      Wie viele Daten da gesammelt und freimütig weitergegeben werden, ist unfassbar. Darüber ist das ältere Pärchen aber nicht aufgeklärt und sie hinterfragen das auch nicht. Es spricht auch sonst niemand darüber. Wie viel Energie – Strom und Wasser – Chat GPT und jedes andere KI-Tool verbraucht, auch darüber wird nicht gesprochen. Einen Artikel hab ich dazu auf basicthinking gefunden: https://www.basicthinking.de/blog/2025/04/30/energie-chatgpt/ (Disclaimer, ich schreibe für basicthinking eine Podcast-Kolumne)

      Der Stromverbrauch von ChatGPT:
      Pro Tag: Laden von acht Millionen Smartphones.
      Pro Woche: Austragung von vier Superbowls (inklusive Stadionbetrieb, Millionen Privatfernseher und Anreisen).
      Pro Monat: Laden von 332.000 Elektroautos.
      Pro Jahr: So viel wie der Bundesstaat Iowa (über drei Millionen Einwohner).

      Der Wasserverbrauch von ChatGPT:
      Pro Tag: 978.000 Badewannen.
      Pro Woche: 864 Millionen Stanley Cups.
      Pro Monat: 1.780 olympische Schwimmbecken.
      Pro Jahr: 14 Central Park Reservoirs.

      Wie gesagt, ich nutze die Vorteile von KI insbesondere für die Transkription von meinen Podcastfolgen gerne. Ich transkribiere auch nicht jede Folge. Ich denke aber auch noch gerne selbstständig und ich recherchiere gerne noch oldschool mit Google und suche mir die passenden Artikel selber aus. Denn KI halluziniert und lügt und ich muss die Ergebnisse der KI eh nochmal verifizieren.

      Wohin das alles führen wird, werden wir vermutlich schon in kurzer Zeit sehen. Ich bin gespannt, ob wir Menschen dazu lernen, ob ich diesen Artikel irgendwann als unnötig betrachte, weil doch nicht alles so schlimm kam oder ob wir uns tatsächlich an die Maschinen bzw. ihre Erzeuger verkaufen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Mit der Nutzung dieses Formulars erklärst du dich mit der Speicherung und Verarbeitung deiner Daten durch diese Website einverstanden.