In der Welt der Künstlichen Intelligenz (KI) und des maschinellen Lernens sind KI-Stimmen ein viel diskutiertes Thema. Viele Anbieter behaupten, dass ihre künstlichen Stimmen von echten Stimmen nicht zu unterscheiden sind. Doch wer schon einmal die KI-Stimme „Adam“ gehört hat, weiß, dass diese Behauptung nicht ganz zutrifft. Zwar können KI-Stimmen einen Text vorlesen, jedoch fehlt es ihnen an der Fähigkeit, Betonungen und Emotionen passend zum Inhalt anzupassen, was zu einem monotonen und künstlichen Klang führt.
KI-Stimmen und die Grenzen des Textverständnisses: Warum Subtext fehlt
Künstliche Intelligenz (KI) ist eher ein Etikettenschwindel, da die gängigen Sprachmodelle keine echte Intelligenz besitzen. Stattdessen werden sie durch maschinelles Lernen darauf trainiert, Stimmen anhand großer Mengen an Audiomaterial zu simulieren. Dies ermöglicht ihnen zwar, Texte vorzulesen, aber sie haben Schwierigkeiten, die richtige Diktion, Betonung und Emotionen zu erfassen und dem Text entsprechend wiederzugeben.
Trotz der Fähigkeit von KI-Stimmen, Texte vorzulesen, haben sie Schwierigkeiten, Betonungen und Emotionen dem Inhalt entsprechend anzupassen. Dadurch klingen sie monoton und unnatürlich. KI-Stimmen transportieren lediglich den reinen Inhalt eines Textes, ohne ihn mit der richtigen Betonung und den entsprechenden Gefühlen zu versehen. Das Problem liegt in der Interpretation des gesprochenen Textes, insbesondere in der Diktion und Tonalität. Daher können KI-Stimmen professionellen Sprechern noch nicht das Wasser reichen.
Künstliche Intelligenz (KI) hat Schwierigkeiten beim Textverständnis, da ihr persönliche Erfahrungen fehlen, die sich auf die Interpretation eines Textes auswirken könnten. Dies wird anhand eines Beispiels verdeutlicht: Ein einfacher Satz wie „Wie siehst du denn aus?“ kann je nach Kontext verschiedene Emotionen erfordern. Zum Beispiel kann Empörung entstehen, wenn der Protagonist in Shorts und Adiletten zum Opernabend erscheint, oder Sorge, wenn der Darsteller blass und mit blutunterlaufenen Augen vor der Oper steht, wie Hierstetter erklärt.
Künstliche Intelligenz (KI) ist derzeit nicht in der Lage, den sogenannten Subtext eines Textes zu erfassen. Der Subtext bezieht sich auf die verborgene Bedeutung eines Textes, die sich erst durch die geeignete Betonung erschließt. Selbst erfahrene Schauspieler und Sprecher haben Schwierigkeiten, den Subtext sofort überzeugend mit ihrer Stimme zu vermitteln. In solchen Fällen ist die Anleitung eines Regisseurs unverzichtbar, um den Subtext richtig zu interpretieren.
Bei KI-Stimmen besteht eine Herausforderung darin, komplexe Regieanweisungen umzusetzen. Eine KI-Stimme kann Schwierigkeiten haben, die richtige Balance zwischen „abgehoben“ und „nahbar“ zu finden, wenn ihr gesagt wird, „Sei etwas abgehoben, aber immer noch nahbar“. Darüber hinaus können KI-Stimmen den Abschluss eines Textes nicht flexibel anpassen, was zu einer Diskrepanz zwischen den Erwartungen und dem tatsächlichen Ergebnis führen kann.
Trotz der schnellen Fortschritte bei KI-Stimmen ist Hierstetter der Meinung, dass diese Herausforderungen nicht bald gelöst werden können. Es ist sicher, dass es Verbesserungen geben wird und die Stimmen menschenähnlicher klingen werden. Allerdings bleibt das Problem der falschen Betonungen oder fehlenden Betonungen bestehen, was vor allem bei längeren Texten zu einem monotonen und unnatürlichen Klang führen kann.
Die Verwendung von Audiomaterial ohne ausreichende Verwertungsrechte kann zu rechtlichen Konsequenzen führen. Ein Beispiel hierfür ist der Fall von Bev Standing, einer kanadischen Sprecherin, deren Stimme unerlaubterweise in zahlreichen TikTok-Videos verwendet wurde. Standing hat TikTok erfolgreich verklagt, da ihre Stimme ohne ihre Einwilligung genutzt wurde. Es ist daher von großer Wichtigkeit, sicherzustellen, dass bei der Verwendung von KI-Stimmen die nötigen Rechte eingeholt wurden, um mögliche rechtliche Schwierigkeiten zu vermeiden.
Seit 15 Jahren ist bodalgo.com die erste Anlaufstelle für Unternehmen, die eine maßgeschneiderte Stimme für ihre Projekte benötigen. Die Online-Casting-Plattform bietet eine umfangreiche Auswahl an professionellen Sprechern für Werbung, E-Learning und Image-Filme. Mit fast 60.000 erfolgreich abgewickelten Castings hat bodalgo.com eine beeindruckende Erfolgsbilanz vorzuweisen.
Die Verwendung von Künstlicher Intelligenz (KI) zur Erzeugung von Stimmen ist für die Zukunft der Plattform bodalgo.com nicht relevant. Allerdings nutzen sie bereits heute KI erfolgreich in anderen Bereichen, wie beispielsweise bei der Transkription von Videos und Audios mit bodalgoScripta. Diese KI-Technologie erzielt bereits hervorragende Ergebnisse. Dennoch werden KI-Stimmen noch für viele Jahre keine ernsthafte Konkurrenz für professionelle Sprecher sein.
Produktionsstudios bevorzugen normalerweise den Einsatz von echten Sprechern und meiden künstliche Stimmen. Es gibt jedoch interessante Ausnahmen, wie zum Beispiel bei den neuen Folgen von Pumuckl. Anstatt eine künstliche Stimme zu verwenden, wurde die Stimme des Synchronsprechers Maxi Schafroth mithilfe von KI so modifiziert, dass sie der des verstorbenen Hans Clarin ähnelt, der dem Kobold Pumuckl über 30 Jahre lang seine Stimme lieh.
Künstliche Intelligenz (KI)-Stimmen können derzeit noch nicht mit den Vorteilen professioneller Sprecher mithalten. Sie sind nicht in der Lage, Texte richtig zu interpretieren und Betonungen sowie Emotionen anzupassen, was zu einem monotonen und künstlichen Klang führt. Zusätzlich fehlt ihnen das Verständnis für den eigentlichen Subtext eines Textes. Obwohl Fortschritte in der Entwicklung von KI-Stimmen gemacht werden, sind sie vorerst keine ernsthafte Konkurrenz für professionelle Sprecher. In anderen Bereichen wie der Transkription von Videos und Audios hat KI jedoch bereits erfolgreich Anwendung gefunden.