KI-Stimmen: Monoton und künstlich - noch keine Konkurrenz für Profisprecher

Künstliche Stimmen, die durch Künstliche Intelligenz (KI) und maschinelles Lernen erzeugt werden, sind derzeit noch nicht in der Lage, von echten Stimmen unterschieden zu werden. Obwohl es zahlreiche Anbieter gibt, die behaupten, dass ihre KI-Stimmen nicht von echten Stimmen zu unterscheiden sind, zeigt die Realität, dass diese Stimmen oft einen monotonen und künstlichen Klang haben. Ein bekanntes Beispiel ist die KI-Stimme „Adam“, die in sozialen Medien häufig genutzt wird.

KI-Stimmen: Etikettenschwindel oder Fortschritt im maschinellen Lernen?

Künstliche Intelligenz (KI) wird oft als Etikettenschwindel bezeichnet, da sie wenig mit echter Intelligenz zu tun hat. Stattdessen basiert sie auf maschinellem Lernen, bei dem Sprachmodelle trainiert werden, Stimmen anhand großer Mengen an Audiomaterial zu simulieren. Dies führt jedoch dazu, dass KI-Stimmen zwar den Inhalt eines Textes wiedergeben können, aber Schwierigkeiten haben, Diktion, Betonungen und Emotionen richtig zu interpretieren und wiederzugeben.

Obwohl KI-Stimmen in der Lage sind, einen Text vorzulesen, fehlt ihnen die Fähigkeit, Betonungen und Emotionen entsprechend dem Inhalt anzupassen. Dadurch klingen sie monoton und künstlich, da sie lediglich den reinen Inhalt transportieren, ohne ihn mit passender Betonung und Gefühlen anzureichern. Dies liegt an der fehlenden Diktion und Tonalität, also der Interpretation des gesprochenen Textes. Trotz gewisser Fortschritte bleibt die KI daher noch hinter professionellen Sprechern zurück.

Künstliche Intelligenz (KI) hat Schwierigkeiten beim Textverständnis, da ihr persönliche Erfahrungen fehlen, die für die Interpretation eines Textes wichtig sind. Dies wird anhand des Beispiels deutlich, dass ein einfacher Satz wie „Wie siehst du denn aus?“ je nach Kontext verschiedene Emotionen erfordert. Zum Beispiel kann Empörung entstehen, wenn der Protagonist in Shorts und Adiletten zum Opernabend erscheint, oder Sorge, wenn der Darsteller blass und mit blutunterlaufenen Augen vor der Oper steht.

Der Subtext, also die implizite Bedeutung eines Textes, die durch die angemessene Betonung vermittelt wird, stellt für KI derzeit eine unüberwindbare Herausforderung dar. Selbst erfahrene Schauspieler und Sprecher haben Schwierigkeiten, den Subtext sofort überzeugend durch ihre Stimme zu transportieren – hierbei ist die Unterstützung des Regisseurs vonnöten.

KI-Stimmen haben Schwierigkeiten, komplexe Regieanweisungen umzusetzen, die die gewünschte Tonalität, Betonung und Emotion verlangen. Stellen Sie sich vor, Sie geben einer KI-Stimme eine Anweisung, wie „Sei etwas abgehoben, aber immer noch nahbar“. Die KI-Stimme wird wahrscheinlich Schwierigkeiten haben, die richtige Balance zu finden und den gewünschten Effekt zu erzielen. Darüber hinaus können KI-Stimmen nicht flexibel genug sein, um den Abschluss eines Textes in Echtzeit anzupassen, was zu Unstimmigkeiten führen kann.

Obwohl KI-Stimmen sich kontinuierlich verbessern, gibt es laut Hierstetter immer noch Herausforderungen, die gelöst werden müssen. Fortschritte sind zweifellos zu erwarten, und die Stimmen werden menschenähnlicher klingen. Dennoch besteht weiterhin das Problem falscher Betonungen oder fehlender Betonungen, was insbesondere bei längeren Texten zu einem monotonen und künstlichen Klang führen kann.

Die Verwendung von Audiomaterial ohne ausreichende Verwertungsrechte stellt ein potentielles Risiko für Anbieter dar, die ihre Sprachmodelle trainieren. Ein Beispiel dafür ist der Fall von Bev Standing, einer kanadischen Sprecherin, deren Stimme plötzlich in TikTok-Videos aufgetaucht ist. Standing hat TikTok erfolgreich in den USA verklagt, da sie keine Einwilligung für die Verwendung ihrer Stimme gegeben hatte. Es ist daher wichtig, sicherzustellen, dass bei der Verwendung von KI-Stimmen die erforderlichen Rechte eingeholt wurden, um rechtliche Probleme zu vermeiden.

Bodalgo.com ist eine Online-Casting-Plattform, die seit 15 Jahren erfolgreich betrieben wird. Hier können Unternehmen die perfekte Stimme für ihre Projekte finden, sei es für Werbung, E-Learning oder Image-Filme. Mit fast 60.000 abgewickelten Castings hat sich die Plattform als zuverlässiger Partner etabliert.

Künstliche Intelligenz (KI) wird in Zukunft bei der Plattform bodalgo.com nicht für die Erzeugung von Stimmen eingesetzt. Jedoch gibt es bereits heute Bereiche, in denen KI erfolgreich genutzt wird, wie beispielsweise bei bodalgoScripta. Die KI-Transkription von Videos und Audios ist bereits sehr effektiv. Trotzdem sind KI-Stimmen noch lange Zeit keine Konkurrenz für professionelle Sprecher.

Produktionsstudios bevorzugen in der Regel den Einsatz von echten Sprechern anstelle von künstlichen Stimmen. Es gibt jedoch Ausnahmen, wie zum Beispiel bei den neuen Folgen von Pumuckl. Hier wurde die Stimme des Synchronsprechers Maxi Schafroth mithilfe von KI so angepasst, dass sie wie die des verstorbenen Hans Clarin klingt, der dem Kobold Pumuckl 30 Jahre lang seine Stimme lieh.

Künstliche Intelligenz (KI)-Stimmen sind derzeit noch nicht in der Lage, die Vorteile professioneller Sprecher zu bieten. Sie können Texte nicht richtig interpretieren und Betonungen sowie Emotionen nicht angemessen anpassen, was zu einem monotonen und künstlichen Klang führt. Darüber hinaus fehlt ihnen echtes Textverständnis und die Fähigkeit, den Subtext eines Textes zu transportieren. Obwohl Fortschritte in der Entwicklung von KI-Stimmen erzielt wurden, sind sie vorerst keine ernsthafte Konkurrenz für professionelle Sprecher.

KI-Stimmen: Monoton und künstlich – noch keine Konkurrenz für Profisprecher

KI-Stimmen: Etikettenschwindel oder Fortschritt im maschinellen Lernen?

Lassen Sie eine Antwort hier Antwort abbrechen