Thorsten-Voice

Thorsten-Voice
Basisdaten
Hauptentwickler	Thorsten Müller
Erscheinungsjahr	2019
Kategorie	Sprachsynthese
deutschsprachig	ja
	thorsten-voice.de

Thorsten-Voice ist ein Open Source Projekt zur Bereitstellung einer kostenlosen, natürlich klingenden, deutschen KI-Stimme für die Sprachsynthese (auch TTS oder Text-to-Speech genannt), die ohne Cloud- oder Internetzugang funktioniert. Es wurde im Oktober 2019 von Thorsten Müller und Dominik Kreutz initiiert.

Sprecher Thorsten Müller

Sämtliche durch das Projekt bereitgestellte KI-Stimmen basieren auf Sprachaufnahmen von Thorsten Müller. Diese Aufnahmen sind ebenfalls als Open Source (CC0 Lizenz) frei verfügbar. Auf der Webseite des Projektes beschreibt Sprecher Thorsten Müller seine persönlichen Motive.

Für ihn sind alle Menschen gleich, unabhängig von Geschlecht, sexueller Orientierung, Religion, Hautfarbe oder Geokoordinaten der Geburt. Er glaubt an eine globale Welt, wo jeder überall willkommen ist und freies Wissen und Bildung kostenfrei für jeden zur Verfügung steht. Er hat seine Stimme der Allgemeinheit gespendet, in der Hoffnung darauf, dass sie in diesem Sinne genutzt wird.^[1]

Sprachdatensätze

Die notwendigen Aufnahmen als Trainingsdaten für die KI-Stimmen stehen in unterschiedlichen Sprachdatensätzen zur Verfügung. Diese bestehen aus Mono Audioaufnahmen im Wave Format sowie einer zugehörigen Textdatei mit der passenden Textzugehörigkeit. Das Projekt stellt über 30.000 Aufnahmen unter CC0 Lizenz zur freien Verfügung. Sie können über das OpenSLR Spracharchiv, die von der Europäischen Union finanzierten wissenschaftlichen Plattform Zenodo oder Hugging Face unter eindeutigen DOI frei heruntergeladen werden.

Der im Jahr 2020 veröffentlichte Thorsten-Voice Dataset 2021.02 Sprachdatensatz besteht aus 22.000 neutral betonten Aufnahmen mit einer gesamten Dauer von 23 Stunden. Die durchschnittliche Satzlänge beträgt 52 Zeichen und es wurde mit einer Geschwindigkeit von 14 Zeichen pro Sekunde eingesprochen.^[2]

Der ebenfalls neutral eingesprochene und im Oktober 2022 veröffentlichte Sprachdatensatz Thorsten-Voice Dataset 2022.10 beinhaltet 12.000 Aufnahmen. Dies entspricht einer Dauer von 11 Stunden. Mit einer durchschnittlichen Sprechgeschwindigkeit von 17 Zeichen pro Sekunde ist es etwas natürlicher und schneller in der Aussprache als der Sprachdatensatz 2021.02.^[3]

Im Juni 2021 veröffentlichte das Projekt den Thorsten-Voice Dataset 2021.06 Emotional Sprachdatensatz der in verschiedenen Emotionen eingesprochen wurde. Dazu zählen Betonungen in den Emotionen angeekelt, wütend, erfreut, schläfrig, überrascht, betrunken sowie flüsternd. Er beinhaltet 300 unterschiedliche Sätze die jeweils in den genannten Emotionen aufgenommen wurden.^[4]

In Anlehnung an die Herkunft des Sprechers im Wetteraukreis bei Frankfurt am Main veröffentlichte das Projekt im September 2023 den Thorsten-Voice Dataset 2023.09 Hessisch Sprachdatensatz in südhessischem Dialekt. Es ermöglicht somit auf KI-Stimmen zu erstellen, welche die hessische Aussprache mittels künstlicher Intelligenz erzeugen können. Es umfasst 2.000 Audio-Aufnahmen.^[5]

KI-Stimmen

Auf Basis der oben genannten Sprachdatensätze hat das Projekt mittels KI und maschinellem Lernen künstliche Stimmen erzeugt. Diese ermöglichen eine qualitativ hochwertige künstliche Sprachsynthese (auch TTS oder Text-to-Speech genannt), die ohne Internetzugriff funktioniert. Da die Sprachsynthese ohne Cloud Dienste läuft fallen möglicherweise Datenschutzbedenken sowie exklusive Anbieter Abhängigkeiten weg. Die Thorsten-Voice KI-Stimmen stehen unter freigiebigen Open Source Lizenzen und bieten eine kostenfreie Nutzung.

Die KI-Stimmen stehen in neutraler, emotionaler und hessischer Betonung zur Verfügung. Neben der Installation auf dem eigenen Computer können die Thorsten-Voice Stimmen auch auf der Plattform Huggingface frei verwendet werden.^[6]

Einsatz in Wissenschaft und Forschung

Aufgrund der freigiebigen CC0 Lizenz werden die Thorsten-Voice Sprachdatensätze auch in Wissenschaft und Forschung verwendet. Dazu zählen auszugsweise folgende Institutionen und wissenschaftliche Abhandlungen.

Hochschule Hof (2021), "Sprachsynthese State-of-the-Art in englischer und deutscher Sprache".^[7]
Universität Stuttgart (2022), "Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech".^[8]
Fraunhofer Institut AISEC (2024), "MLAAD: The Multi-Language Audio Anti Spoofing Dataset".^[9]
Virginia Commonwealth University, "In-domain and Out-of-domain benchmarking for speech emotion recognition".^[10]
Goethe Universität Frankfurt (2025), "A Hypertext System for the Collaborative Interaction in Parliamentary Debate Spaces".^[11]

Eine vollständige Übersicht aller über 30 wissenschaftlichen Verwendungen von Thorsten-Voice findet sich auf der Projektwebseite sowie über die Suche auf Google Scholar.^[12]^[13]

Medien

Über Thorsten-Voice wurde unter anderem in folgenden Print- und Onlinemedien sowie Podcasts berichtet. Die Berichte beziehen sich teilweise auf die Einsatzmöglichkeiten der KI-Stimmen, sowie die gesellschaftlichen und sozialen Auswirkungen, wenn man freiwillig seine Stimme verschenkt.

t3n (2023), "Hör mal, wer da spricht".^[14]
Deutschlandfunk Podcast (2024), "KI verstehen - Open Source Modelle demokratisieren Künstliche Intelligenz".^[15]
Golem Podcast und Online (2024/2025), "Wie man seine Stimme klont" und "Zum KI-Training in die Cloud gehen?"^[16]^[17]
Frankfurter Rundschau (2025), "Seine Stimme gehört jetzt allen".^[18]
Netzpolitik.org (2025), "Dieser Mann hat seine Stimme verschenkt".^[19]
DER SPIEGEL (2025), "Der Mann, der seine Stimme verschenkte".^[20]

Die Webseite des Projektes enthält eine vollständige Liste der medialen Berichterstattung.^[21] In der Ausgabe der heute-show vom 31. Oktober 2025 wurde ein Roboter der TU Darmstadt gezeigt, der die hessische Variante von Thorsten-Voice verwendet.^[22] Der verkürzt gezeigte Ausschnitt stammt aus der 3sat Nano Doku vom 24. August 2025 mit dem Titel "Wie humanoide Roboter im Alltag helfen"^[23].

Weitere Einsatzmöglichkeiten

Künstliche Stimmen sind in Zeiten steigender Mensch-zu-Maschine Interaktion aus dem Alltag kaum noch wegzudenken. Einige Aspekte sind sprachgesteuerte intelligente Sprachassistenten, der Austausch mit LLM basierten Chatbots und die Sprachsteuerung eines intelligenten Zuhause.

Der Aspekt der Barrierefreiheit ist ebenfalls wesentlich, da künstliche Sprachausgabe Menschen mit Einschränkungen beim Sehen oder Lesen eine digitale Teilhabe ermöglicht. Ebenso Menschen, die durch Krankheit oder Unfall die eigene Stimme verloren haben, bietet künstliche Sprachsynthese wesentliche Vorteile.

Seit 2023 ist Thorsten-Voice in den NeMo Werkzeugkasten von Nvidia integriert,^[24] die Sprachausgabe der Schweizer Lernstick Linux Distribution^[25] sowie Teil der Sprachausgabe der Smarthome Anwendung Home Assistant.

Weblinks

Einzelnachweise

↑ Guude 👋🏼! - Thorsten-Voice, die freie deutsche KI-Stimme. Archiviert vom Original am 17. September 2025; abgerufen am 3. November 2025.
↑ Thorsten Müller, Dominik Kreutz: Thorsten-Voice Dataset 2021.02. 10. Februar 2021, abgerufen am 3. November 2025.
↑ Thorsten Müller, Dominik Kreutz: Thorsten-Voice Dataset 2022.10. 30. Oktober 2022, abgerufen am 3. November 2025.
↑ Thorsten Müller, Dominik Kreutz: Thorsten-Voice Dataset 2021.06 emotional. 13. Juni 2021, abgerufen am 3. November 2025.
↑ Thorsten Müller, Dominik Kreutz: Thorsten-Voice Dataset 2023.09 Hessisch. 14. Januar 2024, abgerufen am 3. November 2025.
↑ Kostenlos und Emotional | 🇩🇪 TTS-Stimme - a Hugging Face Space by Thorsten-Voice. Abgerufen am 3. November 2025.
↑ René Peinl: Sprachsynthese -- State-of-the-Art in englischer und deutscher Sprache. 11. Juni 2021, abgerufen am 3. November 2025.
↑ Florian Lux, Julia Koch, Ngoc Thang Vu: Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech. 21. Oktober 2022, abgerufen am 3. November 2025.
↑ Nicolas M. Müller, Piotr Kawa, Wei Herng Choong, Edresson Casanova, Eren Gölge, Thorsten Müller, Piotr Syga, Philip Sperl, Konstantin Böttinger: MLAAD: The Multi-Language Audio Anti-Spoofing Dataset. 1. Oktober 2025, abgerufen am 3. November 2025.
↑ Mohamed Osman, Daniel Z. Kaplan, Tamer Nadeem: SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition. 14. August 2024, abgerufen am 3. November 2025.
↑ Giuseppe Abrami, Daniel Bundan, Chrisowaladis Manolis, Alexander Mehler: VR-ParlExplorer: A Hypertext System for the Collaborative Interaction in Parliamentary Debate Spaces. In: Proceedings of the 36th ACM Conference on Hypertext and Social Media (= HT '25). Association for Computing Machinery, New York, NY, USA 2025, ISBN 979-84-0071534-1, S. 177–183, doi:10.1145/3720553.3746672 (acm.org [abgerufen am 3. November 2025]).
↑ Google Scholar. Abgerufen am 3. November 2025.
↑ Freie Sprachdatensätze für TTS, Forschung & Wissenschaft. Archiviert vom Original am 8. August 2025; abgerufen am 3. November 2025.
↑ t3n 72 – Bits Better Have My Money: Es geht ans Geld. Abgerufen am 3. November 2025.
↑ deutschlandfunk.de: KI für alle - Open-Source-Modelle demokratisieren Künstliche Intelligenz. 12. September 2024, abgerufen am 3. November 2025.
↑ Golem.de: IT-News für Profis. Abgerufen am 3. November 2025.
↑ Golem.de: IT-News für Profis. Abgerufen am 3. November 2025.
↑ Seine Stimme gehört jetzt allen. 20. Januar 2025, abgerufen am 3. November 2025.
↑ Martin Schwarzbeck: Text-to-Speech: Dieser Mann hat seine Stimme verschenkt. In: netzpolitik.org. 21. März 2025, abgerufen am 3. November 2025.
↑ Annika Schultz: (S+) Netzwelt: Der Mann, der seine Stimme einer KI gespendet hat. In: Der Spiegel. 17. August 2025, ISSN 2195-1349 (spiegel.de [abgerufen am 3. November 2025]).
↑ Thorsten-Voice auf Konferenzen, Podcasts & Social Media. Archiviert vom Original am 8. August 2025; abgerufen am 3. November 2025.
↑ heute-show vom 31. Oktober 2025. Abgerufen am 3. November 2025.
↑ KI-Roboter als Haushaltshilfe? So weit ist die Forschung | NANO Doku. 24. August 2025, abgerufen am 5. November 2025.
↑ Data Preprocessing — NVIDIA NeMo Framework User Guide. Abgerufen am 3. November 2025.
↑ Downloads / Dokumentation. Abgerufen am 3. November 2025.

[1] Guude 👋🏼! - Thorsten-Voice, die freie deutsche KI-Stimme. Archiviert vom Original am 17. September 2025; abgerufen am 3. November 2025.

[2] Thorsten Müller, Dominik Kreutz: Thorsten-Voice Dataset 2021.02. 10. Februar 2021, abgerufen am 3. November 2025.

[3] Thorsten Müller, Dominik Kreutz: Thorsten-Voice Dataset 2022.10. 30. Oktober 2022, abgerufen am 3. November 2025.

[4] Thorsten Müller, Dominik Kreutz: Thorsten-Voice Dataset 2021.06 emotional. 13. Juni 2021, abgerufen am 3. November 2025.

[5] Thorsten Müller, Dominik Kreutz: Thorsten-Voice Dataset 2023.09 Hessisch. 14. Januar 2024, abgerufen am 3. November 2025.

[6] Kostenlos und Emotional | 🇩🇪 TTS-Stimme - a Hugging Face Space by Thorsten-Voice. Abgerufen am 3. November 2025.

[7] René Peinl: Sprachsynthese -- State-of-the-Art in englischer und deutscher Sprache. 11. Juni 2021, abgerufen am 3. November 2025.

[8] Florian Lux, Julia Koch, Ngoc Thang Vu: Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech. 21. Oktober 2022, abgerufen am 3. November 2025.

[9] Nicolas M. Müller, Piotr Kawa, Wei Herng Choong, Edresson Casanova, Eren Gölge, Thorsten Müller, Piotr Syga, Philip Sperl, Konstantin Böttinger: MLAAD: The Multi-Language Audio Anti-Spoofing Dataset. 1. Oktober 2025, abgerufen am 3. November 2025.

[10] Mohamed Osman, Daniel Z. Kaplan, Tamer Nadeem: SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition. 14. August 2024, abgerufen am 3. November 2025.

[11] Giuseppe Abrami, Daniel Bundan, Chrisowaladis Manolis, Alexander Mehler: VR-ParlExplorer: A Hypertext System for the Collaborative Interaction in Parliamentary Debate Spaces. In: Proceedings of the 36th ACM Conference on Hypertext and Social Media (= HT '25). Association for Computing Machinery, New York, NY, USA 2025, ISBN 979-84-0071534-1, S. 177–183, doi:10.1145/3720553.3746672 (acm.org [abgerufen am 3. November 2025]).

[12] Google Scholar. Abgerufen am 3. November 2025.

[13] Freie Sprachdatensätze für TTS, Forschung & Wissenschaft. Archiviert vom Original am 8. August 2025; abgerufen am 3. November 2025.

[14] t3n 72 – Bits Better Have My Money: Es geht ans Geld. Abgerufen am 3. November 2025.

[15] utschlandfunk.de: KI für alle - Open-Source-Modelle demokratisieren Künstliche Intelligenz. 12. September 2024, abgerufen am 3. November 2025.

[16] Golem.de: IT-News für Profis. Abgerufen am 3. November 2025.

[17] Golem.de: IT-News für Profis. Abgerufen am 3. November 2025.

[18] Seine Stimme gehört jetzt allen. 20. Januar 2025, abgerufen am 3. November 2025.

[19] Martin Schwarzbeck: Text-to-Speech: Dieser Mann hat seine Stimme verschenkt. In: netzpolitik.org. 21. März 2025, abgerufen am 3. November 2025.

[20] Annika Schultz: (S+) Netzwelt: Der Mann, der seine Stimme einer KI gespendet hat. In: Der Spiegel. 17. August 2025, ISSN 2195-1349 (spiegel.de [abgerufen am 3. November 2025]).

[21] Thorsten-Voice auf Konferenzen, Podcasts & Social Media. Archiviert vom Original am 8. August 2025; abgerufen am 3. November 2025.

[22] heute-show vom 31. Oktober 2025. Abgerufen am 3. November 2025.

[23] KI-Roboter als Haushaltshilfe? So weit ist die Forschung | NANO Doku. 24. August 2025, abgerufen am 5. November 2025.

[24] Data Preprocessing — NVIDIA NeMo Framework User Guide. Abgerufen am 3. November 2025.

[25] Downloads / Dokumentation. Abgerufen am 3. November 2025.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]