Myna: Canonical bringt lokale Spracherkennung auf den Ubuntu-Desktop

Sprachsteuerung gehört unter Windows und macOS längst zum Alltag, auf dem Linux-Desktop dagegen fehlt eine integrierte, komfortable Diktatfunktion bislang weitgehend. Das will Canonical, die Firma hinter Ubuntu, nun ändern. Unter dem Namen Myna entsteht ein Werkzeug, das gesprochene Sprache in Text umwandelt – und das ausdrücklich lokal auf dem eigenen Rechner, ohne Umweg über die Cloud.

Was Myna ist – und was (noch) nicht

Myna, benannt nach dem für seine Stimmnachahmung bekannten Mynavogel, ist laut Canonical eine schlanke Speech-to-Text-Anwendung für den Ubuntu-Desktop (GitHub). Die geplante Bedienung ist bewusst einfach gehalten: Per Tastenkürzel startet man die Aufnahme, spricht, und der erkannte Text erscheint direkt in der gerade aktiven Anwendung (heise online).

Wichtig ist die Abgrenzung zwischen Geplantem und Verfügbarem: Myna ist kein Sprachassistent und keine Sprachsteuerung für den Desktop. Sprachbefehle zum Bedienen von Programmen, Aufweckwörter, dauerhaftes Mithören, Übersetzung oder Sprecher-Erkennung sind für den Start ausdrücklich nicht vorgesehen. Auch das Diktieren in Passwortfelder bleibt zunächst außen vor (The Register). Es geht also vorerst rein um reines Diktieren.

Alles offline – kein Cloud-Upload

Der wohl wichtigste Punkt aus Datenschutzsicht: Die Erkennung läuft vollständig lokal. Sobald die nötigen Sprachmodelle installiert sind, benötigt Myna keine Internetverbindung mehr. Die Audiodaten landen in einem kleinen Zwischenspeicher im Arbeitsspeicher und werden nach Ende der Sitzung sofort wieder verworfen – Aufnahmen werden also nicht an externe Server geschickt.

Technisch besteht Myna aus mehreren getrennten Bausteinen: einem Orchestrator für die Sitzungen, einem Audio-Adapter für die Mikrofoneingabe samt Rauschunterdrückung sowie einer abgeschotteten Komponente für die eigentliche Erkennung. Die Sprachmodelle sollen in drei Größen ausgeliefert werden und sich an die vorhandene Hardware anpassen – sei es eine NVIDIA-GPU, eine Intel-NPU oder schlicht die CPU. Welche konkrete Erkennungs-Engine oder welches Sprachmodell Myna nutzt, hat Canonical bislang nicht offengelegt.

Früher Entwicklungsstand, Ziel: Ubuntu 26.10

Am Reifegrad sollte man derzeit keine zu hohen Erwartungen haben. Canonical bezeichnet Myna selbst als sehr frühes Entwicklungsstadium; das GitHub-Repository enthält bislang im Wesentlichen Lizenz, README und Dokumentation, aber noch keine fertige Veröffentlichung. Der Code steht unter der GPL-3.0-Lizenz. Erscheinen soll Myna mit Ubuntu 26.10, das für Oktober 2026 erwartet wird. Zunächst zielt das Projekt auf den Ubuntu-Desktop unter Wayland mit GNOME als primär unterstützter Umgebung.

Einordnung: Barrierefreiheit und der Vergleich zur Konkurrenz

Canonical nennt als möglichen Einsatzzweck ausdrücklich auch die Verbesserung der Barrierefreiheit. Genau hier liegt der Reiz: Eine systemnah integrierte Diktatfunktion kann Menschen mit motorischen Einschränkungen oder Schreibschwierigkeiten den Computeralltag erleichtern.

Im Vergleich zu Windows und macOS holt Linux mit Myna funktional etwas auf – mit einem klaren Pluspunkt: Während die Diktatfunktionen der großen Betriebssysteme für die beste Qualität teils auf Cloud-Verarbeitung setzen, verfolgt Myna konsequent einen lokalen, datensparsamen Ansatz. Bis daraus ein im Alltag konkurrenzfähiges Werkzeug wird, dürfte angesichts des frühen Stadiums allerdings noch einige Entwicklungsarbeit nötig sein.