De Staat Of Linux Voice Recognition

Aféierung

Ech verbréngen vill Zäit fir d'Artikelen ze erforschen an ganz oft meng Meenung iwwer d'Thema vun engem Artikel an der Spazéiergang zu der Gare oder wann et a generell geet.

Een Owend an iwwer de Wee vu 1,5 Kilometer an der Statioun vu menger Aarbecht hu mir gedacht "wier et net gutt, wann ech opgeholl hunn wat ech wollt hunn an dann hunn se automatesch op eng Textdatei transkriéiert, déi ech konnt änneren an formatéieren" .

Ech hunn vill laang Stonnen ze kucken déi verschidde Méiglechkeeten ze fannen fir Stëmmenerkennung a Diktatioun ze kréien wéi zB direkt mat engem Mikrofon wou Dir Diktatiatssoftware an Linux oprufft, d'Datei op MP3 oder WAV opmaacht an dës iwwer d'Kommandozeechnung ze konvertéieren, och mat Chrome an Android Apps.

Dësen Artikel beweist meng Resultater no Deeg vun haarzer Aarbecht.

Linux Optiounen

Probéiert d'Diktatioun an d'Spracherkennungssoftware an Linux ze fannen ass net sou einfach wéi et kéint sinn an d'Optiounen sinn net dee clever.

Dës Wicipedia Säit huet eng Lëscht mat potenzielle Méiglechkeeten, ënnert anerem CMU Sphinx, Julius a Simon.

Ech benotzen SparkyLinux deen op Basis vum Debian Testing baséiert an ech kann Iech soen datt dat eenzeg Spracherkennungspakket, deen an de Repositories verfügbar ass Sphinx.

Déi native Linux Programme, déi ech amgaang sinn, waren PocketSphinx, déi ech WAV-Dateien ëmgewandelt hunn an Text an Freespeech-VR déi e Python-Applikatioun sinn, déi Iech direkt vun engem Mikrofoon ze schreiwen.

Ech hu probéiert och e puer Chrome Apps wéi VoiceNote II an Diktanote.

Endlech hunn ech probéiert den "Diktat an Email" a "Talk And Talk Dictation" Android Apps.

Freespeech-VR

Freespeech-VR ass net an de Standard Repositories verfügbar. Ech hunn d'Fichier vun hei downloaden.

Nodeems Dir den Inhalt vun der Zip Fichier erofgelooss huet an d'Ofdreiwung ze hunn hunn ech en Terminal geännert an an den Ordner navigéiert wou d'Fichier'en extrahëllt hunn.

Ech hunn den folgenden Kommando gezeechent fir d'Freespeech-vr ze maachen.

sudo python freespeech-vr

Ech hunn e Paar Kopfhörer mat engem zimlech decent Mikrofon an e zimlech kloer südlechen englesche Akzent.

Dësen Text erschéngt an der Freespeech -vr Fënster:

Wëllkomm an der Unitéit Hënn vum Resultat Heut Assuré Wéi verwéckelt Tester An Tester muss testen Wann Dir Text benotzt gëtt Dir sidd esou wéi de Systemsystem Sprach I The To One war nëmmen an enger Hoffnung fir ze bleiwen A The Means of One Huesen Golden als System D'Ea wann ech mäi Numm de nächste Zuch rufft klickt Dëse Fichier E bësse genuch Fälschungen op Hands- Space Sphinx Going That's net Mobiltelefone ginn gedeelt Een geschulte Mataarbechter a Spréch benotzen Wann Dir Sëcher sidd A benotzt Fichier Elo Geschicht A A mam Benotze vun der Wann et ganz gutt ass wéi Erfolleg Dëst Linux war wéi Dir vermeide ass

Ech wëll just soen, datt dëst net d'Unit Of Dogs Web Site ass a keefalls ech soen iwwerhaapt mat Goldenen Hënn. Ech probéieren eigentlech de Prozess vu Spracherkennungssoftware ze beschreiwen.

Ech hunn d'Software e puer Mol probéiert, wéi et variéiert Deck a Schnell awer d'Genauegkeet war schlecht.

PocketSphinx

PocketSphinx kann e WAV-Datei huelen an et mat der Kommandozeil ze kontextéieren.

PocketSphinx ass iwwer d'Debian Repositories verfügbar a soll fir déi meeschte Verdeelunge sinn.

Den Haaptproblem dee mat PocketSphinx fonnt gouf, ass datt Dir en Diplom an de Konzepter vu Stëmmerkennung, Sproochdateien, Dictionnairen an esou wéi de System trainéiert.

Nodeems Dir PocketSphinx installéiert hutt musst Dir op der Spuerx Websäit vun der CMU goen a liesen esou vill Informatioun wéi méiglech. Dir musst och d'folgend Modelldateie downloaden.

(Wann Dir net en Mammesproochler sidd, wielt de Sprooche-Modul, wat Iech ubruecht ass).

D'Dokumentatioun fir PocketSphinx a Sphinx am allgemengen ass schwéier ze verstoen fir d'Laach ze ginn, awer vun deem wat ech konnt maachen Wierder Dateien ginn benotzt fir eng Lëscht vu méigleche Wierder ze kréien an Sprooche Modellen hunn eng Lëscht vu potenzielle Aussprooch.

Fir Test PocketSphinx hunn ech eng Aufgab vu menger eegener Stëmm benotzt, e Snippet vum Al Pacino an "The Devils Advocate" an e Schnapp vum "Morgan Freeman". De Punkt vun deem war fir verschidden Stëmmen ze probéieren an fir mech ass et kee, deen eng Geschicht esou kloer wéi Morgan Freeman erzielen kann a keng Persoun wéi Al Pacino.

Fir PocketSphinx fir ze schaffen brauch en e WAV-Datei an et muss an engem gewësse Format sinn. Wann d'Datei am MP3-Format benotzt gëtt de Befehl ffmpeg fir en an de WAV Format ze konvertéieren:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Fir PocketSphinx ausféieren kënnt dëse Kommando:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous mécht eng WAV-Datei a konvertéiert se op den Text.

An der Command iwwer pocketsphinx gëtt gesot datt een Wierder Fichier "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" mat dem Sproochmodell "cmusphinx-5.0-en-us.lm" benotzt. De Fichier gëtt ëmgewandelt an den Text gëtt voice2.wav genannt (wat ass eng Aufgab, déi ech mat menger Stëmm gemaacht huet). Endlech den 2> plazéiert all déi verbose Resultat déi Dir net onbedéngt braucht an eng Datei ënner voice2.log. Déi aktuell Resultater vum Test ginn an der Termin window agebaut.

D'Resultater déi méng Stëmm benotze sinn esou:

Wëllkomm op déi nächst iwwer gutt net dës Woch Thema iwwer d'Unerkennungssoftware an enger Minutt

D'Resultater si net esou schreckhaft wéi bei Freespeech-vr, awer nach ëmmer net wierklech brauchbar. Ech probéieren dann PocketSphinx mat Al Pacino ze benotzen, awer dat huet kee Resultat erëm ugewisen.

Endlech hunn ech probéiert de Morgan Freeman senger Stëmm vum Film "Bruce Almighty" ze benotzen an et sinn d'Resultater:

000000000: mir wäerte et op hatt
000000001: et ass alles esou hou g'tt den Dag dat jo lo lo et ass dee gréissten mir hun mir liewen ech sinn Deel vun der waarmer
000000002: am Lift, deen de Schlëssel vun engem e wéineg Baseball o.ä. oder wësse wat fir en am Liewen ze maachen
000000003: wat sinn déi, déi erëm bréngen
000000004: sie hunn et net geschriwwen
000000005: se sinn direkt op mech
000000006: Dir musst Regelen sinn
000000007: Ech hu dech gewaart
000000008: an hien huet geléiert hei datt eng Illustration war d'Killer Weihnachtsfeier
000000009: et weist ee vun de Wee fir ze schreiwen. ass et mir geduecht datt et ëmmer ëmmer een tragen
000000010: Wéi de Problem united vereet hien net déi gutt sinn ech sinn de geschätzte se an deem Moment wou mer net alles wat Dir mengt, datt ech an der Welt wäerten liewen an ech hunn dat gesinn
000000011: e Papp deen et huet
000000012: wat vill iwwer dat
000000013: heescht dat
000000014: alles wat Dir déi net vill fällt
000000015: am Hierscht
000000016: gutt a blann mer just fir mech
000000017: et ass eng onglécklech wann ech mengen och datt se eng wäiss hunn datt dat all dat ass bestuet op en war mir net wéi ech am Géigesaz zum Wee

Mäi Test ka kaum als wëssenschaftlech an als Entwéckler vu PocketSphinx behaapten, datt ech d'Software net korrekt benotzen. Et ass och eng Technik Voice-Training, déi benotzt kënne fir bessert Dictionnairen an Sprooche-Dateien ze erstellen.

Meng Iwwerreschter Iwwerzeugung ass awer datt et just ze schwéier ass fir alldeeglech alldeeg Gebrauch.

VoiceNote II

VoiceNote II ass eng Chrome App déi den Google Voice Recognition API benotzt.

Wann Dir den Chrome oder Chromium Browsers benotzt, da kënnt Dir VoiceNote II iwwer de Web Store installéieren .

D'Ikonen op VoiceNote II ginn op eng komesch Manéier geluecht wéi Dir d'Sprooch am ënneschten der Fënster opgeriicht braucht an d'Edit-Schaltfënster ass och am ënneschten, awer de Rekord-Knop an der Uewe richteg Positioun.

Déi éischt Saache musst Dir eng Sprooch wielen an dëst kann erreecht ginn andeems Dir op d'Ikonklick klickt.

Fir d'Opnahm ze starten, klickt op de Mikrofoon-Symbol a fänkt un Äre Mikrofon ze spuere. Fir déi bescht Resultater hunn ech lues ugesiddelt geschriwwe ginn ass esou datt d'Software eng Chance hat opzehalen.

D'Resultater waren net gutt wéi et erlieft gëtt:

Moien a begréissen Iech ze connectéieren. About.com heiert Artikel iwwer Stëmmung zu Textkonvertéierung Dunkler Farrell Rezessioun 2008 wéi Conversiounen an et huet gutt gesot, den optimalsten Wee fonnt ze hunn ech Spëtztext-addon ze gesinn fir 2014debian oder RPM-Package ze lueden ass op wéi eng Stëmmentyp opzemaachen, fir Text opzemaachen wann Dir wëllt wielen Vous aus Edinburgh franzesch german kritt Dir d'Zäit am véirente Räichstart am Meer microphonewhat Dir schreift Dir Äre Text als Textdatei fir säi Success ze schreiwen well dat ass ganz Standard Englesch Akzent aus Süden England am Beschten, ma ech sinn an d'Textvia dës Torrentalong mat dem aktuellen Dokument an Dir kënnt fir d'Feeler gesinn, déi Iech fir ListeningFriends nogeet

Diktanoth

Diktanot ass eng aner Chrome App, déi benotzt kënne fir Diktatiwwerzwecker ze gesinn an ass méi intuitiv wéi d'Resultater waren net besser wéi VoiceNote II.

Ech hunn nëmmen d'Demo-Versioun vum Diktatur benotzt deen Dir verhënnert datt Dir nei Dokumenter geschaf maacht, awer et léisst Dir iwwer Text schwätzen, dat schon am Editor ass. Ech konnt d'Spracherkennung testen, awer d'Resultater waren net besser wéi VoiceNote II an ech hat also net mat der Pro-Versioun ënnerschriwwen.

Diktat E Mail

"Diktatioun A Mail" ass eng Android Applikatioun déi den nativen Google Spracherkennung API benotzt.

D'Resultater vun "Diktatioun a Mail" sinn vill besser wéi eent vun deem anere Programm op dësen Punkt versicht.

Hallo wëllkomm zu Linux iwwer., haut schwätze mer vun der Konvertéierung vu Klang zum Text

Den Trick mat "Diktatioun a Mail" ass lues a lues a schwätze schwätzt wéi Dir et mat engem Akzent Accent.

Nodeems Dir Är Gespréicher fäerdeg hutt kënnt Dir d'Resultater un Iech selwer schécken.

Diskussioun An Diskussiounsdiktatioun

Déi aner Android Applikatioun déi ech probéiert hat, "Talk And Talk Dictation".

D'Interface fir dës App war déi bescht vun der Rëtsch an d'Spracherkennung funktionéiert ganz gutt. Nodeems Dir d'Diktatioun opgeholl huet, konnt ech d'Resultater op verschidde Weeër uewendriwwer, och per E-Mail.

Wëllkomm op linux about.com haut schwätzen mir iwwer d'Konvertéierung vun der Ried zu Text

Wéi Dir den Text hei uewen gesäit, ass sou kloer wéi Dir kënnt erwart erwaarden. Schwätze mer langsam de Schlëssel.

Summary

Native Linux huet e puer Wee mat der Stëmmerkennung a speziell Diktatioun. Et ginn e puer Applikatiounen déi d'Google Voice API benotzen, awer se sinn nach net an de Repositories notéiert.

ChromeOS Applikatiounen sinn e bësschen besser, awer duerch déi meeschte Resultater goufe ech mat mengem Android-Handy erstallt. Vläicht ass de Telefon e bessere Mikrofon a lo lo d'Spracherkennungssoftware eng besser Chance op d'Konversioun.

Fir Stëmmekennung fir wierklech wiervoll ze ginn, muss et méi intuitiv sinn mat manner Setup. Dir musst Iech net mat Sproochmodeller a Dictionnairen ëmzesetzen, fir datt et vernannt gëtt.

Ech schätzen awer datt d'ganz Konscht vu Stëmmerkennung ganz schwiereg ass, well jiddereen huet eng aner Stëmm an et ginn esou vill Dialekte vun der Regioun an der Regioun an engem Land, dee sech sou honnerte vu weltwäit gebraucht huet.

Meng Analyse ass dofir datt déi Stëmmerkennungssoftware nach ëmmer a Wierk ass.