Teksti- ja kõnetuvastusfunktsioonid on minu arvates Windows 8.1 üks mugavamaid juurdepääsetavuse funktsioone. Ja mitte ainult mugav, vaid ka lihtne seadistada. Tegelikult tunneb Windows 8.1 vaikesätetega käekirja üsna hästi ära, aga kui sa sellega rahul ei ole, võid teha lisatrenni.

Ava valikute jaotis " Keel Tõstke juhtpaneelil esile keel, mida soovite õppida, ja klõpsake lingil Valikud"tema paremal küljel.

Ilmub õpetuse aken. Siin saate valida soovitud toimingu: õpetage Windows ümber, kui see teeb konkreetseid tekstituvastusvigu, või õpetage seda konkreetselt teie käekirja. Pange tähele, et teisel valikul võib olla pikk õppimiskõver.

Kõnetuvastus opsüsteemis Windows 8.1.

Windows 8.1 võimaldab teil juhtida arvutit häälega, kasutades tahvelarvutisse, sülearvutisse või ultrabooki sisseehitatud mikrofoni või välist peakomplekti. Kõnetuvastuse valikule pääseb ligi Start-ekraanilt, tippides otsinguribale kõnetuvastus, kus küsitakse, millist heliseadet soovite kasutada.

Järgmisena esitatakse teile rida küsimusi, mille järel palutakse teil tutvuda koolitusjuhendiga. Selle juhendi juhiste järgimine muudab Windowsi õppimise palju lihtsamaks. Parem on kulutada veidi aega ja treenida Windows 8.1 teie kõnet ära tundma.

Teil palutakse vaadata abi, mille väljatrükk võib olla väga kasulik erinevate häälkäskluste meeldejätmisel. Töötamise ajal hõljub kõnetuvastus töölaual ja selle saab dokida ekraani üla- või alaossa.

Põhimõtteliselt töötab Windows 8.1 kõnetuvastusprogramm suurepäraselt.

Juurdepääs kõnetuvastusseadme kõikidele juhtnuppudele on lihtne, lihtsalt paremklõpsake selle aknal.

Seal näete võimalusi seadme treenimise jätkamiseks, seadistades nii selle kui ka mikrofoni.

Põhilised kõnetuvastuse juhtnupud:

  • Käivitage programmi nime järgi, näiteks sõnad Kalkulaator, Word või Excel, käivitage vastav programm
  • Lülitumine programmi nime järgi, lülitub programmile, kui see juba töötab.
  • Saate juhtida programme, millel on rippmenüüd, öeldes menüü nime ja seejärel soovitud valiku nime. See funktsioon töötab ka Windows 8.1, Microsoft Office'i ja muude neid kasutavate programmide lindi juhtelementide puhul.
  • Näita numbreid kuvab juhtnuppudele asetatud numbreid, mida saab hiljem nende aktiveerimiseks nimetada.
  • Veebilehel saate linki jälgida, pannes sellele lihtsalt nime; näiteks võtke meiega ühendust.
  • Saate aktiveerida elemendil klõpsamise, öeldes topeltklõpsu või mõnel konkreetsel elemendil paremklõpsu; näiteks topeltklõpsake ostukorvi.
  • Start Listening/Stop, lülitab kõnetuvastussüsteemi sisse või välja.
  • Mis ma ikka öelda saan? Kuvab abi.
  • Show Speech Options, kuvab kõnetuvastusseadme valikute loendi; saadaval ka paremklõpsuga.
  • Kõnetuvastuse näitamine/peitmine, kõnetuvastusseade minimeeritakse süsteemsesse salve või tagastatakse töölauale.

Kui kõnetuvastusseade ei tunne midagi ära, kuvab see " Alternatiivide paneel”, mis sisaldab kõige paremaid oletusi räägitu kohta. Saate nende hulgast valida, öeldes õigest elemendist vasakul oleva numbri. See aitab koolitada ka Windows 8.1 kõnetuvastussüsteeme.

Teksti- ja kõnetuvastusfunktsioone kasutades muudate oma töö palju lihtsamaks, muutes selle mugavamaks ja kiiremaks. Näiteks võimaldab käsitsi kirjutamise funktsioon sisestada teksti käsitsi, mis on mobiilseadmetes väga mugav. Ja kõnetuvastus, juhtige oma arvutit häälega.

Sõbrad, vaatasime eelmisel päeval üht uuendust, mille Fall Creators Update tõi Windows 10-sse – . Microsoft lubab tulevikus toetust venekeelsele häälsisendile, kuid ei täpsusta, kas see tulevik on lähitulevikus või kaugemas tulevikus. Võib-olla saab see siis, kui Cortana saab rääkida ja mis kõige tähtsam, mõista vene keelt. Pole mõtet oodata, kuni Microsoft õpetab Windows 10 meie omast aru saama. Kui midagi pole süsteemikeskkonnas endas, saab seda peaaegu alati rakendada kolmanda osapoole tarkvara abil. Tegelikult räägime neist selles artiklis. Allpool vaatleme erinevaid viise, kuidas kasutada sülearvutisse sisseehitatud või arvutiga ühendatud mikrofoni häälega otsingupäringute sisestamiseks ja dokumentide teksti dikteerimiseks.

1. „Ok Alice” ja Google'i häälotsing otsingupäringute jaoks

On ebaselge, miks Google pole seda tehnoloogiat veel YouTube'i liidesesse integreerinud. Kuid igal juhul saate otsida videoid otsingumootoris endas, hääldades võtmepäringuid. Peate lihtsalt otsingutulemustes lülituma vahekaardile "Video". Arusaadavatel põhjustel pärineb lõviosa otsingutulemustest ikkagi YouTube'ist.

Need, kes on sellega juba tutvunud, ei pea brauseriaknas otsimootori veebisaidile minema. Pärast programmi installimist ilmub otse Windowsi tegumiribale Yandexi otsinguväli, millel on võimalus häälega päringuid sisestada. Ja Alice saab vastata haruldastele lihtsatele küsimustele ilma otsingumootorita, ilma oma dialoogiboksist kaugemale minemata.

2. Google'i veebiteenuse Web Speech API

Web Speech API tehnoloogial, mille kaudu päringute häälsisestus rakendatakse Google'i otsingumootoris, on oma veebiliides aadressil:

https://www.google.com/intl/ja/chrome/demos/speech.html

Teenuse funktsionaalsus on minimalistlik: see sisaldab nuppu mikrofoni sisselülitamiseks ja tulemuse välja, kus kuvatakse tuvastatud tekst.

Kuid sellel tulemuste väljal ei saa muudatusi teha. Selle tulemusena saame tunnustamistulemused sellisena, nagu need on. Ja me saame neid redigeerida ainult mingis tekstiredaktoris või andmesisestusvormis. Tulemusvälja „Kopeeri ja kleebi“ all olev nupp lõpetab praeguse sisestusseansi ja asetab automaatselt esiletõsteploki kogu tuvastatud tekstile. Seda tehakse lõikepuhvrisse kopeerimise hõlbustamiseks.

Tuvastatud teksti jaoks on saadaval veel üks valik, mida rakendab meili loomise nupp. See käivitab Windowsi keskkonda vaikimisi installitud meilikliendi, loob uue kirja ja kannab sellesse tuvastatud teksti.

Tähelepanuväärne on, et Web Speech API suudab ära tunda mõned kirjavahemärgid, vähemalt punkti ja koma. Nii et dikteerimise ajal, kohtades, kuhu sisestatakse punktid ja komad, saate neid lihtsalt hääldada.

Tulemusvälja teksti redigeerimise võimaluse puudumine muudab Web Speech API kasutamise mitte eriti mugavaks suurte tekstimahtude tippimiseks. Pikkade dikteerimiste jaoks on parem kasutada Google Docsi teenuse veebiliidest, millesse on sisse ehitatud Web Speech API tehnoloogia. Teenuses Google Docs saate teksti häälega sisestada, seda kohe redigeerida ja dokumenti samal ajal vormindada.

3. „Voice notepad” saidil Speechpad.Ru

Teine Web Speech API tehnoloogial põhinev veebisait on RuNeti kõige populaarsem ja funktsionaalseim häälsisestusteenus "Voice Notepad". Selle peamiste funktsioonide hulgas:

  • Toetab mitut keelt, sealhulgas vene ja ukraina keelt;
  • Saadud hääletuvastusväli, mis võimaldab teksti redigeerida, tõlkida teistesse keeltesse ja laadida tulemusi TXT-faili;
  • Tunnustatud fraaside väljastamine lõikepuhvrisse;
  • Transkriptsioon;
  • Integreerimine Chromiumi brauseri veebivormidesse;
  • Integreerimine Windowsi ja Linuxi keskkondadesse.

Lisaks kõigele sellele saab “Voice Notepadis” häälsisendi sisse ja välja lülitada vaid vastavat nuppu vajutades. Seda valikut ei deaktiveerita iseenesest niipea, kui mõtleme mõnda aega mõtte täpset sõnastust otsides, nagu juhtub teistes Web Speech API-l põhinevates teenustes.

Ja me jälgime tuvastatud teksti saadud väljal.

4. Speechpadi integreerimine brauseri veebivormidesse

Pärast selle laienduse rakendamist ilmub veebitekstisisestusvormide kontekstimenüüsse üksus „Speechpad”. Vajutage seda nuppu ja rääkige mikrofoni. Nii saame näiteks Google Keepis märkmeid dikteerida.

5. Speechpadi integreerimine Windowsi keskkonda

Voice Notepad veebiteenuse võimalused on integreeritavad Windowsi keskkonda. Ja tippige tekst häälega mis tahes operatsioonisüsteemi programmis - tavalises märkmikus, Microsoft Wordis ja muudes tekstiredaktorites. Äratuntud kõne sisestatakse otse redigeeritud dokumentidesse ilma veebiteenuste või lõikepuhvri vahenduseta. See Speechpad.Ru funktsioon pole aga tasuta ja maksab 100 rubla. kuus. Pakutakse säästuvõimalusi: kui maksate teenuste eest kohe kvartali eest, on maksumus 250 rubla ja aasta ettemaks 800 rubla. Iga registreeritud kasutaja saab esmalt testida oma operatsioonisüsteemi keskkonda integreeritud teenuse funktsionaalsust. Speechpad.Ru loojad pakuvad tasuta kahepäevast prooviperioodi. Kuidas Voice Notepad on otse operatsioonisüsteemidesse, eriti Windowsi integreeritud, on üksikasjalikult kirjeldatud Speechpad.Ru enda veebisaidil. Klõpsake integreerimisvaliku kõrval olevat küsimärki.

Ja me läbime kõik juhistes kirjeldatud sammud:

  • Installige ülaltoodud teenuselaiendus;
  • Laadige alla integreerimisfailide pakett;
  • Pakkige arhiiv lahti ja käivitage fail install_host.bat;
  • Speechpad.Ru veebisaidil läheme kasutajakontole;

Klõpsake nuppu "Luba testperiood".

Ja nii iga kord, kui peate häälsisendi aktiveerima. See on tegelikult kõik. Nüüd saate avada Microsoft Wordi, LibreOffice Writeri ja muud tekstiredaktorid ning alustada dikteerimist. Tuvastatud tekst ilmub iga aktiivse rakenduse aknasse, mis toetab andmete sisestamist.

Tähtis: süsteemi integreeritud Speechpadi kasutamiseks ei saa te selle veebisaidi vahekaarti brauseriaknas sulgeda. Viimase sulgemine desaktiveerib häälsisendi.

5. Tasuta alternatiivid häälsisendi integreerimiseks Windowsi keskkonda

Millised tasuta alternatiivid võiksid olla venekeelse häälsisendi integreerimiseks Windowsi keskkonda?

Valik 1

Speechpad.Ru veebisaidil saate täiesti tasuta kasutada äratuntud kõne lõikepuhvrisse väljastamist. Klõpsake veebisaidil nuppu "Luba salvestamine" ja minge mis tahes Windowsi rakendusse.

Nüüd saame hääldada üksikuid fraase ja kleepida need puhvrist, kasutades klahve Ctrl+V. Niipea kui kõnes pausi teeme, kuuleme kõnepuldi piiksumist, mis näitab, et fraas on tuvastatud ja lõikelauale kopeeritud. Sellel häälsisendiga töötamise meetodil on oma eelised: üksikute fraaside sisestamisel saate samaaegselt teksti täielikult redigeerida.

Variant nr 2

Neile, kes töötavad kontorikomplekti rakendustega, saab Microsoft pakkuda oma tööd häälsisendi juurutamisel – Dictate'i lisandmoodul, mis integreerib Wordi, Outlooki ja PowerPointi kõnetuvastustööriistaga täiendava menüü vahekaardi. Lisandmoodul suudab ära tunda kõne 20 keeles, sealhulgas vene keeles, ja võimaldab üheaegselt tõlkida teksti 60 keelde.

Teine tasuta viis teksti häälega sisestamiseks on kõne salvestamine helifaili koos täiendava automaatse transkriptsiooniga (tekstiks transkriptsioon). Peaaegu igaüks oskab koheselt väljendada oma mõtteid struktureeritud kirjakeeles ning samal ajal parandada äratundmisvigu ja lisada kirjavahemärke. Kõne salvestamisel diktofoni abil saate täielikult keskenduda esitatava materjali olemusele ning transkriptsiooni käigus saate kogu oma tähelepanu suunata selle materjali esitamise kõneosavusele ja kirjaoskusele. Kuid, sõbrad, helisalvestiste transkriptsiooni automatiseerimine on teise, eraldi artikli teema.

Jätkub artiklites:

Windowsi kõnetuvastuse puhul pole klaviatuuri ja hiire kasutamine vajalik. Selle asemel saate oma arvutit häälega juhtida ja teksti dikteerida.

Märge: kõnetuvastus on saadaval ainult järgmistes keeltes: inglise (USA ja Ühendkuningriik), prantsuse, hispaania, hiina, mandariini (lihtsustatud ja traditsiooniline hiina keel) ja saksa keel.

Kõnetuvastuse seadistamine opsüsteemis Windows 8.1

Enne kõnetuvastuse kasutamist peate läbima mitu sammu. Kõigepealt peate seadistama mikrofoni. Seejärel saab arvutit õpetada seda häält ära tundma.

Mikrofoni seadistamiseks

Enne kõnetuvastuse seadistamist veenduge, et mikrofon on arvutiga ühendatud.

  1. Sisestage tekst otsinguväljale Mikrofoni seaded Mikrofoni seaded.
  2. Järgige ekraanile ilmuvaid juhiseid.

Märge V: Võimaluse korral kasutage peakomplekti mikrofoni, kuna taustamüra vastuvõtmine on väiksem.

Kuidas õpetada arvutit kõnet ära tundma

Kõnetuvastusfunktsioon kasutab teie hääle ja häälkäskluste tuvastamiseks spetsiaalset profiili. Mida rohkem kõnetuvastust kasutate, seda üksikasjalikumaks muutub teie häälkäskluste profiil, mis võimaldab arvutil teid paremini mõista.

  1. Otsingupaneeli saab avada ka klaviatuuri abil, vajutades klahve Win + Q.
  2. Sisestage tekst otsinguväljale Kõnetuvastus ja seejärel vajutage klahvi või valige Kõnetuvastus.
  3. Klõpsake nuppu Õpetage arvutit.
  4. Järgige hääletuvastuse õppimisel juhiseid.

Kõnetuvastuse kasutamine

Saate oma häält kasutada mitme ülesande täitmiseks, näiteks veebivormide täitmiseks või tähtede tippimiseks. Kui räägite mikrofoni, muudab kõnetuvastus öeldud sõnad tekstiks, mis kuvatakse ekraanil.

Teksti dikteerimiseks Windows 8.1 kõnetuvastuse abil

  1. Libistage sõrm kiiresti ekraani paremast servast sissepoole ja seejärel puudutage otsinguriba. (Kui kasutate hiirt, valige ekraani parem ülanurk, liigutage hiirekursorit allapoole ja seejärel valige paneel Otsing.)
  2. Otsingupaneeli saab avada ka klaviatuuri abil, vajutades klahve Win + Q.
  3. Sisestage tekst otsinguväljale kõnetuvastus ja seejärel vajutage klahvi või valige Windowsi kõnetuvastus.
  4. Kuulamisrežiimi aktiveerimiseks öelge "start listening" või vajutage mikrofoni nuppu.
  5. Avage rakendus, mida soovite kasutada, või tõstke esile tekstiväli, mille jaoks soovite teksti dikteerida.
  6. Öelge tekst, mida soovite dikteerida.

Vigade parandamiseks

  • Vigu saab parandada kolmel erineval viisil.
    • Viimase öeldud fraasi parandamiseks öelge "palun paranda see".
    • Ühe sõna parandamiseks öelge "Paranda" ja seejärel sõna, mida soovite parandada. Kui sõna korratakse mitu korda, tõstetakse esile kõik selle eksemplarid ja saate valida eksemplari, mida soovite parandada.
    • Dialoogiboksis Alternatiivide paneelöelge vastava üksuse number ja seejärel öelge OK.

Sõnade lisamiseks või muutmiseks sõnastikus

Windows 8.1 kõnesõnastikuga saate lisada oma sõnu, blokeerida konkreetse sõna dikteerimise, sõnaraamatus olevat sõna täiustada või kustutada.

  1. Libistage sõrm kiiresti ekraani paremast servast sissepoole ja seejärel puudutage otsinguriba. (Kui kasutate hiirt, valige ekraani parem ülanurk, liigutage hiirekursorit alla ja seejärel valige paneel Otsing.)
  2. Otsingupaneeli saab avada ka klaviatuuri abil, vajutades klahve Win + Q.
  3. Sisestage tekst otsinguväljale kõnetuvastus ja seejärel vajutage klahvi või valige Windowsi kõnetuvastus.
  4. Kuulamisrežiimi aktiveerimiseks öelge "start listening" või vajutage mikrofoni nuppu.
  5. Öelge "Open Speech Dictionary" ja tehke ühte järgmistest.
    • Sõna sõnastikku lisamiseks öelge "Add new word", seejärel järgige ekraanil kuvatavaid juhiseid.
    • Konkreetse sõna dikteerimise vältimiseks öelge „Prevent word from bedictation” ja järgige ekraanil kuvatavaid juhiseid.

Juhtige oma arvutit kõnetuvastuse abil

Märge: kui peate kontrollima, milliseid käske saate kasutada, öelge: "Mida ma saan öelda?"

Et... Ütle seda...

Ava käivitusekraan

Avage paneeli funktsioonipaneel

Avage otsingupaneel

Kuva kõik rakendused

Rakendused

Alustage rakendusega

Paremklõpsake ja öelge Windows C

Kasutage rakendusi

Ütle, mida teha tahad. Näiteks määrake rakenduses Ilm Celsiuse kraadidele.

Valige mis tahes element, kasutades selle nime

Öelge fail; Start; Vaade

Valige mis tahes element või ikoon

Ütle Ostukorv; Öelge Arvuti; Ütle mulle faili nimi

Topeltklõpsake elemendil

Topeltklõpsake prügikasti; Topeltklõpsake nuppu Arvuti; Topeltklõpsake faili nimel

Avage rakendus

Viide värvile; Minge WordPadi; Minge programmi nimele; Mine rakendusse

Kerige soovitud suunas

Keri üles; Kerige alla; sooritage Kerimine vasakule; sooritama Kerige paremale

Sisestage dokumenti uus lõik või rida

Uus lõik; uus rida

Valige dokumendis sõna

Määra väljend

Valige sõna ja alustage selle parandamist

Parandage väljendit

Tõstke esile ja kustutage konkreetsed sõnad

Eemalda väljend

Kuvab käivitatavate käskude loendi

Mis ma ikka öelda saan?

Värskendage saadaolevate kõnekäskude loendit

Värskendage kõnekäske

Luba kuulamisrežiim

Hakka kuulama

Keela kuulamisrežiim

Lõpeta kuulamine

Mikrofonipaneeli, kõnetuvastusfunktsioonide teisaldamine

Liiguta kõnetuvastust

Minimeerige mikrofoni paneel

Ahenda kõnetuvastus

Vaadake ülesandepõhist Windowsi spikri ja toe sisu

Kuidas midagi teha?

Öelge midagi sellist nagu "Kuidas printerit installida?"

Pange tähele, et see käsk on saadaval ainult siis, kui kasutate USA inglise keele kõnetuvastust.

üritan luua dünaamilist kõnetuvastajat, kuid mingil põhjusel see ei tööta. Proovisin kasutada emuleerimise tuvastamise funktsiooni ja rakendus töötab hästi, kuid see ei tööta, kui ma räägin. see tähendab, et sõnaloend lisatakse õigesti ja kõne tuvastatud sündmus toimib õigesti, kuid seda ei kutsuta kunagi ilma emulaatorituvastuseta. igasugune abi oleks teretulnud. Allpool on kood im.

Süsteemi kasutamine; kasutades System.Collections.Generic; kasutades System.ComponentModel; kasutades System.Data; kasutades System.Drawing; kasutades System.Linq; kasutades System.Text; kasutades System.Threading.Tasks; kasutades System.Windows.Forms; kasutades System.Speech; kasutades System.Speech.Recognition; nimeruum HotKeyApp ( avalik osaline klass Vorm1: Vorm ( //initsialiseeri kõnetuvastaja SpeechRecognitionEngine sre = new SpeechRecognitionEngine(new System.Globalization.CultureInfo("en-US")); //initsialiseeri grammatika koostaja GrammarBuilder gb = new Grammar); /choices sisaldab sõnu esimesest veerust Valikud žargoon = new Choices(); //words sisaldavad massiivi valikustringi sõnade andmiseks; //Kõnetuvastuse grammatika on reeglite või piirangute kogum, mis määratlevad kõnetuvastuse mootor suudab ära tunda tähendusliku sisendi. Grammatika g; privaatsed sisendveerud = 2; privaatsed sisemised read; sõnastik kiirklahvid = new Dictionary(); public Form1() ( InitializeComponent(); ) private void Form1_Load(objekti saatja, EventArgs e) ( ) privaatne void SpeechRecognized(objekti saatja, SpeechRecognizedEventArgs e) ( MessageBox.Show("ping"); //sõnamassiivi tsükli rakendamiseks, kui vastekutse sobib meetodile (int i = 0; i< words.Length; i++) { if (e.Result.Text == words[i]) { MessageBox.Show(words[i]); } } } private void btnCreate_Click(object sender, EventArgs e) { //get number of rows/words rows = Convert.ToInt32(txtNum.Text); //words length is equal to number of rows words = new string; GenerateTable(columns, rows); } private void GenerateTable(int columnCount, int rowCount) { //Clear out the existing row and column styles myGridView.Rows.Clear(); myGridView.Columns.Clear(); myGridView.Columns.Add("WordColumn", "Word"); myGridView.Columns.Add("HotKeyColumn", "HotKey"); //loop as many times as need to create the rows for (int y = 0; y < rowCount; y++) { myGridView.Rows.Add(); } } private void btnSubmit_Click(object sender, EventArgs e) { int i = 0; foreach (DataGridViewRow r in myGridView.Rows) { string Instructions = r.Cells.Value.ToString(); string Command = r.Cells.Value.ToString(); HotKeys.Add(Instructions, Command); words[i] = Instructions; i++; } //give jargon the words array jargon.Add(words); //give the grammer builder the jargon choices gb.Append(jargon); //build grammer, load grammer, enable voice recognition g = new Grammar(gb); sre.RequestRecognizerUpdate(); sre.LoadGrammarAsync(g); sre.SpeechRecognized += new EventHandler(SpeechRecognized); //set sre to use default audio device sre.SetInputToDefaultAudioDevice(); sre.RecognizeAsync(RecognizeMode.Multiple); MessageBox.Show("Recognition enabled"); //Register a handler for the SpeechRecognized event. //sre.EmulateRecognize("Hello"); } } }

proovisin seda konsoolirakenduseks teisendada ja see tööle panna, kuid mul on seda vaja Windowsi vormirakenduses. siin on konsooli kood:

Klassiprogramm ( static SpeechRecognitionEngine sre; //words sisaldavad massiivi, mis annab valikutele staatilisi stringsõnu; static void Main(string args) ( //initialize kõnetuvastaja sre = new SpeechRecognitionEngine(new System.Globalization.CultureInfo("en-US ")); //initsialiseeri grammerikoostaja GrammarBuilder gb = new GrammarBuilder(); //valikud sisaldavad sõnu esimesest veerust Valikud žargoon = new Choices(); //Kõnetuvastuse grammatika on reeglite või piirangute kogum, mis määrake, mida kõnetuvastusmootor suudab tähendusliku sisestusena ära tunda. Grammatika g; stringi sisend; Console.WriteLine("Sisestussõnad eraldatud komaga,"); input = Console.ReadLine(); words = input.Split(new char ( " ," ), StringSplitOptions.RemoveEmptyEntries); foreach (string s sõnades) ( Console.WriteLine(s); ) Console.ReadKey(); //anna žargoonile sõnad array žargoon.Add(words); //anna grammatika žargooni valikute koostamine gb.Append(žargon) //grammatika koostamine, grammatika laadimine, hääletuvastuse lubamine g = new Grammar(gb); sre.RequestRecognizerUpdate(); sre.LoadGrammarAsync(g); //seadke sre kasutama vaikeheliseadet sre.SetInputToDefaultAudioDevice(); sre.SpeechRecognized += new EventHandler(SpeechRecognized); sre.RecognizeAsync(RecognizeMode.Multiple); Console.ReadLine(); ) static void SpeechRecognized(objekti saatja, SpeechRecognizedEventArgs e) ( Console.WriteLine("Tunnustatud sõna"); //sõnamassiivi tsükli rakendamiseks, kui vastekutse on sobiv meetod (int i = 0; i< words.Length; i++) { if (e.Result.Text == words[i]) { Console.WriteLine(words[i]); } } } }

  • Tõlge

Pärast seda, kui süvaõpe sisenes kõnetuvastusmaastikku, on sõnade tuvastamise vigade arv dramaatiliselt vähenenud. Kuid hoolimata kõigist artiklitest, mida olete lugenud, pole meil ikkagi inimtasandi kõnetuvastust. Kõnetuvastajatel on palju rikkerežiime. Edasiseks parandamiseks tuleb need tuvastada ja püüda kõrvaldada. See on ainus viis liikuda tunnustusest, mis töötab enamiku inimeste jaoks, tunnustuseni, mis töötab kõigi inimeste jaoks kogu aeg.

Valesti tuvastatud sõnade arvu paranemine. Testhäälekomplekt koguti 2000. aastal telefonikommutaatorile 40 juhuslikust vestlusest kahe inimese vahel, kelle emakeel oli inglise keel.

Öelda, et oleme saavutanud inimtasandi kõnetuvastuse vestlustes, mis põhinevad vaid telefonikilbist tulnud vestluste komplektil, on sama, mis öelda, et robotauto juhib sama hästi kui inimene, olles seda katsetanud ühes linnas päikesepaistelisel ajal. päev ilma liikluseta.. Viimase aja arengud kõnetuvastuses on üllatavad. Kuid väited inimtasandi kõnetuvastuse kohta on liiga julged. Siin on mõned valdkonnad, mida tuleb veel parandada.

Aktsendid ja müra

Üks kõnetuvastuse ilmsetest puudustest on töötlemine aktsendid ja taustamüra. Selle peamiseks põhjuseks on see, et suurem osa treeningandmetest koosneb kõrge signaali-müra suhtega Ameerika kõnest. Näiteks sisaldab telefonikommutaatori vestluste komplekt ainult nende inimeste vestlusi, kelle emakeel on inglise keel (enamasti ameeriklased), vähese taustamüraga.

Kuid koolitusandmete suurendamine üksi seda probleemi tõenäoliselt ei lahenda. Seal on palju keeli, mis sisaldavad palju dialekte ja aktsente. Kõigi juhtumite kohta märgistatud andmete kogumine on ebareaalne. Ainuüksi Ameerika inglise keele jaoks kvaliteetse kõnetuvastaja loomiseks on vaja kuni 5 tuhat tundi tekstiks tõlgitud helisalvestisi.


Inimese kõne-teksti muundurite võrdlus Baidu Deep Speech 2-ga erinevate kõnetüüpide puhul. Inimesed tunnevad halvemini ära mitte-Ameerika aktsente, võib-olla ameeriklaste rohkuse tõttu nende hulgas. Arvan, et teatud piirkonnas üles kasvanud inimestel oleks selle piirkonna aktsendi äratundmisel palju vähem vigu.

Liikuva auto taustamüra korral võib signaali-müra suhe ulatuda väärtuseni -5 dB. Inimesed tulevad sellistes tingimustes kergesti toime teise inimese kõne äratundmisega. Automaatsed tuvastajad halvenevad müra suurenedes palju kiiremini. Graafik näitab, kui palju inimestevaheline lõhe suureneb müra (madala SNR-i, signaali-müra suhte) väärtuste suurenedes.

Semantilised vead

Sageli ei ole valesti tuvastatud sõnade arv kõnetuvastussüsteemi eesmärk omaette. Sihime semantiliste vigade arvu. See on nende väljendite osakaal, mille tähendust me valesti tunneme.

Semantilise vea näide on see, kui keegi soovitab "kohtume teisipäeval" ja lahendaja tagastab "kohtume täna". Sõnades esineb ka vigu ilma semantiliste vigadeta. Kui äratundja "üles" ära ei tundnud ja tagastas "kohtume teisipäeval", siis lause semantika ei muutunud.

Peame kriteeriumina hoolikalt kasutama valesti tuvastatud sõnade arvu. Selle illustreerimiseks toon teile näite halvima võimaliku juhtumi kohta. 5% sõnade vigadest vastab ühele puuduvale sõnale 20-st. Kui igas lauses on 20 sõna (mis on inglise keele kohta üsna keskmine), siis valesti tuvastatud lausete arv läheneb 100%-le. Võib loota, et valesti äratuntud sõnad ei muuda lausete semantilist tähendust. Vastasel juhul võib äratundja iga lause valesti dešifreerida isegi 5% valesti tuvastatud sõnade arvuga.

Mudelite võrdlemisel inimestega on oluline kontrollida vigade olemust ja jälgida mitte ainult valesti tuvastatud sõnade arvu. Minu kogemuse kohaselt teevad inimesed, kes tõlgivad kõne tekstiks, vähem vigu ja need pole nii tõsised kui arvutite tehtud vead.

Microsofti teadlased võrdlesid hiljuti inimeste ja arvutituvastajate sarnase tasemega vigu. Üks leitud erinevusi seisneb selles, et mudel ajab sõna "uh" [uh-uh...] segamini "uhh" [uh-huh] palju sagedamini kui inimesed. Nendel kahel terminil on väga erinev semantika: "uh" täidab pause, samas kui "uh huh" tähistab kuulaja kinnitust. Samuti leiti palju sama tüüpi vigu mudelites ja inimestes.

Palju hääli ühes kanalis

Salvestatud telefonivestlusi oli ka lihtsam ära tunda, sest iga kõneleja salvestati eraldi mikrofoni. Ühes helikanalis ei kattu mitu häält. Inimesed saavad aru mitmest kõnelejast, mõnikord räägivad nad korraga.

Hea kõnetuvastaja peaks suutma jagada helivoo segmentideks, olenevalt kõnelejast (selle puhul tuleb diariseerida). Samuti peab ta tähenduse eraldama kahe kattuva häälega helisalvestisest (allika eraldamine). Seda tuleb teha ilma mikrofonita, mis asub otse iga kõlari suus, st et tuvastaja töötaks hästi, kui see suvalises kohas asetada.

Salvestuskvaliteet

Rõhud ja taustmüra on vaid kaks tegurit, millele kõnetuvastaja peab vastu pidama. Siin on veel mõned:

Reverberatsioon erinevates akustilistes tingimustes.
Seadmetega seotud artefaktid.
Signaali salvestamiseks ja tihendamiseks kasutatava koodeki artefaktid.
Proovivõtu sagedus.
Kõneleja vanus.

Enamik inimesi ei suuda mp3- ja wav-salvestustel vahet teha. Enne kui nad saavad nõuda inimeste omaga võrreldavat jõudlust, peavad tuvastajad muutuma nende variatsiooniallikate suhtes vastupidavaks.

Kontekst

Võib-olla märkate, et telefonijaamast tehtud salvestustel on inimeste poolt testimise ajal tehtud vigu üsna palju. Kui räägiksite sõbraga, kes ei saanud aru ühest sõnast 20-st, oleks teil väga raske suhelda.

Selle üheks põhjuseks on tunnustamine ilma konteksti arvestamata. Päriselus kasutame palju erinevaid lisavihjeid, mis aitavad meil mõista, mida teine ​​inimene räägib. Mõned näited inimeste kasutatavast kontekstist, mida kõnetuvastajad ignoreerivad:

Vestluse ajalugu ja käsitletav teema.
Visuaalsed vihjed kõneleja kohta – näoilmed, huulte liigutused.
Teadmiste kogum inimese kohta, kellega me räägime.

Tänapäeval on Androidi kõnetuvastil teie kontaktide loend, et see tuvastaks teie sõprade nimed. Kaartide häälotsing kasutab geograafilist asukohta, et kitsendada valikuid, milleni soovite juhiseid hankida.

Tuvastamissüsteemide täpsus suureneb selliste signaalide kaasamisel andmetesse. Kuid me alles hakkame süvenema sellesse, millist tüüpi konteksti võiksime töötlusse kaasata ja kuidas seda kasutada.

Kasutuselevõtt

Viimaseid edusamme kõnekeele tuvastamisel ei saa lahti rullida. Kõnetuvastusalgoritmi juurutamise ette kujutades peate silmas pidama latentsust ja töötlemisvõimsust. Need parameetrid on omavahel seotud, kuna võimsusvajadust suurendavad algoritmid suurendavad ka latentsust. Kuid lihtsuse huvides käsitleme neid eraldi.

Latentsus: aeg kasutaja kõne lõpust kuni transkriptsiooni kättesaamise lõpuni. Väike viivitus on tunnustamise tüüpiline nõue. See mõjutab suuresti kasutaja kogemust tootega töötamisel. Kümnete millisekundite piirangud on tavalised. See võib tunduda liiga piirav, kuid pidage meeles, et ärakirja koostamine on tavaliselt keerukate arvutuste seeria esimene samm. Näiteks Interneti-häälotsingu puhul peab pärast kõnetuvastust olema veel aega otsingu tegemiseks.

Kahesuunalised korduvad kihid on tüüpiline näide täiustusest, mis muudab latentsusaega hullemaks. Nende abiga saadakse kõik viimased kvaliteetsed transkriptsioonitulemused. Ainus probleem on selles, et me ei saa pärast esimese kahesuunalise kihi läbimist midagi lugeda enne, kui inimene on rääkimise lõpetanud. Seetõttu suureneb viivitus lause pikkusega.


Vasakul: otsene kordumine võimaldab dekrüpteerimist kohe alustada. Paremal: kahesuunaline kordumine nõuab enne transkribeerimise alustamist ootamist kõne lõpuni.

Endiselt otsitakse head võimalust tulevase teabe tõhusaks kaasamiseks kõnetuvastusse.

Arvutusvõimsus: seda parameetrit mõjutavad majanduslikud piirangud. Iga tuvastaja täpsuse parandamise puhul tuleb arvestada banketi maksumusega. Kui parandus ei jõua majandusliku läveni, siis seda ei rakendata.

Klassikaline näide pidevast täiustamisest, mida kunagi kasutusele ei võeta, on koostööpõhine süvaõpe. Vigade arvu vähendamine 1–2% võrra õigustab harva arvutusvõimsuse suurendamist 2–8 korda. Sellesse kategooriasse kuuluvad ka korduvate võrkude kaasaegsed mudelid, kuna neid on trajektooride otsimisel väga kahjumlik kasutada, kuigi arvan, et olukord tulevikus muutub.

Tahan selgitada, et ma ei väida, et tuvastustäpsuse parandamine arvutuskulude olulise suurenemisega on kasutu. Oleme juba näinud, kuidas toimib põhimõte „kõigepealt aeglaselt, kuid kindlalt, siis kiiresti”. Asi on selles, et kuni paranemine pole piisavalt kiire, ei saa seda kasutada.

Järgmise viie aasta jooksul

Kõnetuvastuse valdkonnas on veel palju lahendamata ja keerulisi probleeme. Nende hulgas:

Uute andmesalvestussüsteemide võimaluste laiendamine, aktsentide äratundmine, kõne tugeva müra taustal.
Konteksti kaasamine äratundmisprotsessi.
Diariseerimine ja allika eraldamine.
Semantiliste vigade arv ja uuenduslikud meetodid äratundjate hindamiseks.
Väga madal latentsusaeg.

Ootan huviga edusamme, mida nendel ja muudel rindel järgmise viie aasta jooksul tehakse.

Sildid: lisa sildid