Teksta un runas atpazīšanas funkcijas, manuprāt, ir viens no ērtākajiem Windows 8.1 pieejamības līdzekļiem. Un ne tikai ērti, bet arī viegli uzstādīt. Patiesībā Windows 8.1 diezgan labi atpazīst rokrakstu ar noklusējuma iestatījumiem, taču, ja jūs tas neapmierina, varat veikt papildu apmācību.

Atveriet opciju sadaļu " Valoda"Vadības panelī iezīmējiet valodu, kuru vēlaties apgūt, un noklikšķiniet uz saites" Iespējas"viņa labajā pusē.

Parādīsies apmācības logs. Šeit varat izvēlēties vajadzīgo darbību: atkārtoti apmācīt Windows, ja tā rada noteiktas teksta atpazīšanas kļūdas, vai iemācīt tai tieši jūsu rokrakstu. Ņemiet vērā, ka otrajai iespējai var būt gara mācīšanās līkne.

Runas atpazīšana operētājsistēmā Windows 8.1.

Operētājsistēmā Windows 8.1 varat vadīt datoru ar balsi, izmantojot planšetdatorā, klēpjdatorā vai ultrabook datorā iebūvēto mikrofonu vai ārējās austiņas. Runas atpazīšanas opcijai var piekļūt no sākuma ekrāna, meklēšanas joslā ierakstot runas atpazīšanu, kur jums tiks jautāts, kuru audio ierīci vēlaties izmantot.

Tālāk jums tiks uzdota virkne jautājumu, pēc kuriem jums tiks lūgts izlasīt apmācības rokasgrāmatu. Veicot šajā rokasgrāmatā norādītās darbības, Windows apgūšana būs daudz vienkāršāka. Labāk ir veltīt kādu laiku un apmācīt sistēmu Windows 8.1 atpazīt jūsu konkrēto runu.

Jums tiks piedāvāts apskatīt palīdzību, kuras izdruka var būt ļoti noderīga, lai atcerētos dažādas balss komandas. Darbības laikā runas atpazīšanas ierīce peld uz darbvirsmas, un to var piestiprināt ekrāna augšdaļā vai apakšā.

Būtībā runas atpazīšanas programma operētājsistēmā Windows 8.1 darbojas lieliski.

Piekļuve visām runas atpazīšanas ierīces vadīklām ir vienkārša, vienkārši ar peles labo pogu noklikšķiniet uz tās loga.

Tur jūs redzēsiet iespējas turpināt ierīces apmācību, konfigurējot gan to, gan mikrofonu.

Pamata runas atpazīšanas vadīklas:

  • Palaidiet pēc programmas nosaukuma, piemēram, vārdiem Kalkulators, Word vai Excel, palaidiet atbilstošo programmu
  • Pārslēdzieties pēc programmas nosaukuma, pārslēdzas uz programmu, ja tā jau darbojas.
  • Varat kontrolēt programmas, kurām ir nolaižamās izvēlnes, pasakot izvēlnes nosaukumu un pēc tam vēlamās opcijas nosaukumu. Šis līdzeklis darbojas arī ar lentes vadīklām operētājsistēmā Windows 8.1, Microsoft Office un citās programmās, kurās tās tiek izmantotas.
  • Rādīt numurus parāda ciparus, kas uzlikti uz vadīklām, kurus vēlāk var nosaukt, lai tos aktivizētu.
  • Tīmekļa lapā varat sekot saitei, vienkārši nosaucot to; piemēram, sazinieties ar mums.
  • Varat aktivizēt noklikšķināšanu uz elementa, sakot dubultklikšķi vai alternatīvi ar peles labo pogu noklikšķinot uz konkrēta elementa; piemēram, veiciet dubultklikšķi uz grozu.
  • Start Listening/Stop, ieslēdz vai izslēdz runas atpazīšanas sistēmu.
  • Ko es varu teikt? Parādīs palīdzību.
  • Show Speech Options, parāda runas atpazīšanas ierīces opciju sarakstu; pieejams arī ar peles labo pogu noklikšķiniet.
  • Rādīt/slēpt runas atpazīšanu, runas atpazīšanas ierīce tiks minimizēta sistēmas teknē vai atgriezta darbvirsmā.

Ja runas atpazīšanas ierīce kaut ko neatpazīst, tā parāda " Alternatīvu panelis”, kas satur vislabākos minējumus par teikto. Varat izvēlēties kādu no tiem, pasakot numuru pa kreisi no pareizā elementa. Tas arī palīdzēs apmācīt Windows 8.1 runas atpazīšanas sistēmas.

Izmantojot teksta un runas atpazīšanas funkcijas, jūs ievērojami atvieglosit savu darbu, padarot to ērtāku un ātrāku. Piemēram, rokraksta funkcija ļauj ievadīt tekstu ar roku, kas ir ļoti ērti mobilajās ierīcēs. Un runas atpazīšana, kontrolējiet datoru ar balsi.

Draugi, kādu dienu mēs apskatījām vienu no jauninājumiem, ko operētājsistēmā Windows 10 ieviesa Fall Creators Update - . Microsoft sola turpmāk atbalstīt balss ievadi krievu valodā, taču neprecizē, vai šī nākotne ir tuvāka vai tālāka pārskatāmā nākotnē. Varbūt tas būs tad, kad Cortana varēs runāt un, pats galvenais, saprast krievu valodu. Nav jēgas gaidīt, kamēr Microsoft iemācīs Windows 10 saprast mūsējo. Ja kaut kas nav pašā sistēmas vidē, to gandrīz vienmēr var ieviest, izmantojot trešās puses programmatūru. Patiesībā mēs par tiem runāsim šajā rakstā. Tālāk aplūkosim dažādus veidus, kā izmantot klēpjdatorā iebūvēto vai datoram pievienoto mikrofonu, lai ar balsi ievadītu meklēšanas vaicājumus un diktētu dokumentu tekstus.

1. “Ok Alice” un Google balss meklēšana meklēšanas vaicājumiem

Nav skaidrs, kāpēc Google vēl nav integrējis šo tehnoloģiju YouTube saskarnē. Bet jebkurā gadījumā jūs varat meklēt videoklipus pašā meklētājprogrammā, izrunājot galvenos vaicājumus. Jums vienkārši jāpārslēdzas uz cilni “Video” meklēšanas rezultātos. Acīmredzamu iemeslu dēļ lielākā daļa meklēšanas rezultātu joprojām būs pakalpojumā YouTube.

Tiem, kuri jau ir paspējuši ar to iepazīties, pārlūkprogrammas logā nav jādodas uz meklētājprogrammas vietni. Pēc programmas instalēšanas tieši Windows uzdevumjoslā parādīsies Yandex meklēšanas lauks ar iespēju ievadīt vaicājumus ar balsi. Un Alise varēs atbildēt uz retiem vienkāršiem jautājumiem bez meklētājprogrammas, nepārsniedzot savu dialoglodziņu.

2. Web pakalpojuma Web Speech API no Google

Web Speech API tehnoloģijai, ar kuras palīdzību Google meklētājprogrammā tiek ieviesta vaicājumu balss ievade, ir savs tīmekļa interfeiss adresē:

https://www.google.com/intl/ja/chrome/demos/speech.html

Pakalpojuma funkcionalitāte ir minimālistiska: tajā ir poga mikrofona ieslēgšanai un rezultāta lauks, kurā pēc tam tiks parādīts atpazītais teksts.

Taču jūs nevarat veikt labojumus šajā rezultātu laukā. Rezultātā mēs iegūstam atpazīšanas rezultātus tādus, kādi tie ir. Un mēs tos varam rediģēt tikai kaut kādā teksta redaktorā vai datu ievades formā. Poga zem rezultātu lauka “Kopēt un ielīmēt” pabeidz pašreizējo ievades sesiju un automātiski ievieto iezīmēšanas bloku visam atpazītajam tekstam. Tas tiek darīts, lai atvieglotu kopēšanu starpliktuvē.

Atpazītam tekstam ir pieejama cita opcija, ko īsteno ar e-pasta izveides pogu. Tas palaiž Windows vidē pēc noklusējuma instalēto e-pasta klientu, izveido jaunu burtu un pārsūta tajā atpazīto tekstu.

Jāatzīmē, ka Web Speech API var atpazīt dažas pieturzīmes, vismaz punktu un komatu. Tātad diktātu laikā vietās, kur tiek ievietoti punkti un komatus, jūs varat tos vienkārši izrunāt.

Tā kā rezultātu laukā nav iespējams rediģēt tekstu, Web Speech API izmantošana nav īpaši ērta liela apjoma teksta rakstīšanai. Gariem diktātiem labāk izmantot pakalpojuma Google Docs tīmekļa saskarni, kurā ir iebūvēta Web Speech API tehnoloģija. Google dokumentos varat ievadīt tekstu ar balsi, nekavējoties rediģēt un formatēt dokumentu.

3. “Balss piezīmju grāmatiņa” vietnē Speechpad.Ru

Cita vietne, kuras pamatā ir Web Speech API tehnoloģija, ir vispopulārākais un funkcionālākais balss ievades pakalpojums RuNet, “Balss piezīmju bloks”. Starp tās galvenajām funkcijām:

  • Atbalsta vairākas valodas, tostarp krievu un ukraiņu;
  • Iegūtais balss atpazīšanas lauks ar iespēju rediģēt tekstu, tulkot to citās valodās un augšupielādēt rezultātus TXT failā;
  • Atpazīto frāžu izvadīšana starpliktuvē;
  • Transkripcija;
  • Integrācija Chromium pārlūkprogrammas tīmekļa veidlapās;
  • Integrācija Windows un Linux vidēs.

Turklāt “Balss piezīmju blokā” balss ievades opcija tiek ieslēgta un izslēgta, tikai nospiežot atbilstošo pogu. Šī opcija pati par sevi netiek deaktivizēta, tiklīdz mēs kādu laiku domājam, meklējot precīzu domas formulējumu, kā tas notiek citos pakalpojumos, kuru pamatā ir Web Speech API.

Un mēs izsekojam atpazīto tekstu iegūtajā laukā.

4. Speechpad integrēšana pārlūkprogrammas tīmekļa veidlapās

Pēc šī paplašinājuma ieviešanas tīmekļa teksta ievades veidlapu konteksta izvēlnē parādīsies vienums “Runas tastatūra”. Nospiediet šo pogu un runājiet mikrofonā. Tādā veidā mēs, piemēram, varam diktēt piezīmes pakalpojumā Google Keep.

5. Speechpad integrācija Windows vidē

Web pakalpojuma Voice Notepad iespējas var integrēt Windows vidē. Un ierakstiet tekstu ar balsi jebkurā operētājsistēmas programmā - standarta notepad, Microsoft Word un citos teksta redaktoros. Atpazītā runa tiks ievietota tieši rediģētajos dokumentos bez tīmekļa pakalpojumu vai starpliktuves starpniecības. Tomēr šī Speechpad.Ru funkcija nav bezmaksas, un tā maksā 100 rubļus. mēnesī. Tiek nodrošinātas taupīšanas iespējas: ja maksājat par pakalpojumiem uzreiz par ceturksni, izmaksas būs 250 rubļu, un priekšapmaksa par gadu maksās 800 rubļu. Katrs reģistrētais lietotājs vispirms var pārbaudīt savā operētājsistēmas vidē integrēto pakalpojuma funkcionalitāti. Speechpad.Ru veidotāji piedāvā divu dienu izmēģinājuma periodu bez maksas. Kā Voice Notepad tiek tieši integrēts operētājsistēmās, jo īpaši Windows, ir detalizēti aprakstīts pašas Speechpad.Ru vietnē. Noklikšķiniet uz jautājuma zīmes blakus integrācijas opcijai.

Un mēs veicam visas instrukcijās aprakstītās darbības:

  • Instalējiet iepriekš minēto pakalpojuma paplašinājumu;
  • Lejupielādējiet integrācijas failu paketi;
  • Izpakojiet arhīvu un palaidiet failu install_host.bat;
  • Vietnē Speechpad.Ru mēs ejam uz lietotāja kontu;

Noklikšķiniet uz pogas “Iespējot pārbaudes periodu”.

Un tā katru reizi, kad jāaktivizē balss ievade. Tas arī viss, patiesībā. Tagad varat atvērt Microsoft Word, LibreOffice Writer un citus teksta redaktorus un sākt diktēt. Atpazītais teksts parādīsies jebkuras aktīvās lietojumprogrammas logā, kas atbalsta datu ievadi.

Svarīgi: lai izmantotu sistēmā integrēto Speechpad, pārlūkprogrammas logā nevar aizvērt tā vietnes cilni. Aizverot pēdējo, tiek deaktivizēta balss ievade.

5. Bezmaksas alternatīvas balss ievades integrēšanai Windows vidē

Kādas bezmaksas alternatīvas varētu būt krievu valodas balss ievades integrēšanai Windows vidē?

Variants #1

Pilnīgi bez maksas Speechpad.Ru vietnē varat izmantot iespēju atpazīto runu izvadīt starpliktuvē. Noklikšķiniet uz pogas "Iespējot ierakstīšanu" vietnē un dodieties uz jebkuru Windows lietojumprogrammu.

Tagad mēs varam izrunāt atsevišķas frāzes un ielīmēt tās no bufera, izmantojot taustiņus Ctrl+V. Tiklīdz mēs pauzēsim runu, mēs dzirdēsim Speechpad čīkstēšanu, kas norāda, ka frāze ir atpazīta un kopēta starpliktuvē. Šai metodei darbam ar balss ievadi ir savas priekšrocības: ievietojot atsevišķas frāzes, vienlaikus varat pilnībā rediģēt tekstu.

Variants Nr.2

Tiem, kas strādā ar biroja komplekta lietojumprogrammām, Microsoft var piedāvāt savu darbu pie balss ievades ieviešanas - Dictate pievienojumprogrammas, kas integrē papildu izvēlnes cilni ar runas atpazīšanas rīku programmās Word, Outlook un PowerPoint. Papildinājums var atpazīt runu 20 valodās, tostarp krievu valodā, un ļauj vienlaikus tulkot tekstu 60 valodās.

Vēl viens bezmaksas veids, kā ievadīt tekstu ar balsi, ir ierakstīt runu audio failā ar turpmāku automātisku transkripciju (transkripciju tekstā). Gandrīz katrs var uzreiz izteikt savas domas strukturētā literārā valodā un vienlaikus labot atpazīšanas kļūdas un pievienot pieturzīmes. Ierakstot runu diktofonā, jūs varat pilnībā koncentrēties uz prezentējamā materiāla būtību un transkripcijas procesā visu savu uzmanību pievērst šī materiāla prezentācijas daiļrunībai un lasītprasmei. Bet, draugi, audioierakstu transkripcijas automatizācija ir tēma citam, atsevišķam rakstam.

Turpinājums rakstos:

Izmantojot runas atpazīšanu operētājsistēmā Windows, tastatūras un peles lietošana nav nepieciešama. Tā vietā varat vadīt datoru ar balsi un diktēt tekstu.

Piezīme: runas atpazīšana ir pieejama tikai šādās valodās: angļu (ASV un Apvienotajā Karalistē), franču, spāņu, ķīniešu, mandarīnu (vienkāršotā un tradicionālā ķīniešu) un vācu valodā.

Runas atpazīšanas iestatīšana operētājsistēmā Windows 8.1

Lai varētu izmantot runas atpazīšanu, ir jāveic vairākas darbības. Vispirms jums ir jāiestata mikrofons. Pēc tam datoru var apmācīt atpazīt šo balsi.

Lai iestatītu mikrofonu

Pirms runas atpazīšanas iestatīšanas pārliecinieties, vai mikrofons ir pievienots datoram.

  1. Ievadiet tekstu meklēšanas laukā Mikrofona iestatījumi Mikrofona iestatījumi.
  2. Izpildiet ekrānā redzamos norādījumus.

Piezīme A: Ja iespējams, izmantojiet austiņu mikrofonu, jo ir mazāka iespēja uztvert fona troksni.

Kā apmācīt datoru atpazīt runu

Runas atpazīšanas funkcija izmanto īpašu profilu, lai atpazītu jūsu balsi un balss komandas. Jo vairāk izmantojat runas atpazīšanu, jo detalizētāks kļūst jūsu balss komandu profils, ļaujot datoram jūs labāk saprast.

  1. Meklēšanas paneli var atvērt arī, izmantojot tastatūru, nospiežot taustiņus Win + Q.
  2. Ievadiet tekstu meklēšanas laukā Runas atpazīšana un pēc tam nospiediet taustiņu vai atlasiet Runas atpazīšana.
  3. Noklikšķiniet uz pogas Mācīt datoru.
  4. Apgūstot balss atpazīšanu, izpildiet norādījumus.

Runas atpazīšanas izmantošana

Varat izmantot savu balsi, lai veiktu vairākus uzdevumus, piemēram, aizpildītu veidlapas tiešsaistē vai rakstītu burtus. Kad runājat mikrofonā, runas atpazīšana maina izrunātos vārdus tekstā, kas parādās ekrānā.

Lai diktētu tekstu, izmantojot Windows 8.1 runas atpazīšanu

  1. Ātri velciet pirkstu uz iekšu no ekrāna labās malas un pēc tam pieskarieties meklēšanas joslai. (Ja izmantojat peli, atlasiet ekrāna augšējo labo stūri, pārvietojiet peles rādītāju uz leju un pēc tam atlasiet meklēšanas paneli.)
  2. Meklēšanas paneli var atvērt arī, izmantojot tastatūru, nospiežot taustiņus Win + Q.
  3. Ievadiet tekstu meklēšanas laukā runas atpazīšana un pēc tam nospiediet taustiņu vai atlasiet Windows runas atpazīšana.
  4. Sakiet “sākt klausīties” vai nospiediet mikrofona pogu, lai aktivizētu klausīšanās režīmu.
  5. Atveriet lietojumprogrammu, kuru vēlaties izmantot, vai iezīmējiet teksta lauku, kuram vēlaties diktēt tekstu.
  6. Sakiet tekstu, kuru vēlaties diktēt.

Lai labotu kļūdas

  • Kļūdas var labot trīs dažādos veidos.
    • Lai labotu pēdējo izrunāto frāzi, sakiet “lūdzu, izlabojiet šo”.
    • Lai uzlabotu vienu vārdu, sakiet “Pareizi” un pēc tam sakiet vārdu, kuru vēlaties labot. Ja vārds tiek atkārtots vairākas reizes, visi tā gadījumi tiks izcelti un jūs varat atlasīt gadījumu, kuru vēlaties uzlabot.
    • Dialoglodziņā Alternatīvu panelis pasakiet atbilstošā vienuma numuru un pēc tam sakiet OK.

Lai pievienotu vai mainītu vārdus vārdnīcā

Izmantojot Windows 8.1 runas vārdnīcu, varat pievienot savus vārdus, bloķēt iespēju diktēt konkrētu vārdu, uzlabot vārdu vārdnīcā vai dzēst to.

  1. Ātri velciet pirkstu uz iekšu no ekrāna labās malas un pēc tam pieskarieties meklēšanas joslai. (Ja izmantojat peli, atlasiet ekrāna augšējo labo stūri, pārvietojiet peles rādītāju uz leju un pēc tam atlasiet meklēšanas paneli.)
  2. Meklēšanas paneli var atvērt arī, izmantojot tastatūru, nospiežot taustiņus Win + Q.
  3. Ievadiet tekstu meklēšanas laukā runas atpazīšana un pēc tam nospiediet taustiņu vai atlasiet Windows runas atpazīšana.
  4. Sakiet “sākt klausīties” vai nospiediet mikrofona pogu, lai aktivizētu klausīšanās režīmu.
  5. Sakiet "Open Speech Dictionary" un veiciet kādu no šīm darbībām:
    • Lai vārdnīcai pievienotu vārdu, sakiet “Pievienot jaunu vārdu”, pēc tam izpildiet ekrānā redzamos norādījumus.
    • Lai novērstu konkrēta vārda diktēšanu, sakiet “Prevent word from dictated” un pēc tam izpildiet ekrānā redzamos norādījumus.

Kontrolējiet datoru, izmantojot runas atpazīšanu

Piezīme: Ikreiz, kad jums jāpārbauda, ​​kuras komandas varat izmantot, sakiet: “What can I say?”

Uz... Pasaki...

Atveriet palaišanas ekrānu

Atveriet paneļa funkciju paneli

Atveriet meklēšanas paneli

Rādīt visas lietojumprogrammas

Lietojumprogrammas

Sāciet darbu ar lietojumprogrammu

Ar peles labo pogu noklikšķiniet un sakiet Windows C

Izmantojiet lietotnes

Sakiet, ko vēlaties darīt. Piemēram, lietotnē Laikapstākļi mainiet uz grādiem pēc Celsija.

Atlasiet jebkuru elementu, izmantojot tā nosaukumu

Sakiet Fails; Sākt; Skatīt

Atlasiet jebkuru elementu vai ikonu

Sakiet grozs; Sakiet Dators; Pastāstiet man faila nosaukumu

Veiciet dubultklikšķi uz elementa

Veiciet dubultklikšķi uz Trash; Veiciet dubultklikšķi uz Dators; Veiciet dubultklikšķi uz faila nosaukuma

Dodieties uz atvērto lietojumprogrammu

Atsauce uz Paint; Dodieties uz WordPad; Dodieties uz programmas nosaukumu; Dodieties uz pieteikumu

Ritiniet vajadzīgajā virzienā

Ritināt uz augšu; Ritināt uz leju; veikt ritināšanu pa kreisi; veikt Ritiniet pa labi

Ievietojiet dokumentā jaunu rindkopu vai rindiņu

Jauna rindkopa; jauna līnija

Izvēlieties vārdu dokumentā

Iestatiet izteiksmi

Izvēlieties vārdu un sāciet to labot

Izlabojiet izteiksmi

Iezīmējiet un izdzēsiet konkrētus vārdus

Noņemt izteiksmi

Parādiet to komandu sarakstu, kuras var izpildīt

Ko es varu teikt?

Atjauniniet pieejamo runas komandu sarakstu

Atjauniniet runas komandas

Iespējot klausīšanās režīmu

Sāciet klausīties

Atspējot klausīšanās režīmu

Beidz klausīties

Pārvietot mikrofona paneli, runas atpazīšanas funkcijas

Pārvietot runas atpazīšanu

Samaziniet mikrofona paneli

Sakļaut runas atpazīšanu

Skatiet uzdevumu specifisko Windows palīdzības un atbalsta saturu

Kā kaut ko darīt?

Sakiet kaut ko līdzīgu: "Kā instalēt printeri?"

Ņemiet vērā, ka šī komanda ir pieejama tikai tad, ja izmantojat runas atpazīšanu ASV angļu valodā.

es mēģinu izveidot dinamisku runas atpazīšanas ierīci, bet kaut kādu iemeslu dēļ tas nedarbojas. Es mēģināju izmantot emulatora atpazīšanas funkciju, un lietotne darbojas labi, taču tā nedarbojas, kad es runāju. tas nozīmē, ka vārdu saraksts ir pievienots pareizi un runas atpazīšanas notikums darbojas pareizi, taču tas nekad netiek izsaukts bez emulatora atpazīšanas. jebkura palīdzība būtu pateicīga. Zemāk ir kods im.

Sistēmas izmantošana; izmantojot System.Collections.Generic; izmantojot System.ComponentModel; izmantojot System.Data; izmantojot System.Drawing; izmantojot System.Linq; izmantojot System.Text; izmantojot System.Threading.Tasks; izmantojot System.Windows.Forms; izmantojot System.Speech; izmantojot System.Speech.Recognition; namespace HotKeyApp ( publiska daļēja klase Form1: Form ( //inicializēt runas atpazīšanas līdzekli SpeechRecognitionEngine sre = new SpeechRecognitionEngine(new System.Globalization.CultureInfo("en-US")); //inicializēt gramatikas veidotāju GrammarBuilder gb = new GrammarBuilder(GrammarBuilder); /choices saturēs vārdus no pirmās kolonnas Izvēles žargons = new Choices(); //words ietvers masīvu, lai sniegtu izvēles virknes vārdus; //Runas atpazīšanas gramatika ir noteikumu vai ierobežojumu kopa, kas nosaka runas atpazīšanas programma var atpazīt kā jēgpilnu ievadi. Gramatika g; privātās int kolonnas = 2; privātās iekšējās rindas; Vārdnīca HotKeys = new Dictionary(); public Form1() ( InitializeComponent(); ) private void Form1_Load(objekta sūtītājs, EventArgs e) ( ) private void SpeechRecognized(objekta sūtītājs, SpeechRecognizedEventArgs e) ( MessageBox.Show("ping"); //lai ieviestu cilpu caur vārdu masīvu, ja atbilstības izsaukums atbilst metodei (int i = 0; i< words.Length; i++) { if (e.Result.Text == words[i]) { MessageBox.Show(words[i]); } } } private void btnCreate_Click(object sender, EventArgs e) { //get number of rows/words rows = Convert.ToInt32(txtNum.Text); //words length is equal to number of rows words = new string; GenerateTable(columns, rows); } private void GenerateTable(int columnCount, int rowCount) { //Clear out the existing row and column styles myGridView.Rows.Clear(); myGridView.Columns.Clear(); myGridView.Columns.Add("WordColumn", "Word"); myGridView.Columns.Add("HotKeyColumn", "HotKey"); //loop as many times as need to create the rows for (int y = 0; y < rowCount; y++) { myGridView.Rows.Add(); } } private void btnSubmit_Click(object sender, EventArgs e) { int i = 0; foreach (DataGridViewRow r in myGridView.Rows) { string Instructions = r.Cells.Value.ToString(); string Command = r.Cells.Value.ToString(); HotKeys.Add(Instructions, Command); words[i] = Instructions; i++; } //give jargon the words array jargon.Add(words); //give the grammer builder the jargon choices gb.Append(jargon); //build grammer, load grammer, enable voice recognition g = new Grammar(gb); sre.RequestRecognizerUpdate(); sre.LoadGrammarAsync(g); sre.SpeechRecognized += new EventHandler(SpeechRecognized); //set sre to use default audio device sre.SetInputToDefaultAudioDevice(); sre.RecognizeAsync(RecognizeMode.Multiple); MessageBox.Show("Recognition enabled"); //Register a handler for the SpeechRecognized event. //sre.EmulateRecognize("Hello"); } } }

mēģināju to pārveidot par konsoles lietojumprogrammu un panākt, lai tā darbotos, taču man tas ir nepieciešams Windows veidlapu lietojumprogrammā. šeit ir konsoles kods:

Klases programma ( static SpeechRecognitionEngine sre; //words ietvers masīvu, lai izvēlētos statiskus virknes vārdus; static void Main(string args) ( //inicializēt runas atpazīšanas ierīci sre = new SpeechRecognitionEngine(new System.Globalization.CultureInfo("en-US) ")); //inicializēt gramatikas veidotāju GrammarBuilder gb = new GrammarBuilder(); //choices saturēs vārdus no pirmās kolonnas Izvēles žargons = new Choices(); //Runas atpazīšanas gramatika ir noteikumu vai ierobežojumu kopums, kas definējiet, ko runas atpazīšanas programma var atpazīt kā jēgpilnu ievadi. Gramatika g; virknes ievade; Console.WriteLine("Ievades vārdi atdalīti ar komatu,"); input = Console.ReadLine(); vārdi = ievade.Split(new char ( " ," ), StringSplitOptions.RemoveEmptyEntries); foreach (virkne s vārdos) ( Console.WriteLine(s); ) Console.ReadKey(); //iedod žargonā vārdus masīva žargons.Add(words); //iedod gramatiku veidot žargona izvēles gb.Append(žargons);//veidot gramatiku, ielādēt gramatiku, iespējot balss atpazīšanu g = new Grammar(gb); sre.RequestRecognizerUpdate(); sre.LoadGrammarAsync(g); //iestata sre, lai izmantotu noklusējuma audio ierīci sre.SetInputToDefaultAudioDevice(); sre.SpeechRecognized += new EventHandler(SpeechRecognized); sre.RecognizeAsync(RecognizeMode.Multiple); Console.ReadLine(); ) static void SpeechRecognized(objekta sūtītājs, SpeechRecognizedEventArgs e) ( Console.WriteLine("Atpazīts vārds"); //lai ieviestu cilpu caur vārdu masīvu, ja atbilstības izsaukums atbilst metodei (int i = 0; i< words.Length; i++) { if (e.Result.Text == words[i]) { Console.WriteLine(words[i]); } } } }

  • Tulkošana

Kopš dziļās mācīšanās ienākšanas runas atpazīšanas jomā, vārdu atpazīšanas kļūdu skaits ir dramatiski samazinājies. Bet, neskatoties uz visiem rakstiem, kurus, iespējams, esat lasījis, mums joprojām nav cilvēka līmeņa runas atpazīšanas. Runas atpazīšanas ierīcēm ir daudz atteices režīmu. Turpmākai uzlabošanai tie ir jāidentificē un jāmēģina novērst. Tas ir vienīgais veids, kā pāriet no atpazīšanas, kas lielākoties darbojas dažiem cilvēkiem, uz atzīšanu, kas visu laiku darbojas visiem cilvēkiem.

Nepareizi atpazīto vārdu skaita uzlabojumi. Testa balss komplekts tika savākts uz tālruņa slēdža 2000. gadā no 40 nejaušām sarunām starp diviem cilvēkiem, kuru dzimtā valoda bija angļu valoda.

Teikt, ka esam sasnieguši cilvēka līmeņa runas atpazīšanu sarunās, kuru pamatā ir tikai sarunu kopums no telefona sadales pults, ir tas pats, kas teikt, ka robota automašīna brauc tikpat labi kā cilvēks, to izmēģinājis vienā pilsētā uz saulaina laika. diena bez satiksmes.. Jaunākie notikumi runas atpazīšanas jomā ir pārsteidzoši. Taču apgalvojumi par cilvēka līmeņa runas atpazīšanu ir pārāk drosmīgi. Šeit ir dažas jomas, kurās vēl ir jāveic uzlabojumi.

Akcenti un troksnis

Viens no acīmredzamajiem runas atpazīšanas trūkumiem ir apstrāde akcentiem un fona troksnis. Galvenais iemesls tam ir tas, ka lielāko daļu apmācības datu veido amerikāņu runa ar augstu signāla un trokšņa attiecību. Piemēram, sarunu kopa no telefona slēdža satur tikai to cilvēku sarunas, kuru dzimtā valoda ir angļu (galvenokārt amerikāņi), ar nelielu fona troksni.

Bet tikai apmācības datu palielināšana, visticamāk, neatrisinās šo problēmu. Ir daudzas valodas, kurās ir daudz dialektu un akcentu. Ir nereāli vākt marķētos datus par visiem gadījumiem. Lai izveidotu augstas kvalitātes runas atpazīšanas ierīci tikai amerikāņu angļu valodai, ir nepieciešami līdz 5 tūkstošiem stundu audio ierakstu, kas tulkoti tekstā.


Cilvēka runas-teksta pārveidotāju salīdzinājums ar Baidu Deep Speech 2 dažādiem runas veidiem. Cilvēki sliktāk atpazīst ne-amerikāņu akcentus, iespējams, tāpēc, ka viņu vidū ir daudz amerikāņu. Es domāju, ka cilvēkiem, kuri uzauguši noteiktā reģionā, būtu daudz mazāk kļūdu, atpazīstot šī reģiona akcentu.

Fona trokšņa klātbūtnē braucošā automašīnā signāla un trokšņa attiecība var sasniegt -5 dB. Cilvēki šādos apstākļos viegli tiek galā ar citas personas runas atpazīšanu. Automātiskie atpazinēji pasliktinās daudz ātrāk, palielinoties troksnim. Diagrammā parādīts, cik lielā mērā starpība starp cilvēkiem palielinās, palielinoties trokšņa vērtībām (pie zema SNR, signāla un trokšņa attiecība).

Semantiskās kļūdas

Bieži vien nepareizi atpazītu vārdu skaits pats par sevi nav runas atpazīšanas sistēmas mērķis. Mēs mērķējam uz semantisko kļūdu skaitu. Tas ir izteicienu īpatsvars, kuru nozīmi mēs nepareizi atpazīstam.

Semantiskas kļūdas piemērs ir, ja kāds ierosina “tiekamies otrdien” un atrisinātājs atgriež “tiekamies šodien”. Kļūdas ir arī vārdos bez semantiskām kļūdām. Ja atpazītājs neatpazina “uz augšu” un atgrieza “tiekamies otrdien”, teikuma semantika nemainījās.

Kā kritērijs mums rūpīgi jāizmanto nepareizi atpazīto vārdu skaits. Lai to ilustrētu, es sniegšu jums sliktākā iespējamā gadījuma piemēru. 5% kļūdu vārdos atbilst vienam trūkstošajam vārdam no 20. Ja katrā teikumā ir 20 vārdi (kas ir diezgan vidēji angļu valodā), tad nepareizi atpazīto teikumu skaits tuvojas 100%. Var cerēt, ka nepareizi atpazīti vārdi nemaina teikumu semantisko nozīmi. Pretējā gadījumā atpazinējs var nepareizi atšifrēt katru teikumu pat ar 5% nepareizi atpazītu vārdu skaitu.

Salīdzinot modeļus ar cilvēkiem, ir svarīgi pārbaudīt kļūdu būtību un uzraudzīt ne tikai nepareizi atpazīto vārdu skaitu. Mana pieredze liecina, ka cilvēki, kas tulko runu tekstā, pieļauj mazāk kļūdu, un tās nav tik nopietnas kā datori.

Microsoft pētnieki nesen salīdzināja līdzīga līmeņa cilvēku un datoru atpazinēju kļūdas. Viena no konstatētajām atšķirībām ir tāda, ka modelis “uh” [uh-uh...] jauc ar “uh huh” [uh-huh] daudz biežāk nekā cilvēki. Abiem terminiem ir ļoti atšķirīga semantika: “uh” aizpilda pauzes, bet “uh huh” apzīmē klausītāja apstiprinājumu. Arī modeļos un cilvēkos tika konstatētas daudzas tāda paša veida kļūdas.

Daudzas balsis vienā kanālā

Ierakstītās telefona sarunas bija arī vieglāk atpazīt, jo katrs runātājs tika ierakstīts atsevišķā mikrofonā. Vienā audio kanālā nepārklājas vairākas balsis. Cilvēki var saprast vairākus runātājus, dažreiz runājot vienlaikus.

Labam runas atpazītājam jāspēj sadalīt audio straumi segmentos atkarībā no skaļruņa (atbilstoši tam, lai veiktu diarizāciju). Viņam arī jāizvelk nozīme no audio ieraksta ar divām balsīm, kas pārklājas (avota atdalīšana). Tas jādara bez mikrofona, kas atrodas tieši pie katra skaļruņa mutes, tas ir, lai atpazītājs darbotos labi, ja tas ir novietots patvaļīgā vietā.

Ieraksta kvalitāte

Akcenti un fona troksnis ir tikai divi faktori, pret kuriem runas atpazīšanai jābūt izturīgam. Šeit ir vēl daži:

Reverberācija dažādos akustiskajos apstākļos.
Ar aprīkojumu saistīti artefakti.
Signāla ierakstīšanai un saspiešanai izmantotā kodeka artefakti.
Paraugu ņemšanas biežums.
Runātāja vecums.

Lielākā daļa cilvēku nevar atšķirt mp3 un wav ierakstus. Lai atpazītājiem varētu pretendēt uz veiktspēju, kas ir salīdzināma ar cilvēku veiktspēju, tiem jākļūst izturīgiem pret šiem izmaiņu avotiem.

Konteksts

Jūs varat pamanīt, ka kļūdu skaits, ko cilvēki pieļauj testu laikā ierakstos no telefona centrāles, ir diezgan liels. Ja jūs runātu ar draugu, kurš nesaprata 1 vārdu no 20, jums būtu ļoti grūti sazināties.

Viens no iemesliem ir atzīšana, neņemot vērā kontekstu. Reālajā dzīvē mēs izmantojam daudz dažādu papildu norādes, lai palīdzētu mums saprast, ko saka cita persona. Daži cilvēku lietotā konteksta piemēri, kurus runas atpazinēji ignorē:

Sarunas vēsture un apspriežamā tēma.
Vizuālas norādes par runātāju - sejas izteiksmes, lūpu kustības.
Zināšanu kopums par personu, ar kuru mēs runājam.

Mūsdienās Android runas atpazītājam ir jūsu kontaktpersonu saraksts, lai tas varētu atpazīt jūsu draugu vārdus. Balss meklēšana kartē izmanto ģeogrāfisko atrašanās vietu, lai sašaurinātu opcijas, uz kurām vēlaties saņemt norādes.

Atpazīšanas sistēmu precizitāte palielinās līdz ar šādu signālu iekļaušanu datos. Bet mēs tikai sākam iedziļināties kontekstā, ko mēs varētu iekļaut apstrādē un kā mēs varam to izmantot.

Izvietošana

Jaunākos sasniegumus runātās valodas atpazīšanas jomā nevar atklāt. Iztēlojoties runas atpazīšanas algoritma izvietošanu, jums jāpatur prātā latentums un apstrādes jauda. Šie parametri ir saistīti, jo algoritmi, kas palielina jaudas prasības, arī palielina latentumu. Bet vienkāršības labad mēs tos apspriedīsim atsevišķi.

Latentums: laiks no lietotāja runas beigām līdz transkripcijas saņemšanas beigām. Neliela kavēšanās ir tipiska atzīšanas prasība. Tas lielā mērā ietekmē lietotāja pieredzi darbā ar produktu. Desmitiem milisekundes ierobežojumi ir izplatīti. Tas var šķist pārāk ierobežojoši, taču atcerieties, ka stenogrammas sagatavošana parasti ir pirmais solis sarežģītu aprēķinu sērijā. Piemēram, balss interneta meklēšanas gadījumā pēc runas atpazīšanas jums joprojām ir nepieciešams laiks, lai veiktu meklēšanu.

Divvirzienu atkārtoti slāņi ir tipisks uzlabojuma piemērs, kas pasliktina latentumu. Ar viņu palīdzību tiek iegūti visi jaunākie augstas kvalitātes transkripcijas rezultāti. Vienīgā problēma ir tā, ka mēs nevaram neko saskaitīt pēc pirmā divvirzienu slāņa, kamēr cilvēks nav beidzis runāt. Tāpēc kavēšanās palielinās līdz ar teikuma garumu.


Pa kreisi: tieša atkārtošanās ļauj nekavējoties sākt atšifrēšanu. Pa labi: divvirzienu atkārtošanās gadījumā pirms atšifrēšanas ir jānogaida līdz runas beigām.

Joprojām tiek meklēts labs veids, kā efektīvi iekļaut nākotnes informāciju runas atpazīšanā.

Skaitļošanas jauda: šo parametru ietekmē ekonomiskie ierobežojumi. Katram atpazīšanas precizitātes uzlabojumam ir jāņem vērā banketa izmaksas. Ja uzlabojums nesasniegs ekonomisko slieksni, tas netiks izvērsts.

Klasisks nepārtrauktas uzlabošanas piemērs, kas nekad netiek izmantots, ir padziļināta mācīšanās sadarbībā. Kļūdu skaita samazināšana par 1–2% reti attaisno skaitļošanas jaudas palielināšanu 2–8 reizes. Šajā kategorijā ietilpst arī mūsdienu atkārtoto tīklu modeļi, jo tos ir ļoti neizdevīgi izmantot, meklējot virkni trajektoriju, lai gan es domāju, ka situācija nākotnē mainīsies.

Es vēlos precizēt, ka es nesaku, ka atpazīšanas precizitātes uzlabošana ar nopietnu skaitļošanas izmaksu pieaugumu ir bezjēdzīga. Mēs jau esam redzējuši, kā darbojas princips “vispirms lēnām, bet noteikti, tad ātri”. Lieta tāda, ka kamēr uzlabojums nav pietiekami ātrs, to nevar izmantot.

Nākamajos piecos gados

Runas atpazīšanas jomā joprojām ir daudz neatrisinātu un sarežģītu problēmu. Starp viņiem:

Jaunu datu uzglabāšanas sistēmu iespēju paplašināšana, akcentu atpazīšana, runas uz spēcīga trokšņa fona.
Konteksta iekļaušana atpazīšanas procesā.
Diarizācija un avotu atdalīšana.
Semantisko kļūdu skaits un inovatīvās metodes atpazinēju novērtēšanai.
Ļoti zems latentums.

Ar nepacietību gaidu progresu, kas tiks panākts nākamo piecu gadu laikā šajās un citās jomās.

Tagi: pievienojiet atzīmes