Tekstin ja puheentunnistustoiminnot ovat mielestäni yksi Windows 8.1:n kätevimmistä esteettömyysominaisuuksista. Eikä vain kätevä, vaan myös helppo asentaa. Itse asiassa Windows 8.1 tunnistaa käsinkirjoituksen melko hyvin oletusasetuksilla, mutta jos et ole tyytyväinen, voit tehdä lisäkoulutusta.

Avaa vaihtoehtojen osio " Kieli", korosta ohjauspaneelissa kieli, jonka haluat oppia, ja napsauta linkkiä" Vaihtoehdot"oikealla puolellaan.

Näkyviin tulee opetusohjelmaikkuna. Täällä voit valita haluamasi toiminnon: kouluttaa Windows uudelleen, jos se tekee tiettyjä tekstintunnistusvirheitä tai opettaa sille nimenomaan käsinkirjoitustasi. Huomaa, että toisella vaihtoehdolla voi olla pitkä oppimiskäyrä.

Puheentunnistus Windows 8.1:ssä.

Windows 8.1:n avulla voit ohjata tietokonettasi äänelläsi käyttämällä tablettiin, kannettavaan tietokoneeseen tai ultrabookiin sisäänrakennettua mikrofonia tai ulkoista kuulokemikrofonia. Puheentunnistusvaihtoehtoon pääsee aloitusnäytöstä kirjoittamalla puheentunnistus hakupalkkiin, jossa sinulta kysytään, mitä äänilaitetta haluat käyttää.

Seuraavaksi sinulta kysytään sarja kysymyksiä, joiden jälkeen sinua pyydetään lukemaan koulutusopas. Tämän oppaan vaiheiden noudattaminen tekee Windowsin oppimisesta paljon helpompaa. On parempi viettää aikaa ja kouluttaa Windows 8.1 tunnistamaan puheesi.

Sinua kehotetaan katsomaan ohjetta, jonka tuloste voi olla erittäin hyödyllinen erilaisten äänikomentojen muistamisessa. Käytön aikana puheentunnistin kelluu työpöydällä ja voidaan kiinnittää näytön ylä- tai alaosaan.

Pohjimmiltaan puheentunnistusohjelma Windows 8.1:ssä toimii hyvin.

Kaikkien puheentunnistuslaitteen säätimien käyttö on helppoa, napsauta sen ikkunaa hiiren oikealla painikkeella.

Siellä näet vaihtoehdot jatkaa laitteen harjoittelua ja määrittää sekä sen että mikrofonin.

Puheentunnistuksen perusohjaimet:

  • Käynnistä ohjelman nimellä, esimerkiksi sanoilla Laskin, Word tai Excel, käynnistä vastaava ohjelma
  • Vaihda ohjelman nimen mukaan, vaihtuu ohjelmaan, jos se on jo käynnissä.
  • Voit hallita ohjelmia, joissa on pudotusvalikko, sanomalla valikon nimi ja sitten haluamasi vaihtoehdon nimi. Tämä ominaisuus toimii myös Windows 8.1:n, Microsoft Officen ja muiden niitä käyttävien ohjelmien valintanauhaohjaimissa.
  • Näytä numerot näyttää painikkeiden päällä olevat numerot, jotka voidaan myöhemmin nimetä niiden aktivoimiseksi.
  • Web-sivulla voit seurata linkkiä yksinkertaisesti nimeämällä sen. ota meihin esimerkiksi yhteyttä.
  • Voit aktivoida elementin napsautuksen sanomalla kaksoisnapsauttamalla tai vaihtoehtoisesti napsauttamalla tiettyä elementtiä hiiren kakkospainikkeella; esimerkiksi kaksoisnapsauta ostoskoria.
  • Start Listening/Stop, kytkee puheentunnistusjärjestelmän päälle tai pois päältä.
  • Mitä voin sanoa? Näyttää ohjeen.
  • Show Speech Options, näyttää luettelon puheentunnistuslaitteen vaihtoehdoista; saatavana myös hiiren kakkospainikkeella.
  • Näytä/piilota puheentunnistus, puheentunnistuslaite minimoidaan ilmaisinalueelle tai palautetaan työpöydälle.

Jos puheentunnistuslaite ei tunnista jotain, se näyttää " Vaihtoehtojen paneeli”, joka sisältää parhaat arvaukset sanotusta. Voit valita niistä sanomalla oikean elementin vasemmalla puolella olevan numeron. Tämä auttaa myös kouluttamaan Windows 8.1 -puheentunnistusjärjestelmiä.

Tekstin ja puheentunnistustoimintojen avulla teet työstäsi paljon helpompaa, helpompaa ja nopeampaa. Esimerkiksi käsinkirjoitusominaisuuden avulla voit kirjoittaa tekstiä käsin, mikä on erittäin kätevää mobiililaitteissa. Ja puheentunnistus, ohjaa tietokonettasi äänelläsi.

Ystävät, tarkastelimme toissapäivänä yhtä Fall Creators -päivityksen Windows 10:een tuomista innovaatioista - . Microsoft lupaa tukea venäjänkieliselle puhesyötölle tulevaisuudessa, mutta ei täsmennä, onko tämä tulevaisuus lähellä vai kaukana lähitulevaisuudessa. Ehkä tämä on silloin, kun Cortana pystyy puhumaan ja mikä tärkeintä, ymmärtämään venäjää. Ei ole mitään järkeä odottaa, että Microsoft opettaa Windows 10:n ymmärtämään omaamme. Jos jokin ei ole itse järjestelmäympäristössä, se voidaan melkein aina toteuttaa kolmannen osapuolen ohjelmistoilla. Itse asiassa puhumme niistä tässä artikkelissa. Alla tarkastellaan erilaisia ​​tapoja, joilla voit käyttää kannettavaan tietokoneeseen sisäänrakennettua tai tietokoneeseen yhdistettyä mikrofonia syöttääksesi hakukyselyitä äänellä ja sanellaksesi asiakirjojen tekstiä.

1. "Ok Alice" ja Google-äänihaku hakukyselyille

On epäselvää, miksi Google ei ole vielä integroinut tätä tekniikkaa YouTube-käyttöliittymään. Mutta joka tapauksessa voit etsiä videoita itse hakukoneessa lausumalla tärkeimmät kyselyt. Sinun tarvitsee vain vaihtaa "Video"-välilehteen hakutuloksissa. Ilmeisistä syistä leijonanosa hakutuloksista tulee edelleen YouTubesta.

Niiden, jotka ovat jo onnistuneet tutustumaan siihen, ei tarvitse mennä hakukoneen verkkosivustolle selainikkunassa. Ohjelman asennuksen jälkeen Yandex-hakukenttä, jossa on mahdollisuus kirjoittaa kyselyitä äänellä, ilmestyy suoraan Windowsin tehtäväpalkkiin. Ja Alice pystyy vastaamaan harvinaisiin yksinkertaisiin kysymyksiin ilman hakukonetta, ylittämättä valintaikkunaansa.

2. Googlen verkkopalvelun Web Speech API

Web Speech API -teknologialla, jonka kautta kyselyjen äänisyöttö toteutetaan Google-hakukoneessa, on oma verkkoliittymä osoitteessa:

https://www.google.com/intl/ja/chrome/demos/speech.html

Palvelun toiminnallisuus on minimalistinen: se sisältää painikkeen mikrofonin kytkemiseksi päälle ja tuloskentän, jossa tunnistettu teksti sitten näytetään.

Mutta et voi tehdä muutoksia tähän tuloskenttään. Tuloksena saamme tunnustustulokset sellaisina kuin ne ovat. Ja voimme muokata niitä vain jollain tekstieditorilla tai tiedonsyöttölomakkeella. Tuloskentän "Kopioi ja liitä" alla oleva painike lopettaa nykyisen syöttöistunnon ja asettaa automaattisesti korostuslohkon kaikkeen tunnistettuun tekstiin. Tämä tehdään leikepöydälle kopioimisen helpottamiseksi.

Tunnistetulle tekstille on käytettävissä toinen vaihtoehto, joka toteutetaan sähköpostin luontipainikkeella. Se käynnistää oletusarvoisesti Windows-ympäristöön asennetun sähköpostiohjelman, luo uuden kirjeen ja siirtää tunnistetun tekstin siihen.

On huomionarvoista, että Web Speech API voi tunnistaa joitain välimerkkejä, ainakin pisteen ja pilkun. Joten sanelujen aikana, paikoissa, joihin on lisätty pisteitä ja pilkkuja, voit yksinkertaisesti ääntää ne.

Koska tuloskentässä ei voi muokata tekstiä, Web Speech API:n käyttö ei ole kovin kätevää suurille tekstimäärille. Pitkiin saneluihin kannattaa käyttää Google Docs -palvelun verkkokäyttöliittymää, johon on sisäänrakennettu Web Speech API -tekniikka. Google Docsissa voit kirjoittaa tekstiä puheella, muokata sitä välittömästi ja muotoilla asiakirjan matkan varrella.

3. "Äänimuistio" osoitteessa Speechpad.Ru

Toinen Web Speech API -tekniikkaan perustuva verkkosivusto on RuNetin suosituin ja toimivin puheensyöttöpalvelu, "Voice Notepad". Sen päätehtävistä:

  • Tukee useita kieliä, mukaan lukien venäjä ja ukraina;
  • Tuloksena oleva äänentunnistuskenttä, jossa on mahdollisuus muokata tekstiä, kääntää se muille kielille ja ladata tuloksia TXT-tiedostoon;
  • Tunnistettujen lauseiden tulostaminen leikepöydälle;
  • Transkriptio;
  • Integrointi Chromium-selaimen verkkolomakkeisiin;
  • Integrointi Windows- ja Linux-ympäristöihin.

Kaiken tämän lisäksi "Voice Notepad" -sovelluksessa äänisyöttövaihtoehto kytketään päälle ja pois vain painamalla vastaavaa painiketta. Tämä vaihtoehto ei poistu itsestään heti, kun ajattelemme hetken etsiessämme ajatuksen tarkkaa muotoilua, kuten tapahtuu muissa Web Speech API -pohjaisissa palveluissa.

Ja seuraamme tunnistettua tekstiä tuloksena olevassa kentässä.

4. Speechpadin integrointi selaimen verkkolomakkeisiin

Kun tämä laajennus on otettu käyttöön, "Speechpad"-kohta tulee näkyviin verkkotekstinsyöttölomakkeiden kontekstivalikkoon. Paina tätä painiketta ja puhu mikrofoniin. Näin voimme esimerkiksi sanella muistiinpanoja Google Keepissä.

5. Speechpadin integrointi Windows-ympäristöön

Voice Notepad -verkkopalvelun ominaisuudet voidaan integroida Windows-ympäristöön. Ja kirjoita tekstiä äänellä missä tahansa käyttöjärjestelmäohjelmassa - tavallisessa muistiossa, Microsoft Wordissa ja muissa tekstieditoreissa. Tunnistettu puhe lisätään suoraan muokattuihin asiakirjoihin ilman verkkopalveluiden tai leikepöydän välitystä. Tämä Speechpad.Ru:n toiminto ei kuitenkaan ole ilmainen, ja se maksaa 100 ruplaa. kuukaudessa. Säästövaihtoehtoja tarjotaan: jos maksat palveluista välittömästi vuosineljännekseltä, kustannukset ovat 250 ruplaa ja vuoden ennakkomaksu 800 ruplaa. Jokainen rekisteröitynyt käyttäjä voi ensin testata käyttöjärjestelmäympäristöönsä integroitua palvelun toimivuutta. Speechpad.Ru:n luojat tarjoavat kahden päivän ilmaisen kokeilujakson. Kuinka Voice Notepad integroidaan suoraan käyttöjärjestelmiin, erityisesti Windowsiin, kuvataan yksityiskohtaisesti Speechpad.Ru: n verkkosivustolla. Napsauta integrointivaihtoehdon vieressä olevaa kysymysmerkkiä.

Ja käymme läpi kaikki ohjeissa kuvatut vaiheet:

  • Asenna yllä oleva palvelulaajennus;
  • Lataa integrointitiedostojen paketti;
  • Pura arkisto ja suorita install_host.bat-tiedosto;
  • Siirrymme Speechpad.Ru-verkkosivustolla käyttäjätiliin;

Napsauta "Ota testijakso käyttöön" -painiketta.

Ja niin edelleen aina, kun sinun on aktivoitava äänisyöttö. Siinä kaikki, oikeastaan. Nyt voit avata Microsoft Wordin, LibreOffice Writerin ja muut tekstieditorit ja aloittaa sanelun. Tunnistettu teksti tulee näkyviin minkä tahansa aktiivisen sovelluksen ikkunaan, joka tukee tietojen syöttöä.

Tärkeää: Jos haluat käyttää järjestelmään integroitua Speechpadia, et voi sulkea sen verkkosivustovälilehteä selainikkunassa. Jälkimmäisen sulkeminen poistaa äänisyötön käytöstä.

5. Ilmaisia ​​vaihtoehtoja äänisyötteen integroimiseksi Windows-ympäristöön

Mitä ilmaisia ​​vaihtoehtoja venäjänkielisen puhesyötteen integroimiseksi Windows-ympäristöön voisi olla?

Vaihtoehto 1

Täysin maksutta Speechpad.Ru-sivustolla voit käyttää vaihtoehtoa lähettää tunnistettu puhe leikepöydälle. Napsauta "Ota tallennus käyttöön" -painiketta verkkosivustolla ja siirry mihin tahansa Windows-sovellukseen.

Nyt voimme lausua yksittäisiä lauseita ja liittää ne puskurista Ctrl+V-näppäimillä. Heti kun keskeytämme puheen, kuulemme Speechpad-äänen narisevan, mikä osoittaa, että lause on tunnistettu ja kopioitu leikepöydälle. Tällä äänisyötteen työskentelytavalla on etunsa: kun lisäät yksittäisiä lauseita, voit samanaikaisesti muokata tekstiä kokonaan.

Vaihtoehto nro 2

Office Suite -sovellusten parissa työskenteleville Microsoft voi tarjota työtään puhesyötteen käyttöönotossa - Sanele-apuohjelman, joka integroi ylimääräisen valikkovälilehden puheentunnistustyökalulla Wordiin, Outlookiin ja PowerPointiin. Lisäosa tunnistaa puheen 20 kielellä, mukaan lukien venäjä, ja voit kääntää tekstiä samanaikaisesti 60 kielelle.

Toinen ilmainen tapa kirjoittaa tekstiä äänellä on äänittää puhe äänitiedostoon automaattisella transkriptiolla (transkriptio tekstiksi). Melkein jokainen osaa välittömästi ilmaista ajatuksensa jäsennellyllä kirjallisella kielellä ja samalla korjata tunnistusvirheet ja lisätä välimerkkejä. Kun nauhoitat puhetta äänittimellä, voit keskittyä täysin esitettävän materiaalin olemukseen, ja transkriptioprosessissa voit suunnata kaiken huomiosi tämän materiaalin esittämisen kaunopuheisuuteen ja lukutaitoon. Mutta hyvät ystävät, äänitallenteiden transkription automatisointi on toisen, erillisen artikkelin aihe.

Jatkuu artikkeleissa:

Windowsin puheentunnistuksessa näppäimistön ja hiiren käyttö ei ole välttämätöntä. Sen sijaan voit ohjata tietokonettasi äänelläsi ja sanella tekstiä.

Huomautus: Puheentunnistus on saatavilla vain seuraavilla kielillä: englanti (Yhdysvallat ja Iso-Britannia), ranska, espanja, kiina, mandariinikiina (yksinkertaistettu ja perinteinen kiina) ja saksa.

Puheentunnistuksen määrittäminen Windows 8.1:ssä

Ennen kuin voit käyttää puheentunnistusta, sinun on suoritettava useita vaiheita. Ensin sinun on määritettävä mikrofoni. Tietokone voidaan sitten kouluttaa tunnistamaan tämä ääni.

Mikrofonin asettaminen

Ennen kuin määrität puheentunnistuksen, varmista, että mikrofoni on kytketty tietokoneeseen.

  1. Kirjoita teksti hakukenttään Mikrofonin asetukset Mikrofonin asetukset.
  2. Noudata näytölle tulevia ohjeita.

Huomautus V: Jos mahdollista, käytä kuulokemikrofonia, koska on vähemmän mahdollisuuksia poimia taustamelua.

Kuinka opettaa tietokone tunnistamaan puhetta

Puheentunnistusominaisuus käyttää erityistä profiilia äänen ja äänikomentojen tunnistamiseen. Mitä enemmän käytät puheentunnistusta, sitä yksityiskohtaisempi puhekomentoprofiilisi tulee, jolloin tietokone ymmärtää sinua paremmin.

  1. Haku-paneeli voidaan avata myös näppäimistöllä painamalla Win + Q -näppäimiä.
  2. Kirjoita teksti hakukenttään Puheentunnistus ja paina sitten -näppäintä tai valitse Puheentunnistus.
  3. Napsauta painiketta Opeta tietokone.
  4. Noudata ohjeita, kun opit äänentunnistuksen.

Puheentunnistuksen käyttö

Voit käyttää ääntäsi useiden tehtävien suorittamiseen, kuten lomakkeiden täyttämiseen verkossa tai kirjainten kirjoittamiseen. Kun puhut mikrofoniin, puheentunnistus muuttaa puhutut sanat tekstiksi, joka tulee näkyviin näytölle.

Tekstin saneleminen Windows 8.1 -puheentunnistuksen avulla

  1. Liu'uta sormeasi nopeasti sisäänpäin näytön oikeasta reunasta ja napauta sitten hakupalkkia. (Jos käytät hiirtä, valitse näytön oikea yläkulma, siirrä hiiren osoitin alas ja valitse sitten Haku-paneeli.)
  2. Haku-paneeli voidaan avata myös näppäimistöllä painamalla Win + Q -näppäimiä.
  3. Kirjoita teksti hakukenttään puheentunnistus ja paina sitten -näppäintä tai valitse Windowsin puheentunnistus.
  4. Sano "aloita kuuntelu" tai paina mikrofonin painiketta aktivoidaksesi kuuntelutilan.
  5. Avaa sovellus, jota haluat käyttää, tai korosta tekstikenttä, jolle haluat sanella tekstiä.
  6. Sano teksti, jonka haluat sanella.

Korjaamaan virheet

  • Virheet voidaan korjata kolmella eri tavalla.
    • Korjataksesi viimeksi puhutun lauseen sanomalla "korjaa tämä".
    • Parantaaksesi yhtä sanaa, sano "Oikea" ja sano sitten sana, jonka haluat korjata. Jos sana toistetaan useita kertoja, kaikki sen esiintymät korostetaan ja voit valita ilmentymän, jota haluat parantaa.
    • Valintaikkunassa Vaihtoehtojen paneeli sano vastaavan kohteen numero ja sano sitten OK.

Sanojen lisääminen tai muuttaminen sanakirjaan

Windows 8.1 Speech Dictionaryn avulla voit lisätä omia sanojasi, estää tietyn sanan sanelemisen, parantaa sanaa sanakirjassa tai poistaa sen.

  1. Liu'uta sormeasi nopeasti sisäänpäin näytön oikeasta reunasta ja napauta sitten hakupalkkia. (Jos käytät hiirtä, valitse näytön oikea yläkulma, siirrä hiiren osoitinta alas ja valitse sitten Haku-paneeli.)
  2. Haku-paneeli voidaan avata myös näppäimistöllä painamalla Win + Q -näppäimiä.
  3. Kirjoita teksti hakukenttään puheentunnistus ja paina sitten -näppäintä tai valitse Windowsin puheentunnistus.
  4. Sano "aloita kuuntelu" tai aktivoi kuuntelutila painamalla mikrofonipainiketta.
  5. Sano "Open Speech Dictionary" ja tee jokin seuraavista:
    • Lisää sana sanakirjaan sanomalla "Lisää uusi sana" ja seuraa sitten näytön ohjeita.
    • Voit estää tietyn sanan sanelun sanomalla "Estä sanan sanelu" ja seuraa sitten näytön ohjeita.

Ohjaa tietokonettasi puheentunnistuksen avulla

Huomautus: Aina kun sinun on tarkistettava, mitä komentoja voit käyttää, sano "Mitä voin sanoa?"

To... Sano se...

Avaa käynnistysnäyttö

Avaa paneelin toimintopaneeli

Avaa hakupaneeli

Näytä kaikki sovellukset

Sovellukset

Aloita sovelluksen käyttö

Napsauta hiiren kakkospainikkeella ja sano Windows C

Käytä sovelluksia

Sano mitä haluat tehdä. Vaihda esimerkiksi Celsius-asteiksi Weather-sovelluksessa.

Valitse mikä tahansa elementti sen nimellä

Sano Tiedosto; Alkaa; Näytä

Valitse mikä tahansa elementti tai kuvake

Sano Cart; Sano Tietokone; Kerro tiedoston nimi

Kaksoisnapsauta elementtiä

Kaksoisnapsauta Roskakori; Kaksoisnapsauta Tietokone; Kaksoisnapsauta tiedoston nimeä

Siirry avoimeen sovellukseen

Viittaus maaliin; Siirry WordPadiin; Siirry ohjelman nimeen; Siirry sovellukseen

Vieritä haluamaasi suuntaan

Selaa ylöspäin; Rullaa alas; suorita Vieritä vasemmalle; suorita Vieritä oikealle

Lisää uusi kappale tai rivi asiakirjaan

Uusi kappale; uusi rivi

Valitse sana asiakirjasta

Aseta lauseke

Valitse sana ja aloita sen korjaaminen

Korjaa ilmaisu

Korosta ja poista tiettyjä sanoja

Poista lauseke

Näytä luettelo komennoista, jotka voidaan suorittaa

Mitä voin sanoa?

Päivitä saatavilla olevien puhekomentojen luettelo

Päivitä puhekomennot

Ota kuuntelutila käyttöön

Aloita kuunteleminen

Poista kuuntelutila käytöstä

Lopeta kuunteleminen

Siirrä mikrofonipaneeli, puheentunnistusominaisuudet

Siirrä puheentunnistusta

Pienennä mikrofonipaneeli

Tiivistä puheentunnistus

Tarkastele tehtäväkohtaista Windowsin ohje- ja tukisisältöä

Miten tehdä jotain?

Sano jotain kuten "Kuinka asennan tulostimen?"

Huomaa, että tämä komento on käytettävissä vain, jos käytät Yhdysvaltain englanninkielistä puheentunnistusta.

Yritän luoda dynaamisen puheentunnistimen, mutta jostain syystä se ei toimi. Yritin käyttää emulaterecognize-toimintoa ja sovellus toimii hyvin, mutta se ei toimi puhuessani. tämä tarkoittaa, että sanalista on lisätty oikein ja puheentunnistettu tapahtuma toimii oikein, mutta sitä ei koskaan kutsuta ilman emulaterecognizea. Kaikki apu olisi tervetullutta. Alla on koodi im.

Järjestelmän käyttö; käyttäen System.Collections.Generic; käyttäen System.ComponentModel; käyttäen System.Data; käyttäen System.Drawing; käyttäen System.Linq; käyttäen System.Text; käyttäen System.Threading.Tasks; käyttäen System.Windows.Forms; käyttämällä System.Speech-ohjelmaa; käyttäen System.Speech.Recognition; nimiavaruus HotKeyApp ( julkinen osittainen luokka Form1: Form ( //alustaa puheentunnistin SpeechRecognitionEngine sre = new SpeechRecognitionEngine(new System.Globalization.CultureInfo("en-US")); //alustaa kieliopin rakennusohjelma GrammarBuilder gb = new Grammar(Bu = new Grammar); /choices sisältää sanat ensimmäisestä sarakkeesta Choices jargon = new Choices(); //words sisältävät taulukon, joka antaa valintamerkkijonon sanoja; //Puheentunnistuksen kielioppi on joukko sääntöjä tai rajoituksia, jotka määrittävät puheentunnistuksen moottori voi tunnistaa merkityksellisen syötteen. Kielioppi g; yksityiset int-sarakkeet = 2; yksityiset int-rivit; Sanakirjan pikanäppäimet = uusi Sanakirja(); public Form1() ( InitializeComponent(); ) yksityinen void Form1_Load(objektin lähettäjä, TapahtumaArgs e) ( ) yksityinen void SpeechRecognized(objektin lähettäjä, SpeechRecognizedEventArgs e) ( MessageBox.Show("ping"); //toteuttaa silmukan sanataulukon läpi, jos vastaavuuskutsu on sopiva menetelmä kohteelle (int i = 0; i< words.Length; i++) { if (e.Result.Text == words[i]) { MessageBox.Show(words[i]); } } } private void btnCreate_Click(object sender, EventArgs e) { //get number of rows/words rows = Convert.ToInt32(txtNum.Text); //words length is equal to number of rows words = new string; GenerateTable(columns, rows); } private void GenerateTable(int columnCount, int rowCount) { //Clear out the existing row and column styles myGridView.Rows.Clear(); myGridView.Columns.Clear(); myGridView.Columns.Add("WordColumn", "Word"); myGridView.Columns.Add("HotKeyColumn", "HotKey"); //loop as many times as need to create the rows for (int y = 0; y < rowCount; y++) { myGridView.Rows.Add(); } } private void btnSubmit_Click(object sender, EventArgs e) { int i = 0; foreach (DataGridViewRow r in myGridView.Rows) { string Instructions = r.Cells.Value.ToString(); string Command = r.Cells.Value.ToString(); HotKeys.Add(Instructions, Command); words[i] = Instructions; i++; } //give jargon the words array jargon.Add(words); //give the grammer builder the jargon choices gb.Append(jargon); //build grammer, load grammer, enable voice recognition g = new Grammar(gb); sre.RequestRecognizerUpdate(); sre.LoadGrammarAsync(g); sre.SpeechRecognized += new EventHandler(SpeechRecognized); //set sre to use default audio device sre.SetInputToDefaultAudioDevice(); sre.RecognizeAsync(RecognizeMode.Multiple); MessageBox.Show("Recognition enabled"); //Register a handler for the SpeechRecognized event. //sre.EmulateRecognize("Hello"); } } }

Yritin muuntaa sen konsolisovellukseksi ja saada sen toimimaan, mutta tarvitsen sen Windows-lomakesovelluksessa. tässä konsolin koodi:

Luokkaohjelma ( staattinen SpeechRecognitionEngine sre; //sanat sisältävät taulukon, joka antaa valinnaille staattisia merkkijonosanoja; staattinen void Main(string args) ( //alustaa puheentunnistin sre = new SpeechRecognitionEngine(new System.Globalization.CultureInfo("en-US) ")); //alustaa kieliopin rakennusohjelma GrammarBuilder gb = new GrammarBuilder(); //choices sisältää sanat ensimmäisestä sarakkeesta Choices jargon = new Choices(); //Puheentunnistuksen kielioppi on joukko sääntöjä tai rajoituksia, jotka määrittää, mitä puheentunnistuskone voi tunnistaa merkitykselliseksi syötteeksi. Kielioppi g; merkkijonosyöttö; Console.WriteLine("Syötetyt sanat pilkulla erotettuina,"); input = Console.ReadLine(); words = input.Split(new char ( " ," ), StringSplitOptions.RemoveEmptyEntries); foreach (merkkijono s sanoissa) ( Console.WriteLine(s); ) Console.ReadKey(); //anna ammattikieltä sanat array jargon.Add(words); //anna kielioppi luo ammattikielen valinnat gb.Append(jargon) //build kielioppi, lataa kielioppi, ota puheentunnistus käyttöön g = new Grammar(gb); sre.RequestRecognizerUpdate(); sre.LoadGrammarAsync(g); //määritä sre käyttämään oletusäänilaitetta sre.SetInputToDefaultAudioDevice(); sre.SpeechRecognized += new EventHandler(SpeechRecognized); sre.RecognizeAsync(RecognizeMode.Multiple); Console.ReadLine(); ) staattinen void SpeechRecognized(objektin lähettäjä, SpeechRecognizedEventArgs e) ( Console.WriteLine("Tunnettu sana"); //toteuttaa silmukan sanataulukon läpi, jos vastaavuuskutsu on sopiva menetelmä kohteelle (int i = 0; i< words.Length; i++) { if (e.Result.Text == words[i]) { Console.WriteLine(words[i]); } } } }

  • Käännös

Sen jälkeen kun syväoppiminen tuli puheentunnistusalueelle, sanantunnistuksen virheiden määrä on vähentynyt dramaattisesti. Kaikista lukemistasi artikkeleista huolimatta meillä ei silti ole ihmistason puheentunnistusta. Puheentunnistimissa on monia vikatiloja. Lisäparannuksia varten ne on tunnistettava ja yritettävä poistaa. Tämä on ainoa tapa siirtyä tunnustuksesta, joka toimii joillekin ihmisille suurimman osan ajasta, tunnustamiseen, joka toimii kaikille ihmisille jatkuvasti.

Väärin tunnistettujen sanojen lukumäärä on parantunut. Testiäänisarja kerättiin puhelinkytkimeen vuonna 2000 40 satunnaisesta keskustelusta kahden englannin äidinkielenä olevan henkilön välillä.

Sanoa, että olemme saavuttaneet ihmistason puheentunnistuksen keskusteluissa, jotka perustuvat vain puhelinvaihteesta tuleviin keskusteluihin, on sama kuin sanoa, että robottiauto ajaa yhtä hyvin kuin ihminen, joka on testannut sitä yhdessä kaupungissa aurinkoisella säällä. päivä ilman liikennettä.. Puheentunnistuksen viimeaikainen kehitys on yllättävää. Mutta väitteet ihmistason puheentunnistuksesta ovat liian rohkeita. Tässä on muutamia alueita, joilla on vielä parannettavaa.

Aksentteja ja melua

Yksi puheentunnistuksen ilmeisistä haitoista on käsittely aksentteja ja taustamelua. Pääsyy tähän on se, että suurin osa harjoitustiedoista koostuu amerikkalaisesta puheesta, jolla on korkea signaali-kohinasuhde. Esimerkiksi puhelinkytkimestä lähtevien keskustelujen joukko sisältää vain sellaisten ihmisten keskusteluja, joiden äidinkieli on englanti (useimmiten amerikkalaiset) ja vähän taustamelua.

Mutta pelkkä harjoitustietojen lisääminen ei todennäköisesti ratkaise tätä ongelmaa. On monia kieliä, jotka sisältävät monia murteita ja aksentteja. On epärealistista kerätä merkittyjä tietoja kaikista tapauksista. Korkealaatuisen puheentunnistimen luominen pelkästään amerikanenglannin kielelle vaatii jopa 5000 tuntia tekstiksi käännettyä äänitallenteita.


Ihmisten puhe-tekstimuuntimien vertailu Baidu's Deep Speech 2:een eri puhetyypeissä. Ihmiset tunnistavat huonommin ei-amerikkalaisia ​​aksentteja, mikä johtuu ehkä siitä, että heidän joukossaan on paljon amerikkalaisia. Uskon, että ihmisillä, jotka ovat kasvaneet tietyllä alueella, olisi paljon vähemmän virheitä tunnistaessaan alueen aksenttia.

Liikkuvan auton taustamelun läsnä ollessa signaali-kohinasuhde voi saavuttaa -5 dB:n arvot. Ihmiset selviävät helposti toisen henkilön puheen tunnistamisesta tällaisissa olosuhteissa. Automaattiset tunnistimet heikkenevät paljon nopeammin melun lisääntyessä. Kaavio näyttää, kuinka paljon ihmisten välinen ero kasvaa kohinan (alhaisella SNR:llä, signaali-kohinasuhde) arvojen kasvaessa.

Semantisia virheitä

Usein väärin tunnistettujen sanojen määrä ei ole puheentunnistusjärjestelmän tavoite sinänsä. Tavoittelemme semanttisten virheiden määrää. Tämä on niiden ilmaisujen osuus, joiden merkityksen tunnistamme väärin.

Esimerkki semanttisesta virheestä on, kun joku ehdottaa "tavataan tiistaina" ja ratkaiseja palauttaa "tavataan tänään". Myös sanoissa on virheitä ilman semanttisia virheitä. Jos tunnistaja ei tunnistanut "ylös" ja palautti "tavataan tiistaina", lauseen semantiikka ei muuttunut.

Meidän on käytettävä huolellisesti virheellisesti tunnistettujen sanojen määrää kriteerinä. Tämän havainnollistamiseksi annan sinulle esimerkin pahimmasta mahdollisesta tapauksesta. Sanavirheistä 5 % vastaa yhtä puuttuvaa sanaa 20:stä. Jos jokaisessa lauseessa on 20 sanaa (mikä on englannin kielen keskiarvo), niin väärin tunnistettujen lauseiden määrä lähestyy 100:aa. Voidaan toivoa, että väärin tunnistetut sanat eivät muuta lauseiden semanttista merkitystä. Muuten tunnistin saattaa tulkita jokaisen lauseen väärin, vaikka virheellisesti tunnistettujen sanojen määrä olisi 5 %.

Kun verrataan malleja ihmisten kanssa, on tärkeää tarkistaa virheiden olemus ja seurata paitsi väärin tunnistettujen sanojen määrää. Kokemukseni mukaan ihmiset, jotka kääntävät puheen tekstiksi, tekevät vähemmän virheitä, eivätkä ne ole niin vakavia kuin tietokoneiden tekemät.

Microsoftin tutkijat vertasivat äskettäin ihmisten ja tietokoneiden tunnistajien samantasoisia virheitä. Yksi havaituista eroista on se, että malli sekoittaa sanat "uh" [uh-uh...] sanaan "uh huh" [uh-huh] paljon useammin kuin ihmiset. Näillä kahdella termillä on hyvin erilainen semantiikka: "uh" täyttää tauot, kun taas "uh huh" tarkoittaa kuuntelijan kuittausta. Myös malleista ja ihmisistä löytyi monia samantyyppisiä virheitä.

Monta ääntä yhdellä kanavalla

Tallennettujen puhelinkeskustelujen tunnistaminen oli myös helpompaa, koska jokainen puhuja äänitettiin erilliseen mikrofoniin. Yhdellä äänikanavalla ei ole päällekkäisyyksiä useiden äänien välillä. Ihmiset voivat ymmärtää useita puhujia, joskus puhuvat samanaikaisesti.

Hyvän puheentunnistimen pitäisi pystyä jakamaan äänivirta osiin kaiuttimesta riippuen (jolloin se on diarisoitu). Hänen on myös poimittava merkitys äänitallenteesta, jossa on kaksi päällekkäistä ääntä (lähdeerottelu). Tämä on tehtävä ilman mikrofonia, joka sijaitsee suoraan kunkin kaiuttimen suulla, eli niin, että tunnistin toimii hyvin, jos se sijoitetaan mielivaltaiseen paikkaan.

Tallennuksen laatu

Aksentit ja taustamelu ovat vain kaksi tekijää, joihin puheentunnistimen on oltava kestävä. Tässä muutama lisää:

Jälkikaiunta erilaisissa akustisissa olosuhteissa.
Laitteisiin liittyviä esineitä.
Signaalin tallentamiseen ja pakkaamiseen käytetyn koodekin artefaktit.
Näytteenottotaajuus.
Puhujan ikä.

Useimmat ihmiset eivät pysty erottamaan mp3- ja wav-tallenteita. Ennen kuin tunnistajat voivat vaatia suorituskykyä, joka on verrattavissa ihmisten suorituskykyyn, niiden on tultava kestäviksi näille vaihtelulähteille.

Konteksti

Saatat huomata, että puhelinkeskuksen nauhoitteissa testien aikana tekemien virheiden määrä on melko suuri. Jos puhuisit ystävällesi, joka ei ymmärtänyt yhtä sanaa 20:stä, sinun olisi erittäin vaikea kommunikoida.

Yksi syy tähän on tunnustaminen ilman kontekstia. Käytämme tosielämässä monia erilaisia ​​lisävihjeitä, jotka auttavat meitä ymmärtämään, mitä toinen henkilö sanoo. Joitakin esimerkkejä ihmisten käyttämistä konteksteista, jotka puheentunnistimet jättävät huomiotta:

Keskustelun historia ja käsiteltävä aihe.
Visuaalisia vihjeitä puhujasta - ilmeet, huulten liikkeet.
Tietokokonaisuus henkilöstä, jonka kanssa puhumme.

Nykyään Androidin puheentunnistimessa on luettelo yhteystiedoistasi, joten se voi tunnistaa ystäviesi nimet. Karttojen puhehaku käyttää maantieteellistä sijaintia rajatakseen vaihtoehtoja, joihin haluat saada reittiohjeet.

Tunnistusjärjestelmien tarkkuus kasvaa, kun tällaisia ​​signaaleja sisällytetään dataan. Mutta olemme vasta alkamassa syventyä siihen, minkä tyyppistä kontekstia saatamme sisällyttää käsittelyyn ja miten voimme käyttää sitä.

Käyttöönotto

Puhutun kielentunnistuksen viimeaikaisia ​​edistysaskeleita ei voida paljastaa. Kun kuvittelet puheentunnistusalgoritmin käyttöönoton, sinun on pidettävä mielessä latenssi ja prosessointiteho. Nämä parametrit liittyvät toisiinsa, koska tehovaatimuksia lisäävät algoritmit lisäävät myös latenssia. Mutta yksinkertaisuuden vuoksi keskustelemme niistä erikseen.

Latenssi: aika käyttäjän puheen lopusta transkription vastaanottamisen loppuun. Pieni viive on tyypillinen tunnistamisen vaatimus. Se vaikuttaa suuresti käyttäjän kokemuksiin tuotteen kanssa työskentelystä. Kymmenien millisekuntien rajoitukset ovat yleisiä. Tämä saattaa tuntua liian rajoittavalta, mutta muista, että transkription tuottaminen on yleensä ensimmäinen askel monimutkaisten laskelmien sarjassa. Esimerkiksi puhe-Internet-haun tapauksessa puheentunnistuksen jälkeen sinulla on vielä aikaa suorittaa haku.

Kaksisuuntaiset toistuvat kerrokset ovat tyypillinen esimerkki parannuksesta, joka pahentaa latenssia. Kaikki uusimmat korkealaatuiset transkriptiotulokset saadaan heidän avullaan. Ainoa ongelma on, että emme voi laskea mitään sen jälkeen, kun ensimmäinen kaksisuuntainen kerros on mennyt läpi, ennen kuin henkilö on lopettanut puhumisen. Siksi viive kasvaa lauseen pituuden myötä.


Vasemmalla: Suora toistuminen mahdollistaa salauksen purkamisen alkamisen välittömästi. Oikealla: Kaksisuuntainen toistuminen vaatii odottamisen puheen loppuun ennen litteroinnin aloittamista.

Hyvää tapaa sisällyttää tulevaisuuden tiedot tehokkaasti puheentunnistukseen etsitään edelleen.

Laskentateho: Taloudelliset rajoitteet vaikuttavat tähän parametriin. Juhlan hinta on otettava huomioon jokaisen tunnistimen tarkkuuden parantumisen yhteydessä. Jos parannus ei saavuta taloudellista kynnystä, sitä ei oteta käyttöön.

Klassinen esimerkki jatkuvasta parantamisesta, jota ei koskaan oteta käyttöön, on yhteistyöpohjainen syväoppiminen. Virheiden määrän vähentäminen 1-2 % oikeuttaa harvoin laskentatehon lisäämisen 2-8-kertaiseksi. Myös nykyaikaiset toistuvien verkkojen mallit kuuluvat tähän luokkaan, koska niitä on erittäin kannattamatonta käyttää joukon liikeradan etsimisessä, vaikka uskon tilanteen muuttuvan tulevaisuudessa.

Haluan selventää, etten väitä, että tunnistustarkkuuden parantaminen laskennallisten kustannusten vakavalla kasvulla on hyödytöntä. Olemme jo nähneet, kuinka periaate "ensin hitaasti mutta varmasti, sitten nopeasti" toimii aiemmin. Asia on siinä, että ennen kuin parannus on riittävän nopea, sitä ei voida käyttää.

Seuraavien viiden vuoden aikana

Puheentunnistuksen alalla on edelleen monia ratkaisemattomia ja monimutkaisia ​​ongelmia. Heidän joukossa:

Uusien tiedontallennusjärjestelmien kykyjen laajentaminen, aksenttien tunnistaminen, puhe voimakkaan kohinan taustalla.
Kontekstin sisällyttäminen tunnustamisprosessiin.
Diarisointi ja lähteiden erottelu.
Semanttisten virheiden määrä ja innovatiiviset menetelmät tunnistajien arviointiin.
Erittäin pieni latenssi.

Odotan innolla edistystä, joka tapahtuu seuraavien viiden vuoden aikana näillä ja muilla rintamilla.

Tunnisteet: Lisää tunnisteita