Mis on teabe kodeerimine ja töötlemine? Teabe kodeerimine arvutis Arvuti kodeerimine

Arvutiteaduses toimub suur hulk infoprotsesse kasutades andmete kodeerimine. Seetõttu on selle protsessi mõistmine selle teaduse aluste mõistmisel väga oluline. Teabe kodeerimine viitab erinevates loomulikes keeltes (vene, inglise jne) kirjutatud sümbolite digitaalseks muutmise protsessile.

See tähendab, et teksti kodeerimisel omistatakse igale märgile konkreetne väärtus nullide ja ühtede kujul - .

Miks teavet kodeerida?

Esiteks peate vastama küsimusele milleks infot kodeerida? Fakt on see, et arvuti on võimeline töötlema ja salvestama ainult ühte tüüpi andmete esitusviisi - digitaalset. Seetõttu tuleb kogu selles sisalduv teave tõlkida keelde digitaalne vaade.

Teksti kodeerimise standardid

Selleks, et kõik arvutid saaksid sellest või teisest tekstist üheselt aru, on vaja kasutada üldtunnustatud teksti kodeerimise standardid. Muudel juhtudel on vaja täiendavat ümberkodeerimist või andmete ühildumatust.

ASCII

Kõige esimene arvuti märgikodeeringu standard oli ASCII (täisnimi - American Standard Code for Information Interchange). Mis tahes märgi kodeerimiseks kasutati ainult 7 bitti. Nagu mäletate, saate kodeerida ainult 27 tähemärki või 7 bitti kasutades 128 tähemärki. Sellest piisab ladina tähestiku suur- ja väiketähtede, araabia numbrite, kirjavahemärkide, aga ka teatud erimärkide komplekti, näiteks dollarimärgi - “$” kodeerimiseks. Teiste rahvaste tähestiku märkide (ka vene tähestiku märkide) kodeerimiseks oli aga vaja koodi täiendada 8 bitiseni (28=256 tähemärki). Samal ajal kasutas iga keel oma eraldi kodeeringut.

UNICODE

Olukorda oli vaja päästa ühilduvuse mõttes kodeerimistabelid. Seetõttu töötati aja jooksul välja uued ajakohastatud standardid. Praegu on kõige populaarsem kodeering nn UNICODE. Selles on iga märk kodeeritud kasutades 2 baiti, mis vastab 216=62536 erinevale koodile.

Graafika kodeerimise standardid

Pildi kodeerimiseks kulub palju rohkem baite kui märkide kodeerimiseks. Enamik arvutimällu salvestatud loodud ja töödeldud pilte on jagatud kahte põhirühma:

rastergraafika kujutised;
vektorgraafika pildid.

Rastergraafika

Rastergraafikas kujutab pilti värviliste punktide komplekt. Selliseid punkte nimetatakse piksliteks. Pilti suurendamisel muutuvad sellised punktid ruutudeks.

Mustvalge pildi kodeerimiseks kodeeritakse iga piksel ühe bitiga. Näiteks must on 0 ja valge on 1)

Meie varasema pildi saab kodeerida järgmiselt:

Mittevärviliste piltide kodeerimisel kasutatakse kõige sagedamini 256 halli tooni paletti, mis ulatub valgest mustani. Seetõttu piisab sellise gradatsiooni kodeerimiseks ühest baidist (28=256).

Värviliste kujutiste kodeerimisel kasutatakse mitmeid värviskeeme.

Praktikas kasutatakse neid sagedamini RGB värvimudel, kus kasutatakse vastavalt kolme põhivärvi: punane, roheline ja sinine. Muud värvitoonid saadakse nende põhivärvide segamisel.

Nii saadakse kolme värvi mudeli kodeerimiseks 256 tooniks üle 16,5 miljoni erineva värvitooni. See tähendab, et kodeerimiseks kasutatakse 3⋅8=24 bitti, mis vastab 3 baidile.

Loomulikult saab värviliste piltide kodeerimiseks kasutada minimaalset arvu bitte, kuid siis saab moodustada väiksema arvu värvitoone ja seetõttu langeb pildi kvaliteet oluliselt.

Pildi suuruse määramiseks peate korrutama pikslite arvu laiuse pikslite arvuga ja korrutama uuesti piksli enda suurusega baitides.

A- pikslite arv laiuses;
b- pikslite arv pikkuses;
I– ühe piksli suurus baitides.

Näiteks värviline pilt, mille suurus on 800⋅600 pikslit, võtab enda alla 60 000 baiti.

Vektorgraafika

Vektorgraafika objektid on kodeeritud täiesti erinevalt. Siin koosneb pilt joontest, millel võivad olla oma kõveruskoefitsiendid.

Heli kodeerimise standardid

Helid, mida inimene kuuleb, on õhu vibratsioon. Heli vibratsioon on laine levimise protsess.

Helil on kaks peamist omadust:

vibratsiooni amplituud - määrab heli tugevuse;
vibratsiooni sagedus - määrab heli tonaalsuse.

Heli saab mikrofoni abil muuta elektriliseks signaaliks. Heli kodeeritakse kindla etteantud ajavahemiku järel. Sel juhul mõõdetakse elektrisignaali suurust ja sellele määratakse binaarne väärtus. Mida sagedamini neid mõõtmisi tehakse, seda kõrgem on helikvaliteet.

700 MB CD mahutab umbes 80 minutit CD-kvaliteediga heli.

Video kodeerimise standardid

Nagu teate, koosnevad videoseeriad kiiresti muutuvatest fragmentidest. Kaadrivahetused toimuvad kiirusega vahemikus 24-60 kaadrit sekundis.

Videojada suuruse baitides määrab kaadri suurus (pikslite arv ekraani kohta kõrguses ja laiuses), kasutatud värvide arv ja kaadrite arv sekundis. Kuid koos sellega võib olla ka heliriba.

Sama teavet saab esitada mitmel kujul. Põhilised kodeerimismeetodid võimaldavad seda tänapäeva maailmas teha. Pärast arvutitehnoloogia tulekut tekkis vajadus kodeerida igasugust teavet, millega inimene töötab. Kuid seda tüüpi probleemide lahendamine algas juba ammu enne arvutite tulekut.

Navigaator meetodite järgi

1 viis. Binaarne kodeerimine.

Binaarset kodeerimist peetakse üheks kõige populaarsemaks ja levinumaks teabe esitamise meetodiks. Arvutite, robotite ja arvjuhtimisega masinatega töötamisel kodeeritakse teave enamasti kahendtähestiku sõnade kujul.

Huvitav: 10 võimalust draivi C puhastamiseks

2. meetod. Lühikiri.

See meetod on klassifitseeritud tekstiteabe kodeerimiseks erimärkide abil. See meetod on kõnekeele salvestamisel kiireim. Stenograafiaoskused on vaid mõnel eriväljaõppe saanud inimesel, keda nimetatakse stenograafideks. Sellistel inimestel õnnestub tekst üles kirjutada sünkroonselt kõneleja kõnega.

3 viis. Sünkroonimine.

Digitaalse teabega töötamise protsessis on sünkroniseerimine eriti oluline. Teabe lugemise või salvestamise ajal on oluline täpselt kindlaks määrata iga märgi muutmise aeg. Kui sünkroonimist ei toimu, võib märgivahetuse periood olla valesti määratud. Selle tulemusena tekib paratamatult andmete kadu või riknemine.

4 moodi. Jooksu pikkus piiratud – RLL.

Tänapäeval on üks populaarsemaid meetodeid teabe kodeerimine salvestusvälja pikkuse piiranguga. Tänu sellele meetodile saab kettale paigutada poolteist korda rohkem andmeid kui MFM-meetodil salvestamise käigus. Seda meetodit kasutades ei kodeerita ühtki bitti, vaid tervet rühma.

Huvitav: 10 võimalust failide varguse eest kaitsmiseks

5 viis. Konversioonitabelid.

Konversioonitabel on tabel, mis sisaldab erilisel viisil järjestatud kodeeritud märkide loendit. Vastavalt sellele teisendatakse sümbol selle kahendkoodiks ja vastupidi.

6 viis. Maatriksmeetod.

Graafiliste piltide kodeerimise maatrikspõhimõte seisneb selles, et pilt jagatakse etteantud arvuks veergudeks ja ridadeks. Pärast seda kodeeritakse saadud ruudustiku iga element vastavalt valitud reeglile.

Nüüd kirjuta kommentaar!

Kood on kokkulepete (või signaalide) kogum teatud eelmääratletud mõistete salvestamiseks (või edastamiseks).

Teabe kodeerimine on teabe konkreetse esituse moodustamise protsess. Kitsamas tähenduses mõistetakse terminit "kodeerimine" sageli kui üleminekut ühelt teabe esitusviisilt teisele, mis on mugavam salvestamiseks, edastamiseks või töötlemiseks.

Tavaliselt tähistatakse kodeerimisel (mida mõnikord nimetatakse krüptimiseks) iga pilti eraldi märgiga.

Märk on teineteisest eristuvate elementide piiratud hulga element.

Kitsamas tähenduses mõistetakse terminit "kodeerimine" sageli kui üleminekut ühelt teabe esitusviisilt teisele, mis on mugavam salvestamiseks, edastamiseks või töötlemiseks.

Arvuti suudab töödelda ainult numbrilisel kujul esitatud teavet. Kogu muu info (näiteks helid, pildid, instrumentide näidud jne) tuleb arvutis töötlemiseks arvulisele kujule teisendada. Näiteks muusikalise heli kvantifitseerimiseks saab mõõta heli intensiivsust kindlatel sagedustel lühikeste ajavahemike järel, esitades iga mõõtmise tulemused numbrilisel kujul. Arvutiprogrammide abil saab saadud infot teisendada, näiteks erinevatest allikatest pärit helisid üksteise peale “peale asetada”.

Samamoodi saab tekstiteavet töödelda arvutis. Arvutisse sisestamisel kodeeritakse iga täht kindla numbriga ning välisseadmetele (ekraanile või printimisele) väljastamisel konstrueeritakse nendest numbritest inimese tajumiseks tähtede kujutised. Tähtede ja numbrite komplekti vastavust nimetatakse märgikodeeringuks.

Reeglina esitatakse arvutis kõik numbrid nullide ja ühtedega (mitte kümnekohaliste numbritega, nagu inimestel tavaks). Teisisõnu, arvutid töötavad tavaliselt kahendarvusüsteemis, kuna see muudab nende töötlemise seadmed palju lihtsamaks. Numbrite arvutisse sisestamine ja inimlikuks lugemiseks väljastamine saab toimuda tavalisel kümnendkujul ning kõik vajalikud teisendused teostavad arvutis töötavad programmid.

Teabe kodeerimise meetodid.

Sama teavet saab esitada (kodeerida) mitmel kujul. Arvutite tulekuga tekkis vajadus kodeerida igat tüüpi teavet, millega nii üksikisik kui ka inimkond tervikuna tegelevad. Kuid inimkond hakkas teabe kodeerimise probleemi lahendama juba ammu enne arvutite tulekut. Inimkonna grandioossed saavutused - kirjutamine ja arvutamine - pole midagi muud kui kõne ja numbrilise teabe kodeerimise süsteem. Informatsioon ei ilmu kunagi puhtal kujul, see on alati kuidagi esitatud, kuidagi kodeeritud.

Binaarne kodeerimine on üks levinumaid teabe esitamise viise. Arvutites, robotites ja arvjuhtimisega masinates on reeglina kogu teave, millega seade tegeleb, kodeeritud kahendtähestiku sõnade kujul.

Sümboolse (teksti)info kodeerimine.

Peamine üksikute tekstimärkidega tehtav toiming on märkide võrdlemine.

Märkide võrdlemisel on kõige olulisemad aspektid iga märgi koodi unikaalsus ja selle koodi pikkus ning kodeerimisprintsiibi valik ise on praktiliselt ebaoluline.

Tekstide kodeerimiseks kasutatakse erinevaid teisendustabeleid. Oluline on, et sama teksti kodeerimisel ja dekodeerimisel kasutataks sama tabelit.

Konversioonitabel on tabel, mis sisaldab mingil viisil järjestatud kodeeritud märkide loendit, mille järgi märk teisendatakse oma kahendkoodiks ja tagasi.

Kõige populaarsemad teisendustabelid: DKOI-8, ASCII, CP1251, Unicode.

Ajalooliselt valiti märgikodeeringu koodi pikkuseks 8 bitti või 1 baiti. Seetõttu vastab enamasti üks arvutisse salvestatud teksti märk ühele mälubaidile.

8-bitise koodi pikkusega võib olla 28 = 256 erinevat 0 ja 1 kombinatsiooni, seega ei saa ühe teisendustabeli abil kodeerida rohkem kui 256 tähemärki. Koodi pikkusega 2 baiti (16 bitti) saab kodeerida 65536 tähemärki.

Numbrilise teabe kodeerimine.

Sarnasus numbrilise ja tekstilise teabe kodeerimisel on järgmine: seda tüüpi andmete võrdlemiseks peab erinevatel numbritel (nagu ka erinevatel tähemärkidel) olema erinev kood. Peamine erinevus arvandmete ja sümboolsete andmete vahel seisneb selles, et lisaks võrdlustehtele tehakse arvudega erinevaid matemaatilisi tehteid: liitmine, korrutamine, juure eraldamine, logaritmi arvutamine jne. Nende tehtete sooritamise reeglid matemaatikas on üksikasjalikult välja töötatud positsioonilises numbrisüsteemis esitatud numbrite jaoks.

Põhiline arvusüsteem arvude esitamiseks arvutis on kahendpositsiooniline numbrisüsteem.

Tekstiteabe kodeerimine

Praegu kasutab enamik kasutajaid arvutit tekstiteabe töötlemiseks, mis koosneb sümbolitest: tähed, numbrid, kirjavahemärgid jne. Arvutame välja, kui palju sümboleid ja kui palju bitte vajame.

10 numbrit, 12 kirjavahemärki, 15 aritmeetilist sümbolit, vene ja ladina tähestiku tähed, KOKKU: 155 tähemärki, mis vastab 8 bitile informatsiooni.

Teabe mõõtühikud.

1 bait = 8 bitti

1 KB = 1024 baiti

1 MB = 1024 KB

1 GB = 1024 MB

1 TB = 1024 GB

Kodeerimise olemus seisneb selles, et igale märgile määratakse kahendkood vahemikus 00000000 kuni 11111111 või vastav kümnendkood vahemikus 0 kuni 255.

Tuleb meeles pidada, et praegu kasutatakse vene tähtede kodeerimiseks viit erinevat kooditabelit (KOI - 8, CP1251, CP866, Mac, ISO) ja ühe tabeli abil kodeeritud tekste ei kuvata teises õigesti.

Märgikodeeringu põhikuva on ASCII kood – Ameerika standardkood teabevahetuseks, mis on 16 x 16 tabel, kus märgid on kodeeritud kuueteistkümnendsüsteemis.

Graafilise teabe kodeerimine.

Graafilise kujutise kodeerimise oluline samm on selle jagamine diskreetseteks elementideks (sampling).

Peamised viisid graafika esitamiseks arvuti abil salvestamiseks ja töötlemiseks on raster- ja vektorkujutised

Vektorkujutis on graafiline objekt, mis koosneb elementaarsetest geomeetrilistest kujunditest (enamasti segmentidest ja kaartest). Nende elementaarsete segmentide asukoha määravad punktide koordinaadid ja raadius. Iga rea jaoks on näidatud binaarkoodid joone tüübi (ühtlane, punktiir, kriips-punktiga), paksuse ja värvi jaoks.

Rasterkujutis on punktide (pikslite) kogum, mis saadakse maatriksprintsiibi järgi pildi valimimise tulemusena.

Graafiliste piltide kodeerimise maatrikspõhimõte seisneb selles, et pilt jagatakse etteantud arvuks ridadeks ja veergudeks. Seejärel kodeeritakse saadud ruudustiku iga element vastavalt valitud reeglile.

Piksel (pildielement) on pildi minimaalne ühik, mille värvi ja heledust saab määrata ülejäänud pildist sõltumatult.

Maatrikspõhimõtte kohaselt konstrueeritakse kujutised, väljastatakse need printerisse, kuvatakse kuvaril ja saadakse skanneri abil.

Mida kõrgem on pildikvaliteet, seda tihedamad on pikslid, st seda suurem on seadme eraldusvõime ja seda täpsemalt on nende iga värv kodeeritud.

Mustvalge pildi puhul määratakse iga piksli värvikood ühe bitiga.

Kui pilt on värviline, määratakse iga punkti jaoks selle värvi kahendkood.

Kuna värvid on kodeeritud binaarkoodis, siis kui soovid näiteks kasutada 16-värvilist pilti, siis vajad iga piksli kodeerimiseks 4 bitti (16=24) ja kui on võimalik kasutada 16 bitti (2 baiti) ühe piksli värvi kodeerimiseks, siis saate edastada 216 = 65536 erinevat värvi. Kolme baiti (24 bitti) kasutamine ühe punkti värvi kodeerimiseks võimaldab teil kajastada 16 777 216 (ehk umbes 17 miljonit) erinevat värvitooni – nn tõelise värvi režiimi. Pange tähele, et neid kasutatakse praegu, kuid need on kaugel tänapäevaste arvutite maksimaalsetest võimalustest.

Heliteabe kodeerimine.

Oma füüsikakursusest teate, et heli on õhu vibratsioon. Oma olemuselt on heli pidev signaal. Kui muudame heli elektrisignaaliks (näiteks mikrofoni kasutades), näeme, et pinge muutub aja jooksul sujuvalt.

Arvutitöötluseks tuleb analoogsignaal kuidagi teisendada kahendarvude jadaks ning selleks tuleb see diskreedida ja digiteerida.

Saate teha järgmist: mõõta signaali amplituudi korrapäraste ajavahemike järel ja kirjutada saadud arvväärtused arvuti mällu.

Teabe kodeerimine. Teabe teisendamisel ühest esitusvormist (märgisüsteemist) teise viiakse läbi kodeerimine. Kodeerimistööriist on vastavustabel, mis loob kahe erineva märgisüsteemi märkide või märgirühmade vahel üks-ühele vastavuse.

Teabevahetuse protsessis on sageli vaja teha teabe kodeerimise ja dekodeerimise toiminguid. Kui sisestate arvutisse tähestiku, vajutades klaviatuuril vastavat klahvi, siis see kodeeritakse, st teisendatakse arvutikoodiks. Märgi kuvamisel monitori ekraanil või printeril toimub vastupidine protsess - dekodeerimine, kui märk teisendatakse arvutikoodist graafiliseks pildiks.

Pildi ja heli kodeerimine. Teavet, sealhulgas graafilist ja heli, saab esitada analoog- või diskreetsel kujul. Analoogesitusel omandab füüsiline suurus lõpmatu arvu väärtusi ja selle väärtused muutuvad pidevalt. Diskreetse esituse korral omandab füüsiline suurus lõpliku väärtuste hulga ja selle väärtus muutub järsult.

Graafilise teabe analoogkujutuse näide on näiteks maal, mille värv muutub pidevalt, diskreetne esitus on aga tindiprinteri abil prinditud kujutis, mis koosneb eri värvi üksikutest punktidest.

Heliinfo analoogsalvestuse näiteks on vinüülplaat (heliriba muudab oma kuju pidevalt), diskreetne aga audio-CD (mille heliriba sisaldab erineva peegelduvusega alasid).

Graafiline ja heliteave analoogvormist diskreetseks teisendatakse diskreetsusega, st pideva graafilise kujutise ja pideva (analoogse) helisignaali jagamisega eraldi elementideks. Diskreetimisprotsess hõlmab kodeerimist, st igale elemendile konkreetse väärtuse määramist koodi kujul.

Sampling on pidevate kujutiste ja heli teisendamine diskreetsete väärtuste kogumiks, millest igaühele on määratud oma koodi väärtus.

Info kodeerimine elusorganismides. Geneetiline informatsioon määrab elusorganismide ehituse ja arengu ning on päritav. Geneetiline informatsioon salvestub organismide rakkudesse DNA (desoksüribonukleiinhappe) molekulide struktuuris. DNA molekulid koosnevad neljast erinevast komponendist (nukleotiidist), mis moodustavad geneetilise tähestiku.

Inimese DNA molekul sisaldab umbes kolme miljardit nukleotiidipaari ja see kodeerib kogu infot inimkeha kohta: selle välimust, tervist või vastuvõtlikkust haigustele, võimeid jne.

6. Teema “Informatsioon ja juhtimine” põhimõisted: teabe numbriline ja sümboolne kodeerimine