Robots.txt on teenusefail, mis on soovituslik otsingumootorite juurdepääsu piiramiseks veebidokumentide sisule. Selles artiklis vaatleme faili Robots.txt seadistamist, kirjeldame juhiseid ja koostame selle populaarsete CMS-ide jaoks.

See Roboti fail asub teie saidi juurkataloogis ja seda saab avada/redigeerida lihtsa märkmikuga, soovitan Notepad++. Kellele lugeda ei meeldi, on VIDEO, vaata artikli lõpust 😉

Miks vajate faili robots.txt?

Nagu eespool ütlesin, saame robots.txt faili kasutades piirata otsingurobotite juurdepääsu dokumentidele, s.t. mõjutame otseselt saidi indekseerimist. Enamasti blokeeritakse nende indekseerimine:

  • Teenindusfailid ja CMS-kaustad
  • Duplikaadid
  • Dokumendid, mis pole kasutajale kasulikud
  • Pole ainulaadsed lehed

Vaatame konkreetset näidet:

Jalatseid müüv veebipood on rakendatud ühes populaarses CMS-is ja mitte parimal viisil. Võin kohe öelda, et otsingutulemustes on otsingulehed, leheküljed, ostukorvi, mõned mootorifailid jne. Kõik need on duplikaadid ja teenusefailid, mis on kasutaja jaoks kasutud. Seetõttu tuleks need indekseerimisest sulgeda ja kui seal on ka jaotis "Uudised", kuhu kopeeritakse ja kleebitakse erinevaid huvitavaid artikleid konkurentide saitidelt, siis pole vaja sellele mõelda, sulgeme selle kohe.

Seetõttu loome kindlasti faili robots.txt, et tulemustesse ei satuks prügi. Ärge unustage, et fail tuleks avada aadressil http://site.ru/robots.txt.

Faili Robots.txt direktiivid ja konfiguratsioonireeglid

Kasutaja agent. See on üleskutse konkreetsele otsingumootori robotile või kõigile robotitele. Kui on määratud konkreetne roboti nimi, näiteks “YandexMedia”, siis üldisi kasutajaagendi direktiive selle jaoks ei kasutata. Kirjutamise näide:

Kasutajaagent: YandexBot Disallow: /cart # kasutab ainult peamine Yandexi indekseerimisrobot

Keela/Luba. See on keeld/luba konkreetse dokumendi või jaotise indekseerimiseks. Kirjutamise järjekord ei oma tähtsust, kuid kui on 2 käskkirja ja sama eesliide, on "Luba" ülimuslik. Otsingurobot loeb neid eesliite pikkuse järgi väikseimast suurimani. Kui peate lehe indekseerimise keelama, sisestage lihtsalt selle suhteline tee (Disallow: /blog/post-1).

Kasutajaagent: Yandex Disallow: / Allow: /articles # Keelame saidi indekseerimise, välja arvatud 1 jaotise artiklid

Regulaaravaldised * ja $-ga. Tärn tähendab mis tahes märgijada (ka tühjad). Dollari märk tähendab katkestust. Kasutamise näited:

Disallow: /page* # keelab kõik lehed, konstruktsioonid http://site.ru/page Disallow: /arcticles$ # keelab ainult lehe http://site.ru/articles, lubades lehti http://site.ru/ artiklid /uus

Saidiplaani direktiiv. Kui kasutate seda, siis failis robots.txt peaks see olema märgitud järgmiselt:

Saidiplaan: http://site.ru/sitemap.xml

Hosti direktiiv. Nagu teate, on saitidel peeglid (lugesime,). See reegel suunab otsinguroti teie ressursi peamisele peeglile. Viitab Yandexile. Kui teil on peegel ilma WWWta, siis kirjutage:

Host: site.ru

Roomamise viivitus. Määrab viivituse (sekundites) roboti dokumentide allalaadimise vahel. See on kirjutatud Keela/Luba käskude järel.

Roomamise viivitus: 5 # ajalõpp 5 sekundiga

Clean-param. Näitab otsingubotile, et täiendavat dubleerivat teavet (seansi identifikaatorid, suunajad, kasutajad) pole vaja alla laadida. Dünaamiliste lehtede jaoks tuleks määrata Clean-param:

Clean-param: ref /category/books # näitame, et meie leht on peamine ja http://site.ru/category/books?ref=yandex.ru&id=1 on sama leht, kuid parameetritega

Peamine reegel: robots.txt peab olema kirjutatud väiketähtedega ja asuma saidi juurtes. Faili struktuuri näide:

Kasutajaagent: Yandex Disallow: /cart Luba: /cart/images Saidiplaan: http://site.ru/sitemap.xml Host: site.ru Roomamise viivitus: 2

Meta robotite silt ja selle kirjutamine

Seda lehtede keelamise võimalust arvestab Google otsingumootor paremini. Yandex võtab mõlemat võimalust võrdselt hästi arvesse.

Sellel on 2 direktiivi: jälgi/ei jälgi Ja indeks/noindex. See on linkide jälgimise luba/keeld ja dokumentide indekseerimise luba/keeld. Direktiive saab kirjutada koos, vt allolevat näidet.

Märgendisse saate kirjutada iga üksiku lehe jaoks järgnev:

Parandage populaarse CMS-i jaoks failid robots.txt

Robots.txt näide WordPressi jaoks

Allpool näete minu versiooni sellest SEO blogist.

Kasutajaagent: Yandex Disallow: /wp-content/uploads/ Luba: /wp-content/uploads/*/*/ Keela: /wp-login.php Keela: /wp-register.php Keela: /xmlrpc.php Keela : /template.html Keela: /cgi-bin Keela: /wp-admin Keela: /wp-includes Keela: /wp-content/plugins Keela: /wp-content/cache Keela: /wp-content/themes Keela: / wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Keela: */feed Disallow: */comments Disallow: /tag Keela: /archive Disallow: */trackback/ Keela: */feed/ Keela: */comments/ Disallow: /?feed= Disallow: /?.php Keela: /wp-register.php Keela: /xmlrpc.php Keela: /template.html Keela: /cgi-bin Keela: /wp-admin Keela: /wp-includes Keela: /wp-content/plugins Keela: /wp-content/cache Keela: /wp-content/themes Keela: /wp-trackback Keela: /wp-feed Keela: /wp-comments Keela: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Keela: /?. xml

Ma keelan tagasiteed, kuna see dubleerib kommentaarides artiklit. Ja kui trackbacke on palju, saate hunniku identseid kommentaare.

Püüan sulgeda mis tahes CMS-i teeninduskaustad ja failid, kuna... Ma ei taha, et neid indeksisse lisataks (kuigi otsingumootorid neid niikuinii ei võta, kuid see ei lähe halvemaks).

Söödad tuleks sulgeda, sest Need on osalised või täielikud dubleerivad lehed.

Suleme sildid, kui me neid ei kasuta või kui oleme liiga laisad, et neid optimeerida.

Näited muudele CMS-idele

Soovitud CMS-i jaoks õigete robotite allalaadimiseks klõpsake lihtsalt vastavat linki.

Tere, kallid ajaveebi “Veebimeistrite maailm” lugejad!

Fail robots.txt– see on väga oluline fail, mis mõjutab otseselt teie saidi indekseerimise kvaliteeti ja seega ka selle otsingumootori reklaamimist.

Seetõttu peate oskama faili robots.txt õigesti vormindada, et mitte kogemata keelata Interneti-projekti oluliste dokumentide indeksisse lisamist.

Selles artiklis käsitletakse seda, kuidas vormindada faili robots.txt, millist süntaksit kasutada, kuidas dokumente registrisse lubada ja keelata.

Teave faili robots.txt kohta

Kõigepealt uurime üksikasjalikumalt, mis tüüpi fail see on.

Failirobotid on fail, mis näitab otsingumootoritele, milliseid saidi lehti ja dokumente saab registrisse lisada ja milliseid mitte. See on vajalik, sest algselt püüavad otsingumootorid kogu saiti indekseerida ja see pole alati õige. Näiteks kui loote saiti mootoris (WordPress, Joomla jne), siis on teil kaustad, mis korraldavad halduspaneeli tööd. On selge, et nendes kaustades olevat teavet ei saa indekseerida, sel juhul kasutatakse faili robots.txt, mis piirab juurdepääsu otsingumootoritele.

Fail robots.txt sisaldab ka saidikaardi aadressi (see parandab otsingumootorite indekseerimist) ja saidi põhidomeeni (peapeegel).

Peegel– see on saidi absoluutne koopia, st. kui on üks sait, siis öeldakse, et üks neist on põhidomeen ja teine ​​on selle peegel.

Seega on failil üsna palju funktsioone ja seejuures olulisi!

Faili Robots.txt süntaks

Robotifail sisaldab reeglite plokke, mis ütlevad konkreetsele otsingumootorile, mida saab indekseerida ja mida mitte. Reeglite plokk võib olla üks (kõigi otsingumootorite jaoks), aga neid võib olla ka mitu – mõne konkreetse otsingumootori jaoks eraldi.

Iga selline plokk algab operaatoriga „User-Agent”, mis näitab, millisele otsingumootorile need reeglid kehtivad.

kasutaja-Agent:A
(reeglid robotile A)

kasutaja-Agent:B
(reeglid robotile "B")

Ülaltoodud näide näitab, et operaatoril “User-Agent” on parameeter – otsingumootori roboti nimi, millele reegleid rakendatakse. Toon välja peamised:

Pärast "Kasutajaagenti" on teised operaatorid. Siin on nende kirjeldus:

Kõigil operaatoritel on sama süntaks. Need. operaatoreid tuleks kasutada järgmiselt:

Operaator1: parameeter1

Operaator2: parameeter2

Seega kirjutame kõigepealt operaatori nime (ükskõik, kas suurte või väikeste tähtedega), seejärel paneme kooloni ja märgime tühikuga eraldatuna selle operaatori parameetri. Seejärel, alustades uuest reast, kirjeldame operaatorit kaks samal viisil.

Tähtis!!! Tühi rida tähendab, et selle otsingumootori reeglite plokk on valmis, seega ärge eraldage avaldusi tühja reaga.

Faili robots.txt näide

Vaatame lihtsat näidet failist robots.txt, et selle süntaksi funktsioone paremini mõista:

Kasutajaagent: Yandex
Luba: /kaust1/
Keela: /fail1.html
Host: www.site.ru

Kasutaja agent: *
Keela: /document.php
Keela: /folderxxx/
Keela: /folderyyy/folderzzz
Keela: /feed/

Saidiplaan: http://www.site.ru/sitemap.xml

Vaatame nüüd kirjeldatud näidet.

Fail koosneb kolmest plokist: esimene on Yandexi jaoks, teine ​​​​kõikide otsingumootorite jaoks ja kolmas sisaldab saidiplaani aadressi (rakendatakse automaatselt kõigi otsingumootorite jaoks, seega pole vaja "Kasutajaagenti" määrata). Lubasime Yandexil indekseerida kausta "kaust1" ja kogu selle sisu, kuid keelasime tal indekseerida hosti juurkataloogis asuvat dokumenti "file1.html". Samuti osutasime Yandexile saidi peamise domeeni. Teine plokk on mõeldud kõigile otsingumootoritele. Seal keelustasime dokumendi "document.php", samuti kaustad "folderxxx", "folderyyy/folderzzz" ja "feed".

Pange tähele, et indeksi teises käskude plokis ei keelanud me tervet kausta “folderyyy”, vaid ainult selles kaustas olevat kausta – “folderzzz”. Need. oleme andnud "folderzzz" jaoks täieliku tee. Seda tuleks alati teha, kui keelame dokumendi, mis asub mitte saidi juurkataloogis, vaid kusagil teistes kaustades.

Loomiseks kulub vähem kui kaks minutit:

Loodud robotifaili funktsionaalsust saab kontrollida Yandexi veebihalduri paneelil. Kui failis leitakse äkki vigu, näitab Yandex seda.

Kui teil seda veel pole, looge kindlasti oma saidi jaoks fail robots.txt. See aitab teie saidil otsingumootorites areneda. Samuti saate lugeda meie teist artiklit metasiltide ja .htaccessi meetodi kohta.

Kiire navigeerimine sellel lehel:

Tänapäeva reaalsus on see, et RuNetis ei saa ükski endast lugupidav sait hakkama ilma failita robots.txt – isegi kui teil pole indekseerimist midagi keelata (kuigi peaaegu igal saidil on tehnilisi lehti ja dubleeritud sisu, mis nõuavad indekseerimise sulgemist ), siis Minimaalselt tasub Yandexi jaoks kindlasti registreerida käskkiri www-ga ja ilma www-ta – selleks on mõeldud robots.txt kirjutamise reeglid, millest allpool juttu tuleb.

Mis on robots.txt?

Selle nimega fail pärineb aastast 1994, mil W3C konsortsium otsustas sellise standardi kasutusele võtta, et saidid saaksid pakkuda otsingumootoritele indekseerimisjuhiseid.

Selle nimega fail tuleb salvestada saidi juurkataloogi, selle paigutamine teistesse kaustadesse ei ole lubatud.

Fail täidab järgmisi funktsioone:

  1. keelab mis tahes lehtede või leherühmade indekseerimise
  2. võimaldab mis tahes lehti või leherühmi indekseerida
  3. näitab Yandexi robotile, milline saidi peegel on peamine (www-ga või ilma www)
  4. näitab saidiplaani faili asukohta

Kõik neli punkti on veebisaidi otsingumootoritele optimeerimise jaoks äärmiselt olulised. Indekseerimise blokeerimine võimaldab blokeerida topeltsisu sisaldavate lehtede indekseerimise – näiteks sildilehed, arhiivid, otsingutulemused, prinditavate versioonidega lehed ja nii edasi. Dubleeriva sisu olemasolu (kui sama tekst, isegi mitme lause suuruses, on kahel või enamal lehel) on saidi jaoks otsingumootori pingereas miinus, seetõttu peaks duplikaate olema võimalikult vähe.

Lubamiskäskkirjal pole iseseisvat tähendust, kuna vaikimisi on kõik lehed indekseerimiseks juba saadaval. See töötab koos keelamisega – kui näiteks teatud kategooria on otsingumootoritest täielikult suletud, kuid soovite avada selle või selles eraldi lehe.

Saidi põhipeeglile osutamine on ka optimeerimise üks olulisemaid elemente: otsingumootorid näevad saite www.yoursite.ru ja yoursite.ru kahe erineva ressursina, kui te ei ütle neile otse teisiti. Tulemuseks on sisu kahekordistumine – duplikaatide ilmumine, välislinkide tugevuse vähenemine (välislinke saab paigutada nii www-ga kui ka ilma www-ta) ning selle tulemusena võib see kaasa tuua madalama asetuse otsingutulemustes.

Google'i jaoks on peamine peegel registreeritud veebihalduri tööriistades (http://www.google.ru/webmasters/), kuid Yandexi jaoks saab neid juhiseid registreerida ainult samas robots.tkht-s.

Saidiplaaniga XML-failile osutamine (nt sitemap.xml) võimaldab otsingumootoritel seda faili tuvastada.

User-agendi määramise reeglid

Kasutajaagent on sel juhul otsingumootor. Juhiste kirjutamisel peate märkima, kas need kehtivad kõikidele otsingumootoritele (sel juhul on märgitud tärn - *) või on need mõeldud konkreetsele otsingumootorile - näiteks Yandexile või Google'ile.

Kõiki roboteid näitava kasutajaagendi määramiseks kirjutage oma faili järgmine rida:

Kasutaja agent: *

Yandexi jaoks:

Kasutajaagent: Yandex

Google'i jaoks:

Kasutajaagent: GoogleBot

Keelamise ja lubamise määramise reeglid

Esiteks tuleb märkida, et faili robots.txt kehtivus peab sisaldama vähemalt ühte keelamiskäsku. Vaatame nüüd konkreetsete näidete abil nende direktiivide rakendamist.

Selle koodi abil saate indekseerida saidi kõiki lehti:

Kasutajaagent: * Keela:

Ja selle koodiga suletakse kõik lehed vastupidi:

Kasutajaagent: * Keela: /

Konkreetse kausta nimega kataloogi indekseerimise keelamiseks määrake:

User-agent: * Disallow: /kaust

Tärne saate kasutada ka suvalise nime asendamiseks:

User-agent: * Disallow: *.php

Tähtis: tärn asendab kogu failinime, st te ei saa määrata faili*.php, ainult *.php (aga kõik .php laiendiga lehed on keelatud; selle vältimiseks saate määrata konkreetse lehe aadressi) .

Luba direktiivi, nagu eespool öeldud, kasutatakse keelamise korral erandite loomiseks (muidu pole sellel mingit tähendust, kuna lehed on vaikimisi juba avatud).

Näiteks keelame arhiivikaustas olevate lehtede indekseerimise, kuid jätame selle kataloogi lehe index.html avatuks:

Luba: /archive/index.html Keela: /archive/

Määrake host ja saidikaart

Host on saidi peamine peegel (st domeeninimi pluss www või domeeninimi ilma selle eesliiteta). Host on määratud ainult Yandexi roboti jaoks (sel juhul peab olema vähemalt üks keelamiskäsk).

Hosti määramiseks peab fail robots.txt sisaldama järgmist kirjet:

Kasutajaagent: Yandex Disallow: Host: www.yoursite.ru

Mis puutub saidiplaani, siis failis robots.txt märgitakse saidiplaanile lihtsalt vastava faili täieliku tee kirjutamisega, märkides domeeninime:

Saidiplaan: http://yoursite.ru/sitemap.xml

Seal on kirjutatud, kuidas WordPressile saidiplaani teha.

Fati robots.txt näide WordPressi jaoks

WordPressi puhul tuleb juhised määrata nii, et sulguks indekseerimiseks kõik tehnilised kataloogid (wp-admin, wp-includes jne), samuti siltide, RSS-failide, kommentaaride ja otsingu abil loodud dubleerivad lehed.

Wordpressi jaoks mõeldud faili robots.txt näitena võite võtta faili meie veebisaidilt:

Kasutajaagent: Yandex Disallow: /wp-admin Keela: /wp-includes Keela: /wp-login.php Disallow: /wp-register.php Keela: /xmlrpc.php Keela: /search Keela: */trackback Keela: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Keela: /?s= Keela: */page/* Keela: */comment Keela: */tag/* Keela: */ manus/* Luba: /wp-content/uploads/ Host: www..php Keela: /wp-register.php Keela: /xmlrpc.php Keela: /search Keela: */trackback Keela: */feed/ Keela: * /feed Disallow: */comments/ Disallow: /?feed= Keela: /?s= Keela: */page/* Keela: */comment Keela: */tag/* Keela: */attachment/* Luba: /wp -content/uploads/ User-agent: * Disallow: /wp-admin Keela: /wp-includes Keela: /wp-login.php Keela: /wp-register.php Keela: /xmlrpc.php Keela: /search Keela: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Keela: /?s= Keela: */page/* Keela: */comment Keela: */tag/ * Keela: */attachment/* Luba: /wp-content/uploads/ Saidiplaan: https://www..xml

Faili robots.txt saate alla laadida meie veebisaidilt, kasutades .

Kui pärast selle artikli lugemist on teil endiselt küsimusi, küsige kommentaarides!

Robots.txt fail– .txt-vormingus tekstifail, mis piirab otsingurobotite juurdepääsu http-serveri sisule. Kuidas definitsioon, Robots.txt- See roboti erandi standard, mille W3C võttis vastu 30. jaanuaril 1994 ja mida enamik otsingumootoreid kasutab vabatahtlikult. Fail robots.txt koosneb juhiste komplektist otsingurobotite jaoks, et vältida saidi teatud failide, lehtede või kataloogide indekseerimist. Vaatleme faili robots.txt kirjeldust juhuks, kui sait ei piira robotite juurdepääsu saidile.

Lihtne näide failist robots.txt:

Kasutajaagent: * Luba: /

Siin võimaldavad robotid täielikult kogu saidi indekseerida.

Fail robots.txt tuleb üles laadida teie saidi juurkataloogi et see oleks saadaval aadressil:

Your_site.ru/robots.txt

Faili robots.txt paigutamine saidi juure nõuab tavaliselt juurdepääsu FTP-le. Mõned haldussüsteemid (CMS) võimaldavad aga faili robots.txt luua otse saidi juhtpaneelilt või sisseehitatud FTP-halduri kaudu.

Kui fail on saadaval, näete brauseris faili robots.txt sisu.

Milleks fail robots.txt on mõeldud?

Saidi Roots.txt on oluline aspekt. Miks vajate faili robots.txt?? Näiteks sisse SEO robots.txt on vajalik selleks, et jätta indekseerimisest välja leheküljed, mis ei sisalda kasulikku sisu ja palju muud.. Seda, kuidas, mida, miks ja miks välistatakse, on juba artiklis kirjeldatud, me siin ei peatu. Kas fail robots.txt on vajalik? kõigile saitidele? Jah ja ei. Kui faili robots.txt kasutamine eeldab lehtede otsingust väljajätmist, siis lihtsa struktuuriga väikeste saitide ja staatiliste lehtede puhul võivad sellised väljajätmised olla ebavajalikud. Kuid mõned võivad olla kasulikud väikese saidi jaoks robots.txt direktiivid, näiteks hosti või saidiplaani direktiiv, kuid sellest lähemalt allpool.

Kuidas luua faili robots.txt

Kuna robots.txt on tekstifail, ja selleks luua fail robots.txt, saate kasutada näiteks mis tahes tekstiredaktorit Märkmik. Kui olete uue tekstidokumendi avanud, olete juba alustanud faili robots.txt loomist, jääb üle vaid vastavalt oma vajadustele koostada selle sisu ja salvestada see nimega txt-vormingus tekstifail, mida nimetatakse robotiteks. Kõik on lihtne ja faili robots.txt loomine ei tohiks probleeme tekitada isegi algajatele. Allpool näitan teile näidete abil, kuidas koostada faili robots.txt ja mida robotites kirjutada.

Looge faili robots.txt võrgus

Valik laiskadele - looge veebis robotid ja laadige alla fail robots.txt juba valmis kujul. Internetis robotite txt loomine pakub palju teenuseid, valik on teie. Peaasi on selgelt aru saada, mis on keelatud ja mis lubatud, vastasel juhul faili robots.txt loomine võrgus võib muutuda tragöödiaks, mida võib hiljem olla raske parandada. Eriti kui otsing sisaldab midagi, mis oleks pidanud olema suletud. Olge ettevaatlik – kontrollige oma robotifaili enne selle saidile üleslaadimist. Siiski kohandatud fail robots.txt peegeldab täpsemalt piirangute struktuuri kui see, mis loodi automaatselt ja laaditi alla teiselt saidilt. Lugege edasi, et teada saada, millele faili robots.txt redigeerimisel erilist tähelepanu pöörata.

Faili robots.txt redigeerimine

Kui teil on õnnestunud veebis või oma kätega luua fail robots.txt, saate seda teha redigeeri faili robots.txt. Selle sisu saad oma soovi järgi muuta, peaasi, et järgid mõningaid robots.txt reegleid ja süntaksit. Saidil töötades võib robotite fail muutuda ja kui muudate faili robots.txt, ärge unustage saidile üles laadida faili uuendatud, praegust versiooni koos kõigi muudatustega. Järgmisena vaatame faili seadistamise reegleid, et saaksime teada kuidas muuta faili robots.txt ja "ära haki puitu".

Faili robots.txt õige seadistus

Faili robots.txt õige seadistus võimaldab vältida privaatse teabe sattumist suuremate otsingumootorite otsingutulemustesse. Siiski ei tohiks seda unustada Käsud robots.txt pole muud kui tegevusjuhised, mitte kaitse. Usaldusväärsete otsingumootorite, nagu Yandex või Google, robotid järgivad faili robots.txt juhiseid, kuid teised robotid võivad neid kergesti ignoreerida. Faili robots.txt õige mõistmine ja rakendamine on tulemuste saavutamise võti.

Aru saama kuidas teha õigeid roboteid txt, peate kõigepealt mõistma faili robots.txt üldreegleid, süntaksit ja direktiive.

Õige robots.txt algab kasutajaagendi direktiiviga, mis näitab, millistele robotispetsiifilised direktiivid on adresseeritud.

Kasutajaagendi näited failis robots.txt:

# Näitab juhiseid kõigile robotitele korraga User-agent: * # Tähistab kõigi Yandexi robotite juhiseid User-agent: Yandex # Näitab juhiseid ainult Yandexi peamise indekseerimisroboti jaoks User-agent: YandexBot # Tähistab kõigi Google'i robotite käske Kasutaja -agent: Googlebot

Pange tähele, et selline faili robots.txt seadistamine käsib robotil kasutada ainult neid direktiive, mis vastavad kasutajaagendile tema nimele.

Fati robots.txt näide, milles on mitu User-agendi esinemist:

# Kasutavad kõik Yandexi robotid Kasutajaagent: Yandex Disallow: /*utm_ # Kasutavad kõik Google'i robotid User-agent: Googlebot Disallow: /*utm_ # Kasutavad kõik robotid, välja arvatud Yandexi robotid ja Google'i kasutaja- agent: * Luba: / *utm_

Kasutajaagendi käskkiri loob ainult juhise konkreetsele robotile ja kohe pärast User-agent käskkirja peaks olema käsk või käsud, mis näitavad otseselt valitud roboti tingimust. Ülaltoodud näide kasutab käskkirja "Disallow", mille väärtus on "/*utm_". Seega sulgeme kõik. Faili robots.txt õigesti seadistamine keelab tühjad reavahed käskude „User-agent”, „Disallow” ja käsule „Keela” järgnevate käskude vahel praeguses „Kasutajaagendis”.

Näide failis robots.txt valest reavahetusest:

Õige reavahetuse näide failis robots.txt:

Kasutajaagent: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=

Nagu näitest näha, failis robots.txt olevad juhised on plokkides, millest igaüks sisaldab juhiseid kas konkreetse roboti või kõigi robotite jaoks "*".

Samuti on oluline tagada käskude õige järjekord ja sortimine failis robots.txt, kui kasutate koos käske nagu "Keela" ja "Luba". Käsk „Luba” on lubav käsk ja on vastupidine käsklusele robots.txt „Disallow”, keelavale direktiivile.

Näide direktiivide kooskasutamisest failis robots.txt:

User-agent: * Allow: /blog/page Disallow: /blog

See näide takistab kõigil robotitel indekseerimast kõiki lehti, mis algavad tähega „/blog”, kuid võimaldab indekseerida kõiki lehti, mis algavad tähega „/blog/page”.

Eelmine näide failist robots.txt õiges sortimises:

User-agent: * Disallow: /blog Allow: /blog/page

Esmalt keelame kogu lõigu, seejärel lubame mõned osad sellest.

Teine õige robots.txt näideühisdirektiividega:

Kasutajaagent: * Luba: / Keela: /blogi Luba: /blogi/leht

Pöörake tähelepanu selles failis robots.txt olevate direktiivide õigele järjestusele.

"Allow" ja "Disallow" direktiive saab määrata ilma parameetriteta, sel juhul tõlgendatakse väärtust pöördvõrdeliselt parameetriga "/".

Näide käskkirjast „Keela/Luba” ilma parameetriteta:

User-agent: * Disallow: # samaväärne Allow: / Disallow: /blog Luba: /blog/page

Kuidas luua õiget faili robots.txt ja kuidas kasutada direktiivide tõlgendamist, on teie valik. Mõlemad variandid on õiged. Peaasi, et mitte segadusse sattuda.

Fati robots.txt korrektseks koostamiseks on vaja käskkirjade parameetrites täpselt märkida prioriteedid ja see, mis on keelatud robotite allalaadimisel. Allpool vaatleme direktiivide "Keela" ja "Luba" kasutamist põhjalikumalt, kuid nüüd vaatame faili robots.txt süntaksit. Faili robots.txt süntaksi tundmine viib teid lähemale looge oma kätega täiuslik robotite txt.

Robots.txt süntaks

Otsingumootori robotid järgivad vabatahtlikult faili robots.txt käske- standardne robotite erandite jaoks, kuid mitte kõik otsingumootorid ei käsitle faili robots.txt süntaksit ühtemoodi. Failil robots.txt on rangelt määratletud süntaks, kuid samal ajal kirjutage robotite txt pole keeruline, kuna selle struktuur on väga lihtne ja kergesti mõistetav.

Siin on konkreetne loend lihtsatest reeglitest, mida järgides te kõrvaldate levinud robots.txt vead:

  1. Iga käskkiri algab uuelt realt;
  2. Ärge määrake ühele reale rohkem kui ühte käskkirja;
  3. Ärge pange rea algusesse tühikut;
  4. Direktiivi parameeter peab olema ühel real;
  5. Ei ole vaja lisada direktiivi parameetreid jutumärkidesse;
  6. Direktiivi parameetrid ei nõua lõppsemikooloneid;
  7. Käsk failis robots.txt on määratud vormingus - [Directive_name]:[valikuline tühik][väärtus][valikuline tühik];
  8. Kommentaarid on failis robots.txt lubatud pärast räsimärki #;
  9. Tühja reavahetust võib tõlgendada kui User-agent direktiivi lõppu;
  10. Direktiiv "Disallow:" (tühja väärtusega) on samaväärne "Allow: /" - luba kõike;
  11. Käskkirjad „Luba” ja „Keela” määravad ainult ühe parameetri;
  12. Faili robots.txt nimi ei luba suuri tähti, failinime vale kirjapilt on Robots.txt või ROBOTS.TXT;
  13. Direktiivide ja parameetrite nimede kirjutamist suurtähtedega peetakse halvaks vormiks ja isegi kui robots.txt on standardi järgi tõstutundlik, on faili- ja katalooginimed sageli tõstutundlikud;
  14. Kui direktiivi parameeter on kataloog, siis eelneb kataloogi nimele alati kaldkriips “/”, näiteks: Disallow: /category
  15. Liiga suur robots.txt (üle 32 KB) loetakse täielikult lubatavaks, mis on võrdne "Disallow:";
  16. Robots.txt, mis on mingil põhjusel kättesaamatu, võib olla täiesti lubav;
  17. Kui faili robots.txt on tühi, käsitletakse seda täielikult lubavana;
  18. Mitme "User-agent" direktiivi ilma tühja reavahetuseta loetlemise tulemusena võidakse ignoreerida kõiki järgnevaid "User-agent" direktiive, välja arvatud esimene;
  19. Riigitähestiku märkide kasutamine failis robots.txt ei ole lubatud.

Kuna erinevad otsingumootorid võivad faili robots.txt süntaksit erinevalt tõlgendada, võib mõned klauslid välja jätta. Näiteks kui sisestate mitu käsku “User-agent” ilma tühja reavahetuseta, aktsepteerib Yandex õigesti kõiki “User-agent” käskkirju, kuna Yandex valib kirjed nende olemasolu alusel real “User-agent”.

Robotid peaksid rangelt näitama ainult seda, mida on vaja, ja mitte midagi üleliigset. Ära mõtle kuidas kirjutada kõike robotite txt-vormingus, mis on võimalik ja kuidas seda täita. Ideaalsed robotid txt on see, millel on vähem ridu, kuid rohkem tähendust. "Lühidus on vaimukuse hing". See väljend tuleb siin kasuks.

Kuidas kontrollida faili robots.txt

Selleks, et kontrollige faili robots.txt Faili süntaksi ja struktuuri õigsuse kontrollimiseks võite kasutada mõnda võrguteenust. Näiteks pakuvad Yandex ja Google veebihalduritele oma teenuseid, mis hõlmavad robots.txt analüüs:

Faili robots.txt kontrollimine Yandex.Webmasteris: http://webmaster.yandex.ru/robots.xml

Selleks, et kontrollige faili robots.txt võrgus vajalik laadige robots.txt üles juurkataloogis olevale saidile. Vastasel juhul võib teenus sellest teatada faili robots.txt laadimine ebaõnnestus. Soovitatav on esmalt kontrollida faili robots.txt saadavust sellel aadressil, kus fail asub, näiteks: your_site.ru/robots.txt.

Lisaks Yandexi ja Google'i kinnitusteenustele on Internetis palju muid robots.txt validaatorid.

Robots.txt vs Yandex ja Google

On subjektiivne arvamus, et Yandex tajub failis robots.txt eraldi käskkirjade ploki “User-agent: Yandex” viitamist positiivsemalt kui üldist käskudeplokki, millel on “User-agent: *”. Sarnane on olukord robots.txt ja Google'iga. Yandexi ja Google'i jaoks eraldi direktiivide määramine võimaldab teil kontrollida saidi indekseerimist faili robots.txt kaudu. Võib-olla on nad isiklikult meelitatud, eriti kuna enamiku saitide puhul on Yandexi, Google'i ja teiste otsingumootorite robots.txt-plokkide sisu sama. Harvade eranditega on kõik "Kasutajaagendi" plokid standard faili robots.txt jaoks direktiivide kogum. Samuti saate installida erinevate "kasutajaagentide" abil indekseerimise keeld failis robots.txt Yandexi jaoks, aga näiteks mitte Google'i jaoks.

Eraldi väärib märkimist, et Yandex võtab arvesse sellist olulist direktiivi nagu "Host" ja Yandexi õige robots.txt peaks sisaldama seda direktiivi, et näidata saidi peamist peegli. Allpool käsitleme "hosti" direktiivi üksikasjalikumalt.

Keela indekseerimine: robots.txt Disallow

Keela – keelav käskkiri, mida kasutatakse kõige sagedamini failis robots.txt. Disallow takistab saidi või selle osa indekseerimist, olenevalt käsu Disallow parameetris määratud teest.

Näide saidi indekseerimise takistamise kohta failis robots.txt:

Kasutajaagent: * Keela: /

See näide blokeerib kogu saidi indekseerimise kõigi robotite jaoks.

Parameeter Disallow lubab kasutada erimärke * ja $:

* - suvaline arv märke, näiteks parameeter /page* rahuldab /page, /page1, /page-be-cool, /page/kak-skazat jne. Siiski ei ole vaja iga parameetri lõppu määrata *, kuna näiteks järgmisi direktiive tõlgendatakse samamoodi:

Kasutajaagent: Yandex Disallow: /page Kasutajaagent: Yandex Disallow: /page*

$ – näitab erandi täpset vastet parameetri väärtusele:

Kasutajaagent: Googlebot Disallow: /page$

Sel juhul keelab käsk Disallow /page, kuid ei keela lehtede /page1, /page-be-cool või /page/kak-skazat indekseerimist.

Kui sule saidi indekseerimine robots.txt, võivad otsingumootorid sellele käigule vastata tõrkega "failis robots.txt blokeeritud" või "robots.txt-ga piiratud URL" (failis robots.txt keelatud URL). Kui vajate keelata lehtede indekseerimine, saate kasutada mitte ainult roboti txt-i, vaid ka sarnaseid html-märgendeid:

  • - ära indekseeri lehe sisu;
  • - ära jälgi lehel olevaid linke;
  • - lehel on keelatud sisu indekseerida ja linke jälgida;
  • - sarnane sisuga = "puudub".

Luba indekseerimine: robots.txt Luba

Luba – lubav käskkiri ja keelamisdirektiivi vastand. Selle direktiivi süntaks sarnaneb keelamisele.

Näide selle kohta, kuidas keelata saidi indekseerimine, välja arvatud mõned leheküljed failis robots.txt:

User-agent: * Disallow: /Allow: /page

Kogu saidi indekseerimine on keelatud, välja arvatud leheküljed, mis algavad tähega /page.

Keela ja Luba tühja parameetri väärtusega

Empty Disallow käskkiri:

Kasutajaagent: * Keela:

Ärge keelake midagi ega lubage kogu saidi indekseerimist ja see on samaväärne:

Kasutajaagent: * Luba: /

Tühjenda luba käskkiri:

Kasutajaagent: * Luba:

Mitte millegi lubamine või saidi indekseerimise täielik keelamine on samaväärne:

Kasutajaagent: * Keela: /

Peamise veebisaidi peegel: robots.txt Host

Hosti direktiivi kasutatakse Yandexi robotile teie saidi peamise peegli näitamiseks. Kõigist populaarsetest otsingumootoritest on direktiiv Hosti tunnevad ära ainult Yandexi robotid. Hostidirektiiv on kasulik, kui teie saidile pääseb juurde mitme kanali kaudu, näiteks:

Mysite.ru mysite.com

Või määrata prioriteet järgmiste vahel:

Mysite.ru www.mysite.ru

Saate Yandexi robotile öelda, milline peegel on peamine. Hosti direktiiv on näidatud direktiiviplokis „User-agent: Yandex” ja parameetrina näidatakse eelistatud saidi aadress ilma „http://”ta.

Peamise peeglit tähistava faili robots.txt näide:

Kasutajaagent: Yandex Disallow: /page Host: mysite.ru

Peamise peeglina on näidatud domeeninimi mysite.ru ilma www-ta. Seega näidatakse seda tüüpi aadressi otsingutulemustes.

Kasutajaagent: Yandex Disallow: /page Host: www.mysite.ru

Peamise peeglina on näidatud domeeninimi www.mysite.ru.

Hosti direktiiv failis robots.txt saab kasutada ainult üks kord, kuid kui Host-direktiiv on määratud rohkem kui üks kord, siis võetakse arvesse ainult esimene, teisi hosti direktiive eiratakse.

Kui soovite määrata Googleboti peamise peegli, kasutage teenust Google Webmaster Tools.

Saidiplaan: robots.txt saidiplaan

Saidiplaani direktiivi abil saate failis robots.txt määrata asukoha saidil.

Näide failist robots.txt, mis näitab saidiplaani aadressi:

User-agent: * Disallow: /page Saidiplaan: http://www.mysite.ru/sitemap.xml

Saidiplaani aadressi määramine kaudu Saidiplaani direktiiv failis robots.txt võimaldab otsingurobotil leida saidiplaani olemasolust teada ja alustada selle indekseerimist.

Clean-param direktiiv

Direktiiv Clean-param võimaldab teil indekseerimisest välja jätta dünaamiliste parameetritega lehed. Sarnased lehed võivad esitada sama sisu, kuid neil on erinevad lehe URL-id. Lihtsamalt öeldes on leht justkui ligipääsetav erinevatel aadressidel. Meie ülesanne on eemaldada kõik mittevajalikud dünaamilised aadressid, mida võib olla miljon. Selleks välistame kõik dünaamilised parameetrid, kasutades failis robots.txt käsku Clean-param.

Clean-param direktiivi süntaks on:

Puhastusparameeter: parm1[&parm2&parm3&parm4&..&parmn] [tee]

Vaatame järgmise URL-iga lehe näidet:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Näidis faili robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # ainult lehe.html jaoks

Clean-param: parm1&parm2&parm3 / # kõigile

Roomamise viivituse käskkiri

See juhend võimaldab teil vähendada serveri koormust, kui robotid külastavad teie saiti liiga sageli. See direktiiv kehtib peamiselt suure lehemahuga saitide puhul.

Faili robots.txt roomamisviivituse näide:

Kasutajaagent: Yandex Disallow: /page Roomamise viivitus: 3

Sel juhul palume Yandexi robotitel meie saidi lehti alla laadida mitte rohkem kui üks kord iga kolme sekundi järel. Mõned otsingumootorid toetavad parameetrina murdarvu vormingut Roomamise viivitusega robots.txt direktiivid.

Fail sitemap.xml ja saidi õige robots.txt on kaks kohustuslikku dokumenti, mis aitavad kaasa kõigi vajalike veebiressursi lehtede kiirele ja täielikule indekseerimisele otsingurobotite poolt. Saidi õige indekseerimine Yandexis ja Google'is on ajaveebi eduka reklaamimise võti otsingumootorites.

Kirjutasin juba, kuidas XML-vormingus saidiplaani teha ja miks seda vaja on. Nüüd räägime sellest, kuidas WordPressi saidi jaoks õiget robots.txt-faili luua ja miks seda üldiselt vaja on. Üksikasjalikku teavet selle faili kohta saate vastavalt Yandexilt ja Google'ilt. Lähen tuumani ja puudutan faili robots.txt põhiseadeid WordPressi jaoks, kasutades näitena oma faili.

Miks vajate veebisaidi jaoks faili robots.txt?

Robots.txt standard ilmus 1994. aasta jaanuaris. Veebiressurssi skannides otsivad otsingurobotid esmalt tekstifaili robots.txt, mis asub saidi või ajaveebi juurkaustas. Tema abiga saame määrata erinevate otsingumootorite robotitele teatud reeglid, mille järgi nad saidi indekseerivad.

Fati robots.txt õige seadistamine võimaldab teil:

  • välistage indeksist duplikaadid ja erinevad rämpslehed;
  • keelake nende lehtede, failide ja kaustade indekseerimine, mida tahame peita;
  • üldiselt keeldub indekseerimisest mõnele otsingurobotile (näiteks Yahoo, et varjata teavet konkurentide sissetulevate linkide kohta);
  • märkige saidi põhipeegel (www-ga või ilma www-ta);
  • määrake saidiplaani sitemap.xml tee.

Kuidas luua saidi jaoks õiget faili robots.txt

Selleks on olemas spetsiaalsed generaatorid ja pistikprogrammid, kuid parem on seda käsitsi teha.

Peate lihtsalt looma tavalise tekstifaili nimega robots.txt, kasutades mis tahes tekstiredaktorit (nt Notepad või Notepad++) ja laadima see üles oma veebimajutusse oma ajaveebi juurkausta. Sellesse faili tuleb kirjutada teatud direktiivid, st. Yandexi, Google'i jne robotite indekseerimisreeglid.

Kui olete liiga laisk, et sellega vaeva näha, siis alljärgnevalt toon näite minu vaatenurgast õigest robots.txt-ist WordPressi jaoks oma blogist. Saate seda kasutada, asendades domeeninime kolmes kohas.

Faili Robots.txt loomise reeglid ja juhised

Ajaveebi edukaks otsingumootoritele optimeerimiseks peate teadma mõnda reeglit faili robots.txt loomiseks:

  • Puudumine või tühi fail robots.txt tähendab, et otsingumootoritel on lubatud kogu veebiressursi sisu indekseerida.
  • Robots.txt peaks avanema saidil site.ru/robots.txt, andes robotile vastusekoodiks 200 OK ja see ei tohi olla suurem kui 32 KB. Fail, mis ei avane (näiteks tõrke 404 tõttu) või on suurem, loetakse heaks.
  • Direktiivide arv failis ei tohi ületada 1024. Ühe rea pikkus ei tohi ületada 1024 tähemärki.
  • Kehtival failil robots.txt võib olla mitu lauset, millest igaüks peab algama käskkirjaga User-agent ja sisaldama vähemalt ühte Disallow käskkirja. Tavaliselt kirjutavad nad juhised faili robots.txt Google'i ja kõigi teiste robotite jaoks ning Yandexi jaoks eraldi.

Faili robots.txt põhijuhised:

User-agent – ​​näitab, millisele otsingurobotile juhis on adresseeritud.

Sümbol “*” tähendab, et see kehtib kõikide robotite kohta, näiteks:

Kasutaja agent: *

Kui peame failis robots.txt Yandexi jaoks reegli looma, kirjutame:

Kasutajaagent: Yandex

Kui konkreetsele robotile on määratud käsk, siis käskkirja User-agent: * see ei arvesta.

Keela ja Luba – keelavad ja lubavad robotitel määratud lehti indekseerida. Kõik aadressid tuleb määrata saidi juurtest, st. alustades kolmandast kaldkriipsust. Näiteks:

  • Kõigil robotitel kogu saidi indekseerimise keelamine:

    Kasutaja agent: *
    Keela: /

  • Yandexil on keelatud indekseerida kõiki /wp-admin-iga algavaid lehti:

    Kasutajaagent: Yandex
    Keela: /wp-admin

  • Tühi käsk Disallow lubab kõike indekseerida ja sarnaneb käsuga Allow. Näiteks luban Yandexil kogu saiti indekseerida:

    Kasutajaagent: Yandex
    Keela:

  • Ja vastupidi, ma keelan kõigil otsingurobotidel kõiki lehti indekseerida:

    Kasutaja agent: *
    Lubama:

  • Samast kasutajaagendi plokist pärinevad käskkirjad Luba ja Keela sorteeritakse URL-i eesliite pikkuse järgi ja täidetakse järjestikku. Kui saidi ühele lehele sobib mitu käsku, siis käivitatakse loendist viimane. Nüüd pole nende kirjutamise järjekord oluline, kui robot direktiive kasutab. Kui käskkirjadel on sama pikkusega eesliited, siis käivitatakse kõigepealt käsk Allow. Need eeskirjad jõustusid 8. märtsil 2012. aastal. Näiteks võimaldab see indekseerida ainult /wp-includes algavaid lehti:

    Kasutajaagent: Yandex
    Keela: /
    Luba: /wp-includes

Saidikaart – määrab XML-saidiplaani aadressi. Ühel saidil võib olla mitu saidiplaani direktiivi, mida saab pesastada. Saidi indekseerimise kiirendamiseks tuleb failis robots.txt määrata kõik saidiplaani failiaadressid:

Saidiplaan: http://site/sitemap.xml.gz
Saidiplaan: http://site/sitemap.xml

Host – ütleb peegelrobotile, millist veebisaidi peeglit pidada peamiseks.

Kui sait on ligipääsetav mitmel aadressil (näiteks www-ga ja ilma www-ta), loob see täielikud dubleerivad lehed, mille filter võib püüda. Samuti ei pruugi sel juhul indekseerida põhilehte, vaid avaleht, vastupidi, jäetakse otsingumootori registrist välja. Selle vältimiseks kasutage hosti direktiivi, mis on failis robots.txt mõeldud ainult Yandexi jaoks ja seda saab olla ainult üks. See on kirjutatud pärast Keela ja Luba ja näeb välja järgmine:

Host: veebisait

Crawl-delay – määrab lehtede allalaadimise vahelise viivituse sekundites. Kasutatakse, kui on suur koormus ja serveril pole aega päringuid töödelda. Noortel saitidel on parem mitte kasutada roomamisviivituse direktiivi. See on kirjutatud nii:

Kasutajaagent: Yandex
Roomamise viivitus: 4

Clean-param – toetab ainult Yandex ja seda kasutatakse muutujatega dubleerivate lehtede kõrvaldamiseks, ühendades need üheks. Seega ei laadi Yandexi robot palju kordi alla sarnaseid lehti, näiteks neid, mis on seotud viitelinkidega. Ma pole seda direktiivi veel kasutanud, kuid Yandexi jaoks mõeldud faili robots.txt spikris järgige artikli alguses olevat linki, saate seda direktiivi üksikasjalikult lugeda.

Erimärke * ja $ kasutatakse failis robots.txt käskkirjade Disallow ja Allow teede tähistamiseks:

  • Erimärk “*” tähendab mis tahes tähemärkide jada. Näiteks Disallow: /*?* tähendab keeldu kõikidele lehtedele, kus aadressis on "?", olenemata sellest, millised märgid on selle tähemärgi ees ja järel. Vaikimisi lisatakse iga reegli lõppu erimärk “*”, isegi kui see pole konkreetselt määratud.
  • Sümbol "$" tühistab reegli lõpus oleva "*" ja tähendab ranget sobitamist. Näiteks keelab käsk Disallow: /*?$ märgiga „?” lõppevate lehtede indekseerimise.

Fati robots.txt näide WordPressi jaoks

Siin on näide minu failist robots.txt WordPressi mootoris oleva ajaveebi jaoks:

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Keela: /wp-includes Keela: /wp-content/plugins Keela: /wp-content/cache Keela: /wp-content/themes Keela: / trackback Disallow: */trackback Disallow: */*/trackback Keela: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= Kasutajaagent: Yandex Keela: /cgi-bin Keela: /wp-admin Keela: /wp-includes Keela: /wp-content/plugins Keela: /wp-content/cache Keela: /wp-content/themes Keela: /trackback Keela: */ trackback Disallow: */*/trackback Keela: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Keela: /?.ru/sitemap.xml..xml

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Keela: /wp-includes Keela: /wp-content/plugins Keela: /wp-content/cache Keela: /wp-content/themes Keela: / trackback Disallow: */trackback Disallow: */*/trackback Keela: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= Kasutajaagent: Yandex Keela: /cgi-bin Keela: /wp-admin Keela: /wp-includes Keela: /wp-content/plugins Keela: /wp-content/cache Keela: /wp-content/themes Keela: /trackback Keela: */ trackback Disallow: */*/trackback Keela: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Keela: /?.ru/sitemap.xml..xml

Selleks, et mitte petta end WordPressi jaoks õige robots.txt loomisega, võite kasutada seda faili. Indekseerimisega probleeme pole. Mul on kopeerimiskaitse skript, nii et valmis fail robots.txt on mugavam alla laadida ja oma hostimisse üles laadida. Ärge unustage hosti ja saidiplaani direktiivides minu saidi nime teie omaga asendada.

Kasulikud täiendused faili robots.txt õigeks seadistamiseks WordPressi jaoks

Kui teie WordPressi ajaveebi on installitud puukommentaarid, loovad need topeltlehed kujul ?replytocom= . Failis robots.txt suletakse sellised lehed käskkirjaga Disallow: /*?*. Kuid see pole lahendus ja parem on keelud eemaldada ja replytocomiga muul viisil võidelda. Mida, .

Seega näeb praegune fail robots.txt 2014. aasta juuli seisuga välja järgmine:

User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Keela: /wp-content/cache Keela: /wp-content/themes Kasutajaagent: Yandex Disallow: /wp -includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: site.ru Kasutajaagent: Googlebot-Image Allow: /wp-content /uploads/ Kasutajaagent: YandexImages Luba: /wp-content/uploads/ Saidiplaan: http://site.ru/sitemap.xml

User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Keela: /wp-content/cache Keela: /wp-content/themes Kasutajaagent: Yandex Disallow: /wp -includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: site.ru Kasutajaagent: Googlebot-Image Allow: /wp-content /uploads/ Kasutajaagent: YandexImages Luba: /wp-content/uploads/ Saidiplaan: http://site.ru/sitemap.xml

Lisaks sätestab see piltide indekseerimise robotite reeglid.

Kasutajaagent: Mediapartners-Google
Keela:

Kui kavatsete reklaamida kategooria- või sildilehti, peaksite need robotitele avama. Näiteks ajaveebisaidil ei suleta kategooriaid indekseerimisest, kuna need avaldavad vaid väikseid artikliteateid, mis on sisu dubleerimise seisukohalt üsna ebaoluline. Ja kui kasutate ajaveebi voos tsitaatide kuvamist, mis on täidetud ainulaadsete teadaannetega, siis dubleerimist ei toimu.

Kui te ülaltoodud pistikprogrammi ei kasuta, saate oma failis robots.txt määrata märgendite, kategooriate ja arhiivide indekseerimise keelamise. Näiteks järgmiste ridade lisamine:

Keela: /autor/
Keela: /tag
Keela: /category/*/*
Keela: /20*

Ärge unustage Yandex.Webmasteri paneelil faili robots.txt kontrollida ja seejärel oma hostimisse uuesti üles laadida.

Kui teil on faili robots.txt seadistamiseks täiendusi, kirjutage sellest kommentaaridesse. Nüüd vaadake videot selle kohta, mis see on ja kuidas saidile õiget robots.txt luua, kuidas failis robots.txt indekseerimist keelata ja vigu parandada.