Mitä sisällyttää robotit txt-tiedostoon. Suosituksia robots txt -tiedoston asettamiseen. Listaa kaikki tiedostot

Robots.txt on palvelutiedosto, joka toimii suosituksena hakukoneiden pääsyn rajoittamiseen verkkodokumenttien sisältöön. Tässä artikkelissa tarkastellaan Robots.txt-tiedoston määrittämistä, ohjeiden kuvausta ja sen laatimista suosittuja sisällönhallintajärjestelmiä varten.

Tämä Robot-tiedosto sijaitsee sivustosi juurihakemistossa ja sitä voi avata/muokata yksinkertaisella muistilehtiöllä, suosittelen Notepad++:aa. Niille, jotka eivät pidä lukemisesta, on VIDEO, katso artikkelin lopusta 😉

Miksi tarvitset robots.txt-tiedoston?

Kuten edellä sanoin, robots.txt-tiedoston avulla voimme rajoittaa hakurobottien pääsyä asiakirjoihin, ts. vaikutamme suoraan sivuston indeksointiin. Useimmiten niitä estetään indeksoimasta:

Palvelutiedostot ja CMS-kansiot
Kopiot
Asiakirjat, joista ei ole käyttäjälle hyötyä
Ei ainutlaatuisia sivuja

Katsotaanpa konkreettista esimerkkiä:

Kenkiä myyvä verkkokauppa on toteutettu yhdellä suosituista sisällönhallintajärjestelmistä, eikä parhaalla tavalla. Voin heti kertoa, että hakutuloksissa on hakusivut, sivutus, ostoskori, joitain moottoritiedostoja jne. Kaikki nämä ovat päällekkäisiä ja käyttäjälle hyödyttömiä palvelutiedostoja. Siksi ne tulisi sulkea indeksoinnista, ja jos siellä on myös "Uutiset" -osio, johon kopioidaan ja liitetään erilaisia mielenkiintoisia artikkeleita kilpailijoiden sivustoilta, niin sitä ei tarvitse ajatella, suljemme sen heti.

Siksi varmistamme, että luomme robots.txt-tiedoston, jotta tuloksiin ei pääse roskaa. Älä unohda, että tiedosto tulee avata osoitteessa http://site.ru/robots.txt.

Robots.txt-ohjeet ja määrityssäännöt

Käyttäjä agentti. Tämä vetoaa tiettyyn hakukonerobottiin tai kaikkiin robotteihin. Jos tietyn robotin nimi on määritetty, esimerkiksi "YandexMedia", siihen ei käytetä yleisiä käyttäjäagenttiohjeita. Kirjoitusesimerkki:

User-agent: YandexBot Disallow: /cart # on vain Yandexin pääindeksointirobotin käytössä

Estä/Salli. Tämä on kielto/lupa indeksoida tietty asiakirja tai osio. Kirjoitusjärjestyksellä ei ole väliä, mutta jos on 2 käskyä ja sama etuliite, "Salli" on etusijalla. Hakurobotti lukee ne etuliitteen pituuden mukaan pienimmästä suurimpaan. Jos haluat poistaa sivun indeksoinnin käytöstä, anna sen suhteellinen polku (Disallow: /blog/post-1).

User-agent: Yandex Disallow: / Allow: /articles # Kiellemme sivuston indeksoinnin, paitsi 1 osion artikkeleita

Säännölliset lausekkeet * ja $. Asteriski tarkoittaa mitä tahansa merkkijonoa (myös tyhjät). Dollarimerkki tarkoittaa keskeytystä. Esimerkkejä käytöstä:

Disallow: /page* # kieltää kaikki sivut, rakenteet http://site.ru/page Disallow: /arcticles$ # kieltää vain sivun http://site.ru/articles, sallien sivut http://site.ru/ artikkelit /uusi

Sivustokarttadirektiivi. Jos käytät sitä, robots.txt-tiedostossa se pitäisi ilmaista seuraavasti:

Sivustokartta: http://site.ru/sitemap.xml

Isäntädirektiivi. Kuten tiedät, sivustoilla on peilit (luimme,). Tämä sääntö osoittaa hakubotin resurssi pääpeiliin. Viittaa Yandexiin. Jos sinulla on peili ilman WWW:tä, kirjoita:

Isäntä: site.ru

Indeksoinnin viive. Asettaa viiveen (sekunteina), kun robotti lataa asiakirjojasi. Se kirjoitetaan Disallow/Allow-komentojen jälkeen.

Indeksoinnin viive: 5 # aikakatkaisu 5 sekunnissa

Puhdas param. Ilmaisee hakubotille, ettei ylimääräisiä kaksoistietoja (istuntotunnisteet, viittajat, käyttäjät) tarvitse ladata. Dynaamisille sivuille tulee määrittää Clean-param:

Clean-param: ref /category/books # osoitamme, että sivumme on tärkein, ja http://site.ru/category/books?ref=yandex.ru&id=1 on sama sivu, mutta parametrein

Pääsääntö: robots.txt on kirjoitettava pienillä kirjaimilla ja sijoitettava sivuston juureen. Esimerkki tiedostorakenteesta:

Käyttäjäagentti: Yandex Disallow: /cart Salli: /cart/images Sivustokartta: http://site.ru/sitemap.xml Isäntä: site.ru Indeksointiviive: 2

Meta robots tag ja miten se kirjoitetaan

Googlen hakukone ottaa paremmin huomioon tämän sivujen kieltämisvaihtoehdon. Yandex ottaa molemmat vaihtoehdot yhtä hyvin huomioon.

Siinä on 2 ohjetta: seuraa/nofollow Ja index/noindex. Tämä on linkkien seuraamisen lupa/kielto ja asiakirjojen indeksoinnin lupa/kielto. Ohjeet voidaan kirjoittaa yhdessä, katso alla oleva esimerkki.

Voit kirjoittaa tunnisteeseen mille tahansa yksittäiselle sivulle seurata:

Korjaa robots.txt-tiedostoja suosittua sisällönhallintajärjestelmää varten

Esimerkki Robots.txt WordPressille

Alla näet versioni tästä SEO-blogista.

User-agent: Yandex Disallow: /wp-content/uploads/ Salli: /wp-content/uploads/*/*/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow : /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?. xml

Kiellän jälkiseurannan, koska se kopioi osan artikkelista kommenteissa. Ja jos trackbackeja on paljon, saat joukon identtisiä kommentteja.

Yritän sulkea minkä tahansa sisällönhallintajärjestelmän palvelukansiot ja tiedostot, koska... En halua, että niitä sisällytetään hakemistoon (vaikka hakukoneet eivät ota niitä joka tapauksessa, mutta se ei ole huonompi).

Syötteet tulisi sulkea, koska Nämä ovat osittaisia tai täydellisiä kaksoissivuja.

Suljemme tunnisteet, jos emme käytä niitä tai jos olemme liian laiskoja optimoimaan niitä.

Esimerkkejä muista sisällönhallintajärjestelmistä

Lataa oikeat robotit haluttuun sisällönhallintajärjestelmään napsauttamalla asianmukaista linkkiä.

Hei rakkaat "Webmaster's World" -blogin lukijat!

Tiedosto robots.txt– Tämä on erittäin tärkeä tiedosto, joka vaikuttaa suoraan sivustosi indeksoinnin laatuun ja siten sen hakukonemainontaan.

Siksi sinun on osattava muotoilla robots.txt oikein, jotta et vahingossa estä Internet-projektin tärkeiden asiakirjojen sisällyttämistä hakemistoon.

Tässä artikkelissa käsitellään robots.txt-tiedoston muotoilua, käytettävää syntaksia, asiakirjojen sallimista ja kieltämistä hakemistosta.

Tietoja robots.txt-tiedostosta

Selvitetään ensin tarkemmin, millainen tiedosto tämä on.

Tiedostorobotit on tiedosto, joka näyttää hakukoneille, mitkä sivuston sivut ja asiakirjat voidaan lisätä hakemistoon ja mitä ei. Se on välttämätöntä, koska hakukoneet yrittävät aluksi indeksoida koko sivuston, mutta tämä ei aina ole oikein. Jos esimerkiksi luot sivustoa moottorille (WordPress, Joomla jne.), sinulla on kansiot, jotka järjestävät hallintapaneelin työn. On selvää, että näiden kansioiden tietoja ei voida indeksoida, vaan tässä tapauksessa käytetään robots.txt-tiedostoa, joka rajoittaa hakukoneiden pääsyä.

Robots.txt-tiedosto sisältää myös sivustokartan osoitteen (se parantaa hakukoneiden indeksointia) sekä sivuston pääverkkotunnuksen (pääpeili).

Peili– tämä on ehdoton kopio sivustosta, ts. kun on yksi sivusto, he sanovat, että yksi niistä on pääverkkotunnus ja toinen sen peili.

Näin ollen tiedostossa on melko paljon toimintoja, ja tärkeitä!

Robots.txt-tiedoston syntaksi

Robots-tiedosto sisältää sääntölohkoja, jotka kertovat tietylle hakukoneelle, mitä voidaan indeksoida ja mitä ei. Sääntölohkoja voi olla yksi (kaikille hakukoneille), mutta niitä voi olla myös useita - tietyille hakukoneille erikseen.

Jokainen tällainen lohko alkaa "User-Agent"-operaattorilla, joka osoittaa, mihin hakukoneeseen nämä säännöt liittyvät.

käyttäjä-Agentti:A
(säännöt robotille "A")

käyttäjä-Agentti:B
(säännöt robotille "B")

Yllä oleva esimerkki osoittaa, että "User-Agent"-operaattorilla on parametri - sen hakukonerobotin nimi, johon sääntöjä sovelletaan. Mainitsen tärkeimmät alla:

Käyttäjäagentin jälkeen on muita operaattoreita. Tässä on heidän kuvaus:

Kaikilla operaattoreilla on sama syntaksi. Nuo. operaattoreita tulee käyttää seuraavasti:

Operaattori1: parametri1

Operaattori2: parametri2

…

Joten kirjoitamme ensin operaattorin nimen (ei väliä isoilla tai pienillä kirjaimilla), sitten laitamme kaksoispisteen ja osoitamme välilyönnillä erotettuna tämän operaattorin parametrin. Sitten uudelta riviltä alkaen kuvaamme operaattoria kaksi samalla tavalla.

Tärkeä!!! Tyhjä rivi tarkoittaa, että tämän hakukoneen sääntölohko on valmis, joten älä erota lauseita tyhjällä rivillä.

Esimerkki robots.txt-tiedostosta

Katsotaanpa yksinkertaista esimerkkiä robots.txt-tiedostosta ymmärtääksemme paremmin sen syntaksin ominaisuuksia:

Käyttäjäagentti: Yandex
Salli: /kansio1/
Disallow: /tiedosto1.html
Isäntä: www.site.ru

Käyttäjä agentti: *
Disallow: /document.php
Disallow: /folderxxx/
Disallow: /folderyyy/folderzzz
Disallow: /feed/

Sivustokartta: http://www.site.ru/sitemap.xml

Katsotaanpa nyt kuvattua esimerkkiä.

Tiedosto koostuu kolmesta lohkosta: ensimmäinen Yandexille, toinen kaikille hakukoneille ja kolmas sisältää sivustokartan osoitteen (käytetään automaattisesti kaikissa hakukoneissa, joten käyttäjäagenttia ei tarvitse määrittää). Sallimme Yandexin indeksoida kansion "folder1" ja kaiken sen sisällön, mutta estimme sitä indeksoimasta asiakirjaa "file1.html", joka sijaitsee isännöinnin juurihakemistossa. Ilmoitimme myös Yandexille sivuston pääverkkotunnuksen. Toinen lohko on tarkoitettu kaikille hakukoneille. Siellä kiellettiin asiakirja "document.php", samoin kuin kansiot "folderxxx", "folderyyy/folderzzz" ja "feed".

Huomaa, että hakemiston toisessa komentolohkossa emme kieltäneet koko "folderyyy"-kansiota, vaan vain tämän kansion sisällä olevaa kansiota - "folderzzz". Nuo. olemme toimittaneet koko polun "folderzzz":lle. Tämä tulee tehdä aina, jos kiellämme asiakirjan, joka ei sijaitse sivuston juurihakemistossa, vaan jossain muissa kansioissa.

Luominen vie alle kaksi minuuttia:

Luodun robottitiedoston toimivuus voidaan tarkistaa Yandexin verkkovastaavan paneelista. Jos tiedostosta löytyy yhtäkkiä virheitä, Yandex näyttää sen.

Muista luoda robots.txt-tiedosto sivustollesi, jos sinulla ei vielä ole sellaista. Tämä auttaa sivustoasi kehittymään hakukoneissa. Voit myös lukea toisen artikkelimme sisällönkuvauskenttien ja .htaccessin menetelmästä.

Nopea navigointi tällä sivulla:

Nykyaikainen todellisuus on, että RuNetissä yksikään itseään kunnioittava sivusto ei tule toimeen ilman robots.txt-nimistä tiedostoa - vaikka sinulla ei ole mitään kieltävää indeksoimista (vaikka melkein jokaisella sivustolla on teknisiä sivuja ja päällekkäistä sisältöä, jotka edellyttävät indeksoinnin sulkemista ), sitten Ainakin Yandexille kannattaa ehdottomasti rekisteröidä ohje www:llä ja ilman www-osoitetta - tätä varten ovat robots.txt-tiedoston kirjoittamisen säännöt, joista keskustellaan alla.

Mikä on robots.txt?

Tämänniminen tiedosto on peräisin vuodelta 1994, jolloin W3C-konsortio päätti ottaa käyttöön tällaisen standardin, jotta sivustot voisivat tarjota hakukoneille indeksointiohjeita.

Tämän niminen tiedosto on tallennettava sivuston juurihakemistoon; sen sijoittaminen muihin kansioihin ei ole sallittua.

Tiedosto suorittaa seuraavat toiminnot:

kieltää sivujen tai sivuryhmien indeksoinnin
mahdollistaa minkä tahansa sivun tai sivuryhmän indeksoinnin
osoittaa Yandex-robotille, mikä sivuston peili on tärkein (www:llä tai ilman www-sivua)
näyttää sivustokarttatiedoston sijainnin

Kaikki neljä kohtaa ovat erittäin tärkeitä verkkosivuston hakukoneoptimoinnin kannalta. Indeksoinnin estäminen antaa sinun estää indeksoinnin sivuilta, jotka sisältävät päällekkäistä sisältöä – esimerkiksi tunnistesivuja, arkistoja, hakutuloksia, sivuja, joilla on tulostettavat versiot ja niin edelleen. Päällekkäisen sisällön esiintyminen (kun sama teksti, jopa usean lauseen kokoisena, on kahdella tai useammalla sivulla) on miinus sivustolle hakukonesijoituksissa, joten kaksoiskappaleita tulisi olla mahdollisimman vähän.

Salli-direktiivillä ei ole itsenäistä merkitystä, koska oletusarvoisesti kaikki sivut ovat jo indeksoitavissa. Se toimii yhdessä eston kanssa - kun esimerkiksi tietty luokka on kokonaan suljettu hakukoneilta, mutta haluat avata tämän tai erillisen sivun siinä.

Sivuston pääpeilin osoittaminen on myös yksi optimoinnin tärkeimmistä elementeistä: hakukoneet näkevät sivustot www.yoursite.ru ja yoursite.ru kahtena eri resurssina, ellet suoraan kerro heille toisin. Tuloksena on sisällön kaksinkertaistuminen - kaksoiskappaleiden esiintyminen, ulkoisten linkkien vahvuuden heikkeneminen (ulkoiset linkit voidaan sijoittaa sekä www-sivuilla että ilman www-sivuja) ja seurauksena voi olla huonompi sijoitus hakutuloksissa.

Googlelle pääpeili on rekisteröity Webmaster-työkaluihin (http://www.google.ru/webmasters/), mutta Yandexille nämä ohjeet voidaan rekisteröidä vain samassa robots.tkht:ssa.

Osoittaminen xml-tiedostoon, jossa on sivustokartta (esimerkiksi sitemap.xml), antaa hakukoneille mahdollisuuden havaita tämä tiedosto.

User-agentin määrittämistä koskevat säännöt

Käyttäjäagentti on tässä tapauksessa hakukone. Ohjeita kirjoittaessasi sinun on ilmoitettava, koskevatko ne kaikkia hakukoneita (jolloin on merkitty tähti - *) vai onko ne tarkoitettu tietylle hakukoneelle - esimerkiksi Yandexille tai Googlelle.

Jos haluat määrittää kaikki robotit osoittavan User-agentin, kirjoita tiedostoosi seuraava rivi:

Käyttäjä agentti: *

Yandexille:

Käyttäjäagentti: Yandex

Googlelle:

User-agent: GoogleBot

Säännöt kieltää ja sallia

Ensinnäkin on huomattava, että robots.txt-tiedoston on sisällettävä vähintään yksi disallow-komento, jotta se olisi kelvollinen. Tarkastellaan nyt näiden direktiivien soveltamista erityisten esimerkkien avulla.

Tämän koodin avulla sallit sivuston kaikkien sivujen indeksoinnin:

User-agent: * Disallow:

Ja tällä koodilla päinvastoin kaikki sivut suljetaan:

User-agent: * Disallow: /

Jos haluat estää tietyn kansio-nimisen hakemiston indeksoinnin, määritä:

User-agent: * Disallow: /kansio

Voit myös käyttää tähtiä korvataksesi mielivaltaisen nimen:

User-agent: * Disallow: *.php

Tärkeää: tähti korvaa koko tiedoston nimen, eli et voi määrittää tiedostoa*.php, vain *.php (mutta kaikki .php-tunnisteella varustetut sivut ovat kiellettyjä; tämän välttämiseksi voit määrittää tietyn sivun osoitteen) .

Salli-direktiiviä käytetään, kuten edellä todettiin, poikkeuksien luomiseen disallowissa (muuten sillä ei ole merkitystä, koska sivut ovat jo auki oletuksena).

Kiellämme esimerkiksi arkistokansiossa olevien sivujen indeksoinnin, mutta jätämme tämän hakemiston index.html-sivun auki:

Salli: /archive/index.html Estä: /archive/

Määritä isäntä ja sivustokartta

Isäntä on sivuston pääpeili (eli verkkotunnus plus www tai verkkotunnus ilman tätä etuliitettä). Isäntä on määritetty vain Yandex-robotille (tässä tapauksessa on oltava vähintään yksi disallow-komento).

Isännän määrittämiseksi robots.txt-tiedostossa on oltava seuraava merkintä:

Käyttäjäagentti: Yandex Disallow: Isäntä: www.sivustosi.ru

Mitä tulee sivustokarttaan, robots.txt-tiedostossa sivustokartta osoitetaan kirjoittamalla koko polku vastaavaan tiedostoon, jossa ilmoitetaan verkkotunnuksen nimi:

Sivustokartta: http://sivustosi.ru/sitemap.xml

Siinä on kirjoitettu sivustokartan tekemisestä WordPressille.

Esimerkki robots.txt-tiedostosta WordPressille

WordPressissä ohjeet on määritettävä siten, että kaikki tekniset hakemistot (wp-admin, wp-includes jne.) suljetaan indeksointia varten sekä sivujen kopiot, jotka on luotu tagien, RSS-tiedostojen, kommenttien ja haun avulla.

Esimerkkinä robots.txt-tiedostosta Wordpressille, voit ottaa tiedoston verkkosivustoltamme:

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */ liite/* Salli: /wp-content/uploads/ Isäntä: www..php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: * /feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */attachment/* Salli: /wp -content/uploads/ User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/ * Disallow: */attachment/* Salli: /wp-content/uploads/ Sivustokartta: https://www..xml

Voit ladata robots.txt-tiedoston verkkosivustoltamme käyttämällä .

Jos sinulla on vielä kysyttävää tämän artikkelin lukemisen jälkeen, kysy kommenteissa!

Robots.txt-tiedosto— .txt-muotoinen tekstitiedosto, joka rajoittaa hakurobottien pääsyä http-palvelimen sisältöön. Miten määritelmä, Robots.txt- Tämä robottipoikkeusstandardi, jonka W3C hyväksyi 30. tammikuuta 1994 ja jota useimmat hakukoneet käyttävät vapaaehtoisesti. Robots.txt-tiedosto sisältää joukon ohjeita hakuroboteille, jotka estävät tiettyjen sivuston tiedostojen, sivujen tai hakemistojen indeksoinnin. Tarkastellaan robots.txt-tiedoston kuvausta siinä tapauksessa, että sivusto ei rajoita robottien pääsyä sivustoon.

Yksinkertainen esimerkki robots.txt-tiedostosta:

User-agent: * Salli: /

Täällä robotit mahdollistavat täysin koko sivuston indeksoinnin.

Robots.txt-tiedosto on ladattava sivustosi juurihakemistoon niin että se on saatavilla osoitteessa:

Your_site.ru/robots.txt

Robots.txt-tiedoston sijoittaminen sivuston juureen vaatii yleensä FTP-yhteyden. Jotkut hallintajärjestelmät (CMS) mahdollistavat kuitenkin robots.txt-tiedoston luomisen suoraan sivuston ohjauspaneelista tai sisäänrakennetun FTP-hallinnan kautta.

Jos tiedosto on saatavilla, näet robots.txt-tiedoston sisällön selaimessa.

Mihin robots.txt on tarkoitettu?

Sivuston Roots.txt on tärkeä näkökohta. Miksi tarvitset robots.txt-tiedoston?? Esimerkiksi sisään SEO robots.txt tarvitaan sulkemaan pois indeksoinnista sivut, jotka eivät sisällä hyödyllistä sisältöä ja paljon muuta.. Miten, mitä, miksi ja miksi suljetaan pois, on jo kuvattu artikkelissa, emme käsittele sitä täällä. Onko robots.txt-tiedosto välttämätön? kaikille sivustoille? Kyllä ja ei. Jos robots.txt-tiedoston käyttö edellyttää sivujen sulkemista pois hausta, niin pienille sivustoille, joilla on yksinkertainen rakenne ja staattiset sivut, tällaiset poissulkemiset voivat olla tarpeettomia. Jotkut voivat kuitenkin olla hyödyllisiä pienelle sivustolle robots.txt-käskyt, esimerkiksi isäntä- tai sivustokarttadirektiivi, mutta siitä lisää alla.

Robots.txt-tiedoston luominen

Koska robots.txt on tekstitiedosto, ja siihen luo robots.txt-tiedosto, voit käyttää esimerkiksi mitä tahansa tekstieditoria Muistilehtiö. Kun olet avannut uuden tekstidokumentin, olet jo aloittanut robots.txt-tiedoston luomisen. Sinun tarvitsee vain laatia sen sisältö tarpeidesi mukaan ja tallentaa se nimellä tekstitiedosto nimeltä robots txt-muodossa. Kaikki on yksinkertaista, eikä robots.txt-tiedoston luomisen pitäisi aiheuttaa ongelmia edes aloittelijoille. Alla näytän sinulle esimerkkien avulla, miten robots.txt luodaan ja mitä roboteissa kirjoitetaan.

Luo robots.txt verkossa

Vaihtoehto laiskalle - luo robotteja verkossa ja lataa robots.txt-tiedosto jo valmiissa muodossa. Robottien txt:n luominen verkossa tarjoaa monia palveluita, valinta on sinun. Tärkeintä on ymmärtää selvästi, mikä on kiellettyä ja mikä on sallittua, muuten robots.txt-tiedoston luominen verkossa voi muuttua tragediaksi, jota voi olla vaikea korjata myöhemmin. Varsinkin jos haku sisältää jotain, joka olisi pitänyt sulkea. Ole varovainen – tarkista robottitiedostosi ennen kuin lataat sen sivustolle. Vielä mukautettu robots.txt-tiedosto kuvastaa tarkemmin rajoitusten rakennetta kuin automaattisesti luotu ja toiselta sivustolta ladattu. Lue, mihin kiinnitä erityistä huomiota robots.txt-tiedostoa muokattaessa.

Muokkaa robots.txt-tiedostoa

Kun olet onnistunut luomaan robots.txt-tiedoston verkossa tai omin käsin, voit tehdä sen muokkaa robots.txt-tiedostoa. Voit muuttaa sen sisältöä haluamallasi tavalla, tärkeintä on noudattaa joitain robots.txt-tiedoston sääntöjä ja syntaksia. Sivuston parissa työskentelemisen aikana robots-tiedosto saattaa muuttua, ja jos muokkaat robots.txt-tiedostoa, älä unohda ladata päivitetty, nykyinen versio tiedostosta kaikkine muutoksineen sivustoon. Seuraavaksi tarkastellaan tiedoston määrittämistä koskevia sääntöjä, jotta tiedämme miten robots.txt-tiedostoa muutetaan ja "älä hakkaa puuta".

Oikea robots.txt-asetus

Oikea robots.txt-asetus avulla voit välttää yksityisten tietojen pääsyn suurten hakukoneiden hakutuloksiin. Sitä ei kuitenkaan pidä unohtaa robots.txt-komennot eivät ole muuta kuin opasta toimintaan, eivät suojaa. Luotettavien hakukoneiden, kuten Yandexin tai Googlen, robotit noudattavat robots.txt-tiedoston ohjeita, mutta muut robotit voivat helposti jättää ne huomiotta. Robots.txt-tiedoston oikea ymmärtäminen ja soveltaminen on avain tulosten saavuttamiseen.

Ymmärtää kuinka tehdä oikeat robotit txt, sinun on ensin ymmärrettävä robots.txt-tiedoston yleiset säännöt, syntaksi ja ohjeet.

Oikea robots.txt alkaa User-agent-käskyllä, joka osoittaa, mille robottikohtaiset direktiivit on osoitettu.

Esimerkkejä robots.txt-tiedoston User-agentista:

# Ilmaisee käskyt kaikille roboteille samaan aikaan User-agent: * # Ilmaisee käskyt kaikille Yandex-roboteille User-agent: Yandex # Ilmaisee käskyt vain Yandexin pääindeksointirobotille User-agent: YandexBot # Ilmaisee käskyt kaikille Google-roboteille User -agentti: Googlebot

Huomaa, että tällainen robots.txt-tiedoston määrittäminen käskee robottia käyttämään vain direktiivejä, jotka vastaavat user-agentin nimeä.

Esimerkki robots.txt-tiedostosta, jossa on useita User-agentin esiintymiä:

# Käyttävät kaikki Yandex-robotit User-agent: Yandex Disallow: /*utm_ # Käyttävät kaikki Google-robotit User-agent: Googlebot Disallow: /*utm_ # Käyttävät kaikki robotit paitsi Yandex-robotit ja Google-käyttäjä- agentti: * Salli: / *utm_

User-agent -ohje luo vain käskyn tietylle robotille, ja heti User-agent -käskyn jälkeen pitäisi olla komento tai komennot, jotka osoittavat suoraan valitun robotin tilan. Yllä oleva esimerkki käyttää Disallow-direktiiviä, jonka arvo on "/*utm_". Näin ollen suljemme kaiken. Oikein asetettu robots.txt estää tyhjien rivinvaihtojen olemassaolon "User-agent"-, "Disallow"-käskyjen ja "Disallow"-komentojen välillä nykyisessä "User-agentissa".

Esimerkki virheellisestä rivinsiirrosta robots.txt-tiedostossa:

Esimerkki oikeasta rivinsiirrosta robots.txt:ssä:

User-agent: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=

Kuten esimerkistä näkyy, robots.txt-tiedoston ohjeet tulevat lohkoina, joista jokainen sisältää ohjeet joko tietylle robotille tai kaikille roboteille "*".

On myös tärkeää varmistaa komentojen oikea järjestys ja lajittelu robots.txt-tiedostossa käytettäessä käskyjä, kuten "Disallow" ja "Allow" yhdessä. "Allow"-käsky on salliva käsky, ja se on robots.txt-tiedoston "Disallow"-komennon vastakohta, kieltävä käsky.

Esimerkki ohjeiden käyttämisestä yhdessä robots.txt:ssä:

User-agent: * Salli: /blog/page Disallow: /blog

Tämä esimerkki estää kaikkia robotteja indeksoimasta kaikkia "/blogilla" alkavia sivuja, mutta sallii kaikkien "/blog/page" -alkuisten sivujen indeksoinnin.

Edellinen esimerkki robots.txt-tiedostosta oikeassa lajittelussa:

User-agent: * Disallow: /blog Salli: /blogi/sivu

Ensin kielletään koko osio, sitten sallitaan jotkin osat siitä.

Toinen oikea robots.txt-esimerkki yhteisillä ohjeilla:

User-agent: * Salli: / Disallow: /blogi Salli: /blogi/sivu

Kiinnitä huomiota oikeaan ohjejärjestykseen tässä robots.txt-tiedostossa.

"Allow"- ja "Disallow"-käskyt voidaan määrittää ilman parametreja, jolloin arvo tulkitaan käänteisesti "/"-parametriin nähden.

Esimerkki "Disallow/Allow" -käskystä ilman parametreja:

User-agent: * Disallow: # vastaa Salli: / Disallow: /blog Salli: /blogi/sivu

Oikean robots.txt-tiedoston luominen ja miten käytät direktiivien tulkintaa, on sinun valintasi. Molemmat vaihtoehdot ovat oikein. Pääasia, ettei sekaannu.

Robots.txt-tiedoston muodostaminen oikein edellyttää, että ohjeiden parametreissa on ilmoitettava tarkasti prioriteetit ja se, mikä on kiellettyä robottien lataamisessa. Tarkastelemme "Disallow"- ja "Allow"-käskyjen käyttöä tarkemmin alla, mutta nyt tarkastelemme robots.txt-tiedoston syntaksia. Robots.txt-tiedoston syntaksin tunteminen vie sinut lähemmäksi Luo täydellinen robotit txt omin käsin.

Robots.txt-syntaksi

Hakukonerobotit noudattavat vapaaehtoisesti robots.txt-komentoja- standardi robottipoikkeuksille, mutta kaikki hakukoneet eivät käsittele robots.txt-syntaksia samalla tavalla. Robots.txt-tiedostolla on tiukasti määritelty syntaksi, mutta samaan aikaan kirjoittaa robotit txt ei ole vaikeaa, koska sen rakenne on hyvin yksinkertainen ja helppo ymmärtää.

Tässä on erityinen luettelo yksinkertaisista säännöistä, joita noudattamalla poistat yleisiä robots.txt-virheitä:

Jokainen ohje alkaa uudelta riviltä;
Älä määritä useampaa kuin yhtä direktiiviä yhdelle riville;
Älä laita välilyöntiä rivin alkuun.
Direktiiviparametrin on oltava yhdellä rivillä;
Ei ole tarvetta laittaa direktiiviparametreja lainausmerkkeihin;
Direktiivin parametrit eivät vaadi puolipisteitä lopussa;
Komento robots.txt-tiedostossa on määritetty muodossa - [Directive_name]:[valinnainen välilyönti][arvo][valinnainen välilyönti];
Kommentit ovat sallittuja robots.txt-tiedostossa hash-merkin # jälkeen;
Tyhjä rivinvaihto voidaan tulkita User-agent -direktiivin lopuksi;
"Disallow:"-direktiivi (tyhjällä arvolla) vastaa "Allow: /" - salli kaikki;
"Allow"- ja "Disallow"-käskyt määrittävät enintään yhden parametrin;
Robots.txt-tiedoston nimi ei salli isojen kirjainten käyttöä, tiedostonimen kirjoitusvirhe on Robots.txt tai ROBOTS.TXT;
Direktiivien ja parametrien nimien kirjoittamista isoilla kirjaimilla pidetään huonona muodossa, ja vaikka robots.txt ei standardin mukaan eroaisi isot ja pienet kirjaimet, tiedostojen ja hakemistojen nimet ovat usein isoja ja pieniä kirjaimia herkkiä;
Jos ohjeparametri on hakemisto, hakemiston nimeä edeltää aina vinoviiva “/”, esimerkiksi: Disallow: /category
Liian suuria robots.txt-tiedostoja (yli 32 kt) pidetään täysin sallittuna, mikä vastaa "Disallow:"
Robots.txt, johon ei pääse jostain syystä, voidaan tulkita täysin sallivaksi;
Jos robots.txt on tyhjä, sitä käsitellään täysin sallivana.
Useiden "User-agent"-komentojen luetteloimisen seurauksena ilman tyhjää rivinsyöttöä kaikki myöhemmät "User-agent"-käskyt ensimmäistä lukuun ottamatta voidaan jättää huomiotta.
Kansallisten aakkosten merkkien käyttö robots.txt-tiedostossa ei ole sallittua.

Koska eri hakukoneet voivat tulkita robots.txt-syntaksia eri tavalla, jotkin lausekkeet voidaan jättää pois. Jos esimerkiksi syötät useita "User-agent" -komentoja ilman tyhjää rivinvaihtoa, Yandex hyväksyy kaikki "User-agent" -käskyt oikein, koska Yandex valitsee tietueet sen perusteella, ovatko ne "User-agent"-rivillä.

Robottien tulee tiukasti ilmoittaa vain se, mitä tarvitaan, eikä mitään ylimääräistä. Älä ajattele kuinka kirjoittaa kaikki robots txt:ssä, mikä on mahdollista ja miten se täytetään. Ihanteelliset robotit txt on se, jossa on vähemmän rivejä, mutta enemmän merkitystä. "Lyhyys on viisauden sielu". Tämä ilmaisu on hyödyllinen täällä.

Kuinka tarkistaa robots.txt

Jotta tarkista robots.txt Voit tarkistaa tiedoston syntaksin ja rakenteen oikeellisuuden käyttämällä jotakin online-palvelusta. Esimerkiksi Yandex ja Google tarjoavat verkkovastaaville omia palveluitaan, jotka sisältävät robots.txt-analyysi:

Robots.txt-tiedoston tarkistaminen Yandex.Webmasterissa: http://webmaster.yandex.ru/robots.xml

Jotta tarkista robots.txt verkossa tarpeellista lataa robots.txt sivustolle juurihakemistossa. Muussa tapauksessa palvelu voi ilmoittaa asiasta robots.txt-tiedoston lataaminen epäonnistui. On suositeltavaa tarkistaa ensin robots.txt-tiedoston saatavuus osoitteesta, jossa tiedosto sijaitsee, esimerkiksi: your_site.ru/robots.txt.

Yandexin ja Googlen vahvistuspalvelujen lisäksi verkossa on monia muita robots.txt-tarkistusohjelmat.

Robots.txt vs. Yandex ja Google

On olemassa subjektiivinen mielipide, jonka mukaan Yandex näkee robots.txt-tiedoston erillisen komentolohkon "User-agent: Yandex" positiivisemmin kuin yleisen komentolohkon, jossa on "User-agent: *". Tilanne on samanlainen robots.txt:n ja Googlen kanssa. Erillisten ohjeiden määrittäminen Yandexille ja Googlelle antaa sinun hallita sivuston indeksointia robots.txt-tiedoston kautta. Ehkä he ovat henkilökohtaisesti imarreltuja vetoomuksesta, varsinkin kun useimmilla sivustoilla Yandexin, Googlen ja muiden hakukoneiden robots.txt-lohkojen sisältö on sama. Harvinaisia poikkeuksia lukuun ottamatta kaikilla "User-agent"-lohkoilla on standardi robots.txt-tiedostolle joukko direktiivejä. Voit myös asentaa käyttämällä erilaisia "User-agentteja". indeksoinnin kielto robots.txt-tiedostossa Yandexille, mutta ei esimerkiksi Googlelle.

Erikseen on syytä huomata, että Yandex ottaa huomioon niin tärkeän direktiivin kuin "isäntä", ja oikean Yandexin robots.txt-tiedoston tulisi sisältää tämä direktiivi osoittamaan sivuston pääpeilin. Tarkastelemme "isäntä"-direktiiviä yksityiskohtaisemmin alla.

Poista indeksointi käytöstä: robots.txt Disallow

Disallow - kieltävä ohje, jota käytetään useimmiten robots.txt-tiedostossa. Disallow estää sivuston tai sen osan indeksoinnin Disallow-direktiivin parametrissa määritetyn polun mukaan.

Esimerkki sivuston indeksoinnin estämisestä robots.txt-tiedostossa:

User-agent: * Disallow: /

Tämä esimerkki estää koko sivustoa indeksoimasta kaikkia robotteja.

Disallow-direktiivin parametri sallii erikoismerkkien * ja $ käytön:

* - mikä tahansa määrä merkkejä, esimerkiksi /page*-parametri täyttää /page, /page1, /page-be-cool, /page/kak-skazat jne. Jokaisen parametrin lopussa ei kuitenkaan tarvitse määrittää *-merkkiä, koska esimerkiksi seuraavat direktiivit tulkitaan samoin:

User-agent: Yandex Disallow: /page User-agent: Yandex Disallow: /sivu*

$ - osoittaa poikkeuksen tarkan vastaavuuden parametrin arvoon:

User-agent: Googlebot Disallow: /page$

Tässä tapauksessa Disallow-käsky estää /sivun, mutta ei estä sivun /page1, /page-be-cool tai /page/kak-skazat indeksointia.

Jos sulje sivuston indeksointi robots.txt, hakukoneet voivat vastata tähän siirtoon virheellä "Estetty robots.txt-tiedostossa" tai "URL-osoite on rajoitettu robots.txt-tiedostolla" (robots.txt-tiedoston kieltämä URL-osoite). Jos tarvitset poista sivun indeksointi käytöstä, voit käyttää robots txt:n lisäksi myös vastaavia html-tageja:

- älä indeksoi sivun sisältöä;
- älä seuraa sivulla olevia linkkejä;
- on kiellettyä indeksoida sisältöä ja seurata sivulla olevia linkkejä;
- samanlainen kuin content="none".

Salli indeksointi: robots.txt Salli

Salli - salliva ohje ja Disallow-direktiivin vastakohta. Tällä direktiivillä on samanlainen syntaksi kuin Disallow.

Esimerkki sivuston indeksoinnin kieltämisestä paitsi joidenkin robots.txt-tiedoston sivujen osalta:

User-agent: * Disallow: /Allow: /sivu

Koko sivuston indeksointi on kielletty, paitsi sivut, jotka alkavat /page.

Disallow ja Allow tyhjällä parametriarvolla

Tyhjä Disallow-ohje:

User-agent: * Disallow:

Älä kiellä mitään tai salli koko sivuston indeksointia ja vastaa seuraavaa:

User-agent: * Salli: /

Tyhjä Salli-ohje:

User-agent: * Salli:

Mitään salliminen tai sivuston indeksoinnin kieltäminen kokonaan vastaa:

User-agent: * Disallow: /

Pääsivuston peili: robots.txt Host

Host-direktiiviä käytetään osoittamaan Yandex-robotille sivustosi pääpeili. Kaikista suosituista hakukoneista direktiivi Vain Yandex-robotit tunnistavat isännän. Isäntädirektiivi on hyödyllinen, jos sivustollesi pääsee useiden kanavien kautta, esimerkiksi:

Omasivusto.ru mysite.com

Tai määrittää prioriteetin välillä:

Omasivusto.ru www.omasivusto.ru

Voit kertoa Yandex-robotille, mikä peili on tärkein. Isäntädirektiivi ilmoitetaan "User-agent: Yandex" -komentolohkossa, ja parametrina ilmoitetaan ensisijaisen sivuston osoite ilman "http://"-merkkiä.

Esimerkki robots.txt-tiedostosta, joka ilmaisee pääpeilin:

Käyttäjäagentti: Yandex Disallow: /sivu Isäntä: mysite.ru

Verkkotunnus mysite.ru ilman www-osoitetta on merkitty pääpeiliksi. Näin ollen tämäntyyppinen osoite ilmoitetaan hakutuloksissa.

User-agent: Yandex Disallow: /sivu Isäntä: www.omasivusto.ru

Verkkotunnus www.mysite.ru on merkitty pääpeiliksi.

Isäntädirektiivi robots.txt-tiedostossa voidaan käyttää vain kerran, mutta jos Host-direktiivi on määritetty useammin kuin kerran, vain ensimmäinen huomioidaan, muut Host-direktiivit ohitetaan.

Jos haluat määrittää Googlebotin pääpeilin, käytä Google Webmaster Tools -palvelua.

Sivustokartta: robots.txt-sivustokartta

Sitemap-direktiivin avulla voit määrittää sijainnin sivustolla robots.txt-tiedostossa.

Esimerkki robots.txt-tiedostosta, joka ilmaisee sivustokartan osoitteen:

User-agent: * Disallow: /sivu Sivukartta: http://www.mysite.ru/sitemap.xml

Sivukartan osoitteen määrittäminen kautta Sivustokarttaohje robots.txt-tiedostossa antaa hakurobotille mahdollisuuden selvittää sivustokartan olemassaolo ja aloittaa sen indeksoinnin.

Clean-param -direktiivi

Clean-param -direktiivin avulla voit sulkea pois dynaamisia parametreja sisältäviä sivuja indeksoinnista. Samankaltaiset sivut voivat tarjota samaa sisältöä, mutta niillä on eri sivujen URL-osoitteet. Yksinkertaisesti sanottuna sivu on ikään kuin saatavilla eri osoitteista. Tehtävämme on poistaa kaikki tarpeettomat dynaamiset osoitteet, joita voi olla miljoona. Tätä varten suljemme pois kaikki dynaamiset parametrit, käyttämällä robots.txt-tiedoston Clean-param-direktiiviä.

Clean-param -direktiivin syntaksi on:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Polku]

Katsotaanpa esimerkkiä sivusta, jolla on seuraava URL-osoite:

www.omasivusto.ru/sivu.html?&parm1=1&parm2=2&parm3=3

Esimerkki robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /sivu.html # vain sivu.html:lle

Clean-param: parm1&parm2&parm3 / # kaikille

Indeksoinnin viiveohje

Tämän ohjeen avulla voit vähentää palvelimen kuormitusta, jos robotit vierailevat sivustollasi liian usein. Tämä direktiivi koskee pääasiassa sivustoja, joilla on suuri määrä sivuja.

Esimerkki robots.txt-indeksoinnin viiveestä:

User-agent: Yandex Disallow: /page Indeksoinnin viive: 3

Tässä tapauksessa "pyydämme" Yandex-robotteja lataamaan sivustomme sivuja enintään kerran kolmessa sekunnissa. Jotkut hakukoneet tukevat murtolukumuotoa parametrina Indeksoinnin viiveen robots.txt-ohjeet.

Sivuston sitemap.xml-tiedosto ja oikea robots.txt-tiedosto ovat kaksi pakollista dokumenttia, jotka edistävät hakurobottien kaikkien tarvittavien verkkoresurssien sivujen nopeaa ja täydellistä indeksointia. Oikea sivuston indeksointi Yandexissä ja Googlessa on avain menestyksekkääseen blogien edistämiseen hakukoneissa.

Kirjoitin jo, kuinka sivukartta tehdään XML-muodossa ja miksi sitä tarvitaan. Nyt puhutaan siitä, kuinka luodaan oikea robots.txt WordPress-sivustolle ja miksi sitä yleensä tarvitaan. Yksityiskohtaisia tietoja tästä tiedostosta saa Yandexiltä ja Googlelta itseltään. Siirryn ytimeen ja käsittelen WordPressin robots.txt-perusasetuksia käyttämällä tiedostoani esimerkkinä.

Miksi tarvitset robots.txt-tiedoston verkkosivustolle?

Robots.txt-standardi ilmestyi tammikuussa 1994. Kun etsit verkkoresurssia, hakurobotit etsivät ensin tekstitiedoston robots.txt, joka sijaitsee sivuston tai blogin juurikansiossa. Sen avulla voimme määrittää tiettyjä sääntöjä eri hakukoneiden roboteille, joiden mukaan he indeksoivat sivuston.

Kun määrität robots.txt-tiedoston oikein, voit:

sulkea pois kaksoiskappaleet ja erilaiset roskapostisivut hakemistosta;
kiellä niiden sivujen, tiedostojen ja kansioiden indeksointi, jotka haluamme piilottaa;
yleensä kieltäydytään indeksoimasta joillekin hakuroboteille (esimerkiksi Yahoo, jotta voidaan piilottaa tietoja kilpailijoilta saapuvista linkeistä);
ilmoittaa sivuston pääpeili (www:llä tai ilman www-sivua);
määritä polku sivustokarttaan sitemap.xml.

Oikean robots.txt-tiedoston luominen sivustolle

Tätä tarkoitusta varten on olemassa erityisiä generaattoreita ja laajennuksia, mutta on parempi tehdä tämä manuaalisesti.

Sinun tarvitsee vain luoda tavallinen tekstitiedosto nimeltä robots.txt millä tahansa tekstieditorilla (esimerkiksi Notepad tai Notepad++) ja ladata se isännöintiisi blogisi juurikansioon. Tietyt käskyt on kirjoitettava tähän tiedostoon, esim. indeksointisäännöt Yandexin, Googlen jne. roboteille.

Jos olet liian laiska vaivautumaan tämän kanssa, niin alla annan esimerkin omasta näkökulmastani oikean robots.txt-tiedostosta WordPressille blogissani. Voit käyttää sitä korvaamalla verkkotunnuksen kolmessa paikassa.

Robots.txt-tiedoston luomissäännöt ja -ohjeet

Jotta blogin hakukoneoptimointi onnistuisi, sinun on tiedettävä joitain robots.txt-tiedoston luomista koskevia sääntöjä:

Poissaolo tai tyhjä robots.txt-tiedosto tarkoittaa, että hakukoneet voivat indeksoida kaiken verkkoresurssin sisällön.
robots.txt-tiedoston pitäisi avautua osoitteessa site.ru/robots.txt ja antaa robotille vastauskoodi 200 OK ja olla kooltaan enintään 32 kt. Tiedostoa, joka ei avaudu (esimerkiksi 404-virheen vuoksi) tai se on suurempi, pidetään ok.
Ohjeiden määrä tiedostossa saa olla enintään 1024. Yhden rivin pituus saa olla enintään 1024 merkkiä.
Kelvollisessa robots.txt-tiedostossa voi olla useita käskyjä, joista jokaisen on alettava User-agent-käskyllä ja niissä on oltava vähintään yksi Disallow-käsky. Yleensä he kirjoittavat ohjeet robots.txt-tiedostoon Googlelle ja kaikille muille roboteille ja erikseen Yandexille.

Robots.txt-tiedoston perusohjeet:

User-agent – osoittaa mille hakurobotille ohje on osoitettu.

Symboli “*” tarkoittaa, että tämä koskee kaikkia robotteja, esimerkiksi:

Käyttäjä agentti: *

Jos meidän on luotava sääntö robots.txt-tiedostoon Yandexille, kirjoitamme:

Käyttäjäagentti: Yandex

Jos ohje on määritetty tietylle robotille, se ei ota User-agent: * -ohjetta huomioon.

Estä ja Salli – estävät ja sallivat robottien indeksoida määritetyt sivut. Kaikki osoitteet on määritettävä sivuston juuresta, ts. alkaen kolmannesta kauttaviivasta. Esimerkiksi:

Kielletään kaikkia robotteja indeksoimasta koko sivustoa:
Käyttäjä agentti: *
Estä: /
Yandex ei saa indeksoida kaikkia sivuja, jotka alkavat /wp-admin:
Käyttäjäagentti: Yandex
Disallow: /wp-admin
Tyhjä Disallow-direktiivi sallii kaiken indeksoinnin ja on samanlainen kuin Allow. Esimerkiksi annan Yandexin indeksoida koko sivuston:
Käyttäjäagentti: Yandex
Estä:
Ja päinvastoin, kiellän kaikkia hakurobotteja indeksoimasta kaikkia sivuja:
Käyttäjä agentti: *
Sallia:
Saman User-agent-lohkon Salli- ja Disallow-käskyt lajitellaan URL-etuliitepituuden mukaan ja suoritetaan peräkkäin. Jos useat käskyt sopivat yhdelle sivuston sivulle, suoritetaan luettelon viimeinen. Nyt niiden kirjoitusjärjestyksellä ei ole väliä, kun robotti käyttää direktiivejä. Jos käskyillä on samanpituiset etuliitteet, Allow suoritetaan ensin. Nämä säännöt astuvat voimaan 8.3.2012. Se sallii esimerkiksi vain /wp-includes-alkuisten sivujen indeksoinnin:
Käyttäjäagentti: Yandex
Estä: /
Salli: /wp-includes

Sivustokartta – Määrittää XML-sivustokartan osoitteen. Yhdellä sivustolla voi olla useita Sitemap-komentoja, jotka voidaan sisäkkäin. Kaikkien sivustokarttatiedostojen osoitteet on määritettävä robots.txt-tiedostossa sivuston indeksoinnin nopeuttamiseksi:

Sivustokartta: http://site/sitemap.xml.gz
Sivustokartta: http://site/sitemap.xml

Isäntä – kertoo peilirobotille, mikä verkkosivuston peili pitää ensisijaisena.

Jos sivusto on käytettävissä useista osoitteista (esimerkiksi www-osoitteella ja ilman www-osoitetta), tämä luo täydellisiä kaksoissivuja, jotka suodatin voi siepata. Myös tässä tapauksessa se ei välttämättä ole pääsivu, joka on indeksoitu, mutta pääsivu päinvastoin jätetään pois hakukoneen hakemistosta. Tämän estämiseksi käytä isäntädirektiiviä, joka on tarkoitettu robots.txt-tiedostoon vain Yandexille, ja sitä voi olla vain yksi. Se on kirjoitettu Disallow ja Allow jälkeen ja näyttää tältä:

Isäntä: verkkosivusto

Crawl-delay – määrittää viiveen sivujen lataamisen välillä sekunneissa. Käytetään, jos kuormitus on suuri ja palvelimella ei ole aikaa käsitellä pyyntöjä. Nuorilla sivustoilla on parempi olla käyttämättä indeksointiviivedirektiiviä. Se on kirjoitettu näin:

Käyttäjäagentti: Yandex
Indeksoinnin viive: 4

Clean-param – tukee vain Yandex, ja sitä käytetään poistamaan päällekkäiset sivut muuttujineen yhdistämällä ne yhdeksi. Siksi Yandex-robotti ei lataa samanlaisia sivuja monta kertaa, esimerkiksi niitä, jotka liittyvät viittauslinkkeihin. En ole vielä käyttänyt tätä ohjetta, mutta Yandexin robots.txt-tiedoston ohjeessa, seuraa artikkelin alussa olevaa linkkiä, voit lukea tämän direktiivin yksityiskohtaisesti.

Erikoismerkkejä * ja $ käytetään robots.txt-tiedostossa osoittamaan Disallow- ja Allow-käskyjen polut:

Erikoismerkki “*” tarkoittaa mitä tahansa merkkijonoa. Esimerkiksi Disallow: /*?* tarkoittaa kieltoa kaikilla sivuilla, joilla "?" esiintyy osoitteessa, riippumatta siitä, mitä merkkejä on ennen ja jälkeen. Oletuksena erikoismerkki “*” lisätään jokaisen säännön loppuun, vaikka sitä ei olisi erikseen määritetty.
"$"-symboli kumoaa "*" säännön lopussa ja tarkoittaa tiukkaa vastaavuutta. Esimerkiksi Disallow: /*?$-direktiivi estää "?"-merkkiin päättyvien sivujen indeksoinnin.

Esimerkki robots.txt-tiedostosta WordPressille

Tässä on esimerkki robots.txt-tiedostostani blogia varten WordPress-moottorilla:

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */ trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

Jotta et huijaa itseäsi luomalla oikeaa robots.txt-tiedostoa WordPressille, voit käyttää tätä tiedostoa. Indeksoinnissa ei ole ongelmia. Minulla on kopiosuojausskripti, joten on helpompi ladata valmis robots.txt ja ladata se isännöintiisi. Älä vain unohda korvata sivustoni nimeä omallasi isäntä- ja sivustokarttaohjeissa.

Hyödyllisiä lisäyksiä robots.txt-tiedoston oikeaan määrittämiseen WordPressille

Jos puukommentit on asennettu WordPress-blogiisi, ne luovat kaksoissivuja muodossa ?replytocom=. Robots.txt:ssä tällaiset sivut suljetaan Disallow: /*?* -käskyllä. Mutta tämä ei ole ratkaisu, ja on parempi poistaa kiellot ja taistella replytocomia vastaan muulla tavalla. Mitä, .

Näin ollen nykyinen robots.txt-tiedosto heinäkuussa 2014 näyttää tältä:

User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes User-agent: Yandex Disallow: /wp -sisältää Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Isäntä: site.ru User-agent: Googlebot-Image Allow: /wp-content /uploads/ User-agent: YandexImages Salli: /wp-content/uploads/ Sivustokartta: http://site.ru/sitemap.xml

Se sisältää lisäksi säännöt kuvan indeksointiroboteille.

Käyttäjäagentti: Mediapartners-Google
Estä:

Jos aiot mainostaa luokka- tai tunnistesivuja, sinun tulee avata ne roboteille. Esimerkiksi blogisivustolla kategorioita ei suljeta indeksoinnista, koska ne julkaisevat vain pieniä artikkeleita, mikä on sisällön kopioimisen kannalta melko merkityksetöntä. Ja jos käytät lainausten näyttämistä blogisyötteessä, jotka ovat täynnä ainutlaatuisia ilmoituksia, päällekkäisyyksiä ei tapahdu ollenkaan.

Jos et käytä yllä olevaa laajennusta, voit määrittää robots.txt-tiedostossasi estämään tunnisteiden, luokkien ja arkistojen indeksoinnin. Esimerkiksi lisäämällä seuraavat rivit:

Disallow: /author/
Disallow: /tag
Disallow: /category/*/*
Disallow: /20*

Muista tarkistaa robots.txt-tiedosto Yandex.Webmaster-paneelista ja ladata se sitten uudelleen isännöintiisi.

Jos sinulla on lisäyksiä robots.txt-tiedoston määrittämiseen, kirjoita niistä kommentteihin. Katso nyt video siitä, mitä se on ja kuinka luodaan oikea robots.txt-tiedosto sivustolle, kuinka estetään indeksointi robots.txt-tiedostossa ja korjataan virheet.