Kā darbojas robotu txt. Kā rediģēt robotu txt failu. Vietnes karte, resursdatora direktīvas

Sveicināti, dārgie Pingo SEO emuāra lasītāji. Šajā rakstā es vēlos izklāstīt savu ideju par to, kā pareizi izveidot robots.txt vietnei. Savulaik mani ļoti kaitināja tas, ka informācija internetā par šo jautājumu bija visai fragmentāra. Šī iemesla dēļ man bija jāpārmeklē liels skaits resursu, pastāvīgi filtrējot atkārtotu informāciju un identificējot jaunu.

Tādējādi šeit es mēģināšu atbildēt uz lielāko daļu jautājumu, sākot ar definīciju un beidzot ar reālu problēmu piemēriem, ko šis rīks atrisina. Ja kaut ko aizmirsu, rakstiet par to komentāros - izpētīšu jautājumu un papildināšu materiālu.

Robots.txt - kas tas ir, kāpēc tas ir vajadzīgs un kur tas dzīvo?

Tātad, pirmkārt, izglītojoša programma tiem, kam šī tēma ir pavisam sveša.

Robots.txt ir teksta fails, kurā ir norādījumi par vietnes indeksēšanu meklētājprogrammu robotiem. Šajā failā tīmekļa pārzinis var definēt savas vietnes indeksēšanas parametrus gan visiem robotiem vienlaikus, gan katrai meklētājprogrammai atsevišķi (piemēram, Google).

Kur atrodas fails robots.txt? Tas atrodas FTP vietnes saknes mapē, un patiesībā tas ir parasts dokuments txt formātā, kuru var rediģēt, izmantojot jebkuru teksta redaktoru (personīgi es dodu priekšroku Notepad++). Robotu faila saturu var redzēt, pārlūkprogrammas adreses joslā ievadot http://www.your-site.ru/robots.txt. Ja, protams, tā pastāv.

Kā izveidot vietnei robots.txt? Pietiek izveidot parastu teksta failu ar tādu pašu nosaukumu un augšupielādēt to vietnē. Kā to pareizi konfigurēt un izveidot, tiks apspriests tālāk.

Faila robots.txt struktūra un pareiza konfigurācija

Kādam vajadzētu izskatīties pareizajam vietnes robots txt failam? Struktūru var raksturot šādi:

1. Lietotāja aģenta direktīva

Ko rakstīt šajā sadaļā? Šī direktīva nosaka, kuram robotam ir paredzēti tālāk norādītie norādījumi. Piemēram, ja tie ir paredzēti visiem robotiem, tad pietiek ar šādu dizainu:

Faila robots.txt sintaksē zīme “*” ir līdzvērtīga frāzei “jebkas”. Ja jums ir jāiestata norādījumi konkrētai meklētājprogrammai vai robotam, tā nosaukums tiek rakstīts iepriekšējā piemēra zvaigznītes vietā, piemēram:

Lietotāja aģents: YandexBot

Katrā meklētājprogrammā ir vesels robotu komplekts, kas veic noteiktas funkcijas. Ir aprakstīti Yandex meklētājprogrammas roboti. Vispārīgi runājot, ir šādi:

Yandex - atsauce uz Yandex robotiem.
GoogleBot ir galvenais indeksēšanas robots.
MSNBot ir Bing galvenais indeksēšanas robots.
Aport - Aport roboti.
Mail.Ru — PS pasta roboti.

Ja ir direktīva konkrētai meklētājprogrammai vai robotam, tad vispārīgās tiek ignorētas.

2. Atļaut direktīvu

Ļauj atsevišķas sadaļas lapas, ja, piemēram, tā iepriekš bija pilnībā slēgta no indeksēšanas. Piemēram:

Lietotāja aģents: *
Neatļaut: /
Atļaut: /open-page.html

Šajā piemērā mēs aizliedzam indeksēt visu vietni, izņemot lapu poni.html

Šī direktīva zināmā mērā kalpo, lai norādītu uz izņēmumiem no noteikumiem, kas noteikti Direktīvā Disallow. Ja tādu situāciju nav, tad direktīvu var neizmantot vispār. Tas neļauj atvērt vietni indeksēšanai, kā daudzi cilvēki domā, jo, ja nav tāda aizlieguma kā Disallow: /, tad tā ir atvērta pēc noklusējuma.

2. Neatļaut direktīva

Tas ir direktīvas Atļaut antipods un bloķē atsevišķu lapu, sadaļu vai visas vietnes indeksēšanu. Tas ir līdzīgs tagam noindex. Piemēram:

Lietotāja aģents: *
Neatļaut: /closed-page.html

3. Uzņēmēja direktīva

Izmanto tikai Yandex un norāda uz vietnes galveno spoguli. Tas izskatās šādi.

Galvenais spogulis bez www:

Galvenais spogulis no www:

Saimnieks: www.site.ru

Vietne https:

Saimnieks: https://site.ru

Jūs nevarat ierakstīt resursdatora direktīvu failā divreiz. Ja tas notiek kādas kļūdas dēļ, vispirms tiek apstrādāta direktīva, bet otrā tiek ignorēta.

4. Vietnes karšu direktīva

Izmanto, lai norādītu ceļu uz XML vietnes karti sitemap.xml (ja tāda pastāv). Sintakse ir šāda:

Vietnes karte: http://www.site.ru/sitemap.xml

5. Clean-param direktīva

Izmanto, lai bloķētu lapas ar parametriem, kas var būt dublikāti no indeksēšanas. Manuprāt, ļoti noderīga direktīva, kas nogriež URL parametrisko asti, atstājot tikai mugurkaulu, kas ir lapas sākotnējā adrese.

Šī problēma ir īpaši izplatīta, strādājot ar katalogiem un tiešsaistes veikaliem.

Pieņemsim, ka mums ir lapa:

http://www.site.ru/index.php

Un šī lapa darba procesā var aizaugt ar sugas kloniem.

http://www.site.ru/index.php?option=com_user_view=remind
http://www.site.ru/index.php?option=com_user_view=reset
http://www.site.ru/index.php?option=com_user_view=login

Lai atbrīvotos no visiem iespējamiem šī surogātpasta variantiem, pietiek norādīt šādu konstrukciju:

Clean-param: opcija /index.php

Es domāju, ka piemēra sintakse ir skaidra:

Clean-param: # norādiet direktīvu
opcija # norādiet surogātpasta parametru
/index.php # norādiet URL mugurkaulu ar surogātpasta parametru

Ja ir vairāki parametri, mēs tos vienkārši uzskaitām, izmantojot & (&):

http://www.site.ru/index.php?option=com_user_view=remind&size=big # URL ar diviem parametriem
Clean-param: option&big /index.php # divi parametri ir norādīti, izmantojot ampersandu

Tiek ņemts vienkāršs piemērs, kas izskaidro būtību. Es īpaši vēlētos pateikties šim parametram, strādājot ar CMS Bitrix.

Pārmeklēšanas kavēšanās direktīva

Ļauj iestatīt taimautu vietnes lapu ielādei, ko veic Yandex robots. To izmanto, ja serveris ir ļoti noslogots un tam vienkārši nav laika ātri atgriezt saturu. Manuprāt, tas ir anahronisms, ko vairs neņem vērā un ko nevar izmantot.

Pārmeklēšanas aizkave: 3,5 #taimauts 3,5 sekundes

Sintakse

# — izmanto komentāru rakstīšanai:

User-agent: * # direktīva attiecas uz visiem robotiem

* - nozīmē jebkuru rakstzīmju secību, kas nozīmē:

Disallow: /page* # neatļaut visas lapas, kas sākas ar lapu

Neatļaut: /*lapa # neatļaut visas lapas, kas beidzas ar lapu

Neatļaut: /cgi-bin/*.aspx # neatļaut visas aspx lapas mapē cgi-bin

$ - noteikuma saīsināšana, zvaigznītes zīmes antipods:

Neatļaut: /page$ # aizvērs tikai /lapu, nevis /page.html vai pageline.html

Faila robots.txt piemērs

Lai nostiprinātu izpratni par iepriekš aprakstīto struktūru un noteikumiem, mēs piedāvājam standarta robotu txt CMS Data Life Engine.

User-agent: *# direktīvas ir paredzētas visām meklētājprogrammām
Neatļaut: /engine/go.php # atspējot noteiktas sadaļas un lapas
Neatļaut: /engine/download.php #
Neatļaut: /lietotājs/ #
Neatļaut: /newposts/ #
Disallow: /*subaction=userinfo # aizveriet lapas ar atsevišķiem parametriem
Neatļaut: /*subaction=newposts #
Neatļaut: /*do=lastcomments #
Neatļaut: /*do=feedback #
Neatļaut: /*do=register #
Neatļaut: /*do=lostpassword #
Saimnieks: www.site # norāda vietnes galveno spoguli
Vietnes karte: https://site/sitemap.xml # norāda ceļu uz vietnes karti
Lietotāja aģents: Aport # norāda PS Aport noteikumu virzienu
Disallow: / # pieņemsim, ka nevēlamies ar viņiem draudzēties

Notiek faila robots.txt pārbaude

Kā pārbaudīt robotu txt pareizību? Standarta opcija ir Yandex validators - http://webmaster.yandex.ru/robots.xml. Ievadiet ceļu uz savu robotu failu vai nekavējoties ielīmējiet tā saturu teksta laukā. Mēs ievadām sarakstu ar URL, kurus vēlamies pārbaudīt - vai tie ir slēgti vai atvērti saskaņā ar dotajām direktīvām - noklikšķiniet uz "Pārbaudīt" un voila! Peļņa.

Tiek parādīts lapas statuss – vai tā ir atvērta indeksēšanai vai aizvērta. Ja aizvērts, tad tiek norādīts ar kuru noteikumu. Lai atļautu šādas lapas indeksēšanu, jums ir jāmaina noteikums, uz kuru norādīja pārbaudītājs. Ja failā ir sintakses kļūdas, validators arī ziņos par to.

Robots.txt ģenerators — tiešsaistes izveide

Ja jums nav vēlmes vai laika izpētīt sintaksi, bet ir nepieciešams aizvērt surogātpasta lapas vietnē, varat izmantot jebkuru bezmaksas tiešsaistes ģeneratoru, kas ļaus jums izveidot vietnei robotu txt vienā mirklī. pāris klikšķu. Tad viss, kas jums jādara, ir lejupielādēt failu un augšupielādēt to savā vietnē. Strādājot ar to, jums vienkārši jāpārbauda acīmredzamie iestatījumi un jānorāda arī lapas, kurām vēlaties bloķēt indeksēšanu. Pārējo jūsu vietā paveiks ģenerators.

Gatavie faili populārām CMS

Robots.txt fails vietnei pakalpojumā 1C Bitrix

Lietotāja aģents: *
Neatļaut: /bitrix/
Neatļaut: /personisks/
Neatļaut: /upload/
Neatļaut: /*pieteikties*
Neatļaut: /*auth*
Neatļaut: /*meklēt
Neatļaut: /*?sort=
Neatļaut: /*gclid=
Neatļaut: /*register=
Neatļaut: /*?per_count=
Neatļaut: /*forgot_password=
Neatļaut: /*change_password=
Neatļaut: /*logout=
Neatļaut: /*back_url_admin=
Neatļaut: /*print=
Neatļaut: /*backurl=
Neatļaut: /*BACKURL=
Neatļaut: /*back_url=
Neatļaut: /*BACK_URL=
Neatļaut: /*ADD2BASKET
Neatļaut: /*ADD_TO_COMPARE_LIST
Neatļaut: /*DELETE_FROM_COMPARE_LIST
Neatļaut: /*action=BUY
Neatļaut: /*set_filter=y
Neatļaut: /*?mode=matrix
Neatļaut: /*?mode=listitems
Neatļaut: /*openstat
Neatļaut: /*from=adwords
Neatļaut: /*utm_source
Saimnieks: www.site.ru

Robots.txt, kas paredzēts DataLife Engine (DLE)

Lietotāja aģents: *
Neatļaut: /engine/go.php
Neatļaut: /engine/download.php
Neatļaut: /dzinējs/klases/highslide/
Neatļaut: /lietotājs/
Neatļaut: /tags/
Neatļaut: /newposts/
Neatļaut: /statistika.html
Neatļaut: /*subaction=userinfo
Neatļaut: /*subaction=newposts
Neatļaut: /*do=lastcomments
Neatļaut: /*do=feedback
Neatļaut: /*do=register
Neatļaut: /*do=zaudēta parole
Neatļaut: /*do=addnews
Neatļaut: /*do=stats
Neatļaut: /*do=pm
Neatļaut: /*do=search
Saimnieks: www.site.ru
Vietnes karte: http://www.site.ru/sitemap.xml

Robots.txt Joomla

Lietotāja aģents: *
Neatļaut: /administrator/
Neatļaut: /cache/
Neatļaut: /includes/
Neatļaut: /instalēšana/
Neatļaut: /language/
Neatļaut: /bibliotēkas/
Neatļaut: /media/
Neatļaut: /modules/
Neatļaut: /plugins/
Neatļaut: /templates/
Neatļaut: /tmp/
Neatļaut: /xmlrpc/
Neatļaut: *drukāt
Neatļaut: /*utm_source
Neatļaut: /*mailto*
Neatļaut: /*sākt*
Neatļaut: /*feed*
Neatļaut: /*meklēt*
Neatļaut: /*lietotāji*
Saimnieks: www.site.ru
Vietnes karte: http://www.site.ru/sitemap.xml

Robots.txt programmai Wordpress

Lietotāja aģents: *
Neatļaut: /cgi-bin
Neatļaut: /wp-admin
Neatļaut: /wp-includes
Neatļaut: /wp-content/plugins
Neatļaut: /wp-content/cache
Neatļaut: /wp-content/themes
Neatļaut: */trackback
Neatļaut: */feed
Neatļaut: /wp-login.php
Neatļaut: /wp-register.php
Saimnieks: www.site.ru
Vietnes karte: http://www.site.ru/sitemap.xml

Robots.txt vietnei Ucoz

Lietotāja aģents: *
Neatļaut: /a/
Neatļaut: /stat/
Neatļaut: /index/1
Neatļaut: /index/2
Neatļaut: /index/3
Neatļaut: /index/5
Neatļaut: /index/7
Neatļaut: /index/8
Neatļaut: /index/9
Neatļaut: /panel/
Neatļaut: /admin/
Neatļaut: /secure/
Neatļaut: /informer/
Neatļaut: /mchat
Neatļaut: /search
Neatļaut: /shop/order/
Neatļaut: /?ssid=
Neatļaut: /google
Neatļaut: /

Šis ir teksta fails (dokuments .txt formātā), kas satur skaidrus norādījumus par konkrētas vietnes indeksēšanu. Citiem vārdiem sakot, šis fails meklētājprogrammām norāda, kuras tīmekļa resursa lapas ir jāindeksē un kuras nē – jāaizliedz indeksēt.

Šķiet, kāpēc aizliegt dažu vietņu satura indeksēšanu? Saka, lai meklētāja robots visu indeksē bez izšķirības, vadoties pēc principa: jo vairāk lapu, jo labāk! Tikai izpilddirektors amatieris var šādi pamatot.

Ne viss saturs, kas veido vietni, ir vajadzīgs meklēšanas robotiem. Ir sistēmas faili, ir dublētas lapas, ir atslēgvārdu kategorijas un daudz kas cits, kas nav obligāti jāindeksē. Pretējā gadījumā nevar izslēgt šādu situāciju.

Kad meklēšanas robots ierodas jūsu vietnē, pirmais, ko tas dara, ir mēģināt atrast bēdīgi slaveno robots.txt. Ja šis fails netiek atklāts vai tiek atklāts, bet tas ir sastādīts nepareizi (bez nepieciešamajiem aizliegumiem), meklētājprogramma “mesenger” sāk pētīt vietni pēc saviem ieskatiem.

Šādas izpētes procesā viņš visu indeksē un nebūt nav fakts, ka viņš sāk ar tām lapām, kuras vispirms jāievada meklēšanā (jauni raksti, apskati, fotoreportāžas utt.). Protams, šajā gadījumā jaunās vietnes indeksēšana var aizņemt kādu laiku.

Lai izvairītos no šāda neapskaužama likteņa, tīmekļa pārzinim ir laikus jāparūpējas par pareizā robots.txt faila izveidi.

“User-agent:” ir faila robots.txt galvenā direktīva

Praksē direktīvas (komandas) failā robots.txt tiek rakstītas, izmantojot īpašus terminus, no kuriem par galveno var uzskatīt direktīvu “ Lietotāja aģents: " Pēdējais tiek izmantots, lai norādītu meklēšanas robotu, kuram turpmāk tiks dotas noteiktas instrukcijas. Piemēram:

Lietotāja aģents: Googlebot– visas komandas, kas seko šai pamatdirektīvai, attieksies tikai uz Google meklētājprogrammu (tā indeksēšanas robotu);
Lietotāja aģents: Yandex– adresāts šajā gadījumā ir vietējā meklētājprogramma Yandex.

Failu robots.txt var izmantot, lai risinātu visas citas meklētājprogrammas kopā. Komanda šajā gadījumā izskatīsies šādi: Lietotāja aģents: *. Īpašais simbols “*” parasti nozīmē “jebkurš teksts”. Mūsu gadījumā jebkuras meklētājprogrammas, izņemot Yandex. Google, starp citu, arī uztver šo direktīvu personīgi, ja vien jūs ar to nesazināsieties personīgi.

Komanda “Disallow:” — aizliedz indeksēšanu failā robots.txt

Galvenajai meklētājprogrammām adresētajai direktīvai “User-agent:” var sekot īpašas komandas. Starp tiem visizplatītākā ir direktīva " Neatļaut: " Izmantojot šo komandu, varat neļaut meklēšanas robotam indeksēt visu tīmekļa resursu vai kādu tā daļu. Tas viss ir atkarīgs no šīs direktīvas paplašinājuma. Apskatīsim piemērus:

Lietotāja aģents: Yandex Disallow: /

Šāda veida ieraksts failā robots.txt nozīmē, ka Yandex meklēšanas robotam vispār nav atļauts indeksēt šo vietni, jo aizliedzošā zīme “/” ir viena un tai nav pievienoti nekādi precizējumi.

Lietotāja aģents: Yandex Disallow: /wp-admin

Kā redzat, šoreiz ir precizējumi un tie attiecas uz sistēmas mapi wp-admin V . Tas ir, indeksēšanas robots, izmantojot šo komandu (tajā norādīto ceļu), atteiksies indeksēt visu šo mapi.

Lietotāja aģents: Yandex Disallow: /wp-content/themes

Šāda instrukcija Yandex robotam paredz tā uzņemšanu lielajā kategorijā " wp saturs ", kurā tā var indeksēt visu saturu, izņemot " tēmas ».

Sīkāk izpētīsim robots.txt teksta dokumenta “aizliegtās” iespējas:

Lietotāja aģents: Yandex Disallow: /index$

Šajā komandā, kā izriet no piemēra, tiek izmantota cita īpaša zīme “$”. Tās izmantošana norāda robotam, ka tas nevar indeksēt tās lapas, kuru saites satur burtu secību. rādītājs " Tajā pašā laikā indeksējiet atsevišķu vietnes failu ar tādu pašu nosaukumu " indekss.php » robots nav aizliegts. Tādējādi simbolu “$” izmanto, ja ir nepieciešama selektīva pieeja indeksēšanas aizliegšanai.

Turklāt failā robots.txt varat aizliegt indeksēt atsevišķas resursu lapas, kurās ir noteiktas rakstzīmes. Tas varētu izskatīties šādi:

Lietotāja aģents: Yandex Disallow: *&*

Šī komanda liek Yandex meklēšanas robotam neindeksēt visas tās vietnes lapas, kuru vietrāžos URL ir rakstzīme “&”. Turklāt šai zīmei saitē ir jāparādās starp jebkuriem citiem simboliem. Tomēr var būt cita situācija:

Lietotāja aģents: Yandex Disallow: *&

Šeit indeksēšanas aizliegums attiecas uz visām tām lapām, kuru saites beidzas ar “&”.

Ja nevajadzētu būt jautājumiem par vietnes sistēmas failu indeksēšanas aizliegumu, tad šādi jautājumi var rasties saistībā ar aizliegumu indeksēt atsevišķas resursa lapas. Piemēram, kāpēc tas principā ir vajadzīgs? Pieredzējušam tīmekļa pārzinim šajā sakarā var būt daudz apsvērumu, taču galvenais no tiem ir nepieciešamība atbrīvoties no dublētām lapām meklēšanā. Izmantojot komandu “Disallow:” un iepriekš apspriesto īpašo rakstzīmju grupu, ar “nevēlamām” lapām var tikt galā pavisam vienkārši.

Komanda “Allow:” — ļauj indeksēt failā robots.txt

Par iepriekšējās direktīvas antipodu var uzskatīt komandu “ Atļaut: " Izmantojot tos pašus skaidrojošos elementus, bet izmantojot šo komandu failā robots.txt, varat ļaut indeksēšanas robotam ievadīt nepieciešamos vietnes elementus meklēšanas datu bāzē. Lai to apstiprinātu, šeit ir vēl viens piemērs:

Lietotāja aģents: Yandex Atļaut: /wp-admin

Kādu iemeslu dēļ tīmekļa pārzinis mainīja savas domas un veica atbilstošas korekcijas failā robots.txt. Tā rezultātā no šī brīža mapes saturs wp-admin oficiāli apstiprināta Yandex indeksēšanai.

Lai gan komanda Allow: pastāv, praksē tā netiek izmantota ļoti bieži. Kopumā tas nav nepieciešams, jo tas tiek lietots automātiski. Vietnes īpašniekam vienkārši jāizmanto direktīva “Disallow:”, kas aizliedz to vai citu saturu indeksēt. Pēc tam visu pārējo resursa saturu, kas nav aizliegts failā robots.txt, meklēšanas robots uztver kā kaut ko tādu, ko var un vajadzētu indeksēt. Viss ir kā jurisprudencē: "Viss, kas nav aizliegts ar likumu, ir atļauts."

"Host:" un "Sitemap:" direktīvas

Pārskatu par svarīgām direktīvām failā robots.txt pabeidz komandas “ Saimniekdators: " Un " Vietnes karte: " Kas attiecas uz pirmo, tas ir paredzēts tikai Yandex, norādot, kura vietnes spogulis (ar vai bez www) tiek uzskatīts par galveno. Piemēram, vietne var izskatīties šādi:

Lietotāja aģents: Yandex Host: vietne

Lietotāja aģents: Yandex Host: www.site

Izmantojot šo komandu, tiek novērsta arī nevajadzīga vietnes satura dublēšanās.

Savukārt direktīva “ Vietnes karte: » norāda indeksēšanas robotam pareizo ceļu uz tā saukto vietnes karti - failiem sitemap.xml Un vietnes karte.xml.gz (CMS WordPress gadījumā). Hipotētisks piemērs varētu būt:

Lietotāja aģents: * Vietnes karte: http://site/sitemap.xml Vietnes karte: http://site/sitemap.xml.gz

Šīs komandas ierakstīšana failā robots.txt palīdzēs meklēšanas robotam ātrāk indeksēt vietnes karti. Tas, savukārt, paātrinās arī tīmekļa resursu lapu nokļūšanu meklēšanas rezultātos.

Fails robots.txt ir gatavs — ko darīt tālāk?

Pieņemsim, ka jūs kā iesācējs tīmekļa pārzinis esat apguvis visu iepriekš sniegtās informācijas klāstu. Ko darīt pēc tam? Izveidojiet robots.txt teksta dokumentu, ņemot vērā jūsu vietnes funkcijas. Lai to izdarītu, jums ir nepieciešams:

izmantojiet teksta redaktoru (piemēram, Notepad), lai izveidotu nepieciešamo robots.txt;
pārbaudiet izveidotā dokumenta pareizību, piemēram, izmantojot šo Yandex pakalpojumu;
izmantojot FTP klientu, augšupielādējiet gatavo failu savas vietnes saknes mapē (WordPress gadījumā mēs parasti runājam par sistēmas mapi Public_html).

Jā, mēs gandrīz aizmirsām. Iesācējs tīmekļa pārzinis, bez šaubām, pirms pats eksperimentē, vispirms vēlēsies apskatīt gatavus šī faila piemērus, ko izpildījuši citi. Nekas nevar būt vienkāršāks. Lai to izdarītu, vienkārši ievadiet pārlūkprogrammas adreses joslā site.ru/robots.txt . Vietnes “site.ru” vietā - jūs interesējošā resursa nosaukums. Tas ir viss.

Priecīgu eksperimentēšanu un paldies par lasīšanu!

Fails robots.txt ir viens no vissvarīgākajiem, optimizējot jebkuru vietni. Tās trūkums var izraisīt lielu vietnes slodzi no meklēšanas robotiem un lēnu indeksēšanu un atkārtotu indeksēšanu, un nepareizi iestatījumi var novest pie tā, ka vietne var pilnībā pazust no meklēšanas vai vienkārši netikt indeksēta. Līdz ar to tas netiks meklēts Yandex, Google un citās meklētājprogrammās. Apskatīsim visas nianses, kā pareizi iestatīt robots.txt.

Pirmkārt, īss video, kas sniegs vispārīgu priekšstatu par to, kas ir fails robots.txt.

Kā fails robots.txt ietekmē vietņu indeksēšanu?

Meklēšanas roboti indeksēs jūsu vietni neatkarīgi no faila robots.txt klātbūtnes. Ja šāds fails pastāv, tad roboti var vadīties pēc noteikumiem, kas ir rakstīti šajā failā. Tajā pašā laikā daži roboti var ignorēt noteiktus noteikumus vai daži noteikumi var būt raksturīgi tikai dažiem robotiem. Jo īpaši GoogleBot neizmanto resursdatora un rāpuļprogrammas aizkaves direktīvas, YandexNews nesen sāka ignorēt Crawl-Delay direktīvu, bet YandexDirect un YandexVideoParser ignorē vispārīgākas direktīvas robotos (bet vadās pēc tiem, kas īpaši norādīti tiem).

Vairāk par izņēmumiem:
Yandex izņēmumi
Robotu izņēmuma standarts (Wikipedia)

Vietnes maksimālo slodzi rada roboti, kas lejupielādē saturu no jūsu vietnes. Tāpēc, norādot, ko tieši indeksēt un ko ignorēt, kā arī ar kādiem laika intervāliem lejupielādēt, jūs, no vienas puses, varat ievērojami samazināt vietnes slodzi no robotiem un, no otras puses, paātrināt lejupielādes process, aizliedzot nevajadzīgu lapu pārmeklēšanu.

Šādas nevajadzīgas lapas ietver ajax, json skriptus, kas atbild par uznirstošajām formām, baneriem, captcha izvadi utt., pasūtījumu veidlapas un iepirkumu grozu ar visām pirkuma veikšanas darbībām, meklēšanas funkcionalitāti, personīgo kontu, administratora paneli.

Lielākajai daļai robotu ir arī ieteicams atspējot visu JS un CSS indeksēšanu. Bet GoogleBot un Yandex šādi faili ir jāatstāj indeksēšanai, jo meklētājprogrammas tos izmanto, lai analizētu vietnes ērtības un tās ranžēšanu (Google pierādījums, Yandex pierādījums).

Robots.txt direktīvas

Direktīvas ir noteikumi robotiem. Ir W3C specifikācija no 1994. gada 30. janvāra un paplašināts standarts no 1996. gada. Tomēr ne visas meklētājprogrammas un roboti atbalsta noteiktas direktīvas. Šajā sakarā mums būs lietderīgāk zināt nevis standartu, bet gan to, kā galvenie roboti vadās pēc noteiktām direktīvām.

Apskatīsim tos secībā.

Lietotāja aģents

Šī ir vissvarīgākā direktīva, kas nosaka, kuriem robotiem noteikumi tiek ievēroti.

Visiem robotiem:
Lietotāja aģents: *

Konkrētam robotam:
Lietotāja aģents: GoogleBot

Lūdzu, ņemiet vērā, ka failā robots.txt nav reģistrjutīga. Tie. Google lietotāja aģentu var tikpat vienkārši uzrakstīt šādi:
lietotāja aģents: googlebot

Zemāk ir dažādu meklētājprogrammu galveno lietotāju aģentu tabula.

Bot	Funkcija
Google
Googlebot	Google galvenais indeksēšanas robots
Googlebot ziņas	Google ziņas
Googlebot attēls	Google attēli
Googlebot-Video	video
Mediapartners-Google
Mediju partneri	Google AdSense, Google AdSense mobilajām ierīcēm
AdsBot-Google	galvenās lapas kvalitātes pārbaude
AdsBot-Google-Mobile-Apps	Googlebot lietotnēm
Yandex
YandexBot	Yandex galvenais indeksēšanas robots
YandexImages	Yandex.Attēli
YandexVideo	Yandex.Video
YandexMedia	multivides dati
YandexBlogs	emuāru meklēšanas robots
YandexAddurl	robots, kas piekļūst lapai, pievienojot to, izmantojot veidlapu “Pievienot URL”.
YandexFavicons	robots, kas indeksē vietņu ikonas (favicons)
YandexDirect	Yandex.Direct
YandexMetrika	Yandex.Metrica
Yandex katalogs	Yandex. Katalogs
YandexNews	Yandex.News
YandexImageResizer	mobilo pakalpojumu robots
Bing
Bingbots	Bing galvenais indeksēšanas robots
Yahoo!
Slurp	galvenais indeksēšanas robots Yahoo!
Mail.Ru
Mail.Ru	galvenais indeksēšanas robots Mail.Ru
Rambler
StackRambler	Iepriekš galvenais indeksēšanas robots Rambler. Tomēr no 2011. gada 23. jūnija Rambler vairs neatbalsta savu meklētājprogrammu un tagad savos pakalpojumos izmanto Yandex tehnoloģiju. Vairs nav aktuāli.

Neatļaut un atļaut

Neatļaut bloķē vietnes lapu un sadaļu indeksēšanu.
Atļaut piespiedu kārtā indeksēt vietnes lapas un sadaļas.

Bet tas nav tik vienkārši.

Pirmkārt, jums jāzina papildu operatori un jāsaprot, kā tie tiek izmantoti - tie ir *, $ un #.

* ir jebkurš rakstzīmju skaits, ieskaitot to neesamību. Šajā gadījumā jums nav jāliek zvaigznīte rindas beigās; tiek pieņemts, ka tā ir tur pēc noklusējuma.
$ — norāda, ka pirms tās esošajai rakstzīmei jābūt pēdējai.
# ir komentārs; viss pēc šīs rakstzīmes rindā robots netiek ņemts vērā.

Lietošanas piemēri:

Neatļaut: *?s=
Neatļaut: /category/$

Otrkārt, jums ir jāsaprot, kā tiek izpildīti ligzdotie noteikumi.
Atcerieties, ka direktīvu rakstīšanas secībai nav nozīmes. Atvēršanas vai aizvēršanas noteikumu pārmantošanu no indeksēšanas nosaka, kuri direktoriji ir norādīti. Apskatīsim to ar piemēru.

Atļaut: *.css
Neatļaut: /template/

http://site.ru/template/ - slēgts no indeksēšanas
http://site.ru/template/style.css - slēgts no indeksēšanas
http://site.ru/style.css — atvērta indeksēšanai
http://site.ru/theme/style.css — atvērta indeksēšanai

Ja jums ir nepieciešams, lai visi .css faili būtu atvērti indeksēšanai, jums tas būs papildus jāreģistrē katrai no slēgtajām mapēm. Mūsu gadījumā:

Atļaut: *.css
Atļaut: /template/*.css
Neatļaut: /template/

Atkal, direktīvu secība nav svarīga.

Vietnes karte

Direktīva, lai norādītu ceļu uz XML vietnes kartes failu. URL tiek rakstīts tāpat kā adreses joslā.

Piemēram,

Vietnes karte: http://site.ru/sitemap.xml

Vietnes kartes direktīva ir norādīta jebkurā vietā failā robots.txt, un tā nav saistīta ar konkrētu lietotāja aģentu. Varat norādīt vairākas vietnes kartes kārtulas.

Uzņēmēja

Direktīva par vietnes galvenā spoguļa norādīšanu (vairumā gadījumu: ar www vai bez www). Lūdzu, ņemiet vērā, ka galvenais spogulis ir norādīts BEZ http://, bet AR https://. Tāpat, ja nepieciešams, tiek norādīta osta.
Direktīvu atbalsta tikai Yandex un Mail.Ru robotprogrammatūra. Citi roboti, jo īpaši GoogleBot, neņems komandu vērā. Saimnieks ir reģistrēts tikai vienu reizi!

1. piemērs:
Saimnieks: site.ru

2. piemērs:
Saimnieks: https://site.ru

Pārmeklēšanas aizkave

Direktīva laika intervāla iestatīšanai starp robota vietnes lapu lejupielādi. Atbalsta Yandex roboti, Mail.Ru, Bing, Yahoo. Vērtību var iestatīt veselos skaitļos vai daļskaitļu vienībās (atdalītājs ir punkts), laiku sekundēs.

1. piemērs:
Pārmeklēšanas aizkave: 3

2. piemērs:
Pārmeklēšanas aizkave: 0,5

Ja vietnei ir neliela slodze, tad šāds noteikums nav jāiestata. Tomēr, ja, indeksējot lapas, ko veic robots, vietne pārsniedz ierobežojumus vai tiek piedzīvota ievērojama slodze līdz servera pārtraukumiem, šī direktīva palīdzēs samazināt slodzi.

Jo lielāka vērtība, jo mazāk lapu robots lejupielādēs vienā sesijā. Optimālā vērtība katrai vietnei tiek noteikta atsevišķi. Labāk ir sākt ar ne pārāk lielām vērtībām - 0,1, 0,2, 0,5 - un pakāpeniski tās palielināt. Meklētājprogrammu robotiem, kas ir mazāk svarīgi reklāmas rezultātiem, piemēram, Mail.Ru, Bing un Yahoo, sākotnēji varat iestatīt augstākas vērtības nekā Yandex robotiem.

Clean-param

Šis noteikums norāda rāpuļprogrammai, ka URL ar norādītajiem parametriem nevajadzētu indeksēt. Noteikums norāda divus argumentus: parametru un sadaļas URL. Direktīvu atbalsta Yandex.

Clean-param: author_id http://site.ru/articles/

Clean-param: author_id&sid http://site.ru/articles/

Clean-Param: utm_source&utm_medium&utm_campaign

Citas iespējas

Paplašinātajā robots.txt specifikācijā varat atrast arī parametrus Pieprasījuma līmenis un Apmeklējuma laiks. Tomēr pašlaik lielākās meklētājprogrammas tos neatbalsta.

Direktīvu nozīme:
Pieprasījuma ātrums: 1/5 — ielādējiet ne vairāk kā vienu lapu piecās sekundēs
Apmeklējuma laiks: 0600-0845 — lapas tiek ielādētas tikai no pulksten 6:00 līdz 8:45 pēc GMT.

Notiek faila robots.txt aizvēršana

Ja jums ir jākonfigurē jūsu vietne, lai to NETIKTU indeksētu meklēšanas roboti, jums ir jānorāda šādas direktīvas:

Lietotāja aģents: *
Neatļaut: /

Pārliecinieties, vai šīs direktīvas ir ierakstītas jūsu vietnes testa vietnēs.

Pareizs faila robots.txt iestatījums

Krievijai un NVS valstīm, kur Yandex daļa ir ievērojama, direktīvas būtu jānosaka visiem robotiem un atsevišķi Yandex un Google.

Lai pareizi konfigurētu failu robots.txt, izmantojiet šādu algoritmu:

Aizveriet vietnes administratora paneli no indeksēšanas
Aizveriet savu personīgo kontu, autorizāciju un reģistrāciju no indeksēšanas
Bloķējiet savu iepirkumu grozu, pasūtījuma veidlapas, piegādes un pasūtījuma datus no indeksēšanas
Aizveriet ajax un json skriptus no indeksēšanas
Aizveriet cgi mapi no indeksēšanas
Bloķēt spraudņu, motīvu, js, css indeksēšanu visiem robotiem, izņemot Yandex un Google
Atspējot meklēšanas funkcionalitāti no indeksēšanas
Aizvērt no indeksēšanas pakalpojumu sadaļām, kas nesniedz nekādu vērtību vietnei meklēšanā (404 kļūda, autoru saraksts)
Bloķēt tehnisko lapu dublikātus no indeksēšanas, kā arī lapas, kurās viss saturs vienā vai otrā veidā tiek dublēts no citām lapām (kalendāri, arhīvi, RSS)
Bloķēt lapas ar filtru, šķirošanu, salīdzināšanas parametriem no indeksēšanas
Bloķējiet lapas ar UTM tagiem un sesijas parametriem no indeksēšanas
Pārbaudiet, ko Yandex un Google indeksē, izmantojot parametru “site:” (meklēšanas joslā ierakstiet “site:site.ru”). Ja meklēšanā ir lapas, kuras arī ir jāaizver no indeksēšanas, pievienojiet tās failam robots.txt
Norādiet vietnes karti un saimniekdatoru
Ja nepieciešams, ievadiet Crawl-Delay un Clean-Param
Pārbaudiet faila robots.txt pareizību, izmantojot Google un Yandex rīkus (aprakstīts tālāk)
Pēc 2 nedēļām vēlreiz pārbaudiet, vai meklēšanas rezultātos nav parādījušās jaunas lapas, kuras nevajadzētu indeksēt. Ja nepieciešams, atkārtojiet iepriekš minētās darbības.

Piemērs robots.txt

# Faila robots.txt piemērs hipotētiskas vietnes iestatīšanai https://site.ru User-agent: * Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: * /?s= Neatļaut : *sort= Neatļaut: *view= Neatļaut: *utm= Pārmeklēšanas aizkave: 5 Lietotāja aģents: GoogleBot Neatļaut: /admin/ Neatļaut: /plugins/ Neatļaut: /search/ Neatļaut: /grozs/ Neatļaut : */?s = Neatļaut: *sort= Neatļaut: *view= Neatļaut: *utm= Atļaut: /plugins/*.css Atļaut: /plugins/*.js Atļaut: /plugins/*.png Atļaut: /plugins/ *.jpg Atļaut: /plugins/*.gif Lietotāja aģents: Yandex Disallow: /admin/ Neatļaut: /plugins/ Neatļaut: /search/ Neatļaut: /grozs/ Neatļaut: */?s= Neatļaut: *sort= Neatļaut: *view= Atļaut: /plugins/*.css Atļaut: /plugins/*.js Atļaut: /plugins/*.png Atļaut: /plugins/*.jpg Atļaut: /plugins/*.gif Clean-Param: utm_source&utm_medium&utm_campaign Pārmeklēšana- Aizkave: 0,5 Vietnes karte: https://site.ru/sitemap.xml Saimnieks: https://site.ru

Kā pievienot un kur atrodas fails robots.txt

Kad esat izveidojis failu robots.txt, tas ir jāievieto jūsu vietnē site.ru/robots.txt – t.i. saknes direktorijā. Meklēšanas robots vienmēr piekļūst failam ar URL /robots.txt

Kā pārbaudīt failu robots.txt

Robots.txt tiek pārbaudīts, izmantojot šādas saites:

Vietnē Yandex.Webmaster - cilnē Rīki> Robots.txt analīze
IN Google Search Console- cilnē Skenēšana > Robots.txt faila pārbaudes rīks

Tipiskas kļūdas failā robots.txt

Raksta beigās es norādīšu dažas tipiskas kļūdas failā robots.txt

Trūkst faila robots.txt
failā robots.txt vietne ir slēgta no indeksēšanas (Neatļaut: /)
failā ir tikai visvienkāršākās direktīvas, sīki izstrādātas lietas nav
failā lapas ar UTM tagiem un sesijas identifikatoriem nav bloķētas indeksēšanai
failā ir tikai direktīvas
Atļaut: *.css
Atļaut: *.js
Atļaut: *.png
Atļaut: *.jpg
Atļaut: *.gif
kamēr css, js, png, jpg, gif faili ir slēgti ar citām direktīvām vairākos direktorijos
Host direktīva ir norādīta vairākas reizes
HTTP protokols nav norādīts resursdatorā
ceļš uz vietnes karti ir nepareizs vai ir norādīts nepareizs protokols vai vietnes spogulis

P.S.

P.S.2

Noderīgs video no Yandex (Uzmanību! Daži ieteikumi ir piemēroti tikai Yandex).

Ātra navigācija šajā lapā:

Mūsdienu realitāte ir tāda, ka pakalpojumā RuNet neviena sevi cienoša vietne nevar iztikt bez faila robots.txt — pat ja jums nav nekā aizliegt indeksēt (lai gan gandrīz katrā vietnē ir tehniskas lapas un dublēts saturs, kuru indeksēšana ir jāaizver. ), tad Vismaz noteikti ir vērts Yandex reģistrēt direktīvu ar www un bez www - tam ir paredzēti robots.txt rakstīšanas noteikumi, kas tiks apspriesti tālāk.

Kas ir robots.txt?

Fails ar šādu nosaukumu ir datēts ar 1994. gadu, kad W3C konsorcijs nolēma ieviest šādu standartu, lai vietnes varētu nodrošināt meklētājprogrammas ar indeksēšanas instrukcijām.

Fails ar šādu nosaukumu ir jāsaglabā vietnes saknes direktorijā; tā ievietošana citās mapēs nav atļauta.

Fails veic šādas funkcijas:

aizliedz jebkuru lapu vai lapu grupu indeksēšanu
ļauj indeksēt visas lapas vai lapu grupas
norāda Yandex robotam, kurš vietnes spogulis ir galvenais (ar www vai bez www)
parāda vietnes kartes faila atrašanās vietu

Visi četri punkti ir ārkārtīgi svarīgi vietņu meklētājprogrammu optimizācijai. Indeksēšanas aizliegšana ļauj bloķēt lapas, kurās ir dublēts saturs, piemēram, tagu lapām, arhīviem, meklēšanas rezultātiem, lapām ar drukājamām versijām utt. Dublēta satura klātbūtne (ja viens un tas pats teksts, pat vairāku teikumu apjomā, atrodas divās vai vairākās lapās) ir vietnes mīnuss meklētājprogrammu reitingos, tāpēc dublikātiem jābūt pēc iespējas mazākam.

Atļaut direktīvai nav neatkarīgas nozīmes, jo pēc noklusējuma visas lapas jau ir pieejamas indeksēšanai. Tas darbojas kopā ar disallow - ja, piemēram, noteikta kategorija ir pilnībā aizvērta no meklētājprogrammām, bet jūs vēlaties atvērt šo vai atsevišķu lapu tajā.

Norādīšana uz vietnes galveno spoguli ir arī viens no vissvarīgākajiem optimizācijas elementiem: meklētājprogrammas uzskata vietnes www.yoursite.ru un yoursite.ru kā divus dažādus resursus, ja vien jūs tām tieši nenorādījat citādi. Rezultāts ir satura dubultošanās - dublikātu parādīšanās, ārējo saišu stipruma samazināšanās (ārējās saites var ievietot gan ar www, gan bez www) un rezultātā tas var novest pie zemāka ranga meklēšanas rezultātos.

Google galvenais spogulis ir reģistrēts tīmekļa pārziņa rīkos (http://www.google.ru/webmasters/), bet Yandex šīs instrukcijas var reģistrēt tikai tajā pašā robots.tkht.

Norādot uz xml failu ar vietnes karti (piemēram, sitemap.xml), meklētājprogrammas var noteikt šo failu.

Lietotāja aģenta norādīšanas noteikumi

Lietotāja aģents šajā gadījumā ir meklētājprogramma. Rakstot norādījumus, jānorāda, vai tie attieksies uz visām meklētājprogrammām (tādā gadījumā ir norādīta zvaigznīte - *), vai arī tie ir paredzēti konkrētai meklētājprogrammai - piemēram, Yandex vai Google.

Lai iestatītu lietotāja aģentu, kas norāda visus robotus, failā ierakstiet šādu rindiņu:

Lietotāja aģents: *

Yandex:

Lietotāja aģents: Yandex

Google:

Lietotāja aģents: GoogleBot

Neatļaut un atļaut norādīšanas noteikumi

Pirmkārt, jāņem vērā, ka failam robots.txt ir jābūt vismaz vienai disallow direktīvai, lai tas būtu derīgs. Tagad aplūkosim šo direktīvu piemērošanu, izmantojot konkrētus piemērus.

Izmantojot šo kodu, jūs atļaujat indeksēt visas vietnes lapas:

Lietotāja aģents: * Neatļaut:

Un ar šo kodu, gluži pretēji, visas lapas tiks aizvērtas:

Lietotāja aģents: * Neatļaut: /

Lai aizliegtu indeksēt noteiktu direktoriju, ko sauc par mapi, norādiet:

User-agent: * Disallow: /folder

Varat arī izmantot zvaigznītes, lai aizstātu patvaļīgu nosaukumu:

Lietotāja aģents: * Neatļaut: *.php

Svarīgi: zvaigznīte aizstāj visu faila nosaukumu, tas ir, jūs nevarat norādīt failu*.php, tikai *.php (bet visas lapas ar paplašinājumu .php būs aizliegtas; lai no tā izvairītos, varat norādīt konkrētu lapas adresi) .

Atļaut direktīva, kā minēts iepriekš, tiek izmantota, lai izveidotu izņēmumus neatļautā (pretējā gadījumā tai nav nozīmes, jo lapas jau ir atvērtas pēc noklusējuma).

Piemēram, mēs aizliedzam arhīva mapē esošo lapu indeksēšanu, bet atstāsim šī direktorija lapu index.html atvērtu:

Atļaut: /archive/index.html Neatļaut: /archive/

Norādiet resursdatoru un vietnes karti

Saimniekdators ir vietnes galvenais spogulis (tas ir, domēna nosaukums plus www vai domēna nosaukums bez šī prefiksa). Saimnieks ir norādīts tikai Yandex robotam (šajā gadījumā ir jābūt vismaz vienai disallow komandai).

Lai norādītu saimniekdatoru, failā robots.txt ir jābūt šādam ierakstam:

Lietotāja aģents: Yandex Disallow: Host: www.yoursite.ru

Kas attiecas uz vietnes karti, failā robots.txt vietnes karte tiek norādīta, vienkārši ierakstot pilnu ceļu uz atbilstošo failu, norādot domēna nosaukumu:

Vietnes karte: http://yoursite.ru/sitemap.xml

Ir rakstīts par to, kā izveidot vietnes karti WordPress.

Faila robots.txt piemērs vietnei WordPress

WordPress gadījumā instrukcijas ir jānorāda tā, lai indeksēšanai tiktu aizvērti visi tehniskie direktoriji (wp-admin, wp-includes u.c.), kā arī dublētās lapas, ko rada tagi, RSS faili, komentāri un meklēšana.

Kā piemēru robots.txt darbam ar Wordpress varat ņemt failu no mūsu vietnes:

Lietotāja aģents: Yandex Disallow: /wp-admin Neatļaut: /wp-includes Neatļaut: /wp-login.php Neatļaut: /wp-register.php Neatļaut: /xmlrpc.php Neatļaut: /search Neatļaut: */trackback Neatļaut: / pielikums/* Atļaut: /wp-content/uploads/ Host: www..php Neatļaut: /wp-register.php Neatļaut: /xmlrpc.php Neatļaut: /search Neatļaut: */trackback Neatļaut: */feed/ Neatļaut: * /feed Disallow: */comments/ Neatļaut: /?feed= Neatļaut: /?s= Neatļaut: */page/* Neatļaut: */comment Neatļaut: */tag/* Neatļaut: */attachment/* Atļaut: /wp -content/uploads/ User-agent: * Disallow: /wp-admin Neatļaut: /wp-includes Neatļaut: /wp-login.php Neatļaut: /wp-register.php Neatļaut: /xmlrpc.php Neatļaut: /search Neatļaut: / * Neatļaut: */attachment/* Atļaut: /wp-content/uploads/ Vietnes karte: https://www..xml

Failu robots.txt varat lejupielādēt no mūsu vietnes, izmantojot .

Ja pēc šī raksta izlasīšanas jums joprojām ir kādi jautājumi, uzdodiet tos komentāros!

1) Kas ir meklēšanas robots?
2) Kas ir robots.txt?
3) Kā izveidot robots.txt?
4) Ko un kāpēc var ierakstīt šajā failā?
5) Robotu nosaukumu piemēri
6) Gatavā faila robots.txt piemērs
7) Kā es varu pārbaudīt, vai mans fails darbojas?

1. Kas ir meklēšanas robots?

Robots (angļu rāpuļprogramma) uztur sarakstu ar URL, kurus var indeksēt, un regulāri lejupielādē tiem atbilstošos dokumentus. Ja robots, analizējot dokumentu, atrod jaunu saiti, tas pievieno to savam sarakstam. Tādējādi jebkuru dokumentu vai vietni, kurā ir saites, var atrast robots un līdz ar to arī Yandex meklēšana.

2. Kas ir robots.txt?

Meklēšanas roboti vispirms vietnēs meklē failu robots.txt. Ja jūsu vietnē ir direktoriji, saturs utt., kurus vēlaties, piemēram, paslēpt no indeksēšanas (meklētājprogramma par tiem nesniedza informāciju. Piemēram: admin panelis, citi lapu paneļi), tad jums tas ir rūpīgi jādara. izpētiet instrukcijas darbam ar šo failu.

robots.txt- tas ir teksta fails (.txt), kas atrodas jūsu vietnes saknē (saknes direktorijā). Tajā ir instrukcijas meklēšanas robotiem. Šie norādījumi var aizliegt noteiktas vietnes sadaļas vai lapas indeksēt, norādīt pareizu domēna “spoguļošanu”, ieteikt meklēšanas robotam ievērot noteiktu laika intervālu starp dokumentu lejupielādi no servera utt.

3. Kā izveidot robots.txt?

Faila robots.txt izveide ir ļoti vienkārša. Mēs ejam uz parastu teksta redaktoru (vai peles labo pogu - izveidot - teksta dokumentu), piemēram, Notepad. Pēc tam izveidojiet teksta failu un pārdēvējiet to par robots.txt.

4. Ko un kāpēc var ierakstīt failā robots.txt?

Pirms komandas norādīšanas meklētājprogrammai ir jāizlemj, kuram robotam tā tiks adresēta. Tam ir komanda Lietotāja aģents
Tālāk ir sniegti piemēri:

User-agent: * # komanda, kas rakstīta pēc šīs rindas, tiks adresēta visiem meklēšanas robotiem
Lietotāja aģents: YandexBot # piekļuve galvenajam Yandex indeksēšanas robotam
Lietotāja aģents: Googlebot # piekļuve galvenajam Google indeksēšanas robotam

Indeksēšanas atļaušana un atspējošana
Lai iespējotu un atspējotu indeksēšanu, ir divas atbilstošas komandas - Atļaut(iespējams) un Neatļaut(tas ir aizliegts).

Lietotāja aģents: *
Neatļaut: /adminka/ # aizliedz visiem robotiem indeksēt adminka direktoriju, kurā it kā ir admin panelis

Lietotāja aģents: YandexBot # tālāk esošā komanda tiks adresēta Yandex
Neatļaut: / # mēs aizliedzam Yandex robotam indeksēt visu vietni

Lietotāja aģents: Googlebot # tālāk esošā komanda izsauks Google
Atļaut: /images # ļauj indeksēt visu attēlu direktorijas saturu
Disallow: / # un viss pārējais ir aizliegts

Kārtībai nav nozīmes

Lietotāja aģents: *
Atļaut: /images
Neatļaut: /

Lietotāja aģents: *
Neatļaut: /
Atļaut: /images
# abiem ir atļauts indeksēt failus
# sākas ar "/images"

Vietnes karšu direktīva
Šī komanda norāda jūsu vietnes kartes adresi:

Vietnes karte: http://yoursite.ru/structure/my_sitemaps.xml # Norāda vietnes kartes adresi

Uzņēmēja direktīva
Šī komanda tiek ievietota faila BEIGĀS un apzīmē galveno spoguli
1) ir rakstīts jūsu faila BEIGĀS
2) ir norādīts tikai vienu reizi. pretējā gadījumā tiek pieņemta tikai pirmā rinda
3) norādīts aiz Atļaut vai Neatļaut

Saimnieks: www.yoursite.ru # jūsu vietnes spogulis

#Ja www.yoursite.ru ir vietnes galvenais spogulis, tad
#robots.txt visām spoguļvietnēm izskatās šādi
Lietotāja aģents: *
Neatļaut: /images
Neatļaut: /include
Saimnieks: www.yoursite.ru

# pēc noklusējuma Google ignorē Host, jums tas jādara
Lietotāja aģents: * # indeksēt visu
Disallow: /admin/ # disallow admin index
Saimnieks: www.mainsite.ru # norāda galveno spoguli
User-Agent: Googlebot # tagad komandas Google
Neatļaut: /admin/ # bang Google

5. Robotu nosaukumu piemēri

Yandex roboti
Yandex ir vairāku veidu roboti, kas atrisina dažādas problēmas: viens ir atbildīgs par attēlu indeksēšanu, citi ir atbildīgi par RSS datu indeksēšanu, lai apkopotu datus par emuāriem, un citi ir atbildīgi par multivides datiem. Galvenais - YandexBot, tas indeksē vietni, lai apkopotu vispārīgu vietnes datubāzi (virsraksti, saites, teksts utt.). Ir arī robots ātrai indeksēšanai (ziņu indeksācija utt.).

YandexBot-- galvenais indeksēšanas robots;
YandexMedia-- robots, kas indeksē multivides datus;
YandexImages-- Yandex.Images indeksētājs;
Yandex katalogs-- Yandex.Catalogue "pieskaršanās", ko izmanto, lai īslaicīgi izņemtu no Kataloga nepieejamo vietņu publicēšanas;
YandexDirect-- Yandex.Direct robots, robots.txt interpretē īpašā veidā;
YandexBlogs-- emuāru meklēšanas robots, kas indeksē ierakstus un komentārus;
YandexNews-- Yandex.News robots;
YandexPagechecker-- mikro iezīmēšanas pārbaudītājs;
YandexMetrika-- Yandex.Metrica robots;
Yandex Market-- Yandex.Market robots;
Yandex kalendārs-- Yandex.Calendar robots.