Ko iekļaut robotu txt failā. Ieteikumi robotu txt faila iestatīšanai. Uzskaitiet visus failus

Robots.txt ir pakalpojuma fails, kas kalpo kā ieteikums meklētājprogrammu piekļuves ierobežošanai tīmekļa dokumentu saturam. Šajā rakstā mēs aplūkosim faila Robots.txt iestatīšanu, aprakstīsim direktīvas un izveidosim to populārām CMS.

Šis Robota fails atrodas jūsu vietnes saknes direktorijā, un to var atvērt/rediģēt ar vienkāršu notepad, es iesaku Notepad++. Tiem, kam nepatīk lasīt, ir VIDEO, skaties raksta beigās 😉

Kāpēc mums ir nepieciešams robots.txt?

Kā jau teicu iepriekš, izmantojot robots.txt failu, mēs varam ierobežot meklēšanas robotu piekļuvi dokumentiem, t.i. mēs tieši ietekmējam vietnes indeksēšanu. Visbiežāk viņiem tiek bloķēta indeksēšana:

Pakalpojuma faili un CMS mapes
Dublikāti
Dokumenti, kas lietotājam nav noderīgi
Nav unikālas lapas

Apskatīsim konkrētu piemēru:

Tiešsaistes veikals, kas pārdod apavus, ir ieviests vienā no populārajām CMS, un ne vislabākajā veidā. Uzreiz varu pateikt, ka meklēšanas rezultātos būs meklēšanas lapas, lappušu skaits, iepirkumu grozs, daži programmas faili utt. Tie visi būs dublikāti un pakalpojuma faili, kas lietotājam ir bezjēdzīgi. Tāpēc tie ir jāslēdz no indeksēšanas, un, ja ir arī sadaļa “Ziņas”, kurā tiek kopēti un ielīmēti dažādi interesanti raksti no konkurentu vietnēm, tad par to nav jādomā, mēs to uzreiz aizveram.

Tāpēc mēs noteikti izveidojam failu robots.txt, lai rezultātos neiekļūtu atkritumi. Neaizmirstiet, ka fails ir jāatver vietnē http://site.ru/robots.txt.

Robots.txt direktīvas un konfigurācijas noteikumi

Lietotāja aģents. Tas ir aicinājums konkrētam meklētājprogrammas robotam vai visiem robotiem. Ja ir norādīts konkrēts robota nosaukums, piemēram, “YandexMedia”, tad vispārīgās lietotāja aģenta direktīvas tam netiek izmantotas. Rakstīšanas piemērs:

Lietotāja aģents: YandexBot Disallow: /groza # izmantos tikai galvenais Yandex indeksēšanas robots

Neatļaut/Atļaut.Šis ir aizliegums/atļauja indeksēt konkrētu dokumentu vai sadaļu. Rakstīšanas secībai nav nozīmes, bet, ja ir 2 direktīvas un viens un tas pats prefikss, “Atļaut” ir prioritāte. Meklēšanas robots tos nolasa pēc prefiksa garuma, no mazākā līdz lielākajam. Ja jums ir jāatspējo lapas indeksēšana, vienkārši ievadiet tās relatīvo ceļu (Disallow: /blog/post-1).

Lietotāja aģents: Yandex Disallow: / Allow: /articles # Mēs aizliedzam vietņu indeksēšanu, izņemot 1 sadaļas rakstus

Regulāras izteiksmes ar * un $. Zvaigznīte nozīmē jebkuru rakstzīmju secību (ieskaitot tukšās). Dolāra zīme nozīmē pārtraukumu. Lietošanas piemēri:

Disallow: /page* # aizliedz visas lapas, konstrukcijas http://site.ru/page Neatļaut: /arcticles$ # aizliedz tikai lapu http://site.ru/articles, atļaujot lapas http://site.ru/ raksti /jauni

Vietnes kartes direktīva. Ja to izmantojat, failā robots.txt tas jānorāda šādi:

Vietnes karte: http://site.ru/sitemap.xml

Uzņēmēja direktīva. Kā jūs zināt, vietnēm ir spoguļi (mēs lasām,). Šis noteikums norāda meklēšanas robotu uz jūsu resursa galveno spoguli. Attiecas uz Yandex. Ja jums ir spogulis bez WWW, tad rakstiet:

Saimnieks: site.ru

Pārmeklēšanas aizkave. Iestata aizkavi (sekundēs) starp robota dokumentu lejupielādi. Tas ir rakstīts aiz Disallow/Allow direktīvām.

Pārmeklēšanas aizkave: 5 # taimauts 5 sekundēs

Clean-param. Norāda meklēšanas robotam, ka nav nepieciešams lejupielādēt papildu informācijas dublikātu (sesijas identifikatorus, novirzītājus, lietotājus). Dinamiskajām lapām ir jānorāda tīrīšanas parametrs:

Clean-param: ref /category/books # mēs norādām, ka mūsu lapa ir galvenā, un http://site.ru/category/books?ref=yandex.ru&id=1 ir tā pati lapa, bet ar parametriem

Galvenais noteikums: Robots.txt ir jāraksta ar mazajiem burtiem un jāatrodas vietnes saknē. Faila struktūras piemērs:

Lietotāja aģents: Yandex Disallow: /cart Atļaut: /cart/images Vietnes karte: http://site.ru/sitemap.xml Host: site.ru Pārmeklēšanas aizkave: 2

Meta robotu tags un kā tas tiek rakstīts

Šo lapu aizliegšanas opciju labāk ņem vērā Google meklētājs. Yandex vienlīdz labi ņem vērā abas iespējas.

Tam ir 2 direktīvas: sekot/nofollow Un indekss/noindex. Šī ir atļauja/aizliegums sekot saitēm un dokumentu indeksēšanas atļauja/aizliegums. Direktīvas var rakstīt kopā, skatiet piemēru zemāk.

Katrai atsevišķai lapai varat ierakstīt tagā sekojošs:

Labojiet robots.txt failus populārajai SPS

Piemērs Robots.txt vietnei WordPress

Zemāk varat redzēt manu versiju no šī SEO emuāra.

Lietotāja aģents: Yandex Disallow: /wp-content/uploads/ Atļaut: /wp-content/uploads/*/*/ Neatļaut: /wp-login.php Neatļaut: /wp-register.php Neatļaut: /xmlrpc.php Neatļaut : /template.html Neatļaut: /cgi-bin Neatļaut: /wp-admin Neatļaut: /wp-includes Neatļaut: /wp-content/plugins Neatļaut: /wp-content/cache Neatļaut: /wp-content/themes Neatļaut: / wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Neatļaut: */comments/ Disallow: /?feed= Neatļaut: /?.php Neatļaut: /wp-register.php Neatļaut: /xmlrpc.php Neatļaut: /template.html Neatļaut: /cgi-bin Neatļaut: /wp-admin Disallow: /wp-includes Neatļaut: /wp-content/plugins Neatļaut: /wp-content/cache Neatļaut: /wp-content/themes Neatļaut: /wp-trackback Neatļaut: /wp-feed Neatļaut: /wp-comments Neatļaut: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?. xml

Es aizliedzu trackback, jo tas dublē raksta daļu komentāros. Un, ja ir daudz trackback, jūs saņemsiet daudz identisku komentāru.

Mēģinu aizvērt jebkuras CMS servisa mapes un failus, jo... Es nevēlos, lai tie tiktu iekļauti rādītājā (lai gan meklētājprogrammas vienalga tos neņem, bet sliktāk nebūs).

Plūsmas jāslēdz, jo Tās ir daļējas vai pilnīgas dublētās lapas.

Mēs aizveram tagus, ja tos neizmantojam vai ja esam pārāk slinki, lai tos optimizētu.

Piemēri citām CMS

Lai lejupielādētu pareizos robotus vajadzīgajai CMS, vienkārši noklikšķiniet uz atbilstošās saites.

Sveiki, dārgie emuāra “Webmaster’s World” lasītāji!

Fails robots.txt– šis ir ļoti svarīgs fails, kas tieši ietekmē jūsu vietnes indeksēšanas kvalitāti un līdz ar to arī tās veicināšanu meklētājprogrammās.

Tāpēc jāprot pareizi formatēt robots.txt, lai nejauši neaizliedz indeksā iekļaut kādus svarīgus interneta projekta dokumentus.

Šajā rakstā tiks apskatīts, kā formatēt failu robots.txt, kāda sintakse jāizmanto, kā atļaut un liegt dokumentus rādītājam.

Par failu robots.txt

Vispirms noskaidrosim sīkāk, kāda veida fails tas ir.

Failu roboti ir fails, kas meklētājprogrammām parāda, kuras vietnes lapas un dokumentus var pievienot indeksam un kuras nevar. Tas ir nepieciešams, jo sākotnēji meklētājprogrammas mēģina indeksēt visu vietni, un tas ne vienmēr ir pareizi. Piemēram, ja veidojat vietni dzinējā (WordPress, Joomla u.c.), tad jums būs mapes, kas organizē administratīvā paneļa darbu. Ir skaidrs, ka informāciju šajās mapēs nevar indeksēt, šajā gadījumā tiek izmantots fails robots.txt, kas ierobežo piekļuvi meklētājprogrammām.

Fails robots.txt satur arī vietnes kartes adresi (tas uzlabo meklētājprogrammu indeksēšanu), kā arī vietnes galveno domēnu (galveno spoguli).

Spogulis– šī ir vietnes absolūta kopija, t.i. ja ir viena vietne, viņi saka, ka viena no tām ir galvenais domēns, bet otra ir tās spogulis.

Tādējādi failam ir diezgan daudz funkciju, turklāt svarīgas!

Robots.txt faila sintakse

Robotu failā ir noteikumu bloki, kas konkrētai meklētājprogrammai norāda, ko var indeksēt un ko nevar. Var būt viens noteikumu bloks (visām meklētājprogrammām), bet var būt arī vairāki - dažām konkrētām meklētājprogrammām atsevišķi.

Katrs šāds bloks sākas ar operatoru “User-Agent”, kas norāda, uz kuru meklētājprogrammu attiecas šie noteikumi.

Lietotājs-Aģents:A
(noteikumi robotam “A”)

Lietotājs-Aģents:B
(noteikumi robotam “B”)

Iepriekš redzamais piemērs parāda, ka operatoram “User-Agent” ir parametrs - meklētājprogrammas robota nosaukums, kuram tiek piemēroti noteikumi. Tālāk norādīšu galvenos:

Pēc “User-Agent” ir citi operatori. Šeit ir viņu apraksts:

Visiem operatoriem ir vienāda sintakse. Tie. operatori jāizmanto šādi:

Operator1: parametrs1

Operator2: parametrs2

…

Tādējādi vispirms ierakstām operatora nosaukumu (vienalga ar lielajiem vai mazajiem burtiem), tad ieliekam kolu un, atdalot ar atstarpi, norādām šī operatora parametru. Pēc tam, sākot ar jaunu rindu, mēs aprakstam operatoru divi tādā pašā veidā.

Svarīgs!!! Tukša rinda nozīmēs, ka šīs meklētājprogrammas noteikumu bloks ir pabeigts, tāpēc neatdaliet paziņojumus ar tukšu rindu.

Faila robots.txt piemērs

Apskatīsim vienkāršu faila robots.txt piemēru, lai labāk izprastu tā sintakses funkcijas:

Lietotāja aģents: Yandex
Atļaut: /folder1/
Neatļaut: /fails1.html
Saimnieks: www.site.ru

Lietotāja aģents: *
Neatļaut: /document.php
Neatļaut: /folderxxx/
Neatļaut: /folderyyy/folderzzz
Neatļaut: /feed/

Vietnes karte: http://www.site.ru/sitemap.xml

Tagad apskatīsim aprakstīto piemēru.

Fails sastāv no trim blokiem: pirmais Yandex, otrais visām meklētājprogrammām un trešais satur vietnes kartes adresi (tiek automātiski lietota visām meklētājprogrammām, tāpēc nav jānorāda “User-Agent”). Mēs atļāvām Yandex indeksēt mapi “folder1” un visu tās saturu, taču aizliedzām indeksēt dokumentu “file1.html”, kas atrodas mitināšanas saknes direktorijā. Mēs arī norādījām vietnes galveno domēnu Yandex. Otrais bloks ir paredzēts visām meklētājprogrammām. Tur mēs aizliedzām dokumentu "document.php", kā arī mapes "folderxxx", "folderyyy/folderzzz" un "feed".

Lūdzu, ņemiet vērā, ka indeksa otrajā komandu blokā mēs neaizliedzām visu mapi “folderyyy”, bet tikai mapi šajā mapē – “folderzzz”. Tie. mēs esam nodrošinājuši pilnu ceļu "folderzzz". Tas jādara vienmēr, ja mēs aizliedzam dokumentu, kas atrodas nevis vietnes saknes direktorijā, bet gan kaut kur citās mapēs.

Tas aizņems mazāk nekā divas minūtes, lai izveidotu:

Izveidotā robotu faila funkcionalitāti var pārbaudīt Yandex tīmekļa pārziņa panelī. Ja failā pēkšņi tiek atrastas kļūdas, Yandex to parādīs.

Noteikti izveidojiet savai vietnei failu robots.txt, ja jums tāda vēl nav. Tas palīdzēs jūsu vietnei attīstīties meklētājprogrammās. Varat arī izlasīt mūsu citu rakstu par metatagu un .htaccess metodi.

Ātra navigācija šajā lapā:

Mūsdienu realitāte ir tāda, ka pakalpojumā RuNet neviena sevi cienoša vietne nevar iztikt bez faila robots.txt — pat ja jums nav nekā aizliegt indeksēt (lai gan gandrīz katrā vietnē ir tehniskas lapas un dublēts saturs, kuru indeksēšana ir jāaizver. ), tad Vismaz noteikti ir vērts Yandex reģistrēt direktīvu ar www un bez www - tam ir paredzēti robots.txt rakstīšanas noteikumi, kas tiks apspriesti tālāk.

Kas ir robots.txt?

Fails ar šādu nosaukumu ir datēts ar 1994. gadu, kad W3C konsorcijs nolēma ieviest šādu standartu, lai vietnes varētu nodrošināt meklētājprogrammas ar indeksēšanas instrukcijām.

Fails ar šādu nosaukumu ir jāsaglabā vietnes saknes direktorijā; tā ievietošana citās mapēs nav atļauta.

Fails veic šādas funkcijas:

aizliedz jebkuru lapu vai lapu grupu indeksēšanu
ļauj indeksēt visas lapas vai lapu grupas
norāda Yandex robotam, kurš vietnes spogulis ir galvenais (ar www vai bez www)
parāda vietnes kartes faila atrašanās vietu

Visi četri punkti ir ārkārtīgi svarīgi vietņu meklētājprogrammu optimizācijai. Indeksēšanas aizliegšana ļauj bloķēt lapas, kurās ir dublēts saturs, piemēram, tagu lapām, arhīviem, meklēšanas rezultātiem, lapām ar drukājamām versijām utt. Dublēta satura klātbūtne (ja viens un tas pats teksts, pat vairāku teikumu apjomā, atrodas divās vai vairākās lapās) ir vietnes mīnuss meklētājprogrammu reitingos, tāpēc dublikātiem jābūt pēc iespējas mazākam.

Atļaut direktīvai nav neatkarīgas nozīmes, jo pēc noklusējuma visas lapas jau ir pieejamas indeksēšanai. Tas darbojas kopā ar disallow - ja, piemēram, noteikta kategorija ir pilnībā aizvērta no meklētājprogrammām, bet jūs vēlaties atvērt šo vai atsevišķu lapu tajā.

Norādīšana uz vietnes galveno spoguli ir arī viens no vissvarīgākajiem optimizācijas elementiem: meklētājprogrammas uzskata vietnes www.yoursite.ru un yoursite.ru kā divus dažādus resursus, ja vien jūs tām tieši nenorādījat citādi. Rezultāts ir satura dubultošanās - dublikātu parādīšanās, ārējo saišu stipruma samazināšanās (ārējās saites var ievietot gan ar www, gan bez www) un rezultātā tas var novest pie zemāka ranga meklēšanas rezultātos.

Google galvenais spogulis ir reģistrēts tīmekļa pārziņa rīkos (http://www.google.ru/webmasters/), bet Yandex šīs instrukcijas var reģistrēt tikai tajā pašā robots.tkht.

Norādot uz xml failu ar vietnes karti (piemēram, sitemap.xml), meklētājprogrammas var noteikt šo failu.

Lietotāja aģenta norādīšanas noteikumi

Lietotāja aģents šajā gadījumā ir meklētājprogramma. Rakstot norādījumus, jānorāda, vai tie attieksies uz visām meklētājprogrammām (tādā gadījumā ir norādīta zvaigznīte - *), vai arī tie ir paredzēti konkrētai meklētājprogrammai - piemēram, Yandex vai Google.

Lai iestatītu lietotāja aģentu, kas norāda visus robotus, failā ierakstiet šādu rindiņu:

Lietotāja aģents: *

Yandex:

Lietotāja aģents: Yandex

Google:

Lietotāja aģents: GoogleBot

Neatļaut un atļaut norādīšanas noteikumi

Pirmkārt, jāņem vērā, ka failam robots.txt ir jābūt vismaz vienai disallow direktīvai, lai tas būtu derīgs. Tagad aplūkosim šo direktīvu piemērošanu, izmantojot konkrētus piemērus.

Izmantojot šo kodu, jūs atļaujat indeksēt visas vietnes lapas:

Lietotāja aģents: * Neatļaut:

Un ar šo kodu, gluži pretēji, visas lapas tiks aizvērtas:

Lietotāja aģents: * Neatļaut: /

Lai aizliegtu indeksēt noteiktu direktoriju, ko sauc par mapi, norādiet:

User-agent: * Disallow: /folder

Varat arī izmantot zvaigznītes, lai aizstātu patvaļīgu nosaukumu:

Lietotāja aģents: * Neatļaut: *.php

Svarīgi: zvaigznīte aizstāj visu faila nosaukumu, tas ir, jūs nevarat norādīt failu*.php, tikai *.php (bet visas lapas ar paplašinājumu .php būs aizliegtas; lai no tā izvairītos, varat norādīt konkrētu lapas adresi) .

Atļaut direktīva, kā minēts iepriekš, tiek izmantota, lai izveidotu izņēmumus neatļautā (pretējā gadījumā tai nav nozīmes, jo lapas jau ir atvērtas pēc noklusējuma).

Piemēram, mēs aizliedzam arhīva mapē esošo lapu indeksēšanu, bet atstāsim šī direktorija lapu index.html atvērtu:

Atļaut: /archive/index.html Neatļaut: /archive/

Norādiet resursdatoru un vietnes karti

Saimniekdators ir vietnes galvenais spogulis (tas ir, domēna nosaukums plus www vai domēna nosaukums bez šī prefiksa). Saimnieks ir norādīts tikai Yandex robotam (šajā gadījumā ir jābūt vismaz vienai disallow komandai).

Lai norādītu saimniekdatoru, failā robots.txt ir jābūt šādam ierakstam:

Lietotāja aģents: Yandex Disallow: Host: www.yoursite.ru

Kas attiecas uz vietnes karti, failā robots.txt vietnes karte tiek norādīta, vienkārši ierakstot pilnu ceļu uz atbilstošo failu, norādot domēna nosaukumu:

Vietnes karte: http://yoursite.ru/sitemap.xml

Ir rakstīts par to, kā izveidot vietnes karti WordPress.

Faila robots.txt piemērs vietnei WordPress

WordPress gadījumā instrukcijas ir jānorāda tā, lai indeksēšanai tiktu aizvērti visi tehniskie direktoriji (wp-admin, wp-includes u.c.), kā arī dublētās lapas, ko rada tagi, RSS faili, komentāri un meklēšana.

Kā piemēru robots.txt darbam ar Wordpress varat ņemt failu no mūsu vietnes:

Lietotāja aģents: Yandex Disallow: /wp-admin Neatļaut: /wp-includes Neatļaut: /wp-login.php Neatļaut: /wp-register.php Neatļaut: /xmlrpc.php Neatļaut: /search Neatļaut: */trackback Neatļaut: / pielikums/* Atļaut: /wp-content/uploads/ Host: www..php Neatļaut: /wp-register.php Neatļaut: /xmlrpc.php Neatļaut: /search Neatļaut: */trackback Neatļaut: */feed/ Neatļaut: * /feed Disallow: */comments/ Neatļaut: /?feed= Neatļaut: /?s= Neatļaut: */page/* Neatļaut: */comment Neatļaut: */tag/* Neatļaut: */attachment/* Atļaut: /wp -content/uploads/ User-agent: * Disallow: /wp-admin Neatļaut: /wp-includes Neatļaut: /wp-login.php Neatļaut: /wp-register.php Neatļaut: /xmlrpc.php Neatļaut: /search Neatļaut: / * Neatļaut: */attachment/* Atļaut: /wp-content/uploads/ Vietnes karte: https://www..xml

Failu robots.txt varat lejupielādēt no mūsu vietnes, izmantojot .

Ja pēc šī raksta izlasīšanas jums joprojām ir kādi jautājumi, uzdodiet tos komentāros!

Robots.txt fails— teksta fails .txt formātā, kas ierobežo meklēšanas robotu piekļuvi saturam http serverī. Kā definīcija, Robots.txt-Šo robotu izņēmuma standarts, kuru W3C pieņēma 1994. gada 30. janvārī un ko lielākā daļa meklētājprogrammu izmanto brīvprātīgi. Fails robots.txt sastāv no instrukciju kopas meklēšanas robotiem, lai novērstu noteiktu vietnes failu, lapu vai direktoriju indeksēšanu. Apskatīsim robots.txt aprakstu gadījumam, kad vietne neierobežo robotu piekļuvi vietnei.

Vienkāršs robots.txt piemērs:

Lietotāja aģents: * Atļaut: /

Šeit roboti pilnībā ļauj indeksēt visu vietni.

Fails robots.txt ir jāaugšupielādē jūsu vietnes saknes direktorijā lai tas būtu pieejams:

Your_site.ru/robots.txt

Lai ievietotu robots.txt failu vietnes saknē, parasti ir nepieciešama FTP piekļuve. Tomēr dažas pārvaldības sistēmas (CMS) ļauj izveidot robots.txt tieši no vietnes vadības paneļa vai izmantojot iebūvēto FTP pārvaldnieku.

Ja fails ir pieejams, pārlūkprogrammā redzēsit faila robots.txt saturu.

Kam paredzēts robots.txt?

Roots.txt vietnei ir svarīgs aspekts. Kāpēc mums ir nepieciešams robots.txt?? Piemēram, iekšā SEO robots.txt ir nepieciešams, lai izslēgtu no indeksēšanas lapas, kas nesatur noderīgu saturu un daudz ko citu.. Kā, kas, kāpēc un kāpēc tiek izslēgts, tas jau ir aprakstīts rakstā, par to mēs šeit nekavēsimies. Vai ir nepieciešams fails robots.txt? uz visām vietnēm? Jā un nē. Ja faila robots.txt izmantošana nozīmē lapu izslēgšanu no meklēšanas, tad mazām vietnēm ar vienkāršu struktūru un statiskām lapām šāda izslēgšana var būt nevajadzīga. Tomēr daži var būt noderīgi mazai vietnei robots.txt direktīvas, piemēram, resursdatora vai vietnes kartes direktīvu, bet vairāk par to tālāk.

Kā izveidot robots.txt

Jo robots.txt ir teksta fails, un uz izveidot failu robots.txt, varat izmantot, piemēram, jebkuru teksta redaktoru Notepad. Kad esat atvēris jaunu teksta dokumentu, jūs jau esat sācis izveidot robots.txt, atliek tikai izveidot tā saturu atkarībā no jūsu prasībām un saglabāt to kā teksta fails, ko sauc par robotiem txt formātā. Viss ir vienkārši, un robots.txt faila izveide nedrīkst radīt problēmas pat iesācējiem. Zemāk es jums parādīšu, kā izveidot robots.txt un ko rakstīt robotos, izmantojot piemērus.

Izveidojiet failu robots.txt tiešsaistē

Iespēja slinkajiem - izveidojiet robotus tiešsaistē un lejupielādējiet failu robots.txt jau gatavā formā. Robotu txt izveide tiešsaistē piedāvā daudzus pakalpojumus, izvēle ir jūsu. Galvenais ir skaidri saprast, kas būs aizliegts un kas būs atļauts, pretējā gadījumā robots.txt faila izveide tiešsaistē var izvērsties par traģēdiju, ko vēlāk var būt grūti labot. It īpaši, ja meklēšanā ir iekļauts kaut kas tāds, ko vajadzēja slēgt. Esiet piesardzīgs — pārbaudiet savu robotu failu pirms tā augšupielādes vietnē. Tomēr pielāgots fails robots.txt precīzāk atspoguļo ierobežojumu struktūru nekā tas, kas tika ģenerēts automātiski un lejupielādēts no citas vietnes. Lasiet tālāk, lai uzzinātu, kam jāpievērš īpaša uzmanība, rediģējot failu robots.txt.

Rediģēt robots.txt

Kad esat paguvis izveidot failu robots.txt tiešsaistē vai ar savām rokām, varat to izdarīt rediģēt robots.txt. Jūs varat mainīt tā saturu, kā vēlaties, galvenais ir ievērot dažus robots.txt noteikumus un sintaksi. Strādājot vietnē, robotu fails var mainīties, un, ja rediģējat robots.txt, neaizmirstiet augšupielādēt atjauninātu, pašreizējo faila versiju ar visām vietnes izmaiņām. Tālāk apskatīsim noteikumus par faila iestatīšanu, lai mēs to zinātu kā mainīt robots.txt failu un "necirt malku".

Pareizs faila robots.txt iestatījums

Pareizs faila robots.txt iestatījumsļauj izvairīties no privātas informācijas ievadīšanas lielāko meklētājprogrammu meklēšanas rezultātos. Tomēr to nevajadzētu aizmirst robots.txt komandas nav nekas cits kā darbības ceļvedis, nevis aizsardzība. Roboti no uzticamām meklētājprogrammām, piemēram, Yandex vai Google, izpilda robots.txt instrukcijas, taču citi roboti var tos viegli ignorēt. Pareiza robots.txt izpratne un lietošana ir galvenais, lai sasniegtu rezultātus.

Saprast kā izveidot pareizo robotu txt, vispirms ir jāsaprot faila robots.txt vispārīgie noteikumi, sintakse un direktīvas.

Pareizais fails robots.txt sākas ar User-agent direktīvu, kas norāda, kuriem robotiem ir adresētas specifiskās direktīvas.

Lietotāja aģenta piemēri failā robots.txt:

# Norāda norādījumus visiem robotiem vienlaikus User-agent: * # Norāda direktīvas visiem Yandex robotiem User-agent: Yandex # Norāda direktīvas tikai galvenajam Yandex indeksēšanas robotam User-agent: YandexBot # Norāda direktīvas visiem Google robotiem User-agent -aģents: Googlebot

Lūdzu, ņemiet vērā, ka tādi iestatot failu robots.txt liek robotam izmantot tikai tās direktīvas, kas atbilst lietotāja aģentam ar tā nosaukumu.

Faila robots.txt piemērs ar vairākiem User-agent gadījumiem:

# Izmantos visi Yandex roboti User-agent: Yandex Disallow: /*utm_ # Izmantos visi Google roboti User-agent: Googlebot Disallow: /*utm_ # Izmantos visi roboti, izņemot Yandex robotus un Google User- aģents: * Atļaut: / *utm_

Lietotāja aģenta direktīva izveido tikai norādījumu konkrētam robotam, un uzreiz pēc User-agent direktīvas ir jābūt komandai vai komandām, kas tieši norāda uz izvēlētā robota stāvokli. Iepriekš minētajā piemērā tiek izmantota direktīva “Disallow”, kuras vērtība ir “/*utm_”. Tādējādi mēs visu aizveram. Pareizi iestatot failu robots.txt, pašreizējā User-agent ietvaros tiek aizliegti tukši rindiņu pārtraukumi starp direktīvām “User-agent”, “Disallow” un direktīvām pēc “Disallow”.

Nepareizas rindu plūsmas piemērs failā robots.txt:

Pareizas rindu plūsmas piemērs failā robots.txt:

Lietotāja aģents: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=

Kā redzams no piemēra, instrukcijas failā robots.txt ir blokos, no kuriem katrs satur norādījumus vai nu konkrētam robotam, vai visiem robotiem "*".

Svarīgi ir arī nodrošināt pareizu komandu secību un šķirošanu failā robots.txt, ja tiek lietotas tādas direktīvas kā “Neatļaut” un “Atļaut”. Direktīva “Atļaut” ir atļaujoša direktīva, un tā ir pretēja komandai robots.txt “Disallow”, kas ir aizliedzoša direktīva.

Piemērs direktīvu izmantošanai kopā failā robots.txt:

Lietotāja aģents: * Atļaut: /blog/page Disallow: /blog

Šis piemērs neļauj visiem robotiem indeksēt visas lapas, kas sākas ar “/blog”, bet ļauj indeksēt visas lapas, kas sākas ar “/blog/page”.

Iepriekšējais faila robots.txt piemērs pareizā kārtošanā:

User-agent: * Disallow: /blog Atļaut: /blog/page

Vispirms aizliedzam visu sadaļu, tad atļaujam dažas tās daļas.

Cits pareizo robots.txt piemēru ar kopīgām direktīvām:

Lietotāja aģents: * Atļaut: / Neatļaut: /blog Atļaut: /blog/lapa

Pievērsiet uzmanību pareizai direktīvu secībai šajā robots.txt failā.

Direktīvu “Allow” un “Disallow” var norādīt bez parametriem, un tādā gadījumā vērtība tiks interpretēta apgriezti parametram “/”.

Piemērs direktīvai “Disallow/Allow” bez parametriem:

Lietotāja aģents: * Disallow: # ekvivalents Atļaut: / Disallow: /blog Atļaut: /blog/page

Kā izveidot pareizo robots.txt un tas, kā izmantot direktīvu interpretāciju, ir jūsu izvēle. Abi varianti būs pareizi. Galvenais neapjukt.

Lai pareizi sastādītu robots.txt, direktīvu parametros nepieciešams precīzi norādīt prioritātes un to, kas robotiem būs aizliegts lejupielādēt. Tālāk mēs sīkāk aplūkosim direktīvu “Disallow” un “Allow” lietošanu, bet tagad aplūkosim faila robots.txt sintaksi. Zinot robots.txt sintaksi, jūs varēsiet tuvāk izveidojiet perfektu robotu txt ar savām rokām.

Robots.txt sintakse

Meklētājprogrammu roboti brīvprātīgi izpilda robots.txt komandas- Standarts robotu izņēmumiem, taču ne visas meklētājprogrammas faila robots.txt sintaksi apstrādā vienādi. Robots.txt failam ir stingri noteikta sintakse, bet tajā pašā laikā rakstīt roboti txt nav grūti, jo tā struktūra ir ļoti vienkārša un viegli saprotama.

Šeit ir konkrēts vienkāršu noteikumu saraksts, kuru ievērošana tiks novērsta izplatītas robots.txt kļūdas:

Katra direktīva sākas jaunā rindā;
Nenorādiet vairāk kā vienu direktīvu vienā rindā;
Nelieciet atstarpi rindas sākumā;
Direktīvas parametram jābūt vienā rindā;
Nav nepieciešams ievietot direktīvas parametrus pēdiņās;
Direktīvas parametriem nav nepieciešami beigu semikoni;
Komanda failā robots.txt ir norādīta formātā - [Directive_name]:[optional space][value][optional space];
Komentāri ir atļauti failā robots.txt aiz jaucējzīmes #;
Tukšu rindas pārtraukumu var interpretēt kā User-agent direktīvas beigas;
Direktīva “Disallow:” (ar tukšu vērtību) ir līdzvērtīga “Allow: /” - atļaut visu;
Direktīvās “Allow” un “Disallow” ir norādīts ne vairāk kā viens parametrs;
Faila robots.txt nosaukumā nav atļauti lielie burti, nepareiza faila nosaukuma pareizrakstība ir Robots.txt vai ROBOTS.TXT;
Direktīvu un parametru nosaukumu rakstīšana ar lielajiem burtiem tiek uzskatīta par sliktu formu, un pat tad, ja robots.txt saskaņā ar standartu nav reģistrjutīgs, failu un direktoriju nosaukumi bieži ir reģistrjutīgi;
Ja direktīvas parametrs ir direktorijs, tad pirms direktorija nosaukuma vienmēr ir slīpsvītra “/”, piemēram: Disallow: /category
Pārāk liels robots.txt fails (vairāk nekā 32 KB) tiek uzskatīts par pilnībā pieļaujamu, kas ir līdzvērtīgs “Disallow:”;
Robots.txt, kas jebkāda iemesla dēļ nav pieejams, var tikt interpretēts kā pilnībā pieļaujams;
Ja fails robots.txt ir tukšs, tas tiks uzskatīts par pilnīgi pieļaujamu;
Vairāku "User-agent" direktīvu uzskaitīšanas rezultātā bez tukšas rindas plūsmas visas nākamās "User-agent" direktīvas, izņemot pirmo, var tikt ignorētas;
Vietnē robots.txt nav atļauts izmantot nacionālo alfabētu rakstzīmes.

Tā kā dažādas meklētājprogrammas var atšķirīgi interpretēt faila robots.txt sintaksi, dažas klauzulas var izlaist. Piemēram, ja ievadāt vairākas “User-agent” direktīvas bez tukšas rindiņas pārtraukuma, Yandex pareizi pieņems visas “User-agent” direktīvas, jo Yandex atlasa ierakstus, pamatojoties uz to klātbūtni rindā “User-agent”.

Robotiem ir stingri jānorāda tikai tas, kas ir nepieciešams, un nekas nav lieks. Nedomājiet kā uzrakstīt visu robots txt, kas ir iespējams un kā to aizpildīt. Ideāli roboti txt ir tas, kurā ir mazāk rindiņu, bet vairāk nozīmes. "Īsums ir asprātības dvēsele". Šis izteiciens šeit noder.

Kā pārbaudīt failu robots.txt

Lai pārbaudiet robots.txt Lai pārbaudītu faila sintakses un struktūras pareizību, varat izmantot kādu no tiešsaistes pakalpojumiem. Piemēram, Yandex un Google piedāvā savus pakalpojumus tīmekļa pārziņiem, kas ietver robots.txt analīze:

Faila robots.txt pārbaude pakalpojumā Yandex.Webmaster: http://webmaster.yandex.ru/robots.xml

Lai pārbaudiet robots.txt tiešsaistē nepieciešams augšupielādējiet failu robots.txt vietnē saknes direktorijā. Pretējā gadījumā dienests par to var ziņot neizdevās ielādēt robots.txt. Vispirms ir ieteicams pārbaudīt robots.txt pieejamību adresē, kurā atrodas fails, piemēram: your_site.ru/robots.txt.

Papildus Yandex un Google verifikācijas pakalpojumiem tiešsaistē ir pieejami arī daudzi citi robots.txt pārbaudītāji.

Robots.txt pret Yandex un Google

Pastāv subjektīvs viedoklis, ka Yandex pozitīvāk uztver atsevišķu direktīvu bloku “User-agent: Yandex” failā robots.txt nekā vispārīgu direktīvu bloku ar “User-agent: *”. Līdzīga situācija ir ar robots.txt un Google. Atsevišķu direktīvu norādīšana Yandex un Google ļauj kontrolēt vietņu indeksēšanu, izmantojot failu robots.txt. Iespējams, viņus personīgi glaimo pievilcība, jo īpaši tāpēc, ka lielākajā daļā vietņu Yandex, Google un citu meklētājprogrammu robots.txt bloku saturs būs vienāds. Ar retiem izņēmumiem būs visi "Lietotāja aģenta" bloki standarts failam robots.txt direktīvu kopums. Varat arī instalēt dažādus “lietotāja aģentus”. indeksēšanas aizliegums failā robots.txt, kas paredzēts Yandex, bet, piemēram, ne Google.

Atsevišķi ir vērts atzīmēt, ka Yandex ņem vērā tik svarīgu direktīvu kā “Host”, un pareizajā Yandex failā robots.txt ir jāiekļauj šī direktīva, lai norādītu vietnes galveno spoguli. Tālāk mēs sīkāk aplūkosim direktīvu "Host".

Atspējot indeksēšanu: robots.txt Disallow

Neatļaut — aizliedzoša direktīva, kas visbiežāk tiek izmantots failā robots.txt. Disallow neļauj indeksēt vietni vai tās daļu atkarībā no ceļa, kas norādīts parametrā Disallow.

Piemērs, kā novērst vietnes indeksēšanu failā robots.txt:

Lietotāja aģents: * Neatļaut: /

Šis piemērs bloķē visu vietni no indeksēšanas visiem robotiem.

Disallow direktīvas parametrs ļauj izmantot speciālās rakstzīmes * un $:

* - jebkurš rakstzīmju skaits, piemēram, parametrs /page* apmierina /page, /page1, /page-be-cool, /page/kak-skazat utt. Tomēr nav nepieciešams norādīt * katra parametra beigās, jo, piemēram, šādas direktīvas tiek interpretētas vienādi:

Lietotāja aģents: Yandex Disallow: /page Lietotāja aģents: Yandex Disallow: /page*

$ — norāda precīzu parametra vērtības izņēmuma atbilstību:

Lietotāja aģents: Googlebot Disallow: /page$

Šajā gadījumā direktīva Disallow neatļaus /page, bet neaizliedz lapas /page1, /page-be-cool vai /page/kak-skazat indeksēšanu.

Ja aizvērt vietnes indeksēšanu robots.txt, meklētājprogrammas uz šo kustību var reaģēt ar kļūdu “Bloķēts failā robots.txt” vai “URL ierobežo robots.txt” (URL aizliedz fails robots.txt). Ja tev vajag atspējot lapu indeksēšanu, varat izmantot ne tikai robots txt, bet arī līdzīgus html tagus:

- neindeksēt lapas saturu;
- nesekojiet saitēm lapā;
- aizliegts indeksēt saturu un sekot saitēm lapā;
- līdzīgs saturam = "nav".

Atļaut indeksēšanu: robots.txt Atļaut

Atļaut - atļaujoša direktīva un pretēja direktīvai Disallow. Šai direktīvai ir līdzīga sintakse kā Disallow.

Piemērs, kā aizliegt vietnes indeksēšanu, izņemot dažas robots.txt lapas:

User-agent: * Disallow: /Allow: /page

Ir aizliegts indeksēt visu vietni, izņemot lapas, kas sākas ar /page.

Neatļaut un Atļaut ar tukšu parametra vērtību

Empty Disallow direktīva:

Lietotāja aģents: * Neatļaut:

Neaizliegt neko vai atļaut indeksēt visu vietni, un tas ir līdzvērtīgs:

Lietotāja aģents: * Atļaut: /

Tukša atļauja direktīva:

Lietotāja aģents: * Atļaut:

Neko neatļaut vai pilnībā aizliegt vietņu indeksēšanu ir līdzvērtīga:

Lietotāja aģents: * Neatļaut: /

Galvenās vietnes spogulis: robots.txt resursdators

Host direktīva tiek izmantota, lai Yandex robotam norādītu jūsu vietnes galveno spoguli. No visām populārajām meklētājprogrammām direktīva Saimniekdatoru atpazīst tikai Yandex roboti. Host direktīva ir noderīga, ja jūsu vietnei var piekļūt, izmantojot vairākus kanālus, piemēram:

Mysite.ru mysite.com

Vai arī noteikt prioritāti starp:

Mana vietne.ru www.mysite.ru

Jūs varat pateikt Yandex robotam, kurš spogulis ir galvenais. Host direktīva ir norādīta direktīvas blokā “User-agent: Yandex”, un kā parametrs ir norādīta vēlamā vietnes adrese bez “http://”.

Faila robots.txt piemērs, kas norāda galveno spoguli:

Lietotāja aģents: Yandex Disallow: /page Host: mysite.ru

Domēna nosaukums mysite.ru bez www ir norādīts kā galvenais spogulis. Tādējādi šāda veida adrese tiks norādīta meklēšanas rezultātos.

Lietotāja aģents: Yandex Disallow: /page Host: www.mysite.ru

Domēna nosaukums www.mysite.ru ir norādīts kā galvenais spogulis.

Host direktīva failā robots.txt var izmantot tikai vienu reizi, bet, ja Host direktīva ir norādīta vairāk nekā vienu reizi, tiks ņemta vērā tikai pirmā, citas Host direktīvas tiks ignorētas.

Ja vēlaties norādīt Googlebot galveno spoguli, izmantojiet Google Webmaster Tools pakalpojumu.

Vietnes karte: robots.txt vietnes karte

Izmantojot vietnes kartes direktīvu, failā robots.txt varat norādīt atrašanās vietu vietnē.

Faila robots.txt piemērs, kas norāda vietnes kartes adresi:

Lietotāja aģents: * Neatļaut: /lapa Vietnes karte: http://www.mysite.ru/sitemap.xml

Vietnes kartes adreses norādīšana, izmantojot Vietnes kartes direktīva failā robots.txtļauj meklēšanas robotam uzzināt par vietnes kartes esamību un sākt tās indeksēšanu.

Clean-param direktīva

Clean-param direktīva ļauj izslēgt no indeksēšanas lapas ar dinamiskiem parametriem. Līdzīgās lapās var tikt rādīts viens un tas pats saturs, taču tām ir atšķirīgi lapu URL. Vienkārši sakot, šķiet, ka lapa ir pieejama dažādās adresēs. Mūsu uzdevums ir noņemt visas nevajadzīgās dinamiskās adreses, kuru var būt miljons. Lai to izdarītu, mēs izslēdzam visus dinamiskos parametrus, izmantojot direktīvu Clean-param failā robots.txt.

Clean-param direktīvas sintakse ir:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [ceļš]

Apskatīsim lapas piemēru ar šādu URL:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Faila robots.txt Clean-param piemērs:

Clean-param: parm1&parm2&parm3 /page.html # tikai lapai.html

Clean-param: parm1&parm2&parm3 / # visiem

Pārmeklēšanas aizkaves direktīva

Šī instrukcija ļauj samazināt servera slodzi, ja roboti apmeklē jūsu vietni pārāk bieži. Šī direktīva galvenokārt attiecas uz vietnēm ar lielu lapu apjomu.

Robots.txt pārmeklēšanas aizkaves piemērs:

Lietotāja aģents: Yandex Disallow: /page Pārmeklēšanas aizkave: 3

Šajā gadījumā mēs “lūdzam” Yandex robotiem lejupielādēt mūsu vietnes lapas ne biežāk kā reizi trijās sekundēs. Dažas meklētājprogrammas kā parametru atbalsta daļskaitļu formātu Pārmeklēšanas aizkaves robots.txt direktīvas.

Fails sitemap.xml un pareizais robots.txt vietnei ir divi obligāti dokumenti, kas palīdz ātri un pilnībā indeksēt visas nepieciešamās tīmekļa resursa lapas, ko veic meklēšanas roboti. Pareiza vietņu indeksēšana Yandex un Google ir atslēga uz veiksmīgu emuāru reklamēšanu meklētājprogrammās.

Es jau rakstīju, kā izveidot vietnes karti XML formātā un kāpēc tā ir nepieciešama. Tagad parunāsim par to, kā izveidot pareizo robots.txt WordPress vietnei un kāpēc tas vispār ir vajadzīgs. Detalizētu informāciju par šo failu var iegūt attiecīgi no Yandex un Google. Es ķeršos pie lietas būtības un pieskaršos WordPress pamata robots.txt iestatījumiem, izmantojot savu failu kā piemēru.

Kāpēc vietnei ir nepieciešams fails robots.txt?

Standarts robots.txt parādījās 1994. gada janvārī. Skenējot tīmekļa resursu, meklēšanas roboti vispirms meklē teksta failu robots.txt, kas atrodas vietnes vai emuāra saknes mapē. Ar tās palīdzību mēs varam norādīt noteiktus noteikumus dažādu meklētājprogrammu robotiem, pēc kuriem viņi indeksēs vietni.

Pareizi iestatot failu robots.txt, varēsiet:

izslēgt no indeksa dublikātus un dažādas nevēlamās lapas;
aizliegt indeksēt lapas, failus un mapes, kuras vēlamies paslēpt;
parasti atsakās indeksēt dažus meklēšanas robotus (piemēram, Yahoo, lai paslēptu informāciju par ienākošajām saitēm no konkurentiem);
norādiet vietnes galveno spoguli (ar www vai bez www);
norādiet ceļu uz vietnes karti sitemap.xml.

Kā izveidot vietnei pareizo robots.txt

Šim nolūkam ir īpaši ģeneratori un spraudņi, taču labāk to darīt manuāli.

Jums vienkārši ir jāizveido parasts teksta fails ar nosaukumu robots.txt, izmantojot jebkuru teksta redaktoru (piemēram, Notepad vai Notepad++) un jāaugšupielādē tas savā mitināšanā sava emuāra saknes mapē. Šajā failā ir jāraksta noteiktas direktīvas, t.i. indeksēšanas noteikumi Yandex, Google utt. robotiem.

Ja esat pārāk slinks, lai ar to nodarbotos, tālāk es sniegšu piemēru, no mana viedokļa, par pareizo robots.txt failu WordPress no sava emuāra. Varat to izmantot, aizstājot domēna nosaukumu trīs vietās.

Robots.txt izveides noteikumi un direktīvas

Lai veiksmīgi optimizētu emuāru meklētājprogrammās, jums jāzina daži robots.txt izveides noteikumi:

Ja fails robots.txt nav vai tas ir tukšs, meklētājprogrammas drīkst indeksēt visu tīmekļa resursa saturu.
Fails robots.txt ir jāatver vietnē site.ru/robots.txt, norādot robotam atbildes kodu 200 OK, un tā lielums nedrīkst pārsniegt 32 KB. Fails, kuru neizdodas atvērt (piemēram, kļūdas 404 dēļ) vai ir lielāks, tiks uzskatīts par labu.
Direktīvu skaits failā nedrīkst pārsniegt 1024. Vienas rindas garums nedrīkst pārsniegt 1024 rakstzīmes.
Derīgam robots.txt failam var būt vairāki priekšraksti, no kuriem katram jāsākas ar User-agent direktīvu un jāsatur vismaz viena Disallow direktīva. Parasti viņi raksta instrukcijas failā robots.txt Google un visiem citiem robotiem un atsevišķi Yandex.

Pamata robots.txt direktīvas:

Lietotāja aģents – norāda, kuram meklēšanas robotam instrukcija ir adresēta.

Simbols “*” nozīmē, ka tas attiecas uz visiem robotiem, piemēram:

Lietotāja aģents: *

Ja mums ir jāizveido kārtula failā robots.txt Yandex, mēs rakstām:

Lietotāja aģents: Yandex

Ja konkrētam robotam ir norādīta direktīva, tā neņem vērā direktīvu User-agent: *.

Neatļaut un Atļaut – attiecīgi aizliedz un ļauj robotiem indeksēt norādītās lapas. Visas adreses ir jānorāda no vietnes saknes, t.i. sākot no trešās slīpsvītras. Piemēram:

Aizliegums visiem robotiem indeksēt visu vietni:
Lietotāja aģents: *
Neatļaut: /
Yandex ir aizliegts indeksēt visas lapas, kas sākas ar /wp-admin:
Lietotāja aģents: Yandex
Neatļaut: /wp-admin
Tukša Disallow direktīva ļauj indeksēt visu un ir līdzīga Atļaut. Piemēram, es atļauju Yandex indeksēt visu vietni:
Lietotāja aģents: Yandex
Neatļaut:
Un otrādi, es aizliedzu visiem meklēšanas robotiem indeksēt visas lapas:
Lietotāja aģents: *
Atļaut:
Atļaut un aizliegt direktīvas no viena un tā paša lietotāja aģenta bloka tiek kārtotas pēc URL prefiksa garuma un tiek izpildītas secīgi. Ja vienai vietnes lapai ir piemērotas vairākas direktīvas, tad tiek izpildīta pēdējā sarakstā. Tagad to rakstīšanas secībai nav nozīmes, kad robots izmanto direktīvas. Ja direktīvām ir vienāda garuma prefiksi, vispirms tiek izpildīts Allow. Šie noteikumi stājās spēkā 2012.gada 8.martā. Piemēram, tas ļauj indeksēt tikai lapas, kas sākas ar /wp-includes:
Lietotāja aģents: Yandex
Neatļaut: /
Atļaut: /wp-includes

Vietnes karte — norāda XML vietnes kartes adresi. Vienai vietnei var būt vairākas vietnes kartes direktīvas, kuras var ligzdot. Lai paātrinātu vietņu indeksēšanu, failā robots.txt ir jānorāda visas vietnes kartes failu adreses:

Vietnes karte: http://site/sitemap.xml.gz
Vietnes karte: http://site/sitemap.xml

Host — norāda spoguļrobotam, kuru vietnes spoguli uzskatīt par galveno.

Ja vietne ir pieejama vairākās adresēs (piemēram, ar www un bez www), tad tiek izveidotas pilnīgas dublētās lapas, kuras var uztvert filtrs. Arī šajā gadījumā tā var nebūt galvenā lapa, kas tiek indeksēta, bet galvenā lapa, gluži pretēji, tiks izslēgta no meklētājprogrammas rādītāja. Lai to novērstu, izmantojiet direktīvu Host, kas failā robots.txt ir paredzēta tikai Yandex, un tā var būt tikai viena. Tas ir rakstīts aiz Neatļaut un Atļaut un izskatās šādi:

Saimnieks: vietne

Crawl-delay — iestata aizkavi starp lapu lejupielādes sekundēm. Izmanto, ja ir liela slodze un serverim nav laika apstrādāt pieprasījumus. Jaunās vietnēs labāk neizmantot rāpuļprogrammas aizkaves direktīvu. Tas ir rakstīts šādi:

Lietotāja aģents: Yandex
Pārmeklēšanas aizkave: 4

Clean-param – atbalsta tikai Yandex, un to izmanto, lai novērstu dublētās lapas ar mainīgajiem, apvienojot tās vienā. Tādējādi Yandex robots daudzas reizes nelejupielādēs līdzīgas lapas, piemēram, tās, kas saistītas ar novirzīšanas saitēm. Es vēl neesmu izmantojis šo direktīvu, bet Yandex palīdzībā par robots.txt, sekojiet saitei raksta sākumā, jūs varat izlasīt šo direktīvu detalizēti.

Speciālās rakstzīmes * un $ tiek izmantotas failā robots.txt, lai norādītu direktīvu Disallow un Allow ceļus:

Īpašā rakstzīme “*” nozīmē jebkuru rakstzīmju secību. Piemēram, Disallow: /*?* nozīmē aizliegumu jebkurām lapām, kurās adresē parādās “?”, neatkarīgi no tā, kādas rakstzīmes ir pirms un pēc šīs rakstzīmes. Pēc noklusējuma katra noteikuma beigās tiek pievienota īpašā rakstzīme “*”, pat ja tā nav īpaši norādīta.
Simbols “$” atceļ “*” kārtulas beigās un nozīmē stingru atbilstību. Piemēram, direktīva Disallow: /*?$ aizliedz indeksēt lapas, kas beidzas ar rakstzīmi “?”.

Faila robots.txt piemērs vietnei WordPress

Šeit ir mana faila robots.txt piemērs emuāram WordPress programmā:

Lietotāja aģents: * Disallow: /cgi-bin Neatļaut: /wp-admin Neatļaut: /wp-includes Neatļaut: /wp-content/plugins Neatļaut: /wp-content/cache Neatļaut: /wp-content/themes Neatļaut: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= Lietotāja aģents: Yandex Disallow: /cgi-bin Neatļaut: /wp-admin Neatļaut: /wp-includes Neatļaut: /wp-content/plugins Neatļaut: /wp-content/cache Neatļaut: /wp-content/themes Neatļaut: /trackback Neatļaut: */ Trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

Lai nemaldinātu sevi, izveidojot pareizo robots.txt failam WordPress, varat izmantot šo failu. Ar indeksēšanu nav problēmu. Man ir kopēšanas aizsardzības skripts, tāpēc ērtāk būs lejupielādēt gatavu robots.txt un augšupielādēt to savā hostingā. Vienkārši neaizmirstiet resursdatora un vietnes kartes direktīvās aizstāt manas vietnes nosaukumu ar savu.

Noderīgi papildinājumi, lai pareizi iestatītu failu robots.txt darbam ar WordPress

Ja jūsu WordPress emuārā ir instalēti koku komentāri, tie veido lapas dublikātus formā ?replytocom= . Vietnē robots.txt šādas lapas tiek aizvērtas ar direktīvu Disallow: /*?*. Bet tas nav risinājums, un labāk ir noņemt aizliegumus un cīnīties ar replytocom citā veidā. Kas, .

Tādējādi pašreizējais robots.txt fails 2014. gada jūlijā izskatās šādi:

Lietotāja aģents: * Disallow: /wp-includes Disallow: /wp-feed Neatļaut: /wp-content/plugins Neatļaut: /wp-content/cache Neatļaut: /wp-content/themes Lietotāja aģents: Yandex Disallow: /wp -includes Disallow: /wp-feed Neatļaut: /wp-content/plugins Neatļaut: /wp-content/cache Neatļaut: /wp-content/themes Host: site.ru Lietotāja aģents: Googlebot-Image Allow: /wp-content /uploads/ Lietotāja aģents: YandexImages Atļaut: /wp-content/uploads/ Vietnes karte: http://site.ru/sitemap.xml

Tajā papildus ir izklāstīti attēlu indeksēšanas robotu noteikumi.

Lietotāja aģents: Mediapartners-Google
Neatļaut:

Ja plānojat reklamēt kategoriju vai tagu lapas, atveriet tās robotiem. Piemēram, emuāra vietnē kategorijas netiek slēgtas no indeksēšanas, jo tajās tiek publicēti tikai nelieli rakstu paziņojumi, kas satura dublēšanas ziņā ir diezgan nenozīmīgi. Un, ja izmantojat citātu attēlošanu emuāra plūsmā, kas ir piepildīti ar unikāliem paziņojumiem, tad dublēšanās nebūs vispār.

Ja neizmantojat iepriekš minēto spraudni, failā robots.txt varat norādīt, lai aizliegtu tagu, kategoriju un arhīvu indeksēšanu. Piemēram, pievienojot šādas rindas:

Neatļaut: /autors/
Neatļaut: /tag
Neatļaut: /category/*/*
Neatļaut: /20*

Neaizmirstiet pārbaudīt failu robots.txt panelī Yandex.Webmaster un pēc tam atkārtoti augšupielādēt to savā mitināšanā.

Ja jums ir kādi papildinājumi robots.txt konfigurēšanai, rakstiet par to komentāros. Tagad noskatieties video par to, kas tas ir un kā izveidot vietnei pareizo robots.txt, kā aizliegt indeksēšanu failā robots.txt un labot kļūdas.