Robots.txt este un fișier de serviciu care servește drept recomandare pentru restricționarea accesului la conținutul documentelor web pentru motoarele de căutare. În acest articol ne vom uita la configurarea Robots.txt, descrierea directivelor și compunerea acestuia pentru CMS-urile populare.

Acest fișier Robot se află în directorul rădăcină al site-ului dvs. și poate fi deschis/editat cu un simplu notepad, recomand Notepad++. Pentru cei cărora nu le place să citească, există un VIDEO, vezi finalul articolului 😉

De ce avem nevoie de robots.txt?

După cum am spus mai sus, folosind fișierul robots.txt putem limita accesul roboților de căutare la documente, de exemplu. influentam direct indexarea site-ului. Cel mai adesea, acestea sunt blocate de la indexare:

  • Fișiere de serviciu și foldere CMS
  • Duplicate
  • Documente care nu sunt utile utilizatorului
  • Nu pagini unice

Să ne uităm la un exemplu concret:

Un magazin online care vinde pantofi este implementat pe unul dintre CMS-urile populare, și nu în cel mai bun mod. Pot spune imediat că rezultatele căutării vor include pagini de căutare, paginare, un coș de cumpărături, câteva fișiere de motor etc. Toate acestea vor fi duplicate și fișiere de serviciu care sunt inutile pentru utilizator. Prin urmare, ar trebui să fie închise de la indexare, iar dacă există și o secțiune „Știri” în care sunt copiate și lipite diverse articole interesante de pe site-urile concurenților, atunci nu este nevoie să ne gândim la asta, o închidem imediat.

Prin urmare, ne asigurăm că creăm un fișier robots.txt, astfel încât niciun gunoi să nu intre în rezultate. Nu uitați că fișierul trebuie deschis la http://site.ru/robots.txt.

Directive Robots.txt și reguli de configurare

Agent utilizator. Acesta este un apel la un anumit robot de motor de căutare sau la toți roboții. Dacă este specificat un anumit nume de robot, de exemplu „YandexMedia”, atunci directivele generale de utilizator-agent nu sunt utilizate pentru acesta. Exemplu de scriere:

User-agent: YandexBot Disallow: /cart # va fi folosit numai de robotul principal de indexare Yandex

Permite/Permite. Aceasta este o interdicție/permisiune de a indexa un anumit document sau secțiune. Ordinea scrierii nu contează, dar dacă există 2 directive și același prefix, „Permite” are prioritate. Robotul de căutare le citește după lungimea prefixului, de la cel mai mic la cel mai mare. Dacă trebuie să dezactivați indexarea unei pagini, introduceți pur și simplu calea relativă către aceasta (Disallow: /blog/post-1).

User-agent: Yandex Disallow: / Allow: /articles # Interzicem indexarea site-ului, cu excepția articolelor dintr-o secțiune

Expresii regulate cu * și $. Un asterisc înseamnă orice succesiune de caractere (inclusiv cele goale). Semnul dolarului înseamnă întrerupere. Exemple de utilizare:

Disallow: /page* # interzice toate paginile, construcțiile http://site.ru/page Disallow: /arcticles$ # interzice numai pagina http://site.ru/articles, permițând pagini http://site.ru/ articole/nou

Directiva Sitemap. Dacă îl utilizați, atunci în robots.txt ar trebui să fie indicat astfel:

Harta site-ului: http://site.ru/sitemap.xml

Directiva gazdă. După cum știți, site-urile au oglinzi (citim,). Această regulă indică botul de căutare către oglinda principală a resursei dvs. Se referă la Yandex. Dacă aveți o oglindă fără WWW, atunci scrieți:

Gazdă: site.ru

Crawl-întârziere. Setează întârzierea (în secunde) dintre botul care vă descarcă documentele. Este scris după directivele Disallow/Allow.

Întârzierea accesării cu crawlere: 5 # timeout în 5 secunde

Clean-param. Indică botului de căutare că nu este nevoie să descărcați informații suplimentare duplicate (identificatori de sesiune, referreri, utilizatori). Clean-param trebuie specificat pentru paginile dinamice:

Clean-param: ref /category/books # indicăm că pagina noastră este cea principală, iar http://site.ru/category/books?ref=yandex.ru&id=1 este aceeași pagină, dar cu parametri

Regula principală: robots.txt trebuie scris cu litere mici și situat în rădăcina site-ului. Exemplu de structură de fișiere:

Agent utilizator: Yandex Disallow: /cart Allow: /cart/images Sitemap: http://site.ru/sitemap.xml Gazdă: site.ru Crawl-delay: 2

Meta-roboți eticheta și cum este scrisă

Această opțiune pentru interzicerea paginilor este mai bine luată în considerare de motorul de căutare Google. Yandex ia în considerare ambele opțiuni la fel de bine.

Are 2 directive: follow/nofollowȘi index/noindex. Aceasta este permisiunea/interzicerea următoarelor link-uri și permisiunea/interzicerea indexării documentelor. Directivele pot fi scrise împreună, vezi exemplul de mai jos.

Pentru orice pagină individuală puteți scrie în etichetă ca urmare a:

Fișierele robots.txt corecte pentru CMS populare

Exemplu Robots.txt pentru WordPress

Mai jos puteți vedea versiunea mea de pe acest blog SEO.

Agent de utilizator: Yandex Disallow: /wp-content/uploads/ Permite: /wp-content/uploads/*/*/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow : /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Nepermis: */comments/ Disallow: /?feed= Disallow: /?.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?. xml

Interzic trackback-urile pentru că dublează o parte din articol în comentarii. Și dacă există o mulțime de trackback-uri, vei primi o grămadă de comentarii identice.

Încerc să închid folderele de serviciu și fișierele oricărui CMS, pentru că... Nu vreau să fie incluse în index (deși motoarele de căutare oricum nu le iau, dar nu va fi mai rău).

Furajele ar trebui să fie închise, pentru că Acestea sunt pagini duplicate parțiale sau complete.

Închidem etichetele dacă nu le folosim sau dacă ne este prea lene să le optimizăm.

Exemple pentru alte CMS

Pentru a descărca roboții corecti pentru CMS-ul dorit, faceți clic pe linkul corespunzător.

Bună ziua, dragi cititori ai blogului „Webmaster’s World”!

Fişier robots.txt– acesta este un fișier foarte important care afectează direct calitatea indexării site-ului dvs. și, prin urmare, promovarea acestuia în motorul de căutare.

De aceea trebuie să puteți formata corect robots.txt pentru a nu interzice accidental să fie incluse în index orice documente importante ale proiectului Internet.

Cum să formatați fișierul robots.txt, ce sintaxă ar trebui utilizată, cum să permiteți și să refuzați documentele în index vor fi discutate în acest articol.

Despre fișierul robots.txt

Mai întâi, să aflăm mai detaliat ce fel de fișier este acesta.

File roboți este un fișier care arată motoarelor de căutare ce pagini și documente de pe un site pot fi adăugate la index și care nu. Este necesar pentru că inițial motoarele de căutare încearcă să indexeze întregul site, iar acest lucru nu este întotdeauna corect. De exemplu, dacă creați un site pe un motor (WordPress, Joomla etc.), atunci veți avea foldere care organizează munca panoului administrativ. Este clar că informațiile din aceste foldere nu pot fi indexate; în acest caz se folosește fișierul robots.txt, care restricționează accesul la motoarele de căutare.

Fișierul robots.txt conține și adresa hărții site-ului (îmbunătățește indexarea de către motoarele de căutare), precum și domeniul principal al site-ului (oglinda principală).

Oglindă– aceasta este o copie absolută a site-ului, adică când există un site, atunci ei spun că unul dintre ele este domeniul principal, iar celălalt este oglinda lui.

Astfel, fișierul are o mulțime de funcții și chiar importante!

Sintaxa fișierului Robots.txt

Fișierul roboți conține blocuri de reguli care spun unui anumit motor de căutare ce poate fi indexat și ce nu. Poate exista un singur bloc de reguli (pentru toate motoarele de căutare), dar pot exista și mai multe dintre ele - pentru anumite motoare de căutare separat.

Fiecare astfel de bloc începe cu un operator „User-Agent”, care indică la ce motor de căutare se aplică aceste reguli.

Utilizator-Agent:A
(reguli pentru robotul „A”)

Utilizator-Agent:B
(reguli pentru robotul „B”)

Exemplul de mai sus arată că operatorul „User-Agent” are un parametru - numele robotului motorului de căutare căruia i se aplică regulile. Pe cele principale le voi indica mai jos:

După „User-Agent” există alți operatori. Iată descrierea lor:

Toți operatorii au aceeași sintaxă. Acestea. operatorii trebuie utilizați după cum urmează:

Operator1: parametrul 1

Operator2: parametrul2

Astfel, mai întâi scriem numele operatorului (indiferent cu majuscule sau mici), apoi punem două puncte și, despărțiți de un spațiu, indicăm parametrul acestui operator. Apoi, pornind de la o linie nouă, descriem operatorul doi în același mod.

Important!!! O linie goală va însemna că blocul de reguli pentru acest motor de căutare este complet, așa că nu separați declarațiile cu o linie goală.

Exemplu de fișier robots.txt

Să ne uităm la un exemplu simplu de fișier robots.txt pentru a înțelege mai bine caracteristicile sintaxei acestuia:

Agent utilizator: Yandex
Permite: /folder1/
Nu permiteți: /file1.html
Gazdă: www.site.ru

Agent utilizator: *
Nu permiteți: /document.php
Nu permiteți: /folderxxx/
Nu permiteți: /folderyyy/folderzzz
Nu permiteți: /feed/

Harta site-ului: http://www.site.ru/sitemap.xml

Acum să ne uităm la exemplul descris.

Fișierul este format din trei blocuri: primul pentru Yandex, al doilea pentru toate motoarele de căutare, iar al treilea conține adresa sitemap (aplicată automat pentru toate motoarele de căutare, deci nu este nevoie să specificați „User-Agent”). Am permis lui Yandex să indexeze folderul „folder1” și tot conținutul acestuia, dar i-am interzis să indexeze documentul „file1.html” aflat în directorul rădăcină de pe găzduire. De asemenea, i-am indicat Yandex domeniul principal al site-ului. Al doilea bloc este pentru toate motoarele de căutare. Acolo am interzis documentul „document.php”, precum și folderele „folderxxx”, „folderyyy/folderzzz” și „feed”.

Vă rugăm să rețineți că în al doilea bloc de comenzi la index nu am interzis întregul folder „folderyyy”, ci doar folderul din interiorul acestui folder – „folderzzz”. Acestea. am furnizat calea completă pentru „folderzzz”. Acest lucru ar trebui făcut întotdeauna dacă interzicem un document aflat nu în directorul rădăcină al site-ului, ci undeva în alte foldere.

Va dura mai puțin de două minute pentru a crea:

Fișierul roboți creat poate fi verificat pentru funcționalitate în panoul de webmasteri Yandex. Dacă erorile sunt găsite brusc în fișier, Yandex le va afișa.

Asigurați-vă că creați un fișier robots.txt pentru site-ul dvs. dacă nu aveți deja unul. Acest lucru va ajuta site-ul dvs. să se dezvolte în motoarele de căutare. Puteți citi și celălalt articol al nostru despre metoda meta-tagurilor și .htaccess.

Navigare rapidă pe această pagină:

Realitatea modernă este că în RuNet, niciun site care se respectă nu se poate descurca fără un fișier numit robots.txt - chiar dacă nu ai nimic de interzis indexarea (deși aproape fiecare site are pagini tehnice și conținut duplicat care necesită închiderea de la indexare). ), apoi Cel puțin, merită cu siguranță să înregistrați o directivă cu www și fără www pentru Yandex - pentru asta sunt regulile pentru scrierea robots.txt, care vor fi discutate mai jos.

Ce este robots.txt?

Un fișier cu acest nume datează din 1994, când consorțiul W3C a decis să introducă un astfel de standard pentru ca site-urile să poată furniza motoarele de căutare instrucțiuni de indexare.

Un fișier cu acest nume trebuie salvat în directorul rădăcină al site-ului; nu este permisă plasarea lui în orice alte foldere.

Fișierul îndeplinește următoarele funcții:

  1. interzice indexarea oricăror pagini sau grupuri de pagini
  2. permite indexarea oricăror pagini sau grupuri de pagini
  3. indică robotului Yandex care oglindă a site-ului este cea principală (cu www sau fără www)
  4. arată locația fișierului sitemap

Toate cele patru puncte sunt extrem de importante pentru optimizarea motorului de căutare a site-urilor web. Blocarea indexării vă permite să blocați paginile de indexare care conțin conținut duplicat - de exemplu, pagini de etichetare, arhive, rezultate de căutare, pagini cu versiuni imprimabile și așa mai departe. Prezența conținutului duplicat (atunci când același text, chiar și de dimensiunea mai multor propoziții, este prezent pe două sau mai multe pagini) este un minus pentru site în clasamentele motoarelor de căutare, prin urmare ar trebui să existe cât mai puține duplicate posibil.

Directiva allow nu are un sens independent, deoarece implicit toate paginile sunt deja disponibile pentru indexare. Funcționează împreună cu disallow - atunci când, de exemplu, o anumită categorie este complet închisă de motoarele de căutare, dar doriți să deschideți această pagină sau o pagină separată în ea.

Arătarea către oglinda principală a site-ului este, de asemenea, unul dintre cele mai importante elemente în optimizare: motoarele de căutare văd site-urile www.yoursite.ru și yoursite.ru ca două resurse diferite, dacă nu le spui direct altfel. Rezultatul este o dublare a conținutului - apariția duplicatelor, o scădere a puterii legăturilor externe (linkurile externe pot fi plasate atât cu www, cât și fără www) și ca urmare, acest lucru poate duce la o clasare mai scăzută în rezultatele căutării.

Pentru Google, oglinda principală este înregistrată în instrumentele pentru webmasteri (http://www.google.ru/webmasters/), dar pentru Yandex aceste instrucțiuni pot fi înregistrate numai în același robots.tkht.

Indicarea către un fișier xml cu o hartă de site (de exemplu, sitemap.xml) permite motoarelor de căutare să detecteze acest fișier.

Reguli pentru specificarea User-agent

Agentul utilizator în acest caz este motorul de căutare. Când scrieți instrucțiuni, trebuie să indicați dacă acestea se vor aplica tuturor motoarele de căutare (caz în care este indicat un asterisc - *) sau dacă sunt destinate unui anumit motor de căutare - de exemplu, Yandex sau Google.

Pentru a seta un User-agent care indică toți roboții, scrieți următoarea linie în fișierul dvs.:

Agent utilizator: *

Pentru Yandex:

Agent utilizator: Yandex

Pentru Google:

Agent utilizator: GoogleBot

Reguli pentru specificarea interzicerii și permiterii

În primul rând, trebuie remarcat faptul că fișierul robots.txt trebuie să conțină cel puțin o directivă disallow pentru a fi valid. Acum să ne uităm la aplicarea acestor directive folosind exemple specifice.

Folosind acest cod, permiteți indexarea tuturor paginilor site-ului:

Agent utilizator: * Nu permite:

Și cu acest cod, dimpotrivă, toate paginile vor fi închise:

Agent utilizator: * Nu permite: /

Pentru a interzice indexarea unui anume director numit folder, specificați:

User-agent: * Disallow: /folder

De asemenea, puteți utiliza asteriscuri pentru a înlocui un nume arbitrar:

Agent utilizator: * Nu permite: *.php

Important: asteriscul înlocuiește întreg numele fișierului, adică nu puteți specifica fișier*.php, ci doar *.php (dar toate paginile cu extensia .php vor fi interzise; pentru a evita acest lucru, puteți specifica o anumită adresă de pagină) .

Directiva allow, așa cum sa menționat mai sus, este folosită pentru a crea excepții în disallow (altfel nu are sens, deoarece paginile sunt deja deschise implicit).

De exemplu, vom interzice indexarea paginilor din folderul arhivă, dar vom lăsa deschisă pagina index.html din acest director:

Permite: /archive/index.html Disallow: /archive/

Specificați gazda și harta site-ului

Gazda este oglinda principală a site-ului (adică numele domeniului plus www sau numele domeniului fără acest prefix). Gazda este specificată numai pentru robotul Yandex (în acest caz, trebuie să existe cel puțin o comandă de respingere).

Pentru a specifica o gazdă, robots.txt trebuie să conțină următoarea intrare:

Agent utilizator: Yandex Disallow: Gazdă: www.yoursite.ru

În ceea ce privește harta site-ului, în robots.txt harta site-ului este indicată prin simpla scriere a căii complete către fișierul corespunzător, indicând numele domeniului:

Harta site-ului: http://yoursite.ru/sitemap.xml

Este scris despre cum să faci un sitemap pentru WordPress.

Exemplu robots.txt pentru WordPress

Pentru WordPress, instrucțiunile trebuie specificate în așa fel încât să închidă toate directoarele tehnice (wp-admin, wp-includes etc.) pentru indexare, precum și paginile duplicate create de etichete, fișiere RSS, comentarii și căutare.

Ca exemplu de robots.txt pentru wordpress, puteți prelua fișierul de pe site-ul nostru:

Agent de utilizator: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Nu permite: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */ atașament/* Permite: /wp-content/uploads/ Gazdă: www..php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: * /feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */attachment/* Permite: /wp -content/uploads/ User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/ * Nu permiteți: */attachment/* Permiteți: /wp-content/uploads/ Sitemap: https://www..xml

Puteți descărca fișierul robots.txt de pe site-ul nostru web folosind .

Daca dupa ce ai citit acest articol mai ai intrebari, intreaba in comentarii!

Fișierul Robots.txt— un fișier text în format .txt care limitează accesul roboților de căutare la conținutul de pe serverul http. Cum definiție, Robots.txt- Acest standard de excepție pentru robot, care a fost adoptat de W3C la 30 ianuarie 1994 și pe care majoritatea motoarelor de căutare îl folosesc în mod voluntar. Fișierul robots.txt constă dintr-un set de instrucțiuni pentru roboții de căutare pentru a preveni indexarea anumitor fișiere, pagini sau directoare de pe un site. Să luăm în considerare descrierea robots.txt pentru cazul în care site-ul nu restricționează accesul roboților la site.

Un exemplu simplu robots.txt:

Agent utilizator: * Permite: /

Aici roboții permit complet indexarea întregului site.

Fișierul robots.txt trebuie să fie încărcat în directorul rădăcină al site-ului dvs astfel încât să fie disponibil la:

Your_site.ru/robots.txt

Plasarea unui fișier robots.txt în rădăcina unui site necesită de obicei acces FTP. Cu toate acestea, unele sisteme de management (CMS) fac posibilă crearea robots.txt direct din panoul de control al site-ului sau prin intermediul managerului FTP încorporat.

Dacă fișierul este disponibil, veți vedea conținutul robots.txt în browser.

Pentru ce este robots.txt?

Roots.txt pentru un site este un aspect important. De ce avem nevoie de robots.txt?? De exemplu, în SEO robots.txt este necesar pentru a exclude din indexare paginile care nu conțin conținut util și multe altele.. Cum, ce, de ce și de ce este exclus a fost deja descris în articolul despre aceasta, nu ne vom opri aici. Este necesar un fișier robots.txt? la toate site-urile? Da și nu. Dacă utilizarea robots.txt implică excluderea paginilor din căutare, atunci pentru site-uri mici cu o structură simplă și pagini statice astfel de excluderi pot fi inutile. Cu toate acestea, unele pot fi utile pentru un site mic directive robots.txt, de exemplu directiva Gazdă sau Sitemap, dar mai multe despre asta mai jos.

Cum se creează robots.txt

Deoarece robots.txt este un fișier text și to creați un fișier robots.txt, puteți folosi orice editor de text, de exemplu Blocnotes. Odată ce ați deschis un nou document text, ați început deja să creați robots.txt, tot ce rămâne este să compuneți conținutul acestuia, în funcție de cerințele dvs., și să-l salvați ca fișier text numit roboți în format txt. Totul este simplu, iar crearea unui fișier robots.txt nu ar trebui să provoace probleme nici măcar începătorilor. Mai jos vă voi arăta cum să compuneți robots.txt și ce să scrieți în roboți folosind exemple.

Creați robots.txt online

Opțiune pentru leneși - creați roboți online și descărcați fișierul robots.txt deja în formă terminată. Crearea robots txt online oferă multe servicii, alegerea vă aparține. Principalul lucru este să înțelegeți clar ce va fi interzis și ce va fi permis, în caz contrar crearea online a unui fișier robots.txt se poate transforma într-o tragedie, care poate fi dificil de corectat ulterior. Mai ales dacă căutarea include ceva care ar fi trebuit închis. Fiți atenți - verificați fișierul roboților înainte de a-l încărca pe site. Inca fișier robots.txt personalizat reflectă mai exact structura restricțiilor decât una care a fost generată automat și descărcată de pe alt site. Citiți mai departe pentru a afla la ce să acordați o atenție deosebită atunci când editați robots.txt.

Editarea robots.txt

Odată ce ați reușit să creați un fișier robots.txt online sau cu propriile mâini, puteți editați robots.txt. Îi puteți modifica conținutul după cum doriți, principalul lucru este să urmați câteva reguli și sintaxa robots.txt. În timp ce lucrați pe site, fișierul robots se poate modifica, iar dacă editați robots.txt, atunci nu uitați să încărcați o versiune actualizată, actuală a fișierului cu toate modificările aduse site-ului. În continuare, să ne uităm la regulile de configurare a unui fișier, astfel încât să știm cum se schimbă fișierul robots.txtși „nu tăiați lemne”.

Configurați corect robots.txt

Configurați corect robots.txt vă permite să evitați ca informațiile private să intre în rezultatele căutării principalelor motoare de căutare. Cu toate acestea, nu trebuie uitat asta Comenzile robots.txt nu sunt altceva decât un ghid de acțiune, nu protecție. Roboții de la motoarele de căutare fiabile precum Yandex sau Google urmează instrucțiunile robots.txt, dar alți roboți îi pot ignora cu ușurință. Înțelegerea și aplicarea corectă a robots.txt este cheia pentru obținerea rezultatelor.

A întelege cum să faci textul corect al roboților, mai întâi trebuie să înțelegeți regulile generale, sintaxa și directivele fișierului robots.txt.

Robots.txt corect începe cu directiva User-agent, care indică căreia i se adresează directivele specifice robotului.

Exemple de User-agent în robots.txt:

# Indică directive pentru toți roboții în același timp User-agent: * # Indică directive pentru toți roboții Yandex User-agent: Yandex # Indică directive numai pentru robotul principal de indexare Yandex User-agent: YandexBot # Indică directive pentru toți roboții Google Utilizator -agent: Googlebot

Vă rugăm să rețineți că astfel configurarea fișierului robots.txtîi spune robotului să folosească numai directive care potrivesc user-agent cu numele său.

Exemplu de robots.txt cu mai multe apariții ale User-agent:

# Va fi folosit de toți roboții Yandex User-agent: Yandex Disallow: /*utm_ # Va fi folosit de toți roboții Google User-agent: Googlebot Disallow: /*utm_ # Va fi folosit de toți roboții, cu excepția roboților Yandex și Google User- agent: * Permite: / *utm_

Directiva utilizator-agent creează doar o instrucțiune pentru un anumit robot și imediat după directiva User-agent ar trebui să existe o comandă sau comenzi care indică direct condiția robotului selectat. Exemplul de mai sus folosește directiva „Disallow”, care are valoarea „/*utm_”. Astfel, închidem totul. Setarea corectă a robots.txt interzice prezența întreruperilor de linie goale între directivele „User-agent”, „Disallow” și directivele care urmează „Disallow” în cadrul „User-agent” curent.

Exemplu de flux de linie incorect în robots.txt:

Exemplu de flux de linie corect în robots.txt:

User-agent: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=

După cum se vede din exemplu, instrucțiunile din robots.txt vin în blocuri, fiecare dintre ele conține instrucțiuni fie pentru un anumit robot, fie pentru toți roboții „*”.

De asemenea, este important să vă asigurați ordinea și sortarea corectă a comenzilor în robots.txt atunci când utilizați directive precum „Disallow” și „Allow” împreună. Directiva „Allow” este o directivă permisivă și este opusul comenzii robots.txt „Disallow”, o directivă de interzicere.

Un exemplu de utilizare împreună a directivelor în robots.txt:

User-agent: * Permite: /blog/page Disallow: /blog

Acest exemplu împiedică toți roboții să indexeze toate paginile care încep cu „/blog”, dar permite ca toate paginile care încep cu „/blog/page” să fie indexate.

Exemplu anterior de robots.txt în sortare corectă:

User-agent: * Disallow: /blog Allow: /blog/page

Mai întâi interzicem întreaga secțiune, apoi permitem unele părți din ea.

O alta exemplu corect robots.txt cu directive comune:

User-agent: * Permite: / Disallow: /blog Permite: /blog/pagina

Acordați atenție secvenței corecte a directivelor din acest robots.txt.

Directivele „Allow” și „Disallow” pot fi specificate fără parametri, caz în care valoarea va fi interpretată invers față de parametrul „/”.

Exemplu de directivă „Disallow/Allow” fără parametri:

User-agent: * Disallow: # echivalent cu Allow: / Disallow: /blog Allow: /blog/page

Cum să creați robots.txt corect iar modul de utilizare a interpretării directivelor este alegerea dvs. Ambele variante vor fi corecte. Principalul lucru este să nu te încurci.

Pentru a compune corect robots.txt este necesar să se indice cu exactitate în parametrii directivelor prioritățile și ceea ce va fi interzis pentru descărcare de către roboți. Vom analiza mai jos utilizarea directivelor „Disallow” și „Allow”, dar acum ne vom uita la sintaxa robots.txt. Cunoașterea sintaxei robots.txt vă va aduce mai aproape de creați textul roboților perfecti cu propriile mâini.

Sintaxa Robots.txt

Roboții motoarelor de căutare urmează în mod voluntar comenzile robots.txt- standard pentru excepțiile roboților, dar nu toate motoarele de căutare tratează sintaxa robots.txt în același mod. Fișierul robots.txt are o sintaxă strict definită, dar în același timp scrie robots txt nu este dificil, deoarece structura sa este foarte simplă și ușor de înțeles.

Iată o listă specifică de reguli simple, în urma cărora le vei elimina erori comune robots.txt:

  1. Fiecare directivă începe pe o linie nouă;
  2. Nu specificați mai mult de o directivă pe o singură linie;
  3. Nu pune un spațiu la începutul unei linii;
  4. Parametrul directiv trebuie să fie pe o linie;
  5. Nu este nevoie să includeți parametrii directivei între ghilimele;
  6. Parametrii directivei nu necesită punct și virgulă final;
  7. Comanda din robots.txt este specificată în formatul - [Nume_Directiva]:[spațiu opțional][valoare][spațiu opțional];
  8. Comentariile sunt permise în robots.txt după semnul hash #;
  9. O întrerupere de linie goală poate fi interpretată ca sfârșitul directivei User-agent;
  10. Directiva „Disallow:” (cu o valoare goală) este echivalentă cu „Allow: /” - permite totul;
  11. Directivele „Allow” și „Disallow” specifică nu mai mult de un parametru;
  12. Numele fișierului robots.txt nu permite litere mari, ortografia incorectă a numelui fișierului este Robots.txt sau ROBOTS.TXT;
  13. Scrierea cu majuscule a numelor directivelor și parametrilor este considerată o formă proastă, și chiar dacă robots.txt nu face distincție între majuscule și minuscule conform standardului, numele fișierelor și directoarelor sunt adesea sensibile la majuscule;
  14. Dacă parametrul directivei este un director, atunci numele directorului este întotdeauna precedat de o bară oblică „/”, de exemplu: Disallow: /category
  15. Robots.txt prea mare (mai mult de 32 KB) sunt considerate pe deplin permisive, echivalent cu „Disallow:”;
  16. Robots.txt care este inaccesibil din orice motiv poate fi interpretat ca fiind complet permisiv;
  17. Dacă robots.txt este gol, atunci va fi tratat ca fiind complet permisiv;
  18. Ca urmare a listei mai multor directive „User-agent” fără un avans de linie gol, toate directivele ulterioare „User-agent”, cu excepția primei, pot fi ignorate;
  19. Utilizarea oricăror caractere din alfabetele naționale în robots.txt nu este permisă.

Deoarece diferite motoare de căutare pot interpreta diferit sintaxa robots.txt, unele clauze pot fi omise. De exemplu, dacă introduceți mai multe directive „User-agent” fără o întrerupere de linie goală, toate directivele „User-agent” vor fi acceptate corect de Yandex, deoarece Yandex selectează înregistrările pe baza prezenței lor în linia „User-agent”.

Roboții ar trebui să indice strict doar ceea ce este necesar și nimic de prisos. Nu te gândi cum se scrie totul în robots txt, ce este posibil și cum să-l umpleți. Txt roboți ideali este cel cu mai puține rânduri, dar mai mult sens. "Vorba lunga saracia omului". Această expresie este utilă aici.

Cum se verifică robots.txt

Pentru a verificați robots.txt Pentru a verifica corectitudinea sintaxei și structurii fișierului, puteți utiliza unul dintre serviciile online. De exemplu, Yandex și Google oferă propriile lor servicii pentru webmasteri, care includ analiza robots.txt:

Verificarea fișierului robots.txt în Yandex.Webmaster: http://webmaster.yandex.ru/robots.xml

Pentru a verificați robots.txt online necesar încărcați robots.txt pe site-ul din directorul rădăcină. În caz contrar, serviciul poate raporta acest lucru nu s-a încărcat robots.txt. Este recomandat să verificați mai întâi robots.txt pentru disponibilitate la adresa unde se află fișierul, de exemplu: your_site.ru/robots.txt.

Pe lângă serviciile de verificare de la Yandex și Google, există multe alte online validatoare robots.txt.

Robots.txt vs Yandex și Google

Există o opinie subiectivă că Yandex percepe indicarea unui bloc separat de directive „User-agent: Yandex” în robots.txt mai pozitiv decât un bloc general de directive cu „User-agent: *”. Situația este similară cu robots.txt și Google. Specificarea directivelor separate pentru Yandex și Google vă permite să controlați indexarea site-urilor prin robots.txt. Poate că sunt flatați personal de apel, mai ales că pentru majoritatea site-urilor conținutul blocurilor robots.txt ale Yandex, Google și alte motoare de căutare va fi același. Cu rare excepții, toate blocurile „User-agent” vor avea standard pentru robots.txt set de directive. De asemenea, folosind diferiți „User-agents” puteți instala interzicerea indexării în robots.txt pentru Yandex, dar, de exemplu, nu pentru Google.

Separat, merită remarcat faptul că Yandex ia în considerare o directivă atât de importantă precum „Gazdă”, iar robots.txt-ul corect pentru Yandex ar trebui să includă această directivă pentru a indica oglinda principală a site-ului. Ne vom uita la directiva „Gazdă” mai detaliat mai jos.

Dezactivați indexarea: robots.txt Disallow

Disallow - directivă de interzicere, care este folosit cel mai des în fișierul robots.txt. Disallow previne indexarea site-ului sau a unei părți a acestuia, în funcție de calea specificată în parametrul directivei Disallow.

Un exemplu despre cum să preveniți indexarea site-ului în robots.txt:

Agent utilizator: * Nu permite: /

Acest exemplu blochează indexarea întregului site pentru toți roboții.

Parametrul directivei Disallow permite utilizarea caracterelor speciale * și $:

* - orice număr de caractere, de exemplu, parametrul /page* satisface /page, /page1, /page-be-cool, /page/kak-skazat etc. Cu toate acestea, nu este nevoie să specificați un * la sfârșitul fiecărui parametru, deoarece, de exemplu, următoarele directive sunt interpretate la fel:

Agent utilizator: Yandex Disallow: /page Agent utilizator: Yandex Disallow: /page*

$ - indică o potrivire exactă a excepției la valoarea parametrului:

Agent de utilizator: Googlebot Disallow: /page$

În acest caz, directiva Disallow va interzice /page, dar nu va interzice indexarea paginii /page1, /page-be-cool sau /page/kak-skazat.

Dacă închideți indexarea site-ului robots.txt, motoarele de căutare pot răspunde la această mișcare cu eroarea „Blocat în fișierul robots.txt” sau „url restricted by robots.txt” (url interzis de fișierul robots.txt). Dacă aveți nevoie dezactivați indexarea paginilor, puteți folosi nu numai robots txt, ci și etichete html similare:

  • - nu indexați conținutul paginii;
  • - nu urmați link-urile din pagină;
  • - este interzisă indexarea conținutului și urmărirea linkurilor din pagină;
  • - similar cu content="none".

Permite indexarea: robots.txt Permite

Allow - directivă permisivăși opusul directivei Disallow. Această directivă are o sintaxă similară cu Disallow.

Un exemplu despre cum să interziceți indexarea unui site, cu excepția unor pagini din robots.txt:

User-agent: * Disallow: /Allow: /page

Este interzisă indexarea întregului site, cu excepția paginilor care încep cu /page.

Disallow și Allow cu valoarea parametrului goală

Directiva de interzicere goală:

Agent utilizator: * Nu permite:

Nu interziceți nimic și nu permiteți indexarea întregului site și este echivalent cu:

Agent utilizator: * Permite: /

Directiva goală Permite:

Agent utilizator: * Permite:

A nu permite nimic sau a interzice complet indexarea site-ului este echivalent cu:

Agent utilizator: * Nu permite: /

Oglinda site-ului principal: gazdă robots.txt

Directiva Gazdă este folosită pentru a indica robotului Yandex oglinda principală a site-ului dvs. Dintre toate motoarele de căutare populare, directiva Gazda este recunoscută numai de roboții Yandex. Directiva Gazdă este utilă dacă site-ul dvs. este accesibil prin mai multe canale, de exemplu:

Mysite.ru mysite.com

Sau pentru a determina prioritatea între:

Mysite.ru www.mysite.ru

Puteți spune robotului Yandex care oglindă este cea principală. Directiva Gazdă este indicată în blocul directivei „User-agent: Yandex” și, ca parametru, este indicată adresa preferată a site-ului fără „http://”.

Exemplu de robots.txt care indică oglinda principală:

Agent utilizator: Yandex Disallow: /page Gazdă: mysite.ru

Numele de domeniu mysite.ru fără www este indicat ca oglindă principală. Astfel, acest tip de adresă va fi indicat în rezultatele căutării.

Agent utilizator: Yandex Disallow: /page Gazdă: www.mysite.ru

Numele de domeniu www.mysite.ru este indicat ca oglindă principală.

Directiva gazdă în fișierul robots.txt poate fi folosită o singură dată, dar dacă directiva Gazdă este specificată de mai multe ori, doar prima va fi luată în considerare, celelalte directive Gazdă vor fi ignorate.

Dacă doriți să specificați oglinda principală pentru Googlebot, utilizați serviciul Instrumente Google pentru webmasteri.

Harta site-ului: harta site-ului robots.txt

Folosind directiva Sitemap, puteți specifica locația de pe site în robots.txt.

Un exemplu de robots.txt care indică adresa sitemapului:

User-agent: * Disallow: /page Sitemap: http://www.mysite.ru/sitemap.xml

Specificarea adresei sitemapului prin Directiva Sitemap în robots.txt permite robotului de căutare să afle despre prezența unui sitemap și să înceapă să îl indexeze.

Directiva Clean-param

Directiva Clean-param vă permite să excludeți paginile cu parametri dinamici de la indexare. Pagini similare pot difuza același conținut, dar au adrese URL diferite. Mai simplu spus, este ca și cum pagina este accesibilă la adrese diferite. Sarcina noastră este să eliminăm toate adresele dinamice inutile, dintre care ar putea fi un milion. Pentru a face acest lucru, excludem toți parametrii dinamici, folosind directiva Clean-param în robots.txt.

Sintaxa directivei Clean-param este:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Calea]

Să ne uităm la exemplul unei pagini cu următoarea adresă URL:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Exemplu robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # numai pentru page.html

Clean-param: parm1&parm2&parm3 / # pentru toți

Directiva privind întârzierea cu crawler

Această instrucțiune vă permite să reduceți sarcina de pe server dacă roboții vă vizitează prea des site-ul. Această directivă este relevantă în principal pentru site-urile cu un volum mare de pagini.

Exemplu robots.txt crawl-delay:

User-agent: Yandex Disallow: /page Crawl-delay: 3

În acest caz, „cerem” roboților Yandex să descarce paginile site-ului nostru nu mai mult de o dată la trei secunde. Unele motoare de căutare acceptă formatul de număr fracționat ca parametru Directive robots.txt pentru întârzierea cu crawl.

Fișierul sitemap.xml și robots.txt corect pentru site sunt două documente obligatorii care contribuie la indexarea rapidă și completă a tuturor paginilor necesare unei resurse web de către roboții de căutare. Indexarea corectă a site-urilor în Yandex și Google este cheia promovării de succes a blogului în motoarele de căutare.

Am scris deja cum se face un sitemap în format XML și de ce este necesar. Acum să vorbim despre cum să creați robots.txt corect pentru un site WordPress și de ce este necesar în general. Informații detaliate despre acest fișier pot fi obținute de la Yandex și, respectiv, Google. Voi ajunge la miez și voi atinge setările de bază robots.txt pentru WordPress folosind fișierul meu ca exemplu.

De ce aveți nevoie de un fișier robots.txt pentru un site web?

Standardul robots.txt a apărut în ianuarie 1994. Când scanează o resursă web, roboții de căutare caută mai întâi fișierul text robots.txt, aflat în folderul rădăcină al site-ului sau blogului. Cu ajutorul acestuia, putem specifica anumite reguli pentru roboții diferitelor motoare de căutare prin care aceștia vor indexa site-ul.

Configurarea corectă a robots.txt vă va permite să:

  • excludeți duplicatele și diversele pagini nedorite din index;
  • interzicerea indexării paginilor, fișierelor și folderelor pe care dorim să le ascundem;
  • în general refuză indexarea la unii roboți de căutare (de exemplu, Yahoo, pentru a ascunde informații despre link-urile primite de la concurenți);
  • indicați oglinda principală a site-ului (cu www sau fără www);
  • specificați calea către sitemap sitemap.xml.

Cum să creați robots.txt corect pentru un site

Există generatoare și plugin-uri speciale în acest scop, dar este mai bine să faceți acest lucru manual.

Trebuie doar să creați un fișier text obișnuit numit robots.txt, folosind orice editor de text (de exemplu, Notepad sau Notepad++) și să îl încărcați în găzduirea dvs. în folderul rădăcină al blogului dvs. Anumite directive trebuie să fie scrise în acest fișier, de ex. reguli de indexare pentru roboții Yandex, Google etc.

Dacă vă este prea lene să vă deranjați cu asta, atunci mai jos voi da un exemplu, din punctul meu de vedere, al robots.txt corect pentru WordPress de pe blogul meu. Îl poți folosi prin înlocuirea numelui de domeniu în trei locuri.

Reguli și directive de creare Robots.txt

Pentru optimizarea cu succes a unui blog pentru motoarele de căutare, trebuie să cunoașteți câteva reguli pentru crearea robots.txt:

  • Absența sau fișierul robots.txt gol va însemna că motoarele de căutare au voie să indexeze tot conținutul resursei web.
  • robots.txt ar trebui să se deschidă pe site.ru/robots.txt, dându-i robotului un cod de răspuns de 200 OK și să nu aibă o dimensiune mai mare de 32 KB. Un fișier care nu se deschide (de exemplu, din cauza unei erori 404) sau este mai mare va fi considerat ok.
  • Numărul de directive din fișier nu trebuie să depășească 1024. Lungimea unui rând nu trebuie să depășească 1024 de caractere.
  • Un fișier robots.txt valid poate avea mai multe instrucțiuni, fiecare dintre ele trebuie să înceapă cu o directivă User-agent și trebuie să conțină cel puțin o directivă Disallow. De obicei, ei scriu instrucțiuni în robots.txt pentru Google și toți ceilalți roboți și separat pentru Yandex.

Directive de bază robots.txt:

User-agent – ​​indică cărui robot de căutare îi este adresată instrucțiunea.

Simbolul „*” înseamnă că acest lucru se aplică tuturor roboților, de exemplu:

Agent utilizator: *

Dacă trebuie să creăm o regulă în robots.txt pentru Yandex, atunci scriem:

Agent utilizator: Yandex

Dacă este specificată o directivă pentru un anumit robot, directiva User-agent: * nu este luată în considerare de acesta.

Disallow și Allow – respectiv, interzice și permit roboților să indexeze paginile specificate. Toate adresele trebuie specificate de la rădăcina site-ului, adică. începând de la a treia slash. De exemplu:

  • Interzicerea tuturor roboților să indexeze întregul site:

    Agent utilizator: *
    Nu permite: /

  • Yandex nu are voie să indexeze toate paginile care încep cu /wp-admin:

    Agent utilizator: Yandex
    Nu permiteți: /wp-admin

  • Directiva goală Disallow permite ca totul să fie indexat și este similară cu Allow. De exemplu, permit lui Yandex să indexeze întregul site:

    Agent utilizator: Yandex
    Nu permiteți:

  • Și invers, interzic tuturor roboților de căutare să indexeze toate paginile:

    Agent utilizator: *
    Permite:

  • Directivele Allow și Disallow din același bloc User-agent sunt sortate după lungimea prefixului URL și sunt executate secvenţial. Dacă mai multe directive sunt potrivite pentru o pagină a site-ului, atunci ultima din listă este executată. Acum, ordinea în care sunt scrise nu contează când robotul folosește directive. Dacă directivele au prefixe de aceeași lungime, atunci se execută mai întâi Allow. Aceste reguli au intrat în vigoare la 8 martie 2012. De exemplu, permite indexarea numai a paginilor care încep cu /wp-includes:

    Agent utilizator: Yandex
    Nu permite: /
    Permite: /wp-include

Sitemap – Specifică adresa XML sitemap. Un site poate avea mai multe directive Sitemap, care pot fi imbricate. Toate adresele fișierelor Sitemap trebuie specificate în robots.txt pentru a accelera indexarea site-ului:

Harta site-ului: http://site/sitemap.xml.gz
Harta site-ului: http://site/sitemap.xml

Gazdă – îi spune robotului oglindă ce oglindă a site-ului web trebuie să ia în considerare cea principală.

Dacă site-ul este accesibil la mai multe adrese (de exemplu, cu www și fără www), atunci se creează pagini duplicate complete, care pot fi captate de filtru. De asemenea, în acest caz, poate să nu fie pagina principală care este indexată, dar pagina principală, dimpotrivă, va fi exclusă din indexul motorului de căutare. Pentru a preveni acest lucru, utilizați directiva Gazdă, care este destinată în fișierul robots.txt numai pentru Yandex și poate exista doar una. Este scris după Disallow și Allow și arată astfel:

Gazdă: site web

Crawl-delay – setează întârzierea între descărcarea paginilor în secunde. Folosit dacă există o sarcină mare și serverul nu are timp să proceseze cererile. Pe site-urile tinere este mai bine să nu folosiți directiva Crawl-delay. Este scris astfel:

Agent utilizator: Yandex
Întârziere crawler: 4

Clean-param – acceptat numai de Yandex și este folosit pentru a elimina paginile duplicate cu variabile, îmbinându-le într-una singură. Astfel, robotul Yandex nu va descărca pagini similare de multe ori, de exemplu, cele asociate cu link-uri de recomandare. Nu am folosit încă această directivă, dar în ajutorul de pe robots.txt pentru Yandex, urmați linkul de la începutul articolului, puteți citi această directivă în detaliu.

Caracterele speciale * și $ sunt folosite în robots.txt pentru a indica căile directivelor Disallow și Allow:

  • Caracterul special „*” înseamnă orice succesiune de caractere. De exemplu, Disallow: /*?* înseamnă o interdicție a oricăror pagini în care apare „?” în adresă, indiferent de caracterele care apar înainte și după acest caracter. În mod implicit, caracterul special „*” este adăugat la sfârșitul fiecărei reguli, chiar dacă nu este specificat în mod specific.
  • Simbolul „$” anulează „*” de la sfârșitul regulii și înseamnă potrivire strictă. De exemplu, directiva Disallow: /*?$ va interzice indexarea paginilor care se termină cu caracterul „?”.

Exemplu robots.txt pentru WordPress

Iată un exemplu al fișierului meu robots.txt pentru un blog pe motorul WordPress:

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */ trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */ trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

Pentru a nu te păcăli creând robots.txt corect pentru WordPress, poți folosi acest fișier. Nu există probleme cu indexarea. Am un script de protecție împotriva copierii, așa că va fi mai convenabil să descărcați robots.txt gata făcut și să îl încărcați pe găzduirea dvs. Nu uitați să înlocuiți numele site-ului meu cu al dumneavoastră în directivele Gazdă și Sitemap.

Adăugiri utile pentru configurarea corectă a fișierului robots.txt pentru WordPress

Dacă comentariile arborelui sunt instalate pe blogul dvs. WordPress, atunci ele creează pagini duplicat de forma ?replytocom= . În robots.txt, astfel de pagini sunt închise cu directiva Disallow: /*?*. Dar aceasta nu este o soluție și este mai bine să eliminați interdicțiile și să combateți replytocom într-un alt mod. Ce, .

Astfel, actualul robots.txt din iulie 2014 arată astfel:

User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes User-agent: Yandex Disallow: /wp -include Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Gazdă: site.ru User-agent: Googlebot-Image Allow: /wp-content /uploads/ Agent utilizator: YandexImages Allow: /wp-content/uploads/ Harta site-ului: http://site.ru/sitemap.xml

User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes User-agent: Yandex Disallow: /wp -include Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Gazdă: site.ru User-agent: Googlebot-Image Allow: /wp-content /uploads/ Agent utilizator: YandexImages Allow: /wp-content/uploads/ Harta site-ului: http://site.ru/sitemap.xml

În plus, stabilește regulile pentru roboții de indexare a imaginilor.

Agent utilizator: Mediapartners-Google
Nu permiteți:

Dacă intenționați să promovați pagini de categorii sau etichete, atunci ar trebui să le deschideți roboților. De exemplu, pe un site de blog, categoriile nu sunt închise de la indexare, deoarece publică doar mici anunțuri de articole, ceea ce este destul de nesemnificativ în ceea ce privește duplicarea conținutului. Și dacă utilizați afișarea citatelor în fluxul de blog, care sunt pline cu anunțuri unice, atunci nu va exista deloc duplicare.

Dacă nu utilizați pluginul de mai sus, puteți specifica în fișierul robots.txt să interziceți indexarea etichetelor, categoriilor și arhivelor. De exemplu, adăugând următoarele linii:

Nu permiteți: /autor/
Nu permiteți: /tag
Nu permite: /categorie/*/*
Nu permite: /20*

Nu uitați să verificați fișierul robots.txt din panoul Yandex.Webmaster, apoi să îl reîncărcați pe găzduirea dvs.

Dacă aveți completări pentru a configura robots.txt, scrieți despre asta în comentarii. Acum urmăriți un videoclip despre ce este și cum să creați robots.txt corect pentru un site, cum să interziceți indexarea în fișierul robots.txt și cum să corectați erorile.