Robotlar txt-ga nimani kiritish kerak. Robotlar txt faylini o'rnatish bo'yicha tavsiyalar. Barcha fayllarni ro'yxatlash

Robots.txt - qidiruv tizimlari uchun veb-hujjatlarning mazmuniga kirishni cheklash bo'yicha tavsiya sifatida xizmat qiluvchi xizmat fayli. Ushbu maqolada biz Robots.txt ni o'rnatishni, direktivalarni tavsiflashni va uni mashhur CMS-lar uchun tuzishni ko'rib chiqamiz.

Ushbu Robot fayli saytingizning asosiy katalogida joylashgan va oddiy bloknot yordamida ochilishi/tahrirlanishi mumkin, men Notepad++ dasturini tavsiya qilaman. O'qishni yoqtirmaydiganlar uchun VIDEO bor, maqolaning oxiriga qarang😉

Nima uchun sizga robots.txt kerak?

Yuqorida aytganimdek, robots.txt faylidan foydalanib, qidiruv botlarining hujjatlarga kirishini cheklashimiz mumkin, ya'ni. biz to'g'ridan-to'g'ri saytni indekslashga ta'sir qilamiz. Ko'pincha ular indeksatsiyadan bloklanadi:

Xizmat fayllari va CMS papkalari
Dublikatlar
Foydalanuvchi uchun foydali bo'lmagan hujjatlar
Noyob sahifalar emas

Keling, aniq bir misolni ko'rib chiqaylik:

Oyoq kiyimlarini sotadigan onlayn-do'kon eng yaxshi usulda emas, balki mashhur CMS-lardan birida amalga oshiriladi. Men darhol aytishim mumkinki, qidiruv natijalarida qidiruv sahifalari, sahifalash, xarid qilish savati, ba'zi dvigatel fayllari va boshqalar kiradi. Bularning barchasi foydalanuvchi uchun foydasiz bo'lgan dublikat va xizmat fayllari bo'ladi. Shuning uchun ular indeksatsiyadan yopilishi kerak va agar raqobatchilarning saytlaridan turli xil qiziqarli maqolalar ko'chiriladi va joylashtiriladigan "Yangiliklar" bo'limi bo'lsa, bu haqda o'ylashning hojati yo'q, biz uni darhol yopamiz.

Shuning uchun, natijalarga hech qanday axlat tushmasligi uchun robots.txt faylini yaratishga ishonch hosil qilamiz. Faylni http://site.ru/robots.txt manzilida ochish kerakligini unutmang.

Robots.txt direktivalari va konfiguratsiya qoidalari

Foydalanuvchi-agent. Bu ma'lum bir qidiruv tizimi robotiga yoki barcha robotlarga murojaat. Agar ma'lum bir robot nomi ko'rsatilgan bo'lsa, masalan, "YandexMedia", u uchun umumiy foydalanuvchi-agent direktivalari ishlatilmaydi. Yozish misoli:

Foydalanuvchi-agent: YandexBot Taqiqlash: /savat # faqat asosiy Yandex indekslash roboti tomonidan qo'llaniladi

Ruxsat bermaslik/ruxsat berish. Bu ma'lum bir hujjat yoki bo'limni indekslash uchun taqiq/ruxsatdir. Yozish tartibi muhim emas, lekin agar ikkita direktiv va bir xil prefiks bo'lsa, "Ruxsat berish" ustunlik qiladi. Qidiruv roboti ularni eng kichikdan kattagacha prefiks uzunligi bo'yicha o'qiydi. Agar siz sahifani indekslashni o'chirib qo'yishingiz kerak bo'lsa, shunchaki unga nisbatan yo'lni kiriting (Ruxsat bermaslik: /blog/post-1).

Foydalanuvchi-agent: Yandex Ruxsat bermaslik: / Ruxsat berish: /maqolalar # Saytni indekslashni taqiqlaymiz, 1 bo'lim maqolalaridan tashqari

* va $ bilan oddiy iboralar. Yulduzcha har qanday belgilar ketma-ketligini bildiradi (shu jumladan bo'sh). Dollar belgisi uzilishni anglatadi. Foydalanishga misollar:

Ruxsat berish: /page* # barcha sahifalarni, konstruksiyalarni taqiqlaydi http://site.ru/page Taqiqlash: /arcticles$ # faqat http://site.ru/articles sahifasini taqiqlaydi, http://site.ru/ sahifalariga ruxsat beradi. maqolalar /yangi

Sayt xaritasi direktivasi. Agar siz undan foydalansangiz, robots.txt-da u quyidagicha ko'rsatilishi kerak:

Sayt xaritasi: http://site.ru/sitemap.xml

Xost direktivasi. Ma'lumki, saytlarda oynalar mavjud (biz o'qiymiz,). Ushbu qoida qidiruv botini manbangizning asosiy oynasiga yo'naltiradi. Yandex-ga murojaat qiladi. Agar sizda WWWsiz oynangiz bo'lsa, yozing:

Xost: site.ru

Emaklash-kechikish. Hujjatlarni yuklab olish bot o'rtasidagi kechikishni (sekundlarda) o'rnatadi. U Disallow/Allow direktivalaridan keyin yoziladi.

Tekshirish kechikishi: 5 soniya ichida 5 # ta vaqt tugashi

Toza-param. Qidiruv botiga qo'shimcha dublikat ma'lumotlarini (sessiya identifikatorlari, refererlar, foydalanuvchilar) yuklab olishning hojati yo'qligini bildiradi. Clean-param dinamik sahifalar uchun belgilanishi kerak:

Clean-param: ref /category/books # bizning sahifamiz asosiy ekanligini va http://site.ru/category/books?ref=yandex.ru&id=1 bir xil sahifa ekanligini bildiramiz, lekin parametrlari bilan

Asosiy qoida: robots.txt kichik harf bilan yozilishi va saytning ildizida joylashgan bo'lishi kerak. Misol fayl tuzilishi:

Foydalanuvchi-agent: Yandex Ruxsat bermaslik: /cart Ruxsat berish: /cart/images Sayt xaritasi: http://site.ru/sitemap.xml Xost: site.ru Crawl-delay: 2

Meta robotlar yorlig'i va u qanday yozilgan

Sahifalarni taqiqlashning ushbu varianti Google qidiruv tizimi tomonidan yaxshiroq hisobga olinadi. Yandex ikkala variantni ham birdek yaxshi hisobga oladi.

Uning 2 ta direktivasi bor: kuzatish/nofollow Va indeks/noindex. Bu quyidagi havolalarga ruxsat/taqiqlash va hujjatlarni indekslashni ruxsat/taqiqlash. Direktivlar birgalikda yozilishi mumkin, quyidagi misolga qarang.

Har qanday alohida sahifa uchun tegga yozishingiz mumkin quyidagi:

Mashhur CMS uchun robots.txt fayllarini to'g'rilang

WordPress uchun misol Robots.txt

Quyida siz ushbu SEO blogidan mening versiyamni ko'rishingiz mumkin.

Foydalanuvchi-agent: Yandex Taqiqlash: /wp-content/uploads/ Ruxsat berish: /wp-content/uploads/*/*/ Ruxsat berish: /wp-login.php Ruxsat berish: /wp-register.php Ruxsat berish: /xmlrpc.php Ruxsat berish : /template.html Ruxsat berish: /cgi-bin Ruxsat berish: /wp-admin Ruxsat berish: /wp-includes Ruxsat berish: /wp-content/plugins Ruxsat berish: /wp-content/cache Ruxsat berish: /wp-content/themes Ruxsat bermaslik: / wp-trackback Ruxsat berish: /wp-feed Ruxsat berish: /wp-comments Ruxsat berish: */trackback Ruxsat berish: */feed Ruxsat berish: */comments Ruxsat berish: /teg Ruxsat berish: /arxiv Ruxsat berish: */trackback/ Ruxsat berish: */feed/ Ruxsat berish: */comments/ Ruxsat berish: /?feed= Ruxsat berish: /?.php Ruxsat berish: /wp-register.php Ruxsat berish: /xmlrpc.php Ruxsat berish: /template.html Ruxsat berish: /cgi-bin Ruxsat berish: /wp-admin Ruxsat berish: /wp-includes Ruxsat berish: /wp-content/plugins Ruxsat berish: /wp-content/cache Ruxsat berish: /wp-content/themes Ruxsat berish: /wp-trackback Ruxsat berish: /wp-feed Ruxsat berish: /wp-comments Ruxsat berish: */trackback Ruxsat berish: */feed Ruxsat berish: */comments Ruxsat berish: /teg: /arxiv Ruxsat berish: */trackback/ Ruxsat berish: */feed/ Ruxsat berish: */comments/ Ruxsat berish: /?feed= Ruxsat berish: /?. xml

Men kuzatuvlarni taqiqlayman, chunki u sharhlardagi maqolaning bir qismini takrorlaydi. Va agar trekbeklar ko'p bo'lsa, siz bir xil sharhlarni olasiz.

Men har qanday CMS-ning xizmat papkalari va fayllarini yopishga harakat qilaman, chunki... Men ularni indeksga kiritishni xohlamayman (garchi qidiruv tizimlari ularni baribir qabul qilmasa ham, lekin bundan ham yomoni bo'lmaydi).

Feeds yopiq bo'lishi kerak, chunki Bu qisman yoki toʻliq dublikat sahifalardir.

Agar biz ulardan foydalanmasak yoki ularni optimallashtirishga dangasa bo'lsak, teglarni yopamiz.

Boshqa CMS uchun misollar

Kerakli CMS uchun to'g'ri robotlarni yuklab olish uchun tegishli havolani bosing.

Salom, "Webmaster's World" blogining aziz o'quvchilari!

Fayl robots.txt- bu sizning saytingizni indekslash sifatiga bevosita ta'sir qiladigan juda muhim fayl va shuning uchun uning qidiruv tizimini reklama qilish.

Shuning uchun siz Internet loyihasining biron bir muhim hujjatlarini indeksga kiritishni tasodifan taqiqlamaslik uchun robots.txt faylini to'g'ri formatlashingiz kerak.

Robots.txt faylini qanday formatlash kerak, qanday sintaksisdan foydalanish kerak, hujjatlarni indeksga qanday ruxsat berish va rad etish ushbu maqolada muhokama qilinadi.

robots.txt fayli haqida

Birinchidan, bu qanday fayl ekanligini batafsilroq bilib olaylik.

Fayl robotlar - qidiruv tizimlariga saytdagi qaysi sahifa va hujjatlarni indeksga qo'shish mumkin, qaysi birini qo'shish mumkin emasligini ko'rsatadigan fayl. Bu kerak, chunki dastlab qidiruv tizimlari butun saytni indekslashga harakat qiladi va bu har doim ham to'g'ri emas. Misol uchun, agar siz dvigatelda (WordPress, Joomla va boshqalar) sayt yaratayotgan bo'lsangiz, u holda sizda ma'muriy panel ishini tartibga soluvchi papkalar bo'ladi. Ushbu papkalardagi ma'lumotlarni indekslash mumkin emasligi aniq, bu holda robots.txt faylidan foydalaniladi, bu esa qidiruv tizimlariga kirishni cheklaydi.

robots.txt faylida shuningdek, sayt xaritasining manzili (qidiruv tizimlari tomonidan indekslashni yaxshilaydi), shuningdek, saytning asosiy domeni (asosiy oyna) mavjud.

Oyna- bu saytning mutlaq nusxasi, ya'ni. bitta sayt bo'lsa, ulardan biri asosiy domen, ikkinchisi esa uning oynasi, deyishadi.

Shunday qilib, fayl juda ko'p funktsiyalarga ega va bunda muhim!

Robots.txt fayl sintaksisi

Robotlar faylida ma'lum bir qidiruv tizimiga nimani indekslash va nima qilish mumkin emasligini aytadigan qoidalar bloklari mavjud. Bitta qoidalar bloki bo'lishi mumkin (barcha qidiruv tizimlari uchun), lekin ularning bir nechtasi ham bo'lishi mumkin - ba'zi bir maxsus qidiruv tizimlari uchun alohida.

Har bir bunday blok "Foydalanuvchi-agent" operatori bilan boshlanadi, bu esa ushbu qoidalar qaysi qidiruv tizimiga tegishli ekanligini ko'rsatadi.

Foydalanuvchi -Agent:A
("A" robotining qoidalari)

Foydalanuvchi -Agent:B
("B" robotining qoidalari)

Yuqoridagi misol "Foydalanuvchi-Agent" operatorining parametrga ega ekanligini ko'rsatadi - qoidalar qo'llaniladigan qidiruv tizimi robotining nomi. Quyida men asosiylarini ko'rsataman:

"User-Agent" dan keyin boshqa operatorlar mavjud. Mana ularning tavsifi:

Barcha operatorlar bir xil sintaksisga ega. Bular. operatorlardan quyidagi tarzda foydalanish kerak:

Operator1: parametr1

Operator2: parametr2

…

Shunday qilib, avval operator nomini yozamiz (katta yoki kichik harflar bilan), keyin ikki nuqta qo'yamiz va bo'sh joy bilan ajratilgan holda ushbu operatorning parametrini ko'rsatamiz. Keyin, yangi satrdan boshlab, biz ikkinchi operatorni xuddi shunday tasvirlaymiz.

Muhim!!! Bo'sh satr ushbu qidiruv tizimi uchun qoidalar bloki to'liq ekanligini anglatadi, shuning uchun bayonotlarni bo'sh qator bilan ajratmang.

Misol robots.txt fayli

Robots.txt faylining sintaksisi xususiyatlarini yaxshiroq tushunish uchun uning oddiy misolini ko'rib chiqamiz:

Foydalanuvchi-agent: Yandex
Ruxsat bering: /papka1/
Ruxsat bermaslik: /file1.html
Xost: www.site.ru

Foydalanuvchi-agent: *
Ruxsat bermaslik: /document.php
Ruxsat bermaslik: /folderxxx/
Ruxsat bermaslik: /folderyyy/folderzzz
Ruxsat bermaslik: /feed/

Sayt xaritasi: http://www.site.ru/sitemap.xml

Endi tasvirlangan misolni ko'rib chiqaylik.

Fayl uchta blokdan iborat: birinchisi Yandex uchun, ikkinchisi barcha qidiruv tizimlari uchun, uchinchisi esa sayt xaritasi manzilini o'z ichiga oladi (barcha qidiruv tizimlari uchun avtomatik ravishda qo'llaniladi, shuning uchun "Foydalanuvchi-Agent" ni belgilashning hojati yo'q). Biz Yandex-ga "papka1" papkasini va uning barcha tarkibini indekslashiga ruxsat berdik, lekin hostingdagi ildiz katalogida joylashgan "file1.html" hujjatini indekslashni taqiqladik. Yandex-ga saytning asosiy domenini ham ko'rsatdik. Ikkinchi blok barcha qidiruv tizimlari uchun. U erda biz "document.php" hujjatini, shuningdek, "folderxxx", "folderyyy/folderzzz" va "feed" papkalarini taqiqladik.

E'tibor bering, indeksning ikkinchi buyruqlar blokida biz butun "folderyyy" papkasini emas, balki faqat ushbu papka ichidagi papkani - "folderzzz" ni taqiqladik. Bular. biz "folderzzz" uchun to'liq yo'lni taqdim etdik. Agar biz saytning asosiy katalogida emas, balki boshqa papkalar ichida joylashgan hujjatni taqiqlasak, buni har doim qilish kerak.

Yaratish uchun ikki daqiqadan kamroq vaqt ketadi:

Yaratilgan robotlar faylining funksionalligini Yandex veb-ustasi panelida tekshirish mumkin. Agar faylda to'satdan xatolar topilsa, Yandex uni ko'rsatadi.

Agar sizda hali yo'q bo'lsa, saytingiz uchun robots.txt faylini yaratganingizga ishonch hosil qiling. Bu sizning saytingiz qidiruv tizimlarida rivojlanishiga yordam beradi. Meta teglar va .htaccess usuli haqida boshqa maqolamizni ham o'qishingiz mumkin.

Ushbu sahifada tezkor navigatsiya:

Zamonaviy haqiqat shundaki, RuNet-da hech bir o'zini hurmat qiladigan sayt robots.txt deb nomlangan faylsiz ishlay olmaydi - hatto indekslashni taqiqlaydigan hech narsa bo'lmasa ham (garchi deyarli har bir saytda texnik sahifalar va indeksatsiyadan yopilishni talab qiladigan takroriy tarkib mavjud bo'lsa ham) ), keyin hech bo'lmaganda, Yandex uchun www bilan va wwwsiz direktivani ro'yxatdan o'tkazish maqsadga muvofiqdir - bu quyida muhokama qilinadigan robots.txt yozish qoidalari nima uchundir.

robots.txt nima?

Bunday nomdagi fayl 1994 yilda W3C konsorsiumi saytlar qidiruv tizimlarini indekslash bo'yicha ko'rsatmalar bilan ta'minlashi uchun shunday standartni joriy etishga qaror qilgan paytdan boshlanadi.

Bunday nomdagi fayl saytning asosiy katalogida saqlanishi kerak, uni boshqa papkalarga joylashtirishga ruxsat berilmaydi.

Fayl quyidagi funktsiyalarni bajaradi:

har qanday sahifalar yoki sahifalar guruhini indekslashni taqiqlaydi
har qanday sahifalar yoki sahifalar guruhlarini indekslash imkonini beradi
Yandex robotiga qaysi sayt oynasi asosiy ekanligini ko'rsatadi (www yoki wwwsiz)
sayt xaritasi faylining joylashuvini ko'rsatadi

Barcha to'rt nuqta veb-sayt qidiruv tizimini optimallashtirish uchun juda muhimdir. Indekslashni bloklash sizga ikki nusxadagi tarkibni o'z ichiga olgan sahifalarni indekslashni bloklash imkonini beradi - masalan, teg sahifalari, arxivlar, qidiruv natijalari, chop etiladigan versiyalari bo'lgan sahifalar va boshqalar. Ikki nusxadagi kontentning mavjudligi (bir xil matn, hatto bir nechta jumlalar hajmida ham, ikki yoki undan ortiq sahifalarda mavjud bo'lsa) qidiruv tizimi reytingida sayt uchun minus hisoblanadi, shuning uchun iloji boricha kamroq dublikat bo'lishi kerak.

Ruxsat berish direktivasi mustaqil ma'noga ega emas, chunki sukut bo'yicha barcha sahifalar allaqachon indekslash uchun mavjud. U ruxsat bermaslik bilan birgalikda ishlaydi - masalan, ma'lum bir toifa qidiruv tizimlaridan butunlay yopilganda, lekin siz ushbu yoki alohida sahifani ochmoqchi bo'lsangiz.

Saytning asosiy oynasiga ishora qilish ham optimallashtirishning eng muhim elementlaridan biridir: qidiruv tizimlari www.yoursite.ru va yoursite.ru saytlarini ikki xil manba sifatida ko'radi, agar siz ularga to'g'ridan-to'g'ri boshqacha aytmasangiz. Natijada kontentning ikki baravar ko'payishi - dublikatlarning paydo bo'lishi, tashqi havolalar kuchining pasayishi (tashqi havolalar www bilan ham, wwwsiz ham joylashtirilishi mumkin) va natijada bu qidiruv natijalarida pastroq reytingga olib kelishi mumkin.

Google uchun asosiy oyna Webmaster vositalarida (http://www.google.ru/webmasters/) ro'yxatdan o'tgan, ammo Yandex uchun bu ko'rsatmalar faqat bir xil robots.tkht da ro'yxatdan o'tkazilishi mumkin.

Sayt xaritasi (masalan, sitemap.xml) bilan xml fayliga ishora qilish qidiruv tizimlariga ushbu faylni aniqlash imkonini beradi.

User-agentni belgilash qoidalari

Bu holda foydalanuvchi-agent qidiruv tizimidir. Ko'rsatmalarni yozishda siz ular barcha qidiruv tizimlariga tegishli bo'ladimi yoki yo'qligini ko'rsatishingiz kerak (bu holda yulduzcha ko'rsatilgan - *) yoki ular ma'lum bir qidiruv tizimiga mo'ljallanganmi - masalan, Yandex yoki Google.

Barcha robotlarni ko'rsatadigan foydalanuvchi agentini o'rnatish uchun faylingizga quyidagi qatorni yozing:

Foydalanuvchi-agent: *

Yandex uchun:

Foydalanuvchi-agent: Yandex

Google uchun:

Foydalanuvchi-agent: GoogleBot

Ruxsat bermaslik va ruxsat berishni belgilash qoidalari

Birinchidan, shuni ta'kidlash kerakki, robots.txt fayli haqiqiy bo'lishi uchun kamida bitta ruxsat bermaslik direktivasiga ega bo'lishi kerak. Endi aniq misollar yordamida ushbu direktivalarning qo'llanilishini ko'rib chiqamiz.

Ushbu koddan foydalanib, siz saytning barcha sahifalarini indekslashga ruxsat berasiz:

Foydalanuvchi-agent: * Ruxsat bermaslik:

Va bu kod bilan, aksincha, barcha sahifalar yopiladi:

Foydalanuvchi-agent: * Ruxsat bermaslik: /

Jild deb nomlangan ma'lum bir katalogni indekslashni taqiqlash uchun quyidagilarni belgilang:

Foydalanuvchi-agent: * Ruxsat bermaslik: /papka

O'zboshimchalik bilan nomni almashtirish uchun yulduzchalardan ham foydalanishingiz mumkin:

Foydalanuvchi-agent: * Ruxsat bermaslik: *.php

Muhim: yulduzcha butun fayl nomini almashtiradi, ya'ni fayl*.php ni ko'rsata olmaysiz, faqat *.php (lekin .php kengaytmali barcha sahifalar taqiqlanadi, buning oldini olish uchun siz ma'lum bir sahifa manzilini ko'rsatishingiz mumkin) .

Ruxsat berish direktivasi, yuqorida aytib o'tilganidek, taqiqlashda istisnolar yaratish uchun ishlatiladi (aks holda bu ma'noga ega emas, chunki sahifalar sukut bo'yicha allaqachon ochiq).

Masalan, arxiv papkasidagi sahifalarni indekslashni taqiqlaymiz, lekin bu katalogdagi index.html sahifasini ochiq qoldiramiz:

Ruxsat berish: /archive/index.html Ruxsat bermaslik: /arxiv/

Xost va sayt xaritasini belgilang

Xost saytning asosiy ko'zgusidir (ya'ni domen nomi plyus www yoki ushbu prefikssiz domen nomi). Xost faqat Yandex roboti uchun ko'rsatilgan (bu holda kamida bitta taqiqlash buyrug'i bo'lishi kerak).

Xostni belgilash uchun robots.txt quyidagi yozuvni o'z ichiga olishi kerak:

Foydalanuvchi-agent: Yandex taqiqlash: Xost: www.yoursite.ru

Sayt xaritasiga kelsak, robots.txt da sayt xaritasi domen nomini ko'rsatgan holda tegishli faylga to'liq yo'lni yozish orqali ko'rsatiladi:

Sayt xaritasi: http://yoursite.ru/sitemap.xml

WordPress uchun sayt xaritasini qanday qilish haqida yozilgan.

WordPress uchun misol robots.txt

WordPress uchun ko'rsatmalar indekslash uchun barcha texnik kataloglarni (wp-admin, wp-includes va boshqalar), shuningdek teglar, RSS fayllari, sharhlar va qidiruvlar tomonidan yaratilgan ikki nusxadagi sahifalarni yopish uchun ko'rsatilishi kerak.

Wordpress uchun robots.txt ga misol sifatida siz bizning veb-saytimizdan faylni olishingiz mumkin:

Foydalanuvchi-agent: Yandex Ruxsat berish: /wp-admin Ruxsat berish: /wp-includes Ruxsat berish: /wp-login.php Ruxsat berish: /wp-register.php Ruxsat berish: /xmlrpc.php Ruxsat berish: /search Ruxsat berish: */trackback Ruxsat berish: */feed/ Taqiqlash: */feed Ruxsat berish: */comments/ Ruxsat berish: /?feed= Ruxsat berish: /?s= Ruxsat berish: */page/* Ruxsat berish: */comment Ruxsat berish: */tag/* Ruxsat berish: */ ilova/* Ruxsat berish: /wp-content/uploads/ Xost: www..php Ruxsat berish: /wp-register.php Ruxsat berish: /xmlrpc.php Ruxsat berish: /search Ruxsat berish: */trackback Ruxsat berish: */feed/ Ruxsat berish: * /feed Ruxsat berish: */comments/ Ruxsat berish: /?feed= Ruxsat berish: /?s= Ruxsat berish: */page/* Ruxsat berish: */comment Ruxsat berish: */tag/* Ruxsat berish: */ilova/* Ruxsat berish: /wp -content/uploads/ User-agent: * Ruxsat berish: /wp-admin Ruxsat berish: /wp-includes Ruxsat berish: /wp-login.php Ruxsat berish: /wp-register.php Ruxsat berish: /xmlrpc.php Ruxsat berish: /search Ruxsat berish: */trackback Ruxsat berish: */feed/ Taqiqlash: */feed Ruxsat berish: */comments/ Ruxsat berish: /?feed= Ruxsat berish: /?s= Ruxsat berish: */page/* Ruxsat berish: */comment Ruxsat berish: */tag/ * Ruxsat bermaslik: */attachment/* Ruxsat berish: /wp-content/uploads/ Sayt xaritasi: https://www..xml

robots.txt faylini veb-saytimizdan foydalanib yuklab olishingiz mumkin.

Agar ushbu maqolani o'qib chiqqandan so'ng sizda hali ham savollaringiz bo'lsa, sharhlarda so'rang!

Robots.txt fayli— qidiruv robotlarining http serveridagi kontentga kirishini cheklaydigan .txt formatidagi matn fayli. Qanaqasiga ta'rif, Robots.txt- Bu robot istisno standarti, 1994 yil 30 yanvarda W3C tomonidan qabul qilingan va ko'pchilik qidiruv tizimlari ixtiyoriy ravishda foydalanadigan. robots.txt fayli saytdagi ba'zi fayllar, sahifalar yoki kataloglarning indekslanishini oldini olish uchun qidiruv robotlari uchun ko'rsatmalar to'plamidan iborat. Sayt robotlarning saytga kirishini cheklamagan holat uchun robots.txt tavsifini ko'rib chiqamiz.

Oddiy robots.txt misoli:

Foydalanuvchi-agent: * Ruxsat berish: /

Bu erda robotlar butun saytni indekslashga to'liq imkon beradi.

robots.txt fayli saytingizning asosiy katalogiga yuklanishi kerak shuning uchun u quyidagi manzilda mavjud:

Your_site.ru/robots.txt

Robots.txt faylini sayt ildiziga joylashtirish odatda FTP kirishni talab qiladi. Biroq, ba'zi boshqaruv tizimlari (CMS) to'g'ridan-to'g'ri sayt boshqaruv panelidan yoki o'rnatilgan FTP menejeri orqali robots.txt yaratish imkonini beradi.

Agar fayl mavjud bo'lsa, brauzerda robots.txt tarkibini ko'rasiz.

robots.txt nima uchun?

Sayt uchun Roots.txt muhim jihatdir. Nima uchun sizga robots.txt kerak?? Masalan, in SEO robots.txt foydali tarkibga ega bo'lmagan va boshqa ko'p narsalarni o'z ichiga olmaydigan sahifalarni indekslashdan chiqarib tashlash uchun kerak.. Qanday, nima, nima uchun va nima uchun chiqarib tashlanganligi maqolada allaqachon tasvirlangan, biz bu erda bu haqda to'xtalmaymiz. robots.txt fayli kerakmi? barcha saytlarga? Ha va yo'q. Agar robots.txt dan foydalanish sahifalarni qidiruvdan chiqarib tashlashni nazarda tutsa, oddiy tuzilishga ega kichik saytlar va statik sahifalar uchun bunday istisnolar keraksiz bo'lishi mumkin. Biroq, ba'zilari kichik sayt uchun foydali bo'lishi mumkin robots.txt direktivalari, masalan, Xost yoki Sayt xaritasi direktivasi, lekin quyida batafsilroq.

robots.txt faylini qanday yaratish mumkin

Chunki robots.txt matn fayli va to robots.txt faylini yarating, masalan, istalgan matn muharriridan foydalanishingiz mumkin Bloknot. Yangi matnli hujjatni ochganingizdan so'ng, siz allaqachon robots.txt-ni yaratishni boshladingiz, qolgan narsa sizning talablaringizga qarab uning mazmunini yaratish va uni shunday saqlash. txt formatidagi robotlar deb nomlangan matn fayli. Hammasi oddiy va robots.txt faylini yaratish hatto yangi boshlanuvchilar uchun ham muammo tug'dirmasligi kerak. Quyida men sizga robots.txt faylini qanday yaratish va robotlarda nima yozishni misollar yordamida ko'rsataman.

Onlayn robots.txt faylini yarating

Dangasa uchun variant - onlayn robotlar yarating va robots.txt faylini yuklab oling allaqachon tayyor shaklda. Onlayn txt robotlarini yaratish ko'plab xizmatlarni taklif qiladi, tanlov sizniki. Asosiysi, nima taqiqlanishini va nimaga ruxsat berilishini aniq tushunishdir, aks holda robots.txt faylini onlayn yaratish fojiaga aylanishi mumkin, keyinchalik tuzatish qiyin bo'lishi mumkin. Ayniqsa, qidiruv yopilishi kerak bo'lgan narsalarni o'z ichiga olgan bo'lsa. Ehtiyot bo'ling - saytga yuklashdan oldin robot faylingizni tekshiring. Hali moslashtirilgan robots.txt fayli avtomatik ravishda yaratilgan va boshqa saytdan yuklab olinganidan ko'ra cheklovlar tuzilishini aniqroq aks ettiradi. Robots.txt-ni tahrirlashda nimalarga alohida e'tibor berish kerakligini bilish uchun o'qing.

robots.txt tahrirlash

Onlayn yoki o'z qo'llaringiz bilan robots.txt faylini yaratishga muvaffaq bo'lganingizdan so'ng, mumkin robots.txt faylini tahrirlang. Uning mazmunini xohlagancha o'zgartirishingiz mumkin, asosiysi robots.txt ning ba'zi qoidalari va sintaksisiga rioya qilishdir. Saytda ishlayotganda robotlar fayli o'zgarishi mumkin va agar siz robots.txt ni tahrir qilsangiz, saytga barcha o'zgarishlar bilan faylning yangilangan, joriy versiyasini yuklashni unutmang. Keyinchalik, biz bilishimiz uchun faylni o'rnatish qoidalarini ko'rib chiqamiz robots.txt faylini qanday o'zgartirish mumkin va "o'tin chopmang".

robots.txt faylini to'g'ri sozlash

robots.txt faylini to'g'ri sozlash asosiy qidiruv tizimlarining qidiruv natijalariga shaxsiy ma'lumotlarni kiritishdan qochish imkonini beradi. Biroq, buni unutmaslik kerak robots.txt buyruqlari himoya emas, balki harakatlar uchun qo'llanmadan boshqa narsa emas. Yandex yoki Google kabi ishonchli qidiruv tizimlarining robotlari robots.txt ko'rsatmalariga amal qiladi, ammo boshqa robotlar ularni osongina e'tiborsiz qoldirishi mumkin. Robots.txt faylini to'g'ri tushunish va qo'llash natijalarga erishishning kalitidir.

Tushunmoq to'g'ri robotlar txt qanday qilish, avval siz robots.txt faylining umumiy qoidalari, sintaksisi va direktivalarini tushunishingiz kerak.

To'g'ri robots.txt fayli User-agent direktivasi bilan boshlanadi, bu qaysi robotga xos ko'rsatmalarga qaratilganligini ko'rsatadi.

robots.txt-dagi User-agent misollari:

# Bir vaqtning o'zida barcha robotlar uchun direktivalarni ko'rsatadi User-agent: * # Barcha Yandex robotlari uchun direktivalarni ko'rsatadi Foydalanuvchi-agent: Yandex # Faqat asosiy Yandex indekslash roboti uchun direktivalarni ko'rsatadi Foydalanuvchi-agent: YandexBot # Barcha Google robotlari uchun direktivalarni ko'rsatadi Foydalanuvchi -agent: Googlebot

E'tibor bering, bunday robots.txt faylini sozlash robotga faqat foydalanuvchi-agent nomiga mos keladigan direktivalardan foydalanishni aytadi.

User-agent bir necha marta takrorlanadigan robots.txt misoli:

# Barcha Yandex robotlari foydalanadi Foydalanuvchi-agent: Yandex Disallow: /*utm_ # Barcha Google robotlari tomonidan ishlatiladi Foydalanuvchi-agent: Googlebot Disallow: /*utm_ # Yandex robotlari va Google foydalanuvchisidan tashqari barcha robotlar tomonidan qo'llaniladi- agent: * Ruxsat berish: / *utm_

Foydalanuvchi-agent direktivasi faqat ma'lum bir robotga ko'rsatma yaratadi va foydalanuvchi-agent direktivasidan so'ng darhol tanlangan robotning holatini ko'rsatadigan buyruq yoki buyruqlar bo'lishi kerak. Yuqoridagi misolda "/*utm_" qiymatiga ega bo'lgan "Disallow" direktivasi qo'llaniladi. Shunday qilib, biz hamma narsani yopamiz. robots.txt-ni to'g'ri sozlash joriy "Foydalanuvchi-agent" ichida "Ruxsat bermaslik" dan keyin "Foydalanuvchi-agent", "Ruxsat bermaslik" direktivalari va direktivalari o'rtasida bo'sh qatorlar mavjudligini taqiqlaydi.

robots.txt faylida noto'g'ri chiziq tasmasi misoli:

robots.txt faylida to'g'ri chiziq tasmasi misoli:

Foydalanuvchi-agent: Yandex Ruxsat berish: /*utm_ Ruxsat berish: /*id= Foydalanuvchi agenti: * Ruxsat berish: /*utm_ Ruxsat berish: /*id=

Misoldan ko'rinib turibdiki, robots.txt-dagi ko'rsatmalar bloklarda keladi, ularning har birida ma'lum bir robot yoki barcha robotlar uchun ko'rsatmalar mavjud "*".

“Ruxsat bermaslik” va “Ruxsat berish” kabi direktivalardan birgalikda foydalanilganda robots.txt faylida buyruqlarning toʻgʻri tartibi va tartiblanishini taʼminlash ham muhim. "Ruxsat berish" direktivasi ruxsat beruvchi direktivdir va robots.txt "Ruxsat berish" buyrug'iga qarama-qarshi bo'lib, taqiqlovchi direktivadir.

Robots.txt da direktivalarni birgalikda ishlatishga misol:

Foydalanuvchi-agent: * Ruxsat berish: /blog/page Ruxsat bermaslik: /blog

Ushbu misol barcha robotlarga "/blog" bilan boshlangan barcha sahifalarni indekslashdan saqlaydi, lekin "/blog/page" bilan boshlangan barcha sahifalarni indekslash imkonini beradi.

To'g'ri tartiblashda robots.txt ning oldingi misoli:

Foydalanuvchi-agent: * Ruxsat bermaslik: /blog Ruxsat berish: /blog/page

Avval biz butun bo'limni taqiqlaymiz, keyin uning ba'zi qismlariga ruxsat beramiz.

Yana bitta to'g'ri robots.txt misoli qo'shma direktivalar bilan:

Foydalanuvchi-agent: * Ruxsat berish: / Ruxsat berish: /blog Ruxsat berish: /blog/sahifa

Ushbu robots.txt-dagi ko'rsatmalarning to'g'ri ketma-ketligiga e'tibor bering.

"Ruxsat berish" va "Ruxsat berish" direktivalari parametrlarsiz belgilanishi mumkin, bu holda qiymat "/" parametriga teskari talqin qilinadi.

Parametrlarsiz “Ruxsat bermaslik/ruxsat berish” direktivasiga misol:

Foydalanuvchi-agent: * Ruxsat berish: Ruxsat berish uchun # ekvivalenti: / Ruxsat berish: /blog Ruxsat berish: /blog/page

To'g'ri robots.txt faylini qanday yaratish mumkin va direktivalar talqinidan qanday foydalanish sizning tanlovingizdir. Ikkala variant ham to'g'ri bo'ladi. Asosiysi, chalkashmaslik.

Robots.txt faylini to'g'ri tuzish uchun direktiva parametrlarida ustuvorliklarni va robotlar tomonidan yuklab olish taqiqlangan narsalarni aniq ko'rsatish kerak. Biz quyida “Ruxsat bermaslik” va “Ruxsat berish” direktivalaridan foydalanishni toʻliqroq koʻrib chiqamiz, ammo endi biz robots.txt sintaksisini koʻrib chiqamiz. robots.txt sintaksisini bilish sizni yaqinlashtiradi o'z qo'llaringiz bilan mukammal robotlar txt-ni yarating.

Robots.txt sintaksisi

Qidiruv mexanizmi robotlari robots.txt buyruqlarini ixtiyoriy ravishda bajaradi- robot istisnolari uchun standart, lekin hamma qidiruv tizimlari robots.txt sintaksisiga bir xil munosabatda emas. robots.txt fayli qat'iy belgilangan sintaksisga ega, lekin ayni paytda robots txt yozing qiyin emas, chunki uning tuzilishi juda sodda va tushunarli.

Mana oddiy qoidalarning o'ziga xos ro'yxati, undan keyin siz yo'q qilasiz keng tarqalgan robots.txt xatolari:

Har bir direktiv yangi satrdan boshlanadi;
Bir qatorda bir nechta direktivani ko'rsatmang;
Satr boshida bo'sh joy qo'ymang;
Direktiv parametr bir satrda bo'lishi kerak;
Direktiv parametrlarni qo'shtirnoq ichiga olishning hojati yo'q;
Direktiv parametrlar keyingi nuqtali vergulni talab qilmaydi;
robots.txt faylidagi buyruq formatda ko'rsatilgan - [Directive_name]:[ixtiyoriy bo'sh joy][qiymat][ixtiyoriy bo'sh joy];
Robots.txt da # xesh belgisidan keyin izohlarga ruxsat beriladi;
Bo'sh qator uzilishi User-agent direktivasining oxiri sifatida talqin qilinishi mumkin;
"Disallow:" direktivasi (bo'sh qiymat bilan) "Ruxsat berish: /" ga teng - hamma narsaga ruxsat berish;
“Ruxsat berish” va “Ruxsat bermaslik” direktivalari bittadan ortiq parametrni belgilamaydi;
robots.txt faylining nomi katta harflarga ruxsat bermaydi, fayl nomining noto'g'ri yozilishi Robots.txt yoki ROBOTS.TXT;
Direktivlar va parametrlar nomlarini bosh harflar bilan yozish yomon shakl hisoblanadi va robots.txt standartga muvofiq katta-kichik harflarga sezgir bo'lmasa ham, fayl va katalog nomlari ko'pincha katta-kichik harflarga sezgir bo'ladi;
Agar direktiv parametr katalog bo'lsa, u holda katalog nomidan oldin har doim slash "/" qo'yiladi, masalan: Disallow: /category
Juda katta robots.txt (32 KB dan ortiq) toʻliq ruxsat etilgan deb hisoblanadi, bu “Ruxsat bermaslik:”ga teng;
Har qanday sababga ko'ra kirish imkoni bo'lmagan Robots.txt to'liq ruxsat beruvchi deb talqin qilinishi mumkin;
Agar robots.txt bo'sh bo'lsa, u to'liq ruxsat etilgan deb hisoblanadi;
Bir nechta "Foydalanuvchi-agent" direktivalari bo'sh qatorsiz ro'yxatga kiritilishi natijasida birinchisidan tashqari barcha keyingi "Foydalanuvchi-agent" direktivalari e'tiborga olinmasligi mumkin;
Robots.txt faylida milliy alifbodagi har qanday belgilardan foydalanishga ruxsat berilmaydi.

Turli qidiruv tizimlari robots.txt sintaksisini boshqacha talqin qilishi mumkinligi sababli, ba'zi bandlarni o'tkazib yuborish mumkin. Misol uchun, agar siz bo'sh qatorlarsiz bir nechta "Foydalanuvchi-agent" direktivalarini kiritsangiz, barcha "Foydalanuvchi-agent" direktivalari Yandex tomonidan to'g'ri qabul qilinadi, chunki Yandex "Foydalanuvchi-agent" qatorida yozuvlarni ularning mavjudligiga qarab tanlaydi.

Robotlar faqat kerakli narsani ko'rsatishi kerak va ortiqcha narsa yo'q. O'ylamang robots txt-da hamma narsani qanday yozish kerak, nima mumkin va uni qanday to'ldirish kerak. Ideal robotlar txt qatorlari kamroq, lekin koʻproq maʼnoga ega. "Qisqalik - bu aqlning ruhi". Bu ibora bu erda foydali bo'ladi.

robots.txt faylini qanday tekshirish mumkin

Uchun robots.txt faylini tekshiring Faylning sintaksisi va tuzilishining to'g'riligini tekshirish uchun siz onlayn xizmatlardan birini ishlatishingiz mumkin. Misol uchun, Yandex va Google veb-ustalar uchun o'z xizmatlarini taklif qiladi, ular orasida robots.txt tahlili:

Yandex.Webmaster-da robots.txt faylini tekshirish: http://webmaster.yandex.ru/robots.xml

Uchun robots.txt-ni onlayn tekshiring zarur robots.txt faylini ildiz katalogidagi saytga yuklang. Aks holda, xizmat bu haqda xabar berishi mumkin robots.txt faylini yuklab bo'lmadi. Avval robots.txt fayli joylashgan manzilda mavjudligini tekshirish tavsiya etiladi, masalan: your_site.ru/robots.txt.

Yandex va Google-ning tekshirish xizmatlaridan tashqari, boshqa ko'plab onlayn xizmatlar mavjud robots.txt tekshiruvchilari.

Robots.txt - Yandex va Google

Yandex robots.txt-dagi "Foydalanuvchi-agent: Yandex" direktivalarining alohida bloki ko'rsatilishini "Foydalanuvchi-agent: *" bilan umumiy direktivalar blokiga qaraganda ijobiyroq qabul qiladi, degan subyektiv fikr mavjud. Vaziyat robots.txt va Google bilan o'xshash. Yandex va Google uchun alohida direktivalarni belgilash robots.txt orqali saytlarni indekslashni boshqarish imkonini beradi. Ehtimol, ular murojaat bilan shaxsan mamnun bo'lishadi, ayniqsa ko'pchilik saytlar uchun Yandex, Google va boshqa qidiruv tizimlarining robots.txt bloklari mazmuni bir xil bo'ladi. Kamdan-kam istisnolardan tashqari, barcha "Foydalanuvchi-agent" bloklari bo'ladi robots.txt uchun standart direktivalar to'plami. Bundan tashqari, siz turli xil "Foydalanuvchi-agentlar" yordamida o'rnatishingiz mumkin Yandex uchun robots.txt da indekslashni taqiqlash, lekin, masalan, Google uchun emas.

Alohida ta'kidlash joizki, Yandex "Xost" kabi muhim direktivani hisobga oladi va Yandex uchun to'g'ri robots.txt saytning asosiy oynasini ko'rsatish uchun ushbu direktivani o'z ichiga olishi kerak. Quyida biz “Xost” direktivasini batafsil ko‘rib chiqamiz.

Indekslashni o'chirish: robots.txt Ruxsat bermaslik

Disallow - taqiqlovchi ko'rsatma robots.txt faylida tez-tez ishlatiladi. Disallow Disallow direktiv parametrida ko'rsatilgan yo'lga qarab sayt yoki uning bir qismini indekslashni oldini oladi.

robots.txt da saytni indekslashni qanday oldini olish mumkinligiga misol:

Foydalanuvchi-agent: * Ruxsat bermaslik: /

Ushbu misol butun saytni barcha robotlar uchun indekslashni bloklaydi.

Disallow direktivi parametri * va $ maxsus belgilardan foydalanishga imkon beradi:

* - har qanday belgilar soni, masalan, /page* parametri /page, /page1, /page-be-cool, /page/kak-skazat va boshqalarni qondiradi. Biroq, har bir parametr oxirida * belgisini qo'yishning hojati yo'q, chunki masalan, quyidagi ko'rsatmalar bir xil talqin qilinadi:

User-agent: Yandex Disallow: /page User-agent: Yandex Disallow: /page*

$ - istisnoning parametr qiymatiga to'liq mos kelishini ko'rsatadi:

Foydalanuvchi-agent: Googlebot Ruxsat bermaslik: /page$

Bunday holda, Disallow direktivasi /page ga ruxsat bermaydi, lekin /page1, /page-be-cool yoki /page/kak-skazat sahifalarini indekslashni taqiqlamaydi.

Agar robots.txt saytini indekslashni yoping, qidiruv tizimlari bu harakatga “robots.txt faylida bloklangan” yoki “robots.txt tomonidan cheklangan url” xatosi bilan javob berishi mumkin (url robots.txt fayli tomonidan taqiqlangan). Agar kerak bo'lsa sahifani indekslashni o'chirib qo'ying, siz nafaqat robots txt, balki shunga o'xshash HTML teglaridan ham foydalanishingiz mumkin:

- sahifa tarkibini indekslamang;
- sahifadagi havolalarga amal qilmang;
- kontentni indekslash va sahifadagi havolalarga amal qilish taqiqlanadi;
- kontent = "yo'q" ga o'xshash.

Indekslashga ruxsat berish: robots.txt Ruxsat berish

Allow - ruxsat beruvchi direktiv va Disallow direktivasiga qarama-qarshi. Ushbu ko'rsatma "Dallow" ga o'xshash sintaksisga ega.

robots.txt-dagi ba'zi sahifalardan tashqari saytni indekslashni qanday taqiqlash misoli:

Foydalanuvchi-agent: * Ruxsat bermaslik: /Ruxsat berish: /sahifa

Butun saytni indekslash taqiqlanadi, /page bilan boshlangan sahifalar bundan mustasno.

Bo'sh parametr qiymati bilan ruxsat berish va ruxsat berish

Empty Disallow direktivasi:

Foydalanuvchi-agent: * Ruxsat bermaslik:

Hech narsani taqiqlamang yoki butun saytni indekslashga ruxsat bermang va quyidagilarga teng:

Foydalanuvchi-agent: * Ruxsat berish: /

Empty Allow direktivasi:

Foydalanuvchi-agent: * Ruxsat bering:

Hech narsaga ruxsat berish yoki saytni indekslashni butunlay taqiqlash quyidagilarga teng:

Foydalanuvchi-agent: * Ruxsat bermaslik: /

Asosiy veb-sayt oynasi: robots.txt xost

Host direktivasi Yandex robotiga saytingizning asosiy oynasini ko'rsatish uchun ishlatiladi. Barcha mashhur qidiruv tizimlaridan direktiv Xost faqat Yandex robotlari tomonidan tan olinadi. Agar sizning saytingizga bir nechta kanallar orqali kirish mumkin bo'lsa, Xost direktivasi foydalidir, masalan:

Mysite.ru mysite.com

Yoki ustuvorlikni aniqlash uchun:

Mysite.ru www.mysite.ru

Siz Yandex robotiga qaysi oyna asosiy ekanligini ayta olasiz. Xost direktivasi "Foydalanuvchi-agent: Yandex" direktivasi blokida ko'rsatilgan va parametr sifatida "http://"siz afzal qilingan sayt manzili ko'rsatilgan.

Asosiy oynani ko'rsatuvchi robots.txt misoli:

Foydalanuvchi-agent: Yandex taqiqlash: /sahifa Xost: mysite.ru

Asosiy oyna sifatida www ko'rsatilmagan mysite.ru domen nomi ko'rsatilgan. Shunday qilib, ushbu turdagi manzil qidiruv natijalarida ko'rsatiladi.

Foydalanuvchi-agent: Yandex taqiqlash: /sahifa Xost: www.mysite.ru

www.mysite.ru domen nomi asosiy oyna sifatida ko'rsatilgan.

robots.txt faylida xost direktivasi faqat bir marta ishlatilishi mumkin, lekin agar Xost direktivasi bir necha marta ko'rsatilgan bo'lsa, faqat birinchisi hisobga olinadi, boshqa Xost direktivalari e'tiborga olinmaydi.

Agar siz Googlebot uchun asosiy oynani belgilamoqchi bo'lsangiz, Google Webmaster Tools xizmatidan foydalaning.

Sayt xaritasi: robots.txt sayt xaritasi

Sayt xaritasi direktivasidan foydalanib, robots.txt-da saytdagi manzilni belgilashingiz mumkin.

Sayt xaritasi manzilini ko'rsatuvchi robots.txt misoli:

Foydalanuvchi-agent: * Ruxsat bermaslik: /sahifa Sayt xaritasi: http://www.mysite.ru/sitemap.xml

orqali sayt xaritasi manzilini belgilash robots.txt-dagi sayt xaritasi direktivasi qidiruv robotiga sayt xaritasi mavjudligi haqida bilish va uni indekslashni boshlash imkonini beradi.

Clean-param direktivasi

Clean-param direktivasi dinamik parametrlarga ega sahifalarni indekslashdan chiqarib tashlash imkonini beradi. O'xshash sahifalar bir xil tarkibga xizmat qilishi mumkin, ammo sahifaning URL manzillari turlicha bo'lishi mumkin. Oddiy qilib aytganda, sahifaga turli manzillarda kirish mumkin. Bizning vazifamiz million bo'lishi mumkin bo'lgan barcha keraksiz dinamik manzillarni olib tashlashdir. Buning uchun biz barcha dinamik parametrlarni istisno qilamiz, robots.txt-dagi Clean-param direktivasidan foydalanish.

Clean-param direktivasi sintaksisi:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Yo'l]

Keling, quyidagi URL manzilli sahifa misolini ko'rib chiqaylik:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Misol robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # faqat page.html uchun

Clean-param: parm1&parm2&parm3 / # hamma uchun

Tekshirishni kechiktirish direktivasi

Ushbu ko'rsatma, agar robotlar saytingizga tez-tez tashrif buyursa, serverdagi yukni kamaytirishga imkon beradi. Ushbu ko'rsatma, asosan, katta hajmdagi sahifalarga ega saytlar uchun tegishli.

Misol robots.txt skanerlash kechikishi:

Foydalanuvchi-agent: Yandex taqiqlash: /sahifa Ko'rish-kechikish: 3

Bunday holda, biz Yandex robotlaridan saytimiz sahifalarini har uch soniyada bir martadan ko'p bo'lmagan holda yuklab olishni "so'raymiz". Ba'zi qidiruv tizimlari kasr sonlar formatini parametr sifatida qo'llab-quvvatlaydi Crawl-delay robots.txt direktivalari.

Sitemap.xml fayli va sayt uchun to'g'ri robots.txt - bu qidiruv robotlari tomonidan veb-resursning barcha kerakli sahifalarini tez va to'liq indekslashga hissa qo'shadigan ikkita majburiy hujjat. Yandex va Google-da saytlarni to'g'ri indekslash qidiruv tizimlarida blogni muvaffaqiyatli targ'ib qilishning kalitidir.

XML formatida sayt xaritasini qanday qilish kerakligini va nima uchun kerakligini allaqachon yozganman. Endi keling, WordPress sayti uchun to'g'ri robots.txt faylini qanday yaratish va umuman nima uchun kerakligi haqida gapiraylik. Ushbu fayl haqida batafsil ma'lumotni mos ravishda Yandex va Google'ning o'zidan olish mumkin. Men asosiyga o'taman va misol sifatida mening faylimdan foydalanib WordPress uchun asosiy robots.txt sozlamalariga tegaman.

Nima uchun veb-sayt uchun robots.txt fayli kerak?

robots.txt standarti 1994 yil yanvar oyida paydo bo'lgan. Veb-resursni skanerlashda qidiruv robotlari birinchi navbatda sayt yoki blogning ildiz papkasida joylashgan robots.txt matn faylini qidiradi. Uning yordami bilan biz turli xil qidiruv tizimlarining robotlari uchun saytni indekslaydigan ma'lum qoidalarni belgilashimiz mumkin.

Robots.txt faylini to'g'ri sozlash sizga quyidagilarga imkon beradi:

dublikatlarni va turli keraksiz sahifalarni indeksdan chiqarib tashlash;
biz yashirmoqchi bo'lgan sahifalar, fayllar va papkalarni indekslashni taqiqlash;
odatda ba'zi qidiruv robotlariga indekslashni rad etish (masalan, Yahoo, raqobatchilardan kiruvchi havolalar haqidagi ma'lumotlarni yashirish uchun);
saytning asosiy oynasini ko'rsating (www bilan yoki wwwsiz);
sitemap.xml sayt xaritasiga yo'lni belgilang.

Sayt uchun to'g'ri robots.txt faylini qanday yaratish mumkin

Buning uchun maxsus generatorlar va plaginlar mavjud, ammo buni qo'lda qilish yaxshiroqdir.

Siz shunchaki har qanday matn muharriri (masalan, Notepad yoki Notepad++) yordamida robots.txt nomli oddiy matn faylini yaratishingiz va uni blogingizning asosiy papkasida joylashgan hostingingizga yuklashingiz kifoya. Ushbu faylda ma'lum direktivalar yozilishi kerak, ya'ni. Yandex, Google va boshqalar robotlari uchun indekslash qoidalari.

Agar siz bu bilan bezovtalanishga dangasa bo'lsangiz, quyida men o'z nuqtai nazarimdan, blogimdan WordPress uchun to'g'ri robots.txt-ga misol keltiraman. Domen nomini uchta joyda almashtirish orqali foydalanishingiz mumkin.

Robots.txt yaratish qoidalari va direktivalari

Blogni qidiruv tizimini muvaffaqiyatli optimallashtirish uchun siz robots.txt faylini yaratish qoidalarini bilishingiz kerak:

Robots.txt faylining yo'qligi yoki bo'shligi qidiruv tizimlariga veb-resursning barcha mazmunini indekslashiga ruxsat berilganligini anglatadi.
robots.txt saytingiz sayt.ru/robots.txt manzilida ochilishi kerak, robotga 200 OK javob kodini beradi va hajmi 32 KB dan oshmasligi kerak. Ochilmaydigan fayl (masalan, 404 xatosi tufayli) yoki kattaroq fayl yaxshi deb hisoblanadi.
Fayldagi direktivalar soni 1024 dan oshmasligi kerak. Bitta qatorning uzunligi 1024 belgidan oshmasligi kerak.
Yaroqli robots.txt fayli bir nechta bayonotga ega bo'lishi mumkin, ularning har biri User-agent direktivasi bilan boshlanishi va kamida bitta ruxsat berish direktivasiga ega bo'lishi kerak. Odatda ular Google va boshqa barcha robotlar va Yandex uchun alohida-alohida robots.txt da ko'rsatmalar yozadilar.

Asosiy robots.txt direktivalari:

Foydalanuvchi-agent - ko'rsatma qaysi qidiruv robotiga qaratilganligini ko'rsatadi.

“*” belgisi bu barcha robotlarga tegishli ekanligini bildiradi, masalan:

Foydalanuvchi-agent: *

Agar biz Yandex uchun robots.txt-da qoida yaratishimiz kerak bo'lsa, biz yozamiz:

Foydalanuvchi-agent: Yandex

Agar ma'lum bir robot uchun direktiv belgilangan bo'lsa, User-agent: * direktivasi u tomonidan hisobga olinmaydi.

Ruxsat berish va ruxsat berish - mos ravishda robotlarga ko'rsatilgan sahifalarni indekslashni taqiqlash va ruxsat berish. Barcha manzillar saytning ildizidan ko'rsatilishi kerak, ya'ni. uchinchi chiziqdan boshlab. Masalan:

Barcha robotlarga butun saytni indekslashni taqiqlash:
Foydalanuvchi-agent: *
Ruxsat bermaslik: /
Yandex-ga /wp-admin bilan boshlangan barcha sahifalarni indekslash taqiqlangan:
Foydalanuvchi-agent: Yandex
Ruxsat bermaslik: /wp-admin
Bo'sh Disallow direktivasi hamma narsani indekslash imkonini beradi va Ruxsat berish ga o'xshaydi. Masalan, men Yandex-ga butun saytni indekslashiga ruxsat beraman:
Foydalanuvchi-agent: Yandex
Ruxsat bermaslik:
Va aksincha, men barcha qidiruv robotlariga barcha sahifalarni indekslashni taqiqlayman:
Foydalanuvchi-agent: *
Ruxsat bering:
Xuddi shu User-agent blokidagi ruxsat berish va taqiqlash ko'rsatmalari URL prefiks uzunligi bo'yicha saralanadi va ketma-ket bajariladi. Agar saytning bir sahifasi uchun bir nechta direktivalar mos bo'lsa, ro'yxatdagi oxirgisi bajariladi. Endi robot direktivlardan foydalanganda ularni yozish tartibi muhim emas. Agar direktivada bir xil uzunlikdagi prefikslar bo'lsa, birinchi navbatda Allow bajariladi. Ushbu qoidalar 2012 yil 8 martdan kuchga kirdi. Masalan, u faqat /wp-includes bilan boshlanadigan sahifalarni indekslash imkonini beradi:
Foydalanuvchi-agent: Yandex
Ruxsat bermaslik: /
Ruxsat bering: /wp-includes

Sayt xaritasi - XML sayt xaritasi manzilini belgilaydi. Bitta sayt bir nechta Sayt xaritasi ko'rsatmalariga ega bo'lishi mumkin, ularni joylashtirish mumkin. Saytni indekslashni tezlashtirish uchun barcha Sayt xaritasi fayl manzillari robots.txt da ko'rsatilishi kerak:

Sayt xaritasi: http://site/sitemap.xml.gz
Sayt xaritasi: http://site/sitemap.xml

Xost - oyna robotiga qaysi veb-sayt oynasi asosiysini ko'rib chiqish kerakligini aytadi.

Agar saytga bir nechta manzilda kirish mumkin bo'lsa (masalan, www bilan va wwwsiz), bu filtr tomonidan ushlanishi mumkin bo'lgan to'liq dublikat sahifalarni yaratadi. Bundan tashqari, bu holda, bu indekslangan asosiy sahifa bo'lmasligi mumkin, lekin asosiy sahifa, aksincha, qidiruv tizimi indeksidan chiqarib tashlanadi. Buning oldini olish uchun robots.txt faylida faqat Yandex uchun mo'ljallangan va faqat bitta bo'lishi mumkin bo'lgan Xost direktivasidan foydalaning. U Disallow and Allow dan keyin yoziladi va quyidagicha ko'rinadi:

Xost: veb-sayt

Crawl-delay - sahifalarni yuklab olish o'rtasidagi kechikishni soniyalarda o'rnatadi. Og'ir yuk bo'lsa va server so'rovlarni qayta ishlashga ulgurmasa ishlatiladi. Yosh saytlarda Crawl-delay direktivasidan foydalanmaslik yaxshiroqdir. Bu shunday yozilgan:

Foydalanuvchi-agent: Yandex
Tekshirish kechikishi: 4

Clean-param - faqat Yandex tomonidan qo'llab-quvvatlanadi va o'zgaruvchilar bilan ikki nusxadagi sahifalarni yo'q qilish, ularni bittaga birlashtirish uchun ishlatiladi. Shunday qilib, Yandex roboti shunga o'xshash sahifalarni ko'p marta yuklab olmaydi, masalan, havolalar bilan bog'liq. Men bu direktivani hali ishlatmadim, lekin Yandex uchun robots.txt-dagi yordamda maqolaning boshidagi havolaga o'ting, siz ushbu direktivani batafsil o'qishingiz mumkin.

Maxsus belgilar * va $ robots.txt da "Ruxsat bermaslik" va "Ruxsat berish" direktivalari yo'llarini ko'rsatish uchun ishlatiladi:

Maxsus belgi "*" har qanday belgilar ketma-ketligini bildiradi. Misol uchun, Disallow: /*?* bu belgidan oldin va keyin qaysi belgilar kelishidan qat'iy nazar, manzilda “?” ko'rsatilgan har qanday sahifalarni taqiqlashni anglatadi. Odatiy bo'lib, "*" maxsus belgisi har bir qoidaning oxiriga qo'shiladi, hatto u aniq ko'rsatilmagan bo'lsa ham.
"$" belgisi qoida oxiridagi "*" belgisini bekor qiladi va qat'iy muvofiqlikni bildiradi. Masalan, Disallow: /*?$ direktivasi “?” belgisi bilan tugaydigan sahifalarni indekslashni taqiqlaydi.

WordPress uchun misol robots.txt

WordPress dvigatelidagi blog uchun mening robots.txt faylimga misol:

User-agent: * Ruxsat berish: /cgi-bin Ruxsat berish: /wp-admin Ruxsat berish: /wp-includes Ruxsat berish: /wp-content/plugins Ruxsat berish: /wp-content/cache Ruxsat berish: /wp-content/themes Ruxsat bermaslik: / trackback Ruxsat berish: */trackback Ruxsat berish: */*/trackback Ruxsat berish: /feed/ Ruxsat berish: */*/feed/*/ Ruxsat berish: */feed Ruxsat berish: /*?* Ruxsat berish: /?s= Foydalanuvchi-agent: Yandex Ruxsat berish: /cgi-bin Ruxsat berish: /wp-admin Ruxsat berish: /wp-includes Ruxsat berish: /wp-content/plugins Ruxsat berish: /wp-content/cache Ruxsat berish: /wp-content/themes Ruxsat berish: /trackback Ruxsat berish: */ trackback Ruxsat berish: */*/trackback Ruxsat berish: /feed/ Ruxsat berish: */*/feed/*/ Ruxsat berish: */feed Ruxsat berish: /*?* Ruxsat berish: /?.ru/sitemap.xml..xml

WordPress uchun to'g'ri robots.txt yaratish bilan o'zingizni aldamaslik uchun ushbu fayldan foydalanishingiz mumkin. Indekslashda hech qanday muammo yo'q. Menda nusxa ko'chirishdan himoya qilish skripti bor, shuning uchun tayyor robots.txt faylini yuklab olish va uni hostingingizga yuklash qulayroq bo'ladi. Xost va Sayt xaritasi ko'rsatmalarida mening saytim nomini sizniki bilan almashtirishni unutmang.

WordPress uchun robots.txt faylini to'g'ri sozlash uchun foydali qo'shimchalar

Agar daraxt sharhlari WordPress blogingizga o'rnatilgan bo'lsa, ular ?replytocom= shaklidagi dublikat sahifalarni yaratadilar. robots.txt da bunday sahifalar Disallow: /*?* direktivasi bilan yopiladi. Ammo bu yechim emas va taqiqlarni olib tashlash va replytocom bilan boshqa yo'l bilan kurashish yaxshiroqdir. Nima, .

Shunday qilib, joriy robots.txt 2014 yil iyul holatiga ko'ra quyidagicha ko'rinadi:

User-agent: * Ruxsat berish: /wp-includes Ruxsat berish: /wp-feed Ruxsat berish: /wp-content/plugins Ruxsat berish: /wp-content/cache Ruxsat berish: /wp-content/themes Foydalanuvchi agenti: Yandex Ruxsat berish: /wp -o'z ichiga oladi Ruxsat berish: /wp-feed Ruxsat berish: /wp-content/plugins Ruxsat berish: /wp-content/cache Ruxsat berish: /wp-content/themes Xost: site.ru Foydalanuvchi-agent: Googlebot-Image Ruxsat berish: /wp-content /uploads/ User-agent: YandexImages Ruxsat: /wp-content/uploads/ Sayt xaritasi: http://site.ru/sitemap.xml

U qo'shimcha ravishda tasvirni indekslash robotlari uchun qoidalarni belgilaydi.

Foydalanuvchi-agent: Mediapartners-Google
Ruxsat bermaslik:

Agar siz toifa yoki teg sahifalarini targ'ib qilishni rejalashtirmoqchi bo'lsangiz, ularni robotlarga ochishingiz kerak. Misol uchun, blog veb-saytida toifalar indeksatsiyadan yopilmaydi, chunki ular faqat maqolalarning kichik e'lonlarini nashr etadilar, bu kontentni takrorlash nuqtai nazaridan juda ahamiyatsiz. Va agar siz noyob e'lonlar bilan to'ldirilgan blog tasmasida tirnoqlarni ko'rsatishdan foydalansangiz, unda hech qanday takrorlash bo'lmaydi.

Yuqoridagi plagindan foydalanmasangiz, robots.txt faylida teglar, toifalar va arxivlarni indekslashni taqiqlashni belgilashingiz mumkin. Masalan, quyidagi qatorlarni qo'shish:

Ruxsat bermaslik: /muallif/
Ruxsat bermaslik: / teg
Ruxsat bermaslik: /category/*/*
Ruxsat bermaslik: /20*

Yandex.Webmaster panelida robots.txt faylini tekshirishni unutmang va keyin uni xostingingizga qayta yuklang.

Agar sizda robots.txt ni sozlash uchun qo'shimchalaringiz bo'lsa, bu haqda sharhlarda yozing. Endi bu nima va sayt uchun to'g'ri robots.txt faylini qanday yaratish, robots.txt faylida indekslashni qanday taqiqlash va xatolarni tuzatish haqida videoni tomosha qiling.