Robots txt dosyasına neler dahil edilmeli? Robots txt dosyasının kurulumuna ilişkin öneriler. Tüm dosyaları listele

Robots.txt, arama motorları için web belgelerinin içeriğine erişimi kısıtlamaya yönelik öneri görevi gören bir hizmet dosyasıdır. Bu makalede Robots.txt'yi kurmaya, yönergeleri açıklamaya ve onu popüler CMS'ler için oluşturmaya bakacağız.

Bu Robot dosyası sitenizin kök dizininde bulunur ve basit bir not defteri ile açılabilir/düzenlenebilir, Notepad++'ı öneririm. Okumayı sevmeyenler için VİDEO var, yazının sonuna bakınız 😉

Robots.txt'ye neden ihtiyacımız var?

Yukarıda da söylediğim gibi robots.txt dosyasını kullanarak arama botlarının dokümanlara erişimini sınırlandırabiliriz. sitenin indekslenmesini doğrudan etkiliyoruz. Çoğu zaman indekslemeleri engellenir:

Hizmet dosyaları ve CMS klasörleri
Kopyalar
Kullanıcıya faydası olmayan belgeler
Benzersiz sayfalar değil

Belirli bir örneğe bakalım:

Ayakkabı satan bir çevrimiçi mağaza, popüler CMS'lerden birinde uygulanıyor ve en iyi şekilde değil. Arama sonuçlarının arama sayfalarını, sayfalandırmayı, alışveriş sepetini, bazı motor dosyalarını vb. içereceğini hemen söyleyebilirim. Bunların tümü, kullanıcıya faydası olmayan kopyalar ve hizmet dosyaları olacaktır. Bu nedenle indekslenmeye kapatılmalı, ayrıca rakip sitelerden çeşitli ilginç yazıların kopyalanıp yapıştırıldığı bir “Haberler” bölümü varsa, o zaman düşünmeye gerek yok, hemen kapatıyoruz.

Bu nedenle sonuçlara çöp girmemesi için bir robots.txt dosyası oluşturduğumuzdan emin oluyoruz. Dosyanın http://site.ru/robots.txt adresinden açılması gerektiğini unutmayın.

Robots.txt yönergeleri ve yapılandırma kuralları

Kullanıcı aracısı. Bu, belirli bir arama motoru robotuna veya tüm robotlara yönelik bir çağrıdır. Belirli bir robot adı belirtilirse, örneğin "YandexMedia", bunun için genel kullanıcı aracısı direktifleri kullanılmaz. Örnek yazma:

Kullanıcı aracısı: YandexBot Disallow: /cart # yalnızca ana Yandex indeksleme robotu tarafından kullanılacaktır

İzin Verme/İzin Ver. Bu, belirli bir belgenin veya bölümün indekslenmesine yönelik bir yasak/izindir. Yazım sırası önemli değil ancak 2 direktif ve aynı ön ek varsa “İzin Ver” öncelikli olur. Arama robotu bunları ön ekin uzunluğuna göre küçükten büyüğe doğru okur. Bir sayfanın indekslenmesini devre dışı bırakmanız gerekiyorsa, ilgili yolu girmeniz yeterlidir (İzin Verme: /blog/post-1).

Kullanıcı aracısı: Yandex İzin Verme: / İzin Ver: /articles # 1 bölüm makaleleri dışında sitenin indekslenmesini yasaklıyoruz

* ve $ ile normal ifadeler. Yıldız işareti herhangi bir karakter dizisi anlamına gelir (boş olanlar dahil). Dolar işareti kesinti anlamına gelir. Kullanım örnekleri:

İzin verme: /page* # tüm sayfaları, yapıları yasaklar http://site.ru/page İzin verme: /arcticles$ # yalnızca http://site.ru/articles sayfasını yasaklar, http://site.ru/ sayfalarına izin verir makaleler /yeni

Site haritası direktifi. Kullanırsanız robots.txt dosyasında şu şekilde belirtilmelidir:

Site haritası: http://site.ru/sitemap.xml

Ana bilgisayar direktifi. Bildiğiniz gibi sitelerin aynaları var (okuyoruz). Bu kural, arama botunu kaynağınızın ana aynasına yönlendirir. Yandex'i ifade eder. WWW'siz bir aynanız varsa şunu yazın:

Ana bilgisayar: site.ru

Tarama gecikmesi. Botun belgelerinizi indirmesi arasındaki gecikmeyi (saniye cinsinden) ayarlar. Disallow/Allow direktiflerinden sonra yazılır.

Tarama gecikmesi: 5 saniyede 5 # zaman aşımı

Temiz parametre. Arama botuna, ek yinelenen bilgilerin (oturum tanımlayıcıları, yönlendirenler, kullanıcılar) indirilmesine gerek olmadığını belirtir. Dinamik sayfalar için temiz parametre belirtilmelidir:

Clean-param: ref /category/books # sayfamızın ana sayfa olduğunu ve http://site.ru/category/books?ref=yandex.ru&id=1 aynı sayfa olduğunu ancak parametrelerle belirtiriz

Ana kural: robots.txt küçük harfle yazılmalı ve sitenin kök dizininde yer almalıdır. Örnek dosya yapısı:

Kullanıcı aracısı: Yandex İzin Verme: /cart İzin Ver: /cart/images Site Haritası: http://site.ru/sitemap.xml Ana Bilgisayar: site.ru Tarama gecikmesi: 2

Meta robots etiketi ve nasıl yazıldığı

Sayfaları yasaklamaya yönelik bu seçenek, Google arama motoru tarafından daha iyi dikkate alınır. Yandex her iki seçeneği de eşit derecede iyi değerlendiriyor.

2 direktifi vardır: takip et/takip etme Ve dizin/noindeks. Bu, aşağıdaki bağlantılara izin/yasaklanma ve belge indeksleme izni/yasağıdır. Direktifler birlikte yazılabilir, aşağıdaki örneğe bakın.

Herhangi bir sayfa için etikete yazabilirsiniz takip etme:

Popüler CMS için robots.txt dosyalarını düzeltin

WordPress için Örnek Robots.txt

Aşağıda bu SEO blogundan versiyonumu görebilirsiniz.

Kullanıcı aracısı: Yandex İzin Verme: /wp-content/uploads/ İzin Ver: /wp-content/uploads/*/*/ İzin Verme: /wp-login.php İzin Verme: /wp-register.php İzin Verme: /xmlrpc.php İzin Verme : /template.html İzin Verme: /cgi-bin İzin Verme: /wp-admin İzin Verme: /wp-includes İzin Verme: /wp-content/plugins İzin Verme: /wp-content/cache İzin Verme: /wp-content/themes İzin Verme: / wp-trackback İzin verme: /wp-feed İzin verme: /wp-comments İzin verme: */trackback İzin verme: */feed İzin verme: */comments İzin verme: /tag İzin verme: /archive İzin verme: */trackback/ İzin verme: */feed/ İzin verme: */comments/ İzin verme: /?feed= İzin verme: /?.php İzin verme: /wp-register.php İzin verme: /xmlrpc.php İzin verme: /template.html İzin verme: /cgi-bin İzin verme: /wp-admin İzin verme: /wp-includes İzin verme: /wp-content/plugins İzin verme: /wp-content/cache İzin verme: /wp-content/themes İzin verme: /wp-trackback İzin verme: /wp-feed İzin verme: /wp-comments İzin verme: */trackback İzin verme: */feed İzin verme: */yorumlar İzin verme: /tag İzin verme: /arşiv İzin verme: */trackback/ İzin verme: */feed/ İzin verme: */comments/ İzin verme: /?feed= İzin verme: /?. xml

Geri izlemeyi yasaklıyorum çünkü yorumlardaki makalenin bir kısmını kopyalıyor. Ve eğer çok sayıda geri izleme varsa, bir sürü aynı yorum alacaksınız.

Herhangi bir CMS'nin hizmet klasörlerini ve dosyalarını kapatmaya çalışıyorum çünkü... Dizine dahil edilmelerini istemiyorum (her ne kadar arama motorları onları zaten almıyor olsa da, daha da kötüsü olmayacak).

Feed'ler kapatılmalı çünkü Bunlar kısmen veya tamamen kopya sayfalardır.

Kullanmazsak veya optimize edemeyecek kadar tembel olursak etiketleri kapatırız.

Diğer CMS örnekleri

İstediğiniz CMS için doğru robotları indirmek için uygun bağlantıya tıklamanız yeterlidir.

Merhaba, “Web Yöneticisinin Dünyası” blogunun sevgili okuyucuları!

Dosya robots.txt– bu, sitenizin indekslenme kalitesini ve dolayısıyla arama motoru tanıtımını doğrudan etkileyen çok önemli bir dosyadır.

Bu nedenle, İnternet projesinin önemli belgelerinin yanlışlıkla dizine dahil edilmesini engellememek için robots.txt dosyasını doğru şekilde biçimlendirebilmeniz gerekir.

Robots.txt dosyasının nasıl formatlanacağı, hangi sözdiziminin kullanılması gerektiği, dokümanların indekslenmesine nasıl izin verileceği ve reddedileceği bu yazıda ele alınacaktır.

robots.txt dosyası hakkında

Öncelikle bunun ne tür bir dosya olduğunu daha ayrıntılı olarak öğrenelim.

Dosya robotları arama motorlarına bir sitedeki hangi sayfa ve dokümanların indekse eklenebileceğini, hangilerinin eklenemeyeceğini gösteren dosyadır. Bu gereklidir çünkü başlangıçta arama motorları sitenin tamamını dizine eklemeye çalışır ve bu her zaman doğru değildir. Örneğin, bir motorda (WordPress, Joomla vb.) bir site oluşturuyorsanız, yönetim panelinin çalışmasını düzenleyen klasörleriniz olacaktır. Bu klasörlerdeki bilgilerin indekslenemeyeceği açıktır, bu durumda arama motorlarına erişimi kısıtlayan robots.txt dosyası kullanılır.

Robots.txt dosyası aynı zamanda site haritasının adresini (arama motorları tarafından indekslemeyi iyileştirir) ve sitenin ana alanını (ana ayna) içerir.

Ayna– bu sitenin tam bir kopyasıdır, ör. bir site olduğunda, birinin ana alan, diğerinin ise onun aynası olduğunu söylerler.

Bu nedenle, dosyanın oldukça fazla işlevi vardır ve bunların arasında önemli olanlar da vardır!

Robots.txt dosyasının söz dizimi

Robots dosyası, belirli bir arama motoruna neyin indekslenip neyin indekslenemeyeceğini söyleyen kural bloklarını içerir. Tek bir kural bloğu olabilir (tüm arama motorları için), ancak birkaç tane de olabilir - bazı belirli arama motorları için ayrı ayrı.

Bu tür blokların her biri, bu kuralların hangi arama motoruna uygulanacağını belirten bir "Kullanıcı Aracısı" operatörüyle başlar.

Kullanıcı-Ajan:A
(“A” robotunun kuralları)

Kullanıcı-Ajan:B
(“B” robotunun kuralları)

Yukarıdaki örnek, "Kullanıcı Aracısı" operatörünün bir parametreye sahip olduğunu göstermektedir - kuralların uygulandığı arama motoru robotunun adı. Aşağıda ana olanları belirteceğim:

“Kullanıcı Aracısı”ndan sonra başka operatörler de var. İşte onların açıklaması:

Tüm operatörler aynı sözdizimine sahiptir. Onlar. operatörler şu şekilde kullanılmalıdır:

Operatör1: parametre1

Operatör2: parametre2

…

Böylece önce operatörün adını yazıyoruz (büyük veya küçük harf fark etmez), sonra iki nokta üst üste koyuyoruz ve boşlukla ayırarak bu operatörün parametresini belirtiyoruz. Daha sonra yeni bir satırdan başlayarak ikinci operatörü de aynı şekilde tanımlıyoruz.

Önemli!!! Boş bir satır, bu arama motoruna ilişkin kural bloğunun tamamlandığı anlamına gelir; bu nedenle ifadeleri boş bir satırla ayırmayın.

Örnek robots.txt dosyası

Sözdiziminin özelliklerini daha iyi anlamak için robots.txt dosyasının basit bir örneğine bakalım:

Kullanıcı aracısı: Yandex
İzin ver: /klasör1/
İzin verme: /file1.html
Ana bilgisayar: www.site.ru

Kullanıcı aracısı: *
İzin verme: /document.php
İzin verme: /klasörxxx/
İzin verme: /folderyyy/folderzzz
İzin verme: /feed/

Site haritası: http://www.site.ru/sitemap.xml

Şimdi anlatılan örneğe bakalım.

Dosya üç bloktan oluşur: birincisi Yandex için, ikincisi tüm arama motorları için ve üçüncüsü site haritası adresini içerir (tüm arama motorları için otomatik olarak uygulanır, dolayısıyla “Kullanıcı Aracısı” belirtmenize gerek yoktur). Yandex'in “klasör1” klasörünü ve tüm içeriğini indekslemesine izin verdik, ancak barındırmada kök dizinde bulunan “dosya1.html” belgesini indekslemesini yasakladık. Sitenin ana alan adını da Yandex'e belirttik. İkinci blok tüm arama motorları içindir. Orada "document.php" belgesinin yanı sıra "folderxxx", "folderyyy/folderzzz" ve "feed" klasörlerini de yasakladık.

Dizine yönelik ikinci komut bloğunda “folderyyy” klasörünün tamamını değil, yalnızca bu klasörün içindeki klasörü – “folderzzz” yasakladığımızı lütfen unutmayın. Onlar. "folderzzz" için tam yolu sağladık. Sitenin kök dizininde değil de diğer klasörlerin içinde bulunan bir belgeyi yasaklıyorsak, bu her zaman yapılmalıdır.

Oluşturulması iki dakikadan az sürecektir:

Oluşturulan robots dosyasının işlevselliği Yandex web yöneticisi panelinde kontrol edilebilir. Dosyada aniden hatalar bulunursa Yandex bunu gösterecektir.

Henüz yapmadıysanız siteniz için bir robots.txt dosyası oluşturduğunuzdan emin olun. Bu sitenizin arama motorlarında gelişmesine yardımcı olacaktır. Meta tag ve .htaccess yöntemiyle ilgili diğer yazımızı da okuyabilirsiniz.

Bu sayfada hızlı gezinme:

Modern gerçek şu ki, RuNet'te kendine saygısı olan tek bir site bile robots.txt adlı bir dosya olmadan yapamaz - indekslemeyi yasaklayacak hiçbir şeyiniz olmasa bile (neredeyse her sitede indekslemeden kapatılmasını gerektiren teknik sayfalar ve yinelenen içerik bulunur) ), o zaman En azından Yandex için www ile ve www olmadan bir yönerge kaydetmek kesinlikle faydalı olacaktır - aşağıda tartışılacak olan robots.txt yazma kuralları bunun içindir.

robots.txt nedir?

Bu ada sahip bir dosyanın tarihi, W3C konsorsiyumunun sitelerin arama motorlarına indeksleme talimatları sunabilmesi için böyle bir standart uygulamaya karar verdiği 1994 yılına kadar uzanıyor.

Bu isimde bir dosya sitenin kök dizinine kaydedilmelidir; başka klasörlere yerleştirilmesine izin verilmez.

Dosya aşağıdaki işlevleri yerine getirir:

herhangi bir sayfanın veya sayfa grubunun dizine eklenmesini yasaklar
herhangi bir sayfanın veya sayfa grubunun indekslenmesine izin verir
Yandex robotuna hangi site aynasının ana site olduğunu belirtir (www ile veya www olmadan)
site haritası dosyasının konumunu gösterir

Dört noktanın tümü web sitesi arama motoru optimizasyonu için son derece önemlidir. Dizine eklemeyi engelleme, yinelenen içerik içeren sayfaların (örneğin, etiket sayfaları, arşivler, arama sonuçları, yazdırılabilir sürümleri olan sayfalar vb.) dizine eklenmesini engellemenize olanak tanır. Yinelenen içeriğin varlığı (birkaç cümle boyutunda olsa bile aynı metin iki veya daha fazla sayfada mevcut olduğunda), arama motoru sıralamasında site için bir eksidir, bu nedenle mümkün olduğunca az sayıda kopya olmalıdır.

Allow yönergesinin bağımsız bir anlamı yoktur, çünkü varsayılan olarak tüm sayfalar zaten indekslenmeye uygundur. Disallow ile birlikte çalışır - örneğin belirli bir kategori arama motorlarından tamamen kapatıldığında, ancak bunu veya içinde ayrı bir sayfayı açmak istediğinizde.

Sitenin ana aynasına işaret etmek de optimizasyonun en önemli unsurlarından biridir: arama motorları www.yoursite.ru ve yoursite.ru sitelerini, siz doğrudan aksini söylemediğiniz sürece iki farklı kaynak olarak görür. Sonuç, içeriğin iki katına çıkmasıdır - kopyaların ortaya çıkması, dış bağlantıların gücünün azalması (harici bağlantılar hem www ile hem de www olmadan yerleştirilebilir) ve sonuç olarak, bu, arama sonuçlarında daha düşük sıralamaya yol açabilir.

Google için ana ayna Web Yöneticisi araçlarına (http://www.google.ru/webmasters/) kayıtlıdır, ancak Yandex için bu talimatlar yalnızca aynı robots.tkht dosyasına kaydedilebilir.

Bir site haritasıyla (örneğin, sitemap.xml) bir xml dosyasının işaret edilmesi, arama motorlarının bu dosyayı algılamasına olanak tanır.

Kullanıcı aracısını belirtme kuralları

Bu durumda kullanıcı aracısı arama motorudur. Talimatları yazarken, bunların tüm arama motorları için geçerli olup olmayacağını (bu durumda yıldız işaretiyle gösterilir - *) veya belirli bir arama motoruna (örneğin, Yandex veya Google) yönelik olup olmadığını belirtmelisiniz.

Tüm robotları gösteren bir Kullanıcı aracısı ayarlamak için dosyanıza aşağıdaki satırı yazın:

Kullanıcı aracısı: *

Yandex için:

Kullanıcı aracısı: Yandex

Google için:

Kullanıcı aracısı: GoogleBot

İzin vermeme ve izin verme kurallarını belirtme kuralları

Öncelikle robots.txt dosyasının geçerli olabilmesi için en az bir disallow yönergesi içermesi gerektiğine dikkat edilmelidir. Şimdi belirli örnekler kullanarak bu direktiflerin uygulanmasına bakalım.

Bu kodu kullanarak sitenin tüm sayfalarının indekslenmesine izin vermiş olursunuz:

Kullanıcı aracısı: * İzin verme:

Ve bu kodla tam tersine tüm sayfalar kapatılacak:

Kullanıcı aracısı: * İzin verme: /

Klasör adı verilen belirli bir dizinin indekslenmesini yasaklamak için şunu belirtin:

Kullanıcı aracısı: * İzin verme: /klasör

İsteğe bağlı bir adın yerine yıldız işaretlerini de kullanabilirsiniz:

Kullanıcı aracısı: * İzin verme: *.php

Önemli: yıldız işareti tüm dosya adının yerine geçer, yani dosya*.php'yi belirtemezsiniz, yalnızca *.php (ancak .php uzantılı tüm sayfalar yasaklanacaktır; bunu önlemek için belirli bir sayfa adresi belirtebilirsiniz) .

Allow yönergesi, yukarıda belirtildiği gibi, disallow'da istisnalar oluşturmak için kullanılır (aksi takdirde sayfalar varsayılan olarak açık olduğundan hiçbir anlamı yoktur).

Örneğin arşiv klasöründeki sayfaların indekslenmesini yasaklayacağız ancak bu dizindeki index.html sayfasını açık bırakacağız:

İzin ver: /archive/index.html İzin verme: /archive/

Ana makineyi ve site haritasını belirtin

Ana bilgisayar, sitenin ana aynasıdır (yani alan adı artı www veya bu önek olmadan alan adı). Ana bilgisayar yalnızca Yandex robotu için belirtilmiştir (bu durumda en az bir izin vermeme komutu bulunmalıdır).

Bir ana makine belirtmek için robots.txt dosyasında aşağıdaki girişi bulunmalıdır:

Kullanıcı aracısı: Yandex İzin Verme: Ana Bilgisayar: www.yoursite.ru

Site haritasına gelince, robots.txt'de site haritası, ilgili dosyanın tam yolunun alan adını belirterek basitçe yazılmasıyla gösterilir:

Site haritası: http://yoursite.ru/sitemap.xml

WordPress için site haritasının nasıl yapılacağı hakkında yazılmıştır.

WordPress için örnek robots.txt

WordPress için talimatlar, tüm teknik dizinlerin (wp-admin, wp-includes vb.) indekslenmesinin yanı sıra etiketler, RSS dosyaları, yorumlar ve arama tarafından oluşturulan kopya sayfaların kapatılmasını sağlayacak şekilde belirtilmelidir.

WordPress için robots.txt örneği olarak dosyayı web sitemizden alabilirsiniz:

Kullanıcı aracısı: Yandex İzin Verme: /wp-admin İzin Verme: /wp-includes İzin Verme: /wp-login.php İzin Verme: /wp-register.php İzin Verme: /xmlrpc.php İzin Verme: /search İzin Verme: */trackback İzin Verme: */feed/ İzin Verme: */feed İzin Verme: */yorumlar/ İzin Verme: /?feed= İzin Verme: /?s= İzin Verme: */sayfa/* İzin Verme: */yorum İzin Verme: */tag/* İzin Verme: */ ek/* İzin Ver: /wp-content/uploads/ Ana Bilgisayar: www..php İzin Verme: /wp-register.php İzin Verme: /xmlrpc.php İzin Verme: /search İzin Verme: */trackback İzin Verme: */feed/ İzin Verme: * /feed İzin Verme: */comments/ İzin Verme: /?feed= İzin Verme: /?s= İzin Verme: */page/* İzin Verme: */comment İzin Verme: */tag/* İzin Verme: */attachment/* İzin Ver: /wp -content/uploads/ Kullanıcı aracısı: * İzin Verme: /wp-admin İzin Verme: /wp-includes İzin Verme: /wp-login.php İzin Verme: /wp-register.php İzin Verme: /xmlrpc.php İzin Verme: /search İzin Verme: */trackback İzin Verme: */feed/ İzin Verme: */feed İzin Verme: */comments/ İzin Verme: /?feed= İzin Verme: /?s= İzin Verme: */page/* İzin Verme: */comment İzin Verme: */tag/ * İzin Verme: */attachment/* İzin Ver: /wp-content/uploads/ Site Haritası: https://www..xml

robots.txt dosyasını web sitemizden indirebilirsiniz.

Bu makaleyi okuduktan sonra hala sorularınız varsa, yorumlarda sorun!

Robots.txt dosyası— arama robotlarının http sunucusundaki içeriğe erişimini sınırlayan .txt formatında bir metin dosyası. Nasıl tanım, Robots.txt- Bu robot istisna standardı 30 Ocak 1994'te W3C tarafından kabul edilen ve çoğu arama motorunun gönüllü olarak kullandığı. Robots.txt dosyası, arama robotlarının bir sitedeki belirli dosyaların, sayfaların veya dizinlerin dizine eklenmesini engellemesine yönelik bir dizi talimattan oluşur. Sitenin robotların siteye erişimini kısıtlamadığı durum için robots.txt'nin açıklamasını ele alalım.

Basit bir robots.txt örneği:

Kullanıcı aracısı: * İzin ver: /

Burada robotlar tüm sitenin indekslenmesine tamamen izin veriyor.

Robots.txt dosyası sitenizin kök dizinine yüklenmelidirşu adreste mevcut olması için:

Your_site.ru/robots.txt

Robots.txt dosyasını bir sitenin köküne yerleştirmek genellikle FTP erişimi gerektirir. Ancak bazı yönetim sistemleri (CMS), robots.txt dosyasını doğrudan site kontrol panelinden veya yerleşik FTP yöneticisi aracılığıyla oluşturmayı mümkün kılar.

Dosya mevcutsa tarayıcıda robots.txt içeriğini göreceksiniz.

robots.txt ne işe yarar?

Bir site için Roots.txt önemli bir husustur. Robots.txt'ye neden ihtiyacımız var?? Örneğin, Yararlı içerik barındırmayan sayfaları ve çok daha fazlasını indeksleme sayfalarından hariç tutmak için SEO robots.txt gereklidir.. Nasıl, neyin, neden ve neden hariç tutulduğu makalede zaten anlatılmıştı, burada bunun üzerinde durmayacağız. Robots.txt dosyası gerekli mi? tüm sitelere mi? Evet ve hayır. Robots.txt'nin kullanılması, sayfaların aramadan hariç tutulmasını gerektiriyorsa, basit yapıya ve statik sayfalara sahip küçük siteler için bu tür hariç tutmalar gereksiz olabilir. Ancak bazıları küçük bir site için yararlı olabilir robots.txt yönergeleri, örneğin Ana Bilgisayar veya Site Haritası direktifi, ancak bununla ilgili daha fazlası aşağıda.

robots.txt nasıl oluşturulur

Çünkü robots.txt bir metin dosyasıdır ve robots.txt dosyası oluştur herhangi bir metin düzenleyiciyi kullanabilirsiniz, örneğin Not Defteri. Yeni bir metin belgesi açtığınızda, robots.txt dosyasını oluşturmaya başlamış olursunuz, geriye kalan tek şey, gereksinimlerinize göre içeriğini oluşturmak ve farklı olarak kaydetmektir. txt formatında robots adlı metin dosyası. Her şey basit ve robots.txt dosyası oluşturmak yeni başlayanlar için bile sorun yaratmamalı. Aşağıda örnekler kullanarak robots.txt dosyasının nasıl oluşturulacağını ve robotlarda ne yazılacağını göstereceğim.

Robots.txt dosyasını çevrimiçi oluşturun

Tembeller için seçenek - çevrimiçi robotlar oluşturun ve robots.txt dosyasını indirin zaten bitmiş formda. Çevrimiçi robots txt oluşturmak birçok hizmet sunar, seçim sizin. Önemli olan neyin yasaklanacağını ve neye izin verileceğini açıkça anlamaktır, aksi takdirde Çevrimiçi olarak robots.txt dosyası oluşturmak bir trajediye dönüşebilir daha sonra düzeltilmesi zor olabilir. Özellikle arama, kapatılması gereken bir şeyi içeriyorsa. Dikkatli olun; robots dosyanızı siteye yüklemeden önce kontrol edin. Henüz özel robots.txt dosyası kısıtlamaların yapısını otomatik olarak oluşturulan ve başka bir siteden indirilene göre daha doğru yansıtır. Robots.txt dosyasını düzenlerken nelere özellikle dikkat etmeniz gerektiğini öğrenmek için okumaya devam edin.

robots.txt'yi düzenleme

Çevrimiçi olarak veya kendi ellerinizle bir robots.txt dosyası oluşturmayı başardıktan sonra, şunları yapabilirsiniz: robots.txt dosyasını düzenle. İçeriğini dilediğiniz gibi değiştirebilirsiniz, asıl önemli olan robots.txt'nin bazı kurallarına ve sözdizimine uymaktır. Sitede çalışırken robots dosyası değişebilir ve robots.txt dosyasını düzenlerseniz, tüm değişiklikleri içeren dosyanın güncellenmiş, güncel sürümünü siteye yüklemeyi unutmayın. Sonra, bir dosya ayarlama kurallarına bakalım, böylece şunu bilebiliriz: robots.txt dosyası nasıl değiştirilir ve "odun kesmeyin."

robots.txt dosyasının doğru ayarlanması

robots.txt dosyasının doğru ayarlanmasıözel bilgilerin büyük arama motorlarının arama sonuçlarına girmesini önlemenizi sağlar. Ancak şunu unutmamak gerekir robots.txt komutları koruma değil, eylem kılavuzundan başka bir şey değildir. Yandex veya Google gibi güvenilir arama motorlarının robotları, robots.txt talimatlarını takip eder, ancak diğer robotlar bunları kolayca görmezden gelebilir. Robots.txt dosyasının doğru anlaşılması ve uygulanması, sonuç almanın anahtarıdır.

Anlamak doğru robotlar txt nasıl yapılır, öncelikle robots.txt dosyasının genel kurallarını, sözdizimini ve yönergelerini anlamanız gerekir.

Doğru robots.txt, Kullanıcı aracısı yönergesiyle başlar, hangi robota özgü direktiflerin ele alındığını gösterir.

robots.txt dosyasındaki Kullanıcı aracısı örnekleri:

# Tüm robotlar için aynı anda yönergeleri belirtir Kullanıcı aracısı: * # Tüm Yandex robotları için yönergeleri gösterir Kullanıcı aracısı: Yandex # Yalnızca ana Yandex indeksleme robotu için yönergeleri belirtir Kullanıcı aracısı: YandexBot # Tüm Google robotları için yönergeleri gösterir Kullanıcı -acente: Googlebot

Lütfen şunu unutmayın robots.txt dosyasını ayarlama robota yalnızca kullanıcı aracısını adıyla eşleşen yönergeleri kullanmasını söyler.

User-agent'ın birden çok kez geçtiği örnek robots.txt:

# Tüm Yandex robotları tarafından kullanılacak Kullanıcı aracısı: Yandex Disallow: /*utm_ # Tüm Google robotları tarafından kullanılacak Kullanıcı aracısı: Googlebot Disallow: /*utm_ # Yandex robotları ve Google Kullanıcısı hariç tüm robotlar tarafından kullanılacak aracı: * İzin ver: / *utm_

Kullanıcı aracısı yönergesi yalnızca belirli bir robota yönelik bir talimat oluşturur ve Kullanıcı aracısı direktifinden hemen sonra, seçilen robotun durumunu doğrudan belirten bir komut veya komutlar bulunmalıdır. Yukarıdaki örnekte "/*utm_" değerine sahip "Disallow" direktifi kullanılmaktadır. Böylece her şeyi kapatıyoruz. robots.txt dosyasının doğru şekilde ayarlanması, mevcut "Kullanıcı aracısı" içinde "Kullanıcı aracısı", "İzin Verme" yönergeleri ve "İzin Verme" komutunu izleyen yönergeler arasında boş satır sonlarının bulunmasını engeller.

Robots.txt dosyasındaki hatalı satır besleme örneği:

Robots.txt dosyasındaki doğru satır besleme örneği:

Kullanıcı aracısı: Yandex İzin Verme: /*utm_ İzin Ver: /*id= Kullanıcı aracısı: * İzin Verme: /*utm_ İzin Ver: /*id=

Örnekten de görülebileceği gibi, robots.txt dosyasındaki talimatlar bloklar halinde gelir, her biri belirli bir robota veya tüm robotlara "*" yönelik talimatlar içerir.

"Disallow" ve "Allow" gibi direktifleri bir arada kullanırken robots.txt dosyasındaki komutların doğru sıralanması ve sıralanmasının sağlanması da önemlidir. "İzin Ver" yönergesi izin veren bir yönergedir ve yasaklayıcı bir yönerge olan robots.txt "İzin Verme" komutunun tersidir.

Robots.txt dosyasında yönergelerin birlikte kullanılmasına bir örnek:

Kullanıcı aracısı: * İzin ver: /blog/page İzin verme: /blog

Bu örnek, tüm robotların "/blog" ile başlayan tüm sayfaları dizine eklemesini engeller ancak "/blog/page" ile başlayan tüm sayfaların dizine eklenmesine izin verir.

Doğru sıralamada robots.txt dosyasının önceki örneği:

Kullanıcı aracısı: * İzin verme: /blog İzin ver: /blog/page

Önce bölümün tamamını yasaklıyoruz, sonra bir kısmına izin veriyoruz.

Bir diğer doğru robots.txt örneği ortak direktiflerle:

Kullanıcı aracısı: * İzin ver: / İzin verme: /blog İzin ver: /blog/sayfa

Bu robots.txt dosyasındaki talimatların doğru sırasına dikkat edin.

“Allow” ve “Disallow” direktifleri parametresiz olarak belirtilebilir, bu durumda değer “/” parametresinin tersi olarak yorumlanacaktır.

Parametresiz bir “İzin Verme/İzin Verme” direktifi örneği:

Kullanıcı aracısı: * İzin Verme: # İzin Ver: / İzin Verme: /blog İzin Ver: /blog/page ile eşdeğerdir

Doğru robots.txt nasıl oluşturulur? ve direktiflerin yorumunun nasıl kullanılacağı sizin seçiminizdir. Her iki seçenek de doğru olacaktır. Önemli olan kafanızın karışmamasıdır.

Robots.txt dosyasını doğru bir şekilde oluşturmak için, direktiflerin parametrelerinde öncelikleri ve robotlar tarafından indirilmesinin neleri yasaklayacağını doğru bir şekilde belirtmek gerekir. Aşağıda “İzin Verme” ve “İzin Ver” direktiflerinin kullanımına daha ayrıntılı olarak bakacağız, ancak şimdi robots.txt'nin sözdizimine bakacağız. robots.txt sözdizimini bilmek sizi mükemmel robots txt dosyasını kendi ellerinizle yaratın.

Robots.txt sözdizimi

Arama motoru robotları robots.txt komutlarını gönüllü olarak takip eder- robot istisnaları için standarttır ancak tüm arama motorları robots.txt sözdizimini aynı şekilde ele almaz. Robots.txt dosyasının kesin olarak tanımlanmış bir sözdizimi vardır, ancak aynı zamanda robot txt yaz Yapısı çok basit ve anlaşılması kolay olduğu için zor değil.

Aşağıda, aşağıdakileri ortadan kaldıracağınız basit kuralların özel bir listesi yer almaktadır: yaygın robots.txt hataları:

Her yönerge yeni bir satırda başlar;
Bir satırda birden fazla yönerge belirtmeyin;
Satırın başına boşluk koymayın;
Yönerge parametresi tek satırda olmalıdır;
Yönerge parametrelerini tırnak içine almanıza gerek yoktur;
Yönerge parametrelerinin sonunda noktalı virgül kullanılmasına gerek yoktur;
robots.txt dosyasındaki komut şu biçimde belirtilir: - [Directive_name]:[isteğe bağlı boşluk][değer][isteğe bağlı boşluk];
Robots.txt dosyasında # hash işaretinden sonra yorumlara izin verilir;
Boş bir satır sonu, Kullanıcı aracısı yönergesinin sonu olarak yorumlanabilir;
“Disallow:” direktifi (boş bir değerle) “Allow: /” ile eşdeğerdir - her şeye izin ver;
“İzin Ver” ve “İzin Verme” direktifleri birden fazla parametre belirtmez;
Robots.txt dosyasının adı büyük harflere izin vermiyor; dosya adının yanlış yazılışı Robots.txt veya ROBOTS.TXT şeklindedir;
Yönergelerin ve parametrelerin adlarının büyük harflerle yazılması kötü biçim olarak kabul edilir ve robots.txt standarda göre büyük/küçük harfe duyarlı olmasa bile, dosya ve dizin adları genellikle büyük/küçük harfe duyarlıdır;
Yönerge parametresi bir dizin ise, dizin adından önce her zaman eğik çizgi "/" gelir, örneğin: Disallow: /category
Çok büyük robots.txt (32 KB'tan fazla) tamamen izin verilen bir dosya olarak kabul edilir ve "İzin Verme:" ile eşdeğerdir;
Herhangi bir nedenle erişilemeyen Robots.txt, tamamen hoşgörülü olarak yorumlanabilir;
robots.txt boşsa tamamen izin verilen bir dosya olarak değerlendirilecektir;
Birden fazla "Kullanıcı aracısı" yönergesinin boş satır beslemesi olmadan listelenmesinin bir sonucu olarak, ilki dışındaki tüm sonraki "Kullanıcı aracısı" yönergeleri göz ardı edilebilir;
Robots.txt dosyasında ulusal alfabelerdeki karakterlerin kullanılmasına izin verilmez.

Farklı arama motorları robots.txt söz dizimini farklı şekilde yorumlayabileceğinden bazı maddeler atlanabilir. Örneğin, birkaç "Kullanıcı aracısı" direktifini boş satır sonu olmadan girerseniz, Yandex, kayıtları "Kullanıcı aracısı" satırındaki varlıklarına göre seçtiğinden, tüm "Kullanıcı aracısı" direktifleri Yandex tarafından doğru bir şekilde kabul edilecektir.

Robotlar kesinlikle sadece neyin gerekli olduğunu göstermeli ve gereksiz hiçbir şeyi göstermemelidir. düşünme robots.txt'de her şey nasıl yazılır, neyin mümkün olduğu ve nasıl doldurulacağı. İdeal robotlar txt daha az satırı olan ama daha anlamlı olanıdır. "Öz olmak ince zekanın ruhudur". Bu ifade burada işe yarar.

robots.txt nasıl kontrol edilir

İçin robots.txt'yi kontrol edin Dosyanın sözdiziminin ve yapısının doğruluğunu kontrol etmek için çevrimiçi hizmetlerden birini kullanabilirsiniz. Örneğin, Yandex ve Google, web yöneticileri için kendi hizmetlerini sunmaktadır; robots.txt analizi:

Yandex.Webmaster'da robots.txt dosyasını kontrol etme: http://webmaster.yandex.ru/robots.xml

İçin robots.txt'yi çevrimiçi kontrol edin gerekli robots.txt dosyasını sitenin kök dizinine yükleyin. Aksi takdirde hizmet şunu bildirebilir: robots.txt yüklenemedi. Öncelikle dosyanın bulunduğu adreste robots.txt'nin kullanılabilirliğini kontrol etmeniz önerilir; örneğin: siteniz.ru/robots.txt.

Yandex ve Google'ın doğrulama hizmetlerine ek olarak, başka birçok çevrimiçi hizmet de var robots.txt doğrulayıcıları.

Robots.txt ile Yandex ve Google karşılaştırması

Yandex'in, robots.txt dosyasındaki ayrı bir “Kullanıcı aracısı: Yandex” yönerge bloğunun göstergesini, “Kullanıcı aracısı: *” içeren genel bir yönerge bloğundan daha olumlu algıladığı yönünde öznel bir görüş vardır. Robots.txt ve Google'da da durum benzer. Yandex ve Google için ayrı yönergeler belirlemek, robots.txt aracılığıyla site dizine eklemeyi kontrol etmenize olanak tanır. Belki de bu çekicilikten kişisel olarak gurur duyuyorlar, özellikle de çoğu site için Yandex, Google ve diğer arama motorlarının robots.txt bloklarının içeriği aynı olacağından. Nadir istisnalar dışında, tüm "Kullanıcı aracısı" blokları robots.txt için standart bir dizi direktif. Ayrıca farklı “Kullanıcı aracıları” kullanarak kurulum yapabilirsiniz. Yandex için robots.txt dosyasında indeksleme yasağı, ancak örneğin Google için değil.

Ayrı olarak, Yandex'in "Ana Bilgisayar" gibi önemli bir yönergeyi dikkate aldığını ve Yandex için doğru robots.txt dosyasının, sitenin ana aynasını belirtmek için bu yönergeyi içermesi gerektiğini belirtmekte fayda var. Aşağıda "Host" direktifine daha ayrıntılı olarak bakacağız.

Dizine eklemeyi devre dışı bırak: robots.txt İzin verme

İzin verme - yasaklayıcı direktif, çoğunlukla robots.txt dosyasında kullanılır. Disallow, Disallow yönergesi parametresinde belirtilen yola bağlı olarak sitenin veya bir kısmının dizine eklenmesini engeller.

Robots.txt dosyasında site dizine eklemenin nasıl önleneceğine dair bir örnek:

Kullanıcı aracısı: * İzin verme: /

Bu örnek, tüm sitenin tüm robotlar için dizine eklenmesini engeller.

Disallow yönergesi parametresi, * ve $ özel karakterlerinin kullanımına izin verir:

* - herhangi bir sayıda karakter; örneğin, /page* parametresi /page, /page1, /page-be-cool, /page/kak-skazat vb. koşulları karşılar. Ancak her parametrenin sonunda * karakterini belirtmenize gerek yoktur, çünkü örneğin aşağıdaki yönergeler aynı şekilde yorumlanır:

Kullanıcı aracısı: Yandex İzin Verme: /sayfa Kullanıcı aracısı: Yandex İzin Verme: /sayfa*

$ - istisnanın parametre değeriyle tam eşleşmesini gösterir:

Kullanıcı aracısı: Googlebot İzin Verme: /page$

Bu durumda, Disallow yönergesi /page'e izin vermeyecek, ancak /page1, /page-be-cool veya /page/kak-skazat sayfalarının indekslenmesini yasaklamayacaktır.

Eğer site indeksleme robots.txt dosyasını kapat arama motorları bu harekete "robots.txt dosyasında engellendi" veya "robots.txt tarafından kısıtlanan url" (robots.txt dosyası tarafından yasaklanan url) hatasıyla yanıt verebilir. Eğer ihtiyacın varsa sayfa indekslemeyi devre dışı bırak, yalnızca robots txt'yi değil aynı zamanda benzer html etiketlerini de kullanabilirsiniz:

- sayfa içeriğini indekslemeyin;
- sayfadaki bağlantıları takip etmeyin;
- içeriğin indekslenmesi ve sayfadaki bağlantıların takip edilmesi yasaktır;
- content = "none" ile benzer.

Dizine eklemeye izin ver: robots.txt İzin Ver

İzin ver - izin verici yönerge ve Disallow direktifinin tam tersi. Bu yönerge Disallow'a benzer bir sözdizimine sahiptir.

Robots.txt dosyasındaki bazı sayfalar dışında bir sitenin indekslenmesinin nasıl yasaklanacağına dair bir örnek:

Kullanıcı aracısı: * İzin verme: /İzin ver: /sayfa

Sitenin tamamını indekslemek yasaktır/page ile başlayan sayfalar hariç.

Boş parametre değeriyle İzin Verme ve İzin Ver

Boş İzin Verme yönergesi:

Kullanıcı aracısı: * İzin verme:

Hiçbir şeyi yasaklamayın veya tüm sitenin dizine eklenmesine izin vermeyin ve şuna eşdeğerdir:

Kullanıcı aracısı: * İzin ver: /

Boş İzin Ver yönergesi:

Kullanıcı aracısı: * İzin ver:

Hiçbir şeye izin vermemek veya site dizine eklemeyi tamamen yasaklamak şuna eşdeğerdir:

Kullanıcı aracısı: * İzin verme: /

Ana site aynası: robots.txt Ana Bilgisayarı

Host direktifi, Yandex robotuna sitenizin ana aynasını belirtmek için kullanılır.. Tüm popüler arama motorları arasında direktif Ana bilgisayar yalnızca Yandex robotları tarafından tanınıyor. Host yönergesi, sitenize birden fazla kanaldan erişilebiliyorsa kullanışlıdır, örneğin:

Mysite.ru mysite.com

Veya aşağıdakiler arasındaki önceliği belirlemek için:

Mysite.ru www.mysite.ru

Yandex robotuna hangi aynanın ana ayna olduğunu söyleyebilirsiniz. “User-agent: Yandex” direktif bloğunda Host direktifi belirtilir ve parametre olarak “http://” olmadan tercih edilen site adresi belirtilir.

Ana aynayı gösteren örnek robots.txt:

Kullanıcı aracısı: Yandex İzin Verme: /page Ana Bilgisayar: mysite.ru

Www olmadan mysite.ru alan adı ana ayna olarak belirtilir. Böylece arama sonuçlarında bu tür adresler gösterilecektir.

Kullanıcı aracısı: Yandex İzin Verme: /page Ana Bilgisayar: www.mysite.ru

Www.mysite.ru alan adı ana ayna olarak belirtilir.

robots.txt dosyasındaki ana bilgisayar yönergesi yalnızca bir kez kullanılabilir, ancak Host yönergesi birden fazla belirtilirse yalnızca ilki dikkate alınacak, diğer Host yönergeleri dikkate alınmayacaktır.

Googlebot için ana aynayı belirtmek istiyorsanız Google Web Yöneticisi Araçları hizmetini kullanın.

Site haritası: robots.txt site haritası

Site Haritası yönergesini kullanarak sitedeki konumu robots.txt dosyasında belirtebilirsiniz.

Site haritası adresini gösteren bir robots.txt örneği:

Kullanıcı aracısı: * İzin verme: /sayfa Site haritası: http://www.mysite.ru/sitemap.xml

Site haritası adresinin belirtilmesi robots.txt dosyasındaki site haritası yönergesi arama robotunun bir site haritasının varlığını öğrenmesine ve onu dizine eklemeye başlamasına olanak tanır.

Clean-param direktifi

Clean-param direktifi, dinamik parametrelere sahip sayfaları indekslemenin dışında bırakmanıza olanak tanır. Benzer sayfalar aynı içeriği sunabilir ancak farklı sayfa URL'lerine sahip olabilir. Basitçe söylemek gerekirse sayfaya farklı adreslerden erişiliyormuş gibi. Görevimiz, milyonlarca olabilecek tüm gereksiz dinamik adresleri kaldırmaktır. Bunu yapmak için tüm dinamik parametreleri hariç tutuyoruz, robots.txt dosyasındaki Clean-param yönergesini kullanma.

Clean-param direktifinin sözdizimi şöyledir:

Temiz parametre: parm1[&parm2&parm3&parm4&..&parmn] [Yol]

Aşağıdaki URL'ye sahip bir sayfa örneğine bakalım:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Örnek robots.txt Temizleme parametresi:

Temiz parametre: parm1&parm2&parm3 /page.html # yalnızca page.html için

Temiz parametre: tümü için parm1&parm2&parm3 / #

Tarama gecikmesi yönergesi

Bu talimat, robotların sitenizi çok sık ziyaret etmesi durumunda sunucudaki yükü azaltmanıza olanak tanır. Bu yönerge esas olarak çok sayıda sayfaya sahip siteler için geçerlidir.

Örnek robots.txt tarama gecikmesi:

Kullanıcı aracısı: Yandex İzin Verme: /sayfa Tarama gecikmesi: 3

Bu durumda Yandex robotlarından sitemizin sayfalarını en fazla üç saniyede bir indirmelerini "isteriz". Bazı arama motorları kesirli sayı biçimini parametre olarak destekler Tarama gecikmeli robots.txt yönergeleri.

Sitemap.xml dosyası ve site için doğru robots.txt dosyası, bir web kaynağının tüm gerekli sayfalarının arama robotları tarafından hızlı ve eksiksiz bir şekilde indekslenmesine katkıda bulunan iki zorunlu belgedir. Yandex ve Google'da sitenin doğru şekilde indekslenmesi, arama motorlarında başarılı blog tanıtımının anahtarıdır.

XML formatında site haritasının nasıl yapılacağını ve neden gerekli olduğunu zaten yazmıştım. Şimdi bir WordPress sitesi için doğru robots.txt dosyasının nasıl oluşturulacağından ve genel olarak buna neden ihtiyaç duyulduğundan bahsedelim. Bu dosyayla ilgili detaylı bilgiyi sırasıyla Yandex ve Google'dan alabilirsiniz. Konunun özüne ineceğim ve kendi dosyamı örnek olarak kullanarak WordPress için temel robots.txt ayarlarına değineceğim.

Bir web sitesi için neden robots.txt dosyasına ihtiyacınız var?

Robots.txt standardı Ocak 1994'te ortaya çıktı. Bir web kaynağını tararken, arama robotları ilk olarak sitenin veya blogun kök klasöründe bulunan robots.txt metin dosyasını arar. Onun yardımıyla, farklı arama motorlarının robotları için siteyi indeksleyecekleri belirli kurallar belirleyebiliriz.

robots.txt dosyasını doğru şekilde ayarlamak şunları yapmanıza olanak sağlar:

kopyaları ve çeşitli gereksiz sayfaları dizinden hariç tutun;
gizlemek istediğimiz sayfaların, dosyaların ve klasörlerin indekslenmesini yasaklayın;
genellikle bazı arama robotlarına endekslemeyi reddeder (örneğin, rakiplerden gelen bağlantılarla ilgili bilgileri gizlemek için Yahoo);
sitenin ana aynasını belirtin (www ile veya www olmadan);
site haritası sitemap.xml yolunu belirtin.

Bir site için doğru robots.txt dosyası nasıl oluşturulur?

Bu amaç için özel jeneratörler ve eklentiler var ancak bunu manuel olarak yapmak daha iyidir.

Herhangi bir metin düzenleyiciyi (örneğin Notepad veya Notepad++) kullanarak robots.txt adında normal bir metin dosyası oluşturmanız ve bunu blogunuzun kök klasöründeki barındırma sisteminize yüklemeniz yeterlidir. Bu dosyaya belirli direktiflerin yazılması gerekir; Yandex, Google vb. robotlar için indeksleme kuralları

Bununla uğraşamayacak kadar tembelseniz, aşağıda benim bakış açıma göre blogumdan WordPress için doğru robots.txt dosyasının bir örneğini vereceğim. Üç yerde alan adını değiştirerek kullanabilirsiniz.

Robots.txt oluşturma kuralları ve yönergeleri

Bir blogun başarılı arama motoru optimizasyonu için robots.txt oluşturmaya ilişkin bazı kuralları bilmeniz gerekir:

Robots.txt dosyasının olmaması veya boş olması, arama motorlarının web kaynağının tüm içeriğini dizine eklemesine izin verildiği anlamına gelir.
robots.txt, site.ru/robots.txt adresinde açılmalı, robota 200 OK yanıt kodu verilmeli ve boyutu 32 KB'tan fazla olmamalıdır. Açılamayan (örneğin 404 hatası nedeniyle) veya daha büyük bir dosya uygun kabul edilecektir.
Dosyadaki yönerge sayısı 1024'ü geçmemelidir. Bir satırın uzunluğu 1024 karakteri geçmemelidir.
Geçerli bir robots.txt dosyasında birden fazla ifade bulunabilir; bunların her biri bir Kullanıcı aracısı yönergesiyle başlamalı ve en az bir Disallow yönergesi içermelidir. Genellikle Google ve diğer tüm robotlar için robots.txt dosyasında ve Yandex için ayrı ayrı talimatlar yazarlar.

Temel robots.txt direktifleri:

Kullanıcı aracısı – talimatın hangi arama robotuna yönlendirildiğini gösterir.

“*” sembolü bunun tüm robotlar için geçerli olduğu anlamına gelir; örneğin:

Kullanıcı aracısı: *

Yandex için robots.txt dosyasında bir kural oluşturmamız gerekirse şunu yazarız:

Kullanıcı aracısı: Yandex

Belirli bir robot için bir yönerge belirtilirse, User-agent: * yönergesi onun tarafından dikkate alınmaz.

İzin Verme ve İzin Ver – sırasıyla robotların belirtilen sayfaları dizine eklemesini yasaklayın ve izin verin. Tüm adresler sitenin kökünden itibaren belirtilmelidir; üçüncü eğik çizgiden başlayarak. Örneğin:

Tüm robotların sitenin tamamını dizine eklemesinin yasaklanması:
Kullanıcı aracısı: *
İzin verme: /
Yandex'in /wp-admin ile başlayan tüm sayfaları dizine eklemesi yasaktır:
Kullanıcı aracısı: Yandex
İzin verme: /wp-admin
Boş Disallow yönergesi her şeyin dizine eklenmesine izin verir ve İzin Ver'e benzer. Örneğin, Yandex'in tüm siteyi indekslemesine izin veriyorum:
Kullanıcı aracısı: Yandex
İzin verme:
Ve tam tersi, tüm arama robotlarının tüm sayfaları dizine eklemesini yasaklıyorum:
Kullanıcı aracısı: *
İzin vermek:
Aynı Kullanıcı aracısı bloğundaki İzin Ver ve İzin Verme yönergeleri, URL önek uzunluğuna göre sıralanır ve sırayla yürütülür. Sitenin bir sayfası için birkaç direktif uygunsa, listedeki sonuncusu yürütülür. Artık robotun direktifleri kullanması durumunda bunların yazılma sırasının bir önemi yoktur. Eğer direktifler aynı uzunlukta öneklere sahipse ilk önce Allow yürütülür. Bu kurallar 8 Mart 2012 tarihinde yürürlüğe girmiştir. Örneğin, yalnızca /wp-includes ile başlayan sayfaların dizine eklenmesine izin verir:
Kullanıcı aracısı: Yandex
İzin verme: /
İzin ver: /wp-includes

Site Haritası – XML site haritası adresini belirtir. Bir site, iç içe yerleştirilebilecek birden fazla Site Haritası yönergesine sahip olabilir. Site dizine eklemeyi hızlandırmak için tüm Site Haritası dosya adresleri robots.txt dosyasında belirtilmelidir:

Site haritası: http://site/sitemap.xml.gz
Site haritası: http://site/sitemap.xml

Sunucu – ayna robotuna hangi web sitesi aynasını ana site aynası olarak değerlendireceğini söyler.

Siteye birden fazla adresten erişilebiliyorsa (örneğin, www ile ve www olmadan), bu, filtre tarafından yakalanabilecek tamamen kopya sayfalar oluşturur. Ayrıca bu durumda indekslenen ana sayfa olmayabilir, aksine ana sayfa arama motoru indeksinin dışında tutulacaktır. Bunu önlemek için robots.txt dosyasında yalnızca Yandex'e yönelik olan ve yalnızca bir tane olabilen Host yönergesini kullanın. Disallow ve Allow'dan sonra yazılır ve şöyle görünür:

Ana bilgisayar: web sitesi

Tarama gecikmesi – sayfaların indirilmesi arasındaki gecikmeyi saniye cinsinden ayarlar. Ağır bir yük varsa ve sunucunun istekleri işlemek için zamanı yoksa kullanılır. Yeni sitelerde Tarama gecikmesi yönergesini kullanmamak daha iyidir. Bu şekilde yazılmıştır:

Kullanıcı aracısı: Yandex
Tarama gecikmesi: 4

Clean-param – yalnızca Yandex tarafından desteklenir ve değişkenli yinelenen sayfaları ortadan kaldırarak bunları tek bir sayfada birleştirmek için kullanılır. Böylece Yandex robotu, örneğin yönlendirme bağlantılarıyla ilişkili benzer sayfaları birçok kez indirmeyecektir. Henüz bu yönergeyi kullanmadım ancak Yandex için robots.txt yardımında yazının başındaki bağlantıyı takip ederek bu yönergeyi detaylı olarak okuyabilirsiniz.

* ve $ özel karakterleri, robots.txt dosyasında Disallow ve Allow direktiflerinin yollarını belirtmek için kullanılır:

Özel karakter “*” herhangi bir karakter dizisi anlamına gelir. Örneğin, İzin Verme: /*?*, bu karakterden önce ve sonra hangi karakterlerin geldiğine bakılmaksızın, adreste “?” görünen sayfaların yasaklanması anlamına gelir. Özel olarak belirtilmese bile, varsayılan olarak her kuralın sonuna “*” özel karakteri eklenir.
“$” sembolü kuralın sonundaki “*” işaretini iptal eder ve kesin eşleştirme anlamına gelir. Örneğin Disallow: /*?$ yönergesi “?” karakteriyle biten sayfaların dizine eklenmesini yasaklayacaktır.

WordPress için örnek robots.txt

İşte WordPress motorundaki bir blog için robots.txt dosyamın bir örneği:

Kullanıcı aracısı: * İzin verme: /cgi-bin İzin verme: /wp-admin İzin verme: /wp-includes İzin verme: /wp-content/plugins İzin verme: /wp-content/cache İzin verme: /wp-content/themes İzin verme: / geri izleme İzin verme: */geri izleme İzin verme: */*/geri izleme İzin verme: /feed/ İzin verme: */*/feed/*/ İzin verme: */feed İzin verme: /*?* İzin verme: /?s= Kullanıcı aracısı: Yandex İzin verme: /cgi-bin İzin verme: /wp-admin İzin verme: /wp-includes İzin verme: /wp-content/plugins İzin verme: /wp-content/cache İzin verme: /wp-content/themes İzin verme: /trackback İzin verme: */ geri izleme İzin verme: */*/geri izleme İzin verme: /feed/ İzin verme: */*/feed/*/ İzin verme: */feed İzin verme: /*?* İzin verme: /?.ru/sitemap.xml..xml

WordPress için doğru robots.txt dosyasını oluştururken kendinizi kandırmamak için bu dosyayı kullanabilirsiniz. İndekslemede herhangi bir sorun yok. Kopya koruma scriptim var o yüzden hazır robots.txt dosyasını indirip hostinginize yüklemeniz daha uygun olacaktır. Host ve Site Haritası direktiflerinde sitemin adını kendi adınızla değiştirmeyi unutmayın.

WordPress için robots.txt dosyasını doğru şekilde ayarlamak için faydalı eklemeler

Ağaç yorumları WordPress blogunuza yüklüyse, ?replytocom= biçiminde kopya sayfalar oluştururlar. robots.txt dosyasında bu tür sayfalar Disallow: /*?* direktifiyle kapatılır. Ancak bu bir çözüm değil ve yasakları kaldırıp answertocom'la başka şekilde mücadele etmek daha iyi. Ne, .

Böylece, Temmuz 2014 itibarıyla mevcut robots.txt dosyası şu şekilde görünür:

Kullanıcı aracısı: * İzin verme: /wp-includes İzin verme: /wp-feed İzin verme: /wp-content/plugins İzin verme: /wp-content/cache İzin verme: /wp-content/themes Kullanıcı aracısı: Yandex İzin Verme: /wp -İzin vermemeyi içerir: /wp-feed İzin Verme: /wp-content/plugins İzin Verme: /wp-content/cache İzin Verme: /wp-content/themes Ana Bilgisayar: site.ru Kullanıcı aracısı: Googlebot-Image İzin Ver: /wp-content /uploads/ Kullanıcı aracısı: YandexImages İzin Ver: /wp-content/uploads/ Site Haritası: http://site.ru/sitemap.xml

Ayrıca görüntü indeksleme robotlarına ilişkin kuralları da belirler.

Kullanıcı aracısı: Mediapartners-Google
İzin verme:

Kategori veya etiket sayfalarını tanıtmayı planlıyorsanız bunları robots.txt dosyasına açmalısınız. Örneğin bir blog sitesinde kategoriler indekslenmeye kapatılmaz, çünkü sadece küçük makale duyuruları yayınlarlar ki bu da içeriğin kopyalanması açısından oldukça önemsizdir. Ve blog akışında benzersiz duyurularla dolu alıntıların görünümünü kullanırsanız, hiçbir kopya olmayacaktır.

Yukarıdaki eklentiyi kullanmıyorsanız robots.txt dosyanızda etiketlerin, kategorilerin ve arşivlerin indekslenmesini yasaklamayı belirtebilirsiniz. Örneğin aşağıdaki satırları eklemek:

İzin verme: /yazar/
İzin verme: /etiket
İzin verme: /kategori/*/*
İzin verme: /20*

Yandex.Webmaster panelindeki robots.txt dosyasını kontrol etmeyi ve ardından onu barındırma sisteminize yeniden yüklemeyi unutmayın.

Robots.txt dosyasını yapılandırmak için herhangi bir eklentiniz varsa, yorumlarda bunun hakkında yazın. Şimdi bunun ne olduğu ve bir site için doğru robots.txt dosyasının nasıl oluşturulacağı, robots.txt dosyasında indekslemenin nasıl yasaklanacağı ve hataların nasıl düzeltileceği hakkında bir video izleyin.