Xip Forum - Türkiye'nin Teknoloji Forumu

Türkiye'nin En Gelişmiş Otomobil Forumu sloganı ile çıktığımız bu yolda; otomobiller hakkında bilgi edinebilir, sorularınızı sorabilir, genel konularda sohbet edebilir ve aracınız hakkında her şeyi öğrenebilirsiniz.

Robots.txt Nedir? Ve Nasıl Oluşturulur?

Ragor

S
Yönetici
Admin
Katılım
14 Ağu 2021
Mesajlar
112
Tepki
0
Puan
16
Konum
Samsun
Robots.txt Nedir? Ve Nasıl Oluşturulur?

Robots.txt (Robot Engelleme Standartı), web crawlers (arama motoru botları) web sitelerinin hangi bölüme ne düzeyde taranmasını direktifler yardımıyla aktarılmasını sağladığımız txt dokümanın ismidir. Robots.txt dosyası türünü verimli şekilde kullanmasını bilirseniz sitenizdeki alt klasörleri, alt klasörde bulunan rastgele bir URL’i veyahut herhangi bir prefix’i (alt kırılım) olan bir url bloklarını bütünü ile arama motoru botları taramalarını kapatabiliyor dilerseniz açabiliyorsunuz.

Sitelerdeki ana domain dizinleri içerisinde bulundurulan robots.txt dosyası günümüz zamanında bütün büyük arama motorları tarafından takibi yapılıyor. Özetle robots.txt dosyanız ile oluşturmayı planladığınız komut direktifleri arama motoru botlarının takip etmesi ile sizin yönlendirmeler yapmanız halinde sitenin tarama işlemlerini gerçekleştirmeyi hedefliyorlar.

Robots.txt Dosyası Nerede Bulunur?

Üst kısımda anlatıldığı üzere web sitelerine özel şekillerde oluşturulmuş robots.txt dosyaları sitelerin bulunduğu ana dizin (httpdocs, public_html vb) üzerinde yer alır. Herhangi bir sub folder (alt klasör) alt kısmına ekleme yapılmadan direk site ana dizi içine diğer dokümanlar ile yalın (İşleme yapılmadan)” yer alması sağlanır.

Robots.txt Dosyası Nasıl Çalıştırılır?

Robots.txt dosyası isminden de anlaşıldığı üzere .txt formatı içinde oluşturulmuş ve herhangi bir HTML işaretlemeleri bulundurmayan oldukça kolay şekilde oluşturulan bir web dokumanı olmaktadır. Ana dizine eklenmiş robots.txt dosyaları web sitesinde URL uzantısı kısmına /robots.txt yazılması ile görüntülenmesi sağlanır. Birçok kullanıcının önemli olarak görmediği robots.txt dosyası barındırmış olduğu bu URL arama motoru botları site içerisine gerçekleştirmiş olduğu ziyaretlerde tercih ettiği adrestir.

Örneğin: https://xip.gen.tr/robots.txt

Web sitesini ziyaret etmiş arama motoru botlarının site içinde herhangi bir tarama işlemi başlatmadan evvel, web sitesinde bulunan robots.txt dosyasını ziyaret etmeleri ile web sitesinde hangi bölümlerin taramaya açık halde olduklarını bildiren direktifleri kontrol etmeleri gerekir.

Arama motoru botları tarama biçimlerini yönetmekte görevli olmasından robots.txt dosyası görevinden ötürü bir rehber görevini üstlenirken botlar için bağlayıcı yapı değildir. Kısaca arama motoru botları tamamen robots.txt dosyasında bulunan direktiflere uyumlu olmak ile yükümlü durumda olmaz fakat Google, Bing gibi arama motoru botları ile ilgili direktifleri takip halinde olurlar. Bu doğrultuda harici (amaçsız, zararlı durumda) botların büyük bir kısmı robots.txt dosyası içinde olan direktifleri görmemeyi tercih ederek serbest taramayı gerçekleştirmiş olurlar.

Robots.txt dosyasıyla ilgili kesinlikle bilinmesi gereken en önemli konu ise, subdomain yani asıl domainin bir alt domain yapısında ayriyeten bir robots.txt dosyası oluşturmamız gerektiğidir. Örnek verecek olursak tam domain olan boosmart.com içinde oluşturulan bir robots.txt dosyası ornek.boosmart.com subdomaini için geçerli olmaması diyebiliriz. Subdomain içinde var olan URL adresleri ile ilgili tarama direktifleri subdomain de oluşturulması planlanan farklı bir robots.txt dosyası yardımı ile ayrı olarak yönetilmesi gerekir.

Robots.txt Dosyasını Oluşturma ve Kullanım Şekli

Robots.txt rastgele bir text editörü yardımı ile yani metin oluşturma editörü doğrultusunda oldukça kolay oluşturulabiliyor. Robots.txt oluşturulması esnasında çeşitli protokol formatlarının kullanılması ile robot tarama direktifleri meydana getirilir. Protokol formatlarını kullanarak arama motoru botlarının anlayacağı düzeyde direktiflerin iletilmesi sağlanır. Arama motoru botlarında kullanımı sağlanan protokol Robots Exclusion Protocol olarak isimlendirilir.

Örneğin:

User-agent: *

Disallow: /

Robots.txt dosyası içinde kullanımı sağlanan bir diğer protokol ise sitemap protokolü olarak karşımıza çıkar.

Sitemap: Kullanımı ile belirtilmiş protokolle arama motoru botlarına sitelerin haritasını ileterek site içinde bulunan URL’lerle ilgili arama motoru botlarının takibinin yapılacağı bir site haritası iletilir.

User-agent: *

Disallow:/

Sitemap: https://xip.gen.tr/sitemap.xml
 
Üst