Google Robots.txt Kuralları Genişletiyor – Yeni Değişiklikler
Google’ın Robots.txt Araştırması
Google, web sitelerinde kullanılan robots.txt dosyalarını daha iyi anlamak için kapsamlı bir araştırma başlattı. Bu çalışma, HTTP Archive verileri kullanılarak gerçekleştiriliyor ve milyonlarca web sitesinin robots.txt kullanım alışkanlıklarını analiz ediyor. Gary Illyes ve Martin Splitt’in Search Off the Record podcast’inde açıkladığı bu proje, topluluktan gelen bir önerinin ardından başladı. Ekip, sadece önerilen iki etiketi eklemek yerine, en çok kullanılan desteklenmeyen kuralların ilk 10-15’ini belirlemeye karar verdi. Bu yaklaşım, AI Content Aggregator sistemlerinin de benzer şekilde veri odaklı kararlar almasını andırıyor. Araştırma, web sitesi sahiplerinin hangi kuralları en sık kullandığını objektif verilerle ortaya koymayı hedefliyor.
Araştırmanın Teknik Detayları
HTTP Archive kullanılarak yapılan bu analiz, WebPageTest aracılığıyla aylık taramalar gerçekleştiriyor. İlk denemede ekip, standart tarama sırasında robots.txt dosyalarının istenmediğini fark etti. Bu sorunu çözmek için Barry Pollard ve HTTP Archive topluluğuyla iş birliği yaparak özel bir JavaScript ayrıştırıcı geliştirdiler. Bu ayrıştırıcı, robots.txt kurallarını satır satır analiz ediyor ve alan-iki nokta-değer kalıbına uyan her satırı çıkarıyor. AI Post Images Generator gibi modern araçların da benzer ayrıştırma teknikleri kullanması, bu tür veri işleme yöntemlerinin yaygınlaştığını gösteriyor. Şubat ayı taramasından önce birleştirilen bu özel metrik, artık BigQuery’nin custom_metrics veri setinde mevcut.
Sonuçlar ve Gelecek Planları
Araştırma sonuçları, allow, disallow ve user-agent kurallarından sonra kullanımda dramatik bir düşüş olduğunu gösteriyor. Google şu anda sadece dört alanı destekliyor: user-agent, allow, disallow ve sitemap. Illyes, analiz sırasında disallow kuralının yaygın yazım hatalarını da tespit ettiklerini belirtti ve bu hataları kabul etme konusunda daha esnek olabileceklerini ima etti. Auto Backlinks Builder gibi SEO araçları kullanan web sitesi sahipleri, bu değişiklikleri yakından takip etmeli. Planlanan güncelleme, Google’ın halka açık belgelerini etkileyecek ve Search Console’da zaten görüntülenen tanınmayan etiketleri daha net şekilde belgeleyecek. BigQuery’de herkese açık olan bu veriler, meraklıların dağılımı doğrudan incelemesine olanak tanıyor.


