Ana Sayfa

Cloudflare'ın Yeni Crawl Endpoint'i ile Tek API Çağrısıyla Web Sitesi Tarama

1 dk okuma

Cloudflare, Browser Rendering hizmetine eklediği yeni /crawl endpoint'i ile web sitelerinin tamamını tek bir API çağrısıyla tarama imkanı sunuyor. Açık beta sürecinde olan bu özellik sayesinde kullanıcılar, başlangıç URL'sini belirterek sayfaların otomatik olarak keşfedilmesini, headless bir tarayıcıda işlenmesini ve HTML, Markdown veya Workers AI destekli yapılandırılmış JSON gibi çeşitli formatlarda geri döndürülmesini sağlayabiliyor. Bu yenilik, özellikle yapay zeka modellerini eğitmek, RAG (Retrieval Augmented Generation) pipeline'ları oluşturmak ve web sitelerindeki içeriği araştırmak veya izlemek için büyük kolaylık sağlıyor.

Tarama işlemleri asenkron olarak yürütülüyor. Kullanıcılar bir URL gönderdiğinde bir iş ID'si alıyor ve sayfalar işlendikçe sonuçları kontrol edebiliyor. Endpoint, tarama derinliği, sayfa limitleri ve belirli URL yollarını dahil etme veya hariç tutma için joker karakter desenleri gibi kapsam kontrolleri sunuyor. Ayrıca, sitemap'lerden veya sayfa bağlantılarından URL'leri otomatik olarak keşfetme yeteneğine sahip.

Verimlilik açısından, modifiedSince ve maxAge parametreleri ile artımlı tarama yapılabiliyor, bu da değişmeyen veya yakın zamanda getirilen sayfaların atlanarak zaman ve maliyet tasarrufu sağlamasına olanak tanıyor. Statik siteler için render: false ayarı ile tarayıcı başlatmadan statik HTML'i daha hızlı getirme imkanı da mevcut. Cloudflare, robots.txt direktiflerine ve crawl-delay kurallarına uyarak "iyi huylu bir bot" gibi davranıyor. Bu yeni özellik, hem Workers Free hem de Paid planlarında kullanıma sunuldu.

İçgörü

Cloudflare'ın yeni /crawl endpoint'i, web sitelerinin içeriğini programatik olarak toplama ve işleme süreçlerini basitleştirerek geliştiricilere ve veri bilimcilere önemli ölçüde zaman ve kaynak tasarrufu sağlıyor.

Kaynak