SitemapScan Blog
User-agent nel robots.txt spiegati: come leggere le regole bot senza tirare a indovinare
Nel robots.txt compaiono bot di ricerca, crawler IA, social preview bot, strumenti di monitoring e molti nomi strani. Raggrupparli per funzione rende il segnale leggibile.
Partire dalla regola wildcard
User-agent: * è la regola generale di default finché un blocco più specifico non prende il sopravvento.
Perché le famiglie di bot contano
Bot di ricerca, bot social, bot di sicurezza, crawler IA e strumenti di monitoring hanno scopi diversi. Mischiarli cancella la policy reale.
Cosa fare con i nomi sconosciuti
I bot poco noti si capiscono meglio se prima vengono raggruppati per funzione: discovery, distribution, extraction, monitoring, verification o infrastruttura.
Related pages
- Crawler di ricerca vs crawler IA nel robots.txt: quali segnali stanno inviando i siti — Sempre più siti trattano in modo diverso bot di ricerca e crawler IA. È soprattutto un segnale pubblico di policy, non un report sul traffico reale.
- robots.txt e Sitemap: come lavorano insieme — Il file robots.txt e la sitemap XML hanno ruoli diversi ma complementari. Capire come interagiscono ti aiuta a controllare il comportamento dei crawler con maggiore precisione.
- Più sitemap nel robots.txt: cosa significa e come analizzarle — Alcuni siti dichiarano una sitemap nel robots.txt, altri venti. Ecco cosa significano davvero più direttive Sitemap e come analizzare correttamente questa struttura.
- Blog — Consigli, guide e best practice per sitemap XML e SEO tecnico.