03 Nov, 2006
Yahoo! Slurp più amico del file robots.txt
Posted by: NR In: Posizionamento su Yahoo| spider
Yahoo! Slurp, lo spider di Yahoo! si evolve e diventa più amico del file robots.txt, imparando a gestire nel modo corretto le ‘wildcards’ ovvero quei caratteri come ‘*’ e ‘$, caratteri che permettono di gestire numerosi e variabili parametri delle url delle pagine web. Il file robots.txt è un file di fondamentale importanza per un sito dato che comunica allo spider quali pagine di quel sito devono essere spiderizzate ed indicizzate e quali invece no. La modifica allo spider di Yahoo! è una importante evoluzione verso una uniformazione delle regole e funzionamento del file robots.txt per ogni motore di ricerca.
Come segnalato dalle pagine di Yahoo! Search Blog, i due nuovi parametri ‘wildcards’ permettono questo utilizzo:
il parametro ‘*’ sta a significare qualsiasi valore che ‘matcha’ i parametri specificati. Ad esempio:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Disallow: /*?sessionid
Significa comunicare allo spider di accedere a tutte le pagine del sito con url che comincia con /public seguito da qualsiasi cosa (come /public_html/’ o ‘/public_graphs/’). Allo stesso tempo dice allo spider di non indicizzare le pagine che contengano il paramentro ‘_print’ nell’url ( ‘/card_print.html’ o ‘/store_print/product.html’) oppure, nell’ultimo rigo, qualsiasi url che contenga ‘?sessionid’ (’/cart.php?sessionid=342bca31’ ). In realtà, viene specificato, che in tal caso, l’uso di ‘*’ risulta rindondante, dato che per lo spider di Yahoo!
Disallow: /private*
Disallow: /private
signifcano la stessa cosa. Anche in assenza dell’asterisco, lo spider non avrebbe spiderizzato tutte le pagine con quel parametro, ma è un’importante scelta verso un codice di utilizzo universale.
L’altra modifica, è l’introduzione del parametro ‘$’ alla fine della url. Un robots.txt che recita cosi:
User-Agent: Yahoo! Slurp
Disallow: /*.gif$
Allow: /*?$
significa comunicare allo spider di non spiderizzare tutte le pagine che terminano con ‘.gif’. (in mancanza dell’$, lo spider non avrebbe indicizzato qualsiasi url che conteneva .gif in ogni parte dell’url e non alla fine). Stessa cosa per l’ultimo rigo, anche qui si comunica di spiderizzare le url che terminanio con ?, mentre una url che avrebbe il parametro ‘?’ in un altro puno della url non verrebbe spiderizzata.
Se siete invece interessati a conoscere i dettagli del file robots.txt per lo spider di Google, Googlebot, il Blog di Google ha un’importante articolo sul tema del file robots.txt e Googlebot.
