Marketing Guru | Marketing Online

03 Nov, 2006

Yahoo! Slurp più amico del file robots.txt

Posted by: NR In: Posizionamento su Yahoo| spider

Yahoo! Slurp, lo spider di Yahoo! si evolve e diventa più amico del file robots.txt, imparando a gestire nel modo corretto le ‘wildcards’ ovvero quei caratteri come ‘*’ e ‘$, caratteri che permettono di gestire numerosi e variabili parametri delle url delle pagine web. Il file robots.txt è un file di fondamentale importanza per un sito dato che comunica allo spider quali pagine di quel sito devono essere spiderizzate ed indicizzate e quali invece no. La modifica allo spider di Yahoo! è una importante evoluzione verso una uniformazione delle regole e funzionamento del file robots.txt per ogni motore di ricerca.

Come segnalato dalle pagine di Yahoo! Search Blog, i due nuovi parametri ‘wildcards’ permettono questo utilizzo:

il parametro ‘*’ sta a significare qualsiasi valore che ‘matcha’ i parametri specificati. Ad esempio:

User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Disallow: /*?sessionid

Significa comunicare allo spider di accedere a tutte le pagine del sito con url che comincia con /public seguito da qualsiasi cosa (come /public_html/’ o ‘/public_graphs/’). Allo stesso tempo dice allo spider di non indicizzare le pagine che contengano il paramentro ‘_print’ nell’url ( ‘/card_print.html’ o ‘/store_print/product.html’) oppure, nell’ultimo rigo, qualsiasi url che contenga ‘?sessionid’ (’/cart.php?sessionid=342bca31’ ). In realtà, viene specificato, che in tal caso, l’uso di ‘*’ risulta rindondante, dato che per lo spider di Yahoo!

Disallow: /private*
Disallow: /private

signifcano la stessa cosa. Anche in assenza dell’asterisco, lo spider non avrebbe spiderizzato tutte le pagine con quel parametro, ma è un’importante scelta verso un codice di utilizzo universale.

L’altra modifica, è l’introduzione del parametro $’ alla fine della url. Un robots.txt che recita cosi:

User-Agent: Yahoo! Slurp
Disallow: /*.gif$
Allow: /*?$

significa comunicare allo spider di non spiderizzare tutte le pagine che terminano con ‘.gif’. (in mancanza dell’$, lo spider non avrebbe indicizzato qualsiasi url che conteneva .gif in ogni parte dell’url e non alla fine). Stessa cosa per l’ultimo rigo, anche qui si comunica di spiderizzare le url che terminanio con ?, mentre una url che avrebbe il parametro ‘?’ in un altro puno della url non verrebbe spiderizzata.

Se siete invece interessati a conoscere i dettagli del file robots.txt per lo spider di Google, Googlebot, il Blog di Google ha un’importante articolo sul tema del file robots.txt e Googlebot.

Nessun commento a "Yahoo! Slurp più amico del file robots.txt"

Comment Form


  • salvatore: Sono d'accordo sul fatto che il pagerank sia solo uno degli elementi che concorrono al posizionamento di un sito: eppure io non back-linkerei (orrido
  • PageRank: nuovo aggiornamento | Web Marketing Blog: [...] SEO italiani e ottimi bloggers hanno ripreso alcune considerazioni direttamente da oltre oceano. http://seo.nicolariva.it/pagerank-inutile-osses
  • Max: A me sta cosa dell'evoluzione del "ragno" di Google nn può che fare piacere, io realizzo siti web e adoro il flash (a mio parere un'invenzione a dir