Il file robots.txt lo avrai sentito nominare spesso se hai a che fare con WordPress, ma che cos’è di preciso? Partiamo dalla descrizione tecnica che ci offre Wikipedia:

“Il protocollo di esclusione robot indica, nel gergo di internet e più in generale del web, le regole utilizzate dai crawler per applicare restrizioni di analisi sulle pagine di un sito web. Esse sono contenute nel file robots.txt, ideato nel giugno 1994 con il consenso dei membri della robots mailing list. In questo momento non esiste un vero e proprio standard per il protocollo robots.”

In pratica questo file contiene delle istruzioni che i motori di ricerca devono seguire quando scansionano le pagine di un sito web.

La prima volta che ho sentito il bisogno di configurare il file robots.txt è stata quando, controllando su Google Webmaster Tool, ho trovato tantissimi errori 404crowler non riuscivano a raggiungere molti link perchè li avevo completamente rimossi dal sito.

 

CROWLER / SPIDER: QUESTI (S)CONOSCIUTI!

Ma cosa sono i crowler? Il crawler è un software che analizza i contenuti del nostro database per conto di un motore di ricerca. In pratica il motore di ricerca fornisce al crowler una lista di URL che devono essere analizzati, in modo da aggiornare costantemente l’elenco dei nostri hyperlink.

Quando configuri il file robots.txt non fai altro che dare ai crawler (detti anche spider) delle regole da seguire e indichi quali pagine devono essere analizzate e scansionate, e quali invece no.

 

DOVE INSERIRE IL FILE ROBOTS.TXT SE UTILIZZO WORDPRESS?

E’ sufficiente un semplice notepad o un altro editor di testo. Quel che importa è salvare il file con estensione .TXT e chiamarlo esattamente robots.txt

Una volta creato il file, basterà caricarlo nella root del nostro sito e il gioco è fatto!

  • Per essere più precisi, entra nel tuo sito tramite un programma FTP (io utilizzo FileZilla e te lo consiglio vivamente), carica il file robots.txt nella cartella principale cioè quella che contiene sia le tre cartelle principali di WordPress (wp-content/wp-admin/wp-includes) sia gli altri files tipo index.php / wp-config.php ecc.

Ecco dove devi caricare il file robots.txt di preciso. In questo esempio ho utilizzato FileZilla.

robots.txt

 

CONFIGURARE IL FILE ROBOTS.TXT PER WORDPRESS

 

[NO] Fai attenzione perchè se inserisci “/” in disallow bloccherai l’indicizzazione di tutti i contenuti:

User-agent: *
Disallow: /

 

[SI] Poichè sono sicuro che ti piacerebbe avere il migliore modello di file robots.txt già bello e pronto, eccone uno realizzato seguendo le linee guida di codeplex.

User-agent: *
Allow: /
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /e/
Disallow: /show-error-*
Disallow: /xmlrpc.php
Disallow: /trackback/
Disallow: /comment-page-
Allow: /wp-content/uploads/
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://www.miosito.it/sitemap.xml (QUI INSERISCI LA SITEMAP DEL TUO SITO WEB)

 

Il tuo primo file robots, invece, doveva essere configurato come l’esempio qui sotto:

User-agent: *
Disallow:

 

Ovviamente niente ti vieta di creare un file robots.txt  personalizzato in base alle tue esigenze! Se vuoi vedere gli altri siti come hanno impostato il loro, al termine di un URL scrivi “/robots.txt” (senza virgolette).

Ad esempio cerca www.facebook.it/robots.txt e guarda quale configurazione utilizza il portale di Mark Zuckerberg. Credo che Google, in ogni caso, preferisca che sia dato l’accesso totale al sito, infatti se controlli la console di Web Master Tool e segui il percorso:

  • Configurazione sito
  • Crawler
  • Genera file Robots.txt

Ti verrà consigliato di impostare il file in questo modo:

User-agent: *
Allow: /

Ora non resta che sperimentare e configurare il file robots.txt come meglio credi si adatti al tuo sito web. Per verificare i risultati controlla costantemente i dati riportati sul sito “Strumenti per i Webmaster di Google” e modificalo secondo le tue esigenze.

 

By Giorgio Perillo

Configurare il file robots.txt per WordPress: La Guida
4.67 (93.33%) 12 votes
CONDIVIDI
Giorgio Perillo
Giornalista pubblicista. Laureato in Giurisprudenza presso l'Università Federico II di Napoli. WordPress Specialist e SEO Junior. CEO di MenteInformatica.it