Condivisioni 36

Il file robots.txt lo avrai sentito nominare spesso se hai a che fare con WordPress, ma che cos’è di preciso? Partiamo dalla descrizione tecnica che ci offre Wikipedia:

“Il protocollo di esclusione robot indica, nel gergo di internet e più in generale del web, le regole utilizzate dai crawler per applicare restrizioni di analisi sulle pagine di un sito web. Esse sono contenute nel file robots.txt, ideato nel giugno 1994 con il consenso dei membri della robots mailing list. In questo momento non esiste un vero e proprio standard per il protocollo robots.”

In pratica questo file contiene delle istruzioni che i motori di ricerca devono seguire quando scansionano le pagine di un sito web.

La prima volta che ho sentito il bisogno di configurare il file robots.txt è stata quando, controllando su Google Webmaster Tool, ho trovato tantissimi errori 404crowler non riuscivano a raggiungere molti link perchè li avevo completamente rimossi dal sito.

 

CROWLER / SPIDER: QUESTI (S)CONOSCIUTI!

Ma cosa sono i crowler? Il crawler è un software che analizza i contenuti del nostro database per conto di un motore di ricerca. In pratica il motore di ricerca fornisce al crowler una lista di URL che devono essere analizzati, in modo da aggiornare costantemente l’elenco dei nostri hyperlink.

Quando configuri il file robots.txt non fai altro che dare ai crawler (detti anche spider) delle regole da seguire e indichi quali pagine devono essere analizzate e scansionate, e quali invece no.

 

DOVE INSERIRE IL FILE ROBOTS.TXT SE UTILIZZO WORDPRESS?

E’ sufficiente un semplice notepad o un altro editor di testo. Quel che importa è salvare il file con estensione .TXT e chiamarlo esattamente robots.txt

Una volta creato il file, basterà caricarlo nella root del nostro sito e il gioco è fatto!

  • Per essere più precisi, entra nel tuo sito tramite un programma FTP (io utilizzo FileZilla e te lo consiglio vivamente), carica il file robots.txt nella cartella principale cioè quella che contiene sia le tre cartelle principali di WordPress (wp-content/wp-admin/wp-includes) sia gli altri files tipo index.php / wp-config.php ecc.

Ecco dove devi caricare il file robots.txt di preciso. In questo esempio ho utilizzato FileZilla.

robots.txt

 

CONFIGURARE IL FILE ROBOTS.TXT PER WORDPRESS

 

[NO] Fai attenzione perchè se inserisci “/” in disallow bloccherai l’indicizzazione di tutti i contenuti:

User-agent: *

Disallow: /

 

[SI] Poichè sono sicuro che ti piacerebbe avere il migliore modello di file robots.txt già bello e pronto, eccone uno realizzato seguendo le linee guida di codeplex.

User-agent: *

Allow: /

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content

Disallow: /e/

Disallow: /show-error-*

Disallow: /xmlrpc.php

Disallow: /trackback/

Disallow: /comment-page-

Allow: /wp-content/uploads/


User-agent: Mediapartners-Google

Allow: /


User-agent: Adsbot-Google

Allow: /


User-agent: Googlebot-Image

Allow: /


User-agent: Googlebot-Mobile

Allow: /


Sitemap: http://www.miosito.it/sitemap.xml (QUI INSERISCI LA SITEMAP DEL TUO SITO WEB)

 

Il tuo primo file robots, invece, doveva essere configurato come l’esempio qui sotto:

User-agent: *

Disallow:

 

Ovviamente niente ti vieta di creare un file robots.txt  personalizzato in base alle tue esigenze! Se vuoi vedere gli altri siti come hanno impostato il loro, al termine di un URL scrivi “/robots.txt” (senza virgolette).

Ad esempio cerca www.facebook.it/robots.txt e guarda quale configurazione utilizza il portale di Mark Zuckerberg. Credo che Google, in ogni caso, preferisca che sia dato l’accesso totale al sito, infatti se controlli la console di Web Master Tool e segui il percorso:

  • Configurazione sito
  • Crawler
  • Genera file Robots.txt

Ti verrà consigliato di impostare il file in questo modo:

User-agent: *

Allow: /

Ora non resta che sperimentare e configurare il file robots.txt come meglio credi si adatti al tuo sito web. Per verificare i risultati controlla costantemente i dati riportati sul sito “Strumenti per i Webmaster di Google” e modificalo secondo le tue esigenze.

 

By Giorgio Perillo


Configurare il file robots.txt per WordPress: La Guida
4.7 (93.85%) 13 votes

Condivisioni 36