In questa lezione della nostra guida SEO vedremo cos’è, a cosa serve e come funziona il file robots.txt, un file fondamentale in grado di incidere sull’indiciazzione del nostro sito web all’interno dei motori di ricerca
Cos’è il file robots.txt
Il file robots.txt è un semplicissimo file di testo che va inserito (qualora lo si voglia utilizzare) nella cartella di root del proprio un sito Web e serve ad indicare agli spider dei motori di ricerca alcune semplici direttive circa l’accesso a determinati file o intere cartelle.
Grazie al file robots.txt potremo, ad esempio, chiedere ad uno specifico spider (ad esempio Googlebot) di non scansionare determinate cartelle (ad esempio cartelle con file riservati che non vogliamo siano raggiungibili tramite Google) oppure addirittura precludere l’accesso all’intero sito ad uno specifico spider (ci sonpo in giro molti robots piuttosto noiosi ed invasivi, magari di motori secondari ed inutili dal punto di vista del traffico in entrata).
Esempio di file robots.txt
Facciamo un esempio: immaginiamo che nel nostro sito ci siano file e cartelle che non ci interessano vengano indicizzate (come la cartella delle immagini, oppure la cartella del pannello di controllo, oppure il foglio di stile CSS o il file Javascript esterno); Grazie al file robots.txt possiamo impartire tutte queste istruzioni; vediamo un esempio di formattazione:
User-agent: * Disallow: /cartella_da_non_indicizzare/ Disallow: /file_da_non_indicizzare.html Disallow: /cartella_da_indicizzare/file_da_non_indicizzare.html
Con la direttiva User-Agent possiamo indicare con chiarezza a quel spider ci riferiamo (per farlo è sufficiente scriverne il nome, ad es, Googlebot); nel nostro caso abbiamo utilizzato la wildcards (carattere asterisco) che indica "tutti gli spider"; le direttive che seguono, pertanto, dovranno essere considerate da tutti gli spider che passeranno sul sito!
La direttiva Disallow (non consentire) può essere ripetuta tante volte quanti sono i file e le cartelle da non far indicizzare allo spider. Come è possibile vedere nell’esempio, questa direttiva può riguardare un’intera cartella, un singolo file presente in una cartella (dove la cartella va indicizzata, ma quel singolo file no) o semplicemente un file.
L’indicazione di file e cartelle deve avvenire sempre indicando il percorso relativo degli stessi. Indicando nella direttiva Disallow il solo carattere slash (/) si farà riferimento all’intero sito web.
Come "si scrive" il file robots.txt?
Come detto il file robots.txt è un semplice file di testo e, come tale, può essere creato utilizzando un semplice editor di testo (come ad esempio il Notepad di Windows), in alternativa è possibile utilizzare uno dei tanti tool on-line (come questo) per la generazione automatica ed assistita del file robots.txt.
Alcuni esempi di file robots.txt
Per meglio capire il funzionamento di questo file vediamo di seguito alcuni esempi:
Ammettere tutti gli spider
Per consentire l’accesso a tutti gli spider senza restrizioni:
User-Agent: * Disallow:
Soi noti che questa è l’impostazione di "default" che equivale, nella sostanza, a non caricare il file robots.txt.
Escludere tutti gli spider
Se lo desideriamo possiamo, grazie al file robots.txt, bloccare l’indicizzazione dell’intero sito (ad esempio perchè vogliamo che questo resti riservato a noi ed ai nostri pochi amici):
User-agent: * Disallow: /
Escludere uno spider specifico
Oppure, cosa più frequente, possiamo semplicemente escludere uno specifico spider dall’accesso alle pagine del nostro sito:
User-Agent: * Disallow: User-agent: SpiderSgradito Disallow: /
Ammettere un solo spider
Supponiamo di voler autorizare l’accesso al nostro sito solo allo spider di Google, bloccando tutti gli altri:
User-Agent: * Disallow: / User-agent: Googlebot Disallow:
Conclusione
Ovviamente quelli visti sopra sono solo dei semplici esempi, ma le combinazioni sono moltissime e spesso piuttosto utili; in ogni caso il consiglio è quello di NON utilizzare il file robots.txt se non si è sicuri che questo sia necessario e che le impostazioni inserite siano corrette; se non siete sicuri di quello che state facendo sappiate che un errore potrebbe costare caro al vostro sito (il rischio è finire fuori dalle SERP!).
Una piccola nota conclusiva: se non caricarte il file robots.txt nella root del sito vi troverete molto presto con il log degli errori pieno zeppo di errori 404…