back to top

Il file robots.txt – Guida SEO

In questa lezione della nostra guida SEO vedremo cos’è, a cosa serve e come funziona il file robots.txt, un file fondamentale in grado di incidere sull’indiciazzione del nostro sito web all’interno dei motori di ricerca

Cos’è il file robots.txt

Il file robots.txt è un semplicissimo file di testo che va inserito (qualora lo si voglia utilizzare) nella cartella di root del proprio un sito Web e serve ad indicare agli spider dei motori di ricerca alcune semplici direttive circa l’accesso a determinati file o intere cartelle.

Grazie al file robots.txt potremo, ad esempio, chiedere ad uno specifico spider (ad esempio Googlebot) di non scansionare determinate cartelle (ad esempio cartelle con file riservati che non vogliamo siano raggiungibili tramite Google) oppure addirittura precludere l’accesso all’intero sito ad uno specifico spider (ci sonpo in giro molti robots piuttosto noiosi ed invasivi, magari di motori secondari ed inutili dal punto di vista del traffico in entrata).

Esempio di file robots.txt

Facciamo un esempio: immaginiamo che nel nostro sito ci siano file e cartelle che non ci interessano vengano indicizzate (come la cartella delle immagini, oppure la cartella del pannello di controllo, oppure il foglio di stile CSS o il file Javascript esterno); Grazie al file robots.txt possiamo impartire tutte queste istruzioni; vediamo un esempio di formattazione:

User-agent: *
Disallow: /cartella_da_non_indicizzare/
Disallow: /file_da_non_indicizzare.html
Disallow: /cartella_da_indicizzare/file_da_non_indicizzare.html

Con la direttiva User-Agent possiamo indicare con chiarezza a quel spider ci riferiamo (per farlo è sufficiente scriverne il nome, ad es, Googlebot); nel nostro caso abbiamo utilizzato la wildcards (carattere asterisco) che indica "tutti gli spider"; le direttive che seguono, pertanto, dovranno essere considerate da tutti gli spider che passeranno sul sito!

La direttiva Disallow (non consentire) può essere ripetuta tante volte quanti sono i file e le cartelle da non far indicizzare allo spider. Come è possibile vedere nell’esempio, questa direttiva può riguardare un’intera cartella, un singolo file presente in una cartella (dove la cartella va indicizzata, ma quel singolo file no) o semplicemente un file.

L’indicazione di file e cartelle deve avvenire sempre indicando il percorso relativo degli stessi. Indicando nella direttiva Disallow il solo carattere slash (/) si farà riferimento all’intero sito web.

Come "si scrive" il file robots.txt?

Come detto il file robots.txt è un semplice file di testo e, come tale, può essere creato utilizzando un semplice editor di testo (come ad esempio il Notepad di Windows), in alternativa è possibile utilizzare uno dei tanti tool on-line (come questo) per la generazione automatica ed assistita del file robots.txt.

Alcuni esempi di file robots.txt

Per meglio capire il funzionamento di questo file vediamo di seguito alcuni esempi:

Ammettere tutti gli spider

Per consentire l’accesso a tutti gli spider senza restrizioni:

User-Agent: *
Disallow:

Soi noti che questa è l’impostazione di "default" che equivale, nella sostanza, a non caricare il file robots.txt.

Escludere tutti gli spider

Se lo desideriamo possiamo, grazie al file robots.txt, bloccare l’indicizzazione dell’intero sito (ad esempio perchè vogliamo che questo resti riservato a noi ed ai nostri pochi amici):

User-agent: *
Disallow: /

Escludere uno spider specifico

Oppure, cosa più frequente, possiamo semplicemente escludere uno specifico spider dall’accesso alle pagine del nostro sito:

User-Agent: *
Disallow:

User-agent: SpiderSgradito
Disallow: /

Ammettere un solo spider

Supponiamo di voler autorizare l’accesso al nostro sito solo allo spider di Google, bloccando tutti gli altri:

User-Agent: *
Disallow: /

User-agent: Googlebot
Disallow:

Conclusione

Ovviamente quelli visti sopra sono solo dei semplici esempi, ma le combinazioni sono moltissime e spesso piuttosto utili; in ogni caso il consiglio è quello di NON utilizzare il file robots.txt se non si è sicuri che questo sia necessario e che le impostazioni inserite siano corrette; se non siete sicuri di quello che state facendo sappiate che un errore potrebbe costare caro al vostro sito (il rischio è finire fuori dalle SERP!).

Una piccola nota conclusiva: se non caricarte il file robots.txt nella root del sito vi troverete molto presto con il log degli errori pieno zeppo di errori 404…

Pubblicitร 
Massimiliano Bossi
Massimiliano Bossi
Stregato dalla rete sin dai tempi delle BBS e dei modem a 2.400 baud, ho avuto la fortuna di poter trasformare la mia passione in un lavoro (nonostante una Laurea in Giurisprudenza). Adoro scrivere codice e mi occupo quotidianamente di comunicazione, design e nuovi media digitali. Orgogliosamente "nerd" sono il fondatore di MRW.it (per il quale ho scritto centinaia di articoli) e di una nota Web-Agency (dove seguo in prima persona progetti digitali per numerosi clienti sia in Italia che all'estero).