A seconda della tipologia di attività che si desidera svolgere online è possibile che un sito Web abbia la necessità di proporre i propri contenuti in mercati diversi dove si parlano lingue differenti. Una piattaforma di e-commerce creata in Italia, ad esempio, potrebbe vendere i propri prodotti anche all’estero, nello stesso modo un’azienda che offre servizi di consulenza finanziaria potrebbe rivolgersi ad una platea di utenti più ampia di quella presente nel proprio Paese.
Per affrontare queste particolari esigenze la sola traduzione delle pagine in un’altra lingua, o in più lingue, potrebbe non essere sufficiente, soprattutto in considerazione delle implicazioni che ciò potrebbe avere per la SEO (Search Engine Optimization). A tal proposito è utile introdurre una prima basilare distinzione tra sito Web multilingua e sito Web multiregionale.
Differenze tra siti Web multilingua e siti Web multiregionali
Un sito Web multilingua ha la caratteristica di mettere a disposizione i propri contenuti, proporre i propri servizi/prodotti in lingue differenti. Il titolare del sito Internet di un albergo situato a Stintino in Sardegna, ad esempio, potrebbe effettuare una traduzione delle proprie pagine in inglese, tedesco e francese perché desidera moltiplicare le proprie occasioni di contatto con clienti stranieri potenzialmente interessati ad una vacanza in Italia.
Un sito Web multiregionale è invece un sito che si rivolge nello specifico a mercati esteri adattando i propri contenuti alle specificità di altri paesi. Un’agenzia che si occupa del disbrigo di pratiche per l’immigrazione, ad esempio, deve confrontarsi con le legislazioni dei vari stati e per questo motivo sviluppare contenuti e servizi adatti a Paesi differenti nelle lingue corrispondenti. Non si tratterà, quindi, di semplici traduzioni di contenuto ma di contenuti, in parte, differenti.
E’ appena il caso di sottolineare che un sito potrebbe essere sia multilingua che multiregionale, tuttavia la distinzione proposta è tutt’altro che teorica ed ha risvolti pratici in ottica SEO in quanto:
- nel caso dei siti Web multilingua Google cercherà di mostrare tra le pagine che corrispondano alla lingua di chi ha effettuato la ricerca;
- nel caso dei siti Web multiregionali Google farà riferimento alle impostazioni internazionali delle pagine e cercherà di restituire quelle più adatte alla regione da cui è stata formulata la query (la discriminante, quindi, non è puramente linguistica ma territoriale).
Come Google vede le pagine multilingua
Elementi non idonei alla determinazione linguistica/territoriale di una pagina web
Diversamente da quello che si potrebbe pensare, certe caratteristiche strutturali delle pagine web non sarebbero sufficienti ad una corretta interpretazione da parte degli spider di Google. Vediamoli nel dettaglio.
L’utilizzo dell’attributo lang nel tag html, ad esempio:
<html lang="en">
fornisce un identificatore linguistico al browser ma non viene preso in considerazione dal motore di ricerca per questo scopo, nel senso che Google non ritiene questa indicazione sufficiente per la catalogazione della pagina come lingua inglese!
Stesso discorso per quanto riguarda l’URL delle pagine, quindi una pagina associata all’indirizzo:
https://www.mio-sito.it/en/
non viene automaticamente considerata come una pagina scritta in Inglese da parte di Google. Anche l’utilizzo di nomi a dominio con estensione geografica ben precisa non offre certezze a Google dal punto di vista della lingua impiegata nel testo, ma torneremo a breve su questo argomento.
Nello stesso modo, e questo vale anche per i siti multiregionali, non vengono presi in considerazione alcuni meta tag come geo.region, geo.placename o geo.position, nonostante essi abbiano lo scopo di specificare la località in cui viene svolta una determinata attività.
Il ruolo dei nomi a dominio nella determinazione del targeting geografico
Come anticipato, i suffissi dei nomi a dominio non hanno un ruolo fondamentale nell’identificazione dei siti Web multilingua. Possono avere però un’importanza per quanto riguarda i siti Web multiregionali, a patto di tenere presente alcuni criteri che regolano il comportamento del crawler di Google deputati alla scansione delle pagine.
Quando si parla di nomi a dominio e targeting geografico dei siti Web ci si riferisce in particolare ai ccTLD (Country Code Top Level Domain), anche detti domini di primo livello nazionale, come per esempio .it per l’Italia o .es per la Spagna. L’utilizzo di questi suffissi, tuttavia, seppur abbia una connotazione geografica ben precisa, non è considerato garanzia circa il targeting del contenuto.
E’ bene ricordare, inoltre, che esistono anche dei ccTLD, detti vanity ccTLD, in cui le estensioni potrebbero essere interpretate come delle indicazioni generiche (si pensi infatti a suffissi come .io, riferito al territorio britannico dell’Oceano Indiano, .bz, assegnato allo stato del Belize, .tv, Isole Tuvalu, e .me del Montenegro, tutti utilizzati frequentemente per scopi differenti dal targeting geografico).
Anche il suffisso del dominio, quindi, come detto in precedenza, non è considerato da Google un elemento discriminante sufficientemente certo alla determinazione del targeting geografico di un sito web ma, ad eccezione dei vanity ccTLD, può essere comunque considerato un "indizio" dell’ambito territoriale cui si rivolge un sito web.
SEO e targeting geografico delle pagine web
Per ovviare a tali ambiguità Google permette di comunicare l’esistenza di versioni localizzate di una pagina web (o di una risorsa on-line) utilizzando tre differenti modalità: il codice HTML, le intestazioni HTTP e la sitemap.
Utilizzare l’attributo hreflang
Una prima modalità per informare Google riguardo all’esistenza della versione localizzata di una pagina è quella di sfruttare l’attributo hreflang del tag link, passando ad esso il codice della lingua utilizzata per i contenuti ed il link della relativa risorsa. L’attributo in questione funziona in modo non dissimile dall’attributo canonical.
I tag link con attributo hreflang devono essere inseriti nelle intestazioni (<head>..</head>) delle pagine Web, uno per ciascuna localizzazione.
Vediamo un esempio. Supponiamo che il nostro ipotetico Hotel di Stintino abbia realizzato il suo sito web in quattro lingue: italiano, inglese, tedesco e francese. Per comunicare a Google le varie versioni linguistiche delle diverse pagine del sito lo sviluppatore ha correttamente integrato il tag hreflang in ciascuna pagina per elencarne le varie versioni. Nella pagina in italiano dedicata alle stanze, quindi, avremo l’inclusione di questo codice:
<link rel="alternate" hreflang="en" href="https://www.albergo-esempio.it/en/rooms.html" />
<link rel="alternate" hreflang="de" href="https://www.albergo-esempio.it/de/raume.html" />
<link rel="alternate" hreflang="fr" href="https://www.albergo-esempio.it/fr/pieces.html" />
E’ bene evitare l’inclusione di link auto-referenziali cioè, per esempio, nella pagina in italiano dovranno essere inseriti i link alle speculari pagine nelle altre lingue ma non anche il link alla stessa pagina italiana!
E’ bene precisare che oltre alla lingua è anche possibile specificare la sua declinazione, ad esempio: volendo comunicare la localizzazione di due pagine, una in Francese ma per il mercato belga e una seconda nella stessa lingua ma per il Canada, si potrebbero utilizzare le sintassi seguenti:
<link rel="alternate" hreflang="fr-be" href="https://www.albergo-esempio.it/fr-be/pieces.html" />
<link rel="alternate" hreflang="fr-ca" href="https://www.albergo-esempio.it/fr-ca/pieces.html" />
La Search Console di Google offre lo strumento Rapporto Targeting internazionale che consente di comunicare direttamente al motore di ricerca il targeting geografico di un sito Web, per far questo è comunque necessario che le intestazioni HTML presentino l’attributo hreflang.
Targeting geografico e intestazioni HTTP
Dato che nel caso delle pagine Web è disponibile la modalità basata sull’utilizzo del tag <link>, nettamente più semplice da implementare, le intestazioni HTTP rappresentano una buona soluzione nel caso di altri formati di file come, per esempio, i documenti in PDF. Per consentire il targeting geografico esse devono contenere almeno due informazioni:
- l’URL della pagina da localizzare;
- il codice della lingua utilizzata per i contenuti della pagina.
Il codice seguente mostra, ad esempio, come si possano restituire le intestazioni HTTP per la localizzazione di un file PDF disponibile in Inglese, Spagnolo e Tedesco:
Link: <https://www.mio-sito.it/en/doc.pdf>; rel="alternate"; hreflang="en",
<https://www.mio-sito.it/es/doc.pdf>; rel="alternate"; hreflang="es",
<https://www.mio-sito.it/de/doc.pdf>; rel="alternate"; hreflang="de"
Da notare come ciascun URL debba essere delimitato tramite i caratteri “<..>”, mentre le intestazioni devono essere separate tramite una virgola.
Targeting geografico e sitemap
Dato che le sitemap permettono di descrivere a Google la struttura di un sito Web, è possibile utilizzarle anche per indicare al motore di ricerca le pagine che sono state localizzate geograficamente per target linguistici specifici.
Tornando all’esempio dell’ipotetico albergo di Stintino il codice seguente permette di comunicare a Google l’esistenza delle quattro pagine dedicate alla descrizione delle stanze della struttura rispettivamente in lingua italiana, inglese, tedesca e francese.
<url>
<loc>https://www.albergo-esempio.it/stanze.html</loc>
<xhtml:link
rel="alternate"
hreflang="it"
href="https://www.albergo-esempio.it/stanze.html"/>
<xhtml:link
rel="alternate"
hreflang="en"
href="https://www.albergo-esempio.it/en/rooms.html"/>
<xhtml:link
rel="alternate"
hreflang="de"
href="https://www.albergo-esempio.it/de/raume.html"/>
<xhtml:link
rel="alternate"
hreflang="fr"
href="https://www.albergo-esempio.it/fr/pieces.html"/>
</url>
Tale blocco di codice deve essere, ovviamente, ripetuto nella sitemap per ciascuna delle pagine, ricordandosi di riportare nuovamente nel blocco xhtml:link anche l’URL della pagina delimitata dagli elementi <loc>..</loc>. L’ordine con il quale vengono elencate le pagine non è rilevante ma si consiglia di mantenere sempre la medesima struttura per ciascun blocco <url>..</url> per migliorare la leggibilità della sitemap ed agevolarne la comprensione da parte degli spider.
Best practices per siti multilingua e multiregionali
Struttura delle URL e targeting geografico
Il discorso sulla relazione tra targeting geografico e URL estende quello fatto in precedenza riguardo alle estensioni per i nomi a dominio. Anche in questo caso è bene sottolineare che, da solo, un URL non rappresenta un’informazione sufficiente per permettere a Google di identificare con precisione le varie localizzazioni di un sito Web, si tratta però di un elemento in grado di facilitare tale processo.
In questo caso l’esempio più semplice potrebbe riguardare un URL come il seguente:
https://www.mio-sito.it
In questo caso il dominio in oggetto appare diretto nello specifico agli utenti di lingua italiana, esso ha sicuramente il vantaggio di restituire immediatamente l’informazione relativa al targeting, introduce inoltre un elemento di disambiguazione facilmente leggibile che ha valore indipendentemente dal Paese in cui è residente il server utilizzato. Per contro si deve tenere in considerazione la necessità di registrare un ccTLD differente per ciascuna localizzazione e le limitazioni che possono eventualmente essere imposte per la titolarità di alcune estensioni geografiche.
Nel caso specifico di un sito disponibile in Italiano, Tedesco, Francese e Spagnolo, ad esempio, dovremo acquistare 4 differenti domini:
https://www.mio-sito.it https://www.mio-sito.de https://www.mio-sito.fr https://www.mio-sito.es
Una simile soluzione appare particolarmente idonea ad i siti multiregionali.
Un’altra soluzione prevede l’utilizzo dei sottodomini a partire da nomi a dominio generici (come ad esempio COM o NET):
https://it.mio-sito.com
Tale alternativa, oltre a richiedere un minimo sforzo in termini di configurazione lato server, risulta molto più economica rispetto a quella precedente (si deve registrare un solo dominio) e non deve confrontarsi con eventuali limitazioni a carico dei ccTLD. L’uso del codice linguistico per il sottodominio si presta però ad ambiguità e, nello specifico, potrebbe non risultare chiara la distinzione tra siti Web multilingua e siti Web multiregionali.
Se non si desidera ricorrere ai sottodomini è possibile fare ricorso a delle sotto-directory generate all’interno del medesimo host, in questo modo:
https://www.mio-sito.com/it/
Anche in questo caso le esigenze legate alle configurazioni sono di scarsa entità e, come accade per i sottodomini, si può approfittare del targeting internazionale tramite la Search Console di Google. Rimangono però le ambiguità riguardo alla destinazione del sito (multilingua o multiregionale?) e può essere molto macchinoso separare le varie localizzazioni tramite delle directory.
Google stessa sconsiglia invece le localizzazioni tramite passaggio di parametri in querystring:
https://www.mio-sito.com?lang=it
Questo per via della scarsa leggibilità di tale formato, sia per gli utenti che per i motori di ricerca, che per la mancanza del supporto da Search Console. Rimangono inoltre gli elementi di ambiguità citati per i due casi precedenti e le problematiche che potrebbero sorgere in seguito ad un’eccessiva segmentazione dei contenuti in un numero potenzialmente elevato di URL.
L’importanza della user experience
Gli spider di Google sono assolutamente in grado di riconoscere la lingua in cui è scritta una pagina web.
Dal punto di vista della user experience Google tenderebbe a privilegiare le pagine scritte in un’unica lingua mentre non apprezzerebbe i "mix" di più lingue. Altro elemento importante è la qualità del testo: i contenuti tradotti in modo approssimativo o generati tramite traduttori automatici, infatti, non sono graditi al motore di ricerca: potrebbero, infatti, essere facilmente interpretati come spam e trattati come tale.
Per creare contenuti multilingua graditi a Google, quindi, è bene rispettare alcune regole:
- evitare pagine aventi contenuti scritti in più lingue: andrebbero quindi evitate le pagine in cui lo stesso contenuto è ripetuto in più lingue diverse o quelle dove viene tradotto solo il contenuto centrale della pagina ma vengono lasciati menu, link, note e pié di pagina nella lingua originale del sito;
- evitare traduzioni automatiche, sgrammaticate e approssimative: i contenuti tradotti in modo approssimativo o generati tramite traduttori automatici non sono graditi al motore di ricerca in quanto potrebbero essere scambiati per spam e trattati come tale.
Se nel vostro sito avete contenuti di questo tipo e non siete disposti a cancellarli o modificarli, sarebbe meglio evitare la scansione da parte dei crawler tramite file robots.txt o, preferibilmente, attraverso l’apposizione della apposita direttiva nofollow attraverso l’aggiunta dell’apposito metatag in pagina:
<meta name="robots" content="noindex, nofollow">