File Robots.txt e SEO: Cos'è e Best Practice di compilazione

Home > Blog e Risorse Utili > SEO > File Robots.txt, come utilizzarlo in modo virtuoso e le implicazioni lato SEO

Il robots.txt è un file di testo situato nella directory principale di un sito web. Google lo definisce come uno strumento per indicare ai crawler dei motori di ricerca quali URL sono accessibili su un sito.

La sua storia risale al novembre 1993, quando Martijn Koster, un ricercatore olandese di Nexor, propose l’idea durante una conferenza a Boston. L’obiettivo era creare un protocollo standard per regolare l’accesso dei crawler ai siti web, prevenendo il sovraccarico dei server e proteggendo le risorse sensibili.

Nel giugno 1994, venne pubblicato il documento che descriveva il “Robots Exclusion Standard”, segnando ufficialmente la nascita del file robots.txt.

Indice

Funzionamento e importanza del robots.txt per la SEO
Struttura e sintassi del file Robots.txt
Limitazioni e considerazioni importanti
Creazione e implementazione del Robots.txt sui principali CMS
Gli 8 errori più comuni da evitare
Robots.txt per E-commerce
Verifica e monitoraggio
Conclusioni

Funzionamento e importanza del robots.txt per la SEO

Secondo Google, il robots.txt serve principalmente a gestire il traffico dei crawler verso un sito, e in alcuni casi, escludere file specifici dall’indicizzazione.

Questa funzione è cruciale per ottimizzare il crawl budget, evitando che i motori di ricerca sprechino risorse su contenuti non essenziali o non destinati all’indicizzazione.

Per i professionisti SEO, il robots.txt offre l’opportunità di indirizzare l’attenzione dei crawler verso i contenuti più rilevanti, contribuendo a migliorare la visibilità del sito nei risultati di ricerca.

Tuttavia, Google sottolinea che il robots.txt non è uno strumento per nascondere pagine dai risultati di ricerca, ma serve a gestire quali risorse vengono scansionate.

Struttura e sintassi del file Robots.txt

La struttura del robots.txt si basa principalmente su due concetti chiave: User-agent e Disallow.

Ecco alcuni esempi pratici:

Bloccare l’accesso a tutto il sito:
User-agent: *
Disallow: /

Permettere l’accesso a tutto il sito:
User-agent: *
Disallow:

Bloccare una directory specifica:
User-agent: *
Disallow: /privato/

Bloccare un file specifico:
User-agent: *
Disallow: /file-segreto.html

Bloccare più percorsi:
User-agent: *
Disallow: /privato/
Disallow: /temporaneo/
Disallow: /bozze/

Bloccare un bot specifico:
User-agent: Googlebot-Image
Disallow: /immagini/

Permettere solo un bot specifico:
User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

Altro elemento importante, è quello che Google supporta l’uso di caratteri jolly (*) e caratteri finali ($) nel file robots.txt per creare regole più avanzate:

Asterisco (*): rappresenta una sequenza di caratteri qualsiasi.
Simbolo di fine ($): indica la fine dell’URL.

Esempio di utilizzo del carattere jolly:

User-agent: *
Disallow: /immagini/*.jpg$

Questa regola impedisce la scansione di tutte le immagini con estensione .jpg.

Google evidenzia che le istruzioni nei file robots.txt non impongono il comportamento del crawler, ma spetta al crawler rispettarle. Mentre crawler affidabili come Googlebot seguono generalmente queste istruzioni, non c’è garanzia che tutti i bot lo facciano.

Limitazioni e considerazioni importanti

Google chiarisce che il robots.txt non è un meccanismo per escludere una pagina web dall’indicizzazione. Per impedire l’indicizzazione di una pagina, è necessario utilizzare altri metodi come il meta tag noindex o la protezione tramite password.

Inoltre, Google avverte che una pagina non consentita nel file robots.txt può comunque essere indicizzata se altri siti la linkano.

Creazione e implementazione del Robots.txt sui principali CMS

WordPress

WordPress non crea automaticamente un file robots.txt, ma è possibile crearlo manualmente, inserendo apposito file nella directory principale del sito. Ecco un esempio base:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Questo file blocca l’accesso alla directory di amministrazione, ma permette l’accesso a admin-ajax.php, necessario per alcune funzionalità del sito.

In alternativa, è possibile creare il robots.txt anche utilizzando appositi plugin come SEO Yoast e RankMath.

Con Yoast SEO, vai su “SEO” > “Strumenti” > “Editor file” e seleziona “robots.txt”.

Con Rank Math, vai su “Rank Math” > “Generale” > “Edit robots.txt”.

In entrambi i casi, troverai un editor dove puoi inserire le direttive per i crawler dei motori di ricerca. Salva le modifiche e il plugin genererà automaticamente il file robots.txt virtuale per il tuo sito.

Shopify

Shopify genera automaticamente un file robots.txt, ma è possibile personalizzarlo. Ecco un esempio:

User-agent: *
Disallow: /admin
Disallow: /cart
Disallow: /orders
Allow: /admin/themes/

Per modificare il robots.txt su Shopify, accedi al pannello di amministrazione del tuo negozio online. Vai su “Canali di vendita online” > “Preferenze”. Scorri verso il basso fino alla sezione “Motori di ricerca” e cerca l’opzione “Modifica robots.txt”. Clicca su “Modifica” per aprire l’editor.

Qui puoi aggiungere, rimuovere o modificare le direttive per i crawler dei motori di ricerca.

Una volta apportate le modifiche desiderate, clicca su “Salva” per applicarle al tuo negozio Shopify.

PrestaShop

PrestaShop permette di modificare il robots.txt dal back-office. Un esempio potrebbe essere:

User-agent: *
Disallow: /admin-dev/
Disallow: /cache/
Disallow: /download/
Disallow: /upload/

Per modificare il file robots.txt su PrestaShop, accedi al pannello di amministrazione del tuo negozio. Vai su “Preferenze” > “Traffico e SEO” > “SEO e URL”. Scorri verso il basso fino a trovare la sezione “Generazione file robots.txt”.

Qui troverai un’area di testo dove puoi inserire o modificare le direttive per i crawler dei motori di ricerca.

Magento

Magento offre un controllo avanzato sul file robots.txt. Ecco un esempio:

User-agent: *
Disallow: /index.php/
Disallow: /*?
Disallow: /checkout/
Disallow: /app/
Disallow: /lib/
Disallow: /*.php$
Allow: /*.css$
Allow: /*.js$

Gli 8 errori più comuni da evitare

Creare un file robots.txt vuoto o troppo complesso.
Bloccare risorse utili come CSS e JavaScript.
Usare il robots.txt per nascondere informazioni riservate e/o sensibili.
Cercare di impedire l’indicizzazione di pagine (usare invece il meta tag noindex).
Usare il disallow su pagine con tag noindex, rel=canonical o meta tag nofollow.
Non verificare gli status code delle pagine.
Non curare la sintassi del file.
Non aggiungere la posizione di una sitemap.

Robots.txt per E-commerce

Anche per i siti eCommerce, il robots.txt è particolarmente importante. Ecco un esempio più dettagliato:

User-agent: *
Disallow: /ricerca?
Disallow: /carrello
Disallow: /checkout
Disallow: /account
Allow: /categorie
Allow: /prodotti
Sitemap: https://www.miostore.com/sitemap.xml

Cosa indica? Questo esempio blocca le pagine di ricerca dinamica, carrello, checkout e account, mentre permette l’accesso alle categorie e ai prodotti.

Verifica e monitoraggio

Google fornisce strumenti come la Search Console per testare e verificare il file robots.txt. È cruciale utilizzare questi strumenti per identificare e correggere eventuali errori o problemi di accessibilità.

Conclusioni

La corretta gestione e implementazione del robots.txt può migliorare significativamente l’efficienza della scansione del sito e ottimizzare la visibilità online. Tuttavia, richiede una comprensione approfondita e un’attenta gestione.

Del resto, Google mette in guardia che combinare più regole di scansione e indicizzazione potrebbe portare a conflitti. Pertanto, è essenziale approcciarsi al robots.txt con una strategia chiara e ben pianificata.

Una gestione oculata del robots.txt, unita a una strategia SEO complessiva ben strutturata, può fare la differenza tra un sito web che fatica a emergere e uno che brilla nei risultati di ricerca, guidando traffico qualificato e contribuendo al successo online del business.

SEO

Digital advertising

Sviluppo web

Digital intelligence

File Robots.txt, come utilizzarlo in modo virtuoso e le implicazioni lato SEO