Il file robots.txt è un file di testo che viene utilizzati per indicare cosa può essere indicizzato e cosa no all’interno del nostro sito web.
Questo file viene messo all’interno della cartella principale del sito. Diciamo viene perché se usiamo un cms come Wordpress, sarà lui a occuparsi di questa mansione.
Nella lezione vedremo la sintassi da utilizzare per indicare i permessi alla scansione così come per bloccarli.
Dentro al file robots possiamo anche indicare l'ubicazione della sitemap del nostro sito.
Ciao Lorenzo :-)
Voglio cominciare dicendo che è bello poter contare sul vostro supporto costante.
Quindi, prima di passare alla domanda, permettimi di dirti GRAZIE :-)
Passiamo alla domanda ;-)
Per un sito che ho realizzato ho la necessità di non far indicizzare le immagini su Google Immagini, dunque tramite robots.txt ho negato l’accesso all’intera cartella upload di wordpress.
Inoltre ho voluto fare un esperimento togliendo l’accesso a qualsiasi bot tranne che a quello di Google. In buona sostanza voglio che il sito si indicizzi solo nelle ricerche di Google (desktop e smartphone).
Questa è la struttura che ho usato nel file robots.txt:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
User-agent: Googlebot-Image
Disallow: /
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
Sto dimenticando qualcosa? C’è qualche altro bot al quale invece dovrei dare accesso per poter indicizzare al meglio sito nelle ricerche testuali?
Nella serach console, così facendo, ieri mi ha dato errori per l’indicizzazione delle pagine contenenti i TAG degli articoli: è un caso?
Grazie in anticipo per la risposta :-)
Ciao Giuseppe,
se le immagini sono state già indicizzate ti faccio presente che ci vorrà un bel po’ di tempo prima che vengano tolte dall’indice.
Inoltre nel file che mi hai scritto hai due dichiarazioni per “User-agent: *”, una all’inizio ed una alla fine.
Se quindi vuoi bloccare tutti tranne Google Search, allora perché non scrivere:
User-agent: Googlebot
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
User-agent: *
Disallow: /
Tieni presente che quando lavori dovresti utilizzare per conferma gli strumenti che trovi dentro alla sezione “Scansione” della Search Console, ovvero Visualizza come Google e Tester dei file robots.txt.
Ciao,
in copertura indice vedo questo errore “L’URL inviato è bloccato dal file robots.txt
Primo rilevamento: 13 mag 2018 Stato: Errore”
in fondo alla pagina c’ è una sezione con scritto esempi e ci sono 22 url del mio sito
come faccio a sistemare l’ errore?
nella sezione tester del file robot.txt il codice non è uguale a quello del video il codice è questo.
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Ciao Ettore,
il tuo codice del file robots è ok.
Permette a tutti gli user-agent la scansione, ti blocca la scansione dei file nella directory di admin, ma abilita quel file admin-ajax per determinati motivi che non posso spiegarti qui.
Quando richedi supporto, dovresti gentilmente essere più specifico. Scrivi in maniera curata e dettagliata altrimenti è come se andassi da un dottore e dicessi: “Ieri avevo mal di testa, quale malattia ho?”
Se una URL ti da errore, come prima cosa devi verificare se è una URL di una pagina che esiste e che vuoi indicizzare.
Se invece è un file che si trova dentro alla directory admin (file che non sia admin-ajax) allora è giusto che sia bloccato.
Moloti avvisi che rievi come errori, in verità non lo sono. Se vado nel mio search console di Webipedia vedo 7 errori. In verità sono accessi negati ad URL che non voglio indicizzare.
Devi imparare a controllare gli errori e a capire se sono tali. Google ti da tutte le info necessarie.
Per esempio per ogni “404 non trovato” se ci clicchi sopra ti dice dove questa URL ha il link. Quindi vai a controllare in quella URL se effettivamente hai inserito un link che non punta a niente.
Cerca di avere un po’ più di fiducia in quello che fai, perché mi sembra di notare che hai paura di sbagliare.
Se ci sono degli errori non alzare le mani per dire “Come faccio?”. Vai a fondo, segui tutte le indicazioni che ti vengono date, cerca di capire.
Solo così potrai diventare autonomo nella gestione della tua attività online.
Buona giornata
Ciao
nella mia sezione del file robots.txt ho sia il Disallow come indicate voi nel video ma anche un parametro in Allow del file: admin-ajax.php
va bene oppure il sito in questo modo può avere dei problemi di sicurezza e devo modificare qualcosa?
Grazie mille
Claudia
Ciao Claudia,
in verità le impostazioni del file robots.txt per un sito WordPress si sono evolute nell’arco del tempo.
Ci sono stati pareri diversi, ma ad oggi, seguendo quello che dice lo stesso Yoast (del famoso plugin Yoast SEO), non bisogna bloccare nessuna risorsa.
Quindi puoi inserire solo:
User-Agent: *
Certo, questo non garantisce che altri plugin possano inserire le loro personali impostazioni.
Se vuoi maggiori dettagli puoi chiedere a noi, oppure leggi l’articolo di Yoast sulle impostazioni del robots.txt.
Buona giornata
Ciao Ragazzi,
anche io ho
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
mi consigliate quindi di cambiarlo con User-Agent: * ?
Grazie
Ciao Franco, no va bene così.
Attenzione però che il file robots.txt è case sensitive sulle directory, ovvero /img/ non è uguale ad /IMG/.
Inoltre, ti do un consiglio come attitudine per il futuro. Impara a curiosare nei siti degli altri. Se ci pensi anche siti come per esempio Microsotf hanno un file robots (https://www.microsoft.com/robots.txt) o anche lo stesso Yoast (https://yoast.com/robots.txt).
Buona giornata