Discussione Aperta: Cosa hai aggiunto nel file robot.txt del tuo Blog?

Questa era una domanda posta da un mio ex allievo di uno dei master che ho seguito come docente.

Dalla fan page di blographik su facebook mi arrivano parecchie domande del genere, e visto che su blographik c’è un buon numero di fan, ho pensato di girare a te che stai leggendo ora questo articolo, la domanda di questa settimana.

Di seguito tutti i dettagli.

SEO: hai mai pensato di modificare il file robots.txt del tuo blog?

Ecco il nuovo appuntamento settimanale con questa rubrica dedicata alla discussione aperta, dove i commenti hanno più valore dello stesso post.

Sai cos’è il robots.txt e a cosa potrebbe servirti modificandolo?

La guida di google per webmaster offre alcune delucidazioni su questo file.

Per evitare potenziali penalizzazioni di google per contenuto duplicato, potresti segnalare, di non far seguire allo spider alcune aree non importanti, come:

  • la pagina di login,
  • la pagina archivio del tuo blog,
  • i commenti,
  • le tag,
  • e molte altre opzioni.

Ecco cosa mi chiedeva il mio amico e collega, (ormai non è più un ex-allievo) su come impostare il robots.txt.

il nostro sito è quasi pronto e sto creando il robots.txt.

Ti incollo qui cosa ci ho messo e mi dici se va bene o se mi consigli di aggiungere altro.
Ad esempio la tag cloud, l’abbiamo messa testuale, tu mi consigli di mettere disallow ai tag?

O di lasciare il doFollow usando comunque pochi e significativi tag?

Comunque il nostro robots è questo (ispirato anche alla maggior parte dei blog):

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments

e la sitemap alla fine, giusto?
Mi consigli di mettere “disallow” ai tag, alle categorie e alla search interna al sito?

Ti invito a parteciapare nei commenti qui sotto:
cosa hai aggiunto e perchè al robots-txt del tuo blog?

Se ne esce fuori una bella discussione, magari ne creo un piccolo ebook (che offrirò soltanto alla mia lista di iscritti alla newsletter).

A te la palla.

Ti è piaciuto questo articolo?

Ricevi continui aggiornamenti su come migliorare il tuo blog:

Scegli di seguire i post e le chicche di blographik (esclusiva ai soli iscritti), direttamente nella tua casella email.

Abbonati ora alla newsletter compilando questo form.

Nome:
Email:
 
 

Articoli correlati:

Se di tuo interesse, puoi consultare anche i seguenti post correlati:

  • http://blog.ultrastudio.it ultrastudio

    Personalmente uso il file robots.txt in modalità di default su quasi tutti i CMS mentre se creo ex novo un gestore tendo ad impostare in esclusione solo le cartelle di amministrazione e poche altre directory (in alcuni casi quella dei downloads o la public sui server Windows).

    Secondo me lo si dovrebbe usare raggionando in maniera sensata su cosa non si vuole indicizzare, visto che generalmente anche le componenti amministrative si presentano come delle comuni stampe a monitor e quindi non verrebbero distinte da una qualsiasi altra pagina del sito.

    Il dubbio può sorgere col discorso dei risultati delle ricerche del motore interno, mentre trovo superfluo escludere i TAG, che anzi possono essere utili per ottenere conversioni al sito (IMHO).

    La mappa nel file robots.txt? Per me è ni: ne sì ne no… se la mappa non è nella root può aver senso, altrimenti è del tutto inutile, visto che gli spiders cercano di default sitemap.xml nella directory principale.

    Da qualche parte, comunque, ho letto che il file robots.txt è utilissimo ad impedire allo spider di accedere, ma non è poi fondamentale per incrementare la posizione sulla SERP… ma questo lo lascio dire a chi è più esperto di me in Search Engine.

    • http://www.blographik.it Mirko

      Grazie per il tuo contributo!
      In merito all’escludere i tag, dobbiamo pensare alla potenziale penalizzazione di google per le pagine duplicate su wordpress.

      Se abbiamo tantissime tag e pochi articoli, si creano tante pagine duplicate identiche, e potrebbero creare dei problemi.

      Nel post ho linkato anche un mio intervento video dall’esperienza del convegno di madri d 2 anni fa, in merito alla penalizzazione da eccessivo uso delle tag.

  • http://twitter.com/Ox1d3 Alessandro Gargiulo

    Perchè mai bloccare wp-content? Non ti interessano le visite da Google Images (esempio)? :)

    • http://www.blographik.it Mirko

      Concordo con te Alessandro, hai specificato bene un passaggio fondamentale, essere presenti nei risultati di google images, non sono da sottovalutare, sopratutto se il progetto è correlato a fotografi, web designer, artisti, etc.

      Grazie per il contributo.
      Tu Alessandro come imposti il tuo robots.txt?

      • http://twitter.com/Ox1d3 Alessandro Gargiulo

        Personalmente il robots.txt non è niente di più che:User-agent: *Disallow:Tutto il resto è gestito da wordpress, i link nofollow e i tag html per la “non indicizzazione” sono gestiti secondo un “silo”: i link passano da pagina a pagina indicando come pagina finale la pagina più linkata tra gli articoli. Tramite un plugin di wordpress che sto finendo di scrivere la lettura dei contenuti avviene escludendo gli index degli archivi e le possibili pagine che possono generare un contenuto duplicato.Questa tecnica su un blog con PR 3 ha portato alle pagine interessate un PR 2 (ovviamente questo, a lungo termine e mantenendo determinati accorgimenti per quanto riguarda il testo).E’ un buon modo per incanalare i motori alla ricerca delle pagine con il contenuto più “importante” che voglio indicizzare. Speriamo questa tecnica non risulti fallimentare, al momento sto basando il mio blog principale su questa modalità e ne ho tratto soltanto dei benefici. :) La mia risposta precedente era breve perchè dovevo scappare, ma volevo puntare l’attenzione su un parametro essenziale: l’indicizzazione delle immagini.Fare una sitemap delle immagini del blog è stato essenziale per ricevere un’ottima quantità di ricerche da Google Images, sempre includendola nel robots.txt

        • http://www.blographik.it Mirko

          Il tuo contributo è stato molto prezioso Alessandro.

          Dici che stai preparando un plugin per wordpress?
          Quando lo avrai reso pubblico, potrai scriverne una guida qui su blographik ;) .

          In merito all’importanza di una pagina per google, non puoi settare un plugin seo con il canonical?
          Cosa ha di diverso il tuo plugin?

          In merito all’indicizzazione delle immagini: concordo al 100%, è un ottimo metodo per renderci visibili usando questo motore di ricerca specifico di google.

          Hai fatto una sitemap per le immagini del blog che hai incluso nel tuo robots.txt, puoi offrirci qualche dettaglio utile a me e ai lettori di questo blog?

          Grazie in anticipo per le risposte.

  • Elettrix

    È interessante parlare del file robots.txt, ma è altrettanto interessante sapere che google legge anche quello di file. Entra sul sito e scannerizza tutto indicizzandolo. Se aveste un blog come si suol dire “Autorevole”, non avreste speranze perchè se tentate di nascondere la pagina allo spider di google ve la farebbe appirare ugualmente tra i risultati di ricerca.

    • http://www.blographik.it Mirko

      Non so se ho capito bene, ma dici che se segnali a google sulla spider di non essere visitato, ed il blog è autorevole, google lo indicizza e posiziona lo stesso?

      Credo di no, in base alla mia esperienza, poi posso essere contraddetto ma avrei bisogno di notizie su questo argomento.

      Di sicuro, forse google potrebbe passare lo stesso alle pagine che noi non vogliamo far seguire, ma non dovrebbe poi posizionarle nei risultati di ricerca.

      hai qualche informazione che non conosco?
      A te la palla Ele.

      • Elettrix

        Al Gtstudydays di Riccione Giorgio Taverniti ha confermato questa cosa. In teoria inserendo la url all’interno del file robots.txt, da quanto dice Google con la sua guida, lo spider dovrebbe vedere il file ma non scansionare il contenuto. Invece così non è. Anche io ci sono rimasta un po’ a bocca aperta, però Giorgio afferma proprio questo!
        Se io oggi 24 settembre apro un blog e metto alcune url nel file, lo spider passa le legge ma non le considera anche se le indicizza (cioè sa che esistono). Se invece un blog che Google considera “autorevole” ha delle url nel file robots.txt succede che lo spider passa, le legge e se le considera di validità per l’utente le posiziona senza descrizione (ovvero snippet).
        Giorgio ha detto di aver avuto la prova di questo e se ho capito bene succede proprio ciò che ho appena scritto.

        • http://www.blographik.it Mirko

          Bene Ele, grazie per avermi segnalato questa notizia, testata da Giorgio e quindi da fonte autorevole, che mi aggiorna su una cosa di cui ero all’oscuro.

          Il Gt study days è stato di aiuto, aspettiamo quindi anche qualche guest post su blographik in merito all’evento ;) e alle informazioni utili che ne sono venute fuori.

          Grazie per il tuo contributo.

          • Criss

            Ciao Mirko e ciao Elettrix,
            facciamo un attimo di chiarezza su questa cosa heheh…
            Giorgio ha preso un caso limite di un caso di un sito/blog con trust molto elevato e quindi chiamiamolo autorevole.
            Le istruzioni che fornisci al robots.txt sono generalmente seguite e rispettate MA, come dice il “vescovo” Cutts, google si riserva di fare un po’ quel piffero che gli pare.
            In questo caso specifico dare noindex, nofollow e varie sulle pagine e sul robots garantiscono nella maggior parte dei casi che le pagine non vengono indicizzate, vengono però scansionate ugualmente dal bot e inserite in una delle fantomatiche tabelle di google.
            A questo punto per essere ancora più sicuri di non incorrere in duplicati ci viene in aiuto il canonical.
            Torniamo a bomba al problema posto all’inizio.
            Il robots dice di non indicizzare, il bot passa e vede che il sito è in forte trust e molto autorevole…nel caso il bot “decida” che per il link (o i link) che ha seguito per arrivare a questo sito la risorsa può essere utile all’utente lo inserisce in SERP, mantenendo però tutte le informazioni “nascoste” e facendolo apparire con il solo nome a dominio…
            Questo è quello ch eprecisamente voleva dir Giorgio ;)
            A presto Criss

          • http://www.blographik.it Mirko

            Grazie Criss per la tua delucidazione, sei stato molto preciso e dettagliato, ottima la tua analisi.Ora ho capito meglio cosa intendeva Giorgio durante l’evento,non sapevo comunque di questo strano comportamento di google per siti autorevoli e di gran trust.Grazie al vostro contributo ora conosco altre nozioni su cui non ero preparato o aggiornato.Ti sono molto grato per il feedback ;) .

    • http://www.blographik.it Mirko

      Grazie ele per la tua segnalazione, abbiamo visto che Giorgio ha suggerito questa sua esperienza di indicizzazione forzata dai suoi test, è bene ricordarlo, visto che neanch’io ne ero a conoscenza ;) .

  • http://www.graficanexus6.it chiara

    Molto interessante quest’argomento! Ho configurato il file robots per il sito ma non avevo pensato al blog (che è una cartella interna) ma anche se ha solo 3 articoli sarà bene che cominci a pensarci!

    • http://www.blographik.it Mirko

      Bene Chiara, mi fa piacere che il mio post abbia stimolato la tua curuosità nel capire come usarlo ai fini seo.

  • Jessica

    il mio file robots.txt è

    User-agent: *
    Disallow:
    Sitemap: http://www.vampirediaries-love.net/sitemap.xml.gz

    Il resto è gestito da wordpress: ho escluso tag, archivi, risultati ricerca e mantenuto solo le categorie. Sono ancora indecisa se escludere le sottopagine della home perchè ho sentito opinioni controstanti. Tu che ne pensi?

    • http://www.blographik.it Mirko

      Grazie per il tuo contributo Jessica, sei stata molto utile nel condividere la tua esperienza.

      Vedo che in molto seguiamo questa strategia, lasciamo il robots quasi vuoto, e le impostazioni e le opzioni le settiamo sui nostri plugin dedicati alla seo ;) .