Google comprende e indicizza il testo nelle immagini?

seo immagini

Durante la mia attività lavorativa mi sono chiesto più volte se la presenza di testo in sovra-impressione nelle immagini potesse, in qualche modo, essere utile al posizionamento sui motori di ricerca. In fin dei conti con un buon ocr si possono estrarre in modo semplice e veloce tutte le parole inserite in un’immagine e mi aspetterei che google lo facesse per ogni immagine che analizza.

Purtroppo non ho trovato una risposta soddisfacente e, per placare questo atroce dubbio, ho condotto una piccola serie di “esperimenti SEO” per capire se Google indicizza il testo scritto in sovra-impressione sulle immagini e se questo è in qualche modo utile per la SEO.

Esperimento 1a: Google “legge” il testo scritto sulle immagini?

Il primo esperimento è molto semplice, ho creato una pagina contente tre immagini che riportavano ciascuna una stringa di testo casuale senza senso. La prima immagine completamente bianca con la scritta in nero, assolutamente facile da individuare tramite ocr. La seconda con un gradiente di sfondo e scritta in colore contrastante, anche questa di lettura teoricamente facile ad un ocr. La terza immagine è una foto sempre con una scritta in sovra-impressione, forse la più difficile da identificare tramite ocr.

Tutte e tre le immagini sono state inserite in una pagina html nella quale il testo era veramente poco e non riportava mai le tre stringhe.

Quindi, se google usasse effettivamente le tecniche ocr per indicizzare le immagini, dovrei ottenere le tre immagini tra i risultati i risultati delle  ricerche delle tre stringhe.

Dopo mesi di indicizzazione, cercando le tre stringhe sia su google immagini che su google web, non si ottengono risultati.
In prima istanza si potrebbe sostenere che google non utilizzi alcuna tecnica di ocr per classificare le immagini, anche se possiede le capacità per farlo (in street view, ai fini della privacy, censurano automaticamente i volti delle persone e le targhe dei veicoli. Che è un’operazione molto più complessa del semplice ocr).

Ma la “vocina” mi dice di pormi qualche altro dubbio: è sufficiente questo banale esperimento per ottenere risposta corretta? Se fosse la natura casuale delle stringhe a impedire l’indicizzazione? Se venissero utilizzate parole di senso compiuto il risultato cambierebbe?

Esperimento 1b: Parole di senso compiuto su immagini

Ho ripetuto l’esperimento di prima, con la stessa logica e le stesse immagini, sostituendo alle stringhe casuali  delle parole di senso compiuto. Mi sono preoccupato che le parole non fossero presenti sul sito e che non fossero “compatibili” con argomenti trattati, per evitare qualsiasi interferenza. Le tre parole sono “Begonia“, “Petunia” e “Ciclamino

La pagina è stata sottomessa a google e, sempre attendendo il tempo necessario, sono poi state effettuate le tre ricerche:

  • “site:dinale.it begonia”
  • “site:dinale.it petunia”
  • “site:dinale.it ciclamino”

N.B.: il prefisso site:dinale.it indica a google di effettuare la ricerca solo sulle pagine relative al dominio dinale.it

In linea con l’esperimento precedente la ricerca di “petunia” e “ciclamino” non hanno prodotto alcun risultato ma, senza nascondervi il mio stupore,  nel caso di “begonia” (immagine bianca con scritta in nero) c’è stato un risultato positivo, come si vede qui sotto:

La cosa è un po’ strana perché il testo riporta “La ricerca per site:dinale.it begonia non corrisponde a risultati di immagini” ma subito sotto si vede in bella mostra l’anteprima dell’immagine su fondo bianco, che se cliccata porta esattamente alla pagina dell’esperimento.

Per riconoscere la keyword “begonia” google non aveva altra possibilità se non quella di “capire” il testo scritto nell’immagine, non c’è nessun altro riferimento alla parola ne all’argomento, non sono stati usati sinonimi e nessuna pagina del sito parla di piante.

Quindi la risposta è:

SI! Google legge il testo scritto sulle immagini… ma non sempre, perché?

Per quale motivo la prima immagine si è indicizzata e le altre no? ritengo poco probabile che il motore di ricerca non sia riuscito a estrapolare il testo dalle altre due immagini. Provo a dare una spiegazione effettuando altri esperimenti sempre più puntuali.

Esperimento 2: il contesto.

La mia tesi è questa: “Google considera come keyword il testo inserito nelle immagini solo se è relativo al contesto nel quale l’immagine si trova“. Per verificare la tesi ho realizzato 3 pagine che parlano della pianta “bocca di leone” ciascuna con un’immagine con del testo in sovra-impressione.
Il testo html è più o meno uguale in tutte e tre le pagine, con alcune differenze solo per evitare che le pagine vengano scartate a causa di “contenuti duplicati“. Le immagini ritraggono una “calendula” in due casi, e una “camelia” nell’altro, ciascuna con una scritta in sovra-impressione.

Ho cercato di ricreare il contesto adatto: è normale che una foto di fiori sia inserita in una pagina che parla di fiori, ma ho volutamente inserito delle immagini che rappresentano delle piante che non sono state citate esplicitamente ne indirettamente nel testo, proprio per valutare la capacità di google di “comprendere” il testo nelle immagini.

Ricapitolando: le pagine parlano della “bocca di leone” le immagini ritraggono “calendula” e “camelia“. Nel testo html delle tre pagina non c’è alcuna occorrenza delle parole “calendula” e “camelia” ne a sinonimi.

  • Nella prima immagine è rappresentata una “calendula” e la scritta abbinata è conforme.
  • La seconda immagine è come la prima ma riportata una stringa di testo casuale.
  • Nel terzo caso c’è un disallineamento, la scritta è ancora “calenduala” ma l’immagine riporta una “camelia“.

Se la mia tesi fosse corretta e veramente Google “capisse” le immagini tramite il testo impresso, ma lo considerasse solo in caso di contesto adatto mi aspetterei che la ricerca “site:dinale.it calendula” riportasse due risultati, relativi alla prima e alla terza immagine, mentre la ricerca “site:dinale.it AABCKSHISK” non producesse alcun risultato.

 

Le aspettative sono state “centrate”, come si vede dalle due immagini sopra la ricerca di “calendula” ha prodotto i due risultati attesi, quella della stringa casuale zero.

Le immagini sono “floreali” quindi adatte al contesto della pagina e le scritte in sovra-impressione delle due immagini indicizzate sono correlate al mondo floreale.

Secondo la tesi è corretto che non siano stati prodotti risultati per la stringa casuale perché non in linea con il contesto ed è altrettanto corretto che google sia stato “ingannato” e abbia proposto tra i risultati la foto della “camelia” cercando “calendula” solo perché la stessa riporta la scritta “calendula“.

La tesi è stata dimostrata, il testo scritto sulle immagini è utile ai fini della SEO, ma solo se è chiaramente in-topic con il resto del contenuto della pagina.

Per chi se lo stesse chiedendo (e sarete sicuramente centinaia di milioni) nel primo esperimento è comparsa la “begonia” tra i risultati della ricerca semplicemente perché non c’era il contesto. Non essendo presente testo e l’immagine è tutta bianca, google non aveva modo di valutare la pertinenza del contesto e la parola riportate nell’immagine era l’unica keyword possibile.

Come accadde un tempo ai tre principi di Serendippo, cercando la risposta mi sono imbattuto in altre domande che mi hanno portato a condurre altri esperimenti sempre relativi alla SEO e alle immagini, ma saranno oggetto di un altro post che (forse e con calma) scriverò.

2 commenti su “Google comprende e indicizza il testo nelle immagini?

  • una domanda se al posto del TESTO inserisco un immagine testo come un logo di un brand (bticino ad esempio) google lo leggerà lo stesso? grazie.

    • Google è in grado di individuare immagini visivamente simili ed è anche in grado di comprende dall’analisi del contesto quali sono le keywords relative all’immagine in questione. Ma per il caso citato ti consiglio di inserire il nome del marchio nei tag alt e title dell’immagine.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.