La tavola rotonda del 9 giugno è stata organizzata in collaborazione con

          

Le relazioni - 21

Motori di ricerca: il webmaster è responsabile dell'indicizzazione

di Lorenzo Trebbi* - 06.06.05
 
Sono un professionista di web, marketing on line e di ottimizzazione per motori di ricerca e vorrei dare un contributo tecnico in relazione al dibattito nascente sulla responsabilità giuridica dei motori di ricerca nella pubblicazione delle pagine web tra i risultati delle ricerche.

Tutti sanno che i motori di ricerca pubblicano tra i propri risultati i link alle pagine web che per contenuti corrispondano alle ricerche effettuate, ma non molti sanno come ciò accada; anzi, il dibattito cui vorrei aggiungere il mio commento si sta sviluppando su conoscenze tecniche inadeguate.
I motori di ricerca hanno degli algoritmi interni che valutano innumerevoli profili di ogni pagina web indicizzata ed in base a questi riscontri decidono l'attinenza della pagina rispetto alle ricerche effettuate, posizionando tra i risultati offerti il link alla stessa pagina nei primi posti se la pagina risulta attinente e negli ultimi se la pagina è poco attinente.

Su questa limitata conoscenza si basano i sostenitori della responsabilità dei motori di ricerca per la pubblicazione indesiderata delle pagine web tra i risultati delle ricerche, asserendo che sugli algoritmi di indicizzazione non può intervenire chi programma la propria pagina, la quale, una volta indicizzata, sfugge al controllo di chi la realizzò per finire in pasto al motore che la pubblicherebbe tra i risultati rendendola notoria a proprio piacimento.
Da questo presupposto (se fosse tecnicamente corretto) si dedurrebbe la responsabilità del motore di ricerca per i casi in cui una notorietà indesiderata generata dal motore di ricerca creasse un danno a carico di chi realizza e pubblica una pagina web senza il desiderio che divenga notoria.

Ma tutti i motori di ricerca sono programmabili da parte di chi realizza le pagine web, sia sotto il profilo dell'an, cioè nello scegliere se fare indicizzare o meno la pagina dal motore, sia sotto il profilo del quantum, cioè se indicizzare tutti i contenuti o solo parzialmente i contenuti.

Un principio generale del diritto è quello della diligenza del buon padre di famiglia, che si adatta alle diverse situazioni, commisurandosi alle specifiche conoscenze tecniche del settore, che è necessario utilizzare per realizzare le differenti attività tecniche, scongiurando così il rischio di cadere nell'avventatezza della propria condotta e di conseguenza nella colpa.
Gli algoritmi che si devono inserire nelle pagine web per gestirne l'indicizzazione da parte dei motori di ricerca sono algoritmi semplici, parimenti conoscibili rispetto agli altri algoritmi che si utilizzano per determinare i contenuti della pagina.

Inoltre tutti i motori di ricerca pubblicano in evidenza informazioni su come evitare la indicizzazione delle pagine web da parte dei propri spider (o altri software di indicizzazione utilizzati dai motori di ricerca), fornendo dei comandi preconfezionati per elidere l'indicizzazione, comandi inseribili nelle pagine web con un semplice copia/incolla.
Questo aspetto tecnico, sottovalutato o ignorato dai più, fa propendere per una responsabilità totalmente in capo a chi pubblica i contenuti della pagina, anche con riferimento alla notorietà indesiderata e l'eventuale danno derivante dalla stessa, e non in capo ai motori di ricerca, che sono facilmente amministrabili e programmabili da parte proprio di chi realizza la pagina web.

Questo profilo va poi arricchito della consapevolezza che molti di coloro che realizzano le pagine web utilizzano software che semplificano le attività di programmazione, con logica WYSIWYG (what you see is what you get) e quindi permettono al "programmatore" di realizzare pagine web senza entrare nel merito del linguaggio di programmazione. In questo caso sono questi software che creano delle pagine indicizzabili dai motori di ricerca, quindi la responsabilità per posizionamento e conseguente notorietà indesiderati è forse a loro carico, sicuramente non a carico dei motori di ricerca.
Infatti i motori di ricerca, ogni qual volta indicizzano una pagina, utilizzano in primo luogo i comandi di indicizzazione contenuti nella pagina stessa, e sulla base delle indicazioni ivi contenute applicano i propri algoritmi di indicizzazione, limitandoli alle sole attività ammesse dal programmatore della pagina web.

C'è una sintassi semplicissima e pubblicizzata sui più importanti motori di ricerca che permette di escludere in modo selettivo e volendo anche massivo le pagine web dall'indicizzazione sui motori. E' sufficiente inserire un semplicissimo file .txt (come quello utilizzato dai relatori di questo convegno) nel proprio sito web per regolare le attività degli spider, indicando quali pagine non devono essere indicizzate, quali directory escludere dall'indicizzazione, se non indicizzare tutto il sito; è anche possibile gestire con istruzioni dedicate ciascun motore di ricerca in modo differenziato e personalizzato.

Questo si ottiene con il file "robots.txt" del quale si possono trovare negli stessi motori di ricerca delle versioni già pronte all'uso, che è sufficiente copiare e incollare nel proprio sito web per inibire l'accesso dei motori al sito, ovvero è possibile copiare le apposite stringhe ivi descritte per gestire in modo più dettagliato le attività di indicizzazione del motore.

Inoltre, tra gli stessi tag della pagina esistono dei comandi precipui che servono specificamente ad amministrare le attività di indicizzazione da parte dei motori di ricerca.

Questi meta comandi sono istruzioni relative alla pagina in cui sono inseriti (sono veri e propri sintagmi di programmazione come il tag title ed il tag description), così è possibile gestire dalla stessa pagina, nei minimi dettagli, l'indicizzazione ammessa e quella vietata, indicando al motore, oltre ovviamente al divieto di indicizzazione, se seguire o meno i links contenuti nella pagina nello svolgimento dell'attività di indicizzazione.

I tag sono già entrati nelle aule di tribunale con riferimento alla concorrenza sleale e all'inserimento tra i metacomandi della pagina web (tra i quali si annoverano quelli in argomento) del marchio di azienda concorrente, con l'obiettivo di mostrare le proprie pagine web a chi stesse cercando nel motore il prodotto concorrente, dando luogo a sentenze impeccabili dal punto di vista sia tecnico che del diritto commerciale.

Chiunque pubblica una pagina web realizza una attività di programmazione, e un'attività di caricamento della pagina sul server. La protezione del sito da indicizzazioni indesiderate è parimenti semplice: si apre il notepad, vi si incolla questa stringa:
User-agent: *
Disallow: /
si salva il file con il nome robots.txt, inserendo questo file nella directory principale del sito web. In questo modo tutto il sito è inibito all'accesso di qualsiasi motore di ricerca.
Questa semplicissima attività di programmazione web è descritta dettagliatamente da tutti i motori di ricerca, quindi è alla portata di qiunque si accinga a pubblicare contenuti sul web.

Tutti sanno che il web è navigabile tramite i risultati delle ricerche nei motori, perché più o meno tutti imparano a navigare proprio utilizzando i motori di ricerca. Chi pubblica una pagina web, non può di conseguenza asserire di essere ignorante rispetto alla notorietà che i motori di ricerca possono attribuire alle pagine, tanto più che chi lamenta una notorietà indesiderata, solitamente è alla ricerca della massima notorietà possibile per altre pagine dello proprio sito web, per soddisfare evidenti obiettivi commerciali.

Come spiegato, non è assolutamente vero che i motori indicizzano le pagine web seguendo solo i propri algoritmi, invece, l'indicizzazione delle pagine avviene seguendo in primo luogo gli algoritmi del programmatore web (file robots.txt e tag), poi, entro i limiti qualificati da questi, seguendo gli algoritmi propri del motore.
Se i motori di ricerca seguono questi standard, queste regole tecniche, quindi lasciano la possibilità di regolare nel dettaglio i loro accessi ad ogni pagina, non si giustifica nessuna responsabilità in capo ai motori di ricerca per avere indicizzato una pagina che è stata messa su internet senza nemmeno inserirvi le regole elementari della gestione dei motori.
Se un individuo compra un'automobile, si mette alla guida anche se non è capace, senza patente e urta contro il muro di una casa, non può lamentarsi con chi ha costruito il muro dicendogli "Mi ripaghi la macchina perché lei doveva spostare il muro in quanto sono uno sprovveduto nel guidare l'automobile".

Se Tizio mette un manifesto nel bel mezzo di una piazza, non si può poi lamentare con Caio se questi parla ai passanti dicendo "Nella piazza c'è un manifesto di Tizio", non è colpa di Caio se le immagini ed i testi contenuti nel manifesto che Tizio ha messo in mezzo alla piazza diventano notori.
Parimenti, se si pubblica una pagina web è necessario conoscere le regole del web. Non ci si può lamentare con i motori di ricerca e chiamarli a responsabilità se chi ha realizzato le pagine non conosce nemmeno le tecniche di programmazione web più elementari.

NOTE TECNICHE
Per chi vuole verificare come si programma l'indicizzazione da parte dei motori di ricerca è possibile fare riferimento all'organizzazione internazionale che pubblica le sintassi http://www.robotstxt.org/.
Per verificare come Google pubblicizza queste semplicissime regole tecniche, relative alle attività di programmazione web, indicando nel dettaglio e con l'indicazione dei comandi (solo da copiare), si entri in http://www.google.it - Tutto su Google-  Informazioni per webmaster.
Per verificare che MSN search pubblicizza allo stesso modo queste tecniche si entri nell'area webmaster del motore; lo stesso è possibile su tutti i maggiori motori di ricerca.
 

* Titolo di patrocinatore legale presso il Foro di Bologna) - ltrebbi @ gruppoinform.it
Divisione marketing Gruppo Informatico Bolognese srl - Sistema srl - Ciesseci srl - Errepielle srl
Centergross Bologna

Presentazione del forum
Come partecipare al forum on line
Le relazioni
La tavola rotonda del 9 giugno a Roma - Aggiornamento del 6 giugno
Come seguire i lavori in diretta web
InterLex, dieci anni di lavoro di squadra
Il forum del '95
Il forum del '96
Il forum del '97

  

Inizio pagina   Prima pagina © InterLex 2005 Informazioni sul copyright