Skip to content
22 ottobre 2007 / emu1966

Qualche nota sul Web semantico

Ho analizzato un po’ i discorsi che si sentono su web strutturato, web semantico e compagnia.
Il problema che viene evidenziato è che le informazioni presenti in una pagina web, pur essendo formalizzate da organismi affidabili e universali come il W3C, riguardano solo l’aspetto dei dati mostrati, non il loro significato.
Gli esseri umani sono abituati a cogliere il significato dall’aspetto (riconosciamo automaticamente un titolo, una data, ecc.), ma le macchine (software o hardware) non sono in grado di farlo, se non in casi particolari, quindi moltissime informazioni non possono essere correttamente rielaborate e sfruttate.
Per risolvere il problema, si suggerisce di descrivere i dati con tag “parlanti”, come avviene, per esempio, nei feed RSS.
Uno dei vantaggi di trasformare una pagina in un feed è anche quello di eliminare tutte le informazioni inutili, lasciando solo quelle significative (eliminazione del rumore di fondo).
Tuttavia questo approccio è limitativo, perché per ogni pagina (o insieme di pagine) bisognerebbe produrre il feed RSS associato, mentre le moderne applicazioni web tendono a superare il concetto di pagina come entità a sè stante.
Alla fine, i feed RSS risulterebbero essere semplicemente la rappresentazione in formato XML dei dati presenti in un sito.
Trattandosi di rappresentazioni di dati, ovverosia di tabelle, esse hanno senso e possono essere utilizzate solo se riusciamo a correlarle con altre tabelle, quindi nasce l’esigenza di tabelle di relazione (le famose ontologie).
Queste tabelle di relazione, così come i campi che appaiono nei feed RSS (le “colonne” delle tabelle, vedendole nell’ottica dei db relazionali), per avere valore dovrebbero essere definite da qualche ente “super partes”, tipo il W3C.
Perseguire questa strada richiede che i flussi dei dati prodotti da un sito vengano generati sia per la lettura umana (HTML), sia per quella “automatica” (RSS, RDF, ecc.), raddoppiando gli sforzi (e quindi il costo).
La soluzione parrebbe quindi quella di integrare nell’html le informazioni “semantiche”, ossia l’indicazione di quale tag sia un titolo, ecc. (un po’ come fa Google, che assegna significati semantici ai tag – es. h1=titolo – per meglio indicizzare i contenuti).
Per questo sono stati proposti diversi metodi, tipo microformats oppure RDFa, secondo regole proposte da diversi enti, ma il fatto è che le tipologie dei dati ed il loro significato hanno una varietà tale da rendere vano qualunque tipo di classificazione “dall’alto”.
Inoltre queste classificazioni riguardano solo le informazioni evidenti e non le eventuali relazioni occulte tra i dati mostrati, che possono essere estratte solo con una successiva fase di “data mining”.
Ecco quindi che nasce l’idea della classificazione “dal basso”, ovvero prodotta dall’intelligenza di gruppo degli utenti, in grado di catturare tanto le informazioni evidenti quanto quelle nascoste.
E’ chiaro tuttavia che tale classificazione rispecchierà le idee e le esigente dello 0,1% degli utenti (secondo la legge di Zipf, estensione del principio di Pareto), ma sarà già qualcosa, specialmente se consideriamo che la maggior parte degli utenti “silenziosi” si adattano senza problemi alle decisioni di pochi.
L’utente medio, infatti, non ha voglia di interagire troppo, ma, se ne avesse voglia, spesso non ne avrebbe il tempo, poiché non può certo partecipare a tutti i blog che visita.
L’importante è gli venga garantita la possibilità di farlo, anche se non ne usufruisce: l’utente si sente gratificato ed è più contento, anche se di fatto resta un utente passivo.
Ne so qualcosa, perché ho sviluppato personalmente un Content Management System piuttosto diffuso (centinaia, se non migliaia, di installazioni attualmente online), e ho potuto verificare sul campo questi fatti.
Ho qualche idea su come aumentare la partecipazione degli utenti, sia in modo diretto, sia indiretto, e presto proverò ad implementarle.

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...

%d blogger cliccano Mi Piace per questo: