Microformats vs. RDFa
Introduction
Samedi, j'ai assisté à un exposé sur le Web sémantique, où du moins sur les formats pour y répondre : µformats et les RDFa. La présentation avait lieu dans les locaux de l'EFREI (qui ne m'a pas du tout rappelé mes années universitaires, tant les locaux étaient bien entretenus, les salles accueillantes, bref, pas du tout comme Jussieu avec son amiante - vous remarquerez également que cette parenthèse n'apporte rien au compte rendu).
Frédéric, un peu malade, était accompagné de David pour nous parler de ces 2 formats.
Le Web sémantique, c'est quoi : la capacité de donner du sens aux pages Web à l'aide de méta-données incluses dans du code (X)HTML. Les microformats et RDFa répondent à un manque de HTML 4. La version 5 de HTML y répondra certainement.
Microformats
Mise en œuvre simple : utiliser les attributs rel, rev et class pour y inclure du sens. Ce sens peut englober plusieurs formats : un calendrier à l'aide de hCalendar, une carte de visite avec hCard, des mots clés avec rel-tag, rel-nofollow, un CV avec hResume, des nouveautés avec hAtom. On l'aura compris, il doit exister une spécification (hCard, hCalendar, ...) pour décrire un modèle dans la page Web affichée.
Les µformats se veulent simples, et utilisables immédiatement.
Composition des différents formats
rel-tag : lancé par technorati en 2005 - permet d'étiqueter des contenus non indexables - aujourd'hui : il n'existe plus de moteurs de recherche qui supportent le rel-tag. Cela se représentera de la façon suivante :
<a href="toto.html" rel="tag">Tag</a>
Une statistique intéressante : les nuages de tags sont très peu utilisés par les humains (- de 2%), mais bien entendu ce n'est pas le cas pour le référencement des moteurs.
rel-nofollow : <a href="toto.html" rel='external nofollow'>Lien</a> rel : relation vers un doc extérieur (cf. <link rel=...>). rev : relation de mon doc par rapport au doc pointé. Il y a eu des abus du no-follow par Wikio pour vampiriser les contenus des blogs : Wikio était classé avant le blog qui produisait le billet.
hCard : transposition à l'identique du format vCard : permet de saisir une carte de visite - support de la géo-localisation, prend en compte les adresses privées / professionnelles
hCalendar : transposition à l'identique de iCalendar - format décrié car il y a une utilisation abusive de l'élément abbr : utilise le title pour stocker la date
hAtom : transposition à l'identique du format Atom : destiné aux publications périodiques (journal, blog, ...) - utilisé par le thème Scribbish (j'adore ce thème, à quand pour DC ?) comme Proof of concept de hAtom.
hResume : macroformat, permet d'écriture un CV en ligne en appliquant un ensemble de µformats : hCard, hCalendar, rel-tag (pour indiquer les compétences)
Il existe l'extension Operator de FF pour l'utilisation des µformats : détecte sur une page les µformats contenus dans une page. Pour être un utilisateur de cette extension, elle répond bien à l'ensemble des µformats, et permet de pousser sa recherche sur ce que trouve Operator. La prochaine version IE 8 implémenterait la lecture des µformats en natif.
Les slides de la présentation.
RDFa
RDF : Ressource Description Framework
Objectif : stocker des relations entre des personnes ou des choses. Par exemple : David Larlet connait Alexandre Passant : http://david.larlet.fr connaît http://apassant.net Il existe un vocabulaire (ontologie) FOAF pour décrire ce type de relation : http://david.larlet.fr foaf:knows http://apassant.net Voir les spécifications des différents vocabulaires.
RDFa : standard du W3C - ce format permet de donner une sémantique dans du code (X)HTML, comme pourraient le faire les microformats.
Exemples :
<div xmlns:dc="http://purl.org/dc/elements/1.1"> <!-- la partie xmlns peut ê déclarée une seule fois dans la balise <html>, elle s'appliquera à ttes. les balises du doc. --> <h2 property="dc:title">Mon titre</h2> <h3 property="dc:creator">Olivier</h2> </div>
Drupal 7 inclut du RDFa : avec un DOCTYPE particulier pour l'utilisation du RDFa
Utilisation soit des attributs rel ou property dans le code (X)HTML :
<div typeof="foaf:Person" xmlns:foaf="http://xmlns.com/foaf/0.1/">
<p property="foaf:name"
Alice
</p>
<p> Email : <a rel="foaf:mbox" href="mailto:alice@mail.fr">alice@mail.fr</a></p>
<p> Phone : <a rel="foaf:phone" href="tel:+33-01-40-69-29-44">+33-01-40-69-29-44</a>
</div>
Social network : blogroll en FOAF (voir FOAF explorer pour effectuer des interrogations FOAF)
<div xmlns:foaf="http://xmlns.com/foaf/0.1/" about="#me" rel="foaf:knows"> <ul> <li typeof="foaf:Person"> <a property="foaf:name" rel="foaf:homepage" href="http://monsite.fr">Bob</a> </li> <li typeof="foaf:Person"> <a property="foaf:name" rel="foaf:homepage" href="http://monsite2.fr">Joe</a> </li> </ul> </div>
Operator permet de récupérer les informations RDFa.
Google et Yahoo semblent prendre en compte les RDFa pour l'indexation mais on ne sait pas si cela joue sur le Pagerank.
Ressources
searchMonkey de Yahoo.
Sindice est un moteur de recherche sémantique qui permet d'extraire les microformats ou RDFa des pages Web indexées.
Conclusion
Je m'intéresse à ces formats depuis pas mal de temps déjà. De mon propre avis, il reste un gros soucis d'exploitation des données (au niveau client), peu de moteurs (notamment Google) pour le moment les exploitent. Le salut viendra des navigateurs s'ils implémentent un jour en natif la lecture des microformats ou RDFa afin de pouvoir les utiliser simplement.
Je suis resté un peu sur ma faim quant à la présentation : quid de XFN, SIOC, APML, ... qui forment le futur Web 3 (il parait) ? heureusement qu'il existe des petits génies en .NET pour développer un blogware nommé BlogEngine.NET qui prend en compte toutes ces petites choses, et en l'expliquant.
Commentaires
Merci pour ces retours. On était effectivement crevés tous les deux et ça s'est répercuté sur la qualité de notre intervention qui manquait de vitalité notamment.
> Je suis resté un peu sur ma faim quant à la présentation
C'est malheureusement l'éternel problème des ateliers/confs dits techniques, il y a souvent plusieurs niveaux dans la salle et il faut arriver à faire avec. Au final c'est souvent ceux qui voudraient aller plus loin et avoir des discussions intéressantes (pour les orateurs) qui sont lésés... sinon il faut peut-être aller plus vers des formats type geekcamp ?
Je réfléchis de plus en plus à ça.
Disons qu'il manquait le plus qui faisait la différence par rapport à il y a quelques années. D'autant plus de la part de spécialistes dont la richesse de leur blog n'est plus à démontrer.
La présentation était plus une introduction, une mise en bouche du web sémantique. Je mets donc cela sur le compte de la fatigue, état que je comprends tout à fait, après ces journées, le samedi devait être terrible.
Mais continuez à nous étonner ! je reste demandeur, merci encore pour l'exposé, et le prix défiant toute concurrence