L'Internaute > Science  > Dossier Technologie > L'ordinateur, le chaos et la complexité
Précédent

Reconnaître forme et sens : le texte

Suivant 
Pour que la machine "comprenne" elle doit non seulement identifier des élements mais aussi des relations : établir, dans le cas du texte, une ontologie
Représentation: vue de l'application Social Circles par marumushi
En comparaison avec l'image, la reconnaissance de sens dans un texte est sur le principe beaucoup plus simple, car un texte est déjà, informatiquement, parfaitement segmenté, et se prête facilement à la structuration, c'est à dire le choix standardisé d'un ensemble de règles qui définissent ou associent à tels ensembles de mots un sens clair dans un contexte précis.

Plus besoin d'apprentissage itératif, il "suffit" de structurer, et pour cela un outil informatique existe : le langage XML.

Web sémantique
"Suffit" ? Car le chantier reste immense : un très grand nombre de documents ne sont pas structurés.

Mais la structuration gagne du terrain sous la pression de l'ouverture : intranet, Internet, le Web habitue à la recherche, incite donc à l'indexation, et finalement plaide pour la structuration. Le consortium W3C, qui veille à établir un corpus de standards pour le Web, s'est penché sur le problème et sa réponse a été le Web sémantique, un ensemble de spécifications prometteuses mais encore expérimentales dans leur grande majorité.

Le propos n'est pas de les détailler ici, mais simplement d'insister sur l'aspect-clé du Web sémantique au regard de la problématique qui nous intéresse ici (la "compréhension" par la machine). Cet aspect-clé est la notion d'ontologie.

Bienvenue dans le monde de l'ontologie
L'ontologie se distingue du "vocabulaire" (dont l'objectif est de labelliser, mais sans inclure une organisation logique des termes définis), de la "taxonomie" (qui organise le vocabulaire sous une forme hiérarchique, spécialisante), et du "thésaurus" (taxonomie élargie par l'introduction de liens entre termes "en rapport").

En effet, l'ontologie ajoute au thésaurus une formalisation explicite des relations créés entre les différents termes du vocabulaire. La langage RDF (pour Ressource Description Framework) remplit par exemple ce rôle formel.

Tout l'enjeu est de construire une ontologie : qu'il s'agisse par ce biais de "donner du sens" à une page Web, une fiche produit ou tout autre texte, le but ultime est la favorisation d'intéractions automatiques entre machines (serveurs Web et robots des moteurs de recherche par exemple).

Belle remise au goût du jour pour le terme "ontologie", étymologiquement "science de l'être", ou, pour Aristote et Platon, la "science de l'être en tant qu'être".
Précédent   Suivant 
Magazine Science
Envoyer | Imprimer
Haut de page
Votre avis sur cette publicité