Une introduction à l'hypertexte

Hervé Le Crosnier

Un hypertexte est une structure qui permet de naviguer entre des éléments d'informations multimédias. On distingue trois composants : les nœuds d'information, le réseau des liens et l'interface permettant d'invoquer ces liens. L'hypertexte est un concept général qui se retrouve dans quatre types d'applications : les bibliothèques universelles, les outils de résolution de problèmes, les systèmes de feuilletage d'information et les outils de création d'hypertextes. La navigation dans l'hypertexte utilise des « boutons » imbriqués dans les nœuds d'information ou une carte de navigation générale. La navigation est une activité difficile à modéliser, et les risques sont grands de perdre l'utilisateur dans « l'hyper-espace ». Les recherches sur l'hypertexte visent à améliorer l'intégration multimédia et le guidage de l'utilisateur. La normalisation des hypertextes, qui permet l'échange et l'inter-opérabilité, est déterminante pour le développement de cette technologie. L'hypertexte propose un nouveau regard sur toutes les activités de recherche d'information avec des répercussions sur le travail des bibliothécaires : nouveaux modes d'accès aux catalogues, nouveaux produits d'information.

Hypertex is a structure which improves navigation between multimedia information units. Hypertext uses three composants : information nodes, links network and manipulation interface to invoque those links. ypertext is a general concept with four types of applications : macro-literary systems, problem exploration tools, browsing systems and general hypertext technology. Navigation can use buttons embedded in information nodes, or a general browser. Navigation is hard to model, so risks are important to be « lost in hyperspace ». Researches on hypertext try to improve multimedia integration and user control. Standardisation for exchange and inter-operability is central for the development of hypertext. Hypertext is a new look at information retrieval, with consequences for librarians dealing with library catalogs and new information products.

Définir l'hypertexte est encore aujourd'hui une entreprise hasardeuse. Les chercheurs qui s'intéressent à ce mode de diffusion de l'information viennent d'horizons très divers et leurs objectifs ne coïncident pas toujours. Nous allons tenter de clarifier les bases de l'hypertexte et de pointer quelques problèmes en suspens. Les recherches dans ce domaine devraient nous permettre de renouveler notre approche de l'information électronique, avec des conséquences professionnelles très sensibles, notamment en ce qui concerne les catalogues en ligne, les systèmes documentaires, ou la notion de documents multimédia. Il convient d'abord de rapporter l'enjeu à sa juste mesure, les nouvelles technologies ayant tendance à activer les ressorts de l'inflation verbale. La presse grand-public (29) présente souvent l'hypertexte comme un moyen informatique d'approcher le raisonnement par analogie qui serait le propre des humains. C'est aller vite en besogne. Si l'objectif de l'hypertexte est d'offrir à l'utilisateur un instrument souple de navigation dans l'information, les liens analogiques entre les éléments d'information sont cependant constitués lors de la rédaction de l'hypertexte. Ces liens sont réalisés directement, ou bien sous la forme d'une indexation, ce qui, dans les deux cas, n'est pas sans soulever de nombreuses questions, comme nous le verrons. Dans le même souci d'éviter la surenchère démagogique, nous conserverons dans ce texte le terme d'hypertexte, même si la mode serait plutôt à l'hypermédia, tout comme nous continuons à appeler « livre » un ouvrage illustré ou une bande dessinée.

La définition qui semble la plus adéquate de l'hypertexte a été posée en introduction d'un numéro spécial de juillet 1988, désormais célèbre, du journal Communication of the ACM. Smith et Weiss y considéraient l'hypertexte comme « une approche de la gestion de l'information dans laquelle les données sont conservées dans un réseau de nœuds mis en relation par des liens. Les nœuds peuvent contenir du texte, des graphiques, du son, de la vidéo aussi bien que des logiciels ou d'autres formes de données. » (41). Une définition pragmatique qui pose les éléments fondamentaux et ouvre un large espace de recherche, notamment sur les modes d'accès à l'information au sein de ce réseau de noeuds. Le modèle hypertexte propose en effet un mode particulier d'accès à l'information : la navigation. On peut distinguer plusieurs types de recherche d'information :
- la lecture séquentielle, qui correspond au texte écrit, à l'image animée, au son...
- la formulation de requêtes, utilisée dans les banques de données ou les opérations de guichet (demande à un bibliothécaire,
informations concernant la vie quotidienne - banque, assurance...)
- le « butinage » d'informations (browsing), qui fonctionne par association d'idées ou par approfondissement autour d'un point focal. Le « butinage » (ou « feuilletage » ou « flânerie ») est l'opération typique de la recherche dans un dictionnaire ou une encyclopédie : à partir d'un point d'entrée, suivre les divers renvois (par désir d'approfondissement, ou de connaître le sens des mots employés dans une première définition...). Le « butinage » correspond aussi à l'attitude d'un lecteur devant les rayons d'une bibliothèque en libre-accès.

Ces modèles de recherche d'information ne s'excluent pas les uns les autres. C'est le sens du modèle hypertexte de construire des systèmes d'information qui intègrent ces trois modes de recherche dans une opération générale de navigation.

Dans un réseau hypertexte, l'information est décomposée en blocs élémentaires (les nœuds), qui sont reliés entre eux par des liens qui autorisent le passage direct d'un nœud à l'autre. Cette notion de lien est l'essence même des systèmes hypertextes. Elle existait déjà dans d'autres formes d'organisation des informations. Par exemple, il existe des liens explicites dans les textes scientifiques (les citations), dans les textes juridiques (renvoi à des textes de loi, de décret ou de jurisprudence), dans les encyclopédies (renvois à d'autres articles) et des liens implicites dans certains types de documents qui renvoient à des illustrations à partir du texte (livres d'art, programmes de télévision...). Cependant, pour être qualifié d'hypertexte, le système doit fonctionner avec des liens à l'action immédiate. Invoquer un lien doit provoquer instantanément l'action correspondante à ce type de lien.

Les quatre types d'outils hypertextes

Seule l'informatique est assez rapide pour autoriser la réalisation d'hypertextes. Pourtant, la première vision d'un système fonctionnant suivant ce mode associatif, le memex de Vannevar Bush, fut imaginée sur la base de microfilms (34). A la fin de la guerre,

Vannevar Bush, conseiller du président Roosevelt pour les affaires scientifiques, s'interrogeait sur le futur développement de la science. Prenant acte des intenses efforts qui avaient été fournis par les chercheurs pour assurer le triomphe sur les nazis, il pronostiquait l'avènement d'une époque où la maîtrise de l'information scientifique deviendrait un enjeu stratégique déterminant. Pour assurer une meilleure diffusion de la documentation, il établit le projet d'une machine permettant de tisser des liens analogiques entre les multiples documents scientifiques. Le memex qu'il décrivit dans son article « As we may think » (8) était une bibliothèque portable, basée sur la technologie des microfilms, permettant à l'utilisateur de noter ses propres commentaires en marge des textes, et de tisser ses propres chemins (trails) entre des éléments d'information. Vannevar Bush était certes conscient des problèmes technologiques à résoudre pour rendre son projet réalisable, mais entendait proposer une voie de recherche documentaire qui s'apparente à ce qu'il imaginait être fonctionnement intuitif de la mémoire humaine.

C'est avec l'informatique que les premiers éléments de réponse au projet de Bush purent voir le jour. Dans les années 60, Douglas Englebart a développé l'idée d'un ordinateur traitant des données symboliques, offrant les résultats sur des écrans, et laissant la décision à l'utilisateur dans une sorte de dialogue où l'ordinateur servait à opérer une « augmentation » du potentiel intellectuel de son utilisateur humain. À une époque où l'on nommait encore ces machines des « calculateurs », il faut reconnaître une longueur d'avance à cette vision. Engelbart développa ainsi le premier système hypertexte, NLS (oNLine System), en donnant une place prépondérante à sa dernière invention, la souris, qui permettait d'utiliser l'écran lui-même comme instrument du dialogue homme-système. NLS fut présenté pour la première fois en 1968 (16), commercialisé sous le nom d'Augment, à partir de 1971. NLS-Augment accorde une place particulière au travail en commun de plusieurs utilisateurs concourant à la rédaction d'un même document (écriture, échanges, critiques).

A la même époque, Ted Nelson inventa le terme hypertexte, pour désigner un projet qui regrouperait toute la littérature sur un domaine, qui permettrait de circuler entre les textes par des liens associatifs, qui autoriserait des annotations par les différents « lecteurs », annotations accessibles à volonté, et qui assurerait une trace des diverses versions d'un document (32). Pour Nelson, chaque document s'inscrit dans le contexte de tous les autres et entretient des rapports explicites (la citation) ou implicites (analogie) avec un certain nombre d'entre eux. Son projet Xanadu d'une bibliothèque universelle se poursuit aujourd'hui grâce au financement d'Autodesk, une société californienne spécialisée dans la Conception assistée par ordinateur (3). Ted Nelson, dans ce cadre, attache une importance fondamentale aux questions de droit d'auteur, à la fois pour préserver l'intégrité d'une œuvre (les annotations, renvois, critiques et citations ont un statut différent du document original) et pour assurer un retour à son auteur (copyright et reversements financiers en proportion de l'utilisation de son texte) (33).

Ces trois projets dessinent une image générale de l'hypertexte :
- lecture active (annotation, liens analogiques),
- travail collectif autour d'un document ou d'un ensemble de documents,
- cheminement personnel dont on peut éventuellement garder la trace (et même la faire partager par d'autres),
- découpage du texte en plusieurs « éléments » (chunks, gros morceaux), les liens permettant de passer instantanément d'un élément à un autre.

Ces concepts ont été utilisés pour d'autres types de projets. Jeff Conklin, dans ce qui constitue l'article de référence sur l'hypertexte (11), distingue quatre types d'applications hypertextes.

Les bibliothèques universelles

Pour ce type d'application hypertexte (macro-literary systems), les liens entre documents et les liens de documents à commentaires (critiques, annotations,...) sont pris en compte dans le système. Les trois exemples cités ci-dessus en sont les principaux représentants. Ce concept a engendré de nombreuses réflexions sur l'univers documentaire (« docuverse »). Cette conception d'un réseau informationnel englobant la vie réelle est parfaitement traduite dans le roman de science-fiction Neuromancien de William Gibson (21).

Les outils pour la résolution de problèmes

Ces outils (problem exploration tools) permettent de prendre note des divers éléments déstructurés qui forment l'environnement d'un problème à résoudre. Les outils hypertextes, en permettant à l'utilisateur de tisser des liens entre ces éléments dans le cours du travail d'élaboration lui-même, tendent à définir une cohérence et un projet à partir du problème posé.

Une version élémentaire de ces outils pour la résolution de problèmes est constituée par les « organisateurs de plans » (outliners ou outline processors) destinés à la rédaction de documents. Par exemple le « mode plan » de Word IV, ou le logiciel More sur Macintosh.

Les outils pour la résolution de problèmes sont plus particulièrement adaptés aux « problèmes faiblement structurés » - wicked problems de Horst Rittel, (36). On désigne ainsi un type de problème qui ne se conçoit qu'en fonction des réponses qu'on lui apporte. Il n'y a pas dans ce cas de succession rigide et organisée « problème -> réponse », mais une démarche qui permet de définir et préciser le problème en fonction du type de réponse que l'on peut lui apporter à un moment donné. Ainsi, de nombreuses tâches de prise de décision sont des problèmes faiblement structurés, car elles ne comportent pas en elles-mêmes de règles d'arrêt (i.e. les règles permettant de dire que le problème est résolu). Ces tâches font dépendre l'arrêt ou la poursuite du processus de choix de contraintes extérieures au problème (par exemple le manque de temps, d'argent ou même de patience). Les « problèmes faiblement structurés » ne reçoivent pas des solutions « justes » ou « fausses », mais seulement des solutions qui ont des degrés d'efficacité. Dans ce cas, le travail en collaboration et la capacité de chacun des participants de lier au système déjà en place ses informations, ses solutions et les jugements qu'il porte sur les apports des autres participants, sont des éléments de « résolution » déterminants. Le problème est alors organisé comme un hypertexte.

Les outils hypertextes destinés à la résolution de problèmes sont particulièrement adaptés à l'écriture collective de logiciels (génie logiciel) et à l'analyse de situations. Le représentant principal est gIBIS de MCC (4,12). Un des premiers systèmes opérationnels de ce type est le système d'aide à la décision ZOG, développé à l'Université Carnegie-Mellon, qui est embarqué à bord du porte-avion nucléaire USS Carl Vinson. Ce système est aujourd'hui distribué sous le nom de KMS (1).

Les systèmes de feuilletage ou de butinage d'information

Ces systèmes (browsing systems) permettent de circuler entre des éléments d'information, de les annoter, d'en extraire des parties. Ils concernent des domaines du savoir restreints et spécifiques (38). Ils sont avant tout destinés à la consultation par le public. Dès lors, la qualité de leur interface utilisateur et les facilités d'utilisation sont déterminantes dans leur conception.

On retrouve ce type de systèmes dans les applications sur Disque optique compact (DOC) - par exemple le dictionnaire Zyzomys de ACT-Informatique et Hachette - ou sur vidéodisque - bornes interactives, disques du Musée du Louvre utilisant un Macintosh pour le pilotage... L'Enseignement assisté par ordinateur est un domaine d'utilisation riche de perspectives. La documentation technique bénéficie aussi largement de ces outils (service des pièces détachées de Renault avec le logiciel Hyperdoc).

Les outils de réalisation d'hypertextes

Ces outils (general hypertext technology) sont à la fois des instruments pour gérer les données introduites dans l'hypertexte et pour construire les liens entre les éléments d'information, mais aussi des outils de rédaction des informations et d'intégration multimédia.

Le plus connu des outils de ce type offerts à la disposition des créateurs d'hypertextes est le logiciel HyperCard développé par Bill Atkinson pour le Macintosh. Ce logiciel se compose d'un éditeur de liens, d'une boîte à outils pour la réalisation des écrans (dessins, fond de l'écran, texte, typographie...) et d'un langage de programmation associé (HyperTalk) permettant de personnaliser les applications. L'objectif d'Hyper-Card est plus large que la réalisation d'hypertexte. Il s'agit d'un langage de programmation et de conception d'outils informatiques adaptés aux méthodes modernes (écrans graphiques, instruments de pointage, programmation par objets...) qui reste cependant accessible à un néophyte. HyperCard vise à jouer le rôle du BASIC à l'époque des interfaces graphiques (22).

Plus orienté vers la recherche dans le domaine de l'hypertexte, on trouve le système NoteCards développé par Frank Halasz au PARC de Xerox (Palo Alto Research Center, centre d'étude mythique d'où sont issues la majeure partie des innovations de l'informatique depuis 15 ans). NoteCards fonctionne sur des ordinateurs UNIX (stations de travail Sun) (23, 25). Il se distingue par l'utilisation d'une carte de navigation (browser) pour circuler dans l'hypertexte.

Intermedia a été développé à la Brown University par Nicole Yankelovitch (45). Utilisé à l'origine comme support de cours, il met l'accent sur la carte de navigation et la notion de webs (littéralement toiles d'araignée) pour regrouper les nœuds afin d'obtenir une présentation plus claire de l'ensemble du réseau.

Guide développé par Pete Brown à l'Université de Kent (Grande-Bretagne) est diffusé par la société Owl pour PC et Macintosh (6, 13). Guide est destiné à la rédaction et la consultation d'hypertexte. La conception des boutons dans Guide est plus structurée que dans HyperCard, ce qui en fait un outil plus adapté à la diffusion d'informations. L'apport d'une fonction de recherche de chaîne de caractères puissante le rapproche des habitudes de l'informatique documentaire (7). La portabilité des applications Guide entre les Macintosh et les ordinateurs MS-DOS est un atout important pour ce logiciel.

On trouve aussi plusieurs générateurs d'hypertextes fonctionnant dans l'environnement MS-DOS. On trouvera une comparaison entre ces logiciels dans l'article de Clarke (10). Hyperdoc de GSI, qui permet de gérer un nombre important de nœuds d'information, est plus particulièrement destiné à la documentation technique. Il s'appuie sur l'utilisation des écrans à très haute résolution capables de présenter des plans ou des dessins industriels (35). CD-Navigator est développé par ACT-Informatique pour la réalisation d'hypertextes sur DOC et comporte une partie de recherche booléenne sur chaînes de caractères. LinkWay est le générateur d'hypertextes proposé par IBM. D'un prix très attrayant (environ 500 F), il est d'un abord facile pour le néophyte. HyperTies a été développé par Ben Scheiderman, qui parle de « menus imbriqués dans le texte », avant même que le terme « hypertexte » ne revienne à la mode (27).

La structure des hypertextes

Une structure hypertexte se compose principalement de trois éléments :
- une collection de nœuds. Les nœuds sont de taille et de structure variable. Ils peuvent contenir toute sorte d'informations : texte, graphiques, images fixes, images animées, logiciels, son... Il est évident qu'en fonction du type d'information, la grammaire du système est différente. Par exemple, il faut une fonction d'arrêt et de retour au nœud précédent à chaque fois que l'on a activé un nœud contenant de l'image animée, et éventuellement une fonction d'interruption ou d'arrêt sur image laissant le contrôle de la lecture d'information à l'utilisateur.
- un réseau de liens permettant de naviguer d'un nœud à l'autre très rapidement. Cette capacité à invoquer des liens pour butiner entre les éléments d'information est la caractéristique principale d'un hypertexte. On ne peut toutefois parler de lien que s'il s'agit d'un appel direct (un pointage de souris ou la frappe de une ou deux touches de clavier) provoquant une réponse immédiate du système. Il existe plusieurs sortes de liens, qui définissent une syntaxe des hypertextes.
- une interface permettant d'invoquer des liens directement. L'invocation peut se faire à partir de la lecture du contenu d'un nœud. On parle alors de « boutons » qui sont soit des points de l'écran dessinés à cet effet, représentés éventuellement par des icônes, soit des mots ou des expressions du texte (des parties soulignées ou grisées dans une image) qui sont mis en valeur (typographie, encadrement...), soit des zones de l'écran (ou de la fenêtre active dans le cas de systèmes multifenêtres) qui sont invisibles à la lecture, mais provoquent une modification du signe représentant le pointeur indiquant ainsi le passage sur un bouton.

L'invocation d'un lien peut aussi être guidée par une carte générale (browser) représentant les nœuds et les liens présents dans l'ensemble de l'hypertexte, chaque nœud de la carte étant sensible à l'action d'un pointeur.

Les nœuds de l'hypertexte

Les nœuds d'un hypertexte se définissent d'abord par le type de contenu informationnel (texte, image, son, logiciel...).

Un nœud peut être représenté par une carte, c'est-à-dire par un contenant à la taille prédéfinie. Les cartes doivent alors contenir une unité syntaxique de l'hypertexte (un nœud) et une unité sémantique répondant à la division en éléments d'information. La taille limitée des cartes rend cette opération complexe. Pour contrer ce problème, on peut définir des nœuds de texte, dont la taille de visualisation (unité syntaxique correspondant à un écran ou à une fenêtre) est indépendante de la taille du texte (unité sémantique). On fait ensuite défiler le texte (ou l'image...) par un ascenseur, ou tout autre moyen traditionnel. On parle ainsi de générateurs d'hypertextes « orientés carte », comme HyperCard, ou « orientés texte » comme Guide.

On peut aussi déterminer une typologie des nœuds, et en regard une typologie des liens qui appellent et qui partent de ces nœuds typés (13, 4, 5). On trouve ainsi des nœuds spécifiques des annotations d'auteur, des nœuds de commentaires d'utilisateurs, et divers types de nœuds répondant aux buts spécifiques poursuivis par l'hypertexte, notamment dans les outils de résolution de problèmes. Par exemple si l'hypertexte s'inscrit dans un système d'aide à la décision, on peut concevoir des nœuds pour enregistrer les faits, d'autres pour les contraintes, d'autres encore pour les décisions prises ou proposées. Ces nœuds typés sont souvent reliés par des liens typés, ce qui conduit à la rédaction d'hypertextes proposant plusieurs niveaux de lecture, ou d'hypertextes très spécialisés, aux parcours de lecture plus contraints.

On peut aussi regrouper des nœuds élémentaires dans des nœuds composés pour obtenir une meilleure cohérence de l'hypertexte. Les nœuds composés sont traités comme un seul nœud du point de vue offert par les autres nœuds. Ces nœuds composés permettent de réaliser des cartes de navigation plus lisibles.

Le réseau des liens

Le réseau des liens forme l'ossature sensible d'un hypertexte. On peut distinguer deux grands types de liens :
- les liens organisationnels permettent d'organiser les divers éléments d'information suivant des schémas traditionnels. En général, ces liens sont appelés par des boutons spécifiques, qui restent présents sur tous les écrans : « aller au début », « nœud suivant », « nœud précédent ». Les tables des matières permettent de structurer les éléments d'un hypertexte comme le serait un texte imprimé. Ce type de lien, parce qu'il correspond à une pratique multicentenaire reste le plus employé.
- les liens associatifs sont l'apport nouveau de l'hypertexte. Il sont en général intégrés à l'intérieur même du contenu du nœud en cours de lecture. On peut à ce niveau distinguer :
. les liens d'annotation, qui permettent d'afficher une note dans une fenêtre spécifique de l'écran. Plusieurs stratégies sont employées pour lier la note au texte, en fonction de la taille de la note : ouverture d'une fenêtre permanente, avec un « ascenseur » pour lire tout le texte de la note, ou bien ouverture temporaire d'une petite fenêtre à l'endroit même du bouton appelant, qui se referme dès que l'on lâche la souris. On peut aussi concevoir des liens d'annotation dont l'invocation appelle une information d'un autre type, par exemple une image d'illustration, un graphique, un document sonore... C'est le principe de l'hypertexte sur l'Europe en DOC présenté par le Bureau Marcel Van Djik (9) qui, autour d'un texte présentant un événement ou un personnage, permet d'entendre des voix (discours, chants) ou de voir des portraits.
. les liens d'inclusion, qui étendent le texte de référence sur un point précis. Un nouveau texte est inséré à l'endroit du bouton. Cette relation est semblable aux passages en petits caractères de certains livres, que l'on peut sauter en première lecture, mais qui offrent des précisions importantes. Ce lien est aussi utile pour avoir des indications sur le contenu d'un chapitre dans une table des matières. Ce lien peut éventuellement être doté de critères de confidentialité (comme dans les documents structurés, normes ODA (Office Document Architecture) par exemple) ou de critères d'accessibilité (certaines informations ne sont accessibles qu'aux utilisateurs ayant obtenu un certain niveau de connaissance dans des applications d'enseignement assisté par ordinateur). L'existence d'un lien d'inclusion ne se conçoit que dans des systèmes ne limitant pas le contenu d'un nœud à la taille d'un écran, mais au contraire dans les systèmes orientés vers le texte.
. les liens de référence qui permettent de passer d'un nœud à l'autre. En général, le point de départ est un bouton du nœud d'origine, et le point d'arrivée est constitué par un autre nœud. On peut toutefois concevoir que l'arrivée soit seulement une partie d'un autre nœud, et que l'appel soit une région entière du texte d'origine. Cette extension du lien de référence est difficile à maintenir, notamment si les contenus des nœuds de départ et d'arrivée sont modifiés. L'image première du lien de référence est celle de la citation bibliographique, mais on peut aussi le retrouver dans le « jeu du dictionnaire », qui permet d'appeler la définition des mots présents dans une définition donnée. Plus difficile à concrétiser est la constitution de liens strictement analogiques, qui feraient correspondre le contenu global de deux nœuds. La proximité sémantique de deux nœuds est alors :
. déterminée au moment de la conception par un « auteur » d'hypertexte ;
. calculée par des méthodes d'agrégation de nœuds (clustering), méthodes similaires à celles utilisées dans les recherches en informatique documentaire (44). Ces méthodes sont cependant soumises aux choix d'indexation des nœuds ;
. tracée par les utilisateurs au fur et à mesure de la construction de cheminements particuliers. Ces traces sont conservées pour les utilisateurs futurs (cf. le memex de Vannevar Bush, ou le projet Xanadu).

Il n'existe pas encore de typologie établie des liens et des nœuds hypertextes, ni de spécification des actions provoquées par tel ou tel type de lien, ni de définition des attributs qui peuvent être associés à un lien (critères de confidentialité, accessibilité, changements typographiques...). Une telle normalisation syntaxique devrait permettre un meilleur échange entre les expériences, et offrir la possibilité d'accéder aux hypertextes par des matériels hétérogènes. Cette normalisation tendrait à dégager l'hypertexte, comme nouveau produit informationnel, du logiciel qui a présidé à sa création. La diffusion gratuite et massive du logiciel HyperCard a provoqué la création et la diffusion de stackware, piles de cartes organisées en hypertexte. La pérennité de ce type de travail n'est pas assurée, ni le transfert sur d'autres systèmes informatiques, ni même la possibilité d'y accéder à distance avec des outils généralistes de consultation. Ce type de normalisation, qui s'attache à des fonctions logiques et à des structures de documents complexes reste proche des réflexions sur les structures de texte : normes ODA (30) ou SGML (Standardized Generalized Markup Language) (40, 42), et de la normalisation des applications interactives (projet de norme RAVI) (43).

Cette normalisation de la syntaxe des hypertextes ne peut cependant pas précéder la recherche d'une rhétorique spéciale à ce type d'organisation des informations (13). Le texte écrit, linéaire, sait depuis des siècles indiquer par toute une série de connecteurs linguistiques, de formulations, ou même de constructions de phrases, les diverses parties et intentions d'un texte. Le lecteur est guidé par l'auteur qui indique une annotation, un exemple, une digression, un résumé, un retour en arrière...

Le discours oral, par l'apport supplémentaire de l'intonation, des pauses et du rythme sait mieux encore faire comprendre les articulations entre les éléments d'information.

Enfin, le discours audiovisuel, bien qu'il se cherche encore, connaît des procédés, reconnus par tous, destinés à guider le spectateur : voix off, plans rapprochés, alternance champs/contrechamps, insertion de plages contemplatives entre deux interviews... Il faut qu'émerge un consensus du même type sur la construction d'hypertextes. Les artifices rhétoriques propres à l'hypertexte sont encore largement de l'ordre de l'idée a priori sur l'utilisation possible d'un stock d'informations. En ce sens, les liens traditionnels d'organisation et de hiérarchisation du texte restent les liens dominants dans les hypertextes actuels. Il y a dans ce domaine une piste de recherche productive, réunissant informaticiens, linguistes, spécialistes de l'audiovisuel, bibliothécaires et documentalistes, journalistes, psychologues ou praticiens et théoriciens de l'éducation. Il semble en effet nécessaire de partir d'une analyse des méthodes d'apprentissage, et des méthodes de recherche d'information dans un univers peu structuré pour concevoir des méthodes hypertextes efficaces.

Les recherches portant sur ces problèmes d'organisation des informations en hypertextes induisent des interrogations plus épistémologiques sur ce mode de diffusion de l'information comme le souligne Virginia Doland (14, 15). Le choix de découpage en noeuds, la définition des liens, et éventuellement des attributs d'accès afférents sont de la responsabilité de l'auteur, et de ce fait introduisent des biais subjectifs. Acceptée dans le texte « linéaire », cette influence de l'auteur sur le produit d'information est loin d'être reconnue dans le domaine de l'hypertexte. Les promoteurs de l'hypertexte aspirent à la « neutralité » en laissant à l'utilisateur le choix d'organiser sa lecture. Or, l'organisation de l'hypertexte, loin d'être un mode « neutre » permettant de proposer à chaque lecteur l'ensemble des informations, en lui laissant la liberté totale de lire ce qui l'intéresse, comporte aussi des présupposés (pourquoi telle information est-elle associée à un nœud ?), qui peuvent conduire à occulter des parties de l'information ou induire une lecture « idéologique » de certaines liaisons (pourquoi ce nœud est-il relié à tel autre ?). Ces aspects de la construction d'un hypertexte sont d'autant plus forts que nous ne connaissons pas bien la grammaire des hypertextes et les modes de lecture des utilisateurs.

Navigation et butinage

La navigation dans l'information, le butinage, sont des activités quotidiennes (lecture du journal, fréquentation des lieux publics, lecture des panneaux indicateurs routiers ou des cartes routières...) qui restent pourtant rebelles à la modélisation. Dans le domaine plus spécifique des hypertextes, on peut penser que la navigation procède de trois options :
- rechercher un mot-clé (chaîne de caractères, descripteurs ou équation de recherche booléenne) dans les nœuds d'information. Ce mode de recherche s'apparente aux modes de requêtes des banques de données. La capacité à retrouver et à classer les nœuds d'information en fonction de leur pertinence pour une question d'utilisateur est similaire aux problèmes associés aux autres modèles documentaires. L'indexation des nœuds se pose de la même manière, et les hypothèses allant de l'indexation en texte intégral à l'indexation par mots-clés, en passant par une pondération des descripteurs, sont retenues. Ces méthodes restent sensibles aux qualités de l'indexeur, et sont comparables à la recherche documentaire informatisée.
- invoquer un lien à partir d'un nœud. Présentés à l'écran, les liens permettent de suivre les informations associées (hiérarchiquement ou analogiquement) au nœud en cours de consultation. L'utilisateur décide ou non d'invoquer un lien et choisit donc son parcours de lecture. C'est l'aspect butinage de l'information. Le chemin ainsi défini par un utilisateur particulier est conservé dans un historique qui peut être affiché à l'écran pour permettre un retour en arrière.
- utiliser une carte générale du contenu de l'hypertexte (browser) pour situer un nœud et connaître les autres nœuds associés et le type de liens existant entre eux. Chaque nœud de la carte générale est représenté par un mot-clé, une icône ou une représentation en réduction (par exemple les imagettes d'un imageur documentaire). Il semble utile de distinguer navigation et butinage qui sont les deux types d'activité permettant d'utiliser les potentialités particulières des hypertextes, c'est-à-dire la circulation suivant les liens (31, 17). On réservera le terme de navigation à la circulation utilisant une carte de navigation. Cette activité représente une action réfléchie et contrôlée à partir d'un projet général, ayant une destination particulière. Le butinage est obtenu par l'invocation directe des liens à partir des boutons. Il s'apparente plus à la flânerie au sein de l'univers informationnel, et constitue une activité cognitive plus difficile à modéliser. Par voie de conséquence, l'activité de butinage fait porter de plus lourdes responsabilités sur le concepteur du système s'il désire éviter que l'utilisateur ne soit « perdu dans l'hyperespace ».

Ray McAleese distingue deux méthodes de butinage : un butinage spécifique, dans lequel l'utilisateur recherche des informations avec un but défini précisément et un butinage thématique, qui correspond à un processus exploratoire, où la circulation dans les informations se fait avant de définir les frontières de la recherche.

L'enjeu du modèle hypertexte est de favoriser cette recherche exploratoire, répondant à un but qui n'est pas encore précis dans l'esprit de l'utilisateur. Un hypertexte doit être structuré afin de faciliter le butinage, mais doit aussi permettre de filtrer l'information en fonction des buts d'un utilisateur, lui offrir des instruments pour planifier sa recherche (des « cartes de navigation ») et lui permettre de déterminer le niveau de détail dans l'information qui lui est nécessaire.

De ce point de vue, on peut distinguer cinq stratégies d'utilisateurs :
- le balayage (scanning) qui permet de couvrir un thème sans descendre dans les détails,
- le butinage (browsing) où l'utilisateur poursuit un chemin jusqu'à la satisfaction de son besoin d'information,
- la requête (searching) qui correspond à un but précis et bien défini,
- l'exploration (exploring) qui permet de couvrir toutes les perspectives de l'information recueillie,
- le vagabondage (wandering) qui est une recherche d'information sans objectif défini et qui consiste en un cheminement non structuré parmi les éléments d'information.

L'interface mise en œuvre dans un hypertexte privilégie certaines de ces stratégies. Globalement, on peut distinguer deux grand types d'interface :
- l'interface syntaxique qui propose un langage intégré dans les éléments d'information. Cette interface est basée sur le repérage de « boutons » dans le contenu d'un nœud (texte, icônes, « points chauds »...) (e.g. HyperCard)
- l'interface graphique qui propose une représentation générale du contenu de l'hypertexte en indiquant les nœuds et les liens (par exemple une table des matières ou une carte de navigation) (e.g. NoteCard)

Dans l'encadré ci-joint, McAleese distingue l'adaptation d'un type d'interface en fonction des stratégies de recherche.

Avantages et limites des systèmes hypertextes

Les hypertextes permettent à chaque utilisateur de retrouver des informations à partir de modes d'approche différents. Le texte est en quelque sorte organisé de manière différente pour chacun des lecteurs. Ils permettent, de plus, d'engager une lecture active, en annotant les textes, en traçant des chemins particuliers. En revanche, les hypertextes posent plusieurs problèmes aux utilisateurs, que Carolyn Foss (17) nomme :
- le « problème des digressions imbriquées » (the embedded disgressions problem)
- le « problème du musée d'art » (the Art Museum problem).

Dans le premier cas, l'utilisateur suit des chemins de traverse et finit par perdre le fil de sa recherche originale. Les buts qu'il s'était fixés peuvent se perdre au cours de ce voyage dans l'information. La seconde métaphore représente la situation d'une personne qui a vu de nombreux éléments d'information, mais ne s'est attachée à aucun objet précis. Cet utilisateur finit par ne plus savoir distinguer les informations, et par ne plus savoir généraliser à partir de ces éléments épars pour en faire un savoir cohérent.

L'utilisateur d'un hypertexte peut se trouver perdu dans l'hyperespace, et ne plus savoir dans quelle direction prolonger ses recherches. C'est l'objectif de la « carte de navigation » (browser) de montrer l'environnement d'un nœud en le re-situant dans l'ensemble de l'hypertexte. Toutefois, on peut alors se trouver débordé par la masse d'informations, d'autant qu'il faut représenter les nœuds aussi bien que les liens !

Deux méthodes permettent de circonscrire ce problème :
- établir un filtre qui ne propose sur la carte qu'un certain nombre de nœuds, reliés par des liens d'un type choisi. Ces techniques de filtrage seront certainement favorisées par une meilleure connaissance d'une syntaxe des hypertextes, comme souligné plus haut ;
- proposer une vue particulière de l'hypertexte, centrée sur le nœud en cours de lecture et qui privilégie les nœuds environnants (au sens où les liens directs « rapprochent » des nœuds) et tend à faire se confondre les nœuds plus distants. Cette présentation, dite « fish eyes view », par analogie à certaines photographies prises avec un objectif à très courte focale (fish eye), a été proposée par Georges Fumas (19).

L'objectif général d'un concepteur d'hypertexte doit être de lutter en permanence contre la désorientation de l'utilisateur, et contre les problèmes de désorganisation cognitive, qui font perdre le sens des objectifs de recherche d'information qui étaient à l'origine de la consultation. C'est aussi l'enjeu passionnant des recherches à venir dans ce domaine.

Hypertexte et banques de données documentaires

Le concept d'hypertexte est en lui-même un modèle d'organisation des informations. Il permet cependant de regarder différemment de nombreuses difficultés rencontrées dans l'utilisation des banques de données. Deux éléments des systèmes hypertextes se retrouvent dans les recherches sur les banques de données documentaires :
- l'existence de liens entre documents qui permettent de faire aisément passer d'un point à l'autre de l'hypertexte, ces passages étant matérialisés par une carte de navigation. Cette approche est analogue à la réalisation d'agrégats dans les banques de données ou aux méthodes de classification des bibliothèques ;
- la capacité à utiliser les informations contenues dans un noeud (document) comme signal pour invoquer un autre élément d'information. On retrouve alors les concepts de jugement de pertinence (relevance feedback) et de reformulation dynamique des requêtes. Dans ces modèles, l'utilisateur, en validant certains documents extraits par une première recherche documentaire, induit l'écriture automatique d'une autre formulation de sa question, plus adaptée à son besoin documentaire (37, 28). Dès lors, les recherches sur la syntaxe des hypertextes et sur la résolution des problèmes de désorientation et de désorganisation cognitive vont pouvoir nous aider à établir de nouveaux types d'interfaces pour les banques de données ou les catalogues en ligne. On peut en effet considérer un document comme un nœud d'un hypertexte, les relations de similitude (descripteurs communs, co-citations, relations sémantiques...) comme des liens. La requête primaire devient alors une voie d'entrée dans le réseau hypertexte. Les résultats d'une requête peuvent aussi être considérés comme des nœuds composites, ouvrant l'accès à certains documents particuliers et considérés comme équivalents du point de vue de la requête (des agrégats).

Considérer les banques de données sous cet aspect nous conduit à envisager une modification profonde de l'opération de recherche documentaire sous deux angles :
- il faut que le terminal de consultation dispose des attributs d'un système hypertexte, notamment un écran graphique permettant le multifenêtrage et l'utilisation d'un instrument de désignation (en général une souris). La souris pourrait être utilisée pour passer d'une version courte (titre-auteur-descripteurs) à une version longue (document complet) par un « lien d'annotation ». Les divers « objets cognitifs » actifs au cours d'une recherche documentaire (écran de requête, écran historique, réserve de documents, écran du jugement de pertinence...) seraient activés chacun dans une fenêtre du terminal de consultation, comme dans les sytèmes hypertextes ;
- il faut que la recherche documentaire devienne une lecture active, avec la possibilité pour un utilisateur d'annoter les références qu'il sélectionne (comme par exemple : pourquoi est-elle conservée ?, ou : rangement dans un dossier particulier...) et la conservation d'un historique du chemin parcouru, et plus encore d'un historique des nœuds considérés comme satisfaisants pour le besoin documentaire de l'utilisateur.

Ces deux points ne renvoient pas seulement à des questions scientifiques, mais aussi à des questions organisationnelles et économiques. Actuellement, la consultation de banques de données est une opération en trois temps : établir la requête, récupérer les résultats, lire et exploiter les résultats, en général après avoir quitté le système documentaire. Cette articulation des opérations, contrainte par des motifs économiques (mode de facturation de la recherche documentaire) doit être complètement dépassée pour intégrer le modèle hypertexte et les banques de données. Dans ce domaine, les Disques Optiques Compacts, parce qu'ils bénéficient de l'interface graphique des micro-ordinateurs, et parce que leur utilisation n'est pas dépendante du temps passé, peuvent présenter une première étape, permettant l'étude et la mise au point de ce type de système. On peut alors d'autant plus regretter que les DOC contenant des banques de données ne soient en général que des versions « en livre de poche » des banques de données en ligne.

Quelques idées émanant du modèle hypertexte ont été utilisées pour augmenter les capacités des systèmes traditionnels de catalogues de bibliothèques. L'article de Sandra Sinno-Rony dans ce même numéro (39) est un exemple d'utilisation du concept d'hypertexte pour les catalogues de bibliothèque, en l'occurrence le DOC Lise, catalogue de la Bibliothèque publique d'information. Un autre exemple est donné depuis plusieurs années par le logiciel TINman (et son application aux catalogues de bibliothèques TINlib) de la société britannique IME (Information Management & Engineering) qui permet d'utiliser le résultat d'une première recherche documentaire pour pointer des mots apparaissant à l'écran (noms d'auteurs, mots-clés....). Cette opération relance la recherche en utilisant le terme repéré comme nouvel attribut. Le procédé est séduisant, si l'on considère qu'il est plus facile de reconnaître et sélectionner une information que de deviner ce que contient le système. Cependant, la désorganisation cognitive soulignée plus haut est alors très forte. Dans les systèmes utilisant le jugement de pertinence, un ensemble de caractéristiques, calculé sur plusieurs documents, est utilisé pour relancer la recherche. Ici, seuls les termes pointés sont pris en compte. La recherche devient alors beaucoup plus sensible aux limites de l'indexation, et la dispersion due aux ambiguïtés des termes employés est plus forte. Les limites de la notion de boutons interactifs montrent cependant que cet aspect des hypertextes ne peut pas être isolé des réflexions globales sur le modèle de navigation d'un utilisateur dans l'information.

Pistes de recherche

Ce survol du concept d'hypertexte laisse ouvertes de nombreuses pistes de réflexion et de recherche. On peut noter en particulier :
- le modèle hypertexte peut être considéré comme une structuration nouvelle des informations (un type de texte nouveau et original) mais aussi comme un moyen d'intégrer les documents électroniques existants dans un environnement de lecture adéquat. Dans la première hypothèse, les hypertextes sont constitués, édités et mis à jour comme un ensemble fini d'information. C'est l'hypothèse des nombreux hypertextes constitués sous HyperCard, dont un modèle achevé est représenté par Glasgow online, hypertexte de présentation des lieux et des activités de la cité écossaise (2, 25). La seconde voie, qui utilise l'hypertexte pour ses capacités d'intégration et de navigation comme une interface placée au-dessus de textes ou de documents déjà informatisés, devient un modèle précieux de toutes les activités de lecture électronique, depuis la lecture de catalogues de bibliothèque à celle de livres numérisés.
- l'hypertexte va bouleverser profondément la recherche documentaire, notamment en mettant en avant deux éléments :
. il est plus facile de reconnaître et pointer un élément d'information apparaissant à l'écran que de formuler une requête ;
. il est nécessaire de naviguer autour du « point d'atterrissage » représenté par le résultat d'une requête documentaire. C'est d'ailleurs la méthode employée lorsqu'on utilise une bibliographie imprimée : on regarde « ce qu'il y a autour » des références qui nous intéressent.

Les conséquences de cette démarche dans la constitution des catalogues de bibliothèque devraient être importantes (39).
- Le passage du texte à l'hypertexte, ou la transformation d'une banque de données de références en réseau hypertexte, sont des problèmes qui vont devenir centraux pour la généralisation de l'hypertexte. Les solutions sont à chercher dans des domaines d'étude très divers :
. les normes de définition des documents structurés (SGML ou ODA) distinguent l'architecture logique du document de sa fmalisation imprimée (ou sur écran) ;
. l'étude des réseaux sémantiques, et particulièrement des thésaurus documentaires permet de concevoir des réseaux de navigation à partir de l'indexation (24) ;
. l'étude sur les classifications documentaires, destinées à la circulation dans les rayons d'une bibliothèque, est en rapport avec l'approche similaire dans les documents électroniques hypertextes.
- Les tentatives de résoudre les problèmes de désorientation dans un réseau d'information par la constitution de cartes de navigation, éventuellement de cartes adaptées au cheminement particulier de l'utilisateur, restent centrales pour le développement de l'hypertexte (17, 5, 18). Cette conception doit s'élargir à des réflexions sur la lecture multimédia, et sur les types de liens qui peuvent être attachés à des documents sonores (le temps devenant le critère de repérage des boutons) ou des images animées. - Le modèle hypertexte, parce qu'il associe des éléments d'information par des liens, est relativement proche des représentations du monde réel. Un document édité est un élément qui associe au texte lui-même son « paratexte », ensemble des marques de reconnaissance du texte - préface, bibliographie, édition, collection (20) -, mais aussi les marques d'intertextualité, qui font qu'un écrit renvoie toujours à un autre texte, même sans mention explicite. Une fois que cette vision sera généralisée, et devenue visible et sensible par la multiplication des hypertextes sectoriels, elle induira de nouvelles exigences envers les structures de conservation et de mise à disposition des documents. Cela conduira certainement les bibliothécaires à approfondir les méthodes et les concepts qu'ils utilisent actuellement pour décrire et classer les documents. Par exemple, le format bibliographique MARC est associé à la description d'un ouvrage précis. Or l'utilisateur préfère dans de nombreux cas avoir une « notice de regroupement » qui décrit, comme un nœud composite, les diverses éditions d'un même titre. Libre à lui ensuite d'en savoir plus sur les diverses versions qui lui sont proposées. On s'aperçoit que le modèle hypertexte peut nous conduire à repenser les fondements mêmes de l'informatique documentaire.

Ces pistes de recherche n'épuisent pas les travaux en cours. Notamment, les liens entre les structures hypertexte et les modèles développés en intelligence artificielle (systèmes experts, réseaux connexionnistes, traitements linguistiques...) ne sont pas abordés dans cet article. En plus de constituer un instrument de conception et de réalisation de nouveaux produits informationnels, l'hypertexte apparaît aussi comme un moyen de reposer avec un regard neuf des questions concernant toutes les méthodes d'organisation et de circulation dans l'information. A ce titre, il doit constituer un sujet d'étude passionnant pour les bibliothécaires.

Mai 1991