"Mallarmé"

ce script est un générateur automatique de mots clés

Extrait de la présentation au salon psychiatrie et SNC, Paris Nov 99

 

Un des problèmes essentiels, je le disais tout à l'heure, rencontré dans l'établissement d'une BdD en réseau est celui de l'homogénéisation de la consultation au travers des mots clés et des systèmes de classification.

Pour notre travail, nous n'avons bénéficié d'aucun système de classification, ni d'aucune liste structurée de mots-clés. Nous en avons été très gêné au départ, puis nous en avons pris notre parti et convenu d'établir par nous-même, un système de classification empirique au fur et à mesure de notre travail sur la BiblioEy.

Plus tard en établissant les références de l'Evol Psy, c a d, un travail sur des fichiers volumineux, se posait à nouveau à nous le problème des mots clés. Les revues n'ont pris conscience d'établir les Mots Clés pour chaque article qu'au milieu des années 80 et de faire figurer des résumés qu'un peu plus tardivement encore. Donc pour les fichiers que nous avions à traiter (antérieurs aux années 80), tout était à faire. Le Pr Arvellier avait fait un travail remarquable de lecture de tous les textes de la revue de 1986 à 1995 et beaucoup d'autres années encore. Il avait établi les mots clés pour chaque article, corrigeant les mots clés établis antérieurement. Son travail, établi sous Excel, nous a été très précieux. Cependant, le reste de la tâche paraissant trop lourd (lire chaque article), j'ai dû convenir d'établir les mots clés à partir du titre de l'article. C'est là que l'idée d'un automatisme s'est imposée: il s'agissait de transposer les mots significatifs d'un titre dans une rubrique mot clé, exactement comme le faisait Henri Ey pour les tables des matières de l'Evol Psy, en encadrant certains mots d'un titre pour les élever à la dignité de mot représentatif.

File Maker Pro permet cette programmation grâce à un module de script qui est intégré au logiciel. Grâce aux 60 années de titres de l'Evol Psy "dégraissés" de leur petits mots de liaison, j'ai confectionné un dictionnaire de mots de la psychiatrie, enrichi de la consultation de différents ouvrages ou dictionnaire de la psychiatrie, et en partie du travail déjà fait par JM Thurin, qui me l'avait adressé par mail. Le dictionnaire contient à l'heure actuelle 3200 mots, sans les mots approfondis de la psychanalyse, de la phénoménologie, de la psychopharmacologie, du cognitivisme, etc. c'est dire qu'il pourra atteindre les 4 à 5000 mots, et sera toujours susceptible d'enrichissement. C'est un dictionnaire de reconnaissance, qui reconnaît en fait des radicaux (supprimant la multiplicité des terminaisons en isme en ique, les pluriels et les féminins lorsque c'est possible; à ce titre, ce travail sur les radicaux, a permis de se rendre compte qu'une série de mots ne souffraient d'aucune ambiguïté, (ils ne sont radicaux d'aucun autre): le Phallus, le regard, la voix, les fèces, et dans une moindre mesure le sein car il peut tout de même faire confusion avec "les internes des hôpitaux de la Seine" où le sein entre comme radical comme dans le blanc-seing ou le sous-seing, mais on n'a peu de chance de rencontrer ces derniers dans des titres d'articles psychiatriques, encore que... ).

Donc un dictionnaire de reconnaissance, auquel va être couplé un dictionnaire d'inscription des mots clés adéquats dans la rubrique Mots Clés, ainsi à la reconnaissance de "Epistémologique", sera inscrit "Epistémologie", Biologique ou biologisme= Biologie, institutionnalisation= Institution, etc Il s'agit là de traiter les synonymes ou les équivalents sémantiques (maniaque-depressif, maniaco-dépressive maniaco-dépressif, etc), tout en prenant garde de ne pas confondre les époques et de traiter séparément les psychoses maniaco-dépressives et les troubles bipolaires de l'humeur afin de ne pas générer d'anachronisme.

Un pas de plus a pu être franchi en introduisant un début de hiérarchisation: à Dogmatil s'inscrira Sulpiride, Dogmatil, (correspondance sémantique de deux champs connexes), Neuroleptique, Psychopharmacologie, Thérapeutique. (Classification hiérarchisée).

À Ganser s'inscrira: syndrome de Ganser, Hystérie, Histoire (par ex.)

 

On le voit, ce script est un générateur automatique de mots clés débouchant sur la constitution d'un thésaurus. Il est capable de gérer de grands fichiers avec une fiabilité d'autant plus grande que les rédacteurs auront été sévères dans la sélection des titres des articles. "Mallarmé" ne comprend pas la métaphore! (L'EMC est très rigoureuse dans ses titres, si bien que chaque mot du titre est pertinent, et peut-être reproduit tel quel; "Mallarmé" n'apporte alors que la hiérarchisation.) Le travail de lecture articles par articles du Pr Arvellier nous a été ici encore, précieux, en constituant une base de comparaison fiable: un examen comparatif sur plusieurs centaines de titres n'a montré que peu de manques (les grosses erreurs étant corrigées à la relecture), et une légère supériorité dans la hiérarchisation, ce qui est normal.

Ce script peut traiter avec son double dictionnaire de 3200 mots, un fichier de 2500 titres en 15 mn. Le temps est fonction de la taille du dictionnaire, non de la taille du fichier. C'est à la fois rapide quand on le compare à la saisie manuelle, mais relativement lent pour un ordinateur; cela est dû au niveau très extérieur du traitement des opérations; il s'agit quasiment d'automatisme au niveau des tâches du clavier et non d'un logiciel intégré au cœur de l'ordinateur.

Un exemple sera parlant avec un petit dictionnaire de 100 mots et un petit fichier de 10 fiches. En 20 secondes pour ce petit dictionnaire, l'inscription se fait dans la rubrique mot clé. J'ai gardé volontairement quelques exemples d'erreurs, pour bien souligner que la relecture de chaque fiche est indispensable. (démonstration).

 

Une application intéressante de "Mallarmé" pour le réseau est d'uniformiser après coup les hiérarchisations et les classifications hétéroclites. L'intervention peut se faire alors sur la rubrique mots clés, dans un second temps, une fois défini le système de validation de classification et de hiérarchisation. Son application à la rubrique mot clé permet de modifier certains mots clés qui ne seraient pas validés, comme le ferait une fonction rechercher-remplacer multivalente (s'appliquant à plusieurs mots simultanément).

Autre application intéressante, la traduction, des mots clés français en langue étrangère, dans la mesure où un dictionnaire de correspondance serait établi. Vous savez les aléas d'une telle entreprise, car chaque langue porte une culture, une histoire et une tradition psychiatrique; mais on peut espérer que pour une traduction des termes standard, une correspondance bijective puisse être sommairement établi. Ed. Th. Mahieu avait déjà fait sur le SitEy une correspondance Franco-Espagnole des grandes classes. Il vient de nous adresser la traduction du dictionnaire de démonstration. J'ai volontairement laissé les remarques qu'il nous a faites sur les problèmes de traduction. Notre rubrique mots clés serait ainsi accessible aux étrangers dans leur propre langue, et inversement nous pourrons traiter automatiquement les titres des revues de langue espagnole se trouvant dans la Bibliothèque de Ey et générer des mots clés français, donc rendre accessibles aux francophones les titres des revues en espagnol. La même politique peut être développé pour toutes les langues. (Démonstration)

 

Enfin, la génération automatique de mots clés peut s'appliquer à des résumés et des textes entiers: on a alors une génération plus pléthorique de mots clés (et des faux positifs), mais cela peut-être utile pour une recherche avancée sur des résumés, une partie du travail étant effectué sans avoir besoin de rester longtemps en ligne comme c'est le cas actuellement. (Démonstration)

Voilà, ce script reste la propriété de l'Association, mais chacun peut en bénéficier en nous demandant sa mise en œuvre, en espérant que vous deviendrez après cela, Membre de l'Association pour la Fondation Henri Ey.

Dr Patrice Belzeaux