|
Problématique
L’équipe est organisée en 4 composantes :
Les recherches menées au sein de l’équipe s’articulent autour du concept de base
d’informations selon deux approches complémentaires permettant d’appréhender les
systèmes d’information et d’ingénierie documentaire, pour proposer, développer et
expérimenter des modèles, des langages, des méthodes et des techniques autour du
concept de bases d’objets documentaires ou hyperbases. Cette approche privilégie
l’élicitation et la manipulation de structures irrégulières issues des informations
manipulées, via des langages de type SQL, OQL, XQuery... Ces systèmes s’appuient
sur des gisements d’informations et bases de données multidimensionnelles, dont
l’objectif est de proposer, développer et expérimenter des techniques et stratégies
d’identification de sources d’information, de mémorisation, de filtrage/recherche
d’information (explicite ou cachée) et de présentation, et de coordonner ces opérations
à travers un plan stratégique global.
Les travaux se focalisent sur
- les modèles de représentation abstraite de collections
d’informations complexes,
- les modèles d’interrogation de collections
- et ceux
destinés à la manipulation et à l’exploration visuelle de grandes collections.
Le développement constant des technologies de l’information et de la communication ainsi que la part
grandissante de l’informatique dans la plupart des champs
disciplinaires produit toujours plus de données (ACI « Masse de Données »), offrant
un nombre croissant de sources d’informations disparates, fortement évolutives,
distribuées, changeantes et autonomes. La mondialisation et l’’ccélération des
échanges imposent une réactivité et par voie de conséquence, des besoins d’analyses perpétuellement
renouvelés et si possible anticipant les phénomènes à venir
difficilement prévisibles. Le champ des activités se décline autour des quatre axes
complémentaires décrits ci-après.
DDSS : Modélisation et manipulations flexibles de documents et données semi-structurées
Ce champ d’activité s’intéresse à la description de structures et contenus de documents, par des mécanismes de spécification ou d’élicitation, éventuellement supportés
par l’annotation via des métadonnées. Trois raisons importantes font de la description de documents une tâche complexe :
- la méconnaissance a priori de la (des) structure(s) sous-jacente(s) des collections
et des instances,
- la « non-structuration » (ou au mieux la « semi-structuration ») des documents et
le manque de structures régulières,
- l’organisation des documents dans une dimension spatiale intra et inter-document,
intra et inter-collection, et différentes dimensions temporelles, complexes à
modéliser.
Un document multimédia est considéré à ce titre, comme semi-structuré : sa structure est a priori inconnue, irrégulière et sans définition générique.
Mais des outils
d’élicitation et d’analyse du contenu peuvent permettre l’identification des éléments
fondamentaux de la structure, à partir desquels peuvent être déduites des structures
génériques de collection. Des événements, objets, éléments... composant le document, peuvent ainsi être identifiés en se basant sur la structure générée
automatiquement par ces outils d’élicitation et d’analyse du contenu.
Le deuxième volet de la problématique consiste à étudier les mécanismes de manipulation et exploration de ces collections, en fonction de profils d’analyse et
d’usages,
intégrant la formulation de préférences et de nuances dans la spécification du besoin
en information.
Notre problématique d’annotation s’adresse à l’élicitation et l’annotation de documents légataires. Le caractère semi-structuré des documents et l’hétérogénéité
des
formats et des contenus imposent un traitement préalable pour homogénéiser les
structures de représentation et de description de ces documents. Nous faisons appel
pour cela aux différents noyaux génériques de réécriture, d’indexation et de segmentation, développés au sein de l’équipe, dont le principe consiste à reconnaître
les éventuels éléments de structure et informations sur le format et le contenu du document.
Les points forts de cette approche consistent d’abord à ne pas imposer de niveau ni
de vocabulaire, et ensuite à spécifier un balisage sémantique de manière standard
sans imposer de niveau de granularité a priori.
L’objectif n’est pas nécessairement de fournir une réponse « exacte » comme dans les
systèmes de gestion de bases de données, mais d’un positionnement sur (ou d’une
localisation de) l’information susceptible de répondre au besoin en information, selon
un degré évalué en fonction de différents paramètres (profil, préférences, contexte...).
L’introduction des techniques floues dans les opérateurs spatiaux ou temporels permet
de gérer la flexibilité dans l’exploration de collections de graphes partiels de documents, de requêtes, afin d’éviter des réponses vides.
La proposition d’un modèle
flexible de traitement de requêtes adapté aux documents semi-structurés et au
raisonnement qualitatif humain, en prenant en compte non seulement le contenu,
mais aussi la structure de ces documents, a été implanté. L’originalité dans la
mise en oeuvre de fonctions de similitude réside dans sa capacité à intégrer
les exigences de l’analyse exploratoire de grandes bases de documents basée sur
les principes de description multidimensionnels, intégrant la multi-structuralité qui en
découle (structure logique, sémantique, temporelle, spatiale...).
ED : Conception de systèmes d’informations décisionnels
La conception de systèmes d’informations pour l’aide aux processus de prise de
décisions dans les organisations est une tâche complexe : l’adéquation des bases
de données décisionnelles aux besoins analytiques des décideurs est aujourd’hui
remise en cause face à de nouveaux défis qui émergent dans les systèmes
d’information décisionnels. Nos principaux axes d’études visent à l’étude et à
la spécification de nouvelles modélisations des bases de données décisionnelles, ainsi
qu’à l’élaboration de langages décisionnels adaptés aux décideurs.
De nouveaux modèles multidimensionnels de représentation des données décisionnelles doivent être formalisés afin
d’appréhender l’évolution de la base de données
au regard des changements qui surviennent tant au niveau des sources, qui peuvent
subir des évolutions radicales, voire disparaître ou apparaître, qu’au niveau de l’utilisateur dont les analyses en perpétuelle
évolution imposent aux structures multidimensionnelles une forte capacité à évoluer. Ces évolutions des structures et des données
se font non seulement de manière linéaire, au cours du temps, mais également
de façon non linéaire, par exemple en fonction de versions multiples associées à des
intervalles temporels à spectres variables. Ces exigences conduisent à la proposition
de schémas en étoiles multi-versionnalisables permettant, par exemple, d’anticiper
des événements en simulant des scénarios de gestion alternatifs non encore survenus, tout en gardant une traçabilité sur ces scénarios prévisionnels.
Les modèles proposés doivent conjointement supporter l’historisation des données et des schémas
multidimensionnels. Conserver tous les changements est essentiel pour permettre
d’exploiter des informations passées parfaitement connues pour approximer des données présentes et/ou futures imparfaitement connues.
Appliquer l’historisation dans
ces bases de données multidimensionnelles peut engendrer une masse d’information
complexe représentée sous forme de treillis de vues matérialisées temporelles, imposant de proposer des mécanismes suffisamment flexibles pour permettre
une historisation multi-granulaire et de nouveaux algorithmes de calcul sur ces treillis. Enfin,
les modèles doivent supporter des données évolutives, atypiques, parfois à structures
mal définies tout en assurant l’actualisation incrémentale et dynamique des processus d’alimentation.
Adossées aux modèles de description des données, des primitives formelles définissant parfaitement les opérations de manipulation doivent être proposées,
à travers
une algèbre de manipulation multidimensionnelle reposant sur un formalisme montrant que cet ensemble d’opérateurs offre un noyau minimal fermé. Le fondement
théorique de l’algèbre doit servir de support au développement de langages comportant une famille d’opérations assurant les fonctions d’analyses multidimensionnelles
traditionnelles (rotations, forages...), mais aussi de nouvelles opérations supportant
les analyses multidimensionnelles sur des données à structures variables, multi-versionnalisées, de granularités temporelles multiples, s’appuyant sur des formalismes
de représentation adaptés.
EVI : Exploration et Visualisation d’Information
Cet axe s’intéresse à la fouille d’information à partir d’un corpus ciblé. Les systèmes
Question/Réponse visent à restituer un élément d’information qui répond à la question
de l’utilisateur, alors que les systèmes de RI « classique » évoqués ci-dessus fournissent un ensemble de documents supposés répondre à un besoin.
Lorsque l’on s’intéresse plus particulièrement à un domaine, ce ne sont plus quelques dizaines de
réponses qui sont fournies, mais plusieurs milliers. L’objectif de l’exploration visuelle
de collections est de proposer à l’utilisateur des vues globales à travers des abstractions de ces informations, lui permettant d’appréhender la structure du
domaine considéré. Dans le contexte actuel de variété de sources d’information, l’homogénéisation
des informations recueillies reste un problème à résoudre. Nous proposons des
méthodes d’homogénéisation basées sur l’extraction et l’étude des méta-données
associées aux sources ou aux documents eux-mêmes. Les méthodes de fouille de
données s’appuient sur des modèles issus de l’analyse de données (classification,
analyse factorielle). Les processus de visualisation sont variés, ils dépendent des
méthodes d’analyse et des objectifs de découverte de connaissances (graphes, cartes
géographiques, etc.). Le cas des données géo-référencées élicitées à partir de corpus
textuels est particulièrement pertinent car il implique des processus spécifiques.
L’analyse de l’évolution est également fondamentale puisqu’elle permet de comprendre un domaine et peut aider à la décision en prédisant une évolution future.
Il faut
noter que certaines méthodes d’analyse sont adaptées à certains types de données
mais bien souvent une méthode permet d’émettre des hypothèses qui doivent être
validées par d’’autres méthodes, acteurs... Une de nos contributions vise à appréhender l’expertise de la manipulation des différents modèles d’analyse afin de s’assurer
de la validité de l’information déduite. Notre problématique consiste ensuite à intégrer
cette expertise (analyste, documentaliste, expert du domaine) au sein du système.
RFI : Modèles adaptatifs pour la recherche d’information
Ce champ d’investigation s’intéresse plus précisément aux documents textuels. Dans
ce contexte, nos contributions visent la mise en oeuvre de systèmes de RI à grande
échelle impliquant la définition de modèles adaptatifs et flexibles. Nos approches s’appuient sur les théories et modèles (probabiliste, statistique, logique floue
et connexionniste) en amont pour indexer les informations en conservant au maximum leur richesse, en aval pour optimiser l’interrogation des collections.
Pour assurer ces deux fonctions, les modèles proposés prennent en compte différentes caractéristiques internes
et externes de l’information manipulée par le système et par l’utilisateur. Les sources
d’information documentaire offrent une diversité de richesse de structuration. La prise
en compte des éléments structurels est nécessaire pour permettre une interrogation
combinant le contenu informationnel et la structure du document. La granularité
de l’information, en s’appuyant sur la structure implicite ou explicite des documents,
permet de manipuler l’information à différents niveaux de granularité en fonction des
besoins de l’utilisateur. La diversité linguistique des acteurs de diffusion d’information
et des consommateurs d’information conduit à la nécessité de prendre en compte
la langue. Ainsi, un utilisateur pourra vouloir interroger un système dans une langue
et retrouver des documents dans plusieurs langues s’il est capable de les exploiter.
La RI multi-lingue est un des aspects auxquels nous nous intéressons. La tâche de RI
relève de la satisfaction d’un besoin en information s’exprimant à travers différentes
facettes. En parallèle à la recherche ad hoc (qui permet de retrouver des documents
en fonction d’une requête exprimant un besoin d’information), le filtrage d’information
assure une fonction duale qui fournit à l’’utilisateur les documents qui l’intéressent, non
pas à la demande, mais en fonction de leur production et de leur diffusion. De façon
similaire, dans le contexte des masses d’information créées chaque jour, il est important de pouvoir aider l’utilisateur à déceler l’information nouvelle.
Des connaissances
externes issues de thesaurus ou d’ontologies, génériques ou associés à un domaine,
doivent être intégrées au modèle de représentation et d’accès à l’information.
Ces travaux doivent être consolidés par une démarche de validation et d’évaluation.
Notre participation avec de bons résultats aux campagnes d’évaluation internationales
(TREC, CLEF, INEX) ainsi que nos collaborations industrielles s’inscrivent dans cette
démarche.
Revenir à la rubrique Equipe SIG
|