IRIT - UMR 5505

- Version texte -
Accueil Annuaire Intranet English
  Bandeau IRIT
    Accueil > Français > Thèmes de recherche > Thème 2 - Indexation et recherche d’informations > Equipe SIG > Problématique

 

 Problématique

 

L’équipe est organisée en 4 composantes :

 

Les recherches menées au sein de l’équipe s’articulent autour du concept de base d’informations selon deux approches complémentaires permettant d’appréhender les systèmes d’information et d’ingénierie documentaire, pour proposer, développer et expérimenter des modèles, des langages, des méthodes et des techniques autour du concept de bases d’objets documentaires ou hyperbases. Cette approche privilégie l’élicitation et la manipulation de structures irrégulières issues des informations manipulées, via des langages de type SQL, OQL, XQuery... Ces systèmes s’appuient sur des gisements d’informations et bases de données multidimensionnelles, dont l’objectif est de proposer, développer et expérimenter des techniques et stratégies d’identification de sources d’information, de mémorisation, de filtrage/recherche d’information (explicite ou cachée) et de présentation, et de coordonner ces opérations à travers un plan stratégique global.

Les travaux se focalisent sur

  • les modèles de représentation abstraite de collections d’informations complexes,
  • les modèles d’interrogation de collections
  • et ceux destinés à la manipulation et à l’exploration visuelle de grandes collections.

Le développement constant des technologies de l’information et de la communication ainsi que la part grandissante de l’informatique dans la plupart des champs disciplinaires produit toujours plus de données (ACI « Masse de Données »), offrant un nombre croissant de sources d’informations disparates, fortement évolutives, distribuées, changeantes et autonomes. La mondialisation et l’’ccélération des échanges imposent une réactivité et par voie de conséquence, des besoins d’analyses perpétuellement renouvelés et si possible anticipant les phénomènes à venir difficilement prévisibles. Le champ des activités se décline autour des quatre axes complémentaires décrits ci-après.

 

DDSS : Modélisation et manipulations flexibles de documents et données semi-structurées

Ce champ d’activité s’intéresse à la description de structures et contenus de documents, par des mécanismes de spécification ou d’élicitation, éventuellement supportés par l’annotation via des métadonnées. Trois raisons importantes font de la description de documents une tâche complexe :

  • la méconnaissance a priori de la (des) structure(s) sous-jacente(s) des collections et des instances,
  • la « non-structuration » (ou au mieux la « semi-structuration ») des documents et le manque de structures régulières,
  • l’organisation des documents dans une dimension spatiale intra et inter-document, intra et inter-collection, et différentes dimensions temporelles, complexes à modéliser.

Un document multimédia est considéré à ce titre, comme semi-structuré : sa structure est a priori inconnue, irrégulière et sans définition générique. Mais des outils d’élicitation et d’analyse du contenu peuvent permettre l’identification des éléments fondamentaux de la structure, à partir desquels peuvent être déduites des structures génériques de collection. Des événements, objets, éléments... composant le document, peuvent ainsi être identifiés en se basant sur la structure générée automatiquement par ces outils d’élicitation et d’analyse du contenu.

Le deuxième volet de la problématique consiste à étudier les mécanismes de manipulation et exploration de ces collections, en fonction de profils d’analyse et d’usages, intégrant la formulation de préférences et de nuances dans la spécification du besoin en information.

Notre problématique d’annotation s’adresse à l’élicitation et l’annotation de documents légataires. Le caractère semi-structuré des documents et l’hétérogénéité des formats et des contenus imposent un traitement préalable pour homogénéiser les structures de représentation et de description de ces documents. Nous faisons appel pour cela aux différents noyaux génériques de réécriture, d’indexation et de segmentation, développés au sein de l’équipe, dont le principe consiste à reconnaître les éventuels éléments de structure et informations sur le format et le contenu du document. Les points forts de cette approche consistent d’abord à ne pas imposer de niveau ni de vocabulaire, et ensuite à spécifier un balisage sémantique de manière standard sans imposer de niveau de granularité a priori.

L’objectif n’est pas nécessairement de fournir une réponse « exacte » comme dans les systèmes de gestion de bases de données, mais d’un positionnement sur (ou d’une localisation de) l’information susceptible de répondre au besoin en information, selon un degré évalué en fonction de différents paramètres (profil, préférences, contexte...). L’introduction des techniques floues dans les opérateurs spatiaux ou temporels permet de gérer la flexibilité dans l’exploration de collections de graphes partiels de documents, de requêtes, afin d’éviter des réponses vides. La proposition d’un modèle flexible de traitement de requêtes adapté aux documents semi-structurés et au raisonnement qualitatif humain, en prenant en compte non seulement le contenu, mais aussi la structure de ces documents, a été implanté. L’originalité dans la mise en oeuvre de fonctions de similitude réside dans sa capacité à intégrer les exigences de l’analyse exploratoire de grandes bases de documents basée sur les principes de description multidimensionnels, intégrant la multi-structuralité qui en découle (structure logique, sémantique, temporelle, spatiale...).

 

ED : Conception de systèmes d’informations décisionnels

La conception de systèmes d’informations pour l’aide aux processus de prise de décisions dans les organisations est une tâche complexe : l’adéquation des bases de données décisionnelles aux besoins analytiques des décideurs est aujourd’hui remise en cause face à de nouveaux défis qui émergent dans les systèmes d’information décisionnels. Nos principaux axes d’études visent à l’étude et à la spécification de nouvelles modélisations des bases de données décisionnelles, ainsi qu’à l’élaboration de langages décisionnels adaptés aux décideurs.

De nouveaux modèles multidimensionnels de représentation des données décisionnelles doivent être formalisés afin d’appréhender l’évolution de la base de données au regard des changements qui surviennent tant au niveau des sources, qui peuvent subir des évolutions radicales, voire disparaître ou apparaître, qu’au niveau de l’utilisateur dont les analyses en perpétuelle évolution imposent aux structures multidimensionnelles une forte capacité à évoluer. Ces évolutions des structures et des données se font non seulement de manière linéaire, au cours du temps, mais également de façon non linéaire, par exemple en fonction de versions multiples associées à des intervalles temporels à spectres variables. Ces exigences conduisent à la proposition de schémas en étoiles multi-versionnalisables permettant, par exemple, d’anticiper des événements en simulant des scénarios de gestion alternatifs non encore survenus, tout en gardant une traçabilité sur ces scénarios prévisionnels. Les modèles proposés doivent conjointement supporter l’historisation des données et des schémas multidimensionnels. Conserver tous les changements est essentiel pour permettre d’exploiter des informations passées parfaitement connues pour approximer des données présentes et/ou futures imparfaitement connues. Appliquer l’historisation dans ces bases de données multidimensionnelles peut engendrer une masse d’information complexe représentée sous forme de treillis de vues matérialisées temporelles, imposant de proposer des mécanismes suffisamment flexibles pour permettre une historisation multi-granulaire et de nouveaux algorithmes de calcul sur ces treillis. Enfin, les modèles doivent supporter des données évolutives, atypiques, parfois à structures mal définies tout en assurant l’actualisation incrémentale et dynamique des processus d’alimentation.

Adossées aux modèles de description des données, des primitives formelles définissant parfaitement les opérations de manipulation doivent être proposées, à travers une algèbre de manipulation multidimensionnelle reposant sur un formalisme montrant que cet ensemble d’opérateurs offre un noyau minimal fermé. Le fondement théorique de l’algèbre doit servir de support au développement de langages comportant une famille d’opérations assurant les fonctions d’analyses multidimensionnelles traditionnelles (rotations, forages...), mais aussi de nouvelles opérations supportant les analyses multidimensionnelles sur des données à structures variables, multi-versionnalisées, de granularités temporelles multiples, s’appuyant sur des formalismes de représentation adaptés.

 

EVI : Exploration et Visualisation d’Information

Cet axe s’intéresse à la fouille d’information à partir d’un corpus ciblé. Les systèmes Question/Réponse visent à restituer un élément d’information qui répond à la question de l’utilisateur, alors que les systèmes de RI « classique » évoqués ci-dessus fournissent un ensemble de documents supposés répondre à un besoin. Lorsque l’on s’intéresse plus particulièrement à un domaine, ce ne sont plus quelques dizaines de réponses qui sont fournies, mais plusieurs milliers. L’objectif de l’exploration visuelle de collections est de proposer à l’utilisateur des vues globales à travers des abstractions de ces informations, lui permettant d’appréhender la structure du domaine considéré. Dans le contexte actuel de variété de sources d’information, l’homogénéisation des informations recueillies reste un problème à résoudre. Nous proposons des méthodes d’homogénéisation basées sur l’extraction et l’étude des méta-données associées aux sources ou aux documents eux-mêmes. Les méthodes de fouille de données s’appuient sur des modèles issus de l’analyse de données (classification, analyse factorielle). Les processus de visualisation sont variés, ils dépendent des méthodes d’analyse et des objectifs de découverte de connaissances (graphes, cartes géographiques, etc.). Le cas des données géo-référencées élicitées à partir de corpus textuels est particulièrement pertinent car il implique des processus spécifiques. L’analyse de l’évolution est également fondamentale puisqu’elle permet de comprendre un domaine et peut aider à la décision en prédisant une évolution future. Il faut noter que certaines méthodes d’analyse sont adaptées à certains types de données mais bien souvent une méthode permet d’émettre des hypothèses qui doivent être validées par d’’autres méthodes, acteurs... Une de nos contributions vise à appréhender l’expertise de la manipulation des différents modèles d’analyse afin de s’assurer de la validité de l’information déduite. Notre problématique consiste ensuite à intégrer cette expertise (analyste, documentaliste, expert du domaine) au sein du système.

 

RFI : Modèles adaptatifs pour la recherche d’information

Ce champ d’investigation s’intéresse plus précisément aux documents textuels. Dans ce contexte, nos contributions visent la mise en oeuvre de systèmes de RI à grande échelle impliquant la définition de modèles adaptatifs et flexibles. Nos approches s’appuient sur les théories et modèles (probabiliste, statistique, logique floue et connexionniste) en amont pour indexer les informations en conservant au maximum leur richesse, en aval pour optimiser l’interrogation des collections. Pour assurer ces deux fonctions, les modèles proposés prennent en compte différentes caractéristiques internes et externes de l’information manipulée par le système et par l’utilisateur. Les sources d’information documentaire offrent une diversité de richesse de structuration. La prise en compte des éléments structurels est nécessaire pour permettre une interrogation combinant le contenu informationnel et la structure du document. La granularité de l’information, en s’appuyant sur la structure implicite ou explicite des documents, permet de manipuler l’information à différents niveaux de granularité en fonction des besoins de l’utilisateur. La diversité linguistique des acteurs de diffusion d’information et des consommateurs d’information conduit à la nécessité de prendre en compte la langue. Ainsi, un utilisateur pourra vouloir interroger un système dans une langue et retrouver des documents dans plusieurs langues s’il est capable de les exploiter. La RI multi-lingue est un des aspects auxquels nous nous intéressons. La tâche de RI relève de la satisfaction d’un besoin en information s’exprimant à travers différentes facettes. En parallèle à la recherche ad hoc (qui permet de retrouver des documents en fonction d’une requête exprimant un besoin d’information), le filtrage d’information assure une fonction duale qui fournit à l’’utilisateur les documents qui l’intéressent, non pas à la demande, mais en fonction de leur production et de leur diffusion. De façon similaire, dans le contexte des masses d’information créées chaque jour, il est important de pouvoir aider l’utilisateur à déceler l’information nouvelle. Des connaissances externes issues de thesaurus ou d’ontologies, génériques ou associés à un domaine, doivent être intégrées au modèle de représentation et d’accès à l’information. Ces travaux doivent être consolidés par une démarche de validation et d’évaluation. Notre participation avec de bons résultats aux campagnes d’évaluation internationales (TREC, CLEF, INEX) ainsi que nos collaborations industrielles s’inscrivent dans cette démarche.

 

 

 

 Revenir à la rubrique Equipe SIG

 

 

CNRS
INPT
UPS
UT1

UTM

  Rechercher

 
Accueil Imprimer Contact mail Plan du site Crédits Fil RSS du site Thème 1 Thème 2 Thème 3 Thème 4 Thème 5 Thème 6 Thème 5 Thème 1 Thème 2 Thème 3 Thème 4 Thème 5 Thème 6 Thème 5