|
Problématique
Même si la volonté affichée de l’équipe est d’aborder conjointement l’audio et la vidéo,
de nombreuses études restent mono média. Cela est particulièrement vrai au niveau
de l’analyse bas niveau des signaux. Au niveau de la modélisation, les études sont
orientées classification mais restent appliquées à un seul média. L’étude trans-média
apparaît au niveau des études de structuration des documents audiovisuels, valorisées
par des applications en indexation. Le recrutement récent de Julien Pinquier doit
consolider cette orientation de recherche.
Analyse des signaux
En analyse de l’audio, les travaux exploitent l’algorithme de segmentation « forwardbackward
». Une version robuste à l’environnement, au bruit, au locuteur et indépendante
de la langue permet de localiser l’information pertinente et de l’extraire de
manière appropriée dans différents domaines :
- En identification automatique des langues : à partir des segments et d’une localisation
des segments vocaliques, une unité prosodique « la pseudo syllabe » a permis de
caractériser le rythme et l’intonation. La prosodie a ainsi été introduite dans un système
automatique traditionnellement basée sur l’acoustique et la phonotactique.
- En vérification du locuteur : la segmentation localise les zones transitoires, toutes
zones proches des frontières. Ces zones sont plus riches en information que les
zones stables dans un système de vérification du locuteur.
- En détection parole/musique : la segmentation n’a absolument pas le même
comportement en parole et musique. La modélisation de cette répartition a permis
de rendre plus robuste cette détection.
En vidéo, une approche similaire conduit à produire différents types d’analyse sur les
résultats d’une segmentation préliminaire en plans par détection d’effets de transition
cuts ou progressifs, et, le cas échéant, sur les résultats d’une microsegmentation en
mouvements de caméra opérée sur une représentation spatiotemporelle du contenu
appelée « image X-ray ».
Modélisation et apprentissage
Orientées vers des problèmes de classification et de fouille de données, les méthodes
étudiées sont empruntées à la fois à l’approche générative et à l’approche discriminante,
tout en restant dans le cadre supervisé :
- La recherche des corrélations entre les paramètres a conduit à une étude approfondie
sur les réseaux bayésiens (RB). Ces derniers ont été utilisés pour concevoir de
nouveaux modèles probabilistes de la parole qui conduisent à une meilleure fidélité
et plus de robustesse que les HMMs (Modèles de Markov Cachés). Les RBs sont
aussi utilisés pour concevoir un nouveau modèle pour le langage naturel.
- Plus récemment, un nouveau modèle a été proposé à partir des méthodes SVM afin
de prendre en compte l’important volume des données d’apprentissage et la nécessité
de traiter des suites de trames de signal de longueur variable en parole. Un nouveau
noyau de séquences, fondé sur les espaces de Hilbert à noyaux reproduisant,
a été développé. Ce noyau a conduit à un modèle performant de classification SVM
qui est en outre algorithmiquement rapide. Ce modèle a été évalué en vérification du
locuteur.
Dès lors que les sources d’informations (appelées experts) deviennent multiples (intra
média et trans média), la fusion d’informations devient un sujet essentiel. Afin de
dépasser la classique combinaison des scores par pondération arithmétique, des
indices de confiance relatifs aux observations, aux experts et aux classes sont définis
et considérés comme paramètres dans le processus de fusion. La théorie des probabilités,
des possibilités et de l’évidence sont explorées dans une tâche d’identification
des langues. La combinaison de ces approches s’est montrée très satisfaisante.
Les traditionnels GMM (Mélanges de lois gaussiennes) et les HMM (ont servi de
modèles de référence lors des expériences d’évaluation.
En vidéo, des travaux sont menés sur l’analyse des mouvements d’un personnage
humain à partir d’un modèle articulé hiérarchique. Les aspects hiérarchiques permettent
de gérer les contraintes de temps de calcul, de précision des résultats, et d’échelonnabilité
de la description produite. Ce modèle sert de support à l’expression homogène
de trois types de contraintes qui doivent être satisfaites pour identifier la position
correspondant : au meilleur appariement, au meilleur suivi, et à la meilleure cohérence des liaisons du modèle.
Structuration audiovisuelle
Deux axes sont explorés actuellement pour le traitement conjoint des données audio
ou vidéo. Ces deux axes consistent à définir des espaces de votes dans lesquels toutes
ces données peuvent être exploitées de manière conjointe.
- Le premier axe concerne
la mise en évidence de l’existence (ou de l’absence) de relations synchrones entre
deux types d’événements dans un document audiovisuel. Par événement, nous entendons ici un « segment dans lequel un certain type d’information est présent » comme
par exemple un visage, un locuteur, de la musique, un logo, etc. Une représentation à
trois paramètres des relations temporelles permet de définir un espace de vote à trois
dimensions dans lequel votent tous les couples de segments issus de deux segmentations
différentes. On peut ainsi observer la présence simultanée d’une même
voix avec un même visage par exemple. Ces travaux ont pour but de mettre en évidence
l’organisation structurelle d’un document ou d’une collection, ou simplement
l’existence d’une corrélation entre des caractéristiques en l’absence de toute hypothèse
préconçue.
- Le deuxième axe concerne la mise en évidence d’une similarité de style entre deux
enregistrements. Une observation (une mesure) est effectuée selon la dimension temporelle
des deux documents à comparer. On obtient ainsi deux séries de valeurs qu’on
va chercher à apparier lorsque des tronçons de leur évolution sont à peu près semblables.
S’inspirant des méthodes développées pour l’analyse des séries chronologiques,
ce travail a fait l’objet d’une proposition d’un algorithme original. Le résultat
est une matrice de similarité pour chaque caractéristique évaluée. En fusionnant les
matrices obtenues sur plusieurs caractéristiques, il est possible d’effectuer deux types
d’observations : des segments diagonaux de valeurs élevées, signalent la présence
d’un segment audiovisuel commun aux deux enregistrements ; un bloc rectangulaire
de valeurs élevées révèle la présence de deux segments présentant une forte similarité
de style. De la structure de cette matrice dérive une mesure de similarité et l’expression
d’une distance qui permet d’effectuer une classification automatique en
genre ou en collection (par clustering).
Revenir à la rubrique Equipe SAMoVA
|