Partager
Actualité

Soutenance de thèse de Luong Phat Nguyen : Extraction et caractérisation des motifs spatio-temporels dans les vidéos

Date(s)

le 10 décembre 2021

Soutenance le vendredi 10 décembre à 13h45
Salle Lovelace,
Département Informatique de Polytech Tours
Lieu(x)
Site 2 Lions/Portalis
Titre de la thèse : Extraction et caractérisation des motifs spatio-temporels dans les vidéos
Dirigée par Nicolas Ragot (Université de Tours), Julien Mille (
INSA Centre Val de Loire) et Dominique Li (Université de Tours)

Membres du jury:
  • Nicolas Ragot, Université de Tours, Directeur de thèse
  • Julien Mille, INSA Centre Val de Loire, Co-encadrant de thèse
  • Dominique Li, Université de Tours, Co-encadrant de thèse
  • Nicolas Thome, Conservatoire national des Arts et Métiers, Examinateur
  • Laure Tourne, Université Lumière Lyon 2, Rapporteure
  • Alexandre Termier, Université de Rennes 1, Rapporteur
  • Donatello Conte, Université de Tours, Invité

Résumé
 

La recherche de la thèse est d’analyser des vidéos. En particulier, nous recherchons un nouveau descripteur visuel en utilisant la fouille de données (FD) et la vision par ordinateur (VO) pour trouver une nouvelle représentation de vidéo. Les travaux de recherche sont appliqués à l'analyse vidéo, l'analyse de texture dynamique (TD) en particulier. La texture statique est une caractéristique importante de VO qui fournit des informations sur les régions cohérentes des images et l'identification des propriétés des matériaux. TD élargit l'analyse de texture statique à des séquences d'images. Les méthodes pour analyser les textures et le TD vont des descripteurs classique (dont les formes binaires locales et les filtres) aux modèles d'apprentissage profond (DL), surtout le développement de réseaux de neurones convolutifs. L'objectif de la thèse est d’analyser TD au moyen de la classification des vidéo. Pour cela, des études sur les méthodes classiques et DL sont réalisées. Dans la 1e partie, nous proposons une base de vidéos d'écoulement liquide-gaz capturées à partir d'un modèle mécanique simulant un champ de refroidissement d'un moteur automobile, par oscillations forcées. Du point de vue VO, il fournit un nouveau jeu de données TD avec des tâches dures car le liquide et le gaz changent constamment et la forme du flux liquide-gaz est liée à l'environnement externe. L'analyse montre qu'une telle vitesse de rotation peut être dure à prévoir. Cela pourrait être réalisé par des approches DL mais pas par une méthode d'analyse de trajectoire. L'une de nos contributions est d'ajouter une étape de prétraitement avec DoG sur plusieurs échelles comme entrée d’un modèle DL pour obtenir de bons résultats. L'approche proposée fournit une bonne précision de classification sur la base de DTDB. Puis, nous proposons une approche qui combine les approches DL et FD afin de classer TD. Un modèle DL utilisé pour l'estimation de flots optiques est utilisé pour extraire les caractéristiques. Elles sont ensuite encodées à l'aide d'une méthode de clustering avant d'être fournie à un algorithme FD pour trouver des motifs intéressants. Pour analyser la validité de l'approche, nous la testons sur les bases fournies. Les résultats sont variés car la méthode surpasse les autres sur la base de fluides mais a une basse précision lorsqu'elle est testée sur DTDB qui est à grande échelle. Cependant, des méthodes FD peuvent aider à expliquer les descripteurs visuels. La question est de savoir quoi et comment appliquer les approches FD pour résoudre les tâches VO, dans ce cas la classification de TD. Les résultats dans la 1e partie conduisent à la 2e partie du manuscrit. Dans cette partie, nous présentons un nouveau framework qui extrait des motifs spatio-temporels (ST) pour décrire et caractériser ce type de vidéos. D'abord, un GMM est utilisé pour clusteriser un des patchs sélectionnés au hasard à partir de vidéos d’apprentissage. Puis, une affectation souple est utilisée comme méthode de codage pour construire des séquences de vecteurs de probabilité (p-séquences) représentant des séquences de patchs ST. Après, une nouvelle approche FD est introduite pour extraire des motifs intéressants dans les p-séquences. Enfin, la construction de vecteurs de caractéristiques à partir de motifs permet une nouvelle représentation de TD avec de nouvelles caractéristiques ST. Les résultats expérimentaux et l'analyse pour la classification DT sur des bases de référence (UCLA, Traffic) montrent l'intérêt pour la méthode proposée. La recherche de thèse montre sa capacité à résoudre la tâche VO de classification des vidéos avec les approches VO et FD. L'approche proposée fonctionne bien avec la classification TD sur des bases de données de référence. Comme travaux futurs, la méthode peut être appliquée pour résoudre des problèmes comme la reconnaissance d'actions, le suivi, la classification en langue des signes, etc., ainsi que pour faire ressortir l'explicabilité des motifs.