Défi technologique : Data intelligence dont Intelligence Artificielle (en savoir +)
Département : Département Intelligence Ambiante et Systèmes Interactifs (LIST)
Laboratoire : Laboratoire Vision et Apprentissage pour l'analyse de scènes
Date de début : 01-04-2023
Localisation : Saclay
Code CEA : SL-DRT-23-0465
Contact : bertrand.luvison@cea.fr
Il est bien connu que les réseaux de neurones ont besoin d'énormes quantités de données. Les apprentissages associés sont conséquents et ne cessent de se multiplier, à mesure que les tâches visées et l'ontologie associée à ces tâches se diversifient. Les conséquences directes sont le besoin en ressources de calcul et une consommation énergétique excessive associée. Pour réduire ces impacts, deux aspects seront étudiés: 1) Mieux exploiter le paradigme d'apprentissage multitâches pour alléger les phases d'entraînement. Beaucoup de modèles spécifiques à des tâches finales différentes mais proches sont appris indépendamment les uns des autres sur des bases de données différentes. Un premier objectif est de montrer qu'un apprentissage mutuel pourrait, non seulement diminuer les besoins en ressources de calcul grâce à un unique modèle pour résoudre N problèmes proches, mais également améliorer les performances de chacune des N tâches prises indépendamment. 2) Réduire la quantité de données d'apprentissage pour des problèmes où la sémantique à extraire entraîne une explosion combinatoire des données. Les performances des modèles de reconnaissance visuelle sont directement liées à la représentativité des données qui servent à leur entraînement. Plus la variabilité des concepts d'intérêt est grande, plus la taille des jeux de données augmente. On se heurte alors à la difficulté de constituer ces immenses bases de données et à la débauche de moyens nécessaires pour les utiliser. Un deuxième objectif consiste donc à proposer de nouvelles méthodes qui permettront de fédérer l'apprentissage d'un même modèle sur plusieurs jeux de données de petite taille existants et hétérogènes. Nous chercherons à appliquer ces deux paradigmes sur des tâches de reconnaissance des comportements humains dans les vidéos. Pour ces problèmes, il est nécessaire d'analyser le rapport de la personne avec son environnement au travers de sa posture et de sa gestuelle mais également au travers de ses interactions avec les objets environnants. La détection des interactions est une tâche qui cherche à répondre à la majorité de ces problèmes. Cependant les bases de données associés ne sont pas aussi fournies que ce qui est disponible en détection par exemple. C'est un constat assez paradoxal lorsque l'on sait que le niveau sémantique à interpréter est beaucoup plus élevé. En revanche, il existe d'autres problèmes voisins, à savoir : i) l'analyse des relations visuelles, ii) la reconnaissance d'action et iii) le captioning. Nous proposons de les aborder simultanément par l'apprentissage d'un unique modèle sur les 4 tâches, de montrer que cet apprentissage demande moins de ressource de calcul que celui de 4 réseaux différents optimisés pour résoudre chacune des tâches séparément. Par la suite, il s'agira de faire la démonstration que ce type de modèle est bien plus efficace pour être transféré à de nouvelles ontologies, en raison de sa capacité de généralisation acquise en étant entraîné sur une très grande variété de concepts. Une telle propriété permettrait ainsi de réduire drastiquement les temps d'apprentissage de nouveaux modèles devant être adaptés à des contextes spécifiques.