[Seminar] ILLS seminar: Information Analysis and Methods for Representation Learning and Data-Driven Structural Detection

Une conférence sur ILLS aura lieu le Jeudi 24 novembre à 12h00 en mode hybride.

Titre: Analyse de l'information et méthodes d'apprentissage des représentations et de détection structurelle basée sur les données
Jorge F. Silva, Professeur à l'Université du Chili, Santiago du Chili

Abstract:
L'apprentissage automatique et la théorie de l'information sont deux grands domaines de recherche étroitement liés. Dans cette présentation, nous couvrirons deux sujets qui explorent l'utilisation des mesures de la théorie de l'information dans l'apprentissage. Sur le premier thème, nous présenterons des résultats qui montrent à quel point l'adoption de l'information mutuelle est adéquate pour prédire la qualité opérationnelle d'une transformation (ou d'un encodeur) en classification. Ces résultats offrent de nouvelles perspectives sur l'adoption de mesures d'information dans l'apprentissage automatique, comme l'information mutuelle et l'entropie croisée. Pour le deuxième sujet, nous discuterons de l'idée de suffisance de l'information, représentant la structure latente d'un modèle, et explorerons une méthode non paramétrique basée sur les données pour détecter ce type de structure à partir des données. Nous nous concentrerons sur la tâche d'apprentissage-décision consistant à tester l'indépendance à l'aide d'un estimateur d'information mutuelle non paramétrique. Nous présentons des résultats non asymptotiques et asymptotiques qui soutiennent l'avantage de cette approche et élaborons des applications pour l'apprentissage de la structure des données et la détection des changements de modèle.

Bibliographie:
Silva et Tobar, "Sur l'interaction entre la perte d'informations et la perte d'opérations dans les représentations pour la classification", dans AISTATS2022.
Gonzales et al. "Représentations basées sur les données pour tester l'indépendance : modélisation, analyse et connexion avec l'estimation mutuelle des informations", IEEE Trans. sur Signal Proc., 70, 2022.

Courte biographie:
Jorge F. Silva (membre senior, IEEE) est professeur associé au département de génie électrique (EE) de l'Université du Chili et chercheur principal au Centre avancé de génie électrique et électronique de Valparaiso-Chili. Jorge F. Silva a obtenu un M.Sc. et doctorat. en génie électrique de l'Université de Californie du Sud (USC), Los Angeles, CA, États-Unis, 2005 et 2008, respectivement. Jorge F. Silva a été assistant de recherche au Laboratoire d'analyse et d'interprétation des signaux (SAIL), USC, de 2003 à 2008 et a également été stagiaire de recherche au Speech Research Group, Microsoft Corporation, Redmond, en 2005. Il a reçu la thèse exceptionnelle Prix ​​2009 pour la recherche théorique de la Viterbi School of Engineering, la bourse doctorale Viterbi 2007-2008 et la bourse Simon Ramo 2007-2008 USC. Il a été éditeur associé pour les transactions IEEE sur le traitement du signal de 2006 à 2008.

* En personne: ETS-LIVIA, local A-3600.
* Lien de zoom: https://cnrs.zoom.us/j/96338640901?pwd=MkNlT0FFS1c1T2Z6c0dManpLc3l1dz09
* ID de réunion: 963 3864 0901

[Seminar] Joint Attention for Dimensional Emotion Recognition using Audio Visual Fusion

Le prochain séminaire LIVIA se tiendra le Mercredi 2 novembre à 12h00 en mode hybride.

Titre: Attention conjointe pour la reconnaissance dimensionnelle des émotions à l'aide de la fusion audiovisuelle
par Gnana Praveen Rajasekar, Ph.D. candidat au LIVIA

Abstract:
La reconnaissance automatique des émotions (ER) a récemment suscité beaucoup d'intérêt en raison de son potentiel dans de nombreuses applications du monde réel. Dans ce contexte, il a été démontré que les approches multimodales améliorent les performances (par rapport aux approches unimodales) en combinant des sources d'informations diverses et complémentaires, offrant une certaine robustesse aux modalités bruyantes et manquantes. Nous nous concentrons sur l'ER dimensionnelle basée sur la fusion de modalités faciales et vocales extraites de vidéos, où des relations audiovisuelles (AV) complémentaires sont explorées pour prédire les états émotionnels d'un individu dans l'espace valence-excitation. La plupart des techniques de fusion de pointe reposent sur des réseaux récurrents ou des mécanismes d'attention conventionnels qui ne tirent pas efficacement parti de la nature complémentaire des modalités AV. Pour résoudre ce problème, nous introduisons un modèle inter-attentionnel conjoint pour la fusion AV qui extrait les caractéristiques saillantes à travers les modalités AV, ce qui permet de tirer efficacement parti des relations intermodales, tout en conservant les relations intramodales. En particulier, il calcule les poids d'attention croisée basés sur la corrélation entre la représentation des caractéristiques conjointes et celle des modalités individuelles. En déployant la représentation conjointe des caractéristiques AV dans le module d'attention croisée, il permet de tirer simultanément parti des relations intra et intermodales, améliorant ainsi considérablement les performances du système par rapport au module d'attention croisée vanille. L'efficacité de notre approche proposée est validée expérimentalement sur des vidéos difficiles des ensembles de données RECOLA et AffWild2. Les résultats indiquent que notre modèle de fusion AV interattentionnelle conjointe fournit une solution rentable qui peut surpasser les approches de pointe, même lorsque les modalités sont bruyantes ou absentes.

https://arxiv.org/pdf/2209.09068.pdf

* En personne: ETS-LIVIA, local A-3600.
* Lien de zoom: https://etsmtl.zoom.us/j/84820130813

[Seminar] Semi-Weakly Supervised Object Detection by Sampling Pseudo Ground-Truth Boxes

Le prochain séminaire LIVIA se tiendra le Jeudi 18 août à 12h00 en mode hybride.

Titre: Détection d'objets semi-faiblement supervisée par échantillonnage de pseudo-boîtes de vérité au sol
par Akhil Meethal, Ph.D. candidat au LIVIA

Abstract:
L'apprentissage semi- et faiblement supervisé a récemment attiré une attention considérable dans la littérature sur la détection d'objets, car il peut réduire le coût de l'annotation nécessaire pour former avec succès des modèles d'apprentissage en profondeur. Les approches de pointe pour l'apprentissage semi-supervisé reposent sur des modèles élève-enseignant formés à l'aide d'un processus en plusieurs étapes et sur une augmentation considérable des données. Des réseaux personnalisés ont été développés pour le cadre faiblement supervisé, ce qui rend difficile l'adaptation à différents détecteurs. Dans cet article, une méthode de formation faiblement semi-supervisée est introduite qui réduit ces défis de formation, tout en atteignant des performances de pointe en exploitant seulement une petite fraction d'images entièrement étiquetées avec des informations dans des images faiblement étiquetées. En particulier, notre stratégie d'apprentissage générique basée sur l'échantillonnage produit des annotations de boîte englobante pseudo-vérité au sol (GT) de manière en ligne, éliminant ainsi le besoin d'une formation en plusieurs étapes et de configurations de réseau étudiant-enseignant. Ces pseudo boîtes GT sont échantillonnées à partir d'images faiblement étiquetées en fonction du score catégoriel des propositions d'objets accumulées via un processus de propagation du score. Les résultats empiriques sur l'ensemble de données Pascal VOC indiquent que l'approche proposée améliore les performances de 5.0 % lors de l'utilisation de VOC 2007 comme données entièrement étiquetées et de VOC 2012 comme données faiblement étiquetées. De plus, avec 5 à 10 % d'images entièrement annotées, nous avons observé une amélioration de plus de 10 % de mAP, ce qui montre qu'un investissement modeste dans l'annotation au niveau de l'image peut considérablement améliorer les performances de détection.

https://arxiv.org/abs/2204.00147

* En personne: ETS-LIVIA, local A-3600.

[Seminar] Structural Equation Modeling to latent causal representation learning for more trustable ML

Le prochain séminaire LIVIA se tiendra le Jeudi 21 juillet à 12h00 en mode hybride.

Titre: Modélisation d'équations structurelles à l'apprentissage de la représentation causale latente pour un ML plus fiable
par Pr Myriam Tami, Paris-Saclay, CentraleSupélec

Abstract:
Des modèles d'équations structurelles (SEM) avec des variables latentes (LV) sont utilisés pour modéliser les relations entre les variables observables et latentes. Nous présenterons une approche d'estimation d'un modèle SEM avec des LV basée sur sa maximisation de vraisemblance globale par l'algorithme EM. Nous donnerons les résultats numériques de cette approche sur des données simulées et montrerons, via une application sur des données environnementales réelles, comment construire concrètement un modèle et évaluer sa qualité. Enfin, nous appliquons l'approche développée dans le cadre d'un essai clinique en oncologie pour étudier les données longitudinales de qualité de vie. Nous montrons qu'en réduisant efficacement la dimension des données, l'approche EM simplifie l'analyse longitudinale de la qualité de vie en évitant les tests multiples. Ainsi, il contribue à faciliter l'évaluation du bénéfice clinique d'un traitement.
Ensuite, après avoir introduit quelques concepts clés du domaine de la causalité, nous motiverons l'intérêt à considérer les modèles SEM avec LV dans ce domaine de recherche en pleine croissance. En effet, l'identification des relations causales entre les variables observées a attiré beaucoup d'attention dans les domaines de l'apprentissage statistique et de l'IA. Ce domaine, bien connu sous le nom de découverte causale, comprend désormais principalement une gamme d'approches qui ne considèrent pas la présence de VG et qui rencontrent des limites dans la gestion d'un grand nombre de variables. Nous verrons que le SEM avec LVs peut être une réponse à ces limitations et constituer une piste de recherche intéressante à explorer ensemble.

Bio:
Myriam TAMI (PhD 2016, Université de Montpellier, Institut Montpelliérain Alexander Grothendieck, sud de la France) est Maître de conférences à l'Université Paris-Saclay, CentraleSupélec, laboratoire MICS. Ses travaux de recherche portent sur l'IA, l'apprentissage automatique, l'apprentissage des représentations, la causalité et les modèles dans le contexte de données complexes ou hétérogènes, par exemple, multimodales, structurées et non structurées avec des variables parfois latentes, avec incertitude ou faiblement étiquetées. Ses publications et son profil de recherche peuvent être consultés sur sa page web ou Google Scholar via les liens suivants.
Page web: https://myriamtami.github.io/
Érudit Google : https://scholar.google.com/citations?hl=fr&user=kavk5oUAAAAJ

[Seminar] Security in machine learning models and privacy-preserving data sharing

Le prochain séminaire LIVIA se tiendra le Jeudi 23 juin à 12h00 en mode hybride.

Titre: Partage de données et sécurité préservant la confidentialité dans les modèles d'apprentissage automatique
par le professeur Mohammadhadi Shateri, Département d'ingénierie des systèmes

Abstract: De nos jours, de nombreuses personnes admirent les grands effets et l'importance de l'IA dans différentes applications, notamment la santé, les médias sociaux, les transports, etc. Comme les deux principales composantes de toute approche d'IA, on peut nommer le « modèle d'apprentissage » et les « données ». Les études récentes se sont principalement concentrées sur l'amélioration de l'efficacité des approches d'IA en améliorant les modèles actuels ou en développant des algorithmes d'apprentissage plus efficaces et en collectant des échantillons de données. Bien qu'important, le fait que le modèle d'apprentissage et le processus de collecte/partage des ensembles de données peuvent divulguer des informations sensibles sur les utilisateurs, a reçu moins d'attention dans la littérature. Dans cet exposé, les problèmes de confidentialité concernant les modèles d'apprentissage (machine) et le partage de données sont abordés en termes de mécanismes d'attaque/défense actuels. Quelques exemples pratiques dans des applications telles que les compteurs intelligents seront présentés et plusieurs défis et l'orientation actuelle de la recherche seront discutés.
Bio: Mohammadhadi Shateri a reçu le doctorat. en génie électrique de l'Université McGill, Montréal, Canada en 2021. Il a poursuivi son travail avec McGill en tant que chercheur postdoctoral jusqu'à ce qu'il rejoigne l'École de technologie supérieure en juin 2022 en tant que professeur adjoint. Ses intérêts de recherche incluent l'apprentissage automatique, la sécurité des modèles d'apprentissage (machine) et le partage sécurisé de données avec des applications dans le domaine de la santé et des réseaux intelligents, entre autres. Il a remporté plusieurs bourses pour soutenir ses recherches, notamment MEDA (bourse de doctorat en génie McGill), MGS (bourse d'études supérieures du Manitoba en éducation et apprentissage avancé, province du Manitoba) et UMGF (bourse d'études supérieures de l'Université du Manitoba).

* En personne: ETS-LIVIA, local A-3600. Veuillez confirmer votre présence si vous vous présentez en personne.

[Seminar] Local overlap reduction procedure for dynamic ensemble selection

Le prochain séminaire LIVIA se tiendra le Jeudi 19 mai à 12h00 en mode hybride.

Titre: Procédure de réduction du chevauchement local pour la sélection d'ensemble dynamique
par Mariana A. Souza, Ph.D. candidat chez LIVIA

Curriculum vitae / Résumé: (voir papier en pièce jointe)
Le déséquilibre des classes est une caractéristique connue pour rendre l'apprentissage plus difficile pour les modèles de classification, car ils peuvent finir par être biaisés en faveur de la classe majoritaire. Une approche prometteuse parmi les méthodes basées sur l'ensemble dans le contexte de l'apprentissage des déséquilibres est la sélection dynamique (DS). Les techniques DS sélectionnent un sous-ensemble de classificateurs dans l'ensemble pour étiqueter chaque échantillon inconnu donné en fonction de leur compétence estimée dans la zone entourant la requête. Étant donné que seule une petite région est prise en compte dans le schéma de sélection, la disproportion de classe globale peut avoir moins d'impact sur les performances du système. Cependant, la présence d'un chevauchement de classes locales peut gravement entraver les performances des techniques DS sur des distributions déséquilibrées, car non seulement elle exacerbe les effets de la sous-représentation, mais elle introduit également des échantillons ambigus et éventuellement peu fiables dans le processus d'estimation des compétences. Ainsi, dans ce travail, nous proposons une technique DS qui tente de minimiser les effets du chevauchement des classes locales lors de la procédure de sélection du classifieur. La méthode proposée supprime de manière itérative de la région cible l'instance perçue comme la plus difficile à classer jusqu'à ce qu'un classificateur soit jugé compétent pour étiqueter l'échantillon de requête. Les échantillons connus sont caractérisés à l'aide de mesures de dureté d'instance qui quantifient le chevauchement des classes locales. Les résultats expérimentaux montrent que la technique proposée peut considérablement surpasser la ligne de base ainsi que plusieurs autres techniques DS, suggérant sa pertinence pour traiter la sous-représentation et le chevauchement des classes. De plus, la technique proposée a toujours donné des résultats compétitifs lors de l'utilisation d'une version sous-échantillonnée et moins superposée des ensembles étiquetés, en particulier sur les problèmes avec une forte proportion d'échantillons de classe minoritaire dans les zones de chevauchement. Code disponible sur https://github.com/marianaasouza/lords.

* En personne: ETS-LIVIA, local A-3600

[Seminar] Negative evidence for weakly supervised learning

Le prochain séminaire LIVIA se tiendra le Jeudi 3 mars à 12h00 par Zoom.

Titre: Preuve négative d'un apprentissage faiblement supervisé
par Soufiane Belhabi, post-doctorant au LIVIA

Résumé:
Les méthodes de mappage d'activation de classe (CAM) ont récemment attiré beaucoup d'attention pour les tâches de localisation d'objet faiblement supervisé (WSOL). Ils permettent la visualisation et l'interprétation CNN sans formation sur des ensembles de données d'images entièrement annotées. Les méthodes CAM sont généralement intégrées dans des dorsales CNN prêtes à l'emploi, telles que ResNet50. En raison des opérations de convolution et de mise en commun, ces dorsales produisent des CAM à faible résolution avec un facteur de réduction d'échelle allant jusqu'à 32, ce qui contribue à des localisations inexactes. L'interpolation est nécessaire pour restaurer les CAM en taille réelle, mais elle ne tient pas compte des propriétés statistiques des objets, telles que la couleur et la texture, ce qui entraîne des activations avec des limites incohérentes et des localisations inexactes. Comme alternative, nous introduisons une méthode générique pour la mise à l'échelle paramétrique des CAM qui permet de construire des CAM pleine résolution précises (FCAM). En particulier, nous proposons une architecture de décodage entraînable qui peut être connectée à n'importe quel classificateur CNN pour produire des localisations CAM très précises. Étant donné une CAM basse résolution originale, les pixels de premier plan et d'arrière-plan sont échantillonnés de manière aléatoire pour affiner le décodeur. Des priors supplémentaires tels que les statistiques d'image et les contraintes de taille sont également pris en compte pour étendre et affiner les limites de l'objet. Des expériences approfondies1, sur trois dorsales CNN et six lignes de base WSOL sur les ensembles de données CUB-200-2011 et OpenImages, indiquent que notre méthode F-CAM améliore considérablement la précision de la localisation CAM. Les performances de F-CAM sont compétitives avec les méthodes WSOL de pointe, mais elles nécessitent moins de calculs lors de l'inférence. Des expériences et des ablations supplémentaires ont été menées sur des ensembles de données histologiques en mettant l'accent sur les preuves négatives. Les résultats ont montré les avantages de notre méthode par rapport aux méthodes de pointe.

Documents:
https://arxiv.org/abs/2109.07069
https://arxiv.org/abs/2201.02445

[Seminar] Deep Generative Models for Molecule Optimization

Le prochain séminaire LIVIA se tiendra le Jeudi 3 février à 12h00 par Zoom.

Titre: Modèles génératifs profonds pour l'optimisation des molécules
par le Dr Xia Ning, professeur associé au département d'informatique biomédicale et au département d'informatique et d'ingénierie de l'Ohio State University

Résumé:
L'optimisation des molécules est une étape critique dans le développement de médicaments pour améliorer les propriétés souhaitées des candidats-médicaments par la modification chimique. Dans cet exposé, je présenterai un nouveau modèle génératif profond Modof sur les graphes moléculaires pour l'optimisation des molécules. Nous avons développé Modof en tirant parti des approches d'apprentissage en profondeur les plus avancées qui permettent un apprentissage approfondi de la représentation de la structure des molécules et la génération de nouvelles molécules grâce à l'échantillonnage à partir des représentations et de l'encodage des molécules. Suivant la logique de la conception de médicaments à base de fragments, Modof modifie une molécule donnée en prédisant un seul site de déconnexion au niveau de la molécule et la suppression et/ou l'ajout de fragments au niveau de ce site. Un pipeline de plusieurs modèles Modof identiques est implémenté dans Modof-pipe pour optimiser les molécules sur plusieurs sites de déconnexion. Ici, nous montrons que Modof-pipe peut conserver les principaux échafaudages moléculaires, permettre des contrôles sur les étapes d'optimisation intermédiaires et mieux contraindre les similitudes des molécules. Modof-pipe surpasse les méthodes de pointe sur les ensembles de données de référence, avec une amélioration des propriétés de 121.0 % sans contraintes de similarité moléculaire, et une amélioration de 82.0 % et 10.6 % si les molécules optimisées sont au moins 0.2 et 0.4 similaires à celles avant optimisation , respectivement. Je présenterai également brièvement nos autres travaux sur la priorisation des candidats médicaments et la sélection des médicaments à l'aide de l'apprentissage automatique.

[Seminar] Few-Shot Object Detection in Aerial Images

Le prochain séminaire LIVIA se tiendra le Mercredi 28 septembre à 12h00 en mode hybride.

Titre: Détection d'objets à quelques coups dans les images aériennes
par Pierre Le Jeune, Ph.D. candidat au L2TI, Université Sorbonne, Paris

Abstract: La détection d'objets est une tâche difficile en vision par ordinateur. Récemment, les méthodes basées sur l'apprentissage profond ont dépassé les algorithmes classiques à la fois en termes de qualité et de rapidité. Cependant, l'apprentissage en profondeur nécessite de grands ensembles d'apprentissage annotés pour atteindre de telles performances. Few-Shot Learning (FSL) vise à pallier cette lacune en apprenant plus efficacement sur des données rares. Alors que le FSL a été largement exploré dans la littérature, la détection d'objets à quelques coups (FSOD) n'est devenue un sujet d'intérêt que très récemment. La plupart des auteurs développent et benchmarkent leurs méthodes sur des images naturelles et rien ne garantit le transfert de leurs performances sur d'autres types d'images. Ce travail se concentre sur l'application de FSOD aux images aériennes. Tout d'abord, nous passons en revue la définition de FSOD et plusieurs méthodes existantes pour répondre à cette tâche. Une analyse de performance est effectuée sur des images aériennes et naturelles pour comprendre les défis de l'utilisation de telles méthodes sur des images aériennes. À la lumière de cette analyse, nous proposons un nouveau mécanisme d'attention. Il cible spécifiquement les petits objets qui semblent extrêmement difficiles à détecter dans le régime à quelques coups. Enfin, nous nous interrogeons sur la pertinence de l'Intersection sur l'Union (IoU) comme critère de similarité des boîtes et proposons une version dépendante de l'échelle : Scaled-IoU qui s'accorde mieux avec la perception humaine.

Bio: Pierre LE JEUNE est doctorant au laboratoire L2TI, Université Sorbonne Paris Nord tout en travaillant dans l'entreprise COSE. Il a obtenu le M.Sc. diplôme en modélisation mathématique et calcul de l'Université technique danoise (Copenhague) et le M.Sc. en ingénierie de Centrale Nantes. Ses intérêts de recherche actuels incluent Few-Shot Learning, Computer Vision et Deep Learning

* En personne : ETS-LIVIA, local A-3600.

[Seminar] Representation Learning for Vision and Language

Le travail de Samira couvre plusieurs domaines de la recherche en apprentissage profond, notamment l'apprentissage multimodal, la distillation des connaissances, l'apprentissage par renforcement profond et les applications. Elle a apporté des contributions significatives au domaine de l'interaction homme-machine avec son travail sur l'apprentissage multimodal pour la reconnaissance des émotions dans les vidéos. Elle a également travaillé sur le raisonnement visuel à l'intersection de la vision et du texte. Elle a contribué à la création de plusieurs benchmarks à grande échelle, notamment FigureQA (raisonnement visuel sur des parcelles mathématiques), Something-Something (sous-titrage vidéo fin) et ReDial (recommandation de films conversationnels). Du côté des applications, elle travaille sur l'apprentissage automatique pour la réponse aux catastrophes en mettant l'accent sur la modélisation des événements météorologiques extrêmes.