Patrick Cardinal
Département de génie logiciel et informatique
Patrick Cardinal est professeur au département de génie logiciel et informatique de l'ÉTS depuis janvier 2015. Depuis sa graduation de l'ÉTS en 2000, Patrick a toujours œuvré dans le domaine de la reconnaissance automatique de la parole. Avant de rejoindre le département, il a effectué un stage postdoctoral de 15 mois au Massachusetts Institute of Technology (MIT) sous la direction de James Glass. Auparavant, il a occupé divers postes de recherche au Centre de recherche informatique de Montréal (CRIM). Au cours de ses 13 années au CRIM, il a complété une maîtrise en informatique à l'Université McGill (2003) et un doctorat en génie à l'ÉTS.
+ Recherche
- Les algorithmes d'apprentissage automatique (machine learning)
- Reconnaissance vocale
- Identification de la langue
- Sentir les émotions
+ Éducation
- LOG-320: Structures de données et algorithmes
- MTI-815: Systèmes de communication vocale
+ Formation universitaire
2013
Ph.D, génie logiciel à l'École des hautes technologies (ÉTS), Canada
2003
Maîtrise, Informatique à McGill, Canada
2000
Baccalauréat, génie électrique à l'École de technologie supérieure (ÉTS), Canada
+ Expériences dans l'enseignement, la recherche ou l'industrie
2015/01 à actuel
Professeur agrégé à l'École de technologie supérieure (ÉTS)
2010/01 à actuel
Revue de gestionnaire dans l'Ordre des ingénieurs du Québec
2015 / 01 à 2016 / 01
Affilié de recherche au laboratoire d'informatique et d'intelligence artificielle (CSAIL), Massachusetts Institute of Technology (MIT)
2013 / 09 à 2014 / 11
Associé postdoctoral en laboratoire d'informatique et d'intelligence artificielle (CSAIL), Massachusetts Institute of Technology (MIT)
2006 / 05 à 2013 / 08
Chargé de cours en génie logiciel et technologies de l'information, École des hautes technologies (ÉTS)
2012 / 06 à 2013 / 08
Conseiller en recherche et directeur adjoint de l'équipe en reconnaissance vocale, Centre d'informatique de Montréal
2007 / 06 à 2012 / 06
Conseiller en recherche en reconnaissance vocale, Centre d'informatique de Montréal
2005 / 06 à 2007 / 06
Agent de recherche principal en reconnaissance vocale, Centre d'informatique de Montréal
2004 / 01 à 2006 / 05
Gestionnaire de laboratoire en génie logiciel et technologies de l'information, École des hautes technologies (ÉTS)
2000 / 01 à 2005 / 06
Agent de recherche en reconnaissance vocale, Centre d'informatique de Montréal
1998 / 05 à 2002 / 08
Gestionnaire de laboratoire en génie électrique, École des hautes technologies (ÉTS)
+ Articles originaux dans des revues à comité de lecture et chapitres de livres
«De la représentation sonore de l'environnement à la robustesse des modèles CNN 2D contre les attaques adverses»Mohammad Esmaeilpour, Patrick Cardinal, Alessandro Lameiras Koerich » |
«Défense sobolev multidiscriminateur-GAN contre les attaques adverses pour les systèmes vocaux de bout en bout»Mohammad Esmaeilpour, Patrick Cardinal, Alessandro Lameiras Koerich » |
«GAN bi-discriminateur pour la synthèse de données tabulaires»Mohammad Esmaeilpour, Nourhene Chaalia, Adel Abusitta, François-Xavier Devailly, Wissem Maazoun, Patrick Cardinal » |
«Détection et classification des événements audio non verbaux produits par l'homme»Philippe Chabot, Rachel E.Bouserhal, Patrick Cardinal, Jérémie Voix » |
«GAN de défense cyclique contre les attaques contradictoires de la parole»Mohammad Esmaeilpour, Patrick Cardinal, Alessandro Lameiras Koerich » |
Lire la suite>
+ Articles dans les actes de conférence arbitrés
«Vers une attaque contradictoire robuste de la parole au texte»Mohammad Esmaeilpour, Patrick Cardinal, Alessandro Lameiras Koerich » |
«GaN de défense conditionnelle de classe contre les attaques vocales de bout en bout»Mohammad Esmaeilpour, Patrick Cardinal, Alessandro Lameiras Koerich » |
«Fusion audiovisuelle attentionnelle croisée pour la reconnaissance dimensionnelle des émotions»R. Gnana Praveen, Eric Granger, Patrick Cardinal » |
«Segmentation de la couverture terrestre par radar à synthèse d'ouverture RADARSAT-2 à l'aide de réseaux de neurones à convolution profonde»Mirmohammad Saadati, Marco Pedersoli, Patrick Cardinal, Peter Oliver » |
«Adaptation profonde de domaine faiblement supervisée pour la localisation de la douleur dans les vidéos»Gnana R. Praveen, Eric Granger, Patrick Cardinal » |
+ Enseignement de premier cycle
LOG-320: Structures de données et algorithmes
Ce cours vous permet d'acquérir des connaissances spécifiques en génie logiciel et en structures de données et algorithmes. Comprendre et utiliser l'analyse asymptotique pour choisir judicieusement les structures de données appropriées et le type d'algorithme optimal pour résoudre efficacement un problème tout en respectant les contraintes et les ressources disponibles.
A l'issue de ce cours, l'étudiant pourra choisir parmi une multitude de structures de données basiques (table, fichier, pile ou liste) ou plus avancées (arborescences, graphiques, tables de hachage) pour résoudre différents problèmes plus ou moins complexes . Il pourra également les combiner et les adapter pour faire face à différentes situations.
L'étudiant sera également capable de choisir le type d'algorithme et d'analyser ses performances globales pour différents problèmes de base qui impliquent, par exemple, la recherche dans les graphiques, l'optimisation combinatoire ou la recherche de chaînes.
+ Enseignement de deuxième cycle
MTI-815: Systèmes de communication vocale
À l'issue de ce cours, l'étudiant sera capable de:
• expliquer le fonctionnement des systèmes de communication vocale;
• choisir un système de communication vocale au besoin;
• Évaluer les systèmes de communication vocale.
Communication vocale par ordinateur. Modes de production et perception de la parole. Comment les ordinateurs fonctionnent pour compresser, encoder, synthétiser et reconnaître le signal vocal. Techniques d'encodage (PCM, ADPCM, LPC, ACELP), synthèse vocale (Klatt, LPC, PSOLA) et reconnaissance de la parole, du locuteur et des émotions (HMM, DMM, GMM).
+ Autres cours enseignés en tant que conférencier
- GTI-770: Systèmes intelligents et apprentissage automatique
- GTI-410: Application des technologies numériques au graphisme et à l'imagerie
- LOG-710: Systèmes d'exploitation et programmation système
+ Projets disponibles
La plupart des projets disponibles impliquent des algorithmes d'intelligence artificielle et permettent aux étudiants d'acquérir les compétences suivantes:
- Compréhension et utilisation des algorithmes d'apprentissage automatique tels que les réseaux de neurones, SVM, forêt aléatoire, etc.
- Utilisation de techniques avancées telles que les méthodes globales ou l'apprentissage par transfert
- Extraction d'informations à partir de différents signaux (audio, vidéo, ECG, etc.)
- Et encore plus…
Système de traitement de la parole intégré pour l'interaction de réadaptation homme-robot
Résumé
Ce projet, qui est en collaboration avec l'Université de Sherbrooke et l'Université de Montréal, consiste à créer un robot capable d'intervenir auprès de patients atteints de différentes maladies. Pour le moment, nous nous concentrons sur les patients atteints de dysarthrie de maladies dégénératives (ataxie de Friedrich, par exemple). La dysarthrie est un trouble moteur qui entraîne des difficultés de prononciation qui deviennent plus importantes à mesure que la maladie progresse. À court terme, il s'agit de développer des applications pour aider les patients à briser l'isolement social en leur permettant de mieux communiquer avec les autres. Par exemple, une aide à la communication pourrait prendre le relais lorsque le patient a des difficultés à parler. Le système doit être en mesure de déterminer automatiquement si une aide est nécessaire ou non. Des applications intelligentes d'aide à l'exercice sont également envisagées.
Postdoc
Mohammed Senousaoui (identification de l'orateur)
Détection des émotions et / ou niveau de dépression
Résumé
Ce projet vise à créer une application permettant le suivi hebdomadaire, par un thérapeute, d'un patient dépressif. L'outil permettra au thérapeute d'avoir une meilleure idée de l'état émotionnel de son patient entre les différents rendez-vous, mais surtout, dans des situations réelles, mais aléatoires afin que le comportement du patient ne soit pas affecté par le savoir évaluer.
L'évaluation du patient sera basée sur des informations audiovisuelles. L'application sur un appareil mobile pourra capturer des segments audio et / ou vidéo à partir desquels le niveau de dépression sera déterminé.
Étudiant en master
Rafooneh Jafarian Bahri
Détection du niveau de stress d'une personne
Résumé
L'objectif principal de ce projet est de déterminer si les signaux cardiaques peuvent être un bon prédicteur des niveaux de stress tout en évitant la confusion avec un changement de rythme causé par l'activité physique. Pour ce projet, nous avons développé une base de données avec plusieurs modalités (audio / vidéo / ECG) avec trois types d'annotations:
- Stress ressenti par le sujet;
- Stress perçu par deux experts;
- Niveau de cortisol
À partir de cette base de données, plusieurs études impliquant des techniques d'apprentissage automatique sont possibles comme la détection du stress d'une personne à partir de l'audio ou de l'image.
Ce projet est en collaboration avec Pierrich Pluquellec de l'Université de Montréal.
Doctorants
Patrice Boucher
Détection de la stéréotypie vocale chez les enfants autistes
Résumé: Afin de se réconforter, certains enfants autistes émettront certains sons de manière répétitive. Ce comportement met généralement les personnes autour de l'enfant mal à l'aise, ce qui affecte grandement leur intégration et leur développement. Plusieurs types de thérapies peuvent être utilisées par les psychoéducateurs pour réduire le niveau de stéréotypie vocale. Le problème est que l'évaluation d'une thérapie implique l'enregistrement et l'analyse de deux vidéos (avant et après le traitement) pour déterminer si la thérapie a été efficace. Le but de ce projet est de créer un logiciel capable d'analyser des enregistrements audio pour évaluer l'efficacité d'une thérapie. Ce logiciel permettra des gains d'efficacité significatifs pour les thérapeutes,
Détection de dialecte (arabe)
Résumé
Il s'agit de pouvoir identifier le dialecte qu'une personne utilise à partir d'un signal audio. Le but de cette recherche est de pouvoir créer une phase de détection afin d'utiliser le bon système de reconnaissance vocale afin de transcrire automatiquement le contenu audio d'un enregistrement en arabe.
+ Anciens projets
Détection de texte libre dans une commande abstraite
Ce projet, en partenariat avec Nuances Communications, visait à tester si l'utilisation d'informations prosodiques pouvait améliorer le niveau de détection de texte libre dans une commande. Le texte libre est un morceau de texte dans une commande qui ne doit pas être analysé par l'analyseur. Par exemple, si une commande est "Ecrire à Marie: je vais avoir 5 minutes de retard", le système n'a pas besoin d'analyser la section de texte libre ("Je vais avoir 5 minutes de retard") car c'est inutile pour déterminer l'action d'envoi d'un message.
Résultats
La corrélation entre l'information prosodique et la présence d'un texte libre est forte, mais son utilisation n'a pas entraîné d'amélioration significative des performances, mais les données disponibles n'étaient pas suffisamment représentatives pour aboutir à une conclusion définitive. D'autres expériences seront menées par Nuances Communications
Étudiant à la maîtrise
Simon Boutin (diplômé en mai 2016)
Implémentation de l'algorithme PSOLA
Résumé
Ce projet consistait à créer un logiciel pour accélérer ou ralentir un enregistrement audio sans changer la tonalité. Cela permet d'augmenter ou de réduire la durée d'un enregistrement sans être perceptible par l'oreille humaine.
Etudiant Master par projet
Freud Romero (diplômé en janvier 2016)
+ Projets précédents (au CRIM)
Projet C³GRID vidéo_c3grid
Abstract
Le projet C³GRID visait à développer une grille de calcul pour l'apprentissage distribué de modèles de reconnaissance acoustique, visuelle et vocale.
Résultat
L'équipe a contribué au module d'extraction des caractéristiques visuelles sur la forme de la bouche, afin d'augmenter la robustesse de la reconnaissance en environnement sonore bruyant.
RAP Vidéo RAP Projet
Résumé : Le projet de reconnaissance automatique de la parole (APR) s'est concentré sur la transcription automatique des débats de la Chambre des communes et des témoignages devant les comités pour permettre aux personnes sourdes ou malentendantes d'accéder à l'information. créer un accès multimodal universel aux débats en direct au Parlement canadien.
Projet MADIS MADIS vidéo
Résumé : Le projet MADIS visait à développer une référence pour l'indexation et la recherche de contenu cinématographique dans le cadre de la norme MPEG-7 pour l'Office national du film du Canada (ONF).
STDIRECT Vidéo TVA Projet
Résumé
Le système STDirect permet le sous-titrage d'émissions en direct à faible coût. Il s'adapte automatiquement à l'actualité et peut facilement être adapté à une autre langue.
Après l'intégration de STDirect au Groupe TVA, une nouvelle société a été créée, Technologies SOVO , qui utilise STDirect pour fournir le service de sous-titrage de:
- Tous les sports en direct sur RDS, RDS2 et RDS Info Sports
- Plusieurs émissions pour Télé-Québec, TVA, Canal Vie, CBC, RDI, TFO, CPAC
- Événements spéciaux tels que la Coupe du monde de la FIFA 2010, la couverture en direct de la Commission Bastarache ou les Jeux olympiques d'hiver de 2010 à Vancouver.
Projet RyshcoMedia
Abstract
Ce projet impliquait le développement et le développement de la technologie d'alignement de la voix et l'intégration de la technologie d'alignement de la voix dans un système de support de post-synchronisation et de doublage pour Ryshco Media (maintenant DubSynchro). Cette firme se spécialise dans le doublage pour le cinéma et la télévision.
Projet E-Inclusion: site web officiel
Résumé : L'objectif du réseau E-Inclusion est d'exploiter un réseau d'utilisateurs, d'artistes, de producteurs et de chercheurs pour développer des outils de traitement de contenu audiovisuel et des méthodes de création de contenu, afin de permettre aux créateurs et producteurs de contenu multimédia de valoriser la richesse de l'expérience multimédia de les personnes ayant une déficience sensorielle en automatisant les aspects de la production multimédia et du processus de post-production. Ce projet est financé en partie par Patrimoine canadien.
Patrick
Cardinal
À propos de nous
Recherche et innovation
Actualités et Evénements
Contactez-Nous
Pavillon principal (A)
1100, rue Notre-Dame Ouest
Montréal, Québec, H3C 1K3
Salle A-3600
Tél.: + 1 (514) 396-8650
Email: eric.granger@etsmtl.ca