Membres réguliers

Membres réguliers Membres associés Étudiants actuels Anciens

Patrick Cardinal

Directeur et professeur
Département de génie logiciel et informatique

Bureau: A-4486
Téléphone: 514 396-8573
Fax: 514 396-8405
patrick.cardinal@etsmtl.ca

Accueil

Patrick Cardinal est professeur au département de génie logiciel et informatique de l'ÉTS depuis janvier 2015. Depuis sa graduation de l'ÉTS en 2000, Patrick a toujours œuvré dans le domaine de la reconnaissance automatique de la parole. Avant de rejoindre le département, il a effectué un stage postdoctoral de 15 mois au Massachusetts Institute of Technology (MIT) sous la direction de James Glass. Auparavant, il a occupé divers postes de recherche au Centre de recherche informatique de Montréal (CRIM). Au cours de ses 13 années au CRIM, il a complété une maîtrise en informatique à l'Université McGill (2003) et un doctorat en génie à l'ÉTS.

+ Recherche

Les algorithmes d'apprentissage automatique (machine learning)
Reconnaissance vocale
Identification de la langue
Sentir les émotions

+ Éducation

LOG-320: Structures de données et algorithmes
MTI-815: Systèmes de communication vocale

+ Formation universitaire

2013

Ph.D, génie logiciel à l'École des hautes technologies (ÉTS), Canada

2003

Maîtrise, Informatique à McGill, Canada

2000

Baccalauréat, génie électrique à l'École de technologie supérieure (ÉTS), Canada

+ Expériences dans l'enseignement, la recherche ou l'industrie

2015/01 à actuel

Professeur agrégé à l'École de technologie supérieure (ÉTS)

2010/01 à actuel

Revue de gestionnaire dans l'Ordre des ingénieurs du Québec

2015 / 01 à 2016 / 01

Affilié de recherche au laboratoire d'informatique et d'intelligence artificielle (CSAIL), Massachusetts Institute of Technology (MIT)

2013 / 09 à 2014 / 11

Associé postdoctoral en laboratoire d'informatique et d'intelligence artificielle (CSAIL), Massachusetts Institute of Technology (MIT)

2006 / 05 à 2013 / 08

Chargé de cours en génie logiciel et technologies de l'information, École des hautes technologies (ÉTS)

2012 / 06 à 2013 / 08

Conseiller en recherche et directeur adjoint de l'équipe en reconnaissance vocale, Centre d'informatique de Montréal

2007 / 06 à 2012 / 06

Conseiller en recherche en reconnaissance vocale, Centre d'informatique de Montréal

2005 / 06 à 2007 / 06

Agent de recherche principal en reconnaissance vocale, Centre d'informatique de Montréal

2004 / 01 à 2006 / 05

Gestionnaire de laboratoire en génie logiciel et technologies de l'information, École des hautes technologies (ÉTS)

2000 / 01 à 2005 / 06

Agent de recherche en reconnaissance vocale, Centre d'informatique de Montréal

1998 / 05 à 2002 / 08

Gestionnaire de laboratoire en génie électrique, École des hautes technologies (ÉTS)

Publications

+ Articles originaux dans des revues à comité de lecture et chapitres de livres

«De la représentation sonore de l'environnement à la robustesse des modèles CNN 2D contre les attaques adverses»

Mohammad Esmaeilpour, Patrick Cardinal, Alessandro Lameiras Koerich »
Acoustique appliquée 2022.

«Défense sobolev multidiscriminateur-GAN contre les attaques adverses pour les systèmes vocaux de bout en bout»

Mohammad Esmaeilpour, Patrick Cardinal, Alessandro Lameiras Koerich »
Transactions IEEE sur la criminalistique et la sécurité de l'information 2022.

«GAN bi-discriminateur pour la synthèse de données tabulaires»

Mohammad Esmaeilpour, Nourhene Chaalia, Adel Abusitta, François-Xavier Devailly, Wissem Maazoun, Patrick Cardinal »
Lettres de reconnaissance de formes 2022.

«Détection et classification des événements audio non verbaux produits par l'homme»

Philippe Chabot, Rachel E.Bouserhal, Patrick Cardinal, Jérémie Voix »
Acoustique appliquée 2021.

«GAN de défense cyclique contre les attaques contradictoires de la parole»

Mohammad Esmaeilpour, Patrick Cardinal, Alessandro Lameiras Koerich »
Lettres de traitement du signal IEEE 2021.

Lire la suite>

+ Articles dans les actes de conférence arbitrés

«Vers une attaque contradictoire robuste de la parole au texte»

Mohammad Esmaeilpour, Patrick Cardinal, Alessandro Lameiras Koerich »
47e Conférence internationale IEEE sur l'acoustique, la parole et le traitement du signal (Singapour, Singapour, 23-27 mai 2022)p. 2869-2873.Institute of Electrical and Electronics Engineers Inc.. 2022.

«GaN de défense conditionnelle de classe contre les attaques vocales de bout en bout»

Mohammad Esmaeilpour, Patrick Cardinal, Alessandro Lameiras Koerich »
IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) (Toronto, ON, Canada – En ligne, 06-11 juin 2021)p. 2565-2569.Institute of Electrical and Electronics Engineers Inc.. 2021.

«Fusion audiovisuelle attentionnelle croisée pour la reconnaissance dimensionnelle des émotions»

R. Gnana Praveen, Eric Granger, Patrick Cardinal »
16e Conférence internationale IEEE sur la reconnaissance automatique des visages et des gestes (FG 2021) (Jodhpur, Inde, 15-18 décembre 2021) Institute of Electrical and Electronics Engineers Inc.. 2021.

«Segmentation de la couverture terrestre par radar à synthèse d'ouverture RADARSAT-2 à l'aide de réseaux de neurones à convolution profonde»

Mirmohammad Saadati, Marco Pedersoli, Patrick Cardinal, Peter Oliver »
La reconnaissance de formes. ICPR International Workshops and Challenges, Virtual Event, 10-15 janvier 2021, Actes Partie VIII (Milan, Italie, 10-15 janvier 2021) p. 106-117. Springer. 2021.

«Adaptation profonde de domaine faiblement supervisée pour la localisation de la douleur dans les vidéos»

Gnana R. Praveen, Eric Granger, Patrick Cardinal »
15e Conférence internationale IEEE sur la reconnaissance automatique des visages et des gestes (FG) (Buenos Aires, Argentine, 16-20 novembre 2020)p. 473-480.IEE Computer Society 2020.

Lire la suite>

Éducation

+ Enseignement de premier cycle

LOG-320: Structures de données et algorithmes

Ce cours vous permet d'acquérir des connaissances spécifiques en génie logiciel et en structures de données et algorithmes. Comprendre et utiliser l'analyse asymptotique pour choisir judicieusement les structures de données appropriées et le type d'algorithme optimal pour résoudre efficacement un problème tout en respectant les contraintes et les ressources disponibles.

A l'issue de ce cours, l'étudiant pourra choisir parmi une multitude de structures de données basiques (table, fichier, pile ou liste) ou plus avancées (arborescences, graphiques, tables de hachage) pour résoudre différents problèmes plus ou moins complexes . Il pourra également les combiner et les adapter pour faire face à différentes situations.

L'étudiant sera également capable de choisir le type d'algorithme et d'analyser ses performances globales pour différents problèmes de base qui impliquent, par exemple, la recherche dans les graphiques, l'optimisation combinatoire ou la recherche de chaînes.

+ Enseignement de deuxième cycle

MTI-815: Systèmes de communication vocale

À l'issue de ce cours, l'étudiant sera capable de:
• expliquer le fonctionnement des systèmes de communication vocale;
• choisir un système de communication vocale au besoin;
• Évaluer les systèmes de communication vocale.

Communication vocale par ordinateur. Modes de production et perception de la parole. Comment les ordinateurs fonctionnent pour compresser, encoder, synthétiser et reconnaître le signal vocal. Techniques d'encodage (PCM, ADPCM, LPC, ACELP), synthèse vocale (Klatt, LPC, PSOLA) et reconnaissance de la parole, du locuteur et des émotions (HMM, DMM, GMM).

+ Autres cours enseignés en tant que conférencier

GTI-770: Systèmes intelligents et apprentissage automatique
GTI-410: Application des technologies numériques au graphisme et à l'imagerie
LOG-710: Systèmes d'exploitation et programmation système

Une recherche

+ Projets disponibles

La plupart des projets disponibles impliquent des algorithmes d'intelligence artificielle et permettent aux étudiants d'acquérir les compétences suivantes:

Compréhension et utilisation des algorithmes d'apprentissage automatique tels que les réseaux de neurones, SVM, forêt aléatoire, etc.
Utilisation de techniques avancées telles que les méthodes globales ou l'apprentissage par transfert
Extraction d'informations à partir de différents signaux (audio, vidéo, ECG, etc.)
Et encore plus…

Système de traitement de la parole intégré pour l'interaction de réadaptation homme-robot

Résumé

Ce projet, qui est en collaboration avec l'Université de Sherbrooke et l'Université de Montréal, consiste à créer un robot capable d'intervenir auprès de patients atteints de différentes maladies. Pour le moment, nous nous concentrons sur les patients atteints de dysarthrie de maladies dégénératives (ataxie de Friedrich, par exemple). La dysarthrie est un trouble moteur qui entraîne des difficultés de prononciation qui deviennent plus importantes à mesure que la maladie progresse. À court terme, il s'agit de développer des applications pour aider les patients à briser l'isolement social en leur permettant de mieux communiquer avec les autres. Par exemple, une aide à la communication pourrait prendre le relais lorsque le patient a des difficultés à parler. Le système doit être en mesure de déterminer automatiquement si une aide est nécessaire ou non. Des applications intelligentes d'aide à l'exercice sont également envisagées.

Postdoc
Mohammed Senousaoui (identification de l'orateur)

Détection des émotions et / ou niveau de dépression

Résumé

Ce projet vise à créer une application permettant le suivi hebdomadaire, par un thérapeute, d'un patient dépressif. L'outil permettra au thérapeute d'avoir une meilleure idée de l'état émotionnel de son patient entre les différents rendez-vous, mais surtout, dans des situations réelles, mais aléatoires afin que le comportement du patient ne soit pas affecté par le savoir évaluer.

L'évaluation du patient sera basée sur des informations audiovisuelles. L'application sur un appareil mobile pourra capturer des segments audio et / ou vidéo à partir desquels le niveau de dépression sera déterminé.

Étudiant en master
Rafooneh Jafarian Bahri

Détection du niveau de stress d'une personne

Résumé

L'objectif principal de ce projet est de déterminer si les signaux cardiaques peuvent être un bon prédicteur des niveaux de stress tout en évitant la confusion avec un changement de rythme causé par l'activité physique. Pour ce projet, nous avons développé une base de données avec plusieurs modalités (audio / vidéo / ECG) avec trois types d'annotations:

Stress ressenti par le sujet;
Stress perçu par deux experts;
Niveau de cortisol

À partir de cette base de données, plusieurs études impliquant des techniques d'apprentissage automatique sont possibles comme la détection du stress d'une personne à partir de l'audio ou de l'image.

Ce projet est en collaboration avec Pierrich Pluquellec de l'Université de Montréal.

Doctorants
Patrice Boucher

Détection de la stéréotypie vocale chez les enfants autistes

Résumé: Afin de se réconforter, certains enfants autistes émettront certains sons de manière répétitive. Ce comportement met généralement les personnes autour de l'enfant mal à l'aise, ce qui affecte grandement leur intégration et leur développement. Plusieurs types de thérapies peuvent être utilisées par les psychoéducateurs pour réduire le niveau de stéréotypie vocale. Le problème est que l'évaluation d'une thérapie implique l'enregistrement et l'analyse de deux vidéos (avant et après le traitement) pour déterminer si la thérapie a été efficace. Le but de ce projet est de créer un logiciel capable d'analyser des enregistrements audio pour évaluer l'efficacité d'une thérapie. Ce logiciel permettra des gains d'efficacité significatifs pour les thérapeutes,

Détection de dialecte (arabe)

Résumé

Il s'agit de pouvoir identifier le dialecte qu'une personne utilise à partir d'un signal audio. Le but de cette recherche est de pouvoir créer une phase de détection afin d'utiliser le bon système de reconnaissance vocale afin de transcrire automatiquement le contenu audio d'un enregistrement en arabe.

+ Anciens projets

Détection de texte libre dans une commande abstraite

Ce projet, en partenariat avec Nuances Communications, visait à tester si l'utilisation d'informations prosodiques pouvait améliorer le niveau de détection de texte libre dans une commande. Le texte libre est un morceau de texte dans une commande qui ne doit pas être analysé par l'analyseur. Par exemple, si une commande est "Ecrire à Marie: je vais avoir 5 minutes de retard", le système n'a pas besoin d'analyser la section de texte libre ("Je vais avoir 5 minutes de retard") car c'est inutile pour déterminer l'action d'envoi d'un message.

Résultats

La corrélation entre l'information prosodique et la présence d'un texte libre est forte, mais son utilisation n'a pas entraîné d'amélioration significative des performances, mais les données disponibles n'étaient pas suffisamment représentatives pour aboutir à une conclusion définitive. D'autres expériences seront menées par Nuances Communications

Étudiant à la maîtrise
Simon Boutin (diplômé en mai 2016)

Implémentation de l'algorithme PSOLA

Résumé

Ce projet consistait à créer un logiciel pour accélérer ou ralentir un enregistrement audio sans changer la tonalité. Cela permet d'augmenter ou de réduire la durée d'un enregistrement sans être perceptible par l'oreille humaine.

Etudiant Master par projet
Freud Romero (diplômé en janvier 2016)

+ Projets précédents (au CRIM)

Projet C³GRID vidéo_c3grid

Abstract

Le projet C³GRID visait à développer une grille de calcul pour l'apprentissage distribué de modèles de reconnaissance acoustique, visuelle et vocale.

Résultat

L'équipe a contribué au module d'extraction des caractéristiques visuelles sur la forme de la bouche, afin d'augmenter la robustesse de la reconnaissance en environnement sonore bruyant.

RAP Vidéo RAP Projet

Résumé : Le projet de reconnaissance automatique de la parole (APR) s'est concentré sur la transcription automatique des débats de la Chambre des communes et des témoignages devant les comités pour permettre aux personnes sourdes ou malentendantes d'accéder à l'information. créer un accès multimodal universel aux débats en direct au Parlement canadien.

Projet MADIS MADIS vidéo

Résumé : Le projet MADIS visait à développer une référence pour l'indexation et la recherche de contenu cinématographique dans le cadre de la norme MPEG-7 pour l'Office national du film du Canada (ONF).

STDIRECT Vidéo TVA Projet

Résumé

Le système STDirect permet le sous-titrage d'émissions en direct à faible coût. Il s'adapte automatiquement à l'actualité et peut facilement être adapté à une autre langue.

Après l'intégration de STDirect au Groupe TVA, une nouvelle société a été créée, Technologies SOVO , qui utilise STDirect pour fournir le service de sous-titrage de:

Tous les sports en direct sur RDS, RDS2 et RDS Info Sports
Plusieurs émissions pour Télé-Québec, TVA, Canal Vie, CBC, RDI, TFO, CPAC
Événements spéciaux tels que la Coupe du monde de la FIFA 2010, la couverture en direct de la Commission Bastarache ou les Jeux olympiques d'hiver de 2010 à Vancouver.

Projet RyshcoMedia

Abstract

Ce projet impliquait le développement et le développement de la technologie d'alignement de la voix et l'intégration de la technologie d'alignement de la voix dans un système de support de post-synchronisation et de doublage pour Ryshco Media (maintenant DubSynchro). Cette firme se spécialise dans le doublage pour le cinéma et la télévision.

Projet E-Inclusion: site web officiel

Résumé : L'objectif du réseau E-Inclusion est d'exploiter un réseau d'utilisateurs, d'artistes, de producteurs et de chercheurs pour développer des outils de traitement de contenu audiovisuel et des méthodes de création de contenu, afin de permettre aux créateurs et producteurs de contenu multimédia de valoriser la richesse de l'expérience multimédia de les personnes ayant une déficience sensorielle en automatisant les aspects de la production multimédia et du processus de post-production. Ce projet est financé en partie par Patrimoine canadien.

Patrick

Cardinal

Membres réguliers

+ Recherche

+ Éducation

À propos de nous

Recherche et innovation

Actualités et Evénements

Contactez-Nous