• Entrepreneuriat
  • Recherche

Deep Voice Paris

Diversité et inclusion dans les technologies vocales

 

  • Du 15 juin. 2022 au 17 juin. 2022

  • Rencontre
  •  SCAI (Campus Pierre et Marie Curie) et IRCAM
     

     

Deep Voice, Paris est l’événement parisien dédié à la voix et à l’intelligence artificielle dont l’objectif est de réunir expertises scientifique et technique, innovation et entrepreneuriat. Pour cette deuxième édition, keynote, discussions et tables rondes se succèderont pour traiter de la diversité et de l’inclusion dans les technologies vocales  : langues rares, langues peu dotées, langue des signes, dialectes, biais et discriminations. 

Des ateliers techniques - “hands-on” - seront proposés aux participants pour développer leurs compétences dans les domaines du traitement de la parole et du langage naturel.

Des moments de rencontres et de réseautage en fin de journée faciliteront les rencontres et l’échange entre les participants en toute décontraction.

Deep Voice est un événement co-organisé par l’Ircam, Sorbonne Université, et SCAI dans le cadre du festival ManiFeste 2022.

Conditions d’accès : sur inscription

Pour cette deuxième édition : plus de discussions, plus de rencontres, plus d'événements avec les meilleurs spécialistes français et internationaux du domaine, des ateliers de formation technique et des ouvertures culturelle et artistique !

Les organisateurs :

  • Nicolas Obin, STMS (Ircam, Sorbonne Université, CNRS, Ministère de la culture)
  • Xavier Fresquet, SCAI (Sorbonne Center for Artificial Intelligence, Sorbonne Université)

 

 

Programme

 

Mercredi 15 juin (14h-17h, lieu : SCAI)

- 14h00-14h15, Mot d’introduction,  Nicolas Obin, STMS (Ircam, Sorbonne Université, CNRS, Ministère de la culture) et Xavier Fresquet, Sorbonne Center for Artificial Intelligence, Sorbonne Université

- 14h15-15h30, Keynote “Histoire des technologies vocales, évolutions actuelles et perspectives”
Intervenant : Luc Julia, Renault
Animateur : Nicolas OBIN, STMS (Ircam, Sorbonne Université, CNRS, Ministère de la culture)

- 15h30-17h00, Discussion (en anglais) : “Quoi ma voix, qu’est-ce qu’elle a comme genre ?”
Résumé : Quelles sont les relations entre voix et genre ? Comment le genre interagit avec l’identité et l’émotion ? Comment envisager le genre dans les technologies vocales?
Intervenants : Emil Asmussen, Creative Director of Meet Q, The World’s First Genderless Voice, Melissa A. Barkat-Defradas, Institut des Sciences de l'Evolution, Nadine Lavan, Queen Mary University of London, Giulia Perugia,  Eindhoven University of Technology (TU/e) – Eindhoven (Netherlands)

Animateurs : Victor Rosi (Ircam), Sylvie Saget (Université de Gothenburg, en présence)

- 17h-18h30 : Réception au SCAI, soirée rencontres et réseautage

Jeudi 16 juin (10h-13h lieu : SCAI, puis 14h-17h, lieu : IRCAM)

- 10-13h à SCAI

Atelier #1: Hands-on speech-to-text with neural networks
Intervenants : Yann Teytaut et Clément Le Moine Veillon, STMS (Ircam, Sorbonne Université, CNRS, Ministère de la culture)

- 14h-16h00  Session langue des signes + performance SLAM
Intervenants : Agnès Vourc'h, Université Paris Nanterre, Michael Filhol, LISN, Djenebou Bathily, Université Vincennes - Saint-Denis

- 16h00-17h30, Discussion : Diversité des langues dans le monde numérique 
Résumé : Quelle représentation des langues minoritaires dans les technologies vocales? Comment la technologie peut-elle aider à préserver les langues et les cultures ?
Intervenants : Laurent Besacier, Naver Labs Europe, Victoria Khurshudyan, INALCO, Esther Klabbers, ReadSpeaker, Gabriel Habayeb, Mozilla Common Voice
Animateur : Nicolas Obin, STMS lab (Ircam, Sorbonne Université, CNRS, Ministère de la culture)

Vendredi 17 juin (10h-13h lieu : SCAI, puis 14h-17h, lieu : IRCAM)

- 10-13h à SCAI

Atelier #2 : Hands-on CamemBERT avec Benjamin Muller, Roman Castagne, Nathan Godey (INRIA)

- 14h-15h30 à l'Ircam

Discussion : Le biais est dans le texte?
Intervenants : Eric de la Clergerie, Inria, Djamé Seddah, Sorbonne Université, Aurélie Névéol, Université Paris-Saclay

Animatrice : Laure Soulier, Sorbonne Université

- 15h30-17h00 à l'Ircam 

Table ronde (en anglais) : diversité dialectale et accentuelle dans les technologies vocales
Intervenants : Mathieu Avanzi, Sorbonne Université, Sanchit Gandhi, Hugging Face, Maxim Serebryakov, SANAS
Animateur : Carl Robinson (Rumble studio)

- 17h00-17h15 à l'Ircam

Mot de conclusion, Nicolas Obin, STMS (Ircam, Sorbonne Université, CNRS, Ministère de la culture) et Xavier Fresquet, Sorbonne Université, SCAI

Intervenants

Emil is a Creative Director, Writer and  Director working in the intersection of creativity and technology. His work has been featured in places like The New York Times, CNN, BBC, World Economic Forum, & Wired. It’s also been exhibited at museums around the world including The Smithsonian and London Design Museum and awarded +50 shiny things from places like Cannes Lions, D&AD, & The Webby’s.



 

Mathieu Avanzi is professor in linguistics in the University of Neuchâtel. He is at the head of the Center of Dialectology and regional French. His work deals with the use of crowdsourcing in order to map dialectal and regional variation in the French speaking world.

Phonéticienne de formation, Melissa Barkat-Defradas est chargée de recherche au CNRS à l’Institut des Sciences de l’Evolution de Montpellier. Ses travaux de recherche concernent l’étude de l’évolution du langage articulé chez l’homme et abordent l’étude de la voix humaine en lien avec la sélection sexuelle. Elle étudie notamment les préférences d’un sexe pour les attributs vocaux du sexe opposé, les liens existants entre hormones et voix, ou encore entre la qualité vocale et l’expression de certains traits de personnalité.

Djenebou Bathily est née en 1980 à Charenton-le-Pont (94) en France, Sourde.
Elle est slameuse et artiste (poétesse, chansigneuse, comédienne occasionnelle). Passionnée par ce qui touche aux Arts, elle a réalisé le texte de slam "Cri de rue " publié dans l'anthologie "Les Mains Fertiles " (éditions Bruno Doucey) ; le texte de slam " les bruits et les ondes électriques" publié dans la revue GPS (Gazette Poétique Sociale) n°11 Poésies Sourdes (éditions Plaine Page) et a adapté en LSF le spectacle "Love in the Hair" en partenariat avec Accès Culture.

Michael Filhol obtient son doctorat en 2008 sur la modélisation formelle des langues des signes pour leur synthèse par avatar, puis poursuit ses recherches en traitement automatique des langues des signes. Aujourd'hui au CNRS (laboratoire LISN, Paris-Saclay), il s'intéresse en plus à leur traduction, automatique ou assistée, ainsi qu'à leur représentation graphique pour une édition logicielle, aujourd'hui encore impossible.

Diplômée de l’Université Linguistique Brussov d’État d’Erevan, elle a soutenu sa thèse de doctorat en science du langage à l’Institut de Linguistique, Université d'État des humanités de Russie (РГГУ), Moscou, Russie. Ses domaines de recherche sont notamment la variation linguistique de l'arménien, la typologie linguistique, ainsi que la linguistique computationnelle dans une perspective de traitement automatique des langues. De 2006 à 2009, elle a coordonné le projet du Corpus national de l’arménien oriental (EANC) à l’Institut de langue, Académie des sciences de Russie.

My research examines person perception from voices. I completed my PhD at Royal Holloway, University of London in 2017 and then undertook post-doctoral work at Brunel University and University College London. As of 2021, I have joined joined Queen Mary University of London as a lecturer and Sir Henry Wellcome Fellow
 

Nicolas Obin is associate professor at the Faculty of Sciences and Engineering of Sorbonne Université and research scientist in the Sound Analysis and Synthesis team at the Science and Technology for Sound and Music laboratory (Ircam, CNRS, Sorbonne Université). He received a PhD. thesis in computer sciences on the modeling of speech prosody and speaking style for text-to-speech synthesis (2011) for which he obtained the best PhD thesis award from La Fondation Des Treilles in 2011. Through the years he has developed a strong interest in the behavior and communication between humans, animals, and robots. His main area of ​​research is the structured generative modeling of complex human productions with various applications in speech synthesis and transformation, multi-modal virtual agent animation, and humanoid robotics. Lately I initiated activities in the fields of bioacoustics and sound ecology. As part of my artistic commitment to Ircam, I am actively promoting digital science and technology for arts, culture, and heritage, and collaborated with renowned musicians and artists, such as: Eric Rohmer, Philippe Parreno, Roman Polansky, Leos Carrax, and George Aperghis.

Dr. Giulia Perugia is an Assistant Professor at the Human-Technology Interaction Group of TU/e. She earned a double degree Erasmus Mundus Ph.D. in Assistive Technologies from Eindhoven University of Technology (TU/e, Netherlands) and the Technical University of Catalonia (UPC, Spain), and worked as a postdoctoral researcher at Uppsala Social Robotics lab (Sweden) from 2018 to 2021. As a researcher, she is interested in studying how people’s perceptions and affective states in the interaction with robots can be measured through the interaction itself, how such states and perceptions develop over time, and whether and how the design of and interaction with social robots could reproduce biases and stereotypes existing in society at large. Recently, she has started investigating more profusely the process of gendering robots, how this interacts with robot’s norm violations, and how it could be used to foster a more inclusive HRI.

Carl Robinson is co-founder CEO of Rumble Studio, a SaaS that helps companies create podcasts for marketing, using cutting-edge voice technology. Carl is also host of the Voice Tech Podcast (https://voicetechpodcast.com), and has interviewed more than 100 experts in the field of voice technology. Earlier in his career, Carl led a product team at a chatbot startup (Gather Health), became a published voice AI data scientist (ICASSP 2019), and founded multiple startups with one modest exit (Munch 5 a Day). Carl's ambition is to democratise audio content creation, so that businesses large and small can establish a presence on the audio channels of the future.

Sylvie Saget est doctorante en linguistique computationnelle à l'Université de Gothenburg. Son parcours mixe milieu académique et secteur privé: tout d'abord en tant qu'ingénieure de recherche en IA conversationnelle à l'IRISA et à l'Institut Télécom, ensuite en tant que consultante en innovation. Elle s'intéresse aux agents conversationnels qui peuvent interagir et parler de manière autonome, que ce soient des humains, robots, avatars… Ses recherches portent sur la modélisation du raisonnement et du dialogue via une approche transdisciplinaire mixant philosophie de l'esprit, logique et psychologie. Cette modélisation lui permet de développer des technologies de gestion des interactions ainsi que des architectures d'agent conversationnel. Plus récemment, elle a élargi son champ d’applications au développement de méthodes responsables de conception et de design.
 

Yann Teytaut est doctorant à l'Ircam, dans l'équipe Analyse/Synthèse des Sons, et se spécialise dans l'apprentissage profond appliqué à l'audio. Ses travaux portent plus particulièrement sur l'analyse du contenu de chant : alignement (synchronisation) entre voix et texte, détection de structures musicales et modèle de style interprétatif. Yann est également enseignant vacataire en informatique, modélisation physique et traitement du son à Sorbonne Université et Polytech Sorbonne.

Après une thèse en Programmation en Logique en 1993 et un post-doc à Bell Labs, Eric de la Clergerie s'est orienté par passion vers le traitement automatique des langues (TAL) au sein de l'INRIA. Il a accompagné les (r)évolutions du domaine, passant des approches symboliques aux approches statistiques et maintenant neuronales, avec en autres le développement de FRMG, une grammaire à large couverture du français (http://alpage.inria.fr/frmgwiki/), et son implication récente dans le modèle de langue CAMEMBERT. Il s'intéresse en outre aux applications TAL d'acquisition de connaissance et d'extraction d'information à partir en particulier de sorties d'analyse syntaxique.

Esther Klabbers is a senior speech scientist working on text-to-speech synthesis for many different languages. Her main areas of expertise are prosody modelling and phonetics. Esther believes in a data-centric approach to AI, which requires high quality linguistic preprocessing and careful data selection to be able to generate accurate and natural sounding speech for different voices and languages in different speaking styles and emotions. She is currently co-supervising two PhD students, one as part of the EU COBRA project which deals with conversational TTS and another from the Rijksuniversiteit Groningen Fryslan Campus who works on TTS of Frisian as an underresourced language.
 

Clément Le Moine Veillon est doctorant à l’Ircam au sein de l’équipe Analyse/Synthèse des sons. Ancien étudiant du Master ATIAM (Acoustique, Traitement du Signal et Informatique Appliqués à la Musique) de l’IRCAM, il s’est familiarisé avec les problématiques inhérentes à l'expressivité de la voix humaine lors d’un stage au sein de l’équipe. Ses travaux actuels se focalisent sur la modélisation générative des attitudes vocales basée sur de l’apprentissage profond et intégrant des critères perceptifs.
 

 

Aurélie Névéol est directrice de recherche au CNRS. Ses activités de recherche portent sur l’analyse fine des textes médicaux, qui reste un défi pour l’intelligence artificielle. Ses travaux ont porté sur des textes issus de la littérature et des dossiers électroniques patients, en français et en anglais. Elle dirige actuellement des travaux de recherche sur le développement de ressources et d'outils pour le traitement automatique de la langue clinique en français. Ce travail porte sur la modélisation des informations médicales contenue dans le texte libre des dossiers électronique patient afin de développer des ressources et des méthodes de traitement automatique de la langue biomédicale. Ces résultats sont appliqués à la recherche d’information à partir du dossier patient, ainsi qu’à la découverte de connaissances médicales grâce à l’analyse rétrospective des dossiers patients. Depuis plusieurs années, elle s’intéresse également à des problématiques d'éthique dans le TAL, d’évaluation et d’organisation de la recherche dans le cadre des campagnes internationales CLEF eHealth et WMT.
 

 

Laurent is a principal scientist and Natural Language Processing (NLP) research group lead at Naver Labs Europe. He became a professor at the University Grenoble Alpes (UGA) in 2009 where he led the GETALP group (natural language and speech processing). Laurent is still affiliated with UGA. His main research expertise and interests lie in the field of natural language processing, automatic speech recognition, machine translation, under resourced languages, machine-assisted language documentation and the evaluation of NLP systems.

Roman Castagné est actuellement doctorant dans l’équipe ALMAnaCH rattachée à l’Inria Paris, spécialisée dans le traitement automatique des langues. Son travail de recherche s’intéresse aux méthodes de tokenisation du texte, qui consistent à encoder des chaînes de caractères en nombres entiers pour les modèles de langue. En particulier, il étudie l’impact que peuvent avoir ces méthodes dans l’apprentissage de modèles multilingues, capables d’effectuer des tâches dans une centaine de langues différentes simultanément.

Sanchit Gandhi is Machine Learning Research Engineer at Hugging Face ? in the open-source speech team, Sanchit is a contributor and maintainer of Hugging Face Transformers, the current most popular state-of-the-art machine learning repository. Sanchit is pioneering the integration of JAX-based models to Transformers, enabling efficient and scalable inference for large language models. Sanchit’s research interests lie in robust speech recognition, namely the use of pre-trained encoder/decoder checkpoints for generalisable and extensible speech systems. Prior to working at Hugging Face, Sanchit completed his Master’s Degree from the University of Cambridge, writing his thesis on the topic of “Interpretability for Deep Learning” under the supervision of Professor Mark Gales.

Nathan Godey est ingénieur Ponts & Chaussées section Maths/Info et diplômé du Master MVA. Actuellement doctorant dans ALMAnaCH de l’INRIA, Paris, ill travaille sur l'amélioration des modèles de langue, notamment par l'utilisation de techniques relevant du transport optimal.

Benjamin Muller est doctorant à Sorbonne Université et à l'INRIA Paris au sein de l'équipe de recherche Almanach. Ses recherches portent sur la compréhension du comportement des modèles linguistiques à grande échelle et leur application efficace dans le contexte multilingue. Il a fait des stages chez Apple AI/ML et Amazon Alexa AI. Il est également le formateur principal du cours de Machine Learning for NLP à l'ENSAE Paris.

 

Djamé Seddah is a tenured associate professor (Maître de Conférence) in CS at the Sorbonne University, currently on a long-term teaching leave at Inria Paris. His interests cover all parts of NLP, mainly syntactic analysis, wide coverage parsing, syntax-semantic interface, etc. Those days he's involved into the processing of noisy user generated content through treebanking, machine translation and parsing, focusing on context-aware models. More and more involved into contextual neural language models for under-resourced languages.

 

Maxim Serebryakov is the Co-Founder and CEO of Sanas.ai. Sanas is the world’s first real-time accent translation system, which was founded in 2019 with the aim of providing anyone with control over the way they sound in digital communication. Sanas aims to increase global connectivity one conversation at a time. To date, Sanas has raised around $40M and has grown to 40 employees.

 

Laure Soulier est Maître de Conférences à Sorbonne Université et membre de l'équipe MLIA au sein du laboratoire ISIR. Ses recherches sont focalisées autour du domaine du traitement automatique de la langue (TAL) et de la recherche d'information (RI) en exploitant des approches neuronales. Elle concentre ses activités autour de deux grands sujets : la génération data-to-texte et la recherche d'information conversationnelle. Ce dernier sujet est abordé via l'ANR JCJC SESAMS dont elle est la coordinatrice. Elle a publié dans de nombreuses conférences et journaux renommés dans la communauté TAL et RI (SIGIR, CIKM, EMNLP, ECIR, IP&M, JASIST, ACM TOIS) ainsi que dans la communauté Machine Learning (AAAI, ICLR, ICML, DMKM).

 

Orthophoniste et linguiste, je me suis très vite intéressée à la complexité des difficultés de communication : aphasie et surdité. D’abord orthophoniste auprès d’enfants sourds dans une démarche oraliste -on ne connaissait pas l’existence du langage gestuel-je m’y suis ensuite plongée dedans comme Obelix dans la marmite de potion magique…et n’en suis pas encore  sortie. J’ai participé à l’élaboration des premiers dictionnaires d’iVT et des suivants, du CD »Mano », et donné des cours de linguistique aux professionnels sourds d’IVT et aux élèves interprètes de SERAC. Mon chemin a rencontré certaines embûches, dont je me suis heureusement relevée et qui m’ont amenée à changer de cap et à m’intéresser aux enfants puis adultes sourds avec Handicaps associés, dans le cadre du CNTRHR R. Laplane. C’est là aussi que j’ai élaboré avec des collègues une adaptation du WISCIII en LSF et un protocole d’évaluation de la LSF. Nous avons aussi créé un album DVD de comptines en LSF, juste avant ma retraite. Aujourd’hui, c’est par conviction et plaisir que je poursuis certaines activités, comme la formation des professionnels sourds à la compréhension de la pédagogie du langage et la poursuite d’outils d’évaluation de la LSF. C’est par plaisir aussi que je continue à avoir de longues conversations avec des amis sourds, avec lesquels - surtout un en particulier - nous « refaisons le monde » régulièrement.