Navigation



18 Juin 2012 : Perception de la parole et traitement automatique

Journée portée par le Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI) et le Laboratoire de Phonétique et de Phonologie (LPP)
Thème : Perception de la parole et traitement automatique
Intervenants : Philippe Boula de Mareüil (LIMSI), Laurence Devillers (LIMSI), Cédric Gendrot (LPP), Jean-Philippe Goldman (LATL)
Organisateurs : Agnès Delaborde, David Doukhan, Marc Evrard, Lionel Feugère, Marie Tahon (doctorants, LIMSI), Nicolas Audibert (post-doc, LIMSI). Journée organisée avec l'aide de Laurianne Georgeton (doctorante, LPP).
Horaires :
Accueil : à partir de 9h30
Début des interventions : 10h
Fin de la journée : 17h45
Un repas sera fourni aux participants inscrits
Adresse : Le Laboratoire de Phonétique et de Phonologie se situe à ILPGA, 19 rue des Bernardins dans le 5e arrondissement

Perception et traitement automatique de la parole: le cas des accents régionaux en français (Philippe Boula de Mareüil)
La perception, problématique au coeur des sciences cognitives, est abordée en dialectologie perceptive sous trois angles: (1) celui des représentations et catégorisations mentales en l’absence d’input linguistique, (2) celui des attitudes évaluatives et affectives en réaction à des stimuli linguistiques et (3) celui de l’aptitude à discerner différents accents à partir d’un input phonétique. En matière d’accents, il peut y avoir un décalage entre production et perception. Les accents, de plus, sont sujets à une importante variation: leur étude à travers de grandes quantités de données peut donc bénéficier de techniques issues du traitement automatique de la parole, comme nous essaierons de le montrer en prenant le cas des accents régionaux en français. Les questions suivantes seront au centre de cet exposé: Avec quel degré de granularité (quelle finesse, quelle précision) peut-on distinguer divers accents? Quels sont les indices qui permettent de reconnaître tel ou tel accent? Quelle est en particulier la part de la prosodie?
Des notions sociolinguistiques comme celle de prototype, celle d’accent par rapport à un dialecte et celle d’accent par rapport à une norme seront définies. Les résultats d’expériences perceptives d’identification d’accents régionaux en français seront présentés. On tentera d’expliquer pourquoi nos capacités à discerner des accents sont souvent surestimées, pourquoi tous les locuteurs d’une région X n’ont pas nécessairement l’accent de cette région, pourquoi certains traits de prononciation sont valorisés ou au contraire dévalorisés.
La deuxième partie de l’exposé sera consacrée à ce qui peut caractériser un accent sur le plan tant segmental que prosodique. Après un examen de quelques études de cas et d’une expérience perceptive à base de modification/resynthèse de la prosodie, on montrera quels peuvent être les apports du traitement automatique pour analyser un corpus de dizaines d’heure de parole enregistrées en France d’oïl, dans le Midi, en Alsace, en Belgique et en Suisse romande. L’alignement automatique en phonèmes, en particulier, peut être utilisé pour mesurer différentes variantes de prononciation. Des techniques de classification peuvent enfin être utilisées pour hiérarchiser les traits phonétiques les plus discriminants et identifier automatiquement certains accents.

Les dimensions affectives et sociales dans les interactions orales (Laurence Devillers)
Traditionnellement, domaine de prédilection des psychologues, neuroscientifiques et philosophes, l’étude des émotions et leur rôle dans nos jugements et comportements suscitent depuis peu un intérêt croissant pour la conception de systèmes doués d’intelligence sociale et affective. L’interaction sociale est caractérisée par un échange continu et dynamique de signaux, porteurs d’un contenu informatif et communicatif. La capacité de produire ces signaux, et de les comprendre, permet à l’humain d’interagir avec ses semblables. Pour concevoir des systèmes doués d’intelligence sociale et affective, il est nécessaire d’étudier les dimensions émotionnelles et sociales pendant l'interaction. Les indices socioculturels sont en général contrairement aux émotions volontairement contrôlés. Dans les interactions langagières, les éléments non verbaux comme les gestes, l'expression de visage et les indices paralinguistiques sont importants pour une compréhension plus précise du message communiqué. La voix joue un rôle fondamental dans les interactions affectives et sociales. Les travaux et projets de recherche menés au LIMSI-CNRS sur la détection des émotions (signaux audio paralinguistiques) en interaction sociale (dialogue homme-machine, robotique cognitive, outil de remédiation) et en fouille de données seront présentés.

Resynthèse de la parole et perception (Cédric Gendrot)
La resynthèse PSOLA de la parole, de par ses modifications de durée et de f0, permet de tester les effets des paramètres prosodiques de f0 et de durée sur l'auditeur. Nous verrons lors d'un cours sur ordinateurs comment effectuer ces modifications, manuellement dans un premier temps, ainsi que grâce à l'utilisation de scripts d'automatisation sur PRAAT dans un second temps.

Analyse outillée de variables macro-prosodiques (Jean-Philippe Goldman)
Un locuteur engagé dans une activité discursive délivre un phonostyle dépendant de facteurs variés comme le contenu linguistique, l'expression qu'il veut y rajouter, le contexte d'énonciation, les habitudes articulatoires. De plus, il varie continuellement sa manière de parler et ces modifications déclenchent des inférences interprétatives. Par exemple, une modification temporaire du registre mélodique peut contextualiser, au niveau de l’organisation polyphonique du discours, un changement de voix; un ralentissement du débit conjointement à une augmentation de la densité accentuelle produisent un effet de focalisation ou d’insistance.
Nous présentons une méthodologie d'analyse prosodique de corpus comme une succession d'outils d'alignement, de détection de proéminence, de rapport prosodique global. Nous proposons également une analyse prosodique dynamique de paramètres temporels, intonatifs et accentuels, permettant de représenter des variables macro-prosodiques et de détecter des "changements d'ambiance" qu’on suppose significatifs pour telle ou telle dimension du discours en cours de construction.
Des enregistrements de parole fournis serviront de base pour exemplifier l’utilisation individuelle des différents outils.

29 Septembre 2011 : le développement de la perception: du signal aux unités phonologiques

Journée portée par le Laboratoire de Phonétique et de Phonologie
Thème : le développement de la perception: du signal aux unités phonologiques
Intervenants : Pierre Hallé (Laboratoire de Phonétique et de Phonologie), Willy Serniclaes (Laboratoire Psychologie de la Perception), Coralie Vincent (Paris 8) et Erwan Pépiot
Horaires :
Accueil : à partir de 9h30
Début des interventions : 10h
Fin de la journée : 17h45
Un repas sera fourni aux participants inscrits
Adresse : Le Laboratoire de Phonétique et de Phonologie se situe à ILPGA, 19 rue des Bernardins dans le 5e arrondissement