parole, synthèse de la

Annales

Livres

Logiciels

PRÉSENTATION

parole, synthèse de la, domaine, relativement récent, qui vise à la production artificielle des sons de la parole humaine par des machines, appelées synthétiseurs.

PRINCIPE

Cette synthèse s’accomplit à partir d’une représentation phonétique du message, qui se présente sous la forme d’une chaîne de symboles phonétiques enrichis par des marques de prosodie (hauteur, intensité, etc.), que le synthétiseur se charge de restituer physiquement sous la forme d’ondes sonores.

HISTORIQUE

À plusieurs reprises au cours de l’histoire, on a tenté de reproduire la voix humaine. Au xviii^e siècle, on met au point à cet effet des dispositifs mécaniques équipés de soufflets et d’anches vibrantes. Au xx^e siècle, l’apparition de l’électricité et de l’électronique autorisent des tentatives plus ambitieuses : en 1922, J.-C. Stewart fabrique une machine capable de reproduire des voyelles, des diphtongues et quelques mots simples ; plusieurs années plus tard (1939), H. Dudley présente, à l’occasion de l’Exposition universelle de New York, le Voder (Voice Operation Demonstrator), appareil mis au point par les laboratoires Bell.

Mais ce n’est que dans les années cinquante que les premiers véritables synthétiseurs de la parole font leur apparition, avec, par exemple, le Pattern Playback, système mis au point par les laboratoires Haskins, qui se présente comme un sonagraphe fonctionnant à l’envers (un faisceau de lumière produit, après amplification, des sons à partir de la représentation de leur durée, de leur fréquence et de leur intensité).

Depuis les années soixante-dix, des progrès considérables ont été accomplis, avec notamment le développement de l’utilisation des calculateurs numériques. Aujourd’hui encore, ces progrès se poursuivent, dans plusieurs directions (perfectionnement des synthétiseurs à formants, des synthétiseurs à prédiction linéaire, etc.).

TECHNIQUES ET APPLICATIONS

Les techniques permettant de faire « parler » un ordinateur se répartissent en deux familles principales.

Les premières — les plus simples et les moins coûteuses — utilisent des sons préenregistrés et stockés, qui sont assemblés pour constituer des mots, puis des phrases. On pourrait penser qu’il suffit d’enregistrer les sons élémentaires ou phonèmes d’une langue (la langue française en compte 36), puis de les juxtaposer pour former des mots. Mais disposer d’enregistrements des phonèmes seuls ne suffit pas. En effet, en accolant, par exemple, le phonème « b » au phonème « a », on n’obtient pas la syllabe « ba ». Il faut donc enregistrer toutes les syllabes possibles de la langue, c’est-à-dire plusieurs centaines dans le cas du français. La machine est ainsi capable de synthétiser toutes les phrases d’une langue, la difficulté restant de reproduire le rythme et les intonations de la voix humaine.

Ces techniques ne peuvent cependant que restituer des messages à vocabulaire limité. Les messages en question peuvent être soit figés (par exemple : Veuillez composer votre code confidentiel), soit variables, en fonction du contenu sémantique à émettre (comme, par exemple, dans les serveurs vocaux de certaines banques : À ce jour, votre compte présente un solde débiteur créditeur de / x / francs.). Beaucoup d’applications aujourd’hui en service, telles que des jouets éducatifs, des répondeurs téléphoniques ou, comme le montre l’exemple ci-dessus, des serveurs vocaux, utilisent des enregistrements de mots ou de fragments de phrases. Tous ces systèmes demeurent relativement simples et efficaces, étant restreints à un contexte précis, mais il ne s’agit pas véritablement de synthèse vocale.

L’autre technique consiste à synthétiser effectivement les phonèmes de n’importe quel texte d’une langue donnée, sans limitation de vocabulaire, grâce à une modélisation électronique de l’appareil phonatoire humain, à la manière des premières machines mécaniques. La vibration des cordes vocales correspond, en effet, à une onde périodique, tandis que les différentes cavités de la gorge et de la bouche peuvent être assimilées à des filtres successifs. Cette technique est plus difficile à maîtriser, mais produit des résultats de plus en plus performants. Son évolution reste toutefois quelque peu freinée par son coût, dû à la complexité des techniques employées.

Les systèmes utilisant concrètement la synthèse de la parole sont encore assez rares, et requièrent des techniques complémentaires capables d’instaurer un dialogue entre l’utilisateur et la machine. Parmi ces techniques, on peut citer la reconnaissance vocale, qui permet à un ordinateur d’identifier les mots prononcés par l’utilisateur, ou certains aspects de l’intelligence artificielle relatifs à la compréhension du langage.

Depuis quelques années, pourtant, un nombre croissant de produits industriels utilisant cette technique ont vu le jour. Il s’agit donc d’une technique d’avenir aux applications potentielles importantes (entre autres, la fabrication de « prothèses » pour aider les handicapés dans leur vie courante : par exemple, des machines à lire pour les non-voyants, des synthétiseurs à sortie vocale pour les non-parlants, etc.).

Professeur : Tél.: (237) 22 11 58 25 Ecrivez-nous