L'identification par la voix

Introduction

Histoire


La reconnaissance vocale (également appelée reconnaissance automatique de la parole) est un système récent, apparu au milieu du XXème siècle. A l'époque, les créateurs ne disposaient que de machines câblées pour faire fonctionner cette nouvelle technologie, ses capacités permettaient juste de reconnaître les chiffres, cela n'avait donc pas été reconnu comme étant performant. C'est en fait la naissance du traitement de la parole par une machine. Rattachée à de nombreuses branches de la recherche tel que l'intelligence artificielle ou le traitement d'un signal, le sujet est très vite pris en main et dès les années 1970, les recherches s'accélèrent et la première application de la reconnaissance d'un individu par sa voix fut mis en place pour la sécurité des pilotes de chasse de l'armée américaine. De nos jours les recherches se sont encore améliorées grâce à l'apparition de nouveaux systèmes électroniques autonomes.

Qu'est ce que la voix ?


La voix est une diffusion de sons, produite par les cordes vocales créant des vibrations dans l'air, et créée par le choc de la glotte sur les muscles du larynx.
Elle est composée de trois principaux paramètres :


  • L'intensité
L'intensité d'un son dépend de la force de celui-ci et est liée à l'écart des vibrations. L'unité de mesure de cette intensité est le décibel (symbole: dB).Voici quelques exemples dans le but d'illustrer cette définition: un bruissement de feuilles: de 0 à 10 dB; une conversation normale: 20 à 50 dB; le bruit du tonnerre: 90 à 110 dB. L'intensité du bruit produit par un concert ou par le décollage d'un avion à réaction dépassent les 120 dB et peuvent devenir nocif pour l'oreille humaine.
  • La hauteur
La hauteur est la qualité d'un son plus ou moins grave ou aigu dépendant de la fréquence des vibrations. Il faut en effet savoir qu'un corps ne peut produire un son que s'il vibre. Ces vibrations sont ensuite portées à l'oreille par l'interaction du vent. Leur fréquence est très variable (entre 16 et 20000 vibrations par seconde, l'unité de nombre de cette mesure est le hertz, noté Hz)
  • La durée
La durée du son est simplement mesurée en fonction de la pression de l'air expiré.

La technologie de reconnaissance vocale se base sur ces caractéristiques de la parole, également constituées d'une combinaison de facteurs comportementaux (vitesse, rythme, etc) et physiologiques (tonalité, âge, sexe, accent, etc)

Les caractéristiques de la voix d'une personne sont uniques, c'est pourquoi la reconnaissance vocale est utilisée en biométrie. Contrairement à ce que l'on peut croire, les imitateurs arrivent seulement à reproduire les caractéristiques vocales  audibles par l'oreille humaine, cependant, ils n'arrivent pas à recréer les caractéristiques (moins évidentes) non perçues par le système auditif humain, mais que les systèmes automatisés captent très bien.

Capture, traitement

Un des avantages de la reconnaissance vocale est que la personne à identifier n'est pas en contact direct avec un lecteur biométrique, elle n'est donc pas perçue comme intrusive par l'utilisateur. Une fois capturée par un micro, la voix est convertie en algorithmes mathématiques.

La capture de la voix est une opération très délicate car elle dépend de beaucoup de facteurs : en effet, la voix de la personne peut être altérée par l'état émotionnel, une maladie ou déficience physique qui modifierait le son de sa voix.
Les conditions de captures doivent être optimales (pas de bruit extérieur) et le rendu du son enregistré le plus naturel possible, nécessitant une bonne qualité au niveau du matériel (microphone, logiciel d'enregistrement…) qui influent également sur la qualité des résultats.

Afin de pouvoir traiter numériquement un signal sonore, celui-ci est numérisé sur 8 ou 16 bits (unité de mesure en informatique, sur la base d'un système binaire ; soit 0 ou 1), associé à une fréquence d'échantillonnage (donnée essentielle de la qualité numérique sonore : elle permet de déterminer la qualité de l'enregistrement ainsi que la mémoire qu'occupe le fichier sonore ; elle est exprimée en Hertz) qui évolue entre 8 kHz et 48 kHz.

La reconnaissance vocale, sa capture et son traitement sont aujourd'hui encore un domaine de recherche très actif, bien que des systèmes performants soient désormais présents sur le marché. Il est néanmoins possible d'établir une standardisation de la méthode de l'analyse vocale :

Dans un premier temps le signal sonore capturé est analysé, permettant l'extraction de nombreux paramètres. Leur acquisition est permise en grande partie grâce à une analyse spectrale du signal : coefficients de prédiction linéaires (dont le but est d'estimer la valeur du signal à un instant précis) ou les bancs de filtre (conçus pour découper précisément le spectre d'un signal audio).
Ces paramètres servent ensuite à la création d'un modèle qui sera rangé dans une sorte de classeur permettant de déterminer l'identité du locuteur.
De nombreuses techniques sont utilisées pour créer ce classeur comme les réseaux de neurones qui permettent de capter le son d'une voix au milieu d'un brouhaha et du bruit ambiant et d'en reconnaître les mots qui sont prononcés.

Conclusion


La reconnaissance vocale n'est pas considérée comme une des meilleures techniques de reconnaissance biométrique.
C'est un système apparu récemment mais qui a pris, de nos jours, beaucoup d'importance. Il est reconnu comme étant le système biométrique le plus simple à utiliser, ce qui a séduit de nombreuses entreprises et banques. Elle est également très prisée des réseaux téléphoniques. Grâce aux recherches très actives qui s'effectuent sur ce système, on peut penser que la reconnaissance vocale deviendra peut-être, dans un futur proche, le nouveau système biométrique le plus populaire.


Créez votre site web sans connaissances en HTMLDernière mise à jour : lundi 12 mars 2012