<<< Sommaire

      Un collier de perles ?

 

Construire un modèle de la perception des sons de parole ne devrait pas, à première vue, soulever beaucoup de difficultés. Après tout, nous entendons la parole comme une séquence de sons individuels qui s'enchaînent les uns derrière les autres comme les perles d'un collier. Pour construire un modèle de la perception de la parole, on pourrait croire qu'il suffit de caractériser les «traces» dont chaque segment marque le flux de parole. Une fois que l'on aurait cette information, il serait relativement facile, presque trop facile, de concevoir un ensemble de dispositifs, tels que des filtres, des détecteurs de traits, ou des modèles acoustiques, qui pourraient trier et identifier les segments de la chaîne. Ce serait, en effet, une théorie toute simple et très séduisante assurément, malheureusement, totalement fausse! Les résultats de nombreuses expériences indiquent que les patterns acoustiques associés aux segments de sons de parole ne sont pas assemblés comme les perles d'un collier, chacun de ces segments, avec sa petite marque d'identification, attendant simplement d’être perçus, l'un après l'autre.
[……]

(…) nous ne percevons pas la parole segment par segment. Un certain nombre d'études réalisées dans les années cinquante sont très convaincantes à cet égard. A cette époque on a dépensé beaucoup de temps et d'argent pour construire une machine qui devait faire la lecture aux aveugles (voir Harris, 1953, ou Peterson, et al., 1958). L'approche retenue était la suivante: si les segments phonétiques étaient comme les perles d'un collier, on devait pouvoir construire une machine dont le rôle serait essentiellement de «coller» les segments phonétiques les uns aux autres pour former les mots. Un ensemble de mots, prononcés avec beaucoup de précaution avait été enregistré sur une bande magnétique. L'étape suivante consistait à isoler chacun des segments sonores sur la bande. Les sons isolés étaient stockés dans la machine qui devait les assembler pour former de nouveaux mots. En fait, les systèmes de ce genre se sont avérés complètement inutilisables. En effet, la «parole» que ces machines produisaient était inintelligible, pour toute une série de raisons pratiques; dans de nombreux cas les segments pré-enregistrés semblaient prendre des valeurs phonétiques différentes lorsqu'ils étaient assemblés pour former un nouveau mot. Par exemple, un son comme /p/, dans l'enregistrement original, devenait /k/ lorsqu'il était associé à d'autres sons (Cf. Cooper, et al., 1952).
Il ne semble pas surprenant que ces tentatives aient échoué compte tenu, comme nous l'avons déjà dit, qu'il est impossible d'isoler acoustiquement une partie de la bande correspondant seulement au son /b/, tout comme il est impossible de prononcer le son /b/ seul sans mettre une voyelle avant ou après. Tout simplement, nous ne pouvons produire ou entendre /b/, s'il ne fait pas partie d'une syllabe.
[……]

(…) nous envoyons et recevons les informations sous forme d'unités syllabiques. D'après cette théorie, nous «décodons» le signal de parole selon les mouvements articulatoires que nous combinons pour produire le signal. Les sons individuels, bien qu'il n'aient pas de statut acoustique indépendant, sont perçus comme des sons discontinus. Il semble que la perception de la parole nous oblige à faire appel à une sorte de «connaissance» que nous avons sur les effets acoustiques des mouvements articulatoires en interaction dans la production de la parole (Liberman, et al., 1967 ; Lieberman, 1970).
[……]

2.6. EN RESUME

Nous venons de voir que l'acte de parole demande une planification complexe. Les données expérimentales indiquent que les «instructions du tractus vocal» sont planifiées en tenant compte d'un certain nombre de faits, tels que les différences de temps que prennent les influx nerveux pour atteindre les muscles articulatoires ainsi que le temps nécessaire aux articulateurs pour occuper diverses positions. Nous ne savons pas exactement comment s'accomplit cette intégration complexe, mais seulement qu'elle est réalisée d'une manière ou d'une autre. Nous savons également que le locuteur planifie les phrases avant de les produire, et que cela rend le modèle simple de réponses en chaîne totalement inadéquat à la production de la parole.
Dans notre discussion sur la perception de la parole, nous avons mis l'accent sur le manque d'indices invariants pour la reconnaissance des sons de parole. Le modèle que nous avons appelé«perles de collier», ne semble pas convenir à la perception de la parole. Les auditeurs doivent, avant tout, ajuster leur perception en fonction de leur interlocuteur. Nous avons suggéré que, pour ce faire, les auditeurs s'appuieraient sur la forme acoustique des voyelles [i] et [u] des différents locuteurs. Nous avons également noté que la syllabe semble être l'unité de décodage du signal de parole, et que l'auditeur doit posséder une sorte de représentation des mouvements articulatoires ayant produit les sons qu'il entend. Il semble, par conséquent, que la perception de la parole ne soit pas un simple phénomène passif où le sujet attend que des indices spécifiques arrivent, mais plutôt un processus actif de reconstruction du message à partir d'un large éventail d'informations acoustiques, et probablement d'autre nature.
Nous n'avons pas répondu à la question: «Comment produisons-nous et comprenons-nous les sons de parole ?» Nous espérons, cependant, avoir montré quel type de réponse serait le plus approprié. La recherche d'un modèle adéquat et opérationnel se poursuit.

Edward Matthei, Thomas Roeper
Introduction à la psycholinguistique 1983 (traduction française, 1988 – Bordas)

 

SOMMAIRE