Communication Sciences and Disorders
CSCD 3233

Basic Speech Science Exam 3 Study Guide Speech Perception • Identification: How a listener identifies a particular phoneme that they hear • Discrimination: Hearing the difference between two similar phonemes ex./p/ /b/ • Synthetic Speech: most common way to study speech production, max control of  synthesis • Natural Speech (edited): Wave form editor can add delete and swap phonemes,  cross splicing of vowels and adjusts vowel duration (change consonant  perception) • Audiovisual Speech Perception: McGurk, audio and visual converge to influence  the perception • Pattern Playback Synthesis:  ­ Reverse of Sound Spectrograph, takes a spectrogram and makes it a sound  (visual to sound) ­ Shows what information is most important to the listener   • Articulatory Synthesis: velum timing, different vowel lengths ??? • Vowels ­ Listeners only need 2 lowest formants  ­ Need both formants for front vowels ­ Need either both formants or one formant that is the average between F1 and  F2 ­ Listeners can perceptually merge F1 and F2 when they are close  ­ Listeners use general patterns of formants (not precise values) ­ Increased rate of speech centralizes formants, not a problem for listeners  because of rate normalization, they adjust to different speaking rates ­ Vowels are produced differently if we’re talking quickly/slowly.  • Diphthongs ­ Require gliding formants ­ Need to perceive change in resonance in /pi/ to perceive /i/ (F1 down & F2  up) ­ Direction and duration of change is most important (what’s happening over  time) not precise values  • Semivowels  ­ Acoustic signal is lighter (less energy) formants than vowels and diphthongs  ­ More rapid transitions than diphthongs, less rapid than between vowels and  stops  ­ Glides: /w/ /j/ require 2 formants  ­ Liquids: /r/ and /l/ require 3 formants  ­ Nasal Consonants • Nasal vs. Non­nasal o Nasal murmur (makes distinction, low frequency energy, strong, strong  cue to percept) o A stop following a nasal  o Low amp upper formants o  Nasal vowel    Can cue a nasal consonant simply with the nasal murmur and  no upper formants; can cue with nasalization in vowel  A stop following a nasal vowel makes the following consonant  sound nasal • Place (bilabial; alveolar; velar) o Transition to/from /m/ ­ lowest freq o Transition to/from /n/ ­ higher freq o Transition to / ŋ / ­ varies with vowel (lower with rounded back  vowels) o Bilabial: 2  format, lowest frequency F2 o Alveolar: highest freq F2 o Velars: Have variable F2, depending on front/back and rounding  • Acoustic cues to stops ­ Very rapid transitions ­ Release burst ­ Clear break in signal • Redundancy (don’t need all of the cues) o Transitions w/o burst – can take away burst and keep transitions o Burst w/flat transitions – have burst and take away the transitions,  burst is enough to hear a stop • Voicing cues for stops ­ Initial stops o Presence/absence of voicebar (VOT), voicing in closure, negative  VOT o Presence/absence aspiration noise (VOT), noise at beginning of vowel  (if aspiration is present) voiceless stop o Voiced stop = long positive VOT ??? o Phonemically voiced stop = not aspiration even if no voicebar  o Both of these acoustics elements are results of VOT ­ Final stops o Vowel duration ­ Fricatives Voiced vs. Voiceless: Voicebar or not • For final fric, longer vowel in VCD; longer fric in VL Sibilants vs. Non­sibilants (non = more anterior) • intensity (noise amplitude) • wide­band vs. narrow­band energy Concentration of energy Among the sibilants • /ʃ/ vs. /s/  (relative frequency) – higher for /s/ same with voiced Non­sibilants (noise is weak) • need F2 transition information • lower F2 associated with labiodental /f/ than /th/ also lower frequency noise (but  weak) Article Focus ­­ Examine link • Acoustic Stream   (Physical) & Phoneme Percept  (Psychological) • Non 1:1 mapping • What’s going on? Hockett’s Easter Egg Analogy • Phonemes are like Easter Eggs running along a conveyer belt en route to being  produced by the vocal tract • In production they run through a squasher and come out a mess • Don’t try to explain it! Liberman et al. • There is a “speech code” • Encoding of phonemes by Speaker • Decoding of phonemes by Listener • Phonemes are “restructured” in speech production • It’s not a mess; it’s amazing! Evidence of non 1:1 mapping 1. The segmentation problem 2. The invariance problem Segmentation Problem • You can’t find isolatable phonemes in the speech stream • Take the /p/ of “people”, where does the /p/ end and the /i/ begin? • Take the /ae/ of “hand”, where does the /ae/ end and the /n/ begin? Invariance Problem • The “same” phonemes are acoustically different in different contexts • /s/ of “Sue” vs. /s/ of “see” ­­ /s/ noise is higher frequency in the latter due to lip  rounding on /s/ in “Sue” • /i/ in “meat” vs. /i/ in “mean” What does a “code” imply? • An explanation for the non 1:1 mapping • Something systematic going on • A benefit to it • Speaker & Listener share the code • This paper supports this view Coarticulation / Coproduction • Phonemes are produced in temporally overlapping time­frames  • Means one phoneme co­occurs with another in speech production Think About Speaking Rate • We can follow up to ~ 400 words/minute • That’s about 30 phonemes/second • That rate would overwhelm temporal resolving power of ear if each phoneme was  a discrete acoustic event • Coarticulation:  - We produce & perceive speech very rapidly - Much more rapidly than if it were a sequence of discrete/isolatable sounds Discuss • Encoding • Decoding • Efficiency in Speech Production/Perception Encoding Examples 1. Long Flat Formants: signal vowel 2. Short F1 transition: signal stop 3. Short F2 transition signals place of articulation (in spectrogram on ppt its  alveolar) • “d” sounds the same in both cases • Acoustic cue quite different - /di/ F2 rises from ~ 2200 – 2600 Hz - /du/ F2 falls from ~ 1200 –   700 Hz • Perception of “d” in different contexts, produced by very different acoustic  signals Lack of Invariance • To “hear” the different F2 transitions • Remove from context - Hear rapidly rising high pitched whistle in /di/ - Hear rapidly falling low pitched whistle in /du/ • Don’t sound like each other, don’t sound like “d” Segmentation Problem • There is no way to cut the patterns & obtain just “d” • If you cut progressively from the right: - Hear “d” plus the vowel - Then hear non­speech Reason • At every instant, the transitions provide information about 2 phonemes, the  consonant and the vowel  More Examples • /s/ in “she” and “shoe” • /s/ noise carries information about the fricative and the vowel • Higher frequency noise in “she” than “shoe” due to lip positions of the vowel and  co­ocurring with consonant “sh” articulation Vowel to Vowel Effects • /a/ in “poppy” vs. “papa” • F2 is higher in the form
