Basic Speech Science Exam 3 Study Guide.docx

11 Pages
136 Views
Unlock Document

Department
Communication Sciences and Disorders
Course
CSCD 3233
Professor
Krakow
Semester
Fall

Description
Basic Speech Science Exam 3 Study Guide Speech Perception • Identification: How a listener identifies a particular phoneme that they hear • Discrimination: Hearing the difference between two similar phonemes ex./p/ /b/ • Synthetic Speech: most common way to study speech production, max control of  synthesis • Natural Speech (edited): Wave form editor can add delete and swap phonemes,  cross splicing of vowels and adjusts vowel duration (change consonant  perception) • Audiovisual Speech Perception: McGurk, audio and visual converge to influence  the perception • Pattern Playback Synthesis:  ­ Reverse of Sound Spectrograph, takes a spectrogram and makes it a sound  (visual to sound) ­ Shows what information is most important to the listener   • Articulatory Synthesis: velum timing, different vowel lengths ??? • Vowels ­ Listeners only need 2 lowest formants  ­ Need both formants for front vowels ­ Need either both formants or one formant that is the average between F1 and  F2 ­ Listeners can perceptually merge F1 and F2 when they are close  ­ Listeners use general patterns of formants (not precise values) ­ Increased rate of speech centralizes formants, not a problem for listeners  because of rate normalization, they adjust to different speaking rates ­ Vowels are produced differently if we’re talking quickly/slowly.  • Diphthongs ­ Require gliding formants ­ Need to perceive change in resonance in /pi/ to perceive /i/ (F1 down & F2  up) ­ Direction and duration of change is most important (what’s happening over  time) not precise values  • Semivowels  ­ Acoustic signal is lighter (less energy) formants than vowels and diphthongs  ­ More rapid transitions than diphthongs, less rapid than between vowels and  stops  ­ Glides: /w/ /j/ require 2 formants  ­ Liquids: /r/ and /l/ require 3 formants  ­ Nasal Consonants • Nasal vs. Non­nasal o Nasal murmur (makes distinction, low frequency energy, strong, strong  cue to percept) o A stop following a nasal  o Low amp upper formants o  Nasal vowel    Can cue a nasal consonant simply with the nasal murmur and  no upper formants; can cue with nasalization in vowel  A stop following a nasal vowel makes the following consonant  sound nasal • Place (bilabial; alveolar; velar) o Transition to/from /m/ ­ lowest freq o Transition to/from /n/ ­ higher freq o Transition to / ŋ / ­ varies with vowel (lower with rounded back  vowels) o Bilabial: 2  format, lowest frequency F2 o Alveolar: highest freq F2 o Velars: Have variable F2, depending on front/back and rounding  • Acoustic cues to stops ­ Very rapid transitions ­ Release burst ­ Clear break in signal • Redundancy (don’t need all of the cues) o Transitions w/o burst – can take away burst and keep transitions o Burst w/flat transitions – have burst and take away the transitions,  burst is enough to hear a stop • Voicing cues for stops ­ Initial stops o Presence/absence of voicebar (VOT), voicing in closure, negative  VOT o Presence/absence aspiration noise (VOT), noise at beginning of vowel  (if aspiration is present) voiceless stop o Voiced stop = long positive VOT ??? o Phonemically voiced stop = not aspiration even if no voicebar  o Both of these acoustics elements are results of VOT ­ Final stops o Vowel duration ­ Fricatives Voiced vs. Voiceless: Voicebar or not • For final fric, longer vowel in VCD; longer fric in VL Sibilants vs. Non­sibilants (non = more anterior) • intensity (noise amplitude) • wide­band vs. narrow­band energy Concentration of energy Among the sibilants • /ʃ/ vs. /s/  (relative frequency) – higher for /s/ same with voiced Non­sibilants (noise is weak) • need F2 transition information • lower F2 associated with labiodental /f/ than /th/ also lower frequency noise (but  weak) Article Focus ­­ Examine link • Acoustic Stream   (Physical) & Phoneme Percept  (Psychological) • Non 1:1 mapping • What’s going on? Hockett’s Easter Egg Analogy • Phonemes are like Easter Eggs running along a conveyer belt en route to being  produced by the vocal tract • In production they run through a squasher and come out a mess • Don’t try to explain it! Liberman et al. • There is a “speech code” • Encoding of phonemes by Speaker • Decoding of phonemes by Listener • Phonemes are “restructured” in speech production • It’s not a mess; it’s amazing! Evidence of non 1:1 mapping 1. The segmentation problem 2. The invariance problem Segmentation Problem • You can’t find isolatable phonemes in the speech stream • Take the /p/ of “people”, where does the /p/ end and the /i/ begin? • Take the /ae/ of “hand”, where does the /ae/ end and the /n/ begin? Invariance Problem • The “same” phonemes are acoustically different in different contexts • /s/ of “Sue” vs. /s/ of “see” ­­ /s/ noise is higher frequency in the latter due to lip  rounding on /s/ in “Sue” • /i/ in “meat” vs. /i/ in “mean” What does a “code” imply? • An explanation for the non 1:1 mapping • Something systematic going on • A benefit to it • Speaker & Listener share the code • This paper supports this view Coarticulation / Coproduction • Phonemes are produced in temporally overlapping time­frames  • Means one phoneme co­occurs with another in speech production Think About Speaking Rate • We can follow up to ~ 400 words/minute • That’s about 30 phonemes/second • That rate would overwhelm temporal resolving power of ear if each phoneme was  a discrete acoustic event • Coarticulation:  - We produce & perceive speech very rapidly - Much more rapidly than if it were a sequence of discrete/isolatable sounds Discuss • Encoding • Decoding • Efficiency in Speech Production/Perception Encoding Examples 1. Long Flat Formants: signal vowel 2. Short F1 transition: signal stop 3. Short F2 transition signals place of articulation (in spectrogram on ppt its  alveolar) • “d” sounds the same in both cases • Acoustic cue quite different - /di/ F2 rises from ~ 2200 – 2600 Hz - /du/ F2 falls from ~ 1200 –   700 Hz • Perception of “d” in different contexts, produced by very different acoustic  signals Lack of Invariance • To “hear” the different F2 transitions • Remove from context - Hear rapidly rising high pitched whistle in /di/ - Hear rapidly falling low pitched whistle in /du/ • Don’t sound like each other, don’t sound like “d” Segmentation Problem • There is no way to cut the patterns & obtain just “d” • If you cut progressively from the right: - Hear “d” plus the vowel - Then hear non­speech Reason • At every instant, the transitions provide information about 2 phonemes, the  consonant and the vowel  More Examples • /s/ in “she” and “shoe” • /s/ noise carries information about the fricative and the vowel • Higher frequency noise in “she” than “shoe” due to lip positions of the vowel and  co­ocurring with consonant “sh” articulation Vowel to Vowel Effects • /a/ in “poppy” vs. “papa” • F2 is higher in the form
More Less

Related notes for CSCD 3233

Log In


OR

Join OneClass

Access over 10 million pages of study
documents for 1.3 million courses.

Sign up

Join to view


OR

By registering, I agree to the Terms and Privacy Policies
Already have an account?
Just a few more details

So we can recommend you notes for your school.

Reset Password

Please enter below the email address you registered with and we will send you a link to reset your password.

Add your courses

Get notes from the top students in your class.


Submit