vocal tract model
Home ] hoger ]

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

De vocal tract filter

Zoals reeds vroeger gezegd bestaat deze operatie uit vier delen , de voorversterking ,de correlatie berekening , de lpc analyse ,  lpc quantisatie en codering.

De vocal tract model wordt meestal geïmplementeerd als een IIR filter   gekarakteriseerd door P-aantal parameters ( de filter orde) , meestal volstaan 10-12 parameters voor sample snelheden van 8 kHz en is van de vorm in  z-transform:

wpe2.jpg (1908 bytes)

De basisveronderstelling van deze methode is dat voor tijdssegmenten die kort genoeg zijn het kan aangenomen  worden dat deze filters H(z) stationair kunnen verondersteld worden en beperkt worden in aantal ! Dwz dat de vocal tract kan beschreven worden door een opeenvolging van enkele filters H(z) waarvan de P-aantal parameters  constant kunnen   verondersteld worden in deze goed gekozen frames van  lengte I punten.

Correlatie en LPC analyse

Hoe komt men aan deze filtercoëfficienten? Door een combinatie van lineaire voorspelling en een correlatieberekening!

Lineaire voorspelling veronderstelt dat de waarde van een signaal kan afgeleid worden uit een lineaire combinatie van zijn vorige gewogen waarden .Dit kan uitgedrukt worden als:

wpe3.jpg (2061 bytes)                                                                                                                         

Hierbij wordt nu gezocht naar een configuratie van de filterparameters zodat de energie die in de afwijkingen e(n), het residu signaal, zit minimaal is .Deze energie kan voorgesteld worden door

wpe4.jpg (1448 bytes)

En op deze grootheid moet een Kleinste Kwadraten Analyse worden toegepast waarvoor de keuze valt op een  autocorrelatieberekening .Op de  technische aspecten   van deze berekening gaan wij voorts niet verder op in.Wij vermelden enkel dat bij deze berekening de lengte van de vensters zijnde L hier een rol speelt en moet bepaald worden.

Uiteindelijk kunnen de lpc-parameters dan toch bepaald worden en deze leveren een gesynthetiseerd signaal op   dat weinig afwijkt van het origineel

wpe6.jpg (2266 bytes)                                                                                                                     

In deze uitdrukking is wpe7.jpg (880 bytes)  de gesynthetiseerde spraak , u(n) is het excitatie signaal ( stembanden) en G is de gain factor welke tot doel heeft de energie van het gesynthetiseerd (digitaal) signaal in overeenstemming te brengen met deze van het oorspronkelijk signaal.

Bepalen van de filter orde P

Deze wordt bepaald  door te stellen dat de variatie op de  afwijkingsenergie E kleiner blijft dan een zekere drempelwaarde b wanneer de orde zou worden verhoogd :

wpe8.jpg (1327 bytes)

Venster lengte L

Hiervoor gebruikt men de gekende vensters als Hanning, Hamming enz . De lengte L van zulk venster welke een basisparameter is wordt zo gekozen dat  minstens  een paar pitch perioden ( voor klinkers) moet omsloten  worden dwz dat de tijdsduur ervan moet liggen tussen 20-40 msec.

Frame lengte I

Deze moet zo gekozen worden dat een lineaire predictie  mogelijk is dwz dat de filtercoëfficienten in dit interval kunnen constant verondersteld worden , meestal is de verhouding I/L = 0.5

Overzicht van de parameterwaarden

parameters naam grootte-orde typische waarde
filterorde P 1-20 10
vensterlengte L 160-320 240
frame lengte I 40-160 120
voorversterking l 0.7-0.95 0.8

 

 

KaHo

Home volgende

gewijzigd op 19/09/00

auteurs: Raoul Meuldermans

reviewer :