lpc
Home ] hoger ] vocal tract model ] excitatie model ] case studie ]

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1. Basisidee van linear predictive coding

Het basisidee van lpc is in weze eenvoudig en steunt op enkele premissen.

Het model gaat er van uit dat in spraak geen  bruske energieovergangen   gebeuren maar dat deze eerder geleidelijk zijn zodanig dat volgende   spraaksegmenten kunnen  voorspeld worden uitgaande van de voorgaande spraakdelen.
De voorspelling en parametrisatie van lpc coëfficienten volgen uit twee modellen, een model van de stembanden excitatie ( bronexcitatie ) en een model van de menselijke resonantieruimten zoals keel en neusruimten ( de vocal tract ).

2. Linear Predictive Coding

De menselijke vocal tract wordt verondersteld geparametriseerd te kunnen worden als een lineaire tijdsveranderlijke filter ( de lpc- filter) en bij pitch-geëxciteerde codering wordt tevens ook   verondersteld dat ook het excitatiesignaal zelf ,komende van de stembanden ,volledig kan geparametriseerd worden en tevens kunnen bekomen worden door een pitch detector.

3. Pitch-geëxciteerde LPC

De twee essentiele delen van deze methode vindt u terug in bijgevoegd blokdiagram. De pitch detectie is rechts afgebeeld . De output hiervan bestaat uit een beslissing of het klanksegment  (frame) voiced of 'non-voiced' is ( klinker of medeklinker is ).Indien het een klinker is wordt een pitch periode bepaald. Deze parameters worden dan gecodeerd en samen met de parameters die komen van de vocal tract analyse gemultiplexed in een output bitstroom. De keuze van de lengte van de frames ( tijdssegmenten ) is essentieel !!

De lpc analyse wordt afgebeeld in het linker gedeelte van het diagramma . Nadat het signaal eerst door een voorversterking wordt gestuurd , welke tot doel heeft een kleiner dynamisch bereik van het spraaksignaal te bekomen, wordt het gevensterd en opgedeeld in   signaalsegmenten (frames) .Het type venster, de lengte van het venster en van de tijdssegmenten behoren tot de belangrijkste gegevens ( parameters ) van deze techniek .Op deze segmenten wordt vervolgens een correlatie-analyse uitgevoerd . Het aantal punten voor deze analyse en het aantal lpc-coëfficienten dat zal  weerhouden  worden zijn  tevens belangrijke controleparameters in deze modelering . De output van deze analyses zijn een aantal lpc parameters en een gain factor voor elk segment. Deze twee types van parameters  worden dan gequantiseerd , gecodeerd en gemultiplexed met de pitch parameters tot een output bitstroom.

wpe9.jpg (35016 bytes)

Goede spraakkwaliteit vereist een bandbreedte van 6 kHz of groter. Voor telefonie volstaat eerder een bandbreedte van 3.5 kHz zodat een samplesnelheid van 8 kHz voldoende is. Sinds de menselijk vocale ruimte in essentie een mechanische operator is zullen   fluctuaties van de resulterende modulaties van de akoestische  energie  in deze resonantieruimte traag variëren  . Deze traag veranderlijke karakteristieken  zullen derhalve geparametriseerd kunnen worden door traag veranderlijke waarden. Het resultaat is dus dat de vocal tract kan beschreven worden door een tijdsveranderlijke frequentiefiltering met traagveranderlijke coëfficienten.

 

KaHo

vorige Home volgende

gewijzigd op 22/09/00

auteurs: Raoul Meuldermans

reviewer :