lpc

[ Home ] [ hoger ] [ vocal tract model ] [ excitatie model ] [ case studie ]

1. Basisidee van linear predictive coding

Het basisidee van lpc is in weze eenvoudig en steunt op enkele premissen.

Het model gaat er van uit dat in spraak geen bruske energieovergangen gebeuren maar dat deze eerder geleidelijk zijn zodanig dat volgende spraaksegmenten kunnen voorspeld worden uitgaande van de voorgaande spraakdelen.

De voorspelling en parametrisatie van lpc coëfficienten volgen uit twee modellen, een model van de stembanden excitatie ( bronexcitatie ) en een model van de menselijke resonantieruimten zoals keel en neusruimten ( de vocal tract ).

2. Linear Predictive Coding

De menselijke vocal tract wordt verondersteld geparametriseerd te kunnen worden als een lineaire tijdsveranderlijke filter ( de lpc- filter) en bij pitch-geëxciteerde codering wordt tevens ook verondersteld dat ook het excitatiesignaal zelf ,komende van de stembanden ,volledig kan geparametriseerd worden en tevens kunnen bekomen worden door een pitch detector.

3. Pitch-geëxciteerde LPC

De twee essentiele delen van deze methode vindt u terug in bijgevoegd blokdiagram. De pitch detectie is rechts afgebeeld . De output hiervan bestaat uit een beslissing of het klanksegment (frame) voiced of 'non-voiced' is ( klinker of medeklinker is ).Indien het een klinker is wordt een pitch periode bepaald. Deze parameters worden dan gecodeerd en samen met de parameters die komen van de vocal tract analyse gemultiplexed in een output bitstroom. De keuze van de lengte van de frames ( tijdssegmenten ) is essentieel !!

De lpc analyse wordt afgebeeld in het linker gedeelte van het diagramma . Nadat het signaal eerst door een voorversterking wordt gestuurd , welke tot doel heeft een kleiner dynamisch bereik van het spraaksignaal te bekomen, wordt het gevensterd en opgedeeld in signaalsegmenten (frames) .Het type venster, de lengte van het venster en van de tijdssegmenten behoren tot de belangrijkste gegevens ( parameters ) van deze techniek .Op deze segmenten wordt vervolgens een correlatie-analyse uitgevoerd . Het aantal punten voor deze analyse en het aantal lpc-coëfficienten dat zal weerhouden worden zijn tevens belangrijke controleparameters in deze modelering . De output van deze analyses zijn een aantal lpc parameters en een gain factor voor elk segment. Deze twee types van parameters worden dan gequantiseerd , gecodeerd en gemultiplexed met de pitch parameters tot een output bitstroom.

Goede spraakkwaliteit vereist een bandbreedte van 6 kHz of groter. Voor telefonie volstaat eerder een bandbreedte van 3.5 kHz zodat een samplesnelheid van 8 kHz voldoende is. Sinds de menselijk vocale ruimte in essentie een mechanische operator is zullen fluctuaties van de resulterende modulaties van de akoestische energie in deze resonantieruimte traag variëren . Deze traag veranderlijke karakteristieken zullen derhalve geparametriseerd kunnen worden door traag veranderlijke waarden. Het resultaat is dus dat de vocal tract kan beschreven worden door een tijdsveranderlijke frequentiefiltering met traagveranderlijke coëfficienten.

gewijzigd op 22/09/00

auteurs: Raoul Meuldermans

reviewer :