Speech Transmission Index

Speech Transmission Index - STI

Wegens de omslachtige meetprocedure voor de Articulation Index, zijn onderzoekers een andere manier gaan zoeken om de spraakverstaanbaarheid op een meer eenvoudige wijze te gaan bepalen. Uit deze noodzaak is de Speech Transmission Index geboren. Deze werd geīntroduceerd door Houtgast en Steeneken.

De Speech Transmission Index wordt volgens de volgende schaal aan de spraakverstaanbaarheid verbonden.

STI	Spraakverstaanbaarheid
< 0,4	slecht
0,4 - 0,6	matig
0,6 - 0,8	goed
0,8 - 1,0	uitstekend

Hoe wordt de STI bepaald?

Het idee achter de bepaling van de Speech Transmission Index (STI) is dat de 'omhulling' van het signaal zoveel mogelijk moet behouden blijven om een zo groot mogelijke verstaanbaarheid te bekomen.

Houtgast en Steeneken gebruiken de Modulatie-Transfer-Functie als basis voor de STI. Vooraleer verder te gaan is het dus noodzakelijk een klein woordje uitleg te geven bij het begrip Modulatie-Transfer-Functie, verder MTF genoemd.

Voor de spraakverstaanbaarheid is het spectrum van de klanken (klankkleur) niet zo belangrijk als wel de variaties (of modulaties) van dit spectrum. Deze variaties kunnen worden aangetast door omgevingslawaai, galm, e.d.

Voor het bepalen van de MTF leggen we een gemoduleerd witte ruis-signaal op aan het systeem. Dit signaal ziet eruit als volgt:

$I_i(t)\ =\ \hat{I}\ [1+\cos(2\pi Ft)]$	met	F	de modulatiefrequentie
		$\hat{I}$	de tijdsgemiddelde waarde van de intensiteit.

De output aan de microfoon is dan:

$I_o(t)\ =\ \hat{I}\ [1+m\ \cdot\ \cos(2\pi F(t-\theta))]$

De waarde m wordt de modulatie-transfer-functie genoemd. m is een functie van de modulatiefrequentie F. m ligt tussen 0 en 1.

Welke zijn volgens jou de frequenties die in aanmerking komen voor de modulatie van het inputsignaal?

De MTF kan worden bepaald uit de impulsresponsie.

Om nu over te gaan van de MTF naar de spraakverstaanbaarheid, drukken we de m-waarde uit als een schijnbare signaal/ruis-verhouding:

$\begin{eqnarray*}m(F)\ &=&\ (1+10^{-\ (\frac{S}{N})/10})^{-10}\\ \\ (\frac{S}{N})_{F}\ &=&\ 10\ \log[\frac{m(F)}{1-m(F)}]\end{eqnarray*}$

De waarden van S/R die groter zijn dan 15 of kleiner dan -15 worden 'geclipt', d.w.z. worden vervangen door +15, respectievelijk -15.

De MTF en de signaal/ruis-verhouding (S/R) zijn niet frequentieonafhankelijk en moeten worden bepaald per octaafband van het spraakspectrum. Uit de verschillende S/R-waarden wordt een gemiddelde S/R-waarde bepaald door gewogen optelling. Dit gemiddelde gebruikt wegingsfactoren al naargelang de relevantie van de banden. Deze wegingsfactoren kennen een grotere belangrijkheid toe aan de banden van 250 en 2000 Hz.
Uit deze gemiddelde S/R-waarde berekenen we vervolgens de STI op de volgende manier:

$STI\ =\ \frac{\frac{S}{N}\ +\ 15}{30}$

auteurs: Gerrit Vermeir
Ivan Bosmans
Veerle Meerbergen

review: Raoul Meuldermans

gewijzigd op 21/09/00