Evaluación comparativa de sistemas de reconocimiento de locutor basados en los algoritmos LPC, CC y MFCC

Yesenia González; Héctor Juárez; Oscar Rocha; Rubén Hernández; Alfredo Bermúdez

doi:10.36561/ING.17.6

Autores

Yesenia González Instituto Politécnico Nacional, México https://orcid.org/0000-0003-2370-4660
Héctor Juárez Instituto Politécnico Nacional, México https://orcid.org/0000-0003-1347-0645
Oscar Rocha Instituto Politécnico Nacional, México https://orcid.org/0000-0002-1676-6620
Rubén Hernández Instituto Politécnico Nacional, México https://orcid.org/0000-0001-7059-6426
Alfredo Bermúdez Instituto Politécnico Nacional, México https://orcid.org/0000-0001-5714-0061

DOI:

https://doi.org/10.36561/ING.17.6

Palavras-chave:

Reconocimiento de locutor, Ruido de bullicio, Algoritmo MFCC, Algoritmo CC, Algoritmo LPC

Resumo

El presente documento propone realizar la evaluación de sistemas de reconocimiento de locutor basados en los algoritmos LPC (Coeficientes de Predicción Lineal), CC (Coeficientes Cepstrales) y MFCC (Coeficientes Cepstrales en Frecuencias Mel), empleados en la extracción de parámetros de voz. La evaluación, siguiendo una metodología cuantitativa experimental, consiste en determinar el cambio de desempeño cuando la señal de entrada es expuesta a diferentes condiciones de ruido (bullicio y gaussiano), es decir, a distintos niveles de SNR, comparando los resultados de verificación para 2 locutores. Aunque todos los sistemas disminuyen su desempeño en ambientes ruidosos, cada uno posee de forma intrínseca cierto nivel de robustez. Esta evaluación servirá de referencia en la construcción de sistemas de reconocimiento de locutor, los cuales incluyan sistemas de mejora de voz para disminución del ruido.

Downloads

Não há dados estatísticos.

Referências

T. Kinnunen y H. Li, "An Overview of Text-Independent Speaker Recognition: from Features to Supervectors," Speech Communication, vol. 52, no. 1, pp. 12-40, 2010.

H. Beigi, Fundamentals of speaker recognition. New York, USA: Springer, 2011.

M. Ray, M. Chandra y B. Patil, "Speech Coding Techniques for VoIP Applications: A Technical Review," World Applied Sciences Journal, vol. 33 no. 5, pp. 736-743, 2015.

C. Ittichaichareon, S. Suksri y T. Yingthawornsuk, "Speech Recognition using MFCC," en International Conference on Computer Graphics, Simulation and Modeling (ICGSM'2012), Pattaya (Thailand), 2012, pp. 135-138.

X. Jing, J. Ma, J. Zhao y H. Yang, "Speaker recognition based on principal component analysis of LPCC and MFCC.," en International Conference on Trends in Automation, Communications and Computing Technology, 2015, December, pp. 1-5.

A. Charisma, M. Reza Hidayat y Y. Bakti Zainal, "Speaker Recognition Using Mel-Frequency Cepstrum Coefficients and Sum Squar," Engineering Faculty of Universitas Jenderal Achmad Yani, Cimahi, Indonesia, 2017.

A. N. Chadha, J. H. Nirmal y P. Kachare, A comparative performance of various speech analysis-synthesis techniques, International Journal of Signal Processing Systems, vol. 2, no. 1, Jun., pp. 17-22, 2014.

P. Manrique Ramírez y M. A. Meléndez Velázquez, «Diseño de un sistema de codificación de predicción lineal (LPC),» Ciudad de México, 1999.

L. Rabiner y B.-H. Juang, Fundamentals of Speech Recognition. Englewood Cliffs: Petrince Hall International, 1993.

C. Collomb, "Tutorial on linear prediction and Levinson Durbin," Empty Loop, febrero 3, 2009. [En línea]. Disponible en: http://www.emptyloop.com/technotes/A%20tutorial%20on%20linear%20prediction%20and%20Levinson-Durbin.pdf. [Último acceso: 12 02 2019].

J. R. Deller, J. H. L. Hansen y J. G. Proakis, Discrete-Time Processing of Speech Signals. New York: Macmillan, 1993.

J. L. Cheang Loong, K. S. Subari, M. Kamil Abdullah, N. N. Ahmad y R. Besar, «Comparison of MFCC and Cepstral Coefficients as a Feature Set for PCG Biometric Systems,» 2010.

S. S. Stevens, Volkmann y E. B. John & Newman, "A Scale for the Measurement of the Psychological Magnitude Pitch," Acoustical Society of America, vol. 8, nº 3, p. 6, 1937.

V. G. Vílchez García, "Estimación y clasificación de daños en materiales utilizando modelos AR," Sep. 2010. [En línea]. Disponible en: http://ceres.ugr.es/~alumnos/esclas/. [Último acceso: 12 05 18].

W. Gevaert, G. Tsenov y V. Mladenov, "Neural Networks used for Speech Recognition," Journal of Automatic Control, University of Belgrade, vol. 20 pp. 1-7, 2010.

VoIP Supply, «Cisco hd voice,» VoIP Supply, [En línea]. Disponible en: https://www.voipsupply.com/cisco-hd-voice. [Último acceso: 22 03 2019].

K. K. Paliwal, J. G. Lyons y K. K. Wojcicki, "Preference for 20-40 ms window duration in speech analysis," en 2010 4th International Conference on signal Processing and Communication Systems (ICSPCS).

C. S. Aguilar Orozco y M. W. Marín Benítez, Sistema certificador de locutor por voz. México: Instituto Politécnico Nacional, 2003.