Reconocimiento automático del habla

Esta una implementación de MFCC (extracción de características) y análisis DTW. Necesitarás entrenar el sistema antes de utilizarlo. En el proyecto tienes un threshold de Xdb para ventanear los fonemas del clip de audio. El parámetro de frames por defecto es 1024 (=23ms). El sistema extrae por defecto 12 coeficientes MFCC por defecto para el ancho de banda. Se utilizan algoritmos K-NN para comparar el dataset. Una vez que se tenga datos suficientes puede utilizar "Predict" y reproducir un fonema. Descarga el proyecto desde Github siguiendo éste enlace.