Pregunta

¿Es posible crear una red neuronal que proporcione una salida consistente dado que la entrada puede estar en vectores de diferentes longitud?

Actualmente estoy en una situación en la que he probado muchos archivos de audio, que son de diferentes longitudes, y tengo que entrenar una red neuronal me proporciona la salida deseada dada una determinada entrada. Estoy tratando de crear una red de regresión que pueda generar la función MFCC, dadas muestras de un archivo de audio, que son de diferentes longitudes, lo que hace una entrada numerada diferente.

¿Fue útil?

Solución

Sí, esto es posible tratando el audio como una secuencia en un Red neuronal recurrente (RNN). Puede entrenar un RNN contra un objetivo que sea correcto al final de una secuencia, o incluso para predecir otra secuencia compensada de la entrada.

No tenga en cuenta que hay Un poco para aprender sobre opciones que entran en la construcción y capacitación de un RNN, que ya no habrás estudiado mientras miras redes de alimentación en capas más simples. Los RNN modernos utilizan diseños de capa que incluyen puertas de memoria: las dos arquitecturas más populares son LSTM y Gru, y estos agregan parámetros más capacitables en cada capa, ya que las puertas de memoria necesitan aprender pesos además de los pesos entre y dentro de la capa.

Los RNN se usan ampliamente para predecir a partir de secuencias de audio que ya se han procesado en MFCC o conjuntos de características similares, ya que pueden manejar los datos secuenciados como entrada y/o salida, y esta es una característica deseable cuando se trata de datos de longitud variable como los datos de longitud variable como Palabra hablada, música, etc.

Vale la pena señalar algunas otras cosas:

  • Los RNN pueden funcionar bien para secuencias de datos que son de longitud variable y donde hay una dimensión bien definida sobre la cual evolucionan las secuencias. Pero están menos bien adaptados para conjuntos de características de tamaño variable donde no hay orden o secuencia clara.

  • Los RNN pueden obtener resultados de última generación para el procesamiento de señales, PNL y tareas relacionadas, pero solo cuando hay una gran cantidad de datos de capacitación. Otros modelos más simples, más simples, pueden funcionar igual de bien o mejor si hay menos datos.

  • Para el problema específico de generar MFCC a partir de muestras de audio sin procesar: si bien debería ser posible crear un RNN que predice las características de MFCC desde el audio sin procesar, esto podría requerir algo de esfuerzo y experimentación para acertar, y podría tomar una gran cantidad de poder de procesamiento para hacer Un RNN lo suficientemente potente como para hacer frente a secuencias muy largas a velocidades de muestra de audio normales. Mientras que crear MFCC a partir de audio sin procesar utilizando el enfoque estándar que comienza con FFT será mucho más simple y se garantiza que será preciso.

Licenciado bajo: CC-BY-SA con atribución
scroll top