El músico y los retos interdisciplinarios, hacia una práctica artística expandida

Introducción

La figura del músico del siglo XXI ha dejado de estar confinada al escenario o al estudio de grabación. En un entorno cada vez más complejo, tecnológico y diverso, el ejercicio profesional de la música exige una apertura interdisciplinaria que va más allá del virtuosismo instrumental. El músico contemporáneo no sólo interpreta: investiga, produce, comunica, gestiona, codifica, diseña sonido, reflexiona y construye significados desde múltiples lenguajes. Este artículo explora los principales retos y oportunidades que representa esta expansión de lo musical hacia lo interdisciplinario.

1. De la ejecución a la hibridación de conocimiento

Históricamente, el músico se ha concebido como ejecutante. Sin embargo, los cambios sociales, tecnológicos y educativos han impulsado una transformación del rol tradicional. Hoy se demanda una figura capaz de colaborar con profesionales de áreas como el cine, el teatro, las ciencias cognitivas, la tecnología, la educación, la gestión cultural o el activismo social. La música se vuelve un punto de cruce, un campo abierta donde interactúan discursos, metodologías y sensibilidades distintas.

2. El músico como productor de conocimiento

La profesionalización en contextos académicos ha empujado a muchos músicos a insertarse en espacios de investigación. Ya no basta con saber tocar o componer: se requiere construir marcos conceptuales, generar metodologías, formular preguntas. Este paso hacia lo interdisciplinario implica familiaridad con las ciencias sociales, la filosofía, la tecnología o la pedagogía, entre otras áreas. Es un reto, pero también una oportunidad para hacer de la música una práctica crítica y situada.

3. La tecnología como frontera expandida

Herramientas como los DAWs (digital audio workstations), la síntesis, la programación creativa, el diseño sonoro o la edición audiovisual son ya parte del día a día de muchos músicos. Esto los convierte en usuarios —y muchas veces creadores— de tecnología. El músico interdisciplinario se mueve entre códigos, softwares, plugins y plataformas, integrando saberes técnicos a su sensibilidad artística. Esta capacidad se vuelve crucial para sostener una práctica vigente en la economía creativa actual.

4. Escenarios educativos y currícula flexible

Frente a estos retos, las instituciones educativas enfrentan el desafío de flexibilizar sus planes de estudio. El músico en formación necesita nutrirse de múltiples lenguajes: historia del arte, pensamiento crítico, herramientas digitales, gestión de proyectos, escritura académica, y más. Los enfoques centrados en el aprendizaje basado en proyectos, las colaboraciones entre disciplinas o los seminarios temáticos pueden fortalecer esta formación híbrida.

5. Entre la precariedad y la oportunidad

Asumir un perfil interdisciplinario no está exento de tensiones. La dispersión de tareas, la falta de reconocimiento institucional, la sobrecarga y la dificultad para sostener una carrera estable son realidades comunes. No obstante, también hay oportunidades: el músico que cruza fronteras puede generar nuevas formas de valor, abrir espacios propios, resignificar su práctica. La clave está en hacerlo con conciencia, ética y estrategia.

Conclusión

La interdisciplinariedad no es una moda: es una respuesta genuina a los desafíos contemporáneos de la práctica musical. En un mundo marcado por la complejidad, la colaboración y la interdependencia, el músico que se abre a otros lenguajes, saberes y territorios no renuncia a su identidad: la amplifica. En esa apertura se juega, tal vez, el futuro de la música como forma viva de pensamiento y acción.

¿Puede un músico vivir dignamente en México?

En México, el ingreso mínimo necesario para que una persona viva dignamente en una zona urbana es de $3,542.40 pesos al mes, según la Línea de Bienestar del CONEVAL (2024). Esto incluye lo básico: alimentación, transporte, vivienda, salud y educación. Para una familia de cuatro integrantes, esta cifra asciende a $14,169.60 pesos mensuales. Pero… ¿cómo se comparan estos números con lo que realmente gana un músico profesional en el país?

Spoiler: la mayoría no llega.

El panorama económico del músico en México

La docencia, la producción musical, la gestión cultural, la investigación artística y —en menor proporción— la interpretación en vivo, son las actividades más comunes que sostienen la economía del músico mexicano. En muchos casos, no es una sola actividad la que garantiza el ingreso, sino la combinación de varias —lo que se conoce como pluriactividad.

En encuestas recientes, se ha identificado que un número importante de músicos vive por debajo o apenas en el límite de esa línea de bienestar. Esto se debe a varias razones:

Pagos bajos y esporádicos por presentaciones en vivo. Escasa contratación formal en instituciones culturales o educativas. Falta de derechos laborales, como seguridad social o contratos estables. Dependencia de múltiples fuentes, algunas incluso fuera del ámbito musical (por ejemplo, venta de productos, clases no relacionadas, u oficios alternativos).

Ingresos reales vs ingreso digno

Si bien hay músicos que logran superar la línea de bienestar —sobre todo quienes tienen plazas en universidades, producen música para medios o combinan su quehacer con posgrados e investigación—, la gran mayoría sigue dependiendo de ingresos fragmentados. Un ejemplo frecuente es quien gana entre $5,000 y $10,000 pesos mensuales, trabajando en distintas actividades sin certeza de continuidad.

Eso quiere decir que, para una sola persona, vivir apenas por encima del umbral de bienestar requiere un esfuerzo multidisciplinario. Para mantener una familia, la situación se vuelve aún más compleja.

Entonces, ¿qué se necesita?

Formarse más, sí. Profesionalizarse, también. Pero lo más urgente es visibilizar esta realidad: ser músico en México implica navegar un sistema laboral precario, aunque se tenga talento, estudios y pasión.

Urgen políticas culturales más justas, modelos de apoyo económico reales para artistas y esquemas que reconozcan la contribución del arte a la sociedad. Mientras eso llega, toca resistir… y componer.

Ser Músico en México: Entre el Talento y la Precariedad

Introducción

Ser músico en México es una decisión de vida que exige compromiso, sensibilidad y una profunda vocación. Sin embargo, al comparar las condiciones laborales del músico mexicano con las de colegas en países como Noruega, Suiza, Japón o Estados Unidos, se vuelve evidente que existen desventajas estructurales que impactan directamente en su desarrollo profesional y calidad de vida.

1. Inversión pública y respaldo institucional limitado

En países como Noruega o Suiza, el gasto público en cultura se refleja en apoyos sólidos a la creación artística, orquestas estables, becas de investigación y redes de producción cultural. En contraste, en México el sector cultural suele estar subfinanciado, dependiendo de presupuestos inestables y decisiones políticas volátiles. Esto deja a muchos músicos operando sin redes de apoyo, sosteniéndose con múltiples trabajos o recurriendo a proyectos personales autogestionados.

2. Condiciones laborales frágiles

A diferencia de Japón o Estados Unidos, donde muchos músicos acceden a contratos formales y prestaciones laborales, en México la mayoría trabaja bajo esquemas por honorarios o sin contrato alguno. Las prestaciones sociales son una excepción y no la norma. Esto genera incertidumbre constante, incluso en aquellos que colaboran con instituciones educativas o culturales reconocidas.

3. Reconocimiento académico y oportunidades de formación

En los países antes mencionados, ser músico es una profesión socialmente legitimada, respaldada por programas de posgrado, formación continua y movilidad internacional. En México, aunque existen universidades y conservatorios con programas de calidad, los apoyos para la formación avanzada o la investigación artística son limitados, especialmente fuera de las grandes ciudades.

4. Infraestructura tecnológica y acceso desigual

La producción musical actual requiere acceso a tecnología especializada. Mientras que en otras regiones esto es facilitado por subsidios, residencias o centros de creación, en México son los propios músicos quienes deben invertir en sus equipos, formación técnica y procesos de distribución. Esto genera una brecha entre quienes pueden costearlo y quienes quedan al margen del circuito digital.

5. Protección legal y regalías poco efectivas

La gestión de derechos de autor y el acceso a regalías sigue siendo un reto en México. A pesar de contar con leyes vigentes, su aplicación es irregular y poco transparente. En contraste, países como Japón o Estados Unidos cuentan con sistemas sólidos de monitoreo y compensación, permitiendo que el trabajo artístico genere ingresos sostenibles a largo plazo.

Reflexión final

El músico en México no es menos talentoso, ni menos preparado. Lo que enfrenta es un entorno estructuralmente adverso que exige de él no solo habilidades artísticas, sino también resiliencia, estrategia y versatilidad. Ante esta realidad, es crucial que desde la formación profesional se impulse una visión integral: que contemple no solo la excelencia técnica, sino también la gestión cultural, la docencia, la producción multimedia y el conocimiento de herramientas legales y digitales.

Porque hacer música en México no es rendirse, es insistir en que el arte merece existir con dignidad. Aunque como su amiga aquí abajo vendan elotes, toquen y den clases simultáneamente.

Augmented: Piano Piece and its analysis

The composition started as an experimentation between a C chord and an Eb chord. Both chord are voiced related. They share a common note which is G, the fundamental of Eb is half a step from C‘s third and the fifth in Eb is a step behind the root of C.

The main idea was to walk through these two chords keeping the bass in C which corresponds to the root and sixth in both chords.

From there, the author plays around with a Caug chord. The goal here was to try out the augmented chord different types of modulation. First by taking it’s root half a step down to B. Moving to an E chord. Moving the bass a third down to obaint E’s root note.

Then Caug comes again to modulate to C/Ab by moving its third half a step down. The bass remains in C to keep the voicing movement to a minimum.

Finally Caug changes its augmented fifth half a step down to go to C and subsequently moves half a step up going to Am.

Then comes a second part where the harmony changes between Cma7 and Dma7, again the main note is C changing half a step up to C#. These changes move to a descending chord scale that culminates on Am. This section looks for a jazzy feeling.

A new idea comes to place returning to the Ab key presented a few bars before. This time the tempo changes to Lento. At this time of the piece the idea is to produce the feeling of a ballad. The bass moves by semitones between G and Ab.

Then section varies tempo to allegro bass continues moving by semitones and thirds till is finished in C/Ab.

Another section appears as Andante, basically three notes taken from another piece by the same author. Eb moving alternatively a third and a fourth.

The piece modulates to the key of Gm, it moves in arpeggio with a fourth included. The bass line is also an Gm (sus4) arpeggio varying in duration.

A final cadence takes place within triads with minimum voice movement. At this point the composer was trying to close in C on bar 90, but it was later notes that the key demanded a Gm as the final chord. It doesn’t reach this chord with a typical V-i cadence, it closes form a Cm to Gm. Somewhat reminiscent of a plagal cadence.

The composition takes inspiration form harmonic changes. It is not rhythmically challenging except maybe for the syncopation on the first section. It is worth mentioning that most of the piece was written using an external midi keyboard controller. It reduces the possibilities of execution. Most of the piece was created one hand at a time. It is way much better to improvise with a regular size 5 octave keyboard.

What comes to mind when listening to the piece?

The first part is somewhat funky. An unusual change in harmony in popular music. From there the idea is almost a technical exercise on augmented chord, by exploiting the triad modulation possibilities.

Then comes the jazzy section, it takes into account the major seventh chord, but it gives the piece certain relieve by contrasting with the augmented chord section.

The next section with Ab tries to bring a balladistic atmosphere. This sensation is mantained until it pauses and the Eb section breaks with this idea to introduce the Gm arpeggios which is the final section of the piece.

General Conclusion

The composition evolves nicely into different passages and changes in tempo and modulation to neighbor keys. This sort of suite is worth being explored in the future.

Another idea to pursue is to compose more rhythmically oriented. Trying to develop the player’s technical abilities in the instrument.

Los Arpegios, ¿vuelven memorable una melodía?

En este texto mostramos un análisis de fragmentos melódicos de canciones muy populares en los últimos años.

Se ha visto ya que el uso del arpegio facilita la entonación de una melodía con la voz y además ayuda a fijar en la memoria los intervalos. Probablemente por eso los utilizan los cantantes al vocalizar.

Para analizar la presencia del arpegio en melodías memorables, se eligieron cuatro éxitos comerciales que fueron parte del Top Ten en Europa y Estados Unidos y que al día de hoy siguen siendo relevantes en la cultura popular.

La intención es observar la presencia de arpegios en los fragmentos más “pegadizos” de la canción.

Se acompaña cada canción con una transcripción del fragmento de la melodía que se va a discutir.

Comentarios sobre las canciones

Tema: Young Turks, Artista: Rod Stewart, Año: 1981

Este tema alcanzó el No. 5 en ventas en Reino Unido. Su tipo de instrumentación con sintetizadores, forma parte de la moda en la música popular de la década de los 80. Sin embargo , lo que vuelve memorable el tema es la melodía de su coro.

La frase en el coro tiene un intervalo de tercera menor, en el tercer compás llega a una segunda mayor para descansar nuevamente en la nota inicial de la frase, en este caso un Sol5.

El acorde en esos compases es un Mi bemol mayor Eb. Este es uno de esos casos donde la melodía principal complementa el arpegio de la armonía en cuestión.

Tema: Hey Jude, Artista: The Beatles , Año: 1968

Un tema que no necesita presentación. La canción empieza con una tercera menor descendente. Fragmento del acorde de Fa mayor que tiene lugar en ese compás. Se trata de un complemento de la armonía.

Hey Jude es una canción de forma AB que no lleva un coro. La melodía de los versos es suficientemente memorable, lo atribuimos al intervalo de tercera menor y las notas cercanas en escala. Si inspeccionamos la imagen veremos que están presentes las notas la, do, re y sol. En ese punto de la canción el acorde es Fa mayor por lo que tenemos un Fa con 6a y 9a.

Si esto no fuera poco tenemos una súper coda cuya melodía es básicamente un arpegio con 9a. Lo que algunos llaman: canción para cantar en estadio: Arena Song.

Tema: Walk of Life , Artista: Dire Straits, Año: 1985

La melodía cuya frase hace las veces de coro en este tema de Dire Straits es también un arpegio con 9a, podemos observar esto en la imagen.

Nuevamente son este juego de terceras mayores y menores las que nos facilitan la vida al momento de recordar una melodía. Además el brillante timbre del sintetizador agrega al tema un toque de alegría.

Tema: Blinding Lights, Artista: The Weekend , Año: 2019

Finalmente vamos con algo más actual. Una canción del canadiense The Weekend en colaboración con el compositor Max Martin, quien tiene en su haber muchos éxitos de fines de los 90 hasta nuestros días en el Pop. Bon Jovi, Britney Spears y Katy Perry entres otros, han grabado canciones suyas que frecuentemente están en el top ten.

Blinding Lights no es la excepción, fue un éxito por varias semanas en 2019. Además de su estilo ochentero donde hace uso de sonidos de la época, lleva en el coro nada más y nada menos que un arpegio con 9a.

Conclusiones

Con este análisis de cuatro temas muy reconocidos podemos ver que es, como mencionan algunos autores, más fácil recordar una melodía cuando lleva en ella un arpegio. En estos cuatro ejemplos es común el arpegio mayor y en tres de ellos es un arpegio mayor con 9a.

Habría que indagar si existen datos estadísticos obtenidos de encuestas de opinión en donde un grupo de personas escuche dos fragmentos musicales:

Una melodía formada por arpegios y una segunda melodía carente de ellos.

Posteriormente habría que preguntar a quienes escucharon cuál melodía recuerdan más fácilmente.

Con ello podríamos comprobar si el uso de acordes mayores con 9a son recomendables si se busca crear melodías que se canten por todo mundo en todas partes.

Recursos de audio de tesis doctoral

Se incluyen los archivos de sonido mencionados en la tesis doctoral y en el libro Sistema de Síntesis de Voz en español de México.

fest_diphone_ked.wav

fest_diphone_rab.wav

fest_diphone_esp.wav

sintesis_lpc_after.wav

sintesis_lpc_before.wav

salida_psola.wav

salida_psola_entonacion.wav

td_psola_pruebasonido.wav

fest_clunits_esp.wav

fest_multisyn.wav

Libro: Sistema de Síntesis de Voz en Español de México

El primer libro de autoría de Carlos Franco, el cual resume de manera amplia su trabajo de tesis doctoral.

Se puede descargar una versión pdf aquí:

Franco_Herrera_Escalante_Sistema de Sintesis de Voz en español de Mexico

Síntesis de Voz: Conversión Texto a Fonemas

Se han mencionado ya los diferentes modelos de síntesis de voz. El reto que se enfrenta hoy en el desarrollo de síntesis de voz no es únicamente la forma de emular la voz humana, sino también encontrar un sistema de control eficiente para producirla.

Los tres métodos de síntesis aquí mencionados resultan complicados de manipular, los tres por la misma razón: Los múltiples parámetros que implican modificarse para producir una frase.

Los sistemas de cómputo actuales han facilitado este control multi-parámetro, gracias a la rapidez de los procesadores se han podido programar los diferentes parámetros y ejecutar en fracciones de segundo. Esto desafortunadamente sólo ha solucionado parte del problema ya que los investigadores en tecnologías del habla han descubierto que el lenguaje hablado es mucho más complicado de recrear de lo que parece, no sólo por la emulación de los fonemas sino por la articulación de las palabras.

El método tradicional para generar una frase sintetizada es teniendo la frase que se desea producir como texto a manera de entrada denominado Text-to-speech, desde luego los fonemas (sonido de las palabras) no necesariamente coincide siempre con los grafemas (letras), por esta razón es necesario un proceso previo de interpretación de texto. El proceso consiste en una serie de reglas por lo que se conoce como synthesis by rules.

A continuación, se presenta la explicación de esta etapa en la síntesis de texto tomado de las notas de Herrera (Camacho & Ávila, 2013). Se hará mención de la terminología utilizada en Festival porque fue el sintetizador que se estudió (Taylor, Black, & Caley, 1998; Tokuda, Zen, & Black, 2002) debido a ser uno de los mejores en su clase y que en él están basados los actuales sistemas de síntesis que se estudiaron.

Figura 1 “Diagrama de Texto a Voz”

En la figura 1 se muestra un diagrama de bloques de las varias etapas en un sistema texto a voz concatenado. La entrada del sistema es un texto sin restricciones en forma de una secuencia de caracteres, incluyendo números, abreviaciones y signos de puntuación. La función del normalizador de texto es procesar cualquier carácter no alfabético: los signos de puntuación que se identifiquen se dejarán en su lugar; las abreviaciones serán expandidas a su forma completa; las cantidades se expandirán en sus formas completas también, por ejemplo “£2.75” se convertirá en “dos libras y setenta y cinco centavos”. Esta etapa se conoce en Festival como tokenización. Los programadores de Festival decidieron demoníaca como token al árbol de posibilidades correspondiente a un grafema. Normalmente hay una única posibilidad de token por grafema, sin embargo, en el caso de los números o determinados signos de puntuación, las posibilidades aumentan considerablemente.

La salida del normalizador de texto es texto plano en forma de una secuencia de caracteres alfabéticos y signos de puntuación. Aquí se fonetizan todos los grafemas encontrados, por ejemplo, “casa” se convierte en “kasa”, “queso se vuelve “keso”, “hola” se modifica a “ola”, etc. En festival se denomina como lexicon a los caracteres que denotan la sonoridad del fonema en cuestión. Por ejemplo: “photography” es en lexicon, (((f@)0)((tog)1)((r@f)0)((ii)0))).

El siguiente módulo llamado analizador de sintaxis/prosodia usa un algoritmo de análisis para segmentar el texto de tal forma que se le pueda asignar una entonación y ritmo significativos. Esto normalmente involucra un análisis gramatical, esto es, la identificación de sustantivos, verbos, preposiciones, conjunciones, etc. El módulo asigna marcadores al texto, los cuales indican, por ejemplo, las sílabas acentuadas, los puntos de acentuación tónica en un patrón de entonación y los tipos de patrones de entonación a ser usados en varias partes de la locución.

 Es bien sabido en el campo de la lingüística que los fonemas modifican sus sonidos dependiendo del fonema que lo antecede y del que lo precede. Por esta razón los sistemas de texto a voz necesitan puntos de comparación para saber cuál es la mejor opción de fonema a sintetizar. De ahí la importancia de dotar al sistema de una base de datos o corpus que contenga diferentes opciones de fonemas. Dentro de la base de datos, cada fonema viene etiquetado con su probabilidad de ocurrencia.

La forma de calcular la probabilidad máxima de ocurrencia se hace mediante la resolución de árboles determinísticos. Normalmente los pasos a seguir son los siguientes:

  • Pre-procesar el lexicon en texto funcional a un sistema de entrenamiento
  • Definir un conjunto de equivalencias pares grafema-fonema
  • Construir las posibilidades de cada par grafema-fonema
  • Construir modelos CART para predicción de fonemas desde grafemas
  • Ir obteniendo los difonemas correspondientes y concatenándolos uno tras otro.

Se denomina CART (Clasiffication and Regression Tree) al sistema probabilístico de extracción de datos que se aplica en este proceso de selección. Un ejemplo del árbol de clasificación y regreso aplicado a Festival es el siguiente:

  • Se tiene como texto de entrada la palabra Queso, la cual se fonetiza como /K//E//s//o/.
  • Se revisa cada token (grafema) de forma individual y se hace una pregunta, es decir: Fonema /k/ ¿viene consonante o vocal? Respuesta: Vocal. ¿Esta vocal es débil o fuerte? Respuesta: Débil. ¿La siguiente letra es consonante o vocal? Respuesta: Consonante.
  • El sistema determina un 80% de probabilidad que el siguiente fonema sea /E/

La figura ilustra el árbol determinístico:

Figura 3. “Funcionamiento de CART”

Las iteraciones necesarias se realizan hasta completar el texto presentado como entrada. Al tiempo que el programa va concatenando los diferentes difonemas que forman parte del corpus. En su esquema más básico, el programa es limitado en cuanto a modificaciones en la prosodia del texto sintetizado.

2. Selección de unidades

Anteriormente expuesto en este documento, se tiene ya mencionado que en la síntesis concatenativa se parte de fragmentos de voz previamente grabados por un profesional. A partir de estos fragmentos de voz es como se van a reconstruir diferentes palabras.

Se denomina síntesis de voz por unidades (Dutoit, 2008) a aquel tipo de síntesis, donde las frases sintetizadas son logradas a través de la concatenación de palabras completas extraídas de una base de datos -llamada también corpus- de frases pre-grabadas. A últimos años, los especialistas en síntesis de voz prefieren utilizar este sistema de selección unidades sobre otros, como el de fonemas o difonemas, ya que al trabajar con palabras o frases completas es posible mantener una mejor inteligibilidad y naturalidad en cada frase. Las distintas unidades de voz tienen un sistema de etiquetado el cual permite después ubicarlas como vectores de observación (Tokuda, Yoshimura, & Masuko, 2000; Tokuda et al., 2002) que son estados dentro del sistema de selección por modelos ocultos de Markov (HMM) -del que se hablará más adelante en el texto-. Otra manera de hacer la selección de unidades es por medio de un algoritmo estadístico de conjuntos de unidades con elementos comunes, de aquí se desprenden dos métodos propuestos por Alan Black: Clustering (Black & Taylor, 1997) y CLUSTERGEN (Black, 2006). Ambos métodos son la base de selección del conocido sistema de síntesis de voz FESTIVAL, desarrollado en conjunto por CMU y la Universidad de Edinburgo. Ejemplos de sonido de este sistema se puede escuchar en los audios:

Con el paso del tiempo, la selección de unidades utilizando HMM ha demostrado ser mucho más eficiente que los métodos basados en clusters por lo que incluso FESTIVAL la ha adoptado. Por esta razón no se hablará con detalle en el texto de los sistemas Clustering y CLUSTERGEN.

Referencias

Black, A. (2006). CLUSTERGEN: a statistical parametric synthesizer using trajectory modeling. INTERSPEECH. Retrieved from http://www.scs.cmu.edu/afs/cs.cmu.edu/Web/People/awb/papers/is2006/IS061394.PDF

Black, A., & Taylor, P. (1997). Automatically clustering similar units for unit selection in speech synthesis. Retrieved from https://www.era.lib.ed.ac.uk/handle/1842/1236

Camacho, A. H., & Ávila, F. D. R. (2013). Development of a Mexican Spanish Synthetic Voice Using Synthesizer Modules of Festival Speech and HTSStraight. International Journal of Computer and Electrical Engineering, 36–39. https://doi.org/10.7763/IJCEE.2013.V5.657

Dutoit, T. (2008). Corpus-Based Speech Synthesis. In Springer Handbook of Speech Processing (pp. 437–456). Berlin, Heidelberg: Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-540-49127-9_21

Taylor, P., Black, A., & Caley, R. (1998). The architecture of the Festival speech synthesis system. Retrieved from https://www.era.lib.ed.ac.uk/handle/1842/1032

Tokuda, K., Yoshimura, T., & Masuko, T. (2000). Speech parameter generation algorithms for HMM-based speech synthesis. , Speech, and Signal …. Retrieved from http://ieeexplore.ieee.org/abstract/document/861820/

Tokuda, K., Zen, H., & Black, A. (2002). An HMM-based speech synthesis system applied to English. IEEE Speech Synthesis Workshop. Retrieved from http://www.scs.cmu.edu/afs/cs.cmu.edu/Web/People/awb/papers/IEEE2002/hmmenglish.pdf

Black, A. (2006). CLUSTERGEN: a statistical parametric synthesizer using trajectory modeling. INTERSPEECH. Retrieved from http://www.scs.cmu.edu/afs/cs.cmu.edu/Web/People/awb/papers/is2006/IS061394.PDF

Black, A., & Taylor, P. (1997). Automatically clustering similar units for unit selection in speech synthesis. Retrieved from https://www.era.lib.ed.ac.uk/handle/1842/1236

Camacho, A. H., & Ávila, F. D. R. (2013). Development of a Mexican Spanish Synthetic Voice Using Synthesizer Modules of Festival Speech and HTSStraight. International Journal of Computer and Electrical Engineering, 36–39. https://doi.org/10.7763/IJCEE.2013.V5.657

Dutoit, T. (2008). Corpus-Based Speech Synthesis. In Springer Handbook of Speech Processing (pp. 437–456). Berlin, Heidelberg: Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-540-49127-9_21

Taylor, P., Black, A., & Caley, R. (1998). The architecture of the Festival speech synthesis system. Retrieved from https://www.era.lib.ed.ac.uk/handle/1842/1032

Tokuda, K., Yoshimura, T., & Masuko, T. (2000). Speech parameter generation algorithms for HMM-based speech synthesis. , Speech, and Signal …. Retrieved from http://ieeexplore.ieee.org/abstract/document/861820/

Tokuda, K., Zen, H., & Black, A. (2002). An HMM-based speech synthesis system applied to English. IEEE Speech Synthesis Workshop. Retrieved from http://www.scs.cmu.edu/afs/cs.cmu.edu/Web/People/awb/papers/IEEE2002/hmmenglish.pdf

Mel Frequency Cepstral Coefficients MFCC

Los coeficientes obtenidos a partir de un proceso de filtrado conocido como Mel-Cepstral, son un conjunto de valores numéricos que resumen la información básica de las características que constituyen una señal de voz (Holmes & Holmes, 2001). El procedimiento para obtenerlos está basado en dos conceptos: El rango de frecuencias Mel y la separación de frecuencias por medio de Cepstrum.

El rango de frecuencias Mel está basado en la reducción de frecuencias de la señal de voz teniendo como referencia el rango auditivo humano, es decir, aquellas frecuencias que se pueden percibir más fácilmente. Por otro lado, Cepstrum es un concepto matemático que separa de la señal de voz en dos bandas de frecuencias baja y alta. La baja corresponde a los formantes de los fonemas producidos debido a las cavidades del tracto vocal y la banda alta es relativa a la excitación en las cuerdas vocales. Esta última es una señal periódica muy particular a los distintos fonemas independientemente de las variaciones en el tracto vocal.

El algoritmo de MFCC se puede resumir de acuerdo al diagrama siguiente:

Ahora bien, en cada una de las ventanas se aplica un conjunto de filtros pasabanda cuyo número varía de acuerdo a la precisión deseada. Al resultado de la señal filtrada en cada uno de los filtros es después una función logarítmica. Es a nueva señal de acuerdo al concepto de Cepstrum es necesario volver a aplicar una FFT la cual, debido a su simetría, se obtiene mediante una transformada coseno discreta.

Alogoritmo detallado

A continuación, hacemos una descripción a detalle de la obtención de los coeficientes MFCC. La figura 1 muestra el sistema en esquema.

Figura 1. “Esquema General de MFCC”
  1. Se hace pre-énfasis a la señal de voz, es decir se amplifican las altas frecuencias para facilitar el cálculo de las formantes con amplio contenido en el espectro alto.
  2. Se aplica una ventana Hamming para obtener la frecuencia promedio en diferentes tramas o Generalmente se aplica una ventana de 20 ms a intervalos de 10 ms.
  3. Se obtiene la DFT de cada frame.
  4. Se aplica un banco de filtros a cada frame. De acuerdo con Davis y Mermelstein (Davis & Mermelstein, 1978) los filtros se distribuyen de manera no lineal de acuerdo a la escala Mel. Normalmente se utilizan 20 filtros. Los primeros 10 están linealmente distribuidos y los siguientes 10 crecen en forma logarítmica.
  5. Se aplica la transformada Coseno Discrete, la cual es una variante de la FFT a la salida de cada filtro. Normalmente se obtienen de 10 a 12 coeficientes MFCC, pero el número es modificable por el usuario.

Los MFCC son una manera compacta de almacenar sonido. No son otra cosa más que números que revelan las diferentes amplitudes de la señal, pero no tienen en sí mismos energía acústica codificada.

Si se van a utilizar para hacer síntesis, hacen la función de un filtro a través del cual pasa una fuente sonora dual que emite una señal sinusoidal para sonidos vocales y una señal de ruido blanco para sonidos sordos.

Referencias

Davis, S., & Mermelstein, P. (1978). Evaluation of acoustic parameters for monosyllabic word identification. The Journal of the Acoustical Society of. Retrieved from http://asa.scitation.org/doi/abs/10.1121/1.2004059

Holmes, J. N., & Holmes, W. (Wendy J. . (2001). Speech synthesis and recognition. Taylor & Francis.

Procesamiento de Voz Usando TD-PSOLA y MBROLA

Se ha visto que modificar duración y tono en una señal de voz (prosodia) no son operaciones triviales.  De manera intuitiva, el lector podría pensar que, modificaciones a tono y duración se consiguen interpolando muestras y re-muestreando la señal. Los resultados de realizar tal proceso equivalen a aquellos observados cuando se modifica la velocidad de reproducción de una cinta de audio analógica, es decir: el tono sube o baja de manera exagerada. Se han buscado alternativas para resolver éste problema, uno de los más eficientes ha sido el procesamiento de la señal mediante un algoritmo conocido como TD-PSOLA (Stylianou, 2008).

Time Domain Pitch Synchronous Overlap Add (Fragmentación y traslape de la señal sincronizada en tono en dominio del tiempo). Tal cual su nombre lo indica, el algoritmo tiene la siguiente estructura:

  1. Se analizan los distintos periodos en la señal de voz y se colocan indicadores (pitch marks)
  2. Hacer un ventaneo (fragmentación de la señal) con una cierta duración.
  3. Identificación de la frecuencia fundamental F0 en cada uno de los segmentos contenidos en las ventanas.
  4. Si se desea aumentar la duración, se repiten ciertos segmentos para aumentar el periodo. Si por el contrario la intención es volverla más corta, se eliminan algunos segmentos.
  5. Si se desea cambiar el tono se reacomodan las ventanas con modificaciones de la duración entre una y otra, dependiendo si se quiere aumentar o disminuir la frecuencia.
  6. Finalmente se suman las ventanas resultantes para realizar la síntesis

En el enlace abajo se muestran ejemplos de síntesis usando TD-PSOLA, la primera y segunda frase muestran sonido sintetizado a partir de texto. La diferencia entre ambas es la entonación que fue modificada de forma artificial. El tercer audio muestra una señal de voz grabada sin modificaciones y la cuarta es ésta misma señal con modificaciones en tono y duración.

 

A continuación, presentamos los detalles del algoritmo arriba mencionado:

Se tiene una señal de voz como se ve en la figura 1.

Figura 1 “Señal de voz”

En esta señal es necesario hacer una detección de las partes periódicas de la misma, para ello hay varios métodos. Aquí describimos el procedimiento propuesto por Goncharoff  (Goncharoff & Gries, 1998). En primer lugar, se buscan secuencias numéricas que se incrementen y decrementen con cierta regularidad. Una vez hallados estos periodos se identifican mediante marcas de tono o pitch marks. Posteriormente se separa la señal en tramas o frames, cada frame tiene una duración de dos periodos. La ventaja de tener éstas ventanas como unidades aisladas es que podemos combinarlas teniendo sus puntos centrales en la frecuencia principal. Luego se traslapan unas con otras y se tiene una reconstrucción de la señal original. La figura 2 muestra un diagrama de la misma.

Figura 2 “(1) Detección de pitch marks. (2) Aplicación de ventanas Hanning. (3) Separación en frames. (4) Reconstrucción de la señal original.

Se recomienda la ventana de dos periodos para facilitar la reconstrucción de la onda en el momento del traslape, así como se ilustra en la figura 3.

Figura 3 “Traslape de segmentos”

  2. Modificaciones de tono y duración.

Precisamente la ventaja de hacer ésta separación de la señal en tramas es lo que nos permite hacer modificaciones en duración y tono. Para modificar la duración es necesario duplicar algunas de las tramas. Por su parte si se busca un acortamiento de la duración de la señal, algunas de las tramas deben ser eliminadas. La figura 4 ilustra éste concepto.

La modificación del tono se logra mediante la recombinación de las tramas. En éste caso es necesario modificar la duración de las pitch marks. Vale la pena mencionar un ejemplo para ilustrar éste concepto:

  • Se tiene un segmento de voz con un tono de 100 Hz (10 ms entre cada pitch mark)
  • Se realiza el ventaneo de Hanning
  • Sí se colocan las ventanas a una distancia de 9 ms y luego se hace la suma-traslape, se obtendrá ahora un tono de 111 Hz.

Figura 4 “Traslape para modificar tono”

Para el caso de la modificación del tono, es necesario alterar la duración de los periodos entre las pitch marks. La consecuencia de esto puede ser la obtención de una señal más corta en el tiempo. Por ésta razón, a veces es necesario duplicar algunos frames en afán de preservar la duración original de la señal.

Detallaremos ésta explicación con un ejemplo:

  • Se tiene un tono de 100Hz ventaneado con 5 frames cada uno con una separación de 10 ms. Es decir, hay una duración total de (5-1) *10 ms= 40ms entre la primera y la última pitch mark.
  • Si deseamos cambiar el tono a 150 Hz es necesario poner la distancia de las pitch marks a 6.6 ms, el probema es que ahora nuestra duración total es de (5-1) *6.6ms= 26 ms.
  • Para preservar la duración original, tenemos que duplicar dos frames, de ésta forma volvemos a nuestra duración de 40 ms (7-1) * 6.6 ms =40 ms.
  1. Detalle de la manipulación de las pitch marks

Como se puede apreciar en las secciones anteriores la base del método TD PSOLA, el elemento crítico son las pitch marks . Se ha dicho que es necesario modificarlas para ejecutar los cambios de duración y tono.

Se mencionó que las pitch marks se hallan mediante un algoritmo de detección. Dichas marcas se pueden representar como una secuencia de análisis Ta= {ta1, ta2,…,taM}, el periodo local entre dos de éstas marcas se define como:

Que no es más que un valor medio entre la pitch mark inicial y la pitch mark final. De éste punto, se hace un ventaneo de la señal para separar en frames, éste se define como:

De aquí es necesario crear una secuencia de síntesis de las pitch marks que depende de la duración y cambio en el tono deseados Ts= {tS1, tS2,…,tSM}, la relación de ésta secuencia de síntesis con la de análisis está relacionada por una función M[i] que especifica cuáles frames de análisis deberán corresponder en la síntesis. Ésta función es una suerte de línea de tiempo virtual entre sínteis y análisis, tal como se ve en la figura 5.

Figura 5 “línea de virtual tiempo de pitch marks entre análisis y síntesis”

Multi-Band Resynthesis Overlap Add (MBROLA)

Se habló en párrafos anteriores acerca de dos tareas principales a resolver en la síntesis concatenativa, la primera tiene que ver con la modificación de la prosodia y la segunda con hacer una transición sutil entre fonemas.

El que la transición no sea sutil tiene que ver con una unión incorrecta entre fonemas, la cual puede ser de tres tipos:

Mala unión de Fase (Phase Mismatch): Este tipo de problemas ocurren cuando las formas de onda no están centradas en las mismas posiciones relativas dentro del periodo de tiempo en que se encuentran.

Mala unión de Tono (Pitch Mismatch): Sucede cuando ambos segmentos tienen la misma envolvente espectral pero fueron pronunciados con diferentes tonos.

Mala unión de Envolvente de Espectro (Spectral Envelope Mismatch): Esta falla resulta cuando las unidades fonéticas fueron extraídas de contextos diferentes entre sí. La discontinuidad ocurre sólo en un período.

Ante estos problemas de unión, Dutoit y Leich (Dutoit & Leich, 1993)proponen una solución conocida como MBROLA. Este algoritmo deriva directamente del TD-PSOLA, de hecho es muy semejante. La diferencia radica en que no se hace un análisis individual de las ventanas. Ni son necesarias las pitch marks.

Como lo muestra el diagrama, el sistema toma como referencia un difonema procedente de un corpus. El primer paso es diferenciar si es vocal o sordo. Si se trata de un sonido vocal, entonces se separa y se hace un análisis de bandas del mismo. El análisis se lleva a cabo mediante un sintetizador armónico que se encarga de calcular nuevas amplitudes y fases con características regulares. Estos difonemas resintetizados son después concatenados utilizando el método Overlap Add OLA.

Figura 6 “Esquema de MBROLA”

Dado que objetivo de MBROLA es hacer las formas de onda lo más semejantes entre sí. Es esencial el reajuste de fases del que se habló anteriormente y se explicará a continuación con mayor detalle. El ajuste de las ondas se hace en los bordes de la última parte del primer segmento y de la primera parte del segundo segmento. El último borde y el subsiguiente se denotan como SlN  y Sr0 respectivamente y los ajustes a los mismos se definen como ML y MR los cuales se obtienen de las siguientes fórmulas:

Para i=0…ML-1 y j=0…MR-1

Para la solución de la mala unión de la envolvente de espectro se usa el algoritmo propuesto por Charpentier y Moulines (Moulines & Charpentier, 1990) el cual consiste en la interpolación de los periodos vocales de tono regular (voiced pitch periods).

Referencias

Dutoit, T., & Leich, H. (1993). MBR-PSOLA: Text-to-speech synthesis based on an MBE re-synthesis of the segments database. Speech Communication. Retrieved from http://www.sciencedirect.com/science/article/pii/016763939390042J

Goncharoff, V., & Gries, P. (1998). An algorithm for accurately marking pitch pulses in speech signals. Proc. of the SIP’98. Retrieved from

Moulines, E., & Charpentier, F. (1990). Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones. Speech Communication. Retrieved from http://www.sciencedirect.com/science/article/pii/016763939090021Z

Stylianou, Y. (2008). Voice Transformation. In Springer Handbook of Speech Processing (pp. 489–504). Berlin, Heidelberg: Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-540-49127-9_24