Resting On The Boulevard

Resting On the Boulevard

Album Notes

Thank you for letting yourselves in, mi casa es su casa, the bar is open for all, leave your bikes outside.

Production and performance of all tracks by Carlos Franco except where indicated.

A brief description of the menu:.

Casi Me Levanto 
This song was specifically written to be the Opening Title. The lyrics were inspired by comments people posted on the authors wall after watching video that played the song verse. The intention behind the song is to bring some good vibes to the listener.

Let Me Roll it
A classic McCartney tune. I decided to put it together with the chorus of Oh Darling since but songs are similar in style and feeling. It sounds a bit like a demo but I like to be indulgent with myself when giving a go at the drums.

Just a Pawn
This is one of those retrospective song when turning 40. It’s based on reflections of TV commercials from the 80’s to our days. Compra Alcohol y Shampoo remains a marketing phrase. Apparently toxic beverages and beauty products are one of society’s favorite escapes. Two invited Bassman helped me out with this song. Flavio Guzmán and Joel Quintero, both melodic in different and fantastic ways. A challenging task picking up which parts of which player should be on the final take. I hope I chose wisely.
Credits: Flavio Guzmán and Joel Quintero on bass.

Aprender a Amar
A song written and sang by Omar Garcia, a great cinematographer with whom I formed my first band back in my teenage years. The song began a ballad but after some discussions became a ska number. I basically sat in the producer’s chair and helped Omar in recording his first song after nearly 25 years.
Credits: Omar Garcia on vocals.

Angels
This song is some kind of tribute to late David Bowie, a mystic guitar atmosphere was built around the melody which speaks about demons and angels playing together. I thinks is intended to reflect the eternal antagonism that in the end forms part of the same. Masculine-Feminine, Black-White, etc.

Lost Stars
A rendition to Adam Levine’s hit with young Mexican talent Paola Romero on vocals. As somebody once said: “A ballad or two have to be part of an album”. This time a motion picture song took place.
Credits: Paola Romero sings most of the song.

Parece que Va a Llover
Being a motorcycle lover, I decided to pay some tribute to one of the most famous motorcycle scenes in Mexican cinema. Pedro Infante and Luis Aguilar sang this Cuban song while riding their bikes in their transit cops roles. This time I wanted Parece que Va a Llover with a rock pop taste.

No Matter What you Are
I have always been a fan of the unlucky Badfinger. This is my favorite tune, I added some changes to the verses and of course invited two bassist that play in different parts of the song: Alejandro Lozano and again Joel Quintero. Exciting teenage flavored song to sing vocals thinking about younger days.
Credits: Alejandro Lozano and Joel Quintero on bass.

Tempestad
This song was born out of a jam session with guitarist Roberto Gutierrez. I took the melodic parts of it and added lyrics, I wanted it to sound a bit like the Doors with a catchy chorus. The guitars played different roles on the song, one of them with chorus and the other one with heavy overdrive.
Credits: Roberto Gutierrez, chorus and overdriven guitars.

Other Life
A lyrics based on a romantic story of lovers never meant to be but feeling happy about it. I was looking once again to write a sixties pop ballad.

With Joy
I wanted this album to close with strength, I pictured some bikers driving in the rain when I decided to write it. The lead guitar had to be played by a biker/rocker whom is no other but Lain “Demonart” Vargas, pay attention to the soaring guitars along the verses.
Credits: Lead Guitar by Lain Vargas.

Lo que hice en últimos meses

Pareciera que no hice absolutamente nada en términos musicales durante marzo y abril pero no es así. Estoy por terminar un álbum (el de rock tradicional), donde han colaborado varios músicos amigos míos. Les adelantó que llevará 10 temas, justo dos de ellos están en proceso de recibir su respectiva colaboración. Así que de eso hablaremos en otra entrada, donde estaré compartiendo el álbum.

Estuve además tomando la primera parte de un diplomado en composición, es música académica y fue impartido por el músico panameño Emiliano Pardo-Tristan. La experiencia de aprendizaje es buena porque me acerca a nuevas maneras de encarar la música al momento de componer.

La otra actividad relevante fue una aparición de Eslabon en el programa VCN de TV por Internet conducido por Victor Cabrera y Vanessa Amador, del cual comparto el enlace abajo:

https://www.facebook.com/VCNTuCanal/videos/2053854631607118/

Si desean escuchar directamente la música aquí están los tiempos en donde aparecemos en el videoclip:

16.10 <<la última vez>>

38.00 <<cuento de hadas>>

55.15 <<solamente dime>>

1.00.30 entrevista

1.07.15 <<cada vez que veas la luna>>

Estuvo interesante, tuve oportunidad de tocar guitarra en los temas. Me doy cuenta de los lindos arreglos que fueron contribución de Ramón Durañona en su versión original. Marcó además un regreso de Eslabon a los escenarios porque habíamos estado un poco ausentes en últimos meses.

Estamos pendientes para lo que sigue…

El primer bimestre musical de 2018

El inicio de año como ocurre normalmente es lento en cuanto a las presentaciones en vivo, sin embargo no lo es en el trabajo creativo. Hubo oportunidad de producir un par de canciones, una para un gran amigo, Omar García. Con quien por cierto tuve mi primer banda de Rock cuando teníamos unos 15 años. He aquí el resultado:

El segundo trabajo de producción fue para invitar a Pao Romero, una joven cantante poblana del ámbito operístico a probar suerte en el rock-pop. Hicimos el cover de de Lost Stars original de Adam Levine:

Dentro del trabajo creativo, viene un EP en donde un servidor hará una visita al mundo del hard rock country de bares redneck y sus imitaciones mexicanas. De ello hablaremos en otro blog.

Quisiera cerrar éste haciendo notar el trabajo que se hizo en febrero el cual resultó en un concierto conferencia llamado: Cuuatro Bajistas, Cuatro Vidas. En él participaron Joel Quintero, David “Gringa” Carrera y Charles Gnomosky. Todos ellos forman o formaron parte del laboratorio de Alonso Arreola y de ahí que guarden una relación especial con la música y con su arma de cuatro cuerdas.

Ya tenemos afortunadamente más cosas que aparecerán en próximos meses, lo cual me llena de gusto. Si algún día la memoria me falla, al menos tendré éste blog para recordar esa es la razón por la cual me tomo la molestia de documentar mi trabajo musical.

November and December 2017

Aquí seguimos con esa necesidad de seguir documentando las actividades musicales de Franco. Esto se hace como refuerzo a la memoria pero también para tener una visión global del trabajo musical.

Mis trabajos musicales como acompañante de las bajas frecuencias en el mes de noviembre fueron dos: Orquesta de Jazz de la BUAP y con el guitarrista Héctor Vudoyra.

Con la Orquesta de Jazz hubo dos conciertos en la universidad, uno en la facultad de Derecho y otro en la nueva sede de la escuela de música en la 10 oriente. En ambos ya se integró el alumno Iñaki Manjarrez como bajista oficial y un servidor se queda como suplente.

El repertorio de la orquesta es muy divertido pero para hacerse bien implica mayor compromiso con el ensayo y la ejecución. No cuento ahora con el tiempo y la energía para dar lo mejor de mi en ese proyecto y no quisiera fallar ni al director ni a los compañeros músicos que ahí trabajan. Por otro lado ese proyecto es un excelente trampolín en la formación de jóvenes músicos y deben ser ellos quienes lo aprovechen. Gracias querido Gil Gallardo por la oportunidad que me diste de contribuir a esa orquesta, seguiremos haciendo música en otros ámbitos.

Con Héctor cerramos el mes de noviembre, haciendo standards de jazz que pudieran ser las semillas de un proyecto musical liderado por él. Fue interesante el proceso de creación de ésta interpretación del Blue Bossa. Definitivamente concentrar sesiones de ensayo a un sólo tema permite profundizar en el detalle del mismo. Abajo mostramos el video de los resultados.

El mes de diciembre fue enteramente de Eslabón. Un Eslabón distinto al de Ahora o Nunca. Un Eslabón que ésta vez tuvo oportunidad de explotar su fase interpretativa de rock clásico en un evento privado. La iniciativa propuesta por Marco Quintana nos llevó junto con Víctor Illarramendi y el joven guitarrista de la banda tributo Twist and Shout, Juan José Poblano a llevarlas notas de The Beatles, Rolling Stones, Creedence y The Doors a dos eventos festivos. La comida de fin de año de colegas maestros de la Facultad de Artes y una boda en Telochoc, Tlaxcala donde fuimos contratados por una ex alumna de la misma.

Eslabón tiene esa cualidad que puede también ser explotada comercialmente, por mi parte queda abierta la puerta a hacer éste tipo de shows de rock clásico con fines de convivencia de grandes amigos músicos y oportunidad de negocio.

Finalmente el día 19 de diciembre, el convivio de fin de año de los alumnos de LabA del musicazo Alonso Arreola marcó para mi un cierre de ciclo de aprendizaje de vida y de música. Aproximadamente 80 horas repartidas en cinco años, marcaron de manera definitiva mi formación como músico.

Además de las técnicas de ejecución como tapping y slap, amplié mis conocimientos de armonía y rímtica los cuales han significado grandes cambios en mi forma de componer. Esto sin mencionar las conversaciones de vida que representaban esos 90 minutos con Arreola.

¡Gracias Alonso por todas esas enseñanzas!

Por lo que viene a éste 2018 que empieza, creo que es importante concentrarse en un sólo proyecto musical para no tratar de abarcar demasiado, habrá que pensar un plan para integrar los proyectos existentes.

La importancia de seguir haciendo covers

Hay por ahí un considerable número de amigos músicos que se pronuncian en contra de hacer covers o de llevar a cabo tributos a (ponga el nombre de su banda favorita de últimos 50 años) porque argumentan que bloquean al público para escuchar nuevas propuestas.

No concuerdo del todo con tal argumento, el cover no es sólo para “jalar gente”. El cover es también una manera de aprendizaje como músico. A mi punto de vista el cover te permite hacer un análisis musical para reconocer las técnicas de composición y ejecución que utiliza el artista que grabó originalmente el tema.

Ahora bien, mi postura va más hacia hacer una rendición artística hacia la composición. Ese es para mí el cover, no hacer una imitación del trabajo d los grandes. El riesgo de fracasar haciendo este segundo intento es grande, a reserva que seas un grupo imitador que guste de presentarse en cruceros y casinos.

El cover por otro lado puede ser el aperitivo que le das al escucha para invitarlo a probar tu plato fuerte. Hay público que prefiere caminar sobre rumbos conocidos antes de aventurarse a conocer nuevos lugares, esa es una segunda razón para hacer un cover.

Por último debo agregar que la canción que se elija para hacer un tributo debe ser fiel a nuestra identidad como artistas, es decir, que sea un tema que disfrutemos tanto de escuchar una y otra vez que lo tengamos en la punta de la lengua. No vale la pena acercarse a géneros musicales ajenos con un afán de expandirse a otros públicos. Ese error déjenlo para las casas disqueras grandes.

Me despido dejando una muestra de un reciente cover que hice al destacado compositor argentino Fito Páez. Déjenme sus comentarios.

Agosto de 2017

Es notable lo largo de los meses julio y agosto. Por un lado los 31 días de ambos y por otro las dos semanas de vacaciones (de las cuales soy privilegiado de gozar). En éste mes brincaron jazz y rock. Jazz con los amigos Orlando Flores (Sax) y Uriel Bertardo (guitarra). Con ambos ambientamos un brindis de graduación de posgrado en Puebla el 12 de agosto.

IMG_6934.JPG

Después el día 23 de agosto hicimos jazz en la BUAP con José Luis Guevara al piano, Lalo Herrera al Sax y el señor José Caudillo en la batería. Con su servidor al bajo dese luego.

img_7235.jpg

Mucho se dice acerca de lo “difícil” que resulta escuchar jazz. La verdad de las cosas es que con estos dos eventos, me doy cuenta que depende mucho de la actitud del músico que interpreta éste género.  Si se permite una interpretación clara de la melodía y la armonía del tema, es mucho más fácil entender la improvisación.

Finalmente y hablando de actitud, hubo muy buena actitud de parte de los músicos que acompañamos al dueto Ohm en el Teatro de la Ciudad el día 25 de agosto. Power of Woods es el  nombre de su disco, y se tocaron temas de éste y su anterior disco. La alineación fueron French y Karla del Dueto Ohm en guitarras y voces, Luis Hernández en el Sax y Sergio Corzas en guitarra solista. En bajo y batería estuvimos Vic Illarramendi y un servidor.

IMG_7277.JPG

Ésta tocada con Ohm marca la culminación de un trabajo que habíamos estado haciendo con el dueto desde 2015. Éste pasado 25 la banda sonó mucho más sólida, pocos o casi nulos errores técnicos y buena actitud y entrega en el escenario dejaron en la gente la gratificación de haber escuchado una gran banda. Ya veremos qué Rock nos espera en septiembre. Por lo pronto habré de seguir con el material académico que servirá de conclusión a los estudios de doctorado.

saludos

Activadades de Junio y Julio ’17

Han habido pocas. La verdad es que estoy preparando por ahí un nuevo ensamble musical, lo único que en éste momento diré es que en el repertorio se incluye éste arreglo a Luis Arcaráz de Bonita:

Por otro lado les comparto éste otro arreglo a guitarra y voz de la rola de Van Morrison Brown Eyed Girl. Un tema muy conocido pero que se llega a escuchar poco en vivo.

Hasta aquí es lo que dejamos, el verano está siendo invertido en ensayos para éste proyecto que pronto verá la luz.

Actividades musicales de marzo, abril y mayo

No podía dejar sin documentar mis actividades musicales de este último bimestre. Mi chamba de académico me tuvo absorto 

pero aún así me di el tiempo para grabar y publicar en redes la rola de Leap Up. De hecho hay también una versión previa en acústico que aquí les dejo:

Fue un gozo el haber escrito y grabado ese tema. Aparte de él, tenemos en reserva un tema instrumental titulado A Random Thankfulness y lo publicaremos en redes en julio. La composición de ese tema como su nombre lo dice fue con base en un proceso aleatorio que ya describiremos en su momento.

La segunda actividad musical fue mi participación al bajo en el proyecto Hidra, de Ugon Alverde. En esta ocasión, se le encargó a Hidra la tarea de proveer un acompañamiento de Rock a un ensamble de Gaitas del Parque España, Puebla.

La experiencia fue interesante, lástima que el sistema de monitoreo no fuera óptimo. Afortunadamente destacó la buena voluntad de los músicos sobre el escenario del Teatro de la Ciudad aquí en Puebla, Pue.

Procesamiento de Voz Usando TD-PSOLA y MBROLA

Se ha visto que modificar duración y tono en una señal de voz (prosodia) no son operaciones triviales.  De manera intuitiva, el lector podría pensar que, modificaciones a tono y duración se consiguen interpolando muestras y re-muestreando la señal. Los resultados de realizar tal proceso equivalen a aquellos observados cuando se modifica la velocidad de reproducción de una cinta de audio analógica, es decir: el tono sube o baja de manera exagerada. Se han buscado alternativas para resolver éste problema, uno de los más eficientes ha sido el procesamiento de la señal mediante un algoritmo conocido como TD-PSOLA (Stylianou, 2008).

Time Domain Pitch Synchronous Overlap Add (Fragmentación y traslape de la señal sincronizada en tono en dominio del tiempo). Tal cual su nombre lo indica, el algoritmo tiene la siguiente estructura:

  1. Se analizan los distintos periodos en la señal de voz y se colocan indicadores (pitch marks)
  2. Hacer un ventaneo (fragmentación de la señal) con una cierta duración.
  3. Identificación de la frecuencia fundamental F0 en cada uno de los segmentos contenidos en las ventanas.
  4. Si se desea aumentar la duración, se repiten ciertos segmentos para aumentar el periodo. Si por el contrario la intención es volverla más corta, se eliminan algunos segmentos.
  5. Si se desea cambiar el tono se reacomodan las ventanas con modificaciones de la duración entre una y otra, dependiendo si se quiere aumentar o disminuir la frecuencia.
  6. Finalmente se suman las ventanas resultantes para realizar la síntesis

En el enlace abajo se muestran ejemplos de síntesis usando TD-PSOLA, la primera y segunda frase muestran sonido sintetizado a partir de texto. La diferencia entre ambas es la entonación que fue modificada de forma artificial. El tercer audio muestra una señal de voz grabada sin modificaciones y la cuarta es ésta misma señal con modificaciones en tono y duración.

 

A continuación, presentamos los detalles del algoritmo arriba mencionado:

Se tiene una señal de voz como se ve en la figura 1.

Figura 1 “Señal de voz”

En esta señal es necesario hacer una detección de las partes periódicas de la misma, para ello hay varios métodos. Aquí describimos el procedimiento propuesto por Goncharoff  (Goncharoff & Gries, 1998). En primer lugar, se buscan secuencias numéricas que se incrementen y decrementen con cierta regularidad. Una vez hallados estos periodos se identifican mediante marcas de tono o pitch marks. Posteriormente se separa la señal en tramas o frames, cada frame tiene una duración de dos periodos. La ventaja de tener éstas ventanas como unidades aisladas es que podemos combinarlas teniendo sus puntos centrales en la frecuencia principal. Luego se traslapan unas con otras y se tiene una reconstrucción de la señal original. La figura 2 muestra un diagrama de la misma.

Figura 2 “(1) Detección de pitch marks. (2) Aplicación de ventanas Hanning. (3) Separación en frames. (4) Reconstrucción de la señal original.

Se recomienda la ventana de dos periodos para facilitar la reconstrucción de la onda en el momento del traslape, así como se ilustra en la figura 3.

Figura 3 “Traslape de segmentos”

  2. Modificaciones de tono y duración.

Precisamente la ventaja de hacer ésta separación de la señal en tramas es lo que nos permite hacer modificaciones en duración y tono. Para modificar la duración es necesario duplicar algunas de las tramas. Por su parte si se busca un acortamiento de la duración de la señal, algunas de las tramas deben ser eliminadas. La figura 4 ilustra éste concepto.

La modificación del tono se logra mediante la recombinación de las tramas. En éste caso es necesario modificar la duración de las pitch marks. Vale la pena mencionar un ejemplo para ilustrar éste concepto:

  • Se tiene un segmento de voz con un tono de 100 Hz (10 ms entre cada pitch mark)
  • Se realiza el ventaneo de Hanning
  • Sí se colocan las ventanas a una distancia de 9 ms y luego se hace la suma-traslape, se obtendrá ahora un tono de 111 Hz.

Figura 4 “Traslape para modificar tono”

Para el caso de la modificación del tono, es necesario alterar la duración de los periodos entre las pitch marks. La consecuencia de esto puede ser la obtención de una señal más corta en el tiempo. Por ésta razón, a veces es necesario duplicar algunos frames en afán de preservar la duración original de la señal.

Detallaremos ésta explicación con un ejemplo:

  • Se tiene un tono de 100Hz ventaneado con 5 frames cada uno con una separación de 10 ms. Es decir, hay una duración total de (5-1) *10 ms= 40ms entre la primera y la última pitch mark.
  • Si deseamos cambiar el tono a 150 Hz es necesario poner la distancia de las pitch marks a 6.6 ms, el probema es que ahora nuestra duración total es de (5-1) *6.6ms= 26 ms.
  • Para preservar la duración original, tenemos que duplicar dos frames, de ésta forma volvemos a nuestra duración de 40 ms (7-1) * 6.6 ms =40 ms.
  1. Detalle de la manipulación de las pitch marks

Como se puede apreciar en las secciones anteriores la base del método TD PSOLA, el elemento crítico son las pitch marks . Se ha dicho que es necesario modificarlas para ejecutar los cambios de duración y tono.

Se mencionó que las pitch marks se hallan mediante un algoritmo de detección. Dichas marcas se pueden representar como una secuencia de análisis Ta= {ta1, ta2,…,taM}, el periodo local entre dos de éstas marcas se define como:

Que no es más que un valor medio entre la pitch mark inicial y la pitch mark final. De éste punto, se hace un ventaneo de la señal para separar en frames, éste se define como:

De aquí es necesario crear una secuencia de síntesis de las pitch marks que depende de la duración y cambio en el tono deseados Ts= {tS1, tS2,…,tSM}, la relación de ésta secuencia de síntesis con la de análisis está relacionada por una función M[i] que especifica cuáles frames de análisis deberán corresponder en la síntesis. Ésta función es una suerte de línea de tiempo virtual entre sínteis y análisis, tal como se ve en la figura 5.

Figura 5 “línea de virtual tiempo de pitch marks entre análisis y síntesis”

Multi-Band Resynthesis Overlap Add (MBROLA)

Se habló en párrafos anteriores acerca de dos tareas principales a resolver en la síntesis concatenativa, la primera tiene que ver con la modificación de la prosodia y la segunda con hacer una transición sutil entre fonemas.

El que la transición no sea sutil tiene que ver con una unión incorrecta entre fonemas, la cual puede ser de tres tipos:

Mala unión de Fase (Phase Mismatch): Este tipo de problemas ocurren cuando las formas de onda no están centradas en las mismas posiciones relativas dentro del periodo de tiempo en que se encuentran.

Mala unión de Tono (Pitch Mismatch): Sucede cuando ambos segmentos tienen la misma envolvente espectral pero fueron pronunciados con diferentes tonos.

Mala unión de Envolvente de Espectro (Spectral Envelope Mismatch): Esta falla resulta cuando las unidades fonéticas fueron extraídas de contextos diferentes entre sí. La discontinuidad ocurre sólo en un período.

Ante estos problemas de unión, Dutoit y Leich (Dutoit & Leich, 1993)proponen una solución conocida como MBROLA. Este algoritmo deriva directamente del TD-PSOLA, de hecho es muy semejante. La diferencia radica en que no se hace un análisis individual de las ventanas. Ni son necesarias las pitch marks.

Como lo muestra el diagrama, el sistema toma como referencia un difonema procedente de un corpus. El primer paso es diferenciar si es vocal o sordo. Si se trata de un sonido vocal, entonces se separa y se hace un análisis de bandas del mismo. El análisis se lleva a cabo mediante un sintetizador armónico que se encarga de calcular nuevas amplitudes y fases con características regulares. Estos difonemas resintetizados son después concatenados utilizando el método Overlap Add OLA.

Figura 6 “Esquema de MBROLA”

Dado que objetivo de MBROLA es hacer las formas de onda lo más semejantes entre sí. Es esencial el reajuste de fases del que se habló anteriormente y se explicará a continuación con mayor detalle. El ajuste de las ondas se hace en los bordes de la última parte del primer segmento y de la primera parte del segundo segmento. El último borde y el subsiguiente se denotan como SlN  y Sr0 respectivamente y los ajustes a los mismos se definen como ML y MR los cuales se obtienen de las siguientes fórmulas:

Para i=0…ML-1 y j=0…MR-1

Para la solución de la mala unión de la envolvente de espectro se usa el algoritmo propuesto por Charpentier y Moulines (Moulines & Charpentier, 1990) el cual consiste en la interpolación de los periodos vocales de tono regular (voiced pitch periods).

Referencias

Dutoit, T., & Leich, H. (1993). MBR-PSOLA: Text-to-speech synthesis based on an MBE re-synthesis of the segments database. Speech Communication. Retrieved from http://www.sciencedirect.com/science/article/pii/016763939390042J

Goncharoff, V., & Gries, P. (1998). An algorithm for accurately marking pitch pulses in speech signals. Proc. of the SIP’98. Retrieved from

Moulines, E., & Charpentier, F. (1990). Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones. Speech Communication. Retrieved from http://www.sciencedirect.com/science/article/pii/016763939090021Z

Stylianou, Y. (2008). Voice Transformation. In Springer Handbook of Speech Processing (pp. 489–504). Berlin, Heidelberg: Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-540-49127-9_24

 

Síntesis de Voz, Resumen de los métodos más representativos

Desde principios del siglo XX se han realizado distintos esfuerzos para generar “máquinas parlantes”, o de manera más correcta: Realizar Síntesis de Voz. Sin embargo, a casi un siglo de que apareció el primer sintetizador de voz eléctrico de Homer Dudley que se tiene documentado (“Homer Dudley’s Speech Synthesisers,” n.d.) llamado VODER (ver figura).  No se ha terminado de lograr el sueño de tener un sistema de síntesis de voz que resulte indistinguible de la voz humana. Si bien las voces sintéticas de la actualidad cumplen casi cabalmente el requisito de inteligibilidad, aún no es así con el de la expresión. La combinación de estos dos es lo que dota de naturalidad a los sistemas de voz artificial.

Existen tres sistemas de síntesis vocal: síntesis de formantes, síntesis articulatoria y síntesis concatenativa. A continuación, se explica con detalle en que consiste cada uno.

 

  1. Síntesis de Formantes

Se define como frecuencias formantes a aquellas frecuencias características de un fonema. Tales sonidos permanecen constantes en cada emisión de frase, independientemente de la entonación o intensidad con la que la frase haya sido producida. Gracias a ésta característica sabemos que los fonemas pueden ser identificados en todo momento por estas frecuencias.

Fisiológicamente hablando, las formantes son resultado de las resonancias producidas a lo largo del tracto vocal de la onda sonora proveniente de la glotis que tuvo su origen en la vibración de las cuerdas vocales producida por una corriente de aire en los pulmones.

En la voz humana existen dos tipos de sonidos: vocales y sordos o no-vocales, los primeros son resultado de la vibración de las cuerdas vocales y los segundos resultan del flujo de aire que pasa directamente de los pulmones al tracto vocal.

Este proceso de generación artificial de formantes se puede lograr en un sistema de procesamiento de señales electrónicas. La señal proveniente de las cuerdas vocales se simula con una fuente sinusoidal. Los sonidos no-vocales, por su parte, se emulan a través de una fuente de ruido blanco. Las frecuencias formantes se logran pasando dicha fuente a través de un conjunto de filtros pasa banda. Un modelo que ha sido referente en este tipo de sistemas de fuente-filtros es el sintetizador de Klatt (Klatt, 1982) el cual fue de los primeros sistemas de síntesis en software cuyo algoritmo y código fuente se publicaron a detalle.

  1. Síntesis Articulatoria

La síntesis articulatoria está basada principalmente en el trabajo de Fant (Fant, 1970) que comenzó desde principios de los 60. Este tipo de síntesis pretende modelar las características físicas haciendo un estudio de la geometría del tracto vocal, principalmente de su largo y su área transversal. Posteriormente mediante ecuaciones de movimiento de fluidos se hace un modelo matemático de los fenómenos acústicos que tienen lugar adentro del tracto.

El concepto físico de la presión que el aire ejerce sobre el tracto vocal, así como el chorro de aire que viaja dentro de él se simplifica observando el tracto vocal como una serie de tubos interconectados. Así como el tejido del tracto vocal cambia su grosor de acuerdo con el sonido que se emite, cada uno de estos tubos tiene un diámetro distinto correspondiente a un fonema determinado.

Este modelo tubular es referente en dos tipos de síntesis: la de circuitos acústicos y la de Linear Predictive Coding o LPC. Se hablará de LPC y cómo utiliza el modelo tubular más adelante en este documento, en lo referente a circuitos acústicos podemos mencionar que el modelo tracto vocal-tubular fue muy popular a mediados del siglo veinte ya que constituyó el principio para la elaboración de una familia de sintetizadores de voz eléctricos.

Muchos de ellos fueron llevados a la práctica utilizando analogías acústicas-eléctricas. Destaca el trabajo de Stevens, Kasowski con Fant (Stevens, Kasowski, & Fant, 1953). La síntesis articulatoria perdió un poco de popularidad durante los 60 y 70, no fue sino hasta 1982 con el trabajo de Maeda que se reutilizó la analogía electro-acústica y sin duda al día de hoy el trabajo más relevante donde se emplea síntesis articulatoria es Vocal Tract Lab (Birkholz & Jackel, 2003; Birkholz, Jackèl, & Kroger, 2006), el cual continúa vigente en su interesante proyecto en el sitio vocaltractlab.

  1. Síntesis Concatenativa

Sin importar cómo fueron generados los fonemas, ya fuera grabadas por una persona o mediante una parametrización de la que se hablará más adelante. Para hacer síntesis es necesario es necesario enlazar los fonemas uno con otro luego de ser producidos. A este tipo de síntesis de voz se le conoce como síntesis concatenativa.

La síntesis concatenativa es la más eficiente en sistemas de síntesis al día de hoy. En la síntesis concatenativa se pueden modificar más detalladamente las unidades mínimas de lenguaje logrando una mayor naturalidad cuando éstos se producen.

Como consecuencia de lo anterior, la inteligibilidad y entonación de una voz artificial de síntesis concatenativa superan a aquellas logradas con síntesis articulatoria o con síntesis de formantes.

Los métodos para emular la prosodia (tono y duración) en la concatenación de las palabras son principalmente los basados en el principio de Suma-Traslape (Overlap-Add), en estos métodos destacan PSOLA, MBROLA y selección de unidades.

Se dice que (Dutoit, 2008) para producir lenguaje hablado de manera inteligible, se requiere de la habilidad de generar lenguaje continuo coarticulado. Lo cual nos conduce a pensar que los puntos de transición entre fonemas son mucho más importantes para la inteligibilidad de lo que son los segmentos estables. Incluso los fonemas vocales largos y sostenidos varían en amplitud y frecuencia, además de que contienen elementos inarmónicos.

Con base en éste argumento, la síntesis de voz concatenativa busca inteligibilidad “pegando” trozos de habla en lugar de fonemas aislados. Esto conlleva a una mejor coarticulación.

 

  1. Síntesis Concatenativa basada en Difonemas

Un primer intento de lograr una concatenación más precisa es mediante el uso de difonemas como unidades mínimas para producir lenguaje hablado.

Normalmente, el difonema comienza y termina con una parte estable como se muestra en la figura

El problema es que la cantidad de difonemas presentes en un idioma es enorme. Típicamente una base de datos de difonemas es de al menos 1500 unidades.  En términos prácticos, tres minutos de habla muestreados a 16 KHz con resolución de 16 bit suman alrededor de 5 MB.

Para resolver este problema, se busca una lista de palabras donde aparezca al menos dos veces cada difonema. El texto se lee por un locutor profesional para evitar mucha variación en tono y articulación. Posteriormente, los elementos elegidos son marcados mediante herramientas de visualización o algoritmos de segmentación. Finalmente se recolectan en una base de datos.

A groso modo, la manera en cómo se lleva a cabo la síntesis es la siguiente:

  1. El sintetizador recibe la entrada fonética y se realiza un procesamiento previo de lenguaje (se hablará más delante de dicho proceso).
  2. Se establece duración, tono y tipo de fonema.
  3. Se recolecta de la base de datos una serie de fonemas candidatos para llevar a cabo la síntesis.

Normalmente los fonemas elegidos difícilmente reúnen de manera natural los requerimientos para darle a la frase producida la suficiente inteligibilidad por lo que hay que realizar dos tareas adicionales. La primera tarea consiste en hacer modificaciones en la prosodia. La segunda tarea tiene que ver con la “suavización” de las transiciones de los difonemas ya que son muy notorias debido a las ya mencionadas variaciones de amplitud y frecuencia.

Algunos ejemplos de síntesis por difonemas se encuentran en los audios a continuación:

Todas las voces son originales de FESTIVAL y se pueden encontrar detalles del sistema en su sitio oficial. La primera frase es inglés americano, la segunda inglés británico y la cuarta español europeo.

Bilbliografía

Birkholz, P., & Jackel, D. (2003). A three-dimensional model of the vocal tract for speech synthesis. Of the 15th International Congress of  …. Retrieved from http://rickvanderzwet.nl/trac/personal/export/360/liacs/API2010/workshop1/birkholz-2003-icphs.pdf

Birkholz, P., Jackèl, D., & Kroger, B. (2006). Construction and control of a three-dimensional vocal tract model. Acoustics, Speech and Signal. Retrieved from http://ieeexplore.ieee.org/abstract/document/1660160/

Dutoit, T. (2008). Corpus-Based Speech Synthesis. In Springer Handbook of Speech Processing (pp. 437–456). Berlin, Heidelberg: Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-540-49127-9_21

Fant, G. (n.d.). Acoustic theory of speech production : with calculations based on X-ray studies of Russian articulations. Retrieved from https://books.google.com.mx/books/about/Acoustic_Theory_of_Speech_Production.html?id=qa-AUPdWg6sC&redir_esc=y

Homer Dudley’s Speech Synthesisers. (n.d.). Retrieved from http://users.polytech.unice.fr/~strombon/SSI/z.Supplements/vocoder/http___www.obsolete.pdf

Klatt, D. H. (n.d.). Software for a cascade/parallel formant synthesizer. Retrieved from http://www.fon.hum.uva.nl/david/ba_shs/2009/klatt-1980.pdf

Stevens, K., Kasowski, S., & Fant, C. (1953). An electrical analog of the vocal tract. The Journal of the Acoustical. Retrieved from http://asa.scitation.org/doi/abs/10.1121/1.1907169