November and December 2017

December 21, 2017January 1, 2018 Carlos Franco-Galván Ideas y novedades Alonso Arreola, Carlos Franco, Eslabon, Héctor Vudoyra, LabA, Marco Quintana, Orquesta de Jazz BUAP, Rock, tocadas, Víctor Illarramendi

Aquí seguimos con esa necesidad de seguir documentando las actividades musicales de Franco. Esto se hace como refuerzo a la memoria pero también para tener una visión global del trabajo musical.

Mis trabajos musicales como acompañante de las bajas frecuencias en el mes de noviembre fueron dos: Orquesta de Jazz de la BUAP y con el guitarrista Héctor Vudoyra.

Con la Orquesta de Jazz hubo dos conciertos en la universidad, uno en la facultad de Derecho y otro en la nueva sede de la escuela de música en la 10 oriente. En ambos ya se integró el alumno Iñaki Manjarrez como bajista oficial y un servidor se queda como suplente.

El repertorio de la orquesta es muy divertido pero para hacerse bien implica mayor compromiso con el ensayo y la ejecución. No cuento ahora con el tiempo y la energía para dar lo mejor de mi en ese proyecto y no quisiera fallar ni al director ni a los compañeros músicos que ahí trabajan. Por otro lado ese proyecto es un excelente trampolín en la formación de jóvenes músicos y deben ser ellos quienes lo aprovechen. Gracias querido Gil Gallardo por la oportunidad que me diste de contribuir a esa orquesta, seguiremos haciendo música en otros ámbitos.

Con Héctor cerramos el mes de noviembre, haciendo standards de jazz que pudieran ser las semillas de un proyecto musical liderado por él. Fue interesante el proceso de creación de ésta interpretación del Blue Bossa. Definitivamente concentrar sesiones de ensayo a un sólo tema permite profundizar en el detalle del mismo. Abajo mostramos el video de los resultados.

El mes de diciembre fue enteramente de Eslabón. Un Eslabón distinto al de Ahora o Nunca. Un Eslabón que ésta vez tuvo oportunidad de explotar su fase interpretativa de rock clásico en un evento privado. La iniciativa propuesta por Marco Quintana nos llevó junto con Víctor Illarramendi y el joven guitarrista de la banda tributo Twist and Shout, Juan José Poblano a llevarlas notas de The Beatles, Rolling Stones, Creedence y The Doors a dos eventos festivos. La comida de fin de año de colegas maestros de la Facultad de Artes y una boda en Telochoc, Tlaxcala donde fuimos contratados por una ex alumna de la misma.

Eslabón tiene esa cualidad que puede también ser explotada comercialmente, por mi parte queda abierta la puerta a hacer éste tipo de shows de rock clásico con fines de convivencia de grandes amigos músicos y oportunidad de negocio.

Finalmente el día 19 de diciembre, el convivio de fin de año de los alumnos de LabA del musicazo Alonso Arreola marcó para mi un cierre de ciclo de aprendizaje de vida y de música. Aproximadamente 80 horas repartidas en cinco años, marcaron de manera definitiva mi formación como músico.

Además de las técnicas de ejecución como tapping y slap, amplié mis conocimientos de armonía y rímtica los cuales han significado grandes cambios en mi forma de componer. Esto sin mencionar las conversaciones de vida que representaban esos 90 minutos con Arreola.

¡Gracias Alonso por todas esas enseñanzas!

Por lo que viene a éste 2018 que empieza, creo que es importante concentrarse en un sólo proyecto musical para no tratar de abarcar demasiado, habrá que pensar un plan para integrar los proyectos existentes.

La importancia de seguir haciendo covers

October 27, 2017October 28, 2017 Carlos Franco-Galván Ideas y novedades actividades musicales, Carlos Franco, Eslabon, Fito Páez, Mariposa Tecnicolor, Singles

Hay por ahí un considerable número de amigos músicos que se pronuncian en contra de hacer covers o de llevar a cabo tributos a (ponga el nombre de su banda favorita de últimos 50 años) porque argumentan que bloquean al público para escuchar nuevas propuestas.

No concuerdo del todo con tal argumento, el cover no es sólo para “jalar gente”. El cover es también una manera de aprendizaje como músico. A mi punto de vista el cover te permite hacer un análisis musical para reconocer las técnicas de composición y ejecución que utiliza el artista que grabó originalmente el tema.

Ahora bien, mi postura va más hacia hacer una rendición artística hacia la composición. Ese es para mí el cover, no hacer una imitación del trabajo d los grandes. El riesgo de fracasar haciendo este segundo intento es grande, a reserva que seas un grupo imitador que guste de presentarse en cruceros y casinos.

El cover por otro lado puede ser el aperitivo que le das al escucha para invitarlo a probar tu plato fuerte. Hay público que prefiere caminar sobre rumbos conocidos antes de aventurarse a conocer nuevos lugares, esa es una segunda razón para hacer un cover.

Por último debo agregar que la canción que se elija para hacer un tributo debe ser fiel a nuestra identidad como artistas, es decir, que sea un tema que disfrutemos tanto de escuchar una y otra vez que lo tengamos en la punta de la lengua. No vale la pena acercarse a géneros musicales ajenos con un afán de expandirse a otros públicos. Ese error déjenlo para las casas disqueras grandes.

Me despido dejando una muestra de un reciente cover que hice al destacado compositor argentino Fito Páez. Déjenme sus comentarios.

Agosto de 2017

August 27, 2017August 27, 2017 Carlos Franco-Galván Ideas y novedades Carlos Franco, Dueto Ohm, Jazz, José Luis Guevara, Rock, Víctor Illarramendi

Es notable lo largo de los meses julio y agosto. Por un lado los 31 días de ambos y por otro las dos semanas de vacaciones (de las cuales soy privilegiado de gozar). En éste mes brincaron jazz y rock. Jazz con los amigos Orlando Flores (Sax) y Uriel Bertardo (guitarra). Con ambos ambientamos un brindis de graduación de posgrado en Puebla el 12 de agosto.

Después el día 23 de agosto hicimos jazz en la BUAP con José Luis Guevara al piano, Lalo Herrera al Sax y el señor José Caudillo en la batería. Con su servidor al bajo dese luego.

Mucho se dice acerca de lo “difícil” que resulta escuchar jazz. La verdad de las cosas es que con estos dos eventos, me doy cuenta que depende mucho de la actitud del músico que interpreta éste género. Si se permite una interpretación clara de la melodía y la armonía del tema, es mucho más fácil entender la improvisación.

Finalmente y hablando de actitud, hubo muy buena actitud de parte de los músicos que acompañamos al dueto Ohm en el Teatro de la Ciudad el día 25 de agosto. Power of Woods es el nombre de su disco, y se tocaron temas de éste y su anterior disco. La alineación fueron French y Karla del Dueto Ohm en guitarras y voces, Luis Hernández en el Sax y Sergio Corzas en guitarra solista. En bajo y batería estuvimos Vic Illarramendi y un servidor.

Ésta tocada con Ohm marca la culminación de un trabajo que habíamos estado haciendo con el dueto desde 2015. Éste pasado 25 la banda sonó mucho más sólida, pocos o casi nulos errores técnicos y buena actitud y entrega en el escenario dejaron en la gente la gratificación de haber escuchado una gran banda. Ya veremos qué Rock nos espera en septiembre. Por lo pronto habré de seguir con el material académico que servirá de conclusión a los estudios de doctorado.

saludos

Activadades de Junio y Julio ’17

August 27, 2017August 27, 2017 Carlos Franco-Galván Ideas y novedades Carlos Franco, Instrumental Rock, Rock

Han habido pocas. La verdad es que estoy preparando por ahí un nuevo ensamble musical, lo único que en éste momento diré es que en el repertorio se incluye éste arreglo a Luis Arcaráz de Bonita:

Por otro lado les comparto éste otro arreglo a guitarra y voz de la rola de Van Morrison Brown Eyed Girl. Un tema muy conocido pero que se llega a escuchar poco en vivo.

Hasta aquí es lo que dejamos, el verano está siendo invertido en ensayos para éste proyecto que pronto verá la luz.

Actividades musicales de marzo, abril y mayo

June 1, 2017June 1, 2017 Carlos Franco-Galván Ideas y novedades Carlos Franco, gaitas parque españa, Leap Up, ugon alverde

No podía dejar sin documentar mis actividades musicales de este último bimestre. Mi chamba de académico me tuvo absorto

pero aún así me di el tiempo para grabar y publicar en redes la rola de Leap Up. De hecho hay también una versión previa en acústico que aquí les dejo:

Fue un gozo el haber escrito y grabado ese tema. Aparte de él, tenemos en reserva un tema instrumental titulado A Random Thankfulness y lo publicaremos en redes en julio. La composición de ese tema como su nombre lo dice fue con base en un proceso aleatorio que ya describiremos en su momento.

La segunda actividad musical fue mi participación al bajo en el proyecto Hidra, de Ugon Alverde. En esta ocasión, se le encargó a Hidra la tarea de proveer un acompañamiento de Rock a un ensamble de Gaitas del Parque España, Puebla.

La experiencia fue interesante, lástima que el sistema de monitoreo no fuera óptimo. Afortunadamente destacó la buena voluntad de los músicos sobre el escenario del Teatro de la Ciudad aquí en Puebla, Pue.

Procesamiento de Voz Usando TD-PSOLA y MBROLA

May 2, 2017May 4, 2017 Carlos Franco-Galván Investigación Carlos Franco, MBROLA, síntesis de voz en español, speech synthesis in spanish, TD PSOLA

Se ha visto que modificar duración y tono en una señal de voz (prosodia) no son operaciones triviales. De manera intuitiva, el lector podría pensar que, modificaciones a tono y duración se consiguen interpolando muestras y re-muestreando la señal. Los resultados de realizar tal proceso equivalen a aquellos observados cuando se modifica la velocidad de reproducción de una cinta de audio analógica, es decir: el tono sube o baja de manera exagerada. Se han buscado alternativas para resolver éste problema, uno de los más eficientes ha sido el procesamiento de la señal mediante un algoritmo conocido como TD-PSOLA (Stylianou, 2008).

Time Domain Pitch Synchronous Overlap Add (Fragmentación y traslape de la señal sincronizada en tono en dominio del tiempo). Tal cual su nombre lo indica, el algoritmo tiene la siguiente estructura:

Se analizan los distintos periodos en la señal de voz y se colocan indicadores (pitch marks)
Hacer un ventaneo (fragmentación de la señal) con una cierta duración.
Identificación de la frecuencia fundamental F₀ en cada uno de los segmentos contenidos en las ventanas.
Si se desea aumentar la duración, se repiten ciertos segmentos para aumentar el periodo. Si por el contrario la intención es volverla más corta, se eliminan algunos segmentos.
Si se desea cambiar el tono se reacomodan las ventanas con modificaciones de la duración entre una y otra, dependiendo si se quiere aumentar o disminuir la frecuencia.
Finalmente se suman las ventanas resultantes para realizar la síntesis

En el enlace abajo se muestran ejemplos de síntesis usando TD-PSOLA, la primera y segunda frase muestran sonido sintetizado a partir de texto. La diferencia entre ambas es la entonación que fue modificada de forma artificial. El tercer audio muestra una señal de voz grabada sin modificaciones y la cuarta es ésta misma señal con modificaciones en tono y duración.

A continuación, presentamos los detalles del algoritmo arriba mencionado:

Se tiene una señal de voz como se ve en la figura 1.

Figura 1 “Señal de voz”

En esta señal es necesario hacer una detección de las partes periódicas de la misma, para ello hay varios métodos. Aquí describimos el procedimiento propuesto por Goncharoff (Goncharoff & Gries, 1998). En primer lugar, se buscan secuencias numéricas que se incrementen y decrementen con cierta regularidad. Una vez hallados estos periodos se identifican mediante marcas de tono o pitch marks. Posteriormente se separa la señal en tramas o frames, cada frame tiene una duración de dos periodos. La ventaja de tener éstas ventanas como unidades aisladas es que podemos combinarlas teniendo sus puntos centrales en la frecuencia principal. Luego se traslapan unas con otras y se tiene una reconstrucción de la señal original. La figura 2 muestra un diagrama de la misma.

Figura 2 “(1) Detección de pitch marks. (2) Aplicación de ventanas Hanning. (3) Separación en frames. (4) Reconstrucción de la señal original.

Se recomienda la ventana de dos periodos para facilitar la reconstrucción de la onda en el momento del traslape, así como se ilustra en la figura 3.

Figura 3 “Traslape de segmentos”

2. Modificaciones de tono y duración.

Precisamente la ventaja de hacer ésta separación de la señal en tramas es lo que nos permite hacer modificaciones en duración y tono. Para modificar la duración es necesario duplicar algunas de las tramas. Por su parte si se busca un acortamiento de la duración de la señal, algunas de las tramas deben ser eliminadas. La figura 4 ilustra éste concepto.

La modificación del tono se logra mediante la recombinación de las tramas. En éste caso es necesario modificar la duración de las pitch marks. Vale la pena mencionar un ejemplo para ilustrar éste concepto:

Se tiene un segmento de voz con un tono de 100 Hz (10 ms entre cada pitch mark)
Se realiza el ventaneo de Hanning
Sí se colocan las ventanas a una distancia de 9 ms y luego se hace la suma-traslape, se obtendrá ahora un tono de 111 Hz.

Figura 4 “Traslape para modificar tono”

Para el caso de la modificación del tono, es necesario alterar la duración de los periodos entre las pitch marks. La consecuencia de esto puede ser la obtención de una señal más corta en el tiempo. Por ésta razón, a veces es necesario duplicar algunos frames en afán de preservar la duración original de la señal.

Detallaremos ésta explicación con un ejemplo:

Se tiene un tono de 100Hz ventaneado con 5 frames cada uno con una separación de 10 ms. Es decir, hay una duración total de (5-1) *10 ms= 40ms entre la primera y la última pitch mark.
Si deseamos cambiar el tono a 150 Hz es necesario poner la distancia de las pitch marks a 6.6 ms, el probema es que ahora nuestra duración total es de (5-1) *6.6ms= 26 ms.
Para preservar la duración original, tenemos que duplicar dos frames, de ésta forma volvemos a nuestra duración de 40 ms (7-1) * 6.6 ms =40 ms.

Detalle de la manipulación de las pitch marks

Como se puede apreciar en las secciones anteriores la base del método TD PSOLA, el elemento crítico son las pitch marks . Se ha dicho que es necesario modificarlas para ejecutar los cambios de duración y tono.

Se mencionó que las pitch marks se hallan mediante un algoritmo de detección. Dichas marcas se pueden representar como una secuencia de análisis T_a= {t^a₁, t^a₂,…,t^a_M}, el periodo local entre dos de éstas marcas se define como:

Que no es más que un valor medio entre la pitch mark inicial y la pitch mark final. De éste punto, se hace un ventaneo de la señal para separar en frames, éste se define como:

De aquí es necesario crear una secuencia de síntesis de las pitch marks que depende de la duración y cambio en el tono deseados T_s= {t^S₁, t^S₂,…,t^S_M}, la relación de ésta secuencia de síntesis con la de análisis está relacionada por una función M[i] que especifica cuáles frames de análisis deberán corresponder en la síntesis. Ésta función es una suerte de línea de tiempo virtual entre sínteis y análisis, tal como se ve en la figura 5.

Figura 5 “línea de virtual tiempo de pitch marks entre análisis y síntesis”

Multi-Band Resynthesis Overlap Add (MBROLA)

Se habló en párrafos anteriores acerca de dos tareas principales a resolver en la síntesis concatenativa, la primera tiene que ver con la modificación de la prosodia y la segunda con hacer una transición sutil entre fonemas.

El que la transición no sea sutil tiene que ver con una unión incorrecta entre fonemas, la cual puede ser de tres tipos:

Mala unión de Fase (Phase Mismatch): Este tipo de problemas ocurren cuando las formas de onda no están centradas en las mismas posiciones relativas dentro del periodo de tiempo en que se encuentran.

Mala unión de Tono (Pitch Mismatch): Sucede cuando ambos segmentos tienen la misma envolvente espectral pero fueron pronunciados con diferentes tonos.

Mala unión de Envolvente de Espectro (Spectral Envelope Mismatch): Esta falla resulta cuando las unidades fonéticas fueron extraídas de contextos diferentes entre sí. La discontinuidad ocurre sólo en un período.

Ante estos problemas de unión, Dutoit y Leich (Dutoit & Leich, 1993)proponen una solución conocida como MBROLA. Este algoritmo deriva directamente del TD-PSOLA, de hecho es muy semejante. La diferencia radica en que no se hace un análisis individual de las ventanas. Ni son necesarias las pitch marks.

Como lo muestra el diagrama, el sistema toma como referencia un difonema procedente de un corpus. El primer paso es diferenciar si es vocal o sordo. Si se trata de un sonido vocal, entonces se separa y se hace un análisis de bandas del mismo. El análisis se lleva a cabo mediante un sintetizador armónico que se encarga de calcular nuevas amplitudes y fases con características regulares. Estos difonemas resintetizados son después concatenados utilizando el método Overlap Add OLA.

Figura 6 “Esquema de MBROLA”

Dado que objetivo de MBROLA es hacer las formas de onda lo más semejantes entre sí. Es esencial el reajuste de fases del que se habló anteriormente y se explicará a continuación con mayor detalle. El ajuste de las ondas se hace en los bordes de la última parte del primer segmento y de la primera parte del segundo segmento. El último borde y el subsiguiente se denotan como S^l_N y S^r₀ respectivamente y los ajustes a los mismos se definen como M_L y M_Rlos cuales se obtienen de las siguientes fórmulas:

Para i=0…M_L-1 y j=0…M_R-1

Para la solución de la mala unión de la envolvente de espectro se usa el algoritmo propuesto por Charpentier y Moulines (Moulines & Charpentier, 1990) el cual consiste en la interpolación de los periodos vocales de tono regular (voiced pitch periods).

Referencias

Dutoit, T., & Leich, H. (1993). MBR-PSOLA: Text-to-speech synthesis based on an MBE re-synthesis of the segments database. Speech Communication. Retrieved from http://www.sciencedirect.com/science/article/pii/016763939390042J

Goncharoff, V., & Gries, P. (1998). An algorithm for accurately marking pitch pulses in speech signals. Proc. of the SIP’98. Retrieved from

Moulines, E., & Charpentier, F. (1990). Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones. Speech Communication. Retrieved from http://www.sciencedirect.com/science/article/pii/016763939090021Z

Stylianou, Y. (2008). Voice Transformation. In Springer Handbook of Speech Processing (pp. 489–504). Berlin, Heidelberg: Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-540-49127-9_24

Síntesis de Voz, Resumen de los métodos más representativos

April 29, 2017April 29, 2017 Carlos Franco-Galván Investigación, Material Académico Carlos Franco, HTS Speech Synthesis for Spanish, sintesis articulatoria, sintesis con difonemas, sintesis concatenativa, sintesis de voz, sintetizador de formantes

Desde principios del siglo XX se han realizado distintos esfuerzos para generar “máquinas parlantes”, o de manera más correcta: Realizar Síntesis de Voz. Sin embargo, a casi un siglo de que apareció el primer sintetizador de voz eléctrico de Homer Dudley que se tiene documentado (“Homer Dudley’s Speech Synthesisers,” n.d.) llamado VODER (ver figura). No se ha terminado de lograr el sueño de tener un sistema de síntesis de voz que resulte indistinguible de la voz humana. Si bien las voces sintéticas de la actualidad cumplen casi cabalmente el requisito de inteligibilidad, aún no es así con el de la expresión. La combinación de estos dos es lo que dota de naturalidad a los sistemas de voz artificial.

Existen tres sistemas de síntesis vocal: síntesis de formantes, síntesis articulatoria y síntesis concatenativa. A continuación, se explica con detalle en que consiste cada uno.

Síntesis de Formantes

Se define como frecuencias formantes a aquellas frecuencias características de un fonema. Tales sonidos permanecen constantes en cada emisión de frase, independientemente de la entonación o intensidad con la que la frase haya sido producida. Gracias a ésta característica sabemos que los fonemas pueden ser identificados en todo momento por estas frecuencias.

Fisiológicamente hablando, las formantes son resultado de las resonancias producidas a lo largo del tracto vocal de la onda sonora proveniente de la glotis que tuvo su origen en la vibración de las cuerdas vocales producida por una corriente de aire en los pulmones.

En la voz humana existen dos tipos de sonidos: vocales y sordos o no-vocales, los primeros son resultado de la vibración de las cuerdas vocales y los segundos resultan del flujo de aire que pasa directamente de los pulmones al tracto vocal.

Este proceso de generación artificial de formantes se puede lograr en un sistema de procesamiento de señales electrónicas. La señal proveniente de las cuerdas vocales se simula con una fuente sinusoidal. Los sonidos no-vocales, por su parte, se emulan a través de una fuente de ruido blanco. Las frecuencias formantes se logran pasando dicha fuente a través de un conjunto de filtros pasa banda. Un modelo que ha sido referente en este tipo de sistemas de fuente-filtros es el sintetizador de Klatt (Klatt, 1982) el cual fue de los primeros sistemas de síntesis en software cuyo algoritmo y código fuente se publicaron a detalle.

Síntesis Articulatoria

La síntesis articulatoria está basada principalmente en el trabajo de Fant (Fant, 1970) que comenzó desde principios de los 60. Este tipo de síntesis pretende modelar las características físicas haciendo un estudio de la geometría del tracto vocal, principalmente de su largo y su área transversal. Posteriormente mediante ecuaciones de movimiento de fluidos se hace un modelo matemático de los fenómenos acústicos que tienen lugar adentro del tracto.

El concepto físico de la presión que el aire ejerce sobre el tracto vocal, así como el chorro de aire que viaja dentro de él se simplifica observando el tracto vocal como una serie de tubos interconectados. Así como el tejido del tracto vocal cambia su grosor de acuerdo con el sonido que se emite, cada uno de estos tubos tiene un diámetro distinto correspondiente a un fonema determinado.

Este modelo tubular es referente en dos tipos de síntesis: la de circuitos acústicos y la de Linear Predictive Coding o LPC. Se hablará de LPC y cómo utiliza el modelo tubular más adelante en este documento, en lo referente a circuitos acústicos podemos mencionar que el modelo tracto vocal-tubular fue muy popular a mediados del siglo veinte ya que constituyó el principio para la elaboración de una familia de sintetizadores de voz eléctricos.

Muchos de ellos fueron llevados a la práctica utilizando analogías acústicas-eléctricas. Destaca el trabajo de Stevens, Kasowski con Fant (Stevens, Kasowski, & Fant, 1953). La síntesis articulatoria perdió un poco de popularidad durante los 60 y 70, no fue sino hasta 1982 con el trabajo de Maeda que se reutilizó la analogía electro-acústica y sin duda al día de hoy el trabajo más relevante donde se emplea síntesis articulatoria es Vocal Tract Lab (Birkholz & Jackel, 2003; Birkholz, Jackèl, & Kroger, 2006), el cual continúa vigente en su interesante proyecto en el sitio vocaltractlab.

Síntesis Concatenativa

Sin importar cómo fueron generados los fonemas, ya fuera grabadas por una persona o mediante una parametrización de la que se hablará más adelante. Para hacer síntesis es necesario es necesario enlazar los fonemas uno con otro luego de ser producidos. A este tipo de síntesis de voz se le conoce como síntesis concatenativa.

La síntesis concatenativa es la más eficiente en sistemas de síntesis al día de hoy. En la síntesis concatenativa se pueden modificar más detalladamente las unidades mínimas de lenguaje logrando una mayor naturalidad cuando éstos se producen.

Como consecuencia de lo anterior, la inteligibilidad y entonación de una voz artificial de síntesis concatenativa superan a aquellas logradas con síntesis articulatoria o con síntesis de formantes.

Los métodos para emular la prosodia (tono y duración) en la concatenación de las palabras son principalmente los basados en el principio de Suma-Traslape (Overlap-Add), en estos métodos destacan PSOLA, MBROLA y selección de unidades.

Se dice que (Dutoit, 2008) para producir lenguaje hablado de manera inteligible, se requiere de la habilidad de generar lenguaje continuo coarticulado. Lo cual nos conduce a pensar que los puntos de transición entre fonemas son mucho más importantes para la inteligibilidad de lo que son los segmentos estables. Incluso los fonemas vocales largos y sostenidos varían en amplitud y frecuencia, además de que contienen elementos inarmónicos.

Con base en éste argumento, la síntesis de voz concatenativa busca inteligibilidad “pegando” trozos de habla en lugar de fonemas aislados. Esto conlleva a una mejor coarticulación.

Síntesis Concatenativa basada en Difonemas

Un primer intento de lograr una concatenación más precisa es mediante el uso de difonemas como unidades mínimas para producir lenguaje hablado.

Normalmente, el difonema comienza y termina con una parte estable como se muestra en la figura

El problema es que la cantidad de difonemas presentes en un idioma es enorme. Típicamente una base de datos de difonemas es de al menos 1500 unidades. En términos prácticos, tres minutos de habla muestreados a 16 KHz con resolución de 16 bit suman alrededor de 5 MB.

Para resolver este problema, se busca una lista de palabras donde aparezca al menos dos veces cada difonema. El texto se lee por un locutor profesional para evitar mucha variación en tono y articulación. Posteriormente, los elementos elegidos son marcados mediante herramientas de visualización o algoritmos de segmentación. Finalmente se recolectan en una base de datos.

A groso modo, la manera en cómo se lleva a cabo la síntesis es la siguiente:

El sintetizador recibe la entrada fonética y se realiza un procesamiento previo de lenguaje (se hablará más delante de dicho proceso).
Se establece duración, tono y tipo de fonema.
Se recolecta de la base de datos una serie de fonemas candidatos para llevar a cabo la síntesis.

Normalmente los fonemas elegidos difícilmente reúnen de manera natural los requerimientos para darle a la frase producida la suficiente inteligibilidad por lo que hay que realizar dos tareas adicionales. La primera tarea consiste en hacer modificaciones en la prosodia. La segunda tarea tiene que ver con la “suavización” de las transiciones de los difonemas ya que son muy notorias debido a las ya mencionadas variaciones de amplitud y frecuencia.

Algunos ejemplos de síntesis por difonemas se encuentran en los audios a continuación:

Todas las voces son originales de FESTIVAL y se pueden encontrar detalles del sistema en su sitio oficial. La primera frase es inglés americano, la segunda inglés británico y la cuarta español europeo.

Bilbliografía

Birkholz, P., & Jackel, D. (2003). A three-dimensional model of the vocal tract for speech synthesis. Of the 15th International Congress of …. Retrieved from http://rickvanderzwet.nl/trac/personal/export/360/liacs/API2010/workshop1/birkholz-2003-icphs.pdf

Birkholz, P., Jackèl, D., & Kroger, B. (2006). Construction and control of a three-dimensional vocal tract model. Acoustics, Speech and Signal. Retrieved from http://ieeexplore.ieee.org/abstract/document/1660160/

Dutoit, T. (2008). Corpus-Based Speech Synthesis. In Springer Handbook of Speech Processing (pp. 437–456). Berlin, Heidelberg: Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-540-49127-9_21

Fant, G. (n.d.). Acoustic theory of speech production : with calculations based on X-ray studies of Russian articulations. Retrieved from https://books.google.com.mx/books/about/Acoustic_Theory_of_Speech_Production.html?id=qa-AUPdWg6sC&redir_esc=y

Homer Dudley’s Speech Synthesisers. (n.d.). Retrieved from http://users.polytech.unice.fr/~strombon/SSI/z.Supplements/vocoder/http___www.obsolete.pdf

Klatt, D. H. (n.d.). Software for a cascade/parallel formant synthesizer. Retrieved from http://www.fon.hum.uva.nl/david/ba_shs/2009/klatt-1980.pdf

Stevens, K., Kasowski, S., & Fant, C. (1953). An electrical analog of the vocal tract. The Journal of the Acoustical. Retrieved from http://asa.scitation.org/doi/abs/10.1121/1.1907169

Leap Up

April 24, 2017April 24, 2017 Carlos Franco-Galván Singles Carlos Franco, Leap Up, Singles

This tune was created as a gift, but as sometimes magically happens, the song started to live by itself. Previous versions can be found in video format in youtube. The song has clear influence from a 70s pop song, particularly towards the end with the lead synth. The lyrics are about courage: “Leap up without fear, challenge time and space”.

The cover was chosen by the friend the song was given to. It is a painting that she saw at a market in St. John (Virgin Islands), the image is full of color with a jungle theme. Goes well with a live spirit song like this one.

Instruments: Drums, Fender Precision Bass, Fender Stratocaster, Yamaha PSR 630 and Vocals.

Performer: Carlos Franco

April 2017

Enero y Febrero 2017, silenciosos

March 8, 2017April 12, 2017 Carlos Franco-Galván Ideas y novedades Bass, Beatles, Beatles en el Microscopio, Carlos Franco, Oh Darling

Una tardía entrada en mi bitácora de actividades musicales. No pasó desapercibida ésta primera etapa del año en cuanto a música, sin embargo no hubo shows en vivo ni grabaciones nuevas.

Fueron dos vídeos, una interpretación de “Oh Darling” a bajo y voz. Con la necedad del epiphone zurdo. Hubo también una composición reciente “Leap Up” dedicada a la persona con quien comienza una nueva aventura. En el caso de ésta última se hizo un ejercicio diferente en el programa de Beatles en el Microscopio.

Se estreno la canción en vivo, tipo Agustin Lara en la XEW.

Diciembre 2016 Cerrando con tres actividades diversas

December 31, 2016January 3, 2017 Carlos Franco-Galván Ideas y novedades Beatles en el Microscopio, Carlos Franco, Jazz, José Luis Guevara, Marcelino Cólex, tocadas, Víctor Illarramendi

Seguimos aquí metiendo información a éste diario de actividades musicales que nos ayuda a mantener la cordura. Empecemos por lo primero:

Martes 13 de Diciembre.

Una comida de fin de año con los profes de la Facultad de Artes de la BUAP significó una nueva tocada con el trío de jazz Illarramendi-Guevara-Franco. Donde dimos rienda suelta al impulso jazzero con estandars como: The Chicken, Night Birds, Take the A Train, Equinox y hasta una versión de Noche de Paz con arreglo de Guevara.

Lunes 19 de Diciembre

El último programa de 2016 de Beatles en el Microcopio. Donde invitamo a Marcelino Cólex igual que hace un año para revivir ese dueto de country-blues llamado “La última Milla”. La verdad es que considerando que decidí ocupar como arma especial una Les Paul en lugar de mi habitual bajo, se logró una sensación agradable haciendo temas de Tommy Flint, el famoso Blue Bossa y hasta una composición Colex/Franco que desde hoy se titula “Alcaline”.

He aquí el link del programa

Finalmente me dí el gusto de participar en una red social de colaboraciones musicales llamada Bandhub es una idea muy atractiva donde un usuario propone un tema con un sólo track, por ejemplo: voz, guitarra. A partir de ahí invita a otros músicos a colaborar con las partes restantes como bajo, batería, coros, etc. Se pueden hacer covers o composiciones originales. En éste caso dimos notas graves a éste hermoso tema Pop de los Beatles llamado “Hold Me Tight”

https://bandhub.com/s/57816435ae166055d58a1d87

Interesante último mes con tras actividades nada despreciables: Dos tocadas: Una en radio y otra en vivo y una colaboración a distancia.

	Composición a partir… on Forma Sonata
	Cameron on Síntesis Aditiva
	Músicos compañeros d… on Músicos compañeros de vida: Je…
	Carlos on Lección 1: Ejercicio de calent…
	Segundo mes de Conti… on “Contingencia” una composición…

Carlos, siendo franco

Composiciones originales y Tecnología musical

Carlos Franco