Síntesis de Voz: Conversión Texto a Fonemas

Se han mencionado ya los diferentes modelos de síntesis de voz. El reto que se enfrenta hoy en el desarrollo de síntesis de voz no es únicamente la forma de emular la voz humana, sino también encontrar un sistema de control eficiente para producirla.

Los tres métodos de síntesis aquí mencionados resultan complicados de manipular, los tres por la misma razón: Los múltiples parámetros que implican modificarse para producir una frase.

Los sistemas de cómputo actuales han facilitado este control multi-parámetro, gracias a la rapidez de los procesadores se han podido programar los diferentes parámetros y ejecutar en fracciones de segundo. Esto desafortunadamente sólo ha solucionado parte del problema ya que los investigadores en tecnologías del habla han descubierto que el lenguaje hablado es mucho más complicado de recrear de lo que parece, no sólo por la emulación de los fonemas sino por la articulación de las palabras.

El método tradicional para generar una frase sintetizada es teniendo la frase que se desea producir como texto a manera de entrada denominado Text-to-speech, desde luego los fonemas (sonido de las palabras) no necesariamente coincide siempre con los grafemas (letras), por esta razón es necesario un proceso previo de interpretación de texto. El proceso consiste en una serie de reglas por lo que se conoce como synthesis by rules.

A continuación, se presenta la explicación de esta etapa en la síntesis de texto tomado de las notas de Herrera (Camacho & Ávila, 2013). Se hará mención de la terminología utilizada en Festival porque fue el sintetizador que se estudió (Taylor, Black, & Caley, 1998; Tokuda, Zen, & Black, 2002) debido a ser uno de los mejores en su clase y que en él están basados los actuales sistemas de síntesis que se estudiaron.

Figura 1 “Diagrama de Texto a Voz”

En la figura 1 se muestra un diagrama de bloques de las varias etapas en un sistema texto a voz concatenado. La entrada del sistema es un texto sin restricciones en forma de una secuencia de caracteres, incluyendo números, abreviaciones y signos de puntuación. La función del normalizador de texto es procesar cualquier carácter no alfabético: los signos de puntuación que se identifiquen se dejarán en su lugar; las abreviaciones serán expandidas a su forma completa; las cantidades se expandirán en sus formas completas también, por ejemplo “£2.75” se convertirá en “dos libras y setenta y cinco centavos”. Esta etapa se conoce en Festival como tokenización. Los programadores de Festival decidieron demoníaca como token al árbol de posibilidades correspondiente a un grafema. Normalmente hay una única posibilidad de token por grafema, sin embargo, en el caso de los números o determinados signos de puntuación, las posibilidades aumentan considerablemente.

La salida del normalizador de texto es texto plano en forma de una secuencia de caracteres alfabéticos y signos de puntuación. Aquí se fonetizan todos los grafemas encontrados, por ejemplo, “casa” se convierte en “kasa”, “queso se vuelve “keso”, “hola” se modifica a “ola”, etc. En festival se denomina como lexicon a los caracteres que denotan la sonoridad del fonema en cuestión. Por ejemplo: “photography” es en lexicon, (((f@)0)((tog)1)((r@f)0)((ii)0))).

El siguiente módulo llamado analizador de sintaxis/prosodia usa un algoritmo de análisis para segmentar el texto de tal forma que se le pueda asignar una entonación y ritmo significativos. Esto normalmente involucra un análisis gramatical, esto es, la identificación de sustantivos, verbos, preposiciones, conjunciones, etc. El módulo asigna marcadores al texto, los cuales indican, por ejemplo, las sílabas acentuadas, los puntos de acentuación tónica en un patrón de entonación y los tipos de patrones de entonación a ser usados en varias partes de la locución.

 Es bien sabido en el campo de la lingüística que los fonemas modifican sus sonidos dependiendo del fonema que lo antecede y del que lo precede. Por esta razón los sistemas de texto a voz necesitan puntos de comparación para saber cuál es la mejor opción de fonema a sintetizar. De ahí la importancia de dotar al sistema de una base de datos o corpus que contenga diferentes opciones de fonemas. Dentro de la base de datos, cada fonema viene etiquetado con su probabilidad de ocurrencia.

La forma de calcular la probabilidad máxima de ocurrencia se hace mediante la resolución de árboles determinísticos. Normalmente los pasos a seguir son los siguientes:

  • Pre-procesar el lexicon en texto funcional a un sistema de entrenamiento
  • Definir un conjunto de equivalencias pares grafema-fonema
  • Construir las posibilidades de cada par grafema-fonema
  • Construir modelos CART para predicción de fonemas desde grafemas
  • Ir obteniendo los difonemas correspondientes y concatenándolos uno tras otro.

Se denomina CART (Clasiffication and Regression Tree) al sistema probabilístico de extracción de datos que se aplica en este proceso de selección. Un ejemplo del árbol de clasificación y regreso aplicado a Festival es el siguiente:

  • Se tiene como texto de entrada la palabra Queso, la cual se fonetiza como /K//E//s//o/.
  • Se revisa cada token (grafema) de forma individual y se hace una pregunta, es decir: Fonema /k/ ¿viene consonante o vocal? Respuesta: Vocal. ¿Esta vocal es débil o fuerte? Respuesta: Débil. ¿La siguiente letra es consonante o vocal? Respuesta: Consonante.
  • El sistema determina un 80% de probabilidad que el siguiente fonema sea /E/

La figura ilustra el árbol determinístico:

Figura 3. “Funcionamiento de CART”

Las iteraciones necesarias se realizan hasta completar el texto presentado como entrada. Al tiempo que el programa va concatenando los diferentes difonemas que forman parte del corpus. En su esquema más básico, el programa es limitado en cuanto a modificaciones en la prosodia del texto sintetizado.

2. Selección de unidades

Anteriormente expuesto en este documento, se tiene ya mencionado que en la síntesis concatenativa se parte de fragmentos de voz previamente grabados por un profesional. A partir de estos fragmentos de voz es como se van a reconstruir diferentes palabras.

Se denomina síntesis de voz por unidades (Dutoit, 2008) a aquel tipo de síntesis, donde las frases sintetizadas son logradas a través de la concatenación de palabras completas extraídas de una base de datos -llamada también corpus- de frases pre-grabadas. A últimos años, los especialistas en síntesis de voz prefieren utilizar este sistema de selección unidades sobre otros, como el de fonemas o difonemas, ya que al trabajar con palabras o frases completas es posible mantener una mejor inteligibilidad y naturalidad en cada frase. Las distintas unidades de voz tienen un sistema de etiquetado el cual permite después ubicarlas como vectores de observación (Tokuda, Yoshimura, & Masuko, 2000; Tokuda et al., 2002) que son estados dentro del sistema de selección por modelos ocultos de Markov (HMM) -del que se hablará más adelante en el texto-. Otra manera de hacer la selección de unidades es por medio de un algoritmo estadístico de conjuntos de unidades con elementos comunes, de aquí se desprenden dos métodos propuestos por Alan Black: Clustering (Black & Taylor, 1997) y CLUSTERGEN (Black, 2006). Ambos métodos son la base de selección del conocido sistema de síntesis de voz FESTIVAL, desarrollado en conjunto por CMU y la Universidad de Edinburgo. Ejemplos de sonido de este sistema se puede escuchar en los audios:

Con el paso del tiempo, la selección de unidades utilizando HMM ha demostrado ser mucho más eficiente que los métodos basados en clusters por lo que incluso FESTIVAL la ha adoptado. Por esta razón no se hablará con detalle en el texto de los sistemas Clustering y CLUSTERGEN.

Referencias

Black, A. (2006). CLUSTERGEN: a statistical parametric synthesizer using trajectory modeling. INTERSPEECH. Retrieved from http://www.scs.cmu.edu/afs/cs.cmu.edu/Web/People/awb/papers/is2006/IS061394.PDF

Black, A., & Taylor, P. (1997). Automatically clustering similar units for unit selection in speech synthesis. Retrieved from https://www.era.lib.ed.ac.uk/handle/1842/1236

Camacho, A. H., & Ávila, F. D. R. (2013). Development of a Mexican Spanish Synthetic Voice Using Synthesizer Modules of Festival Speech and HTSStraight. International Journal of Computer and Electrical Engineering, 36–39. https://doi.org/10.7763/IJCEE.2013.V5.657

Dutoit, T. (2008). Corpus-Based Speech Synthesis. In Springer Handbook of Speech Processing (pp. 437–456). Berlin, Heidelberg: Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-540-49127-9_21

Taylor, P., Black, A., & Caley, R. (1998). The architecture of the Festival speech synthesis system. Retrieved from https://www.era.lib.ed.ac.uk/handle/1842/1032

Tokuda, K., Yoshimura, T., & Masuko, T. (2000). Speech parameter generation algorithms for HMM-based speech synthesis. , Speech, and Signal …. Retrieved from http://ieeexplore.ieee.org/abstract/document/861820/

Tokuda, K., Zen, H., & Black, A. (2002). An HMM-based speech synthesis system applied to English. IEEE Speech Synthesis Workshop. Retrieved from http://www.scs.cmu.edu/afs/cs.cmu.edu/Web/People/awb/papers/IEEE2002/hmmenglish.pdf

Black, A. (2006). CLUSTERGEN: a statistical parametric synthesizer using trajectory modeling. INTERSPEECH. Retrieved from http://www.scs.cmu.edu/afs/cs.cmu.edu/Web/People/awb/papers/is2006/IS061394.PDF

Black, A., & Taylor, P. (1997). Automatically clustering similar units for unit selection in speech synthesis. Retrieved from https://www.era.lib.ed.ac.uk/handle/1842/1236

Camacho, A. H., & Ávila, F. D. R. (2013). Development of a Mexican Spanish Synthetic Voice Using Synthesizer Modules of Festival Speech and HTSStraight. International Journal of Computer and Electrical Engineering, 36–39. https://doi.org/10.7763/IJCEE.2013.V5.657

Dutoit, T. (2008). Corpus-Based Speech Synthesis. In Springer Handbook of Speech Processing (pp. 437–456). Berlin, Heidelberg: Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-540-49127-9_21

Taylor, P., Black, A., & Caley, R. (1998). The architecture of the Festival speech synthesis system. Retrieved from https://www.era.lib.ed.ac.uk/handle/1842/1032

Tokuda, K., Yoshimura, T., & Masuko, T. (2000). Speech parameter generation algorithms for HMM-based speech synthesis. , Speech, and Signal …. Retrieved from http://ieeexplore.ieee.org/abstract/document/861820/

Tokuda, K., Zen, H., & Black, A. (2002). An HMM-based speech synthesis system applied to English. IEEE Speech Synthesis Workshop. Retrieved from http://www.scs.cmu.edu/afs/cs.cmu.edu/Web/People/awb/papers/IEEE2002/hmmenglish.pdf

Mezcla de Audio

Antes de hablar de la mezcla de audio, vale la pena presentar la descripción de un sistema de grabación de sonido:

La figura muestra el diagrama a bloques de un sistema de grabación de sonido. Como cualquier sistema físico está compuesto de entradas y salidas. En un esquema de audio sólo existen dos tipos de entrada: micrófono o línea. Tanto uno como el otro entran a un bloque de mezcla antes de pasar al sistema de grabación.

La mezcladora de audio como su nombre lo dice, permite mezclar dos o más señales de manera simultánea, permitiendo múltiples entradas a una sola salida. En términos musicales podemos tener varios instrumentos o voces sonando al mismo tiempo.

Pero además de actuar como un sumador de señales de audio el mezclador también permite regular la presencia que cada señal tendrá a la salida, para evitar por ejemplo que un instrumento de acompañamiento impida que se escuche con claridad la voz del cantante. La mezcladora tiene también un ecualizador con el cual podemos modificar las características acústicas de cada señal de audio que entra a la mezcladora. Como se vio en la primera sesión, los sonidos graves corresponden a bajas frecuencias y los agudos tienen equivalente en las frecuencias altas.

Hay varios tipos de mezcladores de audio pero todos tienen en común los siguientes controles: Ganancia de amplificación, ecualización y auxiliares.

Veamos cada uno a detalle.

Ganancia:


Este control nos permite modificar el grado de amplificación que se desea en la señal de entrada, en términos matemáticos la ganancia se define de la siguiente forma:

Señal de salida= Ganancia*Señal de entrada

La ecuación nos permite ver que la ganancia no es más que un factor multiplicador que incrementa la señal de entrada, por ejemplo, si la señal de entrada es igual a 20 dB, y la ganancia está sintonizada a 4, la señal de salida tendrá un valor de 80 dB.

Para utilizar un leguaje más musical podemos deducir que la ganancia nos permite controlar el volumen de la señal y nos permite generar sonidos más fuertes o más débiles. Por lo general el control de ganancia está marcado por el término en inglés GAIN.

Ecualización:

El siguiente elemento en común que encontramos en una mezcladora de audio es la sección de ecualización. La ecualización de audio nos permite interactuar con las frecuencias de una señal con objeto de realzar o atenuar determinados elementos.

Para apoyar esta sección, voy a valerme de un texto de J.J.G. Roy encontrado en la página http://www.sonidoyaudio.com.

Roy divide su sección hablando de diferentes márgenes de frecuencia: graves, medios y agudos y hace hincapié en que las frecuencias más problemáticas son aquellas entre los 300 Hz y 10 kHz, en donde el recomienda atenuar más que amplificar. Se habla de problemático dado que es en ese rango donde la mayor parte de los instrumentos musicales –incluida la voz humana- tienen presencia, por lo cual es muy difícil modificar un elemento sin alterar los demás.

GRAVES

20-50 Hz

Las frecuencias que la componen se sienten más que se escuchan. Corresponden a esa sensación que nos produce un automóvil con grandes bocinas para graves o los sonidos graves en un antro o baile: el sonido no es muy perceptible pero pueden moverse hasta los muebles.

“Es una banda que añade un matiz bastante orgánico a la mezcla, pero hay que tratarla con precaución porque si la amplificamos demasiado, nos encontraremos con una importante reducción del margen dinámico y, por tanto, una disminución del volumen final de la mezcla y, sobre todo menor definición de la misma”. Señala Roy en sonidoyaudio.com. Debemos tomar en cuenta que son pocos los equipos de audio domésticos que tienen capacidad de reproducir este rango de frecuencias por lo que no vale la pena hacer muchos ajustes a esta banda.

63-80 Hz

Si el bajo y el bombo han quedado algo apagados, esta es la banda que hay que modificar para conseguir esa pegada que andamos buscando. También añade calidez a la mezcla sin reducir la definición de las voces, guitarras o metales solistas.

Es importante no amplificar demasiado esta banda de lo contrario tendremos un sonido grave semejante a un bufido que hará vibrar demasiado los objetos cercanos a nuestras bocinas.

100-160 Hz

Si empleamos percusiones de mano (congas, instrumentos étnicos, etc), cuyo sonido tiene un fuerte componente resonante, el cual puede llegar a saturar la mezcla de bajos, esta es la frecuencia apropiada para recortar.

Esta banda es la que proporciona una buena calidad de graves en una zona destinada a ser reproducida en altavoces domésticos. Hay que tener cuidado con ella por los mismos motivos citados anteriormente, a los que hay que sumar la ecualización de las demás bandas de bajos.

200-250 Hz

Estas frecuencias suelen ser las culpables de un sonido demasiado cargado de graves en las guitarras acústicas. Un poco de ganancia en esta región puede añadir cuerpo a una mezcla demasiado fina, pero también se puede hacer que el bajo suene poco claro.

Para definir el bajo es más interesante recortar esta banda que aumentar los medios o agudos. La mezcla será más clara y cálida que si optamos por aumentar los agudos.

MEDIOS

315-400 Hz

Si la mezcla global parece velada y sin detalles, ésta es la banda que debe ser recortada; tanto con las pistas individuales como las vocales. Para mejorar la inteligibilidad de la mezcla, manteniendo la calidez, empezaremos a trabajar en esta banda, antes que aumentar los medios o agudos.

500-800 Hz

Un volumen demasiado alto de esta banda conferirá al sonido un aspecto duro o rígido; esto es, si el mazo del bombo parece estar golpeando una caja de cartón, o parece que la reverberación está demasiado realimentada. Esta banda suele disminuirse razonablemente para que la mezcla no pierda cuerpo pero sin que resulte desagradable.

1-2 kHz

Para mejorar la inteligibilidad sin añadir sibilancia se suele aumentar la ganancia de esta banda, porque suele devolver la claridad y frecuencia fundamental de las guitarras con demasiada distorsión.

Por otro lado, un aumento exagerado de esta banda puede hacer que el sonido de la mezcla se parezca más a un atasco de tráfico con todos los automóviles abusando del claxon.

AGUDOS

2,5 – 4 kHz

Esta es la zona en la que el oído humano es más sensible. Esto supone que, cualquier pista que necesite ser destacada de las demás, se beneficiará de un aumento de estas frecuencias, pero un aumento exagerado provocará una importante fatiga acústica. Si la mezcla suena demasiado agresiva o dura, tal vez esta banda esté demasiado alimentada en varias pistas.

Un error cometido frecuentemente sucede cuando de aumentan los agudos de la mezcla para compensar la propia fatiga acústica durante el trabajo. De este modo, cuando los oídos han descansado, pongamos pasadas unas horas, en la siguiente sesión de mezcla, ésta suena demasiado brillante y agresiva.

Normalmente se suele recortar esta banda y trabajar sobre otras.

5 – 10 kHz

En esta banda reside la mayor parte de la sibilancia vocal, aunque la de una voz femenina puede llegar hasta los 11 o 12 kHz. Pero, aunque rebajar la ganancia en estas bandas mejora los problemas de siseo, también reduce la articulación, expresividad, y respiración de la voz. Es por esto que, para evitar que el remedio sea peor que la enfermedad, se utilicen aparatos llamados de-esser.

Un aumento en la zona superior de esta banda supone destacar la vibración de la caja de la batería, el golpe de la baqueta sobre los aros y el chasquido de la maza en el bombo. Lógicamente, una ganancia exagerada provocará un exceso de siseo y agresividad.

Para completar la parte de ecualización adjunto una tabla con los equivalentes en frecuencia de los instrumentos más comunes.

Paneo:


Este control tiene una función simple: Distribuir el sonido del lado derecho o izquierdo de nuestro sistema estereofónico. Es importante utilizar el paneo para lograr una mayor espacialización del sonido, lo que auditivamente significa tener una aproximación de sonido similar a la que tendríamos de estar tocando los músicos frente a nosotros.
No hay una regla general de cómo distribuir las señales de izquierda a derecha, sin embargo se recomienda siempre en loa música popular hacerlo de la siguiente manera.

Auxiliares:


Esta sección nos permite controlar procesadores de sonido o efectos especiales conectados exteriormente a nuestro mezclador. Generalmente los procesos se controlan desde el dispositivo en sí, el control de auxiliar simplemente manipula la cantidad de efecto que se aplicará en la señal.

Dentro de los efectos más conocidos están el compresor, el ecualizador, el reverb o el distorsionador para guitarra.

Vale la pena hacer mención especial del compresor de audio, y ya que es uno de los procesos más comunes en el audio, he decido dar una entrada especial en el blog a dicho tema.

Fader:

Finalmente hablaremos del control de volumen deslizable conocido también como Fader (significa desvanecedor en inglés).

Este control nos permite manipular la intensidad de cada señal de forma individual, para dejar cada elemento en su debido lugar dentro de la mezcla, la idea de una buena mezcla es que cada parte se distinga perfectamente sin restar importancia la una a la otra. No existe tampoco una fórmula mágica de cómo hacer la mezcla. Todo queda en el gusto del productor, del artista o del ingeniero, sin embargo hay que considerar algunos puntos:

• La línea melódica principal debe ser escuchada en todo momento. En la música popular la línea melódica es por lo general la voz y es importante que se note con la mayor claridad posible.

• La batería y el bajo deben estar presentes dado que la primera lleva el pulso de la canción y el segundo la base armónica y ambas partes forman la estructura musical del tema.

• Los instrumentos de acompañamiento como piano o guitarra deben notarse sin destacar demasiado, su función es la de apoyar a la melodía principal.

• En caso de existir partes solistas de algún instrumento, por ejemplo la guitarra, el ingeniero de mezcla debe estar listo para dar mayor volumen a dicho instrumento en el momento de su solo y posteriormente regresar el volumen a su posición de acompañamiento.

Compresión de Audio

La compresión de audio consiste en manipular el rango dinámico de una señal de audio con objeto de volverla más uniforme.

¿Para qué comprimir?

Básicamente para poder restar volumen a las partes del sonido más fuertes (fortes) con objeto de disminuir el contraste con sus partes débiles (pianos). Esto nos permite aumentar el volumen general de la señal de audio sin riesgo a saturar en sus partes más fuertes.

¿En qué momentos se usa?

Es deseable en aquellos instrumentos que necesitan un ataque de forma regular y que en ocasiones el ejecutante no lo realiza como por ejemplo el bombo o la tarola en una batería. Inclusive puede ser el caso de cantantes que no dan todas sus notas con la misma intensidad.

En un compresor de audio se manipulan principalmente en cinco parámetros:

1. ¿A partir de que valor de amplitud vamos a comprimir?

2. ¿Qué tanto se va a comprimir?

3. ¿Qué tiempo debe ocurrir antes de que empiece a comprimir?

4. ¿Qué tiempo debe transcurrir para que deje de Comprimir?

5. ¿Qué valor se requiere en la amplitud final?

Contestaremos una a una las preguntas, la primera:

¿A partir de que valor de amplitud vamos a comprimir?

Es necesario establecer un valor de referencia a partir del cual el compresor va a comenzar a funcionar, este valor se conoce como “umbral” THRESHOLD y está dado en decibeles. A partir del valor que se establezca como Threshold es a partir de donde el sistema va a comprimir la amplitud de la señal, es decir valores arriba del THRESHOLD serán comprimidos y los valores por debajo quedarán intactos.

¿Qué tanto se va a comprimir?

El parámetro que establece el la relación de compresión se le llama RATIO y funciona de forma escalar, por ejemplo, si tenemos un valor pre-compresión de 10 dB y nuestro RATIO es 2:1, el valor pos-compresión será de 5 dB. Ver gráfica abajo.

¿Qué tiempo debe ocurrir antes de que empiece a comprimir?

Ningún sistema físico comienza a operar de forma instantánea, siempre transcurre un tiempo antes de que el sistema arranque. En el caso de un compresor el tiempo de arranque o ataque es mínimo y se mide en milisegundos, lo cual lo vuelve insignificante en términos humanos pero se vuelve significativo si consideramos que el sonido contiene frecuencias que si suceden en ese rango de tiempo. Por lo general el tiempo de arranque se le conoce como ATTACK TIME y tiene un rango de 10 ms a 50 ms.

¿Qué tiempo debe transcurrir para que deje de Comprimir?

Así como tiene que transcurrir un tiempo antes de que el sistema opere, también hay un tiempo necesario desde que el sistema deja de funcionar hasta que queda en reposo absoluto, este tiempo se le llama RELEASE TIME y al igual que el ATTACK se mide en ms, su rango normalmente es de 20 ms a 100ms aunque algunos sistemas tienen opción de dejar éste valor en automático para hacerlo menos susceptible de errores.

¿Qué valor se requiere en la amplitud final?

Es común que una señal después de comprimida tenga un nivel de atenuación tal que resulte difícil de escuchar, para ello se incorpora al sistema de compresión una ganancia de compensación que amplifica la señal una vez atenuada. Este valor se da también en dB y es recomendable ir compensando de 3 dB en 3 dB para poder escuchar una diferencia sin riesgo a amplificar demasiado.

Por lo general los programas de software que incorporan un sistema de compresión se explican a través de una gráfica similar a esta:

La gráfica explica que con una relación de compresión RATIO 1:1, la señal de entrada (Input level) es idéntica a la señal de salida (Output level) mientras que a medida que el RATIO va variando 2:1 o 4:1 la señal de salida decrece con respecto a la señal de entrada.

Síntesis Aditiva

Sintesis Aditiva

La síntesis aditiva consiste en hacer una suma de diferentes componentes armónicos cuyos valores son iguales a los de los armónicos que produce cierto instrumento acústico para crear un sonido nuevo o bien recrear sonidos de instrumentos acústicos.

Antes de entrar en detalle vale la pena especificar algunos conceptos, en primer lugar qué es síntesis.

En la música se denomina síntesis al proceso de crear sonidos nuevos a partir de características de sonidos acústicos por medio de procesos electrónicos digitales o analógicos.

En síntesis musical, cuando se habla de instrumento se refiere a un algoritmo que permite a una computadora producir un sonido.

Este algoritmo esta compuesto por elementos variables, dependiendo del sonido que se vaya a producir. Por ejemplo para un instrumento que haga un solo tono, hay tres elementos variables : amplitud, frecuencia y duración.

Normalmente el número de variables a manejar depende de la complejidad del timbre del sonido que se desea crear. Mientras más complejo es el timbre más variables hay que manejar, es por eso que en muchas ocasiones el sonido sintetizado de cierto instrumento difícilmente se llega a confundir con el instrumento real.

Debido a la complejidad que implica manejar todas las variables, los programas de síntesis emplean por lo general elementos previamente diseñados conocidos como Generadores Unitarios.

De este modo, el músico no necesita poner atención al detalle del funcionamiento de cada generador sino que puede interconectar dos o más generadores para producir sonidos.

Existe un modo aún más cómodo para manejar la síntesis que consiste en manejar paquetes compuestos por las interconexiones de estos generadores unitarios. De ahí se desprenden diferentes tipos de síntesis: aditiva, sustractiva, síntesis por análisis, síntesis por distorsión, síntesis granular.

Finalmente existe el modelado físico, en éste tipo de síntesis es importante conocer las características físicas de un instrumento musical para posteriormente ser reproducidas matemáticamente e implementadas en una computadora.

Hay algunos elementos básicos necesarios para hacer síntesis aditiva, ellos son el oscilador y el generador de envolvente. Como su nombre lo indica, hay que hacer una suma de varios osciladores que nos darán como resultado un sonido único. Como se ha mencionado anteriormente en este blog, todo sonido musical está compuesto en diferentes fracciones de tono llamados armónicos.

En la síntesis aditiva se pretende simular electrónicamente este fenómeno poniendo a cada oscilador a una frecuencia armónica distinta. Más adelante damos un ejemplo de ésto, a continuación se detalla la función del oscilador.

El oscilador

El elemento básico de un esquema de síntesis es el oscilador. Un oscilador es un sistema capaz de producir una señal periódica, esa señal es normalmente una forma de onda creada a partir de una secuencia de números. El oscilador tiene dos parámetros principales a controlar: frecuencia y amplitud.

Generadores de envolvente ( elemento ADSR)

Muchos instrumentos musicales electrónicos utilizan generadores de envolvente. Las cuales permiten moldear el sonido con respecto al tiempo. Tal como ocurre con los sonidos cuando suceden en un medio físico. Si graficamos la evolución de un tono con respecto al tiempo, vemos un comportamiento que involucra cuatro eventos: Ataque, decaimiento, sostenimiento y liberación. El acrónimo para denominar a un generador de envolvente toma las primeras letras de los nombres de estos conceptos en inglés.

Haciendo una analogía con elementos de la vida cotidiana pensemos que la síntesis es como una escultura. El oscilador es el mármol y el generador de envolvente es ell cinzel que nos permite moldearlo a la forma que queremos.

Ejemplo de utilización de Síntesis aditiva

Vamos a ejemplificar de manera conceptual la utilización de éste tipo de síntesis, este ejemplo bien puede implementarse en algún programa de cómputo como puede ser PD.

Generación de un sonido de piano a utilizando síntesis aditiva:

Paso 1

Para llevar a cabo la implementación es necesario conocer los valores de los diferentes parámetros que se van a implementar, en este caso los valores de ADSR y las frecuencias de los distintos armónicos que posee un sonido de piano.


En este caso los tome prestados del sitio web:http://www.zytrax.com/tech/audio/digital-sound.html a quién agradezco de antemano. Todos los sonidos se tomaron a partir de la nota Do central (C4) de un piano Steinway en la Universidad de Iowa.

Los valores de la envolvente:

Parámetro Amplitud (dB) tiempo (segundos)
Ataque (Attack) 0.9 0.3
Decaimiento (Decay) 0.5 0.4
Sostenimiento (Sustain) 0.3 0.5
Liberación (Release) 0.1 0.8


Los valores de los armónicos son:

Armónico
Frequency
dB
1er (Fundamental)
262
1.2
525
-4
788
-16
1051
-16
1317
-19
1583
-17
1849
-14



A partir de aquí ya podemos implementar el sintetizador en algún programa como PD. Como se muestra en la figura abajo. Ahí tenemos un generador de envolvente, que va a modificar las amplitudes de cada oscilador. En la figura se muestran el oscilador 1 y 2 y se asume que van conectados del 3 al 7. Las salidas de cada oscilador se suman entre sí produciendo un solo sonido.



Como vimos en este ejemplo es necesario tener siente osciladores conectados cada uno con su respectiva frecuencia y amplitud, esto nos da 14 parámetros a manipular más los 4 del generador de envolvente son 18 parámetros. En la práctica resulta difícil manipular 18 variables a la vez por lo que normalmente en un sintetizador se van pre-cargando los respectivos valores de antemano.

Podemos concluir que aún con sus limitaciones prácticas la síntesis aditiva es sólo una de las formas de hacer síntesis y resulta útil en determinadas aplicaciones.



Tecnología Musical Sesión 2: Grabación de audio mediante una PC

En esta sesión básicamente se dará una guía a manera de receta de cocina para realizar una grabación de audio en la computadora utilizando el programa Cubase de la compañía alemana Steinberg.

La grabación que se llaverá a cabo consiste en generar un acorde a tres voces con tres pistas de audio utilizando una voz diferente en cada pista.

Se describen a continuación los pasos a seguir, para mayor claridad se inlcuye un video guía.

1. Ejecutar CUBASE y crear una carpeta de trabajo. Es importante entender que en este programa de audio hay que especificar una carpeta de archivos en donde el programa almecanará automáticamente todos los archivos de audio con los que vamos a trabajar.

2. Crear nuevas pistas de audio en donde se va a grabar

3. Checar que haya señal de entrada y que ésta no rebase los 0 db, de lo contrario habrá saturación de audio.

4. Comenzar la grabación presionando “Record” en la barra de transporte.

5. Seleccionar el audio grabado.

6. Exportar el audio a algún tipo de archivo de sonido (ej. .wav, .mp3, etc.)

Básicamente estos son los pasos a seguir pero se detalla más en el siguiente video:

Este archivo de audio generado ya puede ser utilizado para quemar en un CD o almacenar en un reproductor.

Para conlcuir cabe mencionar lo siguiente:

“Un archivo de audio generado a partir de dos o más pistas (tracks) no pude descomponerse en los sonidos que originales que lo conforman”

En el momento en que exportamos las pistas para generar un archivo único ya sea mono o stereo, la información en bits que continen los diferentes sonidos codificados se combina en un solo archivo.

Para términos digitales es irrelevante si se trata de una sola trompeta o un conjunto de metales. Considero importante mencionar lo anterior ya que en diferentes ocasiones me han hecho la siguiente pregunta:

“¿Es posible quitarle la voz a una canción en un CD?”

La respuesta lamentablemente es NO, hasta ahora no existe ningún sistema harware o software que analice un tema musical, identifique los timbres de cada uno de los instrumentos que lo componen y los separe. Es muy difícil que lo lleguemos a ver porque los timbres de los diferentes instrumentos guardan muchos elementos en común y para que un sistema puediera hacer un analisis preciso nesecitaria comparar muchísimos parámetros.

Aunque como dicen difícil no es imposible. Hasta ahora lo más cercano a esos sistemas son los aparatos de Karaoke que hacen combinaciones con los canales izquierdo y derecho de un sonido grabado en estéreo y en algunos casos puede crearse la ilusión de que efectivamente la voz ha desaparecido por completo.

Tecnología Musical Sesión 1: Fundamentos de Acústica

Bien sabido es que la acústica es una rama de la física que se dedica al estudio del sonido. En un curso de tecnología musical es conveniente conocer algunos de los principios fundamentales de la acústica para un mejor manejo de las herramientas tecnológicas que se usan en la música.
No es necesario volverse expertos en este campo de la física, únicamente se verán ciertos conceptos de forma general, estos son: Onda sonora, frecuencia y amplitud.

Onda Sonora

Se define como onda sonora al resultado de cambio de presión en algún medio como agua, aire o cualquier otro cuerpo líquido o sólido. Por lo general ese cambio de presión es producido por el movimiento vibratorio de algún cuerpo.
Y que estamos hablando de música vamos a ejemplificar este fenómeno utilizando el instrumento musical más común: la voz humana.
Imaginen a una persona cantando, imaginen ahora que pudiéramos ver el efecto que su voz causa en el aire. El aire aparentaría moverse hacia delante y hacia atrás de manera constante. Ese mismo fenómeno ocurre con cualquier cuerpo que tenga capacidad de vibrar por ejemplo un diapasón. La imagen de abajo nos ejemplifica como se movería el aire al hacer vibrar un diapasón.

Fig. 1 “Onda Sonora”

Como cualquier fenómeno físico, la onda sonora se puede analizar cuantitativamente, es decir, hay manera de medirla. Si se hiciera una gráfica de la onda con respecto al tiempo tendríamos una figura con la siguiente forma:

Fig 2. “Gráfica de onda”

La gráfica como bien podemos ver está formada por una figura repetitiva de picos, denotados en el dibujo por la palabra “high” y valles denotados por “low”. Estos picos y valles representan la intensidad del sonido, es decir mientras más fuerte sea el sonido más grande será la altura del pico y mientras más quedo sea la altu7ra del pico será menor. Cuando se habla de ondas, el término que se usa para definir dicha altura de pico se conoce como Amplitud y se mide en decibeles (dB).

Fig 3. “Periodo o ciclo”

En la figura podemos observar también que el patrón de onda tiende a repetirse, la figura 3 muestra encerrados en recuadros esos patrones repetitivos, ese patrón se repite en un determinado lapso de tiempo y se conoce como ciclo o periodo. Si miramos nuevamente la figura tres vemos que tenemos 3 periodos. Si hablamos de sonido no nos interesa conocer un solo periodo dado que en una onda sonora aparecen muchísimos periodos o ciclos por lo que se considera evaluar el número de ciclos que ocurren en un tiempo determinado. Para medir el número de ciclos en un tiempo determinado nos valemos del concepto de Frecuencia su unidad métrica son los Herz (Hz).

La frecuencia es un término que ocupamos en nuestra vida diaria, por ejemplo ustedes como alumnos toman la clase de tecnología musical una vez cada semana (siempre y cuando venga el maestro), esa sería la frecuencia con la que toman la clase y el periodo o ciclo corresponde al momento en que ustedes están sentados escuchando al fulano parado frente al pizarrón hablando de conceptos un poco extraños para un músico.

Al igual que la amplitud corresponde a la intensidad del sonido la frecuencia tiene una correspondencia acústica al tono o altura del sonido, es decir que tan grave o tan agudo es el sonido.

“Las frecuencias bajas corresponden a sonidos graves y las frecuencias altas
corresponden a sonidos agudos”

Para concluir este primer tema del curso voy a dar algunas cifras interesantes que estaremos manejando a lo largo del mismo.

Rangos auditivos frecuencia y amplitud

El oído humano tiene capacidad limitada para escuchar, a partir de los 110 dB se conoce como umbral de dolor y el oído se puede dañar si se expone a etsos niveles por epriodos de tiempo prolongados. Este tipo de intensidades mayores a 110 dB se producen por maquinaria pesada de construcción o estar pegado a la bocina en un concierto de Rock masivo.

Amplitud (en decibeles dB)

  • Rango auditivo humano máximo 120 dB (sonido de Jet al despegar)
  • Rango auditivo humano mínimo 0 dB (voz hablando en susurros)

Frecuencia (en Herz Hz)

  • Rango auditivo máximo 20 000 (20 kHz)
  • Rango auditivo mínimo 20 Hz

Equivalente en frecuencias de las notas musicales

Cada nota en la escala musical tiene un equivalente valor en frecuencia. Observen la tabla para comprobar que las octavas superiores corresponden a duplicar el valor de la frecuencia, por ejemplo el La4 a 440 Hz y el La5 a 880Hz y las octavas inferiores equivalen a dividir la frecuencia por 2, el La4 es 440 Hz y el La3 220 Hz. Para ver de cerca los valores dar click sobre la imagen y amplicar con el click del mouse.


Timbre

Finalmente vamos a definir el concepto de Timbre. Cuando se produce una onda sonora, ésta viene simpre acompañado de ondas secundarias (salvo casos experimentales como la onda senoidal) cada una de éstas ondas tiene una frecuencia distinta a la de la onda fundamental. A éstas frecuencias secundarias se les conoce como armónicos.

Todos hemos comprobado de manera empírica cuando pulsamos la cuerda de una guitarra o la tecla de un piano, que no sólo suena la nota en cuestión sino aparecen otros sonidos de menor intensidad. Esos precisamente son los armónicos.

Y a la forma en cómo están dispuestos los armónicos que acompañan a una onda sonora -o sonido fundamental- se le conoce como TIMBRE.

El timbre es la “huella digital” de los instrumentos musicales, ya que éstos nunca son idénticos debido a las características físicas del instrumento que los produce. Por eso no suena igual el La5 de un piano que el La5 de un violín.

Si lo llevamos a otros ámbitos es el timbre en la voz de una persona los que permite distinguirla de otra.

Con esto concluye el primer tema de la materia de Tecnología Musical, cualquier duda no duden en escribir al correo electrónico especificado en la página.

Plan de trabajo de Tecnología Musical 1

Ya llevamos 10 años impartiendo este curso por lo que en vista de las observaciones de quien lo imparte, hemos organizado un poco distinto el programa. Quienes deseen una copia pueden descargarlo en archivo .pdf Programa_Tecnología_Musical_I

Serán a lo largo del curso un total de 8 a 10 sesiones. Los días y horas de las mismas los tienen en su horario de clases o previamente acordados con un servidor. Aquí un breve resumen de lo que hablaremos en cada sesión, un detalle de los temas está en el archivo arriba adjunto.

  1. Conceptos Básicos de Producción Musical
  2. El papel del Productor
  3. El Papel de Ingeniero
  4. Uso de MIDI como herramienta en la producción musical
  5. Edición de Audio
  6. Mezcla de Audio
  7. Procesos y Efectos
  8. Masterizado

Tecnología-Music