Recursos de audio de tesis doctoral

Se incluyen los archivos de sonido mencionados en la tesis doctoral y en el libro Sistema de Síntesis de Voz en español de México.

fest_diphone_ked.wav

fest_diphone_rab.wav

fest_diphone_esp.wav

sintesis_lpc_after.wav

sintesis_lpc_before.wav

salida_psola.wav

salida_psola_entonacion.wav

td_psola_pruebasonido.wav

fest_clunits_esp.wav

fest_multisyn.wav

Síntesis de Voz, Resumen de los métodos más representativos

Desde principios del siglo XX se han realizado distintos esfuerzos para generar “máquinas parlantes”, o de manera más correcta: Realizar Síntesis de Voz. Sin embargo, a casi un siglo de que apareció el primer sintetizador de voz eléctrico de Homer Dudley que se tiene documentado (“Homer Dudley’s Speech Synthesisers,” n.d.) llamado VODER (ver figura).  No se ha terminado de lograr el sueño de tener un sistema de síntesis de voz que resulte indistinguible de la voz humana. Si bien las voces sintéticas de la actualidad cumplen casi cabalmente el requisito de inteligibilidad, aún no es así con el de la expresión. La combinación de estos dos es lo que dota de naturalidad a los sistemas de voz artificial.

Existen tres sistemas de síntesis vocal: síntesis de formantes, síntesis articulatoria y síntesis concatenativa. A continuación, se explica con detalle en que consiste cada uno.

 

  1. Síntesis de Formantes

Se define como frecuencias formantes a aquellas frecuencias características de un fonema. Tales sonidos permanecen constantes en cada emisión de frase, independientemente de la entonación o intensidad con la que la frase haya sido producida. Gracias a ésta característica sabemos que los fonemas pueden ser identificados en todo momento por estas frecuencias.

Fisiológicamente hablando, las formantes son resultado de las resonancias producidas a lo largo del tracto vocal de la onda sonora proveniente de la glotis que tuvo su origen en la vibración de las cuerdas vocales producida por una corriente de aire en los pulmones.

En la voz humana existen dos tipos de sonidos: vocales y sordos o no-vocales, los primeros son resultado de la vibración de las cuerdas vocales y los segundos resultan del flujo de aire que pasa directamente de los pulmones al tracto vocal.

Este proceso de generación artificial de formantes se puede lograr en un sistema de procesamiento de señales electrónicas. La señal proveniente de las cuerdas vocales se simula con una fuente sinusoidal. Los sonidos no-vocales, por su parte, se emulan a través de una fuente de ruido blanco. Las frecuencias formantes se logran pasando dicha fuente a través de un conjunto de filtros pasa banda. Un modelo que ha sido referente en este tipo de sistemas de fuente-filtros es el sintetizador de Klatt (Klatt, 1982) el cual fue de los primeros sistemas de síntesis en software cuyo algoritmo y código fuente se publicaron a detalle.

  1. Síntesis Articulatoria

La síntesis articulatoria está basada principalmente en el trabajo de Fant (Fant, 1970) que comenzó desde principios de los 60. Este tipo de síntesis pretende modelar las características físicas haciendo un estudio de la geometría del tracto vocal, principalmente de su largo y su área transversal. Posteriormente mediante ecuaciones de movimiento de fluidos se hace un modelo matemático de los fenómenos acústicos que tienen lugar adentro del tracto.

El concepto físico de la presión que el aire ejerce sobre el tracto vocal, así como el chorro de aire que viaja dentro de él se simplifica observando el tracto vocal como una serie de tubos interconectados. Así como el tejido del tracto vocal cambia su grosor de acuerdo con el sonido que se emite, cada uno de estos tubos tiene un diámetro distinto correspondiente a un fonema determinado.

Este modelo tubular es referente en dos tipos de síntesis: la de circuitos acústicos y la de Linear Predictive Coding o LPC. Se hablará de LPC y cómo utiliza el modelo tubular más adelante en este documento, en lo referente a circuitos acústicos podemos mencionar que el modelo tracto vocal-tubular fue muy popular a mediados del siglo veinte ya que constituyó el principio para la elaboración de una familia de sintetizadores de voz eléctricos.

Muchos de ellos fueron llevados a la práctica utilizando analogías acústicas-eléctricas. Destaca el trabajo de Stevens, Kasowski con Fant (Stevens, Kasowski, & Fant, 1953). La síntesis articulatoria perdió un poco de popularidad durante los 60 y 70, no fue sino hasta 1982 con el trabajo de Maeda que se reutilizó la analogía electro-acústica y sin duda al día de hoy el trabajo más relevante donde se emplea síntesis articulatoria es Vocal Tract Lab (Birkholz & Jackel, 2003; Birkholz, Jackèl, & Kroger, 2006), el cual continúa vigente en su interesante proyecto en el sitio vocaltractlab.

  1. Síntesis Concatenativa

Sin importar cómo fueron generados los fonemas, ya fuera grabadas por una persona o mediante una parametrización de la que se hablará más adelante. Para hacer síntesis es necesario es necesario enlazar los fonemas uno con otro luego de ser producidos. A este tipo de síntesis de voz se le conoce como síntesis concatenativa.

La síntesis concatenativa es la más eficiente en sistemas de síntesis al día de hoy. En la síntesis concatenativa se pueden modificar más detalladamente las unidades mínimas de lenguaje logrando una mayor naturalidad cuando éstos se producen.

Como consecuencia de lo anterior, la inteligibilidad y entonación de una voz artificial de síntesis concatenativa superan a aquellas logradas con síntesis articulatoria o con síntesis de formantes.

Los métodos para emular la prosodia (tono y duración) en la concatenación de las palabras son principalmente los basados en el principio de Suma-Traslape (Overlap-Add), en estos métodos destacan PSOLA, MBROLA y selección de unidades.

Se dice que (Dutoit, 2008) para producir lenguaje hablado de manera inteligible, se requiere de la habilidad de generar lenguaje continuo coarticulado. Lo cual nos conduce a pensar que los puntos de transición entre fonemas son mucho más importantes para la inteligibilidad de lo que son los segmentos estables. Incluso los fonemas vocales largos y sostenidos varían en amplitud y frecuencia, además de que contienen elementos inarmónicos.

Con base en éste argumento, la síntesis de voz concatenativa busca inteligibilidad “pegando” trozos de habla en lugar de fonemas aislados. Esto conlleva a una mejor coarticulación.

 

  1. Síntesis Concatenativa basada en Difonemas

Un primer intento de lograr una concatenación más precisa es mediante el uso de difonemas como unidades mínimas para producir lenguaje hablado.

Normalmente, el difonema comienza y termina con una parte estable como se muestra en la figura

El problema es que la cantidad de difonemas presentes en un idioma es enorme. Típicamente una base de datos de difonemas es de al menos 1500 unidades.  En términos prácticos, tres minutos de habla muestreados a 16 KHz con resolución de 16 bit suman alrededor de 5 MB.

Para resolver este problema, se busca una lista de palabras donde aparezca al menos dos veces cada difonema. El texto se lee por un locutor profesional para evitar mucha variación en tono y articulación. Posteriormente, los elementos elegidos son marcados mediante herramientas de visualización o algoritmos de segmentación. Finalmente se recolectan en una base de datos.

A groso modo, la manera en cómo se lleva a cabo la síntesis es la siguiente:

  1. El sintetizador recibe la entrada fonética y se realiza un procesamiento previo de lenguaje (se hablará más delante de dicho proceso).
  2. Se establece duración, tono y tipo de fonema.
  3. Se recolecta de la base de datos una serie de fonemas candidatos para llevar a cabo la síntesis.

Normalmente los fonemas elegidos difícilmente reúnen de manera natural los requerimientos para darle a la frase producida la suficiente inteligibilidad por lo que hay que realizar dos tareas adicionales. La primera tarea consiste en hacer modificaciones en la prosodia. La segunda tarea tiene que ver con la “suavización” de las transiciones de los difonemas ya que son muy notorias debido a las ya mencionadas variaciones de amplitud y frecuencia.

Algunos ejemplos de síntesis por difonemas se encuentran en los audios a continuación:

Todas las voces son originales de FESTIVAL y se pueden encontrar detalles del sistema en su sitio oficial. La primera frase es inglés americano, la segunda inglés británico y la cuarta español europeo.

Bilbliografía

Birkholz, P., & Jackel, D. (2003). A three-dimensional model of the vocal tract for speech synthesis. Of the 15th International Congress of  …. Retrieved from http://rickvanderzwet.nl/trac/personal/export/360/liacs/API2010/workshop1/birkholz-2003-icphs.pdf

Birkholz, P., Jackèl, D., & Kroger, B. (2006). Construction and control of a three-dimensional vocal tract model. Acoustics, Speech and Signal. Retrieved from http://ieeexplore.ieee.org/abstract/document/1660160/

Dutoit, T. (2008). Corpus-Based Speech Synthesis. In Springer Handbook of Speech Processing (pp. 437–456). Berlin, Heidelberg: Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-540-49127-9_21

Fant, G. (n.d.). Acoustic theory of speech production : with calculations based on X-ray studies of Russian articulations. Retrieved from https://books.google.com.mx/books/about/Acoustic_Theory_of_Speech_Production.html?id=qa-AUPdWg6sC&redir_esc=y

Homer Dudley’s Speech Synthesisers. (n.d.). Retrieved from http://users.polytech.unice.fr/~strombon/SSI/z.Supplements/vocoder/http___www.obsolete.pdf

Klatt, D. H. (n.d.). Software for a cascade/parallel formant synthesizer. Retrieved from http://www.fon.hum.uva.nl/david/ba_shs/2009/klatt-1980.pdf

Stevens, K., Kasowski, S., & Fant, C. (1953). An electrical analog of the vocal tract. The Journal of the Acoustical. Retrieved from http://asa.scitation.org/doi/abs/10.1121/1.1907169

Síntesis de Voz Usando Line Spectral Pair

Line Spectral Pair (Itakura, 1979) es un método de parametrización, o cuantización de una señal de voz que parte del ya mencionado Linear Predictive Coding. Se genera a partir de la ecuación (1) del filtro A(z) que representa el tracto vocal.

 

Se plantea que en el polinomio de los coeficientes del filtro se agregan un par de elementos P(z) y Q(z) que representan la glotis en el momento de abrirse y de cerrarse respectivamente. De ahí que uno lleve signo positivo y otro negativo, se representa como (2) y (3)

 Donde P(z) y Q(z) se relacionan con (1) de la siguiente forma:

 

En la práctica, la glotis nunca está totalmente cerrada ni totalmente abierta (McLoughlin, 2009). Esto significa que los polinomios añadidos son al final de cuentas más elementos para cuantizar nuestra señal de voz, consiguiendo darle más naturalidad que cuando se limita a la representación con coeficientes LPC.

Otra ventaja que tiene este sistema de parametrización es que las raíces del polinomio (2) corresponden específicamente a las frecuencias formantes de la señal de voz parametrizada. A partir de ahí podemos llevar a cabo reconocimiento y/o síntesis de voz. A éste conjunto de frecuencias obtenidas se le conoce como Line Spectral  Frequencies o LSF.

La figura 1. Muestra gráficamente la comparación entre LPC y LSP. La gráfica azul está formada a partir de los valores en LPC y los puntos rojos y verdes corresponden a P(z) y Q(z) respectivamente. Podemos apreciar una mayor cantidad de puntos cuando se incluyen los polinomios, esto en la práctica nos da una representación de señal de voz mucho más completa que al utilizar LPC.

Figura 1. Representación gráfica de LSP contra LPC

El audio a continuación nos permite escuchar una señal de voz orignal y su versión sintetizada utilizando LSP como parametrización.

Referencias

Itakura, F. (1975). Line spectrum representation of linear predictor coefficients of speech signals. The Journal of the Acoustical Society of America57(S1), S35-S35.

McLoughlin, I. V. (2008). Line spectral pairs. Signal processing88(3), 448-467.

Using LSP as an alternative to MFCC in speech parameterization

Mel Frequency Cepstral Coefficients (MFCC) have been the standard for voice parameterization over the last ten years. Such parameterization scheme works fine in speech recognition given its reduced size and its effectiveness to capture the most essential features of a speech signal.

For synthesis on the other hand, MFCC do not seem to create a convincing voice model on the long term. The author and colleagues investigated such aspect through Mean Opinion Score (MOS) tests, were the listeners had to grade from 0 to 5 phrases produced on the first place by a human speaker followed by a synthesized version of the same phrase using MFCC as speech parameterization (Franco, et. Al. 2016). The results were above the average in both intelligibility and naturalness (3.44 and 3.07 respectively) but it proves that room for improvement exists.

A new study took place (Franco, Herrera 2016). For this study, a different parameterization was included and compared to the previous study where MFCC were used. The chosen parameterization was Linear Spectral Pair (LSP), the theory behind it can be found in  a paper by McLoghlin (2008). The authors decided to test it for two main reasons: First, LSP is based on the Linear Predictive Coding (LPC) voice parameterization which models the human vocal tract as a filter. The spectra obtained based on vocal tract models tend to resemble natural speech remarkably. The second reason to use it, comes from its high compatibility with the synthesizer used by the authors which is based on the work of Tokuda and colleagues: Hidden Markov Models as Text to Speech synthesis HTS. That system is pre-programmed with a general parametrization which can be decomposed in both MFCC and LSP (Tokuda, et. al. 1994).

The results from that study averaged 3.4 in naturalness and 3.6 in intelligibility, the numbers are close to those obtained with the MFCC parameterization but the variance found in the grades given by the listeners in the LSP study is much less than the variance found in the MFCC study. This shows that the opinions among the LSP study listeners are much more consistent, therefore the quality of the synthesis is better in general.

Another conducted test was to input the synthesized speech in a Recognition system for forensics application. It was then compared with the original speaker whose voice the system was based on. It showed 0.0072 between original speech and synthesized speech. The closer the distance is to zero, the closer is the synthesis to an ideal case where no difference would appear between artificial and natural speech.

In terms of size LSP speech parameterization files are smaller than MFCC parameterization files this reduction can be important in terms of data transferring and data storing economization.

The authors consider LSP speech parameterization as a new standard in future studies in Laboratorio de Tecnologías del Habla FI UNAM.

 

 

References

Franco, C., Herrera Camacho, A. and Del Rio Avila, F. “Conference Proceedings: Speech Synthesis of Central Mexico Spanish using Hidden Markov Models” Athens: ATINER´S Conference paper Series, No: COM2016-2071, 3-12, 2016, Athens Institute for Education and Research

Franco Galván, Carlos Angel. Herrera Camacho, José Abel. Del Río Ávila, Fernando. “Conference Proceedings: Síntesis de Voz en Español hablado en el Centro de México Utilizando MFCC´s y LSP´s” IEEE ROC&C , 2016

McLoughlin, I. V. (2008). Line spectral pairs. Signal processing, 88(3), 448-467.

Tokuda, K., Kobayashi, T., Masuko, T., & Imai, S. (1994, September). Mel-generalized cepstral analysis-a unified approach to speech spectral estimation. In ICSLP (Vol. 94, pp. 18-22).

Tecnología Musical I: Apuntes Sesión 1

Pre-Producción 

¿Por qué es Importante? Ahorro de tiempo, energía, dinero

  • Arreglos
  • Ensayos
  • Demos (Maquetas)

Selección de las canciones dentro de contexto del disco

Solidez rítmica-armónica (batería-bajo). Fundamentos  de la producción.

Es en esta etapa donde se deben hacer los cambios para tener un buen resultado final.

Cortinas Sonoras: El sonido va en diferentes capas. Éstas capas están distribuidos en diferentes puntos del espacio.  (Se profundizará sobre ésto cuando veamos paneo.)

Cada canción tiene mucho que ver con la forma en cómo se realizará la ejecución.

Video de apoyo:

 

 

 

Aplicación sencilla del concepto “Circuitos-Acústicos”

Aquí les comparto algo del material que estoy utilizando para mi proyecto de tesis doctoral: “Implementación de un sintetizador de voz en español mexicano”. Cualquier duda o comentario no duden en escribir. Favor de dar click en el vínculo abajo para descargar archivo:

Descargar artículo en pdf

 

Tipos de Micrófonos y sus principios físicos

Interesantes videos que sirven de apoyo a la clase sobre micrófonos o Transductores acústicos.

El primero tiene que ver sobre micrófonos y dos de sus principales variantes: Dinámico y de Condensador.

Este otro video se comparte para demostrar el sencillo principio de operación de un micrófono dinámico

Mezcla de Audio

Antes de hablar de la mezcla de audio, vale la pena presentar la descripción de un sistema de grabación de sonido:

La figura muestra el diagrama a bloques de un sistema de grabación de sonido. Como cualquier sistema físico está compuesto de entradas y salidas. En un esquema de audio sólo existen dos tipos de entrada: micrófono o línea. Tanto uno como el otro entran a un bloque de mezcla antes de pasar al sistema de grabación.

La mezcladora de audio como su nombre lo dice, permite mezclar dos o más señales de manera simultánea, permitiendo múltiples entradas a una sola salida. En términos musicales podemos tener varios instrumentos o voces sonando al mismo tiempo.

Pero además de actuar como un sumador de señales de audio el mezclador también permite regular la presencia que cada señal tendrá a la salida, para evitar por ejemplo que un instrumento de acompañamiento impida que se escuche con claridad la voz del cantante. La mezcladora tiene también un ecualizador con el cual podemos modificar las características acústicas de cada señal de audio que entra a la mezcladora. Como se vio en la primera sesión, los sonidos graves corresponden a bajas frecuencias y los agudos tienen equivalente en las frecuencias altas.

Hay varios tipos de mezcladores de audio pero todos tienen en común los siguientes controles: Ganancia de amplificación, ecualización y auxiliares.

Veamos cada uno a detalle.

Ganancia:


Este control nos permite modificar el grado de amplificación que se desea en la señal de entrada, en términos matemáticos la ganancia se define de la siguiente forma:

Señal de salida= Ganancia*Señal de entrada

La ecuación nos permite ver que la ganancia no es más que un factor multiplicador que incrementa la señal de entrada, por ejemplo, si la señal de entrada es igual a 20 dB, y la ganancia está sintonizada a 4, la señal de salida tendrá un valor de 80 dB.

Para utilizar un leguaje más musical podemos deducir que la ganancia nos permite controlar el volumen de la señal y nos permite generar sonidos más fuertes o más débiles. Por lo general el control de ganancia está marcado por el término en inglés GAIN.

Ecualización:

El siguiente elemento en común que encontramos en una mezcladora de audio es la sección de ecualización. La ecualización de audio nos permite interactuar con las frecuencias de una señal con objeto de realzar o atenuar determinados elementos.

Para apoyar esta sección, voy a valerme de un texto de J.J.G. Roy encontrado en la página http://www.sonidoyaudio.com.

Roy divide su sección hablando de diferentes márgenes de frecuencia: graves, medios y agudos y hace hincapié en que las frecuencias más problemáticas son aquellas entre los 300 Hz y 10 kHz, en donde el recomienda atenuar más que amplificar. Se habla de problemático dado que es en ese rango donde la mayor parte de los instrumentos musicales –incluida la voz humana- tienen presencia, por lo cual es muy difícil modificar un elemento sin alterar los demás.

GRAVES

20-50 Hz

Las frecuencias que la componen se sienten más que se escuchan. Corresponden a esa sensación que nos produce un automóvil con grandes bocinas para graves o los sonidos graves en un antro o baile: el sonido no es muy perceptible pero pueden moverse hasta los muebles.

“Es una banda que añade un matiz bastante orgánico a la mezcla, pero hay que tratarla con precaución porque si la amplificamos demasiado, nos encontraremos con una importante reducción del margen dinámico y, por tanto, una disminución del volumen final de la mezcla y, sobre todo menor definición de la misma”. Señala Roy en sonidoyaudio.com. Debemos tomar en cuenta que son pocos los equipos de audio domésticos que tienen capacidad de reproducir este rango de frecuencias por lo que no vale la pena hacer muchos ajustes a esta banda.

63-80 Hz

Si el bajo y el bombo han quedado algo apagados, esta es la banda que hay que modificar para conseguir esa pegada que andamos buscando. También añade calidez a la mezcla sin reducir la definición de las voces, guitarras o metales solistas.

Es importante no amplificar demasiado esta banda de lo contrario tendremos un sonido grave semejante a un bufido que hará vibrar demasiado los objetos cercanos a nuestras bocinas.

100-160 Hz

Si empleamos percusiones de mano (congas, instrumentos étnicos, etc), cuyo sonido tiene un fuerte componente resonante, el cual puede llegar a saturar la mezcla de bajos, esta es la frecuencia apropiada para recortar.

Esta banda es la que proporciona una buena calidad de graves en una zona destinada a ser reproducida en altavoces domésticos. Hay que tener cuidado con ella por los mismos motivos citados anteriormente, a los que hay que sumar la ecualización de las demás bandas de bajos.

200-250 Hz

Estas frecuencias suelen ser las culpables de un sonido demasiado cargado de graves en las guitarras acústicas. Un poco de ganancia en esta región puede añadir cuerpo a una mezcla demasiado fina, pero también se puede hacer que el bajo suene poco claro.

Para definir el bajo es más interesante recortar esta banda que aumentar los medios o agudos. La mezcla será más clara y cálida que si optamos por aumentar los agudos.

MEDIOS

315-400 Hz

Si la mezcla global parece velada y sin detalles, ésta es la banda que debe ser recortada; tanto con las pistas individuales como las vocales. Para mejorar la inteligibilidad de la mezcla, manteniendo la calidez, empezaremos a trabajar en esta banda, antes que aumentar los medios o agudos.

500-800 Hz

Un volumen demasiado alto de esta banda conferirá al sonido un aspecto duro o rígido; esto es, si el mazo del bombo parece estar golpeando una caja de cartón, o parece que la reverberación está demasiado realimentada. Esta banda suele disminuirse razonablemente para que la mezcla no pierda cuerpo pero sin que resulte desagradable.

1-2 kHz

Para mejorar la inteligibilidad sin añadir sibilancia se suele aumentar la ganancia de esta banda, porque suele devolver la claridad y frecuencia fundamental de las guitarras con demasiada distorsión.

Por otro lado, un aumento exagerado de esta banda puede hacer que el sonido de la mezcla se parezca más a un atasco de tráfico con todos los automóviles abusando del claxon.

AGUDOS

2,5 – 4 kHz

Esta es la zona en la que el oído humano es más sensible. Esto supone que, cualquier pista que necesite ser destacada de las demás, se beneficiará de un aumento de estas frecuencias, pero un aumento exagerado provocará una importante fatiga acústica. Si la mezcla suena demasiado agresiva o dura, tal vez esta banda esté demasiado alimentada en varias pistas.

Un error cometido frecuentemente sucede cuando de aumentan los agudos de la mezcla para compensar la propia fatiga acústica durante el trabajo. De este modo, cuando los oídos han descansado, pongamos pasadas unas horas, en la siguiente sesión de mezcla, ésta suena demasiado brillante y agresiva.

Normalmente se suele recortar esta banda y trabajar sobre otras.

5 – 10 kHz

En esta banda reside la mayor parte de la sibilancia vocal, aunque la de una voz femenina puede llegar hasta los 11 o 12 kHz. Pero, aunque rebajar la ganancia en estas bandas mejora los problemas de siseo, también reduce la articulación, expresividad, y respiración de la voz. Es por esto que, para evitar que el remedio sea peor que la enfermedad, se utilicen aparatos llamados de-esser.

Un aumento en la zona superior de esta banda supone destacar la vibración de la caja de la batería, el golpe de la baqueta sobre los aros y el chasquido de la maza en el bombo. Lógicamente, una ganancia exagerada provocará un exceso de siseo y agresividad.

Para completar la parte de ecualización adjunto una tabla con los equivalentes en frecuencia de los instrumentos más comunes.

Paneo:


Este control tiene una función simple: Distribuir el sonido del lado derecho o izquierdo de nuestro sistema estereofónico. Es importante utilizar el paneo para lograr una mayor espacialización del sonido, lo que auditivamente significa tener una aproximación de sonido similar a la que tendríamos de estar tocando los músicos frente a nosotros.
No hay una regla general de cómo distribuir las señales de izquierda a derecha, sin embargo se recomienda siempre en loa música popular hacerlo de la siguiente manera.

Auxiliares:


Esta sección nos permite controlar procesadores de sonido o efectos especiales conectados exteriormente a nuestro mezclador. Generalmente los procesos se controlan desde el dispositivo en sí, el control de auxiliar simplemente manipula la cantidad de efecto que se aplicará en la señal.

Dentro de los efectos más conocidos están el compresor, el ecualizador, el reverb o el distorsionador para guitarra.

Vale la pena hacer mención especial del compresor de audio, y ya que es uno de los procesos más comunes en el audio, he decido dar una entrada especial en el blog a dicho tema.

Fader:

Finalmente hablaremos del control de volumen deslizable conocido también como Fader (significa desvanecedor en inglés).

Este control nos permite manipular la intensidad de cada señal de forma individual, para dejar cada elemento en su debido lugar dentro de la mezcla, la idea de una buena mezcla es que cada parte se distinga perfectamente sin restar importancia la una a la otra. No existe tampoco una fórmula mágica de cómo hacer la mezcla. Todo queda en el gusto del productor, del artista o del ingeniero, sin embargo hay que considerar algunos puntos:

• La línea melódica principal debe ser escuchada en todo momento. En la música popular la línea melódica es por lo general la voz y es importante que se note con la mayor claridad posible.

• La batería y el bajo deben estar presentes dado que la primera lleva el pulso de la canción y el segundo la base armónica y ambas partes forman la estructura musical del tema.

• Los instrumentos de acompañamiento como piano o guitarra deben notarse sin destacar demasiado, su función es la de apoyar a la melodía principal.

• En caso de existir partes solistas de algún instrumento, por ejemplo la guitarra, el ingeniero de mezcla debe estar listo para dar mayor volumen a dicho instrumento en el momento de su solo y posteriormente regresar el volumen a su posición de acompañamiento.