¿Por qué se oye mal la música en las videoconferencias?

Esta entrada presenta un artículo científico comparando diferentes sistemas de videoconferencia con un mismo archivo de audio para analizar la pérdida de información auditiva durante la retransmisión. Con este ejercício podemos entender mejor desde un punto de vista técnico el por qué se oye mal la música en las videoconferencias y qué hay que tener en cuenta para mejorarlo.

En este blog llevamos ya muchas entradas dedicadas a la docencia on-line en tiempos del Covid-19. Aquí tienes las entradas anteriores que también te pueden interesar:

El artículo que analizamos en esta entrada está realizado por autores del: New England Conservatory of Music, Coastal Carolina University, Mississippi College, Stetson University. Y si alguien quiere ponerse en contacto con los autores puede hacerlo a sus direcciones web:

  • Ian L. Howell: ian.howell@necmusic.edu
  • Kayla Jane Gautereaux: kayla.gautereaux@necmusic.edu

El artículo se titula:

PRELIMINARY REPORT: COMPARING THE AUDIO QUALITY OF CLASSICAL MUSIC LESSONS OVER ZOOM, MICROSOFT TEAMS, VOICELESSONSAPP, AND APPLE FACETIME

NEC
March 25, 2020
Special Report of the Voice and Sound Analysis Laboratory

Y aquí puedes encontrar una copia del mismo (junto con ejemplos de video y audio) : https://www.ianhowellcountertenor.com/preliminary-report-testing-video-conferencing-platforms

Como su título indica las plataformas analizadas son: Zoom, Microsoft Teams, VoiceLessonsApp y FaceTime.

La metodología empleó “nueve pruebas para analizar la capacidad de cada plataforma para transmitir señales de audio. Se eligieron las pruebas para resaltar los ajustes automáticos de ganancia de audio, el rango de frecuencia (es decir, filtros de paso de banda o muestreo descendente), la respuesta de frecuencia y la compresión de audio”.

El propio artículo recuerda al principio que no es su función recomendar una u otra plataforma, ya que además “cada paso en la cadena de señal (el micrófono, la interfaz de audio, la computadora, la velocidad de carga de Internet e incluso la acústica de la sala) puede impactar positiva o negativamente la señal recibida por la otra parte”.

El archivo de audio original que utilizaron para la investigación lo puedes encontrar aquí:

Básicamente la muestra se compone de ruido blanco, la voz de una soprano (tanto en non-vibrato, vibrato, messa di voce, cello y violín tocando diferentes notas).

Las configuraciones de los programas eras las que venían por defecto excepto para Zoom en la que se podía usar su función de “activar sonido original”. Y evidentemente en todas las plataformas se había quitado la opción de ajustar automáticamente el volumen.

Los resultados

Compresión dinámica, control automático de ganancia y espectro de frecuencia.

Las siguientes imágenes muestras como tres muestras de ruido blanco (todas las frecuencias a la misma potencia) a tres niveles de intensidad diferente se diferencian entre lo enviado y lo recibido. La imagen muestra tres cuadros:

  • Arriba a la izquerda: 1º las tres muestras enviadas y 2º las tres recibidas. La altura de las formas de onda indica el “volumen”.
  • Abajo a la izquierda: las frecuencias de las tres señales enviadas y las tres recibidas
  • Derecha: intensidad de cada frecuencia (en negro las tres señales enviadas, y en gris las tres recibidas)

Veamos primero el resultado en Zoom y luego en Microsoft Teams (las otras dos plataformas ofrecen resultados aun más pobres).

En este análisis de Zoom se puede ver como respeta los volúmenes, pero las frecuencias agudas se pierden.
En este análisis de Microsoft Teams se puede ver como apenas hay diferencia en volumen y se pierden muchas más frecuencias agudas.

Como se puede ver, con la opción de “sonido original” de Zoom apenas hay diferencia de volumen, excepto para las frecuencias más allá de 12,5 kHz, mientras que en Microsoft Teams se pierden a partir de los 7kHz y todos los volúmenes suenan igual.

Veamos dos ejemplos de crescendo y diminuedo. A la izquierda tenemos el sonido enviado y a la derecha el recibido, primero en Zoom y después en Microsoft Teams.

Ya sabemos que las frecuencias agudas se pierden en ambos (en menor cantidad en Zoom), pero las dinámicas de Microsoft Teams son completamente irreales, mientras que las de Zoom se preservan con bastante fidelidad.

Fidelidad al espectro transmitido y relación señal / ruido

La siguiente imagen muestra a la izquierda la nota más grave (usada en el experimento) y a la derecha la más aguda. Arriba son las dos notas del Cello, y abajo las dos del Violín. En negro el sonido enviado y en gris el recibido.

Comparativa de sonidos en Zoom
Comparativa de sonidos en Microsoft Teams

De nuevo se puede ver como Zoom lo transmite con bastante fidelidad; con la ya esperada desaparición de frecuencias agudas a partir de los 12,5 kHz. Mientras que Microsoft Teams cambia la ganancia (volumen) y empieza a perder armónicos mucho antes. También tenemos mucho más sonido inharmónico en Teams (la distancia entre la dinámica del pico del armónico y del valle del espectro intermedio es menor, con lo que el “ruido” suena más con relación al “sonido”).

Comentarios

En el artículo se analizan dos plataformas más (pero sus resultados son mucho peores). Lo que queda claro del artículo es:

  • La importancia de que la ganancia (el volumen) no se ajuste automáticamente. De lo contrario es imposible oír dinámicas (forte, piano, crescendo o diminuendo).
  • La importancia de que no se procese el sonido pensando en la voz hablada. Ello provoca que haya un corte de frecuencias en los agudos, se pueda introducir erróneamente más ruido en la señal, o incluso alterar frecuencias (como en algunos ejemplos que no hemos mostrado en este resumen).

Recomendaciones

Los autores del artículo nos dejan una serie de recomendaciones

  • Intentar diferentes pruebas con los alumnos para conseguir sacar el máximo partido con la tecnología que ellos tengan. Usar lo que los alumnos tengan a su disposición es mejor que no hacer nada.
  • Probar crescendos y diminuendos tanto en agudos como en graves es una forma efectiva de comprobar la calidad de la señal de audio. Conviene hacerlo probando las diferntes combinaciones de micrófono, interfaz, calidad de la conexión y plataforma.
  • De las plataformas analizadas en la investigación (no está Webex en ellas) Zoom parece la mejor en un tipo de configuración que requiere un ordenador en ambos extremos.
  • A la larga, se espera que tanto profesores como alumnos dispongan de una tecnología adecuada que replique al máximo una experiencia en persona; y que las compañías reaccionen con productos de mayor calidad.

Reconocen una serie de limitaciones de la investigación que no se han tratado:

  • No han probado el comportamiento de cada plataforma con micros USB, móviles o el micrófono interno del ordenador (los elementos más comunes para capturar audio).
  • Ni tampoco el impacto en el dispositivo de escucha (auriculares, vs. altavoces del ordenador vs. monitores de estudio).
  • El comportamiento en diferentes velocidades y estabilidades de internet.
  • El impacto de añadir una barrera económica para el acceso a la educación musical.

Y hacen una serie de llamadas de atención interesantes:

  • Toda institución educativa que necesite impartir clases online, debería facilitar como mínimo: un micrófono omnidireccional profesional, preamplificador de micrófono USB de alta calidad y convertidor A / D, ordenador portátil capaz de ejecutar la aplicación Zoom completa (MacOS o Windows) y monitor de estudio (altavoz).
  • Del mismo modo, las instituciones deben proporcionar Internet de alta velocidad, tanto a velocidades de descarga como de carga, en el hogar de cada estudiante y profesor.
  • Debemos presionar a las compañías de videoconferencia para que produzcan productos que (a) tengan algoritmos de compresión específicamente ajustados para música en vivo, (b) sean fáciles de usar, (c) y sean verdaderamente multiplataforma sin limitaciones

Y próximamente en este blog… la solución DEFINITIVA para Webex! Seguid atentos…

Música en el siglo XX

             Ya hemos hablado en clase sobre las características de la música del siglo XIX y del siglo XX. Pero en la música lo importante no es hablar, sino escuchar, interpretar, vivir dicha música. Para ello, os propongo una serie de actividades donde vosotros mismo debéis crear a partir de una música:
  • Inventar un baile para una una música de ragtime.
  • Inventar una letra para una base sonora de jazz.
            A finales del siglo XIX aparece el Ragtime, un estilo musical muy sincopado que aunque teóricamente no hayamos aprendido todavía podemos perfectamente disfrutar y vivenciar. Para ello os dejo para descubrir una pieza musical llamada "The Entertainer" compuesta por Scott Joplin. Pinchando en la siguiente imagen podrás ir a un recurso donde aparece la audición y partitura de la pieza para practicarla con flauta  si os apetece. Pero también aparece un video con la pieza original que es con el que quiero que empecéis a trabajar. 
               Os propongo escuchar la música del Entertainer y crear una coreografía, un baile, inventado por vosotros para acompañarlo. Un consejo: escúchalo  varias veces con los ojos cerrados y deja que tu cuerpo se mueva como quiera, es el mejor modo de empezar. ¡Déjate llevar y disfruta!

 Recurso creado por Mª Jesús Camino

Por si en tu ordenador o dispositivo no puedes ver el recurso, te dejo también solo el video para que puedas crear tu baile.


           
         
        Ahora toca la segunda parte del trabajo creativo. En esta ocasión vamos a inventar una letra nueva para una pieza musical que ya existe. Se trata de una pieza de Randy Newman que aparece en la película "Tiana y el sapo" y con un estilo musical muy metido en el blues y en el jazz.  La canción original nos habla de la necesidad de esforzarse para conseguir tus sueños y de disfrutar de cada momento que se tiene.
           Te toca a tí y tu creación consiste en crear una nueva letra para esa canción con la temática que desees, pero ten en cuenta que este tipo de música nació en el pueblo, para expresar los sentimientos y las vivencias de aquella época, por lo que sería bonito hacerle una letra que hable de tus sentimientos o vivencias pero en la sociedad actual.



              Os dejo unos enlaces con la canción original y otro con la base instrumental sola para poder ponerla y crear la nueva letra. Os invito a ponerla de fondo y grabaros cantando la canción con la nueva letra. ¡Ánimo campeones no os podéis imaginar de todo lo que sois capaces si lo intentáis!
¡VAMOS MIS MÚSICOS, A DISFRUTAR Y CREAR!