¿Por qué se oye mal la música en las videoconferencias?

Esta entrada presenta un artículo científico comparando diferentes sistemas de videoconferencia con un mismo archivo de audio para analizar la pérdida de información auditiva durante la retransmisión. Con este ejercício podemos entender mejor desde un punto de vista técnico el por qué se oye mal la música en las videoconferencias y qué hay que tener en cuenta para mejorarlo.

En este blog llevamos ya muchas entradas dedicadas a la docencia on-line en tiempos del Covid-19. Aquí tienes las entradas anteriores que también te pueden interesar:

El artículo que analizamos en esta entrada está realizado por autores del: New England Conservatory of Music, Coastal Carolina University, Mississippi College, Stetson University. Y si alguien quiere ponerse en contacto con los autores puede hacerlo a sus direcciones web:

  • Ian L. Howell: ian.howell@necmusic.edu
  • Kayla Jane Gautereaux: kayla.gautereaux@necmusic.edu

El artículo se titula:

PRELIMINARY REPORT: COMPARING THE AUDIO QUALITY OF CLASSICAL MUSIC LESSONS OVER ZOOM, MICROSOFT TEAMS, VOICELESSONSAPP, AND APPLE FACETIME

NEC
March 25, 2020
Special Report of the Voice and Sound Analysis Laboratory

Y aquí puedes encontrar una copia del mismo (junto con ejemplos de video y audio) : https://www.ianhowellcountertenor.com/preliminary-report-testing-video-conferencing-platforms

Como su título indica las plataformas analizadas son: Zoom, Microsoft Teams, VoiceLessonsApp y FaceTime.

La metodología empleó “nueve pruebas para analizar la capacidad de cada plataforma para transmitir señales de audio. Se eligieron las pruebas para resaltar los ajustes automáticos de ganancia de audio, el rango de frecuencia (es decir, filtros de paso de banda o muestreo descendente), la respuesta de frecuencia y la compresión de audio”.

El propio artículo recuerda al principio que no es su función recomendar una u otra plataforma, ya que además “cada paso en la cadena de señal (el micrófono, la interfaz de audio, la computadora, la velocidad de carga de Internet e incluso la acústica de la sala) puede impactar positiva o negativamente la señal recibida por la otra parte”.

El archivo de audio original que utilizaron para la investigación lo puedes encontrar aquí:

Básicamente la muestra se compone de ruido blanco, la voz de una soprano (tanto en non-vibrato, vibrato, messa di voce, cello y violín tocando diferentes notas).

Las configuraciones de los programas eras las que venían por defecto excepto para Zoom en la que se podía usar su función de “activar sonido original”. Y evidentemente en todas las plataformas se había quitado la opción de ajustar automáticamente el volumen.

Los resultados

Compresión dinámica, control automático de ganancia y espectro de frecuencia.

Las siguientes imágenes muestras como tres muestras de ruido blanco (todas las frecuencias a la misma potencia) a tres niveles de intensidad diferente se diferencian entre lo enviado y lo recibido. La imagen muestra tres cuadros:

  • Arriba a la izquerda: 1º las tres muestras enviadas y 2º las tres recibidas. La altura de las formas de onda indica el “volumen”.
  • Abajo a la izquierda: las frecuencias de las tres señales enviadas y las tres recibidas
  • Derecha: intensidad de cada frecuencia (en negro las tres señales enviadas, y en gris las tres recibidas)

Veamos primero el resultado en Zoom y luego en Microsoft Teams (las otras dos plataformas ofrecen resultados aun más pobres).

En este análisis de Zoom se puede ver como respeta los volúmenes, pero las frecuencias agudas se pierden.
En este análisis de Microsoft Teams se puede ver como apenas hay diferencia en volumen y se pierden muchas más frecuencias agudas.

Como se puede ver, con la opción de “sonido original” de Zoom apenas hay diferencia de volumen, excepto para las frecuencias más allá de 12,5 kHz, mientras que en Microsoft Teams se pierden a partir de los 7kHz y todos los volúmenes suenan igual.

Veamos dos ejemplos de crescendo y diminuedo. A la izquierda tenemos el sonido enviado y a la derecha el recibido, primero en Zoom y después en Microsoft Teams.

Ya sabemos que las frecuencias agudas se pierden en ambos (en menor cantidad en Zoom), pero las dinámicas de Microsoft Teams son completamente irreales, mientras que las de Zoom se preservan con bastante fidelidad.

Fidelidad al espectro transmitido y relación señal / ruido

La siguiente imagen muestra a la izquierda la nota más grave (usada en el experimento) y a la derecha la más aguda. Arriba son las dos notas del Cello, y abajo las dos del Violín. En negro el sonido enviado y en gris el recibido.

Comparativa de sonidos en Zoom
Comparativa de sonidos en Microsoft Teams

De nuevo se puede ver como Zoom lo transmite con bastante fidelidad; con la ya esperada desaparición de frecuencias agudas a partir de los 12,5 kHz. Mientras que Microsoft Teams cambia la ganancia (volumen) y empieza a perder armónicos mucho antes. También tenemos mucho más sonido inharmónico en Teams (la distancia entre la dinámica del pico del armónico y del valle del espectro intermedio es menor, con lo que el “ruido” suena más con relación al “sonido”).

Comentarios

En el artículo se analizan dos plataformas más (pero sus resultados son mucho peores). Lo que queda claro del artículo es:

  • La importancia de que la ganancia (el volumen) no se ajuste automáticamente. De lo contrario es imposible oír dinámicas (forte, piano, crescendo o diminuendo).
  • La importancia de que no se procese el sonido pensando en la voz hablada. Ello provoca que haya un corte de frecuencias en los agudos, se pueda introducir erróneamente más ruido en la señal, o incluso alterar frecuencias (como en algunos ejemplos que no hemos mostrado en este resumen).

Recomendaciones

Los autores del artículo nos dejan una serie de recomendaciones

  • Intentar diferentes pruebas con los alumnos para conseguir sacar el máximo partido con la tecnología que ellos tengan. Usar lo que los alumnos tengan a su disposición es mejor que no hacer nada.
  • Probar crescendos y diminuendos tanto en agudos como en graves es una forma efectiva de comprobar la calidad de la señal de audio. Conviene hacerlo probando las diferntes combinaciones de micrófono, interfaz, calidad de la conexión y plataforma.
  • De las plataformas analizadas en la investigación (no está Webex en ellas) Zoom parece la mejor en un tipo de configuración que requiere un ordenador en ambos extremos.
  • A la larga, se espera que tanto profesores como alumnos dispongan de una tecnología adecuada que replique al máximo una experiencia en persona; y que las compañías reaccionen con productos de mayor calidad.

Reconocen una serie de limitaciones de la investigación que no se han tratado:

  • No han probado el comportamiento de cada plataforma con micros USB, móviles o el micrófono interno del ordenador (los elementos más comunes para capturar audio).
  • Ni tampoco el impacto en el dispositivo de escucha (auriculares, vs. altavoces del ordenador vs. monitores de estudio).
  • El comportamiento en diferentes velocidades y estabilidades de internet.
  • El impacto de añadir una barrera económica para el acceso a la educación musical.

Y hacen una serie de llamadas de atención interesantes:

  • Toda institución educativa que necesite impartir clases online, debería facilitar como mínimo: un micrófono omnidireccional profesional, preamplificador de micrófono USB de alta calidad y convertidor A / D, ordenador portátil capaz de ejecutar la aplicación Zoom completa (MacOS o Windows) y monitor de estudio (altavoz).
  • Del mismo modo, las instituciones deben proporcionar Internet de alta velocidad, tanto a velocidades de descarga como de carga, en el hogar de cada estudiante y profesor.
  • Debemos presionar a las compañías de videoconferencia para que produzcan productos que (a) tengan algoritmos de compresión específicamente ajustados para música en vivo, (b) sean fáciles de usar, (c) y sean verdaderamente multiplataforma sin limitaciones

Y próximamente en este blog… la solución DEFINITIVA para Webex! Seguid atentos…