Candidatura

Subtitulado automático bilingüe basado en Deep Learning y Procesado del Lenguaje Natural

La estructura territorial de RTVE tiene como objetivo poder acercar a la ciudadanía la información de su entorno más cercano. Es por esto que los Centros Territoriales de la cadena emiten dos informativos diarios en los que se recoge toda la información local de cada comunidad. Como servicio público, la accesibilidad es también uno de los objetivos clave de RTVE, razón por la que, en los últimos años, se vienen investigando nuevas formas de poder ofrecer estos contenidos a personas con dificultades auditivas o visuales. En este caso, presentamos uno de los muchos proyectos destinados a facilitar el acceso a la información a personas con dificultades auditivas.

Antecedentes

Antecedentes

El hecho de que todas estas emisiones diferentes se realicen de forma simultánea hace imposible el subtitulado por medios tradicionales, debido a la enorme cantidad de recursos necesaria. Teniendo en cuenta los grandes avances de los sistemas de procesamiento del lenguaje natural basados en inteligencia artificial, en el año 2018 se inician las pruebas de concepto y la posterior implantación de un sistema de subtitulado automático capaz de transcribir en directo los informativos territoriales producidos en únicamente en castellano.
Sin embargo, los informativos territoriales de algunas comunidades tienen también contenido en otras lenguas: catalán, gallego, valenciano y euskera. Esta casuística hace necesario el desarrollo de un sistema inteligente capaz de detectar en qué idioma se está hablando en cada momento. En el año 2021 se comienza a trabajar en este proyecto de innovación que contemplaría por primera vez en nuestro país el subtitulado automático bilingüe en directo.

Retos

Retos

Este proyecto conlleva varias dificultades:
- La calidad del audio en entrevistas no siempre es la mejor, como tampoco lo es la dicción de los entrevistados.
- Existen acentos y dialectos que pueden complicar muchísimo la detección del idioma y de lo que se está diciendo.
- Los modelos de entrenamiento existentes para variantes como el catalán en Baleares o el euskera en Navarra no son demasiado extensos y en muchas ocasiones están desfasados o contienen errores.
- El sistema debe ser capaz de mostrar el subtítulo en pantalla cumpliendo la normativa actual, por lo que se debe hacer todo el proceso en menos de ocho segundos.
- Todo el proceso se lleva a cabo en la cloud: TVE proporciona la señal de su informativo en cada Centro Territorial y los subtítulos generados son a su vez entregados en Torrespaña para su incorporación a la señal de emisión, tendiendo que respetarse el retardo máximo mencionado.

Fases

Fases

Una vez definidos los principales retos, se planificó un sistema de subtitulación bilingüe, que se establecería en los Centros Territoriales de País Vasco, Galicia, Valencia, Baleares y Navarra. Este proyecto se divide en dos fases:
- Los primeros 4 meses definen el periodo de entrenamiento del sistema. Cada modelo de lenguaje iría desarrollándose con los propios informativos de cada Centro. La corrección y el control de calidad, realizados por una empresa externa especializada, servirían para reentrenar cada modelo y mejorar de esta manera los resultados.
- Una vez finalizado el período anterior y alcanzados los niveles de calidad adecuados, comienza la explotación del sistema. Se mantiene el control de calidad, orientado en este caso a la detección de problemas imprevistos y al reentrenamiento del modelo con nuevos términos específicos.

Nuevos Servicios

Nuevos Servicios

El proyecto se ha llevado a cabo de la mano de dos empresas españolas, AICOX como integradora y responsable de la arquitectura de la solución y Etiqmedia que aporta toda la tecnología del procesado.
El sistema diseñado recoge el audio en directo desde el Centro Territorial correspondiente. Una vez llegado al servidor cloud, existen dos líneas de transcripción simultáneas, una en cada idioma, que procesan el texto en castellano y en la lengua correspondiente al Centro en todo momento. Posteriormente, un algoritmo de detección de idioma selecciona el texto correcto en base al idioma que realmente se estuviera hablando en ese momento, tomando un tiempo máximo de 5 segundos para la detección. El archivo de subtitulado se reenvía a RTVE para su inserción en emisión. Todo esto en un tiempo total inferior a 8 segundos.

Conclusiones

Conclusiones

Para el mes de julio de 2022, se han conseguido subtitular más de 800 horas entre todos los Centros adscritos al proyecto, con una calidad media de entre el 10 y el 15, según medida del Word Error Rate. Durante el presente año continúa la mejora de estos sistemas, utilizando nuevos algoritmos de detección de idioma o eliminación de ruidos, mientras se siguen mejorando los modelos de lenguaje y los sistemas de distribución de señal que permiten reducir la latencia. Los esfuerzos de realizados durante este proyecto han llegado a verse recompensados con la felicitación de asociaciones de personas con discapacidad auditiva, que por primera vez han podido tener acceso en directo a contenidos en su lengua.
En conclusión, este proyecto ha servido para sentar las bases de un servicio necesario para poder asegurar la igualdad de oportunidades en cuanto al acceso de la información se refiere, ofreciendo una solución rápida y eficiente, en constante proceso de mejora.

Patrocinadores Premios @aslan 2023

Implantado en:

Radio Televisión Española

Periodo de ejecución:

07/01/2021 - 07/01/2022

Otros socios tecnológicos:

Aicox Soluciones y Etiqmedia