¿Dejaremos algún día de teclear? Los avances en el reconocimiento del habla ya lo hacen posible
Las tecnologías de voz a texto han dado pasos gigantescos en los últimos años, pero cambiar el teclado por el dictado para elaborar textos tiene otras implicaciones
La tecnología ya existe: en caso de necesidad, este reportaje podría haber sido escrito sin teclear, simplemente dictándole el texto al procesador. Sin embargo, todavía dista de ser algo cómodo: habría que volver sobre el texto para corregir (posiblemente añadir) la puntuación y para cambiar palabras que se han entendido mal. Y tras la relectura, además, es probable que hubiese que darle una vuelta general al resultado, ya que no hablamos igual que escribimos. Incluso si, al dictar, estamos pensando en que el resultado será un texto escrito. Estos son algunos de los problemas que se encontró la diseñadora gráfica Miriam Inza, al elaborar para la revista Inmaterial Design el artículo Escribir con la boca: el dictado por voz como práctica de escritura. En el texto se detectan algunas de las consecuencias de escribir dictando: la máquina a veces entiende mal o no detecta algunas palabras: “Para que este artículo tuviera sentido, para que supusiera realmente la puesta en práctica de un tipo de escritura hacha con la boca, me autoimpuesto la norma de no corregir lo que se va escribiendo”.
“Quizá uno de los aspectos en los que [las tecnologías de voz a texto] aún pueden dar un salto cualitativo enorme es en la puntuación automática”, confirma Inza en un correo electrónico que escribió tecleando. “En este momento, para escribir por voz es necesario dictar los signos de puntuación o, en caso de la transcripción de una entrevista, por ejemplo, introducirlos manualmente. Algunas herramientas disponen de puntuación automática; solo en algunos idiomas, pero se está trabajando en ello”, señala. Aun así, lo que falta son únicamente “minucias: poder escribir a la velocidad en que se habla sin usar las manos es ya el futuro en el presente”, asegura.
Una de las claves para el gran avance que han tenido las tecnologías de voz a texto en los últimos años ha sido la llegada de Whisper, el modelo de Reconocimiento Automático del Habla (ASR, por sus siglas en inglés) que liberó OpenAI a finales de 2022. La herramienta tiene su polémica: según una investigación del New York Times, OpenAI creó Whisper cuando se quedó sin texto en internet con el que alimentar a su IA. Con Whisper, la puerta de todo YouTube se les abrió, dándoles un material más natural y conversacional con el que entrenaron GPT-4, su modelo de lenguaje más avanzado. Este uso, sin embargo, podría haber infringido las normas de YouTube, sin hablar de la privacidad de los usuarios que aparecen en esos vídeos (Google, propietaria del servicio de vídeo online, también utiliza ese material para entrenar su propia IA).
Guerras tecnológicas aparte, “Whisper lo ha cambiado todo”, sostiene José María Fernández Gil, responsable de la Unidad de Accesibilidad Digital de la Universidad de Alicante. “La IA intenta transcribir frases enteras, con sus puntos, sus comas, exclamaciones, interrogaciones… Y no va a cometer, o residualmente lo haría, errores de contexto tipo ‘la cana es muy cómoda’, porque no ha distinguido entre la ene y la eme”, ejemplifica. En la propia Universidad de Alicante han utilizado el modelo para subtitular cerca de 1.800 horas de vídeo con una precisión “impresionante”.
En cuanto a lo que todavía hay que mejorar, Fernández Gil indica que todavía falta vocabulario y que en algunas siglas se equivoca, aunque “muchísimo menos que los sistemas tradicionales”. Eso sí, el coste computacional de Whisper es muy grande, algo que está “fuera del alcance de la mayoría”.
Otro tema aún no resuelto es el del procesamiento de diferentes acentos y dialectos, “sobre todo si son de uso local o regional” añade Dayana Ribas, directora científica de Business Telecommunication Services (BTS), empresa de telecomunicaciones que también está utilizando estas tecnologías en diversos proyectos. Ribas menciona que la transcripción también falla cuando se usan palabras en diferentes idiomas, una situación “frecuente en la cotidianidad de países prácticamente bilingües, como es el caso de Puerto Rico”. Que falten todavía este tipo de detalles es un ejemplo claro del problema de los sesgos, señala.
También quedan pendientes temas como el de la transcripción de audios en escenarios realistas y cotidianos “que presenten una mezcla de distorsiones de diversa naturaleza, por ejemplo, las llamadas telefónicas con sus ruidos ambientales”, la corrección automática de errores y la necesidad “constante y creciente” de atender el tema de la seguridad y privacidad, añade la experta.
¿Nos pasaremos a escribir dictando?
Con la tecnología ya a punto de caramelo, llega la siguiente pregunta: ¿llegará un momento en el que la primera opción cuando queramos elaborar un texto escrito sea dictárselo a una máquina? Todos los expertos entrevistados coinciden en que hablamos y escribimos de forma distinta, por lo que es algo que habrá que tener siempre en cuenta. Dayana Ribas cree que el dictado puede resultar práctico para tareas más creativas o la escritura de borradores, ya que “facilita la rapidez y la naturalidad en la producción y el guardado de ideas” y podemos hacerlo mientras hacemos “otras cosas semiautomáticas para el humano, como caminar o cocinar, y requiere menos esfuerzo”. Sin embargo, “para generar ideas más precisas y demandantes de concentración, como por ejemplo escribir un reporte técnico o una novela, es probable que sentarse a teclear ofrezca el tiempo adecuado para pensar y producir las ideas con más control”, añade.
Sobre esto, Miriam Inza recuerda a Roland Barthes, que dijo “que la distancia entre la cabeza y la mano es mayor a la que hay entre la cabeza y la boca, y ese tiempo se puede aprovechar para pensar”. Una de las cosas que notó en sus investigaciones sobre “escribir con la boca” es que cambia también el modo en el que se habla. “Para escribir un texto con el dictado por voz debe adoptarse una manera específica de dictar”, explica.
También es muy posible que en todo esto se acabe viendo una brecha generacional. Frente a las personas que están acostumbradas a escribir rápido en un teclado de ordenador, “las nuevas generaciones han visto el icono del micrófono para dictar desde pequeños y lo utilizan mucho”, apunta José María Fernández Gil. Pone como ejemplo a su sobrina, que es adolescente y, cuando usa el móvil, “suele preferir dictar en las aplicaciones a escribir”. Por lo que le comenta a su tío, es algo generalizado en su generación.
Por otra parte, un cambio en el instrumento de escritura dará textos con características diferentes. Virginia Woolf, por ejemplo, se quejaba cuando escribía alguna carta con máquina de escribir (intentaba no hacerlo) de cómo el instrumento cortaba y rompía las frases que estaban clarísimas y preciosas en su cabeza. Relacionado con todo esto, usar para escribir herramientas con IA también tiene su impacto: una investigación reciente de la Universidad de Harvard concluyó que los textos escritos ayudándose del predictivo son “más sucintos, más predecibles y menos coloridos” que los que no lo utilizan. Sobre cómo serán los textos escritos “a boca” todavía no hay estudios.
Una revolución para la accesibilidad
Desarrollar la tecnología de voz a texto no supone un avance solo en cuestiones de comodidad o rapidez a la hora de realizar determinadas tareas, sino que será una opción que además ayude a muchas personas. El responsable de la Unidad de Accesibilidad Digital de la Universidad de Alicante pone algunos ejemplos: ayudará a las personas con déficit auditivo que, gracias a la generalización de los subtítulos automáticos, podrán “oír (leer)” lo que no escuchan; mejorará la integración de personas de otros países y culturas al combinar el reconocimiento de lenguaje hablado con la traducción; permitirá “escribir bien a personas que no saben escribir tan bien (nivel educativo, cultural, socioeconómico…)”, además de facilitarles mucho la vida a personas que, por problemas motores, no puedan o tengan dificultades para escribir usando las manos.
Por su parte, Dayana Ribas destaca también las posibilidades que se abren desde el punto de vista del aprendizaje, ya que “potencia el sistema educativo con herramientas que facilitan tomar notas y estudiar”. También pueden cambiar muchas cosas en el campo de la atención al cliente. En un centro de salud, por ejemplo, los médicos podrían atender mejor a los pacientes mientras el ordenador transcribe lo que estos van contando.
A la hora simplemente de producir un texto como este, el dictado será una opción más. “Tener opciones es siempre una ventaja. La elección de una forma u otra de producir texto será muy personal y estará en todo caso filtrada por la característica auditiva, visual o reproductiva de cada cual para inspirarse o fijar mejor las ideas”, indica la directora científica de BTS.
Quizá las imágenes de escritores y escritoras, que pasaron de representarlos pluma en mano a mostrarlos tras una pantalla, se conviertan en unos años en fotografías de personas caminando y hablando a la vez. O quizá no. “La tecnología de dictado por voz está teniendo y va a tener un fuerte impacto positivo en las diversas labores de escritura. Pero igual que algunas preferimos escribir a mano determinadas cosas antes que teclearlas en el móvil o en un ordenador, también habrá quien encuentre las teclas más placenteras que el dictado. Aunque sea solo por el gusto de poder escribir en silencio”, concluye Inza.