2006/12/02

[informática] traducción automática

Leo en Wired, un interesantisimo artículo sobre un nuevo sistema de traducción automática. Más bien una variante a uno de los sistemas existentes.

El artículo comenta los 2 sistemas de traducción que existen actualmente:

  • uno basado en reglas: que utiliza las reglas de sintaxis, vocabulario y gramática para realizar las traducciones. Por ejemplo, generalmente en español el nombre va delante del adjetivo y en inglés generalmente va el adjetivo primero. Pero como dicen en el artículo, la cantidad de elipsis, excepciones y contrarreglas hace que este tipo de traducciones sea básicamente una parodia de una traducción (además de ser un pésimo sistema de enseñar un idioma).
  • y otro basado en estadísticas: que partiendo de traducciones previas, elaboran una estadística de la probabilidad de que una palabra se traduzca de una determinada manera, y luego aplican esa estadística para traducir otros textos. Google lo usa en su traductor Arabe-Inglés (todavía no lo tiene implementado para otros idiomas).

También comenta los resultados obtenidos mediante el BLEU (BiLingual Evaluation Understudy, Subestudio de evaluación bilingüe), que sirven para medir la calidad de una traducción automática (aunque también se puede aplicar a las traducciones humanas):

  • Un traductor humano entrenado suele obtener entre 0.7 y 0.85 en una escala de 0 a 1
  • Las traducciones automáticas basadas en reglas se situan entre 0.11 y 0.15
  • Las traducciones automáticas basadas en estadísticas implementadas hasta ahora estarían entre 0.50 y 0.31
  • El nuevo sistema de traducción basado en estadísticas obtuvo valores de 0.35 en los primeros tests. Tras varias modificaciones y ajustes, han conseguido puntuaciónes de 0.65 (en un texto en el que un sistema de reglas suele obtener 0.56)

Este nuevo sistema en lugar de aplicar estadísticas sobre textos traducidos (que requiere una enorme cantidad de texto ya traducido), utiliza una gran muestra en el idioma de destino (sin traducir), una pequeña muestra del idioma de origen (también sin traducir), y un glosario bilingüe considerablemente grande. A partir de ahí genera y aplica estadísticas sobre el texto a traducir y genera un resultado.

Los inconvenientes del sistema son 2: principalmente la velocidad (tarda 10 segundos para traducir cada palabra), y que sigue sin llegar a la habilidad de un ser humano. Sin embargo este último hándicap es compartido por todos los sistemas de traducción actuales, y la mayor precisión de este método hace que "limpiar" una de estas traducciones reduzca considerablemente el tiempo consumido en traducir un texto grande.

Technorati tags: , , , , ,

2 comentarios:

  1. all your bases are belong to us.. digo... no

    parece interesante, pero 10 segundos por palabras es un poco... duro ^^

    saludos ;D

    ResponderEliminar
  2. Pues eso tendré que probarlo.

    Ahora mismo utilizo herramientas de traducción asistida por ordenador basadas en memorias de traducción (fragmentos de texto pretraducidos).

    Si este nuevo sistema funciona, podría utilizarse como fuente secundaria de información, para los casos en que no se encuentren resultados al buscar el segmento original en la memoria.

    ResponderEliminar

Nota: solo los miembros de este blog pueden publicar comentarios.