Traducción automática basada en ejemplos

Traducción automática basada en ejemplos (en inglés Example-based machine translation, EBMT) es un enfoque de la traducción automática en el que se usan corpora de ejemplos como base de conocimiento principal. En la base de este método está la idea de que se pueden traducir textos por analogía.

Cuándo lo aplicamos al proceso de traducción por un humano, presuponemos que la traducción no se hace por análisis lingüístico profundo sino por sustitución de frases. Es decir, se reduce la oración en la lengua original a sintagmas, se traducen estos sintagmas y después dichos sintagmas se integran en la oración meta.

Una parte de un corpus de ejemplos
EnglishJapanese
How much is that red umbrella?Ano akai kasa wa ikura desu ka.
How much is that small camera?Ano chiisai kamera wa ikura desu ka.

Se entrenan sistemas de traducción automática basada en ejemplos con corpora alineados que contienen pares de oraciones (véase el ejemplo en el cuadro). Los pares de oraciones contienen oraciones en un idioma y traducciones en otro. En este ejemplo, vemos un par mínimo porque las oraciones se distinguen por un solo elemento. Con estos tipos de oraciones es muy fácil aprender traducciones de unidades suboracionales. Por ejemplo, una sistema aprende tres unidades de traducción:

  1. How much is that X ? coincide con Ano X wa ikura desu ka.
  2. red umbrella coincide con akai kasa
  3. small camera coincide con chiisai kamera

Mediante estas unidades, se pueden construir traducciones nuevas. Por ejemplo, si usamos un texto para entrenar el sistema que tiene las oraciones:

President Kennedy was shot dead during the parade. y The convict escaped on July 15th.

Sería posible traducir la oración The convict was shot dead during the parade. por sustitución de unidades suboracionales.

Véase también

Este artículo ha sido escrito por Wikipedia. El texto está disponible bajo la licencia Creative Commons - Atribución - CompartirIgual. Pueden aplicarse cláusulas adicionales a los archivos multimedia.