Posts in coherencia

Comprobación de la coherencia léxica con petraREV

mayo 27th, 2013 Posted by blog, coherencia, comprobación, herramientas, localización, petraREV, revisión, revisión asistida No Comment yet

Los archivos bilingües utilizados con tanta frecuencia en localización resultan muy útiles cuando un revisor, ya sea autónomo o asalariado, debe trabajar sobre un texto. Hay muchas maneras eficaces de comprobar que la terminología de una traducción es la correcta. Por ejemplo, podemos realizar un vaciado terminológico de estos archivos, bien manualmente o bien mediante un sistema de extracción automática de términos, y recurrir a una herramienta que garantice que en cada ocasión se ha utilizado el término correcto. Lamentablemente, la mayoría de estas posibilidades queda fuera del alcance de numerosos traductores y revisores, para quienes el tiempo que pueden dedicar a la tarea no permite emplear estos métodos.

petrarevlogo

Además, aún cuando optaran por extraer la terminología presente en un texto, al no existir un límite perfectamente definido entre qué es un término y qué no lo es, muchas incoherencias terminológicas pueden pasar desapercibidas. Algunas palabras extremadamente sencillas y aparentemente sinónimas, como añadir y agregar, por triviales que parezcan a primera vista, tal vez merezcan tratarlas como términos en contextos donde haya unas reglas estrictas sobre la preferencia por una de ellas.

Por último, estas comprobaciones terminológicas pueden ser precisamente más necesarias cuando no se dispone del tiempo adecuado para someter la traducción a una revisión minuciosa y, por lo tanto, menos aún para confeccionar glosarios.

En estos casos, es mejor contar con que el revisor solo va a poder dedicarle un tiempo cero a estos menesteres y únicamente querrá ver resultados significativos que hagan que el tiempo invertido en examinarlos sea más provechoso que una revisión manual del texto.

Una posibilidad que a simple vista puede parecer obvia es crear una especie de macroglosario que contenga información global sobre la correspondencia de términos en una combinación de idiomas particular. Por ejemplo, podemos pensar que cada vez que aparezca Spain debe traducirse como España, cuando aparezca Canada debe traducirse como Canadá, etc.

Lamentablemente, a poco que nos pongamos a crear este macroglosario nos daremos cuenta de que su utilidad disminuye a medida que incorporamos más términos. Retomando el ejemplo sobre añadir y agregar, si introducimos ambas posibilidades como traducciones aceptadas del verbo add, el sistema pierde la capacidad de detectar el uso incoherente de estos términos.

El problema radica en que los textos suelen ser muy regulares cuando nos limitamos a uno concreto, pero muy irregulares entre sí, esto es, cuando cambiamos de uno a otro. De esta manera, realmente podemos crear un macroglosario para comprobar la terminología de un texto en particular, pero no podemos aplicarlo directamente, porque antes debemos ajustarlo a ese texto que queremos revisar.

Llegados a este punto, se abren dos posibilidades: la primera es emular los sistemas estadísticos de entrenamiento y reservar una parte del texto para entrenar nuestro macroglosario y, a continuación, aplicar las enseñanzas derivadas de esa parte al resto del texto. Por ejemplo, podemos revisar concienzudamente un 10% o un 20% del texto y luego ver si el texto cumple los criterios que implícitamente se establecen en esa parte.

Aunque el esfuerzo que debe realizar el revisor se reduce bastante, ya que solo debe establecer una división entre lo que se revisa y lo que no, aún es posible buscar un método más eficiente que lo libere incluso de tener que tomar esta decisión, gracias a una curiosa particularidad de los errores. Y es que muchos de los errores más graves suelen ser extremadamente poco frecuentes. Por tanto, si una línea de un texto contiene un error, no es descabellado suponer que ese error solo aparece en esa línea y, por tanto, podemos utilizar el resto del texto para entrenar nuestro glosario con la información que nos permita detectarlo.

Para ilustrar este método vamos a ver un ejemplo muy sencillo. Imaginemos que en nuestra recopilación de posibles traducciones, hemos especificado dos posibles traducciones para el término expiration: caducidad y vencimiento. Con esta información queremos revisar los siguientes dos segmentos:

The expiration date cannot be earlier than today.
La fecha de caducidad no puede ser anterior a la actual.
Segmento 1

The expiration date is not valid.
La fecha de vencimiento no es válida.
Segmento 2

Al aplicar el algoritmo propuesto al segmento 1, se detectaría que expiration se ha traducido como vencimiento en el resto de la traducción (en este caso el segmento 2). Por tanto, al no encontrar este término se mostraría una advertencia.

Por supuesto, este método presenta varios inconvenientes. Por ejemplo, en cuanto un error se repite en dos líneas, el sistema pierde la capacidad de detectarlo, lo que lo invalida para detectar errores recurrentes. No obstante, ofrece una nueva manera de detectar errores que pasan desapercibidos en la mayoría de las comprobaciones que realizan las aplicaciones de revisión asistida en la actualidad, con la ventaja añadida de crear muy poco ruido.

Recent Comments