Globedia.com

×
×

Error de autenticación

Ha habido un problema a la hora de conectarse a la red social. Por favor intentalo de nuevo

Si el problema persiste, nos lo puedes decir AQUÍ

×
cross

Suscribete para recibir las noticias más relevantes

×
Recibir alertas

¿Quieres recibir una notificación por email cada vez que Mariana87 escriba una noticia?

Sello español en el nuevo Google Translate de la Unión Europea

26/07/2019 13:22 0 Comentarios Lectura: ( palabras)

La Comisión Europea le abonará dos millones de euros a Pangeanic, agencia de traducción de Valencia

Por el desarrollo de un motor de traducción especial para la Unión Europa, con combinaciones entre los veinticuatro idiomas oficiales

Pangeanic fue pionera en la traducción estadística. Esta apuesta hizo posible que pueda aliarse con multinacionales japonesas como Panasonic, Sony, Toshiba y Honda. El know how que fue desarrollando les abrió las puertas a clientes como el Gobierno estadounidense, la empresa de coches inglesa Rolls-Royce o hasta Veritone.

No pasó mucho tiempo hasta que el equipo de Pangeanic se diera cuenta de que el potencial de la inteligencia artificial en su negocio era altísimo. Dicho know how se está capitalizando ahora con semejante proyecto solicitado para la comunidad europea. La empresa española con sede en Valencia será responsable del desarrollo del motor de traducción “Google Translate” para la Unión Europea.

El despegue de la empresa valenciana fue a partir de 2016 cuando percibieron que se venía un gran cambio. Hasta el momento, la compañía usaba la estadística en su motor de traducción, lo cual era muy superior a los programas tradicionales que usaban las reglas lingüísticas.

De acuerdo a su CEO, Manuel Herranz, esto funcionaba muy bien para idiomas con reglas parecidas, como por ejemplo el español con el portugués, francés o italiano, aunque no tanto en idiomas no tan semejantes, como por ejemplo el español con el inglés o peor aún con lenguas asiáticas como el japonés o el chino. Pero todo cambió cuando NVIDIA democratizó las GPU. Esto le dio vía libre a las redes neuronales para que funcionen. Semejante cambio hizo posible que el tiempo necesario para el procesamiento y entrenamiento se redujera de 3 meses a tan solo 3 semanas.

En dicho momento, Pangeanic se puso como meta el desarrollo de un programa que recopile datos, debido a que este tipo de tecnología requiere de información de calidad. El sistema estadístico elaborado hasta entonces requería de una cantidad mínima de un par de millones de frases, mientras que por su parte el de redes neuronales necesita al menos el triple de frases. Desde entonces la compañía ha ido elaborando su propia base de datos, la cual cuenta con más de 3.000 millones de frases con perfecta alineación al día de hoy.

¿Por qué la inteligencia artificial es la mejor alternativa para traducir? De acuerdo con Herranz, las redes neuronales procuran copiar la forma de expresarse que tenemos los seres humanos. de esta manera, toman en cuenta el contexto en que se está diciendo la frase. El sistema no hace la traducción frase a frase ni palabra a palabra, sino que va un paso más allá y lo hace sílaba por sílaba, y hasta en algunos casos letra por letra. De esta forma, el porcentaje de error se reduce drásticamente.

Para esto, la empresa requería algoritmos adicionalmente a sus bases de datos. Esto lo logró al adaptar a sus requerimientos algunas librerías libres. Esto le permitió crear un know how único, el cual sirve para sumarizar y clasificar, aparte de la traducción en sí.

Este proyecto no es el primero que la empresa valenciana está desarrollando para la Unión Europea, sino que vienen trabajando en conjunto desde el año 2017. El reto actual es quizás el más desafiante: nada más y nada menos que crear un “Google Translate” de la Unión Europea. El proyecto ha sido contratado a través de la CEF (Connecting Europe Facility) (en español, Facilidad Conectora de Europa), e implica una inversión de dos millones de euros.

La magnitud del proyecto consiste en crear 420 motores de traducción, resultado de la combinación de cualquiera de las veinticuatro lenguas oficiales de la Unión Europea entre ellas. Para cada combinación se requerirá una base de al menos 15 millones de frases, por lo que en total serán unos 6.300 millones de frases. Luego, tres universidades estarán a cargo de la certificación de los resultados, los cuales pueden permitir hasta un 5% de errores. Esto, para Herranz, no es un problema ya que asegura que, en el sector privado, Pangeanic está traduciendo a un nivel superior que Google en la mayoría de los casos.

El fin de este proyecto es que la tecnología le facilite a la Comisión Europea la transmisión de información confiable hacia los estados miembros, así como recibir información de calidad también. Del mismo modo, habrá una copia pública de estos motores, la cual será de código abierto, lo cual permitirá a cada gobierno a que lo use a su antojo.

El hecho de que su tecnología sea lineal es la principal ventaja de Pangeanic frente a los gigantes como Google o Microsoft. Estos grandes sistemas no son lineales, sino que cuando pasan de un idioma a otro, normalmente pasan por un idioma intermedio, el cual suele ser el inglés, dado que éste tiene más datos. Pero, al no ir en línea recta, se pierde precisión. La ventaja de Pangeanic es que suprime dicha intermediación y traduce directamente entre cualquier combinación de idiomas.

El principal reto del proyecto es generar la cantidad de datos necesaria. La compañía valenciana ya cuenta con una base de datos propia, así como la de la Unión Europea. Sin embargo, no llega a tener 15 millones de frases para cada combinación. Dichas frases deberán estar relacionadas a las temáticas que son de importancia para la comisión, tales como temas políticos, económicos y judiciales.

¿Cómo hará la empresa para obtener tanta cantidad de datos? Algunos datos ya están generados, mientras que el resto de pueden obtener de manera sintética. Las redes neuronales con las que cuenta Pangeanic son aptas para elaborar frases sin errores artificialmente. De hecho, son hasta más confiables que las frases generadas por personas. Incluso, aproximadamente la mitad de las frases de la empresa son sintéticas (unos 1.500 millones de frases). Si bien el proyecto, el cual comenzará en septiembre, tiene prevista una duración de dos años, la empresa publicará los motores de manera gradual a medida que los vaya desarrollando.


Sobre esta noticia

Autor:
Mariana87 (279 noticias)
Visitas:
587
Tipo:
Opinión
Licencia:
Distribución gratuita
¿Problemas con esta noticia?
×
Denunciar esta noticia por

Denunciar

Comentarios

Aún no hay comentarios en esta noticia.