EXTRA-LEX: Extracción automática de léxicos bilingües galego-español e a actualización dos recursos lexicográficos de motores de tradución automática

EXTRA-LEX: Extracción automática de léxicos bilingües galego-español e a actualización dos recursos lexicográficos de motores de tradución automática

Descrición

Este proxecto quere elaborar un extractor automático de léxicos bilingües para o par de linguas galego e español, e usar os léxicos extraídos na mellora e actualización dos dicionarios computacionais explotados por sistemas de tradución automática. O método de extracción estará baseado en técnicas de explotación de corpus non-paralelos de temática comparable.

Prestarase especial atención á aprendizaxe automática de equivalentes de tradución de expresións multipalabra, pouco presentes en recursos lingüísticos construídos manualmente e fundamentais para mellorar a calidade dos motores de tradución. En concreto, trabállase na mellora e actualización dos recursos lexicográficos do motor de tradución de código aberto Open Trad.

Obxectivos

  • Elaboración dun corpus mediante técnicas de crawling na web.
  • Indetificador de lingua.
  • Identificador e extractor de termos multipalabra.
  • Extracción automática de léxicos bilingües a partir de corpus non-paralelos.
  • Uso destes léxicos no mantemento, mellora e constante actualización dos dicionarios do sistema de tradución automática bidireccional Open Trad.

Investigadores

Detalles

Data de execución:01/01/2007 - 30/10/2010
Financiado porProxectos de Investigación Básica. INCITE, Xunta de Galicia, Consellería de Innovación e Industria, PGIDIT07PXIB20401PR
Proxectos de Investigación Básica. INCITE  Xunta de Galicia, Consellería de Innovación e Industria