Un método lingüístico-estatístico para a tradución automática baseado en corpus non-paralelos e semántica composicional

Un método lingüístico-estatístico para a tradución automática baseado en corpus non-paralelos e semántica composicional

Descrición

O obxectivo central do presente proxecto é o deseño e desenvolvemento dunha nova estratexia lingüístico-estatística para a tradución automática. O paradigma actual en tradución automática estatística (SMT) baséase no uso de corpus bilingües paralelos (e aliñados) e na segmentación non-composicional. En contraposición, a proposta do presente proxecto fundaméntase na explotación de corpus bilingües non-paralelos con segmentación composicional baseada na semántica distribucional.
A principal contribución do proxecto é precisamente a aplicación da composicionalidade distribucional a espazos vectoriais bilingües mediante o uso e explotación de corpus bilingües non-paralelos (que non teñen por que ser comparábeis). Trátase, por tanto, dun enfoque novo para a investigación en tradución automática. O modelo proposto de tradución é de natureza híbrida lingüístico-estatística. Precisa, por unha banda, regras sintácticas de transferencia e, por outra, de espazos vectoriais construídos automaticamente a partires dos corpus non-paralelos, vectores que representan a distribución (ou significado contextual) das expresións lingüísticas.

Obxectivos

  • Deseño e desenvolvemento dunha nova estratexia lingüístico-estatística para a tradución automática baseada na explotación de corpus bilingües non-paralelos a na semántica composicional.
  • Implementación dun sistema de tradución inglés-español (en-es), limitado a secuencias clausais cuxos predicados conteñan as locucións verbais inglesas coñecidas como phrasal verbs, que son predicados que tenden a ter unha grande ambigüidade léxica.

Investigadores