Traduction automatic statistic
Le traduction automatic statistic, etiam cognoscite per le abbreviaturas Stat MT o SMT (del anglese Statistical Machine Translation), es un paradigma de traduction automatic que genera traductiones basate in modellos statistic e in le theoria del information. Le parametros de iste modellisation es obtenite per medio del analyse de corpus bilingue. Le approccio statistic se oppone a metodos traditional como le traduction automatic basate in regulas e le traduction automatic basate in exemplos.
Origine e evolution
modificarPrime conceptualisation
modificarLe prime ideas super le traduction automatic statistic ha essite introducite per Warren Weaver in 1949. In su famoso memorandum, Weaver proposava le application del theoria del information de Claude Shannon al problema del traduction inter linguas.[1] Illo marcava un puncto de initio theoretic pro le integration de approches statistic in le traduction automatic.
Reintroducione per IBM
modificarLe traduction automatic statistic esseva formalmente reintroducite in 1991 per un equipa de recerca del Thomas J. Watson Research Center de IBM. Le recercatores, includente P. Brown, S. Della Pietra, V. Della Pietra, e R. Mercer, publicava un influente studio titulate The Mathematics of Statistical Machine Translation: Parameter Estimation que delineava le bases mathematic pro iste approcho.[2] Isto stimulava un interesse renovate in le traduction automatic durante le decada de 1990.
Principios e fundamentos
modificarLe traduction automatic statistic functiona construente modellisationes mathematic pro determinar le probabile traduction de un phrase in un lingua de origine al lingua de destino. Le elementos fundamental de iste approcho es:
- Modelo de linguage: Describe le probabilitate de un sequencia de parolas in le lingua de destino.
- Modelo de traduction: Indica le probabilitate que un phrase in le lingua de origine corresponde a un phrase in le lingua de destino.
- Regula de Bayes: Es usate pro combinar le duo modelos e generar traductiones optimisate.
Le modello statistic es generalemente construite usando un grande corpus bilingue parallel, ubi le textos in duo linguas es alineate phrase per phrase.
Applicationes e limitationes
modificarApplicationes
modificarLe traduction automatic statistic es largemente usate in servitios moderne de traduction, como Google Translate (ante le transito al traduction basate in redes neuronal in 2016). Illo es particularmente utile in contextos ubi grande quantitate de datos parallel es disponibile, como in le traduction de documentos juridic o diplomatic, ubi es essential mantener un alto grado de fidelitate.
Limitationes
modificarMalgrado su successe, le traduction automatic statistic ha diverse limitationes:
- Dependencia forte del datos: Le qualitate del traduction depende directemente del grandor e representativitate del corpus de entrata.
- Difficultate con linguas minoritari: Linguas sin recursos ample de corpus parallel es frequentemente mal representate.
- Contexto semantic: SMT sovente falla capturar nuances semantic complexe o generar traductiones contextualmente adaptate.
Transition al traduction neuronal
modificarIn le ultime annos, le traduction automatic statistic ha essite gradualmente substituite per traduction automatic neuronal (Neural Machine Translation, NMT). NMT usa redes neuronal profunde pro apprender patronos linguistic e genera traductiones plus fluide e contextualmente appropriate. Tamen, SMT ancora ha applicationes utile in contextos con basse resources computationale o con accesso limitate a corpus de datos linguistic.
Impacto e futur
modificarLe traduction automatic statistic ha jocate un rolo crucial in reactivar le interesse in le traduction automatic e ha fundate le base conceptual pro approches plus moderne. Malgrado su substitution progressiva per technicas neuronal, le principios mathematic de SMT continua esser relevante pro le comprehension del linguistica computationale.