Методы пополнения корпусных данных в статистическом машинном переводе
Доклады Башкирского университета. 2017. Том 2. № 1. С. 97-103.
Авторы
Мифтахова Р. Г.*
Башкирский государственный университет
Россия, Республика Башкортостан, 450076 г. Уфа, улица Заки Валиди, 32
*E-mail: miftahovar@yandex.ru
Абстракт
Для увеличения корпусных данных для систем статистического машинного перевода предложено использование промежуточного корпуса тривиально родственного или родственного языка.
Ключевые слова
- статистический машинный перевод
- выравнивание
- корпус
- конкатенация
Литература
- Кипяткова И. С. Применение синтаксического анализа при создании n-граммной модели языка для систем распознавания русской речи / И. С. Кипяткова // Труды 5 междисциплинарного семинара Анализ разговорной русской речи АР3-2011, 25-26 августа 2011 г. - СПб., 2011. - С. 13-18.
- Бабин Д. Н. О перспективах создания системы автоматического распознавания слитной устной русской речи / Д. Н. Бабин, И. Л. Мазуренко, А. Б. Хо-лоденко // Интеллектуальные системы. - 2004. - Т. 8, Вып. 1-4. - С.45-70.
- Pang B., Lee L. Sentiment Classification using Machine Learning Techniques. Proceedings of the Conference on Empirical Methods in Natural. Language Processing (EMNLP). Philadelphia. 2002. P. 79-86.
- Бузикашвили Н. Е., Самойлов Д. В., Бродский Л. И., Усков А. В. Задача поиска в неструктурированном тексте и лингвистический анализ. // Интеллектуальные технологии ввода и обработки информации, М., 1998.
- Морозкина Е. А., Влияние информационных технологий на развитие лингвистических норм. // Вестник Башкирского университета, -2012 №1 -С 163.
- Морозкина Е. А., Наука о переводе в свете лингвистического учения Вильгельма Фон Гумбольдта // Языки в диалоге культур, Материалы 2 Международной научно-практической конференции, посвященной 100-летию со дня рождения первого ректора БашГуШ. Х. Чанбарисова. -2016. -С 33
- URL: http://www.rae.ru/monographs/189-5958
New approaches to resolving the problem of corpora data shortage
Authors
Miftakhova R. G.*
Bashkir State University
32 Zaki Validi Street, 450074 Ufa, Republic of Bashkortostan, Russia
*E-mail: miftahovar@yandex.ru
Abstract
The usage of agnate languages for more accurate alignment in statistical machine translation to resolve the problem of corpora data shortage.
Keywords
- statistical machine translation
- concatenation
- corpora
- alignment