Методы пополнения корпусных данных в статистическом машинном переводе

Доклады Башкирского университета. 2017. Том 2. № 1. С. 97-103.

Авторы


Мифтахова Р. Г.*
Башкирский государственный университет
Россия, Республика Башкортостан, 450076 г. Уфа, улица Заки Валиди, 32

Абстракт


Для увеличения корпусных данных для систем статистического машинного перевода предложено использование промежуточного корпуса тривиально родственного или родственного языка.

Ключевые слова


  • статистический машинный перевод
  • выравнивание
  • корпус
  • конкатенация

Литература


  1. Кипяткова И. С. Применение синтаксического анализа при создании n-граммной модели языка для систем распознавания русской речи / И. С. Кипяткова // Труды 5 междисциплинарного семинара Анализ разговорной русской речи АР3-2011, 25-26 августа 2011 г. - СПб., 2011. - С. 13-18.
  2. Бабин Д. Н. О перспективах создания системы автоматического распознавания слитной устной русской речи / Д. Н. Бабин, И. Л. Мазуренко, А. Б. Хо-лоденко // Интеллектуальные системы. - 2004. - Т. 8, Вып. 1-4. - С.45-70.
  3. Pang B., Lee L. Sentiment Classification using Machine Learning Techniques. Proceedings of the Conference on Empirical Methods in Natural. Language Processing (EMNLP). Philadelphia. 2002. P. 79-86.
  4. Бузикашвили Н. Е., Самойлов Д. В., Бродский Л. И., Усков А. В. Задача поиска в неструктурированном тексте и лингвистический анализ. // Интеллектуальные технологии ввода и обработки информации, М., 1998.
  5. Морозкина Е. А., Влияние информационных технологий на развитие лингвистических норм. // Вестник Башкирского университета, -2012 №1 -С 163.
  6. Морозкина Е. А., Наука о переводе в свете лингвистического учения Вильгельма Фон Гумбольдта // Языки в диалоге культур, Материалы 2 Международной научно-практической конференции, посвященной 100-летию со дня рождения первого ректора БашГуШ. Х. Чанбарисова. -2016. -С 33
  7. URL: http://www.rae.ru/monographs/189-5958

New approaches to resolving the problem of corpora data shortage

Authors


Miftakhova R. G.*
Bashkir State University
32 Zaki Validi Street, 450074 Ufa, Republic of Bashkortostan, Russia

Abstract


The usage of agnate languages for more accurate alignment in statistical machine translation to resolve the problem of corpora data shortage.

Keywords


  • statistical machine translation
  • concatenation
  • corpora
  • alignment