Архитектура Seq2Seq для малоресурсных языков: методы преодоления дефицита данных

Вернуться к списку статей

Доклады Башкирского университета. 2026. Том 11. № 2. С. 188-194.

DOI: https://doi.org/10.33184/dokbsu-2026.2.21

Скачать текст.pdf

Авторы

Мифтахова Р. Г.*

Уфимский университет науки и технологий

*E-mail: miftahovar@yandex.ru

Мыльников Н. М.

Уфимский университет науки и технологий

Абстракт

Представленное исследование содержит подходы к модификации моделей Seq2Seq для сценариев обработки малоресурсных языков. Рассматриваются ключевые методы преодоления «проклятия размерности» и разреженности данных: алгоритмы субсимвольной токенизации (BPE, SentencePiece); методы многоязыкового кросс-языкового трансфера (multilingual transfer learning) с использованием высокоресурсных языков-доноров; а также методы синтетической аугментации данных (back-translation). Отдельное внимание уделяется современным методам параметрически эффективного дообучения (PeFt). В работе представлен сравнительный анализ продуктивности описанных подходов, стратифицированный в соответствии с размером доступных параллельных данных.

Ключевые слова

machine translation
natural language processing
Sequence-to-Sequence
low-resource languages
transfer learning
reverse translation
LoRA

Литература

Vaswani A., Shazeer N., Parmar N., et al. Attention is all you need // Advances in Neural Information Processing Systems. 2017. Vol. 30. P. 5998–6008.
Lample G., Conneau A. Cross-lingual language model pretraining // Advances in Neural Information Processing Systems. 2019. Vol. 32.
Edunov S., Ott M., Auli M., Grangier D. Understanding Back-Translation at Scale. In: Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. ACL, 2018. P. 489–500.
Hu E. J., Shen Y., Wallis P., et al. LoRA: Low-Rank Adaptation of Large Language Models. In: International Conference on Learning Representations. Proceedings.com, 2022.
Sennrich R., Haddow B., Birch A. Neural Machine Translation of Rare Words with Subword Units. In.: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. ACL, 2016. P. 1715–1725.
Бадмаева Е. С., Очиров А. В. Методы машинного перевода для языков с ограниченными ресурсами // Вестник компьютерных и информационных технологий. 2024. №3. С. 45–52.
Liu Y., Gu J., Goyal N., et al. Multilingual Denoising Pretraining for Neural Machine Translation // Transactions of the Association for Computational Linguistics. 2020. Vol. 8. P. 726–742.

Seq2Seq architecture for low-resource languages: methods for overcoming data scarcity

Authors

Miftakhova R. G.*

Ufa University of Science and Technology

*E-mail: miftahovar@yandex.ru

Mylnikov N. M.

Ufa University of Science and Technology

Abstract

The presented study contains approaches to modifying Seq2Seq models for low-resource language processing scenarios. The key methods of overcoming the “curse of dimensionality” and sparsity of data are considered: algorithms of sub-symbolic tokenization (BPE, SentencePiece); methods of multilingual cross-language transfer (multilingual transfer learning) using high-resource donor languages, as well as methods of synthetic data augmentation (back-translation). Special attention is paid to modern methods of parametrically effective retraining (PEFT). The paper presents a comparative analysis of the productivity of the described approaches, structured according to the size of the available parallel data.

Keywords

машинный перевод
обработка естественного языка
Sequence-to-Sequence
малоресурсные языки
трансферное обучение
обратный перевод
LoRA

Вернуться к списку статей

Форма поиска

Архитектура Seq2Seq для малоресурсных языков: методы преодоления дефицита данных

Авторы

Абстракт

Ключевые слова

Литература

Seq2Seq architecture for low-resource languages: methods for overcoming data scarcity

Authors

Abstract

Keywords