Автоматическая обработка художественных текстов А. П. Чехова и их англоязычных переводов с опорой на методы лемматизации и частеречной разметки
Доклады Башкирского университета. 2023. Том 8. № 2. С. 59-69.
Авторы
Морозкина Е. А.
Уфимский университет науки и технологий
Россия, Республика Башкортостан, 450076 г. Уфа, ул. Заки Валиди,32
Корнилова А. Д.*
Уфимский университет науки и технологий
Россия, Республика Башкортостан, 450076 г. Уфа, ул. Заки Валиди,32
*E-mail: anastasia.ufa@mail.ru
Абстракт
В статье предлагается использовать методы автоматической обработки текстов для проведения сопоставительного анализа оригиналов художественных произведений и их переводов с целью выявления коэффициента лексического разнообразия. Установлено, что пьеса А. П. Чехова «Вишневый сад» и ряд его рассказов лексически вариативнее их англоязычных версий перевода. Выяснилось, что в пьесе А. П. Чехова «Вишневый сад», в отличие от рассказов, глагольная лексика употребляется чаще других знаменательных частей речи. Предпринята попытка представления зависимости коэффициента лексического разнообразия от объема текста в виде линейной регрессии.
Ключевые слова
- лемматизация
- частеречная разметка
- автоматическая обработка текстов
Литература
- Мифтахова Р. Г., Морозкина Е. А. Нейронное представление семантического поля // Вестник Башкирского университета. 2021. Т. 26. №4. С. 1130-1135.
- Мифтахова Р. Г., Морозкина Е. А. Машинный перевод. Нейроперевод // Вестник Башкирского университета. 2019. Т. 24. №2. С. 497-502.
- MyStem: Программа MyStem производит морфологический анализ текста на русском языке. URL: https://yandex.ru/dev/mystem/
- Laurence Anthony's Website: Software. URL: https://laurenceanthony.net/software.html
- Чехов А. П. Вишневый сад. Драма на охоте. Дама с собачкой. Повести. Рассказы. М.: Эксмо, 2020. 1024 с.
- Chekhov A. The Cherry Orchard and other plays translated by Garnett C. London: Heron Books, 1968. 430 p.
- Chekhov A. The Cherry Orchard translated by Nelson R., Pevear R., Volokhonsky L. New York: Theatre Communications Group, 2015. 287 p.
- Rusk J. Chekhov Stories in the Order of English Publication translated by Garnett C. URL: https://www.ibiblio.org/eldritch/ac/jr/garnett.htm
- Chekhov A. Fifty-Two Stories translated by Pevear R., Volokhonsky L. New York: Vintage, 2020. 530 p.
- Шафиков С. Г. Типология языков, метаязык лингвистической типологии и языковые универсалии // Доклады Башкирского университета. 2020. Т. 5. №6. С. 439-443.
- Пешкова Н. П. Метод триангуаляции как инструмент полидисциплинарного подхода к исследованию речевой коммуникации // Доклады Башкирского университета. 2022. Т. 7. №5. С. 316-323.
- Сафина З. М., Корнилова А. Д. Передача видовременных форм русских глаголов на английский язык // Доклады Башкирского университета. 2021. Т. 6. №2. С. 122-129.
- Морозкина Е. А., Исхакова Э. В. Интерпретация «текстовых аномалий» в геральдической конструкции интертекстуальности // Доклады Башкирского университета. 2022. Т. 7. №6. С. 426-434.
- Морозкина Е. А., Морозкин Ю. Н., Сафина З. М. Фрактальные свойства глаголов движения в оригинале и переводе художественного текста // Вестник башкирского университета. 2018. Т. 23. №3. С. 777-782.
- Gonçalves L. L., Gonçalves L. B. Fractal power law in literary English // Physica A: Statistical Mechanics and its Applications. 2006. Vol. 360. Issue 2. Pp. 557-575.
- Grieve J. Quantitative Authorship Attribution: An Evaluation of Techniques // Literary and Linguistic Computing. 2007. Vol. 22. No. 3. Pp. 251-270.
- McCarthy Ph. M., Jarvis S. Voc-D: A theoretical and empirical evaluation // Language Testing. 2007. Vol. 24. No. 4. Pp. 459-488.
- Бузаджи Д. М., Ланчиков В. К. Буквализм и языковое разнообразие. Об использовании одного метода корпусной лингвистики в переводоведении // Мосты. 2011. №4(32). С. 12-31.
- Сафина З. М., Корнилова А. Д., Смакова А. Л. Коэффициент лексического разнообразия в текстах оригинала и перевода // Языки в диалоге культур: проблемы многоязычия в полиэтническом пространстве: мат-лы V Всерос. научно-практ. конф. с междунар. участием (г. Уфа, 5 мая 2022 г.) / отв. ред. А. С. Самигуллина. Уфа: РИЦ БашГУ. 2022. С. 37-40.
- Сафина З. М., Корнилова А. Д., Смакова А. Л. Количественный и статистический анализ лексических единиц в художественном переводе // Вестник Башкирского университета. 2022. Т. 27. №3. С. 741-746.
- Морозкина Е. А., Тимирбаева О. О. Анализ перевода семантического парадокса (на мат-ле романа М. Ю. Лермонтова «Герой нашего времени» и англоязычных версий его перевода) // Доклады Башкирского университета. 2019.Т. 4. №3. С. 291-296.
Natural Language Processing of A. Chekhov’s literary texts and of their English-language translation versions basedon the methods of lemmatization and part-of-speech tagging
Authors
Morozkina E. A.
Ufa University of Science and Technology
32 Zaki Validi st., 450076 Ufa, Republic of Bashkortostan, Russia
Kornilova A. D.*
Ufa University of Science and Technology
32 Zaki Validi st., 450076 Ufa, Republic of Bashkortostan, Russia
*E-mail: anastasia.ufa@mail.ru
Abstract
The article offers to conduct a comparative analysis of the original literary texts and of their English- language translation versions using Natural Language Processing techniques in order to identify thecoefficient of lexical diversity. It is found out that A. Chekhov's play “The Cherry Orchard” and a number of his short stories are lexically more variable than their English-language translation versions. It turned out that in A. Chekhov's play “The Cherry Orchard” verbal lexical units are used more often than the units of other major parts of speech, while in A. Chekhov's short stories nouns prevail. An attempt is made to represent in the form of linear regression the dependence of the coefficient of lexical diversity on the volume of the text.
Keywords
- lemmatization
- part-of-speech tagging
- natural language processing