RU2790026C2 - Method and server for training machine learning algorithm for translation - Google Patents
Method and server for training machine learning algorithm for translation Download PDFInfo
- Publication number
- RU2790026C2 RU2790026C2 RU2020142417A RU2020142417A RU2790026C2 RU 2790026 C2 RU2790026 C2 RU 2790026C2 RU 2020142417 A RU2020142417 A RU 2020142417A RU 2020142417 A RU2020142417 A RU 2020142417A RU 2790026 C2 RU2790026 C2 RU 2790026C2
- Authority
- RU
- Russia
- Prior art keywords
- sentence
- synthetic
- language
- server
- translation
- Prior art date
Links
Images
Abstract
Description
ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY
[01] Настоящая технология относится к машинному обучению в целом и, в частности, к способу и серверу для обучения алгоритма машинного обучения для перевода.[01] The present technology relates to machine learning in general, and specifically to a method and server for training a machine learning algorithm for translation.
УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE INVENTION
[02] С ростом числа пользователей, осуществляющих доступ в Интернет, появилось огромное количество Интернет-служб. К таким службам относятся, например, службы поисковых систем (например, поисковые системы Яндекс™ и Google™), которые позволяют пользователям получать ин формацию, отправляя запросы в поисковую систему. Кроме того, службы социальных сетей, а также мультимедийные службы позволяют большому количеству пользователей с различными социальными и культурными происхождениями взаимодействовать на унифицированных платформах для обмена контентом и информацией. Цифровой контент и другая информация, которыми пользователи обмениваются, могут представляться на различных языках. По этой причине из-за постоянно растущего объема информации, которой обмениваются в Интернете, часто используются службы перевода такие как, например, Яндекс.Переводчик™.[02] With the increase in the number of users accessing the Internet, a huge number of Internet services have emerged. Such services include, for example, search engine services (for example, Yandex™ and Google™ search engines), which allow users to obtain information by sending queries to a search engine. In addition, social networking services as well as multimedia services allow a large number of users from different social and cultural backgrounds to interact on unified platforms for the exchange of content and information. Digital content and other information exchanged between users may be presented in various languages. For this reason, due to the ever-increasing volume of information exchanged on the Internet, translation services such as Yandex.Translate™ are often used.
[03] Последняя упомянутая служба является особенно полезной, поскольку она позволяет пользователям с легкостью переводить текст (или даже речь) с одного языка, который пользователь не понимает, на другой язык, который он понимает. Это означает, что службы перевода обычно предназначены для предоставления переведенной версии контента на понятном пользователю языке, чтобы сделать этот контент доступным для восприятия пользователем.[03] The last mentioned service is particularly useful because it allows users to easily translate text (or even speech) from one language that the user does not understand to another language that they understand. This means that translation services are typically designed to provide a translated version of content in a language that the user understands in order to make that content accessible to the user.
[04] Системы перевода обычно обучаются на основе большого количества примеров параллельных предложений между исходным языком и целевым языком. По этой причине системы перевода хорошо подходят для перевода предложений между «популярными языками», поскольку для обучения доступен очень большой корпус параллельных предложений.[04] Translation systems are usually trained on the basis of a large number of examples of parallel sentences between the source language and the target language. For this reason, translation systems are well suited for translating sentences between "popular languages" because a very large corpus of parallel sentences is available for learning.
[05] Однако традиционные компьютерные системы, обеспечивающие службы перевода, по-прежнему имеют много недостатков, например, когда речь идет о переводе с языка, для которого доступен ограниченный корпус параллельных предложений, этот язык можно считать «редким» языком с точки зрения доступности параллельных предложений, которые могут быть использованы для обучения алгоритма перевода.[05] However, traditional computer systems that provide translation services still have many disadvantages, for example, when it comes to translating from a language for which a limited corpus of parallel sentences is available, this language can be considered a "rare" language in terms of the availability of parallel sentences that can be used to train the translation algorithm.
[06] Патентная заявка Китая №. 110717341, озаглавленная «Method and device for constructing old-Chinese bilingual corpus with Thai as pivot» и опубликованная 21 января 2020 года, относится, согласно ее машинному переводу на английский язык, к способу и устройству для построения древнекитайского двуязычного корпуса с тайским языком в качестве основы, что принадлежит к области обработки естественного языка. Сначала, выполняют обработку сегментации слов тайского языка над данными китайско-тайского параллельного корпуса; строят лаосско-тайский двуязычный словарь и переводят тайские предложения в слова подпоследовательностей лаосских предложений с использованием лаосско-тайского двуязычного словаря для получения возможных пар лаосско-тайских параллельных предложений; строят двустороннюю основанную на LSTM модель классификации лаосско-тайских пар параллельных предложений, классифицируют возможные пары лаосско-тайских параллельных предложений и получают лаосско-тайские двуязычные пары параллельных предложений; и сопоставляют лаосский язык с китайским языком посредством использования тайского языка в качестве основного языка для построения лаосско-китайского двуязычного параллельного корпуса.[06] China Patent Application No. 110717341, entitled "Method and device for constructing old-Chinese bilingual corpus with Thai as pivot" and published on January 21, 2020, refers, according to its machine translation into English, to a method and apparatus for constructing an ancient Chinese bilingual corpus with Thai as pivot fundamentals, which belongs to the field of natural language processing. First, Thai word segmentation processing is performed on the Chinese-Thai parallel corpus data; building a Lao-Thai bilingual dictionary and translating the Thai sentences into words of subsequences of the Lao sentences using the Lao-Thai bilingual dictionary to obtain possible pairs of Lao-Thai parallel sentences; building a two-way LSTM-based Lao-Thai parallel sentence pair classification model, classifying possible Lao-Thai parallel sentence pairs, and deriving Lao-Thai bilingual parallel sentence pairs; and collate Lao with Chinese by using Thai as the base language to construct a Lao-Chinese bilingual parallel corpus.
СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION
[07] Разработчики настоящей технологии осознали некоторые технические проблемы, связанные с существующими службами перевода. Целью настоящей технологии является устранение по меньшей мере некоторых неудобств, имеющихся в предшествующем уровне техники.[07] The developers of the present technology have recognized some of the technical problems associated with existing translation services. The purpose of the present technology is to eliminate at least some of the disadvantages of the prior art.
[08] Традиционные системы хорошо подходят для служб перевода между «популярными» языками. Некоторые примеры популярных языков включают в себя английский, французский, русский, немецкий, турецкий и подобные. Это связано с тем, что традиционные системы имеют доступ к большим корпусам параллельных предложений между такими языками, что позволяет лучше обучать алгоритмы машинного обучения (MLA) для целей перевода.[08] Traditional systems are well suited for translation services between "popular" languages. Some examples of popular languages include English, French, Russian, German, Turkish and the like. This is because traditional systems have access to large corpora of parallel sentences between such languages, allowing better training of machine learning algorithms (MLA) for translation purposes.
[09] Однако, традиционные системы плохо подходят для перевода предложений с «редких» языков. Некоторые примеры редких языков включают в себя чувашский, фарерский, галисийский и подобные. Это объясняется ограниченным числом параллельных предложений, которые доступны между некоторым определенным редким языком и целевым языком.[09] However, traditional systems are not well suited for translating sentences from "rare" languages. Some examples of rare languages include Chuvash, Faroese, Galician and the like. This is due to the limited number of parallel sentences that are available between some specific rare language and the target language.
[10] В по меньшей мере некоторых вариантах осуществления настоящей технологии были разработаны способы и системы для генерирования «искусственных» примеров, в отличие от «реальных» примеров, из параллельных предложений между определенным редким языком и целевым языком. Разработчики настоящей технологии осознали, что генерирование искусственных примеров может позволить повысить качество служб перевода, которое может быть достигнуто традиционными системами при переводе предложения с редкого языка. В некоторых вариантах осуществления настоящей технологии наборы обучающих данных, генерируемые на основе искусственных примеров перевода, могут быть помечены как таковые, чтобы позволить модели перевода различать во время фазы обучения реальные примеры перевода и искусственные примеры перевода.[10] In at least some embodiments of the present technology, methods and systems have been developed for generating "artificial" examples, as opposed to "real" examples, from parallel sentences between a certain rare language and a target language. The developers of the present technology have realized that the generation of artificial examples can improve the quality of translation services that can be achieved by traditional systems when translating a sentence from a rare language. In some embodiments of the present technology, training datasets generated from artificial translation examples may be labeled as such to allow the translation model to distinguish between real translation examples and artificial translation examples during the training phase.
[11] Как станет очевидно из приведенного ниже описания, разработчики настоящей технологии также разработали способы и системы, которые позволяют использовать знания о популярных языках, которые являются частью той же группы или семейства языков, что и редкий язык, для повышения качества перевода с редкого языка на целевой язык.[11] As will become apparent from the description below, the developers of the present technology have also developed methods and systems that allow the use of knowledge about popular languages that are part of the same group or family of languages as a rare language, to improve the quality of translation from a rare language into the target language.
[12] В по меньшей мере некоторых вариантах осуществления настоящей технологии обеспечивается модель перевода, которая выполнена с возможностью получения входного предложения, которое было транслитерировано с одного языка из некоторой определенной группы языков в «систему синтетического письма», и обеспечения переведенного выходного предложения на целевом языке. Входное предложение может быть сгенерировано моделью транслитерации на основе исходного предложения на одном языке из упомянутой определенной группы языков.[12] In at least some embodiments of the present technology, a translation model is provided that is configured to receive an input sentence that has been transliterated from one language from a certain group of languages into a "synthetic writing system" and provide a translated output sentence in the target language. . The input sentence can be generated by the transliteration model based on the original sentence in one language from the specified group of languages.
[13] То, как модель транслитерации реализуется, конкретным образом не ограничивается. В одном варианте осуществления модель транслитерации может быть реализована как модель статистического машинного перевода (SMT), обученная транслитерировать предложения с любого одного языка из некоторой определенной группы языков в систему синтетического письма. Например, тюркская группа или семья языков содержит, среди прочих, турецкий, киргизский, узбекский и чувашский языки. В этом примере, в зависимости от конкретного тюркского исходного языка, слово «серебро» может быть записано как «gümüş», «көмөш», «көмеш», «күміс», «күмүш», «gümüş», «kumush» и «кӗмӗл». Таким образом, модель транслитерации обучается таким образом, что определенное слово записывается одинаково в системе синтетического письма, независимо от того, какой из тюркских языков является исходным языком для данного определенного слова. Следует отметить, что в некоторых вариантах осуществления настоящей технологии система синтетического письма может быть системой письма одного из языков упомянутой группы языков. В некоторых вариантах осуществления настоящей технологии использование системы синтетического письма позволяет сделать процесс обучения алгоритма машинного обучения (MLA) более эффективным путем устранения фонетических или орфографических различий между языками из упомянутой группы языков.[13] How the transliteration model is implemented is not specifically limited. In one embodiment, the transliteration model may be implemented as a statistical machine translation (SMT) model trained to transliterate sentences from any one language from a certain group of languages into a synthetic writing system. For example, the Turkic group or language family contains Turkish, Kyrgyz, Uzbek, and Chuvash, among others. In this example, depending on the specific Turkic source language, the word "silver" can be written as "gümüş", "kömösh", "kömesh", "kümis", "kümush", "gümüş", "kumush" and "kömöl ". Thus, the transliteration model is trained in such a way that a certain word is written the same in the synthetic writing system, regardless of which of the Turkic languages is the source language for this particular word. It should be noted that in some embodiments of the present technology, the synthetic writing system may be the writing system of one of the languages of the mentioned group of languages. In some embodiments of the present technology, the use of a synthetic writing system makes it possible to make the learning process of a machine learning algorithm (MLA) more efficient by eliminating phonetic or spelling differences between languages from said group of languages.
[14] Таким образом, в некоторых вариантах осуществления настоящей технологии можно сказать, что модель перевода может быть некоторой определенной моделью, которая способна переводить предложения с любого языка из некоторой определенной группы языков на целевой язык. В частности, исходное предложение на любом языке из группы языков может быть принято компьютерной системой, транслитерировано в систему синтетического письма через модель транслитерации, введено в модель перевода и использовано, таким образом, для генерирования выходного предложения на целевом языке.[14] Thus, in some embodiments of the present technology, it can be said that the translation model may be some specific model that is capable of translating sentences from any language in some specific group of languages into the target language. In particular, a source sentence in any language from a group of languages can be received by a computer system, transliterated into a synthetic writing system via a transliteration model, entered into a translation model, and thus used to generate an output sentence in the target language.
[15] В первом широком аспекте настоящей технологии обеспечен способ обучения модели перевода для выполнения перевода между редким языком из группы языков и целевым языком. Способ является исполняемым посредством сервера. Сервер имеет доступ к множеству реальных примеров параллельных предложений между языками упомянутой группы и целевым языком. Число реальных примеров между редким языком и целевым языком сравнительно невелико по сравнению с числом реальных примеров между другими языками из упомянутой группы языков и целевым языком. Способ содержит получение сервером определенного реального примера, имеющего первое предложение на одном языке из группы языков и соответствующее второе предложение на целевом языке, являющееся реальным (фактическим) переводом первого предложения. Способ содержит генерирование сервером, применяющим функцию транслитерации, первого синтетического предложения на основе первого предложения для упомянутого определенного реального примера, тем самым генерируя синтетический реальный пример, имеющий первое синтетическое предложение и соответствующее второе предложение. Первым синтетическим предложением является транслитерация первого предложения в систему синтетического письма. Способ содержит получение сервером третьего предложения на целевом языке. Способ содержит генерирование сервером, применяющим другую модель перевода, четвертого предложения на редком языке для третьего предложения с использованием обратного перевода. Четвертым предложением является искусственный перевод третьего предложения. Четвертое предложение и третье предложение образуют некоторый определенный искусственный пример. Способ содержит генерирование сервером, применяющим функцию транслитерации, четвертого синтетического предложения на основе четвертого предложения для упомянутого определенного искусственного примера, тем самым генерируя синтетический искусственный пример, имеющий четвертое синтетическое предложение и третье предложение. Четвертым синтетическим предложением является транслитерация четвертого предложения в систему синтетического письма. Способ содержит обучение сервером модели перевода на основе синтетического реального примера и синтетического искусственного примера. Обучение предназначено для приема определенного используемого предложения на редком языке, генерирования синтетического используемого предложения на основе упомянутого определенного используемого предложения с применением функции транслитерации и перевода с использованием модели перевода используемого синтетического предложения в соответствующее используемое предложение на целевом языке.[15] In a first broad aspect of the present technology, a method is provided for training a translation model to perform translation between a rare language from a group of languages and a target language. The method is executable by the server. The server has access to many real examples of parallel sentences between the languages of the mentioned group and the target language. The number of real examples between the rare language and the target language is relatively small compared to the number of real examples between other languages from the said group of languages and the target language. The method comprises receiving by the server a certain real example having a first sentence in one language from a group of languages and a corresponding second sentence in the target language being a real (actual) translation of the first sentence. The method comprises generating, by the server applying the transliteration function, a first synthetic sentence based on the first sentence for said specific real example, thereby generating a synthetic real example having the first synthetic sentence and a corresponding second sentence. The first synthetic sentence is the transliteration of the first sentence into the synthetic writing system. The method comprises receiving by the server a third sentence in the target language. The method comprises generating, by a server using a different translation model, a fourth sentence in a rare language for the third sentence using back translation. The fourth sentence is an artificial translation of the third sentence. The fourth sentence and the third sentence form some definite artificial example. The method comprises generating, by the server applying the transliteration function, a fourth synthetic sentence based on the fourth sentence for said specific artificial example, thereby generating a synthetic artificial example having a fourth synthetic sentence and a third sentence. The fourth synthetic sentence is the transliteration of the fourth sentence into the synthetic writing system. The method comprises training a translation model by a server based on a synthetic real example and a synthetic artificial example. The training is designed to receive a certain used sentence in a rare language, generate a synthetic used sentence based on said certain used sentence, applying a transliteration function and translate using a model of translating the used synthetic sentence into the corresponding used sentence in the target language.
[16] В некоторых вариантах осуществления способа способ дополнительно содержит генерирование сервером набора обучающих данных на основе синтетического искусственного примера. Причем набор обучающих данных содержит метку, указывающую, что четвертое синтетическое предложение сгенерировано на основе искусственного перевода третьего предложения. Обучение модели перевода содержит ввод сервером набора обучающих данных в модель перевода. Модель перевода использует метку для различения между (i) наборами обучающих данных, сгенерированными на основе реальных переводов, и (ii) наборами обучающих данных, сгенерированными на основе искусственных переводов.[16] In some embodiments of the method, the method further comprises generating, by the server, a set of training data based on the synthetic artificial example. Moreover, the training data set contains a label indicating that the fourth synthetic sentence is generated based on the artificial translation of the third sentence. Training a translation model involves the server injecting a set of training data into the translation model. The translation model uses a label to distinguish between (i) training datasets generated from real translations and (ii) training datasets generated from artificial translations.
[17] В некоторых вариантах осуществления способа генерирование синтетического реального примера содержит генерирование сервером множества синтетических реальных примеров для соответствующих из упомянутого множества реальных примеров. Третьим предложением является одно из множества третьих предложений. Генерирование синтетического искусственного примера содержит генерирование сервером множества синтетических искусственных примеров для соответствующих из множества искусственных примеров. Обучение модели перевода содержит обучение сервером модели перевода на основе упомянутого множества синтетических реальных примеров и упомянутого множества синтетических искусственных примеров.[17] In some embodiments of the method, generating a synthetic real example comprises generating by the server a plurality of synthetic real examples for corresponding ones from said set of real examples. The third sentence is one of a plurality of third sentences. Generating a synthetic artificial example comprises generating, by the server, a plurality of synthetic artificial examples for corresponding ones from the plurality of artificial examples. Training a translation model comprises training a translation model by a server based on said set of synthetic real examples and said set of synthetic artificial examples.
[18] В некоторых вариантах осуществления способа способ дополнительно содержит генерирование сервером функции транслитерации путем обучения модели статистического машинного перевода (SMT) на основе выровненных корпусов текста между языками в упомянутой группе языков. Модель SMT обучается для определения правил транслитерации между предложениями на каждом из языков упомянутой группы и синтетическими предложениями в системе синтетического письма.[18] In some embodiments of the method, the method further comprises generating a transliteration function by the server by training a statistical machine translation (SMT) model based on justified text corpora between languages in said language group. The SMT model is trained to determine the rules of transliteration between sentences in each of the languages of the mentioned group and synthetic sentences in the synthetic writing system.
[19] В некоторых вариантах осуществления способа упомянутая группа языков представляет собой тюркскую группу языков, причем тюркская группа языков содержит турецкий язык, узбекский язык, чувашский язык и киргизский язык. Редким языком является чувашский язык.[19] In some embodiments of the method, said language group is a Turkic language group, wherein the Turkic language group comprises Turkish, Uzbek, Chuvash, and Kyrgyz. Chuvash is a rare language.
[20] В некоторых вариантах осуществления способа упомянутая группа языков представляет собой германскую группу языков, причем германская группа языков содержит английский язык, немецкий язык, голландский язык и фарерский язык. Редким языком является фарерский язык.[20] In some embodiments of the method, said language group is the Germanic language group, wherein the Germanic language group comprises English, German, Dutch, and Faroese. Faroese is a rare language.
[21] В некоторых вариантах осуществления способа упомянутая группа языков представляет собой романскую группу языков, причем романская группа языков содержит французский язык, итальянский язык, испанский язык и галисийский язык. Редким языком является галисийский язык.[21] In some embodiments of the method, said language group is a Romance language group, wherein the Romance language group comprises French, Italian, Spanish, and Galician. A rare language is Galician.
[22] В некоторых вариантах осуществления способа упомянутая другая модель перевода обучается на основе реальных примеров между редким языком и целевым языком.[22] In some embodiments of the method, said other translation model is trained based on real examples between the rare language and the target language.
[23] В некоторых вариантах осуществления способа способ дополнительно содержит прием сервером определенного используемого предложения на редком языке, генерирование сервером, применяющим модель транслитерации, синтетического используемого предложения на основе упомянутого определенного используемого предложения и генерирование сервером, применяющим модель перевода, соответствующего используемого предложения на целевом языке на основе используемого синтетического предложения.[23] In some embodiments of the method, the method further comprises receiving by the server the specific use sentence in the rare language, generating by the server applying the transliteration model a synthetic use sentence based on said defined use sentence, and generating by the server applying the translation model a corresponding use sentence in the target language. based on the synthetic sentence used.
[24] В некоторых вариантах осуществления способа упомянутой другой моделью перевода является упомянутая модель перевода и обучение содержит обучение сервером модели перевода на основе синтетических реальных примеров, генерирование сервером, применяющим модель перевода, четвертого предложения на редком языке для третьего предложения с использованием обратного перевода; и дополнительное обучение сервером модели перевода на основе синтетического искусственного примера.[24] In some embodiments of the method, said other translation model is said translation model, and training comprises teaching the translation model server based on synthetic real examples, generating, by the server applying the translation model, a fourth rare language sentence for the third sentence using reverse translation; and additional training by the server of the translation model based on the synthetic artificial example.
[25] В некоторых вариантах осуществления способа третьим предложением является чистое предложение на целевом языке, причем чистое предложение предварительно выбирается человеком-оператором.[25] In some embodiments of the method, the third sentence is a blank sentence in the target language, the blank sentence being pre-selected by the human operator.
[26] Во втором широком аспекте настоящей технологии обеспечен сервер для обучения модели перевода для выполнения перевода между редким языком из группы языков и целевым языком. Сервер имеет доступ к множеству реальных примеров параллельных предложений между языками упомянутой группы и целевым языком. Число реальных примеров между редким языком и целевым языком сравнительно невелико по сравнению с числом реальных примеров между другими языками из упомянутой группы языков и целевым языком. Сервер выполнен с возможностью получения определенного реального примера, имеющего первое предложение на одном языке из группы языков и соответствующее второе предложение на целевом языке, являющееся реальным переводом первого предложения. Сервер выполнен с возможностью генерирования, применяя функцию транслитерации, первого синтетического предложения на основе первого предложения для упомянутого определенного реального примера, тем самым генерируя синтетический реальный пример, имеющий первое синтетическое предложение и соответствующее второе предложение. Первым синтетическим предложением является транслитерация первого предложения в систему синтетического письма. Сервер выполнен с возможностью получения третьего предложения на целевом языке. Сервер выполнен с возможностью генерирования, применяя другую модель перевода, четвертого предложения на редком языке для третьего предложения с использованием обратного перевода. Четвертым предложением является искусственный перевод третьего предложения. Четвертое предложение и третье предложение образуют некоторый определенный искусственный пример. Сервер выполнен с возможностью генерирования, применяя функцию транслитерации, четвертого синтетического предложения на основе четвертого предложения для упомянутого определенного искусственного примера, тем самым генерируя синтетический искусственный пример, имеющий четвертое синтетическое предложение и третье предложение. Четвертым синтетическим предложением является транслитерация четвертого предложения в систему синтетического письма. Сервер выполнен с возможностью обучения модели перевода на основе синтетического реального примера и синтетического искусственного примера. Сервер выполнен с возможностью обучения для приема определенного используемого предложения на редком языке, генерирования синтетического используемого предложения на основе упомянутого определенного используемого предложения с применением функции транслитерации и перевода с использованием модели перевода используемого синтетического предложения в соответствующее используемое предложение на целевом языке.[26] In a second broad aspect of the present technology, a server is provided for training a translation model to perform translation between a rare language from a group of languages and a target language. The server has access to many real examples of parallel sentences between the languages of the mentioned group and the target language. The number of real examples between the rare language and the target language is relatively small compared to the number of real examples between other languages from the said group of languages and the target language. The server is configured to receive a specific real example having a first sentence in one language from the language group and a corresponding second sentence in the target language being a real translation of the first sentence. The server is configured to generate, using the transliteration function, a first synthetic sentence based on the first sentence for said specific real example, thereby generating a synthetic real example having the first synthetic sentence and a corresponding second sentence. The first synthetic sentence is the transliteration of the first sentence into the synthetic writing system. The server is configured to receive a third sentence in the target language. The server is configured to generate, using a different translation model, a fourth sentence in a rare language for a third sentence using reverse translation. The fourth sentence is an artificial translation of the third sentence. The fourth sentence and the third sentence form some definite artificial example. The server is configured to generate, using the transliteration function, a fourth synthetic sentence based on the fourth sentence for said specific artificial example, thereby generating a synthetic artificial example having a fourth synthetic sentence and a third sentence. The fourth synthetic sentence is the transliteration of the fourth sentence into the synthetic writing system. The server is configured to train a translation model based on a synthetic real example and a synthetic artificial example. The server is configured to learn to receive a specific used sentence in a rare language, generate a synthetic used sentence based on said specific used sentence using a transliteration function and translate using a model for translating the used synthetic sentence into the corresponding used sentence in the target language.
[27] В некоторых вариантах осуществления сервера сервер дополнительно выполнен с возможностью генерирования набора обучающих данных на основе синтетического искусственного примера. Причем набор обучающих данных содержит метку, указывающую, что четвертое синтетическое предложение сгенерировано на основе искусственного перевода третьего предложения. Сервер, выполненный с возможностью обучения модели перевода, представляет собой сервер, выполненный с возможностью ввода набора обучающих данных в модель перевода. Модель перевода использует метку для различения между (i) наборами обучающих данных, сгенерированными на основе реальных переводов, и (ii) наборами обучающих данных, сгенерированными на основе искусственных переводов.[27] In some server embodiments, the server is further configured to generate a training data set based on the synthetic artificial example. Moreover, the training data set contains a label indicating that the fourth synthetic sentence is generated based on the artificial translation of the third sentence. A server configured to train a translation model is a server configured to input a set of training data to the translation model. The translation model uses a label to distinguish between (i) training datasets generated from real translations and (ii) training datasets generated from artificial translations.
[28] В некоторых вариантах осуществления сервера для генерирования синтетического реального примера сервер выполнен с возможностью генерирования множества синтетических реальных примеров для соответствующих из упомянутого множества реальных примеров. Третьим предложением является одно из множества третьих предложений и для генерирования синтетического искусственного примера сервер выполнен с возможностью генерирования множества синтетических искусственных примеров для соответствующих из множества искусственных примеров. Сервер, выполненный с возможностью обучения модели перевода, представляет собой сервер, выполненный с возможностью обучения модели перевода на основе упомянутого множества синтетических реальных примеров и упомянутого множества синтетических искусственных примеров.[28] In some embodiments of a server for generating a synthetic real example, the server is configured to generate a plurality of synthetic real examples for corresponding ones from said plurality of real examples. The third sentence is one of the plurality of third sentences, and in order to generate a synthetic artificial example, the server is configured to generate a plurality of synthetic artificial examples for corresponding ones from the plurality of artificial examples. A server capable of learning a translation model is a server configured to learn a translation model based on said set of synthetic real examples and said set of synthetic artificial examples.
[29] В некоторых вариантах осуществления сервера сервер дополнительно выполнен с возможностью генерирования функции транслитерации путем обучения модели статистического машинного перевода (SMT) на основе выровненных корпусов текста между языками в упомянутой группе языков. Модель SMT обучается для определения правил транслитерации между предложениями на каждом из языков упомянутой группы и синтетическими предложениями в системе синтетического письма.[29] In some server embodiments, the server is further configured to generate a transliteration function by training a statistical machine translation (SMT) model based on justified text corpora between languages in said language group. The SMT model is trained to determine the rules of transliteration between sentences in each of the languages of the mentioned group and synthetic sentences in the synthetic writing system.
[30] В некоторых вариантах осуществления сервера упомянутая группа языков представляет собой тюркскую группу языков, причем тюркская группа языков содержит турецкий язык, узбекский язык, чувашский язык и киргизский язык. Редким языком является чувашский язык.[30] In some server embodiments, said language group is a Turkic language group, wherein the Turkic language group comprises Turkish, Uzbek, Chuvash, and Kyrgyz. Chuvash is a rare language.
[31] В некоторых вариантах осуществления сервера упомянутая группа языков представляет собой германскую группу языков, причем германская группа языков содержит английский язык, немецкий язык, голландский язык и фарерский язык. Редким языком является фарерский язык.[31] In some server embodiments, said language group is the German language group, where the German language group comprises English, German, Dutch, and Faroese. Faroese is a rare language.
[32] В некоторых вариантах осуществления сервера упомянутая группа языков представляет собой романскую группу языков, причем романская группа языков содержит французский язык, итальянский язык, испанский язык и галисийский язык. Редким языком является галисийский язык.[32] In some server embodiments, said language group is a Romance language group, wherein the Romance language group comprises French, Italian, Spanish, and Galician. A rare language is Galician.
[33] В некоторых вариантах осуществления сервера упомянутая другая модель перевода обучается на основе реальных примеров между редким языком и целевым языком.[33] In some server embodiments, said other translation model is trained based on real examples between the rare language and the target language.
[34] В некоторых вариантах осуществления сервера сервер дополнительно выполнен с возможностью приема определенного используемого предложения на редком языке, генерирования, применяя модель транслитерации, синтетического используемого предложения на основе упомянутого определенного используемого предложения и генерирования, применяя модель перевода, соответствующего используемого предложения на целевом языке на основе используемого синтетического предложения.[34] In some embodiments of the server, the server is further configured to receive a specific used sentence in a rare language, generate, using a transliteration model, a synthetic used sentence based on said specific used sentence, and generate, using a translation model, a corresponding used sentence in a target language in the basis of the synthetic sentence used.
[35] В некоторых вариантах осуществления сервера другой моделью перевода является упомянутая модель перевода. Сервер, выполненный с возможностью обучения, представляет собой сервер, выполненный с возможностью обучения модели перевода на основе синтетических реальных примеров, генерирования, применяя модель перевода, четвертого предложения на редком языке для третьего предложения с использованием обратного перевода, и дополнительного обучения модели перевода на основе синтетического искусственного примера.[35] In some embodiments of the server, another translation model is the above translation model. The server capable of learning is a server capable of learning a translation model based on synthetic real examples, generating, using the translation model, a fourth sentence in a rare language for a third sentence using back translation, and further training a translation model based on synthetic artificial example.
[36] В некоторых вариантах осуществления сервера третьим предложением является чистое предложение на целевом языке. Чистое предложение предварительно выбирается человеком-оператором.[36] In some server embodiments, the third sentence is a pure sentence in the target language. The net offer is pre-selected by the human operator.
[37] В контексте настоящего описания «сервер» представляет собой компьютерную программу, которая работает на надлежащем аппаратном обеспечении и способна принимать запросы (например, от клиентских устройств) по сети и выполнять эти запросы, или вызывать выполнение этих запросов. Аппаратное обеспечение может быть одним физическим компьютером или одной физической компьютерной системой, но ни то, ни другое не является обязательным для настоящей технологии. В настоящем контексте использование выражения «сервер» не предполагает, что каждая задача (например, принятые инструкции или запросы) или какая-либо конкретная задача будут приняты, выполнены или вызваны для выполнения одним и тем же сервером (т.е. тем же самым программным обеспечением и/или аппаратным обеспечением); данное выражение предполагает, что любое число программных элементов или аппаратных устройств может быть задействовано в приеме/отправке, выполнении или вызове для выполнения любой задачи или запроса, или последствий любой задачи или запроса; и все это программное обеспечение и аппаратное обеспечение может быть одним сервером или многочисленными серверами, причем оба данных случая включены в выражение «по меньшей мере один сервер».[37] As used herein, a "server" is a computer program that runs on appropriate hardware and is capable of receiving requests (eg, from client devices) over a network and fulfilling or causing those requests to be executed. The hardware may be one physical computer or one physical computer system, but neither is required for the present technology. In the present context, the use of the term "server" does not imply that every task (e.g., received instructions or requests) or any particular task will be received, executed, or called for execution by the same server (i.e., the same software software and/or hardware); this expression implies that any number of software elements or hardware devices can be involved in receiving / sending, executing or calling to perform any task or request, or the consequences of any task or request; and all of this software and hardware may be a single server or multiple servers, both of which are included in the expression "at least one server".
[38] В контексте настоящего описания «клиентское устройство» представляет собой любое компьютерное оборудование, которое способно выполнять программное обеспечение, которое является надлежащим для релевантной поставленной задачи. Таким образом, некоторые (неограничивающие) примеры клиентских устройств включают в себя персональные компьютеры (настольные ПК, ноутбуки, нетбуки и т.д.), смартфоны и планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует отметить, что устройство, выступающее в качестве клиентского устройства в настоящем контексте, не исключается из возможности выступать в качестве сервера для других клиентских устройств. Использование выражения «клиентское устройство» не исключает использования многочисленных клиентских устройств при приеме/отправке, выполнении или вызове для выполнения какой-либо задачи или запроса, или последствий любой задачи или запроса, или этапов любого описанного в данном документе способа.[38] As used herein, a "client device" is any computer hardware that is capable of executing software that is appropriate for the relevant task at hand. Thus, some (non-limiting) examples of client devices include personal computers (desktops, laptops, netbooks, etc.), smartphones and tablets, and network equipment such as routers, switches, and gateways. It should be noted that a device acting as a client device in the present context is not excluded from acting as a server for other client devices. The use of the term "client device" does not preclude the use of multiple client devices in receiving/sending, executing, or calling to perform any task or request, or the consequences of any task or request, or the steps of any method described herein.
[39] В контексте настоящего описания «база данных» представляет собой любую структурированную совокупность данных, независимо от ее конкретной структуры, программное обеспечение для администрирования базы данных, или компьютерное оборудование, на котором данные хранятся, реализуются или их делают доступными для использования иным образом. База данных может находиться на том же оборудовании, что и процесс, который хранит или использует информацию, хранящуюся в базе данных, или она может находиться на отдельном аппаратном обеспечении, например на выделенном сервере или множестве серверов.[39] As used herein, a "database" is any structured collection of data, regardless of its specific structure, database administration software, or computer equipment on which data is stored, implemented, or otherwise made available for use. The database may reside on the same hardware as the process that stores or uses the information stored in the database, or it may reside on separate hardware such as a dedicated server or multiple servers.
[40] В контексте настоящего описания выражение «информация» включает в себя информацию любого характера или вида, который способен храниться в базе данных любым образом. Таким образом, информация включает в себя, но без ограничения, аудиовизуальные произведения (изображения, фильмы, звуковые записи, презентации и т.д.), данные (данные о местоположении, численные данные и т.д.), текст (мнения, комментарии, вопросы, сообщения и т.д.), документы, электронные таблицы, списки слов и т.д.[40] In the context of the present description, the expression "information" includes information of any nature or form that is capable of being stored in the database in any way. Thus, information includes, but is not limited to, audiovisual works (images, films, sound recordings, presentations, etc.), data (location data, numerical data, etc.), text (opinions, comments , questions, messages, etc.), documents, spreadsheets, word lists, etc.
[41] В контексте настоящего описания, если специально не указано иное, подразумевается, что термин «компонент» включает в себя программное обеспечение (соответствующее конкретному аппаратному контексту), которое является как необходимым, так и достаточным для реализации конкретной функции (функций), на которую ссылаются.[41] As used herein, unless specifically stated otherwise, the term "component" is intended to include software (as appropriate in a particular hardware context) that is both necessary and sufficient to implement a particular function(s), on which is being referenced.
[42] В контексте настоящего описания предполагается, что выражение «используемый компьютером носитель хранения информации» включает в себя носители любого характера и вида, в том числе RAM, ROM, диски (CD-ROM, DVD, дискеты, накопители на жестких дисках и т.д.), USB-ключи, твердотельные накопители, ленточные накопители и т.д.[42] As used herein, the term "computer-used storage medium" is intended to include media of any kind and kind, including RAM, ROM, disks (CD-ROMs, DVDs, floppy disks, hard disk drives, etc.). .d.), USB keys, solid state drives, tape drives, etc.
[43] В контексте настоящего описания слова «первый», «второй», «третий» и т.д. используются в качестве прилагательных только для того, чтобы позволить отличать существительные, которые они модифицируют, друг от друга, а не для описания какой-либо особой взаимосвязи между такими существительными. Таким образом, например, следует понимать, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо конкретного порядка, типа, хронологии, иерархии или ранжирования (например) таких серверов, равно как и их использование (само по себе) не означает, что какой-либо «второй сервер» должен обязательно существовать в любой определенной ситуации. Кроме того, как обсуждается в других контекстах данного документа, ссылка на «первый» элемент и «второй» элемент не исключает того, что эти два элемента фактически являются одним и тем же элементом реального мира. Таким образом, например, в некоторых случаях «первый» сервер и «второй» сервер могут быть одним и тем же программным и/или аппаратным обеспечением, в других случаях они могут быть разными программными и/или аппаратными обеспечениями.[43] In the context of the present description, the words "first", "second", "third", etc. are used as adjectives only to allow the nouns they modify to be distinguished from each other, and not to describe any particular relationship between such nouns. Thus, for example, it should be understood that the use of the terms "first server" and "third server" does not imply any particular order, type, chronology, hierarchy or ranking (for example) of such servers, nor does their use (in itself ) does not mean that some "second server" must necessarily exist in any given situation. Also, as discussed elsewhere in this document, reference to a "first" element and a "second" element does not exclude that the two elements are in fact the same real world element. Thus, for example, in some cases the "first" server and the "second" server may be the same software and/or hardware, in other cases they may be different software and/or hardware.
[44] Каждая из реализаций настоящей технологии обладает по меньшей мере одним из вышеупомянутых аспектов и/или цели, но не обязательно имеет их все. Следует понимать, что некоторые аспекты настоящей технологии, которые возникли в попытке достичь вышеупомянутой цели, могут не удовлетворять этой цели и/или удовлетворять другим целям, которые явным образом в данном документе не описаны.[44] Each of the implementations of the present technology has at least one of the above aspects and/or goals, but not necessarily all of them. It should be understood that some aspects of the present technology that have arisen in an attempt to achieve the above goal may not satisfy this goal and/or satisfy other goals that are not explicitly described in this document.
[45] Дополнительные и/или альтернативные признаки, аспекты и преимущества реализаций настоящей технологии станут очевидными из нижеследующего описания, сопроводительных чертежей и приложенной формулы изобретения.[45] Additional and/or alternative features, aspects, and advantages of implementations of the present technology will become apparent from the following description, the accompanying drawings, and the appended claims.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS
[46] Для лучшего понимания настоящей технологии, а также других аспектов и ее дополнительных признаков, ссылка приводится на нижеследующее описание, которое должно использоваться в сочетании с сопроводительными чертежами, на которых:[46] For a better understanding of the present technology, as well as other aspects and additional features thereof, reference is made to the following description, which is to be used in conjunction with the accompanying drawings, in which:
[47] Фигура 1 иллюстрирует систему, подходящую для реализации неограничивающих вариантов осуществления настоящей технологии.[47] Figure 1 illustrates a system suitable for implementing non-limiting embodiments of the present technology.
[48] Фигура 2 иллюстрирует представление трех групп языков в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.[48] Figure 2 illustrates a representation of three groups of languages in accordance with some non-limiting embodiments of the present technology.
[49] Фигура 3 иллюстрирует представление множества реальных примеров перевода между некоторой определенной группой языков с Фигуры 2 и некоторым определенным целевым языком, хранимым системой с Фигуры 1, и представление множества чистых предложений на целевом языке, хранимом системой с Фигуры 1, в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.[49] Figure 3 illustrates a representation of a plurality of real examples of translation between a certain defined language group of Figure 2 and a certain certain target language stored by the system of Figure 1, and a presentation of a plurality of pure sentences in the target language stored by the system of Figure 1, in accordance with some non-limiting embodiments of the present technology.
[50] Фигура 4 иллюстрирует представление определенной модели перевода упомянутой системы с Фигуры 1 и то, как данная модель перевода используется для выполнения обратного перевода множества чистых предложений на целевом языке, в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.[50] Figure 4 illustrates a representation of a specific translation model of said system from Figure 1 and how this translation model is used to back-translate a plurality of pure sentences in a target language, in accordance with some non-limiting embodiments of the present technology.
[51] Фигура 5 иллюстрирует представление того, как определенный реальный пример и определенный искусственный пример обрабатываются системой с Фигуры 1 для генерирования наборов обучающих данных для обучения другой модели перевода упомянутой системы с Фигуры 1 в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.[51] Figure 5 illustrates a view of how a certain real-world example and a certain artificial example are processed by the system of Figure 1 to generate training datasets for training another translation model of said system of Figure 1, in accordance with some non-limiting embodiments of the present technology.
[52] Фигура 6 иллюстрирует представление двух отдельных итераций обучения другой модели перевода в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.[52] Figure 6 illustrates a representation of two separate iterations of training a different translation model in accordance with some non-limiting embodiments of the present technology.
[53] Фигура 7 иллюстрирует представление отдельной итерации использования другой модели перевода в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.[53] Figure 7 illustrates a representation of a single iteration of using a different translation model in accordance with some non-limiting embodiments of the present technology.
[54] Фигура 8 иллюстрирует схематичное блочное представление способа, выполняемого системой с Фигуры 1, в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.[54] Figure 8 illustrates a schematic block diagram of a method performed by the system of Figure 1, in accordance with some non-limiting embodiments of the present technology.
ПОДРОБНОЕ ОПИСАНИЕDETAILED DESCRIPTION
[55] Со ссылкой на Фигуру 1 проиллюстрировано схематичное представление системы 100, причем система 100 подходит для реализации неограничивающих вариантов осуществления настоящей технологии. Следует четко понимать, что изображенная система 100 является лишь иллюстративной реализацией настоящей технологии. Таким образом, нижеследующее описание предназначено лишь для того, чтобы использоваться в качестве описания иллюстративных примеров настоящей технологии. Это описание не предназначено для определения объема или установления границ настоящей технологии. В некоторых случаях то, что считается полезными примерами модификаций системы 100, также может быть изложено ниже. Это делается просто для помощи в понимании и, опять же, не для определения объема или установления границ настоящей технологии. Эти модификации не являются исчерпывающим списком и, как будет понятно специалисту в данной области техники, возможны другие модификации. Кроме того, те случаи, когда этого не было сделано (т.е. когда не было представлено примеров модификаций), не следует интерпретировать так, что никакие модификации не возможны и/или что описанное является единственным способом реализации такого элемента в настоящей технологии. Специалисту в данной области будет понятно, что это, вероятно, не так. Кроме того, следует понимать, что система 100 может обеспечивать в некоторых случаях простые реализации настоящей технологии, и что в таком случае они были представлены для помощи в понимании. Специалисты в данной области поймут, что различные реализации настоящей технологии могут иметь большую сложность.[55] With reference to Figure 1, a schematic representation of
[56] Вообще говоря, система 100 выполнена с возможностью обеспечения служб электронного перевода для пользователя 102 электронного устройства 104. Например, система 100 может быть выполнена с возможностью получения предложения на исходном языке и обеспечения переведенной версии этого предложения на целевом языке. Теперь будут описаны по меньшей мере некоторые компоненты системы 100, однако следует понимать, что другие компоненты, помимо тех, что проиллюстрированы на Фигуре 1, могут быть частью системы 100, не выходя за рамки объема настоящей технологии.[56] Generally speaking,
Электронное устройствоElectronic device
[57] Система 100 содержит электронное устройство 104, причем электронное устройство 104 ассоциировано с пользователем 102. Как таковое, электронное устройство 104 иногда может именоваться «клиентским устройством», «конечным пользовательским устройством», «клиентским электронным устройством» или просто «устройством». Следует отметить, что тот факт, что устройство 104 связано с пользователем 102, не обязательно предполагает или подразумевает какой-либо режим работы - например необходимость входа в систему, необходимость регистрации или тому подобное.[57]
[58] Реализация устройства 104 особым образом не ограничена, но, в качестве примера, устройство 104 может быть реализовано в виде персонального компьютера (настольных компьютеров, ноутбуков, нетбуков и т.д.), устройства беспроводной связи (такого как смартфон, мобильный телефон, планшет и тому подобное), а также сетевого оборудования (такого как маршрутизаторы, коммутаторы и шлюзы). Устройство 104 содержит аппаратное обеспечение и/или программное обеспечение и/или микропрограммное обеспечение (или их комбинацию), которое известно в данной области техники, для исполнения приложения браузера.[58] The implementation of the
[59] Вообще говоря, назначением приложения браузера является предоставление пользователю 102 возможности доступа к одному или более сетевым ресурсам, таким как, например, веб-страницы. То, как приложение браузера реализуется, конкретным образом не ограничивается. Один пример приложения браузера может быть воплощен как браузер Яндекс™.[59] Generally speaking, the purpose of a browser application is to allow the
[60] Пользователь 102 может использовать приложение браузера для осуществления доступа к системе 160 перевода для перевода одного или более предложений с исходного языка на целевой язык. Например, электронное устройство 104 может быть выполнено с возможностью генерирования запроса 180, указывающего одно или более предложений, которые пользователь 102 желает перевести. Кроме того, электронное устройство 104 может быть выполнено с возможностью приема ответа 190 для отображения пользователю 102 переведенной версии одного или более предложений на целевом языке.[60] The
Сеть связиCommunication network
[61] Устройство 104 соединено с возможностью связи с сетью 110 связи для доступа к системе 160 перевода сервера 112. Например, устройство 104 может быть соединено с возможностью связи с сервером 112 через сеть 110 связи для обеспечения пользователю 102 служб перевода, упомянутых выше. Сеть 110 связи выполнена с возможностью передачи, среди прочего, запроса 180 и ответа 190.[61]
[62] В некоторых неограничивающих вариантах осуществления настоящей технологии сеть 110 связи может быть реализована как Интернет. В других вариантах осуществления настоящей технологии сеть 110 связи может быть реализована иначе, например как какая-либо глобальная сеть связи, локальная сеть связи, частная сеть связи и тому подобное. То, как реализована линия связи (отдельно не пронумерована) между устройством 104 и сетью 110 связи, будет зависеть, среди прочего, от того, как реализовано устройство 104.[62] In some non-limiting embodiments of the present technology,
[63] Просто как пример, а не как ограничение, в тех вариантах осуществления настоящей технологии, в которых устройство 104 реализовано как устройство беспроводной связи (например, как смартфон), линия связи может быть реализована как линия беспроводной связи (такая как, но без ограничения, линия сети связи 3G, линия сети связи 4G, Wireless Fidelity или WiFi® для краткости, Bluetooth® и подобные). В тех примерах, в которых устройство 104 реализовано как ноутбук, линия связи может быть либо беспроводной (такой как Wireless Fidelity или WiFi® для краткости, Bluetooth® или подобной), либо проводной (такой как Ethernet-соединение).[63] Just as an example, and not as a limitation, in those embodiments of the present technology in which the
Сервер и База данныхServer and Database
[64] Возвращаясь к описанию Фигуры 1, система 100 также содержит сервер 112, который может быть реализован как обычный компьютерный сервер. В проиллюстрированном неограничивающем варианте осуществления настоящей технологии сервер 112 является единственным сервером. В альтернативных неограничивающих вариантах осуществления настоящей технологии функциональные возможности сервера 112 могут быть распределены и могут быть реализованы посредством многочисленных серверов. Сервер 112 может включать в себя один или более процессоров, одно или более энергонезависимых запоминающих устройств, считываемые компьютером инструкции и/или дополнительные аппаратные компоненты, дополнительные программные компоненты и/или их комбинацию для реализации различных функциональных возможностей сервера 112, не выходя за рамки объема настоящей технологии.[64] Returning to the description of Figure 1,
[65] Система 100 также содержит базу 150 данных, которая соединена с возможностью связи с сервером 112 и выполнена с возможностью хранения информации, извлекаемой, или иным образом определяемой или генерируемой сервером 112. Вообще говоря, база 150 данных может принимать данные от сервера 112, которые были извлечены, или иным образом определены или сгенерированы сервером 112 во время обработки, для их временного и/или постоянного хранения, и может обеспечивать сохраненные данные серверу 112 для их использования. Предполагается, что база 150 данных может быть разделена на несколько распределенных баз данных без выхода за рамки объема настоящей технологии.[65] The
[66] База 150 данных может быть выполнена с возможностью хранения данных 170 для поддержки служб перевода, обеспечиваемых системой 160 перевода сервера 170. То, какие данные могут быть частью данных 170, будет более подробно описано в данном документе ниже со ссылкой на Фигуру 3.[66] The
[67] Вообще говоря, сервер 112 может находиться под контролем и/или управлением поставщика службы перевода (не показан), например оператора служб перевода Яндекс™. Предполагается, что поставщик служб перевода и поставщик приложения браузера могут быть одним и тем же поставщиком. Например, приложение браузера (например, браузер Яндекс™) и службы перевода (например, службы перевода Яндекс™) могут предоставляться, контролироваться и/или управляться одним и тем же оператором или организацией.[67] Generally speaking,
[68] Как упоминалось выше, сервер 112 размещает систему 160 перевода. Вообще говоря, система 160 перевода воплощается как множество реализуемых компьютером процедур, которые выполнены с возможностью перевода одного или более предложений с исходного языка на целевой язык.[68] As mentioned above, the
[69] Следует отметить, что система 160 перевода может быть выполнена с возможностью исполнения одного или более алгоритмов машинного обучения (MLA). Вообще говоря, MLA могут учиться по обучающим выборкам и делать прогнозы на основе новых (неизвестных) данных. MLA обычно используются для изначального построения модели на основе обучающих входных данных, чтобы затем делать прогнозы или принимать основанные на данных решения, выражаемые в виде выходных данных, а не следовать статичным считываемым компьютером инструкциям.[69] It should be noted that the
[70] MLA обычно используются в качестве моделей оценки, моделей перевода, моделей классификации и подобного. Следует понимать, что разные типы MLA, имеющих разные структуры или топологии, могут использоваться для различных задач.[70] MLAs are commonly used as evaluation models, translation models, classification models, and the like. It should be understood that different types of MLAs having different structures or topologies may be used for different tasks.
[71] Один конкретный тип MLA включает в себя нейронные сети (NN). Вообще говоря, определенная NN состоит из взаимосвязанной группы искусственных «нейронов», которые обрабатывают информацию, используя коннекционистский подход к вычислению. NN используются для моделирования сложных взаимосвязей между входными и выходными данными (без фактического знания этих взаимосвязей) или для поиска закономерностей в данных. NN сначала подготавливаются во время фазы обучения, во время которой им обеспечивается некоторый известный набор «входных данных» и информации для адаптации NN к генерированию надлежащих выходных данных (для некоторой определенной ситуации, которую пытаются смоделировать). Во время этой фазы обучения эта NN адаптируется к изучаемой ситуации и меняет свою структуру так, чтобы данная NN могла обеспечивать разумные прогнозные выходные данные для определенных входных данных во время некоторой новой ситуации (на основе того, что было изучено). Таким образом, вместо того, чтобы пытаться определить сложные статистические схемы или математические алгоритмы для некоторой определенной ситуации; определенная NN пытается дать «интуитивный» ответ, основанный на «восприятии» ситуации.[71] One particular type of MLA includes neural networks (NNs). Generally speaking, a given NN consists of an interconnected group of artificial "neurons" that process information using a connectionist approach to computation. NNs are used to model complex relationships between inputs and outputs (without actually knowing those relationships) or to look for patterns in data. NNs are first trained during a training phase, during which they are provided with some known set of "inputs" and information to adapt the NN to generate the proper output (for some particular situation that is being modeled). During this learning phase, this NN adapts to the situation being learned and changes its structure so that the given NN can provide reasonable predictive output for certain inputs during some new situation (based on what has been learned). Thus, instead of trying to define complex statistical schemes or mathematical algorithms for some specific situation; a certain NN tries to give an "intuitive" answer based on the "perception" of the situation.
[72] NN обычно используются во многих таких ситуациях, в которых важно знать лишь выходные данные, основанные на некоторых определенных входных данных, но то, как именно эти выходные данные были получены, имеет меньшее значение или значения не имеет. Например, NN обычно используются для оптимизации распределения веб-трафика между серверами, автоматического перевода текста на разные языки, обработки данных, включая фильтрацию, кластеризацию, векторное представление и подобное.[72] NNs are commonly used in many of these situations in which it is important to know only the output based on some specific input, but how that output was obtained is of little or no importance. For example, NNs are commonly used to optimize the distribution of web traffic between servers, automatic translation of text into different languages, data processing, including filtering, clustering, vector representation, and the like.
[73] В некоторых вариантах осуществления настоящей технологии сервер 112 может быть выполнен с возможностью исполнения модели типа кодер-декодер. Например, кодирующая часть таких моделей может быть предназначена для исходных языков, в то время как декодирующая часть таких моделей может быть предназначена для целевых языков. В других вариантах осуществления сервер 112 может быть выполнен с возможностью исполнения модели типа трансформера.[73] In some embodiments of the present technology,
[74] Кроме того, реализацию определенной MLA сервером 112 можно в общем разделить на две фазы - фазу обучения и фазу использования. Сначала, определенный MLA обучают во время фазы обучения. Затем, как только определенный MLA узнает, какие данные следует ожидать в качестве входных данных и какие данные следует обеспечивать в качестве выходных данных, определенный MLA фактически прогоняют с использованием используемых данных во время фазы использования.[74] In addition, the implementation of a certain MLA by the
[75] Как показано на Фигуре 1, сервер 112 выполнен с возможностью исполнения первой модели 120 перевода, второй модели 130 перевода и модели 140 транслитерации. В некоторых вариантах осуществления настоящей технологии первая модель 120 перевода, вторая модель 130 перевода и модель 140 транслитерации могут быть реализованы сервером 112 как соответствующие MLA, обученные для выполнения соответствующих компьютерных задач. То, как первая модель 120 перевода, вторая модель 130 перевода и модель 140 транслитерации могут быть реализованы сервером 112, будет дополнительно описано ниже в данном документе.[75] As shown in Figure 1, the
[76] Со ссылкой на Фигуру 2 проиллюстрировано представление 200 трех групп языков, а именно первой группы 210 языков, второй группы 220 языков и третьей группы 230 языков. Вообще говоря, некоторая определенная группа языков содержит один или более языков из языкового семейства и связаны через происхождение от общего предкового языка или родительского языка, обычно называемого протоязыком этого семейства.[76] Referring to Figure 2, a representation 200 of three language groups is illustrated, namely the
[77] Как показано, (i) первая группа 210 языков содержит языки 211, 212, 213 и 214, (ii) вторая группа 220 языков содержит языки 221, 222, 223 и 224 и (iii) третья группа 230 языков содержит языки 231, 232, 233 и 234. Для иллюстрации предположим, что первая группа 210 языков 210 представляет собой тюркскую группу языков, вторая группа 220 языков представляет собой германскую группу языков, а третья группа 230 языков представляет собой романскую группу языков. В таком примере:[77] As shown, (i) the
языками 211, 212, 213 и 214 в тюркской группе языков соответственно могут быть чувашский язык, узбекский язык, киргизский язык и турецкий языки;the languages 211, 212, 213, and 214 in the Turkic language group, respectively, may be Chuvash, Uzbek, Kyrgyz, and Turkish;
языками 221, 222, 223 и 224 в германской группе языков соответственно могут быть английский язык, немецкий язык, голландский язык и фарерский язык; иthe
языками 231, 232, 233 и 234 в романской группе языков соответственно могут быть французский язык, итальянский язык, испанский язык и галисийский язык.
[78] Сервер 112 может быть выполнен с возможностью выполнения первой модели 120 перевода, выполненной с возможностью перевода предложений с любого языка из некоторой определенной группы языков на некоторый определенный целевой язык. Предположим, что модель 120 перевода выполнена с возможностью перевода между языками первой группы 210(тюркской группы языков) и русским языком (целевой язык). В таком случае сервер 112 может быть выполнен с возможностью использования модели 120 перевода для перевода предложений на любом из чувашского языка, узбекского языка, киргизского языка и турецкого языка на русский язык. В этом примере модель 120 перевода можно назвать моделью перевода «c пантюркского на русский». [78] The
[79] Следует отметить, что некоторая определенная группа языков может содержать некоторый определенный язык, который имеет ограниченное число реальных примеров перевода между этим языком и целевым языком. В контексте настоящей технологии некоторый определенный язык, имеющий ограниченное число реальных примеров перевода между этим языком и целевым языком, называется «редким» языком.[79] It should be noted that a particular group of languages may contain a particular language that has a limited number of actual examples of translation between that language and the target language. In the context of the present technology, a particular language that has a limited number of actual examples of translation between that language and the target language is referred to as a "rare" language.
[80] Например, в тюркской группе языков редким языком может быть чувашский язык, поскольку существует ограниченное число реальных примеров перевода с чувашского языка на русский язык (или наоборот). В германской группе языков редким языком может быть фарерский язык, поскольку существует ограниченное число реальных примеров перевода с фарерского языка на русский язык (или наоборот). В романской группе языков редким языком может быть галисийский язык, поскольку существует ограниченное число реальных примеров перевода с галисийского языка на русский язык (или наоборот).[80] For example, in the Turkic group of languages, Chuvash may be a rare language, since there are a limited number of real examples of translation from Chuvash into Russian (or vice versa). In the Germanic group of languages, Faroese may be a rare language, since there are a limited number of real examples of translation from Faroese into Russian (or vice versa). In the Romance group of languages, Galician may be a rare language, since there are a limited number of real examples of translation from Galician into Russian (or vice versa).
[81] Как будет обсуждаться в данном документе более подробно ниже, можно сказать, что число реальных примеров, доступных между редким языком и целевым языком, сравнительно невелико по сравнению с числом реальных примеров между другими языками из некоторой определенной группы языков и целевым языком.[81] As will be discussed in more detail in this document below, it can be said that the number of real examples available between the rare language and the target language is relatively small compared to the number of real examples between other languages from a certain group of languages and the target language.
[82] Как упомянуто выше, сервер 112 выполнен с возможностью исполнения модели 140 транслитерации. Вообще говоря, модель 140 транслитерации выполнена с возможностью транслитерации предложений с любого языка из некоторой определенной группы языков в «систему синтетического письма». Например, тюркская группа или семья языков содержит, среди прочих, турецкий, киргизский, узбекский и чувашский языки. В этом примере, в зависимости от конкретного тюркского исходного языка, слово «серебро» может быть записано как «gümüş», «көмөш», «көмеш», «күміс», «күмүш», «gümüş», «kumush» и «кӗмӗл». Таким образом, модель 140 транслитерации выполнена с возможностью вывода одинаковой транслитерации некоторого определенного слова в системе синтетического письма, независимо от того, какой из тюркских языков является исходным языком для данного определенного слова.[82] As mentioned above, the
[83] То, как модель 140 транслитерации реализуется, конкретным образом не ограничивается. В одном варианте осуществления модель 140 транслитерации может быть реализована как модель статистического машинного перевода (SMT), обученная транслитерировать предложения с любого одного языка из некоторой определенной группы языков в систему синтетического письма.[83] How the
[84] В некоторых вариантах осуществления настоящей технологии предполагается, что сервер 112 может быть выполнен с возможностью генерирования некоторой определенной функции транслитерации путем обучения модели SMT на основе выровненных корпусов текста между языками в некоторой определенной группе языков. В этих вариантах осуществления модель SMT обучается для определения правил транслитерации между предложениями на каждом из языков этой определенной группы и синтетическими версиями этих предложений в системе синтетического письма.[84] In some embodiments of the present technology, it is contemplated that
[85] В по меньшей мере некоторых вариантах осуществления настоящей технологии функция транслитерации может быть сгенерирована сервером 112 с использованием параллельных корпусов текста, извлеченных из литературных произведений, содержащих точно выровненные предложения. Такие литературные произведения могут содержать Библию, Коран, Тору и подобные, где каждое предложение однозначно идентифицируется в своих соответствующих лингвистических версиях.[85] In at least some embodiments of the present technology, a transliteration function may be generated by
[86] Со ссылкой на Фигуру 3 проиллюстрировано представление 300 по меньшей мере некоторых данных, хранящихся посредством базы 150 данных. Более конкретно, на ней проиллюстрировано представление 350 множества 310 реальных примеров параллельных предложений. Проиллюстрированы первый реальный пример 322, второй реальный пример 324, третий реальный пример 326 и четвертый реальный пример 328. Множество 310 реальных примеров параллельных предложений является частью данных 170, хранящихся посредством базы 150 данных.[86] With reference to Figure 3, a
[87] Следует отметить, что база 150 данных хранит множество 310 реальных примеров для группы 210 языков. Другими словами, множество 310 реальных примеров содержит реальные примеры параллельных предложений между языками в группе 210 языков и целевым языком.[87] It should be noted that the
[88] Например, предположим, что:[88] For example, suppose that:
в первом реальном примере 322 есть предложение 302 на чувашском языке и предложение 312 на русском языке;in the first real example 322 there is
во втором реальном примере 324 есть предложение 304 на узбекском языке и предложение 314 на русском языке;in the second real example 324 there is
в третьем реальном примере 326 есть предложение 306 на киргизском языке и предложение 316 на русском языке; иin the third real example 326 there is
в четвертом реальном примере 328 есть предложение 308 на турецком языке и предложение 318 на русском языке.in the fourth real example 328 there is
[89] Как упоминалось выше, чувашский язык является редким языком в группе 210 языков, поскольку ограниченное число реальных примеров доступно в базе 150 данных. Это означает, что число реальных примеров во множестве 310 примеров, которые имеются между чувашским языком и русским языком, значительно меньше, чем число реальных примеров между другими языками из группы 210 языков и русским языком. Как станет очевидно из приведенного ниже описания, множество 310 реальных примеров может использоваться сервером 112 для обучения модели 120 перевода.[89] As mentioned above, Chuvash is a rare language in the group of 210 languages, since a limited number of real examples are available in the 150 database. This means that the number of real examples in the set of 310 examples that exist between Chuvash and Russian is much less than the number of real examples between other languages from the group of 210 languages and Russian. As will become apparent from the description below, a set of 310 real examples can be used by the
[90] На Фигуре 3 также проиллюстрировано представление 380 множества 390 «чистых» предложений на целевом языке. Предложения во множестве 390 чистых предложений могут быть выбраны людьми-оценщиками, например, которым поручено идентифицировать предложения на целевом языке, которые написаны аккуратно. Как будет дополнительно описано в данном документе ниже, множество 390 чистых предложений на целевом языке может быть использовано сервером 112 для генерирования «искусственных» примеров перевода между некоторым определенным редким языком и целевым языком, которые могут использоваться для дополнительного обучения модели 120 перевода.[90] Figure 3 also illustrates a
[91] Со ссылкой на Фигуру 4 проиллюстрировано представление 400 того, как вторая модель 130 перевода может быть использована сервером 112 для выполнения перевода с исходного языка на целевой язык, и представление 450 того, как вторая модель 130 перевода используется сервером 112 для выполнения «обратного перевода» с целевого языка на исходный язык в контексте настоящей технологии.[91] Referring to Figure 4, illustrated is a
[92] Вторая модель 130 перевода может быть обучена сервером 112 на основе реальных примеров между редким языком (то есть исходным языком) и целевым языком из множества 310 реальных примеров. Например, во время ее фазы обучения сервер 112 может быть выполнен с возможностью использования некоторого определенного предложения на чувашском языке в качестве входных данных во вторую модель 130 перевода, а выходные данные второй модели 130 перевода могут сравниваться с параллельным предложением на русском языке для подстройки второй модели 130 перевода. По существу, вторая модель 130 перевода может быть обучена для приема, во время фазы ее использования, некоторого определенного предложения 402 на чувашском языке и вывода используемого предложения 404 на русском языке.[92] The
[93] Следует отметить, что качество перевода обученной таким образом второй модели 130 перевода может быть ограничено из-за числа реальных примеров перевода между чувашским языком и русским языком, доступных для целей обучения, поскольку чувашский язык является редким языком.[93] It should be noted that the quality of the translation of the
[94] Однако в контексте настоящей технологии предполагается, что сервер 112 может быть выполнен с возможностью использования второй модели 130 перевода для выполнения обратного перевода с целевого языка (например, русского) на редкий язык (например, чувашский). Как показано на Фигуре 4, несмотря на то, что сервер 112 может обучать вторую модель 130 перевода переводить предложения в направлении 410 (с редкого на целевой), сервер 112 может быть выполнен с возможностью использования второй модели 130 перевода для перевода в направлении 420 (с целевого на редкий), противоположном направлению 410.[94] However, in the context of the present technology, it is contemplated that the
[95] Сервер 112 может быть выполнен с возможностью использования второй модели 130 перевода в направлении 420 для генерирования искусственных примеров перевода между редким языком и целевым языком. С этой целью сервер 112 может быть выполнен с возможностью извлечения множества 390 чистых предложений на целевом языке (например, аккуратно написанных предложений на русском языке) и ввода их во вторую модель 130 перевода для выполнения обратного перевода на чувашский язык. Таким образом, сервер 112 может быть выполнен с возможностью генерирования искусственного предложения 451 для предложения 391, искусственного предложения 452 для предложения 392 и искусственного предложения 453 для предложения 393.[95] The
[96] Сервер 112 может быть выполнен с возможностью генерирования множества 480 искусственных примеров между редким языком и целевым языком. Как показано на Фигуре 4 упомянутое множество искусственных примеров 480 содержит:[96] The
искусственный пример 481 с искусственным предложением 451 и предложением 391;artificial example 481 with
искусственный пример 482 с искусственным предложением 452 и предложением 392; иartificial example 482 with
искусственный пример 483 с искусственным предложением 453 и предложением 393.artificial example 483 with
[97] Сервер 112 может быть выполнен с возможностью использования множества 480 искусственных примеров в дополнение к упомянутому множеству 310 реальных примеров для обучения первой модели 120 перевода. Как теперь будет описано со ссылкой на Фигуру 5, сервер 112 может быть выполнен с возможностью использования модели 140 транслитерации для того, чтобы генерировать множество синтетических реальных примеров на основе упомянутого множества 310 реальных примеров и множества синтетических искусственных примеров, основанных на упомянутом множестве 480 искусственных примеров.[97] The
[98] На Фигуре 5 проиллюстрировано представление 500 того, как сервер 112 может быть выполнен с возможностью генерирования синтетического реального примера 560 на основе реального примера 322, и представление 550 того, как сервер 112 может быть выполнен с возможностью генерирования синтетического искусственного примера 570 на основе искусственного примера 481.[98] Figure 5 illustrates a
[99] Сервер 112 выполнен с возможностью ввода предложения 302 из реального примера 322 в модель 140 транслитерации, которая выполнена с возможностью вывода синтетического предложения 502, написанного в системе синтетического письма. Сервер 112 выполнен с возможностью генерирования синтетического реального примера 560 путем объединения в пару синтетического предложения 502 с предложением 312 из реального примера 322. Следует отметить, что сервер 112 может быть выполнен с возможностью генерирования множества синтетических реальных примеров на основе соответствующих примеров из упомянутого множества 310 реальных примеров аналогично тому, как синтетический реальный пример 560 генерируется на основе реального примера 322.[99] The
[100] Сервер 112 выполнен с возможностью ввода искусственного предложения 451 из искусственного примера 481 в модель 140 транслитерации, которая выполнена с возможностью вывода синтетического предложения 551, написанного в системе синтетического письма. Сервер 112 выполнен с возможностью генерирования синтетического искусственного примера 570 путем объединения в пару синтетического предложения 551 с предложением 391 из искусственного примера 481. Следует отметить, что сервер 112 может быть выполнен с возможностью генерирования множества синтетических искусственных примеров на основе соответствующих примеров из упомянутого множества 480 искусственных примеров аналогично тому, как синтетический искусственный пример 570 генерируется на основе искусственного примера 481.[100] The
[101] Со ссылкой на Фигуру 7 проиллюстрировано представление 600 отдельной итерации обучения, выполняемой в отношении первой модели 120 перевода на основе синтетического реального примера 560, и представление 602 отдельной итерации обучения, выполняемой в отношении первой модели 120 перевода на основе синтетического искусственного примера 570.[101] Referring to Figure 7, illustrated is a
[102] Сервер 112 может использовать синтетический реальный пример 560 для генерирования синтетического реального обучающего набора 610. Сервер 112 может быть выполнен с возможностью ввода синтетического предложения 502 в первую модель 120 перевода, а первая модель 120 перевода выполнена с возможностью вывода предложения 612 на целевом языке. Сервер 112 выполнен с возможностью сравнения предложения 612 с предложением 312 из синтетического реального обучающего набора 610 и выполнен с возможностью, основываясь на этом сравнении, подстройки первой модели 120 перевода. С этой целью сервер 112 может быть выполнен с возможностью применения одного или более методов подстройки, например метода обратного распространения ошибки. Однако могут использоваться другие методы подстройки, известные в данной области техники.[102] The
[103] Сервер 112 может быть выполнен с возможностью генерирования множества синтетических реальных обучающих наборов на основе множества синтетических реальных примеров, аналогично тому, как сервер 112 выполнен с возможностью генерирования синтетического реального обучающего набора 610. Сервер 112 может быть выполнен с возможностью выполнения большого числа итераций обучения на основе соответствующих примеров из упомянутого множества синтетических реальных примеров, аналогично тому, как сервер 112 выполнен с возможностью выполнения итерации обучения на основе синтетического реального обучающего набора 610.[103]
[104] Помимо использования множества синтетических реальных примеров для обучения первой модели 120 перевода, сервер 112 также выполнен с возможностью использования множества синтетических искусственных примеров для обучения первой модели 120 перевода. Это может позволить повысить качество перевода первой модели 120 перевода, когда исходное предложение написано на редком языке.[104] In addition to using a plurality of synthetic real examples to train the
[105] Сервер 112 может использовать синтетический искусственный пример 570 для генерирования синтетического искусственного обучающего набора 620. В некоторых вариантах осуществления сервер 112 может быть выполнен с возможностью генерирования метки 625, указывающей, что синтетический искусственный обучающий набор 620 сгенерирован на основе некоторого определенного искусственного примера, в отличие от некоторого определенного реального примера.[105]
[106] Сервер 112 может быть выполнен с возможностью ввода синтетического предложения 551 в первую модель 120 перевода, а первая модель 120 перевода выполнена с возможностью вывода предложения 622 на целевом языке. Сервер 112 выполнен с возможностью сравнения предложения 622 с предложением 391 из синтетического искусственного обучающего набора 620 и выполнен с возможностью, основываясь на этом сравнении, подстройки первой модели 120 перевода. С этой целью сервер 112 может быть выполнен с возможностью применения одного или более методов подстройки, например метода обратного распространения ошибки. Однако могут использоваться другие методы подстройки, известные в данной области техники.[106] The
[107] Следует отметить, что в некоторых вариантах осуществления настоящей технологии сервер 112 может быть дополнительно выполнен с возможностью ввода метки 625, указывающей, что обучающий набор основан на искусственном примере перевода, а не на реальном примере перевода. Это может позволить первой модели 120 перевода различать искусственные и реальные примеры перевода. То, что первая модель 120 перевода способна различать искусственные и реальные примеры, может позволить первой модели 120 перевода минимизировать эффект итераций обучения, выполняемых на основе искусственных примеров, по сравнению с итерациями обучения, выполняемыми на основе реальных примеров.[107] It should be noted that in some embodiments of the present technology, the
[108] Сервер 112 может быть выполнен с возможностью генерирования множества синтетических искусственных обучающих наборов на основе множества синтетических искусственных примеров, аналогично тому, как сервер 112 выполнен с возможностью генерирования синтетического искусственного обучающего набора 620. Сервер 112 может быть выполнен с возможностью выполнения большого числа итераций обучения на основе соответствующих примеров из упомянутого множества синтетических искусственных примеров, аналогично тому, как сервер 112 выполнен с возможностью выполнения итерации обучения на основе синтетического искусственного обучающего набора 620.[108]
[109] В некоторых вариантах осуществления настоящей технологии сервер 112 может быть выполнен с возможностью исполнения фазы использования модели 120 перевода. Со ссылкой на Фигуру 7 проиллюстрировано представление 700 того, как сервер 112 может быть выполнен с возможностью генерирования предложения 706 на целевом языке на основе некоторого определенного используемого предложения 702 на редком языке.[109] In some embodiments of the present technology, the
[110] Сервер 112 выполнен с возможностью приема используемого предложения 702 на редком языке. Например, сервер 112 может быть выполнен с возможностью получения указания используемого предложения 702 от электронного устройства 104, связанного с пользователем 102, через сеть 110 связи. Сервер 112 выполнен с возможностью применения модели 140 транслитерации для того, чтобы сгенерировать синтетическое используемое предложение 704 на основе используемого предложения 702. Сервер 112 выполнен с возможностью ввода синтетического используемого предложения 704 в модель 120 перевода, которая выполнена с возможностью генерирования предложения 706, которое является переводом используемого предложения 702 с редкого языка на целевой язык.[110] The
[111] Со ссылкой на Фигуру 8 проиллюстрировано схематичное представление способа 800 обучения модели 120 перевода. Способ 800 выполняется сервером 112. Различные этапы реализуемого компьютером способа 800 теперь будут описаны более подробно.[111] With reference to Figure 8, a schematic representation of a
ЭТАП 802: получение некоторого определенного реального примера, имеющего первое предложение на одном языке из группы языков и соответствующее второе предложение на целевом языке, являющееся реальным переводом первого предложенияSTEP 802: Obtaining some specific real-world example having a first sentence in one language from the language group and a corresponding second sentence in the target language being a real translation of the first sentence
[112] Способ 800 начинается с этапа 802, на котором сервер 112 выполнен с возможностью получения некоторого определенного реального примера, имеющего первое предложение на одном языке из группы языков и соответствующее второе предложение на целевом языке, являющееся реальным переводом первого предложения. [112] The
[113] Например, сервер 112 может быть выполнен с возможностью получения некоторого определенного примера из числа множества 310 реальных примеров (см. Фигуру 3). Предположим, что целевым языком является русский, а упомянутой группой языков является тюркская группа языков. Таким образом, сервер 112 может быть выполнен с возможностью получения некоторого примера из числа первого реального примера 322, второго реального примера 324, третьего реального примера 326 и четвертого реального примера 328.[113] For example, the
[114] В некоторых вариантах осуществления группа языков представляет собой тюркскую группу языков. Тюркская группа языков содержит турецкий язык, узбекский язык, чувашский язык и киргизский язык. Чувашский язык является редким языком в тюркской группе языков.[114] In some embodiments, the language group is the Turkic language group. The Turkic language group contains Turkish, Uzbek, Chuvash and Kyrgyz. Chuvash is a rare language in the Turkic group of languages.
[115] В других вариантах осуществления группа языков представляет собой германскую группу языков. Германская группа языков содержит английский язык, немецкий язык, голландский язык и фарерский язык. Фарерский язык является редким языком в германской группе языков.[115] In other embodiments, the language group is the Germanic language group. The Germanic language group contains English, German, Dutch and Faroese. Faroese is a rare language in the Germanic language group.
[116] В дополнительных вариантах осуществления группа языков представляет собой романскую группу языков. Романская группа языков содержит французский язык, итальянский язык, испанский язык и галисийский язык. Галисийский язык является редким языком в романской группе языков.[116] In further embodiments, the language group is a Romance language group. The Romance language group contains French, Italian, Spanish and Galician. Galician is a rare language in the Romance group of languages.
ЭТАП 804: генерирование, применяя функцию транслитерации, первого синтетического предложения на основе первого предложения для определенного реального примераSTEP 804: generating, using the transliteration function, a first synthetic sentence based on the first sentence for a certain real-life example
[117] Способ 800 переходит на этап 804, на котором сервер 112 выполнен с возможностью генерирования, применяя функцию транслитерации, первого синтетического предложения на основе первого предложения для определенного реального примера. Первым синтетическим предложением является транслитерация первого предложения в систему синтетического письма. Тем самым сервер 112 генерирует синтетический реальный пример, имеющий первое синтетическое предложение и соответствующее второе предложение.[117] The
[118] Предположим, что первым предложением и вторым предложением упомянутого определенного реального примера являются предложение 302 и предложение 312 первого реального примера 322. Таким образом, сервер 112 выполнен с возможностью генерирования синтетического предложения 502 на основе предложения 302. Сервер 112 тем самым генерирует синтетический реальный пример 560, имеющий синтетическое предложение 502 и предложение 312.[118] Assume that the first sentence and the second sentence of said specific real example are
[119] В некоторых вариантах осуществления настоящей технологии сервер 112 может быть выполнен с возможностью генерирования функции транслитерации путем обучения модели SMT на основе выровненных корпусов текста между языками в определенной группе языков. Модель SMT обучается для определения правил транслитерации между предложениями на каждом из языков упомянутой группы и синтетическими предложениями в системе синтетического письма.[119] In some embodiments of the present technology,
ЭТАП 806: получение третьего предложения на целевом языкеSTEP 806: receiving the third sentence in the target language
[120] Способ 800 переходит на этап 806, на котором сервер 112 выполнен с возможностью получения третьего предложения на целевом языке. Например, сервер 112 может быть выполнен с возможностью получения одного из множества 390 чистых предложений на целевом языке. Предположим, что сервер 112 получает из базы 150 данных предложение 391. Можно сказать, что предложение 391 является предложением высокого качества на целевом языке. Предложение 391 может быть предварительно выбрано человеком-оператором и сохранено в базе 150 данных.[120]
ЭТАП 808: генерирование, применяя другую модель перевода, четвертого предложения на редком языке для третьего предложения с использованием обратного переводаSTEP 808: generating, using a different translation model, a fourth rare language sentence for the third sentence using reverse translation
[121] Способ 800 переходит на этап 808, на котором сервер 112 выполнен с возможностью генерирования, применяя другую модель перевода, четвертого предложения на редком языке для третьего предложения с использованием обратного перевода. Четвертым предложением является искусственный перевод третьего предложения. Четвертое предложение и третье предложение образуют некоторый определенный искусственный пример. Например, сервер 112 может быть выполнен с возможностью использования модели 130 перевода в направлении 420 (обратный перевод) для перевода предложения 391 и, таким образом, генерирования предложения 451.[121] The
[122] В некоторых вариантах осуществления упомянутая другая модель перевода может обучаться на основе реальных примеров между редким языком и целевым языком.[122] In some embodiments, said other translation model may be trained on real examples between a rare language and a target language.
[123] В других вариантах осуществления другой моделью перевода может быть упомянутая модель перевода. Другими словами, сервер 112 может быть выполнен с возможностью использования модели 120 перевода для выполнения обратного перевода предложения 391 для генерирования предложения 451. Это означает, что в таких вариантах осуществления упомянутой другой моделью перевода может быть модель 120 перевода, обучаемая сервером 112 с помощью способа 800. В таком варианте осуществления сервер 112 может быть выполнен с возможностью сначала обучения модели 120 перевода на основе синтетических реальных примеров, затем использования модели 120 перевода для генерирования синтетических искусственных примеров посредством обратного перевода, а затем дополнительного обучения модели 120 перевода на основе синтетических искусственных примеров.[123] In other embodiments, another translation model may be the above translation model. In other words,
ЭТАП 810: генерирование, применяя функцию транслитерации, четвертого синтетического предложения на основе четвертого предложения для определенного искусственного примераSTEP 810: generating, using the transliteration function, a fourth synthetic sentence based on the fourth sentence for a certain artificial example
[124] Способ 800 переходит на этап 810, на котором сервер 112 выполнен с возможностью генерирования, применяя функцию транслитерации, четвертого синтетического предложения на основе четвертого предложения для определенного искусственного примера. Четвертым синтетическим предложением является транслитерация четвертого предложения в систему синтетического письма. Тем самым сервер 112 генерирует синтетический искусственный пример, имеющий четвертое синтетическое предложение и третье предложение.[124] The
[125] Например, сервер 112 может быть выполнен с возможностью генерирования синтетического предложения 551 на основе предложения 451. Таким образом сервер 112 может быть выполнен с возможностью генерирования синтетического искусственного примера 570, имеющего синтетическое предложение 551 и предложение 391.[125] For example,
ЭТАП 812: обучение модели перевода на основе синтетического реального примера и синтетического искусственного примераSTEP 812: training a translation model based on a synthetic real example and a synthetic artificial example
[126] Способ 800 переходит на этап 812, на котором сервер 112 выполнен с возможностью обучения модели 120 перевода на основе синтетического реального примера и синтетического искусственного примера. Например, сервер 112 может быть выполнен с возможностью использования синтетического реального примера 560 и синтетического искусственного примера 570 для обучения модели 120 перевода. Сервер 112 выполнен с возможностью обучения модели 120 перевода для приема некоторого определенного используемого предложения на редком языке, генерирования синтетического используемого предложения на основе упомянутого определенного используемого предложения с применением функции транслитерации и перевода с использованием модели 120 перевода используемого синтетического предложения в соответствующее используемое предложение на целевом языке.[126] The
[127] В некоторых вариантах осуществления сервер 112 может быть выполнен с возможностью генерирования набора 620 обучающих данных на основе синтетического искусственного примера 570. Набор 620 обучающих данных содержит метку 625, указывающую, что четвертое синтетическое предложение 551 сгенерировано на основе искусственного перевода третьего предложения 391. Сервер 112 может вводить набор 625 обучающих данных в модель 120 перевода, а модель 120 перевода может использовать метку 625 для различения между (i) наборами обучающих данных, сгенерированными на основе реальных переводов, и (ii) наборами обучающих данных, сгенерированными на основе искусственных переводов.[127] In some embodiments, the
[128] Например, во время фазы использования модели 120 перевода сервер 112 может быть выполнен с возможностью приема используемого предложения 702 на редком языке, генерирования синтетического используемого предложения 704 на основе используемого предложения 702 и генерирования используемого предложения 706 на целевом языке на основе используемого синтетического предложения 704.[128] For example, during the use phase of the
[129] Модификации и улучшения вышеописанных реализаций настоящей технологии могут стать очевидными для специалистов в данной области техники. Предшествующее описание предназначено для того, чтобы быть примерным, а не ограничивающим. Поэтому подразумевается, что объем настоящей технологии ограничен лишь объемом прилагаемой формулы изобретения.[129] Modifications and improvements to the above-described implementations of the present technology may become apparent to those skilled in the art. The preceding description is intended to be exemplary and not limiting. Therefore, the scope of the present technology is intended to be limited only by the scope of the appended claims.
Claims (80)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/553,798 US20220198159A1 (en) | 2020-12-22 | 2021-12-17 | Methods and systems for creating a training dataset for training a machine learning algorithm (mla) for a machine-translation task |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2020142417A RU2020142417A (en) | 2022-06-22 |
RU2790026C2 true RU2790026C2 (en) | 2023-02-14 |
Family
ID=
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2607989C1 (en) * | 2015-07-08 | 2017-01-11 | Закрытое акционерное общество "МНИТИ" (сокращенно ЗАО "МНИТИ") | Method for automated identification of language or linguistic group of text |
RU2644071C2 (en) * | 2013-03-15 | 2018-02-07 | Дзе Дан Энд Брэдстрит Корпорейшн | Curation of multilingual commercial indicators and synthesis of transliteration |
CN110298046A (en) * | 2019-07-03 | 2019-10-01 | 科大讯飞股份有限公司 | A kind of translation model training method, text interpretation method and relevant apparatus |
CN110717341A (en) * | 2019-09-11 | 2020-01-21 | 昆明理工大学 | Method and device for constructing old-Chinese bilingual corpus with Thai as pivot |
CN111046677A (en) * | 2019-12-09 | 2020-04-21 | 北京字节跳动网络技术有限公司 | Method, device, equipment and storage medium for obtaining translation model |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2644071C2 (en) * | 2013-03-15 | 2018-02-07 | Дзе Дан Энд Брэдстрит Корпорейшн | Curation of multilingual commercial indicators and synthesis of transliteration |
RU2607989C1 (en) * | 2015-07-08 | 2017-01-11 | Закрытое акционерное общество "МНИТИ" (сокращенно ЗАО "МНИТИ") | Method for automated identification of language or linguistic group of text |
CN110298046A (en) * | 2019-07-03 | 2019-10-01 | 科大讯飞股份有限公司 | A kind of translation model training method, text interpretation method and relevant apparatus |
CN110717341A (en) * | 2019-09-11 | 2020-01-21 | 昆明理工大学 | Method and device for constructing old-Chinese bilingual corpus with Thai as pivot |
CN111046677A (en) * | 2019-12-09 | 2020-04-21 | 北京字节跳动网络技术有限公司 | Method, device, equipment and storage medium for obtaining translation model |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10497366B2 (en) | Hybrid learning system for natural language understanding | |
US11403288B2 (en) | Querying a data graph using natural language queries | |
JP6776448B2 (en) | Implicit bridging of machine learning tasks | |
US8694303B2 (en) | Systems and methods for tuning parameters in statistical machine translation | |
US11520992B2 (en) | Hybrid learning system for natural language understanding | |
US10789431B2 (en) | Method and system of translating a source sentence in a first language into a target sentence in a second language | |
US9514098B1 (en) | Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases | |
Kenny | Human and machine translation | |
Davydov et al. | Mathematical method of translation into Ukrainian sign language based on ontologies | |
Zhou et al. | English grammar error correction algorithm based on classification model | |
US20220245353A1 (en) | System and method for entity labeling in a natural language understanding (nlu) framework | |
US20220245361A1 (en) | System and method for managing and optimizing lookup source templates in a natural language understanding (nlu) framework | |
Dandala et al. | Word sense disambiguation using Wikipedia | |
US20220229990A1 (en) | System and method for lookup source segmentation scoring in a natural language understanding (nlu) framework | |
US20220229986A1 (en) | System and method for compiling and using taxonomy lookup sources in a natural language understanding (nlu) framework | |
US11868737B2 (en) | Method and server for processing text sequence for machine processing task | |
US20220198159A1 (en) | Methods and systems for creating a training dataset for training a machine learning algorithm (mla) for a machine-translation task | |
US11989528B2 (en) | Method and server for training a machine learning algorithm for executing translation | |
Zhang et al. | Selective decoding for cross-lingual open information extraction | |
RU2790026C2 (en) | Method and server for training machine learning algorithm for translation | |
US20220245352A1 (en) | Ensemble scoring system for a natural language understanding (nlu) framework | |
Newell et al. | Assessing the verifiability of attributions in news text | |
Moorkens et al. | Automating Translation | |
RU2812301C2 (en) | Method and server for performing context-sensitive translation | |
RU2789796C2 (en) | Method and server for training machine learning algorithm for translation |