RU172882U1 - Устройство для автоматического перевода текста - Google Patents

Устройство для автоматического перевода текста Download PDF

Info

Publication number
RU172882U1
RU172882U1 RU2016102065U RU2016102065U RU172882U1 RU 172882 U1 RU172882 U1 RU 172882U1 RU 2016102065 U RU2016102065 U RU 2016102065U RU 2016102065 U RU2016102065 U RU 2016102065U RU 172882 U1 RU172882 U1 RU 172882U1
Authority
RU
Russia
Prior art keywords
text
document
module
translation
processing module
Prior art date
Application number
RU2016102065U
Other languages
English (en)
Inventor
Иван Валерьевич Смольников
Владимир Владиславович Гусаков
Артем Владимирович Украинец
Original Assignee
Общество с ограниченной ответственностью "Технологии управления переводом"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Технологии управления переводом" filed Critical Общество с ограниченной ответственностью "Технологии управления переводом"
Priority to RU2016102065U priority Critical patent/RU172882U1/ru
Application granted granted Critical
Publication of RU172882U1 publication Critical patent/RU172882U1/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Данное техническое решение относится к области обработки цифровых данных с помощью электрических устройств, а точнее к устройствам автоматизированного перевода электронных документов с одного или более исходных естественных языков на один или более целевой естественный язык. Устройство для автоматического перевода текста, содержащее модуль обработки, выход которого соединен с входом модуля обработки документов, выход которого соединен с входом модуля сегментации текста, выход которого соединен с входом модуля обработки текста, выход которого соединен с входом обработки документов. Техническим результатом является повышение скорости и качества обработки документа, а также повышение качества перевода.

Description

ОБЛАСТЬ ТЕХНИКИ
[0001] Данное техническое решение относится к области обработки цифровых данных с помощью электрических устройств, а точнее к устройствам автоматизированного перевода электронных документов с одного или более исходных естественных языков на один или более целевой естественный язык.
УРОВЕНЬ ТЕХНИКИ
[0002] В настоящее время технические решения, предназначенные для перевода на различные языки, обеспечивают приемлемый уровень качества перевода формального содержимого для распространенных языков (например, английский, французский, испанский, немецкий и пр.). При этом для других языков, а также при неформальном или специальном содержимом пользователь должен зачастую прибегать к немашинному переводу (здесь и далее - переводу, выполняемому людьми), что увеличивает время, затраченное на качественный перевод.
[0003] Из уровня техники известна заявка на патент US 20110122448 A1 «Method for translating documents using multifunctional printer machine, involves outputting printouts based on selected page layout templates including original text and translated text in corresponding languages as specified», патентообладатель: XEROX CORP, опубликовано: 26.05.2011. Согласно описанию способ и система для перевода документов с использованием многофункционального принтера, в котором захватывают изображения документа; определяют области документа, которые включают исходный текст; выполняют оптическое распознавание символов в областях документа, которые включают исходный текст; указывают исходный язык, соответствующий исходному тексту; указывают один или более целевой язык, соответствующий переведенному тексту; выполняют перевод оригинального текста в тексте, выбрав один или несколько шаблонов макета страницы. В данном техническом решении используют стандартные шаблоны с выделенными местами для вставки текста, а не сохраняют форматирование исходного файла (включая параграфы, таблицы, шрифты), что является существенным недостатком.
[0004] Также известна заявка на патент US 20050122537 A1 «Combination machine e.g. multi-function copier, has controller to control character recognition part, translation part and voice conversion part to convert recognized characters into images and to convert images into voice signal», патентообладатель: SAMSUNG ELECTRONICS CO LTD, опубликовано: 22.09.2005. Существенным недостатком данного технического решения является то, что перевод не может выполняться с помощью кастомизированного машинного перевода и ранее накопленных текстов, а также при помощи немашинного перевода.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0005] Данное техническое решение направлено на устранение недостатков, присущих существующим решениям из уровня техники.
[0006] Техническим результатом данного технического решения, объективно проявляющимся при реализации заявленного устройства, является повышение качества перевода, выполняемого посредством устройства для автоматического перевода текста.
[0007] Данный технический результат достигается благодаря устройству для автоматического перевода текста, содержащему модуль обработки, выход которого соединен с входом модуля обработки документов, выход которого соединен с входом модуля сегментации текста, выход которого соединен с входом модуля обработки текста, выход которого соединен с входом обработки документов.
[0008] В некоторых вариантах осуществления технического решения модуль обработки содержит блок распознавания голоса и/или речевой ввод данных, и/или речевое оповещение.
[0009] В некоторых вариантах осуществления технического решения модуль обработки содержит блок машинного перевода с возможностью настройки (кастомизации) под конкретную тематику.
[00010] В некоторых вариантах осуществления технического решения модуль обработки содержит блок для создания немашинного перевода.
[00011] В некоторых вариантах осуществления технического решения модуль обработки содержит блок распознавания сканированных изображений.
[00012] В некоторых вариантах осуществления технического решения модуль обработки содержит блок памяти переводов и глоссариев, используемых для машинного и немашинного перевода.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[00013] Признаки и преимущества настоящего технического решения станут очевидными из приводимого ниже подробного описания и прилагаемого чертежа, на котором:
На Фиг. 1 схематически показан пример конструктивной схемы устройства перевода документов, работающего в соответствии с одним или несколькими аспектами настоящего технического решения.
ПОДРОБНОЕ ОПИСАНИЕ ТЕХНИЧЕСКОГО РЕШЕНИЯ
[00014] Ниже будут описаны понятия и определения, необходимые для подробного раскрытия осуществляемого решения.
[00015] Согласно варианту реализации технического решения устройство для автоматического перевода текста содержит корпус 101, в котором находится модуль хранения 106, выход которого соединен с модулем обработки 102, выход которого соединен с входом модуля обработки документов 103, выход которого соединен с модулем сегментации текстов 104, выход которого соединен с модулем обработки текстов 105.
[00016] В некоторых вариантах реализации модуль обработки 102 включает в себя блок распознавания сканированных документов, блок распознавания речевого ввода, блок извлечения текстовой и метаинформации.
[00017] После получения входящего документа из модуля хранения 106, модуль обработки документов 102 обрабатывает файл на основе формата файла. Например, файлы с изображением документа могут предварительно обрабатываться путем выполнения оптического распознавания символов методом автоматического сегментирования массива исходных данных на области и объекты (фрагменты текста, графические изображения), дальнейшего разбиения фрагментов текста на изображения символов и распознавания символов, выделения объектов с помехами и неверно распознанных объектов (путем выявления в распознанных смысловых единицах элементов, которые не совпадают с эквивалентными им по месту расположения символами), сортировки вероятных кандидатов распознавания по их статистической значимости, выбора наиболее релевантного кандидата, затем строятся гипотезы принадлежности слов к определенному языку путем сопоставления слов с морфологическими словарями; а файлы с аудио- или видеопотоком могут проходить предварительную обработку путем распознания голоса при помощи временных динамических алгоритмов или скрытых марковских моделей (производится очистка исходного сигнала от шума и выделение полезного сигнала; строятся статистическая модель, описывающая различные звучания звуков в речи, и модель языка, задающая наиболее вероятные звуковые и словесные последовательности и использующая различные правила грамматики языка, информацию о части речи и форме слова; обработка декодером, выбирающим наиболее вероятную последовательность слов входного сигнала).
[00018] В модуле хранения 106 находится база ранее накопленных текстов, которая задействуется при обработке конкретного документа, что позволяет повысить качество перевода.
[00019] Данная база может содержать множество записей памяти перевода, при этом каждая запись содержит фрагмент исходного текста на первом естественном языке и один или несколько фрагментов переведенного текста на другом естественном языке. Таким образом, фрагмент исходного текста может быть автоматически переведен на один или более целевых языков путем извлечения содержимого поля записи базы данных, соответствующего одинаковой записи базы данных памяти для целевого языка и для фрагмента исходного текста. В различных примерах реализации база данных памяти текстов переводов может быть проиндексирована по одному или более полям, соответствующим различным естественным языкам.
[00020] Содержимое базы данных памяти текстов переводов может быть обновлено новыми записями, и/или существующие записи могут быть обновлены с использованием подтвержденных переводов определенных текстов. Каждый фрагмент текста, хранящийся в базе данных памяти текстов переводов, может содержать одно или более предложений. В определенных вариантах реализации база данных памяти текстов переводов может также содержать дополнительную информацию, отражающую различные отношения между частями фрагмента текста на исходном языке и соответствующими частями соответствующего переведенного фрагмента текста (например, отношения на уровне предложений или на уровне слов, синтаксическая или семантическая информация). В различных примерах осуществления технического решения база данных памяти переводов может быть связана с определенным аккаунтом (например, аккаунтом, связанным с пользователем, проектом или организацией), темой, типом документа и т.д. В определенных вариантах реализации устройство перевода может работать с двумя и более базами данных памяти переводов.
[00021] Модуль обработки документов 103 получает предварительно обработанный файл, извлекает текст документа и метаданные документа, отражающие структуру и форматирование документа. Метаданные содержат информацию о шрифтах, тегах, модификаторах текста (жирный, курсив), встроенные изображения и другие объекты, дату создания, дату изменения, внутренние идентификаторы и др. Метаданные документа хранятся в модуле хранения 106.
[00022] Затем текст передается в модуль сегментации текста 104, который разделяет текст на один или более сегментов для дальнейшего перевода, используя набор правил и разделителей (точка+пробел, перенос строки, восклицательный знак+пробел и другие - в зависимости от языка документа). После получения каждого сегмента текста от модуля сегментации текста 104 модуль обработки текста 105 выполняет следующие действия:
- предоставляет пользователю интерфейс верификации исходного текста для проверки результатов исходной обработки (OCR/распознавание текста), который содержит управляющие элементы для редактирования и подтверждения текстовой информации, полученной в результате распознавания, область для отображения исходного изображения, историю изменений сегмента с возможностью отмены и повтора действий;
- запускает процесс машинного перевода с использованием внутренней или внешней (облачной) системы машинного перевода в зависимости от выбора пользователя, для этого производится вызов соответствующих методов API для перевода текстов движков машинного перевода, результат перевода сохраняется в базе данных и передается в пользовательский интерфейс;
- запускает рабочий процесс немашинного перевода, для этого производится вызов методов API системы профессионального перевода SmartCAT (разработана авторами заявки), в которой создается проект с сохранением всей метаинформации (автор, дата создания и т.д.) об исходном документе и тексте, подключаются доступные пользователю лингвистические ресурсы (база памяти переводов, глоссарии, словари, машинный перевод), назначаются исполнители из списка одобренных и доступных пользователю исполнителей (автоматически или при участии менеджера проекта), исполнители выполняют перевод документа;
- запускает пользовательский интерфейс для проверки и редактирования текста после перевода, для загружается текст из системы профессионального перевода SmartCAT.
[00023] Модуль хранения 106 может быть задействован одним или более конструктивными модулями 102-105 для предварительной обработки и перевода текста, причем в таком случае к данному модулю хранения 106, который связан с модулем обработки 102, осуществляют запрос. Глоссарии и исходный текст, хранящийся в блоке хранения 106, могут использоваться для валидации распознанных фрагментов текста путем их сопоставления с имеющимися сегментами и поиска нечетких совпадений. При машинном переводе глоссарии могут использоваться для снятия многозначности перевода слов и задания конкретного варианта перевода, память переводов может использоваться для подстановки вместо имеющихся фрагментов текстов (тогда только оставшиеся непереведенные фрагменты переводятся при помощи машинного перевода, что позволяет улучшить качество текста), а также для набора статистики для перевода устойчивых фраз и конструкций, и отдельных терминов. В немашинном переводе глоссарии и память переводов используются для подсказки переводчику, работающему над текстом.
[00024] Переведенный текст может быть обработан модулем обработки документов 103 для создания выходного файла путем сборки нескольких переведенных фрагментов и применения структуры и форматирования исходного документа, путем считывания и восстановления информации, сохраненной на этапе предварительной обработки.
[00025] Элементы данного устройства находятся в конструктивном единстве и функциональной взаимосвязи, а их совместное использование приводит к созданию нового устройства с новой функцией. Таким образом, конструкция выполняется в жесткой конструкции, все блоки которой связаны, в любом исполнении, не влияющем на сущность технического решения.
[00026] Блоки, используемые в устройстве, могут быть реализованы с помощью электронных компонент, используемых для создания цифровых интегральных схем. Не ограничиваюсь, могут быть использоваться микросхемы, логика работы которых определяется при изготовлении, или программируемые логические интегральные схемы (ПЛИС), логика работы которых задается посредством программирования. Для программирования используются программаторы и отладочные среды, позволяющие задать желаемую структуру цифрового устройства в виде принципиальной электрической схемы или программы на специальных языках описания аппаратуры: Verilog, VHDL, AHDL и др. Альтернативой ПЛИС являются: программируемые логические контроллеры (ПЛК), базовые матричные кристаллы (БМК), требующие заводского производственного процесса для программирования; ASIC - специализированные заказные большие интегральные схемы (БИС), которые при мелкосерийном и единичном производстве существенно дороже.
[00027] Также блоки могут быть реализованы с помощью постоянных запоминающих устройств (см. Лебедев О.Н. Микросхемы памяти и их применение. - М.: Радио и связь, 1990. - 160 с.; Большие интегральные схемы запоминающих устройств: Справочник / А.Ю. Горденов и др. - М.: Радио и связь, 1990. - 288 с.).
[00028] Таким образом, реализация всех используемых блоков достигается стандартными средствами, базирующимися на классических принципах реализации основ вычислительной техники.
ПРИМЕРЫ РЕАЛИЗАЦИИ
Пример 1.
Модуль обработки получает на вход бумажный документ на английском языке из 10 страниц, после чего принимает выбор пользователя - машинный перевод и печать на русский язык. Затем модуль обработки выполняет сканирование документа при помощи сканирующего блока, получая результат в виде PDF файла. Модуль обработки передает полученный файл модулю обработки документов, который выполняет распознавание отсканированного изображения, получая результат в виде DOCX файла. Затем указанный модуль выполняет извлечение текстовой информации из DOCX файла, производит валидацию текста по текстам (базам памяти перевода и глоссариям), хранящимся в запоминающем модуле устройства. Модуль сегментации выполняет сегментацию извлеченного текста и для каждого сегмента текста выполняет машинный перевод с английского на русский с помощью модуля машинного перевода. После получения перевода всех сегментов устройство вставляет полученный перевод в DOCX файл, сохраняет его в запоминающем модуле в привязке к учетной записи пользователя, осуществившего загрузку документа. Устройство печатает документ с помощью модуля печати.
Пример 2.
Модуль обработки получает на вход бумажный документ на русском языке из 20 страниц, после чего принимает выбор пользователя - немашинный (человеческий) перевод на немецкий и французский языки и отправку результата по электронной почте. Модуль обработки выполняет сканирование документа при помощи сканирующего модуля, получая результат в виде PDF файла. Модуль обработки передает полученный файл модулю обработки документов, который выполняет распознавание отсканированного изображения, получая результат в виде DOCX файла.
Указанный модуль выполняет извлечение текстовой информации из DOCX файла, производит валидацию текста по текстам (базам памяти перевода и глоссариям), хранящимся в запоминающем модуле устройства. Модуль сегментации выполняет сегментацию извлеченного текста и направляет документ в модуль немашинного перевода. С помощью специализированного интерфейса профессиональные переводчики выполняют немашинный перевод с русского на немецкий и с английского на французский. После получения перевода всех сегментов устройство вставляет полученный перевод в соответствующие (русский и французский) DOCX файлы, сохраняет их в запоминающем модуле в привязке к учетной записи пользователя, осуществившего загрузку документа. Устройство отправляет документы на электронную почту пользователя с помощью интерфейса электронной почты.
Figure 00000001
Figure 00000002

Claims (6)

1. Устройство автоматического перевода текста, выполненное в корпусе, содержащее модуль хранения, выполненный с возможностью хранения глоссариев и накопленных ранее переведенных фрагментов текста, соединенный с модулем предварительной обработки файла документа на основе формата файла, выполненным с возможностью передачи информации файла исходного документа в указанный модуль хранения; модулем обработки документов, выполненным с возможностью извлечения текста и метаданных документа, подлежащих сохранению в указанном модуле хранения, создания выходного файла путем сборки переведенных фрагментов текста, применения структуры и форматирования исходного документа путем считывания и восстановления информации, полученной из указанного модуля хранения; модулем сегментации текста, выполненным с возможностью разделения текста на сегменты с применением набора правил и разделителей, зависящих от языка указанного исходного документа; модулем обработки текста, выполненным с возможностью перевода сегментированного текста, передаваемого в указанный модуль обработки документов, и предоставления интерфейса пользователю с выходным файлом, получаемым от указанного модуля обработки документов.
2. Устройство по п. 1, в котором соединение указанных модулей выполнено посредством соединения выходов и входов модулей в соответствии с указанной последовательностью.
3. Устройство по п. 1, отличающееся тем, что указанный модуль предварительной обработки файла документа включает блок распознавания сканированных документов или изображений сканированных документов.
4. Устройство по п. 3, отличающееся тем, что фрагменты текста распознанных документов подлежат сохранению в указанном модуле хранения.
5. Устройство по п. 4, отличающееся тем, что глоссарии и исходный текст, хранящийся в модуле хранения, могут быть использованы для валидации указанных фрагментов текста распознанных документов путем их сопоставления с имеющимися сегментами и поиска нечетких совпадений.
6. Устройство по п. 1, отличающееся тем, что указанный модуль предварительной обработки файла документа включает блок распознавания речевого ввода.
RU2016102065U 2016-07-20 2016-07-20 Устройство для автоматического перевода текста RU172882U1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2016102065U RU172882U1 (ru) 2016-07-20 2016-07-20 Устройство для автоматического перевода текста

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2016102065U RU172882U1 (ru) 2016-07-20 2016-07-20 Устройство для автоматического перевода текста

Publications (1)

Publication Number Publication Date
RU172882U1 true RU172882U1 (ru) 2017-07-28

Family

ID=59633021

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016102065U RU172882U1 (ru) 2016-07-20 2016-07-20 Устройство для автоматического перевода текста

Country Status (1)

Country Link
RU (1) RU172882U1 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2779526C2 (ru) * 2018-05-15 2022-09-08 Айфлайтек Ко., Лтд. Способ и устройство для перевода текста на уровне дискурса
US11694041B2 (en) 2018-05-15 2023-07-04 Iflytek Co., Ltd. Chapter-level text translation method and device

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5222160A (en) * 1989-12-28 1993-06-22 Fujitsu Limited Document revising system for use with document reading and translating system
US5813018A (en) * 1991-11-27 1998-09-22 Hitachi Microcomputer System Ltd. Automated text extraction from source drawing and composition into target drawing with translated text placement according to source image analysis
MY126144A (en) * 1995-11-15 2006-09-29 Hitachi Ltd Character recognizing and translating system and voice recognizing and translating system
US20090210215A1 (en) * 2008-02-14 2009-08-20 Fuji Xerox Co., Ltd. Document image processing device and document image processing program
US20140172408A1 (en) * 2012-12-14 2014-06-19 Microsoft Corporation Text overlay techniques in realtime translation
RU2546064C1 (ru) * 2013-11-12 2015-04-10 Общество с ограниченной ответственностью "Технологии управления переводом" Распределенная система и способ языкового перевода

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5222160A (en) * 1989-12-28 1993-06-22 Fujitsu Limited Document revising system for use with document reading and translating system
US5813018A (en) * 1991-11-27 1998-09-22 Hitachi Microcomputer System Ltd. Automated text extraction from source drawing and composition into target drawing with translated text placement according to source image analysis
MY126144A (en) * 1995-11-15 2006-09-29 Hitachi Ltd Character recognizing and translating system and voice recognizing and translating system
US20090210215A1 (en) * 2008-02-14 2009-08-20 Fuji Xerox Co., Ltd. Document image processing device and document image processing program
US20140172408A1 (en) * 2012-12-14 2014-06-19 Microsoft Corporation Text overlay techniques in realtime translation
RU2546064C1 (ru) * 2013-11-12 2015-04-10 Общество с ограниченной ответственностью "Технологии управления переводом" Распределенная система и способ языкового перевода

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2779526C2 (ru) * 2018-05-15 2022-09-08 Айфлайтек Ко., Лтд. Способ и устройство для перевода текста на уровне дискурса
US11694041B2 (en) 2018-05-15 2023-07-04 Iflytek Co., Ltd. Chapter-level text translation method and device

Similar Documents

Publication Publication Date Title
US8131536B2 (en) Extraction-empowered machine translation
US8660834B2 (en) User input classification
US5295068A (en) Apparatus for registering private-use words in machine-translation/electronic-mail system
WO2010046782A2 (en) Hybrid machine translation
KR101266361B1 (ko) 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
JP2003030186A (ja) 機械翻訳装置
CN100454294C (zh) 用于将日文翻译成中文的设备
Seljan et al. From digitisation process to terminological digital resources
Killman Context as Achilles’ heel of translation technologies: Major implications for end-users
KR20040024619A (ko) 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트생성 알고리즘, 장치 및 프로그램
US8041556B2 (en) Chinese to english translation tool
US20070067291A1 (en) System and method for negative entity extraction technique
RU172882U1 (ru) Устройство для автоматического перевода текста
Ogrodniczuk et al. Connecting data for digital libraries: the library, the dictionary and the corpus
CN109344389B (zh) 一种汉盲对照双语语料库的构建方法和系统
Hirakawa et al. EJ/JE Machine Translation System ASTRANSAC—Extensions toward Personalization
Li et al. Uzbek-English and Turkish-English morpheme alignment corpora
Pinnis et al. Developing a neural machine translation service for the 2017-2018 european union presidency
Salam et al. Developing the bangladeshi national corpus-a balanced and representative bangla corpus
CN114861628A (zh) 训练机器翻译模型的系统、方法、电子设备及存储介质
JP3471253B2 (ja) 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
JPH05224687A (ja) 日本文読み上げ単語変換編集処理方式
Doermann et al. Translation lexicon acquisition from bilingual dictionaries
JPH08212216A (ja) 自然言語処理装置および自然言語処理方法

Legal Events

Date Code Title Description
PC11 Official registration of the transfer of exclusive right

Effective date: 20171102

QB9K Licence granted or registered (utility model)

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC91 Licence termination (utility model)

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311