RU2607989C1 - Способ автоматизированного определения языка или языковой группы текста - Google Patents

Способ автоматизированного определения языка или языковой группы текста Download PDF

Info

Publication number
RU2607989C1
RU2607989C1 RU2015127427A RU2015127427A RU2607989C1 RU 2607989 C1 RU2607989 C1 RU 2607989C1 RU 2015127427 A RU2015127427 A RU 2015127427A RU 2015127427 A RU2015127427 A RU 2015127427A RU 2607989 C1 RU2607989 C1 RU 2607989C1
Authority
RU
Russia
Prior art keywords
language
text
elements
group
identifying
Prior art date
Application number
RU2015127427A
Other languages
English (en)
Inventor
Сергей Николаевич Калегин
Original Assignee
Закрытое акционерное общество "МНИТИ" (сокращенно ЗАО "МНИТИ")
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Закрытое акционерное общество "МНИТИ" (сокращенно ЗАО "МНИТИ") filed Critical Закрытое акционерное общество "МНИТИ" (сокращенно ЗАО "МНИТИ")
Priority to RU2015127427A priority Critical patent/RU2607989C1/ru
Application granted granted Critical
Publication of RU2607989C1 publication Critical patent/RU2607989C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/2445Alphabet recognition, e.g. Latin, Kanji or Katakana

Abstract

Изобретение относится к автоматизированному определению языка или языковой группы (например, романская, германская, кельтская, славянская и т.д.), к которой относится язык анализируемого текста. Техническим результатом является обеспечение возможности работы с многоязычными текстами и точного определения всех языков, используемых в анализируемом тексте, при наличии в нем форм глаголов из набора идентифицирующих элементов. В способе автоматизированного определения языка или языковой группы текста создают набор идентифицирующих элементов из групп наиболее употребительных глаголов каждого определяемого языка или языковой группы и сохраняют его на носителе информации. При этом в качестве идентифицирующих элементов используют грамматические формы и семантически значимые части глаголов (корни или основы) каждого определяемого языка. Производят сопоставление каждого идентифицирующего элемента набора с элементами анализируемого текста. При выявлении совпадений элементов язык определяют по принадлежности совпавших элементов к определенному языку из набора. 1 ил.

Description

Предлагаемый способ относится к системам автоматизированного определения языка или языковой группы текста, использующим электронно-вычислительные средства (далее по тексту ЭВМ) и может быть использован в процессе автоматизированного анализа и/или перевода текстов, например, в случае отбора (сортировки) текстов на разных языках по тематике, языку, языковым группам или машинного перевода текста на нужный язык.
Известен способ автоматического определения языка распознаваемого текста при многоязычном распознавании, в котором по отдельным распознанным символам текста формируются гипотезы о языковой принадлежности группы символов, которые проверяются с помощью лингвистических моделей с предварительно определенными признаками различных языков, что приводит к получению вероятностного определения языка [1]. Этот способ разработан для систем распознавания изображений (знаков) и не предлагает оригинального решения для определения языка текста, так как определение языковой принадлежности распознаваемого текста осуществляется по известным лингвистическим моделям и словарям.
Эффективность этого и других известных способов недостаточно высока вследствие необходимости перебора отдельных словосочетаний и/или слов по словарям, создания лингвистических моделей, сравнения символов национальных письменных систем или групп символов по набранной статистике встречаемости их комбинаций, что требует затраты нецелесообразного количества ресурсов. Эффективность определения языка текста снижается также из-за того, что во многих языках отдельные словосочетания, слова и комбинации символов могут полностью совпадать, что приводит к ошибкам определения языка или к вероятностным результатам.
Известен способ идентификации языка текста по наборам определенных байтовых последовательностей (комбинаций символов) в соответствии с заранее набранной статистикой встречаемости таких последовательностей в текстах на каждом определяемом языке [2]. Этот способ является функциональным аналогом предлагаемого здесь способа, так как цель, последовательность операций и результаты его применения наиболее близки к предлагаемому способу. Недостатком этого способа является необходимость набора статистических данных по встречаемости определенных байтовых последовательностей в большом количестве текстов на идентифицируемых языках. Другим недостатком этого способа является вероятностный результат, который не позволяет однозначно определить язык или языковую группу проанализированного текста.
Кроме того, в тексте могут встречаться фрагменты на других языках, отличных от языка самого текста (например, в текстах русских писателей 18-19 веков часто встречаются выражения на французском языке), или части, записанные другой письменной системой. Например, в одном тексте часто совместно используются кириллица и латиница, к примеру, при иноязычных включениях, описании терминов, либо используется латиница вместо обычной кириллицы при транслитерации и транскрипции или допустимых вариантах написания.
Основным недостатком этого и большинства известных способов определения языка текста является необходимость подробного анализа текста, например, при построении лингвистических моделей (графов), или перебора и сравнения больших объемов данных (например, словарей определяемых языков), что требует нецелесообразной затраты ресурсов. Другим их недостатком является получение вероятностного результата при определении языка.
Указанные недостатки приводят к нерациональной затрате ресурсов и частым ошибкам при определении языка. Например, при определении языка моноязычного текста известными способами, данный текст может быть отнесен к нескольким языкам разных групп с примерно одинаковой вероятностью. В результате чего невозможно понять, к какой категории отнести данный текст при классификации, для какой группы языков требуется специалист (или какая требуется программа) для дальнейшей обработки и/или перевода данного текста.
Технический результат предлагаемого способа - автоматизированный режим определения языка текста, при этом реализуются:
1) возможность работы с многоязычными текстами и точного определения всех языков, используемых в анализируемом тексте, при наличии в нем форм глаголов из набора идентифицирующих элементов;
2) возможность точного определения языковой семьи, ветви или группы языков, к которой относится язык анализируемого текста (например, славянская, германская, романская, кельтская и т.д.);
3) возможность идентифицировать язык по формам и/или их семантически значимым частям, например, основам или корням небольшой группы глаголов, например вспомогательных, модальных, наиболее употребительных и т.д. (в каждой группе по несколько глаголов), или комбинации таких групп.
Вместе с этим имеется независимость от системы письма или представления информации в анализируемом тексте, значительное повышение точности идентификации языка при небольших объемах текста (от одного до нескольких предложений). Использование ЭВМ при определении языка или языковой группы текста предлагаемым способом не предусматривает сложных алгоритмов и мощных вычислительных средств.
Технический результат достигается тем, что в способе автоматизированного определения языка или языковой группы текста, заключающемся в том, что:
- создают набор идентифицирующих элементов каждого определяемого языка и сохраняют его на носителе информации;
- производят сопоставление каждого идентифицирующего элемента данного набора с соответствующими элементами анализируемого текста,
при выявлении совпадений элементов из набора идентифицирующих элементов с элементами анализируемого текста язык определяют по принадлежности совпавших элементов к определенному языку из данного набора, согласно изобретению создают набор идентифицирующих элементов из групп наиболее употребительных глаголов каждого определяемого языка или языковой группы, а в качестве идентифицирующих элементов используют грамматические формы и семантически значимые части глаголов (корни и основы) каждого определяемого языка и сохраняют его на носителе информации.
Описание изобретения
Предлагаемый способ может быть реализован с помощью программно-аппаратных средств электронно-вычислительных машин и использован при автоматизированном определении языка или языковой группы в системах обработки информации, например, в бюро переводов (с одного языка на другой), отделах по обработке корреспонденции, почтовых отделениях или программах по работе с электронной почтой, библиотеках, программных комплексах по сбору и обработке информации, системах автоматизированного перевода (с одного языка на другой), текстовых процессорах, классификаторах текстовых документов и т.д., а также при определении языка транслитерированных, транскрибированных и записанных специальной (например, шрифтом Брайля) или необычной письменной системой. Например тексты на языках бывшей Югославии могут быть записаны как кириллицей, так и латиницей, а тексты на языках Средней Азии могут также записываться арабской письменностью. Транслитерацию и транскрипцию часто используют люди при общении в компьютерных сетях, например, в Интернете, в силу того, что у корреспондента не всегда есть клавиатура (или соответствующая таблица символов) для переписки на нужном языке.
Для применения предлагаемого способа достаточно иметь (или составить) набор определенных форм нескольких глаголов каждого идентифицируемого языка или языковой группы и не требуется использование словарей, грамматических справочников, лингвистических моделей (или графов), баз данных, статистики встречаемости определенных последовательностей символов и т.д. для каждого идентифицируемого языка.
Суть предлагаемого способа определения языка или языковой группы текста состоит в использовании определенного небольшого набора форм глаголов (или их семантически значимых частей) идентифицируемых языков (по несколько глаголов для каждого языка), который является своеобразной матрицей для определения языка или языковой группы. Данный набор может быть представлен в удобном для хранения, воспроизведения и оперирования виде, например, списком с определенной структурой, таблицей или многомерным массивом, где будут представлены одна или несколько групп глаголов (например, вспомогательные, наиболее употребительные и/или модальные глаголы) каждого идентифицируемого языка, указана связь этих групп с конкретным языком или языковой группой (и/или подгруппой), а также языковой ветвью, семьей и макросемьей по мере необходимости. Такая иерархия набора идентифицирующих элементов позволяет определять языковые ветви, группы или подгруппы без определения самого языка анализируемого текста. Например, для русского языка может быть использована следующая упрощенная языковая иерархия:
русский → восточнославянская группа → балто-славянская ветвь.
При этом данная иерархия может быть разветвленная и многоуровневая (где, например, глаголы близкородственных языков находятся на одном уровне отдельной ветви иерархии), а для каждой языковой группы и каждого языка могут даваться уточнения или более подробная языковая классификация, например, деление на подгруппы, варианты и/или диалекты. К примеру, английский язык относится к западногерманской языковой группе и для него существуют британский, американский и австралийский варианты со множеством диалектов внутри каждого из них.
В качестве идентифицирующих элементов набора могут быть выбраны какие-то конкретные грамматические формы глаголов (например, только формы настоящего времени или только наиболее употребительные) и/или их семантически значимые части (например, корни или основы).
Выбор конкретных форм глаголов зависит от языка, цели и уровня идентификации. Например, для определения только языковой группы и для определения конкретного варианта или диалекта будут использоваться различные наборы глагольных форм. Количество идентифицирующих глаголов для каждого определяемого языка может варьироваться в различных пределах, но для определения языковой группы или подгруппы, а часто и отдельного языка, достаточно взять часто используемые формы (например, настоящего и простого прошедшего времен) наиболее употребительных глаголов, таких как вспомогательные глаголы («быть», «иметь» и т.п.) и глагола «делать». С помощью комбинаций различных групп и форм глаголов идентифицируемых языков и при условии исключения из составляемых наборов совпадающих форм в разных языках и/или языковых группах можно добиться высокой точности идентификации языка или языковой группы текста.
Составление наборов глагольных форм с указанием на соответствие конкретному языку или языковой группе (а также с другими нужными индикаторами) является необходимым и единственным достаточным условием для использования предлагаемого способа (изобретения). Такие наборы могут быть составлены как вручную, так и с помощью ЭВМ в автоматизированном режиме.
Реализация предлагаемого способа сводится к сравнению (сопоставлению) идентифицирующих элементов упомянутого выше набора с соответствующими элементами анализируемого текста. При обнаружении совпадений слов текста (и/или их частей) с соответствующими элементами какой-либо группы из набора идентифицирующих глаголов анализируемый текст ассоциируется с языком, соответствующим данной группе элементов в наборе, и сравнение завершается. При анализе многоязычного текста сопоставление проводится с формами каждой группы идентифицирующих глаголов вне зависимости от того, были ли обнаружены совпадения. А по завершении сравнения всех элементов набора с соответствующими элементами данного текста выдается список всех языков или языковых групп (зависит от цели идентификации), с формами глаголов которых были обнаружены совпадения. Затем результат проведенного анализа текста фиксируется в удобном для восприятия, хранения, воспроизведения (считывания) виде. Впоследствии, на основании полученных результатов, могут быть сделаны уточнения. Например, по количеству и встречаемости совпавших форм глаголов каждого определенного языка может быть вычислен основной или преобладающий язык проанализированного текста.
В целом предлагаемый способ имеет более широкую сферу возможных применений, обеспечивает получение новых технических результатов, обладает рядом преимуществ перед известными способами, решающими аналогичные задачи, и является одним из наиболее рациональных способов определения (идентификации) языковой принадлежности текста на текущий момент времени. Применение предлагаемого способа на практике позволит существенно повысить качество и/или скорость определения языковой принадлежности текста, а технические результаты такого применения позволят существенно сократить затраты и сэкономить ресурсы при определении языка или языковой группы текста.
При реализации предлагаемого способа на ЭВМ значительно сократится занимаемое программой (и ее компонентами) место в памяти ЭВМ и на устройстве хранения информации, а также потребление вычислительных ресурсов. Это позволяет отводить на идентификацию языка гораздо меньше времени, а также освободить часть ресурсов для решения других задач или создавать менее мощные машины или менее требовательные к ресурсам программы. Особенно это важно в области web-приложений, мобильных компьютеров и т.д.
Технический результат применения предлагаемого способа определения языка или языковой группы текста позволяет получить значительный экономический эффект. При сортировке корреспонденции, публикаций и книг на разных языках предложенный способ определения языка или языковой группы может применяться с участием сотрудника, не являющегося специалистом в области филологии и языкознания. При выборе программы перевода (например, для перевода письма или публикации) языковая группа определяется с высокой точностью.
Примеры реализации предлагаемого способа
На фиг. 1 представлена функциональная схема реализации предлагаемого способа со следующими блоками:
1 - Массив идентифицирующих элементов;
2 - Массив элементов анализируемого текста;
3 - Программный блок сопоставления элементов текста с элементами набора;
4 - Результат определения языка.
В качестве примера практического применения и наглядной демонстрации предлагаемого способа описывается упрощенная последовательность операций, используемых при анализе следующего текста (фрагмент типового договора):
«Споры или разногласия, которые могут возникнуть по настоящему договору или в связи с ним и не могут быть решены путем переговоров, подлежат рассмотрению в Арбитражном суде по месту нахождения Ответчика».
Производят следующие операции:
- создание массива данных на основе имеющегося набора идентифицирующих элементов;
- создание массива слов анализируемого текста;
- перебор элементов созданных массивов;
- сопоставление (в процессе перебора) слов анализируемого текста с элементами массива данных, в котором хранится набор идентифицирующих форм глаголов и их соответствия определенным языкам.
Этот набор формируется на основе простого текстового файла со следующей структурой (приводится в сокращенном и упрощенном виде):
Figure 00000001
В данном примере для определения языка используются грамматические формы нескольких наиболее употребительных глаголов каждого идентифицируемого языка различных языковых групп Европы (без указания на эти группы). С помощью данного набора идентифицирующих элементов можно определить язык текста в случае, если формы глаголов в анализируемом тексте не имеют совпадений со словами других языков. В противном случае язык не будет определен. Для определения принадлежности языка текста к одной из языковых групп структура предлагаемого файла (набора) может быть изменена следующим образом (приводится в сокращенном и упрощенном виде):
Figure 00000002
Для краткости и наглядности здесь приведены только 4 языка славянской группы, без деления на подгруппы (восточнославянскую, южнославянскую и западнославянскую), которое может быть добавлено при необходимости, а названия языков указаны в скобках для уточнения принадлежности форм глаголов.
В результате анализа приведенного выше текста находят все имеющиеся в предложенном наборе формы, в данном случае глаголов «быть» и «мочь» (если он был включен в этот набор). Таким образом, при сравнении (сопоставлении) элементов текста (слов) и элементов предложенного набора будут выявлены следующие совпадения (выделены полужирным шрифтом):
«Споры или разногласия, которые могут возникнуть по настоящему договору или в связи с ним и не могут быть решены путем переговоров, подлежат рассмотрению в Арбитражном суде по месту нахождения Ответчика.»
Затем на основании первого приведенного выше варианта набора идентифицирующих элементов находится ассоциация с определенным языком, которому соответствуют совпавшие формы глаголов. И поскольку совпадения обнаружились с формами только одной группы глаголов, будет выдано название только одного языка - русского, что исключает возможность ошибки, получения вероятностного результата при определении языка текста либо неопределенности при его идентификации. При использовании второго предложенного варианта набора идентифицирующих элементов определяется языковая группа, к которой относится язык проанализированного текста. Наличие названий самих языков для определения языковой группы необязательны.
В приведенных примерах набора идентифицирующих элементов сознательно исключены совпадающие формы глаголов в близкородственных языках (например, южнославянских: сербского и болгарского), чтобы избежать ошибок определения языка, а также не используются семантически значимые части глаголов (например, корни или основы) для упрощения понимания сути предлагаемого способа. Однако, как явствует из приведенных наборов идентифицирующих элементов, наличие совпадений форм глаголов в языках одной группы (например, славянской) не повлияет на результат, если целью анализа текста является только определение языковой группы. В таком случае указания на конкретный язык могут быть исключены из набора идентифицирующих элементов, а совпадающие формы глаголов в близкородственных языках в него добавлены, чтобы улучшить результат определения языковой группы.
Также из приведенных примеров наборов идентифицирующих элементов следует, что предлагаемый способ определения языка или языковой группы не зависит от используемой в анализируемом тексте системы письма или фиксации информации, так как в самом наборе могут быть использованы различные системы письма и фиксации информации (например, слоговые знаки, идеограммы или комбинации точек шрифта Брайля).
Приведенный пример иллюстрирует практическое применение предлагаемого способа, а также суть использования и структуры описанного выше набора идентифицирующих элементов. От качества составления данного набора зависят эффективность и область применения предлагаемого способа, количество идентифицируемых языков и точность определения языка или языковой группы текста.
Таким образом, осуществляется возможность регулирования функциональности, точности определения и скорости работы с помощью расширения и уточнения или сокращения и упрощения предварительно составляемых наборов форм глаголов идентифицируемых языков или языковых групп. Способ не требует использования словарей определяемых языков и баз данных, а также предварительного обучения (например, изучения грамматики, создания дерева (или модели) грамматических зависимостей, сбора статистики по использованию комбинаций символов и т.д.) или предварительного анализа множества текстов на определяемых языках. Текст может быть представлен в различной воспринимаемой ЭВМ форме (например, в виде изображений символов, идеограмм, комбинаций точек шрифта Брайля и т.д. с применением одной из известных систем письменности, а также передан в виде блока (набора) сигналов, например, звуковых волн, азбуки Морзе и т.п.), что делает предлагаемый способ более универсальным. Количество идентифицирующих элементов и операций сравнения при использовании предлагаемого набора в сотни раз меньше, чем при использовании словарей, лингвистических моделей или последовательностей символов (байтовых последовательностей) известными способами.
Список использованных источников
1. Патент РФ №2251737. «Способ автоматического определения языка распознаваемого текста при многоязычном распознавании», G06K 9/68 (опубл. 10.05.2005).
2. Патент РФ №2500024. «Способ автоматизированного определения языка и(или) кодировки текстового документа», G06F 17/00 (опубл. 27.11.2013).

Claims (4)

  1. Способ автоматизированного определения языка или языковой группы текста, заключающийся в том, что:
  2. - создают набор идентифицирующих элементов каждого определяемого языка и сохраняют его на носителе информации;
  3. - производят сопоставление каждого идентифицирующего элемента данного набора с соответствующими элементами анализируемого текста;
  4. - при выявлении совпадений элементов из набора идентифицирующих элементов с соответствующими элементами анализируемого текста язык определяют по принадлежности совпавших элементов к определенному языку в наборе, отличающийся тем, что создают набор идентифицирующих элементов из групп наиболее употребительных глаголов для каждого определяемого языка или языковой группы, а в качестве идентифицирующих элементов используют грамматические формы и семантически значимые части глаголов каждого определяемого языка или языковой группы и сохраняют набор на носителе информации.
RU2015127427A 2015-07-08 2015-07-08 Способ автоматизированного определения языка или языковой группы текста RU2607989C1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2015127427A RU2607989C1 (ru) 2015-07-08 2015-07-08 Способ автоматизированного определения языка или языковой группы текста

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2015127427A RU2607989C1 (ru) 2015-07-08 2015-07-08 Способ автоматизированного определения языка или языковой группы текста

Publications (1)

Publication Number Publication Date
RU2607989C1 true RU2607989C1 (ru) 2017-01-11

Family

ID=58455873

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015127427A RU2607989C1 (ru) 2015-07-08 2015-07-08 Способ автоматизированного определения языка или языковой группы текста

Country Status (1)

Country Link
RU (1) RU2607989C1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2790026C2 (ru) * 2020-12-22 2023-02-14 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для обучения алгоритма машинного обучения для перевода

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2210809C2 (ru) * 2000-11-21 2003-08-20 Открытое акционерное общество "Московская телекоммуникационная корпорация" Способ упорядочения данных, представленных в текстовых информационных блоках данных
RU2251737C2 (ru) * 2002-10-18 2005-05-10 Аби Софтвер Лтд. Способ автоматического определения языка распознаваемого текста при многоязычном распознавании
US20060116861A1 (en) * 2004-11-30 2006-06-01 Palo Alto Research Center Systems and methods for user-interest sensitive note-taking
RU2500024C2 (ru) * 2011-12-27 2013-11-27 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ автоматизированного определения языка и (или) кодировки текстового документа
WO2015088985A2 (en) * 2013-12-09 2015-06-18 Google Inc. Systems and methods for providing context based definitions and translations of text

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2210809C2 (ru) * 2000-11-21 2003-08-20 Открытое акционерное общество "Московская телекоммуникационная корпорация" Способ упорядочения данных, представленных в текстовых информационных блоках данных
RU2251737C2 (ru) * 2002-10-18 2005-05-10 Аби Софтвер Лтд. Способ автоматического определения языка распознаваемого текста при многоязычном распознавании
US20060116861A1 (en) * 2004-11-30 2006-06-01 Palo Alto Research Center Systems and methods for user-interest sensitive note-taking
RU2500024C2 (ru) * 2011-12-27 2013-11-27 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ автоматизированного определения языка и (или) кодировки текстового документа
WO2015088985A2 (en) * 2013-12-09 2015-06-18 Google Inc. Systems and methods for providing context based definitions and translations of text

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RU 2500024 C2 (ООО "ЦЕНТР ИННОВАЦИЙ НАТАЛЬИ КАСПЕРСКОЙ"), 27.11.2013. RU 2251737 C2 (АБИ СОФТВЕР ЛТД.), 10.05.2005. RU 2210809 C2 (ООО "МОСКОВСКАЯ ТЕЛЕКОММУНИКАЦИОННАЯ КОРПОРАЦИЯ"), 20.08.2003. WO 2015/088985 A2 (GOOGLE INC.), 18.06.2015. US 2006/0116861 A1 (PALO ALTO RESEARCH CENTER), 01.06.2006. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2790026C2 (ru) * 2020-12-22 2023-02-14 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для обучения алгоритма машинного обучения для перевода

Similar Documents

Publication Publication Date Title
KR101083540B1 (ko) 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법
US7627562B2 (en) Obfuscating document stylometry
JP5356197B2 (ja) 単語意味関係抽出装置
CN106940788B (zh) 智能评分方法及装置、计算机设备及计算机可读介质
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
US9594742B2 (en) Method and apparatus for matching misspellings caused by phonetic variations
KR101500617B1 (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
CN111079412A (zh) 文本纠错方法及装置
Scherrer et al. Modernising historical Slovene words
Gorman et al. Improving homograph disambiguation with supervised machine learning
Zhang et al. HANSpeller++: A unified framework for Chinese spelling correction
Chen et al. A study of language modeling for Chinese spelling check
CN104239289A (zh) 音节划分方法和音节划分设备
Tursun et al. Noisy Uyghur text normalization
Kumar et al. Design and implementation of nlp-based spell checker for the tamil language
Sifat et al. Synthetic error dataset generation mimicking bengali writing pattern
Wang et al. Conditional Random Field-based Parser and Language Model for Tradi-tional Chinese Spelling Checker
Wu et al. CYUT-III team Chinese grammatical error diagnosis system report in NLPTEA-2018 CGED shared task
RU2607989C1 (ru) Способ автоматизированного определения языка или языковой группы текста
KR101686114B1 (ko) 애드인 프로그램을 활용한 한글문장단위 한자 자동변환 방법
Aziz et al. A hybrid model for spelling error detection and correction for Urdu language
Mandal et al. A systematic literature review on spell checkers for bangla language
Dahar et al. An efficient Sindhi spelling checker for Microsoft Word
Tongtep et al. Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction
Goonawardena et al. Automated spelling checker and grammatical error detection and correction model for sinhala language

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20180709