RU2639684C2 - Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты) - Google Patents

Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты) Download PDF

Info

Publication number
RU2639684C2
RU2639684C2 RU2014135303A RU2014135303A RU2639684C2 RU 2639684 C2 RU2639684 C2 RU 2639684C2 RU 2014135303 A RU2014135303 A RU 2014135303A RU 2014135303 A RU2014135303 A RU 2014135303A RU 2639684 C2 RU2639684 C2 RU 2639684C2
Authority
RU
Russia
Prior art keywords
phrase
source
target
word
features
Prior art date
Application number
RU2014135303A
Other languages
English (en)
Other versions
RU2014135303A (ru
Inventor
Илья Алексеевич Мельников
Original Assignee
Общество С Ограниченной Ответственностью "Яндекс"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Яндекс" filed Critical Общество С Ограниченной Ответственностью "Яндекс"
Priority to RU2014135303A priority Critical patent/RU2639684C2/ru
Priority to EP14900381.6A priority patent/EP3186804A4/en
Priority to PCT/IB2014/066336 priority patent/WO2016030730A1/en
Priority to US14/921,189 priority patent/US9898448B2/en
Publication of RU2014135303A publication Critical patent/RU2014135303A/ru
Application granted granted Critical
Publication of RU2639684C2 publication Critical patent/RU2639684C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

Изобретение относится к области обработки текстов. Технический результат заключается в обеспечении более точной обработки текста. Такой результат достигается за счет того, что способ обработки текстов, выполняемый на компьютерном устройстве, содержащем память, на которой хранятся одно или несколько правил трансформации фразы, которые были сгенерированы на основании анализа множеств признаков, в том числе множества признаков слова источника, сопоставленного со словом источника фразы-источника, и множества признаков целевого слова, сопоставленного с целевым словом целевой фразы, включает следующие этапы: получение текстовой фразы; определение того, что сходство текстовой фразы с фразой-источником превышает пороговое значение на основании по меньшей мере грамматического, или по меньшей мере семантического анализа текстовой фразы и фразы-источника; и применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы. 4 н. и 23 з.п. ф-лы, 10 ил.

Description

Область техники, к которой относится изобретение
Данная технология относится к способам обработки текстов, реализуемым на компьютере.
Уровень техники
Технологии преобразования текстовой информации в речевую принимают текстовые фразы в качестве входных данных и генерируют речевые фразы - аудиоданные, кодирующие звуковую речь и соответствующие текстовым фразам - которые могут затем быть «прочитаны вслух» посредством аудиоинтерфейса электронного устройства.
Обычно, текстовые фразы, которые должны быть прочитаны вслух этим способом, преобразовываются в речевые фразы пословно, так, чтобы каждое текстовое слово в текстовой фразе было преобразовано в речевое слово, а речевые слова располагались в таком же порядке, в каком располагаются соответствующие им текстовые слова в текстовой фразе. Таким образом, состав речевой фразы и состав текстовой фразы совпадают слово в слово. Например, текстовая фраза "There are 2000 jelly beans in the jar" (русск. «В банке - 2000 драже») может быть преобразована в речевую фразу, которая была бы произнесена "There are two thousand jelly beans in the jar" (русск. «В банке две тысячи драже»).
Однако в некоторых случаях контекст текстовой фразы является таковым, что речевая фраза, сгенерированная по пословному принципу, может звучать неестественно при произнесении вслух. Приведем простой пример: текстовая фраза "The Tate Modern opened in 2000" (русск. «Тейт Модерн открыт в 2000») может быть преобразована в речевую фразу, которая была бы произнесена как "The Tate Modern opened in two thousand" (русск. «Тейт Модерн открыт в две тысячи»), тогда как говорящий на английском языке сказал бы более естественно "The Tate Modern opened in the year two thousand" (русск. «Тейт Модерн открыт в двухтысячном году»). Следовательно, в некоторых случаях существующее пословное преобразование текстовых фраз приводит к неестественно звучащим речевым фразам, и может являться желательным модифицировать текстовые фразы, чтобы улучшить последующее преобразование текстовой информации в речевую в некоторых контекстах.
Таким образом, существует потребность в более совершенных способах обработки текстов.
Раскрытие изобретения
В данной технологии предложены реализуемые на компьютере способы генерации одного или нескольких правил трансформации фразы, которые могут затем быть применены к текстовой фразе для генерации трансформированной текстовой фразы. Правила трансформации фразы могут быть сгенерированы путем анализа признаков слов во фразе-источнике и признаков слов в целевой фразе для определения преобразования слов во фразе-источнике в слова в целевой фразе.
Возможно применение таких способов для генерации правил трансформации фразы, которые предварительно обрабатывают текстовые фразы в трансформированные текстовые фразы, которые могут затем быть преобразованы в речевые фразы при использовании существующих технологий преобразования текстовой информации в речевую. К примеру, одно или несколько правил трансформации фразы могут быть применены к текстовой фразе "The Tate Modern opened in 2000" {русск. «Тейт Модерн открыт в 2000») для трансформации ее в "The Tate Modern opened in the year two thousand" (русск. «Тейт Модерн открыт в двухтысячном году»). Преобразование трансформированной фразы может создать естественно звучащую речевую фразу.
Другим возможным применением таких способов является генерация правил трансформации фразы для уменьшения длины фраз при сохранении их основного смысла. Например, такие правила могут применяться к фразе "The proud eagle sailed high in the sky" (русск. «Гордый орел парил высоко в небе») для сокращения ее до "The bird flew in the sky" (русск. «Птица летела в небе»). При повторении этого процесса к фразам документа может быть создан автореферат документа.
Специалистам вполне понятно, что описанные выше возможные варианты применения - это лишь два примера среди многих других.
Таким образом, в одном из вариантов осуществления данной технологии предложен способ обработки текстов, выполняемый на компьютерном устройстве, который включает следующие этапы: понимание смысла фразы-источника, состоящей из слов источника; понимание смысла целевой фразы, состоящей из целевых слов; установление соответствия множества признаков слов источника для каждого слова источника; установление соответствия множества признаков целевых слов для каждого целевого слова; анализирование множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова; и на основании преобразования, генерация одного или нескольких правил трансформации фразы, применимых к фразе-источнику, для трансформации ее в целевую фразу.
Возможен вариант осуществления способа, в котором на этапе анализирования множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова определяют сходства между каждым множеством признаков слов источника и каждым множеством признаков целевых слов.
Возможен вариант осуществления способа, в котором: каждое из множеств признаков слов источника включает один или несколько грамматических признаков слова источника, к которому относится это множество признаков; каждое из множеств признаков целевых слов включает один или несколько грамматических признаков целевого слова, к которому относится это множество признаков; и при определении сходства каждого из множеств признаков слов источника с каждым из множеств признаков целевых слов выполняют сравнение соответствующих грамматических признаков каждого из слов источника с соответствующими грамматическими признаками каждого из целевых слов.
Возможен вариант осуществления способа, в котором: каждое из множеств признаков слов источника включает значение слова источника, к которому относится это множество признаков; каждое из множеств признаков целевых слов включает значение целевого слова, к которому относится это множество признаков; и при определении сходства каждого из множеств признаков слов источника с каждым из множеств признаков целевых слов выполняют определение сходства соответствующего значения каждого из слов источника с соответствующим значением каждого из целевых слов.
Возможен вариант осуществления способа, в котором: на этапе анализирования множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова дополнительно выполняют этап подбора одному из множеств признаков слова источника наиболее подобного множества признаков из множеств признаков целевого слова; и на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию первого правила трансформации фразы, применимого к фразе-источнику, которое трансформирует слово источника, соотнесенное с одним из множеств признаков слова источника, в целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова.
Возможен вариант осуществления способа, в котором: слово источника, соотнесенное с одним из множеств признаков слова источника, и целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова, имеют одинаковый корень; и первое правило трансформации фразы применяют к фразе-источнику для видоизменения формы слова источника в форму целевого слова.
Возможен вариант осуществления способа, в котором на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию второго правила трансформации фразы, применяемого к фразе-источнику, которое удаляет по меньшей мере одно слово из фразы-источника.
Возможен вариант осуществления способа, в котором на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию третьего правила трансформации фразы, применяемого к фразе-источнику для добавления в нее по меньшей мере одного слова.
Возможен вариант осуществления способа, в котором дополнительно выполняют следующие этапы: понимание смысла текстовой фразы; и применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
Возможен вариант осуществления способа, в котором текстовая фраза отличается от фразы-источника, а до применения одного или нескольких правил трансформации фразы к текстовой фразе дополнительно выполняют этап определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение.
Возможен вариант осуществления способа, в котором на этапе определения того, что сходство текстовой фразы с фразой-источником превышает пороговое значение, выполняют по меньшей мере грамматический, или по меньшей мере семантический анализ текстовой фразы и фразы-источника.
Некоторые варианты осуществления данной технологии просто применяют одно или несколько правил трансформации фразы, которые были ранее сгенерированы (напр. другим компьютерным устройством). Таким образом, в другом варианте осуществления данной технологии предложен способ обработки текстов, выполняемый на компьютерном устройстве, содержащем память, на которой хранятся одно или несколько правил трансформации фразы, которые были сгенерированы на основании анализа множеств признаков, в том числе множества признаков слова источника, сопоставленного с словом источника фразы-источника, и множества признаков целевого слова, сопоставленного с целевым словом целевой фразы, который включает следующие этапы:
понимание смысла текстовой фразы;
определение того, что сходство текстовой фразы с фразой-источником превышает пороговое значение; и
применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
Возможен вариант осуществления способа, в котором на этапе определения того, что сходство текстовой фразы с фразой-источником превышает пороговое значение, выполняют по меньшей мере грамматический, или по меньшей мере семантический анализ текстовой фразы и фразы-источника.
В другом варианте осуществления данной технологии предложен постоянный машиночитаемый носитель, на котором хранятся программные команды, при выполнении которых одним или несколькими процессорами одного или нескольких электронных устройств осуществляется один или несколько вышеописанных способов. Таким образом, в различных вариантах осуществления настоящей технологии предложен постоянный машиночитаемый носитель, хранящий программные команды для обработки текстов, обеспечивающие, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством:
понимания смысла фразы-источника, состоящей из слов источника;
понимания смысла целевой фразы, состоящей из целевых слов;
установления соответствия множества признаков слов источника для каждого слова источника;
установления соответствия множества признаков целевых слов для каждого целевого слова;
анализа множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова; и
генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику, для трансформации ее в целевую фразу, на основании преобразования.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: определения сходства между каждым множеством признаков слов источника и каждым множеством признаков целевых слов при анализе множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: определения сходства каждого из множеств признаков слов источника с каждым из множеств признаков целевых слов включает сравнение соответствующих грамматических признаков каждого из слов источника с соответствующими грамматическими признаками каждого из целевых слов.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: определения сходства соответствующего значения каждого из слов источника с соответствующим значением каждого из целевых слов при определении сходства каждого из множеств признаков слов источника с каждым из множеств признаков целевых слов.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: подбора одному из множеств признаков слова источника наиболее подобного множества признаков из множеств признаков целевого слова при анализе множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова; и генерации первого правила трансформации фразы, применимого к фразе-источнику, которое трансформирует слово источника, соотнесенное с одним из множеств признаков слова источника, в целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова при генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику, для трансформации ее в целевую фразу.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: применения первого правила трансформации фразы к фразе-источнику для видоизменения формы слова источника в форму целевого слова.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: генерации второго правила трансформации фразы, применяемого к фразе-источнику, которое удаляет по меньшей мере одно слово из фразы-источника при генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: генерации третьего правила трансформации фразы, применяемого к фразе-источнику для добавления в нее по меньшей мере одного слова при генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: понимания смысла текстовой фразы; и применения одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение до применения одного или нескольких правил трансформации фразы к текстовой фразе.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: по меньшей мере грамматического, или по меньшей мере семантического анализа текстовой фразы и фразы-источника при определении того, что сходство текстовой фразы с фразой-источником превышает пороговое значение.
В другом варианте осуществления данной технологии предложен постоянный машиночитаемый носитель, на котором хранятся одно или несколько правил трансформации фразы - сгенерированные на основе анализа множества признаков, в том числе множества признаков слова источника, сопоставленного со словом источника фразы-источника, и множества признаков целевого слова, сопоставленного с целевым словом целевой фразы, - и программные команды, обеспечивающие, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: понимания смысла текстовой фразы; определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение; и применения одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: по меньшей мере грамматического, или по меньшей мере семантического анализа текстовой фразы и фразы-источника при определении того, что сходство текстовой фразы с фразой-источником превышает пороговое значение.
В контексте настоящего описания, если не указано иное, термин «компьютерное устройство» включает любое аппаратное и/или программное обеспечение, подходящее для решения соответствующей задачи. Таким образом, некоторыми примерами компьютерных устройств, не имеющими ограничительного характера, могут служить компьютерные процессоры, компьютерные системы (один или несколько серверов, настольные компьютеры, ноутбуки, нетбуки и т.п.), смартфоны, планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы.
В контексте настоящего описания, если не указано иное, следует понимать, что первое устройство «находится в связи» со вторым устройством, если каждое из устройств способно отправлять информацию другому устройству и получать информацию от него через любую физическую среду или комбинацию физических сред, на любое расстояние и с любой скоростью. В качестве примера, не имеющего ограничительного характера, два цифровых электронных устройства могут быть связаны по компьютерной сети, например, по сети Интернет. В качестве другого примера, не имеющего ограничительного характера, устройства могут работать на одном и том же цифровом электронном аппаратном обеспечении, в этом случае связь может осуществляться с помощью любых средств, доступных на подобном цифровом электронном аппаратном обеспечении, например, с помощью межпроцессного взаимодействия.
В контексте настоящего описания, если не указано иное, термин «машиночитаемый носитель» включает носители абсолютно любого типа и характера, например, помимо прочего, ОЗУ, ПЗУ, диски (компакт диски, DVD-диски, гибкие магнитные диски, жесткие диски и т.д.), USB флеш-накопители, карты памяти, твердотельные накопители и накопители на магнитной ленте.
В контексте настоящего описания, если не указано иное, «указание» информационного элемента может представлять собой сам информационный элемент или указатель, отсылку, ссылку или другой косвенный способ, позволяющий получателю указания определить местоположение сети, памяти, базы данных или местоположение другого машиночитаемого носителя, из которого может быть извлечен информационный элемент. Например, указание файла может включать в себя сам файл (т.е. его содержимое), или же оно может являться уникальным дескриптором файла, относящим файл к определенной файловой системе, или какими-либо другими средствами, которые направляют получателя указания к сетевой папке, адресу памяти, таблице в базе данных или в другое местоположение, в котором можно получить доступ к файлу. Специалистам в данной области техники вполне понятно, что степень точности, необходимая для такого указания, зависит от степени первоначального понимания того, как должна быть интерпретирована информация, которой обмениваются отправитель и получатель указания. Например, если до установления связи между отправителем и получателем понятно, что указание информационного элемента будет иметь вид ключа базы данных для элемента в определенной таблице заданной базы данных, содержащей информационный элемент, то отправка ключа базы данных - это все, что необходимо для эффективной передачи информационного элемента получателю, несмотря на то, что сам информационный элемент не передавался между отправителем и получателем указания.
В контексте настоящего описания, если не указано иное, слова «первый», «второй», «третий» и т.д. используются в качестве прилагательных исключительно для того, чтобы различать существительные, которые они определяют, а не с целью описания какой-либо конкретной связи между этими существительными. Так, например, следует иметь в виду, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо определенного порядка, типа события, хронологии, иерархии или ранжирования (например) серверов/между серверами, равно как и их использование (само по себе) не подразумевает, что некий «второй сервер» должен обязательно существовать в той или иной ситуации. Более того, как указано в этом документе в других контекстах, ссылка на «первый» элемент и «второй» элемент не исключает возможности того, что эти два элемента являются одним и тем же объектом реального мира. Так, например, в некоторых случаях, «первый» сервер и «второй» сервер могут являться одним и тем же программным и/или аппаратным обеспечением, а в других случаях они могут являться различным программным и/или аппаратным обеспечением.
Каждый вариант осуществления данной технологии включает по меньшей мере одну из вышеупомянутых целей. Следует иметь в виду, что некоторые варианты осуществления данной технологии, полученные в результате попыток достичь вышеупомянутой цели, могут удовлетворять и другим целям, отдельно не указанным здесь.
Дополнительные и/или альтернативные признаки, особенности и преимущества вариантов осуществления данной технологии станут очевидными из последующего описания, прилагаемых чертежей и прилагаемой формулы изобретения.
Краткое описание чертежей
Для лучшего понимания настоящей технологии, а также других ее особенностей и дополнительных признаков, дана ссылка на следующее описание, которое должно использоваться вместе с прилагаемыми чертежами, на которых:
на Фиг. 1 показана схема компьютерной системы, пригодной для осуществления данной технологии и/или использования в связи с вариантами осуществления данной технологии.
на Фиг. 2 показана структурная схема примера осуществления данной технологии.
на Фиг. 3 и 4 показаны схемы, иллюстрирующие фразу фразу-источник и целевую фразу, используемые с примером осуществления данной технологии.
на Фиг. 5, 6, 7, 8 показаны схемы, иллюстрирующие различные слова и множества признаков этих слов согласно примеру осуществления данной технологии.
на Фиг. 9 показана схема, иллюстрирующая преобразование фразу-источник и целевую фразу согласно примеру осуществления данной технологии.
на Фиг. 10 показана блок-схема, иллюстрирующая этапы способа, который является вариантом осуществления данной технологии.
Осуществление изобретения
Примеры и используемые здесь условные конструкции предназначены, главным образом, для того, чтобы облегчить понимание принципов данной технологии, а не для установления границ ее объема. Ясно, что специалисты могут разработать различные устройства, отдельно не описанные и не показанные здесь, но которые, тем не менее, воплощают собой принципы данной технологии и находятся в пределах ее объема.
Кроме того, для помощи в понимании, следующее описание может описывать относительно упрощенные варианты осуществления данной технологии. Как будет понятно специалистам, различные варианты осуществления данной технологии могут обладать большей сложностью.
В некоторых случаях могут быть также изложены примеры изменений данной технологии. Это делается лишь для того, чтобы облегчить понимание, а не для определения объема или границ настоящей технологии. Эти изменения не являются исчерпывающим списком, и специалисты могут вносить другие изменения, остающиеся в границах объема настоящей технологии. Кроме того, те случаи, где не были описаны примеры изменений элемента, не следует интерпретировать так, что изменения не возможны, или то, что описано, является единственным вариантом осуществления этого элемента настоящей технологии.
Более того, подразумевается, что все заявленные здесь варианты осуществления технологии, равно как и конкретные их примеры, охватывают ее структурные и функциональные эквиваленты, вне зависимости от того, известны ли они на данный момент или будут разработаны в будущем. Таким образом, специалистам вполне понятно, что представленные здесь блок-схемы представляют собой концептуальные иллюстративные схемы, воплощающие принципы данной технологии. Аналогично, любые блок-схемы, структурные схемы, диаграммы состояний, псевдокоды и т.п. представляют собой различные процессы, которые могут быть представлены на машиночитаемом носителе и, таким образом, выполняться компьютером или процессором, вне зависимости от того, показан ли явно подобный компьютер или процессор, или нет.
Функции различных элементов, показанных на фигурах, в том числе любого функционального блока, обозначенного как «процессор», могут быть обеспечены с помощью специализированного аппаратного обеспечения, а также аппаратного обеспечения, способного выполнять подходящее программное обеспечение. Когда речь идет о процессоре, функции могут обеспечиваться одним выделенным процессором, одним общим процессором или множеством индивидуальных процессоров, некоторые из которых могут быть общими. Более того, использование терминов «процессор» или «контроллер» не подразумевает исключительно аппаратное обеспечение, способное выполнять программное обеспечение, и может включать, помимо прочего, оборудование с цифровым сигнальным процессором (ЦСП), сетевой процессор, интегральную схему специального назначения {англ. ASIC), программируемую пользователем вентильную матрицу (ППВМ), постоянное запоминающее устройство (ПЗУ) для хранения программного обеспечения, оперативное запоминающее устройство (ОЗУ) и энергонезависимое запоминающее устройство. Также может быть включено другое аппаратное обеспечение, стандартное и/или заказное.
Программные модули, или просто, модули, представляющие собой программное обеспечение, могут быть представлены здесь в качестве любой комбинации элементов блок-схемы или других элементов, указывающих на выполнение этапов процесса и/или на текстовое описание. Подобные модули могут выполняться аппаратным обеспечением, показанным в явно выраженной или в неявной форме.
Принимая во внимание эти основные принципы, далее будут рассмотрены некоторые примеры, не имеющие ограничительного характера, которые иллюстрируют различные варианты осуществления данной технологии.
На Фиг. 1 изображена компьютерная система 100, пригодная для использования с некоторыми вариантами осуществления данной технологии, также система 100 содержит различные аппаратные компоненты, в том числе один или несколько одноядерных или многоядерных процессоров, собирательно обозначенных как «процессор 110», твердотельный накопитель 120, оперативное запоминающее устройство 130, интерфейс дисплея 140 и интерфейс ввода/вывода 150. Сообщение между различными компонентами компьютерной системы 100 может осуществляться при помощи одной или нескольких внутренних и/или внешних шин 160 (напр. шины PCI, универсальной последовательной шины, шины стандарта IEEE 1394 ("Firewire"), шины SCSI, шины стандарта Serial-ATA и т.д.), с которыми электронно соединены различные аппаратные компоненты.
Интерфейс дисплея 140 может быть соединен с монитором 142 (напр. при помощи HDMI-кабеля 144), который виден пользователю 170, а интерфейс ввода/вывода 150 может быть соединен с клавиатурой 151 (напр. при помощи USB-кабеля 153) и мышью 152 (напр. при помощи USB-кабеля 154); как клавиатура 151, так и мышь 152 используются пользователем 170.
Согласно вариантам осуществления данной технологии твердотельный накопитель 120 хранит программные команды, пригодные для загрузки в оперативное запоминающее устройство (ОЗУ) 130 и выполнения процессором 110 для обработки текста. Программные команды могут быть, к примеру, частью библиотеки или приложения.
На Фиг. 2 представлена структурная схема примера осуществления данной технологии, которая содержит модуль преобразования слов 230 и модуль генерации правил 250. Модуль преобразования слов 230 принимает фразу-источник 210 и целевую фразу 220 в качестве входных данных и устанавливает соответствие 240 слов источника фразы-источника 210 целевым словам целевой фразы 220. Модуль генерации правил получает преобразование 240 в качестве входной информации и генерирует одно или несколько правил трансформации фразы 260 в качестве выходной информации.
На Фиг. 3 показан пример фразы-источника 210, "The proud eagle sailed high in the sky" (русск. «Гордый орел парил высоко в небе»), которая состоит из слов источника 211-218.
На Фиг. 4 показан пример целевой фразы 220, "The bird flew in the sky" (русск. «Птица летела в небе»), которая состоит из целевых слов 221-226.
На Фиг. 5 показано множество признаков слова источника 213, "eagle" (русск. «орел»), из фразы-источника 210, включающее грамматические признаки 2131 и значение 2132 слова источника 213. Грамматические признаки 2131 включают часть речи 21311 слова источника 213 со значением «имя существительное» в этом случае. Значение 2132 содержит одно или несколько значений, кодирующих семантические признаки слова источника 213, например вектор слова, сгенерированный хорошо известным алгоритмом word2vec.
Подобным образом, на Фиг. 6 показано множество признаков целевого слова 222, "bird" (русск. «птица»), из целевой фразы 220, включающее грамматические признаки 2221 и значение 2222 целевого слова 222. Грамматические признаки 2221 включают часть речи 22211 слова источника 222, которая также имеет значение «имя существительное». Значение 2222 содержит одно или несколько значений, кодирующих семантические признаки слова источника 222, например вектор слова, сгенерированный хорошо известным алгоритмом word2vec. В тех вариантах осуществления, в которых значение 2132 слова источника 213 и значение 2222 целевого слова 222 представлены в виде векторов, может измеряться расстояние между этими векторами для определения семантического сходства между словом источника 213 и целевым словом 222.
Подобным образом, на Фиг. 7 показано множество признаков слова источника 214, "sailed" (русск. «
Figure 00000001
»), из фразы-источника 210, включающее грамматические признаки 2141 и значение 2142 слова источника 214. Грамматические признаки 2141 включают часть речи 21411 слова источника 214 (со значением «глагол») и время глагола 21412 (со значением «прошедшее»). Так же, как и выше, значение 2142 содержит одно или несколько значений, кодирующих семантические признаки слова источника 214.
На Фиг. 8 показано множество признаков целевого слова 223, "flew" (русск. «летела»), из целевой фразы 220, включающее грамматические признаки 2231 и значение 2232 целевого слова 223. Грамматические признаки 2231 включают часть речи 22311 слова источника 223 (со значением «глагол») и время глагола 22312 (со значением «прошедшее»). Как сказано выше, в некоторых вариантах осуществления, значения 2142 и 2232 представлены в виде векторов, а расстояние между ними может измеряться для определения семантического сходства между словом источника 214 и целевым словом 223.
На Фиг. 9 показано преобразование 240 слов источника 211-218 фразы-источника 210 на целевые слова 221-226 целевой фразы 220. Слово источника 211 ("the" - определенный артикль) преобразуется в целевое слово 221 ("the"), слово источника 213 ("eagle" - «орел») преобразуется в целевое слово 222 ("bird" - «птица»), слово источника 214 ("sailed" - «
Figure 00000002
») преобразуется в целевое слово 223 ("flew" - «летела»), слово источника 216 ("in" - «в») преобразуется в целевое слово 224 ("in"), слово источника 217 ("the") преобразуется в целевое слово 225 ("the"), а слово источника 218 ("sky" - «небо») преобразуется в целевое слово 226 ("sky"). Можно заметить, что ни слово источника 212 ("proud" - «гордый») ни слово источника 215 ("high" - «высоко») не преобразуются в какое-либо из целевых слов 221-226. Вместо этого преобразование 240 указывает на то, что эти слова источника 212 и 216 должны опускаться. Результатом этого является то, что целевая фраза 220 содержит только шесть слов, на два меньше, чем фраза-источник 210, которая содержит восемь слов.
В противоположность этому в других вариантах осуществления (не показаны) преобразование 240 может указывать на то, что целевые слова должны быть добавлены во фразу-источник 210 для генерации целевой фразы 220. Это было бы верным, например, в случае, описанном выше в уровне техники, в котором фраза-источник "The Tate Modern opened in 2000" (русск. «Тейт Модерн открыт в 2000») преобразуется в целевую фразу "The Tate Modern opened in the year two thousand" (русск. «Тейт Модерн открыт в двухтысячном году») с добавлением слов "the year" (русск. «году») для генерации целевой фразы.
Фиг. 10 представляет собой блок-схему, иллюстрирующую этапы примера способа 300, который является вариантом осуществления данной технологии. Способ 300 может выполняться, например, процессором 110 компьютерной системы 100, изображенной на Фиг. 1.
На шаге 310 выполняется понимание смысла фразы-источника 210, состоящей из слов источника 211-218. В качестве примеров, не имеющих ограничительного характера, фраза-источник 210 может быть получена от пользователя 170 на Фиг. 1, который может набрать входную фразу 210 на клавиатуре 151, или же фраза-источник 210 может быть получена через сетевой интерфейс компьютерной системы 100 (не показан).
На шаге 320 выполняется понимание смысла целевой фразы 220, состоящей из целевых слов 221-226. В качестве примеров, не имеющих ограничительного характера, целевая фраза 220 может быть опять-таки получена от пользователя 170 через клавиатуру 151, или через сетевой интерфейс компьютерной системы 100 (не показан).
На шаге 330 выполняется установление соответствия множества признаков для каждого из слов источника 211-218. Множество признаков каждого из слов источника 211-218 может включать один или несколько грамматических признаков (напр. 2131 на Фиг. 5) этого слова источника, значение (напр. 2132 на Фиг. 5) этого слова источника и/или один или несколько других признаков (не указаны) этого слова источника.
Шаг 330 может включать определение грамматических признаков слов источника 211-218 посредством грамматического анализа слов источника 211-218, который может дополнительно включать анализ контекста, в котором используются слова источника 211-218 (т.е. сама фраза-источник 210 и, дополнительно, какой-либо дополнительный контекстуальный текст, находящийся перед и/или после фразы-источника 210 в более объемном тексте, например документе).
Шаг 330 может включать определение значений слов источника 211-218 посредством семантического анализа слов источника 211-218 (напр. при помощи существующего алгоритма, например word2vec).
На шаге 340 выполняется установление соответствия множества признаков для каждого из целевых слов 221-226. Множество признаков каждого из целевых слов 221-226 может включать один или несколько грамматических признаков (напр. 2221 на Фиг. 6) этого целевого слова, значение (напр. 2222 на Фиг. 6) этого целевого слова и/или один или несколько других признаков (не указаны) этого целевого слова.
Шаг 340 может включать определение грамматических признаков целевых слов 221-226 посредством грамматического анализа целевых слов 221-226, который может дополнительно включать анализ контекста, в котором используются слова источника 221-226 (т.е. сама целевая фраза 210 и, дополнительно, какой-либо дополнительный контекстуальный текст, находящийся перед и/или после целевой фразы 210 в более объемном тексте, например документе).
Шаг 340 может включать определение значений целевых слов 221-226 посредством семантического анализа целевых слов 221-226 (напр. при помощи существующего алгоритма, например word2vec).
На шаге 350 выполняется анализ множеств признаков слов источника и множеств признаков целевых слов для определения преобразования 240 слов источника (напр. 211-218) фразы-источника 210 на целевые слова (напр. 221-228) целевой фразы 220. Это может включать определение сходства между каждым из множеств слов источника и каждым из множеств целевых слов. В тех вариантах осуществления, в которых множества признаков одного или нескольких слов источника (напр. 211-218) содержат грамматические признаки слов источника, определение сходства множеств признаков слов источника с множествами признаков целевых слов может включать сравнение соответствующих грамматических признаков каждого из слов источника с соответствующими грамматическими признаками каждого из целевых слов. В тех вариантах осуществления, в которых множества признаков одного или нескольких слов источника (напр. 211-218) содержат значения слов источника, определение сходства множеств признаков слов источника с множествами признаков целевых слов может включать определение сходства соответствующего значения каждого из слов источника с соответствующим значением каждого из целевых слов.
Шаг 350 может включать осуществление выбора наиболее подобного множества признаков целевого слова, относящегося к целевым словам (напр. 221-226) целевой фразы 220, для одного из множеств признаков слова источника, относящегося к словам-источникам (напр. к одному из 211-218) фразы-источника 210. Самое подобное из множеств признаков целевых слов может являться множеством, которое имеет грамматические признаки, наиболее подобные грамматическим признакам слов источника, или множеством, которое имеет значение, наиболее подобное значению слов источника, или множеством, которое имеет другой признак, наиболее подобный этому признаку слов источника, или множеством, которое имеет самое высокое средневзвешенное значение сходства различных признаков с различными признаками множества слов источника.
На шаге 360 выполняется генерация одного или нескольких правил трансформации фразы 260, применимых к фразе-источнику 210, для трансформации фразы-источника 210 в целевую фразу 220 на основании преобразования 240. Например, может быть проанализировано преобразование 240, изображенное на Фиг. 9, для определения того, что, т.к. слово источника 212 ("proud", русск. «гордый») не преобразуется в какое-либо из целевых слов 221-226, должно генерироваться правило трансформации фразы для удаления второго слова (напр. 212) фразы-источника 210. В других случаях, как в примере с «Тейт Модерн», может генерироваться правило трансформации фразы для добавления одного или нескольких слов (напр. "the year", русск. «году») к фразе.
В других случаях (не показаны) одно или несколько сгенерированных правил трансформации фразы 260 могут использоваться для трансформации слова источника, относящегося к одному из множеств признаков целевого слова, в целевое слово, относящегося к наиболее подобному из множеств признаков целевого слова. В некоторых таких случаях слово источника и целевое слово, в которое должно быть трансформировано слово источника, имеют одинаковый корень, и правило трансформации фразы изменяет лишь форму слова источника в форму целевого слова. Например, время глагола слова источника "flying" (русск. «летает») может быть изменено на время глагола целевого слова "flew" (русск. «летал»). В некоторых языках, например русском, имена существительные подвергаются трансформациям формы в зависимости от контекста, в котором они используются (напр. в зависимости от того, является ли существительное субъектом или объектом действия). Таким образом, правила трансформации фразы 260, которые изменяют формы слов источника в формы целевых слов, могут использоваться для осуществления структурных изменений фразы-источника 210 для трансформации ее в целевую фразу 220.
В некоторых вариантах осуществления после того, как были сгенерированы одно или несколько правил трансформации фразы 260, они могут применяться к текстовой фразе, которая может быть или может не быть идентичной фразе-источнику 210, на основании которой были сгенерированы одно или несколько правил трансформации фразы 260. Следовательно, различные дополнительные варианты осуществления способа 300 могут включать этапы понимания смысла текстовой фразы (напр. получения текстовой фразы от пользователя 170 через клавиатуру 151 или сетевой интерфейс компьютерной системы 100), а затем применения одного или нескольких правил трансформации фразы 160 к текстовой фразе для генерации трансформированной текстовой фразы.
В тех вариантах осуществления, в которых текстовая фраза не идентична фразе-источнику 210, способ 300 может дополнительно включать этап определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение. Например, на основании семантического анализа фраза "The Tate Modern was opened to the public in 2000" (русск. «Тейт Модерн был открыт для публики в 2000») может считаться в достаточной степени подобной фразе-источнику "The Tate Modern opened in 2000" {русск. «Тейт Модерн открыт в 2000»), чтобы применялось правило трансформации фразы для добавления "the year" (русск. «году») перед «2000», с тем чтобы сгенерировать трансформированную текстовую фразу "The Tate Modern was opened to the public in the year 2000" (русск. «Тейт Модерн был открыт для публики в 2000 году»).
Специалистам вполне понятно, что возможны изменения и улучшения описанных выше вариантов осуществления данной технологии. Предшествующее описание имеет иллюстративный, а не ограничительный характер. Соответственно, объем данной технологии ограничивается только объемом прилагаемой формулы изобретения.

Claims (72)

1. Способ обучения для привидения фразы-источника в целевую фразу для последующей обработки текстов, выполняемый на компьютерном устройстве, включающий следующие этапы:
получение фразы-источника, состоящей из слов источника;
получение целевой фразы, состоящей из целевых слов;
установление соответствия множества признаков слов источника для каждого слова источника;
установление соответствия множества признаков целевых слов для каждого целевого слова;
анализирование множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова, включающее
определение сходства между каждым множеством признаков слов источника и каждым множеством признаков целевых слов, где
каждое из множеств признаков слов источника включает один или несколько грамматических признаков слова источника, к которому относится это множество признаков;
каждое из множеств признаков целевых слов включает один или несколько грамматических признаков целевого слова, к которому относится это множество признаков;
причем при определении сходства каждого из множеств признаков слов источника с каждым из множеств признаков целевых слов выполняют сравнение соответствующих грамматических признаков каждого из слов источника с соответствующими грамматическими признаками каждого из целевых слов; и,
на основании преобразования, генерация одного или нескольких правил трансформации фразы, применимых к фразе-источнику, для трансформации ее в целевую фразу.
2. Способ по п. 1, в котором:
каждое из множеств признаков слов источника включает значение слова источника, к которому относится это множество признаков;
каждое из множеств признаков целевых слов включает значение целевого слова, к которому относится это множество признаков; и
при определении сходства каждого из множеств признаков слов источника с каждым из множеств признаков целевых слов выполняют определение сходства соответствующего значения каждого из слов источника с соответствующим значением каждого из целевых слов.
3. Способ по п. 1, в котором:
на этапе анализирования множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова дополнительно выполняют этап подбора одному из множеств признаков слова источника наиболее подобного множества признаков из множеств признаков целевого слова; и
на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию первого правила трансформации фразы, применимого к фразе-источнику, которое трансформирует слово источника, соотнесенное с одним из множеств признаков слова источника, в целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова.
4. Способ по п. 2, в котором:
на этапе анализирования множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова дополнительно выполняют этап подбора одному из множеств признаков слова источника наиболее подобного множества признаков из множеств признаков целевого слова; и
на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию первого правила трансформации фразы, применимого к фразе-источнику, которое трансформирует целевое слово, соотнесенное с одним из множеств признаков слова источника, в целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова.
5. Способ по п. 3, в котором:
слово источника, соотнесенное с одним из множеств признаков слова источника, и целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова, имеют одинаковый корень; и
первое правило трансформации фразы применяют к фразе-источнику для видоизменения формы слова источника в форму целевого слова.
6. Способ по п. 4, в котором:
слово источника, соотнесенное с одним из множеств признаков слова источника, и целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова, имеют одинаковый корень; и
первое правило трансформации фразы применяют к фразе-источнику для видоизменения формы слова источника в форму целевого слова.
7. Способ по п. 1, в котором на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию второго правила трансформации фразы, применяемого к фразе-источнику, которое удаляет по меньшей мере одно слово из фразы-источника.
8. Способ по п. 1, в котором на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию третьего правила трансформации фразы, применяемого к фразе-источнику для добавления в нее по меньшей мере одного слова.
9. Способ по п. 7, в котором на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию третьего правила трансформации фразы, применяемого к фразе-источнику для добавления в нее по меньшей мере одного слова.
10. Способ по п. 1, в котором дополнительно выполняют следующие этапы:
получение текстовой фразы; и
применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
11. Способ по п. 7, в котором дополнительно выполняют следующие этапы:
получение текстовой фразы; и
применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
12. Способ по п. 9, в котором дополнительно выполняют следующие этапы:
получение текстовой фразы; и
применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
13. Способ по п. 10, в котором текстовая фраза отличается от фразы-источника, а до применения одного или нескольких правил трансформации фразы к текстовой фразе дополнительно выполняют этап определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение.
14. Способ по любому из пп. 11-12, в котором текстовая фраза отличается от фразы-источника, а до применения одного или нескольких правил трансформации фразы к текстовой фразе дополнительно выполняют этап определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение.
15. Способ по п. 13, в котором на этапе определения того, что сходство текстовой фразы с фразой-источником превышает пороговое значение, выполняют по меньшей мере грамматический или по меньшей мере семантический анализ текстовой фразы и фразы-источника.
16. Способ по п. 14, в котором на этапе определения того, что сходство текстовой фразы с фразой-источником превышает пороговое значение, выполняют по меньшей мере грамматический или по меньшей мере семантический анализ текстовой фразы и фразы-источника.
17. Способ обработки текстов, выполняемый на компьютерном устройстве, содержащем память, на которой хранятся одно или несколько правил трансформации фразы, которые были сгенерированы на основании анализа множеств признаков, в том числе множества признаков слова источника, сопоставленного со словом источника фразы-источника, и множества признаков целевого слова, сопоставленного с целевым словом целевой фразы, который включает следующие этапы:
получение текстовой фразы;
определение того, что сходство текстовой фразы с фразой-источником превышает пороговое значение на основании по меньшей мере грамматического или по меньшей мере семантического анализа текстовой фразы и фразы-источника; и применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
18. Постоянный машиночитаемый носитель, хранящий программные команды обучения для привидения фразы-источника в целевую фразу для последующей обработки текстов, команды следующей обработки текстов, команды, обеспечивающие, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством:
получения фразы-источника, состоящей из слов источника;
получения целевой фразы, состоящей из целевых слов;
установления соответствия множества признаков слов источника для каждого слова источника;
установления соответствия множества признаков целевых слов для каждого целевого слова;
анализа множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова, включающего:
определение сходства между каждым множеством признаков слов источника и каждым множеством признаков целевых слов при анализе множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова, включающее сравнение соответствующих грамматических признаков каждого из слов источника с соответствующими грамматическими признаками каждого из целевых слов; и
генерацию одного или нескольких правил трансформации фразы, применимых к фразе-источнику, для трансформации ее в целевую фразу, на основании преобразования.
19. Носитель по п. 18, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством
определения сходства соответствующего значения каждого из слов источника с соответствующим значением каждого из целевых слов при определении сходства каждого из множеств признаков слов источника с каждым из множеств признаков целевых слов.
20. Носитель по п. 18, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством:
подбора одному из множеств признаков слова источника наиболее подобного множества признаков из множеств признаков целевого слова при анализе множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова; и
генерации первого правила трансформации фразы, применимого к фразе-источнику, которое трансформирует слово источника, соотнесенное с одним из множеств признаков слова источника, в целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова при генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику, для трансформации ее в целевую фразу.
21. Носитель по п. 20, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством
применения первого правила трансформации фразы к фразе-источнику для видоизменения формы слова источника в форму целевого слова.
22. Носитель по п. 18, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством генерации второго правила трансформации фразы, применяемого к фразе-источнику, которое удаляет по меньшей мере одно слово из фразы-источника при генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу.
23. Носитель по п. 18, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством генерации третьего правила трансформации фразы, применяемого к фразе-источнику для добавления в нее по меньшей мере одного слова при генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу.
24. Носитель по п. 18, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством:
получения текстовой фразы; и
применения одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
25. Носитель по п. 24, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение до применения одного или нескольких правил трансформации фразы к текстовой фразе.
26. Носитель по п. 25, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: по меньшей мере грамматического или по меньшей мере семантического анализа текстовой фразы и фразы-источника при определении того, что сходство текстовой фразы с фразой-источником превышает пороговое значение.
27. Постоянный машиночитаемый носитель, на котором хранятся одно или несколько правил трансформации фразы, сгенерированные на основе анализа множества признаков, в том числе множества признаков слова источника, сопоставленного со словом источника фразы-источника, и множества признаков целевого слова, сопоставленного с целевым словом целевой фразы, и программные команды, обеспечивающие, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством:
понимания смысла текстовой фразы;
определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение на основании по меньшей мере грамматического или по меньшей мере семантического анализа текстовой фразы и фразы-источника при определении того, что сходство текстовой фразы с фразой-источником превышает пороговое значение; и
применения одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
RU2014135303A 2014-08-29 2014-08-29 Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты) RU2639684C2 (ru)

Priority Applications (4)

Application Number Priority Date Filing Date Title
RU2014135303A RU2639684C2 (ru) 2014-08-29 2014-08-29 Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)
EP14900381.6A EP3186804A4 (en) 2014-08-29 2014-11-25 Method for text processing
PCT/IB2014/066336 WO2016030730A1 (en) 2014-08-29 2014-11-25 Method for text processing
US14/921,189 US9898448B2 (en) 2014-08-29 2015-10-23 Method for text processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2014135303A RU2639684C2 (ru) 2014-08-29 2014-08-29 Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)

Publications (2)

Publication Number Publication Date
RU2014135303A RU2014135303A (ru) 2016-03-20
RU2639684C2 true RU2639684C2 (ru) 2017-12-21

Family

ID=55398802

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2014135303A RU2639684C2 (ru) 2014-08-29 2014-08-29 Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)

Country Status (4)

Country Link
US (1) US9898448B2 (ru)
EP (1) EP3186804A4 (ru)
RU (1) RU2639684C2 (ru)
WO (1) WO2016030730A1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2685044C1 (ru) * 2018-07-03 2019-04-16 Федеральное государственное бюджетное учреждение "Институт теоретической и экспериментальной физики имени А.И. Алиханова Национального исследовательского центра "Курчатовский институт" (НИЦ "Курчатовский институт"- ИТЭФ) Способ определения контекста слова и текстового файла

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10176819B2 (en) * 2016-07-11 2019-01-08 The Chinese University Of Hong Kong Phonetic posteriorgrams for many-to-one voice conversion
JP2020527804A (ja) * 2017-07-18 2020-09-10 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. コード化された医療語彙のマッピング
CN111316281B (zh) * 2017-07-26 2024-01-23 舒辅医疗 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统
US10915707B2 (en) * 2017-10-20 2021-02-09 MachineVantage, Inc. Word replaceability through word vectors
US10747833B2 (en) 2017-10-30 2020-08-18 Nio Usa, Inc. Personalized news recommendation engine
CN110489750A (zh) * 2019-08-12 2019-11-22 昆明理工大学 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN111832318B (zh) * 2020-07-16 2023-03-21 平安科技(深圳)有限公司 单语句自然语言处理方法、装置、计算机设备及可读存储介质
CN112395408B (zh) * 2020-11-19 2023-11-07 平安科技(深圳)有限公司 停用词表生成方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070016401A1 (en) * 2004-08-12 2007-01-18 Farzad Ehsani Speech-to-speech translation system with user-modifiable paraphrasing grammars
RU2368946C2 (ru) * 2003-11-12 2009-09-27 Майкрософт Корпорейшн Система для идентификации перефразирования с использованием технологии машинного перевода
EA016427B1 (ru) * 2009-08-07 2012-04-30 Общество с ограниченной ответственностью "Центр речевых технологий" Способ синтеза речи
US20130030787A1 (en) * 2011-07-25 2013-01-31 Xerox Corporation System and method for productive generation of compound words in statistical machine translation
US20130173255A1 (en) * 1999-05-28 2013-07-04 Fluential, Llc Methods for Creating A Phrase Thesaurus
US8798986B2 (en) * 2006-03-13 2014-08-05 Newtalk, Inc. Method of providing a multilingual translation device for portable use

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4916614A (en) * 1986-11-25 1990-04-10 Hitachi, Ltd. Sentence translator using a thesaurus and a concept-organized co- occurrence dictionary to select from a plurality of equivalent target words
DE69327774T2 (de) 1992-11-18 2000-06-21 Canon Information Syst Inc Prozessor zur Umwandlung von Daten in Sprache und Ablaufsteuerung hierzu
US5634084A (en) 1995-01-20 1997-05-27 Centigram Communications Corporation Abbreviation and acronym/initialism expansion procedures for a text to speech reader
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US6345243B1 (en) * 1998-05-27 2002-02-05 Lionbridge Technologies, Inc. System, method, and product for dynamically propagating translations in a translation-memory system
DE19910621C2 (de) * 1999-03-10 2001-01-25 Thomas Poetter Vorrichtung und Verfahren zum Verbergen von Informationen und Vorrichtung und Verfahren zum Extrahieren von Informationen
WO2000055842A2 (en) * 1999-03-15 2000-09-21 British Telecommunications Public Limited Company Speech synthesis
CN1328321A (zh) * 2000-05-31 2001-12-26 松下电器产业株式会社 通过语音提供信息的装置和方法
US6885985B2 (en) * 2000-12-18 2005-04-26 Xerox Corporation Terminology translation for unaligned comparable corpora using category based translation probabilities
US7054803B2 (en) * 2000-12-19 2006-05-30 Xerox Corporation Extracting sentence translations from translated documents
US20020173961A1 (en) * 2001-03-09 2002-11-21 Guerra Lisa M. System, method and computer program product for dynamic, robust and fault tolerant audio output in a speech recognition framework
US7689405B2 (en) * 2001-05-17 2010-03-30 Language Weaver, Inc. Statistical method for building a translation memory
US7313513B2 (en) * 2002-05-13 2007-12-25 Wordrake Llc Method for editing and enhancing readability of authored documents
US20040215461A1 (en) 2003-04-24 2004-10-28 Visteon Global Technologies, Inc. Text-to-speech system for generating information announcements
US20050267757A1 (en) 2004-05-27 2005-12-01 Nokia Corporation Handling of acronyms and digits in a speech recognition and text-to-speech engine
GB2415518A (en) * 2004-06-24 2005-12-28 Sharp Kk Method and apparatus for translation based on a repository of existing translations
US8831928B2 (en) * 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8201156B1 (en) * 2007-06-08 2012-06-12 Emc Corporation Automatic generation of message IDS
CN101802812B (zh) * 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
US8615388B2 (en) * 2008-03-28 2013-12-24 Microsoft Corporation Intra-language statistical machine translation
US20090326938A1 (en) * 2008-05-28 2009-12-31 Nokia Corporation Multiword text correction
WO2009149549A1 (en) * 2008-06-09 2009-12-17 National Research Council Of Canada Method and system for using alignment means in matching translation
CN101667176A (zh) * 2008-09-01 2010-03-10 株式会社东芝 基于短语的统计机器翻译方法和系统
US20100145676A1 (en) * 2008-12-09 2010-06-10 Qualcomm Incorporated Method and apparatus for adjusting the length of text strings to fit display sizes
US8463806B2 (en) * 2009-01-30 2013-06-11 Lexisnexis Methods and systems for creating and using an adaptive thesaurus
GB2468278A (en) * 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
US9262403B2 (en) * 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
US8478581B2 (en) * 2010-01-25 2013-07-02 Chung-ching Chen Interlingua, interlingua engine, and interlingua machine translation system
EP2531930A1 (en) * 2010-02-01 2012-12-12 Ginger Software, Inc. Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices
US8949128B2 (en) * 2010-02-12 2015-02-03 Nuance Communications, Inc. Method and apparatus for providing speech output for speech-enabled applications
US8447610B2 (en) * 2010-02-12 2013-05-21 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
US8571870B2 (en) * 2010-02-12 2013-10-29 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
US9110883B2 (en) * 2011-04-01 2015-08-18 Rima Ghannam System for natural language understanding
US9064006B2 (en) * 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US9164983B2 (en) * 2011-05-27 2015-10-20 Robert Bosch Gmbh Broad-coverage normalization system for social media language
RU2460154C1 (ru) * 2011-06-15 2012-08-27 Александр Юрьевич Бредихин Способ автоматизированной обработки текста и компьютерное устройство для реализации этого способа
US9245253B2 (en) * 2011-08-19 2016-01-26 Disney Enterprises, Inc. Soft-sending chat messages
CN104239286A (zh) * 2013-06-24 2014-12-24 阿里巴巴集团控股有限公司 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
JP6417649B2 (ja) * 2013-08-22 2018-11-07 株式会社リコー 文章処理装置、文章表示システム、プログラム
US9817813B2 (en) * 2014-01-08 2017-11-14 Genesys Telecommunications Laboratories, Inc. Generalized phrases in automatic speech recognition systems
US20150286632A1 (en) * 2014-04-03 2015-10-08 Xerox Corporation Predicting the quality of automatic translation of an entire document

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130173255A1 (en) * 1999-05-28 2013-07-04 Fluential, Llc Methods for Creating A Phrase Thesaurus
RU2368946C2 (ru) * 2003-11-12 2009-09-27 Майкрософт Корпорейшн Система для идентификации перефразирования с использованием технологии машинного перевода
US20070016401A1 (en) * 2004-08-12 2007-01-18 Farzad Ehsani Speech-to-speech translation system with user-modifiable paraphrasing grammars
US8798986B2 (en) * 2006-03-13 2014-08-05 Newtalk, Inc. Method of providing a multilingual translation device for portable use
EA016427B1 (ru) * 2009-08-07 2012-04-30 Общество с ограниченной ответственностью "Центр речевых технологий" Способ синтеза речи
US20130030787A1 (en) * 2011-07-25 2013-01-31 Xerox Corporation System and method for productive generation of compound words in statistical machine translation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2685044C1 (ru) * 2018-07-03 2019-04-16 Федеральное государственное бюджетное учреждение "Институт теоретической и экспериментальной физики имени А.И. Алиханова Национального исследовательского центра "Курчатовский институт" (НИЦ "Курчатовский институт"- ИТЭФ) Способ определения контекста слова и текстового файла

Also Published As

Publication number Publication date
EP3186804A1 (en) 2017-07-05
US20160232142A1 (en) 2016-08-11
EP3186804A4 (en) 2018-04-25
RU2014135303A (ru) 2016-03-20
WO2016030730A1 (en) 2016-03-03
US9898448B2 (en) 2018-02-20

Similar Documents

Publication Publication Date Title
RU2639684C2 (ru) Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)
US11004448B2 (en) Method and device for recognizing text segmentation position
JP6909832B2 (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
JP7100747B2 (ja) 学習データ生成方法および装置
US9766868B2 (en) Dynamic source code generation
US9619209B1 (en) Dynamic source code generation
US20180039911A1 (en) Method and system of selecting training features for a machine learning algorithm
WO2018086519A1 (zh) 一种特定文本信息的识别方法及装置
US10592542B2 (en) Document ranking by contextual vectors from natural language query
US9703773B2 (en) Pattern identification and correction of document misinterpretations in a natural language processing system
US20180336185A1 (en) Natural language processing of formatted documents
US10885281B2 (en) Natural language document summarization using hyperbolic embeddings
US10417285B2 (en) Corpus generation based upon document attributes
US10223349B2 (en) Inducing and applying a subject-targeted context free grammar
WO2020252935A1 (zh) 声纹验证方法、装置、设备及存储介质
WO2023061106A1 (zh) 用于语言翻译的方法、设备、装置和介质
US20190361980A1 (en) Inferring confidence and need for natural language processing of input data
KR102260396B1 (ko) 범용 신경망 기계번역기를 활용한 하이브리드 번역 시스템
CN115858776A (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
US20210201913A1 (en) Method of and system for translating speech to text
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
WO2020059506A1 (ja) 学習装置、抽出装置及び学習方法
JP7494935B2 (ja) 推定装置、推定方法、および、推定プログラム
US11645054B2 (en) Mapping natural language and code segments
US11995400B2 (en) Rapid language detection for characters in images of documents

Legal Events

Date Code Title Description
HE9A Changing address for correspondence with an applicant
FA92 Acknowledgement of application withdrawn (lack of supplementary materials submitted)

Effective date: 20161129

HE9A Changing address for correspondence with an applicant
FZ9A Application not withdrawn (correction of the notice of withdrawal)

Effective date: 20171027