RU2013156495A - Разрешение семантической неоднозначности при помощи семантического классификатора - Google Patents

Разрешение семантической неоднозначности при помощи семантического классификатора Download PDF

Info

Publication number
RU2013156495A
RU2013156495A RU2013156495/08A RU2013156495A RU2013156495A RU 2013156495 A RU2013156495 A RU 2013156495A RU 2013156495/08 A RU2013156495/08 A RU 2013156495/08A RU 2013156495 A RU2013156495 A RU 2013156495A RU 2013156495 A RU2013156495 A RU 2013156495A
Authority
RU
Russia
Prior art keywords
language
semantic
text
texts
unknown word
Prior art date
Application number
RU2013156495/08A
Other languages
English (en)
Other versions
RU2579873C2 (ru
Inventor
Константин Алексеевич Зуев
Дарья Николаевна Богданова
Original Assignee
Общество с ограниченной ответственностью "Аби ИнфоПоиск"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Аби ИнфоПоиск" filed Critical Общество с ограниченной ответственностью "Аби ИнфоПоиск"
Priority to RU2013156495/08A priority Critical patent/RU2579873C2/ru
Priority to US14/509,372 priority patent/US20150178269A1/en
Publication of RU2013156495A publication Critical patent/RU2013156495A/ru
Application granted granted Critical
Publication of RU2579873C2 publication Critical patent/RU2579873C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

1. Способ, содержащий:получение с помощью вычислительного устройства первого текста на первом языке;обнаружение, по меньшей мере, одного неизвестного слова в первом тексте на первом языке;выбор, по меньшей мере, одного второго языка, причем первый язык отличается от любого из выбранных вторых языков;для каждого второго языка получение вычислительным устройством первого набора текстов на первом языке и второго набора текстов на втором языке, причем тексты первого набора на первом языке выровнены по отношению к текстам второго набора текстов на втором языке;сопоставление неизвестного слова с по меньшей мере одним словом во втором наборе текстов, выровненным с, по меньшей мере, одним неизвестным словом;выявление семантического класса, соответствующего по меньшей мере одному выровненному слову; иназначение семантического класса по меньшей мере одному неизвестному слову.2. Способ по п. 1, в котором сопоставление по меньшей мере одного неизвестного слова дополнительно содержит:построение первой независимой от языка семантической структуры, соответствующей первому тексту, причем первая независимая от языка семантическая структура содержит семантические классы, соответствующие словам первого текста;построение второй независимой от языка семантической структуры, соответствующей второму тексту, причем независимая от языка семантическая структура содержит семантические классы, соответствующие словам второго текста; исравнение первой независящей от языка семантической структуры со второй независящей от языка семантической структурой.3. Способ по п. 1, в котором выявленный семантический класс, соответствую

Claims (15)

1. Способ, содержащий:
получение с помощью вычислительного устройства первого текста на первом языке;
обнаружение, по меньшей мере, одного неизвестного слова в первом тексте на первом языке;
выбор, по меньшей мере, одного второго языка, причем первый язык отличается от любого из выбранных вторых языков;
для каждого второго языка получение вычислительным устройством первого набора текстов на первом языке и второго набора текстов на втором языке, причем тексты первого набора на первом языке выровнены по отношению к текстам второго набора текстов на втором языке;
сопоставление неизвестного слова с по меньшей мере одним словом во втором наборе текстов, выровненным с, по меньшей мере, одним неизвестным словом;
выявление семантического класса, соответствующего по меньшей мере одному выровненному слову; и
назначение семантического класса по меньшей мере одному неизвестному слову.
2. Способ по п. 1, в котором сопоставление по меньшей мере одного неизвестного слова дополнительно содержит:
построение первой независимой от языка семантической структуры, соответствующей первому тексту, причем первая независимая от языка семантическая структура содержит семантические классы, соответствующие словам первого текста;
построение второй независимой от языка семантической структуры, соответствующей второму тексту, причем независимая от языка семантическая структура содержит семантические классы, соответствующие словам второго текста; и
сравнение первой независящей от языка семантической структуры со второй независящей от языка семантической структурой.
3. Способ по п. 1, в котором выявленный семантический класс, соответствующий по меньшей мере одному неизвестному слову во втором тексте, основан на выравнивании семантических классов первой независимой от языка семантической структуры с семантическими классами второй независимой от языка семантической структуры.
4. Способ по п. 1, в котором назначение семантического класса по меньшей мере одному неизвестному слову содержит:
применение семантических свойств идентифицированного семантического класса к по меньшей мере одному неизвестному слову в первом тексте.
5. Способ по п. 1, в котором выравнивание первого набора текстов на первом языке со вторым набором текстов на втором языке осуществляется по предложениям, причем каждое предложение на первом языке соответствует предложению на втором языке.
6. Система, содержащая:
один или более процессоров данных; и
одно или более устройств хранения, хранящих инструкции, которые, будучи исполненными одним или более процессорами данных, воздействуют на один или более процессоров данных для выполнения операций, содержащих:
получение с помощью вычислительного устройства первого текста на первом языке;
обнаружение, по меньшей мере, одного неизвестного слова в первом тексте на первом языке;
выбор, по меньшей мере, одного второго языка, причем первый язык отличается от любого из выбранных вторых языков;
для каждого второго языка получение вычислительным устройством первого набора текстов на первом языке и второго набора текстов на втором языке, причем тексты первого набора на первом языке выровнены по отношению к текстам второго набора текстов на втором языке;
сопоставление неизвестного слова с по меньшей мере одним словом во втором наборе текстов, выровненным с, по меньшей мере, одним неизвестным словом;
выявление семантического класса, соответствующего по меньшей мере одному выровненному слову; и
назначение семантического класса по меньшей мере одному неизвестному слову.
7. Система по п. 6, в которой сопоставление по меньшей мере одного неизвестного слова дополнительно содержит:
построение первой независимой от языка семантической структуры, соответствующей первому тексту, причем первая независимая от языка семантическая структура содержит семантические классы, соответствующие словам первого текста;
построение второй независимой от языка семантической структуры, соответствующей второму тексту, причем независимая от языка семантическая структура содержит семантические классы, соответствующие словам второго текста; и
сравнение первой независящей от языка семантической структуры со второй независящей от языка семантической структурой..
8. Система по п. 6, в которой выявленный семантический класс, соответствующий по меньшей мере одному неизвестному слову во втором тексте, основан на выравнивании семантических классов первой независимой от языка семантической структуры с семантическими классами второй независимой от языка семантической структуры.
9. Система по п. 6, в которой назначение семантического класса по меньшей мере одному неизвестному слову содержит:
применение семантических свойств идентифицированного семантического класса к по меньшей мере одному неизвестному слову в первом тексте.
10. Система по п. 6, в которой выравнивание первого набора текстов на первом языке со вторым набором текстов на втором языке осуществляется по предложениям, причем каждое предложение на первом языке соответствует предложению на втором языке.
11. Машиночитаемый носитель данных, имеющий хранящиеся на нем машинные инструкции, причем процессор исполняет инструкции для выполнения операций, содержащих:
получение с помощью вычислительного устройства первого текста на первом языке;
обнаружение, по меньшей мере, одного неизвестного слова в первом тексте на первом языке;
выбор, по меньшей мере, одного второго языка, причем первый язык отличается от любого из выбранных вторых языков;
для каждого второго языка получение вычислительным устройством первого набора текстов на первом языке и второго набора текстов на втором языке, причем тексты первого набора на первом языке выровнены по отношению к текстам второго набора текстов на втором языке;
сопоставление неизвестного слова с по меньшей мере одним словом во втором наборе текстов, выровненным с, по меньшей мере, одним неизвестным словом;
выявление семантического класса, соответствующего по меньшей мере одному выровненному слову; и
назначение семантического класса по меньшей мере одному неизвестному слову.
12. Машиночитаемый носитель данных по п. 11, в котором сопоставление по меньшей мере одного неизвестного слова дополнительно содержит:
построение первой независимой от языка семантической структуры, соответствующей первому тексту, причем первая независимая от языка семантическая структура содержит семантические классы, соответствующие словам первого текста;
построение второй независимой от языка семантической структуры, соответствующей второму тексту, причем независимая от языка семантическая структура содержит семантические классы, соответствующие словам второго текста; и
сравнение первой независящей от языка семантической структуры со второй независящей от языка семантической структурой.
13. Машиночитаемый носитель данных по п. 11, в котором выявленный семантический класс, соответствующий по меньшей мере одному неизвестному слову во втором тексте, основан на выравнивании семантических классов первой независимой от языка семантической структуры с семантическими классами второй независимой от языка семантической структуры.
14. Машиночитаемый носитель данных по п. 11, в котором назначение семантического класса по меньшей мере одному неизвестному слову содержит:
применение семантических свойств идентифицированного семантического класса к по меньшей мере одному неизвестному слову в первом тексте.
15. Машиночитаемый носитель данных по п. 11, в котором выравнивание первого набора текстов на первом языке со вторым набором текстов на втором языке осуществляется по предложениям, причем каждое предложение на первом языке соответствует предложению на втором языке.
RU2013156495/08A 2013-12-19 2013-12-19 Разрешение семантической неоднозначности при помощи семантического классификатора RU2579873C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2013156495/08A RU2579873C2 (ru) 2013-12-19 2013-12-19 Разрешение семантической неоднозначности при помощи семантического классификатора
US14/509,372 US20150178269A1 (en) 2013-12-19 2014-10-08 Semantic disambiguation using a semantic classifier

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2013156495/08A RU2579873C2 (ru) 2013-12-19 2013-12-19 Разрешение семантической неоднозначности при помощи семантического классификатора

Publications (2)

Publication Number Publication Date
RU2013156495A true RU2013156495A (ru) 2015-06-27
RU2579873C2 RU2579873C2 (ru) 2016-04-10

Family

ID=53400220

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2013156495/08A RU2579873C2 (ru) 2013-12-19 2013-12-19 Разрешение семантической неоднозначности при помощи семантического классификатора

Country Status (2)

Country Link
US (1) US20150178269A1 (ru)
RU (1) RU2579873C2 (ru)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760363B (zh) * 2016-02-17 2019-12-13 腾讯科技(深圳)有限公司 文本文件的词义消歧方法及装置
RU2619193C1 (ru) * 2016-06-17 2017-05-12 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков
US11481554B2 (en) 2019-11-08 2022-10-25 Oracle International Corporation Systems and methods for training and evaluating machine learning models using generalized vocabulary tokens for document processing
US11507747B2 (en) * 2019-11-27 2022-11-22 Oracle International Corporation Hybrid in-domain and out-of-domain document processing for non-vocabulary tokens of electronic documents
US11494559B2 (en) * 2019-11-27 2022-11-08 Oracle International Corporation Hybrid in-domain and out-of-domain document processing for non-vocabulary tokens of electronic documents
CN112163082B (zh) * 2020-10-16 2023-09-12 泰康保险集团股份有限公司 一种意图识别方法、装置、电子设备及存储介质
CN112528670B (zh) * 2020-12-01 2022-08-30 清华大学 字词词义处理方法、装置、电子设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268375A (ja) * 2005-03-23 2006-10-05 Fuji Xerox Co Ltd 翻訳メモリシステム
US8195447B2 (en) * 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8078450B2 (en) * 2006-10-10 2011-12-13 Abbyy Software Ltd. Method and system for analyzing various languages and constructing language-independent semantic structures
US9047275B2 (en) * 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US8145473B2 (en) * 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US9588958B2 (en) * 2006-10-10 2017-03-07 Abbyy Infopoisk Llc Cross-language text classification
US9471562B2 (en) * 2006-10-10 2016-10-18 Abbyy Infopoisk Llc Method and system for analyzing and translating various languages with use of semantic hierarchy
US8959011B2 (en) * 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
RU2392660C2 (ru) * 2008-04-15 2010-06-20 Государственное образовательное учреждение высшего профессионального образования "Мордовский государственный университет им. Н.П. Огарева" Способ поиска информации в массиве текстов
US9037464B1 (en) * 2013-01-15 2015-05-19 Google Inc. Computing numeric representations of words in a high-dimensional space

Also Published As

Publication number Publication date
US20150178269A1 (en) 2015-06-25
RU2579873C2 (ru) 2016-04-10

Similar Documents

Publication Publication Date Title
RU2013156495A (ru) Разрешение семантической неоднозначности при помощи семантического классификатора
BR112017010222A2 (pt) discriminando expressões ambíguas para aprimorar experiência do usuário
RU2013156493A (ru) Разрешение семантической неоднозначности при помощи не зависящей от языка семантической структуры
CO2017007037A2 (es) Métodos para el entendimiento de consulta de lenguaje natural incompleta
CO2017007032A2 (es) Actualización de modelos de clasificador de entendimiento de lenguaje para un asistente digital personal basándose en externalización masiva
BR112017019015A2 (pt) sistema que facilita o uso de palavras-chave inseridas pelo usuário para buscar conceitos clínicos relacionados, e método para facilitar o uso de palavras-chave inseridas pelo usuário para buscar conceitos clínicos relacionados
CN103970765B (zh) 一种改错模型训练方法、装置和文本改错方法、装置
US20150186361A1 (en) Method and apparatus for improving a bilingual corpus, machine translation method and apparatus
BR112015015904A2 (pt) renderização de linguagem natural de consultas de busca estruturadas
RU2013156494A (ru) Разрешение семантической неоднозначности при помощи статистического анализа
GB2542288A (en) Enhancing reading accuracy, efficiency and retention
Lignos et al. Toward web-scale analysis of codeswitching
WO2015050321A8 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
BR112013009616A2 (pt) método implementado por computador para iniciar uma ação em um dispositivo de computação móvel responsivo a receber dados de texto, método implementado por computador para gerar termos de pesquisa alternativos, método implementado por computador para modificar um banco de dados de pesquisa e meio de armazenagem lido por computador
BR112017003627A2 (pt) ferramentas de produtividade para elaboração de conteúdo
RU2015102279A (ru) Способ ввода данных в электронное устройство, способ обработки голосового запроса, машиночитаемый носитель (варианты), электронное устройство, сервер и система
JP2016085697A5 (ru)
CN103488627B8 (zh) 全篇专利文献翻译方法及翻译系统
RU2014135303A (ru) Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)
BR112015002022A2 (pt) métodos e sistemas referentes a um desenvolvimento de uma estratégia de extração de hidrocarbonetos
GB2553233A (en) Techniques for providing visual translation cards including contextually relevant definitions and examples
RU2014102111A (ru) Исчерпывающая автоматическая обработка текстовой информации
MY182881A (en) A method and system for automated entity recognition
Pakray et al. Transliterated search system for Indian languages
RU2013157757A (ru) Обнаружение языковой неоднозначности в тексте

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20170630

QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311