RU2013156495A - Разрешение семантической неоднозначности при помощи семантического классификатора - Google Patents
Разрешение семантической неоднозначности при помощи семантического классификатора Download PDFInfo
- Publication number
- RU2013156495A RU2013156495A RU2013156495/08A RU2013156495A RU2013156495A RU 2013156495 A RU2013156495 A RU 2013156495A RU 2013156495/08 A RU2013156495/08 A RU 2013156495/08A RU 2013156495 A RU2013156495 A RU 2013156495A RU 2013156495 A RU2013156495 A RU 2013156495A
- Authority
- RU
- Russia
- Prior art keywords
- language
- semantic
- text
- texts
- unknown word
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
1. Способ, содержащий:получение с помощью вычислительного устройства первого текста на первом языке;обнаружение, по меньшей мере, одного неизвестного слова в первом тексте на первом языке;выбор, по меньшей мере, одного второго языка, причем первый язык отличается от любого из выбранных вторых языков;для каждого второго языка получение вычислительным устройством первого набора текстов на первом языке и второго набора текстов на втором языке, причем тексты первого набора на первом языке выровнены по отношению к текстам второго набора текстов на втором языке;сопоставление неизвестного слова с по меньшей мере одним словом во втором наборе текстов, выровненным с, по меньшей мере, одним неизвестным словом;выявление семантического класса, соответствующего по меньшей мере одному выровненному слову; иназначение семантического класса по меньшей мере одному неизвестному слову.2. Способ по п. 1, в котором сопоставление по меньшей мере одного неизвестного слова дополнительно содержит:построение первой независимой от языка семантической структуры, соответствующей первому тексту, причем первая независимая от языка семантическая структура содержит семантические классы, соответствующие словам первого текста;построение второй независимой от языка семантической структуры, соответствующей второму тексту, причем независимая от языка семантическая структура содержит семантические классы, соответствующие словам второго текста; исравнение первой независящей от языка семантической структуры со второй независящей от языка семантической структурой.3. Способ по п. 1, в котором выявленный семантический класс, соответствую
Claims (15)
1. Способ, содержащий:
получение с помощью вычислительного устройства первого текста на первом языке;
обнаружение, по меньшей мере, одного неизвестного слова в первом тексте на первом языке;
выбор, по меньшей мере, одного второго языка, причем первый язык отличается от любого из выбранных вторых языков;
для каждого второго языка получение вычислительным устройством первого набора текстов на первом языке и второго набора текстов на втором языке, причем тексты первого набора на первом языке выровнены по отношению к текстам второго набора текстов на втором языке;
сопоставление неизвестного слова с по меньшей мере одним словом во втором наборе текстов, выровненным с, по меньшей мере, одним неизвестным словом;
выявление семантического класса, соответствующего по меньшей мере одному выровненному слову; и
назначение семантического класса по меньшей мере одному неизвестному слову.
2. Способ по п. 1, в котором сопоставление по меньшей мере одного неизвестного слова дополнительно содержит:
построение первой независимой от языка семантической структуры, соответствующей первому тексту, причем первая независимая от языка семантическая структура содержит семантические классы, соответствующие словам первого текста;
построение второй независимой от языка семантической структуры, соответствующей второму тексту, причем независимая от языка семантическая структура содержит семантические классы, соответствующие словам второго текста; и
сравнение первой независящей от языка семантической структуры со второй независящей от языка семантической структурой.
3. Способ по п. 1, в котором выявленный семантический класс, соответствующий по меньшей мере одному неизвестному слову во втором тексте, основан на выравнивании семантических классов первой независимой от языка семантической структуры с семантическими классами второй независимой от языка семантической структуры.
4. Способ по п. 1, в котором назначение семантического класса по меньшей мере одному неизвестному слову содержит:
применение семантических свойств идентифицированного семантического класса к по меньшей мере одному неизвестному слову в первом тексте.
5. Способ по п. 1, в котором выравнивание первого набора текстов на первом языке со вторым набором текстов на втором языке осуществляется по предложениям, причем каждое предложение на первом языке соответствует предложению на втором языке.
6. Система, содержащая:
один или более процессоров данных; и
одно или более устройств хранения, хранящих инструкции, которые, будучи исполненными одним или более процессорами данных, воздействуют на один или более процессоров данных для выполнения операций, содержащих:
получение с помощью вычислительного устройства первого текста на первом языке;
обнаружение, по меньшей мере, одного неизвестного слова в первом тексте на первом языке;
выбор, по меньшей мере, одного второго языка, причем первый язык отличается от любого из выбранных вторых языков;
для каждого второго языка получение вычислительным устройством первого набора текстов на первом языке и второго набора текстов на втором языке, причем тексты первого набора на первом языке выровнены по отношению к текстам второго набора текстов на втором языке;
сопоставление неизвестного слова с по меньшей мере одним словом во втором наборе текстов, выровненным с, по меньшей мере, одним неизвестным словом;
выявление семантического класса, соответствующего по меньшей мере одному выровненному слову; и
назначение семантического класса по меньшей мере одному неизвестному слову.
7. Система по п. 6, в которой сопоставление по меньшей мере одного неизвестного слова дополнительно содержит:
построение первой независимой от языка семантической структуры, соответствующей первому тексту, причем первая независимая от языка семантическая структура содержит семантические классы, соответствующие словам первого текста;
построение второй независимой от языка семантической структуры, соответствующей второму тексту, причем независимая от языка семантическая структура содержит семантические классы, соответствующие словам второго текста; и
сравнение первой независящей от языка семантической структуры со второй независящей от языка семантической структурой..
8. Система по п. 6, в которой выявленный семантический класс, соответствующий по меньшей мере одному неизвестному слову во втором тексте, основан на выравнивании семантических классов первой независимой от языка семантической структуры с семантическими классами второй независимой от языка семантической структуры.
9. Система по п. 6, в которой назначение семантического класса по меньшей мере одному неизвестному слову содержит:
применение семантических свойств идентифицированного семантического класса к по меньшей мере одному неизвестному слову в первом тексте.
10. Система по п. 6, в которой выравнивание первого набора текстов на первом языке со вторым набором текстов на втором языке осуществляется по предложениям, причем каждое предложение на первом языке соответствует предложению на втором языке.
11. Машиночитаемый носитель данных, имеющий хранящиеся на нем машинные инструкции, причем процессор исполняет инструкции для выполнения операций, содержащих:
получение с помощью вычислительного устройства первого текста на первом языке;
обнаружение, по меньшей мере, одного неизвестного слова в первом тексте на первом языке;
выбор, по меньшей мере, одного второго языка, причем первый язык отличается от любого из выбранных вторых языков;
для каждого второго языка получение вычислительным устройством первого набора текстов на первом языке и второго набора текстов на втором языке, причем тексты первого набора на первом языке выровнены по отношению к текстам второго набора текстов на втором языке;
сопоставление неизвестного слова с по меньшей мере одним словом во втором наборе текстов, выровненным с, по меньшей мере, одним неизвестным словом;
выявление семантического класса, соответствующего по меньшей мере одному выровненному слову; и
назначение семантического класса по меньшей мере одному неизвестному слову.
12. Машиночитаемый носитель данных по п. 11, в котором сопоставление по меньшей мере одного неизвестного слова дополнительно содержит:
построение первой независимой от языка семантической структуры, соответствующей первому тексту, причем первая независимая от языка семантическая структура содержит семантические классы, соответствующие словам первого текста;
построение второй независимой от языка семантической структуры, соответствующей второму тексту, причем независимая от языка семантическая структура содержит семантические классы, соответствующие словам второго текста; и
сравнение первой независящей от языка семантической структуры со второй независящей от языка семантической структурой.
13. Машиночитаемый носитель данных по п. 11, в котором выявленный семантический класс, соответствующий по меньшей мере одному неизвестному слову во втором тексте, основан на выравнивании семантических классов первой независимой от языка семантической структуры с семантическими классами второй независимой от языка семантической структуры.
14. Машиночитаемый носитель данных по п. 11, в котором назначение семантического класса по меньшей мере одному неизвестному слову содержит:
применение семантических свойств идентифицированного семантического класса к по меньшей мере одному неизвестному слову в первом тексте.
15. Машиночитаемый носитель данных по п. 11, в котором выравнивание первого набора текстов на первом языке со вторым набором текстов на втором языке осуществляется по предложениям, причем каждое предложение на первом языке соответствует предложению на втором языке.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2013156495/08A RU2579873C2 (ru) | 2013-12-19 | 2013-12-19 | Разрешение семантической неоднозначности при помощи семантического классификатора |
US14/509,372 US20150178269A1 (en) | 2013-12-19 | 2014-10-08 | Semantic disambiguation using a semantic classifier |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2013156495/08A RU2579873C2 (ru) | 2013-12-19 | 2013-12-19 | Разрешение семантической неоднозначности при помощи семантического классификатора |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2013156495A true RU2013156495A (ru) | 2015-06-27 |
RU2579873C2 RU2579873C2 (ru) | 2016-04-10 |
Family
ID=53400220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2013156495/08A RU2579873C2 (ru) | 2013-12-19 | 2013-12-19 | Разрешение семантической неоднозначности при помощи семантического классификатора |
Country Status (2)
Country | Link |
---|---|
US (1) | US20150178269A1 (ru) |
RU (1) | RU2579873C2 (ru) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760363B (zh) * | 2016-02-17 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 文本文件的词义消歧方法及装置 |
RU2619193C1 (ru) * | 2016-06-17 | 2017-05-12 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков |
US11481554B2 (en) | 2019-11-08 | 2022-10-25 | Oracle International Corporation | Systems and methods for training and evaluating machine learning models using generalized vocabulary tokens for document processing |
US11507747B2 (en) * | 2019-11-27 | 2022-11-22 | Oracle International Corporation | Hybrid in-domain and out-of-domain document processing for non-vocabulary tokens of electronic documents |
US11494559B2 (en) * | 2019-11-27 | 2022-11-08 | Oracle International Corporation | Hybrid in-domain and out-of-domain document processing for non-vocabulary tokens of electronic documents |
CN112163082B (zh) * | 2020-10-16 | 2023-09-12 | 泰康保险集团股份有限公司 | 一种意图识别方法、装置、电子设备及存储介质 |
CN112528670B (zh) * | 2020-12-01 | 2022-08-30 | 清华大学 | 字词词义处理方法、装置、电子设备及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006268375A (ja) * | 2005-03-23 | 2006-10-05 | Fuji Xerox Co Ltd | 翻訳メモリシステム |
US8195447B2 (en) * | 2006-10-10 | 2012-06-05 | Abbyy Software Ltd. | Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US8078450B2 (en) * | 2006-10-10 | 2011-12-13 | Abbyy Software Ltd. | Method and system for analyzing various languages and constructing language-independent semantic structures |
US9047275B2 (en) * | 2006-10-10 | 2015-06-02 | Abbyy Infopoisk Llc | Methods and systems for alignment of parallel text corpora |
US8145473B2 (en) * | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
US9588958B2 (en) * | 2006-10-10 | 2017-03-07 | Abbyy Infopoisk Llc | Cross-language text classification |
US9471562B2 (en) * | 2006-10-10 | 2016-10-18 | Abbyy Infopoisk Llc | Method and system for analyzing and translating various languages with use of semantic hierarchy |
US8959011B2 (en) * | 2007-03-22 | 2015-02-17 | Abbyy Infopoisk Llc | Indicating and correcting errors in machine translation systems |
RU2392660C2 (ru) * | 2008-04-15 | 2010-06-20 | Государственное образовательное учреждение высшего профессионального образования "Мордовский государственный университет им. Н.П. Огарева" | Способ поиска информации в массиве текстов |
US9037464B1 (en) * | 2013-01-15 | 2015-05-19 | Google Inc. | Computing numeric representations of words in a high-dimensional space |
-
2013
- 2013-12-19 RU RU2013156495/08A patent/RU2579873C2/ru active
-
2014
- 2014-10-08 US US14/509,372 patent/US20150178269A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20150178269A1 (en) | 2015-06-25 |
RU2579873C2 (ru) | 2016-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2013156495A (ru) | Разрешение семантической неоднозначности при помощи семантического классификатора | |
BR112017010222A2 (pt) | discriminando expressões ambíguas para aprimorar experiência do usuário | |
RU2013156493A (ru) | Разрешение семантической неоднозначности при помощи не зависящей от языка семантической структуры | |
CO2017007037A2 (es) | Métodos para el entendimiento de consulta de lenguaje natural incompleta | |
CO2017007032A2 (es) | Actualización de modelos de clasificador de entendimiento de lenguaje para un asistente digital personal basándose en externalización masiva | |
BR112017019015A2 (pt) | sistema que facilita o uso de palavras-chave inseridas pelo usuário para buscar conceitos clínicos relacionados, e método para facilitar o uso de palavras-chave inseridas pelo usuário para buscar conceitos clínicos relacionados | |
CN103970765B (zh) | 一种改错模型训练方法、装置和文本改错方法、装置 | |
US20150186361A1 (en) | Method and apparatus for improving a bilingual corpus, machine translation method and apparatus | |
BR112015015904A2 (pt) | renderização de linguagem natural de consultas de busca estruturadas | |
RU2013156494A (ru) | Разрешение семантической неоднозначности при помощи статистического анализа | |
GB2542288A (en) | Enhancing reading accuracy, efficiency and retention | |
Lignos et al. | Toward web-scale analysis of codeswitching | |
WO2015050321A8 (ko) | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 | |
BR112013009616A2 (pt) | método implementado por computador para iniciar uma ação em um dispositivo de computação móvel responsivo a receber dados de texto, método implementado por computador para gerar termos de pesquisa alternativos, método implementado por computador para modificar um banco de dados de pesquisa e meio de armazenagem lido por computador | |
BR112017003627A2 (pt) | ferramentas de produtividade para elaboração de conteúdo | |
RU2015102279A (ru) | Способ ввода данных в электронное устройство, способ обработки голосового запроса, машиночитаемый носитель (варианты), электронное устройство, сервер и система | |
JP2016085697A5 (ru) | ||
CN103488627B8 (zh) | 全篇专利文献翻译方法及翻译系统 | |
RU2014135303A (ru) | Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты) | |
BR112015002022A2 (pt) | métodos e sistemas referentes a um desenvolvimento de uma estratégia de extração de hidrocarbonetos | |
GB2553233A (en) | Techniques for providing visual translation cards including contextually relevant definitions and examples | |
RU2014102111A (ru) | Исчерпывающая автоматическая обработка текстовой информации | |
MY182881A (en) | A method and system for automated entity recognition | |
Pakray et al. | Transliterated search system for Indian languages | |
RU2013157757A (ru) | Обнаружение языковой неоднозначности в тексте |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20170630 |
|
QB4A | Licence on use of patent |
Free format text: LICENCE FORMERLY AGREED ON 20201211 Effective date: 20201211 |
|
QC41 | Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right |
Free format text: LICENCE FORMERLY AGREED ON 20201211 Effective date: 20220311 |