RU2010107148A - Разрешение кореференции в чувствительной к неоднозначности системе обработки естественного языка - Google Patents

Разрешение кореференции в чувствительной к неоднозначности системе обработки естественного языка Download PDF

Info

Publication number
RU2010107148A
RU2010107148A RU2010107148/08A RU2010107148A RU2010107148A RU 2010107148 A RU2010107148 A RU 2010107148A RU 2010107148/08 A RU2010107148/08 A RU 2010107148/08A RU 2010107148 A RU2010107148 A RU 2010107148A RU 2010107148 A RU2010107148 A RU 2010107148A
Authority
RU
Russia
Prior art keywords
coreference
text
fact
identification
computer
Prior art date
Application number
RU2010107148/08A
Other languages
English (en)
Other versions
RU2480822C2 (ru
Inventor
ДЕН БЕРГ Мартин ВАН (US)
ДЕН БЕРГ Мартин ВАН
Ричард КРАУЧ (US)
Ричард КРАУЧ
Франко САЛВЕТТИ (US)
Франко САЛВЕТТИ
Джованни Лоренцо ТИОНЕ (US)
Джованни Лоренцо ТИОНЕ
Дэвид АН (US)
Дэвид АН
Original Assignee
Майкрософт Корпорейшн (Us)
Майкрософт Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Майкрософт Корпорейшн (Us), Майкрософт Корпорейшн filed Critical Майкрософт Корпорейшн (Us)
Priority claimed from US12/200,962 external-priority patent/US8712758B2/en
Publication of RU2010107148A publication Critical patent/RU2010107148A/ru
Application granted granted Critical
Publication of RU2480822C2 publication Critical patent/RU2480822C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

1. Способ интеграции механизмов разрешения кореференции, содержащий: ! извлечение части текста; ! идентификацию кореференции в пределах части текста; ! извлечение факта из части текста; и ! расширение факта, чтобы он включал в себя кореферентное значение, основанное на идентифицированной кореференции. ! 2. Способ по п.1, в котором идентификация кореференции содержит в себе информацию из синтаксического анализа. ! 3. Способ по п.1, в котором идентификация кореференции содержит в себе информацию из семантического отображения. ! 4. Способ по п.1, в котором идентификация кореференции содержит в себе идентификацию неоднозначной кореференции. ! 5. Способ по п.1, дополнительно содержащий идентификацию неоднозначности в пределах части текста. ! 6. Способ по п.5, дополнительно содержащий расширение факта, чтобы он включал в себя неоднозначное значение, основанное на идентифицированной неоднозначности. ! 7. Способ по п.1, дополнительно содержащий хранение расширенного факта в индексе, пригодном для поддержки извлечения информации. ! 8. Способ по п.7, дополнительно содержащий извлечение расширенного факта из индекса в ответ на поисковый запрос. !9. Способ по п.1, дополнительно содержащий аннотирование идентифицированных кореференций в пределах части текста. ! 10. Способ по п.2, дополнительно содержащий кэширование информации из синтаксического анализа. ! 11. Компьютерный запоминающий носитель, имеющий исполняемые компьютерные команды, хранящиеся на нем, которые, когда выполняются компьютером, заставляют компьютер: ! извлекать часть текста; ! идентифицировать кореференцию в пределах части текста; ! извлекать факт из части текста; �

Claims (20)

1. Способ интеграции механизмов разрешения кореференции, содержащий:
извлечение части текста;
идентификацию кореференции в пределах части текста;
извлечение факта из части текста; и
расширение факта, чтобы он включал в себя кореферентное значение, основанное на идентифицированной кореференции.
2. Способ по п.1, в котором идентификация кореференции содержит в себе информацию из синтаксического анализа.
3. Способ по п.1, в котором идентификация кореференции содержит в себе информацию из семантического отображения.
4. Способ по п.1, в котором идентификация кореференции содержит в себе идентификацию неоднозначной кореференции.
5. Способ по п.1, дополнительно содержащий идентификацию неоднозначности в пределах части текста.
6. Способ по п.5, дополнительно содержащий расширение факта, чтобы он включал в себя неоднозначное значение, основанное на идентифицированной неоднозначности.
7. Способ по п.1, дополнительно содержащий хранение расширенного факта в индексе, пригодном для поддержки извлечения информации.
8. Способ по п.7, дополнительно содержащий извлечение расширенного факта из индекса в ответ на поисковый запрос.
9. Способ по п.1, дополнительно содержащий аннотирование идентифицированных кореференций в пределах части текста.
10. Способ по п.2, дополнительно содержащий кэширование информации из синтаксического анализа.
11. Компьютерный запоминающий носитель, имеющий исполняемые компьютерные команды, хранящиеся на нем, которые, когда выполняются компьютером, заставляют компьютер:
извлекать часть текста;
идентифицировать кореференцию в пределах части текста;
извлекать факт из части текста; и
расширять факт, чтобы он включал в себя кореферентное значение, основанное на идентифицированной кореференции.
12. Компьютерный запоминающий носитель по п.11, в котором идентификация кореференции содержит в себе информацию из синтаксического анализа.
13. Компьютерный запоминающий носитель по п.11, в котором идентификация кореференции содержит в себе информацию из семантического отображения.
14. Компьютерный запоминающий носитель по п.11, в котором идентификация кореференции содержит в себе идентификацию неоднозначной кореференции.
15. Компьютерный запоминающий носитель по п.11, дополнительно заставляющий компьютер идентифицировать неоднозначность в пределах части текста.
16. Компьютерный запоминающий носитель по п.15, дополнительно заставляющий компьютер расширять факт, чтобы он включал в себя неоднозначное значение, основанное на идентифицированной неоднозначности.
17. Компьютерный запоминающий носитель по п.11, дополнительно заставляющий компьютер хранить расширенный факт в индексе, пригодном для поддержки извлечения информации.
18. Компьютерный запоминающий носитель по п.17, дополнительно заставляющий компьютер извлекать расширенный факт из индекса в ответ на поисковый запрос.
19. Компьютерный запоминающий носитель по п.11, дополнительно заставляющий компьютер аннотировать идентифицированные кореференции в пределах части текста.
20. Способ интеграции механизмов разрешения кореференции, содержащий:
извлечение части текста;
идентификацию кореференции в пределах части текста;
идентификацию неоднозначности в пределах части текста;
извлечение факта из части текста;
расширение факта, чтобы он включал в себя кореферентное значение, основанное на идентифицированной кореференции;
хранение расширенного факта в индексе, пригодном для поддержки извлечения информации; и
извлечение расширенного факта из индекса в ответ на поисковый запрос.
RU2010107148/08A 2007-08-31 2008-08-29 Разрешение кореференции в чувствительной к неоднозначности системе обработки естественного языка RU2480822C2 (ru)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US96948307P 2007-08-31 2007-08-31
US96942607P 2007-08-31 2007-08-31
US60/969,426 2007-08-31
US60/969,483 2007-08-31
US12/200,962 2008-08-29
US12/200,962 US8712758B2 (en) 2007-08-31 2008-08-29 Coreference resolution in an ambiguity-sensitive natural language processing system
PCT/US2008/074935 WO2009029903A2 (en) 2007-08-31 2008-08-29 Coreference resolution in an ambiguity-sensitive natural language processing system

Publications (2)

Publication Number Publication Date
RU2010107148A true RU2010107148A (ru) 2011-09-10
RU2480822C2 RU2480822C2 (ru) 2013-04-27

Family

ID=42041476

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2010107148/08A RU2480822C2 (ru) 2007-08-31 2008-08-29 Разрешение кореференции в чувствительной к неоднозначности системе обработки естественного языка

Country Status (11)

Country Link
EP (1) EP2183684A4 (ru)
JP (2) JP2010538374A (ru)
KR (1) KR101522049B1 (ru)
CN (1) CN101796508B (ru)
AU (1) AU2008292779B2 (ru)
BR (1) BRPI0815826A2 (ru)
CA (1) CA2698054C (ru)
MX (1) MX2010002349A (ru)
RU (1) RU2480822C2 (ru)
WO (1) WO2009029903A2 (ru)
ZA (1) ZA201001259B (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2591175C1 (ru) * 2015-03-19 2016-07-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система для глобальной идентификации в коллекции документов

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2563148C2 (ru) * 2013-07-15 2015-09-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Система и метод семантического поиска
RU2643438C2 (ru) * 2013-12-25 2018-02-01 Общество с ограниченной ответственностью "Аби Продакшн" Обнаружение языковой неоднозначности в тексте
JP5699789B2 (ja) * 2011-05-10 2015-04-15 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び情報処理システム
US9286291B2 (en) * 2013-02-15 2016-03-15 International Business Machines Corporation Disambiguation of dependent referring expression in natural language processing
CN104462053B (zh) * 2013-09-22 2018-10-12 江苏金鸽网络科技有限公司 一种文本内的基于语义特征的人称代词指代消解方法
US9606977B2 (en) * 2014-01-22 2017-03-28 Google Inc. Identifying tasks in messages
US9497153B2 (en) * 2014-01-30 2016-11-15 Google Inc. Associating a segment of an electronic message with one or more segment addressees
CN109101533B (zh) * 2014-05-12 2022-07-15 谷歌有限责任公司 自动化阅读理解
CN107077640B (zh) 2014-09-03 2021-07-06 邓白氏公司 经由经验归属来分析、资格化和摄取非结构化数据源的系统和处理
CN106815215B (zh) * 2015-11-30 2019-11-26 华为技术有限公司 生成标注库的方法和装置
CN107515851B (zh) * 2016-06-16 2021-09-10 佳能株式会社 用于共指消解、信息提取以及相似文档检索的装置和方法
JP7135399B2 (ja) * 2018-04-12 2022-09-13 富士通株式会社 特定プログラム、特定方法および情報処理装置
WO2020005986A1 (en) * 2018-06-25 2020-01-02 Diffeo, Inc. Systems and method for investigating relationships among entities
US20200074322A1 (en) * 2018-09-04 2020-03-05 Rovi Guides, Inc. Methods and systems for using machine-learning extracts and semantic graphs to create structured data to drive search, recommendation, and discovery
CN109815482B (zh) * 2018-12-17 2023-05-23 北京百度网讯科技有限公司 一种新闻交互的方法、装置、设备和计算机存储介质
WO2021012263A1 (en) * 2019-07-25 2021-01-28 Baidu.Com Times Technology (Beijing) Co., Ltd. Systems and methods for end-to-end deep reinforcement learning based coreference resolution
US11151321B2 (en) * 2019-12-10 2021-10-19 International Business Machines Corporation Anaphora resolution

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0268661A (ja) * 1988-09-05 1990-03-08 Agency Of Ind Science & Technol 文脈理解装置
RU2096824C1 (ru) * 1996-04-29 1997-11-20 Государственный научно-технический центр гиперинформационных технологий Способы автоматизированной обработки информационных материалов для персонализированного использования
JPH1011462A (ja) * 1996-06-26 1998-01-16 Fuji Xerox Co Ltd 類似関係展開辞書、類似度評価装置、検索装置
JP3504439B2 (ja) * 1996-07-25 2004-03-08 日本電信電話株式会社 映像検索方法
US6185592B1 (en) * 1997-11-18 2001-02-06 Apple Computer, Inc. Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds
JPH11282844A (ja) * 1998-03-26 1999-10-15 Toshiba Corp 文書作成方法および情報処理装置および記録媒体
CA2419105C (en) * 2002-02-20 2007-01-09 Xerox Corporation Generating with lexical functional grammars
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
US20050149499A1 (en) * 2003-12-30 2005-07-07 Google Inc., A Delaware Corporation Systems and methods for improving search quality
US7401077B2 (en) * 2004-12-21 2008-07-15 Palo Alto Research Center Incorporated Systems and methods for using and constructing user-interest sensitive indicators of search results
JP4439431B2 (ja) * 2005-05-25 2010-03-24 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP4654780B2 (ja) * 2005-06-10 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US8060357B2 (en) * 2006-01-27 2011-11-15 Xerox Corporation Linguistic user interface

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2591175C1 (ru) * 2015-03-19 2016-07-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система для глобальной идентификации в коллекции документов

Also Published As

Publication number Publication date
JP2014238865A (ja) 2014-12-18
JP2010538374A (ja) 2010-12-09
BRPI0815826A2 (pt) 2015-02-18
WO2009029903A3 (en) 2009-05-07
CN101796508A (zh) 2010-08-04
RU2480822C2 (ru) 2013-04-27
CN101796508B (zh) 2013-03-06
EP2183684A4 (en) 2017-10-18
CA2698054C (en) 2015-12-22
KR101522049B1 (ko) 2015-05-20
KR20100075451A (ko) 2010-07-02
EP2183684A2 (en) 2010-05-12
MX2010002349A (es) 2010-07-30
AU2008292779A1 (en) 2009-03-05
ZA201001259B (en) 2012-05-30
CA2698054A1 (en) 2009-03-05
AU2008292779B2 (en) 2012-09-06
WO2009029903A2 (en) 2009-03-05

Similar Documents

Publication Publication Date Title
RU2010107148A (ru) Разрешение кореференции в чувствительной к неоднозначности системе обработки естественного языка
JP2010538374A5 (ru)
KR101672579B1 (ko) 키워드 추출에 관한 시스템 및 방법
KR100760301B1 (ko) 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치
CN109145110B (zh) 标签查询方法和装置
TW201131402A (en) Enabling faster full-text searching using a structured data store
KR101727139B1 (ko) 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치
JP2007058605A5 (ru)
JP6672292B2 (ja) 重複ウェブページを除去する方法および装置
JP2006053906A5 (ru)
US20160071511A1 (en) Method and apparatus of smart text reader for converting web page through text-to-speech
CN101276341A (zh) 专利数据检索系统
CN102081634A (zh) 语音检索装置和语音检索方法
CN106095771A (zh) 写作辅助方法及装置
JP2006343870A5 (ru)
CN105630822A (zh) 一种专利检索相似内容标红法
CN106326397A (zh) 生成索引文件的方法及装置
Brenner et al. MediaEval Benchmark: Social Event Detection in collaborative photo collections.
US20140280050A1 (en) Term searching based on context
JP2010049300A5 (ru)
CN105320716A (zh) 数字出版物的自动标注方法
CN113918804A (zh) 商品信息检索系统及方法
Batjargal et al. Metadata-related Challenges for Realizing a Federated Searching System for Japanese Humanities Databases.
Brenner et al. QMUL@ MediaEval 2012: Social Event Detection in Collaborative Photo Collections.
JP2014146136A (ja) アイテム情報検索装置、モデル作成装置、アイテム情報検索方法、モデル作成方法、及びプログラム

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20150526

MM4A The patent is invalid due to non-payment of fees

Effective date: 20170830