TWI664540B - Search word error correction method and device, and weighted edit distance calculation method and device - Google Patents

Search word error correction method and device, and weighted edit distance calculation method and device Download PDF

Info

Publication number
TWI664540B
TWI664540B TW106129000A TW106129000A TWI664540B TW I664540 B TWI664540 B TW I664540B TW 106129000 A TW106129000 A TW 106129000A TW 106129000 A TW106129000 A TW 106129000A TW I664540 B TWI664540 B TW I664540B
Authority
TW
Taiwan
Prior art keywords
word
search
characters
weighted
character
Prior art date
Application number
TW106129000A
Other languages
English (en)
Chinese (zh)
Other versions
TW201812619A (zh
Inventor
胡軍
陳英傑
王天暢
葉澄燦
Original Assignee
大陸商北京奇藝世紀科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商北京奇藝世紀科技有限公司 filed Critical 大陸商北京奇藝世紀科技有限公司
Publication of TW201812619A publication Critical patent/TW201812619A/zh
Application granted granted Critical
Publication of TWI664540B publication Critical patent/TWI664540B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
TW106129000A 2016-08-31 2017-08-25 Search word error correction method and device, and weighted edit distance calculation method and device TWI664540B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
??201610799830.4 2016-08-31
CN201610799830.4A CN106326484A (zh) 2016-08-31 2016-08-31 搜索词纠错方法及装置

Publications (2)

Publication Number Publication Date
TW201812619A TW201812619A (zh) 2018-04-01
TWI664540B true TWI664540B (zh) 2019-07-01

Family

ID=57786348

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106129000A TWI664540B (zh) 2016-08-31 2017-08-25 Search word error correction method and device, and weighted edit distance calculation method and device

Country Status (11)

Country Link
US (1) US11574012B2 (https=)
EP (1) EP3508992A4 (https=)
JP (1) JP6997781B2 (https=)
KR (1) KR102204971B1 (https=)
CN (1) CN106326484A (https=)
AU (1) AU2017317878B2 (https=)
CA (1) CA3029588C (https=)
MY (1) MY193919A (https=)
SG (1) SG11201900084PA (https=)
TW (1) TWI664540B (https=)
WO (1) WO2018040899A1 (https=)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3488363A4 (en) * 2016-07-25 2019-08-07 Siemens Healthcare Diagnostics Inc. METHOD AND DEVICE FOR CORRECTING INSTRUMENT ERROR FUNCTIONS
CN106326484A (zh) 2016-08-31 2017-01-11 北京奇艺世纪科技有限公司 搜索词纠错方法及装置
RU2684578C2 (ru) * 2017-07-17 2019-04-09 Общество с ограниченной ответственностью "Лаборатория ИнфоВотч" Языконезависимая технология исправления опечаток, с возможностью верификации результата
CN107423444B (zh) * 2017-08-10 2020-05-19 世纪龙信息网络有限责任公司 热词词组提取方法和系统
CN107766327A (zh) * 2017-10-23 2018-03-06 武汉楚鼎信息技术有限公司 一种命名实体识别过程中纠错的方法及系统
CN108062373A (zh) * 2017-12-12 2018-05-22 焦点科技股份有限公司 一种具有纠错功能的关键词下拉联想的方法
CN109992749A (zh) * 2017-12-29 2019-07-09 珠海金山办公软件有限公司 一种文字显示方法、装置、电子设备及可读存储介质
CN110196833B (zh) * 2018-03-22 2023-06-09 腾讯科技(深圳)有限公司 应用程序的搜索方法、装置、终端及存储介质
JP6660974B2 (ja) * 2018-03-30 2020-03-11 本田技研工業株式会社 情報提供装置、情報提供方法、およびプログラム
US10963717B1 (en) * 2018-12-21 2021-03-30 Automation Anywhere, Inc. Auto-correction of pattern defined strings
CN109711412A (zh) * 2018-12-27 2019-05-03 信雅达系统工程股份有限公司 一种基于字典的光学字符识别纠错方法
CN110163498B (zh) * 2019-05-15 2021-08-03 广州视源电子科技股份有限公司 课件原创度评分方法、装置、存储介质及处理器
CN110415705B (zh) * 2019-08-01 2022-03-01 苏州奇梦者网络科技有限公司 一种热词识别方法、系统、装置及存储介质
CN110795617A (zh) * 2019-08-12 2020-02-14 腾讯科技(深圳)有限公司 一种搜索词的纠错方法及相关装置
CN110909535B (zh) * 2019-12-06 2023-04-07 北京百分点科技集团股份有限公司 命名实体校对方法、装置、可读存储介质及电子设备
CN113095066A (zh) * 2019-12-23 2021-07-09 华为技术有限公司 文本处理方法及装置
CN111310442B (zh) * 2020-02-06 2021-12-28 北京字节跳动网络技术有限公司 形近字纠错语料挖掘方法、纠错方法、设备及存储介质
WO2021227059A1 (zh) * 2020-05-15 2021-11-18 深圳市世强元件网络有限公司 一种基于多叉树的搜索词推荐方法及系统
CN112131461A (zh) * 2020-09-09 2020-12-25 重庆易宠科技有限公司 一种商品搜索方法、系统、终端及计算机可读存储介质
CN112069374B (zh) * 2020-09-18 2024-04-30 中国工商银行股份有限公司 一种银行多个客户编号的识别方法及装置
CN112613522B (zh) * 2021-01-04 2023-03-14 重庆邮电大学 一种基于融合字形信息的服药单识别结果纠错方法
CN112929131B (zh) * 2021-02-22 2022-05-27 天津师范大学 一种基于加权编辑距离的标记码传输方法
CN112560452B (zh) * 2021-02-25 2021-05-18 智者四海(北京)技术有限公司 一种自动生成纠错语料的方法和系统
CN113705202A (zh) * 2021-08-31 2021-11-26 北京金堤科技有限公司 搜索输入信息纠错方法、装置以及电子设备、存储介质
CN114943966A (zh) * 2022-04-27 2022-08-26 联宝(合肥)电子科技有限公司 字符串相似度的确定方法、装置、存储介质及电子设备
CN121478764B (zh) * 2026-01-08 2026-03-31 中国电子科技集团公司第二十八研究所 基于大模型的人员信息纠错方法、系统和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644075B2 (en) * 2007-06-01 2010-01-05 Microsoft Corporation Keyword usage score based on frequency impulse and frequency weight
CN101916263A (zh) * 2010-07-27 2010-12-15 武汉大学 基于加权编辑距离的模糊关键字查询方法及系统
CN102063508A (zh) * 2011-01-10 2011-05-18 浙江大学 基于广义后缀树的中文搜索引擎模糊自动补全方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4283898B2 (ja) 1995-10-20 2009-06-24 富士通株式会社 文章校正装置
US6073099A (en) * 1997-11-04 2000-06-06 Nortel Networks Corporation Predicting auditory confusions using a weighted Levinstein distance
JP3599180B2 (ja) * 1998-12-15 2004-12-08 松下電器産業株式会社 検索方法、検索装置および記録媒体
US7617202B2 (en) * 2003-06-16 2009-11-10 Microsoft Corporation Systems and methods that employ a distributional analysis on a query log to improve search results
US7321892B2 (en) * 2005-08-11 2008-01-22 Amazon Technologies, Inc. Identifying alternative spellings of search strings by analyzing self-corrective searching behaviors of users
US7590626B2 (en) 2006-10-30 2009-09-15 Microsoft Corporation Distributional similarity-based models for query correction
US20090083255A1 (en) * 2007-09-24 2009-03-26 Microsoft Corporation Query spelling correction
JP5308786B2 (ja) 2008-11-20 2013-10-09 Kddi株式会社 文書データ検索装置
CN101777042B (zh) * 2010-01-21 2013-01-16 西南科技大学 信息检索领域中基于神经网络和标签库的语句相似度算法
CN102915314B (zh) 2011-08-05 2018-07-31 深圳市世纪光速信息技术有限公司 一种纠错对自动生成方法及系统
US10176168B2 (en) 2011-11-15 2019-01-08 Microsoft Technology Licensing, Llc Statistical machine translation based search query spelling correction
CN102831177B (zh) * 2012-07-31 2015-09-02 聚熵信息技术(上海)有限公司 语句纠错方法及其系统
KR101483433B1 (ko) * 2013-03-28 2015-01-16 (주)이스트소프트 오타 교정 시스템 및 오타 교정 방법
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
JP5846340B2 (ja) 2013-09-20 2016-01-20 三菱電機株式会社 文字列検索装置
CN103927329B (zh) * 2014-03-19 2017-03-29 北京奇虎科技有限公司 一种即时搜索方法和系统
GB2535439A (en) 2015-01-06 2016-08-24 What3Words Ltd A method for suggesting candidate words as replacements for an input string received at an electronic device
CN106326484A (zh) 2016-08-31 2017-01-11 北京奇艺世纪科技有限公司 搜索词纠错方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644075B2 (en) * 2007-06-01 2010-01-05 Microsoft Corporation Keyword usage score based on frequency impulse and frequency weight
CN101916263A (zh) * 2010-07-27 2010-12-15 武汉大学 基于加权编辑距离的模糊关键字查询方法及系统
CN101916263B (zh) 2010-07-27 2012-10-31 武汉大学 基于加权编辑距离的模糊关键字查询方法及系统
CN102063508A (zh) * 2011-01-10 2011-05-18 浙江大学 基于广义后缀树的中文搜索引擎模糊自动补全方法
CN102063508B (zh) 2011-01-10 2013-06-05 浙江大学 基于广义后缀树的中文搜索引擎模糊自动补全方法

Also Published As

Publication number Publication date
CN106326484A (zh) 2017-01-11
MY193919A (en) 2022-11-01
TW201812619A (zh) 2018-04-01
JP2019526142A (ja) 2019-09-12
AU2017317878A1 (en) 2019-01-31
WO2018040899A1 (zh) 2018-03-08
EP3508992A1 (en) 2019-07-10
SG11201900084PA (en) 2019-03-28
KR102204971B1 (ko) 2021-01-20
US11574012B2 (en) 2023-02-07
JP6997781B2 (ja) 2022-01-18
AU2017317878B2 (en) 2020-11-19
KR20190020119A (ko) 2019-02-27
EP3508992A4 (en) 2019-09-04
CA3029588C (en) 2023-07-11
CA3029588A1 (en) 2018-03-08
US20190179855A1 (en) 2019-06-13

Similar Documents

Publication Publication Date Title
TWI664540B (zh) Search word error correction method and device, and weighted edit distance calculation method and device
CN106202153B (zh) 一种es搜索引擎的拼写纠错方法及系统
US10089303B2 (en) Customizable and low-latency interactive computer-aided translation
US11531693B2 (en) Information processing apparatus, method and non-transitory computer readable medium
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN112232055B (zh) 一种基于拼音相似度与语言模型的文本检测与纠正方法
CN114154487B (zh) 文本自动纠错方法、装置、电子设备及存储介质
WO2015176518A1 (zh) 一种回复信息推荐方法及装置
US20220414332A1 (en) Method and system for automatically generating blank-space inference questions for foreign language sentence
CN104866498A (zh) 一种信息处理方法及装置
CN111401080B (zh) 神经机器翻译方法以及神经机器翻译装置
CN112329482A (zh) 机器翻译方法、装置、电子设备和可读存储介质
CN113435188B (zh) 基于语义相似的过敏文本样本生成方法、装置及相关设备
CN110263127A (zh) 基于用户查询词进行文本搜索方法及装置
CN110348020A (zh) 一种英文单词拼写纠错方法、装置、设备及可读存储介质
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
WO2014036827A1 (zh) 一种文本校正方法及用户设备
JP2016102866A (ja) 誤認識修正装置およびプログラム
CN107066533B (zh) 搜索查询纠错系统及方法
CN119396986B (zh) 基于序列生成的检索增强生成方法
CN120561244A (zh) 问答交互方法及电子设备
CN107894977A (zh) 结合兼类词词性消歧模型和字典的越南语词性标记方法
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
CN117709334A (zh) 文本纠错方法及装置、存储介质和服务器
CN121562641B (zh) 一种大语言模型机器翻译优化方法及系统