RU2016118758A - Способ и устройство для определения сходства, а также терминал - Google Patents

Способ и устройство для определения сходства, а также терминал Download PDF

Info

Publication number
RU2016118758A
RU2016118758A RU2016118758A RU2016118758A RU2016118758A RU 2016118758 A RU2016118758 A RU 2016118758A RU 2016118758 A RU2016118758 A RU 2016118758A RU 2016118758 A RU2016118758 A RU 2016118758A RU 2016118758 A RU2016118758 A RU 2016118758A
Authority
RU
Russia
Prior art keywords
cost
sequence
characters
line
editorial distance
Prior art date
Application number
RU2016118758A
Other languages
English (en)
Other versions
RU2664002C2 (ru
Inventor
Пинцзэ ВАН
Тао ЧЗАН
Фэй Лун
Original Assignee
Сяоми Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Сяоми Инк. filed Critical Сяоми Инк.
Publication of RU2016118758A publication Critical patent/RU2016118758A/ru
Application granted granted Critical
Publication of RU2664002C2 publication Critical patent/RU2664002C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Claims (90)

1. Способ определения сходства, включающий
выполнение разбиения на слова для первой строки символов и второй строки символов, соответственно, в результате чего получают первую последовательность и вторую последовательность, включающие по меньшей мере по одному слову;
определение редакционного расстояния между первой строкой символов и второй строкой символов, согласно заранее заданному алгоритму определения редакционного расстояния первой последовательности и второй последовательности; и
определение сходства между первой строкой символов и второй строкой символов, согласно редакционному расстоянию и информации об операциях для преобразования первой последовательности во вторую последовательность.
2. Способ по п. 1, в котором определение сходства между первой строкой символов и второй строкой символов, согласно редакционному расстоянию и информации об операциях для преобразования первой последовательности во вторую последовательность включает
получение информации об операции замены среди информации о различных операциях для преобразования первой последовательности во вторую последовательность;
определение количества пар, согласно информации об операции замены, где количество пар указывает на количество пар слов, присутствующих одновременно в первой последовательности и второй последовательности; и
определение сходства между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар и стоимости операций, количеству слов в первой последовательности и количеству слов во второй последовательности.
3. Способ по п. 2, в котором определение сходства между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операций, количеству слов в первой
последовательности и количеству слов во второй последовательности, где упомянутые операции включают операцию замены и операцию перестановки, включает
определение минимального семантического редакционного расстояния между первой строкой символов и второй строкой , согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки;
нормализацию минимального семантического редакционного расстояния, в результате чего получают нормализованный результат; и
определение сходства между первой строкой символов и второй строкой символов, согласно нормализованному результату.
4. Способ по п. 2, в котором определение сходства между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операций, количеству слов в первой последовательности и количеству слов во второй последовательности, где упомянутые операции включают по меньшей мере одно из следующего: операцию замены, операцию перестановки, операцию вставки и операцию удаления, включает
определение первого семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки;
определение второго семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно одному из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности; и
определение сходства между первой строкой символов и второй строкой символов, согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию.
5. Способ по любому из пп. 2-4, также включающий
определение стоимости операции замены и стоимости операции перестановки, согласно соотношению между операцией замены и операцией перестановки; и
определение стоимости операции вставки, стоимости операции удаления и стоимости операции замены, согласно соотношению между операцией замены, операцией вставки и операцией удаления.
6. Способ по п. 5, также включающий
определение того, что 2 * стоимость операции замены > стоимость операции перестановки, согласно соотношению между операцией замены и операцией перестановки; и
определение того, что стоимость операции вставки + стоимость операции удаления > стоимость операции замены, согласно соотношению между операцией замены, операцией вставки и операцией удаления.
7. Способ по п. 5, также включающий
определение того, что стоимость операции вставки равна стоимости операции удавления, согласно соотношению между операцией вставки и операцией удаления.
8. Способ по п. 2, в котором определение редакционного расстояния между первой строкой символов и второй строкой символов, согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности включает
определение редакционного расстояния между первой строкой символов и второй строкой символов, согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности на основе приведенной ниже формулы I
Figure 00000001
где i - i-e слово в первой последовательности, j - j-e слово во второй последовательности; cost(S) - стоимость операции удаления, cost(C) - стоимость операции вставки, и cost(T) - стоимость операции замены.
9. Способ по п. 3, в котором определение минимального семантического редакционного расстояния между первой строкой символов и
второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки включает
определение минимального семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки на основе приведенной ниже формулы II
Figure 00000002
где S1 и S2, соответственно, - первая строка символов и вторая строка символов, minCost(S1,S2) - минимальное семантическое редакционное расстояние, d - редакционное расстояние, р - количество пар, cost(J) - стоимость операции перестановки, cost(T) - стоимость операции замены, и 2cost(T)-cost(J)>0.
10. Способ по п. 4, в котором определение минимального семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки включает
определение минимального семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки на основе приведенной ниже формулы III
Figure 00000003
где S1 и S2, соответственно, - первая строка символов и вторая строка символов, minCost(S1,S2) - минимальное семантическое редакционное расстояние, d - редакционное расстояние, р - количество пар,
cost(J) - стоимость операции перестановки, cost(T) - стоимость операции замены, и 2cost(T)-cost(J)>0.
11. Способ по п. 4, в котором определение второго семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно одному из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности, включает
определение второго семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно одному из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности на основе приведенной ниже формулы IV
Figure 00000004
где normFact (S1,S2) - второе семантическое редакционное расстояние, n - количество слов в первой последовательности, m - количество слов во второй последовательности, cost(T) - стоимость операции замены, cost(S) - стоимость операции удаления, и cost(C) - стоимость операции вставки.
12. Способ по п. 4, в котором определение сходства между первой строкой символов и второй строкой символов, согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию включает
определение сходства между первой строкой символов и второй строкой символов, согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию на основе приведенной ниже формулы V
Figure 00000005
Figure 00000006
где sim(S1,S2) - сходство между первой строкой символов и второй строкой символов, minCost(S1,S2) - первое семантическое редакционное расстояние, и normFact(S1,S2) - второе семантическое редакционное расстояние.
13. Устройство для определения сходства, включающее
модуль разбиения на слова, сконфигурированный для выполнения разбиения на слова для первой строки символов и второй строки символов, соответственно, в результате чего получают первую последовательность и вторую последовательность, включающие по меньшей мере по одному слову;
первый модуль определения, сконфигурированный для определения редакционного расстояния между первой строкой символов и второй строкой символов, согласно заранее заданному алгоритму определения редакционного расстояния первой последовательности и второй последовательности; и
второй модуль определения, сконфигурированный для определения сходства между первой строкой символов и второй строкой символов, согласно редакционному расстоянию и информации об операциях для преобразования первой последовательности во вторую последовательность.
14. Устройство по п. 13, в котором второй модуль определения включает
блок получения, сконфигурированный для получения информации об операции замены среди информации об операциях для преобразования первой последовательности во вторую последовательность;
первый блок определения, сконфигурированный для определения количества пар, согласно информации об операции замены, где количество пар указывает на количество пар слов, присутствующих одновременно в первой последовательности и второй последовательности; и
второй блок определения, сконфигурированный для определения сходства между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар и стоимости операций,
количеству слов в первой последовательности и количеству слов во второй последовательности.
15. Устройство по п. 14, в котором упомянутые операции включают операцию замены и операцию перестановки, и при этом второй блок определения включает
третий подблок определения, сконфигурированный для определения минимального семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки;
подблок нормализации, сконфигурированный для нормализации минимального семантического редакционного расстояния, в результате чего получают нормализованный результат; и
второй подблок определения, сконфигурированный для определения сходства между первой строкой символов и второй строкой символов, согласно нормализованному результату.
16. Устройство по п. 14, в котором упомянутые операции включают по меньшей мере одно из следующего: операцию замены, операцию перестановки, операцию вставки и операцию удаления, и при этом второй блок определения включает
третий подблок определения, сконфигурированный для определения первого семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки;
четвертый подблок определения, сконфигурированный для определения второго семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно одному из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности; и
пятый подблок определения, сконфигурированный для определения сходства между первой строкой символов и второй строкой символов,
согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию.
17. Устройство по любому из пп. 14-16, также включающее
третий модуль определения, сконфигурированный для определения стоимости операции замены и стоимости операции перестановки, согласно соотношению между операцией замены и операцией перестановки; и
четвертый модуль определения, сконфигурированный для определения стоимости операции вставки, стоимости операции удаления и стоимости операции замены, согласно соотношению между операцией замены, операцией вставки и операцией удаления.
18. Устройство по п. 17, также включающее
пятый модуль определения, сконфигурированный для определения того, что 2 * стоимость операции замены > стоимость операции перестановки, согласно соотношению между операцией замены и операцией перестановки; и
шестой модуль определения, сконфигурированный для того, что стоимость операции вставки + стоимость операции удаления > стоимость операции замены, согласно соотношению между операцией замены, операцией вставки и операцией удаления.
19. Устройство по п. 17, также включающее
седьмой модуль определения, сконфигурированный для определения того, что стоимость операции вставки равна стоимости операции удавления, согласно соотношению между операцией вставки и операцией удаления.
20. Устройство по п. 14, в котором первый модуль определения сконфигурирован для определения редакционного расстояния между первой строкой символов и второй строкой символов, согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности на основе приведенной ниже формулы
Figure 00000007
Figure 00000008
где i - i-e слово в первой последовательности, j - j-e слово во второй последовательности; cost(S) - стоимость операции удаления, cost(C) - стоимость операции вставки, и cost(T) - стоимость операции замены.
21. Устройство по п. 15, в котором первый подблок определения сконфигурирован для определения первого семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки на основе приведенной ниже формулы
Figure 00000009
где S1 и S2 соответственно, - первая строка символов и вторая строка символов, minCost(S1,S2) - минимальное семантическое редакционное расстояние, d - редакционное расстояние, р - количество пар, cost(J) - стоимость операции перестановки, cost(T) - стоимость операции замены, и 2cost(T)-cost(J)>0
22. Устройство по п. 16, в котором третий подблок определения сконфигурирован для определения первого семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки на основе приведенной ниже формулы
Figure 00000010
где S1 и S2 соответственно, - первая строка символов и вторая строка символов, minCost(S1,S2) - минимальное семантическое редакционное расстояние, d - редакционное расстояние, р - количество пар, cost(J) - стоимость операции перестановки, cost(T) - стоимость операции замены, и 2cost(T)-cost(J)>0.
23. Устройство по п. 16, в котором четвертый подблок определения сконфигурирован для определения второго семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно любому из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности, на основе приведенной ниже формулы
Figure 00000011
где normFact (S1,S2) - второе семантическое редакционное расстояние, n - количество слов в первой последовательности, m - количество слов во второй последовательности, cost(T) - стоимость операции замены, cost(S) - стоимость операции удаления, и cost(C) - стоимость операции вставки.
24. Устройство по п. 16, в котором пятый подблок определения сконфигурирован для определения сходства между первой строкой символов и второй строкой символов, согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию на основе приведенной ниже формулы V
Figure 00000012
где sim(S1,S2) - сходство между первой строкой символов и второй строкой символов, minCost(S1,S2) - первое семантическое редакционное расстояние, и normFact(S1,S2) - второе семантическое редакционное расстояние.
RU2016118758A 2015-12-03 2015-12-29 Способ и устройство для определения сходства, а также терминал RU2664002C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510882468.2 2015-12-03
CN201510882468.2A CN105446957B (zh) 2015-12-03 2015-12-03 相似性确定方法、装置及终端
PCT/CN2015/099523 WO2017092122A1 (zh) 2015-12-03 2015-12-29 相似性确定方法、装置及终端

Publications (2)

Publication Number Publication Date
RU2016118758A true RU2016118758A (ru) 2017-11-20
RU2664002C2 RU2664002C2 (ru) 2018-08-14

Family

ID=55557172

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016118758A RU2664002C2 (ru) 2015-12-03 2015-12-29 Способ и устройство для определения сходства, а также терминал

Country Status (8)

Country Link
US (1) US10089301B2 (ru)
EP (1) EP3179379A1 (ru)
JP (1) JP6321306B2 (ru)
KR (1) KR101782923B1 (ru)
CN (1) CN105446957B (ru)
MX (1) MX365897B (ru)
RU (1) RU2664002C2 (ru)
WO (1) WO2017092122A1 (ru)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10296788B1 (en) * 2016-12-19 2019-05-21 Matrox Electronic Systems Ltd. Method and system for processing candidate strings detected in an image to identify a match of a model string in the image
US10853457B2 (en) * 2018-02-06 2020-12-01 Didi Research America, Llc System and method for program security protection
US10515149B2 (en) * 2018-03-30 2019-12-24 BlackBoiler, LLC Method and system for suggesting revisions to an electronic document
WO2020061910A1 (zh) * 2018-09-27 2020-04-02 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
SG10201904554TA (en) * 2019-05-21 2019-09-27 Alibaba Group Holding Ltd Methods and devices for quantifying text similarity
CN110750615B (zh) * 2019-09-30 2020-07-24 贝壳找房(北京)科技有限公司 文本重复性判定方法和装置、电子设备和存储介质
CN110909161B (zh) * 2019-11-12 2022-04-08 西安电子科技大学 基于密度聚类和视觉相似度的英文单词分类方法
CN111352549B (zh) * 2020-02-25 2022-01-07 腾讯科技(深圳)有限公司 一种数据对象展示方法、装置、设备及存储介质
KR20210132855A (ko) * 2020-04-28 2021-11-05 삼성전자주식회사 음성 처리 방법 및 장치
US11776529B2 (en) * 2020-04-28 2023-10-03 Samsung Electronics Co., Ltd. Method and apparatus with speech processing
CN111967270B (zh) * 2020-08-16 2023-11-21 云知声智能科技股份有限公司 一种基于字符与语义融合的方法和设备
EP4272094A1 (en) 2021-01-04 2023-11-08 Blackboiler, Inc. Editing parameters
CN112597313B (zh) * 2021-03-03 2021-06-29 北京沃丰时代数据科技有限公司 短文本聚类方法、装置、电子设备及存储介质
CN114757153A (zh) * 2022-05-12 2022-07-15 阿里巴巴(中国)有限公司 字符串、字符串集合处理方法、计算机设备及存储介质
KR102517661B1 (ko) * 2022-07-15 2023-04-04 주식회사 액션파워 텍스트 정보에서 타겟 단어에 대응하는 단어를 식별하는 방법
CN116564414B (zh) * 2023-07-07 2024-03-26 腾讯科技(深圳)有限公司 分子序列的比对方法、装置、电子设备、存储介质及产品

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757959A (en) * 1995-04-05 1998-05-26 Panasonic Technologies, Inc. System and method for handwriting matching using edit distance computation in a systolic array processor
NO983175L (no) 1998-07-10 2000-01-11 Fast Search & Transfer Asa Soekesystem for gjenfinning av data
JP2001291060A (ja) * 2000-04-04 2001-10-19 Toshiba Corp 単語列照合装置および単語列照合方法
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US6810376B1 (en) * 2000-07-11 2004-10-26 Nusuara Technologies Sdn Bhd System and methods for determining semantic similarity of sentences
US7734565B2 (en) * 2003-01-18 2010-06-08 Yahoo! Inc. Query string matching method and apparatus
CA2540034A1 (en) * 2003-09-30 2005-05-06 British Telecommunications Public Limited Company Information retrieval
JP2005352888A (ja) * 2004-06-11 2005-12-22 Hitachi Ltd 表記揺れ対応辞書作成システム
US8077984B2 (en) * 2008-01-04 2011-12-13 Xerox Corporation Method for computing similarity between text spans using factored word sequence kernels
US8775441B2 (en) 2008-01-16 2014-07-08 Ab Initio Technology Llc Managing an archive for approximate string matching
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US8170969B2 (en) * 2008-08-13 2012-05-01 Siemens Aktiengesellschaft Automated computation of semantic similarity of pairs of named entity phrases using electronic document corpora as background knowledge
US8219583B2 (en) * 2008-11-10 2012-07-10 Nbcuniversal Media, Llc Methods and systems for mining websites
US8290989B2 (en) * 2008-11-12 2012-10-16 Sap Ag Data model optimization
CN101751430A (zh) * 2008-12-12 2010-06-23 汉王科技股份有限公司 电子词典模糊检索方法
CN101561813B (zh) * 2009-05-27 2010-09-29 东北大学 一种Web环境下的字符串相似度的分析方法
CN101957828B (zh) 2009-07-20 2013-03-06 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置
CN102622338B (zh) * 2012-02-24 2014-02-26 北京工业大学 一种短文本间语义距离的计算机辅助计算方法
CN105027119A (zh) * 2013-03-04 2015-11-04 三菱电机株式会社 检索装置
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
CA2861469A1 (en) * 2013-08-14 2015-02-14 National Research Council Of Canada Method and apparatus to construct program for assisting in reviewing
JP6143638B2 (ja) * 2013-10-17 2017-06-07 株式会社日立ソリューションズ東日本 データ処理装置およびデータ処理方法
US9430463B2 (en) * 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9672206B2 (en) * 2015-06-01 2017-06-06 Information Extraction Systems, Inc. Apparatus, system and method for application-specific and customizable semantic similarity measurement

Also Published As

Publication number Publication date
MX2016005489A (es) 2017-11-30
KR101782923B1 (ko) 2017-09-28
MX365897B (es) 2019-06-19
CN105446957B (zh) 2018-07-20
US20170161260A1 (en) 2017-06-08
US10089301B2 (en) 2018-10-02
EP3179379A1 (en) 2017-06-14
WO2017092122A1 (zh) 2017-06-08
RU2664002C2 (ru) 2018-08-14
JP6321306B2 (ja) 2018-05-09
JP2018501597A (ja) 2018-01-18
CN105446957A (zh) 2016-03-30

Similar Documents

Publication Publication Date Title
RU2016118758A (ru) Способ и устройство для определения сходства, а также терминал
US10783171B2 (en) Address search method and device
RU2014112242A (ru) Метод анализа тональности текстовых данных
KR101220709B1 (ko) 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 장치 및 방법
CN103164698B (zh) 文本指纹库生成方法及装置、文本指纹匹配方法及装置
RU2015151699A (ru) Извлечение сущностей из текстов на естественном языке
JP2016522524A (ja) 同義表現の探知及び関連コンテンツを検索する方法及び装置
WO2009066501A1 (ja) 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
CN107329950B (zh) 一种基于无词典的中文地址分词方法
RU2016130290A (ru) Способ декодирования полярного кода и устройство декодирования
US10691769B2 (en) Methods and apparatus for removing a duplicated web page
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
RU2016111908A (ru) Способ и устройство для добавления шрифта
CN108074562A (zh) 语音识别装置、语音识别方法以及存储介质
US20160196303A1 (en) String search device, string search method, and string search program
WO2018041036A1 (zh) 关键词的查找方法、装置及终端
RU2016131502A (ru) Способ и аппарат для отображения интерфейса
CN105718463A (zh) 关键字模糊匹配方法及装置
CN110534115A (zh) 多方言混合语音的识别方法、装置、系统和存储介质
CN101655846A (zh) 中文输入法标点关联方法及装置
CN105488105A (zh) 信息提取模板的建立方法、知识数据的处理方法和装置
US11031092B2 (en) Taxonomic annotation of variable length metagenomic patterns
CN102902918A (zh) 一种基于复合特征码的恶意文件检测方法
US10755183B1 (en) Building training data and similarity relations for semantic space
KR20140139922A (ko) 음성 인식 장치 및 이의 음성 인식 방법