RU2016118758A

RU2016118758A - Способ и устройство для определения сходства, а также терминал

Info

Publication number: RU2016118758A
Application number: RU2016118758A
Authority: RU
Inventors: Пинцзэ ВАН; Тао ЧЗАН; Фэй Лун
Original assignee: Сяоми Инк.
Priority date: 2015-12-03
Filing date: 2015-12-29
Publication date: 2017-11-20
Also published as: MX2016005489A; KR101782923B1; MX365897B; CN105446957B; US20170161260A1; US10089301B2; EP3179379A1; WO2017092122A1; RU2664002C2; JP6321306B2; JP2018501597A; CN105446957A

Claims

1. Способ определения сходства, включающий

выполнение разбиения на слова для первой строки символов и второй строки символов, соответственно, в результате чего получают первую последовательность и вторую последовательность, включающие по меньшей мере по одному слову;

определение редакционного расстояния между первой строкой символов и второй строкой символов, согласно заранее заданному алгоритму определения редакционного расстояния первой последовательности и второй последовательности; и

определение сходства между первой строкой символов и второй строкой символов, согласно редакционному расстоянию и информации об операциях для преобразования первой последовательности во вторую последовательность.

2. Способ по п. 1, в котором определение сходства между первой строкой символов и второй строкой символов, согласно редакционному расстоянию и информации об операциях для преобразования первой последовательности во вторую последовательность включает

получение информации об операции замены среди информации о различных операциях для преобразования первой последовательности во вторую последовательность;

определение количества пар, согласно информации об операции замены, где количество пар указывает на количество пар слов, присутствующих одновременно в первой последовательности и второй последовательности; и

определение сходства между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар и стоимости операций, количеству слов в первой последовательности и количеству слов во второй последовательности.

3. Способ по п. 2, в котором определение сходства между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операций, количеству слов в первой

последовательности и количеству слов во второй последовательности, где упомянутые операции включают операцию замены и операцию перестановки, включает

определение минимального семантического редакционного расстояния между первой строкой символов и второй строкой , согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки;

нормализацию минимального семантического редакционного расстояния, в результате чего получают нормализованный результат; и

определение сходства между первой строкой символов и второй строкой символов, согласно нормализованному результату.

4. Способ по п. 2, в котором определение сходства между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операций, количеству слов в первой последовательности и количеству слов во второй последовательности, где упомянутые операции включают по меньшей мере одно из следующего: операцию замены, операцию перестановки, операцию вставки и операцию удаления, включает

определение первого семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки;

определение второго семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно одному из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности; и

определение сходства между первой строкой символов и второй строкой символов, согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию.

5. Способ по любому из пп. 2-4, также включающий

определение стоимости операции замены и стоимости операции перестановки, согласно соотношению между операцией замены и операцией перестановки; и

определение стоимости операции вставки, стоимости операции удаления и стоимости операции замены, согласно соотношению между операцией замены, операцией вставки и операцией удаления.

6. Способ по п. 5, также включающий

определение того, что 2 * стоимость операции замены > стоимость операции перестановки, согласно соотношению между операцией замены и операцией перестановки; и

определение того, что стоимость операции вставки + стоимость операции удаления > стоимость операции замены, согласно соотношению между операцией замены, операцией вставки и операцией удаления.

7. Способ по п. 5, также включающий

определение того, что стоимость операции вставки равна стоимости операции удавления, согласно соотношению между операцией вставки и операцией удаления.

8. Способ по п. 2, в котором определение редакционного расстояния между первой строкой символов и второй строкой символов, согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности включает

определение редакционного расстояния между первой строкой символов и второй строкой символов, согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности на основе приведенной ниже формулы I

где i - i-e слово в первой последовательности, j - j-e слово во второй последовательности; cost(S) - стоимость операции удаления, cost(C) - стоимость операции вставки, и cost(T) - стоимость операции замены.

9. Способ по п. 3, в котором определение минимального семантического редакционного расстояния между первой строкой символов и

второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки включает

определение минимального семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки на основе приведенной ниже формулы II

где S1 и S2, соответственно, - первая строка символов и вторая строка символов, minCost(S1,S2) - минимальное семантическое редакционное расстояние, d - редакционное расстояние, р - количество пар, cost(J) - стоимость операции перестановки, cost(T) - стоимость операции замены, и 2cost(T)-cost(J)>0.

10. Способ по п. 4, в котором определение минимального семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки включает

определение минимального семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки на основе приведенной ниже формулы III

где S1 и S2, соответственно, - первая строка символов и вторая строка символов, minCost(S1,S2) - минимальное семантическое редакционное расстояние, d - редакционное расстояние, р - количество пар,

cost(J) - стоимость операции перестановки, cost(T) - стоимость операции замены, и 2cost(T)-cost(J)>0.

11. Способ по п. 4, в котором определение второго семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно одному из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности, включает

определение второго семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно одному из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности на основе приведенной ниже формулы IV

где normFact (S1,S2) - второе семантическое редакционное расстояние, n - количество слов в первой последовательности, m - количество слов во второй последовательности, cost(T) - стоимость операции замены, cost(S) - стоимость операции удаления, и cost(C) - стоимость операции вставки.

12. Способ по п. 4, в котором определение сходства между первой строкой символов и второй строкой символов, согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию включает

определение сходства между первой строкой символов и второй строкой символов, согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию на основе приведенной ниже формулы V

где sim(S1,S2) - сходство между первой строкой символов и второй строкой символов, minCost(S1,S2) - первое семантическое редакционное расстояние, и normFact(S1,S2) - второе семантическое редакционное расстояние.

13. Устройство для определения сходства, включающее

модуль разбиения на слова, сконфигурированный для выполнения разбиения на слова для первой строки символов и второй строки символов, соответственно, в результате чего получают первую последовательность и вторую последовательность, включающие по меньшей мере по одному слову;

первый модуль определения, сконфигурированный для определения редакционного расстояния между первой строкой символов и второй строкой символов, согласно заранее заданному алгоритму определения редакционного расстояния первой последовательности и второй последовательности; и

второй модуль определения, сконфигурированный для определения сходства между первой строкой символов и второй строкой символов, согласно редакционному расстоянию и информации об операциях для преобразования первой последовательности во вторую последовательность.

14. Устройство по п. 13, в котором второй модуль определения включает

блок получения, сконфигурированный для получения информации об операции замены среди информации об операциях для преобразования первой последовательности во вторую последовательность;

первый блок определения, сконфигурированный для определения количества пар, согласно информации об операции замены, где количество пар указывает на количество пар слов, присутствующих одновременно в первой последовательности и второй последовательности; и

второй блок определения, сконфигурированный для определения сходства между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар и стоимости операций,

количеству слов в первой последовательности и количеству слов во второй последовательности.

15. Устройство по п. 14, в котором упомянутые операции включают операцию замены и операцию перестановки, и при этом второй блок определения включает

третий подблок определения, сконфигурированный для определения минимального семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки;

подблок нормализации, сконфигурированный для нормализации минимального семантического редакционного расстояния, в результате чего получают нормализованный результат; и

второй подблок определения, сконфигурированный для определения сходства между первой строкой символов и второй строкой символов, согласно нормализованному результату.

16. Устройство по п. 14, в котором упомянутые операции включают по меньшей мере одно из следующего: операцию замены, операцию перестановки, операцию вставки и операцию удаления, и при этом второй блок определения включает

третий подблок определения, сконфигурированный для определения первого семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки;

четвертый подблок определения, сконфигурированный для определения второго семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно одному из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности; и

пятый подблок определения, сконфигурированный для определения сходства между первой строкой символов и второй строкой символов,

согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию.

17. Устройство по любому из пп. 14-16, также включающее

третий модуль определения, сконфигурированный для определения стоимости операции замены и стоимости операции перестановки, согласно соотношению между операцией замены и операцией перестановки; и

четвертый модуль определения, сконфигурированный для определения стоимости операции вставки, стоимости операции удаления и стоимости операции замены, согласно соотношению между операцией замены, операцией вставки и операцией удаления.

18. Устройство по п. 17, также включающее

пятый модуль определения, сконфигурированный для определения того, что 2 * стоимость операции замены > стоимость операции перестановки, согласно соотношению между операцией замены и операцией перестановки; и

шестой модуль определения, сконфигурированный для того, что стоимость операции вставки + стоимость операции удаления > стоимость операции замены, согласно соотношению между операцией замены, операцией вставки и операцией удаления.

19. Устройство по п. 17, также включающее

седьмой модуль определения, сконфигурированный для определения того, что стоимость операции вставки равна стоимости операции удавления, согласно соотношению между операцией вставки и операцией удаления.

20. Устройство по п. 14, в котором первый модуль определения сконфигурирован для определения редакционного расстояния между первой строкой символов и второй строкой символов, согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности на основе приведенной ниже формулы

21. Устройство по п. 15, в котором первый подблок определения сконфигурирован для определения первого семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки на основе приведенной ниже формулы

где S1 и S2 соответственно, - первая строка символов и вторая строка символов, minCost(S1,S2) - минимальное семантическое редакционное расстояние, d - редакционное расстояние, р - количество пар, cost(J) - стоимость операции перестановки, cost(T) - стоимость операции замены, и 2cost(T)-cost(J)>0

22. Устройство по п. 16, в котором третий подблок определения сконфигурирован для определения первого семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки на основе приведенной ниже формулы

где S1 и S2 соответственно, - первая строка символов и вторая строка символов, minCost(S1,S2) - минимальное семантическое редакционное расстояние, d - редакционное расстояние, р - количество пар, cost(J) - стоимость операции перестановки, cost(T) - стоимость операции замены, и 2cost(T)-cost(J)>0.

23. Устройство по п. 16, в котором четвертый подблок определения сконфигурирован для определения второго семантического редакционного расстояния между первой строкой символов и второй строкой символов, согласно любому из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности, на основе приведенной ниже формулы

24. Устройство по п. 16, в котором пятый подблок определения сконфигурирован для определения сходства между первой строкой символов и второй строкой символов, согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию на основе приведенной ниже формулы V