RU2664002C2 - Способ и устройство для определения сходства, а также терминал - Google Patents

Способ и устройство для определения сходства, а также терминал Download PDF

Info

Publication number
RU2664002C2
RU2664002C2 RU2016118758A RU2016118758A RU2664002C2 RU 2664002 C2 RU2664002 C2 RU 2664002C2 RU 2016118758 A RU2016118758 A RU 2016118758A RU 2016118758 A RU2016118758 A RU 2016118758A RU 2664002 C2 RU2664002 C2 RU 2664002C2
Authority
RU
Russia
Prior art keywords
cost
sequence
characters
line
editorial distance
Prior art date
Application number
RU2016118758A
Other languages
English (en)
Other versions
RU2016118758A (ru
Inventor
Пинцзэ ВАН
Тао ЧЗАН
Фэй Лун
Original Assignee
Сяоми Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Сяоми Инк. filed Critical Сяоми Инк.
Publication of RU2016118758A publication Critical patent/RU2016118758A/ru
Application granted granted Critical
Publication of RU2664002C2 publication Critical patent/RU2664002C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Abstract

Изобретение относится к области обработки текстов на естественных языках. Техническим результатом является более точное определение сходства между двумя строками символов. Способ определения сходства между строками символов включает выполнение разбиения на слова для первой строки символов и второй строки символов, соответственно, в результате чего получают первую последовательность и вторую последовательность, каждая из которых включает по меньшей мере одно слово; определение редакционного расстояния между первой строкой символов и второй строкой символов согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности; и определение сходства между первой строкой символов и второй строкой символов согласно редакционному расстоянию и информации об операциях для преобразования первой последовательности во вторую последовательность. Для первой строки символов и второй строки символов выполняют, соответственно, разбиение на слова, в результате чего получают их разбиение на первую последовательность и вторую последовательность, и таким образом редакционное расстояние для преобразования первой строки символов во вторую строку символов определяют на основе отдельных слов в строке символов, вместо отдельных символов в строке символов. 2 н. и 14 з.п. ф-лы, 11 ил.

Description

Перекрестные ссылки на связанные заявки
[0001] Настоящая заявка ссылается на приоритет заявки на патент Китайской Народной Республики №201510882468.2, на которой она основана и которая была зарегистрирована 3 декабря 2015 г.. При этом содержание упомянутой заявки полностью включено в настоящий документ путем ссылки.
Область техники
[0002] Настоящее изобретение относится, в общем, к области обработки текстов на естественных языках, а именно, к способу и устройству для определения сходства, а также к терминалу.
Предпосылки создания изобретения
[0003] В области обработки текстов на естественных языках основная проблема - это создание способа определения сходства между строками символов, который мог бы найти применение во множестве различных сценариев применения, например, при кластеризации текстов или при извлечении информации и т.п. Соответственно, метод определения сходства между строками символов находится в фокусе интереса очень многих исследователей.
[0004] На существующем уровне развития техники сходство между строками символов определяют при помощи вычисления редакционного расстояния между двумя строками символов. А именно, две строки символов разбивают, соответственно, на отдельные символы; затем над символами одной из строк выполняют операции удаления, вставки или замены, чтобы преобразовать эту строку в другую строку символов; после чего вычисляют минимальное количество операций, необходимое для преобразования одной строки символов в другую, и это минимальное количество операций принимают за редакционное расстояние между двумя строками символов; наконец, в соответствии с редакционным расстоянием вычисляют сходство между двумя строками символов.
Сущность изобретения
[0005] В настоящем изобретении предложены способ и устройство для определения сходства, а также терминал.
[0006] В соответствии с первым аспектом настоящего изобретения предложен способ определения сходства, включающий:
выполнение разбиения на слова для первой строки символов и второй строки символов, соответственно, в результате чего получают первую последовательность и вторую последовательность, причем первая последовательность и вторая последовательность, каждая, включают по меньшей мере по одному слову;
определение редакционного расстояния между первой строкой символов и второй строкой символов согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности; и
определение сходства между первой строкой символов и второй строкой символов согласно редакционному расстоянию и информации о различных операциях для преобразования первой последовательности во вторую последовательность.
[0007] В соответствии со вторым аспектом вариантов осуществления настоящего изобретения предложено устройство для определения сходства, включающее:
модуль разбиения на слова, сконфигурированный для выполнения разбиения на слова для первой строки символов и второй строки символов, соответственно, в результате чего получают первую последовательность и вторую последовательность, причем первая последовательность и вторая последовательность, каждая, включают по меньшей мере по одному слову;
первый модуль определения, сконфигурированный для определения редакционного расстояния между первой строкой символов и второй строкой символов согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности; и
второй модуль определения, сконфигурированный для определения сходства между первой строкой символов и второй строкой символов согласно редакционному расстоянию и информации о различных операциях для преобразования первой последовательности во вторую последовательность.
[0008] В соответствии с третьим аспектом вариантов осуществления настоящего изобретения предложен терминал, включающий:
процессор; и
память, сконфигурированную для хранения инструкций, исполняемых упомянутым процессором;
при этом процессор сконфигурирован:
для выполнения разбиения на слова для первой строки символов и второй строки символов, соответственно, в результате чего получают первую последовательность и вторую последовательность, причем первая последовательность и вторая последовательность, каждая, включают по меньшей мере по одному слову;
для определения редакционного расстояния между первой строкой символов и второй строкой символов согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности; и
для определения сходства между первой строкой символов и второй строкой символов согласно редакционному расстоянию и информации о различных операциях для преобразования первой последовательности во вторую последовательность.
[0009] Технические решения, предложенные в вариантах осуществления настоящего изобретения, позволяют, по меньшей мере частично, получить следующие полезные результаты:
[0010] для первой строки символов и второй строки символов выполняют, соответственно, разбиение на слова, в результате чего получают первую последовательность и вторую последовательно, и таким образом, редакционное расстояние для преобразования первой строки символов во вторую строку символов может быть определено на основе отдельных слов в первой последовательности и второй последовательности, вместо отдельных символов в первой строке символов и второй строке символов.
При этом каждое слово в строке символов может включать по меньшей мере один символ, и сходство, таким образом, может быть определено согласно редакционному расстоянию в сочетании с корреляцией между символами в строке символов, что позволяет определять сходство более точно.
[0011] Нужно понимать, что и предшествующее общее описание, и подробное описание, приведенное ниже, являются исключительно иллюстративными и пояснительными и не ограничивают настоящее изобретение.
Краткое описание чертежей
[0012] На приложенных чертежах, которые входят в состав настоящего описания и являются его неотъемлемой частью, проиллюстрированы варианты осуществления, соответствующие настоящему изобретению. Приложенные чертежи, вместе с описанием, служат для разъяснения замысла настоящего изобретения.
[0013] Фиг. 1 представляет собой блок-схему алгоритма, иллюстрирующую способ определения сходства в соответствии с одним из примеров осуществления настоящего изобретения.
[0014] Фиг. 2 представляет собой блок-схему алгоритма, иллюстрирующую способ определения сходства в соответствии с одним из примеров осуществления настоящего изобретения.
[0015] Фиг. 3 представляет собой блок-схему, иллюстрирующую устройство для определения сходства в соответствии с одним из примеров осуществления настоящего изобретения.
[0016] Фиг. 4 представляет собой блок-схему, иллюстрирующую второй модуль определения в соответствии с одним из примеров осуществления настоящего изобретения.
[0017] Фиг. 5 представляет собой блок-схему, иллюстрирующую второй блок определения в соответствии с одним из примеров осуществления настоящего изобретения.
[0018] Фиг. 6 представляет собой блок-схему, иллюстрирующую второй блок определения в соответствии с одним из примеров осуществления настоящего изобретения.
[0019] Фиг. 7 представляет собой блок-схему, иллюстрирующую устройство для определения сходства в соответствии с одним из примеров осуществления настоящего изобретения.
[0020] Фиг. 8 представляет собой блок-схему, иллюстрирующую устройство для определения сходства в соответствии с одним из примеров осуществления настоящего изобретения.
[0021] Фиг. 9 представляет собой блок-схему, иллюстрирующую устройство для определения сходства в соответствии с одним из примеров осуществления настоящего изобретения.
[0022] Фиг. 10 представляет собой блок-схему, иллюстрирующую терминал в соответствии с одним из примеров осуществления настоящего изобретения.
[0023] Фиг. 11 представляет собой блок-схему, иллюстрирующую сервер в соответствии с одним из примеров осуществления настоящего изобретения.
Подробное описание изобретения
[0024] Далее настоящее изобретение будет описано более подробно с помощью конкретных примеров его осуществления, которые проиллюстрированы на приложенных чертежах. В приведенном ниже описании осуществляются ссылки на приложенные чертежи, где, если не указано обратное, аналогичными обозначениями на различных чертежах обозначены одинаковые или аналогичные элементы. Реализации примеров осуществления настоящего изобретения, изложенные в приведенном ниже описании, не являются всеми возможными реализациями, соответствующими настоящему изобретению. Напротив, они являются исключительно примерами устройств и способов, которые соответствуют аспектам, связанным с настоящим изобретением и изложенным в приложенной формуле изобретения.
[0025] В области обработки текстов на естественных языках основная проблема - это создание способа определения сходства между строками символов, который мог бы найти применение во множестве различных сценариев применения, например, в кластеризации текстов или при извлечении информации и т.п. В целях повышения точности определения сходства между двумя строками символов в вариантах осуществления настоящего изобретения предложен способ определения сходства. Фиг. 1 представляет собой блок-схему алгоритма, иллюстрирующую способ определения сходства в соответствии с одним из примеров осуществления настоящего изобретения, при этом способ определения сходства, предложенный в вариантах осуществления настоящего изобретения, может применяться в терминале. В соответствии с иллюстрацией фиг. 1, способ определения сходства, предложенный в вариантах осуществления настоящего изобретения, включает шаги, описанные ниже.
[0026] На шаге S101 выполняют разбиение на слова для первой строки символов и второй строки символов, соответственно, в результате чего получают первую последовательность и вторую последовательность, причем первая последовательность и вторая последовательность, каждая, включают по меньшей мере по одному слову.
[0027] На шаге S102 определяют редакционное расстояние между первой строкой символов и второй строкой символов согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности.
[0028] На шаге 103 определяют сходство между первой строкой символов и второй строкой символов согласно редакционному расстоянию и информации о различных операциях для преобразования первой последовательности во вторую последовательность.
[0029] В способе, предложенном в вариантах осуществления настоящего изобретения, для первой строки символов и второй строки символов выполняют, соответственно, разбиение на слова, в результате чего получают их разбиение на первую последовательность и вторую последовательность, и таким образом определяют редакционное расстояние для преобразования первой строки символов во вторую строку символов на основе отдельных слов в первой последовательности и второй последовательности, вместо отдельных символов в первой строке символов и второй строке символов. Каждое слово в строке символов может включать по меньшей мере один символ. Таким образом, сходство может быть определено согласно редакционному расстоянию в сочетании с корреляцией между символами в строке символов, что позволяет определять сходство более точно.
[0030] В еще одном из вариантов осуществления настоящего изобретения определение сходства между первой строкой символов и второй строкой символов согласно редакционному расстоянию и информации о различных операциях для преобразования первой последовательности во вторую последовательность включает:
получение информации об операции замены среди информации о различных операциях для преобразования первой последовательности во вторую последовательность;
определение количества пар согласно информации об операции замены, где под количеством пар понимается количество пар слов, присутствующих одновременно в первой последовательности и второй последовательности; и
определение сходства между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар и стоимости различных операций, количеству слов в первой последовательности и количеству слов во второй последовательности.
[0031] В еще одном из вариантов осуществления настоящего изобретения определение сходства между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар и стоимости различных операций, количеству слов в первой последовательности и количеству слов во второй последовательности, где упомянутые различные операции включают операцию замены и операцию перестановки, включает:
определение минимального семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки;
нормализацию минимального семантического редакционного расстояния, в результате чего получают нормализованный результат; и
определение сходства между первой строкой символов и второй строкой символов согласно нормализованному результату.
[0032] В еще одном из вариантов осуществления настоящего изобретения определение сходства между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар и стоимости различных операций, количеству слов в первой последовательности и количеству слов во второй последовательности, где упомянутые различные операции включают операцию замены, операцию перестановки, операцию вставки и операцию удаления, включает:
определение первого семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки;
определение второго семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно одному из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности; и
определение сходства между первой строкой символов и второй строкой символов согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию.
[0033] В еще одном из вариантов осуществления настоящего изобретения способ дополнительно включает:
определение стоимости операции замены и стоимости операции перестановки согласно соотношению между операцией замены и операцией перестановки; и
определение стоимости операции вставки, стоимости операции удаления и стоимости операции замены согласно соотношению между операцией замены, операцией вставки и операцией удаления.
[0034] В еще одном из вариантов осуществления настоящего изобретения способ дополнительно включает:
определение того, что стоимость операции замены, умноженная на 2, больше, чем стоимость операции перестановки, согласно соотношению между операцией замены и операцией перестановки; и
определение того, что сумма стоимости операции вставки и стоимости операции удаления больше, чем стоимость операции замены, согласно соотношению между операцией замены и операцией вставки и операцией удаления.
[0035] В еще одном из вариантов осуществления настоящего изобретения способ дополнительно включает:
определение того, что стоимость операции вставки равна стоимости операции удавления согласно соотношению между операцией вставки и операцией удаления.
[0036] В еще одном из вариантов осуществления настоящего изобретения определение редакционного расстояния между первой строкой символов и второй строкой символов согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности включает:
определение редакционного расстояния между первой строкой символов и второй строкой символов согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности на основе формулы I, приведенной ниже.
Figure 00000001
где i-i-e слово в первой последовательности, j-j-e слово во второй последовательности; cost(S) - стоимость операции удаления, cost(C) - стоимость операции вставки, и cost(T) - стоимость операции замены.
[0037] В еще одном из вариантов осуществления настоящего изобретения определение минимального семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки включает:
определение минимального семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки на основе формулы II, приведенной ниже.
Figure 00000002
где S1 и S2, соответственно, - первая строка символов и вторая строка символов, minCost(S1, S2) - минимальное семантическое редакционное расстояние, d - редакционное расстояние, р - количество пар, cost(J) - стоимость операции перестановки, cost(T) - стоимость операции замены и 2cost(T)-cost(J)>0.
[0038] В еще одном из вариантов осуществления настоящего изобретения определение первого семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки включает:
определение минимального семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки на основе формулы III, показанной ниже.
Figure 00000003
где S1 и S2, соответственно, - первая строка символов и вторая строка символов, minCost(S1, S2) - минимальное семантическое редакционное расстояние, d - редакционное расстояние, р - количество пар, cost(J) - стоимость операции перестановки, cost(T) - стоимость операции замены и 2cost(T)-cost(J)>0.
[0039] В еще одном из вариантов осуществления настоящего изобретения определение второго семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно одному из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности, включает:
определение второго семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно одному из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности на основе формулы IV, приведенной ниже.
Figure 00000004
где normFact(S1, S2) - второе семантическое редакционное расстояние, n - количество слов в первой последовательности, m - количество слов во второй последовательности, cost(T) - стоимость операции замены, cost(S) - стоимость операции удаления и cost(C) - стоимость операции вставки.
[0040] В еще одном из вариантов осуществления настоящего изобретения определение сходства между первой строкой символов и второй строкой символов согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию включает:
определение сходства между первой строкой символов и второй строкой символов согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию на основе формулы V, приведенной ниже.
Figure 00000005
где sim(S1, S2) - сходство между первой строкой символов и второй строкой символов, minCost(S1, S2) - первое семантическое редакционное расстояние, и normFact(S1, S2) - второе семантическое редакционное расстояние.
[0041] Другие возможные варианты осуществления настоящего изобретения могут быть получены путем произвольного комбинирования любых из описанных выше опциональных технических решений и не будут подробно рассмотрены в настоящем документе.
[0042] На основе описания варианта осуществления настоящего изобретения, соответствующего фиг. 1, рассмотрим фиг. 2, которая представляет собой блок-схему алгоритма, иллюстрирующую способ определения сходства в соответствии с одним из примеров осуществления настоящего изобретения. При этом данный способ определения сходства может применяться в терминале. В соответствии с иллюстрацией фиг. 2, способ определения сходства, предложенный в вариантах осуществления настоящего изобретения, включает шаги, описанные ниже.
[0043] На шаге S201 выполняют разбиение на слова для первой строки символов и второй строки символов, соответственно, в результате чего получают первую последовательность и вторую последовательность.
[0044] Символы в строке символов могут быть не полностью независимыми, но имеющими отношение друг к другу. Некоторые из смежных строк символов могут быть неделимыми. К примеру, в строке «сегодня я собираюсь взобраться на Благоухающую гору
Figure 00000006
», «сегодня
Figure 00000007
» и «Благоухающую гору
Figure 00000008
» являются неделимыми.
Соответственно, когда в вариантах осуществления настоящего изобретения определяют сходство между двумя строками символов, эти две строки символов не будут соответственно разбиты на символы. Вместо этого данные две строки символов будут разбиты на слова, причем каждая из сегментированных строк символов будет включать по меньшей мере одно слово. Для простоты описания, в вариантах осуществления настоящего изобретения две строки символов, сходство между которыми необходимо определить, названы, соответственно, первой строкой символов и второй строкой символов. Первую последовательность получают в результате разбиения на слова первой строки символов, а вторую последовательность получают в результате разбиения на слова второй строки символов. И первая, и вторая последовательность, каждая, включают по меньшей мере по одному слову.
[0045] К примеру, когда первой строкой символов и второй строкой символов являются, соответственно, строки S1 и S2, первая последовательность и вторая последовательность будут иметь вид (S11, S12, S13, …, S1n) и (S21, S22, S23, …, S2m) соответственно. Количество слов в строке S1 равно n, а количество слов в строке S2 равно m.
[0046] Варианты осуществления настоящего изобретения не ограничены конкретными языками первой строки символов и второй строки символов. К примеру, обе строки символов, первая и вторая, могут представлять собой китайский язык, английский язык и т.п. При этом обе строки символов, первая и вторая, могут представлять собой грамматические предложения. К примеру, первой строкой символов может быть «сегодня я иду на Благоухающую гору
Figure 00000009
», а второй строкой символов может быть «я иду на Благоухающую гору сегодня
Figure 00000010
».
[0047] На шаге S202 определяют стоимость операции замены и стоимость операции перестановки согласно соотношению между операцией замены и операцией перестановки, а также определяют стоимость операции вставки, стоимость операции удаления и стоимость операции замены согласно соотношению между операцией замены, операцией вставки и операцией удаления.
[0048] В традиционном способе определения сходства между строками символов, когда одну строку преобразуют в другую строку символов, используют, как правило, три операции редактирования, а именно: операцию вставки, операцию удаления и операцию замены, причем все три операции имеют одинаковую стоимость. Однако в строке символов некоторые из элементов могут встречаться в различных позициях строки символов и при этом не менять семантическое значение строки символов в целом. К примеру, три следующие строки символов: «сегодня я иду на Благоухающую гору
Figure 00000011
», «я иду на Благоухающую гору сегодня
Figure 00000012
» и «я сегодня иду на Благоухающую гору
Figure 00000013
» имеют одно и то же значение, несмотря на то, что слова находятся в различных позициях строки символов. Соответственно, в вариантах осуществления настоящего изобретения, в дополнение к традиционным операциям вставки, удаления и замены, определена операция перестановки, а также определены различные стоимости для различных операций согласно соотношениям между этими различными операциями.
[0049] Варианты осуществления настоящего изобретения не ограничены в отношении конкретных значений стоимости различных операций. Однако при практической реализации операция перестановки может быть подразделена на две операции замены. Соответственно, в вариантах осуществления настоящего изобретения стоимость операции замены и стоимость операции перестановки могут быть определены согласно соотношению между операцией замены и операцией перестановки. К примеру, соотношение между стоимостью операции замены и стоимостью операции перестановки в вариантах осуществления настоящего изобретения может удовлетворять следующему выражению: 2 × стоимость операции замены > стоимость операции перестановки, а именно
Figure 00000014
где cost(T) - стоимость операции замены и cost(J) - стоимость операции перестановки.
[0050] Операция замены может быть подразделена на операцию удаления и операцию вставки. Соответственно, в вариантах осуществления настоящего изобретения стоимость операции вставки и стоимость операции удаления могут быть определены согласно соотношению между операцией замены, операцией вставки и операцией удаления. К примеру, соотношение между стоимостью операции замены, стоимостью операции перестановки и стоимостью операции удаления в вариантах осуществления настоящего изобретения может удовлетворять следующему выражению: стоимость операции вставки + стоимость операции удаления > стоимость операции замены. Также, может быть определено, что стоимость операции замены больше, чем максимальное значение стоимости операции вставки и стоимости операции удаления. К примеру, это соотношение может быть выражено следующей формулой:
Figure 00000015
где cost(S) - стоимость операции удаления и cost(C) - стоимость операции вставки.
[0051] Также, когда сходство является симметричным, и когда вставка символа в первую строку символов эквивалента удалению символа из второй строки символов, может быть определено, что стоимость операции вставки равна стоимости операции удаления, согласно соотношению между операцией вставки и операцией удаления. Очевидно, в случае, когда сходство является несимметричным, может также быть определено, что стоимость операции вставки как равна, так и не равна стоимости операции удаления, причем варианты осуществления настоящего изобретения в этом отношении не ограничены.
[0052] На шаге S203 формируют заранее заданный алгоритм определения редакционного расстояния согласно стоимости операции замены, стоимости операции удаления и стоимости операции вставки.
[0053] К примеру, заранее заданный алгоритм определения редакционного расстояния может быть представлен формулой I.
Figure 00000016
где i-i-e слово в первой последовательности, j-j-e слово во второй последовательности; cost(S) - стоимость операции удаления, cost(C) - стоимость операции вставки и cost(T) - стоимость операции замены.
[0054] Из формулы I можно видеть, что заранее заданный алгоритм определения редакционного расстояния в вариантах осуществления настоящего изобретения может представлять собой алгоритм динамического программирования, при этом заранее заданный алгоритм определения редакционного расстояния может быть получен согласно стоимости операции удаления, стоимости операции вставки и стоимости операции замены, заранее заданным в вариантах осуществления настоящего изобретения.
[0055] Следует отметить, что шаги S202 и S203 - это шаги, которые выполняют перед определением сходства, но при этом их не нужно выполнять всякий раз, когда необходимо определить сходство между двумя строками символов, если гарантировано, что стоимость различных операций и заранее заданный алгоритм определения редакционного расстояния, уже определены перед определением сходства.
[0056] На шаге S204 определяют редакционное расстояние между первой строкой символов и второй строкой символов согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности.
[0057] Под редакционным расстоянием между двумя строками символов понимают минимальное количество операций редактирования, необходимых для преобразования одной строки символов в другую, где каждая операция редактирования соответствует некоторой стоимости. За редакционное расстояние может быть принята общая стоимость преобразования. В вариантах осуществления настоящего изобретения операции редактирования, доступные для преобразования между строками символов, могут включать операцию замены, операцию вставки, операцию удаления и операцию перестановки.
[0058] На примере заранее заданного алгоритма определения редакционного расстояния по формуле 1, в вариантах осуществления настоящего изобретения, когда редакционное расстояние между первой строкой символов и второй строкой символов определяют согласно такому заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности, редакционное расстояние между первой строкой символов и второй строкой символов может быть определено при помощи рекурсивного вычисления на основе формулы I согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности. Принцип вычисления редакционного расстояния на основе формулы I аналогичен принципу вычисления редакционного расстояния на основе существующих алгоритмов динамического программирования и, следовательно, не будет описан в вариантах осуществления настоящего изобретения более подробно.
[0059] На шаге S205, определяют сходство между первой строкой символов и второй строкой символов согласно редакционному расстоянию и информации о различных операциях для преобразования первой последовательности во вторую последовательность.
[0060] В вариантах осуществления настоящего изобретения информация о различных операциях для преобразования первой последовательности во вторую последовательность включает тип операции, количество операций каждого типа и стоимость операции каждого типа.
[0061] В вариантах осуществления настоящего изобретения для различных операций определены различные стоимости. При этом, в отношении определения редакционного расстояния между двумя строками символов, стоимости различных операций, необходимых для преобразования первой строки символов во вторую строку символов, непосредственно влияют на редакционное расстояние. Следовательно, сходство между первой строкой символов и второй строкой символов может быть определено согласно редакционному расстоянию и информации о различных операциях, необходимых для получения редакционного расстояния, при этом информация об операциях включает стоимость, и при этом стоимость различных операций для получения редакционного расстояния заранее задана на шаге S202.
[0062] К примеру, если операции для преобразования первой строки символов во вторую строку символов включают две операции вставки, одну операцию удаления, одну операцию перестановки и одну операцию замены, редакционное расстояние d между первой строкой символов и второй строкой символов равно
Figure 00000017
, когда сходство между первой строкой символов и второй строкой символов определяют согласно редакционному расстоянию, стоимости операции вставки, стоимости операции удаления, стоимости операции перестановки и стоимости операции замены.
[0063] К примеру, определение сходства между первой строкой символов и второй строкой символов согласно редакционному расстоянию и информации о различных операциях для преобразования первой последовательности во вторую последовательность включает, без ограничения перечисленным, шаги S2051-S2053, рассмотренные ниже.
[0064] На шаге S2051, после получения редакционного расстояния, получают информацию об операции замены среди информации о различных операциях для преобразования первой последовательности во вторую последовательность.
[0065] В ходе операции замены некоторое слово в первой строке символов заменяют на другое слово. В вариантах осуществления настоящего изобретения, при определении редакционного расстояния, выполняют статистический расчет на основе информации об операции замены в ходе преобразования, и информацию об операции замены записывают в заданный набор. В одном из вариантов осуществления настоящего изобретения информация об операции замены включает слово, замененное в ходе операции замены, и позицию замененного слова в соответствующей последовательности. Соответственно, данные, записанные в заданный набор, включают замененное слово и позицию замененного слова в первой последовательности. К примеру, если допустить, что первая строка символов представляет собой «я иду на Благоухающую гору сегодня
Figure 00000018
», первой последовательностью будет «я - иду на - Благоухающую гору - сегодня
Figure 00000019
». Замененными словами будут «Благоухающую гору
Figure 00000020
» и «иду на
Figure 00000021
», а информация об операции замены, записанная в заданный набор, будет включать «иду на-2
Figure 00000022
, Благоухающую гору-5
Figure 00000023
». Соответственно, при получении редакционного расстояния, информация об операции замены может быть получена из заданного набора, среди информации о различных операциях для преобразования первой строки символов во вторую строку символов, из заданного набора. А именно, эта информация включает слова, замененные в ходе различных операций замены и позиции каждого из замененных слов в первой последовательности.
[0066] При этом в вариантах осуществления настоящего изобретения дополнительно определяют операцию перестановки, согласно соотношению между операцией замены и операцией перестановки, которое заранее задано и соответствует выражению 2cost(T)-cost(J)>0. Соответственно, можно видеть, что стоимость двух операций замены больше, чем стоимость одной операции перестановки. Следовательно, когда есть возможность преобразовать первую строку символов во вторую строку символов при помощи одной операции перестановки, выполнение двух операций замены не является предпочтительным. Соответственно, в дополнение к замененным словам в первой последовательности и позициям каждого из замененных слов в первой последовательности, записанным в заданном наборе, может быть дополнительно определен факт наличия во второй последовательности каких-либо комбинаций из двух слов, входящих в заданный набор. Если во второй последовательности имеется хотя бы одна такая комбинация из двух слов, то эта комбинация из двух слов и позиции каждого слова из этой комбинации во второй последовательности будут также записаны в заданный набор.
[0067] К примеру, если первая строка символов представляет собой «я иду на Благоухающую гору сегодня
Figure 00000024
», первая последовательность представляет собой «я - иду - на Благоухающую гору-сегодня
Figure 00000025
», замененными словами являются «Благоухающую гору
Figure 00000026
» и «иду
Figure 00000027
», вторая строка символов представляет собой «сегодня я иду на Благоухающую гору
Figure 00000028
» и вторая последовательность представляет собой «сегодня-я-иду-на Благоухающую гору
Figure 00000029
». Поскольку замененные слова «Благоухающую гору
Figure 00000030
» и «иду
Figure 00000031
» присутствуют и в первой, и во второй последовательностях, данными, записанными в заданный набор, могут быть «иду-S12
Figure 00000032
», «Благоухающую гору-S15
Figure 00000033
; «иду-0S23
Figure 00000034
, «Благоухающую гору-S25
Figure 00000035
».
[0068] В вариантах осуществления настоящего изобретения «Благоухающую гору
Figure 00000036
» и «иду
Figure 00000037
» определены как совпадающие слова между первой строкой символов и второй строкой символов. Из приведенного выше примера очевидно, что под совпадающими словами понимаются любые комбинации из двух слов, присутствующие одновременно в первой последовательности и во второй последовательности.
[0069] На шаге SS2052 согласно информации об операции замены определяют количество пар.
[0070] Под количеством пар понимают количество совпадающих слов в первой последовательности и второй последовательности, т.е. количество комбинаций из двух слов, присутствующих одновременно в первой последовательности и во второй последовательности. Как можно видеть из приведенного выше описания данных, которые записывают в заданный набор, количество пар может быть определено на основе данных, записанных в заданный набор.
[0071] К примеру, если данные, записанные в заданный набор представляют собой «иду-S12
Figure 00000038
», «Благоухающую гору-S15
Figure 00000039
»; «иду-S23
Figure 00000040
», «Благоухающую гору-S25
Figure 00000041
», «я-S11
Figure 00000042
», «на-S14
Figure 00000043
; «я-S21
Figure 00000044
», «на-S24
Figure 00000045
», может быть определено, что количество пар равно 2.
[0072] На шаге S2053 определяют сходство между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар и стоимости различных операций, количеству слов в первой последовательности и количеству слов во второй последовательности.
[0073] К примеру, в вариантах осуществления настоящего изобретения, когда сходство между первой строкой символов и второй строкой символов определяют согласно редакционному расстоянию, количеству пар и стоимости различных операций, количеству слов в первой последовательности и количеству слов во второй последовательности, различные операции могут включать операцию замены и операцию перестановки.
[0074]Согласно типам различных операций, шаг S2053 может быть реализован при помощи шагов S20531-S20533, рассмотренных ниже.
[0075] На шаге S20531 определяют минимальное семантическое редакционное расстояние между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки.
[0076] К примеру, минимальное семантическое редакционное расстояние между первой строкой символов и второй строкой символов определяют согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки на основе формулы 2, приведенной ниже.
Figure 00000046
[0077] где S1 и S2, соответственно, - первая строка символов и вторая строка символов, minCost(S1, S2) - минимальное семантическое редакционное расстояние, d - редакционное расстояние, р - количество пар, cost(J) - стоимость операции перестановки, cost(T) - стоимость операции замены и 2cost(T)-cost(J)>0.
[0078] На шаге S20532 минимальное семантическое редакционное расстояние нормализуют, в результате чего получают нормализованный результат.
[0079] К примеру, минимальное семантическое редакционное расстояние может быть нормализовано с использованием максимального семантического редакционного расстояния между первой строкой символов и второй строкой символов. Максимальное семантическое редакционное расстояние может иметь вид формулы IV, приведенной ниже.
Figure 00000047
[0080] где normFact(S1, S2) - максимальное семантическое редакционное расстояние, n - количество слов в первой последовательности, и m - количество слов во второй последовательности.
[0081] Минимальное семантическое редакционное расстояние minCost(S1, S2) нормализуют, в результате чего получают нормализованный результат minCost(S1, S2)/noimFact(S1, S2). В результате нормализации минимального семантического редакционного расстояния значение minCost(S1, S2)/normFact(S1, S2) может быть отображено на диапазон от 0 до 1, благодаря чему упрощается интуитивное определение сходства.
[0082] На шаге S20533 сходство между первой строкой символов и второй строкой символов определяют согласно нормализованному результату.
[0083] К примеру, сходство между первой строкой символов и второй строкой символов определяют, согласно нормализованному результату, на основе формулы V, приведенной ниже.
Figure 00000048
[0084] где sim(S1, S2) - сходство между первой строкой символов и второй строкой символов, minCost(S1, S2) - минимальное семантическое редакционное расстояние, normFact(S1, S2) - максимальное семантическое редакционное расстояние, и minCost(S1, S2)/normFact(S1, S2) - нормализованный результат.
[0085] А именно, в вариантах осуществления настоящего изобретения, когда сходство между первой строкой символов и второй строкой символов определяют согласно редакционному расстоянию, количеству пар и стоимости различных операций, количеству слов в первой последовательности и количеству слов во второй последовательности, различные операции включают по меньшей мере одно из следующего: операцию замены, операцию перестановки, операцию вставки и операцию удаления. Исходя из этого, данный шаг может быть реализован при помощи шагов S20534-S20536, описанных ниже.
[0086] На шаге S20534 определяют первое семантическое редакционное расстояние между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки.
[0087] Первое семантическое редакционное расстояние может быть минимальным семантическим редакционным расстоянием между первой строкой символов и второй строкой символов.
[0088] К примеру, минимальное семантическое редакционное расстояние между первой строкой символов и второй строкой символов определяют согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки при помощи формулы III, приведенной ниже, но без ограничения данным конкретным примером.
Figure 00000049
[0089] где S1 и S2, по отдельности, - первая строка символов и вторая строка символов, minCost(S1, S2) - первое семантическое редакционное расстояние, d - редакционное расстояние, р - количество пар, ncost(J) - стоимость операции перестановки.
[0090]Как можно видеть из формулы III и формулы II, первое семантическое редакционное расстояние может быть минимальным семантическим редакционным расстоянием между первой строкой символов и второй строкой символов. В формуле II и формуле III только minCost(S1, S2) имеет отличающееся значение.
[0091] На шаге S20535 определяют второе семантическое редакционное расстояние между первой строкой символов и второй строкой символов согласно одному из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности.
[0092] Второе семантическое редакционное расстояние может быть максимальным семантическим редакционным расстоянием между первой строкой символов и второй строкой символов.
[0093] К примеру, второе семантическое редакционное расстояние между первой строкой символов и второй строкой символов определяют согласно одному из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности с использованием формулы IV, приведенной ниже, но без ограничения данным конкретным примером.
Figure 00000050
[0094] где normFact(S1, S2) - максимальное семантическое редакционное расстояние, n - количество слов в первой последовательности и m - количество слов во второй последовательности.
[0095] Здесь normFact(S1, S2) - нормализующий коэффициент, используемый для отображения значения minCost(S1, S2)/normFact(S1, S2) на диапазон от 0 до 1, благодаря чему упрощается интуитивное определение сходства.
[0096] На шаге S20536 определяют сходство между первой строкой символов и второй строкой символов согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию.
[0097] К примеру, сходство между первой строкой символов и второй строкой символов может быть определено на основе формулы V, приведенной ниже.
Figure 00000051
[0098] где sim(S1, S2) - сходство между первой строкой символов и второй строкой символов.
[0099] К примеру, когда minCost(S1, S2) равно 1,5 и normFact(S1, S2) равно 2,5, сходство между S1 и S2 равно 1-1,5/2,5=0,4.
[00100] Согласно способу, предложенному в вариантах осуществления настоящего изобретения, для первой строки символов и второй строки символов выполняют, соответственно, разбиение на слова, в результате чего получают их разбиение на первую последовательность и вторую последовательность, и таким образом реализуют определение редакционного расстояния для преобразования первой строки символов во вторую строку символов на основе отдельных слов в первой последовательности и второй последовательности, вместо отдельных символов в первой строке символов и второй строке символов. Каждое слово в строке символов может включать по меньшей мере один символ. Таким образом, сходство может быть определено согласно редакционному расстоянию в сочетании с корреляцией между символами в строке символов, что позволяет определять сходство более точно.
[00101] Фиг. 3 представляет собой блок-схему, иллюстрирующую устройство для определения сходства в соответствии с одним из примеров осуществления настоящего изобретения. В соответствии с фиг. 3, устройство для определения сходства включает модуль 301 разбиения на слова, первый модуль 302 определения и второй модуль 303 определения.
[00102] Модуль 301 разбиения на слова сконфигурирован для выполнения разбиения на слова для первой строки символов и второй строки символов, соответственно, в результате чего получают первую последовательность и вторую последовательность, причем первая последовательность и вторая последовательность, каждая, включают по меньшей мере по одному слову.
[00103] Первый модуль 302 определения сконфигурирован для определения редакционного расстояния между первой строкой символов и второй строкой символов согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности.
[00104] Второй модуль 303 определения сконфигурирован для определения сходства между первой строкой символов и второй строкой символов согласно редакционному расстоянию и информации о различных операциях для преобразования первой последовательности во вторую последовательность.
[00105] Согласно устройству, предложенному в вариантах осуществления настоящего изобретения, для первой строки символов и второй строки символов выполняют, соответственно, разбиение на слова, в результате чего получают их разбиение, соответственно, на первую последовательность и вторую последовательность, и таким образом редакционное расстояние для преобразования первой строки символов во вторую строку символов может быть определено на основе отдельных слов в строке символов, вместо отдельных символов в строке символов. При этом каждое слово в строке символов может включать по меньшей мере один символ, и сходство, таким образом, может быть определено согласно редакционному расстоянию в сочетании с корреляцией между символами в строке символов, что позволяет определять сходство более точно.
[00106] В другом варианте осуществления настоящего изобретения, показанном на фиг. 4, второй модуль 303 определения включает:
блок 3031 получения, сконфигурированный для получения информации об операции замены среди информации о различных операциях для преобразования первой последовательности во вторую последовательность;
первый блок 3032 определения, сконфигурированный для определения количества пар согласно информации об операции замены, где под количеством пар понимается количество комбинаций из двух слов, присутствующих одновременно в первой последовательности и второй последовательности; и
второй блок 3033 определения, сконфигурированный для определения сходства между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар и стоимости различных операций, количеству слов в первой последовательности и количеству слов во второй последовательности.
[00107] В еще одном варианте осуществления настоящего изобретения, показанном на фиг. 5, упомянутые различные операции включают операцию замены и операцию перестановки, при этом второй модуль 3033 определения включает:
первый подблок 30331 определения, сконфигурированный для определения первого семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки;
подблок 30332 нормализации, сконфигурированный для нормализации минимального семантического редакционного расстояния, в результате чего получают нормализованный результат; и
второй подблок 30333 определения, сконфигурированный для определения сходства между первой строкой символов и второй строкой символов согласно нормализованному результату.
[00108] В еще одном варианте осуществления настоящего изобретения, показанном на фиг. 6, упомянутые различные операции включают по меньшей мере одно из следующего: операцию замены, операцию перестановки, операцию вставки и операцию удаления, при этом второй блок 3033 определения включает:
третий подблок 30334 определения, сконфигурированный для определения первого семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки;
четвертый подблок 30335 определения, сконфигурированный для определения второго семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно одному из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности; и
пятый подблок 30336 определения, сконфигурированный для определения сходства между первой строкой символов и второй строкой символов согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию.
[00109] В еще одном из вариантов осуществления настоящего изобретения, показанном на фиг. 7, устройство дополнительно включает:
третий модуль 304 определения, сконфигурированный для определения стоимости операции замены и стоимости операции перестановки согласно соотношению между операцией замены и операцией перестановки; и
четвертый модуль 305 определения, сконфигурированный для определения стоимости операции вставки, стоимости операции удаления и стоимости операции замены согласно соотношению между операцией замены, операцией вставки и операцией удаления.
[00110] В еще одном из вариантов осуществления настоящего изобретения, показанном на фиг. 8, устройство дополнительно включает:
пятый модуль 306 определения, сконфигурированный для определения того, что 2 × стоимость операции замены > стоимость операции перестановки, согласно соотношению между операцией замены и операцией перестановки; и
шестой модуль 307 определения, сконфигурированный для определения того, что стоимость операции вставки + стоимость операции удаления > стоимость операции замены, согласно соотношению между операцией замены, операцией вставки и операцией удаления.
[00111] В еще одном из вариантов осуществления настоящего изобретения, показанном на фиг. 9, устройство дополнительно включает:
седьмой модуль 308 определения, сконфигурированный для определения того, что стоимость операции вставки равна стоимости операции удавления согласно соотношению между операцией вставки и операцией удаления.
[00112] В еще одном из вариантов осуществления настоящего изобретения первый модуль 302 определения сконфигурирован для определения редакционного расстояния между первой строкой символов и второй строкой символов согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности на основе формулы I, приведенной ниже.
Figure 00000052
где, i-i-e слово в первой последовательности, j-j-e слово во второй последовательности; cost(S) - стоимость операции удаления, cost(C) - стоимость операции вставки и cost(T) - стоимость операции замены.
[00113] В еще одном варианте осуществления настоящего изобретения первый подблок 30331 определения сконфигурирован для определения первого семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки на основе формулы II, приведенной ниже:
Figure 00000053
где S1 и S2, соответственно, - первая строка символов и вторая строка символов, minCost(S1, S2) - минимальное семантическое редакционное расстояние, d - редакционное расстояние, р - количество пар, cost(J) - стоимость операции перестановки, cost(T) - стоимость операции замены и 2cost(T)-cost(J)>0.
[00114] В еще одном варианте осуществления настоящего изобретения третий подблок 30334 определения сконфигурирован для определения первого семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки на основе формулы III, приведенной ниже:
Figure 00000054
где S1 и S1, соответственно, - первая строка символов и вторая строка символов, S1 - минимальное семантическое редакционное расстояние, d - редакционное расстояние, р - количество пар, S1 - стоимость операции перестановки, S1 - стоимость операции замены и S1.
[00115] В еще одном из вариантов осуществления настоящего изобретения четвертый подблок 30335 определения сконфигурирован для определения второго семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно любому из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности, на основе формулы IV, приведенной ниже:
Figure 00000055
Figure 00000056
где normFact(S1, S2) - второе семантическое редакционное расстояние, n - количество слов в первой последовательности, m - количество слов во второй последовательности, cost(T) - стоимость операции замены, cost(S) - стоимость операции удаления и cost(C) - стоимость операции вставки.
[00116] В еще одном из вариантов осуществления настоящего изобретения пятый подблок 30336 определения сконфигурирован для определения сходства между первой строкой символов и второй строкой символов согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию, на основе формулы V, приведенной ниже:
Figure 00000057
где sim(S1, S2) - сходство между первой строкой символов и второй строкой символов, minCost(S1, S2) - первое семантическое редакционное расстояние, и normFact(S1, S2) - второе семантическое редакционное расстояние.
[00117] Другие возможные варианты осуществления настоящего изобретения могут быть получены путем произвольного комбинирования любых из описанных выше опциональных технических решений и не будут подробно рассмотрены в настоящем документе.
[00118] Устройство для определения сходства, предложенное в вариантах осуществления настоящего изобретения, соответствующих фиг. 3-9, может быть сконфигурировано для исполнения способа определения сходства, предложенного в вариантах осуществления настоящего изобретения, соответствующих фиг. 1 или фиг. 2. При этом конкретные методы исполнения операций модулями устройства были подробно описаны в вариантах осуществления настоящего изобретения, относящихся к способу, и следовательно, не будут подробно рассмотрены повторно.
[00119] Фиг. 10 представляет собой блок-схему терминала 600 в соответствии с одним из примеров осуществления настоящего изобретения. Терминал может быть сконфигурирован для исполнения способа определения сходства, предложенного в вариантах осуществления настоящего изобретения, соответствующих фиг. 1 или 2. Например, терминал 600 может представлять собой мобильный телефон, компьютер, терминал цифрового вещания, устройство приема и передачи сообщений, игровую приставку, планшетное устройство, медицинское устройство, тренажерное оборудование, карманный персональный компьютер (КПК) и т.п.
[00120] В соответствии с иллюстрацией фиг. 10 терминал 600 может включать один или более следующих компонентов: процессорный компонент 602, память 604, компонент 606 электропитания, мультимедийный компонент 608, аудиокомпонент 610, интерфейс 612 ввода-вывода (input/output, I/O), измерительный компонент 614 и компонент 616 связи.
[00121] Процессорный компонент 602, как правило, осуществляет общее управление функционированием терминала 600, например, операциями, связанными с отображением, телефонными вызовами, обменом данными, а также операциями, связанными с работой камеры и операциями по записи данных. Процессорный компонент 602 может включать один или более процессоров 620, исполняющих инструкции с целью выполнения всех шагов описанного выше способа или части этих шагов. Также, процессорный компонент 602 может включать один или более модулей, обеспечивающих возможность взаимодействия между процессорным компонентом 602 и другими компонентами. Например, процессорный компонент 602 может включать мультимедийный модуль, обеспечивающий возможность взаимодействия между мультимедийным компонентом 608 и процессорным компонентом 602.
[00122] Память 604 сконфигурирована для хранения различных типов данных с целью поддержки функционирования терминала 600. Примерами подобных данных могут служить инструкции любых прикладных программ или методов, исполняемых в терминале 600, контактные данные, данные телефонной книги, сообщения, изображения, видеоданные и т.п. Память 604 может быть реализована с использованием энергозависимых или энергонезависимых запоминающих устройств любого типа, а также их комбинаций, например, статической памяти с произвольным доступом (static random access memory, SRAM), электрически перепрограммируемой памяти в режиме «только для чтения» (erasable programmable read-only memory, EPROM), программируемой памяти в режиме «только для чтения» (programmable read-only memory, PROM), памяти в режиме «только для чтения», магнитной памяти, флэш-памяти, магнитного или оптического диска.
[00123] Компонент 606 электропитания обеспечивает электропитание различных компонентов терминала 600. Компонент 606 электропитания может включать систему управления электропитанием, один или более источников питания, а также любые другие компоненты, связанные с производством, управлением и распределением электрической энергии в терминале 600.
[00124] Мультимедийный компонент 608 включает экран, который обеспечивает интерфейс вывода между терминалом 600 и пользователем. В некоторых из вариантов осуществления настоящего изобретения экран может включать дисплей на жидких кристаллах (liquid crystal display, LCD) и сенсорную панель (touch panel, TP). Если экран включает сенсорную панель, то такой экран может быть реализован как сенсорный экран для приема сигналов ввода от пользователя. Сенсорная панель включает один или более датчиков касания, предназначенных для регистрации жестов на сенсорной панели, например, касания, скольжения и т.п. Датчики касания могут не только регистрировать границы траектории касания или скольжения, но также определять временную длительность и величину давления, связанные с операциями касания или скольжения. В некоторых вариантах осуществления настоящего изобретения мультимедийный компонент 608 включает фронтальную камеру и/или тыловую камеру. Когда терминал 600 находится в соответствующем режиме работы, например, в режиме фотографирования или видео, фронтальная камера и/или тыловая камера могут принимать внешние мультимедийные данные. Как фронтальная камера, так и тыловая камера могут представлять собой фиксированные системы оптических линз или иметь возможность изменения расстояния фокусировки и оптического зуммирования.
[00125] Аудиокомпонент 610 сконфигурирован для вывода и/или ввода аудиосигналов. Например, аудиокомпонент 610 включает микрофон (MIC); когда терминал 600 находится в соответствующем режиме работы, например, в режиме вызова, в режиме записи или в режиме распознавания голоса, и при этом микрофон сконфигурирован для приема внешнего аудиосигнала. Принятый аудиосигнал может затем быть сохранен в памяти 604 или передан вовне при помощи компонента 616 связи. В некоторых из вариантов осуществления настоящего изобретения аудиокомпонент 610 включает также громкоговоритель для вывода аудиосигналов.
[00126] Интерфейс 612 ввода/вывода обеспечивает интерфейс между процессорным компонентом 602 и модулями периферийных интерфейсов, при этом модулями периферийного интерфейса могут быть: клавиатура, поворотно-нажимной переключатель («колесо»), кнопки и т.п. Кнопки могут включать, без ограничения перечисленным: кнопку «домой», кнопку регулировки громкости, кнопку «пуск» и кнопку блокировки.
[00127] Измерительный компонент 614 включает один или более датчиков, благодаря которым терминал 600 обладает функциональностью оценки состояния по различным его аспектам. Например, измерительный компонент 614 может обнаруживать состояние «открыто» или «закрыто» терминала 600, относительное расположение компонентов, например, дисплея и клавиатуры терминала 600; измерительный компонент 614 может также обнаруживать изменение положения терминала 600 или одного из компонентов терминала 600, присутствие или отсутствие контакта пользователя с терминалом 600, ориентацию или ускорение/замедление терминала 600 и изменение температуры терминала 600. Измерительный компонент 614 может также включать датчик близости, сконфигурированный для обнаружения присутствия приближенных объектов без физического контакта с ними. Измерительный компонент 614 может дополнительно включать светочувствительный датчик, например, например, комплементарный метал-окисел-полупроводниковый (Complementary Metal Oxide Semiconductor, CMOS) датчик изображений или датчик изображений на устройстве с зарядовой связью (Charge Coupled Device, CCD), сконфигурированные для использования в приложениях формирования изображений. В некоторых из вариантов осуществления настоящего изобретения измерительный компонент 614 может также включать акселерометрический датчик ускорения, гироскопический датчик, магнитный датчик, датчик давления или датчик температуры.
[00128] Компонент 616 связи сконфигурирован для обеспечения связи, проводной или беспроводной, между терминалом 600 и другими устройствами. Терминал 600 может осуществлять доступ к беспроводной сети, основанной на таких стандартах связи, как WiFi, 2G или 3G, или их комбинации. В одном из примеров осуществления настоящего изобретения компонент 616 связи принимает, при помощи широковещательного канала, широковещательный сигнал или соответствующую широковещательную информацию от внешней широковещательной системы управления. В одном из примеров осуществления настоящего изобретения компонент 616 связи включает также модуль ближней бесконтактной связи (near field communication, NFC) для обеспечения связи в ближней зоне. Например, NFC-модуль может быть реализован на базе технологии радиочастотной идентификации (radio frequency identification, RFID), технологии ассоциации передачи данных в инфракрасном диапазоне (infrared data association, IrDA), технологии сверхширокой полосы пропускания (ultra-wideband, UWB), технологии Bluetooth (ВТ) или других технологий.
[00129] В одном из примеров осуществления настоящего изобретения терминал 600 может быть реализован с использованием одной или более заказных интегральных схем (ASIC), цифровых сигнальных процессоров (DSP), цифровых устройств обработки сигналов (digital signal processing devices, DSPD), программируемых логических устройств (programmable logic devices, PLD), электрически программируемых вентильных матриц (field programmable gate arrays, FPGA), контроллеров, микроконтроллеров, микропроцессоров или других электронных компонентов, предназначенных для исполнения описанного выше способа определения сходства, предложенного в вариантах осуществления настоящего изобретения в соответствии с фиг. 1 или 2.
[00130] В одном из вариантов осуществления настоящего изобретения предложен также машиночитаемый носитель, включающий инструкции, например, память 604, включающую инструкции, при этом упомянутые инструкции могут исполняться процессором 620 из состава терминала 600 с целью реализации описанного выше способа определения сходства. К примеру, машиночитаемый носитель может представлять собой память ROM, память с произвольным доступом (Random Access Memory, RAM), память в режиме «только для чтения на компакт-диске (Compact Disc Read-Only Memory, CD-ROM), магнитную ленту, гибкий диск, оптическое запоминающее устройство и т.п.
[00131] Согласно машиночитаемому носителю, предложенному в вариантах осуществления настоящего изобретения, для первой строки символов и второй строки символов выполняют, соответственно, разбиение на слова, в результате чего получают их разбиение на первую последовательность и вторую последовательность, и таким образом определение редакционного расстояния для преобразования первой строки символов во вторую строку символов может быть реализовано на основе отдельных слов в первой последовательности и второй последовательности, вместо отдельных символов в первой строке символов и второй строке символов. При этом каждое слово в строке символов может включать по меньшей мере один символ, и сходство, таким образом, может быть определено согласно редакционному расстоянию в сочетании с корреляцией между символами в строке символов, что позволяет определять сходство более точно.
[00132] В одном из вариантов осуществления настоящего изобретения описанный выше способ определения сходства, предложенный в вариантах осуществления настоящего изобретения, соответствующих фиг. 1 или 2, может также исполняться сервером. Фиг. 11 представляет собой блок-схему, иллюстрирующую сервер в соответствии с одним из примеров осуществления настоящего изобретения. Сервер может быть сконфигурирован для исполнения способа определения сходства, предложенного в вариантах осуществления настоящего изобретения, соответствующих фиг. 1 или 2. В соответствии с иллюстрацией фиг. 11, сервер 700 включает процессорный компонент 722, а также включает один или более процессоров, и ресурс памяти, представленный памятью 732, которая сконфигурирована для хранения инструкций, например, прикладной программы, исполняемой процессорным компонентом 722. Прикладная программа, хранимая в памяти 732 может включать один или более модулей, каждый из которых соответствует набору инструкций. Дополнительно, процессорный компонент 722 сконфигурирован для исполнения инструкций с целью исполнения способа определения сходства, предложенного в вариантах осуществления настоящего изобретения, соответствующих фиг. 1 или 2.
[00133] Сервер 700 может включать также компонент 726 электропитания, сконфигурированный для осуществления управления электропитанием сервера 700, проводный или беспроводной сетевой интерфейс 750, сконфигурированный для подключения сервера 700 к сети, и интерфейс 758 ввода-вывода (I/O). Сервер 700 может функционировать на основе операционной системы, например, Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM, и т.п., хранимой в памяти 732.
[00134] Специалистами в данной области техники, по прочтении описания или после практического применения изобретения, описанного в настоящем документе, могут быть найдены другие варианты его осуществления. Настоящая заявка призвана охватить все изменения, применения или модификации настоящего изобретения, не отступающие от его основного замысла, включая все отступления от настоящего изобретения, которые известны на существующем уровне техники или традиционно применяются в данной области техники. Приведенное описание и варианты осуществления настоящего изобретения следует считать исключительно иллюстративными, при этом истинный объем и сущность настоящего изобретения заданы приведенной ниже формулой изобретения.
[00135] Нужно понимать, что настоящее изобретение не ограничено конкретной конструкцией, описанной выше и проиллюстрированной на приложенных чертежах, а также, что в пределах объема настоящего изобретения могут быть выполнены множество различных модификаций и изменений. Предполагается, что объем настоящего изобретения ограничен только приложенной формулой изобретения.

Claims (86)

1. Способ определения сходства между строками символов, включающий:
выполнение разбиения на слова для первой строки символов и второй строки символов, соответственно, в результате чего получают первую последовательность и вторую последовательность, включающие по меньшей мере по одному слову;
определение редакционного расстояния между первой строкой символов и второй строкой символов согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности на основе приведенной ниже формулы I,
Формула 1:
Figure 00000058
где i - i-e слово в первой последовательности, j - j-e слово во второй последовательности; cost(S) - стоимость операции удаления, cost(C) - стоимость операции вставки и cost(T) - стоимость операции замены;
получение информации об операции замены среди информации о различных операциях для преобразования первой последовательности во вторую последовательность;
определение количества пар согласно информации об операции замены, где количество пар указывает на количество пар слов, присутствующих одновременно в первой последовательности и второй последовательности; и
определение сходства между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар и стоимости операций, количеству слов в первой последовательности и количеству слов во второй последовательности, при этом определение сходства между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операций, количеству слов в первой последовательности и количеству слов во второй последовательности, где упомянутые операции включают по меньшей мере одно из следующего: операцию замены, операцию перестановки, операцию вставки и операцию удаления, включает:
определение первого семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки;
определение второго семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно одному из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности; и
определение сходства между первой строкой символов и второй строкой символов согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию,
при этом определение первого семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки включает:
определение первого семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки на основе приведенной ниже формулы III,
Формула III:
minCost(S1, S2)=d-p(2cost(T)-cost(J)),
где S1 и S2, соответственно, - первая строка символов и вторая строка символов, minCost(S1, S2) - первое семантическое редакционное расстояние, d - редакционное расстояние, р - количество пар, cost(J) - стоимость операции перестановки, cost(T) - стоимость операции замены и 2cost(T)-cost(J)>0.
2. Способ по п. 1, в котором определение сходства между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операций, количеству слов в первой последовательности и количеству слов во второй последовательности, где упомянутые операции включают операцию замены и операцию перестановки, включает:
определение минимального семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки;
нормализацию минимального семантического редакционного расстояния, в результате чего получают нормализованный результат; и
определение сходства между первой строкой символов и второй строкой символов согласно нормализованному результату.
3. Способ по п. 1 или 2, также включающий:
определение стоимости операции замены и стоимости операции перестановки согласно соотношению между операцией замены и операцией перестановки; и
определение стоимости операции вставки, стоимости операции удаления и стоимости операции замены согласно соотношению между операцией замены, операцией вставки и операцией удаления.
4. Способ по п. 3, также включающий:
определение того, что 2 × стоимость операции замены>стоимости операции перестановки, согласно соотношению между операцией замены и операцией перестановки; и
определение того, что стоимость операции вставки + стоимость операции удаления > стоимости операции замены согласно соотношению между операцией замены, операцией вставки и операцией удаления.
5. Способ по п. 3, также включающий определение того, что стоимость операции вставки равна стоимости операции удавления согласно соотношению между операцией вставки и операцией удаления.
6. Способ по п. 2, в котором определение минимального семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки включает:
определение минимального семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки на основе приведенной ниже формулы II,
Формула II:
minCost(S1, S2)=d-p(2cost(T)-cost(J)),
где S1 и S2 соответственно, - первая строка символов и вторая строка символов, minCost(S1, S2) - минимальное семантическое редакционное расстояние, d - редакционное расстояние, р - количество пар, cost(J) - стоимость операции перестановки, cost(T) - стоимость операции замены и 2cost(T)-cost(J)>0.
7. Способ по п. 1, в котором определение второго семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно одному из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности, включает:
определение второго семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно одному из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности на основе приведенной ниже формулы IV,
Формула IV:
Figure 00000059
где normFact(S1, S2) - второе семантическое редакционное расстояние, n - количество слов в первой последовательности, m - количество слов во второй последовательности, cost(T) - стоимость операции замены, cost(S) - стоимость операции удаления и cost(C) - стоимость операции вставки.
8. Способ по п. 1, в котором определение сходства между первой строкой символов и второй строкой символов согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию включает:
определение сходства между первой строкой символов и второй строкой символов согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию на основе приведенной ниже формулы V,
Формула V:
sim(S1, S2)=1-minCost(S1, S2)/normFact(S1, S2);
где sim (S1, S2) - сходство между первой строкой символов и второй строкой символов, minCost(S1, S2) - первое семантическое редакционное расстояние и normFact(S1, S2) - второе семантическое редакционное расстояние.
9. Устройство для определения сходства между строками символов, включающее:
модуль разбиения на слова, сконфигурированный для выполнения разбиения на слова для первой строки символов и второй строки символов, соответственно, в результате чего получают первую последовательность и вторую последовательность, включающие по меньшей мере по одному слову;
первый модуль определения, сконфигурированный для определения редакционного расстояния между первой строкой символов и второй строкой символов согласно заранее заданному алгоритму определения редакционного расстояния, первой последовательности и второй последовательности на основе приведенной ниже формулы,
Формула I:
Figure 00000060
где i - i-e слово в первой последовательности, j - j-e слово во второй последовательности; cost(S), - стоимость операции удаления, cost(C) - стоимость операции вставки и cost(T) - стоимость операции замены; и
второй модуль определения, сконфигурированный для определения сходства между первой строкой символов и второй строкой символов согласно редакционному расстоянию и информации об операциях для преобразования первой последовательности во вторую последовательность,
при этом второй модуль определения включает:
блок получения, сконфигурированный для получения информации об операции замены среди информации об операциях для преобразования первой последовательности во вторую последовательность;
первый блок определения, сконфигурированный для определения количества пар согласно информации об операции замены, где количество пар указывает на количество пар слов, присутствующих одновременно в первой последовательности и второй последовательности; и
второй блок определения, сконфигурированный для определения сходства между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар и стоимости операций, количеству слов в первой последовательности и количеству слов во второй последовательности,
при этом упомянутые операции включают по меньшей мере одно из следующего: операцию замены, операцию перестановки, операцию вставки и операцию удаления, и второй блок определения включает:
третий подблок определения, сконфигурированный для определения первого семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки;
четвертый подблок определения, сконфигурированный для определения второго семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно одному из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности; и
пятый подблок определения, сконфигурированный для определения сходства между первой строкой символов и второй строкой символов согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию,
при этом третий подблок определения сконфигурирован для определения первого семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки на основе приведенной ниже формулы,
Формула III:
minCost(S1, S2)=d-p(2cost(T)-cost(J)),
где S1 и S2, соответственно, - первая строка символов и вторая строка символов, minCost(S1, S2) - первое семантическое редакционное расстояние, d - редакционное расстояние, р - количество пар, cost(J) - стоимость операции перестановки, cost(T) - стоимость операции замены и 2cost(T)-cost(J)>0.
10. Устройство по п. 9, в котором упомянутые операции включают операцию замены и операцию перестановки, при этом второй блок определения включает:
первый подблок определения, сконфигурированный для определения минимального семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки;
подблок нормализации, сконфигурированный для нормализации минимального семантического редакционного расстояния, в результате чего получают нормализованный результат; и
второй подблок определения, сконфигурированный для определения сходства между первой строкой символов и второй строкой символов согласно нормализованному результату.
11. Устройство по п. 9 или 10, также включающее:
третий модуль определения, сконфигурированный для определения стоимости операции замены и стоимости операции перестановки согласно соотношению между операцией замены и операцией перестановки; и
четвертый модуль определения, сконфигурированный для определения стоимости операции вставки, стоимости операции удаления и стоимости операции замены согласно соотношению между операцией замены, операцией вставки и операцией удаления.
12. Устройство по п. 11, также включающее:
пятый модуль определения, сконфигурированный для определения того, что 2 × стоимость операции замены > стоимости операции перестановки, согласно соотношению между операцией замены и операцией перестановки; и
шестой модуль определения, сконфигурированный для того, что стоимость операции вставки + стоимость операции удаления > стоимости операции замены согласно соотношению между операцией замены, операцией вставки и операцией удаления.
13. Устройство по п. 11, также включающее:
седьмой модуль определения, сконфигурированный для определения того, что стоимость операции вставки равна стоимости операции удавления согласно соотношению между операцией вставки и операцией удаления.
14. Устройство по п. 10, в котором первый подблок определения сконфигурирован для определения минимального семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно редакционному расстоянию, количеству пар, стоимости операции замены и стоимости операции перестановки на основе приведенной ниже формулы,
Формула II:
minCost(S1, S2)=d-p(2cost(T)-cost(J)),
где S1 и S2, соответственно, - первая строка символов и вторая строка символов, minCost(S1, S2) - минимальное семантическое редакционное расстояние, d - редакционное расстояние, р - количество пар, cost(J) - стоимость операции перестановки, cost(T) - стоимость операции замены, и 2cost(T)-cost(J)>0.
15. Устройство по п. 9, в котором четвертый подблок определения сконфигурирован для определения второго семантического редакционного расстояния между первой строкой символов и второй строкой символов согласно любому из следующего: стоимости операции вставки и стоимости операции удаления, стоимости операции замены, количеству слов в первой последовательности и количеству слов во второй последовательности, на основе приведенной ниже формулы,
Формула IV:
Figure 00000061
где normFact(S1, S2) - второе семантическое редакционное расстояние, n - количество слов в первой последовательности, m - количество слов во второй последовательности, cost(T) - стоимость операции замены, cost(S) - стоимость операции удаления и cost(C) - стоимость операции вставки.
16. Устройство по п. 9, в котором пятый подблок определения сконфигурирован для определения сходства между первой строкой символов и второй строкой символов согласно первому семантическому редакционному расстоянию и второму семантическому редакционному расстоянию на основе приведенной ниже формулы V,
Формула V:
sim(S1, S2)=1-minCost(S1, S2)/normFact(S1, S2);
где sim(S1, S2) - сходство между первой строкой символов и второй строкой символов, minCost(S1, S2) - первое семантическое редакционное расстояние и normFact(S1, S2) - второе семантическое редакционное расстояние.
RU2016118758A 2015-12-03 2015-12-29 Способ и устройство для определения сходства, а также терминал RU2664002C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510882468.2 2015-12-03
CN201510882468.2A CN105446957B (zh) 2015-12-03 2015-12-03 相似性确定方法、装置及终端
PCT/CN2015/099523 WO2017092122A1 (zh) 2015-12-03 2015-12-29 相似性确定方法、装置及终端

Publications (2)

Publication Number Publication Date
RU2016118758A RU2016118758A (ru) 2017-11-20
RU2664002C2 true RU2664002C2 (ru) 2018-08-14

Family

ID=55557172

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016118758A RU2664002C2 (ru) 2015-12-03 2015-12-29 Способ и устройство для определения сходства, а также терминал

Country Status (8)

Country Link
US (1) US10089301B2 (ru)
EP (1) EP3179379A1 (ru)
JP (1) JP6321306B2 (ru)
KR (1) KR101782923B1 (ru)
CN (1) CN105446957B (ru)
MX (1) MX365897B (ru)
RU (1) RU2664002C2 (ru)
WO (1) WO2017092122A1 (ru)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10296788B1 (en) * 2016-12-19 2019-05-21 Matrox Electronic Systems Ltd. Method and system for processing candidate strings detected in an image to identify a match of a model string in the image
US10853457B2 (en) * 2018-02-06 2020-12-01 Didi Research America, Llc System and method for program security protection
US10515149B2 (en) * 2018-03-30 2019-12-24 BlackBoiler, LLC Method and system for suggesting revisions to an electronic document
WO2020061910A1 (zh) * 2018-09-27 2020-04-02 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
SG10201904554TA (en) * 2019-05-21 2019-09-27 Alibaba Group Holding Ltd Methods and devices for quantifying text similarity
CN110750615B (zh) * 2019-09-30 2020-07-24 贝壳找房(北京)科技有限公司 文本重复性判定方法和装置、电子设备和存储介质
CN110909161B (zh) * 2019-11-12 2022-04-08 西安电子科技大学 基于密度聚类和视觉相似度的英文单词分类方法
CN111352549B (zh) * 2020-02-25 2022-01-07 腾讯科技(深圳)有限公司 一种数据对象展示方法、装置、设备及存储介质
KR20210132855A (ko) * 2020-04-28 2021-11-05 삼성전자주식회사 음성 처리 방법 및 장치
US11776529B2 (en) * 2020-04-28 2023-10-03 Samsung Electronics Co., Ltd. Method and apparatus with speech processing
CN111967270B (zh) * 2020-08-16 2023-11-21 云知声智能科技股份有限公司 一种基于字符与语义融合的方法和设备
WO2022146910A1 (en) 2021-01-04 2022-07-07 Blackboiler, Inc. Editing parameters
CN112597313B (zh) * 2021-03-03 2021-06-29 北京沃丰时代数据科技有限公司 短文本聚类方法、装置、电子设备及存储介质
KR102517661B1 (ko) * 2022-07-15 2023-04-04 주식회사 액션파워 텍스트 정보에서 타겟 단어에 대응하는 단어를 식별하는 방법
CN116564414B (zh) * 2023-07-07 2024-03-26 腾讯科技(深圳)有限公司 分子序列的比对方法、装置、电子设备、存储介质及产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757959A (en) * 1995-04-05 1998-05-26 Panasonic Technologies, Inc. System and method for handwriting matching using edit distance computation in a systolic array processor
US20010031088A1 (en) * 2000-04-04 2001-10-18 Naotake Natori Word string collating apparatus, word string collating method and address recognition apparatus
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US20100121850A1 (en) * 2008-11-10 2010-05-13 General Electric Company Methods and systems for mining websites
US20100121864A1 (en) * 2008-11-12 2010-05-13 Sap Ag Data model optimization
CN102622338A (zh) * 2012-02-24 2012-08-01 北京工业大学 一种短文本间语义距离的计算机辅助计算方法
RU2501078C2 (ru) * 2008-04-11 2013-12-10 Майкрософт Корпорейшн Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NO983175L (no) 1998-07-10 2000-01-11 Fast Search & Transfer Asa Soekesystem for gjenfinning av data
US6810376B1 (en) * 2000-07-11 2004-10-26 Nusuara Technologies Sdn Bhd System and methods for determining semantic similarity of sentences
US7734565B2 (en) * 2003-01-18 2010-06-08 Yahoo! Inc. Query string matching method and apparatus
WO2005041063A1 (en) * 2003-09-30 2005-05-06 British Telecommunications Public Limited Company Information retrieval
JP2005352888A (ja) * 2004-06-11 2005-12-22 Hitachi Ltd 表記揺れ対応辞書作成システム
US8077984B2 (en) * 2008-01-04 2011-12-13 Xerox Corporation Method for computing similarity between text spans using factored word sequence kernels
US8775441B2 (en) 2008-01-16 2014-07-08 Ab Initio Technology Llc Managing an archive for approximate string matching
US8170969B2 (en) * 2008-08-13 2012-05-01 Siemens Aktiengesellschaft Automated computation of semantic similarity of pairs of named entity phrases using electronic document corpora as background knowledge
CN101751430A (zh) * 2008-12-12 2010-06-23 汉王科技股份有限公司 电子词典模糊检索方法
CN101561813B (zh) * 2009-05-27 2010-09-29 东北大学 一种Web环境下的字符串相似度的分析方法
CN101957828B (zh) 2009-07-20 2013-03-06 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置
WO2014136173A1 (ja) * 2013-03-04 2014-09-12 三菱電機株式会社 検索装置
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
US20150051896A1 (en) * 2013-08-14 2015-02-19 National Research Council Of Canada Method and apparatus to construct program for assisting in reviewing
JP6143638B2 (ja) * 2013-10-17 2017-06-07 株式会社日立ソリューションズ東日本 データ処理装置およびデータ処理方法
US9430463B2 (en) * 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9672206B2 (en) * 2015-06-01 2017-06-06 Information Extraction Systems, Inc. Apparatus, system and method for application-specific and customizable semantic similarity measurement

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757959A (en) * 1995-04-05 1998-05-26 Panasonic Technologies, Inc. System and method for handwriting matching using edit distance computation in a systolic array processor
US20010031088A1 (en) * 2000-04-04 2001-10-18 Naotake Natori Word string collating apparatus, word string collating method and address recognition apparatus
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
RU2501078C2 (ru) * 2008-04-11 2013-12-10 Майкрософт Корпорейшн Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе
US20100121850A1 (en) * 2008-11-10 2010-05-13 General Electric Company Methods and systems for mining websites
US20100121864A1 (en) * 2008-11-12 2010-05-13 Sap Ag Data model optimization
CN102622338A (zh) * 2012-02-24 2012-08-01 北京工业大学 一种短文本间语义距离的计算机辅助计算方法

Also Published As

Publication number Publication date
EP3179379A1 (en) 2017-06-14
CN105446957B (zh) 2018-07-20
US10089301B2 (en) 2018-10-02
JP6321306B2 (ja) 2018-05-09
KR101782923B1 (ko) 2017-09-28
RU2016118758A (ru) 2017-11-20
WO2017092122A1 (zh) 2017-06-08
MX365897B (es) 2019-06-19
US20170161260A1 (en) 2017-06-08
CN105446957A (zh) 2016-03-30
MX2016005489A (es) 2017-11-30
JP2018501597A (ja) 2018-01-18

Similar Documents

Publication Publication Date Title
RU2664002C2 (ru) Способ и устройство для определения сходства, а также терминал
TWI732338B (zh) 文本序列的識別方法、電子設備和電腦可讀存儲介質
RU2643500C2 (ru) Способ и устройство для обучения классификатора и распознавания типа
CN110781813B (zh) 图像识别方法及装置、电子设备和存储介质
WO2021208666A1 (zh) 字符识别方法及装置、电子设备和存储介质
CN109558599B (zh) 一种转换方法、装置和电子设备
CN111368541A (zh) 命名实体识别方法及装置
EP3734472A1 (en) Method and device for text processing
CN112291614A (zh) 一种视频生成方法及装置
KR20150092390A (ko) 음성기반 이미지 파일 태깅장치 및 그를 이용한 클라우드 서비스 기반 이미지 파일 검색방법
CN110659690A (zh) 神经网络的构建方法及装置、电子设备和存储介质
TW202117707A (zh) 資料處理方法、電子設備和電腦可讀儲存介質
CN113987128A (zh) 相关文章搜索方法、装置、电子设备和存储介质
CN112836058A (zh) 医疗知识图谱建立方法及装置、医疗知识图谱查询方法及装置
US20220171940A1 (en) Method and device for semantic analysis and storage medium
RU2608470C2 (ru) Способ и устройство для обновления пользовательских данных
CN111538998B (zh) 文本定密方法和装置、电子设备及计算机可读存储介质
CN109887492B (zh) 一种数据处理方法、装置和电子设备
CN111078860B (zh) 文本筛选方法、文本筛选装置及电子设备
CN108345590B (zh) 一种翻译方法、装置、电子设备以及存储介质
CN108073566B (zh) 分词方法和装置、用于分词的装置
CN110362686B (zh) 一种词库的生成方法、装置、终端设备和服务器
CN111650554A (zh) 定位方法及装置、电子设备和存储介质
CN113589954A (zh) 一种数据处理方法、装置和电子设备
CN107102747B (zh) 一种信息输入方法、装置和用于信息输入的装置