KR101782923B1 - 유사성 확정 방법, 장치, 단말, 프로그램 및 저장매체 - Google Patents

유사성 확정 방법, 장치, 단말, 프로그램 및 저장매체 Download PDF

Info

Publication number
KR101782923B1
KR101782923B1 KR1020167006741A KR20167006741A KR101782923B1 KR 101782923 B1 KR101782923 B1 KR 101782923B1 KR 1020167006741 A KR1020167006741 A KR 1020167006741A KR 20167006741 A KR20167006741 A KR 20167006741A KR 101782923 B1 KR101782923 B1 KR 101782923B1
Authority
KR
South Korea
Prior art keywords
character string
sequence
cost
determining
similarity
Prior art date
Application number
KR1020167006741A
Other languages
English (en)
Inventor
핑쯔 왕
타오 장
페이 롱
Original Assignee
시아오미 아이엔씨.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 시아오미 아이엔씨. filed Critical 시아오미 아이엔씨.
Application granted granted Critical
Publication of KR101782923B1 publication Critical patent/KR101782923B1/ko

Links

Images

Classifications

    • G06F17/2705
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F17/21
    • G06F17/277
    • G06F17/30663
    • G06F17/30684
    • G06F17/30985
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은, 유사성 확정 방법, 장치, 단말, 프로그램 및 저장매체에 관한 것인바, 자연 언어 처리 분야에 관한 것이다. 상기의 방법은, 제 1 문자열 및 제 2 문자열에 대하여 각각 단어 분할을 수행하여, 적어도 하나의 단어가 각각 포함된 제 1 시퀀스 및 제 2 시퀀스를 얻는 단계; 미리 정의된 편집 거리 알고리즘, 제 1 시퀀스, 및 제 2 시퀀스에 기반하여, 제 1 문자열과 제 2 문자열 사이의 편집 거리를 확정하는 단계; 편집 거리 및 제 1 시퀀스를 제 2 시퀀스로 변환시키기 위하여 실시한 각 조작의 정보에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정하는 단계를 포함한다. 제 1 문자열 및 제 2 문자열을 제 1 시퀀스 및 제 2 시퀀스로 단어 분할함으로써, 편집 거리를 확정할 때, 문자열 내의 문자에 기반하여 실현하는 것이 아니라, 문자열 내의 단어에 기반하여 실현한다. 여기서, 문자열 내의 각 단어는 적어도 하나의 문자를 포함할 가능성이 있기 때문에, 문자열 내의 각 문자 사이의 관련 관계와 결합시켜 편집 거리에 기반하여 유사성을 확정하였기에, 확정한 유사성이 더욱 정확하게 된다.

Description

유사성 확정 방법, 장치, 단말, 프로그램 및 저장매체 {METHOD, APPARATUS, PROGRAM AND RECORDING MEDIUM FOR DETERMINING SIMILARITY AND TERMINAL}
본원 발명은, 출원 번호가 CN201510882468. 2이고, 출원일자가 2015 년 12 월 03 일인 중국 특허 출원을 기초로 하여 우선권을 주장하는 바, 당해 중국 특허 출원의 전부 내용은 본원 발명에 원용된다.
본 발명은, 자연 언어 처리 분야에 관한 것으로, 특히, 유사성 확정 방법, 장치, 단말, 프로그램 및 저장매체에 관한 것이다.
자연 언어 처리 분야에서 문자열 사이의 유사성을 확정하는 방법은 하나의 기본적인 문제로서, 텍스트의 클러스터링, 정보 검색, 등과 같은, 많은 장면에 적용된다. 때문에, 문자열 사이의 유사성을 어떻게 확정하는지는 연구자들에 폭넓게 주목받고 있다.
관련 기술에서, 문자열 사이의 유사성을 확정할 때, 두 문자열의 사이의 편집 거리를 산출하여 실현한다. 구체적으로, 이 두 문자열을 각각 단어 분할하여 각각의 문자를 얻은 후, 하나의 문자열 중의 문자에 대하여 삭제 조작, 삽입 조작, 및 절환 조작을 실시하여, 하나의 문자열을 다른 하나의 문자열로 변환하며, 계속하여 하나의 문자열로부터 다른 하나의 문자열로 변환시키는데 걸리는 최소의 조작 회수를 산출하여, 당해 최소의 조작 회수를 이 두 문자열 사이의 편집 거리로 확정하여, 편집 거리에 기반하여 이 두 문자열 사이의 유사성을 산출한다.
본 발명은, 유사성 확정 방법, 장치, 단말, 프로그램 및 저장매체를 제공한다.
상기 방법은,
제 1 문자열 및 제 2 문자열에 대하여 각각 단어 분할을 수행하여, 적어도 하나의 단어가 각각 포함된 제 1 시퀀스 및 제 2 시퀀스를 얻는 단계;
미리 정의된 편집 거리 알고리즘, 상기 제 1 시퀀스 및 상기 제 2 시퀀스에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 편집 거리를 확정하는 단계;
상기 편집 거리 및 상기 제 1 시퀀스를 상기 제 2 시퀀스로 변환시키기 위하여 수행한 각 조작의 정보에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하는 단계
를 포함한다.
본 발명에 따른 실시예의 제 2 양태에 따르면, 유사성 확정 장치를 제공한다.
상기 장치는,
제 1 문자열 및 제 2 문자열에 대하여 각각 단어 분할을 수행하여, 적어도 하나의 단어가 각각 포함된 제 1 시퀀스 및 제 2 시퀀스를 얻기 위한 단어 분할 모듈;
미리 정의된 편집 거리 알고리즘, 상기 제 1 시퀀스 및 상기 제 2 시퀀스에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 편집 거리를 확정하기 위한 제 1 확정 모듈;
상기 편집 거리 및 상기 제 1 시퀀스를 상기 제 2 시퀀스로 변환시키기 위하여 수행한 각 조작의 정보에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하기 위한 제 2 확정 모듈
을 구비한다.
본 발명에 따른 실시예의 제 3 양태에 따르면, 단말을 제공한다.
상기 단말은,
프로세서; 및
상기 프로세서에 의해 실행되는 명령을 기억하는 메모리
를 구비하며,
상기 프로세서는,
제 1 문자열 및 제 2 문자열에 대하여 각각 단어 분할을 수행하여, 적어도 하나의 단어가 각각 포함된 제 1 시퀀스 및 제 2 시퀀스를 얻고,
미리 정의된 편집 거리 알고리즘, 상기 제 1 시퀀스 및 상기 제 2 시퀀스에 기반하여, 상기 제 1 문자열 및 상기 제 2 문자열 사이의 편집 거리를 확정하고,
상기 편집 거리 및 상기 제 1 시퀀스를 상기 제 2 시퀀스로 변환시키기 위하여 수행한 각 조작의 정보에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하도록 구성된다.
본 발명의 실시예의 제 4 양태에 의하면 컴퓨터 판독가능한 저장매체에 기록된 프로그램을 제공하며, 당해 프로그램은 프로세서에 의해 실행되는 것을 통하여 상기 유사성 확정 방법을 실현한다.
본 발명의 실시예의 제 5 양태에 의하면 컴퓨터 판독가능한 저장매체를 제공하며, 당해 저장매체에는 상기 프로그램이 기록되어 있다.
본 발명의 실시예가 제공하는 구성의 유익한 효과는 아래와 같다.
제 1 문자열 및 제 2 문자열을, 각각, 제 1 시퀀스 및 제 2 시퀀스로 단어 분할하고, 제 1 문자열을 제 2 문자열로 변환시킬 때의 편집 거리를 확정할 때, 제 1 문자열 및 제 2 문자열 내의 각 문자에 기반하여 실현하는 것이 아니라, 제 1 시퀀스 및 제 2 시퀀스 중의 각 단어에 기반하여 실현한다. 여기서, 문자열 내의 각 단어는 적어도 하나의 문자를 포함할 가능성이 있기 때문에, 문자열 내의 각 문자 사이의 관련 관계와 결합시켜 편집 거리에 기반하여 유사성을 확정하였기에, 확정한 유사성이 더욱 정확하게 된다.
이상의 일반적인 설명과 후술되는 세부사항은 단지 예시적인 것일뿐, 본 발명을 한정하기 위한 것이 아니라는 것을 이해해야 할 것이다.
여기서의 도면은, 명세서에 합병되어 본 명세서의 일부를 구성하는 바, 본 발명에 따르는 실시 예를 설명하기 위한것이다. 당해 도면들은 명세서와 함께 본 발명의 원리를 분석하는데 이용된다.
도 1은, 예시적인 일 실시예에 따른 유사성 확정 방법을 나타내는 플로차트이다.
도 2는, 예시적인 일 실시예에 따른 유사성 확정 방법을 나타내는 플로차트이다.
도 3은, 예시적인 일 실시예에 따른 유사성 확정 장치를 나타내는 블럭도이다.
도 4는, 예시적인 일 실시예에 따른 제 2 확정 모듈을 나타내는 블럭도이다.
도 5는, 예시적인 일 실시예에 따른 제 2 확정 유닛을 나타내는 블럭도이다.
도 6은, 예시적인 일 실시예에 따른 제 2 확정 유닛을 나타내는 블럭도이다.
도 7은, 예시적인 일 실시예에 따른 유사성 확정 장치를 나타내는 블럭도이다.
도 8은, 예시적인 일 실시예에 따른 유사성 확정 장치를 나타내는 블럭도이다.
도 9는, 예시적인 일 실시예에 따른 유사성 확정 장치를 나타내는 블럭도이다.
도 10은, 예시적인 일 실시예에 따른 단말을 나타내는 블럭도이다.
도 11은, 예시적인 일 실시예에 따른 서버를 나타내는 블럭도이다.
여기서, 예시적인 실시 예를 상세하게 설명하는 바, 도면에 설명중의 예를 나타낸다. 다음의 설명중에서, 도면을 설명 할 때 특별한 설명이 없는 경우, 서로 다른 도면 중의 동일한 부호는 동일하거나 유사한 요소를 의미한다. 아래의 예시적인 실시 예에서 설명하는 실시 방법은 본 발명에 따른 모든 실시 방법을 대표하지 않는다. 반대로, 이들은 첨부된 특허 청구 범위에서 상세하게 기술된 본 발명의 여러 양태와 매칭한 장치 및 방법의 예에 불과하다.
자연 언어 처리 분야에서, 문자열 사이의 유사성을 확정하는 방법은 하나의 기본적인 문제로서, 텍스트의 클러스터링, 정보 검색, 등과 같은, 많은 장면에 적용된다. 본 발명의 실시예는, 확정하는 두 문자열 사이의 유사성을 더욱 정확히 하기 위한, 유사성 확정 방법을 제공한다. 도 1은, 예시적인 일 실시예에 따른 유사성 확정 방법을 나타내는 플로차트이다. 본 발명의 실시예에 의해 제공되는 유사성 확정 방법은 단말에 적용된다. 도 1에 나타낸 바와 같이, 본 발명의 실시예에 의해 제공되는 유사성 확정 방법은 이하의 단계를 포함한다.
단계 S101에 있어서, 제 1 문자열 및 제 2 문자열에 대하여 각각 단어 분할을 수행하여, 적어도 하나의 단어가 각각 포함된 제 1 시퀀스 및 제 2 시퀀스를 얻는다.
단계 S102에 있어서, 미리 정의된 편집 거리 알고리즘, 제 1 시퀀스, 및 제 2 시퀀스에 기반하여, 제 1 문자열 및 제 2 문자열 사이의 편집 거리를 확정한다.
단계 S103에 있어서, 편집 거리 및 제 1 시퀀스를 제 2 시퀀스로 변환시키기 위하여 실시한 각 조작의 정보에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정한다.
본 발명의 실시예에 의해 제공되는 방법에 따르면, 제 1 문자열 및 제 2 문자열을 각각, 제 1 시퀀스 및 제 2 시퀀스로 단어 분할하고, 제 1 문자열을 제 2 문자열로 변환시킬 때의 편집 거리를 확정할 때, 제 1 문자열 및 제 2 문자열 내의 각 문자에 기반하여 실현하는 것이 아니라, 제 1 시퀀스 및 제 2 시퀀스 중의 각 단어에 기반하여 실현한다. 여기서, 문자열 내의 각 단어는 적어도 하나의 문자를 포함할 가능성이 있기 때문에, 문자열 내의 각 문자 사이의 관련 관계와 결합시켜 편집 거리에 기반하여 유사성을 확정하였기에, 확정한 유사성이 더욱 정확하게 된다.
다른 일 실시예에 있어서, 편집 거리 및 제 1 시퀀스를 제 2 시퀀스로 변환시키기 위하여 실시한 각 조작의 정보에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정하는 단계는,
제 1 시퀀스를 제 2 시퀀스로 변환시키기 위하여 실시한 각 조작 정보 중의 절환 조작 정보를 취득하는 단계;
각 절환 조작 정보에 기반하여, 제 1 시퀀스 및 제 2 시퀀스 양자 내에 동시에 존재하는 두 개의 단어의 개수인 페어링의 개수를 확정하는 단계;
편집 거리, 페어링의 개수, 각 조작의 조작 코스트, 제 1 시퀀스 중의 단어의 개수 및 제 2 시퀀스 중의 단어의 개수에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정하는 단계
를 포함한다.
다른 일 실시예에 있어서, 각 조작 포괄은, 절환 조작 및 교환 조작을 포함하며,
편집 거리, 페어링의 개수, 각 조작의 조작 코스트, 제 1 시퀀스 중의 단어의 개수 및 제 2 시퀀스 중의 단어의 개수에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정하는 단계는,
편집 거리, 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 제 1 문자열과 제 2 문자열 사이의 최소의 세만틱의 편집 거리를 확정하는 단계;
최소의 세만틱의 편집 거리를 정규화하여 정규화 결과를 얻는 단계;
정규화 결과에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정하는 단계
를 포함한다.
다른 일 실시예에 있어서, 각 조작은, 절환 조작, 교환 조작, 삽입 조작 및 삭제 조작 중의 적어도 하나를 포함하며,
편집 거리, 페어링의 개수, 각 조작의 조작 코스트, 제 1 시퀀스 중의 단어의 개수 및 제 2 시퀀스 중의 단어의 개수에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정하는 단계는,
편집 거리, 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 제 1 문자열과 제 2 문자열 사이의 제 1 세만틱의 편집 거리를 확정하는 단계;
삽입 조작의 조작 코스트 및 삭제 조작의 조작 코스트 중 하나, 절환 조작의 조작 코스트, 제 1 시퀀스 중의 단어의 개수 및 제 2 시퀀스 중의 단어의 개수에 기반하여, 제 1 문자열과 제 2 문자열 사이의 제 2 세만틱의 편집 거리를 확정하는 단계;
제 1 세만틱의 편집 거리 및 제 2 세만틱의 편집 거리에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정하는 단계
를 포함한다.
다른 일 실시예에 있어서, 당해 방법은,
절환 조작과 교환 조작 사이의 관계에 기반하여, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트를 확정하는 단계;
절환 조작, 삽입 조작 및 삭제 조작 사이의 관계에 기반하여, 삽입 조작의 조작 코스트, 삭제 조작의 조작 코스트 및 절환 조작의 조작 코스트를 확정하는 단계
를 더 포함한다.
다른 일 실시예에 있어서, 당해 방법은,
절환 조작과 교환 조작 사이의 관계에 기반하여, 2 × 절환 조작의 조작 코스트 > 교환 조작의 조작 코스트 인것으로 확정하는 단계;
절환 조작, 삽입 조작 및 삭제 조작 사이의 관계에 기반하여, 삽입 조작의 조작 코스트 + 삭제 조작의 조작 코스트 > 절환 조작의 조작 코스트 인것으로 확정하는 단계
를 더 포함한다.
다른 일 실시예에 있어서, 당해 방법은,
삽입 조작과 삭제 조작 사이의 관계에 기반하여, 삽입 조작의 조작 코스트 = 삭제 조작의 조작 코스트 인것으로 확정하는 단계
를 더 포함한다.
다른 일 실시예에 있어서, 미리 정의된 편집 거리 알고리즘, 제 1 시퀀스, 및 제 2 시퀀스에 기반하여, 제 1 문자열 및 제 2 문자열 사이의 편집 거리를 확정하는 단계는,
미리 정의된 편집 거리 알고리즘, 제 1 시퀀스, 및 제 2 시퀀스에 기반하여, 이하의 공식 1에 따라 제 1 문자열 및 제 2 문자열 사이의 편집 거리를 확정하는 단계를 포함하며,
공식1:
Figure 112016024641637-pct00001
공식 1 중에서, i는 제 1 시퀀스 중의 i번째의 단어이며, j는 제 2 시퀀스 중의 j번째의 단어이며, cost(S)는 삭제 조작의 조작 코스트이며, cost(C)는 삽입 조작의 조작 코스트이며, cost(T)는 절환 조작의 조작 코스트이다.
다른 일 실시예에 있어서, 편집 거리, 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 제 1 문자열과 제 2 문자열 사이의 최소의 세만틱의 편집 거리를 확정하는 단계는,
편집 거리, 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 이하의 공식 2에 따라 제 1 문자열과 제 2 문자열 사이의 최소의 세만틱의 편집 거리를 확정하는 단계를 포함하며,
공식2:
Figure 112016024641637-pct00002
공식 2 중에서, S1 및 S2는 각각 제 1 문자열 및 제 2 문자열이며, minCost(S1,S2)는 최소의 세만틱의 편집 거리이며, d는 편집 거리이며, p는 페어링의 개수이며, cost(J)는 교환 조작의 조작 코스트이며, cost(T)는 절환 조작의 조작 코스트이며, 또한, 2cost(T)-cost(J)>0이다.
다른 일 실시예에 있어서, 편집 거리, 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 제 1 문자열과 제 2 문자열 사이의 제 1 세만틱의 편집 거리를 확정하는 단계는,
편집 거리, 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 이하의 공식 3에 따라 제 1 문자열과 제 2 문자열 사이의 제 1 세만틱의 편집 거리를 확정하는 단계를 포함하며,
공식3:
Figure 112016024641637-pct00003
공식 3 중에서, S1 및 S2는 각각 제 1 문자열 및 제 2 문자열이며, minCost(S1,S2)는 제 1 세만틱의 편집 거리이며, d는 편집 거리이며, p는 페어링의 개수이며, cost(J)는 교환 조작의 조작 코스트이며, cost(T)는 절환 조작의 조작 코스트이며, 또한, 2cost(T)-cost(J)>0 이다.
다른 일 실시예에 있어서, 삽입 조작의 조작 코스트 및 삭제 조작의 조작 코스트 중 하나, 절환 조작의 조작 코스트, 제 1 시퀀스 중의 단어의 개수 및 제 2 시퀀스 중의 단어의 개수에 기반하여, 제 1 문자열과 제 2 문자열 사이의 제 2 세만틱의 편집 거리를 확정하는 단계는,
삽입 조작의 조작 코스트 및 삭제 조작의 조작 코스트 중 하나, 절환 조작의 조작 코스트, 제 1 시퀀스 중의 단어의 개수 및 제 2 시퀀스 중의 단어의 개수에 기반하여, 이하의 공식 4에 따라 제 1 문자열과 제 2 문자열 사이의 제 2 세만틱의 편집 거리를 확정하는 단계를 포함하며,
공식4:
Figure 112016024641637-pct00004
공식 4 중에서, normFact(S1,S2)는 제 2 세만틱의 편집 거리이며, n는 제 1 시퀀스의 단어의 개수이며, m는 제 2 시퀀스의 단어의 개수이며, cost(T)는 절환 조작의 조작 코스트이며, cost(S)는 삭제 조작의 조작 코스트이며, cost(C)는 삽입 조작의 조작 코스트 이다.
다른 일 실시예에 있어서, 제 1 세만틱의 편집 거리 및 제 2 세만틱의 편집 거리에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정하는 단계는,
제 1 세만틱의 편집 거리 및 제 2 세만틱의 편집 거리에 기반하여, 이하의 공식 5에 따라 제 1 문자열과 제 2 문자열 사이의 유사성을 확정하는 단계를 포함하며,
공식5:
Figure 112016024641637-pct00005
공식 5 중에서, sim(S1,S2)는 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성이며, minCost(S1,S2)는 상기 제 1 세만틱의 편집 거리이며, normFact(S1,S2)는 상기 제 2 세만틱의 편집 거리 이다
상기의 모든 옵션적인 구성을 임의로 조합하여 본 발명의 옵션적인 실시예를 실현할수 있는바, 여기에서는 반복하여 설명하지 않는다.
도 2는, 예시적인 일 실시예에 따른 유사성 확정 방법을 나타내는 플로차트이다. 당해 유사성 확정 방법은 단말에 적용된다. 도 2에 나타낸 바와 같이, 본 발명의 실시예에 의해 제공되는 유사성 확정 방법은 이하의 단계를 포함한다.
단계 S201에 있어서, 제 1 문자열 및 제 2 문자열에 대하여 각각 단어 분할을 수행하여, 제 1 시퀀스 및 제 2 시퀀스를 얻는다.
문자열 내의 각 문자 사이는 완전하게 독립된 것이 아니라, 일정한 관련 관계를 가질 가능성이 있다. 즉, 어느 두 인접된 문자는 분할할수 없는 하나의 정체일 가능성이 있다. 예를 들면, "나는 오늘 향상에 가서 등산한다" 내의 "오늘" 및 "향산"은, 각각 분할할수 없는 하나의 정체이다. 때문에, 본 발명의 실시예는, 두 문자열 사이의 유사성을 확정할 때, 두 문자열을 각각 여러 문자로 단어 분할하는 것이 아니라, 두 문자열을 각각 여러 단어로 단어 분할하며, 단어 분할 후의 문자열은 적어도 하나의 단어를 포함한다. 설명의 편리를 위하여, 본 발명의 실시예는 유사성을 확정하려고 하는 두 문자열을 각각 제 1 문자열 및 제 2 문자열로 정의하며, 또한, 제 1 문자열을 여러 단어로 단어 분할한 후 제 1 시퀀스를 얻고, 제 2 문자열을 여러 단어로 단어 분할한 후 제 2 시퀀스를 얻는다. 여기서, 제 1 시퀀스 및 제 2 시퀀스는, 각각, 적어도 하나의 단어를 포함한다.
예를 들면, 제 1 문자열 및 제 2 문자열이 각각 S1 및 S2이고, 제 1 시퀀스 및 제 2 시퀀스가 각각, (S11, S12, S13, …, S1n) 및 (S21, S22, S23, … , S2m)이다. 여기서, S1 내의 단어의 개수는 n이며, S2 내의 단어의 개수는 m이다.
본 발명의 실시예에 있어서, 제 1 문자열 및 제 2 문자열의 언어에 대하여 구체적으로 한정하지 않는다. 예를 들면, 제 1 문자열 및 제 2 문자열은 모두 중국어 혹은 영어 등이다. 여기서, 제 1 문자열 및 제 2 문자열은 각각 하나의 구절일수 있다. 예를 들면, 제 1 문자열은 "오늘 나는 향상에 갈 타산이다”이고, 제 2 문자열은 "나는 오늘 향상에 갈 타산이다”이다.
단계 S202에 있어서, 절환 조작과 교환 조작 사이의 관계에 기반하여, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트를 확정하며, 절환 조작, 삽입 조작 및 삭제 조작 사이의 관계에 기반하여, 삽입 조작의 조작 코스트, 삭제 조작의 조작 코스트 및 절환 조작의 조작 코스트를 확정한다.
종래의 문자열 사이의 유사성을 확정하는 방법에 따르면, 하나의 문자열을 다른 하나의 문자열로 변환시킬 때, 일반적으로, 삽입 조작, 삭제 조작 및 절환 조작과 같은 세가지 편집 조작이 있으며, 또한, 이러한 세가지 조작의 조작 코스트는 동일하다. 그러나, 문자열 내에서 어느 한 성분이 문자열 내의 서로 다른 위치에 출현할 때, 문자열 전체의 의미는 변하지 않을수 있다. 예를 들면, "오늘 나는 향상에 갈 타산이다", "나는 오늘 향산에 갈 타산이다" 및 "나의 타산은 오늘 향산에 가는 것이다" 중에서, 각 단어의 문자열 내의 위치가 서로 다르지만, 이 세 문자열의 의미는 동일하다. 때문에, 본 발명의 실시예에 있어서, 종래의 삽입 조작, 삭제 조작 및 절환 조작을 기본으로 교환 조작을 새로이 정의하며, 또한, 각 조작 사이의 관계에 기반하여 서로 다른 조작에 대해 서로 다른 조작 코스트를 정의한다.
본 발명의 실시예에 있어서, 각 조작에 할당하는 조작 코스트의 구체적인 수치를 구체적으로 한정하지 않는다. 그러나, 본 발명의 실시예에 있어서, 구체적으로 실시할 때 교환 조작을 2회의 절환 조작으로 분해할수 있기 때문에, 절환 조작과 교환 조작 사이의 관계에 기반하여, 절환 조작 코스트 및 교환 조작 코스트를 확정할수 있다. 예를 들면, 본 발명의 실시예로 정의하는 절환 조작 코스트와 교환 조작 코스트와의 사이의 관계는, "2 × 절환 조작의 조작 코스트 > 교환 조작의 조작 코스트”를 만족시킨다.
즉,
2cost(T)-cost(J)>0
여기서, cost(T)는 절환 조작의 조작 코스트인, cost(J)는 교환 조작의 조작 코스트이다.
또, 본 발명의 실시예에 있어서, 1회의 절환 조작을, 1회의 삭제 조작 및 1회의 삽입 조작으로 분해할수 있기 때문에, 절환 조작, 삽입 조작 및 삭제 조작 사이의 관계에 기반하여, 삽입 조작 코스트 및 삭제 조작 코스트를 확정할수 있다. 예를 들면, 본 발명의 실시예에서 정의하는 절환 조작 코스트, 교환 조작 코스트 및 삭제 조작 코스트와의 사이의 관계는, "삽입 조작의 조작 코스트 + 삭제 조작의 조작 코스트 > 절환 조작의 조작 코스트"를 만족시킨다. 또한 "절환 조작의 조작 코스트는, 삽입 조작의 조작 코스트 및 삭제 조작의 조작 코스트 중의 최대치보다 크다"라고 확정한다. 일 례로, 이러한 관계는 이하의 공식과 같다.
Figure 112016024641637-pct00006
여기서, cost(S)는 삭제 조작의 조작 코스트이며, cost(C)는 삽입 조작의 조작 코스트이며.
또한, 유사성에 대칭성이 있으면, 즉, 제 1 문자열 내에 하나의 문자를 삽입하는 것이 제 2 문자열 내에서 하나의 문자를 삭제하는 것과 동일하다면, 삽입 조작과 삭제 조작 사이의 관계에 기반하여, "삽입 조작 코스트 = 삭제 조작 코스트"를 확정할수 있다. 당연히, 유사성에 대칭성이 없는 경우에는, 삽입 조작 코스트가 삭제 조작 코스트와 동일하거나, 혹은, 동일하지 않는 것으로 정의할수도 있는바, 본 발명의 실시예에 있어서 이에 대하여 구체적으로, 한정하지 않는다.
단계 S203에 있어서, 절환 조작의 조작 코스트, 삭제 조작의 조작 코스트 및 삽입 조작의 조작 코스트에 기반하여, 미리 정의된 편집 거리 알고리즘을 생성한다.
일 례로, 미리 정의된 편집 거리 알고리즘은 이하의 공식 1과 같다.
공식1:
Figure 112016024641637-pct00007
공식 1 중에서, i는 제 1 시퀀스 중의 i번째의 단어이며, j는 제 2 시퀀스 중의 j번째의 단어이며, cost(S)는 삭제 조작의 조작 코스트이며, cost(C)는 삽입 조작의 조작 코스트이며, cost(T)는, 절환 조작의 조작 코스트이다.
상기 공식 1로부터 알수 있듯이, 본 발명의 실시 예의 미리 정의된 편집 거리 알고리즘은, 동적 계획법 알고리즘이다. 당해 미리 정의된 편집 거리 알고리즘은, 본 발명의 실시예에 대해 미리 정의된 삭제 조작의 조작 코스트, 삽입 조작의 조작 코스트 및 절환 조작의 조작 코스트에 기반하여 얻은 것이다.
단계 S202 및 단계 S203은, 유사성을 확정하기 전에 실행해야 하는 단계이며, 두 문자열 사이의 유사성을 확정할 때마다 실행해야 하는 단계가 아니라, 유사성을 확정하기 전에 각 조작의 조작 코스트 및 미리 정의된 편집 거리 알고리즘을 이미 확정한 것을 보증하기 위한 것이라는 것을 설명할 필요가 있다.
단계 S204에 있어서, 미리 정의된 편집 거리 알고리즘, 제 1 시퀀스, 및 제 2 시퀀스에 기반하여, 제 1 문자열 및 제 2 문자열 사이의 편집 거리를 확정한다.
두 문자열 사이의 편집 거리란, 그 중의 하나의 문자열을 다른 하나의 문자열로 변환시키는데 걸리는 최소의 편집 조작 회수이다. 여기서, 각 종의 편집 조작은, 각각 하나의 조작 코스트에 대응되기 때문에 변환시킬 때의 총 조작 코스트를 편집 거리로 확정한다. 본 발명의 실시예에 있어서, 문자열 사이의 변환을 실시할 때, 실시할수 있는 편집 조작은, 절환 조작, 삽입 조작, 삭제 조작 및 교환 조작을 포함한다.
본 발명의 실시예에 있어서, 상기의 공식 1에 의해 미리 정의된 편집 거리 알고리즘에 결합시켜, 미리 정의된 편집 거리 알고리즘, 제 1 시퀀스, 및 제 2 시퀀스에 기반하여 제 1 문자열과 제 2 문자열 사이의 편집 거리를 확정한 후, 미리 정의된 편집 거리 알고리즘, 제 1 시퀀스, 및 제 2 시퀀스에 기반하여 상기의 공식 1에 따라 제 1 문자열과 제 2 문자열 사이의 편집 거리를 산출할수 있다. 공식 1의 편집 거리를 산출하는 구체적인 원리는, 종래의 동적 계획법 알고리즘에 따라 편집 거리를 산출하는 원리와 동일한바, 본 발명의 실시예에서는 이에 대해 상세하게 설명하지 않는다.
단계 S205에 있어서, 편집 거리 및 제 1 시퀀스를 제 2 시퀀스로 변환시키기 위하여 실시한 각 조작의 정보에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정한다.
본 발명의 실시예에 있어서, 제 1 시퀀스를 제 2 시퀀스로 변환시키기 위하여 수행한 각 조작의 정보는, 조작의 종류, 각종류의 조작의 조작 회수 및 각종류의 조작의 조작 코스트를 포함한다.
본 발명의 실시예에 있어서, 서로 다른 조작에 대해 서로 다른 조작 코스트를 미리 정의했으므로, 두 문자열 사이의 편집 거리에 대한 정의에 결합시켜, 제 1 문자열을 제 2 문자열로 변환시키는데 걸리는 각 조작의 조작 코스트는, 편집 거리에 직접 영향을 미친다. 때문에, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정할 때, 편집 거리 및 편집 거리를 얻기 위하여 수행하는 각 조작의 조작 정보에 기반하여 확정한다. 조작 정보는 조작 코스트를 포함하며, 편집 거리를 얻을 때의 각 조작의 조작 코스트는 단계 S202에서 미리 설정되어 있다.
예를 들면, 제 1 문자열을 제 2 문자열로 변환시킬 때에 수행한 조작이 2회의 삽입 조작, 1회의 삭제 조작, 1회의 교환 조작 및 1회의 절환 조작을 포함하면, 제 1 문자열 및 제 2 문자열 사이의 편집 거리 d는, d=2cost(C)+cost(S)+cost(T)+cost(J)이다. 이 때, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정할 때, 편집 거리, 삽입 조작의 조작 코스트, 삭제 조작의 조작 코스트, 교환 조작의 조작 코스트 및 절환 조작의 조작 코스트에 기반하여, 확정한다.
일 례로, 편집 거리 및 제 1 시퀀스를 제 2 시퀀스로 변환시키기 위하여 실시한 각 조작의 정보에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정할 때, 이하의 단계 S2051 내지 단계 S2053에 의해 실현되지만, 이에 한정되지 않는다.
단계 S2051에 있어서, 편집 거리를 얻을 때, 제 1 시퀀스를 제 2 문자열로 변환시킬때 수행한 각 조작 정보 중의 절환 조작 정보를 취득한다.
절환 조작이란, 제 1 문자열 내에 있는 하나의 단어를 다른 하나의 단어로 절환하는 조작이다. 본 발명의 실시예에 있어서, 편집 거리를 확정하는 동시에, 변환 과정에서 수행한 각 절환 조작의 정보를 통계하여, 각 절환 조작의 정보를 지정된 집합 내에 기록한다. 여기서, 절환 조작의 정보는, 절환 조작의 피절환 단어 및 시퀀스 내의 피절환 단어의 위치를 포함한다. 때문에, 당해 지정된 집합 내에 기록하는 데이터는, 피절환 단어 및 제 1 시퀀스 내의 피절환 단어의 위치를 포함한다. 예를 들면, 제 1 문자열이 "나는 오늘 향산에 갈 타산이다"이고, 제 1 시퀀스가 "나는-오늘-향산에-갈-타산이다"이며, 피절환 단어가 "향산에" 및 "타산이다"이면, 지정된 집합 내에 기록되는 절환 조작의 정보는 "향산에―3, 타산이다―5"이다. 때문에, 지정된 집합 내로부터 편집 거리를 취득할 때, 제 1 문자열을 제 2 문자열로 변환시킬때 수행한 각 조작 정보 중의 절환 조작 정보를 얻을수 있는바, 구체적으로는 각 절환 조작의 피절환 단어 및 각 제 1 시퀀스 내의 피절환 단어의 위치를 얻을수 있다.
또한, 본 발명의 실시예에 있어서, 절환 조작과 교환 조작 사이의 관계에 기반하여, 교환 조작을 새로이 정의하고, 또한, 2cost(T)-cost(J)>0을 미리 정의했기 때문에, 2회의 절환 조작의 코스트가 1회의 교환 조작의 코스트보다 크다는 것을 알수 있다. 때문에, 만약, 제 1 문자열을 제 2 문자열로 변환시킬 때, 1회의 교환 조작에 의해서 실현될수 있으면, 2회의 절환 조작에 의해서 실현하지 않는다. 때문에, 지정된 집합 내에, 제 1 시퀀스 중의 피절환 단어 및 각 제 1 시퀀스 내의 피절환 단어의 위치를 기록하는 것 외에, 또한 지정된 집합 내의 임의의 두 개의 단어가 제 2 시퀀스중에 존재하는지 아닌지를, 확정한다. 만약, 임의의 두 개의 단어가 제 2 시퀀스중에 존재하면, 지정된 집합 내에 또한 이 두 개의 단어 및 각 단어의 제 2 시퀀스 중의 위치를 기록한다.
예를 들면, 제 1 문자열이 "나는 오늘 향산에 갈 타산이다"이고, 제 1 시퀀스가 "나는-오늘-향산에-갈-타산이다"이고, 피절환 단어가 "향산" 및 "타산이다"이며, 또한, 제 2 문자열이 "오늘 나는 향산에 갈 타산이다"이고, 제 2 시퀀스가 "오늘-나는-향산에-갈-타산이다"이면, 피절환 단어인 "향산" 및 "작정"이 제 1 시퀀스 및 제 2 시퀀스에 모두 존재하기 때문에, 지정된 집합 내에 기록하는 데이터는 "향산에―S13, 타산이다―S15, 향산에-S23, 타산이다―S25"이다.
본 발명의 실시예에 있어서, "향산에" 및 "타산이다"를 제 1 문자열 및 제 2 문자열 사이의 하나의 페어링 단어로서 정의한다. 상기의 예로부터 알수 있듯이, 페어링의 단어란 제 1 시퀀스 및 제 2 시퀀스중에 동시에 존재하는 임의의 두 개의 단어이다.
단계 S2052에 있어서, 절환 조작 정보에 기반하여 페어링의 개수를 확정한다.
여기서, 페어링의 개수란 제 1 시퀀스 및 제 2 시퀀스 사이의 페어링의 단어의 개수인바, 즉, 제 1 시퀀스 및 제 2 시퀀스 양자 내에 동시에 존재하는 두 개의 단어의 개수이다. 상기의 지정된 집합 내에 기록하는 데이터에 대한 설명으로부터 알수 있듯이, 지정된 집합 내에 기록하는 데이터에 기반하여 페어링의 개수를 확정한다.
예를 들면, 지정된 집합 내에 기록하는 데이터가 "향산에―S13, 타산이다―S15, 향산-S23, 타산이다―S25, 나는―S11, 간다―S14, 나는―S22, 간다―S24"이면, 페어링의 개수를 2로 확정한다.
단계 S2053에 있어서, 편집 거리, 페어링의 개수, 각 조작의 조작 코스트, 제 1 시퀀스 중의 단어의 개수 및 제 2 시퀀스 중의 단어의 개수에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정한다.
일 례로, 본 발명의 실시예에 있어서, 편집 거리, 페어링의 개수, 각 조작의 조작 코스트, 제 1 시퀀스 중의 단어의 개수 및 제 2 시퀀스 중의 단어의 개수에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정할 때, 각 조작은, 절환 조작, 및 교환 조작을 포함한다.
각 조작의 종류에 조합하면, 단계 S2053는, 이하의 단계 S20531 내지 단계 S20533에 의해 실현된다.
단계 S20531에 있어서, 단어 편집 거리, 단어 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 제 1 문자열과 제 2 문자열 사이의 최소의 세만틱의 편집 거리를 확정한다.
일 례로, 편집 거리, 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 이하의 공식 2에 따라 제 1 문자열과 제 2 문자열 사이의 최소의 세만틱의 편집 거리를 확정한다.
공식2:
Figure 112016024641637-pct00008
공식 2 중에서, S1 및 S2는 각각 제 1 문자열 및 제 2 문자열이며, minCost(S1,S2)는 최소의 세만틱의 편집 거리이며, d는 편집 거리이며, p는 페어링의 개수이며, cost(J)는 교환 조작의 조작 코스트이며, cost(T)는 절환 조작의 조작 코스트이며, 또한, 2cost(T)-cost(J)>0인
단계 S20532에 있어서, 최소의 세만틱의 편집 거리를 정규화하여 정규화 결과를 얻는다.
일 례로, 제 1 문자열과 제 2 문자열 사이의 최대 세만틱의 편집 거리에 기반하여, 최소의 세만틱의 편집 거리를 정규화한다. 최대 세만틱의 편집 거리는 이하의 공식 4와 같다.
공식4:
Figure 112016024641637-pct00009
공식 4 중에서, normFact(S1,S2)는, 상기 제 2 세만틱의 편집 거리이며, n는 상기 제 1 시퀀스의 단어의 개수이며, m는 상기 제 2 시퀀스의 단어의 개수이다.
최소의 세만틱의 편집 거리 minCost(S1,S2)에 대하여, 정규화 처리해 얻은 정규화 결과는, minCost(S1,S2)/normFact(S1,S2)이다. 최소의 세만틱의 편집 거리를 정규화하여 minCost(S1,S2)/normFact(S1,S2)를 0에서 1의 사이에 매핑 시켜, 유사성을 더욱 직관적으로 확정할수 있다.
단계 S20533에 있어서, 단어 정규화 결과에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정한다.
일 례로, 단어 정규화 결과에 기반하여, 이하의 공식 5에 따라 제 1 문자열과 제 2 문자열 사이의 유사성을 확정한다.
공식5:
Figure 112016024641637-pct00010
공식 5 중에서, sim(S1,S2)는 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성이며, minCost(S1,S2)는 최소의 세만틱의 편집 거리이며, normFact(S1,S2)는 최대의 세만틱의 편집 거리이며, minCost(S1,S2)/normFact(S1,S2)는 정규화 결과이다.
더 구체적으로, 본 발명의 실시예에 있어서, 편집 거리, 페어링의 개수, 각 조작의 조작 코스트, 제 1 시퀀스 중의 단어의 개수 및 제 2 시퀀스 중의 단어의 개수에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정할 때, 각 조작은, 절환 조작, 교환 조작, 삽입 조작, 삭제 조작중의 적어도 하나를 포함한다. 이를 기본으로 이하의 단계 S20534 내지 단계 S20536에 의해 실현될수 있다.
단계 S20534에 있어서, 편집 거리, 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 제 1 문자열과 제 2 문자열 사이의 제 1 세만틱의 편집 거리를 확정한다.
여기서, 제 1 세만틱의 편집 거리는, 제 1 문자열과 제 2 문자열 사이의 최소의 세만틱의 편집 거리이다.
일 례로, 편집 거리, 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 제 1 문자열과 제 2 문자열 사이의 제 1 세만틱의 편집 거리를 확정할 때, 이하의 공식 3에 따라서 실현될수 있지만, 이것으로 한정되지 않는다.
공식3:
Figure 112016024641637-pct00011
공식 3 중에서, S1 및 S2는 각각 상기 제 1 문자열 및 상기 제 2 문자열이며, 는, 상기 제 1 세만틱의 편집 거리이며, d는, 상기 편집 거리이며, p는, 상기 페어링의 개수이며, cost(J)는, 상기 교환 조작의 조작 코스트이다.
공식 3및 공식 2로부터 알수 있듯이, 제 1 세만틱의 편집 거리는 제 1 문자열과 제 2 문자열 사이의 최소의 세만틱의 편집 거리이다. 공식 2와 공식 3은, minCost(S1,S2)의 의미만이 서로 다를뿐이다.
단계 S20535에 있어서, 삽입 조작의 조작 코스트 및 삭제 조작의 조작 코스트 중 하나, 절환 조작의 조작 코스트, 제 1 시퀀스 중의 단어의 개수 및 제 2 시퀀스 중의 단어의 개수에 기반하여, 제 1 문자열과 제 2 문자열 사이의 제 2 세만틱의 편집 거리를 확정한다.
여기서, 제 2 세만틱의 편집 거리는, 제 1 문자열과 제 2 문자열 사이의 최대 세만틱의 편집 거리이다.
일 례로, 삽입 조작의 조작 코스트 및 삭제 조작의 조작 코스트 중 하나, 절환 조작의 조작 코스트, 제 1 시퀀스 중의 단어의 개수 및 제 2 시퀀스 중의 단어의 개수에 기반하여, 제 1 문자열과 제 2 문자열 사이의 제 2 세만틱의 편집 거리를 확정할 때, 이하의 공식 4에 따라 실현될수 있지만, 이에 한정되지 않는다.
공식4:
Figure 112016024641637-pct00012
공식 4 중에서, normFact(S1,S2)는 상기 제 2 세만틱의 편집 거리이며, n는 상기 제 1 시퀀스의 단어의 개수이며, m는 상기 제 2 시퀀스의 단어의 개수이다.
여기서, normFact(S1,S2)는 정규화 계수이며, minCost(S1,S2)/normFact(S1,S2)를, 0과 1 사이에 매핑시켜, 유사성을 더욱 직관적으로 확정할수 있다.
단계 S20536에 있어서, 제 1 세만틱의 편집 거리 및 제 2 세만틱의 편집 거리에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정한다.
일 례로, 이하의 공식 5에 따라 제 1 문자열과 제 2 문자열 사이의 유사성을 확정한다.
공식5:
Figure 112016024641637-pct00013
공식 5 중에서, sim(S1,S2)는, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성이다.
예를 들면, minCost(S1,S2)이 1.5이며, normFact(S1,S2)가 2.5이면, S1와 S2와의 사이의 유사성은 1-1.5/2.5 = 0.4이다.
본 발명의 실시예에 의해 제공되는 방법에 따르면, 제 1 문자열 및 제 2 문자열을, 각각 제 1 시퀀스 및 제 2 시퀀스로 단어 분할하고, 제 1 문자열을 제 2 문자열로 변환시킬 때의 편집 거리를 확정할 때, 제 1 문자열 및 제 2 문자열 내의 각 문자에 기반하여 실현하는 것이 아니라, 제 1 시퀀스 및 제 2 시퀀스 중의 각 단어에 기반하여 실현한다. 여기서, 문자열 내의 각 단어는 적어도 하나의 문자를 포함할 가능성이 있기 때문에, 문자열 내의 각 문자 사이의 관련 관계와 결합시켜 편집 거리에 기반하여 유사성을 확정하였기에, 확정한 유사성이 더욱 정확하게 된다.
도 3은, 예시적인 일 실시예에 따른 유사성 확정 장치를 나타내는 블럭도이다. 도 3을 참조하면, 당해 유사성 확정 장치는, 단어 분할 모듈 (301), 제 1 확정 모듈 (302)및 제 2 확정 모듈 (303)을 구비한다.
단어 분할 모듈 (301)은, 제 1 문자열 및 제 2 문자열에 대하여 각각 단어 분할을 수행하여, 적어도 하나의 단어가 각각 포함된 제 1 시퀀스 및 제 2 시퀀스를 얻는다.
제 1 확정 모듈 (302)은, 미리 정의된 편집 거리 알고리즘, 제 1 시퀀스, 및 제 2 시퀀스에 기반하여, 제 1 문자열 및 제 2 문자열 사이의 편집 거리를 확정한다.
제 2 확정 모듈 (303)은, 편집 거리 및 제 1 시퀀스를 제 2 시퀀스로 변환시키기 위하여 실시한 각 조작의 정보에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정한다.
본 발명의 실시예에 의해 제공되는 장치에 따르면, 제 1 문자열 및 제 2 문자열을 제 1 시퀀스 및 제 2 시퀀스로 단어 분할함으로써, 사득 재확정 편집 거리, 문자열 내의 문자에 기반하여 실현하는 것이 아니라, 문자열 내의 단어에 기반하여 실현한다. 여기서, 문자열 내의 각 단어는 적어도 하나의 문자를 포함할 가능성이 있기 때문에, 문자열 내의 각 문자 사이의 관련 관계와 결합시켜 편집 거리에 기반하여 유사성을 확정하였기에, 확정한 유사성이 더욱 정확하게 된다.
다른 일 실시예에 있어서, 도 4를 참조하면, 제 2 확정 모듈 (303)은,
제 1 시퀀스를 제 2 시퀀스로 변환시키기 위하여 실시한 각 조작 정보 중의 절환 조작 정보를 취득하기 위한 취득 유닛 (3031);
각 절환 조작 정보에 기반하여, 제 1 시퀀스 및 제 2 시퀀스 양자 내에 동시에 존재하는 두 개의 단어의 개수인 페어링의 개수를 확정하기 위한 제 1 확정 유닛 (3032);
편집 거리, 페어링의 개수, 각 조작의 조작 코스트, 제 1 시퀀스 중의 단어의 개수 및 제 2 시퀀스 중의 단어의 개수에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정하기 위한 제 2 확정 유닛 (3033)
을 구비한다.
다른 일 실시예에 있어서, 도 5를 참조하면, 각 조작 포괄은, 절환 조작 및 교환 조작을 포함하며, 제 2 확정 유닛 (3033)은,
편집 거리, 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 제 1 문자열과 제 2 문자열 사이의 최소의 세만틱의 편집 거리를 확정하기 위한 제 1 확정 서브 유닛 (30331);
최소의 세만틱의 편집 거리를 정규화하여 정규화 결과를 얻기 위한 정규화 서브 유닛 (30332);
정규화 결과에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정하기 위한 제 2 확정 서브 유닛 (30333)
을 구비한다.
다른 일 실시예에 있어서, 도 6을 참조하면, 각 조작은, 절환 조작 및 교환 조작, 삽입 조작 및 삭제 조작 중의 적어도 하나를 포함하며, 제 2 확정 유닛 (3033)은,
편집 거리, 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 제 1 문자열과 제 2 문자열 사이의 제 1 세만틱의 편집 거리를 확정하기 위한 제 3 확정 서브 유닛 (30334);
삽입 조작의 조작 코스트 및 삭제 조작의 조작 코스트 중 하나, 절환 조작의 조작 코스트, 제 1 시퀀스 중의 단어의 개수 및 제 2 시퀀스 중의 단어의 개수에 기반하여, 제 1 문자열과 제 2 문자열 사이의 제 2 세만틱의 편집 거리를 확정하기 위한 제 4 확정 서브 유닛 (30335);
제 1 세만틱의 편집 거리 및 제 2 세만틱의 편집 거리에 기반하여, 제 1 문자열과 제 2 문자열 사이의 유사성을 확정하기 위한 제 5 확정 서브 유닛 (30336)
을 구비한다.
다른 일 실시예에 있어서, 도 7을 참조하면, 장치는,
절환 조작과 교환 조작 사이의 관계에 기반하여, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트를 확정하기 위한 제 3 확정 모듈 (304);
절환 조작, 삽입 조작 및 삭제 조작 사이의 관계에 기반하여, 삽입 조작의 조작 코스트, 삭제 조작의 조작 코스트 및 절환 조작의 조작 코스트를 확정하기 위한 제 4 확정 모듈 (305)
을 더 구비한다.
다른 일 실시예에 있어서, 도 8을 참조하면, 장치는,
절환 조작과 교환 조작 사이의 관계에 기반하여, 2 ×절환 조작의 조작 코스트 > 교환 조작의 조작 코스트 인것으로 확정하기 위한 제 5 확정 모듈 (306);
절환 조작, 삽입 조작 및 삭제 조작 사이의 관계에 기반하여, 삽입 조작의 조작 코스트 + 삭제 조작의 조작 코스트 > 절환 조작의 조작 코스트 인것으로 확정하기 위한 제 6 확정 모듈 (307)
을 더 구비한다.
다른 일 실시예에 있어서, 도 9를 참조하면, 장치는,
삽입 조작과 삭제 조작 사이의 관계에 기반하여, 삽입 조작의 조작 코스트 = 삭제 조작의 조작 코스트 인것으로 확정하기 위한 제 7 확정 모듈 (308)을 더 구비한다.
다른 일 실시예에 있어서, 제 1 확정 모듈 (302)은, 미리 정의된 편집 거리 알고리즘, 제 1 시퀀스, 및 제 2 시퀀스에 기반하여, 이하의 공식 1에 따라 제 1 문자열 및 제 2 문자열 사이의 편집 거리를 확정한다.
공식1:
Figure 112016024641637-pct00014
공식 1 중에서, i는 상기 제 1 시퀀스 중의 i번째의 단어이며, j는 상기 제 2 시퀀스 중의 j번째의 단어이며, cost(S)는 삭제 조작의 조작 코스트이며, cost(C)는 삽입 조작의 조작 코스트이며, cost(T)는 절환 조작의 조작 코스트이다.
다른 일 실시예에 있어서, 제 1 확정 서브 유닛 (30331)은, 편집 거리, 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 이하의 공식 2에 따라 제 1 문자열과 제 2 문자열 사이의 최소의 세만틱의 편집 거리를 확정한다.
공식2:
Figure 112016024641637-pct00015
공식 2 중에서, S1 및 S2는 각각 상기 제 1 문자열 및 상기 제 2 문자열이며, minCost(S1,S2)는 상기 최소의 세만틱의 편집 거리이며, d는 상기 편집 거리이며, p는 상기 페어링의 개수이며, cost(J)는 상기 교환 조작의 조작 코스트이며, cost(T)는 상기 절환 조작의 조작 코스트이며, 또한,2cost(T)-cost(J)>0이다.
다른 일 실시예에 있어서, 제3 확정 서브 유닛 (30334)은, 편집 거리, 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 이하의 공식 3에 따라 제 1 문자열과 제 2 문자열 사이의 제 1 세만틱의 편집 거리를 확정한다.
공식3:
Figure 112016024641637-pct00016
공식 3 중에서, S1 및 S2는 각각 상기 제 1 문자열 및 상기 제 2 문자열이며, minCost(S1,S2)는 상기 제 1 세만틱의 편집 거리이며, d는 상기 편집 거리이며, p는 상기 페어링의 개수이며, cost(J)는 상기 교환 조작의 조작 코스트이며, cost(T)는 상기 절환 조작의 조작 코스트이며, 또한, 2cost(T)-cost(J)>0이다.
다른 일 실시예에 있어서, 제4 확정 서브 유닛 (30335)은, 삽입 조작의 조작 코스트 및 삭제 조작의 조작 코스트 중 하나, 절환 조작의 조작 코스트, 제 1 시퀀스 중의 단어의 개수 및 제 2 시퀀스 중의 단어의 개수에 기반하여, 이하의 공식 4에 따라 제 1 문자열과 제 2 문자열 사이의 제 2 세만틱의 편집 거리를 확정한다.
공식4:
Figure 112016024641637-pct00017
공식 4 중에서, normFact(S1,S2)는 상기 제 2 세만틱의 편집 거리이며, n는 상기 제 1 시퀀스의 단어의 개수이며, m는 상기 제 2 시퀀스의 단어의 개수이며, cost(T)는 상기 절환 조작의 조작 코스트이며, cost(S)는 상기 삭제 조작의 조작 코스트이며, cost(C)는 상기 삽입 조작의 조작 코스트이다.
다른 일 실시예에 있어서, 제5 확정 서브 유닛 (30336)은, 제 1 세만틱의 편집 거리 및 제 2 세만틱의 편집 거리에 기반하여, 이하의 공식 5에 따라 제 1 문자열과 제 2 문자열 사이의 유사성을 확정한다.
공식5:
Figure 112016024641637-pct00018
공식 5 중에서, sim(S1,S2)는 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성이며, minCost(S1,S2)는 상기 제 1 세만틱의 편집 거리이며, normFact(S1,S2)는 상기 제 2 세만틱의 편집 거리이다.
상기의 모든 옵션적인 구성을 임의로 조합하여 본 발명의 옵션적인 실시예를 실현할수 있는바, 여기에서는 반복해 설명하지 않는다.
상기의 도 3 내지도 9에 대응되는 실시예에 의해 제공되는 유사성 확정 장치는, 상기의 도 1혹은 도 2에 대응되는 실시예에 의해 제공되는 유사성 확정 방법을 실행할수 있다. 그 중의 각 모듈이 조작을 수행하는 구체적인 방법은 이미 관련된 방법의 실시 예에서 상세히 설명했기에, 여기서 상세한 설명은 생략한다.
도 10은, 예시적인 일 실시예에 따른 단말 600을 나타내는 블럭도이다, 상기 단말은, 상기의 도 1혹은 도 2에 대응되는 실시예에 의해 제공되는 유사성 확정 방법을 실행한다. 예를 들면, 단말 600은 휴대 전화, 컴퓨터, 디지털 방송 단말, 메시지 송수신 디바이스, 게임 콘솔, 타블렛 디바이스, 의료기기, 피트니스 기기, 퍼스널 디지털 어시스턴트등일수 있다.
도 10 은 일 예시적 실시예에 따른 단말(600)을 나타내는 블록도이다. 예를 들면, 단말(600)은 휴대 전화, 컴퓨터, 디지털 방송 단말기, 메시지 송수신 디바이스, 게임 콘솔, 태블릿 디바이스, 의료 디바이스, 피트니스 디바이스, 개인 디지털 보조, 등일수 있다.
도10 에 도시된 바와 같이, 단말(600)은 프로세스 어셈블리(602), 메모리(604), 전원 어셈블리(606), 멀티미디어 어셈블리(608), 오디오 어셈블리(610), 입출력(I/O) 인터페이스(612), 센서 어셈블리(614) 및 통신 어셈블리(616) 등 하나 또는 복수의 어셈블리를 포함할 수 있다..
프로세스 어셈블리(602)는 통상적으로 단말(600)의 전체 조작을 제어하며, 예를 들면, 표시,전화 호출,데이터 통신,카메라 조작 및 기록 조작에 관련된 조작을 제어할 수 있다. 프로세스 소자(602)는 하나 또는 복수의 프로세서(620)를 구비하여 인스트럭션을 실행함으로써 상기 방법의 전부 혹은 일부 단계를 완성한다. 또한, 프로세스 어셈블리(602)는 하나 또는 복수의 모듈을 포함하고 있어 프로세스 어셈블리(602)와 기타 어셈블리 사이의 인트렉션에 편리하다. 예를 들면, 프로세스 어셈블리(602)는 멀티미디어 모듈을 포함고 있어 멀티미디어 어셈블리(608)와 프로세스 어셈블리(602) 사이의 인트렉션이 편리하게 된다.
메모리(604)에는 각종 유형의 데이터를 저장되어 단말(600)의 동작을 서포트한다. 이러한 데이터의 예로서 단말(600)에서 동작하는 임의의 애플리케이션 프로그램 혹은 방법을 실행하기 위한 인스트럭션,연락인 데이터,전화번호부 데이터,메시지,이미지, 비디오 등을 포함한다. 메모리(604)는 임의의 유형의 휘발성 혹은 비휘발성 메모리 혹은 양자의 조합으로 실현될 수 있으며, 예를 들면 SRAM(Static Random Access Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory) ,EPROM(Erasable Programmable Read Only Memory), PROM(Programmable Read-Only Memory), ROM(Read-Only Memory),자기 메모리,플래시 메모리,자기 디스크 혹은 콤팩트 디스크 등으로 실현될 수 있다.
전력 어셈블리(606)는 단말(600)의 각 어셈블리에 전력을 공급하기 위한 것이다. 전력 어셈블리(606)는 전원 관리 시스템,하나 또는 복수의 전원 및 단말(600)을 위하여 전력을 생성, 관리 및 분배하기 위한 기타 어셈블리를 포함할 수 있다.
멀티미디어 어셈블리(608)는 상기 단말(600)와 사용자 사이에 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에 있어서, 스크린은 액정 표시 장치(LCD)와 터치 패널(TP)을 포함할 수 있다. 스크린이 터치 패널을 포함할 경우, 스크린은 사용자가 입력한 신호를 수신할 수 있는 터치 스크린을 구현할 수 있다. 터치 패널은 하나 또는 복수의 터치 센서를 포함하고 있어 터치, 슬라이딩 및 터치 패널위에서의 손 움직임을 감지할 수 있다. 상기 터치 센서는 터치 혹은 슬라이딩 동작의 경계위치를 감지할 수 있을 뿐만 아니라, 상기 터치 혹은 슬라이딩 조작에 관련된 지속시간 및 압력을 검출할 수 있다. 일부 실시예에 있어서,멀티미디어 어셈블리(608)는 하나의 프론트 카메라 및/또는 리어 카메라를 포함한다. 단말(600)이 예를 들면 촬영 모드 혹은 비디오 모드 등 조작 모드 상태에 있을 경우, 프론트 카메라 및/또는 리어 카메라는 외부로부터의 멀티미디어 데이터를 수신할 수 있다. 프론트 카메라와 리어 카메라는 하나의 고정된 광학 렌즈 시스템일 수 있거나 또는 가변 초점거리와 광학 줌기능을 구비할 수 있다.
오디오 어셈블리(610)는 오디오 신호를 출력 및/또는 입력하기 위한 것이다. 예를 들면, 오디오 어셈블리(610)는 마이크로폰(MIC)을 포함하며, 단말(600)이 예를 들면 호출 모드, 기록 모드 및 음성 인식 모드 등 조작 모드에 있을 경우, 마이크로폰은 외부의 오디오 신호를 수신한다. 수신된 오디오 신호는 진일보 메모리(604)에 저장되거나 혹은 통신 어셈블리(616)를 통하여 송신될수 있다. 일부 실시예에 있어서,오디오 어셈블리(610)는 스피커를 더 포함할 수 있어 오디오 신호를 출력한다.
I/O 인터페이스(612)는 프로세스 어셈블리(602)와 주변 인터페이스 모듈 사이에 인터페이스를 제공하기 위한 것이다. 상기 주변 인터페이스 모듈은 키보드,휠 키,버튼 등일 수 있다. 이러한 버튼은 홈 버튼, 음량 버튼, 작동 버튼 및 잠금 버튼 등을 포함하지만 이에 한정되지 않는다.
센서 어셈블리(614)는 단말(600)에 각 방면의 상태평가를 제공하는 하나 또는 복수의 센서를 포함한다. 예를 들면,센서 어셈블리(614)는 단말(600)의 온/오프 상태,어셈블리의 상대위치결정을 검출할 수 있다. 예를 들면 상기 어셈블리가 단말(600)의 디스플레이 및 키패드일 시,센서 어셈블리(614)는 단말(600) 혹은 단말(600)의 일 어셈블리의 위치변경,사용자와 단말(600)사이의 접촉여부, 단말(600)의 방위 혹은 가속/감속 및 단말(600)의 온도 변화를 검출할 수 있다. 센서 어셈블리(614)는 근접 센서를 포함할 수 있어, 임의의 물리적 접촉이 없는 정황하에서 근처 물체의 존재를 검출할 수 있다. 센서 어셈블리(614)는 예를 들면 CMOS 혹은 CCD 이미지 센서 등 광센서를 더 포함할 수 있으며, 이미징 애플리케이션에 사용된다. 일부 실시예에 있어서, 상기 센서 어셈블리(614)는 가속 센서,자이로 센서,자기 센서,압력 센서 혹은 온도 센서를 포함할 수 있다.
통신 어셈블리(616)는 단말(600)와 기타 설비 사이의 유선 혹은 무선 통신에 사용된다. 단말(600)은 예를 들면 WiFi,2G 혹은 3G,혹은 이들의 조합 등의 통신규격에 따른 무선 네트워크에 접속할 수 있다. 일 예시적 실시예에 있어서,통신 어셈블리(616)는 방송 채널을 통하여 외부 방송 관리 시스템으로부터의 방송 신호 혹은 방송 관련 정보를 수신할 수 있다. 일 예시적 실시예에 있어서, 상기 통신 어셈블리(616)는 근거리 무선 통신(NFC)모듈을 더 포함하고 있어, 단거리 통신을 촉진할 수 있다. 예를 들면, NFC 모듈은 RFID 기술, IrDA 기술, UWB 기술,블루투스(BT)기술 및 기타 기술에 기초하여 실현될 수 있다.
예시적 실시예에 있어서, 단말(600)은 하나 또는 복수의 애플리케이션 전용 집적 회로(ASIC), 디지털 신호 프로세서(DSP), 디지털 신호 처리설비(DSPD), 프로그램 가능 논리 소자(PLD), 필드 프로그래머블 게이트 어레이(FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 혹은 기타 전자소자에 의하여 실현되어, 상기의 방법을 수행할 수 있다.
예시적 실시예에 있어서, 인스트럭션을 포함하는 비일시적인 컴퓨터 판독 가능한 기록 매체를 제공하는데, 예를 들면 인스트럭션을 포함하는 메모리(604) 등을 포함하며, 상기 인스트럭션은 단말(600)의 프로세서(620)에 의하여 실행되어 상기 방법을 실현할 수 있다. 예를 들면, 상기 비일시적인 컴퓨터 판독 가능한 기록 매체는 ROM, RAM, CD-ROM, 자기테이프, 플로피디스크 및 광데이터 저장 장치 등일 수 있다.
본 발명의 실시예에 의해 제공되는컴퓨터 판독 가능한 비 일시적인 기록 매체는, 제 1 문자열 및 제 2 문자열을, 각각, 제 1 시퀀스 및 제 2 시퀀스로 단어 분할하고, 제 1 문자열을 제 2 문자열로 변환시킬 때의 편집 거리를 확정할 때, 제 1 문자열 및 제 2 문자열 내의 각 문자에 기반하여 실현하는 것이 아니라, 제 1 시퀀스 및 제 2 시퀀스 중의 각 단어에 기반하여 실현한다. 여기서, 문자열 내의 각 단어는 적어도 하나의 문자를 포함할 가능성이 있기 때문에, 문자열 내의 각 문자 사이의 관련 관계와 결합시켜 편집 거리에 기반하여 유사성을 확정하였기에, 확정한 유사성이 더욱 정확하게 된다.
당연히, 상기의 도 1혹은 도 2에 대응되는 실시예에 의해 제공되는 유사성 확정 방법은 서버에 의해 수행될수도 있다. 도 11은, 예시적인 일 실시예에 따른 서버를 나타내는 블럭도이다. 당해 서버는 상기의 도 1혹은 도 2에 대응되는 실시예에 의해 제공되는 유사성 확정 방법을 실행할수 있다. 도 11을 참조하면, 장치(700)는 하나 또는 하나 이상의 프로세서를 포함하는 프로세스 어셈블리(722)와, 프로세스 어셈블리(722)에 의해 실행 가능한 인스트럭션, 예를 들면 애플리케이션 프로그램을 기억하기 위한 메모리(732)를 대표로 하는 메모리자원을 포함한다. 메모리(732)에 저장되어 있는 애플리케이션 프로그램은 각각 한 세트의 인스트럭션에 대응하는 하나 또는 하나 이상의 모듈을 포함해도 된다. 또한, 프로세스 어셈블리(722)는 인스트럭션을 실행하여 상기 유사성 확정 방법을 수행하도록 구성된다.
장치(700)는 장치(700)의 전원 관리를 실행하도록 구성된 전원 어셈블리(726), 장치(700)를 네트워크에 접속하도록 구성되는 하나의 유선 또는 무선 네트워크 인터페이스(750), 하나의 입출력(I/O)인터페이스(758)를 더 포함한다. 장치(700)는 메모리(732)에 저장되어 있는 OS, 예를 들면 Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM 등 혹은 유사한 OS를 조작할 수 있다.
당업자는, 명세서를 검토하여 본 발명을 실현한 후, 본 발명의 기타 실시안을 용이하게 생각해낼수 있다. 본원 발명은, 본 발명의 모든 변형, 용도, 또는 적응적 변경을 포함하며, 이러한 변형, 용도, 또는 적응적 변경은, 본 발명의 일반적 원리에 따르며, 본 발명은 개시되지 않은 당업계의 공지의 지식 또는 통상적 기술수단을 포함한다. 명세서와 실시 예는 단지 예시일 뿐, 본 발명의 진정한 범위와 정신은 이하의 특허 청구의 범위에 기재된다.
본 발명은 상기에 기술되고 또 도면에 나타낸 정확한 구성에 한정되지 않으며, 그 범위를 초과하지 않는한 다양한 수정과 변경을 실현할수 있다는 것을 이해해야 할것이다. 본 발명의 범위는 단지 첨부되는 특허 청구의 범위에 의해 한정된다.

Claims (27)

  1. 단어 분할 모듈을 이용하여 제 1 문자열 및 제 2 문자열에 대하여 각각 단어 분할을 수행하여, 적어도 하나의 단어가 각각 포함된 제 1 시퀀스 및 제 2 시퀀스를 얻는 단계;
    제 1 확정 모듈을 이용하여 미리 정의된 편집 거리 알고리즘, 상기 제 1 시퀀스 및 상기 제 2 시퀀스에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 편집 거리를 확정하는 단계;
    제 2 확정 모듈을 이용하여 상기 편집 거리 및 상기 제 1 시퀀스를 상기 제 2 시퀀스로 변환시키기 위하여 수행한 각 조작 정보에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하는 단계
    를 포함하고,
    여기서, 상기 편집 거리 및 상기 제 1 시퀀스를 상기 제 2 시퀀스로 변환시키기 위하여 수행한 각 조작 정보에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하는 단계는,
    취득 유닛을 이용하여 상기 제 1 시퀀스를 상기 제 2 시퀀스로 변환시키기 위하여 수행한 각 조작 정보 중의 절환 조작 정보를 취득하는 단계;
    제 1 확정 유닛을 이용하여 상기 각 절환 조작 정보에 기반하여, 상기 제 1 시퀀스 및 상기 제 2 시퀀스 양자 내에 동시에 존재하는 두 개의 단어의 개수인 페어링의 개수를 확정하는 단계;
    제 2 확정 유닛을 이용하여 상기 편집 거리, 상기 페어링의 개수, 각 조작의 조작 코스트, 상기 제 1 시퀀스 중의 단어의 개수 및 상기 제 2 시퀀스 중의 단어의 개수에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하는 단계
    를 포함하는 것을 특징으로 하는 유사성 확정 방법.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 각 조작은, 절환 조작 및 교환 조작을 포함하며,
    상기 편집 거리, 상기 페어링의 개수, 각 조작의 조작 코스트, 상기 제 1 시퀀스 중의 단어의 개수 및 상기 제 2 시퀀스 중의 단어의 개수에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하는 단계는,
    제 1 확정 서브 유닛을 이용하여 상기 편집 거리, 상기 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 최소의 세만틱의 편집 거리를 확정하는 단계;
    정규화 서브 유닛을 이용하여 상기 최소의 세만틱의 편집 거리를 정규화하여 정규화 결과를 얻는 단계;
    제 2 확정 서브 유닛을 이용하여 상기 정규화 결과에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하는 단계
    를 포함하는 것을 특징으로 하는 유사성 확정 방법.
  4. 제 1 항에 있어서,
    상기 각 조작은, 절환 조작, 교환 조작, 삽입 조작 및 삭제 조작 중의 적어도 하나를 포함하며,
    상기 편집 거리, 상기 페어링의 개수, 각 조작의 조작 코스트, 상기 제 1 시퀀스 중의 단어의 개수 및 상기 제 2 시퀀스 중의 단어의 개수에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하는 단계는,
    제 3 확정 서브 유닛을 이용하여 상기 편집 거리, 상기 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 제 1 세만틱의 편집 거리를 확정하는 단계;
    제 4 확정 서브 유닛을 이용하여 삽입 조작의 조작 코스트 및 삭제 조작의 조작 코스트 중 하나, 절환 조작의 조작 코스트, 상기 제 1 시퀀스 중의 단어의 개수 및 상기 제 2 시퀀스 중의 단어의 개수에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 제 2 세만틱의 편집 거리를 확정하는 단계;
    제 5 확정 서브 유닛을 이용하여 상기 제 1 세만틱의 편집 거리 및 상기 제 2 세만틱의 편집 거리에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하는 단계
    를 포함하는 것을 특징으로 하는 유사성 확정 방법.
  5. 제 1 항, 제 3 항 및 제 4 항 중 어느 한 항에 있어서,
    제 3 확정 모듈을 이용하여 절환 조작과 교환 조작 사이의 관계에 기반하여, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트를 확정하는 단계;
    제 4 확정 모듈을 이용하여 절환 조작, 삽입 조작 및 삭제 조작 사이의 관계에 기반하여, 삽입 조작의 조작 코스트, 삭제 조작의 조작 코스트 및 절환 조작의 조작 코스트를 확정하는 단계
    를 더 포함하는 것을 특징으로 하는 유사성 확정 방법.
  6. 제 5 항에 있어서,
    제 5 확정 모듈을 이용하여 절환 조작과 교환 조작 사이의 관계에 기반하여, 2 × 절환 조작의 조작 코스트 > 교환 조작의 조작 코스트 인것으로 확정하는 단계;
    제 6 확정 모듈을 이용하여 절환 조작, 삽입 조작 및 삭제 조작 사이의 관계에 기반하여, 삽입 조작의 조작 코스트 + 삭제 조작의 조작 코스트 > 절환 조작의 조작 코스트 인것으로 확정하는 단계
    를 더 포함하는 것을 특징으로 하는 유사성 확정 방법.
  7. 제 5 항에 있어서,
    제 7 확정 모듈을 이용하여 삽입 조작과 삭제 조작 사이의 관계에 기반하여, 삽입 조작의 조작 코스트 = 삭제 조작의 조작 코스트 인것으로 확정하는 단계
    를 더 포함하는 것을 특징으로 하는 유사성 확정 방법.
  8. 제 1 항에 있어서,
    상기 제 1 확정 모듈을 이용하여 미리 정의된 편집 거리 알고리즘, 상기 제 1 시퀀스 및 상기 제 2 시퀀스에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 편집 거리를 확정하는 단계는,
    미리 정의된 편집 거리 알고리즘, 상기 제 1 시퀀스 및 상기 제 2 시퀀스에 기반하여, 이하의 공식 1에 따라 상기 제 1 문자열과 상기 제 2 문자열 사이의 편집 거리를 확정하는 단계를 포함하며,
    공식1:
    Figure 112017038281688-pct00019

    공식 1 중에서, i는 상기 제 1 시퀀스 중의 i번째의 단어이며, j는 상기 제 2 시퀀스 중의 j번째의 단어이며, cost(S)는 삭제 조작의 조작 코스트이며, cost(C)는 삽입 조작의 조작 코스트이며, cost(T)는 절환 조작의 조작 코스트인
    것을 특징으로 하는 유사성 확정 방법.
  9. 제 3 항에 있어서,
    상기 제 1 확정 서브 유닛을 이용하여 상기 편집 거리, 상기 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 최소의 세만틱의 편집 거리를 확정하는 단계는,
    상기 편집 거리, 상기 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 이하의 공식 2에 따라 상기 제 1 문자열과 상기 제 2 문자열 사이의 최소의 세만틱의 편집 거리를 확정하는 단계를 포함하며,
    공식2:
    Figure 112017038281688-pct00020

    공식 2 중에서, S1 및 S2는 각각 상기 제 1 문자열 및 상기 제 2 문자열이며, minCost(S1,S2)는 상기 최소의 세만틱의 편집 거리이며, d는 상기 편집 거리이며, p는 상기 페어링의 개수이며, cost(J)는 상기 교환 조작의 조작 코스트이며, cost(T)는 상기 절환 조작의 조작 코스트이며, 또한, 2cost(T)-cost(J)>0인
    것을 특징으로 하는 유사성 확정 방법.
  10. 제 4 항에 있어서,
    상기 제 3 확정 서브 유닛을 이용하여 상기 편집 거리, 상기 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 제 1 세만틱의 편집 거리를 확정하는 단계는,
    상기 편집 거리, 상기 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 이하의 공식 3에 따라 상기 제 1 문자열과 상기 제 2 문자열 사이의 제 1 세만틱의 편집 거리를 확정하는 단계를 포함하며,
    공식3:
    Figure 112017038281688-pct00021

    공식 3 중에서, S1 및 S2는 각각 상기 제 1 문자열 및 상기 제 2 문자열이며, minCost(S1,S2)는 상기 제 1 세만틱의 편집 거리이며, d는 상기 편집 거리이며, p는 상기 페어링의 개수이며, cost(J)는 상기 교환 조작의 조작 코스트이며, cost(T)는 상기 절환 조작의 조작 코스트이며, 또한, 2cost(T)-cost(J)>0인
    것을 특징으로 하는 유사성 확정 방법.
  11. 제 4 항에 있어서,
    상기 제 4 확정 서브 유닛을 이용하여 상기 삽입 조작의 조작 코스트 및 삭제 조작의 조작 코스트 중 하나, 절환 조작의 조작 코스트, 상기 제 1 시퀀스 중의 단어의 개수 및 상기 제 2 시퀀스 중의 단어의 개수에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 제 2 세만틱의 편집 거리를 확정하는 단계는,
    삽입 조작의 조작 코스트 및 삭제 조작의 조작 코스트 중 하나, 절환 조작의 조작 코스트, 상기 제 1 시퀀스 중의 단어의 개수 및 상기 제 2 시퀀스 중의 단어의 개수에 기반하여, 이하의 공식 4에 따라 상기 제 1 문자열과 상기 제 2 문자열 사이의 제 2 세만틱의 편집 거리를 확정하는 단계를 포함하며,
    공식4:
    Figure 112017038281688-pct00022

    공식 4 중에서, normFact(S1,S2)는 상기 제 2 세만틱의 편집 거리이며, n은 상기 제 1 시퀀스의 단어의 개수이며, m은 상기 제 2 시퀀스의 단어의 개수이며, cost(T)는 상기 절환 조작의 조작 코스트이며, cost(S)는 상기 삭제 조작의 조작 코스트이며, cost(C)는 상기 삽입 조작의 조작 코스트 인
    것을 특징으로 하는 유사성 확정 방법.
  12. 제 4 항에 있어서,
    상기 제 5 확정 서브 유닛을 이용하여 상기 제 1 세만틱의 편집 거리 및 상기 제 2 세만틱의 편집 거리에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하는 단계는,
    상기 제 1 세만틱의 편집 거리 및 상기 제 2 세만틱의 편집 거리에 기반하여, 이하의 공식 5에 따라 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하는 단계를 포함하며,
    공식5:
    Figure 112017038281688-pct00023

    공식 5 중에서, sim(S1,S2)는 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성이며, minCost(S1,S2)는 상기 제 1 세만틱의 편집 거리이며, normFact(S1,S2)는 상기 제 2 세만틱의 편집 거리 인
    것을 특징으로 하는 유사성 확정 방법.
  13. 제 1 문자열 및 제 2 문자열에 대하여 각각 단어 분할을 수행하여, 적어도 하나의 단어가 각각 포함된 제 1 시퀀스 및 제 2 시퀀스를 얻기 위한 단어 분할 모듈;
    미리 정의된 편집 거리 알고리즘, 상기 제 1 시퀀스 및 상기 제 2 시퀀스에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 편집 거리를 확정하기 위한 제 1 확정 모듈;
    상기 편집 거리 및 상기 제 1 시퀀스를 상기 제 2 시퀀스로 변환시키기 위하여 수행한 각 조작의 정보에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하기 위한 제 2 확정 모듈
    을 구비하고,
    상기 제 2 확정 모듈은,
    상기 제 1 시퀀스를 상기 제 2 시퀀스로 변환시키기 위하여 수행한 각 조작 정보 중의 절환 조작 정보를 취득하기 위한 취득 유닛;
    상기 각 절환 조작 정보에 기반하여, 상기 제 1 시퀀스 및 상기 제 2 시퀀스 양자 내에 동시에 존재하는 두 개의 단어의 개수인 페어링의 개수를 확정하기 위한 제 1 확정 유닛;
    상기 편집 거리, 상기 페어링의 개수, 각 조작의 조작 코스트, 상기 제 1 시퀀스 중의 단어의 개수 및 상기 제 2 시퀀스 중의 단어의 개수에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하기 위한 제 2 확정 유닛
    을 구비하는 것을 특징으로 하는 유사성 확정 장치.
  14. 삭제
  15. 제 13 항에 있어서,
    상기 각 조작은, 절환 조작 및 교환 조작을 포함하며, 상기 제 2 확정 유닛은,
    상기 편집 거리, 상기 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 최소의 세만틱의 편집 거리를 확정하기 위한 제 1 확정 서브 유닛;
    상기 최소의 세만틱의 편집 거리를 정규화하여 정규화 결과를 얻기 위한 정규화 서브 유닛;
    상기 정규화 결과에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하기 위한 제 2 확정 서브 유닛
    을 구비하는 것을 특징으로 하는 유사성 확정 장치
  16. 제 13 항에 있어서,
    상기 각 조작은, 절환 조작, 교환 조작, 삽입 조작, 삭제 조작 중의 적어도 하나를 포함하며, 상기 제 2 확정 유닛은,
    상기 편집 거리, 상기 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 제 1 세만틱의 편집 거리를 확정하기 위한 제 3 확정 서브 유닛;
    삽입 조작의 조작 코스트 및 삭제 조작의 조작 코스트 중 하나, 절환 조작의 조작 코스트, 상기 제 1 시퀀스 중의 단어의 개수 및 상기 제 2 시퀀스 중의 단어의 개수에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 제 2 세만틱의 편집 거리를 확정하기 위한 제 4 확정 서브 유닛;
    상기 제 1 세만틱의 편집 거리 및 상기 제 2 세만틱의 편집 거리에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하기 위한 제 5 확정 서브 유닛
    을 구비하는 것을 특징으로 하는 유사성 확정 장치.
  17. 제 13 항, 제 15 항 및 제 16 항 중 어느 한 항에 있어서,
    절환 조작과 교환 조작 사이의 관계에 기반하여, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트를 확정하기 위한 제 3 확정 모듈;
    절환 조작, 삽입 조작 및 삭제 조작 사이의 관계에 기반하여, 삽입 조작의 조작 코스트, 삭제 조작의 조작 코스트 및 절환 조작의 조작 코스트를 확정하기 위한 제 4 확정 모듈
    을 더 구비하는 것을 특징으로 하는 유사성 확정 장치
  18. 제 17 항에 있어서,
    절환 조작과 교환 조작 사이의 관계에 기반하여, 2 × 절환 조작의 조작 코스트 > 교환 조작의 조작 코스트 인것으로 확정하기 위한 제 5 확정 모듈;
    절환 조작, 삽입 조작 및 삭제 조작 사이의 관계에 기반하여, 삽입 조작의 조작 코스트 + 삭제 조작의 조작 코스트 > 절환 조작의 조작 코스트 인것으로 확정하기 위한 제 6 확정 모듈
    을 더 구비하는 것을 특징으로 하는 유사성 확정 장치
  19. 제 17 항에 있어서,
    삽입 조작과 삭제 조작 사이의 관계에 기반하여, 삽입 조작의 조작 코스트 = 삭제 조작의 조작 코스트 인것으로 확정하기 위한 제 7 확정 모듈
    을 더 구비하는 것을 특징으로 하는 유사성 확정 장치
  20. 제 13 항에 있어서,
    상기 제 1 확정 모듈은, 미리 정의된 편집 거리 알고리즘, 상기 제 1 시퀀스 및 상기 제 2 시퀀스에 기반하여, 이하의 공식 1에 따라 상기 제 1 문자열과 상기 제 2 문자열 사이의 편집 거리를 확정하며,
    공식1:
    Figure 112017038281688-pct00024

    공식 1 중에서, i는 상기 제 1 시퀀스 중의 i번째의 단어이며, j는 상기 제 2 시퀀스 중의 j번째의 단어이며, cost(S)는 삭제 조작의 조작 코스트이며, cost(C)는 삽입 조작의 조작 코스트이며, cost(T)는 절환 조작의 조작 코스트인
    것을 특징으로 하는 유사성 확정 장치
  21. 제 15 항에 있어서,
    상기 제 1 확정 서브 유닛은, 상기 편집 거리, 상기 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 이하의 공식 2에 따라 상기 제 1 문자열과 상기 제 2 문자열 사이의 최소의 세만틱의 편집 거리를 확정하며,
    공식2:
    Figure 112016024641637-pct00025

    공식 2 중에서, S1 및 S2는 각각 상기 제 1 문자열 및 상기 제 2 문자열이며, minCost(S1,S2)는 상기 최소의 세만틱의 편집 거리이며, d는 상기 편집 거리이며, p는 상기 페어링의 개수이며, cost(J)는 상기 교환 조작의 조작 코스트이며, cost(T)는 상기 절환 조작의 조작 코스트이며, 또한, 2cost(T)-cost(J)>0인 것을 특징으로 하는 유사성 확정 장치
  22. 제 16 항에 있어서,
    상기 제 3 확정 서브 유닛은, 상기 편집 거리, 상기 페어링의 개수, 절환 조작의 조작 코스트 및 교환 조작의 조작 코스트에 기반하여, 이하의 공식 3에 따라 상기 제 1 문자열과 상기 제 2 문자열 사이의 제 1 세만틱의 편집 거리를 확정하며,
    공식3:
    Figure 112016024641637-pct00026

    공식 3 중에서, S1 및 S2는 각각 상기 제 1 문자열 및 상기 제 2 문자열이며, minCost(S1,S2)는 상기 제 1 세만틱의 편집 거리이며, d는 상기 편집 거리이며, p는 상기 페어링의 개수이며, cost(J)는 상기 교환 조작의 조작 코스트이며, cost(T)는 상기 절환 조작의 조작 코스트이며, 또한, 2cost(T)-cost(J)>0인
    것을 특징으로 하는 유사성 확정 장치
  23. 제 16 항에 있어서,
    제4 확정 서브 유닛은 삽입 조작의 조작 코스트 및 삭제 조작의 조작 코스트 중 하나, 절환 조작의 조작 코스트, 상기 제 1 시퀀스 중의 단어의 개수 및 상기 제 2 시퀀스 중의 단어의 개수에 기반하여, 이하의 공식 4에 따라 상기 제 1 문자열과 상기 제 2 문자열 사이의 제 2 세만틱의 편집 거리를 확정하며,
    공식4:
    Figure 112016024641637-pct00027

    공식 4 중에서, normFact(S1,S2)는 상기 제 2 세만틱의 편집 거리이며, n은 상기 제 1 시퀀스의 단어의 개수이며, m은 상기 제 2 시퀀스의 단어의 개수이며, cost(T)는 상기 절환 조작의 조작 코스트이며, cost(S)는 상기 삭제 조작의 조작 코스트이며, cost(C)는 상기 삽입 조작의 조작 코스트 인
    것을 특징으로 하는 유사성 확정 장치
  24. 제 16 항에 있어서,
    상기 제 5 확정 서브 유닛은, 상기 제 1 세만틱의 편집 거리 및 상기 제 2 세만틱의 편집 거리에 기반하여, 이하의 공식 5에 따라 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하며,
    공식5:
    Figure 112016024641637-pct00028

    공식 5 중에서, sim(S1,S2)는 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성이며, minCost(S1,S2)는 상기 제 1 세만틱의 편집 거리이며, normFact(S1,S2)는 상기 제 2 세만틱의 편집 거리 인
    것을 특징으로 하는 유사성 확정 장치
  25. 프로세서; 및
    상기 프로세서에 의해 실행되는 명령을 기억하는 메모리
    를 구비하며,
    상기 프로세서는,
    제 1 문자열 및 제 2 문자열에 대하여 각각 단어 분할을 수행하여, 적어도 하나의 단어가 각각 포함된 제 1 시퀀스 및 제 2 시퀀스를 얻고,
    미리 정의된 편집 거리 알고리즘, 상기 제 1 시퀀스 및 상기 제 2 시퀀스에 기반하여, 상기 제 1 문자열 및 상기 제 2 문자열 사이의 편집 거리를 확정하고,
    상기 편집 거리 및 상기 제 1 시퀀스를 상기 제 2 시퀀스로 변환시키기 위하여 수행한 각 조작의 정보에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하도록 구성되고,
    여기서, 상기 편집 거리 및 상기 제 1 시퀀스를 상기 제 2 시퀀스로 변환시키기 위하여 수행한 각 조작 정보에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하는 것은,
    상기 제 1 시퀀스를 상기 제 2 시퀀스로 변환시키기 위하여 수행한 각 조작 정보 중의 절환 조작 정보를 취득하고;
    상기 각 절환 조작 정보에 기반하여, 상기 제 1 시퀀스 및 상기 제 2 시퀀스 양자 내에 동시에 존재하는 두 개의 단어의 개수인 페어링의 개수를 확정하고;
    상기 편집 거리, 상기 페어링의 개수, 각 조작의 조작 코스트, 상기 제 1 시퀀스 중의 단어의 개수 및 상기 제 2 시퀀스 중의 단어의 개수에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 사이의 유사성을 확정하도록
    구성되는 것을 특징으로 하는 단말.
  26. 프로세서에 의해 실행되는 것을 통하여 제 1 항, 제 3 항, 제4항 및 제8항 내지 제 12 항 중 어느 한 항에 기재된 유사성 확정 방법을 실현하는 것을 특징으로 하는 컴퓨터 판독가능한 저장매체에 기록된 프로그램.
  27. 제 26 항에 기재된 프로그램이 기록된 컴퓨터 판독가능한 저장매체.
KR1020167006741A 2015-12-03 2015-12-29 유사성 확정 방법, 장치, 단말, 프로그램 및 저장매체 KR101782923B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510882468.2 2015-12-03
CN201510882468.2A CN105446957B (zh) 2015-12-03 2015-12-03 相似性确定方法、装置及终端
PCT/CN2015/099523 WO2017092122A1 (zh) 2015-12-03 2015-12-29 相似性确定方法、装置及终端

Publications (1)

Publication Number Publication Date
KR101782923B1 true KR101782923B1 (ko) 2017-09-28

Family

ID=55557172

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167006741A KR101782923B1 (ko) 2015-12-03 2015-12-29 유사성 확정 방법, 장치, 단말, 프로그램 및 저장매체

Country Status (8)

Country Link
US (1) US10089301B2 (ko)
EP (1) EP3179379A1 (ko)
JP (1) JP6321306B2 (ko)
KR (1) KR101782923B1 (ko)
CN (1) CN105446957B (ko)
MX (1) MX365897B (ko)
RU (1) RU2664002C2 (ko)
WO (1) WO2017092122A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102517661B1 (ko) * 2022-07-15 2023-04-04 주식회사 액션파워 텍스트 정보에서 타겟 단어에 대응하는 단어를 식별하는 방법

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10296788B1 (en) * 2016-12-19 2019-05-21 Matrox Electronic Systems Ltd. Method and system for processing candidate strings detected in an image to identify a match of a model string in the image
US10853457B2 (en) * 2018-02-06 2020-12-01 Didi Research America, Llc System and method for program security protection
US10515149B2 (en) * 2018-03-30 2019-12-24 BlackBoiler, LLC Method and system for suggesting revisions to an electronic document
WO2020061910A1 (zh) * 2018-09-27 2020-04-02 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
SG10201904554TA (en) * 2019-05-21 2019-09-27 Alibaba Group Holding Ltd Methods and devices for quantifying text similarity
CN110750615B (zh) * 2019-09-30 2020-07-24 贝壳找房(北京)科技有限公司 文本重复性判定方法和装置、电子设备和存储介质
CN110909161B (zh) * 2019-11-12 2022-04-08 西安电子科技大学 基于密度聚类和视觉相似度的英文单词分类方法
CN111352549B (zh) * 2020-02-25 2022-01-07 腾讯科技(深圳)有限公司 一种数据对象展示方法、装置、设备及存储介质
US11776529B2 (en) * 2020-04-28 2023-10-03 Samsung Electronics Co., Ltd. Method and apparatus with speech processing
KR20210132855A (ko) * 2020-04-28 2021-11-05 삼성전자주식회사 음성 처리 방법 및 장치
CN111967270B (zh) * 2020-08-16 2023-11-21 云知声智能科技股份有限公司 一种基于字符与语义融合的方法和设备
EP4272094A1 (en) 2021-01-04 2023-11-08 Blackboiler, Inc. Editing parameters
CN112597313B (zh) * 2021-03-03 2021-06-29 北京沃丰时代数据科技有限公司 短文本聚类方法、装置、电子设备及存储介质
CN116564414B (zh) * 2023-07-07 2024-03-26 腾讯科技(深圳)有限公司 分子序列的比对方法、装置、电子设备、存储介质及产品

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757959A (en) * 1995-04-05 1998-05-26 Panasonic Technologies, Inc. System and method for handwriting matching using edit distance computation in a systolic array processor
NO983175L (no) 1998-07-10 2000-01-11 Fast Search & Transfer Asa Soekesystem for gjenfinning av data
JP2001291060A (ja) * 2000-04-04 2001-10-19 Toshiba Corp 単語列照合装置および単語列照合方法
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US6810376B1 (en) * 2000-07-11 2004-10-26 Nusuara Technologies Sdn Bhd System and methods for determining semantic similarity of sentences
US7734565B2 (en) * 2003-01-18 2010-06-08 Yahoo! Inc. Query string matching method and apparatus
EP1668541A1 (en) * 2003-09-30 2006-06-14 British Telecommunications Public Limited Company Information retrieval
JP2005352888A (ja) * 2004-06-11 2005-12-22 Hitachi Ltd 表記揺れ対応辞書作成システム
US8077984B2 (en) * 2008-01-04 2011-12-13 Xerox Corporation Method for computing similarity between text spans using factored word sequence kernels
US8775441B2 (en) 2008-01-16 2014-07-08 Ab Initio Technology Llc Managing an archive for approximate string matching
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US8170969B2 (en) * 2008-08-13 2012-05-01 Siemens Aktiengesellschaft Automated computation of semantic similarity of pairs of named entity phrases using electronic document corpora as background knowledge
US8219583B2 (en) * 2008-11-10 2012-07-10 Nbcuniversal Media, Llc Methods and systems for mining websites
US8290989B2 (en) * 2008-11-12 2012-10-16 Sap Ag Data model optimization
CN101751430A (zh) * 2008-12-12 2010-06-23 汉王科技股份有限公司 电子词典模糊检索方法
CN101561813B (zh) * 2009-05-27 2010-09-29 东北大学 一种Web环境下的字符串相似度的分析方法
CN101957828B (zh) 2009-07-20 2013-03-06 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置
CN102622338B (zh) * 2012-02-24 2014-02-26 北京工业大学 一种短文本间语义距离的计算机辅助计算方法
DE112013006764T5 (de) * 2013-03-04 2015-11-19 Mitsubishi Electric Corporation Suchvorrichtung
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
US20150051896A1 (en) * 2013-08-14 2015-02-19 National Research Council Of Canada Method and apparatus to construct program for assisting in reviewing
JP6143638B2 (ja) * 2013-10-17 2017-06-07 株式会社日立ソリューションズ東日本 データ処理装置およびデータ処理方法
US9430463B2 (en) * 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9672206B2 (en) * 2015-06-01 2017-06-06 Information Extraction Systems, Inc. Apparatus, system and method for application-specific and customizable semantic similarity measurement

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
고상기외 1인, "정규 언어와 문맥 자유 언어 사이의 편집거리 계산", 정보과학회 논문지 : 컴퓨팅의 실제 및 레터 제18권 제6호, 2012.06
김종익, "접두사 원소 선별을 이용한 효율적인 편집거리 기반 유사 문자열 검색기법, 정보과학회 논문지 : 컴퓨팅의 실제 및 레터 제18권 제9호, 2012.09

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102517661B1 (ko) * 2022-07-15 2023-04-04 주식회사 액션파워 텍스트 정보에서 타겟 단어에 대응하는 단어를 식별하는 방법

Also Published As

Publication number Publication date
MX365897B (es) 2019-06-19
WO2017092122A1 (zh) 2017-06-08
RU2664002C2 (ru) 2018-08-14
RU2016118758A (ru) 2017-11-20
US20170161260A1 (en) 2017-06-08
US10089301B2 (en) 2018-10-02
JP2018501597A (ja) 2018-01-18
CN105446957A (zh) 2016-03-30
EP3179379A1 (en) 2017-06-14
CN105446957B (zh) 2018-07-20
JP6321306B2 (ja) 2018-05-09
MX2016005489A (es) 2017-11-30

Similar Documents

Publication Publication Date Title
KR101782923B1 (ko) 유사성 확정 방법, 장치, 단말, 프로그램 및 저장매체
CN109089133B (zh) 视频处理方法及装置、电子设备和存储介质
TW202113680A (zh) 人臉和人手關聯檢測方法及裝置、電子設備和電腦可讀儲存媒體
CN107944447B (zh) 图像分类方法及装置
US10521071B2 (en) Expression curve generating method based on voice input and device thereof
EP3176709A1 (en) Video categorization method and apparatus, computer program and recording medium
CN107423106B (zh) 支持多框架语法的方法和装置
CN111461304B (zh) 分类神经网络的训练方法、文本分类方法、装置及设备
CN106201734B (zh) 文件分享方法及装置
CN110781813B (zh) 图像识别方法及装置、电子设备和存储介质
JP7116088B2 (ja) 音声情報処理方法、装置、プログラム及び記録媒体
CN105139848B (zh) 数据转换方法和装置
US11335348B2 (en) Input method, device, apparatus, and storage medium
EP3734472A1 (en) Method and device for text processing
US11388652B2 (en) Method and apparatus for indicating position of cell-defining synchronization signal block and searching for the same, and base station
KR20150092390A (ko) 음성기반 이미지 파일 태깅장치 및 그를 이용한 클라우드 서비스 기반 이미지 파일 검색방법
CN108270661B (zh) 一种信息回复的方法、装置和设备
CN105589575B (zh) 输入法调用方法及装置
CN105468606B (zh) 网页保存的方法及装置
CN113987128A (zh) 相关文章搜索方法、装置、电子设备和存储介质
RU2666138C2 (ru) Способ и устройство для активной доставки пользовательской информации
CN111324214B (zh) 一种语句纠错方法和装置
CN109145151B (zh) 一种视频的情感分类获取方法及装置
CN111552688A (zh) 数据导出方法、装置及电子设备
CN111667827B (zh) 应用程序的语音控制方法、装置及存储介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant