KR20210040318A

KR20210040318A - 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램

Info

Publication number: KR20210040318A
Application number: KR1020210038095A
Authority: KR
Inventors: 빈 스
Original assignee: 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date: 2020-06-27
Filing date: 2021-03-24
Publication date: 2021-04-13
Also published as: EP3822813A1; US12079258B2; KR102606514B1; CN111753147A; US20210224620A1; JP2021144742A

Abstract

본 출원은 유사도 처리방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램을 개시하고, 정보 처리, 자연어 처리 분야에 관한 것이다. 구체적인 구현방안은, 제1문자열 및 제2문자열을 획득하며; 상기 제1문자열과 상기 제2문자열 간의 음소 구성 유사도 및 폰트 유사도를 확정하며; 상기 음소 구성 유사도 및 상기 폰트 유사도에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 종합적인 유사도를 확정하는 것이다. 본 출원의 실시예에서 설명된 방법을 통하여, 상기 제 1 문자열과 상기 제 2 문자열의 유사도를 다차원으로부터 획득함으로써, 상기 유사도의 정확도를 향상시킬 수 있다.

Description

유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램{SIMILARITY PROCESSING METHOD, APPARATUS, SERVER AND STORAGE MEDIUM}

본 출원은 컴퓨터 기술 분야에 관한 것이며, 본 출원은 데이터 처리, 자연어 처리 분야에 관한 것이다.

관련 기술분야에서, 편집 거리 알고리즘에 기반하여 문자열 간의 유사도를 확정할 수 있고, 해당 편집 거리 알고리즘은 문자열에 대해 제안된 거리 매트릭 방법이다. 상용의 편집 거리 알고리즘은 하나의 문자열에서 다른 문자열로 변환하는데 필요한 최소 편집 횟수를 나타내고; 즉 하나의 문자열에 하나의 문자를 삽입하고, 하나의 문자열에서 하나의 문자를 삭제하거나, 또는 문자열에서의 하나의 문자를 다른 문자로 대체한다. 그러나, 문자열에 한자가 존재하는 경우, 중국어 또는 한자로 구성된 문장 간의 유사도를 어떻게 정확하게 확정할 것인가하는 것은 해결해야 할 문제가 되였다.

본 출원은 상기 문제들 중 하나 또는 복수의 문제를 해결하기 위해, 유사도 처리 방법, 장치, 및 저장 매체를 제공한다.

본 출원의 일측면에 따르면, 유사도 처리 방법을 제공하고, 해당 방법은,

제1문자열 및 제2문자열을 획득하는 단계;

상기 제1문자열과 상기 제2문자열 간의 음소 구성 유사도 및 폰트 유사도를 확정하는 단계; 및

상기 음소 구성 유사도 및 상기 폰트 유사도에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 종합적인 유사도를 확정하는 단계; 를 포함한다.

본 출원의 다른 측면에 따르면, 유사도 처리 장치를 제공하고, 해당 장치는,

제1문자열 및 제2문자열을 획득하기 위한 획득모듈;

상기 제1문자열과 상기 제2문자열 간의 음소 구성 유사도 및 폰트 유사도를 확정하기 위한 제1확정모듈; 및

상기 음소 구성 유사도 및 상기 폰트 유사도에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 종합적인 유사도를 확정하기 위한 제2확정모듈; 을 포함한다.

본 출원의 또 다른 측면에 따르면, 전자기기를 제공하고, 해당 전자기기는,

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서에 통신 가능하게 연결되는 메모리를 포함하고, 여기서,

상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령을 저장하며, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 전술한 방법을 수행하도록 한다.

본 출원의 또 다른 측면에 따르면, 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독가능 저장 매체를 제공하고, 여기서, 해당 컴퓨터 명령은 해당 컴퓨터로 하여금 전술한 방법을 수행하도록 한다.

상기 선택적인 방식의 다른 효과는 구체적인 실시예를 결부하여 이하에서 설명될 것이다.

상기 방안을 통하여, 상기 제 1 문자열과 상기 제 2 문자열의 유사도를 다차원으로 확정할 수 있으며, 즉 제 1 문자열 및 제 2 문자열의 음소 구성 및 폰트의다차원으로부터 제 1 문자열과 제 2 문자열의 유사도를 확정함으로써, 제 1 문자열과 제 2 문자열의 유사도를 확정하는 정확도를 크게 향상시킬 수 있다.

여기서 설명된 내용은 본 출원의 실시예의 관건적이거나 중요한 특징을 표기하기 위한 것이 아니며, 본 출원의 범위를 제한하기 위한 것도 아님을 이해하여야 한다. 본 출원의 기타 특징은 다음의 명세서를 통하여 더 용이하게 이해할 수 있을 것이다.

도면은 본 기술방안을 더욱 잘 이해할수 있기 위한 것이지, 본 출원에 대한 한정이 아니다.
도1은 본 출원의 실시예에 따른 유사도 처리 방법의 흐름도1이다.
도2는 본 출원의 실시예에 따른 음소 구성 유사도 확정 흐름의 개략도이다.
도3은 본 출원의 실시예에 따른 폰트 유사도 확정 흐름의 개략도이다.
도4는 본 출원의 실시예에 따른 유사도 처리 방법의 흐름도2이다.
도5는 본 출원의 실시예에 따른 유사도 처리 장치의 개략적인 구조도이다.
도6은 본 출원의 실시예에 따른 유사도 처리 장치를 구현하기 위한 전자기기의 블록도이다.

이하 도면과 결부하여 본 출원의 예시적인 실시예를 설명하되, 여기서 본 출원의 실시예를 포함하는 여러 가지 세부절차는 이해를 돕기 위한 것으로서, 이들은 응당 예시적인 것으로 간주해야 한다. 따라서 해당 분야 기술자들은 여기서 설명한 실시예에 대하여 여러 가지 변화와 수정을 진행할 수 있고, 이는 본 출원의 범위와 정신을 벗어나지 않는다는 것을 인식하여야 한다. 마찬가지로, 명확함과 간결함을 위하여, 아래의 설명에서는 공지 기능과 구조에 대한 설명을 생략한다.

본 출원은 유사도 처리 방법을 제공하고, 도1에 도시된 바와 같이, 해당 방법은,

제1문자열 및 제2문자열을 획득하는 단계(S101);

상기 제1문자열과 상기 제2문자열 간의 음소 구성 유사도 및 폰트 유사도를 확정하는 단계(S102); 및

상기 음소 구성 유사도 및 상기 폰트 유사도에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 종합적인 유사도를 확정하는 단계(S103); 를 포함한다.

본 출원의 실시예에서 제공하는 유사도 처리 방법은 전자기기에 적용된다. 여기서, 상기 전자기기는 이동 단말기 또는 비이동 단말기 또는 서버를 포함하고, 예를 들어, 상기 전자기기는 휴대폰, 컴퓨터 또는 서버 등일 수 있다.

단계(S101)에서, 제1문자열 및 제2문자열은 임의의 유사도 정경에서의 텍스트 정보일 수 있다. 예를 들어, 해당 유사도 정경은 제목이 유사한 문장을 검색하는 것일 수 있고; 또 예를 들어, 해당 유사도 정경은 다양한 소셜 플랫폼에서의 유사한 포커스 뉴스일 수 있으며; 또 예를 들면, 해당 유사도 정경은 쇼핑 플랫폼 내의 상품 분류일 수 있으며; 다른 예를 들면, 해당 유사도 정경은 라이브러리 내의 책에 대한 분류 등일 수 있다.

상기 단계(S101)에서, 상기 제1문자열 및 제2문자열에 포함된 내용은 다음과 같은 몇가지 경우일 수 있다.

하나의 경우에서, 상기 제 1 문자열은 N개의 한자를 포함하고; 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이다. 그 중, N및 M은 같거나 같지 않을 수 있다.

또 하나의 경우에서, 상기 제 1 문자열은 N개의 한자를 포함하고; 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이다. 또한, 상기 제 1 문자열은 L개의 문자를 더 포함하며; 상기 제 2문자열은 K개의 문자를 더 포함하며; 그 중, L 및 K는 정수이며; 문자는 자모, 숫자, 기호 중 적어도 하나이다.

그 중, L 및 K는 같거나 같지 않을 수 있다. 한편, L 및 K 중 하나는 0일 수 있다.

이런 경우에는, 문자열 내의 한자 및 문자는 "

123 및 大象ab"와 같이 교차하여 존재할 수 있다.

본 출원의 실시예에서, 상기 제 1 문자열과 상기 제 2 문자열의 유사도를 다차원으로부터 확정할 수 있으며, 즉 제 1 문자열 및 제 2 문자열의 문자, 음소 구성 및 폰트 등 다차원으로부터 제 1 문자열과 제 2 문자열의 유사도를 확정하며; 따라서 제 1 문자열과 제 2 문자열의 유사도를 확정하는 정확도를 크게 향상시킬 수 있다.

한편, 상기 제 1 문자열과 상기 제 2 문자열이 한자를 포함하는 한자 텍스트라면, 한자를 포함하는 텍스트의 유사도에 대한 확정을 실현할 수 있으며, 따라서 더욱 포괄적인 문자에 기반하여 유사도를 확정할 수 있음으로써, 텍스트 유사도 계산의 정확도를 더욱 향상시킬 수 있다.

전술한 단계(S102)에서, 상기 제1문자열 및 상기 제2문자열에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 간의 문자 유사도를 확정하는 단계를 더 포함할 수 있다. 구체적으로,

미리 설정된 편집 거리 규칙에 따라, 상기 제 1 문자열과 상기 제 2 문자열의 각 대응 위치에서의 문자 사이의 제1편집 거리를 확정하며; 상기 제1편집 거리에 기반하여, 상기 문자 유사도를 확정하는 것일 수 있다.

여기서, 상기 편집 거리 규칙은 문자열 간의 편집 조작 횟수를 반영할 수 있으며; 그 중, 해당 편집 조작 횟수는 삽입 조작, 삭제 조작 또는 대체 조작을 포함한다. 여기서, 상기 편집 거리 규칙은 편집 거리 공식일 수 있으며, 또는 편집 거리 모델 등일 수 있다.

여기서, 상기 제1문자열과 상기 제2문자열의 각 대응 위치에서의 문자는, 문자가 존재하는 상기 제1문자열과 상기 제2문자열에서의 문자의 비트 또는 번호가 동일한 것을 의미한다. 예를 들어, 제1문자열은 "

xgh"이면, 제2문자열은 "水果kij"이다.

제1문자열이 a이고, 제2문자열이 b이면, 상기 제1문자열 및 상기 제2문자열의 편집 거리 공식은 다음과 같다.

;

그 중, 상기 i는 제1문자열a 내의 i번째 문자를 나타내고, 상기 j개 문자는 제2문자열b 내의 j번째 문자를 나타내며; 상기 min()는 최소값 함수를 나타내며; 상기

는 상기 제1문자열의 길이와 상기 제2문자열의 길이가 같다는 것을 나타내며; 상기

는 상기 제1문자열의 길이와 상기 제2문자열의 길이가 같지 않는다는 것을 나타낸다.

여기서, 상기 편집 거리 공식은 2개의 문자열 사이의 최소 편집 조작 횟수를 나타낸다.

상기 제1문자열 및 상기 제2문자열의 상기 제1편집 거리는,

이고,

그 중, 상기

는 상기 제1문자열의 길이이고, 상기

는 상기 제2문자열의 길이이다.

상기 제1편집 거리

에 기반하여 획득된 상기 문자 유사도는,

이다.

그 중, 상기 max（）는 최대값 함수를 나타낸다.

여기서, 상기 제 1 문자열과 상기 제 2 문자열의 각 대응 위치에서의 문자 사이의 제1편집 거리는 다음과 같다.

;

;

그 중, 상기 d(i-1, j-1)은 a(0,i-1)에서 b(0,j-1)까지 완료하기 위한 편집 횟수를 나타낸다. 예를 들어, a(0,i-1)=b(0,j-1)일 때, 상기 d(i,j)는 a(i)를 b(j)로 대체하기 위한 편집을 나타내고; 여기서, d(i-1,j-1)은 b[i]를 b[j]로 대체하기 위한 대체 조작을 한번 수행하는 것에 대응한다.

그 중, 상기 d(i-1, j)는 a(0, i-1)에서b(0, j)까지 완료하기 위한 편집 횟수를 나타낸다. 예를 들어, a(0,i-1)=b(0,j)일 때, 상기 d(i,j)는 a(i)를 삭제하기 위한 편집을 나타내고; 여기서, d(i-1,j)는 a(i)를 삭제하기 위한 삭제 조작을 한번 수행하는 것에 대응한다.

그 중, 상기 d (i, j-1)는 a(0, i)에서b(0, j-1)까지 완료하기 위한 편집 횟수를 나타낸다. 예를 들어, a(0,i)=b(0,j-1)일 때, 상기 (i,j)는 b(j)를 a(i)의 위치에 삽입하면 편집을 완료할 수 있다는 것을 나타내고; 여기서, d(i,j-1)은 b(j)를 a(i)에 삽입하기 위한 삽입 조작을 한번 수행하는 것에 대응한다.

하나의 예시에서, 제1문자열과 제2문자열의 제1편집 거리D(a,b)는 제1문자열과 제2문자열의 각 대응 위치에서의 문자 d(i,j)의 합이다.

여기서, 상기 제1편집 거리와 상기 문자 유사도는 역상관 과계를 나타낸다. 상기 제1편집 거리가 작을수록, 상기 문자 유사도는 더 크며, 상기 제1문자열과 상기 제2문자열의 유사도는 더 높으며; 상기 제1편집 거리가 클수록, 상기 문자 유사도는 더 작으며, 상기 제1문자열과 상기 제2문자열의 유사도는 더 낮다.

본 실시예에서, 문자를 포함하는 제 1 문자열과 제 2 문자열에 대해 문자 유사도를 확정할 수 있다. 구체적으로, 미리 설정된 거리 편집 공식에 기반하여 문자의 제1편집 거리를 계산하고, 해당 제1편집 거리에 기반하며 문자 유사도를 확정할 수 있다.

물론, 문자 유사도를 계산하기 위한 거리 편집 공식은 2개의 문자열 간의 편집 조작 횟수를 반영할 수 있는 임의의 공식일 수 있으며, 여기서 이에 대해 한정하지 않는다.

도2에 도시된 바와 같이, 전술한 단계(S102)에서, 상기 제 1 문자열과 상기 제 2 문자열 간의 음소 구성 유사도를 확정하는 것은,

상기 제1문자열을 제1음소 구성 코드 시퀀스로 변환하고, 상기 제2문자열을 제2음소 구성 코드 시퀀스로 변환하는 단계(S201); 및

제1음소 구성 코드 시퀀스 및 상기 제2음소 구성 코드 시퀀스에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 음소 구성 유사도를 계산하는 단계(S202); 를 포함한다.

전술한 단계(S101)에 대한 설명에서, 문자열은 2개의 경우가 있을 수 있다고 이미 지적하였으며, 이하, 단계(S101)의 2개의 경우를 각각 결합하여, 2개의 예시를 통해 단계(S201)- 단계(S202)에 대해 설명하기로 한다.

제1예시에서, 상기 제 1 문자열은 N개의 한자를 포함하고, 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이다.

단계(S201)에서, 상기 제1문자열을 제1음소 구성 코드 시퀀스로 변환하고, 상기 제2문자열을 제2음소 구성 코드 시퀀스로 변환하는 것은,

상기 제1문자열 내의 N개의 한자에 대응하는 N그룹의 병음 및 음조를 확정하고, 상기 N그룹의 병음 및 음조에 기반하여 제1음소 구성 코드 시퀀스를 확정하는 것; 및 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 병음 및 음조를 확정하고, 상기 M그룹의 병음 및 음조에 기반하여 제2음소 구성 코드 시퀀스를 확정하는 것; 을 포함한다.

예를 들어, 제1문자열은 "

"이고, 이를 제1음소 구성 코드 시퀀스로 변환하면 “ping2guo3"가 될 수 있으며; 제2문자열은 "夏天"이고, 이를 제2음소 구성 코드 시퀀스로 변환하면 “xia4tian1"가 될 수 있으며; 여기서, 제1음소 구성 코드 및 제 2음소 구성 코드는 모두 병음 및 음조의 조합이고; 그 중, “1"、"2"、"3" 및 "4"는 각각 제1음조, 제2 음조, 제3음조 및 제4음조에 대응하는 문자열이다.

또는, 상기 제1음소 구성 코드 시퀀스는 병음만을 포함할 수 있고, 상기 제 2음소 구성 코드 시퀀스는 병음만을 포함할 수 있다. 예를 들어, 제1문자열은 "

"이고, 이를 제1음소 구성 코드 시퀀스로 변환하면 “pingguo"가 되며; 제2문자열은 "夏天"이고, 이를 제2음소 구성 코드 시퀀스로 변환하면 “xiatian"가 된다.

상기 단계(S202)는 미리 설정된 편집 거리 규칙에 따라, 상기 제1음소 구성 코드 시퀀스 및 제2상기 음소 구성 코드 시퀀스의 각 대응위치에서의 음소 구성 코드 간의 제2편집 거리를 확정하는 것; 및 상기 제2편집 거리에 기반하여, 상기 음소 구성 유사도를 확정하는 것; 을 포함한다.

여기서, 편집 거리 규칙은 전술한 문자 유사도의 계산 방식과 비슷하고, 그에 대응하는 제2편집 거리 공식은

일 수 있다.

여기서, 제2편집 거리에 기반하여, 상기 음소 구성 유사도를 확정하는 것은 다음과 같다.

여기서, Pa는 제1음소 구성 코드 시퀀스이고, Pb는 제2음소 구성 코드 시퀀스이고, Sp는 음소 구성 유사도를 나타내며, a 및 b는 각각 제1문자열 및 제2 문자열을 나타낸다. 공식 중 기타 산식의 정의는 전술한 바와 같고, 여기서 설명을 생략한다.

한편, 상기 제2편집 거리와 상기 음소 구성 유사도는 역상관 과계를 나타낸다. 상기 제2편집 거리가 작을수록, 상기 음소 구성 유사도는 더 크며, 상기 제1문자열과 상기 제2문자열의 유사도는 더 높으며; 상기 제2편집 거리가 클수록, 상기 음소 구성 유사도는 더 작으며, 상기 제1문자열과 상기 제2문자열의 유사도는 더 낮다.

본 실시예에서, 제1문자열 및 제2문자열 내의 한자를 음소 구성의 각도로부터 분석할 수 있으며, 따라서 제1문자열과 제2문자열의 유사도를 더 포괄적으로 분석할 수 있으며; 또한, 음소 구성 각도로부터 분석할 때, 병음에 음조의 요소가 또 추가되어, 발음 간의 유사도를 고려할 수 있다. 따라서, 본 실시예는 제 1 문자열 및 제 2 문자열 간의 유사도를 더 정확하고 포괄적으로 반영할 수 있고, 텍스트 간의 유사도 확정의 정확도를 더욱 향상시킬 수 있다.

물론, 음소 구성 유사도를 계산하기 위한 거리 편집 공식은 2개의 음소 구성 코드 간의 편집 조작 횟수를 반영할 수 있는 임의의 공식일 수 있으며, 여기서 이에 대해 한정하지 않는다.

제2예시에서, 상기 제 1 문자열은 N개의 한자를 포함하고; 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이며; 또한, 상기 제 1 문자열은 L개의 문자를 더 포함하며; 상기 제 2문자열은 K개의 문자를 더 포함하며; 그 중, L 및 K는 정수이며; 문자는 자모, 숫자, 기호 중 적어도 하나이다.

상기 단계(S201)에서, 상기 방법은 N개의 한자에 대응하는 N그룹의 병음과 음조, 및 L 개의 문자에 기반하여 제1음소 구성 코드 시퀀스를 확정하는 것; 및 M개의 한자에 대응하는 M그룹의 병음 및 음조, 및 K개의 문자에 기반하여 제2음소 구성 코드 시퀀스를 확정하는 것; 을 더 포함한다.

즉, 제1예시에서 문자열 내의 한자에 대응하는 병음 및 음조를 획득하는 것에 기반하여, 한자에 대응하는 병음 및 음조와 문자열 내의 문자를 병합하여 음소 구성 코드 시퀀스를 획득한다.

상기 제1문자열과 상기 제2문자열이 모두 한자 및 문자를 포함하면, 상기 제1문자열 한자를 상기 제1음소 구성 코드 시퀀스로 변환하고, 및 상기 제2문자열을 제2음소 구성 코드 시퀀스로 변환할 때, 상기 제1문자열 내의 N그룹의 병음과 음조, 및 L 개의 문자를 상기 제1음소 구성 코드 시퀀스에 병합하고, 상기 제2문자열 내의 M그룹의 병음 및 음조, 및 K 개의 문자를 상기 제2음소 구성 코드 시퀀스에 병합할 수 있다.

예를 들어, 제1문자열이 “app相似"이고, 제2문자열이 “apple相思"이면, 제1문자열이 변환된 제1음소 구성 코드는 “appxiang1si4"이고, 그 중, 제1문자열 내의 문자열“app"은 제1문자열 내의 한자가 변환된 음소 구성 코드“xiang1si4"와 병합되며; 제2문자열이 변환된 제2음소 구성 코드는 “applexiang1si1"이고, 그 중, 제2문자열 내의 문자열“apple"은 제2문자열 내의 한자가 변환된 음소 구성 코드“xiang1si1"와 병합된다.

본 예시에서의 단계(S202)의 처리는 전술한 제1예시와 같아, 설명을 생략한다.

따라서, 본 실시예에서, 먼저 텍스트 내의 문자열과, 한자가 변환된 음소 구성 코드를 병합한 후, 텍스트 간의 음소 구성 유사도 및 폰트 유사도만 획득하여, 텍스트 간의 유사도를 확정하는 정확도를 향상시키는 전제하에, 상대적으로 적은 차원을 이용하여 유사도를 획득하고, 계산의 복잡도를 감소시킬 수 있다.

도3에 도시된 바와 같이, 전술한 단계(102)에서, 상기 제1문자열과 상기 제2문자열 간의 폰트 유사도를 확정하는 것은,

상기 제1문자열을 제1폰트 코드 시퀀스로 변환하고, 상기 제2문자열을 제2폰트 코드 시퀀스로 변환하는 단계(S301); 및

제1폰트 코드 시퀀스 및 상기 제2폰트 코드 시퀀스에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 상기 폰트 유사도를 계산하여 획득하는 단계(S302); 를 포함한다.

마찬가지로, 전술한 단계(S101)에 대한 설명에서, 문자열은 2개의 경우가 있을 수 있다고 이미 지적하였으며, 이하, 단계(S101)의 2개의 경우를 각각 결합하여, 2개의 예시를 통해 단계(S301)- 단계(S302)에 대해 설명하기로 한다.

제3예시에서, 상기 제 1 문자열은 N개의 한자를 포함하고; 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이다.

단계(S301)에서, 상기 제1문자열을 제1폰트 코드 시퀀스로 변환하고, 상기 제2문자열을 제2폰트 코드 시퀀스로 변환하는 것은,

상기 제1문자열 내의 N개의 한자에 대응하는 N그룹의 폰트 코드를 확정하고, 상기 N그룹의 폰트 코드에 기반하여 제1폰트 코드 시퀀스를 확정하는 것; 및 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 폰트 코드를 확정하고, 상기 M그룹의 폰트 코드에 기반하여 제2폰트 코드 시퀀스를 확정하는 것; 을 포함한다.

여기서, 상기 폰트 코드는 오필 코드 또는 필획를 포함한다.

물론, 다른 예시에서, 상기 제1폰트 코드 및 제2폰트 코드는 폰트를 표현하는 기타 임의의 폰트 코드일 수 있고, 예를 들어, 상기 제1폰트 코드 및 제2폰트 코드는 부수와 같은 한자 부품을 포함하는 폰트 코드일 수 있다.

여기서, 폰트 코드와 코드의 매핑 관계를 미리 확립할 수 있다. 예를 들어, 필획와 문자 사이의 매핑 관계를 구축하는데, 가로획에 대응하는 코드는 “a"이고, 세로획에 대응하는 코드는 “b"이다. 다른 예로서, 오필자형과 코드 사이의 매핑 관계를 구축하며; 그 중, 오필자형과 코드 사이의 매핑 관계는 오필자형 엘리먼트 테이블에 기반하여 확정할수 있으며; 또는 오필자형과 코드 사이의 매핑 관계는 사용자에 의해 스스로 정의될 수 있다. 예를 들어, 텍스트 내의 한자“

”는 “wqiyvbg"의 폰트 코드로 변환될 수 있다.

상기 단계(S302)는 구체적으로: 미리 설정된 편집 거리 규칙에 따라, 상기 제 1 폰트　코드와 상기 제 2 폰트　코드의 각 대응 위치에서의 폰트　코드 사이의 제3편집 거리를 확정하고; 상기 제3편집 거리에 기반하여, 상기 폰트 유사도를 확정하는 것일 수 있다.

여기서, 편집 거리 규칙은 전술한 규칙과 비슷하고, 그에 대응하는 제3편집 거리 공식은

일 수 있다.

여기서, 제3편집 거리에 기반하여, 상기 폰트 유사도를 확정하는 것은 다음과 같다.

여기서, 여기서, Wa는 제1폰트 코드 시퀀스이고, Wb는 제2폰트 코드 시퀀스이고, Sw는 음소 구성 유사도를 나타내며, a 및 b는 각각 제1문자열 및 제2 문자열을 나타낸다. 공식 중 기타 산식의 정의는 전술한 바와 같고, 여기서 설명을 생략한다.

여기서, 상기 제3편집 거리와 상기 문자 유사도는 역상관 과계를 나타낸다. 상기 제3편집 거리가 작을수록, 상기 폰트 유사도는 더 크며, 상기 제1문자열과 상기 제2문자열의 유사도는 더 높으며; 상기 제3편집 거리가 클수록, 상기 폰트　유사도는 더 작으며, 상기 제1문자열과 상기 제2문자열의 유사도는 더 낮다.

본 실시예에서, 제1문자열 및 제2문자열 내의 한자를 폰트 각도로부터 분석할 수 있어, 제1문자열과 제2문자열의 유사도를 더 포괄적으로 분석할 수 있으며, 따라서 텍스트 간의 유사도 확정의 정확도를 더욱 향상시킬 수 있다.

물론, 폰트 유사도를 계산하기 위한 거리 편집 공식은 2개의 폰트 코드 간의 편집 조작 횟수를 반영할 수 있는 임의의 공식일 수 있으며, 여기서 이에 대해 한정하지 않는다.

제4예시에서, 상기 제 1 문자열은 N개의 한자를 포함하고; 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이며; 또한, 상기 제 1 문자열은 L개의 문자를 더 포함하며; 상기 제 2문자열은 K개의 문자를 더 포함하며; 그 중, L 및 K는 정수이며; 문자는 자모, 숫자, 기호 중 적어도 하나이다.

단계(S301)에서, 상기 방법은, 상기 제 1문자열 내의 N개의 한자에 대응하는 N그룹의 폰트　코드, 및 L 개의 문자에 기반하여 제1폰트　코드 시퀀스를 확정하는 것; 및 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 폰트　코드와, K개의 문자에 기반하여 제2폰트　코드 시퀀스를 확정하는 것; 을 더 포함한다.

즉, 제3예시에서 문자열 내의 한자에 대응하는 병음 및 음조를 획득하는 기초상에, 한자에 대응하는 병음 및 음조와 문자열 내의 문자를 병합하여 음소 구성 코드 시퀀스를 획득한다.

본 예시에서 단계(S302)의 처리는 전술한 제3예시와 같아, 여기서 설명을 생략한다.

본 예시는 먼저 제 1문자열 및 제 2문자열 내의 한자를 대응하는 폰트　코드로 변환하고, 제 1문자열 및 제 2문자열 내의 L 개의 문자 또는 K개의 문자를 대응하는 폰트　코드에 병합하여, 한자의 유사도를 확정할 때, 기타 문자의 유사도도 고려할 수 있다.

전술한 처리에 기반하여, 본 실시예의 전술한 단계(S103)는, 상기 음소 구성 유사도 및 상기 폰트　유사도와 각자의 가중치 계수의 곱의 합에 기반하여, 상기 종합적인 유사도를 확정하는 것을 포함한다.

더 나아가, 상기 문자 유사도, 상기 음소 구성 유사도 및 상기 폰트　유사도와 각자의 가중치 계수의 곱의 합에 기반하여, 상기 종합적인 유사도를 확정하는 것을 더 포함할 수 있다.

일 예시에서, 상기 방법은,

상기 문자 유사도의 제1가중치 계수를 확정하는 것; 상기 음소 구성 유사도의 제2가중치 계수를 확정하는 것; 및 상기 폰트　유사도의 제3가중치 계수를 확정하는 것; 을 더 포함한다.

따라서, 단계(S103)를 수행할 때,

상기 문자 유사도 및 상기 제1가중치 계수에 기반하여, 제1수치를 확정하는 것; 상기 음소 구성 유사도 및 상기 제2가중치 계수에 기반하여, 제2수치를 확정하는 것; 및 상기 폰트　유사도 및 상기 제3가중치 계수에 기반하여, 제3수치를 확정하는 것; 을 포함한다.

상기 제1수치, 상기 제2수치 및 상기 제3수치에 기반하여, 상기 종합적인 유사도를 확정한다.

상기 제1가중치 계수, 상기 제2가중치 계수 및 상기 제3가중치 계수는 모두 0보다 크거나 같고, 1보다 작거나 같다.

여기서 제1가중치 계수, 제2가중치 계수 및 제3가중치는 실제 상황에 따라 확정될 수 있다. 예를 들어, 하나의 정경에서, 문자 유사도의 중요도가 음소 구성 유사도의 중요도보다 크고, 음소 구성 유사도의 중요도가 폰트　유사도의 중요도보다 큰 경우, 제1가중치 계수가 제2가중치 계수보다 크고, 제2가중치 계수가 제3가중치 계수보다 큰 것을 확정한다. 다른 예로서, 다른 하나의 정경에서, 상기 제2가중치 계수 또는 제3가중치 계수의 값은 0이다.

예를 들어, 상기 제1가중치 계수는 0.5이고, 제2가중치 계수는 0.3이고, 제3가중치 계수는 0.2인 경우, 종합적인 유사도는,

일 수 있고, 그 중, 상기 Sc는 문자 유사도를 나타내고, 상기 Sp는 음소 구성 유사도를 나타내고, 상기 Sw는 폰트　유사도를 나타낸다.

본 실시예에서, 문자 유사도, 음소 구성 유사도 및 폰트　유사도의 가중치 계수를 확정하고, 문자 유사도, 음소 구성 유사도 및 폰트　유사도와, 각자의 가중치 계수에 기반하여 함께 종합적인 유사도를 확정할 수 있다. 따라서, 본 실시예는 문자 유사도, 음소 구성 유사도 및 폰트　유사도가 각 정경에서의 중요도의 실제 상황을 고려함으로써, 제 1 문자열과 제 2 문자열 간의 유사도를 확정하는 정확도를 더 향상시킬 수 있다.

이하, 도4를 참조하여 본 실시예에서 제공한 예시에 대해 설명한다.

단계(S601): 제 1문자열a 및 제 2문자열b을 획득하며;

단계(S6021): 오필자형 변환 규칙에 기반하여, 제 1문자열의 제1폰트　코드Wa 및 제2폰트　코드Wb를 획득하며;

단계(S6022): 병음 변환 규칙에 기반하여, 제 1문자열의 제1음소 구성 코드Pa 및 제2음소 구성 코드Pb를 획득하며;

단계(S6023): 제 1문자열의 제1문자열Sa 및 제2문자열의 제2문자열Sb를 획득하며;

단계(S603): Wa및 Wb, Pa 및 Pb, Sa및Sb를 편집 거리 모델에 각각 입력하여 계산하며;

단계(S6041): Wa및 Wb의 폰트 유사도Sw를 출력하며;

단계(S6042): Pa 및 Pb의 음소 구성 유사도Sp를 출력하며;

단계(S6043): Sa및Sb의 문자 유사도Sc를 출력하며;

단계(S605): Sw, Sp 및 Sc에 기반하여, 제 1문자열과 제 2문자열 간의 종합적인 유사도를 획득한다.

본 출원의 실시예는 상기 제 1 문자열과 상기 제 2 문자열의 유사도를 다차원으로부터 확정할 수 있으며, 즉 제 1 문자열 및 제 2 문자열의 문자, 음소 구성 및 폰트의 다차원으로부터 제 1 문자열과 제 2 문자열의 유사도를 확정함으로써, 제 1 문자열과 제 2 문자열의 유사도를 확정하는 정확도를 크게 향상시킬 수 있다.

음소 구성 및 폰트 각도로 한자의 텍스트의 유사도를 확정할 수도 있고, 더 포괄적인 문자에 기반하여 유사도를 확정할 수 있고, 따라서 텍스트 유사도를 계산하는 정확도를 더욱 향상시킬 수 있다.

본 출원은 텍스트 유사도 장치를 제공하고, 도5에 도시된 바와 같이, 해당 장치는,

제1문자열 및 제2문자열을 획득하기 위한 획득모듈(701);

상기 제1문자열과 상기 제2문자열 간의 음소 구성 유사도 및 폰트 유사도를 확정하기 위한 제1확정모듈(702); 및

상기 음소 구성 유사도 및 상기 폰트 유사도에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 종합적인 유사도를 확정하기 위한 제2확정모듈(703); 을 포함한다.

그 중, 상기 제1확정모듈(702)은, 상기 제1문자열을 제1음소 구성 코드 시퀀스로 변환하고, 상기 제2문자열을 제2음소 구성 코드 시퀀스로 변환하며; 상기 제1음소 구성 코드 시퀀스 및 상기 제2음소 구성 코드 시퀀스에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 간의 음소 구성 유사도를 계산하여 획득하는데 이용된다.

상기 제1확정모듈(702)은, 상기 제1문자열을 제1폰트　코드 시퀀스로 변환하고, 상기 제2문자열을 제2폰트　코드 시퀀스로 변환하며; 상기 제1폰트　코드 시퀀스 및 상기 제2폰트　코드 시퀀스에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 간의 폰트 유사도를 계산하여 획득하는데 이용되다.

상기 제 1 문자열은 N개의 한자를 포함하고, 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이다.

상기 제1확정모듈(702)은, 상기 제1문자열 내의 N개의 한자에 대응하는 N그룹의 병음 및 음조를 확정하고, 상기 N그룹의 병음 및 음조에 기반하여 제1음소 구성 코드 시퀀스를 확정하며; 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 병음 및 음조를 확정하고, 상기 M그룹의 병음 및 음조에 기반하여 제2음소 구성 코드 시퀀스를 확정하는데 이용된다.

상기 제1확정모듈(702)은, 상기 제1문자열 내의 N개의 한자에 대응하는 N그룹의 폰트 코드를 확정하고, 상기 N그룹의 폰트 코드에 기반하여 제1폰트 코드 시퀀스를 확정하며; 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 폰트 코드를 확정하고, 상기 M그룹의 폰트 코드에 기반하여 제2폰트 코드 시퀀스를 확정하는데 이용된다.

상기 제 1 문자열은 L개의 문자를 더 포함하며; 제 2문자열은 K개의 문자를 더 포함하며; 그 중, L 및 K는 정수이며; 문자는 자모, 숫자, 기호 중 적어도 하나이다.

상기 제1확정모듈(702)은, N개의 한자에 대응하는 N그룹의 병음과 음조, 및 L 개의 문자에 기반하여 제1음소 구성 코드 시퀀스를 확정하며; M개의 한자에 대응하는 M그룹의 병음과 음조, 및 K개의 문자에 기반하여 제2음소 구성 코드 시퀀스를 확정하는데 이용된다.

상기 제1확정모듈(702)은, 상기 제 1문자열 내의 N개의 한자에 대응하는 N그룹의 폰트　코드, 및 L 개의 문자에 기반하여 제1폰트　코드 시퀀스를 확정하며; 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 폰트　코드, 및 K개의 문자에 기반하여 제2폰트　코드 시퀀스를 확정하는데 이용된다.

상기 제2확정모듈(703)은, 상기 문자 유사도, 상기 음소 구성 유사도 및 상기 폰트　유사도와 각자의 가중치 계수의 곱의 합에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 상기 종합적인 유사도를 확정하는데 이용된다.

따라서, 상술한 방안을 채택하는 것을 통하여, 상기 제 1 문자열과 상기 제 2 문자열의 유사도를 다차원으로부터 확정할 수 있으며, 즉 제 1 문자열 및 제 2 문자열의 문자, 음소 구성 및 폰트의 다차원으로부터 제 1 문자열과 제 2 문자열의 유사도를 확정함으로써, 제 1 문자열과 제 2 문자열의 유사도를 확정하는 정확도를 크게 향상시킬 수 있다.

또한, 상기 제1문자열 및 제2문자열이 한자를 포함하는 한자 텍스트인 경우, 음소 구성 및 폰트의 각도로부터 한자의 텍스트의 유사도를 확정할 수도 있고, 따라서 더 포괄적인 문자에 기반하여 유사도를 확정할 수 있고, 텍스트 유사도를 계산하는 정확도를 더욱 향상시킬 수 있다.

또한, 본 실시예는 문자 유사도, 음소 구성 유사도 및 폰트　유사도가 각 정경에서의 중요도의 실제 상황을 고려함으로써, 제 1 문자열과 제 2 문자열 간의 유사도를 확정하는 정확도를 더 향상시킬 수 있다.

본 출원의 실시예에 따른 각 장치 내의 각 모듈의 기능은 상술한 방법에 대응하는 설명을 참조할 수 있고, 여기서 설명을 생략한다.

본 출원의 실시예에 따르면, 본 출원은 전자기기 및 판독가능 저장 매체를 더 제공한다. 전자기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크스테이션, 개인 정보 단말기, 서버, 블레이드 서버, 메인프레임 컴퓨터, 및 다른 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 가리킨다. 전자기기는 또한 개인 디지털 프로세싱, 셀룰러 폰, 스마트 폰, 웨어러블 장치, 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본 명세서에서 나타낸 부품, 그들의 연결 및 관계, 및 그들의 기능은 단지 예시적인 것이며, 본 명세서에서 설명 및/또는 요구하는 본 출원의 구현을 제한하기 위한 것이 아니다.

상기 텍스트 유사도 장치는 전자기기에 의해 구현될 수 있으며, 도6에 도시된 바와 같이, 전자기기는 하나 또는 복수의 프로세서(801), 메모리(802), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부품을 연결하기 위한 인터페이스를 포함한다. 각 부품은 상이한 버스를 이용하여 상호 연결되고, 공용 메인보드에 장착되거나 또는 필요에 따라 기타 방식으로 장착될 수도 있다. 프로세서는 전자기기 내에서 실행되는 명령을 처리할 수 있고, 이는 메모리에 저장되거나 또는 메모리에 저장되어 외부 입력/출력 장치(예를 들어, 인터페이스에 결합된 디스플레이 장치)에 GUI를 표시하는 그래프 정보의 명령을 포함한다. 기타 실시예에서, 필요에 따라, 복수의 프로세서 및/또는 복수의 버스를 복수의 메모리와 함께 사용할 수 있다. 또한, 복수의 전자기기를 연결할수 있고, 각 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 블레이드 서버 세트, 또는 멀티 프로세서 시스템으로 함)을 제공할수 있다. 도6에서는 하나의 프로세서(801)를 예로 한다.

메모리(802)는 본 출원에서 제공하는 비일시적 컴퓨터 판독가능 저장 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행가능한 명령이 저장되고, 상기 적어도 하나의 프로세서로 하여금 본 출원에서 제공하는 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독가능 저장 매체에는 컴퓨터 명령을 저장하고, 해당 컴퓨터 명령은 컴퓨터로 하여금 본 출원에서 제공하는 방법을 실행하도록 한다.

메모리(802)는 비일시적 컴퓨터 판독가능 저장 매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행가능 프로그램 및 모듈, 예를 들어 본 출원의 실시예에 따른 방법에 대응하는 프로그램 명령/모듈(예를 들어, 도5에 도시된 획득모듈, 제1확정모듈, 제2확정모듈)을 저장하는데 사용될 수 있다. 프로세서(801)는 메모리(802)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 응용 및 데이터 처리를 실행하며, 즉 전술한 방법의 실시예에서 제공하는 방법을 구현한다.

메모리(802)는 프로그램 저장구역 및 데이터 저장구역을 포함할 수 있으며, 프로그램 저장구역은 운영 체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있고, 데이터 저장구역은 전자기기의 사용에 의해 생성된 데이터 등을 저장할 수 있다. 또한, 메모리(802)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비일시적 메모리, 예를 들면 적어도 하나의 자기 디스크 메모리, 플래시 메모리, 또는 기타 비일시적 솔리드 스테이트 메모리를 더 포함할 수도 있다. 일부 실시예에서, 메모리(802)는 선택적으로 프로세서(801)에 대해 원격으로 설치된 메모리를 포함할 수 있고, 이들 원격 메모리는 네트워크를 통해 전자기기에 연결될 수 있다. 이러한 네트워크의 실례는 인터넷, 인트라넷, 근거리 통신망, 이동 통신망, 및 이들의 조합을 포함하지만, 이에 제한되지 않는다.

텍스트 유사도 방법을 구현하는 장치 또는 전자기기는 입력장치(803) 및 출력장치(804)를 더 포함할 수 있다. 프로세서(801), 메모리(802), 입력장치(803), 및 출력장치(804)는 버스 또는 기타 방식에 의해 연결될 수 있으며, 도6에서는 버스를 통해 연결된 것을 예로 한다.

입력장치(803)는 입력된 숫자 또는 문자 정보를 수신할 수 있을 뿐만 아니라, 전자기기의 사용자 설정 및 기능제어에 관련된 키 신호 입력을 생성할 수 있으며, 예를 들어, 터치 스크린, 키패드, 마우스, 트랙패드, 터치패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등과 같은 입력장치일 수 있다. 출력장치(804)는 디스플레이 장치, 보조 조명 장치(예를 들어, LED), 및 촉각 피드백 장치(예를 들어, 진동 모터)등을 포함할 수 있다. 해당 디스플레이 장치는 액정표시장치(LCD), 발광 다이오드(LED) 디스플레이, 및 플라즈마 디스플레이를 포함할 수 있지만, 이에 한정되지 않는다. 일부 실시방식에서, 디스플레이 장치는 터치 스크린일 수 있다.

본 명세서에 기술된 시스템 및 기술의 다양한 실시방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 전용ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 구현될 수 있다. 이들 다양한 실시예는 하나 또는 복수의 컴퓨터 프로그램에서 구현하는 것을 포함할 수 있으며, 해당 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템에서 실행 및/또는 해석될 수 있고, 해당 프로그래머블 프로세서는 전용 또는 일반 프로그래머블 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치로부터 데이터 및 명령을 수신하고, 데이터 및 명령을 해당 저장 시스템, 해당 적어도 하나의 입력장치, 및 해당 적어도 하나의 출력장치에 전송할 수 있다.

이들 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드로 또한 지칭됨)은 프로그래머블 프로세서의 기계 명령을 포함하며, 고급 과정 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계 언어로 구현될 수 있다. 본 명세서에서 사용되는 바와 같이, "기계 판독가능 매체”및 "컴퓨터 판독가능 매체”라는 용어는 기계 명령 및/또는 데이터를 프로그래머블 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 디바이스, 및/또는 장치(예를 들어, 자기 디스크, 시디롬, 메모리, 프로그래머블 논리 소자(PLD))를 지칭하며, 기계 판독 가능 신호인 기계 명령을 수신하기 위한 기계 판독가능 매체를 포함한다. "기계 판독 가능 신호”라는 용어는 기계 명령 및/또는 데이터를 프로그래머블 프로세서에 제공하는데 사용되는 임의의 신호를 지칭한다.

사용자와의 상호작용을 제공하기 위해, 본 명세서에서 설명된 시스템 및 기술를 컴퓨터에서 구현할 수 있으며, 해당 컴퓨터는 사용자에게 정보를 디스플레이하기 위한 디스플레이 장치(예를 들어, 음극선관(CRT) 또는 액정표시장치(LCD) 모니터), 및 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼)을 구비하고, 사용자는 해당 키보드 및 해당 포인팅 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 기타 종류의 장치도 사용자와의 상호작용을 제공하기 위해 사용될 수 있으며, 예를 들어, 사용자에게 제공되는 피드백은 모든 형태의 감각 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백) 일 수 있고, 모든 형태(소리 입력, 음성 입력, 또는 촉각 입력을 포함함)로 사용자로부터의 입력을 수신할 수 있다.

본 명세서에서 설명된 시스템 및 기술은 백그라운드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 컴포넌트를 포함하는 컴퓨팅 시스템 (예를 들어, 애플리케이션 서버), 또는 프론트 엔드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 갖는 사용자 컴퓨터이고, 사용자는 해당 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 본 명세서에 기술된 시스템 및 기술의 실시예와 상호작용할 수 있다), 또는 이러한 백그라운드 컴포넌트, 미들웨어 컴포넌트 또는 프론트 엔드 컴포넌트의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트는 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)에 의해 상호 연결될 수 있다. 통신 네트워크의 예는 근거리 통신망(LAN), 광역통신망(WAN) 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 떨어져 있으며, 통상적으로 통신 네트워크를 통해 상호작용한다. 클라이언트와 서버 사이의 관계는 대응하는 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램을 통해 생성된다.

본 출원의 실시예의 기술방안에 따르면, 상기 제 1 문자열과 상기 제 2 문자열의 유사도를 다차원으로부터 확정할 수 있으며, 즉 제 1 문자열 및 제 2 문자열의 문자, 음소 구성 및 폰트의 다차원으로부터 제 1 문자열과 제 2 문자열의 유사도를 확정함으로써, 제 1 문자열과 제 2 문자열의 유사도를 확정하는 정확도를 크게 향상시킬 수 있다.

전술한 다양한 형태의 흐름을 사용하여, 단계를 재배열, 부가 또는 삭제할 수 있다는 것을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 병렬로 또는 순서로 또는 상이한 순서로 수행될 수 있으며, 본 출원에 개시된 기술방안의 원하는 결과를 구현할 수 있는 한, 본 명세서에서는 제한하지 않는다.

상기 구체적인 실시형태는 본 출원의 보호범위에 대한 한정이 아니다. 해당 분야 기술자들은 설계 요구와 기타 요소에 근거하여 여러 가지 수정, 조합, 하위 조합과 대체를 진행할 수 있다는 것을 명백하여야 한다. 본 출원의 정신과 원칙 내에서 진행한 그 어떤 수정, 균등한 대체와 개량은 모두 본 출원의 보호범위 내에 포함된다.

Claims

유사도 처리 방법에 있어서,
제1문자열 및 제2문자열을 획득하는 단계;
상기 제1문자열과 상기 제2문자열 간의 음소 구성 유사도 및 폰트 유사도를 확정하는 단계; 및
상기 음소 구성 유사도 및 상기 폰트 유사도에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 종합적인 유사도를 확정하는 단계; 를 포함하는 것을 특징으로 하는 유사도 처리 방법.
제1항에 있어서,
상기 제 1 문자열과 상기 제 2 문자열 간의 음소 구성 유사도를 확정하는 단계는,
상기 제1문자열을 제1음소 구성 코드 시퀀스로 변환하고, 상기 제2문자열을 제2음소 구성 코드 시퀀스로 변환하는 단계; 및
상기 제1음소 구성 코드 시퀀스 및 상기 제2음소 구성 코드 시퀀스에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 음소 구성 유사도를 계산하여 획득하는 단계; 를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 제1문자열과 상기 제2문자열 간의 폰트 유사도를 확정하는 단계는,
상기 제1문자열을 제1폰트 코드 시퀀스로 변환하고, 상기 제2문자열을 제2폰트 코드 시퀀스로 변환하는 단계; 및
상기 제1폰트 코드 시퀀스 및 상기 제2폰트 코드 시퀀스에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 상기 폰트 유사도를 계산하여 획득하는 단계; 를 포함하는 것을 특징으로 하는 방법.
제2항에 있어서,
상기 제 1 문자열은 N개의 한자를 포함하고; 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이고;
상기 제1문자열을 제1음소 구성 코드 시퀀스로 변환하고, 상기 제2문자열을 제2음소 구성 코드 시퀀스로 변환하는 단계는,
상기 제1문자열 내의 N개의 한자에 대응하는 N그룹의 병음 및 음조를 확정하고, 상기 N그룹의 병음 및 음조에 기반하여 제1음소 구성 코드 시퀀스를 확정하는 단계; 및 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 병음 및 음조를 확정하고, 상기 M그룹의 병음 및 음조에 기반하여 제2음소 구성 코드 시퀀스를 확정하는 단계; 를 포함하는 것을 특징으로 하는 방법.
제4항에 있어서,
상기 제 1 문자열은 L개의 문자를 더 포함하며; 상기 제 2문자열은 K개의 문자를 더 포함하며; 여기서 L 및 K는 정수이며; 문자는 자모, 숫자, 기호 중 적어도 하나이고,
상기 방법은, N개의 한자에 대응하는 N그룹의 병음과 음조, 및 L 개의 문자에 기반하여 제1음소 구성 코드 시퀀스를 확정하는 단계; 및 M개의 한자에 대응하는 M그룹의 병음 및 음조, 및 K개의 문자에 기반하여 제2음소 구성 코드 시퀀스를 확정하는 단계; 를 더 포함하는 것을 특징으로 하는 방법.
제3항에 있어서,
상기 제 1 문자열은 N개의 한자를 포함하고; 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이고;
상기 제1문자열을 제1폰트 코드 시퀀스로 변환하고, 상기 제2문자열을 제2폰트 코드 시퀀스로 변환하는 단계는,
상기 제1문자열 내의 N개의 한자에 대응하는 N그룹의 폰트 코드를 확정하고, 상기 N그룹의 폰트 코드에 기반하여 제1폰트 코드 시퀀스를 확정하는 단계; 및 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 폰트 코드를 확정하고, 상기 M그룹의 폰트 코드에 기반하여 제2폰트 코드 시퀀스를 확정하는 단계; 를 포함하는 것을 특징으로 하는 방법.
제6항에 있어서,
상기 제 1 문자열은 L개의 문자를 더 포함하며; 제 2문자열은 K개의 문자를 더 포함하며; 여기서 L 및 K는 정수이며; 문자는 자모, 숫자, 기호 중 적어도 하나이고;
상기 방법은, 상기 제 1문자열 내의 N개의 한자에 대응하는 N그룹의 폰트　코드, 및 L 개의 문자에 기반하여 제1폰트　코드 시퀀스를 확정하는 단계; 및 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 폰트　코드, 및 K개의 문자에 기반하여 제2폰트　코드 시퀀스를 확정하는 단계; 를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 음소 구성 유사도 및 상기 폰트 유사도에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 종합적인 유사도를 확정하는 단계는,
상기 음소 구성 유사도 및 상기 폰트　유사도와 각자의 가중치 계수의 곱의 합에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 종합적인 유사도를 확정하는 단계를 포함하는 것을 특징으로 하는 방법.
유사도 처리 장치에 있어서,
제1문자열 및 제2문자열을 획득하는 획득모듈;
상기 제1문자열과 상기 제2문자열 간의 음소 구성 유사도 및 폰트 유사도를 확정하는 제1확정모듈; 및
상기 음소 구성 유사도 및 상기 폰트 유사도에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 종합적인 유사도를 확정하는 제2확정모듈; 을 포함하는 것을 특징으로 하는 유사도 처리 장치.
제9항에 있어서,
상기 제1확정모듈은 상기 제1문자열을 제1음소 구성 코드 시퀀스로 변환하고, 상기 제2문자열을 제2음소 구성 코드 시퀀스로 변환하며; 상기 제1음소 구성 코드 시퀀스 및 상기 제2음소 구성 코드 시퀀스에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 간의 음소 구성 유사도를 계산하여 획득하는데 이용되는 것을 특징으로 하는 장치.
제9항에 있어서,
상기 제1확정모듈은 상기 제1문자열을 제1폰트 코드 시퀀스로 변환하고, 상기 제2문자열을 제2폰트 코드 시퀀스로 변환하며; 상기 제1폰트 코드 시퀀스 및 상기 제2폰트 코드 시퀀스에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 간의 폰트 유사도를 계산하여 획득하는데 이용되는 것을 특징으로 하는 장치.
제10항에 있어서,
상기 제 1 문자열은 N개의 한자를 포함하고; 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이고;
상기 제1확정모듈은 상기 제1문자열 내의 N개의 한자에 대응하는 N그룹의 병음 및 음조를 확정하고, 상기 N그룹의 병음 및 음조에 기반하여 제1음소 구성 코드 시퀀스를 확정하며; 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 병음 및 음조를 확정하고, 상기 M그룹의 병음 및 음조에 기반하여 제2음소 구성 코드 시퀀스를 확정하는데 이용되는 것을 특징으로 하는 장치.
제12항에 있어서,
상기 제 1 문자열은 L개의 문자를 더 포함하며; 제 2문자열은 K개의 문자를 더 포함하며; 여기서 L 및 K는 정수이며; 문자는 자모, 숫자, 기호 중 적어도 하나이고;
상기 제1확정모듈은 N개의 한자에 대응하는 N그룹의 병음과 음조, 및 L 개의 문자에 기반하여 제1음소 구성 코드 시퀀스를 확정하며; M개의 한자에 대응하는 M그룹의 병음과 음조, 및 K개의 문자에 기반하여 제2음소 구성 코드 시퀀스를 확정하는데 이용되는 것을 특징으로 하는 장치.
제11항에 있어서,
상기 제 1 문자열은 N개의 한자를 포함하고; 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이고;
상기 제1확정모듈은 상기 제1문자열 내의 N개의 한자에 대응하는 N그룹의 폰트 코드를 확정하고, 상기 N그룹의 폰트 코드에 기반하여 제1폰트 코드 시퀀스를 확정하며; 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 폰트 코드를 확정하고, 상기 M그룹의 폰트 코드에 기반하여 제2폰트 코드 시퀀스를 확정하는데 이용되는 것을 특징으로 하는 장치.
제14항에 있어서,
상기 제 1 문자열은 L개의 문자를 더 포함하며; 제 2문자열은 K개의 문자를 더 포함하며; 여기서 L 및 K는 정수이며; 문자는 자모, 숫자, 기호 중 적어도 하나이고;
상기 제1확정모듈은 상기 제 1문자열 내의 N개의 한자에 대응하는 N그룹의 폰트　코드, 및 L 개의 문자에 기반하여 제1폰트　코드 시퀀스를 확정하며; 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 폰트　코드, 및 K개의 문자에 기반하여 제2폰트　코드 시퀀스를 확정하는데 이용되는 것을 특징으로 하는 장치.
제9항에 있어서,
상기 제2확정모듈은 상기 문자 유사도, 상기 음소 구성 유사도 및 상기 폰트　유사도와 각자의 가중치 계수의 곱의 합에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 상기 종합적인 유사도를 확정하는데 이용되는 것을 특징으로 하는 장치.
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결된 메모리를 포함하는 전자기기에 있어서,
상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령을 저장하며, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제8항 중 어느 한 항에 따른 방법을 수행하도록 하는 것을 특징으로 하는 전자기기.
컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체에 있어서,
상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제8항 중 어느 한 항에 따른 방법을 수행하게 하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램 중의 명령이 프로세서에 의해 실행될 경우, 제1항 내지 제8항 중 어느 한 항의 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.