KR20210040318A - 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램 - Google Patents

유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20210040318A
KR20210040318A KR1020210038095A KR20210038095A KR20210040318A KR 20210040318 A KR20210040318 A KR 20210040318A KR 1020210038095 A KR1020210038095 A KR 1020210038095A KR 20210038095 A KR20210038095 A KR 20210038095A KR 20210040318 A KR20210040318 A KR 20210040318A
Authority
KR
South Korea
Prior art keywords
character string
similarity
font
code sequence
phoneme
Prior art date
Application number
KR1020210038095A
Other languages
English (en)
Other versions
KR102606514B1 (ko
Inventor
빈 스
Original Assignee
바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 filed Critical 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Publication of KR20210040318A publication Critical patent/KR20210040318A/ko
Application granted granted Critical
Publication of KR102606514B1 publication Critical patent/KR102606514B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06K9/6215
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • G06V30/1983Syntactic or structural pattern recognition, e.g. symbolic string recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

본 출원은 유사도 처리방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램을 개시하고, 정보 처리, 자연어 처리 분야에 관한 것이다. 구체적인 구현방안은, 제1문자열 및 제2문자열을 획득하며; 상기 제1문자열과 상기 제2문자열 간의 음소 구성 유사도 및 폰트 유사도를 확정하며; 상기 음소 구성 유사도 및 상기 폰트 유사도에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 종합적인 유사도를 확정하는 것이다. 본 출원의 실시예에서 설명된 방법을 통하여, 상기 제 1 문자열과 상기 제 2 문자열의 유사도를 다차원으로부터 획득함으로써, 상기 유사도의 정확도를 향상시킬 수 있다.

Description

유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램{SIMILARITY PROCESSING METHOD, APPARATUS, SERVER AND STORAGE MEDIUM}
본 출원은 컴퓨터 기술 분야에 관한 것이며, 본 출원은 데이터 처리, 자연어 처리 분야에 관한 것이다.
관련 기술분야에서, 편집 거리 알고리즘에 기반하여 문자열 간의 유사도를 확정할 수 있고, 해당 편집 거리 알고리즘은 문자열에 대해 제안된 거리 매트릭 방법이다. 상용의 편집 거리 알고리즘은 하나의 문자열에서 다른 문자열로 변환하는데 필요한 최소 편집 횟수를 나타내고; 즉 하나의 문자열에 하나의 문자를 삽입하고, 하나의 문자열에서 하나의 문자를 삭제하거나, 또는 문자열에서의 하나의 문자를 다른 문자로 대체한다. 그러나, 문자열에 한자가 존재하는 경우, 중국어 또는 한자로 구성된 문장 간의 유사도를 어떻게 정확하게 확정할 것인가하는 것은 해결해야 할 문제가 되였다.
본 출원은 상기 문제들 중 하나 또는 복수의 문제를 해결하기 위해, 유사도 처리 방법, 장치, 및 저장 매체를 제공한다.
본 출원의 일측면에 따르면, 유사도 처리 방법을 제공하고, 해당 방법은,
제1문자열 및 제2문자열을 획득하는 단계;
상기 제1문자열과 상기 제2문자열 간의 음소 구성 유사도 및 폰트 유사도를 확정하는 단계; 및
상기 음소 구성 유사도 및 상기 폰트 유사도에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 종합적인 유사도를 확정하는 단계; 를 포함한다.
본 출원의 다른 측면에 따르면, 유사도 처리 장치를 제공하고, 해당 장치는,
제1문자열 및 제2문자열을 획득하기 위한 획득모듈;
상기 제1문자열과 상기 제2문자열 간의 음소 구성 유사도 및 폰트 유사도를 확정하기 위한 제1확정모듈; 및
상기 음소 구성 유사도 및 상기 폰트 유사도에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 종합적인 유사도를 확정하기 위한 제2확정모듈; 을 포함한다.
본 출원의 또 다른 측면에 따르면, 전자기기를 제공하고, 해당 전자기기는,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서에 통신 가능하게 연결되는 메모리를 포함하고, 여기서,
상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령을 저장하며, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 전술한 방법을 수행하도록 한다.
본 출원의 또 다른 측면에 따르면, 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독가능 저장 매체를 제공하고, 여기서, 해당 컴퓨터 명령은 해당 컴퓨터로 하여금 전술한 방법을 수행하도록 한다.
상기 선택적인 방식의 다른 효과는 구체적인 실시예를 결부하여 이하에서 설명될 것이다.
상기 방안을 통하여, 상기 제 1 문자열과 상기 제 2 문자열의 유사도를 다차원으로 확정할 수 있으며, 즉 제 1 문자열 및 제 2 문자열의 음소 구성 및 폰트의다차원으로부터 제 1 문자열과 제 2 문자열의 유사도를 확정함으로써, 제 1 문자열과 제 2 문자열의 유사도를 확정하는 정확도를 크게 향상시킬 수 있다.
여기서 설명된 내용은 본 출원의 실시예의 관건적이거나 중요한 특징을 표기하기 위한 것이 아니며, 본 출원의 범위를 제한하기 위한 것도 아님을 이해하여야 한다. 본 출원의 기타 특징은 다음의 명세서를 통하여 더 용이하게 이해할 수 있을 것이다.
도면은 본 기술방안을 더욱 잘 이해할수 있기 위한 것이지, 본 출원에 대한 한정이 아니다.
도1은 본 출원의 실시예에 따른 유사도 처리 방법의 흐름도1이다.
도2는 본 출원의 실시예에 따른 음소 구성 유사도 확정 흐름의 개략도이다.
도3은 본 출원의 실시예에 따른 폰트 유사도 확정 흐름의 개략도이다.
도4는 본 출원의 실시예에 따른 유사도 처리 방법의 흐름도2이다.
도5는 본 출원의 실시예에 따른 유사도 처리 장치의 개략적인 구조도이다.
도6은 본 출원의 실시예에 따른 유사도 처리 장치를 구현하기 위한 전자기기의 블록도이다.
이하 도면과 결부하여 본 출원의 예시적인 실시예를 설명하되, 여기서 본 출원의 실시예를 포함하는 여러 가지 세부절차는 이해를 돕기 위한 것으로서, 이들은 응당 예시적인 것으로 간주해야 한다. 따라서 해당 분야 기술자들은 여기서 설명한 실시예에 대하여 여러 가지 변화와 수정을 진행할 수 있고, 이는 본 출원의 범위와 정신을 벗어나지 않는다는 것을 인식하여야 한다. 마찬가지로, 명확함과 간결함을 위하여, 아래의 설명에서는 공지 기능과 구조에 대한 설명을 생략한다.
본 출원은 유사도 처리 방법을 제공하고, 도1에 도시된 바와 같이, 해당 방법은,
제1문자열 및 제2문자열을 획득하는 단계(S101);
상기 제1문자열과 상기 제2문자열 간의 음소 구성 유사도 및 폰트 유사도를 확정하는 단계(S102); 및
상기 음소 구성 유사도 및 상기 폰트 유사도에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 종합적인 유사도를 확정하는 단계(S103); 를 포함한다.
본 출원의 실시예에서 제공하는 유사도 처리 방법은 전자기기에 적용된다. 여기서, 상기 전자기기는 이동 단말기 또는 비이동 단말기 또는 서버를 포함하고, 예를 들어, 상기 전자기기는 휴대폰, 컴퓨터 또는 서버 등일 수 있다.
단계(S101)에서, 제1문자열 및 제2문자열은 임의의 유사도 정경에서의 텍스트 정보일 수 있다. 예를 들어, 해당 유사도 정경은 제목이 유사한 문장을 검색하는 것일 수 있고; 또 예를 들어, 해당 유사도 정경은 다양한 소셜 플랫폼에서의 유사한 포커스 뉴스일 수 있으며; 또 예를 들면, 해당 유사도 정경은 쇼핑 플랫폼 내의 상품 분류일 수 있으며; 다른 예를 들면, 해당 유사도 정경은 라이브러리 내의 책에 대한 분류 등일 수 있다.
상기 단계(S101)에서, 상기 제1문자열 및 제2문자열에 포함된 내용은 다음과 같은 몇가지 경우일 수 있다.
하나의 경우에서, 상기 제 1 문자열은 N개의 한자를 포함하고; 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이다. 그 중, N및 M은 같거나 같지 않을 수 있다.
또 하나의 경우에서, 상기 제 1 문자열은 N개의 한자를 포함하고; 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이다. 또한, 상기 제 1 문자열은 L개의 문자를 더 포함하며; 상기 제 2문자열은 K개의 문자를 더 포함하며; 그 중, L 및 K는 정수이며; 문자는 자모, 숫자, 기호 중 적어도 하나이다.
그 중, L 및 K는 같거나 같지 않을 수 있다. 한편, L 및 K 중 하나는 0일 수 있다.
이런 경우에는, 문자열 내의 한자 및 문자는 "
Figure pat00001
123 및 大象ab"와 같이 교차하여 존재할 수 있다.
본 출원의 실시예에서, 상기 제 1 문자열과 상기 제 2 문자열의 유사도를 다차원으로부터 확정할 수 있으며, 즉 제 1 문자열 및 제 2 문자열의 문자, 음소 구성 및 폰트 등 다차원으로부터 제 1 문자열과 제 2 문자열의 유사도를 확정하며; 따라서 제 1 문자열과 제 2 문자열의 유사도를 확정하는 정확도를 크게 향상시킬 수 있다.
한편, 상기 제 1 문자열과 상기 제 2 문자열이 한자를 포함하는 한자 텍스트라면, 한자를 포함하는 텍스트의 유사도에 대한 확정을 실현할 수 있으며, 따라서 더욱 포괄적인 문자에 기반하여 유사도를 확정할 수 있음으로써, 텍스트 유사도 계산의 정확도를 더욱 향상시킬 수 있다.
전술한 단계(S102)에서, 상기 제1문자열 및 상기 제2문자열에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 간의 문자 유사도를 확정하는 단계를 더 포함할 수 있다. 구체적으로,
미리 설정된 편집 거리 규칙에 따라, 상기 제 1 문자열과 상기 제 2 문자열의 각 대응 위치에서의 문자 사이의 제1편집 거리를 확정하며; 상기 제1편집 거리에 기반하여, 상기 문자 유사도를 확정하는 것일 수 있다.
여기서, 상기 편집 거리 규칙은 문자열 간의 편집 조작 횟수를 반영할 수 있으며; 그 중, 해당 편집 조작 횟수는 삽입 조작, 삭제 조작 또는 대체 조작을 포함한다. 여기서, 상기 편집 거리 규칙은 편집 거리 공식일 수 있으며, 또는 편집 거리 모델 등일 수 있다.
여기서, 상기 제1문자열과 상기 제2문자열의 각 대응 위치에서의 문자는, 문자가 존재하는 상기 제1문자열과 상기 제2문자열에서의 문자의 비트 또는 번호가 동일한 것을 의미한다. 예를 들어, 제1문자열은 "
Figure pat00002
xgh"이면, 제2문자열은 "水果kij"이다.
제1문자열이 a이고, 제2문자열이 b이면, 상기 제1문자열 및 상기 제2문자열의 편집 거리 공식은 다음과 같다.
Figure pat00003
;
Figure pat00004
;
그 중, 상기 i는 제1문자열a 내의 i번째 문자를 나타내고, 상기 j개 문자는 제2문자열b 내의 j번째 문자를 나타내며; 상기 min()는 최소값 함수를 나타내며; 상기
Figure pat00005
는 상기 제1문자열의 길이와 상기 제2문자열의 길이가 같다는 것을 나타내며; 상기
Figure pat00006
는 상기 제1문자열의 길이와 상기 제2문자열의 길이가 같지 않는다는 것을 나타낸다.
여기서, 상기 편집 거리 공식은 2개의 문자열 사이의 최소 편집 조작 횟수를 나타낸다.
상기 제1문자열 및 상기 제2문자열의 상기 제1편집 거리는,
Figure pat00007
이고,
그 중, 상기
Figure pat00008
는 상기 제1문자열의 길이이고, 상기
Figure pat00009
는 상기 제2문자열의 길이이다.
상기 제1편집 거리
Figure pat00010
에 기반하여 획득된 상기 문자 유사도는,
Figure pat00011
이다.
그 중, 상기 max()는 최대값 함수를 나타낸다.
여기서, 상기 제 1 문자열과 상기 제 2 문자열의 각 대응 위치에서의 문자 사이의 제1편집 거리는 다음과 같다.
Figure pat00012
;
Figure pat00013
;
Figure pat00014
;
Figure pat00015
;
그 중, 상기 d(i-1, j-1)은 a(0,i-1)에서 b(0,j-1)까지 완료하기 위한 편집 횟수를 나타낸다. 예를 들어, a(0,i-1)=b(0,j-1)일 때, 상기 d(i,j)는 a(i)를 b(j)로 대체하기 위한 편집을 나타내고; 여기서, d(i-1,j-1)은 b[i]를 b[j]로 대체하기 위한 대체 조작을 한번 수행하는 것에 대응한다.
그 중, 상기 d(i-1, j)는 a(0, i-1)에서b(0, j)까지 완료하기 위한 편집 횟수를 나타낸다. 예를 들어, a(0,i-1)=b(0,j)일 때, 상기 d(i,j)는 a(i)를 삭제하기 위한 편집을 나타내고; 여기서, d(i-1,j)는 a(i)를 삭제하기 위한 삭제 조작을 한번 수행하는 것에 대응한다.
그 중, 상기 d (i, j-1)는 a(0, i)에서b(0, j-1)까지 완료하기 위한 편집 횟수를 나타낸다. 예를 들어, a(0,i)=b(0,j-1)일 때, 상기 (i,j)는 b(j)를 a(i)의 위치에 삽입하면 편집을 완료할 수 있다는 것을 나타내고; 여기서, d(i,j-1)은 b(j)를 a(i)에 삽입하기 위한 삽입 조작을 한번 수행하는 것에 대응한다.
하나의 예시에서, 제1문자열과 제2문자열의 제1편집 거리D(a,b)는 제1문자열과 제2문자열의 각 대응 위치에서의 문자 d(i,j)의 합이다.
여기서, 상기 제1편집 거리와 상기 문자 유사도는 역상관 과계를 나타낸다. 상기 제1편집 거리가 작을수록, 상기 문자 유사도는 더 크며, 상기 제1문자열과 상기 제2문자열의 유사도는 더 높으며; 상기 제1편집 거리가 클수록, 상기 문자 유사도는 더 작으며, 상기 제1문자열과 상기 제2문자열의 유사도는 더 낮다.
본 실시예에서, 문자를 포함하는 제 1 문자열과 제 2 문자열에 대해 문자 유사도를 확정할 수 있다. 구체적으로, 미리 설정된 거리 편집 공식에 기반하여 문자의 제1편집 거리를 계산하고, 해당 제1편집 거리에 기반하며 문자 유사도를 확정할 수 있다.
물론, 문자 유사도를 계산하기 위한 거리 편집 공식은 2개의 문자열 간의 편집 조작 횟수를 반영할 수 있는 임의의 공식일 수 있으며, 여기서 이에 대해 한정하지 않는다.
도2에 도시된 바와 같이, 전술한 단계(S102)에서, 상기 제 1 문자열과 상기 제 2 문자열 간의 음소 구성 유사도를 확정하는 것은,
상기 제1문자열을 제1음소 구성 코드 시퀀스로 변환하고, 상기 제2문자열을 제2음소 구성 코드 시퀀스로 변환하는 단계(S201); 및
제1음소 구성 코드 시퀀스 및 상기 제2음소 구성 코드 시퀀스에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 음소 구성 유사도를 계산하는 단계(S202); 를 포함한다.
전술한 단계(S101)에 대한 설명에서, 문자열은 2개의 경우가 있을 수 있다고 이미 지적하였으며, 이하, 단계(S101)의 2개의 경우를 각각 결합하여, 2개의 예시를 통해 단계(S201)- 단계(S202)에 대해 설명하기로 한다.
제1예시에서, 상기 제 1 문자열은 N개의 한자를 포함하고, 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이다.
단계(S201)에서, 상기 제1문자열을 제1음소 구성 코드 시퀀스로 변환하고, 상기 제2문자열을 제2음소 구성 코드 시퀀스로 변환하는 것은,
상기 제1문자열 내의 N개의 한자에 대응하는 N그룹의 병음 및 음조를 확정하고, 상기 N그룹의 병음 및 음조에 기반하여 제1음소 구성 코드 시퀀스를 확정하는 것; 및 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 병음 및 음조를 확정하고, 상기 M그룹의 병음 및 음조에 기반하여 제2음소 구성 코드 시퀀스를 확정하는 것; 을 포함한다.
예를 들어, 제1문자열은 "
Figure pat00016
"이고, 이를 제1음소 구성 코드 시퀀스로 변환하면 “ping2guo3"가 될 수 있으며; 제2문자열은 "夏天"이고, 이를 제2음소 구성 코드 시퀀스로 변환하면 “xia4tian1"가 될 수 있으며; 여기서, 제1음소 구성 코드 및 제 2음소 구성 코드는 모두 병음 및 음조의 조합이고; 그 중, “1"、"2"、"3" 및 "4"는 각각 제1음조, 제2 음조, 제3음조 및 제4음조에 대응하는 문자열이다.
또는, 상기 제1음소 구성 코드 시퀀스는 병음만을 포함할 수 있고, 상기 제 2음소 구성 코드 시퀀스는 병음만을 포함할 수 있다. 예를 들어, 제1문자열은 "
Figure pat00017
"이고, 이를 제1음소 구성 코드 시퀀스로 변환하면 “pingguo"가 되며; 제2문자열은 "夏天"이고, 이를 제2음소 구성 코드 시퀀스로 변환하면 “xiatian"가 된다.
상기 단계(S202)는 미리 설정된 편집 거리 규칙에 따라, 상기 제1음소 구성 코드 시퀀스 및 제2상기 음소 구성 코드 시퀀스의 각 대응위치에서의 음소 구성 코드 간의 제2편집 거리를 확정하는 것; 및 상기 제2편집 거리에 기반하여, 상기 음소 구성 유사도를 확정하는 것; 을 포함한다.
여기서, 편집 거리 규칙은 전술한 문자 유사도의 계산 방식과 비슷하고, 그에 대응하는 제2편집 거리 공식은
Figure pat00018
일 수 있다.
여기서, 제2편집 거리에 기반하여, 상기 음소 구성 유사도를 확정하는 것은 다음과 같다.
Figure pat00019
여기서, Pa는 제1음소 구성 코드 시퀀스이고, Pb는 제2음소 구성 코드 시퀀스이고, Sp는 음소 구성 유사도를 나타내며, a 및 b는 각각 제1문자열 및 제2 문자열을 나타낸다. 공식 중 기타 산식의 정의는 전술한 바와 같고, 여기서 설명을 생략한다.
한편, 상기 제2편집 거리와 상기 음소 구성 유사도는 역상관 과계를 나타낸다. 상기 제2편집 거리가 작을수록, 상기 음소 구성 유사도는 더 크며, 상기 제1문자열과 상기 제2문자열의 유사도는 더 높으며; 상기 제2편집 거리가 클수록, 상기 음소 구성 유사도는 더 작으며, 상기 제1문자열과 상기 제2문자열의 유사도는 더 낮다.
본 실시예에서, 제1문자열 및 제2문자열 내의 한자를 음소 구성의 각도로부터 분석할 수 있으며, 따라서 제1문자열과 제2문자열의 유사도를 더 포괄적으로 분석할 수 있으며; 또한, 음소 구성 각도로부터 분석할 때, 병음에 음조의 요소가 또 추가되어, 발음 간의 유사도를 고려할 수 있다. 따라서, 본 실시예는 제 1 문자열 및 제 2 문자열 간의 유사도를 더 정확하고 포괄적으로 반영할 수 있고, 텍스트 간의 유사도 확정의 정확도를 더욱 향상시킬 수 있다.
물론, 음소 구성 유사도를 계산하기 위한 거리 편집 공식은 2개의 음소 구성 코드 간의 편집 조작 횟수를 반영할 수 있는 임의의 공식일 수 있으며, 여기서 이에 대해 한정하지 않는다.
제2예시에서, 상기 제 1 문자열은 N개의 한자를 포함하고; 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이며; 또한, 상기 제 1 문자열은 L개의 문자를 더 포함하며; 상기 제 2문자열은 K개의 문자를 더 포함하며; 그 중, L 및 K는 정수이며; 문자는 자모, 숫자, 기호 중 적어도 하나이다.
상기 단계(S201)에서, 상기 방법은 N개의 한자에 대응하는 N그룹의 병음과 음조, 및 L 개의 문자에 기반하여 제1음소 구성 코드 시퀀스를 확정하는 것; 및 M개의 한자에 대응하는 M그룹의 병음 및 음조, 및 K개의 문자에 기반하여 제2음소 구성 코드 시퀀스를 확정하는 것; 을 더 포함한다.
즉, 제1예시에서 문자열 내의 한자에 대응하는 병음 및 음조를 획득하는 것에 기반하여, 한자에 대응하는 병음 및 음조와 문자열 내의 문자를 병합하여 음소 구성 코드 시퀀스를 획득한다.
상기 제1문자열과 상기 제2문자열이 모두 한자 및 문자를 포함하면, 상기 제1문자열 한자를 상기 제1음소 구성 코드 시퀀스로 변환하고, 및 상기 제2문자열을 제2음소 구성 코드 시퀀스로 변환할 때, 상기 제1문자열 내의 N그룹의 병음과 음조, 및 L 개의 문자를 상기 제1음소 구성 코드 시퀀스에 병합하고, 상기 제2문자열 내의 M그룹의 병음 및 음조, 및 K 개의 문자를 상기 제2음소 구성 코드 시퀀스에 병합할 수 있다.
예를 들어, 제1문자열이 “app相似"이고, 제2문자열이 “apple相思"이면, 제1문자열이 변환된 제1음소 구성 코드는 “appxiang1si4"이고, 그 중, 제1문자열 내의 문자열“app"은 제1문자열 내의 한자가 변환된 음소 구성 코드“xiang1si4"와 병합되며; 제2문자열이 변환된 제2음소 구성 코드는 “applexiang1si1"이고, 그 중, 제2문자열 내의 문자열“apple"은 제2문자열 내의 한자가 변환된 음소 구성 코드“xiang1si1"와 병합된다.
본 예시에서의 단계(S202)의 처리는 전술한 제1예시와 같아, 설명을 생략한다.
따라서, 본 실시예에서, 먼저 텍스트 내의 문자열과, 한자가 변환된 음소 구성 코드를 병합한 후, 텍스트 간의 음소 구성 유사도 및 폰트 유사도만 획득하여, 텍스트 간의 유사도를 확정하는 정확도를 향상시키는 전제하에, 상대적으로 적은 차원을 이용하여 유사도를 획득하고, 계산의 복잡도를 감소시킬 수 있다.
도3에 도시된 바와 같이, 전술한 단계(102)에서, 상기 제1문자열과 상기 제2문자열 간의 폰트 유사도를 확정하는 것은,
상기 제1문자열을 제1폰트 코드 시퀀스로 변환하고, 상기 제2문자열을 제2폰트 코드 시퀀스로 변환하는 단계(S301); 및
제1폰트 코드 시퀀스 및 상기 제2폰트 코드 시퀀스에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 상기 폰트 유사도를 계산하여 획득하는 단계(S302); 를 포함한다.
마찬가지로, 전술한 단계(S101)에 대한 설명에서, 문자열은 2개의 경우가 있을 수 있다고 이미 지적하였으며, 이하, 단계(S101)의 2개의 경우를 각각 결합하여, 2개의 예시를 통해 단계(S301)- 단계(S302)에 대해 설명하기로 한다.
제3예시에서, 상기 제 1 문자열은 N개의 한자를 포함하고; 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이다.
단계(S301)에서, 상기 제1문자열을 제1폰트 코드 시퀀스로 변환하고, 상기 제2문자열을 제2폰트 코드 시퀀스로 변환하는 것은,
상기 제1문자열 내의 N개의 한자에 대응하는 N그룹의 폰트 코드를 확정하고, 상기 N그룹의 폰트 코드에 기반하여 제1폰트 코드 시퀀스를 확정하는 것; 및 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 폰트 코드를 확정하고, 상기 M그룹의 폰트 코드에 기반하여 제2폰트 코드 시퀀스를 확정하는 것; 을 포함한다.
여기서, 상기 폰트 코드는 오필 코드 또는 필획를 포함한다.
물론, 다른 예시에서, 상기 제1폰트 코드 및 제2폰트 코드는 폰트를 표현하는 기타 임의의 폰트 코드일 수 있고, 예를 들어, 상기 제1폰트 코드 및 제2폰트 코드는 부수와 같은 한자 부품을 포함하는 폰트 코드일 수 있다.
여기서, 폰트 코드와 코드의 매핑 관계를 미리 확립할 수 있다. 예를 들어, 필획와 문자 사이의 매핑 관계를 구축하는데, 가로획에 대응하는 코드는 “a"이고, 세로획에 대응하는 코드는 “b"이다. 다른 예로서, 오필자형과 코드 사이의 매핑 관계를 구축하며; 그 중, 오필자형과 코드 사이의 매핑 관계는 오필자형 엘리먼트 테이블에 기반하여 확정할수 있으며; 또는 오필자형과 코드 사이의 매핑 관계는 사용자에 의해 스스로 정의될 수 있다. 예를 들어, 텍스트 내의 한자“
Figure pat00020
”는 “wqiyvbg"의 폰트 코드로 변환될 수 있다.
상기 단계(S302)는 구체적으로: 미리 설정된 편집 거리 규칙에 따라, 상기 제 1 폰트 코드와 상기 제 2 폰트 코드의 각 대응 위치에서의 폰트 코드 사이의 제3편집 거리를 확정하고; 상기 제3편집 거리에 기반하여, 상기 폰트 유사도를 확정하는 것일 수 있다.
여기서, 편집 거리 규칙은 전술한 규칙과 비슷하고, 그에 대응하는 제3편집 거리 공식은
Figure pat00021
일 수 있다.
여기서, 제3편집 거리에 기반하여, 상기 폰트 유사도를 확정하는 것은 다음과 같다.
Figure pat00022
여기서, 여기서, Wa는 제1폰트 코드 시퀀스이고, Wb는 제2폰트 코드 시퀀스이고, Sw는 음소 구성 유사도를 나타내며, a 및 b는 각각 제1문자열 및 제2 문자열을 나타낸다. 공식 중 기타 산식의 정의는 전술한 바와 같고, 여기서 설명을 생략한다.
여기서, 상기 제3편집 거리와 상기 문자 유사도는 역상관 과계를 나타낸다. 상기 제3편집 거리가 작을수록, 상기 폰트 유사도는 더 크며, 상기 제1문자열과 상기 제2문자열의 유사도는 더 높으며; 상기 제3편집 거리가 클수록, 상기 폰트 유사도는 더 작으며, 상기 제1문자열과 상기 제2문자열의 유사도는 더 낮다.
본 실시예에서, 제1문자열 및 제2문자열 내의 한자를 폰트 각도로부터 분석할 수 있어, 제1문자열과 제2문자열의 유사도를 더 포괄적으로 분석할 수 있으며, 따라서 텍스트 간의 유사도 확정의 정확도를 더욱 향상시킬 수 있다.
물론, 폰트 유사도를 계산하기 위한 거리 편집 공식은 2개의 폰트 코드 간의 편집 조작 횟수를 반영할 수 있는 임의의 공식일 수 있으며, 여기서 이에 대해 한정하지 않는다.
제4예시에서, 상기 제 1 문자열은 N개의 한자를 포함하고; 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이며; 또한, 상기 제 1 문자열은 L개의 문자를 더 포함하며; 상기 제 2문자열은 K개의 문자를 더 포함하며; 그 중, L 및 K는 정수이며; 문자는 자모, 숫자, 기호 중 적어도 하나이다.
단계(S301)에서, 상기 방법은, 상기 제 1문자열 내의 N개의 한자에 대응하는 N그룹의 폰트 코드, 및 L 개의 문자에 기반하여 제1폰트 코드 시퀀스를 확정하는 것; 및 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 폰트 코드와, K개의 문자에 기반하여 제2폰트 코드 시퀀스를 확정하는 것; 을 더 포함한다.
즉, 제3예시에서 문자열 내의 한자에 대응하는 병음 및 음조를 획득하는 기초상에, 한자에 대응하는 병음 및 음조와 문자열 내의 문자를 병합하여 음소 구성 코드 시퀀스를 획득한다.
본 예시에서 단계(S302)의 처리는 전술한 제3예시와 같아, 여기서 설명을 생략한다.
본 예시는 먼저 제 1문자열 및 제 2문자열 내의 한자를 대응하는 폰트 코드로 변환하고, 제 1문자열 및 제 2문자열 내의 L 개의 문자 또는 K개의 문자를 대응하는 폰트 코드에 병합하여, 한자의 유사도를 확정할 때, 기타 문자의 유사도도 고려할 수 있다.
전술한 처리에 기반하여, 본 실시예의 전술한 단계(S103)는, 상기 음소 구성 유사도 및 상기 폰트 유사도와 각자의 가중치 계수의 곱의 합에 기반하여, 상기 종합적인 유사도를 확정하는 것을 포함한다.
더 나아가, 상기 문자 유사도, 상기 음소 구성 유사도 및 상기 폰트 유사도와 각자의 가중치 계수의 곱의 합에 기반하여, 상기 종합적인 유사도를 확정하는 것을 더 포함할 수 있다.
일 예시에서, 상기 방법은,
상기 문자 유사도의 제1가중치 계수를 확정하는 것; 상기 음소 구성 유사도의 제2가중치 계수를 확정하는 것; 및 상기 폰트 유사도의 제3가중치 계수를 확정하는 것; 을 더 포함한다.
따라서, 단계(S103)를 수행할 때,
상기 문자 유사도 및 상기 제1가중치 계수에 기반하여, 제1수치를 확정하는 것; 상기 음소 구성 유사도 및 상기 제2가중치 계수에 기반하여, 제2수치를 확정하는 것; 및 상기 폰트 유사도 및 상기 제3가중치 계수에 기반하여, 제3수치를 확정하는 것; 을 포함한다.
상기 제1수치, 상기 제2수치 및 상기 제3수치에 기반하여, 상기 종합적인 유사도를 확정한다.
상기 제1가중치 계수, 상기 제2가중치 계수 및 상기 제3가중치 계수는 모두 0보다 크거나 같고, 1보다 작거나 같다.
여기서 제1가중치 계수, 제2가중치 계수 및 제3가중치는 실제 상황에 따라 확정될 수 있다. 예를 들어, 하나의 정경에서, 문자 유사도의 중요도가 음소 구성 유사도의 중요도보다 크고, 음소 구성 유사도의 중요도가 폰트 유사도의 중요도보다 큰 경우, 제1가중치 계수가 제2가중치 계수보다 크고, 제2가중치 계수가 제3가중치 계수보다 큰 것을 확정한다. 다른 예로서, 다른 하나의 정경에서, 상기 제2가중치 계수 또는 제3가중치 계수의 값은 0이다.
예를 들어, 상기 제1가중치 계수는 0.5이고, 제2가중치 계수는 0.3이고, 제3가중치 계수는 0.2인 경우, 종합적인 유사도는,
Figure pat00023
일 수 있고, 그 중, 상기 Sc는 문자 유사도를 나타내고, 상기 Sp는 음소 구성 유사도를 나타내고, 상기 Sw는 폰트 유사도를 나타낸다.
본 실시예에서, 문자 유사도, 음소 구성 유사도 및 폰트 유사도의 가중치 계수를 확정하고, 문자 유사도, 음소 구성 유사도 및 폰트 유사도와, 각자의 가중치 계수에 기반하여 함께 종합적인 유사도를 확정할 수 있다. 따라서, 본 실시예는 문자 유사도, 음소 구성 유사도 및 폰트 유사도가 각 정경에서의 중요도의 실제 상황을 고려함으로써, 제 1 문자열과 제 2 문자열 간의 유사도를 확정하는 정확도를 더 향상시킬 수 있다.
이하, 도4를 참조하여 본 실시예에서 제공한 예시에 대해 설명한다.
단계(S601): 제 1문자열a 및 제 2문자열b을 획득하며;
단계(S6021): 오필자형 변환 규칙에 기반하여, 제 1문자열의 제1폰트 코드Wa 및 제2폰트 코드Wb를 획득하며;
단계(S6022): 병음 변환 규칙에 기반하여, 제 1문자열의 제1음소 구성 코드Pa 및 제2음소 구성 코드Pb를 획득하며;
단계(S6023): 제 1문자열의 제1문자열Sa 및 제2문자열의 제2문자열Sb를 획득하며;
단계(S603): Wa및 Wb, Pa 및 Pb, Sa및Sb를 편집 거리 모델에 각각 입력하여 계산하며;
단계(S6041): Wa및 Wb의 폰트 유사도Sw를 출력하며;
단계(S6042): Pa 및 Pb의 음소 구성 유사도Sp를 출력하며;
단계(S6043): Sa및Sb의 문자 유사도Sc를 출력하며;
단계(S605): Sw, Sp 및 Sc에 기반하여, 제 1문자열과 제 2문자열 간의 종합적인 유사도를 획득한다.
본 출원의 실시예는 상기 제 1 문자열과 상기 제 2 문자열의 유사도를 다차원으로부터 확정할 수 있으며, 즉 제 1 문자열 및 제 2 문자열의 문자, 음소 구성 및 폰트의 다차원으로부터 제 1 문자열과 제 2 문자열의 유사도를 확정함으로써, 제 1 문자열과 제 2 문자열의 유사도를 확정하는 정확도를 크게 향상시킬 수 있다.
음소 구성 및 폰트 각도로 한자의 텍스트의 유사도를 확정할 수도 있고, 더 포괄적인 문자에 기반하여 유사도를 확정할 수 있고, 따라서 텍스트 유사도를 계산하는 정확도를 더욱 향상시킬 수 있다.
본 출원은 텍스트 유사도 장치를 제공하고, 도5에 도시된 바와 같이, 해당 장치는,
제1문자열 및 제2문자열을 획득하기 위한 획득모듈(701);
상기 제1문자열과 상기 제2문자열 간의 음소 구성 유사도 및 폰트 유사도를 확정하기 위한 제1확정모듈(702); 및
상기 음소 구성 유사도 및 상기 폰트 유사도에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 종합적인 유사도를 확정하기 위한 제2확정모듈(703); 을 포함한다.
그 중, 상기 제1확정모듈(702)은, 상기 제1문자열을 제1음소 구성 코드 시퀀스로 변환하고, 상기 제2문자열을 제2음소 구성 코드 시퀀스로 변환하며; 상기 제1음소 구성 코드 시퀀스 및 상기 제2음소 구성 코드 시퀀스에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 간의 음소 구성 유사도를 계산하여 획득하는데 이용된다.
상기 제1확정모듈(702)은, 상기 제1문자열을 제1폰트 코드 시퀀스로 변환하고, 상기 제2문자열을 제2폰트 코드 시퀀스로 변환하며; 상기 제1폰트 코드 시퀀스 및 상기 제2폰트 코드 시퀀스에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 간의 폰트 유사도를 계산하여 획득하는데 이용되다.
상기 제 1 문자열은 N개의 한자를 포함하고, 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이다.
상기 제1확정모듈(702)은, 상기 제1문자열 내의 N개의 한자에 대응하는 N그룹의 병음 및 음조를 확정하고, 상기 N그룹의 병음 및 음조에 기반하여 제1음소 구성 코드 시퀀스를 확정하며; 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 병음 및 음조를 확정하고, 상기 M그룹의 병음 및 음조에 기반하여 제2음소 구성 코드 시퀀스를 확정하는데 이용된다.
상기 제1확정모듈(702)은, 상기 제1문자열 내의 N개의 한자에 대응하는 N그룹의 폰트 코드를 확정하고, 상기 N그룹의 폰트 코드에 기반하여 제1폰트 코드 시퀀스를 확정하며; 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 폰트 코드를 확정하고, 상기 M그룹의 폰트 코드에 기반하여 제2폰트 코드 시퀀스를 확정하는데 이용된다.
상기 제 1 문자열은 L개의 문자를 더 포함하며; 제 2문자열은 K개의 문자를 더 포함하며; 그 중, L 및 K는 정수이며; 문자는 자모, 숫자, 기호 중 적어도 하나이다.
상기 제1확정모듈(702)은, N개의 한자에 대응하는 N그룹의 병음과 음조, 및 L 개의 문자에 기반하여 제1음소 구성 코드 시퀀스를 확정하며; M개의 한자에 대응하는 M그룹의 병음과 음조, 및 K개의 문자에 기반하여 제2음소 구성 코드 시퀀스를 확정하는데 이용된다.
상기 제1확정모듈(702)은, 상기 제 1문자열 내의 N개의 한자에 대응하는 N그룹의 폰트 코드, 및 L 개의 문자에 기반하여 제1폰트 코드 시퀀스를 확정하며; 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 폰트 코드, 및 K개의 문자에 기반하여 제2폰트 코드 시퀀스를 확정하는데 이용된다.
상기 제2확정모듈(703)은, 상기 문자 유사도, 상기 음소 구성 유사도 및 상기 폰트 유사도와 각자의 가중치 계수의 곱의 합에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 상기 종합적인 유사도를 확정하는데 이용된다.
따라서, 상술한 방안을 채택하는 것을 통하여, 상기 제 1 문자열과 상기 제 2 문자열의 유사도를 다차원으로부터 확정할 수 있으며, 즉 제 1 문자열 및 제 2 문자열의 문자, 음소 구성 및 폰트의 다차원으로부터 제 1 문자열과 제 2 문자열의 유사도를 확정함으로써, 제 1 문자열과 제 2 문자열의 유사도를 확정하는 정확도를 크게 향상시킬 수 있다.
또한, 상기 제1문자열 및 제2문자열이 한자를 포함하는 한자 텍스트인 경우, 음소 구성 및 폰트의 각도로부터 한자의 텍스트의 유사도를 확정할 수도 있고, 따라서 더 포괄적인 문자에 기반하여 유사도를 확정할 수 있고, 텍스트 유사도를 계산하는 정확도를 더욱 향상시킬 수 있다.
또한, 본 실시예는 문자 유사도, 음소 구성 유사도 및 폰트 유사도가 각 정경에서의 중요도의 실제 상황을 고려함으로써, 제 1 문자열과 제 2 문자열 간의 유사도를 확정하는 정확도를 더 향상시킬 수 있다.
본 출원의 실시예에 따른 각 장치 내의 각 모듈의 기능은 상술한 방법에 대응하는 설명을 참조할 수 있고, 여기서 설명을 생략한다.
본 출원의 실시예에 따르면, 본 출원은 전자기기 및 판독가능 저장 매체를 더 제공한다. 전자기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크스테이션, 개인 정보 단말기, 서버, 블레이드 서버, 메인프레임 컴퓨터, 및 다른 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 가리킨다. 전자기기는 또한 개인 디지털 프로세싱, 셀룰러 폰, 스마트 폰, 웨어러블 장치, 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본 명세서에서 나타낸 부품, 그들의 연결 및 관계, 및 그들의 기능은 단지 예시적인 것이며, 본 명세서에서 설명 및/또는 요구하는 본 출원의 구현을 제한하기 위한 것이 아니다.
상기 텍스트 유사도 장치는 전자기기에 의해 구현될 수 있으며, 도6에 도시된 바와 같이, 전자기기는 하나 또는 복수의 프로세서(801), 메모리(802), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부품을 연결하기 위한 인터페이스를 포함한다. 각 부품은 상이한 버스를 이용하여 상호 연결되고, 공용 메인보드에 장착되거나 또는 필요에 따라 기타 방식으로 장착될 수도 있다. 프로세서는 전자기기 내에서 실행되는 명령을 처리할 수 있고, 이는 메모리에 저장되거나 또는 메모리에 저장되어 외부 입력/출력 장치(예를 들어, 인터페이스에 결합된 디스플레이 장치)에 GUI를 표시하는 그래프 정보의 명령을 포함한다. 기타 실시예에서, 필요에 따라, 복수의 프로세서 및/또는 복수의 버스를 복수의 메모리와 함께 사용할 수 있다. 또한, 복수의 전자기기를 연결할수 있고, 각 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 블레이드 서버 세트, 또는 멀티 프로세서 시스템으로 함)을 제공할수 있다. 도6에서는 하나의 프로세서(801)를 예로 한다.
메모리(802)는 본 출원에서 제공하는 비일시적 컴퓨터 판독가능 저장 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행가능한 명령이 저장되고, 상기 적어도 하나의 프로세서로 하여금 본 출원에서 제공하는 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독가능 저장 매체에는 컴퓨터 명령을 저장하고, 해당 컴퓨터 명령은 컴퓨터로 하여금 본 출원에서 제공하는 방법을 실행하도록 한다.
메모리(802)는 비일시적 컴퓨터 판독가능 저장 매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행가능 프로그램 및 모듈, 예를 들어 본 출원의 실시예에 따른 방법에 대응하는 프로그램 명령/모듈(예를 들어, 도5에 도시된 획득모듈, 제1확정모듈, 제2확정모듈)을 저장하는데 사용될 수 있다. 프로세서(801)는 메모리(802)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 응용 및 데이터 처리를 실행하며, 즉 전술한 방법의 실시예에서 제공하는 방법을 구현한다.
메모리(802)는 프로그램 저장구역 및 데이터 저장구역을 포함할 수 있으며, 프로그램 저장구역은 운영 체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있고, 데이터 저장구역은 전자기기의 사용에 의해 생성된 데이터 등을 저장할 수 있다. 또한, 메모리(802)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비일시적 메모리, 예를 들면 적어도 하나의 자기 디스크 메모리, 플래시 메모리, 또는 기타 비일시적 솔리드 스테이트 메모리를 더 포함할 수도 있다. 일부 실시예에서, 메모리(802)는 선택적으로 프로세서(801)에 대해 원격으로 설치된 메모리를 포함할 수 있고, 이들 원격 메모리는 네트워크를 통해 전자기기에 연결될 수 있다. 이러한 네트워크의 실례는 인터넷, 인트라넷, 근거리 통신망, 이동 통신망, 및 이들의 조합을 포함하지만, 이에 제한되지 않는다.
텍스트 유사도 방법을 구현하는 장치 또는 전자기기는 입력장치(803) 및 출력장치(804)를 더 포함할 수 있다. 프로세서(801), 메모리(802), 입력장치(803), 및 출력장치(804)는 버스 또는 기타 방식에 의해 연결될 수 있으며, 도6에서는 버스를 통해 연결된 것을 예로 한다.
입력장치(803)는 입력된 숫자 또는 문자 정보를 수신할 수 있을 뿐만 아니라, 전자기기의 사용자 설정 및 기능제어에 관련된 키 신호 입력을 생성할 수 있으며, 예를 들어, 터치 스크린, 키패드, 마우스, 트랙패드, 터치패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등과 같은 입력장치일 수 있다. 출력장치(804)는 디스플레이 장치, 보조 조명 장치(예를 들어, LED), 및 촉각 피드백 장치(예를 들어, 진동 모터)등을 포함할 수 있다. 해당 디스플레이 장치는 액정표시장치(LCD), 발광 다이오드(LED) 디스플레이, 및 플라즈마 디스플레이를 포함할 수 있지만, 이에 한정되지 않는다. 일부 실시방식에서, 디스플레이 장치는 터치 스크린일 수 있다.
본 명세서에 기술된 시스템 및 기술의 다양한 실시방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 전용ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 구현될 수 있다. 이들 다양한 실시예는 하나 또는 복수의 컴퓨터 프로그램에서 구현하는 것을 포함할 수 있으며, 해당 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템에서 실행 및/또는 해석될 수 있고, 해당 프로그래머블 프로세서는 전용 또는 일반 프로그래머블 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치로부터 데이터 및 명령을 수신하고, 데이터 및 명령을 해당 저장 시스템, 해당 적어도 하나의 입력장치, 및 해당 적어도 하나의 출력장치에 전송할 수 있다.
이들 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드로 또한 지칭됨)은 프로그래머블 프로세서의 기계 명령을 포함하며, 고급 과정 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계 언어로 구현될 수 있다. 본 명세서에서 사용되는 바와 같이, "기계 판독가능 매체”및 "컴퓨터 판독가능 매체”라는 용어는 기계 명령 및/또는 데이터를 프로그래머블 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 디바이스, 및/또는 장치(예를 들어, 자기 디스크, 시디롬, 메모리, 프로그래머블 논리 소자(PLD))를 지칭하며, 기계 판독 가능 신호인 기계 명령을 수신하기 위한 기계 판독가능 매체를 포함한다. "기계 판독 가능 신호”라는 용어는 기계 명령 및/또는 데이터를 프로그래머블 프로세서에 제공하는데 사용되는 임의의 신호를 지칭한다.
사용자와의 상호작용을 제공하기 위해, 본 명세서에서 설명된 시스템 및 기술를 컴퓨터에서 구현할 수 있으며, 해당 컴퓨터는 사용자에게 정보를 디스플레이하기 위한 디스플레이 장치(예를 들어, 음극선관(CRT) 또는 액정표시장치(LCD) 모니터), 및 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼)을 구비하고, 사용자는 해당 키보드 및 해당 포인팅 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 기타 종류의 장치도 사용자와의 상호작용을 제공하기 위해 사용될 수 있으며, 예를 들어, 사용자에게 제공되는 피드백은 모든 형태의 감각 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백) 일 수 있고, 모든 형태(소리 입력, 음성 입력, 또는 촉각 입력을 포함함)로 사용자로부터의 입력을 수신할 수 있다.
본 명세서에서 설명된 시스템 및 기술은 백그라운드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 컴포넌트를 포함하는 컴퓨팅 시스템 (예를 들어, 애플리케이션 서버), 또는 프론트 엔드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 갖는 사용자 컴퓨터이고, 사용자는 해당 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 본 명세서에 기술된 시스템 및 기술의 실시예와 상호작용할 수 있다), 또는 이러한 백그라운드 컴포넌트, 미들웨어 컴포넌트 또는 프론트 엔드 컴포넌트의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트는 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)에 의해 상호 연결될 수 있다. 통신 네트워크의 예는 근거리 통신망(LAN), 광역통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 떨어져 있으며, 통상적으로 통신 네트워크를 통해 상호작용한다. 클라이언트와 서버 사이의 관계는 대응하는 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램을 통해 생성된다.
본 출원의 실시예의 기술방안에 따르면, 상기 제 1 문자열과 상기 제 2 문자열의 유사도를 다차원으로부터 확정할 수 있으며, 즉 제 1 문자열 및 제 2 문자열의 문자, 음소 구성 및 폰트의 다차원으로부터 제 1 문자열과 제 2 문자열의 유사도를 확정함으로써, 제 1 문자열과 제 2 문자열의 유사도를 확정하는 정확도를 크게 향상시킬 수 있다.
전술한 다양한 형태의 흐름을 사용하여, 단계를 재배열, 부가 또는 삭제할 수 있다는 것을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 병렬로 또는 순서로 또는 상이한 순서로 수행될 수 있으며, 본 출원에 개시된 기술방안의 원하는 결과를 구현할 수 있는 한, 본 명세서에서는 제한하지 않는다.
상기 구체적인 실시형태는 본 출원의 보호범위에 대한 한정이 아니다. 해당 분야 기술자들은 설계 요구와 기타 요소에 근거하여 여러 가지 수정, 조합, 하위 조합과 대체를 진행할 수 있다는 것을 명백하여야 한다. 본 출원의 정신과 원칙 내에서 진행한 그 어떤 수정, 균등한 대체와 개량은 모두 본 출원의 보호범위 내에 포함된다.

Claims (19)

  1. 유사도 처리 방법에 있어서,
    제1문자열 및 제2문자열을 획득하는 단계;
    상기 제1문자열과 상기 제2문자열 간의 음소 구성 유사도 및 폰트 유사도를 확정하는 단계; 및
    상기 음소 구성 유사도 및 상기 폰트 유사도에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 종합적인 유사도를 확정하는 단계; 를 포함하는 것을 특징으로 하는 유사도 처리 방법.
  2. 제1항에 있어서,
    상기 제 1 문자열과 상기 제 2 문자열 간의 음소 구성 유사도를 확정하는 단계는,
    상기 제1문자열을 제1음소 구성 코드 시퀀스로 변환하고, 상기 제2문자열을 제2음소 구성 코드 시퀀스로 변환하는 단계; 및
    상기 제1음소 구성 코드 시퀀스 및 상기 제2음소 구성 코드 시퀀스에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 음소 구성 유사도를 계산하여 획득하는 단계; 를 포함하는 것을 특징으로 하는 방법.
  3. 제1항에 있어서,
    상기 제1문자열과 상기 제2문자열 간의 폰트 유사도를 확정하는 단계는,
    상기 제1문자열을 제1폰트 코드 시퀀스로 변환하고, 상기 제2문자열을 제2폰트 코드 시퀀스로 변환하는 단계; 및
    상기 제1폰트 코드 시퀀스 및 상기 제2폰트 코드 시퀀스에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 상기 폰트 유사도를 계산하여 획득하는 단계; 를 포함하는 것을 특징으로 하는 방법.
  4. 제2항에 있어서,
    상기 제 1 문자열은 N개의 한자를 포함하고; 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이고;
    상기 제1문자열을 제1음소 구성 코드 시퀀스로 변환하고, 상기 제2문자열을 제2음소 구성 코드 시퀀스로 변환하는 단계는,
    상기 제1문자열 내의 N개의 한자에 대응하는 N그룹의 병음 및 음조를 확정하고, 상기 N그룹의 병음 및 음조에 기반하여 제1음소 구성 코드 시퀀스를 확정하는 단계; 및 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 병음 및 음조를 확정하고, 상기 M그룹의 병음 및 음조에 기반하여 제2음소 구성 코드 시퀀스를 확정하는 단계; 를 포함하는 것을 특징으로 하는 방법.
  5. 제4항에 있어서,
    상기 제 1 문자열은 L개의 문자를 더 포함하며; 상기 제 2문자열은 K개의 문자를 더 포함하며; 여기서 L 및 K는 정수이며; 문자는 자모, 숫자, 기호 중 적어도 하나이고,
    상기 방법은, N개의 한자에 대응하는 N그룹의 병음과 음조, 및 L 개의 문자에 기반하여 제1음소 구성 코드 시퀀스를 확정하는 단계; 및 M개의 한자에 대응하는 M그룹의 병음 및 음조, 및 K개의 문자에 기반하여 제2음소 구성 코드 시퀀스를 확정하는 단계; 를 더 포함하는 것을 특징으로 하는 방법.
  6. 제3항에 있어서,
    상기 제 1 문자열은 N개의 한자를 포함하고; 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이고;
    상기 제1문자열을 제1폰트 코드 시퀀스로 변환하고, 상기 제2문자열을 제2폰트 코드 시퀀스로 변환하는 단계는,
    상기 제1문자열 내의 N개의 한자에 대응하는 N그룹의 폰트 코드를 확정하고, 상기 N그룹의 폰트 코드에 기반하여 제1폰트 코드 시퀀스를 확정하는 단계; 및 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 폰트 코드를 확정하고, 상기 M그룹의 폰트 코드에 기반하여 제2폰트 코드 시퀀스를 확정하는 단계; 를 포함하는 것을 특징으로 하는 방법.
  7. 제6항에 있어서,
    상기 제 1 문자열은 L개의 문자를 더 포함하며; 제 2문자열은 K개의 문자를 더 포함하며; 여기서 L 및 K는 정수이며; 문자는 자모, 숫자, 기호 중 적어도 하나이고;
    상기 방법은, 상기 제 1문자열 내의 N개의 한자에 대응하는 N그룹의 폰트 코드, 및 L 개의 문자에 기반하여 제1폰트 코드 시퀀스를 확정하는 단계; 및 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 폰트 코드, 및 K개의 문자에 기반하여 제2폰트 코드 시퀀스를 확정하는 단계; 를 더 포함하는 것을 특징으로 하는 방법.
  8. 제1항에 있어서,
    상기 음소 구성 유사도 및 상기 폰트 유사도에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 종합적인 유사도를 확정하는 단계는,
    상기 음소 구성 유사도 및 상기 폰트 유사도와 각자의 가중치 계수의 곱의 합에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 종합적인 유사도를 확정하는 단계를 포함하는 것을 특징으로 하는 방법.
  9. 유사도 처리 장치에 있어서,
    제1문자열 및 제2문자열을 획득하는 획득모듈;
    상기 제1문자열과 상기 제2문자열 간의 음소 구성 유사도 및 폰트 유사도를 확정하는 제1확정모듈; 및
    상기 음소 구성 유사도 및 상기 폰트 유사도에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 종합적인 유사도를 확정하는 제2확정모듈; 을 포함하는 것을 특징으로 하는 유사도 처리 장치.
  10. 제9항에 있어서,
    상기 제1확정모듈은 상기 제1문자열을 제1음소 구성 코드 시퀀스로 변환하고, 상기 제2문자열을 제2음소 구성 코드 시퀀스로 변환하며; 상기 제1음소 구성 코드 시퀀스 및 상기 제2음소 구성 코드 시퀀스에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 간의 음소 구성 유사도를 계산하여 획득하는데 이용되는 것을 특징으로 하는 장치.
  11. 제9항에 있어서,
    상기 제1확정모듈은 상기 제1문자열을 제1폰트 코드 시퀀스로 변환하고, 상기 제2문자열을 제2폰트 코드 시퀀스로 변환하며; 상기 제1폰트 코드 시퀀스 및 상기 제2폰트 코드 시퀀스에 기반하여, 상기 제 1 문자열과 상기 제 2 문자열 간의 폰트 유사도를 계산하여 획득하는데 이용되는 것을 특징으로 하는 장치.
  12. 제10항에 있어서,
    상기 제 1 문자열은 N개의 한자를 포함하고; 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이고;
    상기 제1확정모듈은 상기 제1문자열 내의 N개의 한자에 대응하는 N그룹의 병음 및 음조를 확정하고, 상기 N그룹의 병음 및 음조에 기반하여 제1음소 구성 코드 시퀀스를 확정하며; 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 병음 및 음조를 확정하고, 상기 M그룹의 병음 및 음조에 기반하여 제2음소 구성 코드 시퀀스를 확정하는데 이용되는 것을 특징으로 하는 장치.
  13. 제12항에 있어서,
    상기 제 1 문자열은 L개의 문자를 더 포함하며; 제 2문자열은 K개의 문자를 더 포함하며; 여기서 L 및 K는 정수이며; 문자는 자모, 숫자, 기호 중 적어도 하나이고;
    상기 제1확정모듈은 N개의 한자에 대응하는 N그룹의 병음과 음조, 및 L 개의 문자에 기반하여 제1음소 구성 코드 시퀀스를 확정하며; M개의 한자에 대응하는 M그룹의 병음과 음조, 및 K개의 문자에 기반하여 제2음소 구성 코드 시퀀스를 확정하는데 이용되는 것을 특징으로 하는 장치.
  14. 제11항에 있어서,
    상기 제 1 문자열은 N개의 한자를 포함하고; 상기 제 2 문자열은 M개의 한자를 포함하며; N및 M은 모두 1 보다 크거나 같은 정수이고;
    상기 제1확정모듈은 상기 제1문자열 내의 N개의 한자에 대응하는 N그룹의 폰트 코드를 확정하고, 상기 N그룹의 폰트 코드에 기반하여 제1폰트 코드 시퀀스를 확정하며; 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 폰트 코드를 확정하고, 상기 M그룹의 폰트 코드에 기반하여 제2폰트 코드 시퀀스를 확정하는데 이용되는 것을 특징으로 하는 장치.
  15. 제14항에 있어서,
    상기 제 1 문자열은 L개의 문자를 더 포함하며; 제 2문자열은 K개의 문자를 더 포함하며; 여기서 L 및 K는 정수이며; 문자는 자모, 숫자, 기호 중 적어도 하나이고;
    상기 제1확정모듈은 상기 제 1문자열 내의 N개의 한자에 대응하는 N그룹의 폰트 코드, 및 L 개의 문자에 기반하여 제1폰트 코드 시퀀스를 확정하며; 상기 제2문자열 내의 M개의 한자에 대응하는 M그룹의 폰트 코드, 및 K개의 문자에 기반하여 제2폰트 코드 시퀀스를 확정하는데 이용되는 것을 특징으로 하는 장치.
  16. 제9항에 있어서,
    상기 제2확정모듈은 상기 문자 유사도, 상기 음소 구성 유사도 및 상기 폰트 유사도와 각자의 가중치 계수의 곱의 합에 기반하여, 상기 제1문자열과 상기 제2문자열 간의 상기 종합적인 유사도를 확정하는데 이용되는 것을 특징으로 하는 장치.
  17. 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결된 메모리를 포함하는 전자기기에 있어서,
    상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령을 저장하며, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제8항 중 어느 한 항에 따른 방법을 수행하도록 하는 것을 특징으로 하는 전자기기.
  18. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제8항 중 어느 한 항에 따른 방법을 수행하게 하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
  19. 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램 중의 명령이 프로세서에 의해 실행될 경우, 제1항 내지 제8항 중 어느 한 항의 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.
KR1020210038095A 2020-06-27 2021-03-24 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램 KR102606514B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010593652.6 2020-06-27
CN202010593652.6A CN111753147A (zh) 2020-06-27 2020-06-27 相似度处理方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
KR20210040318A true KR20210040318A (ko) 2021-04-13
KR102606514B1 KR102606514B1 (ko) 2023-11-29

Family

ID=72677340

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210038095A KR102606514B1 (ko) 2020-06-27 2021-03-24 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램

Country Status (5)

Country Link
US (1) US12079258B2 (ko)
EP (1) EP3822813A1 (ko)
JP (1) JP2021144742A (ko)
KR (1) KR102606514B1 (ko)
CN (1) CN111753147A (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094559B (zh) * 2021-04-25 2024-05-31 百度在线网络技术(北京)有限公司 信息匹配方法、装置、电子设备和存储介质
CN115859970A (zh) * 2021-09-24 2023-03-28 青岛聚看云科技有限公司 服务器及字幕生成方法
CN113657098B (zh) * 2021-08-24 2024-03-01 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质
CN115295014A (zh) * 2021-12-23 2022-11-04 长江大学 一种提高拼音模糊匹配正确率的拼音相似度计算方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11328317A (ja) * 1998-05-11 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体
JP2007079730A (ja) * 2005-09-12 2007-03-29 Oki Electric Ind Co Ltd 単語類似判断装置、方法及びプログラム
JP2018077850A (ja) * 2016-11-10 2018-05-17 株式会社Nttドコモ 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221246A (ja) 1995-02-10 1996-08-30 Fujitsu Ltd 点字出力方法
JP5348964B2 (ja) 2008-08-13 2013-11-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、情報処理方法、情報処理システム、およびプログラム
JP2011076384A (ja) 2009-09-30 2011-04-14 Casio Computer Co Ltd 情報出力装置及び情報出力プログラム
CN106815179B (zh) 2015-11-27 2020-10-20 阿里巴巴集团控股有限公司 一种文本相似度确定方法及装置
JP6726638B2 (ja) 2017-05-11 2020-07-22 日本電信電話株式会社 含意認識装置、方法、及びプログラム
CN108009253A (zh) * 2017-12-05 2018-05-08 昆明理工大学 一种改进的字符串相似对比方法
CN111209447A (zh) * 2019-02-27 2020-05-29 山东大学 一种基于音形码的中文字符串相似度计算方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11328317A (ja) * 1998-05-11 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体
JP2007079730A (ja) * 2005-09-12 2007-03-29 Oki Electric Ind Co Ltd 単語類似判断装置、方法及びプログラム
JP2018077850A (ja) * 2016-11-10 2018-05-17 株式会社Nttドコモ 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置

Also Published As

Publication number Publication date
EP3822813A1 (en) 2021-05-19
US12079258B2 (en) 2024-09-03
KR102606514B1 (ko) 2023-11-29
CN111753147A (zh) 2020-10-09
US20210224620A1 (en) 2021-07-22
JP2021144742A (ja) 2021-09-24

Similar Documents

Publication Publication Date Title
US11403468B2 (en) Method and apparatus for generating vector representation of text, and related computer device
US11769480B2 (en) Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium
CN111859994B (zh) 机器翻译模型获取及文本翻译方法、装置及存储介质
KR102606514B1 (ko) 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램
JP2021157802A (ja) テキスト生成モデルのトレーニング方法、装置及び電子機器
JP2022013602A (ja) テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体
JP7318159B2 (ja) テキスト誤り訂正方法、装置、電子デバイス及び可読記憶媒体
CN111709234B (zh) 文本处理模型的训练方法、装置及电子设备
KR102538467B1 (ko) 모델의 증류 방법, 장치, 전자기기 및 저장매체
KR20220011082A (ko) 자연 언어 처리 모델의 트레이닝 방법, 장치, 전자 기기 및 기록 매체
US20220092252A1 (en) Method for generating summary, electronic device and storage medium thereof
US11216615B2 (en) Method, device and storage medium for predicting punctuation in text
US11200382B2 (en) Prosodic pause prediction method, prosodic pause prediction device and electronic device
JP2014139809A (ja) 共有された言語モデル
CN110767212B (zh) 一种语音处理方法、装置和电子设备
JP2023012522A (ja) クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置
JP7395553B2 (ja) 文章翻訳方法、装置、電子機器及び記憶媒体
KR102561951B1 (ko) 모델링 매개 변수의 설정 방법, 장치, 전자 기기 및 기록 매체
JP7241122B2 (ja) スマート応答方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN113051894B (zh) 一种文本纠错的方法和装置
KR20210042853A (ko) 음성 인식에 기반한 페이지 조작 방법, 장치, 전자장비, 저장 매체 및 컴퓨터 프로그램
KR20210122204A (ko) 대화 감정 스타일의 예측 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품
CN113160822A (zh) 语音识别处理方法、装置、电子设备以及存储介质
KR20210080150A (ko) 번역 방법, 장치, 전자 기기 및 판독 가능 저장 매체
KR102531507B1 (ko) 정보 출력 방법, 장치, 기기 및 저장 매체

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant