KR20200102919A

KR20200102919A - 오류를 정정하는 방법, 장치 및 컴퓨터 판독가능 매체

Info

Publication number: KR20200102919A
Application number: KR1020200000235A
Authority: KR
Inventors: 스난 린; 지아준 루
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2019-02-21
Filing date: 2020-01-02
Publication date: 2020-09-01
Also published as: US20200272668A1; KR102215299B1; EP3699779A1; CN109885180A; US11663269B2; JP7149976B2; CN109885180B; JP2020135892A

Abstract

본 개시는 오류를 정정하는 방법을 제공하는바, 당해 방법은, 수신된 조회 요청에 따라, 미리 설정된 트라이에서 복수의 목표 후보 엔티티를 결정하는 단계, 각 목표 후보 엔티티가 합법 엔티티 인 제1 확률을 산출하는 단계, 각 목표 후보 엔티티를 평가하여 평가 결과를 획득하는 단계 - 하나의 목표 후보 엔티티는 하나의 평가 결과에 대응됨 - 및 제1 확률과 평가 결과에 따라, 조회 요청에 대응되는 진실 의도 엔티티를 결정하는 단계를 포함한다. 본 개시의 실시예에 의하여 제공되는 기술안에 따르면, 종래 기술에 있어서 오류 정정 효과가 양호하지 못한 문제를 피하고, 오류 정정 비용을 절감하고 오류 정정 효율과 정확률을 향상시키는 기술 효과를 구현한다. 본 개시는 오류를 정정하는 장치, 컴퓨터 판독가능 매체를 더 제공한다.

Description

오류를 정정하는 방법, 장치 및 컴퓨터 판독가능 매체{Error correction method and device and computer readable medium}

본 개시의 실시예는 인터넷 기술 분야에 관한 것으로, 특히 오류를 정정하는 방법, 장치 및 컴퓨터 판독가능 매체에 관한 것이다.

정보화가 번성 발전된 오늘날, 네트워크는 이이 사회의 각 측면으로 뻗어나가 있고, 인터랙션 기기가 점점 더 보편화되고 있다. 사용자는 키보드 타이핑 입력 등 방식으로 조회 요청을 입력할 수 있는바, 이때 인터랙션 기기는 미리 설정된 표준 맵에 따라 당해 조회 요청을 대응되는 후보 항목으로 변환시켜 표시함으로써, 사용자가 후보 항목을 선택하도록 한다.

실제 응용에서는, 입력기, 키보드의 누름 오류 등으로 인하여, 사용자 검색 시 입력되는 조회 요청에 오류가 존재하게 되는데, 이때 검색 엔진에 의하여 반환되는 검색 결과는 사용자가 원하는 결과 대비 선명한 차이가 존재하게 된다(이는, 검색 엔진이 이러한 오류적인 조회 요청에 대하여 정확한 오류 정정이 불가능하기 때문임).

본 개시의 실시예는 오류를 정정하는 방법, 장치 및 컴퓨터 판독가능 매체를 제공한다.

본 개시의 실시예의 일 측면에 따르면, 본 개시의 실시예는 오류를 정정하는 방법을 제공하는바,

수신된 조회 요청에 따라, 미리 설정된 트라이(Trie)에서 복수의 목표 후보 엔티티(Entity)를 결정하는 단계;

각 상기 목표 후보 엔티티가 합법 엔티티 인 제1 확률을 산출하는 단계;

각 상기 목표 후보 엔티티를 평가하여 평가 결과를 획득하는 단계 - 하나의 상기 목표 후보 엔티티는 하나의 평가 결과에 대응됨 - ; 및

상기 제1 확률과 상기 평가 결과에 따라, 상기 조회 요청에 대응되는 진실 의도 엔티티를 결정하는 단계; 를 포함한다.

일부 실시예에서, 수신된 조회 요청에 따라, 미리 설정된 트라이에서 복수의 목표 후보 엔티티를 결정하는 단계 이전에,

상기 조회 요청이 정확하게 입력된 제2 확률을 산출하는 단계를 더 포함하고,

상기 수신된 조회 요청에 따라, 미리 설정된 트라이에서 복수의 목표 후보 엔티티를 결정하는 단계는, 구체적으로,

상기 제2 확률이 미리 설정된 제1 역치보다 작은 것에 응답하여, 수신된 조회 요청에 따라, 상기 트라이에서 상기 목표 후보 엔티티를 결정하는 단계를 포함한다.

일부 실시예에서, 상기 수신된 조회 요청에 따라, 미리 설정된 트라이에서 복수의 목표 후보 엔티티를 결정하는 단계는, 구체적으로,

상기 조회 요청 중의 문자열과 상기 트라이에 대하여 산출하여, 복수의 초기 후보 엔티티를 획득하는 단계; 및

미리 설정된 제2 역치에 따라, 복수의 상기 초기 후보 엔티티로부터 상기 조회 요청에 대응되는 상기 목표 후보 엔티티를 선택하는 단계; 를 포함한다.

일부 실시예에서, 상기 미리 설정된 제2 역치에 따라, 복수의 상기 초기 후보 엔티티로부터 상기 조회 요청에 대응되는 상기 목표 후보 엔티티를 선택하는 단계는,

각 상기 초기 후보 엔티티와 상기 조회 요청 사이의 제1 거리를 산출하는 단계;

각 상기 제1 거리를 각각 상기 제2 역치와 비교하는 단계; 및

상기 제2 역치보다 작거나 같은 제1 거리에 대응되는 초기 후보 엔티티를 상기 목표 후보 엔티티로 결정하는 단계; 를 포함한다.

일부 실시예에서, 상기 제2 역치가 제3 역치와 제4 역치를 포함할 경우, 상기 미리 설정된 제2 역치에 따라, 복수의 상기 초기 후보 엔티티로부터 상기 조회 요청에 대응되는 상기 목표 후보 엔티티를 선택하는 단계는,

제1 알고리즘에 따라, 각 상기 초기 후보 엔티티와 상기 조회 요청 사이의 제2 거리를 산출하는 단계;

상기 제2 거리를 상기 제3 역치와 비교하는 단계;

복수의 상기 초기 후보 엔티티로부터 상기 제3 역치보다 작거나 같은 제2 거리에 대응되는 제1 후보 엔티티를 추출하는 단계;

제2 알고리즘에 따라, 각 상기 제1 후보 엔티티와 상기 조회 요청 사이의 제3 거리를 산출하는 단계; 및

상기 제4 역치보다 작거나 같은 제3 거리에 대응되는 제1 후보 엔티티를 상기 목표 후보 엔티티로 결정하는 단계; 를 포함한다.

일부 실시예에서, 상기 제1 알고리즘이 편집 거리 알고리즘일 경우, 제2 알고리즘은 자카드 거리 알고리즘이고;

상기 제1 알고리즘이 상기 자카드 거리 알고리즘일 경우, 상기 제2 알고리즘은 상기 편집 거리 알고리즘이다.

일부 실시예에서, 상기 각 상기 목표 후보 엔티티를 평가하는 단계는,

각 상기 목표 후보 엔티티에 대응되는 속성 정보를 추출하는 단계;

각 상기 목표 후보 엔티티의 속성 정보의 가중치를 결정하는 단계; 및

상기 가중치에 따라, 각 상기 목표 후보 엔티티를 평가하는 단계; 를 포함한다.

일부 실시예에서, 상기 상기 제1 확률과 상기 평가 결과에 따라, 상기 조회 요청에 대응되는 진실 의도 엔티티를 결정하는 단계는, 구체적으로,

각 상기 목표 후보 엔티티에 대응되는 제1 확률과 평가 결과에 대하여 가중치를 부여하여, 각 상기 목표 후보 엔티티에 대응되는 가중치를 획득하는 단계; 및

최대 가중치에 대응되는 목표 후보 엔티티를 상기 진실 의도 엔티티로 결정하는 단계; 를 포함한다.

일부 실시예는,

미리 설정된 지식 데이터베이스로부터 복수의 엔티티를 추출하는 단계; 및

각 상기 엔티티를 미리 설정된 트라이의 노드로 하고, 각 상기 엔티티의 엔티티 의미항을 당해 엔티티의 서브노드로 하며, 각 상기 엔티티 의미항에 유일한 라벨을 할당하여 상기 트라이를 획득하는 단계; 를 더 포함한다.

본 개시의 실시예의 다른 측면에 따르면, 본 개시의 실시예는 오류를 정정하는 장치를 더 제공하는바,

수신된 조회 요청에 따라, 미리 설정된 트라이에서 복수의 목표 후보 엔티티를 결정하는 획득 모듈;

각 상기 목표 후보 엔티티가 합법 엔티티 인 제1 확률을 산출하는 확률 산출 모듈;

각 상기 목표 후보 엔티티를 평가하여 평가 결과를 획득하는 평가 모듈 - 하나의 상기 목표 후보 엔티티는 하나의 평가 결과에 대응됨 - ; 및

상기 제1 확률과 상기 평가 결과에 따라, 상기 조회 요청에 대응되는 진실 의도 엔티티를 결정하는 결정 모듈; 을 포함한다.

일부 실시예에서, 상기 확률 산출 모듈은, 또한, 상기 조회 요청이 정확하게 입력된 제2 확률을 산출한다.

상기 획득 모듈은, 구체적으로, 상기 제2 확률이 미리 설정된 제1 역치보다 작은 것에 응답하여, 수신된 조회 요청에 따라, 상기 트라이에서 상기 목표 후보 엔티티를 결정한다.

일부 실시예에서, 상기 획득 모듈은, 구체적으로,

상기 조회 요청 중의 문자열과 상기 트라이에 대하여 산출하여, 복수의 초기 후보 엔티티를 획득하고;

미리 설정된 제2 역치에 따라, 복수의 상기 초기 후보 엔티티로부터 상기 조회 요청에 대응되는 상기 목표 후보 엔티티를 선택한다.

일부 실시예에서, 상기 획득 모듈은, 구체적으로,

각 상기 초기 후보 엔티티와 상기 조회 요청 사이의 제1 거리를 산출하고;

각 상기 제1 거리를 각각 상기 제2 역치와 비교하고;

상기 제2 역치보다 작거나 같은 제1 거리에 대응되는 초기 후보 엔티티를 상기 목표 후보 엔티티로 결정한다.

일부 실시예에서, 상기 제2 역치가 제3 역치와 제4 역치를 포함할 경우, 상기 획득 모듈은, 구체적으로,

제1 알고리즘에 따라, 각 상기 초기 후보 엔티티와 상기 조회 요청 사이의 제2 거리를 산출하고;

상기 제2 거리를 상기 제3 역치와 비교하고;

복수의 상기 초기 후보 엔티티로부터 상기 제3 역치보다 작거나 같은 제2 거리에 대응되는 제1 후보 엔티티를 추출하고;

제2 알고리즘에 따라, 각 상기 제1 후보 엔티티와 상기 조회 요청 사이의 제3 거리를 산출하고;

상기 제4 역치보다 작거나 같은 제3 거리에 대응되는 제1 후보 엔티티를 상기 목표 후보 엔티티로 결정한다.

일부 실시예에서, 상기 평가 모듈은, 구체적으로,

각 상기 목표 후보 엔티티에 대응되는 속성 정보를 추출하고;

각 상기 목표 후보 엔티티의 속성 정보의 가중치를 결정하고;

상기 가중치에 따라, 각 상기 목표 후보 엔티티를 평가한다.

일부 실시예에서, 상기 결정 모듈은, 구체적으로,

각 상기 목표 후보 엔티티에 대응되는 제1 확률과 평가 결과에 대하여 가중치를 부여하여, 각 상기 목표 후보 엔티티에 대응되는 가중치를 획득하고;

최대 가중치에 대응되는 목표 후보 엔티티를 상기 진실 의도 엔티티로 결정한다.

일부 실시예는,

미리 설정된 지식 데이터베이스로부터 복수의 엔티티를 추출하는 추출 모듈; 및

각 상기 엔티티를 미리 설정된 트라이의 노드로 하고 각 상기 엔티티의 엔티티 의미항을 당해 엔티티의 서브노드로 하며 각 상기 엔티티 의미항에 유일한 라벨을 할당하여 상기 트라이를 획득하는 구축 모듈; 을 더 포함한다.

본 개시의 실시예의 다른 측면에 따르면, 본 개시의 실시예는 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독가능 매체를 더 제공하는바, 상기 프로그램이 프로세서에 의해 실행될 경우, 상술한 방법을 구현한다.

본 개시의 실시예에 의하여 제공되는, 수신된 조회 요청에 따라, 미리 설정된 트라이에서 복수의 목표 후보 엔티티를 결정하는 단계, 각 목표 후보 엔티티가 합법 엔티티 인 제1 확률을 산출하는 단계, 각 목표 후보 엔티티를 평가하여 평가 결과를 획득하는 단계 - 하나의 목표 후보 엔티티는 하나의 평가 결과에 대응됨 - 및 제1 확률과 평가 결과에 따라, 조회 요청에 대응되는 진실 의도 엔티티를 결정하는 단계에 따르면, 종래 기술에 있어서 오류 정정 효과가 양호하지 못한 문제를 피하고, 오류 정정 비용을 절감하고 오류 정정 효율과 정확률을 향상시키는 기술 효과를 구현한다.

첨부 도면은 본 개시의 실시예에 대한 한층 심화된 이해를 제공하고자 하는 것으로, 명세서의 일부분을 구성하며 본 개시의 실시예와 더불어 본 개시를 해석하는바, 본 개시를 한정하지 않는다. 첨부 도면을 참조하여 상세한 예시적 실시예를 설명함으로써, 위의 및 기타의 특징과 이점은 당업자에 있어서 더욱 자명해질것이다.
도1은 본 개시의 실시예에 따른 오류를 정정하는 방법의 개략도이다.
도2는 본 개시의 실시예에 따른 목표 후보 엔티티를 결정하는 방법의 개략도이다.
도3은 본 개시의 다른 실시예에 따른 목표 후보 엔티티를 결정하는 방법의 개략도이다.
도4는 본 개시의 다른 실시예에 따른 목표 후보 엔티티를 결정하는 방법의 개략도이다.
도5는 본 개시의 실시예에 따른 트라이를 구축하는 방법의 개략도이다.
도6은 본 개시의 실시예에 따른 평가 방법의 개략도이다.
도7은 본 개시의 실시예에 따른 진실 의도 엔티티를 결정하는 방법의 개략도이다.
도8은 본 개시의 실시예에 따른 오류를 정정하는 장치의 개략도이다.
도9는 본 개시의 실시예에 따른 오류를 정정하는 장치의 프레임워크 개략도이다.

당업자한테 본 발명의 기술안을 더 잘 이해시키기 위하여, 아래, 첨부도면을 결부하여 본 발명에 의하여 제공되는 오류를 정정하는 방법, 장치 및 컴퓨터 판독가능 매체에 대하여 상세히 설명하고자 한다.

아래, 첨부 도면을 결부하여 예시적인 실시예에 대하여 더 충분하게 설명하고자 하는데, 상기 예시적인 실시예는 다양한 형식으로 구현 가능한바, 본 명세서에 기술되는 실시예에 한정되는 것으로 해석되어서는 안된다. 반대로, 이러한 실시예를 제공하는 목적은 본 개시를 투철하고 완전하도록 하려는 데 있고, 당업자한테 본 개시의 범위를 충분히 이해시키려는 데 있다.

본 명세서에서 사용한 바와 같이, 용어 '및/또는'은 하나 또는 복수의 관련 열거 조목의 임의의 그리고 모든 조합을 포함한다.

본 명세서에서 사용되는 용어는 단지 특정된 실시예를 설명하기 위한 것으로, 본 개시를 한정하려는 것이 아니다. 본 명세서에서 사용한 바와 같이, 단수 형식인 '하나' 및 '당해'는 별도로 명확한 지적이 있지 않은 한, 복수 형식도 포함한다. 본 명세서에서 용어 '포함한다' 및/또는 '?로 제조된다'가 사용되는 경우, 이는 상기 특징, 전일체, 단계, 조작, 소자 및/또는 컴포넌트가 존재함을 가리키는 것이나, 하나 또는 복수의 기타의 특징, 전일체, 단계, 조작, 소자, 컴포넌트 및/또는 이들의 그룹이 존재하거나 추가되는 것을 배제하지 않는다는 것을 또한 이해하여야 한다

본 명세서의 실시예는 본 개시의 이상적인 개략도를 빌어, 그리고 평면도 및/또는 단면도를 참조하여 설명된다. 따라서, 제조 기술 및/또는 마진에 따라 예시적인 도면에 대해 수정할 수 있다. 그러므로 실시예는 첨부 도면에 도시한 실시예에 한정되는 것이 아니고, 제조 공정에 따라 초래되는 구성에 대한 수정을 포함한다. 때문에, 첨부 도면에 예시로서 도시한 영역은 예시적인 속성을 가지며, 도면에 도시한 영역의 형상은 소자 영역의 구체 형상을 예시로서 도시하지만 한정하려는 목적은 아니다.

별도의 한정이 있지 않은 한, 본 명세서에 사용되는 모든 용어(기술 용어 및 과학 용어를 포함함)의 의미는 당업자가 통상적으로 이해하는 의미와 동일하다. 예를 들면, 상용 사전에서 한정하는 용어는 관련 기술에서의 및 본 개시의 배경에서의 의미와 일치한 의미를 가지는 것으로 해석되어야 하고, 명세서에 명확한 한정이 있지 않은 한, 이상화된 또는 과도하게 형식적인 의미를 가지는 것으로 해석되어서는 안된다는 것을 또한 이해하여야 한다.

본 개시의 실시예의 일 측면에 따르면, 본 개시의 실시예는 오류를 정정하는 방법을 제공한다.

도1을 참조하면, 도1은 본 개시의 실시예에 따른 오류를 정정하는 방법의 개략도이다.

도1에 도시한 바와 같이, 당해 방법은 다음과 같은 단계를 포함한다.

S1: 수신된 조회 요청에 따라, 미리 설정된 트라이에서 복수의 목표 후보 엔티티를 결정한다.

구체적으로, 사용자가 사용자 단말을 통해 입력하는 조회 요청에 응답하여, 미리 설정된 트라이를 획득한다. 트라이와 조회 요청에 따라 m개의 목표 후보 엔티티를 결정하는바, 여기서, m은 1보다 큰 정수이다. 여기서, 사용자 단말은 이동 기기, 예를 들어, 휴대전화, 랩톱 컴퓨터, 태블릿 컴퓨터, 개인 휴대 정보 단말기(Personal Digital Assistant)일 수도 있고 고정 기기, 예를 들어, 데스크톱 컴퓨터 등일 수도 있다.

여기서, 트라이(trie)는 디지털 탐색 트리(Digital Search Tree)로 지칭되기도 하는바, Trie 트리는, 트리(Tree)형 구조로, 해시 트리(Hash Tree)의 한 변종이다. 그 이점은, 문자열의 공통 프리픽스를 이용하여 조회 시간을 단축하고 불필요한 문자열 비교를 최대한 줄이고, 조회 효율이 해시 트리보다 높은 데 있다.

본 개시의 실시예에서, '트라이'를 결합하여 '목표 후보 엔티티'에 대하여 목표 후보 엔티티를 결정하는바, 선택되는 목표 후보 엔티티의 고효율성, 포괄성 및 다양성을 구현할 수 있고 나아가 오류 정정의 정확성을 구현할 수 있다.

일부 실시예에서, 조회 요청을 수신한 후, S1 이전에 조회 요청이 정확하게 입력된 제2 확률을 산출하고, 제2 확률이 미리 설정된 제1 역치보다 작은 것에 응답하여 S1을 수행하는 단계;를 더 포함한다.

구체적으로, 조회 요청은 입력이 정확한 조회 요청(즉, 인식이 가능하거나 철자가 정확한 조회 요청)일 수도 있고, 입력이 오류적인 조회 요청(인식이 불가능하거나 철자가 오류적인 조회 요청)일 수도 있으며, 제2 확률은 바로 조회 요청이 입력이 정확한 조회 요청인 확률이다. 언어 모델(예를 들면, NGRAM 언어 모델)에 따라 조회 요청의 입력 정확성을 산출하여 제2 확률을 획득한다.

제2 확률이 제1 역치보다 크거나 같다면, 이는 조회 요청은 입력이 정확한 조회 요청임을 말해준다.

제2 확률이 제1 역치보다 작다면, 이는 조회 요청은 입력이 오류적인 조회 요청임을 말해준다. 당해 조회 요청에 대하여 오류 정정이 필요하다면 S1을 수행한다.

여기서, 제1 역치는 수요에 따라 설정 가능하다. 높은 정확도를 요구하는 응용 장면에 있어서는 상응하게 보다 큰 제1 역치를 설치할 수 있고 낮은 정확도를 요구하는 응용 장면에 있어서는 상응하게 보다 작은 제1 역치를 설정할 수 있다. 다시 말해, 제1 역치의 설정은 부동한 응용 장면에 따라 설정이 가능한바, 높은 정확도를 요구하는 응용 장면에 대응되는 제1 역치는 낮은 정확도를 요구하는 응용 장면에 대응되는 제1 역치보다 크다.

본 개시의 실시예에 의하여 제공되는, 제2 확률을 제1 역치와 비교하여 제2 확률이 제1 역치보다 작을 경우, 조회 요청에 대하여 오류를 정정하는 기술안에 따르면, 종래 기술에서 조회 요청에 대하여 직접적으로 오류를 정정함으로써, 초래되는 시간 낭비와 자원 낭비의 기술 단점을 회피하고 오류 정정 비용 절감의 기술 효과를 구현한다.

도2를 결부하여 알 수 있는바, 일부 실시예에서 S1은 다음과 같은 단계를 포함한다.

S1-1: 조회 요청 중의 문자열과 트라이에 대하여 산출하여, 복수의 초기 후보 엔티티를 획득한다.

구체적으로, 조회 요청은 문자열로 구성된다. 본 명세서에 기재된 '문자열'은 텍스트 형식의 문자, 숫자, 자모(letter), 부호 등 중의 하나 또는 복수의 시퀀스를 포함할 수 있음을 이해할 수 있다.

구체적으로, 종래 기술에서의 매칭 알고리즘을 통해 문자열과 트라이에 대하여 산출하여, 트라이로부터 문자열에 매칭되는 복수의 초기 후보 엔티티를 추출할 수 있다.

일부 실시예에서, 멀티모드 매칭 알고리즘을 통해 문자열과 트라이에 대하여 산출하여, 트라이로부터 문자열에 대응되는 초기 후보 엔티티를 선택하는바, 여기서, 초기 후보 엔티티의 수량은 복수이다.

본 개시의 실시예에 있어서, 문자열과 트라이에 대하여 산출하는 기술안에 따르면, 오류 정정 결과의 정확성에 영향 주는 엔티티를 배제할 수 있다. 즉, 일부 엔티티 중에서 조회 요청에 관련되는 일부 엔티티를 선택하고 관련되지 않는 일부 엔티티를 제거한다. 일 측면으로는 후속의 처리 절차의 복잡도를 낮출 수 있고 다른 측면으로는 오류 정정의 고효율성과 정확성을 향상시킬 수 있다.

S1-2: 미리 설정된 제2 역치에 따라, 복수의 초기 후보 엔티티로부터 조회 요청에 대응되는 목표 후보 엔티티를 선택한다.

여기서, 제2 역치 역시 응용 장면에 따라 설정하는 것으로, 상세한 설명은 생략하도록 한다.

S1-1는 엔티티를 초벌 필터링하는 단계에 해당하고, S1-2는 엔티티를 재벌 필터링하는 단계에 해당한다. 같은 이치로, 엔티티를 재벌 필터링하는 단계에 기초하여, 후속의 처리 절차의 복잡도를 더 낮추고, 오류 정정의 고효율성과 정확성을 더 향상시킬 수 있다.

도3을 결부하여 알 수 있는바, 일부 실시예에서 S1-2는 다음과 같은 단계를 포함한다.

S1-2-1: 각 초기 후보 엔티티와 조회 요청 사이의 제1 거리를 산출한다.

구체적으로, 종래 기술에서의 거리를 산출하는 방법에 따라 각 초기 후보 엔티티와 조회 요청 중의 오류적인 부분 사이의 제1 거리를 산출할 수 있다.

S1-2-2: 각 제1 거리를 각각 제2 역치와 비교한다.

S1-2-3: 제2 역치보다 작거나 같은 제1 거리에 대응되는 초기 후보 엔티티를 목표 후보 엔티티로 결정한다.

제1 거리는 제2 역치보다 클 수도 있고, 제2 역치보다 작거나 같을 수도 있음을 이해할 수 있다. 제1 거리가 제2 역치보다 클 경우, 당해 제1 역치에 대응되는 초기 후보 엔티티가 제거된다. 따라서 불필요한 산출 자원 낭비가 감소되고 산출 효율이 향상된다. 제1 거리가 제2 역치보다 작거나 같을 경우, 당해 제1 역치에 대응되는 초기 후보 엔티티를 목표 후보 엔티티로 결정한다. 따라서 오류 정정의 신뢰성과 정확성이 향상된다 .

도4를 결부하여 알 수 있는바, 일부 실시예에서 제2 역치가 제3 역치와 제4 역치를 포함할 경우, S1-2는 구체적으로 다음과 같은 단계를 포함한다.

S1-2-4: 제1 알고리즘에 따라, 각 초기 후보 엔티티와 조회 요청 사이의 제2 거리를 산출한다.

구체적으로, 종래 기술에서의 거리를 산출하는 알고리즘을 통해, 각 초기 후보 엔티티와 조회 요청 중의 오류적인 부분 사이의 제2 거리를 산출할 수 있다.

S1-2-5: 각 제2 거리를 각각 제3 역치와 비교한다.

S1-2-6: 복수의 초기 후보 엔티티로부터 제3 역치보다 작거나 같은 제2 거리에 대응되는 제1 후보 엔티티를 추출한다.

같은 이치로, 제2 거리는 제3 역치보다 클 수도 있고, 또한 제3 역치보다 작거나 같을 수도 있다. 제2 거리가 제3 역치보다 클 경우, 당해 제2 역치에 대응되는 초기 후보 엔티티가 제거된다. 따라서 불필요한 산출 자원 낭비가 감소되고 산출 효율이 향상된다. 제2 거리가 제3 역치보다 작거나 같을 경우, 당해 제2 거리에 대응되는 초기 후보 엔티티를 제1 후보 엔티티로 선택한다.

S1-2-7: 제2 알고리즘에 따라, 각 제1 후보 엔티티와 조회 요청 사이의 제3 거리를 산출한다.

여기서, 제2 알고리즘은 제1 알고리즘과는 상이한, 종래 기술에서의 거리를 산출하는 알고리즘이다.

S1-2-8: 제4 역치보다 작거나 같은 제3 거리에 대응되는 제1 후보 엔티티를 목표 후보 엔티티로 결정한다.

본 개시의 실시예는, 2개의 상이한 알고리즘을 적용하여 각각 산출함으로써, 초기 후보 엔티티로부터의 선택을 차례로 수행하고, 최종적으로 목표 후보 엔티티를 결정하며, 이러한 기술안에 따라, 불필요한 산출 자원 낭비를 감소시키고 산출 효율을 향상시킨다. 본 개시의 실시예에서는, 거리를 산출하는 구체적인 방법에 대하여 한정하지 않는다.

일부 실시예에서, 제1 알고리즘이 편집 거리 알고리즘일 경우, 제2 알고리즘은 자카드 거리 알고리즘이다. 제1 알고리즘이 자카드 거리 알고리즘일 경우, 제2 알고리즘은 편집 거리 알고리즘이다.

여기서, 제3 역치와 제4 역치도 응용 장면에 따라 설정할 수 있고, 제3 역치와 제4 역치 사이에는 필연적인 크기 관계가 존재하지 않는 것으로, 상세한 설명은 생략하도록 한다.

도5를 결부하여 알 수 있는바, S1 이전에 초기화 단계를 더 포함하는 것으로, 즉, 트라이를 구축하는 단계를 더 포함하고, 구체적으로는 다음과 같은 단계를 포함한다.

S01: 미리 설정된 지식 데이터베이스로부터 복수의 엔티티를 추출한다.

S02: 각 엔티티를 미리 설정된 트라이의 노드로 하고, 각 엔티티의 엔티티 의미항을 당해 엔티티의 서브노드로 하며, 각 엔티티 의미항에 유일한 라벨을 할당하여 트라이를 획득한다.

본 실시예에서는, 종래 기술의 트라이를 개선한다.

구체적으로, 종래 기술에서는 트라이를 구축할 때, 우선 지식 데이터베이스로부터 복수의 엔티티를 추출한 다음, 각 엔티티를 미리 설정된 트라이(즉, 사전 구축되는 트라이 모델)의 노드로 한다. 그러나 본 개시의 실시예에서는, 지식 데이터베이스로부터 복수의 엔티티를 추출하여 각 엔티티를 모두 미리 설정된 트라이의 노드로 한 후, 각 엔티티의 엔티티 의미항을 당해 엔티티의 노드에 삽입하여 이를 당해 엔티티의 노드의 서브노드로 하고 각 엔티티 의미항에 대하여 하나의 유일한 라벨을 할당한다.

여기서, 하나의 엔티티는 복수의 엔티티 의미항에 대응될 수 있는바, 이때, 각 엔티티 의미항을 모두 당해 엔티티의 서브노드로 하고 각 엔티티 의미항에 모두 유일한 라벨을 할당한다. 예를 들면, 엔티티A가 도합 10개의 엔티티 의미항을 가진다면 10개의 엔티티 의미항을 모두 엔티티A의 노드에 삽입하여 이를 엔티티A의 10개의 서브노드로 한다.

구체적으로, 의미항은 예를 들어, 단어 항목, 조목 등일 수 있는바, 이는 각각의 부동한 개념과 의미를 가지는 사물에 대한 서술 내용을 가리킨다. 후보 엔티티의 엔티티 의미항은 당해 후보 엔티티에 대응되는 모든 엔티티 의미항 또는 일부 엔티티 의미항일 수 있다. 일부 후보 엔티티 및 엔티티 의미항에 대한 선택은 부동한 상황에 따를 수 있다. 본 명세서는 구체적인 선택 방식에 대하여 한정하지 않도록 한다.

구체적으로, 용어 '지식 데이터베이스'는 그래프와 유사한 데이터 구조로서, 노드와 엣지로 구성되는바, 예를 들어, 지식 그래프 또는 기타의 적당한 데이터베이스를 가리킨다. 지식 데이터베이스에서 각 노드는 현실 세계에 존재하는 '엔티티'를 표시하고, 각 엣지는 엔티티와 엔티티 사이의 '관계'를 표시한다. 지식 데이터베이스는 관계의 효과적인 표시 방식이다. 바꾸어 말해, 지식 데이터베이스는 여러 가지 정보를 하나로 연결하여 얻게 되는 하나의 관계 네트워크로서, 이는 '관계'의 시각에서 문제를 분석하는 능력이 제공된다.

본 개시의 실시예에 따라, 각 엔티티의 엔티티 의미항을 당해 엔티티의 서브노드로 하면, 부동한 의미항의 엔티티에 대한 구분을 구현할 수 있고, 유연하고 포괄적으로 트라이를 구축하는 것을 구현할 수 있고, 나아가 고효율적이고 정확한 오류 정정을 구현할 수 있다. 또한, 각 엔티티 의미항에 유일한 라벨을 할당함으로써, 당해 유일한 라벨에 따라 구체적인 엔티티 의미항을 정확하게 포지셔닝할 수 있고, 나아가 빠른 오류 정정을 구현할 수 있다.

S2: 각 목표 후보 엔티티가 합법 엔티티 인 제1 확률을 산출한다.

여기서, 합법 엔티티는 표현이 정확한 엔티티를 가리킨다.

당해 단계에서, 제1 확률은 목표 후보 엔티티가 합법 엔티티(또는 정확한 엔티티)인지에 대한 가능성을 표시한다. 구체적으로, 언어 모델(예를 들면, NGRAM 언어 모델)에 따라 각 목표 후보 엔티티에 대하여 산출하여, 각 목표 후보 엔티티에 대응되는 제1 확률을 획득한다.

S3: 각 목표 후보 엔티티를 평가하여 평가 결과를 획득하는바, 하나의 목표 후보 엔티티는 하나의 평가 결과에 대응된다.

종래 기술에서의 평가 방법을 적용하여 각 목표 후보 엔티티를 평가할 수 있다. 예를 들면, 종래 기술에서의 평가 모델에 의하여 평가한다. 또는, 산출 방법을 통해 산출함으로써 평가를 구현한다. 물론, 신경망 모델을 적용하여 평가를 수행할 수도 있다.

바람직하게는, 랭킹 LTR 모델을 적용하여 각 목표 후보 엔티티를 평가한다.

여기서, 랭킹 LTR 모델은 바로 기계 학습 랭킹에 관한 것으로, 전체 명칭은 랭킹 learning to rank 모델이고, 그 기본 원리는 선형 모델이다. 본 개시의 실시에 있어서는 엔티티의 가중치, 문법, 어법 형태론, 의존, term 중요성, 워드 임베딩(Word Embedding) 벡터 등 특징에 따라 랭킹 LTR 모델을 구축한다.

구체적으로, 랭킹 LTR 모델은 복수의 목표 후보 엔티티를 각각 평가하는바, 즉, 랭킹 LTR 모델은 각 목표 후보 엔티티에 대하여 각각 평점한다. 다시 말해, 어느 한 목표 후보 엔티티를 랭킹 LTR 모델에 입력하면, 랭킹 LTR 모델은 당해 목표 후보 엔티티에 대응되는 점수를 출력한다.

본 개시의 실시예에 있어서, 목표 후보 엔티티와 랭킹 LTR 모델을 결합함으로써, 당해 목표 후보 엔티티의 평가 결과를 획득하는 기술안에 따르면, 복수의 목표 후보 엔티티 중의 각 목표 후보 엔티티의 평가 결과를 구분하는 것을 구현할 수 있다. 즉, 각 목표 후보 엔티티의 차이성에 대해 알 수가 있다.

도6을 결부하여 알 수 있는바, 일부 실시예에서 S3는 다음과 같은 단계를 포함한다.

S3-1: 각 목표 후보 엔티티에 대응되는 속성 정보를 추출한다.

당해 단계에서, 각 목표 후보 엔티티의 관련 지식 정보(즉, 속성 정보)는 완전히 동일하지가 않다. 각 목표 후보 엔티티에 대응되는 관련 지식 정보(즉, 속성 정보)를 추출한다.

S3-2: 각 목표 후보 엔티티의 속성 정보의 가중치를 결정한다.

본 개시의 실시예에서, 각 목표 후보 엔티티의 속성 정보의 가중치를 결정하는 방식은 여러 가지가 있다. 예를 들면, 당시의 응용 장면에 따라 각 목표 후보 엔티티에 대응되는 가중치를 결정한다. 또는, 종래 기술에서의 속성 정보와 가중치의 레이블링 방법에 따라 목표 후보 엔티티의 가중치를 결정한다.

바람직하게는, 미리 설정된 속성 정보와 가중치의 대응 관계에 따라, 각 목표 후보 엔티티의 가중치를 결정한다.

구체적으로, 미리 부동한 속성 정보에 대하여 가중치를 구획하는바, 즉, 미리 우선 순위에 따라 대응되는 우선 순위 가중치를 설정한다. 가중치와 속성 정보의 대응 관계를 구축한다. 예를 들면, 매핑 테이블의 방식으로 양자(즉, 가중치와 속성 정보) 간의 대응 관계를 구축하는 것을 구현할 수 있다. 어느 한 목표 후보 엔티티에 대응되는 속성 정보가 추출된 후, 당해 속성 정보를 매핑 테이블에 매칭시켜 매핑 테이블에서 속성 정보에 대응되는 가중치를 찾을 수 있다. 즉, 당해 단계는 사실상, '가중치를 레이블링하는' 단계이다. 또한, 복수의 목표 후보 엔티티에 대하여 가중치 레이블링을 수행하는 과정은 서로 간섭되지 않으며 병행하여 수행될 수 있다.

아래 구체적인 예시를 결부하여 상세히 기술하도록 한다. 예를 들어, 사용자가 조회 요청(A)을 검색하면 상술한 방법에 따라 복수의 목표 후보 엔티티를 결정한 후, 목표 후보 엔티티(B)(예를 들면, <도묘필기(돝墓궝션)>)를 평가할 때, 우선 목표 후보 엔티티(B)의 속성 정보(예를 들면, 연기자, 목표 후보 엔티티(B)의 유형, 영화의 유형, 개봉 시간 등)를 획득하고 대응되는 속성 정보에 기초하여 가중치의 레이블링을 수행한다. 구체적으로 도표 형식으로 레이블링 결과(중간 결과 및 최종 결과가 포함됨)를 표시할 수 있다.

S3-3: 가중치에 따라, 각 목표 후보 엔티티를 평가한다.

바람직하게는, 랭킹 LTR 모델에 따라 각 목표 후보 엔티티를 평가한다.

본 개시의 실시예에 의하여 제공되는, 각 목표 후보 엔티티를 평가하는 방안에 따르면, 당해 방안은 목표 후보 엔티티의 관련 지식 정보(즉, 속성 정보) 및 여러 가지 파라미터 등을 종합적으로 고려함으로써 정확성이 높은 평가 결과를 출력하는 기술 효과를 구현할 수 있다.

S4: 제1 확률과 평가 결과에 따라, 조회 요청에 대응되는 진실 의도 엔티티를 결정한다.

여기서, 진실 의도 엔티티는 조회 요청을 가장 잘 나타낼 수 있는 엔티티를 가리킨다. 다시 말해, 진실 의도 엔티티는 사용자가 원하는 조회 결과를 가장 잘 나타낼 수 있는 엔티티이다.

본 개시의 실시예에서, 획득되는 목표 후보 엔티티는 포괄성과 정확성의 특징을 구비하고, 획득되는 목표 후보 엔티티의 평가 결과는 정확성이 높은 특징을 구비하므로, 각 목표 후보 엔티티에 따른 제1 확률과 평가 결과에 따르면 고정확도의 진실 의도 엔티티를 획득할 수 있다. 나아가 오류 정정 효율과 오류 정확률의 향상을 구현할 수 있다.

도7을 결부하여 알 수 있는바, 일부 실시예에서 S4는 구체적으로 다음과 같은 단계를 포함한다.

S4-1: 각 목표 후보 엔티티에 대응되는 제1 확률과 평가 결과에 대하여 가중치를 부여하여, 각 목표 후보 엔티티에 대응되는 가중치를 획득한다.

S4-2: 최대 가중치에 대응되는 목표 후보 엔티티를 진실 의도 엔티티로 결정한다.

구체적으로, 복수의 가중치를 오름차순 또는 내림차순으로 정렬하여, 그중에서 최대 가중치를 선택하고 최대 가중치에 대응되는 목표 후보 엔티티를 진실 의도 엔티티로 결정한다.

본 개시의 실시예의, 최대 가중치에 대응되는 목표 후보 엔티티를 선택하여, 당해 목표 후보 엔티티를 사용자가 실제로 검색하고자 하는 엔티티로 결정하는 방안에 따르면, 사용자의 진실한 검색 의도를 정확하게 결정하는 것을 구현할 수 있으므로, 나아가 사용자의 검색 경험을 향상시키는 기술 효과를 구현한다.

본 개시의 실시예에 따른 다른 측면으로, 본 개시의 실시예는 오류를 정정하는 장치를 더 제공한다.

도8을 참조하면, 도8은 본 개시의 실시예에 따른 오류를 정정하는 장치의 개략도이다.

도8에 도시한 바와 같이, 당해 장치는,

수신된 조회 요청에 따라, 미리 설정된 트라이에서 복수의 목표 후보 엔티티를 결정하는 획득 모듈(1);

각 목표 후보 엔티티가 합법 엔티티 인 제1 확률을 산출하는 확률 산출 모듈(2);

각 목표 후보 엔티티를 평가하여 평가 결과를 획득하는 평가 모듈(3) - 하나의 목표 후보 엔티티는 하나의 평가 결과에 대응됨 - ; 및

제1 확률과 평가 결과에 따라, 조회 요청에 대응되는 진실 의도 엔티티를 결정하는 결정 모듈(4); 을 포함한다.

일부 실시예에서, 확률 산출 모듈(2)은 또한, 조회 요청이 정확하게 입력된 제2 확률을 산출한다.

획득 모듈(1)은 구체적으로, 제2 확률이 미리 설정된 제1 역치보다 작은 것에 응답하여, 수신된 조회 요청에 따라, 트라이로부터 각 목표 후보 엔티티를 결정한다.

일부 실시예에서, 획득 모듈(1)은, 구체적으로,

조회 요청 중의 문자열과 트라이에 대하여 산출하여, 복수의 초기 후보 엔티티를 획득하고;

미리 설정된 제2 역치에 따라, 복수의 초기 후보 엔티티로부터 조회 요청에 대응되는 목표 후보 엔티티를 선택한다.

일부 실시예에서, 획득 모듈(1)은, 구체적으로,

각 초기 후보 엔티티와 조회 요청 사이의 제1 거리를 산출하고;

각 제1 거리를 각각 제2 역치와 비교하고;

제2 역치보다 작거나 같은 제1 거리에 대응되는 초기 후보 엔티티를 목표 후보 엔티티로 결정한다.

상기 제2 거리를 상기 제3 역치와 비교하고;

일부 실시예에서, 평가 모듈(3)은, 구체적으로,

각 목표 후보 엔티티에 대응되는 속성 정보를 추출하고;

각 목표 후보 엔티티의 속성 정보의 가중치를 결정하고;

가중치에 따라 각 목표 후보 엔티티를 평가한다.

일부 실시예에서, 결정 모듈(4)은, 구체적으로,

각 목표 후보 엔티티에 대응되는 제1 확률과 평가 결과에 대하여 가중치를 부여하여, 각 목표 후보 엔티티에 대응되는 가중치를 획득하고;

최대 가중치에 대응되는 목표 후보 엔티티를 진실 의도 엔티티로 결정한다.

도8을 결부하여 알 수 있는바, 일부 실시예에서, 당해 장치는, 미리 설정된 지식 데이터베이스로부터 복수의 엔티티를 추출하는 추출 모듈(5); 및 각 엔티티를 미리 설정된 트라이의 노드로 하고, 각 엔티티의 엔티티 의미항을 당해 엔티티의 서브노드로 하며, 각 엔티티 의미항에 유일한 라벨을 할당하여 트라이를 획득하는 구축 모듈(6); 을 더 포함한다.

도9를 참조하면, 도9는 본 개시의 실시예에 따른 오류를 정정하는 장치의 프레임워크 개략도이다.

도9가 표시하는 오류를 정정하는 장치는 하나의 예시일 뿐, 본 발명의 실시예의 기능과 사용 범위에 대하여 어떠한 한정을 주어서도 안된다.

도9에 도시한 바와 같이, 오류를 정정하는 장치는 범용 컴퓨팅 기기의 형식으로 표현된다. 오류를 정정하는 장치의 컴포넌트는 하나 또는 복수의 프로세서 또는 프로세서 유닛(11), 메모리(12), 부동한 컴포넌트(메모리(12)와 프로세서 유닛(11)을 포함)를 연결하는 버스(13)를 포함할 수 있으나 이에 한정되지 않는다.

버스(13)는 여러 유형의 버스 구조 중의 한 가지 또는 여러 가지 가지를 표시하는바, 메모리 버스 또는 메모리 제어기, 주변 버스, 가속 그래픽 포트, 프로세서 또는 복수 가지 버스 구조에서의 임의 버스 구조를 사용하는 로컬 버스를 포함한다. 예를 들면, 이러한 아키텍처는 산업 표준 아키텍처(ISA) 버스, 마이크로채널 아키텍처 버스(MAC) 버스, 확장 ISA버스, 비디오 전자공학 표준위원회(VESA) 로컬 버스 및 주변 컴포넌트 상호 연결(PCI) 버스를 포함하나, 이에 한정되지 않는다.

오류를 정정하는 장치는 전형적으로 복수 가지 컴퓨터 시스템 판독 가능 매체를 포함한다. 이러한 매체는 임의의 오류를 정정하는 장치에 의하여 액세스될 수 있는 사용 가능 매체일 수 있는바, 휘발성 및 비휘발성 매체, 제거 가능한 및 제거 불가능한 매체를 포함할 수 있다.

메모리(12)는 휘발성 메모리 형식의 컴퓨터 시스템 판독 가능 매체, 예컨대 랜덤 액세스 메모리(RAM)(14) 및/또는 고속 캐시(15)(즉, 고속 캐시 메모리)를 포함할 수 있다. 오류를 정정하는 장치는 기타 제거 가능한/제거 불가능한, 휘발성/비휘발성 컴퓨터 시스템 저장 매체를 나아가 더 포함할 수 있다. 그냥 예로 들면, 저장 시스템(16)은 제거 불가능한, 비휘발성 자기 매체(도9에 미도시, 통상적으로는 '하드 디스크 드라이브'임)에 대해 판독 및 기록하기 위한 것일 수 있다. 비록 도9에는 미도시하였지만, 제거 가능한 비휘발성 자기 디스크(예컨대 '플로피 디스크')에 대해 판독 및 기록하기 위한 자기 디스크 드라이브, 그리고 제거 가능한 비휘발성 광디스크(예컨대 CD-ROM, DVD-ROM 또는 기타 광 매체)에 대해 판독 및 기록하기 위한 광디스크 드라이브가 제공될 수 있다. 이러한 상황에서, 매개 드라이브는 하나 또는 복수의 데이터 매체 인터페이스를 통해 버스(13)와 상호 연결될 수 있다. 메모리(12)는 프로그램 제품을 적어도 하나 포함할 수 있는바, 당해 프로그램 제품은 한 그룹(예컨대 적어도 하나)의 프로그램 컴포넌트를 구비하는바, 이러한 프로그램 컴포넌트는 본 발명의 각 실시예의 기능을 실행하도록 구성된다.

한 그룹(적어도 하나)의 프로그램 컴포넌트(17)를 구비하는 프로그램/유틸리티 도구(18)는 예컨대 메모리(12)에 저장될 수 있는바, 이러한 프로그램 컴포넌트(17)는 운영 체제, 하나 또는 복수 응용 프로그램, 기타 프로그램 컴포넌트 및 프로그램 데이터를 포함하나 이에 한정되지 않고, 이러한 예시에서의 매 한 개 또는 일종의 조합에는 네트워크 환경의 구현이 포함될 수 있다. 프로그램 컴포넌트(17)는 통상적으로 본 발명에서 설명된 실시예 중의 기능 및/또는 방법을 실행한다.

오류를 정정하는 장치는 하나 또는 복수의 주변 기기(19)(예컨대 키보드, 위치 지정 도구, 디스플레이(20) 등)와 통신할 수도 있고, 또한 하나 또는 복수 사용자가 당해 오류를 정정하는 장치와 인터렉션 가능하도록 하는 기기와 통신할 수도 있고, 및/또는 당해 오류를 정정하는 장치가 하나 또는 복수 기타 컴퓨팅 기기와 통신을 진행할 수 있도록 하는 임의 기기(예컨대 네트워크 카드, 모뎀 등)와 통신할 수도 있다. 이러한 통신은 입력/출력(I/O) 인터페이스(21)를 통해 진행할 수 있다. 그리고, 오류를 정정하는 장치는 또한 네트워크 어댑터(22)를 통해 하나 또는 복수의 네트워크(예컨대 근거리 통신망(LAN), 광역 통신망(WAN) 및/또는 공용 네트워크, 예컨대 인터넷)와 통신할 수 있다. 도시한 바와 같이, 네트워크 어댑터(22)는 버스(13)를 통해 오류를 정정하는 장치의 기타 모듈과 통신한다. 알아두어야 할 것은, 비록 도시되지 않았지만, 오류를 정정하는 장치에 결합하여 기타 하드웨어 및/또는 소프트웨어 모듈를 사용할 수 있는바, 마이크로코드, 기기 드라이버, 리던던트 프로세서 유닛, 외장 자기 디스크 드라이브 어레이, RAID 시스템, 자기 테이프 드라이브 및 데이터 백업 저장 시스템 등이 포함되나, 이에 한정되지 않는다.

프로세서 유닛(11)은 메모리(12)에 저장되어 있는 복수의 프로그램 중의 적어도 하나를 작동시키는 것을 통해 각 종 기능 애플리케이션 및 데이터 처리를 실행하는바, 예를 들면 본 발명의 실시예에 의하여 제공되는, 오류를 정정하는 방법을 실행한다.

본 개시의 실시예의 다른 측면에 따르면, 본 개시의 실시예는 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독가능 매체를 더 제공하는바, 상기 프로그램이 프로세서에 의해 실행될 경우, 상기 방법을 구현한다.

당업자라면, 본 명세서에 개시되는 방법에서 전체 또는 일부의 단계, 시스템, 장치 중의 기능 모듈/유닛은 소프트웨어, 펌웨어, 하드웨어 및 이들의 적당한 조합으로 구현될 수 있음을 이해할 수 있다. 펌웨어의 구현 방식에서, 위의 설명에서 언급된 기능 모듈/유닛 사이의 구획은 반드시 물리적인 컴포넌트의 구획에 대응되는 것은 아닌바; 예를 들어, 하나의 물리적인 컴포넌트가 복수의 기능을 구비할 수도 있고, 하나의 기능 또는 단계가 몇개의 물리적인 컴포넌트의 협동으로 수행될 수도 있다. 일부 물리적인 컴포넌트 또는 모든 물리적인 컴포넌트는 프로세서, 예를 들면 중앙 처리 장치, 디지털 신호 프로세서 또는 마이크로프로세서에 의하여 실행되는 소프트웨어로 구현될 수도 있고, 하드웨어로 구현될 수도 있고, 집적회로, 예를 들면 주문형 집적회로(Application Specific Integrated Circuit)로 구현될 수도 있다. 이러한 소프트웨어는 컴퓨터 판독가능 매체에 분포될 수 있고, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체(또는 비임시성 매체)와 통신 매체(또는 임시성 매체)를 포함할 수 있다. 예를 들면, 당업자에게 공지된 용어 컴퓨터 저장 매체는, 정보(예를 들어 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터)를 저장하는 임의의 방법 또는 기술에서 구현되는 휘발성인 및 비휘발성인, 제거 가능한 및 제거 불가능한 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타의 메모리 기술; CD-ROM, 디지털 다기능 디스크(DVD) 또는 기타의 광디스크 저장; 자기 카트리지, 자기 테이프, 자기 디스크 저장 또는 기타의 자기 저장 장치; 또는 원하는 정보를 저장하고 컴퓨터에 의하여 액세스 가능한 임의의 다른 매체를 포함하나, 이에 한정되지 않는다. 또한, 당업자에게 공지된 바로는, 통신 매체는 통상적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 예를 들어 반송파나 기타 전송 매커니즘 부류의 변조 데이터 신호 중의 기타 데이터를 포함하고, 또한, 임의의 정보 전달 매체를 포함할 수 있다.

본 명세서에는 이미 예시적인 실시예가 개시되었고 또 비록 구체적인 용어가 적용되었지만, 이러한 것은 단지 일반적 설명의 의미로 사용되는 것으로, 그러하게 해석되어야 하며 한정을 위한 목적이 아니다. 일부 실시예에 있어서, 별도의 명확한 지적이 있지 않은 한, 특정 실시예에 결부되어 설명되는 특징, 특성 및/또는 요소는 단독 사용이 가능하다는 것은 당업자에게 자명한 바이다, 따라서, 당업자라면, 첨부되는 특허청구범위에 명시되는 본 개시의 범위를 벗어나지 않는 전제하에 여러 가지 형식상의 및 디테일적인 변경이 가능하다는 것을 이해할 수 있다.

1: 획득 모듈
2: 확률 산출 모듈
3: 평가 모듈
4: 결정 모듈
5: 추출 모듈
6: 구축 모듈
11: 프로세서 유닛(또는 프로세서)
12: 메모리
13: 버스
14: RAM
15: 고속 캐시
16: 저장 시스템
17: 프로그램 컴포넌트
18: 유틸리티 도구
19: 외부 기기
20: 디스플레이
21: I/O 인터페이스
22: 네트워크 어댑터.

Claims

오류를 정정하는 방법에 있어서,
수신된 조회 요청에 따라, 미리 설정된 트라이에서 복수의 목표 후보 엔티티를 결정하는 단계;
각 상기 목표 후보 엔티티가 합법 엔티티 인 제1 확률을 산출하는 단계;
각 상기 목표 후보 엔티티를 평가하여 평가 결과를 획득하는 단계 - 하나의 상기 목표 후보 엔티티는 하나의 평가 결과에 대응됨 - ; 및
상기 제1 확률과 상기 평가 결과에 따라, 상기 조회 요청에 대응되는 진실 의도 엔티티를 결정하는 단계; 를 포함하는 것,
을 특징으로 하는 오류를 정정하는 방법.
제1항에 있어서,
상기 수신된 조회 요청에 따라, 미리 설정된 트라이에서 복수의 목표 후보 엔티티를 결정하는 단계 이전에,
상기 조회 요청이 정확하게 입력된 제2 확률을 산출하는 단계를 더 포함하고,
상기 수신된 조회 요청에 따라, 미리 설정된 트라이에서 복수의 목표 후보 엔티티를 결정하는 단계는,
상기 제2 확률이 미리 설정된 제1 역치보다 작은 것에 응답하여, 수신된 조회 요청에 따라, 상기 트라이에서 상기 목표 후보 엔티티를 결정하는 단계; 를 포함하는 것,
을 특징으로 하는 오류를 정정하는 방법.
제1항에 있어서,
상기 수신된 조회 요청에 따라, 미리 설정된 트라이에서 복수의 목표 후보 엔티티를 결정하는 단계는,
상기 조회 요청 중의 문자열과 상기 트라이에 대하여 산출하여 복수의 초기 후보 엔티티를 획득하는 단계; 및
미리 설정된 제2 역치에 따라, 복수의 상기 초기 후보 엔티티로부터 상기 조회 요청에 대응되는 상기 목표 후보 엔티티를 선택하는 단계; 를 포함하는 것,
을 특징으로 하는 오류를 정정하는 방법.
제3항에 있어서,
상기 미리 설정된 제2 역치에 따라, 복수의 상기 초기 후보 엔티티로부터 상기 조회 요청에 대응되는 상기 목표 후보 엔티티를 선택하는 단계는,
각 상기 초기 후보 엔티티와 상기 조회 요청 사이의 제1 거리를 산출하는 단계;
각 상기 제1 거리를 각각 상기 제2 역치와 비교하는 단계; 및
상기 제2 역치보다 작거나 같은 제1 거리에 대응되는 초기 후보 엔티티를 상기 목표 후보 엔티티로 결정하는 단계; 를 포함하는 것,
을 특징으로 하는 오류를 정정하는 방법.
제3항에 있어서,
상기 제2 역치가 제3 역치와 제4 역치를 포함할 경우, 상기 미리 설정된 제2 역치에 따라, 복수의 상기 초기 후보 엔티티로부터 상기 조회 요청에 대응되는 상기 목표 후보 엔티티를 선택하는 단계는,
제1 알고리즘에 따라, 각 상기 초기 후보 엔티티와 상기 조회 요청 사이의 제2 거리를 산출하는 단계;
상기 제2 거리를 상기 제3 역치와 비교하는 단계;
복수의 상기 초기 후보 엔티티로부터 상기 제3 역치보다 작거나 같은 제2 거리에 대응되는 제1 후보 엔티티를 추출하는 단계;
제2 알고리즘에 따라, 각 상기 제1 후보 엔티티와 상기 조회 요청 사이의 제3 거리를 산출하는 단계; 및
상기 제4 역치보다 작거나 같은 제3 거리에 대응되는 제1 후보 엔티티를 상기 목표 후보 엔티티로 결정하는 단계; 를 포함하는 것,
을 특징으로 하는 오류를 정정하는 방법.
제5항에 있어서,
상기 제1 알고리즘이 편집 거리 알고리즘일 경우, 제2 알고리즘은 자카드 거리 알고리즘이고;
상기 제1 알고리즘이 상기 자카드 거리 알고리즘일 경우, 상기 제2 알고리즘은 상기 편집 거리 알고리즘인 것,
을 특징으로 하는 오류를 정정하는 방법.
제1항에 있어서,
상기 각 상기 목표 후보 엔티티를 평가하는 단계는,
각 상기 목표 후보 엔티티에 대응되는 속성 정보를 추출하는 단계;
각 상기 목표 후보 엔티티의 속성 정보의 가중치를 결정하는 단계; 및
상기 가중치에 따라, 각 상기 목표 후보 엔티티를 평가하는 단계; 를 포함하는 것,
을 특징으로 하는 오류를 정정하는 방법.
제1항에 있어서,
상기 제1 확률과 상기 평가 결과에 따라, 상기 조회 요청에 대응되는 진실 의도 엔티티를 결정하는 단계는, 구체적으로,
각 상기 목표 후보 엔티티에 대응되는 제1 확률과 평가 결과에 대하여 가중치를 부여하여, 각 상기 목표 후보 엔티티에 대응되는 가중치를 획득하는 단계; 및
최대 가중치에 대응되는 목표 후보 엔티티를 상기 진실 의도 엔티티로 결정하는 단계; 를 포함하는 것,
을 특징으로 하는 오류를 정정하는 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
미리 설정된 지식 데이터베이스로부터 복수의 엔티티를 추출하는 단계; 및
각 상기 엔티티를 미리 설정된 트라이의 노드로 하고, 각 상기 엔티티의 엔티티 의미항을 당해 엔티티의 서브노드로 하며, 각 상기 엔티티 의미항에 유일한 라벨을 할당하여, 상기 트라이를 획득하는 단계; 를 더 포함하는 것,
을 특징으로 하는 오류를 정정하는 방법.
오류를 정정하는 장치에 있어서,
수신된 조회 요청에 따라, 미리 설정된 트라이에서 복수의 목표 후보 엔티티를 결정하는 획득 모듈;
각 상기 목표 후보 엔티티가 합법 엔티티 인 제1 확률을 산출하는 확률 산출 모듈;
각 상기 목표 후보 엔티티를 평가하여 평가 결과를 획득하는 평가 모듈 - 하나의 상기 목표 후보 엔티티는 하나의 평가 결과에 대응됨 - ; 및
상기 제1 확률과 상기 평가 결과에 따라, 상기 조회 요청에 대응되는 진실 의도 엔티티를 결정하는 결정 모듈; 을 포함하는 것,
을 특징으로 하는 오류를 정정하는 장치.
제10항에 있어서,
상기 확률 산출 모듈은, 또한, 상기 조회 요청이 정확하게 입력된 제2 확률을 산출하고,
상기 획득 모듈은, 구체적으로, 상기 제2 확률이 미리 설정된 제1 역치보다 작은 것에 응답하여, 수신된 조회 요청에 따라, 상기 트라이에서 상기 목표 후보 엔티티를 결정하는 것,
을 특징으로 하는 오류를 정정하는 장치.
제10항에 있어서,
상기 획득 모듈은, 구체적으로,
상기 조회 요청 중의 문자열과 상기 트라이에 대하여 산출하여, 복수의 초기 후보 엔티티를 획득하고;
미리 설정된 제2 역치에 따라, 복수의 상기 초기 후보 엔티티로부터 상기 조회 요청에 대응되는 상기 목표 후보 엔티티를 선택하는 것,
을 특징으로 하는 오류를 정정하는 장치.
제12항에 있어서,
상기 획득 모듈은, 구체적으로,
각 상기 초기 후보 엔티티와 상기 조회 요청 사이의 제1 거리를 산출하고;
각 상기 제1 거리를 각각 상기 제2 역치와 비교하고;
상기 제2 역치보다 작거나 같은 제1 거리에 대응되는 초기 후보 엔티티를 상기 목표 후보 엔티티로 결정하는 것,
을 특징으로 하는 오류를 정정하는 장치.
제12항에 있어서,
상기 제2 역치가 제3 역치와 제4 역치를 포함할 경우, 상기 획득 모듈은, 구체적으로,
제1 알고리즘에 따라, 각 상기 초기 후보 엔티티와 상기 조회 요청 사이의 제2 거리를 산출하고;
상기 제2 거리를 상기 제3 역치와 비교하고;
복수의 상기 초기 후보 엔티티로부터 상기 제3 역치보다 작거나 같은 제2 거리에 대응되는 제1 후보 엔티티를 추출하고;
제2 알고리즘에 따라, 각 상기 제1 후보 엔티티와 상기 조회 요청 사이의 제3 거리를 산출하고;
상기 제4 역치보다 작거나 같은 제3 거리에 대응되는 제1 후보 엔티티를 상기 목표 후보 엔티티로 결정하는 것,
을 특징으로 하는 오류를 정정하는 장치.
제14항에 있어서,
상기 제1 알고리즘이 편집 거리 알고리즘일 경우, 제2 알고리즘은 자카드 거리 알고리즘이고;
상기 제1 알고리즘이 상기 자카드 거리 알고리즘일 경우, 상기 제2 알고리즘은 상기 편집 거리 알고리즘인 것,
을 특징으로 하는 오류를 정정하는 장치.
제10항에 있어서,
상기 평가 모듈은, 구체적으로,
각 상기 목표 후보 엔티티에 대응되는 속성 정보를 추출하고;
각 상기 목표 후보 엔티티의 속성 정보의 가중치를 결정하고;
상기 가중치에 따라, 각 상기 목표 후보 엔티티를 평가하는 것,
을 특징으로 하는 오류를 정정하는 장치.
제8항에 있어서,
상기 결정 모듈은, 구체적으로,
각 상기 목표 후보 엔티티에 대응되는 제1 확률과 평가 결과에 대하여 가중치를 부여하여, 각 상기 목표 후보 엔티티에 대응되는 가중치를 획득하고;
최대 가중치에 대응되는 목표 후보 엔티티를 상기 진실 의도 엔티티로 결정하는 것,
을 특징으로 하는 오류를 정정하는 장치.
제10항 내지 제17항 중 어느 한 항에 있어서,
미리 설정된 지식 데이터베이스로부터 복수의 엔티티를 추출하는 추출 모듈; 및
각 상기 엔티티를 미리 설정된 트라이의 노드로 하고, 각 상기 엔티티의 엔티티 의미항을 당해 엔티티의 서브노드로 하며, 각 상기 엔티티 의미항에 유일한 라벨을 할당하여, 상기 트라이를 획득하는 구축 모듈; 을 더 포함하는 것,
을 특징으로 하는 오류를 정정하는 장치.
컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독 가능 저장 매체에 있어서,
상기 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제9항 중 어느 한 항의 방법이 구현되는 것,
을 특징으로 하는 컴퓨터 판독 가능 저장 매체.