KR20160149978A - 검색 엔진 및 그의 구현 방법 - Google Patents

검색 엔진 및 그의 구현 방법 Download PDF

Info

Publication number
KR20160149978A
KR20160149978A KR1020150169288A KR20150169288A KR20160149978A KR 20160149978 A KR20160149978 A KR 20160149978A KR 1020150169288 A KR1020150169288 A KR 1020150169288A KR 20150169288 A KR20150169288 A KR 20150169288A KR 20160149978 A KR20160149978 A KR 20160149978A
Authority
KR
South Korea
Prior art keywords
dictionary
word
previous
result
candidate
Prior art date
Application number
KR1020150169288A
Other languages
English (en)
Other versions
KR101721338B1 (ko
Inventor
가오린 팡
Original Assignee
바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 filed Critical 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Publication of KR20160149978A publication Critical patent/KR20160149978A/ko
Application granted granted Critical
Publication of KR101721338B1 publication Critical patent/KR101721338B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • G06F17/30864
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • G06F17/30646
    • G06F17/30991
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 검색 엔진 및 그의 구현 방법을 개시한다. 검색 엔진의 구현 방법은, 사용자가 입력한 조회 청구를 수신하는 단계; 조회 청구와 매칭되는 후보 결과를 획득하는 단계; 클릭 전의 모형을 기반으로 조회 청구와 각 후보 결과사이의 어의 상관도를 확정하는 단계; 및 어의 상관도에 따라 후보 결과에 대해 순서배열을 진행하는 단계;를 포함하되, 클릭 전의 모형은 전의 사전 및/또는 비전의 사전을 포함하고, 전의 사전은 전의가 발생함을 확정한 검색 결과의 상응한 단어 및 그의 상하문을 포함하고, 비전의 사전은 전의가 발생하지 않음을 확정한 검색 결과의 상응한 단어 및 그의 상하문을 포함한다. 본 발명의 기술적 방안에 의하면, 어의 상관도에 따라 검색된 후보 결과에 대해 순서배열을 진행여 검색 결과의 순서배열 효과를 향상 시키고 검색 결과 리스트의 전열에 사용자의 검색 수요에 부함되지 않는 검색 결과가 발생하는 것을 피면할 수 있으므로 사용자로 하여금 양호한 사용 체험을 가지도록 확보한다.

Description

검색 엔진 및 그의 구현 방법{Search engine and implementation method thereof}
본 발명은 컴퓨터 기술 분야에 관한 것으로, 구체적으로 정보 검색 분야에 관한 것이며, 특히는 검색 엔진 및 그의 구현 방법에 관한 것이다.
인터넷은 여러가지 자원을 에세스할 입구를 제공한다. 이러한 자원은 예를 들면, 화상 파일, 음성 파일, 영상 파일 및 웹페이지 등을 포함한다. 사용자는 검색 시스템 또는 검색 엔진을 통하여 방문하려고 하는 자원을 검색할 수 있다.
검색 과정에서는, 통상적으로 사용자가 하나의 조회(Query)를 입력하고, 검색 엔진이 조회와 매칭되는 결과를 피드백한다. 조회는 문서 조회일 수 있으며, 하나 또는 다수의 조회 단어(Term) 또는 문구를 포함한다. 검색 엔진은 예를 들면, 문서 상관의 매칭 방법을 통하여 검색 조회와 상응한검색 결과를 피드백할 수 있다.
실제 검색 과정에서, 문서 상관의 매칭 방법을 통하여 피드백한 결과는 종종 사용자의 조회 수요와 매칭되지 않으며, 전의가 발생한다. 예를 들면, 사용자가 모 스타 A를 검색할 경우, 검색 결과에는 "A의 자가용"을 포함하는 상관 문서가 포함될 수 있으며,
Figure pat00001
를 검색할 경우,
Figure pat00002
의 결과가 발생할 수 있다.
기존의 문서 매칭 방안은, 주로 검색 결과 문서의 공동 부분이 조회 및 검색 결과에서 차지하는 비례를 조회하는 방식, BM25의 상관성 방식 등이 존재한다. 그러나, 이러한 매칭 방안은 상술한 전의 문제를 해결하지 못한다.
상기와 같은 문제점들을 감안하여, 본 발명은 검색 결과 전의 문제를 효과적으로 해결할 수 있는 방안을 제공한다.
제1 방면에 있어서, 본 발명의 실시예는 검색 엔진의 구현 방법을 제공한다. 상기 방법은, 사용자가 입력한 조회 청구를 수신하는 단계; 조회 청구와 매칭되는 후보 결과를 획득하는 단계; 클릭 전의 모형을 기반으로 조회 청구와 각 후보 결과사이의 어의 상관도를 확정하는 단계; 및 어의 상관도에 따라 후보 결과에 대해 순서배열을 진행하는 단계;를 포함하되, 클릭 전의 모형은 전의 사전 및/또는 비전의 사전을 포함하고, 전의 사전은 전의가 발생함을 확정한 검색 결과의 상응한 단어 및 그의 상하문을 포함하며, 비전의 사전은 전의가 발생하지 않음을 확정한 검색 결과의 상응한 단어 및 그의 상하문을 포함한다.
제2 방면에 있어서, 본 발명의 실시예는 검색 엔진을 더 제공한다. 상기 검색 엔진은, 사용자가 입력한 조회 청구를 수신하는 수신 유닛; 상기 조회 청구와 매칭되는 후보 결과를 검색하는 검색 유닛; 클릭 전의 모형을 기반으로 상기 조회 청구와 각 후보 결과사이의 어의 상관도를 확정하는 어의 상관도 확정 유닛; 및 상기 어의 상관도에 따라 후보 결과에 대해 순서배열을 진행하는 순서배열 유닛;을 포함한다. 여기서, 클릭 전의 모형은 전의 사전 및/또는 비전의 사전을 포함하고, 상기 전의 사전은 전의가 발생함을 확정한 검색 결과의 상응한 단어 및 그의 상하문을 포함하고, 상기 비전의 사전은 전의가 발생하지 않음을 확정한 검색 결과의 상응한 단어 및 그의 상하문을 포함한다.
본 발명의 실시예가 제공하는 검색 엔진 및 그의 구현 방법은, 클릭을 기반으로 URL에 관련된 HTTP 청구 링크를 획득함으로써, 비교적 전멱적인 URL 관련 웹페이지 내용을 획득할 수 있으며, 악성 웹주소에 대해 정확한 검출을 진행할 수 있다. 본 발명의 실시예의 기술적 방안에 의하면, 어의 상관도에 따라 검색된 후보 결과에 대해 순서배열을 진행함으로써, 검색 결과의 순서배열 효과를 향상시킬 수 있으며 검색 결과 리스트의 전열에 사용자의 검색 수요에 부합되지 않는 결과(즉, 전의 결과)가 발생하는 것을 피면할 수 있으므로 사용자로 하여금 양호한 사용 체험을 가지도록 확보한다.
본 발명의 기타 특징, 목적 및 장점들은 하기 도면을 결합하여 진행하는 비제한적 실시예들에 대한 구제적인 설명을 통하여 더욱 명확해 질 것이다.
도1은 본 발명의 실시예를 적용할 수 있는 예시적 시스템 구조(100)를 보여준다.
도2는 본 발명의 실시예에 따른 클릭 전의
Figure pat00003
모형을 구성하는 방법의 예시적 흐름도를 보여준다.
도3은 본 발명의 실시예에 따른 단어 정렬을 이용하여 인접한 상하문을 획득하는 일 실시예의 구현을 보여준다.
도4는 본 발명의 실시예에 따른 검색 엔진의 구현 방법의 예시적 흐름도를 보여준다.
도5는 본 발명의 실시예에 따른 클릭 전의 모형을 기반으로 조회 청구와 후보 결과사이의 어의 상관도를 확정하는 방법의 예시적 흐름도를 보여준다.
도6은 본 발명의 실시예에 따른 문구에 대해 처리를 지행한 결과의 예시도를 보여준다.
도7은 본 발명의 실시예에 따른 클릭 전의 모형을 기반으로 단어 분리 유사도의 가중치를 조정하는 방법의 일 예시적 흐름도를 보여준다.
도8은 본 발명의 실시예에 따른 검색 엔진의 예시적 구조 블록도를 보여준다.
도9는 본 발명의 실시예의 서버를 실현하기 위한 컴퓨터 시스템의 예시적 구조도를 보여준다.
이하, 첨부된 도면 및 실시예들을 결합하여 본 발명을 상세히 설명하기로 한다. 본 명세서에 설명된 구체적인 실시예들은 오직 해당 발명을 설명하기 위한 것일 뿐, 해당 발명을 한정하기 위한 것이 아님을 자명하여야 할 것이다. 또한, 설명의 편의를 위하여, 도면에는 오직 본 발명에 관련된 부분만이 도시되어 있다.
본 발명의 실시예 및 실시예의 특징들은 서로 모순되지 않는한 상호 조합할 수 있다. 이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 한다.
배경 기술에 기재된 바와 같이, 문서 검색에서 통상적으로 문서의 국부적 매칭으로 인하여 전의
Figure pat00004
문제를 초래하게 된다. 예를 들면, 모기향을 검색할 경우, 결과는 모기향 곽을 포함하고; 휴대폰을 검색할 경우, 결과는 휴대폰 케이스를 포함하며; 상산 (常山)을 검색할 경우, 결과는 상산 배추를 포함한다. 문서을 이용하여 픽처를 검색할 경우 이러한 문제들은 더욱 뚜렷하다. 예를 들면, "스타 A"의 픽처를 검색할 경우, 결과는 스타 A의 촬영도, 스타A의 고화질 초상도, 스타A의 콘서트, 스타A의 자가용 등을 포함한다. 이러한 결과중, 스타A의 자가용은 전의
Figure pat00005
된 결과이고 사용자가 원하는 결과가 아니다.
기존 기술의 상기 결함을 감안하여, 본 발명의 실시예는 상기 전의
Figure pat00006
문제를 해결하도록 어의 전의
Figure pat00007
정도에 따라 검색 결과에 대해 순서배열을 진행하는 방안을 제공한다. 통상적으로, 검색 과정에 표시된 결과 중 클릭되는 회수가 높은 결과가 흔히 사용자가 원하는 결과임을 이해하여야 한다. 즉, 클릭되는 회수가 높은 결과가 사용자가 조회하는 Query에 대하여 전의가 발생하지 않는 확률이 매우 높다. 반면, 여러번 표시되었으나 클릭되는 회수가 낮거나 클릭된 적이 없는 결과는 통상적으로 사용자가 원하지 않는 것이다. 즉, 이러한 결과는 사용자가 조회하는 Query에 대하여 전의가 발생하지 확률이 매우 높다. 또한, 전의된 데이터에 대해 분석을 진행할 때, 대다수의 전의가 모두 인전합 상하문중에 발생하며 거리가 비교적 먼 상하문에는 기본상 아무런 영향을 미치지 않음 발견하였다. 따라서, 상기 분석을 기반으로 본 발명의 여러 실시예에 따른 검색 엔진의 구현 방법을 개시한다.
도1은 본 발명의 실시예를 적용할 수 있는 예시적 시스템 구조(100)를 보여준다.
도1에 도시된 바와 같이, 시스템 구조(100)는 단말기 장치(101, 102), 네트워크(103) 및 서버(104)를 포함할 수 있다. 네트워크(103)는 단말기 장치(101, 102)와 서버(104)사이에서 통신링크의 매체를 제공한다. 네트워크(103)는 예를 들면, 유선, 무선 통신 링크 또는 광섬유 케이블 등 각종 연결 유형을 포함할 수 있다.
사용자(110)는 단말기 장치(101, 102)를 사용하여 네트워크(103)를 통하여 서버(104)와 교호하여 예를 들면, 정보 검색, 웹 페이지 열람, 데이터 다운로드 등 각종 서비스를 방문할 수 있다. 단말기 장치(101, 102)에는 예를 들면, 유니폼 리소스 로케이터URL 클라우드 서비스를 어세스할 수 있는 어플리케이션과 같은 각종 클라이언트 어플리케이션이 설치될 수 있으며, 브라우저, 안전 어플리케이션 등을 포함하나 이에 한정된 것은 아니다.
단말기 장치(101, 102)는 각종 전자 장치일 수 있으며, 예를 들면, 예를 들면, 스마트폰, 태블릿 PC, PDA, 전자책 열람기 등과 같은 각종 이동가능한 휴대용 장치, 및 예를 들면, 개인용 컴퓨터, 스마트 TV, 조회 서비스 단말기 등과 같은 고정형 단말기 장치를 포함할 수 있으나 이에 한정된 것은 아니다.
서버(104)는 각종 서비스를 제공하는 서버일 수 있다. 서버는 서비스 청구애 응하여 서비스를 제공할 수 있다. 하나의 서버가 하나 또는 다수의 서비스를 제공하거나, 다수의 서버가 동일한 서비스를 제공할 수 있음을 이해하여야 한다. 본 발명의 실시예에서, 관련된 서버(104)는 검색 서버일 수 있다.
도1 중의 단말기 장치, 네트워크 및 서버의 수량은 오직 예시적이다. 구현의 수요에 따라, 임의의 수량의 단말기 장치, 네트워크 및 서버를 구비할 수 있다.
본 발명의 실시예의 검색 엔진의 구현 방법을 설명하기 위하여, 먼저 본 발명의 실시예에 개시된 클릭 전의 모형의 구축을 설명한다. 앞서 분석한 바와 같이, 클릭되는 회수가 높은 검색 결과가 상응한 죄회 Query에 대하여 전의가 발생하지 않는 확률이 높고, 클릭되는 회수가 낮거나 클릭된 적이 없는 검색 결과가 상응한 Query에 대하여 전의가 발생하는 확률이 높다. 또한, 대다수의 전의는 모두 인접한 상하문중에 발생하며 거리가 비교적 먼 상하문에는 기본상 아무런 영향을 미치지 않는다. 따라서, 본 발명의 실시예에서, 조회 청구와 검색 결과 (예를 들면, 웹페이지 타이틀 표시)Query-Title 쌍의 클릭 회수를 학습하면서 전의가 발생하는 상하문을 고려하여 클릭 전의 모형을 구축한다. 구체적으로, 클릭 전의 모형은 전의 사전 및/또는 비전의 사전을 포함할 수 있다. 여기서, 전의 사전은 전의가 발생함을 확정한 검색 결과의 상응한 단어 및 그의 상하문을 포함하고, 비전의 사전은 전의가 발생하지 않음을 확정한 검색 결과의 상응한 단어 및 그의 상하문을 포함한다.
도2는 본 발명의 실시예에 따른 클릭 전의 모형을 구축하는 방법의 예시적 흐름도를 보여준다.
도2에 도시된 바와 같이, 단계(210)에서, Query-Title 쌍의 클릭 표시 비율을 획득한다.
클릭 전의 모형은 기왕 Query-Title 쌍을 학습하여 구축할 수 있다. 이러한 기왕 Query-Title 쌍은 Query 일지에 저장될 수 있다. Query 일지는 예를 들면, 매번 사용자 조회 대화에서 사용되는 조회 청구Query, 표시된 검색 결과 및 사용자가 검색 결과에 대한 클릭 조작 등을 기록한다. 이러한 검색 결과는 예를 들면, 웹페이지 타이틀Title를 이용하여 표시되고, 따라서, Query-Title 쌍이 가리키는 것은 조회-검색 결과 쌍이다.
각 Query-Title 쌍의 표시 정황 및 클릭 정황을 통계하여 Query-Title 쌍의 클릭 표시 비율을 획득할 수 있다. 여기서, 클릭 표시 비율은 클릭 회수와 표시 회수사이의 비율이고, 표시 회수는 검색 결과Title가 조회 청구Query에 응하여 표시되는 회수를 지시하고, 클릭 회수는 검색 결과Title가 조회 청구Query에 응하여 표시될 때 사용자에 의해 클릭되는 회수를 지시한다.
앞서 분석한 바와 같이, 클릭되는 회수가 높은 검색 결과가 상응한 죄회 Query에 대하여 전의가 발생하지 않는 확률이 높고, 클릭되는 회수가 낮거나 클릭된 적이 없는 검색 결과가 상응한 Query에 대하여 전의가 발생하는 확률이 높다. 따라서, Query-Title 쌍의 클릭 표시 비율은 Title이 Query에 대한 전의도
Figure pat00008
또는 전의 확률을 비교적 잘 표현할 수 있다. 예를 들면, 표시 클릭 비율 또는 클릭 회수를 기반으로 하는 기타 파라미터를 사용하여 전의도 또는 전의 확률을 표현할 수도 있음을 해당 기술 분야에서 통상 지식을 가진 자가 자명할 것이다.
다음, 단계(220)에서, 단어 정렬을 이용하여 검색 결과Title에서 조회 Query 어구 중 단어와 정렬된 인접한 상하문을 획득한다.
각 Query-Title 쌍에 있어서, 먼저 Query와 Title에 대해 각각 단어 분리를 진행할 수 있다. 다음, 단어 정렬을 이용하여 Query 중의 각 단어에 대해 그가 Title에서의 상응한 위치를 조회한다. 여기의 단어 정렬은 동의 정렬
Figure pat00009
도 포함한다. 예를 들면, 완전히 대응되는 단어가 존재하지 않을 경우, 그의 동의어를 고려한다. 마지막으로, Title에서 Query 중 첫 단어 정렬과 끝 단어 정렬의 인접한 상하문을 획득한다.
도3은 본 발명의 실시예에 따른 단어 정렬을 이용하여 인접한 상하문을 획득하는 일 실시예의 구현을 보여준다. 도3의 예에서, Query는
Figure pat00010
이고, Title은
Figure pat00011
이다.
도3에 도시된 바와 같이, Query와 Title에 대해 각각 단어 분리를 진행한다. 구체적으로, Query는
Figure pat00012
Figure pat00013
로 분리되고, Title은
Figure pat00014
,
Figure pat00015
,
Figure pat00016
,
Figure pat00017
,
Figure pat00018
,
Figure pat00019
Figure pat00020
으로 분리되며, 도면에서는 블록으로 각 단어를 분리한다.
다음, 단어 정렬을 이용하여 Query 중의 각 단어에 대해 그가 Title에서의 상응한 위치를 조회한다. 도3의 예에서, 화살표가 지시하는 바와 같이, Query 중의 각 단어
Figure pat00021
Figure pat00022
는 모두 Title에서 완전히 대응되는 단어를 조회할 수 있다.
마지막으로, Title에서 첫 단어 정렬 및 끝 단어 정렬된 인접한 상하문을 획득한다. 더욱, 구체적으로, 첫 단어 정렬된 인접한 상 문장과 끝 단어 정렬된 인접한 하문을 획득한다. 본 예시에서, 첫 단어
Figure pat00023
의 인접한 상문은
Figure pat00024
”이고, 끝 단어
Figure pat00025
의 인접한 하문은 “的”이고, 정지어 “的”를 필터링하고 그뒤의 비정지어를 계속하여 검색하여 하문으로 이용한다. 즉,
Figure pat00026
의 인접한 하문은
Figure pat00027
이다.
인류 언어는 수많은 기능어들을 포함한다. 기타 단어와 비교시, 기능어는 실질적인 함의를 구비하지 않는다. 제일 보편적인 기능어는 한정어(
Figure pat00028
,
Figure pat00029
,
Figure pat00030
,
Figure pat00031
, “the”, “a”, “an”, “that” 및 “those”)이고, 이러한 단어는 문장중에서 지점 또는 수량과 같은 명사를 묘사하고 개념을 표달하는 것을 돕는다. “在..上”, “在..下”, “over”, “under”, “above” 등과 같은 개사는 두 단어의 상대적 위치를 표시한다. 이러한 기능어들은 매우 보편적이며, 이러한 단어들은 각 문서어세의 수량을 기록하는 데는 매우 큰 디스크 공간을 차지한다. 또한, 이들의 보편성과 기능에 인하여 이러한 단어들이 문서 상관 정도의 정보를 단독적으로 표현하는 경우가 흔치 않다. 검색 과정에서 문구를 고려하지 않고 각 단어만 고려할 경우, 이러한 기능어들은 기본상 도움되지 않는다.
정보 검색에서, 이러한 기능어의 다른 명칭은 정지어(stopword)이다. 이들을 정지어라 지칭하는 이유는 문서 처리 과정에서 이들을 마주치게 되는 경우 즉시 처리를 정지하고 이를 버리기 때문이다. 이러한 단어를 버림으로써 인덱스 양을 감소하고 검색 효율을 증가하며 통상적으로 검색 효과도 향상시킨다. 정지어는 주로 영어 문자 부호, 수자, 수학 문자 부호, 문장 부호 및 사용 빈도가 매우 높은 홑 한자 등을 포함한다.
다시 도2를 참조하면, 단계(230)에서, 클릭 표시 비율을 기반으로 상응하게 전의 사전 및/또는 비전의 사전을 구축한다. 구체적으로, 클릭 표시 비율이 제1 역치보다 작은 Query-Title 쌍 중의 상응한 단어 및 그의 상하문을 전의 사전에 추가하고; 및/또는 클릭 표시 비율이 제2 역치보다 큰 Query-Title 쌍 중의 상응한 단어 및 그의 상하문을 비전의 사전에 추가한다. 제1 역치는 제2 역치와 동일하거나 부동할 수 있다.
기왕 Query-Title 쌍 중의 각 Query-Title 쌍에 대하여 도2에 도시된 처리를 실행하여, 클릭 표시 비율이 제1 역치보다 작은 Query-Title 쌍 중의 모든 단어를 주적하고 상응한 상하문을 합병하여 전의 사전을 생성할 수 있으며; 클릭 표시 비율이 제2 역치보다 큰 Query-Title 쌍 중의 모든 단어를 누적하고 상응한 상하문을 합병하여 비전의 사전을 생성할 수 있다. 상기 전의 사전과 비전의 사전의 생성과정에서 Query 중의 단어를 확장하지 않았으므로, 여기서 생성된 전의 사전은 원생 전의 사전이라 지칭할 수 있으며, 상응한 비전의 사전은 원생 비전의 사전이라 지칭할 수 있다.
선택적 또는 부가적으로, 일부 실시예에서, 통계된 상하문을 더욱 큰 범위로 보급하기 위하여, Query 중의 단어의 어의 유형을 추상화하여 추상화 된 전의 사전 및/또는 추상화 된 비전의 사전응 생성할 수 있다.
이러한 실시예에서, Query 중의 단어에 대해 어의 유형 표기를 진행하고 단어의 어의 유형을 통하여 추상화를 진행할 수있다. 예를 들면, 단어가 모 스타 A의 이름일 경우, 그의 어의 유형을 스타로 표기할 수 있고; 단어가 주자이거우
Figure pat00032
일 경우, 그의 어의 유형을 명승지로 표기할 수 있다. 어의 유형 표기를 통하여 일수 실체의 단어를 어의 유형으로 대체할 수 있다.
여러가지 방식을 이용하여 단어에 대해 어의 유형 표기를 진행할 수 있으며, 예를 들면, 범용의 최대 엔트로피 분류기를 이용하여 단어에 대해 분류 식별을 진행할 수 있다. 어의 유형은 예를 들면, 예능 스타, 스포츠 스타, 과학 기술 인물, 명승지, 영상, 자동차, 애니메이션, 동물, 식물 등을 포함할 수 있으나 이에 한정된 것은 아니다.
표기된 어의 유형을 이용하여 원생 전의 사전과 원생 비전의 사전에 대응되는 추상화 된 전의 사전과 추상화 된 비전의 사전을 구축할 수 있다. 일 구현에서, 원생 전의 사전/원생 비전의 사전 중의 원 단어를 추상화 된 어의 유형으로 간단하게 대체하여 추상화 된 전의 사전/추상화 된 비전의 사전을 생성할 수 있다.
이상에서 본 발명의 실시예의 클릭 어의 모형의 구축을 설명하였고, 아래에는 흐름도를 결합하여 클릭 어의 모형을 기반으로 검색 엔진의 검색 결과를 개선하는 방안을 설명하기로 한다.
도4는 본 발명의 일 실시예에 따른 검색 엔진의 구현 방법의 예시적 흐름도를 보여준다. 도4에 도시된 방법은 검색 엔진이 위치한 서버(예를 들면, 도1의 서버(104))로 실행할 수 있다.
도4에 도시된 바와 같이, 단계(410)에서, 사용자가 입력한 조회 청구를 수신한다.
사용자는 각종 단말기 장치(예를 들면, 도1에 도시된 단말기 장치(101, 102))를 통하여 검색 조회를 진행할 수 있다. 이러한 단말기 장치는 사용자에게 사용자 인터페이스(예를 들면, 브라우저 인터페이스)를 표시하여 조회 청구를 입력하도록 한다. 사용자는 예를 들면, 터치 스크린, 스타일러스, 키보드, 마이크 등과 같은 각종 입력 공구를 통하여 조회 청구를 입력할 수 있다. 조회 청구는 문서 조회, 음성 조회 또는 기타 유형의 조회일 수 있다. 조회 청구가 비 문서 조회일 경우, 광학 문자 판독 OCR, 음성 식별 등과 같은 각종 적합한 기술을 이용하여 비문서 조회를 문서 조회로 전환할 수 있다. 나아가, 단말기 장치는 수신된 원 조회 청구 또는 전환된 조회 청구를 검색 서버(예를 들면, 도1의 서버(104))에 발송할 수 있다.
다음, 단계(420)에서, 수신된 조회 청구와 매칭되는 후보 결과를 검색한다.
조회 청구와 매칭되는 후보 결과는 여러가지 방식을 이용하여 검색할 수 있다. 일부 구현에서, 조회 청구와 매칭되는 후보 결과는 예를 들면 단어 매칭과 같은 문서 매칭 방법을 사용하여 검색할 수 있다. 단어 매칭 방법의 일부 범용의 연산법은 예를 들면, BM25(Best Match,최적 매칭) 연산법, proximity(Term proximity scoring,단어 인접 스코어링) 연산법 등을 포함할 수 있다. 단어 매칭 연산법을 통하여 검새하는 문서과 조회 청구의 매칭 정도를 산출하고, 나아가 매칭 정도를 기반으로 조회 청구와 매칭되는 후보 결과를 제공할 수 있다. 상기 검색 방법은 현재 이미 알려진 각종 연산법을 사용하여 실현할 수 있으므로 불필요한 설명은 생략하기로 한다.
나아가, 단계(430)에서, 클릭 전의 모형을 기반으로 조회 청구와 각 후보 결과사이의 어의 상관도를 확정한다.
실제 검색에서, 조회 청구와 매칭되는 후보 결과에 대해 통상적으로 일정한 수량의 후보 결과를 선별하고 세분화 처리를 진행한다. 예를 들면, 2000개 후보 결과를 선별하고 이러한 결과 중 각 후보 결과와 조회 청구의 어의 상관도를 분석할 수 있다.
앞서 도2 및 도3을 결합하여 설명한 바와 같이, 클릭 전의 모형은 조회 청구와 검색 결과 Query-Title 쌍의 클릭 회수를 학습하면서 전의 발생의 상하문을 고려하여 구축한다. 구체적으로, 클릭 전의 모형은 전의 사전 및/또는 비전의 사전을 포함할 수 있으며, 전의 사전은 전의가 발생함을 확정한 검색 결과의 상응한 단어 및 그의 상하문을 포함하고, 비전의 사전은 전의가 발생하지 않음을 확정한 검색 결과의 상응한 단어 및 그의 상하문을 포함한다.
따라서, 클릭 전의 모형을 기반으로 확정한 어의 상관도는 Query-Title 쌍의 클릭 회수를 고려하였을 뿐만 아니라 전의 발생의 상하문고 고려하였으므로, 확정된 어의 상관도는 조회 청구에 대한 후보 결과의 전의 확률을 정확히 표시할 수 있다. 아래에 클릭 전의 모형을 기반으로 어의 상관도를 확정하는 상세한 방법을 설명하기로 한다.
마지막으로, 단계(440)에서, 어의 상관도에 따라 후보 결과에 대해 순서배열을 진행한다.
본 단계에서, 각 후보 결과와 조회 청구의 어의 상관도가 낮아지는 순서에 따라 선택된 후보 결과에 대해 순서배열을 진행하고 표시하여 조회 청구와 비교적 상관된 검색 결과가 앞에 표시되도록 하여 사용자로 하여금 표시된 검색 결과로부터 원하는 상관된 문서을 신속히 획득하도록 하여 자신의 검색 수요를 만족 시키고 검색 효율을 향상시킬 수 있다. 본 단계는 수요에 따라 기타 순서를 이용하여 순서배열 처리를 진행할 수 있음을 이해하여야 한다.
도5는 본 발명의 실시예에 따른 클릭 전의 모형을 기반으로 조회 청구와 후보 결과사이의 어의 상관도를 확정하는 방법의 예시적 흐름도를 보여준다. 즉, 도5는 도4의 단계(430)의 일 예시적 구현을 보여준다.
도5에 도시된 바와 같이, 단계(510)에서, 조회 청구와 후보 결과의 하나 또는 다수의 어구사이의 어의 상관도를 확정한다.
후보 결과는 각종 웹 페이지 정보로서, 문서(document)를 사용하여 표시할 수 있다. 통상적으로, 문서는 다수의 어구로 조성되고, 그의 구조상 예를 들면 타이틀(Title), 앵커 문구(Anchor text) 및 본문 등을 포함할 수 있다. 타이틀은 문서의 주제를 간단하고 정련하게 설명한다. 앵커 문구는 앵커 문구 링크라고도 지칭하며, 링크의 일 형식이며, 하이퍼 링크와 유사하게, 키워드를 하나의 링크로 하고 다른 웹페이지에 지향한다. 이러한 형식의 링크를 앵커 문구라 지칭한다. 앵커 문구는 실질상 문서 키워드와 URL 링크의 관계를 생성한다. 본문은 통상적으로 비교적 많은 내용을 포함한다.
후보 결과가 통상적으로 비교적 많은 어구를 포함하므로, 조회 청구와 후보 결과의 하나 또는 다수의 어구사이의 어의 상관도를 각각 확정할 수 있다. 이러한 어구는 예를 들면, 타이틀, 앵커 문구, 본문 중의 핵심 문장 등으로부터 선택될 수 있다. 본문 중의 핵심 문장은 기존 기술 중에 이미 알려진 또는 미래에 개발될 여러가지 방식을 이용하여 확정할 수 있다. 일 구현에서, 본문 중의 첫 구절을 그의 핵심 문장으로 인정할 수 있다.
다음, 단계(520)에서, 확정된 조회 청구와 후보 결과의 하나 또는 다수의 어구사이의 어의 상관도에 따라 조회 청구와 해당 후보 결과사이의 어의 상관도를 확정한다.
조회 청구와 후보 결과사이의 최종 어의 상관도는 여러가지 방식을 통하여 확정할 수 있다. 일 구현에서, 확정된 다수의 어의 상관도로부터 그의 최대치를 선택하여 조회 청구와 해당 후보 결과사이의 어의 상관도로 할 수 있다. 다른 일 구현에서, 확정된 다수의 어의 상관도의 평균치를 조회 청구와 해당 후보 결과사이의 어의 상관도로 할 수 있다. 기타 함수 관계를 사용하여, 확정된 다수의 어의 상관도를 기반으로 조회 청구와 해당 후보 결과의 최종 어의 상관도를 확정할 수 있으며 본 발명은 이에 한정되지 않음을 해당 기술 분야에서 통상 지식을 가진 자가 자명할 것이다.
단계(510)는 본 발명의 실시예에 따른 조회 청구와 후보 결과의 모 어구사이의 어의 상관도를 확정하는 방법의 예시적 구현을 진일보로 보여준다. 이러한 구현에서, 어의 상관도는 주로 어구사이의 주제 매칭 유사도 및 어구사이의 전의 인자 이 두개의 부분으로 조성된다.
구체적으로, 단계(511)에서, 미리 구축된 클릭 전의 모형을 기반으로 문장사이의 문구 주제 매칭 모형을 이용하여 조회 청구와 후보 결과의 어구사이의 주제 매칭 유사도를 산출한다.
두 어구사이의 주제 매칭 유사도는 여러가지 도량 방식을 이용하여 표시할 수 있다. 일부 구현에서, 통합된 프레임의 벡터 공간 모형 유사도 산출 방법을 이용하여 어구사이의 주제 매칭 유사도를 산출할 수 있다.
예를 들면, 두 문장을 각각 S1, S2로 표시하면,
Figure pat00033
(1)
Figure pat00034
(2)이다.
상기 공식에서, 문장을 단어 분리한다. 예를 들면, 제1 문장S1을 m개의 단어로 분리하고, 제2 문장S2을 n개의 단어로 분리한다. 분리된 단어에 대해 품사 표기를 진행하여 각 단어 분리위치에서 하나의 단어 집합을 획득한다. 예를 들면, 제1 문장S1의 단어 분리 위치
Figure pat00035
상의 단어 집합은
Figure pat00036
이다. 해당 단어 집합은 단어 분리 위치
Figure pat00037
에 대응되는 원 단어, 상관된 단어 및 작은 입도로 조성된 부분을 포함한다.
여기서, 산관된 단어는 원 단어의 어의와 동인한 단어(또는 동의어라고도 지칭함) 또는 어의가 유사한 단어를 가리키고, 이를 상관된 단어로 통칭한다. 원 단어와 상관된 단어는 여러가지 방식을 이용하여, 예를 들면, Query-Title 클릭 쌍을 기반으로 발굴할 수 있다. 상기 상관된 단어를 발굴하는 방법은 현재 이미 알려진 각종 방안을 사용하여 실현할 수 있으므로 불필요한 설명은 생략하기로 한다.
문장을 공간 벡터로 표시한 후, 각종 도량 방식을 이용하여 두 벡터사이의 유사도, 즉, 어구사이의 주제 매칭 유사도를 산출할 수 있다. 이러한 도량 방식은 코사인 거리(또는 코사인 유사도라고도 지칭함),유클리드 거리,피어슨Pearson 상관 계수법 또는 수정된 Pearson 상관 계수법을 포함하나, 이에 한정된 것은 아니다. 이러한 유사도 또는 상관성을 산출하는 방법은 해당 기술 분야에서 이미 알려진 것이다. 이하 코사인 거리를 예로 들어 설명하기로 한다.
코사인 거리는 벡터 공간 중 두개의 벡터 협각의 코사인 값을 두개의 개체사이의 차이의 크기를 판단하는 도량으로 한다. 예를 들면, 하기 등식으로 두개의 어구사이의 주제 매칭 유사도를 산출할 수 있다.
Figure pat00038
(3)
Figure pat00039
는 단어
Figure pat00040
의 유사도 가중치를 표시하고,
Figure pat00041
는 두 문장이 상응한 가중치 계수에 매칭되는지 표시하고, 다 문장S1, S2의 의문문 유형이 매칭되면 상응한 가중치 계수가 제1값, 예를 들면 1이고, 아니면 제2값, 예를 들면 0.8이다.
이하, 구체적인 실시예를 결합하여 어떻게 두 어구사이의 주제 매칭 유사도를 산출하는지 설명하기로 한다. 제1 문장S1
Figure pat00042
로 가정할 경우, 제2 문장 S2
Figure pat00043
이다.
먼저, 이 두 문장에 대해 각각 단어 분리 처리와 품사 표기를 진행한다. 간단 명료함을 위하여, 본 실시예에는 품사 표기를 도시하지 않았다. S1이 획득한 단어 분리 결과는
Figure pat00044
,
Figure pat00045
,
Figure pat00046
,
Figure pat00047
,
Figure pat00048
이다. 여기서,
Figure pat00049
가 대응되는 더 작은 단어 분리 입도의 단어는
Figure pat00050
,
Figure pat00051
,
Figure pat00052
이고,
Figure pat00053
가 대응되는 더 작은 단어 분리 입도의 단어는
Figure pat00054
,
Figure pat00055
이다. S2가 획득한 단어 분리 결과는
Figure pat00056
,
Figure pat00057
,
Figure pat00058
,
Figure pat00059
이다. 여기서,
Figure pat00060
가 대응되는 더 작은 단어 분리 입도의 단어는
Figure pat00061
,
Figure pat00062
이다.
단어 분리를 진행하여 획득한 각 단어에 가중치를 부여한다. 선택적 또는 부가적으로, 어구 중 어의 잉여 단어를 식별하고 잉여 단어의 가중치를 낮춘다. 어의 잉여 단어 식별은 기존 기술 중에 이미 알려진 또는 미래에 개발될 여러가지 기술을 이용하여 식별할 수 있으며, 본 발명은 이를 한정하지 않는다. 어의 잉여 단어의 식별을 진행한 후, 예를 들면, 제1 문장 중의
Figure pat00063
를 어의 잉여 단어로 확정하고 그의 가중치를 낮춘다.
다음, 어의 매핑이 존재하는 어의를 통합된 표현으로 매핑한다. 구체적으로 저1 문장S1에서
Figure pat00064
Figure pat00065
으로 매핑하고,
Figure pat00066
을 으로
Figure pat00067
매핑하며,
Figure pat00068
Figure pat00069
로 매핑한다. 제2 문장S2에서
Figure pat00071
로 매핑하고,
Figure pat00072
Figure pat00073
으로 매핑하며,
Figure pat00074
Figure pat00075
로 매핑한다.
또한, 두 문장의 의문문 유형에 대해 매핑을 진행한다. 의문어 와 그의 상하문에 나타난 명사
Figure pat00077
에 대응되는 의문문 유형이
Figure pat00078
이고, 의문어
Figure pat00079
와 그의 상하문에 나타난 명사
Figure pat00080
에 대응되는 의문문 유형이
Figure pat00081
이므로, 의문문 S1과 S2가 동일한 의문문 유형에 속함을 식별할 수 있다. 따라서, 가중치 계수
Figure pat00082
가 제1값, 예를 들면 1을 취함을 확정할 수 있다.
도6은 어구에 대해 상기 처리를 진행한 결과의 예시도를 보여준다.
도6에 도시된 바와 같이, 저1 문장S1에서,
Figure pat00083
,
Figure pat00084
,
Figure pat00085
,
Figure pat00086
는 제1 어의 매핑위치에 대응되고,
Figure pat00087
는 제2 어의 매핑위치에 대응되고,
Figure pat00088
은 제3 어의 매핑위치에 대응되며,
Figure pat00089
,
Figure pat00090
,
Figure pat00091
는 제4 어의 매핑 위치에 대응된다. 저2 문장S2에서,
Figure pat00092
는 제1 어의 매핑위치에 대응되고,
Figure pat00093
는 제2 어의 매핑위치에 대응되고,
Figure pat00094
,
Figure pat00095
,
Figure pat00096
는 제3 어의 매핑위치에 대응된다.
Figure pat00097
Figure pat00098
가 동일한 통합된 표현에 매핑됨으로
Figure pat00099
Figure pat00100
는 매핑 성공된 단어이다.
Figure pat00101
는 정지어임으로 이를 그냥 지나치고 산출에 참여하지 않는다.
Figure pat00102
Figure pat00103
는 동일한 통합된 표현에 매핑됨으로
Figure pat00104
Figure pat00105
는 매핑 성공된 단어이다.
Figure pat00106
Figure pat00107
는 동일한 통합된 표현에 매핑됨으로
Figure pat00108
Figure pat00109
는 매핑 성공된 단어이다.
앞서 기재된 공식(3)으로 두 문장사이의 주제 매칭 유사도를 산출할 수 있다.
Figure pat00110
본 발명의 실시예에서, 미리 구축된 클릭 전의 모형을 기반으로 문장사이의 문구 주제 매칭 모형을 이용하여 산출한 조회 청구와 후보 결과의 어구사이의 주제 매칭 유사도는, 클릭 전의 모형을 이용하여 후보 결과의 어구 중의 일부 단어의 유사도 가중치를 조정하여 표현할 수 있다.
단어의 초기 유사도 가중치는 문서 발굴 분야에 이미 알려진 기술로 분배할 수 있다. 다중 가중치 분배 방식이 존재할 수 있으며, 범용의 예로 TF-IDF(term frequency-inverse document frequency)가 포함한다.
TF-IDF는 정보 검색과 정보 발굴에 범용의 가중치 분배 기술이며, 검색, 문서 분류 및 기타 상응한 분야에서 광범위하게 응용되고 있다. TF-IDF의 주요 사상은, 모 단어 또는 문구가 한편의 문장에서 나타나는 빈도TF가 높으나 기타 문장에서는 아주 적게 나타나면, 해당 단어 또는 문구가 아주 좋은 유형 구별 능력을 구비하고 분류에 접합한 것으로 인정한다. TF 단어 빈도(Term Frequency)는 모 주어진 단어가 문서중에 나타나는 회수를 가리킨다. IDF 반 문서 빈도(Inverse Document Frequency)의 주요 사상은, 수록어를 포함하는 문서가 적고 IDF가 크면, 수록어가 아주 좋은 유형 구별 능력을 구비하는 것을 설명한다. TF와 IDF를 이용하여 모 키워드가 모 문장에서의 중요성을 산출할 수 있고, TF와 IDF를 기반으로 각 함수 관계를 이용하여 수록어의 가중치를 구성할 수 있다.
일부 구현에서, 단어의 초기 가중치는 하기 등식을 이용하여 산출할 수 있다.
Figure pat00111
(4)
여기서,
Figure pat00112
는 분리된 단어
Figure pat00113
의 단어 빈도이고, 분리된 단어
Figure pat00114
가 해당 문서에서 나타나는 회수와 해당 문서 분리된 단어의 총수사이의 비례로 표시할 수 있다.
Figure pat00115
는 분리된 단어
Figure pat00116
의 반문서 빈도이고, N은 총 문서수이며,
Figure pat00117
는 분리된 단어
Figure pat00118
가 나타난 문서수이다.
본 출원의 일부 실시예에서, 각 어구 중의 분리된 단어에 대해 초기 가중치를 확정한 후, 클릭 전의 모형을 기반으로 후보 결과의 어구 중의 일부 분리된 단어의 유사도를 조정할 수 있다.
도7은 본 발명의 실시예에 따른 클릭 전의 모형을 기반으로 단어 분리 유사도의 가중치를 조정하는 방법의 일 예시적 흐름도를 보여준다.
도7에 도시된 바와 같이, 단계(710)에서, 단어 정렬을 이용하여 후보 결과의 어구로부터 조회 청구 중의 단어와 정렬되는 인접한 상문과 하문을 확정한다. 해당 단계는 앞서 도2를 결합하여 설명한 클릭 전의 모형을 구축하는 단계(220)와 유사하므로 중복된 설명은 생략하기로 한다.
다음, 단계(720)에서, 전의 사전 및/또는 비전의 사전에 따라 후보 결과의 어구 중의 상응한 상문과 하문의 유사도 가중치를 조정한다.
해당 단계에서, 식별된 인접한 상문과 인접한 하문에 대하여, 전의 사전 및 비전의 사전을 조회하여 이러한 인접한 상문과 인접한 하문의 유사도 가중치를 조정할 수 있다.
구체적으로, 비전의 사전에 후보 결과의 어구 중의 상응한 단어 및 그의 인접한 상문 또는 인접한 하문이 포함될 경우, 해당 인접한 상문 또는 인접한 하문의 유사도 가중치를 낮춘다. 전의 사전에 후보 결과의 어구 중의 상응한 단어 및 그의 인접한 상문 또는 인접한 하문이 포함될 경우, 해당 인접한 상문 또는 인접한 하문의 유사도 가중치를 높인다. 비전의 사전과 전의 사전에서 모두 상응한 단어 및 그의 인접한 상문 또는 인접한 하문을 찾아내지 못할 경우, 그의 유사도 가중치를 조정하지 않을 수 있다.
예를 들면, 조회 어구가
Figure pat00119
이고, 후보 결과가
Figure pat00120
이며, 인접한 상문이
Figure pat00121
이고, 인접한 하문이
Figure pat00122
이다. 단어
Figure pat00123
과 인접한 상문
Figure pat00124
에 대하여, 먼저 원생 전의 사전과 비전의 사전에서 조회를 진행할 수 있다. 원생 비전의 사전에
Figure pat00125
이 존재할 경우,
Figure pat00126
의 유사도 가중치를 낮추어 주제 매칭 유사도를 향상할 수 있다. 원생 전의 사전과 비전의 사전에 모두
Figure pat00127
이 존재하지 않을 경우, 추상화 된 전의 사전과 비전의 사전에서 계속하여 조회할 수 있다. 추상화 된 비전의 사전에서
Figure pat00128
이 조회될 경우에도
Figure pat00129
의 가중치를 낮출수 있다. 단어
Figure pat00130
와 인접한 하문
Figure pat00131
에 대하여, 동일한 사로를 기반으로 처리할 수 있으므로 중복된 설명은 생략하기로 한다.
클릭 전의 모형을 기반으로 단어의 유사도 가중치를 조정한 후, 앞서 설명한 문장사이의 문구 주제 매칭 모형을 이용하여 조회 청구와 후보 결과의 어구사이의 주제 매칭 유사도를 산출할 수 있다.
예를 들면, 하기 공식에 따라 조회 청구와 후보 결과의 어구 사이의 주제 매칭 유사도를 산출할 수 있다.
Figure pat00132
(5)
여기서,
Figure pat00133
는 Q와 S사이의 주제 매칭 유사도를 표시하고, Q는 조회 청구를 표시하며, S는 후보 결과의 어구를 표시하고,
Figure pat00134
는 두 문장 유형 매칭의 가중치 계수를 표시하며,
Figure pat00135
는 조회 청구로부터 획득한 단어
Figure pat00136
의 유사도 가중치를 표시하고, M는 단어
Figure pat00137
의 수량을 표시하며,
Figure pat00138
는 후보 결과의 어구로부터 획득한 단어
Figure pat00139
의 유사도 가중치를 표시하고, N는 단어
Figure pat00140
의 수량이다. 여기서, 후보 결과의 어구 중의 일부 단어(예를 들면, 인접한 상문 및/또는 인접한 하문)는 클릭 전의 모형을 기반으로 조정을 진행한다.
다시 도5를 참조하면, 단계(512)에서, 조회 청구와 후보 결과의 어구사이의 매칭 정황을 기반으로 전의 인자를 확정한다.
단계(511)에서, 문장사이의 주제 매칭 유사도를 확정하고, 미시적으로 감안하여, 클릭 전의 모형을 기반으로 구체적 단어의 유사도 가중치를 조정한다. 이러한 단계(512)에서, 조회 청구와 후보 결과의 어구사이의 매칭 정황에 다라, 즉, 거시적으로 감안하여, 하나의 전의 인자를 확정한다.
조회 청구와 후보 결과의 어구사이의 매칭 정황은 예를 들면, 조회 청구 중 제일 중요한 단어가 후보 결과의 어구에 나타나지 않은 정황, 상하문의 매칭이 존재하는 정황, 및 상하문의 완전 매칭이 존재하지 않는 정황을 포함할 수 있다.
조회 청구 중 제일 중요한 단어가 후보 결과의 어구에 나타나지 않을 경우, 이는 통상적으로 양자사이의 상관성이 비교적 낮고, 전의의 가능성이 비교적 높음을 표시한다. 이때, 전의 인자를 제1값(예를 들면, 0.7)으로 확정할 수 있다. 조회 청구 중의 단어의 중요성은 앞서 확정한 유사도 가중치를 기반으로 확정할 수 있다. 예를 들면, 직접 TF-IDF로 확정한 가중치에 따라 확정할 수 있다.
상하문의 매칭이 존재한다는 것은 단어의 문자상의 매칭이외에 후보 결과에 해당 단어의 인접한 상문 또는 인접한 하문이 더 존재함을 가리킨다. 즉, 이때 후보 결과에도 전의의 가능성이 존재한다. 따라서, 전의 인자를 제2값으로 확정할 수 있다. 여기서, 제2값은 제1값보다 크다. 예를 들면, 제2값은 0.95이다.
상하문의 완전 매칭이 존재하지 않는다는 것은 단어의 문자상의 매칭이외에 후보 결과에 해당 단어의 인접한 상문과 인접한 하문이 존재하지 않음을 가리킨다. 즉, 이때 후보 결과에는 기본상 전의의 가능성이 존재하지 않는다. 따라서, 전의 인자를 제3값으로 확정할 수 있다. 여기서, 제3값은 제2값보다 크다. 예를 들면, 제3값은 1이다.
마지막으로, 단계(513)에서, 전의 인자 및 주제 매칭 유사도를 기반으로 조회 청구와 후보 결과의 어구사이의 어의 상관도를 산출한다.
전의 인자 및 주제 매칭 유사도를 기반으로, 여러가지 함수 관계에 따라 어의 상관도를 구축할 수 있다. 일 구현에서, 하기 등식으로 조회 청구와 후보 결과의 어구사이의 어의 상관도를 산출할 수 있다.
Figure pat00141
여기서,
Figure pat00142
는 Q와 S사이의 어의 상관도를 표시하고,
Figure pat00143
는 Q와 S사이의 전의 인자를 표시하며,
Figure pat00144
는 Q와 S사이의 주제 매칭 유사도를 표시하고, Q는 조회 청구를 표시하며, S는 후보 결과의 어구를 표시한다.
도면에서는 특정의 순서로 본 발명의 방법의 조작을 설명하였으나, 상기 특정 순서로 이러한 조작을 진행하여야 한다고 요구하거나 암시하는 것이 아니며 또는 도시된 모든 조작을 실행하여야만 기대하는 결과를 실현할 수 있는 것이 아님을 응당 주의하여야 한다. 반대로, 흐름도에 도시된 단계의 실행 순서는 바뀔수 있다. 부가적 또는 대안으로, 일부 단계를 생략할 수 있으며 다수의 단계를 한 단계로 합병하여 실행할 수 있으며, 및/또는 한 단계를 다수의 단계로 분할하여 실핼할 수 있다.
도8은 본 발명의 실시예에 따른 검색 엔진의 예시적 구조 블록도를 보여준다.
도8에 도시된 바와 같이, 검색 엔진(800)은 수신 유닛(810), 검색 유닛(820), 어의 상관도 확정 유닛(830) 및 순서배열 유닛(840)을 포함한다.
수신 유닛(810)은 사용자가 입력한 조회 청구를 수신하도록 배치될 수 있다. 검색 유닛(820)은 조회 청구와 매칭되는 후보 결과를 조회하도록 배치될 수 있다. 어의 상관도 확정 유닛(830)는 클릭 전의 모형을 기반으로 조회 청구와 각 후보 결과사이의 어의 상관도를 확정하도록 배치될 수 있다. 순서배열 유닛(840)은 어의 상관도에 따라 후보 결과에 대해 순서 배열을 진행하도록 배치될 수 있다. 여기서, 클릭 전의 모형은 전의 사전 및/또는 비전의 사전을 포함하고, 전의 사전은 전의가 발생함을 확정한 검색 결과와 상응한 단어 및 그의 상하문을 포함하고, 비전의 사전은 전의가 발생하지 않음을 확정한 검색 결과의 상응한 단어 및 그의 상하문이 존재한다.
일부 실시예에서, 어의 상관도 확정 유닛(830)은 각 후보 결과에 대하여 조회 청구와 후보 결과의 하나 또는 다수의 어의사이의 어의 상관도를 확정하는 산출 유닛(831)을 포함할 수 있고, 어구는 후보 결과의 타이틀, 앵커 문구 및 본문 중의 핵심 문장 중 적어도 하나를 포함한다. 어의 상관도 확정 유닛(830)은 확정된 조회 청구와 후보 결과의 하나 또는 다수의 어구사이의 어의 상관도에 따라 조회 청구와 후보 결과사이의 어의 상관도를 확정하는 확정 유닛(832)을 포함할 수 있다.
일부 구현에서, 산출 유닛(831)은 클릭 전의 모형을 기반으로 문장사이의 문구 주제 매칭 모형을 이용하여 조회 청구와 후보 결과의 어구사이의 주제 매칭 유사도를 산출하는 주제 매칭 유사도 모듈(미도시)를 포함할 수 있다.
주제 매칭 유사도 모듈은, 구체적으로 단어 정렬을 이용하여 후보 결과의 어구로부터 조회 청구 중의 단어와 정렬된 인접한 상문과 하문을 확정하고, 전의 사전 및/또는 비전의 사전에 따라 후보 결과의 어구의 상응한 상문과 하문의 유사도 가중치를 조정하고, 조정된 유사도 가중치에 따라 문장사이의 문구 주제 매칭 모형을 이용하여 조회 청구와 후보 결과의 어구사이의 주제 매칭 유사도를 산출하도록 이용될 수 있다.
산출 유닛(831)은 조회 청구와 후보 결과의 어구사이의 매칭 정황에 따라 전의 인자를 확정하는 전의 인자 모듈(미도시)을 더 포함할 수 있다.
전의 인자 모듈은, 구체적으로 매칭 정황이 조회 청구 중 제일 중요한 단어가 후보 결과의 어구에 나타나지 않을 경우 전의 인자를 제1값으로 확정하고, 매칭 정황이 상하문의 매칭이 존재할 경우 전의 인자를 제2값으로 확정하며, 매칭 정황이 상하문의 완전 매칭이 존재하지 않을 경우 전의 인자를 제3값으로 확정하도록 이용될 수 있으며, 여기서, 제1값은 제2값보다 작고, 제2값은 제3값보다 작다.
산출 유닛(831)은 전의 인자와 주제 매칭 유사도를 기반으로 조회 청구와 후보 결과의 어구사이의 어의 상관도를 산출하는 합성 모듈(미도시)을 더 포함할 수 있다.
일부 실시예에서, 클릭 전의 모형 중의 전의 사전 및 비전의 사전은 조회 청구와 검색 결과Query-Title 쌍의 클릭 회수를 학습하여 구축한다.
일부 구현에서, 전의 사전과 비전의 사전은, Query-Title 쌍의 클릭 표시 비율을 획득하고, 단어 정렬을 이용하여 검색 결과에서 조회 어구 중의 단어와 정렬되는 인접한 상하문를 획득하고, 클릭 표시 비율이 제1 역치보다 작은 Query-Title 쌍 중의 상응한 단어 및 그의 상하문을 원생 전의 사전에 첨가하며, 클릭 표시 비율이 제2 역치보다 큰 Query-Title 쌍 중의 상응한 단어 및 그의 상하문을 원생 비전의 사전에 첨가하는 방법으로 구축되는 원생 전의 사전과 원생 비전의 사전를 포함하고, 상기 클릭 표시 비율은 클릭 회수와 표시 회수의 비율이고, 표시 회수은 검색 결과가 조회 청구에 응하여 표시되는 회수를 지시하고, 클릭 회수는 검색 결과가 조회 청구에 응하여 표시될 때 사용자에 의해 클릭되는 회수를 지시한다.
선택적 또는 부가적으로, 전의 사전 및 비전의 사전은, 조회 청구 중의 단어에 대해 어의 유형을 표기하고, 표기된 어의 유형을 이용하여 원생 전의 사전과 원생 비전의 사전에 대응되는 추상화 된 전의 사전과 추상화 된 비전의 사전을 구축하는 방법으로 구축되는 추상화 된 전의 사전과 추상화 된 비전의 사전을 더 포함한다.
검색 엔진(800) 중의 기재된 여러 유닛 또는 서브 유닛은 앞서 흐름도를 참조하여 설명한 방법중의 각 단계에 대응되는 것을 응당 자명하여야 할 것이다. 따라서, 상기에 방법에 대해 설명한 조작과 특징은 검색 엔진(800) 및 이에 포함되는 유닛에도 적용될 수 있으며 이에 대한 중복된 설명은 생략한다.
도9는 본 발명의 실시예를 실현하기 위한 컴퓨터 시스템(900)를 보여준다.
도9에 도시된 바와 같이, 컴퓨터 시스템(900)은 중앙 처리 유닛(CPU)(901)을 포함하고, 이는 읽기 전용 메모리 장치(ROM)(902)에 저장된 프로그램 또는 저장부(908)로부터 랜덤 액세스 메모리 장치(RAM)(903)에 로딩되는 프로그램에 의하여 각종 적당한 동작 및 처리를 실행할 수 있다. RAM(903)에는 시스템(900) 조작에 필요한 각종 프로그램 및 데이터들이 더 포함되어 있다. CPU(901), ROM(902) 및 RAM(903)은 버스라인(904)을 통하여 서로 연결된다. 입력/출력(I/O) 인터페이스(905)도 버스라인(904)에 연결된다.
키보드, 마우스 등을 포함하는 입력부(906); 음극선관(CRT), 액정 표시 장치(LCD) 등 및 스피커 등을 포함하는 출력부(909); 하드 디스크 등을 포함하는 저장부(908); 및 LAN카드, 변복조 장치 등과 같은 네트워크 에세스 카드를 포함하는 통신부(909);를 포함하는 구성요소는 I/O 인터페이스(905)에 연결된다. 통신부(909)는 인터넷과 같은 네트워크를 통하여 통신 처리를 실행한다. 구동부(910)는 수요에 따라 I/O 인터페이스(905)에 연결된다. 구동부(910)에서 판독된 컴퓨터 프로그램이 수요에 따라 저장부(908)에 설치되도록 구동부(910)에는 수요에 따라 디스크, 콤팩트디스크, 광자기 디스크, 반도체 메모리 장치 등과 같은 착탈 가능한 매질(911)이 설치된다.
특히, 본 발명의 실시예에 의하면, 도2 내지 도7을 참조하여 설명한 프로세스는 컴퓨터 소프트웨어 프로그램으로 실현할 수 있다. 예를 들면, 본 발명의 실시예는 일 컴퓨터 프로그램 제품을 포함한다. 상기 컴퓨터 프로그램 제품은 유형적으로 컴퓨터 판독 가능한 매질에 포함되는 컴퓨터 프로그램을 포함하되, 컴퓨터 프로그램은 도2 내지 도7의 방법을 실행하기 위한 프로그램 코드를 포함한다. 이러한 실시예에서, 상기 컴퓨터 프로그램은 통신부(909)를 통하여 너트워크로부터 다운로드되어 설치되고, 및/또는 착탈 가능한 매질(911)로부터 설치될수 있다.
첨부한 도면중의 흐름도 및 블록도는 본 발명의 여려 실시예에 따른 시스템, 방법, 컴퓨터 프로그램 제품의 실시 가능한 체계구조, 기능 및 동작을 도시하였다. 이러한 방면에 있어서, 흐름도 또는 블록도 중의 각 블록은 하나의 모듈, 프로그램 세그먼트, 또는 코드의 일부분을 대표하고, 상기 모듈, 프로그램 세그먼트, 또는 코드의 일부분은 소정의 로직 기능을 실현하기 위한 하나이상의 실행가능한 명령을 포함한다. 일부 대체 실시예에서, 블록에 표기된 기능은 도면에 표기된 순서와 다른 순서로 진행될 수 있음을 자명하여야 할 것이다. 예를 들면, 연속되게 표시된 두개의 블록은 사실상 관련된 기능에 의하여 기본적으로 병렬되게 진행될 수 있으며, 반대된 순서로 진행될 수도 있다. 블록도 및/또는 흐름도의 각 블록 및 블록도 및/또는 흐름도의 블록의 조합은 소정의 기능 또는 동작을 진행하는 하드웨어를 기반으로하는 전용의 시스템으로 실현하거나, 전용의 하드웨어 및 컴퓨터 명령의 조합으로 실현할 수 있다.
본 발명에 설명된 관련된 유닛 또는 모듈은 소프트 웨어 방식으로 실현할 수 있으며, 하드 웨어 방식으로 실현할 수도 있다. 설명된 유닛 또는 모듈은 프로세서에 설치될 수 있다. 이러한 유닛 또는 모듈의 명칭은 일부 경우에 해당 유닛 또는 모듈 자체를 한정하지 않는다.
한편, 본 발명은 또한 컴퓨터 판독 가능한 기록 매체를 제공한다. 이러한 컴퓨터 판독 가능한 기록 매체는 상기 실시예중 상기 장치에 포함되는 컴퓨터 판독 가능한 기록 매체이거나, 장치에 설치되지 않은 독립적으로 존재하는 컴퓨터 판독 가능한 기록 매체일 수 있다. 컴퓨터 판독 가능한 기록 매체에는 하나이상의 프로그램이 저장되어 있을수 있고, 하나이상의 프로세서는 이러한 프로그램으로 본 발명에 설명된 공식 입력 방법을 진행한다.
이상의 설명은 오직 본 발명의 바람직한 실시예 및 이용하는 기술 원리에 대한 설명일 뿐이다. 본 발명의 청구 범위는 상기 기술적 특징의 특정 조합으로 이루어진 기술적 방안에 한정되는 것이 아니라, 본 발명의 사상을 벗어나지 않는 한 상기 기술적 특징 또는 그의 등가 특징들의 임의의 조합으로 이루어진 기타 기술적 방안도 포함하는 것을 본 분야에서 통상 지식을 가진자는 자명할 것이다. 상기 특징과 본 발명에 개시된 유사한 기능을 구비한 기술적 특징을 서로 교체하여 형성된 기술적방안을 예로 들수 있으나, 이에 한정된 것은 아니다.

Claims (22)

  1. 사용자가 입력한 조회 청구를 수신하는 단계;
    상기 조회 청구와 매칭되는 후보 결과를 검색하는 단계;
    클릭 전의 모형을 기반으로 상기 조회 청구와 각 후보 결과사이의 어의 상관도를 확정하는 단계; 및
    상기 어의 상관도에 따라 후보 결과에 대해 순서배열을 진행하는 단계;를 포함하되,
    상기 클릭 전의 모형은 전의 사전 및/또는 비전의 사전을 포함하고, 상기 전의 사전은 전의가 발생함을 확정한 검색 결과의 상응한 단어 및 그의 상하문을 포함하며, 상기 비전의 사전은 전의가 발생하지 않음을 확정한 검색 결과의 상응한 단어 및 그의 상하문을 포함하는 검색 엔진의 구현 방법.
  2. 제 1 항에 있어서,
    상기 조회 청구와 각 후보 결과사이의 어의 상관도를 확정하는 단계는,
    각 후보 결과에 대하여, 상기 조회 청구와 후보 결과의 하나 또는 다수의 어구사이의 어의 상관도를 확정하는 단계; 및
    확정된 조회 청구와 후보 결과의 하나 또는 다수의 어구사이의 어의 상관도에 따라 상기 조회 청구와 상기 후보 결과사이의 어의 상관도를 확정하는 단계;를 포함하되, 상기 어구는 후보 결과의 타이틀, 앵커 문구 및 본문 중의 핵심 문장 중 적어도 하나를 포함하는 검색 엔진의 구현 방법.
  3. 제 2 항에 있어서,
    상기 조회 청구와 후보 결과의 어구사이의 어의 상관도를 확정하는 단계는,
    상기 클릭 전의 모형을 기반으로 문장사이의 문구 주제 매칭 모형을 이용하여 상기 조회 청구와 후보 결과의 어구사이의 주제 매칭 유사도를 산출하는 단계;
    상기 조회 청구와 후보 결과의 어구사이의 매칭 정황에 따라 전의 인자를 확정하는 단계; 및
    상기 전의 인자와 상기 주제 매칭 유사도를 기반으로 조회 청구와 후보 결과의 어구사이의 어의 상관도를 산출하는 단계;를 포함하는 검색 엔진의 구현 방법.
  4. 제 3 항에 있어서,
    상기 클릭 전의 모형을 기반으로 상기 조회 청구와 후보 결과의 어구사이의 주제 매칭 유사도를 산출하는 단계는,
    단어 정렬을 이용하여 후보 결과의 어구로부터 상기 조회 청구 중의 단어와 정렬되는 인접한 상문과 하문을 확정하는 단계;
    상기 전의 사전 및/또는 비전의 사전에 따라 후보 결과의 어구 중의 상응한 상문과 하문의 유사도 가중치를 조정하는 단계; 및
    조정된 유사도 가중치에 따라 문장사이의 문구 주제 매칭 모형을 이용하여 상기 조회 청구와 후보 결과의 어구사이의 주제 매칭 유사도를 산출하는 단계;를 포함하는 검색 엔진의 구현 방법.
  5. 제 4 항에 있어서,
    전의 사전 및/또는 비전의 사전에 따라 후보 결과의 어구 중의 상응한 상문과 하문의 유사도 가중치를 조정하는 단계는,
    비전의 사전에 후보 결과의 어구 중의 상응한 단어 및 그의 상문 또는 하문이 포함될 경우, 상기 상문 또는 하문의 유사도 가중치를 낮추는 단계; 및
    전의 사전에 후보 결과의 어구 중의 상응한 단어 및 그의 상문 또는 하문이 포함될 경우, 상기 상문 또는 하문의 유사도 가중치를 높히는 단계;를 포함하는 검색 엔진의 구현 방법.
  6. 제 4 항에 있어서,
    상기 문장사이의 문구 주제 매칭 모형은 벡터 공간 모형
    Figure pat00145
    이고,
    여기서,
    Figure pat00146
    은 Q와 S사이의 주제 매칭 유사도를 표시하고, Q는 조회 청구를 표시하고, S는 후보 결과의 어구를 표시하고,
    Figure pat00147
    는 두개의 문장 유형이 매칭되는 가중치 계수를 표시하고,
    Figure pat00148
    는 조회 청구로부터 획득한 단어
    Figure pat00149
    의 유사도 가중치를 표시하고, M는 단어
    Figure pat00150
    의 수량이고,
    Figure pat00151
    는 후보 결과의 어구로부터 획득한 단어
    Figure pat00152
    의 유사도 가중치이고, N는 단어
    Figure pat00153
    의 수량인 검색 엔진의 구현 방법.
  7. 제 3 항에 있어서,
    상기 조회 청구와 후보 결과의 어구사이의 매칭 정황에 따라 전의 인자를 확정하는 단계는,
    매칭 정황이 조회 청구 중 제일 중요한 단어가 후보 결과의 어구에 나타나지 않은 정황일 경우, 전의 인자를 제1값으로 확정하는 단계;
    매칭 정황이 상하문의 매칭이 존재하는 정황일 경우, 전의 인자를 제2값으로 확정하는 단계; 및
    매칭 정황이 상하문의 완전 매칭이 존재하지 않는 정황일 경우, 전의 인자를 제3값으로 확정하는 단계;를 포함하되,
    상기 제1값은 제2값보다 작고, 상기 제2값은 제3값보다 작은 검색 엔진의 구현 방법.
  8. 제 3 항에 있어서,
    조회 청구와 후보 결과의 어구사이의 어의 상관도는 하기 등식:
    Figure pat00154
    에 따라 산출하되,
    Figure pat00155
    는 Q와 S사이의 어의 상관도를 표시하고,
    Figure pat00156
    는 Q와 S사이의 전의 인자를 표시하고,
    Figure pat00157
    는 Q와 S사이의 주제 매칭 유사도를 표시하고, Q는 조회 청구를 표시하고, S는 후보 결과의 어구를 표시하는 검색 엔진의 구현 방법.
  9. 제 1 항에 있어서,
    상기 클릭 전의 모형 중의 전의 사전와 비전의 사전은 조회 청구와 검색 결과Query-Title 쌍의 클릭 회수를 학습하여 구축하는 검색 엔진의 구현 방법.
  10. 제 9 항에 있어서,
    상기 전의 사전과 비전의 사전은,
    Query-Title 쌍의 클릭 표시 비율을 획득하고, 단어 정렬을 이용하여 검색 결과에서 조회 어구 중의 단어와 정렬되는 인접한 상하문를 획득하고, 클릭 표시 비율이 제1 역치보다 작은 Query-Title 쌍 중의 상응한 단어 및 그의 상하문을 원생 전의 사전에 첨가하며, 클릭 표시 비율이 제2 역치보다 큰 Query-Title 쌍 중의 상응한 단어 및 그의 상하문을 원생 비전의 사전에 첨가하는 방법으로 구축되는 원생 전의 사전과 원생 비전의 사전를 포함하되,
    상기 클릭 표시 비율은 클릭 회수와 표시 회수의 비율이고, 표시 회수은 검색 결과가 조회 청구에 응하여 표시되는 회수를 지시하고, 클릭 회수는 검색 결과가 조회 청구에 응하여 표시될 때 사용자에 의해 클릭되는 회수를 지시하는 검색 엔진의 구현 방법.
  11. 제 4 항 또는 제 10 항에 있어서,
    상기 전의 사전과 비전의 사전은,
    조회 청구 중의 단어에 대해 어의 유형을 표기하고, 표기된 어의 유형을 이용하여 원생 전의 사전과 원생 비전의 사전에 대응되는 추상화 된 전의 사전과 추상화 된 비전의 사전을 구축하는 방법으로 구축되는 추상화 된 전의 사전과 추상화 된 비전의 사전을 더 포함하는 검색 엔진의 구현 방법.
  12. 제 10 항에 있어서,
    상기 단어 정렬은 동의어 정렬을 포함하는 검색 엔진의 구현 방법.
  13. 사용자가 입력한 조회 청구를 수신하는 수신 유닛;
    상기 조회 청구와 매칭되는 후보 결과를 검색하는 검색 유닛;
    클릭 전의 모형을 기반으로 상기 조회 청구와 각 후보 결과사이의 어의 상관도를 확정하는 어의 상관도 확정 유닛; 및
    상기 어의 상관도에 따라 후보 결과에 대해 순서배열을 진행하는 순서배열 유닛;을 포함하되,
    상기 클릭 전의 모형은 전의 사전 및/또는 비전의 사전을 포함하고, 상기 전의 사전은 전의가 발생함을 확정한 검색 결과의 상응한 단어 및 그의 상하문을 포함하고, 상기 비전의 사전은 전의가 발생하지 않음을 확정한 검색 결과의 상응한 단어 및 그의 상하문을 포함하는 검색 엔진.
  14. 제 13 항에 있어서,
    후보 결과에 대하여 상기 조회 청구와 후보 결과의 하나 또는 다수의 어구사이의 어의 상관도를 확정하되, 상기 어구는 후보 결과의 타이틀, 앵커 문구 및 본문 중의 핵심 문장 중 적어도 하나를 포함하는 산출 유닛; 및
    확정된 조회 청구와 후보 결과의 하나 또는 다수의 어구사이의 어의 상관도에 따라 상기 조회 청구와 상기 후보 결과사이의 어의 상관도를 확정하는 확정 유닛;을 포함하는 검색 엔진.
  15. 제 14 항에 있어서,
    상기 산출 유닛은,
    상기 클릭 전의 모형을 기반으로 문장사이의 문구 주제 매칭 모형을 이용하여 상기 조회 청구와 후보 결과의 어구사이의 주제 매칭 유사도를 산출하는 주제 매칭 유사도 모듈;
    상기 조회 청구와 후보 결과의 어구사이의 매칭 정황에 따라 전의 인자를 확정하는 전의 인자 모듈; 및
    상기 전의 인자와 상기 주제 매칭 유사도를 기반으로 조회 청구와 후보 결과의 어구사이의 어의 상관도를 산출하는 합성 모듈;을 포함하는 검색 엔진.
  16. 제 15 항에 있어서,
    상기 주제 매칭 유사도 모듈은,
    단어 정렬을 이용하여 후보 결과의 어구로부터 상기 조회 청구 중의 단어와 정렬되는 인접한 상문과 하문을 확정하고,
    상기 전의 사전 및/또는 비전의 사전에 따라 후보 결과의 어구 중의 상응한 상문과 하문의 유사도 가중치를 조정하며,
    조정된 유사도 가중치에 따라 어구사이의 문구 주제 매칭 모형을 이용하여 상기 조회 청구와 후보 결과의 어구사이의 주제 매칭 유사도를 산출하는 검색 엔진.
  17. 제 15 항에 있어서,
    상기 전의 인자 모듈은,
    매칭 정황이 조회 청구 중 제일 중요한 단어가 후보 결과의 어구에 나타나지 않은 정황일 경우, 전의 인자를 제1값으로 확정하고,
    매칭 정황이 상하문의 매칭이 존재하는 정황일 경우, 전의 인자를 제2값으로 확정하며,
    매칭 정황이 상하문의 완전 매칭이 존재하지 않는 정황일 경우, 전의 인자를 제3값으로 확정하되,
    상기 제1값은 제2값보다 작고, 상기 제2값은 제3값보다 작은 검색 엔진.
  18. 제 13 항에 있어서,
    상기 클릭 전의 모형 중의 전의 사전과 비전의 사전은 조회 청구와 검색 결과Query-Title 쌍의 클릭 회수를 학습하여 구축하는 검색 엔진.
  19. 제 18 항에 있어서,
    상기 전의 사전과 비전의 사전은,
    Query-Title 쌍의 클릭 표시 비율을 획득하고, 단어 정렬을 이용하여 검색 결과에서 조회 어구 중의 단어와 정렬되는 인접한 상하문를 획득하고, 클릭 표시 비율이 제1 역치보다 작은 Query-Title 쌍 중의 상응한 단어 및 그의 상하문을 원생 전의 사전에 첨가하며, 클릭 표시 비율이 제2 역치보다 큰 Query-Title 쌍 중의 상응한 단어 및 그의 상하문을 원생 비전의 사전에 첨가하는 방법으로 구축되는 원생 전의 사전과 원생 비전의 사전를 포함하되,
    상기 클릭 표시 비율은 클릭 회수와 표시 회수의 비율이고, 표시 회수은 검색 결과가 조회 청구에 응하여 표시되는 회수를 지시하고, 클릭 회수는 검색 결과가 조회 청구에 응하여 표시될 때 사용자에 의해 클릭되는 회수를 지시하는 검색 엔진.
  20. 제 19 항에 있어서,
    상기 전의 사전과 비전의 사전은,
    조회 청구 중의 단어에 대해 어의 유형을 표기하고, 표기된 어의 유형을 이용하여 원생 전의 사전과 원생 비전의 사전에 대응되는 추상화 된 전의 사전과 추상화 된 비전의 사전을 구축하는 방법으로 구축되는 추상화 된 전의 사전과 추상화 된 비전의 사전을 더 포함하는 검색 엔진.
  21. 프로세서; 및
    메모리 장치;를 포함하되,
    상기 메모리 장치는 컴퓨터 판독 가능한 명령을 저장하고, 상기 프로세서로 상기 컴퓨터 판독 가능한 명령을 실행할 경우, 상기 프로세서는,
    사용자가 입력한 조회 청구를 수신하고,
    상기 조회 청구와 매칭되는 후보 결과를 검색하고,
    클릭 전의 모형을 기반으로 상기 조회 청구와 각 후보 결과사이의 어의 상관도를 확정하고,
    상기 어의 상관도에 따라 후보 결과에 대해 순서배열을 진행하하되,
    상기 클릭 전의 모형은 전의 사전 및/또는 비전의 사전을 포함하고, 상기 전의 사전은 전의가 발생함을 확정한 검색 결과의 상응한 단어 및 그의 상하문을 포함하며, 상기 비전의 사전은 전의가 발생하지 않음을 확정한 검색 결과의 상응한 단어 및 그의 상하문을 포함하는 검색 엔진을 구현하기 위한 시스템.
  22. 컴퓨터 판독 가능한 명령을 저장하는 비휘발성 컴퓨터 기록 매체에 있어서,
    프로세서로 상기 컴퓨터 판독 가능한 명령을 실행할 경우, 상기 프로세서는,
    사용자가 입력한 조회 청구를 수신하고,
    상기 조회 청구와 매칭되는 후보 결과를 검색하고,
    클릭 전의 모형을 기반으로 상기 조회 청구와 각 후보 결과사이의 어의 상관도를 확정하고,
    상기 어의 상관도에 따라 후보 결과에 대해 순서배열을 진행하하되,
    상기 클릭 전의 모형은 전의 사전 및/또는 비전의 사전을 포함하고, 상기 전의 사전은 전의가 발생함을 확정한 검색 결과의 상응한 단어 및 그의 상하문을 포함하며, 상기 비전의 사전은 전의가 발생하지 않음을 확정한 검색 결과의 상응한 단어 및 그의 상하문을 포함하는 것을 특징으로 하는 비휘발성 컴퓨터 기록 매체.
KR1020150169288A 2015-06-18 2015-11-30 검색 엔진 및 그의 구현 방법 KR101721338B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510342427.4A CN104899322B (zh) 2015-06-18 2015-06-18 搜索引擎及其实现方法
CN201510342427.4 2015-06-18

Publications (2)

Publication Number Publication Date
KR20160149978A true KR20160149978A (ko) 2016-12-28
KR101721338B1 KR101721338B1 (ko) 2017-03-29

Family

ID=54031984

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150169288A KR101721338B1 (ko) 2015-06-18 2015-11-30 검색 엔진 및 그의 구현 방법

Country Status (5)

Country Link
US (1) US10275533B2 (ko)
EP (1) EP3107006A1 (ko)
JP (1) JP6161679B2 (ko)
KR (1) KR101721338B1 (ko)
CN (1) CN104899322B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200138926A (ko) * 2019-06-03 2020-12-11 정제성 복합 센서를 이용하여 걸음 수에 대한 정상 측정 여부의 판단이 가능한 전자 단말 장치 및 그 동작 방법

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10120949B2 (en) 2015-10-29 2018-11-06 Google Llc Indexing native application data
CN105893533B (zh) * 2016-03-31 2021-05-07 北京奇艺世纪科技有限公司 一种文本匹配方法及装置
CN105975639B (zh) * 2016-07-04 2019-12-06 北京百度网讯科技有限公司 搜索结果排序方法和装置
CN106776782B (zh) * 2016-11-21 2020-05-22 北京百度网讯科技有限公司 基于人工智能的语义相似度获取方法及装置
CN108090099B (zh) * 2016-11-22 2022-02-25 科大讯飞股份有限公司 一种文本处理方法及装置
CN106776863A (zh) * 2016-11-28 2017-05-31 合网络技术(北京)有限公司 文本相关度的确定方法、查询结果的推送方法及装置
CN108241667B (zh) * 2016-12-26 2019-10-15 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN107402954B (zh) 2017-05-26 2020-07-10 百度在线网络技术(北京)有限公司 建立排序模型的方法、基于该模型的应用方法和装置
US10783149B2 (en) * 2017-08-02 2020-09-22 Microsoft Technology Licensing, Llc Dynamic productivity content rendering based upon user interaction patterns
CN109408794A (zh) * 2017-08-17 2019-03-01 阿里巴巴集团控股有限公司 一种频次词典建立方法、分词方法、服务器和客户端设备
CN109426357B (zh) * 2017-09-01 2023-05-12 百度在线网络技术(北京)有限公司 信息输入方法和装置
CN107704535A (zh) * 2017-09-21 2018-02-16 广州大学 基于主题相似度的网页信息获取方法、装置及系统
CN107590132B (zh) * 2017-10-17 2020-08-11 语联网(武汉)信息技术有限公司 一种自动更正部分文字的方法-由英文词性判断
CN108090121A (zh) * 2017-11-07 2018-05-29 曙光信息产业(北京)有限公司 图书评论挖掘系统及方法
CN107967256B (zh) * 2017-11-14 2021-12-21 北京拉勾科技有限公司 词语权重预测模型生成方法、职位推荐方法及计算设备
CN110147426B (zh) * 2017-12-01 2021-08-13 北京搜狗科技发展有限公司 一种查询文本的分类标签确定方法及相关装置
CN110019888A (zh) * 2017-12-01 2019-07-16 北京搜狗科技发展有限公司 一种搜索方法及装置
CN110134850B (zh) * 2018-02-09 2024-05-14 北京搜狗科技发展有限公司 一种搜索方法及装置
CN108538291A (zh) * 2018-04-11 2018-09-14 百度在线网络技术(北京)有限公司 语音控制方法、终端设备、云端服务器及系统
CN109033140B (zh) * 2018-06-08 2020-05-29 北京百度网讯科技有限公司 一种确定搜索结果的方法、装置、设备和计算机存储介质
US11204972B2 (en) * 2018-06-25 2021-12-21 Ebay Inc. Comprehensive search engine scoring and modeling of user relevance
CN110737756B (zh) * 2018-07-03 2023-06-23 百度在线网络技术(北京)有限公司 确定针对用户输入数据的应答的方法、装置、设备和介质
CN109508394A (zh) * 2018-10-18 2019-03-22 青岛聚看云科技有限公司 一种多媒体文件搜索排序模型的训练方法及装置
EP3665598A1 (en) 2018-10-24 2020-06-17 Alibaba Group Holding Limited Intelligent customer services based on a vector propagation on a click graph model
CN109359302B (zh) * 2018-10-26 2023-04-18 重庆大学 一种领域化词向量的优化方法及基于其的融合排序方法
CN109213937B (zh) * 2018-11-29 2020-07-24 深圳爱问科技股份有限公司 智能搜索方法及装置
CN116595241A (zh) * 2018-12-03 2023-08-15 阿里巴巴集团控股有限公司 新媒体信息展示方法、装置、电子设备及计算机可读介质
CN111382265B (zh) * 2018-12-28 2023-09-19 中国移动通信集团贵州有限公司 搜索方法、装置、设备和介质
CN111381685B (zh) * 2018-12-29 2024-03-22 北京搜狗科技发展有限公司 一种句联想方法和装置
CN109815396B (zh) * 2019-01-16 2021-09-21 北京搜狗科技发展有限公司 搜索词权重确定方法及装置
CN112149005B (zh) * 2019-06-27 2023-09-01 腾讯科技(深圳)有限公司 用于确定搜索结果的方法、装置、设备和可读存储介质
CN112579535A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 一种文件匹配方法、装置、电子设备及存储介质
CN111128376B (zh) * 2019-11-21 2023-06-16 泰康保险集团股份有限公司 一种推荐评估表单的方法和装置
CN113010633B (zh) * 2019-12-20 2023-01-31 海信视像科技股份有限公司 一种信息交互方法及设备
CN111159499B (zh) * 2019-12-31 2022-04-29 南方电网调峰调频发电有限公司 一种基于字符串间相似性的电力系统模型搜索排序方法
CN113139034A (zh) * 2020-01-17 2021-07-20 深圳市优必选科技股份有限公司 一种语句匹配方法、语句匹配装置及智能设备
CN113282779A (zh) 2020-02-19 2021-08-20 阿里巴巴集团控股有限公司 图像搜索方法、装置、设备
CN113536156B (zh) * 2020-04-13 2024-05-28 百度在线网络技术(北京)有限公司 搜索结果排序方法、模型构建方法、装置、设备和介质
CN111753167B (zh) * 2020-06-22 2024-01-12 北京百度网讯科技有限公司 搜索处理方法、装置、计算机设备和介质
CN111897994B (zh) * 2020-07-15 2024-06-14 腾讯音乐娱乐科技(深圳)有限公司 搜索方法、装置及服务器和计算机可读存储介质
CN112183110A (zh) * 2020-09-28 2021-01-05 贵州云腾志远科技发展有限公司 一种基于数据中心的人工智能数据应用系统及应用方法
CN112084210B (zh) * 2020-09-28 2024-08-20 中国建设银行股份有限公司 数据处理方法、装置、电子设备及存储介质
CN112507091A (zh) * 2020-12-01 2021-03-16 百度健康(北京)科技有限公司 检索信息的方法、装置、设备以及存储介质
CN112860866B (zh) * 2021-02-09 2023-09-19 北京百度网讯科技有限公司 语义检索方法、装置、设备以及存储介质
CN113434661A (zh) * 2021-06-29 2021-09-24 平安科技(深圳)有限公司 公文拟稿提示方法、装置、电子设备及存储介质
CN115017361B (zh) * 2022-05-25 2024-07-19 北京奇艺世纪科技有限公司 一种视频搜索方法、装置、电子设备及存储介质
CN117112773B (zh) * 2023-09-08 2024-07-09 中航机载系统共性技术有限公司 一种基于nlp的适航非结构化数据的搜索方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100101621A (ko) * 2007-11-30 2010-09-17 이베이 인크. 검색 쿼리 결과로부터 관련성을 추론하는 컴퓨터로 구현되는 방법 및 컴퓨터 판독가능한 매체
KR20130116330A (ko) * 2011-01-14 2013-10-23 애플 인크. 토큰화된 검색 제안들
JP2014512600A (ja) * 2011-03-31 2014-05-22 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 関連知識情報を獲得・検索する方法及び装置
KR20150010740A (ko) * 2012-05-22 2015-01-28 알리바바 그룹 홀딩 리미티드 온라인 제품 검색 방법 및 시스템

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2773682B2 (ja) * 1995-05-26 1998-07-09 日本電気株式会社 適合フィードバック装置
US7567958B1 (en) * 2000-04-04 2009-07-28 Aol, Llc Filtering system for providing personalized information in the absence of negative data
JP4754849B2 (ja) 2005-03-08 2011-08-24 株式会社リコー 文書検索装置、文書検索方法、および文書検索プログラム
KR100776697B1 (ko) * 2006-01-05 2007-11-16 주식회사 인터파크지마켓 고객 구매행동 분석에 기반한 지능화된 상품 검색 방법 및 시스템
US7830815B1 (en) * 2006-10-25 2010-11-09 At&T Intellectual Property Ii Method and apparatus for measuring and extracting proximity in networks
JP4724701B2 (ja) * 2007-10-30 2011-07-13 日本電信電話株式会社 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体
US8152495B2 (en) 2008-10-01 2012-04-10 Ametek, Inc. Peripheral discharge tube axial fan
CN101464897A (zh) 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
JP2010205189A (ja) * 2009-03-05 2010-09-16 Nec Corp 検索結果文書のスコアリングシステム、スコア算出装置、スコアリング方法、及びスコアリングプログラム
US20110208735A1 (en) * 2010-02-23 2011-08-25 Microsoft Corporation Learning Term Weights from the Query Click Field for Web Search
US20110270828A1 (en) * 2010-04-29 2011-11-03 Microsoft Corporation Providing search results in response to a search query
CN102722498B (zh) * 2011-03-31 2015-06-03 北京百度网讯科技有限公司 搜索引擎及其实现方法
CN102521321B (zh) * 2011-12-02 2013-07-31 华中科技大学 基于检索词歧义性和用户偏好的视频搜索方法
US9009148B2 (en) * 2011-12-19 2015-04-14 Microsoft Technology Licensing, Llc Clickthrough-based latent semantic model
CN102982125B (zh) * 2012-11-14 2016-03-02 百度在线网络技术(北京)有限公司 一种用于确定同义文本的方法和装置
CN103902694B (zh) * 2014-03-28 2017-04-12 哈尔滨工程大学 基于聚类和查询行为的检索结果排序方法
CN105278970A (zh) * 2014-06-16 2016-01-27 中兴通讯股份有限公司 一种数据处理方法、装置和终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100101621A (ko) * 2007-11-30 2010-09-17 이베이 인크. 검색 쿼리 결과로부터 관련성을 추론하는 컴퓨터로 구현되는 방법 및 컴퓨터 판독가능한 매체
KR20130116330A (ko) * 2011-01-14 2013-10-23 애플 인크. 토큰화된 검색 제안들
JP2014512600A (ja) * 2011-03-31 2014-05-22 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 関連知識情報を獲得・検索する方法及び装置
KR20150010740A (ko) * 2012-05-22 2015-01-28 알리바바 그룹 홀딩 리미티드 온라인 제품 검색 방법 및 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200138926A (ko) * 2019-06-03 2020-12-11 정제성 복합 센서를 이용하여 걸음 수에 대한 정상 측정 여부의 판단이 가능한 전자 단말 장치 및 그 동작 방법

Also Published As

Publication number Publication date
CN104899322A (zh) 2015-09-09
US10275533B2 (en) 2019-04-30
JP6161679B2 (ja) 2017-07-12
KR101721338B1 (ko) 2017-03-29
CN104899322B (zh) 2021-09-17
EP3107006A1 (en) 2016-12-21
JP2017010514A (ja) 2017-01-12
US20160371379A1 (en) 2016-12-22

Similar Documents

Publication Publication Date Title
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
US7519588B2 (en) Keyword characterization and application
EP2438539B1 (en) Co-selected image classification
JP5281405B2 (ja) 表示のための高品質レビューの選択
US8538943B1 (en) Providing images of named resources in response to a search query
US8694303B2 (en) Systems and methods for tuning parameters in statistical machine translation
US9195717B2 (en) Image result provisioning based on document classification
US20110191336A1 (en) Contextual image search
US9483462B2 (en) Generating training data for disambiguation
US20050021323A1 (en) Method and apparatus for identifying translations
US20090287676A1 (en) Search results with word or phrase index
US20200134019A1 (en) Method and system for decoding user intent from natural language queries
US11023503B2 (en) Suggesting text in an electronic document
CN113673262A (zh) 使用统计流数据进行不同语言之间的机器翻译
JP2013516022A (ja) 検索提案のクラスタ化及び提示
WO2017113592A1 (zh) 模型生成方法、词语赋权方法、装置、设备及计算机存储介质
CN107967290A (zh) 一种基于海量科研资料的知识图谱网络构建方法及系统、介质
WO2011091442A1 (en) System and method for optimizing search objects submitted to a data resource
US20130332440A1 (en) Refinements in Document Analysis
JP4883644B2 (ja) リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法
RU2711123C2 (ru) Способ и система компьютерной обработки одной или нескольких цитат в цифровых текстах для определения их автора
KR20120020558A (ko) 폭소노미 기반 개인화 웹 검색 방법 및 이를 수행하는 시스템
JP2010282403A (ja) 文書検索方法
US11120096B2 (en) Method and system for generating an object card
JP2012243130A (ja) 情報検索装置、方法、及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200303

Year of fee payment: 4