KR102092691B1

KR102092691B1 - 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기

Info

Publication number: KR102092691B1
Application number: KR1020177037044A
Authority: KR
Inventors: 종쿤 왕
Original assignee: 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date: 2016-01-07
Filing date: 2017-01-06
Publication date: 2020-03-24
Also published as: KR20180011254A; CN106951422A; WO2017118427A1; JP2018518788A; US20180107933A1; EP3401802A4; JP6526329B2; CN106951422B; EP3401802A1; MY188760A

Abstract

본 발명의 웹페이지 트레인 방법 및 기기에 관한 것이다. 상기 웹페이지 트레이닝 방법은, 하나 이상의 프로세서 및 메모리를 포함하는 기기에서, 식별될 질의 문자열을 취득하고, 상기 질의 문자열에 대응하는 이력 웹페이지 세트를 취득하는 단계 - 상기 이력 웹페이지 세트는 상기 질의 문자열을 이력으로 사용하여 클릭된 웹페이지들을 포함함 -; 미리 정해진 웹페이지 카테고리화 모델을 취득하는 단계; 상기 웹페이지 카테고리화 모델에 따라 상기 이력 웹페이지 세트 내의 각각의 웹페이지의 카테고리를 취득하는 단계; 상기 이력 웹페이지 세트 내의 각각의 카테고리 내의 웹페이지의 수에 대한 통계를 수집하고, 각각의 카테고리 내의 웹페이지의 수 및 상기 이력 웹페이지 세트 내의 웹페이지의 총수에 따라 계산을 수행하여, 상기 질의 문자열의 의도 분포를 취득하는 단계; 및 상기 의도 분포에 따라 상기 질의 문자열의 의도 식별 결과를 취득하는 단계를 포함한다.

Description

웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기

삭제

본 발명은 인터넷 기술 분야에 관한 것으로, 특히 검색 의도 식별 방법 및 기기에 관한 것이다.

인터넷 기술의 발달에 따라, 사람들은 네트워크를 통해 검색 엔진을 사용하여 필요한 것을 검색할 수 있다. 예를 들어 사용자가 검색 엔진에 "Legend of Sword and Fairy"을 입력하면, 사용자의 가능한 의도는 텔레비전 드라마를 검색하거나 게임을 검색하는 것일 수 있다. 검색 엔진이 사용자의 검색 의도를 먼저 결정하면, 회신된 검색 결과는 사용자가 필요로 하는 콘텐츠에 더 가까울 수 있다. 의도 식별(Intention identification)은 임의의 주어진 질의 문자열(query character string)에 대해, 질의 문자열이 속한 카테고리를 결정하는 것이다.

종래의 검색 의도 식별 방법에서는 일반적으로 웹페이지에 카테고리 주석을 부여하기 위해 수동 주석 방법(manual annotation method)을 사용한다. 의도 식별을 수행하는 경우, 수동으로 주석이 부여된(manually annotated) 웹페이지 카테고리가 식별을 수행하는 데 사용되어야 하고, 각각의 카테고리의 웹페이지 세트는 수동으로 주석이 부여되어야 한다. 결과적으로 비용이 지나치게 높다. 더욱이, 수동 주석의 결과의 수는 일반적으로 한정되며, 클릭률(click-through rate)이 낮은 웹페이지의 웹페이지 카테고리는 아마 알려지지 않은 것일 수 있다. 결과적으로, 의도 식별의 정확률(accuracy rate)은 높지 않다.

따라서, 전술한 기술적 문제점에 대해, 검색 의도 식별의 정확률을 향상시키기 위해, 검색 의도 식별 방법 및 기기를 제공한다.

삭제

검색 의도 식별 방법은, 하나 이상의 프로세서 및 메모리를 포함하는 기기에서의,

식별될 질의 문자열을 취득하고, 상기 질의 문자열에 대응하는 이력 웹페이지 세트를 취득하는 단계 - 상기 이력 웹페이지 세트는 이력적으로 상기 질의 문자열을 사용하여 클릭된 웹페이지들을 포함함 -;

미리 정해진 웹페이지 카테고리화 모델(web page categorization model)을 취득하는 단계;
상기 웹페이지 카테고리화 모델에 따라 상기 이력 웹페이지 세트 내의 각각의 웹페이지의 카테고리를 취득하는 단계;

상기 이력 웹페이지 세트 내의 각각의 카테고리 내의 웹페이지의 수에 대한 통계를 수집하고, 각각의 카테고리 내의 웹페이지의 수 및 상기 이력 웹페이지 세트 내의 웹페이지의 총수에 따라 계산을 수행하여, 상기 질의 문자열의 의도 분포(intention distribution)를 취득하는 단계; 및

상기 의도 분포에 따라 상기 질의 문자열의 의도 식별 결과를 취득하는 단계를 포함한다.
컴퓨터로 판독 가능한 비일시적인 저장 매체는, 하나 이상의 프로세서에 의해 실행될 때, 전술한 방법을 수행하는, 컴퓨터로 실행 가능한 명령어를 포함한다.
검색 의도 식별 기기는,
프로그램 명령어를 저장하는 메모리; 및
상기 메모리에 연결된 프로세서
를 포함하고,
상기 프로세서는 상기 프로그램 명령어를 실행하여,
식별될 질의 문자열을 취득하고, 상기 질의 문자열에 대응하는 이력 웹페이지 세트를 취득하고 - 상기 이력 웹페이지 세트는 이력적으로 상기 질의 문자열을 사용하여 클릭된 웹페이지들을 포함함 -;
미리 정해진 웹페이지 카테고리화 모델을 취득하고;
상기 웹페이지 카테고리화 모델에 따라 상기 이력 웹페이지 세트 내의 각각의 웹페이지의 카테고리를 취득하고;
상기 이력 웹페이지 세트 내의 각각의 카테고리 내의 웹페이지의 수에 대한 통계를 수집하고, 각각의 카테고리 내의 웹페이지의 수 및 상기 이력 웹페이지 세트 내의 웹페이지의 총수에 따라 계산을 수행하여, 상기 질의 문자열의 의도 분포를 취득하고;
상기 의도 분포에 따라 상기 질의 문자열의 의도 식별 결과를 취득하도록 구성된다.

삭제

당업자는 본 발명의 설명, 청구범위 및 도면에 비추어 본 발명의 다른 측면을 이해할 수 있을 것이다.

도 1은 일 실시예에 따른 웹페이지 트레이닝 방법 및 검색 의도 식별 방법의 애플리케이션 환경도이다.
도 2는 일 실시예에 따른 도 1에서의 서버의 내부 구성도이다.
도 3은 일 실시예에 따른 웹페이지 트레이닝 방법의 흐름도이다.
도 4는 일 실시예에 따른 검색 의도 식별 방법의 흐름도이다.
도 5는 일 실시예에 따른 문자열 카테고리화 모델을 생성하는 흐름도이다.
도 6은 일 실시예에 따른 웹페이지 트레이닝 기기의 구성 블록도이다.
도 7은 다른 실시예에 따른 웹페이지 트레이닝 기기의 구성 블록도이다.
도 8은 일 실시예에 따른 검색 의도 식별 기기의 구성 블록도이다.
도 9는 다른 실시예에 따른 검색 의도 식별 기기의 구성 블록도이다.
도 10은 또 다른 실시예에 따른 검색 의도 식별 기기의 구성 블록도이다.

도 1은 본 발명의 실시예에 따른 웹페이지 트레이닝 방법 및 검색 의도 식별 방법을 실행하는 애플리케이션 환경도이다. 도 1에 도시된 바와 같이, 애플리케이션 환경은 단말기(110) 및 서버(120)를 포함하며, 단말기(110)는 네트워크를 사용하여 서버(120)와 통신한다.

단말기(110)는 스마트폰, 태블릿 컴퓨터, 노트북 컴퓨터, 데스크톱 컴퓨터 등일 수 있으나, 이에 한정되는 것은 아니다. 단말기(110)는 검색을 수행하기 위해 네트워크를 사용하여 질의 문자열을 서버(120)에 전송하고, 서버(120)는 단말기(110)에 의해 전송되는 질의 요청에 응답할 수 있다.

일 실시예에서, 도 1의 서버(120)의 내부 구성은 도 2에 도시되어 있으며, 서버(120)는 시스템 버스를 사용하여 연결되는 프로세서, 저장 매체, 메모리 및 네트워크 인터페이스를 포함한다. 서버(120)의 저장 매체는 운영체제, 데이터베이스 및 검색 의도 식별 기기를 포함하며, 검색 의도 식별 기기는 웹페이지 트레이닝 기기를 포함하고, 데이터베이스는 데이터를 저장하도록 구성되고, 검색 의도 식별 기기는 서버(120)에 적용 가능한 검색 의도 식별 방법을 구현하도록 구성되며, 웹페이지 트레이닝 기기는 서버(120)에 적용 가능한 웹페이지 트레이닝 방법을 구현하도록 구성된다. 서버(120)의 프로세서는 계산 및 제어 능력을 제공하고, 서버(120) 전체의 작동을 지원하도록 구성된다. 서버(120)의 메모리는 저장 매체 내에 검색 의도 식별 기기를 작동하기 위한 환경을 제공한다. 서버(120)의 네트워크 인터페이스는 네트워크 연결을 통해 외부 단말기(110)와 통신하도록, 예를 들어 단말기(110)에 의해 전송되는 검색 요청을 수신하고 단말기(110)에 데이터를 회신하도록 구성된다.

도 3에 도시된 바와 같이, 일 실시예에서, 웹페이지 트레이닝 방법이 제공된다. 이 웹페이지 트레이닝 방법은 일례로서 전술한 애플리케이션 환경에서 서버에 적용될 수 있으며, 이 웹페이지 트레이닝 방법은 다음 단계를 포함한다.

단계 S210: 수동으로 주석이 부여된 카테고리의 트레이닝 웹페이지 세트를 취득하고, 트레이닝 웹페이지 세트 내의 웹페이지의 웹페이지 벡터를 생성한다.

구체적으로, 트레이닝 웹페이지 세트 내의 웹페이지의 수는 실제 요구에 따라 자체 정의될 수 있다. 트레이닝된9(trained) 웹페이지 카테고리화 모델을 더 정확하게 만들기 위해, 트레이닝 웹페이지 세트의 웹페이지 수는 충분히 커야하고, 웹페이지들은 상이한 카테고리에 속하며, 카테고리의 수도 또한 충분히 커야한다. 트레이닝 웹페이지 세트 내의 웹페이지의 카테고리는 모두 수동으로 주석이 부여된다.

예를 들어, mp3.baidu.com은 음악 카테고리로서 수동으로 주석이 부여되거나(annotated) 태그가 부여되고(tagged), youku.com은 비디오 카테고리로서 태그가 수동으로 부여된다. 트레이닝 웹페이지 세트 내의 웹페이지의 웹페이지 벡터를 생성하는 경우, 트레이닝 웹페이지 세트 내의 모든 웹페이지의 웹페이지 벡터가 생성될 수 있거나, 또는 미리 설정된 조건에 따라 일부 웹페이지를 선택하여 대응하는 웹페이지 벡터를 생성할 수 있다. 예를 들어, 수동으로 주석이 부여된 상이한 카테고리가 선택되고, 대응하는 웹페이지 벡터를 생성하기 위해 각각의 카테고리에서 미리 설정된 수의 웹페이지가 선택된다.

구체적으로, 트레이닝 웹페이지 세트 내의 웹페이지의 웹페이지 벡터를 생성하는 것은 다음 단계를 포함할 수 있다.

단계 S211: 트레이닝 웹페이지 세트 내의 제1 트레이닝 웹페이지의 유효 이력 질의 문자열을 취득하고, 유효 이력 질의 문자열에 대해 단어 구분을 수행한다.

구체적으로, 제1 트레이닝 웹페이지가 제1 질의 문자열의 검색 결과로 사용되고, 사용자에 의해 클릭되어 입력되면, 이 제1 질의 문자열이 제1 트레이닝 웹페이지의 유효 이력 질의 문자열이다. 또는 제1 트레이닝 웹페이지가 제2 질의 문자열의 검색 결과로 사용되지만, 사용자에 의해 클릭되거나 입력되지 않으면, 이 제2 질의 문자열은 제1 트레이닝 웹페이지의 유효 이력 질의 문자열이 아니다. 제1 트레이닝 웹페이지의 유효 이력 질의 문자열의 수는 실제 요구에 따라 자체 정의될 수 있다. 그러나 트레이닝 결과를 유효하게 하기 위해서는 유효 이력 질의 문자열의 수는 충분히 커야한다. 예를 들어, 미리 설정된 기간 내에 제1 트레이닝 웹페이지의 모든 유효 이력 질의 문자열이 취득되고, 미리 설정된 기간은 현재 시각에 비교적 가까운 기간일 수 있다. 또한, 유효 이력 질의 문자열에 대해 단어 구분이 수행되고, 이 질의 문자열은 각각의 구분된 단어를 사용하여 표시된다. 예를 들어 "songs from Jay Chou"에 대해 단어 구분이 수행된 후에, "Jay Chou" 및 "song"이 취득되고, 단어 구분의 목적은 웹페이지를 더 잘 표시하는 것이다. 질의 문자열을 사용하여 웹페이지를 직접 표시하면, 데이터가 지나치게 희소하다. 예를 들어, "songs of Jay Chou"와 "songs and tunes of Jay Chou"는 서로 다른 두 개의 질의 문자열이다. 그러나 질의 문자열에 대해 단어 구분을 수행한 후, "Jay Chou"와 "songs", 또한 "Jay Chou"와 "songs and tunes"가 취득되고, 이 둘은 모두 구분된 단어 "Jay Chou"를 포함하며, 질의 문자열 사이의 유사도가 증가한다.

단계 S212: 각각의 구분된 단어의 유효 이력 횟수를 취득하며, 유효 횟수는 유효 이력 질의 문자열에 구분된 단어가 출현하는 총 횟수이다.

구체적으로, 유효 이력 질의 문자열에 대해 단어 구분이 수행된 후에 30개의 구분된 단어 "Jay Chou"가 있으면, 이 구분된 단어 "Jay Chou"의 유효 횟수는 30이다. 구분된 단어의 유효 횟수가 클수록 이 구분된 단어를 포함하는 질의 문자열을 사용하여 현재 트레이닝 웹페이지에 들어가는 횟수가 더 많음을 나타낸다.

단계 S213: 각각의 구분된 단어의 유효 횟수에 따라 각각의 구분된 단어의 구분된 단어 가중치를 계산한다.

구체적으로, 구분된 단어 가중치의 값은 유효 횟수에 정비례하며, 구분된 단어 가중치를 계산하기 위한 구체적인 방법은 실제 필요에 따라 자체 정의될 수 있다.

일 실시예에서, 구분된 단어

의 구분된 단어 가중치

는 식

에 따라 계산되며, 여기서 i는 구분된 단어의 일련번호이고,

는 구분된 단어

의 유효 횟수이다.

구체적으로,

함수가 비교적 평활하고(smooth), 구분된 단어 가중치

와 유효 횟수

사이의 정비례 관계를 충족시키며, 각각의 구분된 단어의 구분된 단어 가중치는 간단하고 편리하게 취득될 수 있다.

단계 S214: 각각의 구분된 단어 및 대응하는 구분된 단어 가중치에 따라 제1 트레이닝 웹페이지의 웹페이지 벡터를 생성한다.

구체적으로, 제1 트레이닝 웹페이지에 대해, 제1 트레이닝 웹페이지의 유효 이력 질의 문자열에 의해 생성된 구분된 단어의 수가 m개이면, 각각의 구분된 단어는

를 사용하여 표시되며, 여기서

이고,

는 구분된 단어

에 대응하는 구분된 단어 가중치이며, 제1 트레이닝 웹페이지의 웹페이지 벡터는 {

,

, ...,

}로 표시될 수 있고, 생성된 웹페이지 벡터는 제1 트레이닝 웹페이지의 BOW(Bag Of Words) 특성을 표시한다. 예를 들어, 트레이닝 웹페이지 mp3.baidu.com의 경우, 트레이닝 웹페이지의 웹페이지 벡터는 {Jay Chou: 5.4, songs: 3.6, Jolin Tsai: 3.0, tfboys : 10}이다. 서로 다른 웹페이지 사이의 유사도는 웹페이지 벡터에 따라 계산될 수 있다. 제1 웹페이지와 제2 웹페이지 사이의 유사도가 미리 설정된 조건을 충족하고, 제1 웹페이지의 웹페이지 카테고리가 제1 카테고리이면, 제2 웹페이지의 웹페이지 카테고리도 제1 카테고리라고 추론될 수 있다. mp3.baidu.com의 웹페이지 벡터의 코사인 함수와 y.qq.com의 웹페이지 벡터의 코사인 함수 사이의 유사도가 미리 설정된 임계치보다 크면, 음악 카테고리인 mp3.baidu.com에 따라 y.qq.com도 또한 음악 카테고리인 것으로 추론된다.

단계 S215: 트레이닝 웹페이지 세트 내의 다른 트레이닝 웹페이지를 취득하고 타깃(target) 트레이닝 웹페이지의 웹페이지 벡터의 생성이 완료될 때까지 단계 S211 내지 단계 S214를 반복한다.

구체적으로, 필요에 따라 타깃 트레이닝 웹페이지의 수는 자체 정의될 수 있으며, 타깃 트레이닝 웹페이지는 미리 설정된 규칙을 사용하여 선별되는(screened) 트레이닝 웹페이지 세트 내의 트레이닝 웹페이지일 수 있다. 또는, 웹페이지 세트 내의 모든 트레이닝 웹페이지가 타깃 트레이닝 웹페이지로서 직접 사용될 수 있다.

단계 S220: 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성한다.

구체적으로, 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터는 LR(Logistic Regression, 로지스틱 회귀) 모델에 대입하여 트레이닝을 수행하여, 웹페이지 카테고리화 모델을 취득한다. 본 발명의 일 실시예에서, 웹페이지 카테고리화 모델은 LR 방법을 사용하여 트레이닝된다. 선형 회귀(linear regression)에 기초하여, LR 모델에 논리 함수가 사용되며, 트레이닝된 웹페이지 카테고리화 모델의 정확률은 비교적 높을 수 있다.

구체적으로, 웹페이지 카테고리화 모델은 수학적 모델(mathematical model)이고, 웹페이지를 카테고리화하는 데 사용되며, 상이한 웹페이지 카테고리화 모델을 취득하기 위해, 카테고리화 모델은 상이한 방법들을 사용하여 트레이닝될 수 있다. 트레이닝 방법은 필요에 따라 선택될 수 있다.

웹페이지 카테고리화 모델을 취득하기 위해 감독 학습 방법(supervised learning method)을 사용하여 오프라인 트레이닝을 수행한 후, 웹페이지에 대해 온라인 카테고리 예측이 수행되는 경우에 트레이닝된 웹페이지 카테고리화 모델을 사용하여 카테고리 예측이 수행된다. 일 실시예에서, 제한된 수의 수동으로 주석이 부여된 카테고리의 웹페이지 및 생성된 웹페이지 벡터를 사용하여 웹페이지 카테고리화 모델이 생성되고, 웹페이지 카테고리화 모델을 사용하여 자동 웹페이지 카테고리 주석이 구현될 수 있다. 또한, 트레이닝 데이터로서 웹페이지 벡터를 사용하는 경우, 웹페이지상의 모든 콘텐츠가 크롤링되거나(crawled) 단어의 배깅(bagging)이 수행될 필요는 없어, 트레이닝 수행의 데이터 비용이 낮고, 트레이닝 효율이 높다.

이에 따라, 수동으로 주석이 부여된 카테고리를 갖는 트레이닝 웹페이지 세트를 취득하고, 트레이닝 웹페이지 세트 내의 웹페이지의 웹페이지 벡터를 생성하는데, 구체적으로는, 트레이닝 웹페이지 세트 내의 제1 트레이닝 웹페이지의 유효 이력 질의 문자열을 취득하고, 유효 이력 질의 문자열에 대해 단어 구분을 수행하고; 각각의 구분된 단어의 유효 횟수를 취득하고 - 유효 횟수는 유효 이력 질의 문자열에 구분된 단어가 출현하는 총 횟수임 -; 각각의 구분된 단어의 유효 횟수에 따라 각각의 구분된 단어의 구분된 단어 가중치를 계산하고; 각각의 구분된 단어 및 대응하는 구분된 단어 가중치에 따라 제1 트레이닝 웹페이지의 웹페이지 벡터를 생성하고; 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 것을 포함한다. 유효 이력 질의 문자열에 대해 단어 구분이 수행된 후에 생성되는 웹 페이지 벡터를 사용하여 트레이닝이 수행되어, 트레이닝 비용이 낮고, 효율성이 높으며, 웹페이지 카테고리화 모델이 생성된 후에 웹페이지에 대해 카테고리 주석이 자동으로 부여되므로, 중 꼬리 또는 긴 꼬리 웹페이지는 자동으로 카테고리를 취득할 수 있다. 따라서, 의도 식별에서 웹페이지 카테고리의 커버율(coverage rate)이 높고, 식별 의도의 정확률은 더 높다.

일 실시예에서, 단계 S220 전에, 이 웹페이지 트레이닝 방법은, 트레이닝 웹페이지 세트 내의 웹페이지의 LDA(Latent Dirichlet Allocation) 특성을 취득하는 단계를 더 포함한다.

구체적으로, LDA(문서 주제 생성 모델)는 텍스트에 대해 주제 클러스터링을 수행하는 데 사용되고, 웹페이지의 텍스트에 대한 LDA 모델을 입력함으로써 웹페이지의 LDA 특성을 취득할 수 있다.

단계 S220은, 웹페이지의 LDA 특성, 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 것이다.

구체적으로, 웹페이지의 LDA 특성, 수동으로 주석 부여된 카테고리 및 대응하는 웹페이지 벡터를 LR 모델에 대입하고 트레이닝을 수행하여, 웹페이지 카테고리화 모델을 취득한다. 본 발명의 일 실시예에서, 웹페이지 카테고리화 모델은 LR 방법을 사용하여 트레이닝된다. 선형 회귀에 기초하여, LR 모델에 대해 논리 함수가 사용되며, 트레이닝된 웹페이지 카테고리화 모델의 정확률이 높다.

구체적으로, 웹페이지의 LDA 특성이 웹페이지 카테고리화 모델을 트레이닝하기 위한 트레이닝 데이터에 추가되고, LDA 특성은 웹페이지의 주제를 반영하므로, 트레이닝된 웹페이지 카테고리화 모델은 웹페이지에 대해 카테고리 주석을 더욱 정확하게 부여할 수 있다.

표 1은 상이한 모델 및 방법을 사용하여 트레이닝을 수행함으로써 취득되는 웹페이지 카테고리화 모델을 사용한 웹페이지 카테고리화의 정확률 및 소환율(recall rate)을 보여주고, 오직 새로운 카테고리 및 기타 카테고리에 대해 카테고리화를 수행할 때의 정확률 및 소환율, 그리고 정확률과 소환율을 조합함으로써 취득되는 값 F1을 보여주며, 여기서 F1=2×정확률/(정확률＋소환율)이다. 표 1에서, LDA는 문서 주제 생성 모델을 나타내고, LR＋LDA는 LR 모델 및 LDA 특성이 모두 사용된다는 것을 나타내며, LR＋BOW＋LDA는 LR 모델, LDA 특성 및 웹페이지 벡터 BOW 특성이 모두 트레이닝을 수행하는 데 모두 사용된다는 것을 나타낸다. 여기서, 정확률은 검색된 엔트리(예: 문서 및 웹페이지 등) 중 얼마나 많은 엔트리가 정확한지를 나타내고, 소환율은 모든 정확한 엔트리 중 얼마나 많은 엔트리가 검색되었는지를 나타낸다. 정확률 = 추출된 정확한 정보의 수/추출된 정보의 수; 소환율 = 추출된 정확한 정보의 수/샘플 내의 정보의 수; F1은 정확률과 소환율의 조화 평균값(harmonic average value)이다.

[표 1]

표 1로부터, LR 방식을 사용하여 트레이닝을 수행함으로써 생성되는 웹페이지 카테고리화 모델을 사용하여 웹페이지 벡터에 기초하여 웹페이지를 카테고리화하는 경우, 대부분의 정확률 및 소환율이 증가하고, 정확률 및 소환율의 조합에 대해 취득되는 F1은 다른 방법보다 훨씬 높으며 효과가 바람직하다는 것을 알 수 있다.

일 실시예에서, 도 4에 도시된 바와 같이, 다음 단계를 포함하는 검색 의도 식별 방법이 제공된다.

단계 S310: 식별될 질의 문자열을 취득하고, 질의 문자열에 대응하는 이력 웹페이지 세트를 취득하며, 이력 웹페이지 세트는 질의 문자열을 사용하여 클릭된 각각의 이력 웹페이지를 포함한다.

구체적으로는, 식별될 질의 문자열은 단말기에 의해 검색 엔진에 입력되는 질의 문자열이며, 이력 검색에서 이 질의 문자열을 사용하여 클릭된 각각의 웹페이지에 의해 작성되는 이력 웹페이지가 취득된다.

단계 S320: 전술한 실시예 중 어느 하나에서의 웹페이지 트레이닝 방법을 사용하여 생성되는 웹페이지 카테고리화 모델을 취득하고, 웹페이지 카테고리화 모델에 따라 이력 웹페이지 세트 내의 각각의 웹페이지의 카테고리를 취득한다.

구체적으로, 이력 웹페이지 세트 내의 웹페이지는 전술한 실시예에서의 웹페이지 트레이닝 방법을 사용하여 생성되는 웹페이지 카테고리화 모델을 사용함으로써 자동으로 카테고리화된다. 예를 들어, 이력 웹페이지 세트는 {

,

, ...,

}이고, 여기서

(

)는 각각의 웹페이지를 나타내며, 각각의 웹페이지의 카테고리는 다음과 같이 취득된다:

,

, ..., 및

이고, 여기서

는 카테고리를 나타내고, s는 카테고리의 총수이고, 카테고리 세트는 {

}이다.

단계 S330: 이력 웹페이지 세트 내의 각각의 카테고리 내의 웹페이지의 수에 대한 통계를 수집하고, 각각의 카테고리 내의 웹페이지의 수 및 이력 웹페이지 세트 내의 웹페이지의 총수에 따라, 질의 문자열의 의도 분포를 계산한다.

구체적으로, 통계는 이력 웹페이지 세트의 각각의 카테고리 내의 웹페이지의 수에 대해 수집된다. 카테고리

에 t개의 웹페이지가 포함되어 있으면,

이다. 통계는 이력 웹페이지 내의 웹페이지의 총수를 취득하기 위해 이력 웹페이지 세트 내의 웹페이지의 총수에 대해 수집된다. 예를 들어, 이력 웹페이지 세트 {

,

, ...,

}의 경우, 웹페이지의 총수가

이면, 식별될 질의 문자열

이 카테고리

에 속할 확률은

이다. 동일한 방법을 사용하여 계산을 수행하여

가 각각의 카테고리에 속할 확률을 취득하여, 질의 문자열의 의도 분포를 취득할 수 있으며, 여기서

이고, 확률

의 크기는 질의 문자열이 카테고리

속할 확률을 나타낸다.

단계 S340: 의도 분포에 따라 질의 문자열의 의도 식별 결과를 취득한다.

구체적으로, 의도 분포에서 최대 확률을 갖는 카테고리가 질의 문자열의 의도 식별 결과로서 사용될 수 있거나, 미리 설정된 수의 카테고리가 확률의 내림차순으로 채택되어 의도 식별 결과로서 사용되거나, 또는 확률이 미리 설정된 임계치보다 큰 임의의 카테고리가 질의 문자열의 의도 식별 결과로서 사용된다. 또한, 질의 문자열을 전송하는 현재 애플리케이션에 대응하는 서비스가 취득될 수도 있고, 질의 문자열의 의도 식별 결과는 서비스의 서비스 정보 및 의도 분포에 따라 취득된다. 질의 문자열을 전송하는 현재 애플리케이션의 서비스 정보가 음악 서비스이면, 의도 분포에서 최대 확률을 갖는 카테고리가 음악이 아니더라도, 음악 카테고리는 여전히 의도 식별 결과로서 사용될 수 있다.

이에 따라, 식별될 질의 문자열을 취득함으로써, 질의 문자열에 대응하는 이력 웹페이지 세트가 취득되며, 이력 웹페이지 세트는 질의 문자열을 이력으로 사용하여 클릭되는 각각의 웹페이지를 포함하고; 개시된 웹페이지 트레이닝 방법을 사용하여 생성되는 웹페이지 카테고리 모델이 취득되고, 웹페이지 카테고리화 모델 내의 웹 페이지의 카테고리는 웹페이지 카테고리화 모델에 따라 취득되고; 이력 웹페이지 세트 내의 각각의 웹페이지 카테고리 내의 웹페이지의 수에 대해 통계가 수집되고 각각의 카테고리 내의 웹페이지의 수 및 이력 웹페이지 세트 내의 웹페이지의 총수에 따라 계산이 수행되어 질의 문자열의 의도 분포가 취득되며; 의도 분포에 따라 질의 문자열의 의도 식별 결과가 취득된다. 후속하는 의도 식별 동안에, 이력 웹페이지 세트 내의 웹페이지 카테고리는 웹페이지 카테고리화 모델에 따라 자동으로 식별된다. 따라서 커버율은 웹페이지의 카테고리에 수동으로 주석을 부여하는 것보다 크며, 중 꼬리 또는 긴 꼬리 웹페이지는 카테고리를 자동으로 취득할 수 있어, 의도 식별의 정확률을 높인다.

또한, 일 실시예에서, 단계 S340 전에, 상기 검색 의도 식별 방법은 문자열 카테고리화 모델을 취득하고, 문자열 카테고리화 모델에 따라 질의 문자열의 예측된 카테고리를 취득하는 단계를 더 포함한다.

구체적으로는, 문자열 카테고리화 모델은 수학적 모델이며, 질의 문자열을 카테고리화하는 데 사용되며, 상이한 문자열 카테고리화 모델의 취득하기 위해, 카테고리화 모델은 상이한 방법을 사용하여 트레이닝된다. 트레이닝 방법은 실제 필요에 따라 선택된다. 감독 학습 방법을 사용하여 문자열 카테고리화 모델을 취득한 후, 후속하여 질의 문자열에 대해 의도 식별이 수행되는 경우, 트레이닝된 문자열 카테고리화 모델을 사용하여 질의 문자열에 대해 카테고리 예측이 수행될 수 있다. 질의 문자열의 의도 분포가 명백하지 않는 경우, 질의 문자열의 예측된 카테고리가 질의 문자열의 의도 식별 결과를 수정하는 데 사용될 수 있다. 예를 들어, 질의 문자열의 의도 분포에 많은 카테고리가 있으며, 카테고리의 확률은 모두 근사하고(close), 비교적 작다. 이 경우, 질의 문자열의 의도 분포에 따라서 식별이 수행되면, 결과가 정확하지 않을 수 있다.

따라서 단계 S340은 식별 분포 및 예측된 카테고리에 따라 질의 문자열의 의도 식별 결과를 취득하는 단계를 포함할 수 있다.

구체적으로는, 질의 문자열의 의도 식별 결과는 의도 분포 내의 카테고리의 수 및 각각의 카테고리에 대응하는 확률에 따라 결정될 수 있다. 의도 분포에 많은 카테고리가 있고 각각의 카테고리에 대응하는 확률이 비교적 작으면, 예측된 카테고리는 질의 문자열의 의도 식별 결과 또는 의도 분포에서 최대 확률을 갖는 카테고리로서 직접 사용될 수 있고, 예상 카테고리는 조합되어 질의 문자열의 의도 결정 결과를 형성한다. 의도 식별 결과를 취득하기 위한 구체적인 알고리즘은 필요에 따라 자체 정의될 수 있다. 의도 분포가 취득되지 않는 경우(예를 들어, 질의 문자열이 희소한 문자열이면, 질의 문자열에 대응하는 이력 웹페이지 세트 내의 웹페이지의 수는 0이거나 매우 적으므로, 의도 분포가 계산될 수 없거나 또는 취득된 의도 분포가 하나의 카테고리의 확률만 가지고, 그 확률이 100%인데, 이는 매우 부정확할 수 있다), 질의 문자열의 예측된 카테고리가 직접 질의 문자열의 의도 식별 결과로서 사용될 수 있다.

일 실시예에서, 도 5에 도시된 바와 같이, 문자열 카테고리화 모델을 취득하는 단계 전에, 상기 방법은 다음 단계를 더 포함한다.

단계 S410: 이력 질의 문자열의 의도 분포에서 최대 의도 확률을 갖는 카테고리에 대응하는 질의 문자열을 취득하고, 그 질의 문자열을 카테고리 트레이닝 질의 문자열로 사용하며, 최대 의도 확률을 갖는 카테고리는 복수의 상이한 카테고리를 포함할 수 있다.

구체적으로, 많은 수의 이력 질의 문자열이 의도 분포를 취득하기 위해 계산되고, 상이한 질의 문자열에 대응하는 의도 분포에서 최대 의도 확률을 갖는 카테고리는 다를 수 있다. 의도 분포에서 최대 의도 확률을 갖는 카테고리에 대응하는 질의 문자열이 카테고리 트레이닝 질의 문자열로 사용되며, 최대 의도 확률을 갖는 카테고리는 트레이닝 데이터의 유효성을 보장하기 위해 다수의 상이한 카테고리를 포함한다.

단계 S420: 상이한 카테고리에 대응하는 각각의 카테고리 트레이닝 질의 문자열에 대해 단어 기반 및/또는 문자 기반 n-gram 특성을 추출하며, n은 1보다 크고 M보다 작은 정수이며, M은 현재 추출된 질의 문자열의 단어 길이 또는 문자 길이이다.

구체적으로, 카테고리 트레이닝 질의 문자열을 직접 사용하여 모델을 트레이닝하면, 길이가 약 4단어인 질의 문자열과 같은, 비교적 짧은 질의 문자열에 대해서는 특성은 지나치게 희소하여, 트레이닝된 모델은 아주 우수한 트레이닝 결과를 얻을 수 없다. 이런 경우, 단어 기반 및/또는 문자 기반 n-gram 특성을 추출하여, 특성 길이를 확장시킨다. 동일한 질의 문자열의 경우, 추출은 여러 번 수행될 수 있고, 각각의 추출의 문자 수는 상이하다. 여기서, 문자의 양은 단어 수를 나타내고, 모든 추출 결과는 특성 조합을 형성한다. 예를 들어, 이 카테고리의 트레이닝 질의 문자열이 "song of Jay Chou"인 경우, 단어 기반 1-gram 특성 내지 3-gram 특성이 추출되어 각각 다음을 취득한다:

1-gram 특성: Jay Chou, of, song

2-gram 특성: of Jay Chou, song of

3-gram 특성: song of Jay Chou

문자 기반 1-gram 특성 내지 3-gram 특성이 추출하여 각각 다음을 취득한다:

1-gram 특성: Chou, Jie, Lun, of, singing, song

2-gram 특성: Jie Chou, Jay, of Lun, singing of, song

3-gram 특성: Jay Chou, of Jay, singing of Lun, song of

길이가 3단어인 질의 문자열에 대해, 문자 기반 1-gram 특성 내지 3-gram ㅌ-특성을 추출한 후에, 질의 문자열의 특성 길이는 15 규모(dimension) 이상으로 확장되므로, 특성 희소성 문제(feature sparseness problem)를 해결할 수 있다. 또한, 트레이닝 데이터 세트가 충분히 크기 때문에, 원하는 확장성이 달성된다.

단계 S430: n-gram 특성 및 대응하는 카테고리를 트레이닝 데이터로 사용하고, 카테고리화 모델을 사용하여 트레이닝을 수행하여 문자열 카테고리화 모델을 생성한다.

구체적으로는, n-gram 특성 및 대응하는 카테고리를 트레이닝 데이터로 사용하고, 카테고리화 모델에 대입하여 트레이닝을 수행하여, 문자열 카테고리화 모델을 취득한다.

구체적으로는, n-gram 특성과 대응하는 카테고리를 트레이닝 데이터로 사용하고, 카테고리 트레이닝 질의 문자열로부터 트레이닝 데이터를 확장하고, 취득된 문자열 카테고리화 모델의 카테고리화 정확률 및 커버율을 모두 증가시킬 수 있다. 일 실시예에서, 트레이닝 특성을 고정된 수의 규모(예: 백만개 규모)의 벡터에 매핑하여 트레이닝 효율을 향상시키고 비효율적인 트레이닝 데이터를 줄여 트레이닝 정확률을 향상시킬 수 있거나, 또는 질의 문자열을 사용하여 클릭되는 웹페이지의 카테고리 비례 특성(category proportion feature)을 증가시켜 트레이닝 데이터의 커버율을 증가시키며, 카테고리 비율 특성은 모든 웹페이지에 대한 각각의 카테고리의 클릭된 웹페이지 사이의 비율이고, 예를 들어, 모든 웹페이지에 대한 클릭된 비디오 카테고리 웹페이지의 비율이다.

표 2는 상이한 모델 및 방법에 의해 취득되는 문자열 카테고리화 모델을 사용하여 질의 문자열을 카테고리화하는 경우의 정확률 및 소환율을 보여주며, F1은 정확률 및 소환율의 조합에 대해 취득되며, 여기서 F1=2×정확률/(정확률＋소환율)이다. 이 표에서, NB(

) 모델을 나타내고, 단어 구분은 단어 기반 n-gram 특성을 추출하는 것을 나타내고, 문자 특성은 문자 기반 n-gram 특성을 추출하는 것을 나타내고, SVM(Support Vector Machine)은 SVM 모델을 나타낸다.

[표 2]

이 표로부터, 추출된 문자 기반 n-gram 특성과 함께 트레이닝에 의해 생성되는 문자열 카테고리화 모델을 사용하여 질의 문자열이 카테고리화되는 경우에 정확률 및 소환율이 모두 높고, 문자 기반 n-gram 특성과 단어 기반 n-gram 특성이 모두 추출되는 경우에 정확률 및 소환율이 더 높다는 것을 알 수 있다. 이 방법을 사용하지 않는 의도 식별의 전체 정확률에 비해, 이 방법을 사용하는 의도 식별의 전체 정확률은 54.6% 내지 85% 증가할 수 있고, 60% 증가할 수 있다.

일 실시예에서, 도 6에 도시된 바와 같이, 웹페이지 트레이닝 기기가 제공된다. 이 웹페이지 트레이닝 기기는 웹페이지 벡터 생성 모듈(510) 및 웹페이지 카테고리화 모델 생성 모듈(520)을 포함한다.

웹페이지 벡터 생성 모듈(510)은 수동으로 주석이 부여된 카테고리의 트레이닝 웹페이지 세트를 취득하고, 트레이닝 웹페이지 세트 내의 각각의 웹페이지의 웹페이지 벡터를 생성하도록 구성될 수 있다. 또한, 웹페이지 벡터 생성 모듈(510)은, 단어 구분 유닛(511), 구분된 단어 가중치 계산 유닛(512) 및 웹페이지 벡터 생성 유닛(513)을 포함할 수 있다.

단어 구분 유닛(511)은 트레이닝 웹페이지 세트 내의 제1 트레이닝 웹페이지의 유효 이력 질의 문자열 취득하고, 유효 이력 질의 문자열에 대해 단어 구분을 수행하도록 구성될 수 있다.

구분된 단어 가중치 계산 유닛(512)은 각각의 구분된 단어의 유효 횟수를 취득하고, 각각의 구분된 단어의 유효 횟수에 따라 각각의 구분된 단어의 구분된 단어 가중치를 계산하도록 구성될 수 있으며, 유효 횟수는 유효 이력 질의 문자열에 구분된 단어가 출현하는 총 횟수이다.

웹페이지 벡터 생성 유닛(513)은 각각의 구분된 단어 및 대응하는 구분된 단어 가중치에 따라 제1 트레이닝 웹페이지의 웹페이지 벡터를 생성하도록 구성될 수 있다.

웹페이지 카테고리화 모델 생성 모듈(520)은 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리, 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하도록 구성될 수 있다.

일 실시예에서, 도 7에 도시된 바와 같이, 이 웹페이지 트레이닝 기기는 트레이닝 웹페이지 세트 내의 웹페이지의 LDA 특성을 취득하도록 구성될 수 있는 LDA 특성 취득 모듈(530)을 더 포함한다. 웹페이지 카테고리화 모델 생성 모듈(520)은 추가로, 웹페이지의 LDA 특성, 수동으로 주석이 부여된 카테고리 및 대응는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하도록 구성된다.

일 실시예에서, 웹페이지 카테고리화 모델 생성 모듈(520)은 추가로, 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터를 LR 모델에 대입하고 트레이닝을 수행하여, 웹페이지 카테고리화 모델을 취득하도록 구성된다.

일 실시예에서, 구분된 단어 가중치 계산 유닛(512)은 추가로, 식

에 따라 구분된 단어

의 구분된 단어 가중치

를 계산하도록 구성되며, 여기서 i는 구분된 단어의 일련번호이고,

는 구분된 단어

의 유효 횟수이다.

일 실시예에서, 도 8에 도시된 바와 같이, 검색 의도 식별 기기가 제공된다. 이 검색 의도 식별 기기는 취득 모듈(610), 웹페이지 카테고리 취득 모듈(620) 및 의도 식별 모듈(630)을 포함할 수 있다.

취득 모듈(610)은 식별될 질의 문자열을 취득하고, 질의 문자열에 대응하는 이력 웹페이지 세트를 취득하도록 구성될 수 있으며, 이력 웹페이지 세트는 이력적으로 질의 문자열을 사용하여 클릭된 웹페이지들을 포함한다.

웹페이지 카테고리 취득 모듈(620)은 전술한 웹페이지 트레이닝 기기를 사용하여 생성되는 웹페이지 카테고리화 모델을 취득하고, 웹페이지 카테고리화 모델에 따라 이력 웹페이지 세트 내의 웹페이지의 카테고리를 취득하도록 구성될 수 있다.

의도 식별 모듈(630)은 이력 웹페이지 세트 내의 각각의 카테고리 내의 웹페이지의 수에 대한 통계를 수집하고, 각각의 카테고리 내의 웹페이지의 수 및 이력 웹페이지 세트 내의 웹페이지의 총수에 따라 계산을 수행하여, 질의 문자열의 의도 분포를 취득하고, 의도 분포에 따라 질의 문자열의 의도 식별 결과를 취득하도록 구성될 수 있다.

일 실시예에서, 도 9에 도시된 바와 같이, 이 검색 의도 식별 기기는, 문자열 카테고리화 모델을 취득하고, 문자열 카테고리화 모델에 따라 질의 문자열의 예측된 카테괴리를 취득하도록 구성될 수 있는 예측 카테고리 모듈(640)을 더 포함한다. 의도 식별 모듈(630)은 추가로, 의도 분포 및 예측된 카테고리에 따라 질의 문자열의 의도 식별 결과를 취득하도록 구성된다.

일 실시예에서, 도 10에 도시된 바와 같이, 검색 의도 식별 기기는 문자열 카테고리화 모델 생성 모듈(650)을 더 포함하며, 문자열 카테고리화 모델 생성 모듈(650)은 이력 질의 문자열에 대응하는 의도 분포에서 최대 의도 확률을 갖는 카테고리에 대응하는 질의 문자열을 취득하고, 그 질의 문자열을 카테고리 트레이닝 질의 문자열로 사용하고 - 최대 의도 확률을 갖는 카테고리는 복수의 상이한 카테고리를 포함함 -; 상이한 카테고리에 대응하는 카테고리 트레이닝 질의 문자열에 대해 단어 기반 및/또는 문자 기반 n-gram 특성을 추출하고 - 여기서 n은 1보다 크고 현재 추출된 질의 문자열의 단어 길이 또는 문자 길이보다 작은 정수임 -; n-gram 특성 및 대응하는 카테고리를 트레이닝 데이터로 사용하고, 카테고리화 모델을 사용하여 트레이닝을 수행하여 문자열 카테고리화 모델을 생성하도록 구성될 수 있다.

당업자는 전술한 실시예의 방법의 프로세스 중 일부 또는 전부를 관련 하드웨어를 지시하는 컴퓨터 프로그램에 의해 구현 될 수 있음을 이해할 수있다. 프로그램은 컴퓨터 판독 가능 저장 매체에 저장 될 수있다. 예를 들어, 본 발명의 실시 예에서, 프로그램은 컴퓨터 시스템의 저장 매체에 저장 될 수 있고, 컴퓨터 시스템의 적어도 하나의 프로세서에 의해 실행되어, 전술 한 실시 예를 포함하는 프로세스를 구현한다 행동 양식. 저장 매체는 자기 디스크, 광 디스크, 판독 전용 메모리 (ROM), 랜덤 액세스 메모리 (RAM) 등일 수있다.

당업자라면, 전술한 실시예의 방법의 프로세스 중 일부 또는 전부가 관련 하드웨어에 명령하는 컴퓨터 프로그램으로 구현될 수 있음을 이해할 수 있을 것이다. 프로그램은 컴퓨터로 판독할 수 있는 저장 매체에 저장될 수 있다. 예를 들어, 본 발명의 실시예에서, 프로그램은 컴퓨터 시스템의 저장 매체에 저장될 수 있으며, 컴퓨터 시스템 내의 하나 이상의 프로세서에 의해 실행되어, 전술한 방법의 실시예를 포함한 프로세스를 구현한다. 저장 매체는 자기 디스크, 광 디스크, 판독 전용 메모리(read-only memory, ROM), 또는 임의 접근 메모리(random access memory, RAM) 등일 수 있다.

대응하여, 본 발명의 실시예는 컴퓨터 프로그램이 저장되는 컴퓨터 저장 매체를 더 제공하며, 컴퓨터 프로그램은 본 발명의 실시예의 웹페이지 트레이닝 방법 또는 검색 의도 식별 방법을 수행하는 데 사용된다.

전술한 실시예의 기술적 특성은 무작위로 조합될 수 있다. 설명을 간결하게 하기 위해, 전술한 실시예에서는 기술적 특성의 모든 가능한 조합을 설명한 것은 아니다. 그러나 이러한 기술적 특성의 조합이 서로 모순되지 않는 한, 모든 조합이 본 명세서에 의해 기록되는 범위에 속하는 것으로 생각되어야 한다.

구체적으로 상세하게 설명된 전술한 실시예는 본 발명의 몇몇 구현 방식만을 나타내므로, 본 발명의 특허범위를 한정하는 것으로 해석될 수 없다. 유의해야 할 것은, 당업자라면 본 발명의 사상을 벗어나지 않으면서 여러 변형 및 개선을 행할 수 있다는 것이다. 이러한 모든 변형 및 개선은 본 발명의 보호 범위에 속한다. 따라서, 본 발명의 특허 보호 범위는 첨부된 청구 범위에 따라야 한다.

Claims

하나 이상의 프로세서 및 메모리를 포함하는 기기에서의, 검색 의도 식별 방법으로서,
식별될 질의 문자열을 취득하고, 상기 질의 문자열에 대응하는 이력 웹페이지 세트를 취득하는 단계 - 상기 이력 웹페이지 세트는 이력적으로 상기 질의 문자열을 사용하여 클릭된 웹페이지들을 포함함 -;
미리 정해진 웹페이지 카테고리화 모델을 취득하는 단계;
상기 웹페이지 카테고리화 모델에 따라 상기 이력 웹페이지 세트 내의 각각의 웹페이지의 카테고리를 취득하는 단계;
상기 이력 웹페이지 세트 내의 각각의 카테고리 내의 웹페이지의 수에 대한 통계를 수집하고, 각각의 카테고리 내의 웹페이지의 수 및 상기 이력 웹페이지 세트 내의 웹페이지의 총수에 따라 계산을 수행하여, 상기 질의 문자열의 의도 분포를 취득하는 단계; 및
상기 의도 분포에 따라 상기 질의 문자열의 의도 식별 결과를 취득하는 단계
를 포함하고,
상기 검색 의도 식별 방법은,
이력 질의 문자열에 대응하는 의도 분포에서 최대 의도 확률을 갖는 카테고리에 대응하는 질의 문자열을 취득하고, 상기 질의 문자열을 카테고리 트레이닝 질의 문자열로 사용하는 단계 - 상기 최대 의도 확률을 갖는 카테고리는 복수의 상이한 카테고리를 포함함 -;
상기 상이한 카테고리에 대응하는 카테고리 트레이닝 질의 문자열에 대해 단어 기반 n-gram 특성 및 문자 기반 n-gram 특성 중 적어도 하나를 추출하는 단계 - 여기서 n은 1보다 크고 현재 추출된 질의 문자열의 단어 길이 또는 문자 길이보다 작은 정수임 -;
상기 n-gram 특성 및 대응하는 카테고리를 트레이닝 데이터로 사용하고, 카테고리화 모델을 사용하여 트레이닝을 수행하여 문자열 카테고리화 모델을 생성하는 단계;
상기 문자열 카테고리화 모델에 따라 상기 질의 문자열의 예측된 카테고리를 취득하는 단계를 더 포함하고,
상기 의도 분포에 따라 상기 질의 문자열의 의도 식별 결과를 취득하는 단계는,
상기 의도 분포 및 상기 질의 문자열의 예측된 카테고리에 따라 상기 질의 문자열의 의도 식별 결과를 취득하는 단계를 포함하는,
검색 의도 식별 방법.
제1항에 있어서,
상기 웹페이지 카테고리화 모델은 웹페이지 트레이닝 방법에 의해 결정되고,
상기 웹페이지 트레이닝 방법은,
복수의 웹페이지를 가지고 수동으로 주석이 부여된 카테고리를 갖는 트레이닝 웹페이지 세트를 취득하는 단계;
상기 트레이닝 웹페이지 세트 내의 제1 트레이닝 웹페이지의 유효 이력 질의 문자열을 취득하고, 상기 유효 이력 질의 문자열에 대해 단어 구분을 수행하는 단계;
각각의 구분된 단어의 유효 횟수를 취득하는 단계 - 상기 유효 횟수는 상기 유효 이력 질의 문자열에 상기 구분된 단어가 출현하는 총 횟수임 -;
각각의 구분된 단어의 유효 횟수에 따라 각각의 구분된 단어의 구분된 단어 가중치를 계산하는 단계;
각각의 구분된 단어 및 대응하는 구분된 단어 가중치에 따라 상기 제1 트레이닝 웹페이지의 웹페이지 벡터를 생성하는 단계;
상기 트레이닝 웹페이지 세트 내의 나머지 트레이닝 웹페이지에 대해 웹페이지 벡터를 생성하는 단계; 및
상기 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 단계를 포함하는, 검색 의도 식별 방법.
제2항에 있어서,
상기 웹페이지 트레이닝 방법은,
상기 트레이닝 웹페이지 세트 내의 각각의 웹페이지의 LDA(Latent Dirichlet Allocation) 특성을 취득하는 단계를 더 포함하고;
상기 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 단계는,
상기 웹페이지의 LDA 특성, 상기 수동으로 주석이 부여된 카테고리 및 상기 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 단계를 포함하는, 검색 의도 식별 방법.
제2항에 있어서,
상기 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 단계는,
상기 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 상기 대응하는 웹페이지 벡터를 LR(Logistic Regression) 모델에 대입하고 트레이닝을 수행하여, 상기 웹페이지 카테고리화 모델을 취득하는 단계를 포함하는, 검색 의도 식별 방법.
제2항에 있어서,
상기 각각의 구분된 단어의 유효 횟수에 따라 각각의 구분된 단어의 구분된 단어 가중치를 계산하는 단계는,
식
에 따라 구분된 단어
의 구분된 단어 가중치
를 계산하는 단계를 포함하고, 여기서 i는 상기 구분된 단어의 일련번호이고,
는 상기 구분된 단어
의 유효 횟수인, 검색 의도 식별 방법.
하나 이상의 프로세서에 의해 실행될 때, 제1항 내지 제5항 중 어느 한 항을 수행하는, 컴퓨터로 실행 가능한 명령어를 포함하는, 컴퓨터로 판독 가능한 비일시적인 저장 매체.
검색 의도 식별 기기로서,
프로그램 명령어를 저장하는 메모리; 및
상기 메모리에 연결된 프로세서
를 포함하고,
상기 프로세서는 상기 프로그램 명령어를 실행하여,
식별될 질의 문자열을 취득하고, 상기 질의 문자열에 대응하는 이력 웹페이지 세트를 취득하고 - 상기 이력 웹페이지 세트는 이력적으로 상기 질의 문자열을 사용하여 클릭된 웹페이지들을 포함함 -;
미리 정해진 웹페이지 카테고리화 모델을 취득하고;
상기 웹페이지 카테고리화 모델에 따라 상기 이력 웹페이지 세트 내의 각각의 웹페이지의 카테고리를 취득하고;
상기 이력 웹페이지 세트 내의 각각의 카테고리 내의 웹페이지의 수에 대한 통계를 수집하고, 각각의 카테고리 내의 웹페이지의 수 및 상기 이력 웹페이지 세트 내의 웹페이지의 총수에 따라 계산을 수행하여, 상기 질의 문자열의 의도 분포를 취득하고;
상기 의도 분포에 따라 상기 질의 문자열의 의도 식별 결과를 취득하도록 구성되고,
상기 프로세서는 상기 프로그램 명령어를 실행하여,
이력 질의 문자열에 대응하는 의도 분포에서 최대 의도 확률을 갖는 카테고리에 대응하는 질의 문자열을 취득하고, 상기 질의 문자열을 카테고리 트레이닝 질의 문자열로 사용하고 - 상기 최대 의도 확률을 갖는 카테고리는 복수의 상이한 카테고리를 포함함 -;
상기 상이한 카테고리에 대응하는 카테고리 트레이닝 질의 문자열에 대해 단어 기반 n-gram 특성과 문자 기반 n-gram 특성 중 적어도 하나를 추출하고 - 여기서 n은 1보다 크고 현재 추출된 질의 문자열의 단어 길이 또는 문자 길이보다 작은 정수임 -;
상기 n-gram 특성 및 대응하는 카테고리를 트레이닝 데이터로 사용하고, 카테고리화 모델을 사용하여 트레이닝을 수행하여 문자열 카테고리화 모델을 생성하고;
상기 문자열 카테고리화 모델에 따라 상기 질의 문자열의 예측된 카테고리를 취득하도록 추가로 구성되고,
상기 의도 분포에 따라 상기 질의 문자열의 의도 식별 결과를 취득하는 것은,
상기 의도 분포 및 상기 예측된 카테고리에 따라 상기 질의 문자열의 의도 식별 결과를 취득하는 것을 포함하는,
검색 의도 식별 기기.
제7항에 있어서,
상기 프로세서는 웹페이지 트레이닝 방법에 의해 웹페이지 카테고리화 모델을 결정하도록 구성되며,
상기 웹페이지 트레이닝 방법은,
복수의 웹페이지를 가지고 수동으로 주석이 부여된 카테고리를 갖는 트레이닝 웹페이지 세트를 취득하는 단계;
상기 트레이닝 웹페이지 세트 내의 제1 트레이닝 웹페이지의 유효 이력 질의 문자열을 취득하고, 상기 유효 이력 질의 문자열에 대해 단어 구분을 수행하는 단계;
각각의 구분된 단어의 유효 횟수를 취득하는 단계 - 상기 유효 횟수는 상기 유효 이력 질의 문자열에 상기 구분된 단어가 출현하는 총 횟수임 -;
각각의 구분된 단어의 유효 횟수에 따라 각각의 구분된 단어의 구분된 단어 가중치를 계산하는 단계;
각각의 구분된 단어 및 대응하는 구분된 단어 가중치에 따라 상기 제1 트레이닝 웹페이지의 웹페이지 벡터를 생성하는 단계;
상기 트레이닝 웹페이지 세트 내의 나머지 트레이닝 웹페이지에 대해 웹페이지 벡터를 생성하는 단계; 및
상기 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 단계를 포함하는, 검색 의도 식별 기기.
제8항에 있어서,
상기 웹페이지 트레이닝 방법은,
상기 트레이닝 웹페이지 세트 내의 각각의 웹페이지의 LDA 특성을 취득하는 단계를 더 포함하고;
상기 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 단계는,
상기 웹페이지의 LDA 특성, 상기 수동으로 주석이 부여된 카테고리 및 상기 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 단계를 포함하는, 검색 의도 식별 기기.
제8항에 있어서,
상기 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 단계는,
상기 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 상기 대응하는 웹페이지 벡터를 LR 모델에 대입하고 트레이닝을 수행하여, 상기 웹페이지 카테고리화 모델을 취득하는 단계를 포함하는, 검색 의도 식별 기기.
삭제
삭제
삭제
삭제