KR102092691B1 - 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기 - Google Patents

웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기 Download PDF

Info

Publication number
KR102092691B1
KR102092691B1 KR1020177037044A KR20177037044A KR102092691B1 KR 102092691 B1 KR102092691 B1 KR 102092691B1 KR 1020177037044 A KR1020177037044 A KR 1020177037044A KR 20177037044 A KR20177037044 A KR 20177037044A KR 102092691 B1 KR102092691 B1 KR 102092691B1
Authority
KR
South Korea
Prior art keywords
webpage
training
query string
category
web page
Prior art date
Application number
KR1020177037044A
Other languages
English (en)
Other versions
KR20180011254A (ko
Inventor
종쿤 왕
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20180011254A publication Critical patent/KR20180011254A/ko
Application granted granted Critical
Publication of KR102092691B1 publication Critical patent/KR102092691B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 웹페이지 트레인 방법 및 기기에 관한 것이다. 상기 웹페이지 트레이닝 방법은, 하나 이상의 프로세서 및 메모리를 포함하는 기기에서, 식별될 질의 문자열을 취득하고, 상기 질의 문자열에 대응하는 이력 웹페이지 세트를 취득하는 단계 - 상기 이력 웹페이지 세트는 상기 질의 문자열을 이력으로 사용하여 클릭된 웹페이지들을 포함함 -; 미리 정해진 웹페이지 카테고리화 모델을 취득하는 단계; 상기 웹페이지 카테고리화 모델에 따라 상기 이력 웹페이지 세트 내의 각각의 웹페이지의 카테고리를 취득하는 단계; 상기 이력 웹페이지 세트 내의 각각의 카테고리 내의 웹페이지의 수에 대한 통계를 수집하고, 각각의 카테고리 내의 웹페이지의 수 및 상기 이력 웹페이지 세트 내의 웹페이지의 총수에 따라 계산을 수행하여, 상기 질의 문자열의 의도 분포를 취득하는 단계; 및 상기 의도 분포에 따라 상기 질의 문자열의 의도 식별 결과를 취득하는 단계를 포함한다.

Description

웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
삭제
삭제
본 발명은 인터넷 기술 분야에 관한 것으로, 특히 검색 의도 식별 방법 및 기기에 관한 것이다.
인터넷 기술의 발달에 따라, 사람들은 네트워크를 통해 검색 엔진을 사용하여 필요한 것을 검색할 수 있다. 예를 들어 사용자가 검색 엔진에 "Legend of Sword and Fairy"을 입력하면, 사용자의 가능한 의도는 텔레비전 드라마를 검색하거나 게임을 검색하는 것일 수 있다. 검색 엔진이 사용자의 검색 의도를 먼저 결정하면, 회신된 검색 결과는 사용자가 필요로 하는 콘텐츠에 더 가까울 수 있다. 의도 식별(Intention identification)은 임의의 주어진 질의 문자열(query character string)에 대해, 질의 문자열이 속한 카테고리를 결정하는 것이다.
종래의 검색 의도 식별 방법에서는 일반적으로 웹페이지에 카테고리 주석을 부여하기 위해 수동 주석 방법(manual annotation method)을 사용한다. 의도 식별을 수행하는 경우, 수동으로 주석이 부여된(manually annotated) 웹페이지 카테고리가 식별을 수행하는 데 사용되어야 하고, 각각의 카테고리의 웹페이지 세트는 수동으로 주석이 부여되어야 한다. 결과적으로 비용이 지나치게 높다. 더욱이, 수동 주석의 결과의 수는 일반적으로 한정되며, 클릭률(click-through rate)이 낮은 웹페이지의 웹페이지 카테고리는 아마 알려지지 않은 것일 수 있다. 결과적으로, 의도 식별의 정확률(accuracy rate)은 높지 않다.
따라서, 전술한 기술적 문제점에 대해, 검색 의도 식별의 정확률을 향상시키기 위해, 검색 의도 식별 방법 및 기기를 제공한다.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
검색 의도 식별 방법은, 하나 이상의 프로세서 및 메모리를 포함하는 기기에서의,
식별될 질의 문자열을 취득하고, 상기 질의 문자열에 대응하는 이력 웹페이지 세트를 취득하는 단계 - 상기 이력 웹페이지 세트는 이력적으로 상기 질의 문자열을 사용하여 클릭된 웹페이지들을 포함함 -;
미리 정해진 웹페이지 카테고리화 모델(web page categorization model)을 취득하는 단계;
상기 웹페이지 카테고리화 모델에 따라 상기 이력 웹페이지 세트 내의 각각의 웹페이지의 카테고리를 취득하는 단계;
상기 이력 웹페이지 세트 내의 각각의 카테고리 내의 웹페이지의 수에 대한 통계를 수집하고, 각각의 카테고리 내의 웹페이지의 수 및 상기 이력 웹페이지 세트 내의 웹페이지의 총수에 따라 계산을 수행하여, 상기 질의 문자열의 의도 분포(intention distribution)를 취득하는 단계; 및
상기 의도 분포에 따라 상기 질의 문자열의 의도 식별 결과를 취득하는 단계를 포함한다.
컴퓨터로 판독 가능한 비일시적인 저장 매체는, 하나 이상의 프로세서에 의해 실행될 때, 전술한 방법을 수행하는, 컴퓨터로 실행 가능한 명령어를 포함한다.
검색 의도 식별 기기는,
프로그램 명령어를 저장하는 메모리; 및
상기 메모리에 연결된 프로세서
를 포함하고,
상기 프로세서는 상기 프로그램 명령어를 실행하여,
식별될 질의 문자열을 취득하고, 상기 질의 문자열에 대응하는 이력 웹페이지 세트를 취득하고 - 상기 이력 웹페이지 세트는 이력적으로 상기 질의 문자열을 사용하여 클릭된 웹페이지들을 포함함 -;
미리 정해진 웹페이지 카테고리화 모델을 취득하고;
상기 웹페이지 카테고리화 모델에 따라 상기 이력 웹페이지 세트 내의 각각의 웹페이지의 카테고리를 취득하고;
상기 이력 웹페이지 세트 내의 각각의 카테고리 내의 웹페이지의 수에 대한 통계를 수집하고, 각각의 카테고리 내의 웹페이지의 수 및 상기 이력 웹페이지 세트 내의 웹페이지의 총수에 따라 계산을 수행하여, 상기 질의 문자열의 의도 분포를 취득하고;
상기 의도 분포에 따라 상기 질의 문자열의 의도 식별 결과를 취득하도록 구성된다.
삭제
삭제
삭제
삭제
삭제
당업자는 본 발명의 설명, 청구범위 및 도면에 비추어 본 발명의 다른 측면을 이해할 수 있을 것이다.
도 1은 일 실시예에 따른 웹페이지 트레이닝 방법 및 검색 의도 식별 방법의 애플리케이션 환경도이다.
도 2는 일 실시예에 따른 도 1에서의 서버의 내부 구성도이다.
도 3은 일 실시예에 따른 웹페이지 트레이닝 방법의 흐름도이다.
도 4는 일 실시예에 따른 검색 의도 식별 방법의 흐름도이다.
도 5는 일 실시예에 따른 문자열 카테고리화 모델을 생성하는 흐름도이다.
도 6은 일 실시예에 따른 웹페이지 트레이닝 기기의 구성 블록도이다.
도 7은 다른 실시예에 따른 웹페이지 트레이닝 기기의 구성 블록도이다.
도 8은 일 실시예에 따른 검색 의도 식별 기기의 구성 블록도이다.
도 9는 다른 실시예에 따른 검색 의도 식별 기기의 구성 블록도이다.
도 10은 또 다른 실시예에 따른 검색 의도 식별 기기의 구성 블록도이다.
도 1은 본 발명의 실시예에 따른 웹페이지 트레이닝 방법 및 검색 의도 식별 방법을 실행하는 애플리케이션 환경도이다. 도 1에 도시된 바와 같이, 애플리케이션 환경은 단말기(110) 및 서버(120)를 포함하며, 단말기(110)는 네트워크를 사용하여 서버(120)와 통신한다.
단말기(110)는 스마트폰, 태블릿 컴퓨터, 노트북 컴퓨터, 데스크톱 컴퓨터 등일 수 있으나, 이에 한정되는 것은 아니다. 단말기(110)는 검색을 수행하기 위해 네트워크를 사용하여 질의 문자열을 서버(120)에 전송하고, 서버(120)는 단말기(110)에 의해 전송되는 질의 요청에 응답할 수 있다.
일 실시예에서, 도 1의 서버(120)의 내부 구성은 도 2에 도시되어 있으며, 서버(120)는 시스템 버스를 사용하여 연결되는 프로세서, 저장 매체, 메모리 및 네트워크 인터페이스를 포함한다. 서버(120)의 저장 매체는 운영체제, 데이터베이스 및 검색 의도 식별 기기를 포함하며, 검색 의도 식별 기기는 웹페이지 트레이닝 기기를 포함하고, 데이터베이스는 데이터를 저장하도록 구성되고, 검색 의도 식별 기기는 서버(120)에 적용 가능한 검색 의도 식별 방법을 구현하도록 구성되며, 웹페이지 트레이닝 기기는 서버(120)에 적용 가능한 웹페이지 트레이닝 방법을 구현하도록 구성된다. 서버(120)의 프로세서는 계산 및 제어 능력을 제공하고, 서버(120) 전체의 작동을 지원하도록 구성된다. 서버(120)의 메모리는 저장 매체 내에 검색 의도 식별 기기를 작동하기 위한 환경을 제공한다. 서버(120)의 네트워크 인터페이스는 네트워크 연결을 통해 외부 단말기(110)와 통신하도록, 예를 들어 단말기(110)에 의해 전송되는 검색 요청을 수신하고 단말기(110)에 데이터를 회신하도록 구성된다.
도 3에 도시된 바와 같이, 일 실시예에서, 웹페이지 트레이닝 방법이 제공된다. 이 웹페이지 트레이닝 방법은 일례로서 전술한 애플리케이션 환경에서 서버에 적용될 수 있으며, 이 웹페이지 트레이닝 방법은 다음 단계를 포함한다.
단계 S210: 수동으로 주석이 부여된 카테고리의 트레이닝 웹페이지 세트를 취득하고, 트레이닝 웹페이지 세트 내의 웹페이지의 웹페이지 벡터를 생성한다.
구체적으로, 트레이닝 웹페이지 세트 내의 웹페이지의 수는 실제 요구에 따라 자체 정의될 수 있다. 트레이닝된9(trained) 웹페이지 카테고리화 모델을 더 정확하게 만들기 위해, 트레이닝 웹페이지 세트의 웹페이지 수는 충분히 커야하고, 웹페이지들은 상이한 카테고리에 속하며, 카테고리의 수도 또한 충분히 커야한다. 트레이닝 웹페이지 세트 내의 웹페이지의 카테고리는 모두 수동으로 주석이 부여된다.
예를 들어, mp3.baidu.com은 음악 카테고리로서 수동으로 주석이 부여되거나(annotated) 태그가 부여되고(tagged), youku.com은 비디오 카테고리로서 태그가 수동으로 부여된다. 트레이닝 웹페이지 세트 내의 웹페이지의 웹페이지 벡터를 생성하는 경우, 트레이닝 웹페이지 세트 내의 모든 웹페이지의 웹페이지 벡터가 생성될 수 있거나, 또는 미리 설정된 조건에 따라 일부 웹페이지를 선택하여 대응하는 웹페이지 벡터를 생성할 수 있다. 예를 들어, 수동으로 주석이 부여된 상이한 카테고리가 선택되고, 대응하는 웹페이지 벡터를 생성하기 위해 각각의 카테고리에서 미리 설정된 수의 웹페이지가 선택된다.
구체적으로, 트레이닝 웹페이지 세트 내의 웹페이지의 웹페이지 벡터를 생성하는 것은 다음 단계를 포함할 수 있다.
단계 S211: 트레이닝 웹페이지 세트 내의 제1 트레이닝 웹페이지의 유효 이력 질의 문자열을 취득하고, 유효 이력 질의 문자열에 대해 단어 구분을 수행한다.
구체적으로, 제1 트레이닝 웹페이지가 제1 질의 문자열의 검색 결과로 사용되고, 사용자에 의해 클릭되어 입력되면, 이 제1 질의 문자열이 제1 트레이닝 웹페이지의 유효 이력 질의 문자열이다. 또는 제1 트레이닝 웹페이지가 제2 질의 문자열의 검색 결과로 사용되지만, 사용자에 의해 클릭되거나 입력되지 않으면, 이 제2 질의 문자열은 제1 트레이닝 웹페이지의 유효 이력 질의 문자열이 아니다. 제1 트레이닝 웹페이지의 유효 이력 질의 문자열의 수는 실제 요구에 따라 자체 정의될 수 있다. 그러나 트레이닝 결과를 유효하게 하기 위해서는 유효 이력 질의 문자열의 수는 충분히 커야한다. 예를 들어, 미리 설정된 기간 내에 제1 트레이닝 웹페이지의 모든 유효 이력 질의 문자열이 취득되고, 미리 설정된 기간은 현재 시각에 비교적 가까운 기간일 수 있다. 또한, 유효 이력 질의 문자열에 대해 단어 구분이 수행되고, 이 질의 문자열은 각각의 구분된 단어를 사용하여 표시된다. 예를 들어 "songs from Jay Chou"에 대해 단어 구분이 수행된 후에, "Jay Chou" 및 "song"이 취득되고, 단어 구분의 목적은 웹페이지를 더 잘 표시하는 것이다. 질의 문자열을 사용하여 웹페이지를 직접 표시하면, 데이터가 지나치게 희소하다. 예를 들어, "songs of Jay Chou"와 "songs and tunes of Jay Chou"는 서로 다른 두 개의 질의 문자열이다. 그러나 질의 문자열에 대해 단어 구분을 수행한 후, "Jay Chou"와 "songs", 또한 "Jay Chou"와 "songs and tunes"가 취득되고, 이 둘은 모두 구분된 단어 "Jay Chou"를 포함하며, 질의 문자열 사이의 유사도가 증가한다.
단계 S212: 각각의 구분된 단어의 유효 이력 횟수를 취득하며, 유효 횟수는 유효 이력 질의 문자열에 구분된 단어가 출현하는 총 횟수이다.
구체적으로, 유효 이력 질의 문자열에 대해 단어 구분이 수행된 후에 30개의 구분된 단어 "Jay Chou"가 있으면, 이 구분된 단어 "Jay Chou"의 유효 횟수는 30이다. 구분된 단어의 유효 횟수가 클수록 이 구분된 단어를 포함하는 질의 문자열을 사용하여 현재 트레이닝 웹페이지에 들어가는 횟수가 더 많음을 나타낸다.
단계 S213: 각각의 구분된 단어의 유효 횟수에 따라 각각의 구분된 단어의 구분된 단어 가중치를 계산한다.
구체적으로, 구분된 단어 가중치의 값은 유효 횟수에 정비례하며, 구분된 단어 가중치를 계산하기 위한 구체적인 방법은 실제 필요에 따라 자체 정의될 수 있다.
일 실시예에서, 구분된 단어
Figure 112017128229792-pct00001
의 구분된 단어 가중치
Figure 112017128229792-pct00002
는 식
Figure 112017128229792-pct00003
에 따라 계산되며, 여기서 i는 구분된 단어의 일련번호이고,
Figure 112017128229792-pct00004
는 구분된 단어
Figure 112017128229792-pct00005
의 유효 횟수이다.
구체적으로,
Figure 112017128229792-pct00006
함수가 비교적 평활하고(smooth), 구분된 단어 가중치
Figure 112017128229792-pct00007
와 유효 횟수
Figure 112017128229792-pct00008
사이의 정비례 관계를 충족시키며, 각각의 구분된 단어의 구분된 단어 가중치는 간단하고 편리하게 취득될 수 있다.
단계 S214: 각각의 구분된 단어 및 대응하는 구분된 단어 가중치에 따라 제1 트레이닝 웹페이지의 웹페이지 벡터를 생성한다.
구체적으로, 제1 트레이닝 웹페이지에 대해, 제1 트레이닝 웹페이지의 유효 이력 질의 문자열에 의해 생성된 구분된 단어의 수가 m개이면, 각각의 구분된 단어는
Figure 112017128229792-pct00009
를 사용하여 표시되며, 여기서
Figure 112017128229792-pct00010
이고,
Figure 112017128229792-pct00011
는 구분된 단어
Figure 112017128229792-pct00012
에 대응하는 구분된 단어 가중치이며, 제1 트레이닝 웹페이지의 웹페이지 벡터는 {
Figure 112017128229792-pct00013
,
Figure 112017128229792-pct00014
, ...,
Figure 112017128229792-pct00015
}로 표시될 수 있고, 생성된 웹페이지 벡터는 제1 트레이닝 웹페이지의 BOW(Bag Of Words) 특성을 표시한다. 예를 들어, 트레이닝 웹페이지 mp3.baidu.com의 경우, 트레이닝 웹페이지의 웹페이지 벡터는 {Jay Chou: 5.4, songs: 3.6, Jolin Tsai: 3.0, tfboys : 10}이다. 서로 다른 웹페이지 사이의 유사도는 웹페이지 벡터에 따라 계산될 수 있다. 제1 웹페이지와 제2 웹페이지 사이의 유사도가 미리 설정된 조건을 충족하고, 제1 웹페이지의 웹페이지 카테고리가 제1 카테고리이면, 제2 웹페이지의 웹페이지 카테고리도 제1 카테고리라고 추론될 수 있다. mp3.baidu.com의 웹페이지 벡터의 코사인 함수와 y.qq.com의 웹페이지 벡터의 코사인 함수 사이의 유사도가 미리 설정된 임계치보다 크면, 음악 카테고리인 mp3.baidu.com에 따라 y.qq.com도 또한 음악 카테고리인 것으로 추론된다.
단계 S215: 트레이닝 웹페이지 세트 내의 다른 트레이닝 웹페이지를 취득하고 타깃(target) 트레이닝 웹페이지의 웹페이지 벡터의 생성이 완료될 때까지 단계 S211 내지 단계 S214를 반복한다.
구체적으로, 필요에 따라 타깃 트레이닝 웹페이지의 수는 자체 정의될 수 있으며, 타깃 트레이닝 웹페이지는 미리 설정된 규칙을 사용하여 선별되는(screened) 트레이닝 웹페이지 세트 내의 트레이닝 웹페이지일 수 있다. 또는, 웹페이지 세트 내의 모든 트레이닝 웹페이지가 타깃 트레이닝 웹페이지로서 직접 사용될 수 있다.
단계 S220: 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성한다.
구체적으로, 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터는 LR(Logistic Regression, 로지스틱 회귀) 모델에 대입하여 트레이닝을 수행하여, 웹페이지 카테고리화 모델을 취득한다. 본 발명의 일 실시예에서, 웹페이지 카테고리화 모델은 LR 방법을 사용하여 트레이닝된다. 선형 회귀(linear regression)에 기초하여, LR 모델에 논리 함수가 사용되며, 트레이닝된 웹페이지 카테고리화 모델의 정확률은 비교적 높을 수 있다.
구체적으로, 웹페이지 카테고리화 모델은 수학적 모델(mathematical model)이고, 웹페이지를 카테고리화하는 데 사용되며, 상이한 웹페이지 카테고리화 모델을 취득하기 위해, 카테고리화 모델은 상이한 방법들을 사용하여 트레이닝될 수 있다. 트레이닝 방법은 필요에 따라 선택될 수 있다.
웹페이지 카테고리화 모델을 취득하기 위해 감독 학습 방법(supervised learning method)을 사용하여 오프라인 트레이닝을 수행한 후, 웹페이지에 대해 온라인 카테고리 예측이 수행되는 경우에 트레이닝된 웹페이지 카테고리화 모델을 사용하여 카테고리 예측이 수행된다. 일 실시예에서, 제한된 수의 수동으로 주석이 부여된 카테고리의 웹페이지 및 생성된 웹페이지 벡터를 사용하여 웹페이지 카테고리화 모델이 생성되고, 웹페이지 카테고리화 모델을 사용하여 자동 웹페이지 카테고리 주석이 구현될 수 있다. 또한, 트레이닝 데이터로서 웹페이지 벡터를 사용하는 경우, 웹페이지상의 모든 콘텐츠가 크롤링되거나(crawled) 단어의 배깅(bagging)이 수행될 필요는 없어, 트레이닝 수행의 데이터 비용이 낮고, 트레이닝 효율이 높다.
이에 따라, 수동으로 주석이 부여된 카테고리를 갖는 트레이닝 웹페이지 세트를 취득하고, 트레이닝 웹페이지 세트 내의 웹페이지의 웹페이지 벡터를 생성하는데, 구체적으로는, 트레이닝 웹페이지 세트 내의 제1 트레이닝 웹페이지의 유효 이력 질의 문자열을 취득하고, 유효 이력 질의 문자열에 대해 단어 구분을 수행하고; 각각의 구분된 단어의 유효 횟수를 취득하고 - 유효 횟수는 유효 이력 질의 문자열에 구분된 단어가 출현하는 총 횟수임 -; 각각의 구분된 단어의 유효 횟수에 따라 각각의 구분된 단어의 구분된 단어 가중치를 계산하고; 각각의 구분된 단어 및 대응하는 구분된 단어 가중치에 따라 제1 트레이닝 웹페이지의 웹페이지 벡터를 생성하고; 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 것을 포함한다. 유효 이력 질의 문자열에 대해 단어 구분이 수행된 후에 생성되는 웹 페이지 벡터를 사용하여 트레이닝이 수행되어, 트레이닝 비용이 낮고, 효율성이 높으며, 웹페이지 카테고리화 모델이 생성된 후에 웹페이지에 대해 카테고리 주석이 자동으로 부여되므로, 중 꼬리 또는 긴 꼬리 웹페이지는 자동으로 카테고리를 취득할 수 있다. 따라서, 의도 식별에서 웹페이지 카테고리의 커버율(coverage rate)이 높고, 식별 의도의 정확률은 더 높다.
일 실시예에서, 단계 S220 전에, 이 웹페이지 트레이닝 방법은, 트레이닝 웹페이지 세트 내의 웹페이지의 LDA(Latent Dirichlet Allocation) 특성을 취득하는 단계를 더 포함한다.
구체적으로, LDA(문서 주제 생성 모델)는 텍스트에 대해 주제 클러스터링을 수행하는 데 사용되고, 웹페이지의 텍스트에 대한 LDA 모델을 입력함으로써 웹페이지의 LDA 특성을 취득할 수 있다.
단계 S220은, 웹페이지의 LDA 특성, 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 것이다.
구체적으로, 웹페이지의 LDA 특성, 수동으로 주석 부여된 카테고리 및 대응하는 웹페이지 벡터를 LR 모델에 대입하고 트레이닝을 수행하여, 웹페이지 카테고리화 모델을 취득한다. 본 발명의 일 실시예에서, 웹페이지 카테고리화 모델은 LR 방법을 사용하여 트레이닝된다. 선형 회귀에 기초하여, LR 모델에 대해 논리 함수가 사용되며, 트레이닝된 웹페이지 카테고리화 모델의 정확률이 높다.
구체적으로, 웹페이지의 LDA 특성이 웹페이지 카테고리화 모델을 트레이닝하기 위한 트레이닝 데이터에 추가되고, LDA 특성은 웹페이지의 주제를 반영하므로, 트레이닝된 웹페이지 카테고리화 모델은 웹페이지에 대해 카테고리 주석을 더욱 정확하게 부여할 수 있다.
표 1은 상이한 모델 및 방법을 사용하여 트레이닝을 수행함으로써 취득되는 웹페이지 카테고리화 모델을 사용한 웹페이지 카테고리화의 정확률 및 소환율(recall rate)을 보여주고, 오직 새로운 카테고리 및 기타 카테고리에 대해 카테고리화를 수행할 때의 정확률 및 소환율, 그리고 정확률과 소환율을 조합함으로써 취득되는 값 F1을 보여주며, 여기서 F1=2×정확률/(정확률+소환율)이다. 표 1에서, LDA는 문서 주제 생성 모델을 나타내고, LR+LDA는 LR 모델 및 LDA 특성이 모두 사용된다는 것을 나타내며, LR+BOW+LDA는 LR 모델, LDA 특성 및 웹페이지 벡터 BOW 특성이 모두 트레이닝을 수행하는 데 모두 사용된다는 것을 나타낸다. 여기서, 정확률은 검색된 엔트리(예: 문서 및 웹페이지 등) 중 얼마나 많은 엔트리가 정확한지를 나타내고, 소환율은 모든 정확한 엔트리 중 얼마나 많은 엔트리가 검색되었는지를 나타낸다. 정확률 = 추출된 정확한 정보의 수/추출된 정보의 수; 소환율 = 추출된 정확한 정보의 수/샘플 내의 정보의 수; F1은 정확률과 소환율의 조화 평균값(harmonic average value)이다.
[표 1]
Figure 112017128229792-pct00016
표 1로부터, LR 방식을 사용하여 트레이닝을 수행함으로써 생성되는 웹페이지 카테고리화 모델을 사용하여 웹페이지 벡터에 기초하여 웹페이지를 카테고리화하는 경우, 대부분의 정확률 및 소환율이 증가하고, 정확률 및 소환율의 조합에 대해 취득되는 F1은 다른 방법보다 훨씬 높으며 효과가 바람직하다는 것을 알 수 있다.
일 실시예에서, 도 4에 도시된 바와 같이, 다음 단계를 포함하는 검색 의도 식별 방법이 제공된다.
단계 S310: 식별될 질의 문자열을 취득하고, 질의 문자열에 대응하는 이력 웹페이지 세트를 취득하며, 이력 웹페이지 세트는 질의 문자열을 사용하여 클릭된 각각의 이력 웹페이지를 포함한다.
구체적으로는, 식별될 질의 문자열은 단말기에 의해 검색 엔진에 입력되는 질의 문자열이며, 이력 검색에서 이 질의 문자열을 사용하여 클릭된 각각의 웹페이지에 의해 작성되는 이력 웹페이지가 취득된다.
단계 S320: 전술한 실시예 중 어느 하나에서의 웹페이지 트레이닝 방법을 사용하여 생성되는 웹페이지 카테고리화 모델을 취득하고, 웹페이지 카테고리화 모델에 따라 이력 웹페이지 세트 내의 각각의 웹페이지의 카테고리를 취득한다.
구체적으로, 이력 웹페이지 세트 내의 웹페이지는 전술한 실시예에서의 웹페이지 트레이닝 방법을 사용하여 생성되는 웹페이지 카테고리화 모델을 사용함으로써 자동으로 카테고리화된다. 예를 들어, 이력 웹페이지 세트는 {
Figure 112017128229792-pct00017
,
Figure 112017128229792-pct00018
, ...,
Figure 112017128229792-pct00019
}이고, 여기서
Figure 112017128229792-pct00020
(
Figure 112017128229792-pct00021
)는 각각의 웹페이지를 나타내며, 각각의 웹페이지의 카테고리는 다음과 같이 취득된다:
Figure 112017128229792-pct00022
,
Figure 112017128229792-pct00023
, ..., 및
Figure 112017128229792-pct00024
이고, 여기서
Figure 112017128229792-pct00025
는 카테고리를 나타내고, s는 카테고리의 총수이고, 카테고리 세트는 {
Figure 112017128229792-pct00026
}이다.
단계 S330: 이력 웹페이지 세트 내의 각각의 카테고리 내의 웹페이지의 수에 대한 통계를 수집하고, 각각의 카테고리 내의 웹페이지의 수 및 이력 웹페이지 세트 내의 웹페이지의 총수에 따라, 질의 문자열의 의도 분포를 계산한다.
구체적으로, 통계는 이력 웹페이지 세트의 각각의 카테고리 내의 웹페이지의 수에 대해 수집된다. 카테고리
Figure 112017128229792-pct00027
에 t개의 웹페이지가 포함되어 있으면,
Figure 112017128229792-pct00028
이다. 통계는 이력 웹페이지 내의 웹페이지의 총수를 취득하기 위해 이력 웹페이지 세트 내의 웹페이지의 총수에 대해 수집된다. 예를 들어, 이력 웹페이지 세트 {
Figure 112017128229792-pct00029
,
Figure 112017128229792-pct00030
, ...,
Figure 112017128229792-pct00031
}의 경우, 웹페이지의 총수가
Figure 112017128229792-pct00032
이면, 식별될 질의 문자열
Figure 112017128229792-pct00033
이 카테고리
Figure 112017128229792-pct00034
에 속할 확률은
Figure 112017128229792-pct00035
이다. 동일한 방법을 사용하여 계산을 수행하여
Figure 112017128229792-pct00036
가 각각의 카테고리에 속할 확률을 취득하여, 질의 문자열의 의도 분포를 취득할 수 있으며, 여기서
Figure 112017128229792-pct00037
이고, 확률
Figure 112017128229792-pct00038
의 크기는 질의 문자열이 카테고리
Figure 112017128229792-pct00039
속할 확률을 나타낸다.
단계 S340: 의도 분포에 따라 질의 문자열의 의도 식별 결과를 취득한다.
구체적으로, 의도 분포에서 최대 확률을 갖는 카테고리가 질의 문자열의 의도 식별 결과로서 사용될 수 있거나, 미리 설정된 수의 카테고리가 확률의 내림차순으로 채택되어 의도 식별 결과로서 사용되거나, 또는 확률이 미리 설정된 임계치보다 큰 임의의 카테고리가 질의 문자열의 의도 식별 결과로서 사용된다. 또한, 질의 문자열을 전송하는 현재 애플리케이션에 대응하는 서비스가 취득될 수도 있고, 질의 문자열의 의도 식별 결과는 서비스의 서비스 정보 및 의도 분포에 따라 취득된다. 질의 문자열을 전송하는 현재 애플리케이션의 서비스 정보가 음악 서비스이면, 의도 분포에서 최대 확률을 갖는 카테고리가 음악이 아니더라도, 음악 카테고리는 여전히 의도 식별 결과로서 사용될 수 있다.
이에 따라, 식별될 질의 문자열을 취득함으로써, 질의 문자열에 대응하는 이력 웹페이지 세트가 취득되며, 이력 웹페이지 세트는 질의 문자열을 이력으로 사용하여 클릭되는 각각의 웹페이지를 포함하고; 개시된 웹페이지 트레이닝 방법을 사용하여 생성되는 웹페이지 카테고리 모델이 취득되고, 웹페이지 카테고리화 모델 내의 웹 페이지의 카테고리는 웹페이지 카테고리화 모델에 따라 취득되고; 이력 웹페이지 세트 내의 각각의 웹페이지 카테고리 내의 웹페이지의 수에 대해 통계가 수집되고 각각의 카테고리 내의 웹페이지의 수 및 이력 웹페이지 세트 내의 웹페이지의 총수에 따라 계산이 수행되어 질의 문자열의 의도 분포가 취득되며; 의도 분포에 따라 질의 문자열의 의도 식별 결과가 취득된다. 후속하는 의도 식별 동안에, 이력 웹페이지 세트 내의 웹페이지 카테고리는 웹페이지 카테고리화 모델에 따라 자동으로 식별된다. 따라서 커버율은 웹페이지의 카테고리에 수동으로 주석을 부여하는 것보다 크며, 중 꼬리 또는 긴 꼬리 웹페이지는 카테고리를 자동으로 취득할 수 있어, 의도 식별의 정확률을 높인다.
또한, 일 실시예에서, 단계 S340 전에, 상기 검색 의도 식별 방법은 문자열 카테고리화 모델을 취득하고, 문자열 카테고리화 모델에 따라 질의 문자열의 예측된 카테고리를 취득하는 단계를 더 포함한다.
구체적으로는, 문자열 카테고리화 모델은 수학적 모델이며, 질의 문자열을 카테고리화하는 데 사용되며, 상이한 문자열 카테고리화 모델의 취득하기 위해, 카테고리화 모델은 상이한 방법을 사용하여 트레이닝된다. 트레이닝 방법은 실제 필요에 따라 선택된다. 감독 학습 방법을 사용하여 문자열 카테고리화 모델을 취득한 후, 후속하여 질의 문자열에 대해 의도 식별이 수행되는 경우, 트레이닝된 문자열 카테고리화 모델을 사용하여 질의 문자열에 대해 카테고리 예측이 수행될 수 있다. 질의 문자열의 의도 분포가 명백하지 않는 경우, 질의 문자열의 예측된 카테고리가 질의 문자열의 의도 식별 결과를 수정하는 데 사용될 수 있다. 예를 들어, 질의 문자열의 의도 분포에 많은 카테고리가 있으며, 카테고리의 확률은 모두 근사하고(close), 비교적 작다. 이 경우, 질의 문자열의 의도 분포에 따라서 식별이 수행되면, 결과가 정확하지 않을 수 있다.
따라서 단계 S340은 식별 분포 및 예측된 카테고리에 따라 질의 문자열의 의도 식별 결과를 취득하는 단계를 포함할 수 있다.
구체적으로는, 질의 문자열의 의도 식별 결과는 의도 분포 내의 카테고리의 수 및 각각의 카테고리에 대응하는 확률에 따라 결정될 수 있다. 의도 분포에 많은 카테고리가 있고 각각의 카테고리에 대응하는 확률이 비교적 작으면, 예측된 카테고리는 질의 문자열의 의도 식별 결과 또는 의도 분포에서 최대 확률을 갖는 카테고리로서 직접 사용될 수 있고, 예상 카테고리는 조합되어 질의 문자열의 의도 결정 결과를 형성한다. 의도 식별 결과를 취득하기 위한 구체적인 알고리즘은 필요에 따라 자체 정의될 수 있다. 의도 분포가 취득되지 않는 경우(예를 들어, 질의 문자열이 희소한 문자열이면, 질의 문자열에 대응하는 이력 웹페이지 세트 내의 웹페이지의 수는 0이거나 매우 적으므로, 의도 분포가 계산될 수 없거나 또는 취득된 의도 분포가 하나의 카테고리의 확률만 가지고, 그 확률이 100%인데, 이는 매우 부정확할 수 있다), 질의 문자열의 예측된 카테고리가 직접 질의 문자열의 의도 식별 결과로서 사용될 수 있다.
일 실시예에서, 도 5에 도시된 바와 같이, 문자열 카테고리화 모델을 취득하는 단계 전에, 상기 방법은 다음 단계를 더 포함한다.
단계 S410: 이력 질의 문자열의 의도 분포에서 최대 의도 확률을 갖는 카테고리에 대응하는 질의 문자열을 취득하고, 그 질의 문자열을 카테고리 트레이닝 질의 문자열로 사용하며, 최대 의도 확률을 갖는 카테고리는 복수의 상이한 카테고리를 포함할 수 있다.
구체적으로, 많은 수의 이력 질의 문자열이 의도 분포를 취득하기 위해 계산되고, 상이한 질의 문자열에 대응하는 의도 분포에서 최대 의도 확률을 갖는 카테고리는 다를 수 있다. 의도 분포에서 최대 의도 확률을 갖는 카테고리에 대응하는 질의 문자열이 카테고리 트레이닝 질의 문자열로 사용되며, 최대 의도 확률을 갖는 카테고리는 트레이닝 데이터의 유효성을 보장하기 위해 다수의 상이한 카테고리를 포함한다.
단계 S420: 상이한 카테고리에 대응하는 각각의 카테고리 트레이닝 질의 문자열에 대해 단어 기반 및/또는 문자 기반 n-gram 특성을 추출하며, n은 1보다 크고 M보다 작은 정수이며, M은 현재 추출된 질의 문자열의 단어 길이 또는 문자 길이이다.
구체적으로, 카테고리 트레이닝 질의 문자열을 직접 사용하여 모델을 트레이닝하면, 길이가 약 4단어인 질의 문자열과 같은, 비교적 짧은 질의 문자열에 대해서는 특성은 지나치게 희소하여, 트레이닝된 모델은 아주 우수한 트레이닝 결과를 얻을 수 없다. 이런 경우, 단어 기반 및/또는 문자 기반 n-gram 특성을 추출하여, 특성 길이를 확장시킨다. 동일한 질의 문자열의 경우, 추출은 여러 번 수행될 수 있고, 각각의 추출의 문자 수는 상이하다. 여기서, 문자의 양은 단어 수를 나타내고, 모든 추출 결과는 특성 조합을 형성한다. 예를 들어, 이 카테고리의 트레이닝 질의 문자열이 "song of Jay Chou"인 경우, 단어 기반 1-gram 특성 내지 3-gram 특성이 추출되어 각각 다음을 취득한다:
1-gram 특성: Jay Chou, of, song
2-gram 특성: of Jay Chou, song of
3-gram 특성: song of Jay Chou
문자 기반 1-gram 특성 내지 3-gram 특성이 추출하여 각각 다음을 취득한다:
1-gram 특성: Chou, Jie, Lun, of, singing, song
2-gram 특성: Jie Chou, Jay, of Lun, singing of, song
3-gram 특성: Jay Chou, of Jay, singing of Lun, song of
길이가 3단어인 질의 문자열에 대해, 문자 기반 1-gram 특성 내지 3-gram ㅌ-특성을 추출한 후에, 질의 문자열의 특성 길이는 15 규모(dimension) 이상으로 확장되므로, 특성 희소성 문제(feature sparseness problem)를 해결할 수 있다. 또한, 트레이닝 데이터 세트가 충분히 크기 때문에, 원하는 확장성이 달성된다.
단계 S430: n-gram 특성 및 대응하는 카테고리를 트레이닝 데이터로 사용하고, 카테고리화 모델을 사용하여 트레이닝을 수행하여 문자열 카테고리화 모델을 생성한다.
구체적으로는, n-gram 특성 및 대응하는 카테고리를 트레이닝 데이터로 사용하고, 카테고리화 모델에 대입하여 트레이닝을 수행하여, 문자열 카테고리화 모델을 취득한다.
구체적으로는, n-gram 특성과 대응하는 카테고리를 트레이닝 데이터로 사용하고, 카테고리 트레이닝 질의 문자열로부터 트레이닝 데이터를 확장하고, 취득된 문자열 카테고리화 모델의 카테고리화 정확률 및 커버율을 모두 증가시킬 수 있다. 일 실시예에서, 트레이닝 특성을 고정된 수의 규모(예: 백만개 규모)의 벡터에 매핑하여 트레이닝 효율을 향상시키고 비효율적인 트레이닝 데이터를 줄여 트레이닝 정확률을 향상시킬 수 있거나, 또는 질의 문자열을 사용하여 클릭되는 웹페이지의 카테고리 비례 특성(category proportion feature)을 증가시켜 트레이닝 데이터의 커버율을 증가시키며, 카테고리 비율 특성은 모든 웹페이지에 대한 각각의 카테고리의 클릭된 웹페이지 사이의 비율이고, 예를 들어, 모든 웹페이지에 대한 클릭된 비디오 카테고리 웹페이지의 비율이다.
표 2는 상이한 모델 및 방법에 의해 취득되는 문자열 카테고리화 모델을 사용하여 질의 문자열을 카테고리화하는 경우의 정확률 및 소환율을 보여주며, F1은 정확률 및 소환율의 조합에 대해 취득되며, 여기서 F1=2×정확률/(정확률+소환율)이다. 이 표에서, NB(
Figure 112017128229792-pct00040
) 모델을 나타내고, 단어 구분은 단어 기반 n-gram 특성을 추출하는 것을 나타내고, 문자 특성은 문자 기반 n-gram 특성을 추출하는 것을 나타내고, SVM(Support Vector Machine)은 SVM 모델을 나타낸다.
[표 2]
Figure 112017128229792-pct00041
이 표로부터, 추출된 문자 기반 n-gram 특성과 함께 트레이닝에 의해 생성되는 문자열 카테고리화 모델을 사용하여 질의 문자열이 카테고리화되는 경우에 정확률 및 소환율이 모두 높고, 문자 기반 n-gram 특성과 단어 기반 n-gram 특성이 모두 추출되는 경우에 정확률 및 소환율이 더 높다는 것을 알 수 있다. 이 방법을 사용하지 않는 의도 식별의 전체 정확률에 비해, 이 방법을 사용하는 의도 식별의 전체 정확률은 54.6% 내지 85% 증가할 수 있고, 60% 증가할 수 있다.
일 실시예에서, 도 6에 도시된 바와 같이, 웹페이지 트레이닝 기기가 제공된다. 이 웹페이지 트레이닝 기기는 웹페이지 벡터 생성 모듈(510) 및 웹페이지 카테고리화 모델 생성 모듈(520)을 포함한다.
웹페이지 벡터 생성 모듈(510)은 수동으로 주석이 부여된 카테고리의 트레이닝 웹페이지 세트를 취득하고, 트레이닝 웹페이지 세트 내의 각각의 웹페이지의 웹페이지 벡터를 생성하도록 구성될 수 있다. 또한, 웹페이지 벡터 생성 모듈(510)은, 단어 구분 유닛(511), 구분된 단어 가중치 계산 유닛(512) 및 웹페이지 벡터 생성 유닛(513)을 포함할 수 있다.
단어 구분 유닛(511)은 트레이닝 웹페이지 세트 내의 제1 트레이닝 웹페이지의 유효 이력 질의 문자열 취득하고, 유효 이력 질의 문자열에 대해 단어 구분을 수행하도록 구성될 수 있다.
구분된 단어 가중치 계산 유닛(512)은 각각의 구분된 단어의 유효 횟수를 취득하고, 각각의 구분된 단어의 유효 횟수에 따라 각각의 구분된 단어의 구분된 단어 가중치를 계산하도록 구성될 수 있으며, 유효 횟수는 유효 이력 질의 문자열에 구분된 단어가 출현하는 총 횟수이다.
웹페이지 벡터 생성 유닛(513)은 각각의 구분된 단어 및 대응하는 구분된 단어 가중치에 따라 제1 트레이닝 웹페이지의 웹페이지 벡터를 생성하도록 구성될 수 있다.
웹페이지 카테고리화 모델 생성 모듈(520)은 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리, 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하도록 구성될 수 있다.
일 실시예에서, 도 7에 도시된 바와 같이, 이 웹페이지 트레이닝 기기는 트레이닝 웹페이지 세트 내의 웹페이지의 LDA 특성을 취득하도록 구성될 수 있는 LDA 특성 취득 모듈(530)을 더 포함한다. 웹페이지 카테고리화 모델 생성 모듈(520)은 추가로, 웹페이지의 LDA 특성, 수동으로 주석이 부여된 카테고리 및 대응는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하도록 구성된다.
일 실시예에서, 웹페이지 카테고리화 모델 생성 모듈(520)은 추가로, 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터를 LR 모델에 대입하고 트레이닝을 수행하여, 웹페이지 카테고리화 모델을 취득하도록 구성된다.
일 실시예에서, 구분된 단어 가중치 계산 유닛(512)은 추가로, 식
Figure 112017128229792-pct00042
에 따라 구분된 단어
Figure 112017128229792-pct00043
의 구분된 단어 가중치
Figure 112017128229792-pct00044
를 계산하도록 구성되며, 여기서 i는 구분된 단어의 일련번호이고,
Figure 112017128229792-pct00045
는 구분된 단어
Figure 112017128229792-pct00046
의 유효 횟수이다.
일 실시예에서, 도 8에 도시된 바와 같이, 검색 의도 식별 기기가 제공된다. 이 검색 의도 식별 기기는 취득 모듈(610), 웹페이지 카테고리 취득 모듈(620) 및 의도 식별 모듈(630)을 포함할 수 있다.
취득 모듈(610)은 식별될 질의 문자열을 취득하고, 질의 문자열에 대응하는 이력 웹페이지 세트를 취득하도록 구성될 수 있으며, 이력 웹페이지 세트는 이력적으로 질의 문자열을 사용하여 클릭된 웹페이지들을 포함한다.
웹페이지 카테고리 취득 모듈(620)은 전술한 웹페이지 트레이닝 기기를 사용하여 생성되는 웹페이지 카테고리화 모델을 취득하고, 웹페이지 카테고리화 모델에 따라 이력 웹페이지 세트 내의 웹페이지의 카테고리를 취득하도록 구성될 수 있다.
의도 식별 모듈(630)은 이력 웹페이지 세트 내의 각각의 카테고리 내의 웹페이지의 수에 대한 통계를 수집하고, 각각의 카테고리 내의 웹페이지의 수 및 이력 웹페이지 세트 내의 웹페이지의 총수에 따라 계산을 수행하여, 질의 문자열의 의도 분포를 취득하고, 의도 분포에 따라 질의 문자열의 의도 식별 결과를 취득하도록 구성될 수 있다.
일 실시예에서, 도 9에 도시된 바와 같이, 이 검색 의도 식별 기기는, 문자열 카테고리화 모델을 취득하고, 문자열 카테고리화 모델에 따라 질의 문자열의 예측된 카테괴리를 취득하도록 구성될 수 있는 예측 카테고리 모듈(640)을 더 포함한다. 의도 식별 모듈(630)은 추가로, 의도 분포 및 예측된 카테고리에 따라 질의 문자열의 의도 식별 결과를 취득하도록 구성된다.
일 실시예에서, 도 10에 도시된 바와 같이, 검색 의도 식별 기기는 문자열 카테고리화 모델 생성 모듈(650)을 더 포함하며, 문자열 카테고리화 모델 생성 모듈(650)은 이력 질의 문자열에 대응하는 의도 분포에서 최대 의도 확률을 갖는 카테고리에 대응하는 질의 문자열을 취득하고, 그 질의 문자열을 카테고리 트레이닝 질의 문자열로 사용하고 - 최대 의도 확률을 갖는 카테고리는 복수의 상이한 카테고리를 포함함 -; 상이한 카테고리에 대응하는 카테고리 트레이닝 질의 문자열에 대해 단어 기반 및/또는 문자 기반 n-gram 특성을 추출하고 - 여기서 n은 1보다 크고 현재 추출된 질의 문자열의 단어 길이 또는 문자 길이보다 작은 정수임 -; n-gram 특성 및 대응하는 카테고리를 트레이닝 데이터로 사용하고, 카테고리화 모델을 사용하여 트레이닝을 수행하여 문자열 카테고리화 모델을 생성하도록 구성될 수 있다.
당업자는 전술한 실시예의 방법의 프로세스 중 일부 또는 전부를 관련 하드웨어를 지시하는 컴퓨터 프로그램에 의해 구현 될 수 있음을 이해할 수있다. 프로그램은 컴퓨터 판독 가능 저장 매체에 저장 될 수있다. 예를 들어, 본 발명의 실시 예에서, 프로그램은 컴퓨터 시스템의 저장 매체에 저장 될 수 있고, 컴퓨터 시스템의 적어도 하나의 프로세서에 의해 실행되어, 전술 한 실시 예를 포함하는 프로세스를 구현한다 행동 양식. 저장 매체는 자기 디스크, 광 디스크, 판독 전용 메모리 (ROM), 랜덤 액세스 메모리 (RAM) 등일 수있다.
당업자라면, 전술한 실시예의 방법의 프로세스 중 일부 또는 전부가 관련 하드웨어에 명령하는 컴퓨터 프로그램으로 구현될 수 있음을 이해할 수 있을 것이다. 프로그램은 컴퓨터로 판독할 수 있는 저장 매체에 저장될 수 있다. 예를 들어, 본 발명의 실시예에서, 프로그램은 컴퓨터 시스템의 저장 매체에 저장될 수 있으며, 컴퓨터 시스템 내의 하나 이상의 프로세서에 의해 실행되어, 전술한 방법의 실시예를 포함한 프로세스를 구현한다. 저장 매체는 자기 디스크, 광 디스크, 판독 전용 메모리(read-only memory, ROM), 또는 임의 접근 메모리(random access memory, RAM) 등일 수 있다.
대응하여, 본 발명의 실시예는 컴퓨터 프로그램이 저장되는 컴퓨터 저장 매체를 더 제공하며, 컴퓨터 프로그램은 본 발명의 실시예의 웹페이지 트레이닝 방법 또는 검색 의도 식별 방법을 수행하는 데 사용된다.
전술한 실시예의 기술적 특성은 무작위로 조합될 수 있다. 설명을 간결하게 하기 위해, 전술한 실시예에서는 기술적 특성의 모든 가능한 조합을 설명한 것은 아니다. 그러나 이러한 기술적 특성의 조합이 서로 모순되지 않는 한, 모든 조합이 본 명세서에 의해 기록되는 범위에 속하는 것으로 생각되어야 한다.
구체적으로 상세하게 설명된 전술한 실시예는 본 발명의 몇몇 구현 방식만을 나타내므로, 본 발명의 특허범위를 한정하는 것으로 해석될 수 없다. 유의해야 할 것은, 당업자라면 본 발명의 사상을 벗어나지 않으면서 여러 변형 및 개선을 행할 수 있다는 것이다. 이러한 모든 변형 및 개선은 본 발명의 보호 범위에 속한다. 따라서, 본 발명의 특허 보호 범위는 첨부된 청구 범위에 따라야 한다.

Claims (14)

  1. 하나 이상의 프로세서 및 메모리를 포함하는 기기에서의, 검색 의도 식별 방법으로서,
    식별될 질의 문자열을 취득하고, 상기 질의 문자열에 대응하는 이력 웹페이지 세트를 취득하는 단계 - 상기 이력 웹페이지 세트는 이력적으로 상기 질의 문자열을 사용하여 클릭된 웹페이지들을 포함함 -;
    미리 정해진 웹페이지 카테고리화 모델을 취득하는 단계;
    상기 웹페이지 카테고리화 모델에 따라 상기 이력 웹페이지 세트 내의 각각의 웹페이지의 카테고리를 취득하는 단계;
    상기 이력 웹페이지 세트 내의 각각의 카테고리 내의 웹페이지의 수에 대한 통계를 수집하고, 각각의 카테고리 내의 웹페이지의 수 및 상기 이력 웹페이지 세트 내의 웹페이지의 총수에 따라 계산을 수행하여, 상기 질의 문자열의 의도 분포를 취득하는 단계; 및
    상기 의도 분포에 따라 상기 질의 문자열의 의도 식별 결과를 취득하는 단계
    를 포함하고,
    상기 검색 의도 식별 방법은,
    이력 질의 문자열에 대응하는 의도 분포에서 최대 의도 확률을 갖는 카테고리에 대응하는 질의 문자열을 취득하고, 상기 질의 문자열을 카테고리 트레이닝 질의 문자열로 사용하는 단계 - 상기 최대 의도 확률을 갖는 카테고리는 복수의 상이한 카테고리를 포함함 -;
    상기 상이한 카테고리에 대응하는 카테고리 트레이닝 질의 문자열에 대해 단어 기반 n-gram 특성 및 문자 기반 n-gram 특성 중 적어도 하나를 추출하는 단계 - 여기서 n은 1보다 크고 현재 추출된 질의 문자열의 단어 길이 또는 문자 길이보다 작은 정수임 -;
    상기 n-gram 특성 및 대응하는 카테고리를 트레이닝 데이터로 사용하고, 카테고리화 모델을 사용하여 트레이닝을 수행하여 문자열 카테고리화 모델을 생성하는 단계;
    상기 문자열 카테고리화 모델에 따라 상기 질의 문자열의 예측된 카테고리를 취득하는 단계를 더 포함하고,
    상기 의도 분포에 따라 상기 질의 문자열의 의도 식별 결과를 취득하는 단계는,
    상기 의도 분포 및 상기 질의 문자열의 예측된 카테고리에 따라 상기 질의 문자열의 의도 식별 결과를 취득하는 단계를 포함하는,
    검색 의도 식별 방법.
  2. 제1항에 있어서,
    상기 웹페이지 카테고리화 모델은 웹페이지 트레이닝 방법에 의해 결정되고,
    상기 웹페이지 트레이닝 방법은,
    복수의 웹페이지를 가지고 수동으로 주석이 부여된 카테고리를 갖는 트레이닝 웹페이지 세트를 취득하는 단계;
    상기 트레이닝 웹페이지 세트 내의 제1 트레이닝 웹페이지의 유효 이력 질의 문자열을 취득하고, 상기 유효 이력 질의 문자열에 대해 단어 구분을 수행하는 단계;
    각각의 구분된 단어의 유효 횟수를 취득하는 단계 - 상기 유효 횟수는 상기 유효 이력 질의 문자열에 상기 구분된 단어가 출현하는 총 횟수임 -;
    각각의 구분된 단어의 유효 횟수에 따라 각각의 구분된 단어의 구분된 단어 가중치를 계산하는 단계;
    각각의 구분된 단어 및 대응하는 구분된 단어 가중치에 따라 상기 제1 트레이닝 웹페이지의 웹페이지 벡터를 생성하는 단계;
    상기 트레이닝 웹페이지 세트 내의 나머지 트레이닝 웹페이지에 대해 웹페이지 벡터를 생성하는 단계; 및
    상기 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 단계를 포함하는, 검색 의도 식별 방법.
  3. 제2항에 있어서,
    상기 웹페이지 트레이닝 방법은,
    상기 트레이닝 웹페이지 세트 내의 각각의 웹페이지의 LDA(Latent Dirichlet Allocation) 특성을 취득하는 단계를 더 포함하고;
    상기 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 단계는,
    상기 웹페이지의 LDA 특성, 상기 수동으로 주석이 부여된 카테고리 및 상기 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 단계를 포함하는, 검색 의도 식별 방법.
  4. 제2항에 있어서,
    상기 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 단계는,
    상기 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 상기 대응하는 웹페이지 벡터를 LR(Logistic Regression) 모델에 대입하고 트레이닝을 수행하여, 상기 웹페이지 카테고리화 모델을 취득하는 단계를 포함하는, 검색 의도 식별 방법.
  5. 제2항에 있어서,
    상기 각각의 구분된 단어의 유효 횟수에 따라 각각의 구분된 단어의 구분된 단어 가중치를 계산하는 단계는,
    Figure 112019098464791-pct00067
    에 따라 구분된 단어
    Figure 112019098464791-pct00068
    의 구분된 단어 가중치
    Figure 112019098464791-pct00069
    를 계산하는 단계를 포함하고, 여기서 i는 상기 구분된 단어의 일련번호이고,
    Figure 112019098464791-pct00070
    는 상기 구분된 단어
    Figure 112019098464791-pct00071
    의 유효 횟수인, 검색 의도 식별 방법.
  6. 하나 이상의 프로세서에 의해 실행될 때, 제1항 내지 제5항 중 어느 한 항을 수행하는, 컴퓨터로 실행 가능한 명령어를 포함하는, 컴퓨터로 판독 가능한 비일시적인 저장 매체.
  7. 검색 의도 식별 기기로서,
    프로그램 명령어를 저장하는 메모리; 및
    상기 메모리에 연결된 프로세서
    를 포함하고,
    상기 프로세서는 상기 프로그램 명령어를 실행하여,
    식별될 질의 문자열을 취득하고, 상기 질의 문자열에 대응하는 이력 웹페이지 세트를 취득하고 - 상기 이력 웹페이지 세트는 이력적으로 상기 질의 문자열을 사용하여 클릭된 웹페이지들을 포함함 -;
    미리 정해진 웹페이지 카테고리화 모델을 취득하고;
    상기 웹페이지 카테고리화 모델에 따라 상기 이력 웹페이지 세트 내의 각각의 웹페이지의 카테고리를 취득하고;
    상기 이력 웹페이지 세트 내의 각각의 카테고리 내의 웹페이지의 수에 대한 통계를 수집하고, 각각의 카테고리 내의 웹페이지의 수 및 상기 이력 웹페이지 세트 내의 웹페이지의 총수에 따라 계산을 수행하여, 상기 질의 문자열의 의도 분포를 취득하고;
    상기 의도 분포에 따라 상기 질의 문자열의 의도 식별 결과를 취득하도록 구성되고,
    상기 프로세서는 상기 프로그램 명령어를 실행하여,
    이력 질의 문자열에 대응하는 의도 분포에서 최대 의도 확률을 갖는 카테고리에 대응하는 질의 문자열을 취득하고, 상기 질의 문자열을 카테고리 트레이닝 질의 문자열로 사용하고 - 상기 최대 의도 확률을 갖는 카테고리는 복수의 상이한 카테고리를 포함함 -;
    상기 상이한 카테고리에 대응하는 카테고리 트레이닝 질의 문자열에 대해 단어 기반 n-gram 특성과 문자 기반 n-gram 특성 중 적어도 하나를 추출하고 - 여기서 n은 1보다 크고 현재 추출된 질의 문자열의 단어 길이 또는 문자 길이보다 작은 정수임 -;
    상기 n-gram 특성 및 대응하는 카테고리를 트레이닝 데이터로 사용하고, 카테고리화 모델을 사용하여 트레이닝을 수행하여 문자열 카테고리화 모델을 생성하고;
    상기 문자열 카테고리화 모델에 따라 상기 질의 문자열의 예측된 카테고리를 취득하도록 추가로 구성되고,
    상기 의도 분포에 따라 상기 질의 문자열의 의도 식별 결과를 취득하는 것은,
    상기 의도 분포 및 상기 예측된 카테고리에 따라 상기 질의 문자열의 의도 식별 결과를 취득하는 것을 포함하는,
    검색 의도 식별 기기.
  8. 제7항에 있어서,
    상기 프로세서는 웹페이지 트레이닝 방법에 의해 웹페이지 카테고리화 모델을 결정하도록 구성되며,
    상기 웹페이지 트레이닝 방법은,
    복수의 웹페이지를 가지고 수동으로 주석이 부여된 카테고리를 갖는 트레이닝 웹페이지 세트를 취득하는 단계;
    상기 트레이닝 웹페이지 세트 내의 제1 트레이닝 웹페이지의 유효 이력 질의 문자열을 취득하고, 상기 유효 이력 질의 문자열에 대해 단어 구분을 수행하는 단계;
    각각의 구분된 단어의 유효 횟수를 취득하는 단계 - 상기 유효 횟수는 상기 유효 이력 질의 문자열에 상기 구분된 단어가 출현하는 총 횟수임 -;
    각각의 구분된 단어의 유효 횟수에 따라 각각의 구분된 단어의 구분된 단어 가중치를 계산하는 단계;
    각각의 구분된 단어 및 대응하는 구분된 단어 가중치에 따라 상기 제1 트레이닝 웹페이지의 웹페이지 벡터를 생성하는 단계;
    상기 트레이닝 웹페이지 세트 내의 나머지 트레이닝 웹페이지에 대해 웹페이지 벡터를 생성하는 단계; 및
    상기 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 단계를 포함하는, 검색 의도 식별 기기.
  9. 제8항에 있어서,
    상기 웹페이지 트레이닝 방법은,
    상기 트레이닝 웹페이지 세트 내의 각각의 웹페이지의 LDA 특성을 취득하는 단계를 더 포함하고;
    상기 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 단계는,
    상기 웹페이지의 LDA 특성, 상기 수동으로 주석이 부여된 카테고리 및 상기 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 단계를 포함하는, 검색 의도 식별 기기.
  10. 제8항에 있어서,
    상기 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 대응하는 웹페이지 벡터에 따라 웹페이지 카테고리화 모델을 생성하는 단계는,
    상기 트레이닝 웹페이지 세트 내의 웹페이지의 수동으로 주석이 부여된 카테고리 및 상기 대응하는 웹페이지 벡터를 LR 모델에 대입하고 트레이닝을 수행하여, 상기 웹페이지 카테고리화 모델을 취득하는 단계를 포함하는, 검색 의도 식별 기기.
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
KR1020177037044A 2016-01-07 2017-01-06 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기 KR102092691B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610008131.3A CN106951422B (zh) 2016-01-07 2016-01-07 网页训练的方法和装置、搜索意图识别的方法和装置
CN201610008131.3 2016-01-07
PCT/CN2017/070504 WO2017118427A1 (zh) 2016-01-07 2017-01-06 网页训练的方法和装置、搜索意图识别的方法和装置

Publications (2)

Publication Number Publication Date
KR20180011254A KR20180011254A (ko) 2018-01-31
KR102092691B1 true KR102092691B1 (ko) 2020-03-24

Family

ID=59273509

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177037044A KR102092691B1 (ko) 2016-01-07 2017-01-06 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기

Country Status (7)

Country Link
US (1) US20180107933A1 (ko)
EP (1) EP3401802A4 (ko)
JP (1) JP6526329B2 (ko)
KR (1) KR102092691B1 (ko)
CN (1) CN106951422B (ko)
MY (1) MY188760A (ko)
WO (1) WO2017118427A1 (ko)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170300533A1 (en) * 2016-04-14 2017-10-19 Baidu Usa Llc Method and system for classification of user query intent for medical information retrieval system
CN107506472B (zh) * 2017-09-05 2020-09-08 淮阴工学院 一种学生浏览网页分类方法
CN110019784B (zh) * 2017-09-29 2021-10-15 北京国双科技有限公司 一种文本分类方法及装置
CN107862027B (zh) * 2017-10-31 2019-03-12 北京小度信息科技有限公司 检索意图识别方法、装置、电子设备及可读存储介质
CN107807987B (zh) * 2017-10-31 2021-07-02 广东工业大学 一种字符串分类方法、系统及一种字符串分类设备
CN107967256B (zh) * 2017-11-14 2021-12-21 北京拉勾科技有限公司 词语权重预测模型生成方法、职位推荐方法及计算设备
CN109948036B (zh) * 2017-11-15 2022-10-04 腾讯科技(深圳)有限公司 一种分词词项权重的计算方法和装置
CN108052613B (zh) * 2017-12-14 2021-12-31 北京百度网讯科技有限公司 用于生成页面的方法和装置
KR101881744B1 (ko) * 2017-12-18 2018-07-25 주식회사 머니브레인 대화형 ai 에이전트 시스템을 위한 계층적 대화 흐름 관리 모델을 자동으로 구축 또는 갱신하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
RU2711104C2 (ru) * 2017-12-27 2020-01-15 Общество С Ограниченной Ответственностью "Яндекс" Способ и компьютерное устройство для определения намерения, связанного с запросом для создания зависящего от намерения ответа
RU2693332C1 (ru) 2017-12-29 2019-07-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и компьютерное устройство для выбора текущего зависящего от контекста ответа для текущего пользовательского запроса
CN108710613B (zh) * 2018-05-22 2022-04-08 平安科技(深圳)有限公司 文本相似度的获取方法、终端设备及介质
CN111046662B (zh) * 2018-09-26 2023-07-18 阿里巴巴集团控股有限公司 分词模型的训练方法、装置、系统和存储介质
CN109635157B (zh) * 2018-10-30 2021-05-25 北京奇艺世纪科技有限公司 模型生成方法、视频搜索方法、装置、终端及存储介质
TWI701565B (zh) * 2018-12-19 2020-08-11 財團法人工業技術研究院 資料標記系統及資料標記方法
CN109408731B (zh) * 2018-12-27 2021-03-16 网易(杭州)网络有限公司 一种多目标推荐方法、多目标推荐模型生成方法以及装置
CN110162535B (zh) * 2019-03-26 2023-11-07 腾讯科技(深圳)有限公司 用于执行个性化的搜索方法、装置、设备以及存储介质
CN110503143B (zh) * 2019-08-14 2024-03-19 平安科技(深圳)有限公司 基于意图识别的阈值选取方法、设备、存储介质及装置
CN110598067B (zh) * 2019-09-12 2022-10-21 腾讯音乐娱乐科技(深圳)有限公司 词语权重获取方法、装置及存储介质
US11860903B1 (en) * 2019-12-03 2024-01-02 Ciitizen, Llc Clustering data base on visual model
CN111061835B (zh) * 2019-12-17 2023-09-22 医渡云(北京)技术有限公司 查询方法及装置、电子设备和计算机可读存储介质
CN111161890B (zh) * 2019-12-31 2021-02-12 上海亿锎智能科技有限公司 不良事件和合并用药的关联性判断方法及系统
CN111695337A (zh) * 2020-04-29 2020-09-22 平安科技(深圳)有限公司 智能面试中专业术语的提取方法、装置、设备及介质
CN111581388B (zh) * 2020-05-11 2023-09-19 北京金山安全软件有限公司 一种用户意图识别方法、装置及电子设备
CN112200546A (zh) * 2020-11-06 2021-01-08 南威软件股份有限公司 基于bayes交叉模型的政务审批智能筛查方法
JP7372278B2 (ja) * 2021-04-20 2023-10-31 ヤフー株式会社 算出装置、算出方法及び算出プログラム
CN113343028B (zh) * 2021-05-31 2022-09-02 北京达佳互联信息技术有限公司 意图确定模型的训练方法和装置
CN113312523B (zh) * 2021-07-30 2021-12-14 北京达佳互联信息技术有限公司 字典生成、搜索关键字推荐方法、装置和服务器
CN116248375B (zh) * 2023-02-01 2023-12-15 北京市燃气集团有限责任公司 一种网页登录实体识别方法、装置、设备和存储介质
CN115827953B (zh) * 2023-02-20 2023-05-12 中航信移动科技有限公司 用于网页数据抽取的数据处理方法、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011002972A (ja) * 2009-06-18 2011-01-06 Yahoo Japan Corp クエリ分析装置、クエリ分析方法及びプログラム、並びに情報検索装置
JP2011034583A (ja) * 2004-06-30 2011-02-17 Google Inc ユーザ情報及びコンテキストに基づいて自動的に生成されるリンクを用いる高品質なドキュメント・ブラウジング

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4757016B2 (ja) * 2005-12-21 2011-08-24 富士通株式会社 文書分類プログラム、文書分類装置、および文書分類方法
KR100898458B1 (ko) * 2007-08-10 2009-05-21 엔에이치엔(주) 정보 검색 방법 및 그 시스템
US8103676B2 (en) * 2007-10-11 2012-01-24 Google Inc. Classifying search results to determine page elements
CN101261629A (zh) * 2008-04-21 2008-09-10 上海大学 基于自动分类技术的特定信息搜索方法
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
CN101673306B (zh) * 2009-10-19 2011-08-24 中国科学院计算技术研究所 网页信息查询方法及其系统
US20110208715A1 (en) * 2010-02-23 2011-08-25 Microsoft Corporation Automatically mining intents of a group of queries
US8682881B1 (en) * 2011-09-07 2014-03-25 Google Inc. System and method for extracting structured data from classified websites
CN102999520B (zh) * 2011-09-15 2016-04-27 北京百度网讯科技有限公司 一种搜索需求识别的方法和装置
JP5648008B2 (ja) * 2012-03-19 2015-01-07 日本電信電話株式会社 文書分類方法、装置、及びプログラム
CN103838744B (zh) * 2012-11-22 2019-01-15 百度在线网络技术(北京)有限公司 一种查询词需求分析的方法及装置
CN103020164B (zh) * 2012-11-26 2015-06-10 华北电力大学 一种基于多语义分析和个性化排序的语义检索方法
CN103049542A (zh) * 2012-12-27 2013-04-17 北京信息科技大学 一种面向领域的网络信息搜索方法
CN103914478B (zh) * 2013-01-06 2018-05-08 阿里巴巴集团控股有限公司 网页训练方法及系统、网页预测方法及系统
CN103106287B (zh) * 2013-03-06 2017-10-17 深圳市宜搜科技发展有限公司 一种用户检索语句的处理方法及系统
US9875237B2 (en) * 2013-03-14 2018-01-23 Microsfot Technology Licensing, Llc Using human perception in building language understanding models
CN104424279B (zh) * 2013-08-30 2018-11-20 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN103744981B (zh) * 2014-01-14 2017-02-15 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的系统
CN103870538B (zh) * 2014-01-28 2017-02-15 百度在线网络技术(北京)有限公司 针对用户进行个性化推荐的方法、用户建模设备及系统
CN104834640A (zh) * 2014-02-10 2015-08-12 腾讯科技(深圳)有限公司 网页的识别方法及装置
US9870356B2 (en) * 2014-02-13 2018-01-16 Microsoft Technology Licensing, Llc Techniques for inferring the unknown intents of linguistic items
US10643260B2 (en) * 2014-02-28 2020-05-05 Ebay Inc. Suspicion classifier for website activity
CN104268546A (zh) * 2014-05-28 2015-01-07 苏州大学 一种基于主题模型的动态场景分类方法
CN105159898B (zh) * 2014-06-12 2019-11-26 北京搜狗科技发展有限公司 一种搜索的方法和装置
CN104778161B (zh) * 2015-04-30 2017-07-07 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN104820703A (zh) * 2015-05-12 2015-08-05 武汉数为科技有限公司 一种文本精细分类方法
CN104866554B (zh) * 2015-05-15 2018-04-27 大连理工大学 一种基于社会化标注的个性化搜索方法及系统
CN104951433B (zh) * 2015-06-24 2018-01-23 北京京东尚科信息技术有限公司 基于上下文进行意图识别的方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011034583A (ja) * 2004-06-30 2011-02-17 Google Inc ユーザ情報及びコンテキストに基づいて自動的に生成されるリンクを用いる高品質なドキュメント・ブラウジング
JP2011002972A (ja) * 2009-06-18 2011-01-06 Yahoo Japan Corp クエリ分析装置、クエリ分析方法及びプログラム、並びに情報検索装置

Also Published As

Publication number Publication date
KR20180011254A (ko) 2018-01-31
CN106951422A (zh) 2017-07-14
WO2017118427A1 (zh) 2017-07-13
JP2018518788A (ja) 2018-07-12
US20180107933A1 (en) 2018-04-19
EP3401802A4 (en) 2019-01-02
JP6526329B2 (ja) 2019-06-05
CN106951422B (zh) 2021-05-28
EP3401802A1 (en) 2018-11-14
MY188760A (en) 2021-12-29

Similar Documents

Publication Publication Date Title
KR102092691B1 (ko) 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
US9542477B2 (en) Method of automated discovery of topics relatedness
CN106294350B (zh) 一种文本聚合方法及装置
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN106095845B (zh) 文本分类方法和装置
CN110390044B (zh) 一种相似网络页面的搜索方法及设备
CN109918555B (zh) 用于提供搜索建议的方法、装置、设备和介质
CN102043843A (zh) 一种用于基于目标应用获取目标词条的方法与获取设备
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
CN104111925B (zh) 项目推荐方法和装置
KR20190128246A (ko) 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체
JP2014149713A (ja) 画像評価装置
US20230074771A1 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN107085568A (zh) 一种文本相似度判别方法及装置
CN110019670A (zh) 一种文本检索方法及装置
Iram et al. Anatomy of Sentiment Analysis of Tweets Using Machine Learning Approach: Anatomy of Sentiment Analysis of Tweets
JP2016212879A (ja) 情報処理方法及び情報処理装置
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN115495636A (zh) 网页搜索方法、装置及存储介质
CN112989053A (zh) 一种期刊推荐方法及装置
CN112487181B (zh) 关键词确定方法和相关设备
CN107590163B (zh) 文本特征选择的方法、装置和系统
CN110852078A (zh) 生成标题的方法和装置
CN114936282A (zh) 金融风险线索确定方法、装置、设备和介质
CN114385777A (zh) 文本数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant