KR20190118477A - 엔티티 추천 방법 및 장치 - Google Patents

엔티티 추천 방법 및 장치 Download PDF

Info

Publication number
KR20190118477A
KR20190118477A KR1020180079351A KR20180079351A KR20190118477A KR 20190118477 A KR20190118477 A KR 20190118477A KR 1020180079351 A KR1020180079351 A KR 1020180079351A KR 20180079351 A KR20180079351 A KR 20180079351A KR 20190118477 A KR20190118477 A KR 20190118477A
Authority
KR
South Korea
Prior art keywords
entity
candidate
triad
user
candidate entity
Prior art date
Application number
KR1020180079351A
Other languages
English (en)
Other versions
KR102123153B1 (ko
Inventor
지쪼우 후앙
쉬치앙 딩
하이펭 왕
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20190118477A publication Critical patent/KR20190118477A/ko
Application granted granted Critical
Publication of KR102123153B1 publication Critical patent/KR102123153B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 출원의 실시예는 엔티티 추천 방법 및 장치를 개시한다. 엔티티 추천 방법은, 엔티티에 대한 사용자의 검색 요청이 수신됨에 대응하여, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하는 단계와, 후보 엔티티 집합을 사전에 트레이닝된 정렬 모델에 입력하여, 후보 엔티티 시퀀스를 획득하는 단계와, 후보 엔티티 시퀀스로부터 후보 엔티티를 선택하고, 사용자에게 선택된 후보 엔티티를 추천하는 단계를 포함하며, 정렬 모델은 후보 엔티티 집합 중의 각 후보 엔티티와 검색하고자 하는 엔티티의 관련도, 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 관심도 및 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 기대도 중의 적어도 하나를 기반으로 후보 엔티티 집합에 대해 정렬을 진행한다. 해당 실시예는 사용자 및/또는 검색하고자 하는 엔티티에 대한 관련성, 개성화, 깜짝성, 다양성이 더욱 높은 엔티티 추천을 실현한다.

Description

엔티티 추천 방법 및 장치{ENTITY RECOMMENDATION METHOD AND APPARATUS}
본 출원의 실시예는 인터넷 분야에 관한 것으로, 구체적으로는 검색 분야에 관한 것이며, 특히는 엔티티 추천 방법 및 장치에 관한 것이다.
엔티티 추천은 사용자에게 엔티티 건의를 제공하여 사용자가 관심 있는 정보를 찾도록 도와주는 일련의 조작을 가리킨다.
선행 기술에 있어서, 통상적으로 협업 필터링 방식을 이용하여 엔티티 추천을 진행한다. 협업 필터링 알고리즘은, 사용자 기록 동작 데이터에 대한 마이닝을 통해 사용자들의 선호를 발견하고, 상이한 선호를 기반으로 사용자들에 대해 집단 구획을 진행하고, 사용자 집단에서 지정된 사용자와 유사한 (취미의) 사용자들을 찾아내며, 이러한 유사한 사용자들이 어떠한 하나의 정보에 대한 평가들을 종합하여, 시스템으로 해당 지정된 사용자가 해당 정보에 대한 선호도 예측을 형성한다.
본 출원의 실시예는 엔티티 추천 방법 및 장치를 제출한다.
제1 양태에 있어서, 본 출원의 실시예는, 엔티티에 대한 사용자의 검색 요청이 수신됨에 대응하여, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하는 단계와, 후보 엔티티 집합을 사전에 트레이닝된 정렬 모델에 입력하여, 후보 엔티티 시퀀스를 획득하는 단계와, 후보 엔티티 시퀀스로부터 후보 엔티티를 선택하고, 사용자에게 선택된 후보 엔티티를 추천하는 단계를 포함하되, 정렬 모델은, 후보 엔티티 집합 중의 각 후보 엔티티와 검색하고자 하는 엔티티의 관련도와, 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 관심도와, 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 기대도 중의 적어도 하나를 기반으로 후보 엔티티 집합에 대해 정렬을 진행하는 엔티티 추천 방법을 제공한다.
일부의 실시예에 있어서, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하는 단계는, 후보 엔티티와 검색하고자 하는 엔티티가 기설정된 지식 지도에서 관련 관계가 존재함에 대응하여, 후보 엔티티를 후보 엔티티 집합에 추가하는 단계를 더 포함한다.
일부의 실시예에 있어서, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하는 단계는, 후보 엔티티와 검색하고자 하는 엔티티가 검색 세션 기록에서 동시 발생하는 횟수가 기설정된 제1 역치를 초과함에 대응하여, 후보 엔티티를 후보 엔티티 집합에 추가하는 단계를 더 포함한다.
일부의 실시예에 있어서, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하는 단계는, 기설정된 코퍼스에서 검색하고자 하는 엔티티와 동시 발생 관계를 구비하는 엔티티를 동시 발생 후보 엔티티로 이용하는 단계와, 검색하고자 하는 엔티티와의 관련도가 기설정된 제2 역치를 초과하는 동시 발생 후보 엔티티를 후보 엔티티 집합에 추가하는 단계를 더 포함한다.
일부의 실시예에 있어서, 정렬 모델은, 트레이닝 샘플 집합을 생성하는 단계와, 생성된 트레이닝 샘플 집합 중의 각 트레이닝 샘플에 대해 해당 트레이닝 샘플의 특징 벡터를 생성하는 단계와, 트레이닝 샘플 집합과 생성된 특징 벡터를 사전에 구축된 그레이디언트 향상 의사 결정 트리 모델에 입력하고, 확율적 그레이디언트 하강 알고리즘을 기반으로 그레이디언트 향상 의사 결정 트리 모델에 대해 트레이닝을 진행하는 단계와, 크로스 엔트로피 손실 함수가 제일 작음에 대응하여, 정렬 모델을 생성하는 단계를 통해 트레이닝되되, 트레이닝 샘플 집합 중의 각 트레이닝 샘플은 삼원조와 클릭 동작 주석을 포함하고, 삼원조는 사용자 신원 표식, 제1 엔티티 및 제2 엔티티를 포함하고,클릭 동작 주석은 사용자가 제1 엔티티를 검색하여 획득한 검색 결과에 제2 엔티티에 대한 클릭 동작이 존재하는지 여부를 지시하기 위한 것이며, 특징 벡터는, 각 삼원조 중의 제1 엔티티와 제2 엔티티 사이의 관련도와, 각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 관심도와, 각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 기대도 중의 적어도 하나를 지시하기 위한 특징값을 포함한다.
일부의 실시예에 있어서, 각 삼원조 중의 제1 엔티티와 제2 엔티티 사이의 관련도를 지시하기 위한 특징값은, 삼원조 중의 제1 엔티티와 제2 엔티티가 기설정된 지식 지도에서의 관련도와, 삼원조 중의 제1 엔티티와 제2 엔티티가 검색 세션 기록에서의 동시 발생도와, 삼원조 중의 제1 엔티티와 제2 엔티티가 기설정된 코퍼스에서의 동시 발생도와, 삼원조 중의 제1 엔티티와 제2 엔티티의 주제 유사도 중의 적어도 하나를 포함한다.
일부의 실시예에 있어서, 각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 관심도를 지시하기 위한 특징값은, 해당 삼원조에서 제2 엔티티의 조회수와, 기설정된 분류표에서 제2 엔티티가 해당되는 주제 유별의 조회수와, 삼원조 중의 제1 엔티티와 제2 엔티티의 어의 유사도 중의 적어도 하나를 포함한다.
일부의 실시예에 있어서, 각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 기대도를 지시하기 위하느 특징값은, 삼원조 중의 사용자의 기록 클릭 데이터를 기반으로 확정한 사용자 및/또는 제1 엔티티가 제2 엔티티에 대한 관계 친숙도와, 삼원조 중의 제2 엔티티가 사용자 및/또는 제1 엔티티에 대한 의외도와, 삼원조에서 제1 엔티티의 클릭 다양성 중의 적어도 하나를 포함한다.
제2 양태에 있어서, 본 출원의 실시예는, 엔티티에 대한 사용자의 검색 요청이 수신됨에 대응하여, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하도록 구성된 획득 유닛과, 후보 엔티티 집합을 사전에 트레이닝된 정렬 모델에 입력하여, 후보 엔티티 시퀀스를 획득하도록 구성된 정렬 유닛과, 후보 엔티티 시퀀스로부터 후보 엔티티를 선택하고, 사용자에게 선택된 후보 엔티티를 추천하도록 구성된 추천 유닛을 포함하되, 정렬 모델은, 후보 엔티티 집합 중의 각 후보 엔티티와 검색하고자 하는 엔티티의 관련도와, 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 관심도와, 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 기대도 중의 적어도 하나를 기반으로 후보 엔티티 집합에 대해 정렬을 진행하는 엔티티 추천 장치를 더 제공한다.
일부의 실시예에 있어서, 획득 유닛은, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득할 때, 후보 엔티티와 검색하고자 하는 엔티티가 기설정된 지식 지도에서 관련 관계가 존재함에 대응하여, 후보 엔티티를 후보 엔티티 집합에 추가하도록 더 구성된다.
일부의 실시예에 있어서, 획득 유닛은, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득할 때, 후보 엔티티와 검색하고자 하는 엔티티가 검색 세션 기록에서 동시 발생하는 횟수가 기설정된 제1 역치를 초과함에 대응하여, 후보 엔티티를 후보 엔티티 집합에 추가하도록 더 구성된다.
일부의 실시예에 있어서, 획득 유닛은, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득할 때, 기설정된 코퍼스에서 검색하고자 하는 엔티티와 동시 발생 관계를 구비하는 엔티티를 동시 발생 후보 엔티티로 이용하고, 검색하고자 하는 엔티티와의 관련도가 기설정된 제2 역치를 초과하는 동시 발생 후보 엔티티를 후보 엔티티 집합에 추가하도록 더 구성된다.
일부의 실시예에 있어서, 장치는, 정렬 모델에 대해 트레이닝을 진행하도록 구성된 트레이닝 유닛을 더 포함하되, 트레이닝 유닛은, 트레이닝 샘플 집합을 생성하도록 구성된 트레이닝 샘플 생성 모듈과, 생성된 트레이닝 샘플 집합 중의 각 트레이닝 샘플에 대해 해당 트레이닝 샘플의 특징 벡터를 생성하도록 구성된 특징 벡터 생성 모듈과, 트레이닝 샘플 집합과 생성된 특징 벡터를 사전에 구축된 그레이디언트 향상 의사 결정 트리 모델에 입력하고, 확율적 그레이디언트 하강 알고리즘을 기반으로 그레이디언트 향상 의사 결정 트리 모델에 대해 트레이닝을 진행하도록 구성된 반복 트레이닝 모듈과, 크로스 엔트로피 손실 함수가 제일 작음에 대응하여, 정렬 모델을 생성하도록 구성된 생성 유닛을 포함하며, 트레이닝 샘플 집합 중의 각 트레이닝 샘플은 삼원조와 클릭 동작 주석을 포함하고, 삼원조는 사용자 신원 표식, 제1 엔티티 및 제2 엔티티를 포함하고, 클릭 동작 주석은 사용자가 제1 엔티티를 검색하여 획득한 검색 결과에 제2 엔티티에 대한 클릭 동작이 존재하는지 여부를 지시하기 위한 것이며, 특징 벡터는, 각 삼원조 중의 제1 엔티티와 제2 엔티티 사이의 관련도와, 각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 관심도와, 각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 기대도 중의 적어도 하나를 지시하기 위한 특징값을 포함한다.
일부의 실시예에 있어서, 각 삼원조 중의 제1 엔티티와 제2 엔티티 사이의 관련도를 지시하기 위한 특징값은, 삼원조 중의 제1 엔티티와 제2 엔티티가 기설정된 지식 지도에서의 관련도와, 삼원조 중의 제1 엔티티와 제2 엔티티가 검색 세션 기록에서의 동시 발생도와, 삼원조 중의 제1 엔티티와 제2 엔티티가 기설정된 코퍼스에서의 동시 발생도와, 삼원조 중의 제1 엔티티와 제2 엔티티의 주제 유사도 중의 적어도 하나를 포함한다.
일부의 실시예에 있어서, 각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 관심도를 지시하기 위한 특징값은, 해당 삼원조에서 제2 엔티티의 조회수와, 기설정된 분류표에서 제2 엔티티가 해당되는 주제 유별의 조회수와, 삼원조 중의 제1 엔티티와 제2 엔티티의 어의 유사도 중의 적어도 하나를 포함한다.
일부의 실시예에 있어서, 각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 기대도를 지시하기 위한 특징값은, 삼원조 중의 사용자의 기록 클릭 데이터를 기반으로 확정한 사용자 및/또는 제1 엔티티가 제2 엔티티에 대한 관계 친숙도와, 삼원조 중의 제2 엔티티가 사용자 및/또는 제1 엔티티에 대한 의외도와, 삼원조에서 제1 엔티티의 클릭 다양성 중의 적어도 하나를 포함한다.
제3 양태에 있어서, 본 출원의 실시예는, 하나 또는 다수의 프로세서와, 하나 또는 다수의 프로그램을 저장하기 위한 저장 장치를 포함하되, 하나 또는 다수의 프로그램이 하나 또는 다수의 프로세서에 의해 실행될 경우, 하나 또는 다수의 프로세서로 하여금 제1 양태의 임의의 하나의 방법을 실현하도록 하는 기기를 더 제공한다.
제4 양태에 있어서, 컴퓨터 프로그램이 저장되되, 프로그램이 프로세서에 의해 실행될 경우, 제1 양태의 임의의 하나의 방법을 실현하도록 하는 컴퓨터 판독 가능한 저장 매체를 더 제공한다.
본 출원에서 제공하는 엔티티 추천 방법 및 장치는, 엔티티에 대한 사용자의 검색 요청이 수신됨에 대응하여, 기설정된 엔티티 집합에서 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하고, 이어서, 후보 엔티티 집합을 사전에 트레이닝된 정렬 모델에 입력하여, 후보 엔티티 시퀀스를 획득하고, 최종적으로, 후보 엔티티 시퀀스로부터 후보 엔티티를 선택하여 선택된 후보 엔티티를 사용자에게 추천한다. 또한, 정렬 모델이 후보 엔티티 집합 중의 각 후보 엔티티와 검색하고자 하는 엔티티의 관련도, 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 관심도 및 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 기대도 중의 적어도 하나를 기반으로 정렬을 진행할 수 있으므로, 사용자 및/또는 검색하고자 하는 엔티티에 대한 관련성, 개성화, 깜짝성, 다양성이 더욱 높은 엔티티 추천을 실현한다.
또한, 본 출원의 일부 실시예의 엔티티 추천 방법 및 장치에 있어서, 후보 엔티티 집합에는 기설정된 지식 지도에서 검색하고자 하는 엔티티와 관련 관계가 존재하는 엔티티, 검색 세션 기록에서 검색하고자 하는 엔티티와 동시 발생하는 횟수가 기설정된 제1 역치를 초과하는 엔티티 및 기설정된 코퍼스에서 검색하고자 하는 엔티티와의 관련도가 기설정된 관련도 역치를 초과하는 엔티티가 포함되고, 사용자의 관심도, 기대도 및 엔티티 사이의 관련도와 같은 3가지 방면에서 후보 엔티티 집합에 포함되는 엔티티를 감안함으로써, 상이한 위도에서 후보 엔티티 집합 중의 각 요소와 검색 요청의 관련성을 실현한다.
본 출원의 기타 특징, 목적 및 이점은 아래에 첨부된 도면을 참조하여 진행한 비 한정적인 실시예에 대한 상세한 설명으로부터 더욱 명확해질 것이다.
도1은 본 출원이 적용 가능한 예시적 시스템 체계 구조도이다.
도2는 본 출원에 따른 엔티티 추천 방법의 일 실시예의 흐름도이다.
도3은 지식 지도의 예시도이다.
도4는 본 출원에 따른 엔티티 추천 방법의 일 사용 환경의 예시도이다.
도5는 본 출원에 따른 엔티티 추천 방법의 다른 일 실시예의 흐름도이다.
도6은 본 출원에 따른 엔티티 추천 장치의 일 실시예의 구성도이다.
도7은 본 실시예의 서버를 구현하기에 적합한 컴퓨터 시스템의 예시적 구성도이다.
이하, 첨부된 도면 및 실시예들을 결부하여 본 출원에 대한 보다 상세한 설명을 진행하기로 한다. 여기에 설명되는 구체적인 실시예들은 단지 관련된 발명을 해석하기 위한 것일 뿐, 해당 발명을 한정하기 위한 것이 아님을 이해할 수 있을 것이다. 또한, 설명의 편의를 위해 첨부된 도면에는 단지 관련 발명에 관한 부분만이 도시됨을 설명하고자 한다.
본 출원의 실시예 및 실시예 중의 특징들은 모순되지 않는 한 서로 조합될 수 있음을 설명하고자 한다. 이하, 첨부된 도면을 참조하고 실시예들을 결부하여 본 출원에 대한 상세한 설명을 진행하기로 한다.
도1은 본 출원의 엔티티 추천 방법 또는 엔티티 추천 장치의 실시예가 적용 가능한 예시적 시스템 체계 구조(100)를 나타낸다.
도1에 도시된 바와 같이, 시스템 체계 구조(100)는 단말기 장치(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말기 장치(101, 102, 103)와 서버(105) 사이에서 통신 링크를 제공하는 매체로 이용된다. 네트워크(104)는 예컨대 유선 통신 링크, 무선 통신 링크 또는 광섬유 케이블 등과 같은 각종의 연결 유형을 포함할 수 있다.
단말기 장치(101, 102, 103)는 하드웨어일 수 있거나, 또는 소프트웨어일 수도 있다. 단말기 장치(101, 102, 103)가 하드웨어일 경우, 이는 디스플레이 스크린을 구비하고 검색 서비스를 제공하는 각종의 전자 기기일 수 있으며, 스마트폰, 태블릿 PC, 전자책 리더, 랩탑형 휴대용 컴퓨터 및 데스크탑형 컴퓨터 등을 포함하나, 이에 한정되지 않는다. 단말기 장치(101, 102, 103)가 소프트웨어일 경우, 이는 위에 나열된 전자 기기에 설치될 수 있다. 이는 다수의 소프트웨어 또는 소프트웨어 모듈(예컨대, 분포식 서비스를 제공하기 위한 다수의 소프트웨어 또는 소프트웨어 모듈)로 구현될 수 있거나, 또는 단일의 소프트웨어 또는 소프트웨어 모듈로 구현될 수도 있다. 여기서 이에 대한 구제적인 한정은 생략하기로 한다.
서버(105)는 각종의 서비스를 제공하는 서버일 수 있으며, 예컨대, 단말기 장치(101, 102, 103)를 이용하는 사용자가 발송한 검색 요청에 대해 지원을 제공하는 백 엔드 처리 서버일 수 있다. 백 엔드 처리 서버는 수신된 검색 요청 등의 데이터에 대해 분석 등의 처리를 진행하고, 처리 결과(예컨대, 엔티티 추천 내용을 포함하는 검색 결과 페이지)를 단말기 장치에 피드백할 수 있다.
본 출원의 실시예에서 제공하는 엔티티 추천 방법은 일반적으로 서버(105)에 의해 실행되고, 따라서, 엔티티 추천 장치는 일반적으로 서버(105)에 설치됨을 설명하고자 한다.
도1 중의 단말기 장치(101, 102, 103), 네트워크(104) 및 서버(105)의 수량은 단지 예시적인 것이며, 구현의 수요에 따라 임의의 수량의 단말기 장치, 네트워크, 서버가 구비될 수 있음을 이해하여야 한다.
이어서 도2를 참조하면, 도2는 본 출원에 따른 엔티티 추천 방법의 일 실시예의 흐름(200)을 나타낸다. 해당 엔티티 추천 방법은 아래와 같은 단계들을 포함한다.
단계(210)에서, 엔티티에 대한 사용자의 검색 요청이 수신됨에 대응하여, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득한다.
본 실시예에 있어서, 엔티티 추천 방법의 실행 본체(예컨대, 도1에 도시된 서버(105))는 엔티티에 대한 사용자의 검색 요청이 수신됨에 대응하여, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득할 수 있다.
여기서, 사용자는 유선 또는 무선 방식으로 본 실시예 중의 엔티티 추천 방법의 실행 본체와 통신 연결될 수 있는 임의의 전자 기기(예컨대, 도1에 도시된 단말기 장치(101, 102, 103))를 이용하여 해당 실행 본체에 검색 요청을 발송할 수 있다.
또한, 본 실시예에 있어서, 후보 엔티티 집합 중의 후보 엔티티는 검색하고자 하는 엔티티와 임의의 가능한 관련 관계를 구비하는 엔티티일 수 있다. 여기서, 관련 관계는 두개의 엔티티의 직접적인 관련 관계(예컨대, 지식 지도 중의 관련), 및/또는 검색 세션 기록 또는 기설정된 코퍼스를 통해 구축된 두개의 엔티티의 간접적인 관련 관계일 수 있다. 예를 들어, 동일한 사용자가 짧은 시간 내에 연이어 검색한 두개의 엔티티는 상호의 후보 엔티티일 수 있다. 백과 코퍼스에서, 동일한 문장에서 나타났던 두개의 엔티티도 상호의 후보 엔티티일 수 있다. 검색 세션 기록을 예로 들면, 검색 과정에서, 임의의 사용자A가 짧은 시간 내에 연이어 엔티티e q 와 엔티티e c 를 연이어 검색할 경우, 다른 일 사용자B가 엔티티e q 를 검색하면, 엔티티e c 가 해당 엔티티e q 의 하나의 후보 엔티티인 것으로 시인할 수 있다. 따라서, 일부의 사용 환경에 있어서, e c 는 후보 엔티티 집합 중의 하나의 요소로 이용될 수 있다.
단계(220)에서, 후보 엔티티 집합을 사전에 트레이닝된 정렬 모델에 입력하여, 후보 엔티티 시퀀스를 획득한다.
본 실시예에 있어서, 정렬 모델은, 후보 엔티티 집합 중의 각 후보 엔티티와 검색하고자 하는 엔티티의 관련도, 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 관심도 및 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 기대도 중의 적어도 하나를 기반으로 후보 엔티티 집합에 대해 정렬을 진행할 수 있다.
여기서, 각 후보 엔티티와 검색하고자 하는 엔티티의 관련도는 후보 엔티티와 검색하고자 하는 엔티티 사이의 관련 정도로 이해할 수 있다. 후보 엔티티와 검색하고자 하는 엔티티와 같은 이러한 양자의 관련도는 양자의 구체적인 내용, 주제 추상 등 방면에서의 양자의 유사도일 수 있거나, 및/또는, 지식 지도, 검색 세션 기록, 기설정된 코퍼스 등 방면에서의 관련 또는 동시 발생 등의 일부의 지표의 양자의 관련도일 수도 있다.
후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 관심도는 해당 후보 엔티티에 대한 검색 요청을 발기하는 사용자의 관심 정도를 표징하기 위한 것으로 이해할 수 있다. 제일 직접적인 방법으로서, 검색 요청을 발기하는 사용자의 기록 동작 데이터에 대해 분석을 진행하고, 후보 엔티티의 조회수(클릭 횟수/전시 횟수)에 대한 통계를 통해 해당 후보 엔티티에 대한 사용자의 관심도를 측정하는 것이다. 뿐만 아니라, 간접적으로 신경망 모델을 통해 사용자의 일부의 동작이 어의의 유사도 산출에 일반화되는 지를 확정하고, 이로써 해당 후보 엔티티에 대한 사용자의 관심도를 측정할 수도 있다.
후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 기대도는 검색 결과에 나타난 임의의 하나의 후보 엔티티에 대한 검색 요청을 발기하는 사용자의 기대 정도를 표징하기 위한 것으로 이해할 수 있다. 선택 가능하게, 이는 검색 요청을 발기하는 사용자의 기록 동작 데이터와 후보 엔티티 사이의 주제 유사도를 기반으로 구현될 수 있다. 예를 들어, 사용자에 의해 자주 클릭되는 후보 엔티티는 사용자가 이러한 엔티티에 대해 더욱 익숙하고 기대도가 더욱 높은 것으로 시인한다.
여기서, 사전에 트레이닝된 정렬 모델은 일련의 연산을 통해 입력된 후보 엔티티 집합 중의 각 후보 엔티티에 대해 우선 순위 평점을 제공하고, 확정된 우선 순위에 따라 정렬을 진행하여, 후보 엔티티 시퀀스를 획득할 수 있다.
예를 들어, 사전에 트레이닝된 정렬 모델은 LTR(Learning to Rank) 프레임워크 중의 임의의 하나의 정렬 모델일 수 있다. LTR 프레임워크는 특정의 최적화 목표를 위해 특정의 최적화 방식을 통해 주석의 트레이닝 데이터 및 이로부터 추출한 특징에 대해 트레이닝을 진행함으로써, 트레이닝을 통해 획득한 정렬 모델이 입력된 후보 엔티티에 대해 우선 순위 평점을 진행할 수 있도록 하여, 정렬을 진행할 수 있다.
일부의 사용 환경에 있어서, 정렬 모델로 확정한 우선 순위는 후보 엔티티 집합 중의 각 후보 엔티티에 대한 정성적 설명일 수 있다. 일부의 사용 환경에 있어서, 정렬 모델은 일정한 우선 순위 레벨에 따라 후보 엔티티 집합 중의 각 후보 엔티티에 대해 구획을 진행하여, 후보 엔티티 시퀀스를 획득할 수 있다.
예를 들어, 정렬 모델이 후보 엔티티 집합 중의 각 후보 엔티티와 검색하고자 하는 엔티티의 관련도를 기반으로 후보 엔티티 집합 중의 각 후보 엔티티에 대해 정렬을 진행할 경우, 정렬 모델은 각 후보 엔티티에 대한 각 사용자의 각종의 기록 동작 데이터에 대해 분석을 진행하여, 후보 엔티티 집합 중의 각 후보 엔티티를 이와 검색하고자 하는 엔티티의 관련도에 따라 강 관련, 중-강 관련, 중 관련, 중-약 관련, 약 관련, 무 관련 등의 유별로 구획할 수 있다.
유사하게, 정렬 모델이 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 관심도를 기반으로 후보 엔티티 집합 중의 각 후보 엔티티에 대해 정렬을 진행할 경우, 정렬 모델은 검색 요청을 발기하는 사용자의 각종의 기록 클릭 데이터에 대해 분석을 진행하여, 후보 엔티티 집합 중의 각 후보 엔티티를 이에 대한 검색 요청을 발기하는 사용자의 관심도에 따라 고 관심도, 중-고 관심도, 중 관심도, 중-저 관심도, 저 관심도, 무 관심 등의 유별로 구획할 수 있다.
이렇게 유추하여, 정렬 모델이 동시에 후보 엔티티 집합 중의 각 후보 엔티티와 검색하고자 하는 엔티티의 관련도 및 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 관심도를 기반으로 후보 엔티티 집합 중의 각 후보 엔티티에 대해 정렬을 진행할 경우, 정렬 모델은 먼저 후보 엔티티 집합 중의 각 후보 엔티티와 검색하고자 하는 엔티티의 관련도 및 후보 엔티티 집합 중의 각 후보 엔티티에 대한 검색 요청을 발기하는 사용자의 관심도를 확정하고, 이어서 검색 요청을 발기하는 사용자의 관심도에 대해 정렬을 진행할 수 있다. 예를 들어, 후보 엔티티와 검색하고자 하는 엔티티의 관련도보다 후보 엔티티에 대한 검색 요청을 발기하는 사용자의 관심도에 더욱 많은 관심을 기대할 경우, 정렬 모델을 통해 정렬한 후보 엔티티 시퀀스는, 고 관심도 및 강 관련, 고 관심도 및 중-강 관련, 고 관심도 및 중 관련, 고 관심도 및 약 관련, 고 관심도 및 무 관련, 중-고 관심도 및 강 관련, 중-고 관심도 및 중-강 관련, 중-고 관심도 및 중 관련, 중-고 관심도 및 약 관련, 중-고 관심도 및 무 관련, 중 관심도 및 강 관련, 중 관심도 및 중-강 관련, 중 관심도 및 중 관련, 중 관심도 및 약 관련, 중 관심도 및 무 관련, 중-저 관심도 및 강 관련, 중-저 관심도 및 중-강 관련, 중-저 관심도 및 중 관련, 중-저 관심도 및 약 관련, 중-저 관심도 및 무 관련, 저 관심도 및 강 관련, 저 관심도 및 중-강 관련, 저 관심도 및 중 관련, 저 관심도 및 약 관련, 저 관심도 및 무 관련, 무 관심 및 강 관련, 무 관심 및 중-강 관련, 무 관심 및 중 관련, 무 관심 및 약 관련, 무 관심 및 무 관련과 같은 레벨의 순서에 따라 정렬을 진행할 수 있다.
다른 일부의 사용 환경에 있어서, 정렬 모델로 확정한 우선 순위는 후보 엔티티 집합 중의 각 후보 엔티티에 대한 정량적 설명일 수 있다. 일부의 사용 환경에 있어서, 정렬 모델은 일정한 알고리즘에 따라 후보 엔티티 집합 중의 각 후보 엔티티에 대해 정량적 평점을 진행하여, 후보 엔티티 시퀀스를 획득할 수 있다.
이러한 사용 환경에 있어서, 정렬 모델이 후보 엔티티 집합 중의 각 후보 엔티티와 검색하고자 하는 엔티티의 관련도를 기반으로 후보 엔티티 집합 중의 각 후보 엔티티에 대해 정렬을 진행할 경우, 정렬 모델은 기설정된 알고리즘을 기반으로 각 후보 엔티티에 대한 각 사용자의 각종의 기록 클릭 데이터에 대해 연산을 진행하여, 후보 엔티티 집합 중의 각 후보 엔티티의 관련도 평점을 산출할 수 있다.
유사하게, 정렬 모델이 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 관심도를 기반으로 후보 엔티티 집합 중의 각 후보 엔티티에 대해 정렬을 진행할 경우, 정렬 모델은 기설정된 알고리즘을 기반으로 검색 요청을 발기하는 사용자의 각종의 기록 클릭 데이터에 대해 연산을 진행하여, 후보 엔티티 집합 중의 각 후보 엔티티의 관심도 평점을 산출할 수 있다.
이렇게 유추하여, 정렬 모델이 동시에 후보 엔티티 집합 중의 각 후보 엔티티와 검색하고자 하는 엔티티의 관련도 및 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 관심도를 기반으로 후보 엔티티 집합 중의 각 후보 엔티티에 대해 정렬을 진행할 경우, 정렬 모델은 기설정된 (또는 트레이닝을 통해 획득한) 가중치를 기반으로 관련도 평점 및 관심도 평점에 대해 가중 합계를 진행하고, 가중 합계된 평점에 따라 후보 엔티티 집합 중의 각 후보 엔티티에 대해 정렬을 진행하여, 후보 엔티티 시퀀스를 획득할 수 있다.
단계(230)에서, 후보 엔티티 시퀀스로부터 후보 엔티티를 선택하고, 사용자에게 선택된 후보 엔티티를 추천한다.
본 단계에서, 단계(220)의 정렬 모델로 출력한 후보 엔티티 시퀀스에서 각 후보 엔티티의 우선 순위에 따라 선택하여 사용자에게 추천할 수 있다.
예를 들어, 일부의 사용 환경에 있어서, 정렬 모델로 확정한 각 후보 엔티티의 우선 순위는 정성적 레벨을 통해 표징한다. 이러한 사용 환경에 있어서, 예컨대, 후보 엔티티 시퀀스에서 제일 높은 우선 순위를 구비하는 후보 엔티티를 사용자에게 추천할 수 있다.
또는, 다른 일부의 사용 환경에 있어서, 정렬 모델로 확정한 각 후보 엔티티의 우선 순위는 정량적 수치(예컨대, 평점)를 통해 표징한다. 일부의 사용 환경에 있어서, 예컨대, 후보 엔티티 시퀀스에서 평점이 임의의 기설정된 역치를 초과하는 후보 엔티티를 선택하여 사용자에게 추천할 수 있다. 또는, 이러한 사용 환경에 있어서, 후보 엔티티 시퀀스에서 평점이 제일 높은 N개의 후보 엔티티를 선택하여 사용자에게 추천할 수도 있으며, 여기서, N는 기설정된 양의 정수이다.
본 실시예의 엔티티 추천 방법에 있어서, 엔티티에 대한 사용자의 검색 요청이 수신됨에 대응하여, 기설정된 엔티티 집합에서 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하고, 이어서, 후보 엔티티 집합을 사전에 트레이닝된 정렬 모델에 입력하여, 후보 엔티티 시퀀스를 획득하며, 최종적으로, 후보 엔티티 시퀀스로부터 후보 엔티티를 선택하여 선택된 후보 엔티티를 사용자에게 추천한다. 또한, 정렬 모델은 후보 엔티티 집합 중의 각 후보 엔티티와 검색하고자 하는 엔티티의 관련도, 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 관심도 및 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 기대도를 기반으로 정렬을 진행할 수 있으므로, 사용자에 대한 관련성, 개성화, 깜짝성, 다양성이 더욱 높은 엔티티 추천을 실현한다.
일부 선택 가능한 구현 방식에 있어서, 본 실시예의 단계(210) 중의 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하는 것은 아래와 같은 방식으로 구현할 수 있다.
단계(211)에서, 후보 엔티티와 검색하고자 하는 엔티티가 기설정된 지식 지도에서 관련 관계가 존재함에 대응하여, 후보 엔티티를 후보 엔티티 집합에 추가한다.
지식 지도(Knowledge Graph, KG)는 하나의 집중식 저장소로 이해할 수 있으며, 이는 임의의 하나의 엔티티와 이에 관련된 기타 엔티티 사이의 관련 관계를 저장하기 위한 것이다.
도3을 참조하면, 도3은 "포유 동물" 이러한 엔티티에 관한 일 지식 지도의 예시도이다.
도3에 도시된 지식 지도에 있어서, "포유 동물"은 "동물" 중의 일종이고, 양자는 도3에 도시된 지식 지도에서 연결 관계(예컨대, 양자 사이에 일 연결선이 존재함)가 존재하며, 이러할 경우, "동물" 이러한 엔티티는 "포유 동물"의 하나의 후보 엔티티로 이용될 수 있다.
이로써, 사용자가 "포유 동물" 이러한 엔티티를 검색할 경우, 도3에 도시된 지식 지도 중의 "동물", "고양이", "고래", "곰", "척추" 등의 엔티티는 후보 엔티티 집합 중의 요소로 이용될 수 있으며, "물", "물고기", "털" 등의 엔티티는 후보 엔티티 집합 중의 요소로 이용되지 않는다. 단계(211)를 통해 생성된 후보 엔티티 집합은 예컨대 K(e q )로 표기할 수 있으며, 여기서, e q 는 검색하고자 하는 엔티티를 표시한다.
다른 일부 선택 가능한 구현 방식에 있어서, 본 실시예의 단계(210) 중의 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하는 것은 아래와 같은 방식으로 구현할 수도 있다.
단계(212)에서, 후보 엔티티와 검색하고자 하는 엔티티가 검색 세션 기록에서 동시 발생하는 횟수가 기설정된 제1 역치를 초과함에 대응하여, 후보 엔티티를 후보 엔티티 집합에 추가한다.
컴퓨터 용어에 있어서, 세션(session)은 단말기 사용자와 교호 시스템(예컨대, 서버)이 통신을 진행하는 과정을 가리킨다. 예를 들어, 세션은 단말기가 서버를 액세스하는 것부터 시작하여, 서버가 닫기거나 클라이언트가 닫길 때에 종료된다.
일부의 사용 환경에 있어서, 검색 세션 기록으로부터 검색하고자 하는 엔티티eq와 동시 발생하는 횟수가 상대적으로 많은 엔티티를 추출하여 일 후보 엔티티 집합을 형성하고 S(e q )로 표기한다.
다른 일부 선택 가능한 구현 방식에 있어서, 본 실시예의 단계(210) 중의 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하는 것은, 아래와 같은 방식을 통해 구현될 수도 있다.
단계(213)에서, 기설정된 코퍼스에서 검색하고자 하는 엔티티와 동시 발생 관계를 구비하는 엔티티를 동시 발생 후보 엔티티로 이용한다.
여기서, 기설정된 코퍼스에서 검색하고자 하는 엔티티와 해당 코퍼스 중의 동일한 네트워크 문서에 나타난 엔티티를 동시 발생 후보 엔티티로 선별하여, 집합Dr(e q )을 형성할 수 있다.
또한, 단계(214)에서, 검색하고자 하는 엔티티와의 관련도가 기설정된 제2 역치를 초과하는 후보 엔티티를 후보 엔티티 집합에 추가한다.
일부의 사용 환경에 있어서, 집합Dr(e q ) 중의 동시 발생 후보 엔티티와 검색하고자 하는 엔티티 사이의 동시 발생도는 아래와 같은 공식(1)으로 산출할 수 있다.
Figure pat00001
(1)
전술한 공식(1)에 있어서, T는 검색하고자 하는 엔티티e q 의 엔티티 유별 집합을 표시하고, R는 기설정된 엔티티 사이의 관계를 설명하기 위한 단어 집합 중의 네트워크 문서가 설명하는 e q e c 사이의 관계를 표시하며, P(e c |e q )는 내용 무관의 동시 발생도이고, P(R|e q ,e c )는 내용 관련의 동시 발생도이다.
P(e c |e q )와 P(R|e q ,e c )는 각각 아래와 같은 공식(2)와 공식(3)으로 산출할 수 있다.
Figure pat00002
(2)
Figure pat00003
(3)
여기서, 전술한 공식(2) 중의 PMI(e q ,e c ) 및 PMI'(e q ,e c )는 아래와 같은 공식(4)으로 산출할 수 있다.
Figure pat00004
(4)
여기서, cnt(e c ,e q )는 e c e q 가 기설정된 코퍼스에서 동시 발생하는 횟수이고, cnt(e c )와 cnt(e q )는 각각 e c e q 가 기설정된 코퍼스에서 나타나는 횟수이다.
전술한 공식(3) 중의 θ qc 는 기설정된 동시 발생 언어 모델에서 출력하는 e q e c 사이의 관계 평점이고, n(t,R)는 tR에서 나타나는 횟수이다.
또한, 전술한 공식(1) 중의 P(T|e c )는 관계 필터이고, 아래와 같은 공식(5)으로 획득할 수 있다.
Figure pat00005
(5)
여기서, cat (e c )는 엔티티e c e c 의 유별 집합에 매핑시키는 매핑 함수이고, cat'(T)는 T에 대해 유별 확장 조작을 진행하여 획득한 일련의 엔티티 유별이다.
이로써, 전술한 공식(1)으로 집합Dr(e q ) 중의 동시 발생 후보 엔티티에 대해 동시 발생도 산출을 진행하고, 이로부터 동시 발생도가 제2 기설정된 역치를 초과하는 동시 발생 후보 엔티티를 선별하여 집합D(e q )을 형성할 수 있다.
본 실시예의 단계(210) 중의 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득할 때, 전술한 3가지 선택 가능한 구현 방식 중의 하나의 방식을 이용하여 후보 엔티티 집합K(e q ), S(e q ) 또는 D(e q )을 획득 할 수 있음을 이해 할 수 있을 것이다. 전술한 3가지 선택 가능한 구현 방식의 임의의 조합으로 후보 엔티티 집합을 획득할 수도 있다. 구체적으로, 전술한 단계(211)와 단계(212)를 이용하여 후보 엔티티 집합을 획득할 경우, 최종적으로 생성된 후보 엔티티 집합은 K(e q )∪S(e q )일 수 있다. 유사하게, 전술한 단계(211)와 단계(213~214)를 이용하여 후보 엔티티 집합을 획득할 경우, 최종적으로 생성된 후보 엔티티 집합은 S(e q )∪D(e q )일 수 있다. 이렇게 유추하여, 전술한 단계(211), 단계(212) 및 단계(213~214)를 이용하여 후보 엔티티 집합을 획득할 경우, 최종적으로 생성된 후보 엔티티 집합은 K(e q )∪S(e q )∪D(e q )일 수 있다.
생성된 후보 엔티티 집합이 K(e q )∪S(e q )∪D(e q )일 경우, 후보 엔티티 집합에는 기설정된 지식 지도에서 검색하고자 하는 엔티티와 관련 관계가 존재하는 엔티티(K(e q ) 중의 후보 엔티티)가 포함될 뿐만 아니라, 검색 세션 기록에서 검색하고자 하는 엔티티와 동시 발생하는 횟수가 기설정된 제1 역치를 초과하는 엔티티(S(e q ) 중의 후보 엔티티) 및 기설정된 코퍼스에서 검색하고자 하는 엔티티와의 관련도가 기설정된 관련도 역치를 초과하는 엔티티(D(e q ) 중의 후보 엔티티)가 포함되어, 사용자의 관심도, 기대도 및 엔티티 사이의 관련도와 같은 3가지 방면에서 후보 엔티티 집합에 포함되는 엔티티를 감안함으로써, 상이한 위도에서 후보 엔티티 집합 중의 각 요소와 검색 요청의 관련성을 실현함을 이해할 수 있을 것이다.
도4를 참조하면, 도4는 본 실시예의 엔티티 추천 방법의 일 사용 환경의 예시도이다.
도4에 도시된 사용 환경에 있어서, 사용자(410)는 이가 이용하는 단말기 장치(미도시)를 통해 검색 서버에 임의의 하나의 엔티티에 대한 검색 요청을 발송할 수 있다. 검색 서버는 해당 검색 요청을 수신한 이후, 도면 부호(401)에 도시된 바와 같이, 데이터 베이스(402)로부터 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득할 수 있다. 이어서, 도면 부호(403)에 도시된 바와 같이, 검색 서버는 획득된 후보 엔티티 집합을 사전에 트레이닝된 정렬 모델에 입력함으로써, 후보 엔티티 집합 중의 각 후보 엔티티에 대해 정렬을 진행하여, 후보 엔티티 시퀀스(404)를 획득할 수 있다. 이로써, 후보 엔티티 시퀀스(404)에서 상위 N개의 후보 엔티티를 사용자에게 추천할 수 있다.
도5를 참조하면, 도5는 본 출원의 엔티티 추천 방법의 다른 일 실시예의 예시적 흐름도이다.
본 실시예의 방법은 아래와 같은 단계들을 포함한다.
단계(510)에서, 엔티티에 대한 사용자의 검색 요청이 수신됨에 대응하여, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득한다.
본 실시예의 단계(510)은 도2에 도시된 실시예 중의 단계(210)와 유사한 실행 방식을 구비할 수 있다. 또한, 본 실시예의 단계(510)에서, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하는 선택 가능한 구현 방식도 전술한 단계(211), 단계(212), 단계(213) 내지 단계(214)의 방식 또는 해당 3가지 방식의 임의의 조합으로 획득할 수 있으므로, 이에 대한 중복된 설명은 생략하기로 한다.
단계(520)에서, 상기 후보 엔티티 집합을 사전에 트레이닝된 정렬 모델에 입력하여, 후보 엔티티 시퀀스를 획득한다.
본 실시예의 엔티티 추천 방법에 있어서, 정렬 모델은 아래와 같은 방식을 통해 트레이닝될 수 있다.
단계(521)에서, 트레이닝 샘플 집합을 생성하되, 트레이닝 샘플 집합 중의 각 트레이닝 샘플은 삼원조 및 클릭 동작 주석을 포함하고, 삼원조는 사용자 신원 표식, 제1 엔티티 및 제2 엔티티를 포함하고, 클릭 동작 주석은 사용자가 제1 엔티티를 검색하여 획득한 검색 결과에 제2 엔티티에 대한 클릭 동작이 존재하는지 여부를 지시하기 위한 것이다.
예시적으로, 각 삼원조는 예컨대
Figure pat00006
로 표시할 수 있으며, 여기서,
Figure pat00007
는 사용자집합 중의 임의의 하나의 사용자의 신원 표식으로 이해 할 수 있으며,
Figure pat00008
는 임의의 하나의 제1 엔티티(예컨대, 임의의 하나의 사용자가 검색하였었던 엔티티)이고,
Figure pat00009
는 임의의 하나의 제2 엔티티(임의의 하나의 엔티티에 대해 검색을 진행하여 획득한 임의의 하나의 검색 결과 페이지에 표시된 엔티티)이다.
또한, 클릭 동작 주석 y ijk 의 값은 아래와 같은 공식(6)으로 확정할 수 있다.
Figure pat00010
(6)
전술한 공식(6)에 있어서,
Figure pat00011
Figure pat00012
인 사용자가
Figure pat00013
인 제1 엔티티를 검색하여 획득한 검색 결과에
Figure pat00014
인 제2 엔티티에 대한 클릭 동작이 존재하는 집계 클릭(aggregated click)을 가리키기 위한 것이다. 삼원조
Figure pat00015
에 집계 클릭이 존재할 경우, 해당 삼원조
Figure pat00016
에 대해 y ijk =1를 주석하고, 아니면, 해당 삼원조
Figure pat00017
에 대해 y ijk =0을 주석한다.
단계(522)에서, 생성된 트레이닝 샘플 집합 중의 각 트레이닝 샘플에 대해 해당 트레이닝 샘플의 특징 벡터를 생성한다. 특징 벡터는, 각 삼원조
Figure pat00018
에서 제1 엔티티
Figure pat00019
와 제2 엔티티
Figure pat00020
사이의 관련도, 각 삼원조
Figure pat00021
에서 사용자
Figure pat00022
가 해당 삼원조 중의 제2 엔티티
Figure pat00023
에 대한 관심도, 및 각 삼원조
Figure pat00024
에서 사용자
Figure pat00025
가 해당 삼원조 중의 제2 엔티티
Figure pat00026
에 대한 기대도를 지시하기 위한 특징값을 포함한다.
여기서, 제1 엔티티
Figure pat00027
와 제2 엔티티
Figure pat00028
사이의 관련도는 후보 엔티티와 검색하고자 하는 엔티티 사이에 존재하는 상호 관련의 관련 정도로 이해할 수 있다. 후보 엔티티와 검색하고자 하는 엔티티의 양자의 관련도는 양자의 구체적인 내용, 주제 추상 등 방면에서의 양자의 유사도일 수 있거나, 및/또는, 지식 지도, 검색 세션 기록, 기설정된 코퍼스 등 방면에서의 관련 또는 동시 발생 등의 일부의 지표의 양자의 관련도(예컨대, 지식 지도에서 두개의 엔티티가 직접적인 관련을 구비하는지, 또는 검색 세션 기록에서의 동시 발생 정보 등)일 수도 있다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 특징 벡터가 제1 엔티티
Figure pat00029
와 제2 엔티티
Figure pat00030
사이의 관련도를 표징하기 위한 특징값을 포함할 경우, 이러한 특징값은, 삼원조 중의 제1 엔티티
Figure pat00031
와 제2 엔티티
Figure pat00032
가 기설정된 지식 지도에서의 관련도, 삼원조
Figure pat00033
중의 제1 엔티티
Figure pat00034
와 제2 엔티티
Figure pat00035
가 검색 세션 기록에서의 동시 발생도, 삼원조
Figure pat00036
중의 제1 엔티티
Figure pat00037
와 제2 엔티티
Figure pat00038
가 기설정된 코퍼스에서의 동시 발생도, 및 삼원조
Figure pat00039
중의 제1 엔티티
Figure pat00040
와 제2 엔티티
Figure pat00041
의 주제 유사도 중의 적어도 하나를 포함할 수 있다.
일부의 사용 환경에 있어서, 삼원조
Figure pat00042
중의 제1 엔티티
Figure pat00043
와 제2 엔티티
Figure pat00044
가 기설정된 지식 지도에서의 관련도 특징값은 아래와 같은 공식(7)으로 확정할 수 있다.
Figure pat00045
(7)
여기서, 제1 엔티티
Figure pat00046
와 제2 엔티티
Figure pat00047
가 기설정된 지식 지도에서 연결 관계가 존재한다는 것은 제1 엔티티
Figure pat00048
와 제2 엔티티
Figure pat00049
가 기설정된 지식 지도에서 일 연결선을 구비하는 것으로 이해할 수 있다. 여전히 도3에 도시된 지식 지도를 예로 들면, 엔티티 "포유 동물"과 엔티티 "고래"는 해당 지식 지도에서 일 연결선을 구비하며, 따라서, 양자가 각각 삼원조
Figure pat00050
중의 제1 엔티티
Figure pat00051
와 제2 엔티티
Figure pat00052
에 대응될 경우, 양자의 관련도 특징값은 공식(7)에 따라 1로 확정될 수 있다. 반대로, 엔티티 "포유 동물"와 엔티티"물고기"는 도3에 도시된 지식 지도에서 연결선을 구비하지 않으며, 따라서, 양자가 각각 삼원조 중의 제1 엔티티
Figure pat00053
와 제2 엔티티
Figure pat00054
에 대응될 경우, 양자의 관련도 특징값은 공식(7)에 따라 0으로 확정될 수 있다.
일부의 사용 환경에 있어서, 삼원조
Figure pat00055
중의 제1 엔티티
Figure pat00056
와 제2 엔티티
Figure pat00057
가 검색 세션 기록에서의 동시 발생도 특징값은 예컨대 전술한 공식(2)을 이용하여 확정할 수 있다. 공식(2)를 이용하여 삼원조
Figure pat00058
중의 제1 엔티티
Figure pat00059
와 제2 엔티티
Figure pat00060
가 검색 세션 기록에서의 동시 발생도를 확정할 경우, 공식(2) 중의
Figure pat00061
가 해당하는 집합도 단계(510)에서 확정한 후보 엔티티 집합에 대응된다.
일부의 사용 환경에 있어서, 삼원조
Figure pat00062
중의 제1 엔티티
Figure pat00063
와 제2 엔티티
Figure pat00064
가 기설정된 코퍼스에서의 동시 발생도 특징값은 전술한 공식(1)으로 확정할 수 있다.
일부의 사용 환경에 있어서, 삼원조
Figure pat00065
중의 제1 엔티티
Figure pat00066
와 제2 엔티티
Figure pat00067
사이의 주제 유사도 특징값은 아래와 같은 공식(8)으로 확정할 수 있다.
Figure pat00068
(8)
여기서,
Figure pat00069
Figure pat00070
는 각각 기설정된 네트워크 문서 집합에서 제1 엔티티
Figure pat00071
를 포함하는 네트워크 문서
Figure pat00072
와 제2 엔티티
Figure pat00073
를 포함하는 네트워크 문서
Figure pat00074
의 주제 특징 벡터이다. 일부의 사용 환경에 있어서, 잠재 디리클레 할당 (latent dirichlet allocation, LDA)을 이용하여 네트워크 문서에 대해 모델링을 진행할 수 있다. 예를 들어, 네트워크 문서 집합 중의 각 네트워크 문서의 주제 특징 벡터를 표징하도록, 일 LDA 모델을 사전에 트레이닝을 진행할 수 있다. 이로써, 제1 엔티티
Figure pat00075
를 포함하는 네트워크 문서와 제2 엔티티
Figure pat00076
를 포함하는 네트워크 문서
Figure pat00077
Figure pat00078
의 주제 특징 벡터 사이의 코사인 유사도를 삼원조
Figure pat00079
중의 제1 엔티티
Figure pat00080
와 제2 엔티티
Figure pat00081
사이의 주제 유사도를 측정하는 특징값으로 이용할 수 있다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 특징 벡터가 각 삼원조 중의 사용자u가 해당 삼원조
Figure pat00082
중의 제2 엔티티
Figure pat00083
에 대한 관심도를 지시하는 특징값을 포함할 경우, 이러한 특징값은, 해당 삼원조
Figure pat00084
중의 제2 엔티티
Figure pat00085
의 조회수, 기설정된 분류표에서 제2 엔티티
Figure pat00086
가 해당되는 주제 유별의 조회수, 삼원조
Figure pat00087
중의 제1 엔티티
Figure pat00088
와 제2 엔티티
Figure pat00089
의 어의 유사도 중의 적어도 하나를 포함할 수 있다.
일부의 사용 환경에 있어서, 해당 삼원조
Figure pat00090
중의 제2 엔티티
Figure pat00091
의 조회수 특징값은 아래와 같은 공식(9) 내지 공식(11) 중의 적어도 하나로 확정할 수 있다.
Figure pat00092
(9)
Figure pat00093
(10)
Figure pat00094
(11)
전술한 공식(9) 내지 공식(11)에 있어서, 각종의 경우에, click(·) 함수는 제2 엔티티
Figure pat00095
에 대한 클릭 횟수일 수 있다. 구체적으로,
Figure pat00096
는 사용자u가 제1 엔티티
Figure pat00097
를 검색하여 획득한 검색 결과 페이지에서 제2 엔티티
Figure pat00098
에 대한 클릭 횟수일 수 있으며,
Figure pat00099
는 모든 사용자가 제1 엔티티
Figure pat00100
를 검색하여 획득한 검색 결과 페이지에서 제2 엔티티
Figure pat00101
에 대
Figure pat00102
한 클릭 횟수일 수 있으며,
Figure pat00103
는 모든 사용자가 임의의 엔티티를 검색하여 획득한 검색 결과 페이지에서 제2 엔티티
Figure pat00104
에 대한 클릭 횟수일 수 있다.
따라서, impression(·) 함수는 각종의 경우에 제2 엔티티
Figure pat00105
에 대한 표시 횟수일 수 있으며, 예를 들어, 각종의 경우에, 제2 엔티티
Figure pat00106
가 검색 결과 페이지의 브라우저 창에 표시되는 횟수일 수 있다.
Figure pat00107
는 사용자u가 제1 엔티티
Figure pat00108
를 검색하여 획득한 검색 결과 페이지에서 제2 엔티티
Figure pat00109
에 대한 표시 횟수일 수 있으며,
Figure pat00110
는 모든 사용자가 제1 엔티티
Figure pat00111
를 검색하여 획득한 검색 결과 페이지에서 제2 엔티티
Figure pat00112
에 대한 표시 횟수일 수 있으며,
Figure pat00113
는 모든 사용자가 임의의 엔티티를 검색하여 획득한 검색 페이지에서 제2 엔티티
Figure pat00114
에 대한 표시 횟수일 수 있다.
또한, 전술한 공식(9) 내지 공식(11)에 있어서, α와 β는 보다 원활하게 조회수 데이터를 획득하고자 하는 기설정된 상수일 수 있다. α와 β를 적절하게 설치함으로써, 클릭 횟수, 표시 횟수가 상대적으로 적은 제2 엔티티
Figure pat00115
가 더욱 안정적인 조회수 수치를 획득할 수 있도록 한다.
삼원조
Figure pat00116
중의 제1 엔티티
Figure pat00117
를 검색하여 획득한 검색 결과에서 전술한 공식(9) 내지 공식(11)과 같은 3자를 통해 해당 삼원조
Figure pat00118
중의 제2 엔티티
Figure pat00119
에 대한 조회수 특징값을 확정할 경우, 최종적으로 획득한 샘플의 특징 벡터에 공식(9) 내지 공식(11)으로 산출한 3개의 조회수 특징값이 구비됨을 이해할 수 있을 것이다.
일부의 사용 환경에 있어서, 삼원조
Figure pat00120
중의 제1 엔티티
Figure pat00121
를 검색하여 획득한 검색 결과에서, 기설정된 분류표에서 제2 엔티티
Figure pat00122
가 해당하는 주제 유별의 조회수 특징값은 아래와 같은 공식(12) 내지 공식(14) 중의 적어도 하나로 확정할 수 있다.
Figure pat00123
(12)
Figure pat00124
(13)
Figure pat00125
(14)
여기서, T q 는 제1 엔티티
Figure pat00126
가 해당하는 주제 집합이고, T c 는 제2 엔티티
Figure pat00127
가 해당하는 주제 집합이다.
기설정된 분류표에서 제2 엔티티
Figure pat00128
가 해당되는 주제 유별의 조회수 특징값이 전술한 공식(12) 내지 공식(14)와 같은 3자를 통해 확정될 경우, 최종적으로 획득한 샘플의 특징 벡터에는 각각 공식(12) 내지 공식(14)으로 산출한 3개의 조회수 특징값이 구비됨을 이해할 수 있을 것이다.
일부의 사용 환경에 있어서, 삼원조
Figure pat00129
중의 제1 엔티티
Figure pat00130
와 제2 엔티티
Figure pat00131
의 어의 유사도 특징값은 아래와 같은 공식(15)으로 확정할 수 있다.
Figure pat00132
(15)
일부의 사용 환경에 있어서, 단어 삽입 매트릭스(word embedding matrix)를 통해 임의의 하나의 엔티티
Figure pat00133
를 설명하는 서술 어구s 중의 각 단어를 하나의 단어 벡터로 매핑할 수 있으며, 이어서, 컨볼루션 신경망과 풀링 조작을 통해 이러한 서술 어구를 최종적으로 하나의 어의 벡터로 표시할 수 있다. 이로써, 공식(15) 중의
Figure pat00134
Figure pat00135
는 제1 엔티티
Figure pat00136
의 어의 벡터와 제2 엔티티
Figure pat00137
의 어의 벡터로 이해할 수 있다. 따라서, 제1 엔티티와 제2 엔티티의 어의 유사도 특징값은 제1 엔티티
Figure pat00138
의 어의 벡터와 제2 엔티티
Figure pat00139
의 어의 벡터 사이의 코사인 유사도로 이해할 수 있다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 특징 벡터가 각 삼원조
Figure pat00140
중의 사용자
Figure pat00141
가 해당 삼원조
Figure pat00142
중의 제2 엔티티
Figure pat00143
에 대한 기대도를 지시하기 위한 특징값을 포함할 경우, 이러한 특징값은, 삼원조
Figure pat00144
중의 사용자의 기록 클릭 데이터를 기반으로 확정한 사용자 및/또는 제1 엔티티가 제2 엔티티에 대한 관계 친숙도, 삼원조
Figure pat00145
중의 제2 엔티티
Figure pat00146
가 사용자
Figure pat00147
및/또는 제1 엔티티
Figure pat00148
에 대한 의외도, 및 삼원조
Figure pat00149
에서 제1 엔티티
Figure pat00150
의 클릭 다양성 중의 적어도 하나를 포함할 수 있다.
임의의 하나의 제2 엔티티
Figure pat00151
가 제1 엔티티
Figure pat00152
를 검색한 사용자
Figure pat00153
에 의해 발견되었을 경우, 해당 사용자가 다시 해당 제1 엔티티
Figure pat00154
를 검색할 때, 해당 제2 엔티티
Figure pat00155
를 해당 사용자
Figure pat00156
에게 추천하면, 해당 사용자
Figure pat00157
가 해당 제2 엔티티
Figure pat00158
에 대한 친숙 정도가 상대적으로 높으며, 즉, 해당 사용자
Figure pat00159
가 해당 제2 엔티티
Figure pat00160
에 대한 예측불가성이 더욱 낮다.
일부의 사용 환경에 있어서, 특징 벡터가 삼원조
Figure pat00161
중의 사용자의 기록 클릭 데이터를 기반으로 확정한 사용자
Figure pat00162
및/또는 제1 엔티티
Figure pat00163
가 제2 엔티티
Figure pat00164
에 대한 관계 친숙도를 지시하기 위한 특징값을 포함할 경우, 해당 특징값은 아래와 같은 공식(16)과 공식(17) 중의 적어도 하나로 확정할 수 있다.
Figure pat00165
(16)
Figure pat00166
(17)
여기서,
Figure pat00167
이고, 여기서,
Figure pat00168
는 검색 클릭 로그로부터 획득한 사용자
Figure pat00169
가 클릭하였던 네트워크 문서에서 이러한 네트워크 문서의 제목 중에 존재하는 모든 엔티티이고,
Figure pat00170
는 엔티티 클릭 로그로부터 획득한 사용자
Figure pat00171
가 클릭하였던 모든 엔티티이다.
또한, 공식(17) 중의
Figure pat00172
이고, 여기서,
Figure pat00173
는 제1 엔티티
Figure pat00174
를 검색할 때 검색 결과 페이지에 표시된 제2 엔티티
Figure pat00175
를 클릭한 사용자의 수량이고, N u 는 제1 엔티티
Figure pat00176
와 제2 엔티티
Figure pat00177
사이에 대한 대부분의 사용자의 관계 친숙 정도를 표징하기 위해 기설정한 기설정된 역치이다.
삼원조
Figure pat00178
중의 사용자의 기록 클릭 데이터를 기반으로 확정한 관계 친숙도의 특징값이 각각 전술한 공식(16)과 공식(17)의 양자를 통해 확정될 경우, 최종적으로 획득한 샘플의 특징 벡터에는 각각 전술한 공식(16)과 공식(17)으로 산출한 3개의 관계 친숙도의 특징값이 구비됨을 이해할 수 있을 것이다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 특징 벡터가 삼원조
Figure pat00179
중의 제2 엔티티
Figure pat00180
가 사용자
Figure pat00181
및/또는 제1 엔티티
Figure pat00182
에 대한 의외도를 지시하기 위한 특징값을 포함할 경우, 이러한 특징값은 아래와 같은 공식(18) 내지 공식(21) 중의 적어도 하나로 확정할 수 있다.
Figure pat00183
(18)
Figure pat00184
(19)
Figure pat00185
(20)
Figure pat00186
(21)
여기서, 전술한 공식(18)에 있어서,
Figure pat00187
는 사용자
Figure pat00188
가 이미 알고 있고 제1 엔티티
Figure pat00189
와 관련 관계를 구비하는 엔티티 집합이고, d(·)는 제2 엔티티
Figure pat00190
와 집합
Figure pat00191
중의 임의의 요소의 거리를 측정하기 위한 함수일 수 있다. 예시적으로, d(e c , e k )=1-simc(e c , e k )이고, simc(e c , e k )는 전술한 공식(8)을 이용하여 산출할 수 있다. 제2 엔티티
Figure pat00192
와 해당 집합 중의 각 요소의 거리의 최소값을 산출함으로써, 제2 엔티티
Figure pat00193
가 제1 엔티티
Figure pat00194
에 대한 의외도를 측정할 수 있다.
그러나, 단지 공식(18) 및/또는 공식(20)으로 제2 엔티티
Figure pat00195
가 제1 엔티티
Figure pat00196
에 대한 의외도를 측정할 경우, 제2 엔티티
Figure pat00197
는 사용자
Figure pat00198
가 완전히 무관심하며 사용자
Figure pat00199
와 완전히 무관한 엔티티로 초래될 가능성이 아주 높다. 이러한 문제를 해결하기 위하여, 전술한 공식(19) 및/또는 공식(21)을 통해 사용자
Figure pat00200
의 관심도를 포함시켜 감안할 수 있다.
구체적으로, 공식(19)에 있어서,
Figure pat00201
는 정규화된
Figure pat00202
이고,
Figure pat00203
를 만족한다.
Figure pat00204
는 전술한 공식(9)을 참조하여 산출할 수 있다.
나아가, 전술한 공식(21) 중의
Figure pat00205
는 정규화된
Figure pat00206
이고,
Figure pat00207
를 만족한다.
삼원조
Figure pat00208
중의 제2 엔티티
Figure pat00209
가 사용자
Figure pat00210
및/또는 제1 엔티티
Figure pat00211
에 대한 의외도의 특징값이 각각 전술한 공식(18) 내지 공식(21)으로 확정될 경우, 최종적으로 획득한 샘플의 특징 벡터에는 각각 공식(18) 내지 공식(21)으로 확정한 제2 엔티티
Figure pat00212
가 제1 엔티티
Figure pat00213
에 대한 의외도 특징값이 구비된다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 특징 벡터가 삼원조
Figure pat00214
에서 제1 엔티티
Figure pat00215
의 클릭 다양성을 지시하기 위한 특징값을 포함할 경우, 해당 특징값은 아래와 같은 공식(22)으로 확정할 수 있다.
Figure pat00216
(22)
여기서,
Figure pat00217
이고,
C(e q )는 제1 엔티티
Figure pat00218
를 검색하여 획득한 검색 결과에서 클릭된 엔티티로 구성된 집합이다.
전술한 공식(22)으로 확정한 클릭 다양성의 특징값은 제1 엔티티
Figure pat00219
를 검색하여 획득한 검색 결과의 클릭 다양성을 직관적으로 반영할 수 있다.
본 단계(522)에서, 선택된 특징값이 많을 수록, 트레이닝을 통해 획득한 정렬 모델이 정렬을 진행할 때 정렬 결과에 영향을 미치는 영향 요소도 대응되게 더욱 많으며, 정렬 모델로 획득한 후보 엔티티 시퀀스도 사용자가 관심도, 기대도와 엔티티 사이의 관련도 등의 방면에 대한 요구를 더욱 적절하게 만족시킴을 이해할 수 있을 것이다.
단계(523)에서, 트레이닝 샘플 집합과 생성된 특징 벡터를 사전에 구축된 그레이디언트 향상 의사 결정 트리 모델에 입력하고, 확율적 그레이디언트 하강 알고리즘을 기반으로 그레이디언트 향상 의사 결정 트리 모델에 대해 트레이닝을 진행한다.
여기서, 그레이디언트 향상 의사 결정 트리 모델은 예컨대 확율적 그레이디언트 부스팅 의사 결정 트리(stocastic Gradient Boosted Decision Tree, 확율적 GBDT) 모델일 수 있다. 여기서, 확율적 GBDT 모델 중의 트리의 수량, 노드의 수량, 학습율 및 샘플링율 등의 파라미터를 조정함으로써, 트레이닝하는 모델이 최적의 효과에 달할 수 있도록 한다.
단계(524)에서, 크로스 엔트로피 손실 함수가 제일 작음에 대응하여, 정렬 모델을 획득한다.
여기서, 크로스 엔트로피 손실 함수Loss(H)는 아래의 공식(23)과 같은 표현 형식을 구비할 수 있다.
Figure pat00220
(23)
확율적 그레이디언트 향상 의사 결정 트리 모델에 대한 트레이닝을 통해, 크로스 엔트로피 손실 함수Loss(H)가 최소치를 획득할 때에 대응되는 모델을 최종적으로 획득한 정렬 모델로 이용할 수 있다.
나아가 도6을 참조하면, 상기 각 첨부된 도면에 도시된 방법에 대한 구현으로서, 본 출원은 엔티티 추천 장치의 일 실시예를 제공하며, 해당 장치 실시예는 도2에 도시된 방법 실시예에 대응되며, 해당 장치는 구체적으로 각종의 전자 기기에 적용될 수 있다.
도6에 도시된 바와 같이, 본 실시예의 엔티티 추천 장치는, 획득 유닛(610), 정렬 유닛(620) 및 추천 유닛(630)를 포함할 수 있다.
획득 유닛(610)은, 엔티티에 대한 사용자의 검색 요청이 수신됨에 대응하여, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하도록 구성될 수 있다.
정렬 유닛(620)은, 후보 엔티티 집합을 사전에 트레이닝된 정렬 모델에 입력하여, 후보 엔티티 시퀀스를 획득하도록 구성될 수 있다.
추천 유닛(630)은, 후보 엔티티 시퀀스로부터 후보 엔티티를 선택하고, 사용자에게 선택된 후보 엔티티를 추천하도록 구성될 수 있다.
본 실시예에 있어서, 정렬 모델은, 후보 엔티티 집합 중의 각 후보 엔티티와 검색하고자 하는 엔티티의 관련도, 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 관심도 및 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 기대도 중의 적어도 하나를 기반으로 후보 엔티티 집합에 대한 정렬을 진행할 수 있다.
일부 선택 가능한 구현 방식에 있어서, 획득 유닛(610)은, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득할 때, 후보 엔티티와 검색하고자 하는 엔티티가 기설정된 지식 지도에서 관련 관계가 존재함에 대응하여, 후보 엔티티를 후보 엔티티 집합에 추가하도록 더 구성될 수 있다.
일부 선택 가능한 구현 방식에 있어서, 획득 유닛(610)은, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득할 경우, 후보 엔티티와 검색하고자 하는 엔티티가 검색 세션 기록에서 동시 발생하는 횟수가 기설정된 제1 역치를 초과함에 대응하여, 후보 엔티티를 후보 엔티티 집합에 추가하도록 더 구성될 수 있다.
일부 선택 가능한 구현 방식에 있어서, 획득 유닛(610)은, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득할 때, 기설정된 코퍼스에서 검색하고자 하는 엔티티와 동시 발생 관계를 구비하는 엔티티를 동시 발생 후보 엔티티로 이용하고, 검색하고자 하는 엔티티와의 관련도가 기설정된 제2 역치를 초과하는 동시 발생 후보 엔티티를 후보 엔티티 집합에 추가하도록 더 구성될 수 있다.
일부 선택 가능한 구현 방식에 있어서, 본 실시예의 엔티티 추천 장치는, 트레이닝 유닛(미도시)를 더 포함할 수 있다. 트레이닝 유닛은 정렬 모델에 대해 트레이닝을 진행하도록 더 구성될 수 있다.
일부의 선택 가능한 구현 방식에 있어서, 트레이닝 유닛은, 트레이닝 샘플 집합을 생성하도록 구성된 트레이닝 샘플 생성 모듈과, 생성된 트레이닝 샘플 집합 중의 각 트레이닝 샘플에 대해 해당 트레이닝 샘플의 특징 벡터를 생성하도록 구성된 특징 벡터 생성 모듈과, 트레이닝 샘플 집합과 생성된 특징 벡터를 사전에 구축된 그레이디언트 향상 의사 결정 트리 모델에 입력하고, 확율적 그레이디언트 하강 알고리즘을 기반으로 그레이디언트 향상 의사 결정 트리 모델에 대해 트레이닝을 진행하도록 구성된 반복 트레이닝 모듈과, 크로스 엔트로피 손실 함수가 제일 작음에 대응하여, 정렬 모델을 생성하도록 구성된 생성 유닛을 포함하며, 트레이닝 샘플 집합 중의 각 트레이닝 샘플은 삼원조와 클릭 동작 주석을 포함하고, 삼원조는 사용자 신원 표식, 제1 엔티티 및 제2 엔티티를 포함하고, 클릭 동작 주석은 제1 엔티티를 검색하여 획득한 검색 결과에서 사용자가 제2 엔티티에 대한 클릭 동작이 존재하는지 여부를 지시하기 위한 것이며, 특징 벡터는, 각 삼원조 중의 제1 엔티티와 제2 엔티티 사이의 관련도와, 각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 관심도와, 각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 기대도 중의 적어도 하나를 지시하기 위한 특징값을 포함한다.
일부 선택 가능한 구현 방식에 있어서, 각 삼원조 중의 제1 엔티티와 제2 엔티티 사이의 관련도를 지시하기 위한 특징값은, 삼원조 중의 제1 엔티티와 제2 엔티티가 기설정된 지식 지도에서의 관련도와, 삼원조 중의 제1 엔티티와 제2 엔티티가 검색 세션 기록에서의 동시 발생도와, 삼원조 중의 제1 엔티티와 제2 엔티티가 기설정된 코퍼스에서의 동시 발생도와, 삼원조 중의 제1 엔티티와 제2 엔티티의 주제 유사도 중의 적어도 하나를 포함한다.
일부 선택 가능한 구현 방식에 있어서, 각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 관심도를 지시하기 위한 특징값은, 해당 삼원조 중의 제2 엔티티의 조회수와, 기설정된 분류표에서 제2 엔티티가 해당되는 주제 유별의 조회수와, 삼원조 중의 제1 엔티티와 제2 엔티티의 어의 유사도 중의 적어도 하나를 포함한다.
일부 선택 가능한 구현 방식에 있어서, 각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 기대도를 지시하기 위한 특징값은, 삼원조 중의 사용자의 기록 클릭 데이터를 기반으로 확정한 사용자 및/또는 제1 엔티티가 제2 엔티티에 대한 관계 친숙도와, 삼원조 중의 제2 엔티티가 사용자 및/또는 제1 엔티티에 대한 의외도와, 삼원조에서 제1 엔티티의 클릭 다양성 중의 적어도 하나를 포함한다.
아래에 도7을 참조하면, 도7은 본 출원의 실시예의 서버를 구현하기에 적합한 컴퓨터 시스템(700)의 예시적 구성도를 나타낸다. 도7에 도시된 서버는 단지 일 예시일 뿐, 본 출원의 실시예의 기능 및 사용 범위에 대해 아무런 한정을 진행하여서는 아니된다.
도7에 도시된 바와 같이, 컴퓨터 시스템(700)은 중앙 처리 유닛(701; CPU)을 포함하되, CPU(701)는 읽기 전용 메모리 장치(702; ROM)에 저장된 프로그램 또는 저장부(706)로부터 랜덤 액세스 메모리 장치(703; RAM)에 로딩된 프로그램에 의해 각종의 적당한 동작과 처리를 실행할 수 있다. RAM(703)에는 시스템(700)을 작동하기에 필요한 각종 프로그램 및 데이터가 더 저장되어 있다. CPU(701), ROM(702) 및 RAM(703)은 버스(704)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(705)도 버스(704)에 연결된다.
I/O 인터페이스(705)에 연결되는 부재로서, 하드 드라이버 등을 포함하는 저장부(706)와, 예를 들어 LAN 카드, 모뎀 등의 네트워크 인터페이스 카드를 포함하는 통신부(707)가 포함된다. 통신부(707)는 인터넷과 같은 네트워크를 통해 통신처리를 실행한다. 구동부(708)도 수요에 따라 I/O 인터페이스(705)에 연결된다. 자기 디스크, 광 디스크, 광자기 디스크, 반도체 메모리 장치 등과 같은 착탈 가능한 매체(709)는 이러한 매체로부터 판독된 컴퓨터 프로그램을 수요에 따라 저장부(706)에 설치하도록 수요에 따라 구동부(708)에 설치된다.
특히는, 본 개시의 실시예에 의하면, 흐름도를 참조하여 설명한 상기 과정들은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본 개시의 실시예는 컴퓨터 프로그램 제품을 포함하고, 상기 컴퓨터 프로그램 제품은 기계 판독 가능한 매체에 탑재된 컴퓨터 프로그램을 포함하며, 해당 컴퓨터 프로그램은 흐름도에 도시된 방법을 실행하기 위한 컴퓨터 코드를 포함한다. 이러한 실시예에 있어서, 해당 컴퓨터 프로그램은 통신부(707)를 경유하여 네트워크로부터 다운로드되어 설치될 수 있고 및/또는 착탈 가능한 매체(709)로부터 설치될 수 있다. 해당 컴퓨터 프로그램이 중앙 처리 유닛(701; CPU)에 의해 실행될 경우, 본 출원의 방법에 한정된 상기 기능을 실행한다. 본 출원의 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능한 신호 매체, 컴퓨터 판독 가능한 저장 매체 또는 상기 양자의 임의의 조합일 수 있음을 설명하고자 한다. 컴퓨터 판독 가능한 저장 매체는 전기, 자기, 광학, 전자기, 적외선 또는 반도체의 시스템, 장치, 소자 또는 상기의 임의의 조합일 수 있으나, 이에 한정되지 않는다. 컴퓨터 판독 가능한 저장 매체의 더욱 구체적인 예시는 하나 또는 다수의 도선을 구비하는 전기적 연결된 휴대용 컴퓨터 자기 디스크, 하드 디스크, 랜덤 액세스 메모리 장치(RAM), 읽기 전용 메모리 장치(ROM), 소거 및 프로그램 가능한 읽기 전용 메모리 장치(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 읽기 전용 메모리 장치(CD-ROM), 광 메모리 장치, 자기 메모리 장치 또는 상기의 임의의 적합한 조합을 포함할 수 있으나, 이에 한정되지 않는다. 본 출원에 있어서, 컴퓨터 판독 가능한 저장 매체는 프로그램을 포함하거나 저장하는 임의의 유형 매체일 수 있으며, 해당 프로그램은 명령 실행 시스템, 장치 또는 소자에 의해 이용되거나 이와 결합하여 이용될 수 있다. 본 출원에 있어서, 컴퓨터 판독 가능한 신호 매체는 베이스 밴드에서 전파되거나 캐리어의 일부분으로 전파되는 데이터 신호를 포함할 수 있으며, 여기서, 데이터 신호에는 컴퓨터 판독 가능한 프래그램 코드가 탑재된다. 이렇게 전파되는 데이터 신호는 여러가지 형식을 이용할 수 있으며, 전자기 신호, 광 신호 또는 상기의 임의의 적합한 조합을 포함하나, 이에 한정되지 않는다. 컴퓨터 판독 가능한 신호 매체는 컴퓨터 판독 가능한 저장 매체를 제외한 임의의 컴퓨터 판독 가능한 매체일 수도 있으며, 해당 컴퓨터 판독 가능한 매체는 명령 실행 시스템, 장치 또는 소자에 의해 이용되거나 이와 결합하여 이용되는 프로그램을 발송, 전파 또는 전송할 수 있다. 컴퓨터 판독 가능한 매체에 포함된 프로그램 코드는 임의의 적당한 매체를 이용하여 전송될 수 있으며, 무선, 전선, 케이블, RF 등 또는 상기의 임의의 적합한 조합을 포함하나, 이에 한정되지 않는다.
하나 또는 다수의 프로그래밍 언어 또는 이들의 조합으로 본 출원의 조작을 실행하기 위한 컴퓨터 프로그램 코드를 프로그래밍할 수 있으며, 상기 프로그래밍 언어는 예컨대 Java, Smalltalk, C++와 같은 객체 지향의 프로그래밍 언어를 포함하고, 예컨대 "C" 언어 또는 유사한 프로그래밍 언어와 같은 전통적인 절차적 프로그래밍 언어를 더 포함한다. 프로그램 코드는 전체적으로 개인용 컴퓨터에서 실행되거나, 부분적으로 개인용 컴퓨터에서 실행되거나, 하나의 독립적인 소프트웨어 패키지로서 실행되거나, 부분적으로 개인용 컴퓨터에서 실행되고 부분적으로 원격 컴퓨터에서 실행되거나, 또는 전체적으로 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터에 관한 정경에 있어서, 원격 컴퓨터는 근거리 통신망 (LAN) 또는 광역 통신망 (WAN)을 포함하는 임의의 유형의 네트워크를 통해 개인용 컴퓨터에 연결될 수 있으며, 또는 외부 컴퓨터에 연결될 수 있으며, 예컨대 인터넷 서비스 제공 업체를 이용하여 인터넷을 통해 연결될 수 있다.
첨부된 도면 중의 흐름도 및 블록도는 본 출원의 각 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 체계구조, 기능 및 조작을 도시하였다. 이러한 방면에서, 흐름도 또는 블록도 중의 각 블록은 하나의 모듈, 프로그램 세그먼트 또는 코드의 일부분을 대표할 수 있고, 해당 모듈, 프로그램 세그먼트 또는 코드의 일부분은 규정된 로직 기능을 구현하기 위한 하나 또는 다수의 실행 가능한 명령을 포함한다. 일부 대체 구현에 있어서, 블록에 표기된 기능들은 첨부된 도면에 표기된 순서와 다른 순서로 발생할 수도 있음을 유의하여야 한다. 예를 들어, 순차적으로 표시된 두개의 블록은 실제적으로 거의 동시에 실행될 수 있도, 경우에 따라 반대된 순서에 따라 실행될 수도 있으며, 이는 관련된 기능에 따라 결정된다. 블록도 및/또는 흐름도 중의 각 블록 및 블록도 및/또는 흐름도 중의 블록들의 조합은 규정된 기능 또는 조작을 실행하는 하드웨어 기반의 전용 시스템으로 구현되거나, 전용 하드웨어와 컴퓨터 명령의 조합으로 구현될 수 있음을 유의하여야 한다.
본 출원의 실시예에 설명된 관련된 유닛은 소프트웨어의 방식으로 구현될 수 있거나, 또는 하드웨어의 방식으로 구현될 수도 있다. 설명된 유닛은 프로세서에 설치될 수도 있으며, 예를 들어, 프로세서가 획득 유닛, 정렬 유닛 및 추천 유닛을 포함한다고 설명될 수 있다. 여기서, 이러한 유닛들의 명칭은 일부의 경우에 해당 유닛 자체에 대한 한정을 구성하지 않으며, 예를 들어, 획득 유닛은 "엔티티에 대한 사용자의 검색 요청이 수신됨에 대응하여, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하는 유닛”으로 설명될 수도 있다.
다른 일 양태로서, 본 출원은 컴퓨터 판독 가능한 매체를 더 제공하며, 해당 컴퓨터 판독 가능한 매체는 상기 실시예에 설명된 장치에 포함되는 것일 수 있으며, 또는 해당 장치에 설치되지 않고 독립적으로 존재하는 것일 수도 있다. 상기 컴퓨터 판독 가능한 매체에는 하나 또는 다수의 프로그램이 탑재되고, 상기 하나 또는 다수의 프로그램이 해당 장치에 의해 실행될 경우, 해당 장치로 하여금, 엔티티에 대한 사용자의 검색 요청이 수신됨에 대응하여, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하고, 후보 엔티티 집합을 사전에 트레이닝된 정렬 모델에 입력하여, 후보 엔티티 시퀀스를 획득하고, 후보 엔티티 시퀀스로부터 후보 엔티티를 선택하고, 사용자에게 선택된 후보 엔티티를 추천하도록 하며, 정렬 모델은, 후보 엔티티 집합 중의 각 후보 엔티티와 검색하고자 하는 엔티티의 관련도와, 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 관심도와, 후보 엔티티 집합 중의 각 후보 엔티티에 대한 사용자의 기대도 중의 적어도 하나를 기반으로 후보 엔티티 집합에 대해 정렬을 진행한다.
이상의 설명은 단지 본 출원의 비교적 바람직한 실시예 및 운용한 기술적 원리에 대한 설명이다. 본 출원에 관련된 발명의 범위가 상기 기술적 특징들의 특정 조합으로 이루어진 기술적 방안들에 한정되는 것이 아니라 본 발명의 주지를 벗어나지 않고서 상기 기술적 특징들 또는 그들의 균등한 특징들의 임의의 조합으로 이루어진 기타 기술적 방안들도 포함되어야 함을 해당 기술분야의 당업자는 이해하여야 한다. 예를 들어, 상기 특징들과 본 출원에 개시되어 있으나 이에 한정되지 않는 유사한 기능을 구비한 기술적 특징을 서로 대체하여 이루어진 기술적 방안도 포함된다.

Claims (18)

  1. 엔티티에 대한 사용자의 검색 요청이 수신됨에 대응하여, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하는 단계와,
    상기 후보 엔티티 집합을 사전에 트레이닝된 정렬 모델에 입력하여, 후보 엔티티 시퀀스를 획득하는 단계와,
    상기 후보 엔티티 시퀀스로부터 후보 엔티티를 선택하고, 선택된 후보 엔티티를 사용자에게 추천하는 단계;를 포함하되,
    상기 정렬 모델은,
    상기 후보 엔티티 집합 중의 각 후보 엔티티와 상기 검색하고자 하는 엔티티의 관련도와,
    상기 후보 엔티티 집합 중의 각 후보 엔티티에 대한 상기 사용자의 관심도와,
    후보 엔티티 집합 중의 각 후보 엔티티에 대한 상기 사용자의 기대도 중의 적어도 하나를 기반으로 상기 후보 엔티티 집합에 대해 정렬을 진행하는 것을 특징으로 하는 엔티티 추천 방법.
  2. 제1항에 있어서,
    검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하는 단계는,
    후보 엔티티와 검색하고자 하는 엔티티가 기설정된 지식 지도에서 관련 관계가 존재함에 대응하여, 상기 후보 엔티티를 상기 후보 엔티티 집합에 추가하는 단계를 더 포함하는 것을 특징으로 하는 엔티티 추천 방법.
  3. 제1항 또는 제2항에 있어서,
    검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하는 단계는,
    후보 엔티티와 검색하고자 하는 엔티티가 검색 세션 기록에서 동시 발생하는 횟수가 기설정된 제1 역치를 초과함에 대응하여, 상기 후보 엔티티를 상기 후보 엔티티 집합에 추가하는 단계를 더 포함하는 것을 특징으로 하는 엔티티 추천 방법.
  4. 제3항에 있어서,
    검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하는 단계는,
    기설정된 코퍼스에서 검색하고자 하는 엔티티와 동시 발생 관계를 구비하는 엔티티를 동시 발생 후보 엔티티로 이용하는 단계와,
    검색하고자 하는 엔티티와의 관련도가 기설정된 제2 역치를 초과하는 동시 발생 후보 엔티티를 상기 후보 엔티티 집합에 추가하는 단계를 더 포함하는 것을 특징으로 하는 엔티티 추천 방법.
  5. 제1항에 있어서,
    상기 정렬 모델은,
    트레이닝 샘플 집합을 생성하는 단계와,
    생성된 트레이닝 샘플 집합 중의 각 트레이닝 샘플에 대해 해당 트레이닝 샘플의 특징 벡터를 생성하는 단계와,
    상기 트레이닝 샘플 집합과 생성된 특징 벡터를 사전에 구축된 그레이디언트 향상 의사 결정 트리 모델에 입력하고, 확율적 그레이디언트 하강 알고리즘을 기반으로 상기 그레이디언트 향상 의사 결정 트리 모델에 대해 트레이닝을 진행하는 단계와,
    크로스 엔트로피 손실 함수가 제일 작음에 대응하여, 상기 정렬 모델을 생성하는 단계를 통해 트레이닝되되,
    상기 트레이닝 샘플 집합 중의 각 트레이닝 샘플은 삼원조와 클릭 동작 주석을 포함하고, 상기 삼원조는 사용자 신원 표식, 제1 엔티티 및 제2 엔티티를 포함하고, 상기 클릭 동작 주석은 사용자가 상기 제1 엔티티를 검색하여 획득한 검색 결과에서 상기 제2 엔티티에 대한 클릭 동작이 존재하는지 여부를 지시하기 위한 것이며,
    상기 특징 벡터는,
    각 삼원조 중의 제1 엔티티와 제2 엔티티 사이의 관련도와,
    각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 관심도와,
    각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 기대도 중의 적어도 하나를 지시하기 위한 특징값을 포함하는 것을 특징으로 하는 엔티티 추천 방법.
  6. 제5항에 있어서,
    각 삼원조 중의 제1 엔티티와 제2 엔티티 사이의 관련도를 지시하기 위한 상기 특징값은,
    상기 삼원조 중의 제1 엔티티와 제2 엔티티가 기설정된 지식 지도에서의 관련도와,
    상기 삼원조 중의 제1 엔티티와 제2 엔티티가 검색 세션 기록에서의 동시 발생도와,
    상기 삼원조 중의 제1 엔티티와 제2 엔티티가 기설정된 코퍼스에서의 동시 발생도와,
    상기 삼원조 중의 제1 엔티티와 제2 엔티티의 주제 유사도 중의 적어도 하나를 포함하는 것을 특징으로 하는 엔티티 추천 방법.
  7. 제5항에 있어서,
    각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 관심도를 지시하기 위한 상기 특징값은,
    해당 삼원조에서 제2 엔티티의 조회수와,
    기설정된 분류표에서 제2 엔티티가 해당되는 주제 유별의 조회수와,
    상기 삼원조 중의 제1 엔티티와 제2 엔티티의 어의 유사도 중의 적어도 하나를 포함하는 것을 특징으로 하는 엔티티 추천 방법.
  8. 제5항에 있어서,
    각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 기대도를 지시하기 위한 상기 특징값은,
    상기 삼원조 중의 사용자의 기록 클릭 데이터를 기반으로 확정한 사용자 및/또는 제1 엔티티가 제2 엔티티에 대한 관계 친숙도와,
    상기 삼원조 중의 제2 엔티티가 사용자 및/또는 제1 엔티티에 대한 의외도와,
    상기 삼원조에서 제1 엔티티의 클릭 다양성 중의 적어도 하나를 포함하는 것을 특징으로 하는 엔티티 추천 방법.
  9. 엔티티에 대한 사용자의 검색 요청이 수신됨에 대응하여, 검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득하도록 구성된 획득 유닛과,
    상기 후보 엔티티 집합을 사전에 트레이닝된 정렬 모델에 입력하여, 후보 엔티티 시퀀스를 획득하도록 구성된 정렬 유닛과,
    상기 후보 엔티티 시퀀스로부터 후보 엔티티를 선택하고 사용자에게 선택된 후보 엔티티를 추천하도록 구성된 추천 유닛을 포함하되,
    상기 정렬 모델은,
    상기 후보 엔티티 집합 중의 각 후보 엔티티와 상기 검색하고자 하는 엔티티의 관련도와,
    상기 후보 엔티티 집합 중의 각 후보 엔티티에 대한 상기 사용자의 관심도와,
    후보 엔티티 집합 중의 각 후보 엔티티에 대한 상기 사용자의 기대도 중의 적어도 하나를 기반으로 상기 후보 엔티티 집합에 대해 정렬을 진행하는 것을 특징으로 하는 엔티티 추천 장치.
  10. 제9항에 있어서,
    상기 획득 유닛은,
    검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득할 때,
    후보 엔티티와 검색하고자 하는 엔티티가 동일한 기설정된 지식 지도에 존재함에 대응하여, 상기 후보 엔티티를 상기 후보 엔티티 집합에 추가하도록 더 구성되는 것을 특징으로 하는 엔티티 추천 장치.
  11. 제9항 또는 제10항에 있어서,
    상기 획득 유닛은,
    검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득할 때,
    후보 엔티티와 검색하고자 하는 엔티티가 검색 세션 기록에서 동시 발생하는 횟수가 기설정된 제1 역치를 초과함에 대응하여, 상기 후보 엔티티를 상기 후보 엔티티 집합에 추가하도록 더 구성되는 것을 특징으로 하는 엔티티 추천 장치.
  12. 제11항에 있어서,
    상기 획득 유닛은,
    검색하고자 하는 엔티티에 관련된 후보 엔티티 집합을 획득할 때,
    기설정된 코퍼스에서 검색하고자 하는 엔티티와 동시 발생 관계를 구비하는 엔티티를 동시 발생 후보 엔티티로 이용하고,
    검색하고자 하는 엔티티와의 관련도가 기설정된 제2 역치를 초과하는 동시 발생 후보 엔티티를 상기 후보 엔티티 집합에 추가하도록 더 구성되는 것을 특징으로 하는 엔티티 추천 장치.
  13. 제9항에 있어서,
    상기 정렬 모델에 대해 트레이닝을 진행하도록 구성된 트레이닝 유닛을 더 포함하되,
    상기 트레이닝 유닛은,
    트레이닝 샘플 집합을 생성하도록 구성된 트레이닝 샘플 생성 모듈과,
    생성된 트레이닝 샘플 집합 중의 각 트레이닝 샘플에 대해 해당 트레이닝 샘플의 특징 벡터를 생성하도록 구성된 특징 벡터 생성 모듈과,
    상기 트레이닝 샘플 집합과 생성된 특징 벡터를 사전에 구축된 그레이디언트 향상 의사 결정 트리 모델에 입력하고, 확율적 그레이디언트 하강 알고리즘을 기반으로 상기 그레이디언트 향상 의사 결정 트리 모델에 대해 트레이닝을 진행하도록 구성된 반복 트레이닝 모듈과,
    크로스 엔트로피 손실 함수가 제일 작음에 대응하여, 상기 정렬 모델을 생성하도록 구성된 생성 유닛을 포함하며,
    상기 트레이닝 샘플 집합 중의 각 트레이닝 샘플은 삼원조와 클릭 동작 주석을 포함하고, 상기 삼원조는 사용자 신원 표식, 제1 엔티티 및 제2 엔티티를 포함하고, 상기 클릭 동작 주석은 사용자가 상기 제1 엔티티를 검색하여 획득한 검색 결과에서 상기 제2 엔티티에 대한 클릭 동작이 존재하는지 여부를 지시하기 위한 것이며,
    상기 특징 벡터는,
    각 삼원조 중의 제1 엔티티와 제2 엔티티 사이의 관련도와,
    각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 관심도와,
    각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 기대도 중의 적어도 하나를 지시하기 위한 특징값을 포함하는 것을 특징으로 하는 엔티티 추천 장치.
  14. 제13항에 있어서,
    각 삼원조 중의 제1 엔티티와 제2 엔티티 사이의 관련도를 지시하기 위한 상기 특징값은,
    상기 삼원조 중의 제1 엔티티와 제2 엔티티가 기설정된 지식 지도에서의 관련도와,
    상기 삼원조 중의 제1 엔티티와 제2 엔티티가 검색 세션 기록에서의 동시 발생도와,
    상기 삼원조 중의 제1 엔티티와 제2 엔티티가 기설정된 코퍼스에서의 동시 발생도와,
    상기 삼원조 중의 제1 엔티티와 제2 엔티티의 주제 유사도 중의 적어도 하나를 포함하는 것을 특징으로 하는 엔티티 추천 장치.
  15. 제13항에 있어서,
    각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 관심도를 지시하기 위한 상기 특징값은,
    해당 삼원조에서 제2 엔티티의 조회수와,
    기설정된 분류표에서 제2 엔티티가 해당되는 주제 유별의 조회수와,
    상기 삼원조 중의 제1 엔티티와 제2 엔티티의 어의 유사도 중의 적어도 하나를 포함하는 것을 특징으로 하는 엔티티 추천 장치.
  16. 제13항에 있어서,
    각 삼원조 중의 사용자가 해당 삼원조 중의 제2 엔티티에 대한 기대도를 지시하기 위한 상기 특징값은,
    상기 삼원조 중의 사용자의 기록 클릭 데이터를 기반으로 확정한 사용자 및/또는 제1 엔티티가 제2 엔티티에 대한 관계 친숙도와,
    상기 삼원조 중의 제2 엔티티가 사용자 및/또는 제1 엔티티에 대한 의외도와,
    상기 삼원조에서 제1 엔티티의 클릭 다양성 중의 적어도 하나를 포함하는 것을 특징으로 하는 엔티티 추천 장치.
  17. 하나 또는 다수의 프로세서와,
    하나 또는 다수의 프로그램을 저장하기 위한 저장 장치를 포함하되,
    상기 하나 또는 다수의 프로그램이 상기 하나 또는 다수의 프로세서에 의해 실행될 경우, 상기 하나 또는 다수의 프로세서로 하여금 제1항 내지 제8항 중의 임의의 한 항의 방법을 실현하도록 하는 기기.
  18. 컴퓨터 프로그램이 저장되되,
    상기 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제8항 중의 임의의 한 항의 방법을 실현하도록 하는 컴퓨터 판독 가능한 저장 매체.
KR1020180079351A 2018-04-10 2018-07-09 엔티티 추천 방법 및 장치 KR102123153B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810317390.3 2018-04-10
CN201810317390.3A CN108345702A (zh) 2018-04-10 2018-04-10 实体推荐方法和装置

Publications (2)

Publication Number Publication Date
KR20190118477A true KR20190118477A (ko) 2019-10-18
KR102123153B1 KR102123153B1 (ko) 2020-06-15

Family

ID=62957403

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180079351A KR102123153B1 (ko) 2018-04-10 2018-07-09 엔티티 추천 방법 및 장치

Country Status (5)

Country Link
US (1) US20190311275A1 (ko)
EP (1) EP3554040A1 (ko)
JP (1) JP6643554B2 (ko)
KR (1) KR102123153B1 (ko)
CN (1) CN108345702A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210141393A (ko) * 2020-05-15 2021-11-23 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 지리 위치점 정렬 방법, 정렬 모델 트레이닝 방법 및 대응하는 장치

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165350A (zh) * 2018-08-23 2019-01-08 成都品果科技有限公司 一种基于深度知识感知的信息推荐方法和系统
CN109241120A (zh) * 2018-08-28 2019-01-18 国信优易数据有限公司 一种用户推荐方法及装置
CN109508394A (zh) * 2018-10-18 2019-03-22 青岛聚看云科技有限公司 一种多媒体文件搜索排序模型的训练方法及装置
CN109522396B (zh) * 2018-10-22 2020-12-25 中国船舶工业综合技术经济研究院 一种面向国防科技领域的知识处理方法及系统
CN109582797A (zh) * 2018-12-13 2019-04-05 泰康保险集团股份有限公司 获取疾病分类推荐的方法、装置、介质及电子设备
CN109637527B (zh) * 2018-12-13 2021-08-31 思必驰科技股份有限公司 对话语句的语义解析方法及系统
CN109408731B (zh) * 2018-12-27 2021-03-16 网易(杭州)网络有限公司 一种多目标推荐方法、多目标推荐模型生成方法以及装置
CN109800361A (zh) * 2019-02-11 2019-05-24 北京百度网讯科技有限公司 一种兴趣点名称的挖掘方法、装置、电子设备及存储介质
CN109918555B (zh) * 2019-02-20 2021-10-15 百度在线网络技术(北京)有限公司 用于提供搜索建议的方法、装置、设备和介质
CN109902149B (zh) * 2019-02-21 2021-08-13 北京百度网讯科技有限公司 查询处理方法和装置、计算机可读介质
CN109857873A (zh) * 2019-02-21 2019-06-07 北京百度网讯科技有限公司 推荐实体的方法和装置、电子设备、计算机可读介质
CN110111905B (zh) * 2019-04-24 2021-09-03 云知声智能科技股份有限公司 一种医疗知识图谱的构建系统和构建方法
CN110110046B (zh) * 2019-04-30 2021-10-01 北京搜狗科技发展有限公司 同名实体推荐方法及装置
CN110297967B (zh) * 2019-05-14 2022-04-12 北京百度网讯科技有限公司 兴趣点确定方法、装置、设备及计算机可读存储介质
CN110502621B (zh) * 2019-07-03 2023-06-13 平安科技(深圳)有限公司 问答方法、问答装置、计算机设备及存储介质
CN110717099B (zh) * 2019-09-25 2022-04-22 优地网络有限公司 一种推荐影片的方法及终端
CN110909153B (zh) * 2019-10-22 2022-09-09 中国船舶重工集团公司第七0九研究所 一种基于语义关注度模型的知识图谱可视化方法
CN112784142A (zh) * 2019-10-24 2021-05-11 北京搜狗科技发展有限公司 一种信息推荐方法及装置
CN110968789B (zh) * 2019-12-04 2023-05-23 掌阅科技股份有限公司 电子书推送方法、电子设备及计算机存储介质
CN111177551B (zh) * 2019-12-27 2021-04-16 百度在线网络技术(北京)有限公司 确定搜索结果的方法、装置、设备和计算机存储介质
CN111198971B (zh) * 2020-01-15 2023-06-06 北京百度网讯科技有限公司 搜索方法、搜索装置和电子设备
CN111341308B (zh) * 2020-02-12 2023-07-21 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111353106B (zh) * 2020-02-26 2021-05-04 贝壳找房(北京)科技有限公司 推荐方法和装置、电子设备和存储介质
CN111538846A (zh) * 2020-04-16 2020-08-14 武汉大学 基于混合协同过滤的第三方库推荐方法
CN111523007B (zh) * 2020-04-27 2023-12-26 北京百度网讯科技有限公司 用户感兴趣信息确定方法、装置、设备以及存储介质
CN111797308B (zh) * 2020-06-16 2023-11-28 北京达佳互联信息技术有限公司 一种资源推荐方法、装置、电子设备及介质
CN111538894B (zh) * 2020-06-19 2020-10-23 腾讯科技(深圳)有限公司 查询反馈方法、装置、计算机设备及存储介质
US11481460B2 (en) * 2020-07-01 2022-10-25 International Business Machines Corporation Selecting items of interest
CN112541076B (zh) * 2020-11-09 2024-03-29 北京百度网讯科技有限公司 目标领域的扩充语料生成方法、装置和电子设备
CN113360758A (zh) * 2021-06-08 2021-09-07 苍穹数码技术股份有限公司 信息推荐方法、装置、电子设备和计算机存储介质
CN113204643B (zh) * 2021-06-23 2021-11-02 北京明略软件系统有限公司 一种实体对齐方法、装置、设备及介质
CN113360773B (zh) * 2021-07-07 2023-07-04 脸萌有限公司 推荐方法、装置、存储介质及电子设备
CN113407854A (zh) * 2021-07-19 2021-09-17 广东艾檬电子科技有限公司 一种应用推荐方法、装置、设备及计算机可读存储介质
CN113536137A (zh) * 2021-08-13 2021-10-22 北京字节跳动网络技术有限公司 一种信息展示方法、装置以及计算机存储介质
CN114329234A (zh) * 2022-03-04 2022-04-12 深圳佑驾创新科技有限公司 基于知识图谱的协同过滤推荐方法及系统
CN114817737B (zh) * 2022-05-13 2024-01-02 北京世纪超星信息技术发展有限责任公司 一种基于知识图谱的文物热点推送方法及系统
US11853906B1 (en) 2022-06-27 2023-12-26 Towers Watson Software Limited Methods for development of a machine learning system through layered gradient boosting
CN114861071B (zh) * 2022-07-01 2022-10-18 北京百度网讯科技有限公司 对象推荐方法和装置
CN116089624B (zh) * 2022-11-17 2024-02-27 昆仑数智科技有限责任公司 基于知识图谱的数据推荐方法、装置和系统
CN115795051B (zh) * 2022-12-02 2023-05-23 中科雨辰科技有限公司 一种基于实体关系获取链接实体的数据处理系统
CN115905472A (zh) * 2022-12-07 2023-04-04 广州市南方人力资源评价中心有限公司 商机业务处理方法、装置、服务器及计算机可读存储介质
CN115952350A (zh) * 2022-12-09 2023-04-11 贝壳找房(北京)科技有限公司 信息的查询方法、电子设备、存储介质及计算机程序产品
CN115860870A (zh) * 2022-12-16 2023-03-28 深圳市云积分科技有限公司 一种商品推荐方法、系统、装置及可读介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127452A (ja) * 2004-03-31 2006-05-18 Denso It Laboratory Inc 情報提示装置および情報提示方法
JP2013093015A (ja) * 2011-10-06 2013-05-16 Nippon Telegr & Teleph Corp <Ntt> 情報推薦方法、装置及びプログラム
JP2016532962A (ja) * 2014-07-16 2016-10-20 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 推奨結果の展示方法及び装置
WO2017203672A1 (ja) * 2016-05-26 2017-11-30 富士通株式会社 アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7739270B2 (en) * 2004-12-07 2010-06-15 Microsoft Corporation Entity-specific tuned searching
JP4958476B2 (ja) * 2006-05-24 2012-06-20 株式会社日立製作所 検索装置
JP5116593B2 (ja) * 2008-07-25 2013-01-09 インターナショナル・ビジネス・マシーンズ・コーポレーション 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム
JP5462510B2 (ja) * 2009-03-24 2014-04-02 株式会社野村総合研究所 商品検索サーバ、商品検索方法、プログラム、および記録媒体
US9027134B2 (en) * 2013-03-15 2015-05-05 Zerofox, Inc. Social threat scoring
US9183499B1 (en) * 2013-04-19 2015-11-10 Google Inc. Evaluating quality based on neighbor features
US9619571B2 (en) * 2013-12-02 2017-04-11 Qbase, LLC Method for searching related entities through entity co-occurrence
CN103942279B (zh) * 2014-04-01 2018-07-10 百度(中国)有限公司 搜索结果的展现方法和装置
GB201418020D0 (en) * 2014-10-10 2014-11-26 Workdigital Ltd A system for, and method of, ranking search results obtained searching a body of data records
US11042590B2 (en) * 2015-10-05 2021-06-22 Verizon Media Inc. Methods, systems and techniques for personalized search query suggestions
CN105335519B (zh) * 2015-11-18 2021-08-17 百度在线网络技术(北京)有限公司 模型生成方法及装置、推荐方法及装置
US10762436B2 (en) * 2015-12-21 2020-09-01 Facebook, Inc. Systems and methods for recommending pages
CN107369058A (zh) * 2016-05-13 2017-11-21 华为技术有限公司 一种关联推荐方法及服务器
CN108509479B (zh) * 2017-12-13 2022-02-11 深圳市腾讯计算机系统有限公司 实体推荐方法及装置、终端及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127452A (ja) * 2004-03-31 2006-05-18 Denso It Laboratory Inc 情報提示装置および情報提示方法
JP2013093015A (ja) * 2011-10-06 2013-05-16 Nippon Telegr & Teleph Corp <Ntt> 情報推薦方法、装置及びプログラム
JP2016532962A (ja) * 2014-07-16 2016-10-20 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 推奨結果の展示方法及び装置
WO2017203672A1 (ja) * 2016-05-26 2017-11-30 富士通株式会社 アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210141393A (ko) * 2020-05-15 2021-11-23 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 지리 위치점 정렬 방법, 정렬 모델 트레이닝 방법 및 대응하는 장치

Also Published As

Publication number Publication date
KR102123153B1 (ko) 2020-06-15
JP6643554B2 (ja) 2020-02-12
JP2019185716A (ja) 2019-10-24
US20190311275A1 (en) 2019-10-10
CN108345702A (zh) 2018-07-31
EP3554040A1 (en) 2019-10-16

Similar Documents

Publication Publication Date Title
KR102123153B1 (ko) 엔티티 추천 방법 및 장치
Qi et al. Finding all you need: web APIs recommendation in web of things through keywords search
CN107491534B (zh) 信息处理方法和装置
US10102254B2 (en) Confidence ranking of answers based on temporal semantics
CN108846126B (zh) 关联问题聚合模型的生成、问答式聚合方法、装置及设备
US20170330084A1 (en) Clarification of Submitted Questions in a Question and Answer System
AU2017200094A1 (en) Systems of computerized agents and user-directed semantic networking
US9760828B2 (en) Utilizing temporal indicators to weight semantic values
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐系统
Zhang et al. Recommending apis for api related questions in stack overflow
CN111143684A (zh) 基于人工智能的泛化模型的训练方法及装置
US11874798B2 (en) Smart dataset collection system
CN109582868A (zh) 基于词向量加权、支持向量回归和用户点击偏好的搜索推荐方法
CN114239730A (zh) 一种基于近邻排序关系的跨模态检索方法
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
Fu et al. Enhancing Semantic Search of Crowdsourcing IT Services using Knowledge Graph.
Xu Web mining techniques for recommendation and personalization
Zhang et al. Research on keyword extraction and sentiment orientation analysis of educational texts
CN110262906B (zh) 接口标签推荐方法、装置、存储介质和电子设备
Tang et al. Casegnn: Graph neural networks for legal case retrieval with text-attributed graphs
Mansur et al. Text Analytics and Machine Learning (TML) CS5604 Fall 2019
CN113656574B (zh) 用于搜索结果排序的方法、计算设备和存储介质
CN110728148B (zh) 实体关系抽取方法和装置
Chen et al. Expert2Vec: distributed expert representation learning in question answering community
Liu et al. Similar question retrieval with incorporation of multi-dimensional quality analysis for community question answering

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant