KR20210120977A - 제한적 볼츠만 머신 구동 기반의 인터랙티브 맞춤형 검색 방법 - Google Patents

제한적 볼츠만 머신 구동 기반의 인터랙티브 맞춤형 검색 방법 Download PDF

Info

Publication number
KR20210120977A
KR20210120977A KR1020217011962A KR20217011962A KR20210120977A KR 20210120977 A KR20210120977 A KR 20210120977A KR 1020217011962 A KR1020217011962 A KR 1020217011962A KR 20217011962 A KR20217011962 A KR 20217011962A KR 20210120977 A KR20210120977 A KR 20210120977A
Authority
KR
South Korea
Prior art keywords
user
item
items
visible
dog
Prior art date
Application number
KR1020217011962A
Other languages
English (en)
Other versions
KR102600697B1 (ko
Inventor
린 바오
위보 티엔
전카이 장
민 왕
궈쥔 마
시아오치아오 덩
Original Assignee
지앙수 유니버시티 오브 사이언스 앤드 테크놀로지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지앙수 유니버시티 오브 사이언스 앤드 테크놀로지 filed Critical 지앙수 유니버시티 오브 사이언스 앤드 테크놀로지
Publication of KR20210120977A publication Critical patent/KR20210120977A/ko
Application granted granted Critical
Publication of KR102600697B1 publication Critical patent/KR102600697B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/58Random or pseudo-random number generators
    • G06F7/588Random number generators, i.e. based on natural stochastic processes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 제한적 볼츠만 머신 구동 기반의 인터랙티브 맞춤형 검색 방법을 개시한 것으로, (1) 사용자
Figure pct00358
의 히스토리 평가 데이터를 획득하고, 상기 히스토리 평가 데이터에는 사용자
Figure pct00359
가 이미 평가한 모든 항목과 각 항목에 대한 평점과 평가 텍스트가 포함되며, 평가 텍스트에 대해 벡터화를 수행하고; (2) 평점이 소정 평점 임계값보다 큰 항목을 우위 항목 세트
Figure pct00360
으로 구성하고; (3) RBM 기반의 사용자 선호도 특성 추출 모델을 구축하며; (4) 사용자 선호도 확률 모델을 구축하며; (5) N개 신규 항목을 생성하고 각 항목의 카테고리 태그를 설정하고; (6) 검색 공간에서 각각 N개 신규 항목 카테고리 태그 벡터
Figure pct00361
와 유사도가 가장 높은 N개 항목을 선택하고, 추천할 항목 세트
Figure pct00362
를 구성하고; (7)
Figure pct00363
중 각 항목의 적응값을 계산하고; (8)
Figure pct00364
중 적응값이 최대인 앞
Figure pct00365
개 항목을 검색 결과로 선택한다. 해당 방법은 사용자가 맞춤형 검색을 수행하는 방향을 효과적으로 인도할 수 있고, 사용자가 자신이 만족스러운 결과를 검색하도록 최대한 지원함으로써 맞춤형 검색 알고리즘의 종합 성능을 향상시킬 수 있다.

Description

제한적 볼츠만 머신 구동 기반의 인터랙티브 맞춤형 검색 방법
본 발명은 데이터 마이닝(data mining) 기술 분야에 속하며, 더욱 상세하게는 인터랙티브 맞춤형 검색 방법에 관한 것이다.
빅데이터, 클라우드 컴퓨팅 등 기술이 급성장함에 따라, 정보도 폭발적으로 증가하였다. 다양한 인터넷 응용 프로그램에 대량의 사용자 생성 콘텐츠가 수집되면서 사용자에게 새로운 정보가 제공되기도 하나, 동시에 사용자가 유효 정보를 선별하고 최종적으로 의사 결정을 내리는 난이도도 증가하였다. 맞춤형 검색은 사용자와 정보를 연결하는 가교 역할을 수행하여, 사용자가 신속하게 검색하도록 안내하고 사용자가 방대한 정보 속에서 자신이 흥미를 가진 콘텐츠를 빠르게 선별하도록 보조함으로써, 정보 과부하를 효과적으로 완화시킬 수 있다.
사용자 생성 콘텐츠에는 사용자 행동 데이터, 사용자 정보, 프로젝트 정보 등 사용자가 제공하는 수많은 정보가 포함된다. 이러한 멀티-소스 이종 데이터(Multi-Source Heterogeneous Data)는 상이한 관점에서 사용자의 관심과 기호가 반영되어 있으므로, 이러한 정보를 충분히 이용하면 맞춤형 검색의 품질을 효과적으로 개선할 수 있다. 사용자 생성 콘텐츠가 가진 데이터 희소성, 불완전성, 동적 성질 등 복잡한 특성으로 인해, 멀티-소스 이종 사용자 생성 콘텐츠 데이터를 융합하여 처리하는 맞춤형 검색 문제는 난이도가 더욱 높다. 인터랙티브 진화 연산(interactive evolutionary computation)은 최적화 문제에 대한 사용자의 주관적 평가와 의사결정을 효과적으로 이용하여 인류 지능 평가 정보와 종래의 진화 최적화 알고리즘을 결합한, 멀티-소스 이종 데이터를 융합하여 맞춤형 검색 문제를 해결하는 효과적인 방법이다.
출원 번호 201410202346.X의 중국 특허는 심리학 도서 맞춤형 신속 검색을 위한 인터랙티브 진화 최적화 방법을 공개하였다. 이는 사용자가 신속하게 만족스러운 도서를 찾도록 안내한다. 상기 방법은 사용자의 검색 기록과 군집 공통 검색 정보를 이용하여 사용자 선호도 모델을 구축하나, 사용자 히스토리 데이터에 내포된 선호도 특성을 충분히 발굴하지 않는다. 출원 번호 201910151051.7의 중국 특허는 맞춤형 상품 추천 방법을 공개하였다. 상기 방법은 사용자의 분류에 따라 상품을 추천하므로, 상이한 유형의 사용자 간의 개별성 차이만 구현할 수 있으며, 구체적인 사용자를 위한 맞춤화는 구현할 수 없다. 출원 번호 201910431441.X의 중국 특허는 상호 데이터 클러스터링 기반의 맞춤형 추천 방법 및 시스템을 공개하였다. 여기에서 맞춤형 추천 방법은 사용자 클러스터링을 통해 유사 사용자의 관심 지점을 획득함으로써 사용자에 대한 맞춤형 추천을 수행하지만, 마찬가지로 동일 유형 사용자의 선호도를 구현한다.
본 발명의 목적은 상기 종래 기술의 문제를 보완하기 위해 제한적 볼츠만 머신(Boltzmann machine) 구동 기반의 인터랙티브 맞춤형 검색 방법을 제공하는 데에 있다. 상기 방법은 현재 사용자가 맞춤형 검색을 수행하도록 안내한다.
본 발명은 하기와 같은 기술적 해결책을 채택한다.
제한적 볼츠만 머신 구동 기반의 인터랙티브 맞춤형 검색 방법은 하기 단계를 포함한다.
(1) 사용자
Figure pct00001
의 히스토리 평가 데이터를 획득한다. 상기 히스토리 평가 데이터에는 사용자
Figure pct00002
가 이미 평가한 모든 항목, 각 항목에 대한 평점과 평가 텍스트가 포함되며, 평가 텍스트에 대해 벡터화를 수행한다.
(2) 평점이 소정 평점 임계값보다 큰 항목을 우위 항목 세트
Figure pct00003
으로 구성하고, 샘플 세트
Figure pct00004
를 구성한다. 여기에서
Figure pct00005
이고,
Figure pct00006
는 항목
Figure pct00007
의 카테고리 태그 벡터이고, 길이는 카테고리 총 수
Figure pct00008
이고,
Figure pct00009
는 사용자
Figure pct00010
의 항목
Figure pct00011
에 대한 평가 텍스트 벡터화 표시이고, 길이는
Figure pct00012
이고;
Figure pct00013
,
Figure pct00014
이고,
Figure pct00015
Figure pct00016
중의 항목 수를 나타낸다.
(3) RBM 기반의 사용자 선호도 특성 추출 모델을 구축하며, 상기 사용자 선호도 특성 추출 모델은 우위 항목 세트
Figure pct00017
에 따라 사용자의 선호도 특성을 추출한다.
(4) 사용자 선호도 확률 모델을 구축하며, 상기 사용자 선호도 확률 모델은 사용자의 각 카테고리 항목에 대한 선호도 확률을 나타내는 데 사용된다.
(5) 군체 크기 N을 설정하고, 분포 예측 알고리즘을 채택하여 N개 신규 항목을 생성하고 각 항목의 카테고리 태그를 설정한다.
(6) 검색 공간에서 각각 N개 신규 항목 카테고리 태그 벡터
Figure pct00018
와 유사도가 가장 높은 N개 항목을 선택하고, 추천할 항목 세트
Figure pct00019
를 구성한다.
(7) 추천할 항목 세트
Figure pct00020
중 각 항목의 적응값을 계산한다.
(7.1) 사용자
Figure pct00021
Figure pct00022
중 각 항목에 대한 맞춤형 선호도 평점
Figure pct00023
를 예측한다.
Figure pct00024
여기에서,
Figure pct00025
는 현재 사용자
Figure pct00026
와의 유사도가 임계값보다 큰 사용자
Figure pct00027
의 항목
Figure pct00028
에 대한 평가 에너지 함수이다.
Figure pct00029
Figure pct00030
은 각각 추천할 항목 세트
Figure pct00031
의 모든 항목 중 획득한 에너지 함수의 최댓값과 최솟값이다.
(7.2)
Figure pct00032
중 각 항목의 적응값을 계산한다.
Figure pct00033
여기에서
Figure pct00034
는 정규화 함수이다.
(8)
Figure pct00035
중 적응값이 최대인 앞
Figure pct00036
개 항목을 검색 결과로 선택한다.
본 발명의 유익한 효과는 다음과 같다. 본 발명에 개시된 인터랙티브 맞춤형 검색 방법은 사용자 생성 콘텐츠의 멀티-소스 이종 데이터를 충분히 이용하며, 여기에는 사용자 평점, 텍스트 태그, 텍스트 평론 등 정보가 포함된다. 사용자 선호도 특성이 반영된 사용자 선호도 특성 추출 모델을 구축하고, 이 모델을 기반으로 사용자 선호도 확률 모델을 구축한다. 구축된 모델을 통해 사용자 선호도가 포함된 신규 항목을 생성하며, 그 중 사용자 선호도에 가장 매칭되는 항목을 검색 결과로 선택한다. 상기 방법은 멀티-소스 이종 복잡 데이터 환경 하의 사용자 맞춤형 검색 문제를 더욱 잘 해결할 수 있으며, 사용자가 맞춤형 검색을 수행하는 방향을 효과적으로 인도할 수 있고, 사용자가 자신이 만족스러운 결과를 검색하도록 최대한 지원함으로써 맞춤형 검색 알고리즘의 종합 성능을 향상시킬 수 있다.
도 1은 본 발명에서 개시한 인터랙티브 맞춤형 검색 방법의 흐름도이다.
도 2는 제한적 볼츠만 머신 기반의 사용자 선호도 모델의 구조도이다.
이하에서는 첨부 도면과 구체적인 실시 방식을 참고하여 본 발명을 더욱 상세하게 설명한다.
도 1에 도시된 바와 같이, 본 발명은 제한적 볼츠만 머신(Restricted Boltzmann Machine, RBM) 구동 기반의 인터랙티브 맞춤형 검색 방법을 개시하였으며 하기 단계를 포함한다.
단계 1: 사용자
Figure pct00037
의 히스토리 평가 데이터를 획득한다. 상기 히스토리 평가 데이터에는 사용자
Figure pct00038
가 이미 평가한 모든 항목, 각 항목에 대한 평점과 평가 텍스트가 포함되며, 평가 텍스트에 대해 벡터화를 수행한다.
본 실시예에서 평가 텍스트에 대해 벡터화를 수행하는 단계는 다음과 같다. 즉, 먼저 텍스트 중 문장 부호, 스톱 워드(stop word)를 제거한 다음 문헌 Le Q, Mikolov T. Distributed representations of sentences and documents[C]//International conference on machine learning. 2014: 1188-1196 중의 doc2vec 텍스트 벡터화 표시 모델을 채택하여, 사용자의 평가 텍스트에 대한 벡터화를 수행한다.
단계 2: 평점이 소정 평점 임계값보다 큰 항목을 우위 항목 세트
Figure pct00039
로 구성한다.
샘플 세트
Figure pct00040
를 구성하며, 여기에서
Figure pct00041
이고,
Figure pct00042
는 항목
Figure pct00043
의 카테고리 태그 벡터이고, 길이는 카테고리 총 수
Figure pct00044
이다.
Figure pct00045
중 각 원소
Figure pct00046
는 바이너리 변수이다.
Figure pct00047
=1은 항목
Figure pct00048
가 제
Figure pct00049
류 태그를 가짐을 나타내며,
Figure pct00050
,
Figure pct00051
이다. 주목할 점은 본 발명에서 상이한 카테고리 사이는 상호 배척하지 않으며, 하나의 항목은 동시에 복수 카테고리 태그에서 1로 동시에 존재할 수 있다. 예를 들어 서적 검색에 있어서, 항목이 서적인 경우, 한 권의 책에는 복수 카테고리 태그가 있을 수 있다. 예를 들어 <장거정전(
Figure pct00052
)>은 동시에 인물 전기, 중국 역사의 몇몇 태그가 있을 수 있으며 대응하는 카테고리 태그가 1이다. 영상 검색에 있어서, 항목이 영상 작품인 경우, 하나의 영상 작품도 복수 카테고리 태그가 있을 수도 있다. 예를 들어 <삼국연의(
Figure pct00053
)>는 동시에 TV 드라마, 역사의 몇몇 카테고리 태그가 있을 수 있으며 마찬가지로 대응하는 카테고리 태그가 1이다.
Figure pct00054
는 사용자
Figure pct00055
의 항목
Figure pct00056
에 대한 평가 텍스트 벡터화 표시이고, 길이는
Figure pct00057
이고,
Figure pct00058
,
Figure pct00059
이고,
Figure pct00060
Figure pct00061
중의 항목 수를 나타낸다.
단계 3: RBM 기반의 사용자 선호도 특성 추출 모델을 구축한다. 도 2에 도시된 바와 같이, 사용자 선호도 특성 추출 모델은 제1 가시층
Figure pct00062
, 제2 가시층
Figure pct00063
, 은닉층 h을 포함한다. 상기 제1 가시층에는
Figure pct00064
개 가시 유닛이 있고, 각 가시 유닛은 바이너리 변수이다. 제2 가시층은
Figure pct00065
개 가시 유닛이 있고, 각 가시 유닛은 실수이다. 상기 은닉층은 m개 은닉 유닛이 있고, 각 은닉 유닛은 실수이다. 상기 사용자 선호도 특성 추출 모델의 파라미터는
Figure pct00066
이다. 여기에서 w1, w2는 각각 제1 가시층 중 가시 유닛과 은닉층 중 은닉 유닛, 제2 가시층 중 가시 유닛과 은닉층 중 은닉 유닛 사이의 연결 가중치를 나타낸다. a1, a2는 각각 제1 가시층 중 가시 유닛, 제2 가시층 중 가시 유닛의 오프셋이다. b는 은닉층 중 은닉 유닛의 오프셋이다. 은닉층 중 은닉 유닛 개수 m은 카테고리 총수
Figure pct00067
의 0.8 내지 1.2배이다. 본 실시예에서
Figure pct00068
를 설정하며,
Figure pct00069
는 정수 올림 연산이다.
샘플 세트 중 각 샘플의
Figure pct00070
Figure pct00071
를 사용자 선호도 특성 추출 모델의 제1 가시층과 제2 가시층에 입력하고, 대조적 발산(Contrastive Divergence) 학습 알고리즘을 채택해 상기 모델을 학습시키고, 모델 파라미터
Figure pct00072
를 최적화하여, 학습된 사용자 선호도 특성 추출 모델을 획득한다. 여기에서 은닉 유닛의 상태는 현재 사용자
Figure pct00073
의 선호도 특성을 나타낸다.
단계 4: 학습된 사용자 선호도 특성 추출 모델을 기반으로 사용자 선호도 확률 모델을 구축한다.
Figure pct00074
여기에서,
Figure pct00075
는 사용자
Figure pct00076
가 선호하는 항목이 제
Figure pct00077
류 태그 항목의 확률이 있음을 나타내며, 계산 단계는 하기와 같다.
(4.1) 사용자가 선호하는 제
Figure pct00078
류 태그 항목을 가진 절대 확률을 예측한다.
Figure pct00079
여기에서,
Figure pct00080
은 항목
Figure pct00081
의 제
Figure pct00082
개 카테고리 태그
Figure pct00083
의 주변 분포( marginal distribution)이고,
Figure pct00084
는 항목
Figure pct00085
의 제
Figure pct00086
개 카테고리 태그
Figure pct00087
의 주변 분포이고,
Figure pct00088
Figure pct00089
중 모든 샘플의 평균 주변 분포이다.
Figure pct00090
,
Figure pct00091
,
Figure pct00092
,
여기에서
Figure pct00093
는 벡터
Figure pct00094
의 제
Figure pct00095
개 원소이고,
Figure pct00096
는 제
Figure pct00097
개 샘플 중 항목의 카테고리 태그 벡터
Figure pct00098
의 제
Figure pct00099
개 은닉 유닛에서의 에너지값이며, 그 계산식은 하기와 같다.
Figure pct00100
예를 들어, 항목에는 2개 카테고리 태그가 있고, 즉
Figure pct00101
=2이고, 3개 샘플이 있으며,
Figure pct00102
이고, 카테고리 태그 벡터는 각각
Figure pct00103
,
Figure pct00104
,
Figure pct00105
이다.
Figure pct00106
계산 시
Figure pct00107
Figure pct00108
를 계산해야 하고,
Figure pct00109
계산 시
Figure pct00110
의 샘플만 고려하며, 즉 제1, 제2 샘플이며
Figure pct00111
이다.
Figure pct00112
계산 시
Figure pct00113
의 샘플만 고려하며, 즉 제3 샘플이며
Figure pct00114
이다.
(4.2) 사용자 선호도에 제
Figure pct00115
류 태그 항목이 있는 절대 확률에 대해 정규화를 수행한다.
Figure pct00116
획득한
Figure pct00117
는 사용자
Figure pct00118
의 사용자 선호도 확률 모델이며,
Figure pct00119
값이 클수록 사용자 선호도가 제
Figure pct00120
류 태그의 항목을 가진다.
단계 5: 군체 크기 N을 설정하고, 분포 예측 알고리즘(Estimation of Distribution Algorithms, EDA)을 채택하여 N개 신규 항목을 생성하고, 신규 항목의 카테고리 태그 벡터
Figure pct00121
(
Figure pct00122
)의 설정 단계는 하기와 같다.
(5.1) n=1로 한다.
(5.2)
Figure pct00123
사이의 난수 z를 생성한다. 만약
Figure pct00124
이며, 제n개 신규 항목의 카테고리 태그 벡터
Figure pct00125
의 제
Figure pct00126
개 원소는 1이며, 그렇지 않으면 0이다.
(5.3) n에 1을 더하고,
Figure pct00127
이 될 때까지 단계 (5.2)를 반복한다.
이때 N개 신규 항목은 카테고리 태그 벡터만 확정하였으며, 구체적인 항목 내용은 확정하지 않았음에 유의한다.
단계 6: 검색 공간에서 각각 N개 신규 항목 카테고리 태그 벡터
Figure pct00128
와 유사도가 가장 높은 N개 항목을 선택하고, 추천할 항목 세트
Figure pct00129
를 구성한다. 본 실시예에 있어서 유크리드 거리를 유사도로 사용한 계산에서 두 벡터 사이의 유크리드 거리가 짧을수록 둘의 유사도가 높다.
이때 N개 신규 항목의 내용이 확정되면 하기 단계에서 이에 대해 추가적 선별을 수행한다.
단계 7: 추천할 항목 세트
Figure pct00130
중 각 항목의 적응값을 계산한다.
(7.1) 사용자
Figure pct00131
Figure pct00132
중 각 항목의 맞춤형 선호도 평점
Figure pct00133
을 예측한다.
Figure pct00134
여기에서
Figure pct00135
는 현재 사용자
Figure pct00136
와의 유사도가 임계값보다 큰 사용자
Figure pct00137
의 항목
Figure pct00138
에 대한 평가 에너지 함수이며, 그 계산식은 하기와 같다.
Figure pct00139
여기에서
Figure pct00140
는 x 카테고리 태그 벡터 중 제
Figure pct00141
개 원소이다.
Figure pct00142
는 사용자
Figure pct00143
의 x에 대한 평가 텍스트 벡터화의 제
Figure pct00144
개 원소이다.
Figure pct00145
는 사용자 선호도 특성 추출 모델 중 제1 가시층 중 가시 유닛의 오프셋
Figure pct00146
의 제
Figure pct00147
개 원소이다.
Figure pct00148
는 사용자 선호도 특성 추출 모델 중 제2 가시층 중 가시 유닛의 오프셋
Figure pct00149
의 제
Figure pct00150
개 원소이다.
Figure pct00151
은 사용자 선호도 특성 추출 모델 중 은닉층 중 은닉 유닛의 오프셋 b의 제
Figure pct00152
개 원소이다.
Figure pct00153
은 제1 가시층 중 제
Figure pct00154
개 가시 유닛과 은닉층 중 제
Figure pct00155
개 은닉 유닛 간의 연결 가중치이다.
Figure pct00156
은 제2 가시층 중 제
Figure pct00157
개 가시 유닛과 은닉층 중 제
Figure pct00158
개 은닉 유닛 간의 연결 가중치이다.
Figure pct00159
의 계산식에서 알 수 있듯이, 항목
Figure pct00160
에너지 함수의 크기는 사용자의 그에 대한 평가 텍스트와 관련이 있기 때문에, 본 단계에서 현재 사용자
Figure pct00161
와 유사한 사용자를 선택해야 하며, 현재 사용자
Figure pct00162
와 모든 사용자 중 어느 하나의 사용자
Figure pct00163
의 유사도
Figure pct00164
계산식은 하기와 같다.
Figure pct00165
여기에서
Figure pct00166
는 사용자
Figure pct00167
Figure pct00168
가 모두 평가한 항목 세트를 나타낸다.
Figure pct00169
는 사용자
Figure pct00170
Figure pct00171
중 항목
Figure pct00172
에 대한 평점이다.
Figure pct00173
는 사용자
Figure pct00174
Figure pct00175
에 대한 평점이다.
Figure pct00176
는 사용자
Figure pct00177
의 이미
Figure pct00178
에 의해 평가된 모든 항목의 평균 평점이다.
Figure pct00179
는 사용자
Figure pct00180
의 이미
Figure pct00181
에 의해 평가된 모든 항목의 평균 평점이다.
Figure pct00182
Figure pct00183
은 각각 추천할 항목 세트
Figure pct00184
의 모든 항목 중 획득된 에너지 함수의 최댓값과 최솟값이다.
(7.2)
Figure pct00185
중 각 항목의 적응값을 계산한다.
사용자의 개성과 사용자가 소재한 군체를 충분히 이용하기 위하여, 본 실시예에서의 적응값에는 사용자
Figure pct00186
의 맞춤형 평가, 및 사용자
Figure pct00187
와 유사한 사용자의 군체 평가가 포함되며, 구체적인 계산 단계는 하기와 같다.
(7.2.1) 모든 사용자 중에서 사용자
Figure pct00188
와 유사도가 가장 높은 앞
Figure pct00189
개 사용자를 선택하여, 사용자
Figure pct00190
의 이웃 사용자 세트
Figure pct00191
를 구성하며,
Figure pct00192
Figure pct00193
중 항목
Figure pct00194
에 대한 가중치 평균 평점을 계산한다.
Figure pct00195
여기에서
Figure pct00196
Figure pct00197
중의 사용자
Figure pct00198
Figure pct00199
중 항목
Figure pct00200
에 대한 평점이다. 만약 사용자
Figure pct00201
가 항목
Figure pct00202
에 대해 평점이 없으면
Figure pct00203
=0이다.
(7.2.2)
Figure pct00204
중 항목
Figure pct00205
의 적응값은 하기와 같다.
Figure pct00206
여기에서
Figure pct00207
는 개인 예측 평점에 대한 사회적 지식의 기여도를 조정하는 데 사용되는 계수이다. 만약 군체 평가를 고려하지 않는다면,
Figure pct00208
를 1로 설정하면 된다.
Figure pct00209
는 정규화 함수이다.
단계 8:
Figure pct00210
중 적응값이 최대인 앞
Figure pct00211
개 항목을 검색 결과로 선택한다.
사용자 관심 선호도의 다양성과 동적인 변화 특성으로 인해, 인터랙티브 맞춤형 검색 과정의 초기 단계에서 우위 항목 세트에 포함된 현재 사용자의 선호도 정보가 충분하지 않으며, 학습된 RBM 기반의 사용자 선호도 특성 추출 모델을 이용하여 추출한 사용자의 선호도 특성은 비교적 조악하다. 또한 사용자의 항목에 대한 인지도와 선호도는 주관적이고 모호하며 점진적이며 불확실하다. 사용자가 맞춤형 검색을 수행하는 과정에서 환경 변화, 정보량 증가 등 요인의 영향에 따라, 사용자 수요와 흥미 선호도가 점차 명확해지고 심지어 변화가 일어날 수 있다. 따라서 정확하고 동적으로 변화하는 사용자 선호도 특성을 획득하기 위해, 사용자 인터랙티브형 검색 과정의 추진과 사용자 행위의 동적 변화에 따라, 현재 사용자와 가장 가까운 평가 데이터에 의거하여, 다시 멀티-소스 이종 데이터를 융합한 제한적 볼츠만 머신 기반의 사용자 선호도 특성 추출 모델을 학습하여, 추출된 사용자 선호도 특성을 동적으로 업데이트하고, 동시에 사용자 선호도 확률 모델을 업데이트하여, 즉시 현재 사용자의 선호도를 추적함으로써, 인터랙티브 맞춤형 검색 과정의 전진 방향을 효과적으로 안내하여 사용자가 순조롭게 맞춤형 검색을 완료하도록 보장한다.

Claims (9)

  1. 제한적 볼츠만 머신 구동 기반의 인터랙티브 맞춤형 검색 방법에 있어서,
    (1) 사용자
    Figure pct00212
    의 히스토리 평가 데이터를 획득하고, 상기 히스토리 평가 데이터에는 사용자
    Figure pct00213
    가 이미 평가한 모든 항목, 각 항목에 대한 평점과 평가 텍스트가 포함되며, 평가 텍스트에 대해 벡터화를 수행하고;
    (2) 평점이 소정 평점 임계값보다 큰 항목을 우위 항목 세트
    Figure pct00214
    으로 구성하고, 샘플 세트
    Figure pct00215
    를 구성하고, 여기에서
    Figure pct00216
    이고,
    Figure pct00217
    는 항목
    Figure pct00218
    의 카테고리 태그 벡터이고, 길이는 카테고리 총 수
    Figure pct00219
    이고;
    Figure pct00220
    는 사용자
    Figure pct00221
    의 항목
    Figure pct00222
    에 대한 평가 텍스트 벡터화 표시이고, 길이는
    Figure pct00223
    이고;
    Figure pct00224
    ,
    Figure pct00225
    이고,
    Figure pct00226
    Figure pct00227
    중의 항목 수를 나타내고;
    (3) RBM 기반의 사용자 선호도 특성 추출 모델을 구축하며, 상기 사용자 선호도 특성 추출 모델은 우위 항목 세트
    Figure pct00228
    에 따라 사용자의 선호도 특성을 추출하고;
    (4) 사용자 선호도 확률 모델을 구축하며, 상기 사용자 선호도 확률 모델은 사용자의 각 카테고리 항목에 대한 선호도 확률을 나타내는 데 사용되고;
    (5) 군체 크기 N을 설정하고, 분포 예측 알고리즘을 채택하여 N개 신규 항목을 생성하고 각 항목의 카테고리 태그를 설정하고;
    (6) 검색 공간에서 각각 N개 신규 항목 카테고리 태그 벡터
    Figure pct00229
    와 유사도가 가장 높은 N개 항목을 선택하고, 추천할 항목 세트
    Figure pct00230
    를 구성하고;
    (7) 추천할 항목 세트
    Figure pct00231
    중 각 항목의 적응값을 계산하고;
    (7.1) 사용자
    Figure pct00232
    Figure pct00233
    중 각 항목에 대한 맞춤형 선호도 평점
    Figure pct00234
    를 예측하고,
    Figure pct00235

    여기에서,
    Figure pct00236
    는 현재 사용자
    Figure pct00237
    와의 유사도가 임계값보다 큰 사용자
    Figure pct00238
    의 항목
    Figure pct00239
    에 대한 평가 에너지 함수이고;
    Figure pct00240
    Figure pct00241
    은 각각 추천할 항목 세트
    Figure pct00242
    의 모든 항목 중 획득한 에너지 함수의 최댓값과 최솟값이고;
    (7.2)
    Figure pct00243
    중 각 항목의 적응값을 계산하고;
    Figure pct00244

    여기에서
    Figure pct00245
    는 정규화 함수이고;
    (8)
    Figure pct00246
    중 적응값이 최대인 앞
    Figure pct00247
    개 항목을 검색 결과로 선택하는 것을 특징으로 하는 제한적 볼츠만 머신 구동 기반의 인터랙티브 맞춤형 검색 방법.
  2. 제1항에 있어서,
    사용자 선호도 특성 추출 모델은 제1 가시층, 제2 가시층, 은닉층을 포함하고; 상기 제1 가시층에는
    Figure pct00248
    개 가시 유닛이 있고, 각 가시 유닛은 바이너리 변수이고; 제2 가시층은
    Figure pct00249
    개 가시 유닛이 있고, 각 가시 유닛은 실수이고; 상기 은닉층은 m개 은닉 유닛이 있고, 각 은닉 유닛은 실수이고; 상기 사용자 선호도 특성 추출 모델의 파라미터는
    Figure pct00250
    이고, 여기에서 w1, w2는 각각 제1 가시층 중 가시 유닛과 은닉층 중 은닉 유닛, 제2 가시층 중 가시 유닛과 은닉층 중 은닉 유닛 사이의 연결 가중치를 나타내고; a1, a2는 각각 제1 가시층 중 가시 유닛, 제2 가시층 중 가시 유닛의 오프셋이고; b는 은닉층 중 은닉 유닛의 오프셋이고;
    샘플 세트 중 각 샘플의
    Figure pct00251
    Figure pct00252
    를 사용자 선호도 특성 추출 모델의 제1 가시층과 제2 가시층에 입력하고, 대조적 발산(Contrastive Divergence) 학습 알고리즘을 채택해 상기 모델을 학습시키고, 모델 파라미터
    Figure pct00253
    를 최적화하여, 학습된 사용자 선호도 특성 추출 모델을 획득하는 것을 특징으로 하는 인터랙티브 맞춤형 검색 방법.
  3. 제2항에 있어서,
    사용자 선호도 확률 모델을 구축하고;
    Figure pct00254

    여기에서,
    Figure pct00255
    는 사용자
    Figure pct00256
    가 선호하는 항목이 제
    Figure pct00257
    류 태그 항목의 확률이 있음을 나타내는 것을 특징으로 하는 인터랙티브 맞춤형 검색 방법.
  4. 제3항에 있어서,
    Figure pct00258
    의 계산 단계는 하기와 같고,
    (4.1) 사용자가 선호하는 제
    Figure pct00259
    류 태그 항목을 가진 절대 확률을 예측하고;
    Figure pct00260

    여기에서,
    Figure pct00261
    은 항목
    Figure pct00262
    의 제
    Figure pct00263
    개 카테고리 태그
    Figure pct00264
    의 주변 분포( marginal distribution)이고,
    Figure pct00265
    는 항목
    Figure pct00266
    의 제
    Figure pct00267
    개 카테고리 태그
    Figure pct00268
    의 주변 분포이고,
    Figure pct00269
    Figure pct00270
    중 모든 샘플의 평균 주변 분포이고;
    Figure pct00271
    ,
    Figure pct00272
    ,
    Figure pct00273
    ,
    여기에서
    Figure pct00274
    는 벡터
    Figure pct00275
    의 제
    Figure pct00276
    개 원소이고,
    Figure pct00277
    는 제
    Figure pct00278
    개 샘플 중 항목의 카테고리 태그 벡터
    Figure pct00279
    의 제
    Figure pct00280
    개 은닉 유닛에서의 에너지값이며, 그 계산식은 하기와 같고,
    Figure pct00281

    (4.2) 사용자 선호도에 제
    Figure pct00282
    류 태그 항목이 있는 절대 확률에 대해 정규화를 수행하고,
    Figure pct00283

    획득한
    Figure pct00284
    는 사용자
    Figure pct00285
    의 사용자 선호도 확률 모델인 것을 특징으로 하는 인터랙티브 맞춤형 검색 방법.
  5. 제2항에 있어서,
    사용자
    Figure pct00286
    의 항목
    Figure pct00287
    에 대한 평가 에너지 함수이며, 그 계산식은 하기와 같고;
    Figure pct00288

    여기에서
    Figure pct00289
    는 x 카테고리 태그 벡터 중 제
    Figure pct00290
    개 원소이고;
    Figure pct00291
    는 사용자
    Figure pct00292
    의 x에 대한 평가 텍스트 벡터화의 제
    Figure pct00293
    개 원소이고;
    Figure pct00294
    는 사용자 선호도 특성 추출 모델 중 제1 가시층 중 가시 유닛의 오프셋
    Figure pct00295
    의 제
    Figure pct00296
    개 원소이고;
    Figure pct00297
    는 사용자 선호도 특성 추출 모델 중 제2 가시층 중 가시 유닛의 오프셋
    Figure pct00298
    의 제
    Figure pct00299
    개 원소이고;
    Figure pct00300
    은 사용자 선호도 특성 추출 모델 중 은닉층 중 은닉 유닛의 오프셋 b의 제
    Figure pct00301
    개 원소이고;
    Figure pct00302
    은 제1 가시층 중 제
    Figure pct00303
    개 가시 유닛과 은닉층 중 제
    Figure pct00304
    개 은닉 유닛 간의 연결 가중치이고;
    Figure pct00305
    은 제2 가시층 중 제
    Figure pct00306
    개 가시 유닛과 은닉층 중 제
    Figure pct00307
    개 은닉 유닛 간의 연결 가중치인 것을 특징으로 하는 인터랙티브 맞춤형 검색 방법.
  6. 제1항에 있어서,
    상기 단계 (5)에서 신규 항목의 카테고리 태그 벡터
    Figure pct00308
    의 설정 단계는 하기와 같고,
    (5.1) n=1로 하고;
    (5.2)
    Figure pct00309
    사이의 난수 z를 생성하고; 만약
    Figure pct00310
    이며, 제n개 신규 항목의 카테고리 태그 벡터
    Figure pct00311
    의 제
    Figure pct00312
    개 원소는 1이며, 그렇지 않으면 0이고;
    (5.3) n에 1을 더하고,
    Figure pct00313
    이 될 때까지 단계 (5.2)를 반복하는 것을 특징으로 하는 인터랙티브 맞춤형 검색 방법.
  7. 제1항에 있어서,
    상기 단계 (7.2) 중 각 항목의 적응값은 사용자의 군체 평가가 포함되며, 구체적인 계산 단계는 하기와 같고,
    (7.2.1) 모든 사용자 중에서 사용자
    Figure pct00314
    와 유사도가 가장 높은 앞
    Figure pct00315
    개 사용자를 선택하여, 사용자
    Figure pct00316
    의 이웃 사용자 세트
    Figure pct00317
    를 구성하며,
    Figure pct00318
    Figure pct00319
    중 항목
    Figure pct00320
    에 대한 가중치 평균 평점을 계산하고,
    Figure pct00321

    여기에서
    Figure pct00322
    Figure pct00323
    중의 사용자
    Figure pct00324
    Figure pct00325
    중 항목
    Figure pct00326
    에 대한 평점이고; 만약 사용자
    Figure pct00327
    가 항목
    Figure pct00328
    에 대해 평점이 없으면
    Figure pct00329
    =0이고;
    (7.2.2)
    Figure pct00330
    중 항목
    Figure pct00331
    의 적응값은 하기와 같고,
    Figure pct00332

    여기에서
    Figure pct00333
    는 개인 예측 평점에 대한 사회적 지식의 기여도를 조정하는 데 사용되는 계수인 것을 특징으로 하는 인터랙티브 맞춤형 검색 방법.
  8. 제2항에 있어서,
    상기 은닉층 중 은닉 유닛 개수 m은 카테고리 총 수
    Figure pct00334
    의 0.8 내지 1.2배인 것을 특징으로 하는 인터랙티브 맞춤형 검색 방법.
  9. 제1항에 있어서,
    사용자
    Figure pct00335
    와 공동 평점 항목이 존재하는 사용자
    Figure pct00336
    ,
    Figure pct00337
    ,
    Figure pct00338
    Figure pct00339
    의 유사도
    Figure pct00340
    계산식은 하기와 같고,
    Figure pct00341

    여기에서
    Figure pct00342
    는 사용자
    Figure pct00343
    Figure pct00344
    가 모두 평가한 항목 세트를 나타내고;
    Figure pct00345
    는 사용자
    Figure pct00346
    Figure pct00347
    중 항목
    Figure pct00348
    에 대한 평점이고,
    Figure pct00349
    는 사용자
    Figure pct00350
    Figure pct00351
    에 대한 평점이고;
    Figure pct00352
    는 사용자
    Figure pct00353
    의 이미
    Figure pct00354
    에 의해 평가된 모든 항목의 평균 평점이고;
    Figure pct00355
    는 사용자
    Figure pct00356
    의 이미
    Figure pct00357
    에 의해 평가된 모든 항목의 평균 평점인 것을 특징으로 하는 인터랙티브 맞춤형 검색 방법.
KR1020217011962A 2020-03-25 2020-04-22 제한적 볼츠만 머신 구동 기반의 인터랙티브 맞춤형 검색 방법 KR102600697B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010216557.4 2020-03-25
CN202010216557.4A CN111339428B (zh) 2020-03-25 2020-03-25 基于受限玻尔兹曼机驱动的交互式个性化搜索方法
PCT/CN2020/086202 WO2021189583A1 (zh) 2020-03-25 2020-04-22 基于受限玻尔兹曼机驱动的交互式个性化搜索方法

Publications (2)

Publication Number Publication Date
KR20210120977A true KR20210120977A (ko) 2021-10-07
KR102600697B1 KR102600697B1 (ko) 2023-11-10

Family

ID=71186157

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217011962A KR102600697B1 (ko) 2020-03-25 2020-04-22 제한적 볼츠만 머신 구동 기반의 인터랙티브 맞춤형 검색 방법

Country Status (3)

Country Link
KR (1) KR102600697B1 (ko)
CN (1) CN111339428B (ko)
WO (1) WO2021189583A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127737B (zh) * 2021-04-14 2021-09-14 江苏科技大学 融合注意力机制的个性化搜索方法和搜索系统
CN113763031B (zh) * 2021-07-27 2024-07-26 清华大学 一种商品推荐方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160188726A1 (en) * 2014-12-31 2016-06-30 TCL Research America Inc. Scalable user intent mining using a multimodal restricted boltzmann machine
CN106777359A (zh) * 2017-01-18 2017-05-31 安徽农业大学 一种基于受限玻尔兹曼机的文本业务推荐方法
CN110162706A (zh) * 2019-05-22 2019-08-23 南京邮电大学 一种基于交互数据聚类的个性化推荐方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324690A (zh) * 2013-06-03 2013-09-25 焦点科技股份有限公司 基于因子化条件受限玻尔兹曼机的混合推荐方法
CN105302873A (zh) * 2015-10-08 2016-02-03 北京航空航天大学 一种基于条件受限波尔兹曼机的协同过滤优化方法
CN105574216A (zh) * 2016-03-07 2016-05-11 达而观信息科技(上海)有限公司 基于概率模型和用户行为分析的个性化推荐方法、系统
CN106202519A (zh) * 2016-07-22 2016-12-07 桂林电子科技大学 一种结合用户评论内容和评分的项目推荐方法
CN106951434B (zh) * 2017-02-06 2020-03-10 广东神马搜索科技有限公司 一种用于搜索引擎的搜索方法、装置及可编程设备
CN107133321B (zh) * 2017-05-04 2020-06-12 广东神马搜索科技有限公司 页面的搜索特性的分析方法和分析装置
CN107944049A (zh) * 2017-12-19 2018-04-20 北京工业大学 一种基于深度学习的电影推荐方法
CN108256093B (zh) * 2018-01-29 2020-06-19 华南理工大学 一种基于用户多兴趣及兴趣变化的协同过滤推荐算法
US11050656B2 (en) * 2018-05-10 2021-06-29 Dell Products L.P. System and method to learn and prescribe network path for SDN
CN113903346A (zh) * 2018-06-05 2022-01-07 安克创新科技股份有限公司 一种基于深度学习的音域平衡方法、装置及系统
CN108846479A (zh) * 2018-07-13 2018-11-20 河海大学 基于rbm模型的推荐方法、rbm模型的训练方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160188726A1 (en) * 2014-12-31 2016-06-30 TCL Research America Inc. Scalable user intent mining using a multimodal restricted boltzmann machine
CN106777359A (zh) * 2017-01-18 2017-05-31 安徽农业大学 一种基于受限玻尔兹曼机的文本业务推荐方法
CN110162706A (zh) * 2019-05-22 2019-08-23 南京邮电大学 一种基于交互数据聚类的个性化推荐方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Restricted Boltzmann Machine-Assisted Estimation of Distribution Algorithm for Complex Problems", Complexity Vol. no. 2018, November 2018. *

Also Published As

Publication number Publication date
KR102600697B1 (ko) 2023-11-10
WO2021189583A1 (zh) 2021-09-30
CN111339428B (zh) 2021-02-26
CN111339428A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
Cheng et al. MMALFM: Explainable recommendation by leveraging reviews and images
CN110162700B (zh) 信息推荐及模型的训练方法、装置、设备以及存储介质
CN108959603B (zh) 基于深度神经网络的个性化推荐系统及方法
Kula Metadata embeddings for user and item cold-start recommendations
CN107357793B (zh) 信息推荐方法和装置
CN112417306B (zh) 基于知识图谱的推荐算法性能优化的方法
CN110969516A (zh) 一种商品推荐方法及装置
CN109783739A (zh) 一种基于层叠稀疏降噪自编码器增强的协同过滤推荐方法
CN109785062A (zh) 一种基于协同过滤模型的混合神经网络推荐系统
CN114036406A (zh) 一种基于图对比学习和社交网络增强的推荐方法及系统
Li et al. Content-based filtering recommendation algorithm using HMM
Khatter et al. Movie recommendation system using cosine similarity with sentiment analysis
CN106250545A (zh) 一种基于用户搜索内容的多媒体推荐方法及系统
KR102070049B1 (ko) 보조정보를 이용하는 조건부 변분 오토인코더 기반의 협업 필터링 방법 및 장치
CN112948625A (zh) 一种基于属性异质信息网络嵌入的电影推荐方法
KR20210120977A (ko) 제한적 볼츠만 머신 구동 기반의 인터랙티브 맞춤형 검색 방법
Elsayed et al. End-to-end image-based fashion recommendation
Alfarhood et al. Collaborative attentive autoencoder for scientific article recommendation
CN110083766B (zh) 一种基于元路径引导嵌入的查询推荐方法及装置
Patel et al. CNNRec: Convolutional Neural Network based recommender systems-A survey
CN114492669B (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
Deldjoo et al. Using mise-en-sc\ene visual features based on mpeg-7 and deep learning for movie recommendation
Sivaranjani et al. Fashion Recommendation System Using Machine Learning
CN113449200B (zh) 物品推荐方法、装置及计算机存储介质
Jalal Big data and intelligent software systems

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant