KR102308233B1 - 방문지 유형과 개인특성피쳐들 간의 관계를 분석하는 방법 및 이를 이용한 개인에게 적합한 콘텐츠를 추천하는 방법 - Google Patents
방문지 유형과 개인특성피쳐들 간의 관계를 분석하는 방법 및 이를 이용한 개인에게 적합한 콘텐츠를 추천하는 방법 Download PDFInfo
- Publication number
- KR102308233B1 KR102308233B1 KR1020190173294A KR20190173294A KR102308233B1 KR 102308233 B1 KR102308233 B1 KR 102308233B1 KR 1020190173294 A KR1020190173294 A KR 1020190173294A KR 20190173294 A KR20190173294 A KR 20190173294A KR 102308233 B1 KR102308233 B1 KR 102308233B1
- Authority
- KR
- South Korea
- Prior art keywords
- visits
- total
- characteristic features
- prediction model
- natural number
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 90
- 238000007637 random forest analysis Methods 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 21
- 238000013480 data collection Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000003066 decision tree Methods 0.000 description 43
- 238000010586 diagram Methods 0.000 description 14
- 238000005259 measurement Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 241001465754 Metazoa Species 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000391 smoking effect Effects 0.000 description 3
- 241000272194 Ciconiiformes Species 0.000 description 2
- 241000272201 Columbiformes Species 0.000 description 2
- 241001481833 Coryphaena hippurus Species 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000037213 diet Effects 0.000 description 2
- 235000005911 diet Nutrition 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000013277 forecasting method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 101150014742 AGE1 gene Proteins 0.000 description 1
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 206010029216 Nervousness Diseases 0.000 description 1
- 101150110009 SCN11A gene Proteins 0.000 description 1
- 102100033974 Sodium channel protein type 11 subunit alpha Human genes 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000007636 ensemble learning method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000037323 metabolic rate Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
특정인으로부터 수집한 P개의 개인특성피쳐들인 제1개인특성피쳐들을 획득하고, 학습이 완료된 m번째 예측모델의 입력층에 상기 제1개인특성피쳐들을 입력하였을 때에 상기 m번째 예측모델의 출력층에서 출력하는 출력값을 획득하고, 그리고 상기 특정인이 상기 총 M개의 유형의 방문지들을 방문한 총 횟수를 T-방문횟수라고 두고, 상기 특정인이 상기 M개의 유형의 방문지들 중 m번째 유형의 방문지를 방문한 횟수를 mth-방문횟수라고 두었을 때에, 상기 획득한 출력값을 기초로 상기 mth-방문횟수를 상기 T-방문횟수로 나눈 값인 mth-방문비율을 산출하도록 되어 있는, 특정 유형의 방문지를 방문할 비율을 예측하는 방법을 공개한다.
Description
본 발명은 예측모델을 이용하여 방문지 유형과 개인특성피쳐들 간의 관계를 분석하고, 그 결과를 이용하여 적합한 콘텐츠를 추천하는 기술에 관한 것이다.
어떤 사람이 특정 장소에 방문할 가능성이 크다고 판단된다면, 해당 장소에 관련된 콘텐츠를 상기 어떤 사람에게 제공할 경우 상기 콘텐츠의 제공자 및 상기 어떤 사람에게 유용한 결과를 가져올 수 있다.
그런데 위의 가능성을 어떻게 정의하느냐에 따라 그 가능성을 추정하는 구체적인 방법도 달라질 수 있다. 예컨대, 상기 어떤 사람이 특정 장소에 방문할 가능성을 주중 각 날의 시각별로 정의할 수도 있고, 주말 각 날의 시각별로 정의할 수도 있을 것이다. 또는, 상기 어떤 사람이 특정 장소에 방문할 가능성을 제1사건이 발생한 후 미리 결정된 시간 이내라는 조건을 붙여 정의할 수도 있을 것이다.
이와 같이 어떤 사람이 특정 장소에 방문할 가능성에 대한 정의에 따라 그 가능성을 예측하는 구체적인 방법이 달라질 것으로 추측할 수 있다.
본 발명에서는 많은 장소들을 유형별로 분류하여 장문 장소의 유형들의 모집합을 정의한 다음, 개인별로 상기 모집합 내에서 특정 유형의 장소에 방문할 가능성을 추정하는 기술을 제공하고자 한다. 이를 위하여 개인별 특징을 나타내는 개인특징피쳐들 및 각 개인이 특정유형의 장소를 방문하는 실제 비율을 조사하여 학습데이터를 준비할 수 있다. 그리고 이러한 학습데이터를 이용하여 예측모델을 학습시킬 수 있다. 학습이 완료된 예측모델에 새로운 사람의 개인특징피쳐들을 입력하면 이 새로운 사람이 특정유형의 장소에 방문할 가능성을 추정할 수 있을 것이다.
그러나 이와 같은 접근 방식으로 예측모델을 선정하여 학습한다면, 보통은 한 개의 예측모델을 이용하게 될 것이다. 이와 같이, 한 개의 예측모델만으로 특정유형의 장소에 방문할 가능성을 추정하는 경우, 모든 유형의 장소에 대하여 동일한 입력 데이터가 동일한 영향력을 끼치는 것을 전제로 하는 것인데, 이러한 전제가 옳지 않을 가능성이 있다. 이 경우, 학습된 예측모델이 최적의 결과를 도출하지 않을 수 있다는 문제가 있다.
본 발명에서는 상술한 문제를 해결하기 위하여, 방문지 유형 마다 예측모델을 별도로 학습시키고, 각 유형의 방문지에 방문할 가능성을 예측하는 데에 가장 큰 영향을 주는 학습 데이터들을 예측모델마다 선정하고, 각 유형의 방문지마다 상기 선정된 학습 데이터만을 이용하여 예측모델을 새롭게 학습시키는 방법을 제공하고자 한다.
또한 각 유형의 방문지에 대하여 학습이 완료된 예측모델을 이용하여, 새롭게 관찰해야 하는 사람에게 추천할 추천 콘텐츠를 선정하는 방법을 제공하고자 한다.
이하, 본 발명의 이해를 돕기 위해 관련된 기술을 먼저 소개한다.
<BFF>
BFF는 1992년에 P.T. Costa와 R.R. McCrae 가 제안한 성격을 나타내는 5가지 요인들이다. 개방성, 성실성, 외향성, 친화성, 신경증으로 구성된다. 참가자들이 제공된 설문지에 답을 하면 각 요인에 해당하는 스코어가 0 내지 5점으로 수치화 된다. 추상적 개념인 인간의 성격을 수치화하기 때문에 다양한 연구에서 성격을 변수로써 사용할 때 많이 이용되고 있다.
<SWARM 앱>
SWARM 앱은 스마트폰의 GPS기술을 이용하여 사용자가 방문한 장소에 체크인을 하는 기능을 제공한다. 따라서 사용자는 자신이 방문한 장소들을 기록으로 남길 수 있다. gps 기술의 부정확성으로 인해 다른 장소가 체크인 된 경우에는 사용자가 직접 수정할 수 있다.
본 발명의 일 관점에 따르면, 개인의 다양한 피쳐들로부터 상황에 맞는 OCEAN 말고 다른 개인별 요인들을 더 추가한 다음에, 주요 요인을 5개 선정하는 것이 본 발명의 과정에 포함된다.
기존 연구에서 사람의 성격과 방문 장소 사이에 일부 상관관계가 있다는 것은 이미 입증이 되었다. 그러나 자주 방문하는 장소에는 성격 외에 다른 요인도 영향을 미칠 것이라고 예상할 수 있다. 이러한 생각을 입증하기 위하여 성격 외에 영향을 미칠 수 있다고 예상되는 다른 요인들을 설문 조사로 수집할 수 있다. 수집 항목으로는 성별, 연령, 결혼, 종교, 급여, 차량, SNS 사용 여부 등이 있다.
성격 데이터는 BFI(Big Five Inventory)의 설문지를 이용하여 BFF로 구성된 데이터를 수집할 수 있다.
위치 데이터는 SWARM 이라는 스마트폰 앱을 통해 장기간 수집할 수 있다.
데이터 분석에는 앙상블 학습 방법인 랜덤 포레스트를 사용할 수 있다.
<랜덤 포레스트>
의사 결정 트리(decision tree)는 문자 그대로 결정을 내려주는 논리 구조이다. 어떠한 사람에 대한 정보가 의사 결정 트리에 주어졌을 때, 트리는 먼저 그 사람의 제1피쳐(예컨대 흡연 여부)를 체크하고, 제1피쳐의 값(예컨대 흡연은 1, 비흡연은 0)에 따라서 다른 논리적 구조를 따라가게 된다. 상기 제1피쳐의 값이 1이라면 트리는 위 사람의 제2피쳐(예컨대, 나이)를 기반으로 측정대상(예컨대, 건강 위험도)의 값을 결정하고, 상기 제1피쳐의 값이 0이라면 위 사람의 제3피쳐(예컨대, 식단)을 기반으로 상기 측정대상의 값을 결정할 수 있다. 이처럼 어떤 사람에 관련된 측정대상을 예측 또는 판별하는 데 있어 여러 가지 요소들이 영향을 미칠 때, 의사 결정 트리는 결정을 내리는데 효과적인 수단이다. 본명에서에 '피쳐'는 '개인특성피쳐'로 지칭될 수도 있다.
본 발명에서 이용하는, '포레스트'라는 기법은 복수 개의 상기 의사 결정 트리가 모여서 생성된다. 랜덤 포레스트는 실무에서 자주 적용되는 머신러닝 모델 중 하나이다.
상술한 의견 결정 트리의 예에서는, 상기 측정대상의 값을 3가지의 피쳐들과 한 개의 의사 결정 트리로 결정했다. 그러나 상기 측정대상의 값을 예측하려면 상기 3가지 피쳐보다 더 많은 개수의 피쳐들을 고려하는 것이 바람직할 수 있다. 예컨대, 위의 예에서 상기 건강 위험도에 영향을 미치는 피쳐들은 성별, 키, 몸무게, 거주지역, 운동량, 기초 대사량, 근육량 등 더 많이 존재할 수 있다.
위의 예에서는, 흡연 여부, 나이, 및 식단의 세 가지 피쳐들로 제1 의사 결정 트리를 생성하였지만, 다른 요소들의 조합으로 제2 의사 결정 트리, 또는 제3 의사 결정 트리를 생성할 수도 있다. 각각의 의사 결정 트리들은 통계적으로 서로 독립되도록 구성될 수 있다.
이렇게 구성된 N개의 의사 결정 트리 중 N1개가 상기 측정대상의 값을 1인 것으로 결정하였으나, N2개가 상기 측정대상의 값을 0인 것으로 결정하였다면(N=N1+N2), 예컨대 N1>N2인 경우 상기 측정대상의 값이 1이라는 최종결론을 내릴 수 있다. 즉, 많은 의사 결정 트리들의 결정값이 서로 다를 때에, 그 결정값들을 통합하여 최종 결과값을 결정하는 방식을 앙상블이라고 지칭한다.
랜덤 포레스트에서는, 각각의 의사 결정 트리를 만드는데 있어 쓰이는 피쳐들을 무작위적으로 선정한다.
상기 측정대상의 값이 결정되는 과정을 N(ex: 30)개의 피쳐들로 설명할 수 있으면, 의사 결정 트리의 한 단계를 생성하면서 모든 피쳐들을 고려하지 않으며, N개 중 무작위로 일부만 선택하여, 그 선택된 일부 중 상기 측정대상의 값을 가장 알맞게 예측하는 한 가지 피쳐가 의사 결정 트리의 한 단계가 된다.
예컨대 랜덤 포레스트를 완성하는 과정은 다음과 같이 설명될 수 있다.
단계(S1)에서, N개의 주어진 피쳐들 중 일부만 무작위로 선택한다. 예컨대, 제1피쳐, 제2피쳐, 제3피쳐, 및 제4피쳐가 선택되었다고 가정할 수 있다.
단계(S2)에서, 위 선택된 피쳐들 중 상기 측정대상의 값을 가장 잘 예측하는 피쳐를 한 개 선택할 수 있다. 만약 선택된 1개의 피쳐가 상기 제1피쳐인 경우, 의사 결정 트리의 첫 번째 단계가 생성된다.
단계(S3)에서, 단계(S1) 및 단계(S2)의 과정을 반복하여 한 개의 의사 결정 트리를 완성할 수 있다.
단계(S4)에서, 단계(S3)을 원하는 개수의 트리가 생성되기까지 반복할 수 있다.
랜덤 포레스트는 일반화 성능이 좋고 정확도가 높다. 많은 입력 피쳐들을 다룰 수 있고 노이즈에 강하다.
랜덤 포레스트에 관한 선행문헌으로서, Gㅹrard Biau and Erwan Scornet, "A random forest guided tour" TEST June 2016, Volume 25, Issue 2, pp 197-227. 및 Segal, Mark R. "Machine Learning Benchmarks and Random Forest Regression" UCSF: Center for Bioinformatics and Molecular Biostatistics 2004 등이 있다.
랜덤 포레스트는 입력 피쳐들이 결과에 어느 정도 영향을 미치는지 중요도 값을 알 수 있어 본 발명의 일 실시예에서 사용할 수 있다.
앙상블은 여러 머신 러닝 모델들을 연결하여 강력한 모델을 만드는 기법이다. 랜덤 포레스트는 앙상블 기법의 한 종류이며 모델을 구성하는 기본 요소는 결정 트리이다.
앙상블
앙상블은 여러 머신 러닝 모델들을 연결하여 더 강력한 모델을 만드는 기법이다. 다양한 모델을 연결하여 많은 앙상블 모델을 만들 수 있지만 특히 랜덤 포레스트와 그래디언트 부스팅이 분류와 회귀 문제의 다양한 데이터 세트에서 효과적이라고 입증되었다. 두 모델은 구성 기본 요소로 결정 트리를 사용한다.
결정 트리
결정 트리는 분류와 회귀에 널리 사용하는 모델이다. 기본적으로 결정 트리는 결정에 다다르기 위해 예/아니오 질문을 이어 나가면서 학습한다. 예를 들어, 곰, 비둘기, 펭귄, 돌고래라는 네 가지 동물들을 구분한다고 생각해보자, 목적은 가능한 한 적은 질문으로 동물들을 분류하는 것이다. 먼저, "날개가 있는 동물인가?" 라는 질문을 통해 "예" 에 해당하는 두 동물들을 분리해 낼 수 있다. 그 후에는 "날 수 있는가?" 라는 질문을 통해 비둘기와 펭귄을 구분할 수 있다. 날개가 없는 동물인 경우, "지느러미가 있는가?" 라는 질문을 통해 돌고래와 곰을 구분할 수 있다. 머신 러닝에서는 이러한 질문들을 테스트라고 부른다. 또한, 결정 트리는 테스트와 정답에 해당하는 노드와 테스트에 대한 답과 다음 테스트 또는 정답을 잇는 엣지로 구성된다. 보통 머신 러닝에 사용되는 데이터들은 앞의 예와 같이 예/아니오 로 구분되지 않고 연속된 값으로 구성된다. 이 경우에는 "피쳐 i는 값 a보다 큰가?" 와 같은 테스트를 적용하게 된다.
배깅(Bootstrap aggregating, Bagging)
랜덤 포레스트는 독립적인 다수의 결정 트리를 만들기 위해 데이터의 부트스트랩 샘플을 생성한다. 부트스트랩 샘플이란 중복을 허락하여 데이터들을 무작위로 선택하는 것이다. 그렇게 만들어진 데이터셋의 크기는 원래의 데이터셋과 같다. 부트스트랩 샘플에서 어떤 데이터는 누락될 것이고 어떤 데이터는 중복되어 들어 있을 수 있다.
결정 트리의 단점은 학습 데이터에 과적합 될 수 있다는 것이다. 랜덤 포레스트를 사용하면 이 문제를 해결할 수 있다. 랜덤 포레스트는 서로 다른 결정 트리들의 묶음이다. 각 결정 트리는 비교적 예측은 잘 하지만 학습 데이터에 과적합 될 수 있다. 그러나 이러한 결정 트리들을 많이 만들고 그 결과의 평균을 내면 과적합은 줄이면서 결정 트리의 예측 성능은 유지된다. 독립된 여러 결정 트리들을 만들 때는 배깅으로 만든 데이터셋을 가지고 학습한다. 또 각 노드에서 피쳐들의 일부만을 사용하기 때문에 결정 트리의 각 분기는 서로 다른 피쳐들의 서브세트를 사용한다. 이러한 메커니즘은 랜덤 포레스트의 모든 결정 트리가 서로 달라지도록 만든다. 랜덤 포레스트로 예측을 할 때는 알고리즘이 각 결정 트리에 해당하는 예측을 한다. 본 발명에서 사용하는 회귀의 경우 이 예측들을 평균하여 최종 예측을 만든다.
랜덤 포레스트는 널리 사용되는 머신 러닝 알고리즘이다. 성능이 매우 뛰어나고 노이즈에도 강하며 하이퍼파라미터 튜닝을 많이 하지 않아도 잘 작동하며 데이터의 스케일을 맞출 필요도 없다. 또한 매우 큰 데이터셋에도 잘 작동하며 학습을 간단하게 병렬적으로 할 수 있다. 많은 입력 피쳐들을 다루기에도 적절하다. 또한 결과에 영향을 미치는 입력 값의 중요도 값을 알 수 있다. 이러한 이점과 성능으로 인해 본 발명에서는 랜덤 포레스트를 사용할 수 있다.
<개인 요인들 및 위치 카테고리들>
많은 연구가 BFF를 McCrae와 Costa가 제안한 성격 척도로 삼는다. 다섯 가지 요인은 개방성, 성실성, 외향성, 친화성 및 신경증이다. 각 요인은 숫자로 측정되므로 요인을 쉽게 학습 프로세스에 적용 할 수 있다.
BFF
도 18은 여러 참가자의 BFF를 보여준다.
본 발명에서는 이러한 값들을 통해 개인의 성격을 파악할 수 있다. 개방성이 높은 사람은 창의적이고 정서적이며 예술에 관심이 있다. 높은 성실성을 가진 사람은 책임감 있고, 성취적이며, 자제력이 있다. 높은 친화성을 가진 사람은 타인에게 친절하고 이타적이며 사려 깊고 겸손하다. 높은 신경증을 가진 사람은 스트레스에 민감하고 충동적이고 적대적이며 우울하다. 예를 들어, 도 18에 나타난 바와 같이, 사람 4는 창의적이고, 감정적이며, 책임 있고, 자제력이 있다. 또한 사람 4의 신경증을 고려할 때, 사람 4는 충동적이지 않고 스트레스를 잘 받지 않는다. 도 18에 표시된 성격은 다른 개인 요인들과 함께 실험 기준으로 사용될 수 있다.
도 19는 각종 질문에 대한 사람 1의 응답을 나타낸 것이다.
도 19에서 응답에 해당하는 숫자가 나타내는 바는 다음과 같은 선택지 중에서 선택된 것이다.
* 나이(Age) - 1:10대 2:20대, 3: 30대, 4: 40대 이상
* 직업(Job) - 1 : 학생, 2 : 행정직 3 : 전문가, 4 :엔지니어, 5 : 사무직, 6 : 서비스, 판매직, 7 : 기능 근로자, 8 : 기동 조종 및 조립 엔지니어, 9 : 단순한 노동자
* 결혼(Marriage) 1 : 기혼 2 : 미혼
* 교육수준(The highest level of education) - 1 : 중학교 졸업, 2 : 고등학교 졸업, 3 : 대학 졸업, 4 : 석사, 5 : 박사전공(Major)1 : 인문학, 2 : 사회학, 3 : 교육학, 4 : 공학, 5 : 자연, 6 : 의학 및 약리학, 7 : 미술, 음악 및 체육
* 종교(Religion) - 1 : 종교 없음, 2 : 기독교, 3 : 카톨릭, 4 : 불교
* 급여(Salary) - 1 : 50만원 이하, 2 : 50 ~ 100만원, 3 : 100 ~ 200만원, 4 : 200 ~ 300만원, 5 : 300만원 이상
* 차량(Vehicles) - 1 : 걷기, 2 : 자전거, 3 : 자동차, 4 : 대중교통
* 통근 시간(Commute time) - 1 : 30분 이내 2 : 30분 ~ 1시간 : 3, 1시간 ~ 2시간, 4 : 2시간 이상
* 연간 여행의 빈도(the frequency of a year's journey) - 1 : 1회 이하, 2 : 2 ~ 3회, 3 : 4 ~ 5회, 4 : 6회 이상
* SNS 사용 상태(SNS usage status) - 1 : 사용, 2 : 사용하지 않음
* 하루당 SNS에 소비 된 시간(Time spent on SNS per day) - 1 : 30분 이하, 2 : 30분 ~ 1시간, 3 : 1 ~ 3시간, 4 : 3시간 이상
* 문화생활(cultural life) - 1 : 정적 활동, 2 : 동적 활동, 3 : 둘 다
따라서 도 19를 통해, 사람 1은 20대이며, 학생이고, 미혼이며, 고등학교를 졸업하였고, 공학 전공하였으며, 종교는 없고, 월수입 50~100만원 사이이고, 대중교통을 이용하며, 통학시간은 1~2시간이고, 1년간 2~3회 여행을 하며, 하루 평균 SNS 사용 시간은 1~3시간이고, 문화생활은 정적, 동적 활동을 모두 한다는 점을 알 수 있다.
레이블
감독 학습인 랜덤 포레스트에 이용할 데이터 중 레이블(타겟 데이터)로는 위치 데이터를 사용하였다. 위치 데이터는 SWARM 앱을 이용해 방문 장소들에 체크인 하였다. 그 후 웹 크롤링을 이용하여 방문 장소들과 방문횟수를 파악하였다.
도 20은 사람 16의 위치 데이터의 일부이다.
이렇게 수집된 데이터를 10개의 카테고리로 분류하였다.
도 21은 사람 16의 데이터를 카테고리로 분류한 것이다.
랜덤 포레스트에 위치 데이터를 넣을 때는 특정 카테고리 방문 횟수를 전체 장소 방문 횟수로 나눈 방문 비율을 레이블로 사용할 수 있다. 구하는 공식은 수식1과 같다.
[수식1]
결과
랜덤 포레스트를 이용하여 데이터를 분석하면 각 피쳐들이 예측에 영향을 미치는 정도인 가변적인 중요도를 알 수 있다.
도 22는 각 레이블마다의 SMAPE(Symmetric Mean Absolute Percentage Error) 값과 정확도, 가장 영향이 큰 상위 다섯 개의 피쳐들과 중요도 값을 표현한 것이다.
도 23a 및 도 23b는 실험의 결과로 만들어진 결정 트리 중 한 가지씩 랜덤으로 뽑아 제시한 것이다. 도 23a 및 도 23b는 트리의 형태를 제시하기 위한 것이며, 트리의 각 리프(leaf)에 표시된 내용은 본 발명의 이해를 위해 필수적으로 이해해야 하는 사항은 아니므로, 도 23a 및 도 23b의 각 리프의 내용을 공란으로 고쳐도 상관없다.
도면으로 제시하지는 않았지만, 그 레이블이 식당 및 외국인 기관이 아닌 다른 값, 예컨대, 소매점, 음료가계, 극장, 교육기관, 병원 등 다양한 다른 값들 중 어느 하나의 값을 갖는 결정 트리도 도 23a 또는 도 23b와 같이 제시될 수 있다.
도 23a에 제시한 결정 트리는 레이블이 식당인 경우이다.
도 23b에 제시한 결정 트리는 레이블이 외국인 기관(Foreign Institute)인 경우이다.
도 24a는 랜덤 포레스트에 입력한 위치 데이터의 레이블이 식당인 경우에 있어서, 상기 위치(식당)로의 이동에 각 피쳐들이 미치는 중요도를 나타낸 것이다.
도 24a는 수집한 데이터로 랜덤 포레스트를 학습함으로써 생성되는 것일 수 있다. 도 24a에 따르면 식당이라는 레이블에 영향을 미치는 피쳐들 중 중요도가 가장 높은 5개는 E, C, Religion, Culture, 및 O임을 알 수 있다.
도 24b는 랜덤 포레스트에 입력한 위치 데이터의 레이블이 교육기관인 경우에 있어서, 상기 위치(교육기관)로의 이동에 각 피쳐들이 미치는 중요도를 나타낸 것이다.
도 24b는 수집한 데이터로 랜덤 포레스트를 학습함으로써 생성되는 것일 수 있다. 도 24b에 따르면 식당이라는 레이블에 영향을 미치는 피쳐들 중 중요도가 가장 높은 5개는 E, A, O, Religion, 및 N임을 알 수 있다.
도 24a 및 도 24b를 살펴보면, 각 위치로의 이동에 관련된 피쳐들의 중요도가 이동한 위치마다 서로 다르다는 점을 이해할 수 있다.
도 25는 본 발명의 일 실시예에 따라, 각 방문지에 대한 방문에 영향을 주는 개인 피쳐들의 중요도를 결정하는 방법을 나타낸 다이어그램이다.
기존의 랜덤 포레스트 예측모델(1)에 학습데이터(10)를 입력할 수 있다. 학습데이터는 복수 명의 수요자들로부터 획득한 피쳐들로 구성될 수 있다.
한 명의 수요자마다, 예컨대 성실성, 열정성, 동조성, 신경성, 성별, 나이, 직업, 결혼여부, 교육수준, 종교, 급여, 차량이용방법, 통근시간, 여행빈도, SNS 사용시간, 및 문화생활수준 등 숫자로 계량화가 가능한 복수 개의 피쳐들에 대한 값을 획득할 수 있다. 이 중 일부의 피쳐들의 값은 설문조사를 통해 획득할 수 있고, 다른 피쳐들의 값은 각 수요자가 소지한 장치에 의해 자동으로 획득할 수도 있다. 상술한 피쳐들의 종류는 위에 예시한 것에 한정되지 않으며, 그 구체적인 종류에 의해 본 발명의 범위가 반드시 한정되는 것은 아니다.
랜덤 포레스트 예측모델(1)의 학습을 위해 랜덤 포레스트 예측모델(1)에 위치 데이터를 넣을 때는 특정 위치 카테고리 방문 횟수를 전체 장소 방문 횟수로 나눈 방문 비율을 레이블(20)로 사용할 수 있다.
랜덤 포레스트 예측모델(1)의 학습을 수행하면, 학습데이터(10)에 포함된 각 피쳐가 제1 유형의 방문지에 대한 방문에 미치는 영향을 수치로 얻을 수 있다.
예컨대 도 25에 나타낸 것과 같이, 상기 복수 개의 피쳐들 중 '개방성' 피쳐가 제1 유형의 방문지에 대한 방문 행위에 미치는 영향을 나타내는 수치는 제1 '개방성 중요도'로 표기할 수 있다. 또한 상기 복수 개의 피쳐들 중 '성실성' 피쳐가 제1 유형의 방문지에 대한 방문 행위에 미치는 영향을 나타내는 수치는 제1 '성실성 중요도'로 표기할 수 있다. 이런식으로, 학습데이터(10)에 포함된 모든 피쳐들에 대하여 각 피쳐의 중요도를 숫자로 제시할 수 있다. 그 다음 상기 각 피쳐의 중요소를 나타내는 수자를 내림차순으로 정렬하여, 상위 몇 개의 피쳐들을 선정할 수 있다. 선정된 피쳐들은 제1 유형의 방문지에 대한 방문 행위에 중요한 영향을 주는 제1세트의 피쳐들인 것으로 간주될 수 있다.
마찬가지로, 상기 복수 개의 피쳐들 중 '개방성' 피쳐가 제2 유형의 방문지에 대한 방문 행위에 미치는 영향을 나타내는 수치는 제2 '개방성 중요도'로 표기할 수 있다. 또한 상기 복수 개의 피쳐들 중 '성실성' 피쳐가 제2 유형의 방문지에 대한 방문 행위에 미치는 영향을 나타내는 수치는 제2 '성실성 중요도'로 표기할 수 있다. 이런식으로, 학습데이터(10)에 포함된 모든 피쳐들에 대하여 각 피쳐의 중요도를 숫자로 제시할 수 있다. 그 다음 상기 각 피쳐의 중요소를 나타내는 수자를 내림차순으로 정렬하여, 상위 몇 개의 피쳐들을 선정할 수 있다. 선정된 피쳐들은 제2 유형의 방문지에 대한 방문 행위에 중요한 영향을 주는 제2세트의 피쳐들인 것으로 간주될 수 있다.
상기 제1 유형의 방문지와 상기 제2 유형의 방문지가 서로 다르다면 상기 제1세트의 피쳐들과 상기 제2세트의 피쳐들도 서로 다를 수 있다.
II. 부스팅
본 발명에서는 사람의 수 가지 특성 요인들과 방문할 장소 간의 관계를 부스팅 기법을 이용하여 분석할 수 있다. 개인적인 요인들은 성격, 결혼 상태, 최종 교육, 전공, 종교, 월 소득, 통근 수단 및 시간, 여행 횟수, SNS 사용 시간, 하루당 SNS를 위한 시간, 문화생활로 구성된다. 또한 어떤 요인이 가장 큰 영향을 미치는지 분석할 수 있다. 성격 데이터는 BFF(Big Five Factors)를 통해 얻을 수 있으며, 나머지 요인에 대한 데이터는 설문지를 통해 수집할 수 있다. 위치 데이터는 Swarm 앱을 통해 얻을 수 있다. 각 위치 카테고리에 대해 가장 효과적인 요인들이 확인될 수 있다.
최근에는 사람들의 편의성을 향상시키기 위한 다양한 분야의 서비스가 있다. 많은 서비스들이 특히 위치 기반 서비스(LBS)의 이동 패턴 및 위치 데이터를 예측하여 사람들에게 유용한 정보를 제공한다. 그러나 사람들의 움직임을 예측하는 대부분의 연구는 과거의 움직임 패턴을 분석하는 데 중점을 둔다. 이 예측 방법과는 별도로, 사람이 다양한 요인을 가지고 방문하는 관계에 대한 또 다른 연구를 수행했다. 성격, 결혼 상태, 최종 교육 등과 같은 요인들은 방문하는 사람이 좋아하는 장소에 분명하게 영향을 미친다. 본 발명에서는 부스팅 기법들을 이용하여 개인의 특성 요인들과 방문 장소 간의 상관관계를 분석할 수 있다. 또한, 지역 방문에 가장 큰 영향을 미치는 요인들에 대한 분석도 할 수 있다.
앙상블
앙상블은 다양한 종류의 서로 다른 모델의 예측 및 분류 결과를 집계하여 최종 의사 결정에 사용되는 방법론이다. 서로 다른 모델들의 예측 결과들을 결합하여 단일 모델을 사용한 분석과 비교하여 보다 안정적인 예측을 얻을 수 있다. 앙상블 기법들은 전반적인 분산을 줄임으로써 이상적인 값에 대한 응답과 분류 속도를 높이는 것으로 알려져 있다. 각 데이터셋은 여러 분류기들을 만들고 앙상블을 진행하는 데 사용된다. 이런 종류의 기법들에는 배깅과 부스팅이 있다.
부스팅
본 발명에 사용 된 분석 기법은 앙상블 기법들 중 하나인 부스팅이다. 부스팅 기법들은 1990년 Robert Schapire에 의해 도입되었으며 어도비부스팅(Adobeboosting), 그래디언트 부스팅(Gradient boosting) 및 XG부스트(XGBoost)와 같은 다양한 방법으로 개발되었다.
부스팅은 배깅과 비슷한 초기 샘플 데이터를 조작하여 많은 수의 분류기들을 생성하는 기술 중 하나이지만 가장 큰 차이점은 상기 부스팅이 순차적 인 방법이라는 것이다. 부스팅은 여러 개의 약한 학습자들을 순차적으로 훈련시키고, 잘못 예측된 데이터에 가중치를 추가하여 학습하고, 마지막으로 생성된 학습자를 사용하여 예측하는 기법이다. 즉, 이전 학습의 결과는 다음 학습에 영향을 미친다. 일반적으로 부팅 알고리즘은 주로 의사 결정 트리 모델을 사용하는 것으로 알려져 있으며 오버 피팅에 큰 장점이 있다.
도 26은 부스팅 알고리즘을 도시한 것이다.
상기 부스팅 알고리즘은 다음 순서로 진행된다.
1) 적절한 비율로 학습 자료와 테스트 데이터를 추출하고 이를 나눈다.
2) 부트스트랩 샘플링을 사용하여, 테스트 데이터에서 샘플을 추출하고 특정 학습 알고리즘에 적용하여 분류기를 생성한다.
3) 분류 결과로부터, 잘못 분류되고 추출되지 않은 데이터는 가중치가 부여되며 다음 학습을 위해 사용된다.
4) 이 과정을 반복한다. 완성된 모델을 사용하여 최종 분류기를 생성한다.
5) 검증을 위해, 모델의 성능은 테스트 데이터를 사용하여 평가된다.
XG부스트
부스팅 알고리즘에는 여러 가지가 있다. 본 발명의 일 실시예에서는 XG부스트 부스팅 알고리즘을 사용한다. XG부스트는 모델이 어떤 요인에 의존 하는지를 시각화하는 알고리즘이다. XG부스트의 병렬 컴퓨팅을 사용하면 데이터를 빠르게 학습하고 분류할 수 있다. 또한 유연성을 위한 평가 기능을 포함하여 다양한 사용자 정의 최적화 옵션을 제공한다. 따라서 어떤 요인들이 방문 장소에 가장 큰 영향을 미치는지 분석하는 것이 적절했다. XG부스트가 트리를 만들 때 CART(Classification and Regression Trees)라는 앙상블 모델을 사용한다. 그런 다음, 각 분류 기간의 가중치가 트리 부스팅을 사용하여 최적화된다. 상기 CART 모델은 일반적인 결정 트리와 약간 다르다. 단 하나의 리프 노드에 대한 결정 값을 갖는 결정 트리와 달리, 상기 CART는 모든 리프 노드들이 상기 모델의 최종 스코어와 연관됨을 의미한다. 따라서 결정 트리는 분류가 올바르게 수행되었는지 여부에만 초점을 맞추는 반면, 상기 CART는 동일한 분류 결과들이 있는 모델들 사이에서 모델의 우위를 비교할 수 있다.
성격 데이터-입력 데이터
성격 데이터는 BFF(Big Five Factor)의 다섯 가지 성격 유형으로 디지털화되었다. BFF는 1976년 심리학자 P. T. Costa와 R. McCrae에 의해 개발되었으며 상호 독립적인 다섯 가지 측면에서 인간의 성격을 설명하는 성격 심리적 모델이다. 개방성(O)은 상상력, 호기심, 모험, 예술적 감각으로 보수주의에 반대하는 경향이다. 성실성(C)는 진지하게 목표를 달성하려고하는 경향이다. 외향성(E)은 사회화, 자극 및 다른 사람들과의 활력을 추구하는 경향이다. 친화성(A)은 타인에게 반항하지 않는 협력 태도를 나타내는 경향이다. 신경증(N)은 분노, 우울증, 불안 같은 불쾌한 감정을 쉽게 느끼는 경향이다.
다른 개인적인 요인들-입력 데이터
성격이 없는 개인의 요인은 구글(Google) 양식에서 직접 작성되고 각 요인의 카테고리들이 정량화된 설문지를 통해 수집됐다. 도 27은 설문지에서 얻은 6 명의 지원자의 성격이 없는 사람의 특성 요인들이다.
Age는 나이를 의미하며, 1은 10대를, 2는 20대를, 3은 30대를, 4는 40대 이상을 의미한다. Job은 직업을 나타내며 ISCO(International Classification of Work) 표준에 '학생'을 추가하여 카테고리를 할당 받았다. 1은 학생, 2는 관리자, 3은 기술직, 5는 사무직, 6은 서비스 및 판매직, 7은 기술직, 8은 장치 및 기계 작업직, 9는 단순한 노동직을 위한 것이다. Marriage는 결혼 상태를 나타내며, 1은 기혼, 2는 미혼이다. Edu는 최종 교육을 의미하며, 1은 고등학교 졸업, 2는 고등학교 졸업, 3은 대학 졸업, 4는 석사 학위, 5는 박사 학위이다. Major는 전공을 나타내며, 1은 인문, 2는 사회, 3은 교육, 4는 공학, 5는 자연 과학, 6은 의학, 7은 예술이다. Religion은 종교를 나타내며, 1은 무신론자, 2는 기독교, 3은 카톨릭(카톨릭 교회), 4는 불교이다. Salary는 월 소득을 나타내며, 1은 50 만원 미만, 2는 100 만원 미만, 3은 100 만원 이상, 4는 200 만원 이상 300 만원 미만, 5는 300 만원 이상이다. Vehicle은 통근 수단을 나타내고, 1은 걷기, 2는 자전거 타기, 3은 자가 운전, 4는 대중교통이다. Comm T는 통근 시간을 나타내고, 1은 30 분 이내, 2는 1 시간 미만, 3은 1 시간 미만, 4는 2 시간 이상이다. Travel은 여행의 빈도를 나타내며, 1은 1 회 미만, 2는 4 회 미만, 3은 4 회 미만, 4는 6 회 이상이다. SNS는 SNS 사용을 나타내며, 1은 사용, 2는 사용안함이다. SNS2는 SNS의 일일 사용 시간을 나타내며, 1은 30 분 미만, 2는 30 분간 1 시간 미만, 3은 1 시간 미만, 4는 3 시간 이상이다. 마지막으로 Culture는 문화 생활을 나타내며, 1은 정적 활동의 혼합, 2는 동적 활동, 3은 정적 활동과 동적 활동을 모두 나타낸다.
위치 카테고리들-입력 데이터
SWARM 앱은 위치 데이터를 수집하는 데 사용되었다. SWARM은 사용자가 장소를 방문 할 때 방문 위치를 기록하는 응용 프로그램이다. SWARM을 사용하여 장소, 위치 및 방문 횟수를 수집했다. 도 28은 지원자1의 수집 된 위치 방문 데이터의 일부이다. 위치 데이터는 각 방문 데이터를 10 개의 업종 카테고리로 분류하고 각 카테고리에 대한 방문 횟수를 누적하여 작성되었다. 10 개의 업종 카테고리에는 외국 기관, 소매점, 서비스업 등이 포함된다. 마지막으로 위치 데이터는 총 방문 횟수와 각 카테고리의 방문 횟수 비율을 계산하여 얻는다. 도 29는 4 명의 지원자의 위치 데이터의 일부이다.
본 발명의 일 관점에 따라 분석 기술로서 XG부스트가 사용될 수 있다. 이때, 독립 변수는 BFF를 사용하여 얻은 성격 데이터와 질문지를 통해 얻은 나머지 요소에 대한 데이터를 병합하여 만든 개인의 특성 데이터이다. 도 30은 3 명의 지원자의 특성 데이터이다. 종속 변수는 위치 데이터이다. XG부스트에서 종속 변수와 독립 변수를 XGBRegressor ()에 삽입하여 회귀 모델을 만들었다. 그런 다음 이 회귀 모델에서 feature_importances를 실행하고 성격을 포함한 사람의 다양한 특성들 중에서 어떤 요인들이 위치 데이터에 가장 효과적인지를 확인했다.
A. 결과 분석
도 31은 각 위치 데이터에 대해 XG부스트를 이용하여 피쳐 중요도 분석을 수행한 결과를 나타낸다. y축(피쳐들)은 개인의 특성 요인들에 포함 된 각 요인을 나타낸다. X 축(중요도)은 종속 변수에 대한 독립 변수의 효율성을 나타낸다. 레이블들(f0~f17)은 도 30에서 리스트 된 요인들의 순서이다.
예를 들어, 도 31에서, 피쳐 중요도의 외국 기관들(도 31의 (a))은 외국 기관들로 분류된 위치 데이터에 f1 (C, 성실성)이 가장 큰 영향을 미친다는 것을 보여준다. 다음으로 그것은 f4 (N, 신경증), f3 (A, 친화성), f13 (Comm T) 등의 영향을 미친다. 반면에 피쳐 중요도의 소매점(도 31의 (b))은 소매점으로 분류 된 위치 데이터에 f0(O, 개방성)가 가장 큰 영향을 미치는 것으로 나타났다. 이는 각 요소가 각 위치 데이터에 다르게 영향을 미친다는 것을 나타낸다.
위치 기반 서비스 (LBS)는 향후 서비스에 대한 잠재력이 큰 새로운 문제 중 하나이다. 특히, 인간의 이동성 패턴을 이해하는 것이 LBS의 핵심 부분이다. 이 연구에서 분석된 사람들의 다양한 요소와 방문 위치의 상관관계를 이용하여 인간의 이동성 패턴을 분석 할 수 있다. 따라서 이 분석 결과는 확장되어 LBS에서 활용 될 수 있다. 또한 추천 시스템에 유용 할 것으로 기대된다. 추천 시스템은 넷플릭스(Netflix) 및 유튜브(YouTube)의 비디오 권장 사항과 같이 특정 사용자가 관심을 가질만한 정보를 추천하는 일종의 정보 필터링 기술이다. 특정 요인을 가진 사람들은 자주 방문을 특정 장소와 연관시켜 추천 시스템에 적용 할 수 있다.
본 발명의 일 관점에 따라, 개인으로부터 획득할 수 있는 미리 결정된 P개의 개인특성피쳐들을 이용하여 예측모델을 학습시키는 학습방법을 제공할 수 있다. 이때, 상기 학습방법은 컴퓨팅 장치에서, 총 K명의 사람들 중 k번째 사람(Ik)으로부터 수집한 상기 P개의 개인특성피쳐들인 kth-개인특성피쳐들(FSk)을 획득하는 단계 (단, k는 1 이상 K 이하의 자연수); 상기 컴퓨팅 장치에서, 상기 k번째 사람이 총 M개의 유형의 방문지들(PT)을 방문한 총 횟수인 kth.T-방문횟수에 대하여, 상기 k번째 사람이 상기 M개의 유형의 방문지들 중 m번째 유형의 방문지(PTm)를 방문한 횟수인 kth.mth-방문횟수의 비율인 kth.mth-방문비율(VRkm)을 획득하는 단계 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수); 및 상기 컴퓨팅 장치에서, 총 M개의 예비예측모델들 중 m번째 예비예측모델(LMm)의 입력층에 상기 kth-개인특성피쳐들(FSk)을 입력하였을 때에 상기 m번째 예비예측모델(LMm)의 출력층에서 출력하는 출력값인 kth.mth-출력값(OVkm)과 상기 kth.mth-방문비율(VRkm)의 차이값(Ekm)이 최소화되도록 상기 m번째 예비예측모델을 학습시키는 단계 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수)를 포함할 수 있다.
이때, 상기 m번째 예비예측모델(LMm)은 임의의 개인에 대한 상기 P개의 개인특성피쳐들(FS) 각각(Fp, p= 1, 2, 3, ..., P))이 상기 m번째 예비예측모델(LMm)의 출력층에서 출력하는 출력값(OVm)에 기여하는 정도를 나타내는 중요도인 mth.pth-중요도(Wmp)를 결정할 수 있도록 하는 예측모델 (단, m는 1 이상 M 이하의 자연수, p는 1 이상 P 이하의 자연수) 일 수 있다. 그리고 상기 학습방법은, 상기 컴퓨팅 장치에서, 상기 m번째 예비예측모델에 대하여, 총 P개의 상기 mth.pth-중요도들 중 상위 Q개의 중요도에 대응하는 총 Q개의 개인특성피쳐들(MSF)을 선정하는 단계 (단, m는 1 이상 M 이하의 자연수); 상기 컴퓨팅 장치에서, 상기 총 K명의 사람들 중 상기 k번째 사람으로부터 수집한 상기 Q개의 개인특성피쳐들인 kth.Q-개인특성피쳐들(MFSk)을 획득하는 단계 (단, k는 1 이상 K 이하의 자연수); 상기 컴퓨팅 장치에서, 총 M개의 본예측모델들 중 m번째 본예측모델(MLMm)의 입력층에 상기 kth.Q-개인특성피쳐들(MFSk)을 입력하였을 때에 상기 m번째 본예측모델(MLMm)의 출력층에서 출력하는 출력값인 kth.mth.Q-출력값(MOVkm)과 상기 kth.mth-방문비율(VRkm)의 차이값이 최소화되도록 상기 m번째 본예측모델(MLMm)을 학습시키는 단계 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수)를 더 포함할 수 있다.
이때, 상기 m번째 본예측모델(MLMm)과 상기 m번째 예비예측모델(LMm)은 동일한 예측모델일 수 있다.
이때, 상기 m번째 본예측모델(MLMm)은, 상기 Q개의 개인특성피쳐들(MSF) 각각(MFq)이 상기 m번째 본예측모델(MLMm)의 출력층에서 출력하는 출력값에 기여하는 정도를 나타내는 중요도를 결정하지 제공하지 않는 예측모델일 수 있다.
이때, 상기 m번째 예비예측모델(LMm)은 랜덤 포레스트 예측모델일 수 있다.
또는, 상기 m번째 예비예측모델(LMm)은 XG부스트 예측모델일 수 있다.
본 발명의 일 관점에 따라 개인으로부터 획득할 수 있는 미리 결정된 P개의 개인특성피쳐들(FS)을 이용하여 특정인이 총 M개의 유형의 방문지들(PT) 중 특정 유형의 방문지를 방문할 비율을 예측하는 방법을 제공할 수 있다. 상기 방법은, 컴퓨팅 장치에서, 특정인으로부터 수집한 상기 P개의 개인특성피쳐들인 제1개인특성피쳐들(FS1)을 획득하는 단계; 상기 컴퓨팅 장치에서, 학습이 완료된 총 M개의 예측모델들 중 m번째 예측모델(CLMm)의 입력층에 상기 제1개인특성피쳐들(FS1)을 입력하였을 때에 상기 m번째 예측모델(CLMm)의 출력층에서 출력하는 출력값(COV1m)을 획득하는 단계; 및 상기 컴퓨팅 장치에서, 상기 특정인이 상기 총 M개의 유형의 방문지들을 방문한 총 횟수를 T-방문횟수라고 두고, 상기 특정인이 상기 M개의 유형의 방문지들 중 m번째 유형의 방문지를 방문한 횟수를 mth-방문횟수라고 두었을 때에, 상기 획득한 출력값(COV1m)을 기초로 상기 mth-방문횟수를 상기 T-방문횟수로 나눈 값인 mth-방문비율(VR1m)을 예측하여 산출하는 단계를 포함할 수 있다.
이때, 상기 mth-방문비율(VR1m)은 상기 획득한 출력값(COV1m)과 동일할 수 있다.
이때, 학습이 완료된 상기 m번째 예측모델(CLMm)은, 상기 컴퓨팅 장치에서, 총 K명의 사람들 중 k번째 사람으로부터 수집한 상기 P개의 개인특성피쳐들인 kth-개인특성피쳐들(FSk)을 획득하는 단계 (단, k는 1 이상 K 이하의 자연수); 상기 컴퓨팅 장치에서, 상기 k번째 사람이 총 M개의 유형의 방문지들(PT)을 방문한 총 횟수인 kth.T-방문횟수에 대하여, 상기 k번째 사람이 상기 M개의 유형의 방문지들 중 m번째 유형의 방문지(PTm)를 방문한 횟수인 kth.mth-방문횟수의 비율인 kth.mth-방문비율(VRkm)을 획득하는 단계 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수); 및 상기 컴퓨팅 장치에서, 총 M개의 예비예측모델들(LM) 중 m번째 예비예측모델(LMm)의 입력층에 상기 kth-개인특성피쳐들(FSk)을 입력하였을 때에 상기 m번째 예비예측모델(LMm)의 출력층에서 출력하는 출력값인 kth.mth-출력값(OVkm)과 상기 kth.mth-방문비율(VRkm)의 차이값이 최소화되도록 상기 m번째 예비예측모델(LMm)을 학습시키는 단계 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수); 를 포함하는 학습방법에 의해 학습된 상기 m번째 예비예측모델(LMm)일 수 있다.
이때, 상기 산출된 mth-방문비율은, 상기 특정인에게 제공할 콘텐츠를 선택하기 위한 정보로서 이용될 수 있다.
본 발명의 다른 관점에 따라, 개인으로부터 획득할 수 있는 미리 결정된 Q개의 개인특성피쳐들(MFS)을 이용하여 특정인이 총 M개의 유형의 방문지들(PT) 중 특정 유형의 방문지를 방문할 비율을 예측하는 방법을 제공할 수 있다. 상기 방법은, 컴퓨팅 장치에서, 특정인으로부터 수집한 상기 Q개의 개인특성피쳐들인 제1개인특성피쳐들(MFS1)을 획득하는 단계; 상기 컴퓨팅 장치에서, 학습이 완료된 총 M개의 본예측모델들 중 m번째 본예측모델의 입력층에 상기 제1개인특성피쳐들(MFS1)을 입력하였을 때에 상기 m번째 본예측모델(MLMm)의 출력층에서 출력하는 출력값(MOV1m)을 획득하는 단계; 및 상기 컴퓨팅 장치에서, 상기 특정인이 상기 총 M개의 유형의 방문지들(PT)을 방문한 총 횟수를 T-방문횟수라고 두고, 상기 특정인이 상기 M개의 유형의 방문지들(PT) 중 m번째 유형의 방문지(PTm)를 방문한 횟수를 mth-방문횟수라고 두었을 때에, 상기 획득한 출력값(MOV1m)을 기초로 상기 mth-방문횟수를 상기 T-방문횟수로 나눈 값인 mth-방문비율(VR1m)을 예측하여 산출하는 단계;를 포함할 수 있다. 이때, 학습이 완료된 상기 m번째 본예측모델(MLMm)은, 상기 컴퓨팅 장치에서, 총 K명의 사람들 중 k번째 사람으로부터 수집한 P개의 개인특성피쳐들인 kth-개인특성피쳐들(FSk)을 획득하는 단계 (단, k는 1 이상 K 이하의 자연수); 상기 컴퓨팅 장치에서, 상기 k번째 사람이 총 M개의 유형의 방문지들(PT)을 방문한 총 횟수인 kth.T-방문횟수에 대하여, 상기 k번째 사람이 상기 M개의 유형의 방문지들(PT) 중 m번째 유형의 방문지(PTm)를 방문한 횟수인 kth.mth-방문횟수의 비율인 kth.mth-방문비율(VRkm)을 획득하는 단계 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수); 상기 컴퓨팅 장치에서, 총 M개의 예비예측모델들(LM) 중 m번째 예비예측모델(LMm)의 입력층에 상기 kth-개인특성피쳐들(FSk)을 입력하였을 때에 상기 m번째 예비예측모델(LMm)의 출력층에서 출력하는 출력값인 kth.mth-출력값(OVkm)과 상기 kth.mth-방문비율(VRkm)의 차이값(Ekm)이 최소화되도록 상기 m번째 예비예측모델(LMm)을 학습시키는 단계 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수); 상기 컴퓨팅 장치에서, 상기 m번째 예비예측모델(LMm)에 대하여, 총 P개의 상기 mth.pth-중요도들(Wm) 중 상위 Q개의 중요도에 대응하는 총 Q개의 개인특성피쳐들을 선정하는 단계 (단, m는 1 이상 M 이하의 자연수); 상기 컴퓨팅 장치에서, 상기 총 K명의 사람들 중 상기 k번째 사람으로부터 수집한 상기 Q개의 개인특성피쳐들인 kth.Q-개인특성피쳐들(MFSk)을 획득하는 단계 (단, k는 1 이상 K 이하의 자연수); 상기 컴퓨팅 장치에서, 총 M개의 본예측모델들(MLM) 중 m번째 본예측모델(MLMm)의 입력층에 상기 kth.Q-개인특성피쳐들(MFSk)을 입력하였을 때에 상기 m번째 본예측모델(MLMm)의 출력층에서 출력하는 출력값인 kth.mth.Q-출력값(MOVm)과 상기 kth.mth-방문비율(VRkm)의 차이값(MEkm)이 최소화되도록 상기 m번째 본예측모델(MLMm)을 학습시키는 단계 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수);를 포함하는 학습방법에 의해 학습된 상기 m번째 본예측모델(MLMm)일 수 있다. 그리고 상기 m번째 예비예측모델(LMm)은 상기 P개의 개인특성피쳐들(FS) 각각이 상기 m번째 예비예측모델(LMm)의 출력층에서 출력하는 출력값(OVm)에 미치는 중요도인 mth.pth-중요도(Wmp)를 결정할 수 있도록 하는 예측모델(단, m는 1 이상 M 이하의 자연수, p는 1 이상 P 이하의 자연수) 일 수 있다.
본 발명의 일 관점에 따라, 개인으로부터 획득할 수 있는 미리 결정된 P개의 개인특성피쳐들을 이용하여 예측모델을 학습시키는 컴퓨팅 장치를 제공할 수 있다. 상기 컴퓨터 장치는, 데이터 수집부; 및 연산부를 포함할 수 있다. 이때, 상기 연산부는, 상기 데이터 수집부를 통해, 총 K명의 사람들 중 k번째 사람으로부터 수집한 상기 P개의 개인특성피쳐들인 kth-개인특성피쳐들을 획득하도록 되어 있고 (단, k는 1 이상 K 이하의 자연수), 상기 데이터 수집부를 통해, 상기 k번째 사람이 총 M개의 유형의 방문지들을 방문한 총 횟수인 kth.T-방문횟수에 대하여, 상기 k번째 사람이 상기 M개의 유형의 방문지들 중 m번째 유형의 방문지를 방문한 횟수인 kth.mth-방문횟수의 비율인 kth.mth-방문비율을 획득하도록 되어 있고 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수), 그리고 총 M개의 예비예측모델들 중 m번째 예비예측모델의 입력층에 상기 kth-개인특성피쳐들을 입력하였을 때에 상기 m번째 예비예측모델의 출력층에서 출력하는 출력값인 kth.mth-출력값과 상기 kth.mth-방문비율의 차이값이 최소화되도록 상기 m번째 예비예측모델을 학습시키도록 되어 있을 수 있다(단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수).
본 발명의 다른 관점에 따라, 개인으로부터 획득할 수 있는 미리 결정된 P개의 개인특성피쳐들을 이용하여 특정인이 총 M개의 유형의 방문지들 중 특정 유형의 방문지를 방문할 비율을 예측하는 컴퓨팅 장치를 제공할 수 있다. 상기 컴퓨팅 장치는, 데이터 수집부; 및 연산부를 포함할 수 있다. 이때, 상기 연산부는, 상기 데이터 수집부를 통해, 특정인으로부터 수집한 상기 P개의 개인특성피쳐들인 제1개인특성피쳐들을 획득하도록 되어 있고, 학습이 완료된 총 M개의 예측모델들 중 m번째 예측모델의 입력층에 상기 제1개인특성피쳐들을 입력하였을 때에 상기 m번째 예측모델의 출력층에서 출력하는 출력값을 획득하도록 되어 있고, 그리고 상기 특정인이 상기 총 M개의 유형의 방문지들을 방문한 총 횟수를 T-방문횟수라고 두고, 상기 특정인이 상기 M개의 유형의 방문지들 중 m번째 유형의 방문지를 방문한 횟수를 mth-방문횟수라고 두었을 때에, 상기 획득한 출력값을 기초로 상기 mth-방문횟수를 상기 T-방문횟수로 나눈 값인 mth-방문비율을 산출하도록 되어 있을 수 있다.
본 발명에 따르면, 방문지 유형 마다 예측모델을 별도로 학습시키고, 각 유형의 방문지에 방문할 가능성을 예측하는 데에 가장 큰 영향을 주는 학습 데이터들을 예측모델마다 선정하고, 그리고 각 유형의 방문지마다 상기 선정된 학습 데이터만을 이용하여 예측모델을 새롭게 학습시키는 방법을 제공할 수 있다.
또한 각 유형의 방문지에 대하여 학습이 완료된 예측모델을 이용하여, 새롭게 관찰해야 하는 사람에게 추천할 추천 콘텐츠를 선정하는 방법을 제공하고자 한다.
또한 본 발명에 따르면, 랜덤 포레스트 기법 및 XG부스트 기법을 이용하여 방문지 유형과 개인 특성 피쳐들 간의 관계를 분석하는 기술을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따라 K명의 사람들 각각으로부터 수집할 수 있는 P개의 개인특성피쳐들을 나타낸다.
도 2는 본 발명의 일 실시예에 따라 임의의 사람으로부터 수집한 상기 P개의 개인특성피쳐들을 개념화하여 나타낸 것이다.
도 3은 본 발명의 일 실시예에 따라 임의의 사람이 방문하는 방문지들을 총 M개의 유형으로 분류하여 제시한 총 M개의 유형의 방문지들을 도식화하여 나타낸 것이다.
도 4는 본 발명의 일 실시예에 따라 제공되는 M개의 예비예측모델을 도식화하여 나타낸 것이다.
도 5는 본 발명의 일 실시예에 따라 m번째 예비예측모델을 학습시키는 방법을 나타낸 것이다.
도 6은 본 발명의 일 실시예에 따라, 예비예측모델에 입력되는 상기 P개의 개인특성피쳐들 각각이 상기 예비예측모델의 출력층에서 출력하는 출력값에 기여하는 정도를 나타내는 값인 중요도를 결정하는 개념에 대하여 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따라 총 P개의 개인특성피쳐들(FS) 중 일부인 총 Q개의 개인특성피쳐들(MSF)을 추출하는 방법을 설명하기 위한 개념도이다.
도 8은 본 발명의 일 실시예에 따라 임의의 사람으로부터 수집한 상기 P개의 개인특성피쳐들 중 추출한 총 Q개의 개인특성피쳐들을 나타낸 것이다.
도 9는 본 발명의 일 실시예에 따라 제공되는 M개의 본예측모델들을 도식화하여 나타낸 것이다.
도 10은 본 발명의 일 실시예에 따라 m번째 본예측모델을 학습시키는 방법을 나타낸 것이다.
도 11은 본 발명의 일 실시예에서 사용되는 M개의 예측모델들을 나타낸 것이다.
도 12는 본 발명의 일 실시예에 따라 특정인으로부터 추출한 개인특성피쳐들을 특정한 선택된 예측모델에 입력하여 특정 유형의 장소에 대한 상기 특정인의 방문비율에 관한 값을 출력하는 과정을 설명하기 위한 것이다.
도 13은 본 발명의 다른 실시예에 따라 특정 유형의 방문지를 방문할 비율을 예측하는 예측방법을 설명하기 위한 것이다.
도 14는 본 발명의 일 실시예에 따라 제공되는 컴퓨팅 장치의 구성을 나타낸 것이다.
도 15는 본 발명의 일 실시예에 따라 개인으로부터 획득할 수 있는 미리 결정된 P개의 개인특성피쳐들을 이용하여 예측모델을 학습시키는 학습방법을 나타낸 순서도이다.
도 16은 본 발명의 일 실시예에 따라 특정 유형의 방문지를 방문할 비율을 예측하는 예측방법을 나타낸 순서도이다.
도 17은 본 발명의 다른 실시예에 따라, 개인으로부터 획득할 수 있는 미리 결정된 Q개의 개인특성피쳐들(MFS)을 이용하여 특정인이 총 M개의 유형의 방문지들(PT) 중 특정 유형의 방문지를 방문할 비율을 예측하는 예측방법을 나타낸 순서도이다.
도 18은 여러 참가자의 BFF를 보여준다.
도 19는 각종 질문에 대한 사람 1의 응답을 나타낸 것이다.
도 20은 사람 16의 위치 데이터의 일부이다.
도 21은 사람 16의 데이터를 카테고리로 분류한 것이다.
도 22는 각 레이블마다의 SMAPE(Symmetric Mean Absolute Percentage Error) 값과 정확도, 가장 영향이 큰 상위 다섯 개의 피쳐들과 중요도 값을 표현한 것이다.
도 23a 및 도 23b는 실험의 결과로 만들어진 결정 트리 중 한 가지씩 랜덤으로 뽑아 제시한 것이다.
도 24a는 수집한 데이터로 랜덤 포레스트를 학습함으로써 생성되는 것일 수 있다.
도 24b는 랜덤 포레스트에 입력한 위치 데이터의 레이블이 교육기관인 경우에 있어서, 상기 위치(교육기관)로의 이동에 각 피쳐들이 미치는 중요도를 나타낸 것이다.
도 25는 본 발명의 일 실시예에 따라, 각 방문지에 대한 방문에 영향을 주는 개인 피쳐들의 중요도를 결정하는 방법을 나타낸 다이어그램이다.
도 26은 부스팅 알고리즘을 도시한 것이다.
도 27은 설문지에서 얻은 6 명의 지원자의 성격이 없는 사람의 특성 요인들이다.
도 28은 지원자1의 수집 된 위치 방문 데이터의 일부이다.
도 29는 4 명의 지원자의 위치 데이터의 일부이다.
도 30은 3 명의 지원자의 특성 데이터이다.
도 31은 각 위치 데이터에 대해 XG부스트를 이용하여 피쳐 중요도 분석을 수행한 결과를 나타낸다.
도 2는 본 발명의 일 실시예에 따라 임의의 사람으로부터 수집한 상기 P개의 개인특성피쳐들을 개념화하여 나타낸 것이다.
도 3은 본 발명의 일 실시예에 따라 임의의 사람이 방문하는 방문지들을 총 M개의 유형으로 분류하여 제시한 총 M개의 유형의 방문지들을 도식화하여 나타낸 것이다.
도 4는 본 발명의 일 실시예에 따라 제공되는 M개의 예비예측모델을 도식화하여 나타낸 것이다.
도 5는 본 발명의 일 실시예에 따라 m번째 예비예측모델을 학습시키는 방법을 나타낸 것이다.
도 6은 본 발명의 일 실시예에 따라, 예비예측모델에 입력되는 상기 P개의 개인특성피쳐들 각각이 상기 예비예측모델의 출력층에서 출력하는 출력값에 기여하는 정도를 나타내는 값인 중요도를 결정하는 개념에 대하여 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따라 총 P개의 개인특성피쳐들(FS) 중 일부인 총 Q개의 개인특성피쳐들(MSF)을 추출하는 방법을 설명하기 위한 개념도이다.
도 8은 본 발명의 일 실시예에 따라 임의의 사람으로부터 수집한 상기 P개의 개인특성피쳐들 중 추출한 총 Q개의 개인특성피쳐들을 나타낸 것이다.
도 9는 본 발명의 일 실시예에 따라 제공되는 M개의 본예측모델들을 도식화하여 나타낸 것이다.
도 10은 본 발명의 일 실시예에 따라 m번째 본예측모델을 학습시키는 방법을 나타낸 것이다.
도 11은 본 발명의 일 실시예에서 사용되는 M개의 예측모델들을 나타낸 것이다.
도 12는 본 발명의 일 실시예에 따라 특정인으로부터 추출한 개인특성피쳐들을 특정한 선택된 예측모델에 입력하여 특정 유형의 장소에 대한 상기 특정인의 방문비율에 관한 값을 출력하는 과정을 설명하기 위한 것이다.
도 13은 본 발명의 다른 실시예에 따라 특정 유형의 방문지를 방문할 비율을 예측하는 예측방법을 설명하기 위한 것이다.
도 14는 본 발명의 일 실시예에 따라 제공되는 컴퓨팅 장치의 구성을 나타낸 것이다.
도 15는 본 발명의 일 실시예에 따라 개인으로부터 획득할 수 있는 미리 결정된 P개의 개인특성피쳐들을 이용하여 예측모델을 학습시키는 학습방법을 나타낸 순서도이다.
도 16은 본 발명의 일 실시예에 따라 특정 유형의 방문지를 방문할 비율을 예측하는 예측방법을 나타낸 순서도이다.
도 17은 본 발명의 다른 실시예에 따라, 개인으로부터 획득할 수 있는 미리 결정된 Q개의 개인특성피쳐들(MFS)을 이용하여 특정인이 총 M개의 유형의 방문지들(PT) 중 특정 유형의 방문지를 방문할 비율을 예측하는 예측방법을 나타낸 순서도이다.
도 18은 여러 참가자의 BFF를 보여준다.
도 19는 각종 질문에 대한 사람 1의 응답을 나타낸 것이다.
도 20은 사람 16의 위치 데이터의 일부이다.
도 21은 사람 16의 데이터를 카테고리로 분류한 것이다.
도 22는 각 레이블마다의 SMAPE(Symmetric Mean Absolute Percentage Error) 값과 정확도, 가장 영향이 큰 상위 다섯 개의 피쳐들과 중요도 값을 표현한 것이다.
도 23a 및 도 23b는 실험의 결과로 만들어진 결정 트리 중 한 가지씩 랜덤으로 뽑아 제시한 것이다.
도 24a는 수집한 데이터로 랜덤 포레스트를 학습함으로써 생성되는 것일 수 있다.
도 24b는 랜덤 포레스트에 입력한 위치 데이터의 레이블이 교육기관인 경우에 있어서, 상기 위치(교육기관)로의 이동에 각 피쳐들이 미치는 중요도를 나타낸 것이다.
도 25는 본 발명의 일 실시예에 따라, 각 방문지에 대한 방문에 영향을 주는 개인 피쳐들의 중요도를 결정하는 방법을 나타낸 다이어그램이다.
도 26은 부스팅 알고리즘을 도시한 것이다.
도 27은 설문지에서 얻은 6 명의 지원자의 성격이 없는 사람의 특성 요인들이다.
도 28은 지원자1의 수집 된 위치 방문 데이터의 일부이다.
도 29는 4 명의 지원자의 위치 데이터의 일부이다.
도 30은 3 명의 지원자의 특성 데이터이다.
도 31은 각 위치 데이터에 대해 XG부스트를 이용하여 피쳐 중요도 분석을 수행한 결과를 나타낸다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
이하, 본 발명의 일 실시예에 따라 개인으로부터 획득할 수 있는 미리 결정된 P개의 개인특성피쳐들을 이용하여 예측모델을 학습시키는 학습방법을 설명한다.
도 1은 본 발명의 일 실시예에 따라 K명의 사람들 각각으로부터 수집할 수 있는 P개의 개인특성피쳐들을 나타낸다.
도 2는 본 발명의 일 실시예에 따라 임의의 사람으로부터 수집한 상기 P개의 개인특성피쳐들을 개념화하여 나타낸 것이다.
도 3은 본 발명의 일 실시예에 따라 임의의 사람이 방문하는 방문지들을 총 M개의 유형으로 분류하여 제시한 총 M개의 유형의 방문지들을 도식화하여 나타낸 것이다.
도 4는 본 발명의 일 실시예에 따라 제공되는 M개의 예비예측모델을 도식화하여 나타낸 것이다.
도 5는 본 발명의 일 실시예에 따라 m번째 예비예측모델을 학습시키는 방법을 나타낸 것이다.
이하, 도 1 내지 도 5를 함께 참조하여 설명한다.
K명의 사람들 중 임의의 사람인 k번째 사람으로부터 P개의 개인특성피쳐들(FS k)을 소정의 방법으로 획득할 수 있다. 상기 소정의 방법은 설문 조사 및 사용자기기를 통한 자동 획득의 다양한 획득방법으로 조사될 수 있는 것이며, 그 구체적인 방법에 의해 본 발명의 범위가 본질적으로 제한되는 것은 아니다. FS k는 복수 개의 스칼라값들의 집합으로서 어레이로 표현될 수 있다.
각각의 사람에 대하여 P개의 개인특성피쳐들을 추출할 수 있으므로, 총 K명의 사람들로부터는 총 K*P개의 개의 개인특성피쳐들을 추출할 수 있다.
단계(S10)에서, 본 발명의 일 실시예에 따른 예측모델을 학습시키는 학습방법은, 컴퓨팅 장치가, 총 K명의 사람들 중 k번째 사람(Ik)으로부터 수집한 상기 P개의 개인특성피쳐들인 kth-개인특성피쳐들(FS k)을 획득할 수 있다. 이때, k는 1 이상 K 이하의 자연수일 수 있다.
본 명세서에서 임의의 사람으로부터 수직한 상기 P개의 개인특성피쳐들은 도 2에 도시한 것과 같이 FS로 표시할 수 있으며, FS가 나타내는 어레이는 F1, F2, F3, ..., Fp, ..., FP 의 요소를 가질 수 있다. 도 2에 나타낸 표기법에서는 특정인을 나타내는 아래첨자 k를 생량하였다. 즉 도 2에 나타낸 표기법에서는 특정되지 않은 한 사람에 대한 P개의 개인특성피쳐들을 나타낸다.
그 다음 단계(S20)에서, 상기 학습방법은, 상기 컴퓨팅 장치가, 상기 k번째 사람(Ik)이 총 M개의 유형의 방문지들(PT)을 방문한 총 횟수인 kth.T-방문횟수에 대하여, 상기 k번째 사람이 상기 M개의 유형의 방문지들 중 m번째 유형의 방문지(PTm)를 방문한 횟수인 kth.mth-방문횟수의 비율인 kth.mth-방문비율(VRkm)을 획득할 수 있다. 이때, k는 1 이상 K 이하의 자연수이고, m는 1 이상 M 이하의 자연수일 수 있다.
여기서 상기 총 M개의 유형의 방문지들(PT)은 도 3에 나타낸 것과 같이 제시될 수 있다. 예컨대 각각의 유형은 병원(PT1), 교회(PT2), 학교(PT3), ..., 식당(PTm), .... 극장(PTM) 등으로 분류될 수 있다.
즉, 총 M개의 유형의 방문지들(PT)은 각 유형을 나타내는 방문지들로 구성되는 어레이일 수 있다.
예컨대 상기 k번째 사람이 1번째 유형의 방문지(PT1), 2번째 유형의 방문지(PT2), 3번째 유형의 방문지(PT3), ,,,. m번째 유형의 방문지(PTm), ..., M번째 유형의 방문지(PTM)를 방문한 횟수는 각각, 10, 20, 14, ..., 4, ....30일 수 있다. 그리고 상기 k번째 사람(Ik)이 총 M개의 유형의 방문지들(PT)을 방문한 총 횟수인 kth.T-방문횟수는 위의 개별 유형의 방문지들을 방문한 각 횟수들을 서로 모두 더한 값일 수 있다.
따라서 상기 kth.mth-방문비율(VRkm)은 0 이상 1 이하의 실수값을 가질 수 있다.
그 다음, 상기 학습방법은 단계(S30)에서, 도 4 및 도 5에 나타낸 바와 같이, 상기 컴퓨팅 장치가, 총 M개의 예비예측모델들(LM) 중 m번째 예비예측모델(LMm)의 입력층에 상기 kth-개인특성피쳐들(FS k)을 입력하였을 때에 상기 m번째 예비예측모델(LMm)의 출력층에서 출력하는 출력값인 kth.mth-출력값(OVkm)과 상기 kth.mth-방문비율(VRkm )의 차이값(Ekm)이 최소화되도록 상기 m번째 예비예측모델(LMm)을 학습시킬 수 있다. 이때, k는 1 이상 K 이하의 자연수이고, m는 1 이상 M 이하의 자연수일 수 있다.
도 6은 본 발명의 일 실시예에 따라, 예비예측모델에 입력되는 상기 P개의 개인특성피쳐들 각각이 상기 예비예측모델의 출력층에서 출력하는 출력값에 기여하는 정도를 나타내는 값인 중요도를 결정하는 개념에 대하여 설명하기 위한 도면이다.
상기 중요도는 변수 중요도로 지칭될 수 있는데, 상기 변수 중요도는 변수가 정확도(Accuracy)와 노드 불순도(Node Impurity) 개선에 얼마만큼 기여하는 지로 측정된다. 랜덤 포레스트에 한해서 설명을 하자면, 배깅을 통해 일부 변수만 추출하여 결정트리를 만들고 예측을 하게 되는데, 그 단계에서 정확도가 좋게 나오게 하는 변수들이 높은 중요도를 갖게 된다.
도 5에서 설명한 상기 m번째 예비예측모델(LMm)은, 임의의 개인에 대한 상기 P개의 개인특성피쳐들(FS) 각각(Fp, p= 1, 2, 3, ..., P))이 상기 m번째 예비예측모델(LMm)의 출력층에서 출력하는 출력값(OVm)에 기여하는 정도를 나타내는 값인 mth.pth-중요도(Wmp)를 결정할 수 있도록 하는 특징을 갖는 예측모델이다. 여기서, m는 1 이상 M 이하의 자연수이고, p는 1 이상 P 이하의 자연수일 수 있다. 여기서, 현재 공개되어 있는 다양한 예측모델 중 예컨대 신경망 예측모델은 이러한 상기 특징을 갖지 않는다는 점에 주목해야 한다. 그리고 예컨대 현재 공개되어 있는 다양한 예측모델 중 상술한 랜덤 포레스트 예측모델과 XG부스트 예측모델은 상기 특징을 갖는다는 점에 주목해야 한다. 즉, 현재 공개되어 있는 다양한 예측모델 모두가 상술한 특징을 갖지는 않는다는 점에 주목해야 한다.
본 발명의 일 실시예에서, 상기 m번째 예비예측모델(LMm)은 랜덤 포레스트 예측모델일 수 있다.
본 발명의 다른 실시예에서, 상기 m번째 예비예측모델(LMm)은 XG부스트 예측모델일 수 있다.
도 7은 본 발명의 일 실시예에 따라 총 P개의 개인특성피쳐들(FS) 중 일부인 총 Q개의 개인특성피쳐들(MSF)을 추출하는 방법을 설명하기 위한 개념도이다.
도 8은 본 발명의 일 실시예에 따라 임의의 사람으로부터 수집한 상기 P개의 개인특성피쳐들 중 추출한 총 Q개의 개인특성피쳐들을 나타낸 것이다.
도 9는 본 발명의 일 실시예에 따라 제공되는 M개의 본예측모델들을 도식화하여 나타낸 것이다.
도 10은 본 발명의 일 실시예에 따라 m번째 본예측모델을 학습시키는 방법을 나타낸 것이다.
이하 도 7 내지 도 10을 함께 참조하여 설명한다.
도 1 내지 도 5를 함께 참조하여 설명한 학습방법은 후술하는 다음의 단계들을 더 포함할 수 있다.
단계(S40)에서, 도 7에 도시한 바와 같이, 상기 컴퓨팅 장치가, 상기 m번째 예비예측모델(LMm)에 대하여, 총 P개의 상기 mth.pth-중요도들(W m) 중 상위 Q개의 중요도에 대응하는 총 Q개의 개인특성피쳐들(MSF)을 선정할 수 있다. 이때, m는 1 이상 M 이하의 자연수일 수 있다.
그 다음, 단계(S50)에서, 도 7에 도시한 바와 같이, 상기 컴퓨팅 장치가, 상기 총 K명의 사람들 중 상기 k번째 사람(Ik)으로부터 수집한 상기 Q개의 개인특성피쳐들인 kth.Q-개인특성피쳐들(MFS k)을 획득할 수 있다. 이때, k는 1 이상 K 이하의 자연수일 수 있다.
그 다음, 도 8 내지 도 10에 나타낸 바와 같이, 단계(S60)에서, 상기 컴퓨팅 장치가, 총 M개의 본예측모델들(MLM) 중 m번째 본예측모델(MLMm)의 입력층에 상기 kth.Q-개인특성피쳐들(MFS k)을 입력하였을 때에 상기 m번째 본예측모델(MLMm)의 출력층에서 출력하는 출력값인 kth.mth.Q-출력값(MOVkm)과 상기 kth.mth-방문비율(VRkm)의 차이값이 최소화되도록 상기 m번째 본예측모델(MLMm)을 학습시킬 수 있다. 이때, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수일 수 있다.
본 발명의 일 실시예에서, 상기 m번째 본예측모델(MLMm)과 상기 m번째 예비예측모델(LMm)은 동일한 예측모델일 수도 있다.
본 발명의 다른 실시예에서, 상기 m번째 본예측모델(MLMm)은, 상기 Q개의 개인특성피쳐들(MSF) 각각(MFq)이 상기 m번째 본예측모델(MLMm)의 출력층에서 출력하는 출력값에 기여하는 정도를 나타내는 값인 중요도를 결정하여 제공하지 않는 예측모델일 수 있다. 예컨대 상기 m번째 본예측모델(MLMm)은 신경망 예측모델일 수 있다.
상기 P개의 개인특성피쳐들(SF)로부터 상기 Q개의 개인특성피쳐들(MSF)을 추출하는 과정은, 상기 M개의 유형의 방문지들 각각에 대하여 독립적으로 수행될 수 있다. 즉, 각각의 유형의 방문지들마다 중요하게 여겨지는 Q개의 개인특성피쳐들은 서로 다를 수 있다. 예컨대 제1 유형의 방문지에 대하여는 상기 P개의 개인특성피쳐들(SF)로부터 Q개의 제1개인특성피쳐들이 선택되고, 제2 유형의 방문지에 대하여는 상기 P개의 개인특성피쳐들(SF)로부터 Q개의 제2개인특성피쳐들이 선택될 수 있는데, 이때 상기 제1개인특성피쳐들과 상기 제2개인특성피쳐들이 완전히 서로 같이 않을 수 있다. 이러한 본 발명의 특징은, 각 유형의 방문지를 방문하는 데에 작용하는 개일별 특성피쳐들이 유형별로 다를 수 있다는 인식에서 비롯된 것이다.
이하 본 발명의 일 실시예에 따라, 개인으로부터 획득할 수 있는 미리 결정된 P개의 개인특성피쳐들(FS)을 이용하여 특정인이 총 M개의 유형의 방문지들(PT) 중 특정 유형의 방문지를 방문할 비율을 예측하는 예측방법을 설명한다. 이 방법은 학습이 완료된 예측모델을 이용하는 것일 수 있다.
도 11은 본 발명의 일 실시예에서 사용되는 M개의 예측모델들을 나타낸 것이다.
도 12는 본 발명의 일 실시예에 따라 특정인으로부터 추출한 개인특성피쳐들을 특정한 선택된 예측모델에 입력하여 특정 유형의 장소에 대한 상기 특정인의 방문비율에 관한 값을 출력하는 과정을 설명하기 위한 것이다.
상기 특정 유형의 방문지를 방문할 비율을 예측하는 예측방법은 다음의 단계들을 포함할 수 있다.
단계(S110)에서, 컴퓨팅 장치가, 특정인으로부터 수집한 상기 P개의 개인특성피쳐들인 제1개인특성피쳐들(FS 1)을 획득할 수 있다.
그 다음, 단계(S120)에서, 상기 컴퓨팅 장치가, 학습이 완료된 총 M개의 예측모델들 중 m번째 예측모델(CLMm)의 입력층에 상기 제1개인특성피쳐들(FS 1)을 입력하였을 때에 상기 m번째 예측모델(CLMm)의 출력층에서 출력하는 출력값(COV1m)을 획득할 수 있다.
그 다음, 단계(S130)에서, 상기 컴퓨팅 장치가, 상기 특정인이 상기 총 M개의 유형의 방문지(PT)들을 방문한 총 횟수를 T-방문횟수라고 가정하고, 상기 특정인이 상기 M개의 유형의 방문지들(PT) 중 m번째 유형의 방문지(PTm)를 방문한 횟수를 mth-방문횟수라고 두었을 때에, 상기 획득한 출력값(COV1m)을 기초로 상기 mth-방문횟수를 상기 T-방문횟수로 나눈 값인 mth-방문비율(VR1m)을 예측하여 산출할 수 있다.
이때, 상기 mth-방문비율(VR1m)은 상기 획득한 출력값(COV1m)과 동일한 값으로 정의될 수도 있다.
이때, 상술한 단계(S120)에서 학습이 완료된 상기 m번째 예측모델(CLMm)은, 상술한 단계(S10), 단계(20), 및 단계(S30)을 통해 획득된 것일 수 있다.
이때, 상기 단계(S130)에서 산출된 mth-방문비율(VR1m)은, 상기 특정인에게 제공할 콘텐츠를 선택하기 위한 정보로서 이용될 수 있다. 예컨대 mth-방문비율(VR1m)이 상당히 큰 값을 나타낸다면, 상기 m번째 유형의 방문지(PTm)에 관련된 콘텐츠를 상기 특정인에게 제공하는 것이 의미있는 일이 될 수 있다. 그러나 mth-방문비율(VR1m)이 상당히 작은 값을 나타낸다면, 상기 m번째 유형의 방문지(PTm)에 관련된 콘텐츠를 상기 특정인에게 제공하는 것은 의미 없는 일이 될 수 있다.
상기 콘텐츠는 예컨대 광고 콘텐츠, 미디어 콘텐츠 등 다양한 개념의 콘텐츠일 수 있다.
도 13은 본 발명의 다른 실시예에 따라 특정 유형의 방문지를 방문할 비율을 예측하는 예측방법을 설명하기 위한 것이다.
이하 본 발명의 다른 실시예에 따라, 개인으로부터 획득할 수 있는 미리 결정된 Q개의 개인특성피쳐들(MFS)을 이용하여 특정인이 총 M개의 유형의 방문지들(PT) 중 특정 유형의 방문지를 방문할 비율을 예측하는 예측방법을 설명한다. 이 예측방법은 다음의 단계들을 포함할 수 있다.
단계(S210)에서, 컴퓨팅 장치가, 특정인으로부터 수집한 상기 Q개의 개인특성피쳐들인 제1개인특성피쳐들(MFS 1)을 획득할 수 있다.
그리고 단계(S220)에서, 상기 컴퓨팅 장치가, 학습이 완료된 총 M개의 본예측모델들(MLM) 중 m번째 본예측모델(MLMm)의 입력층에 상기 제1개인특성피쳐들(MFS 1)을 입력하였을 때에 상기 m번째 본예측모델(MLMm)의 출력층에서 출력하는 출력값(MOV1m)을 획득할 수 있다.
그리고 단계(S230)에서, 상기 컴퓨팅 장치가, 상기 특정인이 상기 총 M개의 유형의 방문지들(PT)을 방문한 총 횟수를 T-방문횟수라고 두고, 상기 특정인이 상기 M개의 유형의 방문지들(PT) 중 m번째 유형의 방문지(PTm)를 방문한 횟수를 mth-방문횟수라고 두었을 때에, 상기 획득한 출력값(MOV1m)을 기초로 상기 mth-방문횟수를 상기 T-방문횟수로 나눈 값인 mth-방문비율(VR1m)을 예측하여 산출할 수 있다.
학습이 완료된 상기 m번째 본예측모델(MLMm)은, 상술한 단계(S10), 단계(S20), 및 단계(S30), 단계(S40), 단계(S50), 및 단계(S60)를 실행하여 학습된 것일 수 있다.
이때, 상기 m번째 예비예측모델(LMm)은 상기 P개의 개인특성피쳐들(FS) 각각이 상기 m번째 예비예측모델(LMm)의 출력층에서 출력하는 출력값(OVm)에 기여하는 정도를 나타내는 값인 mth.pth-중요도(Wmp)를 결정할 수 있도록 하는 예측모델일 수 있다. 그리고 m는 1 이상 M 이하의 자연수이고, p는 1 이상 P 이하의 자연수일 수 있다.
도 14는 본 발명의 일 실시예에 따라 제공되는 컴퓨팅 장치의 구성을 나타낸 것이다.
본 발명의 일 실시예에 따라 제공되는 컴퓨팅 장치(101)는, 개인으로부터 획득할 수 있는 미리 결정된 P개의 개인특성피쳐들을 이용하여 예측모델을 학습시키는 컴퓨팅 장치일 수 있다. 이 컴퓨팅 장치는 데이터 수집부(110); 및 연산부(120)를 포함할 수 있다. 상기 연산부(120)는, 상술한 단계(S10), 단계(S20), 및 단계(S30)를 실행하도록 되어 있을 수 있다. 또한 상기 연산부는, 상술한 단계(S110), 단계(S120), 및 단계(S130)를 실행하도록 되어 있을 수 있다. 또한 상기 연산부는, 상술한 단계(S40), 단계(S50), 및 단계(S60)를 실행하도록 되어 있을 수 있다. 또한 상기 연산부(120)는, 상술한 단계(S210), 단계(S220), 및 단계(S230)를 실행하도록 되어 있을 수 있다. 상기 연산부(120)의 연산에 필요한 데이터는 상기 데이터 수집부(110)로부터 획득할 수 있다. 상기 데이터 수집부(110)는 외부의 사용자기기 및/또는 사용자 인터페이스를 통해 필요한 데이터를 수집할 수 있다.
도 15는 본 발명의 일 실시예에 따라 개인으로부터 획득할 수 있는 미리 결정된 P개의 개인특성피쳐들을 이용하여 예측모델을 학습시키는 학습방법을 나타낸 순서도이다.
단계(S10)에서, 컴퓨팅 장치가, 총 K명의 사람들 중 k번째 사람(Ik)으로부터 수집한 상기 P개의 개인특성피쳐들인 kth-개인특성피쳐들(FS k)을 획득할 수 있다.
단계(S20)에서, 상기 컴퓨팅 장치가, 상기 k번째 사람(Ik)이 총 M개의 유형의 방문지들(PT)을 방문한 총 횟수인 kth.T-방문횟수에 대하여, 상기 k번째 사람이 상기 M개의 유형의 방문지들 중 m번째 유형의 방문지(PTm)를 방문한 횟수인 kth.mth-방문횟수의 비율인 kth.mth-방문비율(VRkm)을 획득할 수 있다.
단계(S30)에서, 상기 컴퓨팅 장치가, 총 M개의 예비예측모델들 중 m번째 예비예측모델(LMm)의 입력층에 상기 kth-개인특성피쳐들(FS k)을 입력하였을 때에 상기 m번째 예비예측모델(LMm)의 출력층에서 출력하는 출력값인 kth.mth-출력값(OVkm)과 상기 kth.mth-방문비율(VRkm )의 차이값(Ekm)이 최소화되도록 상기 m번째 예비예측모델(LMm)을 학습시킬 수 있다.
단계(S40)에서, 상기 컴퓨팅 장치가, 상기 m번째 예비예측모델(LMm)에 대하여, 총 P개의 상기 mth.pth-중요도들(W m) 중 상위 Q개의 중요도에 대응하는 총 Q개의 개인특성피쳐들(MSF)을 선정할 수 있다.
단계(S50)에서, 상기 컴퓨팅 장치가, 상기 총 K명의 사람들 중 상기 k번째 사람(Ik)으로부터 수집한 상기 Q개의 개인특성피쳐들인 kth.Q-개인특성피쳐들(MFS k)을 획득할 수 있다.
그 다음, 단계(S60)에서, 상기 컴퓨팅 장치가, 총 M개의 본예측모델들(MLM) 중 m번째 본예측모델(MLMm)의 입력층에 상기 kth.Q-개인특성피쳐들(MFS k)을 입력하였을 때에 상기 m번째 본예측모델(MLMm)의 출력층에서 출력하는 출력값인 kth.mth.Q-출력값(MOVkm)과 상기 kth.mth-방문비율(VRkm)의 차이값이 최소화되도록 상기 m번째 본예측모델(MLMm)을 학습시킬 수 있다.
도 16은 본 발명의 일 실시예에 따라 특정 유형의 방문지를 방문할 비율을 예측하는 예측방법을 나타낸 순서도이다.
단계(S110)에서, 컴퓨팅 장치가, 특정인으로부터 수집한 상기 P개의 개인특성피쳐들인 제1개인특성피쳐들(FS 1)을 획득할 수 있다.
그 다음, 단계(S120)에서, 상기 컴퓨팅 장치가, 학습이 완료된 총 M개의 예측모델들 중 m번째 예측모델(CLMm)의 입력층에 상기 제1개인특성피쳐들(FS 1)을 입력하였을 때에 상기 m번째 예측모델(CLMm)의 출력층에서 출력하는 출력값(COV1m)을 획득할 수 있다.
그 다음, 단계(S130)에서, 상기 컴퓨팅 장치가, 상기 특정인이 상기 총 M개의 유형의 방문지(PT)들을 방문한 총 횟수를 T-방문횟수라고 가정하고, 상기 특정인이 상기 M개의 유형의 방문지들(PT) 중 m번째 유형의 방문지(PTm)를 방문한 횟수를 mth-방문횟수라고 두었을 때에, 상기 획득한 출력값(COV1m)을 기초로 상기 mth-방문횟수를 상기 T-방문횟수로 나눈 값인 mth-방문비율(VR1m)을 예측하여 산출할 수 있다.
도 17은 본 발명의 다른 실시예에 따라, 개인으로부터 획득할 수 있는 미리 결정된 Q개의 개인특성피쳐들(MFS)을 이용하여 특정인이 총 M개의 유형의 방문지들(PT) 중 특정 유형의 방문지를 방문할 비율을 예측하는 예측방법을 나타낸 순서도이다.
단계(S210)에서, 컴퓨팅 장치가, 특정인으로부터 수집한 상기 Q개의 개인특성피쳐들인 제1개인특성피쳐들(MFS 1)을 획득할 수 있다.
그리고 단계(S220)에서, 상기 컴퓨팅 장치가, 학습이 완료된 총 M개의 본예측모델들(MLM) 중 m번째 본예측모델(MLMm)의 입력층에 상기 제1개인특성피쳐들(MFS 1)을 입력하였을 때에 상기 m번째 본예측모델(MLMm)의 출력층에서 출력하는 출력값(MOV1m)을 획득할 수 있다.
그리고 단계(S230)에서, 상기 컴퓨팅 장치가, 상기 특정인이 상기 총 M개의 유형의 방문지들(PT)을 방문한 총 횟수를 T-방문횟수라고 두고, 상기 특정인이 상기 M개의 유형의 방문지들(PT) 중 m번째 유형의 방문지(PTm)를 방문한 횟수를 mth-방문횟수라고 두었을 때에, 상기 획득한 출력값(MOV1m)을 기초로 상기 mth-방문횟수를 상기 T-방문횟수로 나눈 값인 mth-방문비율(VR1m)을 예측하여 산출할 수 있다.
상술한 본 발명의 실시예들을 이용하여, 본 발명의 기술 분야에 속하는 자들은 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에 다양한 변경 및 수정을 용이하게 실시할 수 있을 것이다. 특허청구범위의 각 청구항의 내용은 본 명세서를 통해 이해할 수 있는 범위 내에서 인용관계가 없는 다른 청구항에 결합될 수 있다.
Claims (13)
- 개인으로부터 획득할 수 있는 미리 결정된 P개의 개인특성피쳐들을 이용하여 예측모델을 학습시키는 학습방법으로서,
컴퓨팅 장치에서, 총 K명의 사람들 중 k번째 사람(Ik)으로부터 수집한 상기 P개의 개인특성피쳐들인 kth-개인특성피쳐들(FS k)을 획득하는 단계 (단, k는 1 이상 K 이하의 자연수);
상기 컴퓨팅 장치에서, 상기 k번째 사람이 총 M개의 유형의 방문지들(PT)을 방문한 총 횟수인 kth.T-방문횟수에 대하여, 상기 k번째 사람이 상기 M개의 유형의 방문지들 중 m번째 유형의 방문지(PTm)를 방문한 횟수인 kth.mth-방문횟수의 비율인 kth.mth-방문비율(VRkm)을 획득하는 단계 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수); 및
상기 컴퓨팅 장치에서, 총 M개의 예비예측모델들 중 m번째 예비예측모델(LMm)의 입력층에 상기 kth-개인특성피쳐들(FS k)을 입력하였을 때에 상기 m번째 예비예측모델(LMm)의 출력층에서 출력하는 출력값인 kth.mth-출력값(OVkm)과 상기 kth.mth-방문비율(VRkm )의 차이값(Ekm)이 최소화되도록 상기 m번째 예비예측모델을 학습시키는 단계 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수);
를 포함하며,
상기 m번째 예비예측모델(LMm)은 임의의 개인에 대한 상기 P개의 개인특성피쳐들(FS) 각각(Fp, p= 1, 2, 3, ..., P))이 상기 m번째 예비예측모델(LMm)의 출력층에서 출력하는 출력값(OVm)에 기여하는 정도를 나타내는 중요도인 mth.pth-중요도(Wmp)를 결정할 수 있도록 하는 예측모델이며 (단, m는 1 이상 M 이하의 자연수, p는 1 이상 P 이하의 자연수),
상기 m번째 예비예측모델을 학습시키는 단계 이후에,
상기 컴퓨팅 장치에서, 상기 m번째 예비예측모델에 대하여, 총 P개의 상기 mth.pth-중요도들 중 상위 Q개의 중요도에 대응하는 총 Q개의 개인특성피쳐들(MSF)을 선정하는 단계 (단, m는 1 이상 M 이하의 자연수);
상기 컴퓨팅 장치에서, 상기 총 K명의 사람들 중 상기 k번째 사람으로부터 수집한 상기 Q개의 개인특성피쳐들인 kth.Q-개인특성피쳐들(MFS k)을 획득하는 단계 (단, k는 1 이상 K 이하의 자연수);
상기 컴퓨팅 장치에서, 총 M개의 본예측모델들 중 m번째 본예측모델(MLMm)의 입력층에 상기 kth.Q-개인특성피쳐들(MFS k)을 입력하였을 때에 상기 m번째 본예측모델(MLMm)의 출력층에서 출력하는 출력값인 kth.mth.Q-출력값(MOVkm)과 상기 kth.mth-방문비율(VRkm)의 차이값이 최소화되도록 상기 m번째 본예측모델(MLMm)을 학습시키는 단계 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수);
를 더 포함하는,
학습방법. - 삭제
- 제1항에 있어서, 상기 m번째 본예측모델(MLMm)과 상기 m번째 예비예측모델(LMm)은 동일한 예측모델인, 학습방법.
- 제1항에 있어서, 상기 m번째 본예측모델(MLMm)은, 상기 Q개의 개인특성피쳐들(MSF) 각각(MFq)이 상기 m번째 본예측모델(MLMm)의 출력층에서 출력하는 출력값에 기여하는 정도를 나타내는 중요도를 결정하여 제공하지 않는 예측모델인, 학습방법.
- 제1항에 있어서, 상기 m번째 예비예측모델(LMm)은 랜덤 포레스트 예측모델인, 학습방법.
- 제1항에 있어서, 상기 m번째 예비예측모델(LMm)은 XG부스트 예측모델인, 학습방법.
- 개인으로부터 획득할 수 있는 미리 결정된 P개의 개인특성피쳐들(FS)을 이용하여 특정인이 총 M개의 유형의 방문지들(PT) 중 특정 유형의 방문지를 방문할 비율을 예측하는 방법으로서,
컴퓨팅 장치에서, 특정인으로부터 수집한 상기 P개의 개인특성피쳐들인 제1개인특성피쳐들(FS 1)을 획득하는 단계;
상기 컴퓨팅 장치에서, 학습이 완료된 총 M개의 예측모델들 중 m번째 예측모델(CLMm)의 입력층에 상기 제1개인특성피쳐들(FS 1)을 입력하였을 때에 상기 m번째 예측모델(CLMm)의 출력층에서 출력하는 출력값(COV1m)을 획득하는 단계; 및
상기 컴퓨팅 장치에서, 상기 특정인이 상기 총 M개의 유형의 방문지들을 방문한 총 횟수를 T-방문횟수라고 두고, 상기 특정인이 상기 M개의 유형의 방문지들 중 m번째 유형의 방문지를 방문한 횟수를 mth-방문횟수라고 두었을 때에, 상기 획득한 출력값(COV1m)을 기초로 상기 mth-방문횟수를 상기 T-방문횟수로 나눈 값인 mth-방문비율(VR1m)을 예측하여 산출하는 단계;
를 포함하며,
학습이 완료된 상기 m번째 예측모델(CLMm)은,
상기 컴퓨팅 장치에서, 총 K명의 사람들 중 k번째 사람으로부터 수집한 상기 P개의 개인특성피쳐들인 kth-개인특성피쳐들(FS k)을 획득하는 단계 (단, k는 1 이상 K 이하의 자연수);
상기 컴퓨팅 장치에서, 상기 k번째 사람이 총 M개의 유형의 방문지들(PT)을 방문한 총 횟수인 kth.T-방문횟수에 대하여, 상기 k번째 사람이 상기 M개의 유형의 방문지들 중 m번째 유형의 방문지(PTm)를 방문한 횟수인 kth.mth-방문횟수의 비율인 kth.mth-방문비율(VRkm)을 획득하는 단계 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수); 및
상기 컴퓨팅 장치에서, 총 M개의 예비예측모델들(LM) 중 m번째 예비예측모델(LMm)의 입력층에 상기 kth-개인특성피쳐들(FS k)을 입력하였을 때에 상기 m번째 예비예측모델(LMm)의 출력층에서 출력하는 출력값인 kth.mth-출력값(OVkm)과 상기 kth.mth-방문비율(VRkm)의 차이값이 최소화되도록 상기 m번째 예비예측모델(LMm)을 학습시키는 단계 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수);
를 포함하는 학습방법에 의해 학습된 상기 m번째 예비예측모델(LMm)인 것을 특징으로 하는,
특정 유형의 방문지를 방문할 비율을 예측하는 방법. - 삭제
- 제7항에 있어서, 상기 산출된 mth-방문비율은, 상기 특정인에게 제공할 콘텐츠를 선택하기 위한 정보로서 이용되는 것을 특징으로 하는, 특정 유형의 방문지를 방문할 비율을 예측하는 방법.
- 제7항에 있어서, 상기 mth-방문비율(VR1m)은 상기 획득한 출력값(COV1m)과 동일한, 특정 유형의 방문지를 방문할 비율을 예측하는 방법.
- 개인으로부터 획득할 수 있는 미리 결정된 Q개의 개인특성피쳐들(MFS)을 이용하여 특정인이 총 M개의 유형의 방문지들(PT) 중 특정 유형의 방문지를 방문할 비율을 예측하는 방법으로서,
컴퓨팅 장치에서, 특정인으로부터 수집한 상기 Q개의 개인특성피쳐들인 제1개인특성피쳐들(MFS 1)을 획득하는 단계;
상기 컴퓨팅 장치에서, 학습이 완료된 총 M개의 본예측모델들 중 m번째 본예측모델의 입력층에 상기 제1개인특성피쳐들(MFS 1)을 입력하였을 때에 상기 m번째 본예측모델(MLMm)의 출력층에서 출력하는 출력값(MOV1m)을 획득하는 단계; 및
상기 컴퓨팅 장치에서, 상기 특정인이 상기 총 M개의 유형의 방문지들(PT)을 방문한 총 횟수를 T-방문횟수라고 두고, 상기 특정인이 상기 M개의 유형의 방문지들(PT) 중 m번째 유형의 방문지(PTm)를 방문한 횟수를 mth-방문횟수라고 두었을 때에, 상기 획득한 출력값(MOV1m)을 기초로 상기 mth-방문횟수를 상기 T-방문횟수로 나눈 값인 mth-방문비율(VR1m)을 예측하여 산출하는 단계;
를 포함하며,
학습이 완료된 상기 m번째 본예측모델(MLMm)은,
상기 컴퓨팅 장치에서, 총 K명의 사람들 중 k번째 사람으로부터 수집한 P개의 개인특성피쳐들인 kth-개인특성피쳐들(FS k)을 획득하는 단계 (단, k는 1 이상 K 이하의 자연수);
상기 컴퓨팅 장치에서, 상기 k번째 사람이 총 M개의 유형의 방문지들(PT)을 방문한 총 횟수인 kth.T-방문횟수에 대하여, 상기 k번째 사람이 상기 M개의 유형의 방문지들(PT) 중 m번째 유형의 방문지(PTm)를 방문한 횟수인 kth.mth-방문횟수의 비율인 kth.mth-방문비율(VRkm)을 획득하는 단계 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수);
상기 컴퓨팅 장치에서, 총 M개의 예비예측모델들(LM) 중 m번째 예비예측모델(LMm)의 입력층에 상기 kth-개인특성피쳐들(FS k )을 입력하였을 때에 상기 m번째 예비예측모델(LMm)의 출력층에서 출력하는 출력값인 kth.mth-출력값(OVkm)과 상기 kth.mth-방문비율(VRkm)의 차이값(Ekm)이 최소화되도록 상기 m번째 예비예측모델(LMm)을 학습시키는 단계 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수);
상기 컴퓨팅 장치에서, 상기 m번째 예비예측모델(LMm)에 대하여, 총 P개의 mth.pth-중요도들(W m) 중 상위 Q개의 중요도에 대응하는 총 Q개의 개인특성피쳐들을 선정하는 단계 (단, m는 1 이상 M 이하의 자연수);
상기 컴퓨팅 장치에서, 상기 총 K명의 사람들 중 상기 k번째 사람으로부터 수집한 상기 Q개의 개인특성피쳐들인 kth.Q-개인특성피쳐들(MFS k)을 획득하는 단계 (단, k는 1 이상 K 이하의 자연수);
상기 컴퓨팅 장치에서, 총 M개의 본예측모델들(MLM) 중 m번째 본예측모델(MLMm)의 입력층에 상기 kth.Q-개인특성피쳐들(MFS k)을 입력하였을 때에 상기 m번째 본예측모델(MLMm)의 출력층에서 출력하는 출력값인 kth.mth.Q-출력값(MOVm)과 상기 kth.mth-방문비율(VRkm)의 차이값(MEkm)이 최소화되도록 상기 m번째 본예측모델(MLMm)을 학습시키는 단계 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수);
를 포함하는 학습방법에 의해 학습된 상기 m번째 본예측모델(MLMm)이며,
상기 m번째 예비예측모델(LMm)은 상기 P개의 개인특성피쳐들(FS) 각각이 상기 m번째 예비예측모델(LMm)의 출력층에서 출력하는 출력값(OVm)에 미치는 중요도인 mth.pth-중요도(Wmp)를 결정할 수 있도록 하는 예측모델인, (단, m는 1 이상 M 이하의 자연수, p는 1 이상 P 이하의 자연수),
특정 유형의 방문지를 방문할 비율을 예측하는 방법. - 개인으로부터 획득할 수 있는 미리 결정된 P개의 개인특성피쳐들을 이용하여 예측모델을 학습시키는 컴퓨팅 장치로서,
데이터 수집부; 및 연산부를 포함하며,
상기 연산부는,
상기 데이터 수집부를 통해, 총 K명의 사람들 중 k번째 사람으로부터 수집한 상기 P개의 개인특성피쳐들인 kth-개인특성피쳐들을 획득하도록 되어 있고 (단, k는 1 이상 K 이하의 자연수),
상기 데이터 수집부를 통해, 상기 k번째 사람이 총 M개의 유형의 방문지들을 방문한 총 횟수인 kth.T-방문횟수에 대하여, 상기 k번째 사람이 상기 M개의 유형의 방문지들 중 m번째 유형의 방문지를 방문한 횟수인 kth.mth-방문횟수의 비율인 kth.mth-방문비율을 획득하도록 되어 있고 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수), 그리고
총 M개의 예비예측모델들 중 m번째 예비예측모델의 입력층에 상기 kth-개인특성피쳐들을 입력하였을 때에 상기 m번째 예비예측모델의 출력층에서 출력하는 출력값인 kth.mth-출력값과 상기 kth.mth-방문비율의 차이값이 최소화되도록 상기 m번째 예비예측모델을 학습시키도록 되어 있으며 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수),
상기 m번째 예비예측모델은 임의의 개인에 대한 상기 P개의 개인특성피쳐들 각각이 상기 m번째 예비예측모델의 출력층에서 출력하는 출력값에 기여하는 정도를 나타내는 중요도인 mth.pth-중요도를 결정할 수 있도록 하는 예측모델이며 (단, m는 1 이상 M 이하의 자연수, p는 1 이상 P 이하의 자연수),
상기 연산부가 상기 m번째 예비예측모델을 학습시킨 이후에,
상기 연산부는,
상기 m번째 예비예측모델에 대하여, 총 P개의 상기 mth.pth-중요도들 중 상위 Q개의 중요도에 대응하는 총 Q개의 개인특성피쳐들을 선정하도록 되어 있으며 (단, m는 1 이상 M 이하의 자연수),
상기 데이터 수집부를 통해, 상기 총 K명의 사람들 중 상기 k번째 사람으로부터 수집한 상기 Q개의 개인특성피쳐들인 kth.Q-개인특성피쳐들을 획득하도록 되어 있으며 (단, k는 1 이상 K 이하의 자연수),
총 M개의 본예측모델들 중 m번째 본예측모델의 입력층에 상기 kth.Q-개인특성피쳐들을 입력하였을 때에 상기 m번째 본예측모델의 출력층에서 출력하는 출력값인 kth.mth.Q-출력값과 상기 kth.mth-방문비율의 차이값이 최소화되도록 상기 m번째 본예측모델을 학습시키도록 되어 있는(단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수),
컴퓨팅 장치. - 개인으로부터 획득할 수 있는 미리 결정된 P개의 개인특성피쳐들을 이용하여 특정인이 총 M개의 유형의 방문지들 중 특정 유형의 방문지를 방문할 비율을 예측하는 컴퓨팅 장치로서,
데이터 수집부; 및 연산부를 포함하며,
상기 연산부는,
상기 데이터 수집부를 통해, 특정인으로부터 수집한 상기 P개의 개인특성피쳐들인 제1개인특성피쳐들을 획득하도록 되어 있고,
학습이 완료된 총 M개의 예측모델들 중 m번째 예측모델의 입력층에 상기 제1개인특성피쳐들을 입력하였을 때에 상기 m번째 예측모델의 출력층에서 출력하는 출력값을 획득하도록 되어 있고, 그리고
상기 특정인이 상기 총 M개의 유형의 방문지들을 방문한 총 횟수를 T-방문횟수라고 두고, 상기 특정인이 상기 M개의 유형의 방문지들 중 m번째 유형의 방문지를 방문한 횟수를 mth-방문횟수라고 두었을 때에, 상기 획득한 출력값을 기초로 상기 mth-방문횟수를 상기 T-방문횟수로 나눈 값인 mth-방문비율을 산출하도록 되어 있으며,
학습이 완료된 상기 m번째 예측모델은,
상기 연산부가,
상기 데이터 수집부를 통해, 총 K명의 사람들 중 k번째 사람으로부터 수집한 상기 P개의 개인특성피쳐들인 kth-개인특성피쳐들을 획득하는 단계 (단, k는 1 이상 K 이하의 자연수),
상기 데이터 수집부를 통해, 상기 k번째 사람이 총 M개의 유형의 방문지들을 방문한 총 횟수인 kth.T-방문횟수에 대하여, 상기 k번째 사람이 상기 M개의 유형의 방문지들 중 m번째 유형의 방문지를 방문한 횟수인 kth.mth-방문횟수의 비율인 kth.mth-방문비율을 획득하는 단계 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수), 및
총 M개의 예비예측모델들 중 m번째 예비예측모델의 입력층에 상기 kth-개인특성피쳐들을 입력하였을 때에 상기 m번째 예비예측모델의 출력층에서 출력하는 출력값인 kth.mth-출력값과 상기 kth.mth-방문비율의 차이값이 최소화되도록 상기 m번째 예비예측모델을 학습시키는 단계 (단, k는 1 이상 K 이하의 자연수, m는 1 이상 M 이하의 자연수),
를 포함하는 학습방법에 의해 학습된 상기 m번째 예비예측모델인 것을 특징으로 하는,
컴퓨팅 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190173294A KR102308233B1 (ko) | 2019-12-23 | 2019-12-23 | 방문지 유형과 개인특성피쳐들 간의 관계를 분석하는 방법 및 이를 이용한 개인에게 적합한 콘텐츠를 추천하는 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190173294A KR102308233B1 (ko) | 2019-12-23 | 2019-12-23 | 방문지 유형과 개인특성피쳐들 간의 관계를 분석하는 방법 및 이를 이용한 개인에게 적합한 콘텐츠를 추천하는 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210081087A KR20210081087A (ko) | 2021-07-01 |
KR102308233B1 true KR102308233B1 (ko) | 2021-09-30 |
Family
ID=76860197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190173294A KR102308233B1 (ko) | 2019-12-23 | 2019-12-23 | 방문지 유형과 개인특성피쳐들 간의 관계를 분석하는 방법 및 이를 이용한 개인에게 적합한 콘텐츠를 추천하는 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102308233B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116703189B (zh) * | 2022-11-01 | 2024-07-12 | 清华大学 | 基于对象移动不平衡分析的区域信息处理方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004096621A (ja) | 2002-09-03 | 2004-03-25 | Fujitsu Ltd | 移動情報端末の位置変化予測に基づく情報配信サービスシステム |
KR101680195B1 (ko) * | 2015-06-23 | 2016-12-06 | 홍익대학교 산학협력단 | 인성과 선호장소 간의 관계를 분석하는 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101558269B1 (ko) * | 2014-01-02 | 2015-10-12 | 홍익대학교 산학협력단 | 관심 대상의 특징에 따라 관심 대상의 위치를 예측하는 방법 및 이를 위한 장치 |
-
2019
- 2019-12-23 KR KR1020190173294A patent/KR102308233B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004096621A (ja) | 2002-09-03 | 2004-03-25 | Fujitsu Ltd | 移動情報端末の位置変化予測に基づく情報配信サービスシステム |
KR101680195B1 (ko) * | 2015-06-23 | 2016-12-06 | 홍익대학교 산학협력단 | 인성과 선호장소 간의 관계를 분석하는 방법 |
Non-Patent Citations (1)
Title |
---|
"An Improved RBF Network for Predicting Location in Mobile Network", 2009 Fifth International Conference on Natural Computation. 2009. |
Also Published As
Publication number | Publication date |
---|---|
KR20210081087A (ko) | 2021-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yousafzai et al. | Application of machine learning and data mining in predicting the performance of intermediate and secondary education level student | |
Karl et al. | Reject or select: Mapping destination choice | |
Gury | Dropping out of higher education in France: a micro‐economic approach using survival analysis | |
Agasisti et al. | Inequality in education: Can Italian disadvantaged students close the gap? | |
Lewis et al. | The relationship between intelligence and multiple domains of religious belief: Evidence from a large adult US sample | |
Yağci et al. | Prediction of academic achievements of vocational and technical high school (VTS) students in science courses through artificial neural networks (comparison of Turkey and Malaysia) | |
JP6728621B2 (ja) | 成功支援システム、情報処理装置、方法およびプログラム | |
Darcan et al. | Student profiling on academic performance using cluster analysis | |
Pryss et al. | Machine learning findings on geospatial data of users from the trackyourstress mhealth crowdsensing platform | |
Palacios-Pacheco et al. | Application of data mining for the detection of variables that cause university desertion | |
Zhang et al. | Predicting academic performance using tree-based machine learning models: A case study of bachelor students in an engineering department in China | |
Cheng | Data-mining research in education | |
Prasad et al. | Tourist satisfaction: an analysis of push and pull factors-a case of Qatar tourism | |
Anuradha et al. | A data mining based survey on student performance evaluation system | |
KR102308233B1 (ko) | 방문지 유형과 개인특성피쳐들 간의 관계를 분석하는 방법 및 이를 이용한 개인에게 적합한 콘텐츠를 추천하는 방법 | |
Clarke | On not losing heart: A response to Savage and Brown’s “Toward a new comparative musicology” | |
Bomba et al. | Model of the data analysis process to determine the person’s professional inclinations and abilities | |
Pal et al. | Is alcohol affect higher education students performance: searching and predicting pattern using data mining algorithms | |
Abirami et al. | RETRACTED ARTICLE: A classification model to predict onset of smoking and drinking habits based on socio-economic and sociocultural factors | |
Sato | Applied data-centric social sciences | |
Ab Ghani et al. | Student enrolment prediction model in higher education institution: a data mining approach | |
Kosztyán et al. | The role of higher education in spatial mobility | |
Taylor et al. | Rankings are the sorcerer’s new apprentice | |
Nuankaew et al. | Improving predictive model to prevent students’ dropout in higher education using majority voting and data mining techniques | |
Puarungroj et al. | Investigating factors affecting library visits by university students using data mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |