KR102340463B1 - 샘플 가중치 설정방법 및 장치, 전자 기기 - Google Patents

샘플 가중치 설정방법 및 장치, 전자 기기 Download PDF

Info

Publication number
KR102340463B1
KR102340463B1 KR1020197035385A KR20197035385A KR102340463B1 KR 102340463 B1 KR102340463 B1 KR 102340463B1 KR 1020197035385 A KR1020197035385 A KR 1020197035385A KR 20197035385 A KR20197035385 A KR 20197035385A KR 102340463 B1 KR102340463 B1 KR 102340463B1
Authority
KR
South Korea
Prior art keywords
popularity
weight
sample
trained
index
Prior art date
Application number
KR1020197035385A
Other languages
English (en)
Other versions
KR20200003109A (ko
Inventor
친 장
이판 양
공 장
Original Assignee
베이징 싼콰이 온라인 테크놀로지 컴퍼니, 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 싼콰이 온라인 테크놀로지 컴퍼니, 리미티드 filed Critical 베이징 싼콰이 온라인 테크놀로지 컴퍼니, 리미티드
Publication of KR20200003109A publication Critical patent/KR20200003109A/ko
Application granted granted Critical
Publication of KR102340463B1 publication Critical patent/KR102340463B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analyzing Materials Using Thermal Means (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 출원은 샘플 가중치 설정방법을 제공한다. 상기 방법은, 트레이닝될 샘플의 인기도 지표의 값을 획득하고, 각각의 상기 인기도 지표의 값에 따라 상기 트레이닝될 샘플의 단일 인기도 지표 가중치를 결정하고, 모든 상기 단일 인기도 지표 가중치에 따라 상기 트레이닝될 샘플의 샘플 가중치를 결정하는 것을 포함한다.

Description

샘플 가중치 설정방법 및 장치, 전자 기기
본 출원은 컴퓨터 기술 분야에 관한 것이고, 특히 샘플 가중치 설정방법 및 장치, 전자 기기에 관한 것이다.
O2O 플랫폼에서 제공되는 검색, 추천 등 서비스의 정확도는 서비스에 대한 사용자의 만족도에 직접적인 영향을 준다. 검색 또는 추천 등 서비스에서 사용되는 기술 수단은 대부분 기존 사용자 행위 로그를 통하여 트레이닝 샘플을 획득한 후, 특정 알고리즘을 사용하여 랭킹 모델을 트레이닝하는 것이다. 기존의 트레이닝 샘플에 따라 모델을 트레이닝하는 과정에서, 트레이닝을 통하여 얻은 모델의 정확도를 향상시키기 위하여 통상적으로 샘플에 대해 수동 라벨링, 수동 또는 자동 필터링을 진행하여 대표적인 샘플을 선택한다. 샘플을 라벨링하는 방법은 주로 클릭된 관심 포인트를 플러스 샘플로 정의하고, 클릭되지 않은 관심 포인트를 마이너스 샘플로 분류하는 것이다. 하지만, O2O 분야에서, 관심 포인트는 현저한 지리상의 구역화 또는 시간 분포 등 특징을 가지고 있기에, 사용자의 방문수가 많은 인기 지역 또는 시간 구간에 관심 포인트가 밀집하게 분포되어 있는데, 이들 모두 우수 상점 또는 상품의 샘플로서, 이 부분의 관심 포인트를 플러스 샘플로 분류하여야 한다. 하지만, 클릭 여부에 따라 샘플을 간단하게 라벨링하는 것은 라벨과 샘플 특징 사이가 일치하지 않은 문제, 즉, 특징으로 보았을 때 분명 플러스 샘플이어야 하는 관심 포인트가 마이너스 샘플로 라벨링되는 문제를 발생시킨다.
본 출원의 실시예는 샘플 가중치 설정방법을 제공하여, 사용자에게 정확한 검색 또는 추천 결과를 제공한다.
제1 측면에 있어서, 상술의 문제를 해결하기 위하여 본 출원의 실시예에 따른 샘플 가중치 설정방법은, 트레이닝될 샘플의 인기도 지표의 값을 획득하는 단계; 각각의 상기 인기도 지표의 값에 따라 상기 인기도 지표에 대응되는 상기 트레이닝될 샘플의 단일 인기도 지표 가중치를 결정하는 단계; 모든 상기 인기도 지표가 대응하는 상기 단일 인기도 지표 가중치에 따라, 상기 트레이닝될 샘플의 샘플 가중치를 결정하는 단계를 포함한다.
제2 측면에 있어서, 본 출원의 실시예에 따른 샘플 가중치 설정장치는, 트레이닝될 샘플의 인기도 지표의 값을 획득하는, 인기도 지표 획득 모듈; 각각의 상기 인기도 지표의 값에 따라 상기 인기도 지표에 대응되는 상기 트레이닝될 샘플의 단일 인기도 지표 가중치를 결정하는, 단일 인기도 지표 가중치 결정 모듈; 모든 상기 인기도 지표가 대응하는 상기 단일 인기도 지표 가중치에 따라, 상기 트레이닝될 샘플의 샘플 가중치를 결정하는, 샘플 가중치 결정 모듈을 포함한다.
제3 측면에 있어서, 본 출원의 실시예에 따른 전자 기기는, 메모리, 프로세서, 및 상기 메모리에 저장되어 상기 프로세서에서 실행되는 컴퓨터 프로그램을 포함하고, 상기 프로세서가 상기 컴퓨터 프로그램을 실행할 때, 본 출원의 실시예에 따른 샘플 가중치 설정방법이 구현된다.
제4 측면에 있어서, 본 출원의 실시예에 따른 컴퓨터 판독 가능 기록 매체에 있어서, 컴퓨터 프로그램이 저장되고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때 본 출원의 실시예에 따른 샘플 가중치 설정방법이 구현된다.
본 출원의 실시예에 따른 샘플 가중치 설정방법은, 트레이닝될 샘플의 인기도 지표의 값을 획득한 후, 각각의 상기 인기도 지표의 값에 따라 상기 인기도 지표에 대응되는 상기 트레이닝될 샘플의 단일 인기도 지표 가중치를 결정하고, 모든 상기 인기도 지표가 대응하는 상기 단일 인기도 지표 가중치에 따라, 상기 트레이닝될 샘플의 샘플 가중치를 결정하여, 사용자에게 정확한 검색 또는 추천 결과를 제공한다. 인기도 지표를 결합하여 샘플의 샘플 가중치를 설정함으로써, 높은 인기도를 가진 구역, 시간 구간 또는 품목의 샘플의 샘플 가중치를 적절하게 낮추어, 트레이닝된 모델의 정확도를 높이고, 사용자에게 정확한 검색 또는 추천 결과를 제공한다.
본 출원의 실시예의 기술 수단을 보다 명료하게 설명하기 위하여, 실시예 또는 종래의 기술을 설명하는데 사용한 첨부 도면에 대하여 간단하게 설명한다. 아래 설명될 도면은 본 출원의 일부 실시예로서, 당해 기술분야의 통상의 지식을 가진 자는 창조적인 노력 없이 상기 도면에 근거하여 다른 도면을 획득할 수 있는 것은 자명한 것이다.
도 1은 본 출원의 일 실시예에 따른 샘플 가중치 설정방법의 흐름도이다.
도 2는 본 출원의 다른 실시예에 따른 샘플 가중치 설정방법의 흐름도이다.
도 3은 본 출원의 또 다른 실시예에 따른 샘플 가중치 설정방법의 흐름도이다.
도 4는 본 출원의 일 실시예에 따른 샘플 가중치 설정장치의 구조에 대한 예시도이다.
도 5는 본 출원의 다른 실시예에 따른 샘플 가중치 설정장치의 구조에 대한 예시도이다.
이하에서,본 출원의 실시예의 도면을 결합하여 본 출원의 실시예의 기술 수단을 명백하고 상세하게 설명한다. 설명된 실시예는 본 출원의 일부 실시예이고, 전부는 아니다. 본 출원의 실시예에 근거하여 본 기술 분야의 통상의 지식을 가진 자가 창조적인 노력 없이 얻은 기타 실시예는 모두 본 출원의 청구범위에 속하는 것은 자명한 것이다.
도 1과 같이, 본 출원의 일 실시예에 따른 샘플 가중치 설정방법은 단계 100 내지 단계 120을 포함한다.
단계 100, 트레이닝될 샘플의 인기도 지표의 값을 획득한다.
샘플은, O2O 플랫폼상의 사용자 클릭 또는 상품 구매 로그, 검색 시스템 내의 사용자 클릭, 상품 뷰 또는 상점 로그 등과 같은 현재 시스템 또는 플랫폼의 로그 데이터를 사용할 수 있다. 구체적인 실시에서, 로그 데이터를 샘플 데이터의 소스로 한다. 로그 데이터를 획득하고 로그 데이터로부터 샘플 데이터를 획득하는 구체적인 방법은 본 기술분야의 통상의 지식을 가진 자에게 공지된 것으로, 이에 대한 설명을 생략한다.
획득한 샘플 데이터는 샘플 특징과 샘플의 관련 정보를 포함할 수 있다. 그중, 샘플 특징은, 상점 별점수, 댓글수, 구매량, 클릭 피드백, 및 사용자 선호도 등을 포함할 수 있고; 샘플의 관련 정보는, 상점 또는 상품의 방문수와 방문 시간 정보, 상점 또는 상품의 지리적 위치 정보, 상점 또는 상품의 품목 정보 등을 포함할 수 있다. 여기서, 샘플 특징은 모델을 트레이닝할 때의 특징 벡터, 즉 트레이닝될 샘플을 구성하고; 샘플의 관련 정보는 대응되는 트레이닝될 샘플의 인기도 지표의 값을 결정한다. 샘플 특징(즉 트레이닝될 샘플)을 획득하는 구체적인 방법은 본 기술분야의 통상의 지식을 가진 자에게 공지된 것으로, 이에 대한 설명을 생략한다.
구체적인 실시에서, 인기도 지표는, 구역 인기도, 시간 인기도, 품목 인기도 중의 하나 또는 이상으로 설정될 수 있다. 예를 들어, 인기도 지표는 구역 인기도만 포함할 수 있고, 구역 인기도와 품목 인기도, 그리고 시간 인기도를 모두 포함할 수 있다. 트레이닝될 샘플을 분석함으로써, 각 트레이닝될 샘플의 구역 인기도, 시간 인기도와 품목 인기도의 값을 얻을 수 있다.
단계 110, 각각의 상기 인기도 지표의 값에 따라 상기 인기도 지표에 대응되는 상기 트레이닝될 샘플의 단일 인기도 지표 가중치를 결정한다.
각각의 인기도 지표는 모두 트레이닝될 샘플의 가중치에 영향을 주는데, 구체적인 실시에서, 각각의 인기도 지표에 따라 각각 계산하여 얻은 가중치를 단일 인기도 지표 가중치라고 한다. 예를 들어, 구역 인기도 지표의 값에 따라 샘플의 구역 인기도 가중치를 계산할 수 있고; 시간 인기도 지표의 값에 따라 샘플의 시간 인기도 가중치를 계산할 수 있고; 품목 인기도 지표의 값에 따라 샘플의 품목 인기도 가중치를 계산할 수 있다. 구체적인 실시에서, 인기도 지표의 단순 감소 함수에 근거하여 각각의 인기도 지표에 대응되는 트레이닝될 샘플의 단일 인기도 지표 가중치를 계산할 수 있다. 서로 다른 인기도 지표에 있어서, 단순 감소 함수의 매개 변수는 서로 다를 수 있고, 그 값은 실험으로 결정된다. 모델을 트레이닝할 때, 각각의 인기도 지표에 따라 각각 계산하여 얻은 가중치를 해당 샘플의 샘플 가중치의 팩터로 한다.
단계 120, 모든 상기 인기도 지표가 대응하는 상기 단일 인기도 지표 가중치에 따라, 상기 트레이닝될 샘플의 샘플 가중치를 결정한다.
각각의 인기도 지표에 따라 대응되는 단일 인기도 지표 가중치를 각각 계산하여 얻은 후, 모든 단일 인기도 지표 가중치를 곱한 값을 상기 트레이닝될 샘플의 샘플 가중치로 한다. 즉, 모델을 트레이닝할 때, 기설정된 인기도 지표의 값에 따라 상기 트레이닝될 샘플의 샘플 가중치를 결정한다. 또는, 단일 인기도 지표의 중요도에 따라 적어도 하나의 상기 단일 인기도 지표 가중치를 조절한 후, 모든 조절된 단일 인기도 지표 가중치를 곱한 값을 계산하여, 상기 곱한 값을 상기 트레이닝될 샘플의 샘플 가중치로 결정한다. 상기 단일 인기도 지표 가중치를 조절할 때, 특정 단일 인기도 지표의 가중치가 획득한 샘플 가중치에서 차지하는 비중이 기설정된 중요도와 매칭될 경우, 상기 단일 인기도 지표의 가중치를 조절하지 않고; 특정 단일 인기도 지표 가중치가 획득한 샘플 가중치에서 차지하는 비중이 기설정된 중요도와 매칭되지 않을 경우, 상기 단일 인기도 지표의 가중치를 조절해야 한다. 구체적인 실시에서, 상기 단일 인기도 지표 가중치를 일정 비율로 확대 또는 축소하여, 조절된 단일 인기도 지표의 가중치가 상기 트레이닝될 샘플의 샘플 가중치에서 차지하는 비중이 상기 단일 인기도 지표의 중요도와 매칭되도록 할 수 있다.
본 출원의 샘플 가중치 설정방법은, 트레이닝될 샘플의 인기도 지표의 값을 획득한 후, 각각의 상기 인기도 지표의 값에 따라 상기 인기도 지표에 대응되는 상기 트레이닝될 샘플의 단일 인기도 지표 가중치를 결정하고, 모든 상기 인기도 지표가 대응하는 상기 단일 인기도 지표 가중치에 따라, 상기 트레이닝될 샘플의 샘플 가중치를 계산하여, 사용자에게 정확한 검색 또는 추천 결과를 제공한다. 인기도 지표를 결합하여 샘플의 샘플 가중치를 설정함으로써, 인기도가 높은 구역, 시간 구간 또는 품목의 샘플의 샘플 가중치를 적절하게 낮추어, 트레이닝된 모델의 정확도를 높이고, 사용자에게 정확한 검색 또는 추천 결과를 제공한다.
도 2와 같이, 본 출원의 다른 실시예에 따른 샘플 가중치 설정방법은 단계 200 내지 단계 220을 포함한다.
구체적인 실시에서, 인기도 지표는, 구역 인기도, 시간 인기도, 품목 인기도 중의 하나 또는 이상으로 설정될 수 있다. 본 실시예에서, 구역 인기도를 인기도 지표의 예로 하여 인기도 지표의 값의 획득방법, 획득한 인기도 지표의 값에 따라 상기 트레이닝될 샘플의 단일 인기도 지표 가중치를 결정하는 구체적인 과정을 설명한다.
단계 200, 트레이닝될 샘플의 구역 인기도의 값을 획득한다.
트레이닝될 샘플을 획득하는 구체적인 방법은 상술의 실시예를 참조할 수 있으므로, 이에 대한 설명을 생략한다. 본 실시예에서, 획득한 샘플 데이터는, 샘플 특징과 샘플의 관련 정보를 포함할 수 있고, 여기서 샘플의 관련 정보는, 상점 또는 상품의 방문수, 방문 시간 정보, 방문 행위, 상점 또는 상품의 지리적 위치 정보, 상점 또는 상품의 품목 정보 등을 더 포함할 수 있다. 구체적인 실시에서, 경위도 좌표로 표시된 상점의 지리적 위치 정보를 예로 하여, 트레이닝될 샘플의 구역 인기도 지표의 값을 획득하는 구체적인 방법을 설명한다.
구체적인 실시에서, 트레이닝될 샘플의 구역 인기도 값을 획득하는 것은, 모든 트레이닝될 샘플을 지리적 위치에 따라 대응되는 구역 블록으로 구획하고; 각각의 상기 구역 블록의 구역 인기도를 결정하는 것을 포함한다.
먼저, 모든 트레이닝될 샘플의 데이터 구조를 해석하고, 각각의 트레이닝될 샘플의 지리적 위치 정보에 따라 상기 트레이닝될 샘플이 커버하는 전체 구역을 결정하고; 다음으로, 기설정된 규칙에 따라 상기 전체 구역을 대응되는 복수 개 구역 블록으로 구획하고; 마지막으로, 각각의 구역 블록의 구역 인기도를 각각 결정한다. 구체적인 실시에서, 구역 인기도의 값은, 구역 블록의 과거 방문 사용자 수, 구역 블록 내의 상점 수, 및 상기 구역 블록 내 지리적 위치의 과거 방문 요청 수 등과 같은 여러 가지 데이터로 표시될 수 있다.
전체 구역을 500m×500m인 인접 구역 블록으로 구획하는 것을 예로 본 실시예의 구역 블록을 구획하는 규칙을 설명한다. 경위도로 샘플의 지리적 위치를 표시할 경우, 계산의 편리를 위하여, 샘플의 지리적 위치의 경위도 값에 200을 각각 곱한 다음 정수만 취한 후, 모든 샘플의 경위도 값을 계산하고, 경위도 값에 따라 모든 샘플이 커버하는 전체 구역을 500m×500m의 구역 블록으로 구획한다.
그 후, 각각의 구역 블록의 경위도 값의 범위와 샘플의 지리적 위치에 따라, 샘플과 구역 블록을 연관하여, 각각의 구역 블록의 연관된 모든 샘플, 즉 지리적 위치가 상기 구역 블록 내에 위치한 모든 샘플을 결정한다.
마지막으로, 각각의 구역 블록의 연관 샘플에 따라 각각의 구역 블록의 구역 인기도를 각각 결정한다. 구역 인기도가 월 과거 방문 요청 수인 예를 들면, 각각의 구역 블록에 있어서, 해당 구역 블록과 연관된 모든 샘플에 따라, 최근 한 달 동안의 방문 요청수를 계산하고, 계산된 방문 요청 수를 해당 구역 블록의 구역 인기도로 한다. 구체적인 실시에서, 해당 구역 블록과 연관된 모든 샘플에서 클릭 또는 브라우징 행위가 발생한 샘플의 수량을 해당 구역 블록의 구역 인기도로 할 수도 있고, 또는, 해당 구역 블록과 연관된 모든 샘플의 상점수를 해당 구역 블록의 구역 인기도로 할 수 있다. 본 출원은 각각의 구역 블록의 구역 인기도를 결정하는 구체적인 방법을 한정하지 않는다.
모든 트레이닝 샘플이 M개 구역 블록 내에 분포될 경우, 획득한 M개 구역 블록에 대응되는 M개 구역 인기도의 값
Figure 112019123313928-pct00001
을 얻을 수 있고, 여기서 1≤j≤M이다.
단계 210, 구역 인기도의 값에 따라 상기 트레이닝될 샘플의 구역 인기도 가중치를 결정한다.
구체적인 실시에서, 각각의 상기 인기도 지표의 값에 따라 상기 인기도 지표에 대응되는 상기 트레이닝될 샘플의 단일 인기도 지표 가중치를 결정하는 것은, 구역 인기도의 단순 감소 함수에 따라 트레이닝될 샘플의 구역 인기도 가중치를 결정하는 것을 포함한다. 구체적인 실시에서, 샘플의 구역 인기도 가중치를 계산하는 수학식은 수학식1과 같다.
수학식 1:
Figure 112019123313928-pct00002
여기서,
Figure 112019123313928-pct00003
는 모든 구역 블록의 구역 인기도의 평균치이고, 수학식 2로부터 계산할 수 있다.
수학식 2:
Figure 112019123313928-pct00004
수학식 1과 수학식 2에서,
Figure 112019123313928-pct00005
는 제j개 구역 블록의 구역 인기도의 값;
Figure 112019123313928-pct00006
는 구역 블록j 중 하나의 트레이닝될 샘플;
Figure 112019123313928-pct00007
는 구역 블록j중 하나의 트레이닝될 샘플의 샘플 구역 인기도 가중치;
Figure 112019123313928-pct00008
는 제j개 구역 블록에 연관된 트레이닝 샘플의 집합;
Figure 112019123313928-pct00009
는 구역 인기도의 단순 감소 함수를 나타낸다.
구체적인 실시에서, 단순 감소 함수는 수학식 3 또는 수학식 4로 표시될 수 있다.
수학식3:
Figure 112019123313928-pct00010
수학식4:
Figure 112019123313928-pct00011
수학식 3과 수학식 4에서,
Figure 112019123313928-pct00012
는 제j개 구역 블록의 구역 인기도의 값이고; c는 단순 감소 함수의 속도를 제어하는 피팅 매개변수이고, 상기 매개변수는 구역 인기도 값의 분포를 고려하여 설정되고, 또한 모델 트레이닝의 auc, MAP 등 지표에 따라 결정될 수 있다. 여기서, auc는 분류 결과를 평가하는 지표로서, 분류 모델를 평가하고; MAP는 랭킹을 평가하는 지표이다.
샘플 구역 인기도 가중치를 계산하는 수학식에 따라, 구역 인기도 값이 낮은 구역 블록에 있어서, 그의 연관된 샘플의 가중치가 향상되었고; 구역 인기도 값이 높은 구역 블록에 있어서, 그의 연관된 샘플의 가중치가 낮아진 것을 얻을 수 있다.
단계 220, 상기 구역 인기도 가중치를 상기 트레이닝될 샘플의 샘플 가중치로 결정한다.
인기도 지표에 구역 인기도만 있을 경우, 트레이닝될 샘플의 구역 인기도 가중치를 상기 트레이닝될 샘플의 샘플 가중치로 한다.
본 실시예에서 공개한 샘플 가중치 설정방법은, 트레이닝될 샘플의 구역 인기도의 값을 획득한 후, 각각의 상기 구역 인기도의 값에 따라 상기 트레이닝될 샘플의 구역 인기도 가중치를 결정하고, 상기 구역 인기도 가중치를 상기 트레이닝될 샘플의 샘플 가중치로 결정하여, 사용자에게 정확한 검색 또는 추천 결과를 제공한다. 인기도 지표를 결합하여 샘플의 샘플 가중치를 설정함으로써, 높은 인기도 구역의 샘플의 샘플 가중치를 적절하게 낮추어, 트레이닝 모델의 정확도를 향상시키고, 사용자에게 정확한 검색 또는 추천 결과를 제공한다.
도 3과 같이, 본 출원의 또 다른 실시예에 따른 샘플 가중치 설정방법은 단계 300 내지 단계 320을 포함한다.
본 실시예는 구역 인기도, 품목 인기도와 시간 인기도를 포함하는 인기도 지표를 예로 하여, 모델을 트레이닝할 때, 인기도 지표의 값의 획득방법, 및 획득한 인기도 지표의 값에 따라 상기 트레이닝될 샘플의 단일 인기도 지표 가중치를 결정하고, 단일 인기도 지표 가중치에 따라 샘플의 가중치를 결정하는 구체적인 과정을 설명한다.
단계 300, 트레이닝될 샘플의 구역 인기도의 값, 품목 인기도의 값과 시간 인기도의 값을 획득한다.
트레이닝될 샘플을 획득하는 구체적인 방법은 상술의 실시예를 참조할 수 있으므로, 이에 대한 설명을 생략한다. 본 출원의 실시예에서 획득한 샘플 데이터의 샘플의 관련 정보는, 상점 또는 상품의 방문수, 방문 시간 정보, 방문 행위, 상점 또는 상품의 지리적 위치 정보, 상점 또는 상품의 품목 정보 등을 포함한다. 구체적인 실시에서, 경위도 좌표로 표시된 상점의 지리적 위치 정보를 예로 하여, 트레이닝될 샘플의 구역 인기도 지표의 값을 획득하는 구체적인 방법을 설명한다.
구체적인 실시에서, 트레이닝될 샘플의 구역 인기도 값을 획득하는 것은, 모든 트레이닝될 샘플을 지리적 위치에 따라 대응되는 구역 블록으로 구획하고; 각각의 상기 구역 블록의 구역 인기도를 결정하는 것을 포함한다. 트레이닝될 샘플의 구역 인기도 값을 획득하는 구체적인 방법은 상술의 실시예를 참조할 수 있으므로, 이에 대한 설명을 생략한다. 모든 트레이닝 샘플이 M1개 구역 블록 내에 분포될 경우, M1개 구역 블록에 대응되는 M1개 구역 인기도의 값
Figure 112019123313928-pct00013
을 얻을 수 있고, 여기서 1≤j≤M1이다.
트레이닝될 샘플의 시간 인기도 값을 획득하는 것은, 모든 트레이닝될 샘플을 시간에 따라 대응되는 시간 구간으로 구획하고; 각각의 상기 시간 구간의 시간 인기도를 결정하는 것을 포함한다. 먼저, 모든 트레이닝될 샘플의 데이터 구조를 해석하고, 각각의 트레이닝될 샘플의 방문 시간 정보에 따라 상기 트레이닝될 샘플이 커버하는 전체 시간 구간을 결정하고; 다음으로, 기설정된 규칙(예를 들어 7일을 하나의 시간 구간으로 함)에 따라, 상기 전체 시간 구간을 복수 개 구간으로 구획하고; 마지막으로, 각각의 시간 구간의 시간 인기도를 각각 결정한다. 구체적인 실시에서, 시간 인기도의 값은 시간 구간 내의 방문 사용자 수, 해당 시간 구간 내의 과거 방문 수와 같은 여러 가지 데이터로 표시할 수 있다. 본 출원은 각각의 시간 구간의 시간 인기도를 결정하는 구체적인 방법을 제한하지 않는다. 모든 트레이닝 샘플이 M2개 시간 구간 내에 분포될 경우, M2개 시간 구간에 대응되는 M2개 시간 인기도 값
Figure 112019123313928-pct00014
을 얻을 수 있고, 여기서 1≤j≤M2이다.
트레이닝될 샘플의 품목 인기도 값을 획득하는 것은, 모든 트레이닝될 샘플에 따라 각각의 품목의 품목 인기도를 결정하는 것을 포함하고, 여기서, 각각의 품목의 품목 인기도는 해당 품목의 상점 총수 또는 해당 품목의 과거 방문수이다. 구체적인 실시에서, 먼저, 모든 트레이닝될 샘플의 데이터 구조를 해석하고, 각각의 트레이닝될 샘플의 상품 품목 정보에 따라 상기 트레이닝될 샘플이 커버하는 모든 상품 품목을 결정하고; 다음으로, 각각의 품목의 상점 수량 또는 해당 품목의 과거 방문수를 결정하여 해당 품목의 품목 인기도 값으로 한다. 본 출원은 품목 인기도 값을 결정하는 구체적인 방법을 제한하지 않는다. 모든 트레이닝 샘플이 M3개 품목 내에 분포되는 경우, M3개 품목에 대응되는 M3개 품목 인기도 값
Figure 112019123313928-pct00015
을 얻을 수 있고, 여기서 1≤j≤M3이다.
단계 310, 구역 인기도 값, 시간 인기도 값 그리고 품목 인기도 값에 따라 상기 트레이닝될 샘플의 구역 인기도 가중치, 시간 인기도 가중치 그리고 품목 인기도 가중치를 각각 결정한다.
구체적인 실시에서, 모델을 트레이닝할 때, 각각의 상기 인기도 지표의 값에 따라 상기 인기도 지표에 대응되는 상기 트레이닝될 샘플의 단일 인기도 지표 가중치를 결정하는 것은, 구역 인기도의 단순 감소 함수에 따라 트레이닝될 샘플의 구역 인기도 가중치를 획득하고; 시간 인기도의 단순 감소 함수에 따라 트레이닝될 샘플의 시간 인기도 가중치를 획득하고; 품목 인기도의 단순 감소 함수에 따라 트레이닝될 샘플의 품목 인기도 가중치를 획득하는 것을 포함한다.
구역 인기도의 단순 감소 함수에 따라 트레이닝될 샘플의 구역 인기도 가중치를 결정하는 구체적인 실시방법은 상술의 실시예를 참조할 수 있으므로, 이에 대한 설명을 생략한다.
시간 인기도의 단순 감소 함수에 따라 트레이닝될 샘플의 시간 인기도 가중치를 결정할 때, 샘플의 시간 인기도 가중치를 계산하는 수학식은 수학식 5와 같다.
수학식 5:
Figure 112019123313928-pct00016
여기서,
Figure 112019123313928-pct00017
는 모든 시간 구간의 시간 인기도의 평균치이고, 수학식 6에 따라 계산할 수 있다.
수학식 6:
Figure 112019123313928-pct00018
수학식 5와 수학식 6에서,
Figure 112019123313928-pct00019
는 제j개 시간 구간의 시간 인기도 값;
Figure 112019123313928-pct00020
는 시간 구간j중 하나의 트레이닝될 샘플;
Figure 112019123313928-pct00021
는 시간 구간j 중 하나의 트레이닝될 샘플의 샘플 시간 인기도 가중치;
Figure 112019123313928-pct00022
는 제j개 시간 구간에 연관된 트레이닝 샘플의 집합;
Figure 112019123313928-pct00023
는 구역 인기도의 단순 감소 함수를 나타낸다.
구체적인 실시에서, 단순 감소 함수는 구역 인기도를 계산하는 단순 감소 함수를 참조하고, 예를 들어 수학식7로 나타낼 수 있다.
수학식 7:
Figure 112019123313928-pct00024
여기서,
Figure 112019123313928-pct00025
는 제j개 시간 구간의 시간 인기도 값이고; c는 단순 감소 함수의 속도를 제어하는 피팅 매개변수이고, 구체적인 설정방법은 구역 인기도를 계산하는 수학식에서 피팅 매개변수를 설정하는 방법을 참조할 수 있다.
품목 인기도의 단순 감소 함수에 따라 트레이닝될 샘플의 품목 인기도 가중치를 결정할 때, 샘플의 품목 인기도 가중치를 계산하는 수학식은 수학식8과 같다.
수학식 8:
Figure 112019123313928-pct00026
여기서,
Figure 112019123313928-pct00027
는 모든 시간 구간의 시간 인기도의 평균치이고, 수학식9를 통하여 계산될 수 있다.
수학식 9:
Figure 112019123313928-pct00028
수학식 8과 수학식 9에서,
Figure 112019123313928-pct00029
는 제j 개 품목의 품목 인기도 값;
Figure 112019123313928-pct00030
는 품목 j중 하나의 트레이닝될 샘플;
Figure 112019123313928-pct00031
는 품목 j중 하나의 트레이닝될 샘플의 샘플 품목 인기도 가중치;
Figure 112019123313928-pct00032
는 제j 개 품목과 연관된 트레이닝 샘플의 집합;
Figure 112019123313928-pct00033
는 품목 인기도의 단순 감소 함수를 나타낸다.
구체적인 실시에서, 품목 인기도의 단순 감소 함수는 구역 인기도를 계산하는 단순 감소 함수를 참조하거나 구역 인기도의 단순 감소 함수 참조할 수 있고, 이에 대한 설명을 생략한다.
단일 인기도 지표 가중치를 계산하는 수학식을 통하여, 인기도 지표의 값이 낮은 구역 블록, 시간 구간 또는 품목에 있어서, 이들의 연관된 샘플의 가중치가 향상되었고; 반면, 단일 인기도 지표의 값이 높은 구역 블록, 시간 구간 또는 품목에 있어서, 이들에 연관된 샘플의 가중치가 낮아진 것을 얻을 수 있다.
맛집 검색을 예로 들면, 인기도가 높은 지역에 우수 상점이 집중될 때, 사용자의 선택은 보여진 상점 클릭 행위에 있어서 랜덤성이 있으므로, 다수의 우수 상점이 클릭되지 않은 상황이 수집된 트레이닝 샘플에 나타날 수 있다. 상점을 정의하는 특징의 각도가 적을 때, 클릭된 샘플의 특징과 클릭 되지 않은 샘플의 특징이 동일한 상황이 나타날 수 있는데, 모델 트레이닝에 있어서, 대량의 특징 벡터가 플러스 샘플과 마이너스 샘플에 동시 속하여 있는 것은 모델 트레이닝이 정확하지 않은 문제를 발생시킨다. 인기도가 높은 구역, 시간 구간 또는 품목의 플러스, 마이너스 샘플의 가중치를 적절하게 낮추어, 모델을 트레이닝할 때 동일한 특징 벡터가 서로 다는 라벨로 라벨링될 때의 영향을 감소하고, 모델 트레이닝에서 관련 특징의 작용을 강화하여, 모델 트레이닝의 정확성을 향상시켜야 한다.
단계 320, 상기 구역 인기도 가중치, 시간 인기도 가중치와 품목 인기도 가중치에 따라, 상기 트레이닝될 샘플의 샘플 가중치를 결정한다.
구체적인 실시에서, 모든 상기 인기도 지표가 대응하는 상기 단일 인기도 지표 가중치에 따라, 상기 트레이닝될 샘플의 샘플 가중치를 결정하는 단계는, 모든 상기 인기도 지표가 대응하는 상기 단일 인기도 지표 가중치를 곱한 값을 결정하고, 상기 곱한 값을 상기 트레이닝될 샘플의 샘플 가중치로 하는 단계; 또는, 단일 인기도 지표의 중요도에 따라 상기 인기도 지표에 대응되는 적어도 하나의 상기 단일 인기도 지표 가중치를 조절하고, 모든 상기 인기도 지표에 대응되는 조절된 단일 인기도 지표 가중치를 곱한 값을 상기 트레이닝될 샘플의 샘플 가중치로 하는 것을 포함하고, 여기서, 상기 인기도 지표에 대응되는 적어도 하나의 상기 단일 인기도 지표 가중치를 조절하여, 상기 인기도 지표에 대응되는 조절된 단일 인기도 지표의 가중치가 상기 트레이닝될 샘플의 샘플 가중치에서 차지하는 비중이 상기 단일 인기도 지표의 중요도에 매칭되도록 한다.
인기도 지표가 구역 인기도, 시간 인기도와 품목 인기도를 포함할 때, 구체적인 실시에서, 트레이닝될 샘플의 상기 구역 인기도 가중치, 시간 인기도 가중치와 품목 인기도 가중치를 곱한 값을 상기 트레이닝될 샘플의 샘플 가중치로 할 수 있다. 트레이닝될 샘플
Figure 112019123313928-pct00034
를 예로 들면, 모델을 트레이닝할 때의 샘플 가중치는
Figure 112019123313928-pct00035
이고, 여기서,
Figure 112019123313928-pct00036
는 트레이닝될 샘플
Figure 112019123313928-pct00037
이 위치한 구역 블록 중의 트레이닝될 샘플의 샘플 구역 인기도 가중치와 동일하고;
Figure 112019123313928-pct00038
는 트레이닝될 샘플
Figure 112019123313928-pct00039
이 위치한 시간 구간 중의 트레이닝될 샘플의 샘플 시간 인기도 가중치와 동일하고;
Figure 112019123313928-pct00040
는 트레이닝될 샘플
Figure 112019123313928-pct00041
이 위치한 품목 중의 트레이닝될 샘플의 샘플 품목 인기도 가중치와 동일하다.
업무수요에 따라 단일 인기도 지표의 중요도를 미리 설정한 경우, 먼저, 단일 인기도 지표의 중요도에 따라 상기 단일 인기도 지표 가중치를 조절하고, 다음으로, 모든 상기 인기도 지표가 대응하는 조절된 단일 인기도 지표 가중치를 곱한 값을 상기 트레이닝될 샘플의 샘플 가중치로 한다. 단일 인기도 지표의 중요도를, 구역 인기도 지표 가중치의 비중이 80%보다 크고, 시간 인기도 지표 가중치의 비중이 5%보다 작은 경우를 예로 들어 설명한다. 구체적인 실시에서, 먼저, 구역 인기도 가중치, 시간 인기도 가중치와 품목 인기도 가중치를 곱한 값을 계산한 후, 구역 인기도 가중치와 시간 인기도 가중치의 비중을 각각 계산한다. 구역 인기도 가중치의 비중이 80% 보다 크고, 시간 인기도 가중치의 비중이 5%보다 작은 경우, 가중치에 대하여 조절하지 않는다. 구역 인기도 가중치의 비중이 80%보다 작거나 같고, 시간 인기도 가중치의 비중이 5%보다 작은 경우, 구역 인기도 가중치를 일정 비례, 예를 들어 1.5배 확대한 후, 구역 인기도 가중치의 비중이 80%를 초과할 때까지 다시 계산한다. 마지막으로, 조절된 구역 인기도 가중치, 시간 인기도 가중치와 품목 인기 가중치를 곱한 값을 상기 트레이닝될 샘플의 샘플 가중치로 한다. 구역 인기도 가중치의 비중이 80%보다 작거나 같고, 시간 인기도 가중치의 비중이 5%보다 클 경우, 구역 인기도 가중치를 일정 비례 확대하고, 시간 인기도 가중치를 일정 비례, 예를 들어 4%까지 축소한 후, 구역 인기도 가중치와 시간 인기도 가중치의 비중이 기설정된 중요도에 매칭될 때까지 다시 계산한다. 마지막으로, 조절된 구역 인기도 가중치, 시간 인기도 가중치와 품목 인기도 가중치를 곱한 값을 상기 트레이닝될 샘플의 샘플 가중치로 한다.
아래에서, 트레이닝된 모델이 선형 모델인 경우를 예로 들어, 선형 모델의 로지스틱 회귀에 근거하여 본 출원의 샘플 가중치 설정방법의 효과를 설명한다.
로지스틱 회귀의 기본 관계는 아래와 같다:
선형 경계는 수학식 10 이다.
수학식 10:
Figure 112019123313928-pct00042
예측 함수는 수학식 11 이다.
수학식 11:
Figure 112019123313928-pct00043
손실 함수는 수학식 12 이다.
수학식12:
Figure 112019123313928-pct00044
여기서, 수학식 10에서,
Figure 112019123313928-pct00045
는 샘플 특징 가중치,
Figure 112019123313928-pct00046
는 특징 값, n은 샘플 특징의 차원 수,
Figure 112019123313928-pct00047
는 샘플 벡터,
Figure 112019123313928-pct00048
는 샘플 특징 가중치 벡터이다. 예측 함수는 샘플 회귀 값에 대응된다. 수학식 12에서 y는 라벨링된 샘플 라벨, 플러스 샘플의 라벨은 1, 마이너스 샘플의 라벨은 0이다. 손실 함수가 무한 반복함에 따라, 샘플 가중치는 모델이 수렴되어, 플러스 샘플의 회귀가 1에 근접하고, 마이너스 샘플이 0에 근접할 때까지 업데이트된다. 손실 함수로부터 알 수 있듯이, 모델이 샘플을 순회 반복할 때, 가중치가 클수록 모델의 학습과정에 대한 샘플의 영향이 크고, 이러한 샘플을 더 충분하게 학습하게 된다. 그러므로, 인기도에 따라 샘플의 가중치를 조절한 후, 모델의 트레이닝 과정에서, 라벨링이 정확하지 않은 샘플의 중요도가 낮아지므로, 모델 트레이닝의 정확도를 높일 수 있다.
본 출원의 실시예에 따른 샘플 가중치 설정방법은, 트레이닝될 샘플의 인기도 지표의 값을 획득한 후, 각각의 상기 인기도 지표의 값에 따라 상기 인기도 지표에 대응되는 상기 트레이닝될 샘플의 단일 인기도 지표 가중치를 계산하고, 모든 상기 인기도 지표가 대응하는 상기 단일 인기도 지표 가중치에 따라, 상기 트레이닝될 샘플의 샘플 가중치를 결정하여, 사용자에게 정확한 검색 또는 추천 결과를 제공한다. 인기도 지표를 결합하여 샘플의 샘플 가중치를 설정함으로써, 높은 인기도 구역, 시간 구간 또는 품목의 샘플의 샘플 가중치를 적절하게 낮추어, 트레이닝된 모델의 정확도를 높이고, 사용자에게 정확한 검색 또는 추천 결과를 제공한다.
도 4와 같이, 본 출원의 일 실시예에 따른 샘플 가중치 설정장치는,
트레이닝될 샘플의 인기도 지표의 값을 획득하는, 인기도 지표 획득 모듈(400);
상기 각각의 인기도 지표의 값에 따라 상기 인기도 지표에 대응되는 상기 트레이닝될 샘플의 단일 인기도 지표 가중치를 결정하는, 단일 인기도 지표 가중치 결정 모듈(410);
모든 상기 인기도 지표가 대응하는 상기 단일 인기도 지표 가중치에 따라 상기 트레이닝될 샘플의 샘플 가중치를 결정하는, 샘플 가중치 결정 모듈(420)을 포함한다.
선택적으로, 상기 인기도 지표는, 구역 인기도, 시간 인기도, 품목 인기도를 포함한다.
선택적으로, 도 5와 같이, 상기 샘플 가중치 결정 모듈(420)은,
모든 상기 인기도 지표가 대응하는 상기 단일 인기도 지표 가중치를 곱한 값을 결정하고, 상기 곱한 값을 상기 트레이닝될 샘플의 샘플 가중치로 하는, 제1 샘플 가중치 결정 유닛(4201); 또는
단일 인기도 지표의 중요도에 따라 상기 인기도 지표에 대응되는 적어도 하나의 상기 단일 인기도 지표 가중치를 조절하고, 모든 상기 인기도 지표에 대응되는 조절된 단일 인기도 지표 가중치를 곱한 값을 상기 트레이닝될 샘플의 샘플 가중치로 하는, 제2 샘플 가중치 결정 유닛(4202)을 포함한다.
여기서, 상기 인기도 지표에 대응되는 적어도 하나의 상기 단일 인기도 지표 가중치를 조절하는 것은,
적어도 하나의 단일 인기도 지표의 가중치를 조절하여 조절된 단일 인기도 지표의 가중치가 상기 트레이닝될 샘플의 샘플 가중치에서 차지하는 비중이 상기 단일 인기도 지표의 중요도에 매칭되게 하는 것을 포함한다.
상기 인기도 지표가 구역 인기도를 포함할 때, 선택적으로, 도 5와 같이, 상기 단일 인기도 지표 가중치 결정 모듈(410)은 제1 단일 인기도 지표 가중치 결정 유닛(4101)을 포함하고, 상기 제1 단일 인기도 지표 가중치 결정 유닛(4101)은 구역 인기도의 단순 감소 함수에 따라 트레이닝될 샘플의 구역 인기도 가중치를 결정한다.
상기 인기도 지표가 시간 인기도를 포함할 때, 선택적으로, 도 5와 같이, 상기 단일 인기도 지표 가중치 결정 모듈(410)은 제2 단일 인기도 지표 가중치 결정 유닛(4102)을 포함하고, 상기 제2 단일 인기도 지표 가중치 결정 유닛(4102)은 시간 인기도의 단순 감소 함수에 따라 트레이닝될 샘플의 시간 인기도 가중치를 결정한다.
상기 인기도 지표가 품목 인기도를 포함할 때, 선택적으로, 도 5와 같이, 상기 단일 인기도 지표 가중치 결정 모듈(410)은 제3 단일 인기도 지표 가중치 결정 유닛(4103)을 포함하고, 상기 제3 단일 인기도 지표 가중치 결정 유닛(4103)은 품목 인기도의 단순 감소 함수에 따라 트레이닝될 샘플의 품목 인기도 가중치를 결정한다.
본 출원의 실시예에 따른 샘플 가중치 설정장치는, 트레이닝될 샘플의 인기도 지표의 값을 획득한 후, 각각의 상기 인기도 지표의 값에 따라 상기 인기도 지표에 대응되는 상기 트레이닝될 샘플의 단일 인기도 지표 가중치를 결정하고, 모든 상기 인기도 지표가 대응하는 상기 단일 인기도 지표 가중치에 따라, 상기 트레이닝될 샘플의 샘플 가중치를 결정하여, 사용자에게 정확한 검색 또는 추천 결과를 제시한다. 인기도 지표를 결합하여 샘플의 샘플 가중치를 설정하고, 높은 인기도 구역, 시간 구간 또는 품목의 샘플의 샘플 가중치를 적절하게 낮추어, 트레이닝된 모델의 정확성을 높이고, 사용자에게 정확한 검색 또는 추천 결과를 제공한다.
이에 대응하여, 본 출원은 전자 기기를 공개하였는데, 상기 전자기기는, 메모리, 프로세서 및 상기 메모리에 저장되고 상기 프로세서에서 실행되는 컴퓨터 프로그램을 포함하고, 상기 프로세서가 상기 컴퓨터 프로그램을 실행할 때, 상기 샘플 가중치 설정방법이 구현된다. 상기 전자 기기는 PC, 이동식 단말기, PDA, 태블릿 PC 등일 수 있다.
본 출원은 컴퓨터 판독 가능 기록 매체를 더 공개하였는데, 컴퓨터 프로그램은 컴퓨터 판독 가능 기록 매체에 저장될 수 있고, 상기 컴퓨터 프로그램은 프로세서에 의해 실행되어 상기 샘플 가중치 설정방법을 구현한다.
본 명세서의 각 실시예는 점차적인 방법으로 설명되었고, 각각의 실시예에서 설명된 부분은 기타 실시예와 상이한 부분으로, 각 실시예의 동일 또는 유사한 부분을 서로 참조할 수 있다. 장치에 대한 실시예에 있어서, 방법에 대한 실시예와 유사하기에 간단하게 설명하였고, 관련 부분은 방법에 대한 실시예를 참조할 수 있다.
이상과 같이, 본 출원은 샘플 가중치의 설정방법, 장치를 구체적으로 설명하였고, 본 출원은 구체적인 실시예를 통하여 본 출원의 원리 및 실시방식을 설명하였는데, 상기 실시예에서 설명된 부분은 본 출원의 방법 및 핵심 사상을 이해하기 위한 것이고, 본 기술분야의 통상의 지식을 가진 자에 있어서, 본 출원의 사상에 따라 구체적인 실시 방식 및 범위를 변경할 수 있고, 본 출원의 내용은 본 명세서에 의해 한정되지 않는다.
본 기술분야의 통상의 지식을 가진 자는 이상의 실시방식에 대한 설명에 근거하여, 소프트웨어와 필요한 범용 하드웨어 플랫폼 및 하드웨어를 통하여 각 실시방식을 구현할 수 있다. 이에 따라, 상기 기술방안의 본질적인 또는 기존 기술에 기여하는 부분은 소프트웨어로 구현될 수 있고, 상기 컴퓨터 소프트웨어는 ROM/RAM, 자기 테이프, 디스크 등과 같은 컴퓨터 판독 가능 기록 매체에 저장될 수 있고, 컴퓨터 (퍼스널 컴퓨터, 서버 또는 인터넷 설비 등일 수 있음)로 각 실시예 또는 일부 실시예에서 설명한 방법을 실행하도록 명령어를 포함할 수 있다.

Claims (18)

  1. O2O 플랫폼에서 로그 데이터를 획득하는 단계;
    상기 로그 데이터에 기초하여 트레이닝될 샘플의 인기도 지표들의 값을 획득하는 단계;
    상기 인기도 지표들 각각의 값에 따라 상기 트레이닝될 샘플에 대한 상기 인기도 지표들 각각의 단일 인기도 지표 가중치를 결정하는 단계;
    상기 단일 인기도 지표 가중치에 따라 상기 인기도 지표들 전체에 대한 상기 트레이닝될 샘플의 샘플 가중치를 결정하는 단계를 포함하되,
    상기 트레이닝될 샘플의 샘플 가중치를 결정하는 단계는, 단일 인기도 지표의 중요도에 따라 적어도 하나의 단일 인기도 지표 가중치를 조절하는 단계; 및 상기 인기도 지표들에 대한 단일 인기도 지표 가중치들을 곱한 값을 상기 트레이닝될 샘플의 샘플 가중치로 하는 것을 포함하고,
    상기 인기도 지표들은 구역 인기도, 시간 인기도 및 품목 인기도를 포함하는
    컴퓨터에 구현되는 샘플 가중치의 설정방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    상기 단일 인기도 지표의 중요도에 따라 상기 적어도 하나의 인기도 지표 가중치를 조절하는 단계는,
    상기 조절된 단일 인기도 지표 가중치가 상기 샘플 가중치에서 차지하는 비중이 상기 단일 인기도 지표의 중요도를 만족하도록 상기 단일 인기도 지표 가중치를 조절하는 것을 포함하는, 컴퓨터에 구현되는 샘플 가중치의 설정방법.
  6. 제1항에 있어서,
    상기 단일 인기도 지표 가중치를 결정하는 단계는,
    상기 구역 인기도의 단순 감소 함수에 따라 상기 트레이닝될 샘플의 구역 인기도 가중치를 결정하는 것을 포함하는, 컴퓨터에 구현되는 샘플 가중치의 설정방법.
  7. 제1항에 있어서,
    상기 단일 인기도 지표 가중치를 결정하는 단계는,
    상기 시간 인기도의 단순 감소 함수에 따라 상기 트레이닝될 샘플의 시간 인기도 가중치를 결정하는 것을 포함하는, 컴퓨터에 구현되는 샘플 가중치의 설정방법.
  8. 제1항에 있어서,
    상기 단일 인기도 지표 가중치를 결정하는 단계는,
    상기 품목 인기도의 단순 감소 함수에 따라 상기 트레이닝될 샘플의 품목 인기도 가중치를 결정하는 것을 포함하는, 컴퓨터에 구현되는 샘플 가중치의 설정방법.
  9. O2O 플랫폼에서 로그 데이터를 획득하고, 트레이닝될 샘플의 인기도 지표들의 값을 획득하는, 인기도 지표 획득 모듈;
    상기 인기도 지표들 각각의 값에 따라 상기 트레이닝될 샘플에 대한 상기 인기도 지표들 각각의 단일 인기도 지표 가중치를 결정하는, 단일 인기도 지표 가중치 결정 모듈;
    상기 단일 인기도 지표 가중치에 따라 상기 인기도 지표들 전체에 대한 상기 트레이닝될 샘플의 샘플 가중치를 결정하는, 샘플 가중치 결정 모듈;을 포함하고,
    상기 인기도 지표들은 구역 인기도, 시간 인기도 및 품목 인기도를 포함하고,
    상기 샘플 가중치 결정 모듈은, 단일 인기도 지표의 중요도에 따라 적어도 하나의 상기 단일 인기도 지표 가중치를 조절하고, 상기 인기도 지표들에 대한 단일 인기도 지표 가중치들을 곱한 값을 상기 트레이닝될 샘플의 샘플 가중치로 하는 제2 샘플 가중치 결정 유닛을 포함하는, 샘플 가중치 설정장치.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 제9항에 있어서,
    상기 샘플 가중치 결정 모듈은
    상기 조절된 단일 인기도 지표 가중치가 상기 샘플 가중치에서 차지하는 비중이 상기 단일 인기도 지표의 중요도를 만족하도록 상기 단일 인기도 지표 가중치를 조절하는, 샘플 가중치 설정장치.
  14. 제9항에 있어서,
    상기 단일 인기도 지표 가중치 결정 모듈은, 상기 구역 인기도의 단순 감소 함수에 따라 상기 트레이닝될 샘플의 구역 인기도 가중치를 결정하는데 더 사용되는 것인, 샘플 가중치 설정장치.
  15. 제9항에 있어서,
    상기 단일 인기도 지표 가중치 결정 모듈은, 상기 시간 인기도의 단순 감소 함수에 따라 상기 트레이닝될 샘플의 시간 인기도 가중치를 결정하는데 더 사용되는 것인, 샘플 가중치 설정장치.
  16. 제9항에 있어서,
    상기 단일 인기도 지표 가중치 결정 모듈은, 상기 품목 인기도의 단순 감소 함수에 따라 상기 트레이닝될 샘플의 품목 인기도 가중치를 결정하는데 더 사용되는 것인, 샘플 가중치 설정장치.
  17. 메모리, 프로세서, 및 상기 메모리에 저장되어 상시 프로세서에서 실행되는 컴퓨터 프로그램을 포함하는 전자 기기에 있어서,
    상기 컴퓨터 프로그램이 상기 프로세서에 의해 실행될 때, 제1항 및 제5항 내지 제8항의 어느 한 항의 샘플 가중치 설정방법이 구현되는 것인, 전자기기.
  18. 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 기록 매체에 있어서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 제1항 및 제5항 내지 제8항의 어느 한 항의 샘플 가중치 설정방법이 구현되는 것인, 컴퓨터 판독 가능 기록 매체.
KR1020197035385A 2017-05-23 2017-12-29 샘플 가중치 설정방법 및 장치, 전자 기기 KR102340463B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710370473.4A CN107341176B (zh) 2017-05-23 2017-05-23 一种样本权重设置方法及装置,电子设备
CN201710370473.4 2017-05-23
PCT/CN2017/119844 WO2018214503A1 (zh) 2017-05-23 2017-12-29 一种样本权重设置方法及装置、电子设备

Publications (2)

Publication Number Publication Date
KR20200003109A KR20200003109A (ko) 2020-01-08
KR102340463B1 true KR102340463B1 (ko) 2021-12-17

Family

ID=60221310

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197035385A KR102340463B1 (ko) 2017-05-23 2017-12-29 샘플 가중치 설정방법 및 장치, 전자 기기

Country Status (7)

Country Link
US (1) US20200175023A1 (ko)
EP (1) EP3617909A4 (ko)
JP (1) JP6964689B2 (ko)
KR (1) KR102340463B1 (ko)
CN (1) CN107341176B (ko)
CA (1) CA3062119A1 (ko)
WO (1) WO2018214503A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11809434B1 (en) * 2014-03-11 2023-11-07 Applied Underwriters, Inc. Semantic analysis system for ranking search results
CN107491518B (zh) * 2017-08-15 2020-08-04 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
CN110309253A (zh) * 2018-03-01 2019-10-08 北京京东尚科信息技术有限公司 选品方法、装置和计算机可读存储介质
CN110309417A (zh) * 2018-04-13 2019-10-08 腾讯科技(深圳)有限公司 评价因子的权重确定方法和装置
US20200065706A1 (en) * 2018-08-24 2020-02-27 Htc Corporation Method for verifying training data, training system, and computer program product
CN109284285B (zh) * 2018-09-07 2024-05-28 平安科技(深圳)有限公司 数据处理方法、装置、计算机设备及计算机可读存储介质
CN110363346A (zh) * 2019-07-12 2019-10-22 腾讯科技(北京)有限公司 点击率预测方法、预测模型的训练方法、装置及设备
CN110472665A (zh) * 2019-07-17 2019-11-19 新华三大数据技术有限公司 模型训练方法、文本分类方法及相关装置
CN113688304A (zh) * 2020-05-19 2021-11-23 华为技术有限公司 搜索推荐模型的训练方法、搜索结果排序的方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080097821A1 (en) * 2006-10-24 2008-04-24 Microsoft Corporation Recommendations utilizing meta-data based pair-wise lift predictions

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831153B (zh) * 2012-06-28 2015-09-30 北京奇虎科技有限公司 一种选取样本的方法和装置
CN104077306B (zh) * 2013-03-28 2018-05-11 阿里巴巴集团控股有限公司 一种搜索引擎的结果排序方法及系统
CN104504124B (zh) * 2014-12-31 2017-12-19 合一网络技术(北京)有限公司 通过视频搜索和播放行为表现出实体热度的方法
CN104899368B (zh) * 2015-05-29 2019-04-30 浙江宇视科技有限公司 基于数据热度的监控布点需求图生成方法及装置
CN104915734B (zh) * 2015-06-25 2017-03-22 深圳市腾讯计算机系统有限公司 基于时间序列的商品热度预测方法和系统
CN105653683B (zh) * 2015-12-30 2020-10-16 东软集团股份有限公司 一种个性化推荐方法及装置
CN105787061B (zh) * 2016-02-29 2019-09-20 广东顺德中山大学卡内基梅隆大学国际联合研究院 信息推送方法
CN106022865A (zh) * 2016-05-10 2016-10-12 江苏大学 一种基于评分和用户行为的商品推荐方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080097821A1 (en) * 2006-10-24 2008-04-24 Microsoft Corporation Recommendations utilizing meta-data based pair-wise lift predictions

Also Published As

Publication number Publication date
EP3617909A1 (en) 2020-03-04
WO2018214503A1 (zh) 2018-11-29
JP2020522061A (ja) 2020-07-27
CN107341176A (zh) 2017-11-10
KR20200003109A (ko) 2020-01-08
JP6964689B2 (ja) 2021-11-10
US20200175023A1 (en) 2020-06-04
CN107341176B (zh) 2020-05-29
EP3617909A4 (en) 2020-05-06
CA3062119A1 (en) 2019-11-22

Similar Documents

Publication Publication Date Title
KR102340463B1 (ko) 샘플 가중치 설정방법 및 장치, 전자 기기
US20200117675A1 (en) Obtaining of Recommendation Information
CN105787061B (zh) 信息推送方法
CN106372249B (zh) 一种点击率预估方法、装置及电子设备
US20200294111A1 (en) Determining target user group
CN107424043A (zh) 一种产品推荐方法及装置,电子设备
US10878058B2 (en) Systems and methods for optimizing and simulating webpage ranking and traffic
CN106251174A (zh) 信息推荐方法及装置
CN108334575A (zh) 一种推荐结果排序修正方法及装置,电子设备
CN104935963A (zh) 一种基于时序数据挖掘的视频推荐方法
EP2960849A1 (en) Method and system for recommending an item to a user
CN108345601A (zh) 搜索结果排序方法及装置
CN105868254A (zh) 信息推荐方法及装置
CN107577736B (zh) 一种基于bp神经网络的文件推荐方法及系统
CN110472995A (zh) 到店预测方法、装置、可读存储介质及电子设备
CN107766573A (zh) 基于数据处理的商品推荐方法、装置、设备和存储介质
CN111144874A (zh) 支付方式推荐方法、装置及设备
CN110020152B (zh) 应用推荐方法及装置
CN113407854A (zh) 一种应用推荐方法、装置、设备及计算机可读存储介质
CN111626767A (zh) 资源数据的发放方法、装置及设备
CN104123321B (zh) 一种确定推荐图片的方法及装置
CN116739665A (zh) 信息投放方法、装置、电子设备及存储介质
CN116762070A (zh) 用于提供图像推荐的系统、方法、计算平台和存储介质
KR102388231B1 (ko) 대체 식자재 추천을 위한 지능형 식자재 중개 시스템, 그리고 이를 기반한 대체 식자재 추천 방법
CN111859946B (zh) 对评论进行排序的方法和装置及机器可读存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant