KR101634020B1

KR101634020B1 - 서프-쇼핑을 위한 연관성 추출 시스템 및 방법

Info

Publication number: KR101634020B1
Application number: KR1020147007375A
Authority: KR
Inventors: 조피아 스탄키에윅즈; 사또시 세끼네
Original assignee: 라쿠텐 인코포레이티드
Priority date: 2012-02-09
Filing date: 2013-02-08
Publication date: 2016-06-27
Also published as: US20130212110A1; CN104106087B; JP2014517364A; JP5824532B2; EP2812869A1; CN104106087A; KR20140057347A; US8843497B2; WO2013118923A1

Abstract

본 발명은 실세계 쇼핑 경험을 모방하는 방식으로 사용자에게 아이템들을 소개하도록 웹페이지에 데이터를 제공하기 위해 선택된 프로그래밍된 데이터 프로세서에 의해 수행되는 컴퓨터 시스템 및 방법에 관한 것이다. 개시되는 기술의 다양한 양태들은 연관 관계 추출을 이용하여 제품 또는 카테고리 연관성을 계산하기 위한 시스템들 및 방법들과도 관련된다. 개시되는 기술의 추가적인 양태들은 자동 토픽 발견, 및 이벤트 및 카테고리 매칭과 관련된다.

Description

서프-쇼핑을 위한 연관성 추출 시스템 및 방법{SYSTEM AND METHOD FOR ASSOCIATION EXTRACTION FOR SURF-SHOPPING}

우선권 주장

본원은 2012년 2월 9일자로 출원된 미국 특허 가출원 제61/597,032호 및 2012년 9월 10일자로 출원된 미국 특허 정규 출원 제13/607,967호에 대해 우선권을 주장하며, 이들 출원 전체는 본 명세서에 참고로 포함된다.

기술 분야

본 발명은 일반적으로 전자 상거래에 관한 것으로서, 구체적으로는 웹 기반 상거래를 용이하게 하기 위해 성능 및 프레젠테이션 향상 프로토콜들 및 시스템 아키텍처를 구현하기 위한 네트워크워크 기반 컴퓨터 시스템 및 방법에 관한 것이다.

인터넷 상에서의 쇼핑은 많은 점에서 물리적 시장들에서의 쇼핑과 크게 다르다. 하나의 중요한 차이점은 온라인 쇼핑 모델이 검색 지향적, 즉 사용자가 질문을 타이핑하여 입력하여 최고 결과들 중에서 대응하는 제품들을 찾는 것에 기초한다는 점이다. 따라서, 온라인 쇼핑은 구매하고 싶어하는 특정 유형의 제품을 기억하는 사용자의 목적에 적합하다. 그러한 사용자는 그가 선택한 제품을 빠르게 찾거나, 동일 제품의 근사한 대안들 및 변형들을 비교할 수 있기를 원한다.

한편, 많은 사용자는 단순히 쇼핑 활동을 즐기며, 그들이 구매를 행하기로 결정하기 전에 다양한 상이한 아이템들을 브라우징하기를 바란다. 그러한 쇼핑 경험은 전통적으로, 예를 들어 백화점 또는 쇼핑 센터에 들어가서 둘러보는 것에 의한 오프라인 또는 물리적 시장들에만 적합했다. 검색 지향 온라인 쇼핑 사이트들은 충분한 또는 만족스런 "둘러보기(look around)" 기능을 제공하지 않는다.

본 발명은 이들 및 다른 문제들을 해결하여 향상된 온라인 쇼핑 경험을 제공함으로써 사용자에게 물리적 시장의 브라우징에 상당하는 온라인 경험을 일부 허락하고 사용자에게 관련 제품들을 제공하고자 한다.

따라서, 본 발명의 목적은 사용자들에게 관련된 제품들을 소개하는 액세스 포털을 갖는 네트워크워크 기반 컴퓨터 시스템을 제공하는 것이다.

본 발명의 다른 목적은 사용자들에게 소개되는 관련 제품들을 최적화하기 위한 프로토콜을 제공하는 것이다.

본 발명의 또 다른 목적은 연관 관계 추출을 제공하는 것이다.

본 발명의 또 다른 목적은 제품/전자 상거래 도메인에 대한 토픽(topic) 발견을 제공하는 것이다.

본 발명의 또 다른 목적은 이벤트 및 카테고리 매칭을 제공하는 것이다.

본 발명의 상기 및 다른 목적들은 웹에 접속된 선택적으로 프로그래밍된 컴퓨터 플랫폼 및 시스템을 포함하는 본 발명의 특정 실시예에서 실현된다.

본 발명의 다른 특징들 및 장점들은 첨부 도면들 및 상세한 설명과 관련하여 고려될 때 더 명확해질 것이다.

도 1은 개시되는 기술의 일 실시예에 따른 예시적인 인터넷 시장 환경을 나타내는 블록도이다.
도 2는 개시되는 기술의 일 실시예에 따른, 도 1의 서프-쇼핑 서버(110)의 예시적인 컴포넌트들의 블록도이다.
도 3 및 도 4는 개시되는 기술의 실시예들의 스크린 샷들이다.
도 5는 LDA 모델 및 그의 파라미터들을 나타내는 도면이다.

본 발명은 실제 세계 쇼핑 경험을 모방하는 방식으로 사용자에게 아이템들을 소개하도록 웹페이지에 데이터를 제공하기 위해 선택된 프로그래밍된 데이터 프로세서에 의해 수행되는 컴퓨터 시스템 및 방법에 관한 것이다. 개시되는 기술의 다양한 양태들은 연관 관계 추출을 이용하여 제품 또는 카테고리 연관성을 계산하기 위한 시스템들 및 방법들과도 관련된다. 개시되는 기술의 추가적인 양태들은 자동 토픽 발견, 및 이벤트 및 카테고리 매칭과 관련된다. 본 명세서에서 설명되는 특정 실시예들은 예시적이며, 개시되는 기술의 범위를 한정하지 않는다.

이제, 도 1을 참조하면, 개시되는 기술에 따른 인터넷 시장 기반구조(100)의 일 실시예의 블록도가 도시되어 있다. 인터넷 시장 기반구조(100)는 라우터, 허브, 게이트웨이 등과 같은 하나 이상의 통신 장치는 물론, 유선 접속 또는 무선 접속과 같은 하나 이상의 접속을 포함할 수 있는 네트워크(102)를 포함한다. 상이한 실시예들에서, 네트워크(102)는 상이한 수의 통신 장치들 및 접속들을 포함할 수 있으며, 상이한 지리들의 범위에 걸쳐 있을 수 있다. 상이한 실시예들에서, 네트워크(102)는 특히 유선 전화 기반구조, 셀룰러 전화 기반구조, 케이블 텔레비전 기반구조 및/또는 위성 텔레비전 기반구조의 전부 또는 부분들을 포함할 수 있다.

하나 이상의 사용자 컴퓨터(104, 106), 소매상 서버(108) 및 서프-쇼핑 서버(110)를 포함하는 다양한 인터넷 시장 관여자들은 네트워크(102)와 통신한다. 본 명세서에서 사용될 때, 용어 "컴퓨터"는, 예를 들어 데스크탑, 랩탑, 서버, 셀폰, 스마트폰, 핸드헬드 장치, 텔레비전 셋톱 박스, 및/또는 네트워킹된 컴퓨팅 시스템, 또는 이들의 다수 또는 조합들을 포함하는, 기계 명령어들을 실행할 수 있는 임의의 시스템 또는 장치를 포함한다. 소매상 서버(108)는 웹페이지들 및 웹페이지들을 이들을 요청하는 시스템들 또는 장치들에 제공할 수 있는 웹 서버 소프트웨어를 포함한다. 웹페이지들은 예를 들어 쇼핑 콘텐츠를 포함하는 다수의 상이한 미디어 및 콘텐츠를 포함할 수 있다. 서프 쇼핑 서버(110)는 카테고리들과 제품들 사이의 연관 관계들을 결정하고, 토픽 페이지들을 구축하고, 아래에 상세히 설명되는 바와 같은 다양한 다른 기능들을 수행하도록 동작할 수 있다. 서프 쇼핑 서버(110)는 소매상 서버(108)의 일부일 수 있거나, 독립 서버일 수 있다.

사용자 컴퓨터들(104, 106), 소매상 서버(108) 및 서프 쇼핑 서버(110) 각각은 네트워크 통신 장치, 비일시적 저장 매체/장치, 프로세서, 메모리와 같은 하드웨어 및 운영 체제 소프트웨어, 웹 서버 소프트웨어 및/또는 웹 브라우징 소프트웨어와 같은 소프트웨어를 포함할 수 있다. 일 실시예에서, 사용자 컴퓨터들(104, 106)은 소매상 서버(108) 및/또는 서프 쇼핑 서버(110)로부터 웹페이지들을 요청할 수 있는 웹 브라우저를 포함한다. 이 분야의 기술자들은 "웹페이지"가, 예를 들어 스크린 상에 표시되는 시각적 콘텐츠(예로서, 텍스트, 픽처, 비디오, 버튼 등), 시각적 콘텐츠가 표시되게 하는 소프트웨어 코드는 물론, 어느 것도 표시되게 하지 않지만 웹페이지와 관련하여 소정의 기능을 수행하게 해주는 다른 소프트웨어 코드도 포함하는 상이한 것들의 모음을 지칭한다는 것을 이해할 것이다.

도 2는 개시되는 기술의 일 실시예에 따른, 도 1의 서프 쇼핑 서버(110)의 예시적인 컴포넌트들을 나타낸다. 인터페이스 소프트웨어(202)는 서프 쇼핑 서버(110)와의 사용자 상호작용을 가능하게 한다. 저장 매체(204)는 연관 관계 추출 엔진(206) 및 출력 엔진(210)을 구현하는 데 필요한 프로그래밍을 포함하는 선택적 프로그래밍을 저장하도록 동작할 수 있다. 연관 관계 추출 엔진(206)은 후술하는 알고리즘들 및 방법들이 수행되도록 데이터 프로세서(208) 상에서 실행될 수 있다. 출력 엔진(210)은 연관 관계 추출 엔진(206)의 결과들, 예를 들어 토픽 페이지를 사용자 컴퓨터 또는 소매상 서버로 출력하도록 동작할 수 있다.

일 실시예에서, 사용자는 소정의 제품 카테고리, 예를 들어 와인 카테고리 내의 제품들을 볼 수 있다. 시스템의 목적들 중 하나는 사용자가 어떤 다른 카테고리들에 관심을 갖는지를 결정하고, 그러한 카테고리들을 표시하는 것이다. 예를 들어, 와인의 경우, 다양한 유형의 와인만이 아니라, 와인 개방 및 저장 도구들은 물론, 와인 글라스들 또는 치즈와 같이 와인과 함께 서빙하기에 적합한 음식도 존재할 수 있다. 이러한 제품 카테고리들은 각각의 소매상에 대해 고유할 수 있는 "제품 온톨로지 트리(product ontology tree)" 내에 정의될 수 있다. 예를 들어, 소매상 X는 와인 병따개를 서브카테고리로서 갖는 가정용품 카테고리, 및 드링크를 서브카테고리로서 갖고 와인을 드링크 카테고리의 서브카테고리로서 갖는 음식 카테고리를 가질 수 있다. 이 예에서, 전술한 모든 유형의 제품들은 소매상의 제품 계층구조 내의 상이한 카테고리들에 할당되어, 종종 제품 온톨로지 트리에서 멀리 떨어지게 된다. 더구나, 사용자 데이터는 희박성 문제를 겪을 수 있으므로 이러한 유형의 연관성을 발견하기에 충분하지 못할 수 있거나, 이러한 방식으로 발견되는 관련 콘텐츠는 이를 함께 표시하는 것이 즐거운 서핑 경험을 제공할 정도로 충분히 일관적(coherent)이지 않을 수 있다.

소매상 제품 계층 구조 내의 하나의 카테고리, 예를 들어 파스타 소스는 물론, 이 카테고리에 할당된 제품들의 서술들(descriptions)이 주어질 때, 본 발명은 파스타 소스의 경우에 파스타, 토마토, 올리브유 및 치즈와 같은 다른 관련 카테고리들을 추출한다. 이것은 "카테고리 문서들"의 모음을 생성하고, 이 문서 모음에서 숨겨진 토픽들을 찾는 토픽 모델 알고리즘을 이용함으로써 달성된다.

이어서, 각각의 카테고리에 중요한 토픽들 및 카테고리 이름들의 동시 발생에 기초하여 관련 카테고리들이 발견된다. 게다가, 관련 카테고리들은 이들이 할당된 토픽들에 따라 그룹화될 수도 있으며, 이는 관련 카테고리 정보를 배열하기 위한 자연스런 방식을 제공한다. 각각의 관련 카테고리에 대해, 개시되는 발명은 연관성을 나타내는 제품 서술들로부터 예시적인 제품들 및 발췌 문장들을 선택한다. 더구나, 개시되는 발명은 주어진 토픽의 중심인 카테고리들을 목록화하는 토픽 페이지들도 구성한다. 토픽 페이지들은 상점 내의 테마 디스플레이의 등가물, 예를 들어 이태리 요리에서 사용되는 재료들로서 간주될 수 있다.

서프 쇼핑 패러다임

서프 쇼핑은 온라인 상점을 "둘러보고" 싶어하는 사용자들을 위해 다양한 제품들의 브라우징 및 탐색을 용이하게 하는 온라인 쇼핑 패러다임으로서 정의될 수 있다. 서프 쇼핑하는 타겟 사용자는 특정 아이템을 검색하려는 의도를 반드시 갖는 것이 아니라 오히려 쇼핑 활동을 즐기고 탐색하기 위해 사이트를 방문하는 사용자이다. 따라서, 서프 쇼핑 인터페이스의 목적은 사용자의 의도를 파악하고, 즐거움을 제공하는 것이다. 사용자들은 사이트 상에 더 오래 머물수록, 그들이 구매하기로 결정하는 제품을 발견할 가능성이 더 커진다. 서프 쇼핑의 다른 기능은 사용자가 알지 못했던 또는 검색하려고 생각하지 못했던 제품들을 브라우징 제안들 사이에 표시함으로써 그 제품들에 사용자를 노출시키는 것이다.

따라서, 바람직한 실시예에서, 서프 쇼핑 인터페이스는 다양한 내비게이션 옵션들, 및 매력적인 디스플레이를 포함한다. 사용자를 즐겁게 하기 위해, 시스템은 사용자가 현재 보고 있는 제품 선택에 관련된 다양한 옵션들을 제공해야 하며, 이들은 탐색을 위한 추가적으로 가능한 길 안내(directions)로서 역할을 할 수 있다. 게다가, 관련된 것으로 표시되는 아이템들(제품 카테고리들 또는 제품들)은 사이트의 추가적인 서핑을 장려하기 위해 흥미롭고 매력적인 방식으로 체계화되고 표시되어야 한다. 이러한 요소들은 제품 카테고리들 사이의 연관 관계들을 추출하고 이러한 연관 관계들을 테마들/토픽들로 체계화하기 위한 방법에 의해 촉진된다. 앞의 2개의 섹션은 방법의 컴포넌트들 및 표준 실험들에서 사용되는 데이터를 소개한다.

예비 정의들 및 데이터

연관 관계들. 통상적인 온라인 소매상 제품 카테고리 계층구조가 주어질 때, 반드시 동일 시맨틱 클래스 내에 있지는 않지만, 즉 제품 트리 내에서 가깝지만, 그럼에도 개념적으로 관련된 것으로 인식되는 아이템들 사이에는 연관 관계가 존재한다. 그러한 관계들의 예들은 컵과 커피 또는 자전거와 헬멧을 포함한다. 아이템들은 관념적으로 관련된 것으로 간주될 수 있는데, 그 이유는 이들이 하나의 활동 또는 이벤트 유형에 관련되거나(파스타 요리는 파스타, 그릇, 끓는 물 등과 관련됨), 하나의 아이템 유형이 다른 아이템 유형에 대한 컨테이너로서 서빙하거나, 이들이 자주 함께 발견되기 때문이다(여성의 핸드백 내의 손수건과 콤팩트 미러).

주어진 엔티티와 관념적으로 관련된 엔티티들의 세트를 발견하는 것과 별개로, 그의 멤버들은 그들을 타겟 엔티티에 연결하는 테마 또는 전체 토픽에 따라 그룹화될 수도 있다. 예를 들어, 치즈와 관련된 엔티티들은 조식으로서 통상적으로 먹는 다른 음식, 또는 요리시의 치즈의 사용과 관련된 아이템들을 포함할 수 있으며, 이 경우에 관련 엔티티들은 2개의 테마 그룹으로 세분될 것이다. 단일 토픽의 일례를 제공하기 위하여, 요리 테마 아래에 그룹화되는 치즈와 관련된 엔티티들은 강판(갈기 위한 도구), 피자(토핑 또는 소스 재료로 사용되는 치즈) 또는 토마토 소스(치즈와 결합되는 재료)를 포함할 수 있다.

수동 또는 자동 분류에 기초하여, 카테고리 노드들은 카테고리들 및 속성들로 분할될 수 있으며, 속성 노드들은 트리 내의 더 아래에서 발생한다. 예를 들어, 밥그릇 카테고리의 자식들은 자기, 세라믹, 플라스틱 등과 같은 재료를 서술하는 속성들을 포함할 수 있다.

카테고리라는 용어는 계층구조 내의 해당 카테고리 노드 아래의 제품들(및 대응하는 제품 문서들)의 세트를 지칭하는 반면, 카테고리 이름이라는 용어는 카테고리에 주어지는 라벨을 지칭한다. 일례에서, 카테고리 이름이 제품 문서에서 사용될 때는 해당 카테고리 내의 아이템들을 지칭한다고 하는 간이 가정이 행해질 수 있다. 일례에서, 각각의 카테고리는 하나의 이름/라벨을 갖지만, 원칙적으로 그 이름은 카테고리 내의 아이템들을 지칭하는 데 사용되는 동의어들 또는 키워드들의 리스트로 대체될 수 있다.

방법 요약

선택된 도메인, 예컨대 음식 및 주방 도메인 내의 제품 카테고리들 간의 연관성을 찾기 위한 방법이 아래에 설명된다. 아래에서는 음식 및 주방 도메인으로부터의 카테고리 노드들(총 1088개)만을 고려한 특정 실험을 참조하며, 아래의 특정 예에 대한 참조들은 한정이 아니라는 것을 이해한다. 일 실시예에서, 연관 관계를 추출하는 데 사용되는 방법은 아래의 단계들로 구성된다.

1. 카테고리 문서 구성

도메인 내의 각각의 카테고리(X)에 대해, 이 카테고리를 다른 카테고리들(Y)과 관련하여 서술하는 모든 문장들로 구성되는, 구체적으로는 적어도 하나의 다른 카테고리(Y)의 이름을 언급하는 X 내의 제품들의 서술들로부터의 모든 문장들은 물론, 카테고리(X)의 이름을 언급하는 카테고리들(Y) 내의 제품들의 서술들로부터의 모든 문장들을 포함하는 인조 문서를 구성한다. 그 결과는 카테고리당 하나의 문서로 된 문서들의 세트(집합)이다.

2. 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)을 이용하는 토픽 발견

카테고리 문서들의 집합에 대해 LDA를 이용하여 토픽 모델을 실행하며, 이는 문서들 내의 숨겨진 토픽들/테마들을 발견한다. 모델의 결과들은 (각각의 토픽 내에 나타날 가능성이 있는 단어들에 의해 나타내지는) 문서 모음 내의 메인 토픽들은 물론, 각각의 카테고리 문서에 대한 주된 토픽들 및 문서 모음 내의 각각의 단어에 대한 토픽 라벨도 제공한다. 주어진 문서들의 집합에 대한 토픽들의 수는 경험적으로 설정되어야 한다. 음식 및 주방 도메인의 경우, 카테고리들의 수보다 10배 적은 토픽들의 수가 최적이다. 일 실시예에서, 너무 일반적인 토픽들을 피하기 위해, 토픽들의 최고 10%가 폐기된다.

3. 각각의 카테고리 문서에 대한 관련 카테고리들의 선택 및 토픽들로의 카테고리들의 할당

개별 카테고리 문서들 내에서 서술되는 각각의 타겟 카테고리에 대해, 잠재적 관련 카테고리들이 타겟 카테고리 문서 내의 그들의 발생에 따라 분류되거나, 그들은 토픽 모델 결과들에 기초하여 관계 점수를 할당받는다. 각각의 관련 카테고리는 또한 관련 카테고리 문서 내의 최고 토픽들과의 그의 오버랩에 기초하여 타겟 내의 최고 토픽들 중 하나에 할당된다.

4. 발췌 및 샘플 제품 선택

이전의 두 단계가 주어질 때, 관련 카테고리의 토픽으로의 할당이 알려지며, 타겟과 관련 카테고리 간의 관계를 나타내는 발췌 후보들로서 서빙할 수 있는 타겟 카테고리 문서 내의 문장들의 세트가 존재한다. 이러한 문장 세트에 대해, 연관된 쌍 내의 카테고리 이름들 중 하나를 포함하는 가장 빈번한 술어 논항 구조(predicate argument structure)가 발견되며, 그러한 문장들은 단어들이 이러한 특정 연관 관계에 할당된 토픽에 속할 가능성이 얼마인지에 따라 분류된다. 자신들의 서술들 내에 최고 득점 발췌들을 가진 제품들이 예들로서 선택된다. 타겟 카테고리 이름 및 토픽을 대표하는 단어들로부터 질문을 만들고, 검색 결과들을 관련 카테고리 내의 아이템들로 제한함으로써 제품 인덱스에서 추가적인 제품 예들이 검색될 수 있다.

5. 각각의 토픽을 나타내기 위한 카테고리들의 선택 및 클러스터링

LDA를 이용하여 카테고리 문서들의 모음 내에서 숨겨진 토픽들이 발견되었으므로, 결과들은 상점 내의 테마 디스플레이 또는 테마 코너의 등가물들로서 간주될 수 있는 "토픽 페이지들"을 구성하는 것도 가능하게 한다. 토픽 페이지를 구축하기 위하여, 이 토픽 아래에 있을 가능성이 가장 큰 카테고리 문서들이 선택되고, 제품 온톨로지 트리 내의 거리에 따라 그들을 그룹화하기 위해 k-평균 클러스터링의 버전이 이용되며, 따라서 유사한 카테고리들이 함께 보여질 수 있고, 함께 어울리지 않는 카테고리들이 제거될 수 있다. 개시되는 발명의 일 실시예에 따른 예시적인 토픽 페이지의 스크린샷이 도 3에 도시된다.

6. 토픽 라벨 선택

토픽들의 수는 주어진 도메인 내의 카테고리들의 수보다 훨씬 적으며(예를 들어, 1088개의 카테고리의 음식 및 주방 도메인에 대해 100개의 토픽), 이는 수동 토픽 라벨 선택을 가능하게 한다. 그러나, 일 실시예에서는, 토픽 라벨 선택이 자동화된다. 토픽 라벨들은 토픽 페이지 상의 최고 토픽 키워드들 및 카테고리들의 선택에 기초하여 주석자에 의해 할당될 수 있다.

방법 상세들

1. 카테고리 문서 구성

이 섹션은 해당 카테고리 내의 모든 제품 서술들이 주어질 때 카테고리 문서를 어떻게 구성할지를 설명한다. 또한, 주어진 도메인에 대한 그러한 문서들의 모음이 다음 섹션에서 설명되는 토픽 모델 클러스터링에 대한 입력으로서 사용될 수 있다.

먼저, 모든 서술들이 토큰화되며, POS(parts-of-speech)가 문장들 내에 태그화 및 세그먼트화된다. 제품 서술들에서의 문장 세그먼트화는 (구두점뿐만 아니라, 별표, 음표 및 일부 다른 기호들도 포함할 수 있는) 주어진 약 20개 문자의 세트 내의 분할기 문자들 중 하나를 만날 때 세그먼트화할지를 결정하는 간단한 나이브 베이즈 분류기(Naive Bayes classifier)에 기초한다. 분류기에 제공되는 특징들은 이전 단어, 이전 단어의 POS, 분할기 문자 자체 및 이전 분할기로부터의 거리(단어 단위)이다.

세그먼트화 후에, 아래의 규칙들에 따라 서술 데이터가 제거된다. 중복 서술들이 제거되며, 따라서 중복 문장들이 동일 상인에 의해 제공되는 제품 서술들로부터 나오는 경우에 이들도 제거된다. 구두점만 또는 숫자만 다른 문장들도 중복들인 것으로 간주된다. 더구나, 키워드 리스트들과 같은 비문장 세그먼트들을 배제하기 위해 어떠한 술어(동사 또는 형용사)도 또는 격 불변화사(case particle)도 포함하지 않는 세그먼트들이 제거된다.

모든 문장들은 원천(source) 카테고리에 기초하여 개별 문서들로 그룹화되며, 그들은 제품 서술이 속하는 카테고리의 id를 포함하는 고유 id들을 할당받는다. 이어서, 문장들은 더 필터링되어, 도메인 내의 다른 카테고리의 이름을 포함하는 문장들만이 남는다. 이것은 주어진 제품 카테고리와 다른 카테고리들 간의 관계를 잠재적으로 서술하는 문장들의 유지를 가능하게 한다. 이것은 또한 발송 또는 포장 정보와 같은 메타데이터의 제거를 돕는다. 데이터는 토큰화된 포맷으로 유지되지만, 카테고리 이름들과 매칭되는 모든 하위 문자열들이 연결되어, 단일 단어들이 형성된다(많은 카테고리 이름들은 둘 이상의 토큰으로 구성된다).

또한, 카테고리 x에 대한 중요한 지식이 카테고리 x의 이름을 언급하는 다른 카테고리들로부터의 제품들의 서술들 내에 포함될 수 있다. 따라서, 최종 단계에서, 각각의 카테고리 문서는 관련 카테고리 이름을 포함하는 다른 카테고리들 내의 서술들로부터 복사된 문장들로 증대된다.

그 결과는 제품 카테고리당 하나의 문서로 된 문서들의 세트(집합)이다. 이러한 문서들은 일관적인(coherent) 텍스트들 또는 요약들이 아니라, 제품 서술들로부터 추출된 관련 문장들을 함께 그룹화할 뿐이라는 점에 유의해야 한다. LDA는 단어 가방 모델(bag of words model)이므로, 그러한 카테고리 문서들의 집합은 다음 단계에 대한 유효한 입력을 구성한다.

2. 잠재 디리클레 할당

주어진 타겟에 관념적으로 관련되는 엔티티들을 식별하는 것 외에도, 또 하나의 목적은 이러한 지식을 타겟 엔티티의 상이한 양태들 및 그가 관련된 것으로 분류된 엔티티들과 연관되는 방식에 기초하여 테마 그룹들로 체계화하는 것이다. 따라서, 잠재 디리클레 할당(LDA)이라고 하는 모델이 이용된다.

LDA를 실행하기 위해, 3개의 파라미터, 즉 토픽 이전(prior), 단어 이전 및 토픽 클러스터들의 수, 즉 모델에 의해 발견될 집합 내의 숨겨진 테마들의 수가 지정되어야 한다. 일 실시예에서, 토픽 이전은 토픽들의 수로 50을 나눈 값으로 설정되고, 단어 이전은 0.01로 설정된다. 1보다 작은 토픽 이전은 문서들 내의 토픽들의 "피크가 있는" 분포를 보증하며, 이러한 분포에서는 소수의 주된 토픽들이 문서별로 구별된다. 주어진 문서들의 집합에 대한 토픽들의 수는 경험적으로 설정되어야 한다. 음식 및 주방 도메인의 경우, 카테고리들의 수보다 10배 적은 토픽들의 수가 최적인 것으로 밝혀졌다.

붕괴 깁스 샘플링(collapsed Gibbs sampling)을 추정 방법으로 사용하는 소프트웨어가 사용될 수 있다. 샘플링 방법을 이용하여, 결과들이 샘플러의 다수의 "번-인(burn-in)" 반복 후에 다수의 샘플에 걸쳐 평균될 수 있다. 그러나, 실제로는 샘플들에 걸친 토픽 비식별성의 문제가 유발될 수 있다. 일 실시예에서, 집합의 로그 우도(log-likelihood)가 (예를 들어 2500-3000번의 반복으로) 안정된 후에 취해지는 단일 샘플 근사화가 이용될 수 있다.

일 실시예에서는, 문서들 내의 모든 단어들이 기본 어형불변 형태(base uninflected form)로 표현되었다. 113개 단어의 스톱 리스트를 이용하여, 문서들로부터 모든 숫자들 및 구두점 문자들을 제거하였다. 입력도 연관 관계들 및 활동들을 특징으로 하는 토픽들을 발견할 기회를 증가시키도록 포맷팅되었다. 문서들 내의 모든 단어들을 입력으로 사용하는 것에 더하여, 집합에 대해 의존성 파서(parser)를 실행하고, 술어 표현들(동사, 형용사 및 동명사) 및 오리지널 격 형태(original case form)의 그들의 불변화사들만을 유지하는 것도 가능하다(즉, 격 조사(case particle)를 명사에 첨부하여 단일 토큰을 형성하였다). 후자의 옵션은 토픽 분포에 영향을 미치는 것에 더하여, 집합 크기를 줄이고, 따라서 계산 시간을 단축시키는 장점을 갖는다.

LDA의 결과들은 각각의 문서에서의 추정된 토픽 비율들은 물론, 토픽들의 단어 분포 표시들로 구성된다. 토픽 단어 분포는 주어진 토픽 아래의 가장 일반적인 단어들의 결정을 가능하게 한다. 이들은 토픽에 라벨을 할당하기 위해 인간 주석자에 의해 또는 자동화된 수단을 통해 사용될 수 있는 단어들이다.

LDA에 의해 발견되는 숨겨진 토픽들은 특이성/일반성이 다르다. 일부 토픽 클러스터들은 주어진 도메인에 대해, 예를 들어 음식 및 주방 도메인 내의 식사에 대한 토픽에 대해 너무 일반적이다. 이러한 토픽을 할당받은 카테고리들의 수를 고찰함으로써 그러한 토픽들을 발견 및 배제하는 것이 가능하다(카테고리들이 더 많을수록 토픽은 더 일반적으로 불명확하다). 너무 일반적인 토픽들을 피하기 위해, 문서들의 수에 따라 토픽들의 최고 X%(예를 들어, 10%)를 폐기하는 것이 적당할 수 있다.

일 실시예에서는, 관계형 토픽 모델(RTM)과 같은 관리형 LDA를 이용하여, 제품 온톨로지 트리 내의 관련 카테고리들을 발견한다. RTM을 이용하여, 모델이 제품 온톨로지 트리 내의 카테고리들 사이의 기존 링크들에 대해 훈련될 수 있으며, 그 결과들은 카테고리 계층 구조 트리에서 서로 떨어진 카테고리들 사이의 링크들의 예측에 적용될 수 있다.

3. 관련 카테고리 선택 및 토픽 할당

개별 카테고리 문서에 의해 서술되는 각각의 타겟 카테고리에 대해, 개시되는 발명은 관련 카테고리를 언급하거나 관련 카테고리 내의 제품의 서술으로부터 유래된 타겟 카테고리 문서 내의 문장들의 수에 따라 잠재적 관련 카테고리들을 분류한다. 이것은 2개의 카테고리 사이의 관계 강도의 근사 척도를 제공한다.

2개의 카테고리 사이의 관계의 다른 가능한 척도는 메인 카테고리와 토픽들 z가 주어질 때 관련 카테고리 후보를 볼 가능성으로서 표현되는, LDA 결과들에 기초하여 직접 계산되는 점수일 것이며, 이는 아래와 같이 정의될 수 있다.

여기서, 토픽 z가 주어질 때 카테고리 문서 c의 확률은 (모든 문서들이 동등하게 가능할 수 있다는 추가적인 가정과 더불어) 베이즈 규칙으로부터 계산된다.

일 실시예에서는, 타겟 카테고리 내에서 4개의 최고 토픽을 선택하여, 그 카테고리에 대한 주요 테마들을 나타냈다. 이 수는 유연하지만, 통상적으로는 3-5개의 토픽만이 단일 카테고리에서 유력하다. 그러한 토픽들 각각에 대해, 이전에 분류된 카테고리 후보 리스트에 걸쳐 반복하고 각각의 후보를 아래의 공식에 기초하여 토픽에 할당함으로써 4개의 관련된 카테고리가 할당되었다.

이것은 오버랩핑 토픽의 선택에 대응하며, 이는 그 토픽 아래의 양 카테고리의 확률을 최대화한다. 잠재적 오버랩을 위해 검사되는 토픽들은 타겟 및 관련 후보 카테고리 내의 최고 10개 토픽으로 제한되며, 따라서 오버랩이 존재하지 않는 경우에 후보가 거절되는 것이 가능하다.

관련 카테고리를 토픽에 할당하기 위한 다른 대안은 (예를 들어, 관련 카테고리의 이름을 포함하는 메인 카테고리 문서로부터 모든 문장들을 추출함으로써) 관계를 서술하는 문장들로 구성되는 새로운 문서를 구성하는 것일 것이다. 또한, 적절한 LDA 모델을 이용하여, 표준 LDA 예측 방법들 중 하나를 이용하여 새로운 문서에서 최고 토픽들을 예측할 수 있다.

4. 발췌 선택

각각의 관련 카테고리 내의 예시적인 제품들을 나타내기 위한 발췌들을 선택하기 위해, 개시되는 발명은 타겟 카테고리 문서로부터의 문장 세그먼트들을 발췌 후보 풀(pool)로서 사용한다.

단일 관련 카테고리에 대한 후보 세트 내에 포함된 문장들은 (a) 타겟의 이름 및 관련 카테고리 양자를 포함하는 문장들, (b) 쌍 내의 하나의 카테고리의 이름을 포함하고, 나머지 카테고리 내의 제품들의 서술들로부터 나오는 문장들을 포함한다. 이것은 문장이 해당 카테고리 내의 제품의 서술으로부터 나오므로 카테고리 이름들 중 하나만이 발췌 내에 나타날 수 있고, 나머지는 내포적으로(implicitly) 존재할 수 있다는 것을 의미한다. 제품이 속하는 카테고리의 이름은 종종 서술들 내에 존재하지 않는다. 대신에, 이것은 내포된(implicit) 또는 널 논항(null argument)이며, 예를 들어 라멘 누들(ramen noodle)들의 서술은 누들들을 언급하고 있지만 단어 라멘을 포함하지 않을 수도 있다. 단일 카테고리 이름만이 문장 내에 존재하는 것을 가능하게 하는 전략(strategy)은 문장들에 걸쳐 더 많은 커버리지 및 더 신뢰성 있는 빈도 통계를 가능하게 한다.

먼저, 후보 문장들이 가장 일반적인 논항(argument) + 술어(predicate) 구조에 의해 필터링되며, 격 논항은 카테고리 이름이다. 카테고리들 사이의 관계가 일반적으로 표현되는 소정의 서술 형태가 존재하는 것으로 가정되지만, 문장 내에는 카테고리 이름들 중 하나만이 존재할 수 있으므로, 개시되는 발명은 쌍 내의 2개의 카테고리 중에서 가장 빈번한 카테고리 이름 + 격 조합을 선택한다. 이어서, 시스템은 후보 세트 내에서 이 카테고리 논항이 의존하는 가장 빈번한 동사를 찾는다. 예를 들어, 카테고리 쌍 오이와 피클의 경우, 가장 빈번한 논항-술어 구조는 오이들로 피클을 만드는 것일 수 있다.

이어서, 가장 빈번한 격 및 술어 형태를 갖는 후보 문장들은 그들 내의 단어들이 관련 카테고리 쌍을 할당받은 토픽을 얼마나 밀접하게 반영하는지에 따라 점수를 받는다(scored). 점수는 각각의 문장 내의 단어들의 토픽 z 점수들을 합산함으로써 할당된다. z 점수는 토픽 내의 단어의 출현이 평균과 다른 표준 편차들의 수, 즉 토픽과 무관한 그의 예상 빈도를 나타내는 통계적 척도이다. 이것은 아래에 나타낸 바와 같이 토픽 t 내의 단어 w_i의 원래 빈도와 t 내의 w_i의 예상 빈도 간의 차이를 (이항 분포에 대해 계산된) 집합의 표준 편차로 나눈 값으로서 계산된다. N은 전체 집합 내의 단어들의 수이다.

발췌 후보들을 분류하기 위한 다른 옵션은 토픽 z 점수들 대신에 스킵-바이그램(skip-bigram) 통계를 이용하는 것을 포함한다.

5. 토픽 페이지 구성

주어진 토픽과 관련된 카테고리들을 클러스터화한 후에 페이지 상에 소개될 가장 "신뢰성 있는" 클러스터들을 선택함으로써 토픽 페이지들이 생성된다.

먼저 일차원 k 평균 클러스터링을 이용하여 카테고리들이 클러스터화되며, 카테고리들 사이의 거리는 단순히 온톨로지 트리 내의 카테고리들 사이의 에지들의 수이다. 각각의 클러스터는 토픽이 주어질 때 그 클러스터 내의 카테고리들에 할당되는 확률들의 평균에 기초하여 신뢰성 점수를 받는다. 토픽 z가 주어질 때 카테고리 문서 c의 확률은 [068]에서 정의된 공식에 따라 계산된다. LDA 결과들은 카테고리가 주어질 때 각각의 토픽의 확률을 제공하므로, 토픽이 주어질 때 카테고리의 확률은 집합 내의 모든 카테고리들이 동등하게 가능할 수 있다는 추가적인 가정과 더불어 베이스 규칙을 이용하여 계산될 수 있다. 클러스터들은 이들의 신뢰성 점수들에 따라 분류된다.

클러스터가 토픽 페이지 내에 수용되게 하기 위해, 그 클러스터 내의 최고 카테고리에 대한 토픽이 주어질 때의 확률은 최고 신뢰성을 갖는 클러스터 내의 평균 확률보다 높아야 한다. 게다가, 각각의 클러스터 내의 소정의 확률 임계치 아래의 카테고리들은 더 일관성 있는 페이지의 구성을 보증하기 위해 폐기될 수 있다(임계치는 경험적으로 설정될 수 있다). 클러스터의 라벨은 최하 공통 조상 카테고리의 이름이다.

6. 자동 라벨링

토픽 라벨링은 일반적으로 2개의 스테이지, 즉 (a) 라벨 후보 선택에 이어지는 (b) 라벨 후보 채점으로 구성되며, 이는 시스템이 후보 라벨들을 분류하고 최상의 라벨(들)을 선택하는 것을 가능하게 한다. 본 발명의 일 실시예에서는, 후보 선택 및 채점 전에 2개의 추가적인 스테이지, 즉 (c) 토픽을 x개(예를 들어, 3개)의 유형 중 하나로 분류하고, (d) 토픽 유형에 따라 후속 후보 라벨 풀을 채점하는 스테이지들이 추가된다.

토픽들에 기초하여 제품 카테고리들 사이의 연관성을 발견하기 위해 본 명세서에서 서술되는 방법을 이용하여, 시스템은 각각의 토픽을 대표하는 제품 카테고리들도 발견할 수 있다. 시스템은 이러한 카테고리 선택 및 제품 카테고리 온톨로지로부터의 지식을 이용하여, 일 실시예에서 토픽을 아래의 유형들 중 하나로 분류한다.

i. 시맨틱 토픽(Simantic Topic). 이것은 토픽을 대표하는 것으로 선택된 제품 카테고리들 중 80% 이상이 제품 카테고리 온톨로지 내의 단일 서브트리에 속하는, 즉 그들이 2 레벨 루트 아래 또는 그 아래에서 공통 조상을 공유하는 토픽을 지칭한다.

ii. 제품 유형 토픽(Product Type Topic). 이 토픽은 카테고리 온톨로지 내의 다수의 서브트리에 속하는 카테고리들을 그룹화하지만, 카테고리들의 대다수에서 발생하는 공통 제품 유형이 존재하며, 이는 카테고리 이름들 내에 반영된다. 예를 들어, 샌들은 온톨로지 내의 남자 신발, 여자 신발 및 아이 신발 카테고리 그룹들 아래에 발생할 수 있다. 또한, 단어 샌들은 다수의 카테고리 이름 내에 발생하고, 주어진 토픽 내의 높은 확률의 단어일 것으로 예상될 것이다.

iii. 특성 특징 토픽(Characteristic Feature Topic). 이 토픽은 공통 특징(예를 들어, 세련된 옷 또는 평상복)을 공유하거나 단일 활동(예를 들어, 스팀 요리 또는 칵테일 준비)에서 사용되는 상이한 유형들의 제품들을 그룹화한다. 토픽이 시맨틱 또는 제품 유형 토픽으로서 식별되지 않은 경우, 토픽은 자동으로 이 유형에 속한다.

라벨 후보 풀은 결정된 토픽 유형에 의존한다. 일례로서, 토픽이 시맨틱 토픽인 것으로 결정되는 경우, 라벨은 조상 카테고리 라벨이다. 토픽이 제품 유형 토픽인 것으로 결정되는 경우, 라벨은 토픽 내의 최고 10개의 가장 가능성 있는 단어 및 토픽 페이지 생성 동안 그 토픽에 할당된 카테고리들의 이름들에 기초하여 선택된다. 토픽이 특성 특징 유형인 경우, 라벨 후보들은 주어진 토픽에 대한 가장 가능성 있는 단어들로부터 형성된 n 그램들(ngrams) 또는 명사구들에 의해 또는 토픽에 의해 표현된 개념을 가장 가까운 전자 백과사전 기사에 매칭시킴으로써 선택된다(Jey Han Lau, Karl Grieser, David Newman, and Timothy Baldwin. Automatic labelling of topic models. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1, HLT '11, pages 1536-1545, Stroudsburg, PA, USA, 2011. Association for Computational Linguistics. Qiaozhu Mei, Xuehua Shen, and ChengXiang Zhai. Automatic labeling of multinomial topic models. In Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD '07, pages 490-499, New York, NY, USA, 2007. ACM. 참조. 이들 각각은 본 명세서에 참고로 포함됨.). 토픽 단어 다항식들(토픽이 주어질 때 어휘 내의 단어들의 확률)에 더하여, 시스템은 토픽의 콘텐츠를 나타내는 관련 제품 카테고리들도 선택하며, 시스템은 이러한 카테고리들은 물론, 최고 토픽 단어들도 이용하여, 각각의 관련 카테고리 내의 대표적인 제품들을 검색할 수 있다. 일 실시예에서, 선택되는 라벨 후보 n 그램들은 아래로부터 선택된다.

i. 주어진 토픽 내의 최고 10개의 가장 가능성이 있는 단어.

ii. 토픽을 나타내기 위해 선택된 카테고리들 및 이들의 조상 카테고리들(부모들 이상)의 이름들. 이것은 특히 그룹들이 접시 또는 파스타와 같은 동일 유형의 제품들을 주로 그룹화하는 경우에 특히 유용하다.

iii. 해당 토픽에 대한 최고 10개의 단어를 이용하여 해당 카테고리 내에서 검색함으로써 각각의 토픽 카테고리에 대해 선택되는 최고 50개의 제품의 타이틀들. 이러한 타이틀들은 높은 확률의 토픽 단어들을 포함할 가능성이 있지만, 이들은 토픽을 예시하는 제품들이므로, 이들은 추가적인 유용한 후보 문구들도 포함할 수 있다. 옵션으로서, 타이틀들에 더하여, 제품 서술들 또는 비평들로부터 선택된 문장들, 예를 들어 주어진 토픽 내의 높은 확률을 갖는 단어들을 포함하는 문장들도 사용될 수 있다.

라벨들이 단지 조상 카테고리 이름인 시맨틱 토픽은 예외로 하고, 전술한 방법에 따라 선택되는 후보들은 일 실시예에서 아래와 같이 채점될 수 있다. 시스템은 아래의 공식에 기초하는 점수들을 토픽 z에 대한 후보 풀 L 내의 후보 라벨 l_i에 할당하며, 여기서 w는 단어를 나타내고(공식 내의 합은 집합 내의 어휘 내의 모든 단어들에 걸친 합임), p는 확률을 나타내고, 포인트별 상호 정보(PMI; pointwise mutual information)는 전체 카테고리 도메인 집합에 걸쳐 제품별로 계산된다.

또한, 일반적인 의미를 갖는 매우 빈번한 후보들은 역 문서 빈도(idf)에 기초하여 필터링될 수 있거나, idf는 라벨 후보 확률을 정규화하기 위해 위의 점수 내에 통합될 수 있다. 일례에서, 항 t의 idf는 문서들의 전체 수를 t를 포함하는 문서들의 수로 나눈 값 또는 그 양의 로그이다.

추가적인 응용들

연관 관계 발견(associative relation discovery)을 서프 쇼핑 컴포넌트로서 사용하는 것은 차치하고, 사용자가 브라우징할 제품들의 카테고리들을 표시하기 위해, 방법에 대한 다른 잠재적인 응용들이 존재하며, 이들은 다음을 포함한다.

1. 카테고리 페이지

카테고리에 대한 랜딩(landing) 페이지 또는 특징 페이지가 주어지면, 방법의 결과들은 관련 카테고리들을 표시하는 데 사용될 수 있다.

2. 권고

방법의 결과들은, 특히 사용자가 아이템을 방금 구매하였고 주어진 카테고리 내의 유사한 아이템들의 비교에 더 이상 관심이 없지만, 관련 카테고리들을 보기를 원할 수 있는 경우에 권고 시스템 내에 통합될 수 있다.

3. 테마 페이지들

방법에 의해 생성된 토픽 페이지들은 결과들의 나머지와 별개로 테마 디스플레이 페이지들로서 사용될 수 있다. 개시되는 발명의 일 실시예에 따른 예시적인 테마 페이지의 스크린 샷이 도 4에 도시된다.

잠재 디리클레 할당

아래의 섹션은 위에서 간단히 설명된 LDA에 대한 추가적인 상세를 제공한다. LDA는 집합 내의 각각의 문서를 기본 토픽들의 혼합물로서 나타내는 생성적 토픽 모델이다. 게다가, 각각의 토픽은 단어들에 걸치는 다항 분포로서 특성화될 수 있다. 유일한 관찰 가능한 변수들은 문서들 내의 단어들이며, 잠재적 토픽들은 집합 내의 기본 테마들을 나타내는 것으로 가정된다. LDA의 기본 버전은 문서 내의 단어들이 교환 가능한 것으로 가정되는 백 오브 워즈 모델(bag of words model)이다.

모델 뒤의 직관(intuition)은 신문 기사와 같은 각각의 문서가 소수의 기본 토픽들을 커버한다는 것이다. 예를 들어, 새로운 학교에 대한 자금 조달에 관한 기사는 교육 토픽에 속하는 콘텐츠는 물론, 자금/예산 토픽으로부터의 콘텐츠도 포함할 수 있다. 기사 내의 각각의 단어는 이 단어를 특정 토픽에 대한 정보를 운반하는 것으로서 분류하는 토픽 라벨을 할당받을 수 있다.

생성적 모델(generative model)의 관점에서, 관찰되는 데이터(문서들 내의 단어들)는 숨겨진 토픽 변수들에 의존한다. 따라서, 문서가 생성될 때, 문서 내에 삽입되는 단어들은 그 문서 내의 상이한 토픽들의 중요성에 따라 그리고 상이한 단어들이 주어진 토픽 내에 나타날 가능성이 얼마인지에 따라 샘플링된다. 예를 들어, 토픽 "교육"이 문서에서 높은 확률을 갖는 경우, 다음 단어는 그 토픽으로부터 생성될 가능성이 있다. 더구나, 이것은 "학교"와 같이 교육 토픽 내의 높은 확률을 갖는 단어일 가능성이 크다.

더 공식으로, 모음(collection) 내의 문서에 대한 생성 프로세스는 다음과 같이 요약될 수 있는데, 즉 각각의 문서에 대해 토픽 혼합물(topic mixture)을 선택한 후에, (a) 문서 고유 토픽 혼합물로부터 선택된 토픽 및 (b) 그 토픽에 대한 단어 분포를 조건으로 하여 문서 내의 각각의 단어를 선택한다. 문서의 생성은 아래에 더 상세히 설명된다.

LDA 모델 및 그의 파라미터들은 도 5에 그래픽으로 표시된다. 그래픽 모델은 D개의 문서의 집합, N_d개의 단어 각각을 나타낸다. 게다가, 집합 내에는 K개의 토픽이 존재하며, 각각의 토픽 β는 집합 내에서 발견되는 단어들에 걸치는 다항 분포에 대응한다. z_d,n은 문서 d 내의 n 번째 단어에 할당된 토픽 라벨이다. 단어 레벨 변수 z 외에도, 문서 레벨 변수 Θ도 존재하며, Θ_d는 문서 d 내의 토픽들에 걸치는 다항식을 파라미터화한다. 마지막으로, α 및 η은 문서 내의 토픽 분포들 및 토픽들 내의 단어 분포들이 생성 프로세스 동안 샘플링되는 디리클레 이전들에 대한 파라미터들이다.

위에 정의된 변수들이 주어지면, 도 1에 도시된 생성 프로세스는 아래의 단계들에 의해 정의될 수 있다.

1. Θ_d~Dir(α)를 선택하며, 여기서 d∈{1,..., D}이다.

2. β_k~Dir(η)을 선택하며, 여기서 k∈{1,..., K}이다.

단어들(w_d,n) 각각에 대해, 여기서 n∈{1,..., N_d}이고,

(a) 먼저, 토픽 z_d,n~다항식(Θ_d)를 선택하고,

(b) 이어서, 단어 w_d,n~다항식(β_zd,n)을 선택한다.

따라서, 문서 d 내의 주어진 단어에 대한 토픽 라벨 z의 선택은 Θ_d에 의해 파라미터화되는 문서 내의 토픽들의 다항 분포에 의존한다는 것을 관찰할 수 있다. 게다가, 단어의 선택은 그 단어에 대해 선택되는 토픽 z 및 그 토픽 내의 단어들의 분포에 의존한다. 이러한 의존성들은 아래의 (1)에 나타낸 생성 프로세스와 관련된 모든 숨겨진 그리고 관찰된 변수들에 대한 공동 확률 분포에서도 존재한다.

전술한 공동 분포는 생성 프로세스 이면의 확률적 가정들을 나타낸다. 그러나, 이것은 잠재적 변수 Θ, β 및 z의 값들이 알려진 것으로 가정되는 모델의 파라미터들의 단일 설정에 대해 유효하다. 실제로, 모델의 유일한 주어진 부분은 모음 내의 문서들 내에서 관찰되는 단어들로 구성된다. 따라서, 추정 또는 후부 계상(inference posterior computation) 계상으로도 지칭되는, 모델의 변수 설정들을 추정하는 작업은, 아래에 나타낸 바와 같이, 관찰된 집합이 주어질 때 모든 숨겨진 변수들의 조건부 분포를 발견하는 것을 포함한다.

우측의 분자는 단순히 모델의 단일 "버전" 내의 모든 무작위 변수들의 공통 분포이다. 분모는 숨겨진 변수들의 임의의 설정 하에서의 집합의 한계 확률을 나타낸다. 이론적으로, 이것은 토픽 모델의 모든 가능한 버전들에 걸쳐 합산함으로써 계산될 수 있지만, 이러한 합은 집합 내의 단어들에 걸치는 가능한 토픽 라벨 할당들의 수로 인해 처리하기 어렵다.

따라서, 모델의 후부는 통상적으로 변동적인 추정 또는 샘플링 방법들, 가장 빈번하게는 깁스 샘플링과 같은 기술들을 이용하여 추정된다. 샘플링 방법의 경우, 추정은 다수의 샘플에 걸쳐 평균함으로써 계산될 수 있거나, 대안으로서 단일 샘플 근사화가 이용될 수 있다. LDA의 구현은 붕괴 깁스 샘플링을 이용할 수 있다.

전술한 본 발명은 범용 또는 특수 목적 컴퓨팅 시스템 환경들 또는 구성들과 함께 동작한다. 본 발명과 함께 사용하기에 적합할 수 있는 공지된 컴퓨팅 시스템들, 환경들 및/또는 구성들의 예들은 개인용 컴퓨터, 서버 컴퓨터, 핸드헬드 또는 랩탑 장치, 태블릿 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그래밍 가능 소비자 전자 장치, 네트워크 PC, 미니 컴퓨터, 메인프레임 컴퓨터, 위의 시스템들 또는 장치들 중 임의의 것을 포함하는 분산형 컴퓨팅 환경 등을 포함하지만 이에 한정되지 않는다.

본 발명의 컴퓨터 시스템의 컴포넌트들은 처리 유닛, 시스템 메모리, 및 시스템 메모리를 포함하는 다양한 시스템 컴포넌트들을 처리 유닛에 결합하는 시스템 버스를 포함할 수 있지만 이에 한정되지 않는다. 컴퓨터 시스템은 통상적으로 다양한 비일시적 컴퓨터 판독 가능 매체를 포함한다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용 가능 매체일 수 있으며, 휘발성 및 비휘발성 매치, 및 이동식 및 비이동식 매체 모두를 포함한다. 한정이 아니라 예로서, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보를 저장할 수 있다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다기능 디스크(DVD) 또는 다른 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 다른 자기 저장 장치, 또는 원하는 정보를 저장하는 데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함하지만 이에 한정되지 않는다. 통신 매체는 통상적으로 컴퓨터 판독 가능 명령어들, 데이터 구조들, 프로그램 모듈들 또는 다른 데이터를 반송파 또는 다른 운반 메커니즘과 같은 피변조 데이터 신호 내에 구현하며, 임의의 정보 전달 매체를 포함한다. 용어 "피변조 데이터 신호"는 신호 내에 정보를 인코딩하는 방식으로 신호의 특성들 중 하나 이상을 설정 또는 변경한 신호를 의미한다. 한정이 아니라 예로서, 통신 매체는 유선 네트워크 또는 직접 유선 접속과 같은 유선 매체, 및 음향, RF, 적외선 또는 다른 무선 매체와 같은 무선 매체를 포함한다. 임의의 위의 것들의 조합들도 컴퓨터 판독 가능 매체의 범위 내에 포함되어야 한다.

컴퓨터 시스템은 하나 이상의 원격 컴퓨터에 대한 논리적 접속들을 이용하여 네트워킹된 환경에서 동작할 수 있다. 원격 컴퓨터는 개인용 컴퓨터, 서버, 라우터, 네트워크 PC, 피어(peer) 장치 또는 다른 공통 네트워크 노드일 수 있으며, 통상적으로는 컴퓨터와 관련하여 전술한 요소들 중 다수 또는 전부를 포함한다. 도시된 논리적 접속들은 하나 이상의 근거리 네트워크(LAN) 및 하나 이상의 광역 네트워크(WAN)를 포함하지만, 다른 네트워크들도 포함할 수 있다. 그러한 네트워킹 환경들은 사무실, 기업 광역 컴퓨터 네트워크, 인트라넷 및 인터넷에서 일반적이다.

개시의 편의를 위해, 본 명세서에서는 본 발명의 모든 단계 또는 요소가 소프트웨어 또는 컴퓨터 시스템의 일부로서 설명되지는 않지만, 이 분야의 기술자들은 각각의 단계 또는 요소가 대응하는 컴퓨터 시스템 또는 소프트웨어 컴포넌트를 가질 수 있다는 것을 인식할 것이다. 따라서, 그러한 컴퓨터 시스템들 및/또는 소프트웨어 컴포넌트들은 그들의 대응하는 단계들 또는 요소들(즉, 그들의 기능)을 설명함으로써 가능화되며, 본 발명의 범위 내에 있다. 게다가, 본 발명의 다양한 단계들 및/또는 요소들은 비일시적 저자 매체 내에 저장되고, 프로세서에 의해 선택적으로 실행될 수 있다.

본 발명의 다양한 요소들을 구성하는 것으로 설명된 본 발명의 위의 컴포넌트들은 한정이 아니라 예시적인 것을 의도한다. 설명된 컴포넌트들과 동일하거나 유사한 기능들을 수행하는 많은 적절한 컴포넌트들은 본 발명의 범위 내에 포함되는 것을 의도한다. 그러한 다른 컴포넌트들은 예를 들어 본 발명의 개발 후에 개발될 컴포넌트들을 포함할 수 있다.

Claims

복수의 카테고리 사이의 연관 관계(associative relationships)를 판정하기 위한 컴퓨터 구현 방법으로서,
제1 카테고리의 서술(description)로부터 제2 카테고리의 이름을 서술하는 모든 문장을 추출하고, 상기 제2 카테고리의 서술로부터 상기 제1 카테고리의 이름을 서술하는 모든 문장을 추출하고, 각각의 카테고리에 대해, 카테고리 문장의 세트인 카테고리 문서를 생성하는 단계로서, 상기 제1 카테고리의 서술이 상기 제1 카테고리 내의 제품의 서술을 포함하고, 상기 제2 카테고리의 서술이 제2 카테고리 내의 제품의 서술을 포함하며, 상기 카테고리 문장이 상기 추출된 문장을 포함하는, 단계;
상기 카테고리 문서 내의 각각의 카테고리 문장을 토픽 모델(topic model)에 적용함으로써 각각의 카테고리 문장에 대한 토픽을 생성하는 단계;
개별 상기 카테고리 문장에 의해 서술되고 있는 각각의 타겟 카테고리에 대해 하나 이상의 관련 카테고리를 선택하는 단계;
상기 하나 이상의 관련 카테고리를 상기 토픽에 할당하는 단계;
상기 타겟 카테고리와 상기 하나 이상의 관련 카테고리의 관계를 나타내기 위하여, 상기 관련 카테고리 각각에 대해 상기 타겟 카테고리의 상기 카테고리 문서로부터 적어도 하나의 발췌 문장(snippet sentence)을 선택하는 단계;
상기 타겟 카테고리의 이름과 상기 토픽을 대표하는 단어에 기초하여, 제품 서술에 있어서 상기 적어도 하나의 발췌 문장을 갖는 제품을 선택하는 단계; 및
상기 적어도 하나의 발췌 문장과 상기 제품의 이름을 포함하는 토픽 페이지를 작성하는 단계
를 포함하는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 토픽 모델은 잠재 디리클레 할당(Latent Dirichlet Allocation) 알고리즘을 사용하는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 토픽 페이지를 작성하는 단계는 제품 온톨로지 트리(product ontology tree) 내의 거리에 따라 토픽을 함께 그룹화하기 위하여 k-평균 클러스터링(k-means clusting)을 실행하는 단계를 포함하는, 컴퓨터 구현 방법.
제1항에 있어서, 생성되는 상기 토픽의 수는 상기 카테고리의 수의 적어도 10분의 1인, 컴퓨터 구현 방법.
제1항에 있어서, 상기 관련 카테고리를 선택하는 단계는, 상기 타겟 카테고리의 상기 카테고리 문서 내의 문장의 수에 따라 잠재적 관련 카테고리를 분류하는 단계로서, 해당 문장은, 상기 관련 카테고리 중 하나를 서술하거나, 또는 상기 관련 카테고리 중 하나에 있어서의 제품 서술에 유래하는 것 중 어느 하나인, 단계를 포함하는, 컴퓨터 구현 방법.
삭제
복수의 카테고리 사이의 연관 관계를 판정하기 위한 시스템으로서,
데이터 프로세서
를 포함하고,
상기 데이터 프로세서는,
제1 카테고리의 서술로부터 제2 카테고리의 이름을 서술하는 모든 문장을 추출하고, 상기 제2 카테고리의 서술로부터 상기 제1 카테고리의 이름을 서술하는 모든 문장을 추출하고, 각각의 카테고리에 대해, 카테고리 문장의 세트인 카테고리 문서를 생성하되, 상기 제1 카테고리의 서술이 상기 제1 카테고리 내의 제품의 서술을 포함하고, 상기 제2 카테고리의 서술이 제2 카테고리 내의 제품의 서술을 포함하며, 상기 카테고리 문장이 상기 추출된 문장을 포함하며;
상기 카테고리 문서 내의 각각의 카테고리 문장을 토픽 모델에 적용함으로써 각각의 카테고리 문장에 대한 토픽을 생성하고;
개별 상기 카테고리 문장에 의해 서술되고 있는 각각의 타겟 카테고리에 대해 하나 이상의 관련 카테고리를 선택하고;
상기 하나 이상의 관련 카테고리를 상기 토픽에 할당하고;
상기 타겟 카테고리와 상기 하나 이상의 관련 카테고리의 관계를 나타내기 위하여, 상기 관련 카테고리 각각에 대해 상기 타겟 카테고리의 상기 카테고리 문서로부터 적어도 하나의 발췌 문장을 선택하고;
상기 타겟 카테고리의 이름과 상기 토픽을 대표하는 단어에 기초하여, 제품 서술에 있어서 상기 적어도 하나의 발췌 문장을 갖는 제품을 선택하고;
상기 적어도 하나의 발췌 문장과 상기 제품의 이름을 포함하는 토픽 페이지를 작성하도록 프로그래밍되는, 시스템.
제7항에 있어서, 상기 토픽 모델은 잠재 디리클레 할당 알고리즘(LDA)을 사용하는, 시스템.
제7항에 있어서, 상기 데이터 프로세서는
LDA 결과를 사용하여 상기 토픽 페이지를 작성하여, 상기 토픽을 대표하는 제품 카테고리를 선택하고;
k-평균 클러스터링을 이용하여, 제품 온톨로지 트리 내의 거리에 따라 카테고리들을 그룹화하도록 더 프로그래밍되는, 시스템.
제7항에 있어서, 상기 생성되는 토픽의 수는 상기 카테고리의 수의 적어도 10분의 1인, 시스템.
제7항에 있어서, 상기 관련 카테고리의 선택에 있어서, 상기 타겟 카테고리의 상기 카테고리 문서 내의 문장의 수에 따라 잠재적 관련 카테고리를 분류하도록, 상기 데이터 프로세서가 더 프로그래밍되고, 해당 문장은, 상기 관련 카테고리 중 하나를 서술하거나, 또는 상기 관련 카테고리 중 하나에 있어서의 제품 서술에 유래하는 것 중 어느 하나인, 시스템.
삭제
컴퓨터 판독 가능 저장 매체로서,
데이터 프로세서 상에서 실행될 때 상기 데이터 프로세서로 하여금,
제1 카테고리의 서술로부터 제2 카테고리의 이름을 서술하는 모든 문장을 추출하고, 상기 제2 카테고리의 서술로부터 상기 제1 카테고리의 이름을 서술하는 모든 문장을 추출하고, 각각의 카테고리에 대해, 카테고리 문장의 세트인 카테고리 문서를 생성하는 단계로서, 상기 제1 카테고리의 서술이 상기 제1 카테고리 내의 제품의 서술을 포함하고, 상기 제2 카테고리의 서술이 제2 카테고리 내의 제품의 서술을 포함하며, 상기 카테고리 문장이 상기 추출된 문장을 포함하는, 단계;
상기 카테고리 문서 내의 각각의 카테고리 문장을 토픽 모델에 적용함으로써 각각의 카테고리 문장에 대한 토픽을 생성하는 단계;
개별 상기 카테고리 문장에 의해 서술되고 있는 각각의 타겟 카테고리에 대해 하나 이상의 관련 카테고리를 선택하는 단계;
상기 하나 이상의 관련 카테고리를 상기 토픽에 할당하는 단계;
상기 타겟 카테고리와 상기 하나 이상의 관련 카테고리의 관계를 나타내기 위하여, 상기 관련 카테고리 각각에 대해 상기 타겟 카테고리의 상기 카테고리 문서로부터 적어도 하나의 발췌 문장을 선택하는 단계;
상기 타겟 카테고리의 이름과 상기 토픽을 대표하는 단어에 기초하여, 제품 서술에 있어서 상기 적어도 하나의 발췌 문장을 갖는 제품을 선택하는 단계; 및
상기 적어도 하나의 발췌 문장과 상기 제품의 이름을 포함하는 토픽 페이지를 작성하는 단계를 수행하게 하는 프로그래밍을 포함하는, 컴퓨터 판독 가능 저장 매체.
제13항에 있어서, 상기 토픽 모델은 잠재 디리클레 할당 알고리즘을 사용하는, 컴퓨터 판독 가능 저장 매체.
제13항에 있어서, 상기 토픽 페이지를 작성하는 단계는 제품 온톨로지 트리 내의 거리에 따라 토픽을 함께 그룹화하기 위하여 k-평균 클러스터링을 실행하는 단계를 포함하는, 컴퓨터 판독 가능 저장 매체.
제13항에 있어서, 생성되는 상기 토픽의 수는 상기 카테고리의 수의 적어도 10분의 1인, 컴퓨터 판독 가능 저장 매체.
제13항에 있어서, 관련 카테고리를 선택하는 단계는, 상기 타겟 카테고리의 상기 카테고리 문서 내의 문장의 수에 따라 잠재적 관련 카테고리를 분류하는 단계로서, 해당 문장은, 상기 관련 카테고리 중 하나를 서술하거나, 또는 상기 관련 카테고리 중 하나에 있어서의 제품 서술에 유래하는 것 중 어느 하나인, 단계를 포함하는, 컴퓨터 판독 가능 저장 매체.
삭제