KR20060028673A - 유사도 분석 방법 및 제품 - Google Patents

유사도 분석 방법 및 제품 Download PDF

Info

Publication number
KR20060028673A
KR20060028673A KR1020057019762A KR20057019762A KR20060028673A KR 20060028673 A KR20060028673 A KR 20060028673A KR 1020057019762 A KR1020057019762 A KR 1020057019762A KR 20057019762 A KR20057019762 A KR 20057019762A KR 20060028673 A KR20060028673 A KR 20060028673A
Authority
KR
South Korea
Prior art keywords
pair
item
code
value
text
Prior art date
Application number
KR1020057019762A
Other languages
English (en)
Inventor
재그디시 챈드
Original Assignee
야후! 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 야후! 인크. filed Critical 야후! 인크.
Publication of KR20060028673A publication Critical patent/KR20060028673A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure

Abstract

복수의 개별적인 그룹의 텍스트 아이템을 수신하는 단계; 복수의 개별적인 그룹으로부터의 각각의 개별적인 텍스트 아이템에 각각의 유일한 정수 아이템 코드를 할당하는 단계; 복수의 그룹의 개별적인 그룹으로부터 텍스트 아이템의 페어를 식별하는 단계; 각각의 페어가 타 페어에 대하여 각각의 유일한 오더 포지션을 갖도록 텍스트 아이템의 각각의 페어의 개별적인 텍스트 아이템에 할당된 유일한 아이템 코드에 기초하여 텍스트 아이템의 페어를 오더링하는 단계; 각각의 식별된 페어와 이들의 각각의 유일한 오더 포지션 사이의 각각의 연관도를 저장하는 페어 오더 정보 구조를 컴퓨터 판독가능 매체내에 제공하는 단계;를 포함하는 텍스트 아이템을 구성하는 컴퓨터에 기초한 방법이 개시된다.
텍스트 아이템, 아이템 코드, 페어, 오더 포지션, 유사도, 연관도

Description

유사도 분석 방법 및 제품{AFFINITY ANALYSIS METHOD AND ARTICLE OF MANUFACTURE}
본 발명은 일반적으로 정보 분석에 관한 것이고, 보다 상세하게는, 텍스트 아이템의 페어 사이의 관계에 관한 정보의 구성에 관한 것이다.
유사도는 상이한 아이템 사이의 연관성의 측정치이다. 사람은 이벤트, 관심, 사람 또는 제품과 같은 아이템 사이의 가능한 상관 또는 관계를 식별하거나 보다 잘 이해하기 위해 아이템 사이의 유사도를 알기를 원할 수 있다. 유사도는 선호도를 예측하는데 유용할 수 있다. 예를 들어, 유사도는 하나의 주제에 관심있는 사람이 또다른 주제에 관심이 있을 가능성이 높다는 것을 예측하는데 사용될 수 있다. 상세하게는, 예를 들어, 유사도는 특정 책을 구매하는 사람이 하나 이상의 다른 특정 책을 구매하는데 관심있을 가능성이 높다거나 특정 온라인 비디오 게임을 하는 사람이 하나 이상의 다른 비디오 게임을 하는데 관심이 있을 가능성이 높다는 것을 예측하는데 사용될 수 있다.
도 1은 가상 유사도 분석 결과를 도시하는 컴퓨터 유저 인터페이스 스크린의 도면이다. 유사도 분석 결과는 혼다 어코드 세단, 도요타 캠리 및 포드 타우러스의 3개의 자동차 사이의 유사도를 도시한다. 이러한 예에서, 유사도 분석에서의 기본 차량은 혼다 어코드 세단이다. 스크린의 좌측부는 유사도 분석이 실행될 차량을 선택하는데 사용되는 유저 컨트롤 버튼을 도시하고 있다. 이러한 예에서, 유사도 분석에서의 기본 차량은 혼다 어코드 세단이다. 또 다른 차량은 도요타 캠리 및 포드 타우러스이다. 분석용 타임 프레임은 2002년 12월이다. 스크린의 중심부의 상부는 캠리에 대한 어코드 세단의 유사도 및 타우러스의 어코드 세단의 유사도의 벤 다이어그램 스타일 그래프 표시를 도시하고 있다. 캠리 서클과의 어코드 세단 서클의 중첩정도는 캠리와의 어코드 세단의 유사도를 그래프로 나타낸다. 이와 마찬가지로, 타우러스와의 어코드 세단 서클의 중첩 정도는 캠리와의 어코드 세단의 유사도를 그래프로 나타낸다. 중첩은 유사도의 정도를 나타낸다. 스크린의 중심부의 하측부는 3개의 차 사이의 유사도를 도시하는 표를 제공한다. 차트의 제1 행은 캠리에 대한 어코드 세단의 유사도(23.7%) 및 타우러스에 대한 어코드 세단의 유사도(3.1%)의 강도의 수치 측정값을 나타낸다. 중간행은 어코드(30.6%) 및 타우러스(4.2%)에 대한 캠리의 유사도의 강도를 도시한다. 아래행은 어코드(18.3%) 및 캠리(19.2%)에 대한 타우러스의 유사도의 강도를 나타낸다. 스크린의 우측부는 가장 강한 유사도를 가진 15개의 차량에 대한 기본 차량의 유사도의 강도를 랭크순으로 나열하는 테이블을 도시한다. 이러한 예에서, 우측상의 테이블은 또한 다른 자동차가 상위 15개의 유사도에 있지 않을 지라도 유사도 분석을 위해 좌측에서 선택된 서로 다른 자동차(즉, 타우러스 넘버 63)에 대한 기본 차량의 유사도를 나열한다.
유사도 분석은 주어진 키워드에 대한 유사한 키워드를 찾아내는데 사용될 수 있다. 예를 들어, 다음 리스트는 키워드"007"과 유사하다는 것이 가상 유사도 분석을 통해 발견될 수 있는 키워드의 가상 리스트예이다.
007 유사성 리스트
Figure 112005058471341-PCT00001
상기 많은 키워드는 그들이 "007"과 유시한 키워드라고 발견되었지만, 용어 "007"을 포함하지도 않았다.
유사도 분석의 실제적인 사용의 일예는 만약 사용자가 특정 키워드를 사용하여 인터넷상에서 서치한다면 사용자가 인터넷에서 서치할 가능성이 높은 다른 무엇이 있는지와 같은 일반적인 타입의 질문에 답하는 것이다. 유사도 분석은 이러한 질문에 답하는데 사용될 수 있다. 예를 들어, 분석으로 특정 키워드에 대한 상위 10, 100 또는 1000개의 유사도를 가진 다른 키워드의 순서있는 리스트를 식별할 수 있다. 또한, 유사도 분석은 만약 사람이 꽃을 산다면, 그 사람이 사기를 원할 가능성이 높은 다른 물건이 무엇인지와 같은 일반적인 타입의 질문에 답하는데 사용될 수 있다. 이러한 타입의 질문은 예를 들어, 크로스 셀링 및 마켓 리서치에 유용할 수 있다.
보통, 아이템 사이의 유사도는 아이템이 얼마나 자주 아이템의 하나 이상의 그루핑에서 함께 발생하는지에 적어도 부분적으로 기초하여 결정된다. 아이템의 그루핑을 한정하는 많은 방법이 있다. 컴퓨터 네트워크 환경에서 일어날 수 있는 그루핑의 예는 IP 주소, 트랜잭션 아이덴티티(TID), URL, '쿠키'와 관련하여 일어난다.
IP 주소는 특정 사용자의 컴퓨터를 식별하는데 사용될 수 있다. TID는 물건 또는 서비스의 구매와 같은 특정 트랜잭션을 식별하는데 사용될 수 있다. 예를 들어, 사용자는 인터넷 액세스 가능한 서버 사이트에 연결하여 인터넷에서 수많은 아이템을 구매하기 위해, 주어진 IP 주소를 가진 컴퓨터를 사용할 수 있다. 이 주어진 IP 주소는 사용자에 의해 함께 구매된 아이템으로 구성된 아이템의 그루핑을 위해 그룹 아이덴티티(그룹 ID)의 역할을 할 수 있다. 또한, 구매 상거래는 구매된 아이템 또는 서비스를 포함하는 그루핑을 위해 그룹 ID로서 기능할 수 있는 TID를 가질 수 있다.
키워드의 그루핑은 URL과 연관되어 있을 수 있다. URL은 그룹 ID로서 기능할 수있고, 키워드는 이 그루핑내의 아이템으로서 기능할 수 있다. 이러한 키워드 그루핑은 예를 들어, URL의 세트를 식별하는데 키워드가 사용된 키워드에 기초한 인터넷 검색의 기록을 저장함으로써, 여러번 형성될 수 있고, 그다음, 사용자는 인터넷상의 웹페이지에 방문하기 위해 하나 이상의 식별된 URL을 선택한다. 그루핑의 데이터베이스는 여러번 개발될 수 있다. 선택된 URL은 그룹 ID로서 기능하고, URL을 식별하는데 사용된 키워드는 그루핍내의 아이템이다.
인터넷 쿠키는 그루핑을 생성하는데 사용될 수 있다. 쿠키는 어느 서버 사이드 커넥션(CGI 스크립과 같은)이 커넥션의 클라이언트측의 정보를 저장하고 검색하는데 사용하기 위해 사용할 수 있는 일반적인 메카니즘이다. CGI(공통 게이트웨이 인터페이스)는 외부 애플리케이션을 HTTP 또는 웹서버와 같은 정보 서버와 인터페이스하는데 사용된다. 단순하고, 일관적인, 클라이언트측 스테이트를 추가하면, 웹에 기초한 클라이언트 서버 애플리케이션의 능력을 상당히 확장시킬 수 있다. 또한, 서버는 HTTP 오브젝트를 클라이언트에 리턴할 때, 클라이언트가 저장할 일 피스의 스테이트 정보를 전송할 수 있다. 이 스테이트 오브젝트내에 스테이트가 유효한 URL의 범위의 기재가 포함되어 있다. 이 범위에 있는 클라이언트에 의해 만들어진 임의의 미래의 HTTP 요청은 클라이언트로부터 다시 서버로의 스테이트 오브젝트의 현재값의 전송을 포함할 것이다. 스테이트 오브젝트는 쿠키로 불린다. 컴퓨터의 쿠키 식별자는 그룹 ID로 기능할 수 있고, 쿠키와 함께 저장된 정보는 그루핑에서 있어 아이템으로 기능한다.
인터넷은 아이템 사이의 스터티 유사도에 유용한 데이터를 수집하는데 많은 기회를 제공하였다. IP 주소, TID, URL, 또는 쿠키에 기초한 것과 같은 그루핑을 포함하는 방대한 데이터베이스가 개발될 수 있다. 이러한 데이터베이스는 새로운 그루핑 정보가 추가됨에 따라 반복해서 발전할 수 있다.
유사도를 결정하는데 알려진 한가지 접근법은 아이템의 발생횟수 및 아이템의 그루핑의 발생횟수에 기초한 계산을 포함한다. 예를 들어, 이러한 접근법에 따라, 아이템(t2)과의 아이템(t1)의 유사도는
N(t1): t1을 포함하는 그룹 ID의 수,
N(t2): t2를 포함하는 그룹 ID의 수,
N(t1,t2): t1 및 t2를 모두 포함하는 그룹 ID의 수
에 관한 정보를 사용할 수 있다.
아이템(t2)에 대한 아이템(t1)에 대한 유사도는 N(t1,t2)/N(t1)로서 계산될 수 있다.
반대로, 아이템(t1)에 대한 아이템(t2)에 대한 유사도는 N(t1,t2)/N(t2)로서 계산될 수 있다.
유사도 분석에 있어 이전의 접근법들이 일반적으로 성공적이었지만, 이들 사용에 관련된 단점이 있었다. 예를 들어, 아이템의 그루핑의 데이터베이스가 매우 커짐에 따라, 유사도 분석을 실행하는데 있어 수반되는 계산은 매우 커질 수 있다. 예를 들어, 주어진 데이터베이스는 키워드의 그루핑을 포함할 수 있다. 각각의 상이한 키워드는 상이한 아이템이라고 생각될 수 있다. 각각의 상이한 그루핑은 하나, 두 개, 또는 여러개의 키워드를 포함할 수 있다. 수백만개의 그루핑 및 수백만개의 키워드가 존재할 수 있다. 그러나, 유사도 분석 계산에 대한 상기 접근법은 한번에 오직 2개만의 아이템의 유사도를 고려한다. 임의의 주어진 2개의 키워 드가 수백만개의 그루핑내에서 함께 일어나는 횟수를 추적하는 것은 키워드의 수 및 그루핑의 수가 증가하고 여려번 변경됨에 따라 보다 더 곤란해지는 상당한 작업이다.
유사도 분석에서 사용하기 위해 아이템의 그룹의 구성을 향상시킬 필요가 존재해왔다. 또한 아이템 사이의 유사도를 결정하는데 있어 개선의 필요가 있었다. 본 발명은 이러한 필요를 충족시킨다.
일태양에서, 컴퓨터에 기초한 텍스트 아이템을 구성하는 방법이 제공된다. 이 방법은 예를 들어, 유사도 분석을 실행하는데 있어 유용하다. 텍스트 아이템의 복수의 개별적인 그룹이 제공된다. 유일한 정수 아이템 코드가 개별적인 텍스트 아이템에 할당된다. 개별적인 그룹으로부터의 텍스트 아이템의 페어가 식별된다. 텍스트 아이템 페어는 이 페어의 텍스트 아이템을 구성하기 위해 할당된 유일한 아이템 코드에 기초하여 오더링된다. 그 결과, 각각의 텍스트 아이템 페어에는 텍스트 아이템 페어에 대한 유일한 오더 포지션이 할당된다. 페어 오더 정보 구조는 텍스트 아이템 페어와 이들의 유일한 오더 포지션 사이의 연관성을 저장하도록 컴퓨터 판독가능 매체에 제공된다.
본 발명의 또 다른 태양에서, 아이템 정보 구조, 코드 할당 정보 구조 및 페어 카운트 정보 구조로 인코딩되는 컴퓨터 판독가능 매체를 포함하는 제품이 제공된다. 이 아이템 카운트 정보 구조는 다수의 아이템의 그루핑으로부터 다수의 아이템의 각각의 발생의 카운트를 저장한다. 코드 할당 정보 구조는 각각의 유일한 정수 아이템 코드와 각각의 아이템을 연관시킨다. 페어 카운트 정보 구조는 하나 이상의 다수의 그루핑의 아이템내의 복수의 각각의 아이템 페어의 각각의 발생 횟수를 나타내는 각각의 페어 카운트를 저장한다. 개별적인 아이템 페어에 상응하는 페어 카운트가 개별적인 아이템 페어의 구성 아이템과 아이템 코드 정보 구조내에서 연관된 아이템 코드로부터 계산된 페어 코드에 의해 인덱싱된 로케이션에서 페어 카운트 정보 구조내에 저장된다.
본 발명의 또 다른 태양은 아이템 카운트 정보 구조, 코드 할당 정보 구조, 페어 코드 계산 프로세스를 실행하는 컴퓨터 프로그램 코드 및 페어 카운트 정보 구조로 인코딩되는 컴퓨터 판독가능 매체를 포함하는 제품을 제공한다. 이 아이템 카운트 정보 구조는 복수의 아이템의 그루핑내의 복수의 각각의 아이템의 각각의 발생의 각각의 카운트를 저장한다. 코드 할당 정보 구조는 유일한 정수 아이템 코드와의 아이템의 연관도를 저장한다. 컴퓨터 프로그램 코드는 코드 하당 정보 구조내에 연관된 유일한 아이템 코드를 사용하여 하나 이상의 복수의 그루핑내의 아에템의 페어에 대한 유일한 정수 값 페어 코드를 계산한다. 페어 카운트 정보 구조는 하나 이상의 복수의 아이템의 그루핑내의 복수의 아이템의 페어의 각각의 발생 카운트와의 페어 코드의 각각의 연관도를 저장한다.
본 발명의 또 다른 태양에서, 아이템 코드 정보 구조 및 페어 코드 정보 구조를 사용하여 유사도 분석을 실행하는 향상된 프로세스가 제공된다.
아이템의 페어를 나타내는 정수 페어 코드의 사용과 관련된 텍스트 아이템을 나타내는 정수 아이템 코드의 사용에 의해 텍스트 아이템 사이의 관계의 분석과 관련된 정보의 구성을 향상시키는 것이 가능해진다. 보다 상세하게는, 아이템 코드 정보 구조 및 페어 코드 정보 구조는 텍스트 아이템의 페어 사이의 관계에 관련된 방대한 양의 정보를 구성하는데 특히 유용하다. 정수 아이템 코드로부터의 정수 페어 코드의 계산으로 아이템의 페어 사이의 연관도의 산출과 관련하여 수반되는 프로세싱이 가속화된다. 이러한 본 발명의 특징 및 장점은 다음의 상세한 설명 및 도면으로부터 보다 명백해질 것이다.
도 1은 가상 유사도 분석 결과를 도시하는 컴퓨터 유저 인터페이스 스크린의 도면,
도 2는 본 발명의 원리가 적용될 수 있는 하나의 인터넷 환경 컨텍스트를 도시하는 블록도, 및
도 3은 본 발명의 일실시예와 관련하여 사용되기 위한 컴퓨터 판독가능 매체내에 정보 구조를 생성하기 위한 프로세스를 도시하는 순서도.
다음의 설명은 본 발명을 당업자가 실시하고 사용하도록 제공되었으며, 특정 애플리케이션 및 이들의 필요의 컨텍스트에서 제공되었다. 바람직한 실시예에 대한 다양한 수정이 당업자에게 명백할 것이다. 여기에 한정된 일반적인 원리는 본 발명의 정신 및 범위를 벗어남 없이 다른 실시예 및 애플리케이션에 적용될 수 있다. 또한, 다음의 설명에서, 수많은 상세사항이 설명의 목적을 위해 제시되었다. 그러나, 당업자는 본 발명의 이들의 특정 상세사항의 사용 없이 실시될 수 있다는 것을 알 것이다. 다른 예에서, 주지된 구조 및 디바이스가 불필요한 상세사항으로 본 발명의 기재를 흐리지 않도록 블록도로 도시되었다. 따라서, 본 발명은 도시된 실시예로 제한하려고 의도된 것이 아니고, 여기에 개시된 원리 및 특징과 일치하는 최대의 범위가 포함될 수 있다.
본 발명의 일실시예에서, 텍스트 아이템은 유사도 분석에서 사용하기 위해 구성되었다. 유사도 분석의 목적은 그루핑에 기초한 텍스트 아이템 사이의 유사도를 결정하는 것이다. 본 발명의 실시예는 페어가 아이템의 그루핑으로부터 식별되고 개별적인 페어내의 텍스트 아이템의 아이덴티티에 기초하여 새로운 페어의 구성이 유기적으로 발전되는 텍스트 아이템의 페어의 새로운 구성을 제공함으로써 유사도 분석을 촉진시킨다. 이러한 새로운 텍스트 아이템의 페어의 구성은 연속 유사도분석을 스트림라인한다.
본 실시예에 따라 텍스트 아이템의 새로운 구성을 개발시키는 단계는 복수의 아이템 그루핑의 개별적인 아이템에 유일한 정수 값을 할당하는 단계를 포함한다. 이러한 유일한 정수값은 아이템 코드로 불린다. 복수의 아이템의 페어는 복수의 그루핑으로부터 식별된다. 텍스트 아이템의 페어는 이들의 아이템 코드에 기초하여 서로에 대해 오더링된다. 구체적으로, 개별적인 텍스트 아이템의 페어는 각각의 페어가 다른 페어의 오더 포지션에 대하여 유일한 오더 포지션을 가지도록 다른 텍스트 아이템의 페어에 대하여 오더링된다.
컴퓨터 판독가능 매체에 제공된 새로운 페어 오더 정보 구조는 유일한 페어 오더 포지션과, 주어진 데이터베이스내의 이러한 페어의 발생횟수의 카운트와 같은 다른 데이터 사이의 연관도를 저장할 수 있다. 따라서, 아이템 코드는 유사도 분석동안 페어 오더 정보 구조에 액세스하는데 사용될 수 있다. 예를 들어, 유사도 분석동안, 주어진 아이템의 페어의 구성 아이템의 아이템 코드는 페어 오더 정보 구조내의 주어진 페어의 유일한 포지션을 결정하는데 사용될 수 있다. 이러한 유일한 포지션 정보는 주어진 페어를 가진 페어 오더 정보 구조에 의해 연관된, 카운트와 같은, 정보를 로케이트하는데 사용될 수 있다.
본 발명의 일실시예에서, 개별적인 텍스트 아이템은 아이템 코드에 맵핑되고 텍스트 아이템의 개별적인 아이템 페어는 페어 코드로 불리는 유일한 정수값에 맵핑된다. 개별적인 페어 코드로의 개별적인 페어의 맵핑은 개별적인 페어내의 텍스트 아이템의 아이템 코드에 기초하여 결정된다. 개별적인 페어의 오더 포지션은 상응하는 개별적인 페어 코드에 종속되고 이 개별적인 페어 코드는 개별적인 페어의 구성 아이템의 아이템 코드에 종속된다. 유사도 분석 동안 아이템의 주어진 페어의 구성 아이템의 아이템 코드는 주어진 페어의 유일한 페어 코드를 결정하는데 사용될 수 있다. 이러한 유일한 포지션 정보는 주어진 페어와의 페어 오더 정보 구조에 의해 연관된, 카운트와 같은, 정보를 로케이트하는데 사용될 수 있다.
텍스트 아이템 및 그루핑
여기에 사용되는 바와 같이, 텍스트 아이템은 예를 들어, 레터, 넘버, 심볼 또는 이들의 조합과 같은 하나 이상의 캐릭터의 세트를 포함할 수 있다. 캐릭터는 워드 또는 숙어로서 의미를 가질 수 있지만, 이들은 자체에 의해 임의의 특정 의미를 갖도록 요구되지는 않는다. 보통, 텍스트 아이템은 본 발명과 관련이 없는 일 부 룰에 따라 복수의 그루핑으로 구성된다. 예를 들어, 텍스트 아이템은 동일한 IP(인터넷 프로토콜) 주소, 트랜잭션 ID(TID), URL 또는 쿠키와의 연관되는 것에 기초하여 함께 그루핑될 수 있다. 예를 들어, 사용자는 특정 사이트를 가진 인터넷 커넥션을 만들고 사용자가 '백과사전'으로 표제된 책 및 '팝송'으로 라벨링된 CD 및 '호화 여행'으로 명명된 관광에 참여하기 위해 티켓을 구매하는 온라인 구매 트랜잭션에 관여할 수도 있다. 이러한 온라인 구매를 위한 트랜잭션 ID는 3개의 텍스트 아이템과 연관되어 있다. 하나는 텍스트 스트링 '백과사전'이다. 또다른 것은 텍스트 스트링 '팝송'이다. 또 다른 것은 텍스트 스트링 '호화 여행'이다.
아이템 코드의 할당
다음은 본 발명의 일실시예에 따른 아이템 그루핑내의 아이템에 대한 아이템 코드의 할당의 일예이다. 다음의 그루핑은 이러한 예에서 사용될 것이다.
G1={x,y,z}
G2={x,y}
G3={x,z}
명료한 설명을 위해, 실제 구현에에서 복수의 그루핑, 아마 수백만개의 그루핑이 존재할 수 있지만, 본 예에서는 오직 3개만이 사용되었다. G1,G2,G3는 3개의 예시된 그룹에 대한 그룹 식별자이다. G1,G2,G3는 상이한 IP 주소, TID, URL 쿠키 또는 일부 다른 형태의 그룹 식별자일 수 있다는 것을 이해할 것이다. 또한, 예를 들어, G1은 IP 주소를 식별하고, G2는 TID를 식별하고, G3는 URL을 식별하도록 혼합된 타입의 그루핑일 수도 있다. 아이템 x는 텍스트 아이템이고 G1,G2,G3의 구성 요소이다. 아이템 y는 텍스트 아이템이고 G1,G2,G3의 구성요소이다. 아이템 z는 텍스트 아이템이고 오직 G1만의 구성요소이다.
정수값 아이템 코드는 G1,G2,G3의 텍스트 아이템에 선택적으로 할당된다. 예를 들어, 아이템 x는 1이 할당되고, 아이템 y는 2가 할당되고, 아이템 z는 3이 할당될 수 있다. 정수 아이템 코드 할당은 연속적으로 할당되어야 한다. 또한, 아이템 임계 프로세스가 아이템 코드가 할당되도록 아이템을 선택하는데 사용될 수있다. 예를 들어, 아이템 코드의 할당 자격을 부여하기 위해 적어도 일부 규정된 최소 임계 수의 그루핑내에 아이템이 존재할 것을 요구하는 아이템 임계 조건이 부여될 수 있다. 이러한 아이템 임계 프로세스는 복수의 그루핑을 통해 사용의 규정된 레벨을 가지고 있는 아이템에 대해서만 아이템 코드가 할당되는 것을 보장하도록 하는 옵셔널 최적화 과정이다. 이러한 예에서, 아이템 임계값이 2로 설정되면, 아이템 x,y는 아이템 코드를 수용하지만, 아이템 z는 그렇지 않다. 대신에 아이템 임계값이 3으로 설정되었다면 오직 아이템 x만이 아이템 코드를 수용하게 된다.
텍스트 아이템을 유일한 정수 아이템 코드와 연관시키는 아이템 코드 정보 구조가 생성된다. 아이템 임계값이 1로 설정되면, 이러한 예에서 아이템에 대한 가능한 아이템 코드 정보 구조는 다음의 테이블과 같이 될 수 있다.
아이템 코드 정보 구조
텍스트 아이템 아이템 코드
아이템 x 1
아이템 y 2
아이템 z 3
아이템 코드 정보 구조는 선택된 텍스트 아이템의 할당된 아이템 코드로의 맵핑을 제공한다. 상기 테이블은 아이템을 아이템 코드에 맵핑하는데 사용될 수 있는 구조의 타입의 일예일 뿐이다. 아이템 코드 정보 구조는 컴퓨터 판독가능 기억 매체내에 기억될 수 있다.
아이템 페어의 식별
다음은 본 발명의 일실시예에 따른 아이템의 그루핑내의 아이템 페어의 식별의 일예이다. 상기 도시된 그루핑이 이러한 예에서 사용될 것이다. 일실시예에서, 페어는 아이템 임계 프로세스를 통과한 아이템에서 대해서만 식별된다. 아이템 임계값이 1로 설정되었다면, 식별된 페어는 G1,G2,G3에 대하여, (x,y),(x,z),(y,z)와 같이 식별된다. 아이템 임계값이 2로 설정되었다면 식별된 페어는 (x,y)가 된다.
본 발명의 일실시예에 따라, 아이템 페어가 이들의 구성 아이템의 아이템 코드의 대하여 표현된다. 아이템 임계값이 1로 설정되었고 할당된 아이템 코드는 x=1, y=2, z=3이라면 아이템 페어는 (1.2),(1,3),(2,3)으로서 표현된다. 아이템 임계값이 2로 설정되었고, 할당된 아이템 코드가 x=1 및 y=2이라면 아이템 페어는 (1,2)로서 표현된다.
따라서, 아이템 코드 정보 구조는 텍스트 아이템을 아이템 코드와 연관시킨다. 이러한 아이템 코드는 아이템 페어를 표현하는데 사용된다. 아래에 설명된 바와 같이 아이템의 페어의 유일한 아이템 코드는 각각의 페어가 다른 페어에 대한 유일한 오더 포지션을 갖도록 아이템 페어를 오더링하는데 사용된다. 일실시예에서, 개별적인 페어의 구성 아이템의 유일한 아이템 코드는 개별적인 페어의 개별적 인 유일한 오더 포지션을 기술하는 개별적인 유일한 페어 코드를 계산하는데 사용된다.
텍스트 아이템의 페어의 오더링
아래의 차트는 각각의 페어가 다른 페어의 오더 포지션에 대하여 유일한 오더 포지션을 갖도록 구성 텍스트 아이템의 페어 코드에 기초한 페어의 오더링의 예를 설명한다. 이러한 차트의 각각은 페어내의 구성 아이템의 아이템 코드에 기초한 아이템 페어의 상이한 가능한 오더링을 도시한다. 설명의 간략성과 명료화를 위해, 이러한 예는 단지 6개의 아이템 페어만을 각각 포함하고 있다.
이러한 차트는 대안의 아이템 페어의 오더링을 설명한다. 각각의 차트는 페어의 보다 높거나 보다 낮은 값 아이템 코드중 하나에 기초한 아이템 페어의 그루핑을 설명한다. 구체적으로, 차트의 각각의 행은 상하위 값 아이템 코드중 하나에 기초하여 그루핑된 상이한 아이템 코드 그룹을 포함한다. 각각의 차트는 또한 그루핑된 아이템 페어의 규정된 오더링을 설명한다. 또한, 각각의 차트는 아이템 페어의 그룹내의 페어의 규정된 오더링을 설명한다.
예를 들어, 차트 1에서, 개별적인 차트 로케이션의 좌측내에 있는 정수값은 그 로케이션내의 아이템 페어의 오더 포지션을 나타낸다. 예를 들어, 페어(1,2)는 오더 포지션 "1"에 있고 페어(2,4)는 오더 포지션 "5"에 있다. 상부 행은 정수 1과 동일한 하위 값 아이템 코드를 가진 페어의 그룹을 가지고 있다. 중간 행은 정수 2인 하위 값 아이템 코드를 가진 페어의 그룹을 가지고 있다. 하부 행은 정수 3인 하위 값 아이템 코드를 가진 페어의 그룹을 가지고 있다.
차트 1은 하위 값 아이템 코드에 기초하여 아이템이 그루핑되는 아이템 페어의 오더링을 설명한다. 예를 들어, 아이템 코드 페어(1,2)에서, 1은 하위 값 아이템 코드이고, 2는 상위 값 아이템 코드이다.
차트 1은 보다 더 적은 하위 값 아이템 코드를 가진 어느 그룹이 상하위 값 아이템 코드를 가진 그룹을 (행 상부에서 하부로 읽을 때) 앞서게 되는 그룹의 오더링을 설명한다. 따라서, 그룹의 페어{(1,2),(1,3),(1,4)}는 그룹의 페어{(2,3),(2,4)} 전에(위에) 오더링된다. 이와 마찬가지로, 그룹의 페어{(2,3),(2,4)}는 그룹의 페어{(3,4)}의 전에(위에) 오더링된다.
차트 1은 보다 적은 상위 값 아이템 코드를 가진 페어가 보다 높은 값 아이템 코드를 가진 페어를 (열 우측에서 좌로 읽을 때) 앞서는 그룹내의 페어의 오더링을 설명한다. 따라서, 그룹의 페어{(1,2),(1,3),(1,4)}는 페어(1,2), (1,3), (1,4) 순으로 오더링된다.
차트 1- 하위 값 그룹/보다 적은 하위 값
제1 인터 -그룹 오더링 /보다 적은 상위 제1 인트라 -그룹 오더링
1X 1(1,2) 2(1,3) 3(1,4)
2X X 4(2,3) 5(2,4)
3X X X 6(3,4)
4X X X X
차트 2는 아이템이 하위 값 아이템 코드에 기초하여 그루핑되는 아이템 페어의 오더링을 설명한다. 그룹은 보다 적은 하위 값 아이템 코드가 보다 큰 하위 값 아이템 코드를 가진 그룹을 앞서도록 (위에 있도록) 오더링된다. 그룹내의 페어는 보다 큰 값 아이템 코드를 가진 페어가 보다 적은 상위 값 아이템 코드보다 앞서도 록 오더링된다. 따라서, 그룹의 페어{(1,4),(1,3),(1,2)}는 페어(1,4), (1,3), (1,4) 순으로 오더링된다.
차트 2- 하위 값 그룹/보다 적은 하위 값
제1 인터 -그룹 오더링 /보다 큰 상위 제1 인트라 -그룹 오더링
1X 1(1,4) 2(1,3) 3(1,2)
2X X 4(2,4) 5(2,3)
3X X X 6(3,4)
4X X X X
차트 3은 상위 값 아이템 코드에 기초하여 아이템이 그루핑된 아이템 페어의오더링을 설명한다. 그룹은 보다 큰 상위 값 아이템 코드가 보다 적은 상위 값 아이템 코드를 가진 그룹보다 앞서도록 (위에 있도록) 오더링된다. 따라서, 예를 들어, 그룹 {(1,4),(2,4),(3,4)}은 그룹{(1,3),(2,3)}보다 앞서 있다. 그룹내의 페어는 보다 적은 하위 값 아이템 코드가 보다 큰 하위 값 아이템 코드를 가진 페어보다 앞서도록 오더링된다. 따라서, 예를 들어, 그룹의 페어 {(1,4),(2,4),(3,4)}는 (1,4),(2,4),(3,4) 순으로 오더링된다.
차트 3- 상위 값 그룹/보다 큰 상위 값
제1 인터 -그룹 오더링 /보다 적은 하위 제1 인트라 -그룹 오더링
1X 1(1,4) 2(2,4) 3(3,4)
2X X 4(1,3) 5(2,3)
3X X X 6(1,2)
4X X X X
차트 4는 상위 값 아이템 코드에 기초하여 아이템이 그루핑된 아이템 페어의 오더링을 설명한다. 그룹은 보다 큰 상위 값 아이템 코드를 가진 그룹이 보다 적은 상위 값 아이템 코드를 가진 그룹보다 앞서도록 (보다 위에 있도록) 오더링된 다. 따라서, 예를 들어, 그룹 {(3,4),(2,4),(1,4)}은 그룹 {(2,3),(1,3)}보다 앞선다. 그룹내의 페어는 보다 큰 하위 값 아이템 코드를 가진 페어가 보다 적은 하위값 아이템 코드를 가진 페어를 (좌측으로부터 우측으로 읽어서) 앞서도록 오더링된다. 따라서, 예를 들어, 그룹의 페어{(3,4},(2,4},(1,4)}는 (3,4},(2,4},(1,4)순으로 오더링된다.
차트 4- 상위 값 그룹/보다 큰 상위 값
제1 인터 -그룹 오더링 /보다 큰 하위 제1 인트라 -그룹 오더링
1X 1(3,4) 2(2,4) 3(1,4)
2X X 4(2,3) 5(1,3)
3X X X 6(1,2)
4X X X X
이러한 차트는 본 발명의 원리에 따른 아이템 코드에 기초한 아이템 페어의 오더링에 대한 4개의 가능한 유기적 접근법만을 설명하고 있다. 아이템 코드를 아이템에 할당함으로써 아이템의 페어가 구성 아이템의 아이템 코드에 의해 표현될 수 있다. 상기 차트는 개별적인 아이템과 연관된 아이템 코드의 페어가 각각의 페어가 다른 페어에 대한 유일한 오더 포지션을 가지도록 페어를 오더 결정하는데 사용될 수 있다. 각각의 개별적인 페어가 페어를 구성하는 아이템에 할당된 유일한 아이템 코드의 페어에 기초하여 결정되는 유일한 오더 포지션을 갖는 것은 중요하다.
오더 포지션의 계산
오더 포지션은 수학적 계산을 통해 계산될 수 있다. 다음 프로세스는 차트 1에 설명된 아이템 페어 오더 포지션을 계산하는데 사용되는 수학적 계산을 포함한 다. 개별적인 페어의 개별적인 오더 포지션은 개별적인 페어의 구성 아이템에 할당된 아이템 코드에 기초하여 결정된다.
다음 프로세스는 컴퓨터 판독가능 매체내에 인코딩된 컴퓨터 프로그램 코드를 사용하여 구현될 수 있다. 이 프로세스는 본 발명의 일실시예에 따라, 주어진 보조 아이템 페어(t1,t2)에 대하여 유일한 정수 페어 코드 값을 계산한다. 아이템 코드는 주어진 아이템 페어의 각각의 아이템에 대하여 할당된 것으로 가정한다. 또한, 페어내의 아이템과 이 아이템에 할당된 아이템 코드 사이의 연관도는 아이템 코드 정보 구조내에 저장된 것으로 가정한다. 또한, MAX는 임의의 아이템에 할당된 가장 큰 아이템 코드라고 가정한다.
초기 단계는 하위 값 아이템 코드가 먼저 오더링되고 상위 값 아이템 코드가 그다음 오더링되는, 주어진 아이템 페어에 대한, 오더링된 아이템 코드 페어를 생성하는 것이다. 따라서, 아이템 페어(t1,t2)에 대하여, t1에 대한 아이템 코드 및 t2에 대한 아이템 코드는 아이템 코드 정보 구조로부터 검색된다. 주어진 아이템 코드 페어(t1,t2)에 대하여, 코드 1은 텍스트 아이템(t1)에 할당된 아이템 코드이고, 코드 2는 텍스트 아이템(t2)에 할당된 아이템 코드이다.
페어 오더링 프로세스에 따라,
코드 2=MAX라면, 페어코드(t1,t2)=코드1*MAX-SUM(x)이고, 여기에서, x는 1내지 코드 1이고,
그렇지 않다면, 페어(t1,t2)=(코드2-코드1) + (코드1-1)*MAX-SUM(x)이고, 여기에서 x는 1 내지 코드 1-1이다.
차트 1의 페어 코드의 세트예에 대하여는, MAX=4이다.
다음은 차트 1의 아이템 코드 페어의 대표적인 샘플링에 대한 유일한 페어 코드 및 이에 상응하는 유일한 오더 포지션의 계산의 예이다.
아이템 코드의 페어(1,2)에 대하여, 코드2는 2이다. 따라서, (1,2)에 대하여 코드 2≠MAX이다. 따라서, 페어코드(1,2)=(2-1)+(1-1)x4-(0)=1이다.
아이템 코드의 페어(2,3)에 대하여, 코드2=3이다. 따라서, (2,3)에 대하여, 코드 2≠MAX이다. 따라서, 페어코드(2,3)=(3-2)+(2-1)x4-(1)=4이다.
아이템 코드의 페어(2,4)에 대하여, 코드 2는 4이다. 따라서, (2,4)에 대하여, 코드2=MAX이다. 따라서, 페어코드(2,4)=(2x4)-(1+2)=5이다.
이러한 계산 프로세스는 아이템 페어에 관한 정보의 데이터베이스를 구축하기위해 사용될 수 있다. 이러한 동일한 계산 프로세스는 아이템 코드에 관한 저장된 정보를 검색하기 위해 정보의 데이터베이스에 액세스하는데 사용될 수 있다. 데이터베이스 구축 동안, 계산 프로세스를 통해 계산된 페어코드는 개별적인 아이템 페어와 연관된 정보가 저장되는 기억매체내의 로케이션을 결정하는데 사용될 수 있다. 이어서, 개별적인 아이템 페어에 대한 정보가 실제 이들의 페어코드에 의해 결정된 메모리 로케이션내에 저장되어 있다면, 동일한 계산 프로세스가 이 기억매체로부터 아이템 페어에 관한 정보를 로케이트하고 검색하기 위해, 주어진 아이템 페어에 대한 페어 코드를 계산하는데 사용될 수 있다. 물론, 정보의 데이터베이스가 계속 구축되고 교정될 수 있다는 것을 이해할 것이다. 따라서, 계속되는 구축 및 검색이 동시에 일어날 수 있다.
또한, 이러한 계산 프로세스는 매우 효율적으로 서치될 수 있는 아이템 페어 정보의 데이터베이스를 생성하는데 사용될 수 있다. 상기에서 설명된 바와 같이, 유일한 페어 코드가 아이템 페어의 유일한 오더 포지션과 관련된 정보를 나타낼 수 있다. 본 발명의 일태양에 따라, 페어 오더 포지션이 계산 프로세스에 기초하여 결정되고, 아이템 페어와 관련된 정보가 오더 포지션 순서로 컴퓨터 판독가능 매체내에 저장되어있다. 결과적으로, 선형 스캔 타입 프로세스가 저장된 아이템 페어와 관련된 정보를 로케이트하는데 보다 용이하게 사용될 수 있다. 정보 검색 동안, 아이템 페어와 관련된 정보를 검색하기 위해 액세스되는 로케이션은 계산 프로세스를 사용하여 계산된다. 아이템 페어 정보가 계산 프로세스에 의해 결정된 유일한 포지션 순서로 저장되어 있다면, 계산 프로세스가 기억매체내에 액세스되는 로케이션의 선형 시퀀스을 계산하는데 사용될 수 있다.
예를 들어, 차트 1의 가상 예에 있어서, 아이템 코드와 상부 행에 대한 페어 코드 사이의 상관은 다음과 같다.
아이템 코드 페어(1,2)→페어 코드=1
아이템 코드 페어(1,3)→페어 코드=2
아이템 코드 페어(1,4)→페어 코드=3
페어 코드와 메모리 주소 로케이션 사이의 상관의 가상 예는 다음과 같다.
페어 코드=1→메모리 로케이션 1000
페어 코드=2→메모리 로케이션 1001
페어 코드=3→메모리 로케이션 1002
따라서, 아이템 코드=1을 갖는 아이템과 연관된 모든 페어 관련 정보는 로케이션 1000으로 시작하여 1001, 1002로 종료되는 기억 매체의 선형 스캔 서치를 통해 액세스될 수 있다는 것을 이해할 것이다.
상기 차트의 각각의 예는 오직 6개의 아이템 코드 페어 및 오직 6개의 상응하는 페어 코드를 포함한다. 실제 구현예에서, 수백만개의 아이템 및 수백만개의 페어가 존재할 수 있다. 아이템 페어를 오더링하는 프로세스가 스케일러블하기 때문에, 동일한 기본적인 페어 오더링 프로세스가 방대한 수의 페어에 대한 아이템 페어 코드 및 아이템 페어 오더 포지션을 결정하기 위해 사용될 수 있다. 실제로, 페어를 오더링하고 효율적인 정보 기억 전략을 달성하는데 있어 이 프로세스의 유익은 아이템 및 페어의 수가 증가됨에 따라 보다 더 명백해진다.
차트 1-4가 본 발명의 원리에 따른 페어의 4개의 가능한 오더링의 예를 제공하지만, 당업자는 다른 오더링 역시 본 발명의 범위내에 가능할 수 있다는 것을 이해할 것이다. 또한, 특정 계산 프로세스가 차트 1의 오더링 예에 대하여 페어 코드를 계산하는 것에 대하여 설명되었지만, 당업자는 유사한 기본적인 계산 원리가 차트 2-4예에 도시된 타입의 페어 오더링에 대한 계산 프로세스에 도달하기위해 역시 적용될 수 있다는 것을 용이하게 이해할 수 있다고 생각된다.
유사도 분석 정보 구성
도 2는 본 발명의 원리가 적용될 수 있는 인터넷 컴퓨팅 콘텍스트를 도시하는 블록도이다. 서버 시스템(20)은 인터넷(30)을 통해 복수의 인터넷 접속된 컴퓨터 디바이스(22,24,26,28)와 통신한다. 서버(20)는 예를 들어, 야후의 모든 자산 및 www.yahoo.com의 야후 사이트와 같은 인터넷 포털일 수 있다. 컴퓨터(22-28)의 사용자는 예를 들어, 서치, 메일 파이넌스등을 서비스 및 다양한 정보를 얻기 위해 이러한 사이트에 들어온다. 이러한 프로세스에 수집된 데이터는 유사도 분석을 하기 위해 사용될 것이다. 예를 들어, 컴퓨터 디바이스(22-28)는 컴퓨터에 로그인하고 서버(20)로부터 인터넷을 통해 정보에 액세스하는데 사용되는 임의의 사용자 디바이스일 수 있다.
서버(20)는 컴퓨터(22-28)와의 인터넷(30)을 통한 인터랙션을 통한 텍스트 아이템의 그루핑을 수집한다. 서버(20)는 오직 4개의 대표적인 컴퓨터(22-28)가 도 2에 도시도어 있지만, 매일 수백만개의 컴퓨터와 통신할 수 있다는 것을 이해할 것이다. 예를 들어, 컴퓨터(22-28)는 정보 또는 서비스에 대한 다양한 요청을 할 수 있다. 이러한 요청은 상기 설명된 바와 같이 텍스트 아이템의 그루핑을 수반할 수 있다. 서버는 유사도 분석을 위해 유용한 정보의 데이터베이스를 생성하기 위해 이러한 그루핑을 처리할 수 있다.
사용자 컴퓨터(22-28)로부터 수신된 텍스트 아이템의 그루핑은 유사도 분석을 위해 유용한 정보의 데이터베이스를 생성하기 위해 처리되는 입력 데이터를 구성한다. 그루핑내의 아이템은 식별된다. 아이템 코드는 아이템에 할당된다. 예를 들어, 별개의 아이템 코드가 다음의 텍스트 아이템의 각각에 할당될 수 있다.
혼다
혼다 모터
혼다 모터 컴패니
상기 설명된 바와 같이, 임계값 처리는 아이템 코드가 할당되지 않는 최소한의 사용을 가진 아이템을 제거하는데 사용될 수 있다. 아이템 코드 정보 구조는 아이템과 이들의 할당된 아이템 코드 사이의 연관도를 저장하는 컴퓨터 판독가능 매체내에 생성된다.
또한, 입력 데이터내의 그루핑내의 아이템의 페어가 식별된다. 페어 코드는 아이템의 상응하는 페어가 할당된 선택된 아이템의 페어를 위해 계산된다. 차트 1과 관련하여 상술된 계산 프로세스는 아이템 코드로부터 페어 코드를 계산하는데 사용될 수 있다.
도 3은 유사도 분석에서 사용되기 위해 컴퓨터 판독가능 매체내의 정보 구조를 생성하기위해 아이템 코드 및 페어 코드를 사용하는 프로세스(38)를 도시하는 순서도이다. 단계 40에서, 아이템 네임이 코드 및 카운트에 맵핑되는 아이템 카운트 해시 구조가 제공된다. 임계값이 상기 임계값 위에 있는 아이템만이 이러한 해시 구조내에 있도록 이러한 단계에서 인가될 수 있다. 본 실시예에서, 아이템 카운트 해시 구조는 아이템 코드 및 아이템 카운트를 갖는 해시 테이블을 포함한다. 단계 42에서, 페어 코드가 아이템 페어 카운트에 맵핑되는 페어 카운트 해시 구조가 제공된다. 본 실시예에서, 페어 카운트 해시 구조는 페어 코드 및 페어 카운트를 가진 해시 테이블을 포함한다.
단계 44에서, 입력 데이터가 스캔된다. 각각의 식별된 아이템의 그루핑을 위해, 그룹내에 아이템을 위한 아이템 코드가 존재하는지 여부와 대해 판정이 이루어진다. 아이템 코드가 이미 존재하는 아이템에 대하여, 아이템 코드 카운트 해시 구조내의 상응하는 아이템 코드 카운트가 증가된다. 본 실시예에서, 아이템 코드가 아직 존재하지 않는 아이템은 이들이 임계값 아래에 있고 분석을 위해 중요하지 않기 때문에 무시된다.
단계 46에서, 입력 데이터가 스캔된다. 각각의 식별된 아이템의 그루핑을 위해, 아이템 코드는 그루핑내의 각각의 아이템에 대하여 식별되고, 페어 코드는 그루핑내에 식별되는 각각의 아이템 페어에 대하여 계산된다. 차트 1에 관련하여 상술된 것과 같은 계산 프로세스가 페어 코드를 계산하는데 사용된다.
입력 데이터내의 이러한 각각의 그루핑을 위해, 페어 카운트 해시 구조가 다음과 같이 갱신된다. 단계 48에서, 페어 코드가 페어 카운트 해시 구조내에 이미 들어가 있는지 여부에 대해 판정이 이루어진다. 만약, 주어진 아이템 페어에 대한 페어 코드가 이미 페어 카운트 해시 구조내에 존재한다면, 단계 50에서, 기존의 페어 코드에 상응하는 카운트가 하나씩 증가된다. 그렇지 않다면, 단계 52에서, 페어 카운트 해시 구조내의 엔트리의 수가 허용된 엔트리의 MAXIMUM 수보다 적은지 여부를 판단한다. 만약 상기 엔트리의 수가 MAXIMUM보다 적다면, 단계 54에서, 새로운 페어 코드가, 연관된 카운트=1을 가지고 구조에 추가된다. 만약 엔트리의 수가 MAXIMUM와 동일하다면 (또는 보다 크다면), 단계 56에서, 페어 카운트 해시 구조내의 모든 엔트리는 페어 코드에 의해 페어 카운트 즉시 정보 구조에 소팅된다. 페어 카운트 해시 구조는 클리어되고, 새로운 페어 코드가, 연관된 카운트=1 엔트리를 따라 새롭게 클리어된 구조에 추가된다.
이러한 상기 프로세스는 입력 데이터내의 모든 그루핑이 처리될 때까지 반복 한다. 입력 데이터의 스캔이 완료될 때, 아이템 카운트 해시 구조내의 모든 아이템 관련된 정보는 아이템 카운트 정보 구조에 기록된다. 이와 마찬가지로, 입력 데이터의 스캔이 완료될 때, 페어 카운트 해시 구조내의 모든 페어와 관련된 정보는 페어 카운트 즉시 정보 구조에 기록된다. 그다음, 모든 페어 카운트 즉시 정보 구조는 함께 머징되고 임계값을 초과하는 카운트를 가진 페어는 페어 코드에 의해 소팅된, 페어 카운트 정보 구조에 기록된다.
다음 테이블은 도 3의 프로세스에 따라 산출될 수 있는 아이템 코드 구조, 아이템 카운트 정보 구조 및 페어 카운트 정보 구조의 예이다. 이러한 구조내에 포함된 정보는 서버(20)에 의해 액세스되는 컴퓨터 판독가능 매체내에 인코딩된다. 이러한 구조는 설명을 위해 생성된 가상 예일 뿐이라는 것을 이해할 것이다. 또한, 설명의 간략성 및 명료성을 위해, 매우 적은 아이템 및 페어만이 이러한 구조내에 나열되어 있다. 그러나, 당업자는 동일한 원리가 방대한 수의 아이템 및 페어에 적용된다는 것을 이해할 것이다.
아이템 코드 구조
텍스트 아이템 아이템 코드
A 1
B 2
C 3
D 4
아이템 카운트 정보 구조
아이템 코드 아이템 코드
1 10
2 20
3 15
4 30
페어 카운트 정보 구조
페어코드 연관된 아이템 코드 페어코드 카운트
1 (1,2) 5
2 (1,3) 6
3 (1,4) 7
4 (2,3) 4
5 (2,4) 5
6 (3,4) 4
유사도 분석 예
상기 예에서의 정보 구조는 유사도 분석을 실행하는데 사용될 수 있다.
예를 들어, 이러한 구조를 사용하여 텍스트 아이템 B에 대한 텍스트 아이템 A의 유사도가 다음과 같이 결정될 수 있다. 이러한 예의 목적을 위해, B에 대한 A의 유사도가 카운트(A,B)/카운트A로서 정의된다.
아이템 코드 정보 구조로부터 텍스트 아이템 A 및 B에 대한 아이템 코드를 검색한다. A에 대한 아이템 코드는 1이다. B에 대한 아이템 코드는 2이다. 아이템 카운트 정보 구조로의 인덱스로서 아이템 코드를 사용하고 A에 대한 아이템 카운트를 검색한다. A에 대한 아이템 카운트는 10이다. A 및 B에 대한 아이템의 페어를 사용하여 아이템 페어(A,B), 즉 아이템 코드 페어(1,2)에 대한 페어 코드를 계산하기 위해 계산 프로세스를 사용한다. 이러한 예에서, 계산 프로세스는 페어 코드 1을 산출한다. 계산된 이 페어 코드를 페어 카운트 정보 구조로의 인덱스로서 사용하고 페어 코드 1에 대한 페어 카운트를 검색한다. 검색된 페어 카운트는 5이고, 이것은 (A,B)의 페어 카운트가 5라는 것을 의미한다. 따라서, B에 대한 A의 유사도는 5/10=0.50이다.
반대로, 예를 들어, 이러한 구조를 사용하여 텍스트 아이템 A에 대한 텍스트 아이템 B의 유사도가 동일한 프로시져를 사용하여 결정될 수 있다. 이러한 예의 목적을 위해, B에 대한 A의 유사도가 카운트(A,B)/카운트B로 정의된다. 상기 예시된 구조는 카운트B=20, 및 카운트(A,B)=5라는 확인하는데 사용될 수 있다. 따라서, A에 대한 B의 유사도는 5/20=0.25이다.
당업자는 유사도 정보가 분석될 수 있다는 것을 이해할 것이다. 예를 들어, B에 대한 A 및 A에 대한 B와 같은 유사도 비교는 어떤 텍스트 아이템이 가장 의미있는지를 판단하기 위해 사용될 수 있다. 예를 들어, 유사도 정보는 유사도에 의해 의해 소팅된, 주어진 아이템에 대해 높은 유사도를 가진 아이템의 리스트를 얻기 위해 사용될 수 있다. 예를 들어, 도 1의 좌측 테이블에 기본 모델에 대한 유사도를 갖는 카 모델의 리스트가 존재한다. 이러한 예에서, 유사도는 기본 모델은 아이템중 하나인, 모든 페어에 대하여 계산된다. 그다음, 이러한 아이템은 유사도에 의해 소팅된다. 본 발명의 현 구현예를 사용하여, 전체 분석이 하나의 스캔으로 실시될 수 있다.
본 발명에 따른 바람직한 실시예의 다음의 설명 및 도면은 본 발명의 원리를 단순히 설명하기 위한 것임을 이해할 것이다. 다양한 수정이 본 발명의 정신 및 범위를 벗어남 없이 당업자에 의해 이루어질 수 있다.

Claims (31)

  1. 컴퓨터 기반 텍스트 아이템 구성 방법에 있어서,
    복수의 개별적인 그룹의 텍스트 아이템을 수신하는 단계;
    복수의 개별적인 그룹으로부터의 각각의 개별적인 텍스트 아이템에 각각의 유일한 정수 아이템 코드를 할당하는 단계;
    복수의 그룹의 개별적인 그룹으로부터의 텍스트 아이템의 페어를 식별하는 단계;
    각각의 페어가 타 페어에 대하여 각각의 유일한 오더 포지션을 갖도록 텍스트 아이템의 각각의 페어의 개별적인 텍스트 아이템에 할당된 유일한 아이템 코드에 기초하여 텍스트 아이템의 페어를 오더링하는 단계;
    각각의 식별된 페어와 이들의 각각의 유일한 오더 포지션 사이의 각각의 연관도를 저장하는 페어 오더 정보 구조를 컴퓨터 판독가능 매체에 제공하는 단계;를 포함하는 방법.
  2. 제1항에 있어서, 텍스트 아이템의 페어를 오더링하는 단계는,
    각각의 페어의 각각의 개별적인 텍스트 아이템에 할당된 각각의 하위 값 아이템 코드 값 및 상위 값 아이템 코드 값을 식별하는 단계;
    각각의 개별적인 텍스트 아이템에 할당된 동일한 하위 값 아이템 코드 또는 각각의 개별적인 텍스트 아이템에 할당된 동일한 상위 값 아이템 코드중 규정된 하 나를 갖는 텍스트 아이템의 페어의 각각의 그룹을 식별하는 단계; 및
    페어의 각각의 그룹의 각각의 개별적인 텍스트 아이템에 할당된 각각의 하위 값 아이템 코드 또는 상위 값 아이템 코드중 규정된 아이템 코드에 기초하여 규정된 수치 오더로 페어의 각각의 식별된 그룹을 오더링하는 단계와
    페어의 각각의 그룹의 페어의 각각의 텍스트 아이템에 할당된 상위 값 아이템 코드 또는 하위 값 아이템 코드중 하나에 기초하여 규정된 수치 오더로 페어의 각각의 그룹내에 각각의 페어를 오더링하는 단계,에 의해 각각의 식별된 페어의 각각의 오더 포지션을 결정하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
  3. 제2항에 있어서, 각각의 페어의 각각의 오더 포지션에 따라 수치 오더로 각각의 페어에 각각의 유일한 정수 페어 코드 값을 할당하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  4. 제2항에 있어서, 각각의 페어의 각각의 오더 포지션에 따라 수치 오더로 각각의 페어에 각각의 유일한 정수 페어 코드 값을 할당하는 단계를 더 포함하고,
    페어 오더 정보 구조는 각각의 식별된 페어와 이들의 각각의 할당된 유일한 페어 코드 값 사이의 각각의 연관도를 저장하는 것을 특징으로 하는 방법.
  5. 제1항에 있어서, 텍스트 아이템을 할당된 유일한 정수 아이템 코드와 연관시키는 아이템 코드 정보 구조를 컴퓨터 판독가능 매체에 제공하는 단계를 더 포함하 는 것을 특징으로 하는 방법.
  6. 제2항에 있어서, 텍스트 아이템을 할당된 유일한 정수 아이템 코드와 연관시키는 아이템 코드 정보 구조를 컴퓨터 판독가능 매체에 제공하는 단계; 및
    각각의 페어의 각각의 오더 포지션에 따라 수치 오더로 각각의 페어에 각각의 유일한 정수 페어 코드 값을 할당하는 단계;를 더 포함하고,
    페어 오더 정보 구조는 각각의 식별된 페어와 이들의 각각의 할당된 유일한 페어 코드 값 사이의 각각의 연관도를 저장하는 것을 특징으로 하는 방법.
  7. 제1항에 있어서, 텍스트 아이템의 페어를 오더링하는 단계는,
    각각의 페어의 각각의 개별적인 텍스트 아이템에 할당된 각각의 상위 값 아이템 코드 및 하위 값 아이템 코드 값을 식별하는 단계;
    각각의 개별적인 텍스트 아이템에 할당된 동일한 하위 값 아이템 코드 또는 각각의 개별적인 텍스트 아이템에 할당된 동일한 상위 값 아이템 코드중 규정된 하나를 갖는 각각의 텍스트 아이템의 페어의 그룹을 식별하는 단계; 및
    페어의 각각의 그룹의 각각의 개별적인 텍스트 아이템에 할당된 각각의 하위 값 아이템 코드 또는 상위 값 아이템 코드중 규정된 하나의 아이템 코드에 기초하여 규정된 수치 오더로 페어의 각각의 식별된 그룹을 오더링하는 단계와,
    페어의 각각의 그룹의 페어의 각각의 텍스트 아이템에 할당된 상위 값 아이템 코드 또는 하위 값 아이템 코드중 하나의 아이템 코드에 기초하여 규정된 수치 오더로 페어의 각각의 그룹내에 각각의 페어를 오더링하는 단계,에 의해 각각의 식별된 페어의 각각의 오더 포지션을 결정하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
  8. 제6항에 있어서, 규정된 아이템 코드는 각각의 하위 값 아이템 코드이고, 또 다른 아이템 코드는 상위 값 아이템 코드인 것을 특징으로 하는 방법.
  9. 제6항에 있어서, 규정된 아이템 코드는 각각의 상위 값 아이템 코드이고, 또 다른 코드는 하위 값 아이템 코드인 것을 특징으로 하는 방법.
  10. 제1항에 있어서, 텍스트 아이템의 페어를 오더링하는 단계는,
    각각의 개별적인 텍스트 아이템에 할당된 동일한 하위 값 아이템 코드를 갖는 각각의 텍스트 아이템의 페어의 그룹을 식별하는 단계; 및
    각각의 페어의 그룹의 각각의 개별적인 텍스트 아이템에 할당된 각각의 하위 값 아이템 코드에 기초하여 규정된 수치 오더로 각각의 페어의 식별된 그룹을 오더링하는 단계와,
    각각의 페어의 그룹의 페어의 각각의 텍스트 아이템에 할당된 각각의 상위 값 아이템 코드에 기초하여 규정된 수치 오더로 각각의 페어의 그룹내의 각각의 페어를 오더링하는 단계,에 의해 각각의 식별된 페어의 각각의 오더 포지션을 결정하는 단계;
    각각의 페어의 각각의 오더 포지션에 따라 수치 오더로 각각의 페어에 각각의 유일한 정수 페어 코드 값을 할당하는 단계; 및
    텍스트 아이템을 유일한 정수 아이템 코드와 연관시키는 아이템 코드 정보 구조를 컴퓨터 판독가능 매체에 제공하는 단계;를 더 포함하고,
    페어 오더 정보 구조는 각각의 식별된 페어와 이들의 각각의 할당된 유일한 페어 코드 값 사이의 각각의 연관도를 저장하는 것을 특징으로 하는 방법.
  11. 제1항에 있어서, 텍스트 아이템의 페어를 오더링하는 단계는,
    각각의 페어의 각각의 개별적인 텍스트 아이템에 할당된 각각의 상위 값 아이템 코드 값 및 하위 값 아이템 코드 값을 식별하는 단계;
    각각의 텍스트 아이템에 할당된 동일한 하위 값 아이템 코드 또는 각각의 텍스트 아이템에 할당된 동일한 상위 값 아이템 코드중 규정된 하나의 아이템 코드를 갖는 각각의 텍스트 아이템의 페어의 그룹을 식별하는 단계; 및
    만약 규정된 아이템 코드가 동일한 하위 값 아이템 코드라면,
    각각의 페어는 보다 적은 하위 값 아이템 코드를 가진 페어의 그룹의 값 보다 크고 또한 보다 큰 하위 값 아이템 코드를 가진 페어의 그룹의 값보다 적은 할당된 페어 코드 값을 가지고, 그리고
    각각의 페어는 보다 적은 상위 값 아이템 코드를 가진 페어의 그룹내의 페어의 값보다 크고 또한 보다 또한 큰 상위 값 아이템 코드를 가진 페어의 그룹내의 페어의 값보다 적은 할당된 페어 코드 값을 가지고,
    만약, 규정된 아이템 코드가 동일 상위 값 아이템 코드라면,
    각각의 페어는 보다 큰 상위 값 아이템 코드를 가진 페어의 그룹의 값보다 적고 또한 보다 적은 상위 값 아이템 코드를 가진 페어의 그룹의 값보다 큰 할당된 페어 코드 값을 가지고,
    각각의 페어는 보다 큰 하위 값 아이템 코드를 가진 페어의 그룹내의 페어의 값보다 적고 또한 보다 적은 하위 값 아이템 코드를 가진 페어의 그룹내의 페어의 값보다 큰 할당된 페어 코드 값을 가지도록, 페어에 각각의 유일한 정수 페어 코드 값을 할당함으로써 각각의 식별된 페어의 각각의 오더 포지션을 결정하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
  12. 제1항에 있어서, 텍스트 아이템의 페어를 오더링하는 단계는,
    각각의 페어의 각각의 개별적인 텍스트 아이템에 할당된 각각의 하위 값 아이템 코드 값 및 상위 값 아이템 코드 값을 식별하는 단계;
    각각의 텍스트 아이템에 할당된 동일 하위 값 아이템 코드를 갖는 각각의 텍스트 아이템의 페어의 그룹을 식별하는 단계; 및
    각각의 페어가 보다 적은 하위 값 아이템 코드를 갖는 페어의 그룹의 값 보다 크고 상위 하위 값 아이템 코드를 가진 페어의 그룹의 값 보다 적은 할당된 페어 코드 값을 갖고,
    각각의 페어가 보다 적은 상위 값 아이템 코드를 갖는 페어의 그룹내의 페어의 값보다 크고 보다 큰 상위 값 아이템 코드를 갖는 페어의 그룹내의 페어 의 값보다 적은 할당된 페어 코드 값을 갖도록 페어에 유일한 정수 페어 코드 값을 할당하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
  13. 제1항에 있어서, 텍스트 아이템의 페어를 오더링하는 단계는,
    각각의 페어의 각각의 개별적인 텍스트 아이템에 할당된 각각의 유일한 아이템 코드에 기초하여 각각의 페어 코드의 각각의 유일한 오더 포지션을 결정하는 수학적 계산을 실행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  14. 제1항에 있어서, 텍스트 아이템의 페어를 오더링하는 단계는 각각의 페어의 각각의 개별적인 텍스트 아이템에 할당된 각각의 유일한 아이템 코드에 기초하여 각각의 페어 코드의 각각의 유일한 오더 포지션을 결정하는 수학적 계산을 실행하는 단계를 더 포함하고, 페어 오더 정보 구조는 각각의 식별된 페어와 이들의 각각의 결정된 유일한 페어 코드값사이의 각각의 연관도를 저장하는 것을 특징으로 하는 방법.
  15. 제1항에 있어서, 복수의 개별적인 그룹의 텍스트 아이템을 수신하는 단계는 컴퓨터 네트워크로부터 복수의 텍스트 아이템의 개별적인 그룹을 수신하는 단계를 포함하는 것을 특징으로 하는 방법.
  16. 텍스트 아이템을 구성하는 컴퓨터에 기초한 방법에 있어서,
    복수의 텍스트 아이템의 개별적인 그룹을 수신하는 단계;
    복수의 개별적인 그룹으로부터의 각각의 개별적인 텍스트 아이템에 각각의 유일한 정수 아이템 코드를 할당하는 단계;
    텍스트 아이템을 할당된 유일한 정수 아이템 코드와 연관시키는 아이템 코드 정보 구조를 컴퓨터 판독가능 매체에 제공하는 단계;
    복수의 그룹의 개별적인 그룹으로부터 텍스트 아이템의 페어를 식별하는 단계; 및
    각각의 식별된 페어의 각각의 오더 포지션을 결정하는 단계;를 더 포함하고,
    상기 각각의 식별된 페어의 각각의 오더 포지션을 결정하는 단계는,
    페어의 각각의 그룹의 각각의 개별적인 텍스트 아이템에 할당된 각각의 하위 값 아이템 코드 또는 상위 값 아이템 코드중 규정된 아이템 코드에 기초하여, 규정된 수치 오더로 페어의 각각의 식별된 그룹을 오더링하는 단계,
    페어의 각각의 그룹의 페어의 각각의 텍스트 아이템에 할당된 하위 값 아이템 코드 또는 상위 값 아이템 코드중 하나의 아이템 코드에 기초하여, 규정된 수치 오더로 페어의 각각의 그룹내의 각각의 페어를 오더링하는 단계,
    각각의 페어의 각각의 오더 포지션에 따라 수치 오더로 각각의 페어에 각각의 유익한 정수 페어 코드 값을 할당하는 단계와,
    각각의 식별된 페어와 이들의 각각의 페어 코드 값 사이의 각각의 연관도를 저장하는 페어 오더 정보 구조를 컴퓨터 판독가능 매체에 제공하는 단계,에 의해 각각의 식별된 페어의 각각의 오더 포지션을 결정하는 단계인 것을 특징으로 하는 방법.
  17. 컴퓨터 기반 텍스트 아이템 구성 방법에 있어서,
    복수의 텍스트 아이템의 개별적인 그룹을 수신하는 단계;
    복수의 개별적인 그룹으로부터의 각각의 개별적인 텍스트 아이템에 각각의 유일한 정수 아이템 코드를 할당하는 단계;
    텍스트 아이템을 할당된 유일한 정수 아이템 코드와 연관시키는 아이템 코드 정보 구조를 컴퓨터 판독가능 매체에 제공하는 단계;
    복수의 그룹의 개별적인 그룹으로부터 텍스트 아이템의 페어를 식별하는 단계;
    각각의 페어의 각각의 개별적인 텍스트 아이템에 할당된 각각의 유일한 아이템 코드에 기초하여 각각의 페어 코드의 각각의 유일한 오더 포지션을 결정하는 수학적 계산을 실행함으로써 텍스트 아이템의 페어를 오더링하는 단계; 및
    각각의 식별된 페어와 이들의 각각의 결정된 유일한 페어 코드 값 사이의 각각의 연관도를 저장하는 페어 오더 정보 구조를 컴퓨터 판독가능 매체에 제공하는 단계;를 포함하는 것을 특징으로 하는 방법.
  18. 복수의 아이템의 그루핑내의 복수의 각각의 아이템의 각각의 발생의 각각의 카운트를 저장하는 아이템 카운트 정보 구조;
    각각의 아이템을 각각의 유일한 정수 아이템 코드와 연관시키는 코드 할당 정보 구조; 및
    하나 이상의 복수의 아이템의 그루핑내의 복수의 각각의 아이템 페어의 각각의 발생 횟수를 나타내는 각각의 페어 카운트를 저장하는 페어 카운트 정보 구조;로 인코딩되는 컴퓨터 판독가능 매체를 포함하고,
    각각의 페어 카운트는 각각의 아이템 페어의 각각의 구성 아이템과 아이템 코드 정보 구조내에서 연관된 각각의 아이템 코드로부터 계산된 각각의 페어 코드에 의해 인덱싱된 로케이션에서 페어 카운트 정보 구조내에 각각 저장된 것을 특징으로 하는 제품.
  19. 복수의 아이템의 그루핑내의 복수의 각각의 아이템의 각각의 발생의 각각의 카운트를 저장하는 아이템 카운트 정보 구조;
    각각의 유일한 정수 아이템 코드와의 각각의 아이템의 각각의 연관도를 저장하는 코드 할당 정보 구조;
    코드 할당 정보 구조내에 연관된 각각의 유일한 아이템 코드를 사용하여 하나 이상의 복수의 그루핑의 각각내에 각각의 아이템의 페어에 대한 각각의 유일한 정수 값 페어 코드를 계산하는 페어 코드 계산 프로세스를 실행하기 위한 컴퓨터 프로그램 코드; 및
    복수의 아이템의 그루핑의 개별적인 그루핑내의 복수의 각각의 아이템의 페어의 각각의 발생 카운트와의 각각의 페어코드의 각각의 연관도를 저장하는 페어 카운트 정보 구조;로 인코딩되는 컴퓨터 판독가능 매체를 포함하는 것을 특징으로 하는 제품.
  20. 제19항에 있어서, 아이템 카운트 정보 구조는 복수의 아이템의 그루핑의 개별적인 그루핑내의 복수의 각각의 아이템의 각각의 발생 카운트를 저장하는 것을 특징으로 하는 제품.
  21. 제19항에 있어서, 아이템 카운트 정보 구조는 아이템 카운트 해시 테이블을 포함하고,
    페어 카운트 정보 구조는 페어 카운트 해시 테이블을 포함하는 것을 특징으로 하는 제품.
  22. 제19항에 있어서, 아이템 카운트 정보 구조 및 코드 할당 정보 구조는 하나의 정보 구조로 조합되는 것을 특징으로 하는 제품.
  23. 제19항에 있어서, 페어 카운트 정보 구조는 페어 코드 정수 값에 기초하여, 규정된 수치 오더로 각각의 카운트와의 각각의 페어 코드의 각각의 연관도를 저장하는 것을 특징으로 하는 제품.
  24. 제19항에 있어서, 페어 카운트 정보 구조는 페어 코드 정수 값에 기초하여, 규정된 시퀀셜 수치 오더로 각각의 카운트와의 각각의 페어 코드의 각각의 연관도 를 저장하는 것을 특징으로 하는 제품.
  25. 제19항에 있어서, 컴퓨터 판독가능 매체는, 선택된 페어의 아이템중 하나와의 아이템 카운트 정보 구조에 의해 연관된 카운트를 선택된 페어와의 페어 카운트 정보 구조에 의해 연관된 카운트와 비교함으로써 복수의 아이템의 그루핑으로부터의 선택된 아이템의 페어 사이의 유사도를 결정하기 위한 유사도 결정 프로세스로 더 인코딩되는 것을 특징으로 하는 제품.
  26. 텍스트 아이템 사이의 유사도를 결정하는 방법에 있어서,
    복수의 아이템의 그루핑의 개별적인 그루핑내의 복수의 각각의 아이템의 각각의 발생 카운트를 저장하는 아이템 카운트 정보 구조를 컴퓨터 판독가능 매체에 제공하는 단계;
    각각의 유일한 정수 아이템 코드와의 각각의 아이템의 각각의 연관도를 저장하는 아이템 코드 할당 정보 구조를 컴퓨터 판독가능 매체에 제공하는 단계;
    하나 이상의 복수의 아이템의 그루핑내의 복수의 각각의 아이템의 페어의 각각의 발생 카운트와의 각각의 유일한 정수 값 페어 코드의 각각의 연관도를 저장하는 페어 카운트 정보 구조를 컴퓨터 판독가능 매체에 제공하는 단계;
    2개의 텍스트 아이템으로 구성되는 아이템의 페어를 지정하는 단계;
    아이템 코드 할당 정보 구조를 사용하여, 지정된 페어의 2개의 지정된 텍스트 아이템을 위한 2개의 아이템 코드를 결정하는 단계;
    결정된 2개의 아이템 코드를 사용하여, 지정된 페어의 텍스트 아이템의 지정된 페어에 대한 각각의 유일한 정수 값 페어 코드를 계산하는 단계;
    아이템 카운트 정보를 구조를 서치하기 위해 2개의 결정된 아이템 코드중 적어도 하나의 각각의 아이템 코드를 사용하여, 지정된 페어의 2개의 지정된 아이템중 적어도 하나의 각각의 아이템을 위한 아이템 카운트를 결정하는 단계;
    페어 카운트 정보 구조를 서치하기 위해, 계산된 유일한 정수 값 페어 코드를 사용하여 페어 카운트를 결정하는 단계; 및
    결정된 적어도 하나의 아이템 카운트를 결정된 페어 코드 카운트와 비교하는 단계;를 포함하는 것을 특징으로 하는 방법.
  27. 제26항에 있어서, 페어 카운트 정보 구조는 페어 코드 정수 값에 기초하여, 규정된 시퀀셜 수치 오더로 각각의 카운트와의 각각의 유일한 정수 값 페어 코드의 각각의 연관도를 저장하는 것을 특징으로 하는 방법.
  28. 제26항에 있어서,
    페어 카운트 정보 구조는 페어 코드 정수 값에 기초하여, 규정된 시퀀셜 수치 오더로 각각의 카운트와의 각각의 유일한 정수 값 페어 코드의 각각의 연관도를 저장하고,
    페어 카운트를 결정하는 단계는 계산된 유일한 정수 값 페어 코드로의 매치의 서치에서, 규정된 시퀀셜 수치 오더로 적어도 일부의 페어 카운트 정보 구조를 스캔하는 단계를 포함하는 것을 특징으로 하는 방법.
  29. 텍스트 아이템 사이의 유사도를 결정하는 방법에 있어서,
    복수의 아이템의 그루핑중 개별적인 그루핑내의 복수의 각각의 아이템의 각각의 발생 카운트를 저장하는 아이템 카운트 정보 구조를 컴퓨터 판독가능 매체에 제공하는 단계;
    각각의 유일한 정수 아이템 코드와의 각각의 아이템의 각각의 연관도를 저장하는 아이템 코드 할당 정보 구조를 컴퓨터 판독가능 매체에 제공하는 단계;
    복수의 아이템의 그루핑중 하나 이상의 그루핑에서 복수의 각각의 아이템의 페어의 각각의 발생 카운트와의 각각의 유일한 정수 값의 각각의 연관도를 저장하는 페어 카운트 정보 구조를 컴퓨터 판독가능 매체에 제공하는 단계;
    각각 2개의 각각의 텍스트 아이템으로 구성되는 복수의 각각의 아이템의 페어를 지정하는 단계;
    아이템 할당 정보 구조를 사용하여 2개의 각각의 지정된 텍스트 아이템의 각각의 페어를 위한 2개의 각각의 아이템 코드를 각각 결정하는 단계;
    각각의 결정된 2개의 아이템 코드를 사용하여 각각 결정된 텍스트 아이템의 페어의 각각을 위한 각각의 유일한 정수 값 페어 코드를 각각 계산하는 단계;
    아이템 카운트 정보 구조를 서치하기 위해 각각의 페어 코드를 사용하여 각각의 페어를 위한 2개의 각각의 지정된 아이템중 각각의 아이템을 위한 각각의 아이템 카운트를 각각 결정하는 단계;
    페어 카운트 정보 구조를 서치하기 위해 각각의 계산된 유일한 정수 값 페어 코드를 사용하여 각각의 페어를 위한 각각의 페어 카운트를 각각 결정하는 단계;
    각각의 개별적인 유사도를 생성하기 위해 각각의 페어를 위한 각각의 결정된 페어 코드 카운트와 각각 결정된 적어도 하나의 아이템 카운트를 각각 비교하는 단계; 및
    개별적인 유사도를 비교하는 단계;를 포함하는 것을 특징으로 하는 방법.
  30. 제29항에 있어서, 페어 카운트 정보 구조는 페어 코드 정수 값에 기초하여, 규정된 시퀀셜 수치 오더로 각각의 카운트와의 각각의 유일한 정수 값 페어 코드의 각각의 연관도를 저장하는 것을 특징으로 하는 방법.
  31. 제29항에 있어서,
    페어 카운트 정보 구조는 페어 코드 정수 값에 기초하여, 규정된 시퀀셜 수치 오더로 각각의 카운트와의 각각의 유일한 정수 값 페어 코드의 각각의 연관도를 저장하고,
    각각의 페어 카운트를 각각 결정하는 단계는 각각의 계산된 유일한 정수 값 페어 코드로의 각각의 매치에 대한 서치에서, 규정된 시퀀셜 수치 오더로 적어도 일부의 페어 카운트 정보 구조를 각각 스캔하는 단계를 수반하는 것을 특징으로 하는 방법.
KR1020057019762A 2003-04-16 2004-04-16 유사도 분석 방법 및 제품 KR20060028673A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/417,709 US6873996B2 (en) 2003-04-16 2003-04-16 Affinity analysis method and article of manufacture
US10/417,709 2003-04-16

Publications (1)

Publication Number Publication Date
KR20060028673A true KR20060028673A (ko) 2006-03-31

Family

ID=33158974

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057019762A KR20060028673A (ko) 2003-04-16 2004-04-16 유사도 분석 방법 및 제품

Country Status (7)

Country Link
US (1) US6873996B2 (ko)
EP (1) EP1616277A2 (ko)
JP (1) JP2006523899A (ko)
KR (1) KR20060028673A (ko)
CN (1) CN1860474A (ko)
TW (1) TW200511038A (ko)
WO (1) WO2004095178A2 (ko)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7007014B2 (en) 2003-04-04 2006-02-28 Yahoo! Inc. Canonicalization of terms in a keyword-based presentation system
US7783617B2 (en) * 2003-04-16 2010-08-24 Yahoo! Inc. Personals advertisement affinities in a networked computer system
US10339538B2 (en) * 2004-02-26 2019-07-02 Oath Inc. Method and system for generating recommendations
US8676830B2 (en) 2004-03-04 2014-03-18 Yahoo! Inc. Keyword recommendation for internet search engines
US7827025B2 (en) * 2004-04-06 2010-11-02 Microsoft Corporation Efficient capitalization through user modeling
US8914383B1 (en) 2004-04-06 2014-12-16 Monster Worldwide, Inc. System and method for providing job recommendations
US7739142B2 (en) * 2004-05-17 2010-06-15 Yahoo! Inc. System and method for providing automobile marketing research information
US7797321B2 (en) * 2005-02-04 2010-09-14 Strands, Inc. System for browsing through a music catalog using correlation metrics of a knowledge base of mediasets
EP1861774A4 (en) * 2005-03-11 2009-11-11 Yahoo Inc SYSTEM AND METHOD FOR MANAGING LISTINGS
US20060206517A1 (en) * 2005-03-11 2006-09-14 Yahoo! Inc. System and method for listing administration
US8375067B2 (en) 2005-05-23 2013-02-12 Monster Worldwide, Inc. Intelligent job matching system and method including negative filtration
US7720791B2 (en) * 2005-05-23 2010-05-18 Yahoo! Inc. Intelligent job matching system and method including preference ranking
US8527510B2 (en) 2005-05-23 2013-09-03 Monster Worldwide, Inc. Intelligent job matching system and method
US8433713B2 (en) 2005-05-23 2013-04-30 Monster Worldwide, Inc. Intelligent job matching system and method
US20060265270A1 (en) * 2005-05-23 2006-11-23 Adam Hyder Intelligent job matching system and method
US8195657B1 (en) 2006-01-09 2012-06-05 Monster Worldwide, Inc. Apparatuses, systems and methods for data entry correlation
KR100736799B1 (ko) * 2006-03-27 2007-07-09 엔에이치엔(주) 대형 광고주의 광고정보를 구분한 광고리스트의 생성 방법및 광고리스트 생성 시스템
KR100793377B1 (ko) * 2006-03-28 2008-01-11 엔에이치엔(주) 점수 분포에 따른 광고리스트의 생성 방법 및 광고리스트생성 시스템
US8600931B1 (en) 2006-03-31 2013-12-03 Monster Worldwide, Inc. Apparatuses, methods and systems for automated online data submission
US20070288308A1 (en) * 2006-05-25 2007-12-13 Yahoo Inc. Method and system for providing job listing affinity
US20070276826A1 (en) * 2006-05-26 2007-11-29 Yahoo! Inc. Aggregation of affinity lists
JP2008210212A (ja) * 2007-02-27 2008-09-11 Nec Corp 項目選択装置及び項目選択方法並びにプログラム
US7985911B2 (en) 2007-04-18 2011-07-26 Oppenheimer Harold B Method and apparatus for generating and updating a pre-categorized song database from which consumers may select and then download desired playlists
US20080257134A1 (en) * 2007-04-18 2008-10-23 3B Music, Llc Method And Apparatus For Generating And Updating A Pre-Categorized Song Database From Which Consumers May Select And Then Download Desired Playlists
US9081852B2 (en) * 2007-10-05 2015-07-14 Fujitsu Limited Recommending terms to specify ontology space
US8280892B2 (en) * 2007-10-05 2012-10-02 Fujitsu Limited Selecting tags for a document by analyzing paragraphs of the document
US20090106081A1 (en) * 2007-10-22 2009-04-23 Yahoo! Inc. Internet advertising using product conversion data
US8280886B2 (en) * 2008-02-13 2012-10-02 Fujitsu Limited Determining candidate terms related to terms of a query
US8244551B1 (en) 2008-04-21 2012-08-14 Monster Worldwide, Inc. Apparatuses, methods and systems for advancement path candidate cloning
US20100082356A1 (en) * 2008-09-30 2010-04-01 Yahoo! Inc. System and method for recommending personalized career paths
US20100205075A1 (en) * 2009-02-11 2010-08-12 Yahoo! Inc. Large-scale item affinity determination using a map reduce platform
US20190287070A1 (en) * 2018-03-15 2019-09-19 Microsoft Technology Licensing, Llc Query expansion for candidate selection
US10621649B2 (en) 2018-08-31 2020-04-14 Realm Ip Method, non-transitory machine-readable storage medium, and system for collaborative matching

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5062074A (en) * 1986-12-04 1991-10-29 Tnet, Inc. Information retrieval system and method
JP2809341B2 (ja) * 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
US5931907A (en) * 1996-01-23 1999-08-03 British Telecommunications Public Limited Company Software agent for comparing locally accessible keywords with meta-information and having pointers associated with distributed information
JP3887867B2 (ja) * 1997-02-26 2007-02-28 株式会社日立製作所 構造化文書の登録方法
US6144944A (en) 1997-04-24 2000-11-07 Imgis, Inc. Computer system for efficiently selecting and providing information
US6185558B1 (en) 1998-03-03 2001-02-06 Amazon.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
US6006225A (en) 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6453312B1 (en) 1998-10-14 2002-09-17 Unisys Corporation System and method for developing a selectably-expandable concept-based search
US6681247B1 (en) * 1999-10-18 2004-01-20 Hrl Laboratories, Llc Collaborator discovery method and system
US6516312B1 (en) 2000-04-04 2003-02-04 International Business Machine Corporation System and method for dynamically associating keywords with domain-specific search engine queries
US6564213B1 (en) 2000-04-18 2003-05-13 Amazon.Com, Inc. Search query autocompletion
JP3672234B2 (ja) * 2000-06-12 2005-07-20 インターナショナル・ビジネス・マシーンズ・コーポレーション データベースからのドキュメントのリトリーブ・ランク付け方法、コンピュータシステム、および記録媒体
WO2002003303A1 (en) 2000-07-05 2002-01-10 Paid Search Engine Tools, L.L.C. Paid search engine bid management
JP4258965B2 (ja) 2000-09-27 2009-04-30 富士通株式会社 キーワード検索と広告を対応させたポイント装置
US20030046389A1 (en) 2001-09-04 2003-03-06 Thieme Laura M. Method for monitoring a web site's keyword visibility in search engines and directories and resulting traffic from such keyword visibility

Also Published As

Publication number Publication date
TW200511038A (en) 2005-03-16
US20040210600A1 (en) 2004-10-21
WO2004095178A2 (en) 2004-11-04
CN1860474A (zh) 2006-11-08
JP2006523899A (ja) 2006-10-19
WO2004095178A3 (en) 2005-01-20
WO2004095178A8 (en) 2006-06-15
US6873996B2 (en) 2005-03-29
EP1616277A2 (en) 2006-01-18

Similar Documents

Publication Publication Date Title
US6873996B2 (en) Affinity analysis method and article of manufacture
US7783617B2 (en) Personals advertisement affinities in a networked computer system
US8676830B2 (en) Keyword recommendation for internet search engines
US6681247B1 (en) Collaborator discovery method and system
CN102859516B (zh) 使用历史搜索结果生成改进的文档分类数据
CN103593392B (zh) 用于生成推荐的方法和系统
US6606619B2 (en) Computer processes for selecting nodes to call to attention of a user during browsing of a hierarchical browse structure
US6466918B1 (en) System and method for exposing popular nodes within a browse tree
US6560588B1 (en) Method and apparatus for identifying items of information from a multi-user information system
US8117216B1 (en) Automated selection of item categories for presenting item recommendations
US20020087526A1 (en) Information search and retrieval system
US20080140641A1 (en) Knowledge and interests based search term ranking for search results validation
US20160179818A1 (en) Determining search result rankings based on trust level values associated with sellers
US20100306249A1 (en) Social network systems and methods
US20090063439A1 (en) System and Method for Efficiently Providing a Recommendation
US20090282038A1 (en) Probabilistic Association Based Method and System for Determining Topical Relatedness of Domain Names
CN1340785A (zh) 以一个平行坐标系可视地分析点击流数据的系统与方法
WO2008111860A1 (en) Intentionality matching
CN1478236A (zh) 自适应目录页面显示
Dias et al. Automating the extraction of static content and dynamic behaviour from e-commerce websites
JP5548900B2 (ja) 複数の属性を利用したWebページ推薦方法
Velásquez et al. Intelligent web site: Understanding the visitor behavior
Trifts et al. Consumers' allocation of cognitive resources in web-based search: an exploratory study
Rao et al. A Survey Report on Extracting Frequent Patterns using FP-Growth Algorithm and Apriori Algorithm
CN114282117A (zh) 一种基于ai的rpa机器人智能推荐方法

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid