KR20090084853A

KR20090084853A - 카테고리화를 통해 호스트 투 게스트 콘텐츠를 자동으로 매칭하기 위한 메커니즘

Info

Publication number: KR20090084853A
Application number: KR1020097009292A
Authority: KR
Inventors: 로렌스 아우
Original assignee: 큐피에스 테크. 리미티드 라이어빌리티 컴퍼니
Priority date: 2006-10-03
Filing date: 2007-10-03
Publication date: 2009-08-05
Also published as: JP2010506308A; WO2008042974A3; JP2013061951A; EP2080120A2; WO2008042974A2; US20080189268A1; CN101606152A; KR101105173B1

Abstract

자동 매칭 메커니즘은 콘텐츠 유닛을 다른 콘텐츠 유닛에 맵핑하는 방법을 포함한다. 그 방법은 게스트 콘텐츠에 요청을 보내는 호스트 디스플레이(200)를 포함한다. 그 방법은 상기 게스트 콘텐츠에 카테고리 콘텐츠 인덱스(107)를 질문하는 단계와; 상기 요청에 대응하는 인덱스되고 카테고리화된 콘텐츠를 제공하는 단계와; 인덱스된 및 카테고리화된 콘텐츠가 새로운 콘텐츠 또는 갱신된 콘텐츠중 어느 하나 인지의 판정에 응답해서 인덱스되고 카테고리화된 콘텐츠를 디스플레이하는 단계를 포함한다. 자동 매칭 메커니즘은 호스트 디스플레이에 대해 게스트 콘텐츠를 매칭하는 방법을 포함한다. 그 방법은 게스트 요청을 프리뷰 매치된 콘텐츠에 보내는 단계와; 상기 게스트 매칭된 콘텐츠에 대해 카테고리 콘텐츠 인덱스에 질문하는 단계와; 상기 의미론적인 콘텐츠 인덱스로부터 카테고리 관련된 의미론 콘텐츠 정보를 모으는 단계와; 상기 게스트 요청을 매칭시키는 카테고리화된 매칭 콘텐츠를 보고하는 단계를 포함한다.

콘텐츠 인덱스, 자동 매칭 메커니즘, 호스트 디스플레이

Description

카테고리화를 통해 호스트 투 게스트 콘텐츠를 자동으로 매칭하기 위한 메커니즘{MECHANISM FOR AUTOMATIC MATCHING OF HOST TO GUEST CONTENT VIA CATEGORIZATION}

본 발명은 인터넷 서치 특히 서치 결과의 콘텐츠 매칭에 관한 것이다.

월드 와이드 웹을 광고하고 참조하기 위해 유사한 콘텐츠를 인터넷상에서 신속하게 매칭하기 위해, 광고주 및 편집인은 손으로 또는 키워드 전후 참조에 의해 전후 참조을 만들어왔다. 신속한 웹 확장하기에 손으로 만든 전후 참조의 무능은 자동화된 키워드 전후 참조에 대해 스포트라이트를 비췄다. 인기있는 전후 참조 키워드의 존재와 함께 서치 엔진으로부터 웹 사이트로의 방문자 트래픽을 증진할 필요성은 웹 사이트 소유자를 고무시켜서 그 워드의 의미가 그 사이트에 실제로 나타나는 지를 그 키워드에 포함한다. 그 가짜 워드는 키워드 전후 참조으로 하여금 인기있는 키워드를 포함하는 사이트에서 주로 거짓의 긍정적인 결과를 생성하게 한다.

상기 단점을 극복하기 위한 하나의 방법에서, 자동 전후 참조의 제조자는 웹 하이퍼-링크를 분석함에 의해 웹 사이트의 실제적인 의미를 추론하기 시도한다. 하이퍼-링크 전후 참조의 인기도는, 그 여분의 하이퍼-링크가 광고 또는 전후 참조 목적의 관계 또는 값의 사이트에 연결 여부와 관련없이, 웹 사이트 소유자를 고무시켜서 그 사이트 및 다른 인기있는 사이트 모두에 하이퍼-링크를 포함하게 한다. 그 가짜의 링크는 하이퍼-링크 전후 참조으로 하여금 그런 방법으로 하이퍼링크되는 인기있는 사이트에 대해 주로 거짓의 긍적적인 결과를 생성한다.

이런 결점을 극복하기 위해, 자동 전후 참조의 제조자는 노력중인 의미론적인 기술을 사용해서 웹 사이트의 실제 의미를 추론한다. 그런 의미론적인 기술은 분류에 포함된 의미론적인 어구에 대해 사이트 콘텐츠를 분류한 후, 유사한 의미론적인 어구를 갖는 사이트를 매칭시키는 것을 포함한다. 그러나, 그 기술의 주요한 제한은 월드 와이드 웹상에서 워드의 어휘 및/또는 구보다 적은 크기로 손으로 제조되는 분류의 커버리지이다.

상기 방식의 또 다른 제한은 하나의 문서에 포함된 적은 의미론적인 어구수로부터 나온다. 그 어구의 일부가 다른 것보다 문서의 필수적인 의미에 두드러진다. 그러나, 분류내에서 그 어구 위치는 실제 문서의 어구가 그 문서의 의미를 가장 잘 표현하는 것을 판정할 수 없다. 결과적으로, 단순 분류를 토대로 한 문서 및 웹 사이트를 매칭하는 Lu의 종래의 교시(미국 특허 7,107,264B2)는 웹 사이트 및/또는 문서를 정확하게 매칭하지 못한다.

웹 사이트 및/또는 문서를 정확하게 매칭하기 위해서는 자동 전후 참조의 제조자에 의해 시도된 하나의 방식이 웹 사이트의 실제 의미를 추론하기 위해 통계학 적인 기술을 사용한다. 예를 들어, 사이트가 다른 사이트로부터 클릭되게 하는 판정하기 위해서는 사이트로부터 하이퍼링크를 거쳐 사이트로 클릭 시퀀스를 추적하도록 시도했었다. 그러나, 그 통계학적인 기술은 2개의 단점을 갖는 데, (1) 간혹 방문하나 그럼에도 불구하고 의미있는 사이트상에서 적은 클릭 샘플 세트를 분석할 수 없는 것; 및 (2) 자주 방문한 사이트의 드문 의미를 분석할 수 없는 것. 이러한 단점은 그 방식을 사용해서 사이트 대 사이트를 매칭시킬때 거짓의 긍정 및 거짓의 부정을 상당히 발생시킨다.

그러므로, 거짓의 긍정 및/또는 거짓의 부정 매칭을 상당히 방지할 목표를 이루기 위해 종래의 기술보다 더 정확한 결과를 생성하는 기술을 사용해서 문서 또는 다른 콘텐트 유닛를 정확하게 매칭할 방법을 필요로 한다.

호스트 투 게스트 콘텐트를 카테고리화를 사용해서 자동 매칭하는 메커니즘의 각종 실시예가 개시된다. 광범위하게 말해서, 특정한 카테고리화 기술을 사용하는, 웹 사이트 또는 문단과 같은 문서 및/또는 다른 콘텐츠 유닛을 정확하게 매칭하는, 메커니즘이 고려된다. 특히, 정확한 카테고리화 기술을 사용함에 의해, 하기 설명했듯이, 콘텐츠 유닛의 두드러진 의미는 다른 콘텐츠 유닛에 정확하게 맵되어, 콘텐츠 유닛을 효과적으로 매칭해서 비슷한 의미를 공유한 다른 콘텐츠 유닛의 뷰를 매칭되는 콘텐츠 유닛으로 제조한다. 카테고리화 매칭은 결과적인 매칭의 더 정확한 매칭 카테고리화에 덧붙여서 제공할수 있다. 또한, 상설된 방법을 사용해서, 카테고리화는 실제 콘텐츠에 의해 발생된 의미론에 걸쳐 이루어져서, 새로운 의미론 어구가 콘텐츠 유닛의 가장 두드러진 어구일 때조차, 카테고리화로 하여금 더 정확하게 된다.

정확한 카테고리화 매칭을 가능하게 함에 의해, 자동 매칭 메커니즘은 모호한 과사용된 키워드보다 오히려 값싼 두드러진 특정 카테고리에 광고주로 하여금 명령을 내리게 하고, 그것의 값은 광고주 오버로딩 명령을 인기있는 키워드에 대해경쟁함에 의해 가격으로 명령내려지고, 그것은 불량한 제품 구별을 제공한다.

자동 매칭 메커니즘은 인터넷 광고 카피로 하여금 더 두드러진 특정 카테고리 구를 포함하게 하고 개선된 카피가 보급을 통해 다른 웹 사이트로 개선된 광고 커버리지를 생성하는 지를 중간 평가할 기회를 제공한다. 가격에서 키워드를 명령하느니 보다 새로운 특정 카테고리 구를 코인함에 의해 광고 커버리지를 광고주로 하여금 개선하게 함에 의해, 자동 매칭 메커니즘은 키워드 광고 인플레이션을 감소시키고 넓은 광고주 그룹에 웹 광고의 실용성을 넓힌다. 자동 매칭 메커니즘은 광고 카피를 키워드로 조절하도록 반드시 고용할 서치 엔진 최적화 전문가없이 소규모 회사로 하여금 그 회사의 광고 카피로부터 자동 분석된 구에 명령을 내림에 의해 제품 및 서비스를 광고하게 한다. 또한, 본 발명의 방법 및 시스템은 키워드 세트를 구매하기 위해 반드시 고용하는 서치 엔진 최적화 전문가를 효과적으로 제거할 수 있다.

일 실시예에서, 자동 매칭 메커니즘은 콘텐트 유닛을 다른 콘텐트 유닛에 맵핑하는 방법을 포함한다. 그 방법은 게스트 콘텐츠에 대한 요청을 보내는 호스트 디스플레이를 포함한다. 그 방법은 카테고리 콘텐츠 인덱스를 게스트 콘텐츠에 대해 질문하고, 그 요청에 대응하는 인덱스 및 카테고리화된 콘텐츠를 제공하는 호스트 사용자 서버도 포함한다. 그 방법은 인덱스된 및 카테고리화된 콘텐츠가 새로운 콘텐츠 또는 갱신된 콘텐츠인지의 판정에 응답해서 인덱스되고 카테고리화된 콘텐츠를 디스플레이하기 위해 제공한다. 또한, 그 방법은 카테고리화된 콘텐츠를 호스트 디스플레이상에 디스플레이한다.

하나의 특정한 구현에서, 그 방법은 인덱스된 및 카테고리화된 콘텐츠가 새로운 콘텐츠 또는 갱신된 콘텐츠중 어느 하나 인지의 판정에 응답해서 인덱스되고 카테고리화된 콘텐츠를 의미론 콘텐츠 인덱스에 추가하는 것을 포함한다. 또한, 그 방법은 콘텐츠 의미론 콘텐츠 인덱스로부터 의미론 콘텐츠 정보에 관련된 카테고리를 모으고 의미론 콘텐츠 정보에 관련된 그 모아진 카테고리를 재-카테고리화한다.

다른 특정한 구현에서, 그 방법은 서치 어구 및 그 서치 어구를 포함하는 질문 요청을 제공하고, 그 서치 어구를 사용해서 데이터 스토어를 서치하고, 그 질문 요청에 대응하는 문서 세트를 선택한다.

다른 실시예에서, 그 자동 매칭 메커니즘은 호스트 디스플레이상에서 사용하기위해 게스트 콘텐츠 매칭을 발생한다. 그 방법은 게스트 요청을 프리뷰 매칭된 콘텐츠에 보내고 카테고리 콘텐츠 인덱스를 게스트 매칭된 콘텐츠에 질문한다. 그 방법은 요청에 대응하는 그 요청되어 인덱스되고 카테고리화된 게스트 콘텐츠를 제공하고 그 인덱스되고 카테고리화된 게스트 콘텐츠를 의미론 콘텐츠 인덱스에 추가한다. 그 방법은 의미론 콘텐츠 인덱스로부터 의미론 콘텐츠 정보에 관련된 카테고리를 모으고 의미론 콘텐츠 정보에 관련된 그 모아진 카테고리를 재-카테고리화한다. 또한, 그 방법은 의미론 콘텐츠 정보에 관련된 재-카테고리화된 카테고리를 추가하고 그 게스트 요청을 매칭하는 카테고리화된 매칭 콘텐츠를 보고한다.

도 1은 콘텐츠 유닛을 다른 콘텐츠 유닛에 자동 매칭하는 메커니즘의 일 실시예도.

도 2는 도 1에 도시된 콘텐츠의 호스트 디스플레이 유닛의 실시예도.

도 3은 도 1에 도시된 게스트 디스플레이의 실시예도.

도 4는 새롭거나 갱신된 호스트 콘텐츠를 인덱싱하고 그 의미론적으로 인덱스된 새롭거나 갱신된 호스트 콘텐츠를 의미론적으로 관련된 콘텐츠와 합병하는 방법의 일 실시예의 흐름도.

도 5는 게스트 콘텐츠의 소유자 또는 제조자에 의해 게스트 콘텐츠의 일부를 콘텐츠의 호스트 유닛에 보급할 뿐만 아니라 그 보급에 지불하기 위해 경쟁적으로 명령을 내리는 방법의 일 실시예의 흐름도.

도 6은 자동 매칭용 메커니즘이 구현될 수 있는 컴퓨터 시스템의 일 실시예도.

도 7은 자동 매칭용 메커니즘이 구현될 수 있는 컴퓨터 시스템의 일 실시예도.

도 8은 자동으로 데이터를 카테고리화하는 방법의 일 실시예의 흐름도.

도 9는 문서를 의미론적인 어구 및 의미론적인 그룹으로 분석하는 방법의 일실시예의 흐름도.

도 10은 최적의 의미론적인 시드 세트를 발견하기 위해 의미론적인 어구를 랭킹하는 방법의 일 실시예의 흐름도.

도 11은 의미론적인 어구를 중심되는 최적의 의미론적인 시트 세트 주위에서 축적하는 방법의 일 실시예의 흐름도.

도 12는 문장을 주어, 동사, 및 목적어구로 분석하는 방법의 일 실시예의 흐름도.

도 13은 문장을 주어, 동사, 및 목적어구로 분석하는 방법의 일 실시예의 흐름도.

도 14는 구 토큰에 있는 의미론 어구를 분석하고, 의미론 어구를 병설한 위치의 인덱스 및 의미론 어구의 인덱스를 출력하는 일 실시예의 흐름도.

도 15는 서치 결과를 4개의 카테고리로 요약하기 위해 웹 페이지의 자동 카테고리화를 사용해서 웹 포털 웹 서치 사용자 인터페이스의 일 실시예도.

도 16은 도 15의 웹 포털 웹 서치 사용자 인터페이스의 실시예의 서치 결과를 예시한 도면.

도 17은 도 15의 웹 포털 웹 서치 사용자의 실시예의 추가 서치 결과의 도면.

도 18은 의미론 네트워크 사전 어휘를 자동 증가시키기 위해 도 8의 자동 카테고리화기의 실시예를 사용하는 방법의 흐름도.

도 19는 새로운 어휘가 서치 엔진 포털에 의해 필요로 되기 직전에 새로운 어휘를 추가하기 위해 도 11에 도시된 자동 증대기(augmenter)를 사용하는 방법의 실시예의 흐름도.

도 1에서, 콘텐츠 유닛을 다른 콘텐츠 유닛에 자동 매칭하는 메커니즘의 실시예를 도시하는 도면이 도시된다. 월드 와이드 웹 및/또는 다른 큰 정보 저장 시스템에서 방대한 콘텐츠량으로 인해, 그런 콘텐츠에 효과적으로 액세스하는 하나의 방식은 정보 처리 구조의 핵심에 인덱스를 사용하는 것이다. 그러나, 콘텐츠-주소지정가능한 메모리와 같은 다른 방식이 예를 들어 그런 콘텐츠에 액세스하기 위해 사용될 수 있다.

그 예시된 실시예에서, 자동 매칭 메커니즘(100)은 적어도 2개의 대규모 인덱스를 사용한다. 2개의 대규모 인덱스중 하나는 콘텐츠 유닛의 콘텐츠(예를 들어, 문서 또는 웹 사이트)에서 실제 문장과 같은, 의미 어구 및 각 어구의 실제 사용법을 설명하는, 의미 콘텐츠 투(to) 사이트(SCS) 인덱스(105)를 예로 한다. SCS 인덱스(105)는 콘텐츠 유닛을 매칭할 때 의미론적인 의미를 카테고리화하기 위해 중앙 저장소에 의해 사용된다. 2개의 대규모 인덱스중 두번째 것은 콘텐츠 유닛을 매칭했던 이전의 카테고리화 결과를 신속히 검색하기 위해 구성된 중앙 인덱스를 구비하는 호스트 투(to) 게스트 콘텐츠(HTGC) 인덱스(107)를 예로 한다. 여럿의 실시예에서 그 인덱스는 우수한 응답 시간 및 확장성을 제공한다. 그런 인덱스는 해시 테 이블보다 양호한 전체 응답 시간을 제공하는 어근 트리 또는 TRIE 트리 구조에서 예를 들어 형성될 수 있다. 특히, 예를 들어, 100,000개의 엘레먼트보다 큰 인덱스 세트에서 더 그렇다. 일 실시예에서 확장성을 이루기위해, 그 인덱스(예를 들어, 105 및 107)는 다수의 서버에 걸쳐 분배될 수 있고, 각 서버가 전체 인덱스의 절단된 서브(sub)-트리 부분을 지지할 수 있고, 각 서브-트리는 다른 분배된 서버상의 다른 서브-트리에 포인트할 수 있다. 인덱스 트래버설(traversal)은, 트리 리프(leaf)이 종결되서야, 서버로부터 리프워드(leafward) 서버로 통과된 패킷을 통해 계산될 수 있다.

또한, 일 실시예에서 사용된 2개의 중앙 인덱스(예를 들어, 105 및 107)는 여분의 바람직하지 않은 인덱스 트래버설도 제거한다. 예를 들어, 미국 특허 제 7,107,264B2("Lu")에서 설명했듯이, Lu는 호스트 콘텐츠를 인덱스된 호스트 콘텐츠 데이터베이스로 디스틸(distill)하기 위해 "디스틸러"의 사용, 및 인덱스된 게스트 콘텐츠 데이터베이스를 질문하는 질문의 연속 구성을 교시한다. Lu는 2개의 트래버설을 연결하기 위해 중간 질문의 구성에 더해서 호스트 콘텐츠 인덱스 및 게스트 콘텐츠 인덱스 모두의 트래버설을 요구한다. 네스트된(nested) 복합 부울 조건을 포함하는 복잡한 질문이 데이터베이스 시스템에 의해 부적당하게 최적화되고, Lu의 교시는 2개의 인덱스를 트래버스함에 의해 프로세서 파워뿐만 아니라 불필요한 질문 조건, 포스팅 및 최적화로 인해 프로세서 파워를 소모한다. 그것은 도 1에서의 SCS 인덱스(105)의 단일 트래버설과 대조적이다. 더구나, 질문 사용에 대한 Lu의 교시는 거짓의 긍정적이고 거짓의 부정적인 결과를 야기하는 데 왜냐하면 복잡한 문서를 에러없이 단일 키워드 질문으로 디스틸하는 것이 실용적이지 못하기 때문이다. 또한, 복잡한 문서를 에러없이 복잡하게 네스트된 부울 질문으로 디스틸하는 것이 실용적이지 못한데, 왜냐하면 네스트된 부울 질문이 의미의 불량한 의미론적인 표현이기 때문이다. 또한, 데이터베이스는 데이터베이스 테이블을 수작업 설계하고 정규화하기 위해 데이터베이스 설계자의 간섭없이 의미론적인 의미를 정확하게 포착할 수 없다. 그러므로 데이터베이스 설계를 토대로 한 질문은 월드 와이드 웹 및 다른 큰 데이터 저장소의 콘텐츠의 대부분인 새롭게 형성된 자연 언어의 의미론적인 의미를 정확하게 검색할 수 없었다.

따라서, 일 실시예에서, 자동 매칭 메커니즘(100)은 SCS 인덱스(105)의 의미론적인 어구 세트를 게스트 투(to) 호스트 캔디데이트 카테고리화 최적화 매쳐(GHCCOM)(106)에 입력으로서 직접 사용함에 의해 질문, 데이터베이스 및 그 관련된 성능 및 의미론적인 제한을 전적으로 피할 수 있다. 콘텐츠내의 각 어구의 실제 사용과 함께 의미론적인 어구 세트는 종래의 통계적인 카테고리화기 또는 하기에 설명된 카테고리화기와 같은 더 정확한 카테고리화기에 의해 카테고리화에서 우수한 베이시스를 제공한다. Lu가 새로운 카테고리의 의미론적인 어구를 자동으로 다룰 수 있는 카테고리화기를 최적화하는 대신에 단순한 분류의 사용을 교시하고, 콘텐츠를 매칭하는 Lu의 "평가기"의 커버리지는 일반적인 월드 와이드 웹 콘텐츠를 매치하기에 일반적으로 불충분하다. Lu는 매우 제한된 환경에서 합리적인 매칭을 수행한다(예를 들어, Lu의 분류는 사전 편찬자로 하여금 손으로 맵핑하기에 충분히 적은 제한된 주제에서 모든 필요한 의미론적인 어구를 커버할때). 도 1의 나머지 블럭이 하기에서 설명된다.

도 2에서, 콘텐츠를 다른 카테고리로 매칭하는 콘텐츠 유닛으로부터 포함하는, 웹 사이트 또는 문서 페이지와 같은, 콘텐츠의 호스트 디스플레이 유닛의 일 실시예가 도시된다. 호스트 디스플레이(200)의 상부 좌측부에는 하부의 주요한 스토리를 갖는 "재방문된 목적의 서브웨이 터널"이 있다. 우측에는 관계 형태에 의해 카테고리화된 관련된 후원 광고가 있다. 호스트 디스플레이(200)의 하부 절반에는 관계 형태에의해 카테고리화되는 관련된 콘텐츠 유닛이 도시된다. 관련된 콘텐츠에 링크로서 헤더를 카테고리에 제공함에 의해, 호스트 디스플레이(200)는 (www.ar owburgers)와 같은 게스트 콘텐츠가 도 2의 호스트 콘텐츠에 왜 관련되는 지를 설명한다. 그러므로, 카테고리화는 게스트 콘텐츠의 독자로 하여금 현재 관심이 없는 과거에 관련된 게스트 콘텐츠를 스킵할 수 있게 한다. 또한, 카테고리화는 사용자가 게스트 콘텐츠를 왜 클릭하는 지를 설명하기 위해 필요한 공간을 압축해서, 가치있는 디스플레이 공간을 호스트 디스플레이상에서 보호한다. 따라서, 카테고리화의 장점을 이루기 위해, 도 1의 GHCCOM(106)의 카테고리화기 기능을 수행하기 위해 하기에서 상세하게 설명된 카테고리화기와 같은 카테고리화기를 사용하는 것이 유용하다.

도 3에서, 게스트 디스플레이의 전형적인 실시예를 도시한 도면이 도시된다. 게스트 디스플레이(300)는 다른 콘텐츠의 소유자 또는 제조자로 하여금 호스트 디스플레이의 콘텐츠 유닛내에서 다른 콘텐츠의 디스플레이 부분을 자동으로 카테고리화할 수 있다. 게스트 디스플레이(300)의 상부에서 <www.bore-maker.com>와 같은 URL(Uniform Resource Locator)을 URL 엔트리 박스(305)에 입력하고 프리뷰 매치 버튼(340)을 누름에 의해, 게스트 콘텐트의 소유자 또는 제조자는 게스트 사용자에 대한 요청을 초기화한다. 도 1 내지 도 3에서 총체적으로, 도 1의 게스트 사용자 인터페이스 서버가 제공된 URL에서 게스트 사이트 콘텐트를 액세스할 수 있다. "스파이더 호울(whole) 사이트" 확인박스(310)를 확인함에 의해, 게스트 사용자 콘텐츠는 동일한 사이트로부터 링크된 콘텐츠 URL의 게스트 사용자 콘텐츠를 또한 액세스할 수 있다. 의미론 카테고리화 인덱서(103)는 예를 들어 SCS 인덱스(105)에서 문장과 같은 의미 및 그 관련된 콘텐츠를 분석 및 저장한 후, 같거나 같은 의미의 엔트리하에서 모든 갱신되고 관련된 엔트리가, 게스트 디스플레이(300)의 스크롤가능한 에리어(315)에서 도시했듯이, GHCCOM(106)에 통과되어 콘텐츠의 호스트 유닛 매칭 및 관계 카테고리를 생성한다. 스크롤바(320)는 길고 가느다란 사각형으로서 우측에 도시된다. 스크롤가능한 에리어(315)의 콘텐츠가 그 디스플레이 길이를 아직 초과하지 않았으므로, 스크롤바(320)가 비어있고, 비활동 상태를 나타낸다. 스크롤가능한 에리어(315)는 자동 매칭 메커니즘(100)에 의해 자동 생성된 매칭 관계의 스냅샷을 제공한다. 스크롤가능한 에리어(315)는 게스트 콘텐츠의 소유자 또는 제조자에게 기회를 제공하기 위해 피드백을 제공하여 콘텐츠를 신속하게 교정한다. 예를 들어, 그 제조자는 용어 및 틀리기 쉬운 문구를 시스템의 소수 변경하고 프리뷰 매치 버튼(340)을 다시 연속해서 눌러서 양호한 커버리지 및 랭킹이 카테고리 어구에 대해 더 높은 호출없이 이루어질 수 있다. 이러한 특징은 광고주로 하여금 광고를 위해 더 많은 돈을 바로 지불하기 보다 그들의 팔 물건을 양호하게 설명함 에 의해 경쟁할 수 있다. 그러한 것으로서, 전자는 판매자를 구매자에 맵핑하는 소사이어티에 총 비용을 감소시키고, 후자는 높은 광고 비용에 여유가 없는 직접적인 판매자의 경제적 가치를 위태롭게하는 동안 광고 비용을 올린다.

일 실시예에서, 이루어진 랭킹을 신속하게 오버뷰하기 위해, 게스트 디스플레이(300)는 각종의 랭킹 카테고리에서 매치수의 히스토그램(350)을 제공한다. 12개 이상의 매치를 포함하는 계산에서 그런 히스토그램을 검토하는 것은 스크롤가능한 에리어에서 매치의 상세한 목록을 통한 스크롤보다 더 쉽다.

게스트 콘텐츠의 소유자 또는 제조자가 매칭 결과에 만족하면, 소유자 또는 제조자는 호출량을 호출 박스(325)에 입력하고 게스트 디스플레이(300)의 하부에서 Submit Your Bid(서브미트 유어 비드) 버튼(330)을 누른다. 대개의 경우에, 제시(submit) 버튼을 누른 후, 소유자 또는 제조자는 호출 박스(325)에 입력되는 호출 비용을 재정적으로 책임져야한다. 그 책임은, 호스트 콘텐츠의 뷰어가 게스트 콘텐츠 링크를 클릭할 때, 클릭에 대해 달러 화폐 단위로 될 것이다. 그러나, 그 책임은 게스트 콘텐츠 링크를 통해 클릭에 거래된 사업의 퍼센티지 베이시스상에서 화폐 단위인 게스트 콘텐츠 링크의 디스플레이당 화폐 단위로 다른 방법중에서 화폐로 정해진다. 일부의 실시예에서, 화폐 단위는 시스템에서 참여자간에 회전된 비-재정적인 권고 단위(예를 들어, 투표와 같은 비 현금값)로 평가의 비-상업적인 방법일 수 있어서, 월드 와이드 웹의 크로스-인덱스에 지원자의 노력을 사용하기 위해 국제적인 의미론적인 웹 노력과 같은 공통 원인에 대한 작업을 증진시킨다.

도 4에서, 새롭거나 갱신된 호스트 콘텐츠를 의미론적으로 인덱싱하고 그 의 미론적으로 인덱스된 새롭거나 갱신된 호스트 콘텐츠를 의미론적으로 관련된 콘텐츠와 합병하는 방법의 일 실시예를 도시하는 흐름도가 카테고리적으로 디스플레이되어 도시된다. 도 1내지 4에서 총체적으로, 도 4의 블럭(405)에서, 호스트 디스플레이(200)는 게스트 콘텐츠에 대한 요청을 호스트 사용자 인터페이스 서버(101)에 보낸다. 호스트 사용자 인터페이스 서버(101)는 호스트를 게스트 카테고리 인덱스(107)에 문의함에 의해 디스플레이 콘텐츠를 페치한다(블럭(415)). 그러나 일시적으로 태그되는 정보가 스킵된다. 호스트 사용자 인터페이스 서버(101)는 호스트 투(to) 게스트 카테고리 콘텐츠 인덱스(107)로부터 인덱스되어 양호한 카테고리화된 캔디데이트 콘텐츠를 수신한다. 호스트 사용자 인터페이스 서버(101)는 그 페치된 디스플레이 콘텐츠가 새롭거나 갱신되는 지를 결정한다. 호스트 디스플레이 콘텐츠가 새롭거나 변화하지 않는 다면(블럭(420)), 호스트 사용자 인터페이스 서버(101)는 호스트에 대한 인덱스된 양호한 게스트 카테고리화된 캔디데이트 콘텐츠를 복귀시킨다(블럭(425)). 호스트 디스플레이(20)는 호스트에 대한 양호한 카테고리화된 캔디데이트 콘텐츠를 디스플레이한다(블럭(430)).

미국 특허 제 7,107,264B2호에서 설명된 Lu의 교시와 달리, 도 1내지 4의 실시예에서 이전에 인덱스된 관련 내용은, 호스트 또는 관련된 게스트 콘텐츠가 의미적으로 변화하지 않는 다면, 재계산되지 않는다. 그것은 도 1의 호스트 사용자 인터페이스 서버(101)로부터의 프로세서 수요를 매우 감소시킨다. 상설된 Lu의 교시와 대조적으로, 도 1 내지 4의 실시예는 질문을 만들지 않거나 콘텐츠로 인덱싱하는 데이터베이스를 포함하지 않아서 자연 언어 의미론을 월드 와이드 웹 또는 다른 대규모 정보 콘텐츠 저장소와 같은 무한한 의미론 영역을 통해 데이터베이스 의미론으로 변환하는 함정을 피한다. 그러나, 호스트 디스플레이 콘텐츠가 새롭거나 변화한다면(블럭(420)), 의미론 카테고리화 인덱서(103)는 호스트 디스플레이 콘텐츠를 이송함에 의해 의미론 콘텐츠를 사이트 인덱스(105)로 갱신한다(블럭(435)). GHCCOM(106)은 그 갱신된 의미론 콘텐츠를 사이트 인덱스 결과로 수신한다(블럭(440)). GHCCOM(106)은 의미론 콘텐츠로부터 카테고리에 관련된 의미론 콘텐츠 사이트를 사이트 인덱스로 모으고 그 결과를 재-카테고리화한다. GHCCOM(106)은 호스트 투 게스트 카테고리 콘텐츠 인덱스(107)를 갱신한다(블럭(445)).

또한, Lu의 교시와 대조적으로, 도 1 내지 도 4의 실시예는 호스트 콘텐츠 영역으로 제한되는 분류를 피한다. 호스트 콘텐츠 영역으로 제한되는 분류의 함정은 그들이 키워드 동의어를 분류에 저장함에 의해 키워드 매칭을 신속하게 고정시킨다는 것이다. 그러나, 그 방식은 키워드가 모호할 때 다수의 거짓 긍정을 발생시킨다. 대부 및 모기지와 같은 인기있는 키워드는 문서에 대해 대개 모호한 반면에 그 참의 의미론적인 의미가 하기에서 설명된 바와 같은 카테고리화 기술을 사용해서 확실해진다. 그러므로, 호스트 콘텐츠 영역으로 제한되는 분류를 사용하는 Lu의 방법은 도 1 내지 도 4의 실시예와 비교시 시기상조이고 에러 발생되는데, 왜냐하면 호스트 및 게스트 콘텐츠의 모든 영역은, 정확한 정확성 및 연속 콘텐츠 매칭이 수행되므로, 고려되야 하기 때문이다. 예를 들어, 재정 증서와 같은 "모기지"의 의미는 "모기지의 미래에 대해"에서와 같은 연설의 수사(修辭)처럼 "모기지"와 다르다. 그 2개의 의미는 호스트 콘텐츠에 의해 암시되고, 그 경우에 2개의 의미가 매 칭 게스트 콘텐츠에 의해 암시되야한다. 게스트 콘텐츠는 게스트 콘텐츠를 분석함에 의해 계산될 수 있으나 호스트 콘텐츠를 분석함에 의해 계산할 수 없는 "근시안"과 같이 "모기지의 미래"에 동의어를 포함할 수 있다. 그러므로, 게스트 콘텐츠 및 호스트 콘텐츠의 모든 의미론적인 화상이 의미론적인 매칭의 베이시스로서 양호하게 기술된 카테고리 기술자(descriptor)를 계산하기 위해 수집 및 최적화되서야,의미론적인 정확성 최적화는 지연되야한다. Lu에서 기술된 바와 같이, 특정화된 분류를 사용하고 호스트 콘텐츠만을 설명함에 의해, 다수의 의미의 의미론적인 콘텐츠 매칭이 적당하게 주소지정될 수 없다.

대조적으로, 하기에서 설명된 바와 같이, 카테고리화 기술을 사용할 때, 도 1의 GHCCOM(106)은 호스트 콘텐츠 및 일반적인 사전 콘텐츠로 의미론적으로 통일되는 예인 실제 게스트 콘텐츠를 사용해서 정확한 의미에 대한 능력을 제공하고, 그것은 호스트 콘텐츠 분류만으로 보다 더 큰 의미론 커버리지 및 보전성을 갖는다. 그것은 다수의 의미가 정확할 필요가 있을 때 특히 의미론 콘텐츠 매칭에 대해 훨씬 더 정확한 베이시스를 발생시킨다.

도 5에서 호스트 콘텐츠 유닛에 대한 게스트 콘텐츠의 일부인 게스트 콘텐츠의 소유자 또는 제조자에 의해 보급하고 그 보급(dissemination)에 대해 지불하기 위해 경쟁적으로 호출하는 방법의 일 실시예를 도시하는 흐름도가 도시된다. 도 1 내지 도 5에서 총체적으로, 호스트 투(to) 게스트 카테고리 콘텐츠 인덱스에서 의도된 호출 엔트리를 지불된 호출 엔트리로부터 구별하기 위해 프리뷰 태그를 사용함에 의해, 하나로 통일된 인덱스가 도 4 및 도 5에서 처리되도록 사용된다. 하나 로 통일된 인덱스는 인덱스에 의해 소요된 공간량을 감소시킨다.

도 5의 블럭(505)에서 개시할 때, 게스트 디스플레이(300)는 프리뷰 매치에 대한 요청을 보낸다. 예를 들어, 상기 설명했듯이, 사용자는 URL을 게스트 디스플레이(300)를 입력하고 프리뷰 매치 버튼(340)을 누른다. 게스트 사용자 인터페이스 서버(108)는 게스트 호출 정보를 게스트 호출 인덱스(113)에 저장한다(블럭(510)). 일 실시예에서, 게스트 사용자 인터페이스 서버(108)는 게스트 호출 정보(111)를 게스트 호출 인덱서(112)에 의해 인덱스된 후 게스트 호출 인덱스(113)내에 저장되도록 업로드할 수 있다. 게스트 사용자 인터페이스 서버(108)는 의미론 콘텐츠에서의 게스트 콘텐츠를 사이트 인덱스(105)에 저장한다(블록(515)). 일 실시예에서, 게스트 사용자 인터페이스 서버(108)는 게스트 사이트 콘텐츠(109)를 의미론 카테고리화 인덱서(110)에 의해 인덱스된 후 의미론 콘텐츠 투(to) 사이트 인덱스(105)내에 저장되도록 업로드할 수 있다. GHCCOM(106)은 그 갱신된 의미론 콘텐츠를 사이트 인덱스 결과로 수신한다(블럭(520)). GHCCOM(106)은 의미론 콘텐츠로부터 사이트 인덱스(105)로 카테고리에 관련된 의미론 콘텐츠 사이트 정보를 모으고 그 수신된 결과를 재-카테고리화한다. GHCCOM(106)은 호스트 투(to) 게스트 콘텐츠 인덱스를 프리뷰 기능에 의해 사용하기 위해 태그된 일시적인 정보로 갱신한다. 상기 설명했듯이, 일 실시예에서, 자동 매칭 메커니즘(100)은 상설했듯이 GHCCOM(106)의 기능성을 사용해서 최적의 카테고리 세트를 생성한다. 각 카테고리는 웹 사이트와 같은 콘텐츠 소스 세트 및 예를 들어 문장과 같은 전형적인 콘텐츠 세트를 포함한다. 호스트 콘텐츠 소스 또는 전형적인 호스트 콘텐츠를 포함하는 카테고리로부터 콘텐츠만을 선택할 때, GHCCOM(106)은 각 호스트에 대해 카테고리화된 게스트 캔디데이트 콘텐츠를 신속하게 생설할 수 있다. 게스트 사용자 인터페이스 서버(108)는 모든 호스트 디스플레이 사이트에 걸쳐 카테고리화된 매치를 보고한다(블럭(530)). 사용자가 제시된 호출 버튼(330)을 누른다면(블럭(535)), 일시적인 태그가 호스트 투(to) 게스트 카테고리 콘텐츠 인덱스내에서 프리뷰 매치 기능에 의해 사용하기 위해 태그된 정보로부터 삭제된다(블럭(545)).

그러나, 사용자가 제시된 호출 버튼(330)을 누르지 않는 다면(블럭(535)), 호스트 투(to) 게스트 카테고리 콘텐츠 인덱스내에서 프리뷰 매치 기능에 의해 사용하기 위해 태그된 정보가 제거되거나 그렇치 않으면 호스트 투(to) 게스트 카테고리 콘텐츠 인덱스(107)로부터 버려진다(블럭(540)).

다른 실시예에서, 통계적인 그룹핑 또는 규칙을 토대로 한 분류 트래버설과 같은 다른 방법이 각 호스트에 대해 카테고리화된 게스트 캔디데이트 콘텐츠를 생성하기 위해 사용된다. 그러나, 상설했듯이, 그 다른 방법은 최적화로 되지 않는다. 예를 들어, 그들은 제한되어 분류된 커버리지의 타고난 결점, 통계학적인 불용어(stopword) 목록에서 원치않거나 소실한 어구, 또는 명사구, 동사구 및 형용사구 레벨보다 오히려 문서 레벨로 분석할 때의 모호성을 야기한다.

일 실시예에서, 각 호스트에 대해 카테고리화된 게스트 캔디데이트 콘텐츠를 소트하기 위해, 하기에서 설명된 것과 유사한 방법이 사용된다. 예를 들어, 하기 설명하듯이, 양호한 캔디데이트 어구가 의미론적인 명사구, 동사구 및 형용사구 레벨 속성에 의해 시드(seed) 어구를 랭킹화함에 의해 선택되는 바와 같이, 유사한 랭킹 방법은 카테고리화된 게스트 캔디데이트 콘텐츠 엘레먼트가 각 호스트 콘텐츠에 대해 양호하다는 것을 부분적으로 판정할 수 있다. 그러나, 그 방법은 제한되어 분류된 커버리지의 타고난 결점, 통계학적인 불용어(stopword) 목록에서 원치않거나 소실한 어구, 또는 명사구, 동사구 및 형용사구 레벨보다 오히려 문서 또는 문장 레벨로 분석할 때의 해결안된 전방 조응(前方照應)의 모호성을 야기한다.

특히, Lu에서 설명된 방법은 호스트 분류시에 부분적으로 토대로 된 서치 파라미터를 사용하고 하기 설명된 카테고리화기와 같은 카테고리화기가 쉽게 검출할 수 있는 새로운 용어에 관려된 정확한 서치 파라미터를 정의하는 어려움에 타고난 모호성을 야기한다. 서치 파라미터는 호스트 또는 게스트 콘텐츠의 의미를 일반적으로 정확하게 정의할 수 없는 데 왜냐하면 그 콘텐츠 자체가 정확한 의미론적인 매칭을 계산할 수 있기 전에 의미론적인 명사구, 동사구 및 형용사구 레벨로 분석되야하기 때문이다. 예를 들어, 대부분의 사람들은 그 책 뒤의 인덱스를 비교하기 보다 책을 실제로 읽고 그들로부터 한 구절을 비교함에 의해 그 의미로 책을 매치를 선호한다. 자동 매칭 메커니즘(100)은 실제적인 콘텐츠를 깊이 분석하고 문장 문법 레벨상에 모아진 실제적인 콘텐츠를 콘텐츠 매칭에 대한 베이시스로서 비교함에 의해 의미론의 인간 이해를 어떻게 근사화하는 지를 개시한다.

대조적으로, Lu는 콘텐츠 표면을 스쳐 지나가기만 하는 서치 파라미터 및 서치 질문을 생성하는 "디스틸러"를 사용하여, 의미의 미해결된 심각한 모호성을 남겨두어 콘텐츠의 표면 레벨 매칭에 타고난 빈번한 거짓 긍정 및 거짓 부정 매치를 연속해서 생성하는 방법을 개시한다. 또한, Lu에 의해 교시된 호스트 분석의 제한 된 커버리지는 월드 와이드 웹과 같은 큰 데이터 저장소의 모든 의미론적인 의미를 커버할 수 없다.

분석 및 매칭용 URL을 호스트 콘텐츠에 단순히 제시하는 대신에, 사용자 게스트는, 언어 확정성을 지지하는 사용자 인터페이스에 의해 지지될 때, 게스트 사용자 서버의 게스트 디스플레이내에서 매치 카테고리를 채트할 수 있다. 매치 카테고리에 대한 채팅은 카테고리 또는 서브카테고리가 매칭 및 호출에 선호되는 것을게스트 사용자로 하여금 특정하게 할 수 있어서, 광고 카피 편집없이 또는 호출 비용 변화없이 더 정확한 대상의 광고에 대한 대안을 제공한다.

도 6에서, 전형적인 컴퓨터 시스템(600)의 실시예는 도시된다. 컴퓨터 시스템(600)은 프로세서(604)와 같은 하나 이상의 프로세서를 포함한다. 프로세서(604)는 통신 하부 구조(606)(예를 들어, 통신 버스, 크로스-바, 또는 기타의 네트워크)에 결합된다. 컴퓨터 시스템(600)은 디스플레이 유닛(630)상에 디스플레이하기 위해 통신 하부 구조(606)로부터(또는 도시 안된 프레임 버퍼로부터) 그래픽, 텍스트, 및 기타의 데이터를 전송하도록 구성되는 디스플레이 인터페이스(602)를 포함한다. 컴퓨터 시스템(600)은 예를 들어 랜덤 액세스 메모리(RAM)과 같은 메인 메모리(608), 및 2차 메모리(610)도 포함한다. 2차 메모리(610)는 예를 들어, 하드 디스크 드라이브(612) 및/또는 플로피 디스크 드라이브, 자기 테이프 드라이브, 광 디스크 드라이브 등으로 표현하는 삭제가능한 저장 드라이브(614)를 포함한다. 삭제가능한 저장 드라이브(614)는 삭제가능한 저장 유닛(618)으로부터 판독하고 그 유닛(618)에 기록한다. 각종의 실시예에서 삭제가능한 저장 유닛(618)은 플로피 디 스크, 자기 테이프, 및 광 디스크 등으로 표현한다. 알 수 있듯이, 삭제가능한 저장 유닛(618)이 컴퓨터로 실행가능한 소프트웨어 및/또는 데이터를 저장할 수 있는 컴퓨터로 사용가능한 저장 매체를 구비한다.

대안의 실시예에서 2차 메모리(610)는 컴퓨터 프로그램 또는 기타의 명령으로 하여금 컴퓨터 시스템(600)으로 로드되게 하는 기타의 유사한 장치를 포함한다. 그 장치는 예를 들어, 삭제가능한 저장 유닛(622) 및 인터페이스(620)를 포함한다. 그 장치의 예는 (비디오 게임 장치에서 발견된 것과 같은)프로그램 카트릿지 및 카트릿지 인터페이스, (전기적으로 삭제가능하여 프로그램가능한 판독 전용 메모리(EEPROM), 또는 프로그램가능한 판독 전용 메모리(PROM)와 같은)삭제가능한 메모리 칩 및 관련된 소켓, 및 기타의 삭제가능한 저장 유닛(622) 및 인터페이스(620)를 포함하여, 삭제가능한 저장 유닛(622)으로부터 소프트웨어 및 데이터로 하여금 컴퓨터 시스템(600)으로 이송되게 한다. 컴퓨터 시스템(600)은 통신 인터페이스(624)도 포함하여, 컴퓨터 시스템(600) 및 외부 장치간에 소프트웨어 및 데이터로 하여금 이송되게 한다. 통신 인터페이스(624)의 예는 모뎀, (에서넷 카드와 같은)네트워크 인터페이스, 통신 포트, PCMCIA(Personal Computer Memory Card International Association) 슬롯 및 카드 등을 포함한다. 통신 인터페이스(624)를 경유해 이송된 데이터 및 소프트웨어는 통신 인터페이스(624)에 의해 수신할 수 있는 전자, 전자기, 광 또는 다른 신호일 수 있는 신호(628) 형태이다. 그 신호(628)는 통신 경로(예를 들어, 채널)(626)를 경유해 통신 인터페이스(624)에 제공된다. 그 통신 경로(626)는 신호(628)를 전송하고 와이어 또는 케이블, 광섬유, 전화선, 셀룰러 링크, 무선 주파수 링크 및/또는 기타의 통신 채널을 사용해서 구현된다. 본 출원에서 "컴퓨터 프로그램 매체" 및 "컴퓨터 사용가능한 매체"라는 용어는 삭제가능한 저장 드라이브(680), 하드 디스크 드라이브(670)에 설치된 하드 드라이브, 및 신호(628)과 같은 매체를 일반적으로 언급한다. 그런 컴퓨터 프로그램 제품은 소프트웨어를 컴퓨터 시스템(600)에 제공한다.

(컴퓨터 제어 논리로 또한 언급되는)컴퓨터 프로그램이 메인 메모리(608) 및/또는 제 2메모리(610)에 저장된다. 컴퓨터 프로그램은 통신 인터페이스(624)를 경유해서 또한 수신된다, 실행시 컴퓨터 프로그램은 본원에서 논의하듯이 컴퓨터 시스템(600)으로 하여금 본 발명의 특징을 수행할 수 있게한다. 특히, 실행시 컴퓨터 프로그램은 프로세서(610)로 하여금 각종의 실시예에서 설명된 특징을 실행할 수 있게 한다. 따라서, 그 컴퓨터 프로그램은 컴퓨터 시스템(600)의 제어기를 표현한다.

실시예에서, 본 발명이 소프트웨어를 사용해서 구현될 때, 그 소프트웨어는 컴퓨터 프로그램 제품에 저장되고 삭제가능한 저장 드라이브(614), 하드 드라이브(612), 또는 통신 인터페이스(620)를 사용해서 컴푸터 시스템(600)으로 로드된다. 프로세서(604)에 의한 실행시 제어 논리(소프트웨어)는 프로세서(604)로 하여금 본원에서 설명했듯이 본 발명의 기능을 실행하게 한다. 다른 실시예에서 본 발명은 ASICs(application specific integrated circuit)과 같은 것을 예로 하는 하드웨어 구성을 사용해서 하드웨어에서 주로 구현된다. 본원에서 설명된 기능을 실행하기 위한 하드웨어 상태 머신의 구현은 관련 기술에 숙련된 자에게는 명백한 것 이고, 본 발명은 하드웨어 및 소프트웨어 모두의 결합을 사용해서 구현된다.

도 7에서, 통신 시스템의 일 실시예의 블럭 다이어그램이 도시된다. 통신 시스템(700)은 (본원에서 하나 이상의 "사용자"로 서로 교대로 언급되는)하나 이상의 액세서(740, 745)와, 725 및 735와 같은 하나 이상의 터미널을 포함한다. 일 실시예에서, 본 발명에 따라 사용하는 데이터가 예를 들어 입력되고/입력되거나 터미널(725 및 735)을 경유해서 액세서(740 및 745)에 의해 액세스된다. 각종 실시예에서, 터미널(725 및 735)은 개인 컴퓨터, 미니컴퓨터, 메인프레임 컴퓨터, 마이크로컴퓨터, 전화 장치와 같은 형태 또는 컴퓨터 터미널, 또는 PDAs 또는 휴대 무선 장치와 같은 무선 장치를 표현한다. 그 터미널은 서버(710)에 결합될 수 있고, 개인 컴퓨터, 미니컴퓨터, 메인프레임 컴퓨터, 마이크로컴퓨터, 또는 데이터용 저장소 및 프로세서 및/또는 데이터용 저장소 및/또는 프로세서에 대한 연결부를 갖는 기타의 장치를 표현한다. 터미널(725 및 735)은 인터넷 또는 인트라넷과 같은 네트워크(705), 및 결합부(715, 720 및 730)를 경유해서 서버(710)와 통신할 수 있다. 결합부(715, 720 및 730)는 유선, 무선 또는 광섬유 링크와 같은 링크 형태를 포함한다.

따라서, 도 7에 도시된 시스템과 같은 네트워크된 환경에서 구현된 실시예는 근거리망 및 인터넷과 같은 네트워크에 걸쳐서 인덱스 및 사용자 인터페이스 디스플레이 모두를 분배하는 분배된 계산 및 저장 자원을 호스트 사용자 인터페이스 서버(101) 및 게스트 사용자 인터페이스 서버(108)로 하여금 이용하게 할 수 있다.

그러나, 자동 매칭 메커니즘(100)은 네트워크된 환경에서 사용되지만, 다른 실시예에서 자동 매칭 메커니즘(100)은 단일 터미널과 같은 독자적인 환경에 동작할 수 있다.

특정한 구현의 상세한 설명

자동 매칭 메커니즘(100)의 각종 기능 블럭의 다수의 구현의 상세한 설명이 상기에서 언급되었다. 예를 들어, 도 1내지 7의 기술과 관련해서, 각종의 실시예가 도 1의 GHCCOM(106)에서 구현될 수 있는 카테고리화기 기능성 및 카테고리화기를 언급한다. 따라서, 다음의 실시예는 상기 설명된 자동 매칭 메커니즘(100)의 각종 기능 블럭에 결합되는 기능성을 설명한다. 도 8에서, 데이터를 자동 카테고리화하는 방법의 일 실시예를 기술하는 흐름도가 도시된다. 그 예시된 실시예에서 질문 요청이 애플리케이션의 사용자와 같은 사람으로부터 발생한다. 예를 들어, 월드 와이드 웹으로의 서치 포털의 사용자는 서치 어구를 사용자 입력을 경유해서 제시하여(블럭(805)), 질문 요청으로 사용된다. 대안적으로, 큰 의학 데이터베이스의 사용자는 의학 절차로 명명하고 그것의 의미가 질문 요청으로 사용된다. 질문 요청은 질문 요청에 대응하는 문서 세트를 교대로 검색하는 의미론 또는 키워드 인덱스에입력된다(블럭(810)).

의미론 인덱스가 사용되면, 질문 요청의 의미론적인 의미가 의미론적으로 관련된 구를 갖는 월드 와이드 웹 또는 기타의 큰 데이터 저장소로부터 문서를 선택할 수 있다. 키워드 인덱스가 사용되면, 질문 요청의 문자 워드가 같은 문자 워드를 갖는 월드 와이드 웹 또는 기타의 큰 데이터 저장소로부터 문서를 선택한다. 물론 상기 설명했듯이, 의미론 인덱스가 키워드 인덱스보다 훨씬 더 정확하다.

그 예시된 실시예에서, 의미론 또는 키워드 인덱스의 출력이 문서 세트이고, URLs와 같은 문서, 또는 그 문서 자체, 또는 문서에 포인터에 의해 모두 태그된 문단, 문장 또는 구와 같은 문서의 적은 부분에 대한 포인터 목록일 수 있다. 문서 세트는 의미론 분석기(815)에 입력되고, 그 문서 세트를 생성하는 의미론 인덱스가 이미 행해지지 않는다면, 문서 세트의 데이터를 의미있는 의미론적인 유닛으로 분할한다. 의미있는 의미론적인 유닛은 문장, 주어구, 동사구 및 형용사구를 포함한다.

도 9에 도시했듯이, 문장 분석기(815)가 도시된다. 문서 세트를 문장 분석기 블럭(905)을 통해 우선 통과함에 의해, 그 문서 세트가 "?",".","！"와 같은 문장 끝 구두를 보아서 각 문장으로 우선 요약될 수 있고 개행 문자를 2배로 되게 한다. 문장 분석기(905)는 문서에 포인터에 의해 태그된 각 문장을 출력해서, 문서 문장 목록을 생성한다.

도 12에 도시했듯이, 의미론적인 네트워크 사전, 동의어 사전 및 품사 사전이 문장을 적은 의미론적인 유닛으로 분석하기 위해 사용될 수 있다. 각 문장에 대해, 캔디데이트 어구 토크나이저(tokenizer)는 가능한 하나, 둘 및 셋의 워드 토큰를 찾음으로써 각 문장내의 가능한 토큰을 계산한다(블럭(1205)). 예로서, 문장 "time flies like an arrow"은 "time", "flies", "like", "an", "arrow", "time flies", "flies like", "like an", "an arrow", "time flies like", "flies like an", "like an arrow"의 캔디데이트 토큰으로 변환될 수 있었다. 캔디데이트 어구 토크나이저는 문장을 생성하고 문서를 생성함에 의해 태그된 문서-문장-캔디데이트 -토큰-목록을 생성한다. 문장 단위로, 동사구 로케이터는 품사 사전에서 캔디데이트 토큰을 조사하여 가능한 캔디데이트 동사구를 발견한다(블럭(1210)). 구 로케이터는 문장을 생성하고 문서를 생성함에 의해 태그된 문서-문장-캔디데이트-토큰-목록을 생성한다. 그 목록은 캔디데이트 컴펙트성 계산기에 의해 조사되고(블럭(1215), 동의어 사전 및 의미론적인 네트워크 사전에서 캔디데이트 토큰을 조사하여 각 문장에 대해 경쟁하는 각 캔디데이트 동사구의 컴펙트성을 계산한다. 각 캔디데이트 컴펙트성은 같은 문장, 또는 서로에 대해 동사구 토큰의 병설 거리, 또는 같은 문장의 프럭시 동의어에 대한 병설 또는 의미론적인 거리에서 동사구 캔디데이트로부터 다른 구로의 의미론적인 거리 결합일 수 있다. 캔디데이트 컴펙트성 계산기는 각 캔디데이트 동사구가 컴펙트성 넘버에 의해 태그되고 문장을 생성하고 문서를 생성함에 의해 태그되는 문서-문장-컴펙트성-캔디데이트-동사구-캔디데이트-토큰-목록을 생성한다.

문서-문장-컴펙트성-캔디데이트-동사구-캔디데이트-토큰-목록은 각 문장에 대해 가장 의미론적으로 컴펙트성을 경쟁하는 캔디데이트 동사구를 선택하는 캔디데이터 컴펙트성 랭커에 의해 분석검토된다(블럭(1220). 캔디데이터 컴펙트성 랭커는 각 문장에 대해 동사구에 앞서고 추종하는 명사 및 형용사로부터 주어구 및 목적어구를 생성하여, 문장을 생성하고 문서를 생성함에 의해 태그된 구 토큰의 문서-문장-SVO-구-토큰-목록을 생성한다.

도 9에서, 문서-문장-SVO-구-토큰-목록이 전방 조응 해상력 분석기(915)에 입력된다. 하나의 문장의 기본적인 의미가 전방 조응을 통해 연속 문장에 연결되므 로, 의미의 클러스터를 카테고리화 하기 전에 전방 조응을 링크하는 것이 중요하다. 예를 들어"아브라함 링컨은 남북 전쟁동안 대통령이었다. 그가 해방 선언문을 작성했다"는 "아브라함 링컨은 해방 선언문을 작성했다"는 것을 의미한다. 전방 조응 단어 "그"를 "아브라함 링컨"에 링크하는 것은 그 함축성을 결정한다. 도 6에서, 전방 조응 토큰 검출기는 품사 사전을 사용해서 그, 그녀, 그것, 그들을, 우리, 그들과 같은 전방 조응 토큰을 조사한다. 전방 조응 토큰 검출기는 문서, 문장, 주어, 동사, 또는 목적어구를 생성함에 의해 태그된 전방 조응 토큰의 문서-문장-SVO-구-전방 조응-토큰-목록을 생성한다. 전방 조응 링커는 그 미결정된 전방 조응을 최근접한 주어, 동사 또는 목적어구에 링크시킨다. 미결정된 전방 조응의 링킹은 같은 문장에서 전방 조응 토큰으로부터 다른 구로의 의미론적인 거리, 또는 같은 문장에서 전방 조응 토큰으로부터 다른 구로의 병설 거리, 또는 앞서고 추종하는 문장에서 병설 위치 또는 의미론적인 거리의 결합일 수 있다.

전방 조응 링커는 전방 조응적으로 링크된 문장-구-토큰에 의해 태그된 구 토큰의 문서-링크된-문장-SVO-구-토큰-목록을 생성한다.

문서-링크된-문장-SVO-구-토큰-목록이 주제 어구 인덱서(920)에 입력된다. 주제 어구 인덱서는 문서-링크된-문장-SVO-구-토큰-목록에서 각 구 토큰을 통해 루프하여, 구 토큰의 철자를 의미론적인 어구 인덱스에 기록한다. 주제 어구 인덱서는 전방 조응해서 링크된 문장-구-토큰에 포인트해서 구 토큰의 철자를 기록하여, 의미론적인 어구-그룹 인덱스에서 문장을 생성하고 문서를 생성한다. 의미론적인 어구-그룹 인덱스 및 의미론적인 어구 인덱스 모두가 주제 어구 인덱서로부터 출력 으로서 통과된다. 메모리를 절약하기 위해, 의미론적인 어구-그룹 인덱스는 의미론적인 어구 인덱스를 대신하여 서비스할 수 있어서, 통과되면 하나만의 인덱스가 주제 어구 인덱서의 출력으로 된다.

도 8로 되돌아가서, 사용자로부터의 의미론적인 어구 인덱스, 의미론적인 어구-그룹 인덱스 및 지시어 어구가 시드 랭커(820)에 입력으로서 통과된다. 지시어 어구가 시드 랭킹 프로세스에 특정한 의미를 갖는 자동 데이터 카테고리화기를 호출하는 자동 프로세스 또는 사용자 입력으로부터 어구를 포함한다. 특정한 의미는 시드 랭킹 프로세스인 의미론적인 시드로서 포함되야 하는 어구 또는 시드 랭킹으로 부터 어구가 배제되도록 포함한다. 예를 들어, 사용자는 "렌탈"이 배제되고 카테고리를 형성하는 의미론적인 시드 어구에 "하이브리드"를 포함하도록 한다.

도 10에서, 시드 랭커 흐름도가 지시어 어구, 의미론적인 어구 및 의미론적인 어구 인덱스 및 의미론적인 어구-그룹 인덱스의 입력이 선택적으로 이격된 시드 어구에 어떻게 계산되는 지를 도시한다. 지시어 인터프리터는 "렌탈 안되나 하이브리드됨(Not rental but hybrid)"과 같은 입력 지시어 어구를 얻어서 "Not" 및 "but"의 마커를 분석해서 "렌털"의 차단된 어구 목록 및 "하이브리드"의 요구된 어구 목록을 생성한다. 그 분석이 키워드 베이시스, 동의어 베이시스로 또는 의미론적인 거리 방법에 의해 행해질 수 있다. 키워드 베이시스로 분석이 신속하게 이루어지나, 동의어 베이시스로는 정확하지 않다. 동의어 베이시스로 행해지면, 그 분석이 신속하나 의미론적인 거리 베이시스로 행해질 때 보다 정확하지 않다.

그 차단된 어구 목록, 의미론적인 어구 인덱스 및 정확한 결합 크기가 어구 결합기 및 차단기(1010)에 입력된다. 정확한 결합 크기가 캔디데이트 결합에서 시드 어구수를 제어한다. 예로서, 의미론적인 어구 인덱스가 N개의 어구를 포함하면, 가능한 2개의 어구 결합수가 N배 N-1로 된다. 가능한 3개의 어구 결합수가 N배(N-1) 배(N-2)로 된다. 계속해서, 본 발명의 단일 프로세서 구현은 2또는 3과 같은 적은 수로 정확한 결합 크기를 제한한다. 병렬 처리 구현 또는 매우 신속한 단일 프로세서가 더 정확한 결합 크기로 모든 결합을 계산한다.

어구 결합기 및 차단기(1010)는 허용가능한 의미론적인 어구 결합의 포함으로부터 차단된 어구 목록에서 차단된 어구를 방지한다. 어구 결합기 및 차단기(1010)는 허용가능한 의미론적인 어구 결합의 결합에서 다른 어구와 참여하는 것으로부터 차단된 어구도 방지한다. 어구 결합기 및 차단기(1010)는 허용가능한 의미론적인 어구 결합을 출력으로서 생성한다.

허용가능한 의미론적인 어구 결합, 요구된 어구 목록 및 의미론적인 어구-그룹 인덱스가 캔디데이트 정확한 시드 결합 랭커(1015)에 입력된다. 본원에서 각 허용가능한 의미론적인 어구 결합이 그 어구 결합의 균형화된 바람직함을 계산하기 위해 분석된다. 균형화된 바람직함은 바람직하지 않게 결합된 어구의 전체 밀폐에 대해 바람직하게 결합된 어구의 전체 보급을 고려한다.

그 전체 보급은 의미론적인 어구-그룹 인덱스의 구내에서 결합된 어구와 병설된 피어(peer)-어구로 불리우는 구별된 어구수를 카운트함에 의해 계산된다. 약간 더 정확한 전체 보급 측정은 보급수의 구별된 피어-어구와 병설된 다른 구별된 어구수도 포함한다. 그러나, 이러한 개선책은 동의어를 의미론적으로 맵핑하고 그 들을 피어-어구에 포함하는 바와 같이 같은 종류의 유사한 개선점으로서 값비싸게 계산된다. 전체 보급의 다르게 신속하게 계산된 측정은 결합된 어구를 문서 세트내에 생성하는 전체 횟수와 같이 사용될 수 있으나, 그 외의 측정은 의미론적으로 덜 정확하다.

결합된 어구가 전체 밀폐가 2개 이상의 결합된 시드 어구와 병설된 어구인 무시된 어구로 불리우는 구별된 어구수를 카운트함에 의해 일반적으로 계산된다. 그 무시된 어구는 시드 어구가 의미에서 실제로 충돌하는 표시이다. 무시된 어구가 결합된 보급을 계산하기 위해 사용될 수 없고 결합을 위해 전체 보급의 상기 계산에서 피어-어구 세트로부터 배제된다.

어구 결합의 균형화된 바람직함은 그 전체 밀폐에 의해 분할된 전체 보급이다. 필요하다면, 그 공식이 비-선형 방법으로 보급 또는 밀폐에 알맞도록 조절될 수 있다. 예로서, 데이터베이스 테이블과 같은 문서 세트가 각 문장에서 적은 수의 구별된 어구를 가져서, 적은 값의 보급이 밀폐와 균형을 이루기 위해 상승할 필요가 있다. 그런 경우에, 그 공식은 전체 밀폐에 의해 분할된 전체 보급 배 전체 보급일 수 있다.

시드 어구의 균형화된 바람직함을 계산하는 예에서, 문서의 문장내에 자주 병설되는 가스/하이브리드 및 "하이브리드 전기"의 의미론적인 어구가 키워드 또는 의미론적인 인덱스에 의해 "하이브리드 카"상에서 생성한다. 그러므로, 2인 정확한 결합 크기가 가스/하이브리드 및 "하이브리드 전기"의 허용가능한 의미론적인 어구 결합을 생성하나 "하이브리드 기술" 및 "메인스트림 하이브리드 카"와 같은 그 구 성 어구들간에 충돌이 있다. 시드 의미론적인 어구들간에 공유되어 병설된 어구가 무시된 어구 목록으로서 출력된다. 무시된 어구가 아니라 개별적인 시드의 의미론적인 어구와 병설되는 병설된 어구가 시드 단위의 기술자 어구 목록으로서 출력된다. 양호하게 랭크된 허용가능한 의미론적인 어구 결합에서 시드의 의미론적인 어구가 최적 이격된 의미론적인 시드 결합으로서 출력된다. 입력으로 허용가능한 의미론적인 어구 결합으로부터 모든 다른 의미론적인 어구가 허용가능한 의미론적인 어구 목록으로서 출력된다.

충분히 계산된 자원이 최적 이격된 시드 어구의 바람직한 수와 같은 정확한 결합 크기와 계산하기 가능한 본 발명에서, 상기 출력이 시드 랭커로부터의 최종 출력이고, 도 10에서 캔디데이트 근사 시드 랭커(1020)의 모든 계산을 스킵하고 무시된 어구 목록을 통과시키고, 허용가능한 의미론적인 어구 목록, 시드 단위의 기술자 어구 목록 및 최적 이격된 의미론적인 시드 결합이 캔디데이트 정확한 시드 결합 랭커(1015)로부터 직접 출력된다.

그러나, 본 발명의 대부분의 구현은 캔디데이트의 정확한 시드 결합 랭커(1020)를 2이상의 정확한 결합 크기로 계산하기 위해 자원을 충분히 계산하지 못한다. 결과적으로, 캔디데이트 근사 시드 랭커(1020)가 4 또는 5이상의 시드 어구의 큰 시드 결합을 생성하는 데 필요로 된다. 도 10에 도시된 바와 같이, 추가의 시드를 찾기 위한 양호한 앵커 포인트를 형성하기 위해 2 또는 3개의 시드 어구의 최적 세트를 이용할 때, 적은 최적의 시드를 필요로 한다. 캔디데이트 근사 시드 랭커(1020)가 최적 이격된 의미론적인 시드 결합, 허용가능한 의미론적인 어구, 시 드 단위의 기술자 어구 및 무시된 어구를 입력으로 한다.

캔디데이트 근사 시드 랭커(1020)가 어구 단위로 허용가능한 의미론적인 어구 목록에 확인하고, 캔디데이트 어구를 탐색하고 최적 이격된 의미론적인 시드 결합에 그 캔디데이트 어구를 추가하는 것은 캔디데이트 어구에 병설된 새롭게 구별된 어구에 대응하는 추가의 피어 어구를 포함하는 새로운 전체 보급과, 새로운 밀폐에 의해 가장 크게 균형화된 바람직함을 가질 수 있고, 기존의 최적 이격된 의미론적인 시드 결합 및 캔디데이트 어구간의 병설된 어구 충돌을 포함한다. 가장 양호한 새로운 캔디데이트 어구를 선택하고 그것을 최적 이격된 의미론적인 시드 결합에 추가한 후, 캔디데이트 근사 시드 랭커(1020)가 가장 양호한 캔디데이트 어구의 피어-어구와 함께 새롭게 증가된 시드 단위의 기술자 어구 목록을 저장하고, 기존의 최적 이격된 의미론적인 시드 결합 및 가장 양호한 어구간의 어구 충돌과 함께 새롭게 증가되어 무시된 어구 목록을 저장하고, 새롭게 무시된 어구 목록 또는 시드 단위의 기술자 어구 목록의 어구를 없애는 적은 수의 허용가능한 의미론적인 어구 목록을 저장한다.

캔디데이트 근사 시드 랭커(1020)를 통한 시스템 루프는 목표 시드 카운트에 도달해서야 시드 어구를 축적한다. 목표 시드 카운트에 도달할 때, 현재의 무시된 어구 목록, 허용가능한 의미론적인 어구 목록, 시드 단위의 기술자 어구 목록 및 최적 이격된 의미론적인 시드 결합이 도 10의 시드 랭커의 최종 출력으로 된다.

도 8은 의미론적인 어구-그룹 인덱스와 함께 도 10의 시드 랭커(1000)의 출력들이 카테고리 축적기(825)에 입력으로 통과되는 것을 도시한다. 도 11은 도 8의 카테고리 축적기(825)와 같은 카테고리 축적기(1100) 계산의 흐름도이다. 카테고리 축적기(1100)의 목적은 최적 이격된 의미론적인 시드 결합의 각 시드에 대해 존재하는 기술자 어구의 목록을 더 많게 한다. 시드 단위의 기술자 어구가 도 10의 시드 랭커에 의해 최적 이격된 의미론적인 시드 결합의 각 시드에 대한 목록에서 출력되지만, 허용가능한 의미론적인 어구 목록이 특정 시드에 속하는 의미론적인 어구를 일반적으로 포함한다.

그 속하는 의미론적인 어구를 알맞은 시드의 시드 단위의 기술자 어구 목록에 추가하기 위해, 카테고리 축적기(1100)는 의미론적인 어구-그룹 인덱스의 구내에서 허용가능한 어구와 병설된 어구 보급 명령에서 허용가능한 의미론적인 어구를 명령하고, 거기에서 어구 보급이 피어-어구로 불리는 구별된 어구수를 카운트함에 의해 계산된다. 약간 더 정확한 어구 보급 측정은 보급 번호의 구별된 피어-어구와 병설된 다른 구별된 어구의 수도 포함한다. 그러나, 그 개선책은 동의어를 의미론적으로 맵핑하고 그들을 피어-어구에 포함하는 바와 같이 동종의 유사한 개선책과 같이 값비싸다. 다르게 계산해서 신속하게 측정한 어구 보급은 허용가능한 어구가 문서 세트내에서 발생하는 전체 횟수와 같이 사용될 수 있으나 그 다른 측정이 의미론적으로 덜 정확하게 된다.

카테고리 축적기(1100)는 하나의 허용가능한 어구를 한 번에 작업하기 위해 허용가능한 의미론적인 어구의 명령된 목록을 트래버스한다. 캔디데이트의 허용가능한 어구가 단 하나의 시드의 시드 기술자 어구와 함께 의미론적인 어구-그룹의 구내에서 병설하면, 캔디데이트의 허용가능한 어구가 그 시드의 시드 단위의 기술 자 어구 목록으로 이동된다. 그러나, 캔디데이트의 허용가능한 어구가 하나 이상의 시드의 시드 단위의 기술자 어구 목록과 함께 의미론적인 어구-그룹내에 병설되면, 캔디데이트의 허용가능한 어구가 무시된 어구 목록에 이동된다. 캔디데이트의 허용가능한 어구가 시드없는 시드 기술자 어구와 함께 의미론적인 어구-그룹의 구내에 병설되면, 캔디데이트의 허용가능한 어구가 단독의 어구이고 캔디데이트의 허용가능한 어구로부터 간단히 제거된다.

카테고리 축적기(1100)는 그 명령된 허용가능한 의미론적인 어구를 통해 루프되어, 그들을 삭제하거나, 모든 허용가능한 의미론적인 어구가 고갈되고 허용가능한 의미론적인 어구 목록이 빌 때까지, 그 무시된 어구 목록 또는 시드 단위의 기술자 어구 목록들중 하나에 그들을 이동시킨다. 시드 단위의 기술자 어구를 기여하지 않는 의미론적인 어구-그룹이 허용가능한 의미론적인 어구 목록으로부터 삭제되는 허용가능한 의미론적인 어구로 구성되는 다른 기술자 어구를 갖는 "다른..." 카테고리에 속하는 것으로 카테고리화 될 수 있다.

최종 출력으로서, 카테고리 축적기(100)는 최적 이격된 의미론적인 시드 결합의 각 시드 어구를 대응하는 시드 단위의 기술자 어구 목록과, 문서, 문장, 주어, 동사 또는 목적어구와 같은 문서 세트의 의미론적인 어구-그룹 인덱스로부터 대응하는 사용 위치 목록으로 패키지화한다. 그 출력 패키지는 카테고리 축적기(1100)의 출력인 카테고리 기술자로 불리운다.

본 발명의 다양한 변형예는 축적된 명령으로 시드 단위의 기술자 어구 목록을 유지한다. 나머지는 상기 정의했듯이 보급 명령에 의해 또는 지시어 어구에 대 한 의미론적인 거리에 의해 또는 사용자 인테페이스 필요에 의해 자동 카테고리화기를 호출하는 애플리케이션의 사용자에 의해 바람직하듯이 알파벳에 의해 시드 단위의 기술자 어구 목록을 분류한다.

도 8에서, 카테고리 기술자가 사용자 인터페이스 장치(830)에 입력된다. 사용자 인터페이스 장치(830)는 웹 서치 애플리케이션, 채트 웹 서치 애플리케이션 또는 셀 폰 채트 웹 서치 애플리케이션과 같은 애플리케이션을 사용하는 사람에게 의미있는 카테고리로서의 카테고리 기술자를 디스플레이하거나 구두로 전달한다. 도 15는 사용자 입력용으로 상부 좌측에 있는 박스로 된 웹 서치 애플리케이션과, 상부 우측에 사용자 입력 처리를 초기화하는 서치 버튼과, 그들 하부에 사용자 입력 처리 결과를 도시한다. 사용자 입력용 박스는 사용자 입력으로서 "카"를 도시한다. "카"로부터의 서치 결과가 "렌탈 카", "새로운 카", "사용자 카"의 시드 어구로서 디스플레이된 3개의 카테고리로 도시된다. 그 3개의 시드 어구 시드 단위의 기술자 어구 목록에 기여하지 않는 문서 및 그들의 의미론적인 어구-그룹이 "나머지..." 카테고리하에서 요약된다.

도 16은 "일별" 및 "달별"의 서브카테고리를 감추기 위해 개방되어 클릭된 "렌탈 카"의 삼각형 아이콘으로 도 15의 사용자 인터페이스 장치를 도시한다. 유사하게 디스플레이된 서브카테고리는 카테고리의 시드 단위의 기술자 어구 목록에서 많이 보급된 어구로부터 또는 "렌탈 카" 카테고리에 대해 카테고리 기술자에 의해 포인트된 문서 세트의 서브세트상에 자동 데이터 카테고리화기를 재동작시킴에 의해 선택될 수 있다.

도 17은 그 웹 사이트 URLs에 대해 개별적인 웹 사이트 URLs 및 가장 양호한 URL 기술자를 도시하기 위해 개방되어 클릭된 "중고차"의 삼각형 아이콘으로 도 15의 사용자 인터페이스 장치를 도시한다. "중고차"와 같은 카테고리가 "중고차" 카테고리에 대한 카테고리 기술자에 의해 포인트된 소수의 웹 사이트만을 가질 때, 사용자가 그들 모두를 한번에 보기 원하거나 전화 사용자 인터페이스 장치의 경우에 사용자가 음성 합성기에 의해 소리높게 판독하듯이 그들 모두를 한 번에 듣길 원한다. 가장 양호한 URL 기술자는 "중고차" 카테고리에 대한 카테고리 기술자에 의해 포인트된 가장 널리 보급된 어구로부터 선택된다. 2개 이상의 널리 보급된 어구가 가장 널리 보급된 것으로 묶여지는 경우에, 그들이 함께 연관되어 "판매자 보증"과 같은 합성 어구로서 음성 합성기에 의해 디스플레이되거나 소리높게 읽혀진다.

도 18은 의미론적인 네트워크 사전을 자동 증가시키는 방법의 고 레벨 흐름도를 도시한다. 기존의 의미론적인 네트워크 사전의 중대한 결점중 하나가 수작업 사전에 의해 기능하는 불충분한 의미론적인 커버리지이다. 애플리케이션 사용자와의 대화를 통해 의미론적인 네트워크 대화를 증가시키는 방법이 있다. 그러나, 그 애플리케이션의 품질은 의미론적인 네트워크 사전의 기존의 의미론적인 커버리지에 따른다.

힘든 부트스트랩핑 구에 대해 주어 사용자라기 보다 그동안 사용자는 블럭의 기본적인 의미론적인 어구를 만들고, 대화를 통해 어휘 사전을 정의하는 것에 대해 진지하게 대화하여야하고, 최종 사용자 애플리케이션이 그것에 대해 지능적으로 대 화할 어휘를 요구한다. 사용자의 대화 입력을 얻고, 그것을 질문 요청으로서 의미론 또는 키워드 인덱스에 처리함에 의해, 그 질문에서 발생하는 문서 세트가 도 8의 자동 데이터 카테고리화기를 통해 동작한다. 그 동작의 카테고리 기술자들은 디화적으로 사용자에 응답하기 전에 사용자의 대화 입력에 연관된 의미론적으로 정확한 어휘의 자동 구성을 지시하기 위해 사용된다. 그러므로, 그 응답은 사용자의 대화 입력의 수신 전에 의미론적인 네트워크 사전에 존재하지 않은 어휘를 이용한다. 그러므로, 지능적인 응답에서 발생된 어휘가 블럭의 기본적인 의미론적인 어구를 만드는 것에 대해 진지한 대화를 할 수 있다. 예를 들어, 사용자의 대화 입력이 하이브리드 카를 언급하고 의미론적인 네트워크 사전이 가스-전기 또는 "하이브리드 전기" 용어에 대한 어휘를 갖지 않으면, 그 용어는 "하이브리드 카"에 대해 사용자와 대화를 계속하기 전에 의미론적인 네트워크 사전에 자동으로 신속하게 추가될 수 있다.

도 18은 질문 요청 또는 어구의 입력을 얻어서 사전에 "하이브리드 카"를 추가시키고 도 8의 방법을 통해 보내고, 그것은 대응하는 카테고리 기술자를 복귀시킨다. 카테고리 기술자의 각 시트 어구가 "하이브리드 카"에 대한 다양한 의미를 정의하기 위해 사용될 수 있다. 예를 들어, 시드 어구는 사전 편찬자가 "도요타 하이브리드", "혼다 하이브리드" 및 "연료 전지 하이브리드"와 같은 의미로 무엇을 정의하는 지가 부정확하고, 그 각 시드 어구가 "하이브리드 카"의 개별적인 분리된 다양한 의미의 노드에 의해 타고나도록 같은 철자의 의미론적인 네트워크 노드를 발생시킬 수 있다. 도 18의 다양한 의미의 노드 발생기는 그 노드를 만든다. 그후 에, "하이브리드 카"의 개별적인 분리된 다양한 의미의 노드의 의미가 "하이브리드 카"의 개별적인 분리된 다양한 의미의 노드의 타고난 어구로서 링크되는 각 기술자 어구로써 의미론 또는 키워드 인덱스를 재-질문함에 의해 사전 편찬자가 인식하듯이 더 정의될 수 있다. 예로서, "오요타 하이브리드"는 "하이브리드 시스템", 하이브리드 렉서스" 및 "도요타 프리우스"와 같은 "도요타 하이브리드"를 설명하는 생성된 카테고리 기술자 시드 어구에 도 8의 방법에 대한 입력으로서 사용된다. 도 18의 고유한 노드 발생기는 의미론적인 네트워크 사전에 없다면 그 철자의 노드를 만들고, 그들을 링크시켜서 "도요타 하이브리드"를 설명하기 위해 만들어진 "하이브리드 카"와 같은 대응하는 개별적인 분리된 다양한 의미의 노드에 의해 그들로 하여금 물려받아지게 한다.

의미론적인 네트워크 어휘를 자동 발생시키는 하나의 장점은 노드에 대한 최신의 의미 및 낮은 노동 비용이다. 대다수의 노드가 만들어지지만, 같은 철자의 노드가 없거나 형태론을 통해 연관된 같은 철자가 이미 존재하는 후에도(카에 관련된 카와 같은), 각종의 방법은, 2개의 노드가 동일한 의미론적인 의미를 필수적으로 가질 때, 하나의 노드를 다른 노드로 대체함에 의해 의미론적인 네트워크를 나중에 단순화하기 위해 사용될 수 있다.

도 19는 대화적인 사용자 인터페이스에 배치된 도 18의 방법을 도시한다. 애플리케이션 사용자로부터 오는 입력 질문 요청은 도 18의 방법에 입력으로서 사용되어 의미론적인 네트워크 사전을 자동 증가시킨다. 도 18의 방법에 의해 발생된 의미론적인 네트워크 노드는 서치 엔진 웹 포털 또는 서치 엔진 채터보트에 의해 사용된 대화 또는 의미론적인 서치 방법을 토대로 한 의미론적인 네트워크 사전에 결합한다. 서치 엔진 웹 포털 또는 서치 엔진 채터보트는 사용자가 무엇을 실제로 요청하는 지를 의미론적인 견해로부터 양호하게 이해하기 위해 의미론적인 네트워크 사전에서 사용자 요청을 조사한다. 상기 방법에서, 웹 포털은 서치 요청내에 우연히 철자화되는 키워드에 대응하는 여분의 데이터 검색을 방지할 수 있다. 예를 들어, 키워드 엔진에 통과된 "토큰 칭찬"은 "그 기념관이 토큰 칭찬을 오래 잊었던 시간을 길게 지속시킨다"와 같은 바람직한 문장을 복귀할 수 있다. 그러나, "토큰 칭찬"의 의미에 관련된 어휘를 소실한 키워드 엔진 또는 의미론적인 엔진이 어린이 행동 충고 "토큰으로 표현된 동사쌍 칭찬" 및 "칭찬:광고되는 대로 신속하게 선적되고 정확하게 판매되는 토큰 및 동전..."의 토큰 상인 고객 검토와 같은 여분의 문장을 복귀시킨다. 도 19에 개시된 바와 같은 어휘 증가에 의해, "토큰 칭찬" 및 다른 복잡한 의미론적인 용어의 의미가 의미론적인 사전에 추가될 수 있어서 서치 결과로부터 여분의 데이터를 다른 방법을 사용해서 삭제한다. 추가해서, 도 19에 개시된 바와 같은 어휘 증가는 더 정확하게 연관한 의미론적인 동의어 및 의미론적으로 관련한 철자에 의해 연속 자동 카테고리화를 더 정확하게 하여 의미의 병설이 의미의 보급을 계산할 때 정확하게 검출될 수 있다. 의미론적인 동의어 및 의미론적으로 관련한 철자의 더 정확한 연관성은 병설된 철자를 토대로 할 뿐만 아니라 병설된 동의어 및 병설된 밀접하게 관련된 의미상에서 기술자 어구 및 무시된 어구에 의해 도 10의 시드 단위의 기술자 어구 및 무시된 어구의 더 정확한 검출을 가능하게 한다.

상설된 실시예는 하드웨어, 소프트웨어, 또는 그 결합물을 사용해서 구현되고 하나 이상의 컴퓨터 시스템 또는 상기 설명된 다른 처리 시스템에서 구현될 수 있다.

상기 실시예가 상당히 상세하게 설명되지만, 다수의 변경 및 변형은 상기 개시를 충분히 인식하는 당업자에게 명백하다. 다음의 청구항이 모든 변경 및 변형을 포함하도록 해석된다.

Claims

콘텐츠 유닛을 다른 콘텐츠 유닛에 맵핑하는 방법으로서,

호스트 디스플레이(200)를 포함하며,

게스트 콘텐츠에 요청을 보내는 단계와;

상기 게스트 콘텐츠에 카테고리 콘텐츠 인덱스(107)를 질문하는 단계와;

상기 요청에 대응하는 인덱스되고 카테고리화된 콘텐츠를 제공하는 단계와;

인덱스된 및 카테고리화된 콘텐츠가 새로운 콘텐츠 또는 갱신된 콘텐츠중 어느 하나 인지의 판정에 응답해서 인덱스되고 카테고리화된 콘텐츠를 디스플레이하는 단계와; 및

상기 카테고리화된 콘텐츠를 표시하는 단계

를 포함하는 콘텐츠 유닛을 다른 콘텐츠 유닛에 맵핑하는 방법.
제1항에 있어서,

인덱스된 및 카테고리화된 콘텐츠가 새로운 콘텐츠 또는 갱신된 콘텐츠중 어느 하나 인지를 판정하는 단계에 응답하여, 상기 인덱스되고 카테고리화된 콘텐츠를 의미론적인 콘텐츠 인덱스(105)에 추가하는 단계를 더 포함하는

콘텐츠 유닛을 다른 콘텐츠 유닛에 맵핑하는 방법.
제2항에 있어서,

상기 의미론적인 콘텐츠 인덱스로부터 의미론 콘텐츠 정보에 관련된 카테고리를 모으는 단계와;

상기 모아진 카테고리 관련된 의미론적인 콘텐츠 정보를 재-카테고리화하는 단계

를 더 포함하는 콘텐츠 유닛을 다른 콘텐츠 유닛에 맵핑하는 방법.
제3항에 있어서,

상기 재-카테고리화된 카테고리 관련된 의미론 콘텐트 정보를 카테고리 콘텐츠 인덱스에 추가하는 단계를 더 포함하는

콘텐츠 유닛을 다른 콘텐츠 유닛에 맵핑하는 방법.
제3항에 있어서,

상기 카테고리 관련된 의미론 콘텐츠 정보가 서치 어구 및 상기 서치 어구를 포함하는 질문 요청을 제공하고, 상기 서치 어구를 사용해서 데이터 스토어를 서치하고, 상기 질문 요청에 대응하는 문서 세트를 선택하고, 상기 문서 세트가 상기 서치 어구에 관련되는 의미론 구를 갖는 문서를 포함하는

콘텐츠 유닛을 다른 콘텐츠 유닛에 맵핑하는 방법.
제5항에 있어서,

상기 문서 세트는 URL(uniform resource locator), 다른 문서, 및 하나 이상의 문단, 문장, 및 구를 포함하는 문서의 일부중 하나 이상을 포함하는 문서에 포인터 목록을 포함하는

콘텐츠 유닛을 다른 콘텐츠 유닛에 맵핑하는 방법.
콘텐츠 유닛을 다른 콘텐츠 유닛에 맵핑하는 시스템(600)으로서,

명령을 실행하기 위해 구성된 프로세서(604)와;

상기 프로세서에 결합되어

게스트 콘텐츠에 요청을 보내고,

상기 게스트 콘텐츠에 카테고리 콘텐츠 인덱스(107)를 질문하고,

상기 요청에 대응하는 인덱스되고 카테고리화된 콘텐츠를 제공하고,

인덱스된 및 카테고리화된 콘텐츠가 새로운 콘텐츠 또는 갱신된 콘텐츠중 어느 하나 인지의 판정에 응답해서 인덱스되고 카테고리화된 콘텐츠를 디스플레이하고,

상기 카테고리화된 콘텐츠를 호스트 디스플레이(200)내에서 표시하기 위해

상기 프로세서에 의해 실행가능한 프로그램 명령을 저장하도록 구성된 메모리(608)

를 포함하는 콘텐츠 유닛을 다른 콘텐츠 유닛에 맵핑하는 시스템(600).
제7항에 있어서,

상기 프로그램 명령이 인덱스된 및 카테고리화된 콘텐츠가 새로운 콘텐츠 또는 갱신된 콘텐츠중 어느 하나 인지의 판정에 응답해서 인덱스되고 카테고리화된 콘텐츠를 의미론 콘텐츠 인덱스(105)에 추가하기 위해 프로세서에 의해 더 실행가능하게 되는

콘텐츠 유닛을 다른 콘텐츠 유닛에 맵핑하는 시스템(600).
제8항에 있어서,

상기 의미론적인 콘텐츠 인덱스로부터 카테고리 관련된 의미론 콘텐츠 정보를 모으고,

상기 모아진 카테고리 관련된 의미론적인 콘텐츠 정보를 재-카테고리화하기 위해

상기 프로세서에 의해 더 실행가능하게 되는

콘텐츠 유닛을 다른 콘텐츠 유닛에 맵핑하는 시스템(600).
제9항에 있어서,

상기 프로그램 명령이 상기 재-카테고리화된 카테고리 관련된 의미론 콘텐츠 정보를 상기 카테고리 콘텐츠 인덱스에 추가하기 위해 상기 프로세서의 더 실행가능하게 되는

콘텐츠 유닛을 다른 콘텐츠 유닛에 맵핑하는 시스템(600).
제9항에 있어서,

서치 어구 및 상기 서치 어구를 포함하는 질문 요청을 제공하고,

상기 서치 어구를 사용해서 데이터 스토어를 서치하고, 상기 질문 요청에 대응하는 문서 세트를 선택하기 위해 상기 프로세서에 의해 더 실행가능하게 되고,

상기 문서 세트가 상기 서치 어구에 관련되는 의미론적인 구를 갖는 문서를 포함하는

콘텐츠 유닛을 다른 콘텐츠 유닛에 맵핑하는 시스템(600).
제11항에 있어서,

상기 데이터 스토어가 월드 와이드 웹이고, 상기 문서 세트가 URL(uniform resource locator), 다른 문서, 및 하나 이상의 문단, 문장, 및 구를 포함하는 문서의 일부중 하나 이상을 포함하는 문서에 포인터 목록을 포함하는

콘텐츠 유닛을 다른 콘텐츠 유닛에 맵핑하는 시스템(600).
호스트 디스플레이(200)에 사용하기 위해 게스트 콘텐츠를 매칭시키는 방법으로서,

게스트 요청을 프리뷰 매치된 콘텐츠에 보내는 단계와;

상기 게스트 매칭된 콘텐츠에 대해 카테고리 콘텐츠 인덱스(107)에 질문하는 단계와;

상기 요청에 대응하는 상기 요청되어 인덱스되고 카테고리화된 게스트 콘텐츠를 제공하는 단계와;

상기 인덱스되고 카테고리화된 게스트 콘텐츠를 의미론 콘텐츠 테이블(107)에 추가하는 단계와;

상기 의미론적인 콘텐츠 인덱스로부터 카테고리 관련된 의미론 콘텐츠 정보를 모으는 단계와;

상기 모아진 카테고리 관련된 의미론적인 콘텐츠 정보를 재-카테고리화하는 단계와;

상기 재-카테고리화된 카테고리 관련된 의미론 콘텐츠 정보를 상기 카테고리 콘텐츠 인덱스에 추가하는 단계와;

상기 게스트 요청을 매칭하는 카테고리화된 매칭 콘텐츠를 보고하는 단계

를 포함하는 호스트 디스플레이(200)에 사용하기 위해 게스트 콘텐츠를 매칭시키는 방법.
제13항에 있어서,

상기 재-카테고리화되어 모아진 카테고리 관련된 의미론적인 콘텐츠 정보를 상기 카테고리 콘텐츠 인덱스내에서 저장전의 일시적인 정보로서 태깅하는 단계를 더 포함하는

호스트 디스플레이(200)에 사용하기 위해 게스트 콘텐츠를 매칭시키는 방법.
제13항에 있어서,

연속 프리뷰 매칭된 콘텐츠 요청을 제시하고 이전의 프리뷰 매칭된 콘텐츠 요청에 대한 호출값이 제시하지 않는 사용자에 응답해서 상기 카테고리 콘텐츠 인덱스로부터 일시적인 정보를 태그하는 상기 재-카테고리화되어 모아진 카테고리 관련된 의미론적인 콘텐츠 정보를 삭제하는 단계

를 더 포함하는 호스트 디스플레이(200)에 사용하기 위해 게스트 콘텐츠를 매칭시키는 방법.
제13항에 있어서,

매칭된 콘텐츠를 프리뷰하기 위해 상기 요청 결과를 토대로 한 하나 이상의 호스트 디스플레이상에 상기 카테고리화된 매칭 콘텐츠를 디스플레이하기 위해 공간을 판매하도록 호출값을 제시하는 단계

를 더 포함하는 호스트 디스플레이(200)에 사용하기 위해 게스트 콘텐츠를 매칭시키는 방법.
제16항에 있어서,

상기 호출값의 제시에 응답해서 카테고리 콘텐츠 인덱스에 저장된 상기 재-카테고리화되어 모아진 카테고리 관련된 의미론 콘텐츠 정보로부터 일시적인 태그를 삭제하는 단계

를 더 포함하는

호스트 디스플레이(200)에 사용하기 위해 게스트 콘텐츠를 매칭시키는 방법.
호스트 디스플레이(200)에 사용하기 위해 게스트 콘텐츠를 매칭시키는 시스템(600)으로서,

명령을 실행하기 위해 구성된 프로세서(604)와;

상기 프로세서에 결합되어

게스트 요청을 프리뷰 매치된 콘텐츠에 보내고,

상기 게스트 매칭된 콘텐츠에 대해 카테고리 콘텐츠 인덱스(107)에 질문하고,

상기 요청에 대응하는 상기 요청되어 인덱스되고 카테고리화된 게스트 콘텐츠를 제공하고,

상기 인덱스되고 카테고리화된 게스트 콘텐츠를 의미론 콘텐츠 테이블에 추가하고,

상기 의미론적인 콘텐츠 인덱스(105)로부터 카테고리 관련된 의미론 콘텐츠 정보를 모으고,

상기 모아진 카테고리 관련된 의미론적인 콘텐츠 정보를 재-카테고리화하고, 상기 재-카테고리화된 카테고리 관련된 의미론 콘텐츠 정보를 상기 카테고리 콘텐츠 인덱스에 추가하고,

상기 게스트 요청을 매칭하는 카테고리화된 매칭 콘텐츠를 보고하기 위해 상기 프로세서에 의해 실행가능한 프로그램 명령을 저장하기 위해 구성된 메모리(608)을 포함하는

호스트 디스플레이(200)에 사용하기 위해 게스트 콘텐츠를 매칭시키는 시스템(600).
제18항에 있어서,

상기 프로그램 명령은 세상기 재-카테고리화되어 모아진 카테고리 관련된 의미론적인 콘텐츠 정보를 상기 카테고리 콘텐츠 인덱스내에서 저장전의 일시적인 정보로서 태깅하기 위해 상기 프로세서에 의해 더 실행가능하게 되는

호스트 디스플레이(200)에 사용하기 위해 게스트 콘텐츠를 매칭시키는 시스템(600).
연속 프리뷰 매칭된 콘텐츠 요청을 제시하고 이전의 프리뷰 매칭된 콘텐츠 요청에 대한 호출값이 제시하지 않는 사용자에 응답해서 상기 카테고리 콘텐츠 인덱스로부터 일시적인 정보를 태그하는 상기 재-카테고리화되어 모아진 카테고리 관련된 의미론적인 콘텐츠 정보를 삭제하기 위해 상기 프로세서에 의해 더 실행하게 되는

호스트 디스플레이(200)에 사용하기 위해 게스트 콘텐츠를 매칭시키는 시스템(600).