KR101132942B1 - 문서가 콘텐츠에 부합하게 문서의 의미를 결정하는 방법 및 시스템 - Google Patents

문서가 콘텐츠에 부합하게 문서의 의미를 결정하는 방법 및 시스템 Download PDF

Info

Publication number
KR101132942B1
KR101132942B1 KR1020067001863A KR20067001863A KR101132942B1 KR 101132942 B1 KR101132942 B1 KR 101132942B1 KR 1020067001863 A KR1020067001863 A KR 1020067001863A KR 20067001863 A KR20067001863 A KR 20067001863A KR 101132942 B1 KR101132942 B1 KR 101132942B1
Authority
KR
South Korea
Prior art keywords
concept
meaning
document
source material
determining
Prior art date
Application number
KR1020067001863A
Other languages
English (en)
Other versions
KR20060059986A (ko
Inventor
아담 제이. 웨이스만
길라드 이스라엘 엘바츠
Original Assignee
구글 잉크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 잉크. filed Critical 구글 잉크.
Publication of KR20060059986A publication Critical patent/KR20060059986A/ko
Application granted granted Critical
Publication of KR101132942B1 publication Critical patent/KR101132942B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

본원은 문서를 콘텐츠에 부합하기 위해 문서의 의미를 결정하는 시스템 및 방법에 관한 것이다. 일 측면에서, 소스 자료가 접속되고, 소스 자료 내의 다수의 영역이 식별되며, 각 영역과 연관된 적어도 1개의 로컬 컨셉이 결정되고, 각 영역의 로컬 컨셉은 무관계 영역을 식별하기 위해 분석되며, 무관계 영역과 연관된 로컬 컨셉은 연관 컨셉을 결정하기 위해 제거되고, 연관 컨셉은 소스 자료의 소스 의미를 결정하기 위해 분석되며, 소스 의미는 아이템 세트로부터의 아이템과 연관된 아이템 의미와 부합된다.
웹 페이지, 광고, 지식 아이템, 키워드, 무관련 콘텐츠, 연관 콘텐츠.

Description

문서가 콘텐츠에 부합하게 문서의 의미를 결정하는 방법 및 시스템{METHODS AND SYSTEMS FOR DETERMINING A MEANING OF A DOCUMENT TO MATCH THE DOCUMENT TO CONTE}
본 발명은 문서(documents)에 관한 것이다. 특히, 본 발명은 문서가 콘텐츠에 부합하게 문서의 의미(a meaning of a document)를 결정하는 방법 및 시스템에 관한 것이다.
웹 페이지와 같은 문서는 예를 들어 인터넷상에서 다른 콘텐츠에 부합(match)할 수 있다. 예를 들어 문서는 HTML, XML, XHTML같은 다양한 형식의 웹 페이지; PDF(Portable Document Format) 파일; 및 워드 프로세서와 응용프로그램 문서 파일을 포함한다.
콘텐츠에 대한 문서 부합의 한 예로는 인터넷 광고가 있다. 예를 들어, 웹사이트의 운영자(publisher)는 요금을 받고 웹페이지에 광고를 허락한다. 운영자가 웹 페이지의 광고를 유저(user)에게 나타내길 원하면, 퍼실리테이터(facilitator)는 운영자에게 광고를 제공하여 웹 페이지에 나타낼 수 있다. 퍼실리테이터는 유저에 대한 인구통계학적 정보, 스포츠 또는 연예와 같은 웹 페이지의 카테고리, 또는 웹 페이지의 콘텐츠와 같이 각종 요소에 의한 광고를 선택할 수 있다. 퍼실리테이터는 또한 웹 페이지의 콘텐츠를 키워드(keyword) 리스트로부터 1개의 키워드와 같은 지식 아이템에 부합시킬 수도 있다. 이런 경우, 부합된 키워드와 연관된 광고가 웹 페이지에 나타난다. 유저는 마우스나 다른 입력 장치를 조작하여 판매용 상품이나 서비스를 제공하는 광고자의 웹 사이트의 웹 페이지를 보기 위해 광고를 "클릭" 한다.
인터넷 광고의 다른 예에서, 실제 부합된 키워드(actual matched keywords)는 관계 링크(Related Links) 또는 유사 섹션에서 운영자의 웹 페이지에 나타난다. 상기 예와 비슷하게, 웹 페이지의 콘텐츠는 하나 이상의 키워드에 부합되며, 상기 키워드는 예를 들어 관계 링크 섹션에 나타난다. 유저가 특정 키워드를 클릭하면, 유저는 광고 및 통상의 검색 결과의 혼합물을 포함하는 검색 결과 페이지로 향하게 된다. 광고주는 키워드에 자신들의 광고가 키워드의 검색 결과 페이지에 나타나게 한다. 유저는 마우스나 다른 입력 장치를 조작하여 판매하는 상품이나 서비스를 제공하는 광고자의 웹 사이트의 웹 페이지를 보기 위해 광고를 "클릭" 한다.
만약 상품이나 서비스가 유저가 웹 페이지에서 읽고 있는 것과 관련이 많을수록 웹 페이지를 보고 있는 유저는 광고 및 상품 또는 서비스를 클릭할 가능성이 높기때문에, 광고주는 웹 페이지의 콘텐츠가 광고와 밀접한 관계가 있기를 원한다. 또한, 운영자는 흔히 유저가 광고를 클릭함으로써 보상을 받으며 잘못된 부합(mismatch)은 민감한 콘텐츠의 경우에 광고주나 운영자에게 불쾌감을 줄 수 있기 때문에, 웹 페이지의 운영자는 광고의 콘텐츠가 웹 페이지의 콘텐츠와 부합하기를 원한다.
웹 페이지 같은 문서는 예를 들어 웹 페이지의 경우에 프레임과 같은 다수의 영역으로 구성할 수 있다. 일부 영역은 문서의 주 콘텐츠와 무관할 수 있다. 그러므로 무관한 영역의 콘텐츠는 무관한 주제가 전체 문서의 콘텐츠를 희석시킬 수 있다. 따라서, 문서를 콘텐츠와 부합시키기 위해서는 소스 문서(source document)의 의미(meaning)를 결정할 때 관련도가 가장 높은 영역의 소스 문서를 분석할 필요가 있다.
본 발명의 실시예는 문서가 콘텐츠에 부합하게 문서의 의미를 판단하는 시스템과 방법을 포함한다. 본 발명의 실시예의 일 측면은 소스 자료에 접근하는 단계, 소스 자료에서 다수 영역을 식별하는 단계, 각각의 영역과 연관된 적어도 하나의 로컬 컨셉(local concept)을 판단하는 단계, 무관계 영역을 식별하기 위해서 각 영역의 로컬 컨셉을 분석하는 단계, 연관 컨셉을 결정하기 위해서 무관계 영역과 연관된 로컬 컨셉을 제거하는 단계, 소스 자료의 소스 의미를 판단하기 위해 연관 컨셉을 분석하는 단계, 및 아이템 세트로부터의 아이템과 연관된 아이템 의미와 소스 의미를 부합시키는 단계를 포함한다. 상기 아이템은 콘텐츠 자체이거나 콘텐츠와 연관된 것일 수 있다. 일 실시예에서, 본 발명은 소스 자료에 부합된 아이템을 나타내는 단계를 추가로 포함한다. 다른 실시예에서, 본 발명은 소스 자료에 아이템과 연관된 콘텐츠를 나타내는 단계를 추가로 포함한다. 본 발명의 다른 면은 상술한 면과 관련한 특징을 가진 컴퓨터 시스템 및 컴퓨터-판독 매체에 관한 것이다.
본 발명의 상기 내용 또는 기타 특징 및 이점은 첨부 도면을 참고로 이하에 기술하는 설명을 통해 용이하게 이해할 수 있을 것이다.
도1은 본 발명의 일 실시예에 따른 시스템의 블록도.
도2는 본 발명의 일 실시예에 따른 방법의 흐름도.
도3은 도2에 도시한 방법의 서브루틴 흐름도.
본 발명은 콘텐츠에 문서를 부합하기 위해 문서의 의미를 결정하기 위한 방법 및 시스템을 포함한다. 이하, 첨부된 도면을 참고로 본 발명의 실시예를 기술한다. 도면 및 이하의 설명에서 동일하거나 유사한 부분을 나타내는데 동일한 도면 부호를 사용하였다.
본 발명에 따른 다양한 시스템이 구성될 수 있다. 도1은 본 발명의 일 실시예에 따른 시스템의 블록도이다. 본 발명은 다른 시스템에서도 마찬가지로 동작하고 실시될 것이다.
도1에 도시한 시스템(100)은 클라이언트(client) 장치(102a 내지 102b), 서버 장치(104, 140) 및 네트워크(106)를 포함한다. 도시한 네트워크(106)는 인터넷을 포함한다. 다른 실시예에서는 인트라넷과 같은 다른 네트워크가 사용될 수 있다. 또한, 본 발명에 따른 방법은 하나의 컴퓨터에서 운영할 수 있다. 도시한 각각의 클라이언트 장치(102a 내지 102n)는 프로세서(110)와 결합하여 도시한 실시예에서 램(RAM)(108)과 같은 컴퓨터-판독 매체를 포함한다. 상기 프로세서(110)는 메모리(108)에 저장된 한 세트의 컴퓨터-실행 프로그램 인스트럭션(a set of computer-executable program instructions)을 실행한다. 그런 프로세서는 마이크로프로세서, ASIC 및 스테이트 머신(state machine)을 포함한다. 그런 프로세서는 예를 들어 프로세서에 의한 실행 시에 프로세서가 본원에 기술된 단계를 수행하게 하는 지시(instructions)를 저장한 컴퓨터-판독 매체와 통신할 수 있다. 컴퓨터-판독 매체의 실시예는 한정적이지 않은 기재로서 컴퓨터-판독가능한 지시를 접촉식-입력 장치와 통신하는 프로세서에 제공할 수 있는 전자적, 광학적, 자기적 또는 다른 저장수단 또는 송신기를 포함한다. 다른 예의 적절한 매체로는 한정적이지 않은 기재로서 플로피 디스크, CD-ROM, 자기 디스크, 메모리 칩, ROM, RAM, ASIC, 설정 프로세서(configured processor), 모든 광학 매체, 모든 자기 테이프 또는 다른 자기 매체, 또는 그로부터 컴퓨터 프로세서가 지시를 판독할 수 있는 그 밖의 매체를 포함한다. 또한, 다양한 다른 형태의 컴퓨터-판독 매체는 무선 또는 유선의 라우터, 개인 또는 공중 네트워크 또는 기타 전송 장치 또는 채널을 포함하는 컴퓨터에 지시를 전송하거나 전할 수 있는 것이다. 이런 지시는 예를 들어 C, C++, C#, 비주얼 베이직, 자바 및 자바스크립트를 포함하는 컴퓨터-프로그래밍 언어로부터의 코드를 포함할 수 있다.
클라이언트 장치(102a 내지 102n)는 또한 마우스, CD-ROM, 키보드, 디스플레이 또는 기타 입력 또는 출력 장치 같은 다수의 외부 또는 내부 장치도 포함한다. 클라이언트 장치(102a 내지 102n)의 예는 개인용 컴퓨터, 디지털 주변장치, 개인 디지털 주변 장치, 셀룰러 폰, 모바일 폰, 스마트 폰, 종이, 디지털 타블렛, 랩탑 컴퓨터, 프로세서-기반 장치 및 유사한 타입의 시스템 및 장치를 포함한다. 일반적으로 클라이언트 장치(102a 내지 102n)는 네트워크(106)에 연결되고 하나 이상의 응용 프로그램과 상호작용하는 임의적인 타입의 프로세서-기반 플랫폼이다. 도시한 클라이언트 장치(102a 내지 102n)는 마이크로소프트사의 인터넷 익스플로어™ 버젼 6.0, 넷츠케이프 커뮤니케이션사의 넷츠케이프 네비게이터™ 버전 7.1, 또는 애플 컴퓨터의 사파리™ 버전 1.0과 같은 브라우저 응용 프로그램을 실행하는 개인용 컴퓨터를 포함한다. 클라이언트 장치(102a 내지 102n)를 통해, 유저(112a 내지 112n)는 네트워크(106)를 통해 서로 통신하며 네트워크(106)에 연결된 다른 시스템 및 장치와 통신한다.
도1에 도시된 바와 같이, 서버 장치(104, 140)도 네트워크(106)에 연결된다. 도시한 문서 서버 장치(104)는 문서 엔진 응용 프로그램을 실행하는 서버를 포함한다. 도시한 콘텐츠 서버 장치(140)는 콘텐츠 엔진 응용 프로그램을 실행하는 서버를 포함한다. 시스템(100)은 또한 다중 기타 서버 장치를 포함할 수 있다. 클라이언트 장치(102a 내지 102n)와 유사하게, 도시한 서버 장치(104, 140)는 각각이 컴퓨터-판독 메모리(118, 144)와 연결된 프로세서(116, 142)를 포함한다. 각각의 서버 장치(104, 140)는 단일 컴퓨터 시스템으로 도시되었지만, 컴퓨터 프로세서의 네트워크로서 구현될 수 있다. 서버 장치(104, 140)의 예로는 서버, 메인프레임 컴퓨터, 네트워크 컴퓨터, 프로세서-기반 장치 및 유사한 타입의 시스템 및 장치가 있다. 클라이언트 프로세서(110) 및 서버 프로세서(116, 142)는 미국 캘리포니아 산타 클라라에 소재한 인텔사의 프로세서 및 미국 일리노이 샴버그에 소재하는 모토로라사의 프로세서처럼 다수의 잘 알려진 컴퓨터 프로세서이다.
문서 서버 장치(104)의 메모리(118)는 문서 엔진(124)으로도 알려진 문서 엔진 응용 프로그램을 포함한다. 상기 문서 엔진(124)은 소스 자료의 의미를 결정하고 소스 자료를 다른 자료 또는 지식 아이템에 부합시킨다. 상기 아이템은 콘텐츠 자체일 수 있고 또는 콘텐츠와 연관된 것일 수 있다. 소스 자료는 네트워크(106)에 연결된 다른 장치로부터 수신될 수 있다. 상기 자료는 HTML, XML, XHTML. PDF 파일, 워드 프로세서와 같은 다양한 형식의 웹 페이지 같은 문서, 데이터 베이스, 응용 프로그램 문서 파일, 오디오, 비디오 또는 네트워크(예, 인터넷), 개인용 컴퓨터 또는 다른 컴퓨팅 또는 저장 수단에서 사용할 수 있게 만들어진 임의적인 타입의 다른 정보를 포함한다. 본원에 기술된 실시예는 일반적으로 문서와 관련하여 있으나 실시예는 다른 타입의 자료에서도 동작할 수 있는 것이다. 지식 아이템은, 심볼을 통해 나타내며, 예를 들어 키워드, 노드(node), 카테고리, 인물, 컨셉, 제품, 문장, 문서 및 그 밖의 지식 유닛으로 있는 물리적 또는 비-물리적인 어떤 것이다. 지식 아이템은 예를 들어 하나의 단어, 용어, 짧은 문장, 문서 또는 기타 구조 또는 비구조의 정보와 같은 임의적인 형태를 취할 수 있다. 본원에 기술된 실시예는 일반적으로 키워드에 관련하여 기술하지만, 실시예는 임의적인 타입의 지식 아이템을 운영할 수 있는 것이다.
도시한 문서 엔진(124)은 전(前)-처리기(preprocessor)(134), 의미 프로세서(135) 및 매칭(matching) 프로세서(137)를 포함한다. 도시한 실시예에서, 각각은 메모리(118)에 위치한 컴퓨터 코드를 포함한다. 상기 문서 엔진(124)은 소스 문서에 배치되는 콘텐츠의 요청(request)을 수신한다. 상기 요청은 네트워크(106)에 연결된 장치로부터 수신될 수 있다. 상기 콘텐츠는 웹 페이지 및 광고와 같은 문서 및 키워드와 같은 지식 아이템을 포함할 수 있다. 상기 프로세서(134)는 소스 문서를 수신하고 분석하여 문서에 포함된 컨셉 및 문서의 영역을 결정한다. 컨셉은 클러스터 또는 세트의 단어 또는 그와 연관된 용어의 사용이 한정될 수 있으며, 상기 단어 또는 용어는 예를 들어 동의어일 수 있다. 컨셉은 또한 예를 들어 연관 컨셉과의 관계, 연관 컨셉과의 연관관계 정도, 언어(speech) 부분, 일반적인 어법, 어법의 빈도수, 컨셉의 폭 및 언어에서 컨셉 어법에 대한 통계 같은 다양한 정보에 의해 정의될 수도 있다. 상기 의미 프로세서(136)는 컨셉과 영역을 분석하여 소스 문서의 메인 컨셉과 관계되지 않은 영역을 제거한다. 다음, 의미 프로세서(136)가 남아있는 영역으로부터 소스 문서에 대한 소스 의미를 결정한다. 매칭 프로세서(137)는 소스 문서의 소스 의미와 아이템 세트로부터의 아이템의 의미를 부합시킨다.
콘텐츠 서버 장치(140)의 메모리(144)는 콘텐츠 엔진(146)으로도 알려진 콘텐츠 엔진 응용 프로그램을 포함한다. 도시한 실시예에서, 콘텐츠 엔진은 메모리에 내장된 컴퓨터 코드를 포함한다. 콘텐츠 엔진(146)은 문서 서버 장치(104)로부터 부합된 아이템을 수신하며, 아이템 또는 상기 아이템과 연관된 콘텐츠를 소스 문서에 배치한다. 일 실시예에서, 콘텐츠 엔진(146)은 매칭(matching) 엔진(137)으로부터 부합된 키워드를 수신하며, 그것을 광고와 같은 문서에 관련시킨다. 다음, 상기 광고는 요청자의 웹사이트로 전송되며, 예를 들어 웹 페이지의 프레임과 같은 소스 문서에 배치된다.
문서 서버 장치(104)는 또한 의미 데이터베이스(120)로 도시한 예에서 의미 저장 소자와 같은 다른 저장 소자에 대한 접속(access)을 제공한다. 의미 데이터베이스는 소스 문서와 연관된 의미를 저장하는데 사용될 수 있다. 또한, 콘텐츠 서버 장치(140)도 콘텐츠 데이터베이스(148)로 도시한 예에서 콘텐츠 저장 소자와 같은 다른 저장 소자에 대한 접속도 제공한다. 콘텐츠 데이터베이스는 키워드와 연관 광고와 같은 아이템 및 상기 아이템과 연관된 콘텐츠를 저장하는데 사용될 수 있다. 데이터 저장 소자는 어레이(array), 헤시테이블(hashtable), 리스트 및 페어(pair)를 제한하지 않고 포함하는 데이터를 저장하기 위한 방법 또는 방법의 조합을 포함한다. 다른 유사한 타입의 데이터 저장 장치가 서버 장치(104, 140)에 의해 접속될 수 있다.
본 발명은 도1에 도시한 것과 상이한 구조를 갖는 시스템을 포함할 수 있다. 예를 들면, 본 발명에 의한 시스템에서, 전-처리기(134) 및 의미 프로세서(136)는 문서 엔진(124)의 일부분으로 있지 않고, 오프라인에서 그들의 작업을 수행할 수 있다. 일 실시예에서는 문서의 의미가 문서 엔진이 웹 페이지 같은 문서를 크롤(crawl) 할 때, 주기적으로 결정된다. 다른 실시예에서는 문서의 의미가 문서에 배치된 콘텐츠의 요청이 수신될 때 결정된다. 도1에 도시한 시스템(100)은 단지 예를 들어 나타낸 것이며, 도2 및 도3에 도시한 일 예의 방법을 설명하는데 사용된다.
도1에 도시한 예의 실시예에서, 유저(112a)는 웹 사이트상의 웹 페이지와 같이 네트워크(106)에 연결된 장치상의 문서에 접속할 수 있다. 예를 들어, 유저(112a)는 뉴스 웹사이트에서 워싱턴에서의 연어의 제물낚시에 대한 기사를 포함하는 웹 페이지에 접속할 수 있다. 상기 예에서, 웹 페이지는 4개 영역, 즉, 기사 제목, 기사의 저자 및 기사 요약으로 이루어진 제목 섹션, 기사 내용(text)과 사진으로 이루어진 본문 섹션, 자동차 판매에 관한 배너 광고, 및 뉴스, 날씨 및 스포츠와 같은 웹사이트의 다른 웹 페이지에 대한 링크를 가진 링크 섹션을 포함한다. 뉴스 웹사이트의 소유자는 소스 웹 페이지에 광고 공간을 판매하기를 원하여, 웹 페이지에 나타낼 광고와 같은 아이템을 위해 네트워크(106)를 통해 문서 서버(104)로 요청서를 전송한다.
소스 웹 페이지가 아이템에 부합하도록, 소스 웹 페이지의 의미가 우선 결정된다. 문서 엔진(124)은 소스 웹 페이지에 접속하여, 웹 페이지를 수신한다. 웹 페이지의 소스 의미는 미리 결정되어, 의미 데이터베이스(120)에 저장될 수 있다. 만약 소스 의미가 미리 결정되었으면, 문서 엔진(124)은 소스 의미를 회수한다.
만약 웹 페이지의 소스 의미가 결정되어 있지 않으면, 전-처리기(134)가 먼저 웹 페이지에 포함된 컨셉 및 웹 페이지에 포함된 영역을 식별한다. 예를 들어, 전-처리기는 웹 페이지가 제목 영역, 기사 영역, 배너 광고 영역 및 링크 영역에 대응하는 4개의 영역을 포함하고, 그리고 웹 페이지가 연어, 제물낚시, 워싱턴, 자동차, 뉴스, 날씨 및 스포츠에 관한 컨셉을 포함하는 것을 결정한다. 상기 영역은 웹 페이지상의 프레임에 필수적으로 대응하는 것은 아니다. 다음, 의미 엔진은 각각의 영역에 대한 로컬 컨셉과 모든 로컬 컨셉의 등급을 결정한다. 다양한 평가 요소(weighing factors)를 사용하여 예를 들어 영역의 중요도, 컨셉의 중요도, 컨셉의 빈도, 컨셉이 출현한 영역의 수, 및 컨셉의 폭과 같은 컨셉의 등급(rank)을 매긴다.
다음, 의미 엔진(136)은 주요한 컨셉에 연관되지 않은 영역을 식별하며, 그들과 연관된 로컬 컨셉을 제거한다. 예를 들어, 배너 영역과 링크 영역은 기사와 특별하게 관련한 컨셉을 포함하지 않으므로, 이들 영역과 관련된 컨셉은 제거된다. 다음, 의미 엔진은 남아있는 컨셉에 기초한 소스를 결정한다. 의미는 가중된 컨셉의 벡터일 수 있다. 예를 들어 의미는 연어(40%), 제물낚시(40%) 및 워싱턴(20%)일 수 있다.
이런 의미는 매칭 프로세서(137)에 의해 아이템에 부합될 수 있다. 상기 아이템은 웹 페이지와 광고 같은 문서, 및 키워드 같은 지식 아이템을 포함하며, 콘텐츠 서버 장치(140)로부터 수신될 수 있다. 상기 아이템은 콘텐츠 데이터베이스(148)에 저장될 수 있다. 예를 들어, 상기 아이템이 제물낚시, 산행, CD 및 여행 같은 키워드이면, 매칭 엔진은 소스 의미를 키워드와 연관된 의미와 비교하여 부합(match)을 결정한다. 각각의 키워드와 연관된 데이터 클릭 당 요금 같은 편향(biasing) 요소가 사용될 수 있다. 예를 들어, 만약 제물낚시 키워드의 의미가 여행 키워드의 의미보다 더 가깝게 부합하지만 현재 여행 키워드를 구입한 광고주가 클릭 당 요금을 더 높게 지급한다면, 의미 엔진은 소스 의미를 여행 키워드에 부합시킨다. 또한, 콘텐츠 필터(Content filter)를 사용하여 성인물이나 민감한 콘텐츠를 걸러낸다.
부합된 키워드는 콘텐츠 서버 장치(140)에 의해 수신될 수 있다. 콘텐츠 엔진(146)은 광고를 부합된 키워드와 연관시키어, 이를 소스 웹 페이지에 나타낸다. 예를 들어, 여행 키워드가 부합된다면, 콘텐츠 엔진은 여행 키워드와 연관된 광고를 워싱턴에서의 연어의 제물낚시에 대한 기사를 포함하는 소스 웹 페이지에 나타낼 것이다. 만약 유저(112a)가 그의 입력장치로 광고를 가리키고 그것을 클릭하면, 유저는 광고와 연관된 웹 페이지로 인도될 것이다.
본 발명에 따른 다양한 방법이 수행될 것이다. 본 발명에 따른 일 예의 방법은 소스 자료에 접속하는 단계, 소스 자료의 다수의 영역을 식별하는 단계, 각각의 영역과 연관된 적어도 하나의 로컬 컨셉을 결정하는 단계, 무관계 영역을 식별하도록 영역 각각의 로컬 컨셉을 분석하는 단계, 관계 컨셉을 결정하도록 무관계 영역과 연관된 로컬 컨셉을 제거하는 단계, 소스 자료에 대한 소스 의미를 결정하도록 연관 컨셉을 분석하는 단계, 및 소스 의미를 아이템 세트로부터의 아이템과 연관된 아이템 의미와 부합시키는 단계를 포함한다. 편향 요소는 소스 의미를 아이템 의미와 부합하는데 사용될 수 있다. 상기 소스 의미는 가중된 컨셉의 벡터일 수 있다.
임의적 실시예에서, 상기 방법은 부합된 아이템을 소스 자료에 나타내는 단계를 추가로 포함한다. 이런 실시예에서, 소스 자료는 웹 페이지일 수 있고, 부합된 자료는 키워드일 수 있다. 선택적으로, 소스 자료는 웹 페이지일 수 있고, 부합된 아이템은 광고일 수 있다.
임의적 실시예에서, 상기 방법은 부합된 아이템과 연관된 콘텐츠를 소스 자료에 나타내는 단계를 추가로 포함한다. 이러한 실시예에서, 상기 소스 자료는 웹 페이지일 수 있고, 부합된 아이템은 키워드이며, 연관된 콘텐츠는 광고일 수 있다. 추가로, 소스 자료는 제1웹 페이지이고, 부합된 아이템은 제2웹 페이지이며, 연관된 콘텐츠는 광고일 수 있다. 선택적으로, 소스 자료는 제1웹 페이지이며, 부합된 아이템은 제2웹 페이지이고, 연관된 콘텐츠는 제2웹 페이지와의 링크일 수 있다.
임의적 실시예에서, 적어도 하나의 로컬 컨셉을 결정하는 단계는 각각의 영역에서의 각각의 로컬 컨셉에 대한 점수(score)를 결정하는 단계를 포함한다. 최고 점수를 받은 각각의 영역에서의 로컬 컨셉은 가장 밀접한 관계의 로컬 컨셉이다. 추가로, 무관계 영역을 식별하는 단계는 우선 각각의 로컬 컨셉에 대한 수정된 점수를 결정하는 단계를 포함한다. 다음, 모든 로컬 컨셉을 포함하는 등급이 매겨진 전체 리스트가 수정된 점수에 기초하여 정해진다. 결합된 수정 점수가 전체 리스트에 대한 총 점수의 미리 정해진 양보다 적게 기여하는 로컬 컨셉은 제거하여 결과 리스트를 생성한다. 다음, 결과 리스트에서 최고 연관된 로컬 컨셉을 갖지 않은 무관계 영역이 결정된다. 무관계 영역과 연관된 로컬 컨셉은 결과 리스트로부터 제거되어 연관 컨셉의 리스트가 생성된다. 또한, 소스 의미는 연관 컨셉에 대한 수정된 점수를 표준화하여 결정된다.
본 발명에 따른 다른 예의 방법은 소스 자료에 접속하는 단계, 소스 자료에서 적어도 제1콘텐츠 영역과 제2콘텐츠 영역을 식별하는 단계, 적어도 제1콘텐츠 영역과 연관된 제1로컬 컨셉을 결정하고 제2콘텐츠 영역과 연관된 제2로컬 컨셉을 결정하는 단계, 제1콘텐츠 영역을 제1로컬 컨셉의 적어도 일부에 기초한 아이템 세트로부터의 제1아이템과 부합시키는 단계, 및 제2콘텐츠 영역을 제2로컬 컨셉에 적어도 일부에 기초한 아이템 세트로부터의 제2아이템과 부합시키는 단계를 포함한다.
도2 및 도3은 본 발명에 따르는 실시예의 방법을 설명하는 도면이다. 이 실시예의 방법은 본 발명에 따르는 방법을 수행하는 다양한 방법으로, 예를 드는 방법으로 제공된다. 도2에 도시한 방법은 다양한 시스템에 의해서 실행되거나 다르게 수행될 수 있다. 상기 방법은 도1에 도시한 시스템(100)에 의해서 수행되는 것으로 기술하며, 상기 시스템(100)의 다양한 소자는 도2 및 도3의 예시적인 방법을 설명하는 것으로 기술된다. 도시된 방법은 소스 문서를 아이템에 부합하도록 소스 문서의 의미 결정단계를 제공한다.
도2 및 도3에 도시한 각각의 블록은 예시적인 방법에서 수행되는 하나 이상의 단계를 나타낸다. 도2를 참고로 설명하면, 블록(202)에서 방법이 시작한다. 문서가 접속되는 블럭(204)이 블록(202)을 뒤따른다. 예를 들어, 상기 문서는 접속이 가능하고 네트워크(106) 또는 다른 소스의 장치로부터 수신이 가능한 것이다.
소스 문서의 의미가 결정되는 블럭(206)이 블록(204)에 뒤따른다. 도시한 실시예에서, 의미는 문서를 영역별로 분리하고, 도움이 되지 않는 영역을 삭제하며, 문서의 남아있는 영역에 포함된 컨셉을 분석함으로써 소스 문서에 대한 의미가 결정된다. 예를 들어, 도시한 실시예에서, 전-처리기(134)는 우선 소스 문서에 포함된 컨셉을 결정하고 문서의 영역을 결정한다. 상기 의미 프로세서(136)는 컨셉의 등급을 매기고 주 컨셉과 관계없는 영역과 연관된 컨셉을 제거한다. 남아있는 컨셉으로부터, 의미 프로세서(136)는 문서에 대한 소스 의미를 결정한다.
도3은 도2에 도시한 방법을 수행하기 위한 서브루틴(206)을 도시한 것이다. 상기 서브루틴(206)은 수신된 소스 문서에 대한 의미를 제공한다. 서브루틴의 예를 다음에 기술한다.
상기 서브루틴은 블록(300)에서 시작한다. 블록(300)에서, 소스 문서는 문서에 포함된 컨셉을 결정하도록 전(前)-처리된다. 이는 문서를 단어로 판독하고 그 후 단어를 컨셉과 정렬하는 자연 언어 및 텍스트 가공에 의해서 이루어진다. 일 실시예에서, 예를 들면 단어와 대응하는 상징은 우선 자연 언어 및 텍스트 가공에 의해서 결정되며, 상호 연결된 의미의 어의 네트워크(semantic network)에 포함된 상징에 부합된다. 부합된 상징으로부터, 용어는 어의 네트워크로부터 결정된다. 결정된 용어의 컨셉은 그 후 정렬되고, 용어와의 관계 가능성이 주어진다.
문서의 영역이 식별되는 블럭(302)이 블록(300)에 뒤따른다. 예를 들어, 문서의 영역은 정보를 포맷 하는 것을 포함하는 특정한 발견법(heuristics)에 기초하여 결정된다. 예를 들어, HTML 라벨을 포함하는 웹 페이지가 있는 소스 문서용으로, 상기 라벨을 사용하여 영역을 식별하는 작업을 돕는다. 예를 들어 <title>....</title> 태그 내에 텍스트는 제목 영역 내의 텍스트로서 표시될 수 있다. 텍스트의 70% 이상을 차지하는 단락 내의 텍스트는 링크 영역으로 표시된 태그 <a>....</a> 내에 존재한다. 상기 텍스트의 구조는 영역을 식별하는 도구로 사용될 수 있다. 예를 들어, 짧은 단락 내의 텍스트나 예를 들어 동사가 없거나, 단어가 거의 없거나, 문장을 마치는 구두점이 없는 것처럼 문장의 구조를 갖지 않는 표의 세로 열은 목록 영역 내의 존재하는 것으로서 표시될 수 있다. 동사와 구두점을 가지는 긴 문자 내의 텍스트는 텍스트 영역의 일부로 표시될 수 있다. 영역의 형식이 변경될 때, 새로운 영역은 새로운 형식을 구비하여 표시된 텍스트를 갖는 출발점으로 생성될 수 있다. 일 실시예에서, 텍스트 영역이 문서의 20% 이상을 차지한다면, 이는 좀 더 작은 조각으로 나누어진다.
각각의 영역을 위한 가장 관계있는 컨셉이 결정되는 블럭(304)이 블록(302)에 뒤따른다. 도시한 실시예에서, 의미 프로세서(136)는 각 영역용으로 식별된 컨셉을 처리하여 각 영역에 대한 소량 수집물의 로컬 컨셉 영역을 내놓는다. 컨셉 간의 관계, 영역 내에서 컨셉의 발생 빈도 및 컨셉의 폭이 로컬 컨셉을 결정하는데 사용될 수 있다.
일 실시예에서, 각 영역을 위해서 모든 컨셉이 리스트에 놓인다. 상기 컨셉은 다양한 요소를 사용하여 각각의 컨셉에 대한 점수를 결정하여 리스트에 등급을 매긴다. 예를 들어, 만약 제1컨셉이 다른 컨셉들과 강한 연계성을 가졌다면, 이는 제1컨셉 및 그와 연관된 컨셉의 점수를 끌어올리는데 사용된다. 이런 효과는 제1컨셉의 발생 빈도 및 제1컨셉의 포커스(또는 폭)에 의해 완화되어 매우 공통된 컨셉과 넓은 폭의 의미를 가질 수 있는 컨셉을 감소시킨다. 특정 수준을 넘는 빈도수의 컨셉이 추려진다. 또한, 컨셉의 인지 중요도가 컨셉의 점수에 영향을 줄 수 있다. 컨셉의 중요성은 예를 들어 컨셉의 포함을 일으킨 단어가 볼드(bold)체로 표시되었는지 아닌지와 같이 처리과정에서 초기에 결정된다. 각각의 영역에 대한 컨셉의 등급이 매겨진 후, 최저 연관된 컨셉은 제거될 수 있다. 이는 최고 등급 컨셉의 수집물을 선택하여 행하거나, 특정 점수 밑의 등급 점수를 받은 컨셉을 제거하여 행할 수 있다.
각 영역에 대한 모든 로컬 컨셉이 합해져 분석되는 블록(306)이 블록(304)에 뒤따른다. 도시한 실시예에서, 의미 프로세서(136)는 각각의 영역에 대한 로컬 컨셉을 수신하며, 예를 들어 각각의 로컬 컨셉에 대한 점수에 의해 모든 로컬 컨셉의 등급이 매겨진 전체 리스트를 생성한다. 각 영역의 중요도와 같은 편향 요소가 점수를 결정하는데 사용될 수 있다. 각 영역의 중요도는 영역의 형식 및 영역의 크기로 결정될 수 있다. 예를 들어, 제목 영역은 링크 영역보다 더 중요한 것으로 여겨질 수 있고, 제목 영역에 나타난 컨셉은 링크 영역 내의 컨셉보다 더 많은 가중치가 주어질 수 있다. 추가 가중치가 하나 이상의 영역에 나타난 컨셉에 주어질 수 있다. 예를 들어, 중복 컨셉은 합해지고, 이들의 점수는 함께 더해진다. 다음, 이런 전체 리스트는 분류되며, 예를 들어 점수 합이 20% 미만으로 기여하는 트레일링 컨셉(trailing concepts)은 제거되어 로컬 컨셉의 전체 결과 리스트를 생성한다.
무관계 컨셉에 연관된 메인 컨셉을 가진 영역이 제거되는 블록(308)이 블록(306)에 뒤따른다. 도시한 실시예에서, 의미 프로세서(136)는 주 컨셉과 관계되지 않은 컨셉을 가진 영역인, 무관계 영역을 결정하여, 제거한다. "관계" 및 "무관계"의 기준은 절대기준을 사용하여 결정할 필요는 없다. "관계"는 비교적 높은 정도의 연관성 및/또는 미리 정해진 정도의 관계성의 표시이다. "무관계"는 비교적 낮은 정도의 연관성 및/또는 미리 정해진 정도의 관계성의 표시이다. 무관계 영역을 제거함으로써, 연관된 무관계 컨셉이 제거된다. 예를 들어, 만약 소스 문서가 다양한 프레임으로 구성된 웹 페이지이면, 프레임의 일부는 광고 또는 웹사이트의 다른 페이지에 연결된 링크와 관계될 수 있으므로, 웹 페이지의 메인 의미에 관계되지 않을 것이다.
일 실시예에서, 예를 들면 블록(306)에서 결정된 전체 결과 리스트(resulting global list)는 문서의 의미에 가깝게 있으며, 문서의 의미와 연관되지 않은 영역을 제거하는데 사용될 수 있다. 각각의 영역에 대해 의미 프로세서(136)는 영역에 대한 가장 대표적인 로컬 컨셉이 전체 결과 리스트에 포함되지 않았는지를 결정하는 것이다. 만약 영역에 대한 가장 대표적인 로컬 컨셉이 리스트에 없으면, 상기 영역은 무관계인 것으로 표시될 것이다. 영역에 대한 가장 대표적인 로컬 컨셉은 예를 들어 블록(304)에서 결정되는 영역에 대한 최고의 점수를 가진 컨셉이다.
소스 문서의 의미를 결정하는 블록(310)이 블록(308)에 뒤따른다. 도시한 실시예에서, 의미 프로세서(136)는 컨셉의 연관 리스트를 생성하기 위해 제거되지 않은 영역에 대한 로컬 컨셉의 대표성을 다시 계산한다. 다음, 연관 리스트상의 상기 로컬 컨셉은 의미 리스트를 제공하는 고정된 다수의 컨셉을 추려내며, 소스 의미를 제공하도록 표준화된다. 예를 들어, 의미 리스트는 관계 영역에 포함된 컨셉만을 사용하여 생성될 수 있고, 가장 높은 25점의 점수를 갖는 컨셉을 제외한 모든 것이 새로운 리스트로부터 제거된다. 가장 높은 점수를 받은 컨셉의 점수는 소스 의미를 제공하도록 표준화될 수 있다. 상기 예에서, 소스 의미는 연관 컨셉의 가중된 벡터일 수 있다.
도2를 다시 참조하면, 아이템 세트가 수신되는 블록(208)이 블록(206)에 뒤따른다. 예를 들어 상기 아이템은 콘텐츠 서버 장치(140)로부터의 매칭 프로세서(137)에 의해 수신될 수 있다. 예를 들어 상기 아이템은 키워드 같은 지식 아이템, 광고 및 웹 페이지 같은 문서를 포함할 수 있다. 수신된 각각의 아이템은 그것과 연관된 의미를 가질 수 있다. 예를 들어 키워드 의미에 대한, 발명의 명칭이 "지식 아이템과 연관된 정보를 사용하는 지식 아이템의 의미를 이해하기 위한 방법 및 시스템"인, 참고문헌으로서 본원에 포함된 미국 특허 출원번호 10/690,328호에서 기술된 것처럼 키워드와 연관된 정보의 사용을 통해 결정될 수 있다. 문서 의미는 예를 들어 도3과 관련하여 기술한 것과 동일한 방법으로 결정될 수 있다.
소스 문서를 아이템에 부합하는 블록(210)이 블록(208)에 뒤따른다. 편향 요소는 부합 공정(matching process)에 사용될 수 있다. 예를 들어, 일 실시예에서 소스 의미는 키워드 세트로부터의 키워드와 연관된 키워드 의미와 부합된다. 매칭 엔진은 소스 의미를 키워드 의미와 비교하며, 부합(match)을 결정하도록 키워드와 연관된 클릭 당 요금(cost)와 같은 편향 요소를 사용한다. 다음, 이런 부합된 키워드는 콘텐츠 서버 장치(140)로 전송된다. 콘텐츠 엔진(146)은 부합된 키워드를 연관된 광고와 부합하여, 광고를 소스 문서에 나타낸다. 선택적으로, 콘텐츠 엔진은 키워드 자체를 소스 문서에 나타낼 수 있다. 다른 실시예에서는 광고에 대한 의미가 소스 의미에 부합된다. 이 실시예에서, 콘텐츠 엔진(146)은 소스 문서에 부합된 광고를 나타낼 수 있다. 다른 실시예에서, 웹 페이지에 대한 의미는 소스 의미에 부합된다. 이 실시예에서, 콘텐츠 엔진(146)은 웹 페이지와 연관된 광고를 나타낼 수 있다. 방법을 종료하는 블록(212)이 블록(210)에 뒤따른다.
일 실시예에서, 소스 문서가 접속된 후, 소스 문서는 소스 문서의 콘텐츠 영역을 결정하도록 전-처리기(134)에 의해 분석된다. 콘텐츠 영역은 예를 들어 텍스트 영역이나 링크 영역과 같은 실질적인 양의 텍스트를 포함하는 영역이거나 또는 예를 들면 제목 영역과 같이 비교적 중요한 영역일 수 있다. 이런 영역은 상술한 바와 같이 발견법(heuristics)의 사용을 통해 결정될 수 있다. 전-처리기(134)는 또한 상술한 바와 같이 각 콘텐츠 영역에 위치된 컨셉을 식별한다. 이런 컨셉은 의미 프로세서(136)에 의해 사용되어 각각의 콘텐츠 영역에 대한 의미를 결정한다. 매칭 프로세서(137)는 각각의 콘텐츠 영역의 의미를 키워드와 부합시킬 수 있다. 콘텐츠 엔진(146)은 부합된 키워드를 연관된 광고와 부합시키어, 소스 문서에 광고를 나타낼 수 있다. 선택적으로, 콘텐츠 엔진은 키워드 자체를 소스 문서에 나타낼 수 있다. 다른 실시예에서, 광고에 대한 의미는 영역 의미와 부합된다. 상기 실시예에서, 콘텐츠 엔진(146)은 소스 문서에 부합된 광고를 나타낼 수 있다. 다른 실시예에서, 웹 페이지에 대한 의미가 영역 의미에 부합된다. 상기 실시예에서, 콘텐츠 엔진(146)은 웹 페이지와 연관된 광고를 나타낼 수 있다. 일 실시예에서, 광고나 키워드는 그들이 부합된 콘텐츠 영역에 나타낸다.
상기 기술이 많은 한정을 포함하고 있지만, 이러한 한정은 본 발명의 범위에 대한 한정으로써 해석되어서는 안 되며, 단지 공지된 실시예의 예시로써 해석되어야 한다. 업계의 기술자면 본 발명의 범위 내에서 많은 가능한 변경을 상상할 것이다.

Claims (40)

  1. 컴퓨터 시스템 또는 컴퓨터 프로세서의 네트워크에서 구현되는 문서의 의미를 결정하는 방법에 있어서, 상기 방법은:
    소스 자료를 수신하는 단계;
    소스 자료에서 다수의 영역을 식별하는 단계;
    각 영역에 표시된 적어도 하나의 로컬 컨셉을 결정하는 단계;
    각 영역의 로컬 컨셉을 분석하여 1개 이상의 무관계 컨셉을 식별하는 단계;
    소스 자료에 대한 소스 의미의 결정으로부터 무관계 컨셉을 제거하는 단계; 및
    소스 의미와 아이템 의미 간의 연관관계에 적어도 부분적으로 기초한 아이템 세트로부터 선택된 아이템에 상기 소스 자료를 부합시키는 단계를 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  2. 제1항에 있어서, 소스 자료에 부합된 아이템을 디스플레이 장치에 나타내는 단계를 추가로 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  3. 제2항에 있어서, 상기 소스 자료는 웹 페이지를 포함하고, 부합된 아이템은 키워드를 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  4. 제2항에 있어서, 소스 자료는 웹 페이지를 포함하고, 부합된 아이템은 광고를 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  5. 제1항에 있어서, 소스 자료에 부합된 아이템과 연관된 콘텐츠를 디스플레이 장치에 나타내는 단계를 추가로 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  6. 제5항에 있어서, 소스 자료는 웹 페이지를 포함하고, 부합된 아이템은 키워드를 포함하며, 연관된 콘텐츠는 광고를 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  7. 제5항에 있어서, 소스 자료는 제1웹 페이지를 포함하고, 부합된 아이템은 제2웹 페이지를 포함하며, 연관된 콘텐츠는 광고를 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  8. 제5항에 있어서, 소스 자료는 제1웹 페이지를 포함하고, 부합된 아이템은 제2웹 페이지를 포함하며, 연관된 콘텐츠는 제2웹 페이지에 대한 링크를 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  9. 제1항에 있어서, 소스 자료를 아이템에 부합시키는 단계는 편향 요소를 사용하는 아이템에 소스 자료를 부합시키는 단계를 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  10. 제1항에 있어서, 소스 의미는 가중된 컨셉의 벡터를 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  11. 제1항에 있어서, 적어도 하나의 로컬 컨셉을 결정하는 단계는 각 로컬 컨셉에 대한 점수를 결정하는 단계를 포함하며, 각 영역에서 가장 높은 점수를 받은 로컬 컨셉은 그 영역에 대해 가장 밀접한 관계로 있는 로컬 컨셉을 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  12. 제11항에 있어서, 무관계 영역을 식별하는 단계는:
    각 로컬 컨셉에 대한 수정된 점수를 결정하는 단계;
    수정된 점수에 기초하여 모든 로컬 컨셉의 등급이 매겨진 전체 리스트를 결정하는 단계;
    전체 리스트의 미리 정해진 양의 총 점수보다 낮게 기여하는 결합된 수정된 점수를 가진 로칼 컨셉을 제거하여 결과 리스트를 생성하는 단계;
    결과 리스트에서 최고 관계 로컬 컨셉을 갖지 않은 무관계 영역을 식별하는 단계; 및
    결과 리스트로부터 무관계 영역에 표시된 로컬 컨셉을 제거하여 연관 컨셉의 리스트를 생성하는 단계를 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  13. 제12항에 있어서, 소스 의미를 결정하는 단계는 연관 컨셉에 대한 수정된 점수를 표준화하는 단계를 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  14. 컴퓨터 시스템 또는 컴퓨터 프로세서의 네트워크가 작업하도록 운영되는 프로그램 코드를 포함하는 1개 이상의 컴퓨터-판독 매체에 있어서, 상기 컴퓨터 시스템 또는 컴퓨터 프로세서의 네트워크의 작업은:
    소스 자료를 수신하고;
    소스 자료에서 다수의 영역을 식별하고;
    각 영역에 표시된 적어도 하나의 로컬 컨셉을 결정하고;
    각 영역의 로컬 컨셉을 분석하여 무관계 컨셉을 식별하고;
    소스 자료에 대한 소스 의미의 결정으로부터 무관계 컨셉을 제거하고;
    소스 의미와 아이템 의미 간의 연관관계에 적어도 부분적으로 기초한 아이템 세트로부터 선택된 아이템에 상기 소스 자료를 부합시키는 것을 포함하는 것을 특징으로 하는 1개 이상의 컴퓨터-판독 매체.
  15. 제14항에 있어서, 상기 작업이 소스 자료에 부합된 아이템을 디스플레이 장치에 나타내는 것을 추가로 포함하는 것을 특징으로 하는 1개 이상의 컴퓨터-판독 매체.
  16. 제15항에 있어서, 소스 자료는 웹 페이지를 포함하며, 부합된 아이템은 키워드를 포함하는 것을 특징으로 하는 1개 이상의 컴퓨터-판독 매체.
  17. 제15항에 있어서, 소스 자료는 웹 페이지를 포함하며, 부합된 아이템은 광고를 포함하는 것을 특징으로 하는 1개 이상의 컴퓨터-판독 매체.
  18. 제14항에 있어서, 상기 작업은 소스 자료에 부합된 아이템과 연관된 콘텐츠를 디스플레이 장치에 나타내는 것을 추가로 포함하는 것을 특징으로 하는 1개 이상의 컴퓨터-판독 매체.
  19. 제18항에 있어서, 소스 자료는 웹 페이지를 포함하고, 부합된 아이템은 키워드를 포함하며, 연관된 콘텐츠는 광고를 포함하는 것을 특징으로 하는 1개 이상의 컴퓨터-판독 매체.
  20. 제18항에 있어서, 소스 자료는 제1웹 페이지를 포함하고, 부합된 아이템은 제2웹 페이지를 포함하며, 연관된 콘텐츠는 광고를 포함하는 것을 특징으로 하는 1개 이상의 컴퓨터-판독 매체.
  21. 제18항에 있어서, 소스 자료는 제1웹 페이지를 포함하며, 부합된 아이템은 제2웹 페이지를 포함하며, 연관된 콘텐츠는 제2웹 페이지에 대한 링크를 포함하는 것을 특징으로 하는 1개 이상의 컴퓨터-판독 매체.
  22. 제14항에 있어서, 아이템에 대한 소스 자료의 부합은 편향 요소를 사용하는 아이템에 소스 자료를 부합하는 것을 포함하는 것을 특징으로 하는 1개 이상의 컴퓨터-판독 매체.
  23. 제14항에 있어서, 소스 의미는 가중된 컨셉의 벡터를 포함하는 것을 특징으로 하는 1개 이상의 컴퓨터-판독 매체.
  24. 제14항에 있어서, 무관계 컨셉의 제거는 연관된 로컬 컨셉의 등급을 매기는 것을 포함하는 것을 특징으로 하는 1개 이상의 컴퓨터-판독 매체.
  25. 제1항에 있어서, 적어도 하나의 로컬 컨셉을 결정하는 단계는 각각의 로컬 컨셉에 대한 점수를 결정하는 단계를 포함하고, 각각의 영역에서 최고 점수를 받은 로컬 컨셉은 그 영역에서 최고 연관된 로컬 컨셉을 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  26. 제25항에 있어서, 무관계 영역을 식별하는 단계는:
    각 로컬 컨셉에 대한 수정된 점수를 결정하는 단계;
    수정된 점수에 기초하여 모든 로컬 컨셉의 등급이 매겨진 전체 리스트를 결정하는 단계;
    전체 리스트의 미리 정해진 양의 총 점수보다 적게 기여하는 결합된 수정 점수를 가진 로컬 컨셉을 제거하여 결과 리스트를 생성하는 단계;
    결과 리스트에서 최고 연관된 로컬 컨셉을 갖지 않은 무관계 영역을 식별하는 단계;
    결과 리스트로부터 무관계 영역에 나타난 로컬 컨셉을 제거하여 연관 컨셉의 리스트를 생성하는 단계를 포함하는 것을 특징으로 문서의 의미를 결정하는 방법.
  27. 제26항에 있어서, 소스 의미를 결정하는 단계는 연관 컨셉에 대한 수정된 점수를 표준화하는 단계를 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  28. 컴퓨터 시스템 또는 컴퓨터 프로세서의 네트워크에서 구현되는 문서의 의미를 결정하는 방법에 있어서, 상기 방법은:
    소스 자료에 접속하는 단계;
    소스 자료에서 제1콘텐츠 영역과 제2콘텐츠 영역을 식별하는 단계;
    제1콘텐츠 영역에 표시된 제1로컬 컨셉을 결정하며, 제2콘텐츠 영역에 표시된 제2로컬 컨셉을 결정하는 단계;
    제1로컬 컨셉에 적어도 부분적으로 기초한 광고 수집물로부터의 제1광고에 제1콘텐츠 영역을 부합시키는 단계;
    제2로컬 컨셉에 적어도 부분적으로 기초한 광고 수집물로부터의 제2광고에 제2콘텐츠 영역을 부합시키는 단계;
    소스 자료에 부합된 광고를 디스플레이 장치에 나타내는 단계를 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  29. 삭제
  30. 제28항에 있어서, 부합된 광고를 나타내는 단계는:
    제1콘텐츠 영역에 제1광고를 디스플레이 장치에 나타내는 단계; 및
    제2콘텐츠 영역에 제2아이템 광고를 디스플레이 장치에 나타내는 단계를 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  31. 제28항에 있어서, 소스 자료는 웹 페이지를 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 컴퓨터 시스템 또는 컴퓨터 프로세서의 네트워크에서 구현되는 문서의 의미를 결정하는 방법에 있어서, 상기 방법은:
    문서를 수신하는 단계;
    문서에서 다른 영역의 수집물을 식별하는 단계;
    수집물에서 다른 영역의 각각의 영역에 표시된 컨셉을 결정하는 단계;
    제1컨셉이 수집물에 다른 영역에 표시된 컨셉과 무관계로 있는, 제1영역에 표시된 제1컨셉을 식별하는 단계;
    문서에 대한 소스 의미의 결정으로부터 제1컨셉을 배제시키는 단계;
    문서에 대한 소스 의미를 결정하는 단계; 및
    유저가 이용할 수 있는 소스 의미를 만드는 단계를 포함하는 것을 특징으로 하는 문서의 의미를 결정하는 방법.
  37. 제36항에 있어서, 문서에 다른 영역의 수집물을 식별하는 단계는 웹 페이지 문서에서의 프레임을 식별하는 단계를 포함하는 것을 특징으로 문서의 의미를 결정하는 방법.
  38. 제36항에 있어서, 문서에 다른 영역의 수집물을 식별하는 단계는 문서에서의 마크업에 기초한 다른 영역을 식별하는 단계를 포함하는 것을 특징으로 문서의 의미를 결정하는 방법.
  39. 제36항에 있어서, 컨셉을 결정하는 단계는 수집물에서 다른 영역의 각각에서의 관련된 워드의 수집물을 식별하는 단계를 포함하는 것을 특징으로 문서의 의미를 결정하는 방법.
  40. 제36항에 있어서, 수집물에서의 다른 영역의 각각에 표시된 컨셉에 기초하여, 1개 이상의 광고를 선택하는 단계; 및
    유저에게 출력하는데 이용할 수 있는 문서와 선택된 광고를 만드는 단계를 부가로 포함하는 것을 특징으로 문서의 의미를 결정하는 방법.
KR1020067001863A 2003-07-30 2004-07-23 문서가 콘텐츠에 부합하게 문서의 의미를 결정하는 방법 및 시스템 KR101132942B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US49142203P 2003-07-30 2003-07-30
US60/491,422 2003-07-30
US10/689,903 2003-10-21
US10/689,903 US8914361B2 (en) 1999-09-22 2003-10-21 Methods and systems for determining a meaning of a document to match the document to content
PCT/US2004/023827 WO2005013150A1 (en) 2003-07-30 2004-07-23 Methods and systems for determining a meaning of a document to match the document to content

Publications (2)

Publication Number Publication Date
KR20060059986A KR20060059986A (ko) 2006-06-02
KR101132942B1 true KR101132942B1 (ko) 2012-04-05

Family

ID=34118862

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067001863A KR101132942B1 (ko) 2003-07-30 2004-07-23 문서가 콘텐츠에 부합하게 문서의 의미를 결정하는 방법 및 시스템

Country Status (7)

Country Link
US (1) US8914361B2 (ko)
EP (1) EP1649396A1 (ko)
KR (1) KR101132942B1 (ko)
AU (2) AU2004262303B2 (ko)
BR (1) BRPI0413097A (ko)
CA (1) CA2534062C (ko)
WO (1) WO2005013150A1 (ko)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7925610B2 (en) * 1999-09-22 2011-04-12 Google Inc. Determining a meaning of a knowledge item using document-based information
US20090015596A1 (en) * 2002-06-27 2009-01-15 Tele Atlas North America, Inc. System and method for viewing and editing digital maps using a plug-in data abstraction layer for different digital map formats
US20050149388A1 (en) * 2003-12-30 2005-07-07 Scholl Nathaniel B. Method and system for placing advertisements based on selection of links that are not prominently displayed
US8655727B2 (en) * 2003-12-30 2014-02-18 Amazon Technologies, Inc. Method and system for generating and placing keyword-targeted advertisements
US7293005B2 (en) * 2004-01-26 2007-11-06 International Business Machines Corporation Pipelined architecture for global analysis and index building
US8296304B2 (en) 2004-01-26 2012-10-23 International Business Machines Corporation Method, system, and program for handling redirects in a search engine
US7499913B2 (en) * 2004-01-26 2009-03-03 International Business Machines Corporation Method for handling anchor text
US7424467B2 (en) 2004-01-26 2008-09-09 International Business Machines Corporation Architecture for an indexer with fixed width sort and variable width sort
US7752200B2 (en) * 2004-08-09 2010-07-06 Amazon Technologies, Inc. Method and system for identifying keywords for use in placing keyword-targeted advertisements
US7461064B2 (en) 2004-09-24 2008-12-02 International Buiness Machines Corporation Method for searching documents for ranges of numeric values
US8015184B2 (en) * 2004-10-26 2011-09-06 Yahoo! Inc. Method and apparatus for a search-enabled remote control device
US10482474B1 (en) * 2005-01-19 2019-11-19 A9.Com, Inc. Advertising database system and method
US8417693B2 (en) * 2005-07-14 2013-04-09 International Business Machines Corporation Enforcing native access control to indexed documents
US8272058B2 (en) 2005-07-29 2012-09-18 Bit 9, Inc. Centralized timed analysis in a network security system
US7895651B2 (en) 2005-07-29 2011-02-22 Bit 9, Inc. Content tracking in a network security system
US8984636B2 (en) 2005-07-29 2015-03-17 Bit9, Inc. Content extractor and analysis system
US20070150477A1 (en) * 2005-12-22 2007-06-28 International Business Machines Corporation Validating a uniform resource locator ('URL') in a document
JP4743766B2 (ja) * 2006-02-28 2011-08-10 株式会社ヴァリアスデザイン 印象判定システム、広告記事生成システム、印象判定方法、広告記事生成方法、印象判定プログラムおよび広告記事生成プログラム
JP4728149B2 (ja) * 2006-03-09 2011-07-20 ヤフー株式会社 広告提示システムおよび広告提示方法
US7933890B2 (en) * 2006-03-31 2011-04-26 Google Inc. Propagating useful information among related web pages, such as web pages of a website
US7996777B2 (en) * 2006-04-20 2011-08-09 Google Inc. Syndicated trackable ad content
US8788320B1 (en) 2007-03-28 2014-07-22 Amazon Technologies, Inc. Release advertisement system
US8533202B2 (en) * 2009-07-07 2013-09-10 Yahoo! Inc. Entropy-based mixing and personalization
EP2561452A4 (en) * 2010-04-19 2015-10-28 Hewlett Packard Development Co SEMANTIC CLASSIFICATION OF CONTENT IN A WEB SITE
US9240020B2 (en) 2010-08-24 2016-01-19 Yahoo! Inc. Method of recommending content via social signals
RU2592395C2 (ru) * 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
CN104866465B (zh) * 2014-02-25 2017-11-03 腾讯科技(深圳)有限公司 敏感文本检测方法及装置
US20160343086A1 (en) * 2015-05-19 2016-11-24 Xerox Corporation System and method for facilitating interpretation of financial statements in 10k reports by linking numbers to their context
KR101931859B1 (ko) * 2016-09-29 2018-12-21 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6473730B1 (en) * 1999-04-12 2002-10-29 The Trustees Of Columbia University In The City Of New York Method and system for topical segmentation, segment significance and segment function

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5404506A (en) 1985-03-27 1995-04-04 Hitachi, Ltd. Knowledge based information retrieval system
US4839853A (en) 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
US5325298A (en) 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
US5619709A (en) 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5499360A (en) 1994-02-28 1996-03-12 Panasonic Technolgies, Inc. Method for proximity searching with range testing and range adjustment
US5687364A (en) * 1994-09-16 1997-11-11 Xerox Corporation Method for learning to infer the topical content of documents based upon their lexical content
US5724571A (en) 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US6067552A (en) 1995-08-21 2000-05-23 Cnet, Inc. User interface system and method for browsing a hypertext database
US5778367A (en) * 1995-12-14 1998-07-07 Network Engineering Software, Inc. Automated on-line information service and directory, particularly for the world wide web
US5778364A (en) 1996-01-02 1998-07-07 Verity, Inc. Evaluation of content of a data set using multiple and/or complex queries
US5848396A (en) 1996-04-26 1998-12-08 Freedom Of Information, Inc. Method and apparatus for determining behavioral profile of a computer user
US6101515A (en) 1996-05-31 2000-08-08 Oracle Corporation Learning system for classification of terminology
US5778363A (en) 1996-12-30 1998-07-07 Intel Corporation Method for measuring thresholded relevance of a document to a specified topic
US5960383A (en) 1997-02-25 1999-09-28 Digital Equipment Corporation Extraction of key sections from texts using automatic indexing techniques
US6119164A (en) 1997-04-15 2000-09-12 Full Circle Software, Inc. Method and apparatus for distributing over a network unsolicited information to a targeted audience
US5878223A (en) 1997-05-07 1999-03-02 International Business Machines Corporation System and method for predictive caching of information pages
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US5845278A (en) 1997-09-12 1998-12-01 Inioseek Corporation Method for automatically selecting collections to search in full text searches
US5974412A (en) 1997-09-24 1999-10-26 Sapient Health Network Intelligent query system for automatically indexing information in a database and automatically categorizing users
US6134532A (en) 1997-11-14 2000-10-17 Aptex Software, Inc. System and method for optimal adaptive matching of users to most relevant entity and information in real-time
US6289342B1 (en) 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6421675B1 (en) 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US6044375A (en) 1998-04-30 2000-03-28 Hewlett-Packard Company Automatic extraction of metadata using a neural network
ATE263988T1 (de) * 1998-06-08 2004-04-15 Kcsl Inc Methode und verfahren um relevante dokumente in einer datenbank zu finden
US6298348B1 (en) 1998-12-03 2001-10-02 Expanse Networks, Inc. Consumer profiling system
US6324519B1 (en) 1999-03-12 2001-11-27 Expanse Networks, Inc. Advertisement auction system
IT1303603B1 (it) 1998-12-16 2000-11-14 Giovanni Sacco Procedimento a tassonomia dinamica per il reperimento di informazionisu grandi banche dati eterogenee.
US6484161B1 (en) * 1999-03-31 2002-11-19 Verizon Laboratories Inc. Method and system for performing online data queries in a distributed computer system
US6269361B1 (en) 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US7065500B2 (en) 1999-05-28 2006-06-20 Overture Services, Inc. Automatic advertiser notification for a system for providing place and price protection in a search result list generated by a computer network search engine
US6314419B1 (en) 1999-06-04 2001-11-06 Oracle Corporation Methods and apparatus for generating query feedback based on co-occurrence patterns
AU6200300A (en) 1999-06-24 2001-01-09 Simpli.Com Search engine interface
US6453315B1 (en) 1999-09-22 2002-09-17 Applied Semantics, Inc. Meaning-based information organization and retrieval
US6651058B1 (en) 1999-11-15 2003-11-18 International Business Machines Corporation System and method of automatic discovery of terms in a document that are relevant to a given target topic
US6691108B2 (en) 1999-12-14 2004-02-10 Nec Corporation Focused search engine and method
JP3479020B2 (ja) * 2000-01-28 2003-12-15 東京エレクトロン株式会社 熱処理装置
US20010047353A1 (en) 2000-03-30 2001-11-29 Iqbal Talib Methods and systems for enabling efficient search and retrieval of records from a collection of biological data
GB2362971B (en) 2000-05-30 2004-03-24 Com Nation Ltd A method of searching the internet and an internet search engine
GB0016974D0 (en) 2000-07-12 2000-08-30 Univ Salford The Document retrieval system
JP2002197083A (ja) * 2000-12-12 2002-07-12 Hewlett Packard Co <Hp> 文書分割方法
US6978264B2 (en) 2002-01-03 2005-12-20 Microsoft Corporation System and method for performing a search and a browse on a query
US7024624B2 (en) 2002-01-07 2006-04-04 Kenneth James Hintz Lexicon-based new idea detector

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6473730B1 (en) * 1999-04-12 2002-10-29 The Trustees Of Columbia University In The City Of New York Method and system for topical segmentation, segment significance and segment function

Also Published As

Publication number Publication date
US20040243581A1 (en) 2004-12-02
EP1649396A1 (en) 2006-04-26
CA2534062A1 (en) 2005-02-10
BRPI0413097A (pt) 2006-10-03
AU2010241249A1 (en) 2010-11-25
CA2534062C (en) 2013-09-17
US8914361B2 (en) 2014-12-16
WO2005013150A1 (en) 2005-02-10
AU2004262303A1 (en) 2005-02-10
KR20060059986A (ko) 2006-06-02
AU2010241249B2 (en) 2011-07-14
AU2004262303B2 (en) 2010-08-05

Similar Documents

Publication Publication Date Title
KR101132942B1 (ko) 문서가 콘텐츠에 부합하게 문서의 의미를 결정하는 방법 및 시스템
US8321278B2 (en) Targeted advertisements based on user profiles and page profile
AU2004262302B2 (en) Methods and systems for understanding a meaning of a knowledge item using information associated with the knowledge item
US20200051093A1 (en) Discovering relevant concept and context for content node
US7849081B1 (en) Document analyzer and metadata generation and use
US8538989B1 (en) Assigning weights to parts of a document
KR101639773B1 (ko) 불충분한 탐색 콘텐츠 식별
US20050267872A1 (en) System and method for automated mapping of items to documents
US20050222989A1 (en) Results based personalization of advertisements in a search engine
JP2009521750A (ja) コンテキストを決定するためのコンテンツの分析およびコンテキストに基づく関係のあるコンテンツの供給
JP2008234640A (ja) コンテキスト広告情報を露出する広告方法及びそのシステム
JP5442401B2 (ja) 行動情報抽出システム及び抽出方法
US20130110594A1 (en) Ad copy determination
JP4825669B2 (ja) 文書の意味を決定して文書とコンテンツを一致させる方法及びシステム
Agrawal et al. FACT-Fine grained Assessment of web page CredibiliTy
AU2012202738B2 (en) Results based personalization of advertisements in a search engine
US8676790B1 (en) Methods and systems for improving search rankings using advertising data
AU2011235994A1 (en) Methods and systems for determining a meaning of a document to match the document to content

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150309

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160310

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170317

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180309

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190314

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20200313

Year of fee payment: 9