KR20040053369A - 정보 해석 방법 및 장치 - Google Patents

정보 해석 방법 및 장치 Download PDF

Info

Publication number
KR20040053369A
KR20040053369A KR10-2004-7007958A KR20047007958A KR20040053369A KR 20040053369 A KR20040053369 A KR 20040053369A KR 20047007958 A KR20047007958 A KR 20047007958A KR 20040053369 A KR20040053369 A KR 20040053369A
Authority
KR
South Korea
Prior art keywords
individual
opinion
search
content information
specifying
Prior art date
Application number
KR10-2004-7007958A
Other languages
English (en)
Other versions
KR100883261B1 (ko
Inventor
간지 우찌노
유끼 구메
Original Assignee
후지쯔 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후지쯔 가부시끼가이샤 filed Critical 후지쯔 가부시끼가이샤
Publication of KR20040053369A publication Critical patent/KR20040053369A/ko
Application granted granted Critical
Publication of KR100883261B1 publication Critical patent/KR100883261B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 대량 정보 중에서 자동적으로 주목해야 할 정보를 추출하는 것이다. 수집된 콘텐츠 정보 중에서 Web 페이지나 게시판에 있어서의 발언인 개인의 의견의 개시 단위를 추출하고, 해당 개인의 의견의 개시 단위를 특정하기 위한 정보(URL이나 발언 번호)를 등록한다. 다음으로, 개인의 의견의 대상(회사명이나 업종)을 특정한다. 그리고, 개인의 의견의 개시 내용을 해석함으로써 대상에 대한 개인의 평가(좋은 평가/나쁜 평가)를 특정한다. 또한, 피참조도 랭킹이나 의견의 근거나 발언자의 신원을 나타내는 정보가 포함되어 있는지에 기초하여 신뢰도를 결정하는 처리를 실시한다. 이에 의해, 개인의 의견의 특성인 대상에 대한 평가 등이 제시 가능하게 된다. 또한, 개인의 의견의 대상에 대한 평가 중, 예를 들면 나쁜 평가만을 추출할 수 있게 된다. 또한, 피참조도 랭킹이나 신뢰도에 의해 영향도가 높은 주목해야 할 의견을 탐색해 낼 수도 있다.

Description

정보 해석 방법 및 장치{INFORMATION ANALYSIS METHOD AND APPARATUS}
인터넷에 개시되어 있는 정보 중에서 기업에 대한 비방중상을 문서 검색 툴로 자동적으로 추출하는 것은 이전부터 행해지고 있었다. 그러나, 키워드를 지정한 후에 웹(Web) 페이지를 순회하여 추출하거나, 사전에 검색 대상의 URL(Uniform Resource Locator)을 지정해 둬 추출하는 방법을 채용하고 있다. 즉, 수집된 정보가 좋은 평가의 정보인지 나쁜 평가의 정보인지 등의 판단은 이루어져 있지 않다. 또한, 수집된 정보의 영향력에 관한 정보도 얻어지지 않는다. 그 때문에, 주가 조작을 위한 「풍설의 유포」를 찾아내기 위해서는 적당하지 않다.
또한, 미국 특허 제6438632호는, 이용자 컴퓨터로부터 보내져 오는 전자 게시판에의 게재 희망 메시지의 내용을 자동적으로 검사하는 기능을 갖는 전자 게시판 시스템을 개시하고 있다. 즉, 이용자 컴퓨터로부터 보내져 오는 전자 게시판에 게재 희망하는 메시지에 대하여, 전자 게시판에 게재하는 것은 부적당하다고 하여 사전에 선출된 용어가 등록되어 있는 게시 금지 용어집에 대조하여 검사를 행한다. 게재 희망 메시지에 게재 금지 용어집 내의 용어가 포함되어 있지 않은 경우, 해당메시지를 전자 게시판에 등록한다. 한편, 게재 금지 용어집 내의 용어가 포함되어 있는 경우에는, 이용자 컴퓨터에 대하여 메시지를 게재할 수 없는 취지를 통지한다. 또한, 이 때, 운영 관리인 컴퓨터에 메시지의 게재를 거부한 사상을 통지한다. 이러한 기술에서는 게시판에의 게재의 가부를 판단할 수는 있지만, 게재 가능하다고 판단된 것의 내용에 대하여 자동적으로 해석하는 것은 아니다.
〈발명의 개시〉
이와 같이 종래의 기술에서는 방대한 정보 중에서 구체적으로 지정된 정보를 추출할 수는 있지만, 주목해야 할 정보를 자동적으로 추출할 수는 없고, 또한 추출된 정보의 해석·분석은 사람의 손에 의존해야 했다. 이로서는 추가적인 작업없이, 사용자는 추출된 정보의 특성이나 정보의 소스 등을 얻을 수 없다.
따라서, 본 발명의 목적은 대량 정보 중에서 자동적으로 주목해야 할 정보를 추출하기 위한 신규한 기술을 제공하는 것이다.
또한, 본 발명의 다른 목적은, 대량 정보 중에서 특정한 정보를 추출하고, 추출된 정보의 특성을 제시 가능하게 하기 위한 기술을 제공하는 것이다.
또한, 본 발명의 또 다른 목적은, 대량 정보 중에서 특정한 정보를 추출하고, 추출된 정보의 신뢰도나 영향도를 제시 가능하게 하기 위한 기술을 제공하는 것이다.
또한, 본 발명의 또 다른 목적은, 대량 정보 중에서 특정한 정보를 추출하고, 추출된 정보의 소스를 탐색하기 위한 기술을 제공하는 것이다.
본 발명에 따른 콘텐츠 정보 해석 방법은, 수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위(예를 들면, 개인 Web 페이지, 개인 또는 소규모 조직에 의한 사이트, 게시판에서의 발언 등)를 추출하여, 해당 개인의 의견의 개시 단위를 특정하기 위한 정보(예를 들면, URL이나 발언 번호 등)를 기억 장치에 저장하는 추출 단계와, 개인의 의견의 대상(예를 들면, 회사명이나 업종, 상품명 등)을 특정하여, 기억 장치에 저장하는 대상 특정 단계와, 개인의 의견의 개시 내용을 해석함으로써 대상에 대한 개인의 평가(예를 들면, 좋은 평가 또는 나쁜 평가)를 특정하고, 기억 장치에 저장하는 평가 특정 단계를 포함한다. 이에 의해, 추출된 개인의 의견의 특성인, 대상에 대한 평가를 제시 가능하게 된다. 예를 들면, 개인의 의견의 대상에 대한 평가 중, 예를 들면 나쁜 평가만을 추출할 수 있게 된다.
또한, 상술한 추출 단계를 개인의 의견이 포함되는 콘텐츠 정보의 단위(예를 들면, 1 Web 페이지)를 특정하는 특정 단계와, 특정된 콘텐츠 정보의 단위로부터 개인의 의견의 개시 단위를 추출하는 단계를 포함하는 구성으로 할 수도 있다. 예를 들면, 게시판의 Web 사이트나 개인 홈페이지를 추출한 후, 개인의 의견의 개시 단위인 발언 등을 분리하는 것이다.
또한, 상술한 특정 단계가 콘텐츠 정보의 단위별 피참조도가 높은 순서대로 실시되는 구성으로 할 수도 있다. 피참조도가 높다는 것은, 많은 사람이 볼 가능성이 높아 영향도가 높은 콘텐츠 정보이므로, 영향도가 높은 콘텐츠 정보를 보다 우선적으로 처리하는 것이다. 또한, 영향도 자체를 주목해야 할 정보인지 아닌지의 지표로 하는 경우도 있다.
또한, 상술한 추출 단계를 개인의 의견의 참조원을 찾아감으로써 개인 의견의 개시 단위의 그룹(예를 들면, 실시 형태에서의 쓰레드)을 검출하여, 해당 그룹을 특정하기 위한 정보를 기억 장치에 저장하는 단계를 포함하는 구성으로 할 수도 있다. 개인의 발언뿐만 아니라, 발언의 통합으로서도 주목해야 할 것도 존재하기 때문이다.
또한, 상술한 추출 단계를 개인의 의견의 대상에 대한 카테고리(예를 들면, 업종)를 특정하여, 기억 장치에 저장하는 카테고리 특정 단계를 포함하는 구성으로 할 수도 있다. 이에 의해, 추출된 개인의 의견의 특성인 카테고리를 제시 가능하게 된다. 예를 들면, 업종별로 주목해야 할 정보나 평가의 표현이나 뉘앙스가 다른 경우도 있어, 업종별 분류 등도 유용하다.
또한, 본 발명에서, 개인의 의견의 근거가 될 수 있는 정보(예를 들면, 참조하고 있는 발언이나 Web 사이트, 신문·잡지의 내용 등)가 해당 개인의 의견의 개시 단위에 포함되는지 판단하여, 포함되는 경우에는 해당 근거가 될 수 있는 정보를 기억 장치에 저장하는 단계를 더 포함하는 구성이어도 된다. 이에 의해, 추출된 개인의 의견의 특성인 정보의 소스를 제시 가능하게 된다. 정보의 출처를 조사할 필요가 있는 경우에는 매우 유용하다.
또한, 본 발명에서, 개인의 의견의 개시 단위의 신뢰도를 결정하여, 기억 장치에 저장하는 신뢰도 결정 단계를 더 포함하는 구성이어도 된다. 이에 의해, 추출된 개인의 의견의 특성인 신뢰도를 제시 가능하게 된다. 신뢰할 수 있는 정보인 것인지 신뢰할 수 없는 정보인 것인지의 기준을 얻을 수 있게 된다. 신뢰도가 높은 것을 주목해야 할 정보로서 추출하는 경우도 있다.
또, 상술한 신뢰도 결정 단계를 개인의 의견의 개시 단위에 개인의 신원(예를 들면, 메일 어드레스, 핸들명 등)을 나타내는 정보가 포함되어 있는지 판단하는 단계를 포함하는 구성으로 할 수도 있다. 신원을 분명히 해서라도 공표할 수 있는 정보에 대해서는 신뢰할 수 있는 것으로 판단할 수 있기 때문이다.
또한, 상술한 신뢰도 결정 단계를 개인의 의견의 근거가 될 수 있는 정보가 해당 개인의 의견의 개시 단위에 포함되어 있는지 판단하는 단계를 포함하는 구성으로 할 수도 있다. 근거가 분명하면, 신뢰할 수 있는 정보라고 판단할 수 있기 때문이다.
또한, 본 발명의 제1 양태에서, 각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 해석하고, 액세스 수 및 검색 키워드의 종류 수에 기초하여 개인 홈페이지를 계층 하에 포함하는 사이트를 특정하는 단계와, 특정된 사이트의 계층 하에 포함되는 개인 홈페이지를 상기 개인의 의견의 개시 단위로서 추출하는 단계를 더 포함하는 구성이어도 된다.
또한, 본 발명의 제1 양태에서, 각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 해석하고, 액세스 수 및 검색 키워드의 종류 수에 기초하여 개인 또는 소규모 조직의 사이트를 개인의 의견의 개시 단위로서 추출하는 단계를 더 실행시키는 구성이어도 된다.
본 발명의 제2 양태에 따른 콘텐츠 정보 해석 방법은, 수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위를 추출하여, 해당 개인의 의견의 개시 단위를 특정하기 위한 정보를 기억 장치에 저장하는 추출 단계와, 개인의 의견의 대상을 특정하여, 기억 장치에 저장하는 대상 특정 단계와, 개인의 의견의 개시 단위의 신뢰도를 결정하여, 기억 장치에 저장하는 신뢰도 결정 단계를 포함한다. 이에 의해, 예를 들면 신뢰도가 높은 개인의 의견을 추출할 수 있게 된다. 또, 개인의 의견 또는 개인의 의견을 포함하는 콘텐츠 정보의 피참조도를 영향도로서, 이를 자동 추출의 파라미터로서 취급하는 구성도 가능하다.
본 발명의 제3 양태에 따른 콘텐츠 정보 해석 방법은, 각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 취득하여, 메모리에 저장하는 단계와, 소정의 규칙에 따라 각 바로가기 URL에 대하여 액세스 수 및 검색 키워드의 종류 수를 카운트하고, 메모리에 카운트 결과를 저장하는 단계와, URL의 구조에 기초하여 특정되는 각 사이트에 대하여, 해당 사이트의 계층 하에 포함되는 바로가기 URL의 액세스 수 및 검색 키워드의 종류 수를 집계하여, 집계 결과를 메모리에 저장하는 단계와, 사이트에 대하여 집계된 액세스 수 및 검색 키워드의 종류 수에 기초하여, 해당 사이트의 종별을 판정하는 단계를 포함한다. 이에 의해, 예를 들면 인터넷 서비스 프로바이더의 사이트, 기업의 사이트, 개인 또는 소규모 조직의 사이트 등을 판별할 수 있게 된다. 인터넷 서비스 프로바이더의 사이트를 검출할 수 있으면, 개인 홈페이지(개인 Web 페이지라고도 함)도 검출할 수 있게 된다.
또한, URL과 기업명과 약칭과 업종에 대한 사전이나 각 업종에 대한 특징어를 구비하는 사전을 이용하여 개인의 의견의 대상(예를 들면, 기업)이나 대상의 카테고리(예를 들면, 업종이나 상품명 등)를 결정하는 경우가 있다. 이들 사전에 대해서도, 수집된 콘텐츠 정보 등을 해석함으로써, 자동적으로 구축할 수 있게 된다.
또, 상술한 방법은 컴퓨터로 실시할 수 있으며, 그를 위한 프로그램은, 예를 들면 플렉시블 디스크, CD-ROM, 광 자기 디스크, 반도체 메모리, 하드디스크 등의 기억 매체 또는 기억 장치에 저장된다. 또한, 프로그램은 네트워크 등을 통하여 디지털 신호로서 배신되는 경우도 있다. 또한, 중간적인 처리 결과는 메모리 등의 기억 장치에 일시 보관된다.
본 발명은 대량의 정보 중에서 특정한 정보를 자동적으로 추출하는 기술에 관한 것이다.
도 1은 본 발명의 일 실시 형태에 따른 시스템 개요를 설명하기 위한 도면.
도 2는 정보 수집 해석 시스템의 처리 흐름의 일례를 나타내는 도면.
도 3A 및 도 3B는 게시판 요소 저장부에 저장되는 데이터의 일례를 나타내는 도면.
도 4A, 도 4B 및 도 4C는 해석 데이터 저장부에 저장되는 데이터의 상태 변화의 일례를 나타내는 도면.
도 5는 업종 용어 사전 저장부에 저장되는 데이터의 일례를 나타내는 도면.
도 6은 발언의 추출 처리에 대한 처리 흐름의 일례를 나타내는 도면.
도 7은 쓰레드의 추출 처리에 대한 처리 흐름의 일례를 나타내는 도면.
도 8A 및 도 8B는 기업명 사전 저장부에 저장되는 데이터의 일례를 나타내는 도면.
도 9는 출처 탐색 처리에 대한 처리 흐름의 일례를 나타내는 도면.
도 10은 발언 및 쓰레드의 분석 처리에 대한 처리 흐름의 일례를 나타내는도면.
도 11은 룰 세트의 생성 처리 플로우의 일례를 나타내는 도면.
도 12는 통계 처리부의 처리 결과의 일례를 나타내는 도면.
도 13은 통계 처리부의 처리 결과의 일례를 나타내는 도면.
도 14는 사전 생성부의 기능 블록의 일례를 나타내는 도면.
도 15는 사전 생성부의 처리 플로우의 일례를 나타내는 도면.
도 16은 검색 로그 해석부의 처리 플로우의 일례를 나타내는 도면.
도 17은 검색 로그 해석부의 제1 로그 정규화 처리의 일례를 나타내는 도면.
도 18은 검색 로그 해석부의 제2 로그 정규화 처리의 일례를 나타내는 도면.
도 19는 검색 로그 해석부의 집계 처리의 일례를 나타내는 도면.
도 20은 검색 로그 해석부의 사이트 종별 판정 처리 및 등록 처리의 일례를 나타내는 도면.
도 21은 검색 로그 해석부의 처리 플로우의 일례를 나타내는 도면.
도 22는 통계 처리부 등의 처리 결과의 일례를 나타내는 도면.
〈발명을 실시하기 위한 최량의 형태〉
도 1에 본 발명의 일 실시 형태에 따른 시스템 개요를 도시한다. 컴퓨터 네트워크인 인터넷(1)에는 다수의 Web 서버(7)가 접속되어 있으며, Web 서버(7)는 방대한 양의 정보를 공개하고 있다. 또한, 인터넷(1)에는 Web 브라우저를 구비한 다수의 사용자 단말기(3)도 접속되어 있으며, 사용자는 사용자 단말기(3)를 조작하여, Web 서버(7)로 공개되어 있는 Web 페이지의 열람을 행한다. 또한, 인터넷(1)에는 사용자 단말기(3)를 조작하는 사용자가 Web 서버(7)로 공개되어 있는 방대한 양의 Web 페이지에 효율적으로 액세스하기 위한 서비스를 제공하는 하나 또는 복수의 검색 사이트 서버(9)도 접속되어 있으며, 해당 검색 사이트 서버(9)는 사용자 단말기(3)로부터 지시받은 검색 요구에 대응하는 검색 로그를 저장하는 검색 로그 저장부(91)를 갖고 있다. 또한, 기업 등은 인터넷(1)에 접속하기 위한 하나 또는 복수의 프록시 서버(8)를 설치하고 있으며, 해당 프록시 서버(8)는 사내의 LAN(Local Area Network)(81)을 통하여 사내 단말기(82, 83) 등에 접속하고 있다. 이 프록시 서버(8)는 통상의 프록시 서버와 동일하지만, 사내 단말기(82, 83)에 의한 인터넷(1)에의 액세스의 중계 로그를 저장하는 프록시 로그 저장부(84)를 갖고 있다.
본 실시의 형태에서의 주요 처리를 실시하는 정보 수집 해석 시스템(5)도 인터넷(1)에 접속되어 있다. 이 정보 수집 해석 시스템(5)은 특정한 사용자 대상으로 해석 결과를 제공함과 함께, 수집한 정보의 어카이브를 행하여, 사용자에게 어카이브된 정보에 대한 검색 기능을 제공하고 있다. 즉, 사용자 단말기(3)는 인터넷(1)을 통하여 정보 수집 해석 시스템(5)에 액세스하여, 이하에 설명하는 해석 결과를 취득하거나, 어카이브된 정보에 대한 검색 결과를 취득할 수 있다. 또, 검색 기능에 대해서는 설정되어 있지 않는 경우도 있다.
정보 수집 해석 시스템(5)에는 콘텐츠 수집 해석부(501)와, Web 페이지 분류부(502)와, 업종 판정부(503)와, 발언·쓰레드 추출부(504)와, 회사 특정부(505)와, 출처 탐색부(506)와, 발언·쓰레드 분석부(507)와, 통계 처리부(508)와, 사용자 인터페이스부(509)와, 사전 생성부(520)와, 검색부(521)가 포함된다.
콘텐츠 수집 해석부(501)는, 수집한 콘텐츠 정보 및 콘텐츠 정보에 대한 링크 관계의 해석 결과에 기초하는 피참조도를 랭킹 정보로 하여 어카이브(512)에 저장하여, 참조 관계에 대한 해석 결과인 링크 토폴로지 정보를 링크 토폴로지 DB(519)에 저장한다. Web 페이지 분류부(502)는 어카이브(512)에 저장된 정보를 이용하여, 또한 게시판 요소 저장부(513)에 저장된 게시판 요소 데이터를 참조하여 처리를 행하고, 처리 결과를, 예를 들면 업종 판정부(503)에 출력함과 함께 해석 데이터 저장부(510)에 저장한다. 업종 판정부(503)는, 예를 들면 Web 페이지 분류부(502)의 출력을 이용하여, 또한 업종 용어 사전 저장부(514)에 저장된 업종 용어 사전을 참조하여 처리를 행하고, 처리 결과를, 예를 들면 발언·쓰레드 추출부(504)에 출력함과 함께 해석 데이터 저장부(510)에 저장한다.
발언·쓰레드 추출부(504)는, 예를 들면 업종 판정부(503)의 출력을 이용하여 처리를 행하고, 처리 결과를, 예를 들면 회사 특정부(505)에 출력함과 함께 해석 데이터 저장부(510)에 저장한다. 회사 특정부(505)는 발언·쓰레드 추출부(504)의 출력을 이용하여, 또한 기업명 사전 저장부(515)에 저장된 기업명 사전을 참조하여 처리를 행하고, 처리 결과를, 예를 들면 출처 탐색부(506)에 출력함과 함께 해석 데이터 저장부(510)에 저장한다. 출처 탐색부(506)는 회사 특정부(505)의 출력을 이용하여, 또한 매스 미디어 사전 저장부(516)에 저장된 매스 미디어 사전을 참조하여 처리를 행하고, 처리 결과를, 예를 들면 발언·쓰레드 분석부(507)에 출력함과 함께, 해석 데이터 저장부(510)에 저장한다.
발언·쓰레드 분석부(507)는, 출처 탐색부(506)의 출력을 이용하여, 또한 기업명 사전 저장부(515)에 저장된 기업명 사전과, 룰 세트 저장부(517)에 저장된 개인의 의견의 장르나 평가에 대한 룰의 데이터와, 게시판 등에서 핸들이 사용되고 있는 경우에는 핸들 DB(518)를 참조하여 처리를 행하고, 처리 결과를, 예를 들면 통계 처리부(508)에 출력함과 함께, 해석 데이터 저장부(510)에 출력한다. 통계 처리부(508)는 발언·쓰레드 분석부(507)로부터의 출력 또는 해석 데이터 저장부(510)에 저장된 정보를 이용하여 통계 처리를 행하고, 처리 결과를, 예를 들면 사용자 인터페이스부(509) 또는 해석 데이터 저장부(510)에 출력한다.
사용자 인터페이스부(509)는 사용자 단말기(3)로부터의 액세스에 따라, 해석 데이터 저장부(510)에 저장된 데이터나 통계 처리부(508)의 출력을 사용자 단말기(3)에 송신한다. 또한, 검색부(521)는 사용자 단말기(3)로부터의 검색 요구에 응답하여, 어카이브(512)에 저장된 데이터에 대하여 검색을 행하고, 검색 결과를 사용자 단말기(3)에 송신한다. 또한, 검색부(521)는 검색 로그를 검색 로그 저장부(511)에 저장한다. 사전 생성부(520)는 검색 로그 저장부(511), 어카이브(512) 및 링크 토폴로지 DB(519)를 참조하여, 업종 용어 사전을 생성하여 업종 용어 사전 저장부(514)에 저장함과 함께, 기업명 사전을 생성하여 기업명 사전 저장부(515)에 저장한다. 또한, 사전 생성부(520)는 프록시 서버(8)의 프록시 로그 저장부(84)에 저장된 데이터나 검색 사이트 서버(9)의 검색 로그 저장부(91)에 저장된 데이터를 취득하여 검색 로그 저장부(511)에 저장하고, 해당 취득한 데이터를 이용하여 처리를 행하는 경우도 있다. 즉, 업종 용어 사전의 데이터 항목을 생성하여 업종 용어 사전 저장부(514)에 저장함과 함께, 기업명 사전의 데이터 항목을 생성하여 기업명 사전 저장부(515)에 저장한다. 또한, 해석해야 할 URL을 특정하는 처리를 실시하여, Web 페이지 분류부(502)나 해석 데이터 저장부(510) 등에 처리 결과를 출력하는 경우도 있다.
콘텐츠 수집 해석부(501)는 인터넷(1)에 접속된 다수의 Web 서버(7)가 공개하고 있는 Web 페이지의 데이터를 수집하여, 링크에 의한 참조 관계를 해석함으로써, 각 Web 페이지의 피참조도로부터 랭킹값을 계산한다. 그리고, 수집한 Web 페이지의 데이터 및 피참조도 랭킹값을 어카이브(512)에 저장한다. 또한, 링크에 의한 참조 관계를 링크 토폴로지 데이터로서 링크 토폴로지 DB(519)에 저장한다. 이 콘텐츠 수집 해석부(501)의 처리는, 기존의 기술을 이용한 것으로써, 예를 들면 미국 특허 공개 공보2001-0020238-A1이나 일본 특허 공개 공보 특개2000-10996호에 개시되어 있는 것이므로, 이하, 상세하게 설명하지 않는다.
Web 페이지 분류부(502)는 어카이브(512)에 저장된 Web 페이지로부터, 개인 홈페이지나 게시판의 Web 페이지를 자동적으로 판별하기 위한 처리를 실시한다. 개인 홈페이지나 게시판의 Web 페이지는 개인의 의견이 개시되어 있는 콘텐츠 정보로서, 반드시 열람자가 많은 것은 아니지만, 「풍설의 유포」라는 관점에서는 묵인할 수 없어, 그 존재나 출처에 관한 정보를 축적해 두어야 되는 것이다. 이 처리에서는 개인 홈페이지나 게시판의 Web 페이지를 판별하기 위한 URL이나 URL의 일부분의 키워드인 게시판 요소 데이터를 저장한 게시판 요소 저장부(513)를 참조한다. 또한, Web 페이지 분류부(502)는 게시판 요소 데이터뿐만 아니라, 특정한CGI(Common Gateway Interface)의 사용을 판별하거나, Web 페이지의 HTML(Hyper Text Markup Language) 소스의 게시판 특유의 패턴을 검출하는 등의 처리도 행한다.
업종 판정부(503)는, 개인 홈페이지 또는 게시판의 Web 페이지라고 판정된 Web 페이지에 대하여, 업종 용어 사전 저장부(514)에 저장된 업종 용어 사전을 참조하여, 어느 업종의 키워드와 보다 많이 매칭하는지를 판단함으로써, 업종의 판별을 행한다.
발언·쓰레드 추출부(504)는 게시판의 Web 페이지에 포함되는 하나의 발언을 추출함과 함께, 몇 개인가의 발언이 종합되어 특정한 화제에 대한 의론을 구성하는 쓰레드를 추출한다. 이 처리에서는 HTML 소스의 소정의 태그의 반복 패턴으로부터 발언을 잘라낸다. 또한, 쓰레드에 대해서는 발언의 타이틀에 포함되는 「Re:」나 전의 또는 후의 발언에의 링크 등으로부터 추출한다. 개인 홈페이지에 대해서는 1개의 Web 페이지를 하나의 발언으로 취급하거나, 예를 들면 소정의 크기의 단락을 하나의 발언으로서 잘라낸다. 또, 1개의 Web 페이지를 쓰레드로서 취급하는 경우도 있다.
회사 특정부(505)는, 기업명 사전 저장부(515)에 저장된 기업명 사전을 이용하여, 발언이나 쓰레드 중에 나타나는 문자열로부터, 화제가 되고 있는 기업명을 특정한다. 기업명 사전에는 URL 기업명 사전과 약칭명 사전이 포함된다. URL 기업명 사전을 이용하여, 화제가 되고 있는 기업의 상표 코드나, 기업 URL을 특정해 두는 경우도 있다.
출처 탐색부(506)는 발언이나 개인 홈페이지 중에서, 발언의 근거가 될 수 있는 URL이나 신문·잡지 등 매스 미디어의 정보를 추출한다. 이 처리에서는 신문·잡지 등의 매스 미디어에 관련된 기업명이나, 신문·잡지명 등을 포함하는 매스 미디어 사전을 이용한다. 매스 미디어 사전은 매스 미디어 사전 저장부(516)에 저장되어 있다.
발언·쓰레드 분석부(507)는 발언·쓰레드의 내용을 분석하여, 발언·쓰레드의 화제의 장르(예를 들면, 제품 정보, 기업 정보, 주가 정보, 환경 활동 정보 등)나, 발언·쓰레드에 있어서 화제가 되고 있는 기업 등에 대한 평가의 정보를 취득한다. 평가에 대해서는, 예를 들면 좋은 평가인 것인지, 나쁜 평가인 것인지 등의 판단을 행한다. 장르나 평가를 위해서, 미리 업계마다 준비된, 장르나 좋은 평가 및 나쁜 평가의 정해 세트를 이용한 학습에 의해 룰 세트를 생성하고, 이를 룰 세트 저장부(517)에 저장해 둔다. 발언·쓰레드 분석부(507)는 이 룰 세트를 사용하여 처리를 행한다. 또한, 발언·쓰레드 분석부(507)는 발언에, 메일 어드레스나 핸들 등의 발언자의 신원을 나타내는 정보나 URL 등의 근거를 나타내는 정보가 포함되는지 판단하고, 이들 정보에 기초하여 발언의 신뢰도를 결정한다. 발언·쓰레드 분석부(507)는, URL에 대해서는 기업명 사전에 포함되어 있는지라는 것을 기업명 사전 저장부(515)에 액세스하여 확인하고, 핸들에 대해서는 핸들 DB(518)의 데이터를 참조한다. 발언·쓰레드 분석부(507)의 처리 결과는, 해석 데이터 저장부(510)에 저장된다.
통계 처리부(508)는 여러가지 통계 처리를 실시한다. 소정의 통계 처리를미리 실시해 두어도 되지만, 사용자 단말기(3)를 조작하는 사용자에 의해 지정된 통계 처리를 실시하도록 해도 된다. 통계 처리부(508)는, 예를 들면 특정한 기업에 대한 각 평가를 집계하거나, 기업별 발언 수를 집계하거나, 시간적인 변화에 대한 데이터를 생성하기도 한다. 통계 처리의 결과에 대해서도, 해석 데이터 저장부(510)에 저장해 두는 경우도 있다.
사용자 인터페이스부(509)는 사용자 단말기(3)로부터의 요구에 따라, 해석 데이터 저장부(510)에 저장되어 있는 데이터를 사용자 단말기(3)에 대하여 송신한다. 사용자 인터페이스부(509)는, 예를 들면 피참조도의 랭킹이나, 신뢰도에 기초하여, 발언·쓰레드를 재배열하여 사용자 단말기(3)에 대하여 송신하는 처리를 실시한다. 또한, 통계 처리가 필요하면, 사용자 인터페이스부(509)는 통계 처리부(508)에, 해석 데이터 저장부(510)에 저장되어 있는 데이터를 이용하여 소정의 통계 처리를 실시시켜, 그 결과를 사용자 단말기(3)에 송신한다. 예를 들면, 데이터를 그래프 등으로 가공하여 출력하는 경우도 있다.
검색부(521)는, 사용자 단말기(3)를 조작하는 사용자로부터의 요구에 따라, 어카이브(512)에 저장된 콘텐츠 정보의 검색을 실행한다. 실행한 검색의 검색 로그에 대해서는 검색 로그 저장부(511)에 저장한다.
사전 생성부(520)는, 어카이브(512)에 저장된 콘텐츠 정보나, 링크 토폴로지 DB(519)에 등록되어 있는 링크 토폴로지 데이터나, 검색 로그 저장부(511)에 저장된 검색 로그 등을 이용하여, 업종 용어 사전을 생성하여 업종 용어 사전 저장부(514)에 저장함과 함께, 포멀 및 인포멀판의 URL 기업명 사전 및 약칭명 사전을 포함하는 기업명 사전을 생성하여 기업명 사전 저장부(515)에 저장한다. 또한, 사전 생성부(520)는 프록시 서버(8)의 프록시 로그 저장부(84)에 저장된 로그 데이터나 검색 사이트 서버(9)의 검색 로그 저장부(91)에 저장된 로그 데이터를 취득하여 검색 로그 저장부(511)에 저장하고, 해당 로그 데이터를 이용하여 사전 생성을 위한 처리를 행한다. 즉, 업종 용어 사전의 데이터 항목을 생성하여 업종 용어 사전 저장부(514)에 저장함과 함께, 기업명 사전의 데이터 항목을 생성하여 기업명 사전 저장부(515)에 저장한다. 또한, 검색 로그 저장부(511)에 저장된 데이터를 이용하여, 해석해야 할 URL을 특정하는 처리를 실시하여, 해석 데이터 저장부(510)에 처리 결과를 저장한다.
다음으로, 도 2 내지 도 22를 이용하여 도 1에 도시한 시스템의 처리의 내용을 설명한다. 도 2에 본 실시의 형태에서의 처리의 개요를 도시한다. 우선, 콘텐츠 수집 해석부(501)에 의한 콘텐츠 수집 및 해석 처리가 실시된다(단계 S1). 상술한 바와 같이, 단계 S1에서는 인터넷(1)에 접속된 다수의 Web 서버(7)가 공개하고 있는 Web 페이지의 데이터를 수집하여, 링크에 의한 참조 관계를 해석함으로써, 각 Web 페이지의 피참조도를 산출하고, 해당 피참조도로부터 랭킹값을 계산한다. 그리고, 콘텐츠 수집 해석부(501)는 수집한 Web 페이지의 데이터 및 피참조도 랭킹값을 어카이브(512)에 저장하고, 링크에 의한 참조 관계를 링크 토폴로지 데이터로서 링크 토폴로지 DB(519)에 저장한다.
다음으로, Web 페이지 분류부(502)는 콘텐츠 수집 해석부(501)에 의해 수집되고, 또한 어카이브(512)에 저장된 콘텐츠 정보 중에서 게시판 및 개인 홈페이지를 추출한다(단계 S3). 이 처리에서는, 게시판 요소 저장부(513)에 저장된 게시판 요소 데이터가 사용된다. 게시판 요소 데이터는 도 3A에 도시되는 바와 같은, 게시판 및 개인 홈페이지의 URL에 자주 이용되고 있는 bbs, messageboard, homepage 등의 키워드와, 도 3B에 도시한 바와 같은, 일반적으로 알려져 있는 게시판 및 개인 홈페이지의 URL을 포함한다. 또한, 게시판 요소 데이터는 게시판이나 개인 홈페이지에서 자주 이용되고 있는 CGI를 특정하기 위한 데이터, 게시판이나 개인 홈페이지에서 자주 나타나는 Web 페이지의 HTML 소스의 패턴의 데이터 등을 포함하는 경우도 있다. 즉, Web 페이지 분류부(502)는 처리 대상의 Web 페이지에 대하여, 그 URL 또는 그 일부가 게시판 요소 저장부(513)에 저장된 게시판 요소 데이터(도 3A 및 도 3B)에 포함되는 URL 또는 키워드에 합치할지 판단한다. 또한, 처리 대상의 Web 페이지에서 사용되고 있는 CGI가, 게시판이나 개인 홈페이지에서 자주 이용되고 있는 CGI인지를 판단한다. 또한, Web 페이지 분류부(502)는 처리 대상의 Web 페이지의 HTML 소스를 해석하고, 게시판이나 개인 홈페이지에서 자주 이용되는 특정한 태그의 반복 패턴 등의 존재를 검사한다. 이들 처리에 대해서는, 피참조도 랭킹값이 높은 Web 페이지의 순으로 처리를 행한다. 또한, 이들 처리의 결과로서, 예를 들면 도 4A에 도시된 바와 같이, 게시판 및 개인 홈페이지라고 판단된 Web 페이지의 URL, 종별(예를 들면, 게시판인 경우에는 「1」이, 개인 홈페이지인 경우에는 「2」가, 그 밖의 경우에는 「3」이 저장됨) 및 그 Web 페이지의 랭킹으로서 피참조도가, 예를 들면 해석 데이터 저장부(510)에 저장된다. 또, 도 4A에서의 액세스 수에 대해서는 후술한다.
그리고, 업종 판정부(503)는 게시판 또는 개인 홈페이지라고 판단된 Web 페이지에 대하여, 업종 용어 사전 저장부(514)에 저장된 업종 용어 사전을 참조하여, 해당 Web 페이지가 화제가 되고 있는 업종을 판정한다(단계 S5). 업종 용어 사전에는, 도 5에 도시한 바와 같이 업종명에 대응하여 하나 또는 복수의 키워드(도면에서는 n개(n은 정수))가 등록된다. 따라서, 업종 판정부(503)는 처리 대상의 Web 페이지에 포함되는 용어와 업종 용어 사전에 등록된 키워드와의 매칭을 행하여, 매칭이 취해진 키워드 수가 많은 업종을, 처리 대상의 Web 페이지의 업종이라고 판정한다. 이러한 처리의 결과로서, 예를 들면 도 4B에 도시되는 바와 같이, 게시판 또는 개인 홈페이지라고 판단된 Web 페이지의 URL, 종별(예를 들면, 게시판인 경우에는 「1」이, 개인 홈페이지인 경우에는 「2」가, 그 밖의 경우에는 「3」이 저장됨), 해당 Web 페이지에서 화제가 되고 있는 업종 및 그 Web 페이지의 랭킹으로서 피참조도가, 예를 들면 해석 데이터 저장부(510)에 저장된다. 또, 도 4B에서의 액세스 수에 대해서는 후술한다.
다음으로, 발언·쓰레드 추출부(504)는 게시판의 Web 페이지에 포함되는 하나의 발언을 추출함과 함께, 몇 개인가의 발언이 통합되어 특정한 화제에 대하여 의론하고 있는 경우의 발언군인 쓰레드를 추출한다(단계 S7). 여기서는, 도 6 및 도 7을 이용하여, 발언을 추출하는 처리와, 쓰레드를 추출하는 처리에 대하여 나누어 설명한다.
우선, 도 6을 이용하여 발언의 추출 처리에 대하여 설명한다. 발언·쓰레드 추출부(504)는 게시판이라고 판단된 Web 페이지에 대하여, 그 링크를 해석하여, 예를 들면 「일람으로」나 「게시판 일람」 등의 문자열로 링크된 Web 페이지의 URL을 추출하여, 해당 URL의 Web 페이지의 데이터를 발언 일람 페이지의 데이터로서 취득하여, 기억 장치에 저장한다(단계 S21). 발언·쓰레드 추출부(504)는 해당 발언 일람 페이지의 내용을 해석하고, 열거되어 있는 각 발언 페이지에의 링크를 특정하여, 해당 발언 페이지의 데이터를 취득하고, 기억 장치에 저장한다(단계 S23). 발언 페이지에는 복수의 발언이 포함되는 경우도 있다. 따라서, 발언·쓰레드 추출부(504)는 발언 페이지의 HTML 소스를 해석하여, 발언의 반복 패턴을 추출하여, 기억 장치에 저장한다(단계 S25). 예를 들면, 각 발언에는 헤더로서 「30:01/10/20 22:46 ID:QpKkFIhK」라는 발언 번호, 일시 및 핸들명 등이 반복 출현하는 경우가 있어, 이 반복 패턴을 추출한다. 또한, 각 발언이 틀에 받아들여 있는 경우도 있다. 그와 같은 경우에는, 특정한 패턴으로 TABLE 태그가 반복되므로, 발언·쓰레드 추출부(504)는 이 TABLE 태그의 반복 패턴을 추출한다. 그리고, 발언·쓰레드 추출부(504)는 추출된 반복 패턴에 따라, 하나의 발언을 잘라내어, 기억 장치에 저장한다(단계 S27). 단, 발언의 길이가 소정 길이 이하인 경우에는 파기하는 구성이어도 된다.
다음으로, 도 7을 이용하여 쓰레드의 추출 처리에 대하여 설명한다. 게시판에 따라서는,
「·Re:XX AAAA씨의 투고 Monday October 15, @01:42 PM
·Re:XX AAAA씨의 투고 Monday October 15, @01:45 PM
·Re:XX AAAA씨의 투고 Monday October 15, @03:01 PM
·Re:XX BBBB씨의 투고(스코어:1) Tuesday October 16, @07:16 AM」
과 같이, 선행하는 발언 「XX」에 관련된 발언군이 「Re:」 등의 문자로부터 분명한 경우도 있다. 한편,
「58 이름:CCCC씨 01/10/21 21:11
> 56
이 발언에 대해서는 …」
과 같이, 각 발언의 헤더만으로부터는 선행하는 발언이나 관련된 발언이 불분명한 경우도 있다. 따라서, 발언·쓰레드 추출부(504)는 「Re:」 문자 등을 이용하여 헤더로부터 선행하는 발언을 추출할 수 있을지 판단한다(단계 S31). 만일, 상술한 제1 예와 같이, 헤더로부터 선행하는 발언이 분명한 경우에는(단계 S31: "예" 루트), 발언·쓰레드 추출부(504)는 헤더로부터 하나의 발언군을 쓰레드로서 파악하고, 쓰레드 번호를 발번하여 각 발언에 대하여 등록한다(단계 S33). 제1 예에서는 XX라는 발언 및 상기한 4개의 발언이 하나의 쓰레드를 구성하여, 동일한 쓰레드 번호가 등록된다. 그리고, 원래의 처리로 되돌아간다. 등록 데이터에 대해서는 후술한다.
한편, 헤더로부터 선행하는 발언을 추출할 수 없는 경우에는(단계 S31: "아니오" 루트), 발언·쓰레드 추출부(504)는 본문 중에, 참조되어 있는 선행 발언의 발언 번호 등의 발언 식별 정보가 존재하는지 판단한다(단계 S35). 만일, 발언 식별 정보가 존재하는 경우에는(단계 S35: "예" 루트), 발언·쓰레드 추출부(504)는 처리 대상의 발언에 대하여 쓰레드 번호를 등록한다(단계 S37). 또, 발언·쓰레드추출부(504)는 이미 선행 발언에 거스르는 처리를 실시하고 있으면, 거스르기 전에 발번된 쓰레드 번호를 이용하여, 거스르는 처리를 행하고 있지 않는 경우에는 새롭게 쓰레드 번호를 발번한다. 그리고, 발언·쓰레드 추출부(504)는 참조되어 있는 선행 발언의 발언 번호에 거슬러, 반복적으로 도 7의 쓰레드 추출 처리를 실시한다(단계 S39). 한편, 본문 중에 선행 발언의 발언 번호가 포함되어 있지 않은 경우에는(단계 S35: "아니오" 루트), 발언·쓰레드 추출부(504)는 발언을 하나 이상 거스르는 처리를 행하였는지를 판단한다(단계 S41). 예를 들면, 고립된 발언인 경우도 있으면, 근원의 발언인 경우도 있기 때문이다. 고립된 발언인 경우에는(단계 S41: "아니오" 루트), 원래의 처리로 되돌아간다. 또, 고립된 발언이어도 1개의 발언으로 쓰레드를 구성한다고 판단하면, 발언·쓰레드 추출부(504)는 새롭게 쓰레드 번호를 발번하여 등록하도록 해도 된다. 만일, 발언을 하나 이상 거스르는 처리를 행하였다고 판단된 경우에는(단계 S41: "예" 루트), 발언·쓰레드 추출부(504)는 참조원과 동일한 쓰레드 번호를 해당 발언에 대하여 등록한다(단계 S43). 그리고, 원래의 처리로 되돌아간다.
이와 같이, 헤더로 알 수 있는 경우에는 헤더에 의해 발언군을 특정하고, 헤더로 알 수 없는 경우에는 본문 중에 존재하는 발언 번호로 반복해서 발언을 찾아감으로써, 쓰레드를 파악하는 것이다. 이 처리를 위한 기술은, 예를 들면 미국 특허 공개 공보2001-0018698-A1에 개시되어 있다.
또, 개인 홈페이지인 경우에는 1개의 Web 페이지를 1개의 발언으로 취급한다. 이 경우, 예를 들면 개인 홈페이지의 톱 페이지로부터 참조할 수 있는 페이지를 모두 쓰레드로서 취급하도록 해도 되고, 고립된 발언으로서 각 페이지를 취급할 수도 있다. 또한, 1페이지가 긴 경우도 있다. 그 경우에는, 예를 들면 HTML 소스의 h1 태그 등으로 분할하고, 분할된 각 부분을 1개의 발언으로서 취급하는 구성이어도 된다.
단계 S7의 발언 및 쓰레드의 추출 처리가 실시되면, 도 4C에 도시하는 테이블 중 일부의 데이터가 등록된다. 도 4C의 예에서는, 발언을 포함하는 Web 페이지의 URL을 위한 열(301)과, 종별의 데이터를 저장하기 위한 열(302)과, 발언의 타이틀을 위한 열(303)과, 쓰레드 번호(#)의 열(304), 발언 번호(#)의 열(305), 업종의 열(306)과, 발언의 대상에 대한 평가의 열(307)과, 추출 정보를 저장하기 위한 열(308)과, 신뢰도의 열(309)과, 장르의 열(310)이 포함된다. 종별을 저장하기 위한 열(302)에는 게시판인 경우에는 1이, 개인 홈페이지인 경우에는 2가, 그 밖의 경우에는 3이 저장된다. 타이틀에 대해서는 발언의 타이틀인 경우도 있으면 TITLE 태그나 h1 태그의 값인 경우도 있다. 평가에 대해서는, 예를 들면 좋거나 나쁘다고 하는 평가이다. 이에 대해서는 후술한다. 추출 정보에는 회사명, 증권 코드, 참조 발언 번호, 발언의 근거가 되는 매스 미디어의 정보나 URL, 신원을 나타내는 정보인 메일 어드레스나 핸들명이 포함된다. 신뢰도에는 발언이 포함되는 페이지의 피참조도와 이하에 계산되는 신뢰도의 값이 포함된다. 액세스 수가 파악되어 있는 경우에는, 액세스 수가 등록되는 경우도 있다. 장르는, 예를 들면 제품 정보, 기업 정보, 주가 정보, 환경 활동 정보 등의 각 업종에서 공통된 화제이다.
단계 S7까지 실시되면, URL을 위한 열(301)과, 종별을 저장하기 위한열(302)과, 타이틀을 위한 열(303)과, 쓰레드 번호의 열(304)과, 발언 번호의 열(305)의 값이 저장되게 된다.
도 2의 설명으로 되돌아가면, 단계 S7의 다음으로, 회사 특정부(505)가 발언의 대상으로 되어 있는 기업명을 특정하기 위한 처리를 실시한다(단계 S9). 이 기업명을 특정하는 처리에서는, 기업명 사전 저장부(515)에 저장된 기업명 사전을 참조한다. 기업명 사전에는, URL 기업명 사전과 약칭명 사전이 포함된다. 이들 사전의 일례를 도 8A 및 도 8B에 도시한다. 도 8A는 URL 기업명 사전의 일례이다. 도 8A의 예에서는 사이트 URL과, 기업명과, 증권 코드(또는 상표 코드)와, 업종명과, 하나 또는 복수의 특징 키워드와, 사이트 URL의 랭킹 정보(피참조도 및 액세스 수)가 각 기업에 대하여 저장된다. 특징 키워드에는 관련 URL을 포함하는 경우도 있다. 또한, 사이트 URL의 랭킹 정보에 대해서는, 이하에 설명하는 처리에 의해 취득할 수 있었던 경우에 등록된다. 도 8B는 약칭명 사전의 일례이다. 도 8B의 예에서는 정식 기업명과, 그 읽기 문자와, 하나 또는 복수의 약칭이 저장되어 있다. 회사 특정부(505)는 이들 사전을 이용하여, 처리 대상의 발언에 포함되는 문언이 사전 내의 기업명, 약칭, 증권 코드와 일치할지 판단함으로써, 기업명을 특정한다. 또, 기업명뿐만 아니라, 증권 코드, 기업 URL을 특정하도록 해도 된다. 또한, 회사 특정부(505)는 개인 홈페이지에 대해서도 마찬가지로 발언의 대상으로 되어 있는 기업명을 특정한다. 여기서, 특정된 기업명이나 증권 코드 등은 도 4C의 추출 정보를 저장하기 위한 열(308)에 저장된다. 또한, 발언 등에 포함되는 문언이 URL 기업명 사전 중 어느 기업의 소정 개수 이상의 특징 키워드와 일치하는 경우에는, 해당 기업의 기업명을, 해당 발언 등의 대상으로 되어 있는 기업명으로서 특정하는 경우도 있다.
다음으로, 출처 탐색부(506)는 발언이나 개인 홈페이지 중에서, 발언의 근거가 될 수 있는 URL이나 신문·잡지명 등 매스 미디어의 정보를 추출한다(단계 S11). 또, 매스 미디어의 정보에 대해서는, 매스 미디어 사전 저장부(516)에 저장된 매스 미디어 사전을 이용한다. 또한, 도 1에서는 출처 탐색부(506)가 기업명 사전을 참조하도록 도시되어 있지 않지만, 기업명 사전 저장부(515)에 저장된 기업명 사전을 참조하여, 발언 중에 URL이 포함되어 있는 경우에, 그 URL이 기업명 사전에 등록되어 있는 URL인지의 여부를 판단하여, 그 등록 유무에 대하여 해석 데이터 저장부(510)에 등록하는 경우도 있다. 매스 미디어 사전에는, 예를 들면 매스 미디어에 관련된 기업명과, 이들 기업이 발행하는 신문·잡지의 명칭에 대한 정보가 포함되어 있다.
도 9에 단계 S11의 출처 탐색 처리의 상세를 도시한다. 출처 탐색부(506)는, 우선 발언 또는 개인 홈페이지 중에 URL이 포함되어 있는지 판단한다(단계 S51). 또, 기업명 사전에 등록되어 있는 URL이 포함되어 있는지 판단하는 처리이어도 된다. 만일, 발언 또는 개인 홈페이지 중에 URL이 포함되어 있는 경우에는, 출처 탐색부(506)는 해당 URL을 해석 데이터 저장부(510)에 등록한다(단계 S53). 예를 들면, 도 4C의 추출 정보를 저장하기 위한 열(308)에 저장한다. 또한, 상술한 바와 같이 기업명 사전에 등록된 URL인지의 여부에 대한 정보를 해석 데이터 저장부(510)에 등록하도록 해도 된다. 또한, 단계 S51에서 발언 또는 개인 홈페이지중에 URL이 포함되지 않는다고 판단된 경우, 및 단계 S53에서 URL을 해석 데이터 저장부(510)에 등록 후, 출처 탐색부(506)는 발언 또는 개인 홈페이지 중에 신문·잡지명이 포함되는지 판단한다(단계 S55). 즉, 출처 탐색부(506)는 매스 미디어 사전에 등록된 신문·잡지명이 발언 또는 개인의 홈페이지 중에 출현하는지를 판단한다. 만일, 매스 미디어 사전에 등록된 신문·잡지명이 검출된 경우에는, 출처 탐색부(506)는 해당 신문·잡지명을 해석 데이터 저장부(510)에 등록한다(단계 S57). 예를 들면, 도 4C의 추출 정보를 저장하기 위한 열(308)에 저장한다.
도 2의 처리로 되돌아가면, 발언·쓰레드 분석부(507)는 발언 및 쓰레드와 개인 홈페이지에 대하여, 기업명 사전 저장부(515)에 저장되어 있는 기업명 사전, 발언의 대상의 평가나 화제의 장르를 특정하기 위해서 사전에 생성되고, 또한 룰 세트 저장부(517)에 저장되어 있는 룰 세트, 및 게시판 등에서 이용되고 있는 핸들명에 대한 핸들 DB(518)를 이용하여 분석 처리를 실시한다(단계 S13). 분석 처리에서는, 발언 및 쓰레드에서의 다른 표현을 룰 세트 저장부(517)에 등록되어 있는 룰 세트와 비교함으로써, 화제의 장르, 및 발언의 대상 기업 등에 대한 좋거나 나쁘거나 등의 평가를 결정한다. 또한, 발언의 근거가 되는 URL 등이 기재되어 있는지, 해당 URL이 기업명 사전에 등록된 URL인지, 발언자의 신원을 나타내는 메일 어드레스나 핸들명이 포함되는지 등의 사항으로부터 발언의 신뢰도를 결정한다.
단계 S13의 상세를 도 10에 도시한다. 또, 도 10은 하나의 발언 또는 개인 홈페이지에 대한 처리이다. 발언·쓰레드 분석부(507)는, 우선 발언 등의 화제의 장르의 분류를 행하여, 장르를 해석 데이터 저장부(510)에 등록한다(단계 S61).예를 들면, 도 4C의 장르의 열(310)에 저장한다. 발언 등의 화제의 장르의 분류에 대해서는, 미국 특허 공개 공보2002-0069197-A1 등에 개시되어 있는 기술을 이용할 수 있다. 또한, 발언·쓰레드 분석부(507)는 발언 등의 대상 기업 등에 대한 평가의 분류를 행하여, 평가의 정보를 해석 데이터 저장부(510)에 등록한다(단계 S63). 예를 들면, 도 4C의 평가의 열(307)에 저장한다. 평가의 분류는 기업에 대하여 좋은 평가를 행하고 있는지, 나쁜 평가를 행하고 있는지 등의 분류이다. 이 단계 S61 및 단계 S63의 처리에 대해서는, 룰 세트 저장부(517)에 저장된 발언 등의 화제의 장르에 대한 룰 세트, 및 좋은 평가 또는 나쁜 평가에 대한 룰 세트를 이용하여, 발언·쓰레드 분석부(507)가 판단한다. 이들 룰 세트에 대해서는, 업종별로 생성된다. 업종에 따라, 장르에 대한 표현이나, 평가에 대한 다른 표현이 다르다고 생각되기 때문이다. 장르에 대해서는, 게시판 자체가 카테고리로 나누어져 있는 경우도 있어, 그 정보를 이용해도 된다. 평가에 대해서는, 좋은 평가, 나쁜 평가뿐만 아니라, 소정의 관점에 대한 평가인지 등의 판단을 행하도록 해도 된다.
발언·쓰레드 분석부(507)는, 예를 들면 도 11에 도시한 바와 같은 처리를 행하여, 룰 세트를 생성한다. 즉, 각 업종에 관하여 각 장르의 발언, 및 좋은 평가 및 나쁜 평가의 발언의 정해 세트를 사람의 손으로 작성하여, 예를 들면 전문가 시스템 기능을 갖는 발언·쓰레드 분석부(507)에 입력한다(단계 S88). 그리고, 발언·쓰레드 분석부(507)는 정해 세트의 학습을 행하여, 룰 세트를 생성하고, 룰 세트 저장부(517)에 저장한다(단계 S89). 또, 발언 등의 대상 기업 등에 대한 평가의 분류에 대해서는, 미국 특허 공개 공보2002-0069197-A1이나 일본 공개 특허 공보 특개2002-202984호 등에 개시된 기술을 이용할 수 있다.
도 10의 처리로 되돌아가면, 다음으로 발언·쓰레드 분석부(507)는 발언 등에 메일 어드레스가 포함되는지 판단한다(단계 S65). 만일, 메일 어드레스가 발언 등에 포함되는 경우에는(단계 S65: "예" 루트), 해당 메일 어드레스가 프리메일의 메일 어드레스인지를 판단한다(단계 S67). 프리메일의 메일 어드레스인지는 메일 어드레스의 도메인부의 패턴 등으로부터 판단할 수 있다. 만일, 해당 메일 어드레스가 프리메일의 메일 어드레스인 경우에는(단계 S67: "예" 루트), 프리메일의 메일 어드레스에 대응하는 신뢰도를 설정하여, 해석 데이터 저장부(510)의 신뢰도의 열(309)에 등록한다(단계 S69). 또, 신뢰도의 열(309)에는 아울러 해당 발언 등의 페이지의 랭킹 정보(피참조도. 액세스 수가 파악되어 있는 경우에는 액세스 수도 등록되는 경우도 있음)도 등록된다. 한편, 발언 등에 포함되는 메일 어드레스가 프리메일의 메일 어드레스가 아닌 경우에는(단계 S67: "아니오" 루트), 일반적으로 메일 어드레스에 대응하는 신뢰도를 설정하여, 해석 데이터 저장부(510)의 신뢰도의 열(309)에 등록한다(단계 S71). 일반적으로, 발언자의 신원을 밝히는 정보로서는 프리메일의 메일 어드레스보다 일반 메일 어드레스가 신뢰도가 높기 때문에, 신뢰도에 대해서도 일반 메일 어드레스에 대하여 보다 높은 값을 부여한다.
단계 S69 또는 단계 S71 후에, 발언·쓰레드 분석부(507)는 검출한 메일 어드레스를 해석 데이터 저장부(510)에 등록한다(단계 S73). 예를 들면 해석 데이터 저장부(510)의 추출 정보를 저장하기 위한 열(308)에 저장한다. 그리고, 단계 S75로 이행한다.
다음으로, 발언·쓰레드 분석부(507)는 발언 등에 URL이 포함되는지 판단한다(단계 S75). URL은 발언의 근거로서 나타내고 있는 경우가 많기 때문이다. 만일, URL이 발언 등에 포함되는 경우(단계 S75: "예" 루트), 해당 URL이 기업명 사전에 포함되는지 판단한다(단계 S77). 만일, URL이 기업명 사전에 포함되는 경우에는 발언·쓰레드 분석부(507)는 해당 URL이 기업명 사전에 포함되는 URL이라는 취지를 해석 데이터 저장부(510)에 등록한다(단계 S79). 예를 들면, 추출 정보를 저장하기 위한 열(308)에 저장한다. 단계 S79의 후 또는 단계 S77에서 URL이 기업명 사전에 포함되지 않는다고 판단된 경우, 발언·쓰레드 분석부(507)는 링크처 URL의 랭킹값(피참조도)을 신뢰도로 하여 해석 데이터 저장부(510)에 등록한다(단계 S81). 예를 들면, 해석 데이터 저장부(510)의 신뢰도의 열(309)에 등록한다. 또, 발언 등의 속에 메일 어드레스도 포함되어 있는 경우에는, 메일 어드레스에 대한 신뢰도 및 URL에 대한 신뢰도를 가산하도록 해도 된다. 또한, 발언 등의 랭킹 정보(피참조도. 액세스 수가 파악되어 있는 경우에는 액세스 수도 등록되는 경우도 있음)에 대해서도 함께 등록된다. 그리고, URL을 해석 데이터 저장부(510)에 등록한다(단계 S83). 예를 들면, 추출 정보를 저장하기 위한 열(308)에 저장한다. 처리는, 단계 S85로 이행한다.
다음으로, 발언·쓰레드 분석부(507)는 발언 등에 핸들명이 포함되는지 판단한다(단계 S85). 핸들명은 게시판에서는 자주 이용되는 것으로, 발언자를 특정하는 정보이지만, 그에 따라 발언자를 완전히 특정할 수 있는 것은 아니다. 따라서, 본 실시의 형태에서는 발언 수를 지표로서 이용한다. 발언 등에 핸들명이 포함되는 경우에는, 발언·쓰레드 분석부(507)는 해석 데이터 저장부(510)에 핸들명을 등록한다(단계 S86). 예를 들면, 추출 정보를 저장하기 위한 열(308)에 저장한다. 그리고, 발언·쓰레드 분석부(507)는 핸들 DB(518)에서 해당 핸들명을 검색하여, 그 카운트를 인크리먼트한다(단계 S87). 발언·쓰레드 분석부(507)는 핸들 DB(518)에 해당 핸들명이 등록되어 있지 않은 경우에는, 핸들명 및 카운트(여기서는 「1」)를 핸들 DB(518)에 등록한다. 그리고, 다음의 처리로 이행한다. 또한, 발언 등에 핸들명을 포함하지 않는다고 판단하는 경우에는, 다음의 처리로 이행한다.
또, 핸들명의 신뢰도에 대해서는, 콘텐츠 수집 해석부(501)가 한 번에 수집한 콘텐츠 정보 전체에 대한 처리가 종료한 시점에 핸들 DB(518)에 등록되어 있던 카운트값을 이용한다. 즉, 콘텐츠 정보 전체에 대한 처리가 종료한 시점에, 발언·쓰레드 분석부(507)는 핸들 DB(518)의 각 핸들명에 대한 카운트값을 해석 데이터 저장부(510)에 등록한다.
최종적으로 신뢰도를 비교하는 경우에는, 정규화 처리가 필요한 경우가 있다. 예를 들면, 일반 메일 어드레스에 30이라는 신뢰도, 프리메일의 메일 어드레스에 10이라는 신뢰도를 부여하는 경우, URL에 대한 신뢰도로서 이용되는 링크처 URL의 피참조도에 대해서는 100으로 나눈 값을 이용하거나, 핸들명의 카운트값에 대해서도 20으로 나눈 값을 이용하거나 하는 등의 것이 필요해지는 경우가 있다.
도 2의 단계 S13의 처리에 의해, 해석 데이터 저장부(510)의 신뢰도의 열(309) 및 장르의 열(310), 및 추출 정보를 저장하기 위한 열(308)에 정보가 등록된다.
도 2에서는, 다음으로 통계 처리부(508)가 각종 통계 처리를 실시한다(단계 S15). 통계 처리부(508)는, 예를 들면 각 업종에 있어서의 각 장르의 좋거나 나쁜 평가의 수의 합계와 전체로부터 본 비율이나, 발언 중에 출현한 기업명의 집계, 및 그 좋거나 나쁜 평가의 집계, 어떠한 관점에서의 발언이 많은지, 어떠한 평가가 많은지 등의 정보를 계산한다. 또한, 발언 등의 신뢰도나 피참조도 등의 랭킹의 순서대로 데이터를 배열하기도 하는 경우도 있다.
통계 처리부(508)는, 예를 들면 도 12와 같은 정보를 생성한다. 여기서는 제품 정보, 기업 정보, 주가 정보, 환경 활동 정보의 각각에 대하여, 업계 A, 업계 B, 기업 A 및 기업 B에 관하여 좋은 평가(OK)의 발언 수와 나쁜 평가(NG)의 발언 수가 포함된다. 상향 화살표는 전회 처리 시보다 수가 증가하고 있는 것을 나타내고, 횡방향 화살표는 전회 처리 시와 거의 동일한 것을 나타내고, 하향 화살표는 전회 처리 시보다 수가 감소하고 있는 것을 나타내고 있다.
또한, 통계 처리부(508)는 도 13과 같은 정보를 생성하는 경우도 있다. 즉, 기업 A에 관한 발언 중 좋은 평가의 비율의 시간 변화를 나타내는 그래프이다.
이러한 통계 처리의 결과는, 예를 들면 해석 데이터 저장부(510)에 등록해 둔다. 그리고, 사용자 인터페이스부(509)는 사용자 단말기(3)로부터의 요구에 따라, 해석 데이터 저장부(510)에 등록된 정보를 판독하여, 사용자 단말기(3)에 송신한다(단계 S17). 사용자 단말기(3)는 정보 수집 해석 시스템(5)으로부터 데이터를 수신하여, 표시 장치에 표시한다. 통계 처리부(508)에 의해 처리한 데이터만이 아니고, 사용자 인터페이스부(509)가, 예를 들면 발언의 신뢰도나 피참조도 등의 랭킹으로 데이터를 재배열하여, 그 결과를 사용자 단말기(3)에 송신하고, 사용자에 의해 지정된 키워드 등에 의해 해석 데이터 저장부(510)를 검색하여, 그 검색 결과를 사용자 단말기(3)에 송신하는 구성이어도 된다.
사용자는 사용자 단말기(3)의 표시 장치의 표시 내용에 의해, 어떠한 업종이나 기업에, 어떠한 평가의 발언이 어느 정도 있었는지에 대한 정보, 그 발언의 출처에 대한 정보를 취득할 수 있다. 주식 거래의 면에서는 「풍설의 유포」에 해당하는 정보가 존재하지 않는지, 또한 그 정보의 출처는 어디인지 등의 정보를 취득할 수 있게 된다. 또한, 이들 취득한 정보에 대해서는 신뢰도나 피참조도 등의 랭킹을 이용하여, 사용자는 발언의 영향도 등에 대해서도 고려한 판단을 행할 수 있게 된다.
상술한 업종 용어 사전 저장부(514) 및 기업명 사전 저장부(515)의 데이터에 대해서는, 어떠한 방법으로 작성해도 된다. 단, 콘텐츠 수집 해석부(501)가 수집한 콘텐츠 정보를 이용하여 생성할 수도 있다. 본 실시의 형태에서는 대량의 정보 중에서, 특정한 업종이나 분야의 정보를 구별하여 추출하여, 분류하는 기술을 이용하여, 도 1의 사전 생성부(520)가 업종 용어 사전 및 URL 기업명 사전과 약칭명 사전을 생성한다.
도 14에 도 1의 사전 생성부(520)의 기능 블록도를 도시한다. 사전 생성부(520)에는 URL 베이스 업종 판정부(550)와, URL 베이스 약칭 판정부(551)와, 링크 토폴로지 베이스 업종 판정부(552)와, 특징어 베이스 업종 판정부(553)와, 특징어 사전 등록부(554)와, 검색 로그 해석부(555)가 포함된다. 이들 처리부는 URL 기업명 사전 저장부(515b)에 액세스할 수 있게 되어 있다. 또한, URL 베이스 업종 판정부(550) 및 링크 토폴로지 베이스 업종 판정부(552)는 링크 토폴로지 DB(519)의 데이터를 이용하여 처리를 실시한다. 특징어 베이스 업종 판정부(553)와, 특징어 사전 등록부(554)와, 검색 로그 해석부(555)는, 업종 용어 사전 저장부(514)에 액세스할 수 있게 되어 있다. 또한, 검색 로그 해석부(555)는 검색 로그 저장부(511)에 액세스할 수 있게 되어 있다. 도면에는 도시하지 않았지만, 검색 로그 해석부(555)는 인터넷(1)을 통하여 프록시 서버(8)나 검색 사이트 서버(9)에 액세스할 수 있게 되어 있다. 또한, 검색 로그 해석부(555)의 일부의 처리 결과는, 해석 데이터 저장부(510)에 저장된다.
다음으로, 도 15 내지 도 21을 이용하여 도 14에 도시된 사전 생성부(520)의 처리에 대하여 설명한다. 콘텐츠 수집 해석부(501)에 의해 수집되고, 또한 어카이브(512)에 저장된 콘텐츠 정보 및 링크 토폴로지 DB(519)에 저장된 링크 토폴로지 데이터를 이용하여, URL 베이스 업종 판정부(550)는 URL을 이용한 업종 판정·등록 처리를 실시한다(단계 S91). 최초는 어느 정도 사람의 손으로 유지 관리한 URL 기업명 사전을 이용한다. 그리고, URL 베이스 업종 판정부(550)는 처리 대상의 Web 페이지의 URL과 URL 기업명 사전에 등록된 URL을 비교함으로써, 처리 대상의 Web 페이지를 공개하고 있는 기업의 업종을 판정한다. 예를 들면, URL 기업명 사전에 http://www.xxx.com, xxx 주식회사, 컴퓨터라는 항목이 등록되어 있는 경우, 처리 대상의 Web 페이지의 URL이 http://www.ist.xxx.com이면, xxx가 공통되므로, 처리대상의 Web 페이지를 공개하고 있는 기업의 업종의 후보를 「컴퓨터」로 한다. 그리고, URL 베이스 업종 판정부(550)는 링크 토폴로지 DB(519)에 저장된 링크 토폴로지 데이터로부터, http://www.xxx.com 이하의 Web 페이지와, http://www.ist.xxx.com 이하의 Web 페이지에 상호 또는 일 방향의 링크가 걸려 있는지 판단한다. 만일, 링크가 걸려 있는 것을 확인할 수 있으면, URL 베이스 업종 판정부(550)는 처리 대상의 Web 페이지의 TITLE 등으로부터 기업명을 추출하여, 기업명, http://www.ist.xxx.com 및 업종명인 컴퓨터를 URL 기업명 사전에 등록한다.
다음으로, URL 베이스 약칭 판정부(551)는 URL 기업명 사전 저장부(515b)에 저장된 URL 기업명 사전을 참조하여, URL을 이용한 약칭 판정·등록 처리를 실시한다(단계 S93). 처리 대상의 Web 페이지에,
<a href="http://www.xxx.com"> 스리엑스</a>
라는 기술이 있었던 경우, URL 베이스 약칭 판정부(551)는, http://www.xxx.com을 이용하여 URL 기업명 사전을 검색한다. 등록되어 있으면, http://www.xxx.com을 사용하고 있는 기업의 정식 명칭을 얻을 수 있다. 그리고, URL 베이스 약칭 판정부(551)는 약칭명 사전 저장부(515a)에 저장된 약칭명 사전을 정식 명칭으로 검색하여, 정식 명칭이 등록되어 있는지 확인한다. 만일 등록되어 있으면, 「스리엑스」라는 약칭명이 정식 명칭에 대응하여 등록되어 있는지 확인한다. 만일, 등록되어 있지 않으면, 「스리엑스」라는 약칭명을 약칭명 사전에 등록한다. 정식 명칭이 등록되어 있지 않은 경우에는, 정식 명칭 및 「스리엑스」라는 약칭명을 등록한다. 단, 등록하는 약칭명은 「여기」 등의, 약칭이 아닌 전형적인 문언이 아니라는 것을 확인할 필요가 있다.
그리고, 링크 토폴로지 베이스 업종 판정부(552)는, 링크 토폴로지 DB(519)에 저장된 링크 토폴로지 데이터를 이용하여, 업종 판정·등록 처리를 실시한다(단계 S95). 링크 토폴로지 베이스 업종 판정부(552)는 URL 기업명 사전에 등록되어 있는 기업 사이트와 링크 관계가 긴밀하게 되어 있는 페이지를 동업종의 기업이 공개하고 있는 Web 페이지라고 판단하고, 해당 페이지의 URL, 해당 페이지 중의 정보를 이용하여 추출된 기업명 및 업종을 URL 기업명 사전에 등록한다. 이미 URL 등이 등록 완료되면, 업종을 등록한다. 또한, 링크 토폴로지 데이터로부터 특정 업종의 허브 사이트를 추출할 수 있던 경우에는, 링크 토폴로지 베이스 업종 판정부(552)는 해당 허브 사이트로부터 링크되어 있는 페이지를 동업종이라고 판정하여, 링크되어 있는 페이지의 URL, 해당 페이지 중의 정보를 이용하여 추출된 기업명 및 업종을 URL 기업명 사전에 등록한다. 이미 URL 등이 등록 완료되면, 업종을 등록한다.
또한, 특징어 베이스 업종 판정부(553)는 처리 대상의 Web 페이지로부터 소정의 알고리즘에 따라 특징어를 추출하여, 해당 특징어에 의해 업종 용어 사전을 검색하여, 처리 대상의 Web 페이지의 업종 판정·등록 처리를 실시한다(단계 S97). Web 페이지로부터 추출된 특징어가, 소정의 기준 이상으로 특정한 업종에 대하여 업종 용어 사전에 등록된 용어와 일치하는 경우에는, 해당 특정한 업종을 처리 대상의 Web 페이지의 업종이라고 판단한다. 그리고, 특징어 베이스 업종 판정부(553)는 Web 페이지의 URL, 해당 페이지 중의 정보를 이용하여 추출된 기업명 및 업종을 URL 기업명 사전에 등록한다. 이미 URL 등이 등록 완료되면, 업종을 등록한다.
또한, 특징어 사전 등록부(554)가 업종이 특정된 페이지로부터 특징어를 추출하고, 해당 특징어를 업종 용어 사전에 등록한다(단계 S99). 상술한 처리 등에 의해 업종이 특정된 페이지로부터 특징어를 추출하고, 특정된 업종에 대하여, 추출된 특징어를 업종 용어 사전에 포함시키는 후보로 한다. 특징어 사전 등록부(554)는 이러한 처리를 많은 페이지에 대하여 실시하여, 특정한 특징어가 동일한 업종에 대하여 소정 횟수 이상 추출된 경우에는, 해당 특정한 특징어를 그 업종에 대하여 업종 용어 사전에 등록한다. 또한, 추출 빈도가 높을수록 중요한 특징어라고 하여, 추출 빈도가 높은 특징어로부터 등록한다. 신출 정도로부터 중요도를 판단하여, 등록하도록 해도 된다. 또한, 업종 용어 사전을 포멀판과 인포멀판으로 나누도록 해도 된다. 예를 들면, 처리 대상의 Web 페이지가 게시판이나 개인 홈페이지인 경우에는 업종 용어 사전의 인포멀판에 추출된 특징어를 등록하도록 한다.
이와 같이 하여, 사전 생성부(520)는 어카이브(512)에 등록된 콘텐츠 정보 및 링크 토폴로지 DB(519)에 저장된 링크 토폴로지 데이터를 이용하여 업종 용어 사전 및 URL 기업명 사전과 약칭명 사전을 정비한다.
또한, 사전 생성부(520)의 검색 로그 해석부(555)는, 도 16 내지 도 21에 도시된 바와 같은 처리를 행한다.
도 16은 검색 로그 해석부(555)의 처리의 개요를 나타내는 흐름도이다. 검색 로그 해석부(555)는 인터넷(10)을 통하여 프록시 서버(8) 및 검색 사이트서버(9)에 액세스하여, 프록시 로그 저장부(84) 및 검색 로그 저장부(91)에 저장되어 있는 로그 데이터를 취득하여, 검색 로그 저장부(511)에 저장한다(단계 S201). 또, 이 단계는 검색 로그 해석부(555) 이외의 처리부 또는 정보 수집 해석 시스템(5)의 관리자 등이 행하는 경우도 있다. 검색 로그 저장부(91)로부터 취득되는 검색 로그 데이터의 일례를 이하에 나타낸다
"2001/09/23:00:00:18url=http://mfy.mmbr.ease.com/iwte.html
ref=http://para.cab.inwb.ne.jp/cgibin/para?Querystring=%8DL%93%87%83%5C%81%5B%83vbase=NORMAL"
이 예에서는 일시(2001/09/23:00:00:18)와, 「url=」의 후의 바로가기 URL(http://mfy.mmbr.ease.com/iwte.html)과, 「ref=」의 후의 쿼리와, 검색 상태(base=NORMAL)가 포함된다. 또, 쿼리는 하선으로 나타낸 바와 같이 인코드된 검색 키워드가 포함된다. 또한, 위의 예에서는 IP 어드레스가 로그에 포함되어 있지 않지만, 포함되는 경우도 있다.
또한, 프록시 로그 저장부(84)로부터 취득되는 로그 데이터의 일례를 이하에 나타낸다. 또, 여기서는 2개의 로그를 나타내고 있다.
"1034817348.963 133.25.88.171 11441 GET
http://para.cab.inwb.ne.jp/cgibin/para?Querystring=%8DL%93%87%83%5C%81%5B%83v"
"1034817348.968 133.25.88.171 1441 GET
http://taisen.mycom.co.jp/taisen/image/side/top01.gif"
본 예에서는, 최초의 숫자는 소정의 형식으로 표시된 시각 정보이다. 또한, IP 어드레스(133.25.88.171)와, 오브젝트 사이즈와, 처리 타입(GET)과, 액세스처 URL이 포함되어 있다. 최초의 로그는 하선으로 나타낸 바와 같이 인코드된 검색 키워드를 포함하는 검색 사이트에의 쿼리(URL)를 나타내고 있으며, 다음의 로그는 동일한 클라이언트에 의한 별도의 URL에의 액세스를 나타내고 있다. 본 실시의 형태에서는 검색 사이트에의 쿼리 후에 동일한 클라이언트가 액세스한 URL을 바로가기 URL이라고 판단하여 처리를 실시한다. 즉, 프록시 로그 저장부(84)로부터 취득되는 로그 데이터에 대해서는, 2개의 로그로 검색 로그 저장부(91)에 저장된 1개의 검색 로그에 상당하는 데이터가 구성되게 된다.
또, 검색 사이트 서버(9)도 프록시 서버(8)도 부하 분산을 위해서 복수의 서버로 구성되는 경우가 있다. 이 경우에는, 각각의 서버의 프록시 로그 저장부(84) 또는 검색 로그 저장부(91)에 로그가 분산되므로, 모든 서버의 프록시 로그 저장부(84) 또는 검색 로그 저장부(91)의 데이터를 취득하여 1개로 통합하여, 시간 순으로 재배열할 필요가 있다.
다음으로, 검색 로그 해석부(555)는 수집된 로그의 정규화 처리를 실시한다(단계 S203). 이후의 처리를 위해서 데이터를 좁혀 들어감과 함께, 검색 키워드의 정규화 등도 실시한다. 이 처리의 상세를 도 17 및 도 18에 도시한다.
도 17은 검색 로그 저장부(91)로부터 취득된 데이터에 대한 처리 흐름을 나타내고 있다. 검색 로그 해석부(555)는, 검색 로그 저장부(511)로부터 처리해야 할 데이터를 메모리에 판독한다(단계 S211). 그리고, 판독한 데이터의 각 로그에대하여 일시, 키워드 및 바로가기 URL의 데이터를 추출하여, 메모리에 저장한다(단계 S213). 또, 키워드에 대해서는 인코드되어 있기 때문에, 여기서 디코드하여, 메모리에 저장한다(단계 S215). 그리고, 디코드된 키워드에 대하여 정규화를 행하여, 메모리에 저장한다(단계 S217). 여기서 정규화는 전각의 영수 문자를 반각의 영수 문자로 변환하거나, 대문자를 소문자로 변환하거나, 반각 가나 문자를 전각 가나 문자로 변환하거나, 표기의 불일치를 일치시키는 처리이다. 표기의 불일치에 대해서는 일본어로서는 「コンピュ-タ-」를 「コンピュ-タ」로 수정하는 처리나, 영어로서는 「studies」를 「study」로 수정하는 처리이다.
그리고, 검색 로그 해석부(555)는 소정 시간 내에 동일 키워드의 로그가 포함되는지 판단한다(단계 S219). 이것은 사용자가 착각하여 몇 번이나 연속해서 동일 키워드의 검색 지시를 행하는 경우나, 검색 결과의 복수의 URL을 순서대로 보고 있는 경우를 검출하기 위함이다. 복수의 URL을 순서대로 보고 있는 경우에는, 마지막으로 천이한 바로가기 URL이 정말로 필요한 내용이 개시되어 있는 Web 페이지라는 가정 하에서 처리를 행한다. 만일, 소정 시간 내에 동일 키워드를 포함하는 로그가 포함된다고 판단된 경우에는, 해당 동일 키워드를 포함하는 로그 중 최종 액세스의 로그 이외를 삭제한다(단계 S221), 그리고, 원래의 처리로 되돌아간다. 한편, 소정 기간 내에 동일 키워드의 로그가 포함되어 있지 않다고 판단된 경우에는 원래의 처리로 되돌아간다.
이에 의해, 처리 불필요한 데이터를 삭제하여, 처리해야 하는 데이터량을 감소시켜, 처리 속도를 높일 수 있음과 함께, 보다 적절한 처리 결과를 얻을 수 있게된다.
도 18은 프록시 로그 저장부(84)로부터 취득된 데이터에 대한 처리 흐름을 나타내고 있다. 검색 로그 해석부(555)는 검색 로그 저장부(511)로부터 처리해야 할 데이터를 메모리에 판독한다(단계 S231). 다음으로, 판독한 데이터 중 각 로그에 대하여 일시, URL 및 클라이언트 IP 어드레스를 추출하여, 메모리에 기억한다(단계 S233). 이와 같이 추출된 데이터를 포함하는 로그를 클라이언트 IP 어드레스별로 통합하여, 시간 순으로 재배열한다(단계 S235). 그리고, 소정의 검색 사이트에의 액세스를 나타내는 로그를 추출함과 함께, 해당 로그의 URL로부터 키워드를 추출하여, 메모리에 저장한다(단계 S237). 이 때문에, 검색 사이트의 URL을 미리 등록해 두고, 해당 검색 사이트의 URL을 이용하여 검색 사이트에의 액세스를 나타내는 로그를 추출한다. 그리고, 해당 로그의 URL의 규칙성으로부터 키워드를 추출한다. 검색 사이트에의 액세스를 나타내는 로그를 추출하면, 검색 로그 해석부(555)는 해당 추출된 로그의 직후의 로그의 URL을 바로가기 URL로서 추출하여, 메모리에 저장한다(단계 S239).
이와 같이 추출된 키워드 및 바로가기 URL과, 예를 들면 키워드를 포함하는 로그의 일시 데이터에 의해 로그 레코드를 생성하여, 메모리에 저장한다(단계 S241). 이 로그 레코드에 포함되는 키워드에 대해서는 인코드되어 있기 때문에, 여기서 디코드하여, 디코드 후의 키워드를 메모리에 저장한다(단계 S243). 그리고, 디코드된 키워드에 대하여 정규화를 행하여, 메모리에 저장한다(단계 S245). 이 정규화는 단계 S217과 마찬가지의 처리이다.
그리고, 검색 로그 해석부(555)는 소정 시간 내에 동일 키워드의 로그 레코드가 포함되는지 판단한다(단계 S247). 만일, 소정 시간 내에 동일 키워드를 포함하는 로그가 포함된다고 판단된 경우에는, 해당 동일 키워드를 포함하는 로그 중 최종 액세스의 로그 레코드 이외를 삭제한다(단계 S249). 그리고, 원래의 처리로 되돌아간다. 한편, 소정 기간 내에 동일 키워드의 로그가 포함되어 있지 않는다고 판단된 경우에는, 원래의 처리로 되돌아간다.
이에 의해, 처리 불필요한 데이터를 삭제하여, 처리해야 하는 데이터량을 감소시켜, 처리 속도를 높일 수 있음과 함께, 보다 적절한 처리 결과를 얻을 수 있게 된다.
도 16의 설명으로 되돌아가면, 다음으로 검색 로그 해석부(555)는 집계 처리를 실시한다(단계 S205). 이 집계 처리의 상세에 대하여 도 19에 도시한다.
집계 처리로서 검색 로그 해석부(555)는, 바로가기 URL별로 액세스 수와 사용된 키워드의 종류 수를 카운트하여, 카운트 결과를 메모리에 저장한다(단계 S251). 2 이상의 키워드가 동시에 사용된 경우에는 그 세트를 1종류라고 판단할 수도 있다. 그리고, 바로가기 URL을 그 계층 구조에 기초하여 사이트별로 통합하여, 사이트별로 액세스 수와 사용된 키워드의 종류 수를 집계하여, 집계 결과를 메모리에 저장한다(단계 S253). 본 실시의 형태에서 사이트는, URL의 도메인부 또는 도메인부 및 하나 아래의 계층의 디렉토리부 중 어느 하나를 의미한다.
이와 같이 함으로써 각 페이지의 액세스 수 및 사용된 키워드의 종류 수가 파악됨과 함께, 각 페이지를 하위에 갖는 사이트별 액세스 수 및 사용된 키워드의종류 수를 파악할 수 있게 된다.
도 16의 설명으로 되돌아가면, 다음으로 검색 로그 해석부(555)는 사이트 종별 판정 처리 및 등록 처리를 실시한다(단계 S207). 이 사이트 종별 판정 처리 및 등록 처리의 상세를 도 20에 도시한다. 우선, 검색 로그 해석부(555)는 각 사이트를 액세스 수, 사용된 키워드의 종류 수로 분류한다(단계 S261). 이에 의해, 각 사이트의 상대적인 액세스 수의 많고 적음, 사용된 키워드의 종류 수의 많고 적음을 알 수 있게 된다. 그리고, 바로가기 사이트를 1개 선택하여(단계 S263), 해당 바로가기 사이트의 액세스 수 및 사용 키워드의 종류 수가 소정 기준 이상인지를 판단한다(단계 S265). 보다 구체적으로는, 액세스 수에 대한 소정 기준과 해당 바로가기 사이트의 액세스 수를 비교하고, 사용 키워드의 종류 수에 대한 소정 기준과 해당 바로가기 사이트의 사용 키워드의 종류 수를 비교한다.
그리고, 해당 바로가기 사이트의 액세스 수 및 사용 키워드의 종류 수가 소정 기준 이상이라고 판단된 경우에는(단계 S265: "예" 루트), 본 실시의 형태에서 해당 바로가기 사이트는 ISP(Internet Service Provider)의 사이트라고 판단하여, 해당 사이트 URL이 미등록이면, URL 기업명 사전에 사이트 URL, 기업명, 업종명(ISP), 사용된 키워드 및 랭킹 정보를 등록한다(단계 S267). 기업명에 대해서는 TITLE 태그의 값을 이용한다. 또한, 랭킹 정보에 대해서는 액세스 수 및 어카이브(512)에 저장되어 있는 피참조도의 데이터를 등록한다. 이와 같이 URL 기업명 사전이 확충된다. 또한, 업종(ISP)에 대응하여 사용된 키워드를 업종 용어 사전에 등록한다(단계 S269). 이와 같이 업종 용어 사전이 확충된다.
또한, 소정의 조건을 만족하는 해당 바로가기 사이트의 관리하에 있는 페이지를 추출한다(단계 S271). 소정의 조건은, 예를 들면 액세스 수가 소정 기준 이상이거나, 또는 액세스 수의 시간 경과의 데이터를 얻을 수 있는 경우에는 액세스 수가 소정 기준 이상으로 증가하고 있는 것이다. 그리고, 추출된 페이지의 URL을 개인 홈페이지의 URL이라고 간주하고, URL, 업종 및 랭킹 정보를 해석 데이터 저장부(510)에 등록한다(단계 S273). 예를 들면, 도 4B의 단계에서, 종별을 「2」로 하여 해석 데이터 저장부(510)에 저장한다. 이 경우에는 본 단계에서, 예를 들면 특징어 베이스 업종 판정부(553)가 해당 Web 페이지의 내용으로부터 업종 용어 사전에 기초하여 업종을 판정한다. 또, 도 2의 단계 S3 대신에 본 단계가 행해진 것으로 하면, 도 4A의 단계에서 해석 데이터 저장부(510)에 저장하도록 해도 된다. 또한, 랭킹 정보에 대해서는, 상술한 처리로 취득된 액세스 수와, 어카이브(512)에 저장된 피참조도의 데이터를 등록한다. 액세스 수는 피참조도를 보완하는 랭킹 정보로서, 피참조도가 동일하면 액세스 수에 의해 중요도, 영향도, 신뢰도 등을 판단한다. 처리는, 단계 S283으로 이행한다.
단계 S265에서 액세스 수 및 사용 키워드 종류 수가 소정의 기준 미만이라고 판단된 경우에는(단계 S265: "아니오" 루트), 액세스 수가 소정의 범위 내이고, 또한 사용 키워드 종류 수가 소정 기준 미만인지 판단한다(단계 S275). 예를 들면, 액세스 수가 상술한 소정의 기준 미만이지만, 제2 기준 이상인지 판단하고, 또한 사용 키워드 종류 수가 소정 기준 미만인지 판단한다. 본 실시 형태에서 이러한 조건을 만족하는 사이트는 일반적인 기업의 사이트라고 판단한다. 따라서, 액세스수가 소정의 범위 내이고, 또한 사용 키워드 종류 수가 소정 기준 미만이라고 판단된 경우에는(단계 S275: "예" 루트), 해당 사이트 URL이 미등록이면, URL 기업명 사전에 사이트 URL, 기업명, 업종명, 랭킹 정보 및 사용된 키워드를 등록한다(단계 S277). 이와 같이 URL 기업명 사전이 확충된다. 또, 업종명에 대해서는, 예를 들면 특징어 베이스 업종 판정부(553)가 업종 용어 사전에 기초하여 해당 Web 페이지의 내용으로부터 판정하여, URL 기업명 사전에 등록한다. 기업명에 대해서는 해당 Web 페이지의 TITLE 태그의 값을 이용한다. 사용된 키워드는 특징 키워드로서 등록된다. 랭킹 정보는 상술한 처리에 의해 취득된 액세스 수와, 어카이브(512)에 저장되어 있는 피참조도의 데이터를 등록한다. 이와 같이 URL 기업명 사전에도 랭킹 정보가 등록되게 되어, 개인 홈페이지 등에서 정보의 출처를 나타내는 정보로서 URL이 검출된 경우에, 검출된 URL의 랭킹 정보에 기초하여 해당 개인 홈페이지 등의 신뢰도를 계산할 수 있다. 처리는 단계 S283으로 이행한다.
단계 S275에서 액세스 수가 소정 범위 내가 아니고, 또한 사용 키워드의 종류 수가 소정 기준 미만이 아니라고 판단된 경우에는(단계 S275: "아니오" 루트), 액세스 수 및 사용 키워드의 종류 수가 소정의 기준 미만인지 판단한다(단계 S279). 즉, 액세스 수가 액세스 수에 대한 기준 미만이고, 또한 사용 키워드의 종류 수가 사용 키워드의 종류 수에 대한 기준 미만인지 판단한다. 만일, 액세스 수 및 사용 키워드 종류 수가 소정의 기준 미만인 경우에는(단계 S279: "예" 루트), 본 실시의 형태에서는 개인 홈페이지와 동일 레벨의 사이트라고 판단한다. 따라서, URL, 업종 및 랭킹 정보를 해석 데이터 저장부(510)에 등록한다(단계 S281).예를 들면, 도 4B의 단계에서, 종별을 「3」으로 하여 해석 데이터 저장부(510)에 저장한다. 이 경우에는, 본 단계에서, 예를 들면 특징어 베이스 업종 판정부(553)가 해당 Web 페이지의 내용으로부터 업종 용어 사전에 기초하여 업종을 판정한다. 또, 도 2의 단계 S3 대신에 본 단계가 행해진 것으로 하면, 도 4A의 단계에서 해석 데이터 저장부(510)에 저장하도록 해도 된다. 또한, 랭킹 정보에 대해서는 상술한 처리로 취득된 액세스 수와, 어카이브(512)에 저장된 피참조도의 데이터를 등록한다. 이러한 처리를 실시함으로써, 개인 등의 소규모 조직이 도메인을 취득하여 의견을 진술하거나 소문을 내거나 하는 경우에 대처할 수 있다. 처리는 단계 S283으로 이행한다. 단계 S279에서 액세스 수 및 사용 키워드 종류 수가 소정 기준 미만이 아니라고 판단된 경우에도 단계 S283으로 이행한다.
단계 S283에서는 모든 바로가기 사이트에 대하여 처리했는지 판단한다. 미처리의 바로가기 사이트가 존재하는 경우에는 단계 S263으로 되돌아가, 미처리의 바로가기 사이트에 대한 처리를 실시한다. 한편, 모든 바로가기 사이트에 대하여 처리하였다고 할 수 있는 경우에는 처리를 종료한다.
이상과 같은 처리를 실시함으로써, 검색 로그 등으로부터 URL 기업명 사전 및 업종 용어 사전을 확충시킴과 함께 주목해야 할 사이트나 URL을 특정할 수 있게 된다.
또, 사전 생성부(520)의 검색 로그 해석부(555)는 도 16 내지 도 20에서 도시되는 처리 외에, 검색 로그 저장부(511)에 저장된 데이터를 이용하여 다음과 같은 처리를 실시한다.
검색 로그는, 상술한 바와 같이 적어도 타임 스탬프(일시)와, 검색 키워드와, 바로가기 URL을 포함한다. 예를 들면, 검색 로그 해석부(555)는 검색 로그 저장부(511)에 저장된 검색 로그에 대하여 키워드 그룹핑 및 URL 그룹핑을 실시한다. 키워드 그룹핑은 (a) 한 번의 검색에 있어서 AND 조건으로 입력된 복수의 검색 키워드의 그룹핑, (b) 연속하는 복수회의 검색에 있어서 AND 조건으로 입력된 복수의 검색 키워드의 그룹핑, 및 (c) 동일한 바로가기 URL을 포함하는 복수의 검색 로그에 있어서의 복수의 검색 키워드의 그룹핑을 포함한다. URL 그룹핑은 (a) AND 조건으로 연속해서 행해진 각 검색의 검색 로그에 포함되는 바로가기 URL의 그룹핑, 및 (b) 동일한 키워드를 포함하는 검색 로그에 있어서의 바로가기 URL의 그룹핑을 포함한다.
이들 그룹핑에 의해 생성되는 키워드 세트 및 바로가기 URL 세트는, 일단 기억 장치에 저장된다. 그리고, 초기에는 키워드 세트 및 바로가기 URL 세트는 표시 장치에 표시하거나, 인쇄 장치에 출력하거나 하여, 사전의 관리자에게 제시된다. 그리고, 사전의 관리자는 각 키워드 세트 및 바로가기 URL 세트에 대하여 업종 및 기업명을 판정하여, 각 키워드 세트 및 바로가기 URL 세트를 판정 결과인 업종 및 기업명에 따라 업종 용어 사전 및 기업명 사전 또는 기업명 사전에 등록한다. 또한, 각 키워드 세트 및 바로가기 URL 세트에 대응하여 판정 결과인 업종 및 기업명을 파일이나 테이블에 기록해 둔다.
예를 들면, 「(A 기업명)& 컴퓨터」라는 검색 키워드가 1회의 검색으로 입력된 경우나, 「(A 기업명)」으로 검색한 후에 AND 조건으로 「컴퓨터」라는 검색 키워드의 검색이 연속해서 행해진 경우에는, A 기업 또는 A 기업의 업종에 대응하여 「컴퓨터」라는 용어를 등록한다. 또한, 「ABC」, 「DEF」 등의 검색 키워드를 포함하는 검색 로그에 있어서 동일 기업의 URL이 바로가기 URL로 되어 있다는 것으로 해당 검색 키워드가 그룹핑되어 있는 경우에는, 해당 기업 또는 해당 기업의 업종에 대응하여 「ABC」, 「DEF」 등의 검색 키워드를 등록한다.
또한, 「(A 기업명)」이라는 검색 후에 AND 조건으로 「컴퓨터」라는 검색 키워드의 검색이 연속해서 행해져, 바로가기 URL 세트로서 추출된 URL 중 어느 하나가 A 기업의 URL 이외의 URL이고 도메인도 다른 URL인 경우에는, 관련 URL로서, 해당 추출된 URL을 A 기업 또는 A 기업의 업종에 대응하여 등록한다. 또한, 「(A 기업)」이라는 동일 검색 키워드를 포함하는 검색 로그의 바로가기 URL 세트 중 어느 하나가 A 기업의 URL 이외의 URL이고 도메인도 다른 URL인 경우에는, 관련 URL로서, 해당 바로가기 URL을 A사 또는 A사의 업종에 대응하여 등록한다.
어느 정도, 사전의 관리자가 손으로 업종 및 기업명을 판정하여, 각 키워드 세트 및 바로가기 URL 세트에 대응하여 판정 결과인 업종 및 기업명이 기록되면, 이들 기록을 이용하여, 신규한 키워드 세트 또는 바로가기 URL 세트에 대하여 업종 및 기업명의 판정을, 예를 들면 검색 로그 해석부(555)에 의해 행할 수 있게 된다. 즉, 신규한 키워드 세트 또는 바로가기 URL 세트에 유사한 키워드 세트 또는 바로가기 URL 세트를 기록 중에서 추출하고, 해당 추출된 키워드 세트 또는 바로가기 URL 세트에 대응하여 기록된 업종 및 기업명을, 신규한 키워드 세트 또는 바로가기 URL 세트에 할당하도록 한다. 그리고, 신규한 키워드 세트 또는 바로가기 URL 세트중 미등록의 키워드 또는 바로가기 URL을 할당 결과인 업종 및 기업명에 따라 업종 용어 사전 및 기업명 사전 또는 기업명 사전에 등록한다.
또한, 도 21에 도시한 바와 같은 처리도 실시된다. 즉, 검색 로그 해석부(555)는 검색 로그 저장부(511)에 저장된 검색 로그를 이용하여, 업종 지정된 상태에서의 검색 로그를 추출하여, 해당 검색 로그에 있어서의 검색 키워드를 업종 용어 사전에 등록한다(단계 S101). 예를 들면, 검색 키워드에 업종명을 나타내는 문언이 이용되고 있는 경우나, 검색 키워드와는 별도로 검색 조건으로서 업종 지정을 행할 수 있는 경우 등에 적용 가능하다. 또, 추출된 검색 로그에 있어서의 검색 키워드를 업종 용어 사전의 인포멀판에 등록하도록 해도 된다. 또한, 검색 로그 해석부(555)는 검색 로그에 있어서의 사용자의 바로가기 URL이 URL 기업명 사전에 등록되어 있으면, 해당 URL에 대응하여 검색 키워드를 특징 키워드로서 URL 기업명 사전에 등록한다(단계 S103). 예를 들면, 「GHI」라는 검색 키워드를 포함하는 검색 로그에 URL 기업명 사전에 등록 완료한 URL이 바로가기 URL로서 포함되는 경우에는, 「GHI」를 바로가기 URL의 기업의 특징 키워드로서 URL 기업명 사전에 등록한다.
이와 같이 함으로써, 검색 로그를 이용하여 업종 용어 사전의 확충을 도모할 수 있게 된다. 또한, URL 기업명 사전의 특징 키워드에 대해서도 확충할 수 있다.
이상 본 발명의 일 실시 형태를 설명했지만, 본 발명은 이에 한정되는 것은 아니다. 즉, 도 1에 도시된 정보 수집 해석 시스템(5) 내의 기능 블록 분할에 대해서는 일례로서, 다른 분할 방법이어도 된다. 또한, 도 2의 처리 흐름에서, 출처탐색 처리(단계 S11)의 실행 순서에 대해서는, 예를 들면 발언 및 쓰레드의 추출(단계 S7)과 함께 또는 그 후에 실행하는 구성이어도 된다. 도 9에서도, 단계 S51 및 단계 S53과, 단계 S55 및 단계 S57과의 순서 교체도 가능하다. 도 10에서도, 단계 S61, 단계 S63, 단계 S65 내지 S87의 순서를 교체할 수도 있다. 도 14에서의 기능 블록 분할에 대해서도 일례로서, 다른 분할 방법이어도 된다. 도 15에서의 처리 단계는 그 실행 순서는 교체 가능하다.
위에서는 기업에 대한 정보 수집 및 해석에 대하여 설명했지만, 서평 등을 대상으로 해도 된다. 또한, 도 12 및 도 13에, 사용자 인터페이스부(509)의 출력의 일례를 도시했지만, 예를 들면 회사명만을 추출하는 것은 아니고, 예를 들면 게시판이나 개인 홈페이지로부터 특정한 회사의 상품명 등도 함께 추출하여, 예를 들면 추출 정보를 저장하기 위한 열(308)(도 4C)에 저장해 둔다. 그리고, 예를 들면 도 22에 도시한 바와 같은 정보를 사용자 인터페이스부(509)가 사용자 단말기(3)에 출력하도록 해도 된다. 즉, 각 기업의 각 상품에 대하여, 각 게시판이나 각 개인 홈페이지에서 몇 회 정도 좋은 평가(GOOD)가 행해져 있는지, 또는 몇 회 정도 나쁜 평가(BAD)가 행해져 있는지를 해석 데이터 저장부(510)에 저장된 데이터에 대하여 집계하여, 사용자에게 제시하는 것이다.
또한, 도 20의 처리 플로우에서, 또한 액세스 수 및 사용되는 키워드 종류 수의 기준값을 적절하게 결정함으로써, 보다 상세하게 사이트를 분류할 수 있도록 된다. 예를 들면, 임의의 사이트의 부하에 사용 키워드의 종류 수가 많은 페이지가 그다지 없는 경우에는, 해당 사이트를 뉴스 제공 사이트라고 판단할 수도 있다.

Claims (62)

  1. 수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위를 추출하는 추출 단계와,
    상기 개인의 의견의 대상을 특정하는 대상 특정 단계와,
    상기 개인의 의견의 개시 내용을 해석함으로써 상기 대상에 대한 상기 개인의 평가를 특정하는 평가 특정 단계
    를 포함하는 콘텐츠 정보 해석 방법.
  2. 제1항에 있어서,
    상기 추출 단계가,
    개인의 의견이 포함되는 콘텐츠 정보의 단위를 특정하는 특정 단계와,
    특정된 상기 콘텐츠 정보의 단위로부터 상기 개인의 의견의 개시 단위를 추출하는 단계를 포함하는 콘텐츠 정보 해석 방법.
  3. 제2항에 있어서,
    상기 특정 단계가 상기 콘텐츠 정보의 단위별 피참조도가 높은 순서대로 실시되는 것을 특징으로 하는 콘텐츠 정보 해석 방법.
  4. 제1항에 있어서,
    상기 추출 단계가,
    상기 개인의 의견의 참조원을 찾아감으로써 상기 개인의 의견의 개시 단위의 그룹을 검출하는 단계를 포함하는 콘텐츠 정보 해석 방법.
  5. 제1항에 있어서,
    상기 추출 단계가,
    상기 개인의 의견의 대상에 대한 카테고리를 특정하는 카테고리 특정 단계를 포함하는 것을 특징으로 하는 콘텐츠 정보 해석 방법.
  6. 제5항에 있어서,
    상기 평가 특정 단계에서,
    상기 개인의 의견의 대상에 대한 카테고리에 기초하여 상기 개인의 의견의 개시 내용을 해석함으로써, 상기 대상에 대한 상기 개인의 평가를 특정하는 것을 특징으로 하는 콘텐츠 정보 해석 방법.
  7. 제1항에 있어서,
    상기 개인의 의견의 근거가 될 수 있는 정보가 해당 개인의 의견의 개시 단위에 포함되는지 판단하여, 포함되는 경우에는 해당 근거가 될 수 있는 정보를 특정하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
  8. 제1항에 있어서,
    상기 개인의 의견의 개시 내용에 대한 장르를 특정하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
  9. 제1항에 있어서,
    상기 개인의 의견의 개시 단위의 신뢰도를 결정하는 신뢰도 결정 단계를 더 포함하는 콘텐츠 정보 해석 방법.
  10. 제9항에 있어서,
    상기 신뢰도 결정 단계가,
    상기 개인의 의견의 개시 단위에 상기 개인의 신원을 나타내는 정보가 포함되어 있는지 판단하는 단계를 포함하는 콘텐츠 정보 해석 방법.
  11. 제9항에 있어서,
    상기 신뢰도 결정 단계가,
    상기 개인의 의견의 근거가 될 수 있는 정보가 해당 개인의 의견의 개시 단위에 포함되어 있는지 판단하는 단계를 포함하는 콘텐츠 정보 해석 방법.
  12. 제1항에 있어서,
    상기 대상 특정 단계에서,
    적어도 유니폼 리소스 로케이터(URL)와 기업명과 약칭과 업종에 대한 사전을 이용하여, 상기 개인의 의견의 대상을 특정하는 것을 특징으로 하는 콘텐츠 정보 해석 방법.
  13. 제12항에 있어서,
    수집된 콘텐츠 정보의 URL 및 상기 사전에 등록 완료된 유사한 URL을 이용하여, 기업명에 대응하는 업종에 관한 정보를 상기 사전에 등록하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
  14. 제12항에 있어서,
    수집된 콘텐츠 정보의 링크원의 문자 정보 및 링크처의 URL을 이용하여, 약칭을 상기 사전에 등록하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
  15. 제12항에 있어서,
    수집된 콘텐츠 정보의 링크 관계를 해석함으로써 얻어지는 링크 토폴로지의 정보를 이용하여 기업명에 대응하는 업종에 관한 정보를 상기 사전에 등록하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
  16. 제12항에 있어서,
    콘텐츠 정보로부터 특징어를 추출하고, 각 업종에 대한 특징어를 구비한 제2사전을 이용하여 업종을 특정하여, 기업명에 대응하는 업종에 관한 정보를 상기 사전에 등록하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
  17. 제5항에 있어서,
    상기 카테고리 특정 단계에서,
    각 업종에 대응하는 특징어에 대한 제2 사전을 이용하여, 상기 개인의 의견의 대상인 기업의 업종을 특정하는 것을 특징으로 하는 콘텐츠 정보 해석 방법.
  18. 제16항에 있어서,
    업종이 특정된 콘텐츠 정보로부터 특징어를 추출하고, 해당 특징어를 상기 업종에 대응하여 상기 제2 사전에 추가하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
  19. 제16항에 있어서,
    콘텐츠 정보에 대한 검색 로그에 있어서, 업종이 이미 지정되어 있는 상태에서의 검색의 키워드를 식별하고, 해당 키워드를 상기 제2 사전에 특징어로서 등록하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
  20. 제12항에 있어서,
    콘텐츠 정보에 대한 검색 로그에 포함되는, 검색자의 바로가기 URL이 상기사전에 포함되어 있는지 판단하는 단계와,
    포함되어 있다고 판단된 경우에는 상기 검색 로그에 포함되는 검색 키워드를 상기 사전에 추가하는 단계
    를 더 포함하는 콘텐츠 정보 해석 방법.
  21. 제1항에 있어서,
    각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 해석하고, 액세스 수 및 검색 키워드의 종류 수에 기초하여 개인 홈페이지를 계층 하에 포함하는 사이트를 특정하는 단계와,
    특정된 상기 사이트의 계층 하에 포함되는 개인 홈페이지를 상기 개인의 의견의 개시 단위로서 추출하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
  22. 제1항에 있어서,
    각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 해석하고, 액세스 수 및 검색 키워드의 종류 수에 기초하여 개인 또는 소규모 조직의 사이트를 상기 개인의 의견의 개시 단위로서 추출하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
  23. 제12항에 있어서,
    각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의검색 로그를 해석하고, 액세스 수 및 검색 키워드의 종류 수에 기초하여 개인 홈페이지를 계층 하에 포함하는 사이트를 특정하는 단계와,
    특정된 상기 사이트에 대한 정보를 상기 사전에 등록하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
  24. 제12항에 있어서,
    각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 해석하고, 액세스 수 및 검색 키워드의 종류 수에 기초하여 기업 사이트를 특정하는 단계와,
    특정된 상기 기업 사이트에 대한 정보를 상기 사전에 등록하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
  25. 수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위를 추출하는 단계와,
    상기 개인의 의견의 대상을 특정하는 단계와,
    상기 개인의 의견의 개시 단위의 신뢰도를 결정하는 단계
    를 포함하는 콘텐츠 정보 해석 방법.
  26. 각각 검색 키워드 및 바로가기 URL을 포함하는 콘텐츠 정보에 대한 복수의 검색 로그를 취득하는 취득 단계와,
    소정의 규칙에 따라 각 바로가기 URL에 대하여 액세스 수 및 검색 키워드의종류 수를 카운트하는 카운트 단계와,
    URL의 구조에 기초하여 특정되는 각 사이트에 대하여, 해당 사이트의 계층 하에 포함되는 바로가기 URL의 액세스 수 및 검색 키워드의 종류 수를 집계하는 단계와,
    상기 사이트에 대하여 집계된 액세스 수 및 검색 키워드의 종류 수에 기초하여, 해당 사이트의 종별을 판정하는 단계
    를 포함하는 콘텐츠 정보 해석 방법.
  27. 제26항에 있어서,
    상기 취득 단계가,
    프록시 서버에 축적되는 로그 데이터로부터, 검색 키워드 및 바로가기 URL을 포함하는 복수의 로그 레코드를 생성하는 단계를 포함하는 콘텐츠 정보 해석 방법.
  28. 제26항에 있어서,
    상기 카운트 단계가,
    검색 키워드를 정규화하는 단계와,
    소정 시간 내에 동일 검색 키워드에 관계되는 복수의 검색 로그가 포함되는 경우에는 최종 검색 로그 이외의 검색 로그를 삭제하는 단계를 포함하는 콘텐츠 정보 해석 방법.
  29. 수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위를 추출하는 추출 수단과,
    상기 개인의 의견의 대상을 특정하는 대상 특정 수단과,
    상기 개인의 의견의 개시 내용을 해석함으로써 상기 대상에 대한 상기 개인의 평가를 특정하는 평가 특정 수단을 구비하는 콘텐츠 정보 해석 시스템.
  30. 제29항에 있어서,
    상기 추출 수단이,
    개인의 의견이 포함되는 콘텐츠 정보의 단위를 특정하는 특정 수단과,
    특정된 상기 콘텐츠 정보의 단위로부터 상기 개인의 의견의 개시 단위를 추출하는 수단을 구비하는 콘텐츠 정보 해석 시스템.
  31. 제30항에 있어서,
    상기 특정 수단이,
    상기 콘텐츠 정보의 단위별 피참조도가 높은 순서대로 실시하는 것을 특징으로 하는 콘텐츠 정보 해석 시스템.
  32. 제29항에 있어서,
    상기 추출 수단이,
    상기 개인의 의견의 참조원을 찾아감으로써 상기 개인의 의견의 개시 단위의그룹을 검출하는 것을 특징으로 하는 콘텐츠 정보 해석 시스템.
  33. 제29항에 있어서,
    상기 추출 수단이,
    상기 개인의 의견의 대상에 대한 카테고리를 특정하는 카테고리 특정 수단을 구비하는 것을 특징으로 하는 콘텐츠 정보 해석 시스템.
  34. 제33항에 있어서,
    상기 평가 특정 수단이,
    상기 개인의 의견의 대상에 대한 카테고리에 기초하여 상기 개인의 의견의 개시 내용을 해석함으로써, 상기 대상에 대한 상기 개인의 평가를 특정하는 것을 특징으로 하는 콘텐츠 정보 해석 시스템.
  35. 제29항에 있어서,
    상기 개인의 의견의 근거가 될 수 있는 정보가 해당 개인의 의견의 개시 단위에 포함되는지 판단하여, 포함되는 경우에는 해당 근거가 될 수 있는 정보를 특정하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
  36. 제29항에 있어서,
    상기 개인의 의견의 개시 내용에 대한 장르를 특정하는 수단을 더 구비하는콘텐츠 정보 해석 시스템.
  37. 제29항에 있어서,
    상기 개인의 의견의 개시 단위의 신뢰도를 결정하는 신뢰도 결정 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
  38. 제37항에 있어서,
    상기 신뢰도 결정 수단이,
    상기 개인의 의견의 개시 단위에 상기 개인의 신원을 나타내는 정보가 포함되어 있는지 판단하는 것을 특징으로 하는 콘텐츠 정보 해석 시스템.
  39. 제37항에 있어서,
    상기 신뢰도 결정 수단이,
    상기 개인의 의견의 근거가 될 수 있는 정보가 해당 개인의 의견의 개시 단위에 포함되어 있는지 판단하는 것을 특징으로 하는 콘텐츠 정보 해석 시스템.
  40. 제29항에 있어서,
    상기 대상 특정 수단이,
    적어도 유니폼 리소스 로케터(URL)와 기업명과 약칭과 업종에 대한 사전을 이용하여, 상기 개인의 의견의 대상을 특정하는 것을 특징으로 하는 콘텐츠 정보해석 시스템.
  41. 제40항에 있어서,
    수집된 콘텐츠 정보의 URL 및 상기 사전에 등록 완료된 유사한 URL을 이용하여, 상기 사전에 기업명에 대응하는 업종에 관한 정보를 등록하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
  42. 제40항에 있어서,
    수집된 콘텐츠 정보의 링크원의 문자 정보 및 링크처의 URL을 이용하여, 약칭을 상기 사전에 등록하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
  43. 제40항에 있어서,
    수집된 콘텐츠 정보의 링크 관계를 해석함으로써 얻어지는 링크 토폴로지의 정보를 이용하여 기업명에 대응하는 업종에 관한 정보를 상기 사전에 등록하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
  44. 제40항에 있어서,
    콘텐츠 정보로부터 특징어를 추출하고, 각 업종에 대한 특징어를 구비한 제2 사전을 이용하여 업종을 특정하여, 기업명에 대응하는 업종에 관한 정보를 상기 사전에 등록하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
  45. 제33항에 있어서,
    상기 카테고리 특정 수단이,
    각 업종에 대응하는 특징어에 대한 제2 사전을 이용하여, 상기 개인의 의견의 대상인 기업의 업종을 특정하는 것을 특징으로 하는 콘텐츠 정보 해석 시스템.
  46. 제44항에 있어서,
    업종이 특정된 콘텐츠 정보로부터 특징어를 추출하고, 해당 특징어를 상기 업종에 대응하여 상기 제2 사전에 추가하는 단계를 더 포함하는 콘텐츠 정보 해석 시스템.
  47. 제44항에 있어서,
    콘텐츠 정보에 대한 검색 로그에 있어서, 업종이 이미 지정되어 있는 상태에서의 검색의 키워드를 식별하고, 해당 키워드를 상기 제2 사전에 특징어로서 등록하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
  48. 제40항에 있어서,
    콘텐츠 정보에 대한 검색 로그에 포함되는, 검색자의 바로가기 URL이 상기 사전에 포함되어 있는지 판단하는 수단과,
    포함되어 있다고 판단된 경우에는 상기 검색 로그에 포함되는 검색 키워드를상기 사전에 추가하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
  49. 제29항에 있어서,
    각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 해석하고, 액세스 수 및 검색 키워의 종류 수에 기초하여 개인 홈페이지를 계층 하에 포함하는 사이트를 특정하는 수단과,
    특정된 상기 사이트의 계층 하에 포함되는 개인 홈페이지의 개시 단위로서 추출하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
  50. 제29항에 있어서,
    각각 검색 키워드 및 바로가기 URL을 포함하는 콘텐츠 정보에 대한 복수의 검색 로그를 해석하고, 액세스 수 및 검색 키워드의 종류 수에 기초하여 개인 또는 소규모 조직의 사이트를 상기 개인의 의견의 개시 단위로서 추출하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
  51. 제40항에 있어서,
    각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 해석하고, 액세스 수 및 검색 키워드의 종류 수에 기초하여 개인 홈페이지를 계층 하에 포함하는 사이트를 특정하는 수단과,
    특정된 상기 사이트에 대한 정보를 상기 사전에 등록하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
  52. 제40항에 있어서,
    각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 해석하고, 액세스 수 및 검색 키워드의 종류 수에 기초하여 기업 사이트를 특정하는 수단과,
    특정된 상기 기업 사이트에 대한 정보를 상기 사전에 등록하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
  53. 수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위를 추출하는 수단과,
    상기 개인의 의견의 대상을 특정하는 수단과,
    상기 개인의 의견의 개시 단위의 신뢰도를 결정하는 수단을 구비하는 콘텐츠 정보 해석 시스템.
  54. 각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 취득하는 취득 수단과,
    소정의 규칙에 따라 각 바로가기 URL에 대하여 액세스 수 및 검색 키워드의 종류 수를 카운트하는 카운트 수단과,
    URL의 구조에 기초하여 특정되는 각 사이트에 대하여, 해당 사이트의 계층 하에 포함되는 바로가기 URL의 액세스 수 및 검색 키워드의 종류 수를 집계하는 수단과,
    상기 사이트에 대하여 집계된 액세스 수 및 검색 키워드의 종류 수에 기초하여, 해당 사이트의 종별을 판정하는 수단
    을 구비하는 콘텐츠 정보 해석 시스템.
  55. 제54항에 있어서,
    상기 취득 수단이,
    프록시 서버에 축적되는 로그 데이터로부터, 검색 키워드 및 바로가기 URL을 포함하는 복수의 로그 레코드를 생성하는 수단을 구비하는 콘텐츠 정보 해석 시스템.
  56. 제54항에 있어서,
    상기 카운트 수단이,
    검색 키워드를 정규화하는 수단과,
    소정 시간 내에 동일 검색 키워드에 관계되는 복수의 검색 로그가 포함되는 경우에는 최종 검색 로그 이외의 검색 로그를 삭제하는 수단을 구비하는 콘텐츠 정보 해석 시스템.
  57. 콘텐츠 정보 해석 처리를 컴퓨터에 실시시키기 위한 프로그램을 저장한 기록 매체로서,
    컴퓨터에,
    수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위를 추출하는 추출 단계와,
    상기 개인의 의견의 대상을 특정하는 대상 특정 단계와,
    상기 개인의 의견의 개시 내용을 해석함으로써 상기 대상에 대한 상기 개인의 평가를 특정하는 평가 특정 단계
    를 실행시키기 위한 프로그램을 저장한 기록 매체.
  58. 콘텐츠 정보 해석 처리를 컴퓨터에 실시시키기 위한 프로그램을 저장한 기록 매체로서,
    컴퓨터에,
    수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위를 추출하는 단계와,
    상기 개인의 의견의 대상을 특정하는 단계와,
    상기 개인의 의견의 개시 단위의 신뢰도를 결정하는 단계
    를 실행시키기 위한 프로그램을 저장한 기록 매체.
  59. 콘텐츠 정보 해석 처리를 컴퓨터에 실시시키기 위한 프로그램을 저장한 기록 매체로서,
    컴퓨터에,
    각각 검색 키워드 및 바로가기 URL을 포함하는 콘텐츠 정보에 대한 복수의검색 로그를 취득하는 취득 단계와,
    소정의 규칙에 따라 각 바로가기 URL에 대하여 액세스 수 및 검색 키워드의 종류 수를 카운트하는 카운트 단계와,
    URL의 구조에 기초하여 특정되는 각 사이트에 대하여, 해당 사이트의 계층 하에 포함되는 바로가기 URL의 액세스 수 및 검색 키워드의 종류 수를 집계하는 단계와,
    상기 사이트에 대하여 집계된 액세스 수 및 검색 키워드의 종류 수에 기초하여, 해당 사이트의 종별을 판정하는 단계
    를 실행시키기 위한 프로그램을 저장한 기록 매체.
  60. 수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위를 추출하는 단계와,
    상기 개인의 의견의 대상을 특정하는 단계와,
    상기 개인의 의견의 개시 내용을 해석함으로써 상기 대상에 대한 상기 개인의 평가를 특정하는 단계
    를 컴퓨터에 실행시키기 위한 콘텐츠 정보 해석 프로그램.
  61. 각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 취득하는 취득 단계와,
    소정의 규칙에 따라 각 바로가기 URL에 대하여 액세스 수 및 검색 키워드의 종류 수를 카운트하는 카운트 단계와,
    URL의 구조에 기초하여 특정되는 각 사이트에 대하여, 해당 사이트의 계층 하에 포함되는 바로가기 URL의 액세스 수 및 검색 키워드의 종류 수를 집계하는 단계와,
    상기 사이트에 대하여 집계된 액세스 수 및 검색 키워드의 종류 수에 기초하여, 해당 사이트의 종별을 판정하는 단계
    를 컴퓨터에 실행시키기 위한 콘텐츠 정보 해석 프로그램.
  62. 수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위를 추출하는 단계와,
    상기 개인의 의견의 대상을 특정하는 단계와,
    상기 개인의 의견의 개시 단위의 신뢰도를 결정하는 단계
    를 컴퓨터에 실행시키기 위한 콘텐츠 정보 해석 프로그램.
KR1020047007958A 2001-11-26 2002-10-30 콘텐츠 정보 해석 방법, 시스템 및 기록 매체 KR100883261B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001359484 2001-11-26
JPJP-P-2001-00359484 2001-11-26
PCT/JP2002/011263 WO2003046764A1 (fr) 2001-11-26 2002-10-30 Procede et appareil d'analyse d'informations

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020087030203A Division KR100953238B1 (ko) 2001-11-26 2002-10-30 콘텐츠 정보 해석 방법, 시스템 및 기록 매체

Publications (2)

Publication Number Publication Date
KR20040053369A true KR20040053369A (ko) 2004-06-23
KR100883261B1 KR100883261B1 (ko) 2009-02-10

Family

ID=19170483

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020047007958A KR100883261B1 (ko) 2001-11-26 2002-10-30 콘텐츠 정보 해석 방법, 시스템 및 기록 매체
KR1020087030203A KR100953238B1 (ko) 2001-11-26 2002-10-30 콘텐츠 정보 해석 방법, 시스템 및 기록 매체

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020087030203A KR100953238B1 (ko) 2001-11-26 2002-10-30 콘텐츠 정보 해석 방법, 시스템 및 기록 매체

Country Status (9)

Country Link
US (1) US20030101166A1 (ko)
EP (2) EP2506169A3 (ko)
JP (1) JP4097602B2 (ko)
KR (2) KR100883261B1 (ko)
CN (1) CN100390786C (ko)
AU (1) AU2002343775B2 (ko)
CA (2) CA2648269C (ko)
TW (1) TWI252987B (ko)
WO (1) WO2003046764A1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008023904A1 (en) * 2006-08-22 2008-02-28 Sk Communications Co., Ltd. Document ranking granting method and computer readable record medium thereof
WO2010036012A2 (ko) * 2008-09-23 2010-04-01 주식회사 버즈니 인터넷을 이용한 의견 검색 시스템, 의견 검색 및 광고 서비스 시스템과 그 방법
KR101007284B1 (ko) * 2008-09-23 2011-01-13 주식회사 버즈니 인터넷을 이용한 의견 검색 시스템 및 그 방법
KR101494655B1 (ko) * 2011-11-28 2015-02-25 세종대학교산학협력단 소셜 네트워크 서비스 데이터 기반 특정 기관의 순위 계산 방법 및 그 장치
KR102138939B1 (ko) * 2020-02-24 2020-07-29 네오시스템즈(주) 빅데이터를 활용한 업체 평판 자동검증 및 평가시스템

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7188117B2 (en) * 2002-05-17 2007-03-06 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
US7167871B2 (en) * 2002-05-17 2007-01-23 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
JP2004355069A (ja) * 2003-05-27 2004-12-16 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
GB2412196A (en) * 2004-03-19 2005-09-21 Envisional Technology Ltd System for monitoring sentiment on the internet
KR100469900B1 (ko) 2004-05-27 2005-02-03 엔에이치엔(주) 네트워크를 통한 커뮤니티 검색 서비스 시스템 및 그 방법
KR100462542B1 (ko) * 2004-05-27 2004-12-17 엔에이치엔(주) 신뢰성 있는 컨텐츠를 제공하는 컨텐츠 검색 시스템 및 그방법
JP2006053616A (ja) * 2004-08-09 2006-02-23 Kddi Corp サーバ装置、webサイト推奨方法およびプログラム
JP2006065395A (ja) * 2004-08-24 2006-03-09 Fujitsu Ltd ハイパーリンク生成装置、ハイパーリンク生成方法及びハイパーリンク生成プログラム
US7546323B1 (en) * 2004-09-30 2009-06-09 Emc Corporation System and methods for managing backup status reports
JP4148522B2 (ja) * 2004-11-19 2008-09-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 表現検出システム、表現検出方法、及びプログラム
JP2006277386A (ja) * 2005-03-29 2006-10-12 Nissan Motor Co Ltd 車両用情報提示装置、情報提示方法および情報提示システム
EP1770550A1 (en) * 2005-10-03 2007-04-04 Sony Ericsson Mobile Communications AB Method and electronic device for obtaining an evaluation of an electronic document
US7356767B2 (en) * 2005-10-27 2008-04-08 International Business Machines Corporation Extensible resource resolution framework
JP4612535B2 (ja) * 2005-12-02 2011-01-12 日本電信電話株式会社 正当サイト検証手法におけるホワイトリスト収集方法および装置
JP4542993B2 (ja) * 2006-01-13 2010-09-15 株式会社東芝 構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラム
US8296168B2 (en) * 2006-09-13 2012-10-23 University Of Maryland System and method for analysis of an opinion expressed in documents with regard to a particular topic
US9076148B2 (en) * 2006-12-22 2015-07-07 Yahoo! Inc. Dynamic pricing models for digital content
JP5008024B2 (ja) * 2006-12-28 2012-08-22 独立行政法人情報通信研究機構 風評情報抽出装置及び風評情報抽出方法
JP4806644B2 (ja) * 2007-03-15 2011-11-02 富士通株式会社 ジャンプ先サイト決定プログラム、記録媒体、ジャンプ先サイト決定方法、およびジャンプ先サイト決定装置
WO2008136421A1 (ja) 2007-04-27 2008-11-13 Nec Corporation 情報分析システム、情報分析方法及び情報分析用プログラム
EP2000934A1 (en) * 2007-06-07 2008-12-10 Koninklijke Philips Electronics N.V. A reputation system for providing a measure of reliability on health data
US8479010B2 (en) * 2008-03-07 2013-07-02 Symantec Corporation Detecting, capturing and processing valid login credentials
JP5084587B2 (ja) * 2008-03-31 2012-11-28 株式会社野村総合研究所 取引先リスク管理装置
US8082248B2 (en) * 2008-05-29 2011-12-20 Rania Abouyounes Method and system for document classification based on document structure and written style
CN101661487B (zh) * 2008-08-27 2012-08-08 国际商业机器公司 对信息项进行搜索的方法和系统
JP2010066891A (ja) * 2008-09-09 2010-03-25 Kansai Electric Power Co Inc:The 文書分類方法、及びシステム
US20100077317A1 (en) * 2008-09-21 2010-03-25 International Business Machines Corporation Providing Collaboration
US20100138361A1 (en) * 2008-10-22 2010-06-03 Mk Asset, Inc. System and method of security pricing for portfolio management system
TWI497426B (zh) * 2009-01-05 2015-08-21 一種監控網際網路資訊之方法及其相關的內儲程式之電腦可讀取紀錄媒體
US8515049B2 (en) * 2009-03-26 2013-08-20 Avaya Inc. Social network urgent communication monitor and real-time call launch system
JP5462590B2 (ja) * 2009-10-30 2014-04-02 楽天株式会社 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置
JP5462591B2 (ja) * 2009-10-30 2014-04-02 楽天株式会社 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
US10614134B2 (en) 2009-10-30 2020-04-07 Rakuten, Inc. Characteristic content determination device, characteristic content determination method, and recording medium
JP5454357B2 (ja) 2010-05-31 2014-03-26 ソニー株式会社 情報処理装置および方法、並びに、プログラム
CN101917456B (zh) * 2010-07-06 2012-10-03 杭州热点信息技术有限公司 一种内容聚合无线发布系统
EP2506157A1 (en) * 2011-03-30 2012-10-03 British Telecommunications Public Limited Company Textual analysis system
JP5768517B2 (ja) 2011-06-13 2015-08-26 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN102831127B (zh) * 2011-06-17 2015-04-22 阿里巴巴集团控股有限公司 重复数据处理方法、装置及系统
TW201314479A (zh) * 2011-09-28 2013-04-01 pei-sheng Yang 彙集意見及調查資料之方法
TWI464700B (zh) * 2011-10-31 2014-12-11 Univ Ming Chuan 信用違約預測方法與裝置
CN103279275B (zh) 2012-01-20 2016-08-31 宏达国际电子股份有限公司 分析文档内容的方法及手持式电子装置
US9418389B2 (en) 2012-05-07 2016-08-16 Nasdaq, Inc. Social intelligence architecture using social media message queues
US10304036B2 (en) 2012-05-07 2019-05-28 Nasdaq, Inc. Social media profiling for one or more authors using one or more social media platforms
CN103714086A (zh) * 2012-09-29 2014-04-09 国际商业机器公司 用于生成非关系数据库的模式的方法和设备
CN103870973B (zh) * 2012-12-13 2017-12-19 阿里巴巴集团控股有限公司 基于电子信息的关键词提取的信息推送、搜索方法及装置
US20140195297A1 (en) * 2013-01-04 2014-07-10 International Business Machines Corporation Analysis of usage patterns and upgrade recommendations
US20140223051A1 (en) * 2013-02-07 2014-08-07 Andes Technology Corporation Information collection system
US10529013B2 (en) * 2013-07-01 2020-01-07 Intuit Inc. Identifying business type using public information
JP5930217B2 (ja) 2013-10-03 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム
WO2015182559A1 (ja) * 2014-05-29 2015-12-03 日本電信電話株式会社 情報分析システム、情報分析方法及び情報分析プログラム
CN104778246A (zh) * 2015-04-10 2015-07-15 浪潮集团有限公司 一种网页信息获取方法和装置
JP6186519B2 (ja) * 2015-05-27 2017-08-23 楽天株式会社 情報処理装置、情報処理方法、プログラム、記憶媒体
US10409844B2 (en) * 2016-03-01 2019-09-10 Ching-Tu WANG Method for extracting maximal repeat patterns and computing frequency distribution tables
JP2022021099A (ja) * 2020-07-21 2022-02-02 ソニーグループ株式会社 情報処理プログラム、情報処理装置および情報処理方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
US5867799A (en) * 1996-04-04 1999-02-02 Lang; Andrew K. Information system and method for filtering a massive flow of information entities to meet user information classification needs
JPH10289250A (ja) * 1997-04-11 1998-10-27 Nec Corp Wwwブラウザにおけるurl登録及び表示方式
US6055540A (en) 1997-06-13 2000-04-25 Sun Microsystems, Inc. Method and apparatus for creating a category hierarchy for classification of documents
US6865715B2 (en) 1997-09-08 2005-03-08 Fujitsu Limited Statistical method for extracting, and displaying keywords in forum/message board documents
JPH11143912A (ja) * 1997-09-08 1999-05-28 Fujitsu Ltd 関連文書表示装置
US5960429A (en) * 1997-10-09 1999-09-28 International Business Machines Corporation Multiple reference hotlist for identifying frequently retrieved web pages
JP2951307B1 (ja) 1998-03-10 1999-09-20 株式会社ガーラ 電子掲示板システム
US6421675B1 (en) * 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
JP3665480B2 (ja) 1998-06-24 2005-06-29 富士通株式会社 文書整理装置および方法
JP2000028617A (ja) * 1998-07-14 2000-01-28 Horiba Ltd 分析システム
US6553347B1 (en) * 1999-01-25 2003-04-22 Active Point Ltd. Automatic virtual negotiations
AU4712601A (en) * 1999-12-08 2001-07-03 Amazon.Com, Inc. System and method for locating and displaying web-based product offerings
US7225181B2 (en) 2000-02-04 2007-05-29 Fujitsu Limited Document searching apparatus, method thereof, and record medium thereof
US6654744B2 (en) 2000-04-17 2003-11-25 Fujitsu Limited Method and apparatus for categorizing information, and a computer product
JP2001306587A (ja) * 2000-04-27 2001-11-02 Fujitsu Ltd 情報検索装置、情報検索方法、及び記憶媒体
JP2002202984A (ja) 2000-11-02 2002-07-19 Fujitsu Ltd ルールベースモデルに基づくテキスト情報自動分類装置
JP2002279047A (ja) * 2001-01-09 2002-09-27 Zuken:Kk 電子掲示板監視システム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008023904A1 (en) * 2006-08-22 2008-02-28 Sk Communications Co., Ltd. Document ranking granting method and computer readable record medium thereof
KR100818553B1 (ko) * 2006-08-22 2008-04-01 에스케이커뮤니케이션즈 주식회사 문서랭킹 부여방법 및 이를 수행할 수 있는 프로그램이수록된 컴퓨터로 읽을 수 있는 기록 매체
WO2010036012A2 (ko) * 2008-09-23 2010-04-01 주식회사 버즈니 인터넷을 이용한 의견 검색 시스템, 의견 검색 및 광고 서비스 시스템과 그 방법
WO2010036012A3 (ko) * 2008-09-23 2010-07-22 주식회사 버즈니 인터넷을 이용한 의견 검색 시스템, 의견 검색 및 광고 서비스 시스템과 그 방법
KR101007284B1 (ko) * 2008-09-23 2011-01-13 주식회사 버즈니 인터넷을 이용한 의견 검색 시스템 및 그 방법
KR101494655B1 (ko) * 2011-11-28 2015-02-25 세종대학교산학협력단 소셜 네트워크 서비스 데이터 기반 특정 기관의 순위 계산 방법 및 그 장치
KR102138939B1 (ko) * 2020-02-24 2020-07-29 네오시스템즈(주) 빅데이터를 활용한 업체 평판 자동검증 및 평가시스템

Also Published As

Publication number Publication date
AU2002343775C1 (en) 2003-06-10
KR100953238B1 (ko) 2010-04-16
CN100390786C (zh) 2008-05-28
CN1559044A (zh) 2004-12-29
CA2648269C (en) 2014-07-15
CA2460538A1 (en) 2003-06-05
US20030101166A1 (en) 2003-05-29
WO2003046764A1 (fr) 2003-06-05
CA2460538C (en) 2010-05-18
JPWO2003046764A1 (ja) 2005-04-14
JP4097602B2 (ja) 2008-06-11
KR20090006875A (ko) 2009-01-15
CA2648269A1 (en) 2003-06-05
EP2506169A3 (en) 2013-10-16
TW200300532A (en) 2003-06-01
EP1450268A4 (en) 2008-01-16
AU2002343775A1 (en) 2003-06-10
KR100883261B1 (ko) 2009-02-10
AU2002343775B2 (en) 2006-11-16
EP2506169A2 (en) 2012-10-03
EP1450268A1 (en) 2004-08-25
TWI252987B (en) 2006-04-11

Similar Documents

Publication Publication Date Title
KR100883261B1 (ko) 콘텐츠 정보 해석 방법, 시스템 및 기록 매체
US7814043B2 (en) Content information analyzing method and apparatus
US6694307B2 (en) System for collecting specific information from several sources of unstructured digitized data
US6691105B1 (en) System and method for geographically organizing and classifying businesses on the world-wide web
US7359891B2 (en) Hot topic extraction apparatus and method, storage medium therefor
US6542888B2 (en) Content filtering for electronic documents generated in multiple foreign languages
US8204881B2 (en) Information search, retrieval and distillation into knowledge objects
US6182066B1 (en) Category processing of query topics and electronic document content topics
US8949256B2 (en) System and method for identifying an owner of a web page on the World-Wide Web
US20070250501A1 (en) Search result delivery engine
US20050114324A1 (en) System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers
KR100509276B1 (ko) 웹페이지별 방문인기도에 기반한 웹페이지 검색방법 및 그장치
JP3803961B2 (ja) データベース生成装置、データベース生成処理方法及びデータベース生成プログラム
KR20000054312A (ko) 맞춤 웹정보 구축 제공 방법
AU2006203729B2 (en) Information analyzing method and apparatus
Ye et al. Clustering web pages about persons and organizations
KR20030013814A (ko) 비텍스트 형태 데이터 포함 컨텐츠 검색 시스템 및 그 방법
Steinberger et al. Continuous Multi-Source Information Gathering and Classification
Deepak et al. Descriptive words for small Web collections

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
A107 Divisional application of patent
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130118

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140117

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150119

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20160104

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170102

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee