KR20040053369A

KR20040053369A - 정보 해석 방법 및 장치

Info

Publication number: KR20040053369A
Application number: KR10-2004-7007958A
Authority: KR
Inventors: 간지 우찌노; 유끼 구메
Original assignee: 후지쯔 가부시끼가이샤
Priority date: 2001-11-26
Filing date: 2002-10-30
Publication date: 2004-06-23
Also published as: AU2002343775C1; KR100953238B1; CN100390786C; CN1559044A; CA2648269C; CA2460538A1; US20030101166A1; WO2003046764A1; CA2460538C; JPWO2003046764A1; JP4097602B2; KR20090006875A; CA2648269A1; EP2506169A3; TW200300532A; EP1450268A4; AU2002343775A1; KR100883261B1; AU2002343775B2; EP2506169A2

Abstract

본 발명은 대량 정보 중에서 자동적으로 주목해야 할 정보를 추출하는 것이다. 수집된 콘텐츠 정보 중에서 Web 페이지나 게시판에 있어서의 발언인 개인의 의견의 개시 단위를 추출하고, 해당 개인의 의견의 개시 단위를 특정하기 위한 정보(URL이나 발언 번호)를 등록한다. 다음으로, 개인의 의견의 대상(회사명이나 업종)을 특정한다. 그리고, 개인의 의견의 개시 내용을 해석함으로써 대상에 대한 개인의 평가(좋은 평가/나쁜 평가)를 특정한다. 또한, 피참조도 랭킹이나 의견의 근거나 발언자의 신원을 나타내는 정보가 포함되어 있는지에 기초하여 신뢰도를 결정하는 처리를 실시한다. 이에 의해, 개인의 의견의 특성인 대상에 대한 평가 등이 제시 가능하게 된다. 또한, 개인의 의견의 대상에 대한 평가 중, 예를 들면 나쁜 평가만을 추출할 수 있게 된다. 또한, 피참조도 랭킹이나 신뢰도에 의해 영향도가 높은 주목해야 할 의견을 탐색해 낼 수도 있다.

Description

정보 해석 방법 및 장치{INFORMATION ANALYSIS METHOD AND APPARATUS}

인터넷에 개시되어 있는 정보 중에서 기업에 대한 비방중상을 문서 검색 툴로 자동적으로 추출하는 것은 이전부터 행해지고 있었다. 그러나, 키워드를 지정한 후에 웹(Web) 페이지를 순회하여 추출하거나, 사전에 검색 대상의 URL(Uniform Resource Locator)을 지정해 둬 추출하는 방법을 채용하고 있다. 즉, 수집된 정보가 좋은 평가의 정보인지 나쁜 평가의 정보인지 등의 판단은 이루어져 있지 않다. 또한, 수집된 정보의 영향력에 관한 정보도 얻어지지 않는다. 그 때문에, 주가 조작을 위한 「풍설의 유포」를 찾아내기 위해서는 적당하지 않다.

또한, 미국 특허 제6438632호는, 이용자 컴퓨터로부터 보내져 오는 전자 게시판에의 게재 희망 메시지의 내용을 자동적으로 검사하는 기능을 갖는 전자 게시판 시스템을 개시하고 있다. 즉, 이용자 컴퓨터로부터 보내져 오는 전자 게시판에 게재 희망하는 메시지에 대하여, 전자 게시판에 게재하는 것은 부적당하다고 하여 사전에 선출된 용어가 등록되어 있는 게시 금지 용어집에 대조하여 검사를 행한다. 게재 희망 메시지에 게재 금지 용어집 내의 용어가 포함되어 있지 않은 경우, 해당메시지를 전자 게시판에 등록한다. 한편, 게재 금지 용어집 내의 용어가 포함되어 있는 경우에는, 이용자 컴퓨터에 대하여 메시지를 게재할 수 없는 취지를 통지한다. 또한, 이 때, 운영 관리인 컴퓨터에 메시지의 게재를 거부한 사상을 통지한다. 이러한 기술에서는 게시판에의 게재의 가부를 판단할 수는 있지만, 게재 가능하다고 판단된 것의 내용에 대하여 자동적으로 해석하는 것은 아니다.

〈발명의 개시〉

이와 같이 종래의 기술에서는 방대한 정보 중에서 구체적으로 지정된 정보를 추출할 수는 있지만, 주목해야 할 정보를 자동적으로 추출할 수는 없고, 또한 추출된 정보의 해석·분석은 사람의 손에 의존해야 했다. 이로서는 추가적인 작업없이, 사용자는 추출된 정보의 특성이나 정보의 소스 등을 얻을 수 없다.

따라서, 본 발명의 목적은 대량 정보 중에서 자동적으로 주목해야 할 정보를 추출하기 위한 신규한 기술을 제공하는 것이다.

또한, 본 발명의 다른 목적은, 대량 정보 중에서 특정한 정보를 추출하고, 추출된 정보의 특성을 제시 가능하게 하기 위한 기술을 제공하는 것이다.

또한, 본 발명의 또 다른 목적은, 대량 정보 중에서 특정한 정보를 추출하고, 추출된 정보의 신뢰도나 영향도를 제시 가능하게 하기 위한 기술을 제공하는 것이다.

또한, 본 발명의 또 다른 목적은, 대량 정보 중에서 특정한 정보를 추출하고, 추출된 정보의 소스를 탐색하기 위한 기술을 제공하는 것이다.

본 발명에 따른 콘텐츠 정보 해석 방법은, 수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위(예를 들면, 개인 Web 페이지, 개인 또는 소규모 조직에 의한 사이트, 게시판에서의 발언 등)를 추출하여, 해당 개인의 의견의 개시 단위를 특정하기 위한 정보(예를 들면, URL이나 발언 번호 등)를 기억 장치에 저장하는 추출 단계와, 개인의 의견의 대상(예를 들면, 회사명이나 업종, 상품명 등)을 특정하여, 기억 장치에 저장하는 대상 특정 단계와, 개인의 의견의 개시 내용을 해석함으로써 대상에 대한 개인의 평가(예를 들면, 좋은 평가 또는 나쁜 평가)를 특정하고, 기억 장치에 저장하는 평가 특정 단계를 포함한다. 이에 의해, 추출된 개인의 의견의 특성인, 대상에 대한 평가를 제시 가능하게 된다. 예를 들면, 개인의 의견의 대상에 대한 평가 중, 예를 들면 나쁜 평가만을 추출할 수 있게 된다.

또한, 상술한 추출 단계를 개인의 의견이 포함되는 콘텐츠 정보의 단위(예를 들면, 1 Web 페이지)를 특정하는 특정 단계와, 특정된 콘텐츠 정보의 단위로부터 개인의 의견의 개시 단위를 추출하는 단계를 포함하는 구성으로 할 수도 있다. 예를 들면, 게시판의 Web 사이트나 개인 홈페이지를 추출한 후, 개인의 의견의 개시 단위인 발언 등을 분리하는 것이다.

또한, 상술한 특정 단계가 콘텐츠 정보의 단위별 피참조도가 높은 순서대로 실시되는 구성으로 할 수도 있다. 피참조도가 높다는 것은, 많은 사람이 볼 가능성이 높아 영향도가 높은 콘텐츠 정보이므로, 영향도가 높은 콘텐츠 정보를 보다 우선적으로 처리하는 것이다. 또한, 영향도 자체를 주목해야 할 정보인지 아닌지의 지표로 하는 경우도 있다.

또한, 상술한 추출 단계를 개인의 의견의 참조원을 찾아감으로써 개인 의견의 개시 단위의 그룹(예를 들면, 실시 형태에서의 쓰레드)을 검출하여, 해당 그룹을 특정하기 위한 정보를 기억 장치에 저장하는 단계를 포함하는 구성으로 할 수도 있다. 개인의 발언뿐만 아니라, 발언의 통합으로서도 주목해야 할 것도 존재하기 때문이다.

또한, 상술한 추출 단계를 개인의 의견의 대상에 대한 카테고리(예를 들면, 업종)를 특정하여, 기억 장치에 저장하는 카테고리 특정 단계를 포함하는 구성으로 할 수도 있다. 이에 의해, 추출된 개인의 의견의 특성인 카테고리를 제시 가능하게 된다. 예를 들면, 업종별로 주목해야 할 정보나 평가의 표현이나 뉘앙스가 다른 경우도 있어, 업종별 분류 등도 유용하다.

또한, 본 발명에서, 개인의 의견의 근거가 될 수 있는 정보(예를 들면, 참조하고 있는 발언이나 Web 사이트, 신문·잡지의 내용 등)가 해당 개인의 의견의 개시 단위에 포함되는지 판단하여, 포함되는 경우에는 해당 근거가 될 수 있는 정보를 기억 장치에 저장하는 단계를 더 포함하는 구성이어도 된다. 이에 의해, 추출된 개인의 의견의 특성인 정보의 소스를 제시 가능하게 된다. 정보의 출처를 조사할 필요가 있는 경우에는 매우 유용하다.

또한, 본 발명에서, 개인의 의견의 개시 단위의 신뢰도를 결정하여, 기억 장치에 저장하는 신뢰도 결정 단계를 더 포함하는 구성이어도 된다. 이에 의해, 추출된 개인의 의견의 특성인 신뢰도를 제시 가능하게 된다. 신뢰할 수 있는 정보인 것인지 신뢰할 수 없는 정보인 것인지의 기준을 얻을 수 있게 된다. 신뢰도가 높은 것을 주목해야 할 정보로서 추출하는 경우도 있다.

또, 상술한 신뢰도 결정 단계를 개인의 의견의 개시 단위에 개인의 신원(예를 들면, 메일 어드레스, 핸들명 등)을 나타내는 정보가 포함되어 있는지 판단하는 단계를 포함하는 구성으로 할 수도 있다. 신원을 분명히 해서라도 공표할 수 있는 정보에 대해서는 신뢰할 수 있는 것으로 판단할 수 있기 때문이다.

또한, 상술한 신뢰도 결정 단계를 개인의 의견의 근거가 될 수 있는 정보가 해당 개인의 의견의 개시 단위에 포함되어 있는지 판단하는 단계를 포함하는 구성으로 할 수도 있다. 근거가 분명하면, 신뢰할 수 있는 정보라고 판단할 수 있기 때문이다.

또한, 본 발명의 제1 양태에서, 각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 해석하고, 액세스 수 및 검색 키워드의 종류 수에 기초하여 개인 홈페이지를 계층 하에 포함하는 사이트를 특정하는 단계와, 특정된 사이트의 계층 하에 포함되는 개인 홈페이지를 상기 개인의 의견의 개시 단위로서 추출하는 단계를 더 포함하는 구성이어도 된다.

또한, 본 발명의 제1 양태에서, 각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 해석하고, 액세스 수 및 검색 키워드의 종류 수에 기초하여 개인 또는 소규모 조직의 사이트를 개인의 의견의 개시 단위로서 추출하는 단계를 더 실행시키는 구성이어도 된다.

본 발명의 제2 양태에 따른 콘텐츠 정보 해석 방법은, 수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위를 추출하여, 해당 개인의 의견의 개시 단위를 특정하기 위한 정보를 기억 장치에 저장하는 추출 단계와, 개인의 의견의 대상을 특정하여, 기억 장치에 저장하는 대상 특정 단계와, 개인의 의견의 개시 단위의 신뢰도를 결정하여, 기억 장치에 저장하는 신뢰도 결정 단계를 포함한다. 이에 의해, 예를 들면 신뢰도가 높은 개인의 의견을 추출할 수 있게 된다. 또, 개인의 의견 또는 개인의 의견을 포함하는 콘텐츠 정보의 피참조도를 영향도로서, 이를 자동 추출의 파라미터로서 취급하는 구성도 가능하다.

본 발명의 제3 양태에 따른 콘텐츠 정보 해석 방법은, 각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 취득하여, 메모리에 저장하는 단계와, 소정의 규칙에 따라 각 바로가기 URL에 대하여 액세스 수 및 검색 키워드의 종류 수를 카운트하고, 메모리에 카운트 결과를 저장하는 단계와, URL의 구조에 기초하여 특정되는 각 사이트에 대하여, 해당 사이트의 계층 하에 포함되는 바로가기 URL의 액세스 수 및 검색 키워드의 종류 수를 집계하여, 집계 결과를 메모리에 저장하는 단계와, 사이트에 대하여 집계된 액세스 수 및 검색 키워드의 종류 수에 기초하여, 해당 사이트의 종별을 판정하는 단계를 포함한다. 이에 의해, 예를 들면 인터넷 서비스 프로바이더의 사이트, 기업의 사이트, 개인 또는 소규모 조직의 사이트 등을 판별할 수 있게 된다. 인터넷 서비스 프로바이더의 사이트를 검출할 수 있으면, 개인 홈페이지(개인 Web 페이지라고도 함)도 검출할 수 있게 된다.

또한, URL과 기업명과 약칭과 업종에 대한 사전이나 각 업종에 대한 특징어를 구비하는 사전을 이용하여 개인의 의견의 대상(예를 들면, 기업)이나 대상의 카테고리(예를 들면, 업종이나 상품명 등)를 결정하는 경우가 있다. 이들 사전에 대해서도, 수집된 콘텐츠 정보 등을 해석함으로써, 자동적으로 구축할 수 있게 된다.

또, 상술한 방법은 컴퓨터로 실시할 수 있으며, 그를 위한 프로그램은, 예를 들면 플렉시블 디스크, CD-ROM, 광 자기 디스크, 반도체 메모리, 하드디스크 등의 기억 매체 또는 기억 장치에 저장된다. 또한, 프로그램은 네트워크 등을 통하여 디지털 신호로서 배신되는 경우도 있다. 또한, 중간적인 처리 결과는 메모리 등의 기억 장치에 일시 보관된다.

본 발명은 대량의 정보 중에서 특정한 정보를 자동적으로 추출하는 기술에 관한 것이다.

도 1은 본 발명의 일 실시 형태에 따른 시스템 개요를 설명하기 위한 도면.

도 2는 정보 수집 해석 시스템의 처리 흐름의 일례를 나타내는 도면.

도 3A 및 도 3B는 게시판 요소 저장부에 저장되는 데이터의 일례를 나타내는 도면.

도 4A, 도 4B 및 도 4C는 해석 데이터 저장부에 저장되는 데이터의 상태 변화의 일례를 나타내는 도면.

도 5는 업종 용어 사전 저장부에 저장되는 데이터의 일례를 나타내는 도면.

도 6은 발언의 추출 처리에 대한 처리 흐름의 일례를 나타내는 도면.

도 7은 쓰레드의 추출 처리에 대한 처리 흐름의 일례를 나타내는 도면.

도 8A 및 도 8B는 기업명 사전 저장부에 저장되는 데이터의 일례를 나타내는 도면.

도 9는 출처 탐색 처리에 대한 처리 흐름의 일례를 나타내는 도면.

도 10은 발언 및 쓰레드의 분석 처리에 대한 처리 흐름의 일례를 나타내는도면.

도 11은 룰 세트의 생성 처리 플로우의 일례를 나타내는 도면.

도 12는 통계 처리부의 처리 결과의 일례를 나타내는 도면.

도 13은 통계 처리부의 처리 결과의 일례를 나타내는 도면.

도 14는 사전 생성부의 기능 블록의 일례를 나타내는 도면.

도 15는 사전 생성부의 처리 플로우의 일례를 나타내는 도면.

도 16은 검색 로그 해석부의 처리 플로우의 일례를 나타내는 도면.

도 17은 검색 로그 해석부의 제1 로그 정규화 처리의 일례를 나타내는 도면.

도 18은 검색 로그 해석부의 제2 로그 정규화 처리의 일례를 나타내는 도면.

도 19는 검색 로그 해석부의 집계 처리의 일례를 나타내는 도면.

도 20은 검색 로그 해석부의 사이트 종별 판정 처리 및 등록 처리의 일례를 나타내는 도면.

도 21은 검색 로그 해석부의 처리 플로우의 일례를 나타내는 도면.

도 22는 통계 처리부 등의 처리 결과의 일례를 나타내는 도면.

〈발명을 실시하기 위한 최량의 형태〉

도 1에 본 발명의 일 실시 형태에 따른 시스템 개요를 도시한다. 컴퓨터 네트워크인 인터넷(1)에는 다수의 Web 서버(7)가 접속되어 있으며, Web 서버(7)는 방대한 양의 정보를 공개하고 있다. 또한, 인터넷(1)에는 Web 브라우저를 구비한 다수의 사용자 단말기(3)도 접속되어 있으며, 사용자는 사용자 단말기(3)를 조작하여, Web 서버(7)로 공개되어 있는 Web 페이지의 열람을 행한다. 또한, 인터넷(1)에는 사용자 단말기(3)를 조작하는 사용자가 Web 서버(7)로 공개되어 있는 방대한 양의 Web 페이지에 효율적으로 액세스하기 위한 서비스를 제공하는 하나 또는 복수의 검색 사이트 서버(9)도 접속되어 있으며, 해당 검색 사이트 서버(9)는 사용자 단말기(3)로부터 지시받은 검색 요구에 대응하는 검색 로그를 저장하는 검색 로그 저장부(91)를 갖고 있다. 또한, 기업 등은 인터넷(1)에 접속하기 위한 하나 또는 복수의 프록시 서버(8)를 설치하고 있으며, 해당 프록시 서버(8)는 사내의 LAN(Local Area Network)(81)을 통하여 사내 단말기(82, 83) 등에 접속하고 있다. 이 프록시 서버(8)는 통상의 프록시 서버와 동일하지만, 사내 단말기(82, 83)에 의한 인터넷(1)에의 액세스의 중계 로그를 저장하는 프록시 로그 저장부(84)를 갖고 있다.

본 실시의 형태에서의 주요 처리를 실시하는 정보 수집 해석 시스템(5)도 인터넷(1)에 접속되어 있다. 이 정보 수집 해석 시스템(5)은 특정한 사용자 대상으로 해석 결과를 제공함과 함께, 수집한 정보의 어카이브를 행하여, 사용자에게 어카이브된 정보에 대한 검색 기능을 제공하고 있다. 즉, 사용자 단말기(3)는 인터넷(1)을 통하여 정보 수집 해석 시스템(5)에 액세스하여, 이하에 설명하는 해석 결과를 취득하거나, 어카이브된 정보에 대한 검색 결과를 취득할 수 있다. 또, 검색 기능에 대해서는 설정되어 있지 않는 경우도 있다.

정보 수집 해석 시스템(5)에는 콘텐츠 수집 해석부(501)와, Web 페이지 분류부(502)와, 업종 판정부(503)와, 발언·쓰레드 추출부(504)와, 회사 특정부(505)와, 출처 탐색부(506)와, 발언·쓰레드 분석부(507)와, 통계 처리부(508)와, 사용자 인터페이스부(509)와, 사전 생성부(520)와, 검색부(521)가 포함된다.

콘텐츠 수집 해석부(501)는, 수집한 콘텐츠 정보 및 콘텐츠 정보에 대한 링크 관계의 해석 결과에 기초하는 피참조도를 랭킹 정보로 하여 어카이브(512)에 저장하여, 참조 관계에 대한 해석 결과인 링크 토폴로지 정보를 링크 토폴로지 DB(519)에 저장한다. Web 페이지 분류부(502)는 어카이브(512)에 저장된 정보를 이용하여, 또한 게시판 요소 저장부(513)에 저장된 게시판 요소 데이터를 참조하여 처리를 행하고, 처리 결과를, 예를 들면 업종 판정부(503)에 출력함과 함께 해석 데이터 저장부(510)에 저장한다. 업종 판정부(503)는, 예를 들면 Web 페이지 분류부(502)의 출력을 이용하여, 또한 업종 용어 사전 저장부(514)에 저장된 업종 용어 사전을 참조하여 처리를 행하고, 처리 결과를, 예를 들면 발언·쓰레드 추출부(504)에 출력함과 함께 해석 데이터 저장부(510)에 저장한다.

발언·쓰레드 추출부(504)는, 예를 들면 업종 판정부(503)의 출력을 이용하여 처리를 행하고, 처리 결과를, 예를 들면 회사 특정부(505)에 출력함과 함께 해석 데이터 저장부(510)에 저장한다. 회사 특정부(505)는 발언·쓰레드 추출부(504)의 출력을 이용하여, 또한 기업명 사전 저장부(515)에 저장된 기업명 사전을 참조하여 처리를 행하고, 처리 결과를, 예를 들면 출처 탐색부(506)에 출력함과 함께 해석 데이터 저장부(510)에 저장한다. 출처 탐색부(506)는 회사 특정부(505)의 출력을 이용하여, 또한 매스 미디어 사전 저장부(516)에 저장된 매스 미디어 사전을 참조하여 처리를 행하고, 처리 결과를, 예를 들면 발언·쓰레드 분석부(507)에 출력함과 함께, 해석 데이터 저장부(510)에 저장한다.

발언·쓰레드 분석부(507)는, 출처 탐색부(506)의 출력을 이용하여, 또한 기업명 사전 저장부(515)에 저장된 기업명 사전과, 룰 세트 저장부(517)에 저장된 개인의 의견의 장르나 평가에 대한 룰의 데이터와, 게시판 등에서 핸들이 사용되고 있는 경우에는 핸들 DB(518)를 참조하여 처리를 행하고, 처리 결과를, 예를 들면 통계 처리부(508)에 출력함과 함께, 해석 데이터 저장부(510)에 출력한다. 통계 처리부(508)는 발언·쓰레드 분석부(507)로부터의 출력 또는 해석 데이터 저장부(510)에 저장된 정보를 이용하여 통계 처리를 행하고, 처리 결과를, 예를 들면 사용자 인터페이스부(509) 또는 해석 데이터 저장부(510)에 출력한다.

사용자 인터페이스부(509)는 사용자 단말기(3)로부터의 액세스에 따라, 해석 데이터 저장부(510)에 저장된 데이터나 통계 처리부(508)의 출력을 사용자 단말기(3)에 송신한다. 또한, 검색부(521)는 사용자 단말기(3)로부터의 검색 요구에 응답하여, 어카이브(512)에 저장된 데이터에 대하여 검색을 행하고, 검색 결과를 사용자 단말기(3)에 송신한다. 또한, 검색부(521)는 검색 로그를 검색 로그 저장부(511)에 저장한다. 사전 생성부(520)는 검색 로그 저장부(511), 어카이브(512) 및 링크 토폴로지 DB(519)를 참조하여, 업종 용어 사전을 생성하여 업종 용어 사전 저장부(514)에 저장함과 함께, 기업명 사전을 생성하여 기업명 사전 저장부(515)에 저장한다. 또한, 사전 생성부(520)는 프록시 서버(8)의 프록시 로그 저장부(84)에 저장된 데이터나 검색 사이트 서버(9)의 검색 로그 저장부(91)에 저장된 데이터를 취득하여 검색 로그 저장부(511)에 저장하고, 해당 취득한 데이터를 이용하여 처리를 행하는 경우도 있다. 즉, 업종 용어 사전의 데이터 항목을 생성하여 업종 용어 사전 저장부(514)에 저장함과 함께, 기업명 사전의 데이터 항목을 생성하여 기업명 사전 저장부(515)에 저장한다. 또한, 해석해야 할 URL을 특정하는 처리를 실시하여, Web 페이지 분류부(502)나 해석 데이터 저장부(510) 등에 처리 결과를 출력하는 경우도 있다.

콘텐츠 수집 해석부(501)는 인터넷(1)에 접속된 다수의 Web 서버(7)가 공개하고 있는 Web 페이지의 데이터를 수집하여, 링크에 의한 참조 관계를 해석함으로써, 각 Web 페이지의 피참조도로부터 랭킹값을 계산한다. 그리고, 수집한 Web 페이지의 데이터 및 피참조도 랭킹값을 어카이브(512)에 저장한다. 또한, 링크에 의한 참조 관계를 링크 토폴로지 데이터로서 링크 토폴로지 DB(519)에 저장한다. 이 콘텐츠 수집 해석부(501)의 처리는, 기존의 기술을 이용한 것으로써, 예를 들면 미국 특허 공개 공보2001-0020238-A1이나 일본 특허 공개 공보 특개2000-10996호에 개시되어 있는 것이므로, 이하, 상세하게 설명하지 않는다.

Web 페이지 분류부(502)는 어카이브(512)에 저장된 Web 페이지로부터, 개인 홈페이지나 게시판의 Web 페이지를 자동적으로 판별하기 위한 처리를 실시한다. 개인 홈페이지나 게시판의 Web 페이지는 개인의 의견이 개시되어 있는 콘텐츠 정보로서, 반드시 열람자가 많은 것은 아니지만, 「풍설의 유포」라는 관점에서는 묵인할 수 없어, 그 존재나 출처에 관한 정보를 축적해 두어야 되는 것이다. 이 처리에서는 개인 홈페이지나 게시판의 Web 페이지를 판별하기 위한 URL이나 URL의 일부분의 키워드인 게시판 요소 데이터를 저장한 게시판 요소 저장부(513)를 참조한다. 또한, Web 페이지 분류부(502)는 게시판 요소 데이터뿐만 아니라, 특정한CGI(Common Gateway Interface)의 사용을 판별하거나, Web 페이지의 HTML(Hyper Text Markup Language) 소스의 게시판 특유의 패턴을 검출하는 등의 처리도 행한다.

업종 판정부(503)는, 개인 홈페이지 또는 게시판의 Web 페이지라고 판정된 Web 페이지에 대하여, 업종 용어 사전 저장부(514)에 저장된 업종 용어 사전을 참조하여, 어느 업종의 키워드와 보다 많이 매칭하는지를 판단함으로써, 업종의 판별을 행한다.

발언·쓰레드 추출부(504)는 게시판의 Web 페이지에 포함되는 하나의 발언을 추출함과 함께, 몇 개인가의 발언이 종합되어 특정한 화제에 대한 의론을 구성하는 쓰레드를 추출한다. 이 처리에서는 HTML 소스의 소정의 태그의 반복 패턴으로부터 발언을 잘라낸다. 또한, 쓰레드에 대해서는 발언의 타이틀에 포함되는 「Re:」나 전의 또는 후의 발언에의 링크 등으로부터 추출한다. 개인 홈페이지에 대해서는 1개의 Web 페이지를 하나의 발언으로 취급하거나, 예를 들면 소정의 크기의 단락을 하나의 발언으로서 잘라낸다. 또, 1개의 Web 페이지를 쓰레드로서 취급하는 경우도 있다.

회사 특정부(505)는, 기업명 사전 저장부(515)에 저장된 기업명 사전을 이용하여, 발언이나 쓰레드 중에 나타나는 문자열로부터, 화제가 되고 있는 기업명을 특정한다. 기업명 사전에는 URL 기업명 사전과 약칭명 사전이 포함된다. URL 기업명 사전을 이용하여, 화제가 되고 있는 기업의 상표 코드나, 기업 URL을 특정해 두는 경우도 있다.

출처 탐색부(506)는 발언이나 개인 홈페이지 중에서, 발언의 근거가 될 수 있는 URL이나 신문·잡지 등 매스 미디어의 정보를 추출한다. 이 처리에서는 신문·잡지 등의 매스 미디어에 관련된 기업명이나, 신문·잡지명 등을 포함하는 매스 미디어 사전을 이용한다. 매스 미디어 사전은 매스 미디어 사전 저장부(516)에 저장되어 있다.

발언·쓰레드 분석부(507)는 발언·쓰레드의 내용을 분석하여, 발언·쓰레드의 화제의 장르(예를 들면, 제품 정보, 기업 정보, 주가 정보, 환경 활동 정보 등)나, 발언·쓰레드에 있어서 화제가 되고 있는 기업 등에 대한 평가의 정보를 취득한다. 평가에 대해서는, 예를 들면 좋은 평가인 것인지, 나쁜 평가인 것인지 등의 판단을 행한다. 장르나 평가를 위해서, 미리 업계마다 준비된, 장르나 좋은 평가 및 나쁜 평가의 정해 세트를 이용한 학습에 의해 룰 세트를 생성하고, 이를 룰 세트 저장부(517)에 저장해 둔다. 발언·쓰레드 분석부(507)는 이 룰 세트를 사용하여 처리를 행한다. 또한, 발언·쓰레드 분석부(507)는 발언에, 메일 어드레스나 핸들 등의 발언자의 신원을 나타내는 정보나 URL 등의 근거를 나타내는 정보가 포함되는지 판단하고, 이들 정보에 기초하여 발언의 신뢰도를 결정한다. 발언·쓰레드 분석부(507)는, URL에 대해서는 기업명 사전에 포함되어 있는지라는 것을 기업명 사전 저장부(515)에 액세스하여 확인하고, 핸들에 대해서는 핸들 DB(518)의 데이터를 참조한다. 발언·쓰레드 분석부(507)의 처리 결과는, 해석 데이터 저장부(510)에 저장된다.

통계 처리부(508)는 여러가지 통계 처리를 실시한다. 소정의 통계 처리를미리 실시해 두어도 되지만, 사용자 단말기(3)를 조작하는 사용자에 의해 지정된 통계 처리를 실시하도록 해도 된다. 통계 처리부(508)는, 예를 들면 특정한 기업에 대한 각 평가를 집계하거나, 기업별 발언 수를 집계하거나, 시간적인 변화에 대한 데이터를 생성하기도 한다. 통계 처리의 결과에 대해서도, 해석 데이터 저장부(510)에 저장해 두는 경우도 있다.

사용자 인터페이스부(509)는 사용자 단말기(3)로부터의 요구에 따라, 해석 데이터 저장부(510)에 저장되어 있는 데이터를 사용자 단말기(3)에 대하여 송신한다. 사용자 인터페이스부(509)는, 예를 들면 피참조도의 랭킹이나, 신뢰도에 기초하여, 발언·쓰레드를 재배열하여 사용자 단말기(3)에 대하여 송신하는 처리를 실시한다. 또한, 통계 처리가 필요하면, 사용자 인터페이스부(509)는 통계 처리부(508)에, 해석 데이터 저장부(510)에 저장되어 있는 데이터를 이용하여 소정의 통계 처리를 실시시켜, 그 결과를 사용자 단말기(3)에 송신한다. 예를 들면, 데이터를 그래프 등으로 가공하여 출력하는 경우도 있다.

검색부(521)는, 사용자 단말기(3)를 조작하는 사용자로부터의 요구에 따라, 어카이브(512)에 저장된 콘텐츠 정보의 검색을 실행한다. 실행한 검색의 검색 로그에 대해서는 검색 로그 저장부(511)에 저장한다.

사전 생성부(520)는, 어카이브(512)에 저장된 콘텐츠 정보나, 링크 토폴로지 DB(519)에 등록되어 있는 링크 토폴로지 데이터나, 검색 로그 저장부(511)에 저장된 검색 로그 등을 이용하여, 업종 용어 사전을 생성하여 업종 용어 사전 저장부(514)에 저장함과 함께, 포멀 및 인포멀판의 URL 기업명 사전 및 약칭명 사전을 포함하는 기업명 사전을 생성하여 기업명 사전 저장부(515)에 저장한다. 또한, 사전 생성부(520)는 프록시 서버(8)의 프록시 로그 저장부(84)에 저장된 로그 데이터나 검색 사이트 서버(9)의 검색 로그 저장부(91)에 저장된 로그 데이터를 취득하여 검색 로그 저장부(511)에 저장하고, 해당 로그 데이터를 이용하여 사전 생성을 위한 처리를 행한다. 즉, 업종 용어 사전의 데이터 항목을 생성하여 업종 용어 사전 저장부(514)에 저장함과 함께, 기업명 사전의 데이터 항목을 생성하여 기업명 사전 저장부(515)에 저장한다. 또한, 검색 로그 저장부(511)에 저장된 데이터를 이용하여, 해석해야 할 URL을 특정하는 처리를 실시하여, 해석 데이터 저장부(510)에 처리 결과를 저장한다.

다음으로, 도 2 내지 도 22를 이용하여 도 1에 도시한 시스템의 처리의 내용을 설명한다. 도 2에 본 실시의 형태에서의 처리의 개요를 도시한다. 우선, 콘텐츠 수집 해석부(501)에 의한 콘텐츠 수집 및 해석 처리가 실시된다(단계 S1). 상술한 바와 같이, 단계 S1에서는 인터넷(1)에 접속된 다수의 Web 서버(7)가 공개하고 있는 Web 페이지의 데이터를 수집하여, 링크에 의한 참조 관계를 해석함으로써, 각 Web 페이지의 피참조도를 산출하고, 해당 피참조도로부터 랭킹값을 계산한다. 그리고, 콘텐츠 수집 해석부(501)는 수집한 Web 페이지의 데이터 및 피참조도 랭킹값을 어카이브(512)에 저장하고, 링크에 의한 참조 관계를 링크 토폴로지 데이터로서 링크 토폴로지 DB(519)에 저장한다.

다음으로, Web 페이지 분류부(502)는 콘텐츠 수집 해석부(501)에 의해 수집되고, 또한 어카이브(512)에 저장된 콘텐츠 정보 중에서 게시판 및 개인 홈페이지를 추출한다(단계 S3). 이 처리에서는, 게시판 요소 저장부(513)에 저장된 게시판 요소 데이터가 사용된다. 게시판 요소 데이터는 도 3A에 도시되는 바와 같은, 게시판 및 개인 홈페이지의 URL에 자주 이용되고 있는 bbs, messageboard, homepage 등의 키워드와, 도 3B에 도시한 바와 같은, 일반적으로 알려져 있는 게시판 및 개인 홈페이지의 URL을 포함한다. 또한, 게시판 요소 데이터는 게시판이나 개인 홈페이지에서 자주 이용되고 있는 CGI를 특정하기 위한 데이터, 게시판이나 개인 홈페이지에서 자주 나타나는 Web 페이지의 HTML 소스의 패턴의 데이터 등을 포함하는 경우도 있다. 즉, Web 페이지 분류부(502)는 처리 대상의 Web 페이지에 대하여, 그 URL 또는 그 일부가 게시판 요소 저장부(513)에 저장된 게시판 요소 데이터(도 3A 및 도 3B)에 포함되는 URL 또는 키워드에 합치할지 판단한다. 또한, 처리 대상의 Web 페이지에서 사용되고 있는 CGI가, 게시판이나 개인 홈페이지에서 자주 이용되고 있는 CGI인지를 판단한다. 또한, Web 페이지 분류부(502)는 처리 대상의 Web 페이지의 HTML 소스를 해석하고, 게시판이나 개인 홈페이지에서 자주 이용되는 특정한 태그의 반복 패턴 등의 존재를 검사한다. 이들 처리에 대해서는, 피참조도 랭킹값이 높은 Web 페이지의 순으로 처리를 행한다. 또한, 이들 처리의 결과로서, 예를 들면 도 4A에 도시된 바와 같이, 게시판 및 개인 홈페이지라고 판단된 Web 페이지의 URL, 종별(예를 들면, 게시판인 경우에는 「1」이, 개인 홈페이지인 경우에는 「2」가, 그 밖의 경우에는 「3」이 저장됨) 및 그 Web 페이지의 랭킹으로서 피참조도가, 예를 들면 해석 데이터 저장부(510)에 저장된다. 또, 도 4A에서의 액세스 수에 대해서는 후술한다.

그리고, 업종 판정부(503)는 게시판 또는 개인 홈페이지라고 판단된 Web 페이지에 대하여, 업종 용어 사전 저장부(514)에 저장된 업종 용어 사전을 참조하여, 해당 Web 페이지가 화제가 되고 있는 업종을 판정한다(단계 S5). 업종 용어 사전에는, 도 5에 도시한 바와 같이 업종명에 대응하여 하나 또는 복수의 키워드(도면에서는 n개(n은 정수))가 등록된다. 따라서, 업종 판정부(503)는 처리 대상의 Web 페이지에 포함되는 용어와 업종 용어 사전에 등록된 키워드와의 매칭을 행하여, 매칭이 취해진 키워드 수가 많은 업종을, 처리 대상의 Web 페이지의 업종이라고 판정한다. 이러한 처리의 결과로서, 예를 들면 도 4B에 도시되는 바와 같이, 게시판 또는 개인 홈페이지라고 판단된 Web 페이지의 URL, 종별(예를 들면, 게시판인 경우에는 「1」이, 개인 홈페이지인 경우에는 「2」가, 그 밖의 경우에는 「3」이 저장됨), 해당 Web 페이지에서 화제가 되고 있는 업종 및 그 Web 페이지의 랭킹으로서 피참조도가, 예를 들면 해석 데이터 저장부(510)에 저장된다. 또, 도 4B에서의 액세스 수에 대해서는 후술한다.

다음으로, 발언·쓰레드 추출부(504)는 게시판의 Web 페이지에 포함되는 하나의 발언을 추출함과 함께, 몇 개인가의 발언이 통합되어 특정한 화제에 대하여 의론하고 있는 경우의 발언군인 쓰레드를 추출한다(단계 S7). 여기서는, 도 6 및 도 7을 이용하여, 발언을 추출하는 처리와, 쓰레드를 추출하는 처리에 대하여 나누어 설명한다.

우선, 도 6을 이용하여 발언의 추출 처리에 대하여 설명한다. 발언·쓰레드 추출부(504)는 게시판이라고 판단된 Web 페이지에 대하여, 그 링크를 해석하여, 예를 들면 「일람으로」나 「게시판 일람」 등의 문자열로 링크된 Web 페이지의 URL을 추출하여, 해당 URL의 Web 페이지의 데이터를 발언 일람 페이지의 데이터로서 취득하여, 기억 장치에 저장한다(단계 S21). 발언·쓰레드 추출부(504)는 해당 발언 일람 페이지의 내용을 해석하고, 열거되어 있는 각 발언 페이지에의 링크를 특정하여, 해당 발언 페이지의 데이터를 취득하고, 기억 장치에 저장한다(단계 S23). 발언 페이지에는 복수의 발언이 포함되는 경우도 있다. 따라서, 발언·쓰레드 추출부(504)는 발언 페이지의 HTML 소스를 해석하여, 발언의 반복 패턴을 추출하여, 기억 장치에 저장한다(단계 S25). 예를 들면, 각 발언에는 헤더로서 「30:01/10/20 22:46 ID:QpKkFIhK」라는 발언 번호, 일시 및 핸들명 등이 반복 출현하는 경우가 있어, 이 반복 패턴을 추출한다. 또한, 각 발언이 틀에 받아들여 있는 경우도 있다. 그와 같은 경우에는, 특정한 패턴으로 TABLE 태그가 반복되므로, 발언·쓰레드 추출부(504)는 이 TABLE 태그의 반복 패턴을 추출한다. 그리고, 발언·쓰레드 추출부(504)는 추출된 반복 패턴에 따라, 하나의 발언을 잘라내어, 기억 장치에 저장한다(단계 S27). 단, 발언의 길이가 소정 길이 이하인 경우에는 파기하는 구성이어도 된다.

다음으로, 도 7을 이용하여 쓰레드의 추출 처리에 대하여 설명한다. 게시판에 따라서는,

「·Re:XX AAAA씨의 투고 Monday October 15, @01:42 PM

·Re:XX AAAA씨의 투고 Monday October 15, @01:45 PM

·Re:XX AAAA씨의 투고 Monday October 15, @03:01 PM

·Re:XX BBBB씨의 투고(스코어:1) Tuesday October 16, @07:16 AM」

과 같이, 선행하는 발언 「XX」에 관련된 발언군이 「Re:」 등의 문자로부터 분명한 경우도 있다. 한편,

「58 이름:CCCC씨 01/10/21 21:11

> 56

이 발언에 대해서는 …」

과 같이, 각 발언의 헤더만으로부터는 선행하는 발언이나 관련된 발언이 불분명한 경우도 있다. 따라서, 발언·쓰레드 추출부(504)는 「Re:」 문자 등을 이용하여 헤더로부터 선행하는 발언을 추출할 수 있을지 판단한다(단계 S31). 만일, 상술한 제1 예와 같이, 헤더로부터 선행하는 발언이 분명한 경우에는(단계 S31: "예" 루트), 발언·쓰레드 추출부(504)는 헤더로부터 하나의 발언군을 쓰레드로서 파악하고, 쓰레드 번호를 발번하여 각 발언에 대하여 등록한다(단계 S33). 제1 예에서는 XX라는 발언 및 상기한 4개의 발언이 하나의 쓰레드를 구성하여, 동일한 쓰레드 번호가 등록된다. 그리고, 원래의 처리로 되돌아간다. 등록 데이터에 대해서는 후술한다.

한편, 헤더로부터 선행하는 발언을 추출할 수 없는 경우에는(단계 S31: "아니오" 루트), 발언·쓰레드 추출부(504)는 본문 중에, 참조되어 있는 선행 발언의 발언 번호 등의 발언 식별 정보가 존재하는지 판단한다(단계 S35). 만일, 발언 식별 정보가 존재하는 경우에는(단계 S35: "예" 루트), 발언·쓰레드 추출부(504)는 처리 대상의 발언에 대하여 쓰레드 번호를 등록한다(단계 S37). 또, 발언·쓰레드추출부(504)는 이미 선행 발언에 거스르는 처리를 실시하고 있으면, 거스르기 전에 발번된 쓰레드 번호를 이용하여, 거스르는 처리를 행하고 있지 않는 경우에는 새롭게 쓰레드 번호를 발번한다. 그리고, 발언·쓰레드 추출부(504)는 참조되어 있는 선행 발언의 발언 번호에 거슬러, 반복적으로 도 7의 쓰레드 추출 처리를 실시한다(단계 S39). 한편, 본문 중에 선행 발언의 발언 번호가 포함되어 있지 않은 경우에는(단계 S35: "아니오" 루트), 발언·쓰레드 추출부(504)는 발언을 하나 이상 거스르는 처리를 행하였는지를 판단한다(단계 S41). 예를 들면, 고립된 발언인 경우도 있으면, 근원의 발언인 경우도 있기 때문이다. 고립된 발언인 경우에는(단계 S41: "아니오" 루트), 원래의 처리로 되돌아간다. 또, 고립된 발언이어도 1개의 발언으로 쓰레드를 구성한다고 판단하면, 발언·쓰레드 추출부(504)는 새롭게 쓰레드 번호를 발번하여 등록하도록 해도 된다. 만일, 발언을 하나 이상 거스르는 처리를 행하였다고 판단된 경우에는(단계 S41: "예" 루트), 발언·쓰레드 추출부(504)는 참조원과 동일한 쓰레드 번호를 해당 발언에 대하여 등록한다(단계 S43). 그리고, 원래의 처리로 되돌아간다.

이와 같이, 헤더로 알 수 있는 경우에는 헤더에 의해 발언군을 특정하고, 헤더로 알 수 없는 경우에는 본문 중에 존재하는 발언 번호로 반복해서 발언을 찾아감으로써, 쓰레드를 파악하는 것이다. 이 처리를 위한 기술은, 예를 들면 미국 특허 공개 공보2001-0018698-A1에 개시되어 있다.

또, 개인 홈페이지인 경우에는 1개의 Web 페이지를 1개의 발언으로 취급한다. 이 경우, 예를 들면 개인 홈페이지의 톱 페이지로부터 참조할 수 있는 페이지를 모두 쓰레드로서 취급하도록 해도 되고, 고립된 발언으로서 각 페이지를 취급할 수도 있다. 또한, 1페이지가 긴 경우도 있다. 그 경우에는, 예를 들면 HTML 소스의 h1 태그 등으로 분할하고, 분할된 각 부분을 1개의 발언으로서 취급하는 구성이어도 된다.

단계 S7의 발언 및 쓰레드의 추출 처리가 실시되면, 도 4C에 도시하는 테이블 중 일부의 데이터가 등록된다. 도 4C의 예에서는, 발언을 포함하는 Web 페이지의 URL을 위한 열(301)과, 종별의 데이터를 저장하기 위한 열(302)과, 발언의 타이틀을 위한 열(303)과, 쓰레드 번호(#)의 열(304), 발언 번호(#)의 열(305), 업종의 열(306)과, 발언의 대상에 대한 평가의 열(307)과, 추출 정보를 저장하기 위한 열(308)과, 신뢰도의 열(309)과, 장르의 열(310)이 포함된다. 종별을 저장하기 위한 열(302)에는 게시판인 경우에는 1이, 개인 홈페이지인 경우에는 2가, 그 밖의 경우에는 3이 저장된다. 타이틀에 대해서는 발언의 타이틀인 경우도 있으면 TITLE 태그나 h1 태그의 값인 경우도 있다. 평가에 대해서는, 예를 들면 좋거나 나쁘다고 하는 평가이다. 이에 대해서는 후술한다. 추출 정보에는 회사명, 증권 코드, 참조 발언 번호, 발언의 근거가 되는 매스 미디어의 정보나 URL, 신원을 나타내는 정보인 메일 어드레스나 핸들명이 포함된다. 신뢰도에는 발언이 포함되는 페이지의 피참조도와 이하에 계산되는 신뢰도의 값이 포함된다. 액세스 수가 파악되어 있는 경우에는, 액세스 수가 등록되는 경우도 있다. 장르는, 예를 들면 제품 정보, 기업 정보, 주가 정보, 환경 활동 정보 등의 각 업종에서 공통된 화제이다.

단계 S7까지 실시되면, URL을 위한 열(301)과, 종별을 저장하기 위한열(302)과, 타이틀을 위한 열(303)과, 쓰레드 번호의 열(304)과, 발언 번호의 열(305)의 값이 저장되게 된다.

도 2의 설명으로 되돌아가면, 단계 S7의 다음으로, 회사 특정부(505)가 발언의 대상으로 되어 있는 기업명을 특정하기 위한 처리를 실시한다(단계 S9). 이 기업명을 특정하는 처리에서는, 기업명 사전 저장부(515)에 저장된 기업명 사전을 참조한다. 기업명 사전에는, URL 기업명 사전과 약칭명 사전이 포함된다. 이들 사전의 일례를 도 8A 및 도 8B에 도시한다. 도 8A는 URL 기업명 사전의 일례이다. 도 8A의 예에서는 사이트 URL과, 기업명과, 증권 코드(또는 상표 코드)와, 업종명과, 하나 또는 복수의 특징 키워드와, 사이트 URL의 랭킹 정보(피참조도 및 액세스 수)가 각 기업에 대하여 저장된다. 특징 키워드에는 관련 URL을 포함하는 경우도 있다. 또한, 사이트 URL의 랭킹 정보에 대해서는, 이하에 설명하는 처리에 의해 취득할 수 있었던 경우에 등록된다. 도 8B는 약칭명 사전의 일례이다. 도 8B의 예에서는 정식 기업명과, 그 읽기 문자와, 하나 또는 복수의 약칭이 저장되어 있다. 회사 특정부(505)는 이들 사전을 이용하여, 처리 대상의 발언에 포함되는 문언이 사전 내의 기업명, 약칭, 증권 코드와 일치할지 판단함으로써, 기업명을 특정한다. 또, 기업명뿐만 아니라, 증권 코드, 기업 URL을 특정하도록 해도 된다. 또한, 회사 특정부(505)는 개인 홈페이지에 대해서도 마찬가지로 발언의 대상으로 되어 있는 기업명을 특정한다. 여기서, 특정된 기업명이나 증권 코드 등은 도 4C의 추출 정보를 저장하기 위한 열(308)에 저장된다. 또한, 발언 등에 포함되는 문언이 URL 기업명 사전 중 어느 기업의 소정 개수 이상의 특징 키워드와 일치하는 경우에는, 해당 기업의 기업명을, 해당 발언 등의 대상으로 되어 있는 기업명으로서 특정하는 경우도 있다.

다음으로, 출처 탐색부(506)는 발언이나 개인 홈페이지 중에서, 발언의 근거가 될 수 있는 URL이나 신문·잡지명 등 매스 미디어의 정보를 추출한다(단계 S11). 또, 매스 미디어의 정보에 대해서는, 매스 미디어 사전 저장부(516)에 저장된 매스 미디어 사전을 이용한다. 또한, 도 1에서는 출처 탐색부(506)가 기업명 사전을 참조하도록 도시되어 있지 않지만, 기업명 사전 저장부(515)에 저장된 기업명 사전을 참조하여, 발언 중에 URL이 포함되어 있는 경우에, 그 URL이 기업명 사전에 등록되어 있는 URL인지의 여부를 판단하여, 그 등록 유무에 대하여 해석 데이터 저장부(510)에 등록하는 경우도 있다. 매스 미디어 사전에는, 예를 들면 매스 미디어에 관련된 기업명과, 이들 기업이 발행하는 신문·잡지의 명칭에 대한 정보가 포함되어 있다.

도 9에 단계 S11의 출처 탐색 처리의 상세를 도시한다. 출처 탐색부(506)는, 우선 발언 또는 개인 홈페이지 중에 URL이 포함되어 있는지 판단한다(단계 S51). 또, 기업명 사전에 등록되어 있는 URL이 포함되어 있는지 판단하는 처리이어도 된다. 만일, 발언 또는 개인 홈페이지 중에 URL이 포함되어 있는 경우에는, 출처 탐색부(506)는 해당 URL을 해석 데이터 저장부(510)에 등록한다(단계 S53). 예를 들면, 도 4C의 추출 정보를 저장하기 위한 열(308)에 저장한다. 또한, 상술한 바와 같이 기업명 사전에 등록된 URL인지의 여부에 대한 정보를 해석 데이터 저장부(510)에 등록하도록 해도 된다. 또한, 단계 S51에서 발언 또는 개인 홈페이지중에 URL이 포함되지 않는다고 판단된 경우, 및 단계 S53에서 URL을 해석 데이터 저장부(510)에 등록 후, 출처 탐색부(506)는 발언 또는 개인 홈페이지 중에 신문·잡지명이 포함되는지 판단한다(단계 S55). 즉, 출처 탐색부(506)는 매스 미디어 사전에 등록된 신문·잡지명이 발언 또는 개인의 홈페이지 중에 출현하는지를 판단한다. 만일, 매스 미디어 사전에 등록된 신문·잡지명이 검출된 경우에는, 출처 탐색부(506)는 해당 신문·잡지명을 해석 데이터 저장부(510)에 등록한다(단계 S57). 예를 들면, 도 4C의 추출 정보를 저장하기 위한 열(308)에 저장한다.

도 2의 처리로 되돌아가면, 발언·쓰레드 분석부(507)는 발언 및 쓰레드와 개인 홈페이지에 대하여, 기업명 사전 저장부(515)에 저장되어 있는 기업명 사전, 발언의 대상의 평가나 화제의 장르를 특정하기 위해서 사전에 생성되고, 또한 룰 세트 저장부(517)에 저장되어 있는 룰 세트, 및 게시판 등에서 이용되고 있는 핸들명에 대한 핸들 DB(518)를 이용하여 분석 처리를 실시한다(단계 S13). 분석 처리에서는, 발언 및 쓰레드에서의 다른 표현을 룰 세트 저장부(517)에 등록되어 있는 룰 세트와 비교함으로써, 화제의 장르, 및 발언의 대상 기업 등에 대한 좋거나 나쁘거나 등의 평가를 결정한다. 또한, 발언의 근거가 되는 URL 등이 기재되어 있는지, 해당 URL이 기업명 사전에 등록된 URL인지, 발언자의 신원을 나타내는 메일 어드레스나 핸들명이 포함되는지 등의 사항으로부터 발언의 신뢰도를 결정한다.

단계 S13의 상세를 도 10에 도시한다. 또, 도 10은 하나의 발언 또는 개인 홈페이지에 대한 처리이다. 발언·쓰레드 분석부(507)는, 우선 발언 등의 화제의 장르의 분류를 행하여, 장르를 해석 데이터 저장부(510)에 등록한다(단계 S61).예를 들면, 도 4C의 장르의 열(310)에 저장한다. 발언 등의 화제의 장르의 분류에 대해서는, 미국 특허 공개 공보2002-0069197-A1 등에 개시되어 있는 기술을 이용할 수 있다. 또한, 발언·쓰레드 분석부(507)는 발언 등의 대상 기업 등에 대한 평가의 분류를 행하여, 평가의 정보를 해석 데이터 저장부(510)에 등록한다(단계 S63). 예를 들면, 도 4C의 평가의 열(307)에 저장한다. 평가의 분류는 기업에 대하여 좋은 평가를 행하고 있는지, 나쁜 평가를 행하고 있는지 등의 분류이다. 이 단계 S61 및 단계 S63의 처리에 대해서는, 룰 세트 저장부(517)에 저장된 발언 등의 화제의 장르에 대한 룰 세트, 및 좋은 평가 또는 나쁜 평가에 대한 룰 세트를 이용하여, 발언·쓰레드 분석부(507)가 판단한다. 이들 룰 세트에 대해서는, 업종별로 생성된다. 업종에 따라, 장르에 대한 표현이나, 평가에 대한 다른 표현이 다르다고 생각되기 때문이다. 장르에 대해서는, 게시판 자체가 카테고리로 나누어져 있는 경우도 있어, 그 정보를 이용해도 된다. 평가에 대해서는, 좋은 평가, 나쁜 평가뿐만 아니라, 소정의 관점에 대한 평가인지 등의 판단을 행하도록 해도 된다.

발언·쓰레드 분석부(507)는, 예를 들면 도 11에 도시한 바와 같은 처리를 행하여, 룰 세트를 생성한다. 즉, 각 업종에 관하여 각 장르의 발언, 및 좋은 평가 및 나쁜 평가의 발언의 정해 세트를 사람의 손으로 작성하여, 예를 들면 전문가 시스템 기능을 갖는 발언·쓰레드 분석부(507)에 입력한다(단계 S88). 그리고, 발언·쓰레드 분석부(507)는 정해 세트의 학습을 행하여, 룰 세트를 생성하고, 룰 세트 저장부(517)에 저장한다(단계 S89). 또, 발언 등의 대상 기업 등에 대한 평가의 분류에 대해서는, 미국 특허 공개 공보2002-0069197-A1이나 일본 공개 특허 공보 특개2002-202984호 등에 개시된 기술을 이용할 수 있다.

도 10의 처리로 되돌아가면, 다음으로 발언·쓰레드 분석부(507)는 발언 등에 메일 어드레스가 포함되는지 판단한다(단계 S65). 만일, 메일 어드레스가 발언 등에 포함되는 경우에는(단계 S65: "예" 루트), 해당 메일 어드레스가 프리메일의 메일 어드레스인지를 판단한다(단계 S67). 프리메일의 메일 어드레스인지는 메일 어드레스의 도메인부의 패턴 등으로부터 판단할 수 있다. 만일, 해당 메일 어드레스가 프리메일의 메일 어드레스인 경우에는(단계 S67: "예" 루트), 프리메일의 메일 어드레스에 대응하는 신뢰도를 설정하여, 해석 데이터 저장부(510)의 신뢰도의 열(309)에 등록한다(단계 S69). 또, 신뢰도의 열(309)에는 아울러 해당 발언 등의 페이지의 랭킹 정보(피참조도. 액세스 수가 파악되어 있는 경우에는 액세스 수도 등록되는 경우도 있음)도 등록된다. 한편, 발언 등에 포함되는 메일 어드레스가 프리메일의 메일 어드레스가 아닌 경우에는(단계 S67: "아니오" 루트), 일반적으로 메일 어드레스에 대응하는 신뢰도를 설정하여, 해석 데이터 저장부(510)의 신뢰도의 열(309)에 등록한다(단계 S71). 일반적으로, 발언자의 신원을 밝히는 정보로서는 프리메일의 메일 어드레스보다 일반 메일 어드레스가 신뢰도가 높기 때문에, 신뢰도에 대해서도 일반 메일 어드레스에 대하여 보다 높은 값을 부여한다.

단계 S69 또는 단계 S71 후에, 발언·쓰레드 분석부(507)는 검출한 메일 어드레스를 해석 데이터 저장부(510)에 등록한다(단계 S73). 예를 들면 해석 데이터 저장부(510)의 추출 정보를 저장하기 위한 열(308)에 저장한다. 그리고, 단계 S75로 이행한다.

다음으로, 발언·쓰레드 분석부(507)는 발언 등에 URL이 포함되는지 판단한다(단계 S75). URL은 발언의 근거로서 나타내고 있는 경우가 많기 때문이다. 만일, URL이 발언 등에 포함되는 경우(단계 S75: "예" 루트), 해당 URL이 기업명 사전에 포함되는지 판단한다(단계 S77). 만일, URL이 기업명 사전에 포함되는 경우에는 발언·쓰레드 분석부(507)는 해당 URL이 기업명 사전에 포함되는 URL이라는 취지를 해석 데이터 저장부(510)에 등록한다(단계 S79). 예를 들면, 추출 정보를 저장하기 위한 열(308)에 저장한다. 단계 S79의 후 또는 단계 S77에서 URL이 기업명 사전에 포함되지 않는다고 판단된 경우, 발언·쓰레드 분석부(507)는 링크처 URL의 랭킹값(피참조도)을 신뢰도로 하여 해석 데이터 저장부(510)에 등록한다(단계 S81). 예를 들면, 해석 데이터 저장부(510)의 신뢰도의 열(309)에 등록한다. 또, 발언 등의 속에 메일 어드레스도 포함되어 있는 경우에는, 메일 어드레스에 대한 신뢰도 및 URL에 대한 신뢰도를 가산하도록 해도 된다. 또한, 발언 등의 랭킹 정보(피참조도. 액세스 수가 파악되어 있는 경우에는 액세스 수도 등록되는 경우도 있음)에 대해서도 함께 등록된다. 그리고, URL을 해석 데이터 저장부(510)에 등록한다(단계 S83). 예를 들면, 추출 정보를 저장하기 위한 열(308)에 저장한다. 처리는, 단계 S85로 이행한다.

다음으로, 발언·쓰레드 분석부(507)는 발언 등에 핸들명이 포함되는지 판단한다(단계 S85). 핸들명은 게시판에서는 자주 이용되는 것으로, 발언자를 특정하는 정보이지만, 그에 따라 발언자를 완전히 특정할 수 있는 것은 아니다. 따라서, 본 실시의 형태에서는 발언 수를 지표로서 이용한다. 발언 등에 핸들명이 포함되는 경우에는, 발언·쓰레드 분석부(507)는 해석 데이터 저장부(510)에 핸들명을 등록한다(단계 S86). 예를 들면, 추출 정보를 저장하기 위한 열(308)에 저장한다. 그리고, 발언·쓰레드 분석부(507)는 핸들 DB(518)에서 해당 핸들명을 검색하여, 그 카운트를 인크리먼트한다(단계 S87). 발언·쓰레드 분석부(507)는 핸들 DB(518)에 해당 핸들명이 등록되어 있지 않은 경우에는, 핸들명 및 카운트(여기서는 「1」)를 핸들 DB(518)에 등록한다. 그리고, 다음의 처리로 이행한다. 또한, 발언 등에 핸들명을 포함하지 않는다고 판단하는 경우에는, 다음의 처리로 이행한다.

또, 핸들명의 신뢰도에 대해서는, 콘텐츠 수집 해석부(501)가 한 번에 수집한 콘텐츠 정보 전체에 대한 처리가 종료한 시점에 핸들 DB(518)에 등록되어 있던 카운트값을 이용한다. 즉, 콘텐츠 정보 전체에 대한 처리가 종료한 시점에, 발언·쓰레드 분석부(507)는 핸들 DB(518)의 각 핸들명에 대한 카운트값을 해석 데이터 저장부(510)에 등록한다.

최종적으로 신뢰도를 비교하는 경우에는, 정규화 처리가 필요한 경우가 있다. 예를 들면, 일반 메일 어드레스에 30이라는 신뢰도, 프리메일의 메일 어드레스에 10이라는 신뢰도를 부여하는 경우, URL에 대한 신뢰도로서 이용되는 링크처 URL의 피참조도에 대해서는 100으로 나눈 값을 이용하거나, 핸들명의 카운트값에 대해서도 20으로 나눈 값을 이용하거나 하는 등의 것이 필요해지는 경우가 있다.

도 2의 단계 S13의 처리에 의해, 해석 데이터 저장부(510)의 신뢰도의 열(309) 및 장르의 열(310), 및 추출 정보를 저장하기 위한 열(308)에 정보가 등록된다.

도 2에서는, 다음으로 통계 처리부(508)가 각종 통계 처리를 실시한다(단계 S15). 통계 처리부(508)는, 예를 들면 각 업종에 있어서의 각 장르의 좋거나 나쁜 평가의 수의 합계와 전체로부터 본 비율이나, 발언 중에 출현한 기업명의 집계, 및 그 좋거나 나쁜 평가의 집계, 어떠한 관점에서의 발언이 많은지, 어떠한 평가가 많은지 등의 정보를 계산한다. 또한, 발언 등의 신뢰도나 피참조도 등의 랭킹의 순서대로 데이터를 배열하기도 하는 경우도 있다.

통계 처리부(508)는, 예를 들면 도 12와 같은 정보를 생성한다. 여기서는 제품 정보, 기업 정보, 주가 정보, 환경 활동 정보의 각각에 대하여, 업계 A, 업계 B, 기업 A 및 기업 B에 관하여 좋은 평가(OK)의 발언 수와 나쁜 평가(NG)의 발언 수가 포함된다. 상향 화살표는 전회 처리 시보다 수가 증가하고 있는 것을 나타내고, 횡방향 화살표는 전회 처리 시와 거의 동일한 것을 나타내고, 하향 화살표는 전회 처리 시보다 수가 감소하고 있는 것을 나타내고 있다.

또한, 통계 처리부(508)는 도 13과 같은 정보를 생성하는 경우도 있다. 즉, 기업 A에 관한 발언 중 좋은 평가의 비율의 시간 변화를 나타내는 그래프이다.

이러한 통계 처리의 결과는, 예를 들면 해석 데이터 저장부(510)에 등록해 둔다. 그리고, 사용자 인터페이스부(509)는 사용자 단말기(3)로부터의 요구에 따라, 해석 데이터 저장부(510)에 등록된 정보를 판독하여, 사용자 단말기(3)에 송신한다(단계 S17). 사용자 단말기(3)는 정보 수집 해석 시스템(5)으로부터 데이터를 수신하여, 표시 장치에 표시한다. 통계 처리부(508)에 의해 처리한 데이터만이 아니고, 사용자 인터페이스부(509)가, 예를 들면 발언의 신뢰도나 피참조도 등의 랭킹으로 데이터를 재배열하여, 그 결과를 사용자 단말기(3)에 송신하고, 사용자에 의해 지정된 키워드 등에 의해 해석 데이터 저장부(510)를 검색하여, 그 검색 결과를 사용자 단말기(3)에 송신하는 구성이어도 된다.

사용자는 사용자 단말기(3)의 표시 장치의 표시 내용에 의해, 어떠한 업종이나 기업에, 어떠한 평가의 발언이 어느 정도 있었는지에 대한 정보, 그 발언의 출처에 대한 정보를 취득할 수 있다. 주식 거래의 면에서는 「풍설의 유포」에 해당하는 정보가 존재하지 않는지, 또한 그 정보의 출처는 어디인지 등의 정보를 취득할 수 있게 된다. 또한, 이들 취득한 정보에 대해서는 신뢰도나 피참조도 등의 랭킹을 이용하여, 사용자는 발언의 영향도 등에 대해서도 고려한 판단을 행할 수 있게 된다.

상술한 업종 용어 사전 저장부(514) 및 기업명 사전 저장부(515)의 데이터에 대해서는, 어떠한 방법으로 작성해도 된다. 단, 콘텐츠 수집 해석부(501)가 수집한 콘텐츠 정보를 이용하여 생성할 수도 있다. 본 실시의 형태에서는 대량의 정보 중에서, 특정한 업종이나 분야의 정보를 구별하여 추출하여, 분류하는 기술을 이용하여, 도 1의 사전 생성부(520)가 업종 용어 사전 및 URL 기업명 사전과 약칭명 사전을 생성한다.

도 14에 도 1의 사전 생성부(520)의 기능 블록도를 도시한다. 사전 생성부(520)에는 URL 베이스 업종 판정부(550)와, URL 베이스 약칭 판정부(551)와, 링크 토폴로지 베이스 업종 판정부(552)와, 특징어 베이스 업종 판정부(553)와, 특징어 사전 등록부(554)와, 검색 로그 해석부(555)가 포함된다. 이들 처리부는 URL 기업명 사전 저장부(515b)에 액세스할 수 있게 되어 있다. 또한, URL 베이스 업종 판정부(550) 및 링크 토폴로지 베이스 업종 판정부(552)는 링크 토폴로지 DB(519)의 데이터를 이용하여 처리를 실시한다. 특징어 베이스 업종 판정부(553)와, 특징어 사전 등록부(554)와, 검색 로그 해석부(555)는, 업종 용어 사전 저장부(514)에 액세스할 수 있게 되어 있다. 또한, 검색 로그 해석부(555)는 검색 로그 저장부(511)에 액세스할 수 있게 되어 있다. 도면에는 도시하지 않았지만, 검색 로그 해석부(555)는 인터넷(1)을 통하여 프록시 서버(8)나 검색 사이트 서버(9)에 액세스할 수 있게 되어 있다. 또한, 검색 로그 해석부(555)의 일부의 처리 결과는, 해석 데이터 저장부(510)에 저장된다.

다음으로, 도 15 내지 도 21을 이용하여 도 14에 도시된 사전 생성부(520)의 처리에 대하여 설명한다. 콘텐츠 수집 해석부(501)에 의해 수집되고, 또한 어카이브(512)에 저장된 콘텐츠 정보 및 링크 토폴로지 DB(519)에 저장된 링크 토폴로지 데이터를 이용하여, URL 베이스 업종 판정부(550)는 URL을 이용한 업종 판정·등록 처리를 실시한다(단계 S91). 최초는 어느 정도 사람의 손으로 유지 관리한 URL 기업명 사전을 이용한다. 그리고, URL 베이스 업종 판정부(550)는 처리 대상의 Web 페이지의 URL과 URL 기업명 사전에 등록된 URL을 비교함으로써, 처리 대상의 Web 페이지를 공개하고 있는 기업의 업종을 판정한다. 예를 들면, URL 기업명 사전에 http://www.xxx.com, xxx 주식회사, 컴퓨터라는 항목이 등록되어 있는 경우, 처리 대상의 Web 페이지의 URL이 http://www.ist.xxx.com이면, xxx가 공통되므로, 처리대상의 Web 페이지를 공개하고 있는 기업의 업종의 후보를 「컴퓨터」로 한다. 그리고, URL 베이스 업종 판정부(550)는 링크 토폴로지 DB(519)에 저장된 링크 토폴로지 데이터로부터, http://www.xxx.com 이하의 Web 페이지와, http://www.ist.xxx.com 이하의 Web 페이지에 상호 또는 일 방향의 링크가 걸려 있는지 판단한다. 만일, 링크가 걸려 있는 것을 확인할 수 있으면, URL 베이스 업종 판정부(550)는 처리 대상의 Web 페이지의 TITLE 등으로부터 기업명을 추출하여, 기업명, http://www.ist.xxx.com 및 업종명인 컴퓨터를 URL 기업명 사전에 등록한다.

다음으로, URL 베이스 약칭 판정부(551)는 URL 기업명 사전 저장부(515b)에 저장된 URL 기업명 사전을 참조하여, URL을 이용한 약칭 판정·등록 처리를 실시한다(단계 S93). 처리 대상의 Web 페이지에,

라는 기술이 있었던 경우, URL 베이스 약칭 판정부(551)는, http://www.xxx.com을 이용하여 URL 기업명 사전을 검색한다. 등록되어 있으면, http://www.xxx.com을 사용하고 있는 기업의 정식 명칭을 얻을 수 있다. 그리고, URL 베이스 약칭 판정부(551)는 약칭명 사전 저장부(515a)에 저장된 약칭명 사전을 정식 명칭으로 검색하여, 정식 명칭이 등록되어 있는지 확인한다. 만일 등록되어 있으면, 「스리엑스」라는 약칭명이 정식 명칭에 대응하여 등록되어 있는지 확인한다. 만일, 등록되어 있지 않으면, 「스리엑스」라는 약칭명을 약칭명 사전에 등록한다. 정식 명칭이 등록되어 있지 않은 경우에는, 정식 명칭 및 「스리엑스」라는 약칭명을 등록한다. 단, 등록하는 약칭명은 「여기」 등의, 약칭이 아닌 전형적인 문언이 아니라는 것을 확인할 필요가 있다.

그리고, 링크 토폴로지 베이스 업종 판정부(552)는, 링크 토폴로지 DB(519)에 저장된 링크 토폴로지 데이터를 이용하여, 업종 판정·등록 처리를 실시한다(단계 S95). 링크 토폴로지 베이스 업종 판정부(552)는 URL 기업명 사전에 등록되어 있는 기업 사이트와 링크 관계가 긴밀하게 되어 있는 페이지를 동업종의 기업이 공개하고 있는 Web 페이지라고 판단하고, 해당 페이지의 URL, 해당 페이지 중의 정보를 이용하여 추출된 기업명 및 업종을 URL 기업명 사전에 등록한다. 이미 URL 등이 등록 완료되면, 업종을 등록한다. 또한, 링크 토폴로지 데이터로부터 특정 업종의 허브 사이트를 추출할 수 있던 경우에는, 링크 토폴로지 베이스 업종 판정부(552)는 해당 허브 사이트로부터 링크되어 있는 페이지를 동업종이라고 판정하여, 링크되어 있는 페이지의 URL, 해당 페이지 중의 정보를 이용하여 추출된 기업명 및 업종을 URL 기업명 사전에 등록한다. 이미 URL 등이 등록 완료되면, 업종을 등록한다.

또한, 특징어 베이스 업종 판정부(553)는 처리 대상의 Web 페이지로부터 소정의 알고리즘에 따라 특징어를 추출하여, 해당 특징어에 의해 업종 용어 사전을 검색하여, 처리 대상의 Web 페이지의 업종 판정·등록 처리를 실시한다(단계 S97). Web 페이지로부터 추출된 특징어가, 소정의 기준 이상으로 특정한 업종에 대하여 업종 용어 사전에 등록된 용어와 일치하는 경우에는, 해당 특정한 업종을 처리 대상의 Web 페이지의 업종이라고 판단한다. 그리고, 특징어 베이스 업종 판정부(553)는 Web 페이지의 URL, 해당 페이지 중의 정보를 이용하여 추출된 기업명 및 업종을 URL 기업명 사전에 등록한다. 이미 URL 등이 등록 완료되면, 업종을 등록한다.

또한, 특징어 사전 등록부(554)가 업종이 특정된 페이지로부터 특징어를 추출하고, 해당 특징어를 업종 용어 사전에 등록한다(단계 S99). 상술한 처리 등에 의해 업종이 특정된 페이지로부터 특징어를 추출하고, 특정된 업종에 대하여, 추출된 특징어를 업종 용어 사전에 포함시키는 후보로 한다. 특징어 사전 등록부(554)는 이러한 처리를 많은 페이지에 대하여 실시하여, 특정한 특징어가 동일한 업종에 대하여 소정 횟수 이상 추출된 경우에는, 해당 특정한 특징어를 그 업종에 대하여 업종 용어 사전에 등록한다. 또한, 추출 빈도가 높을수록 중요한 특징어라고 하여, 추출 빈도가 높은 특징어로부터 등록한다. 신출 정도로부터 중요도를 판단하여, 등록하도록 해도 된다. 또한, 업종 용어 사전을 포멀판과 인포멀판으로 나누도록 해도 된다. 예를 들면, 처리 대상의 Web 페이지가 게시판이나 개인 홈페이지인 경우에는 업종 용어 사전의 인포멀판에 추출된 특징어를 등록하도록 한다.

이와 같이 하여, 사전 생성부(520)는 어카이브(512)에 등록된 콘텐츠 정보 및 링크 토폴로지 DB(519)에 저장된 링크 토폴로지 데이터를 이용하여 업종 용어 사전 및 URL 기업명 사전과 약칭명 사전을 정비한다.

또한, 사전 생성부(520)의 검색 로그 해석부(555)는, 도 16 내지 도 21에 도시된 바와 같은 처리를 행한다.

도 16은 검색 로그 해석부(555)의 처리의 개요를 나타내는 흐름도이다. 검색 로그 해석부(555)는 인터넷(10)을 통하여 프록시 서버(8) 및 검색 사이트서버(9)에 액세스하여, 프록시 로그 저장부(84) 및 검색 로그 저장부(91)에 저장되어 있는 로그 데이터를 취득하여, 검색 로그 저장부(511)에 저장한다(단계 S201). 또, 이 단계는 검색 로그 해석부(555) 이외의 처리부 또는 정보 수집 해석 시스템(5)의 관리자 등이 행하는 경우도 있다. 검색 로그 저장부(91)로부터 취득되는 검색 로그 데이터의 일례를 이하에 나타낸다

"2001/09/23:00:00:18url=http://mfy.mmbr.ease.com/iwte.html

ref=http://para.cab.inwb.ne.jp/cgibin/para?Querystring=%8DL%93%87%83%5C%81%5B%83vbase=NORMAL"

이 예에서는 일시(2001/09/23:00:00:18)와, 「url=」의 후의 바로가기 URL(http://mfy.mmbr.ease.com/iwte.html)과, 「ref=」의 후의 쿼리와, 검색 상태(base=NORMAL)가 포함된다. 또, 쿼리는 하선으로 나타낸 바와 같이 인코드된 검색 키워드가 포함된다. 또한, 위의 예에서는 IP 어드레스가 로그에 포함되어 있지 않지만, 포함되는 경우도 있다.

또한, 프록시 로그 저장부(84)로부터 취득되는 로그 데이터의 일례를 이하에 나타낸다. 또, 여기서는 2개의 로그를 나타내고 있다.

"1034817348.963 133.25.88.171 11441 GET

http://para.cab.inwb.ne.jp/cgibin/para?Querystring=%8DL%93%87%83%5C%81%5B%83v"

"1034817348.968 133.25.88.171 1441 GET

http://taisen.mycom.co.jp/taisen/image/side/top01.gif"

본 예에서는, 최초의 숫자는 소정의 형식으로 표시된 시각 정보이다. 또한, IP 어드레스(133.25.88.171)와, 오브젝트 사이즈와, 처리 타입(GET)과, 액세스처 URL이 포함되어 있다. 최초의 로그는 하선으로 나타낸 바와 같이 인코드된 검색 키워드를 포함하는 검색 사이트에의 쿼리(URL)를 나타내고 있으며, 다음의 로그는 동일한 클라이언트에 의한 별도의 URL에의 액세스를 나타내고 있다. 본 실시의 형태에서는 검색 사이트에의 쿼리 후에 동일한 클라이언트가 액세스한 URL을 바로가기 URL이라고 판단하여 처리를 실시한다. 즉, 프록시 로그 저장부(84)로부터 취득되는 로그 데이터에 대해서는, 2개의 로그로 검색 로그 저장부(91)에 저장된 1개의 검색 로그에 상당하는 데이터가 구성되게 된다.

또, 검색 사이트 서버(9)도 프록시 서버(8)도 부하 분산을 위해서 복수의 서버로 구성되는 경우가 있다. 이 경우에는, 각각의 서버의 프록시 로그 저장부(84) 또는 검색 로그 저장부(91)에 로그가 분산되므로, 모든 서버의 프록시 로그 저장부(84) 또는 검색 로그 저장부(91)의 데이터를 취득하여 1개로 통합하여, 시간 순으로 재배열할 필요가 있다.

다음으로, 검색 로그 해석부(555)는 수집된 로그의 정규화 처리를 실시한다(단계 S203). 이후의 처리를 위해서 데이터를 좁혀 들어감과 함께, 검색 키워드의 정규화 등도 실시한다. 이 처리의 상세를 도 17 및 도 18에 도시한다.

도 17은 검색 로그 저장부(91)로부터 취득된 데이터에 대한 처리 흐름을 나타내고 있다. 검색 로그 해석부(555)는, 검색 로그 저장부(511)로부터 처리해야 할 데이터를 메모리에 판독한다(단계 S211). 그리고, 판독한 데이터의 각 로그에대하여 일시, 키워드 및 바로가기 URL의 데이터를 추출하여, 메모리에 저장한다(단계 S213). 또, 키워드에 대해서는 인코드되어 있기 때문에, 여기서 디코드하여, 메모리에 저장한다(단계 S215). 그리고, 디코드된 키워드에 대하여 정규화를 행하여, 메모리에 저장한다(단계 S217). 여기서 정규화는 전각의 영수 문자를 반각의 영수 문자로 변환하거나, 대문자를 소문자로 변환하거나, 반각 가나 문자를 전각 가나 문자로 변환하거나, 표기의 불일치를 일치시키는 처리이다. 표기의 불일치에 대해서는 일본어로서는 「コンピュ-タ-」를 「コンピュ-タ」로 수정하는 처리나, 영어로서는 「studies」를 「study」로 수정하는 처리이다.

그리고, 검색 로그 해석부(555)는 소정 시간 내에 동일 키워드의 로그가 포함되는지 판단한다(단계 S219). 이것은 사용자가 착각하여 몇 번이나 연속해서 동일 키워드의 검색 지시를 행하는 경우나, 검색 결과의 복수의 URL을 순서대로 보고 있는 경우를 검출하기 위함이다. 복수의 URL을 순서대로 보고 있는 경우에는, 마지막으로 천이한 바로가기 URL이 정말로 필요한 내용이 개시되어 있는 Web 페이지라는 가정 하에서 처리를 행한다. 만일, 소정 시간 내에 동일 키워드를 포함하는 로그가 포함된다고 판단된 경우에는, 해당 동일 키워드를 포함하는 로그 중 최종 액세스의 로그 이외를 삭제한다(단계 S221), 그리고, 원래의 처리로 되돌아간다. 한편, 소정 기간 내에 동일 키워드의 로그가 포함되어 있지 않다고 판단된 경우에는 원래의 처리로 되돌아간다.

이에 의해, 처리 불필요한 데이터를 삭제하여, 처리해야 하는 데이터량을 감소시켜, 처리 속도를 높일 수 있음과 함께, 보다 적절한 처리 결과를 얻을 수 있게된다.

도 18은 프록시 로그 저장부(84)로부터 취득된 데이터에 대한 처리 흐름을 나타내고 있다. 검색 로그 해석부(555)는 검색 로그 저장부(511)로부터 처리해야 할 데이터를 메모리에 판독한다(단계 S231). 다음으로, 판독한 데이터 중 각 로그에 대하여 일시, URL 및 클라이언트 IP 어드레스를 추출하여, 메모리에 기억한다(단계 S233). 이와 같이 추출된 데이터를 포함하는 로그를 클라이언트 IP 어드레스별로 통합하여, 시간 순으로 재배열한다(단계 S235). 그리고, 소정의 검색 사이트에의 액세스를 나타내는 로그를 추출함과 함께, 해당 로그의 URL로부터 키워드를 추출하여, 메모리에 저장한다(단계 S237). 이 때문에, 검색 사이트의 URL을 미리 등록해 두고, 해당 검색 사이트의 URL을 이용하여 검색 사이트에의 액세스를 나타내는 로그를 추출한다. 그리고, 해당 로그의 URL의 규칙성으로부터 키워드를 추출한다. 검색 사이트에의 액세스를 나타내는 로그를 추출하면, 검색 로그 해석부(555)는 해당 추출된 로그의 직후의 로그의 URL을 바로가기 URL로서 추출하여, 메모리에 저장한다(단계 S239).

이와 같이 추출된 키워드 및 바로가기 URL과, 예를 들면 키워드를 포함하는 로그의 일시 데이터에 의해 로그 레코드를 생성하여, 메모리에 저장한다(단계 S241). 이 로그 레코드에 포함되는 키워드에 대해서는 인코드되어 있기 때문에, 여기서 디코드하여, 디코드 후의 키워드를 메모리에 저장한다(단계 S243). 그리고, 디코드된 키워드에 대하여 정규화를 행하여, 메모리에 저장한다(단계 S245). 이 정규화는 단계 S217과 마찬가지의 처리이다.

그리고, 검색 로그 해석부(555)는 소정 시간 내에 동일 키워드의 로그 레코드가 포함되는지 판단한다(단계 S247). 만일, 소정 시간 내에 동일 키워드를 포함하는 로그가 포함된다고 판단된 경우에는, 해당 동일 키워드를 포함하는 로그 중 최종 액세스의 로그 레코드 이외를 삭제한다(단계 S249). 그리고, 원래의 처리로 되돌아간다. 한편, 소정 기간 내에 동일 키워드의 로그가 포함되어 있지 않는다고 판단된 경우에는, 원래의 처리로 되돌아간다.

이에 의해, 처리 불필요한 데이터를 삭제하여, 처리해야 하는 데이터량을 감소시켜, 처리 속도를 높일 수 있음과 함께, 보다 적절한 처리 결과를 얻을 수 있게 된다.

도 16의 설명으로 되돌아가면, 다음으로 검색 로그 해석부(555)는 집계 처리를 실시한다(단계 S205). 이 집계 처리의 상세에 대하여 도 19에 도시한다.

집계 처리로서 검색 로그 해석부(555)는, 바로가기 URL별로 액세스 수와 사용된 키워드의 종류 수를 카운트하여, 카운트 결과를 메모리에 저장한다(단계 S251). 2 이상의 키워드가 동시에 사용된 경우에는 그 세트를 1종류라고 판단할 수도 있다. 그리고, 바로가기 URL을 그 계층 구조에 기초하여 사이트별로 통합하여, 사이트별로 액세스 수와 사용된 키워드의 종류 수를 집계하여, 집계 결과를 메모리에 저장한다(단계 S253). 본 실시의 형태에서 사이트는, URL의 도메인부 또는 도메인부 및 하나 아래의 계층의 디렉토리부 중 어느 하나를 의미한다.

이와 같이 함으로써 각 페이지의 액세스 수 및 사용된 키워드의 종류 수가 파악됨과 함께, 각 페이지를 하위에 갖는 사이트별 액세스 수 및 사용된 키워드의종류 수를 파악할 수 있게 된다.

도 16의 설명으로 되돌아가면, 다음으로 검색 로그 해석부(555)는 사이트 종별 판정 처리 및 등록 처리를 실시한다(단계 S207). 이 사이트 종별 판정 처리 및 등록 처리의 상세를 도 20에 도시한다. 우선, 검색 로그 해석부(555)는 각 사이트를 액세스 수, 사용된 키워드의 종류 수로 분류한다(단계 S261). 이에 의해, 각 사이트의 상대적인 액세스 수의 많고 적음, 사용된 키워드의 종류 수의 많고 적음을 알 수 있게 된다. 그리고, 바로가기 사이트를 1개 선택하여(단계 S263), 해당 바로가기 사이트의 액세스 수 및 사용 키워드의 종류 수가 소정 기준 이상인지를 판단한다(단계 S265). 보다 구체적으로는, 액세스 수에 대한 소정 기준과 해당 바로가기 사이트의 액세스 수를 비교하고, 사용 키워드의 종류 수에 대한 소정 기준과 해당 바로가기 사이트의 사용 키워드의 종류 수를 비교한다.

그리고, 해당 바로가기 사이트의 액세스 수 및 사용 키워드의 종류 수가 소정 기준 이상이라고 판단된 경우에는(단계 S265: "예" 루트), 본 실시의 형태에서 해당 바로가기 사이트는 ISP(Internet Service Provider)의 사이트라고 판단하여, 해당 사이트 URL이 미등록이면, URL 기업명 사전에 사이트 URL, 기업명, 업종명(ISP), 사용된 키워드 및 랭킹 정보를 등록한다(단계 S267). 기업명에 대해서는 TITLE 태그의 값을 이용한다. 또한, 랭킹 정보에 대해서는 액세스 수 및 어카이브(512)에 저장되어 있는 피참조도의 데이터를 등록한다. 이와 같이 URL 기업명 사전이 확충된다. 또한, 업종(ISP)에 대응하여 사용된 키워드를 업종 용어 사전에 등록한다(단계 S269). 이와 같이 업종 용어 사전이 확충된다.

또한, 소정의 조건을 만족하는 해당 바로가기 사이트의 관리하에 있는 페이지를 추출한다(단계 S271). 소정의 조건은, 예를 들면 액세스 수가 소정 기준 이상이거나, 또는 액세스 수의 시간 경과의 데이터를 얻을 수 있는 경우에는 액세스 수가 소정 기준 이상으로 증가하고 있는 것이다. 그리고, 추출된 페이지의 URL을 개인 홈페이지의 URL이라고 간주하고, URL, 업종 및 랭킹 정보를 해석 데이터 저장부(510)에 등록한다(단계 S273). 예를 들면, 도 4B의 단계에서, 종별을 「2」로 하여 해석 데이터 저장부(510)에 저장한다. 이 경우에는 본 단계에서, 예를 들면 특징어 베이스 업종 판정부(553)가 해당 Web 페이지의 내용으로부터 업종 용어 사전에 기초하여 업종을 판정한다. 또, 도 2의 단계 S3 대신에 본 단계가 행해진 것으로 하면, 도 4A의 단계에서 해석 데이터 저장부(510)에 저장하도록 해도 된다. 또한, 랭킹 정보에 대해서는, 상술한 처리로 취득된 액세스 수와, 어카이브(512)에 저장된 피참조도의 데이터를 등록한다. 액세스 수는 피참조도를 보완하는 랭킹 정보로서, 피참조도가 동일하면 액세스 수에 의해 중요도, 영향도, 신뢰도 등을 판단한다. 처리는, 단계 S283으로 이행한다.

단계 S265에서 액세스 수 및 사용 키워드 종류 수가 소정의 기준 미만이라고 판단된 경우에는(단계 S265: "아니오" 루트), 액세스 수가 소정의 범위 내이고, 또한 사용 키워드 종류 수가 소정 기준 미만인지 판단한다(단계 S275). 예를 들면, 액세스 수가 상술한 소정의 기준 미만이지만, 제2 기준 이상인지 판단하고, 또한 사용 키워드 종류 수가 소정 기준 미만인지 판단한다. 본 실시 형태에서 이러한 조건을 만족하는 사이트는 일반적인 기업의 사이트라고 판단한다. 따라서, 액세스수가 소정의 범위 내이고, 또한 사용 키워드 종류 수가 소정 기준 미만이라고 판단된 경우에는(단계 S275: "예" 루트), 해당 사이트 URL이 미등록이면, URL 기업명 사전에 사이트 URL, 기업명, 업종명, 랭킹 정보 및 사용된 키워드를 등록한다(단계 S277). 이와 같이 URL 기업명 사전이 확충된다. 또, 업종명에 대해서는, 예를 들면 특징어 베이스 업종 판정부(553)가 업종 용어 사전에 기초하여 해당 Web 페이지의 내용으로부터 판정하여, URL 기업명 사전에 등록한다. 기업명에 대해서는 해당 Web 페이지의 TITLE 태그의 값을 이용한다. 사용된 키워드는 특징 키워드로서 등록된다. 랭킹 정보는 상술한 처리에 의해 취득된 액세스 수와, 어카이브(512)에 저장되어 있는 피참조도의 데이터를 등록한다. 이와 같이 URL 기업명 사전에도 랭킹 정보가 등록되게 되어, 개인 홈페이지 등에서 정보의 출처를 나타내는 정보로서 URL이 검출된 경우에, 검출된 URL의 랭킹 정보에 기초하여 해당 개인 홈페이지 등의 신뢰도를 계산할 수 있다. 처리는 단계 S283으로 이행한다.

단계 S275에서 액세스 수가 소정 범위 내가 아니고, 또한 사용 키워드의 종류 수가 소정 기준 미만이 아니라고 판단된 경우에는(단계 S275: "아니오" 루트), 액세스 수 및 사용 키워드의 종류 수가 소정의 기준 미만인지 판단한다(단계 S279). 즉, 액세스 수가 액세스 수에 대한 기준 미만이고, 또한 사용 키워드의 종류 수가 사용 키워드의 종류 수에 대한 기준 미만인지 판단한다. 만일, 액세스 수 및 사용 키워드 종류 수가 소정의 기준 미만인 경우에는(단계 S279: "예" 루트), 본 실시의 형태에서는 개인 홈페이지와 동일 레벨의 사이트라고 판단한다. 따라서, URL, 업종 및 랭킹 정보를 해석 데이터 저장부(510)에 등록한다(단계 S281).예를 들면, 도 4B의 단계에서, 종별을 「3」으로 하여 해석 데이터 저장부(510)에 저장한다. 이 경우에는, 본 단계에서, 예를 들면 특징어 베이스 업종 판정부(553)가 해당 Web 페이지의 내용으로부터 업종 용어 사전에 기초하여 업종을 판정한다. 또, 도 2의 단계 S3 대신에 본 단계가 행해진 것으로 하면, 도 4A의 단계에서 해석 데이터 저장부(510)에 저장하도록 해도 된다. 또한, 랭킹 정보에 대해서는 상술한 처리로 취득된 액세스 수와, 어카이브(512)에 저장된 피참조도의 데이터를 등록한다. 이러한 처리를 실시함으로써, 개인 등의 소규모 조직이 도메인을 취득하여 의견을 진술하거나 소문을 내거나 하는 경우에 대처할 수 있다. 처리는 단계 S283으로 이행한다. 단계 S279에서 액세스 수 및 사용 키워드 종류 수가 소정 기준 미만이 아니라고 판단된 경우에도 단계 S283으로 이행한다.

단계 S283에서는 모든 바로가기 사이트에 대하여 처리했는지 판단한다. 미처리의 바로가기 사이트가 존재하는 경우에는 단계 S263으로 되돌아가, 미처리의 바로가기 사이트에 대한 처리를 실시한다. 한편, 모든 바로가기 사이트에 대하여 처리하였다고 할 수 있는 경우에는 처리를 종료한다.

이상과 같은 처리를 실시함으로써, 검색 로그 등으로부터 URL 기업명 사전 및 업종 용어 사전을 확충시킴과 함께 주목해야 할 사이트나 URL을 특정할 수 있게 된다.

또, 사전 생성부(520)의 검색 로그 해석부(555)는 도 16 내지 도 20에서 도시되는 처리 외에, 검색 로그 저장부(511)에 저장된 데이터를 이용하여 다음과 같은 처리를 실시한다.

검색 로그는, 상술한 바와 같이 적어도 타임 스탬프(일시)와, 검색 키워드와, 바로가기 URL을 포함한다. 예를 들면, 검색 로그 해석부(555)는 검색 로그 저장부(511)에 저장된 검색 로그에 대하여 키워드 그룹핑 및 URL 그룹핑을 실시한다. 키워드 그룹핑은 (a) 한 번의 검색에 있어서 AND 조건으로 입력된 복수의 검색 키워드의 그룹핑, (b) 연속하는 복수회의 검색에 있어서 AND 조건으로 입력된 복수의 검색 키워드의 그룹핑, 및 (c) 동일한 바로가기 URL을 포함하는 복수의 검색 로그에 있어서의 복수의 검색 키워드의 그룹핑을 포함한다. URL 그룹핑은 (a) AND 조건으로 연속해서 행해진 각 검색의 검색 로그에 포함되는 바로가기 URL의 그룹핑, 및 (b) 동일한 키워드를 포함하는 검색 로그에 있어서의 바로가기 URL의 그룹핑을 포함한다.

이들 그룹핑에 의해 생성되는 키워드 세트 및 바로가기 URL 세트는, 일단 기억 장치에 저장된다. 그리고, 초기에는 키워드 세트 및 바로가기 URL 세트는 표시 장치에 표시하거나, 인쇄 장치에 출력하거나 하여, 사전의 관리자에게 제시된다. 그리고, 사전의 관리자는 각 키워드 세트 및 바로가기 URL 세트에 대하여 업종 및 기업명을 판정하여, 각 키워드 세트 및 바로가기 URL 세트를 판정 결과인 업종 및 기업명에 따라 업종 용어 사전 및 기업명 사전 또는 기업명 사전에 등록한다. 또한, 각 키워드 세트 및 바로가기 URL 세트에 대응하여 판정 결과인 업종 및 기업명을 파일이나 테이블에 기록해 둔다.

예를 들면, 「(A 기업명)& 컴퓨터」라는 검색 키워드가 1회의 검색으로 입력된 경우나, 「(A 기업명)」으로 검색한 후에 AND 조건으로 「컴퓨터」라는 검색 키워드의 검색이 연속해서 행해진 경우에는, A 기업 또는 A 기업의 업종에 대응하여 「컴퓨터」라는 용어를 등록한다. 또한, 「ABC」, 「DEF」 등의 검색 키워드를 포함하는 검색 로그에 있어서 동일 기업의 URL이 바로가기 URL로 되어 있다는 것으로 해당 검색 키워드가 그룹핑되어 있는 경우에는, 해당 기업 또는 해당 기업의 업종에 대응하여 「ABC」, 「DEF」 등의 검색 키워드를 등록한다.

또한, 「(A 기업명)」이라는 검색 후에 AND 조건으로 「컴퓨터」라는 검색 키워드의 검색이 연속해서 행해져, 바로가기 URL 세트로서 추출된 URL 중 어느 하나가 A 기업의 URL 이외의 URL이고 도메인도 다른 URL인 경우에는, 관련 URL로서, 해당 추출된 URL을 A 기업 또는 A 기업의 업종에 대응하여 등록한다. 또한, 「(A 기업)」이라는 동일 검색 키워드를 포함하는 검색 로그의 바로가기 URL 세트 중 어느 하나가 A 기업의 URL 이외의 URL이고 도메인도 다른 URL인 경우에는, 관련 URL로서, 해당 바로가기 URL을 A사 또는 A사의 업종에 대응하여 등록한다.

어느 정도, 사전의 관리자가 손으로 업종 및 기업명을 판정하여, 각 키워드 세트 및 바로가기 URL 세트에 대응하여 판정 결과인 업종 및 기업명이 기록되면, 이들 기록을 이용하여, 신규한 키워드 세트 또는 바로가기 URL 세트에 대하여 업종 및 기업명의 판정을, 예를 들면 검색 로그 해석부(555)에 의해 행할 수 있게 된다. 즉, 신규한 키워드 세트 또는 바로가기 URL 세트에 유사한 키워드 세트 또는 바로가기 URL 세트를 기록 중에서 추출하고, 해당 추출된 키워드 세트 또는 바로가기 URL 세트에 대응하여 기록된 업종 및 기업명을, 신규한 키워드 세트 또는 바로가기 URL 세트에 할당하도록 한다. 그리고, 신규한 키워드 세트 또는 바로가기 URL 세트중 미등록의 키워드 또는 바로가기 URL을 할당 결과인 업종 및 기업명에 따라 업종 용어 사전 및 기업명 사전 또는 기업명 사전에 등록한다.

또한, 도 21에 도시한 바와 같은 처리도 실시된다. 즉, 검색 로그 해석부(555)는 검색 로그 저장부(511)에 저장된 검색 로그를 이용하여, 업종 지정된 상태에서의 검색 로그를 추출하여, 해당 검색 로그에 있어서의 검색 키워드를 업종 용어 사전에 등록한다(단계 S101). 예를 들면, 검색 키워드에 업종명을 나타내는 문언이 이용되고 있는 경우나, 검색 키워드와는 별도로 검색 조건으로서 업종 지정을 행할 수 있는 경우 등에 적용 가능하다. 또, 추출된 검색 로그에 있어서의 검색 키워드를 업종 용어 사전의 인포멀판에 등록하도록 해도 된다. 또한, 검색 로그 해석부(555)는 검색 로그에 있어서의 사용자의 바로가기 URL이 URL 기업명 사전에 등록되어 있으면, 해당 URL에 대응하여 검색 키워드를 특징 키워드로서 URL 기업명 사전에 등록한다(단계 S103). 예를 들면, 「GHI」라는 검색 키워드를 포함하는 검색 로그에 URL 기업명 사전에 등록 완료한 URL이 바로가기 URL로서 포함되는 경우에는, 「GHI」를 바로가기 URL의 기업의 특징 키워드로서 URL 기업명 사전에 등록한다.

이와 같이 함으로써, 검색 로그를 이용하여 업종 용어 사전의 확충을 도모할 수 있게 된다. 또한, URL 기업명 사전의 특징 키워드에 대해서도 확충할 수 있다.

이상 본 발명의 일 실시 형태를 설명했지만, 본 발명은 이에 한정되는 것은 아니다. 즉, 도 1에 도시된 정보 수집 해석 시스템(5) 내의 기능 블록 분할에 대해서는 일례로서, 다른 분할 방법이어도 된다. 또한, 도 2의 처리 흐름에서, 출처탐색 처리(단계 S11)의 실행 순서에 대해서는, 예를 들면 발언 및 쓰레드의 추출(단계 S7)과 함께 또는 그 후에 실행하는 구성이어도 된다. 도 9에서도, 단계 S51 및 단계 S53과, 단계 S55 및 단계 S57과의 순서 교체도 가능하다. 도 10에서도, 단계 S61, 단계 S63, 단계 S65 내지 S87의 순서를 교체할 수도 있다. 도 14에서의 기능 블록 분할에 대해서도 일례로서, 다른 분할 방법이어도 된다. 도 15에서의 처리 단계는 그 실행 순서는 교체 가능하다.

위에서는 기업에 대한 정보 수집 및 해석에 대하여 설명했지만, 서평 등을 대상으로 해도 된다. 또한, 도 12 및 도 13에, 사용자 인터페이스부(509)의 출력의 일례를 도시했지만, 예를 들면 회사명만을 추출하는 것은 아니고, 예를 들면 게시판이나 개인 홈페이지로부터 특정한 회사의 상품명 등도 함께 추출하여, 예를 들면 추출 정보를 저장하기 위한 열(308)(도 4C)에 저장해 둔다. 그리고, 예를 들면 도 22에 도시한 바와 같은 정보를 사용자 인터페이스부(509)가 사용자 단말기(3)에 출력하도록 해도 된다. 즉, 각 기업의 각 상품에 대하여, 각 게시판이나 각 개인 홈페이지에서 몇 회 정도 좋은 평가(GOOD)가 행해져 있는지, 또는 몇 회 정도 나쁜 평가(BAD)가 행해져 있는지를 해석 데이터 저장부(510)에 저장된 데이터에 대하여 집계하여, 사용자에게 제시하는 것이다.

또한, 도 20의 처리 플로우에서, 또한 액세스 수 및 사용되는 키워드 종류 수의 기준값을 적절하게 결정함으로써, 보다 상세하게 사이트를 분류할 수 있도록 된다. 예를 들면, 임의의 사이트의 부하에 사용 키워드의 종류 수가 많은 페이지가 그다지 없는 경우에는, 해당 사이트를 뉴스 제공 사이트라고 판단할 수도 있다.

Claims

수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위를 추출하는 추출 단계와,

상기 개인의 의견의 대상을 특정하는 대상 특정 단계와,

상기 개인의 의견의 개시 내용을 해석함으로써 상기 대상에 대한 상기 개인의 평가를 특정하는 평가 특정 단계

를 포함하는 콘텐츠 정보 해석 방법.
제1항에 있어서,

상기 추출 단계가,

개인의 의견이 포함되는 콘텐츠 정보의 단위를 특정하는 특정 단계와,

특정된 상기 콘텐츠 정보의 단위로부터 상기 개인의 의견의 개시 단위를 추출하는 단계를 포함하는 콘텐츠 정보 해석 방법.
제2항에 있어서,

상기 특정 단계가 상기 콘텐츠 정보의 단위별 피참조도가 높은 순서대로 실시되는 것을 특징으로 하는 콘텐츠 정보 해석 방법.
제1항에 있어서,

상기 추출 단계가,

상기 개인의 의견의 참조원을 찾아감으로써 상기 개인의 의견의 개시 단위의 그룹을 검출하는 단계를 포함하는 콘텐츠 정보 해석 방법.
제1항에 있어서,

상기 추출 단계가,

상기 개인의 의견의 대상에 대한 카테고리를 특정하는 카테고리 특정 단계를 포함하는 것을 특징으로 하는 콘텐츠 정보 해석 방법.
제5항에 있어서,

상기 평가 특정 단계에서,

상기 개인의 의견의 대상에 대한 카테고리에 기초하여 상기 개인의 의견의 개시 내용을 해석함으로써, 상기 대상에 대한 상기 개인의 평가를 특정하는 것을 특징으로 하는 콘텐츠 정보 해석 방법.
제1항에 있어서,

상기 개인의 의견의 근거가 될 수 있는 정보가 해당 개인의 의견의 개시 단위에 포함되는지 판단하여, 포함되는 경우에는 해당 근거가 될 수 있는 정보를 특정하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
제1항에 있어서,

상기 개인의 의견의 개시 내용에 대한 장르를 특정하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
제1항에 있어서,

상기 개인의 의견의 개시 단위의 신뢰도를 결정하는 신뢰도 결정 단계를 더 포함하는 콘텐츠 정보 해석 방법.
제9항에 있어서,

상기 신뢰도 결정 단계가,

상기 개인의 의견의 개시 단위에 상기 개인의 신원을 나타내는 정보가 포함되어 있는지 판단하는 단계를 포함하는 콘텐츠 정보 해석 방법.
제9항에 있어서,

상기 신뢰도 결정 단계가,

상기 개인의 의견의 근거가 될 수 있는 정보가 해당 개인의 의견의 개시 단위에 포함되어 있는지 판단하는 단계를 포함하는 콘텐츠 정보 해석 방법.
제1항에 있어서,

상기 대상 특정 단계에서,

적어도 유니폼 리소스 로케이터(URL)와 기업명과 약칭과 업종에 대한 사전을 이용하여, 상기 개인의 의견의 대상을 특정하는 것을 특징으로 하는 콘텐츠 정보 해석 방법.
제12항에 있어서,

수집된 콘텐츠 정보의 URL 및 상기 사전에 등록 완료된 유사한 URL을 이용하여, 기업명에 대응하는 업종에 관한 정보를 상기 사전에 등록하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
제12항에 있어서,

수집된 콘텐츠 정보의 링크원의 문자 정보 및 링크처의 URL을 이용하여, 약칭을 상기 사전에 등록하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
제12항에 있어서,

수집된 콘텐츠 정보의 링크 관계를 해석함으로써 얻어지는 링크 토폴로지의 정보를 이용하여 기업명에 대응하는 업종에 관한 정보를 상기 사전에 등록하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
제12항에 있어서,

콘텐츠 정보로부터 특징어를 추출하고, 각 업종에 대한 특징어를 구비한 제2사전을 이용하여 업종을 특정하여, 기업명에 대응하는 업종에 관한 정보를 상기 사전에 등록하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
제5항에 있어서,

상기 카테고리 특정 단계에서,

각 업종에 대응하는 특징어에 대한 제2 사전을 이용하여, 상기 개인의 의견의 대상인 기업의 업종을 특정하는 것을 특징으로 하는 콘텐츠 정보 해석 방법.
제16항에 있어서,

업종이 특정된 콘텐츠 정보로부터 특징어를 추출하고, 해당 특징어를 상기 업종에 대응하여 상기 제2 사전에 추가하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
제16항에 있어서,

콘텐츠 정보에 대한 검색 로그에 있어서, 업종이 이미 지정되어 있는 상태에서의 검색의 키워드를 식별하고, 해당 키워드를 상기 제2 사전에 특징어로서 등록하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
제12항에 있어서,

콘텐츠 정보에 대한 검색 로그에 포함되는, 검색자의 바로가기 URL이 상기사전에 포함되어 있는지 판단하는 단계와,

포함되어 있다고 판단된 경우에는 상기 검색 로그에 포함되는 검색 키워드를 상기 사전에 추가하는 단계

를 더 포함하는 콘텐츠 정보 해석 방법.
제1항에 있어서,

각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 해석하고, 액세스 수 및 검색 키워드의 종류 수에 기초하여 개인 홈페이지를 계층 하에 포함하는 사이트를 특정하는 단계와,

특정된 상기 사이트의 계층 하에 포함되는 개인 홈페이지를 상기 개인의 의견의 개시 단위로서 추출하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
제1항에 있어서,

각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 해석하고, 액세스 수 및 검색 키워드의 종류 수에 기초하여 개인 또는 소규모 조직의 사이트를 상기 개인의 의견의 개시 단위로서 추출하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
제12항에 있어서,

각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의검색 로그를 해석하고, 액세스 수 및 검색 키워드의 종류 수에 기초하여 개인 홈페이지를 계층 하에 포함하는 사이트를 특정하는 단계와,

특정된 상기 사이트에 대한 정보를 상기 사전에 등록하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
제12항에 있어서,

각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 해석하고, 액세스 수 및 검색 키워드의 종류 수에 기초하여 기업 사이트를 특정하는 단계와,

특정된 상기 기업 사이트에 대한 정보를 상기 사전에 등록하는 단계를 더 포함하는 콘텐츠 정보 해석 방법.
수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위를 추출하는 단계와,

상기 개인의 의견의 대상을 특정하는 단계와,

상기 개인의 의견의 개시 단위의 신뢰도를 결정하는 단계

를 포함하는 콘텐츠 정보 해석 방법.
각각 검색 키워드 및 바로가기 URL을 포함하는 콘텐츠 정보에 대한 복수의 검색 로그를 취득하는 취득 단계와,

소정의 규칙에 따라 각 바로가기 URL에 대하여 액세스 수 및 검색 키워드의종류 수를 카운트하는 카운트 단계와,

URL의 구조에 기초하여 특정되는 각 사이트에 대하여, 해당 사이트의 계층 하에 포함되는 바로가기 URL의 액세스 수 및 검색 키워드의 종류 수를 집계하는 단계와,

상기 사이트에 대하여 집계된 액세스 수 및 검색 키워드의 종류 수에 기초하여, 해당 사이트의 종별을 판정하는 단계

를 포함하는 콘텐츠 정보 해석 방법.
제26항에 있어서,

상기 취득 단계가,

프록시 서버에 축적되는 로그 데이터로부터, 검색 키워드 및 바로가기 URL을 포함하는 복수의 로그 레코드를 생성하는 단계를 포함하는 콘텐츠 정보 해석 방법.
제26항에 있어서,

상기 카운트 단계가,

검색 키워드를 정규화하는 단계와,

소정 시간 내에 동일 검색 키워드에 관계되는 복수의 검색 로그가 포함되는 경우에는 최종 검색 로그 이외의 검색 로그를 삭제하는 단계를 포함하는 콘텐츠 정보 해석 방법.
수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위를 추출하는 추출 수단과,

상기 개인의 의견의 대상을 특정하는 대상 특정 수단과,

상기 개인의 의견의 개시 내용을 해석함으로써 상기 대상에 대한 상기 개인의 평가를 특정하는 평가 특정 수단을 구비하는 콘텐츠 정보 해석 시스템.
제29항에 있어서,

상기 추출 수단이,

개인의 의견이 포함되는 콘텐츠 정보의 단위를 특정하는 특정 수단과,

특정된 상기 콘텐츠 정보의 단위로부터 상기 개인의 의견의 개시 단위를 추출하는 수단을 구비하는 콘텐츠 정보 해석 시스템.
제30항에 있어서,

상기 특정 수단이,

상기 콘텐츠 정보의 단위별 피참조도가 높은 순서대로 실시하는 것을 특징으로 하는 콘텐츠 정보 해석 시스템.
제29항에 있어서,

상기 추출 수단이,

상기 개인의 의견의 참조원을 찾아감으로써 상기 개인의 의견의 개시 단위의그룹을 검출하는 것을 특징으로 하는 콘텐츠 정보 해석 시스템.
제29항에 있어서,

상기 추출 수단이,

상기 개인의 의견의 대상에 대한 카테고리를 특정하는 카테고리 특정 수단을 구비하는 것을 특징으로 하는 콘텐츠 정보 해석 시스템.
제33항에 있어서,

상기 평가 특정 수단이,

상기 개인의 의견의 대상에 대한 카테고리에 기초하여 상기 개인의 의견의 개시 내용을 해석함으로써, 상기 대상에 대한 상기 개인의 평가를 특정하는 것을 특징으로 하는 콘텐츠 정보 해석 시스템.
제29항에 있어서,

상기 개인의 의견의 근거가 될 수 있는 정보가 해당 개인의 의견의 개시 단위에 포함되는지 판단하여, 포함되는 경우에는 해당 근거가 될 수 있는 정보를 특정하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
제29항에 있어서,

상기 개인의 의견의 개시 내용에 대한 장르를 특정하는 수단을 더 구비하는콘텐츠 정보 해석 시스템.
제29항에 있어서,

상기 개인의 의견의 개시 단위의 신뢰도를 결정하는 신뢰도 결정 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
제37항에 있어서,

상기 신뢰도 결정 수단이,

상기 개인의 의견의 개시 단위에 상기 개인의 신원을 나타내는 정보가 포함되어 있는지 판단하는 것을 특징으로 하는 콘텐츠 정보 해석 시스템.
제37항에 있어서,

상기 신뢰도 결정 수단이,

상기 개인의 의견의 근거가 될 수 있는 정보가 해당 개인의 의견의 개시 단위에 포함되어 있는지 판단하는 것을 특징으로 하는 콘텐츠 정보 해석 시스템.
제29항에 있어서,

상기 대상 특정 수단이,

적어도 유니폼 리소스 로케터(URL)와 기업명과 약칭과 업종에 대한 사전을 이용하여, 상기 개인의 의견의 대상을 특정하는 것을 특징으로 하는 콘텐츠 정보해석 시스템.
제40항에 있어서,

수집된 콘텐츠 정보의 URL 및 상기 사전에 등록 완료된 유사한 URL을 이용하여, 상기 사전에 기업명에 대응하는 업종에 관한 정보를 등록하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
제40항에 있어서,

수집된 콘텐츠 정보의 링크원의 문자 정보 및 링크처의 URL을 이용하여, 약칭을 상기 사전에 등록하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
제40항에 있어서,

수집된 콘텐츠 정보의 링크 관계를 해석함으로써 얻어지는 링크 토폴로지의 정보를 이용하여 기업명에 대응하는 업종에 관한 정보를 상기 사전에 등록하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
제40항에 있어서,

콘텐츠 정보로부터 특징어를 추출하고, 각 업종에 대한 특징어를 구비한 제2 사전을 이용하여 업종을 특정하여, 기업명에 대응하는 업종에 관한 정보를 상기 사전에 등록하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
제33항에 있어서,

상기 카테고리 특정 수단이,

각 업종에 대응하는 특징어에 대한 제2 사전을 이용하여, 상기 개인의 의견의 대상인 기업의 업종을 특정하는 것을 특징으로 하는 콘텐츠 정보 해석 시스템.
제44항에 있어서,

업종이 특정된 콘텐츠 정보로부터 특징어를 추출하고, 해당 특징어를 상기 업종에 대응하여 상기 제2 사전에 추가하는 단계를 더 포함하는 콘텐츠 정보 해석 시스템.
제44항에 있어서,

콘텐츠 정보에 대한 검색 로그에 있어서, 업종이 이미 지정되어 있는 상태에서의 검색의 키워드를 식별하고, 해당 키워드를 상기 제2 사전에 특징어로서 등록하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
제40항에 있어서,

콘텐츠 정보에 대한 검색 로그에 포함되는, 검색자의 바로가기 URL이 상기 사전에 포함되어 있는지 판단하는 수단과,

포함되어 있다고 판단된 경우에는 상기 검색 로그에 포함되는 검색 키워드를상기 사전에 추가하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
제29항에 있어서,

각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 해석하고, 액세스 수 및 검색 키워의 종류 수에 기초하여 개인 홈페이지를 계층 하에 포함하는 사이트를 특정하는 수단과,

특정된 상기 사이트의 계층 하에 포함되는 개인 홈페이지의 개시 단위로서 추출하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
제29항에 있어서,

각각 검색 키워드 및 바로가기 URL을 포함하는 콘텐츠 정보에 대한 복수의 검색 로그를 해석하고, 액세스 수 및 검색 키워드의 종류 수에 기초하여 개인 또는 소규모 조직의 사이트를 상기 개인의 의견의 개시 단위로서 추출하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
제40항에 있어서,

각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 해석하고, 액세스 수 및 검색 키워드의 종류 수에 기초하여 개인 홈페이지를 계층 하에 포함하는 사이트를 특정하는 수단과,

특정된 상기 사이트에 대한 정보를 상기 사전에 등록하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
제40항에 있어서,

각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 해석하고, 액세스 수 및 검색 키워드의 종류 수에 기초하여 기업 사이트를 특정하는 수단과,

특정된 상기 기업 사이트에 대한 정보를 상기 사전에 등록하는 수단을 더 구비하는 콘텐츠 정보 해석 시스템.
수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위를 추출하는 수단과,

상기 개인의 의견의 대상을 특정하는 수단과,

상기 개인의 의견의 개시 단위의 신뢰도를 결정하는 수단을 구비하는 콘텐츠 정보 해석 시스템.
각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 취득하는 취득 수단과,

소정의 규칙에 따라 각 바로가기 URL에 대하여 액세스 수 및 검색 키워드의 종류 수를 카운트하는 카운트 수단과,

URL의 구조에 기초하여 특정되는 각 사이트에 대하여, 해당 사이트의 계층 하에 포함되는 바로가기 URL의 액세스 수 및 검색 키워드의 종류 수를 집계하는 수단과,

상기 사이트에 대하여 집계된 액세스 수 및 검색 키워드의 종류 수에 기초하여, 해당 사이트의 종별을 판정하는 수단

을 구비하는 콘텐츠 정보 해석 시스템.
제54항에 있어서,

상기 취득 수단이,

프록시 서버에 축적되는 로그 데이터로부터, 검색 키워드 및 바로가기 URL을 포함하는 복수의 로그 레코드를 생성하는 수단을 구비하는 콘텐츠 정보 해석 시스템.
제54항에 있어서,

상기 카운트 수단이,

검색 키워드를 정규화하는 수단과,

소정 시간 내에 동일 검색 키워드에 관계되는 복수의 검색 로그가 포함되는 경우에는 최종 검색 로그 이외의 검색 로그를 삭제하는 수단을 구비하는 콘텐츠 정보 해석 시스템.
콘텐츠 정보 해석 처리를 컴퓨터에 실시시키기 위한 프로그램을 저장한 기록 매체로서,

컴퓨터에,

수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위를 추출하는 추출 단계와,

상기 개인의 의견의 대상을 특정하는 대상 특정 단계와,

상기 개인의 의견의 개시 내용을 해석함으로써 상기 대상에 대한 상기 개인의 평가를 특정하는 평가 특정 단계

를 실행시키기 위한 프로그램을 저장한 기록 매체.
콘텐츠 정보 해석 처리를 컴퓨터에 실시시키기 위한 프로그램을 저장한 기록 매체로서,

컴퓨터에,

수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위를 추출하는 단계와,

상기 개인의 의견의 대상을 특정하는 단계와,

상기 개인의 의견의 개시 단위의 신뢰도를 결정하는 단계

를 실행시키기 위한 프로그램을 저장한 기록 매체.
콘텐츠 정보 해석 처리를 컴퓨터에 실시시키기 위한 프로그램을 저장한 기록 매체로서,

컴퓨터에,

각각 검색 키워드 및 바로가기 URL을 포함하는 콘텐츠 정보에 대한 복수의검색 로그를 취득하는 취득 단계와,

소정의 규칙에 따라 각 바로가기 URL에 대하여 액세스 수 및 검색 키워드의 종류 수를 카운트하는 카운트 단계와,

URL의 구조에 기초하여 특정되는 각 사이트에 대하여, 해당 사이트의 계층 하에 포함되는 바로가기 URL의 액세스 수 및 검색 키워드의 종류 수를 집계하는 단계와,

상기 사이트에 대하여 집계된 액세스 수 및 검색 키워드의 종류 수에 기초하여, 해당 사이트의 종별을 판정하는 단계

를 실행시키기 위한 프로그램을 저장한 기록 매체.
수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위를 추출하는 단계와,

상기 개인의 의견의 대상을 특정하는 단계와,

상기 개인의 의견의 개시 내용을 해석함으로써 상기 대상에 대한 상기 개인의 평가를 특정하는 단계

를 컴퓨터에 실행시키기 위한 콘텐츠 정보 해석 프로그램.
각각 검색 키워드 및 바로가기 URL을 포함하는, 콘텐츠 정보에 대한 복수의 검색 로그를 취득하는 취득 단계와,

소정의 규칙에 따라 각 바로가기 URL에 대하여 액세스 수 및 검색 키워드의 종류 수를 카운트하는 카운트 단계와,

URL의 구조에 기초하여 특정되는 각 사이트에 대하여, 해당 사이트의 계층 하에 포함되는 바로가기 URL의 액세스 수 및 검색 키워드의 종류 수를 집계하는 단계와,

상기 사이트에 대하여 집계된 액세스 수 및 검색 키워드의 종류 수에 기초하여, 해당 사이트의 종별을 판정하는 단계

를 컴퓨터에 실행시키기 위한 콘텐츠 정보 해석 프로그램.
수집된 콘텐츠 정보 중에서 개인의 의견의 개시 단위를 추출하는 단계와,

상기 개인의 의견의 대상을 특정하는 단계와,

상기 개인의 의견의 개시 단위의 신뢰도를 결정하는 단계

를 컴퓨터에 실행시키기 위한 콘텐츠 정보 해석 프로그램.