KR20130117126A

KR20130117126A - 정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체

Info

Publication number: KR20130117126A
Application number: KR1020120039900A
Authority: KR
Inventors: 박석일
Original assignee: 박석일
Priority date: 2012-04-17
Filing date: 2012-04-17
Publication date: 2013-10-25
Also published as: KR101347123B1; WO2013157712A1

Abstract

본 발명은 정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체에 관한 것으로서, 본 발명의 실시예에 따른 정보검색장치는 검색 실체, 디렉터리, 레코드, 의도(intention) 필드(field)를 포함하는 검색 창의 정보를 사용자 단말장치로 제공하는 인터페이스부, 복수의 검색 범주로 색인되어 분류된 컨텐츠 정보가 기록된 데이터 베이스를 포함하는 저장부, 및 검색 창에서 각 필드별로 검색어가 입력되면, 각 필드별로 입력된 검색어를 이용하여 복수의 검색 범주에 대하여 순차적으로 검색하는 제어부;를 포함하는 것을 특징으로 한다.

Description

정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체{Apparatus and Method for Searching Information, Computer Readable Recording Medium}

본 발명은 정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체에 관한 것으로서, 더 상세하게는 예컨대 정보 이용자의 의도(intention)를 파악하고, 정보 이용자가 입력한 검색어 키워드의 문맥을 파악해 정보 이용자의 의도와 문맥에 조응하는 정보를 제공할 수 있는 정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체에 관한 것이다.

일반적으로 잘 알려져 있는 검색 엔진 기술은 키워드 검색어 기반으로 이루어지고 있으며, 웹 데이터의 단어들을 분석하여 색인 처리하고, 정보 이용자의 키워드 검색어와 일치하는 정보 데이터를 제공하는 방법이다. 여기서 검색 엔진이란 인터넷상에서 자료를 쉽게 찾을 수 있게 도와주는 소프트웨어를 말한다.

그런데 이러한 검색 기법은 특정 웹 데이터를 단어 중심으로 분석하여 그 단어의 빈도 수 등을 중심으로 분석하다 보니 그 웹 페이지의 전체 문맥에서 그 단어의 의미를 파악하지 못하고, 정보 이용자 검색어 분석에서도 검색자의 의도나 검색어들 사이의 전체 문맥을 정확하게 파악하지 못하는 문제가 있다.

이로 인해 종래의 검색 기법은 정보 이용자의 의도나 웹 데이터의 문맥과 무관한 다수의 정보를 제공하게 됨으로써 정보 이용자는 다시 이들 정보들 가운데 자신이 필요한 정보를 재점검해야 하는 번거로움이 있었다.

또한 단어 분석적 키워드 검색엔진에서는 해당 웹 페이지의 모든 단어를 분석하고 저장하여 색인 처리하다 보니 단일 웹 데이터 정보를 반복적으로 저장해야 하고, 이로 인해 무수한 컴퓨터 등의 하드웨어 장비를 조달해야 하거나 데이터 센터를 주기적으로 유지 관리해야 함으로써 그에 따른 비용이 발생하게 되었다.

본 발명의 실시예는 정보 이용자 검색어 분석에서 검색자의 의도나 검색어들 사이의 전체 문맥을 정확히 파악하여 정보를 제공해 줄 수 있는 정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체를 제공함에 그 목적이 있다.

본 발명의 실시예에 따른 정보검색장치는 검색 실체, 디렉터리, 레코드, 의도(intention) 필드(field)를 포함하는 검색 창의 정보를 사용자 단말장치로 제공하는 인터페이스부; 복수의 검색 범주로 색인되어 분류된 컨텐츠 정보가 기록된 데이터 베이스를 포함하는 저장부; 및 상기 검색 창에서 각 필드별로 검색어가 입력되면, 상기 각 필드별로 입력된 검색어를 이용하여 상기 복수의 검색 범주에 대하여 순차적으로 검색하는 제어부;를 포함하는 것을 특징으로 한다.

상기 제어부는, 상기 디렉터리 필드에 입력된 디렉터리 검색어가 속하는 디렉터리 레벨 및 상기 레코드 필드에 입력된 레코드 검색어가 속하는 레코드 레벨을 각각 최상위로 결정하고, 상기 결정된 디렉터리 레벨 및 레코드 레벨을 기준으로 복수의 검색 범주 내에서 상기 검색 실체 필드에 입력된 검색어를 포함하는 컨텐츠를 검색하며, 검색된 컨텐츠를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하고, 상기 검색된 컨텐츠의 범위 내에서, 상기 한정된 디렉터리 레벨 및 레코드 레벨을 이용하여 컨텐츠를 재검색하는 것을 특징으로 한다.

상기 제어부는, 상기 검색된 컨텐츠를 분석하여, 상기 사용자의 의도를 판단하고, 상기 사용자의 의도를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하며, 상기 한정된 디렉터리 레벨 및 상기 레코드 레벨을 이용하여 상기 복수의 검색 범주에 대해서 상기 검색된 컨텐츠를 필터링하는 것을 특징으로 한다.

상기 제어부는, 상기 검색 실체, 디렉터리, 레코드, 의도 필드에 입력된 각 검색어를 이용하여 각 필드의 레벨을 규정하고, 규정된 레벨에 따라 상기 사용자의 의도를 판단하는 것을 특징으로 한다.

상기 제어부는, 상기 검색된 컨텐츠 내에 사용자의 의도에 부합되는 컨텐츠가 포함되어 있으면 컨텐츠 재검색을 중지하고, 상기 검색된 컨텐츠를 포함하는 검색 결과 화면을 상기 사용자 단말장치로 제공하도록 상기 인터페이스부를 제어하는 것을 특징으로 한다.

상기 제어부는, 상기 검색된 컨텐츠가 기 설정된 개수 이내이면 컨텐츠 재검색을 중지하고, 상기 검색된 컨텐츠를 포함하는 검색 결과 화면을 상기 사용자 단말장치로 제공하도록 상기 인터페이스부를 제어하는 것을 특징으로 한다.

상기 복수의 검색 범주는 키워드, 유저, 디렉터리, 레코드, 생산자, 컨테이너, 폭소노미, 네트워크를 포함하는 것을 특징으로 한다.

본 발명의 실시예에 따른 정보검색방법은 검색 실체, 디렉터리, 레코드, 의도(intention) 필드(field)를 포함하는 검색 창의 정보를 제공하는 단계; 상기 검색 창에서 각 필드별로 검색어가 입력되면, 상기 디렉터리 필드에 입력된 디렉터리 검색어가 속하는 디렉터리 레벨 및 상기 레코드 필드에 입력된 레코드 검색어가 속하는 레코드 레벨을 각각 최상위로 결정하는 단계; 상기 결정된 디렉터리 레벨 및 레코드 레벨을 기준으로, 기 설정된 복수의 검색 범주 내에서, 상기 검색 실체 필드에 입력된 검색어를 포함하는 컨텐츠를 순차적으로 검색하는 단계; 및 검색된 컨텐츠를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하고, 상기 검색된 컨텐츠의 범위 내에서, 상기 한정된 디렉터리 레벨 및 레코드 레벨을 이용하여 컨텐츠를 재검색하는 단계;를 포함하는 것을 특징으로 한다.

상기 컨텐츠를 재검색하는 단계는, 상기 검색된 컨텐츠를 분석하여, 상기 사용자의 의도를 판단하는 단계; 상기 사용자의 의도를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하는 단계; 및 상기 한정된 디렉터리 레벨 및 상기 레코드 레벨을 이용하여 상기 복수의 검색 범주에 대해서 상기 검색된 컨텐츠를 필터링하는 단계;를 포함하는 것을 특징으로 한다.

상기 사용자의 의도를 판단하는 단계는, 상기 검색 실체, 디렉터리, 레코드, 의도 필드에 입력된 각 검색어를 이용하여 각 필드의 레벨을 규정하고, 규정된 레벨에 따라 상기 사용자의 의도를 판단하는 것을 특징으로 한다.

상기 검색된 컨텐츠 내에 사용자의 의도에 부합되는 컨텐츠가 포함되어 있으면 컨텐츠 재검색을 중지하고, 상기 검색된 컨텐츠를 포함하는 검색 결과 화면을 제공하는 단계;를 더 포함하는 것을 특징으로 한다.

상기 검색된 컨텐츠가 기 설정된 개수 이내이면 컨텐츠 재검색을 중지하고, 상기 검색된 컨텐츠를 포함하는 검색 결과 화면을 제공하는 단계;를 더 포함하는 것을 특징으로 한다.

또한 본 발명의 실시예에 따른 컴퓨터 판독가능 기록매체는 정보검색방법을 실행하기 위한 프로그램이 저장된 컴퓨터 판독가능 기록 매체에 있어서, 상기 정보검색방법은, 검색 실체, 디렉터리, 레코드, 의도(intention) 필드(field)를 포함하는 검색 창의 정보를 제공하는 단계; 상기 검색 창에서 각 필드별로 검색어가 입력되면, 상기 디렉터리 필드에 입력된 디렉터리 검색어가 속하는 디렉터리 레벨 및 상기 레코드 필드에 입력된 레코드 검색어가 속하는 레코드 레벨을 각각 최상위로 결정하는 단계; 상기 결정된 디렉터리 레벨 및 레코드 레벨을 기준으로 복수의 검색 범주 내에서 상기 검색 실체 필드에 입력된 검색어를 포함하는 컨텐츠를 검색하는 단계; 및 검색된 컨텐츠를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하고, 상기 검색된 컨텐츠의 범위 내에서, 상기 한정된 디렉터리 레벨 및 레코드 레벨을 이용하여 컨텐츠를 재검색하는 단계;를 포함하는 것을 특징으로 한다.

도 1은 본 발명의 실시예에 따른 정보검색시스템의 구조를 나타내는 도면,
도 2는 도 1의 정보검색장치의 기능을 간략하게 나타낸 흐름도,
도 3은 웹 세계 주체와 웹 세계 범주를 도식화하여 나타낸 도면,
도 4는 범주 배열과 상호 의존성을 도식화하여 나타낸 도면,
도 5는 검색엔진 검색 단계별 범주 배열을 나타내는 도면,
도 6은 검색 창에서 검색어 필드를 구분하여 나타낸 도면,
도 7은 도 1의 정보검색장치의 구조를 나타내는 블록다이어그램,
도 8은 메인 페이지의 HTML 소스 코드를 예시하여 나타낸 도면,
도 9는 도 7의 색인 처리부의 색인 정렬을 설명하기 위한 도면,
도 10은 본 발명의 실시예에 따른 정보검색방법을 나타내는 흐름도이다.

이하, 도면을 참조하여 본 발명의 실시예에 대하여 상세히 설명한다.

도 1은 본 발명의 실시예에 따른 정보검색시스템의 구조를 나타내는 도면이고, 도 2는 도 1의 정보검색장치의 기능을 간략하게 나타낸 흐름도이며, 도 3은 웹 세계 주체와 웹 세계 범주를 도식화하여 나타낸 도면이다. 또한 도 4는 범주 배열과 상호 의존성을 도식화하여 나타낸 도면이고, 도 5는 검색엔진 검색 단계별 범주 배열을 나타내는 도면이며, 도 6은 검색 창에서 검색어 필드를 구분하여 나타낸 도면이다.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 정보검색시스템은 단말장치(100), 통신망(110), 웹서버(120_1, 120_2)) 및 정보검색장치(130)의 일부 또는 전부를 포함한다. 발명의 충분한 이해를 돕기 위하여 전부 포함하는 것으로 설명한다.

여기서 사용자 단말장치(100)는 다양한 유무선 환경에 적용할 수 있으며 단말기 형태별로 구분되는 PDA(Personal Digital Assistant), 셀룰러폰, 스마트폰 등과, 통신 방식별로 구분되는 PCS(Personal Communication Service)폰, GSM(Global System for Mobile)폰, W-CDMA(Wideband CDMA)폰, CDMA-2000폰, MBS(Mobile Broadband System)폰 등을 모두 포함한다. 여기서 MBS폰은 현재 논의되고 있는 차세대 시스템에서 사용될 단말기를 나타낸다. 더 나아가, 본 발명의 실시예에 따른 사용자 단말장치(100)는 데스크탑 컴퓨터, 랩탑 컴퓨터 등을 더 포함할 수 있다.

사용자 단말장치(100)는 무선통신 모듈, 무선랜 모듈을 포함하며, GPS 모듈을 더 포함할 수 있다. 무선통신 모듈을 구비함에 따라 사용자 단말장치(100)는 유무선통신망에 접속하여 상대방과 통상적인 음성 통화 및 데이터 통신을 수행한다. 또한 사용자 단말장치(100)는 무선랜 모듈을 구비함에 따라 주변에 인식되는 액세스포인트(AP)를 경유해 통신망(110)에 접속하여 각종 웹 페이지 데이터를 수신할 수 있다. 더 나아가, 사용자 단말장치(100)는 GPS 모듈의 구비 여부에 따라 GPS 단말기 및 비GPS 단말기로 구분될 수 있으며, GPS 모듈을 구비하는 경우 GPS 위성을 통해 제공되는 데이터를 수신한다.

사용자 단말장치(100)는 인터넷 접속 프로토콜인 무선 애플리케이션(WAP: Wireless Application Protocol), HTTP 프로토콜을 사용하는 HTML에 기반한 MIE(Microsoft Internet Explorer), 핸드헬드 디바이스 트랜스포트 프로토콜(HDPT: Handheld Device Transport Protocol), NTT DoKoMo사의 i-Mode 또는 특정 통신사의 무선 인터넷 접속용 브라우저를 이용해 통신망(110)을 경유하여 인터넷에 접속한다. 사용자 단말장치(100)에서 사용하는 인터넷 접속 프로토콜 중에서, MIE는 HTML을 약간 변형시켜 축약하는 m-HTML을 사용하고, i-Mode의 경우에는 HTML의 서브세트인 콤팩트 HTML(c-HTML)이라는 언어를 사용한다.

최근의 스마트폰과 같은 사용자 단말장치(100)는 더욱 빠른 무선 인터넷을 제공하기 위하여 아이폰용인 오페라미니(Opera Mini)와 같은 특정 통신사의 무선 인터넷 접속용 브라우저를 사용하거나, 이와 연계해 사용자 단말장치(100)에 근거리 통신망인 와이파이 및 와이브로(WiBro) 등도 함께 사용하여 무선 초고속 인터넷을 제공하고 있다.

통신망(110)은 유무선 통신망을 모두 포함한다. 여기서 유선망은 케이블망이나 공중 전화망(PSTN)과 같은 인터넷망을 포함하는 것이고, 무선 통신망은 CDMA, WCDMA, GSM, EPC(Evolved Packet Core), LTE(Long Term Evolution), 와이브로 망 등을 포함하는 의미이다. 따라서 통신망(110)이 유선 통신망인 경우 근거리 통신망을 형성하는 AP는 전화국의 교환국 등에 접속할 수 있지만, 무선 통신망인 경우에는 통신사에서 운용하는 SGSN 또는 GGSN(Gateway GPRS Support Node)에 접속하여 데이터를 처리하거나, BTS(Base Station Transmission), NodeB, e-NodeB 등의 다양한 중계기에 접속하여 데이터를 처리할 수 있다.

웹서버(120_1, 120_2)는 웹상에서 정보를 제공하는 모든 서버를 의미한다. 다시 말해, 네이버(Naver), 구글(Google)이나 야후(Yahoo)와 같이 정보 검색을 전문으로 하는 검색 엔진을 갖는 서버뿐 아니라, 정보 검색을 전문으로 하지 않는 일반 회사나 개인이 운영하고 있는 서버도 모두 포함하는 것이라 할 수 있다. 이때 웹서버(120_1, 120_2)는 일반적인 검색방법으로서 사용자가 키워드, 즉 검색어를 직접 입력하는 검색과 검색엔진이 제시한 몇 가지 항목들 가운데 사용자가 원하는 항목을 선택하는 방식으로 범위를 좁혀가는 카테고리 검색이 가능할 수 있다.

본 발명의 실시예에 따른 정보검색장치(130)는 위의 웹서버(120_1, 120_2) 대비되는 검색방법을 사용할 수 있다. 자연어 처리 방법론으로서 객체 지향 프로그래밍 이론의 원리에 기반하여 생성한 데이터를 저장하는 DB(130a)를 포함하며, 정보 검색을 위한 웹 사이트를 제공할 수 있다. 사용자 단말장치(100)가 정보검색장치(130)에 접속하면, 정보검색장치(130)는 사용자 단말장치(100)로부터 사용자가 복수의 필드에 입력한 복수의 검색 키워드를 수신하여 검색 키워드를 이용해 DB(130a)에서 사용자의 의도에 부합하는 검색을 수행할 수 있다. 그리고 검색 결과로서 사용자의 의도에 부합하는 검색 결과를 사용자 단말장치(100)에 제공한다.

이의 기능을 수행하기 위하여 구체적으로 본 발명의 실시예에 따른 정보검색장치(130)는 정보 데이터(혹은 웹 데이터)를 웹 사이트에서 수집하여 색인 처리하는 과정, 정보 이용자가 검색창에 입력한 검색어를 수신하는 과정, 검색어를 분석하여 색인으로부터 필요한 정보를 찾아내는 과정 등을 수행할 수 있다. 이때 색인 처리되는 정보는 가령 키워드(K: Keyword), 유저(U: User), 디렉터리(D: Directory), 레코드(R: Record), 생산자(P: Producer), 컨테이너(C: Container), 폭소노미(F: Folksonomy), 연결망(N: Network) 등 8개의 핵심 범주들로 구성되며, 8개의 범주들 중에 검색창에서 정보 이용자가 입력하는 범주는 핵심 키워드(K)를 의미하는 실체(S), 디렉터리(D), 레코드(R), 유저(U) 범주에 속하는 의도(Intention)이며, 검색 엔진은 이들 4개의 범주 분석을 통해 정보 이용자의 의도와 검색어의 문맥을 파악하고, 이에 기반하여 나머지 4개 범주를 여타 다른 서버 정보를 활용하여 최종적으로 정보이용자 검색의 문법과, 정보이용자의 의도를 분석해 내게 된다.

여기서, 웹 데이터는 웹 세계에서 개별 URL을 지니는 웹 정보이고, 정보 이용자는 정보 즉 웹 정보를 이용하는 사람을 의미하며, 검색어 키워드는 정보 검색을 위해 검색창에서 입력하는 검색어로서 검색창은 일정한 문법을 지닌 필드로 영역이 나누어진다. 또한 웹 페이지 디렉터리는 웹 세계에서 정보 분류(taxonnomy)로서 정보의 계통과 종속을 특정 기준으로 나누어 분류하는 것을 나타내고, 웹 페이지 레코드는 해당 웹 페이지의 데이터 구조를 나타내는 것이며, 웹 페이지 생산자는 웹 세계에서 고유의 URL을 가지는 웹 페이지를 생산한 사람 또는 단체를 의미한다. 나아가 컨테이너는 웹 세계에서 웹 페이지가 소속된 웹 사이트를 의미하고, 폭소노미는 웹 세계에서 정보 이용자인 대중들의 무작위적인 웹 활동 결과에서 도출되는 웹 대중에 의해 만들어지는 웹 문법을 의미하며, 연결망은 웹 세계에서 웹 구성 노드들의 상호 연결 구조를 의미한다.

본 발명의 실시예에 따른 정보검색장치(130)는 범주의 상호 규정성을 통해 해당 정보 사물과 정보 이용자 검색어의 의도와 문맥을 분석하게 된다. 예를 들어, 검색어 분석에서 정보 이용자가 검색창에 4개의 범주에 해당하는 검색어를 입력하면, 검색 엔진에 의해 실체는 디렉터리로부터 규정받고 레코드는 의도로부터 규정받는 알고리즘을 구현하여 검색어의 의도와 문맥을 분석할 수 있을 것이다. 가령, 검색창에서, 실체는 '오월의 노래', 디렉터리는 '동안미녀', 레코드는 '장나라'가 입력되었다면, '오월의 노래'를 듣기 원하는데, 오월의 노래 분석은 '오월의 노래'와 디렉터리 '동안미녀'의 규정을 받고, 디렉터리 '동안미녀'는 레코드 '장나라'에 규정을 받는다. 레코드 '장나라'는 의도 '듣기'의 규정을 받는다. 또한 '오월의 노래' 검색어는 역으로 의도 '듣기', 레코드 '장나라', 디렉터리 '동안 미녀'의 순서(혹은 순차)대로 규정을 받아 '오월의 노래'를 규정하는 것이다. 여기서 규정은 범위를 더 한정(혹은 구체화)하여 상호 연계함을 의미할 수 있다.

이와 같이 본 발명에서 각 범주는 종속 과정 광목계의 최상위층 속성에서부터, 최하위 속성, 즉 심급으로 구성된다. 예를 들어 디렉터리(범주)에서 '동안미녀'는 [문화 ∥ 연예 ∥ 방송 ∥ 드라마 ∥ 한국 드라마 ∥ KBS2 ∥ 2011년 드라마 ∥ 월화드라마]라는 디렉터리 체계 순서를 가질 수 있다. 그렇기 때문에 본 발명의 실시예에 따른 검색 엔진에서 특정 정보 데이터나 특정 검색 이용자의 검색어의 의도와 문맥 분석을 위한 8개 범주를 분석하는 알고리즘은 이들 8개의 범주들의 하부 속성의 분석을 통해 최종적으로 의도와 문맥의 분석 값을 얻을 때까지 반복 작동하는 필터링의 단계를 거친다. 이런 알고리즘의 반복 필터링은 한 범주는 다른 범주의 값을 자신에 비교함으로써 자신의 값을 더욱 구체화하는 것이다. 이는 앞서 설명한 상호 규정성에 근거하는 것이다.

좀더 구체적으로 살펴보면, 먼저 정보검색장치(130)는 사용자의 의도에 부합하는 검색을 수행하기 위하여 먼저 객체지향 이론과 온톨로지 이론의 이론적 원리에 기초하여 새로운 검색 엔진을 구축한다. 여기서, 온톨로지(Ontology)란 웹 정보와 관련된 주체들이 웹 소통 가운데 웹 세계에 대해 서로 간의 토론을 통하여 합의를 이룬 바를 개념적이고 컴퓨터가 이해할 수 있는 개념의 타입이나 사용상의 제약조건들을 명시적으로 정의한 기술을 의미한다. 즉 검색 활동의 각 주체들의 웹 활동에서 모든 주체들에 공통으로 적용할 수 있는 명시적이면서 컴퓨터, 가령 검색 엔진이 이해할 수 있는 범주들의 논리적 집합을 나타낸다. 이에 따라 본 발명의 실시예에서는 도 2 및 도 3에서와 같이 웹 검색 주체로 웹 데이터와 같은 정보 사물을 중심으로 정보 이용자, 검색 엔진, 정보 생산자 및 정보 소통 결과물 등의 주체를 설정하고 웹 검색 과정에서 이들 주체 간에 합의되고 컴퓨터가 이해할 수 있도록 한다. 또한 객체 지향은 웹 세계의 주체들의 웹 활동을 근본으로 규정하는 범주들을 도출하고, 이들 범주들을 객체지향 이론에 따라 객체화하여 자기 속성과 행위, 그리고 타 범주 객체와 인터페이스를 통해 해당 범주의 변수 값을 도출하고, 이런 제반 범주들의 변수 값의 종합이 해당 웹 데이터의 정체성(Identifier)이라는 변수 값, 즉 그 정보 데이터의 ID가 되도록 하는 것이다.

좀더 구체적으로, 객체 지향은 도 2 내지 도 5에 도시된 바와 같이, 객체 지향 이론에 따라 범주들을 객체로 설정하고, 객체는 속성과 메시지를 지니며 속성을 변수로 표현하고 변수 값을 도출해 내어 해당 객체의 과제인 데이터를 처리한다. 이들 각기 범주 객체는 여타 다른 범주 객체의 값을 참조하여 자신의 변수 값을 도출하고, 그 값을 다른 객체에 상속시켜 준다. 또한 각 객체는 자신의 좀더 세밀한 속성을 지니는 하부 객체를 생성하여 상부 객체를 상속받게 하여 범주를 세분화해 세부 과제 데이터를 처리하게 한다.

본 발명의 실시예에 따른 정보검색장치(130)의 검색 엔진은 검색의 제반 단계에서 해당 웹 페이지에 대해 범주들의 변수 값을 도출하고, 이들 범주들의 변수값을 종합하여 그 단계에서 해당 웹 페이지의 정체성을 추출해 낸다. 이런 종합 단계에서 해당 웹 페이지에 대한 종합 판단은 어느 특정 범주의 변수 값은 자신의 속성에 기반한 변수 값 외에 여타 변수의 범주 값들에 의해 상호(cross) 규정을 받는 것이다. 예를 들어, '박주영'이라는 검색어 범주는 디렉터리 범주에서 축구선수에 의해 규정을 받고 축구선수 이외의 박주영은 배제한다. 이런 범주 상호 규정성에 기반한 범주들의 변수 값들을 종합하여 판단한 종합 판단이 이루어지게 된다.

정리하면, 본 발명의 실시예에 따른 정보검색장치(130)는 온톨로지 이론과 객체 지향 이론에 기반한 새로운 유형의 검색 엔진을 구축하기 위하여 기술적 과제를 설정하게 되는데, 그 기술적 과제와 해결책은 다음과 같다. 본 발명의 실시예는 1) 검색 세계에서 웹 주체들의 웹 소통에는 각 주체들의 웹 활동을 공통으로 규정하는 일정한 범주들이 있다는 근거하에 이들 범주에 웹 소통을 위한 일련의 문법을 부여하고, 이들 문법을 가령 컴퓨터라는 검색 엔진이 이해할 수 있는 규칙을 만든다. 2) 웹 세계 소통 과정을 존립시키는 웹 주체로 정보 웹 데이터, 정보 생산자, 정보 이용자, 검색 엔진 플랫폼, 정보 소통 무작위 법칙인 정보 연결망 및 그 외의 주체들을 설정한다. 3) 웹 세계에서 웹 소통 주체들의 웹 활동에 공통으로 적용되는 범주를 도출하여 여기에 그 범주 문법을 부여하게 된다. 이들 범주들로는 검색 키워드, 정보 이용자, 정보사물 디렉터리, 정보 사물 레코드, 생산자, 해당 웹 사이트, 검색 소통 대중 인기도를 의미하는 폭소노미, 정보 소통 결과물인 정보 연결망 및 그 외의 범주 등이 해당된다. 본 발명의 실시예는 검색 엔진을 위한 제반의 범주들을 설정하여 이들 범주들을 객체로 설정하고, 이들 각 객체에는 그 객체들 고유의 속성(Attribute)과 행위(Behavior)를 부여한다. 또한 이들 개별 객체들은 타 객체들의 변수 값을 참조하여 자신의 변수 값을 구하는 범주 상호 의존성과 규정성에 대해 문법을 부여한다. 이를 통해 해당 웹 데이터의 자기 정체성에 대한 변수 값을 도출한다. 4) 웹 크롤링 과정, 색인 과정, 정보이용자의 검색어 키워드 입력 과정, 이들 키워드 분석을 통해 해당 웹 정보를 검색해 정보 이용자에게 제공하는 검색 서버 과정 등은 위의 범주 문법에 기반하여 자기 정체성이라는 변수 값을 도출한다. 여기서 검색이라 함은 각 웹 주체들의 이런 자기 정체성의 변수 값의 일치성을 찾는 작업이 된다. 즉 정보 사물의 문맥 및 의도와 정보 이용자 키워드의 문맥 및 의도의 일치점을 연결하는 검색 알고리즘 기법이 될 수 있는 것이다.

상기와 같이 본 발명의 실시예에 따른 정보검색장치(130)는 웹 세계 주체들의 웹 활동 아래 농축된 일정한 문법성을 찾아 모든 웹 주체들이 공유할 수 있는 범주 문법을 만들고, 이들 범주 함수를 통해 정보 이용자의 의도와 그의 키워드의 문맥을 정보 사물, 즉 웹 페이지와 그 생산자의 의도와 문맥을 맵핑시키는 검색 기법을 수행하게 되는 것이다. 이를 위하여 정보검색장치(130)는 정보 데이터를 색인하는 작업과 정보 이용자의 검색어 문법에서 동일한 범주들을 부여하고, 그 범주 값을 도출한다. 정보 데이터와 정보 검색어의 변수 값 즉 정체성이 일치하는 것들을 맵핑하게 되면 정보 데이터에 내재하는 정보 생산자의 의도와 검색어에 내재하는 의도와 문맥의 파악에서 같은 의도와 문맥을 맵핑하게 되는 것이다.

이의 과정에서 정보검색장치(130)는 사용자 단말장치(100)로부터 가령 요청이 있는 경우, 도 6에서와 같이, 4개의 필드로 구분되는 검색창 또는 검색창에 대한 정보를 제공하고, 사용자가 검색창의 필드별로 입력한 4개 범주에 해당되는 검색어를 수신하여, 수신한 4개 범주의 검색어를 이용해 8개의 범주로 구축된 데이터를 검색하며, 검색 결과를 다시 사용자 단말장치(100)로 제공해 주게 된다.

상기의 구성 결과, 본 발명의 실시예는 정보 이용자의 의도를 정확히 파악하고, 그가 입력한 검색어 키워드의 문맥을 파악해 정보 이용자의 의도와 문맥에 조응하는 정확한 정보를 제공할 수 있다. 또한 정보 이용자의 의도에 일치하는 정보 데이터만 제공할 수 있으므로, 통신망(110) 등에서의 데이터 트래픽을 줄일 수 있을 것이다.

또한 본 발명의 실시예는 데이터 저장을 획기적으로 줄일 수 있다. 기존 검색 엔진의 데이터 센터에서 야기하는 엄청난 전력 절감이라는 효과를 갖는다. 현재 전세계적으로 에너지 과다 소비와 이산화탄소 배출의 주요 산업 단위가 IT 가운데 데이터 센터가 차지하고 있다. 특히 기존의 키워드 검색엔진은 단어 분석을 위해 웹 페이지 본문을 여러 차례 분류하고 세분화하여 재분류하다 보니 하나의 웹 페이지를 수십 번 복사 저장하게 된다. 이런 데이터를 색인 및 저장하고 서비스하다 보니 전기량은 급증하고 데이터량이 급증하는 만큼 컴퓨터 기기를 더 필요로 하여 전기 에너지는 늘어나게 되는데, 본 발명의 실시예에 따르면 정보 자료 저장 관리를 혁신적으로 줄일 수 있고, 검색 엔진뿐 아니라 웹 서비스 산업 업계의 핵심 화두가 되는 탄소 배출량을 혁신적으로 줄일 수 있을 것이다.

도 7은 도 1의 정보검색장치의 구조를 나타내는 블록다이어그램이고, 도 8은 메인 페이지의 HTML 소스 코드를 예시하여 나타낸 도면이며, 도 9는 도 7의 색인 처리부의 색인 정렬을 설명하기 위한 도면이다.

도 7을 도 1과 함께 참조하면, 본 발명의 실시예에 따른 정보검색장치(130)는 인터페이스부(700), 제어부(710), 저장부(720), 색인 처리부(730) 및 검색 엔진부(740)의 일부 또는 전부를 포함할 수 있다. 여기서 색인 처리부(730)는 검색 엔진부(740)에 포함될 수 있고, 또 검색 엔진부(740)의 역할은 제어부(710)가 수행할 수도 있다. 설명의 충분한 이해를 돕기 위해 전부 포함하는 것으로 설명한다.

여기서, 인터페이스부(700)는 가령 통신모듈을 포함할 수 있다. 가령 통신모듈을 통해 인터페이스부(700)는 검색 실체, 디렉터리, 레코드, 의도 필드를 포함하는 검색 창 또는 그 정보를 사용자 단말장치(100)의 요청시 제어부(710)의 제어 하에 제공할 수 있다. 이의 과정에서 인터페이스부(700)는 정보 변환 등의 과정을 추가로 수행할 수 있을 것이다.

제어부(710)는 정보검색장치(130) 내의 인터페이스부(700), 저장부(720), 색인 처리부(730) 및 검색 엔진부(740)의 전반적인 제어를 담당한다. 예를 들어, 제어부(710)는 검색 엔진부(740)에 의해 구현된 검색 창에 대한 정보를 인터페이스부(700)를 통해 제공하도록 제어하고, 처리된 정보는 저장부(720)에 일시적으로 저장하거나, 색인 처리부(730)에서 처리되는 구축 관련 정보는 도 1의 DB(130a)에 저장할 수 있을 것이다.

저장부(720)는 도 1의 DB(130a)를 포함할 수 있다. 그러나 DB(130a)와 별개로 제어부(710)에 의해 처리되는 정보를 일시 저장하는 RAM와 같은 메모리를 의미할 수도 있다. 예를 들어, 본 발명의 실시예에 따라 색인 처리부(730)를 통해 처리되는 데이터는 도 1의 DB(130a)에 구축될 수 있을 것이다. 이의 경우라면 메모리로서의 저장부(720)는 제어부(710)의 제어 하에 처리되는 정보를 일시 저장하는 역할을 수행할 수 있다. 만약 정보검색장치(130)가 별도의 DB(130a)를 구비하지 않는 경우에는 저장부(720)가 DB(130a)의 역할을 함께 수행할 수 있다. 또한 저장부(720)는, DB(130a)도 마찬가지지만, 본 발명의 실시예에 따라 색인 처리부(730)와의 연계 하에 가령 8개의 핵심 범주로 분류되는 데이터를 상호 규정성에 기반하여 저장(혹은 구축)한다. 여기서, 핵심 범주로는 키워드(K), 유저(U), 디렉터리(D), 레코드(R), 생산자(P), 컨테이터(C), 폭소노미(F) 및 연결망(N)이 속한다. 이와 같은 범주에 따라 상호 규정성에 기반하여 저장부(720)에 구축된 데이터는 검색 엔진부(740)가 가동될 때 제어부(710)의 제어 하에 검색된 결과로서 제공된다.

색인 처리부(730)는 본 발명의 실시예에 따른 검색 범주들에 기반한 객체 지향 문법을 형성하여 데이터를 구축하는 과정을 수행할 수 있는데, 이를 위하여 별도의 알고리즘을 구현할 수 있을 것이다. 예컨대, 데이터 구축을 위하여 색인 처리부(730)는 정보 데이터의 수집 과정인 크롤링(crawling)을 수행하고, 수집된 데이터를 분류하는 색인(index) 과정을 수행하여 분류된 정보 데이터는 저장부(720) 또는 도 1의 DB(130a)에 저장하는 과정을 수행할 수 있다.

여기서 크롤링은 정보 데이터의 색인 처리를 위해서 필요한 정보들을 기계적으로 특정 웹 사이트나 정보 저장 서버를 방문하여 웹 정보들을 얻는 과정이다. 본 발명의 실시예에 따라 웹 페이지 정보 수집은 웹 크롤러를 통해 특정 웹 사이트의 특정 웹 페이지 정보 수집에 그치는 것이 아니라 웹 세계 주체들의 정보 소통 관계에 내재하는 제반 범주를 추출해 낼 수 있는 웹 정보를 수집하는 것이다. 예컨대, 정보검색장치(130)는 URL 서버의 지시 체계 아래서 웹 크롤러가 정보를 수집해 나가는데, URL 서버는 이들 범주들을 도출해 낼 수 있는 웹 정보를 수집할 것을 웹 크롤러에게 해당 개별 과제를 지시하며, 수집된 그 정보로부터 범주에 기반한 정보 분석은 색인 과정의 과제가 된다. 웹 크롤링에서 정보 수집의 대상은 해당 웹 데이터 본문, 해당 웹 데이터 HTML 소스 코드, 웹 데이터 관련 정보 생산자 정보, 웹 데이터가 담긴 메인 웹 사이트 HTML 소스코드 정보 등이 될 수 있다.

여기서, 웹 정보의 소스 코드는 도 8에서와 같이, 해당 웹 정보를 인터넷을 통해 컴퓨터 화면에 보이도록 하는 HTML 언어로서 인터넷 화면 "보기" 메뉴의 "원본"을 클릭하면 나오는 화면을 의미한다. 해당 웹 정보의 주체 정보 생산자, URL 주소, 화면 배치, 링크 정보 등을 담는 해당 웹 페이지에 대한 구조적 정보를 담는 기능을 지닌다. 정보 생산자 정보는 앞서 언급한 웹 소스 코드에서 찾을 수 있고, 웹 사이트 정보는 "그 웹 데이터가 담긴 웹 사이트의 메인 웹사이트 HTML 소스 코드"를 의미한다.

또한 인덱서는 웹 자료 저장소에 보관된 웹 자료를 가져와 이 자료의 데이터 구조 분석을 통해 색인 처리한다. 여기서, 데이터 구조 분석이란 해당 웹 데이터에 내재하는 범주를 추출하기 위하여 HTML 소스 정보 분석 작업과 해당 웹 데이터 본문 텍스트의 태그 추출 작업을 의미한다. 분석 작업이란 도 8에서와 같은 웹 데이터의 HTML 소스코드 안에 도메인 주소나 로컬 지역, 언어, URL, 웹 데이터 분량 등의 정보가 포함되어 있으므로 웹 크롤러가 수집해 온 해당 HTML 소스 코드를 분석하여 원하는 정보를 얻는 과정이다. 이와 같은 작업을 통해 범주 변수 값을 기록한다. 인덱스 생성을 위한 정보 분류 과정은 다음과 같다. a) 웹 데이터 HTML 소스 자료의 분석을 통하여 웹 데이터 소속 도메인, 웹 데이터 로컬 지역(IP 분석), 웹 데이터 언어, 웹 데이터 URL, 웹 데이터 분량, 웹 데이터 생산자, 태그(키워드), 문자 인코딩, 링크, 부속 콘텐츠, 상위 콘텐츠, 부속 이미지/동영상 정보를 분석하여 이를 인덱서의 웹 데이터 소스 정보 필드에 입력한다. b) 해당 웹 데이터 소속 웹 사이트의 분석을 통하여 이 웹 사이트 내지 이 웹 데이터가 소속된 웹 사이트의 웹 디렉터리 영역(혹은 디렉터리 범주) 및 웹 페이지 생산자 정보를 분석하여 이를 인덱서의 웹 사이트 및 웹 데이터 생산자 정보 필드에 입력한다. c) 웹 데이터 본문 텍스트의 분석은 기존의 키워드 검색엔진의 웹 데이터 분석과 외형상 유사하게 단어 분석에서 시작한다. 그러나 본 발명의 실시예에서는 해당 웹 데이터에서 그 웹 데이터의 제목의 키워드나 HTML 소스코드의 태그 정보 분석을 통해 핵심 키워드들을 추출하여 이를 웹 데이터 소스 분석 자료의 분석 값을 웹 사이트 분석 자료의 분석 값과 비교하여 이 웹 데이터의 실체와 속성의 문맥을 기계(검색 엔진의 인덱서)가 이해할 수 있는 언어 값으로 치환하여 정확도를 분석한다. 특히 웹 데이터 소스 자료의 제목과 태그 중요도 가중치에 기초하여 해당 웹 데이터의 핵심 키워드를 추출하여 이들 키워드들의 상호 연결망과 이들 키워드와 해당 웹 사이트 분석을 분석한다. 이 핵심 키워드는 검색 이용자가 입력하는 검색어 필드 중 실체(Substance)에 해당한다. d) 이렇게 해당 웹 데이터에서 추출되고 기계가 이해할 수 있는 언어 값을 지닌 해당 핵심 키워드들에 대해 웹 세계에서 이용 빈도 등 폭소노미 값과 해당 핵심 키워드의 링크 등의 연결망 정보를 얻는다. 이런 핵심 단어의 폭소노미 값과 연결망 값에 기초하여 해당 웹 데이터의 폭소노미 값과 연결망 값을 얻는다. 여기서 웹 데이터에 대한 폭소노미는 웹 로그에 의해 수행되고, 정보연결망 분석은 정보연결망 분석기에서 수행할 수 있다. e) a)에서부터 d)까지의 단계에서 얻은 값에 기초하여 필드 인덱스를 생성한다.

필드 인덱스 생성을 설명하기에 앞서, 위에 언급한 바 있는 웹 영역 및 생산자 정보의 분석과 관련해 볼 때, 가령 www.nawoopat.co.kr 사이트에 들어가서 about us 메뉴와 그 HTML 소스코드를 살펴보면 이 사이트가 특허사무소 사이트라는 것을 알게 되며, 정보 생산자의 정보 역시 점검할 수 있다. 이때 분석 결과는 해당 웹 사이트가 특허법률사무소이기에 디렉터리 분류표에 따라 웹 사이트의 디렉터리는 "특허사무소"가 그리고 사이트 내에 특정 웹 데이터의 정보 생산자 이름이 기재된다. 가령, "홍길동" 혹은 "나우특허법률사무소"와 같은 식으로 기재된다. 또한 핵심 키워드 추출방법은 기존의 네이버나 구글과 동일할 수 있다. 웹 페이지 본문에 나오는 단어 분석과 단어 빈도수 혹은 HTML 소스코드의 태그 정보에 기반한다. 나아가 기계가 이해할 수 있는 언어에 대하여 간략히 살펴보면, 디렉터리는 디렉터리 분류 목록으로 구성되고, 분류 목록은 디렉터리 항목과 그 항목의 도서관 청구 번호처럼 기호로 구성된다. 가령 특허법률사무소는 "000001", 변호사사무실은 "000002", 회계사 사무실은 "000003"으로 표시하면 기계는 "000001" 기호로서 이것이 특허법률사무소임을 기계적으로 인식하게 된다. 또한 정확도란 "특허법률사무소"라는 분석자료가 나오면 이 자료 자체를 가지고 컴퓨터 기계는 "특허법률사무소"가 무엇을 의미하는지 판단하지 못하므로, "000001"이라는 디렉터리 분류 목록에 따라 그 의미가 "특허법률사무소"라는 것이 명료해지는 것이다.

또한 핵심 키워드들로부터 폭소노미 값과 연결망 정보를 어떻게 얻을 수 있는지와 관련해 살펴보면, 보통 네이버나 구글 같은 검색 서비스에서는 보다 정확한 정보 서비스를 위해 색인과정에 해당 데이터를 분석하여 세부 영역으로 나눈 정보 저장 서버들이 있다. 가령 검색어나 웹 정보의 데이터의 단어 분석을 위한 사전 서버가 있기도 하고, 특정 검색어와 관련하여 검색어 인기의 인기도 정보 서버가 있다. 또한 가령 네이버에서 '박주영'을 잘못 입력해서 '박지영'이라 입력하면, 네이버 검색엔진은 “박주영을 찾으시니까?”라고 정보 이용자에게 수정 문의를 하기도 하고, 검색창에서 '박주영'을 입력하면 바로 검색창 아래 '박주영 아스날', '박주영 골' 등 박주영 관련 임기 검색어들이 제시된다. 이런 서비스는 해당 검색어와 관련하여 네이버 검색엔진은 '사전 서버', '인기도 서버' 등과 연동해 작동하는 것을 의미한다. 본 발명의 실시예에 따른 검색 엔진은 이러한 다양한 서버들과 연동해 가동될 수 있다. 위에서 이야기한 웹로그는 특정 검색어의 인기도, 즉 폭소노미를 분석하는 서버로서 네이버의 인기도 서버와 같은 것으로 이해될 수 있으며, 정보 연결망은 특정 웹 데이터가 다른 웹 데이터와 링크 관계를 처리하는 서버이다. 본 발명의 실시예에서 핵심 키워드가 추출되면 웹 로그 서버에 문의하여 이 핵심 키워드의 인기도 분석을 문의하고 웹 로그 서버는 이 키워드의 인기도 정보를 검색엔진에 가령 '박주영'이라는 검색어에 대해 '박주영 아스날', '박주영 골'이라는 인기도 검색어 정보를 전달해 주고, 핵심 키워드가 다중의 검색 이용자들이 실제 웹 검색 결과에서 어떤 웹 페이지에 가장 많이 실려 있는지 또는 박주영이라는 검색어가 어떤 다른 검색어와 결합하여 검색되었는지에 대한 정보 연결망 서버에 문의하고 정보 연결망 서버는 이에 대한 정보를 제공해 주게 되는 것이다.

계속해서 도 8을 참조하면, 위에서 인덱스정보 분류에 기반한 인덱스 생성 과정에서 범주 변수 값 생성 과정은 다음과 같다. a) keywordID: 해당 웹 데이터의 복수의 핵심 키워드를 등제한다. b) 해당 웹 데이터 고유값(docID): 해당 웹 페이지의 고유 코드 값으로 해당 웹 페이지 URL을 표현하는 값이다. c) directoryID: 오프라인 도서관의 자료 분류법인 십진법과 유사한 디렉터리 분류 체계로서, 해당 웹 데이터의 분류 체계 ID로 서비스 필드, 프로토콜 분류, 대분류, 소분류 및 소분류 세부 필드로 분류한다. 이 세부 필드에 해당 웹 데이터의 디렉터리 항목의 변수 값을 기입한다. d) recordID: 오프라인 도서관의 문헌자동화 목록형식(MARC)에 해당하는 영역으로서, 해당 웹 데이터의 속성 정보를 담는 ID로서 해당 웹 페이지 제목, 정보 생산자, 해당 웹 사이트 주소, 데이터 유형, 데이터 생성일자 및 생성 이력, 데이터 크기, 데이터 유형의 정보를 담는다. e) producerID: 정보 생산자에 대한 정보 값으로, 해당 웹 페이지의 HTML 소스 정보와 텍스트 분석을 통해 생산자를 도출하고, 이 생산자에 대한 정보 생산자 서버로부터 생산자 중요도의 순위 값을 찾아 정보 생산자에 대한 변수 값을 기입한다. f) containerID: 해당 웹 데이터가 위치하는 웹 사이트에 대한 정보 값으로, 해당 웹 데이터의 성격과 해당 웹 사이트 성격에 대한 연관성 평가 작업과 웹 사이트 서버로부터 이 웹 사이트의 중요도 수치 값을 종합하여 웹 사이트에 대한 변수 값을 기입한다. g) folksonomyID: 해당 웹 데이터와 태그의 인기도 정보에 대한 변수 값 처리 영역으로 본 발명의 검색엔진의 웹 로그 및 공공 웹 로그를 통해 해당 웹 데이터의 폭소노미 변수 값을 기입한다. h) networkID: 해당 웹 데이터의 정보 연결망 자료를 담는 ID로서, 해당 웹 데이터의 핵심 키워드에 기반해 이 웹 데이터가 다른 웹 데이터와 연결 내용을 담는다. 연결망 서버는 해당 웹 페이지를 중심으로 8개의 범주를 기준으로 하여 연결된 타 정보와의 종속, 파생, 연관성, 그룹성을 제공해 준다.

좀더 살펴보면, 위에서 핵심 키워드 추출과정은 인덱서의 정보 분류과정에서 해당 웹 데이터의 제목이나 그 웹 데이터의 HTML 소스코드의 "태그" 정보로부터 추출한다. 웹 데이터의 고유값이란 웹 사이트 분석에서 디렉터리 분석에서 디렉터리 분류 목록에서 기계가 이해할 수 있는 기호 처리를 의미한다. 웹 데이터의 분류 고유값은 이러한 기호 처리로 진행된다. 또한 웹 페이지로부터의 디렉터리 분류는 앞서 언급한 대로 가령 특허법률사무소는 "000001" 등으로 표시하면, 기계는 "000001" 기호로서 이것이 "특허법률사무소"라는 것을 기계적으로 인식하는 것을 의미한다. 또한 생산자 정보와 관련해 볼 때, 웹 사이트 메뉴의 보기 메뉴에서 "원문"이 HTML 소스 코드이므로, 정보 생산자가 포함하는 것이 HTML 일반 규칙이나, 경우에 따라 가령 조선일보의 경우 기자 이름이 정보 생산자가 되고, 어떤 경우는 조선일보 자체가 정보 생산자로 표기될 수 있다. 나아가 텍스트의 분석은 텍스트 내용을 분석하는 것으로, 키워드로서 "태그"가 본문에 실려 있는지, 텍스트 본문에 다른 웹 데이터를 연결하는 링크 부분이 있는지 등을 분석하는 것을 의미한다. 웹 데이터의 성격과 웹 사이트에 대한 연관성 평가 작업과 관련해 볼 때, 웹 데이터의 자체 분석만으로는 웹 데이터 정확도가 떨어질 수 있으므로 웹 데이터가 등재된 웹 사이트를 분석하는 것이다. 가령 나우특허법률사무소의 웹 사이트 내의 특정 웹 데이터를 분석함에 있어서 www.nawoopat.co.kr의 about us를 분석하여 사이트가 특허법률사무소라는 디렉터리에 속하는 것을 분석하고, 특허법률사무소라는 디렉터리에 기반하여 해당 웹 데이터를 분석하여 해당 웹 데이터 분석도의 정확도를 높이게 된다. 또한 컨테이너 값이란 앞서 언급한 대로, 수치 및 기호로 처리된다. 가령 '특허법률사무소'의 경우 "000001"이라는 고유값을 지정한다. 폭소노미 값은 해당 검색어나 키워드 혹은 해당 웹 데이터와 관련해 검색엔진은 웹 로그 서버나 정보 연결망 서버에게 해당 정보의 인기도나 정보 연결망 정보를 요청하고 이들 서버가 해당 정보를 제공해 준다. 웹 데이터와 다른 웹 데이터와의 연결이란 링크를 의미한다. 어느 한 웹 페이지 내에서 특정 키워드 등을 클릭하면 다른 웹 페이지로 넘어가게 되는 이런 링크를 정보 연결망이라 한다. 연결망 정보란 인터넷에서 정보 연결 즉 링크 분석을 수행하는 분석 기계가 있는데, 한국에서 사용되는 Netminer가 사용될 수 있으며, 검색엔진 회사들 중 사내 독자적인 정보 연결망 서버를 가지고 있는데, 이들 정보 연결망 분석 서버를 통해 특정 키워드나 웹 데이터의 정보 연결망 정보를 분석할 수 있다. 예를 들어, www.seoul.com/new/football/asnal/jypa가/001 이라는 URL을 가진 웹 데이터로서 온라인 신문 기사 "박주영 2개월만 데뷔골 작열"이라는 텍스트 내에서 이 기사가 다른 기사를 링크한 "프리미어", "아르센 벵거", "볼튼"이 가지는 URL 주소가 바로 연결망 정보가 되는 것이다.

상술한 바와 같이 정보 데이터가 구축되고 나면, 정보검색장치(130)는 검색 엔진부(740)를 구동시켜 사용자 단말장치(100)에 표시된 복수의 필드를 갖는 검색창을 통해 제공된 검색어들을 이용하여, DB(130a)에 색인화하여 저장된 데이터와 매칭되는 데이터를 검색해 사용자에게 제공해 주게 된다. 이때, 검색 엔진부(740)는 범주의 상호 규정성을 통해 해당 정보 사물과 정보 이용자 검색어의 의도와 문맥을 분석한다. 예를 들어, 검색어 분석에서 정보 이용자가 검색창에 4개의 범주, 즉 실체(S), 디렉터리(D), 레코드(R), 의도(I)에 해당되는 검색어를 입력하면, 본 발명의 실시예에 따른 검색엔진은 실체를 디렉터리로부터 규정받고, 디렉터리는 레코드로부터 규정받으며, 레코드는 의도로부터 규정받는 알고리즘을 구현하여 검색어의 의도와 문맥을 분석한다.

검색 엔진부(740)의 역할은 정보 이용자와의 통신 부분, 즉 검색창을 제공하는 인터페이스 기능은 차치하고서라도, 검색어 분석 부분, 정보 검색자 UOI 분석, 검색어 키워드 분석, 인덱서로부터 해당 정보를 찾아내는 부분, 이 정보를 편집하여 정보 이용자에게 출력하는 부분으로 나누어질 수 있다. 인덱서가 정보 사물, 즉 웹 데이터 중심으로 된다면 검색 엔진부(740)는 정보 이용자의 검색어를 인덱서 색인 편제로 정렬하여 해당 정보를 매칭시키는 과제를 수행할 수 있을 것이다.

구체적으로 살펴보면, 사용자 인터페이스는 검색창 부분에 해당된다. 이 검색창은 다수로 분리된 필드를 갖는다. 검색창의 필드는 정보 이용자가 원하는 핵심 키워드 부분으로 실체(substance) 필드, 정보 이용자가 원하는 정보의 디렉터리, 그리고 정보의 레코드 필드, 마지막으로 정보이용자의 의도를 담는 메시지 필드 등으로 구성되며, 정보 서비스에 따라 이들 필드 편제는 달라질 수 있다. 정보 이용자는 4개 필드에 자신의 검색어 키워드를 입력한다. 이들 개별 필드의 검색어는 여타 필드들의 검색어 성격을 규정하는 상호 규정성을 지닌다.

예를 들어, 앞서 설명한 바와 같이 어느 정보 이용자가 드라마 동안미녀에서 장나라의 '오월의 눈사람'을 듣기 원할 경우 <표 1>과 같이 입력할 수 있다.

필드 구분	실체	디렉터리	레코드	의도
예제	오월의 노래	동안미녀	장나라	듣기

그러면 '오월의 노래'라는 검색어는 '동안미녀'라는 드라마에 규정을 받고, '장나라'라는 가수의 규정을 받고, 이 노래를 듣기 원하는 사용자 의도를 포착하게 된다. 반대로, '장나라'라는 '동안미녀'라는 드라마에 규정을 받고, 그 드라마의 '오월의 노래'에 의해 규정을 받는다. 이를 통해 정보 이용자의 의도와 문맥을 파악하면서 기계가 이해할 수 있는 검색 문장을 만들어 낸다.

검색어 분석(kID)은 정보 이용자가 검색창에 입력한 키워드들을 분석하여 유사어 조정, 맞춤법 교정 작업을 하고, 검색창의 각 검색어가 필드에 적합한지를 검토하면서, 이들 키워드들의 상호 규정 연산자 계산을 통해 이들 키워드에 대한 정보 이용자의 의도를 분석하는 과정이다.

이용자 ID 분석(uID)과 관련해 보면, 본 발명의 실시예에 따른 검색 엔진부(740)의 검색엔진은 정보 이용자 ID와 패스워드(Password) 기반의 정보 이용자의 개인화된 검색엔진이다. 이 단계에서 검색엔진은 정보 이용자의 입력 키워드에 기반하여 정보 이용자의 웹 활동 속성과 이력을 분석하여, 검색어 키워드에 대한 정보 이용자의 의도 문맥을 찾아내어 검색어 키워드에 사용자 의도 값을 부여한다.

디렉터리 분석(dID)은 검색어 분석 결과와 정보 이용자 ID 분석에 기초하여, 정보 이용자가 의도하고 웹 데이터의 디렉터리 값을 찾아내는 과정이다.

레코드 분석(rId)은 검색어 분석 결과와 정보 이용자 ID 분석과 디렉터리 분석 값에 기초하여 정보 이용자가 의도하는 웹 데이터의 레코드를 분석하는 과정이다. 서비스 유형, 제목, 데이터 유형, 크기 등이 분석 대상이 된다.

생산자 분석(pID)은 정보 이용자가 생산자를 지정했을 경우에는 정보 생산자 서버에서 해당 생산자 정보 값을 입력하고, 정보 이용자가 생산자를 지정하지 않은 경우 웹 페이지 분석 결과에다가 정보 생산자 서버에서 해당 정보 생산자 속성을 필터링하여 비중치를 가산하는 과정이다.

컨테이너 분석(cID)은 정보 이용자가 정보 웹 사이트를 지정했을 경우에 바로 그 컨테이너 정보를 분석하고, 사용자가 웹 사이트를 지정하지 않은 경우는 해당 웹 데이터와 그 소속 웹 사이트를 비교하여 컨테이너 가중치 점수를 주는 과정이다.

폭소노미 분석(fID)은 정보 이용자의 의도에 일치하는 웹 데이터를 찾아내고 이들 웹 데이터의 웹 이용 대중에서 인기도 점수를 계산하는 과정이다. 웹 로그를 통해 폭소노미 값을 선정하게 된다.

연결망 분석(nID)은 폭소노미를 통해 최종적으로 선정된 웹 데이터들을 대상으로 이들 웹 데이터와 태그 키워드들의 정보 연결망을 분석하는 과정이다.

편집과 출력은 최종적으로 인덱서에 저장된 자료들을 매핑해 정보 이용자에 게 출력하여 제공하는 과정이다.

이와 같이, 본 발명의 실시예에 따른 검색 엔진부(740)는 가령 검색 알고리즘을 구현하여 인터페이스부(700)를 통해 검색창을 정보이용자에게 제공함과 동시에 검색창을 통해 수신된 검색어들을 이용하여 다양한 분석을 수행하고, 수행한 분석 결과를 도 1의 DB(130a) 또는 저장부(720)에 구축된 데이터와 매핑하여 매핑 결과를 제어부(710)의 제어 하에 인터페이스부(700)를 통해 정보 이용자에게 제공해 준다.

도 10은 본 발명의 실시예에 따른 정보검색방법을 나타내는 흐름도이다.

설명의 편의상 도 10을 도 1 및 도 7과 함께 참조하면, 정보검색장치(130)는 정보이용자가 검색창에 입력한 검색 실체, 디렉터리, 레코드, 의도 필드를 포함하는 검색창 정보를 수신한다(S1010). 이와 같은 검색창 정보를 수신하기 위하여 정보검색장치(130)는 검색 엔진을 구동하여 알고리즘을 구현함으로써 정보 이용자에게 검색창에 대한 정보를 제공함으로써 필요한 정보를 얻을 수 있을 것이다.

이어 정보검색장치(130)는 검색창의 정보 중 디렉터리 및 레코드 필드의 검색어가 속하는 레벨을 최상위로 결정하고, 최상위 레벨로 결정된 디렉터리 및 레코드 레벨을 기준으로 검색 실체 필드에 입력된 검색어를 포함하는 컨텐츠를 검색하게 된다(S1020, S1030). 여기서, 검색은 도 1의 DB(130a) 또는 도 7의 저장부(720)의 검색을 의미할 수 있다.

그리고 정보검색장치(130)는 디렉터리 및 레코드 레벨을 하위 레벨로 한정하고, 검색된 컨텐츠의 범위 내에서 컨텐츠를 재검색한다(S1040). 이의 과정을 통해 정보검색장치(130)는 1차적으로 검색된 컨텐츠의 범위에서 더욱 감소된 컨텐츠를 검색해 낼 수 있게 된다.

이와 같은 S1030 및 S1040 단계는 검색창의 4개의 범주로부터 8개의 범주로 분류하여 구축한 정보 데이터를 검색하는 과정이라 볼 수 있을 것이다. 이의 과정에서 정보검색장치(130)는 상호 규정성에 기반한 검색을 수행할 수 있을 것이다. 이와 관련되는 자세한 내용은 앞서 충분히 설명하였으므로 더 이상의 설명은 생략하도록 한다.

상기의 결과 정보검색장치(130)는 웹 소통에 있어서 의도와 문맥을 내포하는 웹 범주들의 상호 규정성에 기반한 정보를 정확하고 신속히 검색할 수 있게 된다.

이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.

100: 사용자 단말장치 110: 통신망
120_1, 120_2: 웹서버 1, 웹서버 2 130: 정보검색장치
700: 인터페이스부 710: 제어부
720: 저장부 730: 색인 처리부
740: 검색 엔진부

Claims

검색 실체, 디렉터리, 레코드, 의도(intention) 필드(field)를 포함하는 검색 창의 정보를 사용자 단말장치로 제공하는 인터페이스부;
복수의 검색 범주로 색인되어 분류된 컨텐츠 정보가 기록된 데이터베이스를 포함하는 저장부;
상기 검색 창에서 각 필드 별로 검색어가 입력되면, 상기 각 필드별로 입력된 검색어를 이용하여 상기 복수의 검색 범주에 대하여 순차적으로 검색하는 제어부;를
포함하는 것을 특징으로 하는 정보검색장치.
제1항에 있어서,
상기 제어부는,
상기 디렉터리 필드에 입력된 디렉터리 검색어가 속하는 디렉터리 레벨 및 상기 레코드 필드에 입력된 레코드 검색어가 속하는 레코드 레벨을 각각 최상위로 결정하고, 상기 결정된 디렉터리 레벨 및 레코드 레벨을 기준으로 복수의 검색 범주 내에서 상기 검색 실체 필드에 입력된 검색어를 포함하는 컨텐츠를 검색하며,
검색된 컨텐츠를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하고, 상기 검색된 컨텐츠의 범위 내에서, 상기 한정된 디렉터리 레벨 및 레코드 레벨을 이용하여 컨텐츠를 재검색하는 것을 특징으로 하는 정보검색장치.
제1항에 있어서,
상기 제어부는, 상기 검색된 컨텐츠를 분석하여, 상기 사용자의 의도를 판단하고, 상기 사용자의 의도를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하며, 상기 한정된 디렉터리 레벨 및 상기 레코드 레벨을 이용하여 상기 복수의 검색 범주에 대해서 상기 검색된 컨텐츠를 필터링하는 것을 특징으로 하는 정보검색장치.
제3항에 있어서,
상기 제어부는,
상기 검색 실체, 디렉터리, 레코드, 의도 필드에 입력된 각 검색어를 이용하여 각 필드의 레벨을 규정하고, 규정된 레벨에 따라 상기 사용자의 의도를 판단하는 것을 특징으로 하는 정보검색장치.
제1항에 있어서,
상기 제어부는,
상기 검색된 컨텐츠 내에 사용자의 의도에 부합되는 컨텐츠가 포함되어 있으면 컨텐츠 재검색을 중지하고, 상기 검색된 컨텐츠를 포함하는 검색 결과 화면을 상기 사용자 단말장치로 제공하도록 상기 인터페이스부를 제어하는 것을 특징으로 하는 정보검색장치.
제1항에 있어서,
상기 제어부는,
상기 검색된 컨텐츠가 기 설정된 개수 이내이면 컨텐츠 재검색을 중지하고, 상기 검색된 컨텐츠를 포함하는 검색 결과 화면을 상기 사용자 단말장치로 제공하도록 상기 인터페이스부를 제어하는 것을 특징으로 하는 정보검색장치.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 복수의 검색 범주는 키워드, 유저, 디렉터리, 레코드, 생산자, 컨테이너, 폭소노미, 네트워크를 포함하는 것을 특징으로 하는 정보검색장치.
검색 실체, 디렉터리, 레코드, 의도(intention) 필드(field)를 포함하는 검색 창의 정보를 제공하는 단계;
상기 검색 창에서 각 필드별로 검색어가 입력되면, 상기 디렉터리 필드에 입력된 디렉터리 검색어가 속하는 디렉터리 레벨 및 상기 레코드 필드에 입력된 레코드 검색어가 속하는 레코드 레벨을 각각 최상위로 결정하는 단계;
상기 결정된 디렉터리 레벨 및 레코드 레벨을 기준으로, 기 설정된 복수의 검색 범주 내에서, 상기 검색 실체 필드에 입력된 검색어를 포함하는 컨텐츠를 순차적으로 검색하는 단계; 및
검색된 컨텐츠를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하고, 상기 검색된 컨텐츠의 범위 내에서, 상기 한정된 디렉터리 레벨 및 레코드 레벨을 이용하여 컨텐츠를 재검색하는 단계;를
포함하는 것을 특징으로 하는 정보검색방법.
제8항에 있어서,
상기 컨텐츠를 재검색하는 단계는,
상기 검색된 컨텐츠를 분석하여, 상기 사용자의 의도를 판단하는 단계;
상기 사용자의 의도를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하는 단계; 및
상기 한정된 디렉터리 레벨 및 상기 레코드 레벨을 이용하여 상기 복수의 검색 범주에 대해서 상기 검색된 컨텐츠를 필터링하는 단계;를
포함하는 것을 특징으로 하는 정보검색방법.
제9항에 있어서,
상기 사용자의 의도를 판단하는 단계는,
상기 검색 실체, 디렉터리, 레코드, 의도 필드에 입력된 각 검색어를 이용하여 각 필드의 레벨을 규정하고, 규정된 레벨에 따라 상기 사용자의 의도를 판단하는 것을 특징으로 하는 정보검색방법.
제9항에 있어서,
상기 검색된 컨텐츠 내에 사용자의 의도에 부합되는 컨텐츠가 포함되어 있으면 컨텐츠 재검색을 중지하고, 상기 검색된 컨텐츠를 포함하는 검색 결과 화면을 제공하는 단계;를 더 포함하는 것을 특징으로 하는 정보검색방법.
제8항에 있어서,
상기 검색된 컨텐츠가 기 설정된 개수 이내이면 컨텐츠 재검색을 중지하고, 상기 검색된 컨텐츠를 포함하는 검색 결과 화면을 제공하는 단계;를 더 포함하는 것을 특징으로 하는 정보검색방법.
제8항 내지 제12항 중 어느 한 항에 있어서,
상기 복수의 검색 범주는 키워드, 유저, 디렉터리, 레코드, 생산자, 컨테이너, 폭소노미, 네트워크를 포함하는 것을 특징으로 하는 정보검색방법.
정보검색방법을 실행하기 위한 프로그램이 저장된 컴퓨터 판독가능 기록 매체에 있어서,
상기 정보검색방법은,
검색 실체, 디렉터리, 레코드, 의도(intention) 필드(field)를 포함하는 검색 창의 정보를 제공하는 단계;
상기 검색 창에서 각 필드별로 검색어가 입력되면, 상기 디렉터리 필드에 입력된 디렉터리 검색어가 속하는 디렉터리 레벨 및 상기 레코드 필드에 입력된 레코드 검색어가 속하는 레코드 레벨을 각각 최상위로 결정하는 단계;
상기 결정된 디렉터리 레벨 및 레코드 레벨을 기준으로 복수의 검색 범주 내에서 상기 검색 실체 필드에 입력된 검색어를 포함하는 컨텐츠를 검색하는 단계;
검색된 컨텐츠를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하고, 상기 검색된 컨텐츠의 범위 내에서, 상기 한정된 디렉터리 레벨 및 레코드 레벨을 이용하여 컨텐츠를 재검색하는 단계;를
포함하는 것을 특징으로 하는 컴퓨터 판독가능 기록매체.
제14항에 있어서,
상기 복수의 검색 범주는 키워드, 유저, 디렉터리, 레코드, 생산자, 컨테이너, 폭소노미, 네트워크를 포함하는 것을 특징으로 하는 컴퓨터 판독가능 기록매체.