KR20190011176A

KR20190011176A - 속성 언어를 이용한 검색 방법 및 장치

Info

Publication number: KR20190011176A
Application number: KR1020170099828A
Authority: KR
Inventors: 도준웅
Original assignee: 주식회사 마이셀럽스
Priority date: 2017-07-24
Filing date: 2017-08-07
Publication date: 2019-02-01
Also published as: KR101955920B1; US11269964B2; JP6737887B2; WO2019022262A1; JP2019531516A; US20200159794A1

Abstract

본 명세서의 일 실시 예는 속성 언어를 이용한 검색 방법에 관한 것으로, 본 명세서의 일 실시 예에 따르는 검색 방법은 제1 집합 문서들로부터 대표 속성 키워드 후보집합을 추출하는 단계, 제2 집합 문서들로부터 상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 연관된 둘 이상의 하위 키워드들을 추출하는 단계, 상기 제2 집합 문서들로부터 상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 하위 키워드 쌍에 대응되는 연관 가중치를 추출하는 단계, 상기 제1 집합 문서들로부터 객체 항목과 하위 키워드 간의 하위 연관도를 추출하는 단계, 상기 하위 연관도 및 상기 연관 가중치를 이용하여 상기 객체 항목과 상기 각 대표 속성 키워드 간의 대표 연관도를 추출하는 단계 및 상기 대표 속성 키워드와 연관된 검색 요청을 수신하면, 객체 항목과 상기 대표 속성 키워드와의 대표 연관도를 기반으로 검색 결과 항목을 제공하는 단계를 포함할 수 있다. 본 명세서의 일 실시 예에 따르면 속성 언어를 이용한 효율적 검색 방법 및 장치를 제공할 수 있다.

Description

속성 언어를 이용한 검색 방법 및 장치{SEARCH METHOD AND APPARATUS USING PROPERTY LANGUAGE}

본 명세서의 적어도 일부의 실시 예는 속성 언어를 이용한 검색 방법 및 장치에 관한 것이다.

종래의 검색 방식에 따르면, 사용자는 검색창에 검색 키워드를 입력하여 원하는 웹 문서 등을 검색하여 찾을 수 있다. 예를 들어 사용자는 영화 제목 "인터스텔라"를 검색창에 입력하여 영화 "인터스텔라"에 관한 정보를 검색할 수 있다. 다만 사용자가 자신이 찾으려는 영화 제목을 기억하지 못할 경우 다른 방식의 검색이 요구된다. 사용자는 예를 들어 자신이 찾으려는 영화에 출연한 배우나 해당 영화의 감독, 제작자 등을 키워드로 입력하여 검색을 시도할 수 있다. 영화 정보 사이트나 영화 리뷰 사이트에는 영화 정보와 함께 출연진 정보도 제공되는 경우가 많으므로, 운이 나쁘지 않다면 사용자는 배우, 감독, 제작자 등을 키워드로 하여 원하는 영화를 찾을 수도 있을 것이다.

그런데 더 나아가, 이와 같이 정형화된 정보가 아닌 감정 언어에 기반한 검색이라면 문제가 될 수 있다. 예를 들어 "재미있는 영화" 또는 "슬플 때 보는 영화" 등의 검색에 대해서 종래 검색엔진들이 제공하는 응답은 누군가가 "재미있는 영화" 또는 "슬플 때 보는 영화"라는 키워드를 포함하여 작성해 둔 문서를 검색하는 것에 불과할 것이다. 하지만 감정 언어는 출연 배우, (정형화된) 영화 장르, 개봉 년도 등 정형화된 정보와는 다른 방식의 접근이 필요하다. 누군가가 "재미있는 영화" 또는 "슬플 때 보는 영화"라는 키워드를 포함하여 작성해 두지 않았더라도, 실제로 많은 사람들이 "재미있다"거나 "슬플 때 보면 좋다"고 느낄 수 있는 영화들이 있을 수 있다. 더 나아가 영화 외의 다른 분야에 대해서도, 감정 언어를 이용한 검색에 대해서 다른 접근이 필요할 수 있다.

KR

10-2009-0080822

A

본 명세서의 일 실시 예는 속성 언어를 이용한 효율적 검색 방법 및 장치를 제공하는데 그 목적이 있다.

본 명세서의 일 실시 예에 따르는 속성 언어를 이용한 검색 방법은 제1 집합 문서들로부터 대표 속성 키워드 후보집합을 추출하는 단계, 제2 집합 문서들로부터 상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 연관된 둘 이상의 하위 키워드들을 추출하는 단계, 상기 제2 집합 문서들로부터 상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 하위 키워드 쌍에 대응되는 연관 가중치를 추출하는 단계, 상기 제1 집합 문서들로부터 객체 항목과 하위 키워드 간의 하위 연관도를 추출하는 단계, 상기 하위 연관도 및 상기 연관 가중치를 이용하여 상기 객체 항목과 상기 각 대표 속성 키워드 간의 대표 연관도를 추출하는 단계 및 상기 대표 속성 키워드와 연관된 검색 요청을 수신하면, 객체 항목과 상기 대표 속성 키워드와의 대표 연관도를 기반으로 검색 결과 항목을 제공하는 단계를 포함할 수 있다.

본 명세서의 일 실시 예에 따르는 속성 언어를 이용한 검색 장치는, 제1 집합 문서들로부터 대표 속성 키워드 후보집합을 추출하고, 제2 집합 문서들로부터 상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 연관된 둘 이상의 하위 키워드들을 추출하고, 상기 제2 집합 문서들로부터 상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 하위 키워드 쌍에 대응되는 연관 가중치를 추출하고,상기 제1 집합 문서들로부터 객체 항목과 하위 키워드 간의 하위 연관도를 추출하고, 상기 하위 연관도 및 상기 연관 가중치를 이용하여 상기 객체 항목과 상기 각 대표 속성 키워드 간의 대표 연관도를 추출하는 제어부 및 상기 대표 속성 키워드와 연관된 검색 요청을 수신하는 통신부를 포함할 수 있다. 상기 통신부가 상기 대표 속성 키워드와 연관된 검색 요청을 수신하면, 상기 제어부는 객체 항목과 상기 대표 속성 키워드와의 대표 연관도를 기반으로 검색 결과 항목을 제공할 수 있다.

본 명세서의 일 실시 예에 따르면 속성 언어를 이용한 효율적 검색 방법 및 장치를 제공할 수 있다.

도 1은 본 명세서의 일 실시 예에 따르는 속성 언어를 이용한 검색 시스템의 망 구성도이다.
도 2는 본 명세서의 일 실시 예에 따르는 단말(200)의 블록구성도이다.
도 3은 본 명세서의 일 실시 예에 따르는 검색 장치(300)의 블록구성도이다.
도 4는 본 명세서의 일 실시 예에 따르는 검색 인터페이스를 통한 검색 과정의 순서도이다.
도 5는 본 명세서의 일 실시 예에 따르는 검색 과정의 순서도이다.
도 6은 본 명세서의 일 실시 예에 따르는 단계 510의 상세 순서도이다.
도 7은 본 명세서의 일 실시 예에 따르는 단계 530의 상세 순서도이다.
도 8은 본 명세서의 다른 실시 예에 따르는 검색 과정의 순서도이다.

이하, 본 명세서의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.

실시 예를 설명함에 있어서 본 명세서가 속하는 기술 분야에 익히 알려져 있고 본 명세서와 직접적으로 관련이 없는 기술 내용에 대해서는 설명을 생략한다. 이는 불필요한 설명을 생략함으로써 본 명세서의 요지를 흐리지 않고 더욱 명확히 전달하기 위함이다.

마찬가지 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 개략적으로 도시되었다. 또한, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. 각 도면에서 동일한 또는 대응하는 구성요소에는 동일한 참조 번호를 부여하였다.

이하, 도면들을 참고하여 본 명세서의 실시 예들에 대해 설명하도록 한다.

도 1은 본 명세서의 일 실시 예에 따르는 속성 언어를 이용한 검색 시스템의 망 구성도이다.

도 1을 참조하면, 본 명세서의 일 실시 예에 따르는 검색 시스템은 단말(200), 검색 장치(300) 및 통신망(150)을 포함할 수 있다.

단말(200)은 예를 들어 스마트폰, PDA, 태블릿 PC, 노트북 컴퓨터, 랩탑 컴퓨터, 개인용 컴퓨터 기타 통신을 수행하고 사용자의 입력을 수신하고 화면을 출력할 수 있는 전자적 기기 또는 이와 유사한 기기로써 구현될 수 있다.

검색 장치(300)는 예를 들어 워크스테이션, 서버, 일반용 컴퓨터 기타 통신을 수행할 수 있는 전자적 기기 또는 이와 유사한 기기로써 구현될 수 있다.

단말(200)과 검색 장치(300)는 통신망(150)을 통해 연결되며 통신망(150)을 통해 서로 통신한다.

통신망(150)은 예를 들어 LTE(Long Term Evolution), LTE-A(LTE-Advanced), WI-FI, LAN(Local Area Network), WAN(Wide Area Network), CDMA(Code Division Multiple Access), TDMA(Time Division Multiple Access), WiBro(Wireless Broadband), GSM(Global System for Mobile Communications) 기타 과거, 현재에 개발되었거나 향후 사용 가능하게 되는 통신 방식 중 적어도 일부를 이용하여 구현될 수 있다. 이하에서는 편의를 위해 통신망(150)을 언급하지 않고 단말(200)과 검색 장치(300)가 직접 통신하는 것처럼 설명한다.

단말(200)과 검색 장치(300)의 구체적인 동작 및 구성에 대해서는 도 2 내지 도 8을 참조하여 후술한다.

도 2는 본 명세서의 일 실시 예에 따르는 단말(200)의 블록구성도이다.

도 2를 참조하면 본 명세서의 일 실시 예에 따르는 단말(200)은 입력부(210), 표시부(220), 통신부(230), 저장부(240) 및 제어부(250)를 포함할 수 있다.

입력부(210)는 사용자의 입력 동작을 입력 신호로 변환하여 제어부(250)에게 송신한다. 입력부(210)는 예를 들어 키보드, 마우스, 터치스크린 상의 터치센서, 터치패드, 키패드, 음성입력 기타 현재, 과거에 가능하거나 미래에 가능해질 입력 처리 장치들로써 구현될 수 있다. 입력부(210)는 예를 들어 사용자의 검색 요청 입력을 수신하여 제어부(250)에게 전달할 수 있다.

표시부(220)는 제어부(250)의 제어에 따라 화면을 출력한다. 표시부(220)는 예를 들어 LCD(액정표시장치), LED(발광 다이오드), OLED(유기 발광 다이오드), 프로젝터, 기타 현재, 과거에 가능하거나 미래에 가능해질 표시 장치들로써 구현될 수 있다. 표시부(220)는 예를 들어 검색을 위한 인터페이스 페이지나 검색 결과 페이지를 표시할 수 있다.

통신부(230)는 검색 장치(300) 및/또는 기타 외부 장치와 데이터를 주고받는다. 통신부(230)는 검색 장치(300)로부터 수신한 데이터를 제어부(250)에게 전달한다. 또한 통신부(230)는 제어부(250)의 제어에 따라 데이터를 검색 장치(300)에게 전달한다. 통신부(230)가 사용하는 통신 기술은 통신망(150)의 유형이나 기타 사정에 따라 달라질 수 있다.

저장부(240)는 제어부(250)의 제어에 따라 데이터를 저장하고 요청된 데이터를 제어부(250)에게 전달한다.

제어부(250)는 단말(200)의 전반적인 동작과 각 구성부를 제어한다. 제어부(250)는 특히 후술하는 바와 같이 입력부(210)로부터 입력된 정보에 따라 검색 요청, 기타 데이터를 검색 장치(300)에게 송신하고, 검색 장치(300)로부터 수신한 페이지 정보에 따라 결과 페이지 및/또는 인터페이스 페이지를 표시부(220)를 통해 표시한다.

제어부(250)가 수행하는 동작은 물리적으로 분리돼 있는 여러 연산 장치에 의하여 분산 처리될 수 있다. 제어부(250)가 수행하는 동작 중 일부는 제1 서버가 수행하고 다른 동작은 제2 서버가 수행하는 방식도 가능하다. 이 경우 제어부(250)는 물리적으로 분리돼 있는 연산 장치의 총합으로써 구현될 수 있다.

저장부(240)는 물리적으로 분리돼 있는 저장장치의 총합으로 구현될 수도 있다.

제어부(250)나 저장부(240)가 물리적으로 분리돼 있는 여러 장치의 총합으로 구현되는 경우 여러 장치들 사이의 통신이 필요할 수 있다. 여기서는 설명의 단순화를 위하여 저장부(240)나 제어부(250)가 하나의 객체로 구현된 경우를 가정하여 설명할 것이다.

단말(200)이 데이터를 송수신하는 경우 관점에 따라 제어부(250)의 제어에 따라 통신부(230)가 데이터를 송수신한다고 표현할 수도 있고, 제어부(250)가 통신부(230)를 제어하여 데이터를 송수신한다고 표현할 수도 있다.

단말(200)의 각 구성부의 구체적인 동작에 대해서는 도 4 내지 도 8을 참조하여 후술한다.

도 3은 본 명세서의 일 실시 예에 따르는 검색 장치(300)의 블록구성도이다.

도 3을 참조하면 본 명세서의 일 실시 예에 따르는 검색 장치(300)는 통신부(310), 제어부(320) 및 저장부(330)를 포함할 수 있다.

통신부(310)는 단말(200) 및/또는 기타 외부 장치와 데이터를 주고받는다. 통신부(310)는 단말(200)로부터 수신한 데이터를 제어부(320)에게 전달한다. 또한 통신부(310)는 제어부(320)의 제어에 따라 데이터를 단말(200)에게 전달한다. 통신부(310)가 사용하는 통신 기술은 통신망(150)의 유형이나 기타 사정에 따라 달라질 수 있다.

저장부(330)는 제어부(320)의 제어에 따라 데이터를 저장하고 제어부(320)로부터 요청된 데이터를 제어부(320)에게 전달한다.

제어부(320)는 검색 장치(300)의 전반적인 동작과 각 구성부를 제어한다. 제어부(320)는 특히 후술하는 바와 같이 인터페이스 페이지 요청, 검색 결과 페이지 요청, 기타 데이터를 통신부(310)를 통해 수신하면 저장부(330)로부터 필요한 데이터를 불러오고(load) 페이지 정보를 생성하여 페이지 정보를 통신부(310)를 통해 단말기(200)에게 전달한다.

검색 장치(300)가 데이터를 송수신하는 경우 관점에 따라 제어부(320)의 제어에 따라 통신부(310)가 데이터를 송수신한다고 표현할 수도 있고, 제어부(320)가 통신부(310)를 제어하여 데이터를 송수신한다고 표현할 수도 있다.

검색 장치(300)의 각 구성부의 구체적인 동작에 대해서는 도 4 내지 도 8을 참조하여 후술한다.

도 4는 본 명세서의 일 실시 예에 따르는 검색 인터페이스를 통한 검색 과정의 순서도이다.

단계 410에서 검색 장치(300)의 제어부(320)는 인터페이스 페이지 정보를 생성한다. 인터페이스 페이지 정보는 인터페이스 페이지를 생성하기 위해 필요한 정보이다. 인터페이스 페이지는 사용자의 입력을 유도하고 사용자의 입력을 수신하여 검색 장치(300)에게 전달하기 위한 페이지이다. 예를 들어 인터페이스 페이지 정보는 HTML 문서 또는 기타 마크업 언어 문서 형태가 될 수 있다. 다른 실시 예에서, 단말(200)이 인터페이스 페이지의 서식 정보를 미리 가지고 있으며, 컨텐츠에 해당하는 사항만이 검색 장치(300)로부터 단말(200)에 전달될 수도 있다. 이하에서는 편의를 위해 인터페이스 페이지 정보 또는 기타의 페이지 정보는 HTML 문서 형식으로 전달된다고 가정하고 설명한다. 하지만 본 명세서의 권리 범위가 여기에 한정되는 것은 아니다.

단계 420에서 검색 장치(300)의 통신부(310)는 인터페이스 페이지 정보를 단말(200)에게 전달한다.

단계 430에서 단말(200)의 제어부(250)는 인터페이스 페이지 정보를 이용하여 인터페이스 페이지를 구성한다. 예를 들어 제어부(250)은 웹 브라우저를 구동하여 HTML 문서를 해석하여 웹 페이지의 형태로 인터페이스 페이지를 구성할 수 있다. 웹 브라우저 대신 별도의 애플리케이션이 사용될 수도 있다.

단계 440에서 단말(200)의 표시부(220)는 사용자(400)에게 인터페이스 페이지를 표시한다. 인터페이스 페이지는 예를 들어 사용자(400)가 검색을 요청하고, 검색어를 입력 및/또는 선택하고 기타 검색을 위한 설정을 할 수 있는 인터페이스를 포함할 수 있다.

단계 450에서 단말(200)의 입력부(210)는 인터페이스 페이지를 통해 입력된 사용자(400)의 선택 입력을 수신하여 제어부(250)에 전달한다.

단계 460에서 단말(200)의 통신부(230)는 제어부(250)의 제어에 따라 사용자의 선택 입력을 식별할 수 있는 입력 정보를 검색 장치(300)에게 전달한다.

단계 470에서 검색 장치(300)의 제어부(320)는 사용자의 입력(예를 들어, 검색어 및/또는 기타 검색 설정)을 이용하여 결과 페이지 정보를 생성한다. 결과 페이지 정보를 생성하는 위한 준비과정과 결과 페이지 정보를 생성하는 과정에 대해서는 도 5 내지 도 8을 참조하여 후술한다. 결과 페이지 정보는 예를 들어 HTML 문서 형식 및/또는 이미지 형식으로 구성될 수 있다.

단계 480에서 검색 장치(300)의 통신부(310)는 결과 페이지 정보를 단말(200)에게 전달한다.

단계 490에서 단말(200)의 제어부(250)는 통신부(230)가 수신한 결과 페이지 정보를 이용하여 결과 페이지를 구성한다. 예를 들어 제어부(250)는 HTML형식의 결과 페이지 정보를 해석하여 결과 페이지를 구성할 수 있다.

단계 495에서 단말(200)의 표시부(220)는 결과 페이지를 사용자(400)에게 제공한다.

도 4의 실시 예에서 사용자에게 시각적 형태의 페이지를 제공하는 것을 가정하였으나, 음성을 통해 인터페이스나 결과 정보를 제공하는 것도 가능하다. 이 경우 표시부(220) 대신 음성 출력부가 이용될 수 있을 것이다. 시각적/청각적 방식 대신 현재 가능하거나 미래에 가능해질 다른 방식의 인터페이스 방식이 사용자(400)와의 관계에서 사용될 수도 있다. 이 경우 검색 장치(300)는 인터페이스 방식에 맞도록 페이지 정보 대신 다른 방식으로 변환된 정보를 단말(200)에게 제공할 수 있다.

도 5 이후의 실시 예에서 사용자(400)는 자신이 관심을 가지는 특정 관심 분야의 객체를 검색하고자 한다. 하지만 본 명세서의 권리 범위가 이에 한정되는 것은 아니다.

관심 분야는 예를 들어 객체의 유형이 될 수 있다. 예를 들어 관심 분야가 '유명인' 이라면 이 관심 분야에 해당하는 객체는 '유시민', '유재석', '테일러 스위프트' 등을 포함할 수 있다. 예를 들어 관심 분야가 '영화'라면 이 관심 분야에 해당하는 객체는 '덩케르크', '스파이더맨: 홈커밍', '슈퍼배드 3' 등을 포함할 수 있다. 예를 들어 관심 분야가 '방송 프로그램' 이라면 이 관심 분야에 해당하는 객체는 '무한도전', '아메리칸 아이돌', '왕좌의 게임' 등을 포함할 수 있다.

이하의 실시 예들에서 키워드들 간의 관계(연관도/가중치 등등)를 평가하기 위해 문서가 수집된다. 수집된 문서는 모두 동등한 가치를 가지는 것으로 평가될 수도 있고, 최신의 문서가 더 높은 가치를 가지는 것으로 평가될 수도 있다. 즉, 평가 시점 기준 문서의 나이와 그 문서 내에 등장하는 키워드들 간의 연관도는 음의 상관관계를 가질 수 있다.

후술하는 도 5 내지 도 8의 과정에서도 문서의 최신성에 따라 가치가 달리 평가될 수 있다. 예를 들어 평가 시점 기준 1일 지난 문서에 두 키워드가 함께 등장한 경우가, 평가 시점 기준 10일 지난 문서에 두 키워드가 함께 등장한 경우에 비해 10배 더 높은 연관도로 평가될 수 있다. 문서의 나이는 예를 들어 초단위/분단위/시간 단위로 평가되거나 일 단위/월 단위/연 단위 등으로 평가될 수도 있다. 제어부(320)는 문서의 나이가 반영되기 전 평가된 해당 문서에 의하나 부분 연관도 값을 문서의 나이로 나누어 문서 나이가 반영된 부분 연관도를 추출하고, 이러한 부분 연관도를 누적하여 두 키워드 사이의 연관도를 추출할 수 있다.

문서의 나이를 확인하기 위한 문서의 생성 시점은 예를 들어 문서 내에 포함된 게시 시점 및/또는 메타데이터를 이용하여 파악하거나, 주기적인 크롤링을 통해, 이전의 크롤링에 발견되지 않은 문서가 새로 발견되는 경우 새로운 크롤링 시점에 신규 문서가 추가된 것으로 파악할 수도 있다.

도 5는 본 명세서의 일 실시 예에 따르는 검색 과정의 순서도이다.

도 5를 참조하면, 단계 510에서 제어부(320)는 제1 집합 문서들로부터 대표 속성 키워드 후보집합을 추출한다. 제어부(320)는 예를 들어 제1 집합 문서 중 관심 분야에 해당하는 문서에 자주 등장하는 키워드들을 대표 속성 키워드 후보집합으로 수집할 수 있다.

도 6은 본 명세서의 일 실시 예에 따르는 단계 510의 상세 순서도이다.

단계 610에서 제어부(320)는 특정 분야 자체를 나타내는 분야 키워드와 같은 문서에 함께 등장하는 키워드들을 제1 속성 키워드 후보집합으로 설정한다.

예를 들어 검색 서비스를 제공하려는 관심 분야가 유명인이라면, 분야 키워드는 '유명인', '연예인', '영화배우', '스타', '셀럽', 'celeb' 등을 포함할 수 있다. 분야 키워드는 관리자에 의하여 설정되거나 제어부(320)에 의하여 추천, 설정될 수 있다. 제어부(320)는 일부 분야 키워드들을 획득한 뒤 이 분야 키워드들의 유사 키워드를 추가적 분야 키워드로 추천/설정할 수 있다.

검색 서비스를 제공하려는 관심 분야가 유명인이라면, 객체 키워드는 해당 관심 분야에 속하는 개별 인물이 될 수 있다. 예를 들어 "유재석", "테일러 스위프트", "스테판 커리" 등이 관심 분야 유명인에 해당하는 객체 키워드가 될 수 있다.

분야 키워드와 객체 키워드의 관계를 설명하자면, 예를 들어 분야 키워드가 객체 키워드의 속성 또는 유형에 해당할 수 있다. 분야 키워드가 집합을 나타낸다면 객체 키워드는 그 집합에 속하는 원소들을 나타내는 것이 될 수 있다.

제어부(320)는 분야 키워드가 포함된 문서를 검색/수집하고, 수집된 문서에 포함된 키워드들을 제1 속성 키워드 후보집합에 포함시킬 수 있다. 다른 실시 예에 따르면 제어부(320)는 수집된 문서에 포함된 키워드들 중 분야 키워드 및 객체 키워드를 제1 속성 키워드 후보집합에서 제외할 수 있다. 아울러 제어부(320)는 미리 설정된 의미 없는 키워드, 예를 들어 조사/관사 등을 제1 속성 키워드 후보집합에서 제외할 수 있다. 또 다른 실시 예에 따르면 제어부(320)는 수집된 문서에 포함된 키워드들 중 미리 설정된 사전(dictionary)에 등록된 키워드를 제1 속성 키워드 후보집합에 포함시킬 수 있다.

또 다른 실시 예에 따르면, 제어부(320)는 분야 키워드가 포함된 문서를 검색/수집하고, 수집된 문서에서 분야 키워드 또는 그 키워드가 포함된 문장으로부터 미리 설정된 거리 이내에 배치된 키워드들을 제1 속성 키워드 후보집합에 포함시킬 수도 있다. 또 다른 실시 예에 따르면, 제어부(320)는 분야 키워드가 포함된 문서를 검색/수집하고, 문맥을 분석하여 분야 키워드를 수식/설명하는 용도로 사용된 키워드들을 제1 속성 키워드 후보집합에 포함시킬 수도 있다. 키워드 사이의 거리 또는 키워드와 문장 사이의 거리는 예를 들어 두 키워드 또는 키워드와 문장 사이에 위치하는 문장의 개수, 두 키워드 또는 키워드와 문장 사이에 위치하는 단어의 개수, 두 키워드 또는 키워드와 문장 사이에 위치하는 어절의 개수, 두 키워드 또는 키워드와 문장 사이에 글자의 개수 중 어느 하나 이상을 기준으로 판단될 수 있다.

제어부(320)는 키워드 분석을 위해 형태소 분석을 먼저 수행할 수 있다.

단계 610이 완료되면 제1 속성 키워드 후보집합에는 '유명인' 또는 이와 유사한 단어들을 수식하는 표현들이 수집될 수 있다.

단계 620에서 제어부(320)는 특정 분야에 속하는 객체 항목을 나타내는 객체 키워드와 같은 문서에 등장하는 키워드들을 제2 속성 키워드 후보집합으로 설정할 수 있다.

객체 키워드는 관리자에 의해 설정되거나, 이미 분야 키워드와 비슷한 방식으로 선정될 수 있다. 또 다른 실시 예에 따르면 제어부(320)는 수집된 문서들의 문맥을 분석하여 상기 분야 키워드가 나타내는 집합에 속하는 원소로 판단되는 키워드들을 객체 키워드로 선정할 수 있다.

제어부(320)는 객체 키워드가 포함된 문서를 검색/수집하고, 수집된 문서에 포함된 키워드들을 제2 속성 키워드 후보집합으로 설정할 수 있다. 다른 실시 예에 따르면 제어부(320)는 수집된 문서에 포함된 키워드들 중 분야 키워드 및 객체 키워드를 제2 속성 키워드 후보집합에서 제외할 수 있다. 아울러 제어부(320)는 미리 설정된 의미 없는 키워드, 예를 들어 조사/관사 등을 제2 속성 키워드 후보집합에서 제외할 수 있다. 또 다른 실시 예에 따르면 제어부(320)는 수집된 문서에 포함된 키워드들 중 미리 설정된 사전(dictionary)에 등록된 키워드를 제2 속성 키워드 후보집합에 포함시킬 수 있다.

또 다른 실시 예에 따르면, 제어부(320)는 객체 키워드가 포함된 문서를 검색/수집하고, 수집된 문서에서 객체 키워드 또는 그 키워드가 포함된 문장으로부터 미리 설정된 거리 이내에 배치된 키워드들을 제2 속성 키워드 후보집합에 포함시킬 수도 있다. 또 다른 실시 예에 따르면, 제어부(320)는 객체 키워드가 포함된 문서를 검색/수집하고, 문맥을 분석하여 객체 키워드를 수식/설명하는 용도로 사용된 키워드들을 제2 속성 키워드 후보집합에 포함시킬 수도 있다.

키워드 사이의 거리 또는 키워드와 문장 사이의 거리는 예를 들어 두 키워드 또는 키워드와 문장 사이에 위치하는 문장의 개수, 두 키워드 또는 키워드와 문장 사이에 위치하는 단어의 개수, 두 키워드 또는 키워드와 문장 사이에 위치하는 어절의 개수, 두 키워드 또는 키워드와 문장 사이에 글자의 개수 중 어느 하나 이상을 기준으로 판단될 수 있다.

단계 620이 완료되면 제2 속성 키워드 후보집합에는 '유재석', '테일러 스위프트', '스테판 커리' 등의 유명인을 수식하는 표현들(예를 들어, '재미있는', '감미로운', '압도적인' 등)이 수집될 수 있다.

단계 630에서 제어부(320)는 상기 제1 속성 키워드 후보집합 및 상기 제2 속성 키워드 후보집합 모두에 속한 키워드들을 상기 대표 속성 키워드 후보집합으로 설정할 수 있다. 즉, '유명인'이라는 키워드 자체를 수식하는 표현으로도 쓰이면서 개별적 유명인들(테일러 스위프트 등)을 수식하는 표현으로도 쓰이는 키워드들이 대표 속성 키워드 후보집합에 수집될 수 있다.

도 5로 돌아가서, 단계 520에서 제어부(320)는 제2 집합 문서들로부터 대표 속성 키워드 후보집합에 포함되는 각 대표 속성 키워드와 연관된 둘 이상의 하위 키워드들을 추출한다.

단계 520의 하위 키워드 추출에 사용되는 제2 집합 문서와 단계 510의 대표 속성 키워드 후보집합 추출에 사용되는 제1 집합 문서는 서로 다른 문서 집합일 수도 있고 서로 같은 문서 집합일 수도 있다. 예를 들어, 제1 집합 문서는 수집 가능한 문서 전부를 포함하는 집합이고, 제2 집합 문서는 검색서비스를 제공하고자 하는 특정 관심 분야가 주요한 키워드로 사용된 문서들만을 포함하는 집합이 될 수 있다. 제어부(320)는 수집 가능한 문서들을 분석하여 자주 등장하는 키워드들을 기반으로 각 문서가 검색서비스를 제공하고자 하는 특정 관심 분야가 주요한 키워드로 사용된 문서인지 분석할 수 있다. 다른 실시 예에 따르면 제1 집합 문서 및 제2 집합 문서 모두 수집 가능한 관련문서 전부를 포함하는 집합이 될 수 있다. 또 다른 실시 예에 따르면, 제1 집합 문서는 수집 가능한 관련문서 전부를 포함하는 집합이고 제2 집합 문서는 검색 서비스를 제공하고자 하는 특정 관심분야에 관련된 문서만을 포함하는 집합이 될 수 있다. 또 다른 실시 예에 따르면 제2 집합 문서는 수집 가능한 관련문서 전부를 포함하는 집합이고 제1 집합 문서는 검색 서비스를 제공하고자 하는 특정 관심분야에 관련된 문서만을 포함하는 집합이 될 수 있다.

단계 520을 위해, 제어부(320)는 예를 들어, 검색 서비스를 제공하고자 하는 특정 관심분야에 관련된 문서만을 포함하는 집합을 생성하기 위해 해당 관심분야 자체를 나타내는 분야 키워드를 포함하는 문서들 및/또는 해당 관심분야에 속하는 객체 키워드를 포함하는 문서들을 수집하고, 그들 중 분야 키워드/객체 키워드의 비중이 미리 설정된 값 이상인 문서들을 추출하여 특정 관심분야에 관련된 문서만을 포함하는 집합을 생성할 수 있다. 분야 키워드/객체 키워드의 비중은 분야 키워드/객체 키워드의 등장 빈도나 등장 위치, 문맥 등을 통해 판단할 수 있다. 예를 들어 분야 키워드/객체 키워드가 자주 등장하거나 분야 키워드/객체 키워드가 해당 문서의 타이틀로 사용되거나 큰 글자 또는 강조를 위한 글자체로 표시되는 문서는 특정 관심분야에 관련된 문서로 분류할 수 있을 것이다.

단계 520에서 제어부(320)는 예를 들어 상기 제2 집합 문서 중 적어도 일부를 분석하여 각 대표 속성 키워드와 가장 연관도가 높은 하위 키워드들을 미리 설정된 개수만큼 추출하여 각 대표 속성 키워드와 연관된 둘 이상의 하위 키워드들을 추출할 수 있다.

제어부(320)는 예를 들어 하위 키워드가 대표 속성 키워드와 동일 또는 유사한 문맥에 등장하는 빈도를 고려하여 대표 속성 키워드와 하위 키워드 사이의 연관도를 판단할 수 있다. 예를 들어 특정 문장에서 키워드 A의 주변에 등장하는 단어들은 다른 문서에서도 키워드 A와 연관된 단어의 주변에 등장할 수 있으리라고 볼 수 있다.

"큰 맘 먹고 여행을 갔으나 7월이라 날씨가 너무 더워서 고생했다."

"큰 맘 먹고 여행을 갔으나 7월이라 날씨가 너무 습해서 고생했다."

위 두 문장을 살펴보면 같은 문맥에서 "더워서"라는 단어가 "습해서"라는 단어로 대체되었다. 제어부(320)는 "덥다"와 "습하다"가 서로 연관된 단어라는 것을 유추할 수 있다.

"큰 맘 먹고 휴가를 갔으나 7월이라 날씨가 너무 더워서 고생했다."

마찬가지로 제어부(320)는 위 두 문장을 통해 "여행"과 "휴가"가 연관된 단어라는 것을 유추할 수 있다.

"큰 맘 먹고 여행을 갔으나 8월이라 날씨가 너무 더워서 고생했다."

마찬가지로 제어부(320)는 위 두 문장을 통해 "7월"과 "8월"이 연관된 단어라는 것을 유추할 수 있다.

제어부(320)는 이전에 수집된 문서들을 통해 "덥다"와 "습하다"가 서로 연관된 단어이고 "7월"과 "8월"이 서로 연관된 단어이며 "여행"과 "휴가"가 서로 연관된 단어임을 저장해 둘 수 있다 이후 아래와 같은 문장을 수집한다고 가정한다.

"큰 맘 먹고 휴가를 갔으나 7월이라 날씨가 너무 습해서 고생했다."

"큰 맘 먹고 여행을 갔으나 8월이라 날씨가 너무 더워서 힘들었다."

두 문장이 동일한 문맥은 아니지만 덥다"와 "습하다"가 서로 연관된 단어이고 "7월"과 "8월"이 서로 연관된 단어이며 "여행"과 "휴가"가 서로 연관된 단어임을 알고 있다면, 제어부(320)는 위 문장을 통해 "고생했다"와 "힘들었다" 역시 연관된 단어임을 학습할 수 있을 것이다.

동일/유사한 문맥에 등장하는 빈도가 높은 키워드 쌍은 서로 연관도가 높은 것으로 판단할 수 있다. 아울러 두 키워드가 등장하는 문맥의 유사도가 높을수록 두 키워드 사이의 연관도가 높은 것으로 판단할 수 있다. 제어부(320)는 수집되는 문서들을 이용해 학습을 진행하여 키워드들 사이의 연관도를 설정하고, 설정된 키워드 간 연관도와 문장의 문맥을 이용하여 해당 문장에서 등장하는 키워드들의 연관도를 설정하는 식으로 키워드 간 연관도 판단의 정확성을 높일 수 있다.

이와 유사한 학습 방식으로 NNLM(Neural Net Language Model), RNNLM(Recurrent Neural Net Language Model), word2vec, 스킵그램(skipgram) 및 CBOW(Continuous Bag-of-Words)방식이 알려져 있다. 특히 word2vec을 이용할 경우 word2ved은 문서들을 이용해 학습하여 각 키워드들을 벡터에 대응시키고, 두 키워드 사이의 유사도는 두 벡터의 코사인 유사도 계산을 통해 파악할 수 있다.

이러한 방식 또는 유사한 방식으로, 제어부(320)는 제2 집합 문서 중 적어도 일부를 분석하여 각 대표 속성 키워드와 가장 연관도가 높은 하위 키워드들을 미리 설정된 개수만큼 추출할 수 있다.

단계 530에서 제어부(320)는 상기 제2 집합 문서들로부터 상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 하위 키워드 쌍에 대응되는 연관 가중치를 추출할 수 있다.

도 7은 본 명세서의 일 실시 예에 따르는 단계 530의 상세 순서도이다.

단계 710에서 제어부(320)는 상기 제2 집합 문서 중 적어도 일부를 분석하여 상기 하위 키워드들 사이의 상호 연관도를 추출할 수 있다. 예를 들어 대표 속성 키워드 A1에 대해 연관된 하위 키워드로서 수집된 것이 B1₁ 내지 B1₅₀의 50개 하위 키워드라고 가정한다. 이 경우 제어부(320)는 이들 50개 하위 키워드들에 대해 두 하위 키워드가 같은 문서에 함께 등장하는 빈도를 이용하여 두 하위 키워드 사이의 상호 연관도를 추출할 수 있다. B1₁ 과 B1₂가 같은 문서에 등장하는 빈도에 따라 B1₁ 과 B1₂사이의 상호 연관도가 결정된다. 다른 실시 예에 따르면 B1₁ 과 B1₂가같은 문서에 등장하는 빈도가 상호 연관도에 영향을 주는 것에 더하여, B1₁ 과 B1₂가 같은 문서에 등장하는 경우 두 키워드 B1₁ 과 B1₂사이의 거리(또는 두 키워드가 등장하는 문장 사이의 거리)가 가까울수록 높은 상호 연관도가 인정될 수 있다. 비슷한 방식으로 하위 키워드들 사이의 상호 연관도가 추출될 수 있다. 키워드 사이의 거리 또는 키워드와 문장 사이의 거리는 예를 들어 두 키워드 또는 키워드와 문장 사이에 위치하는 문장의 개수, 두 키워드 또는 키워드와 문장 사이에 위치하는 단어의 개수, 두 키워드 또는 키워드와 문장 사이에 위치하는 어절의 개수, 두 키워드 또는 키워드와 문장 사이에 글자의 개수 중 어느 하나 이상을 기준으로 판단될 수 있다.

단계 720에서 제어부(320)는 상기 하위 키워드들 사이의 상호 연관도를 기초로 각 대표 속성 키워드와 하위 키워드 간의 연관 가중치를 추출할 수 있다. 제어부(320)는 예를 들어, 각 대표 속성 키워드에 상응하는 하위 키워드 집합에 대하여, 상기 하위 키워드 집합 내의 특정 하위 키워드와 상기 하위 키워드 집합 내의 다른 하위 키워드 간의 상호 연관도와, 상기 특정 하위 키워드와 상기 대표 속성 키워드 사이의 연관 가중치가, 서로 양의 상관관계를 가지도록 상기 특정 하위 키워드와 상기 대표 속성 키워드 사이의 연관 가중치를 설정할 수 있다.

예를 들어 대표 속성 키워드 A1의 하위 키워드 B1₁과 A1의 다른 하위 키워드들 (B1₂ 내지 B1₅₀) 사이의 상호 연관도가 높을 수록 A1과 B1₁사이의 연관 가중치가 높게 설정될 수 있다. 예를 들면, B1₁과 A1의 다른 하위 키워드들 (B1₂ 내지 B1₅₀) 사이의 상호 연관도 산술평균(또는 총합)이 B1₁과 A1 사이의 연관 가중치가 될 수 있다. 단순한 산술평균 대신 기하 평균/조화 평균이 사용될 수도 있다. 하위 키워드 B1₁과 A1의 다른 하위 키워드들 (B1₂ 내지 B1₅₀) 사이의 상호 연관도 중 가장 높은 2개(예시)와 가장 낮은 2개(예시)를 제외하고 평균을 구하는 절삭 평균이 사용될 수도 있다. 상호 연관도의 산술 평균 대신 중앙값(median)이 사용될 수도 있다.

일부 실시 예에 따르면, A1에 대한 B1₁의 연관 가중치를 계산하기 위해서 사용되는 "B1₁과 B1₂가같은 문서에 등장하는 빈도"는 단순히 B1₁과 B1₂가같이 등장하는(또는 같은 문장에 등장하는, 또는 근접하여 등장하는) 문서의 개수에 따라 달라지는 것이 아니라, B1₁과 B1₂가같이 등장하는(또는 같은 문장에 등장하는, 또는 근접하여 등장하는) 문서의 개수를 B1₁이 등장하는 문서의 개수 및/또는 B1₂이 등장하는 문서의 개수로 나누어 구할 수 있다. 유사한 방식으로 "B1₁과 B1₂가같은 문서에 등장하는 빈도"는 B1₁과 B1₂가같이 등장하는(또는 같은 문장에 등장하는, 또는 근접하여 등장하는) 문서의 개수와 양의 상관관계를 가지고 B1₁이 등장하는 문서의 개수 및/또는 B1₂이 등장하는 문서의 개수와 음의 상관관계를 가지도록 설정될 수 있다. 단순하게 흔히 사용되는 단어가 대표 속성 키워드 A1에 높은 연관 가중치를 가지는 것을 방지하기 위한 일종의 노멀라이제이션(normalization)이다.

도 5로 돌아와서, 단계 540에서 제어부(320)는 상기 제1 집합 문서들로부터 객체 항목과 하위 키워드 간의 하위 연관도를 추출할 수 있다.

제1 집합 문서들 중에서 객체 항목을 나타내는 객체 키워드(예를 들어 "테일러 스위프트")와 같은 문서, 또는 같은 문장 또는 근접한 문장에 자주 등장한 하위 키워드들은 해당 객체 항목과 연관된 것으로 판단할 수 있다. 제어부(320)는 해당 객체 항목의 객체 키워드가 등장한 문서를 수집하고, 그 문서들 내에 함께 등장한 빈도에 따라 하위 키워드와 객체 키워드 사이의 하위 연관도를 추출할 수 있다. 특히 제어부(320)는 하위 키워드가 객체 키워드와 같은 문장에 등장하면 하위 키워드가 객체 키워드와 다른 문장에 등장한 경우에 비해 하위 키워드와 객체 항목 사이의 연관도가 더 높은 것으로 설정할 수 있다.

제어부(320)는 하위 키워드가 등장한 문장이 객체 키워드가 등장한 문장과 근접할 수록 하위 키워드와 해당 객체 키워드의 객체 항목 사이의 연관도가 더 높은 것으로 설정할 수 있다. 두 문장의 근접도는 예를 들어 두 문장 사이에 위치하는 문장의 개수, 두 문장 사이에 위치하는 단어의 개수, 두 문장 사이에 위치하는 어절의 개수, 두 문장 사이에 위치하는 글자의 개수 중 어느 하나 이상을 기준으로 판단될 수 있다.

제어부(320)는 하위 키워드가 등장한 위치가 객체 키워드가 등장한 위치와 근접할 수록 하위 키워드와 해당 객체 키워드의 객체 항목 사이의 연관도가 더 높은 것으로 설정할 수 있다. 하위 키워드와 객체 키워드 사이의 근접도는 예를 들어 하위 키워드와 객체 키워드 사이에 위치하는 문장의 개수, 하위 키워드와 객체 키워드 사이에 위치하는 단어의 개수, 하위 키워드와 객체 키워드 사이에 위치하는 어절의 개수, 하위 키워드와 객체 키워드 사이에 위치하는 글자의 개수 중 어느 하나 이상을 기준으로 판단될 수 있다.

단계 550에서 제어부(320)는 단계 540의 하위 연관도 및 단계 530의 연관 가중치를 이용하여 상기 객체 항목과 상기 각 대표 속성 키워드 간의 대표 연관도를 추출할 수 있다.

예를 들어 객체 항목 C와 대표 속성 키워드 A1 사이의 대표 연관도는 C와 A1의 하위 키워드들 (예를 들어 B1₁ 내지 B1₅₀) 사이의 하위 연관도 및 각 하위 키워드들의 연관 가중치를 이용하여 추출될 수 있다. 예를 들어 객체 항목 C와 대표 속성 키워드 A1 사이의 대표 연관도는, 객체 항목 C와 B1₁ 내지 B1₅₀ 사이의 하위 연관도가 높을수록 높게 설정될 수 있다.

아울러 A1과의 관계에서 연관 가중치가 더 높은 하위 키워드에 대해서 객체 항목 C와의 하위 연관도가 높다면, 연관 가중치가 더 낮은 하위 키워드에 대해서 하위 연관도가 높은 경우에 비하여 객체 C와 대표 속성 키워드 A1 사이의 대표 연관도가 더 높게 설정될 수 있다. 예를 들어 표 1의 경우가 표 2의 경우보다 연관 가중치 높은 쪽(B1₁)의 하위 연관도가 높으므로, 표 1의 경우가 표 2의 경우보다 객체 C와 대표 속성 키워드 A1 사이의 대표 연관도가 높게 설정될 수 있다.

	A1과의 연관 가중치	C와의 하위 연관도
B1₁	0.5	0.5
B1₂	0.2	0.2

	A1과의 연관 가중치	C와의 하위 연관도
B1₁	0.2	0.5
B1₂	0.5	0.2

일 실시 예에 따르면 각 하위 키워드에 대응되는 연관가중치 및 하위 연관도를 곱한 값의 총합으로 (또는 이 총합을 이용하여) 객체 C와 대표 속성 키워드 A1 사이의 대표 연관도를 구할 수도 있다. 표 1의 경우 0.5×0.5+0.2×0.2=0.29가 되고, 표 2의 경우 0.2×0.5+0.5×0.2=0.20이 되므로, 표 1의 경우가 표 2의 경우보다 객체 C와 대표 속성 키워드 A1 사이의 대표 연관도가 높게 설정될 수 있다.

상술한 대표 연관도 산정 방식은 예시적인 것에 불과하고, 단계 540의 C와의 하위 연관도 및 단계 530의 A1과의 연관 가중치가 C 및 A1 사이의 대표 연관도와 양의 상관관계에 있다면 다른 방식이 사용되어도 무방하다.

단계 560에서, 통신부(310)가 특정 대표 속성 키워드와 연관된 검색 요청을 수신하면, 제어부(320)는 단계 550에서 추출한 대표 연관도를 기반으로 결과 항목을 통신부(310)를 통해 제공할 수 있다. 예를 들어 어느 하나의 대표 속성 키워드를 포함한 검색 요청을 수신한 경우 제어부(320)는 해당 대표 속성 키워드와의 관계에서 대표 연관도가 가장 높은 순서대로 객체 항목에 관한 정보를 제공할 수 있다.

다른 실시 예에서, 둘 이상의 대표 속성 키워드 및 그에 대응되는 가중치를 포함한 검색 요청을 수신한 경우 제어부(320)는 각 객체 항목에 대해 검색 요청에 포함된 대표 속성 키워드들과의 대표 연관도에 가중치를 곱한(또는 이와 유사하게 가중치를 부가한) 값의 총합(또는 평균)이 가장 높은 순서대로 객체 항목에 관한 정보를 제공할 수 있다.

도 8은 본 명세서의 다른 실시 예에 따르는 검색 과정의 순서도이다.

도 8의 실시 예는 도 5의 실시 예와 동일한 과정들에 더해서 단계 520과 단계 530의 사이에 두 단계들(523, 526)을 더 포함하고 있다. 여기서는 중복된 설명을 피하고 단계 523 및 단계 526에 대해서만 설명한다.

단계 523에서 제어부(320)는, 단계 520에서 추출된 하위 키워드들 각각이, 감정 언어(감정어)에 해당하는지 판단한다. 이를 위해 저장부(330) 또는 외부 서버가 감정어 사전(dictionary)를 보유할 수 있다. 감정어 사전은 어떤 단어(키워드)가 감정어인지 여부를 판단하기 위한 도구로서, 예를 들어 감정어 목록을 보유할 수 있다. 감정어 목록에 포함된 키워드는 감정어라고 할 수 있고, 그렇지 않은 키워드는 감정어가 아니라고 판단할 수 있다. 다만 이러한 판단은 사전적 의미에 기반한 것이고, 시대에 따라 변하는 대중의 단어 사용을 반영하지 못할 수 있다. 따라서 제어부(320)는 대표 속성 키워드 자체의 감정어 여부를 판단하지 않고, 대표 속성 키워드에 연관된 하위 키워드들의 감정어 여부를 기준으로 대표 속성 키워드를 활용할지 여부를 판단한다.

다른 실시 예에서 제어부(320)는 감정어 사전에 감정어인 것으로 등록된, 미리 설정된 수 이상의 단어와 연관도가 높은(미리 설정된 값 이상인) 것으로 학습된 다른 단어를 감정어 사전에 추가할 수 있다.

단계 526에서 제어부(320)는 연관된 하위 키워드의 감정 언어 비율(또는 숫자)이 높은 순서대로 미리 설정된 개수의 대표 속성 키워드만을 대표 속성 키워드 후보집합 내에 남기고 나머지를 제거할 수 있다. 이러한 과정을 통해 감정 언어와 거리가 먼 키워드가 감정 언어처럼 취급되는 것을 방지할 수 있다.

이 때, 처리 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

이 때, 본 실시 예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.

본 명세서가 속하는 기술분야의 통상의 지식을 가진 자는 본 명세서가 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 명세서의 범위는 상기 상세한 설명보다는 후술하는 특허청구의 범위에 의하여 나타내어지며, 특허청구의 범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 명세서의 범위에 포함되는 것으로 해석되어야 한다.

한편, 본 명세서와 도면에는 본 명세서의 바람직한 실시 예에 대하여 개시하였으며, 비록 특정 용어들이 사용되었으나, 이는 단지 본 명세서의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 명세서의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예 외에도 본 명세서의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 명세서가 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims

제1 집합 문서들로부터 대표 속성 키워드 후보집합을 추출하는 단계;
제2 집합 문서들로부터 상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 연관된 둘 이상의 하위 키워드들을 추출하는 단계;
상기 제2 집합 문서들로부터 상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 하위 키워드 쌍에 대응되는 연관 가중치를 추출하는 단계;
상기 제1 집합 문서들로부터 객체 항목과 하위 키워드 간의 하위 연관도를 추출하는 단계;
상기 하위 연관도 및 상기 연관 가중치를 이용하여 상기 객체 항목과 상기 각 대표 속성 키워드 간의 대표 연관도를 추출하는 단계; 및
상기 대표 속성 키워드와 연관된 검색 요청을 수신하면, 객체 항목과 상기 대표 속성 키워드와의 대표 연관도를 기반으로 검색 결과 항목을 제공하는 단계를 포함하는 속성 언어를 이용한 검색 방법.
제1항에 있어서,
제2 집합 문서들로부터 상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 연관된 둘 이상의 하위 키워드들을 추출하는 단계는,
상기 제2 집합 문서 중 적어도 일부를 분석하여 각 대표 속성 키워드와 가장 연관도가 높은 하위 키워드들을 미리 설정된 개수만큼 추출하는 단계를 포함하고,
상기 제2 집합 문서들로부터 상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 하위 키워드 쌍에 대응되는 연관 가중치를 추출하는 단계는,
상기 제2 집합 문서 중 적어도 일부를 분석하여 상기 하위 키워드들 사이의 상호 연관도를 추출하는 단계; 및
상기 하위 키워드들 사이의 상호 연관도를 기초로 각 대표 속성 키워드와 하위 키워드 간의 연관 가중치를 추출하는 단계를 포함하는 속성 언어를 이용한 검색 방법.
제2항에 있어서,
상기 제2 집합 문서 중 적어도 일부를 분석하여 각 대표 속성 키워드와 가장 연관도가 높은 하위 키워드들을 미리 설정된 개수만큼 추출하는 단계는,
하위 키워드가 대표 속성 키워드와 동일 또는 유사한 문맥에 등장하는 빈도를 고려하여 대표 속성 키워드와 하위 키워드 사이의 연관도를 판단하는 단계를 포함하는 속성 언어를 이용한 검색 방법.
제2항에 있어서,
상기 제2 집합 문서 중 적어도 일부를 분석하여 상기 하위 키워드들 사이의 상호 연관도를 추출하는 단계는,
두 하위 키워드가 같은 문서에 함께 등장하는 빈도를 이용하여 두 하위 키워드 사이의 상호 연관도를 판단하는 단계를 포함하고,
상기 하위 키워드들 사이의 상호 연관도를 기초로 각 대표 속성 키워드와 하위 키워드 간의 연관 가중치를 추출하는 단계는,
각 대표 속성 키워드에 상응하는 하위 키워드 집합에 대하여, 상기 하위 키워드 집합 내의 특정 하위 키워드와 상기 하위 키워드 집합 내의 다른 하위 키워드 간의 상호 연관도와 상기 특정 하위 키워드와 상기 대표 속성 키워드 사이의 연관 가중치가 양의 상관관계를 가지도록 상기 특정 하위 키워드와 상기 대표 속성 키워드 사이의 연관 가중치를 설정하는 단계를 포함하는 속성 언어를 이용한 검색 방법.
제1항에 있어서,
제1 집합 문서들로부터 대표 속성 키워드 후보집합을 추출하는 단계는,
특정 분야 자체를 나타내는 분야 키워드와 같은 문서에 등장하는 키워드들을 제1 속성 키워드 후보집합으로 설정하는 단계;
상기 특정 분야에 속하는 객체 항목을 나타내는 객체 키워드와 같은 문서에 등장하는 키워드들을 제2 속성 키워드 후보집합으로 설정하는 단계; 및
상기 제1 속성 키워드 후보집합 및 상기 제2 속성 키워드 후보집합 모두에 속한 키워드들을 상기 대표 속성 키워드 후보집합으로 설정하는 단계를 포함하는 속성 언어를 이용한 검색 방법.
제1항에 있어서,
제2 집합 문서들로부터 상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 연관된 둘 이상의 하위 키워드들을 추출하는 단계 이후에,
상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 연관된 하위 키워드가 감정 언어에 해당하는지 판단하는 단계; 및
연관된 하위 키워드의 감정 언어 비중 또는 감정 언어 숫자가 큰 순서대로 미리 설정된 개수만큼의 대표 속성 키워드를 상기 대표 속성 키워드 후보집합 내에 남기고 나머지는 상기 대표 속성 키워드 후보집합으로부터 제거하는 단계를 포함하는 속성 언어를 이용한 검색 방법.
제1 집합 문서들로부터 대표 속성 키워드 후보집합을 추출하고, 제2 집합 문서들로부터 상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 연관된 둘 이상의 하위 키워드들을 추출하고, 상기 제2 집합 문서들로부터 상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 하위 키워드 쌍에 대응되는 연관 가중치를 추출하고,상기 제1 집합 문서들로부터 객체 항목과 하위 키워드 간의 하위 연관도를 추출하고, 상기 하위 연관도 및 상기 연관 가중치를 이용하여 상기 객체 항목과 상기 각 대표 속성 키워드 간의 대표 연관도를 추출하는 제어부; 및
상기 대표 속성 키워드와 연관된 검색 요청을 수신하는 통신부를 포함하고,
상기 통신부가 상기 대표 속성 키워드와 연관된 검색 요청을 수신하면, 상기 제어부는 객체 항목과 상기 대표 속성 키워드와의 대표 연관도를 기반으로 검색 결과 항목을 제공하는 속성 언어를 이용한 검색 장치.
제7항에 있어서,
상기 제어부는 상기 제2 집합 문서 중 적어도 일부를 분석하여 각 대표 속성 키워드와 가장 연관도가 높은 하위 키워드들을 미리 설정된 개수만큼 추출하여 제2 집합 문서들로부터 상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 연관된 둘 이상의 하위 키워드들을 추출하고,
상기 제어부는 상기 제2 집합 문서 중 적어도 일부를 분석하여 상기 하위 키워드들 사이의 상호 연관도를 추출하고, 상기 하위 키워드들 사이의 상호 연관도를 기초로 각 대표 속성 키워드와 하위 키워드 간의 연관 가중치를 추출하여 상기 제2 집합 문서들로부터 상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 하위 키워드 쌍에 대응되는 연관 가중치를 추출하는 속성 언어를 이용한 검색 장치.
제8항에 있어서,
상기 제어부는 하위 키워드가 대표 속성 키워드와 동일 또는 유사한 문맥에 등장하는 빈도를 고려하여 대표 속성 키워드와 하위 키워드 사이의 연관도를 판단하는 속성 언어를 이용한 검색 장치.
제8항에 있어서,
상기 제어부는 두 하위 키워드가 같은 문서에 함께 등장하는 빈도를 이용하여 두 하위 키워드 사이의 상호 연관도를 판단하고,
상기 제어부는 각 대표 속성 키워드에 상응하는 하위 키워드 집합에 대하여, 상기 하위 키워드 집합 내의 특정 하위 키워드와 상기 하위 키워드 집합 내의 다른 하위 키워드 간의 상호 연관도와 상기 특정 하위 키워드와 상기 대표 속성 키워드 사이의 연관 가중치가 양의 상관관계를 가지도록 상기 특정 하위 키워드와 상기 대표 속성 키워드 사이의 연관 가중치를 설정하는 속성 언어를 이용한 검색 장치.
제7항에 있어서,
상기 제어부는 특정 분야 자체를 나타내는 분야 키워드와 같은 문서에 등장하는 키워드들을 제1 속성 키워드 후보집합으로 설정하고, 상기 특정 분야에 속하는 객체 항목을 나타내는 객체 키워드와 같은 문서에 등장하는 키워드들을 제2 속성 키워드 후보집합으로 설정하고, 상기 제1 속성 키워드 후보집합 및 상기 제2 속성 키워드 후보집합 모두에 속한 키워드들을 상기 대표 속성 키워드 후보집합으로 설정하여 제1 집합 문서들로부터 대표 속성 키워드 후보집합을 추출하는 속성 언어를 이용한 검색 장치.
제7항에 있어서,
상기 제어부가 제2 집합 문서들로부터 상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 연관된 둘 이상의 하위 키워드들을 추출한 이후에,
상기 제어부는 상기 대표 속성 키워드 후보집합 내 각 대표 속성 키워드와 연관된 하위 키워드가 감정 언어에 해당하는지 판단하고, 연관된 하위 키워드의 감정 언어 비중 또는 감정 언어 숫자가 큰 순서대로 미리 설정된 개수만큼의 대표 속성 키워드를 상기 대표 속성 키워드 후보집합 내에 남기고 나머지는 상기 대표 속성 키워드 후보집합으로부터 제거하는 속성 언어를 이용한 검색 장치.