KR20090089096A - 질의어 개념화를 구현하는 문맥 연관 검색 시스템 및 방법 - Google Patents

질의어 개념화를 구현하는 문맥 연관 검색 시스템 및 방법 Download PDF

Info

Publication number
KR20090089096A
KR20090089096A KR1020080014459A KR20080014459A KR20090089096A KR 20090089096 A KR20090089096 A KR 20090089096A KR 1020080014459 A KR1020080014459 A KR 1020080014459A KR 20080014459 A KR20080014459 A KR 20080014459A KR 20090089096 A KR20090089096 A KR 20090089096A
Authority
KR
South Korea
Prior art keywords
word
content
attribute
query
attribute word
Prior art date
Application number
KR1020080014459A
Other languages
English (en)
Inventor
유승열
민경섭
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020080014459A priority Critical patent/KR20090089096A/ko
Priority to US12/370,832 priority patent/US20090210402A1/en
Publication of KR20090089096A publication Critical patent/KR20090089096A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion

Abstract

질의어 개념화를 구현하는 문맥 연관 검색 시스템 및 방법이 제공된다. 본 발명의 일 실시예에 따른 질의어 개념화를 구현하는 문맥 연관 검색 시스템은 사용자로부터 질의어를 입력 받는 사용자 입력부, 상기 입력된 질의어의 의미를 구체화하는 하나 이상의 속성어를 추출하는 속성어 추출부, 상기 추출된 하나 이상의 속성어 중에서 하나 이상의 관련 속성어를 선택하는 관련 속성어 선택부, 및 상기 선택된 관련 속성어 및 상기 질의어에 따라 소정의 컨텐츠들을 분류하는 컨텐츠 분류부를 포함한다.
질의어 개념화, 질의어, 컨텐츠 요약, 상관성, 문맥 교차, 검색

Description

질의어 개념화를 구현하는 문맥 연관 검색 시스템 및 방법{System and method for contextual association discovery to make concept of user query}
본 발명은 질의어 개념화를 구현하는 문맥 연관 검색 방법 및 시스템에 관한 것으로, 더욱 상세하게는 문서 검색에 있어서 내용 요약(Contents summarization)에 근거하여 질의어를 개념화하는 검색 방법 및 시스템에 관한 것이다.
저장 매체의 용량이 계속적으로 대형화되면서 저장할 수 있는 컨텐츠의 양이 기하급수적으로 증가하고 있다. 이와 함께, 유선 또는 무선 통신 기술의 발전에 의하여 사용자는 검색 엔진을 통하여 세계 도처에 위치하는 웹 사이트와 각 서버의 저장소(Repository)에 있는 수많은 컨텐츠에 액세스할 수 있다.
따라서, 온라인 또는 오프라인 상의 수많은 컨텐츠에 대하여 검색을 함에 있어서, 사용자는 단순한 질의어를 입력함으로써 수많은 컨텐츠의 검색을 시도한다. 하지만, 단순한 질의어의 입력은 질의어 자체의 모호함을 내포하고 있어서, 검색 엔진에 의한 검색이 사용자의 검색 의도에 부합하는 컨텐츠를 검색할 수도 있고, 전혀 의도하지 아니한 컨텐츠를 검색할 수도 있다.
한편, 사용자는 자신의 검색 의도를 질의어를 통하여 검색 엔진에 입력할 수 있다. 하지만, 사용자는 자신의 의도 또는 자신의 검색하고자 하는 대상을 명확하게 알지 못하거나 또는 검색 대상이 명확히 개념화 되지 않은 상태이므로, 적합한 질의어를 선택하기가 쉽지 않다.
이와 함께, 사용자 입장에서는 간단한 질의어를 통하여 검색의 대상이 되는 수많은 컨텐츠의 내용 정보를 간략히 파악하거나, 계속적인 검색 엔진과의 상호 작용에 의하여 자신이 검색하고자 하는 대상을 명확히 하는 과정이 필요하다.
따라서, 사용자는 질의어를 바탕으로 사용자의 질의어를 개념화시키면서 사용자의 질의 의도 또는 개념화된 어휘에 관련성 있는 컨텐츠를 분류하여 제공할 수 있는 방법 및 시스템이 필요하다.
본 발명의 일 실시예에서는 접근 가능한 컨텐츠의 내용 요약을 바탕으로 하여 사용자의 질의어를 개념화시킬 수 있는 문맥 연관 검색 방법 및 시스템을 제공하는 것을 목적으로 한다.
이와 함께, 사용자의 질의어를 개념화 시키면서, 접근 가능한 컨텐츠를 개념화된 어휘에 따라 분류하여 연관성이 높은 컨텐츠를 용이하게 추출할 수 있는 문맥 연관 검색 방법 및 시스템을 제공하는 것을 목적으로 한다.
또한, 질의어 입력과 관련 속성어를 선택하여 사용자로 하여금 자신의 검색 의도 또는 질의어의 개념을 용이하게 구체화 할 수 있는 문맥 연관 검색 방법 및 시스템을 제공하는 것을 목적으로 한다.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위하여 본 발명의 일 실시예에 따른 질의어 개념화를 구현하는 문맥 연관 검색 시스템은 사용자로부터 질의어를 입력 받는 사용자 입력부; 상기 입력된 질의어의 의미를 구체화하는 하나 이상의 속성어를 추출하는 속성어 추출부; 상기 추출된 하나 이상의 속성어 중에서 하나 이상의 관련 속성어를 선택하는 관련 속성어 선택부; 및 상기 선택된 관련 속성어 및 상기 질의어에 따라 소정의 컨텐츠들을 분류하는 컨텐츠 분류부를 포함한다.
상기 목적을 달성하기 위하여 본 발명의 다른 실시예에 따른 질의어 개념화를 구현하는 문맥 연관 검색 방법은 사용자로부터 질의어를 입력 받는 단계; 상기 입력된 질의어의 의미를 구체화하는 하나 이상의 속성어를 추출하는 단계; 상기 추출된 하나 이상의 속성어 중에서 하나 이상의 관련 속성어를 선택하는 단계; 및 상기 선택된 관련 속성어 및 상기 질의어에 따라 소정의 컨텐츠들을 분류하는 단계를 포함한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
상기한 바와 같은 본 발명의 일 실시예에 따르면, 접근 가능한 컨텐츠의 내용 요약을 바탕으로 사용자의 질의어를 사용자의 질의 의도를 반영하여 개념화시킬 수 있다.
이와 함께, 사용자의 질의어를 개념화 시키면서, 접근 가능한 컨텐츠를 개념화된 어휘에 따라 분류하여 연관성이 높은 컨텐츠를 용이하게 추출할 수 있다.
또한, 질의어 입력과 관련 속성어를 선택으로 인하여 사용자로 하여금 자신의 검색 의도를 특성화시키거나 또는 질의어를 구체적으로 개념화 할 수 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
이하, 본 발명의 실시예들에 의하여 본 발명의 일 실시예에 따른 3차원 메쉬 모델의 메쉬 데이터의 압축 및 복원 방법 및 시스템을 설명하기 위한 블록도 또는 처리 흐름도에 대한 도면들을 참고하여 본 발명에 대해 설명하도록 한다. 이 때, 처리 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
이 때, 본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성 요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함할 수 있다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 질의어 개념화를 구현하는 문맥 연관 검색 시스템의 블록도를 보여준다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 질의어 개념화를 구현하는 문맥 연관 검색 시스템(100)은 사용자 입력부(110), 컨텐츠 수집부(250), 컨텐츠 요약부(200), 상식 제공부(400), 속성어 추출부(300), 관련 속성어 채택부(500), 컨텐츠 분류부(600), 출력부(550) 및 연관 관계 저장부(700)를 포함할 수 있다.
한편, 본 발명의 일 실시예에서 언급하는 컨텐츠는 내용 정보를 요약할 수 있는 다양한 종류의 객체를 말한다. 예를 들어, 컨텐츠가 문서라면, 문서에 대하여는 각 문서에 대한 구문 정보를 추출하여 내용 정보를 요약할 수 있다. 이는 컨텐츠 수집부(250)에 의하여 유선 또는 무선 네트워크를 통하여 접근 가능한 웹 사이트의 웹 문서 등에 대하여도 적용될 수 있다. 또는, 컨텐츠가 동영상 또는 이미지 등에 해당되면 상기 컨텐츠에 포함된 메타 데이터, 자막 정보, 등장 인물 정보 등을 추출하여 내용 정보로 요약할 수도 있다. 이와 같이, 컨텐츠는 내용 정보를 추 출할 수 있는 접근 가능한 모든 객체를 포함할 수 있다.
사용자 입력부(110)는 사용자로부터 질의어 등의 입력을 받아들인다. 사용자 입력부(110)는 사용자가 본 발명의 일 실시예에 따른 질의어 개념화를 구현하는 문맥 연관 검색 시스템과 질의어 등의 입력을 전달 받는 인터페이스 역할을 한다. 예를 들어, 사용자는 키보드, 마우스, 터치스크린, 펜 등의 입력 기기(미도시됨)를 이용하여 질의어 등을 입력하고, 사용자 입력부(110)는 해당 입력 정보를 전달 받아 본 발명의 일 실시예에 따른 문맥 연관 시스템에 전송한다.
한편, 사용자 입력부(110)는 사용자가 사용하는 클라이언트(Client)로부터 사용자의 입력 정보를 수신하여 본 발명의 일 실시예에 따른 문맥 연관 시스템에 전송할 수 있다. 따라서, 사용자 입력부(110)는 인터넷, 인트라넷, 가상 사설 네트워크(VPN) 등을 토대로 하는 네트워크 또는 임의의 LAN(Local area network) 또는 WAN(Wide area network) 등과 같은 네트워크를 통하여 사용자에 의해 입력된 입력 정보를 전달 받을 수 있다.
출력부(550)는 속성어 추출부(300), 관련 속성어 선택부(500), 컨텐츠 분류부(600) 등에서 출력되는 정보를 디스플레이 할 수 있다. 출력부(550)는 일반적인 CRT(Cathode-Ray Tube), LCD(Liquid Crystal Display, PDP(Plasma Display Panel), OLED(Organic Light Emitting Diodes), ECD(Electro Chromic Display) 등의 디스플레이 기기에 의하여 사용자에게 정보를 시각적으로 화면에 보여줄 수 있다.
컨텐츠 수집부(250)는 컨텐츠 요약부(200)에 의하여 내용을 요약할 대상이 되는 컨텐츠를 수집한다. 컨텐츠 수집부(250)는 임의의 저장소 또는 임의의 컴퓨 터, 휴대폰, PDA 등의 사용자 기기에 저장되어 있는 컨텐츠를 수집할 수 있다. 또한 컨텐츠 수집부(250)는 유선 또는 무선 네트워크를 통하여 접근 가능한 다양한 컨텐츠를 수집할 수도 있다. 한편, 컨텐츠 수집부(250)는 컨텐츠를 수집하여 저장부(미도시됨)에 저장할 수 있으며, 또는 유선 또는 무선 네트워크를 통하여 접근 가능한 다양한 컨텐츠에 대하여는 접근 할 수 있는 링크 정보만을 저장할 수도 있다.
컨텐츠 요약부(200)는 컨텐츠의 내용을 구조적으로 요약할 수 있다. 컨텐츠 요약부(200)는 컨텐츠에 포함되는 구문을 추출하여, 구조적으로 분석할 수 있다. 예를 들어, 컨텐츠 요약부(200)는 신택스 태깅(Syntax tagging), 구 추출(Phrase chunking) 및 세그멘테이션(Segmentation) 등의 구문 처리에 의하여 컨텐츠 내용을 구조적으로 요약할 수 있다.
속성어 추출부(300)는 사용자의 질의어 또는 선택된 어휘에 대한 속성어를 추출할 수 있다. 속성어는 해당되는 질의어 또는 선택된 어휘의 의미를 보다 개념화하여 표현하거나 또는 보다 구체화하여 표현하는 단어를 말한다.
속성어 추출의 일례로서 질의어에 대한 사전 정보 또는 정의된 의미 정보를 제공하는 상식 제공부(400)로부터 제공받아 추출할 수 있다. 속성어 추출의 다른 예로서, 컨텐츠 요약부로부터 컨텐츠 요약된 내용을 바탕으로 이루어질 수도 있다. 속성어 추출의 또다른 예로서, 소정의 컨텐츠 집합 또는 컨텐츠의 서브 집합으로부터 직접적으로 구문 정보를 파악하여 이루어질 수도 있다. 한편, 속성어의 추출은 상기 예시된 세가지 방법에 의하여 추출하는 것에 제한되지 않으며, 통상의 방식에 의한 관련어의 추출하는 기법도 포함될 수 있다. 또한, 속성어의 추출에 대하여는 상기 예시된 세가지 방법 중 우선 순위를 지정할 수 있고 우선 순위에 따라 속성어를 추출할 수도 있다.
상식 제공부(400)는 일반적인 단어 또는 용어에 대한 정의 정보를 제공할 수 있다. 상식 제공부(400)는 소정의 용어 사전, 백과 사전 등의 일반적으로 통용되는 단어 또는 용어에 대한 정의 정보를 속성어 추출부(300)에 제공할 수 있다. 상식 제공부(400)는 사용자가 초기에 입력하는 질의어를 일반적으로 통용되는 정의 또는 의미 정보를 제공하여, 속성어 추출부(300)로 하여금 속성어의 추출을 일정한 범위로 한정할 수 있다.
예를 들어, 만일 사용자가 초기 질의어로 "Java platform for web service"라는 용어를 입력하는 경우에는 실질적으로 사용자의 질의어는 하나로 고정되는 것이 아니라 "java, platform, web, service, java platform, web service" 등의 6개의 어휘로 분리될 수 있고, 이를 상식 제공부(400)에게 상기 분리된 6개의 어휘에 대한 속성어를 추출하도록 한다. 따라서, 분리된 6개에 대한 어휘에 대한 속성어의 추출이 비교적 간단해 질 수 있다.
한편, 상기 6개의 분리된 어휘에 대하여 컨텐츠 요약부(200)로부터 관련성 있는 문서를 추출하여, 추출된 문서로부터 속성어를 추출할 수도 있다. 이 때에는, 각 분리된 어휘에 대하여 각각 문서가 추출되고, 추출된 문서로부터 복수의 속성어가 추출되어 예상보다 많은 속성어가 추출될 수도 있다. 따라서, 사용자의 질의어가 길어질 때에는 상식제공부(400)에서 제공된 정의 정보에 의하여 속성어를 추출 하는 것이 시스템의 부하를 상대적으로 적게 할 수 있다.
관련 속성어 선택부(500)는 추출된 속성어 중에서 관련성이 높다고 판단되는 속성어를 선택한다. 예를 들어, 추출된 속성어 중에서 접근 가능한 다양한 컨텐츠를 구조적으로 분석한 결과 추출된 속성어와의 관련성 여부를 검토한다. 관련성 여부에 대하여 정량적인 값을 생성하여, 순위에 따라 추출된 속성어를 나열하고, 나열된 속성어 중 하나 이상을 관련 속성어로 선택할 수 있다. 관련 속성어의 선택은 사용자에 의하여 인터랙티브(Interactive)하게 이루어질 수 도 있고, 시스템에서 관련성이 높은 순위의 몇 개의 속성어를 자동적으로 선택하게 할 수도 있다.
컨텐츠 분류부(600)는 소정의 컨텐츠 집합을 선택된 관련 속성어에 따라 분류할 수 있다. 컨텐츠 분류부(600)는 소정의 컨텐츠 집합을 선택하고, 선택된 컨텐츠 집합에서 각 관련 속성어에 따라 컨텐츠를 분류할 수 있다. 따라서, 관련 속성어에 따라 컨텐츠를 분류함으로써, 하나 이상의 관련 속성어에 대하여 각각의 컨텐츠 집합이 생성될 수 있다.
컨텐츠 분류부(600)의 컨텐츠 분류는 다양한 방법에 의해 가능하다. 예를 들어, 새로이 선택된 관련 속성어들과 이전에 선택되었던 관련 속성어들 사이에 소정의 컨텐츠 집합 내의 컨텐츠에서 나타나는 용어들 간에 유사도 정도를 수치화하여 컨텐츠를 분류하는 벡터 모델(Vector model)이 적용될 수 있다.
상기와 같이, 본 발명의 일 실시예에 따르면 사용자로부터 입력된 질의어로 시작하여, 사용자의 질의어를 개념화 할 수 있는 속성어 추출과 관련 속성어를 선택할 수 있다. 선택된 관련 속성어에 따라 컨텐츠를 분류함으로써 질의어의 개념화 에 따라 컨텐츠가 자동적으로 분류될 수 있다. 이와 함께, 사용자의 질의어로부터 관련 속성어의 추가에 따라 사용자의 질의 의도에 부합하는 소정의 개념 모델(Concept model)이 생성될 수 있다.
한편, 본 발명의 일 실시예에 따른 질의어 개념화를 구현하는 문맥 연관 검색 시스템은 연관 관계 저장부(700)를 더 포함할 수 있다. 연관 관계 저장부(700)는 본 발명의 일 실시예에 따른 시스템에 의하여 생성된 소정의 개념 모델을 저장할 수 있다. 여기서, 개념 모델은 본 발명의 일 실시예에 따라 질의어 및 선택된 관련 속성어에 따라 분류되는 컨텐츠 집합의 정보를 문맥 연관 정보(Contextual association information)로 하여 저장할 수 있다. 한편, 본 발명의 일 실시예에 따른 문맥 연관 정보는 트리 구조와 유사하게 생성되는 계층 구조 정보를 포함할 수 있다.
도 2는 본 발명의 일 실시예에 따른 질의어 개념화를 구현하는 문맥 연관 검색 시스템에서 컨텐츠 요약부의 블록도를 보여준다.
도 2를 참조하면, 컨텐츠 요약부(200)는 컨텐츠 수집부(250)로부터 컨텐츠를 제공 받아 컨텐츠의 내용을 요약할 수 있다. 컨텐츠 요약부(200)는 컨텐츠 등록 확인부(220), 컨텐츠 구조화부(230) 및 인덱스 데이터베이스(240)를 포함할 수 있다. 한편, 컨텐츠 요약부(200)는 본 발명의 일 실시예에 따른 질의어 개념화를 구현하는 문맥 연관 검색 시스템과 분리될 수도 있으며, 본 발명의 일 실시예에 따라 작동하기 전에 이미 컨텐츠 요약부(200)에 의해 전처리 되어 컨텐츠 요약 정보를 저장부(미도시됨)에 저장해 둘 수 있다.
컨텐츠 등록 확인부(220)는 컨텐츠 요약을 하기 전에 컨텐츠의 중복 여부를 확인한다. 컨텐츠 등록 확인부(220)는 이미 처리된 다른 컨텐츠의 컨텐츠 요약 정보 또는 컨텐츠 데이터를 비교하여 중복 여부를 확인한다. 중복된 컨텐츠인 경우에는 중복 여부를 표시하고, 컨텐츠 요약을 생략하거나, 이미 처리된 컨텐츠 요약 정보와 동일하게 처리할 수 있다.
컨텐츠 구조화부(230)는 컨텐츠에 포함되는 구문 정보를 추출하여, 구조적으로 분석할 수 있다. 컨텐츠 구조화부(230)는 신택스 태깅(Syntax tagging), 구 추출(Phrase chunking) 및 세그멘테이션(Segmentation) 등의 언어 처리에 의하여 컨텐츠 내용을 구조적으로 요약할 수 있다.
신택스 태깅(Syntax tagging)은 컨텐츠에 포함되어 있는 문장을 구문 분석을 통하여 복수개의 구성 성분으로 분해하고, 분해된 구성 성분 사이에 위계 관계를 분석하여 문장의 구조를 결정할 수 있다. 신택스 태깅을 통하여 컨텐츠에 포함된 문서 전반에 걸쳐 문서의 구조, 즉 예를 들어 문서의 장, 절, 단락 등의 구분이 가능하다.
구 추출(Phrase chunking)은 문장의 구조가 분석되면, 각 구성 성분을 추출한다. 구 추출을 통하여, 문서 전반에 걸쳐 사용되는 단어, 용어 등을 추출할 수 있다.
세그멘테이션(Segmentation)은 컨텐츠에 포함되어 있는 문장 전반을 구조화한다. 여기서, 문장 전반의 구조화는 각 단어의 출현 횟수, 각 단어의 문서 내부에서의 위치 등의 고려하여 컨텐츠에 포함된 문서의 내용을 요약한다. 따라서, 세크 멘테이션에 의하여 컨텐츠에 포함된 문서들을 구조화시켜 컨텐츠 내용을 요약시킬 수 있다.
인덱스 데이터베이스(240)는 컨텐츠 요약에 따라 구조적으로 정리하여 저장한다. 인덱스 데이터베이스(240)는 각 컨텐츠에 대하여 문서 요약부(200)에 의하여 요약된 단어의 인덱스를 저장할 수 있다. 여기서, 인덱스는 소정의 단어 또는 어휘에 대한 출현 빈도수 및 단어의 위치를 말한다. 한편, 본 발명의 일 실시예에서는 소정의 단어 또는 어휘에 대한 출현 빈도수뿐만 아니라, 소정의 단어가 각 컨텐츠에 위치하는 부분에 대한 정보도 함께 포함될 수 있다.
도 3은 본 발명의 일 실시예에 따른 질의어 개념화를 구현하는 문맥 연관 검색 시스템의 동작에 따른 예를 보여주며, 도 4는 도 3의 각 계층에서의 도출되는 정보를 보여준다.
도 3 및 도 4에서와 같이, 예를 들어 사용자가 질의어로 'Java'라는 단어를 입력하는 경우를 살펴보기로 한다. 사용자 입력부(110)는 'Java'라는 단어를 속성어 추출부(200)에 전송하면, 속성어 추출부(200)는 상기 입력된 'Java'라는 단어에 대한 속성어를 추출한다.
한편, 본 발명의 일 실시예에서의 컨텐츠 검색에 있어서, 상위 노드에서 하위 노드로 내려가면서 각 단계를 '계층'이라고 지칭할 수 있다. 따라서, 사용자의 의한 초기 질의어에 의해 컨텐츠 집합이 추출되는 단계를 '제1 계층'이라 할 수 있고, 초기 질의어에 대한 관련 속성어가 선택되어 다시 컨텐츠 집합이 추출되면 이를 '제2 계층'이라 칭할 수 있다. 이와 같이, 계층 수가 커짐으로 인하여 관련 속 성어들이 계속적으로 부가되어 사용자의 질의어를 개념화 또는 구체화 시킬 수 있다.
속성어 추출부(200)는 상식 제공부(400)에 'Java'라는 단어에 대한 정의 정보를 요청할 수 있고, 상식 제공부(400)는 'Java'라는 단어에 대한 정의 정보를 제공할 수 있다.
예를 들어, 상식 제공부(400)에서 구비하는 용어 사전에 의하여 'Java'의 용어 정의 다음과 같이 세가지로 구분되고, 세 개의 정의 문장으로 나열될 수 있다.
(1) Java Programming language: (n) a platform-independent object-oriented programming language)
(2) Java coffee: (n) a beverage consisting of an infusion of ground coffee beans) " he ordered a cup of coffee "
(3) Java Island: (n) an island in Indonesia to the south of Borneo; one of the world's most densely populated regions
따라서, 속성어 추출부(200)는 상기 상식 제공부(400)로부터 제공된 용어 정의에 의하여 'Java'라는 용어에 대하여 도 4에서와 같이 {Program Language, Coffee, Island, ...} 등등의 속성어(330)를 추출할 수 있다. 여기서, 속성어(330)는 상기 질의어 'Java'와 관련되는 모든 용어를 의미하며, 따라서, 상기 정의되어 있는 'Java'의 세 가지 정의 문장의 모든 단어들이 속성어 후보가 될 수 있다.
한편, 사용자의 질의어 'Java'에 대하여 컨텐츠 요약부(200)는 'Java'와 관련된 컨텐츠들을 모은 컨텐츠 집합(350)을 일반적인 검색 엔진 또는 인덱스 데이터 베이스(240)를 이용하여 추출할 수 있고, 추출된 컨텐츠들을 컨텐츠 집합으로 하여 속성어 추출부(200)에 제공할 수 있다. 예를 들어, 도 4에서와 같이 'Java'와 관련된 컨텐츠들이 {A1, A2, A3, A4, C1, C2, C3, C4, J1, J2, J3, J4, G1, G2, G3, G4}의 제1 컨텐츠 집합(351)으로 추출될 수 있다.
속성어 추출부(200)가 속성어(330)를 추출하는 다른 예로서, 현재 추출된 컨텐츠 집합(350)으로부터 속성어를 추출할 수 있다. 예를 들어, 사용자 질의어 'Java'에 대하여 제1 컨텐츠 집합(351)인 {A1, A2, A3, A4, C1, C2, C3, C4, J1, J2, J3, J4, G1, G2, G3, G4}의 컨텐츠 내용을 구조적으로 분석하여 속성어(330)를 추출할 수 있다. 또는 제1 셋의 각 컨텐츠에 대한 컨텐츠 요약 정보를 컨텐츠 내용 요약부(200)의 인덱스 데이터베이스(240)로부터 전달 받아 속성어(330)를 추출할 수도 있다.
상기와 같이, 사용자 질의어 'Java'에 대하여는 {Program Language, Coffee, Island, ...} 등의 하나 이상의 속성어(330)가 추출될 수 있고, 관련 속성어 선택부(500)는 추출된 하나 이상의 속성어 중에서 관련 속성어를 선택할 수 있다. 여기서, 관련 속성어는 추출된 속성어 중에서 질의어의 의미를 개념적으로 구체화 시켜주도록 하는 속성어를 말한다. 또는 관련 속성어는 사용자의 의도에 부합되게 질의어를 구체화시켜 개념화하는 속성어를 말할 수도 있다. 따라서, 관련 속성어는 하나 이상의 속성어의 부분 집합이며, 예를 들어, {Program Language, Coffee, Island, ...}에 대한 속성어들 중에서, 관련 속성어로 {Program Language, Coffee}가 선택될 수 있다.
따라서, 관련 속성어는 추출될 속성어들 중에서 질의어를 보다 구체적으로 한정하거나 또는 사용자의 질의 의도를 특성화시키도록 선택될 수 있다. 선택되는 관련 속성어는 하나 이상이 선택될 수 있고, 사용자에 의하여 선택되거나 또는 본 발명의 일 실시예에 따른 시스템에 의하여 순위가 높은 하나 이상의 속성어로부터 자동적으로 선택될 수도 있다.
예를 들어, 도 3에서와 같이 'Java'에 대하여는 관련 속성어로서 'Program Language', 'Coffee' 및 'Island'가 선택될 수 있다. 이 때, Java의 단어가 포함되고, Java의 일정한 관련성을 가지지만, 관련 속성어와 관련성이 임계치 이하여서 기타(Etc)로 분류되는 컨텐츠들도 있다.
한편, 본 발명의 일 실시예에서는 속성어 나열에 있어, 단순한 알파벳 또는 자음 순서에 따를 수도 있지만 질의어 또는 대표어에 관련성이 높은 순서로 속성어를 나열할 수도 있다. 한편, 관련성에 대한 정량적인 분석인 컨텐츠 집합으로부터 각 속성어의 빈도 수, 각 속성어의 가중치, 다른 속성어와의 관계 등의 다양한 상관 관계를 검토하여 수치화 할 수 있다. 여기서, 대표어는 현재 계층에서의 사용자의 질의어를 개념화하여 나타내는 하나의 어휘를 말한다. 따라서, 제1 계층에서 사용자가 질의어 입력 시에는 대표어가 바로 '질의어'가 되며, 제2 계층에서는 질의어와 각 관련 속성어를 종합하는 각 대표어가 생성될 수 있다.
관련 속성어가 선택되면, 컨텐츠 분류부(600)는 각 관련 속성어에 따라 컨텐츠를 분류할 수 있다. 예를 들어, 관련 속성어 중에 하나인 'Program Language'에 대하여는 'Java Program Language'라는 대표어(370)로 지칭될 수 있다. 여기서, 대 표어(370)는 관련 속성어와 상위 계층에서의 질의어를 종합적으로 고려하여 표현되는 대표적인 어휘를 말한다. 또는 대표어(370)는 관련 속성어와 상위 계층에서의 관련 속성어를 종합적으로 고려하여 표현되는 대표적인 어휘를 말한다. 또한, 대표어(370)는 현재 계층에서의 관련 속성어를 대표적으로 나타내는 어휘를 지칭할 수도 있어, 관련 속성어를 대표어(370)로 대체할 수도 있다. 예를 들어, 'Program Language'에 대하여는 'Java Program Language'으로 대체될 수도 있다.
컨텐츠 분류부(600)는 상기 'Java Program Language'에 관련성이 높은 제2 컨텐츠 집합(352)을 제1 컨텐츠 집합(351)으로부터 {J1, J2, J3, A1, A2, A4, C1, C3, C4, G2, G4}으로 추출할 수 있다.
관련 속성어 중에 다른 하나인 'Coffee'에 대하여는 'Java Coffee'라는 대표어로 지칭될 수 있고, 컨텐츠 분류부(600)는 상기 'Java Coffee'에 관련성이 높은 제2 컨텐츠 집합(353)을 제1 컨텐츠 집합(351)으로부터 {J4}로 추출할 수 있다.
관련 속성어 중에 또다른 하나인 'Island'에 대하여는 'Java Island'라는 대표어로 지칭될 수 있고, 컨텐츠 분류부(600)는 상기 'Java Island'에 관련성이 높은 제2 컨텐츠 집합(354)을 제1 컨텐츠 집합(351)으로부터 {A3}로 추출할 수 있다.
상기와 같이, 사용자의 질의어를 출발점으로 하여, 하나 이상의 속성어를 추출하고, 추출된 속성어로부터 관련 속성어를 추출함으로써 사용자의 질의어의 의미를 보다 구체화시키는 개념화를 실현할 수 있다. 이와 함께, 관련 속성어의 추출에 따라 컨텐츠를 분류함으로써 질의어 개념화에 따라 문맥 정보를 효율적으로 반영하는 컨텐츠를 검색할 수 있다.
다시 도 3 및 도 4를 참조하면, 관련 속성어들 각각에 대하여 컨텐츠들의 분류가 된 후에, 속성어 추출부(200)는 관련 속성어에 대한 속성어(330)를 추출한다. 예를 들어, 관련 속성어가 'Program Language'이고, 대표어(370)가 'Java Program Language' 인 경우에 추출된 속성어로는 'Applet, Tool, Game, Compiler, Software, ...' 등이 될 수 있다. 관련 속성어가 'Coffee'이고, 대표어(370)가 'Java Coffee'인 경우에 추출된 속성어로는 'Coffee, Indonesia, Franchise, ... 등이 될 수 있다. 또한, 관련 속성어가 'Island'이고, 대표어(370)가 'Java Island' 인 경우에 추출된 속성어로는 'Island, Indonesia, Volcano, ...' 등이 될 수 있다.
속성어(330)가 추출되면, 관련 속성어 추출부(500)는 추출된 하나 이상의 속성어로부터 관련 속성어를 추출할 수 있다. 여기서는, 속성어가 관련 속성어의 속성어이기 때문에, 관련 속성어는 관련 속성어의 관련 속성어가 될 수 있다. 예를 들어, 관련 속성어 'Program Language'에 대하여 속성어로서 'Applet, Tool, Game, Compiler, Software, ... 등이 추출될 수 있고, 상기 추출된 속성어(330)들로부터 관련 속성어인 'Applet, Tool, Game 및 Compiler'가 선택될 수 있다.
상기 관련 속성어 'Program Language'에 대한 관련 속성어로서 'Applet, Tool, Game 및 Compiler'가 선택되면서 일반적인 데이터 구조 상의 각 노드가 생성될 수 있다. 생성된 새로운 노드는 도 3에서와 같이 '제3 계층'으로 칭할 수 있다.
관련 속성어가 선택되면, 컨텐츠 분류부(600)에 의하여 선택된 각 관련 속성어에 따라 컨텐츠를 분류할 수 있다. 이 때, 컨텐츠의 분류는 상위 계층에서의 컨 텐츠 집합으로부터 컨텐츠 분류를 시도할 수 있다.
예를 들어, 선택된 관련 속성어 중에 하나인 'Applet'에 대하여는 대표어가 'Java-Applet'이 되고, 컨텐츠 분류부(600)는 'Java Program Language'에 대한 제2 컨텐츠 집합인 {J1, J2, J3, A1, A2, A4, C1, C3, C4, G2, G4}로부터 관련 속성어인 'Applet'과 관련성이 높은 제3 컨텐츠 집합을 추출할 수 있다. 예를 들어, 컨텐츠 분류부(600)에 의하여 {J1, J2, J3, A1, A2, A4, C1, C3, C4, G2, G4}로부터 관련성이 소정의 임계치보다 높다고 판단되는 제3 컨텐츠 집합(356)인 {J1, J3, A1, A2}를 추출할 수 있다.
상기와 같이, 질의어 대한 속성어를 추출하고, 추출된 속성어로부터 관련 속성어를 선택함으로써 질의어를 구체화할 수 있고, 관련 속성어에 대한 속성어를 추출하고 추출된 속성어에 대하여 다시 관련 속성어를 선택함으로써 사용자의 질의 의도를 의미 있는 개념 정보로 구체화할 수 있다. 따라서, 상기 관련 속성어의 선택을 반복하면서 질의어를 개념화 할 수 있으면서, 개념화에 따라 자동적으로 분류된 컨텐츠 집합을 획득할 수 있다.
또한, 상기 과정에 따라 도 3에서와 같이 생성된 계층 구조 정보를 문맥 연관 정보(Contextual association information)로 하여 저장해 둠으로써 추후 사용자에 의하여 동일한 질의어 또는 유사한 질의어가 입력되는 경우에 상기 저장된 문맥 연관 정보를 불러 내어 사용자의 질의어에 대한 구체적인 개념화 정보를 제공할 수 있다.
또한, 사용자에 의하여 추가 되거나 변경되는 경우에도 도 3에서와 같은 계 층 구조 정보를 갱신하여 저장함으로써 계속적인 문맥 연관 정보를 갱신할 수 있다.
도 5는 본 발명의 다른 실시예에 따른 질의어 개념화를 구현하는 문맥 연관 검색 시스템의 동작에 따른 예를 보여주며, 도 6은 도 5의 각 계층에서의 도출되는 정보를 보여준다.
도 5 및 도 6을 참조하면, 본 발명의 다른 실시예에 따른 질의어 개념화를 구현하는 문맥 연관 검색 시스템의 동작은 도 3 및 도 4에서와 같이 사용자가 질의어로 'Java'라는 단어를 입력하는 경우를 예를 들어 설명하며, 도 5 및 도 6에서도 도 3 및 도 4와 같이 기본적으로 동일한 과정에 따라 이루어질 수 있다.
여기서는, 도 3 및 도 4으로부터 차별화되는 부분에 대하여 자세히 설명하기로 한다. 또한, 사용자가 질의어로 'Java'를 입력한 경우에는 선택된 관련 속성어는 'Program Language', 'Coffee' 및 'Island'가 선택될 수 있고, 각 관련 속성어에 따라 컨텐츠가 분류될 수 있다. 한편, 설명의 편의를 위하여 관련 속성어 중에서 'Coffee' 및 'Island'에 대하여는 도 5 및 도 6에서 생략하였다.
사용자 질의어로 ''Java'가 입력된 경우에, Java와 관련된 컨텐츠들이 {A1, A2, A3, A4, C1, C2, C3, C4, J1, J2, J3, J4, G1, G2, G3, G4}의 제1 컨텐츠 집합(351)으로 추출될 수 있고, 제2 컨텐츠 집합에서 관련 속성어가 'Program Language'이고 대표어(370)가 Java Program Language 인 경우에는 {J1, J2, J3, A1, A2, A4, C1, C3, C4, G2, G4}이 추출되고, Java와 관련성이 있지만 선택된 관련 속성어와 상관성이 없다고 판단된 기타(Etc) 컨텐츠 집합(355)는 {C2, G1, G3} 가 될 수 있다.
관련 속성어로서 'Program Language'가 선택되고, 상기 'Program Language'에 대한 속성어 추출 후에 관련 속성어가 'Applet', 'Tool', 'Game' 및 'Compiler' 등이 선택 될 수 있다. 상기 선택된 관련 속성어에 의한 각 대표어는 'Java-Applet', 'Java-Tool', 'Java-Game' 및 'Java-Compiler'가 될 수 있다.
선택된 각 관련 속성어에 따라 컨텐츠의 분류가 될 수 있다. 도 3 및 도 4에서는 제3 컨텐츠 집합으로 각각 {J1, J3, A1, A2}, {J4, A4}, {G4} 및 {C1, C3, C4}로 분류될 수 있다. 도 3 및 도 4에서는 상위 계층에 속하는 제2 컨텐츠 집합인 {J1, J2, J3, A1, A2, A4, C1, C3, C4, G2, G4}로부터 제3 컨텐츠 집합이 각각 추출될 수 있다.
본 발명의 다른 실시예에 따르면, 컨텐츠 분류 시에 상위 계층의 컨텐츠 집합에 상위 계층에서 선택된 관련 속성어와 상관성이 없다고 판단된 컨텐츠 집합이 포함될 수 있다. 도 6에서와 같이 예를 들어, 제2 계층에서 관련 속성어가 'Program Language'이고 대표어(370)가 Java Program Language에 대한 제2 컨텐츠 집합(352)와 선택된 관련 속성어들(여기서는, 'Program Language', 'Coffee', 'Island')과 상관성이 없다고 판단된 기타(Ect)의 제2 컨텐츠 집합(355)를 더한 집합이 모집단이 될 수 있다.
따라서, 제3 계층(360)에서의 선택된 관련 속성어들인 'Applet', 'Tool', 'Game' 및 'Compiler' 등에 대하여는 'Program Language'에 대한 제2 컨텐츠 집합(351)과 기타(Etc)에 대한 제2 컨텐츠 집합(355)의 합집합인 {J1, J2, J3, A1, A2, A4, C1, C3, C4, G2, G4, G1, G3, C2}가 모집단이 될 수 있다. 따라서, 제3 계층에서는 선택된 각 관련 속성어에 대하여 상기 모집단에 의하여 컨텐츠를 분류할 수 있다.
예를 들어, 선택된 관련 속성어가 'Game'이고, 대표어가 'Java-Game'에 대하여 'Program Language'에 대한 제2 컨텐츠 집합(351)으로부터는 {G4}가 분류되고, '기타(Etc'에 대한 제2 컨텐츠 집합(355)로부터는 {G1, G3}가 분류될 수 있다. 따라서, 선택된 관련 속성어 'Game'에 대하여는 {G4} 뿐만 아니라 {G1, G3}까지 포함되어 {G4, G1, G3}의 제3 컨텐츠 집합으로 분류될 수 있다. 이와 함께, 'Java-Game'에 대한 상위 계층의 'Java Program Language'의 제2 컨텐츠 집합은 {J1, J2, J3, A1, A2, A4, C1, C3, C4, G2, G4, G1, G3}로 변환될 수 있다.
또한, 제 4계층(380)에서 선택된 관련 속성어 중에서 'Project'에 대하여 살펴본다. 선택된 관련 속성어가 'Project'이고, 대표어(370)는 'Java-Compiler-Project' 인 경우에 상위 계층의 제3 컨텐츠 집합인 {C1, C3, C4}와 '기타(Etc)의 컨텐츠 집합인 {C2, C1, C3}로부터 컨텐츠가 분류될 수 있다. 이 때, 선택된 관련 속성어 'Project'에 상관성이 있다고 판단되는 컨텐츠 집합(362)이 {C2}인 경우라고 가정하자. 따라서, 대표어(370)는 'Java-Compiler-Project'에 컨텐츠 집합이 {C2}이면, 상위 계층에서의 'Java-Compiler'에 대하여는 제3 컨텐츠 집합인 {C1, C3, C4}에 {C2}를 포함시켜 제3 컨텐츠 집합(359)은 {C1, C3, C4, C2}가 변환될 수 있다. 이와 함께, 'Java-Compiler'의 상위 계층인 'Java Program Language'에 대한 제2 컨텐츠 집합도 {J1, J2, J3, A1, A2, A4, C1, C3, C4, G2, G4, G1, G3, C2}로 변환될 수 있다.
상기와 같이, 컨텐츠 분류에 있어서 상위 계층에 포함된 컨텐츠 집합에 상관성이 없다고 판단된 컨텐츠를 포함시켜, 선택된 관련 속성어에 대한 관련성을 분석하여 컨텐츠를 분류시킴으로써 계층적인 컨텐츠 분류가 아닌 격자형의 컨텐츠 분류가 될 수 있다. 따라서, 상관성이 없다고 분류되었던 컨텐츠 집합도, 선택된 관련 속성어에 따라 질의어를 개념화 시키면서 상관성 있는 컨텐츠로 분류될 수 있다. 따라서, 초기의 컨텐츠 분류가 잘못되더라도 점진적인 개념화 과정에 의하여 컨텐츠 분류의 정확성을 높일 수 있다.
도 7은 본 발명의 일 실시예에 따른 질의어 개념화를 구현하는 문맥 연관 검색 방법의 흐름도를 보여준다.
도 7을 참조하면, 먼저 접근 가능한 컨텐츠를 요약한다(S710). 컨텐츠 요약은 컨텐츠의 내용을 구조적으로 요약하는 것을 말한다. 컨텐츠 요약은 컨텐츠 요약부(200)에 의하여 컨텐츠에 포함되는 구문을 추출하여, 구조적으로 분석할 수 있다.
사용자로부터 사용자 인터페이스를 통하여 질의어를 입력 받는다(S720). 사용자는 자신의 검색하고자 주제에 관한 임의의 단어 또는 단어의 집합에 의하여 질의어를 입력할 수 있고, 사용자 입력부(110)는 상기 질의어를 입력 받는다.
입력된 질의어에 대한 속성어를 추출하고, 상기 추출된 속성어 중에서 관련 속성어를 선택한다(S730). 속성어 추출부(300)는 상기 질의어에 대한 속성어를 상식 제공부(400)로부터 질의어에 대한 정의 정보를 추출하여 나열할 수 있다. 또는 속성어 추출부(300)는 컨텐츠 요약에 근거하여 상기 질의어와 상관성이 높은 컨텐츠들로부터 하나 이상의 속성어를 추출할 수도 있다.
속성어가 추출되며, 추출된 속성어로부터 하나 이상의 관련 속성어를 선택한다. 관련 속성어의 선택은 사용자에 의한 임의의 선택이나 또는 추출된 속성어들 중에서 상관성 순위가 높은 속성어들이 관련 속성어로 선택될 수 있다. 여기서, 상관성 순위는 추출된 속성어들과 컨텐츠 요약 정보 사이에 나타나는 인덱스 정보 또는 우선 순위 정보에 따라 상관성이 수치화하여 생성될 수 있다. 또는 추출된 속성어를 바탕으로 접근 가능한 컨텐츠들에 접근하여 상기 추출된 속성어의 관련성을 수치화하여 상관성 순위가 생성될 수 있다.
관련 속성어가 선택되면, 선택된 관련 속성어에 따라 컨텐츠를 분류할 수 있다(S740). 컨텐츠의 분류는 각 관련 속성어에 상관성이 높다고 판단되는 컨텐츠를 하나의 집합으로 분류하여, 각 관련 속성어에 대한 컨텐츠 집합으로 분류할 수 있다. 예를 들어, 각 관련 속성어와 질의어가 동시에 나타나는 빈도 수, 각 관련 속성어와 질의어의 컨텐츠 내에서의 거리 등을 함수로 하여 상관성을 수치화하고, 수치화된 상관성이 임계치보다 높은 경우에는 해당 관련 속성어에 대한 컨텐츠 집합에 포함될 수 있다. 컨텐츠 분류가 되면, 분류에 따라 출력부(550)에 컨텐츠 리스트를 표시할 수 있다.
컨텐츠 분류 된 후, 각 관련 속성어에 대한 속성어를 추출할 수 있다(S750). 각 관련 속성어에 따라 컨텐츠가 분류되었고, 분류된 컨텐츠 집합에서 하나 이상의 속성어를 추출할 수 있다. 따라서, 각 관련 속성어에 대하여 각각 하나 이상의 속 성어가 나열될 수 있다.
추출된 속성어에 대하여 관련 속성어가 선택 되었는지 여부를 판단한다(S760). 사용자 또는 시스템에서 사용자에 의해 입력된 질의어를 충분히 의미 있게 개념화 시켰다고 판단되거나 또는 사용자의 질의 의도를 구체적으로 반영한 컨텐츠를 획득하였다고 판단되면 더 이상의 과정을 진행시키지 아니할 수 있다.
따라서, 질의어로부터 현재 단계에까지의 관련 속성어 및 분류된 컨텐츠들을 정리하여 연관 관계 정보로서 저장할 수 있다(S770).
한편, 추출된 속성어에 대하여 관련 속성어가 선택된 경우에는 선택된 관련 속성어에 따라 컨텐츠를 다시 분류할 수 있다(S740). 컨텐츠 분류 후에는 분류된 컨텐츠에 따라 다시 속성어를 추출할 수 있다(S750). 따라서, 상기 단계를 반복하면서(S760, S740, S750), 질의어를 점차적으로 구체화시키는 개념화를 이룰 수 있다. 따라서, 사용자 또는 시스템에서 사용자에 의해 입력된 질의어를 충분히 의미 있게 개념화 시켰다고 판단되거나 또는 사용자의 질의 의도를 구체적으로 반영한 컨텐츠를 획득하였다고 판단되면, 현재 단계에까지의 연관 관계 정보를 저장하고 종료한다(S770).
상기와 같이 본 발명의 일 실시예에 따르면, 사용자에 의해 입력된 질의어를 시작점으로 하여, 각 단계에서 컨텐츠들로부터 추출된 속성어를 이용하여 사용자의 질의 의도를 구체적으로 개념화할 수 있다. 또한, 질의어 개념화에 따라 컨텐츠를 분류함으로써 얻고자 하는 정보를 담고 있는 컨텐츠들을 효과적으로 획득할 수 있다.
이와 함께, 연관 관계 정보를 저장함으로써 차후에 이와 유사한 질의어로서 사용자가 접근하는 경우에 곧바로 사용자의 질의 의도와 상관성이 높은 관련 속성어와 컨텐츠 분류를 제공할 수 있다.
이상과 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
도 1은 본 발명의 일 실시예에 따른 질의어 개념화를 구현하는 문맥 연관 검색 시스템의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 질의어 개념화를 구현하는 문맥 연관 검색 시스템에서 컨텐츠 요약부의 블록도이다.
도 3은 본 발명의 일 실시예에 따른 질의어 개념화를 구현하는 문맥 연관 검색 시스템의 동작에 따른 예를 보여주는 도면이다.
도 4는 도 3의 각 계층에서의 도출되는 정보를 보여주는 도면이다.
도 5는 본 발명의 다른 실시예에 따른 질의어 개념화를 구현하는 문맥 연관 검색 시스템의 동작에 따른 예를 보여주는 도면이다.
도 6은 도 5의 각 계층에서의 도출되는 정보를 보여주는 도면이다.
도 7은 본 발명의 일 실시예에 따른 질의어 개념화를 구현하는 문맥 연관 검색 방법의 흐름도이다.
<도면의 주요 부분에 관한 부호의 설명>
110: 사용자 입력부 200: 컨텐츠 요약부
250: 컨텐츠 수집부 300: 속성어 추출부
400: 상식 제공부 500: 관련 속성어 선택부
550: 출력부 600: 컨텐츠 분류부
700: 연관 관계 저장부

Claims (21)

  1. 사용자로부터 질의어를 입력 받는 사용자 입력부;
    상기 입력된 질의어의 의미를 구체화하는 하나 이상의 속성어를 추출하는 속성어 추출부;
    상기 추출된 하나 이상의 속성어 중에서 하나 이상의 관련 속성어를 선택하는 관련 속성어 선택부; 및
    상기 선택된 관련 속성어 및 상기 질의어에 따라 소정의 컨텐츠들을 분류하는 컨텐츠 분류부를 포함하는, 질의어 개념화를 구현하는 문맥 연관 검색 시스템.
  2. 제 1항에 있어서,
    접근 가능한 컨텐츠들의 내용 정보를 요약하여 상기 속성어 추출부에 제공하는 문서 내용 요약부를 더 포함하는, 질의어 개념화를 구현하는 문맥 연관 검색 시스템.
  3. 제 2항에 있어서,
    상기 접근 가능한 컨텐츠들을 유선 또는 무선 네트워크를 통하여 수집하는 컨텐츠 수집부를 더 포함하는, 질의어 개념화를 구현하는 문맥 연관 검색 시스템.
  4. 제 1항에 있어서,
    상기 입력된 질의어에 대한 사전 정보 또는 정의된 의미 정보를 상기 속성어 추출부에 제공하는 상식 제공부를 더 포함하며,
    상기 속성어 추출부는 상기 상식 제공부로부터 상기 입력된 질의어에 대한 사전 정보 또는 정의된 의미 정보를 전달 받아 상기 하나 이상의 속성어를 추출하는, 질의어 개념화를 구현하는 문맥 연관 검색 시스템.
  5. 제 1항에 있어서, 상기 속성어 추출부는
    상기 입력된 질의어에 관련된 컨텐츠 집합으로부터 상기 질의어에 대한 상관성에 따라 하나 이상의 속성어를 추출하는, 질의어 개념화를 구현하는 문맥 연관 검색 시스템.
  6. 제 1항에 있어서, 상기 관련 속성어 선택부는
    사용자의 입력에 의하여 상기 추출된 하나 이상의 속성어 중에서 상기 하나 이상의 관련 속성어를 선택하거나 또는 상기 추출된 하나 이상의 속성어 중에서 상관성이 높은 순위에 따라 자동적으로 상기 하나 이상의 관련 속성어를 선택하는, 질의어 개념화를 구현하는 문맥 연관 검색 시스템.
  7. 제 1항에 있어서, 상기 컨텐츠 분류부는
    상기 선택된 관련 속성어에 대한 상관성에 따라 상위 계층에서 분류된 컨텐츠 집합으로부터 컨텐츠를 추출하여 분류하는, 질의어 개념화를 구현하는 문맥 연 관 검색 시스템.
  8. 제 1항에 있어서, 상기 컨텐츠 분류부는
    상기 선택된 관련 속성어에 대한 상관성에 따라 상위 계층에서 분류된 컨텐츠 집합과 상기 질의어의 관련 속성어와 상관성이 없는 컨텐츠 집합의 합집합으로부터 컨텐츠를 추출하여 분류하는, 질의어 개념화를 구현하는 문맥 연관 검색 시스템.
  9. 제 1항에 있어서,
    상기 질의어, 상기 선택된 관련 속성어 및 상기 선택된 관련 속성어에 따른 컨텐츠 분류 정보를 구비하는 문맥 연관 정보를 저장하는 문맥 연관 저장부를 더 포함하는, 질의어 개념화를 구현하는 문맥 연관 검색 시스템.
  10. 제 1항에 있어서,
    상기 속성어 추출부에 의해 추출된 상기 속성어의 나열 또는 상기 컨텐츠 분류부에 의하여 분류된 컨텐츠의 목록을 화면에 출력하는 출력부를 더 포함하는, 질의어 개념화를 구현하는 문맥 연관 검색 시스템.
  11. 사용자로부터 질의어를 입력 받는 단계;
    상기 입력된 질의어의 의미를 구체화하는 하나 이상의 속성어를 추출하는 단 계;
    상기 추출된 하나 이상의 속성어 중에서 하나 이상의 관련 속성어를 선택하는 단계; 및
    상기 선택된 관련 속성어 및 상기 질의어에 따라 소정의 컨텐츠들을 분류하는 단계를 포함하는, 질의어 개념화를 구현하는 문맥 연관 검색 방법.
  12. 제 11항에 있어서, 상기 컨텐츠 분류하는 단계 후에
    상기 속성어를 추출하는 단계, 상기 관련 속성어를 선택하는 단계 및 상기 컨텐츠를 분류하는 단계를 반복하며,
    상기 속성어를 추출하는 단계는 상기 관련 속성어에 대한 하나 이상의 속성어를 상기 분류된 컨텐츠 집합으로부터 추출하며,
    상기 관련 속성어를 선택하는 단계는 상기 분류된 컨텐츠 집합으로부터 추출된 하나 이상의 속성어 중에서 상기 관련 속성어를 선택하는, 질의어 개념화를 구현하는 문맥 연관 검색 방법.
  13. 제 11항에 있어서, 상기 질의어를 입력 받는 단계 전에
    접근 가능한 컨텐츠들의 내용 정보를 요약하는 단계를 더 포함하는, 질의어 개념화를 구현하는 문맥 연관 검색 방법.
  14. 제 13항에 있어서, 상기 내용 정보를 요약하는 단계 전에
    상기 접근 가능한 컨텐츠들을 유선 또는 무선 네트워크를 통하여 수집하는 단계를 더 포함하는, 질의어 개념화를 구현하는 문맥 연관 검색 방법.
  15. 제 11항에 있어서, 상기 속성어를 추출하는 단계는
    상기 입력된 질의어에 대한 사전 정보 또는 정의된 의미 정보를 전달 받아 상기 하나 이상의 속성어를 추출하는, 질의어 개념화를 구현하는 문맥 연관 검색 방법.
  16. 제 11항에 있어서, 상기 속성어를 추출하는 단계는
    상기 입력된 질의어에 관련된 컨텐츠 집합으로부터 상기 질의어에 대한 상관성에 따라 하나 이상의 속성어를 추출하는, 질의어 개념화를 구현하는 문맥 연관 검색 방법.
  17. 제 11항에 있어서, 상기 관련 속성어를 선택하는 단계는
    사용자의 입력에 의하여 상기 추출된 하나 이상의 속성어 중에서 상기 하나 이상의 관련 속성어를 선택하거나 또는 상기 추출된 하나 이상의 속성어 중에서 상관성이 높은 순위에 따라 자동적으로 상기 하나 이상의 관련 속성어를 선택하는 단계를 포함하는, 질의어 개념화를 구현하는 문맥 연관 검색 방법.
  18. 제 11항에 있어서, 상기 컨텐츠들을 분류하는 단계는
    상기 선택된 관련 속성어에 대한 상관성에 따라 상위 계층에서 분류된 컨텐츠 집합으로부터 컨텐츠를 추출하여 분류하는 단계를 포함하는, 질의어 개념화를 구현하는 문맥 연관 검색 방법.
  19. 제 11항에 있어서, 상기 컨텐츠들을 분류하는 단계는
    상기 선택된 관련 속성어에 대한 상관성에 따라 상위 계층에서 분류된 컨텐츠 집합과 상기 질의어의 관련 속성어와 상관성이 없는 컨텐츠 집합의 합집합으로부터 컨텐츠를 추출하여 분류하는 단계를 포함하는, 질의어 개념화를 구현하는 문맥 연관 검색 방법.
  20. 제 11항에 있어서,
    상기 질의어, 상기 선택된 관련 속성어 및 상기 선택된 관련 속성어에 따른 컨텐츠 분류 정보를 구비하는 문맥 연관 정보를 저장하는 단계를 더 포함하는, 질의어 개념화를 구현하는 문맥 연관 검색 방법.
  21. 제 11항에 있어서,
    상기 속성어 추출부에 의해 추출된 상기 속성어의 나열 또는 상기 컨텐츠 분류부에 의하여 분류된 컨텐츠의 목록을 화면에 출력하는 단계를 더 포함하는, 질의어 개념화를 구현하는 문맥 연관 검색 방법.
KR1020080014459A 2008-02-18 2008-02-18 질의어 개념화를 구현하는 문맥 연관 검색 시스템 및 방법 KR20090089096A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020080014459A KR20090089096A (ko) 2008-02-18 2008-02-18 질의어 개념화를 구현하는 문맥 연관 검색 시스템 및 방법
US12/370,832 US20090210402A1 (en) 2008-02-18 2009-02-13 System and method for contextual association discovery to conceptualize user query

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080014459A KR20090089096A (ko) 2008-02-18 2008-02-18 질의어 개념화를 구현하는 문맥 연관 검색 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20090089096A true KR20090089096A (ko) 2009-08-21

Family

ID=40956029

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080014459A KR20090089096A (ko) 2008-02-18 2008-02-18 질의어 개념화를 구현하는 문맥 연관 검색 시스템 및 방법

Country Status (2)

Country Link
US (1) US20090210402A1 (ko)
KR (1) KR20090089096A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011129481A1 (ko) * 2010-04-16 2011-10-20 한국과학기술정보연구원 Rdf 탐색기반 질의응답 서비스 시스템 및 방법
KR101271171B1 (ko) * 2011-05-31 2013-06-05 삼성에스디에스 주식회사 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치 및 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10095788B2 (en) 2012-04-02 2018-10-09 Microsoft Technology Licensing, Llc Context-sensitive deeplinks
US20230111618A1 (en) * 2021-10-13 2023-04-13 Google Llc Distilling to a Target Device Based on Observed Query Patterns

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384703A (en) * 1993-07-02 1995-01-24 Xerox Corporation Method and apparatus for summarizing documents according to theme
US20040128282A1 (en) * 2001-03-07 2004-07-01 Paul Kleinberger System and method for computer searching
US20050154690A1 (en) * 2002-02-04 2005-07-14 Celestar Lexico-Sciences, Inc Document knowledge management apparatus and method
US7613687B2 (en) * 2003-05-30 2009-11-03 Truelocal Inc. Systems and methods for enhancing web-based searching
US7206780B2 (en) * 2003-06-27 2007-04-17 Sbc Knowledge Ventures, L.P. Relevance value for each category of a particular search result in the ranked list is estimated based on its rank and actual relevance values
US7562069B1 (en) * 2004-07-01 2009-07-14 Aol Llc Query disambiguation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011129481A1 (ko) * 2010-04-16 2011-10-20 한국과학기술정보연구원 Rdf 탐색기반 질의응답 서비스 시스템 및 방법
KR101271171B1 (ko) * 2011-05-31 2013-06-05 삼성에스디에스 주식회사 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치 및 방법

Also Published As

Publication number Publication date
US20090210402A1 (en) 2009-08-20

Similar Documents

Publication Publication Date Title
CA2772746C (en) Trusted query system and method
US6598043B1 (en) Classification of information sources using graph structures
US8131779B2 (en) System and method for interactive multi-dimensional visual representation of information content and properties
JP4241934B2 (ja) テキスト処理及び検索システム及び方法
US8229948B1 (en) Context-based search query visualization and search query context management using neural networks
US20140115001A1 (en) Structured query generation
US20020073079A1 (en) Method and apparatus for searching a database and providing relevance feedback
US20140201198A1 (en) Automatically providing relevant search results based on user behavior
JP2000293535A (ja) 情報検索装置、情報検索方法、及びその方法を実現するプログラムを記録した記録媒体
JP2003167914A (ja) マルチメディア情報検索方法、プログラム、記録媒体及びシステム
JPH0991314A (ja) 情報探索装置
CA2562779A1 (en) Data storage and retrieval
KR20100075454A (ko) 간접 화법 내에서의 시맨틱 관계의 식별
US20220414137A1 (en) Automatic labeling of text data
EP1667034A2 (en) System and method for interactive multi-dimensional visual representation of information content and properties
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
WO2003032199A2 (en) Classification of information sources using graph structures
CA3225020A1 (en) Automatic labeling of text data
KR20090089096A (ko) 질의어 개념화를 구현하는 문맥 연관 검색 시스템 및 방법
CN116304347A (zh) 一种基于群智知识的Git命令推荐方法
Riad et al. Web image retrieval search engine based on semantically shared annotation
Khurana et al. Survey of techniques for deep web source selection and surfacing the hidden web content
CN112100500A (zh) 范例学习驱动的内容关联网站发掘方法
Shen et al. A hybrid model combining formulae with keywords for mathematical information retrieval
Ajitha et al. EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant