KR20100067288A - 언어 표현 해석에 기반한 정보 검색방법 및 정보 제공방법 - Google Patents

언어 표현 해석에 기반한 정보 검색방법 및 정보 제공방법 Download PDF

Info

Publication number
KR20100067288A
KR20100067288A KR1020080125774A KR20080125774A KR20100067288A KR 20100067288 A KR20100067288 A KR 20100067288A KR 1020080125774 A KR1020080125774 A KR 1020080125774A KR 20080125774 A KR20080125774 A KR 20080125774A KR 20100067288 A KR20100067288 A KR 20100067288A
Authority
KR
South Korea
Prior art keywords
search
information
important
word
text
Prior art date
Application number
KR1020080125774A
Other languages
English (en)
Other versions
KR101026986B1 (ko
Inventor
정희성
Original Assignee
주식회사 네오패드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 네오패드 filed Critical 주식회사 네오패드
Priority to KR1020080125774A priority Critical patent/KR101026986B1/ko
Publication of KR20100067288A publication Critical patent/KR20100067288A/ko
Application granted granted Critical
Publication of KR101026986B1 publication Critical patent/KR101026986B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

언어 표현 해석에 기반한 정보 검색방법 및 정보 제공방법이 제공된다. 본 정보 검색방법은, 입력된 검색어를 의미 있는 단어들로 분리하고, 분리된 단어들이 문장 내에서 어떠한 역할들을 하고 있는지 해석하여 생성한 검색키로 정보를 검색한다. 이에 의해, 검색단어를 논리연산자(AND, OR, NOT)의 조합으로 하여 검색하는 기존의 검색 방식에 비해, 정보의 재현율과 정확도가 훨씬 우수한 검색 방법을 제공할 수 있게 된다.
검색, 형태소 처리, 구문 해석, 의도

Description

언어 표현 해석에 기반한 정보 검색방법 및 정보 제공방법{Method for searching information based on language expression analysis and method for providing information}
본 발명은 자연언어의 단어, 구, 문장을 검색어로 하여 정보를 제공하고 검색하되 언어 표현 해석을 통해 보다 사용자의 의도에 맞는 정확한 정보 제공과 검색을 가능하게 하는 다기능 정보 검색방법 및 시스템에 관한 것이다.
최근 정보 및 컨텐츠의 제공자, 소비자의 확대 그리고 다양한 정보 제공 매체의 융합 기술에 대한 개발 요구가 높다. 예를 들면, 유무선 방송 통신기술의 융합 기술, 통합 정보 웹서비스 기술 및 다양한 사용자 계층에 편리한 사용자 인터페이스 기술 개발이 대표적인 것들이다. 이러한 기술의 구체적 내용은 제공되는 또는 제공하는 컨텐츠, 정보의 질 및 의미의 해석을 컴퓨터로 자동 해석하여 정보 컨텐츠 이용자의 취향과 의도에 맞게 그리고 편리하고 다양한 방법으로 이들 정보 컨텐츠가 제시, 제공되는 정보시장기술이 기대되고 있다.
예를 들면, 한국특허 공개번호 제10-2006-0043333호 (데이터의 의도를 판정하고 의도에 기초하여 데이터에 응답하는 시스템 및 방법)은 데이터 핸들링을 용이 하게 하는 시스템으로서, 데이터를 수신하는 컴포넌트 및 상기 데이터의 의도를 판정하고, 상기 의도에 기초하여 적어도 상기 데이터의 부분집합을 재 체계화하며, 상기 재 체계화된 데이터를 사용자에게 자동적으로 제시하는 데이터 관리자를 포함하는 시스템을 목적으로, 상기 데이터 관리자는 상기 데이터를 분석하고, 상기 데이터를 관련 특징을 갖는 하나 이상의 집합으로 분류하며, 상기 데이터의 집합 중 적어도 하나의 집합으로부터 특징들을 추출하여 상기 데이터의 부분집합을 형성하는 시스템으로, 또, 상기 데이터 관리자는, 상기 데이터 분석을 용이하게 하기 위해, 상기 데이터의 메타데이터, 속성, 내용, 문맥, 키워드, 이력, 경험(heuristics), 추론, 규칙, 구분(demarcation), 시간, 요일, 관련된 핸들링 비용, 관련된 핸들링 이득, 소스 중 적어도 하나를 이용하며, 상기 특징은 구문론적 구조, 구문론적 속성, 언어적 구조 및 언어적 속성 중 하나에 적어도 부분적으로 기초하여 추출되는 시스템으로, 상기 언어적 특징은 문장에서 발생하는 단어, 문장에서 발생하는 이중음자 단어(Word bigram) 및 문장에서 발생하는 삼중음자 단어(Word trigram) 중 적어도 하나를 포함하는 시스템을 목적으로 하고 있다.
한국특허 공개번호 제2002-0028593호 (유해 단어 차단 방법)은 컴퓨터 이용자가 회원정보를 입력하고 관리서버에 접속하는 단계, 상기 컴퓨터 이용자는 상기 관리서버가 디스플레이 시킨 정보입력화면에 등록/전송을 위한 정보를 입력하는 단계, 상기 관리서버의 유해단어차단모듈은 상기 컴퓨터 이용자가 입력한 상기 정보에 유해 단어가 포함되어 있는지를 판단하는 단계, 상기 관리서버는 상기 유해단어차단모듈의 판단 결과에 따라서 컴퓨터 이용자와 연결을 차단하거나, 상기 정보를 등록/전송하는 단계로 이루어지는 것을 특징으로 하는 유해 단어 차단 방법을 특징으로 하고 있으나, 유해 단어에 대한 정의를 은어, 비속어, 성적 모독 또는 인격 모독에 관련한 것을 의미한다 하고 전송되는 메시지에 유해한 단어가 포함되어 있지 않을 경우, 채팅을 계속 진행하는 처리 모듈로 구성되어 있다. 상기 특허는 채팅 상의 메시지 속에 유해단어 포함 여부를 중심으로 한 것이다.
한국특허 공개번호 제10-2006-0062300호 (유해 사이트 차단을 위한 다단계 텍스트 필터링 방법)은 음란사이트를 차단하기 위한 자료로 사용할 텍스트를 그 음란성 정도로 구분하여 적어도 하나 이상의 집합으로 구분한 후 데이터베이스화하는 단계, 접속중인 웹 사이트로부터 텍스트를 수집하는 단계 및 상기 텍스트를 상기 집합내의 텍스트들과 비교하여 적어도 하나 이상의 다단계 필터링을 수행하여 상기 접속중인 웹사이트의 차단여부를 결정하는 단계를 포함하는 것을 특징으로 하는 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법으로 텍스트 내에 음란성 정도에 따라 유해사이트를 차단하는 것이다.
한국특허 공개번호 제10-2006-0087735호 (개선된 스팸성 메시지 필터링을 제공하는 시스템 및 방법)은 스팸성 메시지 필터링을 제공하는 시스템에 있어서, 발신자 단말기로부터 사용자 단말기로 전송되기 위한 메시지를 수신하는 무선 네트워크 서버와, 자연어 문장의 사용례들과 이들 사용례에 대한 부속 정보들이 저장되어 있으며, 이를 각각의 사용 용도에 따라 카테고리별로 분류 가능한 대규모 언어 DB(Database)인 코퍼스DB와, 상기 무선 네트워크 서버에서 상기 메시지의 수신을 감지하고, 상기 수신 메시지에 포함된 문장으로부터 적어도 하나의 명사형 키워드 를 추출하는 어휘 분석부와, 상기 추출된 명사형 키워드들 중 어느 하나를 선택하여, 사용자가 스팸 메시지로 설정한 적어도 하나의 상기 코퍼스 DB의 사용자 카테고리들 각각에 포함된 문장들에서 사용된 스팸 빈도수들과, 상기 사용자 카테고리가 아닌 카테고리에 포함된 문장들에서 사용된 일반 빈도수를 검색하는 코퍼스 검색부와, 상기 적어도 하나의 스팸 빈도수와 상기 일반 빈도수가 입력되면, 상기 선택된 명사형 키워드가 포함된 문장이 상기 사용자 카테고리에 포함될 확률을 산출하는 확률 계산부와, 상기 어휘 분석부와 상기 코퍼스 검색부를 제어하여 상기 확률 계산부로부터 각각의 명사형 키워드마다의 스팸 메시지 포함 확률이 산출되도록 하고, 산출된 확률들에 대한 통계치를 산출하여 상기 수신 메시지가 스팸 메시지인지 아닌지를 판단하며, 판단 결과를 상기 무선 네트워크 서버로 전송하는 필터링 제어부를 구비하는 것을 특징으로 하는 개선된 스팸성 메시지 필터링을 제공하는 시스템으로 메시지의 스팸성을 평가, 분석, 분류하는 방법론이다.
한국특허 공개번호 제10-2008-0000416호 (유해 메시지 여과 시스템과 그 여과 방법 및 이를 기록한 기록매체)은 네트워크를 통하여 연결된 클라이언트로부터 수신되는 메시지를 저장하는 데이터베이스를 구비하고 유해 메시지를 여과하는 시스템에 있어서, 상기 메시지를 수신하는 메시지 수신수단, 수신된 상기 메시지에서 다수의 단어를 추출하는 단어 추출수단, 추출된 상기 다수의 단어를 이용하여 상기 메시지의 유해 메시지 여부를 판단하고 상기 데이터베이스에 저장하는 평가수단을 포함하고, 상기 평가수단은 상기 데이터베이스에 저장된 단어 평가값을 이용하여 상기 메시지의 유해 메시지 여부를 판단하고 상기 메시지를 다수의 유해 메시지 분 류로 세분화하는 것을 특징으로 하는 인터넷 커뮤니티 상의 유해 메시지 여과 시스템으로 메시지의 유해 여부를 분류하는 기술 분야이다.
한국특허 등록번호 제10-0484944호 (국소 구문관계 및 의미 공기사전에 기반한 형태소 의미자동 태깅장치)는 원시문장 형태소 분석 결과로부터 기본 구문 구조 생성 규칙, 의존 구문 규칙, 형태소 의미 전자 사전, 의미 격틀 및 용언구 의미 공기사전을 이용하여 단문을 인식하는 단문 인식수단, 의미 격틀 및 용언구 의미 공기사전을 이용하여 보조사에 대한 격 복원을 수행하는 보조사 격 복원수단, 용언구 공기사전을 이용하여 용언의 논항 명사에 대한 의미를 결정하는 논항 명사 의미 결정수단, 및 명사/조사/명사, 명사/명사의 공기정보로 구성된 명사구 의미 공기사전을 이용하여 명사구내의 명사 및 복합 명사내의 명사들에 대한 의미를 결정하는 명사구 의미 결정수단, 을 포함하는 것을 특징으로 국소 구문관계 및 의미 공기사전에 기반한 형태소 의미 자동 태깅장치에 관한 것으로 언어학적 견지에서 구문 구조 정보를 이용하여 기존의 다른 의미 모호성 장치들보다 정확한 공기 정보인 구문 문맥 정보를 이용함으로써 명사의 의미 모호성을 해결하는 방법을 제시하고 있다.
한국특허 등록번호 제10-0757951호 (웹페이지의 형태소 분석을 통한 검색 방법)은 컴퓨터, 노트북, 핸드폰, PDA 등의 클라이언트와, 상기 클라이언트에게 정보를 제공하는 분석서버에 있어서, 상기 클라이언트 사용자가 탭브라우저를 통하여 웹사이트 등에 접속하면, 접속된 사이트의 내용이 탭브라우저에 표시되는 단계, 상기 분석서버는 상기 클라이언트의 탭브라우저에 표시되는 내용에 대한 문맥을 문맥 형태소 분석을 통하여 반복되는 문장, 단어의 빈도수를 식별하는 단계, 상기 식별 된 단어 중에서 기준치 이상의 빈도수를 갖는 문장, 단어를 중요단어인 키워드로 선정하는 단계, 상기 선정된 중요단어를 각 탭브라우저의 제목으로 출력하는 단계, 상기 각 탭브라우저의 제목을 포털사이트의 질의어로 사용하여 검색하고, 검색결과를 별도의 각 탭브라우저의 내용으로 출력시키는 단계를 포함하는 것을 특징으로 하는 웹페이지의 형태소 분석을 통한 검색 방법에 관한 것으로 상기 특허는 검색시스템의 일 방법론으로 텍스트 속에 출현하는 문장수, 단어수를 형태소 처리로 계산하여 그것을 키워드로 탭 웹브라우저 제목으로 출력하는 방법이다.
한국특허 등록번호 제10-0691400호 (부가 정보를 이용하여 형태소를 분석하는 방법 및 상기 방법을 수행하는 형태소 분석기)는 형태소 분석방법에 있어서, 검색 색인용 데이터로부터 형태소 분석 대상 및 상기 형태소 분석 대상과 연관된 부가 정보를 획득하는 단계, 상기 부가 정보에 기초하여 키(Key)를 생성하는 단계, 및 상기 키를 활용하여 상기 형태소 분석 대상에 대해 형태소 분석을 수행하는 단계를 포함하는 것을 특징으로 하는 형태소 분석 방법이다.
한국특허 공개번호 제10-2007-0029389호 (핵심 키워드를 이용한 광고서비스 제공방법, 시스템 및 이를 구현하기 위한 프로그램이 기록된 기록매체)는 핵심 키워드를 이용한 키워드 광고 서비스를 제공하기 위해 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며 디지털 처리 장치에 의해 판독될 수 있는 기록매체로서, 컨텐츠 텍스트의 형태소를 분석하여 키워드를 추출하는 단계, 광고 키워드 DB 서버와의 인터페이싱을 통해 핵심 키워드를 결정하는 단계, 광고 DB 서버와의 인터페이싱을 통해 상기 핵심 키워드에 매칭되는 광고 리스트를 수신하는 단계 및 상기 광고 리스트에 포함된 광고 중 적어도 하나를 상기 컨텐츠 텍스트에 삽입하는 단계를 수행하는 프로그램이 기록된 기록매체이다.
한국특허 공개번호 제10-2006-0011333호 (메시지 분석을 통한 지역정보 제공 시스템 및 그 방법)은 지역 및 업종 별로 광고 정보를 저장하고 있는 데이터베이스, 저장된 단문 메시지 또는 문자 메시지를 분석하기 위한 메시지 인식수단, 저장된 음성 메시지를 분석하기 위한 음성 인식수단, 가입자 단말기의 현재 위치를 확인하기 위한 위치정보 수집수단, 서비스 가입자와 관련된 메시지가 저장되어 있는지를 상기 메시지 인식수단과 음성 인식수단으로 요청하고, 상기 메시지 인식수단과 음성 인식수단으로부터 전달된 메시지 분석 결과를 확인하여, 선택적으로 상기 위치정보 수집수단으로 가입자 단말기의 현재 위치 정보를 요청하며, 원하는 정보를 가입자 단말기로 전달하기 위해 상기 메시지 분석 결과에 따른 원하는 업종과 지역 정보를 제공하는 서비스 제어수단 및 상기 서비스 제어수단으로부터 전달된 업종과 지역 정보를 이용해 상기 데이터베이스로부터 정보를 검색하여, 검색 결과를 단문 메시지에 포함시켜 가입자 단말기로 전송하는 SMS 생성수단을 포함하는 것을 특징으로 하는 메시지 분석을 통한 지역정보 제공 시스템이다.
한국특허 공개번호 제10-2007-0015752호 (광고 유발 메시징 서비스 시스템 및 그 방법)은 광고 유발 메시징 서비스 시스템에 있어서, 발신단말기로부터 전송된 메시지를 분석하여 광고 유발 식별자를 검출하면, 미리 지정된 광고메시지를 상기 발신단말기로 전송한 후, 상기 메시지의 내용을 수신단말기로 전송하는 메시지 서버를 포함하는 것을 특징으로 하는 광고 유발 메시징 서비스 시스템이다.
한국특허 등록번호 제10-0775680호 (이동통신 단말기의 채팅을 이용한 광고 컨텐츠 제공 방법 및 그 시스템)은 무선 통신망을 통해 접속된 이동통신 단말기와 서버 사이에서 메신저를 통해 서로 메시지를 주고받는 방법에 있어서, 상기 서버와 접속된 상기 이동통신 단말기가 채팅 대상의 임의의 가상 대화 상대를 선택하는지 판단하는 단계와, 상기 서버에서는 상기 이동통신 단말기의 사용자 선호 정보에 따라 광고 컨텐츠 상품의 채팅 시나리오를 추출하여 상기 시나리오 규칙에 따른 메시지를 상기 이동통신 단말기로 전송하는 단계와, 상기 이동통신 단말기에서 상기 서버의 메시지에 대한 응답 메시지를 전송하는 단계와, 상기 서버에서 수신된 상기 이동통신 단말기의 메시지를 분석하여 사용자 의도와 상기 시나리오 규칙에 따라 광고 컨텐츠 정보 추천 허가를 요청하는 메시지를 상기 이동통신 단말기로 전송하는 단계와, 상기 서버에서는 상기 이동통신 단말기에서 상기 광고 컨텐츠 정보 추천을 허가하는 메시지를 전송할 경우 상기 광고 컨텐츠 정보를 상기 이동통신 단말기로 전송하는 단계를 포함하며, 상기 서버에서 상기 이동통신 단말기에 메시지를 전송하는 단계는 이전에, 상기 서버에서 상기 이동통신 단말기의 메시지를 분석하여 상기 사용자의 의도에 대응되게 상기 메신저의 캐릭터 상태를 조정하는 단계를 더 포함하는 것을 특징으로 하는 이동통신 단말기의 채팅을 이용한 광고 컨텐츠 제공 방법이다.
한국특허 등록번호 제10-0597435호 (정보검색 및 질문응답시스템에서의 하이브리드 기반 질문분류 시스템 및 방법)은 입력된 질문에 포함된 작품명을 인식하는 질문 작품명 처리부, 질문을 형태소분석, 개체명 인식, 어휘 의미태깅 과정을 통해 개개의 어휘를 의미 있는 코드로 변환하는 질문 언어분석부, 질문의 의미 있는 LSP 형태 코드와 미리 정의된 질문분류 규칙을 이용하여 질문이 요구하는 정답 유형을 분류하는 규칙기반 질문분류부, 질문의 정답유형이 태깅된 학습문서로부터 구축된 통계정보를 이용하여, 질문의 LSP 코드에 대한 분류를 수행하는 통계기반 질문분류부 및 규칙기반 질문분류와 통계기반 질문분류의 결과를 이용하여 최종적으로 사용자의 질문에 대한 정답의 유형을 판별하는 질문 정답유형 결정부를 포함하는 것을 특징으로 하는 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 시스템방법이다.
한국특허 등록번호 제10-0361166호 (정보 검색 시스템 및 그 방법)은 다수의 정보들이 분야별로 분류되고, 분류된 분야마다 코드가 부여되어 있으며, 각 분야의 코드와 연관하여 해당 분야에 포함되는 다수의 정보를 나타내는 단어들이 코드화 되어 있는 데이터 베이스와 데이터를 검색하고자 하는 이용자가 통신 장치를 이용하여 네트워크를 통해 접속한 후 검색하고자 하는 정보를 나타내거나 해당 정보가 속하는 분야를 나타내는 단어들을 입력하면, 입력된 단어들을 코드화하고 코드화된 단어들을 토대로 하여 상기 데이터 베이스를 검색하여 코드화된 단어들에 해당하는 정보를 찾는 처리 장치를 포함하며, 상기 데이터 베이스에 저장된 정보는 다수의 정보 영역으로 분류되고 상기 정보 영역에는 각각 정보 분류 코드가 할당되고 하나 이상의 세부 정보 영역으로 분류되며, 상기 세부 정보 영역들은 해당 정보 영역의 정보 분류 코드와 연관하여 코드화되며, 상기 정보를 나타내는 단어들 중 서로 동 일하거나 비슷한 의미를 가지는 단어들은 동일한 코드로 저장되어 있으며, 각 단어 코드들은 설정된 순서로 배열되어 있는 정보 검색 시스템 방법이다.
한국특허 공개번호 제10-2005-0092955호 (온라인 광고 시스템 및 광고 방법)은 광고될 정보가 저장되어 있는 제1저장장치, 원본 컨텐츠가 저장되어 있는 제2저장장치, 제2저장장치로부터 원본 컨텐츠를 가져와 자연어 처리 기법을 통해 분석하고, 이 분석 결과에 대응하는 광고될 정보를 제1저장장치로부터 가져와 상기 광고 정보 중 일부를 상기 원본 컨텐츠에 삽입하는 적어도 하나의 서버 그리고 상기 적어도 하나의 서버에 의해 상기 광고 정보가 삽입된 컨텐츠가 저장되어 있는 제3 저장장치를 포함하는 것을 특징으로 하는 온라인 광고 시스템 방법이다
한국특허 등록번호 제10-0669534호 (문장추상화와 개연규칙을 활용하는 문서요약 방법과 시스템, 그리고 문장 의미 분석 및 표현방법)은 요약하고자 하는 문서 내용에 대해 입력, 저장하는 문장입력 단계; 상기 단계에서 저장되는 데이터에 대해 구문 분석, 저장하는 구문분석 단계; 상기 단계에서의 구문 데이터들을 순차적으로 읽어 들여 각 문장에서 주요성분들을 추출하고, 이 온톨로지 데이터를 저장하는 문장 주요성분 추출 단계; 상기 단계에서의 온톨로지 데이터 값을, 선별된 주요 구성요소들 각각이 갖는 의미에 대한 소정의 분류기준인 인식상위범주 정보와 비교하여, 선별된 주요 구성요소 각각에 대한 추상적인 의미로 파악되는 데이터 값을 저장하는 문장추상화 단계; 상기 단계에서의 저장 값을 읽어 들여 개연규칙 프로그램 가동장치부로 입력시켜서 구문간 개연성을 갖는 다수 화제문을 선정하고, 선정된 다수 화제문에 대한 식별값들을 각각 저장하는 화제문 선정 단계; 상기 단계에 서 저장된, 선별된 주요 구성요소들에 대하여 파악된 추상적인 의미의 해당 값들을 읽어들여 문법적인 요약 문장으로 조합하고, 저장하는 요약문 작성 단계; 출력 제어신호가 있는지를 판단하여 그럴 경우 상기 단계에서 저장된 데이터 값이 출력수단의 가동을 통하여 출력, 표시되게 하는 요약문 출력 단계를 포함하는, 문장추상화와 개연규칙을 활용한 문서 요약 방법에 관한 것이다.
한국특허 등록번호 제10-0836878호 (정보 검색 시스템에서의 주제 또는 분야 할당 장치 및 그 방법)은 인터넷을 통해 사용자 단말, 웹 포털 사이트, 웹 사이트와 연결되어 정보를 검색하고 검색된 정보를 제공하는 정보 검색 시스템에서의 주제 또는 분야 할당 장치로서, 상기 정보 검색 서버는, 질의어 또는 문서에 대응하는 색인어를 기반으로 문서에 대하여 정보 검색을 수행하는 검색 엔진과; 상기 검색 엔진에서 검색된 정보를 저장하고 관리하는 데이터베이스와; 상기 데이터베이스에 저장된 원문으로부터 색인어를 추출하여 색인어에 의한 시소러스 매칭을 수행하여 원문에 대한 주제 또는 분야 할당을 수행하는 시소러스 매칭부와; 상기 데이터베이스에 저장된 정의문으로부터 용어를 추출하여 추출한 용어에 의해 주제를 할당하고 택소노미를 사용하여 분야를 할당하는 택소노미 처리부;를 포함하여 구성되는 것을 특징으로 하는 정보 검색 시스템에서의 주제 또는 분야 할당 장치에 관한 것이다.
또한, 현재 구글, 야후 등 대형 정보 검색 포탈이 사용하고 있는 정보 검색 시스템은 "단어" 단위의 검색키방식이 중심이며 비록 '구' 단위 입력을 가능하게 한다 해도 입력되는 '구'의 고도기술에 따른 언어처리 방법이라기보다는 N그램 기 반 색인키를 논리연산자(AND, OR, NOT)로 연결하여 검색 결과를 제시하는 정도임으로 현행기술로서는 정보 검색의 재현성, 정확성 향상에는 한계가 있다. 특히 차세대 정보검색분야로서 '모바일정보검색' 기술이 주목을 받고 있고 새로운 웹검색기술이 '시멘틱 웹' 기술이 제안되고 논의 중이나 특별히 성공적인 사례는 없다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 단어 단위를 검색어로 하는 정보 검색 시스템에서 구 단위, 문장 단위로 검색키를 확장하여 정보 검색 시스템의 사용자 인터페이스를 보다 편리하게 할 뿐 아니라 정보의 제공, 검색, 분류, 평가, 모니터링 등의 다기능이 통합 처리 가능한 다기능 통합 정보 검색/제공시스템을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명에 따른, 정보 검색방법은, 검색어를 입력받는 단계; 상기 검색어를 의미 있는 단어들로 분리하는 단계; 분리된 단어들이 문장 내에서 어떠한 역할들을 하고 있는지 해석하는 단계; 상기 해석단계의 해석결과를 토대로, 검색키를 생성하는 단계; 및 상기 생성단계에서 생성된 검색키를 이용하여 정보를 검색하는 단계;를 포함한다.
그리고, 상기 입력단계는, 구 단위 및 문장 단위로 상기 검색어를 입력받을 수 있다.
또한, 상기 해석단계는, 상기 분리된 단어들이 문장 내에서 어떠한 역할들을 하고 있는지 해석하기 위해, 구문문법 규칙사전을 참조하며, 상기 구문문법 규칙사전은, 구구조문법, 격문법, 의존문법 및 어휘문법 중 적어도 하나가 수록되어 있는 것이 바람직하다.
그리고, 상기 분리단계는, 상기 검색어를 품사 별로 분리하는 것이 바람직하다.
또한, 상기 분리단계는, 형태소 사전에 데이터 베이스화되어 있는 각 단어의 품사에 대한 정보를 참조하여, 상기 검색어를 품사 별로 분리하는 것이 바람직하다.
그리고, 상기 검색키 생성단계는, 상기 검색어를 구성하는 단어들이 상기 검색어 내에서 어떠한 문법적 관계 및 의미적 관계를 가지는지를 해석하여 얻어지는 구문 표현식을 상기 검색키로 생성하는 것이 바람직하다.
또한, 상기 구문 표현식은, 논리식, 수식-피수식 및 구문목 리스트식 중 적어도 하나인 것이 바람직하다.
그리고, 상기 해석하는 단계는, 상기 단어들을 동의어로 교체하고 난 후에도 수행하는 것이 바람직하다.
또한, 상기 정보 검색단계는, 완전 검색, 부분 검색, 연관 검색 및 동류매치 검색 중 적어도 하나를 수행하는 것이 바람직하다.
그리고, 상기 정보 검색단계에서의 검색결과에 부가서비스를 부가하는 단계;를 더 포함하는 것이 바람직하다.
또한, 상기 부가서비스는, 컨텐츠 문맥 지각형(Context awareness) 서비스이 고, 상기 컨텐츠 문맥 지각형은, 안내서비스, 매매서비스, 광고서비스, 교육서비스, 상담서비스, 추천서비스, 경매서비스 및 행정서비스 중 적어도 하나를 포함하는 것이 바람직하다.
한편, 본 발명에 따른, 정보 검색방법은, 텍스트를 수집하는 단계; 상기 텍스트의 중요구와 중요문장 중 적어도 하나를 추출하는 단계; 상기 중요구와 중요문장 중 적어도 하나를 이용하여 색인키를 생성하는 단계; 및 상기 색인키를 이용하여 정보 검색에 이용되는 색인파일을 생성하여 저장하는 단계;를 포함한다.
그리고, 상기 텍스트는, 네트워크를 통해 접근가능한 컨텐츠에 포함되어 있는 텍스트인 것이 바람직하다.
또한, 본 정보 검색방법은, 상기 수집단계에서 수집된 텍스트를 의미 있는 단어들로 분리하는 단계; 분리된 단어들 중에서 중요단어를 추출하는 단계; 및 상기 중요단어가 문장 내에서 어떠한 역할들을 하고 있는지 해석하는 단계;를 더 포함하고, 상기 추출단계는, 상기 중요단어 및 상기 해석단계의 해석결과를 토대로, 상기 텍스트의 중요구와 중요문장 중 적어도 하나를 추출하는 것이 바람직하다.
그리고, 상기 추출단계는, 상기 중요단어가 전후에 수록되어 있는 명사구를 중요구로 추출하고, 상기 중요단어와 함께 문장 내에서 출현하는 용언을 중요단어와 함께 중요문장으로 추출하는 것이 바람직하다.
또한, 상기 중요단어는, 상기 분리된 단어들 중 상기 텍스트에서 출현빈도가 높은 단어인 것이 바람직하다.
그리고, 상기 해석단계는, 상기 중요단어가 문장 내에서 어떠한 역할들을 하 고 있는지 해석하기 위해, 구문문법 규칙사전을 참조하며, 상기 구문문법 규칙사전은, 구구조문법, 격문법, 의존문법 및 어휘문법 중 적어도 하나가 수록되어 있는 것이 바람직하다.
또한, 상기 분리단계는, 상기 텍스트를 품사 별로 분리하는 것이 바람직하다.
그리고, 상기 분리단계는, 형태소 사전에 데이터 베이스화되어 있는 각 단어의 품사에 대한 정보를 참조하여, 상기 텍스트를 품사 별로 분리하는 것이 바람직하다.
또한, 상기 색인키 생성단계는, 상기 중요구와 중요문장를 구성하는 단어들이 상기 중요구 및 상기 중요구와 중요문장 내에서 어떠한 문법적 관계 및 의미적 관계를 가지는지를 해석하여 얻어지는 구문 표현식을 상기 색인키로 생성하는 것이 바람직하다.
그리고, 상기 구문 표현식은, 논리식, 수식-피수식 및 구문목 리스트식 중 적어도 하나인 것이 바람직하다.
또한, 상기 중요구와 중요문장을 구성하는 단어들이 상기 중요구 및 상기 중요구와 중요문장 내에서 어떠한 문법적 관계 및 의미적 관계를 가지는지에 대한 해석은, 상기 중요구와 중요문장에 포함되어 있는 중요단어를 동의어로 교체한 구와 문장에 대해서도 수행하는 것이 바람직하다.
그리고, 본 정보 검색방법은, 분리된 단어들을 이용하여 텍스트가 포함되어 있는 컨텐츠를 작성한 자의 의도를 파악하는 단계;를 더 포함하는 것이 바람직하 다.
또한, 상기 파악단계는, 형태소 사전에 데이터 베이스화 되어 있는 단어가 어떠한 의미로 사용되는지에 대한 의미 정보를 참조하여 상기 컨텐츠를 작성한 자의 의도를 파악하는 것이 바람직하다.
그리고, 상기 파악단계는, 상기 텍스트를 구성하는 단어들의 의미 정보들의 정성적 분석과 정량적 분석에 의한 통계를 통해 상기 컨텐츠를 작성한 자의 의도를 파악하는 것이 바람직하다.
또한, 상기 텍스트를 구성하는 문장별로 상기 컨텐츠를 작성한 자의 의도를 파악하고, 다수의 문장에 공통된 의도를 상기 컨텐츠를 작성한 자의 의도로 파악하는 것이 바람직하다.
그리고, 본 정보 검색방법은, 상기 텍스트를 구성하는 문장별로 상기 컨텐츠를 작성한 자의 의도를 파악한 결과를 테이블 형식 또는 그래프 형식으로 제공하는 단계;를 더 포함하는 것이 바람직하다.
또한, 본 정보 검색방법은, 상기 중요단어에 대한 대역 외국어를 획득하는 단계; 및 상기 대역 외국어를 등록하는 단계;를 더 포함하는 것이 바람직하다.
이상 설명한 바와 같이, 본 발명에 따르면, "구", "문장" 수준의 검색이 가능해져, '검색 단어'를 키워드로 하고 그것의 확장으로서 또 다른 검색단어를 논리연산자(AND, OR, NOT)의 조합으로 하여 검색하는 기존의 검색 방식에 비해, 정보의 재현율과 정확도가 훨씬 우수하다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 검색시스템을 도시한 도면이다. 본 실시예에 따른 검색시스템을 구성하는 블럭들은 S/W로 구현할 수 있음은 물론 H/W로 구현할 수 있다. 또한, 검색시스템을 구성하는 블럭들 중 일부는 S/W로 나머지는 H/W로 구현하는 것도 가능하다.
본 실시예에 따른 검색시스템은, 도 1에 도시된 바와 같이, 텍스트 크롤러(101), 텍스트 형태소 처리기(102), 형태소 사전(103), 컨텐츠 제공자 의도 파악기(104), 정보 모니터(105), 중요단어 추출기(106), 텍스트 구문 해석기(107), 구문문법 규칙사전(108), 중요구 추출기(109), 용언 추출기(110), 색인키 생성기(111), 색인파일 구성기(112), 색인파일 저장기(113), 검색어 입력기(114), 검색어 형태소 처리기(115), 검색자 의도 파악기(116), 검색어 구문 해석기(117), 검색키 생성기(118), 검색기(119), 검색 결과 생성기(120), 부가서비스 생성기(121), 부가서비스 데이터베이스(122), 검색결과 표시기(123), 대역 외국어 획득기(124), 외국어 검색엔진 연결기(125) 및 정보 검색창(126)을 구비한다.
텍스트 크롤러(101)는 네트워크를 통해 접근가능한 컨텐츠에 포함되어 있는 텍스트를 수집한다. 텍스트 크롤러(101)에 의해 수집된 텍스트는 후술할 텍스트 형태소 처리기(102)로 전달된다.
여기서, 네트워크는 인터넷, 인트라넷 등과 같은 유선망은 물론, 이동통신망과 WLAN, WMAN과 같은 무선망도 포함된다. 또한, 컨텐츠는 네트워크를 통해 접근 가능한 것이라면 어떠한 것이라도 무방하다. 도 1에는 컨텐츠 또는 컨텐츠가 저장되어 있는 저장소로, 이미지(11), 이메일(12), 데이터 베이스(13), 파일 시스템(14), 웹사이트(15), 블로그(16), 문서 저장고(17) 등을 상정하였으나, 이외의 다른 컨텐츠 또는 저장소가 적용될 수 있음은 물론이다.
형태소 사전(103)에는 각 단어의 품사 정보가 데이터 베이스화 되어 있다. 뿐만 아니라, 형태소 사전(103)에는 각 단어의 의미 정보, 동의어 정보, 대역 외국어 등의 확장 정보도 데이터 베이스화 되어 있다. 여기서, 형태소 사전(103)에 등록되는 단어에 대한 제한은 없으므로, 형태소 사전(103)에는 명사 이외의 다른 품사(대명사, 형용사, 조사, 어미 등)도 등록될 수 있음은 물론이다.
형태소 사전(103)에 수록되어 있는 품사 정보는 텍스트를 품사 별로 분리하는데 참조되고, 의미 정보는 컨텐츠 작성자 또는 검색자의 의도를 파악하는데 이용된다. 또한, 동의어 정보는 보다 넓은 범위의 확장 검색을 수행하는데 이용되고, 대역 외국어는 다국어 검색을 수행하는데 이용된다.
도 2에는 형태소 사전(103)에 수록되어 있는 정보가 예시되어 있으므로, 형태소 사전(103)에 대해서는 후에 도 2를 참조하여 상세히 설명하기로 한다.
텍스트 형태소 처리기(102)는 텍스트 크롤러(101)로부터 전달받은 텍스트를 '의미 있는 단어' 단위로 분리한다. 여기서, '의미 있는 단어'란 품사를 말하는데, 이에 따르면 텍스트 형태소 처리기(102)는 텍스트를 품사 별로 분리하는 것으로 이해할 수 있다.
이를 위해, 텍스트 형태소 처리기(102)는 형태소 사전(103)에 데이터 베이스 화되어 있는 단어에 대한 품사 정보를 참조하여, 텍스트를 품사별로 분리하게 된다.
컨텐츠 제공자 의도 파악기(104)는 텍스트 형태소 처리기(102)에서 품사 별로 분리된 단어들을 이용하여 텍스트가 포함되어 있는 컨텐츠를 작성한 자의 의도(예를 들면, 우호적, 비호감)를 파악한다.
한편, 형태소 사전(103)에 데이터 베이스화 되어 있는 단어에 대한 의미 정보에는, 해당 단어가 어떠한 의미로 사용되었는지에 대한 정보가 수록되어 있다. 따라서, 컨텐츠 제공자 의도 파악기(104)는 컨텐츠 제공자의 의도를 파악하기 위해, 형태소 사전(103)에 수록되어 있는 의미 정보들을 참조한다.
구체적으로, 컨텐츠 제공자 의도 파악기(104)는 컨텐츠에 포함된 텍스트를 구성하는 단어들의 의미 정보들의 정성적 분석과 정량적 분석에 의한 통계를 통해 컨텐츠 제공자의 의도를 파악하는데, 이에 대한 보다 상세한 설명은 후술한다.
정보 모니터(105)는 컨텐츠 제공자 의도 파악기(104)에 의해 파악된 컨텐츠 제공자의 의도를 사용자가 볼 수 있도록 출력한다. 이를 위해, 정보 모니터(105)는 그래픽 툴을 이용할 수 있다.
한편, 중요단어 추출기(106)는 텍스트 형태소 처리기(102)에 의해 텍스트로부터 분리된 단어들 중에서 중요단어를 추출한다. 구체적으로, 중요단어 추출기(106)는 텍스트 형태소 처리기(102)에 의해 텍스트로부터 분리된 단어들 중 출현빈도가 높은 단어를 중요단어로 추출할 수 있다.
텍스트 구문 해석기(107)는 중요단어 추출기(106)에서 추출된 중요단어가 문 장 내에서 어떠한 역할들을 하고 있는지 해석한다. 이와 같은 해석을 위해, 텍스트 구문 해석기(107)는 구문문법 규칙사전(108)에 수록되어 있는 문법 규칙을 참조한다.
중요구 추출기(109)는 텍스트 구문 해석기(107)의 구문 해석 결과를 토대로, 중요단어가 포함된 명사구들을 중요구로 추출한다. 여기서, 중요구 추출기(109)에 의해 추출되는 중요구는 중요단어가 전후에 수록되어 있는 명사구이다.
용언 추출기(110)는 중요단어 추출기(106)에 추출된 중요단어와 함께 문장 내에서 출현하는 용언(공기어)을 중요단어와 함께 추출한다.
색인키 생성기(111)는 중요구 추출기(109)에서 추출된 '중요구'와 용언 추출기(110)에서 추출된 '중요단어와 용언'(이하, '중요문장'으로 표기한다.)에 대해 구문 해석을 수행한다.
여기서, 구문 해석이란, '중요구'와 '중요문장'을 구성하는 단어들이 구/문장 내에서 어떠한, 문법적/의미적 관계를 가지는지를 해석하는 과정이다. 구문 해석 결과로 구문 표현식이 얻어지는데, 이는 논리식, 수식-피수식, 구문목 리스트식 등으로 표현가능하다.
이와 같은 절차에 의해, 색인키 생성기(111)는 구문 해석결과로 얻은 구문 표현식을 색인키로 생성한다. 이때, 색인키 생성기(111)는 중요구와 중요문장에 포함되어 있는 중요단어를 동의어로 교체한 구와 문장에 대해서도 구문해석하여, 이에 대한 색인키를 생성하는 것이 가능하다.
색인파일 구성기(112)는 색인키 생성기(111)에 의해 생성된 색인키를 각 색 인키에 관련하는 컨텐츠 정보를 링크하여 색인 파일을 생성하여, 색인파일 저장기(113)에 저장한다. 색인파일 구성기(112)에 의해 생성되는 색인파일은 도 5와 도 6에 예시되어 있으므로, 색인파일에 대해서는 도 5와 도 6에 대한 상세한 설명 부분에서 상술한다.
지금까지 설명한 구성들은 정보검색을 위해 필요한 색인키를 생성하는데 이용되는 구성들이다. 이하에서는, 사용자가 검색어를 입력하여 검색을 요청한 경우, 위에서 생성하여 저장한 색인파일을 이용하여 정보검색을 수행하는 구성들에 대해 상세히 설명한다. 여기서, 사용자가 입력하는 검색어는 단어는 물론이고, 구나 문장인 경우도 포함된다.
정보 검색창(126)은 사용자가 검색어를 단어, 구 또는 문장으로 입력할 수 있는 입력창을 제공한다. 그리고, 검색어 입력기(114)는 정보 검색창(126)을 통해 사용자가 입력한 검색어를 검색어 형태소 처리기(115)로 전달한다.
검색어 형태소 처리기(115)는 검색어 입력기(114)로부터 전달받은 검색어를 '의미 있는 단어' 단위로 분리한다. 여기서, '의미 있는 단어'란 품사를 말하는데, 이에 따르면 검색어 형태소 처리기(115)는 텍스트 형태소 처리기(102)와 동일한 방법으로 검색어를 품사 별로 분리하는 것으로 이해할 수 있다.
이를 위해, 검색어 형태소 처리기(115)는 형태소 사전(103)에 데이터 베이스화되어 있는 단어에 대한 품사 정보를 참조하여, 텍스트를 품사별로 분리하게 된다.
검색자 의도 파악기(116)는 검색어 형태소 처리기(115)에서 품사별로 분리된 단어들을 이용하여 검색어를 입력한 검색자의 의도를 파악한다. 검색자 의도 파악기(116)는 검색자의 의도를 파악하기 위해, 형태소 사전(103)에 수록되어 있는 의미 정보들을 참조한다.
검색어 구문 해석기(117)는 검색어 형태소 처리기(115)에서 품사별로 분리된 단어들이 문장 내에서 어떠한 역할들을 하고 있는지 해석한다. 이와 같은 해석을 위해, 검색어 구문 해석기(117)는 구문문법 규칙사전(108)에 수록되어 있는 문법 규칙을 참조한다.
검색키 생성기(118)는 검색어 구문 해석기(117)에서 해석된 구문 해석결과를 참조하여, 검색어 형태소 처리기(115)에서 품사별로 분리된 단어들로 구문 표현식을 얻어낸다. 검색키 생성기(118)는 이에 의해 얻어낸 구문 표현식을 검색키로 생성한다.
검색기(119)는 검색키 생성기(118)에서 생성된 검색키와 동일한 색인키를 색인파일 저장기(113)에서 검색한다. 이때, 검색기(119)는 검색키와 동일한 색인키를 색인파일 저장기(113)에서 검색한다.
한편, 검색기(119)는 검색키 생성기(118)에서 생성된 검색키를 구성하는 단어들을 동의어로 교체하고 생성한 구/문장과 동일한 색인키를 색인파일 저장기(113)에서 검색하는 확장 검색을 수행하는 것도 가능함은 물론이다.
또한, 검색기(119)는 검색키와 구조 및 단어가 완전히 동일한 색인키 뿐만 아니라, 구조와 단어가 일부만 동일한 색인키를 검색하는 것도 가능하다. 즉, 검색기(119)는 동일 검색 뿐만 아니라, 부분 검색이나 연관 검색도 가능한 것이다.
부가서비스 데이터베이스(122)에는 검색자의 검색 의도에 적합한 사이트 정보 또는 관련 광고서비스를 제공하는 수단 등이 저장되어 있다.
부가서비스 생성기(121)는 검색키와 관련한 부가서비스를 생성한다. 이를 위해, 부가서비스 생성기(121)는 부가서비스 데이터베이스(122)에 저장되어 있는 부가서비스들 중 검색자의 검색 의도에 적합한 부가서비스를 이용한다.
부가서비스 데이터베이스(122)와 부가서비스 생성기(121)에 의해 제공되는 부가서비스는 컨텐츠 문맥 지각형(Context awareness) 서비스로 구현할 수 있다. 이때, 컨텐츠 문맥 지각형 서비스에는 안내서비스, 매매서비스, 광고서비스, 교육서비스, 상담서비스, 추천서비스, 경매서비스, 행정서비스 등이 포함된다.
검색 결과 생성기(120)는 검색기(119)에서 수행된 검색결과에 부가서비스 생성기(121)에서 생성된 부가서비스를 부가한다. 또한, 부가서비스 생성기(121)는 검색결과와 검색자의 검색어의 일치 정도를 판단하고, 판단결과를 검색 결과에 부가할 수 있다. 만약, 검색 결과가 동일 검색이라면 일치 정도가 높겠지만, 부분 검색이나 연관 검색인 경우는 일치 정도가 동일 검색보다 낮게 된다.
검색결과 표시기(123)는 검색 결과 생성기(120)에서 생성된 부가서비스가 부가된 검색결과를 화면을 통해 출력하여 사용자에게 제공한다.
한편, 부가서비스 없이 검색결과만을 사용자에게 제공하는 것이 가능하다. 이 경우는, 부가서비스 생성기(121)가 부가서비스를 생성하지 않도록 하거나, 생성하더라도 검색 결과 생성기(120)가 생성된 부가서비스를 부가하지 않도록 하는 방식에 의해 가능하다.
한편, 대역 외국어 획득기(124)는 외국어 검색엔진 연결기(125)를 이용하여 외국어 검색엔진에 접속하여, 중요단어 추출기(106)에서 추출된 중요단어에 대한 대역 외국어를 획득한다. 그리고, 대역 외국어 획득기(124)는 형태소 사전(103)에 중요단어에 대한 대역 외국어로 등록한다.
이하에서는, 전술한 형태소 사전(103)에 대해, 도 2를 참조하여 상세히 설명한다. 도 2에는 형태소 사전의 일 예로, 한국어 형태소 사전을 도시하였다.
도 2에 도시된 바와 같이, 형태소 사전(103)은, 1) 제1열에는 단어가, 2) 제2열에는 단어의 품사정보가, 3) 제3열에는 단어의 의미 정보가, 4) 제4열에는 동의어(또는 동의구), 유사어 및/또는 대표어의 집합이, 5) 제5열에는 대역 영어가, 6) 제6열에는 대역 일본어가, 7) 제7열에는 대역 중국어가, 각각 나열되어 구성된다.
도시된 형태소 사전(103)은, 텍스트 형태소 처리기(102)가 텍스트를 형태소 처리하는데 이용되고, 검색어 형태소 처리기(115)가 검색어를 형태소 처리하는데 이용된다.
전술한 바 있듯이, 형태소 처리는 주어진 문장의 요소가 어떤 의미 있는 단어로 구성되어 있는가를 가리는 것이다. 예를 들어, "학교에 간다"를 형태소 처리하면 "학교+에+가+ㄴ다"와 같이 단어 경계를 나누는 것이, 형태소 처리이다.
이때, 사용하는 정보는 형태소 사전(103)에 저장되어 있는 품사 정보로 각 품사간의 인접가능 관계를 조사하여 처리 결과로써, "학교/명사+에/조사+가/동사+ㄴ다/어미"와 같이 출력한다.
이와 동시에 형태소 처리의 부차적 정보로써 "단어빈도", "문장수" 등 언어 통계치를 구할 수 있고 의미 정보, 동의어 정보, 대역 외국어를 동시에 출력하는 것이 가능하다.
한편, 형태소 사전(103)에 수록되어 있는 의미 정보는,
1) 명사의 경우, 물건|자연|재료|요소|도구|수단|인간관계|사회|범죄|조직|문화|동물|인간|식물|수|추상|구성|구체|행위|상태|때|장소|위치|간격|회수|비율|정도|수량|강조|진위|감정|욕설|비하|정치|경제|회사명|지역명|사건|인명|음식|음란|의약품 등으로 분류되고,
2) 동사의 경우, 행위|순간|계속|이동|변화|감정|사고|지각|존재|판단|무의지|표현|서비스 등으로 분류되며,
3) 형용사의 경우, 상태|관계|성질|정도|강조|호감|비호감|선정|음란|양태 등으로 분류되고,
4) 조사의 경우, 구|수단/방법|원료/재로|원인/이유|원천/기점|착점/방향|목적/목표|결과|주는쪽|받는쪽|장소|때|경우|내용|역할|대조|범위/회수|정도|수량|비율|강조|진위|양태 등으로 분류하며,
5) 부사의 경우, |강조|등으로 분류되고,
6) 양태를 나타내는 어미의 경우, 과거|현재|미래|부정|가능|자별|의무|필요|불가피|요청|요구|단정|확실한추정|불확실추정|예정|희망|시행|명령|의문|의리|허가|권유|사역|의뢰|수동|수익|겸손|존칭 등으로 분류된다.
하지만, 위에서 제시한 분류는 일 예에 불과하며 고정적인 것도 아니다. 단 어의 의미는 시시각각 변화한다는 점에서, 의미 분류도 고정된 것이 아닌 시대의 변천에 따라 변화될 수 있음은 물론이다. 또한, 의미 정보 분류시에는 시소러스 분류에 의한 어휘 사전을 참조할 수 있음은 물론이다.
도 2에 예시된 바에 따르면,
1) "이승만(103-1)"은, 품사 정보가 "명사", 의미 정보는 "인명", 동의어 정보는 "한국 대통령"임을 알 수 있고,
2) "냉면(103-2)"은, 품사 정보가 "명사", 의미 정보는 "음식명", 동의어 정보는 "한국 대표적 면류 음식"임을 알 수 있으며,
3) "이산화탄소(103-3)"는, 품사 정보가 "명사", 의미 정보가 "유해물질", 동의어 정보가 "시오투, 지구 온난화"임을 알 수 있고,
4) "세요(103-4)"는, 품사 정보가 "어미", 의미 정보가 "요청,존대", 동의어 정보가 "명령"임을 알 수 있으며,
5) "놈(103-5)"은 품사 정보가 "명사", 의미 정보가 "비하", 동의어 정보가 "넘"임을 알 수 있다.
의미 정보와 동의어 정보는, 검색을 확대, 확장시키는데 이용될 수 있다. 예를 들어, "이승만"을 검색어로 한 경우, "이승만"에 대한 검색결과는 물론, "한국 대통령"에 관련하는 검색 결과도 더 제공하는 것이 가능하도록 한다.
또한, "이산화탄소 대책"을 검색어로 한 경우, "이산화탄소 대책"에 대한 검색결과는 물론, "유해 물질", "CO2 대책", "지구 온난화 대책"에 관련하는 검색결과 도 더 제공하는 것이 가능하다.
마찬가지로, "소고기, 돼지고기, 김치" 등의 의미 정보는 "식품"이고, 동의어 정보는 "육류", "채소류"이므로, 의미 정보와 동의어 정보를 이용하여 확장 검색을 수행하는 것이 가능하다.
이와 같이, 형태소 사전(103)에는 품사 정보 외에도 의미 정보와 동의어 정보가 수록되어 있으므로, 풍부한 정보 검색을 가능하게 한다.
이하에서는, 구/문장을 형태소 처리하여 색인키나 검색키의 표현식을 생성하는 과정에 대해 도 3을 참조하여 부연설명한다.
구문해석이란, 문장을 구성하는 각각의 의미 있는 단어가 바른 문으로서 어떤 구조를 가지고 있는지를 해석하는 과정이다. 구문해석에는 자연언어를 기술하는 문법이론이 이용된다. 자연언어를 기술하는 문법이론에는 구구조문법, 격문법, 의존문법, 어휘문법 등이 있는데, 이들은 문법기술 방법에 차이점이 있다.
영어, 한국어, 중국어, 일본어 등 모든 언어에 상기 문법이론은 적용 가능하므로, 본 실시예에서 제시하는 한국어 구문 해석 방법론은 다른 언어들에도 적용할 수 있다.
도 3에 도시된 형태소 처리(301) 과정을 끝낸 입력문은 의미 있는 단어 단위로 분리되며 분리된 단어들에는 각각 품사 정보가 부가(302)되어 있다. 품사 정보는 {명사, 대명사, 수사, 형용사, 부사, 조사…} 등 10~12개 정도의 품사명으로 되어 있다.
각각의 단어들이 서로 어떻게 결합되어 바른 구, 절, 문을 이루는가를 해석 하기 위해서는 각 언어에서의 바른 구, 절, 문에 대한 생성규칙(303)이 필요한데, 이 규칙은 전술한 구문문법 규칙사전(108)에 포함되어 있으므로, 구문문법 규칙사전(108)으로부터 추출한다.
예를 들면, "문장은 주부(명사구)와 술부(동사구)로 이루어진다" 라는 지식을 문법 규칙화하면 S(Sentence)←NP(Noun Phrase)·VP(Verb Phrase)로 표현된다. 이러한 규칙이 정의된 곳이 구, 절, 문에 대한 생성규칙(303)인 것이다.
이들 규칙을 간단히 설명하면, 1) 구구조문법 형식은 단어 단위에서 구, 절, 문 단위로 생성하는 규칙을 기반으로 정의되고, 2) 격문법 형식과 의존문법형식은 어절이라는 단위들의 수식과 피수식 관계를 규칙으로 정의되며, 3) 어휘문법형식은 VP=cat(동사, 종지, … Sub, SEM) 형식을 취하며 각 단어간의 바른 결합을 단일화(Unification)라는 연산으로 수행된다.
구체적인 예를 들면, 구구조문법 규칙과 처리방법은
(1) S ← PPV
(2) PP ← NP
과 같이 정의해 두고 "서울에서 왔다"를 구문 해석하면 형태소 처리 결과 (서울/N(명사), 에서/P(조사), 왔다/V(동사)과거)의 단어들이 생성되며, 구문 해석이 수행되면, "서울에서"는 "NP"이므로 "서울에서"는 문법규칙(2)에 따라 "PP(전치사구)"로 구문 해석되며 "왔다"는 'V(동사)'이므로 PP와 V는 문법규칙(1)에 따라 'S(문장)'으로 해석되어 그 결과를 한국어의 경우 ((서울에서)왔다)라는 목(tree)구조 또는 리스트(list)구조식으로 출력된다.
한편, 상기의 예문을 의존문법규칙으로 해석하면 어절, "서울에서"가 어절 "왔다"를 수식하는 구문 해석 관계를 "서울에서→왔다"라는 표현식으로 출력된다.
그리고, 어휘문법형식은 (왔다, [누가], [서울에서])라는 구문해석 결과를 의미표현식으로 출력한다. 본 발명에서는 문법 이론에 따라 각각의 구문해석 표현식을 출력(304)할 수 있다. 이에 따라, 품사정보에 의한 표현식(305), 의미정보에 의한 표현식(306), 동의어/구에 의한 표현식(307)이 출력가능한데, 이들이 전술한 색인키와 검색키로 사용되는 것이다.
이하에서는, 도 1에 도시된 검색시스템에 의한 검색방법, 구체적으로, 색인키를 생성하여 색인 파일화 하고, 이 색인 파일을 이용하여 사용자가 입력한 검색어에 대해 검색을 수행하는 과정에 대해, 도 4 내지 도 8을 참조하여 상세히 설명한다.
도 4는 본 발명의 다른 실시예에 따른 검색방법의 설명에 제공되는 흐름도이고, 도 5 및 도 6은 도 4에 도시된 검색방법의 부연 설명에 제공되는 도면이다.
먼저, 텍스트 크롤러(101)는 검색키를 확보하고자 하는 컨텐츠를 지정하고(S401), 컨텐츠에 포함되어 있는 텍스트들 중 검색키를 확보하고자 하는 텍스트를 지정한 후(S402), 지정된 텍스트를 추출한다(S403).
도 5의 (a)에는 S401단계 내지 S403단계를 통해 추출된 텍스트의 일 예를 나타내었다.
이후, 텍스트 형태소 처리기(102)는 텍스트 크롤러(101)가 추출한 텍스트를 문장 별로 분리하고, 분리된 문장들을 품사 별로 분리한다(S404). S404단계에서의 형태소 처리는 형태소 사전(103)의 참조하에 이루어진다.
이후, 텍스트 형태소 처리기(102)는 S404단계를 통해 분리된 단어들에 품사 정보를 부가한 결과를 텍스트의 문장수와 단어수와 함께 출력한다(S405).
도 5의 (b)에는 텍스트를 품사별로 분리하여 단어 단위로 나타낸 결과를 도시하였고, 도 5의 (c)에는 분리된 단어들과 그들에 대한 품사 정보와 함께, 텍스트의 단어수와 문장수가 나타난 결과를 도시하였다. 도 5의 (c)에 따르면, 도 5의 (a)에 나타난 텍스트는 5문장으로 구둣점 포함하여 127개의 단어로 구성되었음을 확인할 수 있다.
이후, 중요단어 추출기(106)는 S405단계에서의 출력을 기초로, 중요단어를 추출한다(S406). S406단계에서의 중요단어 추출은, 정량적 통계 계산법에 의해 수행할 수 있는데, 정량적 통계 계산법은 아래와 같다.
우선, tfidf(wi,t) = freq(wj,t) * idf(wj) 의 식을 세운다.
여기서, freq(wj,t)는 텍스트 t 속에 단어 wj 의 출현빈도를 나타내고 idf(wi) = log(n/uf(wj))로 정의한다. 그리고, n은 문장수, uf(wj) 는 단어 wj가 포함된 문장수를 나타낸다.
이후, 텍스트에 포함되어 있는 단어들 모두에 대한 tfidf(wi,t)를 산출하고, 산출값이 가장 높은 단어를 중요단어로 하면 된다.
도 5의 (c)에 나타난 결과에 대해 위 식을 적용하면, "김치"가 중요단어로 추출되므로, 도 5의 (d)에 중요단어를 나타내었다.
이후, 텍스트 구문 해석기(107)는 S406단계에서 추출된 중요단어가 포함된 문장에 대해 구문해석을 수행한다(S407).
그러면, 중요구 추출기(109)는 S407단계의 수행된 구문해석 결과를 이용하여, 중요단어가 포함된 명사구들인 중요구들을 추출한다(S408).
그리고, 용언 추출기(110)는 S408단계에서 추출된 중요단어와 함께 문장 내에서 출현하는 용언(공기어)을 중요단어와 함께 추출한다(S409).
S408단계와 S409단계의 수행결과로 얻어지는, '중요구'와 '중요문장'(중요단어와 용언)을 도 5의 (e)에 나타내었다.
도 5의 (e)에 나타난 문구들 중 "김치수입", "대한민국의 김치수입량", "수출된 김치", "수입 김치", "비싼 김치", "싼 김치"는 중요구에 해당한다. 그리고, (김치수입)급증, (김치수입량)급증, (비싼김치)수출 및 (싼 김치)수입은, 각각 중요구인 "김치수입은 급증하였다", "김치수입량은 급증하였다", "비싼김치를 수출하고", "싼 김치를 수입하는"를 간략히 표현한 것이다.
이후, 색인키 생성기(111)는 S408단계에서 추출된 '중요구'와 S409단계에서 추출된 '중요문장'에 대해 구문 해석을 수행하고(S410), 구문 해석 결과로 얻은 구문 표현식을 색인키로 생성한다(S411).
그리고, 색인파일 구성기(112)는 색인키 생성기(111)에 의해 생성된 색인키를 각 색인키에 관련하는 컨텐츠 정보를 링크하여 색인 파일을 생성하여(S412), 색인파일 저장기(113)에 저장한다(S413).
도 5의 (f)에는, S410단계에서 의존문법으로 구문해석을 수행한 경우 얻어지 는 구문 표현식인, 김치→수입, 대한민국→김치수입량, 수출된→김치, 수입→김치, 비싼→김치, 싼→김치 등을 색인키로 생성한 결과를 나타내었다.
또한, 도 5의 (g)에는, S410단계에서 구구조문법으로 구문해석을 수행한 경우 얻어지는 구문 표현식인, (김치(수입)), (김치(수입량), (수출된(김치)), (수입(김치)), (비싼(김치)수출), (싼(김치)수입) 등을 색인키로 생성한 결과를 나타내었다.
또한, 도 5의 (f) 및 (g)에서는 색인키에 관련하는 컨텐츠 정보가 링크되었음을 확인할 수 있는데, 색인키에 대한 출현빈도, 출현문, 출현위치 정보가 이에 해당한다.
한편, 의미 정보를 이용하여 색인키와 동일한 의미를 가지는 다른 색인키를 생성하여 이들에 대한 색인 파일을 저장하는 것도 가능하다. 이 결과로 생성되는 색인키들이 나열되어 있는 색인 파일은 도 6에 예시하였다.
이하에서는, 위와 같은 방식에 의해 생성되어 저장된 색인 파일을 이용하여 사용자가 입력한 검색어에 대해 검색을 수행하는 과정에 대해, 도 7 및 도 8을 참조하여 상세히 설명한다.
도 7은 본 발명의 또 다른 실시예에 따른 검색방법의 설명에 제공되는 흐름도이고, 도 8은 도 7에 도시된 검색방법의 부연 설명에 제공되는 도면이다.
먼저, 정보검색창(126)을 통해 사용자가 검색어를 입력하면(S701), 검색어 형태소 처리기(115)는 S701단계에서 입력된 검색어를 품사 별로 분리하여 단어 단위로 출력하되, 각 단어에 대한 품사 정보도 함께 출력한다(S702).
도 8에서는 사용자에 의해 입력된 검색어인 "수출된 김치"(801)가 입력된 경우를 상정하였으며, 형태소 처리 결과인 "수출되/동사, ㄴ/어미, 김치/명사"(802)와 의미 정보가 활용된 "동사/수출, 어미/과거, 명사/식품"(803)을 나타내었다.
이후, 검색어 구문 해석기(117)는 S702단계에서의 출력을 가지고 구문해석을 수행하며(S703), 검색키 생성기(118)는 S703단계에서 수행된 구문 해석결과를 참조하여, 검색키를 생성한다(S704).
도 8에 나타난 "수출된→김치"(804)와 "수출된→식품"(805)은 S704단계에서 생성될 수 있는 검색키를 나타낸다. 전자는 품사정보에 의한 표현식으로 나타낸 검색키이고, 후자는 의미정보에 의한 표현식으로 나타낸 검색키이다.
이후, 검색기(119)는 S704단계에서 생성된 검색키를 색인파일 저장기(113)에서 검색한다(S705).
S705단계에서의 검색은 정보 재현성을 높이기 위한 목적으로, 완전 검색(동일 검색)은 물론, 부분 검색, 연관 검색 및 동류매치 검색도 포함한다.
여기서, '완전검색'이란 "수출된→김치"(805)(806)의 정확한 구문해석에 의한 검색을 나타낸다.
한편, "김치"의 의미 정보가 "식품"인 것을 활용하여 "수출된→식품"(807)을 검색키로 하면 의미 정보를 "식품"으로 한 모든 텍스트 정보들을 검색 결과로 얻을 수 있는 결과가 된다. 즉, "소고기" "돼지고기"는 의미 정보가 모두 "식품"인 경우라면, "수출된→식품"(807)을 검색키로 전 텍스트에서 "수출된→김치" 뿐만 아니라, "수출된→소고기", "수출된→돼지고기" 등 "식품"이라 정보가 주어진 모든 것 들이 검색 결과로 얻을 수 있어 보다 확장된 정보검색이 가능해지는데, 이는 '연관검색'에 해당한다.
또한, "수출된→김치"에서 부분적인 검색키 즉 "김치"(808)와 "수출"(809)만을 이용한 '부분검색'을 수행하는 것도 가능하다.
또한, 형태소 사전(103)(도 2 참조)에 수록되어 있는 동의어 정보를 활용함으로써 "수출된"이 "외국으로 나간"으로 변경하여 검색하는 것도 가능하다.
즉, 형태소 사전(103)의 동의어 정보를 참조하여, "외국으로 나간→김치", "외국으로 나간→식품" 등의 검색키를 이용한 검색이 가능한데, 이는 '동류검색'에 해당한다.
본 실시예와 같이, 다양한 방법으로 색인키를 확장 생성할 경우, 정보 재현율과 정확성에 있어 기존의 방법보다 월등한 효과를 얻을 수 있다. 기존의 검색시스템에서는 '검색 단어'를 키워드로 하고 그것의 확장으로서 또 다른 검색단어를 논리연산자(AND, OR, NOT)의 조합으로 하여 검색하는 방식인데 반해, 본 실시예는 "구", "문장" 수준의 검색 방법이므로, 본 실시예에 따른 검색 방식은 정보의 재현율과 정확도가 훨씬 우수하다.
이하에서는, 도 1에 도시된 컨텐츠 제공자 의도 파악기(104)가 형태소 사전(103)을 참조하여, 컨텐츠 제공자의 의도를 파악하는 방법에 대해, 도 9를 참조하여 상세히 설명한다.
도 9는 "상품평" 컨텐츠에 대해 이를 작성한 컨텐츠 제공자의 의도를 파악하는 과정을 예시한 도면이다.
도 9에서는 텍스트 크롤러(101)에 의해 텍스트(901)가 수집되어, 텍스트 형태소 처리기(102)에 의한 형태소 처리(902)되면서 품사 정보 및/또는 의미 정보가 단어, 단어수, 문장수와 함께 출력된 결과(903)를 나타내었다.
컨텐츠 제공자 의도 파악기(104)는 '903'에 수록되어 있는 정보를 이용하여 행렬식(904)을 작성한다. 행렬식(904)은 어떠한 의미 정보가 수록되어 있는지에 대한 정보를 문장별로 통계한 것이다.
이후, 컨텐츠 제공자 의도 파악기(104)는 작성된 행렬식(904)에 수록되어 있는 의미 정보를 각 문장별로 분석, 평가하여, 우호적인 문장의 개수와 적대적인 문장의 개수를 파악한다. 구체적으로, 호감, 존대 등의 빈도가 높은 문장은 우호적인 문장으로, 비호감, 부정적, 욕설 등의 빈도가 높은 문장은 적대적인 문장으로 파악한다.
도 9의 행렬식(904)에 따르면, 총 6개의 문장 중 "호감"과 "존대"의 빈도가 높은 문장의 개수가 5개이므로, 텍스트(901)은 지극히 우호적인 것으로 평가하며, 이를 나타내는 아이콘(906)을 출력하는 것도 가능하다.
도 10에는 "댓글" 컨텐츠에 대해 이를 작성한 컨텐츠 제공자의 의도를 파악하는 과정을 예시한 도면이다. 이 과정에 의해 의도 파악 대상인 "댓글"이 선플인지 악플인지에 대한 평가 및 분류가 가능하다.
도 10에서는 텍스트 크롤러(101)에 의해 텍스트(1001)가 수집되어, 텍스트 형태소 처리기(102)에 의한 형태소 처리(1002)되면서 품사 정보 및/또는 의미 정보가 단어, 단어수, 문장수와 함께 출력된 결과(1003)를 나타내었다.
컨텐츠 제공자 의도 파악기(104)는 '1003'에 수록되어 있는 정보를 이용하여 행렬식(1004)을 작성한다. 그리고, 컨텐츠 제공자 의도 파악기(104)는 작성된 행렬식(1004)에 수록되어 있는 의미 정보를 각 문장별로 분석, 평가하여, 우호적인 문장의 개수와 적대적인 문장의 개수를 파악한다.
도 10의 행렬식(1004)에 따르면, 총 4개의 문장 중 "비호감"과 "비하"의 빈도가 높은 문장의 개수가 4문장이므로, 텍스트(1001)은 지극히 적대적인 것으로 평가한다.
이에 따르면, 우호적, 비우호적 상품평을 실시간으로 분석, 평가, 분류할 수 있는 모니터링 기능을 수행할 수 있게 된다.
한편, 컨텐츠 제공자 의도 파악기(104)는 특정 의미 정보를 가지는 단어들이 문장들에 얼마나 분포되어 있는지 여부를 나타내는 정보를 생성하고, 생성된 이 분포 정보를 정보 모니터(105)에 의해 출력할 수 있다.
여기서, 생성되는 분포 정보는 테이블 형식(1005)일 수 있음은 물론, 그래프 형식(1006)인 것도 가능하다.
한편, 본 실시예를 변형하게 되면, 정보제공자 의도를 추출하여 청소년 유해 정보, 스팸성 메일 등을 필터링하도록 구현하는 것이 가능하다. 이를 위해서는, 청소년 유해 정보 또는 스팸성 메일에서 가장 많이 출현하는 단어에 의미 정보로서 "음란물", "유해정보" 또는 "스팸성" 등을 수록하고, 이를 이용한 의도 파악 수순을 통해 유해정보, 스팸성 메일의 자동 평가, 자동 분류, 자동 삭제 등의 필터링 기능을 수행하는 것이 가능하다.
예를 들면, 스팸성 메일의 단어로 많이 출현하는 "대리운전", "최저 대출", "대박게임", "인터넷 최저", "성형수술", "비아그라" 등의 단어에 상기한 의미 정보를 부여하고 의도 파악 처리를 수행하면, 유해정보의 평가, 분류가 가능하게 된다.
도 11은 부가서비스 데이터베이스(122)에 저장되어 있으며 부가서비스 생성기(121)에 의해 생성되는 부가서비스의 일 예로 문맥지각형 검색서비스의 일종인 지리안내 서비스의 설명에 제공되는 도면이다.
이를 위해, 도 11에서는 정보검색창(126)을 통해 "이근처 맛있는 이태리 레스토랑은"(1101)이라는 문장이 입력된 것을 가정하였다.
입력된 문장(1401)은 검색어 형태소 처리기(115)에 의해 형태소 처리되어, "이근처/맛있/는/이태리/레스토랑/은"으로 분리된 후(1102), 의미 정보들이 부가된 "이근처/명사/현재위치, 맛있/형용사/음식평가, 는/조사/수식, 이태리/명사/국명, 레스토랑/명사/음식점, 은/조사/제시"(1103)가 출력된다.
그러면, 검색자 의도 파악기(116)는 형태소 처리 결과를 통해, 검색자의 의도를 파악한다. 구체적으로, 검색자 의도 파악기(116)는 문맥지각형 단어 '은/는'의 의미 정보가 '제시'를 나타내므로 '검색요청'을 의미하는 것으로 파악하고, 문맥지각형 단어 "이근처"는 'GPS에 의해 확인가능한 현재 위치'를 획득하여야 하는 의미로 파악하고, '이태리 레스토랑'은 음식점 데이터베이스의 검색을 각각 요구한다는 의도로 파악한다.
이에 따라, 부가서비스 생성기(121)는 GPS를 이용하여 현재위치 파악하 고(1104), 검색기(119)는 맛있는 이태리 레스토랑에 대한 검색을 수행하고(1105), 부가서비스 생성기(120)는 지도를 실행하여(1106), 현재 위치가 나타난 지도에 검색된 맛있는 이태리 레스토랑이 표시된 지도를 출력한다(1107).
도 12에는 다른 종류의 부가 서비스를 제공하는 방법의 설명에 제공되는 도면이다. 도시된 부가 서비스는, 검색결과로 출력되는 텍스트에 포함되어 있는 특정 단어, 주제와 관련하여 다양한 부가 정보를 제공하는 것이다. 이를 위해서는, 부가서비스 데이터베이스(122)에 저장되어 있는 기관정보(1201), 광고(1202), 인물정보(1203), 토픽주제정보(1204), 회사정보(1205) 등의 각종 정보를 활용할 수 있음은 물론, 네트워크를 통해 연결된 다른 데이터 베이스로부터 획득할 수 있음은 물론이다.
도 13은 대역 외국어 획득기(124)가 외국어 검색엔진 연결기(125)를 이용하여 외국어 검색엔진에 접속하여, 중요단어 추출기(106)에서 추출된 중요단어에 대한 대역 외국어를 획득하는 과정을, 보다 상세히 설명하는데 이용되는 도면이다.
중요단어 추출기(106)에서 추출된 중요단어에 대한 대역 외국어는 형태소 사전(103)을 통해 획득할 수 있다. 그리고, 획득된 대역 외국어를 이용하여, 도 13에 도시된 바와 같이 외국어 검색엔진을 이용한 다국어 횡단검색을 통해 영어 검색(1302), 일본어 검색(1303), 중국어 검색(1304) 등 외국어에 대해서도 정보 검색을 할 수 있다. 외국어 정보 검색엔진은 Google 또는 Yahoo 등 기존의 검색엔진을 이용할 수 있다.
도 14는 정보검색창과 정보제공창이 함께 구비된 정보 제공/검색창의 일 예 를 도시한 도면이다. 도시된 정보 제공/검색창에서 입력창(1401)은 검색어를 입력하는데 이용되는 창이고, 정보제공 버튼(1402)은 정보를 등록하고자 할 때 이용되는 버튼이며, 정보검색 버튼(1403)은 입력창(1401)에 입력된 검색어에 대한 정보검색을 명령하는데 이용되는 버튼이다.
그리고, 하부에 마련된 버튼들(1404)은 검색 방법과 검색 결과 제공방법을 설정하는데 이용되는 버튼이다. 예를 들어, 도 14에 제시된 "완전검색" 버튼은 검색방식을 완전 검색으로 설정하는데 이용되는 버튼이고, "광고허용" 버튼은 검색결과와 관련된 광고물을 검색결과와 함께 표시할 것을 허용하는데 이용되는 버튼이고, "관련서비스 제공허용" 버튼은 검색결과에 포함되어 있는 단어, 문구들에 대한 부가정보를 함께 제공할 것을 허용하는데 이용되는 버튼이다.
지금까지 설명한 실시예들은, 휴대폰과 같은 모바일 휴대형 정보기기들은 물론 여타의 정보기기들에서 구현가능하다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
도 1은 본 발명의 일 실시예에 따른 검색시스템을 도시한 도면,
도 2는 한국어 형태소 사전을 도시한 도면,
도 3은 구/문장을 형태소 처리한 후 구문해석을 수행하는 과정의 부연설명에 제공되는 도면,
도 4는 본 발명의 다른 실시예에 따른 검색방법의 설명에 제공되는 흐름도,
도 5 및 도 6은 도 4에 도시된 검색방법의 부연 설명에 제공되는 도면,
도 7은 본 발명의 또 다른 실시예에 따른 검색방법의 설명에 제공되는 흐름도,
도 8은 도 7에 도시된 검색방법의 부연 설명에 제공되는 도면,
도 9는 "상품평" 컨텐츠에 대해 이를 작성한 컨텐츠 제공자의 의도를 파악하는 과정을 예시한 도면,
도 10은 "댓글" 컨텐츠에 대해 이를 작성한 컨텐츠 제공자의 의도를 파악하는 과정을 예시한 도면,
도 11은 부가서비스 데이터베이스에 저장되어 있으며 부가서비스 생성기에 의해 생성되는 부가서비스의 일 예로 문맥지각형 검색서비스의 일종인 지리안내 서비스의 설명에 제공되는 도면,
도 12는 도 11과 다른 종류의 부가 서비스를 제공하는 방법의 설명에 제공되는 도면,
도 13은 대역 외국어를 획득하는 과정의 상세한 설명에 제공되는 도면,
도 14는 정보검색창과 정보제공창이 함께 구비된 정보 제공/검색창의 일 예를 도시한 도면이다.
* 도면의 주요 부분에 대한 부호의 설명 *
101 : 텍스트 크롤러 102 : 텍스트 형태소 처리기
103 : 형태소 사전 104 : 컨텐츠 제공자 의도 파악기
105 : 정보 모니터 106 : 중요단어 추출기
107 : 텍스트 구문 해석기 108 : 구문문법 규칙사전
109 : 중요구 추출기 110 : 용언 추출기
111 : 색인키 생성기 112 : 색인파일 구성기
113 : 색인파일 저장기 114 : 검색어 입력기
115 : 검색어 형태소 처리기 116 : 검색자 의도 파악기
117 : 검색어 구문 해석기 118 : 검색키 생성기
119 : 검색기 120 : 검색 결과 생성기
121 : 부가서비스 생성기 122 : 부가서비스 데이터베이스
123 : 검색결과 표시기 124 : 대역 외국어 획득기
125 : 외국어 검색엔진 연결기 126 : 정보 검색창

Claims (28)

  1. 검색어를 입력받는 단계;
    상기 검색어를 의미 있는 단어들로 분리하는 단계;
    분리된 단어들이 문장 내에서 어떠한 역할들을 하고 있는지 해석하는 단계;
    상기 해석단계의 해석결과를 토대로, 검색키를 생성하는 단계; 및
    상기 생성단계에서 생성된 검색키를 이용하여 정보를 검색하는 단계;를 포함하는 것을 특징으로 하는 정보 검색방법.
  2. 제 1항에 있어서,
    상기 입력단계는,
    구 단위 및 문장 단위로 상기 검색어를 입력받는 것을 특징으로 하는 정보 검색방법.
  3. 제 1항에 있어서,
    상기 해석단계는,
    상기 분리된 단어들이 문장 내에서 어떠한 역할들을 하고 있는지 해석하기 위해, 구문문법 규칙사전을 참조하며,
    상기 구문문법 규칙사전은,
    구구조문법, 격문법, 의존문법 및 어휘문법 중 적어도 하나가 수록되어 있는 것을 특징으로 하는 정보 검색방법.
  4. 제 1항에 있어서,
    상기 분리단계는,
    상기 검색어를 품사 별로 분리하는 것을 특징으로 하는 정보 검색방법.
  5. 제 4항에 있어서,
    상기 분리단계는,
    형태소 사전에 데이터 베이스화되어 있는 각 단어의 품사에 대한 정보를 참조하여, 상기 검색어를 품사 별로 분리하는 것을 특징으로 하는 정보 검색방법.
  6. 제 1항에 있어서,
    상기 검색키 생성단계는,
    상기 검색어를 구성하는 단어들이 상기 검색어 내에서 어떠한 문법적 관계 및 의미적 관계를 가지는지를 해석하여 얻어지는 구문 표현식을 상기 검색키로 생성하는 것을 특징으로 하는 정보 검색방법.
  7. 제 6항에 있어서,
    상기 구문 표현식은,
    논리식, 수식-피수식 및 구문목 리스트식 중 적어도 하나인 것을 특징으로 하는 정보 검색방법.
  8. 제 1항에 있어서,
    상기 해석하는 단계는,
    상기 단어들을 동의어로 교체하고 난 후에도 수행하는 것을 특징으로 하는 정보 검색방법.
  9. 제 1항에 있어서,
    상기 정보 검색단계는,
    완전 검색, 부분 검색, 연관 검색 및 동류매치 검색 중 적어도 하나를 수행하는 것을 특징으로 하는 정보 검색방법.
  10. 제 1항에 있어서,
    상기 정보 검색단계에서의 검색결과에 부가서비스를 부가하는 단계;를 더 포함하는 것을 특징으로 하는 정보 검색방법.
  11. 제 10항에 있어서,
    상기 부가서비스는, 컨텐츠 문맥 지각형(Context awareness) 서비스이고,
    상기 컨텐츠 문맥 지각형은,
    안내서비스, 매매서비스, 광고서비스, 교육서비스, 상담서비스, 추천서비스, 경매서비스 및 행정서비스 중 적어도 하나를 포함하는 것을 특징으로 하는 정보 검색방법.
  12. 텍스트를 수집하는 단계;
    상기 텍스트의 중요구와 중요문장 중 적어도 하나를 추출하는 단계;
    상기 중요구와 중요문장 중 적어도 하나를 이용하여 색인키를 생성하는 단계; 및
    상기 색인키를 이용하여 정보 검색에 이용되는 색인파일을 생성하여 저장하는 단계;를 포함하는 것을 특징으로 하는 검색용 정보 제공방법.
  13. 제 12항에 있어서,
    상기 텍스트는,
    네트워크를 통해 접근가능한 컨텐츠에 포함되어 있는 텍스트인 것을 특징으로 하는 검색용 정보 제공방법.
  14. 제 12항에 있어서,
    상기 수집단계에서 수집된 텍스트를 의미 있는 단어들로 분리하는 단계;
    분리된 단어들 중에서 중요단어를 추출하는 단계; 및
    상기 중요단어가 문장 내에서 어떠한 역할들을 하고 있는지 해석하는 단계;를 더 포함하고,
    상기 추출단계는,
    상기 중요단어 및 상기 해석단계의 해석결과를 토대로, 상기 텍스트의 중요구와 중요문장 중 적어도 하나를 추출하는 것을 특징으로 하는 검색용 정보 제공방법.
  15. 제 14항에 있어서,
    상기 추출단계는,
    상기 중요단어가 전후에 수록되어 있는 명사구를 중요구로 추출하고, 상기 중요단어와 함께 문장 내에서 출현하는 용언을 중요단어와 함께 중요문장으로 추출하는 것을 특징으로 하는 검색용 정보 제공방법.
  16. 제 14항에 있어서,
    상기 중요단어는,
    상기 분리된 단어들 중 상기 텍스트에서 출현빈도가 높은 단어인 것을 특징으로 하는 검색용 정보 제공방법.
  17. 제 14항에 있어서,
    상기 해석단계는,
    상기 중요단어가 문장 내에서 어떠한 역할들을 하고 있는지 해석하기 위해, 구문문법 규칙사전을 참조하며,
    상기 구문문법 규칙사전은,
    구구조문법, 격문법, 의존문법 및 어휘문법 중 적어도 하나가 수록되어 있는 것을 특징으로 하는 검색용 정보 제공방법.
  18. 제 14항에 있어서,
    상기 분리단계는,
    상기 텍스트를 품사 별로 분리하는 것을 특징으로 하는 검색용 정보 제공방법.
  19. 제 18항에 있어서,
    상기 분리단계는,
    형태소 사전에 데이터 베이스화되어 있는 각 단어의 품사에 대한 정보를 참조하여, 상기 텍스트를 품사 별로 분리하는 것을 특징으로 하는 검색용 정보 제공방법.
  20. 제 12항에 있어서,
    상기 색인키 생성단계는,
    상기 중요구와 중요문장를 구성하는 단어들이 상기 중요구 및 상기 중요구와 중요문장 내에서 어떠한 문법적 관계 및 의미적 관계를 가지는지를 해석하여 얻어지는 구문 표현식을 상기 색인키로 생성하는 것을 특징으로 하는 검색용 정보 제공 방법.
  21. 제 20항에 있어서,
    상기 구문 표현식은,
    논리식, 수식-피수식 및 구문목 리스트식 중 적어도 하나인 것을 특징으로 하는 검색용 정보 제공방법.
  22. 제 20항에 있어서,
    상기 중요구와 중요문장을 구성하는 단어들이 상기 중요구 및 상기 중요구와 중요문장 내에서 어떠한 문법적 관계 및 의미적 관계를 가지는지에 대한 해석은,
    상기 중요구와 중요문장에 포함되어 있는 중요단어를 동의어로 교체한 구와 문장에 대해서도 수행하는 것을 특징으로 하는 검색용 정보 제공방법.
  23. 제 14항에 있어서,
    분리된 단어들을 이용하여 텍스트가 포함되어 있는 컨텐츠를 작성한 자의 의도를 파악하는 단계;를 더 포함하는 것을 특징으로 하는 검색용 정보 제공방법.
  24. 제 23항에 있어서,
    상기 파악단계는,
    형태소 사전에 데이터 베이스화 되어 있는 단어가 어떠한 의미로 사용되는지 에 대한 의미 정보를 참조하여 상기 컨텐츠를 작성한 자의 의도를 파악하는 것을 특징으로 하는 검색용 정보 제공방법.
  25. 제 23항에 있어서,
    상기 파악단계는,
    상기 텍스트를 구성하는 단어들의 의미 정보들의 정성적 분석과 정량적 분석에 의한 통계를 통해 상기 컨텐츠를 작성한 자의 의도를 파악하는 것을 특징으로 하는 검색용 정보 제공방법.
  26. 제 23항에 있어서,
    상기 텍스트를 구성하는 문장별로 상기 컨텐츠를 작성한 자의 의도를 파악하고, 다수의 문장에 공통된 의도를 상기 컨텐츠를 작성한 자의 의도로 파악하는 것을 특징으로 하는 검색용 정보 제공방법.
  27. 제 26항에 있어서,
    상기 텍스트를 구성하는 문장별로 상기 컨텐츠를 작성한 자의 의도를 파악한 결과를 테이블 형식 또는 그래프 형식으로 제공하는 단계;를 더 포함하는 것을 특징으로 하는 검색용 정보 제공방법.
  28. 제 12항에 있어서,
    상기 중요단어에 대한 대역 외국어를 획득하는 단계; 및
    상기 대역 외국어를 등록하는 단계;를 더 포함하는 것을 특징으로 하는 검색용 정보 제공방법.
KR1020080125774A 2008-12-11 2008-12-11 언어 표현 해석에 기반한 정보 검색방법 및 정보 제공방법 KR101026986B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080125774A KR101026986B1 (ko) 2008-12-11 2008-12-11 언어 표현 해석에 기반한 정보 검색방법 및 정보 제공방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080125774A KR101026986B1 (ko) 2008-12-11 2008-12-11 언어 표현 해석에 기반한 정보 검색방법 및 정보 제공방법

Publications (2)

Publication Number Publication Date
KR20100067288A true KR20100067288A (ko) 2010-06-21
KR101026986B1 KR101026986B1 (ko) 2011-04-11

Family

ID=42365992

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080125774A KR101026986B1 (ko) 2008-12-11 2008-12-11 언어 표현 해석에 기반한 정보 검색방법 및 정보 제공방법

Country Status (1)

Country Link
KR (1) KR101026986B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015037814A1 (ko) * 2013-09-16 2015-03-19 고려대학교 산학협력단 사용자 의도 추론에 기반한 휴대용 단말 장치 및 이를 이용한 컨텐츠 추천 방법
CN107027065A (zh) * 2017-04-21 2017-08-08 海信集团有限公司 非标准频道名称的识别方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038214A (zh) * 2017-03-06 2017-08-11 北京小米移动软件有限公司 表情信息处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020027088A (ko) * 2000-10-06 2002-04-13 정우성 구문 분석에 의거한 자연어 처리 기술 및 그 응용

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015037814A1 (ko) * 2013-09-16 2015-03-19 고려대학교 산학협력단 사용자 의도 추론에 기반한 휴대용 단말 장치 및 이를 이용한 컨텐츠 추천 방법
CN107027065A (zh) * 2017-04-21 2017-08-08 海信集团有限公司 非标准频道名称的识别方法和装置

Also Published As

Publication number Publication date
KR101026986B1 (ko) 2011-04-11

Similar Documents

Publication Publication Date Title
KR101042515B1 (ko) 사용자의 의도에 기반한 정보 검색방법 및 정보 제공방법
US9645993B2 (en) Method and system for semantic searching
JP6007088B2 (ja) 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法
JP5232415B2 (ja) 自然言語ベースのロケーション・クエリー・システム、キーワード・ベースのロケーション・クエリー・システム、及び自然言語ベース/キーワード・ベースのロケーション・クエリー・システム
US8010539B2 (en) Phrase based snippet generation
US6442540B2 (en) Information retrieval apparatus and information retrieval method
Moussa et al. A survey on opinion summarization techniques for social media
JP5711674B2 (ja) 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法
RU2488877C2 (ru) Идентификация семантических взаимоотношений в косвенной речи
US20100332217A1 (en) Method for text improvement via linguistic abstractions
US20080154871A1 (en) Method and Apparatus for Mobile Information Access in Natural Language
KR102285232B1 (ko) 형태소 기반 ai 챗봇 및 그의 문장의도 결정 방법
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
Kisilevich et al. “Beautiful picture of an ugly place”. Exploring photo collections using opinion and sentiment analysis of user comments
KR101026986B1 (ko) 언어 표현 해석에 기반한 정보 검색방법 및 정보 제공방법
JP2004355550A (ja) 自然文検索装置、その方法及びプログラム
CN111046168A (zh) 用于生成专利概述信息的方法、装置、电子设备和介质
Kasper et al. Monitoring and summarization of hotel reviews
KR101238927B1 (ko) 전자도서컨텐츠 검색 서비스 시스템 및 전자도서컨텐츠 검색 서비스 방법
CN109298796B (zh) 一种词联想方法及装置
JP2006139484A (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP3985483B2 (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
Yoon et al. Intent-based categorization of search results using questions from web q&a corpus
Chan et al. Social media harvesting
KR100923936B1 (ko) 일본어 사전 서비스에 있어서 2개 단어 이상의 쿼리, 한글쿼리 또는 일반적인 쿼리의 입력 시 검색 결과를 제공하는방법 및 시스템

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150312

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160127

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170327

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180109

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190110

Year of fee payment: 9