KR101140264B1

KR101140264B1 - 텍스트 패턴 추출을 이용하여 정보를 추출하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체

Info

Publication number: KR101140264B1
Application number: KR1020100067912A
Authority: KR
Inventors: 이우주
Original assignee: 엔에이치엔(주)
Priority date: 2010-07-14
Filing date: 2010-07-14
Publication date: 2012-04-26
Also published as: KR20120007252A

Abstract

본 발명은 텍스트 패턴 추출을 이용하여 정보를 추출하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록매체에 관한 것이다. 본 발명의 일 태양에 따르면, 텍스트 패턴 추출을 이용하여 정보를 추출하기 위한 방법은 정보를 추출하고자 하는 내용을 선택하는 정보 선택 단계; 상기 선택된 내용을 형태소 별로 분석하여 추출에 필요한 키워드를 선정하는 키워드 선정 단계; 상기 선정된 키워드에 기반하여 검색 데이터베이스로부터 유사한 텍스트를 복수 개 추출하는 텍스트 추출 단계; 상기 추출된 복수 개의 텍스트를 소정 기준으로 분석하여 텍스트 패턴을 추출한 뒤, 상기 추출된 텍스트 패턴을 기초로 상기 추출된 복수 개의 텍스트를 개체 별로 나열하고 정렬하는 텍스트 패턴 추출 단계; 및 상기 나열되고 정렬된 상기 복수개의 텍스트로부터 정보를 추출하는 정보 추출 단계를 포함한다.

Description

텍스트 패턴 추출을 이용하여 정보를 추출하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체{METHOD, SYSTEM AND COMPUTER READABLE RECORDING MEDIUM FOR EXTRACTING INFORMATION USING TEXT PATTERN EXTRACTION}

본 발명은 텍스트 패턴 추출을 이용하여 정보를 추출하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록매체에 관한 것으로, 보다 상세하게는 웹문서를 기초로 텍스트 패턴을 추출하고, 추출된 텍스트 패턴을 이용하여 필요한 정보를 추출하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 매체에 관한 것이다.

인터넷의 발달 및 보급의 증가로 인해 인터넷을 이용한 다양한 서비스가 제공되고 있는데, 그 중 대표적인 예가 검색 서비스라 할 수 있다. 이러한 검색 서비스는 사용자가 검색하고자 하는 단어 또는 단어의 조합을 질의어로 입력하면, 검색 엔진이 입력된 질의어에 상응하는 검색결과를 사용자에게 제공하는 서비스를 의미한다.

이렇듯, 사용자들이 검색하고자 하는 내용을 적절히 보여주기 위해서 인터넷 검색 서비스 제공자는 웹크롤러 또는 별도로 제공하는 입력 수단 등을 이용하여 인터넷을 통하여 접속 가능한 웹서버에 저장되어 있는 웹문서를 미리 수집한 뒤, 수집된 웹문서를 형태소 분석 등을 통해 키워드를 추출하고 이를 바탕으로 인덱싱한 뒤 별도로 저장하여, 사용자의 질의어 입력시 보다 빠른 속도로 검색 결과를 사용자에게 제공하도록 구현한 것이 일반적이다.

하지만, 인터넷 검색 서비스 제공자가 수집한 자료는 기존에 저장되어 있는 웹문서를 수집하여 그대로 제공하는 것에 불과하기 때문에, 검색 결과로 제공되는 웹문서에 기재된 내용의 정확성에 대해서는 보장을 할 수 없고, 따라서 수집된 웹문서에 사실과 다른 내용이 기재되어 있는 경우에도 사용자가 입력한 질의어와 일치하는 키워드가 존재하는 웹문서의 경우 검색이 일치한다고 판단하여 무조건적으로 검색 결과로서 사용자에게 제공될 수 있다.

예를 들어, 사용자가 피겨스케이팅에서 금메달을 획득한 선수 이름을 확인하고자 하여 질의어로 "피겨 스케이팅 금메달"을 입력하였을 때, 수집된 웹문서 중에 "김윤아 선수의 피겨스케이팅 금메달 획득!"라는 내용이 존재하는 경우 이는 사용자의 질의어와 모두 일치하므로 검색결과에 포함되어 사용자에게 제공될 수 있는 문제점이 발생하는 것이다. 또는 검색 결과로서 제공되는 웹문서에 기재된 내용이 제각각 틀린 경우, 사용자는 어느 내용이 정확한지 알 수 없어서, 인터넷 검색 서비스 제공자에 대한 불신도 발생할 수 있다.

또한, 특정 질의어를 입력한 사용자에게 이미 입력된 질의어와 연관된 관련 질의어를 제공하는 경우에도, 종래에는 사용자의 질의어 입력 패턴에 기반한 관련 질의어를 제공하는 것에 불과하였을 뿐, 질의어간의 연관관계를 데이터베이스로 구축할 수 없었기 때문에 실제적으로 서로 연관된 내용을 관련 질의어로 제공하지 못하고 있었다.

따라서, 이러한 정확하지 않은 정보를 제외하거나 정확한 정보를 제공하기 위해, 또는 이미 입력된 질의어와 실제적으로 서로 연관된 관련 질의어를 제공하기 위해서는 수집된 웹문서를 기초로 텍스트 패턴을 추출하고, 추출된 텍스트 패턴을 이용하여 필요한 정보를 추출하기 위한 기술이 요청되나 종래에는 사람에 의한 수작업 이외에는 이러한 문제를 해결하는 방법이 존재하지 않고 있다.

본 발명의 목적은 위에서 언급한 종래 기술의 문제점을 해결하는 것이다.

본 발명의 일 목적은 수집된 웹문서를 기초로 텍스트 패턴 추출을 통해 필요한 정보를 추출하고, 추출된 정보를 기반으로 구조화한 데이터베이스를 제공함으로써 사용자가 요청한 정보에 대해 신뢰성있는 검색 결과를 제공하도록 하는 것이다.

또한, 본 발명의 다른 목적은 수집된 웹문서를 기초로 텍스트 패턴 추출을 통해 추출된 정보를 기반으로 구조화한 데이터베이스를 이용하여 사용자가 미리 입력한 질의어와 연관된 관련 질의어를 제공 또는 추천함으로써 사용자의 흥미를 끌고 사용자가 미처 생각하지 못했던 보다 다양한 질의어를 검색할 수 있도록 하는 것이다.

또한, 본 발명의 또 다른 목적은 수집된 웹문서를 기초로 텍스트 패턴 추출을 통해 정확하지 않은 웹문서를 검색 결과로 보이지 않게 하거나 삭제함으로써 사용자에게 정확한 검색 결과만을 제공하도록 하는 것이다.

상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특유의 효과를 달성하기 위한, 본 발명의 특징적인 구성은 하기와 같다.

본 발명의 일 태양에 따르면, 텍스트 패턴 추출을 이용하여 정보를 추출하기 위한 방법은 정보를 추출하고자 하는 내용을 선택하는 정보 선택 단계, 상기 선택된 내용을 형태소 별로 분석하여 추출에 필요한 키워드를 선정하는 키워드 선정 단계, 상기 선정된 키워드에 기반하여 검색 데이터베이스로부터 유사한 텍스트를 복수 개 추출하는 텍스트 추출 단계, 상기 추출된 복수 개의 텍스트를 소정 기준으로 분석하여 텍스트 패턴을 추출한 뒤, 상기 추출된 텍스트 패턴을 기초로 상기 추출된 복수 개의 텍스트를 개체 별로 나열하고 정렬하는 텍스트 패턴 추출 단계 및 상기 나열되고 정렬된 상기 복수개의 텍스트로부터 정보를 추출하는 정보 추출 단계의 수행을 통해 얻어진다.

본 발명의 다른 태양에 따르면, 텍스트 패턴 추출을 이용하여 정보를 추출하기 위한 시스템은 정보를 추출하고자 하는 내용을 선택하는 정보 선택 수단, 상기 선택된 내용을 형태소 별로 분석하여 추출에 필요한 키워드를 선정하고, 상기 선정된 키워드에 기반하여 검색 데이터베이스로부터 유사한 텍스트를 복수 개 추출하며, 상기 추출된 복수 개의 텍스트를 소정 기준으로 분석하여 텍스트 패턴을 추출한 뒤, 상기 추출된 텍스트 패턴을 기초로 상기 추출된 복수 개의 텍스트를 개체 별로 나열하고 정렬하는 텍스트 패턴 추출 수단 및 상기 나열되고 정렬된 상기 복수 개의 텍스트로부터 정보를 추출하는 정보 추출 수단을 포함한다.

상술한 바와 같이 본 발명에 따르면, 수집된 웹문서를 기초로 텍스트 패턴 추출을 통해 필요한 정보를 추출하고, 추출된 정보를 기반으로 구조화한 데이터베이스를 제공함으로써 사용자가 요청한 정보에 대해 신뢰성있는 검색 결과를 제공할 수 있다.

또한, 본 발명에 따르면, 수집된 웹문서를 기초로 텍스트 패턴 추출을 통해 추출된 정보를 기반으로 구조화한 데이터베이스를 이용하여 사용자가 미리 입력한 질의어와 연관된 관련 질의어를 제공 또는 추천함으로써 사용자의 흥미를 끌고 사용자가 미처 생각하지 못했던 보다 다양한 질의어를 검색할 수 있도록 유도할 수 있다.

또한, 본 발명에 따르면, 수집된 웹문서를 기초로 텍스트 패턴 추출을 통해 정확하지 않은 웹문서를 검색 결과로 보이지 않게 하거나 삭제함으로써 사용자에게 정확한 검색 결과만을 제공할 수 있다.

도 1는 발명의 일 실시예에 따라, 수집된 웹문서에 텍스트 패턴 추출을 통해 필요한 정보를 추출하고 제공하기 위한 검색 결과 제공 시스템의 전체적인 구성을 개략적으로 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 검색 결과 제공 시스템(100)의 세부 구성도이다.
도 3은 본 발명의 일 실시예에 따라 검색 결과 제공 시스템 내의 정보 추출부의 세부 구성도이다.
도 4는 본 발명의 일 실시예에 따라 추출된 정확한 정보를 기반으로 구조화한 데이터베이스를 나타내는 예시적인 화면이다.
도 5는 본 발명의 일 실시예에 따라 구조화한 데이터베이스를 이용하여 특저 질의어로 검색되는 검색 결과를 도시하는 예시적인 화면이다.
도 6은 본 발명의 일 실시예에 따른 정보 추출부에서의 동작 흐름도이다.
도 7은 MSA(Multiple Sequence Alignment) 기술을 이용한 유전자 분석 결과의 일 예시를 나타낸 화면이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는 적절하게 설명된다면 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

[본 발명의 바람직한 실시예]

본 발명의 실시예에서, 용어 "웹문서"는 인터넷 익스플로러 등의 웹브라우저 프로그램을 직접적으로, 또는 간접적으로 이용하여 월드와이드웹(World Wide Web)을 통하여 열람할 수 있는 수동 또는 능동적인 문서 형식을 모두 포함하는 광의의 의미로 해석되어야 하며, 웹문서의 파일 형식(file format)으로서 주로 HTML(HyperText Markup Language)이 사용되나, 반드시 이에 한정되지 않고 XML(eXtensible Markup Language), SGML(Standard Generalized Markup Language)를 포함하여 웹브라우저 프로그램을 이용하여 직접적으로 또는 간접적으로(플러그인이나 기타 별도의 프로그램과 연결되는 경우도 포함) 열람할 수 있는 문서 형식이라면 모두 웹문서에 해당된다. 웹브라우저 프로그램을 이용하여 웹문서를 열람하기 위해서는 일반적으로 웹문서가 위치하고 있는 주소를 URL로 입력하며, 그 주소 형식으로서 HTTP(HyperText Transfer Protocol)가 많이 사용되나 반드시 이에 한정되는 것은 아니다. 웹문서의 컨텐츠는 특정 형식에 제한되지 않으므로 일반적인 텍스트에 한정되는 것이 아니라, 이미지, 음악, 동영상, 또는 이들의 결합 등 다양한 형태를 포함할 수 있다. 또한, 웹문서가 담고 있는 출처에 따른 구체적인 분류에 따르면 웹문서는 일반적인 웹문서, 광고, 사전, 블로그, 웹사이트, 뉴스, 카페, 이미지, 전문정보, 책, 지도, 동영상 등을 포함할 수 있으나 상기 나열된 분류에 한정되는 것은 아니다. 앞서 살펴본 바와 같은 다양한 출처 및 형식을 가지는 웹문서로부터 도출될 수 있는 "검색 결과" 역시 다양한 출처 및 형식을 갖는다.

전체 시스템 구성

도 1는 발명의 일 실시예에 따라, 수집된 웹문서에 텍스트 패턴 추출을 통해 필요한 정보를 추출하고 제공하기 위한 검색 결과 제공 시스템의 전체적인 구성을 개략적으로 나타내는 도면이다.

도 1에 도시되어 있는 바와 같이 본 발명의 일 실시예에 따른 전체 시스템은, 검색 데이터베이스를 포함하고 있는 검색 결과 제공 시스템(100)이 통신망(200)을 통하여 복수의 사용자 단말장치(300) 및 복수의 웹문서 서버(400)와 연결되어 있다.

먼저, 본 발명의 일 실시예에 따르면, 검색 결과 제공 시스템(100)은 사용자 단말장치(300)로부터 검색 문구, 즉 질의어를 수신하여, 이를 기초로 검색 데이터베이스(미도시)를 참조하여 검색을 수행한 뒤 그 결과로 도출되는 검색 결과를 사용자 단말장치(300)로 전송하는 역할을 한다. 또한, 검색 결과 제공 시스템(100)은 복수의 웹문서 서버(400)로부터 수집한 웹문서에 대해 소정 기준에 의한 분석을 통해서 텍스트 패턴을 추출하고, 추출된 텍스트 패턴을 이용하여 정보를 추출한다. 또한, 추출된 정보를 이용하여 구조화한 데이터베이스를 구축하거나, 정확하지 않은 내용을 담고 있는 웹문서를 파악하여 해당 웹문서를 검색 결과에 나타나지 않게 하거나 삭제하는 역할도 한다.

또한, 본 발명의 일 실시예에 따르면, 통신망(200)은 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 단거리 통신망(PAN; Personal Area Network), 근거리 통신망(LAN; Local Area Network), 도시권 통신망(MAN; Metropolitan Area Network), 광역 통신망(WAN; Wide Area Network) 등 다양한 통신망으로 구성될 수 있다.

한편, 본 발명의 일 실시예에 따른 사용자 단말장치(300)는 사용자가 소정 질의어에 대한 검색 결과를 제공받기 위하여 통신망(200)을 통하여 검색 결과 제공 시스템(100)과 연결하기 위한 기능을 포함하는 입출력 장치를 의미하며, 데스크톱 컴퓨터뿐만 아니라 노트북 컴퓨터, 워크스테이션, 팜톱(palmtop) 컴퓨터, 개인 휴대 정보 단말기(personal digital assistant: PDA), 웹 패드, 스마트 폰을 포함하는 이동 통신 단말기 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 사용자 단말 장치(300)로서 채택될 수 있다. 바람직하게는, 검색 결과 제공 시스템(100)과 연결하고, 질의어를 입력하여 검색 결과를 제공받기 위하여 사용자 단말장치(300) 내의 웹 브라우저를 실행시키고 사용할 수 있으나, 반드시 이에 한정되는 것은 아니다.

그리고, 본 발명의 일 실시예에 따른 웹문서 서버(400)는 검색 결과 제공 시스템(100)이 웹크롤러 등 소정 방식을 통해서 수집하게 될 웹문서를 포함하고 있는 웹서버를 통칭하며 물리적으로 특정 서버나 또는 특정 내용/형식의 웹문서에 한정되어서는 안된다. 따라서 검색 결과 제공 시스템(100)이 통신망(200)을 통해 접근하여 웹문서를 수집할 수 있는 웹서버는 모두 이 웹문서 서버(400)에 포함되는 것으로 보아야 할 것이다.

검색 결과 제공 시스템

도 2는 본 발명의 일 실시예에 따른 검색 결과 제공 시스템(100)의 세부 구성도이다.

도 2을 참조하면, 본 발명의 일 실시예에 따른 검색 결과 제공 시스템(100)은 송수신부(110), 검색부(120), 정보 추출부(130), 정보 적용부(140) 및 검색 데이터베이스(150)를 포함할 수 있다.

송수신부(110)는 사용자 단말장치(300)로부터 질의어를 수신하여 검색부(120)로 전송하고, 검색부(120)로부터 추출된 검색 결과를 사용자 단말장치(300)로 전송한다.

검색부(120)은 송수신부(110)로부터 수신한 질의어에 매칭되는 정보를 검색 데이터베이스(150)로부터 검색한다. 검색을 통해 추출되는 검색 결과는 사용자 단말장치(300)로 보내지기 위해 송수신부(110)로 전송된다. 검색부(120)는 질의어에 매칭하는 정보와 함께, 수신한 질의어와 연관되는 관련 질의어를 검색 데이터베이스(150)로부터 검색하여 사용자 단말장치(300)로 보내지기 위해 송수신부(110)로 전송될 수 있다. 관련 질의어의 상세한 내용에 대해서는 후술하도록 한다.

정보 추출부(130)는 정확한 정보를 추출하고자 하는 내용을 선택한 뒤 검색 데이터베이스(150)에 저장되어 있는 웹문서를 대상으로 소정 기준에 의한 분석을 통해 텍스트 패턴을 추출하고 추출된 패턴에 의해 나열 및 정렬한다. 또한, 정보 추출부(130)는 상기 정렬된 내용에 기초하여 정확한 정보를 추출한다. 정보 추출부(130)의 상세한 기능에 대해서는 후술하도록 한다.

정보 적용부(140)는 정보 추출부(130)에서 추출된 정보를 특정 규칙에 의해 구조화하여 검색 데이터베이스(150) 에 저장할 수 있다. 또한, 정규 적용부(140)는 선택적으로 정보 추출부(130)에서 추출된 정보와 맞지 않는 웹문서가 검색되지 않도록 해당 웹문서가 저장된 검색 데이터베이스(150)를 변경할 수 있다. 정보 적용부(140)의 상세한 기능에 대해서는 후술하도록 한다.

검색 데이터베이스(150)는 웹문서 서버(400)로부터 이미 수집된 웹문서(형태소 단위 분석 등을 통해 키워드를 추출하고 이를 바탕으로 인덱싱 처리한 웹문서도 포함), 검색부(120)에서 검색하여 추출한 검색 결과, 정보 추출부(130)에서 추출되는 패턴, 자료 또는 정보 및 정보 적용부(140)에서 구조화하여 적용 또는 변경하는 정보 등을 저장하는 공간을 통칭하는 개념이다. 본 발명의 간략한 예시를 위하여 도 2에는 검색 데이터베이스(150) 하나만이 도시되어 있지만, 본 발명의 다른 실시예에 따라, 앞서 나열한 다양한 데이터들이 하나 이상의 물리적으로 구별되는 데이터베이스에 저장될 수 있음은 본 발명이 속하는 분야에서 통상의 지식을 가진 자에게 있어 자명하다. 또한, 웹문서는 공지의 웹 크롤러에 의해 웹문서 서버(400)로부터 수집될 수 있으며, 형태소 단위 분석을 통한 키워드 추출 및 인덱싱도 공지의 방법에 의해 수행될 수 있다.

도 2에서의 송수신부(110), 검색부(120), 정보 추출부(130) 및 정보 적용부(140)는 물리적으로 하나의 기계 내에 구현될 수도 있고 일부 또는 그 각각이 물리적으로 다른 기계에 구현될 수도 있거나, 동일한 기능을 하는 물리적으로 복수 개 존재하는 기계가 병렬적으로 존재할 수도 있다. 이렇듯 본 발명은 각 구성부가 설치된 기계 또는 데이터베이스의 물리적인 개수 및 위치에 한정되지 않고 다양한 방식으로 설계 변경될 수 있음은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 자명하다.

정보 추출부

본 발명의 일 실시예에 따라 도 3에 도시된 검색 결과 제공 시스템(100) 내의 정보 추출부(130)를 더욱 상세히 설명하면, 정보 추출부(130)는 정보 선택 수단(131), 텍스트 패턴 추출 수단(132) 및 정보 추출 수단(133)을 포함할 수 있다.

여기서 본 발명의 일 실시예에 따른 정보 선택 수단(131)은 정보를 추출하고자 하는 내용에 대해 선택한다. 이러한 선택의 일 실시예에 있어서, 사용자 또는 인터넷 검색 서비스 제공자로부터 직접 입력을 받을 수도 있고, 다른 실시예에 있어서는 검색 데이터베이스(150)에 저장되어 있는, 웹문서 서버(400)로부터 수집된 복수의 웹문서(형태소 단위 분석 등을 통해 키워드를 추출하고 이를 바탕으로 인덱싱 처리한 웹문서도 포함) 중 일부를 추출하여 선택할 수도 있으나 반드시 이에 한정되는 것은 아니며, 다양한 방식으로 정보를 추출하고자 하는 내용에 대해 선택할 수 있다. 보다 구체적인 예로서, 정보 선택 수단(131)은 검색 데이터베이스(150)에 저장된 웹문서로부터 "미국의 2대 대통령인 정직한 워싱턴이..."라는 텍스트를 선택할 수 있다.

다음으로, 본 발명의 일 실시예에 따른 텍스트 패턴 추출 수단(132)은 검색 데이터베이스(150)에 저장된 웹문서 중 앞서 정보 선택 수단(131)에서 선택된 텍스트와 유사한 텍스트를 복수 개 추출하고, 추출된 텍스트를 1차원적으로 나열하고 정렬할 수 있도록 하는 기능을 한다. 유사한 텍스트를 복수 개 추출하기 위해, 텍스트 패턴 추출 수단(132)은 먼저 정보 선택 수단(131)에서 선택된 텍스트를 형태소 단위로 분석을 할 수 있으며, 분석에 따라 텍스트 패턴 추출에 필요한 키워드를 선정할 수 있다. 앞선 예에서 계속하여, 선정된 키워드는 "미국", "2대", "대통령", "정직", "대통령"이 될 수 있다.

키워드 선정 후, 텍스트 패턴 추출 수단(132)은 검색 데이터베이스(150)에 저장된 웹문서를 검색하여 유사한 텍스트를 다수 추출한다. 여기서 유사한 텍스트란 앞서 선정된 키워드를 다수 포함하고 있는 문장을 의미할 수 있으며, 또는 키워드의 특성이나 순서에 따른 가중치를 부여하여 해당 키워드가 포함된 경우 또는 키워드들이 해당 순서대로 배열되어 있는 경우 부여된 가중치를 더하는 방식으로, 검색된 문장 중 가중치의 총 합이 특정 수치 이상인 문장을 유사한 텍스트라 할 수 있다. 검색 및 추출의 편의성을 위하여, 일, 주, 월, 년 등의 단위를 기준으로 특정 기간을 설정한 뒤 해당 기간 내에 포함된 웹문서 만을 한정하여 검색 데이터베이스(150)로부터의 검색 및 유사 텍스트 추출을 할 수도 있다. 앞선 예에서 계속하여, 상기 선정된 키워드를 기준으로 검색 및 추출한 다수의 유사한 텍스트를 이하의 표 1과 같다고 가정한다.

미국의 2대 대통령인 정직한 워싱턴이...

미국의 1대 대통령인 조지 워싱톤과...

미국의 초대 대통령 워싱턴...

미합중국의 1대 대통령인 조지 워싱턴은...

텍스트 패턴 추출 수단(132)은 또한, 상기 표 1과 같이 복수의 유사한 텍스트를 소정 기준으로 분석하여 텍스트 패턴을 추출하고, 이를 기초로 1차원적으로 나열하고 정렬하며, 여기서 텍스트 패턴 추출 수단(132)은 DNA를 이용한 유전자 지도 찾기에 필요한 공통 시퀀스(sequence) 추출에 핵심적인 Multiple Sequence Alignment(MSA) 기술을 그 모티브로 도입하여 응용할 수 있다. 유전자 지도는 A, T, G, C 네 개의 알파벳이 1차원의 시퀀스로 나열된 염색체 안에 어떤 유전자가 어느 위치에 있는지를 나타내는 것으로, MSA 기술을 사용하여 공통적인 특징 (예를 들어, 파란 눈을 가진 사람들)을 갖는 복수의 DNA를 나열하고, 나열된 복수의 DNA로부터 공통 시퀀스를 추출하여 그로부터 공통적인 특징(파란 눈)에 대한 유전자를 추출하는 것이다. MSA 기술을 이용한 유전자 분석 결과의 일 예시인 도 7을 참조하면, 도 7에서 도시된 바와 같이 복수의 DNA 나열을 통한 공통적인 특징을 찾을 수 있다. 또한, 보다 구체적으로, 텍스트 패턴 추출 수단(132)에서 사용될 수 있는 소정 기준으로서는 형태소별 분석이 있을 수 있으며, 그 밖에도 Char형, Word형, Byte형, 한국어나 영어나 날짜 등의 Word Type, 도시나 시간이나 동물 등의 추상화된 개념이나 낱말 단위로, 또는 청크(Chunk)나 페이지(page) 등이 사용될 수 있으나 이에 한정되지 않으며 앞서 나열한 여러 가지 기준을 복합적으로 결합하여 사용할 수 있다. 또한, 분석시 특정 단어 또는 문구 등을 저장해 놓은 별도의 데이터베이스를 참조할 수 있다. 예를 들어, 앞선 표 1에서 "미국" 및 "미합중국"은 모두 동일한 의미를 갖고 그 대표 단어는 "미국"이라 하는 하나의 단어 그룹으로 묶여 미리 별도의 데이터베이스에 저장되어 있은 경우, 표 1의 "미합중국"이 비록 "미국"과 글자수가 상이하다 할 지라도 데이터베이스를 참조하여 동일한 단어임을 분석하고 대표 단어로 치환하거나 동일한 개체라고 판단한 뒤 동일한 위치에 나열 및 정렬할 수도 있다.

이렇듯, 텍스트 패턴 추출 수단(132)이 표 1에 해당하는 추출 대상 부분을 소정 기준으로 분석하여 그 패턴을 추출하고, 추출된 패턴을 기초로 추출 대상 부분에 대해 1차원적인 나열 및 정렬을 한 결과는 이하의 표 2와 같이 나타낼 수 있다.

미국의	2대	대통령인	정직한	-	워싱턴이
미국의	1대	대통령인	-	조지	워싱톤과
미국의	첫번째	대통령	-	-	워싱턴
미합중국의	1대	대통령인	-	조지	워싱턴은

표 2에서 보여지는 1차원적인 나열 및 정렬에 따라, 텍스트 패턴에 의해 각각의 개체에 해당하는 부분끼리 정확히 일치하도록 정렬되었음을 알 수 있다. 표 2에서 각 개체별로 행이 구분되어 있으며, 같은 열에 기재된 단어들은 동일한 개체로 판단하고 나열한 것이다. 예를 들어, 단어 "정직한"을 포함하는 개체는 다른 텍스트에는 포함되지 않으므로 다른 텍스트에는 이와 동일한 개체가 없고 따라서 별도의 위치에 정렬되게 된다. 상기 표2에서 나타나는 결과는 도 7에서 도시된, 유전자 지도에서 사용되는 MSA 결과와 유사한 것을 확인할 수 있다.

다음으로, 정보 추출 수단(133)은 상기 표 2와 같이 각 개체별로 1차원적으로 나열 및 정렬된 내용을 기반으로 정확한 정보를 추출한다. 정확한 정보를 추출하기 위한 기본적인 규칙으로서, 각각의 정렬된 개체에 있어서 동일한 텍스트가 다수 나타나는 경우 그 동일한 내용을 정확한 정보를 갖는 개체로 인식할 수 있다. 여기서 상황 및 정확도의 판단에 따라 그 비율을 높이거나 낮추어 적용할 수도 있음은 본 발명이 속하는 분야에서 통상의 지식을 가진 자에게 있어 자명하다. 그 외에도, 특정 단어 또는 문구 등을 저장해 놓은 별도의 데이터베이스를 참조하여 서로 다른 단어라 할 지라도 하나의 단어 그룹으로 묶여 있는 경우 동일한 내용으로 판단할 수도 있다.

앞선 예에서 계속하여, 첫 번째 개체를 살펴보면 3개의 텍스트 모두 "미국의"를 포함하고 있고, 나머지 하나는 "미합중국의" 이나 앞서 살펴본 바와 같이 "미합중국"은 "미국"과 동일한 단어 그룹에 속하고 그 대표어는 "미국"이므로 첫 번째 개체에서는 모든 텍스트에서 "미국의"라는 동일한 텍스트가 나타나므로 추출되는 정확한 정보는 "미국의" 이다. 이러한 방식으로 상기 표 2의 정렬된 유사한 텍스트들에서 각 개체별로 정확한 정보를 추출하면 그 결과는 이하의 표 3과 같이 나타낼 수 있다.

미국의

1대

대통령인

조지

워싱턴

따라서, 정보 선택 수단(131)이 처음에 검색 데이터베이스(150)로부터 선택한 "미국의 2대 대통령인 정직한 워싱턴이..."라는 내용은 정확한 정보가 아니며, 본 발명을 이용하여 추출한 정확한 정보는 "미국의 1대 대통령인 조지 워싱턴"임을 알 수 있다.

정보 적용부

본 발명의 일 실시예에 따라 도 3에 도시된 검색 결과 제공 시스템(100) 내의 정보 적용부(140)를 이하에 더욱 상세히 설명한다. 정보 적용의 일 예로서, 정보 적용부(140)는 정보 추출부(130)로부터 추출한 정확한 정보인 "미국의 1대 대통령인 조지 워싱턴"을 이용하여 검색에 사용될 수 있도록 서로 연관성이 있는 개체들에 대해 그 연관성 기준으로 데이터베이스를 구조화하여 검색 데이터베이스에 저장할 수 있다. 보다 구체적으로, 추출된 정확한 정보 중 조사를 제외한 각 단어 "미국", "1대", "대통령", "조지 워싱턴"에 대해 위치 관계를 조사하면 "미국"의 하위에 "1대"가 위치할 수 있으며 그 하위에 "대통령"이, 그리고 그 하위에 "조지 워싱턴"이 위치할 수 있다. 이러한 위치관계는 미리 설정된 구조를 기반으로 하여 채워지지 않았거나 빈 부분에 대해서, 또는 추가적으로 구조를 확장하는 방식으로 구조화가 진행될 수 있으며, 도 4의 구조화된 데이터베이스 중 점선으로 표시한 부분 내부에 해당하는 정보의 일부가 비어있을 때 상기 추출된 정확한 정보를 이용하여 빈 부분을 추가할 수 있다. 이와 같이, 검색에 사용될 수 있도록 구조화된 데이터베이스를 구비한 상태에서 사용자의 선택 또는 질의어 입력에 의해 특정 정보 - 예를 들어 '미국 1대 대통령' - 에 대해 관련 질의어를 포함한 검색 결과를 검색부(120)에서 검색하여 제공하는 경우의 예가 도 5에 잘 나타나 있다. 도 5에 도시된 바와 같이, 사용자는 정확한 정보를 제공받을 수 있으며, 구조화된 데이터베이스를 이용하여 연관된 관련 질의어에도 쉽게 접근할 수 있음을 알 수 있다. 즉, 구조화된 데이터베이스를 이용하여 질의어인 '미국 1대 대통령'과 연관될 수 있는 관련 질의어인 '미국 2대 대통령', '조지 워싱턴 출생년도', '조지 워싱턴 가족관계', '조지 워싱턴 명언' 등도 질의어에 대한 검색결과와 함께 제공될 수 있다. 도 5에서 보여지는 검색 결과 화면은 예시적인 것에 불과하며, 사용자로부터 입력되는 질의어에 연관된 관련 질의어를 특정 개 또는 전부 추출하여 화면의 특정 위치에 나열하고, 사용자가 이를 클릭 등 선택하는 경우 선택된 관련 질의어에 대한 검색 결과 및 관련 질의어에 연관된 또 다른 관련 질의어들을 보여주게끔 구성할 수도 있으며, 그 밖에도 다양한 형식으로 사용자에게 관련 질의어를 제공할 수 있음은 이해되어야 한다. 또한, 도 4에서 보여지는 구조화된 데이터베이스 역시 예시적인 것에 불과하며 일방의 트리 구조가 아닌 다중 링크가 연결될 수 있는 등 다른 공지의 여러가지 방식으로 구조화 또는 구성될 수 있음은 인지되어야 한다.

정보 적용의 다른 예에 있어서, 정보 적용부(140)는 정보 추출부(130)로부터 추출한 정확한 정보인 "미국의 1대 대통령인 조지 워싱턴"을 이용하여 검색 데이터베이스(150)에 저장된 웹문서 중 상기 추출된 정확한 정보와 상이한 정보를 담고 있는, 즉 부정확한 내용을 담고 있는 웹문서를 검색시 사용되지 않도록 검색 데이터베이스(150)를 변경할 수 있다. 보다 구체적으로, 추출된 정확한 정보 중 조사를 제외한 각 단어 "미국", "1대", "대통령", "조지 워싱턴"에 대해서 특정 단어 또는 문구 등을 저장해 놓은 별도의 데이터베이스를 참조하여 각 단어에 대해 동일 또는 유사한 내용이 아닌 상이한, 즉 부정확한 내용을 담고 있는 웹문서를 파악한다. 앞선 표 2에서, "미합중국"은 "미국"과 동일하고 "첫번째"는 "1대"와 동일하다고 판단하지만 "2대"는 "1대" 또는 "첫번째"와 상이하다고 판단하여 단어 "2대"가 들어간 첫 번째 문장을 포함하고 있는 웹문서를 부정확한 정보를 담고 있다고 판단한다. 정보 적용부(140)는 해당 웹문서를 검색 데이터베이스(150)로부터 직접 삭제할 수도 있으며, 또는 해당 웹문서에 대한 검색 플래그(flag) 등을 토글(toggle)하여 false 등으로 변경시키는 방식 등 다양한 방식을 이용하여 웹문서를 직접 삭제하지 않으면서도 검색되지 않도록 검색 데이터베이스(150)를 변경할 수도 있다.

앞서 살펴본 정보 적용의 두 가지 예는 정보 적용부(140)에서 사용될 수 있는 실질적인 예시에 불과하며, 해당 분야의 기술 수준 및 당업자의 기술 상식에 따라 다양한 방법에 의해 상기 정보 적용의 예들을 단독으로, 또는 결합하여 사용하거나, 동일 또는 유사한 기능을 수행할 수 있도록 변형하여 사용할 수 있는 것은 인지되어야 한다.

도 6은 본 발명의 일 실시예에 따른 정보 추출부에서의 동작 흐름도이다.

도 6에 예시된 일 실시예에 따르면, 정보 추출부의 정보 선택 수단(131)은 정보를 추출하고자 하는 내용을 선택한다(S100). 정보를 추출하고자 하는 내용은 사용자로부터 입력받은 질의어에 기반할 수도 있고, 또는 검색 데이터베이스로부터 추출하여 선택할 수도 있다.

이후에, 텍스트 패턴 추출 수단(132)은 앞서 선택된, 정보를 추출하고자 하는 내용을 형태소 별로 분석하여 추출에 필요한 키워드를 선정한다(S110).

이후에, 텍스트 패턴 추출 수단(132)은 앞서 선정된 키워드에 기반하여 검색 데이터베이스로부터 유사한 텍스트를 복수 개 추출한다(S120). 여기서 유사한 텍스트란 앞서 선정된 키워드를 텍스트 내에 다수 포함하고 있는 텍스트를 의미할 수 있다. 또한, 앞서 선정된 키워드 각각 및 키워드의 순서에 별도의 가중치를 부여한 뒤 이러한 가중치의 합이 특정 수치 이상인, 즉 다수의 키워드가 어느 정도 동일한 순서로 배치된 텍스트를 유사한 텍스트로 판단하고 이 조건에 해당하는 텍스트를 추출할 수도 있는 것이다.

이후에, 텍스트 패턴 추출 수단(132)은 앞서 추출된 복수 개의 텍스트를 소정 기준으로 분석하여 텍스트 패턴을 추출한다(S130). 여기서 소정 기준의 일 예로서 형태소별로 분석할 수 있으며, 또는 특정 단어 또는 문구 등이 저장된 별도의 데이터베이스를 참조하여 추출된 복수 개의 텍스트로부터 텍스트 패턴을 추출할 수도 있다.

이후에, 텍스트 패턴 추출 수단(132)은 앞서 추출된 텍스트 패턴을 기초로 복수개의 유사한 텍스트를 개체별로 나열하고 정렬한다(S140).

이후에, 정보 추출 수단(133)은 앞서 나열되고 정렬된 복수개의 유사한 텍스트로부터 정보를 추출한다(S150). 정보 추출의 일 예로서, 나열되고 정렬된 복수개의 유사한 텍스트로부터 각 개체 별로 다수 나타나는 동일한 텍스트를 선택한 뒤 각 개체별로 선택된 텍스트를 결합할 수 있다.

앞서 살펴 본 바와 같이 정보 추출부(130)의 동작에 의해 정보 추출이 이루어진 경우, 정보 적용부(140)에서는 추출된 정보를 기반으로 검색 데이터베이스를 변경할 수 있으며, 그 이후에 사용자 단말 장치로부터 질의어를 수신하게 되면 질의어에 대한 검색 결과를 검색 데이터베이스로부터 검색하고, 이와 함께 상기 질의어와 연관된 관련 질의어 역시 검색 데이터베이스로부터 검색할 수 있다.

본 발명에 따른 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(Floptical disk)와 같은 자기-광 매체(megneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동되도록 구성될 수 있으며, 그 역도 마찬가지다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

텍스트 패턴 추출을 이용하여 정보를 추출하기 위한 방법에 있어서,
정보 추출부에 의해 수행되는 각 단계가,
사용자로부터 입력받은 질의어로부터 또는 검색 데이터베이스로부터 임의의 내용을 선택하는 정보 선택 단계;
상기 선택된 내용을 형태소 별로 분석하여 추출에 필요한 키워드를 선정하는 키워드 선정 단계;
상기 선정된 키워드에 기반하여 상기 검색 데이터베이스로부터 유사한 텍스트를 복수 개 추출하는 텍스트 추출 단계;
상기 추출된 복수 개의 텍스트를 소정 기준으로 분석하여 텍스트 패턴을 추출한 뒤, 상기 추출된 텍스트 패턴을 기초로 상기 추출된 복수 개의 텍스트를 개체 별로 나열하고 정렬하는 텍스트 패턴 추출 단계; 및
상기 나열되고 정렬된 상기 복수개의 텍스트로부터 정보를 추출하는 정보 추출 단계를 포함하고,
상기 정보 추출 단계는,
상기 정렬된 상기 복수의 텍스트로부터 각 개체 별로 다수 나타나는, 동일성을 갖는 텍스트만을 선택하는 단계; 및
상기 각 개체 별로 선택된 텍스트를 결합하여 정보를 추출하는 단계를 더 포함하는 정보 추출 방법.
삭제
청구항 1에 있어서,
상기 텍스트 추출 단계에서 상기 유사한 텍스트는 상기 선정된 키워드를 다수 포함하고 있는 텍스트인 것을 특징으로 하는 정보 추출 방법.
청구항 1에 있어서,
상기 텍스트 추출 단계는,
상기 선정된 키워드 각각에 제1 가중치를 부여하는 단계;
상기 선정된 키워드의 순서에 제2 가중치를 부여하는 단계; 및
상기 제1 및 제2 가중치의 합이 특정 수치 이상인 텍스트를 유사한 텍스트로서 상기 검색 데이터베이스로부터 추출하는 단계를 더 포함하는 것을 특징으로 하는 정보 추출 방법.
청구항 1에 있어서,
상기 텍스트 패턴 추출 단계에서 상기 소정 기준은 형태소별 분석을 포함하는 것을 특징으로 하는 정보 추출 방법.
청구항 1에 있어서,
상기 텍스트 패턴 추출 단계는
특정 단어 또는 문구 등이 저장된 별도의 데이터베이스를 참조하여 상기 복수의 유사한 텍스트로부터 텍스트 패턴을 추출하는 것을 특징으로 하는 정보 추출 방법.
삭제
텍스트 패턴 추출을 이용하여 정보를 추출하기 위한 방법에 있어서,
정보 추출부에 의해 수행되는 각 단계가,
사용자로부터 입력받은 질의어로부터 또는 검색 데이터베이스로부터 임의의 내용을 선택하는 정보 선택 단계;
상기 선택된 내용을 형태소 별로 분석하여 추출에 필요한 키워드를 선정하는 키워드 선정 단계;
상기 선정된 키워드에 기반하여 상기 검색 데이터베이스로부터 유사한 텍스트를 복수 개 추출하는 텍스트 추출 단계;
상기 추출된 복수 개의 텍스트를 소정 기준으로 분석하여 텍스트 패턴을 추출한 뒤, 상기 추출된 텍스트 패턴을 기초로 상기 추출된 복수 개의 텍스트를 개체 별로 나열하고 정렬하는 텍스트 패턴 추출 단계; 및
상기 나열되고 정렬된 상기 복수개의 텍스트로부터 정보를 추출하는 정보 추출 단계를 포함하고,
상기 정보 추출 단계 이후에,
정보 적용부에 의해, 상기 추출된 정보를 기반으로 상기 검색 데이터베이스를 변경 적용하는 단계를 포함하는 것을 특징으로 하는 정보 추출 방법.
청구항 8에 있어서,
상기 검색 데이터베이스 변경 적용 단계 이후에,
사용자 단말 장치로부터 질의어 수신시, 상기 질의어에 의한 검색결과 및 상기 질의어와 연관된 관련 질의어를 상기 검색 데이터베이스로부터 검색하는 것을 특징으로 하는 정보 추출 방법.
텍스트 패턴 추출을 이용하여 정보를 추출하기 위한 시스템에 있어서,
사용자로부터 입력받은 질의어로부터 또는 검색 데이터베이스로부터 임의의 내용을 선택하는 정보 선택 수단;
상기 선택된 내용을 형태소 별로 분석하여 추출에 필요한 키워드를 선정하고, 상기 선정된 키워드에 기반하여 상기 검색 데이터베이스로부터 유사한 텍스트를 복수 개 추출하며, 상기 추출된 복수 개의 텍스트를 소정 기준으로 분석하여 텍스트 패턴을 추출한 뒤, 상기 추출된 텍스트 패턴을 기초로 상기 추출된 복수 개의 텍스트를 개체 별로 나열하고 정렬하는 텍스트 패턴 추출 수단; 및
상기 나열되고 정렬된 상기 복수 개의 텍스트로부터 정보를 추출하는 정보 추출 수단을 포함하며,
상기 정보 추출 수단은,
상기 정렬된 상기 복수의 텍스트로부터 각 개체 별로 다수 나타나는, 동일성을 갖는 텍스트만을 선택하고 상기 각 개체 별로 선택된 텍스트를 결합하여 정보를 추출하는 정보 추출 시스템.
텍스트 패턴 추출을 이용하여 정보를 추출하기 위한 시스템에 있어서,
사용자로부터 입력받은 질의어로부터 또는 검색 데이터베이스로부터 임의의 내용을 선택하는 정보 선택 수단;
상기 선택된 내용을 형태소 별로 분석하여 추출에 필요한 키워드를 선정하고, 상기 선정된 키워드에 기반하여 상기 검색 데이터베이스로부터 유사한 텍스트를 복수 개 추출하며, 상기 추출된 복수 개의 텍스트를 소정 기준으로 분석하여 텍스트 패턴을 추출한 뒤, 상기 추출된 텍스트 패턴을 기초로 상기 추출된 복수 개의 텍스트를 개체 별로 나열하고 정렬하는 텍스트 패턴 추출 수단;
상기 나열되고 정렬된 상기 복수 개의 텍스트로부터 정보를 추출하는 정보 추출 수단; 및
상기 추출된 정보를 기반으로 상기 검색 데이터베이스를 변경 적용하는 정보 적용부를 포함하는 것을 특징으로 하는 정보 추출 시스템.
청구항 11에 있어서,
사용자 단말 장치로부터 질의어 수신시, 상기 변경 적용된 검색 데이터베이스를 대상으로 상기 수신된 질의어에 의한 검색을 수행하는 검색부를 더 포함하는 것을 특징으로 하는 정보 추출 시스템.
청구항 12에 있어서,
상기 검색부는 상기 수신된 질의어와 연관된 관련 질의어에 대한 검색을 더 수행하는 것을 특징으로 하는 정보 추출 시스템.
청구항 제1항, 제3항 내지 제6항, 제8항 내지 제9항 중 어느 한 항에 기재된 방법의 각 단계를 컴퓨터 상에서 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.