KR20120004610A

KR20120004610A - 텍스트 패턴 추출을 이용하여 웹문서를 정제하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체

Info

Publication number: KR20120004610A
Application number: KR1020100065190A
Authority: KR
Inventors: 이우주; 장유식
Original assignee: 엔에이치엔(주)
Priority date: 2010-07-07
Filing date: 2010-07-07
Publication date: 2012-01-13
Also published as: JP2012018667A; KR101140263B1; JP5746912B2

Abstract

본 발명은 텍스트 패턴 추출을 이용하여 웹문서를 정제하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록매체에 관한 것이다. 본 발명의 일 태양에 따르면, 웹문서 정제 방법은 복수의 추출 대상 자료를 소정 기준으로 분석하여 그 텍스트 패턴을 추출하고, 상기 추출된 텍스트 패턴을 기초로 상기 복수의 추출 대상 자료를 나열하고 정렬하는 텍스트 패턴 추출 단계, 상기 나열되고 정렬된 상기 복수의 추출 대상 자료로부터 정규식을 추출하는 정규식 추출 단계; 및 상기 추출된 정규식을 이용하여 상기 웹문서를 정제하여 2차 자료를 생성하는 웹문서 정제 단계를 포함한다.

Description

텍스트 패턴 추출을 이용하여 웹문서를 정제하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체{METHOD, SYSTEM AND COMPUTER READABLE RECORDING MEDIUM FOR REFINING WEB BASED DOCUMENTS USING TEXT PATTERN EXTRACTION}

본 발명은 텍스트 패턴 추출을 이용하여 웹문서를 정제하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록매체에 관한 것으로, 보다 상세하게는 웹문서를 기초로 텍스트 패턴을 추출하고, 추출된 텍스트 패턴을 이용하여 전체 패턴을 설명할 정규식을 추출한 뒤, 추출된 정규식을 웹문서에 적용하여 정제하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 매체에 관한 것이다.

인터넷의 발달 및 보급의 증가로 인해 인터넷을 이용한 다양한 서비스가 제공되고 있는데, 그 중 대표적인 예가 검색 서비스라 할 수 있다. 이러한 검색 서비스는 사용자가 검색하고자 하는 단어 또는 단어의 조합을 질의어로 입력하면, 검색 엔진이 입력된 질의어에 상응하는 검색결과 문서(예컨대, 사용자로부터 입력된 검색 질의어를 포함하는 웹 사이트, 기사, 또는 해당 검색 질의어를 포함하는 파일명을 갖는 이미지 등)를 사용자에게 제공하는 서비스를 의미한다.

이렇듯, 사용자들이 검색하고자 하는 내용을 적절히 보여주기 위해서 인터넷 검색 서비스 제공자는 웹크롤러 또는 별도로 제공하는 입력 수단 등을 이용하여 이러한 웹 사이트나 기사 등을 미리 수집한 뒤, 수집된 웹 사이트나 기사 등을 형태소 분석 등을 통해 키워드를 추출하고 이를 바탕으로 인덱싱한 뒤 별도로 저장하여, 사용자의 질의어 입력시 보다 빠른 속도로 검색 결과를 사용자에게 제공하도록 구현한 것이 일반적이다.

하지만 종래 기술에 의해 수집된 웹 사이트나 기사 등에 별도의 가공 없이 기존의 형태소 분석에 의한 키워드 추출 및 인덱싱을 이용한 경우에는 사용자가 입력한 질의어와 일치하는 키워드가 존재하는 검색결과 문서에 대해 검색이 일치한다고 판단하여 무조건적으로 제공하게 되나, 이러한 검색결과 문서 중에는 사용자의 검색 의도와는 맞지 않은 내용이 포함될 수 있다.

예를 들어, 사용자가 피겨 스케이팅 선수인 김연아 선수에 대해 기사를 검색하고자 하여 질의어로 "김연아"를 입력하였을 때, 수집된 기사 중에 기자명이 "김연아"인 기자가 존재하고, 기자명이 기사의 본문 내에 포함되어 있는 경우 사용자의 의도와는 전혀 관계없는 기사 내용이라 할 지라도 사용자가 입력한 질의어와 일치하는 키워드가 존재하므로 검색결과 문서에 포함되어 사용자에게 제공되는 문제점이 발생하는 것이다. 도 5a를 참조하면, 사용자가 질의어 "김연아"를 입력한 경우 붉은색 직사각형인 A 부분에 표시된 바와 같이, 기자명이 "김연아"인, 피켜 스케이팅 선수인 김연아 선수와 전혀 관계없는 기사 내용이 검색되어 표시되는 것을 알 수 있다.

더욱이, 인터넷 검색 서비스 제공자가 직접 작성 또는 편집한 웹사이트 또는 기사등과 달리, 제3자에 의해서 작성된 후 웹크롤러 등에 의해 수집한 경우에는 특정 형식에 맞추어 작성되어야 하는 것이 아니므로 해당 내용을 별도의 분류 기준, 예를 들어 작성자 또는 작성 지역 등으로 재분류하기 위해서는 수작업으로 직접 확인하고 분류하는 방법밖에 없으므로, 인터넷 검색 서비스 제공자는 사용자에게 작성자 또는 작성 지역 등의 별도의 분류기준으로 정렬하여 제공하는 데에 어려움이 존재하였다.

따라서, 이러한 검색 상의 오류 방지 및 보다 효율적인 검색 결과 제공을 위해 수집된 웹 사이트나 기사 등에 적절한 정제를 가미하여 내용과 필요 없는 부분은 제거하거나 별도의 기준으로 재분류하고 인덱스로 하여 정렬하기 위한 기술이 요청되나 종래에는 사람에 의한 수작업 이외에는 이러한 문제를 해결하는 방법이 존재하지 않고 있다.

본 발명의 목적은 위에서 언급한 종래 기술의 문제점을 해결하는 것이다.

본 발명의 일 목적은 수집된 웹 사이트나 기사 등에 적절한 정제를 통해 내용과 필요 없는 부분을 삭제함으로써 검색 결과에 포함될 수 있는 오류를 방지하고 보다 정확한 검색 결과를 제공하도록 하는 것이다.

또한, 본 발명의 다른 목적은 수집된 웹 사이트나 기사 등에 적절한 정제를 통해 날짜, 보도 지역 또는 기자명 등 별도의 기준으로 재분류할 내용을 추출하고 이를 인덱스로 하여 검색하거나 정렬함으로써 보다 다양하고 정확한 검색 결과를 제공하도록 하는 것이다.

상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특유의 효과를 달성하기 위한, 본 발명의 특징적인 구성은 하기와 같다.

본 발명의 일 태양에 따르면, 웹문서 정제 방법은 복수의 추출 대상 자료를 소정 기준으로 분석하여 그 텍스트 패턴을 추출하고, 상기 추출된 텍스트 패턴을 기초로 상기 복수의 추출 대상 자료를 나열하고 정렬하는 텍스트 패턴 추출 단계; 상기 나열되고 정렬된 상기 복수의 추출 대상 자료로부터 정규식을 추출하는 정규식 추출 단계; 및 상기 추출된 정규식을 이용하여 상기 웹문서를 정제하여 2차 자료를 생성하는 웹문서 정제 단계의 수행을 통해 얻어진다.

본 발명의 다른 태양에 따르면, 웹문서 정제 시스템은 복수의 추출 대상 자료를 소정 기준으로 분석하여 그 텍스트 패턴을 추출하고, 상기 추출된 텍스트 패턴을 기초로 상기 복수의 추출 대상 자료를 나열하고 정렬하는 텍스트 패턴 추출 수단; 상기 나열되고 정렬된 상기 복수의 추출 대상 자료로부터 정규식을 추출하는 정규식 추출 수단; 및 상기 추출된 정규식을 이용하여 상기 웹문서를 정제하여 2차 자료를 생성하는 정규식 적용 수단을 포함한다.

상술한 바와 같이 본 발명에 따르면, 수집된 웹 사이트나 기사 등에 적절한 정제를 통해 내용과 필요 없는 부분을 삭제할 수 있으므로, 검색 결과에 포함될 수 있는 오류를 방지하고 보다 정확한 검색 결과를 제공할 수 있다.

또한, 본 발명에 따르면, 수집된 웹 사이트나 기사 등에 적절한 정제를 통해 날짜, 보도 지역 또는 기자명 등 별도의 기준으로 재분류할 내용을 추출하고, 이를 인덱스로 하여 검색하거나 정렬함으로써 보다 다양하고 정확한 검색 결과를 제공할 수 있다.

도 1는 발명의 일 실시예에 따라, 수집된 웹문서에 텍스트 패턴 추출을 통한 정규식을 적용하여 정제하고, 이를 이용하여 구축된 검색 데이터베이스를 이용한 검색 결과 제공 시스템의 전체적인 구성을 개략적으로 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 검색 결과 제공 시스템의 세부 구성도이다.
도 3은 본 발명의 일 실시예에 따라 검색 결과 제공 시스템 내의 2차 가공부의 세부 구성도이다.
도 4는 본 발명의 일 실시예에 따른 빈도 분석 수단에서 PMI 빈도를 나타내는 그래프이다.
도 5a는 종래 기술에서 특정 질의어로 검색되는 검색 결과를 도시하는 예시적인 화면이다.
도 5b는 본 발명의 일 실시예에 따라 특정 질의어로 검색되는 검색 결과를 도시하는 예시적인 화면이다.
도 6a는 본 발명의 일 실시예에 따라 보도지역으로 재분류되어 제공되는 결과를 도시하는 예시적인 화면이다.
도 6b는 종래 기술에서 기자명으로 검색되는 검색 결과를 도시하는 예시적인 화면이다.
도 6c는 본 발명의 일 실시예에 따라 기자명으로 재분류되어 제공되는 결과를 도시하는 예시적인 화면이다.
도 7은 본 발명의 일 실시예에 따른 2차 가공부에서의 동작 흐름도이다.
도 8은 MSA(Multiple Sequence Alignment) 기술을 이용한 유전자 분석 결과의 일 예시를 나타낸 화면이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는 적절하게 설명된다면 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

[본 발명의 바람직한 실시예]

본 발명의 실시예에서, 용어 "웹문서"는 인터넷 익스플로러 등의 웹브라우저 프로그램을 직접적으로, 또는 간접적으로 이용하여 월드와이드웹(World Wide Web)을 통하여 열람할 수 있는 수동 또는 능동적인 문서 형식을 모두 포함하는 광의의 의미로 해석되어야 하며, 웹문서의 파일 형식(file format)으로서 주로 HTML(HyperText Markup Language)이 사용되나, 반드시 이에 한정되지 않고 XML(eXtensible Markup Language), SGML(Standard Generalized Markup Language)를 포함하여 웹브라우저 프로그램을 이용하여 직접적으로 또는 간접적으로(플러그인이나 기타 별도의 프로그램과 연결되는 경우도 포함) 열람할 수 있는 문서 형식이라면 모두 웹문서에 해당된다. 웹브라우저 프로그램을 이용하여 웹문서를 열람하기 위해서는 일반적으로 웹문서가 위치하고 있는 주소를 URL로 입력하며, 그 주소 형식으로서 HTTP(HyperText Transfer Protocol)가 많이 사용되나 반드시 이에 한정되는 것은 아니다. 웹문서의 컨텐츠는 특정 형식에 제한되지 않으므로 일반적인 텍스트에 한정되는 것이 아니라, 이미지, 음악, 동영상, 또는 이들의 결합 등 다양한 형태를 포함할 수 있다. 또한, 웹문서가 담고 있는 출처에 따른 구체적인 분류에 따르면 웹문서는 일반적인 웹문서, 광고, 사전, 블로그, 웹사이트, 뉴스, 카페, 이미지, 전문정보, 책, 지도, 동영상 등을 포함할 수 있으나 상기 나열된 분류에 한정되는 것은 아니다. 앞서 살펴본 바와 같은 다양한 출처 및 형식을 가지는 웹문서를 가공한 "1차 가공 자료", "2차 가공 자료" 역시 다양한 출처 및 형식을 갖는다.

또한, 본 발명의 실시예에서, 용어 "정제"는 웹문서에 소정의 처리를 가하여 변경된 웹문서를 도출해내는 작업을 모두 포함하는 광의의 의미로 해석되어야 한다. 여기서 정제의 일 실시예로 기존의 웹문서로부터 특정 단어나 문구 또는 부분을 삭제하는 작업을 의미할 수도 있고, 또는 기존의 웹문서 내부의 특정 문구 또는 키워드를 추출하고 이를 기반으로 인덱싱하여 정렬할 수 있도록 데이터베이스를 재구성하는 작업을 의미할 수도 있으나 반드시 이에 한정되는 것은 아니다.

또한, 본 발명의 명세서에서 바람직한 실시예의 설명을 위해 웹문서의 컨텐츠를 신문 기사로 가정하여 이하 설명하도록 할 것이나, 이는 웹문서가 신문 기사로 한정되는 것을 의미하는 것은 아니며, 그 밖에 다양한 컨텐츠를 갖는 웹문서에 대해서도 본 발명이 적용될 수 있는 것은 자명하다.

전체 시스템 구성

도 1는 발명의 일 실시예에 따라, 수집된 웹문서에 텍스트 패턴 추출을 통한 정규식을 적용하여 정제하고, 이를 이용하여 구축된 검색 데이터베이스를 이용한 검색 결과 제공 시스템의 전체적인 구성을 개략적으로 나타내는 도면이다.

도 1에 도시되어 있는 바와 같이 본 발명의 일 실시예에 따른 전체 시스템은, 검색 데이터베이스를 포함하고 있는 검색 결과 제공 시스템(100)이 통신망(200)을 통하여 복수의 사용자 단말장치(300) 및 복수의 웹문서 서버(400)와 연결되어 있다.

먼저, 본 발명의 일 실시예에 따르면, 검색 결과 제공 시스템(100)은 사용자 단말장치(300)로부터 검색 문구, 즉 질의어를 수신하여, 이를 기초로 검색 데이터베이스(미도시)를 참조하여 검색을 수행한 뒤 그 결과로 도출되는 검색 결과를 사용자 단말장치(300)로 전송하는 역할을 한다. 또한, 검색 결과 제공 시스템(100)은 복수의 웹문서 서버(400)로부터 수집한 웹문서에 대해 소정 기준에 의한 분석을 통해서 텍스트 패턴을 추출하여 1차 가공 자료로부터 제거 또는 별도의 분류기준으로서 인덱싱이 필요한 부분을 탐색하고, 해당 부분에 대해 텍스트 패턴 추출을 이용한 정규식 생성 및 생성된 정규식을 1차 가공 자료에 적용하는 정제 과정을 통하여 2차 가공 자료를 생성하는 역할도 한다.

또한, 본 발명의 일 실시예에 따르면, 통신망(200)은 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 단거리 통신망(PAN; Personal Area Network), 근거리 통신망(LAN; Local Area Network), 도시권 통신망(MAN; Metropolitan Area Network), 광역 통신망(WAN; Wide Area Network) 등 다양한 통신망으로 구성될 수 있다.

한편, 본 발명의 일 실시예에 따른 사용자 단말장치(300)는 사용자가 소정 질의어에 대한 검색 결과를 제공받기 위하여 통신망(200)을 통하여 검색 결과 제공 시스템(100)과 연결하기 위한 기능을 포함하는 입출력 장치를 의미하며, 데스크톱 컴퓨터뿐만 아니라 노트북 컴퓨터, 워크스테이션, 팜톱(palmtop) 컴퓨터, 개인 휴대 정보 단말기(personal digital assistant: PDA), 웹 패드, 스마트 폰을 포함하는 이동 통신 단말기 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 사용자 단말 장치(300)로서 채택될 수 있다. 바람직하게는, 검색 결과 제공 시스템(100)과 연결하고, 질의어를 입력하여 검색 결과를 제공받기 위하여 사용자 단말장치(300) 내의 웹 브라우저를 실행시키고 사용할 수 있으나, 반드시 이에 한정되는 것은 아니다.

그리고, 본 발명의 일 실시예에 따른 웹문서 서버(400)는 검색 결과 제공 시스템(100)이 소정 방식을 통해서 수집하게 될 웹문서를 포함하고 있는 웹서버를 통칭하며 물리적으로 특정 서버나 또는 특정 내용/형식의 웹문서에 한정되어서는 안된다. 따라서 검색 결과 제공 시스템(100)이 통신망(200)을 통해 접근하여 웹문서를 수집할 수 있는 웹서버는 모두 이 웹문서 서버(400)에 포함되는 것으로 보아야 할 것이다. 바람직하게는, 웹문서 서버(400)는 그 내용으로 뉴스 기사가 기재된 웹문서를 포함할 수 있다.

검색 결과 제공 시스템

도 2는 본 발명의 일 실시예에 따른 검색 결과 제공 시스템(100)의 세부 구성도이다.

도 2을 참조하면, 본 발명의 일 실시예에 따른 검색 결과 제공 시스템(100)은 송수신부(110), 검색부(120), 1차 가공부(130), 2차 가공부(140) 및 검색 데이터베이스(150)를 포함할 수 있다.

송수신부(110)는 사용자 단말장치(300)로부터 질의어를 수신하여 검색부(120)로 전송하고, 검색부(120)로부터 추출된 검색 결과를 사용자 단말장치(300)로 전송한다.

검색부(120)은 송수신부(110)로부터 수신한 질의어에 매칭되는 정보를 2차 가공 자료가 저장된 검색 데이터베이스(150)로부터 검색한다. 검색을 통해 추출되는 검색 결과는 사용자 단말장치(300)로 보내지기 위해 송수신부(110)로 전송된다. 또는, 검색부(120)는 검색 데이터베이스(150)에 저장된 2차 가공 자료로부터 질의어에 매칭되는 정보를 검색한 뒤 도출된 검색 결과와 연관된 정보를 검색 데이터베이스(150)에 저장된 1차 가공 자료로부터 추출하여 송수신부(110)로 전송할 수도 있다.

1차 가공부(130)는 웹문서 서버(400)로부터 이미 수집된 웹문서에 대해 형태소 단위 분석 등을 통해 키워드를 추출하고 이를 바탕으로 인덱싱한 1차 가공 자료를 검색 데이터베이스(150)에 저장한다. 여기서, 웹문서는 공지의 웹 크롤러에 의해 수집될 수 있으며, 형태소 단위 분석을 통한 키워드 추출 및 인덱싱도 공지의 방법에 의해 수행될 수 있다.

2차 가공부(140)는 1차 가공부(130)에 의해 키워드 추출 및 인덱싱이 완료된 1차 가공 자료를 대상으로 특정 토큰이 등장하는 빈도가 특정 수치 이상인 부분을 추출한 뒤, 이를 대상으로 소정 기준에 의한 분석을 통해 텍스트 패턴을 추출하고 추출된 패턴에 의해 나열 및 정렬하며, 정렬된 내용에 기초하여 전체 패턴을 설명할 정규식을 추출한다. 또한, 2차 가공부(140)는 추출된 정규식에 의거하여 1차 가공 자료에 대해 정제를 적용한 결과를 2차 가공 자료로 하여 검색 데이터베이스(150)에 저장할 수 있다. 2차 가공부(140)의 각 구성요소에 대한 상세한 기능에 대해서는 후술하도록 한다.

검색 데이터베이스(150)는 웹문서 서버(400)로부터 이미 수집된 웹문서, 1차 가공부를 거친 1차 가공 자료 및 2차 가공부를 거친 2차 가공 자료, 검색부(120)에서 검색하여 추출한 검색 결과 등을 저장하는 공간을 통칭하는 개념이다. 본 발명의 간략한 예시를 위하여 도 2에는 검색 데이터베이스(150) 하나만이 도시되어 있지만, 본 발명의 다른 실시예에 따라, 앞서 나열한 다양한 데이터들이 하나 이상의 물리적으로 구별되는 데이터베이스에 저장될 수 있음은 본 발명이 속하는 분야에서 통상의 지식을 가진 자에게 있어 자명하다. 또한, 1차 가공 자료 및 2차 가공 자료가 각각 별개로 존재하고, 양 자료의 동일한 내용에 대해서는 서로 연관되어 있으며, 검색부(120)는 검색 데이터베이스(150)에 저장된 2차 가공 자료를 통해서 검색을 수행한 뒤 검색 결과는 이와 연관된 1차 가공 자료로부터 추출하여 제공할 수도 있다.

도 2에서의 송수신부(110), 검색부(120), 1차 가공부(130) 및 2차 가공부(140)는 물리적으로 하나의 기계 내에 구현될 수도 있고 일부 또는 그 각각이 물리적으로 다른 기계에 구현될 수도 있거나, 동일한 기능을 하는 물리적으로 복수 개 존재하는 기계가 병렬적으로 존재할 수도 있다. 이렇듯 본 발명은 각 구성부가 설치된 기계 또는 데이터베이스의 물리적인 개수 및 위치에 한정되지 않고 다양한 방식으로 설계 변경될 수 있음은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 자명하다.

2차 가공부

본 발명의 일 실시예에 따라 도3에 도시된 검색 결과 제공 시스템(100) 내의 2차 가공부(140)를 더욱 상세히 설명하면, 2차 가공부(140)는 빈도 분석 수단(141), 텍스트 패턴 추출 수단(142), 정규식 추출 수단(143) 및 정규식 적용 수단(144)을 포함할 수 있다.

여기서 본 발명의 일 실시예에 따른 빈도 분석 수단(141)은 검색 데이터베이스(150) 또는 별도의 데이터베이스에 저장되어 있는, 1차 가공부(130)에 의해 키워드 추출 및 인덱싱이 완료된 1차 가공 자료를 대상으로 특정 토큰(token, 어휘 분석의 단위)이 등장하는 빈도가 1차 가공 자료 중 어느 부분에서 특정 수치 이상으로 나타나는지를 분석한다. 이러한 검토 기준의 바람직한 일 실시예로, 이하의 수학식 1을 이용하여 특정 클래스에서 소정 토큰에 해당하는 PMI 값의 추이를 구한 뒤 PMI 값이 특정 수치 이상인 부분을 분석할 수 있다.

여기서, P(W)는 특정 토큰의 전체 빈도를 의미하고, P(W|C)는 클래스에서의 특정 토큰의 빈도를 의미한다. 일 예로서 클래스를 뉴스 기사로 특정한다면, 전체 웹문서보다 뉴스 기사에서 더 많이 등장하는 토큰의 경우(예를 들어 '신문' 또는 '기자' 등) 다른 토큰의 경우보다 PMI 값이 상대적으로 높을 수 있다.

보다 구체적인 예로서, 클래스 뉴스 기사에서 기자명에 해당하는 패턴을 추출하기 위해서 기자명 부근에 존재할 수 있는 토큰, 즉 용어 "기자" 및 기자명 이후에 삽입될 수 있는 기호인 ")"에 대한 PMI 값을 구해보면 도 4와 같이 나타날 수 있다. 도 4의 그래프에서 가로축은 뉴스 기사에서의 위치를 의미하고 세로축은 용어 "기자" 및 기호 ")"에 대한 PMI 값을 나타내며 PMI 값이 특정 수치 이상인 부분은 빗금으로 표시되어 있다. 즉, 1차 가공 자료인 뉴스 기사 중에서 용어 "기자" 및 기호 ")"에 대한 PMI 값이 특정 수치 이상인 부분은 빗금으로 표시된 뉴스 기사 중 맨 처음부터 A로 표시된 소정 부분까지, 그리고 B로 표시된 소정 부분부터 맨 끝까지에 해당하는 것을 알 수 있다. 따라서, 해당 부분(이하 "추출 대상 부분"이라 함)을 대상으로 텍스트 패턴 추출 수단(142)에서 텍스트 패턴을 추출할 수 있다. 빈도 분석 수단(141)의 역할은 분석을 통해서 1차 가공 자료 중 텍스트 패턴을 추출하는데 필요한 추출 대상 부분을 선택할 수 있는 점에 있으므로, 텍스트 패턴 추출 수단(142)에서 1차 가공 자료 전체가 아닌 특정 부분에 대해서만 작업을 진행할 수 있게 함으로써 텍스트 패턴 추출 수단(142)에 걸리는 부하(load)를 크게 줄여줄 수 있다.

다음으로, 본 발명의 일 실시예에 따른 텍스트 패턴 추출 수단(142)은 1차 가공 자료 중 앞서 빈도 분석 수단(141)에서 선택된, 특정 토큰의 빈도가 특정 수치 이상인 추출 대상 부분을 소정 기준으로 분석하여 텍스트 패턴을 추출하고, 이를 기초로 추출 대상 부분을 1차원적으로 나열하고 정렬할 수 있도록 하는 기능을 한다. 텍스트 패턴 추출 수단(142)의 기능은 DNA를 이용한 유전자 지도 찾기에 필요한 공통 시퀀스(sequence) 추출에 핵심적인 Multiple Sequence Alignment(MSA) 기술을 그 모티브로 도입하여 응용할 수 있다. 유전자 지도는 A, T, G, C 네 개의 알파벳이 1차원의 시퀀스로 나열된 염색체 안에 어떤 유전자가 어느 위치에 있는지를 나타내는 것으로, MSA 기술을 사용하여 공통적인 특징 (예를 들어, 파란 눈을 가진 사람들)을 갖는 복수의 DNA를 나열하고, 나열된 복수의 DNA로부터 공통 시퀀스를 추출하여 그로부터 공통적인 특징(파란 눈)에 대한 유전자를 추출하는 것이다. MSA 기술을 이용한 유전자 분석 결과의 일 예시인 도 8을 참조하면, 도 8에서 도시된 바와 같이 복수의 DNA 나열을 통한 공통적인 특징을 찾을 수 있다. 앞서 설명한 유전자 지도 찾기에 있어 사용되는 MSA 기술을 응용한 그 구체적인 예로서, 빈도 분석 수단(141)에서 용어 "기자" 및 기호 ")"에 대한 PMI 값이 특정 수치 이상인 부분으로 선택된, 추출 대상 부분이 이하의 표 1과 같다고 가정한다.

(전주=전우치 기자) 오늘 전주 비빔밥...

(부산=가물치 MBC 기자) 부산 해운대에서는...

(서울=모태범 기자) 밴쿠버 올림픽...

(밴쿠버=김연아 기자) 브라이언 오셔 코치는...

텍스트 패턴 추출 수단(142)은 상기 표 1에 해당되는 복수의 추출 대상 부분을 소정 기준으로 분석하여 텍스트 패턴을 추출하고, 이를 기초로 복수의 추출 대상 부분을 1차원적으로 나열하고 정렬한다. 보다 구체적으로, 텍스트 패턴 추출 수단(142)에서 사용될 수 있는 소정 기준으로서는 형태소별 분석이 있을 수 있으며, 그 밖에도 Char형, Word형, Byte형, 한국어나 영어나 날짜 등의 Word Type, 도시나 시간이나 동물 등의 추상화된 개념이나 낱말 단위로, 또는 청크(Chunk)나 페이지(page) 등이 사용될 수 있으나 이에 한정되지 않으며 앞서 나열한 여러 가지 기준을 복합적으로 결합하여 사용할 수 있다. 또한, 분석시 특정 단어 또는 문구 등을 저장해 놓은 별도의 데이터베이스를 참조할 수 있다. 예를 들어, 앞선 표 1에서 "전주", "부산", "서울" 및 "밴쿠버"가 모두 '지역'에 해당하는 단어로 미리 별도의 데이터베이스에 저장되어 있은 경우, 비록 단어 "밴쿠버"의 경우에는 다른 단어와 글자수가 상이하다 할 지라도 데이터베이스를 참조하여 동일하게 '지역'에 해당하는 단어임을 분석하고 표 1에 해당하는 복수의 추출 대상 부분은 모두 기호 "(" 이후에 '지역'에 해당하는 단어가 위치하는 텍스트 패턴을 갖는다는 것을 파악할 수 있다. 또 다른 예로, 기자명의 경우에도 별도의 데이터베이스에 해당하는 단어가 저장되어 있지 않은 경우 어떤 이름을 나타낸다는 고유 명사에 해당한다는 분석을 할 수 있을 것이다.

또한, 실질적으로 별도의 데이터베이스에 모든 단어가 저장되어 있을 수는 없으므로 학습법(heuristic)을 사용하여 데이터베이스의 내용을 추가, 변경, 삭제할 수도 있다. 그 예로서, 앞선 표 1에서 "전주", "부산" 및 "서울"만이 '지역'에 해당하는 단어로 미리 별도의 데이터베이스에 저장되어 있다고 할 때, 표 1의 추출 대상 부분 중 위의 세 문장 모두 기호 "(" 이후에 지역에 해당하는 한글이 위치하고 그 뒤에 기호 "="가 위치하는 것으로 보아 동일한 형식, 즉 기호 "(" 및 "="로 둘러쌓인 부분에 위치하는 한글은 지역명이 나올 것이라고 분석하여 네번째 문장에서 해당 위치에 위치한 "밴쿠버"가 데이터베이스에 저장되어 있지 않다 하더라도 지역명으로 인식하고 용어 "밴쿠버"를 데이터베이스에 추가할 수 있으며, 이 경우 향후 새로운 추출 대상 부분에 대한 분석시에 사용될 수 있을 것이다.

또한, 신문 기사의 경우 그 형식(예를 들어, 기자명을 기사 내용 앞에 기재하거나 제목 바로 뒤에 기재하거나 또는 기사 끝에 기재하는 등의 기사 작성 형식)이 그 기간별로 상이할 수 있으므로, 소정 기준으로 분석한 뒤 그 텍스트 패턴을 추출하여 1차원적인 나열 및 정렬을 하기 위하여 추출 대상 부분의 기간 등을 날짜별로 또는 몇 주 단위로 한정하는 등 여러 가지 기준을 적용할 수도 있으며, 이는 기간에만 한정되는 것이 아니다.

이렇듯, 텍스트 패턴 추출 수단(142)이 표 1에 해당하는 추출 대상 부분을 소정 기준으로 분석하여 그 패턴을 추출하고, 추출된 패턴을 기초로 추출 대상 부분에 대해 1차원적인 나열 및 정렬을 한 결과는 이하의 표 2와 같이 나타낼 수 있다.

(	전주	=	전우치		기자	)	오늘	전주	...
(	부산	=	가물치	MBC	기자	)	부산	해운대	...
(	서울	=	모태범		기자	)	밴쿠버	올림픽	...
(	밴쿠버	=	김연아		기자	)	브라이언	오셔	...

표 2에서 보여지는 1차원적인 나열 및 정렬에 따라, 기자명 근방에 위치한 괄호나 등호 등의 기호의 위치, 보도 지역, 기자명에 해당하는 부분이 텍스트 패턴에 의해 모두 정렬되었음을 알 수 있고 단어 "MBC"는 일부 기사에만 포함된 내용이므로 다른 기사와 대응되는 부분이 없고 별도의 위치에 정렬되게 된다. 상기 표2에서 나타나는 결과는 도 8에서 도시된, 유전자 지도에서 사용되는 MSA 결과와 유사한 것을 확인할 수 있다.

다음으로, 정규식 추출 수단(143)에서는, 앞선 텍스트 패턴 추출 수단(142)을 통해서 텍스트 패턴을 기초로 1차원적으로 나열되고 정렬된 내용을 기초로 하여 일반화된 식으로 표현할 수 있는 정규식을 추출한다. 앞선 예에서 계속하여, 상기 표 2에서 제시된 내용을 바탕으로 이하의 표 3과 같이 정규식을 추출할 수 있다.

(

<한글>{2,3}

=

<한글>{3}

(MBC)?

기자

)

.*

표 3에서 개시된 정규식은 먼저 기호 "("가 위치하고, 그 다음에 2~3자의 한글로 이루어진 단어가 위치하고(정규식 <한글>{2,3}으로 표시), 그 다음으로 기호 "="가 위치하며, 그 이후에 3자의 한글로 이루어진 단어가 위치(정규식 <한글>{3}으로 표시)함을 알 수 있다. 이어서, 단어 "MBC"와 같은 단어가 등장할 수 있는데, 이는 임의로 즉 일부 기사에만 나타날 수 있으므로 해당 단어가 해당 위치에 존재할 수도 있다는 의미로 정규식 "(MBC)?"와 같이 표현될 수 있다. 그 다음에는 단어 "기자" 및 기호 ")"가 위치하게 되며 그 이후에는 별도의 정규화할 수 있는 내용이 나타나지 않고 추출하고자 하는 기자명 패턴과도 관련이 없으므로 정규식 ".*"와 같이 표현될 수 있다. 또한, 텍스트 패턴 추출 수단(142)에서의 별도의 데이터베이스 참조를 통해서 기호 "(" 이후에 위치하는 2~3자의 한글로 이루어진 단어는 보도 지역을 나타내며, 기호 "=" 뒤에 위치하는 3자의 한글로 이루어진 단어는 기자명을 나타내는 것을 판단하고, 해당 내용을 정규식에 포함할 수도 있다. 물론 표 3에 의한 정규식은 표 2에 의한 1차원적인 나열 및 정렬에 의한 예에 한정되어 추출된 것이므로 그 텍스트 패턴에 따라 나열 및 정렬되는 내용에 의해 해당하는 정규식은 얼마든지 달라질 수 있으며, 정규식의 표현 방식은 상기 표 3에 한정되지 않음은 양지되어야 한다.

마지막으로 본 발명의 일 실시예에 따른 정규식 적용 수단(144)은 앞선 정규식 추출 수단(143)에 의해 추출된 정규식을 1차 가공 자료를 대상으로 적용하여 정제한 결과로 2차 가공 자료를 생성한다. 정규식 적용에 따른 정제의 일 예로서, 정규식 적용 수단(144)은 1차 가공 자료로부터 기자명을 삭제할 수 있으며, 표 3의 정규식을 이용하는 경우에 정규식 적용 수단(144)은 1차 가공 자료 중 최초로 나오는 기호 "=" 바로 뒤에 위치한 3자의 한글로 이루어진 단어가 기자명에 해당하는 것을 판단하고 있으므로, 해당 위치에 존재하는 한글로 된 3자를 기자명으로 인식하여 삭제한 후 2차 가공 자료로 하여 검색 데이터베이스(150) 또는 별도의 데이터베이스에 저장할 수 있다. 여기서, 정규식 적용 수단(144)이 정규식을 적용하여 정제하기 위한 대상은 1차 가공부(130)에 의해 키워드 추출 및 인덱싱이 완료된 1차 가공 자료 그 자체이므로, 빈도 분석 수단(141)에서 선택된, 추출 대상 부분과는 상이하다. 이와 같이, 2차 가공 자료에서 기자명을 삭제한 실시예의 경우, 사용자가 질의어 "김연아"를 입력하게 되면 검색부(120)는 기자명이 삭제된 2차 가공 자료로부터 검색하여 검색 결과를 도출하게 되므로 도 5b와 같이 제목 또는 기사 본문에 질의어를 포함하고 있는 정확한 기사만을 제공할 수 있으며, 종래 기술에 의한 검색 결과인 도 5a와 상이함을 알 수 있다.

정규식 적용의 다른 예로서, 정규식 적용 수단(144)은 기자명 또는 보도 지역을 기준으로 재분류하고, 이를 인덱스로 하여 1차 가공 자료를 가공한 2차 가공 자료를 생성할 수 있으며, 표 3의 정규식을 이용하는 경우에 정규식 적용 수단(144)은 1차 가공 자료의 맨 앞의 기호 "("를 확인하고, 그 뒤에 한글로 2~3자 나오는 보도 지역 및 그 이후에 기호 "="가 나오는 것을 확인하여 보도 지역에 해당하는 한글을 기준으로 재분류하고 이를 인덱스로 설정한 2차 가공 자료를 생성하거나, 또는 기호 "=" 이후에 나오는 한글로 된 3자를 기자명으로 인식하고 이를 기준으로 재분류하고 인덱스로 설정한 2차 가공 자료를 생성할 수 있다. 이와 같이, 보도 지역을 기준으로 재분류하고 인덱스로 설정한 2차 가공 자료가 생성된 경우, 사용자의 선택 또는 질의어 입력에 의해 특정 보도 지역 - 예를 들어 '전주' - 로부터 작성된 기사를 검색부(120)에서 2차 가공 자료로부터 검색하여 검색 결과를 도출하게 되므로 도6a와 같이 기사 제목이나 본문 등이 아닌 보도 지역이 '전주'인 기사만을 정확하게 제공할 수 있게 된다. 또한, 기자명을 기준으로 재분류하고 인덱스로 설정한 2차 가공 자료가 생성된 경우, 사용자의 선택 또는 질의어 입력에 의해 특정 기자 - 예를 들어 '이윤승' - 가 작성한 기사를 검색부(120)에서 2차 가공 자료로부터 검색하여 검색 결과를 도출하게 되므로 도 6c와 같이 기사 제목이나 본문 등이 아닌 기자명이 '이윤승'인 기사만을 정확하게 제공할 수 있게 되며, 이는 종래 기술에 의한 검색결과인 도 6b에서는 본문 또는 제목 등에 동명이인의 이름이 키워드로 존재하는 경우 기자명이 상이하다 할 지라도 검색 결과에 포함되는 것과 다름을 알 수 있다.

앞서 살펴본 정규식 적용의 두 가지 예는 정규식 적용 수단(144)에서 사용될 수 있는 실질적인 예시에 불과하며, 해당 분야의 기술 수준 및 당업자의 기술 상식에 따라 다양한 방법에 의해 상기 정규식 적용의 예들을 단독으로, 또는 결합하여 사용하거나, 동일 또는 유사한 기능을 수행할 수 있도록 변형하여 사용할 수 있는 것은 인지되어야 한다.

도 7은 본 발명의 일 실시예에 따른 2차 가공부에서의 동작 흐름도이다.

도 7에 예시된 일 실시예에 따르면, 2차 가공부의 빈도 분석 수단(141)은 정제하고자 하는 복수의 웹문서 - 예를 들어 뉴스 기사 - 중 특정 토큰 - 예를 들어 기자명 부근에 위치할 수 있는 용어 또는 기호인 "기자", ")" 등을 포함 - 이 등장하는 빈도를 구한다(S100). 여기서 상기 빈도는 앞서 설명된 PMI 값을 이용하여 구해질 수 있다.

이후에, 빈도 분석 수단(141)은 구하여진 빈도가 특정 수치 이상인 부분을 추출 대상 자료로 선택한다(S110).

이후에, 2차 가공부의 텍스트 패턴 추출 수단(142)은 앞서 선택된 추출 대상 자료를 형태소별 분석 등을 포함하는 소정 기준에 의해 분석하여 그 텍스트 패턴을 추출하고, 이를 기초로 복수의 추출 대상 부분을 나열하고 정렬한다(S120). 소정 기준에 의한 추출 대상 자료의 분석시, 특정 단어 또는 문구 등이 저장된 별도의 데이터베이스를 참고할 수 있으며 여기서 별도의 데이터베이스는 추출 대상 자료의 분석 결과를 반영하는 학습법(heuristic)에 의해 변경되고 업데이트될 수 있다.

이후에, 2차 가공부의 정규식 추출 수단(143)은 나열되고 정렬된 복수의 추출 대상 자료로부터 정규식을 추출한다(S130).

이후에, 2차 가공부의 정규식 적용 수단(144)은 앞서 추출된 정규식을 이용하여 정제하고자 하는 복수의 웹문서로부터 정규식에 포현된 특정 문구 또는 키워드의 삭제, 또는 이를 기준으로 웹문서를 재분류하여 인덱스로 설정하는 등의 정제 작업을 거쳐 2차 자료를 생성한다(S140). 이렇게 생성된 2차 자료는, 사용자에 의한 질의어를 수신하였을 때, 1차 자료 대신에 검색 대상이 될 수 있다.

본 발명에 따른 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(Floptical disk)와 같은 자기-광 매체(megneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동되도록 구성될 수 있으며, 그 역도 마찬가지다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

복수의 추출 대상 자료를 소정 기준으로 분석하여 그 텍스트 패턴을 추출하고, 상기 추출된 텍스트 패턴을 기초로 상기 복수의 추출 대상 자료를 나열하고 정렬하는 텍스트 패턴 추출 단계;
상기 나열되고 정렬된 상기 복수의 추출 대상 자료로부터 정규식을 추출하는 정규식 추출 단계; 및
상기 추출된 정규식을 이용하여 웹문서를 정제하여 2차 자료를 생성하는 웹문서 정제 단계를 포함하는 웹문서 정제 방법.
청구항 1에 있어서,
상기 텍스트 패턴 추출 단계 이전에,
상기 웹문서 중 특정 토큰이 등장하는 빈도를 구하고, 상기 빈도가 특정 수치 이상인 부분을 추출 대상 자료로 선택하는 빈도 분석 단계를 더 포함하는 것을 특징으로 하는 웹문서 정제 방법.
청구항 2에 있어서,
상기 빈도는 PMI 값을 이용하는 것을 특징으로 하는 웹문서 정제 방법.
청구항 2에 있어서,
상기 특정 토큰은 상기 웹문서 중 기자명 부근에 위치할 수 있는 용어 또는 기호를 포함하는 것을 특징으로 하는 웹문서 정제 방법.
청구항 1에 있어서,
상기 소정 기준은 형태소별 분석을 포함하는 것을 특징으로 하는 웹문서 정제 방법.
청구항 1에 있어서,
상기 텍스트 패턴 추출 단계는
특정 단어 또는 문구 등이 저장된 별도의 데이터베이스를 참조하여 상기 추출 대상 자료를 분석하는 것을 더 포함하는 것을 특징으로 하는 웹문서 정제 방법.
청구항 6에 있어서,
상기 별도의 데이터베이스는 추출 대상 자료의 분석 결과를 반영하여 변경되는 것을 특징으로 하는 웹문서 정제 방법.
청구항 1에 있어서,
상기 정제는 상기 웹문서로부터 상기 정규식에 표현된 특정 문구 또는 키워드의 삭제, 또는 이를 기준으로 상기 웹문서를 재분류하여 인덱스로 설정하는 것을 포함하는 것을 특징으로 하는 웹문서 정제 방법.
청구항 1에 있어서,
상기 웹문서 정제 단계 이후에,
사용자 단말 장치로부터 질의어 수신시, 상기 질의어에 의한 검색은 상기 2차 자료를 대상으로 이루어지는 것을 특징으로 하는 웹문서 정제 방법.
복수의 추출 대상 자료를 소정 기준으로 분석하여 그 텍스트 패턴을 추출하고, 상기 추출된 텍스트 패턴을 기초로 상기 복수의 추출 대상 자료를 나열하고 정렬하는 텍스트 패턴 추출 수단;
상기 나열되고 정렬된 상기 복수의 추출 대상 자료로부터 정규식을 추출하는 정규식 추출 수단; 및
상기 추출된 정규식을 이용하여 웹문서를 정제하여 2차 자료를 생성하는 정규식 적용 수단을 포함하는 웹문서 정제 시스템.
청구항 10에 있어서,
상기 웹문서 중 특정 토큰이 등장하는 빈도를 구하고, 상기 빈도가 특정 수치 이상인 부분을 추출 대상 자료로 선택하는 빈도 분석 수단을 더 포함하는 것을 특징으로 하는 웹문서 정제 시스템.
청구항 10에 있어서,
상기 텍스트 패턴 추출 수단은
특정 단어 또는 문구 등이 저장된 별도의 데이터베이스를 참조하여 상기 추출 대상 자료를 분석하는 기능을 더 포함하는 것을 특징으로 하는 웹문서 정제 시스템.
청구항 12에 있어서,
상기 별도의 데이터베이스는 추출 대상 자료의 분석 결과를 반영하여 변경되는 것을 특징으로 하는 웹문서 정제 시스템.
청구항 10에 있어서,
상기 정제는 상기 웹문서로부터 상기 정규식에 표현된 특정 문구 또는 키워드의 삭제, 또는 이를 기준으로 상기 웹문서를 재분류하여 인덱스로 설정하는 것을 포함하는 것을 특징으로 하는 웹문서 정제 시스템.
청구항 10에 있어서,
사용자 단말 장치로부터 질의어 수신시, 상기 2차 자료를 대상으로 상기 질의어에 의한 검색을 수행하는 검색부를 더 포함하는 것을 특징으로 하는 웹문서 정제 시스템.
청구항 제1항 내지 제9항 중 어느 한 항에 기재된 방법의 각 단계를 컴퓨터 상에서 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.