KR101117171B1 - 검색 서비스를 위해 데이터를 생성하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 - Google Patents

검색 서비스를 위해 데이터를 생성하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 Download PDF

Info

Publication number
KR101117171B1
KR101117171B1 KR1020080103894A KR20080103894A KR101117171B1 KR 101117171 B1 KR101117171 B1 KR 101117171B1 KR 1020080103894 A KR1020080103894 A KR 1020080103894A KR 20080103894 A KR20080103894 A KR 20080103894A KR 101117171 B1 KR101117171 B1 KR 101117171B1
Authority
KR
South Korea
Prior art keywords
document
data
language data
search
language
Prior art date
Application number
KR1020080103894A
Other languages
English (en)
Other versions
KR20100044670A (ko
Inventor
양병석
황준호
성기준
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020080103894A priority Critical patent/KR101117171B1/ko
Publication of KR20100044670A publication Critical patent/KR20100044670A/ko
Application granted granted Critical
Publication of KR101117171B1 publication Critical patent/KR101117171B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation

Abstract

본 발명은 검색 서비스를 위해 데이터를 생성하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다. 본 발명의 일 태양에 따르면, 검색 서비스를 위해 데이터를 생성하기 위한 방법으로서, 네트워크 상에 연결된 원격 컴퓨터들로부터 웹 문서를 획득하여 저장하는 단계, 상기 획득된 웹 문서에 포함된 제1 언어 데이터를 인식하는 단계, 상기 웹 문서의 제1 언어 데이터에 대응하는 제2 언어 데이터를 획득하는 단계, 및 상기 획득된 제2 언어 데이터 중 적어도 일부가 색인어에 포함되도록 색인 데이터를 생성하는 단계를 포함하는 방법이 제공된다. 본 발명에 의하면, 사용자가 입력한 검색 키워드에 대하여 다양한 언어로 작성된 웹 문서가 포함된 검색 결과를 제공할 수 있는 효과를 달성할 수 있다.
검색, 외국어 검색, 크롤 데이터

Description

검색 서비스를 위해 데이터를 생성하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체{METHOD, SYSTEM AND COMPUTER-READABLE RECORDING MEDIUM FOR CREATING DATA FOR RETRIEVAL}
본 발명은 검색 서비스를 위해 데이터를 생성하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다. 보다 상세하게는, 본 발명은 정보 검색을 위하여 다수의 웹 문서를 크롤링(crawling)하여 크롤 데이터(crawled data) 집합을 생성하고, 생성된 크롤 데이터 집합의 언어 데이터를 변환하여 검색을 위한 색인 데이터를 생성하고 검색에 노출된 데이터를 선택했을 때 해당 사이트로의 연결과 함께 번역기를 통한 웹브라우징 기능을 제공하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
근래에 들어, 인터넷 사용이 보편화되면서 사용자들은 인터넷 검색을 통하여 다양한 정보를 획득할 수 있게 되었다. 즉, 사용자들은 인터넷에의 접속이 가능한 개인용 컴퓨터 등의 단말 장치를 통해 인터넷 검색 사이트에 접속한 후, 뉴스, 지식, 게임, 커뮤니티 등과 관련된 각종 컨텐츠를 검색할 수 있게 되었다. 이와 같은 검색 사이트는 주로 텍스트 데이터에 기반한 검색 인터페이스를 제공하는데, 보 다 구체적으로는, 사용자로부터 검색 키워드를 입력 받고, 입력된 검색 키워드에 부합하는 검색 결과 목록을 사용자에게 제공하는 방식이다. 이를 위하여 검색 사이트들은 검색 엔진을 포함하는 것이 일반적인데, 검색 엔진은 다음과 같은 과정을 거쳐 검색 인터페이스를 제공하게 된다.
우선, 검색 엔진은 네트워크 상에 존재하는 다수의 웹 문서들을 수집한다. 이와 같은 과정은 웹 크롤러(web crawler)에 의해 수행되는데, 웹 크롤러는 네트워크 상에 존재하는 웹 문서들을 방문하고, 방문된 웹 문서를 저장하는 기능을 수행한다. 보다 구체적으로, 웹 크롤러는 소정의 시드 리스트(seed list)에 포함된 웹 문서들을 순차적으로 탐색하여 저장하고, 저장된 웹 문서의 HTML 링크 등을 분석하여 저장된 웹 문서와 연결된 다른 웹 문서들로 탐색 대상을 확장함으로써, 결과적으로 시드 리스트에 포함된 웹 문서로부터 접근할 수 있는 모든 웹 문서를 탐색하여 저장한다.
다음으로, 검색 엔진은 웹 크롤러에 의해 저장된 웹 문서들을 일련의 기준에 따라 정리 및 분석하고, 색인 데이터의 생성을 위한 정보를 추출한다. 보다 구체적으로, 크롤 데이터 중 중복된 데이터를 제거하고, 크롤 데이터들에 포함된 링크 정보를 이용하여 웹 문서의 중요도를 측정하는 페이지랭크(pagerank) 작업 등을 수행한다.
마지막으로, 검색 엔진은 크롤 데이터 및 페이지랭크를 수행한 결과물 등을 참조하여, 색인 데이터를 생성한다. 색인 데이터는 사용자가 검색 엔진에 검색 키워드를 입력하는 경우, 해당 검색 키워드에 대응하는 웹 문서들을 용이하게 획득할 수 있도록, B Tree, 해쉬(hash) 등과 같은 소정의 자료 구조를 이용하여 생성된다.
상기와 같은 방식으로 생성되는 색인 데이터는 다양한 언어로 작성된 다수의 웹 문서들을 포함할 수 있다. 즉, 검색 엔진의 웹 크롤러는 웹 문서에 포함된 링크 정보를 이용하여 웹 문서들을 수집하므로, 수집된 웹 문서의 작성 언어를 구별하지 않은 채 웹 문서를 수집하게 되고, 따라서, 사용자는 한국어, 영어, 일어 등과 같이 다양한 언어로 검색 키워드를 입력하여 원하는 결과를 얻을 수 있게 된다.
그러나, 종래의 색인 데이터를 이용하여 제공되는 검색 인터페이스는 사용자가 입력한 검색 키워드와 매칭되는 웹 문서를 제공하는 방식이므로, 사용자가 검색 키워드로서 "자동차"를 입력하는 경우, "자동차"를 포함하는 웹 문서만을 제공할 뿐, "car", "自動車" 등을 포함하는 웹 문서는 제공하지 못하는 단점이 있었다.
이와 같은 문제를 해결하기 위한 하나의 방편으로서, 본 출원인이 2004년 01월 15일자로 출원하여, 2004년 7월 6일자로 공개된 한국공개특허공보 제2004-60858호에 개시된 기술을 상정할 수 있다.
상기 문헌에는 사용자가 특정 언어로 입력한 검색 키워드를 다른 언어로 번역하고, 번역된 검색 키워드를 이용하여 검색을 수행함으로써 다양한 언어로 표현된 웹 문서들에 대한 검색 결과를 제공할 수 있도록 하는 기술에 관하여 개시되어 있다.
그러나, 상기 문헌에 개시된 기술의 내용과 같이 입력된 하나의 검색 키워드를 n 개의 검색 키워드들로 번역하여 검색 결과를 제공하는 것은, n 번의 검색을 수행하는 과정이 수반되고, 또한, n 개의 검색 키워드들을 이용하여 획득되는 n 개 의 검색 결과 목록들을 하나의 목록으로 취합하는 별개의 과정이 요구되므로, 사용자가 입력한 검색 키워드에 대하여 다양한 언어로의 검색 기능을 제공할수록 검색 성능이 저하된다는 단점이 있었다.
본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다.
또한, 본 발명은 사용자가 입력한 검색 키워드에 대하여 검색 결과를 제공함에 있어서, 해당 검색 키워드를 다른 언어의 형태로 포함하고 있는 웹 문서 등이 포함된 검색 결과를 제공하는 것을 그 목적으로 한다.
또한, 본 발명은 상기와 같은 목적을 달성하면서도, 검색 엔진의 성능이 저하되는 것을 방지하는 것을 그 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 태양에 따르면, 검색 서비스를 위해 데이터를 생성하기 위한 방법으로서, 네트워크 상에 연결된 원격 컴퓨터들로부터 웹 문서를 획득하여 저장하는 단계, 상기 획득된 웹 문서에 포함된 제1 언어 데이터를 인식하는 단계, 상기 웹 문서의 제1 언어 데이터에 대응하는 제2 언어 데이터를 획득하는 단계, 및 상기 획득된 제2 언어 데이터 중 적어도 일부가 색인어에 포함되도록 색인 데이터를 생성하는 단계를 포함하는 방법이 제공된다.
본 발명의 또 다른 태양에 따르면, 검색 서비스를 위해 데이터를 생성하기 위한 시스템으로서, 네트워크 상에 연결된 원격 컴퓨터들로부터 획득된 웹 문서를 저장하는 문서 수집부, 상기 획득된 웹 문서에 포함된 제1 언어 데이터를 인식하고, 상기 웹 문서의 제1 언어 데이터에 대응하는 제2 언어 데이터를 획득하는 문서 변환부, 및 상기 획득된 제2 언어 데이터 중 적어도 일부가 색인어에 포함되도록 색인 데이터를 생성하는 색인 데이터 생성부를 포함하는 시스템이 제공된다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하기 위한 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
본 발명에 의하면, 사용자가 입력한 검색 키워드에 대하여 다양한 언어로 작성된 웹 문서가 포함된 검색 결과를 제공할 수 있는 효과를 달성할 수 있다.
본 발명에 의하면, 검색 엔진의 성능을 크게 저하시키지 않으면서도 다양한 언어로 작성된 웹 문서 등을 포함한 검색 결과를 제공할 수 있는 효과를 달성할 수 있다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명 은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
[본 발명의 바람직한 실시예]
전체 시스템의 구성
도 1은 본 발명의 일 실시예에 따라 사용자의 검색 키워드에 부합하는 검색 결과를 제공하기 위한 전체 시스템의 구성을 개략적으로 나타내는 도면이다.
도 1에 도시되어 있는 바와 같이, 본 발명의 일 실시예에 따른 전체 시스템은, 통신망(100), 사용자의 검색 키워드에 부합하는 웹 문서들의 목록을 제공하는 검색 시스템(200), 다양한 웹 문서들이 저장된 다수의 외부 시스템(300), 및 사용자 단말 장치(400)로 구성될 수 있다.
먼저, 통신망(100)은 유선 및 무선과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 통신망(LAN: Local Area Network), 도시권 통신망(MAN: Metropolitan Area Network), 광역 통신망(WAN: Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. 바람직하게는, 본 발명에서 말하는 통신망(100)은 공지의 월드와이드웹(WWW: World Wide Web)일 수 있다.
본 발명의 일 실시예에 따르면, 검색 시스템(200)은 다수의 외부 시스템(300)에 저장된 웹 문서들을 탐색하여 저장하고, 사용자 단말 장치(400)로부터 입력된 검색 키워드가 수신되면 저장된 웹 문서에 대한 검색 결과를 사용자 단말 장치(400)에 제공할 수 있다.
그리고, 본 발명의 일 실시예에 따르면, 검색 시스템(200)은 다수의 외부 시스템(300)을 탐색하여 생성된 크롤 데이터에 대한 번역 데이터를 생성하고, 생성된 번역 데이터에 대한 검색 결과를 사용자 단말 장치(400)에 제공할 수 있다.
본 발명의 일 실시예에 따르면, 외부 시스템(300)은 검색 시스템(200)이 통신망(100)을 통해 접근 가능한 외부 단말 장치 또는 외부 서버를 통칭하는 것으로서, 적어도 하나의 웹 문서를 포함하는 전자 기기일 수 있다.
본 발명의 일 실시예에 따른 사용자 단말 장치(400)는 검색 시스템(200), 외부 시스템(300) 등과 같은 원격 컴퓨터에 접속한 후 통신할 수 있도록 하는 기능을 포함하는 디지털 기기로서, 개인용 컴퓨터(예를 들어, 데스크탑 컴퓨터, 노트북 컴퓨터 등), 워크스테이션, PDA, 웹 패드, 이동 전화기 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 사용자 단말 장치(400)로서 채택될 수 있다.
검색 시스템의 구성
이하에서는, 본 발명에 따른 검색 시스템(200)의 내부 구성 및 각 구성요소의 기능에 대하여 살펴보기로 한다.
도 2는 본 발명의 일 실시예에 따른 검색 시스템(200)의 내부 구성을 상세하 게 도시한 도면이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 검색 시스템(200)은, 문서 수집부(210), 문서 변환부(220), 크롤 데이터 처리부(230), 색인 데이터 생성부(240), 검색 인터페이스(250), 데이터베이스 관리부(260), 통신부(270) 및 제어부(280)를 포함할 수 있다. 본 발명의 일 실시예에 따르면, 문서 수집부(210), 문서 변환부(220), 크롤 데이터 처리부(230), 색인 데이터 생성부(240), 검색 인터페이스(250), 데이터베이스 관리부(260), 통신부(270) 및 제어부(280)는 그 중 적어도 일부가 외부 시스템(300), 및/또는 사용자 단말 장치(400)와 통신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 검색 시스템(200)에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈들은 검색 시스템(200)과 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.
먼저, 본 발명의 일 실시예에 따른 문서 수집부(210)는 외부 시스템(300)에 저장된 웹 문서를 탐색하고, 이를 후술할 문서 데이터베이스(260a)에 저장하는 기능을 수행할 수 있다.
본 발명의 일 실시예에 따르면, 문서 수집부(210)는 문서 수집을 위하여 소정의 시드 리스트(seed list)를 유지할 수 있다. 시드 리스트는 웹 문서 수집의 시작점이 되는 웹 문서들의 네트워크 주소 목록이다. 문서 수집부(210)는 시드 리스트에 포함된 네트워크 주소를 큐(queue)와 같은 자료 구조에 저장한 후, 큐에 저장된 네트워크 주소에 순차적으로 접속하여 웹 문서를 다운로드한다.
본 발명의 일 실시예에 따르면, 문서 수집부(210)는 다운로드한 웹 문서에 포함된 링크 정보를 추출하고, 추출된 링크가 가리키는 네트워크 주소를 큐에 삽입함으로써, 문서 수집부(210)가 추후, 추출된 네트워크 주소에 접속할 수 있도록 한다.
본 발명의 일 실시예에 따르면, 문서 수집부(210)는 추출된 모든 네트워크 주소에 대하여 다운로드를 수행한 후 그 동작을 완료할 수 있다.
다음으로, 본 발명의 일 실시예에 따른 문서 변환부(220)는 크롤 데이터에 포함된 언어를 다른 언어로 변환하고, 이를 후술할 변환 문서 데이터베이스(260b)에 저장하는 기능을 수행할 수 있다.
보다 구체적으로는, 문서 변환부(220)는 문서 데이터베이스(260a)에 저장된 크롤 데이터들을 순차적으로 탐색하면서, 크롤 데이터에 포함된 텍스트 데이터에 대하여 변환 작업을 수행할 수 있다.
본 발명의 일 실시예에 따르면, 문서 변환부(220)는 탐색 도중에 영어, 일어, 중국어, 한자 등과 같이 한글이 아닌 문자들이 발견되는 경우, 이를 한글로 번역하는 방식으로 변환을 수행할 수 있다. 여기서, 반드시 한글로 변환되는 경우만을 상정할 필요는 없으며 다양한 언어로의 변환을 생각할 수 있음은 물론이라 할 것이다.
본 발명의 일 실시예에 따르면, 문서 변환부(220)는 웹 문서에 포함된 텍스트 데이터 전부에 대하여 변환 작업을 수행할 수도 있고, 웹 문서가 HTML, XML 등과 같이 구조화된 문서일 경우, 제목 영역, 링크 태그 영역 등과 같이 웹 문서의 특정 부분만을 선택적으로 변환할 수도 있다. 또한, 본 발명의 일 실시예에 따르면, 문서 변환부(220)는 크롤 데이터에 포함된 텍스트 데이터 중 명사 등과 같이 특정 품사의 형태를 가지는 텍스트 데이터에 대하여만 변환을 수행할 수도 있다. 상기에서, 웹 문서의 일 부분에 대하여만 번역을 수행하는 경우에는, 번역된 문서가 검색 결과에 포함될 수 있도록 하면서도, 방대한 양의 웹 문서를 번역하는 부담을 경감시킬 수 있을 것이다.
문서를 번역하는 과정은 다양한 공지의 문서 번역 소프트웨어를 이용하여 수행될 수 있을 것이다.
본 발명의 일 실시예에 따르면, 가령 영문자를 한글로 번역하는 경우를 상정해 볼 때, 원본 크롤 데이터의 변환은 원본 크롤 데이터의 영문자 부분을 한글로 치환하는 방식 또는 영문자 부분에 한글을 부가하는 방식 등으로 수행될 수 있을 것이다.
본 발명의 제1 실시예에 따르면, 문서 변환부(220)는 변환된 크롤 데이터를 변환 문서 데이터베이스(260b)에 저장할 수 있다. 가령, 영문자를 포함하여 작성된 웹 문서의 경우, 문서 수집부(210)가 다운로드한 원본 크롤 데이터 및 문서 변환부(220)가 해당 영문자를 한글로 변환한 크롤 데이터와 같은 두 가지 종류의 크롤 데이터가 생성될 수 있다.
도 3은 본 발명의 제1 실시예에 따라 데이터베이스에 저장되는 데이터를 예시적으로 나타내는 도면이다.
도 3을 참조하면, 영문자 "car"를 포함하는 웹 문서의 경우, 원본 크롤 데이터는 문서 데이터베이스(260a)에 저장되고, "car" 부분이 "자동차"로 변환된 크롤 데이터는 변환 문서 데이터베이스(260b)에 저장되는 것을 확인할 수 있다.
본 명세서에서는 번역된 크롤 데이터를 원본 크롤 데이터와 구분하기 위하여 별도의 데이터베이스[즉, 문서 데이터베이스(260a)와 변환 문서 데이터베이스(260b)]에 저장하는 것으로 예시하고 있으나, 변환된 크롤 데이터와 원본 크롤 데이터를 구분하지 않고 하나의 데이터베이스에 서로 다른 크롤 데이터로서 저장할 수 있음은 물론이다.
본 발명의 제2 실시예에 따르면, 문서 변환부(220)는 크롤 데이터의 변환된 부분에 대한 정보를 변환 문서 데이터베이스(260b)에 저장할 수 있다. 즉, 문서 변환부(220)는 변환된 문서 전체를 저장하는 것이 아니라, 크롤 데이터 중 변환된 문자열에 관한 정보를 원본 크롤 데이터의 식별자와 연계하여 저장할 수 있다.
도 4는 본 발명의 제2 실시예에 따라 데이터베이스에 저장되는 데이터를 예시적으로 나타내는 도면이다.
도 4를 참조하면, 영문자 "car"를 포함하는 웹 문서의 경우, 원본 크롤 데이터는 문서 데이터베이스(260a)에 저장되고, 변환 문서 데이터베이스(260b)에는 "car"를 국문으로 번역한 "자동차"가 원본 크롤 데이터에 대한 식별 정보와 연계되어 저장될 수 있다. 또한, 변환 문서 데이터베이스(260b)에는 그 외 색인 데이터 의 생성에 필요한 정보가 함께 저장될 수 있을 것이다.
본 발명의 일 실시예에 따른 크롤 데이터 처리부(230)는 문서 데이터베이스(260a), 및/또는 변환 문서 데이터베이스(260b)에 저장된 크롤 데이터에 대하여 중복되는 데이터를 제거하거나, 페이지랭크 작업을 수행할 수 있다.
본 발명의 일 실시예에 따른 색인 데이터 생성부(240)는 크롤 데이터와 크롤 데이터 처리부(230)에 의해 처리된 정보를 이용하여 색인 데이터를 생성할 수 있다.
본 발명의 제1 실시예에 따르면, 색인 데이터 생성부(240)는 문서 데이터베이스(260a)와 변환 문서 데이터베이스(260b)에 저장된 크롤 데이터들을 통합하여 색인 데이터를 생성하고, 이를 후술할 색인 데이터베이스(260c)에 저장할 수 있다.
도 3을 다시 참조하면, 영문자 "car"를 포함하는 웹 문서의 경우, 색인 데이터베이스(260c)에는, "car"라는 색인어에 해당 웹 문서의 원본 크롤 데이터가 연계되고, "자동차"라는 색인어에 해당 웹 문서의 변환된 크롤 데이터가 연계되어 있는 것을 확인할 수 있다.
본 발명의 제2 실시예에 따르면, 색인 데이터 생성부(240)는 문서 데이터베이스(260a)에 저장된 크롤 데이터들에 대하여 색인 데이터를 생성하되, 변환 문서 데이터베이스(260b)에 저장된 변환 정보를 반영하여 색인 데이터를 생성할 수 있다.
도 4를 다시 참조하면, 영문자 "car"를 포함하는 웹 문서의 경우, 색인 데이터베이스(260c)에는, 문서 데이터베이스(260a)에 저장된 정보를 참조하여 "car"라 는 색인어에 대하여 해당 웹 문서의 원본 크롤 데이터가 연계되고, 변환 문서 데이터베이스(260b)를 참조하여 "자동차"라는 색인어에 대하여 웹 문서의 크롤 데이터가 연계되어 있는 것을 확인할 수 있다.
본 발명의 일 실시예에 따른 검색 인터페이스(250)는 사용자 단말 장치(400)로부터 검색 키워드를 수신하고, 색인 데이터베이스(260c)로부터 입력된 검색 키워드에 대응하는 웹 문서를 검색하여 그 결과를 사용자 단말 장치(400)에 제공할 수 있다.
또한, 본 발명의 일 실시예에 따르면, 검색 인터페이스(250)는 사용자 단말 장치(400)에 조회된 웹 문서에 대한 번역 요청을 수신하고, 해당 웹 문서를 변환하여 사용자 단말 장치(400)에 전송할 수 있다. 예를 들어, 본 발명의 일 실시예에 따르면, 문서 변환부(220)는 웹 문서의 일 부분만을 변환하여 저장할 수도 있고, 변환된 크롤 데이터의 저장 과정을 생략할 수도 있는데, 이와 같은 경우에 사용자는 조회하는 웹 문서의 완전한 번역을 요청할 수 있다.
이 때, 본 발명의 일 실시예에 따르면, 검색 인터페이스(250)는 사용자가 요청한 웹 문서에 대한 정보를 문서 변환부(220)에 제공하고, 문서 변환부(220)는 해당 웹 문서 전체를 특정 언어로 변환한 후, 변환된 웹 문서에 대한 정보를 검색 인터페이스(250)에 제공하면, 검색 인터페이스(250)는 변환된 웹 문서를 사용자 단말 장치(400)에 제공할 수 있다.
본 발명의 일 실시예에 따른 데이터베이스 관리부(260)는, 수집된 웹 문서가 저장된 문서 데이터베이스(260a), 문서 데이터베이스(260a)에 저장된 크롤 데이터 들에 포함된 텍스트 데이터의 적어도 일부를 다른 언어로 변환한 데이터가 저장된 변환 문서 데이터베이스(260b), 및 색인 데이터가 저장된 색인 데이터베이스(260c)를 포함할 수 있다.
본 발명의 일 실시예에 따른 통신부(270)는 본 발명에 따른 검색 시스템(200)이 외부 시스템(300), 및 사용자 단말 장치(400) 등과 같은 외부 장치와 통신할 수 있도록 하는 기능을 수행할 수 있다.
본 발명의 일 실시예에 따른 제어부(280)는 문서 수집부(210), 문서 변환부(220), 크롤 데이터 처리부(230), 색인 데이터 생성부(240), 검색 인터페이스(250), 데이터베이스 관리부(260), 및 통신부(270) 간의 데이터의 흐름을 제어하는 기능을 수행한다.
이상의 설명에서, 본 발명의 구현을 위한 정보를 저장하는 데이터베이스를 문서 데이터베이스(260a), 변환 문서 데이터베이스(260b) 및 색인 데이터베이스(260c)의 세 가지 데이터베이스로 분류하였지만, 이러한 분류를 포함한 데이터베이스의 구성은 당업자의 필요에 따라 변경될 수 있다. 특히, 본 발명의 일 실시예에 따르면, 문서 데이터베이스(260a)와 변환 문서 데이터베이스(260b)는 구분 없이 동일한 데이터베이스로 유지될 수 있을 것이다.
마지막으로, 본 명세서에 있어서, 데이터베이스란, 협의의 데이터베이스뿐만 아니라, 컴퓨터 파일 시스템에 기반한 데이터 기록 등을 포함하는 넓은 의미의 데이터베이스까지도 포함하는 개념으로서, 단순한 연산 처리 이력의 집합이라도 이를 검색하여 소정의 데이터를 추출할 수 있다면 본 발명에서 말하는 데이터베이스에 포함될 수 있음이 이해되어야 한다.
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
도 1은 본 발명의 일 실시예에 따라 사용자의 검색 키워드에 부합하는 검색 결과를 제공하기 위한 전체 시스템의 구성을 개략적으로 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 검색 시스템(200)의 내부 구성을 상세하게 도시한 도면이다.
도 3 및 도 4는 본 발명의 일 실시예에 따라 데이터베이스에 저장되는 데이터를 예시적으로 나타내는 도면이다.
<주요 도면부호에 관한 간단한 설명>
100: 통신망
200: 상품 정보 제공 시스템
210: 문서 수집부
220: 문서 변환부
230: 크롤 데이터 처리부
240: 색인 데이터 생성부
250: 검색 인터페이스
260: 데이터베이스 관리부
260a: 문서 데이터베이스
260b: 변환 문서 데이터베이스
260c: 색인 데이터베이스
270: 통신부
280: 제어부
300: 외부 시스템
400: 사용자 단말 장치

Claims (23)

  1. 검색 서비스를 위해 데이터를 생성하기 위한 방법으로서,
    문서 수집부에 의해, 네트워크 상에 연결된 원격 컴퓨터들로부터 웹 문서를 획득하여 저장하는 단계,
    문서 변환부에 의해, 상기 획득된 웹 문서에 포함된 제1 언어 데이터를 인식하는 단계,
    상기 문서 변환부에 의해, 상기 웹 문서의 제1 언어 데이터를 제2 언어로 번역한 제2 언어 데이터를 획득하는 단계,
    색인 데이터 생성부에 의해, 상기 획득된 제2 언어 데이터 중 적어도 일부가 색인어에 포함되고 상기 저장된 웹 문서와 연계되도록 색인 데이터를 생성하여 저장하는 단계,
    이후, 검색 인터페이스에 의해,
    사용자 단말 장치로부터 상기 색인 데이터에 포함된 제2 언어 데이터를 검색 키워드로서 수신하는 단계,
    상기 색인 데이터를 이용하여 상기 수신된 검색 키워드와 연계된 문서 집합을 획득하는 단계, 및
    상기 획득된 문서 집합에 관한 정보를 상기 단말 장치에 제공하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 제2 언어 데이터를 획득하는 단계는,
    상기 웹 문서가 상기 획득된 제2 언어 데이터 중 적어도 일부를 포함하도록 변환하는 단계, 및
    상기 변환된 웹 문서를 저장하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제1항에 있어서,
    상기 검색 인터페이스에 의해, 상기 제공된 문서 집합 중 상기 단말 장치에 의해 선택된 문서를 상기 단말 장치에 제공하는 단계를 더 포함하는 방법.
  7. 제6항에 있어서,
    상기 단말 장치에 의해 선택된 문서는 상기 제1 언어 데이터 중 적어도 일부를 포함하고,
    상기 선택된 문서를 제공하는 단계는 상기 선택된 문서에 포함된 제1 언어 데이터를 상기 제1 언어 데이터에 대응하는 상기 제2 언어 데이터로 번역하여 제공하는 것을 특징으로 하는 방법.
  8. 제1항에 있어서,
    상기 제2 언어 데이터를 획득하는 단계는 상기 제1 언어 데이터 중 특정 품사에 대하여 선택적으로 번역이 수행되는 것을 특징으로 하는 방법.
  9. 제8항에 있어서,
    상기 특정 품사는 명사인 것을 특징으로 하는 방법.
  10. 제1항에 있어서,
    상기 제2 언어 데이터를 획득하는 단계는 상기 웹 문서 중 특정 영역에 포함된 제1 언어 데이터에 대하여 선택적으로 번역이 수행되는 것을 특징으로 하는 방법.
  11. 제10항에 있어서,
    상기 특정 영역은 제목 영역 및 링크 태그 영역 중 적어도 하나인 것을 특징으로 하는 방법.
  12. 검색 서비스를 위해 데이터를 생성하기 위한 시스템으로서,
    네트워크 상에 연결된 원격 컴퓨터들로부터 획득된 웹 문서를 저장하는 문서 수집부,
    상기 획득된 웹 문서에 포함된 제1 언어 데이터를 인식하고, 상기 웹 문서의 제1 언어 데이터를 제2 언어로 번역한 제2 언어 데이터를 획득하는 문서 변환부,
    상기 획득된 제2 언어 데이터 중 적어도 일부가 색인어에 포함되고 상기 저장된 웹 문서와 연계되도록 색인 데이터를 생성하여 저장하는 색인 데이터 생성부, 및
    사용자 단말 장치로부터 상기 색인 데이터에 포함된 제2 언어 데이터를 검색 키워드로서 수신하고, 상기 색인 데이터를 이용하여 상기 수신된 검색 키워드와 연계된 문서 집합을 획득하고, 상기 획득된 문서 집합에 관한 정보를 상기 단말 장치에 제공하는 검색 인터페이스
    를 포함하는 시스템.
  13. 제12항에 있어서,
    상기 문서 변환부는 상기 웹 문서가 상기 획득된 제2 언어 데이터 중 적어도 일부를 포함하도록 변환하고, 상기 변환된 웹 문서를 저장하는 것을 특징으로 하는 시스템.
  14. 삭제
  15. 삭제
  16. 삭제
  17. 제12항에 있어서,
    상기 검색 인터페이스는 상기 제공된 문서 집합 중 상기 단말 장치에 의해 선택된 문서를 상기 단말 장치에 제공하는 것을 특징으로 하는 시스템.
  18. 제17항에 있어서,
    상기 단말 장치에 의해 선택된 문서는 상기 제1 언어 데이터 중 적어도 일부를 포함하고,
    상기 검색 인터페이스는 상기 선택된 문서에 포함된 제1 언어 데이터를 상기 제1 언어 데이터에 대응하는 상기 제2 언어 데이터로 번역하여 제공하는 것을 특징으로 하는 시스템.
  19. 제12항에 있어서,
    상기 문서 변환부는 상기 제1 언어 데이터 중 특정 품사에 대하여 선택적으로 번역하여 상기 제2 언어 데이터를 획득하는 것을 특징으로 하는 시스템.
  20. 제19항에 있어서,
    상기 특정 품사는 명사인 것을 특징으로 하는 시스템.
  21. 제12항에 있어서,
    상기 문서 변환부는 상기 웹 문서 중 특정 영역에 포함된 제1 언어 데이터에 대하여 선택적으로 번역하여 상기 제2 언어 데이터를 획득하는 것을 특징으로 하는 시스템.
  22. 제21항에 있어서,
    상기 특정 영역은 제목 영역 및 링크 태그 영역 중 적어도 하나인 것을 특징으로 하는 시스템.
  23. 제1항 내지 제2항, 및 제6항 내지 제11항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
KR1020080103894A 2008-10-22 2008-10-22 검색 서비스를 위해 데이터를 생성하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 KR101117171B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080103894A KR101117171B1 (ko) 2008-10-22 2008-10-22 검색 서비스를 위해 데이터를 생성하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080103894A KR101117171B1 (ko) 2008-10-22 2008-10-22 검색 서비스를 위해 데이터를 생성하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체

Publications (2)

Publication Number Publication Date
KR20100044670A KR20100044670A (ko) 2010-04-30
KR101117171B1 true KR101117171B1 (ko) 2012-03-07

Family

ID=42219338

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080103894A KR101117171B1 (ko) 2008-10-22 2008-10-22 검색 서비스를 위해 데이터를 생성하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체

Country Status (1)

Country Link
KR (1) KR101117171B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102021057B1 (ko) * 2017-10-19 2019-09-11 배재대학교 산학협력단 문서 내 문단 추출 장치 및 방법
KR102190316B1 (ko) * 2018-11-26 2020-12-14 (주)유엠로직스 브라우저 모사를 이용한 딥웹 분석 시스템 및 그 분석 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362007A (ja) 2003-06-02 2004-12-24 Ricoh Co Ltd 文書登録装置、文書検索装置、プログラム及び記憶媒体
JP2006146627A (ja) * 2004-11-22 2006-06-08 Hitachi Omron Terminal Solutions Corp 文書情報検索システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362007A (ja) 2003-06-02 2004-12-24 Ricoh Co Ltd 文書登録装置、文書検索装置、プログラム及び記憶媒体
JP2006146627A (ja) * 2004-11-22 2006-06-08 Hitachi Omron Terminal Solutions Corp 文書情報検索システム

Also Published As

Publication number Publication date
KR20100044670A (ko) 2010-04-30

Similar Documents

Publication Publication Date Title
JP5065584B2 (ja) テキストマイニングおよび検索のためのアプリケーションプログラミングインターフェース
US6981217B1 (en) System and method of obfuscating data
US7788253B2 (en) Global anchor text processing
US6654754B1 (en) System and method of dynamically generating an electronic document based upon data analysis
KR100461019B1 (ko) 소형 화면 단말기를 위한 웹 컨텐츠 변환 시스템 및 방법
JP5437557B2 (ja) 検索処理方法及び検索システム
US20060167928A1 (en) Method for querying XML documents using a weighted navigational index
US7062707B1 (en) System and method of providing multiple items of index information for a single data object
CN100462969C (zh) 利用互联网为公众提供和查询信息的方法
US8631097B1 (en) Methods and systems for finding a mobile and non-mobile page pair
KR20080024712A (ko) 사용자의 검색 히스토리를 이용한 모바일 정보 검색 방법,분류 방법 및 정보 검색 시스템
US7783643B2 (en) Direct navigation for information retrieval
US20150205871A1 (en) Using historical information to improve search across heterogeneous indices
Wu et al. Searching services" on the web": A public web services discovery approach
US10558631B2 (en) Enhancing textual searches with executables
KR20090130364A (ko) 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그 결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR101117171B1 (ko) 검색 서비스를 위해 데이터를 생성하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
US20090234824A1 (en) Browser Use of Directory Listing for Predictive Type-Ahead
CN104778232A (zh) 一种基于长查询的搜索结果的优化方法和装置
KR100940365B1 (ko) 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법,장치 및 컴퓨터 판독 가능한 기록 매체
CN111090668A (zh) 数据检索方法及装置、电子设备和计算机可读存储介质
JP3898016B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
KR20120119885A (ko) 사용자의 검색 히스토리를 이용한 컨텐츠 분류 방법 및 시스템
US20110022591A1 (en) Pre-computed ranking using proximity terms
JP5903370B2 (ja) 情報検索装置、情報検索方法、及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151223

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170117

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180102

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190102

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 9