KR100926942B1 - 바이그램을 이용한 검색 방법 - Google Patents

바이그램을 이용한 검색 방법 Download PDF

Info

Publication number
KR100926942B1
KR100926942B1 KR1020080003127A KR20080003127A KR100926942B1 KR 100926942 B1 KR100926942 B1 KR 100926942B1 KR 1020080003127 A KR1020080003127 A KR 1020080003127A KR 20080003127 A KR20080003127 A KR 20080003127A KR 100926942 B1 KR100926942 B1 KR 100926942B1
Authority
KR
South Korea
Prior art keywords
search
data
indexing
algorithm
word
Prior art date
Application number
KR1020080003127A
Other languages
English (en)
Other versions
KR20090077279A (ko
Inventor
김현성
나동열
조기정
Original Assignee
주식회사 어니언텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 어니언텍 filed Critical 주식회사 어니언텍
Priority to KR1020080003127A priority Critical patent/KR100926942B1/ko
Publication of KR20090077279A publication Critical patent/KR20090077279A/ko
Application granted granted Critical
Publication of KR100926942B1 publication Critical patent/KR100926942B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 바이그램을 이용한 검색 방법에 관한 것으로서, 본 발명은 바이그램(Bigram)을 이용하여 원본 데이터를 인덱싱 데이터로 변환한 인덱싱 데이터베이스를 구축하는 단계, 검색어가 입력되면 상기 인덱싱 데이터베이스를 기반으로 한 검색 알고리즘을 적용하여 검색을 수행하는 단계, 검색 결과를 출력하는 단계를 포함한다. 본 발명에 의하면 바이그램을 이용하여 원본 데이터를 인덱싱 데이터로 변환하고, 이 인덱싱 데이터에서 검색을 수행하는 알고리즘을 제공함으로써, 검색 속도를 향상시키고, 보다 효율적인 검색이 이루어지도록 하는 효과가 있다.
검색, 네비게이션, 바이그램, 색인, 인덱싱, 알고리즘, 데이터, 명칭.

Description

바이그램을 이용한 검색 방법 {Method for seaching word using bigram}
본 발명은 바이그램을 이용한 검색 방법에 관한 것으로서, 더욱 상세하게는 차량의 네비게이터나 PC 등에서 검색시에 바이그램을 이용하여 용이하고 신속하게 검색이 이루어지도록 하는 검색 방법에 관한 것이다.
최근 들어 대부분의 문서를 컴퓨터로 작성하고 통신망을 통해 문서를 배포하고 획득함에 따라 효과적으로 문서를 찾는 기술의 중요성이 매우 커지고 있다. 더구나, 인터넷이 보급됨으로써 전문가뿐만 아니라 일반인도 통신망에 접속하여 정보를 제공하거나 획득하는 것이 일반화되고, 이에 따라 인터넷으로 접근할 수 있는 정보의 양이 기하급수적으로 증가하고 있다. 따라서, 역사상 유래 없는 거대한 정보창고이자 정보획득 인프라인 인터넷에서 검색엔진이 가장 성공적인 응용 프로그램으로 자리 매김하고 있다.
초기 인터넷 검색엔진은 웹의 규모가 크지 않았기 때문에 자료를 데이터베이스로 구축할 필요가 없었으며, 야후와 같은 웹 초기의 검색엔진들은 개발과 검색에 편리한 주제 검색 방법을 이용하였다. 그러나, 현재의 인터넷 검색엔진들의 보유 레코드 수가 작게는 100만 개부터 많게는 5천만 개에 이르고 있기 때문에 주제 검색 방식으로 자료를 검색할 경우 여러 단계를 거쳐야만 최종 자료에 접근할 수 있다. 만약, 여러 단계 중에서 한 번이라도 실수하게 되면 다시 상위 주제로 올라가지 않는 한 하위 주제에서 자료를 검색하는 것은 불가능하다. 이와 같이, 지속으로 인터넷의 규모가 커지면서 더 이상 주제 검색만으로는 원활한 검색이 불가능해졌고, 급팽창하는 웹의 규모에 맞게 검색엔진이 보유한 레코드 수도 그만큼 증가해야 하는데 예전과 같이 사람의 수작업에 의해 하나의 홈페이지를 확인하고 이를 하나의 레코드로 추가시키는 방식은 급격한 웹의 성장을 따라 갈 수 없으며, 이러한 수작업에 의해 수십만 개의 홈페이지를 색인하여 데이터베이스를 구축하더라도 이를 사용자가 메뉴 방식으로 검색하기 위해서는 많은 시간과 노력을 기울여야 한다.
이때부터 로봇 에이전트라는 개념이 인터넷에 도입되었으며, 로봇이란 일종의 자동 순회 프로그램으로 기존에 수작업으로 홈페이지를 찾아다니며 색인하던 작업을 자동적으로 검색하고 색인하여 이를 데이터베이스화하는 프로그램을 일컫는다. 이러한 로봇에 의해 만들어진 데이터베이스는 대부분이 색인어 검색이 가능하도록 설계되며 이때부터 인터넷 검색엔진이 주제 검색에서 색인어 검색으로 전환하기 시작했다. 즉, 사용자가 자신이 원하는 정보를 검색하기 위해 해당 검색식을 색인어로 입력하고, 입력한 색인어간의 관계를 이용하여 불리언 질의 방식이나 벡터 질의 방식으로 관련 정보에 접근해간다.
이와 같은 종래 기술에서는 입력된 색인어들간의 관계(즉, 색인어간의 가중치 등)를 고려하여 시스템에 구축되어 있는 색인어들의 인덱스에서 검색하여 해당 되는 정보들을 사용자에게 제공한다. 색인어들간의 관계를 고려하여 원하는 정보에 접근하는 방법은 크게 단위 색인어들의 형태소를 미리 분석하여 저장하고 해당 색인어와 관련된 색인어를 추출하는 방법과 검색 색인어의 바이그램(Bigram) 또는 트라이그램(trigram)의 정보를 이용하여 색인어를 찾아내는 방법 등이 있다. 이를 이용하여 인터넷 이용자들이 원하는 정보를 빠른 시간 내에 획득하기 위해 검색엔진을 개발하기에 이르렀다. 검색엔진은 인터넷 이용자를 대신하여 인터넷을 빠른 속도로 돌아다니면서 이용자의 요구에 맞는 정보를 찾아준다. 즉, 인터넷 이용자는 검색엔진에서 제공하는 색인어 형식에 맞게 자신이 원하는 정보가 무엇인지 알려주고 검색엔진은 해당 정보를 찾아 인터넷 이용자에게 제공한다.
한편 최근에는 텔레매틱스에 관한 기술이 급속히 발전하고 있다. 텔레매틱스는 차량·항공·선박 등 운송장비에 내장된 컴퓨터와 무선통신기술, 위성항법장치, 인터넷에서 문자신호와 음성신호를 바꾸는 기술 등에 의해 정보를 주고받을 수 있는 무선데이터 서비스를 말한다. 특히 자동차 텔레매틱스 서비스는 이동통신기술과 위치추적기술을 자동차에 접목하여 차량사고나 도난감지, 운전경로 안내, 교통 및 생활정보, 게임 등을 운전자에게 실시간으로 제공한다. 이 서비스는 자동차가 주행중에 고장나면 무선통신으로 서비스센터에 고장사항을 전송하고, 운전석 앞의 컴퓨터 모니터를 통해 운전자가 이메일을 받아보거나 도로지도를 볼 수 있도록 한다.
종래 차량의 네비게이션 또는 PC 등에서 검색 수행시에 원본 데이터를 이용한 검색이 이루어졌다. 이러한 검색 방식은 방대한 원본 데이터를 기반으로 검색을 해야하기 때문에 검색 속도가 느리고, 더 나아가서 검색오류가 발생할 가능성이 높 다는 문제점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 바이그램을 이용하여 신속하고 효율적으로 검색을 수행하는 방법을 제공하는데 그 목적이 있다.
이와 같은 목적을 달성하기 위한 본 발명은 바이그램(Bigram)을 이용하여 원본 데이터를 인덱싱 데이터로 변환한 인덱싱 데이터베이스를 구축하는 제1단계, 검색어가 입력되면 상기 인덱싱 데이터베이스를 기반으로 한 검색 알고리즘을 적용하여 검색을 수행하는 제2단계, 검색 결과를 출력하는 제3단계를 포함한다.
상기 제1단계는 바이그램을 이용하여 원본 데이터를 바이그램, 오프셋 정보가 포함된 헤더 부분과, 해당 오프셋 정보에 대응되는 원본 데이터 명칭, 원본 데이터 어드레스 코드, 바이그램 순서 정보가 포함된 데이터 부분을 포함하는 인덱싱 데이터로 변환할 수 있다. 이때, 상기 오프셋 정보는 어드레스 코드, 바이그램이 등장한 빈도수를 나타내는 카운트 정보를 포함하고, 상기 데이터 부분은 어드레스 코드에 대응된다. 상기 카운트 정보가 일정 수치 이하인 경우에는 인덱싱 데이터베이스를 이용하지 않고 바로 원본 데이터를 이용하여 검색을 수행할 수 있다.
본 발명의 일 실시예에서 상기 제2단계는, 검색어가 입력되면 검색어의 글자수를 계산하는 단계와, 계산한 글자수가 짝수이면 검색어를 두 글자씩 끊어서 검색 알고리즘을 적용하여 검색을 수행하는 단계와, 계산한 글자수가 홀수이면 5글자 이상인지 여부를 판단하여 5글자 미만이면 검색어를 대상으로 바이그램 방식으로 어절을 생성하여 검색 알고리즘을 적용하여 검색을 수행하고, 5글자 이상이면 검색어의 앞쪽에서부터 두 글자씩 끊어서 검색 알고리즘을 적용하고 마지막 세글자는 바이그램 방식으로 어절을 생성하여 검색 알고리즘을 적용하여 검색을 수행하는 단계를 포함하여 이루어질 수 있다.
본 발명의 다른 실시예에서 상기 제2단계는, 검색어가 입력되면 중간어 검색이 설정되었는지 판단하는 단계와, 중간어 검색이 설정되지 않았으면 검색어가 맨 앞에 등장하는 데이터를 검색하는 알고리즘인 일반 검색 알고리즘을 적용하여 검색을 수행하는 단계와, 중간어 검색이 설정되었으면 검색어의 위치에 상관없이 검색어를 포함하는 데이터를 검색하는 알고리즘인 중간어 검색 알고리즘을 적용하여 검색을 수행하는 단계를 포함하여 이루어질 수 있다.
상기 일반 검색 알고리즘을 적용하여 검색을 수행하는 단계는 상기 인덱싱 데이터베이스에서 검색어의 첫 두 글자의 바이그램이면서 바이그램 순서가 첫번째인 인덱싱 데이터를 추출하고, 추출된 인덱싱 데이터에 대응하는 원본 데이터를 검색하는 방식으로 이루어질 수 있다.
상기 중간어 검색 알고리즘을 적용하여 검색을 수행하는 단계는 상기 인덱싱 데이터베이스에서 검색어의 바이그램에 해당하는 인덱싱 데이터를 추출하고, 추출된 인덱싱 데이터에 대응하는 원본 데이터를 검색하는 방식으로 이루어질 수 있다.
본 발명에 의하면 바이그램을 이용하여 원본 데이터를 인덱싱 데이터로 변환하고, 이 인덱싱 데이터에서 검색을 수행하는 알고리즘을 제공함으로써, 검색 속도를 향상시키고, 보다 효율적인 검색이 이루어지도록 하는 효과가 있다. 특히, 본 발명은 지명 검색이 많은 차량의 네비게이션에 적용시에 큰 효과를 거둘 것으로 기대된다.
이하, 첨부된 도면을 참조해서 본 발명의 실시예를 상세히 설명하면 다음과 같다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 그리고, 본 발명을 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일 실시예에 따른 바이그램을 이용한 검색 방법을 보여주는 흐름도이다.
바이그램(Bigram)을 이용하여 원본 데이터를 인덱싱 데이터로 변환한 인덱싱 데이터베이스를 구축한다(S100).
검색어가 입력되면(S200), 인덱싱 데이터베이스를 기반으로 한 검색 알고리즘을 적용하여 검색을 수행한다(S300).
검색 결과를 출력한다(S400).
도 4는 본 발명의 일 실시예에 다른 원본 데이터를 보여주는 도면이다. 도 5는 본 발명의 일 실시예에 따른 인덱싱 데이터를 보여주는 도면이다.
도 4에서는 원본 데이터의 어드레스 코드와 명칭 정보가 도시되어 있다. 도 5에는 도 4의 원본 데이터를 바이그램 형식으로 변환한 인덱싱 데이터 정보가 도시되어 있다.
도 5에서 인덱싱 데이터에는 각 바이그램별로 원본 데이터의 어드레스 코드와 바이그램 순서 정보가 등록되어 있다. 예를 들어, 도 5에서 "서울"은 원본 데이터의 20번지 어드레스에 있는 "서울역" 명칭의 1번째 바이그램, 원본 데이터의 100번지 어드레스에 있는 "서울대학교" 명칭의 1번째 바이그램, 원본 데이터의 200번지 어드레스에 있는 "동서울" 명칭의 2번째 바이그램, 원본 데이터의 250번지 어드레스에 있는 "대한서울"의 3번째 바이그램 등으로 정보가 등록되어 있음을 확인할 수 있다. 마찬가지로, 도 5에서 "울대", "대학", "학교" 등의 바이그램에도 원본 데이터의 어드레스 코드와 바이그램 순서 정보가 등록되어 있다.
도 1에서 S100 단계에서는 도 4에 도시된 바와 같은 원본 데이터를 바이그램을 이용하여 도 5에 도시된 바와 같은 인덱싱 데이터로 변환하게 된다. 인덱싱 데이터에 대한 상세한 설명은 후술하기로 한다.
본 발명에서 인덱싱 데이터는 바이그램, 오프셋(offset) 정보를 포함하는 헤더 부분과 나머지 정보를 포함하는 데이터 부분으로 구분할 수 있다. 이러한 인덱 싱 데이터에 대하여 도면을 참조하여 설명하면 다음과 같다.
도 6은 본 발명의 일 실시예에 따른 인덱싱 데이터의 헤더 부분을 보여주는 도면이고, 도 7은 본 발명의 일 실시예에 따른 인덱싱 데이터의 데이터 부분을 보여주는 도면이다.
도 6에서 인덱싱 데이터의 헤더(header) 부분은 바이그램(100), 어드레스 코드(200), 카운트(300)로 구성되어 있다.
도 6에서 카운트(300)는 바이그램이 등장한 빈도수를 나타낸다. 예를 들어, 도 5에서 "서울"은 빈도수가 5회이고, "울대"는 빈도수가 3회이고, "대학"은 빈도수가 2회로 표시된다.
본 발명의 일 실시예에서 카운트 정보가 일정 수치 이하인 경우에는 인덱싱 데이터베이스를 이용하지 않고 바로 원본 데이터를 이용하여 검색을 수행할 수 있다. 예를 들어, 도 5에서 "학교" 바이그램의 경우 빈도수가 1회이다. 이러한 경우에는 인덱싱 데이터베이스를 거치는 것보다 바로 원본 데이터를 이용하여 검색을 수행하는 것이 더 효율적이기 때문에 바로 원본 데이터를 이용하여 검색을 수행하는 것이다. 이렇게 특수한 경우에는 도 6의 헤더에서 특수한 표시로 빈도수를 표시할 수 있다. 예를 들어, 도 5에서 "학교"의 경우 빈도수가 1회이고, 바이그램 순서가 4이므로 빈도수를 "-4"로 표시할 수 있다. 이때, "-"는 빈도수가 1회임을 나타내고, 4는 바이그램 순서를 나타내며, 이렇게 빈도수가 표시된 경우에는 인덱싱 데이터베이스를 거치지 않고 바로 해당하는 원본 데이터를 찾아서 검색을 수행하게 된다.
도 7에서 인덱싱 데이터의 데이터 부분은 원본 데이터 명칭(400), 원본 데이터 어드레스 코드(500), 바이그램 순서(600)를 포함하여 이루어진다.
바이그램 순서(600)는 소정 명칭을 바이그램 어절로 구분했을 때의 순서를 나타낸다. 예를 들어, "서울대학교"라는 명칭은 "서울", "울대", "대학", 학교"의 4개의 바이그램이 있고, 이 중에서 "대학"의 바이그램 순서는 세번째가 된다. 도 5의 실시예에서 "대학" 바이그램은 원본 어드레스 코드가 "100"번지에 3번째 바이그램으로 등록되어 있음을 알 수 있다.
본 발명에서는 헤더에 포함된 어드레스 코드(200)를 이용하여 해당 데이터 부분을 찾을 수 있고, 데이터 부분에 포함된 원본 데이터 어드레스 코드(500)로부터 원본 데이터의 어드레스 주소를 알아내어 해당 원본 데이터를 검색할 수 있게 된다.
도 2는 본 발명의 일 실시예에 따른 바이그램을 이용한 검색 방법을 보여주는 흐름도이다.
바이그램을 이용하여 원본 데이터를 인덱싱 데이터로 변환한 인덱싱 데이터베이스를 구축한다(S100).
검색어가 입력되면(S200) 검색어의 글자수를 계산한다(S301).
계산한 글자수가 짝수인지 여부를 판단한다(S303).
계산한 글자수가 짝수이면 검색어를 두 글자씩 끊어서 검색 알고리즘을 적용하여 검색을 수행한다(S305). 예를 들어, 검색어가 "서울대학"이면 "서울", "대학" 으로 두 글자씩 끊어서 검색을 수행한다는 것이다.
계산한 글자수가 홀수이면 5글자 이상인지 여부를 판단한다(S307). 계산한 글자수가 5글자 미만이면 검색어를 대상으로 바이그램 방식으로 어절을 생성하여 검색 알고리즘을 적용하여 검색을 수행한다(S309). 즉, 3글자인 경우는 바이그램 방식으로 어절을 생성하게 된다. 예를 들어, 검색어가 "서울대"이면 "서울", "울대"라는 어절을 생성하여 검색을 수행하게 된다.
계산한 글자수가 5글자 이상이면 검색어의 앞쪽에서부터 두 글자씩 끊어서 검색 알고리즘을 적용하고 마지막 세글자는 바이그램 방식으로 어절을 생성하여 검색 알고리즘을 적용하여 검색을 수행한다(S311). 예를 들어, 검색어가 "서울대학교"이면, 일단 앞의 두 글자인 "서울"을 끊고, 나머지 세글자는 바이그램 방식으로 "대학", "학교"라는 어절을 생성하여 검색을 수행하게 된다.
다음, 검색 결과를 출력한다(S400).
도 3은 본 발명의 다른 실시예에 따른 바이그램을 이용한 검색 방법을 보여주는 흐름도이다.
바이그램을 이용하여 원본 데이터를 인덱싱 데이터로 변환한 인덱싱 데이터베이스를 구축한다(S100).
검색어가 입력되면(S200), 중간어 검색이 설정되었는지 판단한다(S321). 보통 차량의 네비게이션에는 중간어 검색을 설정할 수 있는 화면을 제공하게 되는데, 이러한 경우 사용자의 선택에 의해 중간어 검색 여부를 설정할 수 있는 것이다.
중간어 검색이 설정되지 않았으면 검색어가 맨 앞에 등장하는 데이터를 검색하는 알고리즘인 일반 검색 알고리즘을 적용하여 검색을 수행한다(S323). 예를 들어, 검색어가 "서울"인 경우에 일반 검색 알고리즘을 적용하게 되면, 검색결과는 "서울역, 서울대학교, 서울산업..." 등의 검색어가 맨 앞에 등장하는 데이터가 검색된다.
중간어 검색이 설정되었으면 검색어의 위치에 상관없이 검색어를 포함하는 데이터를 검색하는 알고리즘인 중간어 검색 알고리즘을 적용하여 검색을 수행한다(S325). 예를 들어, 검색어가 "서울"인 경우에 중간어 검색 알고리즘을 적용하게 되면, 검색결과는 "서울역, 서울대학교, 동서울터미널, 서울산업, 남서울대..." 등의 검색어의 위치에 상관없이 검색어를 포함하는 데이터가 검색된다.
다음, 검색 결과를 출력한다(S400).
본 발명의 일 실시예에서 S323 단계는 인덱싱 데이터베이스에서 검색어의 첫 두 글자의 바이그램이면서 바이그램 순서가 첫번째인 인덱싱 데이터를 추출하고, 추출된 인덱싱 데이터에 대응하는 원본 데이터를 검색하는 방식으로 이루어질 수 있다. 예를 들어, 검색어가 "서울"인 경우에 도 5에서 "서울" 바이그램 중에서 순서가 1인 인덱싱 데이터를 추출하고, 도 4에서 추출된 인덱싱 데이터에 대응하는 원본 데이터를 검색하면 "서울역, 서울대학교.." 등이 검색결과로 출력된다.
본 발명의 일 실시예에서 S325 단계는 인덱싱 데이터베이스에서 검색어의 바이그램에 해당하는 인덱싱 데이터를 추출하고, 추출된 인덱싱 데이터에 대응하는 원본 데이터를 검색하는 방식으로 이루어질 수 있다. 예를 들어, 검색어가 "서울" 인 경우에 도 5에서 "서울" 바이그램에 해당하는 인덱싱 데이터를 모두 추출하고, 도 4에서 추출된 인덱싱 데이터에 대응하는 원본 데이터를 검색하면 "서울역, 서울대학교, 동서울, 대한서울, 서울울대학..." 등이 검색결과로 출력된다.
이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.
도 1 내지 도 3은 본 발명의 일 실시예에 따른 바이그램을 이용한 검색 방법을 보여주는 흐름도이다.
도 4는 본 발명의 일 실시예에 다른 원본 데이터를 보여주는 도면이다.
도 5는 본 발명의 일 실시예에 따른 인덱싱 데이터를 보여주는 도면이다.
도 6은 본 발명의 일 실시예에 따른 인덱싱 데이터의 헤더 부분을 보여주는 도면이다.
도 7은 본 발명의 일 실시예에 따른 인덱싱 데이터의 데이터 부분을 보여주는 도면이다.
*도면의 주요 부분에 대한 부호의 설명*
100 바이그램 200 어드레스 코드
300 카운트 400 명칭
500 원본 데이터 어드레스 코드 600 바이그램 순서

Claims (8)

  1. 삭제
  2. 바이그램(Bigram)을 이용하여 원본 데이터를 인덱싱 데이터로 변환한 인덱싱 데이터베이스를 구축하는 제1단계;
    검색어가 입력되면 상기 인덱싱 데이터베이스를 기반으로 한 검색 알고리즘을 적용하여 검색을 수행하는 제2단계;
    검색 결과를 출력하는 제3단계
    를 포함하고, 상기 제1단계는 바이그램을 이용하여 원본 데이터를 바이그램, 오프셋 정보가 포함된 헤더 부분과, 해당 오프셋 정보에 대응되는 원본 데이터 명칭, 원본 데이터 어드레스 코드, 바이그램 순서 정보가 포함된 데이터 부분을 포함하는 인덱싱 데이터로 변환하는 것을 특징으로 하는 바이그램을 이용한 검색 방법.
  3. 제2항에 있어서,
    상기 오프셋 정보는 어드레스 코드, 바이그램이 등장한 빈도수를 나타내는 카운트 정보를 포함하고, 상기 데이터 부분은 어드레스 코드에 대응되는 것임을 특징으로 하는 바이그램을 이용한 검색 방법.
  4. 제3항에 있어서,
    상기 카운트 정보가 일정 수치 이하인 경우에는 인덱싱 데이터베이스를 이용하지 않고 바로 원본 데이터를 이용하여 검색을 수행하는 것을 특징으로 하는 바이그램을 이용한 검색 방법.
  5. 제2항 내지 제4항 중 어느 한 항에 있어서,
    상기 제2단계는,
    검색어가 입력되면 검색어의 글자수를 계산하는 단계와,
    계산한 글자수가 짝수이면 검색어를 두 글자씩 끊어서 검색 알고리즘을 적용하여 검색을 수행하는 단계와,
    계산한 글자수가 홀수이면 5글자 이상인지 여부를 판단하여 5글자 미만이면 검색어를 대상으로 바이그램 방식으로 어절을 생성하여 검색 알고리즘을 적용하여 검색을 수행하고, 5글자 이상이면 검색어의 앞쪽에서부터 두 글자씩 끊어서 검색 알고리즘을 적용하고 마지막 세글자는 바이그램 방식으로 어절을 생성하여 검색 알고리즘을 적용하여 검색을 수행하는 단계
    를 포함하여 이루어지는 것을 특징으로 하는 바이그램을 이용한 검색 방법.
  6. 제2항 내지 제4항 중 어느 한 항에 있어서,
    상기 제2단계는,
    검색어가 입력되면 중간어 검색이 설정되었는지 판단하는 단계와,
    중간어 검색이 설정되지 않았으면 검색어가 맨 앞에 등장하는 데이터를 검색하는 알고리즘인 일반 검색 알고리즘을 적용하여 검색을 수행하는 단계와,
    중간어 검색이 설정되었으면 검색어의 위치에 상관없이 검색어를 포함하는 데이터를 검색하는 알고리즘인 중간어 검색 알고리즘을 적용하여 검색을 수행하는 단계
    를 포함하여 이루어지는 것을 특징으로 하는 바이그램을 이용한 검색 방법.
  7. 제6항에 있어서,
    상기 일반 검색 알고리즘을 적용하여 검색을 수행하는 단계는 상기 인덱싱 데이터베이스에서 검색어의 첫 두 글자의 바이그램이면서 바이그램 순서가 첫번째인 인덱싱 데이터를 추출하고, 추출된 인덱싱 데이터에 대응하는 원본 데이터를 검색하는 방식으로 이루어지는 것을 특징으로 하는 바이그램을 이용한 검색 방법.
  8. 제6항에 있어서,
    상기 중간어 검색 알고리즘을 적용하여 검색을 수행하는 단계는 상기 인덱싱 데이터베이스에서 검색어의 바이그램에 해당하는 인덱싱 데이터를 추출하고, 추출된 인덱싱 데이터에 대응하는 원본 데이터를 검색하는 방식으로 이루어지는 것을 특징으로 하는 바이그램을 이용한 검색 방법.
KR1020080003127A 2008-01-10 2008-01-10 바이그램을 이용한 검색 방법 KR100926942B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080003127A KR100926942B1 (ko) 2008-01-10 2008-01-10 바이그램을 이용한 검색 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080003127A KR100926942B1 (ko) 2008-01-10 2008-01-10 바이그램을 이용한 검색 방법

Publications (2)

Publication Number Publication Date
KR20090077279A KR20090077279A (ko) 2009-07-15
KR100926942B1 true KR100926942B1 (ko) 2009-11-17

Family

ID=41335793

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080003127A KR100926942B1 (ko) 2008-01-10 2008-01-10 바이그램을 이용한 검색 방법

Country Status (1)

Country Link
KR (1) KR100926942B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070024105A (ko) * 2005-08-26 2007-03-02 한국과학기술원 2단계 n-gram 역색인 구조 및 그 구성 방법과 질의처리 방법 및 그 색인 도출 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070024105A (ko) * 2005-08-26 2007-03-02 한국과학기술원 2단계 n-gram 역색인 구조 및 그 구성 방법과 질의처리 방법 및 그 색인 도출 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
제5회 한국 과학기술 정보인프라 워크샵 학술발표 논문집
한국정보과학회언어공학연구회 2003*

Also Published As

Publication number Publication date
KR20090077279A (ko) 2009-07-15

Similar Documents

Publication Publication Date Title
US6954764B2 (en) Region modeling of mobile services
JP2016053986A (ja) 時間および場所によるピボット検索結果
JP5390840B2 (ja) 情報分析装置
US20090132646A1 (en) User interface and method in a local search system with static location markers
JP4950508B2 (ja) 施設情報管理システム、施設情報管理装置、施設情報管理方法および施設情報管理プログラム
JP5291751B2 (ja) 曖昧な場所に基づくルーティング情報提供
JP5079673B2 (ja) 地点関連情報提供装置、地点関連情報提供方法およびプログラム
CN110795515B (zh) 兴趣点poi的处理方法、装置、电子设备及计算机存储介质
CA2709116A1 (en) Method and system for enabling location entry
CN102012930A (zh) 一种扩充和更新地图的方法及电子辞典
Almendros-Jiménez et al. Integrating and querying OpenStreetMap and linked geo open data
Shi et al. Extraction of geospatial information on the Web for GIS applications
JP7328198B2 (ja) ナビゲーションに用いられる方法、装置、デバイス及び媒体
Shi et al. Thematic data extraction from Web for GIS and applications
WO2000011572A1 (fr) Dispositif d'extraction de donnees objet, procede d'extraction correspondant, et support d'enregistrement lisible par un ordinateur comportant des donnees enregistrees
JP7028194B2 (ja) 推論用知識生成装置、推論用知識生成方法、及びプログラム
KR100926942B1 (ko) 바이그램을 이용한 검색 방법
US8682577B2 (en) Map information processing apparatus, navigation system, and program
JP7142074B2 (ja) ナビゲーションに用いられる方法、装置、デバイス、及びコンピュータが読み取り可能な記憶媒体
Pombinho et al. Context aware point of interest adaptive recommendation
CN111797183A (zh) 挖掘信息点的道路属性的方法、装置及电子设备
KR20000064069A (ko) 관계형 검색 시스템 및 검색결과의 표현방법
Setiawan et al. Data traffic synchronization application in electronic map
JP3626897B2 (ja) ホームページの系列的検索方法及び装置、記録媒体
JP2005339101A (ja) 地点情報検索サーバおよび移動端末

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121109

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20131104

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20141107

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee