KR19980020385A - 점수를 이용한 유사 단어 검색 방법 - Google Patents

점수를 이용한 유사 단어 검색 방법 Download PDF

Info

Publication number
KR19980020385A
KR19980020385A KR1019960038862A KR19960038862A KR19980020385A KR 19980020385 A KR19980020385 A KR 19980020385A KR 1019960038862 A KR1019960038862 A KR 1019960038862A KR 19960038862 A KR19960038862 A KR 19960038862A KR 19980020385 A KR19980020385 A KR 19980020385A
Authority
KR
South Korea
Prior art keywords
score
database
present
search
input key
Prior art date
Application number
KR1019960038862A
Other languages
English (en)
Inventor
박용규
전효섭
이영훈
Original Assignee
이준
한국전기통신공사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이준, 한국전기통신공사 filed Critical 이준
Priority to KR1019960038862A priority Critical patent/KR19980020385A/ko
Priority to JP9244280A priority patent/JPH10105578A/ja
Publication of KR19980020385A publication Critical patent/KR19980020385A/ko

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 유사단어 검색 방법에 관한 것으로, 특히 데이타베이스에 점수를 부여하여 입력키에 대한 데이타베이스내의 데이타의 점수의 고저에 의해 정보를 검색하기 위한 점수를 이용한 유사단어 검색 방법에 관한 것이다.
본 발명은 사용자가 검색하고자 하는 대상의 정확한 명칭을 모르는 경우에 알고 있는 정보만으로도 필요한 정보에 접근이 가능한 알고리즘을 제공하고자 한다.
상기와 같은 목적을 수행하기 위해 본 발명은 데이타베이스의 구축시 데이타의 스펠단위 또는 음절 단위로 점수를 부여하여 가장 높은 점수를 취득한 데이타 순으로 디스플레이하여 정확한 입력키를 검색할 수 있게 하는 것을 특징으로 한다.

Description

점수를 이용한 유사 단어 검색 방법
제1도는 본 발명에 따른 유사 단어 검색 방법을 실현하기 위한 장치의 블럭도,
제2도는 본 발명에 따른 3개 문자의 검색 알고리즘 상태의 흐름도,
제3도는 본 발명에 따른 한글 8개 문자(한국전기통신공사)의 검색 알고리즘의 상태 흐름도,
제4도는 제3도의 상태 흐름도에 따른 “한국통신”의 검색 점수 산출표를 나타낸 도면,
제5도는 본 발명에 따른 영문 5개 문자(KOREA)의 검색 알고리즘의 상태 흐름도,
제6도는 본 발명에 따른 영문 “Internatopnal Business Machine”의 검색 알고리즘의 상태 흐름도이다.
*도면의 주요 부분에 대한 부호의 설명*
10:입력부11:계산부
12:출력부13:저장부
본 발명은 유사단어 검색 방법에 관한 것으로, 특히 데이타베이스에 점수를 부여하여 입력키에 대한 데이타베이스내의 데이타의 점수의 고저에 의해 정보를 검색하기 위한 점수를 이용한 유사단어 검색 방법에 관한 것이다.
현재 전세계적으로 정보의 중요성이 인식됨에 따라 거의 모든 정보가 데이타베이스화되어 있으며, 정보 사용자는 이들 데이타베이스에 접근하여 필요한 정보를 추출하고 있다. 그리고 이들 데이타베이스에 저장된 다양한 정보를 효율적으로 추출하기 위해서는 여러가지 알고리즘이 사용되고 있다.
종래의 정보 데이타베이스 검색절차는 트리(Tree)구조를 기본으로 채택하고 있었다. 이 방법은 여러 단계를 거쳐야 사용자가 원하는 정보에 접근이 가능하므로 정보접근에 많은 시간이 소요되며, 트리상에서 사용자가 원하는 정보의 위치를 정확히 알 수 없어 정보접근에 여러가지 불편함이 있다. 따라서, 이를 보완하기 위하여 “go KBS”와 같은 점프(Jump) 기능을 부가하므로써 빠르게 필요한 정보에 접근할 수 있으나 이 방법은 사용자가 착신지의 명칭을 정확히 알고 있어야 하는 문제점을 가지고 있다. 즉, 전화번호 안내 서비스에서 사용자는 찾고자 하는 사람 이름을 정확히 알고 있어야 사용자가 원하는 전화번호를 찾을 수 있으나 다음과 같이 잘못 알고 있는 경우는 매우 많다(“김재동 → 김제동”). 특히, 외국의 경우 사람의 이름을 정확히 알기 어려운 상황이다.
따라서, 본 발명은 사용자가 검색하고자 하는 대상의 정확한 명칭을 모르는 경우에 알고 있는 정보만으로도 필요한 정보에 접근이 가능한 알고리즘을 제공하고자 한다.
상기와 같은 목적을 수행하기 위해 본 발명은 데이타베이스의 구축시 데이타의 스펠단위 또는 음절 단위로 점수를 부여하여 가장 높은 점수를 취득한 데이타 순으로 디스플레이하여 정확한 입력키를 검색할 수 있게 하는 것을 특징으로 한다.
상술한 목적 및 기타의 목적과 특징, 장점은 첨부된 도면과 관련하여 다음의 상세한 설명을 통하여 보다 분명해질 것이다. 이하 도면을 참조하여 본 발명의 실시예를 상세히 설명하기로 한다.
본 발명은 정보 검색에서 입력키를 사용하여 발생할 수 있는 잘못된 입력과 동일한 물체나 대상의 약자를 여러가지로 사용하므로써 발생되는 입력키의 문제점을 해결하고자 제안된 방법이다.
예를 들면 “한국전기통신공사”의 경우 “한통”, “한국통신공사”, “한국전기통신” 등으로 동일한 대상을 약칭 또는 여러 호칭으로 부를 수 있으며, “한국전기통신공사”를 잘못 입력하여 “한국전자통신공사”로 입력할 수 있으나 본 발명에 의하면 이들 사용자 입력을 이용하여 정확한 입력키인 “한국전기통신공사”를 찾을 수 있게 한다.
제1도는 본 발명에 따른 유사 단어 검색 방법을 수행하기 위한 장치의 블럭도이다.
제1도에 따른 장치의 동작을 보면, 키보드 등의 입력 장치에 의하여 데이타가 입력부(10)로 입력된 후, 계산부(11)에서 입력 데이타의 비교 대상 단어에 대해 매칭을 수행하여 점수를 계산하고, 가장 높은 순서대로 소팅을 하여 출력부(12)에서 디스플레이한다. 계산부(11)에서 사용되고 비교 대상 단어는 저장부(13)에서 가져오게 되는데, 저장부(13)에서는 데이타베이스내의 데이타가 중요도에 따라 미리 점수가 부여되어 저장된다. 데이타베이스는 영어와 같은 스펠로 구성된 언어에서 스펠단위로, 한글과 같이 음소(ㄱ, ㄴ, ㅏ, ㅗ…) 또는 음절(가, 나, 다) 단위로 구성된 언어에서는 음절단위로 중요도에 따라 점수를 부여하여 각각의 데이타베이스를 구축한다.
제2도에서는 본 발명에 따른 실시예 중의 하나를 나타내고 있다. 제2도는 구축되어 있는 데이타베이스가 3개 상태인 경우 점수를 산출하기 위한 검색 알고리즘 상태 흐름도를 나타낸 것으로 데이타베이스 구축시 각 상태(S1,S2,S3)별로 점수를 부여한다. 이 때, 각 상태의 점수는 상태의 중요도에 따라 각각 달리 부여가 가능하다. 이러한 상황에서, 이 입력키에 대한 점수는 제2도와 같이 좌측에서 우측으로 입력키와 데이타 베이스의 상태를 비교하여 입력키와 다른 경우에는 상태를 스킵(skip)하고 같은 경우에는 점수를 합산하여 최종적으로 나온 여러 점수 중 가장 높은 점수를 얻는 것부터 순서대로 나열된다.
제3도에 데이타베이스에 “한국전기통신공사”가 구축되어 있는 경우 점수를 산출하기 위한 검색 알고리즘 상태 흐름도를 나타낸 것이며, 제4도는 입력키로 “한국통신”을 사용할 경우 이 데이타베이스에 대한 점수 계산방법을 나타내고 있다. 즉, “한국전기통신공사”라는 데이타베이스 구축시 “한”에 10점, “국”에 5점, “전”에 3점, “기”에 2점, “통”에 10점. “신”에 5점, “공”에 7점, “사”에 1점을 부여한 경우 입력키 “한국통신”은 30점을 얻고 있다. 따라서 다른 모든 데이타베이스와 비교하여 이 점수가 가장 높은 경우 입력키 “한국통신”의 정확한 명칭은 “한국전기통신공사”일 가능성이 가장 높다고 판단할 수 있다.
또한 입력키가 “한국전자통신공사”와 같이 잘못 입력된 경우와 “한국공사”와 같은 사용자가 알고 있는 정보만을 이용할 경우에도 정확한 입력키를 찾을 수 있는 확률이 매우 크다.
제4도는 “한국통신”의 입력키와 저장부(13)의 비교 대상 데이타 “한국전기통신공사”와의 매칭 점수를 산출하는 표를 나타낸다. “한”은 S1과 매칭하여 10점, “국”은 S2와 매칭하여 5점, “통”은 S5와 매칭하여 10점, “신”은 S6와 매칭하여 5점을 얻어 “한국전기통신공사”는 총 30점의 점수를 얻는다.
제5도는 본 발명에 따른 또 다른 실시예로서, 영문 “KOREA”라는 단어를 검색하고자 할 경우의 검색 알고리즘의 상태 흐름도이다. 영문의 경우에는 영문 알파벳 단위로 점수를 부여하여 데이타베이스를 구축한다. 검색자가 입력키를 “COREA”라고 잘못 입력한 경우에도 “KOREA”란 데이타가 40점을 얻어 정확한 입력키로서 디스플레이될 확률이 높다.
제6도는 본 발명에 따른 또 하나의 실시예로서, 영문 “International Business Machine”을 검색하고자 하는 경우이다. 일반적으로 상기 영문은 ‘IBM’으로 더욱 널리 알려져 있으며 그 정확한 명칭을 아는 자는 그리 많지 않을 것이다. 이 경우에도 본 발명의 점수를 이용한 유사 단어 검색 방법에 의하면, 입력키로서 “IBM”을 선택한 경우에도 제6도에 도시한 바와 같이 “International Business Machine”을 데이타베이스로 구축할 시 “I”, “B”, “M”같은 중요한 알파벳에는 각각 10점씩을 부여하고 나머지에는 그 보다 상당히 작은 1점씩을 부여하므로써 검색하고자 하는 대상의 정확한 명칭을 모르는 경우에도 그 약칭만을 이용하여 정확한 입력키를 찾을 수 있다.
본 발명에 의한 점수를 이용한 유사 단어 검색 방법은 입력키와 데이타베이스 매칭에 많은 시간이 소요되는 문제점이 있으나, 기술의 급격한 발전으로 인하여 컴퓨터의 성능 또한 급격히 증가하였으므로 이러한 매칭에 따른 속도의 문제는 해결이 가능하다.
상기에서 기술한 바와 같이 본 발명은, 사용자 자신이 알고 있는 정보나 용어만을 이용하여 결과에 접근이 가능하도록 지원하므로 모든 데이타베이스 정보 검색시 입력키를 사용하는 경우(정보 제공 데이타베이스, 전화번호 검색서비스 등), 컴퓨터의 워드 프로세서에 단어(문자군 또는 단어군)의 오류를 정정(맞춤법)하는 경우 등 정보통신산업분야에 활용이 가능하다.
본 발명의 바람직한 실시예는 예시의 목적을 개시된 것이며, 당업자라면 본 발명의 사상과 범위안에서, 다양한 수정, 변경, 부가 등이 가능할 것이며 이러한 수정 변경 등은 이하의 특허 청구의 범위에 속하는 것으로 보아야 할 것이다.

Claims (1)

  1. 입력 장치를 이용하여 검색하고자 하는 입력키를 입력하는 단계;
    입력키와 저장부에 저장된 비교 대상 단어를 매칭시키고 비교 대상 단어의 점수를 계산하는 단계;
    상기에서 계산된 비교 대상 단어를 점수 순위별로 소팅하는 단계;
    소팅된 단어를 점수 순위별로 디스플레이 하는 단계로 이루어짐을 특징으로 하는 점수를 이용한 유사 단어 검색 방법.
KR1019960038862A 1996-09-09 1996-09-09 점수를 이용한 유사 단어 검색 방법 KR19980020385A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1019960038862A KR19980020385A (ko) 1996-09-09 1996-09-09 점수를 이용한 유사 단어 검색 방법
JP9244280A JPH10105578A (ja) 1996-09-09 1997-09-09 点数を利用した類似単語検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960038862A KR19980020385A (ko) 1996-09-09 1996-09-09 점수를 이용한 유사 단어 검색 방법

Publications (1)

Publication Number Publication Date
KR19980020385A true KR19980020385A (ko) 1998-06-25

Family

ID=19473095

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960038862A KR19980020385A (ko) 1996-09-09 1996-09-09 점수를 이용한 유사 단어 검색 방법

Country Status (2)

Country Link
JP (1) JPH10105578A (ko)
KR (1) KR19980020385A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100408965B1 (ko) * 2000-06-26 2003-12-06 주식회사쓰리소프트 검색조건을 추천하는 검색결과 제공방법 및 검색서버

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100819846B1 (ko) * 2005-04-08 2008-04-07 김동암 인터넷 검색결과 정보를 언어고리로 구성하여 제공하는방법
JP5443788B2 (ja) * 2009-03-06 2014-03-19 Sky株式会社 正式名称判定システム及び正式名称判定プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01193928A (ja) * 1988-01-28 1989-08-03 Chugoku Nippon Denki Software Kk 推論機構付き情報検索システム
JP2832988B2 (ja) * 1989-03-07 1998-12-09 ヤマハ株式会社 データ検索システム
JPH06325091A (ja) * 1993-05-13 1994-11-25 Nippon Telegr & Teleph Corp <Ntt> 類似度評価型データベース検索装置
JPH08166966A (ja) * 1994-12-15 1996-06-25 Sony Corp 辞書検索装置、データベース装置、文字認識装置、音声認識装置、および文章修正装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100408965B1 (ko) * 2000-06-26 2003-12-06 주식회사쓰리소프트 검색조건을 추천하는 검색결과 제공방법 및 검색서버

Also Published As

Publication number Publication date
JPH10105578A (ja) 1998-04-24

Similar Documents

Publication Publication Date Title
US7129932B1 (en) Keyboard for interacting on small devices
US10402493B2 (en) System and method for inputting text into electronic devices
US7440889B1 (en) Sentence reconstruction using word ambiguity resolution
US7117144B2 (en) Spell checking for text input via reduced keypad keys
JP3981734B2 (ja) 質問応答システムおよび質問応答処理方法
US8412517B2 (en) Dictionary word and phrase determination
US20050086234A1 (en) Incremental search of keyword strings
CN107704102B (zh) 一种文本输入方法及装置
US20040095327A1 (en) Alphanumeric data input system and method
US20030023426A1 (en) Japanese language entry mechanism for small keypads
US20100121870A1 (en) Methods and systems for processing complex language text, such as japanese text, on a mobile device
CN110262674B (zh) 一种基于拼音输入的汉字输入方法、装置及电子设备
EP1492036A2 (en) Database search system
Ganfure et al. Design and implementation of morphology based spell checker
US7761286B1 (en) Natural language database searching using morphological query term expansion
KR19980020385A (ko) 점수를 이용한 유사 단어 검색 방법
JP4084515B2 (ja) アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体
JPH05113964A (ja) 電子辞書
JP5583230B2 (ja) 情報検索装置及び情報検索方法
JP2002251390A (ja) 単語列入力装置、単語列入力方法、ならびに、プログラム
JP2001051996A (ja) 形態素解析方法及び装置及び形態素解析プログラムを格納した記憶媒体
Lee et al. Text segmentation for Chinese spell checking
JP2010165041A (ja) 正解判定装置、正解判定システム、正解判定方法および正解判定プログラム
JP3241854B2 (ja) 単語スペル自動補正装置
US20030110451A1 (en) Practical chinese classification input method

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application