KR20030003787A

KR20030003787A - 전자잉크데이터의 부분매칭을 이용한 개인정보검색시스템

Info

Publication number: KR20030003787A
Application number: KR1020010039344A
Authority: KR
Inventors: 조미경; 조환규
Original assignee: 조미경; 조환규
Priority date: 2001-07-02
Filing date: 2001-07-02
Publication date: 2003-01-14

Abstract

본 발명은 휴대용 컴퓨터에서 개인정보를 잉크 데이터로 저장해두었다가 사용자가 요구할 때, 대략적인 잉크 매칭을 이용하여 필요한 정보를 검색할 수 있는 전자잉크데이터의 부분매칭을 이용한 개인정보검색시스템에 관한 것이다. 이를 위해서 본 발명은 한글의 특성을 고려하여 생성될 수 있는 기본 획의 종류를 정의한다. 그리고 사용자가 펜으로 입력한 데이터를 기본획으로 분리하기 위해 곡률을 이용한 획분리방법을 이용한다. 그리고 분리된 획을 조사하여 획의 종류를 결정한 다음 교환, 삭제, 삽입, 결합, 분리 등과 같은 편집 연산을 이용하여 전자잉크데이터의 거리를 계산한다. 따라서 본 발명은 휴대용 컴퓨터에서 입력문자에 제한을 두지 않으며, 사용상의 편리함과, 사용율을 높일 수 있는 효과를 얻게 된다.

Description

전자잉크데이터의 부분매칭을 이용한 개인정보검색시스템{Personal information searching system using the partial matching in the electronic ink domain}

본 발명은 휴대용 컴퓨터에서 전자잉크데이터의 부분매칭을 이용한 개인정보검색시스템에 관한 것으로, 더욱 상세하게는 개인정보데이터를 전자잉크형태로 저장하였다가 필요로 하는 정보를 전자잉크형태로 검색하기 위한 전자잉크데이터의 부분매칭을 이용한 개인정보검색시스템에 관한 것이다.

PDA 또는 펜 기반 컴퓨터 환경에서는 스타일러스(stylus) 펜을 이용하여 글자나 도형을 입력하고 있다. 그리고 대부분의 응용 시스템들은 사용자가 펜으로 입력한 데이터를 처리하기 위해 온라인 문자인식기를 이용하여 입력된 문자를 아스키코드로 변환하고 있다. 이것은 일단 아스키코드로 변환하면, 저장과 검색 등 많은 연산에서 효율적이며 일반적인 컴퓨터에서처럼 데이터를 처리할 수 있기 때문이다.

이와 같이 종래 이용되고 있는 문자인식시스템은, 입력을 위한 수단에 한정을 하고 있다. 또한, 입력된 문자를 처리하기 위해서 아스키코드로 변환하는 작업을 수행하고 있다.

더불어 종래 문자인식시스템은 문자의 인식율이 일정이상 될 수 있도록 매우 제한된 형태의 필기를 해야만 한다. 또한, 인식 오류가 발생하면, 사용자는 인식기의 출력을 지운 다음 다시 원하는 문자를 펜으로 입력해야만 하기 때문에 사용상의 번거로움을 가지고 있다. 실제로 PDA는 이러한 문제로 인해서 기대치 이하의 판매실적을 보이고 있다.

이러한 온라인 문자인식시스템 외에도, 그래피티(Graffiti) 문자를 이용하여 제한된 문자 집합에 대해 지정된 획순으로 입력을 하게 하므로 문자인식시스템의 문제를 단순하게 만들어서 문자 인식율을 높이는 방법도 제안되고 있다. 또한, 소프트 키보드를 제공하여 펜으로 소프트 키보드를 클릭함으로서 문자를 입력하는 방법도 있다.

그러나 이와 같은 방법들은 사용자가 일상 생활에서 사용하는 문자 및 문자 입력방법과 다른 새로운 그래피티 문자를 익혀야 되는 번거로움이 따른다. 또한, 소프트 키보드를 이용한 방법에 있어서도 사용상의 번거로움이 있다. 즉, 펜 기반 휴대용 컴퓨터의 데이터 입력은 여러가지 부분에서 사용상의 번거로움을 가져오기 때문에, 실제 사용율이 매우 낮은 형편이다.

즉, 종래 문자인식시스템은 숫자나 알파벳, 한글, 그리고 몇 개의 특수문자만을 사용하는 형태로서 입력문자의 종류에 제한을 두고 있다. 따라서 실제 사용자들의 개인정보를 메모하는 경우에 있어서 다양한 문자를 사용하지 못하며, 인식율의 한계는 사용율의 저하와 사용상의 번거로움을 발생시킨다.

특히, PDA와 같이 휴대용 전자기기가 개인정보를 메모하는 기능이 매우 높은 비중을 차지하고 있는 점에서 볼때, 종래의 문자인식시스템은 휴대용 전자기기에 적합하지 않은 여러가지 문제점을 가지고 있는 것이다.

이러한 문제점으로부터 본 발명은 펜 기반 컴퓨터의 문자인식시스템을 대체할 수 있는 새로운 방법으로 사용자가 펜으로 입력한 데이터를 인식할 필요없이 잉크 데이터 자체로 저장하였다가 처리할 수 있는 시스템을 제안한다.

상기 전자잉크 데이터의 경우 펜으로 입력하는 데이터의 범주를 제한하지 않기 때문에, 사용자가 표현할 수 있는 정보의 형태가 매우 다양해질 수 있다. 또한, 일반 휴대용 전자기기를 사용하는 사용자들이 간단히 메모를 하거나 또는 전화번호 및 주소를 입력하는 일들은 모두 전자 잉크 영역 내에서 처리 가능한 것이다.

따라서 본 발명의 목적은 개인정보를 잉크 데이터로 저장해두었다가 사용자가 요구할 때, 대략적인 잉크 매칭을 이용하여 필요한 정보를 검색할 수 있는 전자잉크데이터의 부분매칭을 이용한 개인정보검색시스템을 제공함에 있다.

도 1은 일반적인 펜 컴퓨팅 환경과 본 발명에 따른 전자잉크 데이터 처리를 보여주는 예시도,

도 2a,2b는 본 발명에 따른 전자잉크데이터의 부분매칭을 이용한 개인정보검색시스템의 과정도,

도 3은 본 발명에서 정의하고 있는 기본 획 종류의 예시도,

도 4a는 본 발명의 일 예에 따른 데이터 "난"의 곡률값을 나타낸 그래프,

도 4b는 본 발명의 일 예에 따른 데이터 "난"의 예시도,

도 5는 직선 데이터에 대한 곡률 값 그래프,

도 6a는 본 발명의 일 예에 따른 텍스트 데이터의 예시도,

도 6b는 본 발명의 일 예에 따른 패턴 데이터의 예시도,

도 7은 도 6a와 도 6b의 테스트 데이터에 대한 거리값,

도 8은 도 6a와 도 6b의 테스트 데이터에 대해 수행된 편집 연산의 순서도,

도 9는 매칭 시도 횟수에 따른 실험 결과,

도 10은 본 발명에 따른 부분 매칭 시스템의 수행 결과.

상기 목적을 달성하기 위한 본 발명에 따른 전자잉크데이터의 부분매칭을 이용한 개인정보검색시스템은, 개인정보에 의한 한글 전자잉크데이터를 데이터베이스에 저장하는 제 1 단계와; 검색을 위한 한글 패턴 잉크데이터를 입력하는 제 2 단계와; 상기 한글 패턴 잉크데이터에 대해서 부분 매칭되는 데이터베이스 내에 저장된 한글 텍스트 데이터를 검색하는 제 3 단계를 포함하여 구성된다.

또한, 본 발명은 한글의 특성에 따라 생성될 수 있는 기본 획의 종류에 대한 코드를 정의하는 제 1 단계와; 사용자가 개인정보의 잉크데이터를 입력하는 제 2 단계와; 상기 제 2 단계에서 입력된 잉크데이터를 곡률을 이용하여 획을 분리하는 제 3 단계와; 상기 제 1 단계에서 정의된 기본 획의 종류에 기초하여 상기 제 3 단계에서 분리된 획의 종류의 코드를 결정하는 제 4 단계와; 상기 제 4 단계에서 결정된 획의 종류에 대한 코드와 상기 제 2 단계에서 입력된 잉크데이터를 저장하는 제 5 단계를 포함하여, 개인정보의 저장을 수행한다.

본 발명에서 상기 제 1 단계에서 정의된 기본 획 정보는, 수평선(-), 수직선(｜), 왼쪽 사선(/), 오른쪽 사선(＼), 원(○),,의 7개로 구분되는 것을 특징으로 한다.

본 발명에서 상기 제 3 단계의 획분리는, 연속된 세점의 곡률값이 일정이상의 값을 갖을 때, 획을 분리하는 것을 특징으로 한다.

또한, 본 발명에 따른 개인정보검색시스템은, 개인정보에 의한 전자잉크데이터와, 한글의 특성에 따라 생성될 수 있는 상기 전자잉크데이터의 기본 획 정보를 데이터베이스에 저장하는 제 1 단계와; 검색을 위한 패턴 잉크데이터를 입력하는 제 2 단계와; 상기 제 2 단계에서 입력된 패턴 잉크데이터를 곡률을 이용하여 획을 분리하는 제 3 단계와; 상기 제 3 단계에서 분리된 패턴 잉크데이터의 획 정보를 기설정된 값에 기초해서 결정하는 제 4 단계와; 편집연산을 이용하여 상기 제 4 단계에서 결정된 패턴 잉크데이터의 획 정보와 데이터 베이스 내에 저장되고 있는 텍스트 데이터의 획 정보와의 거리를 계산하는 제 5 단계를 포함하여 구성된다.

본 발명의 상기 제 5 단계의 거리 계산은, 부분매칭을 허용하기 위해서 상기 패턴 데이터의 획 정보가 텍스트 데이터의 모든 코드 값에 대해서 거리값을 산출하는 것을 특징으로 한다.

즉, 본 발명에서는 PDA 환경에서 전화번호나 전자메일주소 등 인명과 함께 개인정보를 잉크데이터로 저장해두었다가 사용자가 요구할 때 대략적인 잉크 매칭을 이용하여 필요한 정보를 검색하는 것을 특징으로 한다. 이를 위해서 본 발명은 우선, 한글의 특성을 고려하여 생성될 수 있는 기본 획의 종류를 정의한다. 그리고 사용자가 펜으로 입력한 데이터를 기본획으로 분리하기 위해 곡률을 이용한 획분리방법을 이용하는 것을 특징으로 한다. 그리고 분리된 획을 조사하여 획의 종류를 결정한 다음 교환, 삭제, 삽입, 결합, 분리 등과 같은 편집 연산을 이용하여 전자잉크데이터의 거리를 계산한다. 이때 잉크데이터의 부분 매칭을 위해 동적 프로그래밍 기법을 사용하고 있다.

이하 첨부한 도면을 참조하여 본 발명에 따른 전자잉크데이터의 부분매칭을 이용한 개인정보검색시스템에 대해서 상세하게 설명한다.

도 1은 전통적인 펜 컴퓨팅 환경과 전자잉크 데이터의 처리상태를 보여주는 예시도이다.

도시되고 있는 도면의 좌측은, 펜 컴퓨팅 환경을 나타낸다. 상기 펜 컴퓨팅 환경에서는 입력된 문자를 인식하여 아스키코드로 변환하는 작업을 수행하고 있다. 그리고 도시되고 있는 도면의 우측은, 본 발명에 따른 전자 잉크 데이터의 처리 환경을 나타낸다. 즉, 본 발명의 시스템은 도시되고 있는 바와 같이, 사용자가 펜으로 기재한 그대로 처리되어져 저장되어짐을 나타낸다.

일반적으로 전자잉크는 펜으로 입력된 점들의 집합으로 다음과 같이 표현된다.

Ink = (S_i, 1 ≤ i ≤ n)

S_i= { (x_ij, y_ij, t_ij), 1 ≤ j ≤k}

즉, 두개의 전자 잉크 수열 P(Pattern), T_i(Text)이 주어져 있을때, 잉크 데이터 검색 문제는 P가 T_i내에 포함되어 있는지 있으면 어느 위치에 있는지를 결정해 준다. 하지만 종래의 스트링 매칭과 다른 점은 P와 T 사이에 완벽한 매칭이 발생하지 않는다는 것이다. 이것은 어떤 사람도 동일한 글자를 두번 이상 쓸 때 똑같이 쓸 수 없기 때문이다. 그러므로 잉크 검색은 대략적인 스트링 매칭(approximate string matching)이라고 하는 것이 적절한 표현이다.

다음, 도 2a는 본 발명에 따른 개인정보검색시스템에서 잉크데이터를 데이터 베이스 내에 저장하기 위한 과정이다.

본 발명의 개인정보검색시스템에서는, 입력되는 잉크데이터의 코드를 형성하기 위한 기본 획 집합을 정의하고 있다. 본 발명의 실시예에서는 도 3에 도시하고 있는 바와 같이, 한글의 특성을 고려하여 기본 획을 일곱 개의 획으로 정의하고 있다. 상기 일곱개의 기본 획은 수평선(-), 수직선(｜), 왼쪽 사선(/), 오른쪽 사선(＼), 원(○),,이다. 물론 이것보다 많은 종류 획을 기본 획으로지정하여 사용할 수도 있다. 실제 문자인식시스템에서는 60개 이상의 기본 획을 지정하여 사용하고 있다. 그러나 본 발명에서는 대략적인 잉크 매칭임을 고려하여 일곱 개만을 기본 획으로 지정하고 있다. 그리고 이후 설명될 곡률을 이용하여 입력된 획을 분리할 때 나누어진 모든 획들이 일곱 개의 기본 획 범주에 속하게 된다.

이와 같이 기본 획 집합이 정의된 상태에서 사용자에 의한 개인정보를 입력하는 과정이 수행되어진다. 우선, 사용자에 의해 직접 쓰여진 잉크 데이터(상기 잉크 데이터는 터치 스크린, 스타일러스 펜, 타블렛 등 기존의 데이터 입력 수단을 이용해서 입력 가능하다.)가 입력된다(제 100 단계).

상기 제 100 단계에서 주의해야 할 점은 제품을 사용할 사용자가 데이터를 입력해야만 하는 것이다. 이것은 사람 개개인마다 글씨체가 다르고, 본 발명은 사람이 적은 글씨체 그대로 저장되어지므로, 후에 검색을 위해서는 가능한 유사한 글씨체이거나 동일 글씨체이어야만 검색 확률이 높게 되기 때문이다.

상기 제 100 단계에 의해서 입력된 잉크데이터는, 일반적인 과정에 따른 전처리과정을 수행하게 된다(제 110 단계).

특히, 펜으로 데이터를 입력할 때, 한글의 경우 글자가 연결쓰기를 할 경우 두개 이상의 문자가 하나의 획으로 표현될 수도 있다. 따라서 이러한 데이터들을 기본 획 단위로 나누는 작업이 이루어져야 한다. 먼저 입력된 데이터들에 대한 평활화와 정규화, 재표본 등 전처리 과정을 수행한다. 이러한 전처리과정은 이미 많은 부분에서 알려져 있으며, 본 발명에서는 상세한 설명은 생략한다.

상기 전처리과정이 수행된 잉크데이터는, 본 발명에 의한 획 분리 과정을 수행하게 된다(제 120 단계).

상기 제 120 단계에 의한 본 발명의 획분리과정은, 펜으로 입력받은 데이터를 기본 획 집합으로 분리하기 위해 곡률을 이용하고 있다. 상기 곡률은 곡선이 휘어 있는 정도를 말한다. 따라서 연속된 점들에 대해 곡률은 직선이나 직선에 가까운 점들은 0이나 0에 가까운 값을 가진다. 만약 획이 방향이 바뀌면서 꺽어지게 되면 곡률의 값은 급격히 증가하게 된다. 따라서 곡률을 이용하면 입력된 데이터에서 꺽이는 위치를 찾을 수 있다.

본 발명에서는 빠른 시간에 곡률을 계산하기 위해 하기 식1을 이용하여 연속된 세점의 곡률을 계산하였다. 잉크데이터의 연속적인 세점을 p(x₁,y₁),q(x₂,y₂), r(x₃,y₃)라고 하면, 곡률 R을 구하는 식은 다음과 같다.

상기 식(1)에서 a,b,c는 아래와 같다.

일 예로, 도 4a는 도 4b에 도시된 펜으로 입력한 문자에 대한 곡률값을 나타낸 그래프이다. 도면에서 x축은 시간적 순서대로 펜에 의해 입력된 점들을 나타내고, y축의 값은 연속된 세점에 대한 곡률 값이다. 도 4a에서 곡률 값이 급격히 높아지는 지점은 도 4b에 도시된 문자에서 점으로 표시된 꺽이는 지점을 의미한다.

즉, 도 4b에 도시된 데이터의 경우, 상기 다섯부분의 꺽이는 지점에 의해 구분된 여섯개의 기본 획으로 분리된다. 분리될 지점의 곡률 값은 주위의 다른 곡률 값에 비해 상대적으로 높기 때문에, 평균과 분산값을 이용하여 일정 이상의 곡률 값을 가지는 곳을 분리하였다.

상기 과정과 같이 곡률에 의해 입력된 잉크 데이터를 기본적인 획으로 분리하고 난 후, 분리된 획들이 일곱개의 기본 획 중 어디에 포함되는지를 결정해야 한다(제 130 단계).

수평선, 수직선, 사선 등과 같은 직선의 경우 곡률 값은 도 5에 도시된 것처럼 0에 가까운 값을 나타낸다. 즉, 곡률 값들이 상대적으로 높아지는 지점이 없을 때 연속되는 점들의 각도를 구하여 수평선, 수직선, 사선 중 하나로 결정한다. 간혹 직선임에도 불구하고 펜의 떨림으로 울뚱 불뚱한 잉크 데이터의 경우 곡률 값이 커질 수도 있다. 이런 경우 획을 분리시키는 것을 방지하기 위해 획의 방향을 조사하여 곡률이 커지더라도 같은 방향인 경우 획을 분리시키지 않는다.

한글을 입력할 때 기억이나 니은에 해당하는 문자를 필기하는 형태와 속도에 따라 곡률에 의해 분리될 수도 있고 분리되지 않을 수도 있다. 기본 획 중,와는 기억과 니은 등이 더 작은 획으로 분리되지 않을 경우 발생한다. 이러한 획은 연속되는 데이터의 방향을 구하여 오른쪽에서 아래쪽이면을 반대이면획으로 결정한다.

이응의 경우 매우 이상적인 원일 경우 곡률 값이 직선과 비슷한 형태를 나타내지만, 펜으로 입력하는 이응은 필기 스타일과 속도로 인해 이상적인 형태를 보여주는 경우는 거의 없다. 따라서 입력한 이응의 형태에 따라 곡률 값이 상대적으로 높아지는 지점이 존재한다. 하지만 이응의 경우 획을 분리하기를 원치 않기 때문에 획 분리에 앞서 먼저 입력된 획이 이응인지 아닌지를 먼저 결정해야 한다. 본 발명에서는 이응 획을 구분하기 위한 방법으로 점들에 대한 방향 정보를 이용하였다.

이러한 과정으로 입력된 잉크 데이터에 대한 획의 종류가 결정되어지면, 입력된 문자의 기본 획의 종류에 대한 코드가 결정되어진다.

일 예로, 도 4b의 입력 데이터 "난"을 분리하여 기본 획의 종류를 결정하면, 기본 획 코드는 2,3,2,3,3,3의 결과가 나온다. 즉, 입력되어진 "난"의 첫획은, 기본 획의 종류에서 수직선(2)로 결정되고, 두번째 획은 왼쪽 사선(3), 세번째 획은 수직선(2), 네번째부터 여섯번째까지의 획은 모두 왼쪽 사선(3)으로 결정되어지고 있다.

이렇게 결정된 입력 데이터의 기본 획 코드와 입력된 잉크데이터는 데이터베이스 내에 저장되어진다(제 140 단계). 그리고 이 정보가 이후 설명되는 텍스트 데이터, 즉 저장데이터가 된다.

다음, 도 2b는 본 발명에 따른 개인정보검색시스템의 동작 과정도를 도시하고 있다.

우선, 도 2a에 도시된 저장과정을 통해서 데이터베이스(300)에 많은 개인정보에 따른 텍스트 데이터가 저장되어지고 있는 상태에서 도 2b에 따른 잉크 데이터의 검색 과정이 수행되어진다.

도시되고 있는 바와 같이, 입력된 데이터들은 전처리과정을 거쳐 기본 획 단위로 분리한 다음 획의 종류를 결정한다(제 200 단계, 제 210 단계, 제 220 단계, 제 230 단계). 상기 획의 종류를 결정하기 까지의 과정은 앞서 언급되고 있는 도 2a의 과정과 동일하게 이루어진다.

상기 제 230 단계까지의 과정을 통해서 획의 분리와 분리된 획들의 종류를 결정하면, 잉크 데이터들은 획의 종류에 의해 표현되는 일련의 코드가 된다. 이렇게 해서 입력된 데이터에 대한 패턴 잉크 데이터와 데이터 베이스(300)에 저장된 텍스트 잉크 데이터에 대한 유사도는 동적 프로그래밍에 의해 구해진다.

상기 유사도 계산을 위해 편집연산을 사용한다(제 240 단계). 상기 제 240 단계에서 사용되는 편집 연산에서는 한글의 특성에 따라서 교환, 삭제, 삽입, 결합과 분리 연산이 이용되어진다.

상기 교환, 삭제, 삽입 연산을 위한 비용은 획의 종류에 따라 달라지며 미리 정의해 두었다. 상기 결합 연산과 분리연산은 획의 종류가,인 경우에 적용되어진다. 즉, 검색을 위해 입력된 패턴 잉크 데이터 또는 텍스트 잉크 데이터의 결정되고 있는 기본 획에서,이 발견되어지면, 텍스트 데이터와 패턴 데이터 내에서는 연속되는 두개의 획을 조사하여 결합이나 분리 연산을 수행했을 때의 값을 계산하게 된다. 상기 교환, 삭제, 삽입, 결합, 분리 연산이 적용되어 거리 값을 계산하는 식2는 다음과 같다.

식2에서 사용되는 초기값은 아래와 같이 지정한다.

텍스트 초기값은 텍스트의 첫 문자를 삽입했을 때 비용으로 이것은 텍스트의 어느 위치에서부터 시작해도 처음부터 시작한 것과 동일한 효과를 준다. 이것은 텍스트에 대한 패턴의 부분 매칭을 허용하기 위한 것이다.

다시 말해서 후술되는 도 7에서와 같이 패턴 데이터의 일련의 코드값(3,2,4,3,2,6)은 텍스트 데이터의 모든 코드 값에 대해서 거리값이 산출되어지고 있음을 의미한다. 따라서 텍스트 데이터의 어느 위치에서부터라도 패턴 데이터와 동일 또는 유사한 데이터를 찾게 되는 것이다.

다음 예는 본 발명의 부분 매칭 시스템에서 거리 값을 어떻게 구하는지 보여준다. 데이터 베이스(300) 내에 저장되어 있는 잉크데이터는 도 6a이고, 검색을 위한 입력으로 준 패턴 데이터는 도 6b이다. 상기 데이터에서 점으로 표시된 지점은 곡률에 의해 분리된 지점을 의미한다. 텍스트 데이터의 "전"의 "ㄴ"은 곡률에 의해 분리된 반면 패턴 데이터의 "ㄴ"은 분리되지 않았다.

도 7은 식2에 의해 거리값이 어떻게 변화되고 있는지 보여준다.

도 7에서 첫번째 행과 첫번째 열에 있는 값들은 패턴 데이터와 텍스트 데이터에 대한 기본 획 코드 값이다. 그리고 둘째 행과 열에 있는 값들은 식3의 초기값 설정에 의해 구해진 값들이다. 나머지 값들은 식2에 의해 구해진 값들이다. 상기 예에서 구하고자 하는 텍스트와 패턴의 거리값은 패턴의 마지막 획까지 갔을 때의 거리값, 도 7에서 마지막 행에서 가장 작은 값을 가지는 것이 된다. 그러므로 도 6a의 데이터에 대해서는 ** 표시된 값이 거리값이 된다.

결론적으로 도 7에서 보면 텍스트의 여섯번째 획이(* 표시된 지점) 패턴의 첫 획과 동일하면서 계속되는 삽입 연산과 결합 연산을 통해 가장 작은 거리값을 구해준다. 도 8은 편집 연산이 수행된 순서를 보여준다.

이상과 같이 상기 제 240 단계에서 편집 연산을 이용한 동적 프로그램을 통해 패턴 데이터와 텍스트 데이터사이의 거리가 계산된다.

상기 계산된 거리값에 의해 텍스트에서 상위 다섯개의 매칭 결과가 추출되고(제 250 단계), 이 매칭 결과가 표시되어져 사용자에게 제공된다(제 260 단계).

한편, 본 발명에서 이용되는 매칭시스템은 필기자종속(writer-dependent)이며, 이것은 PDA와 같은 휴대용 개인 단말기에 적절하다. 즉, 휴대용 개인 단말기의 경우, 개인용이고, 개인정보를 저장하고 있다. 그리고 사람들의 필기형태는 전부 다른 형태를 갖고 있다. 이런 점에서 볼 때, 사용자의 필기체에 한정해서 정보의 검색을 가능하게 하므로, 개인정보의 누설 우려를 방지할 수도 있다.

다음은 본 발명에 따른 개인정보검색시스템의 실험 결과에 대한 설명이다.

본 발명에 따른 잉크 데이터 부분 매칭 시스템을 실제 적용될 PDA에서 실험하였다. 실험을 위한 데이터는 무작위로 선택한 연예인 100명의 인명을 이용하여 3개의 데이터 집합을 얻었다.

실험은 3개의 데이터 집합에 대해 다양한 방법으로 이루어졌다. 매칭율을 측정하기 위한 다음과 같은 세가지 요소를 사용하였다. 매칭율은 다음과 같이 나타낸다.

Mr(N,k,r)

여기서 N은 텍스트 데이터의 갯수를 나타내고, k는 패턴을 입력한 횟수, 즉, 패턴 하나에 대해 매칭을 위해 데이터를 입력한 횟수를 의미하며, r은 매칭 결과의 순위를 의미한다. 예를 들어 Mr(100,3,3)인 경우, 100개의 텍스트 데이터에 대해 동일한 패턴을 세번 입력할 때 찾고자 하는 패턴을 3위 안에 찾아준 비율을 의미한다.

도 10은 본 발명의 부분 매칭 시스템의 수행 결과를 보여주고 있다. "이병헌"이라는 필기 데이터를 패턴으로 입력했을 때, 오른쪽 창에 세개의 매칭 결과를 순위별로 보여주고 있다. 그리고 도 10의 오른쪽 실험결과는 부분 매칭이 이루어지는 것을 보여주고 있다. 패턴으로 "상헌"이라고 입력했을때, 텍스트에는 패턴을 부분 정보로 가지고 있는 "박상원","이상원"이라는 텍스트를 찾아주는 것을 보여준다.

본 발명의 부분 매칭 시스템의 성능을 테스트하기 위해 동일한 글자에 대해 세번까지 매칭을 시도하였다. 여기서 동일한 글자란 펜으로 데이터를 똑같이 입력한다는 의미가 아니다. 어떤 사람이라도 동일한 글자를 똑같이 두번 이상 입력하는 것은 매우 어려운 일이기 때문이다. 따라서 동일한 패턴을 입력할지라도 입력할 때마다 데이터는 조금씩 달라질 것이다.

도 9는 실험 결과를 그래프로 보여주고 있다. 도시된 그래프의 결과는 갯수가 100인 데이터 집합 세개에 대한 평균 결과이다. 사용한 패턴은 100개 중 무작위로 70개의 데이터를 선택하여 사용하였다. 세번까지 시도했을 때 다섯개의 순위 안에 원하는 패턴을 찾아준 비율은 Mr(100,3,5) = 0.94 이다. 그리고 Mr(100,3,3) = 0.92, Mr(100,3,1) = 0.84이다.

즉, 세번 시도하여 1순위로 찾아준 비율이 84%인데, 이것은 세번 시도하여 5순위 안에 찾아준 비율에 비해 낮은 편이다. 두번 시도했을때 결과는 각각 Mr(100,2,5) = 0.8, Mr(100,2,3) = 0.88, Mr(100,2,1) = 0.9이다. 그리고 한번 시도했을 때 결과는 Mr(100,1,5) = 0.86, Mr(100,1,3) = 0.79, Mr(100,1,1) = 0.68이다.

따라서 한번 시도했을 때 1순위로 패턴을 찾아주는 것이 바람직하지만, 결과는 68%로 나타났다. 하지만 두번 시도했을 때 1순위로 찾아주는 비율은 80%이고, 세번 시도했을 때는 84%를 보여주었다. 이것은 동일한 사람이 입력을 하더라도 필기 형태가 조금씩 달라지기 때문에 발생하는 현상이다. 따라서 이러한 것을 감안한다면 두세번 시도했을때 원하는 패턴을 찾아주도록 하는 것이 좋을 것이다.

이와 같이 본 발명에 따른 전자잉크데이터의 부분 매칭을 이용한 개인정보검색시스템은, 전화번호나 전자메일주소 등 인명과 함께 개인정보를 잉크데이터로 저장해두었다가 사용자가 요구할 때 대략적인 잉크 매칭을 이용하여 필요한 정보를 검색하는 것을 기본적인 기술적 사상으로 하고 있다. 이를 위해서 본 발명에서는 한글의 특성을 고려하여 생성될 수 있는 기본 획의 종류를 정의하고 있다. 그리고 사용자가 펜으로 입력한 데이터를 기본획으로 분리하기 위해 곡률을 이용한 획분리방법을 이용한다. 그리고 분리된 획을 조사하여 획의 종류를 결정한 다음 교환, 삭제, 삽입, 결합, 분리 등과 같은 편집 연산을 이용하여 전자잉크데이터의 거리를 계산한다. 이때 잉크데이터의 부분 매칭을 위해 동적 프로그래밍 기법을 사용하고 있다.

이상에서 설명한 본 발명에 따른 전자잉크데이터의 부분 매칭을 이용한 개인정보검색시스템은 다음의 효과를 갖는다.

첫째, 사용자가 입력한 잉크 데이터를 종래와 같이 아스키코드로 변환하는 작업 없이 그대로 저장한다. 따라서 저장되는 데이터가 사용자가 입력한 잉크데이터 그자체 이므로, 입력 문자의 제한을 받지 않고, 다양한 형태로 입력 가능하다.

둘째, 사용자가 문자의 입력을 위해서 별도의 그래피티 문자 또는 소프트 키보드를 사용해야 하는 번거로움이 없기 때문에 사용상의 편리함과 함께, 사용율을 높일 수 있다.

셋째, 본 발명에서 적용되는 검색시스템은 필기자종속의 특성을 갖기 때문에, 개인 휴대용 전자기기와 같이 개인정보를 저장하는 시스템에서 타인에게 정보를 누설할 수 있는 우려를 방지할 수 있다.

넷째, 본 발명은 텍스트 데이터의 어느 위치에서부터 시작해도 처음부터 시작한 것과 동일한 효과를 주고 있다. 즉, 저장되고 있는 텍스트 데이터에 대한 패턴 데이터의 부분 매칭을 허용하기 때문에, 본 발명은 검색확률을 높이는 결과를 가져온다.

Claims

개인정보에 의한 한글 전자잉크데이터를 데이터베이스에 저장하는 제 1 단계와;

검색을 위한 한글 패턴 잉크데이터를 입력하는 제 2 단계와;

상기 한글 패턴 잉크데이터에 대해서 부분 매칭되는 데이터베이스 내에 저장된 한글 텍스트 데이터를 검색하는 제 3 단계를 포함하여 구성되는 전자잉크데이터의 부분매칭을 이용한 개인정보검색시스템.
한글의 특성에 따라 생성될 수 있는 기본 획의 종류에 대한 코드를 정의하는 제 1 단계와;

사용자가 개인정보의 잉크데이터를 입력하는 제 2 단계와;

상기 제 2 단계에서 입력된 잉크데이터를 곡률을 이용하여 획을 분리하는 제 3 단계와;

상기 제 1 단계에서 정의된 기본 획의 종류에 기초하여 상기 제 3 단계에서 분리된 획의 종류의 코드를 결정하는 제 4 단계와;

상기 제 4 단계에서 결정된 획의 종류에 대한 코드와 상기 제 2 단계에서 입력된 잉크데이터를 저장하는 제 5 단계를 포함하여 구성되는 전자잉크데이터의 부분매칭을 이용한 개인정보검색시스템.
제 2 항에 있어서,

상기 제 1 단계에서 정의된 기본 획 정보는, 수평선(-), 수직선(｜), 왼쪽 사선(/), 오른쪽 사선(＼), 원(○),,의 7개로 구분되는 것을 특징으로 하는 전자잉크데이터의 부분매칭을 이용한 개인정보검색시스템.
제 2 항에 있어서,

상기 제 3 단계의 획분리는, 연속된 세점의 곡률값이 일정이상의 값을 갖을 때, 획을 분리하는 것을 특징으로 하는 전자잉크데이터의 부분매칭을 이용한 개인정보검색시스템.
개인정보에 의한 전자잉크데이터와, 한글의 특성에 따라 생성될 수 있는 상기 전자잉크데이터의 기본 획 정보를 데이터베이스에 저장하는 제 1 단계와;

검색을 위한 패턴 잉크데이터를 입력하는 제 2 단계와;

상기 제 2 단계에서 입력된 패턴 잉크데이터를 곡률을 이용하여 획을 분리하는 제 3 단계와;

상기 제 3 단계에서 분리된 패턴 잉크데이터의 획 정보를 기설정된 값에 기초해서 결정하는 제 4 단계와;

편집연산을 이용하여 상기 제 4 단계에서 결정된 패턴 잉크데이터의 획 정보와 데이터 베이스 내에 저장되고 있는 텍스트 데이터의 획 정보와의 거리를 계산하는 제 5 단계를 포함하여 구성되는 전자잉크데이터의 부분매칭을 이용한 개인정보검색시스템.
제 5 항에 있어서,

상기 제 5 단계의 거리 계산은, 부분매칭을 허용하기 위해서 상기 패턴 데이터의 획 정보가 텍스트 데이터의 모든 코드 값에 대해서 거리값을 산출하는 것을 특징으로 하는 전자잉크데이터의 부분매칭을 이용한 개인정보검색시스템.