KR101982490B1

KR101982490B1 - 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치

Info

Publication number: KR101982490B1
Application number: KR1020180059939A
Authority: KR
Inventors: 성준경; 성주한
Original assignee: 주식회사 비즈니스인사이트
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2019-05-27

Abstract

본 발명은 문자 데이터 변환에 기초한 키워드 검색 방법을 개시한다. 상기 문자 데이터 변환에 기초한 키워드 검색 방법은, 목표 키워드를 포함하는 원본의 문자 데이터를 문자 변환 알고리즘을 이용하여 상기 목표 키워드에 대한 여러 표기들을 포괄하는 제1 음소 조합으로 변환하는 단계; 상기 원본의 문자 데이터와 상기 제1 음소 조합을 연계하여 저장부에 저장하는 단계; 검색 키워드가 입력되면 상기 검색 키워드를 문자 변환 알고리즘을 이용하여 제2 음소 조합으로 변환하는 단계; 및 상기 제2 음소 조합과 상기 제1 음소 조합을 비교하여 상기 제2 음소 조합을 포함하고 있는 상기 제1 음소 조합을 검출하고 상기 제1 음소 조합에 대응하는 상기 목표 키워드를 검색하는 단계;를 포함한다.

Description

문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치{METHOD FOR SEARCHING KEYWORDS BASED ON CHARACTER DATA CONVERSION AND APPARATUS THEREOF}

본 발명은 문자 데이터 처리 기술에 관한 것으로, 더 상세하게는 목표 키워드에 대한 다양한 음차 표기가 입력되더라도 동일한 검색 결과를 도출할 수 있는 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치에 관한 것이다.

최근 일부 검색 엔진들이 인공지능 기술을 이용하여 검색 키워드에 대한 연관어도 함께 검색해주는 방식을 채택하고 있다. 인공지능을 이용하여 검색하는 방식은 동의어나 연관어, 오타를 보정한 키워드 등 다양한 검색에 대해 뛰어난 성능을 보여준다.

그러나, 인공지능을 이용한 검색 방식은 많은 학습 데이터가 필요할 뿐만이 아니라 빠른 연산이 가능한 하드웨어와 충분한 학습 시간을 필요로 한다. 또한, 학습 모델과 학습 데이터의 수준에 따라 정확도가 많이 떨어지는 문제점이 있다. 그렇기에 인공지능을 이용한 검색 방식은 대규모 서버를 갖춘 기업의 검색 엔진에서나 구현이 가능하다.

한편, 세계적으로 모바일 기기나 IoT 모듈 등 소형 디바이스의 사용이 대중화되고 있다. 소형기기의 로컬 스토리지에 저장된 텍스트 문서에서 특정 키워드를 찾아내는 방법은 단순한 문자 대입을 이용한 방법이기 때문에, 연관어와 같은 추가적인 문자 검색 기능을 구현하기 힘들다.

또한, 한글을 이용한 검색에서의 어려운 점이 많이 있지만, 그 중에서 한글이라서 특히 어려운 점은 외래어를 다양한 음차 표기로 나타낼 수 있다는 점이다. 예를 들어, Chocolate를 한글로 표기할 때, 대부분 초콜릿을 표준 표기로 사용한다고 하더라도, 사용자나 서비스 제공 업체에 따라 초콜렛, 쪼꼬렛, 초코레트 등 다른 표기를 사용하기도 한다. 이런 상황에서 일반적인 방법으로 검색 프로세스를 진행하면 원하는 결과를 얻지 못한다.

이러한 모든 배경을 종합해보면, 소형 디바이스의 로컬 스토리지에 저장된 문서에서나 인공지능을 도입하기 힘든 기업의 서비스 프로그램에서의 검색 기능에서는 특정 목표 키워드에 대한 다양한 음차 표기가 입력되었을 때 사용자가 의도한 결과가 나오기 힘들다는 것을 알 수 있다.

따라서, 목표 키워드에 대한 다양한 음차 표기가 입력되더라도 목표한 검색 결과를 도출할 수 있는 기술이 요구되고 있다.

본 발명이 해결하고자 하는 기술적 과제는 목표 키워드에 대한 다양한 음차 표기가 입력되더라도 동일한 검색 결과를 도출할 수 있는 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치를 제공하는데 있다.

본 발명의 일 실시예에 따른 문자 데이터 변환에 기초한 키워드 검색 방법은, 목표 키워드를 포함하는 원본의 문자 데이터를 문자 변환 알고리즘을 이용하여 상기 목표 키워드에 대한 여러 표기들을 포괄하는 제1 음소 조합으로 변환하는 단계; 상기 원본의 문자 데이터와 상기 제1 음소 조합을 연계하여 저장부에 저장하는 단계; 검색 키워드가 입력되면 상기 검색 키워드를 문자 변환 알고리즘을 이용하여 제2 음소 조합으로 변환하는 단계; 및 상기 제2 음소 조합과 상기 제1 음소 조합을 비교하여 상기 제2 음소 조합을 포함하고 있는 상기 제1 음소 조합을 검출하고 상기 제1 음소 조합에 대응하는 상기 목표 키워드를 검색하는 단계;를 포함한다.

본 발명의 일 실시예에 따른 문자 데이터 변환에 기초한 키워드 검색 장치는, 문자 데이터 변환에 기초한 키워드 검색을 수행하는 컴퓨팅 장치; 및 상기 컴퓨팅 장치와 전기적으로 연결되는 저장부;를 포함하고, 상기 컴퓨팅 장치는, 목표 키워드를 포함하는 원본의 문자 데이터를 문자 변환 알고리즘을 이용하여 상기 목표 키워드에 대한 여러 표기들을 포괄하는 제1 음소 조합으로 변환하고, 상기 원본의 문자 데이터와 상기 제1 음소 조합을 연계하여 상기 저장부에 저장하도록 제어하며, 검색 키워드가 입력되면 상기 검색 키워드를 문자 변환 알고리즘을 이용하여 제2 음소 조합으로 변환하는 변환 모듈; 및 상기 제2 음소 조합과 상기 저장부에 저장된 상기 제1 음소 조합을 비교하여 상기 제2 음소 조합을 포함하는 상기 제1 음소 조합을 검출하고 상기 제1 음소 조합에 대응하는 상기 목표 키워드를 검색하는 검색 모듈;을 포함한다.

본 발명의 실시예에 따르면, 목표 키워드를 포함하는 원본의 문자 데이터를 목표 키워드에 대한 여러 표기들을 포괄하는 음소 조합으로 변환하고 이를 원본의 문자 데이터와 연계하여 저장부에 저장하며, 검색 키워드가 입력되면 검색 키워드를 상기와 같은 방식으로 변환한 음소 조합을 이용하여 대응하는 목표 키워드를 검색하므로, 단순 검색 프로세스를 활용하더라도 정확한 검색 결과를 도출할 수 있다.

또한, 소형 디바이스의 로컬 스토리지에 저장된 문서에서나 인공지능을 도입하기 힘든 기업의 서비스 프로그램에서의 검색 기능에 적용함으로써 다양한 기기나 시스템에서 검색 기능의 활용도를 향상시킬 수 있다.

또한, 외래어의 음차 표기 외에도 사소한 오타나 발음만 알고 표기는 모르는 사용자들의 키워드 검색에도 정확한 검색 결과를 도출할 수 있다.

도 1은 본 발명의 일 실시예에 따른 문자 데이터 변환에 기초한 키워드 검색 장치를 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 문자 데이터 변환에 기초한 키워드 검색 방법을 도시한 순서도이다.
도 3은 도 2의 원본의 문자 데이터를 음소 조합으로 변환하는 방법을 도시한 순서도이다.
도 4는 본 발명의 일 실시예에 따른 문자 데이터 처리 방법을 이용한 키워드 검색 과정을 도시한 예시도이다.

이하, 첨부한 도면들을 참고하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예에 대하여 상세히 설명하기로 한다. 각 도면에 제시된 참조부호들 중 동일한 참조부호는 동일한 부재를 나타낸다.

본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되는 것은 아니며, 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

도 1은 본 발명의 일 실시예에 따른 문자 데이터 변환에 기초한 키워드 검색 장치(100)를 도시한 블록도이다.

도 1을 참고하면, 문자 데이터 변환에 기초한 키워드 검색 장치(100)는 컴퓨팅 장치(10) 및 저장부(20)를 포함하고, 컴퓨팅 장치(10)는 변환 모듈(12) 및 검색 모듈(14)을 포함할 수 있다. 여기서, 변환 모듈(12)과 검색 모듈(14)은 하나의 프로세스 상에 구현되거나 각각 별도의 프로세서로 구현될 수 있다.

상기한 컴퓨팅 장치(10)는 퍼스널 컴퓨터, 서버, 스마트 폰, 테블릿 등 다양한 종류의 디바이스가 될 수 있다. 여기서, 컴퓨팅 장치(10)의 각 모듈은 프로그램을 기능별로 구분한 프로그램 단위 또는 해당 기능을 수행하는 알고리즘이거나 해당 기능을 수행하는 컴퓨터 기반의 하드웨어 장치일 수 있다.

변환 모듈(12)은 목표 키워드를 포함하는 원본의 문자 데이터를 문자 변환 알고리즘을 이용하여 목표 키워드에 대한 여러 표기들을 포괄하는 제1 음소 조합으로 변환하고, 원본의 문자 데이터와 제1 음소 조합을 연계하여 저장부(20)에 저장하도록 제어한다. 그리고, 변환 모듈(12)은 검색 키워드가 입력되면 검색 키워드를 문자 변환 알고리즘을 이용하여 제2 음소 조합으로 변환한다. 이러한 변환 모듈(12)은 미리 설정된 발음 규칙을 적용하여 목표 키워드를 포함하는 원본 문자 데이터와 검색 키워드를 제1 및 제2 음소 조합으로 변환하는 문자 변환 알고리즘을 이용할 수 있다.

검색 모듈(14)은 검색 키워드에 대응하는 제2 음소 조합과 목표 키워드를 포함하는 원본의 문자 데이터에 대응하는 제1 음소 조합을 비교하고, 상기 비교를 통해서 제2 음소 조합이 포함되는 제1 음소 조합을 검출하며, 제1 음소 조합에 연계된 목표 키워드를 검색한다. 이러한 검색 모듈(14)은 목표 키워드를 포함하는 원본 문자 데이터와 검색 키워드를 변환한 제1 및 제2 음소 조합으로 목표 키워드를 검색하는 키워드 검색 알고리즘을 이용할 수 있다.

저장부(20)는 컴퓨팅 장치(10)의 제어에 따라 원본의 문자 데이터와 이와 연계된 제1 음소 조합을 저장한다. 이러한 저장부(20)는 컴퓨팅 장치(10)와 전기적으로 연결된 메모리 장치이거나 데이터베이스로 구성할 수 있다. 일례로, 데이터베이스에서 활용할 경우 검색의 대상이 되는 키워드를 변환시켜 같은 테이블에 추가 칼럼을 생성해 저장할 수 있다. 또는 조인이 가능한 테이블을 따로 만들어 이용할 수 있다. 그리고, 텍스트 문서의 경우에는 원본 파일과 짝이 되는 파일을 추가로 생성하고, 변환 과정을 거친 문서에는 변환된 데이터가 원본 문서의 어느 위치에 있는지 인덱스 값을 함께 저장하여 이용할 수 있다.

도 2는 본 발명의 일 실시예에 따른 문자 데이터 변환에 기초한 키워드 검색 방법을 도시한 순서도이다.

도 2를 참고하면, 문자 데이터 변환에 기초한 키워드 검색 방법은, 목표 키워드를 포함하는 원본의 문자 데이터를 문자 변환 알고리즘을 이용하여 목표 키워드에 대한 여러 표기들을 포괄하는 제1 음소 조합으로 변환하는 단계(S10), 원본의 문자 데이터와 상기 제1 음소 조합을 연계하여 저장부에 저장하는 단계(S20), 검색 키워드가 입력되면 상기 검색 키워드를 문자 변환 알고리즘을 이용하여 제2 음소 조합으로 변환하는 단계(S30), 및 상기 제2 음소 조합과 상기 제1 음소 조합을 비교하여 상기 제2 음소 조합을 포함하고 있는 상기 제1 음소 조합을 검출하고 상기 제1 음소 조합에 대응하는 목표 키워드를 검색하는 단계(S40)를 포함한다. 여기서, 변환할 문자 데이터는 여러 줄의 문장이나 단어의 나열이 될 수 있다.

단계(S10)는 데이터베이스나 문서 파일에 원본 데이터와 함께 저장할 변환 문자열을 만드는 과정으로, 세부적으로는 발음 규칙을 적용할 단위로 입력된 값을 나누는 단계, 나누어진 단어를 음소 단위로 분해하는 단계, 각 초성, 중성, 종성에 발음 규칙을 적용해 들리는 대로 변환하는 단계, 각 자음과 모음을 대표 자음과 대표 모음으로 변환하는 단계, 장모음의 장음을 제거하는 단계, 자음으로 끝난 경우 'ㅡ'를 추가하는 단계로 이루어진다. 이러한 단계들은 시스템 설계에 따라 축소하거나 추가 변환을 진행할 수 있다. 이에 대한 상세한 설명은 도 3에서 추가 설명하기로 한다.

단계(S20)는 원본 데이터와 변환된 데이터를 연결하는 단계로, 기존의 문자 검색 방식의 최소한 변경만으로도 적용될 수 있어야 한다.

단계(S30)는 검색이 이루어졌을 때, 검색 키워드를 단계(S10)와 같은 방식으로 변환하는 단계로, 다른 모든 처리는 단계(S10)과 동일하지만 마지막 음절이 자음으로 끝나는 경우 모음 'ㅡ'를 추가하는 과정을 생략한다. 이러한 단계(S30)도 시스템 설계에 따라 축소하거나 추가 변환을 진행할 수 있다.

단계(S40)는 목표 키워드를 검색하는 단계로, 상기와 같이 변환된 문자를 이용해 데이터베이스나 문서 파일에서의 문자 검색 알고리즘에 그대로 적용해 검색할 수 있다.

도 3은 도 2의 원본의 문자 데이터를 음소 조합으로 변환하는 방법을 도시한 순서도이다.

도 3을 참고하면, 원본의 문자 데이터를 문자 변환 알고리즘을 이용하여 제1 음소 조합으로 변환하는 단계(S10)는, 원본의 문자 데이터를 문자열 단위로 분해하는 단계(S11), 문자열들을 음소 단위로 분해하는 단계(S12), 음소들을 발음 규칙을 적용하여 발음 나는 대로 변환하는 단계(S13), 음소들의 각 자음과 모음을 대표 자음과 대표 모음으로 변환하는 단계(S14), 음소들에서 장모음의 장음을 제거하는 단계(S15), 음소들 중 자음으로 끝난 음소의 경우 모음 'ㅡ'를 추가하는 단계(S16)를 포함한다.

문자열 단위로 분해하는 단계(S11)는 발음 규칙을 적용해야 하므로 이어서 발음하지 않는, 즉 띄어쓰기나 쉼표, 괄호, 외국어 문자 등 한글을 제외한 모든 문자를 기준으로 입력된 데이터를 분해하여 각각 따로 처리한다.

음소 단위로 분해하는 단계(S12)는 쌍자음의 경우에는 하나의 자음으로 취급을 하고 겹받침의 경우에는 기본 발음 규칙에 따라 하나의 자음으로 치환하거나 다음에 오는 자음과 합치는 것으로 처리한다.

발음 나는 대로 변환하는 단계(S13)는 음소로 분해가 된 데이터를 표준 발음 규칙을 적용해 실제 발음과 가장 가까운 형태로 변환하는 단계로, 한글은 문맥에 따라서도 발음 규칙이 달라지기 때문에 가장 기본적인 발음 규칙을 적용해야 한다. 대표적인 예로는 '이' 발음의 앞에서 발생하는 'ㅅ' 받침의 경우에는 'ㄴ' 첨가 현상이 일어나는데 조사일 경우에는 적용하지 않는다는 예외상황은 무시하고 기본 규칙대로 어떤 경우라도 'ㄴ'을 첨가한다.

단계(S14)는 음소들의 각 자음과 모음을 대표하는 대표 자음과 대표 모음으로 변환한다. 자음의 경우에는 초성이냐 종성에 따라 다른 규칙을 적용한다. 기본적인 규칙은 된소리와 거센소리를 기본 자음으로 변경하는 경우나 'ㄷ', 'ㅅ', 'ㅈ', 'ㅎ' 등이 종성으로 사용되었을 때에 'ㄷ'으로 통일하는 것 등이 있으며, 두 종류 이상의 각기 다른 자음들이나 모음들을 하나의 자음과 모음으로 변환된다. 모음의 경우에는 단 두 가지로 변환되는데 'ㅣ'와 'ㅡ'이다. 기준은 모든 모음이 둘 중에서 어떤 모음에 가까운지로 하며, 'ㅣ'로 변환되는 모음은 'ㅣ', 'ㅟ', 'ㅚ', 'ㅔ', 'ㅐ', 'ㅚ', 'ㅟ', 'ㅘ', 'ㅝ', 'ㅙ', 'ㅞ'이며, 나머지는 모두 'ㅡ'로 변환한다. 각 자음의 대표음은 아래의 <표 1>과 같다.

한편, 본 실시예는 각 자음의 대표음을 <표 1>과 같이 예시하고, 각 모음의 대표음을 'ㅡ'와 'ㅣ'로 예시하고 있으나, 이에 한정되는 것은 아니며, 다른 자음과 모음을 대표음으로 구성할 수 있으며, 다른 자음과 모음을 추가하거나 제외하는 것으로 구성할 수 있다. 즉, 각 자음과 모음의 대표음은 이 규칙을 적용할 시점이나 환경에 따라 변경될 수 있다.

단계(S15)는 장모음의 장음을 제거하는 과정으로, 앞의 단계에서 변환된 결과에서 종성이 없는 모음의 다음에 나오는 'ㅇ'과 그 다음 모음이 앞의 모음과 같은 경우 'ㅇ'과 모음 하나를 제거해주는 것이다. 그 다음에도 같은 형식이 반복될 경우에는 모든 장음을 제거해준다.

단계(S16)는 마지막 음소가 자음으로 끝나는 경우 모음 'ㅡ'를 붙여주는 단계이다. 이 단계(S16)는 검색 키워드를 변환하는 단계(S30)에서는 생략된다.

일례로, 위의 순서대로 모든 변환 과정을 거치게 되면 '초콜릿', '촤칼렛', '쪼꼬레뜨'는 모두 같은 결과인 'ㅈㅡㄱㅡㄹㅣㄷㅡ'로 변환되며 검색어는 마지막 'ㅡ'가 생략된 'ㅈㅡㄱㅡㄹㅣㄷ'가 된다.

도 4는 본 발명의 일 실시예에 따른 문자 데이터 처리 방법을 이용한 키워드 검색 과정을 도시한 예시도이다.

도 4를 참고하면, '수입산 오렌지'라는 목표 키워드(대상 데이터)는 상술한 미리 설정된 규칙이 적용되는 문자 데이터 변환 알고리즘을 통해 변환되어 데이터베이스에 저장된다. 사용자가 '어린지'라는 검색 키워드를 이용해 검색을 시도하고자 할 때의 전체 과정은 도 4와 같이 나타낼 수 있다.

먼저, '수입산 오렌지'는 문자열 단위인 '수입산/오렌지'로 분해되고, 이어서 음소 단위인 'ㅅㅜㅇㅣㅂㅅㅏㄴ/ㅇㅗㄹㅔㄴㅈㅣ'로 분해된다.

이어서, 'ㅅㅜㅇㅣㅂㅅㅏㄴ/ㅇㅗㄹㅔㄴㅈㅣ'는 미리 설정된 발음 규칙을 기초로 'ㅅㅜㅇㅣㅂㅆㅏㄴ/ㅇㅗㄹㅔㄴㅈㅣ'로 변환되고, 'ㅅㅜㅇㅣㅂㅆㅏㄴ/ㅇㅗㄹㅔㄴㅈㅣ'는 대표음이 적용되어 'ㅅㅡㅇㅣㅂㅅㅡㄴ/ㅇㅡㄹㅣㄴㅈㅣ'로 변환된다.

이어서, ㅅㅡㅇㅣㅂㅅㅡㄴ/ㅇㅡㄹㅣㄴㅈㅣ'는 장음 제거 및 조건별 'ㅡ'가 추가되어 ㅅㅡㅇㅣㅂㅅㅡㄴㅡ/ㅇㅡㄹㅣㄴㅈㅣ'로 변환된다.

사용자가 입력한 검색 키워드 '어린지'는 상기와 같은 방식으로 'ㅇㅡㄹㅣㄴㅈㅣ'로 변환된다. '어린지'를 변환한 'ㅇㅡㄹㅣㄴㅈㅣ'는 대상 데이터 'ㅅㅡㅇㅣㅂㅅㅡㄴㅡ ㅇㅡㄹㅣㄴㅈㅣ'에 포함되어 있으므로, 단순 질의나 문자열 대입 알고리즘을 적용해 '오렌지'라는 검색 결과를 도출할 수 있다.

이와 같이 본 발명의 실시예에 따르면, 목표 키워드를 포함하는 원본의 문자 데이터를 목표 키워드에 대한 여러 표기들을 포괄하는 음소 조합으로 변환하고 이를 원본의 문자 데이터와 연계하여 저장부에 저장하며, 검색 키워드가 입력되면 검색 키워드를 상기와 같은 방식으로 변환한 음소 조합을 이용하여 대응하는 목표 키워드를 검색하므로, 단순 검색 프로세스를 활용하더라도 정확한 검색 결과를 도출할 수 있다.

또한, 소형 디바이스의 로컬 스토리지에 저장된 문서에서나 인공지능을 도입하기 힘든 기업의 서비스 프로그램에서의 검색 기능에 적용하여 다양한 기기나 시스템에서 검색 기능의 활용도를 더 높일 수 있다.

또한, 외래어의 음차 표기 외에도 사소한 오타나 발음만 알고 표기는 모르는 사용자들의 키워드 검색도 바로잡아줄 수 있다.

본 발명은 도면들에 도시된 실시예들을 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이들로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.

10: 컴퓨팅 장치 12: 변환 모듈
14: 검색 모듈 20: 저장부

Claims

목표 키워드를 포함하는 원본의 문자 데이터를 문자 변환 알고리즘을 이용하여 제1 음소 조합으로 변환하는 단계;
상기 원본의 문자 데이터와 상기 제1 음소 조합을 연계하여 저장부에 저장하는 단계;
검색 키워드가 입력되면 상기 검색 키워드를 문자 변환 알고리즘을 이용하여 제2 음소 조합으로 변환하는 단계; 및
상기 제2 음소 조합과 상기 제1 음소 조합을 비교하여 상기 제2 음소 조합을 포함하는 상기 제1 음소 조합을 검출하고 상기 제1 음소 조합에 대응하는 상기 목표 키워드를 검색하는 단계;를 포함하고,
상기 원본의 문자 데이터를 상기 제1 음소 조합으로 변환하는 단계는,
상기 원본의 문자 데이터를 한글을 제외한 문자를 기준으로 문자열 단위로 분해하는 단계;
상기 문자열들을 음소 단위로 분해하는 단계;
상기 음소들을 발음 규칙을 적용하여 발음 나는 대로 변환하는 단계;
상기 음소들 각각의 자음을 초성, 종성에 따라 대응하는 대표 자음으로 변환하고, 상기 음소들 각각의 모음을 대표 모음'ㅡ'또는 'ㅣ'로 변환하는 단계;
상기 음소들에서 장모음의 장음을 제거하는 단계; 및
상기 음소들 중 자음으로 끝난 음소의 경우 모음 'ㅡ'를 추가하는 단계;
를 포함하는 문자 데이터 변환에 기초한 키워드 검색 방법.
삭제
제 1 항에 있어서, 상기 원본의 문자 데이터를 문자열 단위로 분해하는 단계는,
띄어쓰기, 쉼표, 괄호를 포함하는 한글을 제외한 문자를 기준으로 분해하는 문자 데이터 변환에 기초한 키워드 검색 방법.
제 1 항에 있어서, 상기 문자열들을 음소 단위로 분해하는 단계는,
쌍자음의 경우 하나의 자음으로 변환하고, 겹받침의 경우 초성, 중성, 종성에 따라 하나의 자음으로 변환하거나 다음에 오는 자음과 합치는 단계를 포함하는 문자 데이터 변환에 기초한 키워드 검색 방법.
제 1 항에 있어서, 상기 음소들의 각 자음과 모음을 대표 자음과 대표 모음으로 변환하는 단계는,
자음의 경우 초성, 종성에 따라 된소리와 거센소리를 기본 자음으로 변환하거나 'ㄷ', 'ㅅ', 'ㅈ', 'ㅎ' 이 종성으로 사용되었을 때에 자음 'ㄷ' 으로 변환하는 단계; 및
모음의 경우 'ㅣ', 'ㅟ', 'ㅚ', 'ㅔ', 'ㅐ', 'ㅚ', 'ㅟ', 'ㅘ', 'ㅝ', 'ㅙ', 'ㅞ'를 모음 'ㅣ'로 변환하고 나머지를 모음 'ㅡ'로 변환하는 단계;
를 포함하는 문자 데이터 변환에 기초한 키워드 검색 방법.
제 1 항에 있어서, 상기 검색 키워드를 상기 제2 음소 조합으로 변환하는 단계는,
상기 원본의 문자 데이터를 문자열 단위로 분해하는 단계;
상기 문자열들을 음소 단위로 분해하는 단계;
상기 음소들을 발음 규칙을 적용하여 발음 나는 대로 변환하는 단계;
상기 음소들의 각 자음과 모음을 대표 자음과 대표 모음으로 변환하는 단계; 및
상기 음소들에서 장모음의 장음을 제거하는 단계;
를 포함하는 문자 데이터 변환에 기초한 키워드 검색 방법.
문자 데이터 변환에 기초한 키워드 검색을 수행하는 컴퓨팅 장치; 및
상기 컴퓨팅 장치와 전기적으로 연결되는 저장부;를 포함하고,
상기 컴퓨팅 장치는,
목표 키워드를 포함하는 원본의 문자 데이터를 문자 변환 알고리즘을 이용하여 제1 음소 조합으로 변환하고, 상기 원본의 문자 데이터와 상기 제1 음소 조합을 연계하여 상기 저장부에 저장하도록 제어하며, 검색 키워드가 입력되면 상기 검색 키워드를 문자 변환 알고리즘을 이용하여 제2 음소 조합으로 변환하는 변환 모듈; 및
상기 제2 음소 조합과 상기 저장부에 저장된 상기 제1 음소 조합을 비교하여 상기 제2 음소 조합을 포함하는 상기 제1 음소 조합을 검출하고 상기 제1 음소 조합에 대응하는 상기 목표 키워드를 검색하는 검색 모듈;을 포함하고,
상기 변환 모듈은, 상기 원본의 문자 데이터를 상기 제1 음소 조합으로 변환 시, 상기 원본의 문자 데이터를 한글을 제외한 문자를 기준으로 문자열 단위로 분해하고, 상기 문자열들을 음소 단위로 분해하며, 상기 음소들을 발음 규칙을 적용하여 발음나는 대로 변환하며, 상기 음소들 각각의 자음을 초성, 종성에 따라 대응하는 대표 자음으로 변환하고, 상기 음소들 각각의 모음을 대표 모음 'ㅡ' 또는 'ㅣ'로 변환하며, 상기 음소들에서 장모음의 장음을 제거하고, 상기 음소들 중 자음으로 끝난 음소의 경우 모음 'ㅡ'를 추가하는 것을 특징으로 하는 문자 데이터 변환에 기초한 키워드 검색 장치.
삭제
제 7 항에 있어서, 상기 변환 모듈은,
상기 문자열들을 음소 단위로 분해 시, 쌍자음의 경우 하나의 자음으로 변환하고, 겹받침의 경우 초성, 중성, 종성에 따라 하나의 자음으로 변환하거나 다음에 오는 자음과 합치는, 문자 데이터 변환에 기초한 키워드 검색 장치.
제 7 항에 있어서, 상기 변환 모듈은
상기 음소들의 각 자음과 모음을 대표 자음과 대표 모음으로 변환 시,
자음의 경우 초성, 종성에 따라 된소리와 거센소리를 기본 자음으로 변환하거나 'ㄷ', 'ㅅ', 'ㅈ', 'ㅎ' 이 종성으로 사용되었을 때에 자음 'ㄷ' 으로 변환하고, 모음의 경우 'ㅣ', 'ㅟ', 'ㅚ', 'ㅔ', 'ㅐ', 'ㅚ', 'ㅟ', 'ㅘ', 'ㅝ', 'ㅙ', 'ㅞ'를 모음 'ㅣ'로 변환하고 나머지를 모음 'ㅡ'로 변환하는, 문자 데이터 변환에 기초한 키워드 검색 장치.