KR101982490B1 - 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치 - Google Patents

문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치 Download PDF

Info

Publication number
KR101982490B1
KR101982490B1 KR1020180059939A KR20180059939A KR101982490B1 KR 101982490 B1 KR101982490 B1 KR 101982490B1 KR 1020180059939 A KR1020180059939 A KR 1020180059939A KR 20180059939 A KR20180059939 A KR 20180059939A KR 101982490 B1 KR101982490 B1 KR 101982490B1
Authority
KR
South Korea
Prior art keywords
consonant
converting
character data
phoneme combination
phonemes
Prior art date
Application number
KR1020180059939A
Other languages
English (en)
Inventor
성준경
성주한
Original Assignee
주식회사 비즈니스인사이트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 비즈니스인사이트 filed Critical 주식회사 비즈니스인사이트
Priority to KR1020180059939A priority Critical patent/KR101982490B1/ko
Application granted granted Critical
Publication of KR101982490B1 publication Critical patent/KR101982490B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • G06F17/273
    • G06F17/2795

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 문자 데이터 변환에 기초한 키워드 검색 방법을 개시한다. 상기 문자 데이터 변환에 기초한 키워드 검색 방법은, 목표 키워드를 포함하는 원본의 문자 데이터를 문자 변환 알고리즘을 이용하여 상기 목표 키워드에 대한 여러 표기들을 포괄하는 제1 음소 조합으로 변환하는 단계; 상기 원본의 문자 데이터와 상기 제1 음소 조합을 연계하여 저장부에 저장하는 단계; 검색 키워드가 입력되면 상기 검색 키워드를 문자 변환 알고리즘을 이용하여 제2 음소 조합으로 변환하는 단계; 및 상기 제2 음소 조합과 상기 제1 음소 조합을 비교하여 상기 제2 음소 조합을 포함하고 있는 상기 제1 음소 조합을 검출하고 상기 제1 음소 조합에 대응하는 상기 목표 키워드를 검색하는 단계;를 포함한다.

Description

문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치{METHOD FOR SEARCHING KEYWORDS BASED ON CHARACTER DATA CONVERSION AND APPARATUS THEREOF}
본 발명은 문자 데이터 처리 기술에 관한 것으로, 더 상세하게는 목표 키워드에 대한 다양한 음차 표기가 입력되더라도 동일한 검색 결과를 도출할 수 있는 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치에 관한 것이다.
최근 일부 검색 엔진들이 인공지능 기술을 이용하여 검색 키워드에 대한 연관어도 함께 검색해주는 방식을 채택하고 있다. 인공지능을 이용하여 검색하는 방식은 동의어나 연관어, 오타를 보정한 키워드 등 다양한 검색에 대해 뛰어난 성능을 보여준다.
그러나, 인공지능을 이용한 검색 방식은 많은 학습 데이터가 필요할 뿐만이 아니라 빠른 연산이 가능한 하드웨어와 충분한 학습 시간을 필요로 한다. 또한, 학습 모델과 학습 데이터의 수준에 따라 정확도가 많이 떨어지는 문제점이 있다. 그렇기에 인공지능을 이용한 검색 방식은 대규모 서버를 갖춘 기업의 검색 엔진에서나 구현이 가능하다.
한편, 세계적으로 모바일 기기나 IoT 모듈 등 소형 디바이스의 사용이 대중화되고 있다. 소형기기의 로컬 스토리지에 저장된 텍스트 문서에서 특정 키워드를 찾아내는 방법은 단순한 문자 대입을 이용한 방법이기 때문에, 연관어와 같은 추가적인 문자 검색 기능을 구현하기 힘들다.
또한, 한글을 이용한 검색에서의 어려운 점이 많이 있지만, 그 중에서 한글이라서 특히 어려운 점은 외래어를 다양한 음차 표기로 나타낼 수 있다는 점이다. 예를 들어, Chocolate를 한글로 표기할 때, 대부분 초콜릿을 표준 표기로 사용한다고 하더라도, 사용자나 서비스 제공 업체에 따라 초콜렛, 쪼꼬렛, 초코레트 등 다른 표기를 사용하기도 한다. 이런 상황에서 일반적인 방법으로 검색 프로세스를 진행하면 원하는 결과를 얻지 못한다.
이러한 모든 배경을 종합해보면, 소형 디바이스의 로컬 스토리지에 저장된 문서에서나 인공지능을 도입하기 힘든 기업의 서비스 프로그램에서의 검색 기능에서는 특정 목표 키워드에 대한 다양한 음차 표기가 입력되었을 때 사용자가 의도한 결과가 나오기 힘들다는 것을 알 수 있다.
따라서, 목표 키워드에 대한 다양한 음차 표기가 입력되더라도 목표한 검색 결과를 도출할 수 있는 기술이 요구되고 있다.
본 발명이 해결하고자 하는 기술적 과제는 목표 키워드에 대한 다양한 음차 표기가 입력되더라도 동일한 검색 결과를 도출할 수 있는 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치를 제공하는데 있다.
본 발명의 일 실시예에 따른 문자 데이터 변환에 기초한 키워드 검색 방법은, 목표 키워드를 포함하는 원본의 문자 데이터를 문자 변환 알고리즘을 이용하여 상기 목표 키워드에 대한 여러 표기들을 포괄하는 제1 음소 조합으로 변환하는 단계; 상기 원본의 문자 데이터와 상기 제1 음소 조합을 연계하여 저장부에 저장하는 단계; 검색 키워드가 입력되면 상기 검색 키워드를 문자 변환 알고리즘을 이용하여 제2 음소 조합으로 변환하는 단계; 및 상기 제2 음소 조합과 상기 제1 음소 조합을 비교하여 상기 제2 음소 조합을 포함하고 있는 상기 제1 음소 조합을 검출하고 상기 제1 음소 조합에 대응하는 상기 목표 키워드를 검색하는 단계;를 포함한다.
본 발명의 일 실시예에 따른 문자 데이터 변환에 기초한 키워드 검색 장치는, 문자 데이터 변환에 기초한 키워드 검색을 수행하는 컴퓨팅 장치; 및 상기 컴퓨팅 장치와 전기적으로 연결되는 저장부;를 포함하고, 상기 컴퓨팅 장치는, 목표 키워드를 포함하는 원본의 문자 데이터를 문자 변환 알고리즘을 이용하여 상기 목표 키워드에 대한 여러 표기들을 포괄하는 제1 음소 조합으로 변환하고, 상기 원본의 문자 데이터와 상기 제1 음소 조합을 연계하여 상기 저장부에 저장하도록 제어하며, 검색 키워드가 입력되면 상기 검색 키워드를 문자 변환 알고리즘을 이용하여 제2 음소 조합으로 변환하는 변환 모듈; 및 상기 제2 음소 조합과 상기 저장부에 저장된 상기 제1 음소 조합을 비교하여 상기 제2 음소 조합을 포함하는 상기 제1 음소 조합을 검출하고 상기 제1 음소 조합에 대응하는 상기 목표 키워드를 검색하는 검색 모듈;을 포함한다.
본 발명의 실시예에 따르면, 목표 키워드를 포함하는 원본의 문자 데이터를 목표 키워드에 대한 여러 표기들을 포괄하는 음소 조합으로 변환하고 이를 원본의 문자 데이터와 연계하여 저장부에 저장하며, 검색 키워드가 입력되면 검색 키워드를 상기와 같은 방식으로 변환한 음소 조합을 이용하여 대응하는 목표 키워드를 검색하므로, 단순 검색 프로세스를 활용하더라도 정확한 검색 결과를 도출할 수 있다.
또한, 소형 디바이스의 로컬 스토리지에 저장된 문서에서나 인공지능을 도입하기 힘든 기업의 서비스 프로그램에서의 검색 기능에 적용함으로써 다양한 기기나 시스템에서 검색 기능의 활용도를 향상시킬 수 있다.
또한, 외래어의 음차 표기 외에도 사소한 오타나 발음만 알고 표기는 모르는 사용자들의 키워드 검색에도 정확한 검색 결과를 도출할 수 있다.
도 1은 본 발명의 일 실시예에 따른 문자 데이터 변환에 기초한 키워드 검색 장치를 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 문자 데이터 변환에 기초한 키워드 검색 방법을 도시한 순서도이다.
도 3은 도 2의 원본의 문자 데이터를 음소 조합으로 변환하는 방법을 도시한 순서도이다.
도 4는 본 발명의 일 실시예에 따른 문자 데이터 처리 방법을 이용한 키워드 검색 과정을 도시한 예시도이다.
이하, 첨부한 도면들을 참고하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예에 대하여 상세히 설명하기로 한다. 각 도면에 제시된 참조부호들 중 동일한 참조부호는 동일한 부재를 나타낸다.
본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되는 것은 아니며, 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
도 1은 본 발명의 일 실시예에 따른 문자 데이터 변환에 기초한 키워드 검색 장치(100)를 도시한 블록도이다.
도 1을 참고하면, 문자 데이터 변환에 기초한 키워드 검색 장치(100)는 컴퓨팅 장치(10) 및 저장부(20)를 포함하고, 컴퓨팅 장치(10)는 변환 모듈(12) 및 검색 모듈(14)을 포함할 수 있다. 여기서, 변환 모듈(12)과 검색 모듈(14)은 하나의 프로세스 상에 구현되거나 각각 별도의 프로세서로 구현될 수 있다.
상기한 컴퓨팅 장치(10)는 퍼스널 컴퓨터, 서버, 스마트 폰, 테블릿 등 다양한 종류의 디바이스가 될 수 있다. 여기서, 컴퓨팅 장치(10)의 각 모듈은 프로그램을 기능별로 구분한 프로그램 단위 또는 해당 기능을 수행하는 알고리즘이거나 해당 기능을 수행하는 컴퓨터 기반의 하드웨어 장치일 수 있다.
변환 모듈(12)은 목표 키워드를 포함하는 원본의 문자 데이터를 문자 변환 알고리즘을 이용하여 목표 키워드에 대한 여러 표기들을 포괄하는 제1 음소 조합으로 변환하고, 원본의 문자 데이터와 제1 음소 조합을 연계하여 저장부(20)에 저장하도록 제어한다. 그리고, 변환 모듈(12)은 검색 키워드가 입력되면 검색 키워드를 문자 변환 알고리즘을 이용하여 제2 음소 조합으로 변환한다. 이러한 변환 모듈(12)은 미리 설정된 발음 규칙을 적용하여 목표 키워드를 포함하는 원본 문자 데이터와 검색 키워드를 제1 및 제2 음소 조합으로 변환하는 문자 변환 알고리즘을 이용할 수 있다.
검색 모듈(14)은 검색 키워드에 대응하는 제2 음소 조합과 목표 키워드를 포함하는 원본의 문자 데이터에 대응하는 제1 음소 조합을 비교하고, 상기 비교를 통해서 제2 음소 조합이 포함되는 제1 음소 조합을 검출하며, 제1 음소 조합에 연계된 목표 키워드를 검색한다. 이러한 검색 모듈(14)은 목표 키워드를 포함하는 원본 문자 데이터와 검색 키워드를 변환한 제1 및 제2 음소 조합으로 목표 키워드를 검색하는 키워드 검색 알고리즘을 이용할 수 있다.
저장부(20)는 컴퓨팅 장치(10)의 제어에 따라 원본의 문자 데이터와 이와 연계된 제1 음소 조합을 저장한다. 이러한 저장부(20)는 컴퓨팅 장치(10)와 전기적으로 연결된 메모리 장치이거나 데이터베이스로 구성할 수 있다. 일례로, 데이터베이스에서 활용할 경우 검색의 대상이 되는 키워드를 변환시켜 같은 테이블에 추가 칼럼을 생성해 저장할 수 있다. 또는 조인이 가능한 테이블을 따로 만들어 이용할 수 있다. 그리고, 텍스트 문서의 경우에는 원본 파일과 짝이 되는 파일을 추가로 생성하고, 변환 과정을 거친 문서에는 변환된 데이터가 원본 문서의 어느 위치에 있는지 인덱스 값을 함께 저장하여 이용할 수 있다.
도 2는 본 발명의 일 실시예에 따른 문자 데이터 변환에 기초한 키워드 검색 방법을 도시한 순서도이다.
도 2를 참고하면, 문자 데이터 변환에 기초한 키워드 검색 방법은, 목표 키워드를 포함하는 원본의 문자 데이터를 문자 변환 알고리즘을 이용하여 목표 키워드에 대한 여러 표기들을 포괄하는 제1 음소 조합으로 변환하는 단계(S10), 원본의 문자 데이터와 상기 제1 음소 조합을 연계하여 저장부에 저장하는 단계(S20), 검색 키워드가 입력되면 상기 검색 키워드를 문자 변환 알고리즘을 이용하여 제2 음소 조합으로 변환하는 단계(S30), 및 상기 제2 음소 조합과 상기 제1 음소 조합을 비교하여 상기 제2 음소 조합을 포함하고 있는 상기 제1 음소 조합을 검출하고 상기 제1 음소 조합에 대응하는 목표 키워드를 검색하는 단계(S40)를 포함한다. 여기서, 변환할 문자 데이터는 여러 줄의 문장이나 단어의 나열이 될 수 있다.
단계(S10)는 데이터베이스나 문서 파일에 원본 데이터와 함께 저장할 변환 문자열을 만드는 과정으로, 세부적으로는 발음 규칙을 적용할 단위로 입력된 값을 나누는 단계, 나누어진 단어를 음소 단위로 분해하는 단계, 각 초성, 중성, 종성에 발음 규칙을 적용해 들리는 대로 변환하는 단계, 각 자음과 모음을 대표 자음과 대표 모음으로 변환하는 단계, 장모음의 장음을 제거하는 단계, 자음으로 끝난 경우 'ㅡ'를 추가하는 단계로 이루어진다. 이러한 단계들은 시스템 설계에 따라 축소하거나 추가 변환을 진행할 수 있다. 이에 대한 상세한 설명은 도 3에서 추가 설명하기로 한다.
단계(S20)는 원본 데이터와 변환된 데이터를 연결하는 단계로, 기존의 문자 검색 방식의 최소한 변경만으로도 적용될 수 있어야 한다.
단계(S30)는 검색이 이루어졌을 때, 검색 키워드를 단계(S10)와 같은 방식으로 변환하는 단계로, 다른 모든 처리는 단계(S10)과 동일하지만 마지막 음절이 자음으로 끝나는 경우 모음 'ㅡ'를 추가하는 과정을 생략한다. 이러한 단계(S30)도 시스템 설계에 따라 축소하거나 추가 변환을 진행할 수 있다.
단계(S40)는 목표 키워드를 검색하는 단계로, 상기와 같이 변환된 문자를 이용해 데이터베이스나 문서 파일에서의 문자 검색 알고리즘에 그대로 적용해 검색할 수 있다.
도 3은 도 2의 원본의 문자 데이터를 음소 조합으로 변환하는 방법을 도시한 순서도이다.
도 3을 참고하면, 원본의 문자 데이터를 문자 변환 알고리즘을 이용하여 제1 음소 조합으로 변환하는 단계(S10)는, 원본의 문자 데이터를 문자열 단위로 분해하는 단계(S11), 문자열들을 음소 단위로 분해하는 단계(S12), 음소들을 발음 규칙을 적용하여 발음 나는 대로 변환하는 단계(S13), 음소들의 각 자음과 모음을 대표 자음과 대표 모음으로 변환하는 단계(S14), 음소들에서 장모음의 장음을 제거하는 단계(S15), 음소들 중 자음으로 끝난 음소의 경우 모음 'ㅡ'를 추가하는 단계(S16)를 포함한다.
문자열 단위로 분해하는 단계(S11)는 발음 규칙을 적용해야 하므로 이어서 발음하지 않는, 즉 띄어쓰기나 쉼표, 괄호, 외국어 문자 등 한글을 제외한 모든 문자를 기준으로 입력된 데이터를 분해하여 각각 따로 처리한다.
음소 단위로 분해하는 단계(S12)는 쌍자음의 경우에는 하나의 자음으로 취급을 하고 겹받침의 경우에는 기본 발음 규칙에 따라 하나의 자음으로 치환하거나 다음에 오는 자음과 합치는 것으로 처리한다.
발음 나는 대로 변환하는 단계(S13)는 음소로 분해가 된 데이터를 표준 발음 규칙을 적용해 실제 발음과 가장 가까운 형태로 변환하는 단계로, 한글은 문맥에 따라서도 발음 규칙이 달라지기 때문에 가장 기본적인 발음 규칙을 적용해야 한다. 대표적인 예로는 '이' 발음의 앞에서 발생하는 'ㅅ' 받침의 경우에는 'ㄴ' 첨가 현상이 일어나는데 조사일 경우에는 적용하지 않는다는 예외상황은 무시하고 기본 규칙대로 어떤 경우라도 'ㄴ'을 첨가한다.
단계(S14)는 음소들의 각 자음과 모음을 대표하는 대표 자음과 대표 모음으로 변환한다. 자음의 경우에는 초성이냐 종성에 따라 다른 규칙을 적용한다. 기본적인 규칙은 된소리와 거센소리를 기본 자음으로 변경하는 경우나 'ㄷ', 'ㅅ', 'ㅈ', 'ㅎ' 등이 종성으로 사용되었을 때에 'ㄷ'으로 통일하는 것 등이 있으며, 두 종류 이상의 각기 다른 자음들이나 모음들을 하나의 자음과 모음으로 변환된다. 모음의 경우에는 단 두 가지로 변환되는데 'ㅣ'와 'ㅡ'이다. 기준은 모든 모음이 둘 중에서 어떤 모음에 가까운지로 하며, 'ㅣ'로 변환되는 모음은 'ㅣ', 'ㅟ', 'ㅚ', 'ㅔ', 'ㅐ', 'ㅚ', 'ㅟ', 'ㅘ', 'ㅝ', 'ㅙ', 'ㅞ'이며, 나머지는 모두 'ㅡ'로 변환한다. 각 자음의 대표음은 아래의 <표 1>과 같다.
한편, 본 실시예는 각 자음의 대표음을 <표 1>과 같이 예시하고, 각 모음의 대표음을 'ㅡ'와 'ㅣ'로 예시하고 있으나, 이에 한정되는 것은 아니며, 다른 자음과 모음을 대표음으로 구성할 수 있으며, 다른 자음과 모음을 추가하거나 제외하는 것으로 구성할 수 있다. 즉, 각 자음과 모음의 대표음은 이 규칙을 적용할 시점이나 환경에 따라 변경될 수 있다.
Figure 112018051650055-pat00001
단계(S15)는 장모음의 장음을 제거하는 과정으로, 앞의 단계에서 변환된 결과에서 종성이 없는 모음의 다음에 나오는 'ㅇ'과 그 다음 모음이 앞의 모음과 같은 경우 'ㅇ'과 모음 하나를 제거해주는 것이다. 그 다음에도 같은 형식이 반복될 경우에는 모든 장음을 제거해준다.
단계(S16)는 마지막 음소가 자음으로 끝나는 경우 모음 'ㅡ'를 붙여주는 단계이다. 이 단계(S16)는 검색 키워드를 변환하는 단계(S30)에서는 생략된다.
일례로, 위의 순서대로 모든 변환 과정을 거치게 되면 '초콜릿', '촤칼렛', '쪼꼬레뜨'는 모두 같은 결과인 'ㅈㅡㄱㅡㄹㅣㄷㅡ'로 변환되며 검색어는 마지막 'ㅡ'가 생략된 'ㅈㅡㄱㅡㄹㅣㄷ'가 된다.
도 4는 본 발명의 일 실시예에 따른 문자 데이터 처리 방법을 이용한 키워드 검색 과정을 도시한 예시도이다.
도 4를 참고하면, '수입산 오렌지'라는 목표 키워드(대상 데이터)는 상술한 미리 설정된 규칙이 적용되는 문자 데이터 변환 알고리즘을 통해 변환되어 데이터베이스에 저장된다. 사용자가 '어린지'라는 검색 키워드를 이용해 검색을 시도하고자 할 때의 전체 과정은 도 4와 같이 나타낼 수 있다.
먼저, '수입산 오렌지'는 문자열 단위인 '수입산/오렌지'로 분해되고, 이어서 음소 단위인 'ㅅㅜㅇㅣㅂㅅㅏㄴ/ㅇㅗㄹㅔㄴㅈㅣ'로 분해된다.
이어서, 'ㅅㅜㅇㅣㅂㅅㅏㄴ/ㅇㅗㄹㅔㄴㅈㅣ'는 미리 설정된 발음 규칙을 기초로 'ㅅㅜㅇㅣㅂㅆㅏㄴ/ㅇㅗㄹㅔㄴㅈㅣ'로 변환되고, 'ㅅㅜㅇㅣㅂㅆㅏㄴ/ㅇㅗㄹㅔㄴㅈㅣ'는 대표음이 적용되어 'ㅅㅡㅇㅣㅂㅅㅡㄴ/ㅇㅡㄹㅣㄴㅈㅣ'로 변환된다.
이어서, ㅅㅡㅇㅣㅂㅅㅡㄴ/ㅇㅡㄹㅣㄴㅈㅣ'는 장음 제거 및 조건별 'ㅡ'가 추가되어 ㅅㅡㅇㅣㅂㅅㅡㄴㅡ/ㅇㅡㄹㅣㄴㅈㅣ'로 변환된다.
사용자가 입력한 검색 키워드 '어린지'는 상기와 같은 방식으로 'ㅇㅡㄹㅣㄴㅈㅣ'로 변환된다. '어린지'를 변환한 'ㅇㅡㄹㅣㄴㅈㅣ'는 대상 데이터 'ㅅㅡㅇㅣㅂㅅㅡㄴㅡ ㅇㅡㄹㅣㄴㅈㅣ'에 포함되어 있으므로, 단순 질의나 문자열 대입 알고리즘을 적용해 '오렌지'라는 검색 결과를 도출할 수 있다.
이와 같이 본 발명의 실시예에 따르면, 목표 키워드를 포함하는 원본의 문자 데이터를 목표 키워드에 대한 여러 표기들을 포괄하는 음소 조합으로 변환하고 이를 원본의 문자 데이터와 연계하여 저장부에 저장하며, 검색 키워드가 입력되면 검색 키워드를 상기와 같은 방식으로 변환한 음소 조합을 이용하여 대응하는 목표 키워드를 검색하므로, 단순 검색 프로세스를 활용하더라도 정확한 검색 결과를 도출할 수 있다.
또한, 소형 디바이스의 로컬 스토리지에 저장된 문서에서나 인공지능을 도입하기 힘든 기업의 서비스 프로그램에서의 검색 기능에 적용하여 다양한 기기나 시스템에서 검색 기능의 활용도를 더 높일 수 있다.
또한, 외래어의 음차 표기 외에도 사소한 오타나 발음만 알고 표기는 모르는 사용자들의 키워드 검색도 바로잡아줄 수 있다.
본 발명은 도면들에 도시된 실시예들을 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이들로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
10: 컴퓨팅 장치 12: 변환 모듈
14: 검색 모듈 20: 저장부

Claims (10)

  1. 목표 키워드를 포함하는 원본의 문자 데이터를 문자 변환 알고리즘을 이용하여 제1 음소 조합으로 변환하는 단계;
    상기 원본의 문자 데이터와 상기 제1 음소 조합을 연계하여 저장부에 저장하는 단계;
    검색 키워드가 입력되면 상기 검색 키워드를 문자 변환 알고리즘을 이용하여 제2 음소 조합으로 변환하는 단계; 및
    상기 제2 음소 조합과 상기 제1 음소 조합을 비교하여 상기 제2 음소 조합을 포함하는 상기 제1 음소 조합을 검출하고 상기 제1 음소 조합에 대응하는 상기 목표 키워드를 검색하는 단계;를 포함하고,
    상기 원본의 문자 데이터를 상기 제1 음소 조합으로 변환하는 단계는,
    상기 원본의 문자 데이터를 한글을 제외한 문자를 기준으로 문자열 단위로 분해하는 단계;
    상기 문자열들을 음소 단위로 분해하는 단계;
    상기 음소들을 발음 규칙을 적용하여 발음 나는 대로 변환하는 단계;
    상기 음소들 각각의 자음을 초성, 종성에 따라 대응하는 대표 자음으로 변환하고, 상기 음소들 각각의 모음을 대표 모음'ㅡ'또는 'ㅣ'로 변환하는 단계;
    상기 음소들에서 장모음의 장음을 제거하는 단계; 및
    상기 음소들 중 자음으로 끝난 음소의 경우 모음 'ㅡ'를 추가하는 단계;
    를 포함하는 문자 데이터 변환에 기초한 키워드 검색 방법.
  2. 삭제
  3. 제 1 항에 있어서, 상기 원본의 문자 데이터를 문자열 단위로 분해하는 단계는,
    띄어쓰기, 쉼표, 괄호를 포함하는 한글을 제외한 문자를 기준으로 분해하는 문자 데이터 변환에 기초한 키워드 검색 방법.
  4. 제 1 항에 있어서, 상기 문자열들을 음소 단위로 분해하는 단계는,
    쌍자음의 경우 하나의 자음으로 변환하고, 겹받침의 경우 초성, 중성, 종성에 따라 하나의 자음으로 변환하거나 다음에 오는 자음과 합치는 단계를 포함하는 문자 데이터 변환에 기초한 키워드 검색 방법.
  5. 제 1 항에 있어서, 상기 음소들의 각 자음과 모음을 대표 자음과 대표 모음으로 변환하는 단계는,
    자음의 경우 초성, 종성에 따라 된소리와 거센소리를 기본 자음으로 변환하거나 'ㄷ', 'ㅅ', 'ㅈ', 'ㅎ' 이 종성으로 사용되었을 때에 자음 'ㄷ' 으로 변환하는 단계; 및
    모음의 경우 'ㅣ', 'ㅟ', 'ㅚ', 'ㅔ', 'ㅐ', 'ㅚ', 'ㅟ', 'ㅘ', 'ㅝ', 'ㅙ', 'ㅞ'를 모음 'ㅣ'로 변환하고 나머지를 모음 'ㅡ'로 변환하는 단계;
    를 포함하는 문자 데이터 변환에 기초한 키워드 검색 방법.
  6. 제 1 항에 있어서, 상기 검색 키워드를 상기 제2 음소 조합으로 변환하는 단계는,
    상기 원본의 문자 데이터를 문자열 단위로 분해하는 단계;
    상기 문자열들을 음소 단위로 분해하는 단계;
    상기 음소들을 발음 규칙을 적용하여 발음 나는 대로 변환하는 단계;
    상기 음소들의 각 자음과 모음을 대표 자음과 대표 모음으로 변환하는 단계; 및
    상기 음소들에서 장모음의 장음을 제거하는 단계;
    를 포함하는 문자 데이터 변환에 기초한 키워드 검색 방법.
  7. 문자 데이터 변환에 기초한 키워드 검색을 수행하는 컴퓨팅 장치; 및
    상기 컴퓨팅 장치와 전기적으로 연결되는 저장부;를 포함하고,
    상기 컴퓨팅 장치는,
    목표 키워드를 포함하는 원본의 문자 데이터를 문자 변환 알고리즘을 이용하여 제1 음소 조합으로 변환하고, 상기 원본의 문자 데이터와 상기 제1 음소 조합을 연계하여 상기 저장부에 저장하도록 제어하며, 검색 키워드가 입력되면 상기 검색 키워드를 문자 변환 알고리즘을 이용하여 제2 음소 조합으로 변환하는 변환 모듈; 및
    상기 제2 음소 조합과 상기 저장부에 저장된 상기 제1 음소 조합을 비교하여 상기 제2 음소 조합을 포함하는 상기 제1 음소 조합을 검출하고 상기 제1 음소 조합에 대응하는 상기 목표 키워드를 검색하는 검색 모듈;을 포함하고,
    상기 변환 모듈은, 상기 원본의 문자 데이터를 상기 제1 음소 조합으로 변환 시, 상기 원본의 문자 데이터를 한글을 제외한 문자를 기준으로 문자열 단위로 분해하고, 상기 문자열들을 음소 단위로 분해하며, 상기 음소들을 발음 규칙을 적용하여 발음나는 대로 변환하며, 상기 음소들 각각의 자음을 초성, 종성에 따라 대응하는 대표 자음으로 변환하고, 상기 음소들 각각의 모음을 대표 모음 'ㅡ' 또는 'ㅣ'로 변환하며, 상기 음소들에서 장모음의 장음을 제거하고, 상기 음소들 중 자음으로 끝난 음소의 경우 모음 'ㅡ'를 추가하는 것을 특징으로 하는 문자 데이터 변환에 기초한 키워드 검색 장치.
  8. 삭제
  9. 제 7 항에 있어서, 상기 변환 모듈은,
    상기 문자열들을 음소 단위로 분해 시, 쌍자음의 경우 하나의 자음으로 변환하고, 겹받침의 경우 초성, 중성, 종성에 따라 하나의 자음으로 변환하거나 다음에 오는 자음과 합치는, 문자 데이터 변환에 기초한 키워드 검색 장치.
  10. 제 7 항에 있어서, 상기 변환 모듈은
    상기 음소들의 각 자음과 모음을 대표 자음과 대표 모음으로 변환 시,
    자음의 경우 초성, 종성에 따라 된소리와 거센소리를 기본 자음으로 변환하거나 'ㄷ', 'ㅅ', 'ㅈ', 'ㅎ' 이 종성으로 사용되었을 때에 자음 'ㄷ' 으로 변환하고, 모음의 경우 'ㅣ', 'ㅟ', 'ㅚ', 'ㅔ', 'ㅐ', 'ㅚ', 'ㅟ', 'ㅘ', 'ㅝ', 'ㅙ', 'ㅞ'를 모음 'ㅣ'로 변환하고 나머지를 모음 'ㅡ'로 변환하는, 문자 데이터 변환에 기초한 키워드 검색 장치.
KR1020180059939A 2018-05-25 2018-05-25 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치 KR101982490B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180059939A KR101982490B1 (ko) 2018-05-25 2018-05-25 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180059939A KR101982490B1 (ko) 2018-05-25 2018-05-25 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR101982490B1 true KR101982490B1 (ko) 2019-05-27

Family

ID=66679107

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180059939A KR101982490B1 (ko) 2018-05-25 2018-05-25 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR101982490B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022030732A1 (ko) * 2020-08-03 2022-02-10 주식회사 딥브레인에이아이 텍스트 전처리 장치 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050032759A (ko) * 2003-10-02 2005-04-08 한국전자통신연구원 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050032759A (ko) * 2003-10-02 2005-04-08 한국전자통신연구원 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022030732A1 (ko) * 2020-08-03 2022-02-10 주식회사 딥브레인에이아이 텍스트 전처리 장치 및 방법

Similar Documents

Publication Publication Date Title
US7831911B2 (en) Spell checking system including a phonetic speller
CN110543644A (zh) 包含术语翻译的机器翻译方法、装置与电子设备
JP5377889B2 (ja) 言語処理装置およびプログラム
US8612206B2 (en) Transliterating semitic languages including diacritics
US20110184723A1 (en) Phonetic suggestion engine
CN112417102B (zh) 一种语音查询方法、装置、服务器和可读存储介质
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
US8126714B2 (en) Voice search device
US20110238412A1 (en) Method for Constructing Pronunciation Dictionaries
US20120179694A1 (en) Method and system for enhancing a search request
JP2007517338A (ja) サーチ品質の改善システムおよび改善方法
US11531693B2 (en) Information processing apparatus, method and non-transitory computer readable medium
CN110211562B (zh) 一种语音合成的方法、电子设备及可读存储介质
TW201822190A (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
JP4738847B2 (ja) データ検索装置および方法
CN110555091A (zh) 一种基于词向量的联想词生成方法及装置
KR101982490B1 (ko) 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치
KR20120052591A (ko) 연속어 음성인식 시스템에서 오류수정 장치 및 방법
CN116680387A (zh) 基于检索增强的对话答复方法、装置、设备及存储介质
JP4084515B2 (ja) アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体
CN113536776A (zh) 混淆语句的生成方法、终端设备及计算机可读存储介质
JP4940251B2 (ja) 文書処理プログラム及び文書処理装置
JP3758241B2 (ja) 音声情報検索装置
JP2021089300A (ja) 多言語音声認識およびテーマ−意義素解析方法および装置
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant