KR20230029256A - 한글 문자열 검색 방법 및 이의 수행하기 위한 시스템 - Google Patents
한글 문자열 검색 방법 및 이의 수행하기 위한 시스템 Download PDFInfo
- Publication number
- KR20230029256A KR20230029256A KR1020210111537A KR20210111537A KR20230029256A KR 20230029256 A KR20230029256 A KR 20230029256A KR 1020210111537 A KR1020210111537 A KR 1020210111537A KR 20210111537 A KR20210111537 A KR 20210111537A KR 20230029256 A KR20230029256 A KR 20230029256A
- Authority
- KR
- South Korea
- Prior art keywords
- unique
- unique code
- stem
- consonant
- character string
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000007935 neutral effect Effects 0.000 claims abstract description 24
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 22
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
한글 문자열 검색 방법이 개시된다. 한글 문자열 검색 방법은 사용자의 입력으로부터 용언(用言) 글자를 검출하는 제1 단계; 상기 용언 글자들 각각에 대해 초성, 중성 및 종성 분해한 후 각각에 제1 내지 제3 고유코드를 각각 부여하는 제2 단계; 인공 지능 시스템을 이용하여 상기 용언의 어간을 추출하는 제3 단계; 및 검색대상으로부터 추출된 어간과 동일한 고유코드 순서를 포함하는 문자열을 검출하는 제4 단계를 구비할 수 있다.
Description
본 발명은 모든 종류의 문자열 포함 파일로부터 특정 한글 문자열 및 이의 변형 문자열을 검색할 수 있는 방법 및 이를 수행하기 위한 시스템에 관한 것이다.
4차 산업혁명 등 사회 패러다임의 변화로 산업간 융·복합이 가속화되어 새로운 가치 창출의 핵심원천으로 데이터에 대한 관심이 급격히 부상하고 있다. IDC의 보고서에 따르면 오늘날의 데이터는 80% 이상이 정형화되어 있지 않아 과학적인 데이터의 분석에 어려움을 겪고 있는 것으로 조사되고 있다.
전자문서 및 문자에 대한 기계 가독성을 향상시키고 과학적인 데이터 분석을 위한 전처리 자동화 기술이 시급히 요구되고 있지만, 문자 및 문서의 내용은 한글 코드 체계의 한계에 부딛혀 미래지향적인 인공지능(Strong AI)이 아니라 걸음마 수준의 인공지능(Week AI) 단계를 답보하고 있는 실정이다.
일반적으로, 특정 문서를 대상으로 사용자가 원하는 문자열을 포함하는 부분을 검색하거나 사용자가 원하는 문자열을 포함하는 자료를 검색하는 경우, 사용자가 찾기를 원하는 특정 문자열이 우선 입력된다.
워드 프로세서와 같은 문서 작성 프로그램의 경우, 실행중인 텍스트 파일에서 해당 문자열을 포함하는 부분이 구분 표시되거나, 해당 문자열을 포함하는 부분으로 디스플레이 영역이 이동되기도 한다. 또한, 인터넷을 통해 공개된 자료들 중 사용자가 원하는 자료 검색에 흔히 이용되는 검색 엔진의 경우, 사용자가 입력한 키워드를 포함하는 자료들이 인터넷 서비스 업체의 정책에 따른 순서로 제시된다.
이 때, 어간과 어미로 이루어져 있는 용언의 경우, 종래의 문자열 검색 방법에 따르면, 어미의 다양한 변화로 인하여 사용자가 입력한 단일 검색 문자열로는 동일한 의미를 갖는 용언을 모두 검색할 수 없는 문제점이 있다.
본 발명의 일 목적은 텍스트 파일로부터 단일 검색어를 통해 용언의 모든 변형 문자열을 모두 검색할 수 있는 한글 문자열 검색 방법을 제공하는 것이다.
본 발명의 다른 목적은 상기 방법을 수행하기 위한 시스템을 제공하는 것이다.
본 발명의 실시예에 따른 한글 문자열 검색 방법은, 사용자의 입력으로부터 용언(用言) 글자를 검출하는 제1 단계; 상기 용언 글자들 각각에 대해 초성, 중성 및 종성 분해한 후 각각에 제1 내지 제3 고유코드를 각각 부여하는 제2 단계; 인공 지능 시스템을 이용하여 상기 용언의 어간을 추출하는 제3 단계; 및 검색대상으로부터 추출된 어간과 동일한 고유코드 순서를 포함하는 문자열을 검출하는 제4 단계를 포함할 수 있다.
본 발명의 다른 실시예에 따른 한글 문자열 검색 방법은, 사용자의 입력으로부터 용언(用言) 글자를 검출하는 제1 단계; 인공 지능 시스템을 이용하여 상기 용언의 어간을 추출하는 제2 단계; 상기 어간 글자들 각각에 대해 초성, 중성 및 종성 분해한 후 각각에 제1 내지 제3 고유코드를 각각 부여하는 제3 단계; 및 검색대상으로부터 추출된 어간과 동일한 고유코드 순서를 포함하는 문자열을 검출하는 제4 단계를 포함할 수 있다.
일 실시예에 있어서, 상기 사용자의 입력은 문자, 이미지 또는 소리를 포함할 수 있다.
일 실시예에 있어서, 상기 제1 고유코드는 14개의 기본 자음에 대응되는 고유코드들로 이루어지고, 상기 제2 문자코드는 10개의 기본 모음에 대응되는 고유코드들로 이루어지며, 상기 제3 고유코드는 14개의 기본 자음에 대응되고, 상기 제1 고유코드와 다른 고유코드들로 이루어질 수 있다.
일 실시예에 있어서, 상기 제1 및 제3 고유코드에 있어서, 쌍자음 및 복자음에 대해서는 상기 쌍자음 또는 복자음을 구성하는 2개의 기본 자음에 대한 고유코드들이 연속적으로 부여되고, 상기 제2 고유코드에 있어서, 복모음에 대해서는 상기 복모음을 구성하는 2개의 기본 모음에 대한 고유코드들이 연속적으로 부여되는 될 수 있다.
일 실시예에 있어서, 상기 어간은 인공지능 시스템(AI System)을 이용하여 사용자의 입력으로부터 추출될 수 있다.
일 실시예에 있어서, 상기 검색 대상은 웹 문서 파일, 워드 문서 파일, 이미지 문서 파일 또는 음성 파일을 포함할 수 있다.
일 실시예에 있어서, 상기 검색 대상에 포함된 텍스트 문자들에 대해 상기 제1 내지 제3 고유코드들이 부여된 후 상기 어간과 동일한 고유코드 순서를 포함하는 문자열을 검출할 수 있다.
본 발명의 실시예에 따른 한글 문자열 검색 시스템은, 사용자의 입력 및 검색대상으로부터 한글 글자를 검출하는 입력부; 상기 입력부로부터 글자 정보를 수신하고, 이들 각각에 대해 초성 자음, 중성 모음 및 중성 자음을 분해한 후 상기 초성 자음, 중성 모음 및 중성 자음에 기 설정된 제1 고유코드, 제2 고유코드 및 제3 고유코드를 각각 부여하는 고유코드 부여부; 및 상기 고유코드 부여부로부터 상기 제1 내지 제3 고유코드가 부여된 글자 정보를 수신하고, 인공지능 시스템부를 이용하여 상기 사용자의 입력 글자로부터 용언의 어간을 추출한 후 상기 어간의 고유코드 순서와 상기 검색대상의 글자로부터 파악된 고유코드들을 비교하여, 상기 검색대상으로부터 상기 어간의 고유코드 순서와 동일한 고유코드 순서를 포함하는 문자열을 검출하는 처리부;를 포함할 수 있다. ‘
일 실시예에 있어서, 상기 제1 고유코드는 14개의 기본 자음에 대응되는 고유코드들로 이루어지고, 상기 제2 문자코드는 10개의 기본 모음에 대응되는 고유코드들로 이루어지며, 상기 제3 고유코드는 14개의 기본 자음에 대응되고, 상기 제1 고유코드와 다른 고유코드들로 이루어질 수 있다.
일 실시예에 있어서, 상기 제1 및 제3 고유코드에 있어서, 쌍자음 및 복자음에 대해서는 상기 쌍자음 또는 복자음을 구성하는 2개의 기본 자음에 대한 고유코드들이 연속적으로 부여되고, 상기 제2 고유코드에 있어서, 복모음에 대해서는 상기 복모음을 구성하는 2개의 기본 모음에 대한 고유코드들이 연속적으로 부여될 수 있다.
일 실시예에 있어서, 상기 처리부에 의해 검출된 상기 검색대상의 문자열을 사용자가 인식할 수 있도록 표시하는 출력부를 더 포함할 수 있다.
본 발명의 한글 문자열 검색 방법 및 이를 수행하기 위한 한글 문자열 검색 시스템에 따르면, 용언의 어간에 표준화된 테그(Tag)를 부여함으로써 기계가 인식 가능한 XML 데이터를 생성할 수 있고, 그 결과 특정 용언에 대한 단일 검색어를 이용하여 그 용언의 다양한 활용형태를 모두 한꺼번에 검색할 수 있다.
도 1은 본 발명의 일 실시예에 따른 한글 문자열 검색 방법을 설명하기 위한 순서도이다.
도 2는 본 발명의 실시예에 따른 한글 문자열 검색 시스템을 설명하기 위한 블록도이다.
도 2는 본 발명의 실시예에 따른 한글 문자열 검색 시스템을 설명하기 위한 블록도이다.
이하, 첨부한 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명한다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. 첨부된 도면에 있어서, 구조물들의 치수는 본 발명의 명확성을 기하기 위하여 실제보다 확대하여 도시한 것이다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로서 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 명서에서 있어서, “용언(用言)”은 어간(語幹)과 어미(語尾)로 이루어지고, 독립된 뜻을 가지며 상기 어미를 활용하여 문장성분으로서 서술어의 기능을 하는 말을 나타낸다.
도 1은 본 발명의 일 실시예에 따른 한글 문자열 검색 방법을 설명하기 위한 순서도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 한글 문자열 검색 방법은 사용자의 입력으로부터 용언(用言) 글자를 검출하는 제1 단계(S110); 상기 용언 글자들 각각에 대해 초성, 중성 및 종성 분해한 후 각각에 제1 내지 제3 고유코드를 각각 부여하는 제2 단계(S120); 인공 지능 시스템을 이용하여 상기 용언의 어간을 추출하는 제3 단계(S130); 및 검색대상으로부터 추출된 어간과 동일한 고유코드 순서를 포함하는 문자열을 검출하는 제4 단계(S140)를 포함할 수 있다.
상기 제1 단계(S110)에 있어서, 사용자의 입력으로부터 용언 글자를 검출할 수 있다. 상기 사용자의 입력은 문자, 이미지, 소리 등을 포함할 수 있다. 상기 사용자의 입력이 이미지 또는 소리인 경우, 상기 이미지 또는 소리로부터 글자를 인식한 후 이로부터 용언 한글 글자를 검출할 수 있다. 이 경우, 상기 이미지 또는 소리로부터 글자를 인식하는 방법은 특별히 제한되지 않는다. 예를 들면, 딥 러닝(Deep Learning) 등과 같은 인공 신경망 프로그램이 적용된 인공지능 시스템(AI System)을 이용하여 이미지 또는 소리로부터 글자를 인식할 수 있다.
상기 제2 단계(S120)에 있어서, 추출된 용언 글자들 각각에 대해 초성 자음, 중성 모음 및 중성 자음을 분해한 후 이들 각각에 기 설정된 제1 고유코드, 제2 고유코드 및 제3 고유코드를 각각 부여할 수 있다.
상기 제1 고유코드는 초성 자음들에 대한 고유코드들을 포함할 수 있다.
일 실시예에 있어서, 상기 제1 고유코드는 ㄱ, ㄴ, ㄷ, ㄹ, ㅁ, ㅂ, ㅅ, ㅇ, ㅈ, ㅊ, ㅋ, ㅌ, ㅍ, ㅎ 등과 같은 14개의 기본 자음에 대응되는 고유코드들로 이루어질 수 있다. 이 경우, 상기 14개의 기본 자음 외에 상기 초성 자음들에 적용되는 ㄲ, ㄸ, ㅃ, ㅆ, ㅉ 등과 같은 5개의 쌍자음에 대해서는, 쌍자음을 이루는 2개의 기본 자음들에 대한 고유코드들이 적용될 수 있다. 예를 들면, 쌍자음인 “ㄲ”이 초성 자음으로 적용된 글자의 경우, 초성 자음이 기본 자음 “ㄱ”과 기본 자음 “ㄱ”으로 이루어진 것으로 인식하여, 상기 “ㄲ”에 대해서는 “ㄱ”에 대한 고유코드 2개를 연속적으로 부여할 수 있다.
상기 제2 고유코드는 중성 모음에 대한 고유코드들을 포함할 수 있다.
일 실시예에 있어서, 상기 제2 문자코드는 ㅏ, ㅑ, ㅓ, ㅕ, ㅗ, ㅛ, ㅜ, ㅠ, ㅡ, ㅣ 등과 같은 10개의 기본 모음에 대응되는 고유코드들로 이루어질 수 있다. 이 경우, 상기 10개의 기본 모음 외에 상기 중성 모음들에 적용되는 ㅐ, ㅒ, ㅔ, ㅖ, ㅘ, ㅙ, ㅚ, ㅝ, ㅞ, ㅟ, ㅢ 등과 같은 11개의 복모음에 대해서는, 복모음을 이루는 2개의 기본 모음들에 대한 고유코드들이 연속적으로 적용될 수 있다. 예를 들면, 복모음인 “ㅐ”이 중성 모음으로 적용된 글자의 경우, 상기 중성 모음이 기본 모음 "ㅏ”와 기본 자음 “ㅣ”으로 이루어진 것으로 인식하여, 상기 “ㅐ”에 대해서는 “ㅏ”에 대한 고유코드와 “ㅣ”에 대한 고유코드를 연속적으로 부여할 수 있다.
상기 제3 고유코드는 종성 자음들에 대한 고유코드들을 포함할 수 있다.
일 실시예에 있어서, 상기 제3 고유코드는 ㄱ, ㄴ, ㄷ, ㄹ, ㅁ, ㅂ, ㅅ, ㅇ, ㅈ, ㅊ, ㅋ, ㅌ, ㅍ, ㅎ 등과 같은 14개의 기본 자음에 대응되는 고유코드들로 이루어질 수 있다. 이 경우, 상기 14개의 기본 자음 외에 상기 종성 자음들에 적용되는 ㄲ, ㄸ, ㅃ, ㅆ, ㅉ 등과 같은 5개의 쌍자음 및 ㄳ, ㄵ, ㄶ, ㄺ, ㄻ, ㄼ, ㄽ, ㄾ, ㄿ, ㅀ, ㅄ 등과 같은 11개의 복자음에 대해서는, 쌍자음 및 복자음에 적용되는 2개의 기본 자음들에 대한 고유코드들이 적용될 수 있다. 예를 들면, 복자음인 “ㄳ”이 종성 자음으로 적용된 글자의 경우, 종성 자음이 기본 자음 “ㄱ”과 기본 자음 “ㅅ”으로 이루어진 것으로 인식하여 “ㄱ”에 대한 고유코드 및 “ㅅ”에 대한 고유코드를 연속적으로 부여할 수 있다.
한편, 상기 제3 고유코드들은 상기 제1 고유코드들과는 구별되는 다른 고유코드들일 수 있다. 예를 들면, ㄱ, ㄴ, ㄷ, ㄹ, ㅁ, ㅂ, ㅅ, ㅇ, ㅈ, ㅊ, ㅋ, ㅌ, ㅍ, ㅎ 등과 같은 14개의 기본 자음에 대한 초성 자음의 고유코드들과 종성 자음의 고유코드들은 서로 다르게 부여될 수 있다.
상기 제3 단계(S130)에 있어서, 딥 러닝(Deep Learning) 등과 같은 인공 신경망 프로그램이 적용된 인공지능 시스템(AI System)을 이용하여 사용자의 입력으로부터 검출된 용언의 어간을 추출할 수 있다. 상기 인공지능 시스템(AI System)은 사용자의 학습에 의해 상기 용언으로부터 어간을 추출할 수 있고, 그 학습법은 특별히 제한되지 않는다. 용언(用言)은 일반적으로 어미(語尾)를 활용하여 문장성분으로서 서술어의 기능하는데, 어간은 이러한 용언의 활용에서 변화하지 않고 유지된다. 예를 들면, “바꾸다”라는 용언은 어미의 변화를 통해 “바꾸니”“바꿔라”“바꾼”“바꿀”“바꿨다”등으로 활용될 수 있고, 이러한 활용에서 어간인 “바꾸”는 변화하지 않고 유지될 수 있고, 상기 인공지능 시스템(AI System)은 “바꾸다”“바꾸니”“바꿔라”“바꾼”“바꿀”“바꿨다”등으로부터 선택된 하나의 용언으로부터 어간인 “바꾸”를 추출할 수 있다.
상기 제4 단계(S140)에 있어서, 검색대상으로부터 추출된 어간과 동일한 고유코드 순서를 포함하는 문자열을 검출할 수 있다.
상기 검색 대상은 텍스트를 직간접적으로 포함하는 모든 형태의 파일을 포함할 수 있다. 예를 들면, 상기 검색 대상은 웹 문서 파일, 워드 문서 파일, 이미지 문서 파일, 음성 파일 등을 포함할 수 있다.
상기 검색 대상에 직간접적으로 포함된 텍스트 문자들에 대해서는 상기 제2 단계(S120)에서 설명한 제1 내지 제3 고유코드들이 먼저 부여될 수 있고, 상기 제4 단계(S140)에서는 이와 같이 제1 내지 제3 고유코드들이 부여된 상기 검색 대상의 문자들에 대해서 사용자로부터 입력된 용언의 어간과 동일한 고유코드 순서를 포함하는 문자열들을 모두 검출할 수 있다. 예를 들면, 사용자가 “바꾸다”를 입력한 경우, 상기 검색대상으로부터 어간인 “바꾸”와 동일한 고유코드 순서를 포함하는 문자열인 “바꾸다”“바꾸니”“바꿔라”“바꾼”“바꿀”“바꿨다”등의 활용형태들을 모두 검출할 수 있다.
한편, 본 발명의 다른 실시예에 따른 한글 문자열 검색 방법은 사용자의 입력으로부터 용언(用言) 글자를 검출하는 제1 단계(S110); 인공 지능 시스템을 이용하여 상기 용언의 어간을 추출하는 제2 단계(S120); 상기 어간 글자들 각각에 대해 초성, 중성 및 종성 분해한 후 각각에 제1 내지 제3 고유코드를 각각 부여하는 제3 단계(S130); 및 검색대상으로부터 추출된 어간과 동일한 고유코드 순서를 포함하는 문자열을 검출하는 제4 단계(S140)를 포함할 수 있다.
본 실시예에 따른 한글 문자열 검색 방법은 인공 지능 시스템을 이용하여 상기 용언의 어간을 추출한 후 상기 어간 글자들 각각에 대해 초성, 중성 및 종성 분해한 후 각각에 제1 내지 제3 고유코드를 각각 부여하는 것을 제외하고는 도 1을 참조하여 설명한 한글 문자열 검색 방법과 실질적으로 동일하므로, 이하에서는 중복된 상세한 설명은 생략한다.
도 2는 본 발명의 실시예에 따른 한글 문자열 검색 시스템을 설명하기 위한 블록도이다.
도 1과 함께 도 2를 참조하면, 본 발명의 실시예에 따른 한글 문자열 검색 시스템(100)은 입력부(110), 고유코드 부여부(120), 처리부(130), 인공지능 시스템부(140) 및 출력부(150)을 포함할 수 있다.
상기 입력부(110)는 사용자의 입력 및 검색대상으로부터 글자를 인식할 수 있다. 이 경우, 상기 사용자의 입력이 이미지, 소리 등이거나, 상기 검색 대상이 이미지 파일인 경우에 상기 입력부(110)는 상기 인공지능 시스템부(140)를 통해 상기 이미지 또는 소리로부터 글자를 인식한 후 이로부터 글자를 검출할 수 있다.
상기 고유코드 부여부(120)는 상기 입력부(110)로부터 검출된 사용자의 입력 글자 및 검색대상의 글자 정보를 수신할 수 있고, 수신된 정보의 글자들 각각에 대해 초성 자음, 중성 모음 및 중성 자음을 분해한 후 이들 각각에 기 설정된 제1 고유코드, 제2 고유코드 및 제3 고유코드를 각각 부여할 수 있다. 상기 제1 내지 제3 고유코드는 앞에서 설명한 것들과 실질적으로 동일하므로, 이에 대한 중복된 상세한 설명은 생략한다.
상기 처리부(130)는 상기 고유코드 부여부(120)로부터 상기 제1 내지 제3 고유코드가 부여된 글자 정보를 수신할 수 있고, 이 중 사용자의 입력 글자에 대한 정보를 상기 인공지능 시스템부(140)에 제공할 수 있다. 그리고 상기 인공지능 시스템부(140)는 상기 처리부(130)에 제공된 사용자의 입력 글자로부터 용언의 어간을 추출하여 상기 처리부(130)에 제공할 수 있다. 또한, 상기 처리부(130)는 상기 인공지능 시스템부(140)로부터 제공된 상기 어간의 고유코드 순서와 상기 검색대상의 글자로부터 파악된 고유코드들을 비교하여, 상기 검색대상으로부터 상기 어간의 고유코드 순서와 동일한 고유코드 순서를 포함하는 문자열을 검출할 수 있다.
상기 출력부(150)는 상기 검색대상으로부터 상기 처리부(130)에 의해 검출된 문자열을 사용자가 인식할 수 있도록 표시할 수 있다. 상기 출력부(150)의 표시방법은 특별히 제한되지 않는다.
본 발명의 한글 문자열 검색 방법 및 이를 수행하기 위한 한글 문자열 검색 시스템에 따르면, 용언의 어간에 표준화된 테그(Tag)를 부여함으로써 기계가 인식 가능한 XML 데이터를 생성할 수 있고, 그 결과 특정 용언에 대한 단일 검색어를 이용하여 그 용언의 다양한 활용형태를 모두 한꺼번에 검색할 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 한글 문자열 검색 시스템
110: 입력부
120: 고유코드 부여부 130: 처리부
140: 인공지능 시스템부 150: 출력부
120: 고유코드 부여부 130: 처리부
140: 인공지능 시스템부 150: 출력부
Claims (12)
- 사용자의 입력으로부터 용언(用言) 글자를 검출하는 제1 단계;
상기 용언 글자들 각각에 대해 초성, 중성 및 종성 분해한 후 각각에 제1 내지 제3 고유코드를 각각 부여하는 제2 단계;
인공 지능 시스템을 이용하여 상기 용언의 어간을 추출하는 제3 단계; 및
검색대상으로부터 추출된 어간과 동일한 고유코드 순서를 포함하는 문자열을 검출하는 제4 단계를 포함하는, 한글 문자열 검색 방법. - 사용자의 입력으로부터 용언(用言) 글자를 검출하는 제1 단계;
인공 지능 시스템을 이용하여 상기 용언의 어간을 추출하는 제2 단계;
상기 어간 글자들 각각에 대해 초성, 중성 및 종성 분해한 후 각각에 제1 내지 제3 고유코드를 각각 부여하는 제3 단계; 및
검색대상으로부터 추출된 어간과 동일한 고유코드 순서를 포함하는 문자열을 검출하는 제4 단계를 포함하는, 한글 문자열 검색 방법. - 제1항 또는 제2항에 있어서,
상기 사용자의 입력은 문자, 이미지 또는 소리를 포함하는 것을 특징으로 하는, 한글 문자열 검색 방법. - 제1항 또는 제2항에 있어서,
상기 제1 고유코드는 14개의 기본 자음에 대응되는 고유코드들로 이루어지고,
상기 제2 문자코드는 10개의 기본 모음에 대응되는 고유코드들로 이루어지며,
상기 제3 고유코드는 14개의 기본 자음에 대응되고, 상기 제1 고유코드와 다른 고유코드들로 이루어진 것을 특징으로 하는, 한글 문자열 검색 방법. - 제4항에 있어서,
상기 제1 및 제3 고유코드에 있어서, 쌍자음 및 복자음에 대해서는 상기 쌍자음 또는 복자음을 구성하는 2개의 기본 자음에 대한 고유코드들이 연속적으로 부여되고,
상기 제2 고유코드에 있어서, 복모음에 대해서는 상기 복모음을 구성하는 2개의 기본 모음에 대한 고유코드들이 연속적으로 부여되는 되는 것을 특징으로 하는, 한글 문자열 검색 방법. - 제1항 또는 제2항에 있어서,
상기 어간은 인공지능 시스템(AI System)을 이용하여 사용자의 입력으로부터 추출되는 것을 특징으로 하는, 한글 문자열 검색 방법. - 제1항 또는 제2항에 있어서,
상기 검색 대상은 웹 문서 파일, 워드 문서 파일, 이미지 문서 파일 또는 음성 파일을 포함하는 것을 특징으로 하는, 한글 문자열 검색 방법. - 제7항에 있어서,
상기 검색 대상에 포함된 텍스트 문자들에 대해 상기 제1 내지 제3 고유코드들이 부여된 후 상기 어간과 동일한 고유코드 순서를 포함하는 문자열을 검출하는 것을 특징으로 하는, 한글 문자열 검색 방법. - 사용자의 입력 및 검색대상으로부터 한글 글자를 검출하는 입력부;
상기 입력부로부터 글자 정보를 수신하고, 이들 각각에 대해 초성 자음, 중성 모음 및 중성 자음을 분해한 후 상기 초성 자음, 중성 모음 및 중성 자음에 기 설정된 제1 고유코드, 제2 고유코드 및 제3 고유코드를 각각 부여하는 고유코드 부여부; 및
상기 고유코드 부여부로부터 상기 제1 내지 제3 고유코드가 부여된 글자 정보를 수신하고, 인공지능 시스템부를 이용하여 상기 사용자의 입력 글자로부터 용언의 어간을 추출한 후 상기 어간의 고유코드 순서와 상기 검색대상의 글자로부터 파악된 고유코드들을 비교하여, 상기 검색대상으로부터 상기 어간의 고유코드 순서와 동일한 고유코드 순서를 포함하는 문자열을 검출하는 처리부;를 포함하는, 한글 문자열 검색 시스템. - 제9항에 있어서,
상기 제1 고유코드는 14개의 기본 자음에 대응되는 고유코드들로 이루어지고,
상기 제2 문자코드는 10개의 기본 모음에 대응되는 고유코드들로 이루어지며,
상기 제3 고유코드는 14개의 기본 자음에 대응되고, 상기 제1 고유코드와 다른 고유코드들로 이루어진 것을 특징으로 하는, 한글 문자열 검색 시스템. - 제10항에 있어서,
상기 제1 및 제3 고유코드에 있어서, 쌍자음 및 복자음에 대해서는 상기 쌍자음 또는 복자음을 구성하는 2개의 기본 자음에 대한 고유코드들이 연속적으로 부여되고,
상기 제2 고유코드에 있어서, 복모음에 대해서는 상기 복모음을 구성하는 2개의 기본 모음에 대한 고유코드들이 연속적으로 부여되는 되는 것을 특징으로 하는, 한글 문자열 검색 시스템. - 제9항에 있어서,
상기 처리부에 의해 검출된 상기 검색대상의 문자열을 사용자가 인식할 수 있도록 표시하는 출력부를 더 포함하는 것을 특징으로 하는, 한글 문자열 검색 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210111537A KR20230029256A (ko) | 2021-08-24 | 2021-08-24 | 한글 문자열 검색 방법 및 이의 수행하기 위한 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210111537A KR20230029256A (ko) | 2021-08-24 | 2021-08-24 | 한글 문자열 검색 방법 및 이의 수행하기 위한 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230029256A true KR20230029256A (ko) | 2023-03-03 |
Family
ID=85510194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210111537A KR20230029256A (ko) | 2021-08-24 | 2021-08-24 | 한글 문자열 검색 방법 및 이의 수행하기 위한 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20230029256A (ko) |
-
2021
- 2021-08-24 KR KR1020210111537A patent/KR20230029256A/ko not_active Application Discontinuation
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2571373C2 (ru) | Метод анализа тональности текстовых данных | |
US10535042B2 (en) | Methods of offering guidance on common language usage utilizing a hashing function consisting of a hash triplet | |
US10157177B2 (en) | System and method for extracting entities in electronic documents | |
KR102199835B1 (ko) | 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법 | |
EP2296094A1 (en) | Document analysis, commenting, and reporting system | |
RU2697647C1 (ru) | Система и метод автоматического создания шаблонов | |
KR102080081B1 (ko) | 해외 건설 계약서 내의 독소 조항 및 누락 조항의 자동 검토 프로그램 | |
RU2665261C1 (ru) | Восстановление текстовых аннотаций, связанных с информационными объектами | |
JP2019191900A (ja) | 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム | |
WO2021129074A1 (zh) | 用于处理程序代码中的变量的引用的方法和系统 | |
AU2021203728A1 (en) | User interface operation based on token frequency of use in text | |
US10120843B2 (en) | Generation of parsable data for deep parsing | |
CN111539383B (zh) | 公式知识点识别方法及装置 | |
CN112287071A (zh) | 一种文本关系提取方法、装置及电子设备 | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
US10936825B1 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using transducers applied on a structured language space | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
Hoffswell et al. | Interactive repair of tables extracted from pdf documents on mobile devices | |
CN111046627A (zh) | 一种中文文字显示方法及系统 | |
GB2530639A (en) | User interface operation based on similar spelling of tokens in text | |
CN116360794A (zh) | 数据库语言解析方法、装置、计算机设备及存储介质 | |
KR20230029256A (ko) | 한글 문자열 검색 방법 및 이의 수행하기 위한 시스템 | |
Iqbal et al. | Urdu spell checking: Reverse edit distance approach | |
Demilie et al. | Automated all in one misspelling detection and correction system for Ethiopian languages | |
Florea et al. | Improving writing for Romanian language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal |