KR102076548B1 - 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법 - Google Patents
형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법 Download PDFInfo
- Publication number
- KR102076548B1 KR102076548B1 KR1020180088304A KR20180088304A KR102076548B1 KR 102076548 B1 KR102076548 B1 KR 102076548B1 KR 1020180088304 A KR1020180088304 A KR 1020180088304A KR 20180088304 A KR20180088304 A KR 20180088304A KR 102076548 B1 KR102076548 B1 KR 102076548B1
- Authority
- KR
- South Korea
- Prior art keywords
- words
- electronic document
- tag information
- sentences
- preset
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명에 따른 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법은 다수의 전자 문서들 중 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출하고, 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정한 후 상기 다수의 단어들 중 형태소가 명사로 결정된 제1 단어들을 추출한 후 상기 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록함으로써, 사용자가 추후 검색 기능을 통해 상기 제1 전자 문서를 보다 쉽게 찾을 수 있다.
Description
본 발명은 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법에 대한 것이다.
하루 2000권의 책이 출판되고, 약 54억 GB 정도의 정보가 생산되고 있으며, 구글 사이트는 PDA로 검색하는 경우, 약 74,300,000 개의 검색 결과를 1초 내에 얻을 수 있을 정도로 정보가 폭발적으로 생산되고, 이를 검색하는 방법 또한 꾸준히 발전하고 있다.
과거에 사람들은 필요한 정보를 입수하기 위해, 서적이나 신문을 주로 이용하였으나, 근래에는 컴퓨터의 보편적인 보급과 처리 속도의 향상 및 네트워크 전송 기술의 발달로 인해 많은 사용자가 장소나 시간의 제약 없이 인터넷에서 원하는 정보를 입수할 수 있게 되었다.
또한, 가정이나 사무실에서 항상 컴퓨터를 이용하고 있는 상황에서 자신이 작성한 문서, 회의 자료 및 이미지와 같은 각종 정보를 컴퓨터에 저장해 놓는 것이 일반적이다.
이처럼, 정보의 과다한 생산과 더불어 사용자는 자신의 컴퓨터에 수많은 자료를 저장하게 되는 바, 이제는 정보를 찾는 것이 아닌 저장된 정보를 정리하고 구별하는 것이 더욱 중요한 문제가 되고 있는 실정이다.
일반적인 데스크탑 PC는 자료 탐색 기능을 지원하고 있으나, 현재의 자료 탐색은 폴더나 파일명으로만 처리되기 때문에 사용자가 이를 알지 못하는 경우, 원하는 파일을 탐색할 수 없는 문제점이 있었다.
이를 해결하기 위해, 근래에는 사용자 PC와 네트워크로 연결된 서버에서 사용자 PC에 저장된 파일에 존재하는 텍스트를 대상으로 검색이 가능하도록 지원하고 있다. 이에 따라 폴더나 파일명을 알지 못하더라도 원하는 파일을 검색할 수 있다.
그러나, 이러한 사용자 PC 검색 기능은 바이너리 파일(예를 들어, 이미지)을 구별하기 위한 특정 정보를 추가할 수 없고, HTML 파일을 정리하기 위한 분류를 추가할 수 없으며, 대상 파일의 정보에 기초한 검색만이 가능할 뿐, 대상 파일의 구별하고 정리하는 기능을 지원하지 못하였다.
근래에는 정보의 양이 아닌 정보를 적절하게 정리하고 빠르게 검색하기 위한 서비스가 더욱 중요시되고 있는 실정이나, 종래기술에 따르면, 이러한 서비스가 제공되지 못하는 문제점이 있었다.
본 발명에 따른 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법은 다수의 전자 문서들 중 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출하고, 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정한 후 상기 다수의 단어들 중 형태소가 명사로 결정된 제1 단어들을 추출한 후 상기 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록함으로써, 사용자가 추후 검색 기능을 통해 상기 제1 전자 문서를 보다 쉽게 찾을 수 있게 하고자 한다.
본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치는 다수의 전자 문서들 중 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출하는 문장 추출부, 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정하는 형태소 결정부 및 상기 다수의 단어들 중 형태소가 명사로 결정된 제1 단어들을 추출한 후 상기 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록하는 태그 정보 기록부를 포함한다.
또한, 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법은 다수의 전자 문서들 중 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출하는 문장 추출 단계, 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정하는 형태소 결정 단계 및 상기 다수의 단어들 중 형태소가 명사로 결정된 제1 단어들을 추출한 후 상기 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록하는 태그 정보 기록 단계를 포함한다.
본 발명에 따른 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법은 다수의 전자 문서들 중 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출하고, 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정한 후 상기 다수의 단어들 중 형태소가 명사로 결정된 제1 단어들을 추출한 후 상기 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록함으로써, 사용자가 추후 검색 기능을 통해 상기 제1 전자 문서를 보다 쉽게 찾을 수 있다.
도 1은 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치의 구성을 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법을 도시한 흐름도이다.
도 2는 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법을 도시한 흐름도이다.
이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
도 1은 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치(100)의 구성을 도시한 도면이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치(100)는 전자 문서 저장부(110), 단어 사전 저장부(120), 문장 추출부(130), 형태소 결정부(140), 태그 정보 기록부(150) 및 전자 문서 분류부(160)를 포함할 수 있다.
먼저, 전자 문서 저장부(110)는 하기 표 1과 같이 다수의 전자 문서들을 상기 다수의 전자 문서들을 각각의 태그 정보에 상응하는 전자 문서 저장 경로에 저장할 수 있다.
순번 | 전자 문서 저장 경로 | 태그 정보 | 전자 문서 |
1 | 전자 문서 저장 경로 1 | 태그 정보 1 태그 정보 2 태그 정보 3 |
전자 문서 1 전자 문서 2 |
2 | 전자 문서 저장 경로 2 | 태그 정보 1 태그 정보 4 태그 정보 5 |
전자 문서 3 전자 문서 4 전자 문서 5 |
3 | 전자 문서 저장 경로 3 | 태그 정보 2 태그 정보 6 태그 정보 7 |
전자 문서 6 |
4 | 전자 문서 저장 경로 4 | - | 전자 문서 7 전자 문서 8 전자 문서 9 |
... | ... | ... | ... |
여기에서, 전자 문서 저장 경로 1은 “C:\Users\Default\Documents\논문”이고, 전자 문서 저장 경로 2는 “C:\Users\Default\Documents\기사”이고, 전자 문서 저장 경로 3은 “C:\Users\Default\Documents\제품”이고, 전자 문서 저장 경로 4는 “C:\Users\Default\Documents\”일 수 있다. 또한, 태그 정보 1은 “물리”이고, 태그 정보 2는 “용량”이고, 태그 정보 3은 “규격”이고, 태그 정보 4는 “서울”이고, 태그 정보 5는 “회관”이고, 태그 정보 6은 “가격”이며, 태그 정보 7은 “성능”일 수 있다. 한편, 전자 문서 저장 경로 4는 사전 설정된 기본 문서 저장 경로, 즉, 사용자가 전자 문서 편집 시 원하는 경로를 지정하지 않고 전자 문서를 저장할 경우 자동으로 저장되는 경로일 수 있다.
단어 사전 저장부(120)는 다수의 단어들 각각에 형태소 정보 및 유사 단어 정보를 매칭시켜 저장하고 있을 수 있다. 예를 들어, “실내 공기를 순환시키기 위해”라는 문장에 포함되어 있는 단어들은 “실내(일반명사), 공기(일반명사), 를(목적격조사), 순환(일반명사), 시키(동사파생접미사), 기(명사형전성어미), 위하(동사), 아(연결어미)”로 형태소에 따라 구분될 수 있으며, 형태소에 따라 구분된 단어들은 관리자에 의해 사전 설정된 유사 단어 정보가 매칭되어 하기 표 2와 같이 단어 사전 저장부(120)에 저장될 수 있다. 여기에서, 유사 단어는 임의 단어에 대해 관리자가 임의 단어와 유사한 의미를 가지는 단어로 사전 설정한 단어일 수 있다.
순번 | 단어 | 품사 | 유사 단어 |
1 | 실내 | 일반명사 | 유사 단어 1, 유사 단어 2 |
2 | 공기 | 일반명사 | 유사 단어 3, 유사 단어 4 |
3 | 를 | 목적격조사 | 유사 단어 5, 유사 단어 6 |
4 | 순환 | 일반명사 | 유사 단어 7, 유사 단어 8 |
5 | 시키 | 동사파생접미사 | 유사 단어 9, 유사 단어 10 |
6 | 기 | 명사형전성어미 | 유사 단어 11, 유사 단어 12 |
일반명사 | 유사 단어 13, 유사 단어 14 | ||
7 | 위하다 | 동사 | 유사 단어 15, 유사 단어 16 |
8 | 아 | 연결어미 | 유사 단어 17, 유사 단어 18 |
감탄사 | 유사 단어 19, 유사 단어 20 |
다음으로, 문장 추출부(130)는 기본 문서 저장 경로에 저장되어 있는 다수의 전자 문서들 중 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출할 수 있다. 여기에서, 문장 추출부(130)는 기본 문서 저장 경로에 저장되어 있는 다수의 전자 문서들에서 저장 시간이 오래된 순서대로 제1 전자 문서를 선택한 후 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출할 수 있다.
예를 들어, 문장 추출부(130)는 기본 문서 저장 경로인 전자 문서 저장 경로 4에 저장되어 있는 전자 문서 7 내지 9 중 전자 문서 7에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출할 수 있다.
관련하여, 상기 문장 추출부(130)는 사전 설정된 문장 기준 부호들 사이에 위치하는 텍스트 개체들을 하나의 문장으로 추출함으로써, 상기 제1 전자 문서에 포함되어 있는 상기 다수의 텍스트 개체들로부터 상기 다수의 문장들을 추출할 수 있다. 여기에서, 사전 설정된 문장 기준 부호는 문장 부호들(예 : 아포스트로피(’ 및 '), 괄호([, ], (, ), {, }, < 및 >), 쌍점(:), 쉼표(,), 줄표(- 및 ―), 줄임표(… 및 ...), 느낌표(!), 마침표(. 및 。), 물음표(?), 따옴표(‘, ’, “ 및 ”), 쌍반점(;), 빗금(/), 가운뎃점 (·) 및 강제 개행 부호(\n)) 중에서 관리자에 의해 사전 설정된 문장 부호(예 : 강제 개행 부호(\n), 마침표(.), 쉼표(,))일 수 있다.
다음으로, 형태소 결정부(140)는 단어 사전 저장부(120)를 참조하여 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정할 수 있다.
예를 들어, 형태소 결정부(140)는 상기 다수의 문장들 중 제1 문장에서 띄어쓰기를 기준으로 단어들을 인식하고, 인식된 단어들의 문자들을 뒤에서부터 순차적으로 감소시킨 단어가 단어 사전 저장부(120)에 저장되어 있는 단어에 매칭되는지를 확인함으로써 상기 다수의 문장들에 포함되어 있는 다수의 단어들을 인식함과 동시에 형태소를 결정할 수 있다. 이러한 형태소 결정 방법은 하나의 예일 뿐이며, 형태소 결정부(140)는 사전에 공지되어 있는 다양한 자연어 처리 알고리즘을 통해 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정할 수 있다.
예를 들어, 제1 문장이 “실내 공기를 순환시키기 위해”인 경우, 형태소 결정부(140)는 상기 문장을 띄어쓰기를 기준으로, “실내”, “공기를”, “순환시키기” 및 “위해”로 구분하여 단어들을 인식한 후, 인식된 단어들의 문자들을 뒤에서부터 순차적으로 감소시킨 단어(예 : “순환시키기”에 대해, “순환시키기”, “순환시키”, “순환시”, “순환”으로 순차적으로 감소시킴)가 단어 사전 저장부(120)에 저장되어 있는 단어에 매칭되는지를 확인함으로써 상기 다수의 문장들에 포함되어 있는 다수의 단어들을 인식함과 동시에 형태소를 결정할 수 있다.
문자열을 순차적으로 조합한 후 단어 저장부(111)에 저장되어 있는 단어에 매칭되는지를 확인함으로써 단어 저장부(111)를 참조하여 인식된 다수의 문자열들에 포함되어 있는 단어들을 인식할 수 있다. 예컨대, 문자 인식부(120)는 “순환시키기”에 대해, “순환시키기”가 단어 저장부(111)에 저장되어 있는 단어에 매칭되지 않는 경우, “순환시키”가 단어 저장부(111)에 저장되어 있는 단어에 매칭되는지 확인하고, 매칭되지 않는 경우, “순환시”가 단어 저장부(111)에 저장되어 있는 단어에 매칭되는지 확인하고, 매칭되지 않는 경우, “순환”이 단어 저장부(111)에 저장되어 있는 단어에 매칭되는지 확인하고, 매칭되는 경우, 문자 인식부(120)는 “순환시키기”에서 “순환”이라는 단어를 추출하고, 이후, “시키기”에 대해 단어 추출을 수행할 수 있다. 여기에서, 상기 다수의 문자열들 각각은 다수의 단어들로 구성될 수 있으며, 다수의 단어들 각각은 다수의 문자들로 구성될 수 있다.
다음으로, 태그 정보 기록부(150)는 상기 다수의 단어들 중 형태소가 명사로 결정된 제1 단어들을 추출한 후 상기 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록할 수 있다.
예를 들어, 상기 전자 문서 7에 대해 하기 표 3과 같이 제1 단어들이 추출된 경우, 태그 정보 기록부(150)는 상기 제1 단어들을 상기 전자 문서 7의 메타 정보에 태그 정보로 기록할 수 있다.
순번 | 제1 단어 | 중복 횟수 | 글자 크기 | 글자 속성 |
1 | 물리 | 5 | 20 | 진하게, 밑줄 |
2 | 용량 | 4 | 20 | 진하게, 밑줄 |
3 | 규격 | 3 | 20 | 진하게, 밑줄 |
4 | 서울 | 5 | 14 | 밑줄 |
5 | 회관 | 7 | 12 | 밑줄 |
6 | 가격 | 5 | 10 | - |
7 | 성능 | 4 | 18 | 진하게, 밑줄 |
한편, 상기 태그 정보 기록부(150)는 상기 형태소가 명사로 결정된 제1 단어들의 개수가 사전 설정된 개수를 초과하면, 상기 제1 단어들이 상기 다수의 문장들에 중복하여 포함되어 있는 횟수에 상응하는 선택 점수 기초하여 상기 제1 단어들 중 상기 사전 설정된 개수의 제1 단어들을 선택한 후 상기 사전 설정된 개수의 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록할 수 있다. 여기에서, 사전 설정된 개수는 5일 수 있다.구체적으로, 상기 태그 정보 기록부(150)는 상기 제1 단어들 각각에 대해 설정된 서식 정보에 상응하는 가중치를 결정하고, 상기 제1 단어들이 상기 다수의 문장들에 중복하여 포함되어 있는 횟수에 상기 결정된 가중치를 곱하여 상기 선택 점수를 연산하며, 상기 선택 점수 기초하여 상기 제1 단어들 중 상기 사전 설정된 개수의 제1 단어들을 선택한 후 상기 사전 설정된 개수의 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록할 수 있다. 여기에서, 서식 정보에 상응하는 가중치는 아래 기준에 의해 결정될 수 있다.
기준 1. 제1 단어의 글자 크기를 최빈 글자 크기로 나누어준 값의 제곱 값을 글자 크기에 대한 서식 정보에 상응하는 가중치로 결정함. 상기 제1 단어가 상기 다수의 문장들에 중복하여 포함되어 있는 경우, 가장 큰 글자 크기를 기준으로 가중치를 결정함. 여기에서, 최빈 글자 크기는 다수의 글자의 글자 크기들 중 가장 많은 개수의 글자 크기일 수 있다.
기준 2. 제1 단어에 적용된 사전 설정된 글자 속성 개수에 사전 설정된 보정 값(예: 1.5)을 곱한 값을 글자 속성에 대한 서식 정보에 상응하는 가중치로 결정하되, 제1 단어에 적용된 사전 설정된 글자 속성 개수가 0인 경우, 가중치를 1로 결정함. 상기 제1 단어가 상기 다수의 문장들에 중복하여 포함되어 있는 경우, 가장 많은 글자 속성이 적용된 제1 단어를 기준으로 가중치를 결정함. 여기에서, 사전 설정된 글자 속성은 진하게, 기울임, 밑줄일 수 있다.
상기 태그 정보 기록부(150)는 상기 제1 단어들이 상기 다수의 문장들에 중복하여 포함되어 있는 횟수에 상기 기준 1에 의해 결정된 가중치(이하, ‘가중치 1’이라 함) 및 상기 기준 2에 의해 결정된 가중치(이하, ‘가중치 2’라 함)를 모두 곱하여 상기 선택 점수를 연산할 수 있다.
예를 들어, 상기 태그 정보 기록부(150)는 최빈 글자 크기가 10인 경우, 상기 표 3과 같은 상기 제1 단어들에 대한 상기 가중치 1, 상기 가중치 2 및 상기 선택 점수를 하기 표 4와 같이 결정할 수 있다.
순번 | 제1 단어 | 중복 횟수 | 가중치 1 | 가중치 2 | 선택 점수 |
1 | 물리 | 5 | 4 | 3 | 60 |
2 | 용량 | 4 | 4 | 3 | 48 |
3 | 규격 | 5 | 4 | 3 | 60 |
4 | 서울 | 5 | 1.96 | 1.5 | 14.7 |
5 | 회관 | 7 | 1.44 | 1.5 | 15.12 |
6 | 가격 | 5 | 1 | 1 | 5 |
7 | 성능 | 5 | 3.24 | 3 | 48.6 |
이에 따라, 상기 태그 정보 기록부(150)는 상기 선택 점수 기초하여 상기 제1 단어들 중 상기 사전 설정된 개수의 제1 단어들(즉, 물리, 규격, 성능, 용량 및 회관)을 선택한 후 상기 사전 설정된 개수의 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록할 수 있다.전자 문서 분류부(160)는 상기 제1 전자 문서의 상기 메타 정보에 기록된 상기 태그 정보 중 상기 선택 점수가 높은 상위 N개의 태그 정보와 동일한 태그 정보를 가지는 폴더에 저장되도록, 상기 제1 전자 문서의 전자 문서 저장 경로를 상기 폴더의 전자 문서 저장 경로로 변경할 수 있다. 이에 따라, 상위 N개의 태그 정보가 동일한 전자 문서들은 동일한 폴더에 저장될 수 있다. 여기에서, 상기 N은 1 이상 상기 사전 설정된 개수 이하의 정수일 수 있다. 예를 들어, N은 3일 수 있다.
예를 들어, 전자 문서 분류부(160)는 상기 전자 문서 7의 전자 문서 저장 경로를 물리, 규격, 성능을 태그 정보로 가지는 폴더의 전자 문서 저장 경로로 변경할 수 있다.
한편, 전자 문서 분류부(160)는 상기 제1 전자 문서의 상기 상위 N개의 태그 정보와 동일한 태그 정보를 가지는 전자 문서 저장 경로가 존재하지 않으면, 상기 선택 점수가 높은 상위 N-K개의 태그 정보와 동일한 태그 정보를 가지는 폴더에 저장되도록, 상기 제1 전자 문서의 전자 문서 저장 경로를 상기 폴더의 전자 문서 저장 경로로 변경할 수 있다. 여기에서, K는 1 이상 상기 사전 설정된 개수-1 이하의 정수일 수 있다. 예를 들어, K는 1일 수 있다.
따라서, 예를 들어, 물리, 규격, 성능을 태그 정보로 가지는 폴더가 존재하지 않으면, 전자 문서 분류부(160)는 물리, 규격,을 태그 정보로 가지는 폴더의 전자 문서 저장 경로, 즉, 전자 문서 저장 경로 1을 상기 전자 문서 7의 전자 문서 저장 경로로 변경할 수 있다.
또한, 전자 문서 분류부(160)는 상기 제1 전자 문서의 상기 상위 N-K개의 태그 정보와 동일한 태그 정보를 가지는 전자 문서 저장 경로가 존재하지 않으면, 상기 상위 N개의 태그 정보와 동일한 태그 정보를 폴더를 생성한 후 상기 제1 전자 문서의 전자 문서 저장 경로를 상기 생성된 폴더의 전자 문서 저장 경로로 변경할 수 있다.
도 2는 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치(100)의 동작 방법을 도시한 흐름도이다.
도 2를 참조하면, 단계(S210)에서는 다수의 전자 문서들 중 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출할 수 있다.
상기 단계(S210)에서는 사전 설정된 문장 기준 부호들 사이에 위치하는 텍스트 개체들을 하나의 문장으로 추출함으로써, 상기 제1 전자 문서에 포함되어 있는 상기 다수의 텍스트 개체들로부터 상기 다수의 문장들을 추출할 수 있다.
단계(S220)에서는 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정할 수 있다.
단계(S230)에서는 상기 다수의 단어들 중 형태소가 명사로 결정된 제1 단어들을 추출한 후 상기 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록할 수 있다.
상기 단계(S230)에서는 상기 형태소가 명사로 결정된 제1 단어들의 개수가 사전 설정된 개수를 초과하면, 상기 제1 단어들이 상기 다수의 문장들에 중복하여 포함되어 있는 횟수에 상응하는 선택 점수 기초하여 상기 제1 단어들 중 상기 사전 설정된 개수의 제1 단어들을 선택한 후 상기 사전 설정된 개수의 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록할 수 있다.
상기 단계(S230)에서는 상기 제1 단어들 각각에 대해 설정된 서식 정보에 상응하는 가중치를 결정하고, 상기 제1 단어들이 상기 다수의 문장들에 중복하여 포함되어 있는 횟수에 상기 결정된 가중치를 곱하여 상기 선택 점수를 연산하며, 상기 선택 점수 기초하여 상기 제1 단어들 중 상기 사전 설정된 개수의 제1 단어들을 선택한 후 상기 사전 설정된 개수의 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록할 수 있다.
한편, 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법은 상기 제1 전자 문서의 상기 메타 정보에 기록된 상기 태그 정보 중 상기 선택 점수가 높은 상위 N개의 태그 정보가 동일한 전자 문서들이 동일한 전자 문서 저장 경로를 가지도록, 상기 제1 전자 문서의 전자 문서 저장 경로를 상기 상위 N개의 태그 정보와 동일한 태그 정보를 가지는 전자 문서 저장 경로로 변경하는 전자 문서 분류 단계를 더 수행할 수 있다. 여기에서, 상기 N은 1 이상 상기 사전 설정된 개수 이하의 정수일 수 있다.
이상, 도 2를 참조하여 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법은 도 1을 이용하여 설명한 형태소 분석을 활용하여 문서를 관리하는 장치의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.
본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
또한, 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
Claims (12)
- 다수의 미리 설정된 단어들과 상기 다수의 미리 설정된 단어들 각각에 대응하는 형태소 정보를 매칭시켜 저장하고 있는 단어 사전 저장부;
다수의 전자 문서들 중 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출하는 문장 추출부;
상기 다수의 문장들 각각에 대해 띄어쓰기를 기준으로 단어들을 인식하고, 인식된 단어들의 문자들을 뒤에서부터 순차적으로 감소시킨 단어가 상기 단어 사전 저장부에 저장되어 있는 단어에 매칭되는지를 확인함으로써, 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정하는 형태소 결정부; 및
상기 다수의 단어들 중 형태소가 명사로 결정된 제1 단어들을 추출한 후 상기 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록하는 태그 정보 기록부
를 포함하고,
상기 문장 추출부는 사전 설정된 문장 기준 부호들 사이에 위치하는 텍스트 개체들을 하나의 문장으로 추출함으로써, 상기 제1 전자 문서에 포함되어 있는 상기 다수의 텍스트 개체들로부터 상기 다수의 문장들을 추출하고,
상기 태그 정보 기록부는 형태소가 명사로 결정된 상기 제1 단어들의 개수가 사전 설정된 개수를 초과하면, 상기 제1 단어들 각각에 대해 설정된 서식 정보에 상응하는 가중치를 결정하고, 상기 제1 단어들이 상기 다수의 문장들에 중복하여 포함되어 있는 횟수에 상기 결정된 가중치를 곱하여 상기 제1 단어들에 대한 선택 점수를 연산하며, 상기 선택 점수 기초하여 상기 제1 단어들 중 상기 사전 설정된 개수의 제1 단어들을 선택한 후 상기 사전 설정된 개수의 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록하고,
상기 가중치는 상기 제1 단어들의 글자 크기를 최빈 글자 크기 - 상기 최빈 글자 크기는 상기 제1 전자 문서에 포함된 글자들에 적용된 글자 크기들 중 가장 많은 개수를 차지하고 있는 글자 크기를 의미함 - 로 나누어준 값의 제곱 값인 가중치 1과 상기 제1 단어들에 적용되어 있는 글자 속성 개수에 사전 설정된 보정 값을 곱한 값인 가중치 2로 구성되며, 상기 태그 정보 기록부는 상기 제1 단어들이 상기 다수의 문장들에 중복하여 포함되어 있는 횟수에 상기 가중치 1과 2를 모두 곱하여 상기 제1 단어들에 대한 선택 점수를 연산하는
형태소 분석을 활용하여 문서를 관리하는 장치. - 삭제
- 삭제
- 삭제
- 제1항에 있어서,
상기 제1 전자 문서의 상기 메타 정보에 기록된 상기 태그 정보 중 상기 선택 점수가 높은 상위 N - 상기 N은 1 이상 상기 사전 설정된 개수 이하의 정수임 - 개의 태그 정보와 동일한 태그 정보를 가지는 폴더에 저장되도록, 상기 제1 전자 문서의 전자 문서 저장 경로를 상기 폴더의 전자 문서 저장 경로로 변경하는 전자 문서 분류부
를 더 포함하는 형태소 분석을 활용하여 문서를 관리하는 장치. - 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법에 있어서,
다수의 미리 설정된 단어들과 상기 다수의 미리 설정된 단어들 각각에 대응하는 형태소 정보를 매칭시켜 저장하고 있는 단어 사전 저장부를 유지하는 단계;
문장 추출부가, 다수의 전자 문서들 중 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출하는 문장 추출 단계;
형태소 결정부가, 상기 다수의 문장들 각각에 대해 띄어쓰기를 기준으로 단어들을 인식하고, 인식된 단어들의 문자들을 뒤에서부터 순차적으로 감소시킨 단어가 상기 단어 사전 저장부에 저장되어 있는 단어에 매칭되는지를 확인함으로써, 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정하는 형태소 결정 단계; 및
태그 정보 기록부가, 상기 다수의 단어들 중 형태소가 명사로 결정된 제1 단어들을 추출한 후 상기 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록하는 태그 정보 기록 단계
를 포함하고,
상기 문장 추출 단계는 사전 설정된 문장 기준 부호들 사이에 위치하는 텍스트 개체들을 하나의 문장으로 추출함으로써, 상기 제1 전자 문서에 포함되어 있는 상기 다수의 텍스트 개체들로부터 상기 다수의 문장들을 추출하고,
상기 태그 정보 기록 단계는 형태소가 명사로 결정된 상기 제1 단어들의 개수가 사전 설정된 개수를 초과하면, 상기 제1 단어들 각각에 대해 설정된 서식 정보에 상응하는 가중치를 결정하고, 상기 제1 단어들이 상기 다수의 문장들에 중복하여 포함되어 있는 횟수에 상기 결정된 가중치를 곱하여 상기 제1 단어들에 대한 선택 점수를 연산하며, 상기 선택 점수 기초하여 상기 제1 단어들 중 상기 사전 설정된 개수의 제1 단어들을 선택한 후 상기 사전 설정된 개수의 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록하고,
상기 가중치는 상기 제1 단어들의 글자 크기를 최빈 글자 크기 - 상기 최빈 글자 크기는 상기 제1 전자 문서에 포함된 글자들에 적용된 글자 크기들 중 가장 많은 개수를 차지하고 있는 글자 크기를 의미함 - 로 나누어준 값의 제곱 값인 가중치 1과 상기 제1 단어들에 적용되어 있는 글자 속성 개수에 사전 설정된 보정 값을 곱한 값인 가중치 2로 구성되며, 상기 태그 정보 기록 단계는 상기 제1 단어들이 상기 다수의 문장들에 중복하여 포함되어 있는 횟수에 상기 가중치 1과 2를 모두 곱하여 상기 제1 단어들에 대한 선택 점수를 연산하는
형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법. - 삭제
- 삭제
- 삭제
- 제6항에 있어서,
전자 문서 분류부가, 상기 제1 전자 문서의 상기 메타 정보에 기록된 상기 태그 정보 중 상기 선택 점수가 높은 상위 N - 상기 N은 1 이상 상기 사전 설정된 개수 이하의 정수임 - 개의 태그 정보와 동일한 태그 정보를 가지는 폴더에 저장되도록, 상기 제1 전자 문서의 전자 문서 저장 경로를 상기 폴더의 전자 문서 저장 경로로 변경하는 전자 문서 분류 단계
를 더 포함하는 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법. - 제6항 또는 제10항 중 어느 한 항의 방법을 컴퓨터로 하여금 수행하도록 하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
- 제6항 또는 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180088304A KR102076548B1 (ko) | 2018-07-30 | 2018-07-30 | 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180088304A KR102076548B1 (ko) | 2018-07-30 | 2018-07-30 | 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200013298A KR20200013298A (ko) | 2020-02-07 |
KR102076548B1 true KR102076548B1 (ko) | 2020-02-12 |
Family
ID=69569458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180088304A KR102076548B1 (ko) | 2018-07-30 | 2018-07-30 | 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102076548B1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11526674B2 (en) * | 2019-03-01 | 2022-12-13 | Rakuten Group, Inc. | Sentence extraction system, sentence extraction method, and information storage medium |
KR102375507B1 (ko) * | 2020-03-16 | 2022-03-17 | 주식회사 한글과컴퓨터 | 문서에 삽입된 개체와 관련 키워드들의 매칭을 통해 문서로부터의 개체 검색을 지원하는 전자 장치 및 그 동작 방법 |
KR102518843B1 (ko) * | 2022-07-12 | 2023-04-06 | 망고클라우드 주식회사 | Lda를 이용한 기업 컨텐츠 관리 시스템 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101846347B1 (ko) * | 2017-08-04 | 2018-04-06 | 주식회사 신영이에스디 | 대용량 문서의 관리 방법 및 그 장치 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000063488A (ko) * | 2000-07-18 | 2000-11-06 | 박은일 | 전자화된 문서의 의미적 지식 데이터베이스 자동구축장치와 방법 및 그 기록매체 |
KR101092356B1 (ko) * | 2008-12-22 | 2011-12-09 | 한국전자통신연구원 | 상호 정보를 이용한 형태소 품사 태깅 장치 및 방법 |
KR101136037B1 (ko) * | 2009-11-06 | 2012-04-18 | 동국대학교 산학협력단 | 문서의 색인화 및 검색을 위한 방법 및 장치 |
US9582486B2 (en) * | 2014-05-13 | 2017-02-28 | Lc Cns Co., Ltd. | Apparatus and method for classifying and analyzing documents including text |
KR101948257B1 (ko) * | 2016-11-30 | 2019-02-15 | 주식회사 와이즈넛 | 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법 |
-
2018
- 2018-07-30 KR KR1020180088304A patent/KR102076548B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101846347B1 (ko) * | 2017-08-04 | 2018-04-06 | 주식회사 신영이에스디 | 대용량 문서의 관리 방법 및 그 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR20200013298A (ko) | 2020-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7788262B1 (en) | Method and system for creating context based summary | |
US8762358B2 (en) | Query language determination using query terms and interface language | |
JP4637181B2 (ja) | 文書構造に基づいた検索結果の表示 | |
US11645475B2 (en) | Translation processing method and storage medium | |
US20120109978A1 (en) | Augmenting queries with synonyms from synonyms map | |
US8515731B1 (en) | Synonym verification | |
KR102076548B1 (ko) | 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법 | |
JP2007517338A (ja) | サーチ品質の改善システムおよび改善方法 | |
JP2009537901A (ja) | 検索による注釈付与 | |
US9798776B2 (en) | Systems and methods for parsing search queries | |
WO2013148852A1 (en) | Named entity extraction from a block of text | |
US20160048482A1 (en) | Method for automatically partitioning an article into various chapters and sections | |
WO2021043088A1 (zh) | 文件查询方法、装置、计算机设备及存储介质 | |
US9501559B2 (en) | User-guided search query expansion | |
CN107168966B (zh) | 一种搜索引擎索引构建方法及装置 | |
JP2005301856A (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
CN114297143A (zh) | 一种搜索文件的方法、显示文件的方法、装置及移动终端 | |
JP2013050890A (ja) | テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法 | |
US20160085760A1 (en) | Method for in-loop human validation of disambiguated features | |
JP7122773B2 (ja) | 辞書構築装置、辞書の生産方法、およびプログラム | |
KR101835994B1 (ko) | 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치 | |
US11150871B2 (en) | Information density of documents | |
JP4934115B2 (ja) | キーワード抽出装置、方法及びプログラム | |
JP3848014B2 (ja) | 文書検索方法および文書検索装置 | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |