KR102076548B1 - 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법 - Google Patents

형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법 Download PDF

Info

Publication number
KR102076548B1
KR102076548B1 KR1020180088304A KR20180088304A KR102076548B1 KR 102076548 B1 KR102076548 B1 KR 102076548B1 KR 1020180088304 A KR1020180088304 A KR 1020180088304A KR 20180088304 A KR20180088304 A KR 20180088304A KR 102076548 B1 KR102076548 B1 KR 102076548B1
Authority
KR
South Korea
Prior art keywords
words
electronic document
tag information
sentences
preset
Prior art date
Application number
KR1020180088304A
Other languages
English (en)
Other versions
KR20200013298A (ko
Inventor
원찬식
Original Assignee
주식회사 한글과컴퓨터
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 한글과컴퓨터 filed Critical 주식회사 한글과컴퓨터
Priority to KR1020180088304A priority Critical patent/KR102076548B1/ko
Publication of KR20200013298A publication Critical patent/KR20200013298A/ko
Application granted granted Critical
Publication of KR102076548B1 publication Critical patent/KR102076548B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따른 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법은 다수의 전자 문서들 중 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출하고, 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정한 후 상기 다수의 단어들 중 형태소가 명사로 결정된 제1 단어들을 추출한 후 상기 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록함으로써, 사용자가 추후 검색 기능을 통해 상기 제1 전자 문서를 보다 쉽게 찾을 수 있다.

Description

형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법{APPARATUS FOR MANAGING DOCUMENT UTILIZING OF MORPHOLOGICAL ANALYSIS AND OPERATING METHOD THEREOF}
본 발명은 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법에 대한 것이다.
하루 2000권의 책이 출판되고, 약 54억 GB 정도의 정보가 생산되고 있으며, 구글 사이트는 PDA로 검색하는 경우, 약 74,300,000 개의 검색 결과를 1초 내에 얻을 수 있을 정도로 정보가 폭발적으로 생산되고, 이를 검색하는 방법 또한 꾸준히 발전하고 있다.
과거에 사람들은 필요한 정보를 입수하기 위해, 서적이나 신문을 주로 이용하였으나, 근래에는 컴퓨터의 보편적인 보급과 처리 속도의 향상 및 네트워크 전송 기술의 발달로 인해 많은 사용자가 장소나 시간의 제약 없이 인터넷에서 원하는 정보를 입수할 수 있게 되었다.
또한, 가정이나 사무실에서 항상 컴퓨터를 이용하고 있는 상황에서 자신이 작성한 문서, 회의 자료 및 이미지와 같은 각종 정보를 컴퓨터에 저장해 놓는 것이 일반적이다.
이처럼, 정보의 과다한 생산과 더불어 사용자는 자신의 컴퓨터에 수많은 자료를 저장하게 되는 바, 이제는 정보를 찾는 것이 아닌 저장된 정보를 정리하고 구별하는 것이 더욱 중요한 문제가 되고 있는 실정이다.
일반적인 데스크탑 PC는 자료 탐색 기능을 지원하고 있으나, 현재의 자료 탐색은 폴더나 파일명으로만 처리되기 때문에 사용자가 이를 알지 못하는 경우, 원하는 파일을 탐색할 수 없는 문제점이 있었다.
이를 해결하기 위해, 근래에는 사용자 PC와 네트워크로 연결된 서버에서 사용자 PC에 저장된 파일에 존재하는 텍스트를 대상으로 검색이 가능하도록 지원하고 있다. 이에 따라 폴더나 파일명을 알지 못하더라도 원하는 파일을 검색할 수 있다.
그러나, 이러한 사용자 PC 검색 기능은 바이너리 파일(예를 들어, 이미지)을 구별하기 위한 특정 정보를 추가할 수 없고, HTML 파일을 정리하기 위한 분류를 추가할 수 없으며, 대상 파일의 정보에 기초한 검색만이 가능할 뿐, 대상 파일의 구별하고 정리하는 기능을 지원하지 못하였다.
근래에는 정보의 양이 아닌 정보를 적절하게 정리하고 빠르게 검색하기 위한 서비스가 더욱 중요시되고 있는 실정이나, 종래기술에 따르면, 이러한 서비스가 제공되지 못하는 문제점이 있었다.
본 발명에 따른 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법은 다수의 전자 문서들 중 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출하고, 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정한 후 상기 다수의 단어들 중 형태소가 명사로 결정된 제1 단어들을 추출한 후 상기 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록함으로써, 사용자가 추후 검색 기능을 통해 상기 제1 전자 문서를 보다 쉽게 찾을 수 있게 하고자 한다.
본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치는 다수의 전자 문서들 중 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출하는 문장 추출부, 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정하는 형태소 결정부 및 상기 다수의 단어들 중 형태소가 명사로 결정된 제1 단어들을 추출한 후 상기 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록하는 태그 정보 기록부를 포함한다.
또한, 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법은 다수의 전자 문서들 중 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출하는 문장 추출 단계, 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정하는 형태소 결정 단계 및 상기 다수의 단어들 중 형태소가 명사로 결정된 제1 단어들을 추출한 후 상기 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록하는 태그 정보 기록 단계를 포함한다.
본 발명에 따른 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법은 다수의 전자 문서들 중 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출하고, 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정한 후 상기 다수의 단어들 중 형태소가 명사로 결정된 제1 단어들을 추출한 후 상기 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록함으로써, 사용자가 추후 검색 기능을 통해 상기 제1 전자 문서를 보다 쉽게 찾을 수 있다.
도 1은 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치의 구성을 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법을 도시한 흐름도이다.
이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
도 1은 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치(100)의 구성을 도시한 도면이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치(100)는 전자 문서 저장부(110), 단어 사전 저장부(120), 문장 추출부(130), 형태소 결정부(140), 태그 정보 기록부(150) 및 전자 문서 분류부(160)를 포함할 수 있다.
먼저, 전자 문서 저장부(110)는 하기 표 1과 같이 다수의 전자 문서들을 상기 다수의 전자 문서들을 각각의 태그 정보에 상응하는 전자 문서 저장 경로에 저장할 수 있다.
순번 전자 문서 저장 경로 태그 정보 전자 문서
1 전자 문서 저장 경로 1 태그 정보 1
태그 정보 2
태그 정보 3
전자 문서 1
전자 문서 2
2 전자 문서 저장 경로 2 태그 정보 1
태그 정보 4
태그 정보 5
전자 문서 3
전자 문서 4
전자 문서 5
3 전자 문서 저장 경로 3 태그 정보 2
태그 정보 6
태그 정보 7
전자 문서 6
4 전자 문서 저장 경로 4 - 전자 문서 7
전자 문서 8
전자 문서 9
... ... ... ...
여기에서, 전자 문서 저장 경로 1은 “C:\Users\Default\Documents\논문”이고, 전자 문서 저장 경로 2는 “C:\Users\Default\Documents\기사”이고, 전자 문서 저장 경로 3은 “C:\Users\Default\Documents\제품”이고, 전자 문서 저장 경로 4는 “C:\Users\Default\Documents\”일 수 있다. 또한, 태그 정보 1은 “물리”이고, 태그 정보 2는 “용량”이고, 태그 정보 3은 “규격”이고, 태그 정보 4는 “서울”이고, 태그 정보 5는 “회관”이고, 태그 정보 6은 “가격”이며, 태그 정보 7은 “성능”일 수 있다. 한편, 전자 문서 저장 경로 4는 사전 설정된 기본 문서 저장 경로, 즉, 사용자가 전자 문서 편집 시 원하는 경로를 지정하지 않고 전자 문서를 저장할 경우 자동으로 저장되는 경로일 수 있다.
단어 사전 저장부(120)는 다수의 단어들 각각에 형태소 정보 및 유사 단어 정보를 매칭시켜 저장하고 있을 수 있다. 예를 들어, “실내 공기를 순환시키기 위해”라는 문장에 포함되어 있는 단어들은 “실내(일반명사), 공기(일반명사), 를(목적격조사), 순환(일반명사), 시키(동사파생접미사), 기(명사형전성어미), 위하(동사), 아(연결어미)”로 형태소에 따라 구분될 수 있으며, 형태소에 따라 구분된 단어들은 관리자에 의해 사전 설정된 유사 단어 정보가 매칭되어 하기 표 2와 같이 단어 사전 저장부(120)에 저장될 수 있다. 여기에서, 유사 단어는 임의 단어에 대해 관리자가 임의 단어와 유사한 의미를 가지는 단어로 사전 설정한 단어일 수 있다.
순번 단어 품사 유사 단어
1 실내 일반명사 유사 단어 1, 유사 단어 2
2 공기 일반명사 유사 단어 3, 유사 단어 4
3 목적격조사 유사 단어 5, 유사 단어 6
4 순환 일반명사 유사 단어 7, 유사 단어 8
5 시키 동사파생접미사 유사 단어 9, 유사 단어 10
6 명사형전성어미 유사 단어 11, 유사 단어 12
일반명사 유사 단어 13, 유사 단어 14
7 위하다 동사 유사 단어 15, 유사 단어 16
8 연결어미 유사 단어 17, 유사 단어 18
감탄사 유사 단어 19, 유사 단어 20
다음으로, 문장 추출부(130)는 기본 문서 저장 경로에 저장되어 있는 다수의 전자 문서들 중 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출할 수 있다. 여기에서, 문장 추출부(130)는 기본 문서 저장 경로에 저장되어 있는 다수의 전자 문서들에서 저장 시간이 오래된 순서대로 제1 전자 문서를 선택한 후 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출할 수 있다.
예를 들어, 문장 추출부(130)는 기본 문서 저장 경로인 전자 문서 저장 경로 4에 저장되어 있는 전자 문서 7 내지 9 중 전자 문서 7에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출할 수 있다.
관련하여, 상기 문장 추출부(130)는 사전 설정된 문장 기준 부호들 사이에 위치하는 텍스트 개체들을 하나의 문장으로 추출함으로써, 상기 제1 전자 문서에 포함되어 있는 상기 다수의 텍스트 개체들로부터 상기 다수의 문장들을 추출할 수 있다. 여기에서, 사전 설정된 문장 기준 부호는 문장 부호들(예 : 아포스트로피(’ 및 '), 괄호([, ], (, ), {, }, < 및 >), 쌍점(:), 쉼표(,), 줄표(- 및 ―), 줄임표(… 및 ...), 느낌표(!), 마침표(. 및 。), 물음표(?), 따옴표(‘, ’, “ 및 ”), 쌍반점(;), 빗금(/), 가운뎃점 (·) 및 강제 개행 부호(\n)) 중에서 관리자에 의해 사전 설정된 문장 부호(예 : 강제 개행 부호(\n), 마침표(.), 쉼표(,))일 수 있다.
다음으로, 형태소 결정부(140)는 단어 사전 저장부(120)를 참조하여 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정할 수 있다.
예를 들어, 형태소 결정부(140)는 상기 다수의 문장들 중 제1 문장에서 띄어쓰기를 기준으로 단어들을 인식하고, 인식된 단어들의 문자들을 뒤에서부터 순차적으로 감소시킨 단어가 단어 사전 저장부(120)에 저장되어 있는 단어에 매칭되는지를 확인함으로써 상기 다수의 문장들에 포함되어 있는 다수의 단어들을 인식함과 동시에 형태소를 결정할 수 있다. 이러한 형태소 결정 방법은 하나의 예일 뿐이며, 형태소 결정부(140)는 사전에 공지되어 있는 다양한 자연어 처리 알고리즘을 통해 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정할 수 있다.
예를 들어, 제1 문장이 “실내 공기를 순환시키기 위해”인 경우, 형태소 결정부(140)는 상기 문장을 띄어쓰기를 기준으로, “실내”, “공기를”, “순환시키기” 및 “위해”로 구분하여 단어들을 인식한 후, 인식된 단어들의 문자들을 뒤에서부터 순차적으로 감소시킨 단어(예 : “순환시키기”에 대해, “순환시키기”, “순환시키”, “순환시”, “순환”으로 순차적으로 감소시킴)가 단어 사전 저장부(120)에 저장되어 있는 단어에 매칭되는지를 확인함으로써 상기 다수의 문장들에 포함되어 있는 다수의 단어들을 인식함과 동시에 형태소를 결정할 수 있다.
문자열을 순차적으로 조합한 후 단어 저장부(111)에 저장되어 있는 단어에 매칭되는지를 확인함으로써 단어 저장부(111)를 참조하여 인식된 다수의 문자열들에 포함되어 있는 단어들을 인식할 수 있다. 예컨대, 문자 인식부(120)는 “순환시키기”에 대해, “순환시키기”가 단어 저장부(111)에 저장되어 있는 단어에 매칭되지 않는 경우, “순환시키”가 단어 저장부(111)에 저장되어 있는 단어에 매칭되는지 확인하고, 매칭되지 않는 경우, “순환시”가 단어 저장부(111)에 저장되어 있는 단어에 매칭되는지 확인하고, 매칭되지 않는 경우, “순환”이 단어 저장부(111)에 저장되어 있는 단어에 매칭되는지 확인하고, 매칭되는 경우, 문자 인식부(120)는 “순환시키기”에서 “순환”이라는 단어를 추출하고, 이후, “시키기”에 대해 단어 추출을 수행할 수 있다. 여기에서, 상기 다수의 문자열들 각각은 다수의 단어들로 구성될 수 있으며, 다수의 단어들 각각은 다수의 문자들로 구성될 수 있다.
다음으로, 태그 정보 기록부(150)는 상기 다수의 단어들 중 형태소가 명사로 결정된 제1 단어들을 추출한 후 상기 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록할 수 있다.
예를 들어, 상기 전자 문서 7에 대해 하기 표 3과 같이 제1 단어들이 추출된 경우, 태그 정보 기록부(150)는 상기 제1 단어들을 상기 전자 문서 7의 메타 정보에 태그 정보로 기록할 수 있다.
순번 제1 단어 중복 횟수 글자 크기 글자 속성
1 물리 5 20 진하게, 밑줄
2 용량 4 20 진하게, 밑줄
3 규격 3 20 진하게, 밑줄
4 서울 5 14 밑줄
5 회관 7 12 밑줄
6 가격 5 10 -
7 성능 4 18 진하게, 밑줄
한편, 상기 태그 정보 기록부(150)는 상기 형태소가 명사로 결정된 제1 단어들의 개수가 사전 설정된 개수를 초과하면, 상기 제1 단어들이 상기 다수의 문장들에 중복하여 포함되어 있는 횟수에 상응하는 선택 점수 기초하여 상기 제1 단어들 중 상기 사전 설정된 개수의 제1 단어들을 선택한 후 상기 사전 설정된 개수의 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록할 수 있다. 여기에서, 사전 설정된 개수는 5일 수 있다.구체적으로, 상기 태그 정보 기록부(150)는 상기 제1 단어들 각각에 대해 설정된 서식 정보에 상응하는 가중치를 결정하고, 상기 제1 단어들이 상기 다수의 문장들에 중복하여 포함되어 있는 횟수에 상기 결정된 가중치를 곱하여 상기 선택 점수를 연산하며, 상기 선택 점수 기초하여 상기 제1 단어들 중 상기 사전 설정된 개수의 제1 단어들을 선택한 후 상기 사전 설정된 개수의 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록할 수 있다. 여기에서, 서식 정보에 상응하는 가중치는 아래 기준에 의해 결정될 수 있다.
기준 1. 제1 단어의 글자 크기를 최빈 글자 크기로 나누어준 값의 제곱 값을 글자 크기에 대한 서식 정보에 상응하는 가중치로 결정함. 상기 제1 단어가 상기 다수의 문장들에 중복하여 포함되어 있는 경우, 가장 큰 글자 크기를 기준으로 가중치를 결정함. 여기에서, 최빈 글자 크기는 다수의 글자의 글자 크기들 중 가장 많은 개수의 글자 크기일 수 있다.
기준 2. 제1 단어에 적용된 사전 설정된 글자 속성 개수에 사전 설정된 보정 값(예: 1.5)을 곱한 값을 글자 속성에 대한 서식 정보에 상응하는 가중치로 결정하되, 제1 단어에 적용된 사전 설정된 글자 속성 개수가 0인 경우, 가중치를 1로 결정함. 상기 제1 단어가 상기 다수의 문장들에 중복하여 포함되어 있는 경우, 가장 많은 글자 속성이 적용된 제1 단어를 기준으로 가중치를 결정함. 여기에서, 사전 설정된 글자 속성은 진하게, 기울임, 밑줄일 수 있다.
상기 태그 정보 기록부(150)는 상기 제1 단어들이 상기 다수의 문장들에 중복하여 포함되어 있는 횟수에 상기 기준 1에 의해 결정된 가중치(이하, ‘가중치 1’이라 함) 및 상기 기준 2에 의해 결정된 가중치(이하, ‘가중치 2’라 함)를 모두 곱하여 상기 선택 점수를 연산할 수 있다.
예를 들어, 상기 태그 정보 기록부(150)는 최빈 글자 크기가 10인 경우, 상기 표 3과 같은 상기 제1 단어들에 대한 상기 가중치 1, 상기 가중치 2 및 상기 선택 점수를 하기 표 4와 같이 결정할 수 있다.
순번 제1 단어 중복 횟수 가중치 1 가중치 2 선택 점수
1 물리 5 4 3 60
2 용량 4 4 3 48
3 규격 5 4 3 60
4 서울 5 1.96 1.5 14.7
5 회관 7 1.44 1.5 15.12
6 가격 5 1 1 5
7 성능 5 3.24 3 48.6
이에 따라, 상기 태그 정보 기록부(150)는 상기 선택 점수 기초하여 상기 제1 단어들 중 상기 사전 설정된 개수의 제1 단어들(즉, 물리, 규격, 성능, 용량 및 회관)을 선택한 후 상기 사전 설정된 개수의 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록할 수 있다.전자 문서 분류부(160)는 상기 제1 전자 문서의 상기 메타 정보에 기록된 상기 태그 정보 중 상기 선택 점수가 높은 상위 N개의 태그 정보와 동일한 태그 정보를 가지는 폴더에 저장되도록, 상기 제1 전자 문서의 전자 문서 저장 경로를 상기 폴더의 전자 문서 저장 경로로 변경할 수 있다. 이에 따라, 상위 N개의 태그 정보가 동일한 전자 문서들은 동일한 폴더에 저장될 수 있다. 여기에서, 상기 N은 1 이상 상기 사전 설정된 개수 이하의 정수일 수 있다. 예를 들어, N은 3일 수 있다.
예를 들어, 전자 문서 분류부(160)는 상기 전자 문서 7의 전자 문서 저장 경로를 물리, 규격, 성능을 태그 정보로 가지는 폴더의 전자 문서 저장 경로로 변경할 수 있다.
한편, 전자 문서 분류부(160)는 상기 제1 전자 문서의 상기 상위 N개의 태그 정보와 동일한 태그 정보를 가지는 전자 문서 저장 경로가 존재하지 않으면, 상기 선택 점수가 높은 상위 N-K개의 태그 정보와 동일한 태그 정보를 가지는 폴더에 저장되도록, 상기 제1 전자 문서의 전자 문서 저장 경로를 상기 폴더의 전자 문서 저장 경로로 변경할 수 있다. 여기에서, K는 1 이상 상기 사전 설정된 개수-1 이하의 정수일 수 있다. 예를 들어, K는 1일 수 있다.
따라서, 예를 들어, 물리, 규격, 성능을 태그 정보로 가지는 폴더가 존재하지 않으면, 전자 문서 분류부(160)는 물리, 규격,을 태그 정보로 가지는 폴더의 전자 문서 저장 경로, 즉, 전자 문서 저장 경로 1을 상기 전자 문서 7의 전자 문서 저장 경로로 변경할 수 있다.
또한, 전자 문서 분류부(160)는 상기 제1 전자 문서의 상기 상위 N-K개의 태그 정보와 동일한 태그 정보를 가지는 전자 문서 저장 경로가 존재하지 않으면, 상기 상위 N개의 태그 정보와 동일한 태그 정보를 폴더를 생성한 후 상기 제1 전자 문서의 전자 문서 저장 경로를 상기 생성된 폴더의 전자 문서 저장 경로로 변경할 수 있다.
도 2는 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치(100)의 동작 방법을 도시한 흐름도이다.
도 2를 참조하면, 단계(S210)에서는 다수의 전자 문서들 중 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출할 수 있다.
상기 단계(S210)에서는 사전 설정된 문장 기준 부호들 사이에 위치하는 텍스트 개체들을 하나의 문장으로 추출함으로써, 상기 제1 전자 문서에 포함되어 있는 상기 다수의 텍스트 개체들로부터 상기 다수의 문장들을 추출할 수 있다.
단계(S220)에서는 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정할 수 있다.
단계(S230)에서는 상기 다수의 단어들 중 형태소가 명사로 결정된 제1 단어들을 추출한 후 상기 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록할 수 있다.
상기 단계(S230)에서는 상기 형태소가 명사로 결정된 제1 단어들의 개수가 사전 설정된 개수를 초과하면, 상기 제1 단어들이 상기 다수의 문장들에 중복하여 포함되어 있는 횟수에 상응하는 선택 점수 기초하여 상기 제1 단어들 중 상기 사전 설정된 개수의 제1 단어들을 선택한 후 상기 사전 설정된 개수의 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록할 수 있다.
상기 단계(S230)에서는 상기 제1 단어들 각각에 대해 설정된 서식 정보에 상응하는 가중치를 결정하고, 상기 제1 단어들이 상기 다수의 문장들에 중복하여 포함되어 있는 횟수에 상기 결정된 가중치를 곱하여 상기 선택 점수를 연산하며, 상기 선택 점수 기초하여 상기 제1 단어들 중 상기 사전 설정된 개수의 제1 단어들을 선택한 후 상기 사전 설정된 개수의 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록할 수 있다.
한편, 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법은 상기 제1 전자 문서의 상기 메타 정보에 기록된 상기 태그 정보 중 상기 선택 점수가 높은 상위 N개의 태그 정보가 동일한 전자 문서들이 동일한 전자 문서 저장 경로를 가지도록, 상기 제1 전자 문서의 전자 문서 저장 경로를 상기 상위 N개의 태그 정보와 동일한 태그 정보를 가지는 전자 문서 저장 경로로 변경하는 전자 문서 분류 단계를 더 수행할 수 있다. 여기에서, 상기 N은 1 이상 상기 사전 설정된 개수 이하의 정수일 수 있다.
이상, 도 2를 참조하여 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법은 도 1을 이용하여 설명한 형태소 분석을 활용하여 문서를 관리하는 장치의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.
본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
또한, 본 발명의 일실시예에 따른 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims (12)

  1. 다수의 미리 설정된 단어들과 상기 다수의 미리 설정된 단어들 각각에 대응하는 형태소 정보를 매칭시켜 저장하고 있는 단어 사전 저장부;
    다수의 전자 문서들 중 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출하는 문장 추출부;
    상기 다수의 문장들 각각에 대해 띄어쓰기를 기준으로 단어들을 인식하고, 인식된 단어들의 문자들을 뒤에서부터 순차적으로 감소시킨 단어가 상기 단어 사전 저장부에 저장되어 있는 단어에 매칭되는지를 확인함으로써, 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정하는 형태소 결정부; 및
    상기 다수의 단어들 중 형태소가 명사로 결정된 제1 단어들을 추출한 후 상기 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록하는 태그 정보 기록부
    를 포함하고,
    상기 문장 추출부는 사전 설정된 문장 기준 부호들 사이에 위치하는 텍스트 개체들을 하나의 문장으로 추출함으로써, 상기 제1 전자 문서에 포함되어 있는 상기 다수의 텍스트 개체들로부터 상기 다수의 문장들을 추출하고,
    상기 태그 정보 기록부는 형태소가 명사로 결정된 상기 제1 단어들의 개수가 사전 설정된 개수를 초과하면, 상기 제1 단어들 각각에 대해 설정된 서식 정보에 상응하는 가중치를 결정하고, 상기 제1 단어들이 상기 다수의 문장들에 중복하여 포함되어 있는 횟수에 상기 결정된 가중치를 곱하여 상기 제1 단어들에 대한 선택 점수를 연산하며, 상기 선택 점수 기초하여 상기 제1 단어들 중 상기 사전 설정된 개수의 제1 단어들을 선택한 후 상기 사전 설정된 개수의 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록하고,
    상기 가중치는 상기 제1 단어들의 글자 크기를 최빈 글자 크기 - 상기 최빈 글자 크기는 상기 제1 전자 문서에 포함된 글자들에 적용된 글자 크기들 중 가장 많은 개수를 차지하고 있는 글자 크기를 의미함 - 로 나누어준 값의 제곱 값인 가중치 1과 상기 제1 단어들에 적용되어 있는 글자 속성 개수에 사전 설정된 보정 값을 곱한 값인 가중치 2로 구성되며, 상기 태그 정보 기록부는 상기 제1 단어들이 상기 다수의 문장들에 중복하여 포함되어 있는 횟수에 상기 가중치 1과 2를 모두 곱하여 상기 제1 단어들에 대한 선택 점수를 연산하는
    형태소 분석을 활용하여 문서를 관리하는 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    상기 제1 전자 문서의 상기 메타 정보에 기록된 상기 태그 정보 중 상기 선택 점수가 높은 상위 N - 상기 N은 1 이상 상기 사전 설정된 개수 이하의 정수임 - 개의 태그 정보와 동일한 태그 정보를 가지는 폴더에 저장되도록, 상기 제1 전자 문서의 전자 문서 저장 경로를 상기 폴더의 전자 문서 저장 경로로 변경하는 전자 문서 분류부
    를 더 포함하는 형태소 분석을 활용하여 문서를 관리하는 장치.
  6. 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법에 있어서,
    다수의 미리 설정된 단어들과 상기 다수의 미리 설정된 단어들 각각에 대응하는 형태소 정보를 매칭시켜 저장하고 있는 단어 사전 저장부를 유지하는 단계;
    문장 추출부가, 다수의 전자 문서들 중 제1 전자 문서에 포함되어 있는 다수의 텍스트 개체들로부터 다수의 문장들을 추출하는 문장 추출 단계;
    형태소 결정부가, 상기 다수의 문장들 각각에 대해 띄어쓰기를 기준으로 단어들을 인식하고, 인식된 단어들의 문자들을 뒤에서부터 순차적으로 감소시킨 단어가 상기 단어 사전 저장부에 저장되어 있는 단어에 매칭되는지를 확인함으로써, 상기 다수의 문장들에 포함되어 있는 다수의 단어들의 형태소를 결정하는 형태소 결정 단계; 및
    태그 정보 기록부가, 상기 다수의 단어들 중 형태소가 명사로 결정된 제1 단어들을 추출한 후 상기 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록하는 태그 정보 기록 단계
    를 포함하고,
    상기 문장 추출 단계는 사전 설정된 문장 기준 부호들 사이에 위치하는 텍스트 개체들을 하나의 문장으로 추출함으로써, 상기 제1 전자 문서에 포함되어 있는 상기 다수의 텍스트 개체들로부터 상기 다수의 문장들을 추출하고,
    상기 태그 정보 기록 단계는 형태소가 명사로 결정된 상기 제1 단어들의 개수가 사전 설정된 개수를 초과하면, 상기 제1 단어들 각각에 대해 설정된 서식 정보에 상응하는 가중치를 결정하고, 상기 제1 단어들이 상기 다수의 문장들에 중복하여 포함되어 있는 횟수에 상기 결정된 가중치를 곱하여 상기 제1 단어들에 대한 선택 점수를 연산하며, 상기 선택 점수 기초하여 상기 제1 단어들 중 상기 사전 설정된 개수의 제1 단어들을 선택한 후 상기 사전 설정된 개수의 제1 단어들을 상기 제1 전자 문서의 메타 정보에 태그 정보로 기록하고,
    상기 가중치는 상기 제1 단어들의 글자 크기를 최빈 글자 크기 - 상기 최빈 글자 크기는 상기 제1 전자 문서에 포함된 글자들에 적용된 글자 크기들 중 가장 많은 개수를 차지하고 있는 글자 크기를 의미함 - 로 나누어준 값의 제곱 값인 가중치 1과 상기 제1 단어들에 적용되어 있는 글자 속성 개수에 사전 설정된 보정 값을 곱한 값인 가중치 2로 구성되며, 상기 태그 정보 기록 단계는 상기 제1 단어들이 상기 다수의 문장들에 중복하여 포함되어 있는 횟수에 상기 가중치 1과 2를 모두 곱하여 상기 제1 단어들에 대한 선택 점수를 연산하는
    형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 제6항에 있어서,
    전자 문서 분류부가, 상기 제1 전자 문서의 상기 메타 정보에 기록된 상기 태그 정보 중 상기 선택 점수가 높은 상위 N - 상기 N은 1 이상 상기 사전 설정된 개수 이하의 정수임 - 개의 태그 정보와 동일한 태그 정보를 가지는 폴더에 저장되도록, 상기 제1 전자 문서의 전자 문서 저장 경로를 상기 폴더의 전자 문서 저장 경로로 변경하는 전자 문서 분류 단계
    를 더 포함하는 형태소 분석을 활용하여 문서를 관리하는 장치의 동작 방법.
  11. 제6항 또는 제10항 중 어느 한 항의 방법을 컴퓨터로 하여금 수행하도록 하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  12. 제6항 또는 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.
KR1020180088304A 2018-07-30 2018-07-30 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법 KR102076548B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180088304A KR102076548B1 (ko) 2018-07-30 2018-07-30 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180088304A KR102076548B1 (ko) 2018-07-30 2018-07-30 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법

Publications (2)

Publication Number Publication Date
KR20200013298A KR20200013298A (ko) 2020-02-07
KR102076548B1 true KR102076548B1 (ko) 2020-02-12

Family

ID=69569458

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180088304A KR102076548B1 (ko) 2018-07-30 2018-07-30 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법

Country Status (1)

Country Link
KR (1) KR102076548B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11526674B2 (en) * 2019-03-01 2022-12-13 Rakuten Group, Inc. Sentence extraction system, sentence extraction method, and information storage medium
KR102375507B1 (ko) * 2020-03-16 2022-03-17 주식회사 한글과컴퓨터 문서에 삽입된 개체와 관련 키워드들의 매칭을 통해 문서로부터의 개체 검색을 지원하는 전자 장치 및 그 동작 방법
KR102518843B1 (ko) * 2022-07-12 2023-04-06 망고클라우드 주식회사 Lda를 이용한 기업 컨텐츠 관리 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101846347B1 (ko) * 2017-08-04 2018-04-06 주식회사 신영이에스디 대용량 문서의 관리 방법 및 그 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000063488A (ko) * 2000-07-18 2000-11-06 박은일 전자화된 문서의 의미적 지식 데이터베이스 자동구축장치와 방법 및 그 기록매체
KR101092356B1 (ko) * 2008-12-22 2011-12-09 한국전자통신연구원 상호 정보를 이용한 형태소 품사 태깅 장치 및 방법
KR101136037B1 (ko) * 2009-11-06 2012-04-18 동국대학교 산학협력단 문서의 색인화 및 검색을 위한 방법 및 장치
US9582486B2 (en) * 2014-05-13 2017-02-28 Lc Cns Co., Ltd. Apparatus and method for classifying and analyzing documents including text
KR101948257B1 (ko) * 2016-11-30 2019-02-15 주식회사 와이즈넛 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101846347B1 (ko) * 2017-08-04 2018-04-06 주식회사 신영이에스디 대용량 문서의 관리 방법 및 그 장치

Also Published As

Publication number Publication date
KR20200013298A (ko) 2020-02-07

Similar Documents

Publication Publication Date Title
US7788262B1 (en) Method and system for creating context based summary
US8762358B2 (en) Query language determination using query terms and interface language
JP4637181B2 (ja) 文書構造に基づいた検索結果の表示
US11645475B2 (en) Translation processing method and storage medium
US20120109978A1 (en) Augmenting queries with synonyms from synonyms map
US8515731B1 (en) Synonym verification
KR102076548B1 (ko) 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법
JP2007517338A (ja) サーチ品質の改善システムおよび改善方法
JP2009537901A (ja) 検索による注釈付与
US9798776B2 (en) Systems and methods for parsing search queries
WO2013148852A1 (en) Named entity extraction from a block of text
US20160048482A1 (en) Method for automatically partitioning an article into various chapters and sections
WO2021043088A1 (zh) 文件查询方法、装置、计算机设备及存储介质
US9501559B2 (en) User-guided search query expansion
CN107168966B (zh) 一种搜索引擎索引构建方法及装置
JP2005301856A (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
JP2013050890A (ja) テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
US20160085760A1 (en) Method for in-loop human validation of disambiguated features
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
US11150871B2 (en) Information density of documents
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
JP3848014B2 (ja) 文書検索方法および文書検索装置
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant