KR101764479B1 - 장르 분석 장치 및 방법 - Google Patents

장르 분석 장치 및 방법 Download PDF

Info

Publication number
KR101764479B1
KR101764479B1 KR1020150029806A KR20150029806A KR101764479B1 KR 101764479 B1 KR101764479 B1 KR 101764479B1 KR 1020150029806 A KR1020150029806 A KR 1020150029806A KR 20150029806 A KR20150029806 A KR 20150029806A KR 101764479 B1 KR101764479 B1 KR 101764479B1
Authority
KR
South Korea
Prior art keywords
genre
section
word set
document
words
Prior art date
Application number
KR1020150029806A
Other languages
English (en)
Other versions
KR20160106983A (ko
Inventor
김승훈
김기원
김서희
안희정
이원진
최건희
홍민하
Original Assignee
단국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 단국대학교 산학협력단 filed Critical 단국대학교 산학협력단
Priority to KR1020150029806A priority Critical patent/KR101764479B1/ko
Publication of KR20160106983A publication Critical patent/KR20160106983A/ko
Application granted granted Critical
Publication of KR101764479B1 publication Critical patent/KR101764479B1/ko

Links

Images

Classifications

    • G06F17/30705
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F15/18
    • G06F17/2755

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 장르 분석 장치 및 방법에 관한 것이고, 보다 상세하게 문서 또는 전자 문서의 본문 내용을 분석하여, 해당 문서 또는 전자 문서의 장르를 분석하기 위한 장치 및 방법에 관한 것이다. 이를 위한, 본 발명의 장르 분석 방법은 문서 또는 전자 문서에 포함된 본문 내용을 복수개의 구간들로 구분하는 단계; 복수개의 구간들 각각에 대해 형태소 분석을 수행함으로써 구간별로 형태소 분석 결과를 도출하는 단계; 형태소 분석 결과에 포함된 단어의 연관 단어들을 추출하는 단계; 및 연관 단어들과 장르 판정 단어 집합을 비교함으로써, 각 구간마다 하나 이상의 구간 장르들을 도출하는 단계를 포함하는 것을 특징으로 한다.

Description

장르 분석 장치 및 방법{APPARATUS AND METHOD FOR ANALYZING GENRE}
본 발명은 장르 분석 장치 및 방법에 관한 것이고, 보다 상세하게 문서 또는 전자 문서의 본문 내용을 분석하여, 해당 문서 또는 전자 문서의 장르를 분석하기 위한 장치 및 방법에 관한 것이다.
일반적으로, 문서 또는 전자 문서에 포함된 내용들을 근거로 해당 문서 또는 전자 문서에 대한 장르를 구분할 때, 듀이 십진분류법(DDC: Dewey Decimal Classification)이 이용되고 있다. 즉, 종래의 장르 구분 방식은, 듀이 십진분류법을 통해, 문서 또는 전자 문서에 포함된 내용들을 하나의 장르로 구분하는 방식이며, 이를 근거로 문서 또는 전자 문서의 장르 또는 카테고리가 결정되고 있다.
하지만, 보통 문서 또는 전자 문서는 단일 장르에 치우지지 않고 복합적인 형태의 장르를 갖는 경향이 있다. 예를 들어, 문서가 전쟁 소설에 대한 내용을 담고 있는 경우, 해당 문서에는 전쟁에 대한 내용뿐만 아니라, 인물들간의 갈등, 사랑 등 다양한 장르가 포함될 수 있다. 하지만, 대부분의 종래 도서 분석 기술 분야에서는 복합적인 장르를 반영하지 않고 있고, 단지 상기 문서를 전쟁 소설로만 규정하고 있다.
이에 따라, 독자들은 자신이 좋아하거나 선호하는 내용을 보기 위해서는 해당 장르 또는 카테고리란에 포함된 많은 문서들을 일일이 보고, 직접 판단해야 하는 불편함이 존재한다.
이에 관련하여, 발명의 명칭이 "문서분류장치 및 그것의 문서분류방법"인 한국등록특허 제1158750호가 존재한다.
본 발명은 문서 또는 전자 문서를 보다 구체적으로 분류할 수 있는 장르 분석 장치 및 방법을 제공하는데 그 목적이 있다.
또한, 본 발명은 사용자의 의사결정을 위해 분석된 복합 장르 또는 복합 카테고리에 대한 분석 결과를 이해하기 쉬운 형태로 표현할 수 있는 장르 분석 장치 및 방법을 제공하는데 그 목적이 있다.
상기와 같은 과제를 해결하기 위한 본 발명의 장르 분석 방법은 문서 또는 전자 문서에 포함된 본문 내용을 복수개의 구간들로 구분하는 단계; 복수개의 구간들 각각에 대해 형태소 분석을 수행함으로써 구간별로 형태소 분석 결과를 도출하는 단계; 형태소 분석 결과에 포함된 단어의 연관 단어들을 추출하는 단계; 및 연관 단어들과 장르 판정 단어 집합을 비교함으로써, 각 구간마다 하나 이상의 구간 장르들을 도출하는 단계를 포함하는 것을 특징으로 한다.
또한, 구간 장르들을 도출하는 단계는 형태소 분석 결과에 포함된 단어의 빈도수를 근거로 각 구간에 대한 상기 구간 장르들의 포함율을 도출하는 단계를 포함할 수 있다.
또한, 본 발명의 장르 분석 방법은 본문 내용 전체를 기준으로, 포함율이 높은 순으로 기설정된 개수의 구간 장르를 상기 문서 또는 전자 문서의 장르들로 결정하는 단계를 더 포함할 수 있다.
또한, 본 발명의 장르 분석 방법은 본문 내용의 장르 흐름 변화를 나타내기 위해, 각 구간과 각 구간의 구간 장르들에 대한 포함율이 각각 x 축 및 y 축에 나타나도록 그래프로 디스플레이 하는 단계를 더 포함할 수 있다.
또한, 장르 판정 단어 집합은 문서 또는 전자 문서의 장르 분석에 이용되는 단어들이 장르별로 구분된 단어 집합을 나타낼 수 있다.
또한, 본 발명의 장르 분석 방법은 본문 내용을 복수개의 구간들로 구분하는 단계 이전에, 학습을 통해 장르 판정 단어 집합을 생성하는 단계를 더 포함할 수 있다.
또한, 장르 판정 단어 집합을 생성하는 단계는 각 장르에 해당하는 학습용 문서 또는 학습용 전자 문서에서 학습 단어들을 추출하고, 빈도수가 기설정된 임계값을 초과하는 학습 단어들을 장르 판정 단어 집합에 포함시킴으로써 이루어질 수 있다.
또한, 본 발명의 장르 분석 방법은 하나 이상의 구간 장르들을 도출하는 단계는 형태소 분석 결과에 포함된 단어들 중 장르 판정 단어 집합에 포함되어 있지 않지만 연관 단어가 장르 판정 단어 집합에 포함된 단어들을 장르 판정 단어 집합에 포함시키는 단계를 더 포함할 수 있다.
상기와 같은 과제를 해결하기 위한 본 발명의 컴퓨터-판독 가능한 저장 매체는 상술한 방법을 구현하기 위한 프로그램이 기록될 수 있다.
상기와 같은 과제를 해결하기 위한 본 발명의 장르 분석 장치는 문서 또는 전자 문서에 포함된 본문 내용을 복수개의 구간들로 구분하고, 복수개의 구간들 각각에 대해 형태소 분석을 수행함으로써 구간별로 형태소 분석 결과를 도출하고, 형태소 분석 결과에 포함된 단어의 연관 단어들을 추출하고, 연관 단어들과 장르 판정 단어 집합을 비교함으로써, 각 구간마다 하나 이상의 구간 장르들을 도출하는 처리부를 포함하는 것을 특징으로 한다.
또한, 처리부는 형태소 분석 결과에 포함된 단어의 빈도수를 근거로 각 구간에 대한 구간 장르들의 포함율을 도출할 수 있다.
또한, 처리부는 본문 내용 전체를 기준으로, 포함율이 높은 순으로 기설정된 개수의 구간 장르를 문서 또는 전자 문서의 장르들로 결정할 수 있다.
또한, 처리부는 본문 내용의 장르 흐름 변화를 나타내기 위해, 각 구간과 각 구간의 구간 장르들에 대한 포함율이 각각 x 축 및 y 축에 나타나도록 그래프를 생성할 수 있다.
또한, 장르 판정 단어 집합은 문서 또는 전자 문서의 장르 분석에 이용되는 단어들이 장르별로 구분된 단어 집합을 나타낼 수 있다.
또한, 처리부는 학습을 통해 장르 판정 단어 집합을 생성할 수 있다.
또한, 처리부는, 각 장르에 해당하는 학습용 문서 또는 학습용 전자 문서에서 학습 단어들을 추출하고, 빈도수가 기설정된 임계값을 초과하는 학습 단어들을 포함시킴으로써 장르 판정 단어 집합을 생성할 수 있다.
또한, 처리부는 형태소 분석 결과에 포함된 단어들 중 장르 판정 단어 집합에 포함되어 있지 않지만 연관 단어가 상기 장르 판정 단어 집합에 포함된 단어들을 장르 판정 단어 집합에 더 포함시킬 수 있다.
본 발명의 장르 분석 장치 및 방법에 따르면 본문의 내용 흐름에 따라 포함된 장르 또는 카테고리를 표현해줌으로써, 사용자가 장르 변화를 직관적으로 파악할 수 있고, 본문에 따른 전체 흐름에 따라 복합장르 분석 및 시각화 표현 방법을 통해 다양한 정보 검색 및 제공 방식에 활용될 수 있는 효과가 있다.
또한, 독자는 문서 또는 전자 문서에 대한 다양한 정보제공을 받을 수 있으며, 특정 문서 또는 전자 문서를 읽지 않은 상태에서도 전체적인 내용 정보를 확인할 수 있으며, 문서 또는 전자 문서 선정에 요구되는 시간을 최소화시킬 수 있는 효과가 있다.
도 1 및 도 2는 본 발명의 일 실시예에 따른 장르 분석 장치에 대한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 장르 분석 장치를 통해 도출되는 일 예시에 대한 그래프이다.
도 4는 본 발명의 일 실시예에 따른 장르 분석 방법에 대한 흐름도이다.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
도 1 및 도 2는 본 발명의 일 실시예에 따른 장르 분석 장치(100)에 대한 블록도이다. 이하, 본 발명의 실시예에 따른 장르 분석 장치(100)에 대하여 설명하도록 한다. 위에서 언급한 바와 같이, 문서 또는 전자 문서는 단일 장르에 치우지지 않고 복합적인 형태의 장르를 갖는 경향이 있다. 이에 따라, 본 발명의 일 실시예에 따른 장르 분석 장치(100)는 해당 문서 또는 전자 문서를 하나의 장르 또는 카테고리로 규정하는 것이 아닌, 하나 이상의 장르 또는 카테고리로 분류하는 방식을 채택한다.
이를 위해, 본 발명의 일 실시예에 따른 장르 분석 장치(100)는 도 1에 도시된 바와 같이, 처리부(110)를 포함하여 구성될 수 있고, 선택적으로 통신부(20)와 디스플레이부(30)를 더 포함하여 구성될 수 있다.
처리부(110)는 문서 또는 전자 문서에 포함된 본문 내용을 복수개의 구간들로 구분하고, 각 구간에 속한 하나 이상의 구간 장르들을 도출하는 기능을 한다. 또한, 처리부(110)는 구간 장르들에 대한 포함율 또한 함께 도출할 수 있다.
위에서 언급한 바와 같이, 본 발명은 문서 또는 전자 문서를 하나의 단일 장르 또는 카테고리로 분류하는 것이 아닌, 복수개의 장르 또는 카테고리로 분류하는 것을 특징으로 한다. 또한, 본 발명은 이러한 분류를 전체 내용에 대한 것만으로 한정하는 것이 아닌, 본문 내용을 기설정된 범위로 즉, 구간별로 구분하고, 각 구간에 대한 구간 장르들을 추가적으로 분석하는 것을 특징으로 한다. 이에 따라, 본 발명에 따른 장르 분석 장치(100)는 본문 전체에 대한 하나 이상의 장르를 파악하는 것뿐만 아니라, 구간 별로 구간 장르들의 변화를 파악할 수 있는 장점이 있다.
여기서, 용어 구간은 문서 또는 전자 문서를 페이지 단위, 문단 단위, 챕터 단위와 같이 기설정된 영역 단위로 구분함으로써 도출된 영역을 나타낸다. 이하에서 구간은 페이지 단위로 나뉜 것으로 가정되어 설명되나, 이는 단지 예시일 뿐이고, 위에서 언급한 바와 같이, 다양한 단위로 구분되어 구간이 분류될 수 있다.
또한, 처리부(110)는 위에서 도출된 구간 장르들과 이의 포함율을 근거로 본문 전체에 대한 장르들을 더 도출할 수 있다. 위에서 언급한 바와 같이, 본 발명은 문서 또는 전체 문서를 하나의 장르 또는 카테고리로 분류하는 것이 아닌, 복수개의 장르들로 분류하는 것을 특징으로 한다.
그리고, 처리부(110)는 위에서 도출된 구간 장르들과 이의 포함율에 대한 정보를 그래프의 형태로 디스플레이하도록 제어할 수 있다. 예를 들어, x 축에는 구간이. 그리고 y 축에는 구간 장르들에 대한 포함율이 표현될 수 있다.
상술한 기능들을 수행하기 위해, 본 발명의 처리부(110)는 도 2에 도시된 바와 같이, 구간 장르 파악 모듈(111), 장르 도출 모듈(112), 시각화 모듈(113) 및 판정 기준 생성 모듈(114)을 포함하여 구성될 수 있다. 이하, 도 2를 참조로, 본 발명의 일 실시예에 따른 처리부(110)에 대해 더 구체적으로 설명한다.
구간 장르 파악 모듈(111)은 문서 또는 전자 문서에 포함된 본문 내용을 복수개의 구간들로 구분하고, 각 구간별로 하나 이상의 구간 장르들을 도출하는 기능을 한다. 위에서 언급한 바와 같이, 구간은 본문 내용을 페이지 단위, 문단 단위, 챕터 단위와 같이 기설정된 영역 단위로 구분함으로써 도출된 영역을 나타낸다.
이하, 구간 장르 파악 모듈(111)을 통해 구간 장르들을 도출하는 과정이 설명된다. 먼저, 구간 장르 파악 모듈(111)은 문서 또는 전자 문서에 포함된 본문 내용을 복수개의 구간들(예를 들어, 페이지 단위)로 구분하고, 각 구간에 대해 형태소 분석을 수행한다. 이를 통해, 구간 장르 파악 모듈(111)은 각 구간에 대해 형태소 분석 결과를 도출할 수 있다. 여기서, 형태소 분석 결과는 각 구간에 포함된 단어들과, 상기 단어들 각각에 대한 빈도수를 포함할 수 있다.
그 후, 구간 장르 파악 모듈(111)은 형태소 분석 결과에 포함된 단어에 대해, 해당 단어에 연관된 연관 단어를 추출할 수 있다. 여기서, 연관 단어는 형태소 분석 결과에 포함된 단어에 대해, 의미하는 바가 유사한 복수개의 단어들을 나타낸다. 여기서, 연관 단어의 도출을 수행하는 이유는 장르 판정의 기준이 되는 장르 판정 단어 집합에 형태소 분석 결과에 포함된 단어가 속하지 않는 경우를 고려하기 위함이다. 여기서, 장르 판정 단어 집합은 문서 또는 전자 문서의 장르 분석에 이용되는 단어들이 장르별로 구분된 단어 집합을 의미한다.
그리고, 본문 내용에 대한 형태소 분석을 통해 포탄이라는 단어가 도출되었으나, 장르 판정 단어 집합에 포탄이라는 단어가 존재하지 않는다고 가정하자. 만일, 형태소 분석을 통해 도출된 단어를 근거로 장르를 판단하려 하는 경우, 해당 단어가 장르 판정 단어 집합에 속하지 않아, 장르 판정이 이루어지지 못하는 상황이 발생할 수 있다. 이에 따라, 본 발명에서는 상기 단어뿐만 아니라, 상기 단어에 대한 연관 단어인 폭탄, 포, 총알, 대포 등 다른 연관 단어들을 근거로 장르 판정 단어 집합과의 비교를 수행한다. 이 경우, 포탄이라는 단어가 장르 판정 단어 집합에 속하지 않더라도 포탄의 연관 단어인 폭탄, 포, 총알 및 대포 중 적어도 하나의 단어는 장르 판정 단어 집합에 속할 확률이 높으므로, 보다 정확도가 높은 장르 분석이 가능해진다.
이렇게, 연관 단어의 추출이 완료되면, 구간 장르 파악 모듈(111)은 위의 예시에서 언급된 바와 같이, 연관 단어들과 장르 판정 단어 집합을 비교함으로써, 각 구간마다 하나 이상의 구간 장르들을 도출하는 기능을 한다. 상술한 바와 같이, 본 발명은 문서 또는 전자 문서에 대해 단일장르가 아닌, 복합 장르 또는 복합 카테고리로 판단하는 기능을 한다.
예를 들어, 본 예시에서는 문서가 전쟁 소설인 경우로 가정하였고, 구간은 페이지 별로 구분된 것으로 가정하였다. 이에 따라, 상기 전쟁 소설에 대한 페이지별로 각각 하나 이상의 구간 장르들이 도출된다. 예를 들어, 12p에서, 구간 장르는 전쟁, 연애 등이 도출될 수 있고, 16p에서 구간 장르는 감동, 전쟁, 액션 등의 구간 장르들이 도출될 수 있다.
또한, 구간 장르 파악 모듈(111)은 상기 구간 장르의 도출뿐만 아니라, 도출된 구간 장르의 포함율을 함께 도출할 수 있다. 여기서, 구간 장르의 포함율은 각 구간 별로 전체를 100%로 잡았을 때, 해당 구간 장르가 속한 비율을 나타낸다. 이러한 포함율은 위에서 언급된 형태소 분석 결과에 포함된 단어의 빈도수를 근거로 산출될 수 있다.
이렇게 포함율이 산출되면, 구간 장르 파악 모듈(111)은 각 구간 마다 어떠한 구간 장르가 속하는지, 그리고 각 구간 장르에 대한 포함율은 몇인지에 대한 구체적인 분석을 수행할 수 있다. 또한, 구간 장르 파악 모듈(111)은 각 구간에 대해 다수의 구간 장르가 속하는 경우, 각 구간 장르의 포함율과 기설정된 임계값을 비교함으로써, 일부의 구간 장르만을 도출하는 것도 가능하다.
장르 도출 모듈(112)은 본문 내용 전체를 기준으로, 포함율이 높은 순으로 구간 장르들을 정렬하고, 기설정된 개수의 구간 장르들을 문서 또는 전자 문서의 장르들로 결정하는 기능을 한다. 이를 위해, 장르 도출 모듈(112)은 위에서 구간 장르 파악 모듈(111)에서 산출된 구간별 구간 장르들의 포함율을 분석하고, 이를 통한 전체의 장르 포함율을 계산하는 과정을 수행하는 과정이 먼저 이루어질 수 있다.
시각화 모듈(113)은 본문 내용의 장르 흐름 변화를 나타내기 위해, 각 구간과 각 구간의 구간 장르들에 대한 포함율이 각각 x 축 및 y 축에 나타나도록 그래프를 생성하고, 이를 디스플레이부(30)에 전달하는 기능을 한다. 이에 대한 예시는 도 3에 도시된다.
도 3에 도시된 것처럼, x 축에는 구간 본 예시에서는 페이지가, 그리고 y 축에는 구간별 구간 장르들의 포함율이 표시된다. 도 3에 도시된 예시에서는 문서 또는 전자 문서에 총 4개의 장르들(추리, 감동, 판타지, 액션)이 포함된 것으로 나타난다. 이렇게 독자 또는 사용자는 도 3에 도시된 그래프와 같은 정보를 직관적으로 파악할 수 있으므로, 굳이 해당 본문 내용을 읽지 않더라도 해당 문서 또는 전자 문서의 흐름을 개략적으로 알 수 있으므로, 문서 또는 전자 문서를 선택하는데 도움을 줄 수 있다.
또한, 도 3에 도시된 예시에서는 다양한 선의 형태로 구분 장르들이 구분된 것으로 도시되었으나, 이는 예시일 뿐이고, 구간 장르들별로 다양한 색을 지정함으로써, 구분이 이루어지는 방식도 가능하다. 이렇게 추출된 복합장르들 마다 서로 구분되어 해당 구간 장르가 포함된 정도가 직관적으로 독자들 또는 사용자에게 제공될 수 있다. 이제, 다시 도 2를 참조하자.
판정 기준 생성 모듈(114)은 위에서 언급한 장르 판정 단어 집합을 생성하는 기능을 한다. 여기서, 장르 판정 단어 집합의 생성은 구간 장르 파악 모듈(111)을 통한 구간 장르 파악 이전에, 미리 이루어지는 것이 바람직하다. 즉, 장르 판정 단어 집합은, 미리 생성되어 저장부(10)에 저장되고, 구간 장르의 분석시마다 저장부(10)로부터 로딩하여 이용되는 것이 바람직하다.
판정 기준 생성 모듈(114)은 학습을 통해 장르 판정 단어 집합을 생성할 수 있다. 여기서, 판정 기준 생성 모듈(114)을 통한 학습 방법은 다음과 같다.
먼저, 판정 기준 생성 모듈(114)은 각 장르에 해당하는 학습용 문서 또는 학습용 전자 문서를 분석하는 과정을 수행한다. 여기서, 학습용 문서 또는 학습용 전자 문서는 사용자가 미리 장르를 설정한 문서를 나타낸다. 예를 들어, 학습용 문서 또는 학습용 전자 문서가 소설에 대한 것으로 가정하고, 이들 책이 예를 들어, 소나기, 2차대전 등인 것으로 가정하자.
여기서, 소설 소나기는 사용자가 미리 연애 소설인 것으로 설정하면, 판정 기준 생성 모듈(114)은 상기 소설을 분석함으로써 사랑, 연애 등 다양한 단어들을 추출하고, 해당 장르 판정 단어 집합에 추출된 단어들을 저장하게 된다. 또한, 2차 대전은 사용자가 미리 전쟁 소설인 것으로 설정하면, 판정 기준 생성 모듈(114)은 상기 소설을 분석함으로써, 포탄, 포, 전차, 전쟁, 공격 등 다양한 단어들을 추출하고, 해당 장르 판정 단어 집합에 추출된 단어들을 저장하게 된다.
이렇게, 판정 기준 생성 모듈(114)은 위의 예시에서 언급된 학습 방법을 반복적으로 수행함으로써, 다양한 장르들에 대한 장르 판정 단어 집합을 생성할 수 있다.
또한, 위에서 구간 장르 파악 모듈(111)에서 연관 단어와 장르 판정 단어 집합을 비교함으로써 구간 장르를 파악할 때, 형태소 분석 결과에 포함된 단어들 중 장르 판정 단어 집합에 포함되어 있지 않지만 연관 단어가 장르 판정 단어 집합에 포함된 단어가 존재하는 경우, 판정 기준 생성 모듈(114)은 해당 단어를 장르 판정 단어 집합에 더 포함시킬 수 있다. 이렇게 판정 기준 생성 모듈(114)은 저장부(10)에 저장된 장르 판정 단어 집합을 갱신할 수 있으므로, 보다 정확한 장르 분석이 가능한 장점이 있다.
이하, 도 4를 참조로 본 발명의 일 실시예에 따른 장르 분석 방법에 대해 설명한다. 도 4는 본 발명의 일 실시예에 따른 장르 분석 방법에 대한 흐름도이다. 이하에서는 위에서 도 1 내지 도 3을 참조로 언급한 부분과 중복되는 사항은 생략하여 설명이 이루어진다.
먼저, 학습을 통해 장르 판정 단어 집합을 생성하는 단계(S110)가 수행된다. S110 단계에서 언급된 장르 판정 단어 집합은 위에서 언급한 바와 같이, 문서 또는 전자 문서의 장르 분석에 이용되는 단어들이 장르별로 구분된 단어 집합을 나타낸다. 예를 들어, 장르 판정 단어 집합에는 크게 전쟁 장르, 사랑 장르, 판타지 장르, 액션 장르 등 다양한 장르들이 속할 수 있고, 해당 장르마다 장르 판정에 이용될 수 있는 단어들이 포함된다. S110 단계를 통해 이루어지는 장르 판정 단어 집합의 생성 과정은 위에서 도 2를 참조로 상세히 언급하였으므로, 이에 대한 추가적인 설명은 생략한다.
그 후, 문서 또는 전자 문서에 포함된 본문 내용을 복수개의 구간들로 구분하는 단계(S120)가 이루어진다. 앞서 언급한 바와 같이, 본 발명은 본문 내용을 복합 장르 또는 복합 카테고리로 표현할 뿐만 아니라, 구간을 나누어 각 구간 마다의 구간 장르들을 분석하고, 본문 내용의 장르 흐름 변화를 구간 단위로 표현하는 것을 특징으로 한다. 이를 위해, S120 단계에서는 본문 내용을 구간 단위로 구분할 수 있고, 여기서 구간은 페이지 단위, 단락 단위, 챕터 단위 등 다양한 기준을 통하여 구분될 수 있다.
그 후, 복수개의 구간들 각각에 대해 형태소 분석을 수행하고(S130), 이를 통해 구간별로 형태소 분석 결과를 도출하는 단계(S140)가 수행된다. 여기서, 형태소 분석 결과는 각 구간에 포함된 단어들과, 상기 단어들 각각에 대한 빈도수를 포함할 수 있다.
그 후, 형태소 분석 결과에 포함된 단어의 연관 단어들을 추출하는 단계(S150)가 이루어진다. 위에서 언급한 바와 같이, 연관 단어는 형태소 분석 결과에 포함된 단어에 대해, 의미하는 바가 유사한 복수개의 단어들을 의미한다. 또한, 연관 단어의 추출을 수행하는 이유는 이하에서 언급되는 구간 장르의 도출 과정에서, 단어뿐만 아니라, 연관 단어를 통한 도출을 수행하기 위함이다. 즉, 장르 판정의 기준이 되는 장르 판정 단어 집합에 형태소 분석 결과에 포함된 단어가 속하지 않는 경우를 고려하여, S150 단계는 형태소 분석 결과에서 도출된 단어의 연관 단어의 도출 과정을 수행한다.
그 후, 각 구간에 대한 구간 장르들을 도출하는 단계(S160)가 이루어진다. 구체적으로, S160 단계는 S120 단계에서 구분된 구간들 별로, S150 단계에서 추출된 연관 단어들과 장르 판정 단어 집합을 비교함으로써, 각 구간마다 하나 이상의 구간 장르들을 도출하는 과정을 수행한다. 구간 장르의 도출 방법에 대한 설명은 도 1 및 도 2를 참조로 구체적인 예시와 함께 위에서 설명되었으므로, 이에 대한 추가적인 설명은 생략한다.
또한, S160 단계는 형태소 분석 결과에 포함된 단어의 빈도수를 근거로 각 구간에 대한 상기 구간 장르들의 포함율을 도출하는 과정을 더 수행할 수 있다. S160 단계를 통해 도출된 구간 장르들의 포함율은 각 구간 별로 구간 장르들의 도출 또는, 도 3에 도시된 바와 같이, 그래프의 형태로 사용자 또는 독자에게 데이터의 직관적인 분석에 이용될 수 있다.
또한, S160 단계는 형태소 분석 결과에 포함된 단어들 중 장르 판정 단어 집합에 포함되어 있지 않지만 연관 단어가 장르 판정 단어 집합에 포함된 단어들을 상기 장르 판정 단어 집합에 포함시키는 단계를 더 포함할 수 있다. 이에 따라, 장르 판정 단어 집합의 갱신이 이루어질 수 있으므로, 차후의 장르 분석 시, 보다 정확한 장르 분석이 가능해질 수 있다.
그 후, 본문 내용 전체를 기준으로, 포함율이 높은 순으로 기설정된 개수의 구간 장르를 문서 또는 전자 문서의 장르들로 결정하는 단계(S170)가 수행된다. S160 단계와 마찬가지로, S170 단계는 전체 장르를 하나의 단일 장르 또는 카테고리로 규정하는 것이 아닌, 하나 이상의 장르 또는 카테고리 즉, 복합 장르로 결정한다.
그 후, 본문 내용의 장르 흐름 변화를 나타내기 위해, 각 구간과 각 구간의 구간 장르들에 대한 포함율이 각각 x 축 및 y 축에 나타나도록 그래프로 디스플레이 하는 단계(S180)가 수행된다.
본 발명에 따른 장르 분석 방법 및 장치는 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 모든 형태의 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 발명의 원리들의 교시들은 하드웨어와 소프트웨어의 조합으로서 구현될 수 있다. 또한, 소프트웨어는 프로그램 저장부 상에서 실재로 구현되는 응용 프로그램으로서 구현될 수 있다. 응용 프로그램은 임의의 적절한 아키텍쳐를 포함하는 머신에 업로드되고 머신에 의해 실행될 수 있다. 바람직하게는, 머신은 하나 이상의 중앙 처리 장치들(CPU), 컴퓨터 프로세서, 랜덤 액세스 메모리(RAM), 및 입/출력(I/O) 인터페이스들과 같은 하드웨어를 갖는 컴퓨터 플랫폼 상에 구현될 수 있다. 또한, 컴퓨터 플랫폼은 운영 체제 및 마이크로 명령 코드를 포함할 수 있다. 여기서 설명된 다양한 프로세스들 및 기능들은 마이크로 명령 코드의 일부 또는 응용 프로그램의 일부, 또는 이들의 임의의 조합일 수 있고, 이들은 CPU를 포함하는 다양한 처리 장치에 의해 실행될 수 있다. 추가로, 추가 데이터 저장부 및 프린터와 같은 다양한 다른 주변 장치들이 컴퓨터 플랫폼에 접속될 수 있다.
첨부 도면들에서 도시된 구성 시스템 컴포넌트들 및 방법들의 일부가 바람직하게는 소프트웨어로 구현되므로, 시스템 컴포넌트들 또는 프로세스 기능 블록들 사이의 실제 접속들은 본 발명의 원리들이 프로그래밍되는 방식에 따라 달라질 수 있다는 점이 추가로 이해되어야 한다. 여기서의 교시들이 주어지면, 관련 기술분야의 당업자는 본 발명의 원리들의 이들 및 유사한 구현예들 또는 구성들을 참작할 수 있을 것이다.
100 : 장르 분석 장치 110 : 처리부
111 : 구간 장르 파악 모듈 112 : 장르 도출 모듈
113 : 시각화 모듈 114 : 판정 기준 생성 모듈

Claims (17)

  1. 문서 또는 전자 문서에 포함된 본문 내용을 복수개의 구간들로 구분하는 단계;
    상기 복수개의 구간들 각각에 대해 형태소 분석을 수행함으로써 구간별로 형태소 분석 결과를 도출하는 단계;
    상기 형태소 분석 결과에 포함된 단어의 연관 단어들을 추출하는 단계; 및
    상기 연관 단어들과 장르 판정 단어 집합을 비교함으로써, 각 구간마다 하나 이상의 구간 장르들을 도출하는 단계를 포함하며,
    상기 구간 장르들을 도출하는 단계는,
    상기 형태소 분석 결과에 포함된 단어의 빈도수를 근거로 각 구간에 대한 상기 구간 장르들의 포함율을 도출하는 단계를 포함하고,
    본문 내용 전체를 기준으로, 포함율이 높은 순으로 기설정된 개수의 구간 장르를 상기 문서 또는 전자 문서의 장르들로 결정하는 단계를 더 포함하는 것을 특징으로 하는, 장르 분석 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 본문 내용의 장르 흐름 변화를 나타내기 위해, 각 구간과 각 구간의 구간 장르들에 대한 포함율이 각각 x 축 및 y 축에 나타나도록 그래프로 디스플레이 하는 단계를 더 포함하는 것을 특징으로 하는, 장르 분석 방법.
  5. 제1항에 있어서,
    상기 장르 판정 단어 집합은,
    문서 또는 전자 문서의 장르 분석에 이용되는 단어들이 장르별로 구분된 단어 집합을 나타내는 것을 특징으로 하는, 장르 분석 방법.
  6. 제1항에 있어서,
    상기 본문 내용을 복수개의 구간들로 구분하는 단계 이전에, 학습을 통해 장르 판정 단어 집합을 생성하는 단계를 더 포함하는 것을 특징으로 하는, 장르 분석 방법.
  7. 제6항에 있어서,
    상기 장르 판정 단어 집합을 생성하는 단계는,
    각 장르에 해당하는 학습용 문서 또는 학습용 전자 문서에서 학습 단어들을 추출하고, 빈도수가 기설정된 임계값을 초과하는 학습 단어들을 장르 판정 단어 집합에 포함시킴으로써 이루어지는 것을 특징으로 하는, 장르 분석 방법.
  8. 제1항에 있어서,
    상기 하나 이상의 구간 장르들을 도출하는 단계는,
    상기 형태소 분석 결과에 포함된 단어들 중 상기 장르 판정 단어 집합에 포함되어 있지 않지만 연관 단어가 상기 장르 판정 단어 집합에 포함된 단어들을 상기 장르 판정 단어 집합에 포함시키는 단계를 더 포함하는 것을 특징으로 하는, 장르 분석 방법.
  9. 제1항, 제4항 내지 제8항 중 어느 한 항에 따른 방법을 구현하기 위한 프로그램이 기록된 컴퓨터-판독 가능한 저장 매체.
  10. 문서 또는 전자 문서에 포함된 본문 내용을 복수개의 구간들로 구분하고, 상기 복수개의 구간들 각각에 대해 형태소 분석을 수행함으로써 구간별로 형태소 분석 결과를 도출하고, 상기 형태소 분석 결과에 포함된 단어의 연관 단어들을 추출하고, 상기 연관 단어들과 장르 판정 단어 집합을 비교함으로써, 각 구간마다 하나 이상의 구간 장르들을 도출하는 처리부를 포함하며,
    상기 처리부는,
    상기 형태소 분석 결과에 포함된 단어의 빈도수를 근거로 각 구간에 대한 상기 구간 장르들의 포함율을 도출하고,
    상기 처리부는,
    본문 내용 전체를 기준으로, 포함율이 높은 순으로 기설정된 개수의 구간 장르를 상기 문서 또는 전자 문서의 장르들로 결정하는 것을 특징으로 하는, 장르 분석 장치.
  11. 삭제
  12. 삭제
  13. 제10항에 있어서,
    상기 처리부는,
    상기 본문 내용의 장르 흐름 변화를 나타내기 위해, 각 구간과 각 구간의 구간 장르들에 대한 포함율이 각각 x 축 및 y 축에 나타나도록 그래프를 생성하는 것을 특징으로 하는, 장르 분석 장치.
  14. 제10항에 있어서,
    상기 장르 판정 단어 집합은,
    문서 또는 전자 문서의 장르 분석에 이용되는 단어들이 장르별로 구분된 단어 집합을 나타내는 것을 특징으로 하는, 장르 분석 장치.
  15. 제10항에 있어서,
    상기 처리부는,
    학습을 통해 장르 판정 단어 집합을 생성하는 것을 특징으로 하는, 장르 분석 장치.
  16. 제15항에 있어서,
    상기 처리부는,
    각 장르에 해당하는 학습용 문서 또는 학습용 전자 문서에서 학습 단어들을 추출하고, 빈도수가 기설정된 임계값을 초과하는 학습 단어들을 포함시킴으로써 장르 판정 단어 집합을 생성하는 것을 특징으로 하는, 장르 분석 장치.
  17. 제10항에 있어서,
    상기 처리부는,
    상기 형태소 분석 결과에 포함된 단어들 중 상기 장르 판정 단어 집합에 포함되어 있지 않지만 연관 단어가 상기 장르 판정 단어 집합에 포함된 단어들을 상기 장르 판정 단어 집합에 더 포함시키는 것을 특징으로 하는, 장르 분석 장치.
KR1020150029806A 2015-03-03 2015-03-03 장르 분석 장치 및 방법 KR101764479B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150029806A KR101764479B1 (ko) 2015-03-03 2015-03-03 장르 분석 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150029806A KR101764479B1 (ko) 2015-03-03 2015-03-03 장르 분석 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20160106983A KR20160106983A (ko) 2016-09-13
KR101764479B1 true KR101764479B1 (ko) 2017-08-03

Family

ID=56946511

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150029806A KR101764479B1 (ko) 2015-03-03 2015-03-03 장르 분석 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101764479B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102020756B1 (ko) * 2018-10-23 2019-11-04 주식회사 리나소프트 머신러닝을 이용한 리뷰 분석 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000163437A (ja) 1998-11-27 2000-06-16 Seiko Epson Corp 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
JP2003141142A (ja) * 2001-11-01 2003-05-16 Shinkichi Yamada インターネットによる階層分類式書籍情報検索装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000163437A (ja) 1998-11-27 2000-06-16 Seiko Epson Corp 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
JP2003141142A (ja) * 2001-11-01 2003-05-16 Shinkichi Yamada インターネットによる階層分類式書籍情報検索装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"장르 판별 알고리즘을 이용한 책 장르 시각화", 한국콘텐츠학회논문지 12(5)(pp. 52-61), 2012년 5월*

Also Published As

Publication number Publication date
KR20160106983A (ko) 2016-09-13

Similar Documents

Publication Publication Date Title
JP4936753B2 (ja) 単語または文字の境界ベースのスクラッチアウトジェスチャ認識
CN106874292B (zh) 话题处理方法及装置
KR101481253B1 (ko) 워드 클라우드 기반 텍스트 문서의 이미지화 요약 방법 및 이를 이용한 정보 제공 시스템
AU2013365452B2 (en) Document classification device and program
US9223756B2 (en) Method and apparatus for identifying logical blocks of text in a document
KR102379674B1 (ko) 문서 내 테이블 분석방법 및 장치
US8831364B2 (en) Information processing apparatus for determining matching language for characters in image
CN109885828A (zh) 基于语言模型的词语纠错方法、装置、计算机设备及介质
CN104915112A (zh) 一种终端解锁方法及终端
WO2016175786A1 (en) Author identification based on functional summarization
US9164964B2 (en) Context-aware text document analysis
KR101764479B1 (ko) 장르 분석 장치 및 방법
KR102082899B1 (ko) 건조사양서 분석을 통한 상이율 자동산정 장치 및 그를 이용한 설계공수 자동산정 방법
US9639970B2 (en) Character recognition system, character recognition program and character recognition method
CN110619212B (zh) 一种基于字符串的恶意软件识别方法、系统及相关装置
KR102520305B1 (ko) 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템 및 방법
WO2016149937A1 (en) Neural network classification through decomposition
CN115004262B (zh) 处理手写中列表的方法和计算装置
CN107783956A (zh) 文字信息的排版方法、电子设备及计算机存储介质
US11113569B2 (en) Information processing device, information processing method, and computer program product
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质
KR20160106984A (ko) 주제어 추출 장치 및 방법
KR101815968B1 (ko) 그룹 분리 기능을 제공하기 위한 악성코드 분류 시스템 및 그 방법
KR101954499B1 (ko) 특허 필터링 서비스 제공방법 및 시스템
WO2015199723A1 (en) Keywords to generate policy conditions

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right