KR101869016B1 - 등장인물 추출 방법 및 장치 - Google Patents

등장인물 추출 방법 및 장치 Download PDF

Info

Publication number
KR101869016B1
KR101869016B1 KR1020160100737A KR20160100737A KR101869016B1 KR 101869016 B1 KR101869016 B1 KR 101869016B1 KR 1020160100737 A KR1020160100737 A KR 1020160100737A KR 20160100737 A KR20160100737 A KR 20160100737A KR 101869016 B1 KR101869016 B1 KR 101869016B1
Authority
KR
South Korea
Prior art keywords
character
candidate
extracting
noun
candidates
Prior art date
Application number
KR1020160100737A
Other languages
English (en)
Other versions
KR20180016840A (ko
Inventor
김승훈
박태근
Original Assignee
단국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 단국대학교 산학협력단 filed Critical 단국대학교 산학협력단
Priority to KR1020160100737A priority Critical patent/KR101869016B1/ko
Priority to PCT/KR2016/015284 priority patent/WO2018030595A1/ko
Publication of KR20180016840A publication Critical patent/KR20180016840A/ko
Application granted granted Critical
Publication of KR101869016B1 publication Critical patent/KR101869016B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F17/27
    • G06F17/2755
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 일 실시예에 따른 등장인물 추출 방법은 프로세서를 갖는 정보 처리 장치에서 수행되며, 텍스트를 전자 문서로부터 읽어들이는 전처리 단계, 텍스트에서 주격조사 및 보조사와 결합된 체언을 주어후보로 추출하는 단계 및 유정명사용 조사를 기초로 주어후보로부터 등장인물을 추출하는 단계를 포함한다.

Description

등장인물 추출 방법 및 장치{METHOD AND APPARATUS FOR EXTRACTING CHARACTER}
본 발명은 등장인물 추출 방법 및 장치에 관한 것으로서, 보다 자세하게는 한국어 번역 소설 및 한국어 창작 소설의 텍스트로부터 유정명사에 사용되는 조사를 기초로 등장인물을 추출함으로써, 기계학습 기법의 학습 데이터가 없이도 다양한 소설에 대하여 등장인물을 추출할 수 있는 등장인물 추출 방법 및 장치에 관한 것이다.
정보 추출은 자연어 텍스트로부터 개체 및 이벤트와 같은 중요한 정보들을 추출하는 작업이며, 개체명 인식은 정보 추출의 일부분으로 텍스트 내의 개체명을 발견한 뒤, 인명, 지명, 조직명과 같은 미리 정의된 클래스로 분류하는 기법이다.
이러한 개체명 인식 기법들의 대부분은 규칙 기반 알고리즘 또는 기계학습 기반 기술을 활용하고 있는데, 최근에는 두 가지 기법의 단점은 줄이고 장점은 활용하고자 하는 하이브리드 기법들이 제안되고 있다.
그러나 개체명 인식 기법들에 대한 분석 연구에 따르면, 목표 텍스트 장르가 아닌 다른 텍스트 장르에 개체명 인식 기법을 적용하는 것이 쉽지 않음에도 불구하고, 기존의 개체명 인식 기법들은 텍스트 장르와 도메인에 대하여 고려하지 않은 채, 신문 기사와 같은 텍스트로부터 개체명을 추출하는 것에 한정되어 있다.
본 발명의 실시예에서 해결하고자 하는 과제는 다양한 소설에 대하여 기계학습 기법을 적용하기 위한 학습 데이터가 없이도 등장인물을 추출하는 기술을 제공하는 것이다.
다만, 본 발명의 실시예가 이루고자 하는 기술적 과제는 이상에서 언급한 과제로 제한되지 않으며, 이하에서 설명할 내용으로부터 통상의 기술자에게 자명한 범위 내에서 다양한 기술적 과제가 도출될 수 있다.
일 실시예에 따른 프로세서를 갖는 정보 처리 장치에서 수행되는 등장인물 추출 장치가 등장인물을 추출하는 방법은 텍스트를 전자 문서로부터 읽어들이는 전처리 단계; 상기 텍스트에서 주격조사 및 보조사와 결합된 체언을 주어후보로 추출하는 단계; 및 유정명사용 조사를 기초로 상기 주어후보로부터 등장인물을 추출하는 단계;를 포함한다.
이때 상기 등장인물을 추출하는 단계는, 상기 유정명사용 조사와 결합되어 사용된 주어후보를 등장인물로 추출할 수 있다.
또한 상기 전처리 단계는, 인용부호 내의 텍스트를 발화로 구분하고, 그 외의 텍스트를 내러티브로 구분할 수 있다.
더불어 상기 주어후보로 추출하는 단계는, 상기 내러티브에서 주격조사 및 보조사와 결합된 체언을 주어후보로 추출하며, 상기 등장인물을 추출하는 단계는, 상기 내러티브에서 추출된 주어후보 중 유정명사용 조사와 결합되어 사용된 주어후보를 등장인물로 추출하고, 상기 발화 중 유정명사용 조사와 결합되어 사용된 체언을 등장인물로 추출할 수 있다.
아울러 상기 주격조사 및 보조사는, -이, -가, -은 및 -는 중 적어도 하나 이상을 포함할 수 있다.
또한 상기 유정명사용 조사는, -한테, -에게, -께 및 상기 -한테/-에게/-께 에 다른 조사가 결합된 복합조사 중 적어도 하나 이상을 포함할 수 있다.
더불어 상기 방법은 상기 추출된 등장인물로부터 대명사, 불특정명사, 집합명사, 복수형, 수사 및 의존명사 중 적어도 하나 이상을 제외하여 등장인물을 확정하는 단계;를 더 포함할 수 있다.
일 실시예에 따른 적어도 하나의 프로세서를 갖는 등장인물 추출 장치는 텍스트를 전자 문서로부터 읽어들이는 전처리부; 상기 텍스트에서 주격조사 및 보조사와 결합된 체언을 주어후보로 추출하는 주어후보 추출부; 및 유정명사용 조사를 기초로 상기 주어후보로부터 등장인물을 추출하는 등장인물 추출부;를 수행한다.
이때 상기 등장인물 추출부는, 상기 유정명사용 조사와 결합되어 사용된 주어후보를 등장인물로 추출할 수 있다.
또한 상기 전처리부는, 인용부호 내의 텍스트를 발화로 구분하고, 그 외의 텍스트를 내러티브로 구분할 수 있다.
아울러 상기 주어후보 추출부는, 상기 내러티브에서 주격조사 및 보조사와 결합된 체언을 주어후보로 추출하며, 상기 등장인물 추출부는, 상기 내러티브에서 추출된 주어후보 중 유정명사용 조사와 결합되어 사용된 주어후보를 등장인물로 추출하고, 상기 발화 중 유정명사용 조사와 결합되어 사용된 체언을 등장인물로 추출할 수 있다.
이때 상기 주격조사 및 보조사는, -이, -가, -은 및 -는 중 적어도 하나 이상을 포함할 수 있다.
또한 상기 유정명사용 조사는, -한테, -에게, -께 및 상기 -한테/-에게/-께 에 다른 조사가 결합된 복합조사 중 적어도 하나 이상을 포함할 수 있다.
더불어 상기 장치는 상기 추출된 등장인물로부터 대명사, 불특정명사, 집합명사, 복수형, 수사 및 의존명사 중 적어도 하나 이상을 제외하여 등장인물을 확정하는 등장인물 확정부;를 더 포함할 수 있다.
본 발명의 실시예에 따르면, 다양한 소설에 대하여 기계학습 기법을 적용하기 위한 학습 데이터 없이도 다양한 소설에 대하여 등장인물을 추출할 수 있다.
이에 따라 인물 간의 소셜 네트워크를 파악하여 도서를 분류할 수 있으며, 등장인물의 성별, 나이 등을 파악하여 text-to-speech 기반 스토리텔링 시스템에서 등장인물에 어울리는 목소리로 책의 내용을 읽어주는 시스템에 활용할 수 있다.
도 1은 일 실시예에 따른 등장인물 추출 장치의 기능 블럭을 나타낸 도면이다.
도 2는 일 실시예에 따른 등장인물 추출 방법을 설명하기 위한 순서도이다.
도 3은 다른 실시예에 따른 등장인물 추출 방법을 설명하기 위한 순서도이다.
도 4 내지 도 7은 등장인물 추출 방법을 통해 등장인물을 추출한 실험 결과를 설명하기 위한 그래프이다.
본 발명의 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하의 상세한 설명에 의해 보다 명확하게 이해될 것이다. 첨부된 도면을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다.
본 명세서에서 개시되는 실시예들은 본 발명의 범위를 한정하는 것으로 해석되거나 이용되지 않아야 할 것이다. 이 분야의 통상의 기술자에게 본 명세서의 실시예를 포함한 설명은 다양한 응용을 갖는다는 것이 당연하다. 따라서, 본 발명의 상세한 설명에 기재된 임의의 실시예들은 본 발명을 보다 잘 설명하기 위한 예시적인 것이며 본 발명의 범위가 실시예들로 한정되는 것을 의도하지 않는다.
도면에 표시되고 아래에 설명되는 기능 블록들은 가능한 구현의 예들일 뿐이다. 다른 구현들에서는 상세한 설명의 사상 및 범위를 벗어나지 않는 범위에서 다른 기능 블록들이 사용될 수 있다. 또한, 본 발명의 하나 이상의 기능 블록이 개별 블록들로 표시되지만, 본 발명의 기능 블록들 중 하나 이상은 동일 기능을 실행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합일 수 있다.
또한, 어떤 구성요소들을 포함한다는 표현은 개방형의 표현으로서 해당 구성요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성요소들을 배제하는 것으로 이해되어서는 안 된다.
나아가 어떤 구성요소가 다른 구성요소에 연결되어 있다거나 접속되어 있다고 언급될 때에는, 그 다른 구성요소에 직접적으로 연결 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 한다.
또한 '제1, 제2' 등과 같은 표현은 복수의 구성들을 구분하기 위한 용도로만 사용된 표현으로써, 구성들 사이의 순서나 기타 특징들을 한정하지 않는다.
이하에서는 도면들을 참조하여 본 발명의 실시예들에 대해 설명하도록 한다.
도 1은 일 실시예에 따른 등장인물 추출 장치(100)의 기능 블럭을 나타낸 도면이다.
도 1을 참조하면, 등장인물 추출 장치(100)는 전처리부(110), 주어후보 추출부(120), 등장인물 추출부(130)를 포함하고, 추가적으로 등장인물 확정부(140)를 더 포함할 수 있다.
전처리부(110)는 등장인물을 추출할 대상이 되는 텍스트를 전자 문서로부터 읽어들인다. 한편, 본 명세서에서 사용하는 '등장인물'이란 용어는 유정명사 중 고유명사와 일반명사를 포함하는 개념이다. 예를 들어, 유정명사 중 고유명사는 "해리", "이사벨라", "빌리" 등의 인물명을 의미하고, 유정명사 중 일반명사는 "아버지", "어머니" 등에 해당한다.
주어후보 추출부(120)는 전처리부(110)가 읽어들인 텍스트에서 주격조사 및 보조사와 결합된 체언을 주어후보로 추출한다.
등장인물 추출부(130)는 유정명사용 조사를 기초로 주어후보 추출부(120)가 추출한 주어후보로부터 등장인물을 추출한다.
등장인물 확정부(140)는 등장인물 추출부(130)에 의해 추출된 등장인물로부터 대명사, 불특정명사, 집합명사, 복수형, 수사 및 의존명사 중 적어도 하나 이상을 제외하여 등장인물을 확정한다.
이때 등장인물 추출 장치(100)의 각 구성이 동작하는 구체적인 과정은 도 2 및 도 3과 함께 설명하기로 한다.
한편 상술한 실시예가 포함하는 전처리부(110), 주어후보 추출부(120), 등장인물 추출부(130) 및 등장인물 확정부(140)는 이들의 기능을 수행하도록 프로그램된 명령어를 포함하는 메모리, 및 이들 명령어를 수행하는 마이크로프로세서를 포함하는 연산 장치에 의해 구현될 수 있다.
도 2는 일 실시예에 따른 프로세서를 갖는 정보 처리 장치에서 수행되는 등장인물 추출 장치(100)가 등장인물을 추출하는 방법을 설명하기 위한 순서도이다. 도 2에 따른 등장인물 추출 방법은 도 1을 통해 설명된 등장인물 추출 장치(100)에 의해 수행될 수 있으며, 각 단계를 설명하면 다음과 같다.
우선, 전처리부(110)를 통해 등장인물을 추출할 텍스트를 전자 문서로부터 읽어들인다(S210).
다음으로, 주어후보 추출부(120)는 읽어들인 텍스트에서 주격조사 및 보조사와 결합된 체언을 주어후보로 추출한다(S220).
한국어 문법에서 주격조사는 '-이/-가'이고 보조사는 '-은/-는'으로 정의되어 있으며, 소설을 포함하는 많은 문서에서 주어가 될 수 있는 체언 뒤에 '-이/-가/-은/-는'을 붙여 주어로 사용하고 있다. 예를 들면, "해리가 말했다."와 "해리는 말했다."와 같이 사용되고 있다.
이에, 주어후보 추출 단계(S220)에서는 읽어들인 텍스트에서 '-이/-가/-은/-는'중 적어도 하나 이상의 조사와 결합되어 사용된 체언을 주어후보로 추출할 수 있다.
또한 소설의 등장인물들은 수차례부터 많게는 수백차례까지 텍스트에서 주어로 등장하기 때문에, 마지막 글자에 받침이 있는 등장인물의 경우 등장인물을 나타내는 글자에 '-이/-은'의 조사와 모두 결합되어 텍스트에 등장할 수 있고, 마지막 글자에 받침이 없는 등장인물의 경우 등장인물을 나타내는 글자에 '-가/-는'의 조사와 무두 결합되어 텍스트에 등장할 수 있다.
이에 따라, 주어후보 추출 단계(S220)에서는 읽어들인 텍스트에서 '-이/-은' 또는 '-가/-는'의 조사 쌍과 함께 결합되어 사용된 적이 있는 체언들을 주어후보로 추출하여, 정확성을 향상시킬 수 있다.
이후, 등장인물 추출부(130)는 유정명사용 조사를 기초로 주어후보로부터 등장인물을 추출한다(S230). 이때 유정명사란 사람이나 동물 따위를 나타내는 명사를 의미하고, 유정명사용 조사란 유정명사 뒤에 붙을 수 있는 조사를 의미하며, 그 예는 아래 표 1과 같다.
Figure 112016076801687-pat00001
이때 유정명사용 조사의 기본형은 '-한테/-에게/-께' 이므로 기본형을 기초로 등장인물의 추출에 사용할 수 있고, 기본형에 다른 조사가 결합된 '-한테서/-에게로/-께서는'과 같은 모든 복합조사의 형태를 기초로 등장인물을 추출할 수 있다.
예를 들면, 등장인물 추출부(130)는 추출된 주어후보에 대해 텍스트에서 유정명사용 조사와 결합되어 사용된 적이 있는 주어후보를 등장인물로 추출할 수 있다. 또는 유정명사용 조사와 결합되어 사용된 단어로부터 일정 어절/음절 내에 존재하는 주어후보를 등장인물로 추출할 수 있다.
아울러, 추가적으로 등장인물 확정부(140)는 추출된 등장인물 중 대명사, 불특정명사, 집합명사, 복수형, 수사 및 의존명사 중 적어도 하나 이상을 제외하여 등장인물을 확정할 수 있다(S240).
표 1에 나열된 유정명사용 조사와 함께 텍스트에 등장하는 주어후보를 모두 등장인물로 추출한다면, 추출된 등장인물의 상당수가 대명사이거나 불특정한 사람을 나타내는 명사, 수사 또는 의존명사일 수 있다.
따라서 본 단계(S240)에서는 텍스트에서 유정명사용 조사와 함께 사용되는 주어후보로 등장인물로 추출되었다고 하더라도, 추출된 등장인물 중
1) 대명사 (예: '나', '우리', '그', '그녀' 등),
2) 불특정 명사 (예: '사람', '남자', '여자' 등),
3) 집합명사 (예: '일가', '가족', '무리' 등),
4) 복수형 (예: '사람들', '남자들', '여자들' 등),
5) 수사 (예: '하나', '둘', '셋' 등),
6) 의존명사 (예: '놈', '명', '분', 등)에 해당하는 경우를 제어하여 등장인물을 확정할 수 있다.
도 3은 다른 실시예에 따른 프로세서를 갖는 정보 처리 장치에서 수행되는 등장인물 추출 장치(100)가 등장인물을 추출하는 방법을 설명하기 위한 순서도이다. 도 3에 따른 등장인물 추출 방법은 도 1을 통해 설명된 등장인물 추출 장치(100)에 의해 수행될 수 있으며, 각 단계를 설명하면 다음과 같다.
우선, 전처리부(110)를 통해 등장인물을 추출할 텍스트를 전자 문서로부터 읽어들인다. 이때 전처리부(110)는 텍스트를 발화(Utterance)와 내러티브(Narrative)로 구분할 수 있다(S310).
발화는 소설 등장인물의 생각이 문장 단위로 실현된 것을 의미하며, 작가는 인용문 기호("", '')를 사용하여 특정 문장이 발화임을 표시한다. 내러티브는 소설의 줄거리를 이끌어 나가는 문장의 집합으로, 일련의 사건이 가지는 서사성을 1인칭 혹은 3인칭 관점에서 서술하는 문장들로 구성된다.
이를 위해, 전처리부(110)는 인용부호 내의 텍스트를 발화로 구분하고, 그 외의 텍스트를 내러티브로 구분할 수 있다.
다음으로, 주어후보 추출부(120)는 읽어들인 텍스트 중 네러티브에서 주격조사 및 보조사와 결합된 체언을 주어후보로 추출한다(S320).
소설의 등장인물은 내러티브에서 주어로 등장하지만, 대체로 발화에서는 주어생략에 의해 등장인물이 주어로 등장하지 않거나 대명사로 대체된다. 그러나 소설의 등장인물은 발화에서 유정명사용 조사와 함께 등장할 수 있다. 이러한 이유로, 주어후보를 추출할 때에는 내러티브에 해당되는 텍스트만 대상으로 하고, 이후 단계(S330)에서 유정명사용 조사를 이용하여 등장인물을 추출할 때에는 내러티브에서 추출된 주어후보 및 발화 전체를 대상으로 한다. 따라서 S320 단계에서는 내러티브에서만 주어후보를 검색하게 되므로 보다 빠른 속도로 주어후보 추출이 가능해진다.
이에 따라, 등장인물 추출부(130)는 내러티브에서 추출된 주어후보 중 유정명사용 조사와 결합되어 사용된 주어후보를 등장인물로 추출하고, 발화 중 유정명사용 조사와 결합되어 사용된 체언을 등장인물로 추출한다(S330).
아울러, 추가적으로 등장인물 확정부(140)는 추출된 등장인물 중 대명사, 불특정명사, 집합명사, 복수형, 수사 및 의존명사 중 적어도 하나 이상을 제외하여 등장인물을 확정할 수 있다(S340).
도 4 내지 도 7은 상술한 실시예를 통해 등장인물을 추출한 결과를 분석하기 위한 그래프이다.
상술한 실시예에 따른 등장인물 추출 결과에 대한 정확성, 재현율, F-measure 계산을 위하여, 추출된 등장인물과 실제 등장인물에 해당하는 것들을 수동으로 추출하여 비교해 보았다.
이때 정확률, 재현율, F-measure는 다음과 같이 정의한다.
Figure 112016076801687-pat00002
Figure 112016076801687-pat00003
Figure 112016076801687-pat00004
정확률은 실시예를 통해 실시예에 따라 추출된 등장인물에 대하여, 실시예에 따라 추출된 등장인물 중 오류를 제외한 실제 등장인물 비율로 계산된다. 재현율은 수동으로 추출한 실제 인물명(등장인물 중 고유명사에 해당)에 대하여, 실시예를 통해 추출된 등장인물 중 실제의 인물명 비율로 계산된다. F-measure는 정확률과 재현율의 조화평균으로 계산된다.
한편 도 4를 참조하면, 본 실험은 한국어 소설 80권으로 진행되었으며, 100,000 단어 정도로 구성된 소설들이 실험에 사용되었다. 도 4의 x축은 소설의 인덱스를 나타내는데, 1번부터 11번까지의 소설이 한국어로 번역된 소설이며, 12번부터 80번은 한국어로 창작된 소설이다.
도 5는 80권의 한국어 소설에 대하여, 실시예에 따라 등장인물을 추출하였을 때의 정확률과 재현율을 보여준다. 이때 도 4와 동일하게, 도 5에서 x축의 1번부터 11번까지는 한국어 번역 소설이며, 12번부터 80번까지는 한국어 창작 소설이다.
도 5의 실험 결과에 따르면, 전체 80권에서 총 1,809개의 등장인물이 추출되었으나 이 중에서 1,773개가 올바르게 추출된 것이어서, 전체 정확률은 98.01%로 계산되었다. 권당으로 바꾸어 표현하면, 권당 22.61개의 등장인물이 추출되었고, 이 중에서 22.16개가 올바르게 추출된 등장인물이었다. 전체 80권의 책으로부터 등장인물이 될 수 없는 총 36개의 단어들이 추출되었는데, 이 단어들은 대부분 의인화되어 사용된 것들이었다. 예를 들면, "그 착한 목소리에게..." 또는 "지중해의 빛한테..."와 같은 문장에서 '목소리'와 '빛'이 의인화되어 유정명사용 조사와 함께 사용되었고, 그 결과 등장인물로 추출되는 결과가 초래되었다.
도 5의 실험 결과로부터 재현율을 계산해 보면, 전체 80권으로부터 수동 추출된 총 1,431개의 등장인물 중에서 1,002개의 등장인물이 추출되었으므로, 전체 재현율은 70.02%로 나타났다. 권당으로 표현하자면, 권당 17.89개의 등장인물이 존재하지만, 실시예를 통해 찾아낼 수 있는 등장인물은 12.53개였다.
도 6 및 도 7은 실시예를 통하여 추출된 등장인물의 등장율이 1% 이상 또는 0.5% 이상인 등장인물을 발견하는 것을 목표로 하는 경우, 재현율이 얼마나 상승하는지를 분석한 그래프이다.
등장율은 모든 등장인물의 등장빈도 합에 대한 한 인물의 등장빈도 비율로 계산한다. 예를 들어, A의 등장율이 1%라는 것은 소설의 전체 등장인물의 등장빈도 합에 대하여 A의 등장빈도 비율이 1%라는 것을 의미한다.
도 6의 결과로부터 재현율을 계산해 보면, 전체 80권으로부터 수동 추출한 총 1,431개의 등장인물 중에서 1,115개의 등장인물이 추출되어, 전체 재현율은 77.92%로 증가하였다. 그리고 도 7의 결과로부터 재현율을 계산해 보면, 전체 80권으로부터 수동 추출된 총 1,431개의 등장인물 중에서 1,199개의 등장인물이 추출되어, 전체 재현율은 83.79%로 증가하였다. 뿐만 아니라 도 7에서는, 각각의 소설별 재현율도 다섯 권을 제외하면 모두 70%보다 높게 나타났다.
도 6과 도 7의 결과로부터, 각각의 소설별 등장인물의 등장율이 1%이상 또는 0.5%이상인 모든 등장인물을 발견하는 경우의 F-measure를 계산해보면, 각각 86.82%와 90.34%로 나타났다.
이상의 결과로부터, 기계학습 기법을 적용하기 위한 학습 데이터 없이도 상술한 실시예를 통해 다양한 소설에 대하여 등장인물을 효과적으로 추출할 수 있는 것을 확인할 수 있다.
또한 이렇게 추출한 등장인물 정보를 활용하여, 등장인물 간의 관계를 구하거나, 이들이 사용된 문장과 유사한 패턴의 다른 문장에 등장하는 등장인물을 추가로 추출하는 연구를 추가적으로 진행할 수 있을 것이다.
한편, 상술한 본 발명의 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.
하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리 유닛은 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 등장인물 추출 장치
110: 전처리부
120: 주어후보 추출부
130: 등장인물 추출부
140: 등장인물 확정부

Claims (16)

  1. 프로세서를 갖는 정보 처리 장치에서 수행되는 등장인물 추출 장치가 등장인물을 추출하는 방법에 있어서,
    텍스트를 전자 문서로부터 읽어들이는 전처리 단계;
    상기 텍스트에서 주격조사 및 보조사와 결합된 체언을 주어후보로 추출하는 단계;
    유정명사용 조사를 기초로 상기 주어후보로부터 등장인물을 추출하는 단계; 및
    상기 추출된 등장인물로부터 대명사, 불특정명사, 집합명사, 복수형, 수사 및 의존명사 중 적어도 하나 이상을 제외하여 등장인물을 확정하는 단계를 포함하는
    등장인물 추출 방법.
  2. 제1항에 있어서,
    상기 등장인물을 추출하는 단계는,
    상기 유정명사용 조사와 결합되어 사용된 주어후보를 등장인물로 추출하는
    등장인물 추출 방법.
  3. 제1항에 있어서,
    상기 전처리 단계는,
    인용부호 내의 텍스트를 발화로 구분하고, 그 외의 텍스트를 내러티브로 구분하는
    등장인물 추출 방법.
  4. 제3항에 있어서,
    상기 주어후보로 추출하는 단계는,
    상기 내러티브에서 주격조사 및 보조사와 결합된 체언을 주어후보로 추출하며,
    상기 등장인물을 추출하는 단계는,
    상기 내러티브에서 추출된 주어후보 중 유정명사용 조사와 결합되어 사용된 주어후보를 등장인물로 추출하고, 상기 발화 중 유정명사용 조사와 결합되어 사용된 체언을 등장인물로 추출하는
    등장인물 추출 방법.
  5. 제1항에 있어서,
    상기 주격조사 및 보조사는,
    -이, -가, -은 및 -는 중 적어도 하나 이상인
    등장인물 추출 방법.
  6. 제1항에 있어서,
    상기 유정명사용 조사는,
    -한테, -에게, -께 및 상기 -한테/-에게/-께 에 다른 조사가 결합된 복합조사 중 적어도 하나 이상인
    등장인물 추출 방법.
  7. 삭제
  8. 텍스트를 전자 문서로부터 읽어들이는 전처리부;
    상기 텍스트에서 주격조사 및 보조사와 결합된 체언을 주어후보로 추출하는 주어후보 추출부;
    유정명사용 조사를 기초로 상기 주어후보로부터 등장인물을 추출하는 등장인물 추출부; 및
    상기 추출된 등장인물로부터 대명사, 불특정명사, 집합명사, 복수형, 수사 및 의존명사 중 적어도 하나 이상을 제외하여 등장인물을 확정하는 등장인물 확정부를 포함하는
    등장인물 추출 장치.
  9. 제8항에 있어서,
    상기 등장인물 추출부는,
    상기 유정명사용 조사와 결합되어 사용된 주어후보를 등장인물로 추출하는
    등장인물 추출 장치.
  10. 제8항에 있어서,
    상기 전처리부는,
    인용부호 내의 텍스트를 발화로 구분하고, 그 외의 텍스트를 내러티브로 구분하는
    등장인물 추출 장치.
  11. 제10항에 있어서,
    상기 주어후보 추출부는,
    상기 내러티브에서 주격조사 및 보조사와 결합된 체언을 주어후보로 추출하며,
    상기 등장인물 추출부는,
    상기 내러티브에서 추출된 주어후보 중 유정명사용 조사와 결합되어 사용된 주어후보를 등장인물로 추출하고, 상기 발화 중 유정명사용 조사와 결합되어 사용된 체언을 등장인물로 추출하는
    등장인물 추출 장치.
  12. 제8항에 있어서,
    상기 주격조사 및 보조사는,
    -이, -가, -은 및 -는 중 적어도 하나 이상인
    등장인물 추출 장치.
  13. 제8항에 있어서,
    상기 유정명사용 조사는,
    -한테, -에게, -께 및 상기 -한테/-에게/-께 에 다른 조사가 결합된 복합조사 중 적어도 하나 이상인
    등장인물 추출 장치.
  14. 삭제
  15. 텍스트를 전자 문서로부터 읽어들이는 전처리 단계;
    상기 텍스트에서 주격조사 및 보조사와 결합된 체언을 주어후보로 추출하는 단계;
    유정명사용 조사를 기초로 상기 주어후보로부터 등장인물을 추출하는 단계; 및
    상기 추출된 등장인물로부터 대명사, 불특정명사, 집합명사, 복수형, 수사 및 의존명사 중 적어도 하나 이상을 제외하여 등장인물을 확정하는 단계를 포함하는
    등장인물 추출 방법을 프로세서가 수행하도록 하는 컴퓨터 판독 가능 기록매체에 저장된 컴퓨터 프로그램.
  16. 적어도 하나의 프로세서 상에서 수행될 때 상기 프로세서로 하여금,
    텍스트를 전자 문서로부터 읽어들이는 동작;
    상기 텍스트에서 주격조사 및 보조사와 결합된 체언을 주어후보로 추출하는 동작;
    유정명사용 조사를 기초로 상기 주어후보로부터 등장인물을 추출하는 동작; 및
    상기 추출된 등장인물로부터 대명사, 불특정명사, 집합명사, 복수형, 수사 및 의존명사 중 적어도 하나 이상을 제외하여 등장인물을 확정하는 동작을 수행하게 하는 명령어를 포함하는
    컴퓨터 프로그램이 기록된 컴퓨터 판독 가능 기록매체.
KR1020160100737A 2016-08-08 2016-08-08 등장인물 추출 방법 및 장치 KR101869016B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160100737A KR101869016B1 (ko) 2016-08-08 2016-08-08 등장인물 추출 방법 및 장치
PCT/KR2016/015284 WO2018030595A1 (ko) 2016-08-08 2016-12-26 등장인물 추출 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160100737A KR101869016B1 (ko) 2016-08-08 2016-08-08 등장인물 추출 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20180016840A KR20180016840A (ko) 2018-02-20
KR101869016B1 true KR101869016B1 (ko) 2018-06-19

Family

ID=61162351

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160100737A KR101869016B1 (ko) 2016-08-08 2016-08-08 등장인물 추출 방법 및 장치

Country Status (2)

Country Link
KR (1) KR101869016B1 (ko)
WO (1) WO2018030595A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102496958B1 (ko) * 2020-12-15 2023-02-08 주식회사 아이포트폴리오 독서 평가를 위한 스토리 데이터 베이스 생성 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110055124A (ko) * 2009-11-19 2011-05-25 한국과학기술원 디지털 사진들에 첨부된 인물들의 이름들을 관리하는 방법 및 시스템

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772888A (ja) * 1993-09-01 1995-03-17 Matsushita Electric Ind Co Ltd 情報処理装置
KR19980066877A (ko) * 1997-01-29 1998-10-15 김광호 미등록어의 유형에 근거한 형태소 해석 방법
JP2008176630A (ja) * 2007-01-19 2008-07-31 Toshiba Corp 文書データ処理装置
KR102069697B1 (ko) * 2013-07-29 2020-02-24 한국전자통신연구원 자동 통역 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110055124A (ko) * 2009-11-19 2011-05-25 한국과학기술원 디지털 사진들에 첨부된 인물들의 이름들을 관리하는 방법 및 시스템

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
김서희 외, 한국어 소설에서 주요 인물명 인식 기법, 한국정보전자통신기술학회 논문지, 9(1), pp.75-81 (2016.02) *
김서희 외, 한국어 소설에서 주요 인물명 인식 기법, 한국정보전자통신기술학회 논문지, 9(1), pp.75-81 (2016.02) 1부. *
김형정, 선행명사구의 유정성과 조사 [에게/에]의 선택, 언어사실과 관점 제26집, 연세대학교 언어정보연구원, pp. 141-195, (2010.) *
김형정, 선행명사구의 유정성과 조사 [에게/에]의 선택, 언어사실과 관점 제26집, 연세대학교 언어정보연구원, pp. 141-195, (2010.) 1부. *
김형정, 선행명사구의 유정성과 조사 [에게/에]의 선택, 언어사실과 관점 제26집, 연세대학교 언어정보연구원, pp. 141-195, (2010.)*

Also Published As

Publication number Publication date
WO2018030595A1 (ko) 2018-02-15
KR20180016840A (ko) 2018-02-20

Similar Documents

Publication Publication Date Title
KR101279707B1 (ko) 문서에서 정의를 식별하는 방법 및 정의 추출 시스템
JP5167546B2 (ja) 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
Al-Twairesh et al. Suar: Towards building a corpus for the Saudi dialect
WO2014187096A1 (en) Method and system for adding punctuation to voice files
US20180137863A1 (en) Speech recognition apparatus, speech recognition method, and computer program product
TW201822190A (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
US9959270B2 (en) Method and apparatus to model and transfer the prosody of tags across languages
KR20170090127A (ko) 음성 언어 이해 장치
Hanani et al. Spoken Arabic dialect recognition using X-vectors
KR102108129B1 (ko) 텍스트 이모티콘 의미 해석 장치, 이를 위한 기록매체
Arikan et al. Detecting clitics related orthographic errors in Turkish
TW201911289A (zh) 用於分割句子的系統和方法
KR101869016B1 (ko) 등장인물 추출 방법 및 장치
KR101757222B1 (ko) 한글 문장에 대한 의역 문장 생성 방법
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
San et al. Automated speech tools for helping communities process restricted-access corpora for language revival efforts
Jůzová Prosodic phrase boundary classification based on Czech speech corpora
Tongtep et al. Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction
KR101879311B1 (ko) 접속조사를 이용한 유정명사 추출 방법 및 장치
Babych Graphonological levenshtein edit distance: Application for automated cognate identification
CN112071304A (zh) 一种语意分析方法及装置
KR101879309B1 (ko) 관형격조사를 이용한 유정명사 추출 방법 및 장치
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
KR101664278B1 (ko) 하이브리드 방법을 사용한srl 기반의 문장 분석 방법 및 장치
KR101501610B1 (ko) 인용문/화자 인식 시스템 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant