KR101879309B1 - Method and apparatus for extracting animate noun using possessive postposition - Google Patents
Method and apparatus for extracting animate noun using possessive postposition Download PDFInfo
- Publication number
- KR101879309B1 KR101879309B1 KR1020170001989A KR20170001989A KR101879309B1 KR 101879309 B1 KR101879309 B1 KR 101879309B1 KR 1020170001989 A KR1020170001989 A KR 1020170001989A KR 20170001989 A KR20170001989 A KR 20170001989A KR 101879309 B1 KR101879309 B1 KR 101879309B1
- Authority
- KR
- South Korea
- Prior art keywords
- group
- well
- word
- noun
- extracting
- Prior art date
Links
Images
Classifications
-
- G06F17/278—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G06F17/2755—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
본 발명의 일 실시예에 따른 관형격조사를 이용한 유정명사 추출 방법은 텍스트를 전자 문서로부터 읽어들이는 전처리 단계, 텍스트에서 주격조사 및 보조사와 결합된 체언을 추출하는 단계, 추출된 체언 중 유정명사용 조사와 결합된 체언을 제1 그룹으로 분류하는 단계 및 제1 그룹의 체언에 관형격조사가 결합되어 있는 어절 뒤에 제1 단어와 인접하는 명사구가 텍스트 내에서 소정 횟수 이상 나타나는 경우, 제1 단어의 앞에 인접하며 관형격조사와 결합되어 있는 체언, 및 제1 그룹의 체언을 유정명사로 추출하는 단계를 포함한다.A method for extracting a well name noun by using a tube survey according to an embodiment of the present invention includes a preprocessing step of reading text from an electronic document, a step of extracting a pronoun in the text and a cognate combined with a helping person, And if the first group of words is adjacent to the first word and the first group of words is adjacent to the first group, And extracting the first group of pronunciations into the well name nouns.
Description
본 발명은 관형격조사를 이용한 유정명사(有情名詞) 추출 방법 및 장치에 관한 것으로서, 보다 자세하게는 유정명사에 사용되는 조사 및 관형격조사를 기초로 한국어 소설의 텍스트로부터 유정명사에 해당하는 인물명(고유명사) 및 등장인물(일반명사)을 추출하는 유정명사 추출 방법 및 장치에 관한 것이다.[0001] The present invention relates to a method and apparatus for extracting a well-known noun using a tube-type survey, and more particularly, to a method and apparatus for extracting a person's name from a Korean novel's text based on survey and tube- ) And a character (general noun) are extracted.
정보 추출은 자연어 텍스트로부터 개체명 (Named Entity) 및 이벤트와 같은 중요한 정보들을 추출하는 작업이며, 특히 개체명 인식은 정보 추출의 일부분으로 텍스트 내의 개체명을 발견한 뒤, 인명, 지명, 조직명과 같은 미리 정의된 클래스로 분류하는 기법이다. Information extraction is a task that extracts important information such as an object name (Named Entity) and an event from a natural language text. In particular, object name recognition is a part of information extraction, and after finding an object name in text, It is a technique to classify into a predefined class.
이러한 개체명 인식 기법들의 대부분은 규칙 기반 알고리즘 또는 기계학습 기반 기술을 활용하고 있는데, 최근에는 두 가지 기법의 단점은 줄이고 장점은 활용하고자 하는 하이브리드 기법들이 제안되고 있다.Most of these object recognition methods utilize rule - based algorithms or machine - learning based technologies. Recently, hybrid techniques have been proposed to reduce the disadvantages of the two techniques and utilize the advantages.
그러나 개체명 인식 기법들에 대한 분석 연구에 따르면, 목표 텍스트 장르가 아닌 다른 텍스트 장르에 기존의 개체명 인식 기법을 적용하는 것이 쉽지 않음에도 불구하고, 기존의 개체명 인식 기법들은 텍스트의 장르나 도메인에 대하여 고려하지 않은 채, 신문 기사와 같은 텍스트로부터 개체명을 추출하는 것에 한정되어 있다. 현재까지 제안된 대부분의 기법들은 신문 기사와 같은 텍스트로부터 개체명을 추출하는 것에 초점을 맞추고 있다. However, according to the analysis of object name recognition techniques, it is not easy to apply the existing object name recognition technique to a text genre other than the target text genre. However, Is limited to extracting the object name from the text such as a newspaper article without considering it. Most of the techniques proposed so far focus on extracting object names from text such as newspaper articles.
이를 위해, 특허 출원 제10-2016-0100737호에서는 텍스트의 장르와 관계없이 유정명사용 조사를 이용하여 텍스트의 인물명 및 등장인물과 같은 유정명사를 추출하는 방법을 제시하고 있으나, 유정명사용 조사와 함께 쓰이지 않은 유정명사는 추출되지 않는다는 문제가 있다. 여기에서, 인물명은 도서"해리 포터 시리즈"에서 "해리"와 같은 고유명사를 의미하며, 등장인물은 도서"어린 왕자"에서 "왕자"와 같은 일반명사를 의미한다. To this end, Patent Application No. 10-2016-0100737 discloses a method for extracting a well-known noun such as a character's name and a character using a plain-name use survey irrespective of the genre of the text, There is a problem that no well-known noun is not extracted. Here, a person's name means a proper noun such as "Harry" in the book "Harry Potter Series", and the character means a general noun such as "Prince" in the book "Little Prince".
본 발명의 실시예에서 해결하고자 하는 과제는 텍스트의 장르 구분 없이 다양한 장르의 텍스트에 대하여 이미 추출된 유정명사와의 관계를 이용하여 인물명 및 등장인물과 같은 유정명사를 추출하는 기술을 제공하는 것이다. A problem to be solved in the embodiment of the present invention is to provide a technique for extracting a well name noun such as a character name and a character using a relation with a well name noun extracted already for various genre texts without classifying the genre of the text.
또한 특허 출원 제10-2016-0100737호에서 유정명사용 조사와 함께 쓰이지 않은 유정명사를 추출할 수 없었던 문제를 해결하기 위해, 유정명사용 조사와 함께 쓰이지 않은 유정명사까지 추출할 수 있는 기술을 제공하고자 한다. In addition, in Patent Application No. 10-2016-0100737, in order to solve a problem in which it is not possible to extract a noun phrase that has not been used in conjunction with the use of a full name search, it is intended to provide a technique for extracting a noun phrase that is not used together with a full name use search .
다만, 본 발명의 실시예가 이루고자 하는 기술적 과제는 이상에서 언급한 과제로 제한되지 않으며, 이하에서 설명할 내용으로부터 통상의 기술자에게 자명한 범위 내에서 다양한 기술적 과제가 도출될 수 있다.It is to be understood that both the foregoing general description and the following detailed description are exemplary and explanatory and are intended to provide further explanation of the invention as claimed.
본 발명의 일 실시예에 따른 관형격조사를 이용한 유정명사 추출 방법은 텍스트를 전자 문서로부터 읽어들이는 전처리 단계, 상기 텍스트에서 주격조사 및 보조사와 결합된 체언을 추출하는 단계, 상기 추출된 체언 중 유정명사용 조사와 결합된 체언을 제1 그룹으로 분류하는 단계 및 상기 제1 그룹의 체언에 관형격조사가 결합되어 있는 어절 뒤에 제1 단어와 인접하는 명사구가 상기 텍스트 내에서 소정 횟수 이상 나타나는 경우, 상기 제1 단어의 앞에 인접하며 상기 관형격조사와 결합되어 있는 체언, 및 상기 제1 그룹의 체언을 유정명사로 추출하는 단계를 포함한다. According to an embodiment of the present invention, there is provided a method for extracting a well name from a digital document, comprising the steps of: reading text from an electronic document; extracting a pronoun in the text and a cogniton combined with a helping person; Classifying a cognition combined with a usage survey into a first group, and if a noun phrase adjacent to a first word appears after a predetermined number of times in the text after a phrase in which a cognitive probe is combined with a cognition of the first group, Extracting the first group of pronunciations that are adjacent to the first word and are combined with the above-mentioned quadrangulation, and extracting the first group of pronunciations as wellnames.
이때 상기 유정명사용 조사는 -한테, -에게, -께 및 상기 -한테/-에게/-께 에 다른 조사가 결합된 복합조사 중 적어도 하나일 수 있다. At this time, the validity survey can be at least one of the composite surveys combined with -, -, -, and / or - with other surveys.
또한 상기 유정명사로 추출하는 단계는 상기 텍스트 내에서 의 형태로 구성된 명사구 -상기 은 상기 제1 그룹의 체언이고, 상기 는 상기 관형격조사이며, 상기 은 상기 제1 단어임- 가 소정 횟수 이상 나타나는 경우, 상기 텍스트 내에서 의 형태로 구성된 명사구 -상기 는 상기 제1 그룹의 체언이 아니고, 상기 는 상기 관형격조사이며, 상기 은 상기 제1 단어임- 의 상기 를 유정명사로 추출하는 단계를 포함할 수 있다. In addition, the step of extracting with the well name noun Noun phrase consisting of the form Is a cognate of the first group, Is the above-mentioned tube-type irradiation, If the first word is a predetermined number of times or more, Noun phrase consisting of the form Is not a clan of the first group, Is the above-mentioned tube-type irradiation, Is the first word, Into a well name noun.
더불어 상기 추출된 체언 중 무정명사용 조사와 결합된 체언을 제2 그룹, 상기 추출된 체언 중 범용 조사와 결합된 체언을 제3 그룹, 상기 추출된 체언 중 상기 제1 그룹, 상기 제2 그룹 및 상기 제3 그룹의 어디에도 속하지 않는 체언을 제4 그룹으로 분류하는 단계를 더 포함하고, 상기 유정명사로 추출하는 단계는 상기 제1 그룹의 체언 중 상기 제2 그룹 및 상기 제3 그룹에 속하지 않는 체언에 관형격조사가 결합되어 있는 어절 뒤에 제1 단어와 인접하는 명사구가 상기 텍스트 내에서 소정 횟수 이상 나타나는 경우, 상기 제1 단어의 앞에 인접하며 상기 관형격조사와 결합되어 있는 상기 제4 그룹의 체언, 및 상기 제1 그룹의 체언 중 상기 제2 그룹에 속하지 않는 체언을 유정명사로 추출하는 단계를 포함할 수 있다. A second group, a second group, a second group, a second group, a second group, a second group, a second group, a second group, a second group, The method according to claim 1, further comprising the step of classifying the voices not belonging to any of the third groups into a fourth group, The fourth group of cheongs are adjacent to the first group and are adjacent to the first group when the first group of words is adjacent to the first word after the first group of words is displayed a predetermined number of times or more in the text, And extracting a clan not belonging to the second group among the clan of the first group as a well name noun.
이때 상기 무정명사용 조사는 -에까지, -에는, -에도, -에로, -에서, -에서는, -에선 및 -엔 중 적어도 하나이고, 상기 범용조사는 -에 일 수 있다. At this time, the amorphous use investigation is at least one of -, -, -, -, -, EO, -, -, - and - yen, and the general search can be at -.
또한 상기 유정명사로 추출하는 단계는 상기 텍스트 내에서 의 형태로 구성된 명사구 - 상기 은 상기 제1 그룹의 체언 중 상기 제2 그룹 및 상기 제3 그룹에 속하지 않는 체언이고, 상기 는 상기 관형격조사이며, 상기 은 상기 제1 단어임- 가 소정 횟수 이상 나타나는 경우, 상기 텍스트 내에서 의 형태로 구성된 명사구 - 상기 는 상기 제4 그룹의 체언이고, 상기 는 상기 관형격조사이며, 상기 은 상기 제1 단어임 - 의 상기 를 유정명사로 추출하는 단계를 포함할 수 있다. In addition, the step of extracting with the well name noun Noun phrase consisting of the form Is a vowel not belonging to the second group and the third group of the first group of voices, Is the above-mentioned tube-type irradiation, If the first word is a predetermined number of times or more, Noun phrase consisting of the form Is a cognate of the fourth group, Is the above-mentioned tube-type irradiation, Is the first word, Into a well name noun.
더불어 상기 유정명사로 추출하는 단계는 상기 텍스트 내에서 의 형태로 구성된 명사구 - 상기 이 상기 제1 그룹의 체언 중 상기 제2 그룹 및 상기 제3 그룹에 속하지 않는 체언이고, 상기 가 상기 관형격조사이며, 상기 이 상기 제1 단어임- 가 소정 횟수 이상 나타나는 경우, 상기 텍스트 내에서 형태로 구성된 명사구 - 상기 은 관형어가 아니고, 상기 는 상기 제4 그룹의 체언이며, 상기 는 상기 관형격조사이고, 상기 은 상기 관형격조사를 포함하지 않는 하나 이상의 관형어 또는 null이며, 상기 은 상기 제1 단어임 - 의 상기 를 유정명사로 추출하는 단계를 포함할 수 있다. In addition, the step of extracting with the well name noun Noun phrase consisting of the form Is not a member of the second group and the third group among the members of the first group, Is the above-mentioned tube-type irradiation, If the first word is a predetermined number of times or more, Noun phrase consisting of Is not a tongue, Is a cognate of the fourth group, Is the above-mentioned tube-type irradiation, Is one or more idiomatic words that do not include the above-mentioned tube-type examination, or null, Is the first word, Into a well name noun.
아울러 상기 유정명사로 추출하는 단계는 상기 추출된 유정명사 중 대명사, 불특정명사, 집합명사, 복수형, 수사 및 의존명사 중 적어도 하나 이상을 제외하는 단계를 더 포함할 수 있다. In addition, the extracting step may include at least one of pronoun, unspecified noun, aggregate noun, plural noun, rhetorical noun, and dependent noun among the extracted good nouns.
한편 상기 전처리 단계는 인용부호 내의 텍스트를 발화(utterance)로 구분하고, 상기 발화 외의 텍스트를 내러티브(narratuve)로 구분하는 단계를 포함하고, 상기 체언을 추출하는 단계는 상기 내러티브에서 주격조사 및 보조사와 결합된 체언을 추출하는 단계를 포함하고, 상기 제1 그룹으로 분류하는 단계는 상기 추출된 체언 중 유정명사용 조사와 결합된 체언 및 상기 발화에서 유정명사용 조사와 결합된 단어를 제1 그룹으로 분류하는 단계를 포함할 수 있다. Meanwhile, the preprocessing step includes dividing the text in quotation marks into utterances and classifying the texts other than the utterances into a narratuve, and the extracting of the voices includes extracting a phrase from the narrative, And classifying the words into a first group, wherein the classifying step includes classifying the words combined with the vocabulary usage search in the extracted vocabulary and the words combined with the vocabulary usage search in the utterance into the first group Step < / RTI >
또한 상기 체언을 추출하는 단계는 -이 및 -은 과 결합된 단어, 및 -가 및 -는 과 결합된 단어를 체언으로 추출하는 단계를 포함할 수 있다. Further, the step of extracting the cognition may include extracting words combined with - and -, and words combined with - and - with a cognate.
본 발명의 일 실시예에 따른 관형격조사를 이용한 유정명사 추출 장치는 텍스트를 전자 문서로부터 읽어들이는 전처리부, 상기 텍스트에서 주격조사 및 보조사와 결합된 체언을 추출하는 체언 추출부, 상기 추출된 체언 중 유정명사용 조사와 결합된 체언을 제1 그룹으로 분류하는 그룹 분류부 및 상기 제1 그룹의 체언에 관형격조사가 결합되어 있는 어절 뒤에 제1 단어와 인접하는 명사구가 상기 텍스트 내에서 소정 횟수 이상 나타나는 경우, 상기 제1 단어의 앞에 인접하며 상기 관형격조사와 결합되어 있는 체언, 및 상기 제1 그룹의 체언을 유정명사로 추출하는 유정명사 추출부를 포함한다. The apparatus for extracting a well name using a tube-type survey according to an embodiment of the present invention includes a preprocessor for reading text from an electronic document, a snippet extractor for extracting a snippet combined with a phrase search and assistant in the text, A group classification unit for classifying the voices combined with the vulgarity use search into a first group, and a grouping unit for classifying the voices that are adjacent to the first word in the text a predetermined number of times or more And a genuine noun extracting unit for extracting a genuine noun from the first group of pronouns.
본 발명의 실시예에 따르면, 텍스트의 장르에 대한 한정 없이 한국어의 특징을 이용하여 유정명사를 추출하므로 다양한 장르의 텍스트에 대하여 유정명사를 추출할 수 있다. According to the embodiment of the present invention, it is possible to extract a well name noun for various genre texts by extracting the well word noun using Korean features without limiting the genre of the text.
또한 관형격조사를 이용하여 유정명사용 조사와 함께 쓰이지 않은 유정명사를 추출할 수 있으므로 유정명사를 보다 효율적으로 추출할 수 있다. Also, it is possible to extract well nouns that are not used together with the survey of the use of the correct names by using the tube survey.
도 1은 본 발명의 일 실시예에 따른 관형격조사를 이용한 유정명사 추출 장치의 기능 블럭도이다.
도 2는 본 발명의 일 실시예에 따른 관형격조사를 이용한 유정명사 추출 방법의 프로세스를 도시하는 흐름도이다.
도 3a는 유정명사와 무정명사의 관계를 나타내는 벤 다이어그램이다.
도 3b는 유정명사용 조사와 결합된 체언의 그룹을 나눈 벤 다이어그램이다.
도 3c는 유정명사용 조사, 무정명사용 조사 및 범용 조사와 결합된 체언의 그룹을 나눈 벤 다이어그램이다.
도 4는 본 발명의 실시예들의 정확률 및 재현율을 측정하기 위해 사용된 소설의 단어 수를 나타내는 그래프이다.
도 5는 도 4의 소설에 대하여 본 발명의 실시예들을 통해 추출한 유정명사의 정확률을 나타내는 그래프이다.
도 6은 도 4의 소설에 대하여 본 발명의 실시예들을 통해 추출한 유정명사의 재현율을 나타내는 그래프이다.
도 7은 도 4의 소설에 대하여 본 발명의 실시예를 통하여 추출된 유정명사의 등장률이 0%, 0.25%, 0.5%, 1% 이상인 유정명사를 발견하는 것을 목표로 하는 경우, 각각의 재현율을 나타내는 그래프이다. FIG. 1 is a functional block diagram of a well name extraction apparatus using a tube type survey according to an embodiment of the present invention.
FIG. 2 is a flowchart showing a process of a well-known noun extraction method using a tube-type survey according to an embodiment of the present invention.
FIG. 3A is a Venn diagram showing the relationship between the well and the amorphous nouns.
Figure 3b is a Venn diagram divided by a group of voices combined with a vulgar usage survey.
Figure 3c is a Venn diagram divided by a group of vignettes combined with a vulgar use survey, an amorphous usage survey, and a general purpose survey.
4 is a graph showing the number of words in a novel used to measure the accuracy rate and recall rate of the embodiments of the present invention.
FIG. 5 is a graph showing the accuracy rate of the well names extracted through the embodiments of the present invention with respect to the novel of FIG.
6 is a graph showing recall ratios of well names extracted through embodiments of the present invention with respect to the novel of FIG.
FIG. 7 is a graph showing the relationship between the recall rate and the recall rate when the target nouns having the appearance rates of the well names extracted through the embodiment of the present invention are 0%, 0.25%, 0.5%, 1% .
본 발명의 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하의 상세한 설명에 의해 보다 명확하게 이해될 것이다. 첨부된 도면을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다.DETAILED DESCRIPTION OF THE EMBODIMENTS Reference will now be made in detail to the preferred embodiments of the present invention, examples of which are illustrated in the accompanying drawings, wherein like reference numerals refer to the like elements throughout. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment according to the present invention will be described in detail with reference to the accompanying drawings.
본 명세서에서 개시되는 실시예들은 본 발명의 범위를 한정하는 것으로 해석되거나 이용되지 않아야 할 것이다. 이 분야의 통상의 기술자에게 본 명세서의 실시예를 포함한 설명은 다양한 응용을 갖는다는 것이 당연하다. 따라서, 본 발명의 상세한 설명에 기재된 임의의 실시예들은 본 발명을 보다 잘 설명하기 위한 예시적인 것이며 본 발명의 범위가 실시예들로 한정되는 것을 의도하지 않는다.The embodiments disclosed herein should not be construed or interpreted as limiting the scope of the present invention. It will be apparent to those of ordinary skill in the art that the description including the embodiments of the present specification has various applications. Accordingly, any embodiment described in the Detailed Description of the Invention is illustrative for a better understanding of the invention and is not intended to limit the scope of the invention to embodiments.
도면에 표시되고 아래에 설명되는 기능 블록들은 가능한 구현의 예들일 뿐이다. 다른 구현들에서는 상세한 설명의 사상 및 범위를 벗어나지 않는 범위에서 다른 기능 블록들이 사용될 수 있다. 또한, 본 발명의 하나 이상의 기능 블록이 개별 블록들로 표시되지만, 본 발명의 기능 블록들 중 하나 이상은 동일 기능을 실행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합일 수 있다.The functional blocks shown in the drawings and described below are merely examples of possible implementations. In other implementations, other functional blocks may be used without departing from the spirit and scope of the following detailed description. Also, although one or more functional blocks of the present invention are represented as discrete blocks, one or more of the functional blocks of the present invention may be a combination of various hardware and software configurations that perform the same function.
또한, 어떤 구성 요소들을 포함한다는 표현은 개방형의 표현으로서 해당 구성 요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성 요소들을 배제하는 것으로 이해되어서는 안 된다.In addition, the expression "including any element" is merely an expression of an open-ended expression, and is not to be construed as excluding the additional elements.
나아가 어떤 구성 요소가 다른 구성 요소에 연결되어 있다거나 접속되어 있다고 언급될 때에는, 그 다른 구성 요소에 직접적으로 연결 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 한다. Further, when a component is referred to as being connected or connected to another component, it may be directly connected or connected to the other component, but it should be understood that there may be other components in between.
또한 '제1, 제2' 등과 같은 표현은 복수의 구성들을 구분하기 위한 용도로만 사용된 표현으로써, 구성들 사이의 순서나 기타 특징들을 한정하지 않는다. Also, the expressions such as 'first, second', etc. are used only to distinguish a plurality of configurations, and do not limit the order or other features between configurations.
이하에서는 도면들을 참조하여 본 발명의 실시예들에 대해 설명하도록 한다. Hereinafter, embodiments of the present invention will be described with reference to the drawings.
도 1은 본 발명의 일 실시예에 따른 관형격조사를 이용한 유정명사 추출 장치(100)의 기능 블럭도이다. 도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 관형격조사를 이용한 유정명사 추출 장치(100)는 전처리부(110), 체언 추출부(120), 그룹 분류부(130) 및 유정명사 추출부(140)를 포함할 수 있다. FIG. 1 is a functional block diagram of a well
전처리부(110)는 유정명사를 추출할 대상이 되는 텍스트를 전자 문서로부터 읽어들인다. 도 3a을 참조하면, 하나의 텍스트에서 사용되는 명사()는 유정명사()와 무정명사()로 분류될 수 있으며, 이때 유정명사는 사람이나 동물 따위를, 무정명사는 식물이나 무생물을 가리키는 명사를 의미한다. 본 명세서에서 사용하는 유정명사는 사람이나 동물을 나타내는 일반명사와 고유명사를 포함하는 개념이다. 예를 들어, 유정명사 중 일반명사는 "아버지", "어머니" 등의 등장인물이 될 수 있고, 유정명사 중 고유명사는 "해리", "이사벨라", "빌리" 등의 인물명이 될 수 있다. The preprocessing
체언 추출부(120)는 전처리부(110)가 읽어들인 텍스트에서 주격조사 및 보조사와 결합된 체언을 주어후보로 추출한다. The
그룹 분류부(130)는 체언 추출부(120)가 추출한 체언 중 유정명사용 조사와 결합된 체언을 제1 그룹으로 분류한다. 유정명사용 조사란 유정명사 뒤에 붙을 수 있는 조사를 의미한다.The
유정명사 추출부(140)는 그룹 분류부(130)가 분류한 제1 그룹의 체언을 유정명사로 추출할 수 있다. 더하여 유정명사 추출부(140)는 제1 그룹에 속하는 체언이 아니더라도, 제1 그룹의 체언에 관형격조사가 결합되어 있는 어절 뒤에 특정 체언과 인접하는 명사구가 텍스트에서 소정 횟수 이상 나타나는 경우, 특정 체언의 앞에 인접하며 관형격조사와 결합되어 있는 체언을 유정명사로 추출할 수 있다. 관형격조사는 '-의'라는 조사를 의미한다.The well-known
이때 관형격조사를 이용한 유정명사 추출 장치(100)의 각 구성이 동작하는 구체적인 과정은 도 2와 함께 설명하기로 한다. Hereinafter, a concrete procedure of the operation of each configuration of the well
한편 상술한 실시예가 포함하는 전처리부(110), 체언 추출부(120), 그룹 분류부(130) 및 유정명사 추출부(140)는 이들의 기능을 수행하도록 프로그램된 명령어를 포함하는 메모리, 및 이들 명령어를 수행하는 마이크로프로세서를 포함하는 연산 장치에 의해 구현될 수 있다. Meanwhile, the preprocessing
도 2는 본 발명의 일 실시예에 따른 관형격조사를 이용한 유정명사 추출 방법의 프로세스를 도시하는 흐름도이다. 도 2에 따른 관형격조사를 이용한 유정명사 추출 방법의 각 단계는 도 1을 통해 설명된 관형격조사를 이용한 유정명사 추출 장치(100)에 의해 수행될 수 있으며, 각 단계를 설명하면 다음과 같다.FIG. 2 is a flowchart showing a process of a well-known noun extraction method using a tube-type survey according to an embodiment of the present invention. Each step of the method for extracting a well name using the method of FIG. 2 can be performed by the apparatus for extracting a name of a good 101 using the method shown in FIG. 1, and each step will be described below.
우선, 전처리부(110)는 유정명사를 추출할 대상이 되는 텍스트를 전자 문서로부터 읽어들인다(S210). 이에, 체언 추출부(120)는 전처리부(110)가 읽어들인 텍스트에서 주격조사 및 보조사와 결합된 체언을 주어후보로 추출한다(S220).First, the
한국어 문법에서 주격조사는 '-이/-가'이고, 보조사는 '-은/-는'으로 정의되어 있으며, 주어가 될 수 있는 체언 뒤에는 '-이/-가/-은/-는'을 붙여 주어로 사용하고 있다. 예를 들면, "해리가 말했다."와 "해리는 말했다."와 같이 사용되고 있다. 따라서 읽어들인 텍스트에서 '-이/-가/-은/-는'중 적어도 하나 이상의 조사와 결합되어 사용된 단어를 체언으로 추출할 수 있다.In the Korean grammar, the nominative survey is defined as '-i / -', and the assistant is defined as '- / /', and '- / / is / / is / -' It is attached and used as. For example, "Harry said," and "Harry said." Therefore, it is possible to extract a used word from the read text by combining with at least one of '-i / - / - / / -'.
또한 마지막 음절에 받침이 있는 '민숙'과 같은 체언은 '-이' 및 '-은'과 결합될 수 있고, 마지막 음절에 받침이 없는 '민수'와 같은 체언은 '-가' 및 '-는'과 결합될 수 있다. 따라서 이러한 특징을 이용하여 '-이' 및 '-은' 과 결합된 단어, 및 '-가' 및 '-는' 과 결합된 단어를 체언으로 추출할 수 있다. 다만, 체언을 추출하기 위한 방법이 상술한 예시에 한정되는 것은 아니다. In addition, a cognate such as' Kok Sook 'with a foot on the last syllable can be combined with' - i 'and' - s', and a cognate such as' '. Thus, using these features, we can extract words combined with '-i' and '-u', and words combined with '-ga' and '-i'. However, the method for extracting a voice is not limited to the above-described example.
S220 단계를 통해 체언이 추출되면 다음으로, 그룹 분류부(130)는 도 3b에 도시된 바와 같이 체언 추출부(120)가 추출한 체언 중 유정명사용 조사와 결합된 체언을 제1 그룹()으로 분류한다(S230). 유정명사용 조사란 유정명사 뒤에 붙을 수 있는 조사를 의미하며, 그 예는 아래 표 1과 같다.3B, the
이때 유정명사용 조사의 기본형은 '-한테/-에게/-께' 이고 유정명사용 조사의 기본형과 결합된 체언을 제1 그룹으로 분류할 수 있으며, 유정명사용 조사의 기본형에 다른 조사가 결합된 '-한테서/-에게로/-께서는'과 같은 복합조사의 형태와 결합된 체언도 제1 그룹으로 분류할 수 있다. At this time, the basic type of the use survey is' - to / to / / - 'and it is possible to classify the voices combined with the basic type of the voiced use survey as the first group, and the' , And '-' to '-' to '-' and '-'.
다음으로, 유정명사 추출부(140)는 제1 그룹에 속한 체언을 유정명사로 추출할 수 있다(S240). 다만, 제1 그룹의 체언을 곧바로 유정명사라 하여 추출한다면, 추출된 유정명사의 상당수가 대명사이거나 불특정한 사람을 나타내는 명사, 수사 또는 의존명사일 수 있다. Next, the well name
따라서 S240 단계에서는 제1 그룹의 체언 중Accordingly, in step S240,
1) 대명사 (예: '나', '우리', '그', '그녀' 등), 1) pronouns (eg, 'me', 'us', 'him', 'her', etc.)
2) 불특정 명사 (예: '사람', '남자', '여자' 등), 2) Unspecified nouns (eg, 'people', 'men', 'women', etc.)
3) 집합명사 (예: '일가', '가족', '무리' 등), 3) Collective nouns (eg, 'family', 'family', 'crowd', etc.)
4) 복수형 (예: '사람들', '남자들', '여자들' 등), 4) Plural form (eg 'people', 'men', 'women', etc.)
5) 수사 (예: '하나', '둘', '셋' 등), 5) Investigation (eg, 'one', 'two', 'three', etc.)
6) 의존명사 (예: '놈', '명', '분', 등)에 해당하는 경우를 제외하여 유정명사를 추출할 수 있다. 6) It is possible to extract well nouns except for cases where they depend on dependent nouns (eg 'noun', 'name', 'minute', etc.).
이처럼 유정명사 추출부(140)는 제1 그룹의 체언 중 대명사, 불특정명사, 집합명사, 복수형, 수사 및 의존명사를 제외한 체언을 유정명사로 추출할 수 있다. In this way, the well name
한편, 텍스트에서 유정명사용 조사와 결합된 체언이 아니더라도 유정명사가 존재할 수 있다. 이러한 경우 유정명사의 추출을 위해, S240 단계에서 유정명사 추출부(140)는 제1 그룹에 속하는 체언이 아니더라도, 제1 그룹의 체언에 관형격조사('-의')가 결합되어 있는 어절 뒤에 특정 체언과 인접하는 명사구가 텍스트에서 소정 횟수 이상 나타나는 경우, 특정 체언의 앞에 인접하며 관형격조사와 결합되어 있는 체언을 유정명사로 추출할 수 있다. On the other hand, there may be a well-known noun, even if it is not a cognate combined with a vulgarity usage survey in text. In this case, in order to extract a well name noun, in step S240, the well word
예를 들어, S240 단계에서 유정명사 추출부(140)는 아래 [실시예 1]과 같이 이 제1 그룹의 체언이고, 가 관형격조사이며, 이 특정 체언인 명사구가 텍스트 내에서 소정 횟수 이상 나타나는 경우, 아래 [실시예 2]와 같이 가 제1 그룹의 체언이 아니고, 가 관형격조사이며, 이 [실시예 1] 의 체언인 명사구에서 를 유정명사로 추출할 수 있다.For example, in step S240, the well
가령, 텍스트에서 '영희', '철수', '민수'가 유정명사용 조사와 함께 쓰여 제1 그룹으로 추출되고, "영희()의() 목소리()는", "철수()의() 목소리()가", "민수()의() 목소리()를"과 같은 형태의 문장이 텍스트에서 나타나는 경우 (즉, 3명 이상의 유정명사의 관형격조사 다음에 나타나는 경우), "해리()의() 목소리()는"과 같은 문장이 텍스트에서 검색된다면 '해리'는 유정명사용 조사와 결합하여 쓰이지 않았다고 하더라도 유정명사로서 추출할 수 있다. 이는 유정명사에 관형격조사가 결합된 어절의 뒤에 위치하는 체언은, 작가 또는 저자에 의해 다른 유정명사에 관형격조사가 결합된 어절의 뒤에 사용될 가능성이 높기 때문이다. For example, in the text, 'Young-hee', 'Chul-soo', and 'Min-su' )of( ) voice( ) "," Withdraw ( )of( ) voice( ), "" Min-su ( )of( ) voice( ) "Appears in the text (ie, if it appears after the tube survey of three or more well-known nouns)," Harry )of( ) voice( ) Can be extracted as a well name even if it is not used in conjunction with the use of a valid name search if the sentence such as "is searched in the text." This is because the word " Or it is likely that it will be used by authors behind other vernacular verses that incorporate a tube survey.
한편, 유정명사용 조사만을 이용하여 추출한 체언 중에는 의인화 등으로 인해 무정명사 등이 포함되어 있을 수 있고, 텍스트의 양이 방대할 경우 제1 그룹에 속하지 않는 모든 체언에 대하여 관형격조사와 결합된 체언을 찾는 것은 비효율적이기 때문에, 본 발명의 일 실시예에 따른 관형격조사를 이용한 유정명사 추출 방법은 체언의 그룹을 보다 세분화하여 분류하고 유정명사가 아닌 체언의 그룹, 예를 들어 무정명사용 조사와 결합한 체언의 그룹 및 범용 조사와 결합한 체언의 그룹을 제외한 후, 나머지 체언에 대하여 관형격조사를 기초로 유정명사를 추출할 수 있다. On the other hand, among the voices extracted by using only the voiced name use survey, it is possible to include the amorphous nouns due to the anthropomorphism, etc. When the amount of the text is large, the voices combined with the tube type survey are searched for all the voices not belonging to the first group Is inefficient, the method of extracting a well name using a tube survey according to an embodiment of the present invention can classify a group of the cognos more subdivided and classify the group of the cognos that are not the proper nouns, for example, After excluding the group of censors combined with the group and the general survey, the remaining pronouns can be extracted based on the tube survey.
도 3c는 유정명사용 조사, 무정명사용 조사 및 범용 조사와 결합된 체언의 그룹을 나눈 벤 다이어그램이다.Figure 3c is a Venn diagram divided by a group of vignettes combined with a vulgar use survey, an amorphous usage survey, and a general purpose survey.
도 2 및 도 3c에 도시된 바와 같이, S230 단계에서 그룹 분류부(130)는 체언 추출부(120)가 추출한 체언 중 유정명사용 조사와 결합된 체언을 제1 그룹(), 무정명사용 조사와 결합된 체언을 제2 그룹() 및 범용 조사와 결합된 체언을 제3 그룹()으로 분류할 수 있고, 제1 그룹, 제2 그룹 및 제3 그룹의 어디에도 속하지 않는 체언을 제4 그룹으로 분류하는 단계를 포함할 수 있다. 이때 무정명사용 조사는 무정명사에만 결합되는 조사로 '-에까지', '-에는', '-에도', '-에로', '-에서', '-에서는', '-에선' 및 '-엔' 을 포함하고, 범용조사는 유정명사 및 무정명사에 모두 결합될 수 있는 조사로 '-에'를 포함한다. 2 and 3C, in step S230, the
이때 의인화, 사물화 등의 기법으로 인해 무정명사가 유정명사용 조사와 결합될 수 있고, 저자 또는 작가의 의도에 따라 유정명사가 무정명사용 조사와 결합될 수도 있으므로, S240 단계에서 유정명사 추출부(140)는 제1 그룹의 체언 중 제2 그룹 또는 제3 그룹의 체언을 제외하여 유정명사로 추출할 수 있고, 제1 그룹의 체언 중 제2 그룹 또는 제3 그룹의 체언을 제외한 유정명사에 관형격조사가 결합되어 있는 어절이 특정 체언과 인접하는 명사구가 텍스트에서 소정 횟수 이상 나타나는 경우, 특정 체언의 앞에 인접하며 관형격조사와 결합되어 있는 제4 그룹의 체언을 유정명사로 추출할 수 있다. 또한 추출된 유정명사 중 대명사, 불특정명사, 집합명사, 복수형, 수사 및 의존명사를 제외할 수 있다.At this time, the amorphous noun can be combined with the unbiased search using the technique of personification, objectification, etc., and the well name noun may be combined with the amorphous use search according to the intention of the author or author. ) Can be extracted as a well-known noun excluding the second group or third group of the first group's voices, and the second group or the third group, , The fourth group of pronunciations adjacent to the specific pronunciated and combined with the annotation survey can be extracted as the wellnote nouns when the noun phrase adjacent to the specific annotation appears more than a predetermined number of times in the text. It can also exclude pronouns, unspecified nouns, aggregated nouns, plural forms, rhetoricals, and dependent nouns.
예를 들어, S240 단계에서 유정명사 추출부(140)는 아래 [실시예 3]과 같이 이 제1 그룹의 체언 중 제2 그룹 및 제3 그룹에 속하지 않는 체언이고, 가 관형격조사이며, 이 특정 체언인 명사구가 텍스트 내에서 소정 횟수 이상 나타나는 경우, 아래 [실시예 4]와 같이 이 제4 그룹의 체언이고, 가 관형격조사이며, 가 [실시예 3]의 체언인 명사구에서 를 유정명사로 추출할 수 있다. For example, in step S240, the well
이때 [실시예 3] 및 [실시예 4]에서 을 아래 [표 2]에 개시된 조사()와 결합된 체언으로 한정할 수도 있다. [표 2]는 국어국립원 표준국어대사전에 포함된 366개의 조사 중에서 인물명의 뒤에 붙을 수 있는 조사와, 발화에서 인물명이 불릴 때 사용되는 기호, 및 이들의 조합을 선정한 것이다. 또한 추출한 유정명사 중 대명사, 불특정명사, 집합명사, 복수형, 수사 및 의존명사를 제외할 수도 있다.At this time, in [Example 3] and [Example 4] (See Table 2 below) ). ≪ / RTI > [Table 2] is a survey of 366 surveys included in the National Language Standard Dictionary of Korean National Standard Language, which is used when a person name is called in utterance, and combinations thereof. It is also possible to exclude pronouns, unspecified nouns, aggregated nouns, plural forms, rhetoric, and dependent nouns.
더하여 S240 단계에서 유정명사 추출부(140)는 아래 [실시예 5]와 같이 이 제1 그룹의 체언 중 제2 그룹 및 제3 그룹에 속하지 않는 체언이며, 가 관형격조사이고, 이 특정 체언인 형태의 명사구가 텍스트 내에서 소정 횟수 이상 나타나는 경우, 아래 [실시예 6]과 같이 이 관형어가 아니거나 null이고, 가 제4 그룹의 체언이며, 가 관형격조사이고, 이 관형격조사를 포함하지 않는 하나 이상의 관형어이거나 null이며, 이 [실시예 5]에서 추출된 체언인 명사구에서 를 유정명사로 추출할 수 있다. In addition, in step S240, the well
이때 [실시예 6]에서 관형어는 주로 무정명사 등을 수식하기 때문에 정확률을 향상시키기 위해 이 관형어인 경우에는 을 유정명사로 추출하지 않을 수 있다. 가령, "또 한() 명의() 얼굴()이 자신을 바라보고 있었다, (은 null)" 의 경우와 같이 의존명사('명')는 주로 관형어('한')가 수식하는 경우가 많기 때문이다. In this case, in [Embodiment 6], since the idiomatic expresses mainly amorphous characters, etc., In the case of this tongue Can not be extracted as a well-known noun. For example, ) Name( ) Face( ) Was looking at herself, As in the case of "null"), dependence nouns ('noun') are mostly modifiers ('han').
또한 [실시예 6]에서 와 사이에는 을 수식하는 단어()가 위치할 수 있는데, 이때 이 소유격인 경우에는 정확률을 향상시키기 위해 을 유정명사로 추출하지 않을 수 있다. 가령, "사막의 하늘에서 떨어지던 생명의 양식인() 만나()의() 최초의() 이름()은 ..."에서, '만나'는 관형어인 에 의해서도 유정명사로 추출되지 않지만, 가 없다고 하더라도 '최초의()'라는 소유격의 존재 때문에 유정명사로 추출하지 않는다.In [Example 6] Wow Between The word ( ) Can be located, In the case of this possessive, to improve accuracy Can not be extracted as a well-known noun. For example, "the form of life that fell from the sky of the desert ) meet( )of( ) First( ) name( ) Is ... "," meet "is an idiotic Is not extracted as a well name, Even if there is no 'first ( ) 'Because of the existence of possessive do not extract as a well.
한편 [실시예 5] 및 [실시예 6]에서 을 위 [표 2]에 개시된 조사()와 결합된 체언으로 한정할 수도 있다.On the other hand, in [Example 5] and [Example 6] Of the survey (Table 2) ). ≪ / RTI >
한편, 본 발명의 일 실시예에 따른 관형격조사를 이용한 유정명사 추출 방법의 S210 단계에서 전처리부(110)는 텍스트를 발화(Utterance)와 내러티브(Narrative)로 구분할 수 있다. Meanwhile, in step S210 of the method of extracting a genuine noun by using the tube-type survey according to an embodiment of the present invention, the
발화는 소설 등장인물의 생각이 문장 단위로 실현된 것을 의미하며, 작가는 인용문 기호("...", '...')를 사용하여 특정 문장이 발화임을 표시한다. 내러티브는 소설의 줄거리를 이끌어 나가는 문장의 집합으로, 일련의 사건이 가지는 서사성을 1인칭 혹은 3인칭 관점에서 서술하는 문장들로 구성된다. 이를 위해, 전처리부(110)는 인용부호 내의 텍스트를 발화로 구분하고, 그 외의 텍스트를 내러티브로 구분할 수 있다. An utterance means that the idea of a novel character is realized in units of sentences, and the artist uses quotation marks ("...", "...") to indicate that a particular sentence is a utterance. Narrative is a set of sentences that lead to the story of a novel, consisting of sentences describing the narrative of a series of events in terms of first person or third person. To this end, the
유정명사는 내러티브에서 주어로 등장하지만, 발화에서는 대체로 주어생략에 의해 유정명사가 주어로 등장하지 않거나 대명사로 대체되기 때문에 주격조사 및 보조사를 활용하여도 체언으로 추출되지 않는 경우가 있다. 이러한 이유로, 체언을 추출할 때에는 내러티브에 해당되는 텍스트만 대상으로 하여 체언을 추출하고, 이후 유정명사용 조사를 이용하여 유정명사를 추출할 때에는 내러티브에서 추출된 체언 및 발화 문장 전체를 대상으로 유정명사를 추출할 수 있다. Although the well nouns appear as subjects in the narrative, they may not be extracted even by utilizing the nouns and assistants, because the nouns are not given as a subject or replaced with pronouns by omission. For this reason, when extracting a cognition, only the text corresponding to the narrative is extracted and the cognition is extracted. Then, when extracting the well name noun with the use of the full name use survey, the whole noun phrase extracted from the narrative, Can be extracted.
한편, 본 발명의 다른 실시예로 접속조사를 이용한 유정명사 추출 방법이 있다. On the other hand, another embodiment of the present invention is a method for extracting a well name using a connection search.
본 발명의 일 실시예에 따른 접속조사를 이용한 유정명사 추출 방법의 각 단계는 도 1의 유정명사 추출 장치를 통해 수행될 수 있으며, 각 단계를 설명하면 다음과 같다.Each step of the method for extracting a well name using a connection search according to an embodiment of the present invention can be performed through the apparatus for extracting a well name of FIG. 1, and each step will be described below.
우선, 전처리부(110)는 유정명사를 추출할 대상이 되는 텍스트를 전자 문서로부터 읽어들인다. 이에, 체언 추출부(120)는 전처리부(110)가 읽어들인 텍스트에서 주격조사 및 보조사와 결합된 체언을 주어후보로 추출한다.First, the
체언이 추출되면 다음으로, 그룹 분류부(130)는 도 3b에 도시된 바와 같이 체언 추출부가 추출한 체언 중 유정명사용 조사와 결합된 체언을 제1 그룹()으로 분류한다. 3B, the
이후, 유정명사 추출부(140)는 제1 그룹에 속한 체언을 유정명사로 추출할 수 있다. 다만, 제1 그룹의 체언을 곧바로 유정명사라 하여 추출한다면, 추출된 유정명사의 상당수가 대명사이거나 불특정한 사람을 나타내는 명사, 수사 또는 의존명사일 수 있으므로, 유정명사 추출부(140)는 제1 그룹의 체언 중 대명사, 불특정명사, 집합명사, 복수형, 수사 및 의존명사를 제외한 체언을 유정명사로 추출할 수 있다. Thereafter, the well name
한편, 텍스트에서 유정명사용 조사와 결합된 체언이 아니더라도 유정명사가 존재할 수 있다. 이러한 경우 유정명사의 추출을 위해, 유정명사 추출부(140)는 제1 그룹에 속하는 체언이 아니더라도, 제1 그룹의 체언이 접속조사('-와' 및 '-과')와 결합되어 있는 어절과 인접하는 체언을 유정명사로 추출할 수 있다. On the other hand, there may be a well-known noun, even if it is not a cognate combined with a vulgarity usage survey in text. In this case, for the extraction of the well word nouns, the well word
예를 들어, 텍스트에 포함된 문장이 아래 [실시예 7]과 같은 구성을 나타내는 경우 유정명사 추출부(140)는, 이 제1 그룹의 체언이고, 가 접속 조사이면, 을 유정명사로 추출할 수 있다.For example, when the sentence included in the text has the same structure as that of the seventh embodiment described below, the well-known
가령, 텍스트에 "영희()와() 철수()는 같은 반이다" 형태의 문장이 있는 경우, '철수'는 '영희와'라는 어절과 인접하는 체언이므로 '철수'라는 체언이 전체 텍스트에서 유정명사용 조사와 결합되어 사용되지 않았다고 하더라도 유정명사로 추출할 수 있다. 반대로 [실시예 7]의 문장에서 가 접속 조사이고, 이 제1 그룹의 체언이면 을 유정명사로 추출할 수 있다. 이는 유정명사가 접속조사와 쓰이는 경우 대부분 다른 유정명사와 연결되어 사용되기 때문이다. For example, in the text " )Wow( ) Withdrawal ) Is the same half. "If there is a sentence of the form," Cheolsu "is adjacent to the word" Yeonghee ", so even if Cheongsu is not used in the whole text in conjunction with the investigation of the use of vulgarity, On the other hand, in the sentence of [Example 7] Lt; / RTI > If this is the first group of words Can be extracted as a well-known noun. This is because, when a well name is used for connection survey, it is often used in connection with other well names.
한편, 유정명사용 조사만을 이용하여 추출한 체언 중에는 의인화 등으로 인해 무정명사 등이 포함되어 있을 수 있고, 텍스트의 양이 방대할 경우 제1 그룹에 속하지 않는 모든 체언에 대하여 접속조사와 결합된 체언을 찾는 것은 비효율적이기 때문에, 본 발명의 일 실시예에 따른 접속조사를 이용한 유정명사 추출 방법은 체언의 그룹을 보다 세분화하여 분류하고 유정명사가 아닌 체언의 그룹, 예를 들어 무정명사용 조사와 결합한 체언의 그룹 및 범용 조사와 결합한 체언의 그룹을 제외한 후, 나머지 체언에 대하여 접속조사를 기초로 유정명사를 추출할 수 있다. On the other hand, among the voices extracted using only the voiced name use survey, the voiced names may be included due to an anthropomorphism or the like, and when the amount of text is large, the voices combined with the connection search are searched for all the voices not belonging to the first group Therefore, the method of extracting a well name using a connection search according to an embodiment of the present invention can classify a group of the cognos more subdivided and classify the group of the cognos, which is not a proper noun, for example, After excluding the group of censors combined with the group and the general survey, the remaining ness can be extracted based on the connection survey.
도 3c에 도시된 바와 같이, 그룹 분류부(130)는 체언 추출부(120)가 추출한 체언 중 유정명사용 조사와 결합된 체언을 제1 그룹(), 무정명사용 조사와 결합된 체언을 제2 그룹(), 범용 조사와 결합된 체언을 제3 그룹()으로 분류할 수 있고, 제1 그룹, 제2 그룹 및 제3 그룹의 어디에도 속하지 않는 체언을 제4 그룹으로 분류하는 단계를 포함할 수 있다. 이때 무정명사용 조사는 무정명사에만 결합되는 조사로 '-에까지', '-에는', '-에도', '-에로', '-에서', '-에서는', '-에선' 및 '-엔' 을 포함하고, 범용조사는 유정명사 및 무정명사에 모두 결합될 수 있는 조사로 '-에'를 포함한다. As shown in FIG. 3C, the
이때 의인화, 사물화 등의 기법으로 인해 무정명사가 유정명사용 조사와 결합될 수 있고, 유정명사가 무정명사용 조사와 결합될 수 있으므로, 유정명사 추출부(140)는 제1 그룹의 체언 중 제2 그룹 또는 제3 그룹의 체언을 제외하여 유정명사로 추출할 수 있고, 제1 그룹의 체언 중 제2 그룹 또는 제3 그룹의 체언을 제외한 유정명사가 접속조사와 결합되어 있는 어절과 인접하는 제4 그룹의 체언을 유정명사로 추출하는 단계를 포함할 수 있다. 또한 추출된 유정명사 중 대명사, 불특정명사, 집합명사, 복수형, 수사 및 의존명사를 제외할 수 있다.At this time, due to the technique of personification, objectification, etc., the amorphous noun can be combined with the unbiased search and the well word noun can be combined with the amorphous usage search. Therefore, the well word
예를 들어, 텍스트에 포함된 문장이 아래 [실시예 8]과 같은 구성을 나타내는 경우 유정명사 추출부(140)는, 가 관형어가 아니거나 null이고, 이 제4 그룹의 체언이며, 가 접속조사이고, 이 제1 그룹의 체언 중 제2 그룹 및 제3 그룹에 속하지 않는 체언이면, 을 유정명사로 추출할 수 있다. For example, when the sentence included in the text has the same structure as that of the eighth embodiment below, the well
이때 무정명사는 관형어와 결합되어 사용되는 경우가 많기 때문에 가 관형어인 경우에는 를 유정명사로 추출하지 않는다. 가령, '민수가 좋아하는() 음식()과() 민지()가() 사랑하는 음식은 비슷하다'의 경우, '음식'는 관형어 '좋아하는'의 수식을 받는 무정명사이므로 추출하지 않는다. At this time, amnesty is often used in conjunction with a tongue Is a tongue-shaped word Are not extracted as well names. For example, ) food( )and( ) Minji( )end( ) In the case of 'the food of love is similar', 'food' does not extract because it is an amorphous noun to receive the expression of 'liking'.
한편, [실시예 8]에서 을 유정명사 중 인물명으로 한정할 수 있으며, 위 [표 2]에 개시된 조사()와 결합하여 사용된 체언을 유정명사로 추출할 수 있다. On the other hand, in [Example 8] Can be limited to a person's name among the well names, and the survey (Table 2) ) Can be used to extract the vowel used as a well name.
더하여 텍스트에 포함된 문장이 아래 [실시예 9]와 같은 구성을 나타내는 경우 유정명사 추출부(140)는, 이 제1 그룹의 체언 중 제2 그룹 및 제3 그룹에 속하지 않는 체언이고, 가 접속조사이며, 이 제4 그룹의 체언이고, 가 접속조사 및 목적격 조사가 아닌 경우, 을 유정명사로 추출할 수 있다. In addition, if the sentence included in the text has the same structure as the [example 9] below, the well
이때 [실시예 9]에서 가 접속조사 및 목적격 조사('-을', '-를')인 경우에는 을 유정명사로 추출하지 않는다. 가령, '빌리는 해리와() 피자를() 먹는다'의 경우와 같이 가 목적격 조사인 경우에는 무정명사와 결합될 수 있기 때문이고, '나는 철수()와() 피자()와() 콜라를 먹었다'에서'피자'의 경우에는 '철수'와 동격으로 사용된 것이 아니라 뒤따라오는 '콜라'와 동격으로 사용된 것일 수 있기 때문에 제외하도록 한다.At this time, in [Example 9] ('-', '-'), Are not extracted as well names. For example, "Billy said, ) Pizza ( ) As in the case of eating Is the subject investigation, it can be combined with the amorphous noun. )Wow( ) Pizza( )Wow( ) In the case of 'eaten cola' to 'pizza', it is not used as an equivalent to 'Cheol-su', but it should be excluded because it may be used as a 'cola' following.
또한 [실시예 9]에서 가 관형어 또는 형용사이면 을 유정명사로 추출하지 않을 수 있다. '많'라는 단어는 체언은 아니지만, '많+은'및 '많+이'와 같은 형태로 많이 사용되고 있기 때문에 체언으로 추출될 수도 있다. 가령, '영희()와() 많()은() 이야기를 나누었다'와 같은 경우이다. 따라서 오류를 줄이기 위해 가 관형어 또는 형용사이면 을 유정명사로 추출하지 않는다. [Example 9] Is an adjective or an adjective Can not be extracted as a well-known noun. The word 'many' is not a vowel, but it can be extracted as a cognate because it is often used in the form of 'many + silver' and 'many + i'. For example, )Wow( ) Many )silver( ) I have shared a story. So to reduce the error Is an adjective or an adjective Are not extracted as well names.
더하여 [실시예 9]에서 을 위 [표 2]에 개시된 조사()와 결합하여 사용된 체언을 유정명사로 추출할 수 있다. 또한 추출한 유정명사 중 대명사, 불특정명사, 집합명사, 복수형, 수사 및 의존명사를 제외할 수도 있다.In addition, in [Example 9] Of the survey (Table 2) ) Can be used to extract the vowel used as a well name. It is also possible to exclude pronouns, unspecified nouns, aggregated nouns, plural forms, rhetoric, and dependent nouns.
도 4 내지 도 7은 본 발명의 실시예들을 통해 유정명사를 추출한 실험 결과를 설명하기 위한 그래프이다. FIGS. 4 to 7 are graphs for explaining the results of extracting the well names from the embodiments of the present invention.
상술한 실시예에 따른 유정명사 추출 결과에 대한 정확률 및 재현율의 계산을 위하여, 추출된 유정명사와 실제 유정명사에 해당하는 것들을 수동으로 추출하여 비교해 보았다. For the calculation of the accuracy rate and recall rate for the result of the extraction of the well nouns according to the above-described embodiment, the extracts of the extracted well nouns and those corresponding to the actual noun nouns were manually extracted and compared.
이때 정확률 및 재현율은 다음과 같이 정의한다.The accuracy and recall rate are defined as follows.
정확률은 실시예에 따라 추출된 유정명사에 대하여, 실시예에 따라 추출된 유정명사 중 오류를 제외한 실제 유정명사의 비율로 계산된다. 재현율은 수동으로 추출한 실제 인물명(유정명사 중 고유명사에 해당)에 대하여, 실시예를 통해 추출된 유정명사 중 실제의 인물명 비율로 계산된다. The accuracy rate is calculated as the ratio of actual good nouns excluding errors among the good nouns extracted according to the embodiment, with respect to the extracted good nouns according to the embodiment. The recall rate is calculated as the actual person name ratio among the well names extracted through the embodiment, with respect to the actual person names (corresponding to proper nouns among the well names extracted) manually extracted.
도 4는 본 발명의 실시예들의 정확률 및 재현율을 측정하기 위해 사용된 소설의 단어 수를 나타내는 그래프이다. 4 is a graph showing the number of words in a novel used to measure the accuracy rate and recall rate of the embodiments of the present invention.
도 4를 참조하면, 본 실험은 한국어 소설 80권으로 진행되었으며, 약 100,000 단어 정도로 구성된 소설들이 실험에 사용되었다. 도 4의 x축은 소설의 인덱스를 나타내는데, 1번부터 11번까지의 소설이 한국어로 번역된 소설이며, 12번부터 80번은 한국어로 창작된 소설이다. Referring to FIG. 4, this experiment was conducted in 80 Korean novels, and novels having about 100,000 words were used in the experiments. The x-axis of FIG. 4 represents a novel index, which is a novel in which novels 1 to 11 are translated into Korean, and novels 12 to 80 are Korean.
도 5는 도 4의 소설에 대하여 본 발명의 실시예들을 통해 추출한 유정명사의 정확률을 나타내는 그래프이다. 도 5에서 유정명사용 조사만을 이용하여 유정명사를 추출하는 실시예를 AP, 접속조사를 이용하여 유정명사를 추가적으로 추출하는 실시예를 CFoAN, 관형격조사를 이용하여 유정명사를 추가적으로 추출하는 실시예를 PFoAN, 접속조사 및 관형격조사를 모두 이용하여 유정명사를 추가적으로 추출하는 실시예를 CPFoAN이라고 한다. FIG. 5 is a graph showing the accuracy rate of the well names extracted through the embodiments of the present invention with respect to the novel of FIG. 5 is an example of extracting a well name noun by using only a valid name use survey in an AP, and an example in which a well word noun is additionally extracted using a connection survey in a CFoAN, and an example in which a well word noun is additionally extracted using a tube survey, , The connection investigation and the tube survey are all used to extract the oil well nouns is called CPFoAN.
도 5의 실험 결과에 따르면 전체 80권에서, AP에 의하여 총 1811개의 유정명사가 추출되었으나 이 중에서 1,776개가 올바르게 추출된 것이어서 AP의 정확률은 98.07%이고, CFoAN에 의하여 총 1,882개의 유정명사가 추출되었으나 이 중에서 1,854개가 올바르게 추출된 것이어서 CFoAN의 정확률은 98.51%이며, PFoAN에 의하여 총 2,075개의 유정명사가 추출되었으나 이 중에서 2,037개가 올바르게 추출된 것이어서 PFoAN의 정확률은 98.17%이고, CPFoAN에 의하여 총 2,128개의 유정명사가 추출되었으나 이 중에서 2,082개가 올바르게 추출된 것이어서 CPFoAN의 정확률은 97.84%이다. According to the results shown in FIG. 5, a total of 1811 well names were extracted by AP from all 80 books. Of these, 1,776 were correctly extracted, and the accuracy rate of AP was 98.07%. A total of 1,882 well names were extracted by CFoAN The accuracy of CFoAN was 98.51%. A total of 2,075 well names were extracted by PFoAN. Of these, 2,037 were correctly extracted. The accuracy rate of PFoAN was 98.17%. A total of 2,128 wells Nouns were extracted, but 2,082 of them were correctly extracted, so the accuracy rate of CPFoAN is 97.84%.
도 6은 도 4의 소설에 대하여 본 발명의 실시예들을 통해 추출한 유정명사의 재현율을 나타내는 그래프이다. 도 6에서 유정명사용 조사만을 이용하여 유정명사를 추출하는 실시예를 AP, 접속조사를 이용하여 유정명사를 추가적으로 추출하는 실시예를 CFoAN, 관형격조사를 이용하여 유정명사를 추가적으로 추출하는 실시예를 PFoAN, 접속조사 및 관형격조사르 모두 이용하여 유정명사를 추가적으로 추출하는 실시예를 CPFoAN이라고 한다. 6 is a graph showing recall ratios of well names extracted through embodiments of the present invention with respect to the novel of FIG. 6 is an embodiment for extracting a well name noun using only the use of a full name use survey as an AP, and an example for extracting a well name noun as an addition survey using a connection survey as an example of a CFoAN, , The CPFoAN is an example of additionally extracting the well names using both the connection survey and the tube survey.
도 6의 실험 결과에 따르면 실제 인물명의 수가 1443명인 전체 80권에서, AP에 의하여 총 1007명의 인물명이 추출되어 AP의 재현율은 70.27%이고, CFoAN에 의하여 총 1078명의 인물명이 추출되어 AP의 재현율은 75.23%이며, PFoAN에 의하여 총 1171명의 인물명이 추출되어 AP의 재현율은 81.79%이고, CPFoAN에 의하여 총 1203명의 인물명이 추출되어 AP의 재현율은 83.95%이다. According to the results of FIG. 6, a total of 1007 person names are extracted by the AP in a total of 804 volumes having a total number of 1443 persons, the recall rate of the AP is 70.27%, a total of 1078 persons are extracted by CFoAN, 75.23%. The total recall of AP1 is 81.79% and the total recall of AP is 93.95% by CPFoAN.
도 7은 도 4의 소설에 대하여 본 발명의 실시예를 통하여 추출된 유정명사의 등장률이 0%, 0.25%, 0.5%, 1% 이상인 유정명사를 발견하는 것을 목표로 하는 경우, 각각의 재현율을 나타내는 그래프이다. FIG. 7 is a graph showing the relationship between the recall rate and the recall rate when the target nouns having the appearance rates of the well names extracted through the embodiment of the present invention are 0%, 0.25%, 0.5%, 1% .
등장률은 모든 유정명사의 등장빈도 합에 대한 한 인물의 등장빈도 비율로 계산한다. 예를 들어, A의 등장률이 1%라는 것은 소설의 전체 유정명사의 등장빈도 합에 대하여 A의 등장빈도 비율이 1%라는 것을 의미한다.The rate of appearance is calculated as the ratio of the frequency of appearance of one person to the sum of the frequency of appearance of all the well names. For example, the rate of occurrence of A is 1%, which means that the rate of appearance frequency of A is 1% with respect to the sum of frequency of all the wells in the novel.
따라서 등장률 0% 이상을 목표로 설정한 경우는 모든 유정명사를 다 찾겠다는 것이며, 등장률이 1% 이상을 목표로 설정하여도 재현율이 월등하게 높아짐을 확인할 수 있어, 등장률이 적어도 1% 이상인 유정명사는 본 발명의 실시예를 통해 수월하게 추출할 수 있음을 확인할 수 있다. Therefore, if we set the target rate of 0% or more as the target, we will search all the nouns of all the wells, and we can confirm that the recall rate is even higher even if the target rate is set to 1% It is possible to easily extract the noun propery through the embodiment of the present invention.
이상의 결과로부터, 상술한 실시예를 통해 텍스트의 장르에 구분없이 다양한 텍스트에 대하여 유정명사를 효과적으로 추출할 수 있다는 것을 확인할 수 있다. 또한 유정명사용 조사를 사용하는 것에 더하여, 관형격조사를 이용함으로써 유정명사용 조사와 쓰이지 않은 유정명사를 추출하여 정확률 및 재현율을 높일 수 있으므로 상술한 실시예는 보다 효율적으로 유정명사를 추출할 수 있다. From the above results, it can be seen that the dictionary names can be effectively extracted for various texts without discrimination in the genre of the text through the above-described embodiment. Furthermore, in addition to the use of the use of the full name use survey, the full use rate and the recall rate can be increased by extracting the full name use survey and the unused full name noun by using the quadratic survey, so that the above embodiment can more efficiently extract the well noun.
상술한 본 발명의 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.The above-described embodiments of the present invention can be implemented by various means. For example, embodiments of the present invention may be implemented by hardware, firmware, software, or a combination thereof.
하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.In the case of hardware implementation, the method according to embodiments of the present invention may be implemented in one or more Application Specific Integrated Circuits (ASICs), Digital Signal Processors (DSPs), Digital Signal Processing Devices (DSPDs), Programmable Logic Devices (PLDs) , FPGAs (Field Programmable Gate Arrays), processors, controllers, microcontrollers, microprocessors, and the like.
펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리 유닛은 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.In the case of an implementation by firmware or software, the method according to embodiments of the present invention may be implemented in the form of a module, a procedure or a function for performing the functions or operations described above. The software code can be stored in a memory unit and driven by the processor. The memory unit may be located inside or outside the processor, and may exchange data with the processor by various well-known means.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Thus, those skilled in the art will appreciate that the present invention may be embodied in other specific forms without departing from the spirit or essential characteristics thereof. It is therefore to be understood that the embodiments described above are to be considered in all respects only as illustrative and not restrictive. The scope of the present invention is defined by the appended claims rather than the detailed description and all changes or modifications derived from the meaning and scope of the claims and their equivalents are to be construed as being included within the scope of the present invention do.
100: 관형격조사를 이용한 유정명사 추출 장치
110: 전처리부
120: 체언 추출부
130: 그룹 분류부
140: 유정명사 추출부100: Well-known noun extraction device using a tube survey
110:
120:
130:
140: Well noun extraction unit
Claims (13)
상기 텍스트에서 주격조사 및 보조사와 결합된 체언을 추출하는 단계;
상기 추출된 체언 중 유정명사용 조사와 결합된 체언을 제1 그룹으로 분류하는 단계; 및
상기 제1 그룹의 체언에 관형격조사가 결합되어 있는 어절 뒤에 제1 단어와 인접하는 명사구가 상기 텍스트 내에서 소정 횟수 이상 나타나는 경우, 상기 제1 단어의 앞에 인접하며 상기 관형격조사와 결합되어 있는 체언, 및 상기 제1 그룹의 체언을 유정명사의 후보로 추출하는 단계를 포함하는
유정명사 추출 방법.
A preprocessing step of reading text from an electronic document;
Extracting a pronoun in the text and a vocabulary associated with the assistant;
Classifying the extracted voices into a first group; And
When the first word is adjacent to the first word and the first word is adjacent to the first word in the first group, the first word is adjacent to the first word and the first word is adjacent to the first word, And extracting the first group of pronunciations as candidates of the wellnot nouns
Well - known noun extraction method.
상기 유정명사용 조사는 -한테/-에게/-께 및 상기 -한테/-에게/-께 에 다른 조사가 결합된 복합조사 중 적어도 하나인
유정명사 추출 방법.
The method according to claim 1,
The validation survey should include at least one of the combined surveys combined with other surveys to - / to / / - and / to - / to /
Well - known noun extraction method.
상기 유정명사의 후보로 추출하는 단계는,
상기 텍스트 내에서 의 형태로 구성된 명사구 -상기 은 상기 제1 그룹의 체언이고, 상기 는 상기 관형격조사이며, 상기 은 상기 제1 단어임- 가 소정 횟수 이상 나타나는 경우,
상기 텍스트 내에서 의 형태로 구성된 명사구 -상기 는 상기 제1 그룹의 체언이 아니고, 상기 는 상기 관형격조사이며, 상기 은 상기 제1 단어임- 의 상기 를 상기 유정명사의 후보로 추출하는 단계를 포함하는
유정명사 추출 방법.
The method according to claim 1,
Wherein the step of extracting candidates of the well names includes:
Within the text Noun phrase consisting of the form Is a cognate of the first group, Is the above-mentioned tube-type irradiation, If the first word is a predetermined number of times or more,
Within the text Noun phrase consisting of the form Is not a clan of the first group, Is the above-mentioned tube-type irradiation, Is the first word, As candidates of the well name nouns
Well - known noun extraction method.
상기 추출된 체언 중 무정명사용 조사와 결합된 체언을 제2 그룹, 상기 추출된 체언 중 범용 조사와 결합된 체언을 제3 그룹, 상기 추출된 체언 중 상기 제1 그룹, 상기 제2 그룹 및 상기 제3 그룹의 어디에도 속하지 않는 체언을 제4 그룹으로 분류하는 단계를 더 포함하고,
상기 유정명사의 후보로 추출하는 단계는,
상기 제1 그룹의 체언 중 상기 제2 그룹 및 상기 제3 그룹에 속하지 않는 체언에 관형격조사가 결합되어 있는 어절 뒤에 제1 단어와 인접하는 명사구가 상기 텍스트 내에서 소정 횟수 이상 나타나는 경우, 상기 제1 단어의 앞에 인접하며 상기 관형격조사와 결합되어 있는 상기 제4 그룹의 체언, 및 상기 제1 그룹의 체언 중 상기 제2 그룹에 속하지 않는 체언을 상기 유정명사의 후보로 추출하는 단계를 포함하는
유정명사 추출 방법.
The method according to claim 1,
A first group, a second group, a second group, a second group, a second group, a third group, a second group, a second group, and a third group, Further comprising the step of classifying the voices not belonging to any of the third group into the fourth group,
Wherein the step of extracting candidates of the well names includes:
When a first word and a noun phrase adjacent to the first word appear after a predetermined number of times in the text after the first and second words of the first group and the words of the first group are not included in the second group and the third group, Extracting a fourth sentence of the fourth group, which is adjacent to the front of the word and is combined with the above-mentioned survey of the fourth group, and the second sentence of the second group,
Well - known noun extraction method.
상기 무정명사용 조사는 -에까지, -에는, -에도, -에로, -에서, -에서는, -에선 및 -엔 중 적어도 하나이고,
상기 범용조사는 -에 인
유정명사 추출 방법.
5. The method of claim 4,
The amorphous use investigation is at least one of - to, to, - to, - to, - to, - to, - to,
The general purpose irradiation is -
Well - known noun extraction method.
상기 유정명사의 후보로 추출하는 단계는,
상기 텍스트 내에서 의 형태로 구성된 명사구 - 상기 은 상기 제1 그룹의 체언 중 상기 제2 그룹 및 상기 제3 그룹에 속하지 않는 체언이고, 상기 는 상기 관형격조사이며, 상기 은 상기 제1 단어임- 가 소정 횟수 이상 나타나는 경우,
상기 텍스트 내에서 의 형태로 구성된 명사구 - 상기 는 상기 제4 그룹의 체언이고, 상기 는 상기 관형격조사이며, 상기 은 상기 제1 단어임 - 의 상기 를 상기 유정명사의 후보로 추출하는 단계를 포함하는
유정명사 추출 방법.
5. The method of claim 4,
Wherein the step of extracting candidates of the well names includes:
Within the text Noun phrase consisting of the form Is a vowel not belonging to the second group and the third group of the first group of voices, Is the above-mentioned tube-type irradiation, If the first word is a predetermined number of times or more,
Within the text Noun phrase consisting of the form Is a cognate of the fourth group, Is the above-mentioned tube-type irradiation, Is the first word, As candidates of the well name nouns
Well - known noun extraction method.
상기 유정명사의 후보로 추출하는 단계는,
상기 텍스트 내에서 의 형태로 구성된 명사구 - 상기 이 상기 제1 그룹의 체언 중 상기 제2 그룹 및 상기 제3 그룹에 속하지 않는 체언이고, 상기 가 상기 관형격조사이며, 상기 이 상기 제1 단어임- 가 소정 횟수 이상 나타나는 경우,
상기 텍스트 내에서 형태로 구성된 명사구 - 상기 은 관형어가 아니고, 상기 는 상기 제4 그룹의 체언이며, 상기 는 상기 관형격조사이고, 상기 은 상기 관형격조사를 포함하지 않는 하나 이상의 관형어 또는 null이며, 상기 은 상기 제1 단어임 - 의 상기 를 상기 유정명사의 후보로 추출하는 단계를 포함하는
유정명사 추출 방법.
5. The method of claim 4,
Wherein the step of extracting candidates of the well names includes:
Within the text Noun phrase consisting of the form Is not a member of the second group and the third group among the members of the first group, Is the above-mentioned tube-type irradiation, If the first word is a predetermined number of times or more,
Within the text Noun phrase consisting of Is not a tongue, Is a cognate of the fourth group, Is the above-mentioned tube-type irradiation, Is one or more idiomatic words that do not include the above-mentioned tube-type examination, or null, Is the first word, As candidates of the well name nouns
Well - known noun extraction method.
상기 유정명사의 후보로 추출하는 단계는,
상기 추출된 후보 중 대명사, 불특정명사, 집합명사, 복수형, 수사 및 의존명사 중 적어도 하나 이상을 제외하는 단계를 더 포함하는
유정명사 추출 방법.
The method according to claim 1,
Wherein the step of extracting candidates of the well names includes:
Further comprising the step of excluding at least one of the extracted candidates, an unspecified noun, an aggregate noun, a plural form, an investigation, and a dependent noun
Well - known noun extraction method.
상기 전처리 단계는,
인용부호 내의 텍스트를 발화(utterance)로 구분하고, 상기 발화 외의 텍스트를 내러티브(narrative)로 구분하는 단계를 포함하고,
상기 체언을 추출하는 단계는,
상기 내러티브에서 주격조사 및 보조사와 결합된 체언을 추출하는 단계를 포함하고,
상기 제1 그룹으로 분류하는 단계는,
상기 추출된 체언 중 유정명사용 조사와 결합된 체언 및 상기 발화에서 유정명사용 조사와 결합된 단어를 제1 그룹으로 분류하는 단계를 포함하는
유정명사 추출 방법.
The method according to claim 1,
The pre-
Classifying text in quotation marks by utterance and classifying the non-speech text into a narrative,
The method according to claim 1,
Extracting a pronoun in the narrative and a cognac associated with the assistant;
Wherein the grouping into the first group comprises:
Categorizing words extracted from the vocabulary into a first group and vocabulary combined with a vocabulary usage search and a word combined with a vocabulary usage search in the utterance
Well - known noun extraction method.
상기 체언을 추출하는 단계는,
-이 및 -은 과 결합된 단어, 및 -가 및 -는 과 결합된 단어를 체언으로 추출하는 단계를 포함하는
유정명사 추출 방법.
The method according to claim 1,
The method according to claim 1,
- < / RTI > and < RTI ID = 0.0 > - < / RTI &
Well - known noun extraction method.
상기 텍스트에서 주격조사 및 보조사와 결합된 체언을 추출하는 체언 추출부;
상기 추출된 체언 중 유정명사용 조사와 결합된 체언을 제1 그룹으로 분류하는 그룹 분류부; 및
상기 제1 그룹의 체언에 관형격조사가 결합되어 있는 어절 뒤에 제1 단어와 인접하는 명사구가 상기 텍스트 내에서 소정 횟수 이상 나타나는 경우, 상기 제1 단어의 앞에 인접하며 상기 관형격조사와 결합되어 있는 체언, 및 상기 제1 그룹의 체언을 유정명사의 후보로 추출하는 유정명사 추출부를 포함하는
유정명사 추출 장치.
A preprocessing unit for reading text from an electronic document;
A snippet extracting unit for extracting a snail from the text and a snail associated with the assistant;
A grouping unit for classifying the extracted voices into voiced first group, And
When the first word is adjacent to the first word and the first word is adjacent to the first word in the first group, the first word is adjacent to the first word and the first word is adjacent to the first word, And a well name noun extracting unit for extracting the first group of pronouns as candidates of the well name nouns
Well - known noun extraction device.
A program stored on a computer readable medium for causing a processor to perform the method of any one of claims 1 to 10.
11. A computer-readable medium having stored thereon instructions for causing a processor to perform the method of any one of claims 1 to 10.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170001989A KR101879309B1 (en) | 2017-01-05 | 2017-01-05 | Method and apparatus for extracting animate noun using possessive postposition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170001989A KR101879309B1 (en) | 2017-01-05 | 2017-01-05 | Method and apparatus for extracting animate noun using possessive postposition |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180080890A KR20180080890A (en) | 2018-07-13 |
KR101879309B1 true KR101879309B1 (en) | 2018-07-17 |
Family
ID=62913495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170001989A KR101879309B1 (en) | 2017-01-05 | 2017-01-05 | Method and apparatus for extracting animate noun using possessive postposition |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101879309B1 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050065193A (en) * | 2003-12-24 | 2005-06-29 | 한국전자통신연구원 | Lexical and semantic collocation based korean parsing system and the method |
KR20160086777A (en) * | 2015-06-12 | 2016-07-20 | 박기동 | Solution for analyzing the emotion and disposition |
KR20160126294A (en) * | 2015-04-23 | 2016-11-02 | 단국대학교 산학협력단 | Apparatus and method for supporting writer by tracing conversation based on text analysis |
JP2017006630A (en) * | 2016-01-28 | 2017-01-12 | 株式会社大都技研 | Game machine |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008176630A (en) * | 2007-01-19 | 2008-07-31 | Toshiba Corp | Document data processing apparatus |
-
2017
- 2017-01-05 KR KR1020170001989A patent/KR101879309B1/en active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050065193A (en) * | 2003-12-24 | 2005-06-29 | 한국전자통신연구원 | Lexical and semantic collocation based korean parsing system and the method |
KR20160126294A (en) * | 2015-04-23 | 2016-11-02 | 단국대학교 산학협력단 | Apparatus and method for supporting writer by tracing conversation based on text analysis |
KR20160086777A (en) * | 2015-06-12 | 2016-07-20 | 박기동 | Solution for analyzing the emotion and disposition |
JP2017006630A (en) * | 2016-01-28 | 2017-01-12 | 株式会社大都技研 | Game machine |
Non-Patent Citations (3)
Title |
---|
김서희 외, 한국어 소설에서 주요 인물명 인식 기법, 한국정보전자통신기술학회논문지 16-02, Vol.9 no.1, pp.75-81, 2016. * |
이은진, 중학생 문장오류의 학년별 고찰, 아주대학교 교육대학원 석사학위논문, 2007. * |
최기용, 한국어의 "명사+조사" 구성의 구조, 생성문법연구, Vol.16 No.3, pp.311-332, 2006. * |
Also Published As
Publication number | Publication date |
---|---|
KR20180080890A (en) | 2018-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110727796B (en) | Multi-scale difficulty vector classification method for graded reading materials | |
Al-Twairesh et al. | Suar: Towards building a corpus for the Saudi dialect | |
CN110502750A (en) | Disambiguation method, system, equipment and medium during Chinese medicine text participle | |
Walker | 20 Variation analysis | |
Mohammed | Using machine learning to build POS tagger for under-resourced language: the case of Somali | |
US9158761B2 (en) | Identifying cultural background from text | |
Zupan et al. | How to tag non-standard language: Normalisation versus domain adaptation for slovene historical and user-generated texts | |
Etxeberria et al. | Weighted finite-state transducers for normalization of historical texts | |
Uchimoto et al. | Morphological analysis of the Corpus of Spontaneous Japanese | |
Salah et al. | Arabic rule-based named entity recognition systems progress and challenges | |
Wankerl et al. | An Analysis of Perplexity to Reveal the Effects of Alzheimer's Disease on Language | |
Khoufi et al. | Statistical-based system for morphological annotation of Arabic texts | |
Oudah et al. | Person name recognition using the hybrid approach | |
Orasmaa et al. | Named entity recognition in Estonian 19th century parish court records | |
KR101879309B1 (en) | Method and apparatus for extracting animate noun using possessive postposition | |
KR101879311B1 (en) | Method and apparatus for extracting animate noun using connective postposition | |
CN112071304B (en) | Semantic analysis method and device | |
KR101869016B1 (en) | Method and apparatus for extracting character | |
Goriely et al. | Word segmentation from transcriptions of child-directed speech using lexical and sub-lexical cues | |
Tongtep et al. | Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction | |
Smywiński-Pohl et al. | Application of character-level language models in the domain of polish statutory law | |
Babych | Graphonological levenshtein edit distance: Application for automated cognate identification | |
Canales et al. | Towards the improvement of automatic emotion pre-annotation with polarity and subjective information | |
Kurdi | Content-Dependent Versus Content-Independent Features for Gender and Age Range Identification in Different Types of Texts | |
Hasegawa-Johnson et al. | Arabic speech and language technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |