KR102209786B1 - Method and apparatus for constructing chunk based on natural language processing - Google Patents

Method and apparatus for constructing chunk based on natural language processing Download PDF

Info

Publication number
KR102209786B1
KR102209786B1 KR1020180075709A KR20180075709A KR102209786B1 KR 102209786 B1 KR102209786 B1 KR 102209786B1 KR 1020180075709 A KR1020180075709 A KR 1020180075709A KR 20180075709 A KR20180075709 A KR 20180075709A KR 102209786 B1 KR102209786 B1 KR 102209786B1
Authority
KR
South Korea
Prior art keywords
dependency relationship
sentence
words
chunk
modifier
Prior art date
Application number
KR1020180075709A
Other languages
Korean (ko)
Other versions
KR20200003329A (en
Inventor
김태정
Original Assignee
김태정
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김태정 filed Critical 김태정
Priority to KR1020180075709A priority Critical patent/KR102209786B1/en
Publication of KR20200003329A publication Critical patent/KR20200003329A/en
Application granted granted Critical
Publication of KR102209786B1 publication Critical patent/KR102209786B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

자연어 처리 기반의 청크 구성 방법이 제공된다. 상기 방법은 문장을 획득하여 자연어 처리(Natural Language Procissing; NLP) 기법을 적용하여 파싱하는 단계, 상기 파싱에 기초하여 상기 문장 내 단어들 간의 의존 관계(dependency)를 분석하는 단계, 및 상기 의존 관계에 기초하여 상기 단어들을 적어도 하나의 청크로 구성하는 단계를 포함한다.A method of constructing chunks based on natural language processing is provided. The method includes obtaining a sentence and parsing it by applying a Natural Language Procissing (NLP) technique, analyzing a dependency relationship between words in the sentence based on the parsing, and the dependency relationship. And constructing the words into at least one chunk based on it.

Description

자연어 처리 기반의 청크 구성 방법 및 장치{METHOD AND APPARATUS FOR CONSTRUCTING CHUNK BASED ON NATURAL LANGUAGE PROCESSING}A method and apparatus for constructing chunks based on natural language processing {METHOD AND APPARATUS FOR CONSTRUCTING CHUNK BASED ON NATURAL LANGUAGE PROCESSING}

본 발명은 자연어 처리 기반의 청크 구성 방법 및 장치에 관한 것이다. The present invention relates to a method and apparatus for constructing chunks based on natural language processing.

해외의 영화나 드라마 등과 같은 영상 콘텐츠를 통해 영어 등과 같은 외국어의 어학 학습을 수행하는 사용자들이 증가하고 있다. 이처럼 영상 콘텐츠를 통해 어학 학습을 수행하는 경우에는 기존의 강의나 교재 등을 이용한 학습에 비해 재미있고 효율적인 학습이 가능할 수 있다. An increasing number of users are learning foreign languages such as English through video content such as overseas movies or dramas. In this case, when language learning is performed through video content, more interesting and efficient learning may be possible compared to learning using existing lectures or textbooks.

종래에는 영상 콘텐츠를 통해 어학 학습을 수행하는 경우, 자국어(예: 한글)로 번역된 자막뿐 아니라 영상 콘텐츠의 해당 언어(예컨대, 영어) 자막을 동시에 디스플레이하거나, 또는 해당 언어(예컨대, 영어) 자막만을 디스플레이하여 영상 콘텐츠를 시청하게 된다. 즉, 종래의 어학 학습 방법은 영상 콘텐츠에 맞춰 단순히 개별 단어들을 배열하는 형식의 자막과 같은 텍스트 형식을 제공할 뿐이다. Conventionally, when language learning is performed through video content, not only the subtitles translated into the native language (eg, Korean) but also the corresponding language (eg, English) subtitles of the video content are simultaneously displayed, or the corresponding language (eg, English) subtitles By displaying the bay, you can watch video content. In other words, the conventional language learning method only provides a text format such as a subtitle in which individual words are simply arranged according to video content.

그러나, 언어 학습에 있어서 중요한 것은 개별 단어의 의미를 파악하는 것뿐만 아니라, 의미를 담고 있는 단위로 문장을 이해하는 것이다. 즉, 문장을 청크(chunk, 말뭉치) 단위로 파악하는 것이 어학 학습에서 효과적인 방법이다. 청크는 하나 이상의 단어로 구성된 단어 덩어리이다. 인간은 하나의 문장을 말할 때 머릿속으로 한꺼번에 생각하고 한꺼번에 말하는 것이 아니라, 적절한 의미 단위로 끊어서 사고하고 끊어서 말하게 된다. 따라서, 어학 학습 시에도 단순히 단어들을 나열하는 방식에 비해 청크 단위로 끊어서 사고하고 학습하는 것이 효과적이다. However, the important thing in language learning is not only to grasp the meaning of individual words, but also to understand sentences as a unit containing the meaning. In other words, grasping sentences in chunks (corpus) is an effective method in language learning. Chunks are word chunks made up of one or more words. When humans say a sentence, they do not think in their heads at once and say them all at once, but instead think in the appropriate unit of meaning, and think and speak with them. Therefore, even when learning language, it is more effective to think and learn by breaking them in chunks compared to simply listing words.

공개특허공보 제10-2011-0028063호, 2011.03.17Unexamined Patent Publication No. 10-2011-0028063, 2011.03.17

본 발명이 해결하고자 하는 과제는 자연어 처리 기반의 청크 구성 방법 및 장치를 제공하는 것이다.The problem to be solved by the present invention is to provide a method and apparatus for constructing chunks based on natural language processing.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The problems to be solved by the present invention are not limited to the problems mentioned above, and other problems that are not mentioned will be clearly understood by those skilled in the art from the following description.

본 발명의 일 실시예에 따른 자연어 처리 기반의 청크 구성 방법은, 문장을 획득하여 자연어 처리(Natural Language Procissing; NLP) 기법을 적용하여 파싱하는 단계, 상기 파싱에 기초하여 상기 문장 내 단어들 간의 의존 관계(dependency)를 분석하는 단계, 및 상기 의존 관계에 기초하여 상기 단어들을 적어도 하나의 청크로 구성하는 단계를 포함한다. In the method for constructing chunks based on natural language processing according to an embodiment of the present invention, the step of acquiring a sentence and parsing it by applying a Natural Language Procissing (NLP) technique, the dependence between words in the sentence based on the parsing Analyzing a dependency, and organizing the words into at least one chunk based on the dependency relationship.

본 발명의 일 실시예에 있어서, 상기 파싱하는 단계는, 상기 문장 내 단어들 각각에 대해 핵심어(head) 및 수식어(modifier)로 표현되는 의존 관계를 포함할 수 있다.In one embodiment of the present invention, the parsing may include a dependency relationship expressed as a head and a modifier for each of the words in the sentence.

본 발명의 일 실시예에 있어서, 상기 문장 내 단어들 간의 의존 관계를 분석하는 단계는, 상기 문장 내 단어들 각각에 대해, 핵심어에 대한 수식어의 의존 관계도를 산출하는 단계를 포함할 수 있다.In an embodiment of the present invention, analyzing the dependency relationship between words in the sentence may include calculating a dependency relationship degree of a modifier with respect to a key word for each of the words in the sentence.

본 발명의 일 실시예에 있어서, 상기 의존 관계도를 산출하는 단계는, 상기 핵심어를 직접 수식하는 수식어의 개수를 기초로 의존 관계도를 산출할 수 있다.In an embodiment of the present invention, in the calculating of the dependency relationship, the dependency relationship may be calculated based on the number of modifiers that directly modify the key word.

본 발명의 일 실시예에 있어서, 상기 의존 관계도를 산출하는 단계는, 상기 핵심어를 직접 수식하는 수식어 및 상기 핵심어를 간접 수식하는 수식어의 개수를 기초로 의존 관계도를 산출할 수 있다.In an embodiment of the present invention, in the calculating of the dependency relationship, the dependency relationship may be calculated based on the number of modifiers that directly modify the keyword and the number of modifiers that indirectly modify the keyword.

본 발명의 일 실시예에 있어서, 상기 문장 내 단어들 간의 의존 관계를 분석하는 단계는, 상기 문장 내 단어들 중 수식어와의 의존 관계를 가지는 핵심어를 검색하는 단계, 상기 검색된 핵심어의 의존 관계도를 기초로 기설정된 의존 관계 조건에 부합하는지 여부를 판단하는 단계, 및 상기 판단 결과에 따라 상기 기설정된 의존 관계 조건에 부합하는 핵심어 및 상기 핵심어에 대응하는 수식어를 도출하는 단계를 더 포함할 수 있다.In an embodiment of the present invention, the analyzing the dependence relationship between words in the sentence comprises: searching for a keyword having a dependency relationship with a modifier among words in the sentence, and determining a dependency relationship of the searched keyword It may further include determining whether or not a predetermined dependency relationship condition is met, and deriving a keyword corresponding to the predetermined dependency relationship condition and a modifier corresponding to the keyword according to the determination result.

본 발명의 일 실시예에 있어서, 상기 기설정된 의존 관계 조건에 부합하는지 여부를 판단하는 단계는, 상기 검색된 핵심어가 소정 수 이상의 수식어를 포함하는 의존 관계도를 갖는지 여부를 판단하거나, 또는 상기 검색된 핵심어가 가장 많은 수식어를 포함하는 의존 관계도를 갖는지 여부를 판단할 수 있다.In an embodiment of the present invention, the determining whether or not the predetermined dependency relationship condition is satisfied may include determining whether the searched keyword has a dependency relationship degree including a predetermined number or more of modifiers, or the searched keyword It can be determined whether or not has the degree of dependency including the most modifiers.

본 발명의 일 실시예에 있어서, 상기 문장 내 단어들 간의 의존 관계를 분석하는 단계는, 상기 문장 내 단어들이 소정 수 이상인지 여부에 따라서 상기 의존 관계를 분석할 수 있다. In an embodiment of the present invention, the step of analyzing the dependency relationship between words in the sentence may analyze the dependency relationship according to whether or not the number of words in the sentence is more than a predetermined number.

본 발명의 일 실시예에 있어서, 상기 단어들을 적어도 하나의 청크로 구성하는 단계는, 상기 도출된 핵심어 및 상기 핵심어에 대응하는 수식어를 묶어 제1 청크로 구성할 수 있다.In an embodiment of the present invention, in the step of configuring the words into at least one chunk, the derived keyword and a modifier corresponding to the keyword may be grouped to form a first chunk.

본 발명의 일 실시예에 있어서, 상기 청크로 구성되지 못한 상기 문장 내의 나머지 단어에 대해서, 상기 나머지 단어의 앞 또는 뒤 청크에 상기 나머지 단어를 합치는 단계를 더 포함할 수 있다.In an embodiment of the present invention, for the remaining words in the sentence that are not composed of the chunks, the step of adding the remaining words to a front or rear chunk of the remaining word may be further included.

본 발명의 다른 실시예에 따른 컴퓨터프로그램은 상기 본 발명의 실시예에 따른 자연어 처리 기반의 청크 구성 방법을 컴퓨터에서 실행시키기 위하여 기록 매체에 저장된다. A computer program according to another embodiment of the present invention is stored in a recording medium in order to execute the method for constructing a chunk based on natural language processing according to the embodiment of the present invention.

본 발명의 또 다른 실시예에 따른 자연어 처리 기반의 청크 구성 방법을 수행하는 장치는 문장을 획득하여 자연어 처리(Natural Language Procissing; NLP) 기법을 적용하여 파싱하는 파싱부, 상기 파싱에 기초하여 상기 문장 내 단어들 간의 의존 관계(dependency)를 분석하는 의존관계 분석부, 및 상기 의존 관계에 기초하여 상기 단어들을 적어도 하나의 청크로 구성하는 청크 구성부를 포함한다.An apparatus for performing a method for constructing chunks based on natural language processing according to another embodiment of the present invention includes a parsing unit that obtains a sentence and parses it by applying a natural language processing (NLP) technique, and the sentence based on the parsing. And a dependency relationship analysis unit that analyzes a dependency relationship between my words, and a chunk construction unit that configures the words into at least one chunk based on the dependency relationship.

본 발명에 따르면, 문장을 청크 단위로 구성하여 제공하므로 효과적인 어학 학습을 수행할 수 있다. 또한 문장 내 단어 간의 의존 관계를 기반으로 청크를 구성하기 때문에 인간의 사고 과정과 유사하여 효과적으로 의미 전달 및 분석이 가능하다. According to the present invention, since sentences are provided in chunks, effective language learning can be performed. In addition, since chunks are formed based on the dependency relationship between words in a sentence, it is similar to the human thinking process, enabling effective meaning transfer and analysis.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the following description.

도 1은 본 발명의 일 실시예에 따른 자연어 처리 기반의 청크 구성 방법을 수행하는 장치의 구성을 개략적으로 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 자연어 처리 기반의 청크 구성 방법을 개략적으로 나타낸 순서도이다.
도 3은 본 발명의 일 실시예에 따라 파싱된 문장의 결과를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 자연어 처리 기반의 청크 구성 방법을 적용할 수 있는 일례를 나타낸 순서도이다.
도 5는 본 발명의 일 실시예에 따라 핵심어와 수식어 간의 의존 관계를 산출하는 방법을 설명하기 위해 도시된 도면이다.
도 6은 본 발명의 일 실시예에 따라 문장 내 단어들을 청크로 구성하여 출력한 화면을 도시한 도면이다.
1 is a diagram schematically showing the configuration of an apparatus for performing a method for constructing chunks based on natural language processing according to an embodiment of the present invention.
2 is a flowchart schematically illustrating a method for constructing chunks based on natural language processing according to an embodiment of the present invention.
3 is a diagram showing a result of a parsed sentence according to an embodiment of the present invention.
4 is a flowchart illustrating an example to which a method for constructing chunks based on natural language processing according to an embodiment of the present invention can be applied.
5 is a diagram illustrating a method of calculating a dependency relationship between a key word and a modifier according to an embodiment of the present invention.
6 is a diagram illustrating a screen in which words in a sentence are configured into chunks and output according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. Advantages and features of the present invention, and a method of achieving them will become apparent with reference to the embodiments described below in detail together with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in a variety of different forms, only the present embodiments are intended to complete the disclosure of the present invention, It is provided to fully inform the technician of the scope of the present invention, and the present invention is only defined by the scope of the claims.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.The terms used in the present specification are for describing exemplary embodiments and are not intended to limit the present invention. In this specification, the singular form also includes the plural form unless specifically stated in the phrase. As used in the specification, “comprises” and/or “comprising” do not exclude the presence or addition of one or more other elements other than the mentioned elements. Throughout the specification, the same reference numerals refer to the same elements, and “and/or” includes each and all combinations of one or more of the mentioned elements. Although "first", "second", and the like are used to describe various elements, it goes without saying that these elements are not limited by these terms. These terms are only used to distinguish one component from another component. Therefore, it goes without saying that the first component mentioned below may be the second component within the technical idea of the present invention.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used in the present specification may be used as meanings that can be commonly understood by those of ordinary skill in the art to which the present invention belongs. In addition, terms defined in a commonly used dictionary are not interpreted ideally or excessively unless explicitly defined specifically.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 자연어 처리 기반의 청크 구성 방법을 수행하는 장치의 구성을 개략적으로 나타낸 도면이다. 1 is a diagram schematically showing the configuration of an apparatus for performing a method for constructing chunks based on natural language processing according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시예에 따른 자연어 처리 기반의 청크 구성 방법을 수행하는 장치(100, 이하 청크 구성 장치라 함)는 파싱부(110), 의존관계 분석부(120), 청크 구성부(130)를 포함할 수 있다.Referring to FIG. 1, an apparatus 100 (hereinafter referred to as a chunk composition apparatus) for performing a method for constructing a chunk based on natural language processing according to an embodiment of the present invention includes a parsing unit 110, a dependency analysis unit 120, A chunk configuration unit 130 may be included.

파싱부(110)는 문장을 획득하고, 획득한 문장에 대해 자연어 처리(Natural Language Procissing; NLP) 기법을 적용하여 파싱을 수행할 수 있다. 여기서, 문장은 복수의 단어들로 이루어진 텍스트 데이터를 말하며, 자국어 및 외국어를 포함하여 여러 종류의 언어로 이루어진 문장일 수 있다. 일 실시예로, 파싱부(110)는 사용자로부터 직접 입력받은 문장을 획득할 수도 있고, 또는 영상 콘텐츠를 통해 영어 등과 같은 외국어의 어학학습 시에 출력되는 영상 콘텐츠의 해당 언어 자막을 획득할 수도 있다. 또한, 파싱부(110)는 문장을 단위 자막으로 획득할 수도 있다. 단위 자막은 출력 화면을 한번에 출력될 수 있는 자막의 단위일 수 있으며, 예컨대 어학학습을 위한 애플리케이션을 이용할 경우에 애플리케이션의 출력 화면을 통해 출력되는 자막 단위일 수 있다. 여기서, 단위 자막은 복수 개의 문장으로 구성될 수도 있고, 문장의 일부(미완성 문장)로 구성될 수도 있다.The parser 110 may acquire a sentence and perform parsing by applying a natural language processing (NLP) technique to the acquired sentence. Here, the sentence refers to text data composed of a plurality of words, and may be a sentence composed of various kinds of languages including native and foreign languages. In one embodiment, the parsing unit 110 may obtain a sentence directly input from the user, or may obtain a corresponding language caption of image content outputted during language learning of a foreign language such as English through image content. . In addition, the parser 110 may obtain a sentence as a unit caption. The unit caption may be a unit of a caption capable of outputting an output screen at a time. For example, when an application for language learning is used, it may be a unit of caption output through an output screen of the application. Here, the unit caption may be composed of a plurality of sentences, or may be composed of a part of the sentence (unfinished sentence).

따라서 파싱부(110)가 획득하는 문장은 하나 이상의 문장일 수 있으며, 미완성 문장(문장의 일부)일 수도 있다.Accordingly, the sentence acquired by the parser 110 may be one or more sentences, or may be incomplete sentences (part of the sentence).

의존관계 분석부(120)는 획득한 문장에 대한 파싱부(110)의 파싱 결과에 기초하여 문장 내 단어들 간의 의존 관계(dependency)를 분석할 수 있다. The dependency analysis unit 120 may analyze a dependency relationship between words in a sentence based on a parsing result of the parsing unit 110 for the acquired sentence.

청크 구성부(130)는 의존관계 분석부(130)의 분석 결과에 따라 문장 내 단어들을 적어도 하나의 청크(chunk)로 구성할 수 있다.The chunk construction unit 130 may configure words in a sentence into at least one chunk according to the analysis result of the dependency relation analysis unit 130.

도 1에 도시된 청크 구성 장치(100)의 각 구성요소에 대한 구체적인 동작 과정은 이하에서 설명하도록 한다. A detailed operation process for each component of the chunk configuration apparatus 100 shown in FIG. 1 will be described below.

도 2는 본 발명의 일 실시예에 따른 자연어 처리 기반의 청크 구성 방법을 개략적으로 나타낸 순서도이다. 도 2의 방법은 상술한 도 1의 청크 구성 장치(100)에 의해 수행될 수 있다. 2 is a flowchart schematically illustrating a method for constructing chunks based on natural language processing according to an embodiment of the present invention. The method of FIG. 2 may be performed by the apparatus 100 for constructing a chunk of FIG. 1 described above.

도 2를 참조하면, 파싱부(110)는 문장을 획득하고, 획득한 문장에 대해 자연어 처리 기법을 적용하여 파싱을 수행할 수 있다(S200). Referring to FIG. 2, the parser 110 may acquire a sentence and perform parsing by applying a natural language processing technique to the acquired sentence (S200 ).

여기서, 자연어 처리는 컴퓨터를 이용하여 사람 언어의 이해, 생성 및 분석을 다루는 인공 지능 기술의 하나로서, 인간이 발화하는 언어 현상을 기계적으로 분석해서 컴퓨터가 이해할 수 있는 형태로 만드는 기술이다. 예를 들어, 형태소 분석, 품사 부착, 구절 단위 분석, 구문 분석 등을 통하여 자연어를 컴퓨터가 이해할 수 있는 형태로 출력할 수 있다.Here, natural language processing is one of artificial intelligence technologies that deal with the understanding, generation, and analysis of human language using a computer, and is a technology that mechanically analyzes language phenomena spoken by humans and makes them in a form that can be understood by computers. For example, natural language can be output in a form that can be understood by a computer through morpheme analysis, part-of-speech attachment, phrase unit analysis, and syntax analysis.

일 실시예로, 파싱부(110)는 의존 구문 분석(dependency parsing)의 자연어 처리 기법을 적용하여 문장을 파싱할 수 있다. 이때, 파싱된 문장은 라벨과 의존 관계로 분석될 수 있으며, 의존 관계는 핵심어(head) 및 수식어(modifier) 구조로 표현될 수 있다. 도 3은 본 발명의 일 실시예에 따라 파싱된 문장의 결과를 도시한 도면이다. 도 3에 도시된 파싱 결과는 하나의 문장 "The police never found the money stolen in the robbery."을 의존 구문 분석(예: Stanford NLP 기법)을 통해 도출된 일례를 나타낸다. 문장 내의 각 단어들은 파싱을 통해 라벨, 핵심어, 수식어로 분석되며, 각 단어들 간에는 핵심어와 수식어 관계를 통해 의존 관계를 형성할 수 있다. In an embodiment, the parser 110 may parse a sentence by applying a natural language processing technique of dependency parsing. In this case, the parsed sentence may be analyzed as a label and a dependency relationship, and the dependency relationship may be expressed in a structure of a key word (head) and a modifier (modifier). 3 is a diagram showing a result of a parsed sentence according to an embodiment of the present invention. The parsing result shown in FIG. 3 shows an example derived from a single sentence "The police never found the money stolen in the robbery." through dependent syntax analysis (eg, Stanford NLP technique). Each word in a sentence is analyzed as a label, a key word, and a modifier through parsing, and a dependency relationship can be formed between each word through the relationship between the key word and modifier.

의존관계 분석부(120)는 문장에 대한 파싱 결과에 기초하여 문장 내 단어들 간의 의존 관계를 분석할 수 있다(S210). 이때, 단어들 간의 의존 관계는 핵심어와 수식어 간의 관계를 이용할 수 있다. The dependency relationship analysis unit 120 may analyze a dependency relationship between words in a sentence based on a result of parsing the sentence (S210). In this case, a relationship between a key word and a modifier may be used as the dependency relationship between words.

일 실시예로, 의존관계 분석부(120)는 문장 내 단어들 각각에 대해, 핵심어에 대한 수식어의 의존 관계도를 산출할 수 있다. 여기서, 의존 관계도는 의존관계 분석결과를 의미하며, 각 단어마다 수식어 수가 몇 개인지를 카운팅한 결과일 수 있고, 파싱 결과 루트 라벨(도 3에서 root)을 가지는 단어에 대해서는 의존 관계 산출 시에 제외시킬 수 있으며, 문자 이외의 기호 역시 의존 관계 산출 시에 제외시킬 수 있다.In an embodiment, the dependency relationship analysis unit 120 may calculate a dependency relationship degree of a modifier with respect to a key word for each word in a sentence. Here, the dependency relationship diagram means the result of dependency analysis, and may be the result of counting the number of modifiers for each word, and words having a root label (root in Fig. 3) as a result of parsing are excluded when calculating the dependency relationship. In addition, symbols other than letters can be excluded when calculating the dependency relationship.

의존 관계도는 핵심어를 직접 수식하는 수식어의 개수를 기초로 산출될 수 있다. 또는 의존 관계도는 핵심어를 직접 수식하는 수식어 및 핵심어를 간접 수식하는 수식어의 개수를 기초로 산출될 수 있다. 여기서, 간접 수식이란, 핵심어를 직접 수식하는 적어도 하나의 제1 수식어에 대해, 다시 적어도 하나의 제1 수식어 각각을 수식하는 적어도 하나의 제2 수식어가 있는 경우를 말한다. 다시 말해, 제1 수식어는 핵심어를 직접 수식하는 관계에 있는 것이고, 제2 수식어는 핵심어를 간접적으로 수식하는 관계에 있는 것이다. 이에 대한 구체적인 방법은 도 5를 참조하여 설명하도록 한다. 추가적으로, 간접 수식은 제2 수식어를 수식하는 제3 수식어, 제3 수식어를 수식하는 제4 수식어 등 제n 수식어를 포함하는 개념으로 이해될 수 있다.The degree of dependence may be calculated based on the number of modifiers that directly modify the key word. Alternatively, the degree of dependence may be calculated based on the number of modifiers that directly modify the keyword and the number of modifiers that indirectly modify the keyword. Here, the indirect formula refers to a case where there is at least one second modifier that modifies each of the at least one first modifier again with respect to at least one first modifier that directly modifies the key word. In other words, the first modifier has a relationship that directly modifies the key word, and the second modifier has a relationship that indirectly modifies the key word. A detailed method for this will be described with reference to FIG. 5. Additionally, the indirect modifier may be understood as a concept including an nth modifier such as a third modifier modifier for a second modifier and a fourth modifier modifier for a third modifier.

또한, 의존관계 분석부(120)는 문장 내 단어들 중 수식어와의 의존 관계를 가지는 핵심어를 검색하고, 검색된 핵심어의 의존 관계도를 기초로 기설정된 의존 관계 조건에 부합하는지 여부를 판단할 수 있다. 여기서, 기설정된 의존 관계 조건은 핵심어가 소정 수 이상의 수식어를 포함하는 의존 관계도를 갖는지 여부를 조건으로 설정할 수도 있고, 또는 핵심어가 가장 많은 수식어를 포함하는 의존 관계도를 갖는지 여부를 조건으로 설정할 수도 있다. 판단 결과에 따라 기설정된 의존 관계 조건에 부합하는 핵심어를 찾으면, 의존관계 분석부(120)는 해당 핵심어와 그에 대응하는 수식어를 도출할 수 있다. In addition, the dependency relationship analysis unit 120 may search for a key word having a dependency relationship with a modifier among words in a sentence, and determine whether or not a predetermined dependency relationship condition is met based on a dependency relationship degree of the searched key word. . Here, the preset dependency relationship condition may be set as a condition whether or not a key word has a dependency relationship degree including a predetermined number or more of modifiers, or whether or not a key word has a dependency relationship degree including the most modifiers as a condition. have. If a key word that satisfies a predetermined dependency relationship condition is found according to the determination result, the dependency relationship analysis unit 120 may derive the key word and a modifier corresponding thereto.

단계 S210에서 문장 내 단어들 간의 의존 관계를 분석함에 있어서, 의존관계 분석부(120)는 먼저 문장 내 단어들이 소정 수 이상인지 여부에 따라서 의존 관계를 분석할 수 있다. 실시예로, 문장 내 단어들이 소정 수 이상인 경우에는 단어들 간의 의존 관계를 분석할 수 있다. 반면, 문장 내 단어들이 소정 수의 조건을 만족하지 못하는 경우, 해당 문장에 대해서는 의존 관계를 분석하지 않을 수 있다. 이 경우, 문장 내 단어들은 의존 관계와는 관계없이 하나의 청크로 구성될 수 있다. 또는 청크로 구성하지 않고 개별 단어들로 존재할 수도 있다.In analyzing the dependency relationship between words in the sentence in step S210, the dependency relationship analysis unit 120 may first analyze the dependency relationship according to whether or not the number of words in the sentence is more than a predetermined number. In an embodiment, when there are more than a predetermined number of words in a sentence, a dependency relationship between words may be analyzed. On the other hand, when words in a sentence do not satisfy a predetermined number of conditions, the dependency relationship may not be analyzed for the sentence. In this case, words in the sentence may be composed of one chunk regardless of the dependency relationship. Alternatively, it may exist as individual words without being composed of chunks.

청크 구성부(130)는 의존 관계 분석 결과에 기초하여 문장 내 단어들을 적어도 하나의 청크로 구성할 수 있다(S220).The chunk construction unit 130 may configure words in a sentence into at least one chunk based on a result of the dependency relationship analysis (S220).

일 실시예로, 청크 구성부(130)는 문장 내에서 서로 의존 관계를 가지는 핵심어와 수식어를 하나의 청크로 구성할 수 있다. 예를 들어, 의존관계 분석부(120)에 의해 산출된 의존 관계도를 기초로 기설정된 의존 관계 조건에 부합하는 핵심어와 그에 대응하는 수식어를 도출하여 이를 하나의 청크로 구성할 수 있다.In an embodiment, the chunk constructing unit 130 may configure a key word and a modifier having a dependency relationship with each other in one chunk in a sentence. For example, based on the dependency relationship degree calculated by the dependency relationship analysis unit 120, a key word meeting a predetermined dependency relationship condition and a modifier corresponding thereto may be derived and configured into one chunk.

상기 단계 S200 내지 S220을 수행한 결과에 따라 청크로 구성되지 못한 문장 내 나머지 단어들이 존재하는 경우, 청크 구성부(130)는 나머지 단어의 앞 청크 또는 뒤 청크에 나머지 단어를 합치는 과정을 수행하여 문장 내 단어들을 모두 청크로 구성되도록 한다. If there are remaining words in the sentence that are not composed of chunks according to the result of performing the steps S200 to S220, the chunk constructing unit 130 performs a process of adding the remaining words to the front or rear chunks of the remaining words. Make sure that all words in the sentence are composed of chunks.

도 4는 본 발명의 일 실시예에 따른 자연어 처리 기반의 청크 구성 방법을 적용할 수 있는 일례를 나타낸 순서도이다. 4 is a flowchart illustrating an example to which a method for constructing chunks based on natural language processing according to an embodiment of the present invention can be applied.

도 4를 참조하면, 먼저 파싱부(110)가 문장을 획득하고, 획득한 문장에 대해 자연어 처리 기법을 적용하여 파싱을 수행할 수 있다(S300). 일 실시예로, 파싱부(110)는 자연어 처리 기법을 적용하여 문장 내의 단어들 간의 의존관계 결과값(예컨대, 도 3에 도시됨)을 획득할 수 있다. Referring to FIG. 4, first, the parser 110 obtains a sentence, and parses the acquired sentence by applying a natural language processing technique (S300). In one embodiment, the parser 110 may obtain a result value of a dependency relationship between words in a sentence (eg, shown in FIG. 3) by applying a natural language processing technique.

여기서, 문장은 사용자로부터 직접 입력받은 문장을 획득할 수도 있고, 또는 영상 콘텐츠를 통해 영어 등과 같은 외국어의 어학학습 시에 출력되는 영상 콘텐츠의 해당 언어 자막을 획득할 수도 있다. 일 실시예로, 어학학습을 위한 애플리케이션을 이용할 경우, 출력 화면을 통해 한번에 출력되는 자막의 단위(즉, 단위 자막)로 문장을 획득할 수 있다. 이때 단위 자막은 복수 개의 문장을 포함할 수도 있고, 문장의 일부(미완성 문장)만을 포함할 수도 있다. Here, as for the sentence, a sentence directly input from the user may be obtained, or a corresponding language caption of the image content outputted during language learning of a foreign language such as English may be acquired through the image content. In an embodiment, when an application for language learning is used, sentences may be acquired in units of subtitles (ie, unit subtitles) that are output at once through an output screen. At this time, the unit caption may include a plurality of sentences, or may include only a part of the sentence (unfinished sentence).

의존관계 분석부(120)는 획득한 문장(예: 단위 자막)이 소정의 개수 이상의 단어를 포함하는지 여부를 판단할 수 있다(S310). The dependency relationship analysis unit 120 may determine whether the acquired sentence (eg, unit subtitle) includes a predetermined number or more of words (S310).

예를 들어, 문장 내 단어의 개수가 5개를 초과하는지 여부를 판단할 수 있다. 이때, 문장 내 단어의 개수를 정하는 기준은 사용자의 어학학습 레벨에 따라서 정해질 수 있다. 예컨대, 어학학습 레벨이 높은 사용자는 문장 내 포함되는 기준 단어의 개수가 높게 설정될 수 있고, 어학학습 레벨이 낮은 사용자는 문장 내 포함되는 기준 단어의 개수가 낮게 설정될 수 있다. 여기서, 어학학습 레벨은 어학학습을 위한 애플리케이션에서 제공하는 레벨 테스트에 의해 정해질 수도 있고, 사용자가 직접 자신의 레벨을 입력하여 정해질 수도 있다. 예컨대, 토익, 토플 등과 같은 어학시험의 점수를 입력할 수 있다.For example, it may be determined whether the number of words in a sentence exceeds five. In this case, the criterion for determining the number of words in the sentence may be determined according to the user's language learning level. For example, a user with a high language learning level may set a high number of reference words included in a sentence, and a user with a low language learning level may set a low number of reference words included in a sentence. Here, the language learning level may be determined by a level test provided by an application for language learning, or the user may directly input his or her level. For example, you can enter the score of a language test such as TOEIC or TOEFL.

의존관계 분석부(120)는 판단 결과에 따라 소정의 개수 이상의 단어를 포함하는 문장에 대해, 문장 내 단어들 간의 핵심어 및 수식어 관계를 이용하여 의존 관계를 분석할 수 있다(S320). The dependency relationship analysis unit 120 may analyze the dependency relationship for a sentence including a predetermined number or more of words according to the determination result by using the key word and modifier relationship between words in the sentence (S320).

일 실시예로, 의존관계 분석부(120)는 문장 내 핵심어에 대한 수식어의 개수를 산출하여, 핵심어와 수식어 간의 의존 관계를 파악할 수 있다. 의존 관계 분석 결과로, 각 핵심어에 수식어의 개수가 매칭될 수 있다. 이에 대한 구체적인 방법은 도 5를 참조하여 설명하도록 한다. 파싱 결과 루트 라벨(도 3에서 root)을 가지는 단어에 대해서는 의존 관계 산출 시에 제외시킬 수 있으며, 문자 이외의 기호 역시 의존 관계 산출 시에 제외시킬 수 있다In an embodiment, the dependency relationship analysis unit 120 may calculate the number of modifiers for a key word in a sentence to determine a dependency relationship between the key word and the modifier. As a result of the dependency relationship analysis, the number of modifiers may be matched to each key word. A detailed method for this will be described with reference to FIG. 5. As a result of parsing, words having a root label (root in FIG. 3) can be excluded when calculating the dependency relationship, and symbols other than letters can also be excluded when calculating the dependency relationship.

의존관계 분석부(120)는 핵심어와 수식어 간의 의존 관계 분석에 따라 기설정된 의존 관계 조건에 부합하는 핵심어를 도출하고, 도출한 핵심어 및 이와 의존 관계를 가지는 수식어를 하나의 단위로 구성하여 청크를 생성할 수 있다(S330). The dependency relationship analysis unit 120 derives a key word that satisfies a predetermined dependency relationship condition according to the dependency relationship analysis between the key word and the modifier, and creates a chunk by composing the derived key word and a modifier having a dependency relationship thereto as one unit. It can be done (S330).

실시예에 따라, 의존관계 분석부(120)는 가장 많은 수식어와 의존 관계를 가지는 핵심어를 도출하는 것을 의존 관계 조건으로 설정할 수도 있고, 소정 수 이상의 수식어와 의존 관계를 가지는 핵심어를 도출하는 것을 의존 관계 조건으로 설정할 수도 있다. 따라서, 의존관계 분석부(120)는 기설정된 의존 관계 조건에 따라 가장 많은 수식어를 가지는 핵심어 또는 소정 수 이상의 수식어를 가지는 핵심어를 도출하고, 도출한 핵심어 및 이와 의존 관계를 가지는 수식어를 하나의 단위로 묶어서 청크로 구성할 수 있다. Depending on the embodiment, the dependency relationship analysis unit 120 may set a dependency relationship condition to derive the most modifiers and key words having a dependency relationship, or to derive a key word having a dependency relationship with a predetermined number of modifiers or more. It can also be set as a condition. Accordingly, the dependency relationship analysis unit 120 derives a key word having the most modifiers or a key word having a predetermined number or more of modifiers according to a preset dependency relationship condition, and combines the derived key words and modifiers having a dependency relationship therewith as one unit. They can be bundled and organized into chunks.

상술한 과정을 통해 문장 내 청크로 구성되지 못한 나머지 단어들이 존재하는 경우, 청크 구성부(130)는 나머지 단어들에 대해서 별도의 청크를 구성할 수 있다. When there are remaining words that are not composed of chunks in a sentence through the above-described process, the chunk constructing unit 130 may configure separate chunks for the remaining words.

청크 구성부(130)는 단계 S330에서 구성된 청크에 대해서, 각 청크 내의 단어가 소정의 개수 이상의 단어를 포함하는지 여부를 판단할 수 있다(S340). With respect to the chunk configured in step S330, the chunk constructing unit 130 may determine whether or not words in each chunk include a predetermined number or more of words (S340).

예를 들어, 청크 내 단어의 개수가 5개를 초과하는지 여부를 판단할 수 있다. 이때, 청크 내 단어의 개수가 5개를 초과하는 경우, 단계 S320~S330을 반복적으로 수행할 수 있다. For example, it may be determined whether the number of words in the chunk exceeds five. In this case, when the number of words in the chunk exceeds 5, steps S320 to S330 may be repeatedly performed.

청크 구성부(130)는 청킹 후 1개의 단어로 이루어진 청크가 있는 경우, 1개의 단어를 기준으로 앞 또는 뒤에 구성된 청크의 단어 개수를 비교하여, 단어 개수가 작은 청크에 1개의 단어를 합쳐서 청크를 재구성할 수 있다(S350). 앞 또는 뒤 청크의 단어 개수가 동일한 경우, 미리 정해진 규칙에 따라 앞 청크 또는 뒤 청크 중 어느 하나에 1개의 단어를 합칠 수 있다. When there is a chunk consisting of one word after chunking, the chunk constructing unit 130 compares the number of words in the chunks configured before or after one word, and combines one word into a chunk having a small number of words to form a chunk. It can be reconstructed (S350). If the number of words in the front or rear chunks is the same, one word may be added to either the front or rear chunks according to a predetermined rule.

한편, 단계 S310에서의 판단 결과에 따라 문장이 소정의 개수(예: 5개) 이상의 단어를 포함하지 않는 경우, 의존관계 분석부(120)는 해당 문장에 대해서는 의존 관계를 분석하지 않을 수 있다. 이 경우, 문장 내 단어들은 의존 관계와는 관계없이 하나의 청크로 구성될 수 있다. 또는 청크로 구성하지 않고 개별 단어들로 존재할 수도 있다.Meanwhile, when a sentence does not include a predetermined number (eg, five) or more of words according to the determination result in step S310, the dependency relationship analysis unit 120 may not analyze the dependency relationship for the sentence. In this case, words in the sentence may be composed of one chunk regardless of the dependency relationship. Alternatively, it may exist as individual words without being composed of chunks.

도 5는 본 발명의 일 실시예에 따라 핵심어와 수식어 간의 의존 관계를 산출하는 방법을 설명하기 위해 도시된 도면이다. 도 5에서는 문장 내에 포함된 1에서 5까지의 단어가 도 5의 (a) 및 (b)에서 도시된 바와 같은 의존 관계를 가지는 것으로 파싱된 결과를 예로 들어 설명한다. 5 is a diagram illustrating a method of calculating a dependency relationship between a key word and a modifier according to an embodiment of the present invention. In FIG. 5, a result obtained by parsing words 1 to 5 included in a sentence as having a dependency relationship as shown in FIGS. 5A and 5B will be described as an example.

일 실시예로, 파싱 결과 루트 라벨을 가지는 단어에 대해서는 의존 관계 산출 시에 제외시킬 수 있다. 또한 문자 이외의 기호 역시 의존 관계 산출 시에 제외시킬 수 있다. In one embodiment, a word having a root label as a result of parsing may be excluded when calculating a dependency relationship. Also, symbols other than letters can be excluded when calculating the dependency relationship.

도 5의 (a)를 참조하면, 단어 1은 단어 3으로부터 직접 수식을 받고 있으며, 단어 3은 단어 2와 단어 4로부터 직접 수식을 받고 있으며, 단어 4는 단어 5로부터 직접 수식을 받고 있다. 따라서, 단어 1에 대해서 의존 관계를 분석하여 보면, 단어 3으로부터는 직접 수식을 받고, 단어 2, 4, 5로부터는 간접 수식을 받고 있으므로, 단어 1은 직접 의존 관계뿐만 아니라 간접 의존 관계를 포함하여 수식어가 4개로 이루어진 의존 관계를 가지는 것으로 파악될 수 있다. Referring to FIG. 5A, word 1 receives a formula directly from word 3, word 3 receives a formula directly from words 2 and 4, and word 4 receives a formula directly from word 5. Therefore, if you analyze the dependence relationship for word 1, you receive a formula directly from word 3, and an indirect formula from words 2, 4, and 5, so that word 1 includes not only direct dependence but also indirect dependence. It can be understood that the modifier has a dependency relationship consisting of four.

도 5의 (b)를 참조하면, 단어 1은 단어 3으로부터 직접 수식을 받고 있으며, 단어 3은 단어 2로부터 직접 수식을 받고 있다. 따라서, 단어 1에 대해서 의존 관계를 분석하여 보면, 단어 3으로부터는 직접 수식을 받고, 단어 2로부터는 간접 수식을 받고 있으므로, 단어 1은 직접 의존 관계뿐만 아니라 간접 의존 관계를 포함하여 수식어가 2개로 이루어진 의존 관계를 가지는 것으로 파악될 수 있다. Referring to (b) of FIG. 5, word 1 receives a formula directly from word 3, and word 3 receives a formula directly from word 2. Therefore, when analyzing the dependence relationship for word 1, since word 3 receives a formula directly and word 2 receives an indirect formula, word 1 has two modifiers including indirect as well as direct dependencies. It can be seen as having a built-in dependency relationship.

도 6은 본 발명의 일 실시예에 따라 문장 내 단어들을 청크로 구성하여 출력한 화면을 도시한 도면이다. 6 is a diagram illustrating a screen in which words in a sentence are configured into chunks and output according to an embodiment of the present invention.

도 6을 참조하면, 본 발명의 일 실시예에 따른 자연어 처리 기반의 청크 구성 방법은 어학학습을 위한 애플리케이션(400)에 적용될 수 있다. 일 실시예로, 애플리케이션(400)은 상술한 도 1의 장치를 포함하여 구성될 수 있다. 애플리케이션(400)은 상술한 본 발명의 실시예에 따라 단위 자막으로 입력된 문장을 단어들 간의 의존 관계를 기반으로 적어도 하나의 청크로 구성할 수 있다. 도 6에 도시된 바와 같이, 애플리케이션(400)은 영상 콘텐츠(410)를 출력함과 동시에 단위 자막으로 입력된 문장을 2개의 청크(420)로 구성하여 출력할 수 있다. 또한, 2개의 청크(420), 즉 제1 청크 및 제2 청크 중 어느 하나의 청크를 애플리케이션(400)의 입력 화면을 통해 선택하면, 선택된 청크를 구성하는 단어들(430)을 상세하게 출력할 수 있다.Referring to FIG. 6, the method for constructing chunks based on natural language processing according to an embodiment of the present invention may be applied to an application 400 for language learning. In one embodiment, the application 400 may be configured to include the device of FIG. 1 described above. The application 400 may configure a sentence input as a unit subtitle according to the above-described embodiment of the present invention into at least one chunk based on a dependency relationship between words. As shown in FIG. 6, the application 400 may output the video content 410 and simultaneously configure and output a sentence input as a unit caption into two chunks 420. In addition, when two chunks 420, that is, one of the first chunk and the second chunk, is selected through the input screen of the application 400, the words 430 constituting the selected chunk are displayed in detail. I can.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.The steps of a method or algorithm described in connection with an embodiment of the present invention may be implemented directly in hardware, implemented as a software module executed by hardware, or a combination thereof. Software modules include Random Access Memory (RAM), Read Only Memory (ROM), Erasable Programmable ROM (EPROM), Electrically Erasable Programmable ROM (EEPROM), Flash Memory, hard disk, removable disk, CD-ROM, or It may reside on any type of computer-readable recording medium well known in the art to which the present invention pertains.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다. In the above, embodiments of the present invention have been described with reference to the accompanying drawings, but those of ordinary skill in the art to which the present invention pertains can be implemented in other specific forms without changing the technical spirit or essential features. You can understand. Therefore, the embodiments described above are illustrative in all respects, and should be understood as non-limiting.

Claims (12)

청크 구성 장치에 의해 수행되는 방법으로,
파싱부가 문장을 획득하여 자연어 처리(Natural Language Procissing; NLP) 기법을 적용하여 상기 문장을 파싱하되, 상기 문장 내 단어들 각각에 대해 핵심어(Head) 및 수식어(Modifier)로 표현되는 의존 관계(dependency)를 포함하는 것인, 파싱 단계;
의존관계 분석부가 상기 문장의 파싱 결과에 기초하여 상기 문장 내 단어들 간의 의존 관계를 분석하는 단계;
상기 의존관계 분석부가 상기 문장 내 단어들 각각에 대해, 핵심어에 대한 수식어의 의존 관계도를 산출하는 단계; 및
청크 구성부가 상기 의존 관계에 기초하여 상기 단어들을 적어도 하나의 청크로 구성하는 단계를 포함하며,
상기 의존 관계도를 산출하는 단계는,
상기 의존관계 분석부가 상기 핵심어를 직접 수식하는 수식어의 개수를 기초로 의존 관계도를 산출하거나, 또는 상기 핵심어를 직접 수식하는 수식어 및 상기 핵심어를 간접 수식하는 수식어의 개수를 기초로 의존 관계도를 산출하는 것을 특징으로 하는 자연어 처리 기반의 청크 구성 방법.
A method performed by the chunking device,
A parser acquires a sentence and parses the sentence by applying a Natural Language Procissing (NLP) technique, but a dependency expressed as a head and a modifier for each word in the sentence That containing, the parsing step;
Analyzing, by a dependency relationship analysis unit, a dependency relationship between words in the sentence based on the parsing result of the sentence;
Calculating, by the dependence analysis unit, a degree of dependence of modifiers on key words for each of the words in the sentence; And
Comprising, by a chunk constructing unit, the words into at least one chunk based on the dependency relationship,
The step of calculating the dependence degree,
The dependency relationship analysis unit calculates a dependency relationship based on the number of modifiers that directly modifies the key word, or calculates a dependency relationship based on the number of modifiers that directly modulate the key word and modifiers that indirectly modulate the key word. A method for constructing chunks based on natural language processing, characterized in that:
청크 구성 장치에 의해 수행되는 방법으로,
파싱부가 문장을 획득하여 자연어 처리(Natural Language Procissing; NLP) 기법을 적용하여 상기 문장을 파싱하되, 상기 문장 내 단어들 각각에 대해 핵심어(Head) 및 수식어(Modifier)로 표현되는 의존 관계(dependency)를 포함하는 것인, 파싱 단계;
의존관계 분석부가 상기 문장의 파싱 결과에 기초하여 상기 문장 내 단어들 간의 의존 관계를 분석하는 단계;
상기 의존관계 분석부가 상기 문장 내 단어들 각각에 대해, 핵심어에 대한 수식어의 의존 관계도를 산출하는 단계; 및
청크 구성부가 상기 의존 관계에 기초하여 상기 단어들을 적어도 하나의 청크로 구성하는 단계를 포함하며,
상기 의존 관계 분석 단계는,
상기 의존관계 분석부가 상기 문장 내 단어들 중 수식어와의 의존 관계를 가지는 핵심어를 검색하는 단계;
상기 의존관계 분석부가 상기 검색된 핵심어의 의존 관계도를 기초로 기설정된 의존 관계 조건에 부합하는지 여부를 판단하는 단계; 및
상기 의존관계 분석부가 상기 판단 결과에 따라 상기 기설정된 의존 관계 조건에 부합하는 핵심어 및 상기 핵심어에 대응하는 수식어를 도출하는 단계를 더 포함하는 것을 특징으로 하는 자연어 처리 기반의 청크 구성 방법.
A method performed by the chunking device,
A parser acquires a sentence and parses the sentence by applying a Natural Language Procissing (NLP) technique, but a dependency expressed as a head and a modifier for each word in the sentence That containing, the parsing step;
Analyzing, by a dependency relationship analysis unit, a dependency relationship between words in the sentence based on the parsing result of the sentence;
Calculating, by the dependence analysis unit, a degree of dependence of modifiers on key words for each of the words in the sentence; And
Comprising, by a chunk constructing unit, the words into at least one chunk based on the dependency relationship,
The dependency relationship analysis step,
Searching, by the dependence analysis unit, a keyword having a dependency relationship with a modifier among words in the sentence;
Determining, by the dependency relationship analysis unit, whether a predetermined dependency relationship condition is met based on a dependency relationship degree of the searched keyword; And
And deriving, by the dependency relationship analysis unit, a key word that satisfies the predetermined dependency relationship condition and a modifier corresponding to the key word according to the determination result.
제1항 또는 제2항에 있어서,
상기 문장 내 단어들 간의 의존 관계를 분석하는 단계는,
상기 의존관계 분석부가 상기 문장 내 단어들이 소정 수 이상인지 여부에 따라서 상기 의존 관계를 분석하는 것을 특징으로 하는 자연어 처리 기반의 청크 구성 방법.
The method according to claim 1 or 2,
Analyzing the dependency relationship between words in the sentence,
The method of constructing chunks based on natural language processing, wherein the dependency relationship analysis unit analyzes the dependency relationship according to whether the number of words in the sentence is greater than or equal to a predetermined number.
제1항 또는 제2항에 있어서,
상기 청크로 구성하는 단계 다음에,
상기 청크 구성부가 상기 청크로 구성되지 못한 상기 문장 내의 나머지 단어에 대해서, 상기 나머지 단어의 앞 또는 뒤 청크에 상기 나머지 단어를 합치는 단계를 더 포함하는 것을 특징으로 하는 자연어 처리 기반의 청크 구성 방법.
The method according to claim 1 or 2,
After the step of composing the chunks,
And combining the remaining words with a front or rear chunk of the remaining word with respect to the remaining words in the sentence that the chunk constructing unit is not composed of the chunks.
제2항에 있어서,
상기 기설정된 의존 관계 조건에 부합하는지 여부를 판단하는 단계는,
상기 의존관계 분석부가 상기 검색된 핵심어가 소정 수 이상의 수식어를 포함하는 의존 관계도를 갖는지 여부를 판단하거나,
또는 상기 검색된 핵심어가 가장 많은 수식어를 포함하는 의존 관계도를 갖는지 여부를 판단하는 것을 특징으로 하는 자연어 처리 기반의 청크 구성 방법.
The method of claim 2,
The step of determining whether the predetermined dependency relationship condition is met,
The dependency analysis unit determines whether the searched keyword has a dependency relationship degree including a predetermined number or more of modifiers, or
Or determining whether or not the searched keyword has a degree of dependence including the most modifiers.
제2항에 있어서,
상기 단어들을 적어도 하나의 청크로 구성하는 단계는,
상기 청크 구성부가 상기 도출된 핵심어 및 상기 핵심어에 대응하는 수식어를 묶어 하나의 청크로 구성하는 것을 특징으로 하는 자연어 처리 기반의 청크 구성 방법.
The method of claim 2,
The step of organizing the words into at least one chunk,
The chunk construction method based on natural language processing, wherein the chunk construction unit bundles the derived keyword and a modifier corresponding to the keyword to form a single chunk.
제1항, 제2항, 제5항 및 제6항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위하여 기록 매체에 저장된 컴퓨터프로그램.A computer program stored in a recording medium in order to execute the method of any one of claims 1, 2, 5 and 6 on a computer. 자연어 처리 기반의 청크 구성 방법을 수행하는 장치에 있어서,
문장을 획득하여 자연어 처리(Natural Language Procissing; NLP) 기법을 적용하여 상기 문장을 파싱하되, 상기 문장 내 단어들 각각에 대해 핵심어(Head) 및 수식어(Modifier)로 표현되는 의존 관계(dependency)를 포함하는 것인, 파싱부;
상기 문장의 파싱 결과에 기초하여 상기 문장 내 단어들 간의 의존 관계를 분석하고, 상기 문장 내 단어들 각각에 대해, 핵심어에 대한 수식어의 의존 관계도를 산출하는 의존관계 분석부; 및
상기 의존 관계에 기초하여 상기 단어들을 적어도 하나의 청크로 구성하는 청크 구성부를 포함하며,
상기 의존관계 분석부는,
상기 핵심어를 직접 수식하는 수식어의 개수를 기초로 의존 관계도를 산출하거나, 또는 상기 핵심어를 직접 수식하는 수식어 및 상기 핵심어를 간접 수식하는 수식어의 개수를 기초로 의존 관계도를 산출하는 것을 특징으로 하는 장치.
In an apparatus for performing a method for constructing chunks based on natural language processing,
Acquires a sentence and parses the sentence by applying a Natural Language Procissing (NLP) technique, but includes a dependency expressed as a key word (Head) and a modifier (Modifier) for each of the words in the sentence. That is, the parsing unit;
A dependency relationship analysis unit that analyzes a dependency relationship between words in the sentence based on the parsing result of the sentence, and calculates a dependency relationship degree of a modifier with respect to a key word for each of the words in the sentence; And
A chunk constructing unit that configures the words into at least one chunk based on the dependency relationship,
The dependency relationship analysis unit,
A dependence relationship is calculated based on the number of modifiers directly modifying the key word, or a dependency relationship is calculated based on the number of modifiers directly modifying the key word and indirectly modifying the key word. Device.
자연어 처리 기반의 청크 구성 방법을 수행하는 장치에 있어서,
문장을 획득하여 자연어 처리(Natural Language Procissing; NLP) 기법을 적용하여 상기 문장을 파싱하되, 상기 문장 내 단어들 각각에 대해 핵심어(Head) 및 수식어(Modifier)로 표현되는 의존 관계(dependency)를 포함하는 것인, 파싱부;
상기 문장의 파싱 결과에 기초하여 상기 문장 내 단어들 간의 의존 관계를 분석하고, 상기 문장 내 단어들 각각에 대해, 핵심어에 대한 수식어의 의존 관계도를 산출하는 의존관계 분석부; 및
상기 의존 관계에 기초하여 상기 단어들을 적어도 하나의 청크로 구성하는 청크 구성부를 포함하며,
상기 의존관계 분석부는,
상기 문장 내 단어들 중 수식어와의 의존 관계를 가지는 핵심어를 검색하고, 상기 검색된 핵심어의 의존 관계도를 기초로 기설정된 의존 관계 조건에 부합하는지 여부를 판단하고, 상기 판단 결과에 따라 상기 기설정된 의존 관계 조건에 부합하는 핵심어 및 상기 핵심어에 대응하는 수식어를 도출하는 것을 특징으로 하는 장치.
In an apparatus for performing a method for constructing chunks based on natural language processing,
Acquires a sentence and parses the sentence by applying a Natural Language Procissing (NLP) technique, but includes a dependency expressed as a key word (Head) and a modifier (Modifier) for each of the words in the sentence. That is, the parsing unit;
A dependency relationship analysis unit that analyzes a dependency relationship between words in the sentence based on the parsing result of the sentence, and calculates a dependency relationship degree of a modifier with respect to a key word for each of the words in the sentence; And
A chunk constructing unit that configures the words into at least one chunk based on the dependency relationship,
The dependency relationship analysis unit,
A key word having a dependency relationship with a modifier among words in the sentence is searched, it is determined whether or not a predetermined dependency relationship condition is met based on the dependency relationship degree of the searched key word, and the predetermined dependence according to the determination result An apparatus, characterized in that for deriving a key word that satisfies a relationship condition and a modifier corresponding to the key word.
제8항 또는 제9항에 있어서,
상기 의존관계 분석부는,
상기 문장 내 단어들이 소정 수 이상인지 여부에 따라서 상기 의존 관계를 분석하는 것을 특징으로 하는 장치.
The method according to claim 8 or 9,
The dependency relationship analysis unit,
And analyzing the dependency relationship according to whether or not the number of words in the sentence is greater than or equal to a predetermined number.
제8항 또는 제9항에 있어서,
상기 청크 구성부는,
상기 청크로 구성되지 못한 상기 문장 내의 나머지 단어에 대해서, 상기 나머지 단어의 앞 또는 뒤 청크에 상기 나머지 단어를 합치는 것을 특징으로 하는 장치.
The method according to claim 8 or 9,
The chunk configuration unit,
For the remaining words in the sentence that are not composed of the chunks, the remaining words are added to the front or rear chunks of the remaining words.
삭제delete
KR1020180075709A 2018-06-29 2018-06-29 Method and apparatus for constructing chunk based on natural language processing KR102209786B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180075709A KR102209786B1 (en) 2018-06-29 2018-06-29 Method and apparatus for constructing chunk based on natural language processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180075709A KR102209786B1 (en) 2018-06-29 2018-06-29 Method and apparatus for constructing chunk based on natural language processing

Publications (2)

Publication Number Publication Date
KR20200003329A KR20200003329A (en) 2020-01-09
KR102209786B1 true KR102209786B1 (en) 2021-01-29

Family

ID=69154924

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180075709A KR102209786B1 (en) 2018-06-29 2018-06-29 Method and apparatus for constructing chunk based on natural language processing

Country Status (1)

Country Link
KR (1) KR102209786B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102309778B1 (en) * 2020-02-05 2021-10-06 에스케이 주식회사 System and Method for evaluation of personal statement using natural language processing technology
KR102567937B1 (en) 2022-12-30 2023-08-17 주식회사 젠티 Method using inductive tree-structured neural model based on natural language processing for solving math word problems and system thereof

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050049852A1 (en) 2003-09-03 2005-03-03 Chao Gerald Cheshun Adaptive and scalable method for resolving natural language ambiguities
WO2011051970A2 (en) 2009-10-28 2011-05-05 Tata Consultancy Services Ltd. Method and system for obtaining semantically valid chunks for natural language applications

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100515641B1 (en) * 2003-04-24 2005-09-22 우순조 Method for sentence structure analysis based on mobile configuration concept and method for natural language search using of it
KR20090061844A (en) * 2007-12-12 2009-06-17 주식회사 케이티 System and method for extracting semantic metadata based on ontology
KR20110028063A (en) 2009-09-11 2011-03-17 한국과학기술원 A method for translating sentence into ontology
EP2950306A1 (en) * 2014-05-29 2015-12-02 Samsung Electronics Polska Spolka z organiczona odpowiedzialnoscia A method and system for building a language model

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050049852A1 (en) 2003-09-03 2005-03-03 Chao Gerald Cheshun Adaptive and scalable method for resolving natural language ambiguities
WO2011051970A2 (en) 2009-10-28 2011-05-05 Tata Consultancy Services Ltd. Method and system for obtaining semantically valid chunks for natural language applications

Also Published As

Publication number Publication date
KR20200003329A (en) 2020-01-09

Similar Documents

Publication Publication Date Title
KR101762866B1 (en) Statistical translation apparatus by separating syntactic translation model from lexical translation model and statistical translation method
KR101629415B1 (en) Method for detecting grammar error and apparatus thereof
US7881928B2 (en) Enhanced linguistic transformation
US10262547B2 (en) Generating scores and feedback for writing assessment and instruction using electronic process logs
KR102013230B1 (en) Apparatus and method for syntactic parsing based on syntactic preprocessing
CN103984772B (en) Text retrieval captions library generating method and device, video retrieval method and device
JP6729095B2 (en) Information processing device and program
EP2950306A1 (en) A method and system for building a language model
JP2017199363A (en) Machine translation device and computer program for machine translation
US20180075016A1 (en) System and method for automatic, unsupervised paraphrase generation using a novel framework that learns syntactic construct while retaining semantic meaning
KR102209786B1 (en) Method and apparatus for constructing chunk based on natural language processing
KR20160133349A (en) Method for generating a phase table and method for machine translation using the phase table
JP2022075668A (en) Method for processing video, apparatus, device, and storage medium
KR20090046280A (en) Method and system for partitioning sentence for machine translation
US9984063B2 (en) System and method for automatic, unsupervised paraphrase generation using a novel framework that learns syntactic construct while retaining semantic meaning
KR102202372B1 (en) System for creating interactive media in which user interaction can be recognized by reusing video content, and method of operating the system
KR102422844B1 (en) Method of managing language risk of video content based on artificial intelligence
KR20120045906A (en) Apparatus and method for correcting error of corpus
KR100512541B1 (en) Machine translation machine and system, method
JP2006004366A (en) Machine translation system and computer program for it
JP5150277B2 (en) LANGUAGE PROCESSING DEVICE, LANGUAGE PROCESSING METHOD, LANGUAGE PROCESSING PROGRAM, AND RECORDING MEDIUM CONTAINING LANGUAGE PROCESSING PROGRAM
KR20040018008A (en) Apparatus for tagging part of speech and method therefor
KR101747924B1 (en) Method of correcting korean utterance and apparatus perfroming the same
KR101472029B1 (en) Natural language-based syntax analysis method using index element and system thereof
JP5160120B2 (en) Information search apparatus, information search method, and information search program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant