KR20140077783A - Apparatus and method for defining sense tagging label of word - Google Patents

Apparatus and method for defining sense tagging label of word Download PDF

Info

Publication number
KR20140077783A
KR20140077783A KR1020120146917A KR20120146917A KR20140077783A KR 20140077783 A KR20140077783 A KR 20140077783A KR 1020120146917 A KR1020120146917 A KR 1020120146917A KR 20120146917 A KR20120146917 A KR 20120146917A KR 20140077783 A KR20140077783 A KR 20140077783A
Authority
KR
South Korea
Prior art keywords
vocabulary
high frequency
concept
tagging
meaning
Prior art date
Application number
KR1020120146917A
Other languages
Korean (ko)
Inventor
황금하
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020120146917A priority Critical patent/KR20140077783A/en
Publication of KR20140077783A publication Critical patent/KR20140077783A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

The present invention provides an apparatus for defining a sense tagging level of a word. The apparatus includes: a field term recognition unit which recognizes a field of words relative to a dialog corpus sense-tagged through a thesaurus; a high-frequency word concept extraction unit which extracts high-frequency word concepts from the field of the words and creates and outputs a high-frequency word concept tree; a high-frequency word concept pair extraction unit which creates and outputs high-frequency word concept pairs that pair high-frequency word concepts with high relevance among the extracted high-frequency word concepts; and a sense tagging level definition unit which defines sense tagging levels and relations therebetween, based on the outputted high-frequency word concept tree and the high-frequency word concept pairs.

Description

어휘의 의미 태깅 레벨 정의 장치 및 그 방법{APPARATUS AND METHOD FOR DEFINING SENSE TAGGING LABEL OF WORD}BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a tagging level definition apparatus,

본 발명은 어휘의 의미 태깅 레벨 정의 장치 및 그 방법에 관한 것으로, 보다 자세하게는 어휘의 의미 태깅 레벨을 정의함에 있어 고빈도로 추출되는 어휘 개념들과 이들 중 관련도가 높은 어휘 개념을 쌍으로 묶어 제공하는 어휘의 의미 태깅 레벨 정의 장치 및 그 방법에 관한 것이다.The present invention relates to an apparatus and method for defining a meaning of a vocabulary, and more particularly, to defining a meaning tagging level of a vocabulary, a vocabulary concept extracted at a high frequency and a vocabulary concept having high relevance among them are paired To a tagging level definition device and a method thereof.

대화 시스템이 사용자의 발화를 이해하고 적절한 응답을 제공하기 위해서 대화 시나리오 말뭉치에 대한 Slot(슬롯)을 선택하고, 슬롯 간 관계를 찾아내 정의하는 작업은 필수적인 요소이다. 대화 시스템은 대화 시나리오 말뭉치에 대한 슬롯 태깅 및 이를 이용한 Dialog Act(DA) 태깅을 통해 사용자 의도를 파악하고 대화를 진행 관리한다. In order for the dialog system to understand the user's utterance and provide appropriate responses, it is essential to select a slot (slot) for the dialog scenario corpus, and to locate and define the relationship between the slots. The dialogue system grasps the intention of the user and manages the dialogue through the slot tagging and the dialogue act (DA) tagging for the dialogue scenario corpus.

이러한 말뭉치 태깅 작업은 한국공개특허 특2002-0017330호에 개시된 바와 같이 대부분 해당 분야 정보처리 전문가가 해당 분야 의미 태깅 레벨을 선택하고, 필요한 경우 의미 태깅 레벨 간의 관계를 정의한 다음 지식 개발자가 이를 이용하여 말뭉치를 태깅하는 방식으로 이루어진다. As described in Korean Patent Laid-Open Publication No. 2002-0017330, the corpus tagging work is mainly performed by a field information processing expert, selecting a meaningful tagging level in the corresponding field, defining a relationship between meaningful tagging levels when necessary, As shown in FIG.

그러나, 말뭉치 태깅 작업은 대화 속 해당 분야 지식에 대한 이해와 대화 시스템에 대한 이해가 모두 있어야 가능한 작업이기에 의미 태깅을 수행하는 전문가들 조차도 어렵고 복잡한 작업이다. 또한, 의미 태깅을 수행하는 전문가들마다 주관적이어서 태깅한 개념이 상이하여 의미 태깅에 있어 일관성을 유지하기 어려운 문제점이 있다. However, it is a difficult and complicated task even for experts performing semantic tagging because corpus tagging is a task that requires understanding of the relevant field knowledge and understanding of the dialogue system. Also, there is a problem in that it is difficult to maintain consistency in meaning tagging because the concept of tagging is subjective because each expert performing semantic tagging is different.

본 발명은 상기와 같은 문제점을 해결하기 위해 발명된 것으로서, 고빈도로 추출되는 어휘 개념들과 이들 중 관련도가 높은 어휘 개념들을 쌍으로 묶어 추출함으로써, 어휘의 의미 태깅 레벨과 의미 태깅 레벨 간의 관계를 보다 쉽고 일관성 있게 정의하고자 하는 어휘의 의미 태깅 레벨 정의 장치 및 그 방법을 제공하는데 그 목적이 있다.SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problems, and it is an object of the present invention to provide a vocabulary word extracting method and a vocabulary word extracting method, The present invention provides a meaning tagging level definition apparatus and a method thereof for defining a meaning of a vocabulary more easily and consistently.

상기한 목적을 달성하기 위한 본 발명에 따른 어휘의 의미 태깅 레벨 정의 장치 및 그 방법은 어휘의 의미 태깅 레벨 정의 장치에 있어서, 시소러스를 통해 의미 태깅된 대화 말뭉치에 대한 어휘의 분야를 인식하는 분야 용어 인식부; 상기 어휘의 분야에서 고빈도 어휘 개념들을 추출하여 고빈도 어휘 개념 트리를 생성하여 출력하는 고빈도 어휘 추출부; 상기 추출된 고빈도 어휘 개념들 중 관련도가 높은 고빈도 어휘 개념들을 쌍으로 묶은 고빈도 어휘 개념쌍을 생성하여 출력하는 고빈도 어휘 개념쌍 추출부; 및 상기 생성된 고빈도 어휘 개념 트리와 상기 고빈도 어휘 개념쌍을 토대로 의미 태깅 레벨과 상기 의미 태깅 레벨간의 관계를 정의하는 의미 태깅 레벨 정의부;를 포함하는 것을 특징으로 하는 어휘의 의미 태깅 레벨 정의 장치를 제공한다.According to another aspect of the present invention, there is provided an apparatus for defining a semantic tagging level of a vocabulary and a method for defining a semantic tagging level of a vocabulary in accordance with the present invention, A recognition unit; A high frequency vocabulary extraction unit for extracting high frequency vocabulary concepts in the field of the vocabulary to generate and output a high frequency vocabulary concept tree; A high frequency lexical concept pair extracting unit for generating and outputting a high frequency lexical concept pair that pairs high frequency lexical concepts having a high relevance among the extracted high frequency lexical concepts; And a semantic tagging level definition unit for defining a relationship between the semantic tagging level and the semantic tagging level based on the generated high frequency lexical concept tree and the high frequency lexical concept pair. Device.

상기와 같은 구성을 갖는 본 발명에 따른 어휘의 의미 태깅 레벨 정의 장치 및 그 방법은 고빈도로 추출되는 어휘 개념들과 이들 중 이들 중 관련도가 높은 고빈도 어휘 개념을 쌍으로 추출함으로써, 어휘의 의미 태깅 레벨과 의미 태깅 레벨 간의 관계를 보다 쉽고 일관성 있게 정의할 수 있어 의미 태깅 레벨 정의 작업의 효율성 제고할 수 있는 효과가 있다.The apparatus and method for defining a meaning of a vocabulary according to the present invention having the above-described structure extracts a vocabulary concept extracted at a high frequency and a high frequency vocabulary concept having a high correlation among the concepts, The relationship between meaning tagging level and meaning tagging level can be more easily and consistently defined, thereby improving the efficiency of definition of meaning tagging level.

도 1은 본 발명의 실시예에 따른 어휘의 의미 태깅 레벨 정의 장치의 구성을 나타내는 도면이다.
도 2는 본 발명의 실시예에 따른 어휘의 의미 태깅 레벨 정의 장치의 세부적인 구성을 나타내는 도면이다.
도 3은 본 발명의 실시예에 따른 어휘의 의미 태깅 레벨 정의 방법의 과정을 나타내는 도면이다.
FIG. 1 is a diagram illustrating a configuration of a meaning tagging level definition apparatus for a vocabulary according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating a detailed configuration of a meaning tagging level definition apparatus for a vocabulary according to an embodiment of the present invention.
3 is a flowchart illustrating a method of defining a meaningful tagging level of a vocabulary according to an embodiment of the present invention.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선, 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings in order to facilitate a person skilled in the art to easily carry out the technical idea of the present invention. . First, in adding reference numerals to the constituents of the drawings, it is to be noted that the same constituents are denoted by the same reference symbols as possible even if they are displayed on different drawings. In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear.

이하에서는, 본 발명의 실시 예에 따른 어휘의 의미 태깅 레벨 정의 장치 및 그 방법에 대하여 첨부한 도면을 참고로 하여 상세히 설명한다.
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An apparatus and method for defining a meaning of a vocabulary according to an embodiment of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 실시예에 따른 어휘의 의미 태깅 레벨 정의 장치의 구성을 나타내는 도면이고, 도 2는 본 발명의 실시예에 따른 어휘의 의미 태깅 레벨 정의 장치의 세부적인 구성을 나타내는 도면이다.FIG. 1 is a diagram illustrating a configuration of a meaning tagging level definition apparatus for a vocabulary according to an embodiment of the present invention, and FIG. 2 is a diagram illustrating a detailed configuration of a meaning tagging level definition apparatus for a vocabulary according to an embodiment of the present invention.

대화 시스템에서의 언어 이해를 위한 태깅 레벨은 주로 의미 기반으로 정의하게 된다. 예를 들면 자동차 고장진단 서비스 분야의“모터에서 이상한 소리가 나는데 어떻게 해야지”라는 대화 예문에서는 어떤 “장치”에서 어떤 “현상”이 나타나는지에 필요한 슬롯을 정의해 줘야 한다. The tagging level for understanding the language in the dialog system is mainly defined on the basis of meaning. For example, in the dialogue example "What happens when a motor makes strange noises" in the field of auto fault diagnosis service, it is necessary to define the slot necessary for what "phenomenon" appears in a "device".

그리고 예를 들어 에어컨 정보 서비스 분야의 대화에서는“에어컨, 리모컨, 표시등, 경고등, 온도, 바람, 바람 방향, 세기” 등에 관한 어휘뿐만 아니라 동시에 “켜다, 끄다, 꺼지다” 등과 같이 이들 개체의 작동 및 동작, 상태변화 등을 표현하는 어휘도 태깅 대상이 되어야 한다. For example, in a conversation in the air conditioner information service, the words "air conditioner, remote control, indicator light, warning light, temperature, wind, wind direction and strength" The vocabulary expressing the movement, the state change, etc. should also be the target of the tagging.

따라서, 본 발명에서는 이에 기반하여 대화 말뭉치에서 고빈도 어휘 개념들(예: 에어컨, 리모컨, 티켓, 개수, 바람, 방향, 켜다, 끄다)을 추출한 다음, 높은 관련도를 가진 어휘 개념들을 묶어(예: 티켓-개수, 에어컨-리모컨, 바람-방향, 에어컨-켜다, 바람 방향-바꾸다) 의미 태깅 레벨의 후보로 제공하고, 의미 태깅 레벨 간의 관계를 정의하는데 제공한다. 또한, 필요에 따라 제약 조건을 적용하여 태깅 레벨 후보가 제약 조건에 부합하는지 여부를 살펴, 전문가가 최종 태깅 레벨(예: “에어컨, 히터”→ ”device”, “켜다”→“device_operation”)을 선택하고, 레벨간 관계를 정의할 수 있다. 이때, 어휘 개념은 의미 태깅된 말뭉치에서의 의미와 어휘 분야의 중심어를 비롯한 어휘를 모두 포함한다.
Accordingly, the present invention extracts high frequency lexical concepts (eg, air conditioner, remote controller, ticket, number, wind, direction, turn on and off) from conversational corpus and then combines lexical concepts with high relevance : Ticket-count, air conditioner-remote control, wind-direction, air-conditioning-on, wind direction-change) semantics Provide as a candidate for tagging level and define the relationship between meaningful tagging levels. It is also possible to apply constraints as needed to see if the tagging level candidate meets the constraints and to allow the expert to determine the final tagging level (eg, "air conditioner, heater" → "device", "turn on" → "device_operation" You can select and define relationships between levels. At this time, the lexical concept includes both meaning in the meaning tagged corpus and vocabulary including the lexical domain.

그리고 고빈도 어휘 추출을 통해 의미 태깅에서 인명, 지명, 숫자 등의 태깅을 위한 NE 태거와 데이터 검색을 위한 키워드 간의 관계를 정의하는 일반 분야 시소러스를 사용한 의미 태거 등을 이용할 수 있다. 용언형 개념 추출은 어휘를 그대로 사용할 수 있다. 그리고 버스 투어, 영화 티켓 구매 분야와 같이 일반 분야 용어를 대량 사용하는 작은 분야의 경우, 어휘도 개념에 포함시 킬 수 있다. 본 발명은 의미 태깅 방법과 무관하게 의미 태깅 결과만 관련 있기에, 어떤 형태의 의미 태깅 방법을 사용해서도 구현이 가능하다.
And semantic tagging using a general field thesaurus that defines the relationship between NE taggers for tagging names, names, and numbers in semantic tagging through high frequency vocabulary extraction and keywords for data retrieval. The verb phrase concept extraction can use the vocabulary as it is. And for small fields that use large quantities of general-purpose terms such as bus tours, movie ticket purchases, vocabularies can be included in the concept. Since the present invention relates only meaning tagging results regardless of the meaning tagging method, it can be implemented using any type of meaning tagging method.

도 1 및 도 2를 참조하여 설명하면, 본 발명에 따른 어휘의 의미 태깅 레벨 정의 장치(100)는 크게 분야 용어 인식부(110), 고빈도 어휘 개념 추출부(120), 고빈도 어휘 개념쌍 추출부(130), 제약조건 적용부(140) 및 의미 태깅 레벨 정의부(150)를 포함한다.1 and 2, an apparatus 100 for defining a meaning of a vocabulary tagging level according to the present invention includes a field terminology recognition unit 110, a high frequency lexical concept extraction unit 120, a high frequency lexical concept pair An extraction unit 130, a constraint application unit 140, and a meaningful tagging level definition unit 150. [

분야 용어 인식부(110)는 의미 태깅된 대화 말뭉치에서 주어진 분야의 용어를 인식한다. 분야 용어 인식부(110)는 일반분야 시소러스를 이용하여 대화 말뭉치를 의미 태깅한 다음, 의미 태깅된 말뭉치에 대한 해당 분야의 어휘를 용어로 인식한다. 예를 들면, "도시 관광" 분야에서는“child ticket”와 “day tour”가, 또는 또는 "자동차 정보" 분야에서는 “바람 방향 선택”과 같은, 해당 분야에서 일정한 빈도 이상의 기본 명사구는 해당 분야의 용어로 인식된다. 또한 어휘의 해당 분야 가중치 계산 방법을 이용하여 높은 분야 가중치를 가지는 명사, 동사, 형용사 등 내용어(content word)도 해당 어휘 분야로 인식한다. 여기에서, 어휘의 분야 가중치 계산은 기존의 전문용어 인식 방법 등을 적용할 수 있으며, 용어 인식 방법은 다양한 방법이 적용될 수 있다.The field terminology recognizer 110 recognizes terms of a given field in a semantic tagged conversational corpus. The field recognition unit 110 tags meaningful conversational corpus using a general field thesaurus, and recognizes the vocabulary of the corresponding field of the semantic tagged corpus as a term. For example, basic noun phrases over a certain frequency in the field, such as "child ticket" and "day tour" in the field of city tourism, or "wind direction selection" in the field of "car information" . In addition, the content word such as nouns, verbs, and adjectives with high field weights is also recognized as a corresponding lexical field by using the corresponding field weight calculation method of the vocabulary. Here, the field weighting calculation of the vocabulary can apply the conventional terminology recognition method and the like, and various methods can be applied to the term recognition method.

고빈도 어휘 개념 추출부(120)는 인식된 어휘 분야에서 고빈도 어휘 개념들을 추출한다. 고빈도 어휘 추출부(120)는 어휘 분야에서 고빈도 중심어와 어휘 분야가 가지는 고빈도 의미를 포함하는 어휘 개념을 통계 정보를 통해 추출하고, 이들이 일반 분야 시소러스에서 위치한 노드에 따라 고빈도 어휘 개념 트리를 생성하여 출력한다. 이때, 2개 이상의 어휘로 구성된 경우 해당 어휘의 의미는 어휘 중심어의 의미를 취한다. 또한, 고빈도 어휘 개념 트리는 필요에 따라 고빈도 중심어 트리와 고빈도 의미 트리로 나뉠 수 있으며 동사와 같이 시소러스에 나타나지 않는 고빈도 어휘는 고빈도 어휘 개념 트리 밖의 노드로 존재할 수 있다.The high frequency vocabulary concept extraction unit 120 extracts high frequency vocabulary concepts from the recognized vocabulary field. The high frequency vocabulary extraction unit 120 extracts the vocabulary concepts including the high frequency main word and the high frequency meaning of the vocabulary field in the vocabulary field through the statistical information and extracts the high frequency vocabulary concept tree And outputs it. In this case, if the word consists of two or more vocabulary, the meaning of the vocabulary takes the meaning of the word. The high frequency vocabulary concept tree can be divided into a high frequency centroid tree and a high frequency semantic tree as needed. High frequency vocabulary, which does not appear in the thesaurus as the verb, can exist as a node outside the high frequency vocabulary concept tree.

고빈도 어휘 개념쌍 추출부(130)는 추출된 고빈도 어휘 개념 중 관련도가 높은 고빈도 어휘 개념들을 쌍으로 묶은 고빈도 어휘 개념쌍을 생성하여 출력한다. 고빈도 어휘 개념쌍 추출부(130)는 고빈도 어휘 개념들을 통해 의미 태깅된 대화 말뭉치의 어휘 정보를 추출하고, 상수 관계 계산 방법을 이용하여 상호 긴밀하게 연결되어 있는 어휘들을 묶어 어휘 개념쌍으로 출력한다. 이때, 상수 관계 계산 방법은 다양한 방법이 적용될 수 있다.The high frequency vocabulary concept pair extractor 130 generates and outputs a high frequency vocabulary concept pair that pairs high frequency vocabulary concepts with high relevance among the extracted high frequency vocabulary concepts. The high frequency lexical concept pair extracting unit 130 extracts lexical information of the semantic-tagged conversational corpus through the high frequency lexical concepts, and binds closely linked vocabularies using a constant relation calculation method to output as a lexical concept pair do. At this time, various methods can be applied to the constant relation calculation method.

제약조건 적용부(140)는 생성된 고빈도 어휘 개념쌍이 제약 조건에 위배되는 경우 고빈도 어휘 개념쌍에 위배 조건을 명기한 다음, 체언형 고빈도 어휘 개념쌍과 체언-용언형 고빈도 어휘 개념쌍을 생성하여 출력한다. 예를 들어 동작어휘는 어떠한 구체적 또는 추상적인 개체의 동작을 뜻하는 걸로 대부분의 대화 시스템에서는 용언형 어휘들 간의 관계가 필요하지 않기에 이런 경우, 용언으로 구성된 어휘 개념쌍은 제약조건에 위배되는 것으로 명기한다. 또 다른 예로 슬롯 기반 대화시스템에서는 한 문장에 2개의 같은 어휘가 존재해서는 안된다는 제약조건을 가질 수 있는데 이런 경우, 같은 어휘로 구성된 어휘 개념쌍은 제약조건에 위배되는 것으로 명기한다.If the generated high frequency vocabulary concept pair is in violation of the constraint condition, the constraint application unit 140 specifies a violation condition for the high frequency vocabulary concept pair. Then, the constraint application unit 140 applies the vocabulary concept pair and the cognitive- Generate a pair and output it. For example, an action vocabulary refers to the action of any concrete or abstract entity, and in most dialog systems, the relationship between verbally vocabularies is not necessary. In this case, pairs of vocabulary concepts consisting of verbs are in violation of the constraint Specify. In another example, a slot-based dialog system may have the constraint that there should not be two identical vocabularies in a sentence. In this case, the vocabulary concept pair composed of the same vocabularies is specified to violate the constraint.

의미 태깅 레벨 정의부(150)는 생성된 고빈도 어휘 개념 트리와 고빈도 어휘 개념쌍을 토대로 의미 태깅 레벨과 의미 태깅 레벨간의 관계를 정의할 수 있다.
The meaning tagging level defining unit 150 can define the relationship between the meaning tagging level and the meaning tagging level based on the generated high frequency lexical concept tree and the high frequency lexical concept pair.

도 3은 본 발명의 실시예에 따른 어휘의 의미 태깅 레벨 정의 방법의 과정을 나타내는 도면이다.3 is a flowchart illustrating a method of defining a meaningful tagging level of a vocabulary according to an embodiment of the present invention.

도 3을 참조하여 설명하면, 본 발명에 따른 어휘의 의미 태깅 레벨 정의 방법은 앞서 설명한 어휘의 의미 태깅 레벨 정의 장치를 이용하는 방법으로 이하 중복되는 설명은 생략한다.Referring to FIG. 3, the meaning tagging level definition method for a vocabulary according to the present invention is a method using the above-described meaning tagging level definition apparatus of vocabulary.

먼저, 의미 태깅된 대화 말뭉치에 대한 어휘 분야를 인식한다.(S100) 이 단계는 일반분야 시소러스를 이용하여 대화 말뭉치를 의미 태깅한 다음, 의미 태깅된 말뭉치에 대한 어휘 분야를 인식한다.First, it recognizes the lexical field of the meaning tagged conversation corpus (S100). This step recognizes the lexical field of the meaning tagged corpus after tagging the meaning of the conversation corpus using a general field thesaurus.

다음, 인식된 어휘 분야에서 고빈도 어휘 개념들을 추출한다.(S200) 어휘 분야에서 고빈도 중심어와 어휘 분야가 가지는 고빈도 의미를 추출하고, 이들이 일반 분야 시소러스에서 위치한 노드에 따라 고빈도 어휘 개념 트리를 생성하여 출력한다. 이때, 고빈도 어휘 개념 트리는 필요에 따라 고빈도 중심어 트리와 고빈도 의미 트리로 나뉠 수 있으며 동사와 같이 시소러스에 나타나지 않는 고빈도 어휘 개념은 고빈도 어휘 개념 트리 밖의 노드로 존재할 수 있다.Next, we extract high frequency vocabulary concepts from recognized vocabulary fields (S200). We extract high frequency meanings of high frequency vocabulary and vocabulary fields in vocabulary field, And outputs it. In this case, the high frequency vocabulary concept tree can be divided into a high frequency centroid tree and a high frequency semantic tree as needed. The high frequency vocabulary concept that does not appear in the thesaurus as the verb can exist as a node outside the high frequency vocabulary concept tree.

다음, 추출된 고빈도 어휘 개념 중 관련도가 높은 고빈도 어휘 개념들을 쌍으로 묶은 고빈도 어휘 개념쌍을 생성하여 출력한다.(S300) 이 단계에서 생성된 고빈도 어휘 개념쌍이 제약 조건에 위배되는 경우 고빈도 어휘 개념쌍에 위배 조건을 명기한 다음, 체언형 고빈도 어휘 개념쌍과 체언-용언형 고빈도 어휘 개념쌍을 생성하여 출력할 수 있다.Next, a high-frequency lexical concept pair, which is a pair of high frequency vocabulary concepts having high relevance among the extracted high frequency vocabulary concepts, is generated and output (S300). The high frequency vocabulary concept pair generated at this stage is in violation of the constraint In the case of high frequency vocabulary concept pair, it is possible to generate a pair of cognate high frequency vocabulary concept pair and cognate - type high frequency vocabulary concept pair.

마지막으로, 생성된 고빈도 어휘 개념 트리와 고빈도 어휘 개념쌍을 토대로 의미 태깅 레벨과 의미 태깅 레벨간의 관계를 정의한다.(S400)
Finally, the relationship between the meaningful tagging level and the meaningful tagging level is defined based on the generated high frequency lexical concept tree and the high frequency lexical concept pair (S400).

이처럼, 본 발명에 따른 어휘의 의미 태깅 레벨 정의 장치 및 그 방법은 고빈도로 추출되는 어휘 개념들과 이들 중 관련도가 높은 고빈도 어휘 개념을 쌍으로 출력하여 추출함으로써, 어휘의 의미 태깅 레벨과 의미 태깅 레벨 간의 관계를 보다 쉽고 일관성 있게 정의할 수 있어 의미 태깅 레벨 정의 작업의 효율성 제고할 수 있는 효과가 있다.
As such, the meaning tagging level definition apparatus and method for a vocabulary according to the present invention can output a vocabulary concept extracted at a high frequency and a high frequency vocabulary concept having a high correlation among the extracted vocabulary concepts, The relationship between meaningful tagging levels can be more easily and consistently defined, thereby improving efficiency of definition of meaningful tagging level.

이상에서, 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진 자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is evident that many alternatives, modifications, and variations will be apparent to those skilled in the art without departing from the scope of the appended claims. As will be understood by those skilled in the art.

100 : 어휘의 의미 태깅 레벨 정의 장치
110 : 분야 용어 인식부 120 : 고빈도 어휘 개념 추출부
130 : 고빈도 어휘 개념쌍 추출부 140 : 제약 조건 적용부
150 : 의미 태깅 레벨 정의부
100: Meaning of vocabulary Tagging level definition device
110: field terminology recognition unit 120: high frequency lexical concept extraction unit
130: High frequency lexical concept pair extraction unit 140: Constraint application unit
150: Semantic tagging level definition unit

Claims (1)

어휘의 의미 태깅 레벨 정의 장치에 있어서,
시소러스를 통해 의미 태깅된 대화 말뭉치에 대한 어휘의 분야를 인식하는 분야 용어 인식부;
상기 어휘의 분야에서 고빈도 어휘 개념들을 추출하여 고빈도 어휘 개념 트리를 생성하여 출력하는 고빈도 어휘 개념 추출부;
상기 추출된 고빈도 어휘 개념들 중 관련도가 높은 고빈도 어휘 개념들을 쌍으로 묶은 고빈도 어휘 개념쌍을 생성하여 출력하는 고빈도 어휘 개념쌍 추출부; 및
상기 출력된 고빈도 어휘 개념 트리와 상기 고빈도 어휘 개념쌍을 토대로 의미 태깅 레벨과 상기 의미 태깅 레벨 간의 관계를 정의하는 의미 태깅 레벨 정의부;
를 포함하는 것을 특징으로 하는 어휘의 의미 태깅 레벨 정의 장치.
A meaning of a vocabulary In a tagging level definition device,
A field terminology recognition unit for recognizing a field of a vocabulary for semantic tagged conversational corpus through a thesaurus;
A high frequency vocabulary concept extraction unit for extracting high frequency vocabulary concepts in the field of the vocabulary to generate and output a high frequency vocabulary concept tree;
A high frequency lexical concept pair extracting unit for generating and outputting a high frequency lexical concept pair that pairs high frequency lexical concepts having a high relevance among the extracted high frequency lexical concepts; And
A meaning tagging level defining unit that defines a relationship between the meaning tagging level and the meaning tagging level based on the output high frequency lexical concept tree and the high frequency lexical concept pair;
Wherein the tagging level definition unit defines the tagging level of the vocabulary.
KR1020120146917A 2012-12-14 2012-12-14 Apparatus and method for defining sense tagging label of word KR20140077783A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120146917A KR20140077783A (en) 2012-12-14 2012-12-14 Apparatus and method for defining sense tagging label of word

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120146917A KR20140077783A (en) 2012-12-14 2012-12-14 Apparatus and method for defining sense tagging label of word

Publications (1)

Publication Number Publication Date
KR20140077783A true KR20140077783A (en) 2014-06-24

Family

ID=51129632

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120146917A KR20140077783A (en) 2012-12-14 2012-12-14 Apparatus and method for defining sense tagging label of word

Country Status (1)

Country Link
KR (1) KR20140077783A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160139590A (en) 2015-05-28 2016-12-07 삼성에스디에스 주식회사 Method and apparatus for rule managing using informal input data

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160139590A (en) 2015-05-28 2016-12-07 삼성에스디에스 주식회사 Method and apparatus for rule managing using informal input data

Similar Documents

Publication Publication Date Title
US10936664B2 (en) Dialogue system and computer program therefor
US9805718B2 (en) Clarifying natural language input using targeted questions
Reshamwala et al. Review on natural language processing
US7957968B2 (en) Automatic grammar generation using distributedly collected knowledge
JP2018077858A (en) System and method for conversation-based information search
KR20180114781A (en) Apparatus and method for converting dialect into standard language
JPWO2016151700A1 (en) Intent understanding device, method and program
WO2017198031A1 (en) Semantic parsing method and apparatus
US11023685B2 (en) Affect-enriched vector representation of words for use in machine-learning models
US9953027B2 (en) System and method for automatic, unsupervised paraphrase generation using a novel framework that learns syntactic construct while retaining semantic meaning
KR20130125999A (en) A method and an apparatus of keyword extraction and a communication assist device
KR101677859B1 (en) Method for generating system response using knowledgy base and apparatus for performing the method
Boudchiche et al. A hybrid approach for Arabic lemmatization
Jakupović et al. Formalisation method for the text expressed knowledge
KR101255957B1 (en) Method and apparatus for tagging named entity
Levin et al. Domain specific speech acts for spoken language translation
CN112185361B (en) Voice recognition model training method and device, electronic equipment and storage medium
CN111767714B (en) Text smoothness determination method, device, equipment and medium
Hori et al. Statistical dialog management applied to WFST-based dialog systems
US10867525B1 (en) Systems and methods for generating recitation items
Martínez-Cámara et al. Neural disambiguation of causal lexical markers based on context
KR20170008357A (en) System for Translating Using Crowd Sourcing, Server and Method for Web toon Language Automatic Translating
Lee et al. Iterative translation-based data augmentation method for text classification tasks
KR20140077783A (en) Apparatus and method for defining sense tagging label of word
CN112071304B (en) Semantic analysis method and device

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination