KR20080026782A - Method and apparatus for comprehending speech using information extraction method - Google Patents

Method and apparatus for comprehending speech using information extraction method Download PDF

Info

Publication number
KR20080026782A
KR20080026782A KR1020060091790A KR20060091790A KR20080026782A KR 20080026782 A KR20080026782 A KR 20080026782A KR 1020060091790 A KR1020060091790 A KR 1020060091790A KR 20060091790 A KR20060091790 A KR 20060091790A KR 20080026782 A KR20080026782 A KR 20080026782A
Authority
KR
South Korea
Prior art keywords
speech
language
semantic structure
unit
driving
Prior art date
Application number
KR1020060091790A
Other languages
Korean (ko)
Inventor
김경덕
은지현
정민우
이근배
Original Assignee
학교법인 포항공과대학교
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 학교법인 포항공과대학교, 포항공과대학교 산학협력단 filed Critical 학교법인 포항공과대학교
Priority to KR1020060091790A priority Critical patent/KR20080026782A/en
Publication of KR20080026782A publication Critical patent/KR20080026782A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

A method and an apparatus for comprehending spoken words by using an information extraction method are provided to comprehend essential elements selectively in comprehending the spoken words on the basis of a meaning structure suitable for each specific domain, thereby improving a degree of comprehension for the spoken words. A method for comprehending spoken words by using an information extraction method comprises the following steps of: standardizing the meaning structure of the spoken words previously(210); embodying the standardized meaning structure to be suitable for a specific domain(220); inputting spoken words recognized through a voice recognition unit(230); performing the natural language processing of the inputted spoken words(240); selecting quality with a specific meaning for determining the meaning structure by a result analyzed through the natural language processing(250); performing mechanical studying by using the selected quality(260); and comprehending the spoken words based on the meaning structure formed by determining corresponding elements configuring the meaning structure through the mechanical studying(270).

Description

정보추출 기법을 이용한 음성언어 이해방법 및 장치{Method and apparatus for comprehending speech using information extraction method} Method and apparatus for comprehending speech using information extraction method

도 1은 본 발명에 의한 정보추출기법을 이용한 음성언어 이해 장치가 적용된 음성 언어 이해 시스템의 블록도이다.1 is a block diagram of a speech language understanding system to which a speech language understanding apparatus using an information extraction technique according to the present invention is applied.

도 2는 도 1의 음성언어 이해부의 동작을 설명하기 위한 흐름도이다. FIG. 2 is a flowchart illustrating an operation of a voice language understanding unit of FIG. 1.

도 3은 도 2의 음성언어 이해방법을 적용한 장치의 블록도이다.3 is a block diagram of an apparatus to which the voice language understanding method of FIG. 2 is applied.

<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>

11 : 음성 인식부 12 : 음성언어 이해부11: speech recognition unit 12: speech language understanding unit

13 : 대화 관리부 310 : 발화 입력부13: conversation management unit 310: speech input unit

320 : 자연어 처리부 330 : 자질 추출부320: natural language processing unit 330: feature extraction unit

340 : 화행 분류부 350 : 주행 분류부340: speech act classification unit 350: driving classification unit

360 : 핵심요소 추출부 370 : 의미구조 형성부360: core element extraction unit 370: semantic structure forming unit

본 발명은 정보 추출 기법을 이용한 음성언어 이해방법 및 그 장치에 관한 것으로서, 보다 상세하게는 음성 인식기를 통한 음성 인식 결과에서 음성언어 고유 의 특징을 고려하여, 음성언어 이해를 시도하고자 하는 특정 도메인의 의미 구조를 구조화시킨 후, 의미 구조에 필요한 정보를 음성 인식 결과로부터 추출하여 자연어 처리 기술 및 기계 학습 방법을 이용하여 음성언어의 의미를 이해시키는 정보 추출 기법을 이용한 음성언어 이해 방법 및 장치에 관한 것이다. The present invention relates to a method and apparatus for understanding a speech language using an information extraction technique. More particularly, the present invention relates to a speech language understanding method using an information extraction technique. The present invention relates to a method and apparatus for understanding a speech language using an information extraction technique for constructing a semantic structure and extracting information necessary for the semantic structure from a speech recognition result to understand the meaning of the speech language using natural language processing techniques and machine learning methods. .

일반적으로 음성언어 인식 시스템에 있어서의 음성언어 이해방법으로는 크게 두 가지로 구분될 수 있다. In general, there are two types of speech language understanding methods in a speech language recognition system.

그 중 하나의 방법으로는 수동으로 구축한 의미론적 단계의 문법을 통하여 음성언어를 이해하는 방법이 있다. 그러나 이러한 의미론적 문법을 통한 음성 이해방법은 고가의 개발비용이 요구되고, 사용자들이 특정 체계에서 지원되는 문법 규칙에 대해 무지할 경우에는 적절한 음성 이해가 이루어질 수 없는 문제점이 있다.One method is to understand the phonetic language through the semantic grammar of manual construction. However, this method of understanding speech through semantic grammar requires expensive development cost, and there is a problem in that proper speech understanding cannot be achieved when users are ignorant about grammar rules supported by a specific system.

다른 음성언어 이해의 접근 방법으로는 단어 문자열을 미리 정의된 의미 구조에 직접 할당하는 통계적 방법을 사용하는 것이 있다. 이 방법에서는 손수 조직된 문법이나 규칙은 학습 데이터로부터 자동으로 훈련되는 통계적 모델로 대체되며, 이 통계적 모델을 통하여 음성언어를 이해할 수 있다.Another approach to understanding phonetic language is to use statistical methods to assign word strings directly to predefined semantic structures. In this method, hand-organized grammars or rules are replaced with statistical models that are automatically trained from the training data, which can be used to understand speech languages.

또한, 세부적인 기법을 응용하여 보다 높은 정확도로서 음성언어를 인식하기 위한 다양한 음성언어 이해 방식이 제안되고 있다.In addition, various speech language understanding methods have been proposed for recognizing speech languages with higher accuracy by applying detailed techniques.

본 발명이 이루고자 하는 기술적 과제는 음성 인식기를 통한 음성 인식 결과에서 특정 도메인에서 사용되는 음성언어에 대한 높은 이해도를 갖는 정보 추출 기법을 이용한 음성 의미 이해방법을 제공하는 데 있다.SUMMARY OF THE INVENTION The present invention has been made in an effort to provide a speech semantic understanding method using an information extraction technique having a high understanding of a speech language used in a specific domain in a speech recognition result using a speech recognizer.

또한, 본 발명의 다른 기술적 과제는 음성 인식기를 통한 음성 인식 결과에서 특정 도메인에서 사용되는 음성언어를 이해하는데 효율 높게 적용할 수 있는 정보 추출 기법을 이용한 음성 의미 이해 장치를 제공하는 데 있다.In addition, another technical problem of the present invention is to provide an apparatus for understanding speech semantics using an information extraction technique that can be efficiently applied to understand the speech language used in a specific domain in a speech recognition result through a speech recognizer.

상기와 같은 기술적 과제를 달성하기 위한 정보 추출 기법을 이용한 음성언어 이해방법은, Speech language understanding method using the information extraction technique to achieve the above technical problem,

음성언어에 대한 의미 구조를 미리 정형화하는 단계;Formulating a semantic structure for a speech language in advance;

상기와 같이 정형화된 의미 구조를 특정 도메인에 맞게 구체화하는 단계;Embodying the formalized semantic structure as described above for a specific domain;

음성 인식기를 통해 인식된 음성언어를 입력하는 단계;Inputting a recognized speech language through a speech recognizer;

상기 입력된 음성언어를 대상으로 자연언어 처리를 수행하는 단계;Performing natural language processing on the input voice language;

자연언어 처리를 통해 분석된 결과에 의해 의미구조를 결정할 특징적인 의미를 가진 자질을 선택하는 단계; Selecting a feature having a characteristic meaning to determine a semantic structure based on a result analyzed through natural language processing;

상기 선택된 자질을 이용하여 기계학습을 하는 단계; 및 Machine learning using the selected qualities; And

상기 기계학습을 통하여, 의미 구조를 구성하는 해당 요소들을 결정하여 형성시킨 의미 구조를 바탕으로 상기 음성언어를 이해하는 단계를 포함함을 특징으로 한다. Through the machine learning, it characterized in that it comprises the step of understanding the speech language based on the semantic structure formed by determining the corresponding elements constituting the semantic structure.

또한, 상기 의미 구조를 정형화하는 단계는 의미 구조를 일반적인 측면의 문장 형태를 분류하는 화행과, 특정 도메인에서 의도하는 행동 양식인 주행과, 상기 주행의 행동양식을 뒷받침하는 핵심요소를 설정하는 것을 특징으로 한다.In addition, the formalizing of the semantic structure may include setting a speech act to classify the sentence structure of the general aspect into a semantic structure, driving which is a behavior pattern intended in a specific domain, and key elements supporting the behavior pattern of the driving. It is done.

또한, 상기 의미 구조를 구체화하는 단계는 상기 화행을 문장 형태로서 서술 문, 의문문, 요청문 등으로 정의하고, 주행에서 해당 특정 도메인에서 의도하는 하나 이상의 세부 행동 양식들과 상기 세부 행동 양식들을 뒷받침하는 핵심요소에 포함된 세부 요소들을 정의함을 특징으로 한다.In addition, the step of materializing the semantic structure may define the speech act as a sentence, question, request, etc. as a sentence form, and support one or more detailed behavioral patterns and the detailed behavioral patterns intended by the specific domain in driving. It is characterized by defining the detailed elements included in the core element.

또한, 상기 특정 도메인은 '티브이 프로그램 가이드', '자동차 길 안내'와 같은 그 목적이 뚜렷한 도메인임을 특징으로 한다.In addition, the specific domain is characterized in that the purpose of the domain is distinctive, such as 'Tee program guide', 'car road guide'.

또한, 상기 자연언어 처리는 상기 음성언어에 대하여 형태소 분석, 구구조 분석, 구문구조 분석을 수행함을 특징으로 한다. In addition, the natural language processing is characterized by performing a morpheme analysis, a sphere structure analysis, a syntax structure analysis for the speech language.

또한, 본 발명의 다른 기술적 과제를 달성하기 위한 정보추출 기법을 이용한 음성언어 이해장치는,In addition, an apparatus for understanding speech language using information extraction technique for achieving another technical problem of the present invention,

이해하고자 하는 음성 언어를 음성인식기의 작동 결과로부터 입력받는 발화입력부; A speech input unit for receiving a speech language to be understood from an operation result of the speech recognizer;

상기 발화입력부에 입력된 인식된 음성 언어를 자연어처리 과정에 따라 분석하는 자연어처리부; A natural language processor analyzing the recognized speech language inputted into the speech input unit according to a natural language processing process;

상기 자연어처리부의 결과로부터 추후 의미 구조를 결정하는데 판단근거로 사용될 특징적 의미를 가진 자질을 선택하는 자질추출부; A feature extraction unit for selecting a feature having a characteristic meaning to be used as a basis for determining a meaning structure later from the result of the natural language processing unit;

상기 자질추출부에 의해 선택된 자질 집합을 기계학습 기술에 적용하여, 의미 구조 중 화행을 사전에 정의된 문장형태로 분류하는 화행분류부; A speech act classification unit for classifying a speech act in a semantic structure into a predefined sentence form by applying a feature set selected by the feature extractor to a machine learning technique;

상기 자질추출부에 의해 선택된 자질 집합을 기계학습 기술에 적용하여, 의미 구조 중 주행을 사전에 정의된 세부 행동양식으로 분류하는 주행분류부; A driving classification unit for applying the feature set selected by the feature extracting unit to a machine learning technique to classify the driving in a semantic structure into a predefined detailed behavior pattern;

상기 자질추출부에 의해 선택된 자질 집합을 기계학습 기술에 적용하여, 의 미 구조 중 상기 주행의 행동양식을 뒷받침하는 핵심요소를 사전에 정의된 세부 요소로 분류하는 핵심요소 추출부; 및 A core element extracting unit for applying the feature set selected by the feature extracting unit to a machine learning technique to classify the key elements supporting the behavior of the driving into detailed sub-elements in the meaning structure; And

상기 화행분류부, 주행분류부 및 핵심요소 추출부에 의해, 각각 분류된 세부 요소들로서 상기 음성언어가 가지고 있는 의미 구조를 형성하는 의미구조 형성부를 포함함을 특징으로 한다.The speech act classification unit, the driving classification unit, and the core element extracting unit may include a semantic structure forming unit for forming a semantic structure possessed by the voice language as detailed elements classified into respective categories.

이하, 도면을 참조하여 본 발명의 바람직한 일 실시예를 상세히 설명하기로 한다. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명에 의한 정보추출 기법을 이용한 음성언어 이해 장치가 적용된 음성언어 이해 시스템의 블록도이다. 1 is a block diagram of a speech language understanding system to which a speech language understanding apparatus using an information extraction technique according to the present invention is applied.

도 1에서, 발화되어 입력된 음성을 음성 인식부(11)에서 인식하게 되면 음성언어 이해부(12)는 음성 인식부(11)에서 출력된 음성의 언어를 이해하고, 이해된 음성 언어에 대하여 대화 관리부(13)에서는 대화를 관리하게 된다. In FIG. 1, when the speech recognized input voice is recognized by the speech recognition unit 11, the speech language understanding unit 12 understands the language of the speech output from the speech recognition unit 11, and understands the speech language. The conversation manager 13 manages the conversation.

상기와 같이 음성언어 이해부(12)에서 적용되는 기술은 음성 인식 기술과 대화 관리 기술을 연결하는 중간 단계를 제공하는 기술로써, 화자의 발화를 음성인식부(11)를 통하여 음성 표기 형태의 출력으로 받아들이고, 이 출력 양식이 추후 대화 관리자에 의해 인식될 수 있도록 특정한 의미 구조로 변환하는 역할을 한다.As described above, the technology applied by the speech language understanding unit 12 is a technology that provides an intermediate step of connecting the speech recognition technology and the conversation management technology, and outputs the speech of the speaker through the speech recognition unit 11 in the form of a speech notation. It converts this output form into a specific semantic structure that can be recognized later by the conversation manager.

또한 이 과정을 수행함에 있어, 음성언어를 이해하는데 정보 추출 기술을 적용함으로써, 음성언어 이해 문제를 음성언어에서 필수적인 요소를 추출하는 것을 목적으로 하는 정보 추출 문제로 접근하고 있는 점이 종래의 기술과 차별화된다.In addition, in performing this process, by applying information extraction technology to understand the speech language, the problem of speech language understanding is approached as an information extraction problem for the purpose of extracting essential elements from the speech language. do.

도 2는 본 발명에 따른 음성언어를 이해하는 방법을 설명하기 위한 흐름도이 다. 2 is a flowchart illustrating a method of understanding a speech language according to the present invention.

도 2에서, 본 발명에 따른 음성언어를 이해하기 위해서는 우선 음성언어를 이해하기 위해 일반적인 의미 구조를 정형화한다(210 단계).In FIG. 2, in order to understand the speech language according to the present invention, first, a general semantic structure is formulated to understand the speech language (step 210).

여기서 음성언어란 특정 도메인에서 사용되는 특성화된 발화 및 일반적인 발화도 포함한다.As used herein, a speech language also includes specialized speech and general speech used in a particular domain.

상기 발화가 특성화된 문장의 경우를 예로 들어, 210 단계에 대하여 상세히 설명하면 다음과 같다. Taking the case of the sentence in which the speech is characterized as an example, step 210 is described in detail below.

음성언어의 의미를 이해하기 위해, 여러 측면에서 의미 구조를 정형화한다. 즉, 의미구조를 해당 발화가 일반적인 측면에서 속하는 문장의 형태(화행)와, 해당 발화가 특정 도메인에서 의도하는 행동의 양식(주행)과, 특정 도메인에서 의도하는 행동의 의미를 구체화하기 위해서 부가되는 구성요소(핵심요소)로서 3가지 요소로 나누어 설정한다. In order to understand the meaning of the phonetic language, the meaning structure is formalized in many aspects. That is, the semantic structure is added to specify the form of the sentence (action act) to which the utterance belongs in general terms, the style of behavior intended for the specific domain (driving), and the meaning of the action intended in the specific domain. As the component (core element), it is divided into three elements.

상기와 같이, 의미 구조를 정형화한 후 각 특정 도메인에 맞게 의미 구조를 구체화한다(220 단계).As described above, after shaping the semantic structure, the semantic structure is embodied for each specific domain (step 220).

210 단계에서 의미 구조를 정형화한 바와 같이, 화행의 경우 일반적인 측면에서 분류된 것이므로 여러 영역에서 공통된 의미 구조를 가진다. 그러나 주행 및 핵심요소의 경우, 특정 도메인에 따라 서로 다른 구조를 가지고 있기 때문에 구체화하는 단계가 필요하다. As the semantic structure is formalized in step 210, the speech act is classified in general terms and thus has a common semantic structure in various areas. However, in the case of driving and key elements, different structures are required according to specific domains.

220 단계에서는 정형화된 의미 구조의 화행, 주행, 핵심요소를 해당 특정 도메인에 맞게 세부적으로 분류하여 정의하는 것이다. In step 220, the acts, driving, and key elements of the formalized semantic structure are classified and defined according to the specific domain.

예를 들어, 특정 도메인이 '티브이 프로그램 가이드'의 도메인인 경우에는 이미 화행, 주행, 핵심요소로 정형화된 의미 구조를 구체화하게 되면, For example, if a specific domain is the domain of the program guide, if you have already embodied a semantic structure that is formalized by speech acts, driving, and key elements,

화행; 서술문, 의문문, 요청문, ... Speech acts; Statement, question, request, ...

주행: TV 켜기, TV 끄기, 프로그램 찾기, 프로그램 시간 찾기, ...Drive: Turn on TV, turn off TV, find program, find program time, ...

핵심요소: 장르, 프로그램명, 시작시간, 채널명, 배우 이름, ...Key elements: genre, program name, start time, channel name, actor name, ...

등으로 특정 도메인에서의 화행과 주행, 핵심요소에는 각각 어떤 종류의 세부 요소들이 있는지를 정의하게 되는 것이다. For example, it defines what kinds of detailed elements are included in the dialogue act, driving, and key elements in a specific domain.

이와 같이 '티브이 프로그램 가이드' 도메인에서 정의된 주행 및 핵심요소는 '자동차 길 찾기' 도메인과 같이 고유의 목적이 이질적인 도메인에서 사용되는 주행 및 핵심요소와는 서로 독립적인 특징이 갖게 됨으로써 음성 언어의 이해를 보다 용이하게 할 수 있다. As such, driving and key elements defined in the 'Tip Program Guide' domain have characteristics that are independent of the driving and key elements used in domains with different inherent purposes, such as the 'car path finding' domain. Can be made easier.

의미 구조가 구체화되면 다음에, 이해하고자 하는 음성 인식된 음성 언어를 입력한다(230 단계).After the semantic structure is embodied, a speech-recognized speech language to be understood is input (step 230).

이해하고자 하는 인식된 음성 언어가 문자로서 입력되면 우선 형태소 분석, 구구조 분석, 구문구조 분석 등의 자연언어처리 과정을 수행한다(240 단계).When the recognized speech language to be understood is input as a text, first, a natural language processing process such as morphological analysis, spherical structure analysis, and syntax structure analysis is performed (step 240).

240 단계를 통해, 발화의 자연언어처리 결과를 바탕으로 미래의 의미 구조를 결정하는데 결정적인 역할을 할 특징적인 의미를 가진 자질(feature extraction part)을 인식된 음성 언어로부터 선택하는 단계를 수행한다(250 단계). 음성 언어로부터 특징적인 의미를 가진 자질을 선택하는 과정은 일반적인 음성언어 이해방법에 있어서도 적용되는 방법이므로 상세한 설명은 생략하기로 한다.In operation 240, a feature extraction part having a characteristic meaning to play a decisive role in determining a future semantic structure based on the natural language processing result of the speech is selected from the recognized speech language (250). step). Since the process of selecting a feature having a characteristic meaning from the speech language is also applied to a general speech language understanding method, a detailed description thereof will be omitted.

이어서, 250 단계에서 선택된 자질을 이용하여 기계학습을 하여 최종적으로 화행, 주행, 핵심요소에 해당하는 의미 구조를 결정한다(260 단계). Subsequently, machine learning is performed using the selected qualities in step 250 to finally determine a semantic structure corresponding to speech acts, driving, and key elements (step 260).

여기서, 기계학습 방법으로는 Maximum entropy model, Support vector machines, Conditional random fields 등의 일반적으로 알려져 있는 다양한 기법이 적용할 수 있다. Here, as a machine learning method, various commonly known techniques such as a maximum entropy model, support vector machines, and conditional random fields may be applied.

도 2에 음성언어를 이해하는 방법의 흐름도를 간략하게 도시하였지만, 210 및 220 단계는 특정 도메인에서의 음성 언어를 이해하기 위해 해당 특정 도메인에 대하여 한번만 수행하면 되며, 230 내지 260 단계는 각각의 발화 입력된 음성 언어에 대하여 의미 구조상 해당 요소들이 화행 및 주행으로 정의된 세부 요소 또는 핵심요소내의 정의된 어느 세부 요소에 속하는지 사전에 기계학습을 시키기 위한 단계로서도 수행될 수 있다. Although a flowchart of a method of understanding a speech language is briefly illustrated in FIG. 2, steps 210 and 220 need to be performed only once for a specific domain in order to understand the speech language in a specific domain. For the input speech language, it may also be performed as a step for pre-machine learning whether the corresponding elements in the semantic structure belong to the detailed elements defined by speech acts and driving, or which detailed elements defined in the core elements.

또한, 특정 도메인에 있어서의 음성 언어에 대한 기계학습을 완료시킨 후, 해당 특정 도메인에 대하여 학습된 결과를 실질적으로 적용시켜 음성 언어를 이해하고자 하는 경우, 발화를 입력하여 의미 구조를 형성하는 230 단계 내지 270 단계만을 수행하면 된다. 따라서, 사전에 의미 구조의 정형화 및 구체화를 수행하고, 사전의 음성 언어에 대한 기계학습 단계로서 발화를 입력시켜 구체화된 의미구조를 바탕으로 각각의 발화에 대하여 화행, 주행, 핵심요소의 정의된 세부 요소와 일치시킬 수 있도록 기계학습이 완료된 후에는 240 단계 내지 270 단계만을 통하여 실질적으로 입력된 발화에 대하여 의미 구조를 분석하여 음성 언어를 이해하게 된다. In addition, after completing the machine learning for the speech language in a specific domain, if you want to understand the speech language by substantially applying the results learned for that specific domain, step 230 of inputting a speech to form a semantic structure Only steps 270 to 270 need to be performed. Therefore, the formalization and specification of the semantic structure is performed in advance, and the speech is input as a machine learning step for the speech language of the dictionary, and the detailed details of speech acts, driving, and key elements are defined for each speech based on the detailed semantic structure. After the machine learning is completed to match the element, the speech structure is understood by analyzing the semantic structure of the input speech substantially through steps 240 to 270.

예컨대, "김태희가 나오는 드라마 어디서 하니" 라는 음성인식부(11)로부터 인식된 음성 언어가 입력되면, 230 단계 내지 270 단계를 수행함으로써, For example, when the voice language recognized from the voice recognition unit 11, “Where do Kim Tae-hee come out” is input, by performing steps 230 to 270,

화행: 의문문 Speech acts: question

주행: 프로그램 찾기 Drive: Find a program

핵심요소: 주인공-김태희, 장르-드라마 Key Elements: Hero-Kim Tae Hee, Genre-Drama

의 형태로 의미 구조의 분석 결과가 나오게 된다. 이와 같이, 260 단계의 기계학습을 수행하여 결정된 화행, 주행, 핵심 요소를 통합하여 분석된 의미 구조를 형성함으로써(270 단계), 이 의미 구조를 바탕으로 최초 입력된 발화의 의미를 이해한다. The result of the analysis of the semantic structure in the form of. In this way, by performing the machine learning of 260 steps to form the analyzed semantic structure by integrating speech acts, driving, and key elements determined (step 270), the meaning of the first input speech is understood based on this semantic structure.

이하, 상술된 음성 이해방법을 적용한 음성언어 이해 장치를 설명하기로 한다. 도 3은 도 2의 음성언어 이해방법을 적용한 장치의 블록도이다. Hereinafter, a speech language understanding apparatus to which the above-described speech understanding method is applied will be described. 3 is a block diagram of an apparatus to which the voice language understanding method of FIG. 2 is applied.

도 3에 도시된 바와 같이 본 발명의 음성언어 이해장치는 발화 입력부(310), 자연어 처리부(320), 자질추출부(330), 화행분류부(340), 주행분류부(350), 핵심요소 추출부(360), 및 의미구조 형성부(370)를 포함하여 구성된다.As shown in FIG. 3, the apparatus for understanding a speech language of the present invention includes a speech input unit 310, a natural language processor 320, a feature extractor 330, a speech act classifier 340, a driving classifier 350, and a key element. It is configured to include an extraction unit 360, and semantic structure forming unit 370.

상기 발화입력부(310)는 음성인식부로부터 인식된 음성 언어의 문자를 입력받을 수 있도록 하며, 자연어처리부(320)는 입력된 발화의 인식된 문자에 대하여 형태소 분석, 구구조 분석, 구문구조 분석 등을 수행한다. The speech input unit 310 may receive a character of the recognized speech language from the speech recognition unit, and the natural language processor 320 may perform morphological analysis, sphere structure analysis, syntax structure analysis, etc. on the recognized characters of the input speech. Do this.

상기 자질추출부(330)는 자연어처리부(320)에서 음성 인식된 문장의 형태소 분석, 구구조 분석, 구문구조를 분석한 결과로부터 앞으로의 의미 구조를 결정하는데 필요한 특징적인 의미를 가진 하나 이상의 자질을 선택한다. The feature extractor 330 may include one or more features having a characteristic meaning necessary to determine a future meaning structure from a result of analyzing a morpheme, a sphere structure, and a syntax structure of a speech recognized sentence by the natural language processor 320. Choose.

상기 화행분류부(340)는 자질추출부(330)에서 입력된 음성 언어에서 선택된 자질들을 기계학습에 사용하여 의미 구조에 포함된 화행을 사전에 설정된 서술문, 의문문, 요청문 등에서 해당 문자형태로 분류한다. 또한, 주행분류부(350)는 자질추출부(330)에서 선택된 자질을 이용하여 기계학습을 함으로써 의미 구조에 포함된 주행을 특정 도메인상에서 사전에 정의된 세부 행동 양식들 중 해당하는 행동양식으로 분류한다. The act act classification unit 340 classifies the act act included in the semantic structure into a corresponding character form in a pre-set statement, question, request statement, etc. by using the selected qualities in the speech language input from the feature extracting unit 330 in machine learning. do. In addition, the driving classification unit 350 classifies the driving included in the semantic structure into a corresponding behavioral pattern among the detailed behavioral patterns previously defined on a specific domain by performing machine learning using the characteristics selected by the feature extraction unit 330. do.

또한, 상기 핵심요소 추출부(360)는 자질추출부(330)에서 선택된 자질들을 기계학습에 사용하여 의미 구조에서 핵심요소로서 사전에 정의된 세부 요소들 중 어느 세부 요소와 일치하는지를 결정하도록 구성된다. In addition, the core element extractor 360 is configured to determine which of the detailed elements matched in advance as key elements in the semantic structure by using the qualities selected by the feature extractor 330 in machine learning. .

마지막으로, 상기 의미구조 형성부(370)에서는 화행분류부(340), 주행분류부(350), 핵심요소 추출부(360)를 통해 특정 도메인에 있어서 입력된 발화에 대하여 화행과 주행, 핵심요소에서의 세부 요소들로 의미 구조를 형성하여 최초 입력된 발화의 의미를 이해하도록 한다.Finally, in the semantic structure forming unit 370, speech acts, driving, and key elements with respect to speech input in a specific domain through the speech act classification unit 340, the driving classification unit 350, and the core element extractor 360 The semantic structure is formed from the detailed elements in to understand the meaning of the first input speech.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다. Although the present invention has been described with reference to the embodiments shown in the drawings, those skilled in the art will understand that various modifications and equivalent other embodiments are possible therefrom. Therefore, the true technical protection scope of the present invention will be defined by the technical spirit of the appended claims.

상술한 바와 같이, 본 발명에 의한 정보추출기법을 이용한 음성 이행 방법 및 장치는 특정 도메인에서 사용되는 음성언어를 이해하는데 효율 높게 적용할 수 있으며, 특히 각 특정 도메인에 적합한 의미 구조를 기반으로 음성언어를 이해함에 있어서, 핵심적인 요소(주행, 화행, 핵심요소)를 선별적으로 이해할 수 있어 보다 음성언어의 이해도를 높일 수 있는 효과를 제공한다.As described above, the voice transition method and apparatus using the information extraction method according to the present invention can be efficiently applied to understand the speech language used in a specific domain, and in particular, the speech language based on a semantic structure suitable for each specific domain. In understanding this, it is possible to selectively understand the key elements (driving, speech acts, key elements), thereby providing an effect of improving the understanding of the speech language.

Claims (7)

음성언어에 대한 의미 구조를 미리 정형화하는 단계;Formulating a semantic structure for a speech language in advance; 상기와 같이 정형화된 의미 구조를 특정 도메인에 맞게 구체화하는 단계;Embodying the formalized semantic structure as described above for a specific domain; 음성 인식기를 통해 인식된 음성언어를 입력하는 단계;Inputting a recognized speech language through a speech recognizer; 상기 입력된 음성언어를 대상으로 자연언어 처리를 수행하는 단계;Performing natural language processing on the input voice language; 자연언어 처리를 통해 분석된 결과에 의해 의미구조를 결정할 특징적인 의미를 가진 자질을 선택하는 단계; Selecting a feature having a characteristic meaning to determine a semantic structure based on a result analyzed through natural language processing; 상기 선택된 자질을 이용하여 기계학습을 하는 단계; 및 Machine learning using the selected qualities; And 상기 기계학습을 통하여, 의미 구조를 구성하는 해당 요소들을 결정하여 형성시킨 의미 구조를 바탕으로 상기 음성언어를 이해하는 단계를 포함하는 것을 특징으로 하는 정보 추출 기법을 이용한 음성언어 이해방법. And a step of understanding the speech language based on the semantic structure formed by determining the corresponding elements constituting the semantic structure through the machine learning. 제1항에 있어서, 상기 의미 구조를 정형화하는 단계는 의미 구조를 일반적인 측면의 문장 형태를 분류하는 화행과, 특정 도메인에서 의도하는 행동 양식인 주행과, 상기 주행의 행동양식을 뒷받침하는 핵심요소를 설정하는 것을 특징으로 하는 정보 추출 기법을 이용한 음성언어 이해방법. The method of claim 1, wherein the formalizing of the semantic structure comprises: a speech act for classifying a sentence form of a general aspect into a semantic structure, a driving that is intended in a specific domain, and a key element supporting the behavioral pattern of the driving; A speech language understanding method using information extraction technique characterized in that the setting. 제1항에 있어서, 상기 의미 구조를 구체화하는 단계는 상기 화행을 문장 형태로서 서술문, 의문문, 요청문 등으로 정의하고, 주행에서 해당 특정 도메인에서 의도하는 하나 이상의 세부 행동 양식들과 상기 세부 행동 양식들을 뒷받침하는 핵심요소에 포함된 세부 요소들을 정의함을 특징으로 하는 정보 추출 기법을 이용한 음성언어 이해방법. The method of claim 1, wherein the embodying the semantic structure defines the speech act as a sentence, a question, a request, and the like, and includes one or more detailed behavioral patterns and the detailed behavioral patterns intended for the specific domain in driving. How to understand the speech language using information extraction technique characterized in that it defines the sub-elements included in the key elements that support them. 제1항에 있어서, 상기 특정 도메인은 '티브이 프로그램 가이드', '자동차 길 안내'와 같은 그 목적이 뚜렷한 도메인임을 특징으로 하는 정보추출 기법을 이용한 음성언어 이해방법. The method of claim 1, wherein the specific domain is a domain having a distinct purpose, such as a program guide or a car road guide. 제1항에 있어서, 상기 자연언어 처리는 상기 음성언어에 대하여 형태소 분석, 구구조 분석, 구문구조 분석을 수행함을 특징으로 하는 정보 추출 기법을 이용한 음성언어 이해방법. The method of claim 1, wherein the natural language processing performs morphological analysis, sphere structure analysis, and syntax structure analysis on the speech language. 이해하고자 하는 음성 언어를 음성인식기의 작동 결과로부터 입력받는 발화입력부; A speech input unit for receiving a speech language to be understood from an operation result of the speech recognizer; 상기 발화입력부에 입력된 인식된 음성 언어를 자연어처리 과정에 따라 분석하는 자연어처리부; A natural language processor analyzing the recognized speech language inputted into the speech input unit according to a natural language processing process; 상기 자연어처리부의 결과로부터 추후 의미 구조를 결정하는데 판단근거로 사용될 특징적 의미를 가진 자질을 선택하는 자질추출부; A feature extraction unit for selecting a feature having a characteristic meaning to be used as a basis for determining a meaning structure later from the result of the natural language processing unit; 상기 자질추출부에 의해 선택된 자질 집합을 기계학습 기술에 적용하여, 의미 구조 중 화행을 사전에 정의된 문장형태로 분류하는 화행분류부; A speech act classification unit for classifying a speech act in a semantic structure into a predefined sentence form by applying a feature set selected by the feature extractor to a machine learning technique; 상기 자질추출부에 의해 선택된 자질 집합을 기계학습 기술에 적용하여, 의미 구조 중 주행을 사전에 정의된 세부 행동양식으로 분류하는 주행분류부; A driving classification unit for applying the feature set selected by the feature extracting unit to a machine learning technique to classify the driving in a semantic structure into a predefined detailed behavior pattern; 상기 자질추출부에 의해 선택된 자질 집합을 기계학습 기술에 적용하여, 의미 구조 중 상기 주행의 행동양식을 뒷받침하는 핵심요소를 사전에 정의된 세부 요소로 분류하는 핵심요소 추출부; 및 A core element extracting unit for classifying a feature set selected by the feature extracting unit into a machine learning technique to classify the core elements supporting the behavior of the driving into detailed sub-elements in a semantic structure; And 상기 화행분류부, 주행분류부 및 핵심요소 추출부에 의해, 각각 분류된 세부 요소들로서 상기 음성언어가 가지고 있는 의미 구조를 형성하는 의미구조 형성부를 포함함을 특징으로 하는 음성정보 추출기법을 이용한 음성언어 이해장치. The speech using speech information extraction technique, characterized in that the speech act classification unit, the driving classification unit and the core element extracting unit, comprising a semantic structure forming unit for forming a semantic structure of the speech language as the detailed elements classified into each Language understanding device. 제6항에 있어서, 상기 자연언어 처리부는 상기 음성언어에 대하여 형태소 분석, 구구조 분석, 구문구조 분석을 수행함을 특징으로 하는 정보 추출 기법을 이용한 음성언어 이해장치. The apparatus of claim 6, wherein the natural language processor performs morphological analysis, sphere structure analysis, and syntax structure analysis on the speech language.
KR1020060091790A 2006-09-21 2006-09-21 Method and apparatus for comprehending speech using information extraction method KR20080026782A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060091790A KR20080026782A (en) 2006-09-21 2006-09-21 Method and apparatus for comprehending speech using information extraction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060091790A KR20080026782A (en) 2006-09-21 2006-09-21 Method and apparatus for comprehending speech using information extraction method

Publications (1)

Publication Number Publication Date
KR20080026782A true KR20080026782A (en) 2008-03-26

Family

ID=39414015

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060091790A KR20080026782A (en) 2006-09-21 2006-09-21 Method and apparatus for comprehending speech using information extraction method

Country Status (1)

Country Link
KR (1) KR20080026782A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9620109B2 (en) 2014-02-25 2017-04-11 Samsung Electronics Co., Ltd. Apparatus and method for generating a guide sentence

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9620109B2 (en) 2014-02-25 2017-04-11 Samsung Electronics Co., Ltd. Apparatus and method for generating a guide sentence

Similar Documents

Publication Publication Date Title
KR101262812B1 (en) Methods and system for grammar fitness evaluation as speech recognition error predictor
Athanaselis et al. ASR for emotional speech: clarifying the issues and enhancing performance
WO2018034118A1 (en) Dialog system and computer program therefor
CN111105785B (en) Text prosody boundary recognition method and device
KR102267561B1 (en) Apparatus and method for comprehending speech
CN111192570B (en) Language model training method, system, mobile terminal and storage medium
CN112151005A (en) Chinese and English mixed speech synthesis method and device
CN112562640B (en) Multilingual speech recognition method, device, system, and computer-readable storage medium
KR101068122B1 (en) Apparatus and method for rejection based garbage and anti-word model in a speech recognition
CN110853628A (en) Model training method and device, electronic equipment and storage medium
KR101410601B1 (en) Spoken dialogue system using humor utterance and method thereof
CN116778967B (en) Multi-mode emotion recognition method and device based on pre-training model
Rosenberg Speech, prosody, and machines: Nine challenges for prosody research
KR20090060631A (en) System and method of pronunciation variation modeling based on indirect data-driven method for foreign speech recognition
CN112651247A (en) Dialogue system, dialogue processing method, translation device, and translation method
CN117219046A (en) Interactive voice emotion control method and system
Lyu et al. Language diarization for conversational code-switch speech with pronunciation dictionary adaptation
KR102339794B1 (en) Apparatus and method for servicing question and answer
KR101559576B1 (en) A Simultaneous Recognition Apparatus for the Language Understanding Module of a Mobile Dialogue System and Method of the same
Potamianos et al. Adaptive categorical understanding for spoken dialogue systems
CN113990288B (en) Method for automatically generating and deploying voice synthesis model by voice customer service
KR20080026782A (en) Method and apparatus for comprehending speech using information extraction method
CN112071304B (en) Semantic analysis method and device
CN115050351A (en) Method and device for generating timestamp and computer equipment
Gonze et al. Coding with the voice

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application