KR101025814B1 - Method for tagging morphology by using prosody modeling and its apparatus - Google Patents
Method for tagging morphology by using prosody modeling and its apparatus Download PDFInfo
- Publication number
- KR101025814B1 KR101025814B1 KR1020080127710A KR20080127710A KR101025814B1 KR 101025814 B1 KR101025814 B1 KR 101025814B1 KR 1020080127710 A KR1020080127710 A KR 1020080127710A KR 20080127710 A KR20080127710 A KR 20080127710A KR 101025814 B1 KR101025814 B1 KR 101025814B1
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- morpheme
- rhyme
- model
- rhyme model
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Abstract
본 발명은 운율 모델을 이용한 형태소 품사 태깅 방법 및 그 장치에 관한 것으로, 음성인식의 결과 또는 전사한 텍스트문장의 형태소를 해석하고, 해석이 모호한 부분에 대해 음성 DB를 기반으로 기 구축된 형태소 품사 시퀀스별 운율 모델과 입력음성의 운율 모델을 비교하여, 입력음성의 운율 모델에 대한 최적의 형태소 품사 시퀀스를 찾고, 그 찾은 결과를 형태소 품사 태깅 방법과 조합시켜 형태소 품사를 태깅함으로써, 형태소 품사 태깅의 정확도를 극대화시킬 수 있다. 또한, 본 발명은 운율 모델을 적용하여 형태소 품사를 태깅함으로써, 화자의 발성 의도를 파악할 수 있다.
형태소, 운율 모델, 품사, 태깅
The present invention relates to a method and a device for tagging a morpheme part-of-speech using a rhyme model. The present invention relates to a morpheme part-of-speech sequence based on a speech DB for analyzing morphemes of speech recognition results or transcribed text sentences. Comparing the rhyme model of each rhyme model and the input voice, find the optimal morpheme parts of speech sequence for the input rhyme model, and combine the findings with the morpheme parts of speech tagging method to tag the morpheme parts of speech, thereby making the accuracy of morpheme parts of speech tagging. Can be maximized. In addition, the present invention can grasp the speech intent by tagging the morpheme parts of speech by applying the rhyme model.
Stemming, rhyme model, parts of speech, tagging
Description
본 발명은 운율 모델을 이용한 형태소 품사 태깅 방법 및 그 장치에 관한 것으로, 보다 상세하게 설명하면 음성 데이터베이스(DabaBase, 이하 DB라 함)를 기반으로 형태소 품사 시퀀스별 운율모델을 구축하고, 텍스트 문장과 입력음성의 운율 모델을 이용하여 형태소 품사 태깅의 모호성을 해소하도록 하는 방법 및 그 장치에 관한 것이다.The present invention relates to a morpheme parts-of-speech tagging method and apparatus using a rhyme model. More specifically, the present invention relates to a morpheme parts-of-speech sequence rhyme model based on a speech database (DabaBase, hereinafter referred to as DB). A method and apparatus for resolving ambiguity of morpheme parts-of-speech tagging using a rhyme model of speech.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-019-01, 과제명: 휴대형 한/영 자동통역 기술개발].The present invention is derived from the research conducted as part of the IT growth engine technology development project of the Ministry of Knowledge Economy and the Ministry of Information and Communication Research and Development. [Task management number: 2008-S-019-01, Task name: Portable Korean / English automatic interpretation technology Development].
주지된 바와 같이, 음성인식기를 이용하는 자동통역이나 정보검색 장치는 음성인식기의 결과인 텍스트 문장만을 바탕으로 형태소 품사 태깅, 구문분석, 의미분석 등을 수행한다.As is well known, an automatic interpretation or information retrieval apparatus using a speech recognizer performs morpheme parts tagging, syntax analysis, semantic analysis, and the like based on only text sentences that are the result of the speech recognizer.
즉, 텍스트 문장만을 이용하여 통역하는 경우, 형태소 품사 태거의 오류로 인해, 화자의 발성 의도와는 전혀 다른 번역 결과를 출력할 수 있다. 예컨대, 텍스트 문장만을 이용하여 통역하는 경우 음성인식 결과가 “나는 새를 보았다”일 경우, 예1) 및 예2)That is, when interpreting using only the text sentence, a translation result that is completely different from the speaker's intention of speech can be output due to an error of the morpheme speech tagger. For example, when interpreting using only text sentences, when the voice recognition result is “I saw a bird,” Examples 1 and 2)
예1) 나/인칭대명사 는/조사 새/명사 를/조사 보/동사 았/어미 다/어미Example 1) I / person pronoun / investigative bird / noun / investigation assistant / verb
예2) 나/동사 는/관형형어미 새/명사 를/조사 보/동사 았/어미 다/어미Ex 2) I / verb / tubular mother bird / noun / investigative report / verb / mother / mother
로 형태소 해석이 될 수 있는데, 입력 문장만으로는 “나”가 “인칭대명사”의 뜻인지 “날다”동사의 뜻인지를 전혀 알 수가 없으므로, 이 문장은 구문분석과 나아가 의미분석을 하더라도 구분할 수 없다. 따라서, 자동통역기에서 활용하는 경우, 화자의 발성 의도와는 전혀 다른 번역 결과를 출력할 수 있다. The sentence can be morphologically interpreted, and the input sentence alone cannot tell whether “I” means “personal pronoun” or “fly” verb, so this sentence cannot be distinguished even by syntactic analysis and semantic analysis. Therefore, when used in an automatic translator, it is possible to output a translation result completely different from the speaker's intention.
일 예로, 도 1은 “나는 새를 보았다”에 대한 음성파일을 나타낸 도면으로서, 앞의 음성은 상술한 예1)의 음성파일이고, 뒤의 음성은 상술한 예2)의 음성파일에 대한 실제 예이다. 다시 말하여, 도 1을 참조하면, “나는”이 인칭대명사로 쓰일 경우와 동사로 쓰일 경우의 피치정보는 다른 것이다. 예1)의 인칭대명사로 사용할 경우는 피치가 높았다가 낮아지며, 예2)의 동사로 쓰일 경우는 낮아졌다가 높아짐을 알 수 있다. 이 피치정보를 활용하면 예1)과 예2)를 구분할 수 있다. 또한 예1)은 “나는”에서 끊어 읽으며, “나는 새를”에서 끊어 읽음을 볼 수 있어, 끊어 읽기 정보 또한 다르다. 또한, 음성의 길이 정보와 끊어 읽기 정보를 활용할 수 있다. For example, FIG. 1 is a diagram showing a voice file for "I saw a bird," wherein the previous voice is the voice file of Example 1) described above, and the following voice is the actual voice file of the voice file of Example 2) described above. Yes. In other words, referring to FIG. 1, the pitch information when “I” is used as a personal pronoun and a verb is different. When used as a personal pronoun in Example 1), the pitch increases and then decreases, and when used as a verb in Example 2), it decreases and then increases. By using this pitch information, it is possible to distinguish between Example 1) and Example 2). Also, Example 1) reads "I" cut off and "I cut a bird" to read, so the read information is different. In addition, the length information of the voice and the read information can be utilized.
예컨대, 발성의 길이에 대한 예로서, For example, as an example of the length of speech
예3) 내가 아는 한 교수님은 그렇지 않다.를 살펴보면, “내가 아는”에서 끊어 읽을 경우는 “한/고유명사”로 “한씨 성을 가진 교수님”의 뜻이며, 짧게 발성이 된다. 반면에 “내가 아는 한”에서 끊어 읽게 되면 “한/의존명사”의 뜻으로 길게 발성이 된다.Example 3) As far as I know, the professor is not. If you read in "I know," it means "professional professor with Han's surname," which means "one / unique noun." On the other hand, if you read from "as far as I know," you will be uttered with the meaning of "han / dependency noun."
또한, "종결어휘와 피치를 이용한 문형정보를 추출하는 방법"을 사용한 예가 개시되어 있다. 즉 자동통역 장치의 음성인식 결과에 따른 종결어휘를 이용하여 1차적으로 문형 정보를 추출하고, 2차적으로 음성으로부터 피치를 추출한 후 종결어휘의 문형별 출현 빈도율과 조합하여 문형정보를 추출함으로서 보다 높은 정확률을 얻을 수 있다. In addition, an example using "a method of extracting sentence pattern information using a final vocabulary and a pitch" is disclosed. In other words, the sentence information is extracted first by using the ending vocabulary according to the speech recognition result of the automatic interpreter, and secondly, the pitch is extracted from the voice, and the sentence information is extracted by combining the frequency of appearance of the ending vocabulary by sentence type. High accuracy rate can be obtained.
그러나, 상술한 바와 같은 종래 기술은 대용량 텍스트 DB에서의 종결어휘의 출현빈도율과, 추출된 피치의 선형조합 방법에 의해 수행되며, 평서형인지 아닌지를 구분하는 기술인데, 현재와 같이 반도체 및 정보 통신 기술이 급격하게 발달하는 환경을 고려할 때, 음성 DB를 기반으로 형태소 품사 시퀀스별 운율모델을 구축하고, 텍스트 문장과 입력음성의 운율 모델을 이용하여 형태소 품사 태깅의 모호성을 해소하도록 하는 운율 모델을 이용한 형태소 품사 태깅 방법 및 그 장치를 추가 개발해야 할 필요성이 있다. However, the prior art as described above is performed by the linear combination method of the extracted vocabulary and the extracted pitch in the large-capacity text DB, and is a technique for distinguishing whether or not it is flat form. Considering the rapid development of technology, we build a rhyme model for morpheme parts of speech based on speech DB, and use the rhyme model to solve the ambiguity of morpheme parts of speech tagging using text sentence and input voice. There is a need for further development of the morphemes speech tagging method and apparatus.
이에, 본 발명의 기술적 과제는 상술한 필요성에 의해 안출된 것으로서, 형태소 품사를 태깅하는 경우, 음성인식의 결과 또는 전사한 텍스트문장의 형태소를 해석하고, 해석이 모호한 부분에 대해 음성 DB를 기반으로 기 구축된 형태소 품사 시퀀스별 운율 모델과 입력음성의 운율 모델을 비교하여, 입력음성의 운율 모델에 대한 최적의 형태소 품사 시퀀스를 찾고, 그 찾은 결과를 형태소 품사 태깅 방법과 조합시켜 형태소 품사를 태깅하도록 하는 운율 모델을 이용한 형태소 품사 태깅 방법 및 그 장치를 제공한다. Accordingly, the technical problem of the present invention has been devised by the above-mentioned necessity. When tagging a morpheme part of speech, the result of speech recognition or the morpheme of the transcribed text sentence is interpreted, and the interpretation of the ambiguity is based on the voice DB for the part where the interpretation is ambiguous. Comparing the rhyme model for each morphological part-of-speech sequence and the input voice model, find the optimal morphological part-of-speech sequence for the input rhyme model, and combine the findings with the morphological part-of-speech tagging method to tag the morpheme parts-of-speech. A morpheme part-of-speech tagging method using a rhyme model and an apparatus thereof are provided.
본 발명의 일 관점에 따른 운율 모델을 이용한 형태소 품사 태깅 방법은, 형태소 품사 시퀀스별 운율 모델을 기반으로 텍스트 문장에 대한 형태소를 해석하는 단계와, 형태소 해석 결과에 형태소 품사 시퀀스가 존재할 경우 음성에 대한 운율 모델을 검출하는 단계와, 음성에 대한 운율 모델과 데이터 저장 DB에 저장된 형태소 품사 시퀀스별 운율 모델간을 비교하여 음성에 대한 운율 모델의 형태소 품사 시퀀스를 결정하는 단계와, 결정된 형태소 품사 시퀀스 결과에 대해 형태소 품사 태깅 기법을 적용하고, 음성에 대한 운율 모델의 품사 시퀀스 정보를 합산하여 품사 태깅하는 단계를 포함하는 것을 특징으로 한다.The morpheme parts-of-speech tagging method using a rhyme model according to an aspect of the present invention comprises the steps of: analyzing a morpheme for a text sentence based on a rhyme model for each morpheme part-of-speech sequence; Detecting a rhyme model, comparing a rhyme model for speech with a rhyme model for each morpheme part-of-speech sequence stored in a data storage DB, and determining a morpheme part-of-speech sequence of the rhyme model for speech; And applying a part-of-speech tagging technique to the part-of-speech tagging by summing the parts-of-speech sequence information of the rhyme model for speech.
또한, 본 발명의 다른 관점에 따른 운율 모델을 이용한 형태소 품사 태깅 장치는, 형태소 품사 시퀀스별 운율 모델을 기반으로 텍스트 문장에 대한 형태소를 해석하는 형태소 해석부와, 형태소 해석 결과에 형태소 품사 시퀀스의 존재 여부에 따라 모호성 존재를 결정하는 모호성 판단부와, 모호성이 존재할 경우 음성에 대한 운율 모델을 검출하는 운율모델 검출부와, 음성에 대한 운율 모델과 형태소 품사 시퀀스별 운율 모델간을 비교하여 음성에 대한 운율 모델의 형태소 품사 시퀀스를 결정하는 운율 모델 비교 판단부와, 결정된 형태소 품사 시퀀스 결과에 대해 형태소 품사 태깅 기법을 적용하고, 음성에 대한 운율 모델의 품사 시퀀스 정보를 합산하여 품사 태깅하는 품사 태깅부와, 품사 태깅된 결과를 출력하는 품사태깅 결과 출력부를 포함하는 것을 특징으로 한다.In addition, the morpheme parts-of-speech tagging apparatus using the rhyme model according to another aspect of the present invention, the morpheme analysis unit for analyzing the morphemes for the text sentence based on the rhyme model for each morpheme part-of-speech sequence, the presence of the morpheme parts of speech sequence in the morpheme analysis results A ambiguity determination unit that determines the existence of ambiguity according to whether or not, a rhyme model detection unit that detects a rhyme model for speech when ambiguity exists, and a rhyme for speech by comparing between a rhyme model for speech and a rhyme model for each morpheme part of speech sequence A rhyme model comparison determination unit for determining a morpheme part-of-speech sequence of the model, a part-of-speech tagging unit for applying a morpheme part-of-speech tagging method to the result of the determined morpheme part-of-speech sequence, and summing the part-of-speech sequence information of the rhyme model with respect to speech; A part-of-stage tagging result output unit for outputting a part-of-speech tagged result It is characterized by.
본 발명은 음성인식의 결과 또는 전사한 텍스트문장의 형태소를 해석하고, 해석이 모호한 부분에 대해 음성 DB를 기반으로 기 구축된 형태소 품사 시퀀스별 운율 모델과 입력음성의 운율 모델을 비교하여, 입력음성의 운율 모델에 대한 최적의 형태소 품사 시퀀스를 찾고, 그 찾은 결과를 형태소 품사 태깅 방법과 조합시켜 형태소 품사를 태깅함으로써, 형태소 품사 태깅의 정확도를 극대화시킬 수 있다.The present invention analyzes the result of speech recognition or the morpheme of the transcribed text sentence, and compares the rhyme model of the morpheme parts of speech sequence based on the speech DB and the rhyme model of the input speech for the ambiguous part. The accuracy of morpheme parts-of-speech tagging can be maximized by finding the optimal morpheme parts-of-speech sequence for the rhyme model and tagging the morpheme parts-of-speech by combining the findings with the morpheme parts-of-speech tagging method.
또한, 본 발명은 운율 모델을 적용하여 형태소 품사를 태깅함으로써, 화자의 발성 의도를 파악할 수 있는 이점이 있다. In addition, the present invention has the advantage that it is possible to grasp the speaker's intention by tagging the morpheme parts of speech by applying the rhyme model.
이하, 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. Hereinafter, with reference to the accompanying drawings will be described in detail the operating principle of the present invention. In the following description of the present invention, when it is determined that a detailed description of a known function or configuration may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted. Terms to be described later are terms defined in consideration of functions in the present invention, and may be changed according to intentions or customs of users or operators. Therefore, the definition should be based on the contents throughout this specification.
도 2는 본 발명의 일 실시예에 따른 운율 모델을 이용한 형태소 품사 태깅 장치에 대한 블록 구성도로서, 텍스트 및 음성 입력부(201)와 형태소 해석부(203)와 모호성 판단부(205)와 운율 모델 검출부(207)와 운율 모델 비교 판단부(209)와 품사 태깅부(211)와 품사 태깅 결과 출력부(213)와 음성 DB(215)와 전사한 텍스트 DB(217)와 형태소 품사 태깅 DB(219)와 형태소 품사 시퀀스별 운율 모델 구축부(221)와 데이터 저장 DB(223)를 포함할 수 있다.2 is a block diagram of a morpheme part-of-speech tagging apparatus using a rhyme model according to an embodiment of the present invention, and includes a text and
텍스트 및 음성 입력부(201)는 텍스트 및 음성을 입력받아 형태소 해석부(203)에 제공할 수 있다.The text and
형태소 해석부(203)는 데이터 저장 DB(223)에 저장된 형태소 품사 시퀀스별 운율 모델을 기반으로 텍스트 및 음성 입력부(201)로부터 입력되는 텍스트 및 음성중 텍스트 문장에 대해 분석 가능한 모든 형태소들의 리스트를 생성하면서 해석하여 모호성 판단부(205)에 제공할 수 있다.The
모호성 판단부(205)는 형태소 해석부(203)의 형태소 해석 결과에 대해 기 구축된 형태소 품사 시퀀스별 운율 모델에 존재하는 형태소 품사 시퀀스가 형태소 해석 결과에 존재하는지를 판단하고, 그 판단 결과를 운율 모델 검출부(207)에 제공할 수 있다.The
운율 모델 검출부(207)는 모호성 판단부(205)로부터 입력되는 판단결과에서 모호성이 존재할 경우, 입력된 음성으로부터 형태소 품사 시퀀스별 운율 모델을 검출한 음성에 대한 운율 모델을 운율 모델 비교 판단부(209)에 제공할 수 있다.If there is ambiguity in the determination result input from the
운율 모델 비교 판단부(209)는 운율 모델 검출부(207)로부처 입력되는 음성에 대한 운율 모델과 데이터 저장 DB(223)에 저장된 형태소 품사 시퀀스별 운율 모델간을 비교하여 입력된 음성의 운율 모델에 대한 최적의 형태소 품사 시퀀스를 결정하여 품사 태깅부(211)에 제공할 수 있다. The rhyme model
품사 태깅부(211)는 운율 모델 비교 판단부(209)에 의해 결정된 최적의 형태소 품사 시퀀스 결과인 결합 가능한 형태소간의 리스트들에 대해 기존의 형태소 품사 태깅 기법을 적용하고, 입력된 음성의 운율 모델에 대한 최적의 품사 시퀀스 정보를 찾아 이를 더해줌으로서, 즉 수학식 1The part-of-
(여기서, 는 통계 기반 품사 태깅에 주로 사용되는 기존 공식으로, 형태소 품사 태깅 방법은 은닉 마르코프 모델(HMM)을 사용하며, P는 최적의 형태소 품사열을 의미하고, Wi는 i번째 단어를 의미하며, Pi는 Wi의 태그를 의미하며, dj는 운율 모델을 의미하며, sj는 형태소 품사 시퀀스를 의미하며, Pd(dj│sj)는 형태소 품사 시퀀스에 대한 입력된 음성의 운율 모델과 기 구축된 형태소 품사 시퀀스별 운율 모델을 비교한 확률을 의미하며, C는 상수로 기존공식에 비교 결과를 어느 정도 적용할 것인지를 결정하는 것을 의미한다.)(here, Is a conventional formula mainly used for statistical-based part-of-speech tagging. The morpheme part-of-speech tagging method uses the Hidden Markov Model (HMM), P is the optimal morphological part-of-speech sequence, W i is the i-th word, and P i stands for the tag of W i , d j stands for the rhyme model, s j stands for the morpheme parts of speech sequence, and Pd (d j | s j ) is the rhyme model of the input voice for the morpheme parts of speech sequence. It means the probability of comparing the rhyme model for each pre-formed morpheme parts of speech sequence, and C is a constant to determine how much the comparison result is applied to the existing formula.)
을 이용하여 품사결정 태깅을 수행하여 품사 태깅 결과 출력부(213)에 제공할 수 있다. The part-of-speech tagging result may be provided to the part-of-speech tagging
품사 태깅 결과 출력부(213)는 품사 태깅부(211)로부터 입력되는 품사결정 태깅 결과를 출력할 수 있다.The part-of-speech tagging
음성 DB(215)는 음성을 저장하고, 전사한 텍스트 DB(217)는 음성 DB(215)에 저장된 음성을 전사한 텍스트를 저장하며, 형태소 품사 태깅 DB(219)는 전사한 텍스트 DB(217)에 저장된 전사한 텍스트에 대한 형태소 품사 태깅을 저장할 수 있다. The voice DB 215 stores the voice, the transcribed text DB 217 stores the transcribed text stored in the
형태소 품사 시퀀스별 운율 모델 구축부(221)는 음성 DB(215)와 이를 전사한 텍스트 DB(217), 전사한 텍스트에 대한 형태소 품사 태깅 DB(219)를 읽어, 형태소 품사 태깅의 모호성이 발생하는 형태소 품사 시퀀스들을 찾는데, 즉 음성 DB(215)에서 형태소 품사 시퀀스들에 대한 음성구간을 찾고, 운율 정보를 수집하고, 수집된 운율 정보에서 형태소 품사 시퀀스들을 구분할 수 있는 하나 이상의 운율의 속성(예컨대, 피치와 음성의 길이와 끊어 읽기 정보와 음성의 강세와 에너지 중 어느 하나임.)들을 찾고, 이를 바탕으로 형태소 품사 시퀀스별로 각각 운율 모델을 구축하여 데이터 저장 DB(223)에 제공할 수 있다. The morpheme part-of-sequence rhyme
일 예로, 음성인식 결과가 “나는 새를 보았다”일 경우, 예1) 및 예2)For example, when the voice recognition result is "I saw a bird", Examples 1) and 2)
예1) 나/인칭대명사 는/조사 새/명사 를/조사 보/동사 았/어미 다/어미Example 1) I / person pronoun / investigative bird / noun / investigation assistant / verb
예2) 나/동사 는/관형형어미 새/명사 를/조사 보/동사 았/어미 다/어미Ex 2) I / verb / tubular mother bird / noun / investigative report / verb / mother / mother
에 대하여 형태소 품사 시퀀스별 운율 모델 구축 과정을 설명할 수 있다. It can explain the process of building a rhyme model for each morpheme part-of-speech sequence.
즉, 예1)과 예2)에 대해 모호성이 발생하는 형태소 품사 시퀀스인 “나/인칭대명사 는/조사”와 “나/동사 는/관형형어미”를 찾고, 모든 음성 DB(215)에서 두 가지 형태소 해석에 해당하는 음성구간을 찾고, 이에 대한 운율 정보를 수집하고, 이 수집된 운율 정보에서 “나는”의 해석 모호성을 구분할 수 있는 운율의 속성인 피치와 끊어 읽기 정보를 찾는다. 즉 “나/인칭대명사 는/조사”와 “나/동사 는/관형형어미”에 대해 각각 피치와 끊어 읽기 정보를 활용한 운율 모델을 구축할 수 있다.In other words, look for the morpheme parts of speech sequence ambiguity for Examples 1) and 2), “I / person pronoun / investigation” and “I / verb / tubular mother”, and in all
데이터 저장 DB(223)는 형태소 품사 시퀀스별 운율 모델 구축부(221)로부터 입력되는 형태소 품사 시퀀스별 운율 모델을 저장할 수 있다. The
따라서, 본 발명은 음성인식의 결과 또는 전사한 텍스트문장의 형태소를 해석하고, 해석이 모호한 부분에 대해 음성 DB를 기반으로 기 구축된 형태소 품사 시퀀스별 운율 모델과 입력음성의 운율 모델을 비교하여, 입력음성의 운율 모델에 대한 최적의 형태소 품사 시퀀스를 찾고, 그 찾은 결과를 형태소 품사 태깅 방법과 조합시켜 형태소 품사를 태깅함으로써, 형태소 품사 태깅의 정확도를 극대화시킬 수 있다.Accordingly, the present invention analyzes the result of speech recognition or the morpheme of the transcribed text sentence, and compares the rhyme model for each morpheme parts of speech sequence based on the speech DB and the rhyme model of the input speech for the ambiguous part of the interpretation, The accuracy of the morpheme parts-of-speech tagging can be maximized by finding the optimal morpheme parts-of-speech sequence for the input speech rhyme model and tagging the morpheme parts-of-speech by combining the results with the morpheme parts-of-speech tagging method.
다음에, 상술한 바와 같은 구성을 갖는 본 실시 예에서 운율 모델을 이용한 형태소 품사 태깅 과정에 대하여 설명한다. Next, the morpheme part-of-speech tagging process using the prosody model in the present embodiment having the above-described configuration will be described.
도 3은 본 발명의 일 실시예에 따른 운율 모델을 이용한 형태소 품사 태깅 방법에 대하여 순차적으로 도시한 흐름도이다.3 is a flowchart sequentially illustrating a morpheme POS tagging method using a rhyme model according to an embodiment of the present invention.
먼저, 음성 DB(215)에는 음성이 저장되어 있고, 전사한 텍스트 DB(217)에는 음성 DB(215)에 저장된 음성을 전사한 텍스트를 저장하며, 형태소 품사 태깅 DB(219)에서는 전사한 텍스트 DB(217)에 저장된 전사한 텍스트에 대한 형태소 품사 태깅을 저장할 수 있다. First, a voice is stored in the
상술한 바와 같이 저장된 상태에서, 형태소 품사 시퀀스별 운율 모델 구축부(221)에서는 음성 DB(215)와 이를 전사한 텍스트 DB(217), 전사한 텍스트에 대한 형태소 품사 태깅 DB(219)를 읽어, 형태소 품사 태깅의 모호성이 발생하는 형태소 품사 시퀀스들을 찾는데, 즉 음성 DB(215)에서 형태소 품사 시퀀스들에 대한 음성구간을 찾고, 운율 정보를 수집하고, 수집된 운율 정보에서 형태소 품사 시퀀스들을 구분할 수 있는 하나 이상의 운율의 속성(예컨대, 피치, 음성의 길이, 끊어 읽기 정보 등)들을 찾고, 이를 바탕으로 형태소 품사 시퀀스별로 각각 운율 모델을 구축하여 데이터 저장 DB(223)에 저장(S301)할 수 있다. In the stored state, as described above, the rhythm model-specific rhyme
이러한 상태에서, 텍스트 및 음성이 입력(S303)될 경우, 텍스트 및 음성 입력부(201)에서는 외부로부터 텍스트 및 음성을 입력받아 형태소 해석부(203)에 제공할 수 있다.In this state, when text and voice are input (S303), the text and
그러면, 형태소 해석부(203)에서는 데이터 저장 DB(223)에 저장된 형태소 품사 시퀀스별 운율 모델을 기반으로 텍스트 및 음성 입력부(201)로부터 입력되는 텍스트 및 음성중 텍스트 문장에 대해 분석 가능한 모든 형태소들의 리스트를 생성하면서 해석(S305)하여 모호성 판단부(205)에 제공할 수 있다.Then, the
모호성 판단부(205)에서는 형태소 해석부(203)의 형태소 해석 결과에 대해 기 구축된 형태소 품사 시퀀스별 운율 모델에 존재하는 형태소 품사 시퀀스가 형태소 해석 결과에 존재하는지를 판단(S307)한다.The
상기 판단(S307)결과, 형태소 해석 결과에 존재하지 않으면 모호성이 존재하지 않는 것으로 판단(S309)하고 이어서 단계 S317의 품사결정 태깅을 수행하는 반면에, 상기 판단(S307)결과, 형태소 해석 결과에 존재하면 모호성이 존재하는 것으로 판단(S311)하고, 그 판단 결과를 운율 모델 검출부(207)에 제공할 수 있다.If the result of the determination (S307) does not exist in the morpheme analysis result, it is determined that ambiguity does not exist (S309), and then the part-of-speech decision tagging of step S317 is performed, while the determination (S307) results in the morpheme analysis result. If it is determined that there is ambiguity (S311), the determination result may be provided to the rhythm
운율 모델 검출부(207)에서는 모호성 판단부(205)로부터 입력되는 판단결과 중 모호성이 존재할 경우, 입력된 음성으로부터 형태소 품사 시퀀스별 운율 모델을 검출(S313)하고, 이 검출된 음성에 대한 운율 모델을 운율 모델 비교 판단부(209)에 제공할 수 있다.If there is ambiguity among the determination results input from the
운율 모델 비교 판단부(209)에서는 운율 모델 검출부(207)로부처 입력되는 음성에 대한 운율 모델과 데이터 저장 DB(223)에 저장된 형태소 품사 시퀀스별 운율 모델간을 비교하여 입력된 음성의 운율 모델에 대한 최적의 형태소 품사 시퀀스를 결정(S315)하여 품사 태깅부(211)에 제공할 수 있다. The rhyme model
품사 태깅부(211)에서는 운율 모델 비교 판단부(209)에 의해 결정된 최적의 형태소 품사 시퀀스 결과인 결합 가능한 형태소간의 리스트들에 대해 기존의 형태소 품사 태깅 기법을 적용하고, 입력된 음성의 운율 모델에 대한 최적의 품사 시퀀스 정보를 찾아 이를 더해줄 수 있는 상술한 수학식 1을 이용하여 품사결정 태깅(S317)을 수행하여 품사 태깅 결과 출력부(213)를 통해 출력(S319)할 수 있다. 여기서, 운율 모델은, 어절에 따라 구하거나, 구나 절 단위까지 확장하여 구할 수 있다. The part-of-
이상에서와 같이 본 발명은 운율 모델을 적용하여 형태소 품사를 태깅함으로써, 화자의 발성 의도를 파악할 수 있다. As described above, the present invention can grasp the speaker's intention by tagging the morpheme parts of speech by applying a prosody model.
한편, 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다. Meanwhile, in the detailed description of the present invention, specific embodiments have been described, but various modifications are possible without departing from the scope of the present invention. Therefore, the scope of the present invention should not be limited to the described embodiments, but should be defined not only by the scope of the following claims, but also by those equivalent to the scope of the claims.
도 1은 음성파일을 나타낸 도면, 1 is a view showing a voice file,
도 2는 본 발명의 일 실시예에 따른 운율 모델을 이용한 형태소 품사 태깅 장치에 대한 블록 구성도,2 is a block diagram of a morpheme POS tagging device using a rhyme model according to an embodiment of the present invention;
도 3은 본 발명의 일 실시예에 따른 운율 모델을 이용한 형태소 품사 태깅 방법에 대하여 순차적으로 도시한 흐름도.3 is a flowchart sequentially illustrating a morpheme part-of-speech tagging method using a rhyme model according to an embodiment of the present invention.
<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>
201 : 텍스트 및 음성 입력부 203 : 형태소 해석부201: text and voice input unit 203: morpheme analysis unit
205 : 모호성 판단부 207 : 운율 모델 검출부205: ambiguity determination unit 207: rhyme model detection unit
209 : 운율 모델 비교 판단부 211 : 품사 태깅부209: Rhythm model comparison determination unit 211: Part of speech tagging unit
213 : 품사 태깅 결과 출력부 215 : 음성 DB213: Part of speech tagging result output unit 215: Voice DB
217 : 전사한 텍스트 DB 219 : 형태소 품사 태깅 DB217: Transcript text DB 219: Morphological part-of-speech tagging DB
221 : 형태소 품사 시퀀스별 운율 모델 구축부221: rhyme part-of-speech sequence rhyme model construction unit
223 : 데이터 저장 DB223: data storage DB
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080127710A KR101025814B1 (en) | 2008-12-16 | 2008-12-16 | Method for tagging morphology by using prosody modeling and its apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080127710A KR101025814B1 (en) | 2008-12-16 | 2008-12-16 | Method for tagging morphology by using prosody modeling and its apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100069120A KR20100069120A (en) | 2010-06-24 |
KR101025814B1 true KR101025814B1 (en) | 2011-04-04 |
Family
ID=42367274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080127710A KR101025814B1 (en) | 2008-12-16 | 2008-12-16 | Method for tagging morphology by using prosody modeling and its apparatus |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101025814B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095204A (en) * | 2014-04-17 | 2015-11-25 | 阿里巴巴集团控股有限公司 | Method and device for obtaining synonym |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101373053B1 (en) * | 2010-07-06 | 2014-03-11 | 한국전자통신연구원 | Apparatus for sentence translation and method thereof |
CN104346382B (en) * | 2013-07-31 | 2017-08-29 | 香港理工大学 | Use the text analysis system and method for language inquiry |
KR102199444B1 (en) | 2014-11-24 | 2021-01-07 | 에스케이텔레콤 주식회사 | Method for reasoning of semantic robust on speech recognition error |
KR102117082B1 (en) * | 2014-12-29 | 2020-05-29 | 삼성전자주식회사 | Method and apparatus for speech recognition |
CN104965820A (en) * | 2015-07-17 | 2015-10-07 | 苏州大学张家港工业技术研究院 | Coupling part-of-speech tagging method based on heterogeneous database |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040015471A (en) * | 2002-08-13 | 2004-02-19 | 에스엘투(주) | System and Method for transmitting voice message converted from e-mail message |
KR20040055288A (en) * | 2002-12-20 | 2004-06-26 | 한국전자통신연구원 | Method for tagging for prosodic module of speech synthesizer in Korean |
KR100764174B1 (en) | 2006-03-03 | 2007-10-08 | 삼성전자주식회사 | Apparatus for providing voice dialogue service and method for operating the apparatus |
-
2008
- 2008-12-16 KR KR1020080127710A patent/KR101025814B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040015471A (en) * | 2002-08-13 | 2004-02-19 | 에스엘투(주) | System and Method for transmitting voice message converted from e-mail message |
KR20040055288A (en) * | 2002-12-20 | 2004-06-26 | 한국전자통신연구원 | Method for tagging for prosodic module of speech synthesizer in Korean |
KR100764174B1 (en) | 2006-03-03 | 2007-10-08 | 삼성전자주식회사 | Apparatus for providing voice dialogue service and method for operating the apparatus |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095204A (en) * | 2014-04-17 | 2015-11-25 | 阿里巴巴集团控股有限公司 | Method and device for obtaining synonym |
Also Published As
Publication number | Publication date |
---|---|
KR20100069120A (en) | 2010-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Reshamwala et al. | Review on natural language processing | |
US6243669B1 (en) | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation | |
US8566076B2 (en) | System and method for applying bridging models for robust and efficient speech to speech translation | |
KR101253104B1 (en) | Database building apparatus and its method, it used speech understanding apparatus and its method | |
KR101025814B1 (en) | Method for tagging morphology by using prosody modeling and its apparatus | |
Ananthakrishnan et al. | An automatic prosody recognizer using a coupled multi-stream acoustic model and a syntactic-prosodic language model | |
Hakkinen et al. | N-gram and decision tree based language identification for written words | |
Gandhe et al. | Using web text to improve keyword spotting in speech | |
Prochazka et al. | Performance of Czech Speech Recognition with Language Models Created from Public Resources. | |
Chien | Association pattern language modeling | |
Wang et al. | RNN-based prosodic modeling for mandarin speech and its application to speech-to-text conversion | |
Godard | Unsupervised word discovery for computational language documentation | |
KR101757222B1 (en) | Paraphrase sentence generation method for a korean language sentence | |
KR101134455B1 (en) | Speech recognition apparatus and its method | |
Patel et al. | An Automatic Speech Transcription System for Manipuri Language. | |
KR101069534B1 (en) | Method and apparatus for searching voice data from audio and video data under the circumstances including unregistered words | |
JP3088364B2 (en) | Spoken language understanding device and spoken language understanding system | |
KR101072890B1 (en) | Database regularity apparatus and its method, it used speech understanding apparatus and its method | |
JP2008242059A (en) | Device for creating speech recognition dictionary, and speech recognition apparatus | |
KR20040018008A (en) | Apparatus for tagging part of speech and method therefor | |
Win et al. | Review and perspectives of natural language processing for speech recognition | |
JP2001117583A (en) | Device and method for voice recognition, and recording medium | |
Tao | Acoustic and linguistic information based Chinese prosodic boundary labelling | |
JP2005345846A (en) | Pause location predicting device for input text | |
KR100959494B1 (en) | Voice Synthesizer and Its Method using Processing Not registered Word |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130730 Year of fee payment: 18 |