KR100989500B1 - Method For Sharing Speech recognition parameter - Google Patents

Method For Sharing Speech recognition parameter Download PDF

Info

Publication number
KR100989500B1
KR100989500B1 KR1020040005344A KR20040005344A KR100989500B1 KR 100989500 B1 KR100989500 B1 KR 100989500B1 KR 1020040005344 A KR1020040005344 A KR 1020040005344A KR 20040005344 A KR20040005344 A KR 20040005344A KR 100989500 B1 KR100989500 B1 KR 100989500B1
Authority
KR
South Korea
Prior art keywords
speech recognition
voice
parameter
vxml
grammar
Prior art date
Application number
KR1020040005344A
Other languages
Korean (ko)
Other versions
KR20050077442A (en
Inventor
김학균
김문식
김희경
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020040005344A priority Critical patent/KR100989500B1/en
Publication of KR20050077442A publication Critical patent/KR20050077442A/en
Application granted granted Critical
Publication of KR100989500B1 publication Critical patent/KR100989500B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Abstract

본 발명은 보이스 엑스엠엘 문서에서 음성인식 파라미터 설정 방법에 관한 것으로, VXML 문서에 음성인식 파라미터를 설정하고 제어할 수 있는 속성을 추가하여, 서비스 도메인에 특화된 HMM 파라미터를 선택적으로 사용할 수 있도록 함으로써, VXML 기반 시스템에서 인식 성능을 향상시키기 위한 VXML 문서에서 음성인식 파라미터 설정 방법을 제공하고자 함.The present invention relates to a voice recognition parameter setting method in a voice XML document. By adding an attribute for setting and controlling voice recognition parameters to a VXML document, VXML can be selectively used by using a service domain-specific HMM parameter. To provide a method for setting speech recognition parameters in a VXML document to improve the recognition performance in the base system.

이를 위하여, 본 발명은, 음성인식 시스템에서의 음성인식 파라미터 설정 방법에 있어서, 보이스 엑스엠엘(VXML) 문서의 음성인식 그래마 설정 태그(그래마 태그)에 음성인식 파라미터를 설정할 수 있는 속성(hmmtype)을 추가하고, 상기 추가된 속성의 속성값으로 음성인식기가 사용해야 하는 음성인식 파라미터의 앨리어스명(alias name)을 할당하는 속성할당단계; VXML 해석기가 VXML 시나리오를 해석하여 음성인식 그래마를 추출하고 속성값을 추출한 후, 상기 음성인식기로 전달하는 정보추출단계; 및 상기 음성인식기가 음석인식 그래마를 해석하고, 속성값의 앨리어스명에 대한 실제 음성인식 파라미터를 앨리어스 테이블로부터 얻어와, 해당 음성인식 파라미터를 활성화시키는 음성인식 파라미터 활성화단계를 포함하며, VXML 음성인식 시스템 등에 이용된다.To this end, the present invention, in the voice recognition parameter setting method in the voice recognition system, the attribute (hmmtype) that can set the voice recognition parameters in the voice recognition grammar setting tag (grammar tag) of the voice XML (VXML) document A) and assigning an alias name of a speech recognition parameter to be used by the speech recognizer as an attribute value of the added attribute; An information extraction step of analyzing, by the VXML interpreter, the VXML scenario, extracting a speech recognition grammar, extracting attribute values, and transmitting the extracted attribute value to the speech recognizer; And a speech recognition parameter activating step of interpreting the speech recognition grammar, obtaining the actual speech recognition parameter for the alias name of the attribute value from the alias table, and activating the speech recognition parameter. And the like.

VXML, 음성인식, 음성인식 그래마, 음성인식 파라미터, HMM 파라미터, hmmtypeVXML, speech recognition, speech recognition grammar, speech recognition parameters, HMM parameters, hmmtype

Description

음성인식 파라미터 공유 방법{Method For Sharing Speech recognition parameter}Method for Sharing Speech recognition parameter

도 1 은 일반적인 보이스 엑스엠엘(VXML) 기반 음성 인터페이스 시스템의 구성 예시도.1 is a configuration example of a general voice XML (VXML) based voice interface system.

도 2 는 상기 도 1의 음성인식기의 구성요소를 나타낸 설명도.2 is an explanatory diagram showing components of the voice recognizer of FIG.

도 3 은 본 발명에 이용되는 음성인식기가 관리하는 HMM 파라미터 앨리어스(alias) 테이블을 나타낸 일실시예 설명도.3 is a diagram illustrating an embodiment of an HMM parameter alias table managed by a voice recognizer used in the present invention.

도 4 는 본 발명에 따른 보이스 엑스엠엘(VXML) 문서에서 음성인식 파라미터 설정 방법에 대한 일실시예 흐름도.
4 is a flowchart illustrating a method of setting a voice recognition parameter in a voice XML document according to the present invention.

* 도면의 주요 부분에 대한 부호 설명* Explanation of symbols on the main parts of the drawing

11 : 전화망 인터페이스부 12 : VXML 해석기11 telephone network interface 12 VXML interpreter

13 : 음성인식기 14 : 음성합성기13: voice recognizer 14: voice synthesizer

15 : 기타 툴
15: other tools

본 발명은 보이스 엑스엠엘(VXML : Voice eXtensible Markup Language) 문서에서 음성인식 파라미터 설정 방법에 관한 것으로, 특히 VXML 문서에 음성인식 파라미터를 설정하고 제어할 수 있는 속성(hmmtype)을 추가하여, VXML 기반 시스템에서 인식 성능을 향상시킬 수 있도록 하는 것이다.The present invention relates to a method for setting voice recognition parameters in a Voice XML Markup Language (VXML) document. In particular, a VXML-based system is provided by adding a property (hmmtype) to set and control voice recognition parameters in a VXML document. Is to improve the recognition performance.

보이스 엑스엠엘(VXML)은 "AT&T", "MOTOROLA", "IBM" 등으로 구성된 VXML Forum이 제안한 음성 입출력 기반의 음성서비스 시나리오 개발의 표준이며, 음성인식 및 합성기술을 이용하여 인터넷의 풍부한 정보를 음성 입출력이 가능한 대화형 음성서비스 형태로 제공한다. 또한, 웹 기반 기술을 음성서비스에 접목시킬 수 있으며, 다양한 서비스를 쉽고 빠르게 제공할 수 있는 환경을 제공한다.Voice XML (VXML) is a standard for developing voice input / output based voice service scenario proposed by VXML Forum composed of "AT & T", "MOTOROLA", "IBM", etc. It is provided in the form of interactive voice service capable of voice input and output. In addition, web-based technology can be incorporated into voice services, providing an environment that can easily and quickly provide a variety of services.

이러한 장점에도 불구하고, VXML 스펙은 음성인식 그래마(grammar)를 위한 태그 및 속성만을 가질 뿐, 음성인식 파라미터를 설정하고 제어할 수 있는 속성을 가지고 있지 않다.Despite these advantages, the VXML specification only has tags and attributes for speech recognition grammars and no attributes for setting and controlling speech recognition parameters.

이를 구체적으로 살펴보면, 통상 음성인식기는 음성인식 그래마 이외에도 일반적으로 HMM(Hidden Markov Model) 파라미터라 불리는 음성인식 파라미터를 사용한다. 이 음성인식 파라미터는 서비스의 도메인(증권, 이름 등)에 따라 최적화되도록 만들어져 사용되며, 따라서 상용 음성인식 서비스는 서비스의 도메인에 최적화된 인식 파라미터를 선택적으로 사용하여 음성인식 성능을 극대화시키고 있다. 하지만, VXML 기반 음성인식 서비스는 음성인식 파라미터를 설정할 수 있는 속성을 가지고 있지 못해, 항상 단일한 음성인식 파라미터를 사용해야 하는 단점이 있다. 따라서 VXML 문서에 음성인식 파라미터를 설정하고 제어할 수 있는 속성을 추가하여, 인식 성능을 향상시킬 수 있는 방안이 절실히 요구된다.Specifically, in addition to the speech recognition grammar, a speech recognizer generally uses a speech recognition parameter called a HMM (Hidden Markov Model) parameter. This speech recognition parameter is made and used to be optimized according to the domain of the service (securities, name, etc.). Therefore, the commercial speech recognition service maximizes the speech recognition performance by selectively using recognition parameters optimized for the service domain. However, VXML-based speech recognition service does not have a property that can set the speech recognition parameters, there is a disadvantage that always use a single speech recognition parameter. Therefore, there is an urgent need for a method for improving recognition performance by adding attributes for setting and controlling speech recognition parameters in a VXML document.

즉, 기존 상용 음성인식 서비스는 VXML 이외의 개발업체의 독자적인 시나리오 개발툴을 이용해 구현되었다. 이러한 상용 서비스는 음성인식 성능 향상을 위해 특정 도메인(증권, 이름)에 따라 서로 다른 HMM 파라미터를 사용한다. 예를 들어, 상장 기업들의 이름을 통해 특화 훈련된 HMM 파라미터를 사용할 경우, 상장 기업의 이름에 대해서는 훌륭한 인식 성능을 보인다. 이 경우 독자적인 시나리오 개발툴을 이용하기 때문에, 음성인식 성능에 따라 얼마든지 HMM 파라미터를 선택적으로 변경할 수 있다. 반면, VXML 기반 서비스는 개방적인 형태의 서비스 시나리오로서 다양한 서비스 시나리오의 표현이 가능하지만, 음성인식 파라미터를 설정할 수 있는 속성을 제공하지 못한다. 따라서 서비스 도메인에 특화된 HMM 파라미터를 선택적으로 사용할 수 없는 문제점이 있었다(하기의 도 1 및 도 2 참조).In other words, the existing commercial voice recognition service was implemented by using the developer's own scenario development tool other than VXML. These commercial services use different HMM parameters according to specific domains (securities, names) to improve voice recognition performance. For example, when using HMM parameters that are specifically trained through the names of publicly traded companies, the publicly recognized names of publicly traded companies are excellent. In this case, since the original scenario development tool is used, HMM parameters can be selectively changed according to the voice recognition performance. On the other hand, VXML-based services are open service scenarios that can represent various service scenarios, but do not provide properties for setting voice recognition parameters. Therefore, there is a problem that the HMM parameter specialized for the service domain cannot be selectively used (see FIGS. 1 and 2 below).

본 발명은, 상기와 같은 문제점을 해결하기 위하여 제안된 것으로, VXML 문서에 음성인식 파라미터를 설정하고 제어할 수 있는 속성을 추가하여, 서비스 도메인에 특화된 HMM 파라미터를 선택적으로 사용할 수 있도록 함으로써, VXML 기반 시스템에서 인식 성능을 향상시키기 위한 VXML 문서에서 음성인식 파라미터 설정 방법을 제공하는데 그 목적이 있다.The present invention is proposed to solve the above problems, by adding a property that can set and control the speech recognition parameters to the VXML document, by selectively using the service domain-specific HMM parameters, VXML-based The purpose of the present invention is to provide a voice recognition parameter setting method in a VXML document to improve recognition performance in a system.

상기 목적을 달성하기 위한 본 발명은, 음성인식 시스템에서의 음성인식 파라미터 설정 방법에 있어서, 보이스 엑스엠엘(VXML) 문서의 음성인식 그래마 설정 태그(그래마 태그)에 음성인식 파라미터를 설정할 수 있는 속성(hmmtype)을 추가하고, 상기 추가된 속성의 속성값으로 음성인식기가 사용해야 하는 음성인식 파라미터의 앨리어스명(alias name)을 할당하는 속성할당단계; VXML 해석기가 VXML 시나리오를 해석하여 음성인식 그래마를 추출하고 속성값을 추출한 후, 상기 음성인식기로 전달하는 정보추출단계; 및 상기 음성인식기가 음석인식 그래마를 해석하고, 속성값의 앨리어스명에 대한 실제 음성인식 파라미터를 앨리어스 테이블로부터 얻어와, 해당 음성인식 파라미터를 활성화시키는 음성인식 파라미터 활성화단계를 포함한다.In order to achieve the above object, the present invention provides a voice recognition parameter setting method in a voice recognition system, wherein a voice recognition parameter can be set in a voice recognition grammar setting tag (grammar tag) of a voice XML document. An attribute assignment step of adding an attribute (hmmtype) and assigning an alias name of a speech recognition parameter to be used by the speech recognizer as an attribute value of the added attribute; An information extraction step of analyzing, by the VXML interpreter, the VXML scenario, extracting a speech recognition grammar, extracting attribute values, and transmitting the extracted attribute value to the speech recognizer; And a speech recognition parameter activating step of interpreting the speech recognition grammar by obtaining the actual speech recognition parameter for the alias name of the attribute value from the alias table and activating the speech recognition parameter.

또한, 본 발명은 상기 정보추출단계 수행 후에, 상기 음성인식기가 음석인식 그래마를 해석하고, 속성값의 앨리어스명에 대한 음성인식 파라미터가 설정되어 있지 않은 경우에 디폴트 음성인식 파라미터를 활성화시키는 디폴트 음성인식 파라미터 활성화단계를 더 포함한다.In addition, the present invention, after performing the information extraction step, the speech recognizer interprets the speech recognition grammar, and the default speech recognition to activate the default speech recognition parameter when the speech recognition parameter for the alias name of the attribute value is not set It further comprises a parameter activation step.

본 발명은 VXML 문서에 음성인식 파라미터(음성인식기의 HMM 파라미터)를 설정하고 제어할 수 있는 속성을 추가하여, VXML 기반 시스템에서 인식 성능을 극대화하고자 한다.The present invention aims to maximize recognition performance in a VXML-based system by adding an attribute for setting and controlling a speech recognition parameter (HMM parameter of a speech recognizer) to a VXML document.

이를 위해, 본 발명은 서비스 시나리오 개발자가 서비스의 특정 음성인식 부분에 특정 HMM 파라미터를 지정할 수 있도록 VXML 스펙 표준에 새 기능을 추가한다. 즉, VXML의 <grammar> 태그에 hmmtype이라 명명된 속성을 추가한다. 이 hmmtype 값(value)으로는 음성인식기가 사용해야 하는 HMM 파라미터의 alias name을 할당한다.To this end, the present invention adds new functionality to the VXML specification standard that allows service scenario developers to specify specific HMM parameters in specific speech recognition portions of the service. That is, add an attribute named hmmtype to the <grammar> tag of VXML. This hmmtype value is assigned the alias name of the HMM parameter that the voice recognizer should use.

상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.The above-mentioned objects, features and advantages will become more apparent from the following detailed description in conjunction with the accompanying drawings. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1 은 일반적인 보이스 엑스엠엘(VXML) 기반 음성 인터페이스 시스템의 구성 예시도이다.1 is an exemplary configuration diagram of a general voice XML (VXML) -based voice interface system.

도 1에 도시된 바와 같이, VXML 기반의 음성 인터페이스 시스템은 전화망 인터페이스부(11), VXML 문서를 해석하여 VXML 시나리오에 따라 음성인식기(13) 및 음성합성기(14) 등을 활성화시키는 VXML 해석기(12), 음성인식기(13), 음성합성기(14) 및 기타 툴(15)로 이루어져, VXML 시나리오에 따라 사용자 단말기를 통해 입력된 사용자의 음성을 인식하여 처리한다.As shown in FIG. 1, the VXML-based voice interface system interprets the telephone network interface unit 11, the VXML document, and activates the voice recognizer 13, the voice synthesizer 14, and the like according to the VXML scenario. ), A voice recognizer 13, a voice synthesizer 14 and other tools 15 to recognize and process the voice of the user input through the user terminal according to the VXML scenario.

상기 사용자 단말기로는 음성통신이 가능한 일반 유무선 전화기뿐만 아니라, 셀룰러폰 혹은 PCS폰 등의 이동통신 단말기, IMT-2000(International Mobile Telecommunication), UMTS(Universal Mobile Telecommunication Service) 등과 같은 차세대 이동통신 단말기, 개인휴대단말기(PDA), 왑(WAP) 단말기, 웹(WEB) 단말기 등이 될 수 있으며, 음성통신이 가능한 한, 그 종류에 구애를 받지 않는다.The user terminal is not only a general wired / wireless telephone capable of voice communication, but also a mobile communication terminal such as a cellular phone or a PCS phone, a next generation mobile communication terminal such as IMT-2000 (International Mobile Telecommunication), UMTS (Universal Mobile Telecommunication Service), an individual It may be a PDA, a WAP terminal, a WEB terminal, and the like, and voice communication is possible regardless of the type.

VXML 스펙의 <grammar> 태그는 음성인식 그래마를 설정하는 역할을 한다. 이 음성인식 그래마는 사용자가 말할 수 있는 후보 어휘라고 할 수 있으며, 음성인식은 사용자가 발화한 음성에 대한 것과 가장 비슷한 후보 어휘를 찾는 것을 의미한다.The <grammar> tag in the VXML specification sets the speech recognition grammar. This speech recognition grammar can be said to be a candidate vocabulary that a user can speak, and speech recognition means finding a candidate vocabulary most similar to the speech spoken by the user.

이때, 음성인식기(13)는 도 2에 도시된 바와 같이 음성인식 그래마(22) 이외에도 음성인식 파라미터(21)를 사용한다.In this case, the voice recognizer 13 uses the voice recognition parameter 21 in addition to the voice recognition grammar 22 as shown in FIG. 2.

음성인식 파라미터(21)는 각각의 후보 어휘에 대한 확률 모델을 만드는 역할을 하며, 음성인식기(13)의 필수적인 요소이다. 이 음성인식 파라미터(21)의 대표적인 유형으로 HMM이 있다.The speech recognition parameter 21 serves to create a probabilistic model for each candidate vocabulary and is an essential element of the speech recognizer 13. The representative type of this voice recognition parameter 21 is HMM.

그런데, VXML 스펙은 이러한 음성인식 파라미터(21)를 지정할 수 있는 속성이 없기 때문에, VXML 기반의 음성 인터페이스 시스템은 항상 동일한 음성인식 파라미터를 사용해야만 한다.However, since the VXML specification has no attribute for specifying such speech recognition parameters 21, VXML-based speech interface systems must always use the same speech recognition parameters.

따라서 본 발명은 VXML 시나리오에서 음성인식 파라미터(21)를 설정하고 제어할 수 있는 속성을 추가하고자 한다.Therefore, the present invention intends to add an attribute for setting and controlling the voice recognition parameter 21 in the VXML scenario.

음성인식기(13)는 여러 가지 종류의 특화된 음성인식 파라미터(21)를 가질 수 있다. 예를 들어, 인명을 대상으로 훈련시킨 파라미터, 회사이름을 대상으로 훈련시킨 파라미터 등이 있다. 따라서 이러한 특화된 파라미터를 사용할 경우 더 좋은 인식 성능을 보일 수 있다. 이러한 특징을 반영하기 위해서 하기의 [표 1]의 VXML DTD(Document Type Definition)와 같이 VXML의 <grammar> 태그에 hmmtype이라는 속성을 추가한다.The speech recognizer 13 may have various kinds of specialized speech recognition parameters 21. For example, parameters trained for human names, parameters trained for company names. Thus, using these specialized parameters can provide better recognition performance. To reflect this feature, an attribute called hmmtype is added to the <grammar> tag of the VXML as in the VXML DTD (Document Type Definition) shown in Table 1 below.

Figure 112004003368019-pat00001
Figure 112004003368019-pat00001

hmmtype을 활용한 VXML 시나리오는 하기의 [표 2]와 같다.The VXML scenario using hmmtype is shown in Table 2 below.

[표 2]는 사용자에게 "정보를 듣고자 하는 상장 회사의 이름을 말씀해 주세요"라는 안내방송을 송출한 뒤, 사용자에게 상장 회사의 이름을 받고, 이를 사용자에게 통보해 주는 시나리오이다.[Table 2] is a scenario in which a user tells the user of the name of the listed company after transmitting the announcement "Please tell the name of the listed company to listen to information".

Figure 112004003368019-pat00002
Figure 112004003368019-pat00002

상기 [표 2]의 hmmtype의 앨리어스명(alias name)은 도 3과 같이 음성인식기(13)에서 관리하는 별도의 앨리어스 테이블(alias table)을 참조한다. 도 3의 앨리어스 테이블(alias table)에는 특정 alias name에 대해 실제 HMM 파라미터가 지정되어 있다. 따라서 "증권"이라는 alias name을 사용할 경우, 이에 해당하는 실제 HMM 파라미터 "Stock.hmm"를 alias table을 통해 얻어온 뒤, 해당 HMM 파라미터를 활성화시킨다.The alias name of the hmmtype shown in [Table 2] refers to a separate alias table managed by the voice recognizer 13 as shown in FIG. 3. In the alias table of FIG. 3, actual HMM parameters are specified for a specific alias name. Therefore, when using the alias name "securities", the corresponding HMM parameter "Stock.hmm" is obtained through the alias table, and the corresponding HMM parameter is activated.

도 4 는 본 발명에 따른 보이스 엑스엠엘(VXML) 문서에서 음성인식 파라미터 설정 방법에 대한 일실시예 흐름도로서, 음성인식기(13)와 VXML 문서간의 HMM 파라미터(음성인식 파라미터) 공유 절차를 나타낸다.4 is a flowchart illustrating a method for setting a voice recognition parameter in a voice XML document (VXML) according to the present invention, and illustrates a HMM parameter (voice recognition parameter) sharing procedure between the voice recognizer 13 and the VXML document.

먼저, VXML 해석기(12)는 위 문서(표 2 참조)를 해석하여, 음성인식 그래마(22)를 추출하고(401), hmmtype 정보, 즉 음성인식 파라미터(21) 정보를 추출한 후(402), 음성인식기(13)에 전달한다(403).First, the VXML interpreter 12 interprets the above document (see Table 2), extracts the speech recognition grammar 22 (401), extracts the hmmtype information, that is, the speech recognition parameter 21 information (402). In operation 403, the voice recognizer 13 transmits the voice recognizer 13 to the voice recognizer 13.

이후, 음성인식기(13)는 음석인식 그래마(22)를 해석하고(404), hmmtype 정보의 설정 여부를 판단한다(405).Then, the speech recognizer 13 interprets the speech recognition grammar 22 (404) and determines whether to set the hmmtype information (405).

판단 결과, hmmtype이 없을 경우, 디폴트 hmmtype을 활성화시킨다(408).If it is determined that there is no hmmtype, the default hmmtype is activated (408).

판단 결과, hmmtype이 지정된 경우, 먼저 alias 테이블(도 3 참조)에서 HMM 파라미터를 검색한 뒤(406), 해당 HMM 파라미터를 활성화시킨다(407).As a result of determination, when the hmmtype is specified, the HMM parameter is first retrieved from the alias table (see FIG. 3) (406), and then the corresponding HMM parameter is activated (407).

위와 같은 과정을 거치면서 특정 도메인(증권)에 특화된 HMM 파라미터를 활성화시켜, 인식 성능을 극대화시킬 수 있다.Through the above process, it is possible to maximize the recognition performance by activating the HMM parameter specific to a specific domain (securities).

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.The method of the present invention as described above may be implemented as a program and stored in a computer-readable recording medium (CD-ROM, RAM, ROM, floppy disk, hard disk, magneto-optical disk, etc.).

이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
The present invention described above is not limited to the above-described embodiments and the accompanying drawings, and various substitutions, modifications, and changes are possible in the art without departing from the technical spirit of the present invention. It will be clear to those of ordinary knowledge.

상기한 바와 같은 본 발명은, 음성인식기의 음성인식 그래마 특성 뿐만 아니라, 음성인식 파라미터 특성도 VXML 시나리오에 반영할 수 있어, VXML 기반 시스템에서 음성인식률을 향상시킬 수 있는 효과가 있다.As described above, the present invention can reflect not only the speech recognition grammar characteristics of the speech recognizer, but also the speech recognition parameter characteristics in the VXML scenario, thereby improving the speech recognition rate in the VXML-based system.

Claims (3)

VXML 해석기가 VXML 시나리오를 해석하여 음성인식 그래마를 추출하고 속성값을 추출한 후, 음성인식기로 전달하는 정보추출단계; 및An information extraction step of extracting the speech recognition grammar by extracting the speech recognition grammar, extracting the attribute value, and delivering the speech recognition to the speech recognizer by the VXML interpreter; And 상기 음성인식기가 음성인식 그래마를 해석하고, 속성값의 앨리어스명에 대한 실제 음성인식 파라미터를 앨리어스 테이블로부터 얻어와, 해당 음성인식 파라미터를 활성화시키는 음성인식 파라미터 활성화단계를 포함하며,And a voice recognition parameter activating step of interpreting the voice recognition grammar, obtaining a real voice recognition parameter for an alias name of an attribute value from an alias table, and activating the corresponding voice recognition parameter. 보이스 엑스엠엘(VXML) 문서의 음성인식 그래마 설정 태그(그래마 태그)에 음성인식 파라미터를 설정할 수 있는 속성(hmmtype)이 추가되고, 상기 추가된 속성의 속성값에 음성인식기가 사용해야 하는 음성인식 파라미터의 앨리어스명(alias name)이 할당된 것을 특징으로 하는 음성인식 파라미터 공유 방법.The voice recognition parameter (hmmtype) is added to the voice recognition grammar setting tag (grammar tag) of the voice XML document, and the voice recognition should be used by the voice recognizer to the attribute value of the added attribute. A voice recognition parameter sharing method, characterized in that an alias name of a parameter is assigned. 제 1 항에 있어서,The method of claim 1, 상기 정보추출단계 수행 후에, 상기 음성인식기가 음석인식 그래마를 해석하고, 속성값의 앨리어스명에 대한 음성인식 파라미터가 설정되어 있지 않은 경우에 디폴트 음성인식 파라미터를 활성화시키는 디폴트 음성인식 파라미터 활성화단계After performing the information extraction step, the voice recognizer interprets the voice recognition grammar and activates the default voice recognition parameter when the voice recognition parameter for the alias name of the attribute value is not set. 를 더 포함하는 음성인식 파라미터 공유 방법.Speech recognition parameter sharing method further comprising. 제 1 항 또는 제 2 항에 있어서, The method according to claim 1 or 2, 상기 앨리어스 테이블은,The alias table is 앨리어스명(alias name), 앨리어스명에 매핑된 은닉 마르코프 모델(HMM) 음성인식 파라미터를 저장하고 있는 것을 특징으로 하는 음성인식 파라미터 공유 방법.An alias name and a hidden Markov model (HMM) speech recognition parameter mapped to the alias name are stored.
KR1020040005344A 2004-01-28 2004-01-28 Method For Sharing Speech recognition parameter KR100989500B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040005344A KR100989500B1 (en) 2004-01-28 2004-01-28 Method For Sharing Speech recognition parameter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040005344A KR100989500B1 (en) 2004-01-28 2004-01-28 Method For Sharing Speech recognition parameter

Publications (2)

Publication Number Publication Date
KR20050077442A KR20050077442A (en) 2005-08-02
KR100989500B1 true KR100989500B1 (en) 2010-10-22

Family

ID=37264931

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040005344A KR100989500B1 (en) 2004-01-28 2004-01-28 Method For Sharing Speech recognition parameter

Country Status (1)

Country Link
KR (1) KR100989500B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11032601B2 (en) 2018-05-10 2021-06-08 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515762B2 (en) * 2009-01-22 2013-08-20 Microsoft Corporation Markup language-based selection and utilization of recognizers for utterance processing

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100349342B1 (en) 2000-12-19 2002-08-21 주식회사 삼보정보통신 Interactive natural language recognition and adaptation using speech recognition and speech sysnthesis
KR20030072392A (en) * 2001-02-02 2003-09-13 인터내셔널 비지네스 머신즈 코포레이션 Method and System for Automatically Creating Voice XML File

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100349342B1 (en) 2000-12-19 2002-08-21 주식회사 삼보정보통신 Interactive natural language recognition and adaptation using speech recognition and speech sysnthesis
KR20030072392A (en) * 2001-02-02 2003-09-13 인터내셔널 비지네스 머신즈 코포레이션 Method and System for Automatically Creating Voice XML File

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
신현경 외 3명, '음성 웹서비스를 위한 VoiceXML 해석기의 설계 및 구현', 한국음향학회 제20권 제4호, pp.42-47,2001 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11032601B2 (en) 2018-05-10 2021-06-08 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Also Published As

Publication number Publication date
KR20050077442A (en) 2005-08-02

Similar Documents

Publication Publication Date Title
US9761241B2 (en) System and method for providing network coordinated conversational services
CA2345660C (en) System and method for providing network coordinated conversational services
US8024194B2 (en) Dynamic switching between local and remote speech rendering
KR20170033722A (en) Apparatus and method for processing user&#39;s locution, and dialog management apparatus
JP5119055B2 (en) Multilingual voice recognition apparatus, system, voice switching method and program
US20030120493A1 (en) Method and system for updating and customizing recognition vocabulary
US7103549B2 (en) Method for improving speech recognition performance using speaker and channel information
KR20190061706A (en) Voice recognition system and method for analyzing plural intention command
SE0202058D0 (en) Voice browsing architecture based on adaptive keyword spotting
ATE349056T1 (en) LANGUAGE-INDEPENDENT VOICE-BASED USER INTERFACE
US20030055649A1 (en) Methods for accessing information on personal computers using voice through landline or wireless phones
KR100989500B1 (en) Method For Sharing Speech recognition parameter
JP2004515859A (en) Decentralized speech recognition for Internet access
KR100367579B1 (en) Internet utilization system using voice
US20020077814A1 (en) Voice recognition system method and apparatus
JP2005520194A (en) Generating text messages
CN111292749B (en) Session control method and device of intelligent voice platform
KR100986443B1 (en) Speech recognizing and recording method without speech recognition grammar in VoiceXML
JP2003202890A (en) Speech recognition device, and method and program thereof
KR20220162477A (en) Phone translation method based on language recognition
KR100432373B1 (en) The voice recognition system for independent speech processing
JP2006003413A (en) Automatic voice answering method, system for implementing the method, automatic voice answering program, and its recording medium
KR20230153854A (en) User terminal, method for controlling user terminal and dialogue management method
KR20050088013A (en) Method of modifiying contents of vxml using telephone
KR20110021439A (en) Apparatus and method for transformation voice stream

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131004

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee