KR20180126358A

KR20180126358A - 음성 인식 시스템의 음성 인식 기능을 향상시키기 위한 시스템 및 방법

Info

Publication number: KR20180126358A
Application number: KR1020170175765A
Authority: KR
Inventors: 이도용
Original assignee: 주식회사 에이아이리소프트
Priority date: 2017-05-17
Filing date: 2017-12-20
Publication date: 2018-11-27
Also published as: KR102116047B1

Abstract

음성 인식 시스템으로서, 발화자의 답변을 요구하는 질문을 단말로 전송하는 질문 전송부, 상기 질문에 응답하여 상기 발화자가 상기 단말에 입력한 음성을 상기 단말로부터 수신하는 음성 수신부, 그리고 상기 음성의 발음과 미리 설정된 유사도 이상으로 발음되는 적어도 하나 이상의 후보 텍스트들을 결정하고, 상기 후보 텍스트들 중에서 상기 음성에 대응하는 텍스트를 결정하는 텍스트 결정부를 포함한다.

Description

음성 인식 시스템의 음성 인식 기능을 향상시키기 위한 시스템 및 방법{System and method for improving speech recognition function of speech recognition system}

본 발명은 음성 인식 시스템의 음성 인식 기능을 향상시키기 위한 시스템 및 방법에 관한 것이다.

현재 대화 주도형 챗봇 등에 사용되고 있는 음성 인식 방법은 수집된 사람의 음성을 비교적 높은 정확도로 텍스트 문장으로 변환이 가능하다. 이는 빅데이터를 이용한 딥러닝 기술의 발달로 인해 단순히 단어 단위의 변환을 수행하는 것이 아닌, 전체 문장의 구성을 고려하여 수집된 음성을 텍스트 문장으로 변환함에 따라 가능해진 결과이다.

그러나, 이러한 음성 인식 방법의 경우에도, 수집된 음성에 노이즈가 많이 발생되었거나 발화자의 발음이 정확하지 않고 문법에 맞지 않는 말을 하는 경우 변환율은 현저히 떨어진다. 예를 들면, "What do you want to eat noodle or rice?" 라는 질문에 사용자가 "rice-라이스"라는 대답을 했을 때, 발화자가 R과 L발음을 구별하지 않고 발음하는 경우 "라이스"라는 음성을 "rice"가 아닌 "lice" 혹은 "lies"같은 텍스트 문장으로 잘못 변환할 수 있다.

또한, 기존의 음성 인식 방법의 또 다른 문제는 고유대명사의 처리가 어렵다는 점이다. 예를 들면, "내 이름은 장동건입니다."라는 음성에 대해, "my name is Jang Dong gun" 내지는 "마이 네임 이즈 장동건"과 같은 텍스트 문장으로의 변환이 기존의 음성 인식 기법으로는 불가능한 상황이다.

본 발명이 해결하고자 하는 과제는 특정 질문에 대한 발화자의 답변을 음성 인식함에 있어, 특정 질문에 대응하는 예상 답변을 이용하여 음성 인식을 수행하는 기술을 제공하는 것이다.

본 발명의 일 실시예에 따른 음성 인식 시스템은 발화자의 답변을 요구하는 질문을 단말로 전송하는 질문 전송부, 상기 질문에 응답하여 상기 발화자가 상기 단말에 입력한 음성을 상기 단말로부터 수신하는 음성 수신부, 그리고 상기 음성의 발음과 미리 설정된 유사도 이상으로 발음되는 적어도 하나 이상의 후보 텍스트들을 결정하고, 상기 후보 텍스트들 중에서 상기 음성에 대응하는 텍스트를 결정하는 텍스트 결정부를 포함한다.

상기 텍스트 결정부는 상기 발화자의 언어 숙련도에 기초하여 상기 유사도를 설정한다.

상기 텍스트 결정부는 상기 질문에 대한 답변 유형에 기초하여 상기 후보 텍스트들 중에서 상기 음성에 대응하는 텍스트를 결정한다.

상기 텍스트 결정부는 상기 질문에 포함된 키워드와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정한다.

상기 텍스트 결정부는 상기 질문에 대한 다른 발화자의 음성에 따라 결정된 텍스트와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정한다.

본 발명의 일 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 방법은 발화자의 답변을 요구하는 질문을 단말로 전송하는 단계, 상기 질문에 응답하여 상기 발화자가 상기 단말에 입력한 음성을 상기 단말로부터 수신하는 단계, 상기 음성의 발음과 미리 설정된 유사도 이상으로 발음되는 적어도 하나 이상의 후보 텍스트들을 결정하는 단계, 그리고 상기 후보 텍스트들 중에서 상기 음성에 대응하는 텍스트를 결정하는 단계를 포함한다.

상기 유사도는 상기 발화자의 언어 숙련도에 기초하여 설정된다.

상기 음성에 대응하는 텍스트를 결정하는 단계는 상기 질문에 대한 답변 유형에 기초하여 상기 음성에 대응하는 텍스트를 결정한다.

상기 질문에 대한 답변 유형에 기초하여 상기 음성에 대응하는 텍스트를 결정하는 것은 상기 질문에 포함된 키워드와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정한다.

상기 질문에 대한 답변 유형에 기초하여 상기 음성에 대응하는 텍스트를 결정하는 것은 상기 질문에 대한 다른 발화자의 음성에 따라 결정된 텍스트와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정한다.

본 발명의 일 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 방법은 상기 질문에 대응하는 기본 답변을 생성하는 단계를 더 포함하고, 상기 음성에 대응하는 텍스트를 결정하는 단계는 상기 기본 답변에 포함된 키워드와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정한다.

본 발명의 일 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 방법은 상기 후보 텍스트들 및 상기 질문에 포함된 키워드를 이용하여 생성된 추가 질문을 상기 단말로 전송하는 단계, 그리고 상기 추가 질문에 응답하여 상기 발화자가 상기 단말에 입력한 추가 음성을 상기 단말로부터 수신하는 단계를 더 포함하고, 상기 음성에 대응하는 텍스트를 결정하는 단계는 상기 추가 음성을 이용하여 상기 후보 텍스트들 중에서 상기 음성에 대응하는 텍스트를 결정한다.

본 발명에 따르면, 대화 중 발생하는 문장 하나만을 고려하여 음성 인식을 수행하는 기존의 음성 인식 방법과 달리, 대화의 답변을 음성 인식으로 처리함에 있어 답변의 예측을 통한 방법을 사용하는바, 노이즈가 많은 상황이나 발화자의 발음이 불명확한 경우 또는 발화자의 대답에 고유명사가 포함된 경우에도 정확한 음성 인식이 가능하다.

도 1은 본 발명의 실시예에 따른 음성 인식 시스템이 구현되는 환경을 도시한 도면이다.
도 2는 본 발명의 실시예에 따른 음성 인식 시스템의 구조를 도시한 도면이다.
도 3은 본 발명의 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 방법을 도시한 도면이다.
도 4는 본 발명의 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 다른 방법을 도시한 도면이다.
도 5는 본 발명의 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 다른 방법을 도시한 도면이다.
도 6은 본 발명의 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 다른 방법을 도시한 도면이다.
도 7은 본 발명의 실시예에 따른 음성 인식 시스템이 고유 명사에 대한 음성 인식을 수행하는 다른 방법을 도시한 도면이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하, 도면을 참조로 하여 본 발명의 실시예에 따른 음성 인식 시스템 및 방법에 대해 설명한다.

도 1은 본 발명의 실시예에 따른 음성 인식 시스템이 구현되는 환경을 도시한 도면이다.

도 1을 참고하면, 음성 인식 시스템이 구현되는 환경(1000)은 단말(100) 및음성 인식 시스템(200)을 포함한다.

단말(100)은 발화자로부터 수집한 음성을 음성 인식 시스템(200)으로 전송하고, 음성 인식 시스템(200)에 의해 처리된 결과를 사용자에게 출력하는 디바이스를 지칭하며, 예를 들면, 스마트폰, 태블릿 PC, PDA, PMP 등일 수 있다.

또한, 단말(100)은 발화자의 음성을 인식하여 이를 텍스트로 변환하는 기능을 수행하는 전용 어플리케이션(application)을 탑재할 수 있다. 이 경우, 발화자는 전용 어플리케이션을 실행한 상태로 단말(100)에 음성을 입력할 수 있고, 단말(100)은 발화자로부터 음성을 수집할 수 있다.

음성 인식 시스템(200)은 단말(100)로부터 수신한 음성에 대응하는 텍스트를 결정하고, 결정한 텍스트를 단말(100)로 전송한다.

구체적으로, 음성 인식 시스템(200)은 특정 질문(inquiry)을 단말(100)로 전송한다.

발화자가 특정 질문에 대한 답변 음성을 단말(100)에 입력하고 단말(100)이 답변 음성을 음성 인식 시스템(200)으로 전송하면, 음성 인식 시스템(200)은 특정 질문에 대응하는 텍스트 후보군을 이용하여 음성에 대응하는 텍스트를 결정한다.

이후, 음성 인식 시스템(200)은 결정한 텍스트를 단말(100)에 전송한다.

도 2는 본 발명의 실시예에 따른 음성 인식 시스템의 구조를 도시한 도면이다.

도 2를 참고하면, 음성 인식 시스템(200)은 질문 전송부(210), 음성 수신부(220), 텍스트 결정부(230) 및 텍스트 전송부(240)를 포함한다.

질문 전송부(210)는 발화자의 답변을 요구하는 질문을 단말(100)로 전송한다.

예를 들면, 질문 전송부(210)는 단말(100)로 하여금 "What do you want to eat noodle or rice"를 발화자에게 표시하도록 하는 질문을 단말(100)로 전송할 수 있다. 이 경우, 발화자는 단말(100)에 표시된 질문에 대응한 답변을 요구받는바, 질문은 발화자의 특정한 답변을 요구한다.

또한, 질문과 관련된 질문을 발화자에게 제공하는 방식에 있어서, 단말(100)은 구비된 디스플레이를 통해 텍스트 형식으로 표시할 수도 있고, 이에 대한 음성을 재생하여 발화자에게 전달할 수도 있으며, 어느 한 형태로 한정되지 않는다.

음성 수신부(220)는 질문과 관련된 질문에 대응하여 발화자가 단말(100)에 입력한 답변에 대한 음성을 단말(100)로부터 수신한다.

예를 들면, 발화자가 단말(100)에 표시된 "What do you want to eat noodle or rice"에 대응하여 "라이스"라는 답변을 단말(100)에 입력한 경우, 단말(100)은 음성 "라이스"를 음성 수신부(200)로 전송할 수 있다.

텍스트 결정부(230)는 음성의 발음과 미리 설정된 유사도 이상으로 발음되는 적어도 하나 이상의 후보 텍스트들을 결정한다.

예를 들면, 텍스트 결정부(230)는 음성 "라이스"의 발음과 특정 기준 이상으로 유사하게 발음되는 텍스트 "lice", "lies" 및 "rice" 등을 후보 텍스트로서 결정할 수 있다. 또한, 텍스트 결정부(230)는 각각의 후보 텍스트에 대한 신뢰도를 결정할 수도 있다.

일 실시예에서, 텍스트 결정부(230)에 설정된 유사도는 사용자의 선택에 따라 달리 설정될 수 있다.

다른 실시예에서, 텍스트 결정부(230)는 발화자의 언어 숙련도에 기초하여 유사도를 설정할 수 있다.

예를 들면, 텍스트 결정부(230)는 발화자의 언어 숙련도를 "상", "중", "하"로 구분하여 저장하고, 언어 숙련도가 "상"인 발화자의 경우 미리 설정된 유사도를 제1 유사도로 설정하고, 언어 숙련도가 "중"인 발화자의 경우 미리 설정된 유사도를 제1 유사도보다 낮은 제2 유사도로 설정하고, 언어 숙련도가 "하"인 발화자의 경우 미리 설정된 유사도를 제2 유사도보다 낮은 제3 유사도로 설정할 수 있다.

이 경우, 설정된 유사도가 높을수록, 즉, 언어 숙련도가 높은 발화자 일수록 결정한 후보 텍스트들의 수는 적어지며, 이에 따라 음성 인식을 처리하기 위한 연산량은 줄어드는 효과가 있다.

이를 위해, 텍스트 결정부(230)는 발화자의 언어 숙련도에 대한 정보를 사전에 등록받을 수 있다.

또한, 텍스트 결정부(230)는 결정한 후보 텍스트들 중에서 질문에 대한 답변 유형에 기초하여 음성에 대응하는 텍스트를 결정한다.

일 실시예에서, 텍스트 결정부(230)는 질문에 포함된 키워드와 관련된 후보 텍스트를 음성에 대응하는 텍스트로 결정할 수 있다.

예를 들면, 질문이 "What do you want to eat noodle or rice"인 상기 예시에서, 텍스트 결정부(230)는 질문에 포함된 키워드를 "eat", "noodle" 또는 "rice" 중 적어도 하나로 결정할 수 있고, 후보 텍스트 "lice", "lies" 및 "rice" 중에서, 결정된 키워드와 관련된 텍스트 "rice"를 음성에 대응하는 텍스트로 결정할 수 있다.

다른 실시예에서, 텍스트 결정부(230)는 동일한 질문에 대한 다른 발화자의 음성에 따라 결정된 텍스트와 관련된 후보 텍스트를 음성에 대응하는 텍스트로 결정할 수 있다.

예를 들면, 텍스트 결정부(230)는 "What do you want to eat noodle or rice"와 동일한 질문에 대해, 발화자 A, 발화자 B 및 발화자 C의 음성에 대응하여 결정된 텍스트 "noodle", "rice" 및 "I don't want to eat anything"를 미리 저장할 수 있고, 후보 텍스트 "lice", "lies" 및 "rice" 중에서 다른 발화자에 의해 결정된 텍스트와 관련되거나, 특정 유사도 이상의 유사성을 갖는 텍스트 "rice"를 음성에 대응하는 텍스트로 결정할 수 있다.

텍스트 전송부(240)는 텍스트 결정부(230)에 의해 결정된 텍스트를 단말(100)로 전송한다.

도 3은 본 발명의 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 방법을 도시한 도면이다.

도 3을 참고하면, 음성 인식 시스템(200)은 발화자의 답변을 요구하는 질문을 단말(100)로 전송한다(S100).

단말(100)은 음성 인식 시스템(200)으로부터 수신한 질문을 발화자에게 표시하고, 질문에 대한 답변을 음성으로서 입력할 것을 요청한다(S101).

발화자가 질문에 응답하여 단말(100)에 음성을 입력하면(S103), 단말(100)은 입력된 음성을 음성 인식 시스템(200)에 전송한다(S105).

음성 인식 시스템(200)은 수신한 음성의 발음과 미리 설정된 유사도 이상으로 발음되는 적어도 하나 이상의 후보 텍스트들을 결정한다(S107).

도 2에서 설명한 바와 같이, 음성 인식 시스템(200)은 단계 S107에서 사용자의 선택에 따라 또는 발화자의 언어 숙련도에 기초하여 유사도를 설정할 수 있다.

음성 인식 시스템(200)은 후보 텍스트들 중에서 질문에 대한 답변 유형에 기초하여 음성에 대응하는 텍스트를 결정한다(S109).

도 2에서 설명한 바와 같이, 음성 인식 시스템(200)은 단계 S100에서 전송된 질문에 포함된 키워드와 관련된 후보 텍스트를 음성에 대응하는 텍스트로 결정할 수 있다.

또한, 음성 인식 시스템(200)은 단계 S100에서 전송된 질문과 동일한 질문에 대한 다른 발화자의 음성에 대응하는 텍스트와 관련된 후보 텍스트를 음성에 대응하는 텍스트로 결정할 수 있다.

음성 인식 시스템(200)은 결정된 텍스트를 단말(100)로 전송하며(S111), 단말(100)은 수신한 텍스트를 발화자에게 표시한다(S113).

도 4는 본 발명의 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 다른 방법을 도시한 도면이다.

도 4에서 도 3과 동일한 단계는 그 설명을 생략한다.

도 4를 참고하면, 단계 S200 내지 S205를 통해 음성 인식 시스템(200)은 질문에 응답하여 발화자가 단말(100)에 입력한 음성을 단말(100)로부터 수신한다.

음성 인식 시스템(200)은 수신한 음성의 발음과 미리 설정된 유사도 이상으로 발음되는 적어도 하나 이상의 후보 텍스트들을 결정한다(S207).

음성 인식 시스템(200)은 단계 S200에서 전송한 질문에 대응하는 기본 답변을 생성한다(S209).

예를 들면, 음성 인식 시스템(200)은 질문 "What do you want to eat noodle or rice"에 대응하는 기본 답변으로 "I want to eat food"를 생성할 수 있다. 이 경우, 음성 인식 시스템(200)은 특정 질문에 대해 하나 이상의 기본 답변을 기 저장하고 있을 수 있다.

음성 인식 시스템(200)은 기본 답변에 포함된 키워드를 결정하고, 결정한 키워드와 관련된 후보 텍스트를 음성에 대응하는 텍스트로 결정한다(S211).

예를 들면, 음성 인식 시스템(200)은 기본 답변으로 생성한 "I want to eat food"에서, "food"를 키워드로 결정할 수 있고, 후보 텍스트 "lice", "lies" 및 "rice" 중에서 키워드 "food"와 관련되거나 특정 유사도 이상의 유사성을 갖는 후보 텍스트 "rice"를 음성에 대응하는 텍스트로 결정할 수 있다.

이후, 음성 인식 시스템(200)은 결정한 텍스트를 단말(100)로 전송하고(S213), 단말(100)은 수신한 텍스트를 발화자에게 표시한다(S215).

도 5는 본 발명의 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 다른 방법을 도시한 도면이다.

도 5에서 도 3과 동일한 단계는 그 설명을 생략한다.

도 5를 참고하면, 단계 S300 내지 S305를 통해 음성 인식 시스템(200)은 질문에 응답하여 발화자가 단말(100)에 입력한 음성을 단말(100)로부터 수신한다.

음성 인식 시스템(200)은 수신한 음성의 발음과 미리 설정된 유사도 이상으로 발음되는 적어도 하나 이상의 후보 텍스트들을 결정한다(S307).

음성 인식 시스템(200)은 결정된 후보 텍스트들을 단말(100)로 전송하고(S309), 단말(100)은 전송된 후보 텍스트들을 발화자에게 표시한다(S311).

발화자는 후보 텍스트들 중에서, 질문에 대한 답변 음성에 대응하는 후보 텍스트를 결정한다(S313). 만일 후보 텍스트들 중에서 질문에 대한 답변 음성에 대응하는 텍스트가 없는 경우, 발화자는 단말(100)에 대응하는 후보 텍스트가 없음을 알릴 수 있고, 이 경우 단말(100)은 발화자에게 동일한 답변 음성을 재요구할 수 있고, 음성 인식 시스템(200)은 재수집된 답변 음성에 대해 미리 설정된 유사도보다 낮은 유사도를 재설정하고, 재설정한 유사도를 통해 후보 텍스트들을 재결정할 수 있다.

도 6은 본 발명의 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 다른 방법을 도시한 도면이다.

도 6에서 도 3과 동일한 단계는 그 설명을 생략한다.

도 6을 참고하면, 단계 S400 내지 S405를 통해 음성 인식 시스템(200)은 질문에 응답하여 발화자가 단말(100)에 입력한 음성을 단말(100)로부터 수신한다.

음성 인식 시스템(200)은 후보 텍스트들 및 질문에 포함된 키워드를 이용하여 발화자에게 제공될 추가 질문을 생성한다(S407).

예를 들면, 음성 인식 시스템(200)은 결정한 후보 텍스트 "lice", "lies" 및 "rice" 중에서, 질문에 포함된 키워드 "eat", "noodle" 또는 "rice"와 관련되는 후보 텍스트 "rice" 및 키워드 "eat"을 이용하여 추가 질문 "Do you want to eat rice?"을 생성할 수 있다. 이를 위해, 음성 인식 시스템(200)은 특정한 후보 텍스트 및 키워드에 대응하는 하나 이상의 추가 질문을 기 저장할 수 있다.

음성 인식 시스템(200)은 생성한 추가 질문을 단말(100)로 전송한다(S409).

단말(100)은 음성 인식 시스템(200)으로부터 수신한 추가 질문을 발화자에게 표시하고, 추가 질문에 대한 답변을 음성으로서 입력할 것을 요청한다(S411).

발화자가 추가 질문에 응답하여 단말(100)에 추가 음성을 입력하면(S413), 단말(100)은 입력된 추가 음성을 음성 인식 시스템(200)에 전송한다(S415).

음성 인식 시스템(200)은 추가 음성을 이용하여 후보 텍스트들 중에서 음성에 대응하는 텍스트를 결정한다(S417).

예를 들면, 발화자가 추가 질문에 응답하여 추가 음성 "Yes"를 입력한 경우, 음성 인식 시스템(200)은 단계 S409에서 전송한 추가 질문에 포함된 후보 텍스트 "rice"를 발화자의 음성에 대응하는 텍스트로 결정할 수 있다. 이를 위해, 음성 인식 시스템(200)은 추가 질문에 대응하는 추가 음성 별로 이를 인식하기 위한 데이터베이스를 기 구축할 수 있다.

음성 인식 시스템(200)은 결정된 텍스트를 단말(100)로 전송하며(S419), 단말(100)은 수신한 텍스트를 발화자에게 표시한다(S421). 이 경우, 단계 S419에서, 음성 인식 시스템(200)은 결정한 텍스트 "rice" 대신, 추가 질문과 관련된 텍스트인 "I want to eat rice"를 단말(100)에 전송할 수도 있다.

도 7은 본 발명의 실시예에 따른 음성 인식 시스템이 고유 명사에 대한 음성 인식을 수행하는 다른 방법을 도시한 도면이다.

도 7에서 도 3과 동일한 단계는 그 설명을 생략한다.

도 7을 참고하면, 단계 S500 내지 S505를 통해 음성 인식 시스템(200)은 질문에 응답하여 발화자가 단말(100)에 입력한 음성을 단말(100)로부터 수신한다.

예를 들면, 음성 인식 시스템(200)은 질문 "What is your name?"을 단말(100)에 전송할 수 있으며, 발화자는 단말(100)에 음성 "마이네임이즈장동건"을 입력할 수 있다.

음성 인식 시스템(200)은 단계 S500에서 전송한 질문에 대응하는 기본 답변을 생성한다(S507).

예를 들면, 음성 인식 시스템(200)은 질문 "What is your name?"에 대응하는 기본 답변으로 "My name is 고유 명사"를 생성할 수 있다. 이 경우, 음성 인식 시스템(200)은 질문에 포함된 키워드 "name" 및 고유 명사의 위치 정보를 이용하여 기본 답변을 생성할 수 있다.

음성 인식 시스템(200)은 단말(100)로부터 수신한 음성 "마이네임이즈장동건"과 생성한 기본 답변을 비교하여 고유 명사를 인식한다(S509).

예를 들면, 음성 인식 시스템(200)은 단말(100)로부터 수신한 음성과 기본 답변이 중첩되지 않는 부분, 고유 명사의 예상 위치 정보 등을 이용하여 음성 "마이네임이즈장동건"에서 "장동건" 부분이 고유 명사임을 인식할 수 있다.

음성 인식 시스템(200)은 발화자의 언어정보를 기초로 인식한 고유 명사부분을 변환하고 생성한 기본 답변에 변환한 고유 명사 부분을 삽입한다(S511).

예를 들면, 발화자의 언어정보가 한국어인 경우, 음성 인식 시스템(200)은 한국어 "장동건"의 한국어 발음을 영어로 표기한 "Jang Dong Gun"으로 변환하고, 변환한 "Jang Dong Gun"을 기본 답변 "My name is 고유 명사"에 삽입하여, "My name is Jang Dong Gun"을 생성하고 이를 단말(100)로 전송할 수 있다.

음성 인식 시스템(200)은 고유 명사가 삽입된 기본 답변을 단말(100)로 전송하며(S513), 단말(100)은 고유 명사가 삽입된 기본 답변을 발화자에게 표시한다(S515).

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

음성 인식 시스템으로서,
발화자의 답변을 요구하는 질문을 단말로 전송하는 질문 전송부,
상기 질문에 응답하여 상기 발화자가 상기 단말에 입력한 음성을 상기 단말로부터 수신하는 음성 수신부, 그리고
상기 음성의 발음과 미리 설정된 유사도 이상으로 발음되는 적어도 하나 이상의 후보 텍스트들을 결정하고, 상기 후보 텍스트들 중에서 상기 음성에 대응하는 텍스트를 결정하는 텍스트 결정부
를 포함하는 음성 인식 시스템.
제1항에서,
상기 텍스트 결정부는 상기 발화자의 언어 숙련도에 기초하여 상기 유사도를 설정하는 음성 인식 시스템.
제1항에서,
상기 텍스트 결정부는 상기 질문에 대한 답변 유형에 기초하여 상기 후보 텍스트들 중에서 상기 음성에 대응하는 텍스트를 결정하는 음성 인식 시스템.
제3항에서,
상기 텍스트 결정부는
상기 질문에 포함된 키워드와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정하는 음성 인식 시스템.
제3항에서,
상기 텍스트 결정부는
상기 질문에 대한 다른 발화자의 음성에 따라 결정된 텍스트와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정하는 음성 인식 시스템.
음성 인식 시스템이 음성 인식을 수행하는 방법으로서,
발화자의 답변을 요구하는 질문을 단말로 전송하는 단계,
상기 질문에 응답하여 상기 발화자가 상기 단말에 입력한 음성을 상기 단말로부터 수신하는 단계,
상기 음성의 발음과 미리 설정된 유사도 이상으로 발음되는 적어도 하나 이상의 후보 텍스트들을 결정하는 단계, 그리고
상기 후보 텍스트들 중에서 상기 음성에 대응하는 텍스트를 결정하는 단계
를 포함하는 음성 인식 방법.
제6항에서,
상기 유사도는
상기 발화자의 언어 숙련도에 기초하여 설정되는 음성 인식 방법.
제6항에서,
상기 음성에 대응하는 텍스트를 결정하는 단계는
상기 질문에 대한 답변 유형에 기초하여 상기 음성에 대응하는 텍스트를 결정하는 음성 인식 방법.
제8항에서,
상기 질문에 대한 답변 유형에 기초하여 상기 음성에 대응하는 텍스트를 결정하는 것은
상기 질문에 포함된 키워드와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정하는 음성 인식 방법.
제8항에서,
상기 질문에 대한 답변 유형에 기초하여 상기 음성에 대응하는 텍스트를 결정하는 것은
상기 질문에 대한 다른 발화자의 음성에 따라 결정된 텍스트와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정하는 음성 인식 방법.
제6항에서,
상기 질문에 대응하는 기본 답변을 생성하는 단계를 더 포함하고,
상기 음성에 대응하는 텍스트를 결정하는 단계는 상기 기본 답변에 포함된 키워드와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정하는 음성 인식 방법.
제6항에서,
상기 후보 텍스트들 및 상기 질문에 포함된 키워드를 이용하여 생성된 추가 질문을 상기 단말로 전송하는 단계, 그리고
상기 추가 질문에 응답하여 상기 발화자가 상기 단말에 입력한 추가 음성을 상기 단말로부터 수신하는 단계를 더 포함하고,
상기 음성에 대응하는 텍스트를 결정하는 단계는 상기 추가 음성을 이용하여 상기 후보 텍스트들 중에서 상기 음성에 대응하는 텍스트를 결정하는 음성 인식 방법.