KR20180126358A - 음성 인식 시스템의 음성 인식 기능을 향상시키기 위한 시스템 및 방법 - Google Patents

음성 인식 시스템의 음성 인식 기능을 향상시키기 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20180126358A
KR20180126358A KR1020170175765A KR20170175765A KR20180126358A KR 20180126358 A KR20180126358 A KR 20180126358A KR 1020170175765 A KR1020170175765 A KR 1020170175765A KR 20170175765 A KR20170175765 A KR 20170175765A KR 20180126358 A KR20180126358 A KR 20180126358A
Authority
KR
South Korea
Prior art keywords
text
speech
question
speech recognition
terminal
Prior art date
Application number
KR1020170175765A
Other languages
English (en)
Other versions
KR102116047B1 (ko
Inventor
이도용
Original Assignee
주식회사 에이아이리소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에이아이리소프트 filed Critical 주식회사 에이아이리소프트
Publication of KR20180126358A publication Critical patent/KR20180126358A/ko
Application granted granted Critical
Publication of KR102116047B1 publication Critical patent/KR102116047B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

음성 인식 시스템으로서, 발화자의 답변을 요구하는 질문을 단말로 전송하는 질문 전송부, 상기 질문에 응답하여 상기 발화자가 상기 단말에 입력한 음성을 상기 단말로부터 수신하는 음성 수신부, 그리고 상기 음성의 발음과 미리 설정된 유사도 이상으로 발음되는 적어도 하나 이상의 후보 텍스트들을 결정하고, 상기 후보 텍스트들 중에서 상기 음성에 대응하는 텍스트를 결정하는 텍스트 결정부를 포함한다.

Description

음성 인식 시스템의 음성 인식 기능을 향상시키기 위한 시스템 및 방법{System and method for improving speech recognition function of speech recognition system}
본 발명은 음성 인식 시스템의 음성 인식 기능을 향상시키기 위한 시스템 및 방법에 관한 것이다.
현재 대화 주도형 챗봇 등에 사용되고 있는 음성 인식 방법은 수집된 사람의 음성을 비교적 높은 정확도로 텍스트 문장으로 변환이 가능하다. 이는 빅데이터를 이용한 딥러닝 기술의 발달로 인해 단순히 단어 단위의 변환을 수행하는 것이 아닌, 전체 문장의 구성을 고려하여 수집된 음성을 텍스트 문장으로 변환함에 따라 가능해진 결과이다.
그러나, 이러한 음성 인식 방법의 경우에도, 수집된 음성에 노이즈가 많이 발생되었거나 발화자의 발음이 정확하지 않고 문법에 맞지 않는 말을 하는 경우 변환율은 현저히 떨어진다. 예를 들면, "What do you want to eat noodle or rice?" 라는 질문에 사용자가 "rice-라이스"라는 대답을 했을 때, 발화자가 R과 L발음을 구별하지 않고 발음하는 경우 "라이스"라는 음성을 "rice"가 아닌 "lice" 혹은 "lies"같은 텍스트 문장으로 잘못 변환할 수 있다.
또한, 기존의 음성 인식 방법의 또 다른 문제는 고유대명사의 처리가 어렵다는 점이다. 예를 들면, "내 이름은 장동건입니다."라는 음성에 대해, "my name is Jang Dong gun" 내지는 "마이 네임 이즈 장동건"과 같은 텍스트 문장으로의 변환이 기존의 음성 인식 기법으로는 불가능한 상황이다.
본 발명이 해결하고자 하는 과제는 특정 질문에 대한 발화자의 답변을 음성 인식함에 있어, 특정 질문에 대응하는 예상 답변을 이용하여 음성 인식을 수행하는 기술을 제공하는 것이다.
본 발명의 일 실시예에 따른 음성 인식 시스템은 발화자의 답변을 요구하는 질문을 단말로 전송하는 질문 전송부, 상기 질문에 응답하여 상기 발화자가 상기 단말에 입력한 음성을 상기 단말로부터 수신하는 음성 수신부, 그리고 상기 음성의 발음과 미리 설정된 유사도 이상으로 발음되는 적어도 하나 이상의 후보 텍스트들을 결정하고, 상기 후보 텍스트들 중에서 상기 음성에 대응하는 텍스트를 결정하는 텍스트 결정부를 포함한다.
상기 텍스트 결정부는 상기 발화자의 언어 숙련도에 기초하여 상기 유사도를 설정한다.
상기 텍스트 결정부는 상기 질문에 대한 답변 유형에 기초하여 상기 후보 텍스트들 중에서 상기 음성에 대응하는 텍스트를 결정한다.
상기 텍스트 결정부는 상기 질문에 포함된 키워드와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정한다.
상기 텍스트 결정부는 상기 질문에 대한 다른 발화자의 음성에 따라 결정된 텍스트와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정한다.
본 발명의 일 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 방법은 발화자의 답변을 요구하는 질문을 단말로 전송하는 단계, 상기 질문에 응답하여 상기 발화자가 상기 단말에 입력한 음성을 상기 단말로부터 수신하는 단계, 상기 음성의 발음과 미리 설정된 유사도 이상으로 발음되는 적어도 하나 이상의 후보 텍스트들을 결정하는 단계, 그리고 상기 후보 텍스트들 중에서 상기 음성에 대응하는 텍스트를 결정하는 단계를 포함한다.
상기 유사도는 상기 발화자의 언어 숙련도에 기초하여 설정된다.
상기 음성에 대응하는 텍스트를 결정하는 단계는 상기 질문에 대한 답변 유형에 기초하여 상기 음성에 대응하는 텍스트를 결정한다.
상기 질문에 대한 답변 유형에 기초하여 상기 음성에 대응하는 텍스트를 결정하는 것은 상기 질문에 포함된 키워드와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정한다.
상기 질문에 대한 답변 유형에 기초하여 상기 음성에 대응하는 텍스트를 결정하는 것은 상기 질문에 대한 다른 발화자의 음성에 따라 결정된 텍스트와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정한다.
본 발명의 일 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 방법은 상기 질문에 대응하는 기본 답변을 생성하는 단계를 더 포함하고, 상기 음성에 대응하는 텍스트를 결정하는 단계는 상기 기본 답변에 포함된 키워드와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정한다.
본 발명의 일 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 방법은 상기 후보 텍스트들 및 상기 질문에 포함된 키워드를 이용하여 생성된 추가 질문을 상기 단말로 전송하는 단계, 그리고 상기 추가 질문에 응답하여 상기 발화자가 상기 단말에 입력한 추가 음성을 상기 단말로부터 수신하는 단계를 더 포함하고, 상기 음성에 대응하는 텍스트를 결정하는 단계는 상기 추가 음성을 이용하여 상기 후보 텍스트들 중에서 상기 음성에 대응하는 텍스트를 결정한다.
본 발명에 따르면, 대화 중 발생하는 문장 하나만을 고려하여 음성 인식을 수행하는 기존의 음성 인식 방법과 달리, 대화의 답변을 음성 인식으로 처리함에 있어 답변의 예측을 통한 방법을 사용하는바, 노이즈가 많은 상황이나 발화자의 발음이 불명확한 경우 또는 발화자의 대답에 고유명사가 포함된 경우에도 정확한 음성 인식이 가능하다.
도 1은 본 발명의 실시예에 따른 음성 인식 시스템이 구현되는 환경을 도시한 도면이다.
도 2는 본 발명의 실시예에 따른 음성 인식 시스템의 구조를 도시한 도면이다.
도 3은 본 발명의 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 방법을 도시한 도면이다.
도 4는 본 발명의 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 다른 방법을 도시한 도면이다.
도 5는 본 발명의 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 다른 방법을 도시한 도면이다.
도 6은 본 발명의 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 다른 방법을 도시한 도면이다.
도 7은 본 발명의 실시예에 따른 음성 인식 시스템이 고유 명사에 대한 음성 인식을 수행하는 다른 방법을 도시한 도면이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하, 도면을 참조로 하여 본 발명의 실시예에 따른 음성 인식 시스템 및 방법에 대해 설명한다.
도 1은 본 발명의 실시예에 따른 음성 인식 시스템이 구현되는 환경을 도시한 도면이다.
도 1을 참고하면, 음성 인식 시스템이 구현되는 환경(1000)은 단말(100) 및음성 인식 시스템(200)을 포함한다.
단말(100)은 발화자로부터 수집한 음성을 음성 인식 시스템(200)으로 전송하고, 음성 인식 시스템(200)에 의해 처리된 결과를 사용자에게 출력하는 디바이스를 지칭하며, 예를 들면, 스마트폰, 태블릿 PC, PDA, PMP 등일 수 있다.
또한, 단말(100)은 발화자의 음성을 인식하여 이를 텍스트로 변환하는 기능을 수행하는 전용 어플리케이션(application)을 탑재할 수 있다. 이 경우, 발화자는 전용 어플리케이션을 실행한 상태로 단말(100)에 음성을 입력할 수 있고, 단말(100)은 발화자로부터 음성을 수집할 수 있다.
음성 인식 시스템(200)은 단말(100)로부터 수신한 음성에 대응하는 텍스트를 결정하고, 결정한 텍스트를 단말(100)로 전송한다.
구체적으로, 음성 인식 시스템(200)은 특정 질문(inquiry)을 단말(100)로 전송한다.
발화자가 특정 질문에 대한 답변 음성을 단말(100)에 입력하고 단말(100)이 답변 음성을 음성 인식 시스템(200)으로 전송하면, 음성 인식 시스템(200)은 특정 질문에 대응하는 텍스트 후보군을 이용하여 음성에 대응하는 텍스트를 결정한다.
이후, 음성 인식 시스템(200)은 결정한 텍스트를 단말(100)에 전송한다.
도 2는 본 발명의 실시예에 따른 음성 인식 시스템의 구조를 도시한 도면이다.
도 2를 참고하면, 음성 인식 시스템(200)은 질문 전송부(210), 음성 수신부(220), 텍스트 결정부(230) 및 텍스트 전송부(240)를 포함한다.
질문 전송부(210)는 발화자의 답변을 요구하는 질문을 단말(100)로 전송한다.
예를 들면, 질문 전송부(210)는 단말(100)로 하여금 "What do you want to eat noodle or rice"를 발화자에게 표시하도록 하는 질문을 단말(100)로 전송할 수 있다. 이 경우, 발화자는 단말(100)에 표시된 질문에 대응한 답변을 요구받는바, 질문은 발화자의 특정한 답변을 요구한다.
또한, 질문과 관련된 질문을 발화자에게 제공하는 방식에 있어서, 단말(100)은 구비된 디스플레이를 통해 텍스트 형식으로 표시할 수도 있고, 이에 대한 음성을 재생하여 발화자에게 전달할 수도 있으며, 어느 한 형태로 한정되지 않는다.
음성 수신부(220)는 질문과 관련된 질문에 대응하여 발화자가 단말(100)에 입력한 답변에 대한 음성을 단말(100)로부터 수신한다.
예를 들면, 발화자가 단말(100)에 표시된 "What do you want to eat noodle or rice"에 대응하여 "라이스"라는 답변을 단말(100)에 입력한 경우, 단말(100)은 음성 "라이스"를 음성 수신부(200)로 전송할 수 있다.
텍스트 결정부(230)는 음성의 발음과 미리 설정된 유사도 이상으로 발음되는 적어도 하나 이상의 후보 텍스트들을 결정한다.
예를 들면, 텍스트 결정부(230)는 음성 "라이스"의 발음과 특정 기준 이상으로 유사하게 발음되는 텍스트 "lice", "lies" 및 "rice" 등을 후보 텍스트로서 결정할 수 있다. 또한, 텍스트 결정부(230)는 각각의 후보 텍스트에 대한 신뢰도를 결정할 수도 있다.
일 실시예에서, 텍스트 결정부(230)에 설정된 유사도는 사용자의 선택에 따라 달리 설정될 수 있다.
다른 실시예에서, 텍스트 결정부(230)는 발화자의 언어 숙련도에 기초하여 유사도를 설정할 수 있다.
예를 들면, 텍스트 결정부(230)는 발화자의 언어 숙련도를 "상", "중", "하"로 구분하여 저장하고, 언어 숙련도가 "상"인 발화자의 경우 미리 설정된 유사도를 제1 유사도로 설정하고, 언어 숙련도가 "중"인 발화자의 경우 미리 설정된 유사도를 제1 유사도보다 낮은 제2 유사도로 설정하고, 언어 숙련도가 "하"인 발화자의 경우 미리 설정된 유사도를 제2 유사도보다 낮은 제3 유사도로 설정할 수 있다.
이 경우, 설정된 유사도가 높을수록, 즉, 언어 숙련도가 높은 발화자 일수록 결정한 후보 텍스트들의 수는 적어지며, 이에 따라 음성 인식을 처리하기 위한 연산량은 줄어드는 효과가 있다.
이를 위해, 텍스트 결정부(230)는 발화자의 언어 숙련도에 대한 정보를 사전에 등록받을 수 있다.
또한, 텍스트 결정부(230)는 결정한 후보 텍스트들 중에서 질문에 대한 답변 유형에 기초하여 음성에 대응하는 텍스트를 결정한다.
일 실시예에서, 텍스트 결정부(230)는 질문에 포함된 키워드와 관련된 후보 텍스트를 음성에 대응하는 텍스트로 결정할 수 있다.
예를 들면, 질문이 "What do you want to eat noodle or rice"인 상기 예시에서, 텍스트 결정부(230)는 질문에 포함된 키워드를 "eat", "noodle" 또는 "rice" 중 적어도 하나로 결정할 수 있고, 후보 텍스트 "lice", "lies" 및 "rice" 중에서, 결정된 키워드와 관련된 텍스트 "rice"를 음성에 대응하는 텍스트로 결정할 수 있다.
다른 실시예에서, 텍스트 결정부(230)는 동일한 질문에 대한 다른 발화자의 음성에 따라 결정된 텍스트와 관련된 후보 텍스트를 음성에 대응하는 텍스트로 결정할 수 있다.
예를 들면, 텍스트 결정부(230)는 "What do you want to eat noodle or rice"와 동일한 질문에 대해, 발화자 A, 발화자 B 및 발화자 C의 음성에 대응하여 결정된 텍스트 "noodle", "rice" 및 "I don't want to eat anything"를 미리 저장할 수 있고, 후보 텍스트 "lice", "lies" 및 "rice" 중에서 다른 발화자에 의해 결정된 텍스트와 관련되거나, 특정 유사도 이상의 유사성을 갖는 텍스트 "rice"를 음성에 대응하는 텍스트로 결정할 수 있다.
텍스트 전송부(240)는 텍스트 결정부(230)에 의해 결정된 텍스트를 단말(100)로 전송한다.
도 3은 본 발명의 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 방법을 도시한 도면이다.
도 3을 참고하면, 음성 인식 시스템(200)은 발화자의 답변을 요구하는 질문을 단말(100)로 전송한다(S100).
단말(100)은 음성 인식 시스템(200)으로부터 수신한 질문을 발화자에게 표시하고, 질문에 대한 답변을 음성으로서 입력할 것을 요청한다(S101).
발화자가 질문에 응답하여 단말(100)에 음성을 입력하면(S103), 단말(100)은 입력된 음성을 음성 인식 시스템(200)에 전송한다(S105).
음성 인식 시스템(200)은 수신한 음성의 발음과 미리 설정된 유사도 이상으로 발음되는 적어도 하나 이상의 후보 텍스트들을 결정한다(S107).
도 2에서 설명한 바와 같이, 음성 인식 시스템(200)은 단계 S107에서 사용자의 선택에 따라 또는 발화자의 언어 숙련도에 기초하여 유사도를 설정할 수 있다.
음성 인식 시스템(200)은 후보 텍스트들 중에서 질문에 대한 답변 유형에 기초하여 음성에 대응하는 텍스트를 결정한다(S109).
도 2에서 설명한 바와 같이, 음성 인식 시스템(200)은 단계 S100에서 전송된 질문에 포함된 키워드와 관련된 후보 텍스트를 음성에 대응하는 텍스트로 결정할 수 있다.
또한, 음성 인식 시스템(200)은 단계 S100에서 전송된 질문과 동일한 질문에 대한 다른 발화자의 음성에 대응하는 텍스트와 관련된 후보 텍스트를 음성에 대응하는 텍스트로 결정할 수 있다.
음성 인식 시스템(200)은 결정된 텍스트를 단말(100)로 전송하며(S111), 단말(100)은 수신한 텍스트를 발화자에게 표시한다(S113).
도 4는 본 발명의 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 다른 방법을 도시한 도면이다.
도 4에서 도 3과 동일한 단계는 그 설명을 생략한다.
도 4를 참고하면, 단계 S200 내지 S205를 통해 음성 인식 시스템(200)은 질문에 응답하여 발화자가 단말(100)에 입력한 음성을 단말(100)로부터 수신한다.
음성 인식 시스템(200)은 수신한 음성의 발음과 미리 설정된 유사도 이상으로 발음되는 적어도 하나 이상의 후보 텍스트들을 결정한다(S207).
음성 인식 시스템(200)은 단계 S200에서 전송한 질문에 대응하는 기본 답변을 생성한다(S209).
예를 들면, 음성 인식 시스템(200)은 질문 "What do you want to eat noodle or rice"에 대응하는 기본 답변으로 "I want to eat food"를 생성할 수 있다. 이 경우, 음성 인식 시스템(200)은 특정 질문에 대해 하나 이상의 기본 답변을 기 저장하고 있을 수 있다.
음성 인식 시스템(200)은 기본 답변에 포함된 키워드를 결정하고, 결정한 키워드와 관련된 후보 텍스트를 음성에 대응하는 텍스트로 결정한다(S211).
예를 들면, 음성 인식 시스템(200)은 기본 답변으로 생성한 "I want to eat food"에서, "food"를 키워드로 결정할 수 있고, 후보 텍스트 "lice", "lies" 및 "rice" 중에서 키워드 "food"와 관련되거나 특정 유사도 이상의 유사성을 갖는 후보 텍스트 "rice"를 음성에 대응하는 텍스트로 결정할 수 있다.
이후, 음성 인식 시스템(200)은 결정한 텍스트를 단말(100)로 전송하고(S213), 단말(100)은 수신한 텍스트를 발화자에게 표시한다(S215).
도 5는 본 발명의 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 다른 방법을 도시한 도면이다.
도 5에서 도 3과 동일한 단계는 그 설명을 생략한다.
도 5를 참고하면, 단계 S300 내지 S305를 통해 음성 인식 시스템(200)은 질문에 응답하여 발화자가 단말(100)에 입력한 음성을 단말(100)로부터 수신한다.
음성 인식 시스템(200)은 수신한 음성의 발음과 미리 설정된 유사도 이상으로 발음되는 적어도 하나 이상의 후보 텍스트들을 결정한다(S307).
음성 인식 시스템(200)은 결정된 후보 텍스트들을 단말(100)로 전송하고(S309), 단말(100)은 전송된 후보 텍스트들을 발화자에게 표시한다(S311).
발화자는 후보 텍스트들 중에서, 질문에 대한 답변 음성에 대응하는 후보 텍스트를 결정한다(S313). 만일 후보 텍스트들 중에서 질문에 대한 답변 음성에 대응하는 텍스트가 없는 경우, 발화자는 단말(100)에 대응하는 후보 텍스트가 없음을 알릴 수 있고, 이 경우 단말(100)은 발화자에게 동일한 답변 음성을 재요구할 수 있고, 음성 인식 시스템(200)은 재수집된 답변 음성에 대해 미리 설정된 유사도보다 낮은 유사도를 재설정하고, 재설정한 유사도를 통해 후보 텍스트들을 재결정할 수 있다.
도 6은 본 발명의 실시예에 따른 음성 인식 시스템이 음성 인식을 수행하는 다른 방법을 도시한 도면이다.
도 6에서 도 3과 동일한 단계는 그 설명을 생략한다.
도 6을 참고하면, 단계 S400 내지 S405를 통해 음성 인식 시스템(200)은 질문에 응답하여 발화자가 단말(100)에 입력한 음성을 단말(100)로부터 수신한다.
음성 인식 시스템(200)은 후보 텍스트들 및 질문에 포함된 키워드를 이용하여 발화자에게 제공될 추가 질문을 생성한다(S407).
예를 들면, 음성 인식 시스템(200)은 결정한 후보 텍스트 "lice", "lies" 및 "rice" 중에서, 질문에 포함된 키워드 "eat", "noodle" 또는 "rice"와 관련되는 후보 텍스트 "rice" 및 키워드 "eat"을 이용하여 추가 질문 "Do you want to eat rice?"을 생성할 수 있다. 이를 위해, 음성 인식 시스템(200)은 특정한 후보 텍스트 및 키워드에 대응하는 하나 이상의 추가 질문을 기 저장할 수 있다.
음성 인식 시스템(200)은 생성한 추가 질문을 단말(100)로 전송한다(S409).
단말(100)은 음성 인식 시스템(200)으로부터 수신한 추가 질문을 발화자에게 표시하고, 추가 질문에 대한 답변을 음성으로서 입력할 것을 요청한다(S411).
발화자가 추가 질문에 응답하여 단말(100)에 추가 음성을 입력하면(S413), 단말(100)은 입력된 추가 음성을 음성 인식 시스템(200)에 전송한다(S415).
음성 인식 시스템(200)은 추가 음성을 이용하여 후보 텍스트들 중에서 음성에 대응하는 텍스트를 결정한다(S417).
예를 들면, 발화자가 추가 질문에 응답하여 추가 음성 "Yes"를 입력한 경우, 음성 인식 시스템(200)은 단계 S409에서 전송한 추가 질문에 포함된 후보 텍스트 "rice"를 발화자의 음성에 대응하는 텍스트로 결정할 수 있다. 이를 위해, 음성 인식 시스템(200)은 추가 질문에 대응하는 추가 음성 별로 이를 인식하기 위한 데이터베이스를 기 구축할 수 있다.
음성 인식 시스템(200)은 결정된 텍스트를 단말(100)로 전송하며(S419), 단말(100)은 수신한 텍스트를 발화자에게 표시한다(S421). 이 경우, 단계 S419에서, 음성 인식 시스템(200)은 결정한 텍스트 "rice" 대신, 추가 질문과 관련된 텍스트인 "I want to eat rice"를 단말(100)에 전송할 수도 있다.
도 7은 본 발명의 실시예에 따른 음성 인식 시스템이 고유 명사에 대한 음성 인식을 수행하는 다른 방법을 도시한 도면이다.
도 7에서 도 3과 동일한 단계는 그 설명을 생략한다.
도 7을 참고하면, 단계 S500 내지 S505를 통해 음성 인식 시스템(200)은 질문에 응답하여 발화자가 단말(100)에 입력한 음성을 단말(100)로부터 수신한다.
예를 들면, 음성 인식 시스템(200)은 질문 "What is your name?"을 단말(100)에 전송할 수 있으며, 발화자는 단말(100)에 음성 "마이네임이즈장동건"을 입력할 수 있다.
음성 인식 시스템(200)은 단계 S500에서 전송한 질문에 대응하는 기본 답변을 생성한다(S507).
예를 들면, 음성 인식 시스템(200)은 질문 "What is your name?"에 대응하는 기본 답변으로 "My name is 고유 명사"를 생성할 수 있다. 이 경우, 음성 인식 시스템(200)은 질문에 포함된 키워드 "name" 및 고유 명사의 위치 정보를 이용하여 기본 답변을 생성할 수 있다.
음성 인식 시스템(200)은 단말(100)로부터 수신한 음성 "마이네임이즈장동건"과 생성한 기본 답변을 비교하여 고유 명사를 인식한다(S509).
예를 들면, 음성 인식 시스템(200)은 단말(100)로부터 수신한 음성과 기본 답변이 중첩되지 않는 부분, 고유 명사의 예상 위치 정보 등을 이용하여 음성 "마이네임이즈장동건"에서 "장동건" 부분이 고유 명사임을 인식할 수 있다.
음성 인식 시스템(200)은 발화자의 언어정보를 기초로 인식한 고유 명사부분을 변환하고 생성한 기본 답변에 변환한 고유 명사 부분을 삽입한다(S511).
예를 들면, 발화자의 언어정보가 한국어인 경우, 음성 인식 시스템(200)은 한국어 "장동건"의 한국어 발음을 영어로 표기한 "Jang Dong Gun"으로 변환하고, 변환한 "Jang Dong Gun"을 기본 답변 "My name is 고유 명사"에 삽입하여, "My name is Jang Dong Gun"을 생성하고 이를 단말(100)로 전송할 수 있다.
음성 인식 시스템(200)은 고유 명사가 삽입된 기본 답변을 단말(100)로 전송하며(S513), 단말(100)은 고유 명사가 삽입된 기본 답변을 발화자에게 표시한다(S515).
본 발명에 따르면, 대화 중 발생하는 문장 하나만을 고려하여 음성 인식을 수행하는 기존의 음성 인식 방법과 달리, 대화의 답변을 음성 인식으로 처리함에 있어 답변의 예측을 통한 방법을 사용하는바, 노이즈가 많은 상황이나 발화자의 발음이 불명확한 경우 또는 발화자의 대답에 고유명사가 포함된 경우에도 정확한 음성 인식이 가능하다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (12)

  1. 음성 인식 시스템으로서,
    발화자의 답변을 요구하는 질문을 단말로 전송하는 질문 전송부,
    상기 질문에 응답하여 상기 발화자가 상기 단말에 입력한 음성을 상기 단말로부터 수신하는 음성 수신부, 그리고
    상기 음성의 발음과 미리 설정된 유사도 이상으로 발음되는 적어도 하나 이상의 후보 텍스트들을 결정하고, 상기 후보 텍스트들 중에서 상기 음성에 대응하는 텍스트를 결정하는 텍스트 결정부
    를 포함하는 음성 인식 시스템.
  2. 제1항에서,
    상기 텍스트 결정부는 상기 발화자의 언어 숙련도에 기초하여 상기 유사도를 설정하는 음성 인식 시스템.
  3. 제1항에서,
    상기 텍스트 결정부는 상기 질문에 대한 답변 유형에 기초하여 상기 후보 텍스트들 중에서 상기 음성에 대응하는 텍스트를 결정하는 음성 인식 시스템.
  4. 제3항에서,
    상기 텍스트 결정부는
    상기 질문에 포함된 키워드와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정하는 음성 인식 시스템.
  5. 제3항에서,
    상기 텍스트 결정부는
    상기 질문에 대한 다른 발화자의 음성에 따라 결정된 텍스트와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정하는 음성 인식 시스템.
  6. 음성 인식 시스템이 음성 인식을 수행하는 방법으로서,
    발화자의 답변을 요구하는 질문을 단말로 전송하는 단계,
    상기 질문에 응답하여 상기 발화자가 상기 단말에 입력한 음성을 상기 단말로부터 수신하는 단계,
    상기 음성의 발음과 미리 설정된 유사도 이상으로 발음되는 적어도 하나 이상의 후보 텍스트들을 결정하는 단계, 그리고
    상기 후보 텍스트들 중에서 상기 음성에 대응하는 텍스트를 결정하는 단계
    를 포함하는 음성 인식 방법.
  7. 제6항에서,
    상기 유사도는
    상기 발화자의 언어 숙련도에 기초하여 설정되는 음성 인식 방법.
  8. 제6항에서,
    상기 음성에 대응하는 텍스트를 결정하는 단계는
    상기 질문에 대한 답변 유형에 기초하여 상기 음성에 대응하는 텍스트를 결정하는 음성 인식 방법.
  9. 제8항에서,
    상기 질문에 대한 답변 유형에 기초하여 상기 음성에 대응하는 텍스트를 결정하는 것은
    상기 질문에 포함된 키워드와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정하는 음성 인식 방법.
  10. 제8항에서,
    상기 질문에 대한 답변 유형에 기초하여 상기 음성에 대응하는 텍스트를 결정하는 것은
    상기 질문에 대한 다른 발화자의 음성에 따라 결정된 텍스트와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정하는 음성 인식 방법.
  11. 제6항에서,
    상기 질문에 대응하는 기본 답변을 생성하는 단계를 더 포함하고,
    상기 음성에 대응하는 텍스트를 결정하는 단계는 상기 기본 답변에 포함된 키워드와 관련된 후보 텍스트를 상기 음성에 대응하는 텍스트로 결정하는 음성 인식 방법.
  12. 제6항에서,
    상기 후보 텍스트들 및 상기 질문에 포함된 키워드를 이용하여 생성된 추가 질문을 상기 단말로 전송하는 단계, 그리고
    상기 추가 질문에 응답하여 상기 발화자가 상기 단말에 입력한 추가 음성을 상기 단말로부터 수신하는 단계를 더 포함하고,
    상기 음성에 대응하는 텍스트를 결정하는 단계는 상기 추가 음성을 이용하여 상기 후보 텍스트들 중에서 상기 음성에 대응하는 텍스트를 결정하는 음성 인식 방법.
KR1020170175765A 2017-05-17 2017-12-20 음성 인식 시스템의 음성 인식 기능을 향상시키기 위한 시스템 및 방법 KR102116047B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170061166 2017-05-17
KR20170061166 2017-05-17

Publications (2)

Publication Number Publication Date
KR20180126358A true KR20180126358A (ko) 2018-11-27
KR102116047B1 KR102116047B1 (ko) 2020-05-27

Family

ID=64603496

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170175765A KR102116047B1 (ko) 2017-05-17 2017-12-20 음성 인식 시스템의 음성 인식 기능을 향상시키기 위한 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102116047B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021177669A1 (ko) * 2020-03-03 2021-09-10 삼성전자 주식회사 사용자 입력을 처리하는 전자 장치 및 방법
WO2022192309A1 (en) * 2021-03-09 2022-09-15 Drift.com, Inc. Conversational bot interaction with utterance ranking

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181442A (ja) * 2003-12-16 2005-07-07 Fuji Electric Holdings Co Ltd 音声対話装置、その方法、プログラム
KR100684160B1 (ko) * 2005-12-08 2007-02-20 한국전자통신연구원 개체명 인식을 이용한 대화 분석 장치 및 방법
KR20090094576A (ko) * 2008-03-03 2009-09-08 옥종석 음성인식을 활용한 컴퓨터 주도형 상호대화의 말하기 능력평가 장치 및 그 평가방법
KR20170034227A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181442A (ja) * 2003-12-16 2005-07-07 Fuji Electric Holdings Co Ltd 音声対話装置、その方法、プログラム
KR100684160B1 (ko) * 2005-12-08 2007-02-20 한국전자통신연구원 개체명 인식을 이용한 대화 분석 장치 및 방법
KR20090094576A (ko) * 2008-03-03 2009-09-08 옥종석 음성인식을 활용한 컴퓨터 주도형 상호대화의 말하기 능력평가 장치 및 그 평가방법
KR20170034227A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021177669A1 (ko) * 2020-03-03 2021-09-10 삼성전자 주식회사 사용자 입력을 처리하는 전자 장치 및 방법
WO2022192309A1 (en) * 2021-03-09 2022-09-15 Drift.com, Inc. Conversational bot interaction with utterance ranking

Also Published As

Publication number Publication date
KR102116047B1 (ko) 2020-05-27

Similar Documents

Publication Publication Date Title
US11915684B2 (en) Method and electronic device for translating speech signal
KR100998566B1 (ko) 음성인식을 이용한 언어 번역 방법 및 장치
KR102191425B1 (ko) 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법
US20170084274A1 (en) Dialog management apparatus and method
US8515764B2 (en) Question and answer database expansion based on speech recognition using a specialized and a general language model
JP6540414B2 (ja) 音声処理装置および音声処理方法
US11093110B1 (en) Messaging feedback mechanism
US20170103757A1 (en) Speech interaction apparatus and method
KR101819457B1 (ko) 음성 인식 장치 및 시스템
US20180011687A1 (en) Head-mounted display system and operating method for head-mounted display device
KR20150085145A (ko) 사용자 반응 기반 통역 시스템 및 그 방법
CN103050115A (zh) 识别装置、识别方法、生成装置和生成方法
KR20130108173A (ko) 유무선 통신 네트워크를 이용한 음성인식 질의응답 시스템 및 그 운용방법
KR20180060903A (ko) 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
KR20180126358A (ko) 음성 인식 시스템의 음성 인식 기능을 향상시키기 위한 시스템 및 방법
JP2008234427A (ja) ユーザ間の対話を支援する装置、方法およびプログラム
JP2015170094A (ja) 翻訳装置及び翻訳方法
US11244675B2 (en) Word replacement in output generation for detected intent by voice classification
KR100949353B1 (ko) 언어 장애인용 대화 보조 장치
JP2017059014A (ja) 解析装置およびデータ検索装置,ならびにこれらの制御方法
KR20190083438A (ko) 한국어 대화 장치
JP2004240859A (ja) 言い換えシステム
KR20050052943A (ko) 여행자용 키워드 기반 음성번역 시스템 및 그 방법
Stoyanchev et al. Clarification questions with feedback
Liu et al. Detecting inappropriate clarification requests in spoken dialogue systems

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant