KR102342521B1

KR102342521B1 - 음성인식 성능 향상 방법 및 장치

Info

Publication number: KR102342521B1
Application number: KR1020190174123A
Authority: KR
Inventors: 김규석
Original assignee: 주식회사 엘지유플러스
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2021-12-22
Also published as: KR20210081811A

Abstract

음성인식 성능 향상 방법 및 장치가 개시된다. 일 실시예에 따른 음성인식 성능 향상 방법은 타겟 텍스트 시퀀스에 대응하는 입력 음성을 수신하는 단계, 입력 음성에 적어도 하나의 보조 텍스트 시퀀스에 대응하는 음원을 부가하여 결합 음원을 생성하는 단계, 결합 음원을 서버에 전송하는 단계, 서버로부터 결합 음원에 대응하는 음성인식 결과를 수신하는 단계 및 음성인식 결과에 기초하여, 타겟 텍스트 시퀀스에 대응하는 음성인식 결과를 생성하는 단계를 포함한다.

Description

음성인식 성능 향상 방법 및 장치{METHOD AND DEVICE FOR IMPROVING SPEECH RECOGNITION PERFORMANCE}

아래 실시예들은 음성인식 성능 향상 방법 및 장치에 관한 것으로, 보다 구체적으로 1개의 단어에 대해서도 음성 인식 성능을 높이기 위한 기술에 관한 것이다.

음성인식 장치는 사용자의 음성을 텍스트로 변환하고, 텍스트에 포함된 메시지의 의미를 분석하며, 분석 결과에 기반하여 또 다른 형태의 소리를 출력할 수 있는 장치이다. 최근에는 교육 분야에서도 외국어 등을 암기하고자 할 때 음성인식이 적극적으로 활용되고 있는 추세이다.

다만, 종래의 음성인식 장치는 문장 또는 문구(2개 이상의 단어)의 경우에는 인식률이 높지만, 1개의 단어에 대해서는 인식률이 매우 낮은 문제가 있다.

실시예들은 음성 인식 결과 정보에 대한 후처리를 수행하여, 단어의 음성 인식 성능을 향상시키고자 한다.

실시예들은 음성 인식 기반의 외국어 단어 학습 방법을 제공하고자 한다.

일 실시예에 따른 음성인식 성능 향상 방법은 타겟 텍스트 시퀀스에 대응하는 입력 음성을 수신하는 단계; 상기 입력 음성에 적어도 하나의 보조 텍스트 시퀀스에 대응하는 음원을 부가하여 결합 음원을 생성하는 단계; 상기 결합 음원을 서버에 전송하는 단계; 상기 서버로부터 상기 결합 음원에 대응하는 음성인식 결과를 수신하는 단계; 및 상기 음성인식 결과에 기초하여, 상기 타겟 텍스트 시퀀스에 대응하는 음성인식 결과를 생성하는 단계를 포함한다.

상기 타겟 텍스트 시퀀스에 대응하는 음성인식 결과를 생성하는 단계는 상기 음성인식 결과에서, 상기 보조 텍스트 시퀀스에 대응하는 음성인식 결과를 제거하여 상기 타겟 텍스트 시퀀스에 대응하는 음성인식 결과를 생성하는 단계를 포함할 수 있다.

상기 결합 음원을 생성하는 단계는 상기 입력 음성의 전단에 상기 보조 텍스트 시퀀스에 대응하는 음원을 부가하는 단계를 포함할 수 있다.

상기 부가하는 단계는 상기 입력 음성의 전단과 상기 보조 텍스트 시퀀스에 대응하는 음원 사이에 미리 정해진 딜레이 시간을 부가하는 단계를 포함할 수 있다.

상기 보조 텍스트 시퀀스는 상기 타켓 텍스트 시퀀스에 기초하여 미리 결정될 수 있다.

상기 타겟 텍스트 시퀀스는 타겟 단어를 포함하고, 상기 보조 텍스트 시퀀스는 적어도 하나의 보조 단어를 포함할 수 있다.

문제를 표시하는 단계를 더 포함하고, 상기 입력 음성을 수신하는 단계는 상기 문제에 대한 답변으로 상기 입력 음성을 수신하는 단계를 포함할 수 있다.

일 실시예에 따른 음성인식 성능 향상 방법은 상기 타겟 텍스트 시퀀스에 대응하는 음성인식 결과와 상기 타겟 텍스트 시퀀스를 비교하는 단계; 및 상기 비교 결과에 기초하여 상기 문제에 대한 평가를 수행하는 단계를 더 포함할 수 있다.

일 실시예에 따른 음성인식 성능 향상 장치는 타겟 텍스트 시퀀스에 대응하는 입력 음성을 수신하고, 상기 입력 음성에 적어도 하나의 보조 텍스트 시퀀스에 대응하는 음원을 부가하여 결합 음원을 생성하고, 상기 결합 음원을 서버에 전송하고, 상기 서버로부터 상기 결합 음원에 대응하는 음성인식 결과를 수신하며, 상기 음성인식 결과에 기초하여, 상기 타겟 텍스트 시퀀스에 대응하는 음성인식 결과를 생성하는 프로세서를 포함할 수 있다.

상기 프로세서는 상기 음성인식 결과에서, 상기 보조 텍스트 시퀀스에 대응하는 음성인식 결과를 제거하여 상기 타겟 텍스트 시퀀스에 대응하는 음성인식 결과를 생성할 수 있다.

상기 프로세서는 상기 입력 음성의 전단에 상기 보조 텍스트 시퀀스에 대응하는 음원을 부가할 수 있다.

상기 프로세서는 상기 입력 음성의 전단과 상기 보조 텍스트 시퀀스에 대응하는 음원 사이에 미리 정해진 딜레이 시간을 부가할 수 있다.

상기 보조 텍스트 시퀀스는 상기 타겟 텍스트 시퀀스에 기초하여 미리 결정될 수 있다.

상기 프로세서는 문제를 표시하고, 상기 문제에 대한 답변으로 상기 입력 음성을 수신할 수 있다.

상기 프로세서는 상기 타겟 텍스트 시퀀스에 대응하는 음성인식 결과와 상기 타겟 텍스트 시퀀스를 비교하고, 상기 비교 결과에 기초하여 상기 문제에 대한 평가를 수행할 수 있다.

실시예들은 음성 인식 결과 정보에 대한 후처리를 수행하여, 단어의 음성 인식 성능을 향상시킬 수 있다.

실시예들은 음성 인식 기반의 외국어 단어 학습 방법을 제공할 수 있다.

도 1은 일 실시예에 따른 음성인식 성능 향상 시스템을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 음성인식 성능 향상 장치의 동작을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 음성인식 성능 향상 방법을 설명하기 위한 순서도이다.
도 4는 일 실시예에 따른 음성 인식 기반의 외국어 단어 학습 방법을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 음성인식 성능 향상 장치의 블록도이다.

본 명세서에서 개시되어 있는 특정한 구조적 또는 능적 설명들은 단지 기술적 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 실시예들은 다양한 다른 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.

제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~간의에"와 "바로~간의에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 텔레비전, 스마트 가전 기기, 지능형 자동차, 키오스크, 웨어러블 장치 등 다양한 형태의 제품으로 구현될 수 있다. 이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 일 실시예에 따른 음성인식 성능 향상 시스템을 설명하기 위한 도면이다.

도 1을 참조하면, 일 실시예에 따른 음성인식 성능 향상 시스템은 단말(110) 및 서버(120)를 주체로 포함할 수 있고, 단말(110), 중앙 서버(120) 및 음성인식 서버(130)는 유무선 통신망(미도시) 통해 서로 연동할 수 있다.

유무선 통신망(미도시)은, 단말(110), 중앙 서버(120) 및 음성인식 서버(130) 간에 무선 통신 또는 유선 통신을 제공하는 통신망일 수 있다. 이러한 유무선 통신망이 무선 통신망으로 구현되는 경우, 기지국(BTS; Base Transceiver Station), 이동교환국(MSC; Mobile Switching Center) 및 홈 위치 등록기(HLR; Home Location Register)로 이루어진 무선 이동통신망을 이용하여 데이터 통신을 할 수 있다. 또한 유무선 통신망이 유선 통신망으로 구현되는 경우, 네트워크 통신망으로 구현될 수 있는데 TCP/IP(Transmission Control Protocol/Internet Protocol) 등의 인터넷 프로토콜에 따라서 데이터 통신이 이루어질 수 있다.

일 실시예에 따른 단말(110)은 사용자로부터 소정 명령을 수신하여 이에 해당하는 동작을 구동하는 기기로서, 오디오 출력 기능, 유무선 통신 기능 또는 이와는 다른 기능을 포함하는 디지털 기기일 수 있다. 일 실시예에 따르면, 단말(110)은 인공지능 스피커, 태블릿 PC, 스마트폰, 개인용 컴퓨터(예를 들어, 노트북 컴퓨터 등), 스마트 TV, 이동 전화기, 내비게이션, 웹 패드, PDA, 워크스테이션 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기를 모두 포함하는 개념일 수 있다.

단말(110)은 중앙 서버(120)와 관련된 어플리케이션의 설치 및 실행이 가능한 모든 사용자 장치를 의미할 수 있다. 이때, 단말(110)은 어플리케이션의 제어 하에 서비스 화면의 구성, 데이터 입력, 데이터 송수신, 데이터 저장 등 서비스 전반의 동작을 수행할 수 있다. 어플리케이션은 PC 환경은 물론 모바일 환경에서 사용 가능하도록 구현되며, 독립적으로 동작하는 프로그램 형태로 구현되거나 혹은 특정 어플리케이션의 인-앱(in-app) 형태로 구성되어 특정 어플리케이션 상에서 동작이 가능하도록 구현될 수 있다.

단말(110)은 음향학적 신호(acoustic speech signal)를 수신하는 마이크와 오디오 컨텐츠를 재생하는 스피커를 포함하는 기기일 수 있다. 단말(110)은 음성 인식 기술을 통해 다양한 서비스(또는 기능)을 제공할 수 있다. 예를 들어, 단말(110)은 음성인식 기반의 외국어 학습 서비스를 제공할 수 있다. 단말(110)은 사용자에게 문제를 제시하고, 사용자로부터 문제에 대응하는 사용자의 음성을 수신할 수 있다. 이후, 단말(110)은 수신한 음성에 음원을 부가한 후, 이를 음성인식 서버(130)에 전송하고, 음성인식 서버(130)로부터 음성인식 결과를 수신할 수 있다. 단말(110)은 음성인식 결과에 기초하여, 정답 또는 오답 여부를 판단하고, 이를 사용자에게 제공할 수 있다.

단말(110)은 사용자에게 음성인식 서비스와 관련된 인터페이스를 제공할 수 있다. 예를 들어, 단말(110)은 사용자에게 실행 중인 어플리케이션에 대응되는 직관적인 사용자 인터페이스를 제공할 수 있다. 단말(110)은 사용자의 음성을 인식하여 사용자의 의도 및 목적을 달성하기 위한 동작을 파악하여 오디오 컨텐츠 어플리케이션을 단계적으로 실행시킬 수 있는 인터페이스를 제공할 수 있다. 또는, 단말(110)은 사용자로부터 의도 및 목적을 달성하기 위한 동작을 입력 받기 위한 인터페이스 및 입력에 따른 어플리케이션의 동작 과정을 사용자에게 시각적으로 표시하는 인터페이스를 제공할 수 있다.

인터페이스는 단말(110) 자체적으로 제공하는 것일 수 있다. 예를 들면, 단말(110)의 OS(Operation System)에 의해 제공되는 것일 수도 있고, 단말(110)에 설치된 어플리케이션에 의해 제공되는 것일 수도 있다. 또한, 인터페이스는 중앙 서버(120)에 의해 제공되는 것일 수도 있으며, 단말(110)은 단순히 중앙 서버(120)로부터 제공되는 인터페이스를 수신하여 표시하기만 할 수도 있다.

아래에서 상세하게 설명하겠으나, 실시예들에 따른 음성인식 성능 향상 장치는 단말(110) 또는 중앙 서버(120)에 구비될 수 있고, 음성인식 성능 향상 장치는 단순히 음성인식 서버(130)만을 이용하여 음성인식을 수행하는 경우 보다, 음성인식의 성능을 향상시킬 수 있다.

도 2는 일 실시예에 따른 음성인식 성능 향상 장치의 동작을 설명하기 위한 도면이다.

일 실시예에 따른 음성인식 성능 향상 방법을 설명하기에 앞서, 도 2를 참조하여 음성인식 성능 향상 장치를 사용하지 않은 일반적인 음성인식 방법을 간략하게 설명한다.

음성인식 성능 향상 장치를 사용하지 않은 일반적인 음성인식 방법(예를 들어, 음성인식 서버(130)만을 이용하여 음성인식을 수행하는 방법)은 문장 또는 문구(2개 이상의 단어)의 경우에는 인식률이 높지만, 1개의 단어에 대해서는 인식률이 매우 낮을 수 있다.

예를 들어, 종래의 음성인식 장치가 "knee" 또는 "teeth"와 같이 1개의 단어 에 대응하는 음성을 수신하는 경우에는 도면(210) 또는 도면(230)과 같이 음성인식 실패에 대응하는 "error"를 출력할 수 있다. 반면에, 종래의 음성인식 장치가 "I put it on my knee" 또는 "my decayed teeth"와 같이 문장에 대응하는 음성을 수신하는 경우에는 도면(220) 또는 도면(240)과 같이 정상적인 음성인식 결과 후보들을 출력할 수 있다.

일반적인 음성인식 방법은 단어의 출현 빈도를 기반으로 앞 단어의 영향을 받는다(예를 들어, Hidden Marcov Model). 그러나, 단일 단어만 발음을 할 때에는 음향학적 분석만으로 측정하기 때문에 인식률이 떨어질 수 밖에 없다. 나아가, 일반적인 음성인식 방법의 경우 앞 뒤 단어와의 문법적인 고려도 하기 때문에 단일 단어만으로는 인식률이 낮을 수 밖에 없다.

이를 고려하여, 일 실시예에 따른 음성인식 성능 향상 장치는 음성인식을 수행하고자 하는 입력 음성의 전단에, 미리 정해진 음원을 부가하여 보다 긴 결합 음원을 생성할 수 있다. 나아가, 음성인식 성능 향상 장치는 결합 음원을 음성인식 서버에 전송하고, 서버로부터 결합 음원에 대한 음성인식 결과를 수신할 수 있다. 음성인식 성능 향상 장치는 음성인식 결과에서, 미리 정해진 음원에 대응하는 텍스트를 제외한 최종 결과를 생성할 수 있다. 아래에서, 도 3 내지 도 4를 참조하여, 음성인식 성능 향상 방법을 상세히 설명한다.

도 3은 일 실시예에 따른 음성인식 성능 향상 방법을 설명하기 위한 순서도이다.

도 3의 동작은 도시된 순서 및 방식으로 수행될 수 있지만, 도시된 실시예의 사상 및 범위를 벗어나지 않으면서 일부 동작의 순서가 변경되거나 일부 동작이 생략될 수 있다. 도 3에 도시된 다수의 동작은 병렬로 또는 동시에 수행될 수 있다.

도 3의 단계들(310 내지 350)은 도 1 내지 도 2를 참조하여 설명된 음성인식 성능 향상 장치에 의해 수행될 수 있다. 음성인식 성능 향상 장치는 하나 또는 그 이상의 하드웨어 모듈, 하나 또는 그 이상의 소프트웨어 모듈, 또는 이들의 다양한 조합에 의하여 구현될 수 있다.

단계(310)에서, 음성인식 성능 향상 장치는 타겟 텍스트 시퀀스에 대응하는 입력 음성을 수신한다. 입력 음성은 음성인식의 대상이 되는 음성일 수 있고, 타겟 텍스트 시퀀스는 해당 입력 음성에 대응하는 텍스트 시퀀스일 수 있다. 예를 들어, 타겟 텍스트 시퀀스는 "knee"일 수 있고, 입력음성은 "knee"에 대응하는 음성일 수 있다. 또한, 타겟 텍스트 시퀀스는 단일 단어일 수 있다. 일 실시예에 따른 음성인식 성능 향상 장치는 단일 단어에 대응하는 입력 음성을 수신하여도, 음성인식을 수행할 수 있다.

단계(320)에서 음성인식 성능 향상 장치는 입력 음성에 적어도 하나의 보조 텍스트 시퀀스에 대응하는 음원을 부가하여 결합 음원을 생성한다. 음성인식 성능 향상 장치는 입력 음성의 전단에 보조 텍스트 시퀀스에 대응하는 음원을 부가할 수 있다. 입력 음성 뒤에 보조 텍스트 시퀀스에 대응하는 음원을 부가하는 것은 사용자의 음성 발화가 끝나는 시점이 항상 다르기 때문에, 서버에 전송하는 발화문을 만드는데 딜레이가 걸리기 때문이다.

또한, 음성인식 성능 향상 장치는 입력 음성의 전단과 보조 텍스트 시퀀스에 대응하는 음원 사이에 미리 정해진 딜레이 시간을 부가할 수 있다. 이는, 두 단어 이상으로 이루어진 어구이기 때문에 단어 사이에 딜레이가 필요하기 때문이다.

나아가, 보조 텍스트 시퀀스는 타켓 텍스트 시퀀스에 기초하여 미리 결정될 수 있다. 일례로, 음성인식이 잘 되는 문구이면서 타겟 텍스트 시퀀스 앞에 자연스럽게 붙을 수 있는 시퀀스를 보조 텍스트 시퀀스로 선택할 수 있다. 예를 들어, 타겟 텍스트 시퀀스 "knee" 전단에 붙을 수 있는 "painful", "broken", "injured" 등을 타겟 텍스트 시퀀스 "knee"에 대응하는 보조 텍스트 시퀀스로 결정할 수 있다. 또한, 보조 텍스트 시퀀스는 "your", "their"등의 대명사나 "a", "an", "the" 등의 관사여서는 안 되며, 형용사, 명사 등의 발화 단어를 꾸며주는 단어이어야 할 수 있다. 일 실시예에 따른 보조 텍스트 시퀀스는 영어사전의 관용어구, 예문의 어구를 참조하여 선택될 수 있다.

보조 텍스트 시퀀스가 결정되면, 보조 텍스트 시퀀스에 대응하는 음원도 미리 구비되어야 할 수 있다. 보조 텍스트 시퀀스에 대응하는 음원은 음성인식의 성능이 높은 음원으로, 예를 들어 원어민 발음의 음원일 수 있다.

일 실시예에 따른 보조 텍스트 시퀀스 및 보조 텍스트 시퀀스에 대응하는 음원은 전술한 바와 같이 미리 구비되거나, 또는 실시간으로 선택 및 생성될 수 있다. 예를 들어, 보조 텍스트 시퀀스를 결정하는 알고리즘이 구비된 경우, 음성인식 성능 향상 장치는 해당 알고리즘에 기초하여 실시간으로 보조 텍스트 시퀀스를 선택할 수 있고, TTS 엔진 등을 이용하여 보조 텍스트 시퀀스에 대응하는 음원을 생성할 수 있다.

단계(330)에서 음성인식 성능 향상 장치는 결합 음원을 음성인식 서버에 전송한다.

단계(340)에서 음성인식 성능 향상 장치는 음성인식 서버로부터 결합 음원에 대응하는 음성인식 결과를 수신한다. 도 2를 참조하여 설명한 바와 같이, 음성인식 서버는 단일 단어에 대한 음성인식의 인식률은 떨어지지만 문장 또는 문구에 대한 인식률은 높을 수 있다. 이러한 환경에서, 일 실시예에 따른 음성인식 서버는 단일 단어가 아닌, 단일 단어에 대응하는 입력 음성에 보조 텍스트 시퀀스에 대응하는 음원을 부가한 결합 음원에 대하여 음성인식을 수행할 수 있다.

단계(350)에서 음성인식 성능 향상 장치는 음성인식 결과에 기초하여, 타겟 텍스트 시퀀스에 대응하는 음성인식 결과를 생성한다. 음성인식 결과는 텍스트 시퀀스로, 타겟 텍스트 시퀀스에 대응하는 결과와 보조 텍스트 시퀀스에 대응하는 결과로 구성될 수 있다.

음성인식 성능 향상 장치는 음성인식 결과에서 보조 텍스트 시퀀스에 대응하는 음성인식 결과를 제거하여 타겟 텍스트 시퀀스에 대응하는 음성인식 결과를 생성할 수 있다.

도 4는 일 실시예에 따른 음성 인식 기반의 외국어 단어 학습 방법을 설명하기 위한 도면이다.

도 4를 참조하면, 일 실시예에 따른 음성인식 성능 향상 장치는 단말(402)을 통해 사용자(401)에게 문제를 제시할 수 있다. 예를 들어, 음성인식 성능 향상 장치는 "무릎이 영어로?" 또는 "‘knee’를 읽으시오" 같은 문제를 제시할 수 있다.

단계(410)에서, 사용자(401)는 문제에 대한 단어를 발화할 수 있다. 여기서, 문제에 대한 단어는 도 3을 참조하여 전술한 타겟 텍스트 시퀀스일 수 있다.

단계(420)에서, 단말(402)은 보조 텍스트 시퀀스(예를 들어, "painful")에 대응하는 음원을 입력 음성 전단에 부가하여 서버(403)에 전송할 수 있다. 서버(403)는 도 1 내지 도 3을 참조하여 전술한 음성인식 서버일수 있다.

단계(430)에서, 서버(403)는 결합 음성에 대응하는 음성인식 결과(예를 들어, "painful knee")를 단말(402)에게 전송할 수 있다.

단계(440)에서, 단말(402)은 음성인식 결과에서 보조 텍스트 시퀀스(예를 들어, "painful")에 대응하는 음성인식 결과를 제거할 수 있다.

단계(450)에서, 단말(402)은 타겟 텍스트 시퀀스(예를 들어, "knee"에 대응하는 음성인식 결과를 생성할 수 있다.

단계(460)에서, 단말(402)은 사용자(401)에게 결과를 출력하여 표시할 수 있다. 일례로, 단말(402)은 타겟 텍스트 시퀀스에 대응하는 음성인식 결과와 상기 타겟 텍스트 시퀀스를 비교할 수 있고, 비교 결과에 기초하여 상기 문제에 대한 평가를 수행할 수 있다. 예를 들어, "무릎이 영어로?"라는 문제에 있어서, 타겟 텍스트 시퀀스는 "knee"일 수 있고, 타겟 텍스트 시퀀스에 대응하는 음성인식 결과가 "knee"인 경우, 단말(402)은 "정답입니다"라는 결과를 표시할 수 있다. 또는, "무릎이 영어로?"라는 문제에 있어서, 타겟 텍스트 시퀀스에 대응하는 음성인식 결과가 "ankle"인 경우, 단말(402)은 "오답입니다"라는 결과를 표시할 수 있다.

도 5는 일 실시예에 따른 음성인식 성능 향상 장치의 블록도이다.

도 5를 참조하면, 일 실시예에 따른 음성인식 성능 향상 장치(500)는 프로세서(510)를 포함한다. 음성인식 성능 향상 장치(500)는 메모리(530), 통신 인터페이스(550), 및 센서들(570)을 더 포함할 수 있다. 프로세서(510), 메모리(530), 통신 인터페이스(550), 및 센서들(570)은 통신 버스(505)를 통해 서로 통신할 수 있다.

프로세서(510)는 타겟 텍스트 시퀀스에 대응하는 입력 음성을 수신하고, 입력 음성에 적어도 하나의 보조 텍스트 시퀀스에 대응하는 음원을 부가하여 결합 음원을 생성하고, 결합 음원을 서버에 전송하고, 서버로부터 결합 음원에 대응하는 음성인식 결과를 수신하며, 음성인식 결과에 기초하여, 타겟 텍스트 시퀀스에 대응하는 음성인식 결과를 생성한다.

메모리(530)는 보조 문자 시퀀스 및 보조 문자 시퀀스에 대응하는 음원 중 적어도 하나를 포함할 수 있다. 메모리(530)는 휘발성 메모리 또는 비 휘발성 메모리일 수 있다.

센서들(570)은 예를 들어, 화자의 음성 신호를 수신하는 음향 센서 등을 포함할 수 있다. 센서들은 다양한 음향 정보를 수집할 수 있다.

실시예에 따라서, 프로세서(510)는 상기 음성인식 결과에서, 보조 텍스트 시퀀스에 대응하는 음성인식 결과를 제거하여 타겟 텍스트 시퀀스에 대응하는 음성인식 결과를 생성할 수 있다. 프로세서(510)는 입력 음성의 전단에 보조 텍스트 시퀀스에 대응하는 음원을 부가할 수 있다. 프로세서(510) 입력 음성의 전단과 보조 텍스트 시퀀스에 대응하는 음원 사이에 미리 정해진 딜레이 시간을 부가할 수 있다. 프로세서(510)는 문제를 표시하고, 문제에 대한 답변으로 입력 음성을 수신할 수 있다. 프로세서(510)는 타겟 텍스트 시퀀스에 대응하는 음성인식 결과와 타겟 텍스트 시퀀스를 비교하고, 비교 결과에 기초하여 문제에 대한 평가를 수행할 수 있다.

이 밖에도, 프로세서(510)는 도 1 내지 도 4를 통해 전술한 적어도 하나의 방법 또는 적어도 하나의 방법에 대응되는 알고리즘을 수행할 수 있다. 프로세서(510)는 프로그램을 실행하고, 음성인식 성능 향상 장치(500)를 제어할 수 있다. 프로세서(510)에 의하여 실행되는 프로그램 코드는 메모리(530)에 저장될 수 있다. 음성인식 성능 향상 장치(500)는 입출력 장치(미도시)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다. 음성인식 성능 향상 장치(500)는 스마트 폰, 테블릿 컴퓨터, 랩톱 컴퓨터, 데스크톱 컴퓨터, 텔레비전, 웨어러블 장치, 보안 시스템, 스마트 홈 시스템 등 다양한 컴퓨팅 장치 및/또는 시스템에 탑재될 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

타겟 텍스트 시퀀스에 대응하는 입력 음성을 수신하는 단계;
상기 입력 음성에 적어도 하나의 보조 텍스트 시퀀스에 대응하는 음원을 부가하여, 상기 입력 음성 및 상기 보조 텍스트 시퀀스에 대응하는 음원을 포함하는 결합 음원을 생성하는 단계;
상기 결합 음원을 서버에 전송하는 단계;
상기 서버로부터 상기 결합 음원에 대응하는 음성인식 결과를 수신하는 단계; 및
상기 음성인식 결과에서, 상기 보조 텍스트 시퀀스에 대응하는 음성인식 결과를 제거하여 상기 타겟 텍스트 시퀀스에 대응하는 음성인식 결과를 생성하는 단계
를 포함하는 음성인식 성능 향상 방법.
삭제
제1항에 있어서,
상기 결합 음원을 생성하는 단계는
상기 입력 음성의 전단에 상기 보조 텍스트 시퀀스에 대응하는 음원을 부가하는 단계
를 포함하는, 음성인식 성능 향상 방법.
제3항에 있어서,
상기 부가하는 단계는
상기 입력 음성의 전단과 상기 보조 텍스트 시퀀스에 대응하는 음원 사이에 미리 정해진 딜레이 시간을 부가하는 단계
를 포함하는, 음성인식 성능 향상 방법.
제1항에 있어서,
상기 보조 텍스트 시퀀스는
상기 타겟 텍스트 시퀀스에 기초하여 미리 결정되는, 음성인식 성능 향상 방법.
제1항에 있어서,
상기 타겟 텍스트 시퀀스는
타겟 단어를 포함하고,
상기 보조 텍스트 시퀀스는
적어도 하나의 보조 단어를 포함하는, 음성인식 성능 향상 방법.
제1항에 있어서,
상기 입력 음성을 수신하는 단계는
상기 타겟 텍스트 시퀀스에 대응하는 문제를 표시하는 단계; 및
상기 문제에 대한 답변으로 상기 입력 음성을 수신하는 단계
를 포함하는, 음성인식 성능 향상 방법.
제7항에 있어서,
상기 타겟 텍스트 시퀀스에 대응하는 음성 인식 결과를 생성하는 단계는
상기 타겟 텍스트 시퀀스에 대응하는 음성인식 결과와 상기 타겟 텍스트 시퀀스를 비교하는 단계; 및
상기 비교 결과에 기초하여 상기 문제에 대한 평가를 수행하는 단계
를 더 포함하는, 음성인식 성능 향상 방법.
하드웨어와 결합되어 제1항 및 제3항 내지 제8항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
타겟 텍스트 시퀀스에 대응하는 입력 음성을 수신하고, 상기 입력 음성에 적어도 하나의 보조 텍스트 시퀀스에 대응하는 음원을 부가하여 결합 음원을 생성하고, 상기 결합 음원을 서버에 전송하고, 상기 서버로부터 상기 결합 음원에 대응하는 음성인식 결과를 수신하며, 상기 음성인식 결과에서, 상기 보조 텍스트 시퀀스에 대응하는 음성인식 결과를 제거하여 상기 타겟 텍스트 시퀀스에 대응하는 음성인식 결과를 생성하는
프로세서
를 포함하는 음성인식 성능 향상 장치.
삭제
제10항에 있어서,
상기 프로세서는
상기 입력 음성의 전단에 상기 보조 텍스트 시퀀스에 대응하는 음원을 부가하는, 음성인식 성능 향상 장치.
제12항에 있어서,
상기 프로세서는
상기 입력 음성의 전단과 상기 보조 텍스트 시퀀스에 대응하는 음원 사이에 미리 정해진 딜레이 시간을 부가하는, 음성인식 성능 향상 장치.
제10항에 있어서
상기 보조 텍스트 시퀀스는
상기 타겟 텍스트 시퀀스에 기초하여 미리 결정되는, 음성인식 성능 향상 장치.
제10항에 있어서
상기 타겟 텍스트 시퀀스는
타겟 단어를 포함하고,
상기 보조 텍스트 시퀀스는
적어도 하나의 보조 단어를 포함하는, 음성인식 성능 향상 장치.
제10항에 있어서
상기 프로세서는
상기 입력 음성을 수신함에 있어서,
상기 타겟 텍스트 시퀀스에 대응하는 문제를 표시하고, 상기 문제에 대한 답변으로 상기 입력 음성을 수신하는, 음성인식 성능 향상 장치.
제16항에 있어서
상기 프로세서는
상기 타겟 텍스트 시퀀스에 대응하는 음성 인식 결과를 생성함에 있어서,
상기 타겟 텍스트 시퀀스에 대응하는 음성인식 결과와 상기 타겟 텍스트 시퀀스를 비교하고, 상기 비교 결과에 기초하여 상기 문제에 대한 평가를 수행하는, 음성인식 성능 향상 장치.