KR101971513B1

KR101971513B1 - 전자 장치 및 이의 음성 인식 오류 수정 방법

Info

Publication number: KR101971513B1
Application number: KR1020120073518A
Authority: KR
Inventors: 박치연; 김남훈; 조정미; 이재원
Original assignee: 삼성전자주식회사
Priority date: 2012-07-05
Filing date: 2012-07-05
Publication date: 2019-04-23
Also published as: KR20140005639A

Abstract

전자 장치 및 그의 음성 인식 오류 수정 방법이 제공된다. 본 전자 장치의 음성 인식 오류 수정 방법은 음향 모델 및 언어 모델을 이용하여 음성 입력부를 통해 입력된 사용자 음성을 인식하고, 인식된 사용자 음성을 텍스트로 디스플레이하며, 디스플레이된 전체 텍스트 중 적어도 하나의 텍스트가 선택되면, 선택된 텍스트에 대한 복수의 후보 텍스트를 추출하고, 복수의 후보 텍스트가 포함된 오류 수정 UI를 디스플레이하며, 오류 수정 UI에 디스플레이된 복수의 후보 텍스트 중 하나가 선택되면, 선택된 적어도 하나의 텍스트를 선택된 후보 텍스트로 변경하여 디스플레이하고, 변경 결과에 따라 음향 모델 및 언어 모델을 업데이트한다. 이에 의해, 사용자는 보다 편리하게 음성 인식 결과에 나타난 오류를 수정할 수 있다.

Description

전자 장치 및 이의 음성 인식 오류 수정 방법{Electronic apparatus and Method for modifying voice recognition errors thereof}

본 발명은 전자 장치 및 이의 음성 인식 오류 수정 방법에 대한 것으로, 더욱 상세하게는 사용자가 의도하지 않은 음성이 인식된 경우, 음성 인식의 오류를 수정하기 위한 전자 장치 및 이의 음성 인식 오류 수정 방법에 대한 것이다.

전자 기술의 발달에 힘입어 다양한 종류의 전자 장치가 개발되어 보급되고 있다. 특히, 최근에는 TV를 비롯한 다양한 유형의 전자 장치들이 일반 가정에서 사용되고 있다. 이들 전자 장치들은 사용자의 요구에 따라 점차 다양한 기능을 구비하게 되었다. 특히, TV의 경우, 최근에는 인터넷과 연결되어 인터넷 서비스까지 지원하고 있다. 또한, 사용자는 TV를 통해 많은 수의 디지털 방송 채널까지 시청할 수 있게 되었다.

이에 따라, 전자 장치의 다양한 기능들을 효율적으로 사용하기 위한 다양한 입력 방법이 요구되고 있다. 예를 들어, 리모컨을 이용한 입력 방법, 마우스를 이용한 입력 방법 및 터치 패드를 이용한 입력 방법 등이 전자 장치에 적용되고 있다.

하지만, 이러한 단순한 입력 방법만으로는, 전자 장치의 다양한 기능을 효과적으로 사용하기에는 어려움이 있었다. 가령, 전자 장치의 모든 기능들을 리모컨만으로 제어하도록 구현하게 되면, 리모컨의 버튼 수를 늘리는 것이 불가피하였다. 이 경우, 일반 사용자가 리모컨의 사용법을 익히는 것은 결코 용이하지 않은 일이었다. 또한, 다양한 메뉴들을 화면상에 표시하여 사용자가 해당 메뉴를 찾아서 선택하도록 하는 방법의 경우, 사용자가 복잡한 메뉴 트리를 일일이 확인하여, 자신이 원하는 메뉴를 선택하여야 한다는 번거로움이 있었다.

이러한 번거로움을 극복하기 위해, 근래에는 전자 장치를 더욱 편리하고 직관적으로 제어하기 위해, 음성 인식을 이용하여 전자 장치를 제어하고 있다. 그러나, 음성 인식 기술의 한계로 인해 100% 완벽하게 사용자의 음성을 인식할 수 없는 상황이 존재한다.

따라서, 사용자가 의도하지 않은 음성이 인식된 경우, 이러한 음성 인식 오류를 수정하기 위한 방안의 모색이 요청된다.

본 발명은 상기 목적을 달성하기 위해 안출된 것으로, 본 발명의 목적은 음성 인식 오류를 수정하기 위해, 오인식된 텍스트들의 후보 텍스트들이 포함된 오류 수정 UI를 제공하는 전자 장치 및 그의 음성 인식 오류 수정 방법을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 전자 장치의 음성 인식 오류 수정 방법은, 음향 모델 및 언어 모델을 이용하여 음성 입력부를 통해 입력된 사용자 음성을 인식하는 단계; 상기 인식된 사용자 음성을 텍스트로 디스플레이하는 단계; 디스플레이된 전체 텍스트 중 적어도 하나의 텍스트가 선택되면, 상기 선택된 텍스트에 대한 복수의 후보 텍스트를 추출하는 단계; 상기 복수의 후보 텍스트가 포함된 오류 수정 UI를 디스플레이하는 단계; 상기 오류 수정 UI에 디스플레이된 복수의 후보 텍스트 중 하나가 선택되면, 상기 선택된 적어도 하나의 텍스트를 상기 선택된 후보 텍스트로 변경하여 디스플레이하는 단계; 및 상기 변경 결과에 따라 상기 음향 모델 및 언어 모델을 업데이트하는 단계;를 포함한다.

그리고, 상기 인식하는 단계는, 상기 음향 모델 및 언어 모델을 이용하여 상기 사용자 음성의 발음 및 문맥을 분석하는 단계; 상기 분석 결과에 따라 상기 사용자 음성과 일치하는 확률이 기설정된 값 이상인 텍스트로 구성된 음성 래티스(lattice)를 생성하는 단계; 및 상기 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 경로를 사용자 음성에 대응되는 텍스트로 출력하는 단계;을 포함할 수 있다.

또한, 상기 추출하는 단계는, 상기 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 텍스트를 제외하고, 상기 적어도 하나의 텍스트와 시작점 및 끝점 중 적어도 하나가 동일한 텍스트를 후보 텍스트로 추출할 수 있다.

그리고, 상기 오류 수정 UI에 포함된 복수의 후보 텍스트는, 상기 사용자 음성과 일치하는 확률이 높은 순서대로 디스플레이될 수 있다.

또한, 상기 추출하는 단계는, 발음 사전을 이용하여 상기 사용자 음성의 발음과 유사도가 기설정된 값 이상인 텍스트를 후보 텍스트로 추출할 수 있다.

그리고, 상기 업데이트하는 단계는, 상기 인식된 사용자의 음성에 대한 상기 변경된 후보 텍스트의 가중치를 높이도록 업데이트할 수 있다.

한편, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 전자 장치는, 사용자 음성을 입력받는 음성 입력부; 음향 모델 및 언어 모델을 이용하여 상기 사용자 음성을 인식하는 음성 인식부; 상기 인식된 사용자 음성을 텍스트로 디스플레이하는 디스플레이부; 사용자 명령을 입력받는 사용자 입력부; 및 상기 사용자 입력부를 통해 상기 디스플레이부에 디스플레이된 전체 텍스트 중 적어도 하나의 텍스트가 선택되면, 상기 선택된 텍스트에 대한 복수의 후보 텍스트를 추출하고, 상기 복수의 후보 텍스트가 포함된 오류 수정 UI를 디스플레이하도록 상기 디스플레이부를 제어하며, 상기 사용자 입력부를 통해 상기 오류 수정 UI에 디스플레이된 복수의 후보 텍스트 중 하나가 선택되면, 상기 선택된 적어도 하나의 텍스트를 상기 선택된 후보 텍스트로 변경하여 디스플레이하도록 상기 디스플레이부를 제어하며, 상기 변경 결과에 따라 상기 음향 모델 및 언어 모델을 업데이트하는 제어부;를 포함한다.

그리고, 상기 음성 인식부는, 상기 음향 모델 및 언어 모델을 이용하여 상기 사용자 음성의 발음 및 문맥을 분석하고, 상기 분석 결과에 따라 상기 사용자 음성과 일치하는 확률이 기설정된 값 이상인 텍스트로 구성된 음성 래티스를 생성하며, 상기 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 경로를 사용자 음성에 대응되는 텍스트로 출력할 수 있다.

또한, 상기 제어부는, 상기 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 텍스트를 제외하고, 상기 적어도 하나의 텍스트와 시작점 및 끝점 중 적어도 하나가 동일한 텍스트를 후보 텍스트로 추출할 수 있다.

또한, 상기 제어부는, 발음 사전을 이용하여 상기 사용자 음성의 발음과 유사도가 기설정된 값 이상인 텍스트를 후보 텍스트로 추출할 수 있다.

그리고, 상기 제어부는, 상기 인식된 사용자의 음성에 대한 상기 변경된 후보 텍스트의 가중치를 높이도록 업데이트할 수 있다.

상술한 바와 같은 본 발명의 다양한 실시예에 의해, 사용자는 보다 편리하게 음성 인식 결과에 나타난 오류를 수정할 수 있다. 또한, 후보 텍스트 추출 시 음향 모델, 언어 모델 및 발음 사전을 함께 이용함으로써, 더욱 정확한 후보 텍스트를 추출할 수 있게 된다. 또한, 오류 수정 결과를 업데이트함으로써, 차후에 더욱 정환한 음성 인식이 가능해진다.

도 1은 본 발명의 일 실시예에 따른, 전자 장치의 구성을 나타내는 블럭도,
도 2 및 도 3은 본 발명의 일 실시예에 따른, 음성 인식 결과에 의한 래티스를 도시한 도면,
도 4는 본 발명의 일 실시예에 따른, 발음 사전에 저장된 데이터 베이스를 도시한 도면,
도 5는 본 발명의 일 실시예에 따른, 오류 수정 UI를 도시한 도면, 그리고
도 6은 본 발명의 일 실시예에 따른, 음성 인식 오류 수정 방법을 설명하기 위한 흐름도이다.

이하에서는 도면을 참조하여 본 발명에 대해 더욱 상세히 설명하도록 한다. 도 1은 본 발명의 일 실시예에 따른, 전자 장치(100)의 구성을 나타내는 블럭도이다. 도 1에 도시된 바와 같이, 전자 장치(100)는 음성 입력부(110), 음성 인식부(120), 사용자 입력부(130), 디스플레이부(140) 및 제어부(150)를 포함한다. 이때, 전자 장치(100)는 스마트 TV일 수 있으나, 이에 한정되지 않고, 데스크탑 PC, 태블릿 PC, 스마트 폰 등과 같이 음성 인식이 적용될 수 있는 다양한 전자 장치에 적용될 수 있다.

음성 입력부(110)는 사용자 음성이 포함된 오디오 신호를 입력받고, 오디오 신호를 처리하여 사용자 음성 신호를 생성한다.

이때, 음성 입력부(110)는 전자 장치(100)의 본체의 외부에 구비될 수 있다. 전자 장치(100) 본체의 외부에 구비된 경우, 음성 입력부(110)는 무선 인터페이스(예를 들어, Wi-Fi, 블루투스 등)을 통해 생성된 사용자 음성 신호를 전자 장치(100)의 본체에 전송할 수 있다. 특히, 본 발명의 일 실시예에 따른 음성 입력부(110)는 마이크(미도시), ADC(Analog-Digital Converter)(미도시), 에너지 판단부(미도시), 노이즈 제거부(미도시) 및 음성신호 생성부(미도시)를 포함할 수 있다.

마이크는 사용자 음성이 포함된 아날로그 형태의 오디오 신호를 입력받는다.

그리고, ADC는 마이크로부터 입력된 다채널 아날로그 신호를 디지털 신호로 변환한다.

그리고, 에너지 판단부는 변환된 디지털 신호의 에너지를 계산하여, 디지털 신호의 에너지가 기설정된 값 이상인지 여부를 판단한다. 디지털 신호의 에너지가 기설정된 값 이상인 경우, 에너지 판단부는 입력된 디지털 신호를 노이즈 제거부로 전송하고, 디지털 신호의 에너지가 기설정된 값 미만인 경우, 에너지 판단부는 입력된 디지털 신호를 외부로 출력하지 않고, 다른 입력을 기다린다. 이는 음성 신호가 아닌 소리에 의해 전체 오디오 처리 과정이 활성화되지 않아, 불필요한 전력 소모를 방지하기 위함이다.

한편, 상술한 실시예에서는 에너지 판단부를 이용하여 불필요한 전력 소모를 방지하는 것으로 설명하였으나, 이는 일 실시예에 불과할 뿐, 버튼을 이용하여, 불필요한 전력 소모를 방지할 수 있다. 예를 들어, 버튼을 누른 경우에 입력되는 음성 신호에 대해서는 음성 인식을 수행하여, 불필요한 전력 소모를 방지할 수 있게 된다.

노이즈 제거부에 입력된 디지털 신호가 입력된 경우, 노이즈 제거부는 노이즈 성분과 사용자 음성 성분이 포함된 디지털 신호 중 노이즈 성분을 제거한다. 이때, 노이즈 성분은 가정 환경에서 발생할 수 있는 돌발성 잡음으로써, 에어컨 소리, 청소기 소리, 음악 소리 등이 포함될 수 있다. 그리고, 노이즈 제거부는 노이즈 성분이 제거된 디지털 신호를 음성 신호 생성부로 출력한다.

음성 신호 생성부는 Localization/Speaker Tracking 모듈을 이용하여 음성 입력부를 기준으로 360˚ 범위 내에 존재하는 사용자의 발화 위치를 추적하여 사용자 음성에 대한 방향 정보를 구한다. 그리고, 음성 신호 생성부는 Target Spoken Sound Extraction 모듈을 통해 노이즈가 제거된 디지털 신호와 사용자 음성에 대한 방향 정보를 이용하여 음성 입력부를 기준으로 360˚ 범위 내에 존재하는 목표 음원을 추출한다. 특히, 음성 입력부(110)가 외부에 구비된 경우, 음성 신호 생성부는 사용자 음성을 전자 장치로 전송하기 위한 형태의 사용자 음성 신호로 변환하고, 무선 인터페이스를 이용하여 전자 장치의 본체로 사용자 음성 신호를 전송한다.

음성 인식부(120)는 음향 모델(123) 및 언어 모델(126)을 이용하여 음성 입력부(110)를 통해 입력된 사용자 음성 신호를 인식한다.

이때, 음향 모델(123)은 음소(즉, 발성 단위, e.g. words, syllables, triphones, or smaller parts of speech)가 어떤 식으로 발성되는지를 다수의 화자 발성 데이터를 토대로 훈련함으로써 만들어지는 음성의 통계적 모델이다. 즉, '아' 라는 단어는 소리로 어떻게 표현되는지를 모델로 만들어 두는 것이다. 특히, 본 발명의 일 실시예에 따른 음향 모델(123)은 HMM(hidden Markov model) 모델을 이용할 수 있다.

그리고, 언어 모델(126)은 음성 신호의 문법을 검색할 수 있다. 이는 텍스트 말뭉치 데이터베이스로부터 문법을 추출하여, 학습 및 탐색 시 임의적인 문장보다는 문법에 맞는 언어모델은 단어와 단어 사이의 말의 규칙을 정해 두는 것으로, 일종의 문법이라고 볼 수 있다. '아버지가 방에 들어갑니다'의 경우에, '아버지가 방에' 다음에 '들어갑니다'라는 말이 오면 말이 되지만, '아버지가 방에' 다음에 '사랑합니다'라는 말이 오면 문법적인 것도 틀리고, 의미론적으로도 맞지 않다. 이와 같이 언어모델은 단어와 단어 사이의 문법을 확률 값으로 정의해 둔 것이다.

구체적으로, 음성 인식부(120)는 음향 모델(123) 및 언어 모델(126)을 이용하여 사용자 음성 신호의 발음 및 문맥을 분석하고, 분석 결과에 따라 사용자 음성 신호와 일치하는 확률이 기설정된 값 이상인 텍스트로 구성된 음성 래티스(lattice)를 생성하며, 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 경로(Path)를 사용자 음성에 대응되는 텍스트로 출력할 수 있다. 이때, 음성 래티스는 도 2 및 도 3에 도시된 바와 같이, 사용자 음성 신호와 일치할 수 있는 복수의 텍스트들을 네트워크 형태로 복수의 경로를 통해 구성한 단어 그래프일 수 있다.

한편, 본 발명의 일 실시예에 따른, 음향 모델(123) 및 언어 모델(126)은 전자 장치(100) 내부에 구비될 수 있으나, 이는 일 실시예에 불과할 뿐, 외부의 서버를 통해 제공될 수 있다. 또한, 음성 인식부(120)는 별도의 모듈로 구현될 수 있으나, 이는 일 실시예에 불과할 뿐, 제어부(150)와 동일한 모듈로 구현될 수도 있다.

사용자 입력부(130)는 전자 장치(100)를 제어하기 위한 사용자 명령을 입력받는다. 이때, 사용자 입력부(130)는 리모컨, 마우스, 키보드, 터치 스크린 등과 같은 입력 장치로 구현될 수 있다.

디스플레이부(140)는 제어부(150)의 제어에 의해 영상 데이터를 디스플레이한다. 특히, 디스플레이부(140)는 음성 인식부(120)에 의해 인식된 사용자 음성을 텍스트로 출력할 수 있다. 또한, 디스플레이부(140)는 오인식된 사용자 음성을 수정하기 위한 오류 수정 UI(User Interface)를 디스플레이할 수 있다.

제어부(150)는 사용자 명령에 의해 전자 장치(100)의 전반적인 동작을 제어할 수 있다. 특히, 사용자 입력부(130)를 통해 디스플레이부(140)에 디스플레이된 전체 텍스트 중 적어도 하나의 텍스트가 선택되면, 제어부(150)는 선택된 텍스트에 대한 복수의 후보 텍스트를 추출하고, 복수의 후보 텍스트가 포함된 오류 수정 UI를 디스플레이하도록 디스플레이부(140)를 제어한다. 그리고, 사용자 입력부(130)를 통해 오류 수정 UI에 디스플레이된 복수의 후보 텍스트 중 하나가 선택되면, 제어부(150)는 선택된 적어도 하나의 텍스트를 선택된 후보 텍스트로 변경하여 디스플레이하도록 디스플레이부(140)를 제어한다. 그리고 제어부(150)는 변경 결과에 따라 음향 모델(123) 및 언어 모델(126)을 업데이트 한다.

구체적으로, 제어부(150)는 음성 인식부(120)를 통해 인식된 사용자 음성에 대응되는 텍스트 정보를 디스플레이부(140)에 디스플레이할 수 있다. 구체적으로, 음성 입력부(110)를 통해 사용자 음성 신호가 입력되면, 음성 인식부(120)는 음향 모델(123) 및 언어 모델(126)을 이용하여, 도 2에 도시된 바와 같은 사용자 음성과 일치하는 확률이 기 설정된 값 이상인 텍스트로 구성된 음성 래티스(lattice)를 출력한다. 그리고, 제어부(150)는 음성 래티스 중 가장 확률이 높은 1-Best Path를 음성 인식의 결과로 디스플레이부(140)에 디스플레이한다. 예를 들어, 도 2에 도시된 바와 같은 음성 래티스에서, 제어부(150)는 가장 확률이 높다고 판단된 "benign bone lesion의 가능성이 높음"을 디스플레이부(140)에 디스플레이할 수 있다.

그리고, 사용자가 디스플레이된 텍스트가 오인식되었다고 판단하여 사용자 입력부(140)를 통해 오인식된 적어도 하나의 텍스트를 선택한 경우, 제어부(150)는 선택된 텍스트에 대한 적어도 하나의 후보 텍스트를 추출한다.

구체적으로, 제어부(150)는 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 텍스트를 제외한 나머지 텍스트를 후보 텍스트로 추출할 수 있다. 예를 들어, 사용자가 디스플레이된 텍스트 중에서 "bone lesion"을 선택한 경우, 제어부(150)는 도 6에 도시된 음성 래티스 중에서 "condition" 및 "lesion"을 "bone lesion"의 후보 텍스트로 추출할 수 있다.

특히, 제어부(150)는 사용자가 음성 래티스 중에서 시작점 및 끝점 중 적어도 하나가 일치하는 텍스트를 후보 텍스트로 추출할 수 있다. 구체적으로, 도 3에 도시된 바와 같이, "bone lesion"과 "condition"은 시작점이 서로 동일하나, 끝점이 동일하지 못하다. 그러나, 본 발명의 일 실시예에서는 끝점이 서로 상이하더라도 시작점만 동일한 경우, 후보 텍스트로 추출할 수 있다.

또한, 사용자가 복수의 텍스트를 선택한 경우, 제어부(150)는 음성 래티스 중에서 사용자가 선택한 복수의 텍스트의 시작점 및 끝점의 범위 내에 들어오는 Path를 후보 텍스트로 추출할 수 있다.

또한, 신조어나 자주 사용하지 않는 언어가 입력된 경우, 언어 모델(126)을 통해 후보로 제시되지 못하는 후보 텍스트가 발생할 수 있으므로, 제어부(150)는 도 4에 도시된 바와 같은 발음 사전을 이용하여 사용자 음성의 발음과 유사도가 기설정된 값 이상인 텍스트를 후보 텍스트로 추출할 수 있다. 이때, 발음 사전은 특정 단어와 발음이 유사한 단어를 특정 단어와 일치할 확률과 함께 매칭하여 저장한 데이터베이스일 수 있다.

그리고, 제어부(150)는 추출된 복수의 후보 텍스트가 포함된 오류 수정 UI를 디스플레이할 수 있다. 이때, 제어부(150)는 도 5에 도시된 바와 같이, 사용자가 선택한 텍스트의 하단에 오류 수정 UI(510)를 디스플레이할 수 있다. 이때, 오류 수정 UI(510)에 포함된 복수의 후보 텍스트는 사용자 음성과 일치하는 확률이 높은 순서대로 디스플레이될 수 있다. 예를 들어, 오류 수정 UI(510)는 "bone lesion"의 후보 텍스트로 "Bone lesion", "Bony lesion", "Condition" 및 "Lesion"을 디스플레이할 수 있다.

그리고, 사용자 입력부(130)를 통해 오류 수정 UI(510)에 디스플레이된 복수의 후보 텍스트 중 하나가 선택되면, 제어부(150)는 선택된 적어도 하나의 텍스트를 사용자에 의해 선택된 후보 텍스트로 변경하여 디스플레이할 수 있다. 예를 들어, 도 5에 도시된 바와 같은 오류 수정 UI(510)를 통해 "Condition"을 선택한 경우, 제어부(510)는 사용자 음성을 인식한 텍스트 문장을 "Benign Condition 가능성이 높음"으로 수정하여 디스플레이할 수 있다.

사용자가 바꾸고자 하는 텍스트가 후보 텍스트에 없는 경우, 제어부(150)는 수정하고자 하는 텍스트를 사용자 입력부(130)를 통해 사용자가 직접 입력한 텍스트로 변경하여 디스플레이할 수 있다.

그리고, 제어부(150)는 변경 결과에 따라 음향 모델(123) 및 언어 모델(126)을 업데이트할 수 있다. 즉, 사용자가 발화한 음성 신호가 다음에 다시 입력되는 경우, 변경된 텍스트가 최우선적으로 출력될 수 있도록, 제어부(150)는 음향 모델(123) 및 언어 모델(126)을 학습시킬 수 있다.

구체적으로, 음성 래티스에 각각의 후보 단어들에 해당하는 음성 구간이 함께 표기되어 있으므로, 제어부(150)는 음성 래티스의 음성 구간을 바탕으로 수정된 텍스트에 해당하는 음성 구간을 파악하고, 변경된 Path에 대해 더 높은 가중치를 두도록 음향 모델을 업데이트 할 수 있다. 또한, 제어부(150)는 수정된 텍스트를 포함하는 문법에 대해 더 높은 가중치를 두도록 언어 모델(126)을 업데이트할 수 있다.

상술한 바와 같은 전자 장치(100)에 의해, 사용자는 보다 편리하게 음성 인식 결과에 나타난 오류를 수정할 수 있다. 또한, 후보 텍스트 추출 시 음향 모델, 언어 모델 및 발음 사전을 함께 이용함으로써, 더욱 정확한 후보 텍스트를 추출할 수 있게 된다. 또한, 오류 수정 결과를 업데이트함으로써, 차후에 더욱 정환한 음성 인식이 가능해진다.

이하에서는 도 6을 참조하여, 전자 장치(100)의 음성 인식 오류 수정 방법에 대해 더욱 상세히 설명하기로 한다.

우선, 전자 장치(100)는 음성 입력 장치를 통해 사용자 음성을 입력받는다(S610). 이때, 전자 장치(100)는 마이크와 같은 음성 입력 장치를 통해 사용자 음성을 입력받고, 사용자 음성을 디지털 신호로 변환한 후, 노이즈를 제거하여, 사용자 음성 신호를 추출할 수 있다.

그리고, 전자 장치(100)는 음향 모델(123) 및 언어 모델(126)을 이용하여 사용자 음성을 인식한다(S620). 구체적으로, 전자 장치(100)는 음향 모델(123) 및 언어 모델(126)을 이용하여 사용자 음성의 발음 및 문맥을 분석하고, 분석 결과에 따라 사용자 음성과 일치하는 확률이 기설정된 값 이상인 텍스트로 구성된 음성 래티스를 생성하며, 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 경로의 텍스트를 사용자 음성에 대응되는 텍스트로 출력할 수 있다.

그리고, 전자 장치(100)는 인식된 사용자 음성을 텍스트로 디스플레이한다(S630).

그리고, 전자 장치(100)는 오인식된 텍스트를 수정하기 위하여, 디스플레이된 텍스트 중에서 적어도 하나의 텍스트가 선택되었는지 여부를 판단한다(S640).

오인식된 적어도 하나의 텍스트가 선택된 경우(S640-Y), 전자 장치(100)는 적어도 하나의 텍스트에 대한 후보 텍스트를 추출한다(S650). 이때, 전자 장치(100)는 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 텍스트를 제외하고, 적어도 하나의 텍스트와 시작점 및 끝점 중 적어도 하나가 동일한 텍스트를 후보 텍스트로 추출할 수 있다. 또한, 전자 장치(100)는 발음 사전을 이용하여 사용자 음성의 발음과 유사도가 기설정된 값 이상인 텍스트를 후보 텍스트로 추출할 수 있다.

그리고, 전자 장치(100)는 추출된 후보 텍스트가 포함된 오류 수정 UI를 디스플레이한다(S660). 이때, 오류 수정 UI는 사용자 음성과 일치하는 확률이 높은 순서대로 후보 텍스트를 디스플레이할 수 있다.

그리고, 전자 장치(100)는 오류 수정 UI에 디스플레이된 후보 텍스트 중 하나가 선택되었는지 여부를 판단한다(S670).

후보 텍스트 중 하나가 선택되면(S670-Y), 전자 장치(100)는 적어도 하나의 텍스트를 선택된 후보 텍스트로 변경하여 디스플레이한다(S680).

그리고, 전자 장치(100)는 변경 결과를 바탕으로 음향 모델(123) 및 언어 모델(125)을 업데이트 한다(S690). 즉, 사용자가 발화한 음성 신호가 다음에 다시 입력되는 경우, 변경된 후보 텍스트가 최우선적으로 출력될 수 있도록, 전자 장치(100)는 음향 모델(123) 및 언어 모델(126)을 학습시킬 수 있다.

상술한 바와 같은 음성 인식 오류 수정 방법에 의해, 사용자는 보다 편리하게 음성 인식 결과에 나타난 오류를 수정할 수 있다. 또한, 후보 텍스트 추출 시 음향 모델, 언어 모델 및 발음 사전을 함께 이용함으로써, 더욱 정확한 후보 텍스트를 추출할 수 있게 된다. 또한, 오류 수정 결과를 업데이트함으로써, 차후에 더욱 정환한 음성 인식이 가능해진다.

이상과 같은 다양한 실시 예에 따른 음성 인식 오류 수정 방법을 수행하기 위한 프로그램 코드는 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장될 수 있다. 비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

110: 음성 입력부 120: 음성 인식부
123: 음향 모델 126: 언어 모델
130: 사용자 입력부 140: 디스플레이부
150: 제어부

Claims

전자 장치의 음성 인식 오류 수정 방법에 있어서,
음향 모델 및 언어 모델을 이용하여 음성 입력부를 통해 입력된 사용자 음성을 인식하는 단계;
상기 인식된 사용자 음성을 텍스트로 디스플레이하는 단계;
디스플레이된 전체 텍스트 중 적어도 하나의 텍스트가 선택되면, 상기 선택된 텍스트에 대한 복수의 후보 텍스트를 획득하는 단계;
상기 복수의 후보 텍스트가 포함된 오류 수정 UI를 디스플레이하는 단계;
상기 오류 수정 UI에 디스플레이된 복수의 후보 텍스트 중 하나가 선택되면, 상기 선택된 적어도 하나의 텍스트를 상기 선택된 후보 텍스트로 변경하여 디스플레이하는 단계; 및
상기 변경 결과에 따라 상기 음향 모델 및 언어 모델을 업데이트하는 단계;를 포함하고,
상기 인식하는 단계는, 상기 사용자 음성과 일치하는 확률이 기설정된 값 이상인 텍스트로 구성된 음성 래티스(lattice)를 획득하고,
상기 획득하는 단계는, 상기 음성 래티스 중 적어도 하나의 텍스트와 시작점 및 끝점 중 적어도 하나가 동일한 텍스트를 상기 후보 텍스트로 획득하며,
상기 음향 모델 및 언어 모델을 업데이트하는 단계는, 상기 선택된 후보 텍스트를 포함하는 문법에 대해 가중치를 부여하는, 음성 인식 오류 수정 방법.
제1항에 있어서,
상기 인식하는 단계는,
상기 음향 모델 및 언어 모델을 이용하여 상기 사용자 음성의 발음 및 문맥을 분석하는 단계; 및
상기 분석 결과에 기초하여 획득된 상기 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 경로를 사용자 음성에 대응되는 텍스트로 출력하는 단계;를 포함하는 것을 특징으로 하는 음성 인식 오류 수정 방법.
제2항에 있어서,
상기 획득하는 단계는,
상기 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 텍스트를 제외하고, 나머지 텍스트를 후보 텍스트로 획득하는 것을 특징으로 하는 음성 인식 오류 수정 방법.
제3항에 있어서,
상기 오류 수정 UI에 포함된 복수의 후보 텍스트는,
상기 사용자 음성과 일치하는 확률이 높은 순서대로 디스플레이되는 것을 특징으로 하는 음성 인식 오류 수정 방법.
제3항에 있어서,
상기 획득하는 단계는,
발음 사전을 이용하여 상기 사용자 음성의 발음과 유사도가 기설정된 값 이상인 텍스트를 후보 텍스트로 획득하는 것을 특징으로 하는 음성 인식 오류 수정 방법.
제1항에 있어서,
상기 업데이트하는 단계는,
상기 인식된 사용자의 음성에 대한 상기 변경된 후보 텍스트의 가중치를 높이도록 업데이트하는 것을 특징으로 하는 음성 인식 오류 수정 방법.
전자 장치에 있어서,
사용자 음성을 입력받는 음성 입력부;
음향 모델 및 언어 모델을 이용하여 상기 사용자 음성을 인식하는 음성 인식부;
상기 인식된 사용자 음성을 텍스트로 디스플레이하는 디스플레이부;
사용자 명령을 입력받는 사용자 입력부; 및
상기 사용자 입력부를 통해 상기 디스플레이부에 디스플레이된 전체 텍스트 중 적어도 하나의 텍스트가 선택되면, 상기 선택된 텍스트에 대한 복수의 후보 텍스트를 획득하고, 상기 복수의 후보 텍스트가 포함된 오류 수정 UI를 디스플레이하도록 상기 디스플레이부를 제어하며, 상기 사용자 입력부를 통해 상기 오류 수정 UI에 디스플레이된 복수의 후보 텍스트 중 하나가 선택되면, 상기 선택된 적어도 하나의 텍스트를 상기 선택된 후보 텍스트로 변경하여 디스플레이하도록 상기 디스플레이부를 제어하며, 상기 변경 결과에 따라 상기 음향 모델 및 언어 모델을 업데이트하는 제어부;를 포함하고,
상기 음성 인식부는, 상기 사용자 음성과 일치하는 확률이 기설정된 값 이상인 텍스트로 구성된 음성 래티스를 획득하고,
상기 제어부는, 상기 음성 래티스 중 적어도 하나의 텍스트와 시작점 및 끝점 중 적어도 하나가 동일한 텍스트를 상기 후보 텍스트로 획득하며,
상기 제어부는, 상기 선택된 후보 텍스트를 포함하는 문법에 대해 가중치를 부여하여 상기 음향 모델 및 언어 모델을 업데이트하는, 전자 장치.
제7항에 있어서,
상기 음성 인식부는,
상기 음향 모델 및 언어 모델을 이용하여 상기 사용자 음성의 발음 및 문맥을 분석하고, 상기 분석 결과에 기초하여 획득된 상기 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 경로를 사용자 음성에 대응되는 텍스트로 출력하는 것을 특징으로 하는 전자 장치.
제8항에 있어서,
상기 제어부는,
상기 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 텍스트를 제외하고, 나머지 텍스트를 후보 텍스트로 획득하는 것을 특징으로 하는 전자 장치.
제9항에 있어서,
상기 오류 수정 UI에 포함된 복수의 후보 텍스트는,
상기 사용자 음성과 일치하는 확률이 높은 순서대로 디스플레이되는 것을 특징으로 하는 전자 장치.
제9항에 있어서,
상기 제어부는,
발음 사전을 이용하여 상기 사용자 음성의 발음과 유사도가 기설정된 값 이상인 텍스트를 후보 텍스트로 획득하는 것을 특징으로 하는 전자 장치.
제7항에 있어서,
상기 제어부는,
상기 인식된 사용자의 음성에 대한 상기 변경된 후보 텍스트의 가중치를 높이도록 업데이트하는 것을 특징으로 하는 전자 장치.