KR102449181B1

KR102449181B1 - 전자장치 및 그 제어방법

Info

Publication number: KR102449181B1
Application number: KR1020170158769A
Authority: KR
Inventors: 유영준; 배재현
Original assignee: 삼성전자 주식회사
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2022-09-29
Also published as: WO2019103340A1; US20200349939A1; KR20190060502A; EP3686883A1; US11594216B2; EP3686883A4

Abstract

본 발명은 전자장치에 관한 것으로서, 발화자의 음성을 수신하는 음성수신부; 및 소정 동작을 수행하고, 상기 동작 수행 중 상기 음성수신부를 통해 수신되는 상기 음성에 대하여 음성인식처리를 수행하여 인식결과를 획득하고, 상기 획득된 인식결과가 상기 동작에 대응하여 미리 정의된 적어도 하나의 가인식결과와 매칭되는 경우, 상기 가인식결과에 대응하여 미리 정의된 표준인식결과에 기초하여 제어를 수행하는 프로세서를 포함한다. 이에 의하면, 인식결과에 오류가 있더라도 발화 의도에 맞는 특정 동작을 수행할 수 있는 전자장치를 제공할 수 있다.

Description

전자장치 및 그 제어방법 {ELECTRONIC DEVICE AND CONTROL METHOD THEREOF}

본 발명은 전자장치 및 그 전자장치의 제어방법에 관한 것이다.

발화자는 음성제어 기능을 통해 전자장치를 제어할 수 있다. 음성제어 기능이란, 발화자가 전자장치의 특정 동작을 의도하고, 특정 동작에 대응하는 음성을 발화하면, 인식결과에 따라 특정 동작을 전자장치가 수행하도록 제어하는 기능이다.

그러나, 인식결과에 오류가 있는 경우, 전자장치는 발화 의도와는 다른 동작을 수행할 수 있다. 따라서, 인식결과에 오류가 있더라도 발화 의도에 맞는 특정 동작을 수행할 수 있는 전자장치가 필요하다.

따라서, 본 발명의 목적은, 인식결과에 오류가 있더라도 발화 의도에 맞는 특정 동작을 수행할 수 있는 전자장치 및 그 전자장치의 제어방법을 제공하는 것이다.

상기한 본 발명의 목적은, 발화자의 음성을 수신하는 음성수신부; 및 소정 동작을 수행하고, 상기 동작 수행 중 상기 음성수신부를 통해 수신되는 상기 음성에 대하여 음성인식처리를 수행하여 인식결과를 획득하고, 상기 획득된 인식결과가 상기 동작에 대응하여 미리 정의된 적어도 하나의 가인식결과와 매칭되는 경우, 상기 가인식결과에 대응하여 미리 정의된 표준인식결과에 기초하여 제어를 수행하는 프로세서를 포함하는 것을 특징으로 하는 전자장치에 의해 달성될 수 있다.

상기 프로세서는, 동작 별로 각각 마련되는 복수의 보정 모델 중 상기 수행되는 동작에 대응하는 적어도 하나의 보정 모델을 선택할 수 있다.

상기 프로세서는, 상기 획득된 인식결과가 상기 선택된 적어도 하나의 보정 모델의 상기 미리 정의된 적어도 하나의 가인식결과와 매칭되는지를 판단할 수 있다.

상기 프로세서는, 상기 획득된 인식결과가 상기 선택된 적어도 하나의 보정 모델의 상기 가인식결과에 대응하여 미리 정의된 표준인식결과와 매칭되는지를 판단할 수 있다.

상기 동작 별로 각각 마련되는 복수의 보정 모델을 저장하는 저장부를 더 포함할 수 있다.

또한, 상기한 본 발명의 목적은, 발화자의 음성을 수신하는 음성수신부를 포함하는 전자장치에 있어서, 소정 동작을 수행하는 단계; 상기 동작 수행 중 상기 음성수신부를 통해 수신되는 상기 음성에 대하여 음성인식처리를 수행하여 인식결과를 획득하는 단계; 및 상기 획득된 인식결과가 상기 동작에 대응하여 미리 정의된 적어도 하나의 가인식결과와 매칭되는 경우, 상기 가인식결과에 대응하여 미리 정의된 표준인식결과에 기초하여 제어를 수행하는 단계를 포함하는 것을 특징으로 하는 전자장치의 제어방법에 의해서도 달성될 수 있다.

상기 제어를 수행하는 단계는, 동작 별로 각각 마련되는 복수의 보정 모델 중 상기 수행되는 동작에 대응하는 적어도 하나의 보정 모델을 선택하는 단계를 포함할 수 있다.

상기 제어를 수행하는 단계는, 상기 획득된 인식결과가 상기 선택된 적어도 하나의 보정 모델의 상기 미리 정의된 적어도 하나의 가인식결과와 매칭되는지를 판단하는 단계를 포함할 수 있다.

상기 판단하는 단계는, 상기 획득된 인식결과가 상기 선택된 적어도 하나의 보정 모델의 상기 가인식결과에 대응하여 미리 정의된 표준인식결과와 매칭되는지를 판단하는 단계를 포함할 수 있다.

상기 동작 별로 각각 마련되는 복수의 보정 모델을 저장하는 단계를 더 포함할 수 있다.

또한, 상기한 본 발명의 목적은, 전자장치와 음성인식 서버를 포함하는 음성인식 시스템에 있어서, 상기 전자장치는, 발화자의 음성을 수신하는 음성수신부를 포함하며, 상기 음성인식 서버는, 상기 전자장치와 통신하는 통신부; 소정 동작을 수행하는 상기 전자장치가 상기 동작 수행 중 상기 음성수신부를 통해 수신되는 상기 음성을 통신부를 통하여 수신하고, 상기 수신한 음성에 대하여 음성인식처리를 수행하여 인식결과를 획득하고, 상기 획득된 인식결과가 상기 동작에 대응하여 미리 정의된 적어도 하나의 가인식결과와 매칭되는 경우, 상기 가인식결과에 대응하여 미리 정의된 표준인식결과에 기초하여 제어를 수행하는 프로세서를 포함하는 것을 특징으로 하는 음성인식 시스템에 의해서도 달성될 수 있다.

상기 음성인식 서버의 프로세서는, 동작 별로 각각 마련되는 복수의 보정 모델 중 상기 수행되는 동작에 대응하는 적어도 하나의 보정 모델을 선택할 수 있다.

상기 음성인식 서버의 프로세서는, 상기 획득된 인식결과가 상기 선택된 적어도 하나의 보정 모델의 상기 미리 정의된 적어도 하나의 가인식결과와 매칭되는지를 판단할 수 있다.

상기 음성인식 서버의 프로세서는, 상기 획득된 인식결과가 상기 선택된 적어도 하나의 보정 모델의 상기 가인식결과에 대응하여 미리 정의된 표준인식결과와 매칭되는지를 판단할 수 있다.

또한, 상기한 본 발명의 목적은, 컴퓨터가 읽을 수 있는 코드로서, 발화자의 음성을 수신하는 음성수신부를 포함하는 전자장치의 제어방법을 수행하는 코드를 포함하는 컴퓨터 프로그램이 저장된 기록매체에 있어서, 상기 전자장치의 제어방법은, 소정 동작을 수행하는 단계; 상기 동작 수행 중 상기 음성수신부를 통해 수신되는 상기 음성에 대하여 음성인식처리를 수행하여 인식결과를 획득하는 단계; 및 상기 획득된 인식결과가 상기 동작에 대응하여 미리 정의된 적어도 하나의 가인식결과와 매칭되는 경우, 상기 가인식결과에 대응하여 미리 정의된 표준인식결과에 기초하여 제어를 수행하는 단계를 포함하는 것을 특징으로 하는 컴퓨터가 읽을 수 있는 프로그램이 기록된 기록매체에 의해서도 달성될 수 있다.

본 발명에 의하면, 인식결과에 오류가 있더라도 발화 의도에 맞는 특정 동작을 수행할 수 있는 전자장치 및 그 전자장치의 제어방법을 제공할 수 있다.

도 1은 본 발명의 일 실시예에 관한 전자장치의 블록도이다.
도 2은 도 1의 전자장치의 제어방법에 관한 순서도이다.
도 3은 도 1의 전자장치의 프로세서에 관한 블록도이다.
도 4는 도 3의 전자장치의 음성제어 기능에 관한 예시도이다.
도 5는 도 4의 전자장치의 제어방법에 관한 순서도이다.
도 6은 도 4의 전자장치를 포함하는 시스템에 관한 블록도이다.
도 7은 도 3의 전자장치가 외부장치를 통하여 음성을 수신하는 예시도이다.

이하에서는 첨부도면을 참조하여 본 발명에 따른 실시예들에 관해 상세히 설명한다. 이하 실시예들의 설명에서는 첨부된 도면들에 기재된 사항들을 참조하는 바, 각 도면에서 제시된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 구성요소를 나타낸다. 본 명세서에서의 복수의 구성 중 적어도 하나(at least one)는, 복수의 구성 전부뿐만 아니라, 복수의 구성 중 나머지를 배제한 각 하나 혹은 이들의 조합 모두를 지칭한다.

도 1은 본 발명의 일 실시예에 관한 전자장치의 블록도이다. 도 1에 도시된 바와 같이, 전자장치(100)는 신호수신부(110), 영상처리부(120), 음성수신부(130), 프로세서(140)를 포함할 수 있다. 경우에 따라서, 전자장치(100)는 디스플레이부(150), 저장부(160) 및 통신부(170) 중 적어도 하나를 더 포함할 수 있다. 전자장치(100)는 발화자로부터의 음성에 대응하는 특정 동작을 수행하는 장치라면 제한없이 구현이 가능하다. 예를 들어, 셋탑박스(Set-top Box), 스마트 TV, 스마트 폰, 스마트 워치, 웨어러블 디바이스, 태블릿, PC 등으로 구현될 수 있다.

신호수신부(110)는 적어도 하나의 채널의 영상신호를 수신한다. 신호수신부(110)는 수신하는 영상신호의 규격 및 전자장치(100)의 구현 형태에 따라 다양한 형식으로 마련될 수 있다. 예를 들어, 방송국으로부터 송출되는 RF(Radio Frequency) 방송신호를 수신하는 튜너로 구현될 수 있다.

영상처리부(120)는 수신된 영상신호를 기 설정된 영상처리 프로세스에 따라 처리한다. 예를 들어, 영상처리부(120)는 디코딩(decoding), 디인터레이싱(de-interlacing), 스케일링(scaling), 노이즈 감소(noise reduction), 디테일 인핸스먼트(detail enhancement) 등과 같은 영상처리 프로세스를 수행하지만, 이에 한정되는 것은 아니다. 영상처리부(120)는 이러한 여러 기능을 통합시킨 SOC(System-On-Chip) 또는 각 프로세스를 독자적으로 수행할 수 있는 개별 구성들이 장착된 영상처리보드로 구현될 수 있다.

음성수신부(130)는 발화자가 발화한 음성을 수신한다. 음성수신부(130)는 발화자의 음성을 하나의 음성신호로서 수신하며, 수신되는 음성신호는 음성인식의 대상이 되는 발화자의 음성 이외에 다양한 노이즈를 포함할 수 있으므로, 주파수 분석 등의 전처리 과정을 통해 발화자의 음성신호를 추출할 수 있다. 음성수신부(130)는 마이크로폰(microphone)으로 구현될 수 있다.

프로세서(140)는 전자장치(100)가 소정 동작을 수행할 수 있도록 전자장치(100)의 전반적인 구성을 제어할 수 있다. 프로세서(140)는 전자장치(100)의 소정 동작 수행 중, 음성수신부(130)를 통해 수신되는 음성에 대하여 음성인식처리를 수행할 수 있다. 프로세서(140)는 음성인식처리를 통하여 인식결과를 획득하고, 획득된 인식결과에 기초하여 전자장치(100)가 다른 동작을 수행하도록 제어를 수행할 수 있다. 프로세서(140)는 CPU(Central Processor Unit), 또는 마이크로프로세서로 구현될 수 있다.

디스플레이부(150)는 영상처리부(120)로부터 출력되는 영상신호에 기초하여 영상을 표시한다. 디스플레이부(150)의 구현 방식은 한정되지 않는 바, 디스플레이부(150)는 PDP(Plasma Display Panel), LCD(Liquid Crystal Display), LED(Light Emitting Diodes), OLED(Organic Light Emitting Diodes), 플렉시블 디스플레이(flexible display) 등 다양한 형태로 구현될 수 있다.

저장부(160)는 플래시메모리, 하드디스크 등과 같은 비휘발성의 메모리로서, 영상신호, 음성신호, 프로그램, 어플리케이션 등 전자장치(100)의 동작에 관련된 데이터를 저장할 수 있다. 통신부(170)는 외부장치(200)나 외부의 음성인식 서버(300)와 연결되어 통신을 수행할 수 있다. 통신부(170)는 다양한 통신 규격, 예를 들면, 와이파이(Wi-Fi), 블루투스, 지그비, WFD((Wi-Fi Direct), UWB(Ultra-Wideband), 적외선 통신(IrDA, infrared Data Association), BLE(Bluetooth Low Energy), NFC(Near Field Communication) 등을 사용할 수 있다.

도 2은 도 1의 전자장치의 제어방법에 관한 순서도이다. 도 2에 도시된 바와 같이, 전자장치(100)는, 프로세서(140)의 제어에 따라, 소정 동작을 수행한다(S210). 전자장치(100)는 소정 동작 수행 중 음성수신부(130)를 통해 수신되는 음성에 대하여 음성인식처리를 수행하여 인식결과를 획득한다(S220).

그리고, 전자장치(100)는 획득된 인식결과가 전자장치(100)의 동작에 대응하여 미리 정의된 적어도 하나의 가(假, pseudo-)인식결과와 매칭되는 경우, 가인식결과에 대응하여 미리 정의된 표준인식결과에 기초하여 제어를 수행할 수 있다(S230). 이에 의하면, 전자장치(100)는 인식결과에 오류가 있더라도 발화 의도에 맞는 특정 동작을 수행할 수 있다.

도 3은 도 1의 전자장치의 프로세서에 관한 블록도이다. 도 3에 도시된 바와 같이, 도 1의 전자장치(100)는 프로세서(140)를 포함하며, 프로세서(140)는 음성인식부(141), 음성보정부(144), 및 기능실행부(147)를 포함할 수 있다. 프로세서(140)의 구성을 제한하는 것은 아니므로, 이들 구성 중 적어도 하나를 빼거나 다른 구성을 프로세서(140)에 추가할 수 있다.

음성인식부(141)는 음향 모델(Acoustic Model), 언어 모델(Language Model), 및 사전(Dictionary) 등을 포함할 수 있다. 음성인식부(141)는 음성수신부(130)로부터 음성신호를 수신하고, 음향 모델(142)과 언어 모델과 사전(143)을 이용하여 수신된 음성신호에 대한 음성인식처리를 수행하여 인식결과를 출력한다.

음향 모델(142)은 음성신호의 특징 정보로부터 후보 발음열을 검출하기 위한 정보를 포함할 수 있다. 후보 발음열은 단어 단위로 검출될 수 있으나, 이에 한하지 않고, 음운, 음소 단위 등의 다양한 단위로 검출될 수 있다. 음향 모델(142)은 많은 양의 음성신호로부터 통계적인 방법을 통하여 생성될 수 있으며, 불특정 다수의 음성신호로부터 생성될 수도 있고, 특정 발화자로부터 수집된 음성신호로부터 생성될 수도 있다. 따라서, 음향 모델(142)은 음성인식처리 시 발화자에 따라 개별적으로 적용될 수 있다.

언어 모델과 사전(143)은 음성인식부(141)에서 음성인식처리 시 사용하는 문법적 모델인 언어 모델과 발음에 관한 사전을 저장할 수 있다. 발화자의 국적이나 거주 지역, 연령대, 언어 습관 등에 따라 사용 언어, 사용 방언, 문법 구조, 단어 등이 달라질 수 있다. 따라서, 다양한 언어 사용 형태의 변화에 대응할 수 있도록, 언어 모델과 사전(143)은 하나 이상의 언어 모델 및 하나 이상의 사전을 포함하는 것이 바람직하다.

그러나, 발화된 음성의 다양성, 가변성, 비정규성, 불규칙성 등으로 인해, 음성인식부(141)가 광범위한 음향 모델(142), 언어 모델과 사전(143)을 사용하여 수신된 음성신호에 대한 음성인식처리를 수행하더라도, 인식결과에는 오인식과 같은 오류가 있을 수 있다.

음성보정부(144)는 음성인식부(141)로부터 인식결과를 획득하고, 획득한 인식결과의 오류를 보정할 수 있다. 음성보정부(144)는 동작 정보의 획득 여부에 기초하여, 인식결과의 오류를 보정하는 방법을 다르게 할 수 있다. 동작 정보란, 전자장치(100)가 수행하는 동작에 관한 정보를 의미하는 것으로, 전자장치(100)에서 실행되는 메뉴, 프로그램, 어플리케이션 등에 관한 정보를 포함할 수 있다. 즉, 전자장치(100)가 소정 동작을 수행하고 있어서, 동작에 관한 정보를 획득할 수 있다면, 음성보정부(144)는 전자장치(100)의 소정 동작에 대응하도록 인식결과의 오류를 보정할 수 있다.

좀더 구체적으로, 음성보정부(144)가 전자장치(100)의 소정 동작에 관한 정보를 획득할 수 없는 경우, 음성보정부(144)는 범용 보정 모델을 사용하여 인식결과의 오류를 보정할 수 있다. 범용 보정 모델은 WFST(Weighted Finite State Transducers)를 이용하는 것으로서, 예를 들어, 문장을 단어 간의 관계로 표현하는 문법 WFST, 각 단어들을 문맥 독립 음소를 이용하여 표현하는 사전 WFST, 및 문맥 독립 음소들을 문맥 종속 음소들로 변환하는 문맥 WFST을 이용할 수 있다.

음성보정부(144)가 전자장치(100)의 소정 동작에 관한 정보를 획득할 수 있는 경우, 음성보정부(144)는 상황 보정 모델을 사용하여 인식결과의 오류를 보정할 수 있다. 상황 보정 모델은 전자장치(100)의 소정 동작과 연결된 고유의 보정 모델로서, 소정 동작에 적응되도록 미리 정의된 보정 모델이다. 소정 동작에 적응되도록 미리 정의된다는 것은, 전자장치(100)의 소정 동작에 대응하도록 미리 정의된 상황 보정 모델이, 발화된 음성에 대한 인식결과 또는 인식결과에 대한 스코어 등을 학습하여 업그레이드될 수 있음을 의미한다. 상황 보정 모델에 대한 업그레이드는 발화자에 의한 상황 보정 모델의 수정을 포함할 수 있다.

기능실행부(147)는 음성보정부(144)에 의해 보정된 인식결과에 따라 전자장치(100)가 특정 동작을 수행하도록 전자장치(100)를 제어할 수 있다. 기능실행부(147)는, 특정 동작의 수행에 필요하다면, 전자장치(100)의 전반적인 구성을 제어할 수도 있다.

도 4는 도 3의 전자장치의 음성제어 기능에 관한 예시도이다. 도 4의 (a)는 도 3의 전자장치(100)가 "주식 뉴스 채널"에 튜닝되어서, "AA회사 관련 주식 뉴스" 프로그램을 디스플레이부(150)에 표시하는 예를 도시한다. "AA회사 관련 주식 뉴스" 프로그램은 관련된 메뉴의 선택이나 관련된 어플리케이션의 실행에 의해서도 디스플레이부(150)에 표시될 수 있다. 다만, "AA회사 관련 주식 뉴스" 프로그램은 하나의 예이므로, 전자장치(100)는 다양한 채널에 따라 다양한 프로그램을 제한없이 표시할 수 있다.

"AA회사 관련 주식 뉴스" 프로그램에 관한 동작 중에, 발화자로부터 "주가 정보"라는 음성이 수신되면, 전자장치(100)는 "주가 정보"라는 인식결과를 획득하고, 인식결과에 따라 "AA회사의 주가 정보" 프로그램을 표시할 수 있다. 그러나, 발화자의 국적이나 거주 지역, 연령대, 언어 습관 등에 따라 사용 언어, 사용 방언, 문법 구조, 단어 등이 달라질 수 있기 때문에, 발화자가 "주가 정보"를 명확하고 정확하게 발화하는 것은 아니다. 예를 들어, 발화자는 "AA회사의 주가 정보" 프로그램을 의도하고 "주가 정보"를 발화했더라도, 전자장치(100)는 "축하 정보"로 오인식할 수 있다.

이하에서는, 발화자의 발화 의도는 "주가 정보"이나, "축하 정보"로 인식된 경우를 가정하여, 전자장치(100)가 발화 의도대로 "AA회사의 주가 정보" 프로그램을 표시하는 실시예에 대해 자세히 설명한다.

전자장치(100)는 소정 동작 각각과 연결된 고유의 상황 보정 모델을 미리 정의할 수 있다. 전자장치(100)가 수행할 수 있는 동작에는 제한이 없으므로, 전자장치(100)는 각각의 동작에 대응하는 복수의 상황 보정 모델을 정의할 수 있다. 전자장치(100)는 각 상황 보정 모델을 저장부(160)에 저장할 수 있다.

예를 들어, 도 4에 도시된 바와 같이, 전자장치(100)는 컨텍스트(context)가 "주식 서비스"인 상황 보정 모델을 미리 정의할 수 있다. "주식 서비스" 상황 보정 모델은, "축하 정보", "동작 정보" 등을 가인식결과로서 정의하고, "주가 정보"를 가인식결과에 대응하는 표준인식결과로서 정의할 수 있다.

전자장치(100)는 "AA회사 관련 주식 뉴스" 프로그램을 디스플레이부(150)에 표시하고 있으므로, "주식"과 관련된 동작의 수행 중 음성인식처리된 인식결과의 보정을 위해서, "주식 서비스" 상황 보정 모델을 사용할 수 있다. "주식"과 관련된 동작에는, "주식"과 관련된 메뉴, 프로그램, 어플리케이션의 실행, "주식"과 관련된 영상이나 오디오의 재생, "홈 트레이딩 시스템(Home Trading System)"의 실행 등이 포함될 수 있다.

전자장치(100)가 "AA회사 관련 주식 뉴스" 프로그램을 표시하는 중, 전자장치(100)는 음성인식처리를 통해 "축하 정보"라는 인식결과를 획득하는 경우, 현재의 동작이 "주식 뉴스"에 관한 것이므로, 전자장치(100)는 복수의 상황 보정 모델 중 "주식 서비스" 상황 보정 모델을 참조하여, 인식결과 "축하 정보"의 오류를 보정할 수 있다.

전자장치(100)는 인식결과 "축하 정보"가 "주식 서비스" 상황 보정 모델의 가인식결과와 매칭하는지를 판단할 수 있다. 가인식결과에는 "축하 정보"가 미리 정의되어 있으므로, 전자장치(100)는 인식결과 "축하 정보"가 가인식결과 "축하 정보"에 매칭하는 것으로 판단할 수 있다. 전자장치(100)는 인식결과 "축하 정보"를, 가인식결과 "축하 정보"에 대응하는 표준인식결과 "주가 정보"로 보정할 수 있다.

그리고, 도 4의 (b)와 같이, 전자장치(100)는 발화 의도대로 보정된 "주가 정보"에 기초하여 "AA회사의 주가 정보" 프로그램을 표시할 수 있다. 즉, 전자장치(100)는 인식결과의 오류에도 불구하고, 발화 의도에 맞는 특정 동작을 수행할 수 있다.

만일, 전자장치(100)가 현재의 동작에 관한 "주식 서비스" 상황 보정 모델을 참조하지 않고, 획득한 인식결과 "축하 정보"에 기초하여 음성제어 기능을 수행한다면, 전자장치(100)는 도 4의 (c)와 같이 발화 의도에 맞지 않는 "AA회사의 축하 뉴스"를 표시할 수 있다.

도 5는 도 4의 전자장치의 제어방법에 관한 순서도이다. 도 5에 도시된 바와 같이, 발화자에 의해 음성이 발화되면(S501), 전자장치(100)는 발화된 음성에 대해 음성인식처리를 수행하여 인식결과를 획득할 수 있다(S502). 전자장치(100)는 동작 정보 여부를 판단할 수 있다(S503). 동작 정보란, 전자장치(100)가 수행하는 소정 동작에 관한 정보이다. 동작 정보를 획득할 수 있는 경우, 전자장치(100)는 복수의 상황 모델 중 동작 정보에 대응하는 상황 모델을 결정할 수 있다(S504). 전자장치(100)는 소정 동작에 대응하는 각 상황 보정 모델을 저장하거나 외부로부터 획득할 수 있다. 전자장치(100)는 인식결과가 결정된 상황 모델의 가인식결과와 매칭하는지를 판단할 수 있다(S505). 매칭하는 경우, 전자장치(100)는 인식결과를 가인식결과에 대응하는 표준인식결과로 보정할 수 있다(S507). 그러나, 매칭하지 않는 경우, 전자장치(100)는 인식결과가 결정된 상황 모델의 표준인식결과와 매칭하는지를 판단할 수 있다(S506). 매칭하는 경우, 전자장치(100)는 인식결과를 표준인식결과로 보정할 수 있다(S508). 인식결과가 표준인식결과로 보정되면(S507, S508), 전자장치(100)는 보정된 표준인식결과에 기초하여 제어를 수행할 수 있다(S510).

한편, 동작 정보를 획득할 수 없는 경우, 전자장치(100)는 범용 보정 모델에 기초하여 인식결과를 보정할 수 있다(S509). 범용 보정 모델은 WFST(Weighted Finite State Transducers)를 이용하는 것일 수 있다. 범용 보정 모델을 사용하는 경우, 전자장치(100)는 문형 오류가 보정된 인식결과에 기초하여 제어를 수행할 수 있다(S510).

도 6은 도 4의 전자장치를 포함하는 시스템에 관한 블록도이다. 도 6에 도시된 바와 같이, 시스템은 도 1의 전자장치(100)와 음성인식 서버(300)를 포함할 수 있다. 음성인식 서버(300)는 프로세서(340), 저장부(360), 및 전자장치(100)와 통신을 위한 통신부(370)를 포함할 수 있다.

음성인식 서버(300)는 도 4의 전자장치(100)의 일부 기능을 수행할 수 있다. 음성인식 서버(300)는 프로세서(340)의 제어를 통하여, 전자장치(100)에서 수행되는 소정 동작 각각과 연결된 고유의 상황 보정 모델을 미리 정의할 수 있다. 전자장치(100)가 수행할 수 있는 동작에는 제한이 없으므로, 음성인식 서버(300)는 전자장치(100)가 수행할 수 있는 각각의 동작에 대응하는 복수의 상황 보정 모델을 정의할 수 있다. 음성인식 서버(300)는 복수의 상황 보정 모델을 저장부(360)에 저장할 수 있다.

음성인식 서버(300)가 "주식 서비스"에 관한 상황 보정 모델을 정의하는 경우를 예로 들면, 음성인식 서버(300)는 가인식결과로서 "축하 정보", "동작 정보" 등을 정의하고, 가인식결과에 대응하는 표준인식결과로서 "주가 정보"를 정의할 수 있다. 전자장치(100)가 "주식"과 관련된 동작의 수행 중 수신된 음성에 대해서, 음성인식 서버(300)는 음성인식처리 된 인식결과의 보정할 수 있다. 이를 위해서, 음성인식 서버(300)는 전자장치(100)가 수행하는 "주식"과 관련된 동작에 대응하는 "주식 서비스" 상황 보정 모델을 사용할 수 있다.

도 4의 (a)와 같이, 전자장치(100)가 "AA회사 관련 주식 뉴스" 프로그램을 표시하는 경우를 가정한다. 음성인식 서버(300)는 전자장치(100)를 통해 음성신호를 수신할 수 있다. 음성인식 서버(300)는 수신한 음성신호에 대해 음성인식처리를 수행하여 "축하 정보"라는 인식결과를 획득할 수 있다. 음성인식 서버(300)는 전자장치(100)의 현재의 동작이 "주식 뉴스"에 관한 것이라는 동작 정보를 획득할 수 있으므로, 복수의 상황 보정 모델 중 "주식 서비스" 상황 보정 모델을 참조하여, 인식결과 "축하 정보"의 오류를 보정할 수 있다.

즉, 음성인식 서버(300)는 인식결과 "축하 정보"가 "주식 서비스" 상황 보정 모델의 가인식결과와 매칭하는지를 판단할 수 있다. 가인식결과에는 "축하 정보"가 미리 정의되어 있으므로, 음성인식 서버(300)는 인식결과 "축하 정보"가 가인식결과 "축하 정보"에 매칭하는 것으로 판단할 수 있다. 음성인식 서버(300)는 인식결과 "축하 정보"를, 가인식결과 "축하 정보"에 대응하는 표준인식결과 "주가 정보"로 보정할 수 있다.

그리고, 음성인식 서버(300)는 표준인식결과 "주가 정보"에 관한 데이터를 전자장치(100)로 전송할 수 있다. 그러면, 도 4의 (b)와 같이, 전자장치(100)는 표준인식결과 "주가 정보"에 기초하여 "AA회사의 주가 정보" 프로그램을 표시할 수 있다. 즉, 시스템은 인식결과의 오류에도 불구하고, 발화 의도에 맞는 특정 동작을 수행할 수 있다.

음성인식 서버(300)가 전자장치(100)의 현재의 동작에 관한 동작 정보를 획득할 수 없는 경우, 음성인식 서버(300)가 범용 보정 모델에 기초하여 인식결과를 보정할 수 있다. 범용 보정 모델에 기초하여 인식결과를 보정하는 실시예는 도 4를 참조한 설명과 중복되므로 생략한다.

한편, 전자장치(100)와 음성인식 서버(300) 간의 음성제어 기능의 분담은 설계방법에 따라 달라질 수 있다. 예를 들어, 전자장치(100)가 자체적으로 발화된 음성에 대한 음성인식처리를 수행하고, 음성인식처리를 통해 획득한 인식결과를 음성인식 서버(300)에 제공할 수 있다.

또는, 전자장치(100)는 STT-서버(Speech To Text Server)로 음성신호를 전송하고, STT-서버로부터 음성신호의 텍스트를 수신할 수 있다. 전자장치(100)는 수신된 텍스트에 기초하여 음성인식처리를 수행하여 인식결과를 획득할 수 있다. 경우에 따라서, STT-서버는 음성신호의 텍스트를 전자장치(100)에 전송하지 않고, 음성인식 서버(300)로 전송하면, 음성인식 서버(300)가 음성인식처리를 수행하여 인식결과를 획득할 수도 있다.

도 7은 도 3의 전자장치가 외부장치를 통하여 음성을 수신하는 예시도이다. 전자장치(100)가 음성수신부(130)를 통하여 발화된 음성을 수신할 수 있지만, 도 7의 (1)과 같이, 전자장치(100)는 외부장치(200)로부터 음성에 관한 디지털 신호를 수신할 수 있다. 즉, 외부장치(200)가 발화된 음성을 수신하고, 음성에 관한 디지털 신호로 변환하여 전자장치(100)로 전송하면, 전자장치(100)가 음성에 관한 디지털 신호에 기초하여 음성인식처리를 수행할 수 있다. 음성인식처리 이후 전자장치(100)의 후속 동작은, 도 3을 참조한 설명과 중복되므로 생략한다.

외부장치(200)는 리모컨(Remote Controller), 스마트 폰 등과 같은 휴대용 모바일장치로 구현될 수 있다. 외부장치(200)가 휴대용 모바일장치로 구현되는 경우, 외부장치(200)는 리모컨과 같이 전자장치(100)를 제어하는 기능이나, 도 3의 전자장치(100)와 같이 음성인식처리를 수행하는 기능을 위한 어플리케이션을 설치할 수 있다. 특히, 외부장치(200)가 음성인식처리를 위한 어플리케이션을 실행하여, 발화된 음성에 대한 음성인식처리를 수행하는 경우, 전자장치(100)는 외부장치(200)로부터 음성인식처리에 의한 인식결과를 수신할 수 있다. 인식결과 수신 이후 전자장치(100)의 후속 동작은 도 3을 참조한 설명과 중복되므로 생략한다.

전자장치(100)의 통신부(170)는 이러한 외부장치(200)와 통신하기 위해 다양한 통신 규격, 예를 들어, 와이파이, 블루투스, 적외선 통신 등을 사용할 수 있다. 전자장치(100)는 도 6의 음성인식 서버(300)와 통신하기 위한 통신부(170)를 사용하여 외부장치(200)와 통신할 수도 있지만, 별도의 통신부를 마련하여 외부장치(200)와 통신할 수 있다.

한편, 도 7의 (2)와 같이, 외부장치(200)는 음성에 관한 디지털 신호나 인식결과를 음성인식 서버(300)에 제공할 수 있다. 이 때, 외부장치(200)는 전자장치(100)에 관한 정보를 함께 제공하여, 음성인식 서버(300)가 전자장치(100)를 특정할 수 있도록 한다. 외부장치(200)가 음성에 관한 디지털 신호를 음성인식 서버(300)에 제공한 경우, 음성인식 서버(300)는 이에 기초하여 음성인식처리를 수행한다. 음성인식 서버(300)의 후속 동작은 도 6을 참조한 설명과 중복되므로 생략한다.

100: 전자장치
110: 신호수신부
120: 영상처리부
130: 음성수신부
140: 프로세서
150: 디스플레이부
160: 저장부
170: 통신부
200: 외부장치
300: 음성인식 서버

Claims

전자장치에 있어서,
발화자의 음성을 수신하는 음성수신부; 및
제1 동작을 수행하고,
상기 제1 동작 수행 중 상기 음성수신부를 통해 수신되는 상기 음성에 대하여 음성인식처리를 수행하여 인식결과를 획득하고,
상기 획득된 인식결과가 복수의 가단어 중 어느 하나의 가단어와 매칭되는 경우, 상기 가단어에 대응하는 표준단어를 식별하고,
상기 식별된 표준단어에 대응하는 제2 동작을 수행하는 프로세서를 포함하며,
상기 복수의 가단어와 상기 표준단어는 상기 제1 동작에 대응하도록 미리 정의되는 전자장치.
제1항에 있어서,
상기 프로세서는, 동작 별로 각각 마련되는 복수의 보정 모델 중 상기 수행되는 제1 동작에 대응하는 적어도 하나의 보정 모델을 선택하는 전자장치.
제2항에 있어서,
상기 프로세서는, 상기 획득된 인식결과가 상기 선택된 적어도 하나의 보정 모델의 상기 미리 정의된 적어도 하나의 가단어와 매칭되는지를 판단하는 전자장치.
제3항에 있어서,
상기 프로세서는, 상기 획득된 인식결과가 상기 선택된 적어도 하나의 보정 모델의 상기 적어도 하나의 가단어에 대응하여 미리 정의된 표준단어와 매칭되는지를 판단하는 전자장치.
제2항에 있어서,
상기 동작 별로 각각 마련되는 복수의 보정 모델을 저장하는 저장부를 더 포함하는 전자장치.
발화자의 음성을 수신하는 음성수신부를 포함하는 전자장치에 있어서,
제1 동작을 수행하는 단계;
상기 제1 동작 수행 중 상기 음성수신부를 통해 수신되는 상기 음성에 대하여 음성인식처리를 수행하여 인식결과를 획득하는 단계;
상기 획득된 인식결과가 복수의 가단어 중 어느 하나의 가단어와 매칭되는 경우, 상기 가단어에 대응하는 표준단어를 식별하는 단계; 및
상기 식별된 표준단어에 대응하는 제2 동작을 수행하는 단계를 포함하며,
상기 복수의 가단어와 상기 표준단어는 상기 제1 동작에 대응하도록 미리 정의되는 전자장치의 제어방법.
제6항에 있어서,
상기 가단어에 대응하는 표준단어를 식별하는 단계는, 동작 별로 각각 마련되는 복수의 보정 모델 중 상기 수행되는 제1 동작에 대응하는 적어도 하나의 보정 모델을 선택하는 단계를 포함하는 전자장치의 제어방법.
제7항에 있어서,
상기 가단어에 대응하는 표준단어를 식별하는 단계는, 상기 획득된 인식결과가 상기 선택된 적어도 하나의 보정 모델의 상기 미리 정의된 적어도 하나의 가단어와 매칭되는지를 판단하는 단계를 포함하는 전자장치의 제어방법.
제8항에 있어서,
상기 미리 정의된 적어도 하나의 가단어와 매칭되는지를 판단하는 단계는, 상기 획득된 인식결과가 상기 선택된 적어도 하나의 보정 모델의 상기 적어도 하나의 가단어에 대응하여 미리 정의된 표준단어와 매칭되는지를 판단하는 단계를 포함하는 전자장치의 제어방법.
제7항에 있어서,
상기 동작 별로 각각 마련되는 복수의 보정 모델을 저장하는 단계를 더 포함하는 전자장치의 제어방법.
전자장치와 음성인식 서버를 포함하는 음성인식 시스템에 있어서,
상기 전자장치는,
발화자의 음성을 수신하는 음성수신부를 포함하며,
상기 음성인식 서버는,
상기 전자장치와 통신하는 통신부; 및
제1 동작을 수행하는 상기 전자장치가 상기 제1 동작 수행 중 상기 음성수신부를 통해 수신되는 상기 음성을 상기 통신부를 통하여 수신하고,
상기 수신한 음성에 대하여 음성인식처리를 수행하여 인식결과를 획득하고,
상기 획득된 인식결과가 복수의 가단어 중 어느 하나의 가단어와 매칭되는 경우, 상기 가단어에 대응하는 표준단어를 식별하고,
상기 식별된 표준단어에 대응하는 제2 동작을 수행하는 프로세서를 포함하며,
상기 복수의 가단어와 상기 표준단어는 상기 제1 동작에 대응하도록 미리 정의되는 음성인식 시스템.
제11항에 있어서,
상기 음성인식 서버의 프로세서는, 동작 별로 각각 마련되는 복수의 보정 모델 중 상기 수행되는 제1 동작에 대응하는 적어도 하나의 보정 모델을 선택하는 음성인식 시스템.
제12항에 있어서,
상기 음성인식 서버의 프로세서는, 상기 획득된 인식결과가 상기 선택된 적어도 하나의 보정 모델의 상기 미리 정의된 적어도 하나의 가단어와 매칭되는지를 판단하는 음성인식 시스템.
제13항에 있어서,
상기 음성인식 서버의 프로세서는, 상기 획득된 인식결과가 상기 선택된 적어도 하나의 보정 모델의 상기 적어도 하나의 가단어에 대응하여 미리 정의된 표준인식결과와 매칭되는지를 판단하는 음성인식 시스템.
제12항에 있어서,
상기 동작 별로 각각 마련되는 복수의 보정 모델을 저장하는 저장부를 더 포함하는 음성인식 시스템.
컴퓨터가 읽을 수 있는 코드로서, 발화자의 음성을 수신하는 음성수신부를 포함하는 전자장치의 제어방법을 수행하는 코드를 포함하는 컴퓨터 프로그램이 저장된 기록매체에 있어서, 상기 전자장치의 제어방법은,
제1 동작을 수행하는 단계;
상기 제1 동작 수행 중 상기 음성수신부를 통해 수신되는 상기 음성에 대하여 음성인식처리를 수행하여 인식결과를 획득하는 단계;
상기 획득된 인식결과가 복수의 가단어 중 어느 하나의 가단어와 매칭되는 경우, 상기 가단어에 대응하는 표준단어를 식별하는 단계; 및
상기 식별된 표준단어에 대응하는 제2 동작을 수행하는 단계를 포함하며,
상기 복수의 가단어와 상기 표준단어는 상기 제1 동작에 대응하도록 미리 정의되는 컴퓨터가 읽을 수 있는 프로그램이 기록된 기록매체.