KR20200089412A

KR20200089412A - 음성 인식 제어 시스템 및 방법

Info

Publication number: KR20200089412A
Application number: KR1020190006068A
Authority: KR
Inventors: 오명희
Original assignee: (주)휴맥스
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2020-07-27

Abstract

은 음성 응답 품질을 보장하는 음성 인식 제어 시스템 및 방법이 개시된다. 상기 음성 인식 제어 시스템에 사용되는 음성 인식 제어 기기는 미디어 기기와의 통신 연결 통로인 연결부, 미디어를 상기 미디어 기기로 제공하여 재생시키는 미디어부 및 사용자의 음성을 인식하고 상기 인식된 음성에 해당하는 음성 응답을 상기 미디어 기기로 제공하는 AI부를 포함한다. 여기서, 상기 AI부는 상기 미디어 기기가 활성화되어 있지 않은 상태에서 상기 음성 인식 제어 기기를 음성 명령 수신 대기 상태로 만드는 트리거 음성이 감지되었을 때 상기 미디어 기기를 활성화시키며, 상기 미디어 기기가 활성화된 후 상기 음성 인식시 상기 음성 응답을 상기 미디어 기기의 제 1 스피커를 통하여 출력시킨다.

Description

음성 인식 제어 시스템 및 방법{SYSTEM AND METHOD OF CONTROLLING VOICE RECOGNITION}

본 발명은 음성 인식 제어 시스템 및 방법에 관한 것이다.

현재, 음성 인식 기술이 등장하여 사용되고 있으나 스피커의 성능이 떨어져서 소비자의 욕구를 충족시킬 수가 없다.

KR

10-2017-0081883

A

본 발명은 높은 음성 응답 품질을 보장하는 음성 인식 제어 시스템 및 방법을 제공하는 것이다.

상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 음성 인식 제어 기기는 미디어 기기와의 통신 연결 통로인 연결부; 미디어를 상기 미디어 기기로 제공하여 재생시키는 미디어부; 및 사용자의 음성을 인식하고 상기 인식된 음성에 해당하는 음성 응답을 상기 미디어 기기로 제공하는 AI부를 포함한다. 여기서, 상기 AI부는 상기 미디어 기기가 활성화되어 있지 않은 상태에서 상기 음성 인식 제어 기기를 음성 명령 수신 대기 상태로 만드는 트리거 음성이 감지되었을 때 상기 미디어 기기를 활성화시키며, 상기 미디어 기기가 활성화된 후 상기 음성 인식시 상기 음성 응답을 상기 미디어 기기의 제 1 스피커를 통하여 출력시킨다.

본 발명의 다른 실시예에 따른 음성 인식 제어 기기는 미디어 기기와의 통신 통로인 연결부; 미디어를 상기 미디어 기기로 제공하여 재생시키는 미디어부; 및 사용자의 음성을 인식하고 상기 인식된 음성에 해당하는 음성 응답을 상기 미디어 기기로 제공하는 AI부를 포함한다. 여기서, 상기 AI부는 상기 미디어 기기가 상기 미디어를 재생하는 동안 상기 음성 인식 제어 기기를 음성 명령 수신 대기 상태로 만드는 트리거 음성이 입력되거나 상기 음성 인식시 상기 재생되는 미디어 기기의 사운드를 줄이거나 자막으로 처리한다.

본 발명의 일 실시예에 따른 음성 인식 제어 방법은 미디어를 미디어 기기로 제공하여 재생하는 단계; 및 음성 인식 제어 기기를 통하여 사용자의 음성 인식시 상기 인식된 음성에 해당하는 음성 응답을 상기 미디어 기기로 제공하는 단계를 포함한다. 여기서, 상기 미디어 기기가 활성화되어 있지 않은 상태에서 상기 음성 인식 제어 기기를 음성 명령 수신 대기 상태로 만드는 트리거 음성이 감지되었을 때 상기 미디어 기기가 활성화되고, 상기 미디어 기기가 활성화된 후 상기 음성 인식시 상기 음성 응답은 상기 음성 인식 제어 기기의 스피커를 통하여 출력되지 않고 상기 미디어 기기의 스피커를 통하여 출력된다.

본 발명에 따른 음성 인식 제어 시스템 및 방법은 음성 명령에 따른 음성 응답을 우수한 품질을 가지는 TV 등의 미디어 기기의 스피커를 통하여 출력하므로, 음성 응답의 품질이 향상될 수 있다.

또한, 상기 음성 인식 제어 시스템에 사용되는 장치는 OTT 또는 셋탑에 음성 인식 소프트웨어를 추가하여 구현할 수 있으며, 따라서 음성 인식 기능을 구현함에 있어서 별도의 추가 부재를 필요로 하지 않는다.

도 1은 본 발명의 일 실시예에 따른 음성 인식 제어 시스템을 개략적으로 도시한 블록도이다.
도 2는 본 발명의 제 1 실시예에 따른 음성 인식 제어 방법을 도시한 순서도이다.
도 3은 본 발명의 제 2 실시예에 따른 음성 인식 제어 방법을 도시한 순서도이다.
도 4는 본 발명의 제 3 실시예에 따른 음성 인식 제어 방법을 도시한 순서도이다.
도 5는 본 발명의 제 4 실시예에 따른 음성 인식 제어 방법을 도시한 순서도이다.
도 6은 본 발명의 제 5 실시예에 따른 음성 인식 제어 방법을 도시한 순서도이다.
도 7은 본 발명의 제 6 실시예에 따른 음성 인식 제어 방법을 도시한 순서도이다.
도 8은 본 발명의 일 실시예에 따른 음성 인식 제어 기기를 도시한 블록도이다.
도 9는 본 발명의 일 실시예에 따른 미디어 기기를 도시한 블록도이다.

본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

본 발명은 음성 인식 제어 시스템에 관한 것으로서, AI 음성 인식 기술을 인터넷에 기반한 OTT(Over The Top) 또는 일반 방송을 위한 일반 셋탑 박스(Settop Box) 등과 같은 제어 기기에 적용함에 의해 구현될 수 있다. 즉, 상기 음성 인식 제어 시스템은 셋탑 기능을 가지면서 음성 인식 기능도 구현할 수 있다.

일 실시예에 따르면, 상기 음성 인식 제어 시스템은 음성 명령에 따른 응답을 상기 제어 기기의 스피커 대신 상기 제어 기기에 의해 제어되는 미디어 기기(예를 들어, TV)의 스피커를 통하여 출력할 수 있다.

현재, 음성 인식 기술이 적용된 OTT 또는 셋탑은 존재하지 않으며, 별도의 음성 인식 장치만 존재한다. 이러한 음성 인식 장치는 스피커의 성능이 떨어져서 음성 인식에 따른 응답 품질이 낮을 수밖에 없다.

따라서, 본 발명의 음성 인식 제어 시스템은 음성 인식 응답을 우수한 성능을 가지는 미디어 기기의 스피커를 통하여 출력할 수 있으며, 그 결과 음성 인식에 따른 응답 품질을 향상시킬 수 있다.

또한, 음성 인식 기능을 가지지 않았던 셋탑 박스에 음성 인식을 위한 소프트웨어만 설치하여 본 발명의 음성 인식 제어 시스템을 구현할 수 있으며, 즉 음성 인식 기능을 위한 별도의 하드웨어를 추가하지 않고도 음성 인식 제어 시스템을 구축할 수 있어서 경제적이다.

이하, 본 발명의 다양한 실시예들을 첨부된 도면들을 참조하여 상술하겠다.

도 1은 본 발명의 일 실시예에 따른 음성 인식 제어 시스템을 개략적으로 도시한 블록도이다.

도 1을 참조하면, 본 실시예의 음성 인식 제어 시스템은 미디어 기기(100), 음성 인식 제어 기기(102) 및 컨텐츠 서버(104)를 포함할 수 있다.

미디어 기기(100)는 미디어(컨텐츠)를 재생하는 기기로서, 예를 들어 TV, 모니터 등일 수 있으며, 스피커를 포함할 수 있다. 여기서, 상기 미디어는 일반 영상일 수도 있고 방송 영상일 수도 있다. 또한, 상기 스피커는 미디어 기기(100)에 내장된 기기일 수도 있고 미디어 기기(100)에 연결된 외부 기기일 수도 있다.

일 실시예에 따르면, 미디어 기기(100)는 음성 인식 제어 기기(102)의 음성 인식에 따른 응답을 스피커를 통하여 출력할 수 있다. 여기서, 상기 응답은 사운드 또는 사운드를 포함하는 영상일 수 있다.

예를 들어, 사용자가 "오늘 날씨를 알려줘"라는 음성 명령을 음성 인식 제어 기기(102)로 입력하면, 미디어 기기(100)는 음성 인식 제어 기기(102)의 제어에 따라 오늘의 날씨를 사운드로 출력할 수 있다. 여기서, 상기 날씨에 대한 정보는 사업자 서버(미도시)로부터 제공된 정보일 수 있다.

다른 예로, 사용자가 "주간 날씨를 알려줘"라는 음성 명령을 음성 인식 제어 기기(102)로 입력하면, 미디어 기기(100)는 음성 인식 제어 기기(102)의 제어에 따라 주간 날씨를 영상 및 사운드로 하여 미디어 기기(100)를 통하여 제공할 수 있다.

음성 인식 제어 기기(102)는 미디어 기기(100)로 방송 등의 영상을 제공하고 자체 스피커를 포함할 수 있으며, 사용자의 음성(음성 명령)을 인식하고, 인식된 음성을 분석하여 음성 명령에 해당하는 응답을 상기 자체 스피커 또는 미디어 기기(100)를 통하여 출력할 수 있다. 여기서, 상기 응답은 상기 사업자 서버 등으로부터 제공될 수도 있고 자체 저장된 정보일 수도 있다.

일 실시예에 따르면, 음성 인식 제어 기기(102)는 인터넷을 기반으로 하는 OTT 또는 방송에 기반한 셋탑 기능뿐만 아니라 음성 인식 기술을 포함할 수 있다. 즉, 음성 인식 제어 기기(102)는 미디어와 관련하여 미디어 기기(100)를 제어하면서 음성 인식 기술을 구현할 수 있다.

이러한 음성 인식 제어 기기(102)는 미디어 기기(100)와 유선 또는 무선으로 연결될 수 있다. 예를 들어, 음성 인식 제어 기기(102)는 미디어 기기(100)와 HDMI 단자 또는 블루투스를 통하여 연결될 수 있다.

일 실시예에 따르면, 음성 인식 제어 기기(102)와 미디어 기기(100)는 복수의 채널들을 통하여 연결될 수 있다. 이 때, 음성 인식 제어 기기(102)는 방송 등의 미디어를 제 1 채널을 통하여 미디어 기기(100)로 전송할 수 있고, 음성 인식에 따른 응답(음성 응답)을 제 2 채널을 통하여 미디어 기기(100)로 전송할 수 있다. 여기서, 상기 음성 응답은 음성 인식에 따른 결과를 나타내며, 영상 및 사운드 중 적어도 하나를 포함할 수 있다.

물론, 음성 인식 제어 기기(102)와 미디어 기기(100)는 1개의 채널을 통하여 연결될 수 있되, 음성 인식 제어 기기(102)는 방송 등의 영상과 음성 응답을 상기 채널을 통하여 전송할 수 있다. 이 때, 상기 방송 등의 영상과 상기 음성 응답은 서로 다른 시간 구간에 전송될 수 있다.

컨텐츠 서버(104)는 방송 등의 미디어를 음성 인식 제어 기기(102)로 전송하고, 음성 인식 제어 기기(102)는 상기 전송된 미디어를 미디어 기기(100)로 전송하여 재생시킬 수 있다.

정리하면, 본 발명의 음성 인식 제어 기기(102)는 OTT 또는 방송을 위한 셋탑 기능뿐만 아니라 음성 인식 기술을 포함하며, 음성 명령에 따른 음성 응답을 자체 스피커 또는 미디어 기기(100)의 스피커를 통하여 선택적으로 출력시킬 수 있다.

예를 들어, 음성 인식 제어 기기(102)는 자체 스피커와 미디어 기기(100)의 스피커의 성능을 판단하고, 더 우수한 스피커를 통하여 상기 음성 응답을 출력할 수 있다. 일반적으로는, TV 등의 미디어 기기(100)의 스피커 성능이 더 우수하며, 따라서 음성 인식 제어 기기(102)는 상기 음성 응답을 미디어 기기(100)의 스피커를 통하여 출력할 수 있다.

물론, 음성 인식 제어 기기(102)는 상기 음성 응답을 자체 스피커 및 미디어 기기(100)의 스피커를 통하여 동시에 출력할 수도 있다. 이 경우, 상기 음성 인식 제어 기기(102)의 스피커의 출력과 미디어 기기(100)의 스피커의 출력은 동기화될 수 있다. 이렇게 음성 인식 제어 기기(102)와 미디어 기기(100)가 모두 상기 음성 응답을 출력하는 방법은 음성 인식 제어 기기(102)와 미디어 기기(100)가 가까이 위치하지 않고 멀리 위치할 때 유용할 수 있다.

다른 실시예에 따르면, 음성 인식 제어 기기(102), 미디어 기기(100)뿐만 아니라 다른 사운드 출력 장치가 더 있는 경우, 음성 인식 제어 기기(102)는 모든 스피커들의 품질들을 판단하고, 판단 결과에 따라 음성 응답을 가장 좋은 품질을 가지는 스피커를 가지는 장치를 통하여 출력할 수 있다.

또 다른 실시예에 따르면, 음성 인식 제어 기기(102)는 스피커의 품질뿐만 아니라 사용자의 위치도 고려하여 음성 응답을 출력할 수 있다. 예를 들어, 음성 인식 제어 기기(102)는 연결된 모든 장치들에서 사용자 인근에 위치하는 장치들 중 가장 우수한 품질의 스피커를 가지는 장치를 통하여 상기 음성 응답을 출력할 수 있다.

또 다른 실시예에 따르면, 음성 인식 제어 기기(102)는 상기 음성 응답이 사운드만 포함하는 경우 상기 음성 응답을 미디어 기기(100)의 스피커를 통하여 출력시키고, 상기 음성 응답이 영상과 사운드를 포함하는 경우 상기 음성 응답 중 영상은 미디어 기기(100)를 통하여 출력하고 사운드는 자체 스피커를 통하여 출력할 수 있다. 물론, 음성 인식 제어 기기(102)는 상기 음성 응답이 영상과 사운드를 포함하는 경우 상기 음성 응답의 영상과 사운드를 미디어 기기(100)를 통하여 모두 출력할 수도 있다.

이하, 본 발명의 다양한 음성 인식 제어 방법을 첨부된 도면들을 참조하여 상술하겠다.

도 2는 본 발명의 제 1 실시예에 따른 음성 인식 제어 방법을 도시한 순서도이다.

도 2를 참조하면, 음성 인식 제어 기기(102)는 사용자의 음성을 인식한다(S200).

이어서, 음성 인식 제어 기기(102)는 미디어 기기(100)가 활성화되어 있는 지의 여부를 판단한다(S202).

미디어 기기(100)가 활성화되어 있는 경우, 음성 인식 제어 기기(102)는 사용자의 음성(음성 명령)을 인식하고 상기 인식된 음성 명령에 해당하는 음성 응답을 미디어 기기(100)로 제공할 수 있다(S204).

계속하여, 미디어 기기(100)는 상기 제공된 음성 응답의 사운드를 미디어 기기(100)의 스피커를 통하여 출력할 수 있다(S206).

반면에, 미디어 기기(100)가 활성화되어 있지 않은 경우, 즉 오프 상태인 경우, 음성 인식 제어 기기(102)는 사용자의 음성 명령을 인식하고 상기 인식된 음성 명령에 해당하는 음성 응답을 자체 스피커를 통하여 출력할 수 있다(S208 및 S210).

정리하면, 음성 인식 제어 기기(102)는 사용자의 음성 명령을 인식하고 상기 인식된 음성 명령에 해당하는 음성 응답을 미디어 기기(100)의 스피커를 통하여 우선적으로 출력하며, 미디어 기기(100)가 활성화되어 있지 않은 경우 자체 스피커를 통하여 상기 음성 응답을 출력할 수 있다.

다른 실시예에 따르면, 음성 인식 제어 기기(102)는 미디어 기기(100)의 활성화 여부를 지속적으로 또는 주기적으로 검출하고, 상기 음성 응답을 자체 스피커를 통하여 출력하는 중에 미디어 기기(100)가 활성화되었다고 검출되면 상기 음성 응답을 미디어 기기(100)의 스피커를 통하여 출력할 수 있다.

반면에, 음성 인식 제어 기기(102)는 미디어 기기(100)의 활성화 여부를 지속적으로 또는 주기적으로 검출하고, 상기 음성 응답을 미디어 기기(100)의 스피커를 통하여 출력하는 중에 미디어 기기(100)가 비활성화되었다고 검출되면 상기 음성 응답을 자체 스피커를 통하여 출력할 수 있다.

도 3은 본 발명의 제 2 실시예에 따른 음성 인식 제어 방법을 도시한 순서도이다.

도 3을 참조하면, 음성 인식 제어 기기(102)는 사용자가 특정 음성(트리거 음성)을 출력하면 음성 명령의 수신을 대기할 수 있다(음성 인식 트리거,S300). 예를 들어, 사용자가 "Hey, Humax"를 출력하면, 음성 인식 제어 기기(102)는 음성 명령의 수신을 대기할 수 있다.

이 때, 음성 인식 제어 기기(102)는 미디어를 미디어 기기(100)로 제공하던 중에 트리거 음성이 입력되면 상기 미디어를 계속적으로 미디어 기기(100)로 제공하면서 음성 명령의 수신을 대기할 수 있다.

또한, 음성을 인식하는 유닛 외에 음성 인식 제어 기기(102)의 다른 유닛들이 비활성화되어 있던 중에 트리거 음성이 입력되면, 음성 인식 제어 기기(102)는 음성 인식과 관련된 유닛들을 모두 활성화시키고 음성 명령의 수신을 대기할 수 있다.

이어서, 상기 음성 인식 트리거 동작이 수행되었을 때, 음성 인식 제어 기기(102)는 미디어 기기(100)가 활성화되어 있는 지의 여부를 판단한다(S302).

미디어 기기(100)가 활성화되어 있지 않으면, 음성 인식 제어 기기(102)는 미디어 기기(100)를 자동으로 활성화시킬 수 있다(S304).

미디어 기기(100)가 상기 음성 인식 트리거 동작 전 활성화되어 있거나 상기 음성 인식 트리거 동작에 따라 활성화된 경우, 사용자의 음성 명령이 음성 인식 제어 기기(102)로 입력되면(S306), 음성 인식 제어 기기(102)는 상기 음성 명령에 해당하는 음성 응답을 미디어 기기(100)의 스피커를 통하여 출력할 수 있다(S308). 구체적으로는, 음성 인식 제어 기기(102)는 상기 음성 명령에 따른 음성 응답을 외부 서버로부터 수신하고 상기 수신된 음성 응답을 미디어 기기(100)로 전송하며, 미디어 기기(100)는 상기 음성 응답을 자체 스피커를 통하여 출력할 수 있다.

다른 예로, 상기 음성 명령에 따른 음성 응답이 미디어 기기(100)가 내부 메모리를 통하여 저장하고 있는 경우, 음성 인식 제어 기기(102)의 제어에 따라 미디어 기기(100)가 해당 음성 응답을 상기 내부 메모리로부터 추출하고, 상기 추출된 음성 응답을 자체 스피커를 통하여 출력할 수 있다.

정리하면, 본 실시예의 음성 인식 제어 방법은 음성 명령에 따른 음성 응답을 출력하기 위하여 미디어 기기(100)를 자동으로 활성화시킨 후 상기 음성 응답을 미디어 기기(100)의 스피커를 통하여 출력할 수 있다. 즉, 미디어 기기(100)가 활성화되어 있지 않다고 하여 음성 인식 제어 기기(102)를 통하여 음성 응답을 출력하지 않고, 미디어 기기(100)를 자동으로 활성화시킨 후 상기 음성 응답을 우수한 품질을 가지는 미디어 기기(100)의 스피커를 통하여 출력할 수 있다.

위에서는 음성 인식 트리거 동작(S300) 후 미디어 기기(100)가 활성화되었으나, 미디어 기기(100)는 사용자의 실제 음성 명령이 입력되었을 때 활성화될 수도 있다. 즉, 미디어 기기(100)의 활성화가 단계 S306 다음에 수행될 수 있다.

도 4는 본 발명의 제 3 실시예에 따른 음성 인식 제어 방법을 도시한 순서도이다.

도 4를 참조하면, 미디어 기기(100)는 음성 인식 제어 기기(102)로부터 미디어(컨텐츠)를 제공받아 재생한다(S400). 즉, 미디어가 미디어 기기(100)에 디스플레이될 수 있다.

이어서, 사용자가 트리거 음성 "Hello, Humax"라고 말함에 따라 음성 인식 제어 기기(102)가 음성 명령 수신 대기 상태로 진입할 수 있다(S402).

계속하여, 음성 인식 제어 기기(102)의 제어에 따라 미디어 기기(100)에서 재생되는 미디어의 사운드가 조절될 수 있다(S404). 예를 들어, 상기 미디어의 사운드가 작아지거나 무음 처리될 수 있다. 이는 사용자가 곧 음성 명령을 내릴 가능성이 높으므로, 음성 인식 제어 기기(102)가 사용자의 음성 명령을 용이하게 검출하기 위해서이다.

다른 실시예에 따르면, 상기 미디어의 사운드가 사용자와 음성 인식 제어 기기(102) 사이의 거리에 따라 상대적으로 작아질 수 있다. 구체적으로는, 음성 인식 제어 기기(102)는 "Hello, Humax"라는 트리거 음성이 감지되었을 때 상기 트리거 음성의 크기에 따라 상기 사용자와 음성 인식 제어 기기(102) 사이의 거리를 추정하고 상기 추정된 거리에 따라 미디어 기기(100)로부터 재생되는 미디어의 사운드를 감소시킬 수 있다. 예를 들어, 음성 인식 제어 기기(102)는 사용자와의 거리가 작은 경우 상기 사운드의 크기를 사용자와의 거리가 먼 경우보다 작게 할 수 있다.

이어서, 음성 인식 제어 기기(102)는 사용자의 음성을 인식한다(S406). 즉, 음성 인식 제어 기기(102)로 음성 명령이 입력된다.

계속하여, 음성 인식 제어 기기(102)는 상기 음성 명령에 해당하는 음성 응답을 미디어 기기(100)로 제공하며, 미디어 기기(100)는 상기 음성 응답을 자체 스피커를 통하여 출력할 수 있다(S408).

이어서, 사용자의 음성 명령이 기설정 시간 이상 입력되지 않으면, 음성 인식 제어 기기(102)는 대기 상태로 진입하거나 비활성화되고 미디어의 사운드를 정상 크기로 정상화할 수 있다(S410).

정리하면, 본 실시예의 음성 인식 제어 방법은 미디어 재생 중 트리거 음성이 입력되면 상기 미디어의 사운드를 작게 만들거나 무음으로 만들어 사용자의 음성 명령을 수신할 준비를 하고, 그런 후 사용자의 음성 명령이 입력되면 음성 명령을 실행시킨다.

도 5는 본 발명의 제 4 실시예에 따른 음성 인식 제어 방법을 도시한 순서도이다.

도 5를 참조하면, 미디어 기기(100)는 음성 인식 제어 기기(102)로부터 미디어를 제공받아 재생한다(S500).

이어서, 사용자가 트리거 음성 "Hello, Humax"를 말함에 따라 음성 인식 제어 기기(102)가 음성 명령 수신 대기 상태로 진입할 수 있다(음성 인식 트리거, S502).

계속하여, 음성 인식 제어 기기(102)는 미디어 기기(100)의 화면을 변경할 수 있다(S504). 예를 들어, 음성 인식 제어 기기(102)는 재생되는 미디어의 사이즈를 작게 만들거나 미디어 재생을 중지시킬 수 있다. 또는, 음성 인식 제어 기기(102)는 미디어 기기(100)의 채널을 전환할 수 있다.

이어서, 사용자의 음성 명령이 입력되면(S506), 음성 인식 제어 기기(102)는 상기 음성 명령에 해당하는 음성 응답을 미디어 기기(100)로 제공하고 미디어 기기(100)가 상기 음성 응답을 출력시킬 수 있다(S508).

예를 들어, 사용자가 "A 영화를 보여줘"라고 음성 명령을 입력하면, 음성 인식 제어 기기(102)는 미디어 기기(100)를 제어하여 "A 영화"를 재생하되, A 영화와 사이즈가 작아졌던 미디어가 하나의 화면에 함께 디스플레이되고 미디어의 사운드는 출력되지 않고 상기 A 영화의 사운드만 미디어 기기(100)의 스피커를 통하여 출력될 수 있다.

정리하면, 본 실시예의 음성 인식 제어 방법은 음성 명령에 따라 상기 음성 명령에 해당하는 음성 응답의 사운드를 미디어 기기(100)의 스피커를 통하여 출력할 뿐만 아니라 상기 음성 응답의 이미지를 기존 재생하던 미디어와 함께 디스플레이시키거나 기존 재생하던 미디어 대신 디스플레이시킬 수 있다.

도 6은 본 발명의 제 5 실시예에 따른 음성 인식 제어 방법을 도시한 순서도이다.

도 6을 참조하면, 사용자가 트리거 음성 "Hello, Humax"를 말함에 따라 음성 인식 제어 기기(102)가 음성 명령 수신 대기 상태로 진입할 수 있다(음성 인식 트리거, S600).

이어서, 사용자의 음성 명령이 입력되면(S602), 음성 인식 제어 기기(102)는 상기 음성 명령에 해당하는 음성 응답을 결정하고, 상기 음성 응답의 품질을 판단할 수 있다(S604).

계속하여, 음성 인식 제어 기기(102)는 상기 판단에 따라 상기 음성 응답을 미디어 기기(100)의 스피커를 통하여 출력하거나 자체 스피커를 통하여 출력시킬 수 있다(S606).

예를 들어, 음성 인식 제어 기기(102)는 상기 음성 응답이 고품질의 사운드를 필요로 하지 않는 경우 상기 음성 응답을 자체 스피커를 통하여 출력시키고, 상기 음성 응답이 고품질의 사운드를 필요로 하는 경우 상기 음성 응답을 미디어 기기(100)의 스피커를 통하여 출력시킬 수 있다. 즉, 음성 인식 제어 기기(100)는 자체 스피커로도 상기 음성 응답의 사운드 요구 품질을 만족시킬 수 있는 경우 상기 스피커를 통하여 상기 음성 응답을 출력시키고, 상기 음성 응답의 사운드 요구 품질을 만족시키지 못하는 경우 미디어 기기(100)의 스피커를 통하여 상기 음성 응답을 출력시킬 수 있다.

정리하면, 본 실시예의 음성 인식 제어 방법은 음성 응답의 요구 품질에 따라 음성 인식 제어 기기(102)의 스피커 또는 미디어 기기(100)의 스피커를 선택하여 음성 응답을 출력시킬 수 있다.

도 7은 본 발명의 제 6 실시예에 따른 음성 인식 제어 방법을 도시한 순서도이다.

도 7을 참조하면, 사용자가 트리거 음성 "Hello, Humax"를 말함에 따라 음성 인식 제어 기기(102)가 음성 명령 수신 대기 상태로 진입할 수 있다(음성 인식 트리거, S700).

이어서, 사용자의 음성 명령이 입력되면(S702), 음성 인식 제어 기기(102)는 미디어 기기(100)에 재생되고 있던 미디어의 사운드를 미디어 기기(100)의 스피커를 통하여 계속 출력시키되, 상기 음성 명령에 따른 음성 응답을 미디어 기기(100)의 화면에 자막으로 제공할 수 있다.

다른 실시에에 따르면, 음성 인식 제어 기기(102)는 미디어 기기(100)에 재생되고 있던 미디어의 사운드를 자막으로 변경시키고 상기 음성 응답을 미디어 기기(100)의 스피커를 통하여 출력시킬 수 있다.

또 다른 실시예에 따르면, 음성 인식 제어 기기(102)는 음성 인식 제어 기기(102)는 미디어 기기(100)에 재생되고 있던 미디어의 사운드를 자막으로 변경시키고 상기 음성 응답을 미디어 기기(100)의 스피커를 통하여 출력시키면서 자막으로 함께 제공할 수도 있다.

또 다른 실시예에 따르면, 음성 인식 제어 기기(102)는 미디어 기기(100)에 재생되고 있던 미디어의 사운드를 중지시키고 상기 음성 응답을 미디어 기기(100)의 스피커를 통하여 출력시킬 수 있다.

또 다른 실시예에 따르면, 음성 인식 제어 기기(102)는 미디어 기기(100)에 재생되고 있던 미디어의 사운드를 중지시키고 상기 음성 응답을 미디어 기기(100)의 스피커를 통하여 출력시키면서 자막으로도 함께 제공할 수 있다.

정리하면, 본 실시예의 음성 인식 제어 방법은 음성 명령 입력시 재생하던 미디어의 사운드를 자막으로 변경하고 음성 응답을 출력시키거나 재생하던 미디어의 사운드를 계속 출력하면서 음성 응답을 자막으로 출력시킬 수 있다. 즉, 상기 음성 인식 제어 방법은 기존 미디어의 사운드 또는 상기 음성 응답을 자막으로 처리할 수 있다.

위에서는, 이러한 자막 처리가 음성 명령이 입력된 후에 수행되었지만, 음성 인식 트리거 동작에 따라 수행될 수도 있다. 즉, 이러한 자막 처리는 S700과 S702 사이에 수행될 수 있다.

도 8은 본 발명의 일 실시예에 따른 음성 인식 제어 기기를 도시한 블록도이다.

도 8을 참조하면, 본 실시예의 음성 인식 제어 기기(102)는 제어부(800), 연결부(802), 미디어부(804), AI부(806), 사운드부(808) 및 저장부(810)를 포함할 수 있다.

연결부(802)는 컨텐츠 서버(104) 또는 미디어 기기(100)와의 통신 연결 통로이다.

미디어부(804)는 컨텐츠 서버(104)로부터 미디어(컨텐츠)를 수신하고, 상기 수신된 미디어를 그대로 또는 가공하여 미디어 기기(100)로 제공할 수 있다.

AI부(806)는 사용자의 트리거 음성 및 음성 명령을 감지하고, 상기 음성 명령에 해당하는 음성 응답을 결정하며, 상기 결정된 음성 응답을 외부 서버로부터 제공받아 미디어 기기(100)로 제공할 수 있다.

또한, AI부(806)는 상기 음성 응답을 사운드부(808)를 통하여 출력시킬 것인지 미디어 기기(100)의 스피커를 통하여 출력시킬 지 결정하고, 상기 결정에 따라 상기 음성 응답을 사운드부(808)를 출력하거나 미디어 기기(100)로 제공할 수 있다.

사운드부(808)는 스피커로서, 상기 음성 응답을 출력시킬 수 있다.

저장부(810)는 프로그램, 음성 응답 등의 다양한 데이터를 저장할 수 있다.

제어부(800)는 음성 인식 제어 기기(102)의 구성요소들의 동작을 전반적으로 제어할 수 있다.

도 9는 본 발명의 일 실시예에 따른 미디어 기기를 도시한 블록도이다.

도 9를 참조하면, 본 실시예의 미디어 기기(100)는 제어부(900), 연결부(902), 디스플레이부(904), 미디어부(906), AI부(908), 사운드부(910) 및 저장부(912)를 포함할 수 있다.

연결부(902)는 음성 인식 제어 기기(102)와의 통신 연결 통로이다.

디스플레이부(904)는 예를 들어 OLED일 수 있으며, 미디어 또는 음성 응답을 디스플레이한다.

미디어부(906)는 음성 인식 제어 기기(102)로부터 제공된 미디어를 그대로 또는 가공하여 디스플레이부(904)를 통하여 디스플레이시키고 상기 미디어의 사운드를 사운드부(910)를 통하여 출력시킬 수 있다.

AI부(908)는 사용자의 음성 명령에 따른 음성 응답을 디스플레이부(904)를 통하여 디스플레이시키거나 사운드부(910)를 통하여 출력시킬 수 있다.

또한, AI부(908)는 미디어의 사운드를 줄이거나 무음으로 처리하고 상기 음성 응답을 사운드부(910)를 통하여 출력시킬 수 있다.

게다가, AI부(908)는 재생하던 미디어의 사운드를 자막으로 처리하거나 상기 음성 응답을 자막으로 처리할 수 있다.

더욱이, AI부(908)는 재생하던 미디어의 사이즈를 감소시키거나 화면을 중지시킬 수 있다.

사운드부(910)는 스피커로서, 상기 미디어의 사운드 또는 상기 음성 응답을 출력시킬 수 있다.

저장부(912)는 프로그램, 미디어, 음성 응답 등을 저장할 수 있다.

제어부(900)는 미디어 기기(100)의 구성요소들의 동작을 전반적으로 제어할 수 있다.

한편, 전술된 실시예의 구성 요소는 프로세스적인 관점에서 용이하게 파악될 수 있다. 즉, 각각의 구성 요소는 각각의 프로세스로 파악될 수 있다. 또한 전술된 실시예의 프로세스는 장치의 구성 요소 관점에서 용이하게 파악될 수 있다.

또한 앞서 설명한 기술적 내용들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

100 : 미디어 기기 102 : 음성 인식 제어 기기
104 : 컨텐츠 서버

Claims

미디어 기기와의 통신 연결 통로인 연결부;
미디어를 상기 미디어 기기로 제공하여 재생시키는 미디어부; 및
사용자의 음성을 인식하고 상기 인식된 음성에 해당하는 음성 응답을 상기 미디어 기기로 제공하는 AI부를 포함하되,
상기 AI부는 상기 미디어 기기가 활성화되어 있지 않은 상태에서 상기 음성 인식 제어 기기를 음성 명령 수신 대기 상태로 만드는 트리거 음성이 감지되었을 때 상기 미디어 기기를 활성화시키며, 상기 미디어 기기가 활성화된 후 상기 음성 인식시 상기 음성 응답을 상기 미디어 기기의 제 1 스피커를 통하여 출력시키는 것을 특징으로 하는 음성 인식 제어 기기.
제1항에 있어서, 상기 미디어는 인터넷에 기반한 영상이거나 방송이며 상기 음성 인식 제어 기기는 제 2 스피커를 더 포함하되,
상기 음성 응답은 상기 제 2 스피커를 통하여 출력되지 않고 상기 제 1 스피커를 통하여 출력되는 것을 특징으로 하는 음성 인식 제어 기기.
제1항에 있어서, 상기 트리거 음성이 감지되었을 때 상기 미디어 기기가 자동으로 활성화되는 것을 특징으로 하는 음성 인식 제어 기기.
제1항에 있어서, 상기 AI부는 상기 미디어 기기가 상기 미디어를 재생하는 동안 트리거 음성이 입력되는 경우 상기 미디어의 사운드를 줄이거나 무음으로 처리하고, 상기 음성 인식시 상기 음성 응답을 상기 미디어 기기의 제 1 스피커를 통하여 출력시키는 것을 특징으로 하는 음성 인식 제어 기기.
제4항에 있어서, 상기 AI부는 상기 음성 응답이 출력된 후 기설정 시간 이상 새로운 음성 명령이 입력되지 않으면 상기 재생되는 미디어의 사운드를 정상적으로 되돌리는 것을 특징으로 하는 음성 인식 제어 기기.
제1항에 있어서, 상기 AI부는 상기 미디어 기기가 상기 미디어를 재생하는 동안 트리거 음성이 입력되거나 상기 음성 인식시 상기 미디어를 재생하는 미디어 기기의 화면을 가변시키는 것을 특징으로 하는 음성 인식 제어 기기.
제1항에 있어서, 상기 AI부는 상기 미디어 기기가 상기 미디어를 재생하는 동안 트리거 음성이 입력되거나 상기 음성 인식시 상기 재생되는 미디어 기기의 사운드를 자막으로 처리하고 상기 음성 응답을 상기 미디어 기기의 제 1 스피커를 통하여 출력시키는 것을 특징으로 하는 음성 인식 제어 기기.
제1항에 있어서, 상기 AI부는 상기 미디어 기기가 활성화되지 않은 경우 상기 음성 응답을 상기 음성 인식 제어 기기의 제 2 스피커를 통하여 출력하되, 상기 미디어 기기가 활성화되면 상기 음성 응답을 상기 미디어 기기의 제 1 스피커를 통하여 출력하는 것을 특징으로 하는 음성 인식 제어 기기.
미디어 기기와의 통신 통로인 연결부;
미디어를 상기 미디어 기기로 제공하여 재생시키는 미디어부; 및
사용자의 음성을 인식하고 상기 인식된 음성에 해당하는 음성 응답을 상기 미디어 기기로 제공하는 AI부를 포함하되,
상기 AI부는 상기 미디어 기기가 상기 미디어를 재생하는 동안 상기 음성 인식 제어 기기를 음성 명령 수신 대기 상태로 만드는 트리거 음성이 입력되거나 상기 음성 인식시 상기 재생되는 미디어 기기의 사운드를 줄이거나 자막으로 처리하는 것을 특징으로 하는 음성 인식 제어 기기.
제9항에 있어서, 상기 AI부는 상기 미디어 기기로 제공된 음성 응답을 상기 미디어 기기의 스피커를 통하여 출력시키는 것을 특징으로 하는 음성 인식 제어 기기.
미디어를 미디어 기기로 제공하여 재생하는 단계; 및
음성 인식 제어 기기를 통하여 사용자의 음성 인식시 상기 인식된 음성에 해당하는 음성 응답을 상기 미디어 기기로 제공하는 단계를 포함하되,
상기 미디어 기기가 활성화되어 있지 않은 상태에서 상기 음성 인식 제어 기기를 음성 명령 수신 대기 상태로 만드는 트리거 음성이 감지되었을 때 상기 미디어 기기가 활성화되고,
상기 미디어 기기가 활성화된 후 상기 음성 인식시 상기 음성 응답은 상기 음성 인식 제어 기기의 스피커를 통하여 출력되지 않고 상기 미디어 기기의 스피커를 통하여 출력되는 것을 특징으로 하는 음성 인식 제어 방법.
제11항에 있어서, 상기 미디어 기기가 상기 미디어를 재생하는 동안 상기 음성 인식 제어 기기를 음성 명령 수신 대기 상태로 만드는 트리거 음성이 입력되거나 상기 음성 인식시 상기 재생되는 미디어 기기의 사운드를 줄이거나 자막으로 처리하고 상기 음성 응답을 상기 미디어 기기의 스피커를 통하여 출력하는 것을 특징으로 하는 음성 인식 제어 방법.