KR20230126109A

KR20230126109A - 디스플레이 장치 및 그 동작 방법

Info

Publication number: KR20230126109A
Application number: KR1020220023209A
Authority: KR
Inventors: 오석재; 박예슬; 전유성
Original assignee: 삼성전자주식회사
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2023-08-29
Also published as: WO2023163422A1

Abstract

음성 인식기 선택을 위한 상황 정보를 획득하는 단계, 상황 정보에 기반하여 복수의 음성 인식기 중 적어도 하나를 선택하는 단계, 선택된 적어도 하나의 음성 인식기를 이용하여, 사용자의 음성 신호로부터 음성 인식 결과를 획득하는 단계 및 음성 인식 결과로부터 채팅 메시지를 획득하는 단계를 포함하는, 디스플레이 장치의 동작 방법이 개시된다.

Description

디스플레이 장치 및 그 동작 방법{A display apparatus and a method thereof}

개시된 다양한 실시 예들은 디스플레이 장치 및 그 동작 방법에 관한 것으로, 구체적으로 음성 인식을 보다 정확히 수행하는 디스플레이 장치 및 그 동작 방법에 관한 것이다.

멀티미디어 및 네트워크 기술의 발전으로, 사람들 사이에 특정한 관심이나 활동을 공유하기 위한 어플리케이션이 증가하고 있다. 예를 들어, 사람들은 실시간으로 다수의 사용자에게 송출되는 방송 콘텐츠를 시청하면서 동시에 채팅 서비스를 이용하여 방송 콘텐츠에 대한 서로의 의견이나 느낌을 공유할 수 있다.

사용자가 전자 장치를 이용하여 채팅 메시지를 입력하면, 전자 장치는 사용자가 입력한 채팅 메시지를 채팅 서버에 전송할 수 있다. 채팅 서버는 채팅 룸에 참가한 복수 전자 장치부터 채팅 메시지를 수신하고, 수신된 채팅 메시지를 채팅 룸에 속하는 복수 전자 장치 모두에게 전송하여 채팅 서비스를 제공할 수 있다.

사용자는 전자 장치를 이용하여 채팅 메시지를 직접 타이핑하여 입력하거나, 또는 음성 발화를 통해 채팅 메시지를 입력할 수 있다. 후자의 경우, 전자 장치는 사용자가 발화한 음성 신호에 대해 음성 인식을 수행하고, 음성 인식 결과에 대응하는 채팅 메시지를 획득하여 이를 채팅 서버로 전송할 수도 있다. 사용자가 콘텐츠를 시청하면서 채팅 서비스를 이용하는 경우, 통상 사용자는 콘텐츠 내용이나 채팅 내용 등과 같이 주변의 상황에 적절한 채팅 메시지를 입력하게 된다. 그러나, 전자 장치는 음성 인식을 수행할 때 채팅 내용이나 콘텐츠 내용과 같은 주변 상황을 고려하지 않으므로, 사용자가 발화한 음성 신호를 보다 정확히 인식하지 못하는 문제가 있다.

다양한 실시 예들은 서로 다른 학습 데이터로 훈련된 학습 모델을 포함하는 음성 인식기를 복수 개 포함하는 디스플레이 장치 및 그 동작 방법을 제공하기 위한 것이다.

다양한 실시 예들은 음성 인식기 선택을 위한 상황 정보를 획득하고, 상황 정보에 기반하여 복수의 음성 인식기 중 적어도 하나를 선택하는 디스플레이 장치 및 그 동작 방법을 제공하기 위한 것이다.

다양한 실시 예들은 복수개의 음성 인식 결과에 대응하는 채팅 메시지들을 가중치 매트릭스를 기반으로 필터링하여 보다 정확한 채팅 메시지를 제공하는 디스플레이 장치 및 그 동작 방법을 제공하기 위한 것이다.

실시 예에 따른 디스플레이 장치는 하나 이상의 인스트럭션을 저장하는 메모리 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 음성 인식기 선택을 위한 상황 정보를 획득하고, 상기 상황 정보에 기반하여 복수의 음성 인식기 중 적어도 하나를 선택하고, 상기 선택된 적어도 하나의 음성 인식기를 이용하여, 사용자의 음성 신호로부터 음성 인식 결과를 획득하고, 상기 음성 인식 결과로부터 채팅 메시지를 획득할 수 있다.

실시 예에서, 상기 디스플레이 장치는 디스플레이부를 더 포함하고, 상기 프로세서는 상기 디스플레이부가 콘텐츠 및 상기 콘텐츠와 관련한 채팅 룸의 채팅 메시지들을 디스플레이하도록 제어하고, 상기 상황 정보는 상기 콘텐츠에 대한 콘텐츠 정보 및 채팅과 관련한 채팅 정보 중 적어도 하나를 포함할 수 있다.

실시 예에서, 상기 채팅 정보는 상기 채팅 룸의 타이틀 및 상기 채팅 메시지들의 내용 중 적어도 하나에 대한 정보를 포함하고, 상기 콘텐츠 정보는 상기 콘텐츠의 내용, 상기 콘텐츠와 함께 출력되는 음성 신호, 자막, 상기 콘텐츠의 프로그램명, 콘텐츠 주제, 콘텐츠 타입, 콘텐츠 장르, 채널 종류, 방송국, 제작자, 출연자, 감독, 콘텐츠 방영 시간에 대한 정보 중 적어도 하나를 포함할 수 있다.

실시 예에서, 상기 복수의 음성 인식기 각각은 하나 이상의 서로 다른 학습 데이터로 훈련된 학습 모델을 포함하고, 상기 서로 다른 학습 데이터는 언어 별 학습 데이터, 분야 별 학습 데이터, 프로그램 타입 별 학습 데이터, 프로그램 장르 별 학습 데이터, 방송국 별 학습 데이터, 채널 별 학습 데이터 제작자 별 학습 데이터, 출연자 별 학습 데이터, 감독 별 학습 데이터, 지역 별 학습 데이터, 사용자 정보를 기반으로 획득한 개인화된 학습 데이터, 및 사용자가 속한 집단의 정보를 기반으로 획득한 집단의 학습 데이터 중 적어도 하나를 포함할 수 있다.

실시 예에서, 상기 사용자 정보는, 사용자 프로필 정보, 상기 사용자의 시청 이력 정보, 및 상기 사용자가 입력한 채팅 메시지 내용 정보 중 적어도 하나를 포함하고, 상기 사용자가 속한 집단의 정보는 상기 사용자와 사용자 정보가 기준치 이상 중복되는 사람들의 프로필 정보, 시청 이력 정보 및 상기 사람들이 입력한 채팅 메시지 내용 정보 중 적어도 하나를 포함할 수 있다.

실시 예에서, 상기 복수의 음성 인식기 각각은 하나 이상의 서로 다른 학습 데이터로 훈련된 학습 모델을 포함하고, 상기 복수의 음성 인식기는 학습 모델 훈련에 이용된 학습 데이터 종류를 나타내는 라벨 정보로 식별되고, 상기 프로세서는 상기 상황 정보와 상기 라벨 정보의 유사도에 기반하여 상기 복수의 음성 인식기 중 적어도 하나를 선택할 수 있다.

실시 예에서, 상기 프로세서는 상기 선택된 음성 인식기가 복수개인 것에 상응하여, 상기 복수개의 음성 인식기를 이용하여 상기 사용자의 음성 신호로부터 복수개의 음성 인식 결과를 획득할 수 있다.

실시 예에서, 상기 프로세서는 상기 복수개의 음성 인식 결과 중에서 가중치 매트릭스를 기반으로 기 정해진 개수 이하의 음성 인식 결과를 필터링하고, 상기 필터링된 음성 인식 결과에 대응하는 채팅 메시지를 획득하고, 상기 채팅 메시지를 상기 디스플레이부를 통해 출력할 수 있다.

실시 예에서, 상기 프로세서는 상기 디스플레이를 통해 출력된 채팅 메시지가 복수개인 경우, 상기 복수개의 채팅 메시지 중 사용자가 선택한 하나의 채팅 메시지를 채팅 서버로 전송할 수 있다.

실시 예에서, 상기 프로세서는 상기 사용자의 선택에 기반하여 상기 가중치 매트릭스를 업데이트할 수 있다.

실시 예에 따른 디스플레이 장치의 동작 방법은 음성 인식기 선택을 위한 상황 정보를 획득하는 단계, 상기 상황 정보에 기반하여 복수의 음성 인식기 중 적어도 하나를 선택하는 단계, 상기 선택된 적어도 하나의 음성 인식기를 이용하여, 사용자의 음성 신호로부터 음성 인식 결과를 획득하는 단계 및 상기 음성 인식 결과로부터 채팅 메시지를 획득하는 단계를 포함할 수 있다.

실시 예에 따른 컴퓨터로 읽을 수 있는 기록 매체는 음성 인식기 선택을 위한 상황 정보를 획득하는 단계, 상기 상황 정보에 기반하여 복수의 음성 인식기 중 적어도 하나를 선택하는 단계, 상기 선택된 적어도 하나의 음성 인식기를 이용하여, 사용자의 음성 신호로부터 음성 인식 결과를 획득하는 단계 및 상기 음성 인식 결과로부터 채팅 메시지를 획득하는 단계를 포함하는, 디스플레이 장치의 동작 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체일 수 있다.

일 실시 예에 따른 디스플레이 장치 및 그 동작 방법은 서로 다른 학습 데이터로 훈련된 학습 모델을 포함할 수 있다.

일 실시 예에 따른 디스플레이 장치 및 그 동작 방법은 음성 인식기 선택을 위한 상황 정보를 획득하고, 상황 정보에 기반하여 복수의 음성 인식기 중 적어도 하나를 선택할 수 있다.

일 실시 예에 따른 디스플레이 장치 및 그 동작 방법은 복수개의 음성 인식 결과에 대응하는 채팅 메시지들을 가중치 매트릭스를 기반으로 필터링하여 보다 정확한 채팅 메시지를 제공할 수 있다.

도 1은 실시 예에 따라, 디스플레이 장치가 사용자의 음성 신호로부터 채팅 메시지를 획득하고 이를 화면에 출력하는 것을 설명하기 위한 도면이다.
도 2는 실시 예에 다른 디스플레이 장치의 내부 블록도이다.
도 3은 실시 예에 따른 디스플레이 장치에 포함된 프로세서의 내부 블록도이다.
도 4는 실시 예에 따른, 도 3의 프로세서에 포함된 상황 정보 획득부의 내부 블록도이다.
도 5는 실시 예에 따른, 도 3의 프로세서에 포함된 음성 인식기 선택부의 내부 블록도이다.
도 6는 실시 예에 따라, 음성 인식기에 포함된 학습 모델이 입력 데이터의 종류에 따라 다르게 생성되는 것을 설명하기 위한 도면이다.
도 7은 실시 예에 따른, 도 3의 프로세서에 포함된 음성 인식부의 내부 블록도이다.
도 8은 실시 예에 따른, 도 3의 음성 인식 결과 출력부의 내부 블록도이다.
도 9는 실시 예에 따라, 디스플레이 장치가 사용자의 음성 신호로부터 복수개의 채팅 메시지를 화면에 출력하는 것을 설명하기 위한 도면이다.
도 10은 실시 예에 따른 디스플레이 장치의 내부 블록도이다.
도 11은 실시 예에 따른 디스플레이 장치의 내부 블록도이다.
도 12는 실시 예에 따라, 음성 신호로부터 채팅 메시지를 획득하는 과정을 도시한 순서도이다.
도 13은 실시 예에 따라, 복수개의 음성 인식기 중 하나 이상의 음성 인식기를 선택하는 과정을 도시한 순서도이다.

아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시 예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.

본 개시에서 사용되는 용어는, 본 개시에서 언급되는 기능을 고려하여 현재 사용되는 일반적인 용어로 기재되었으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 다양한 다른 용어를 의미할 수 있다. 따라서 본 개시에서 사용되는 용어는 용어의 명칭만으로 해석되어서는 안되며, 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 해석되어야 한다.

또한, 본 개시에서 사용된 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것이며, 본 개시를 한정하려는 의도로 사용되는 것이 아니다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.

본 명세서, 특히, 특허 청구 범위에서 사용된 "상기" 및 이와 유사한 지시어는 단수 및 복수 모두를 지시하는 것일 수 있다. 또한, 본 개시에 따른 방법을 설명하는 단계들의 순서를 명백하게 지정하는 기재가 없다면, 기재된 단계들은 적당한 순서로 행해질 수 있다. 기재된 단계들의 기재 순서에 따라 본 개시가 한정되는 것은 아니다.

본 명세서에서 다양한 곳에 등장하는 "일부 실시 예에서" 또는 "일 실시 예에서" 등의 어구는 반드시 모두 동일한 실시 예를 가리키는 것은 아니다.

본 개시의 일부 실시 예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. "매커니즘", "요소", "수단" 및 "구성"등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.

또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.

또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

또한, 명세서에서 "사용자"라는 용어는 디스플레이 장치를 이용하는 사람을 의미하며, 소비자, 평가자, 시청자, 관리자 또는 설치 기사를 포함할 수 있다.

이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.

도 1은 실시 예에 따라, 디스플레이 장치가 사용자의 음성 신호로부터 채팅 메시지를 획득하고 이를 화면에 출력하는 것을 설명하기 위한 도면이다.

도 1을 참조하면, 디스플레이 장치(100)는 화면을 통해 콘텐츠를 출력할 수 있는 다양한 형태의 전자 장치로 구현될 수 있다.

실시 예에서, 디스플레이 장치(100)는 콘텐츠 프로바이더로부터 콘텐츠를 수신할 수 있다. 콘텐츠 프로바이더는 소비자에게 비디오를 포함한 각종 콘텐츠를 제공하는 지상파 방송국이나 케이블 방송국, 또는 OTT 서비스 제공자, IPTV 서비스 제공자를 의미할 수 있다. 예컨대, 디스플레이 장치(100)는 튜너를 통해 방송국으로부터 실시간으로 방송 콘텐츠를 수신할 수 있다.

도 1에 도시된 바와 같이, 디스플레이 장치(100)는 콘텐츠(110)를 화면에 출력할 수 있다.

디스플레이 장치(100)는 채팅 서비스를 제공하는 채팅 서버(미도시)와 통신을 수행할 수 있다. 디스플레이 장치(100)는 채팅 서버와의 상호 네트워킹을 통해 채팅 서버와 데이터를 송수신할 수 있다.

채팅 서버는 콘텐츠를 제공하는 콘텐츠 프로바이더로부터 콘텐츠에 대한 메타데이터를 수신할 수 있다. 예컨대, 채팅 서버는 방송국으로부터 방송 프로그램에 대한 EPG(Electronic Program Guide) 정보 또는 콘텐츠의 주제나 콘텐츠의 내용을 나타내는 콘텐츠 속성 정보 포함하는 메타데이터를 수신할 수 있다.

채팅 서버는 콘텐츠에 대한 메타데이터를 이용하여 콘텐츠와 연관된 채팅 룸(chatting room)을 개설할 수 있다. 예컨대, 채팅 서버는 EPG 정보나 콘텐츠 속성 정보로부터 프로그램명(program name), 콘텐츠 주제, 방송 시간, 주요 등장 인물 등에 대한 정보 등을 획득하고, 이를 기반으로 채팅 룸의 타이틀을 결정할 수 있다. 예컨대, 채팅 서버는 프로그램명을 채팅 룸의 타이틀로 결정할 수 있다. 채팅 서버는 결정된 타이틀을 갖는 채팅 룸을 개설할 수 있다.

실시 예에서, 디스플레이 장치(100)는 웹 기반으로 채팅 서버에 접속하고, 채팅 서버가 개설한 채팅 룸의 타이틀 및 채팅 메시지를 수신하여 화면에 출력할 수 있다.

도 1에 도시된 바와 같이, 디스플레이 장치(100)는 채팅 룸의 타이틀(120) 및 채팅 메시지(130)를 화면에 출력할 수 있다.

사용자는 디스플레이 장치(100)를 이용하여 채팅 메시지를 입력할 수 있다.

실시 예에서, 사용자는 음성 신호로 디스플레이 장치(100)에 채팅 메시지를 입력할 수 있다. 이를 위해, 디스플레이 장치(100)는 오디오 신호를 집음할 수 있는 마이크를 포함하거나 또는 외부 마이크와 연결되어 외부 마이크로부터 집음된 오디오 신호를 수신할 수 있다.

실시 예에서, 디스플레이 장치(100)는 사용자가 발화한 음성 신호를 인식하기 위한 음성 인식기를 포함할 수 있다. 실시 예에서, 음성 인식기는 자동 음성 인식(Automatic Speech Recognition, ASR) 동작을 수행할 수 있다. 자동 음성 인식 동작은 사람이 말하는 음성 언어를 인식하고 해석해 그 내용을 해당 언어의 문자 데이터로 전환하는 STT(Speech to Text) 처리를 수행할 수 있다.

실시 예에서, 하나의 음성 인식기는 하나 이상의 학습 모델을 포함할 수 있다. 일 실시 예에서, 하나의 학습 모델은 한 종류의 학습 데이터로 훈련될 수 있다. 또는 다른 실시 예에서, 하나의 학습 모델은 두 종류 이상의 서로 다른 학습 데이터로 훈련될 수도 있다.

실시 예에서, 디스플레이 장치(100)는 사용자의 음성 신호가 채팅 메시지 입력을 위한 신호인지, 또는 디스플레이 장치(100) 자체를 제어하기 위한 신호인지를 판단할 수 있다. 실시 예에서, 디스플레이 장치(100)는 사용자가 채팅 서비스를 이용하고 있는지 여부를 식별할 수 있다. 예컨대, 디스플레이 장치(100)는 화면에 콘텐츠(110)및 채팅 룸이 함께 출력되어 있지 않고, 콘텐츠(110)만이 출력되는 상태에서 사용자가 음성 신호를 발화하는 경우, 이를 디스플레이 장치(100)를 제어하기 위한 제어 신호로 인식할 수 있다.

사용자가 채팅 서비스를 이용하고 있지 않은 경우, 디스플레이 장치(100)는 기본 음성 인식기를 이용하여 사용자의 발화에 대해 음성 인식을 수행할 수 있다. 기본 음성 인식기는 디스플레이 장치(100) 자체의 기본 동작을 제어하기 위한 음성 신호를 인식하는 데 사용되는 음성 인식기일 수 있다. 즉, 기본 음성 인식기는 전원 꺼, 전원 켜, 채널 업, 채널 다운, 볼륨 올려, 볼륨 내려 등과 같이 디스플레이 장치(100) 자체의 기본 동작을 제어하기 위한 음성 신호들을 학습한 음성 인식 모델을 포함하는 음성 인식기일 수 있다. 디스플레이 장치(100)는 기본 음성 인식기를 이용하여 사용자의 발화에 대해 음성 인식을 수행한 결과에 따라 볼륨을 올리거나 채널을 변경하는 것과 같은 동작을 수행할 수 있다.

실시 예에서, 디스플레이 장치(100)는 기본 음성 인식기 외에, 복수의 음성 인식기를 더 포함할 수 있다. 실시 예에서, 복수의 음성 인식기 각각은 하나 이상의 서로 다른 학습 데이터로 훈련된 학습 모델을 포함할 수 있다.

실시 예에서, 서로 다른 학습 데이터는 다양한 도메인이나 카테고리 별 학습 데이터를 의미할 수 있다. 예컨대, 서로 다른 학습 데이터는 언어 별 학습 데이터, 분야 별 학습 데이터, 프로그램 타입 별 학습 데이터, 프로그램 장르 별 학습 데이터, 방송국 별 학습 데이터, 채널 별 학습 데이터, 제작자 별 학습 데이터, 출연자 별 학습 데이터, 감독 별 학습 데이터, 지역 별 학습 데이터, 사용자 정보를 기반으로 획득한 개인화된 학습 데이터, 및 사용자가 속한 집단의 정보를 기반으로 획득한 집단의 학습 데이터 중 적어도 하나를 포함할 수 있다.

예컨대, 도 1에서, 디스플레이 장치(100)는 화학 분야에 대한 학습 데이터로 훈련된 학습 모델을 포함하는 음성 인식기를 포함한다고 가정한다. 또한, 디스플레이 장치(100)는 프로그램 장르가 교육 프로그램인 학습 데이터로 훈련된 학습 모델을 포함하는 음성 인식기를 포함한다고 가정한다.

실시 예에서, 음성 인식기는 학습 모델 훈련에 이용된 학습 데이터 종류를 나타내는 라벨 정보로 식별될 수 있다. 하나의 학습 모델이 하나의 학습 데이터로 훈련된 경우, 음성 인식기는 하나의 학습 데이터의 종류를 나타내는 라벨 정보로 식별될 수 있다. 하나의 학습 모델이 복수 종류의 학습 데이터로 훈련된 경우, 학습 모델을 포함하는 음성 인식기는 복수개의 라벨 정보의 그룹으로 식별될 수 있다.

실시 예에서, 디스플레이 장치(100)는 상황 정보를 이용하여 복수의 음성 인식기 중 적어도 하나 이상의 음성 인식기를 선택할 수 있다.

실시 예에서, 상황 정보는 음성 인식기 선택을 위해 수집되는 정보로, 음성 인식기 선택에 영향을 주는 주변의 상황을 나타내는 정보를 의미할 수 있다.

실시 예에서, 디스플레이 장치(100)는 사용자가 채팅 서비스를 이용하고 있다고 판단되는 경우, 상황 정보를 획득할 수 있다.

실시 예에서, 상황 정보는 콘텐츠 정보 및 채팅 정보 중 적어도 하나를 포함할 수 있다.

실시 예에서, 콘텐츠 정보는 화면에 출력되는 콘텐츠(110)와 관련된 정보이고, 채팅 정보는 화면에 출력되는 채팅 룸의 타이틀(120) 및 채팅 메시지(130) 중 적어도 하나에 대한 정보일 수 있다.

실시 예에서, 디스플레이 장치(100)는 콘텐츠 정보 및 채팅 정보 중 적어도 하나를 포함하는 상황 정보를 획득하고, 상황 정보에 기반하여 복수의 음성 인식기 중 적어도 하나를 선택할 수 있다.

예컨대, 도 1에서, 디스플레이 장치(100)는 프로그램명이나 콘텐츠 내용, 콘텐츠 장르 등의 콘텐츠 정보 및 채팅 룸의 타이틀(120)과 채팅 메시지(130) 중 적어도 하나로부터, 콘텐츠(110)가 분자 구조에 대한 내용을 포함하고, 콘텐츠(110)가 교육 방송을 제작하는 XX 방송국이 만든 프로그램이고, 콘텐츠(110) 및 채팅 내용이 코로넨에 대한 것, 또는 코로넨의 열분해에 대한 것임을 식별할 수 있다.

실시 예에서, 디스플레이 장치(100)는 상황 정보를 음성 인식기의 라벨 정보와 비교할 수 있다. 디스플레이 장치(100)는 상황 정보와 라벨 정보의 유사도에 기반하여 복수의 음성 인식기 중 적어도 하나 이상의 음성 인식기를 선택할 수 있다.

예컨대, 도 1에서, 디스플레이 장치(100)는 복수의 음성 인식기 중, 상황 정보에 맞는 음성 인식기로, 화학 분야에 대한 학습 데이터로 훈련된 학습 모델을 포함하는 음성 인식기를 선택할 수 있다. 또한, 디스플레이 장치(100)는 복수의 음성 인식기 중, 상황 정보에 맞는 음성 인식기로, 장르가 교육 프로그램인 학습 데이터로 훈련된 학습 모델을 포함하는 음성 인식기를 선택할 수 있다.

설명의 편의를 위해, 화학 분야에 대한 학습 데이터로 훈련된 학습 모델을 포함하는 음성 인식기를 제1 음성 인식기로 호칭하고, 교육 프로그램인 학습 데이터로 훈련된 학습 모델을 포함하는 음성 인식기를 제2 음성 인식기로 호칭하기로 한다.

실시 예에서, 디스플레이 장치(100)는 선택된 음성 인식기를 이용하여, 사용자의 음성 신호로부터 음성 인식 결과를 획득할 수 있다. 실시 예에서, 선택된 음성 인식기가 복수 개인 경우, 디스플레이 장치(100)는 복수개의 음성 인식기를 이용하여 사용자의 음성 신호로부터 복수개의 음성 인식 결과를 획득할 수 있다.

실시 예에서, 음성 인식 결과는 단어나 문장과 같은 텍스트 형태일 수 있다. 또한, 음성 인식 결과는 음성 신호가 해당 텍스트로 인식될 확률 값을 포함할 수 있다.

도 1은, 사용자가 '코로넨을 열분해하면...'을 발화하고자 하였으나, 이를 잘못 발화하여, '코로나를 열분해하면...'이라고 발화한 경우라고 가정한다.

디스플레이 장치(100)는 제1 음성 인식기를 이용하여 사용자의 음성 신호(140)에 대응하는 제1 음성 인식 결과를 획득할 수 있다. 이 때, 제1 음성 인식기가 화학 분야의 학습 데이터로 훈련된 학습 모델로 음성 인식을 수행하기 때문에, 제1 음성 인식기는 '코로나'를 '코로넨'으로 식별할 가능성이 크다. 즉, 제1 음성 인식기는 사용자의 음성 신호(140)를 예컨대 85%의 확률 값으로 '코로넨을 열분해하면...'이라는 제1 음성 인식 결과로 인식할 수 있다.

디스플레이 장치(100)는 제2 음성 인식기를 이용하여 사용자의 음성 신호(140)에 대응하는 제2 음성 인식 결과를 획득할 수 있다. 예컨대, 제2 음성 인식기에 포함된 학습 모델이 코로넨에 대한 교육 프로그램보다 코로나에 대한 교육 프로그램과 관련된 학습 데이터를 훨씬 많이 학습한 경우, 제2 음성 인식기는 사용자가 발화한 '코로나'라는 단어를 '코로넨'으로 식별할 가능성보다 '코로나'로 식별할 가능성이 더 크다. 이 경우, 제2 음성 인식기는 사용자의 음성 신호(140)를 예컨대 70%의 확률 값으로 '코로나를 열분해하면...'이라는 제2 음성 인식 결과로 인식할 수 있다.

실시 예에서, 디스플레이 장치(100)가 복수개의 음성 인식기를 사용하여 복수개의 음성 인식 결과를 획득한 경우, 디스플레이 장치(100)는 복수개의 음성 인식 결과를 가중치 매트릭스를 이용하여 필터링할 수 있다.

실시 예에서, 가중치 매트릭스는 복수개의 음성 인식기 각각에 대한 가중치를 포함하고 있는 매트릭스일 수 있다. 음성 인식기에 대한 가중치는 음성 인식기의 음성 인식 결과에 대한 신뢰도 내지는 정확성을 나타내는 정보일 수 있다. 음성 인식기 별 가중치는 초기에는 동일한 값으로 설정되어 있다가, 사용자가 음성 인식 결과를 선택한 정도에 따라 변경될 수 있다.

실시 예에서, 디스플레이 장치(100)는 가중치 매트릭스에 포함된, 제1 음성 인식기에 대한 제1 가중치 값을, 제1 음성 인식 결과에 대한 확률 값에 적용하고, 제2 음성 인식기에 대한 제2 가중치 값을, 제2 음성 인식 결과에 대한 확률 값에 적용할 수 있다.

예컨대, 위 예에서, 제1 음성 인식기에 대한 제1 가중치 값이 0.5이고, 제2 음성 인식기에 대한 제2 가중치 값이 0.3인 경우, 디스플레이 장치(100)는 제1 가중치 값 0.5를 제1 음성 인식 결과에 대한 확률 값 85%에 곱하고, 제2 가중치 값 0.3을 제2 음성 인식 결과에 대한 확률 값 70%에 곱할 수 있다.

실시 예에서, 디스플레이 장치(100)는 가중치가 적용된 확률 값 중 기준치 이상의 값을 갖는 음성 인식 결과에 대응하는 텍스트를 화면에 출력할 채팅 메시지로 결정할 수 있다.

또는, 디스플레이 장치(100)는 가중치가 적용된 확률 값 중 기준치 이상의 값을 갖는 음성 인식 결과에 대응하는 텍스트가 복수개인 경우, 더 높은 값을 갖는 텍스트를 화면에 출력할 채팅 메시지로 결정할 수 있다. 예컨대, 위 예에서, 제1 음성 인식기에 대한 제1 가중치를 제1 음성 인식 결과로 인식할 확률 값 85%에 적용한 값이, 제2 음성 인식기에 대한 제2 가중치를 제2 음성 인식 결과로 인식할 확률 값 70%에 적용한 값보다 크기 때문에, 디스플레이 장치(100)는 제1 음성 인식기를 통해 획득한 제1 음성 인식 결과인, '코로넨을 열분해하면...'이라는 텍스트를 화면에 출력할 채팅 메시지로 결정할 수 있다.

실시 예에서, 디스플레이 장치(100)는 채팅 메시지를 도 1의 채팅 메시지 입력 칸(150)을 통해 출력할 수 있다.

디스플레이 장치(100)는 채팅 메시지 입력 칸(150)을 통해 입력된 채팅 메시지를 채팅 서버로 바로 전송하거나, 또는 사용자 컨펌을 받은 후 채팅 서버로 전송할 수 있다. 사용자 컨펌은 예컨대, 채팅 메시지가 출력된 후 소정 시간이 경과하는 것, 또는 소정 시간 동안 채팅 메시지가 잘못 입력되었다는 사용자 입력을 수신하지 않는 것, 또는 채팅 메시지 입력 칸(150) 옆의 체크 표시(151)에 대한 사용자 선택을 수신하는 것 중 적어도 하나를 포함할 수 있다.

채팅 서버는 디스플레이 장치(100)로부터 채팅 메시지를 수신하고, 수신된 채팅 메시지를 채팅 룸에 속하는 복수 디스플레이 장치들 모두에게 전송하여 채팅 메시지를 중계할 수 있다.

이와 같이, 실시 예에 의하면, 디스플레이 장치(100)는 콘텐츠(110)나 채팅 룸의 타이틀(120), 채팅 메시지(130) 등과 같이 주변의 상황을 고려하여 음성 인식을 수행하기 때문에, 사용자가 콘텐츠(110)나 채팅 룸의 타이틀(120), 채팅 메시지(130) 내용 등과 맞지 않는 음성 신호를 발화한 경우에도, 사용자의 음성 신호를 주변 상황에 부합하는 신호로 인식하여 처리할 수 있다.

도 2는 실시 예에 다른 디스플레이 장치의 내부 블록도이다.

도 2의 디스플레이 장치(200)는 도 1의 디스플레이 장치(100)의 일 예일 수 있다.

실시 예에서, 디스플레이 장치(200)는 화면을 통해 콘텐츠를 출력할 수 있는 다양한 형태의 전자 장치로 구현될 수 있다. 또한, 디스플레이 장치(200)는 오디오 신호를 집음할 수 있는 마이크를 포함하거나 또는 외부 마이크를 통해 집음된 오디오 신호를 수신할 수 있다. 예컨대, 디스플레이 장치(200)는 마이크 또는 인공지능(AI) 스피커 등이 내장되거나 또는 외부의 마이크 또는 외부의 인공지능 스피커 등과 연결된 디지털 텔레비전, 웨어러블 디바이스, 스마트 폰, 각종 PC(personal computer)들, 예컨대 데스크 톱(desk top), 태블릿 PC, 랩탑 컴퓨터, PDA(personal digital assistant), GPS(global positioning system) 장치, 스마트 미러(smart mirror), 전자책 단말기, 네비게이션, 키오스크, 디지털 카메라, 웨어러블 장치(wearable device), 스마트 와치(smart watch), 홈네트워크 장치, 보안용 장치, 의료 장치 등과 같은 다양한 형태의 전자 기기일 수 있다. 디스플레이 장치(200)는 고정형 또는 이동형일 수 있다.

또는 디스플레이 장치(200)는 냉장고나 세탁기 등과 같은 다양한 형태의 가전 제품 등의 전면에 삽입되는 디스플레이와 같은 형태일 수도 있다.

또한, 본 개시의 실시 예에 따른 디스플레이 장치(200)는 전술한 디지털 텔레비전, 웨어러블 디바이스, 스마트 폰, 각종 PC(personal computer)들, 예컨대 데스크 톱(desk top), 태블릿 PC, 랩탑 컴퓨터, PDA(personal digital assistant), 미디어 플레이어, 마이크로 서버, GPS(global positioning system) 장치, 스마트 미러(smart mirror), 전자책 단말기, 네비게이션, 키오스크, 디지털 카메라, 웨어러블 장치(wearable device), 스마트 와치(smart watch), 홈네트워크 장치, 보안용 장치, 의료 장치, 냉장고나 세탁기, 기타 가전 제품 등의 전면에 삽입되는 디스플레이 등과 같은 다양한 형태의 전자 기기에 포함되거나 탑재되는 형태로 형성될 수 있다.

디스플레이 장치(200)는 평면(flat) 디스플레이 장치뿐만 아니라, 곡률을 가지는 화면인 곡면(curved) 디스플레이 장치 또는 곡률을 조정 가능한 가변형(flexible) 디스플레이 장치로 구현될 수 있다. 디스플레이 장치(200)의 출력 해상도는 예를 들어, HD(High Definition), Full HD, Ultra HD, 또는 Ultra HD 보다 더 선명한 해상도를 포함할 수 있다.

도 2를 참조하면, 디스플레이 장치(200)는 프로세서(210) 및 메모리(220)를 포함할 수 있다.

실시 예에 따른 메모리(220)는, 적어도 하나의 인스트럭션을 저장할 수 있다. 메모리(220)는 프로세서(210)가 실행하는 적어도 하나의 프로그램을 저장하고 있을 수 있다. 메모리(220)에는 기 정의된 동작 규칙이나 프로그램이 저장될 수 있다. 또한 메모리(220)는 디스플레이 장치(200)로 입력되거나 전자 장치(210)로부터 출력되는 데이터를 저장할 수 있다.

메모리(220)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

실시 예에서, 메모리(220)는 상황 정보를 획득하기 위한 하나 이상의 인스트럭션을 포함할 수 있다.

실시 예에서, 메모리(220)는 상황 정보에 기반하여 복수의 음성 인식기 중 적어도 하나를 선택하기 위한 하나 이상의 인스트럭션을 포함할 수 있다.

실시 예에서, 메모리(220)는 사용자의 음성 신호로부터 음성 인식 결과를 획득하기 위한 하나 이상의 인스트럭션을 포함할 수 있다.

실시 예에서, 메모리(220)는 음성 인식 결과로부터 채팅 메시지를 획득하기 위한 하나 이상의 인스트럭션을 포함할 수 있다.

실시 예에서, 메모리(220)에는 적어도 하나의 뉴럴 네트워크 및/또는 기 정의된 동작 규칙이나 AI 모델을 포함하는 음성 인식기가 저장될 수 있다.

실시 예에서, 메모리(220)에 저장된 적어도 하나의 음성 인식기는 음성 인식기에 포함된 뉴럴 네트워크 및/또는 기 정의된 동작 규칙이나 AI 모델을 이용하여 사용자의 음성 신호로부터 음성 인식 결과를 획득하기 위한 하나 이상의 인스트럭션을 포함할 수 있다.

실시 예에서, 복수의 음성 인식기 각각은 하나 이상의 서로 다른 학습 데이터로 훈련된 학습 모델을 포함할 수 있다. 서로 다른 학습 데이터는 언어 별 학습 데이터, 분야 별 학습 데이터, 프로그램 타입 별 학습 데이터, 프로그램 장르 별 학습 데이터, 방송국 별 학습 데이터, 채널 별 학습 데이터, 제작자 별 학습 데이터, 출연자 별 학습 데이터, 감독 별 학습 데이터, 지역 별 학습 데이터, 사용자 정보를 기반으로 획득한 개인화된 학습 데이터, 및 사용자가 속한 집단의 정보를 기반으로 획득한 집단의 학습 데이터 중 적어도 하나를 포함할 수 있다.

실시 예에서, 복수의 음성 인식기는 학습 모델 훈련에 이용된 학습 데이터 종류를 나타내는 라벨 정보로 식별될 수 있다.

실시 예에서, 프로세서(210)는 디스플레이 장치(200)의 전반적인 동작을 제어한다. 프로세서(210)는 메모리(220)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 디스플레이 장치(200)가 기능하도록 제어할 수 있다.

실시 예에서, 프로세서(210)는 음성 인식기 선택을 위한 상황 정보를 획득할 수 있다.

실시 예에서, 프로세서(210)는 채팅과 관련한 채팅 정보 및 콘텐츠에 대한 콘텐츠 정보 중 적어도 하나를 포함하는 상황 정보를 획득할 수 있다.

실시 예에서, 프로세서(210)는 상황 정보에 기반하여 복수의 음성 인식기 중 적어도 하나를 선택할 수 있다.

실시 예에서, 프로세서(210)는 상황 정보와 라벨 정보의 유사도에 기반하여 복수의 음성 인식기 중 적어도 하나를 선택할 수 있다.

실시 예에서, 프로세서(210)는 선택된 적어도 하나의 음성 인식기를 이용하여, 사용자의 음성 신호로부터 음성 인식 결과를 획득할 수 있다.

실시 예에서, 프로세서(210)는 선택된 음성 인식기가 복수 개인 것에 상응하여, 복수개의 음성 인식기를 이용하여 사용자의 음성 신호로부터 복수개의 음성 인식 결과를 획득할 수 있다.

실시 예에서, 프로세서(210)는 음성 인식 결과에 따라 채팅 메시지를 획득할 수 있다.

도 3은 실시 예에 따른 디스플레이 장치에 포함된 프로세서의 내부 블록도이다.

실시 예에서, 도 3의 프로세서(210)는 도 2의 디스플레이 장치(200)에 포함된 프로세서(210)일 수 있다.

실시 예에서, 프로세서(210)는 상황 정보 획득부(211), 음성 인식기 선택부(213), 음성 인식부(215) 및 음성 인식 결과 출력부(217)를 포함할 수 있다.

실시 예에서, 상황 정보 획득부(211), 음성 인식기 선택부(213), 음성 인식부(215) 및 음성 인식 결과 출력부(217)는 모듈 형태로 프로세서(210)에 포함될 수 있다. 모듈이라 함은, 본 개시의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 모듈은 소정의 코드와 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어로 한정되지 않는다.

실시 예에서, 상황 정보 획득부(211)는 음성 인식기 선택을 위해 상황 정보를 획득할 수 있다. 상황 정보는 다양한 주변의 상황을 나타내는 정보로, 채팅과 관련한 채팅 정보 및 콘텐츠에 대한 콘텐츠 정보 중 적어도 하나를 포함할 수 있다.

실시 예에서, 콘텐츠 정보는 콘텐츠와 관련된 정보로, 화면에 출력되는 콘텐츠를 분석하여 획득한 시맨틱 정보와, 방송국 등으로부터 수신한 프로그램 관련 메타데이터 정보 중 적어도 하나를 포함할 수 있다.

실시 예에서, 채팅 정보는 채팅과 관련된 정보로, 화면에 출력되는 채팅 룸의 타이틀 및 채팅 메시지 내용 중 적어도 하나에 대한 정보를 포함할 수 있다.

실시 예에서, 상황 정보 획득부(211)는 상황 정보를 음성 인식기 선택부(213)로 전달할 수 있다.

실시 예에서, 음성 인식기 선택부(213)는 상황 정보 획득부(211)로부터 상황 정보를 수신하고, 상황 정보에 기반하여 복수개의 음성 인식기 중 적어도 하나 이상의 음성 인식기를 선택할 수 있다.

실시 예에서, 복수의 음성 인식기는 각각 하나 이상의 서로 다른 학습 데이터로 훈련된 학습 모델을 포함할 수 있다. 또한, 음성 인식기는 학습 모델 훈련에 이용된 학습 데이터 종류를 나타내는 라벨 정보로 식별될 수 있다.

실시 예에서, 음성 인식기 선택부(213)는 상황 정보와 라벨 정보를 비교하여 복수의 음성 인식기 중 적어도 하나의 음성 인식기를 선택할 수 있다. 예컨대, 음성 인식기 선택부(213)는 상황 정보와 라벨 정보의 유사도에 기반하여, 상황 정보와 유사도가 높은 라벨 정보로 식별되는 음성 인식기를 선택할 수 있다. 실시 예에서, 음성 인식기 선택부(213)는 상황 정보와 라벨 정보의 유사도에 따라, 하나의 음성 인식기를 선택할 수도 있고, 또는 복수개의 음성 인식기를 선택할 수도 있다.

실시 예에서, 음성 인식부(215)는 복수개의 음성 인식기를 포함할 수 있다.

실시 예에서, 복수개의 음성 인식기 각각은 하나 이상의 서로 다른 학습 데이터로 훈련된 학습 모델을 포함할 수 있다.

실시 예에서, 음성 인식부(215)는 복수개의 음성 인식기 중 음성 인식기 선택부(213)에 의해 선택된 음성 인식기를 이용하여, 사용자의 음성 신호에 대해 음성 인식을 수행할 수 있다.

실시 예에서, 음성 인식부(215)는 사람의 음성 신호를 문자 데이터로 전환하는 STT(Speech-to-Text) 처리를 수행할 수 있다. 음성 인식부(215)는 사용자가 발성한 음성 신호를 분석하고, 이를 학습 모델과 비교하여 음성 신호에 대응하는 문자 데이터로 전환하는 처리를 수행할 수 있다.

실시 예에서, 음성 인식부(215)는 하나 이상의 음성 인식기를 이용하여 사용자의 음성 신호에 대한 음성 인식 결과로 텍스트 및 확률 값을 획득할 수 있다.

실시 예에서, 음성 인식부(215)는 하나의 음성 인식기가 복수개의 음성 인식 결과를 도출한 경우, 가장 높은 확률 값을 갖는 음성 인식 결과를 그 음성 인식기의 최종 음성 인식 결과로 획득할 수 있다.

실시 예에서, 음성 인식부(215)는 사용자의 음성 신호 및 상황 정보 중 적어도 하나에 기반하여 음성 인식기에 포함된 학습 모델을 업데이트할 수 있다.

'코로나' 라는 단어를 예를 들어보면, 코로나 바이러스가 생기기 이전에는 사용자가 '코로나'를 발화하여도 음성 인식기가 '코로나'를 잘 인식하지 못했을 것이다. 즉, 학습 모델을 갱신하지 않게 되면 음성 인식기는 신조어 등을 이해하지 못하므로 성능이 저하되게 된다. 따라서, 실시 예에서, 음성 인식부(215)는 상황 정보와 음성 신호를 이용하여 학습 모델을 실시간으로, 또는 일정한 주기마다, 또는 새로운 상황 정보나 음성 신호가 획득될 때마다, 학습 모델을 업데이트함으로써 음성 인식기의 성능을 향상시킬 수 있다.

실시 예에서, 음성 인식부(215)는 사용자의 음성 신호에 기반하여 음성 인식기에 포함된 학습 모델을 업데이트할 수 있다. 즉, 음성 인식부(215)는 사용자의 음성 신호에 따라 선택된 음성 인식기에 포함된 학습 모델이, 사용자의 음성 신호를 추가로 학습하도록 할 수 있다. 음성 인식부(215)는 디스플레이 장치(200)가 사용자로부터 음성 신호를 획득할 때마다, 음성 신호를 레이블링, 어노테이션(annotation), 태깅하는 과정 등을 수행하여 학습 모델이 추가로 사용자의 음성 신호를 학습하도록 할 수 있다.

실시 예에서, 음성 인식부(215)는 상황 정보에 기반하여 음성 인식기에 포함된 학습 모델을 업데이트할 수 있다. 음성 인식부(215)는 선택된 음성 인식기에 포함된 학습 모델이, 상황 정보를 추가로 학습하도록 할 수 있다. 음성 인식부(215)는 디스플레이 장치(200)가 상황 정보를 획득할 때마다, 또는 일정한 주기마다, 또는 랜덤한 주기마다, 학습 모델이 추가로 상황 정보를 학습하도록 할 수 있다.

또는, 실시 예에서, 음성 인식부(215)는 업데이트된 학습 모델을 소정 주기마다 또는 랜덤한 주기마다 외부 컴퓨팅 장치(미도시)로부터 수신할 수도 있다. 예컨대, 서버 등과 같은 외부의 컴퓨팅 장치는 디스플레이 장치(200)로부터 사용자의 음성 신호나 상황 정보를 수신하고, 학습 모델이 음성 신호나 상황 정보를 추가로 학습하도록 할 수 있다. 컴퓨팅 장치는 학습된 모델을 통신망을 통해 음성 인식부(215)로 전송함으로써, 음성 인식기에 포함된 학습 모델이 신규 학습 모델로 업데이트되도록 할 수 있다.

또는, 실시 예에서, 음성 인식부(215)는 디스플레이 장치(200) 내부가 아닌, 외부 컴퓨팅 장치에 포함되어 있을 수 있다. 이 경우, 디스플레이 장치(200)는 음성 인식기 선택부(213)가 선택한 음성 인식기에 대한 정보를 컴퓨팅 장치로 전송하고, 또한, 사용자의 음성 신호를 컴퓨팅 장치로 전송할 수 있다. 컴퓨팅 장치는 음성 인식기 선택부(213)가 선택한 음성 인식기를 이용하여 사용자의 음성 신호에 대해 음성 인식을 수행하고, 음성 인식을 수행하여 획득한 결과를 디스플레이 장치(200)로 전송할 수 있다.

실시 예에서, 음성 인식부(215)는 각 음성 인식기 별로 하나의 최종 음성 인식 결과를 획득하고 이를 음성 인식 결과 출력부(217)로 전달할 수 있다.

실시 예에서, 음성 인식 결과 출력부(217)는 음성 인식부(215)에 포함된 하나 이상의 음성 인식기로부터 음성 인식 결과를 텍스트로 수신하고, 이 중 화면에 출력할 하나 이상의 텍스트를 선택할 수 있다.

실시 예에서, 음성 인식 결과 출력부(217)는 음성 인식 결과의 확률 값에 가중치 매트릭스를 적용하여 화면에 출력할 기준 개수 이하의 텍스트를 선택할 수 있다.

실시 예에서, 음성 인식 결과 출력부(217)는 선택된 하나 이상의 텍스트를 화면을 통해 출력할 수 있다.

도 4는 실시 예에 따른, 도 3의 프로세서에 포함된 상황 정보 획득부의 내부 블록도이다.

도 4를 참조하면, 상황 정보 획득부(211)는 콘텐츠 정보 획득부(410) 및 채팅 정보 획득부(420)를 포함할 수 있다.

실시 예에서, 콘텐츠 정보 획득부(410)는 화면에 출력된 콘텐츠(401)에 대한 콘텐츠 정보를 획득할 수 있다. 콘텐츠 정보는 시맨틱(semantic) 정보 및 프로그램 관련 메타데이터 중 적어도 하나를 포함할 수 있다.

실시 예에서, 콘텐츠 정보 획득부(410)는 콘텐츠로부터 시맨틱 정보를 획득할 수 있다. 콘텐츠 정보 획득부(410)는 오브젝트 종류, 콘텐츠와 함께 출력되는 음성 신호, 콘텐츠와 함께 출력되는 자막 중 적어도 하나로부터 시맨틱 정보를 획득할 수 있다.

실시 예에서, 콘텐츠 정보 획득부(410)는 콘텐츠에 대해 오브젝트 디텍션(object detection)을 수행하여 콘텐츠에 포함된 오브젝트의 종류를 식별할 수 있다. 콘텐츠 정보 획득부(410)는 이미지 처리 기술을 이용하거나, 또는 인공 지능 기술을 이용하여 콘텐츠로부터 오브젝트를 검출할 수 있다. 예컨대, 콘텐츠 정보 획득부(410)는 두 개 이상의 히든 레이어들을 포함하는 딥 뉴럴 네트워크(DNN)를 이용하여 콘텐츠로부터 오브젝트가 무엇인지를 분류(classification)하고, 오브젝트의 위치(localization)를 식별함으로써, 오브젝트 디텍션을 수행할 수 있다. 콘텐츠 정보 획득부(410)는 오브젝트가 사람인 경우 그 사람이 누구인지를 식별할 수 있다. 예컨대, 콘텐츠 정보 획득부(410)는 적어도 하나의 뉴럴 네트워크를 이용하여 오브젝트로부터 얼굴을 검출하고, 검출된 얼굴에서 특징을 추출하고, 이를 이용하여 그 사람의 얼굴 특징을 기 학습한 얼굴 특징과 매칭시켜 그 사람이 누구인지를 식별할 수 있다. 또는, 콘텐츠 정보 획득부(410)는 사람의 얼굴 특징을 이용하여 그 사람의 표정을 인식할 수 있다.

또한, 콘텐츠 정보 획득부(410)는 콘텐츠와 함께 출력되는 자막을 분석하여 자막에서 키워드를 검출하거나 키워드의 의미 등을 획득할 수 있다.

또한, 실시 예에서, 콘텐츠 정보 획득부(410)는 콘텐츠와 함께 출력되는 음성 신호로부터 특징 벡터를 추출하고, 특징 벡터를 음성 모델 데이터베이스와 비교하여 음성 인식을 수행할 수 있다. 콘텐츠 정보 획득부(410)는 오디오 신호를 사전 처리하여, 오디오 신호를 기계 학습 작업에 적합한 스펙트럼 피쳐로 변환할 수 있다. 콘텐츠 정보 획득부(410)는 음원을 MFCC(MelFrequency Cepstral Coefficient) 알고리즘을 이용하여 주파수 도메인 상의 신호로 변환하고, 음원으로부터 특징 정보를 획득할 수 있다. 콘텐츠 정보 획득부(410)는 추출된 특징 벡터와 훈련된 기준 패턴과의 비교를 통해 인식 결과를 얻을 수 있다.

실시 예에서, 콘텐츠 정보 획득부(410)는 프로그램 관련 메타데이터를 획득할 수 있다. 실시 예에서, 콘텐츠 정보 획득부(410)는 콘텐츠를 제공하는 콘텐츠 프로바이더로부터 콘텐츠에 대한 메타데이터를 획득할 수 있다. 예컨대, 콘텐츠 정보 획득부(410)는 방송국으로부터 방송 프로그램에 대한 EPG(Electronic Program Guide) 정보 및 콘텐츠 속성 정보 중 적어도 하나를 포함하는 콘텐츠에 대한 메타데이터를 콘텐츠와 함께 또는 콘텐츠와 별개로 수신할 수 있다. EPG 정보는 방송 프로그램의 타이틀, 방송 시간과 내용, 출연자 정보 등을 포함하는 방송 프로그램 안내 서비스를 의미할 수 있다. 또한, 콘텐츠 속성 정보는 콘텐츠의 주제나 콘텐츠의 내용을 나타내는 정보일 수 있다. 콘텐츠 속성 정보는 EPG 정보와 별개의 정보일수도 있고, 또는 EPG 정보에 포함될 수도 있고, 또는 EPG 정보와 일부만 중복되는 정보일 수도 있다.

실시 예에서, 채팅 정보 획득부(420)는 화면에 출력되는 채팅 룸(402)의 타이틀 및 채팅 메시지 내용 중 적어도 하나로부터 채팅 정보를 획득할 수 있다.

실시 예에서, 채팅 정보 획득부(420)는 기계 학습 기반, 또는 통계적 자연어 처리 기법 기반, 또는 딥러닝 기반으로 타이틀 및 채팅 메시지의 텍스트로부터 의미 있는 정보를 추출하여 채팅 정보를 획득할 수 있다. 실시 예에서, 채팅 정보 획득부(420)는 문장의 문법적인 구성이나 구문을 분석하고, 문장의 실제 의미를 식별할 수 있다.

실시 예에서, 상황 정보 획득부(211)는 콘텐츠 정보 획득부(410)가 획득한 콘텐츠 정보 및 채팅 정보 획득부(420)가 획득한 채팅 정보 중 적어도 하나를 포함하는 상황 정보를 획득할 수 있다. 실시 예에서, 상황 정보 획득부(211)는 상황 정보를 음성 인식기 선택부(213)로 전달할 수 있다.

도 5는 실시 예에 따른, 도 3의 프로세서에 포함된 음성 인식기 선택부의 내부 블록도이다.

도 5를 참조하면, 음성 인식기 선택부(213)는 매핑부(510) 및 데이터 베이스(data base, DB, 520)를 포함할 수 있다. 또한, 음성 인식기 선택부(213) 내부에는 포함되지 않으나, 디스플레이 장치(200) 내부에는 복수개의 음성 인식기(530)가 포함될 수 있다.

실시 예에서, 데이터 베이스(520)에는 음성 인식기(530)를 식별하기 위한 라벨 정보가 데이터 형태로 저장되어 있을 수 있다. 라벨 정보는 일종의 태그로, 정보를 분류하거나, 경계를 표시하거나, 정보의 속성이나 정체성 등을 표시하는 식별자일 수 있다. 라벨 정보는 단어, 이미지 또는 기타 식별 표시의 형태를 취할 수 있다.

실시 예에서, 음성 인식기(530)는 음성 인식기(530)에 포함된 학습 모델을 훈련하는 데 이용한 학습 데이터의 종류나 카테고리를 나타내는 하나 이상의 라벨 정보로 식별될 수 있다. 라벨 정보는 음성 인식기(530)에 부여되어 음성 인식기(530)를 관리하거나 검색하는 데 사용될 수 있다.

실시 예에서, 매핑부(510)는 상황 정보에 대응하는 라벨 정보를 데이터 베이스(520)에서 검색할 수 있다. 실시 예에서, 상황 정보에 대응하는 라벨 정보는 상황 정보와의 유사도가 기준치 이상인 라벨 정보를 의미할 수 있다.

실시 예에서, 매핑부(510)는 상황 정보에 대응하는 라벨 정보로 식별되는 음성 인식기를 선택할 수 있다. 예컨대, 상황 정보에 매핑되는 라벨 정보가 라벨 1, 라벨 3, 라벨 N인 경우, 매핑부(510)는 라벨 1, 라벨 3, 라벨 N으로 식별되는 음성 인식기를 선택할 수 있다. 이 때, 라벨 1로 식별되는 음성 인식기, 라벨 3으로 식별되는 음성 인식기, 라벨 N으로 식별되는 음성 인식기는 각각 서로 다른 음성 인식기일 수도 있고, 모두 같은 하나의 음성 인식기일 수도 있다. 또는 라벨 1로 식별되는 음성 인식기와 라벨 3으로 식별되는 음성 인식기는 같은 음성 인식기이고, 라벨 N으로 식별되는 음성 인식기는 다른 음성 인식기일 수도 있다.

실시 예에서, 매핑부(510)는 상황 정보에 대응하는 라벨 정보로 식별되는 음성 인식기를 식별하고, 이를 음성 인식부(215)에 알려줄 수 있다.

도 5에는 데이터 베이스(520)가 음성 인식기 선택부(213)에 포함된 것으로 도시되어 있으나, 이는 하나의 실시 예로, 라벨 정보가 저장된 데이터 베이스(520)는 디스플레이 장치(200) 내부에 저장되어 있는 것이 아니라 디스플레이 장치(200) 외부의 서버 등에 저장되어 있을 수도 있다. 이 경우, 음성 인식기(530) 또한 디스플레이 장치(200) 내부에 저장되어 있지 않고 외부의 서버에 저장되어 있을 수 있다. 데이터 베이스(520)가 외부 서버에 저장되어 있는 경우, 매핑부(510)는 통신부(미도시)를 통해 외부 서버에 상황 정보를 전송할 수 있다. 외부 서버는 상황 정보에 매핑되는 음성 인식기를 데이터 베이스(520)에서 검색하여 선택하고, 선택된 음성 인식기로 음성 인식을 수행하여 획득한 결과를 디스플레이 장치(200)로 전송할 수 있다.

도 6는 실시 예에 따라, 음성 인식기에 포함된 학습 모델이 입력 데이터의 종류에 따라 다르게 생성되는 것을 설명하기 위한 도면이다.

도 6을 참조하면, 뉴럴 네트워크(600)는 학습 데이터 DB(610)로부터 학습 데이터를 획득할 수 있다. 뉴럴 네트워크(600)는 학습 데이터를 입력 값으로 하여 입력된 데이터들을 분류하고, 입력된 데이터들을 분석하여, 학습 데이터의 특징을 추출하고 이로부터 음성 신호에 대응하는 음성 인식 결과를 추론하도록 학습될 수 있다.

뉴럴 네트워크(600)는 복수의 학습 데이터가 입력된 것에 응답하여, 복수의 학습 데이터로부터 음성을 인식하는 방법을 학습할 수 있으며, 학습된 결과에 기초하여 학습 모델(620)을 생성할 수 있다. 여기서, 학습 모델(620)은 뉴럴 네트워크(600)를 통하여 목적하는 결과를 획득할 수 있도록 하는, 학습된 뉴럴 네트워크 자체일 수 있다.

실시 예에서, 음성 인식기의 성능은 음성 인식기에 포함된 학습 모델이 학습한 데이터 종류에 따라 달라질 수 있다. 즉, 뉴럴 네트워크(600)가 학습에 이용한 학습 데이터의 종류에 따라 다른 학습 모델(620)이 생성되기 때문에, 학습 모델(620)이 동일한 음성 신호에 대해 음성 인식을 수행하는 경우에도 학습한 데이터의 종류에 따라 학습 모델(620)이 인식하는 음성 인식의 성능이나 결과 등이 달라질 수 있다.

실시 예에서, 학습 데이터 DB(610)에는 다양한 카테고리나 도메인에 속하는 학습 데이터가 저장되어 있을 수 있다.

실시 예에서, 뉴럴 네트워크(600)는 다양한 언어 중 하나의 언어로 된 음성 언어로 훈련될 수 있다. 실시 예에서, 학습 데이터 DB(610)에 어떤 언어의 학습 데이터가 포함되어 있는지에 따라, 뉴럴 네트워크(600)가 학습에 이용한 학습 데이터의 종류가 달라지고, 그에 따라 언어 별 학습 모델(620)이 생성될 수 있다. 예컨대, 학습 데이터 DB(610)에는 한국어, 영어, 불어, 이탈리아어, 중국어, 일본어 등과 같이 다양한 언어 중 어느 하나의 언어로 된, 일상 언어 및 문자 언어 등의 음성 언어가 포함될 수 있다. 일상 언어는 일상 대화에서 보통 쓰이는 구어를 의미하고, 문자 언어는 문학이나 문어적 문체를 의미할 수 있다. 뉴럴 네트워크(600)는 학습 데이터 DB(610)로부터 언어 별 말뭉치 또는 코퍼스(corpus)를 획득하고, 이를 입력 값으로 하여 입력된 음성 언어를 분석하여 해당 언어에 대한 학습 모델(620)을 생성할 수 있다.

실시 예에서, 뉴럴 네트워크(600)는 다양한 분야 중 하나 이상의 분야에 대한 정보를 학습할 수 있다. 예컨대, 학습 데이터 DB(610)에는 인문학 분야, 정치 분야, 경제 분야, 금융 분야, 사회 분야, 생물 분야, 물리 분야, 지리 분야, 화학 분야, 예능 분야, 미술 분야, 음악 분야, 체육 분야 등과 같이 다양한 분야 중 하나 이상의 분야에 대한 정보를 포함하는 학습 데이터가 포함될 수 있다. 실시 예에서, 뉴럴 네트워크(600)는 학습에 이용한 학습 데이터의 분야에 따라 그 분야에 대한 정보를 학습한 학습 모델(620)을 생성할 수 있다. 학습 데이터의 분야 별로 그 분야에서 자주 사용되는 어휘나 용어 등이 다르고, 또한 동일한 용어가 다른 의미로 사용될 수 있으므로, 각 분야 별 학습 데이터를 이용하여 분야 별 모델을 생성할 경우, 특정 분야에 속한 어휘나 용어를 보다 더 정확히 분석할 수 있다.

실시 예에서, 뉴럴 네트워크(600)는 다양한 장르 중 하나의 장르에 대한 정보를 학습할 수 있다. 예컨대, 학습 데이터 DB(610)에는 뉴스, 토크, 드라마, 코믹, 예능, 다큐멘터리, 스포츠, 유아용 프로그램, 청소년용 프로그램, 성인물 등과 같이 다양한 장르 중 하나의 장르에 대한 정보를 포함하는 학습 데이터가 포함될 수 있다. 뉴럴 네트워크(600)는 학습에 이용한 학습 데이터의 장르에 따라 그 장르에 대한 정보를 학습한 학습 모델(620)을 생성할 수 있다.

실시 예에서, 뉴럴 네트워크(600)는 여러 방송국 중 특정 방송국에 대한 정보를 학습할 수 있다. 또한, 뉴럴 네트워크(600)는 여러 방송 채널 중 특정 채널에 대한 정보를 학습할 수 있다. 예컨대, 방송국이 특정 프로그램 제작에 특화된 방송국이거나 채널이 특정 유형의 프로그램을 방송하는 채널인 경우, 뉴럴 네트워크(600)는 방송국에 대한 정보나 채널에 대한 정보를 학습함으로써, 그 방송국에서 제작된 유사한 장르나 타입의 방송 프로그램이나 그 채널에서 방송한 유사한 유형의 프로그램에 대해 학습할 수 있다.

유사하게, 뉴럴 네트워크(600)는 다양한 프로그램 타입 중 어느 하나의 프로그램 타입에 대한 정보를 학습할 수 있다. 프로그램 타입은 쇼 단컷, 또는 에피소드등의 시리즈물 등으로 나눌 수 있다.

유사하게, 뉴럴 네트워크(600)는 여러 제작사나 제작자 중 특정 제작사나 제작자가 제작한 프로그램에 대한 정보를 학습할 수 있다.

유사하게, 뉴럴 네트워크(600)는 복수 출연자들 중 특정 출연자가 출연한 프로그램에 대한 정보를 학습할 수 있다. 이 경우, 뉴럴 네트워크(600)는 특정 출연자의 어투나 말투 등을 학습할 수 있다. 또한, 뉴럴 네트워크(600)는 여러 감독들 중에 특정 감독이 감독한 프로그램에 대한 정보를 학습할 수 있다. 이 경우, 뉴럴 네트워크(600)는 특정 감독의 스타일이나 취향, 분위기 등을 학습할 수 있다.

또한, 뉴럴 네트워크(600)는 특정 지역에 대한 정보를 학습할 수 있다. 특정 지역에 대한 정보는 특정 지역에서 자주 사용되는 음성 언어나 그 지역의 풍습, 그 지역의 명소 등을 포함할 수 있다. 지역 별로 지역색이 나타나는 말투, 화법, 억양, 어휘 등을 사용할 가능성이 높으므로, 이러한 정보를 이용하여 지역별 모델을 생성할 경우, 특정 지역에 속한 말투의 음성 신호를 보다 더 정확히 분석할 수 있다.

또한, 뉴럴 네트워크(600)는 사용자 정보를 기반으로 획득한 개인화된 학습 데이터를 학습할 수 있다. 실시 예에서, 사용자 정보는, 디스플레이 장치를 사용하는 사용자의 프로필 정보, 사용자의 시청 이력 정보, 및 사용자가 입력한 채팅 메시지 내용 정보 중 적어도 하나를 포함할 수 있다. 사용자의 프로필 정보는 사용자를 식별하기 위한 정보로, 사용자의 계정(account)을 기반으로 획득될 수 있다. 사용자 프로필 정보는 사용자의 성별, 나이, 결혼 유무, 자녀 유무, 가족 수, 직업, 생일 등의 기념일 정보 등을 포함할 수 있다. 뉴럴 네트워크(600)는 사용자가 계정을 생성할 때 입력한 프로필 정보, 사용자의 시청 이력 정보, 사용자가 입력한 채팅 메시지 내용 등을 학습 데이터로 이용하여 학습할 수 있다. 뉴럴 네트워크(600)는 사용자 정보를 기반으로 사용자가 선호하는 프로그램이나 콘텐츠의 유형이나 장르, 선호하는 방송국이나 선호하는 채널, 선호하는 콘텐츠 등에 대한 정보를 추론함으로써, 사용자 맞춤형 학습 모델을 생성할 수 있다.

또한, 뉴럴 네트워크(600)는 사용자가 속한 집단의 정보를 기반으로 획득한 집단의 학습 데이터를 학습할 수 있다. 사용자가 속한 집단의 정보는 사용자와 사용자 정보가 기준치 이상 중복되는 사람들과 관련된 정보를 의미할 수 있다. 사용자가 속한 집단의 정보는 사용자와 사용자 정보가 중복되는 사람들의 프로필 정보, 시청 이력 정보 및 그 사람들이 입력한 채팅 메시지 내용 정보 중 적어도 하나를 포함할 수 있다. 예컨대, 사용자가 30대 여자이고, 미혼이고, 사는 지역이 서울이고, 자주 시청하는 프로그램이 애완 동물과 관련된 프로그램인 경우, 뉴럴 네트워크(600)는 30대, 미혼, 서울 거주, 애완 동물 관련 콘텐츠를 자주 보는 사람들로 구성된 집단에 포함된 사람들에 대해, 그들이 자주 보는 프로그램, 그들이 입력한 채팅 내용 등을 학습할 수 있다.

여기서, 학습 모델(620)은 뉴럴 네트워크(600)를 통하여 목적하는 결과를 획득될 수 있도록 하는, 학습된 뉴럴 네트워크 자체가 될 수 있다. 구체적으로, 다양한 언어, 분야, 프로그램 타입, 장르, 방송국, 채널, 제작자, 출연자, 감독, 지역, 사용자 정보, 사용자가 속한 집단의 정보 등의 학습 데이터로 뉴럴 네트워크(600)를 훈련(training)하여, 뉴럴 네트워크(600)를 형성하는 복수개의 노드(node)들 각각에 적용되는 복수개의 가중치(weight)의 값을 설정할 수 있다. 가중치는 뉴럴 네트워크(600)의 각 노드들 간의 연결 강도를 의미할 수 있다. 가중치 값은 반복적인 학습을 통하여 최적화될 수 있으며, 결과의 정확도가 소정의 신뢰도를 만족할 때까지 반복적으로 수정될 수 있다. 예컨대, 가중치는 뉴럴 네트워크(600)에서 출력된 음성 인식 결과가 정답 셋과 기준치 이상 동일해질 때까지 계속하여 수정될 수 있다.

학습 모델(620)은 최종적으로 설정된 가중치 값들에 의해서 형성된 뉴럴 네트워크일 수 있다.

실시 예에 따르면, 하나 이상의 뉴럴 네트워크(600)를 이용하여 특정 분야나 장르의 학습 데이터를 학습하는 동작은, 사전에 수행될 수 있다.

하나 이상의 뉴럴 네트워크(600)를 이용하여 학습 데이터로부터 음성 인식 결과를 검출하는 방법을 학습하는 동작은, 디스플레이 장치(200) 내에서 수행될 수 있으나, 이에 한정되는 것은 아니고, 디스플레이 장치(200)와 통신망을 통해 결합된 외부 컴퓨팅 장치에서 수행될 수도 있다. 하나 이상의 뉴럴 네트워크(600)를 이용하여 학습 데이터를 훈련하여 음성 인식을 수행하는 방법을 학습하는 동작은, 상대적으로 복잡한 연산량을 필요로 할 수 있다. 이 경우, 디스플레이 장치(200)와는 별개의 외부의 컴퓨팅 장치가 학습하는 동작을 수행하고, 디스플레이 장치(200)는 외부 컴퓨팅 장치로부터 학습 모델(620)을 수신함으로써, 디스플레이 장치(200)에서 수행되어야 하는 연산량을 줄일 수 있다. 디스플레이 장치(200)는 학습 모델(620)을 외부 서버로부터 수신하여 메모리(220)나 프로세서(210) 내에 저장하고, 저장된 학습 모델(620)을 이용하여 음성 신호에 대해 음성 인식을 수행할 수 있다.

훈련이 끝난 학습 모델(620)이 디스플레이 장치(200)에 장착된 이후에도, 상황 정보나 사용자의 음성 신호에 따라, 또는 학습 데이터 중 일부가 변경됨에 따라, 학습 모델(620)은 업데이트될 수 있다. 경우에 따라, 소정의 주기 단위로, 새로운 학습 데이터가 사용될 수 있다. 새로운 학습 데이터가 추가되면, 하나 이상의 뉴럴 네트워크(600)는 학습 데이터로부터 음성 인식 결과를 획득하는 방법을 다시 학습할 수 있으며, 이에 따라 학습 모델이 업데이트될 수 있다.

도 7은 실시 예에 따른, 도 3의 프로세서에 포함된 음성 인식부의 내부 블록도이다.

도 7의 음성 인식부(215a)는 도 3의 음성 인식부(215)의 일 예일 수 있다.

음성 인식부(215a)는 사람이 말하는 음성 언어를 인식하고 해석해 그 내용을 해당 언어의 문자 데이터로 전환하는 STT(Speech to Text) 처리를 수행할 수 있다.

도 7을 참조하면, 음성 인식부(215a)는 특징 추출부(701), 음향 모델(Acoustic Model, 703), 언어 모델(Language Model, 705), 및 디코더(707)를 포함할 수 있다.

특징 추출부(701)는 마이크(미도시)로부터 전달된 음성 신호에 대해 EPD(End Point Detection)을 수행하여 입력된 음성에 포함된 실제 음성 구간을 검출하고, 검출된 구간 내에서 입력된 음성의 특징 벡터를 추출할 수 있다. 특징 추출부(701)는 검출된 구간 내에서 켑스트럼(Cepstrum), 선형 예측 코딩(Linear Predictive Coefficient: LPC), 멜프리퀀시켑스트럼(Mel Frequency Cepstral Coefficient: MFCC) 또는 필터 뱅크 에너지(Filter Bank Energy) 등의 특징 벡터 추출 기술을 적용하여 입력된 음성의 특징 벡터를 추출할 수 있다.

음향 모델(703)은 음성의 신호적인 특성을 모델링하여 비교하는 모델로, 인식 대상을 특징 벡터 모델로 설정하고 이를 음성 데이터의 특징 벡터와 비교하는 직접 비교 방법을 이용하거나, 또는 인식 대상의 특징 벡터를 통계적으로 처리하여 이용하는 통계 방법을 이용할 수 있다. 직접 비교 방법은 인식 대상이 되는 단어, 음소 등의 단위를 특징 벡터 모델로 설정하고 입력 음성이 이와 얼마나 유사한지를 비교하는 방법으로서, 예컨대, 벡터 양자화(Vector Quantization) 방법이 있다. 벡터 양자화 방법은 입력된 음성 데이터의 특징 벡터를 기준 모델인 코드북(codebook)과 매핑시켜 대표 값으로 부호화함으로써 이 부호 값들을 서로 비교하는 방법이다. 통계적 모델 방법은 인식 대상에 대한 단위를 상태 열(State Sequence)로 구성하고 상태 열 간의 관계를 이용하는 방법으로, 상태 열은 복수의 노드(node)로 구성될 수 있다. 상태 열 간의 관계를 이용하는 방법은 동적 시간 와핑(Dynamic Time Warping: DTW), 히든 마르코프 모델(Hidden Markov Model: HMM), 인공 신경망(Artificial Neural Network, ANN)을 이용한 방식 등이 있다.

언어 모델(705)은 어휘 선택, 문장 단위 구문 구조 등 해당 언어의 사용성 문제에 대해 문법 체계를 통계적으로 학습하는 모델이다. 언어 모델(705)은 단어나 음절 등의 언어적인 순서 관계를 모델링하는 모델로 언어를 구성하는 단위들 간의 순서 관계를 음성 인식에서 얻어진 단위들에 적용함으로써 음향적인 모호성을 줄이고 인식의 오류를 줄일 수 있다. 언어 모델(705)은 통계적 언어 모델과 유한 상태 네트워크(Finite State Automata: FSA)에 기반한 모델이 있고, 통계적 언어 모델에는 Unigram, Bigram, Trigram 등 단어의 연쇄 확률이 이용될 수 있다.

디코더(707)는 음성과 언어 데이터의 사전 지식을 사용해서 음성 신호로부터 문자 정보를 출력할 수 있다. 디코더(707)는 음향 모델(703)과, 언어 모델(705)을 이용하여 입력된 특징 벡터를 모델과 비교, 스코어링(Scoring)하여 단어 열을 최종 결정 지을 수 있다. 디코더(707)는 음성 인식 결과로 텍스트 형태의 단어나 문장을 획득할 수 있다. 또한, 디코더(707)는 음성 인식 결과를 획득한 확률 값을 텍스트와 함께 출력할 수 있다. 예컨대, 음성 신호에 대한 음성 인식 결과가 A와 B, 두 개로 획득된 경우, 디코더(707)는 음성 신호가 A일 확률과 B일 확률을 각각 도출할 수 있다. 실시 예에서, 디코더(707)는 하나의 음성 인식기로부터 획득된 음성 인식 결과 중 가장 높은 확률로 획득된 음성 인식 결과만을 음성 인식 결과 출력부(217)로 전달할 수 있다.

도 7에 도시된 음성 인식부(215a)는 하나의 음성 인식기에 포함될 수 있다.

실시 예에서, 디스플레이 장치(200)는 복수개의 음성 인식기를 포함할 수 있다. 즉, 디스플레이 장치(200)는 도 7에 도시된 형태의 음성 인식부(215a)를 복수개 포함할 수 있다.

실시 예에서, 복수개의 음성 인식기 각각은 도 6에서 설명한 바와 같이, 도메인 별로, 또는 카테고리 별로 다양한 학습 데이터로 학습된 음향 모델과 언어 모델을 포함할 수 있다. 또한, 음성 인식기는 음향 모델과 언어 모델이 학습한 학습 데이터의 종류로 라벨링될 수 있다.

실시 예에서, 음성 인식부(215a)는 사용자의 음성 신호를 새로 입력 받을 때마다 기존의 학습 모델을 업데이트하여, 음성 인식 성능을 높일 수 있다.

다만, 본 출원에서 사용되는, STT를 수행하는 음성 인식기는, 도 7에 도시된 음성 인식기(215a)로 한정되는 것은 아니다. 예컨대, 디스플레이 장치(200)는 딥러닝 기술을 기반으로, 음성 인식부(215a)에 포함되는 각각의 모듈의 기능을 통합하여 수행하는 인공 지능 모델을 이용하여 음성 신호로부터 음성 인식 결과를 획득할 수도 있다. 예컨대, 음성 인식기는 시퀀스-투-시퀀스(Sequence-to-Sequence) 방식의 RNN(Recurrent Neutral Network) 기반으로 음성 인식을 수행하거나, 또는, End-to-End 학습 방식을 이용하여 일련의 오디오 특징을 입력으로 하고 일련의 글자(character) 또는 단어들을 출력으로 하는 단일 함수를 이용하여 음성 인식을 수행할 수도 있다.

이 경우, 음성 신호로부터 음성 인식 결과를 획득하는 데 이용되는 인공 지능 모델은, 도 6에서 설명한 바와 같이, 사전에 도메인이나 카테고리 등의 다양한 분야에 따른 다양한 종류의 학습 데이터로 미리 학습될 수 있다. 또한, 음성 인식기에 포함된 모델은 새로운 음성 신호가 입력될 때마다 새로운 음성 신호로 새로 학습되어 업데이트될 수 있다.

도 8은 실시 예에 따른, 도 3의 음성 인식 결과 출력부의 내부 블록도이다.

도 8a의 음성 인식 결과 출력부(217a)는 도 3의 음성 인식 결과 출력부(217)의 일 예로, 채팅 메시지 획득부(830)가 하나의 채팅 메시지를 출력하는 경우를 도시한다.

도 8a을 참조하면, 음성 인식 결과 출력부(217a)는 가중치 매트릭스 획득부(810), 가중치 적용부(820), 및 채팅 메시지 획득부(830)를 포함할 수 있다.

실시 예에서, 가중치 매트릭스 획득부(810)는 가중치 매트릭스를 획득할 수 있다. 실시 예에서, 가중치 매트릭스는 복수개의 음성 인식기 각각에 대한 가중치 값을 벡터 형태로 포함하는 매트릭스일 수 있다. 실시 예에서, 가중치는 각 음성 인식기 별 사용자 선호도 내지는 음성 인식기가 선택된 정도를 나타낼 수 있다. 즉, 가중치는 음성 인식기의 음성 인식 결과에 대한 사용자의 신뢰도 내지는 음성 인식 결과의 정확성 정도를 나타낼 수 있다. 가중치 매트릭스에 포함된 가중치는 도 6에 대한 설명에서 설명한, 뉴럴 네트워크(600)의 각 노드들 간의 연결 강도를 의미하는 가중치와는 다른 용어로 사용하였다.

실시 예에서, 가중치 매트릭스는 디스플레이 장치(200) 내부에 기 저장되어 있을 수 있다. 가중치 매트릭스는 복수개의 음성 인식기 각각에 대한 가중치 값이 초기 값으로 설정된 상태로, 디스플레이 장치(200) 내부에 테이블 형태로 저장되어 있을 수 있다. 복수개의 음성 인식기 각각에 대한 초기 가중치 값은 동일한 값으로 설정되어 있을 수 있다. 이후, 사용자가 음성 인식 결과를 선택한 정도에 따라 음성 인식기 별 가중치 값은 변경될 수 있다.

실시 예에서, 가중치 적용부(820)는 음성 인식부(215)로부터 음성 인식 결과를 수신할 수 있다. 음성 인식 결과는 단어나 문장 등의 텍스트와 음성 인식 결과에 대한 확률 값을 포함할 수 있다.

음성 인식부(215)가 복수개의 음성 인식기를 이용하여 사용자의 음성 신호에 대해 복수개의 음성 인식 결과를 획득한 경우, 가중치 적용부(820)는 음성 인식부(215)로부터 복수개의 음성 인식 결과를 획득할 수 있다. 예컨대, 음성 인식부(215)가 복수개의 음성 인식기 중 제1 음성 인식기와 제2 음성 인식기를 이용하여 음성 인식을 수행하여 제1 음성 인식기로 제1 음성 인식 결과를 획득하고, 제2 음성 인식기로 제2 음성 인식 결과를 획득한 경우, 음성 인식부(215)는 제1 음성 인식 결과와 제2 음성 인식 결과를 가중치 적용부(820)로 전달할 수 있다. 제1 음성 인식 결과는 제1 텍스트와 제1 텍스트에 대한 제1 확률 값을 포함하고, 제2 음성 인식 결과는 제2 텍스트와 제2 텍스트에 대한 제2 확률 값을 포함할 수 있다.

실시 예에서, 가중치 적용부(820)는 가중치 매트릭스 획득부(810)로부터 가중치 매트릭스를 수신하고, 가중치 매트릭스를 확률 값에 적용할 수 있다. 예컨대, 가중치 적용부(820)는 제1 확률 값에 제1 음성 인식기에 대한 가중치 값을 곱하고, 제2 확률 값에 제2 음성 인식기에 대한 가중치 값을 곱할 수 있다. 가중치 적용부(820)는 확률 값과 가중치 값을 곱한 결과 값을 채팅 메시지 획득부(830)로 전송할 수 있다.

실시 예에서, 채팅 메시지 획득부(830)는 확률 값과 가중치 값을 곱한 결과 값을 가중치 적용부(820)로부터 수신하고, 복수개의 음성 인식 결과 중 화면에 출력할 음성 인식 결과를 선택할 수 있다.

실시 예에서, 채팅 메시지 획득부(830)는 가중치 값과 확률 값을 곱한 결과가 기준치 이상의 값을 갖는 텍스트를, 화면을 통해 출력할 채팅 메시지로 선택할 수 있다. 또는, 위 예에서, 제1 확률 값에 제1 음성 인식기에 대한 가중치 값을 곱해 획득한 제1 결과 값과, 제2 확률 값에 제2 음성 인식기에 대한 가중치 값을 곱해 획득한 제2 결과 값이 모두 기준치 이상의 값을 갖는 경우, 채팅 메시지 획득부(830)는 확률 값과 가중치 값을 곱한 결과 값이 더 높은 값을 갖는 텍스트를 채팅 메시지로 선택할 수 있다.

실시 예에서, 채팅 메시지 획득부(830)는 선택된 채팅 메시지를 화면을 통해 출력할 수 있다.

실시 예에서, 가중치 매트릭스 획득부(810)는 채팅 메시지 획득부(830)가 출력한 채팅 메시지가 어느 음성 인식기로부터 인식된 결과인지에 대한 정보를 받아, 가중치 매트릭스를 업데이트할 수 있다. 가중치 매트릭스 획득부(810)는 최종적으로 화면에 출력된 채팅 메시지를 도출한 음성 인식기에 높은 웨이트를 부여함으로써 가중치 매트릭스를 업데이트할 수 있다.

도 8b의 음성 인식 결과 출력부(217b)는 복수개의 채팅 메시지를 화면에 출력한 경우에 사용자 선택(840)을 추가로 수신한다는 점을 제외하고는 도 8a의 음성 인식 결과 출력부(217a)와 수행하는 기능이 동일하다.

도 8b에서, 음성 인식 결과 출력부(217b)에 포함된 채팅 메시지 획득부(830)는 제1 확률 값과 제1 음성 인식기에 대한 가중치 값을 곱한 제1 결과 값과, 제2 확률 값과 제2 음성 인식기에 대한 가중치 값을 곱한 제2 결과 값이 모두 기준치 이상의 값을 갖고, 확률 값과 가중치 값을 곱한 결과 값이 소정 오차 범위 안에 있는 경우, 소정 오차 범위에 포함되는 결과 값을 갖는 음성 인식 결과 모두에 대한 채팅 메시지를 출력할 수 있다. 예컨대, 제1 결과 값과 제2 결과 값 간의 차이가 10% 오차 범위 이내인 경우, 채팅 메시지 획득부(830)는 제1 텍스트와 제2 텍스트 모두를 화면에 출력할 채팅 메시지로 선택할 수 있다. 채팅 메시지 획득부(830)는 제1 텍스트의 채팅 메시지와 제2 텍스트의 채팅 메시지를 모두 화면을 통해 출력할 수 있다.

실시 예에서, 사용자는 사용자 입력부(미도시) 등을 통해, 화면에 출력된 복수의 채팅 메시지 중 채팅 룸으로 전송할 하나의 채팅 메시지를 선택할 수 있다. 디스플레이 장치(200)는 사용자가 선택한 하나의 채팅 메시지를 서버로 전송하여, 사용자가 선택한 채팅 메시지가 채팅 룸에 표시되도록 할 수 있다.

실시 예에서, 가중치 매트릭스 획득부(810)는 채팅 메시지 획득부(830)가 출력한 채팅 메시지가 어느 음성 인식기로부터 인식된 결과인지에 대한 정보를 받아, 가중치 매트릭스를 업데이트할 수 있다. 또한, 가중치 매트릭스 획득부(810)는 채팅 메시지 획득부(830)가 출력한 채팅 메시지 중 사용자가 선택한 채팅 메시지가 어느 음성 인식기로부터 인식된 결과인지에 대한 정보를 받아, 가중치 매트릭스를 업데이트할 수 있다. 가중치 매트릭스 획득부(810)는 사용자의 선택 결과를 반영하여 음성 인식기에 대한 웨이트를 조절함으로써 가중치 매트릭스를 업데이트할 수 있다.

도 9는 실시 예에 따라, 디스플레이 장치가 사용자의 음성 신호로부터 복수개의 채팅 메시지를 화면에 출력하는 것을 설명하기 위한 도면이다.

도 9는 디스플레이 장치(100a)가 복수개의 채팅 메시지를 화면에 출력하는 것을 제외하고는 도 1의 디스플레이 장치(100)와 수행하는 기능이 같으므로, 중복되는 설명은 생략한다.

도 9을 참조하면, 디스플레이 장치(100a)는 화면을 통해 콘텐츠(110)를 출력할 수 있다. 또한, 디스플레이 장치(100a)는 채팅 룸의 타이틀(120) 및 채팅 메시지(130)를 화면에 출력할 수 있다. 디스플레이 장치(100a)는 콘텐츠(110)에 대한 콘텐츠 정보 및 채팅과 관련한 채팅 정보 중 적어도 하나를 포함하는 상황 정보를 획득하고, 상황 정보와 음성 인식기의 라벨을 이용하여 복수개의 음성 인식기 중 적어도 하나의 음성 인식기를 선택할 수 있다.

도 9는 도 1과 마찬가지로, 사용자가 음성 신호를 이용하여 채팅 메시지를 입력하는 경우에, '코로넨을 열분해하면...'을 발화하고자 하였으나, 이를 잘못 발화하여, '코로나를 열분해하면...'이라고 발화한 경우라고 가정한다.

실시 예에서, 디스플레이 장치(100a)는 복수개의 음성 인식기를 사용하여 복수개의 음성 인식 결과를 확률 값으로 획득하고, 음성 인식 결과에 대한 확률 값에 가중치 매트릭스를 적용할 수 있다.

실시 예에서, 디스플레이 장치(100)는 가중치가 적용된 확률 값 중 기준치 이상의 값을 갖는 확률 값으로 인식된 음성 인식 결과에 따른 텍스트를 채팅 메시지로 획득할 수 있다.

실시 예에서, 디스플레이 장치(100a)는 가중치와 확률 값을 곱한 결과 값이 기준치 이상인 음성 인식 결과가 복수개인 경우, 복수개의 음성 인식 결과에 대응하는 채팅 메시지를 모두 화면에 출력할 수 있다. 예컨대, 디스플레이 장치(100a)에 포함된 복수개의 음성 인식기부터 세 개의 음성 인식 결과가 획득되고, 이 중, 음성 인식 결과의 확률 값과 가중치를 곱한 결과 값이 기준치 이상의 값을 갖는 음성 인식 결과가 두 개인 경우, 디스플레이 장치(100a)는 두 개의 음성 인식 결과에 대응하는 채팅 메시지를 모두 선택할 수 있다.

실시 예에서, 디스플레이 장치(100a)는 가중치와 확률 값을 곱한 결과 값이 기준치 이상인 음성 인식 결과가 복수개이고, 복수개가 기 정해진 개수보다 많은 경우, 결과 값 중 더 높은 결과 값을 갖는 순서대로 기 정해진 개수의 채팅 메시지만이 화면에 출력되도록 할 수 있다. 예컨대, 디스플레이 장치(100a)가 네 개의 음성 인식 결과를 획득하고, 음성 인식 결과의 확률 값과 가중치를 곱한 결과 값이 기준치 이상의 값을 갖는 음성 인식 결과가 세 개인 경우, 디스플레이 장치(100a)는 결과 값이 높은 순서대로, 기 정해진 개수인 두 개의 채팅 메시지만이 화면에 출력되도록 할 수 있다.

실시 예에서, 디스플레이 장치(100a)는 도 9에 도시된 바와 같이 두 개의 채팅 메시지를 각각 제1 채팅 메시지 입력 칸(150), 및 제2 채팅 메시지 입력 칸(155)에 출력할 수 있다.

사용자는 화면에 출력된 복수개의 채팅 메시지들 중 사용자의 의도에 부합하는 채팅 메시지를 선택할 수 있다. 사용자는 예컨대, '위의 것', 또는 '아래 것'과 같은 음성 신호를 이용하여 복수개의 채팅 메시지 중 하나를 선택하거나, 또는 키보드나 마우스 등을 조작하여 채팅 메시지 입력 칸(150, 155) 옆에 표시된 체크 표시(151, 156) 중 하나를 선택하여 채팅 메시지를 선택할 수 있다.

실시 예에서, 디스플레이 장치(100a)는 복수개의 채팅 메시지 중에 사용자가 선택한 채팅 메시지를 채팅 서버로 전송할 수 있다.

실시 예에서, 디스플레이 장치(100a)는 사용자의 선택 이력을 기반으로 가중치 매트릭스를 업데이트할 수 있다. 즉, 디스플레이 장치(100a)는 복수의 채팅 메시지 중 어느 메시지를 사용자가 선택했는지에 따라 사용자가 선택한 채팅 메시지에 대응하는 음성 인식 결과를 도출한 음성 인식기에 높은 웨이트를 부여하고, 사용자가 선택하지 않은 채팅 메시지에 대응하는 음성 인식 결과를 도출한 음성 인식기에는 낮은 웨이트를 부여함으로써 가중치 매트릭스를 업데이트할 수 있다.

도 10은 실시 예에 따른 디스플레이 장치의 내부 블록도이다.

도 10의 디스플레이 장치(200a)는 도 2의 디스플레이 장치(200)의 일 예일 수 있다.

도 10을 참조하면, 디스플레이 장치(200a)는 프로세서(210), 메모리(220), 디스플레이부(230), 통신부(240) 및 사용자 입력부(250)를 포함할 수 있다.

실시 예에서, 디스플레이 장치(200a)는 영상 표시 장치일 수 있다. 영상 표시 장치는 디지털 방송 수신이 가능한 디지털 TV일 수 있으나, 이에 한정되지 않으며, 다양한 형태의 전자 장치로 구현될 수 있다. 예컨대, 디스플레이 장치(200a)는 스마트폰과 같은 이동 단말기로 구현될 수도 있다. 디스플레이 장치(200a)는 방송 콘텐츠, 방송 콘텐츠 관련하여 개설된 채팅 룸 및 채팅 메시지를 화면에 출력할 수도 있다.

실시 예에서, 디스플레이 장치(200a)는 콘텐츠 프로바이더들(contents providers)로부터 텔레비전 프로그램이나 VOD 서비스를 통한 각종 영화나 드라마 등의 아이템 등을 수신할 수 있다.

실시 예에서, 디스플레이 장치(200a)는 방송 콘텐츠 서버가 전송하는 방송 콘텐츠 데이터를 소스 장치를 통해 수신할 수 있다. 소스 장치는 셋탑 박스 및 지상파 수신기를 포함할 수 있으나, 이에 제한되지 않는다.

실시 예에서, 디스플레이 장치(200a)는 채팅 서비스를 제공하는 서버로부터 채팅 룸의 타이틀 및 채팅 메시지를 수신할 수 있다.

실시 예에서, 방송 콘텐츠 서버와 채팅 서비스를 제공하는 서버는 동일한 서버일수도 있고 별개의 서버일 수도 있다.

실시 예에서, 디스플레이부(230)는 실시간으로 수신되는 방송 콘텐츠를 출력할 수 있다.

디스플레이부(230)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉서블 디스플레이(flexible display), 3차원 디스플레이(4D display), 전기 영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고, 디스플레이부(230)의 구현 형태에 따라, 디스플레이부(230)는 둘 이상 포함될 수 있다. 디스플레이부(230)가 터치 스크린으로 구현되는 경우, 디스플레이부(230)는 출력 장치 이외에 사용자 인터페이스와 같은 입력 장치로 사용될 수 있다.

실시 예에서, 디스플레이부(230)는 하나의 화면에 콘텐츠 및 콘텐츠에 대한 채팅 서비스를 제공하는 채팅 룸을 함께 디스플레이할 수 있다. 채팅 룸은 디스플레이 장치(200a)의 화면의 전체 또는 일부에서 채팅을 위한 프로그램이 실행되는 영역을 의미할 수 있다.

실시 예에서, 디스플레이부(230)는 서버가 전송한 복수의 채팅 메시지들을 채팅 룸 안에 출력할 수 있다.

또한, 실시 예에서, 디스플레이부(230)는 사용자 입력부(250)를 통해 사용자가 입력하는 채팅 메시지를, 사용자 메시지 입력 부분에 출력할 수 있다.

실시 예에서, 사용자 입력부(250)는 디스플레이 장치(200a)를 제어하기 위한 사용자 입력을 수신할 수 있다. 사용자 입력부(250)는 사용자의 터치를 감지하는 터치 패널, 사용자의 푸시 조작을 수신하는 버튼, 사용자의 회전 조작을 수신하는 휠, 키보드(key board), 및 돔 스위치 (dome switch), 음성 인식을 위한 마이크, 모션을 센싱하는 모션 감지 센서 등을 포함하는 다양한 형태의 사용자 입력 디바이스를 포함할 수 있으나 이에 제한되지 않는다.

실시 예에서, 사용자 입력부(250)는 사용자로부터 채팅 메시지를 입력 받을 수 있다. 실시 예에서, 사용자 입력부(250)는 마이크를 통해 음성 신호로 채팅 메시지를 입력 받을 수 있다.

실시 예에서, 사용자 입력부(250)는 사용자 계정에 대한 정보를 입력 받을 수 있다. 사용자 계정에 대한 정보는 사용자의 신분을 증명할 수 있는 정보로, 사용자의 아이디 및 패스워드, 패턴, 지문, 홍채 등과 같이 사용자를 식별하거나 인증하기 위한 문자나 숫자, 기호, 생체 정보 등과 같은 다양한 형태의 정보를 포함할 수 있다.

실시 예에서, 통신부(240)는 프로세서(210)의 제어에 의해 디스플레이 장치(200a)를 주변 기기나 외부 장치, 서버, 이동 단말기 등과 연결할 수 있다. 통신부(240)는 유선 또는 무선 통신망을 이용하여, 디스플레이 장치(200a)를 외부 장치나 서버와 연결할 수 있다. 통신부(240)는 무선 통신을 수행할 수 있는 적어도 하나의 통신 모듈을 포함할 수 있다. 실시 예에서, 통신부(240)는 채팅 서비스를 제공하는 서버와 연결될 수 있다.

디스플레이 장치(200a)는 통신부(240)를 통해 외부 장치나 서버 등으로부터 디스플레이 장치(200a)가 필요로 하는 프로그램이나 어플리케이션(application)을 다운로드하거나 또는 웹 브라우징을 할 수 있다.

통신부(240)는 프로세서(210)의 제어에 의해 리모컨 등과 같은 제어 장치(미도시)를 통한 제어 신호를 수신할 수 있다. 제어 신호는 블루투스 타입, RF 신호 타입 또는 와이파이 타입으로 구현될 수 있다.

실시 예에서, 통신부(240)는 서버에게 사용자 입력부(250)를 통해 입력된 채팅 메시지를 전송하고, 서버로부터 채팅 메시지에 대한 응답을 수신할 수 있다.

실시 예에서, 통신부(240)는 서버로부터 채팅 룸에 대한 정보 및 복수의 클라이언트들이 생성한 채팅 메시지를 수신할 수 있다.

실시 예에 따른 메모리(220)는, 적어도 하나의 인스트럭션을 저장할 수 있다. 메모리(220)는 프로세서(210)가 실행하는 적어도 하나의 프로그램을 저장하고 있을 수 있다. 메모리(220)에는 기 정의된 동작 규칙이나 프로그램이 저장될 수 있다. 또한 메모리(220)는 디스플레이 장치(200a)로 입력되거나 디스플레이 장치(200a)로부터 출력되는 데이터를 저장할 수 있다.

프로세서(210)는 디스플레이 장치(200a)의 전반적인 동작을 제어한다. 프로세서(210)는 메모리(220)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 디스플레이 장치(200a)가 기능하도록 제어할 수 있다.

실시 예에서, 프로세서(210)는 사용자 계정에 기초하여 방송 콘텐츠 서버 및 채팅 서비스를 제공하는 서버 중 적어도 하나에 접속할 수 있다. 프로세서(210)는 사용자 계정을 서버에 전송하여 서버에 채팅 서비스를 요청하고, 서버로부터 채팅 룸 및 채팅 메시지들을 수신할 수 있다. 다만, 이는 필수적인 것은 아니며, 경우에 따라, 서버는 사용자 계정을 요구하지 않고, 사용자 계정 없이 접속한 디스플레이 장치(200a)에도 채팅 룸 및 채팅 메시지들을 전송할 수도 있다.

실시 예에서, 프로세서(210)는 음성 인식기 선택을 위한 상황 정보를 획득하고, 상황 정보에 기반하여 복수의 음성 인식기 중 적어도 하나를 선택할 수 있다.

실시 예에서, 프로세서(210)는 음성 인식 결과로부터 채팅 메시지를 획득할 수 있다.

도 11은 실시 예에 따른 디스플레이 장치의 내부 블록도이다.

도 11의 디스플레이 장치(200c)는 도 10의 디스플레이 장치(200a)의 일 예일 수 있다. 이하, 도 10에서 설명한 내용과 중복되는 설명은 생략한다.

도 11을 참조하면, 디스플레이 장치(200c)는 프로세서(210), 메모리(220), 통신부(240), 디스플레이부(230), 및 사용자 입력부(250) 외에 튜너부(1110), 감지부(1130), 입/출력부(1140), 비디오 처리부(1150), 오디오 처리부(1160), 및 오디오 출력부(1170)를 더 포함할 수 있다.

튜너부(1110)는 유선 또는 무선으로 수신되는 방송 콘텐츠 등을 증폭(amplification), 혼합(mixing), 공진(resonance)등을 통하여 많은 전파 성분 중에서 디스플레이 장치(200c)에서 수신하고자 하는 채널의 주파수만을 튜닝(tuning)시켜 선택할 수 있다. 튜너부(1110)를 통해 수신된 콘텐츠는 디코딩되어 오디오, 비디오 및/또는 부가 정보로 분리된다. 분리된 오디오, 비디오 및/또는 부가 정보는 프로세서(210)의 제어에 의해 메모리(220)에 저장될 수 있다.

통신부(240)는 프로세서(210)의 제어에 의해 디스플레이 장치(200c)를 주변 기기나 외부 장치, 서버, 이동 단말기 등과 연결할 수 있다. 통신부(240)는 무선 통신을 수행할 수 있는 적어도 하나의 통신 모듈을 포함할 수 있다. 통신부(240)는 디스플레이 장치(200c)의 성능 및 구조에 대응하여 무선랜 모듈(1121), 블루투스 모듈(1122), 유선 이더넷(Ethernet)(1123) 중 적어도 하나를 포함할 수 있다.

블루투스 모듈(1122)은 블루투스 통신 규격에 따라서 주변 기기로부터 전송된 블루투스 신호를 수신할 수 있다. 블루투스 모듈(1122)은 BLE(Bluetooth Low Energy) 통신 모듈이 될 수 있으며, BLE 신호를 수신할 수 있다. 블루투스 모듈(1122)은 BLE 신호가 수신되는지 여부를 감지하기 위해서 상시적으로 또는 일시적으로 BLE 신호를 스캔할 수 있다. 무선랜 모듈(1121)은 와이파이(Wi-Fi) 통신 규격에 따라서 주변 기기와 와이파이 신호를 송수신할 수 있다.

실시 예에서, 통신부(240)는 통신 모듈을 이용하여 서버에 사용자 입력부(250)를 통해 입력된 채팅 메시지를 전송하고, 채팅 서버로부터 채팅 메시지에 대한 응답을 수신할 수 있다.

감지부(1130)는 사용자의 음성, 사용자의 이미지, 또는 사용자의 인터랙션을 감지하며, 마이크(1131), 카메라부(1132), 광 수신부(1133), 센싱부(1134)를 포함할 수 있다. 마이크(1131)는 사용자의 발화(utterance)된 음성이나 노이즈를 포함하는 오디오 신호를 수신할 수 있고 수신된 오디오 신호를 전기 신호로 변환하여 프로세서(210)로 출력할 수 있다.

도 11의 감지부(1130)에 포함된 마이크(1131)는 사용자 입력부(250)로 동작할 수도 있다. 즉, 마이크(1131)는 사용자의 음성 신호를 감지하고, 이를 프로세서(210)에게 알려, 프로세서(210)가 사용자의 음성 신호에 대해 음성 인식 동작을 수행하도록 할 수 있다.

카메라부(1132)는 센서(미도시) 및 렌즈(미도시)를 포함하고, 화면에 맺힌 이미지를 촬영하여 캡쳐하고 이를 프로세서(210)로 전송할 수 있다.

광 수신부(1133)는, 광 신호(제어 신호를 포함)를 수신할 수 있다. 광 수신부(1133)는 리모컨이나 핸드폰 등과 같은 제어 장치로부터 사용자 입력(예를 들어, 터치, 눌림, 터치 제스처, 음성, 또는 모션)에 대응되는 광 신호를 수신할 수 있다.

입/출력부(1140)는 프로세서(210)의 제어에 의해 디스플레이 장치(200c)의 외부 기기 등으로부터 비디오(예를 들어, 동적 이미지 신호나 정지 이미지 신호 등), 오디오(예를 들어, 음성 신호나, 음악 신호 등) 및 부가 정보 등을 수신할 수 있다.

입/출력부(1140)는 HDMI 포트(High-Definition Multimedia Interface port, 1141), 컴포넌트 잭(component jack, 1142), PC 포트(PC port, 1143), 및 USB 포트(USB port, 1144) 중 하나를 포함할 수 있다. 입/출력부(1140)는 HDMI 포트(1141), 컴포넌트 잭(1142), PC 포트(1143), 및 USB 포트(1144)의 조합을 포함할 수 있다.

비디오 처리부(1150)는, 디스플레이부(1160)에 의해 표시될 이미지 데이터를 처리하며, 이미지 데이터에 대한 디코딩, 렌더링, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 및 해상도 변환 등과 같은 다양한 이미지 처리 동작을 수행할 수 있다.

실시 예에서, 비디오 처리부(1150)는 사용자 입력부(250)를 통해 입력된 채팅 메시지나 서버를 통해 수신한 채팅 메시지 등을 html로 렌더링할 수 있다.

디스플레이부(230)는 방송국으로부터 수신하거나 외부 서버, 또는 외부 저장 매체 등으로부터 수신한 콘텐츠를 화면에 출력할 수 있다. 콘텐츠는 미디어 신호로, 비디오 신호, 이미지, 텍스트 신호 등을 포함할 수 있다.

실시 예에서, 디스플레이부(230)는 방송국으로부터 수신한 비디오 콘텐츠와 서버로부터 수신한 채팅 룸 및 채팅 메시지를 하나의 화면에 함께 출력할 수 있다.

오디오 처리부(1160)는 오디오 데이터에 대한 처리를 수행한다. 오디오 처리부(1160)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다.

오디오 출력부(1170)는 프로세서(210)의 제어에 의해 튜너부(1110)를 통해 수신된 콘텐츠에 포함된 오디오, 통신부(240) 또는 입/출력부(1140)를 통해 입력되는 오디오, 메모리(220)에 저장된 오디오를 출력할 수 있다. 오디오 출력부(1170)는 스피커(1181), 헤드폰(1182) 또는 S/PDIF(Sony/Philips Digital Interface: 출력 단자)(1183) 중 적어도 하나를 포함할 수 있다.

사용자 입력부(250)는 디스플레이 장치(200c)를 제어하기 위한 사용자 입력을 수신할 수 있다. 사용자 입력부(250)는 다양한 형태의 사용자 입력 디바이스를 포함할 수 있다. 리모컨이나 기타 이동 단말기가 디스플레이 장치(200c)를 제어하는 경우, 사용자 입력부(250)는 이동 단말기로부터 수신되는 제어 신호를 수신할 수 있다.

도 12는 실시 예에 따라, 음성 신호로부터 채팅 메시지를 획득하는 과정을 도시한 순서도이다.

도 12를 참조하면, 디스플레이 장치는 상황 정보를 획득할 수 있다(단계 1210).

디스플레이 장치는 디스플레이부를 통해 출력되는 콘텐츠 및 콘텐츠와 관련된 채팅 룸의 채팅 메시지들에 대한 정보를 이용하여 상황 정보를 획득할 수 있다.

실시 예에서, 디스플레이 장치는 상황 정보를 기반으로 복수개의 음성 인식기 중 적어도 하나의 음성 인식기를 선택할 수 있다(단계 1220).

실시 예에서, 디스플레이 장치는 선택된 음성 인식기로 사용자의 음성 신호에 대응하는 채팅 메시지를 획득할 수 있다(단계 1230).

디스플레이 장치는 선택된 음성 인식기로 음성 인식을 수행하여 음성 인식 결과를 획득할 수 있다. 디스플레이 장치는 음성 인식 결과를 텍스트로 획득할 수 있다.

도 13은 실시 예에 따라, 복수개의 음성 인식기 중 하나 이상의 음성 인식기를 선택하는 과정을 도시한 순서도이다.

복수개의 음성 인식기는 음성 인식기에 포함된 학습 모델이 학습한 데이터의 종류나 도메인 등에 따라 라벨링될 수 있다. 디스플레이 장치는 음성 인식기의 라벨과 상황 정보를 이용하여 음성 인식을 수행할 음성 인식기를 선택할 수 있다.

실시 예에서, 디스플레이 장치는 상황 정보와 음성 인식기의 라벨 정보의 유사도를 비교할 수 있다(1310).

실시 예에서, 디스플레이 장치는 상황 정보와 라벨 정보 간 유사도가 기준치 이상인지 여부를 결정할 수 있다(단계 1320).

실시 예에서, 디스플레이 장치는 상황 정보와 라벨 정보 간 유사도가 기준치 이상인 경우, 해당 라벨을 가진 음성 인식기를 선택할 수 있다(단계 1330).

디스플레이 장치는 상황 정보와 유사도가 기준치 이상인 음성 인식기로 음성 인식을 수행하여 하나 이상의 음성 인식 결과를 획득할 수 있다.

일부 실시 예에 따른 디스플레이 장치의 동작 방법 및 장치는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비 휘발성 매체, 분리형 및 비 분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비 휘발성, 분리형 및 비 분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

또한, 전술한 본 개시의 실시 예에 따른 디스플레이 장치 및 그 동작 방법은 음성 인식기 선택을 위한 상황 정보를 획득하는 단계, 상기 상황 정보에 기반하여 복수의 음성 인식기 중 적어도 하나를 선택하는 단계, 상기 선택된 적어도 하나의 음성 인식기를 이용하여, 사용자의 음성 신호로부터 음성 인식 결과를 획득하는 단계 및 상기 음성 인식 결과로부터 채팅 메시지를 획득하는 단계를 포함하는, 디스플레이 장치의 동작 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체/저장 매체를 포함하는 컴퓨터 프로그램 제품으로 구현될 수 있다.

기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서,‘비일시적 저장 매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장 매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

일 실시예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예:다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

전술한 설명은 예시를 위한 것이며, 발명이 속하는 기술분야의 통상의 지식을 가진 자는 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일 형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

Claims

디스플레이 장치에 있어서,
하나 이상의 인스트럭션을 저장하는 메모리; 및
상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고,
상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
음성 인식기 선택을 위한 상황 정보를 획득하고,
상기 상황 정보에 기반하여 복수의 음성 인식기 중 적어도 하나를 선택하고,
상기 선택된 적어도 하나의 음성 인식기를 이용하여, 사용자의 음성 신호로부터 음성 인식 결과를 획득하고,
상기 음성 인식 결과로부터 채팅 메시지를 획득하는, 디스플레이 장치.
제1 항에 있어서, 디스플레이부를 더 포함하고,
상기 프로세서는 상기 디스플레이부가 콘텐츠 및 상기 콘텐츠와 관련한 채팅 룸의 채팅 메시지들을 디스플레이하도록 제어하고,
상기 상황 정보는 상기 콘텐츠에 대한 콘텐츠 정보 및 채팅과 관련한 채팅 정보 중 적어도 하나를 포함하는, 디스플레이 장치.
제2 항에 있어서, 상기 채팅 정보는 상기 채팅 룸의 타이틀 및 상기 채팅 메시지들의 내용 중 적어도 하나에 대한 정보를 포함하고,
상기 콘텐츠 정보는 상기 콘텐츠의 내용, 상기 콘텐츠와 함께 출력되는 음성 신호, 자막, 상기 콘텐츠의 프로그램명, 콘텐츠 주제, 콘텐츠 타입, 콘텐츠 장르, 채널 종류, 방송국, 제작자, 출연자, 감독, 콘텐츠 방영 시간에 대한 정보 중 적어도 하나를 포함하는, 디스플레이 장치.
제1 항에 있어서, 상기 복수의 음성 인식기 각각은 하나 이상의 서로 다른 학습 데이터로 훈련된 학습 모델을 포함하고,
상기 서로 다른 학습 데이터는 언어 별 학습 데이터, 분야 별 학습 데이터, 프로그램 타입 별 학습 데이터, 프로그램 장르 별 학습 데이터, 방송국 별 학습 데이터, 채널 별 학습 데이터 제작자 별 학습 데이터, 출연자 별 학습 데이터, 감독 별 학습 데이터, 지역 별 학습 데이터, 사용자 정보를 기반으로 획득한 개인화된 학습 데이터, 및 사용자가 속한 집단의 정보를 기반으로 획득한 집단의 학습 데이터 중 적어도 하나를 포함하는, 디스플레이 장치.
제4 항에 있어서, 상기 사용자 정보는, 사용자 프로필 정보, 상기 사용자의 시청 이력 정보, 및 상기 사용자가 입력한 채팅 메시지 내용 정보 중 적어도 하나를 포함하고,
상기 사용자가 속한 집단의 정보는 상기 사용자와 사용자 정보가 기준치 이상 중복되는 사람들의 프로필 정보, 시청 이력 정보 및 상기 사람들이 입력한 채팅 메시지 내용 정보 중 적어도 하나를 포함하는, 디스플레이 장치.
제1 항에 있어서, 상기 복수의 음성 인식기 각각은 하나 이상의 서로 다른 학습 데이터로 훈련된 학습 모델을 포함하고, 상기 복수의 음성 인식기는 학습 모델 훈련에 이용된 학습 데이터 종류를 나타내는 라벨 정보로 식별되고,
상기 프로세서는 상기 상황 정보와 상기 라벨 정보의 유사도에 기반하여 상기 복수의 음성 인식기 중 적어도 하나를 선택하는, 디스플레이 장치.
제6 항에 있어서, 상기 프로세서는 상기 선택된 음성 인식기가 복수개인 것에 상응하여, 상기 복수개의 음성 인식기를 이용하여 상기 사용자의 음성 신호로부터 복수개의 음성 인식 결과를 획득하는, 디스플레이 장치.
제7 항에 있어서, 디스플레이부를 더 포함하고,
상기 프로세서는
상기 복수개의 음성 인식 결과 중에서 가중치 매트릭스를 기반으로 기 정해진 개수 이하의 음성 인식 결과를 필터링하고,
상기 필터링된 음성 인식 결과에 대응하는 채팅 메시지를 획득하고,
상기 채팅 메시지를 상기 디스플레이부를 통해 출력하는, 디스플레이 장치.
제8 항에 있어서, 상기 프로세서는
상기 디스플레이를 통해 출력된 채팅 메시지가 복수개인 경우, 상기 복수개의 채팅 메시지 중 사용자가 선택한 하나의 채팅 메시지를 채팅 서버로 전송하는, 디스플레이 장치.
제9 항에 있어서, 상기 프로세서는 상기 사용자의 선택에 기반하여 상기 가중치 매트릭스를 업데이트하는, 디스플레이 장치.
음성 인식기 선택을 위한 상황 정보를 획득하는 단계;
상기 상황 정보에 기반하여 복수의 음성 인식기 중 적어도 하나를 선택하는 단계;
상기 선택된 적어도 하나의 음성 인식기를 이용하여, 사용자의 음성 신호로부터 음성 인식 결과를 획득하는 단계; 및
상기 음성 인식 결과로부터 채팅 메시지를 획득하는 단계를 포함하는, 디스플레이 장치의 동작 방법.
제11 항에 있어서, 콘텐츠 및 상기 콘텐츠와 관련한 채팅 룸의 채팅 메시지들을 디스플레이하는 단계를 더 포함하고,
상기 상황 정보는 상기 콘텐츠에 대한 콘텐츠 정보 및 채팅과 관련한 채팅 정보 중 적어도 하나를 포함하는, 디스플레이 장치의 동작 방법.
제12 항에 있어서, 상기 채팅 정보는 상기 채팅 룸의 타이틀 정보 및 상기 채팅 메시지들의 내용 정보 중 적어도 하나를 포함하고,
상기 콘텐츠 정보는 상기 콘텐츠의 내용, 상기 콘텐츠와 함께 출력되는 음성 신호, 자막, 상기 콘텐츠의 프로그램명, 콘텐츠 주제, 콘텐츠 타입, 콘텐츠 장르, 채널 종류, 방송국, 제작자, 출연자, 감독, 콘텐츠 방영 시간에 대한 정보 중 적어도 하나를 포함하는, 디스플레이 장치의 동작 방법.
제11 항에 있어서, 상기 복수의 음성 인식기 각각은 하나 이상의 서로 다른 학습 데이터로 훈련된 학습 모델을 포함하고,
상기 서로 다른 학습 데이터는 언어 별 학습 데이터, 분야 별 학습 데이터, 프로그램 타입 별 학습 데이터, 프로그램 장르 별 학습 데이터, 방송국 별 학습 데이터, 채널 별 학습 데이터, 제작자 별 학습 데이터, 출연자 별 학습 데이터, 감독 별 학습 데이터, 지역 별 학습 데이터, 사용자 정보를 기반으로 획득한 개인화된 학습 데이터, 및 상기 사용자가 속한 집단의 정보를 기반으로 획득한 집단의 학습 데이터 중 적어도 하나를 포함하는, 디스플레이 장치의 동작 방법.
제14 항에 있어서, 상기 사용자 정보는, 사용자 프로필 정보, 상기 사용자의 시청 이력 정보, 및 상기 사용자가 입력한 채팅 메시지 내용 정보 중 적어도 하나를 포함하고,
상기 사용자가 속한 집단의 정보는 상기 사용자와 사용자 정보가 기준치 이상 중복되는 사람들의 프로필 정보, 시청 이력 정보 및 상기 사람들이 입력한 채팅 메시지 내용 정보 중 적어도 하나를 포함하는, 디스플레이 장치의 동작 방법.
제11 항에 있어서, 상기 복수의 음성 인식기 각각은 하나 이상의 서로 다른 학습 데이터로 훈련된 학습 모델을 포함하고, 상기 복수의 음성 인식기는 학습 모델 훈련에 이용된 학습 데이터 종류를 나타내는 라벨 정보로 식별되고,
상기 복수의 음성 인식기 중 적어도 하나를 선택하는 단계는 상기 상황 정보와 상기 라벨 정보의 유사도에 기반하여 상기 복수의 음성 인식기 중 적어도 하나를 선택하는 단계를 포함하는, 디스플레이 장치의 동작 방법.
제16 항에 있어서, 상기 음성 인식 결과를 획득하는 단계는
상기 선택된 음성 인식기가 복수 개인 것에 상응하여, 상기 복수개의 음성 인식기를 이용하여 상기 사용자의 음성 신호로부터 복수개의 음성 인식 결과를 획득하는 단계를 포함하는, 디스플레이 장치의 동작 방법.
제17 항에 있어서, 상기 채팅 메시지를 획득하는 단계는
상기 복수개의 음성 인식 결과 중에서 가중치 매트릭스를 기반으로 기 정해진 개수 이하의 음성 인식 결과를 필터링하는 단계; 및
상기 필터링된 음성 인식 결과에 대응하는 채팅 메시지를 획득하는 단계를 포함하고,
상기 방법은 상기 채팅 메시지를 출력하는 단계를 더 포함하는, 디스플레이 장치의 동작 방법.
제18 항에 있어서, 상기 출력된 채팅 메시지가 복수개인 경우, 상기 복수개의 채팅 메시지 중 사용자가 선택한 하나의 채팅 메시지를 상기 채팅 서버로 전송하는 단계를 더 포함하는, 디스플레이 장치의 동작 방법.
음성 인식기 선택을 위한 상황 정보를 획득하는 단계;
상기 상황 정보에 기반하여 복수의 음성 인식기 중 적어도 하나를 선택하는 단계;
상기 선택된 적어도 하나의 음성 인식기를 이용하여, 사용자의 음성 신호로부터 음성 인식 결과를 획득하는 단계; 및
상기 음성 인식 결과로부터 채팅 메시지를 획득하는 단계를 포함하는, 디스플레이 장치의 동작 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.