KR101976355B1 - 셋톱박스 외부 연결형의 ai 스피커 장치 및 이를 이용한 ai 스피커 시스템 - Google Patents

셋톱박스 외부 연결형의 ai 스피커 장치 및 이를 이용한 ai 스피커 시스템 Download PDF

Info

Publication number
KR101976355B1
KR101976355B1 KR1020180068488A KR20180068488A KR101976355B1 KR 101976355 B1 KR101976355 B1 KR 101976355B1 KR 1020180068488 A KR1020180068488 A KR 1020180068488A KR 20180068488 A KR20180068488 A KR 20180068488A KR 101976355 B1 KR101976355 B1 KR 101976355B1
Authority
KR
South Korea
Prior art keywords
speaker
top box
audio
unit
voice
Prior art date
Application number
KR1020180068488A
Other languages
English (en)
Inventor
안성민
박동길
Original Assignee
주식회사 오투오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 오투오 filed Critical 주식회사 오투오
Priority to KR1020180068488A priority Critical patent/KR101976355B1/ko
Application granted granted Critical
Publication of KR101976355B1 publication Critical patent/KR101976355B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/436Interfacing a local distribution network, e.g. communicating with another STB or one or more peripheral devices inside the home
    • H04N21/43615Interfacing a Home Network, e.g. for connecting the client to a plurality of peripherals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명은 인공지능(AI) 기능을 결여하는 셋톱박스의 외부에 디지털 인터페이스(예: USB)를 통해 AI 스피커를 연결하여 상호 연동하여 동작함으로써 전체적으로 셋톱박스에 AI 기능이 일체화된 것과 같은 시스템, 현재 통상적으로 불리는 AI 스피커 시스템을 구축하는 기술에 관한 것이다. 본 발명에 따르면 인공지능(AI) 기능이 결여된 기존에 출시된 일반적인 셋톱박스에 대하여 소프트웨어 업그레이드를 수행하고 본 발명에 따른 AI 스피커를 USB로 외부 연결하는 것만으로 저렴하고 간편하게 AI 스피커 시스템을 구축할 수 있는 장점이 있다. 특히, 인공지능(AI) 기능이 결여된 상태에서 일반 가정에 보급되어 있는 셋톱박스에 본 발명에 따른 AI 스피커를 외부에 추가 연결함으로써 멀티미디어 컨텐츠 제공 기능과 인공지능 비서 기능이 상호 연동하는 고성능의 AI 스피커 시스템을 구축할 수 있는 장점이 있다.

Description

셋톱박스 외부 연결형의 AI 스피커 장치 및 이를 이용한 AI 스피커 시스템 {Set-top box external-connection type AI speaker device, and AI speaker system using the same}
본 발명은 인공지능(AI) 기능을 결여하는 셋톱박스의 외부에 디지털 인터페이스(예: USB)를 통해 AI 스피커를 연결하여 상호 연동하여 동작함으로써 전체적으로 셋톱박스에 AI 기능이 일체화된 것과 같은 시스템, 현재 통상적으로 불리는 AI 스피커 시스템을 구축하는 기술에 관한 것이다.
최근들어 인공지능 비서 가능이 구현되고 사용자와 보이스(음성)으로 상호 인터렉션할 수 있는 장치가 전세계적으로 활발하게 시도되고 있는데, 통상적으로는 이를 인공지능(AI) 스피커 시스템이라고 부른다.
이와 관련된 과정을 간단하게 살펴본다. 2011년에 애플 시리(Apple Siri)를 시작으로 스마트폰을 디지털 비서로 사용하려는 시도가 있었는데, 이는 애플 스마트폰(아이폰)에 내장되어 있는 알림, 날씨, 주식 정보, 메시지 등을 인공지능 비서 기능과 연계시키는 방식이었다.
이어서, 인공지능 비서 기능을 독립형 스피커 장치와 결합시켜 일종의 스마트 홈(smart home)을 구현하려는 시도가 있었는데, 이러한 시도의 예로는 구글 어시스턴트(Google Assistant), 아마존 알렉사(Amazon Alexa). 라인프렌즈, 카카오미니 등이 대표적이다. 또한, 인공지능 비서 기능을 사물인터넷(IoT)과 연동시킴으로써 댁내 조명을 보이스로 제어한다거나 홈 시큐리티를 강화하려는 시도도 통신서비스 업체를 중심으로 시도되었다.
이처럼 인공지능 비서 기능을 적용하려는 시도가 다양하게 있었는데, 그러한 시도의 한가지는 인공지능 비서 기능을 멀티미디어 컨텐츠 제공 서비스와 결합시키는 것이다. 대표적으로는 멀티미디어 컨텐츠를 즐기기 위해 가정에 보급되는 셋톱박스 장치에 인공지능 비서 기능을 통합시키는 것이다. 본 발명의 목적을 감안하여 이하에서 'AI 스피커 시스템'은 문맥에 위배되지 않는 한 셋톱박스에 인공지능 비서 기능을 통합한 시스템을 가리키는 것이다.
셋톱박스에 인공지능 비서 기능을 통합함으로써 셋톱박스의 기능(예: 채널변경, 볼륨 업다운)을 보이스로 제어할 수 있을 뿐만 아니라 멀티미디어 컨텐츠에 대해 궁금한 것을 보이스로 문의하는 것도 가능하고 특정 상황에 대한 컨텐츠 추천 등도 셋톱박스로 요청하는 것이 가능하다. 인공지능 비서 기능이 구현된 셋톱박스 장치는 사용자가 보이스로 제어 명령, 질의 혹은 요청 사항에 대응하여 기능수행 결과 혹은 답변 내용을 스피커 사운드로 출력한다.
[도 1]과 [도 2]는 종래기술에서 셋톱박스에 AI 스피커 시스템을 구현하는 두가지 예를 개념적으로 나타내는 도면이다.
먼저, [도 1]은 셋톱박스에 AI 스피커 시스템을 구현하는 일반적인 방식을 나타낸다. 셋톱박스(10)는 외부의 컨텐츠 서버(30)로부터 멀티미디어 컨텐츠를 제공받아 재생하며 그에 따른 재생 화면을 디스플레이 장치(20)에 표시한다. 셋톱박스(10)는 인공지능 기능을 제공하며, 이를 활용하기 위해 사용자는 음성으로 기능 제어 명령을 제공하거나 질의 문구를 제공하고 셋톱박스(10)는 마이크 모듈(11)을 통해 사용자의 음석을 입력받아 처리한다. 일반적으로, 인공지능 기능은 컨텐츠 서버(30) 또는 별도의 서버 장치(미도시)에 설치되어 있다.
다음으로, [도 2]는 사용자의 보이스 입력을 셋톱박스(10)가 리모컨(40)을 통해 입력받아 처리하는 구현예를 나타낸다. 주변 잡음을 배제하고 사용자의 보이스 입력에 대한 인식 성능을 높이기 위해서 마이크 모듈(41)을 리모컨(40)에 설치하는 것이다. 보이스 입력을 일차로 마이크 모듈(41)이 입력받은 후에 리모컨(40)이 보이스 데이터를 셋톱박스(10)로 무선 전송하는 것이다.
이처럼 종래의 AI 스피커 시스템은 셋톱박스 장치에 AI 스피커 기능을 일체로서 구현한 상태로 제조되어야 한다. 셋톱박스의 내부 기능과 AI 스피커 기능이 상호 유기적으로 연결되어 있기 때문에 일체로 구현한 것이다. 또한, 사용자의 보이스 입력을 정상적으로 처리하기 위해서도 일체로 구현할 수밖에 없었다. 셋톱박스에 의해 텔레비전 스피커가 출력하는 멀티미디어 컨텐츠의 재생 사운드가 사용자의 보이스 입력과 동일한 주파수 대역을 공유할 뿐만 아니라 음향학적 특성도 매우 유사하기 때문이다. 이러한 컨텐츠 재생 사운드와 사용자의 보이스 입력을 구분하여 처리하기 위해서 셋톱박스 내부에 AI 기능을 구현하였다.
그러나, 이러한 종래기술의 구현 방식은 고성능 셋톱박스 제품을 구매하거나 고가의 방송 서비스를 가입해야만 인공지능 비서 서비스를 활용할 수 있는 단점이 있었다. 기존에 설치된 셋톱박스들을 교체해야만 한다는 것은 사용자와 사업자 모두에게 큰 비용부담이 되어 인공지능 비서 서비스를 보급하는 데에 사실상 가장 큰 장애가 된다. 그에 따라, 인공지능 기능이 구현되지 않은 기존의 셋톱박스 이용자가 인공지능 비서 서비스를 활유할 수 있게 보조함으로써 상기와 같은 종래기술의 문제점을 해결할 수 있는 기술이 요망된다.
본 발명의 목적은 인공지능(AI) 기능을 결여하는 셋톱박스의 외부에 디지털 인터페이스(예: USB)를 통해 AI 스피커를 연결하여 상호 연동하여 동작함으로써 전체적으로 셋톱박스에 AI 기능이 일체화된 것과 같은 시스템(AI 스피커 시스템)을 구축하는 기술을 제공하는 것이다.
상기의 목적을 달성하기 위하여 본 발명은 셋톱박스에 대해 디지털 인터페이스를 통해 외부 연결되어 상호 연동을 통해 AI 스피커 시스템을 제공하기 위한 AI 스피커 장치로서, AI 스피커와 관련하여 주변 음성 신호를 수집하여 입력하는 마이크 음성입력부(210); 디지털 인터페이스를 통해 셋톱박스(100)와 외부 접속하기 위한 디지털 외부 접속부(220); 디지털 인터페이스를 통해 셋톱박스(100)와 연동하여 동작하기 위한 셋톱박스 연동부(230); 셋톱박스(100)로부터 제공되는 멀티미티어 콘텐츠의 재생 오디오를 에코 기준 신호로 수신하여 임시 저장하는 재생오디오 버퍼부(240); 에코 기준 신호를 참조하여 마이크 음성입력부(210)가 수집하는 주변 음성 신호로부터 셋톱박스(100)에 기인한 멀티미디어 콘텐츠의 재생 오디오 에코 성분을 제거 처리하는 에코 캔슬레이션부(250); 재생 오디오 에코 성분이 제거된 주변 음성 신호를 이용하여 사용자 음성을 전처리하고 디지털 외부 접속부(220)를 통해 셋톱박스(100)로 전달하는 사용자 음성처리부(260); 셋톱박스(100)를 통해 획득되는 인공지능 응답 데이터를 음성 대역으로 출력하기 위한 스피커 음성출력부(270);를 포함하여 구성된다.
이때, 재생오디오 버퍼부(240)는, 셋톱박스(100)로부터 제공되는 멀티미티어 콘텐츠의 재생 오디오를 에코 기준 신호로 수신하여 순서대로 임시 저장하는 버퍼메모리(241); 버퍼메모리(241)의 점유율에 비례 대응하도록 버퍼메모리(241)의 동작 클럭을 제어하는 클럭제어기(242);를 포함하여 구성될 수 있다.
이때, 클럭제어기(242)는 버퍼메모리(241)의 데이터 점유율을 식별하고, 데이터 점유율이 미리 설정한 제 1 임계치를 상회하면 버퍼메모리(241)의 동작 클럭을 증가 제어하고, 데이터 점유율이 미리 설정한 제 2 임계치를 하회하면 버퍼메모리(241)의 동작 클럭을 감소 제어할 수 있다.
또한, 본 발명에 따른 셋톱박스 외부 연결형의 AI 스피커 시스템은, 이상과 같은 AI 스피커 장치(200); 디지털 인터페이스를 통해 AI 스피커 장치(200)와 외부 접속하면 AI 스피커 장치(200)를 USB 오디오 디바이스로 설정하고, 멀티미티어 콘텐츠의 재생 오디오를 에코 기준 신호로서 AI 스피커 장치(200)로 USB 오디오에 따라 스트리밍 출력하고, 디지털 인터페이스를 통해 AI 스피커 장치(200)로부터 사용자 음성의 전처리 결과를 전달받아 외부의 인공지능 서버(50)로 전달하여 인공지능 처리 결과를 전달받고, 인공지능 처리 결과에 따라 멀티미디어 컨텐츠를 재생하고, 인공지능 처리 결과를 디지털 인터페이스를 통해 AI 스피커 장치(200)로 전달하는 셋톱박스(100);를 포함하여 구성된다.
이때, 셋톱박스(100)는, 인터넷을 통해 외부의 인공지능 서버(50)와 연동하여 AI 스피커 장치(200)로부터 사용자 음성의 전처리 결과를 전달받으면 외부의 인공지능 서버(50)로 전달하여 인공지능 처리 결과를 전달받고, 인터넷을 통해 외부의 컨텐츠 서버(30)와 연동하여 인공지능 처리 결과에 대응하는 멀티미디어 컨텐츠를 제공받기 위한 외부 서버 연동부(110); 디지털 인터페이스를 통해 AI 스피커 장치(200)와 외부 접속하고 그 외부 접속된 AI 스피커 장치(200)를 인식하면 USB 오디오 디바이스로 설정하기 위한 디지털 외부 접속부(120); 디지털 인터페이스를 통해 AI 스피커 장치(200)와 연동하여 동작하기 위한 AI 스피커 연동부(130); 멀티미티어 콘텐츠의 재생 오디오를 에코 기준 신호로서 AI 스피커 장치(200)로 USB 오디오에 따라 스트리밍 출력하는 재생오디오 제공부(140); 컨텐츠 서버(30)로부터 제공되는 멀티미디어 컨텐츠를 오디오/비디오 재생 처리하기 위한 컨텐츠 재생 처리부(150);를 포함하여 구성될 수 있다.
본 발명에 따르면 인공지능(AI) 기능이 결여된 기존에 출시된 일반적인 셋톱박스에 대하여 네트워크를 통한 소프트웨어 업그레이드를 수행하고 본 발명에 따른 AI 스피커를 USB로 외부 연결하는 것만으로 저렴하고 간편하게 AI 스피커 시스템을 구축할 수 있는 장점이 있다.
특히, 본 발명에 따르면 인공지능(AI) 기능이 결여된 상태에서 일반 가정에 보급되어 있는 셋톱박스에 본 발명에 따른 AI 스피커를 외부에 추가 연결함으로써 멀티미디어 컨텐츠 제공 기능과 인공지능 비서 기능이 상호 연동하는 고성능의 AI 스피커 시스템을 구축할 수 있는 장점이 있다.
[도 1]은 종래기술에서의 AI 스피커 시스템의 일 예를 나타내는 도면.
[도 2]는 종래기술에서의 AI 스피커 시스템의 다른 예를 나타내는 도면.
[도 3]은 본 발명에 따른 AI 스피커 시스템의 전체 구성을 개념적으로 나타내는 도면.
[도 4]는 본 발명에 따른 AI 스피커 시스템에서 셋톱박스와 AI 스피커의 내부 기능적 구성을 나타내는 블록도.
[도 5]는 본 발명에 따른 AI 스피커 시스템에서 음성인식 처리 구조를 개념적으로 나타내는 도면.
이하에서는 도면을 참조하여 본 발명을 상세하게 설명한다.
[도 3]은 본 발명에 따른 AI 스피커 시스템의 전체 구성을 개념적으로 나타내는 도면이다. [도 3]을 참조하면, 본 발명에 따른 AI 스피커 시스템은 셋톱박스(100)의 외부에 USB 케이블을 통해 AI 스피커(200)를 연결하여 구성하였다. 셋톱박스(100)는 외부의 컨텐츠 서버(30)로부터 멀티미디어 컨텐츠를 제공받아 재생하며 그에 따른 재생 화면을 디스플레이 장치(20)에 표시한다.
AI 스피커(200)는 사용자의 음성을 전처리하여 그 결과를 셋톱박스(100)로 전달하며, 그에 따라 외부의 인공지능 서버(50)와 연동하여 인공지능 기능이 이루어지도록 보조한다. AI 스피커(200)는 셋톱박스(100)와 연동하여 동작함으로써 멀티미디어 컨텐츠 제공 기능과 인공지능 처리 기능을 연동시킨다.
예를 들어, AI 스피커(200)가 사용자의 음성을 인식한 결과에 대응하여 셋톱박스(100)가 각종 기능제어를 수행한다. 또한, 예를 들어, 사용자가 AI 스피커(200)와 음성 인터랙션을 수행하여 특정의 영화를 추천받은 후에 AI 스피커(200)에 대하여 그 컨텐츠에 대한 즉시 재생을 요구하였다면, 그에 대응하여 셋톱박스(100)는 해당 영화 컨텐츠를 컨텐츠 서버(30)로부터 제공받아 재생한다. 사용자와 음성(보이스) 기반으로 인터랙션하기 위하여 AI 스피커(200)는 마이크 모듈(미도시)와 스피커 모듈을 구비한다.
이때, 인공지능 서버(50)는 구글(Google Assistant), 아마존(Amazon Alexa) 등에서 제공하는 인공지능 서버 장치를 나타낸다. AI 스피커(200)는 자체적으로 인공지능 기능을 완비하도록 구현될 수도 있지만, 인터넷을 통해 외부의 인공지능 서버(50)와 연동하도록 구성하는 것이 더 바람직하다.
[도 3]에서 셋톱박스(100)는 하드웨어 측면에서 볼 때 종래 보급된 디지털 셋톱박스로도 충분하므로, 이와 같은 종래 보급된 셋톱박스에 펌웨어 업그레이드를 수행함으로써 본 발명을 구현할 수도 있다.
[도 4]는 본 발명에 따른 AI 스피커 시스템에서 셋톱박스(100)와 AI 스피커(200)의 내부 기능적 구성을 나타내는 블록도이다.
[도 4]를 참조하면, 본 발명에서 셋톱박스(100)은 외부 서버 연동부(110), 디지털 외부 접속부(120), AI 스피커 연동부(130), 재생오디오 제공부(140), 컨텐츠 재생 처리부(150)를 포함하여 구성된다. 또한, 본 발명에서 AI 스피커(200)는 마이크 음성입력부(210), 디지털 외부 접속부(220), 셋톱박스 연동부(230), 재생오디오 버퍼부(240), 에코 캔슬레이션부(250), 사용자 음성처리부(260), 스피커 음성출력부(270)를 포함하여 구성된다.
먼저, 본 발명에서 셋톱박스(100)를 구성하는 각 요소에 대해 살펴본다.
본 발명에서 셋톱박스(100)는 디지털 인터페이스를 통해 AI 스피커 장치(200)와 외부 접속하면 AI 스피커 장치(200)를 USB 오디오 디바이스로 설정하고, 멀티미티어 콘텐츠의 재생 오디오를 에코 기준 신호로서 AI 스피커 장치(200)로 USB 오디오에 따라 스트리밍 출력하고, 디지털 인터페이스를 통해 AI 스피커 장치(200)로부터 사용자 음성의 전처리 결과를 전달받아 외부의 인공지능 서버(50)로 전달하여 인공지능 처리 결과를 전달받고, 인공지능 처리 결과에 따라 멀티미디어 컨텐츠를 재생하고, 인공지능 처리 결과를 디지털 인터페이스를 통해 AI 스피커 장치(200)로 전달하는 기능을 수행한다.
이를 위해, 외부 서버 연동부(110)는 인터넷을 통해 외부의 인공지능 서버(50)와 연동하여 AI 스피커 장치(200)로부터 사용자 음성의 전처리 결과를 전달받으면 외부의 인공지능 서버(50)로 전달하여 인공지능 처리 결과를 전달받고, 인터넷을 통해 외부의 컨텐츠 서버(30)와 연동하여 인공지능 처리 결과에 대응하는 멀티미디어 컨텐츠를 제공받는다.
디지털 외부 접속부(120)는 디지털 인터페이스를 통해 AI 스피커 장치(200)와 외부 접속하고 그 외부 접속된 AI 스피커 장치(200)를 인식하면 USB 오디오 디바이스로 설정한다.
AI 스피커 연동부(130)는 디지털 인터페이스를 통해 AI 스피커 장치(200)와 연동하여 동작한다.
재생오디오 제공부(140)는 멀티미티어 콘텐츠의 재생 오디오를 에코 기준 신호로서 AI 스피커 장치(200)로 USB 오디오에 따라 스트리밍 출력한다. 셋톱박스(100)와 AI 스피커(200) 간의 USB 통신은 USB 표준 규격 중 USB Audio Device Class를 사용하여 AI 스피커가 오디오 장치가 되도록 구성하는 것이 바람직하다. 이때, 오디오 데이터를 주고 받는 기능은 ALSA(Advanced Linux Sound Architecture)의 라이브러리 중에서 aPlay, aRecord 함수를 활용하여 구현할 수 있다. 재생오디오 제공부(140)는 AI 스피커 장치(200) USB 오디오 장치로 인식한다.
컨텐츠 재생 처리부(150)는 컨텐츠 서버(30)로부터 제공되는 멀티미디어 컨텐츠를 오디오/비디오 재생 처리한다.
다음으로, 본 발명에서 셋톱박스(100)에 대해 디지털 인터페이스를 통해 외부 연결되어 상호 연동을 통해 AI 스피커 시스템을 제공하는 AI 스피커(200)를 구성하는 각 요소에 대해 살펴본다.
먼저, 마이크 음성입력부(210)는 AI 스피커(200)와 관련하여 주변 음성 신호를 수집하여 입력한다.
디지털 외부 접속부(220)는 디지털 인터페이스를 통해 셋톱박스(100)와 외부 접속하는 경로를 제공한다.
셋톱박스 연동부(230)는 디지털 인터페이스를 통해 셋톱박스(100)와 연동하여 동작하도록 제어한다.
재생오디오 버퍼부(240)는 셋톱박스(100)로부터 제공되는 멀티미티어 콘텐츠의 재생 오디오를 에코 기준 신호로 수신하여 임시 저장한다. [도 4]를 참조하면 재생오디오 버퍼부(240)는 버퍼메모리(241)와 클럭제어기(242)를 구비하는데, 이에 대해서는 [도 5]를 참조하여 후술한다.
에코 캔슬레이션부(250)는 에코 기준 신호를 참조하여 마이크 음성입력부(210)가 수집하는 주변 음성 신호로부터 셋톱박스(100)에 기인한 멀티미디어 콘텐츠의 재생 오디오 에코 성분을 제거 처리한다.
일반적으로 셋톱박스(100) 주변은 컨텐츠 재생 소리로 인하여 매우 시끄러운데, 본 발명은 에코 캔슬레이션을 수행함으로써 주변의 시끄러움에도 불구하고 사용자의 음성을 정확하게 인식할 수 있도록 해주어 원거리 음성 제어(far field voice recognition & function control)를 제공한다. 일반적으로 동일 제품, 동일 회로에서 에코 캔슬레이션을 구현하는 것은 기술적 난이도가 높지 않으며, 그에 따라 [도 1]이나 [도 2]와 같은 종래기술에서도 일반적으로 적용되어 있다. 그러나, 별도의 제품, 즉 셋톱박스(100)와 AI 스피커(200)로 분리되어 서로 별개의 회로에서 에코 캔슬레이션을 구현하는 것을 새로운 기술이다. 본 발명에서의 에코 캔슬레이션에 대해서는 [도 5]를 참조하여 후술한다.
사용자 음성처리부(260)는 재생 오디오 에코 성분이 제거된 주변 음성 신호를 이용하여 사용자 음성을 전처리하고 디지털 외부 접속부(220)를 통해 셋톱박스(100)로 전달한다.
스피커 음성출력부(270)는 셋톱박스(100)를 통해 획득되는 인공지능 응답 데이터를 음성 대역으로 출력한다. 디스플레이 장치(20)가 꺼져있어 그와 연결된 스피커 장치를 활용할 수 없는 경우에도 스피커 음성출력부(270)가 제공하는 자체 스피커를 통해 인공지능 처리 결과를 제공할 수 있다.
[도 5]는 본 발명에 따른 AI 스피커 시스템에서 음성인식 처리 구조를 개념적으로 나타내는 도면이다. 이때, [도 5]에는 본 발명에서 AI 스피커(200)에서의 음성인식 성능을 향상시키기 위해 수행하는 에코 캔슬레이션 처리에서 AI 스피커(200)가 수행하는 버퍼 제어 동작이 개념적으로 도시되어 있다.
[도 5]를 참조하면, AI 스피커(200)는 마이크 음성입력부(210)를 통해 주변 음성 신호를 수집하는데, 이 중에는 셋톱박스(100)에서 멀티미디어 컨텐츠를 재생함에 따른 재생 오디오 성분이 크게 반영되어 있다. 에코 캔슬레이션부(250)는 이처럼 마이크 음성입력부(210)가 수집 입력하는 주변 사운드 신호로부터 재생 오디오 에코 성분을 제거하려고 한다.
이를 위해, 셋톱박스(100)의 재생오디오 제공부(140)는 멀티미티어 콘텐츠의 재생 오디오를 에코 기준 신호로서 AI 스피커 장치(200)로 USB 오디오에 따라 스트리밍 출력한다. 이렇게 제공되는 에코 기준 신호(즉, 셋톱박스(100)에서의 멀티미티어 콘텐츠의 재생 오디오)는 AI 스피커(200)의 재생오디오 버퍼부(240)에서 버퍼메모리(241)에 임시 저장되며, 적당한 타이밍에서 에코 캔슬레이션부(250)로 전달되어 사운드 처리에 사용된다.
클럭제어기(242)는 버퍼메모리(241)의 동작 클럭을 제어하는데, 본 발명에서는 버퍼메모리(241)를 모니터링하여 버퍼메모리(241)의 점유율에 비례 대응하도록 동작 클럭을 제어한다. 즉, 클럭제어기(242)는 버퍼메모리(241)의 데이터 점유율을 식별하고, 데이터 점유율이 미리 설정한 제 1 임계치를 상회하면 버퍼메모리(241)의 동작 클럭을 증가 제어하고, 데이터 점유율이 미리 설정한 제 2 임계치를 하회하면 버퍼메모리(241)의 동작 클럭을 감소 제어한다.
개념적으로는, 버퍼메모리(241)에 남아있는 에코 기준 신호가 임계치보다 많으면 동작 클럭을 증가시켜 에코 기준 신호의 데이터를 더 부지런히 에코 캔슬레이션부(250)로 전달하고, 반대로 버퍼메모리(241)에 남아있는 에코 기준 신호가 임계치보다 적으면 동작 클럭을 감소시켜 에코 기준 신호의 데이터를 좀더 천천히 에코 캔슬레이션부(250)로 전달하는 것이다.
에코 캔슬레이션부(250)는 주변 사운드와 에코 기준 신호 간의 시간편차가 일정 임계시간(예: 수백 밀리초)을 넘기게 되면 캔슬레이션 효율이 급격하게 떨어지는 특성을 보인다. USB 통신이라는 저신뢰 통신매체를 활용하여 시간 편차를 일정하게 제어하기 위해서 오디오 데이터 전송속도의 항상성이 담보되고 기기간 동기화를 위하여 버퍼 클럭을 동적으로 제어한다.
한편, 본 명세서에서 '셋톱박스'는 다양한 전송매체를 통해 멀티미디어 컨텐츠를 제공받아 디스플레이 표시하는 장치를 의미한다. 전송매체로는 지상파, 위성, 케이블, 인터넷 등을 포함하며, 컨텐츠 전송 방식으로는 브로드캐스팅과 다운로드를 포함한다. 일반적으로 '셋톱박스'라고 불리는 제품에 한정되지 않으며 OTT 박스, 안드로이드 TV, 애플 TV 등을 널리 포함한다.
한편, 본 발명은 컴퓨터가 읽을 수 있는 비휘발성 기록매체에 컴퓨터가 읽을 수 있는 코드의 형태로 구현되는 것이 가능하다. 이러한 비휘발성 기록매체로는 다양한 형태의 스토리지 장치가 존재하는데 예컨대 하드디스크, SSD, CD-ROM, NAS, 자기테이프, 웹디스크, 클라우드 디스크 등이 있고 네트워크로 연결된 다수의 스토리지 장치에 코드가 분산 저장되고 실행되는 형태도 구현될 수 있다. 또한, 본 발명은 하드웨어와 결합되어 특정의 절차를 실행시키기 위하여 매체에 저장된 컴퓨터프로그램의 형태로 구현될 수도 있다.
20 : 디스플레이 장치
30 : 컨텐츠 서버
50 : 인공지능 서버
100 : 셋톱박스
110 : 외부 서버 연동부
120 : 디지털 외부 접속부
130 : AI 스피커 연동부
140 : 재생오디오 제공부
150 : 컨텐츠 재생 처리부
200 : AI 스피커
210 : 마이크 음성입력부
220 : 디지털 외부 접속부
230 : 셋톱박스 연동부
240 : 재생오디오 버퍼부
241 : 버퍼메모리
242 : 클럭제어기
250 : 에코 캔슬레이션부
260 : 사용자 음성처리부
270 : 스피커 음성출력부

Claims (5)

  1. 셋톱박스에 대해 디지털 인터페이스를 통해 외부 연결되어 상호 연동을 통해 AI 스피커 시스템을 제공하기 위한 AI 스피커 장치로서,
    상기 AI 스피커와 관련하여 주변 음성 신호를 수집하여 입력하는 마이크 음성입력부(210);
    디지털 인터페이스를 통해 상기 셋톱박스와 외부 접속하기 위한 디지털 외부 접속부(220);
    상기 디지털 인터페이스를 통해 상기 셋톱박스와 연동하여 동작하기 위한 셋톱박스 연동부(230);
    상기 셋톱박스로부터 제공되는 멀티미티어 콘텐츠의 재생 오디오를 에코 기준 신호로 수신하여 임시 저장하는 재생오디오 버퍼부(240)로서, 상기 셋톱박스로부터 제공되는 멀티미티어 콘텐츠의 재생 오디오를 에코 기준 신호로 수신하여 순서대로 임시 저장하는 버퍼메모리(241)와, 상기 버퍼메모리(241)의 점유율에 비례 대응하도록 상기 버퍼메모리(241)의 동작 클럭을 제어하는 클럭제어기(242)를 포함하여 구성되는 재생오디오 버퍼부(240);
    상기 에코 기준 신호를 참조하여 상기 마이크 음성입력부(210)가 수집하는 주변 음성 신호로부터 상기 셋톱박스에 기인한 멀티미디어 콘텐츠의 재생 오디오 에코 성분을 제거 처리하는 에코 캔슬레이션부(250);
    상기 재생 오디오 에코 성분이 제거된 주변 음성 신호를 이용하여 사용자 음성을 전처리하고 디지털 외부 접속부(220)를 통해 상기 셋톱박스(100)로 전달하는 사용자 음성처리부(260);
    상기 셋톱박스(100)를 통해 획득되는 인공지능 응답 데이터를 음성 대역으로 출력하기 위한 스피커 음성출력부(270);
    를 포함하여 구성되는 셋톱박스 외부 연결형의 AI 스피커 장치.
  2. 삭제
  3. 청구항 1에 있어서,
    상기 클럭제어기(242)는 상기 버퍼메모리(241)의 데이터 점유율을 식별하고, 상기 데이터 점유율이 미리 설정한 제 1 임계치를 상회하면 상기 버퍼메모리(241)의 동작 클럭을 증가 제어하고, 상기 데이터 점유율이 미리 설정한 제 2 임계치를 하회하면 상기 버퍼메모리(241)의 동작 클럭을 감소 제어하는 것을 특징으로 하는 셋톱박스 외부 연결형의 AI 스피커 장치.
  4. 청구항 1 또는 3에 따른 셋톱박스 외부 연결형의 AI 스피커 장치(200);
    상기 디지털 인터페이스를 통해 상기 AI 스피커 장치(200)와 외부 접속하면 상기 AI 스피커 장치(200)를 USB 오디오 디바이스로 설정하고, 멀티미티어 콘텐츠의 재생 오디오를 에코 기준 신호로서 상기 AI 스피커 장치(200)로 USB 오디오에 따라 스트리밍 출력하고, 상기 디지털 인터페이스를 통해 상기 AI 스피커 장치(200)로부터 사용자 음성의 전처리 결과를 전달받아 외부의 인공지능 서버(50)로 전달하여 인공지능 처리 결과를 전달받고, 상기 인공지능 처리 결과에 따라 멀티미디어 컨텐츠를 재생하고, 상기 인공지능 처리 결과를 상기 디지털 인터페이스를 통해 상기 AI 스피커 장치(200)로 전달하는 셋톱박스(100);
    를 포함하여 구성되는 셋톱박스 외부 연결형의 AI 스피커 시스템.
  5. 청구항 4에 있어서,
    상기 셋톱박스(100)는,
    인터넷을 통해 외부의 인공지능 서버(50)와 연동하여 상기 AI 스피커 장치(200)로부터 사용자 음성의 전처리 결과를 전달받으면 외부의 인공지능 서버(50)로 전달하여 인공지능 처리 결과를 전달받고, 인터넷을 통해 외부의 컨텐츠 서버(30)와 연동하여 상기 인공지능 처리 결과에 대응하는 멀티미디어 컨텐츠를 제공받기 위한 외부 서버 연동부(110);
    디지털 인터페이스를 통해 상기 AI 스피커 장치(200)와 외부 접속하고 상기 외부 접속된 AI 스피커 장치(200)를 인식하면 USB 오디오 디바이스로 설정하기 위한 디지털 외부 접속부(120);
    상기 디지털 인터페이스를 통해 상기 AI 스피커 장치(200)와 연동하여 동작하기 위한 AI 스피커 연동부(130);
    멀티미티어 콘텐츠의 재생 오디오를 에코 기준 신호로서 상기 AI 스피커 장치(200)로 USB 오디오에 따라 스트리밍 출력하는 재생오디오 제공부(140);
    상기 컨텐츠 서버(30)로부터 제공되는 멀티미디어 컨텐츠를 오디오/비디오 재생 처리하기 위한 컨텐츠 재생 처리부(150);
    를 포함하여 구성되는 것을 특징으로 하는 셋톱박스 외부 연결형의 AI 스피커 시스템.
KR1020180068488A 2018-06-15 2018-06-15 셋톱박스 외부 연결형의 ai 스피커 장치 및 이를 이용한 ai 스피커 시스템 KR101976355B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180068488A KR101976355B1 (ko) 2018-06-15 2018-06-15 셋톱박스 외부 연결형의 ai 스피커 장치 및 이를 이용한 ai 스피커 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180068488A KR101976355B1 (ko) 2018-06-15 2018-06-15 셋톱박스 외부 연결형의 ai 스피커 장치 및 이를 이용한 ai 스피커 시스템

Publications (1)

Publication Number Publication Date
KR101976355B1 true KR101976355B1 (ko) 2019-05-08

Family

ID=66580306

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180068488A KR101976355B1 (ko) 2018-06-15 2018-06-15 셋톱박스 외부 연결형의 ai 스피커 장치 및 이를 이용한 ai 스피커 시스템

Country Status (1)

Country Link
KR (1) KR101976355B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112333512A (zh) * 2020-11-18 2021-02-05 深圳巴金科技有限公司 影音系统、检测音频延时方法及影音收看场景同步方法
KR102266320B1 (ko) * 2020-06-24 2021-06-16 황민선 인공지능 스피커 시스템
KR20220053795A (ko) 2020-10-23 2022-05-02 주식회사 동영엠텍 인공지능 비서 서비스 제공 시스템 및 방법
KR20220115243A (ko) * 2021-02-10 2022-08-17 주식회사 동영엠텍 방송 채널명 스캔 데이터를 활용한 음성 인식 채널 변경이 가능한 인공지능 비서 서비스 제공 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007155986A (ja) * 2005-12-02 2007-06-21 Mitsubishi Heavy Ind Ltd 音声認識装置および音声認識装置を備えたロボット
KR20100066918A (ko) * 2008-12-10 2010-06-18 한국전자통신연구원 유비쿼터스 지능형 로봇을 이용한 홈 네트워크 서비스 방법
KR20120126595A (ko) * 2011-05-12 2012-11-21 주식회사 디엠티 Usb 카메라 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007155986A (ja) * 2005-12-02 2007-06-21 Mitsubishi Heavy Ind Ltd 音声認識装置および音声認識装置を備えたロボット
KR20100066918A (ko) * 2008-12-10 2010-06-18 한국전자통신연구원 유비쿼터스 지능형 로봇을 이용한 홈 네트워크 서비스 방법
KR20120126595A (ko) * 2011-05-12 2012-11-21 주식회사 디엠티 Usb 카메라 장치

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102266320B1 (ko) * 2020-06-24 2021-06-16 황민선 인공지능 스피커 시스템
KR20220053795A (ko) 2020-10-23 2022-05-02 주식회사 동영엠텍 인공지능 비서 서비스 제공 시스템 및 방법
CN112333512A (zh) * 2020-11-18 2021-02-05 深圳巴金科技有限公司 影音系统、检测音频延时方法及影音收看场景同步方法
CN112333512B (zh) * 2020-11-18 2024-04-12 深圳巴金科技有限公司 影音系统、检测音频延时方法及影音收看场景同步方法
KR20220115243A (ko) * 2021-02-10 2022-08-17 주식회사 동영엠텍 방송 채널명 스캔 데이터를 활용한 음성 인식 채널 변경이 가능한 인공지능 비서 서비스 제공 시스템
KR102431301B1 (ko) * 2021-02-10 2022-08-29 주식회사 동영엠텍 방송 채널명 스캔 데이터를 활용한 음성 인식 채널 변경이 가능한 인공지능 비서 서비스 제공 시스템

Similar Documents

Publication Publication Date Title
KR101976355B1 (ko) 셋톱박스 외부 연결형의 ai 스피커 장치 및 이를 이용한 ai 스피커 시스템
US10812751B2 (en) Dynamically switching to/from a first network during audio playback over HDMI/ARC
US10250664B2 (en) Placeshifting live encoded video faster than real time
US8175298B2 (en) Audio output system control method and audio output system
US11625215B2 (en) Audio cancellation and content recognition of audio received over HDMI/ARC
CN101480019B (zh) 本地用户界面与远程生成的用户界面和媒体的合成
JP2003518832A (ja) 民生用電子機器装置からのマルチメディアコンテンツの遠隔伝達
US20070142022A1 (en) Programmable multimedia controller with programmable services
KR102291117B1 (ko) 외부 연결용 ai 스피커 장치 및 이와 외부 기기 간의 에코 제거 및 동기화 방법
US8346930B2 (en) Multimedia processing method and device for resource management using virtual resources
US20020174442A1 (en) Content provider apparatus, content provider method, and recording medium
CN103491431A (zh) 一种数字电视的音视频共享方法、终端及系统
US20050273824A1 (en) Set top box for PC/HDTV multimedia center
US11956494B2 (en) Voice command integration for local network connected devices
US20030122964A1 (en) Synchronization network, system and method for synchronizing audio
US20180152497A1 (en) Method and multi-media device for video communication
US20210195256A1 (en) Decoder equipment with two audio links
KR102281494B1 (ko) 멀티미디어 콘텐츠 재생 처리를 위한 장치, 시스템 및 제어방법
US11425459B2 (en) Systems and methods to generate guaranteed advertisement impressions
US20210250645A1 (en) Memory management of replacement content in digital tv system
US20220030316A1 (en) Automated user-responsive video content
WO2014106212A1 (en) Methods and apparatus for seeking within recorded media stored on a set-top box
KR20190133912A (ko) Ott 서비스를 이용한 방송스트림의 타임머신기능을 제공하는 멀티미디어 기기 및 타임머신기능 제공방법
CN115802087A (zh) 音画同步处理方法及其相关设备
KR20060106040A (ko) 댁내망 내 멀티미디어 컨텐츠 서비스를 위한 멀티미디어서버 시스템과 멀티미디어 어댑터 및 그 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant