KR102215543B1

KR102215543B1 - Uhd 방송을 위한 어레이 스피커와 어레이 마이크 기반의 ai 음성비서 장치

Info

Publication number: KR102215543B1
Application number: KR1020190022804A
Authority: KR
Inventors: 강민구; 김춘섭
Original assignee: 주식회사 큐버; 한신대학교 산학협력단
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2021-02-15
Also published as: KR20200104181A; KR102215543B9

Abstract

본 발명은 일반적으로 UHD 방송의 입체음향 오디오 환경에 적합한 AI 음성비서 장치에 관한 것이다. 특히, 본 발명은 UHD 방송 규격에서 4K 이상의 고해상도 비디오 환경 뿐만 아니라 10개 이상의 오디오 채널을 갖는 입체음향 오디오 환경이 구축됨에 따라 UHD 콘텐츠를 다루는 AI 음성비서 장치에 어레이 스피커와 어레이 마이크를 장착하고 시청자가 정위치에 있지 않은 경우에 위상 시프트에 대응하여 음체음향 처리에 지연편차를 반영하고 음성인식 처리에 가중치를 적용함으로써 댁내 시청자에게 UHD 방송에 따른 입체음향을 지원하면서 시청자 음성에 의한 명령어 인식도 원활하게 수행할 수 있도록 해주는 기술에 관한 것이다. 본 발명에 따르면 UHD 방송의 입체음향 오디오를 즐기면서도 AI 음성비서 기능을 원활하게 활용할 수 있는 장점이 있다. 또한, 본 발명에 따르면 시청자의 위치에 위상 변동이 생긴 경우에도 어레이 스피커의 입체음향 처리에 위상 시프트에 따른 지연편차를 반영함으로써 입체음향 오디오 환경을 쾌적하게 유지할 수 있는 장점이 있다. 또한, 본 발명에 따르면 시청자의 위치에 위상 변동이 생긴 경우에도 어레이 마이크를 통한 음성인식 처리에 위상 시프트에 따른 가중치를 적용함으로써 명령어 인식을 원활하게 수행할 수 있는 장점이 있다.

Description

UHD 방송을 위한 어레이 스피커와 어레이 마이크 기반의 AI 음성비서 장치 {Voice-based AI assistant device for UHD broadcasting by use of array speakers and array microphones}

본 발명은 일반적으로 UHD 방송의 입체음향 오디오 환경에 적합한 AI 음성비서 장치에 관한 것이다.

특히, 본 발명은 UHD 방송 규격에서 4K 이상의 고해상도 비디오 환경 뿐만 아니라 10개 이상의 오디오 채널을 갖는 입체음향 오디오 환경이 구축됨에 따라 UHD 콘텐츠를 다루는 AI 음성비서 장치에 어레이 스피커와 어레이 마이크를 장착하고 시청자가 정위치에 있지 않은 경우에 위상 시프트에 대응하여 음체음향 처리에 지연편차를 반영하고 음성인식 처리에 가중치를 적용함으로써 댁내 시청자에게 UHD 방송에 따른 입체음향을 지원하면서 시청자 음성에 의한 명령어 인식도 원활하게 수행할 수 있도록 해주는 기술에 관한 것이다.

최근들어 인공지능 비서 가능이 구현되고 시청자와 보이스(음성)으로 상호 인터렉션할 수 있는 장치가 전세계적으로 활발하게 시도되고 있는데, 통상적으로는 이를 인공지능(AI) 스피커 시스템이라고 부른다.

이와 관련된 과정을 간단하게 살펴본다. 2011년에 애플 시리(Apple Siri)를 시작으로 스마트폰을 디지털 비서로 사용하려는 시도가 있었는데, 이는 애플 스마트폰(아이폰)에 내장되어 있는 알림, 날씨, 주식 정보, 메시지 등을 인공지능 비서 기능과 연계시키는 방식이었다.

이어서, 인공지능 비서 기능을 독립형 스피커 장치와 결합시켜 일종의 스마트 홈(smart home)을 구현하려는 시도가 있었는데, 이러한 시도의 예로는 구글 어시스턴트(Google Assistant), 아마존 알렉사(Amazon Alexa). 라인프렌즈, 카카오미니 등이 대표적이다. 또한, 인공지능 비서 기능을 사물인터넷(IoT)과 연동시킴으로써 댁내 조명을 보이스로 제어한다거나 홈 시큐리티를 강화하려는 시도도 통신서비스 업체를 중심으로 시도되었다.

이처럼 인공지능 비서 기능을 적용하려는 시도가 다양하게 있었는데, 그러한 시도의 중요한 한가지는 인공지능 비서 기능을 멀티미디어 콘텐츠 제공 서비스와 결합시키는 것이다. 대표적으로는 멀티미디어 콘텐츠를 즐기기 위해 가정에 보급되는 셋톱박스 장치에 인공지능 비서 기능을 통합시키는 것이다. 본 발명의 목적을 감안하여 이하에서 'AI 음성비서 장치'는 문맥에 위배되지 않는 한 셋톱박스에 인공지능 비서 기능을 통합한 장치를 가리키는 것이다.

셋톱박스에 인공지능 비서 기능을 통합함으로써 셋톱박스의 기능(예: 채널변경, 볼륨 업다운)을 보이스로 제어할 수 있을 뿐만 아니라 멀티미디어 콘텐츠에 대해 궁금한 것을 보이스로 문의하는 것도 가능하고 특정 상황에 대한 콘텐츠 추천 등도 셋톱박스로 요청하는 것이 가능하다. 인공지능 비서 기능이 구현된 셋톱박스 장치는 시청자가 보이스로 제어 명령, 질의 혹은 요청 사항에 대응하여 기능수행 결과 혹은 답변 내용을 스피커 사운드로 출력한다.

[도 1]은 일반적인 AI 음성비서 장치(20)를 이용한 방송 시청 환경을 개념적으로 나타내는 도면이다.

AI 음성비서 장치(20)는 외부의 콘텐츠 서버(50)로부터 멀티미디어 콘텐츠를 제공받아 재생하며 그에 따른 재생 화면을 디지털 TV(10)에 표시한다. 이때, 콘텐츠 재생에 따른 오디오 출력은 텔레비전 스피커(11, 12)를 통해서 이루어질 수도 있고 외부의 오디오 장치(30)를 통해 이루어질 수도 있다. 최근들어 디스플레이 기술이 발전됨에 따라 디지털 TV(10)가 얇아지고 있는데, 얇은 기구물에 설치된 스피커로는 좋은 음향을 만들어내기가 어렵기 때문에 오디오 출력 측면에서는 매우 불리한 환경이 만들어졌다. 그에 따라, 최근에는 외부 스피커 장치(30)를 통해 TV 사운드를 출력하는 가정이 크게 늘어나고 있는 추세이다.

또한, AI 음성비서 장치(20)는 인공지능 비서 기능을 제공한다. 인공지능 비서 기능을 활용하기 위해 시청자는 음성으로 기능 제어 명령을 제공하거나 질의 문구를 제공하고, AI 음성비서 장치(20)는 내장 마이크를 통해 시청자의 음석을 입력받아 처리한다. 이때, 인공지능 기능은 콘텐츠 서버(50) 또는 별도의 서버 장치(미도시)에 설치되는 것이 일반적이다.

종래의 AI 음성비서 장치(20)의 가장 큰 문제는 시청자가 제공하는 음성 명령어 혹은 음성 질의어를 제대로 인식하지 못하는 경우가 많다는 것이다. [도 1]에서 사용자가 어느정도 근접한 거리에서 정위치에 있는 경우(40)에는 음성인식률이 비교적 양호하지만 시청자의 위치가 좌우로 틀어져있거나 보이스 음량이 충분치 않은 경우에는 음성인식률이 저하되는 문제점이 있다.

이는 오디오 출력 환경이 고도화될수록 더욱 심각해질 것으로 우려된다. 다채널 고출력 오디오 청취환경이 구축된다는 것은 음성인식의 측면에서는 노이즈가 훨씬 많아지는 것을 의미하기 때문이다. 하지만, 고품질의 오디오를 즐기고 싶어하는 사람들의 욕구를 무시할 수는 없기 문에 다채널 고출력 오디오 환경으로 나아가는 것은 피할 수 없는 추세이다. 이러한 환경 변화에 맞게 AI 음성비서 장치(20)의 구성과 처리 프로세스를 고도화할 필요가 있다.

본 발명의 목적은 일반적으로 UHD 방송의 입체음향 오디오 환경에 적합한 AI 음성비서 장치를 제공하는 것이다.

특히, 본 발명의 목적은 UHD 방송 규격에서 4K 이상의 고해상도 비디오 환경 뿐만 아니라 10개 이상의 오디오 채널을 갖는 입체음향 오디오 환경이 구축됨에 따라 UHD 콘텐츠를 다루는 AI 음성비서 장치에 어레이 스피커와 어레이 마이크를 장착하고 시청자가 정위치에 있지 않은 경우에 위상 시프트에 대응하여 음체음향 처리에 지연편차를 반영하고 음성인식 처리에 가중치를 적용함으로써 댁내 시청자에게 UHD 방송에 따른 입체음향을 지원하면서 시청자 음성에 의한 명령어 인식도 원활하게 수행할 수 있도록 해주는 기술을 제공하는 것이다.

상기의 목적을 달성하기 위하여 본 발명에 따른 어레이 스피커와 어레이 마이크 기반의 AI 음성비서 장치는, 좌우 방향으로 길다란 사운드바 형태의 장치 외관을 구성하는 하우징(100); 장치 전면을 촬영한 이미지(이하, '시청자 촬영 이미지'라 함)로부터 시청 거리와 좌우 이격거리를 추출하여 시청자 위치의 위상 이격을 나타내는 이격 벡터를 산출하는 카메라 처리부(200); UHD 다채널 입체음향을 위하여 하우징(100)의 좌우 방향을 따라 다수의 스피커 유닛(311 ~ 314)이 배열된 스피커유닛 어레이(310)를 구비하고, 이격 벡터에 대응하여 스피커 유닛(311 ~ 314)의 각각에 대한 음향출력 지연시간을 산출하고 이를 반영하여 스피커유닛 어레이(310)의 입체음향 출력 제어를 수행하는 어레이 스피커부(300); 하우징(100)의 좌우 방향으로 복수의 마이크 유닛(411, 412)이 이격 배치된 마이크유닛 어레이(410)를 구비하고, 이격 벡터에 기초하여 마이크 유닛(411, 412)의 각각에 대한 음성인식 가중치를 산출하고 이를 반영하여 음성인식 처리 제어를 수행하는 어레이 마이크부(400);를 포함하여 구성된다.

이때, 카메라 처리부(200)는, AI 음성비서 장치의 전면을 촬영하여 시청자 촬영 이미지를 생성하는 카메라 촬영유닛(210); 시청자 촬영 이미지를 분석하여 시청자의 얼굴 이미지를 추출하는 객체영상 추출유닛(220); 얼굴 이미지의 크기에 기초하여 시청자의 시청 거리를 산출하는 시청거리 산출유닛(230); 얼굴 이미지의 위치에 기초하여 시청자의 좌우 이격거리를 추출하고 시청 거리와 좌우 이격거리를 조합하여 시청자에 대한 이격 벡터를 산출하는 이격벡터 산출유닛(240);을 포함하여 구성될 수 있다.

또한, 어레이 스피커부(300)는, UHD 다채널 입체음향을 위하여 하우징(100)의 좌우 방향을 따라 다수의 스피커 유닛(311 ~ 314)이 배열 구성된 스피커유닛 어레이(310); 다수의 스피커 유닛(311 ~ 314)을 개별 지연시간을 적용하여 제어하고 독자적인 증폭 회로로 구동하여 다채널 사운드빔을 통한 입체음향을 제공하는 입체음향 처리유닛(320); 이격 벡터에 기초하여 스피커 유닛(311 ~ 314)의 각각에 대해 장치 전면 중앙에 위치하는 가상 시청자에 대비하여 음향 출력이 시청자에 도착할 때까지의 시간 편차를 나타내는 음성도달 지연편차를 산출하는 지연편차 산출유닛(330); 음성도달 지연편차를 보상하도록 스피커 유닛(311 ~ 314)의 각각에 대하여 음향출력 지연시간을 산출하고, 입체음향 처리유닛(320)에 의한 다수의 스피커 유닛(311 ~ 314)의 입체음향 출력 제어에 각각의 음향출력 지연시간을 반영 설정하는 지연편차 반영유닛(340);을 포함하여 구성될 수 있다.

또한, 어레이 마이크부(400)는, 하우징(100)의 좌우 방향으로 복수의 마이크 유닛(411, 412)이 이격 배치된 마이크유닛 어레이(410); 복수의 마이크 유닛(411, 412)으로 입력되는 음성 신호로부터 시청자의 음성 명령어를 인식하는 음성인식 처리유닛(420); 이격 벡터에 기초하여 마이크 유닛(411, 412)의 각각에 대하여 시청자의 음성이 각각의 마이크 유닛(411, 412)에 도달할 때까지의 감쇄 편차에 대응하여 음성인식 가중치를 산출하는 가중치 산정유닛(430); 음성인식 처리유닛(420)에 의한 음성 명령어 인식에 복수의 마이크 유닛(411, 412)으로 입력되는 음성 신호 입력에 대해 각각의 음성인식 가중치를 반영 설정하는 가중치 반영유닛(440);을 포함하여 구성될 수 있다.

이때, 마이크유닛 어레이(410)은 하우징의 좌우 양 단부에 배치된 스테레오 마이크를 포함하여 구성될 수 있다.

본 발명에 따르면 UHD 방송의 입체음향 오디오를 즐기면서도 AI 음성비서 기능을 원활하게 활용할 수 있는 장점이 있다.

또한, 본 발명에 따르면 시청자의 위치에 위상 변동이 생긴 경우에도 어레이 스피커의 입체음향 처리에 위상 시프트에 따른 지연편차를 반영함으로써 입체음향 오디오 환경을 쾌적하게 유지할 수 있는 장점이 있다.

또한, 본 발명에 따르면 시청자의 위치에 위상 변동이 생긴 경우에도 어레이 마이크를 통한 음성인식 처리에 위상 시프트에 따른 가중치를 적용함으로써 명령어 인식을 원활하게 수행할 수 있는 장점이 있다.

[도 1]은 일반적인 AI 음성비서 장치를 이용한 방송 시청 환경을 개념적으로 나타내는 도면.
[도 2]는 본 발명에 따른 어레이 스피커와 어레이 마이크 기반의 AI 음성비서 장치의 전체 구성을 개념적으로 나타내는 도면.
[도 3]은 본 발명에 따른 어레이 스피커와 어레이 마이크 기반의 AI 음성비서 장치의 전체 동작 프로세스를 나타내는 순서도.
[도 4]는 본 발명에 따른 AI 음성비서 장치에서 카메라 처리부의 기능적 구성을 나타내는 블록도.
[도 5]는 본 발명에 따른 AI 음성비서 장치에서 어레이 스피커부의 기능적 구성을 나타내는 블록도.
[도 6]은 본 발명에서 어레이 스피커부에 대한 음향출력 그룹제어를 개념적으로 나타내는 도면.
[도 7]은 본 발명에 따른 AI 음성비서 장치에서 어레이 마이크부의 기능적 구성을 나타내는 블록도.
[도 8]은 본 발명에서 어레이 마이크부에 대한 음성인식 그룹제어를 개념적으로 나타내는 도면.

이하에서는 도면을 참조하여 본 발명을 상세하게 설명한다.

[도 2]는 본 발명에 따른 어레이 스피커와 어레이 마이크 기반의 AI 음성비서 장치(20)의 전체 구성을 개념적으로 나타내는 도면이며, [도 3]은 본 발명에 따른 어레이 스피커와 어레이 마이크 기반의 AI 음성비서 장치(20)의 전체 동작 프로세스를 나타내는 순서도이다.

본 발명에 따른 AI 음성비서 장치(20)는 UHD 방송수신 환경에 적합하며 사운드바(sound bar)와 같이 좌우로 길다란 형태로 구성된다. 3D-TV나 UHD-TV와 같은 고실감 방송과 블루레이와 같은 대용량 멀티미디어 저장매체의 등장으로 인하여 기존의 5.1 채널 및 7.1 채널 수평 서라운드 오디오 시스템이 10개 이상의 오디오 채널을 갖는 입체적인 오디오 시스템(예: NHK 22.2, TTA/USC 10.2, AURO 10.1)으로 진화하고 있다. 본 발명의 AI 음성비서 장치(20)는 다채널 오디오 청취 환경을 자체적으로 지원하면서 AI 음성비서 기능도 제공한다.

먼저, [도 2]를 참조하면, 본 발명에 따른 UHD 방송을 위한 AI 음성비서 장치(20)는 시청자(41, 42)가 전면 중앙에 위치하지 않고 좌측 또는 우측으로 이동하여 위치하는 경우에도 입체음향과 음성인식 기능이 정상 동작할 수 있도록 구성된 것이며, 이를 위해 하우징(100), 카메라 처리부(200), 어레이 스피커부(300), 어레이 마이크부(400)를 포함하여 구성된다. 한편, [도 2]는 시청자 2명이 좌우에 위치하여 있는 모습을 나타낸 것이 아니라, 한사람의 시청자가 좌측으로 이동하거나 우측으로 이동한 모습을 나타낸 것이다.

먼저, 하우징(100)은 좌우 방향으로 길다란 사운드바 형태의 장치 외관을 구성한다. 사운드바(sound bar)는 좌우 방향으로 길다란 기구물 내부에 복수의 스피커가 배치되어 있는 오디오 장치로서 야마하(Yamaha), LG, 보스, 브리츠 등에서 다양한 사운드바 제품을 판매하고 있다. 본 발명에서 사운드바 형태의 하우징(100)을 채택한 이유는 다수의 스피커 유닛(311 ~ 314)를 좌우로 길게 배치하여 어레이 스피커를 구성할 뿐만 아니라, 복수의 마이크 유닛(411, 412)를 좌우로 이격 배치하여 어레이 마이크를 구성하기 위한 것이다. 이는 [도 2]에서 시청자가 장치 전면 중앙에 위치하지 않고 상당 범위 내에서 좌우 이동하여 위치할 수 있다는 점을 고려하여 본 발명에 채택된 것이다.

카메라 처리부(200)는 AI 음성비서 장치(20)의 정면부, 바람직하게는 정면 상단부에 배치되어 장치(20)의 전면을 촬영한다. 이렇게 장치 전면을 촬영한 이미지(이하, '시청자 촬영 이미지'라 함)로부터 시청자(41, 42)의 시청 거리와 좌우 이격거리를 추출한다. 시청 거리는 시청자의 얼굴 사이즈(픽셀 사이즈)로부터 추정하는데, 시청자가 근접하여 있을수록 시청자 촬영 이미지에서 얼굴 사이즈는 크게 나올 것이다. 이때, 평균적인 얼굴 사이즈를 기준으로 시청거리를 산출한다. 또한, 좌우 이격거리는 시청자 촬영 이미지를 영상 분석하여 얻는다. 시청자 촬영 이미지에서 시청자 얼굴의 위치가 중심에서 이격된 픽셀 갯수를 추출한 후, 시청거리를 감안하여 이격 픽셀 갯수를 물리적인 이격거리로 변환한다. 그리고 나서, 시청거리와 좌우 이격거리를 조합함으로써 시청자 위치가 정면 중심에서 틀어진 정도, 즉 위상 이격을 나타내는 이격 벡터를 산출한다.

어레이 스피커부(300)는 UHD 콘텐츠에 인코딩되어 있는 오디오 데이터에 따라 다채널 입체음향을 제공하기 위하여 하우징(100)의 좌우 방향을 따라 다수의 스피커 유닛(311 ~ 314)이 배열되어 있다.

한편, 사운드바에 어레이 스피커를 배치하고 이를 이용하여 다채널 입체음향을 제공하는 기술은 이미 구현되어 있기에 본 명세서에서는 이에 대한 자세한 기술은 생략한다. 예를 들어 야마하의 YSP-5600 제품에 이러한 구성이 구현되어 있는데, 이 YSP-5600 제품에서는 전면에 44개의 스피커를 배열하고 이들 스피커를 개별 지연시간에 의해 독자 구동함으로써 7채널 사운드빔(전면 좌우, 센터, 서라운드 좌우, 높이 좌우)을 생성하고 이들 사운드빔을 벽과 천장에 투사하여 시청자에게 반사 전달함에 따라 입체음향을 형성한다.

이들 제품은 시청자가 사운드바 전면 중앙에 위치하였을 때(40)에 가장 바람직한 입체음향을 제공한다. 시청자가 전면 중앙에서 좌측 혹은 우측으로 치우쳐져 있는 경우(41, 42)에는 각 스피커 유닛(311 ~ 314)에서 시청자의 양쪽 귀에 도달할 때까지의 시간이 조금씩 어긋나기 때문에 입체음향의 품질이 저하된다. 그에 따라, 본 발명의 어레이 스피커부(300)는 시청자의 위상 이격을 나타내는 이격 벡터에 대응하여 이들 스피커 유닛(311 ~ 314)의 각각에 대한 음향출력 지연시간을 산출하고 이를 반영하여 스피커 유닛(311 ~ 314)의 입체음향 출력 제어를 수행한다는 점이 종래기술에 대한 차별점이다.

어레이 마이크부(400)는 하우징(100)의 좌우 방향으로 복수의 마이크 유닛(411, 412)을 이격 배치하였다. [도 2]에서는 하우징(100)의 좌우 양 단부에 스테레오 마이크를 배치한 예를 도시하였으나, 그 중간에 하나 혹은 그 이상의 마이크 유닛을 더 배치할 수도 있다.

시청자가 사운드바 전면 중앙에 위치하였을 때(40)에는 마이크 유닛(411, 412)에 비슷한 정도의 보이스 음량이 전달되므로 이들을 조합 처리하여 음성인식 처리를 수행한다. 사람의 음성을 단일 혹은 둘 이상의 마이크로 입력받아 명령(명령어, 질의어)을 인식하고 그에 따라 동작을 수행하거나 답변을 제공하는 기술은 종래의 AI 음성비서 장치에 이미 구현되어 있기에 본 명세서에서는 이에 대한 자세한 기술은 생략한다.

다만, 본 발명의 어레이 마이크부(400)는 시청자의 위상 이격을 나타내는 이격 벡터에 기초하여 마이크 유닛(411, 412)의 각각에 대한 음성인식 가중치를 산출하고 이를 반영하여 음성인식 처리 제어를 수행한다는 점이 종래기술에 대한 차별점이다. 이는 시청자가 중앙에서 벗어난 위상 위격에 대응하여 어레이 마이크(411, 412)의 위상값을 조정하는 것에 대응된다.

다음으로, [도 3]을 참조하여 본 발명에 따른 UHD 방송을 위한 AI 음성비서 장치(20)의 전체 동작 프로세스를 기술한다.

단계 (S100, S110) : 먼저, 카메라 처리부(200)가 AI 음성비서 장치(20)의 전면을 촬영한 이미지, 즉 시청자 촬영 이미지로부터 시청자(41, 42)의 시청 거리와 좌우 이격거리를 추출한다. 시청 거리는 시청자 촬영 이미지에 시청자의 얼굴 사이즈가 몇 픽셀로 나타나는지로부터 추정할 수 있고, 좌우 이격거리는 시청자 촬영 이미지에서 시청자 얼굴의 위치가 중심에서 이격된 픽셀 갯수를 시청거리를 감안하여 물리적인 이격거리로 변환한다.

그리고 나서, 카메라 처리부(200)는 이들 시청거리와 좌우 이격거리를 조합함으로써 시청자 위치가 정면 중심에서 틀어진 정도, 즉 위상 이격을 나타내는 이격 벡터를 산출한다.

단계 (S120 ~ S140) : 다음으로, 어레이 스피커부(300)가 시청자의 위상 이격을 나타내는 이격 벡터에 기초하여 개별 스피커 유닛(311 ~ 314)에 대해 각각의 스피커 유닛(311 ~ 314)에서 출력된 음향이 시청자에게 도달할 때까지의 시간이 장치 전면 중앙에 위치하는 가상 시청자에 대비하여 얼마나 차이나는지에 관한 값인 음성도달 지연편차를 산출한다. 이어서, 어레이 스피커부(300)는 음성도달 지연편차를 보상하는 방향으로 스피커 유닛(311 ~ 314) 별로 음향출력 지연시간을 산출하며, 이 산출된 음향출력 지연시간을 반영하여 스피커유닛 어레이(310)의 입체음향 출력을 제어한다.

단계 (S150 ~ S170) : 다음으로, 어레이 마이크부(400)가 시청자의 위상 이격을 나타내는 이격 벡터에 기초하여 개별 마이크 유닛(411, 412)에 대하여 음성인식 가중치(weights in voice recognition)를 산출한다. 시청자에 근접한 위치에 놓여진 마이크 유닛(예: 411)에서 얻은 음향에는 시청자의 보이스 성분이 더 많을 것이고, 반대로 시청자로부터 떨어진 위치에 놓여진 마이크 유닛(예: 412)에서 얻은 음향에는 시청자의 보이스 성분은 적고 노이즈 성분은 많을 것이다. 따라서, 시청자에 대한 이격 벡터에 기초하여 개별 마이크 유닛(411, 412)에 대하여 음성인식 가중치를 산출하고, 어레이 마이크부(400)가 이러한 음성인식 가중치를 반영하여 음성인식 처리를 제어한다.

그리고 나서, AI 음성비서 장치(20)는 그 인식된 음성명령어에 따른 동작 처리, 즉 명령어에 따른 기능 수행 또는 질의어에 대한 답변 제공을 수행한다. 이 구성은 종래의 AI 음성비서 장치에 이미 구현되어 있는 사항이므로 본 명세서에서는 이에 대한 자세한 기술은 생략한다.

[도 4]는 본 발명에 따른 AI 음성비서 장치(20)에서 카메라 처리부(200)의 기능적 구성을 나타내는 블록도이다.

본 발명에 따른 AI 음성비서 장치(20)에서 카메라 처리부(200)는 AI 음성비서 장치(20)의 전면을 촬영한 이미지, 즉 시청자 촬영 이미지를 분석하여 시청 거리와 좌우 이격거리를 추출하고 이를 조합함으로써 시청자 위치의 위상 이격을 나타내는 이격 벡터를 산출하는 구성이다.

[도 4]를 참조하면, 본 발명에서 카메라 처리부(200)는 카메라 촬영유닛(210), 객체영상 추출유닛(220), 시청거리 산출유닛(230), 이격벡터 산출유닛(240)를 포함하여 구성된다.

먼저, 카메라 촬영유닛(210)은 AI 음성비서 장치(20)의 전면을 촬영하여 시청자 촬영 이미지를 생성한다. 카메라 촬영유닛(210)은 일반적인 카메라 모듈(예: CMOS 카메라)을 이용하여 구현할 수 있다.

객체영상 추출유닛(220)은 시청자 촬영 이미지를 분석하여 시청자의 얼굴 이미지를 추출한다. 바람직하게는, 시청자 촬영 이미지에서 눈의 형상과 코의 형상을 탐색하고 이들로 이루어지는 역삼각형을 추적한다.

시청거리 산출유닛(230)은 시청자 얼굴 이미지의 크기에 기초하여 시청자의 시청 거리를 산출한다. 시청자가 AI 음성비서 장치(20)에 근접하여 있을수록 시청자 촬영 이미지에서 얼굴 사이즈는 크게 나올 것이다. 따라서, 시청자 촬영 이미지에서 도출한 시청자의 얼굴 사이즈(픽셀 사이즈)로부터 평균적인 얼굴 사이즈를 기준으로 시청 거리를 산출할 수 있다.

이격벡터 산출유닛(240)은 시청자 촬영 이미지에서 시청자 얼굴 이미지의 위치가 중심 라인으로부터 이격된 픽셀 갯수를 추출한 후, 앞서 산출된 시청거리를 감안하여 이격 픽셀 갯수를 물리적인 이격거리로 변환함으로써 시청자의 좌우 이격거리를 추출한다. 그리고 나서, 이상에서 산출한 시청 거리와 좌우 이격거리를 조합함으로써 시청자 위치가 정면 중심에서 틀어진 정도, 즉 위상 이격을 나타내는 이격 벡터를 산출한다.

[도 5]는 본 발명에 따른 AI 음성비서 장치(20)에서 어레이 스피커부(300)의 기능적 구성을 나타내는 블록도이고, [도 6]은 본 발명에서 어레이 스피커부(300)에 대한 음향출력 그룹제어를 개념적으로 나타내는 도면이다.

본 발명에 따른 AI 음성비서 장치(20)에서 어레이 스피커부(300)는 하우징(100)의 좌우 방향을 따라 다수의 스피커 유닛(311 ~ 314)이 배열되어 UHD 다채널 입체음향을 제공하며, 시청자의 위상 이격을 나타내는 이격 벡터에 따라 스피커 유닛(311 ~ 314)에 대한 음향출력 지연시간을 반영하여 스피커유닛 어레이(310)의 입체음향 출력 제어를 수행하는 구성이다.

사람이 음향을 입체적으로 느끼는 원리에 대해 간단히 기술한다. 인간은 머리에 두 개의 귀를 지니고 있으며, 각각의 귀에 전달된 독립적인 음향 신호에 의해 3차원 공간에서의 소리의 대략적인 분포와 음원 위치를 알아낸다. 인간이 3차원 공간에서 음원의 위치를 알아내는 주요 단서로는 두 귀간 음의 레벨 차이(ILD), 두 귀간 음의 시간 차이(ITD), 그리고 머리 및 귀의 형상에 의한 두 귀에서의 음향 신호의 특성(HRTF)을 들 수 있다.

두 귀간 음의 레벨 차이는 ILD(Inter-aural Level Difference)라고 부르는데 음원의 위치에 따른 두 귀까지의 경로차이와 이 경로차이에 의한 감쇄량의 차이에 의해 발생한다. ILD에 의한 3차원 오디오 지각은 머리 지름 이하의 파장을 갖는 고주파 영역의 음향 신호에 대해 작용한다.

두 귀간 음의 시간 차이는 ITD(Inter-aural Time Difference)라고 부르는데 ILD와 마찬가지로 음원의 위치에 따른 두 귀까지의 경로차이에 의해 발생한다. ITD에 의한 3차원 오디오 지각은 머리 지름 이상의 파장을 갖는 저주파 영역의 음향 신호에 대해 작용한다.

머리 및 귀의 형상에 의한 음향 신호의 특성은 HRTF(Head Related Transfer Function)라고 부르는데 머리표면에서의 회절, 귓바퀴 굴곡에 의한 반사 등 복잡한 경로상의 특성이 음의 도래 방향에 따라 변화하는 현상에 의해 3차원 오디오를 지각하는 것으로 알려져 있다.

이러한 입체음향 원리를 참고하여 본 발명에서는 시청자에 대하여 두 귀간 음의 시간 차이(ITD) 특성의 변형을 시청자의 위상 이격을 고려하여 보상하는 기술을 채택하였다. [도 5]를 참조하면, 본 발명에서 어레이 스피커부(300)는 스피커유닛 어레이(310), 입체음향 처리유닛(320), 지연편차 산출유닛(330), 지연편차 반영유닛(340)를 포함하여 구성된다.

먼저, 스피커유닛 어레이(310)는 UHD 다채널 입체음향(예: NHK 22.2, TTA/USC 10.2, AURO 10.1)을 제공하기 위하여 하우징(100)의 좌우 방향을 따라 다수의 스피커 유닛(311 ~ 314)이 배열 구성되어 있다.

입체음향 처리유닛(320)은 이들 다수의 스피커 유닛(311 ~ 314)을 개별 지연시간을 적용하여 제어하고 독자적인 증폭 회로로 구동하여 다채널 사운드빔을 통한 입체음향을 제공한다. 사운드바에 어레이 스피커를 배치하고 이를 이용하여 다채널 입체음향을 제공하는 기술은 이미 구현되어 있기에 본 명세서에서는 입체음향 처리유닛(320)에 대한 자세한 기술은 생략한다.

지연편차 산출유닛(330)은 이격 벡터에 기초하여 스피커 유닛(311 ~ 314)의 각각에 대해 장치 전면 중앙에 위치하는 가상 시청자에 대비하여 음향 출력이 실제 시청자에 도착할 때까지의 시간 편차를 나타내는 음성도달 지연편차를 산출한다. [도 6]을 참조하면, 이격벡터를 중심으로 일련의 스피커 유닛(311 ~ 314)이 좌우로 배치되어 있다.

[도 6]에서와 같이 시청자(41)가 어느 한쪽(예: 좌측)으로 쏠려있는 경우에는, 원래 시청자가 중앙에 위치할 것이라 가정했던 것에 비해, 동일 방향의 스피커 유닛(311, 312)에서 출력된 음향은 경로가 짧아져서 설계보다 좀더 빨리 도달할 것이고, 반대 방향의 스피커 유닛(313, 314)에서 출력된 음향은 경로가 길어져서 설계보다 좀더 늦게 도달할 것이다. 이때, 동일 방향의 스피커 유닛들(311, 312) 간, 그리고 반대 방향의 스피커 유닛들(313, 314) 간에도 짧아지거나 길어지는 정도는 균일하지 않고 조금씩 차이가 난다.

이러한 시간 편차(dt1 ~ dt4)를 본 명세서에서는 '음성도달 지연편차'라고 부르는데, 지연편차 산출유닛(330)은 이격 벡터에 기초하여 스피커 유닛(311 ~ 314)의 각각에 대해 음성도달 지연편차를 산출한다.

지연편차 반영유닛(340)은 이러한 음성도달 지연편차를 보상하도록 스피커 유닛(311 ~ 314)의 각각에 대하여 음향출력 지연시간을 산출한다. 바람직하게는 각각의 스피커 유닛(311 ~ 314)에 대하여 음성도달 지연편차 값과 음향출력 지연시간 값의 합(sum)이 미리 설정한 상수(constant value)가 되도록 음향출력 지연시간을 산출한다. 그리고 나서, 지연편차 반영유닛(340)은 입체음향 처리유닛(320)에 의한 다수의 스피커 유닛(311 ~ 314)의 입체음향 출력 제어에 각각의 음향출력 지연시간을 반영 설정함으로써 해당 시청자(41)에 대하여 위상 이격에 의한 음성도달 지연편차의 영향을 제거한다.

[도 7]은 본 발명에 따른 AI 음성비서 장치에서 어레이 마이크부(400)의 기능적 구성을 나타내는 블록도이고, [도 8]은 본 발명에서 어레이 마이크부(400)에 대한 음성인식 그룹제어를 개념적으로 나타내는 도면이다.

본 발명에 따른 AI 음성비서 장치서 어레이 마이크부(400)는 하우징(100)의 좌우 방향으로 복수의 마이크 유닛(411, 412)이 이격 배치되어 있으며, 시청자의 위상 이격을 나타내는 이격 벡터에 기초하여 마이크 유닛(411, 412)에 음성인식 가중치를 반영하여 음성인식 처리 제어를 수행하는 구성이다.

[도 7]을 참조하면, 본 발명에서 어레이 마이크부(400)는 마이크유닛 어레이(410), 음성인식 처리유닛(420), 가중치 산정유닛(430), 가중치 반영유닛(440)를 포함하여 구성된다.

먼저, 마이크유닛 어레이(410)는 하우징(100)의 좌우 방향으로 복수의 마이크 유닛(411, 412)이 이격 배치되어 있다.

음성인식 처리유닛(420)은 이들 복수의 마이크 유닛(411, 412)으로 입력되는 음성 신호로부터 시청자의 음성 명령어를 인식한다. 사람의 음성을 단일 혹은 둘 이상의 마이크로 입력받아 명령(명령어, 질의어)을 인식하는 기술은 종래의 AI 음성비서 장치에 이미 구현되어 있기에 본 명세서에서는 음성인식 처리유닛(420)에 대한 자세한 기술은 생략한다.

가중치 산정유닛(430)은 시청자의 위상 이격에 대한 정보를 담고 있는 이격 벡터에 기초하여 마이크 유닛(411, 412)의 각각에 대해 시청자의 음성(voice)이 각각의 마이크 유닛(411, 412)에 도달할 때까지 겪게되는 감쇄 편차에 대응하여 음성인식 가중치를 산출한다.

[도 8]을 참조하면, 시청자(41)가 음성으로 명령을 내렸을 때에, 시청자(41)에 근접한 위치에 놓여진 마이크 유닛(예: 411)에서 얻은 음향에는 시청자의 보이스 성분이 많을 것이고, 반대로 시청자로부터 떨어진 위치에 놓여진 마이크 유닛(예: 412)에서 얻은 음향에는 시청자의 보이스 성분은 적고 노이즈 성분은 많을 것이다. 이러한 점을 감안하여, 음성인식의 오류를 줄이기 위해, 본 발명에서는 시청자와 근접한 위치에 있는 마이크 유닛(예: 411)에 대해서는 높은 가중치를 할당하고, 시청자와 멀리 떨어진 위치에 있는 마이크 유닛(예: 412)에 대해서는 낮은 가중치를 할당한다.

이때, 거리에 따른 소리 감쇄 편차에 대응하여 음성인식 가중치를 산정하여 할당하는 것이 바람직하다. 일반적으로는 거리 제곱에 대한 로그스케일로 음압이 감쇄하므로 이에 맞게 가중치를 산정한다.

가중치 반영유닛(440)은 음성인식 처리유닛(420)에 의한 음성 명령어 인식에 복수의 마이크 유닛(411, 412)으로 입력되는 음성 신호 입력에 대해 각각의 음성인식 가중치를 반영 설정한다. 가중치가 미리 설정된 임계치 이하인 경우에는 해당 마이크 유닛(예: 412)에서 들어오는 음성 신호 입력은 노이즈가 대부분인 것으로 보고 완전히 무시하는 구성도 가능하다.

한편, 본 발명은 컴퓨터가 읽을 수 있는 비휘발성 기록매체에 컴퓨터가 읽을 수 있는 코드의 형태로 구현되는 것이 가능하다. 이러한 비휘발성 기록매체로는 다양한 형태의 스토리지 장치가 존재하는데 예컨대 하드디스크, SSD, CD-ROM, NAS, 자기테이프, 웹디스크, 클라우드 디스크 등이 있고 네트워크로 연결된 다수의 스토리지 장치에 코드가 분산 저장되고 실행되는 형태도 구현될 수 있다. 또한, 본 발명은 하드웨어와 결합되어 특정의 절차를 실행시키기 위하여 매체에 저장된 컴퓨터프로그램의 형태로 구현될 수도 있다.

10 : 디지털 TV
11, 12 : 텔레비전 스피커
20 : AI 음성비서 장치
30 : 오디오
40 ~ 42 : 시청자
50 : 콘텐츠 서버
100 : 하우징
200 : 카메라 처리부
210 : 카메라 촬영유닛
211 : 카메라
220 : 객체영상 추출유닛
230 : 시청거리 산출유닛
240 : 이격벡터 산출유닛
300 : 어레이 스피커부
310 : 스피커유닛 어레이
311 ~ 314 : 스피커 유닛
320 : 입체음향 처리유닛
330 : 지연편차 산출유닛
340 : 지연편차 반영유닛
400 : 어레이 마이크부
410 : 마이크유닛 어레이
411, 412 : 마이크 유닛
420 : 음성인식 처리유닛
430 : 가중치 산정유닛
440 : 가중치 반영유닛

Claims

UHD 방송 수신을 지원하기 위한 AI 음성비서 장치로서,
좌우 방향으로 길다란 사운드바 형태의 장치 외관을 구성하는 하우징(100);
장치 전면을 촬영한 이미지(이하, '시청자 촬영 이미지'라 함)로부터 시청 거리와 좌우 이격거리를 추출하여 시청자 위치의 위상 이격을 나타내는 이격 벡터를 산출하는 카메라 처리부(200);
UHD 다채널 입체음향을 위하여 상기 하우징(100)의 좌우 방향을 따라 다수의 스피커 유닛(311 ~ 314)이 배열된 스피커유닛 어레이(310)를 구비하고, 상기 이격 벡터에 대응하여 상기 스피커 유닛(311 ~ 314)의 각각에 대한 음향출력 지연시간을 산출하고 이를 반영하여 상기 스피커유닛 어레이(310)의 입체음향 출력 제어를 수행하는 어레이 스피커부(300);
상기 하우징(100)의 좌우 방향으로 복수의 마이크 유닛(411, 412)이 이격 배치된 마이크유닛 어레이(410)를 구비하고, 상기 이격 벡터에 기초하여 상기 마이크 유닛(411, 412)의 각각에 대한 음성인식 가중치를 산출하고 이를 반영하여 음성인식 처리 제어를 수행하는 어레이 마이크부(400);
를 포함하여 구성되고,
상기 어레이 마이크부(400)는,
상기 하우징(100)의 좌우 방향으로 복수의 마이크 유닛(411, 412)이 이격 배치된 마이크유닛 어레이(410);
상기 복수의 마이크 유닛(411, 412)으로 입력되는 음성 신호로부터 상기 시청자의 음성 명령어를 인식하는 음성인식 처리유닛(420);
상기 이격 벡터에 기초하여 상기 마이크 유닛(411, 412)의 각각에 대하여 상기 시청자의 음성(voice)이 각각의 마이크 유닛(411, 412)에 도달할 때까지 겪게되는 감쇄 편차에 반비례하도록 음성인식 가중치(weights in voice recognition)를 산출하는 가중치 산정유닛(430);
상기 음성인식 처리유닛(420)에 의한 음성 명령어 인식에 상기 복수의 마이크 유닛(411, 412)으로 입력되는 음성 신호 입력에 대해 상기 각각의 음성인식 가중치를 반영 설정하는 가중치 반영유닛(440);
을 포함하여 구성되는 것을 특징으로 하는 어레이 스피커와 어레이 마이크 기반의 AI 음성비서 장치.
청구항 1에 있어서,
상기 카메라 처리부(200)는,
장치 전면을 촬영하여 시청자 촬영 이미지를 생성하는 카메라 촬영유닛(210);
상기 시청자 촬영 이미지를 분석하여 시청자의 얼굴 이미지를 추출하는 객체영상 추출유닛(220);
상기 얼굴 이미지의 크기에 기초하여 상기 시청자의 시청 거리를 산출하는 시청거리 산출유닛(230);
상기 얼굴 이미지의 위치에 기초하여 상기 시청자의 좌우 이격거리를 추출하고 상기 시청 거리와 상기 좌우 이격거리를 조합하여 상기 시청자에 대한 이격 벡터를 산출하는 이격벡터 산출유닛(240);
을 포함하여 구성되는 것을 특징으로 하는 어레이 스피커와 어레이 마이크 기반의 AI 음성비서 장치.
청구항 1에 있어서,
상기 어레이 스피커부(300)는,
UHD 다채널 입체음향을 위하여 상기 하우징(100)의 좌우 방향을 따라 다수의 스피커 유닛(311 ~ 314)이 배열 구성된 스피커유닛 어레이(310);
상기 다수의 스피커 유닛(311 ~ 314)을 개별 지연시간을 적용하여 제어하고 독자적인 증폭 회로로 구동하여 다채널 사운드빔을 통한 입체음향을 제공하는 입체음향 처리유닛(320);
상기 이격 벡터에 기초하여 상기 스피커 유닛(311 ~ 314)의 각각에 대해 장치 전면 중앙에 위치하는 가상 시청자에 대비하여 음향 출력이 상기 시청자에 도착할 때까지의 시간 편차를 나타내는 음성도달 지연편차를 산출하는 지연편차 산출유닛(330);
상기 음성도달 지연편차를 보상하도록 상기 스피커 유닛(311 ~ 314)의 각각에 대하여 음향출력 지연시간을 산출하고, 상기 입체음향 처리유닛(320)에 의한 상기 다수의 스피커 유닛(311 ~ 314)의 입체음향 출력 제어에 상기 각각의 음향출력 지연시간을 반영 설정하는 지연편차 반영유닛(340);
을 포함하여 구성되는 것을 특징으로 하는 어레이 스피커와 어레이 마이크 기반의 AI 음성비서 장치.
삭제
청구항 1 내지 청구항 3 중 어느 한 항에 있어서,
상기 마이크유닛 어레이(410)은 상기 하우징의 좌우 양 단부에 배치된 스테레오 마이크를 포함하여 구성되는 것을 특징으로 하는 어레이 스피커와 어레이 마이크 기반의 AI 음성비서 장치.