KR20220069611A

KR20220069611A - 전자장치 및 그 제어방법

Info

Publication number: KR20220069611A
Application number: KR1020200156912A
Authority: KR
Inventors: 권재성
Original assignee: 삼성전자주식회사
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2022-05-27
Also published as: WO2022108190A1

Abstract

전자장치는, 수신되는 제1오디오신호에 노이즈를 연관시킨 제2오디오신호를 획득하고, 제1참조데이터에 노이즈를 연관시킨 제2참조데이터에 기초하여, 제2오디오신호가 제1참조데이터의 제1명령어에 노이즈를 연관시킨 제2명령어에 대응하는지 여부를 식별하고, 제2오디오신호가 제2명령어에 대응하는 것으로 식별됨에 기초하여 동작을 수행하는 프로세서를 포함한다.

Description

전자장치 및 그 제어방법 {ELECTRONIC APPARATUS AND CONTROL METHOD THEREOF}

본 발명은 주변 환경에서 집음된 사용자의 발화 오디오에 대한 음성인식이 수행되도록 하여 사용자의 발화에 대응하는 동작을 수행 가능한 전자장치 및 그 제어방법에 관한 것으로서, 상세하게는 노이즈가 있는 주변 환경에서 사용자 발화 오디오를 집음하는 경우에 이 노이즈에 대처하기 위한 전자장치 및 그 제어방법에 관한 것이다.

소정의 정보를 특정 프로세스에 따라서 연산 및 처리하기 위해, 연산을 위한 CPU, 칩셋, 메모리 등의 전자부품들을 기본적으로 포함하는 전자장치는, 처리 대상이 되는 정보 또는 사용 용도가 무엇인지에 따라서 다양한 종류로 구분될 수 있다. 예를 들면, 전자장치에는 범용의 정보를 처리하는 PC나 서버 등의 정보처리장치, 영상데이터를 처리하는 영상처리장치, 오디오를 처리하는 오디오장치, 가정 내 잡무를 수행하는 생활가전 등이 있다. 영상처리장치는 처리된 영상데이터를 자체 구비한 디스플레이 패널(display panel) 상에 영상으로 표시하는 디스플레이장치로 구현될 수 있다. 이와 같은 전자장치는 사용자의 편의를 위해 다양한 기능을 구비할 수 있는 바, 예를 들면 입력되는 주변 환경에서 집음되는 사용자 발화가 음성인식되도록 하여 사용자 발화가 지시하는 동작을 수행할 수 있다.

사용자 발화에 대한 음성인식의 결과의 신뢰성을 높이기 위해서 고려되어야 할 사항은 여러 가지가 있다. 이러한 사항의 예를 들면, 마이크로폰을 통해 집음된 오디오에서 사용자가 발화한 오디오성분을 정확하게 추출하는 것이나, 추출된 오디오성분을 발화한 사용자가 누구인지를 식별하는 것 등이 있다. 전자장치는 이와 같은 사항들에 관한 정확도가 높아지도록 해야 하는데, 주요 장애가 되는 요소로는 노이즈가 있다. 발화 사용자를 식별하는 경우를 예로 들면, 전자장치는 사전에 특정된 사용자의 발화에 의한 제1오디오를 등록하여 사용자 식별용 모델로 생성하고, 차후 음성인식을 위해 누군가가 발화한 제2오디오가 수신되면 제2오디오를 사용자 식별용 모델과 대비시킴으로써 제2오디오를 발화한 사용자를 식별한다.

그런데, 이와 같은 식별 방법의 경우에, 사용자 식별용 모델을 생성하기 위해 제1오디오를 집음하는 제1시점의 집음 환경과, 음성인식을 위해 제2오디오를 집음하는 제2시점의 집음 환경 사이에 노이즈로 인한 차이가 발생한다. 제1시점의 집음 환경은 통상적으로 노이즈가 최소화된 상태인 반면, 제2시점의 집음 환경은 경우에 따라서는 사전에 예측하기 곤란할 정도의 노이즈가 있는 상태일 수 있다. 이러한 집음 환경의 차이 때문에, 사용자 식별용 모델을 사용한 발화 사용자의 식별방법은 정확도가 떨어지게 된다.

상기한 방법의 보완책으로서, 다양한 노이즈 환경을 예측하여 많은 노이즈 데이터를 사전에 마련하고, 이들을 참조하여 정확도를 높일 수도 있다. 그러나, 사용자가 경험할 수 있는 모든 노이즈 환경을 예측하는 것은 곤란하며, 또한 노이즈 환경의 예측이 가능하다고 하더라도 많은 노이즈 데이터를 사용하는 것은 여러 가지로 시스템에 부담이 된다.

따라서, 다양한 종류의 노이즈가 있을 수 있는 집음 환경에서, 가능한 한 시스템의 부담을 줄이면서도, 발화한 사용자의 식별 정확도를 높일 수 있는 전자장치가 요구될 수 있다.

본 발명의 실시예에 따른 전자장치는, 수신되는 제1오디오신호에 노이즈를 연관시킨 제2오디오신호를 획득하고, 제1참조데이터에 상기 노이즈를 연관시킨 제2참조데이터에 기초하여, 상기 제2오디오신호가 상기 제1참조데이터의 제1명령어에 상기 노이즈를 연관시킨 제2명령어에 대응하는지 여부를 식별하고, 상기 제2오디오신호가 상기 제2명령어에 대응하는 것으로 식별됨에 기초하여 동작을 수행하는 프로세서를 포함한다.

또한, 상기 프로세서는, 상기 제2오디오신호가 상기 제2명령어에 대응하는 것으로 식별됨에 기초하여, 상기 제1오디오신호를 발화한 사용자를 상기 제1명령어에 대응하는 사용자로 식별할 수 있다.

또한, 상기 프로세서는, 상기 제2오디오신호가 상기 제2명령어에 대응하지 않는 것으로 식별됨에 기초하여, 상기 제1오디오신호를 발화한 사용자의 식별 실패에 대응하는 메시지를 제공할 수 있다.

또한, 상기 프로세서는, 상기 제2명령어 및 상기 제2오디오신호 사이의 유사도가 기 설정값을 초과하는 것에 기초하여 상기 제2오디오신호가 상기 제2명령어에 대응하는 것으로 식별할 수 있다.

또한, 상기 프로세서는, 상기 제1명령어 및 상기 제1오디오신호 사이의 유사도가 제1설정값을 초과하는 것에 기초하여 상기 제1오디오신호가 상기 제1명령어에 대응하는 것으로 식별할 수 있다.

또한, 상기 프로세서는, 상기 제2명령어 및 상기 제1오디오신호 사이의 유사도가 제2설정값을 초과하는 것에 기초하여 상기 제1오디오신호가 상기 제1명령어에 대응하는 것으로 식별할 수 있다.

또한, 상기 프로세서는, 상기 노이즈가 배제된 주변 환경에서 사용자에 의해 발화된 상기 제1명령어를 획득하여 상기 제1참조데이터에 등록할 수 있다.

또한, 상기 프로세서는, 상기 제1명령어 및 상기 노이즈에 기초하는 상기 제2명령어를 획득하여 상기 제2참조데이터에 등록할 수 있다.

또한, 상기 프로세서는, 상기 제1오디오신호 및 상기 노이즈에 기초하여 상기 제2오디오신호를 획득할 수 있다.

또한, 상기 제2명령어를 획득하기 위한 상기 노이즈의 데이터 및 상기 제2오디오신호를 획득하기 위한 상기 노이즈의 데이터는 동일할 수 있다.

또한, 상기 프로세서는 마이크셋을 통해 획득되는 오디오신호로부터 상기 노이즈의 데이터를 획득할 수 있다.

또한, 본 발명의 실시예에 따른 전자장치의 제어방법은, 수신되는 제1오디오신호에 노이즈를 연관시킨 제2오디오신호를 획득하는 단계와, 제1참조데이터에 상기 노이즈를 연관시킨 제2참조데이터에 기초하여, 상기 제2오디오신호가 상기 제1참조데이터의 제1명령어에 상기 노이즈를 연관시킨 제2명령어에 대응하는지 여부를 식별하는 단계와, 상기 제2오디오신호가 상기 제2명령어에 대응하는 것으로 식별됨에 기초하여 동작을 수행하는 단계를 포함한다.

도 1은 전자장치의 구성 블록도이다.
도 2는 전자장치가 사용자 발화를 집음하는 여러 방법을 나타내는 예시도이다.
도 3은 전자장치의 제어방법을 나타내는 플로우차트이다.
도 4는 전자장치가 제1참조데이터를 생성하도록 안내하는 UI를 표시하는 경우의 예시도이다.
도 5는 제1참조데이터로부터 노이즈데이터와 관련된 제2참조데이터를 생성하는 원리를 나타내는 예시도이다.
도 6은 제1참조데이터에 복수의 노이즈데이터를 반영하여 복수의 제2참조데이터를 생성하는 방법을 나타내는 예시도이다.
도 7은 전자장치가 제1참조데이터 및 제2참조데이터에 기초한 발화 사용자의 식별 프로세스를 나타내는 플로우차트이다.
도 8은 제1오디오신호, 제1명령어 및 제2명령어의 각 문턱값에 의한 유사도 관련 범위를 평면 상에 나타내는 예시도이다.

이하에서는 첨부도면을 참조하여 본 발명에 따른 실시예들에 관해 상세히 설명한다. 각 도면을 참조하여 설명하는 실시예들은 특별한 언급이 없는 한 상호 배타적인 구성이 아니며, 하나의 장치 내에서 복수 개의 실시예가 선택적으로 조합되어 구현될 수 있다. 이러한 복수의 실시예의 조합은 본 발명의 기술분야에서 숙련된 기술자가 본 발명의 사상을 구현함에 있어서 임의로 선택되어 적용될 수 있다.

만일, 실시예에서 제1구성요소, 제2구성요소 등과 같이 서수를 포함하는 용어가 있다면, 이러한 용어는 다양한 구성요소들을 설명하기 위해 사용되는 것이며, 용어는 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용되는 바, 이들 구성요소는 용어에 의해 그 의미가 한정되지 않는다. 실시예에서 사용하는 용어는 해당 실시예를 설명하기 위해 적용되는 것으로서, 본 발명의 사상을 한정하지 않는다.

또한, 본 명세서에서의 복수의 구성요소 중 "적어도 하나(at least one)"라는 표현이 나오는 경우에, 본 표현은 복수의 구성요소 전체 뿐만 아니라, 복수의 구성요소 중 나머지를 배제한 각 하나 혹은 이들의 조합 모두를 지칭한다.

도 1은 전자장치의 구성 블록도이다.

도 1에 도시된 바와 같이, 사용자 발화를 음성인식하여 처리하기 위한 시스템은, 사용자의 발화를 집음하는 전자장치(100)와, 전자장치(100)가 집음한 오디오신호의 음성인식을 수행하여 전자장치(100)가 사용자의 발화에 대응하는 동작을 수행하도록 하는 서버(200)를 포함한다. 본 실시예에서는 음성인식이 이루어지는 여러 방식 중에서 서버(200)가 음성인식을 수행하는 방식에 관해 설명하지만, 음성인식 시스템의 형태가 본 실시예에 의해 한정되는 것은 아니다. 예를 들면, 전자장치(100)는 집음된 오디오신호를 서버(200)에 전송하지 않고, 자체적으로 음성인식을 수행할 수도 있다.

전자장치(100)는 다양한 종류로 구현될 수 있는 바, 예를 들면 TV, 모니터, 디지털 사이니지(signage), 전자칠판, 전자액자 등을 포함하는 고정형 디스플레이장치이거나; 셋탑박스, 광학 멀티미디어 재생기기 등을 포함하는 영상처리장치이거나; 컴퓨터본체 등을 포함하는 정보처리장치이거나; 스마트폰, 태블릿기기 등을 포함하는 모바일기기이거나; 카메라, 캠코더 등을 포함하는 촬상기기이거나; 세탁기, 냉장고, 의류관리기기, 공기조화기, 전기청소기 등을 포함하는 생활가전이거나; 사용자가 신체에 착용하게 마련된 웨어러블 디바이스(wearable device)이거나; 허브, 게이트웨이, 라우터, AP 등의 통신기기 등의 다양한 종류의 장치로 구현될 수 있다.

전자장치(100) 및 서버(200)는 동작을 위해 다양한 하드웨어 요소들을 포함한다. 본 실시예에서는 전자장치(100)가 TV인 경우에 관해 설명한다. 다만, 전자장치(100)는 앞서 설명한 바와 같은 다양한 종류의 장치로 구현될 수 있는 바, 이하 설명하는 구성은 전자장치(100)가 어떤 종류로 구현되는가에 따라서 달라질 수 있다.

전자장치(100)는 인터페이스부(110)를 포함할 수 있다. 인터페이스부(110)는 전자장치(100)가 서버(200)를 비롯한 다양한 외부장치와 통신을 수행하고, 또한 데이터를 송수신하기 위한 인터페이스 회로를 포함한다. 인터페이스부(110)는 연결 방식에 따라서, 유선 통신연결을 위한 하나 이상의 유선인터페이스부(111), 또는 무선 통신연결을 위한 하나 이상의 무선인터페이스부(112) 중 적어도 하나를 포함한다.

유선인터페이스부(111)는 기 정의된 전송규격의 케이블이 접속되는 커넥터 또는 포트를 포함한다. 예를 들면, 유선인터페이스부(111)는 방송신호를 수신하도록 지상파 또는 위성방송 안테나에 접속되거나 케이블방송의 케이블이 접속되는 포트를 포함한다. 또는, 유선인터페이스부(111)는 다양한 영상처리장치와 접속하도록 HDMI, DP(DisplayPort), DVI, 컴포넌트, 컴포지트, S-Video, 썬더볼트(Thunderbolt) 등 다양한 유선전송규격의 케이블이 접속되는 포트를 포함한다. 또는, 유선인터페이스부(111)는 USB 기기와 접속하기 위한 USB 규격의 포트를 포함한다. 또는, 유선인터페이스부(111)는 광케이블이 접속되는 광포트를 포함한다. 또는, 유선인터페이스부(111)는 외부 마이크로폰이 접속되는 오디오 입력 포트와, 헤드셋, 이어폰, 외부 스피커 등이 접속되는 오디오 출력 포트를 포함한다. 또는, 유선인터페이스부(111)는 광역 네트워크에 접속하기 위해 게이트웨이, 라우터, 허브 등에 접속하는 이더넷 포트를 포함한다.

무선인터페이스부(112)는 다양한 종류의 무선통신 프로토콜에 대응하는 통신모듈, 통신칩 등의 구성요소들 중 적어도 하나 이상을 포함하는 양방향 통신회로를 포함한다. 예를 들면, 무선인터페이스부(112)는 와이파이(Wi-Fi) 방식에 따라서 AP(Access Point)와 무선통신을 수행하는 와이파이 통신칩과, 블루투스, Zigbee, Z-Wave, WirelessHD, WiGig, NFC 등의 무선통신을 수행하는 통신칩, IR 통신을 위한 IR 모듈, 모바일기기와 이동통신을 수행하는 이동통신칩 등을 포함한다.

전자장치(100)는 디스플레이부(120)를 포함할 수 있다. 디스플레이부(120)는 프로세서(170)에 의해 처리되는 영상신호를 영상으로 표시하기 위한 화면을 형성한다. 디스플레이부(120)는 디스플레이 패널을 포함하는데, 디스플레이 패널의 구조에는 여러 가지 설계방식이 적용될 수 있다. 예를 들면, 디스플레이부(120)는 액정과 같은 수광형 구조의 디스플레이 패널 및 이에 광을 제공하는 백라이트를 포함할 수 있다. 또는, 디스플레이부(120)는 OLED와 같은 자발광 구조의 디스플레이 패널을 포함할 수 있다. 또는, 디스플레이부(120)는 복수의 마이크로 LED 모듈이 타일 형태로 조합되어 대화면을 형성하는 구조일 수도 있다.

전자장치(100)는 사용자입력부(130)를 포함할 수 있다. 사용자입력부(130)는 사용자의 입력을 수행하기 위해 사용자가 조작할 수 있도록 마련된 다양한 종류의 사용자 입력 인터페이스 관련 회로를 포함한다. 사용자입력부(130)는 전자장치(100)의 종류에 따라서 여러 가지 형태의 구성이 가능하며, 예를 들면 전자장치(100)의 기계 버튼부 또는 전자 버튼부, 다양한 종류의 센서, 터치패드, 디스플레이에 설치된 터치스크린 등을 포함한다. 또는, 사용자입력부(130)는 전자장치(100)와 분리되며 인터페이스부(110)를 통해 연결된 키보드, 마우스, 리모트 컨트롤러 등과 같은 외부입력기기 등을 포함할 수도 있다.

전자장치(100)는 저장부(140)를 포함할 수 있다. 저장부(140)는 디지털화된 데이터를 저장한다. 저장부(140)는 전원의 제공 유무와 무관하게 데이터를 보존할 수 있는 비휘발성 속성의 스토리지(storage)와, 프로세서(170)에 의해 처리되기 위한 데이터가 로딩되며 전원이 제공되지 않으면 데이터를 보존할 수 없는 휘발성 속성의 메모리(memory)를 포함한다. 스토리지에는 플래시메모리(flash-memory), HDD(hard-disc drive), SSD(solid-state drive) ROM(Read Only Memory) 등이 있으며, 메모리에는 버퍼(buffer), 램(RAM; Random Access Memory) 등이 있다.

전자장치(100)는 스피커(150)를 포함할 수 있다. 스피커(150)는 프로세서(170)가 소정의 컨텐트를 재생할 때에, 해당 컨텐트의 오디오신호를 음향으로 출력한다. 스피커(150)는 전자장치(100)에 설치되거나, 또는 별도의 장치로 마련될 수도 있다. 스피커(150)가 별도의 장치로 마련되는 경우에 스피커(150)는 인터페이스부(110)에 연결되며, 오디오신호는 인터페이스부(110)를 통해 스피커(150)에 전달된다.

전자장치(100)는 마이크로폰 또는 마이크셋(160)을 포함할 수 있다. 마이크셋(160)은 전자장치(100)의 주변 환경에서 발생하는 소리를 수집하여 오디오신호를 생성하고, 이 오디오신호를 프로세서(170)에 전달한다. 본 실시예에서는, 마이크셋(160)이 사용자입력부(130)와 별개의 구성요소인 것으로 설명하였으나, 설계 방식에 따라서는 마이크셋(160)이 사용자입력부(130)에 포함되는 구성으로 간주될 수도 있다.

전자장치(100)는 프로세서(170)를 포함할 수 있다. 프로세서(170)는 인쇄회로기판 상에 장착되는 CPU, 칩셋, 버퍼, 회로 등으로 구현되는 하나 이상의 하드웨어 프로세서를 포함하며, 설계 방식에 따라서는 SOC로 구현될 수도 있다. 전자장치(100)가 디스플레이장치인 경우에, 프로세서(170)는 영상컨텐트를 영상으로 표시하기 위해 디멀티플렉서, 디코더, 스케일러, 오디오 DSP(Digital Signal Processor), 앰프 등의 다양한 프로세스에 대응하는 모듈들을 포함한다. 여기서, 이러한 모듈들 중 일부 또는 전체가 SOC로 구현될 수 있다. 예를 들면, 디멀티플렉서, 디코더, 스케일러 등 영상처리와 관련된 모듈이 영상처리 SOC로 구현되고, 오디오 DSP는 SOC와 별도의 칩셋으로 구현되는 것이 가능하다. 프로세서(170)는 소정의 컨텐트를 재생시켜, 컨텐트의 영상이 디스플레이부(120)에 표시되도록 하는 한편, 컨텐트의 오디오가 스피커(150)를 통해 음향으로 출력되도록 한다.

본 실시예에 따른 프로세서(170)는 마이크셋(160)을 통해 집음되는 오디오로부터 사용자 발화에 의한 음원성분을 추출하고, 해당 음원성분의 오디오신호를 인터페이스부(110)를 통해 서버(200)에 전달한다. 프로세서(170)는 서버(200)로부터 오디오신호의 음성인식 결과를 수신하면, 해당 음성인식 결과에 따른 동작을 수행한다. 또는, 설계 방식에 따라서는 프로세서(170)가 음성인식을 수행할 수도 있다. 이 경우에 프로세서(170)는 사용자 발화에 의한 음원성분에 대한 음성인식을 수행하고, 해당 음성인식 결과에 따른 동작을 수행한다.

서버(200) 또한, 인터페이스부(210), 유선인터페이스부(211), 무선인터페이스부(212), 사용자입력부(230), 저장부(240), 프로세서(270) 등의 하드웨어 요소들을 포함한다. 서버(200)의 이러한 구성요소들은 앞서 전자장치(100)에서 설명한 동일 명칭의 구성요소들과 기본적으로 유사한 것들이므로, 자세한 설명을 생략한다.

프로세서(270)는 전자장치(100)로부터 수신되는 오디오신호에 대한 음성인식처리를 수행하고, 음성인식처리 결과를 전자장치(100)에 전송한다. 여기서, 음성인식 처리는 다양한 하위 단계를 포함할 수 있는데, 프로세서(270)가 이러한 여러 하위 단계를 모두 처리할 수도 있고, 별도의 다른 장치와 각 하위 단계를 분담하여 처리할 수도 있다. 예를 들면, 음성인식 처리가 오디오신호를 텍스트로 변환하는 STT(Speech-to-Text) 처리에 관한 제1단계 및 텍스트의 내용에 기반하여 커맨드를 도출하는 의미분석 처리에 관한 제2단계로 구분되어 있다고 할 때, 프로세서(270)가 제1단계 및 제2단계를 모두 수행할 수 있다. 또는, 서버(200)와 통신하는 별도의 STT 서버가 제1단계를 수행하고, 프로세서(270)가 제2단계를 수행할 수도 있다. 이 과정에서, 서버(200)가 STT 서버로부터 직접 텍스트를 수신할 수도 있고, 전자장치(100)가 STT 서버로부터 텍스트를 수신하여 서버(200)에 전달할 수도 있다. 즉, 전자장치(100)는 독자적으로 STT 처리 및 의미분석 처리를 모두 수행할 수도 있고, 제1기기(200)로부터 수신되는 오디오신호를 STT 서버에 전송하여 STT서버로부터 텍스트를 수신하고, 텍스트에 대한 의미분석 처리를 수행할 수도 있다.

또는, 전자장치(100)가 음성인식 처리를 처리하는 경우, 전자장치(100)의 프로세서(170)가 상기한 음성인식 처리의 제1단계 및 제2단계를 모두 수행할 수 있다. 또는, 전자장치(100)는 오디오신호를 STT 서버에 전송하여 STT 서버가 제1단계를 수행하고, STT 서버로부터 수신되는 텍스트를 가지고 제2단계를 수행할 수도 있다.

한편, 전자장치(100)가 주변 환경에서 집음하는 방법은 여러 가지가 가능한 바, 이하 오디오신호를 수신하는 여러 예시에 관해 설명한다.

도 2는 전자장치가 사용자 발화를 집음하는 여러 방법을 나타내는 예시도이다.

도 2에 도시된 바와 같이, 사용자 발화를 수집하는 한 가지 예시로서, 전자장치(100)는 전자장치(100)의 본체에 구비된 마이크셋(160)을 통해 주변 환경의 소리를 수집한다. 마이크셋(160)은 수집되는 주변 환경의 소리에 기반한 오디오신호를 프로세서(170)에 전달한다. 마이크셋(160)은 항시 주변 환경의 소리를 수집하도록 활성화될 수 있다. 또는, 마이크셋(160)은 소리를 수집하지 않도록 비활성화 또는 대기모드에 있다가, 특정한 조건이 충족되면 소리를 수집하도록 활성화될 수 있다. 상기한 조건은 설계 방식에 따라서 여러 가지가 가능하며, 예를 들면 주변 환경에서 발생하는 소음 레벨이 소정 문턱값을 넘는 경우가 해당될 수 있다. 물론, 마이크셋(160)의 활성화 및 비활성화의 전환은, 사용자 입력에 의해서 수행될 수도 있다.

사용자 발화를 수집하는 다른 예시로서, 전자장치(100)와 분리된 리모트 컨트롤러(180)에 마이크셋(181)이 구비되고, 마이크셋(181)을 통해 주변 환경의 소리를 수집할 수도 있다. 리모트 컨트롤러(180)는 통상적으로 사용자에게 가까이 있는 경우가 많으므로, 리모트 컨트롤러(180)에 마련된 마이크셋(181)이 전자장치(100)의 본체에 설치되는 마이크셋(160)보다 사용자의 발화를 보다 명확하게 수집할 수 있다. 리모트 컨트롤러(180)는 마이크셋(181)을 통해 수집되는 소리의 오디오신호를 소정의 전송규격에 기반한 캐리어신호로 변환하여 무선인터페이스부(112)에 전송한다. 무선인터페이스부(112)에 수신되는 캐리어신호는 오디오신호로 변환되어 프로세서(170)에 전달된다.

리모트 컨트롤러(180)의 마이크셋(181)이 활성화 및 비활성화 사이를 전환되는 방식은 설계 방식에 따라서 다양한 예시가 가능하다. 리모트 컨트롤러(180)는 외부 전원이 연결되어 있는 것이 아니라 내장된 배터리로 동작하므로, 마이크셋(181)을 항시 활성화시킨 상태로 두는 것은 전력효율 측면에서 이슈가 발생할 수 있다.

한 가지 예시로서, 리모트 컨트롤러(180)에는 마이크셋(181)의 활성화 및 비활성화 사이를 전환시키는 토글 버튼이 마련될 수 있다. 사용자의 의한 토글 버튼의 조작에 따라서, 리모트 컨트롤러(180)는 마이크셋(181)을 활성화 또는 비활성화시킬 수 있다.

다른 예시로서, 앞서 설명한 전자장치(100)에 구비된 마이크셋(160)과 유사한 방식으로, 리모트 컨트롤러(180)는 마이크셋(181)을 활성화 여부를 제어할 수도 있다. 예를 들면, 마이크셋(181)은 소리를 수집하지 않도록 비활성화 또는 대기모드에 있다가, 주변 환경에서 발생하는 소음 레벨이 소정 문턱값을 넘는 경우와 같이 특정한 조건이 충족되면 소리를 수집하도록 활성화될 수도 있다.

또는, 사용자 발화를 수집하는 다른 예시로서, 스마트폰이나 태블릿기기와 같은 모바일기기(190)에 마이크셋(191)이 구비된 경우, 마이크셋(191)을 통해 주변 환경의 소리를 수집할 수도 있다. 모바일기기(190)는 전자장치(100)와 연관된 소프트웨어를 인스톨함으로써 전자장치(100)와 연관된 동작을 수행할 수 있다. 예를 들면, 전자장치(100)가 TV인 경우에, 모바일기기(190)에는 TV 제어를 위한 전용 어플리케이션이 운영체제 상에 인스톨될 수 있다. 모바일기기(190)는 해당 어플리케이션이 동작하는 환경 하에서 마이크셋(191)을 통해 수집된 소리의 오디오신호를 전자장치(100)에 전달할 수 있다. 모바일기기(190)는 오디오신호를 캐리어신호로 전환하여 무선인터페이스부(112)에 무선 전송한다. 무선인터페이스부(112)에 수신된 캐리어신호는 오디오신호로 전환되어 프로세서(170)에 전달된다.

이와 같이, 전자장치(100)는 다양한 방식을 통해 주변 환경의 소리에 대응하는 오디오신호를 획득한다.

이하, 본 실시예에 따른 전자장치(100)의 동작에 관해 설명한다.

도 3은 전자장치의 제어방법을 나타내는 플로우차트이다.

도 1 및 도 3에 도시된 바와 같이, 전자장치(100)의 프로세서(170)에 의해 수행되는 동작에 관해 설명한다.

310 단계에서 전자장치(100)는 주변 환경에서 집음된 제1오디오신호를 수신한다. 제1오디오신호는, 예를 들면 마이크셋(160)을 통해 집음됨으로써 생성된다.

320 단계에서 전자장치(100)는 소정의 제1명령어와의 유사성 판단을 위해 마련된 제1참조데이터에 기초하여, 제1오디오신호가 제1명령어에 대응하는지 여부를 식별한다. 제1참조데이터는, 예를 들면 노이즈가 최소화된, 또는 노이즈가 배제된 환경(편의상 클린 환경이라고 지칭)하에서 사용자에 의해 발화된 제1명령어가 전자장치(100)에 등록됨으로써 생성된 정보(예를 들면, DB, 테이블, 모델 등)에 해당한다.

330 단계에서 전자장치(100)는 제1오디오신호에 노이즈를 연관시킨 제2오디오신호를 획득한다. 제2오디오신호는, 예를 들면 사전에 마련된 노이즈 데이터가 제1오디오신호에 믹싱됨으로써 생성된다. 즉, 제2오디오신호가 집음되는 환경은 제1오디오신호가 집음되는 환경에 해당 노이즈가 추가되어 있는 경우와 실질적으로 동일하다.

340 단계에서 전자장치(100)는 제1명령어에 노이즈를 연관시킨 제2명령어와의 유사성 판단을 위해 마련된 제2참조데이터에 기초하여, 제2오디오신호가 제2명령어에 대응하는지 여부를 식별한다. 제2참조데이터는, 예를 들면 사전에 마련된 노이즈 데이터가 제1명령어에 믹싱됨으로써 생성된다. 여기서, 340 단계에서의 노이즈는 330 단계에서의 노이즈와 동일한 노이즈 데이터이다.

350 단계에서 전자장치(100)는 제1오디오신호가 제1명령어에 대응하는 것 또는 제2오디오신호가 제2명령어에 대응하는 것으로 식별되는 것에 기초하여 기 설정된 동작을 수행한다. 기 설정된 동작은, 예를 들면 제1오디오신호를 발화한 사용자의 식별 동작일 수 있으나, 어느 한 가지 경우로 한정되지 않고 사전 설계된 다양한 동작일 수 있다.

이와 같이, 본 실시예에 따른 전자장치(100)는 사용자 발화 오디오를 집음하여 음성인식이 수행되는 환경 하에서, 집음된 오디오의 식별 정확도를 높일 수 있다. 본 정확도는 집음된 오디오에 관련된 다양한 사항에 관한 것일 수 있는 바, 예를 들면 집음된 오디오를 발화한 사용자의 식별에 관한 것일 수도 있고, 집음된 오디오 내에서 사용자가 발화한 음원성분의 추출에 관한 것일 수도 있다.

한편, 전자장치(100)의 프로세서(170)는 상기와 같이 제1참조데이터에 기초하여 제1오디오신호가 제1명령어에 대응하는지 여부를 식별하는 동작, 제2참조데이터에 기초하여 제2오디오신호가 제2명령어에 대응하는지 여부를 식별하는 동작을 수행하기 위한 데이터 분석, 처리, 및 결과 정보 생성 중 적어도 일부를 규칙 기반 또는 인공지능(Artificial Intelligence) 알고리즘으로서 기계학습, 신경망 네트워크(neural network), 또는 딥러닝 알고리즘 중 적어도 하나를 이용하여 수행할 수 있다.

일 예로, 전자장치(100)의 프로세서(170)는 학습부 및 인식부의 기능을 함께 수행할 수 있다. 학습부는 학습된 신경망 네트워크를 생성하는 기능을 수행하고, 인식부는 학습된 신경망 네트워크를 이용하여 데이터를 인식(또는, 추론, 예측, 추정, 판단)하는 기능을 수행할 수 있다. 학습부는 신경망 네트워크를 생성하거나 갱신할 수 있다. 학습부는 신경망 네트워크를 생성하기 위해서 학습 데이터를 획득할 수 있다. 일 예로, 학습부는 학습 데이터를 전자장치(100)의 저장부 또는 외부로부터 획득할 수 있다. 학습 데이터는, 신경망 네트워크의 학습을 위해 이용되는 데이터일 수 있으며, 상기한 동작을 수행한 데이터를 학습데이터로 이용하여 신경망 네트워크를 학습시킬 수 있다.

학습부는 학습 데이터를 이용하여 신경망 네트워크를 학습시키기 전에, 획득된 학습 데이터에 대하여 전처리 작업을 수행하거나, 또는 복수 개의 학습 데이터들 중에서 학습에 이용될 데이터를 선별할 수 있다. 일 예로, 학습부는 학습 데이터를 기 설정된 포맷으로 가공하거나, 필터링하거나, 또는 노이즈를 추가/제거하여 학습에 적절한 데이터의 형태로 가공할 수 있다. 학습부는 전처리된 학습 데이터를 이용하여 상기한 동작을 수행하도록 설정된 신경망 네트워크를 생성할 수 있다.

학습된 신경망 네트워크는, 복수의 신경망 네트워크(또는, 레이어)들로 구성될 수 있다. 복수의 신경망 네트워크의 노드들은 가중치를 가지며, 복수의 신경망 네트워크들은 일 신경망 네트워크의 출력 값이 다른 신경망 네트워크의 입력 값으로 이용되도록 서로 연결될 수 있다. 신경망 네트워크의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN (Bidirectional Recurrent Deep Neural Network) 및 심층 Q-네트워크 (Deep Q-Networks)과 같은 모델을 포함할 수 있다.

한편 인식부는 상기한 동작을 수행하기 위해, 타겟 데이터를 획득할 수 있다. 타겟 데이터는 전자장치(100)의 저장부 또는 외부로부터 획득된 것일 수 있다. 타겟 데이터는 신경망 네트워크의 인식 대상이 되는 데이터일 수 있다. 인식부는 타겟 데이터를 학습된 신경망 네트워크에 적용하기 전에, 획득된 타겟 데이터에 대하여 전처리 작업을 수행하거나, 또는 복수 개의 타겟 데이터들 중에서 인식에 이용될 데이터를 선별할 수 있다. 일 예로, 인식부는 타겟 데이터를 기 설정된 포맷으로 가공하거나, 필터링 하거나, 또는 노이즈를 추가/제거하여 인식에 적절한 데이터의 형태로 가공할 수 있다. 인식부는 전처리된 타겟 데이터를 신경망 네트워크에 적용함으로써, 신경망 네트워크로부터 출력되는 출력값을 획득할 수 있다. 인식부는 출력값과 함께, 확률값 또는 신뢰도값을 획득할 수 있다.

이상 설명한 실시예에서는 전자장치(100)에 의해 모든 동작이 수행되는 경우에 관해 설명하였다. 그러나, 음성인식 시스템에서는 전자장치(100)가 모든 동작을 수행하는 것이 아니라, 전자장치(100)와 통신하는 외부장치, 예를 들면 서버(200)가 일부 동작을 수행하는 경우도 가능하다. 이하, 이러한 실시예에 관해 설명한다.

310 단계에서 전자장치(100)는 주변 환경에서 집음된 제1오디오신호를 수신한다. 전자장치(100)는 수신되는 오디오신호를 서버(200)에 전송한다.

320 단계에서 서버(200)는 소정의 제1명령어와의 유사성 판단을 위해 마련된 제1참조데이터에 기초하여, 제1오디오신호가 제1명령어에 대응하는지 여부를 식별한다.

330 단계에서 서버(200)는 제1오디오신호에 노이즈를 연관시킨 제2오디오신호를 획득한다.

340 단계에서 서버(200)는 제1명령어에 노이즈를 연관시킨 제2명령어와의 유사성 판단을 위해 마련된 제2참조데이터에 기초하여, 제2오디오신호가 제2명령어에 대응하는지 여부를 식별한다.

350 단계에서 서버(200)는 제1오디오신호가 제1명령어에 대응하는 것 또는 제2오디오신호가 제2명령어에 대응하는 것으로 식별되는 것에 기초하여 기 설정된 동작을 수행한다. 예를 들면, 서버(200)는 제1오디오신호가 발화하는 사용자를 식별하고, 식별된 사용자 계정에 관련된 동작 커맨드를 전자장치(100)에 전송함으로써, 전자장치(100)가 해당 커맨드에 따른 동작을 수행하도록 할 수 있다.

이와 같이, 전자장치(100)는 제1오디오신호를 수신하고 제1오디오신호에 따른 최종 결과를 수행하는 반면, 서버(200)가 주요 식별 동작을 수행할 수도 있다.

이하, 상기한 각 단계에서 수행되는 동작의 구체적인 예시에 관해 설명한다.

도 4는 전자장치가 제1참조데이터를 생성하도록 안내하는 UI를 표시하는 경우의 예시도이다.

도 5는 제1참조데이터로부터 노이즈데이터와 관련된 제2참조데이터를 생성하는 원리를 나타내는 예시도이다.

도 4 및 도 5에 도시된 바와 같이, 전자장치(100)는 사전에 제1참조데이터(510) 및 제2참조데이터(520)를 생성하고 이들을 저장한다. 예를 들어, 제1참조데이터(510)는 전자장치(100)의 제조 단계에서 마련될 수도 있다. 또는, 전자장치(100)는 사용자가 전자장치(100)를 구매한 이후에, 사용자의 발화 입력에 기반하여 제1참조데이터(510)를 생성할 수도 있다. 이 경우에, 전자장치(100)는 제1참조데이터(510)를 생성하기 위한 동작을 UI(400) 등을 통해 사용자에게 안내하며, UI(400)의 안내에 따라서 입력되는 오디오에 기반하여 제1참조데이터(510)를 생성한다.

예를 들어, UI(400)는 사용자에게 소정의 제1명령어(511, 512, 513)를 발화하도록 안내하는 메시지, 제1명령어(511, 512, 513)의 발화 개시를 지시하는 메뉴, 제1명령어(511, 512, 513)의 발화 종료를 지시하는 메뉴, 취소를 지시하는 메뉴 등의 옵션을 포함한다. 또한, UI(400)는 제1명령어(511, 512, 513)가 보다 정확히 집음될 수 있도록, 노이즈가 가능한 한 적은 환경(즉, 클린 환경)에서 사용자가 발화하도록 안내하는 메시지를 포함할 수 있다.

UI(400)가 사용자에게 발화하도록 안내하는 제1명령어(511, 512, 513)는 다양한 예시가 마련될 수 있다. 전자장치(100)는 통상적으로 사용자가 자주 사용할 것으로 예측되는 특정 명령어, 예를 들면 "전원을 켜", "전원을 꺼", "볼륨 높여", "볼륨 낮춰", "다음 채널로 바꿔", "이전 채널로 바꿔" 등을 발화하도록 UI(400)를 통해 안내할 수 있다.

전자장치(100)는 소정의 사용자 계정으로 로그인된 동안에 하나 이상의 제1명령어(511, 512, 513)가 수신되면, 이들 제1명령어(511, 512, 513)를 해당 사용자 계정에 대응하게 등록하여 제1참조데이터(510)를 생성한다. 제1참조데이터(510)는, 전자장치(100)에 의해 안내되는 소정 환경(즉, 클린 환경) 하에서 집음된 제1명령어(511, 512, 513)가 식별 가능한 사용자 계정 하에 등록된 데이터 집합체로서, 복수의 사용자 별로 마련될 수 있다. 또는, 전자장치(100)는 복수의 사용자 각각에 의해 발화된 복수의 제1명령어(511, 512, 513)를 각 사용자 계정에 대응하게 등록하여 제1참조데이터(510)를 생성할 수도 있다. 하나의 사용자에 대응하는 제1명령어(511, 512, 513)의 수와 내용은 한정되지 않는다.

이와 같이 제1참조데이터(510)가 생성되면, 전자장치(100)는 사전에 마련된 노이즈 데이터(530)를 제1참조데이터(510)에 연관시킴으로써 제2참조데이터(520)를 생성한다. 노이즈 데이터(530)를 제1참조데이터(510)에 연관시키는 방법은 여러 가지가 가능한데, 한 가지 예시로는 제1참조데이터(510) 내 제1명령어(511, 512, 513)의 데이터에 노이즈 데이터(530)를 믹싱시켜 제2명령어(521, 522, 523)를 생성시키는 방법이 있다. 제1명령어(511, 512, 513)에 노이즈 데이터(530)가 믹싱된 결과는, 해당 노이즈가 있는 환경에서 집음된 제1명령어(511, 512, 513)의 집음 결과와 실질적으로 동일하다. 전자장치(100)는 이와 같이 각 제1명령어(511, 512, 513)에 노이즈 데이터(530)를 믹싱시킴으로써 각 제2명령어(521, 522, 523)를 도출하고, 이와 같이 도출된 제2명령어(521, 522, 523)를 포함하는 제2참조데이터(520)를 생성한다.

본 실시예에서는 하나의 노이즈 데이터(530)를 사용하는 경우에 관해서 설명하지만, 설계 방식에 따라서는 노이즈 데이터(530)가 둘 이상이 마련될 수도 있다. 이하, 노이즈 데이터(530)가 둘 이상인 경우의 제2참조데이터(520)의 생성 방법에 관해 설명한다.

도 6은 제1참조데이터에 복수의 노이즈데이터를 반영하여 복수의 제2참조데이터를 생성하는 방법을 나타내는 예시도이다.

도 6에 도시된 바와 같이, 예를 들어 노이즈 데이터(601, 602, 603)가 세 개가 마련된 경우에, 전자장치(100)는 각 노이즈 데이터(601, 602, 603)를 제1참조데이터(510)에 반영함으로써 세 개의 제2참조데이터(610, 620, 630)를 생성한다. 전자장치(100)는 제1참조데이터(510)의 제1명령어(511)에 노이즈 데이터 #A(601)를 믹싱시킨 제2명령어(611)와의 유사성 판단을 위한 제2참조데이터 #A(610)을 생성하고, 제1명령어(511)에 노이즈 데이터 #B(602)를 믹싱시킨 제2명령어(621)와의 유사성 판단을 위한 제2참조데이터 #A(620)을 생성하고, 제1명령어(511)에 노이즈 데이터 #C(603)를 믹싱시킨 제2명령어(631)와의 유사성 판단을 위한 제2참조데이터 #A(630)을 생성한다.

이와 같이, 전자장치(100)는 사용자 발화에 의한 1개의 제1참조데이터(510) 및 사전에 마련된 N개의(N은 자연수) 노이즈 데이터(601, 602, 603)를 사용하여, N개의 제2참조데이터(610, 620, 630)를 획득할 수 있다. 노이즈 데이터(601, 602, 603)는 전자장치(100)의 제조 단계에서 전자장치(100)의 집음 환경을 고려하여 사전에 마련되어 전자장치(100)에 저장되거나, 서버에 의해 전자장치(100)에 다운로드 형태로 제공할 수 있다. 예를 들면, 전자장치(100)의 다양한 집음 환경이 구현된 상태에서의 실제 집음을 통해 다양한 노이즈 데이터(601, 602, 603)가 마련될 수 있다. 또는, 전자장치(100)의 다양한 집음 환경이 가상의 시뮬레이션을 통해 구현되고, 이 시뮬레이션을 통해 노이즈 데이터(601, 602, 603)가 마련될 수 있다. 또는, 컴퓨터에서 다양한 오디오 관련 소프트웨어를 사용한 작업을 통해 노이즈 데이터(601, 602, 603)가 마련될 수 있다.

또는, 전자장치(100)는 사용 중에 집음 환경으로부터 실시간으로 노이즈 데이터(601, 602, 603)를 획득할 수도 있다. 예를 들면, 전자장치(100)는 주변 환경으로부터 집음된 오디오를 분석하고, 분석된 오디오에서 노이즈로 식별되는 데이터를 추출하여 노이즈 데이터(601, 602, 603)로 저장할 수도 있다. 전자장치(100)는 주기적으로 또는 특정한 시점에 주변 환경으로부터 집음을 수행한다. 전자장치(100)는 집음된 오디오가 복수의 음원성분을 포함하는 것으로 분석되면, 복수의 음원성분 중에서 사용자 발화에 대응하는 음원성분을 제외한 나머지 음원성분 중에서 노이즈 데이터(601, 602, 603)를 획득한다. 또는, 전자장치(100)는 사용자 발화가 수행되지 않는 시간에서 집음된 오디오로부터 노이즈 데이터(601, 602, 603)를 획득할 수 있다.

여기서, 노이즈 데이터(601, 602, 603)의 식별은 전자장치(100)에서 수행될 수도 있고, 서버에 의해 수행될 수도 있다. 예를 들면, 전자장치(100)는 집음된 오디오를 서버에 전송하고, 해당 오디오로부터 추출된 노이즈 데이터(601, 602, 603)를 서버로부터 수신한다. 이와 같은 노이즈 데이터(601, 602, 603)의 식별은, 예를 들면 인공지능에 의해 수행될 수 있다.

이하, 제1참조데이터(510) 및 제2참조데이터(610, 620, 630)를 사용하여, 전자장치(100)가 집음된 오디오신호를 발화한 사용자를 식별하는 방법에 관해 설명한다.

도 7은 전자장치가 제1참조데이터 및 제2참조데이터에 기초한 발화 사용자의 식별 프로세스를 나타내는 플로우차트이다.

도 5 및 도 7에 도시된 바와 같이, 전자장치(100)는 제1참조데이터(510) 및 제2참조데이터(520)를 가진다. 제1참조데이터(510) 및 제2참조데이터(520)에 관해서는 앞선 실시예에서 설명한 바와 같으므로, 자세한 설명을 생략한다. 본 실시예에서는 제2참조데이터(520)가 하나인 경우에 관해 설명하지만, 이는 실시예의 내용을 간결하게 하기 위한 것이다. 제2참조데이터(520)의 개수는 노이즈 데이터(530)의 개수에 대응하게 마련되며, 제2참조데이터(520)가 복수 개인 경우에도 본 실시예가 응용되어 적용될 수 있다. 또한, 본 실시예에서는 한 명의 사용자에 관련된 제1참조데이터(510) 및 제2참조데이터(520)의 경우에 관해서만 설명하지만, 둘 이상의 사용자의 경우에도 본 실시예가 응용되어 적용될 수 있다.

710 단계에서 전자장치(100)는 사용자 발화에 따른 제1오디오신호를 획득한다(도 3의 310 단계에 해당함). 제1오디오신호는 앞선 도 1 및 도 2 관련 실시예에서 설명한 바와 같이 다양한 집음 방법을 통해 획득될 수 있다.

720 단계에서 전자장치(100)는 제1참조데이터(510)의 제1명령어(511) 대비 제1오디오신호의 유사도를 도출한다. 730 단계에서 전자장치(100)는 도출된 유사도 및 소정의 제1문턱값을 비교한다. 도출된 유사도가 제1문턱값을 초과하면(730 단계에서 "Yes"), 전자장치(100)는 사용자 식별 결과가 성공한 것으로 판정하고 사용자 식별 프로세스를 종료한다(즉, 제1오디오신호를 발화한 사용자가 제1참조데이터(510)에 등록된 유효한 사용자인 것으로 식별함). 본 실시예에서의 720 단계 및 730 단계는, 도 3의 320 단계와, 350 단계의 일부(제1오디오신호가 제1명령어에 대응하는지 식별하는 동작)에 해당한다.

반면에, 도출된 유사도가 제1문턱값을 초과하지 않으면(730 단계에서 "No"), 740 단계에서 전자장치(100)는 제2참조데이터(520)의 제2명령어(521) 대비 제1오디오신호의 유사도를 도출한다. 750 단계에서 전자장치(100)는 도출된 유사도 및 소정의 제2문턱값을 비교한다. 도출된 유사도가 제2문턱값을 초과하면(750 단계에서 "Yes"), 전자장치(100)는 사용자 식별 결과가 성공한 것으로 판정하고 사용자 식별 프로세스를 종료한다.

반면에, 도출된 유사도가 제2문턱값을 초과하지 않으면(750 단계에서 "No"), 760 단계에서 전자장치(100)는 제1오디오신호에 노이즈 데이터(530)를 믹싱한 제2오디오신호를 획득한다(도 3의 330 단계에 해당함).

770 단계에서 전자장치(100)는 제2참조데이터(520)의 제2명령어(521) 대비 제2오디오신호의 유사도를 도출한다. 780 단계에서 전자장치(100)는 도출된 유사도 및 소정의 제3문턱값을 비교한다. 도출된 유사도가 제3문턱값을 초과하면(780 단계에서 "Yes"), 전자장치(100)는 사용자 식별 결과가 성공한 것으로 판정하고 사용자 식별 프로세스를 종료한다.

반면에, 도출된 유사도가 제3문턱값을 초과하지 않으면(780 단계에서 "No"), 전자장치(100)는 사용자 식별 결과가 실패한 것으로 판정하고(즉, 제1오디오신호를 발화한 사용자는 제1참조데이터(510)에 등록된 사용자가 아니라는 것으로 식별함), 사전에 마련된 별도의 대처 동작을 수행한다. 본 대처 동작은, 예를 들면 타 사용자에 관련된 제1참조데이터(510) 및 제2참조데이터(520)에 기반한 사용자 식별 프로세스일 수 있다. 또는, 참조될 타 사용자에 관련된 제1참조데이터(510) 및 제2참조데이터(520)가 없다고 식별된 경우에, 전자장치(100)는 제1오디오신호를 발화한 사용자 식별이 불가함을 알리는 메시지를 표시할 수도 있다.

본 실시예에서의 770 단계 및 780 단계는, 도 3의 340 단계와, 350 단계의 일부(제2오디오신호가 제2명령어에 대응하는지 식별하는 동작)에 해당한다.

한편, 본 실시예에서는 제1참조데이터(510) 대비 제1오디오신호의 유사도, 제2참조데이터(520) 대비 제1오디오신호의 유사도, 제2참조데이터(520) 대비 제2오디오신호의 유사도를 모두 확인하는 것으로 설명하였으나, 설계 방식에 따라서는 일부 과정은 수행되지 않을 수도 있다. 예를 들면, 상기한 전체 프로세스 중에서, 740 단계 및 750 단계는 수행되지 않고, 730 단계에서 760 단계로 이행되도록 하는 방법도 가능하다.

한편, 본 실시예에서 언급된 제1문턱값, 제2문턱값 및 제3문턱값은, 제1오디오신호 또는 제2오디오신호가 제1명령어(511) 또는 제2명령어 대비 얼마나 유사한지를 판정하기 위한 수치이다. 이하, 각 문턱값의 개념에 관해 이하 설명한다.

도 8은 제1오디오신호, 제1명령어 및 제2명령어의 각 문턱값에 의한 유사도 관련 범위를 평면 상에 나타내는 예시도이다.

도 5, 도 7 및 도 8에 도시된 바와 같이, 제1참조데이터(510) 및 제2참조데이터(520)를 각각 평면 상으로 투사하여, 평면 상에 제1참조데이터(510) 및 제2참조데이터(520)에 기초하여 명령어를 인식할 수 있는 범위의 영역을 나타낼 수 있다. 편의상 제1참조데이터(510)의 영역을 제1영역(810), 제2참조데이터(520)의 영역을 제2영역(820)이라고 지칭한다. 벡터 평면 상에서, 제1영역(810)을 정의하는 경계선은 제1문턱값(도 7의 730 단계 참조)이며, 제2영역(820)을 정의하는 경계선은 제2문턱값(도 7의 750 단계 참조)이 된다.

사용자 발화에 따른 제1오디오신호를 평면 상으로 투사하면, 평면 상에서 제1오디오신호의 위치를 나타낼 수 있다. 만일 제1오디오신호의 위치가 제1영역(810) 내에 있다고 한다면, 이는 도 7의 730 단계에서 제1참조데이터(510)에 대한 제1오디오신호의 유사도가 제1문턱값을 초과하는 경우로서, 제1오디오신호를 제1명령어로 인식할 수 있는 영역 내에 있음을 나타낸다. 반면에 제1오디오신호의 위치가 제1영역(810) 밖에 있다고 한다면, 이는 도 7의 730 단계에서 상기한 유사도가 제1문턱값 이하인 경우로서, 제1오디오신호를 제1명령어로 인식할 수 있는 영역 밖에 있음을 나타낸다.

또한, 제1오디오신호의 위치가 제2영역(820) 내에 있다고 한다면, 이는 도 7의 750 단계에서 제2참조데이터(520)에 대한 제1오디오신호의 유사도가 제2문턱값을 초과하는 경우로서, 제1오디오신호를 제2명령어로 인식할 수 있는 영역 내에 있음을 나타낸다. 반면에 제1오디오신호의 위치가 제2영역(820) 밖에 있다고 한다면, 이는 도 7의 750 단계에서 상기한 유사도가 제2문턱값 이하인 경우로서, 제1오디오신호를 제2명령어로 인식할 수 있는 영역 밖에 있음을 나타낸다.

한편, 제1오디오신호에 노이즈 데이터(530)를 믹싱하여 제2오디오신호로 변환하는 경우에, 평면 상에서 제2오디오신호의 위치는 제1오디오신호의 위치에 비해 제2영역(820) 쪽으로 근접하게 된다. 평면 상의 선(830)은 제1오디오신호의 위치를 나타내는데, 제1오디오신호에 노이즈 데이터(530)가 믹싱되면 이 선(830)은 제2영역(820)을 향해 근접한다. 또한, 이러한 경우에, 제2참조데이터에 관련된 영역은 제2문턱값에 의한 제2영역(820)으로부터 제3문턱값(도 7의 780 단계 참조)에 의한 제3영역(840)으로 확장된다. 제3영역(840)은 제2영역(820) 전체와, 제2영역(820) 주변의 영역을 포함한다.

제2오디오신호의 위치가 제2영역(820)의 외측 및 제3영역(840)의 내측 사이에 있다고 한다면, 이는 도 7의 780 단계에서 제2참조데이터(520)에 대한 제2오디오신호의 유사도가 제3문턱값을 초과하는 경우로서, 제2오디오신호를 제2명령어로 인식할 수 있는 영역 내에 있음을 나타낸다. 반면에, 제2오디오신호의 위치가 제3영역(840)의 외측에 있다고 한다면, 이는 도 7의 780 단계에서 상기한 유사도가 제3문턱값 이하인 경우로서, 제2오디오신호를 제2명령어로 인식할 수 있는 영역 밖에 있음을 나타낸다. 이와 같이, 전자장치(100)는 제1오디오신호에 노이즈 데이터(530)를 믹싱하여 제2오디오신호를 생성하고, 해당 노이즈 데이터(530)에 기반한 제2참조데이터(520) 대비 제2오디오신호의 자유도를 식별함으로써, 최종적으로 제1오디오신호를 발화한 사용자 식별의 정확도를 높일 수 있다.

이상 실시예들에서 설명한 바와 같은 장치의 동작은, 해당 장치에 탑재된 인공지능에 의해 수행될 수 있다. 인공지능은 기계 학습 알고리즘을 활용하여 다양한 제반 시스템에 적용될 수 있다. 인공지능 시스템은 인간 수준 내지는 인간 수준에 버금가는 지능을 구현하는 컴퓨터 시스템으로서, 기계, 장치 또는 시스템이 자율적으로 학습하고 판단하며, 사용 경험의 누적에 기반하여 인식률 및 판단 정확도가 향상되는 시스템이다. 인공지능 기술은 입력되는 데이터들의 특징을 스스로 분류하고 학습하는 알고리즘을 이용한 기계학습 기술 및 알고리즘을 활용하여, 인간의 두뇌의 인지, 판단 등의 기능을 모사하는 요소 기술들로 구성된다.

요소 기술들은, 예를 들면 인간의 언어와 문자를 인식하는 언어적 이해 기술, 사물을 인간의 시각처럼 인식하는 시각적 이해 기술, 정보를 판단하여 논리적으로 추론하고 예측하는 추론 및 예측 기술, 인간의 경험 정보를 지식 데이터로 처리하는 지식 표현 기술, 차량의 자율 주행이나 로봇의 움직임을 제어하는 동작 제어 기술 중 적어도 어느 하나를 포함한다.

여기서, 언어적인 이해는 인간의 언어 또는 문자를 인식하고 응용 처리하는 기술로서, 자연어의 처리, 기계 번역, 대화 시스템, 질의 응답, 음성 인식 및 합성 등을 포함한다.

추론 예측은 정보를 판단하여 논리적으로 예측하는 기술로서, 지식 및 확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다.

지식 표현은 인간의 경험 정보를 지식 데이터로 자동화 처리하는 기술로서, 데이터의 생성 및 분류와 같은 지식 구축, 데이터의 활용과 같은 지식 관리 등을 포함한다.

본 발명의 예시적 실시예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이러한 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 예를 들어, 컴퓨터 판독 가능 매체는 삭제 가능 또는 재기록 가능 여부와 상관없이, USB 메모리장치와 같은 비휘발성 저장 장치, 또는 예를 들어 RAM, ROM, 플래시메모리, 메모리 칩, 집적 회로와 같은 메모리, 또는 예를 들어 CD, DVD, 자기 디스크 또는 자기 테이프 등과 같은 광학 또는 자기적으로 기록 가능함과 동시에 기계(예를 들어, 컴퓨터)로 읽을 수 있는 저장 매체에 저장될 수 있다. 이동 단말 내에 포함될 수 있는 메모리는 본 발명의 실시 예들을 구현하는 지시들을 포함하는 프로그램 또는 프로그램들을 저장하기에 적합한 기계로 읽을 수 있는 저장 매체의 한 예임을 알 수 있을 것이다. 본 저장 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어의 기술 분야에서 숙련된 기술자에게 공지되어 사용 가능한 것일 수도 있다. 또는, 본 컴퓨터 프로그램 명령은 컴퓨터 프로그램 프로덕트에 의해 구현될 수도 있다.

100 : 전자장치
110 : 인터페이스부
160 : 마이크셋
170 : 프로세서

Claims

전자장치에 있어서,
수신되는 제1오디오신호에 노이즈를 연관시킨 제2오디오신호를 획득하고,
제1참조데이터에 상기 노이즈를 연관시킨 제2참조데이터에 기초하여, 상기 제2오디오신호가 상기 제1참조데이터의 제1명령어에 상기 노이즈를 연관시킨 제2명령어에 대응하는지 여부를 식별하고,
상기 제2오디오신호가 상기 제2명령어에 대응하는 것으로 식별됨에 기초하여 동작을 수행하는 프로세서를 포함하는 전자장치.
제1항에 있어서,
상기 프로세서는, 상기 제2오디오신호가 상기 제2명령어에 대응하는 것으로 식별됨에 기초하여, 상기 제1오디오신호를 발화한 사용자를 상기 제1명령어에 대응하는 사용자로 식별하는 전자장치.
제2항에 있어서,
상기 프로세서는, 상기 제2오디오신호가 상기 제2명령어에 대응하지 않는 것으로 식별됨에 기초하여, 상기 제1오디오신호를 발화한 사용자의 식별 실패에 대응하는 메시지를 제공하는 전자장치.
제1항에 있어서,
상기 프로세서는, 상기 제2명령어 및 상기 제2오디오신호 사이의 유사도가 기 설정값을 초과하는 것에 기초하여 상기 제2오디오신호가 상기 제2명령어에 대응하는 것으로 식별하는 전자장치.
제1항에 있어서,
상기 프로세서는, 상기 제1명령어 및 상기 제1오디오신호 사이의 유사도가 제1설정값을 초과하는 것에 기초하여 상기 제1오디오신호가 상기 제1명령어에 대응하는 것으로 식별하는 전자장치.
제5항에 있어서,
상기 프로세서는, 상기 제2명령어 및 상기 제1오디오신호 사이의 유사도가 제2설정값을 초과하는 것에 기초하여 상기 제1오디오신호가 상기 제1명령어에 대응하는 것으로 식별하는 전자장치.
제1항에 있어서,
상기 프로세서는, 상기 노이즈가 배제된 주변 환경에서 사용자에 의해 발화된 상기 제1명령어를 획득하여 상기 제1참조데이터에 등록하는 전자장치.
제1항에 있어서,
상기 프로세서는, 상기 제1명령어 및 상기 노이즈에 기초하는 상기 제2명령어를 획득하여 상기 제2참조데이터에 등록하는 전자장치.
제8항에 있어서,
상기 프로세서는, 상기 제1오디오신호 및 상기 노이즈에 기초하여 상기 제2오디오신호를 획득하는 전자장치.
제9항에 있어서,
상기 제2명령어를 획득하기 위한 상기 노이즈의 데이터 및 상기 제2오디오신호를 획득하기 위한 상기 노이즈의 데이터는 동일한 전자장치.
제1항에 있어서,
상기 프로세서는 마이크셋을 통해 획득되는 오디오신호로부터 상기 노이즈의 데이터를 획득하는 전자장치.
전자장치의 제어방법에 있어서,
수신되는 제1오디오신호에 노이즈를 연관시킨 제2오디오신호를 획득하는 단계와,
제1참조데이터에 상기 노이즈를 연관시킨 제2참조데이터에 기초하여, 상기 제2오디오신호가 상기 제1참조데이터의 제1명령어에 상기 노이즈를 연관시킨 제2명령어에 대응하는지 여부를 식별하는 단계와,
상기 제2오디오신호가 상기 제2명령어에 대응하는 것으로 식별됨에 기초하여 동작을 수행하는 단계를 포함하는 전자장치의 제어방법.
제12항에 있어서,
상기 제2오디오신호가 상기 제2명령어에 대응하는 것으로 식별됨에 기초하여, 상기 제1오디오신호를 발화한 사용자를 상기 제1명령어에 대응하는 사용자로 식별하는 전자장치의 제어방법.
제13항에 있어서,
상기 제2오디오신호가 상기 제2명령어에 대응하지 않는 것으로 식별됨에 기초하여, 상기 제1오디오신호를 발화한 사용자의 식별 실패에 대응하는 메시지를 제공하는 전자장치의 제어방법.
제12항에 있어서,
상기 제2명령어 및 상기 제2오디오신호 사이의 유사도가 기 설정값을 초과하는 것에 기초하여 상기 제2오디오신호가 상기 제2명령어에 대응하는 것으로 식별하는 전자장치의 제어방법.
제12항에 있어서,
상기 제1명령어 및 상기 제1오디오신호 사이의 유사도가 제1설정값을 초과하는 것에 기초하여 상기 제1오디오신호가 상기 제1명령어에 대응하는 것으로 식별하는 전자장치의 제어방법.
제16항에 있어서,
상기 제2명령어 및 상기 제1오디오신호 사이의 유사도가 제2설정값을 초과하는 것에 기초하여 상기 제1오디오신호가 상기 제1명령어에 대응하는 것으로 식별하는 전자장치의 제어방법.
제12항에 있어서,
상기 노이즈가 배제된 주변 환경에서 사용자에 의해 발화된 상기 제1명령어를 획득하여 상기 제1참조데이터에 등록하는 전자장치의 제어방법.
제12항에 있어서,
상기 제1명령어 및 상기 노이즈에 기초하는 상기 제2명령어를 획득하여 상기 제2참조데이터에 등록하는 전자장치의 제어방법.
제19항에 있어서,
상기 제1오디오신호 및 상기 노이즈에 기초하여 상기 제2오디오신호를 획득하는 전자장치의 제어방법.