KR20210054246A - 전자장치 및 그 제어방법 - Google Patents

전자장치 및 그 제어방법 Download PDF

Info

Publication number
KR20210054246A
KR20210054246A KR1020190140145A KR20190140145A KR20210054246A KR 20210054246 A KR20210054246 A KR 20210054246A KR 1020190140145 A KR1020190140145 A KR 1020190140145A KR 20190140145 A KR20190140145 A KR 20190140145A KR 20210054246 A KR20210054246 A KR 20210054246A
Authority
KR
South Korea
Prior art keywords
external device
sound
electronic device
location
received
Prior art date
Application number
KR1020190140145A
Other languages
English (en)
Inventor
김가을
최찬희
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020190140145A priority Critical patent/KR20210054246A/ko
Priority to PCT/KR2020/011937 priority patent/WO2021091063A1/ko
Publication of KR20210054246A publication Critical patent/KR20210054246A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N29/00Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object
    • G01N29/22Details, e.g. general constructional or apparatus details
    • G01N29/26Arrangements for orientation or scanning by relative movement of the head and the sensor
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Abstract

본 발명의 일 실시예에 따른 전자장치에 있어서, 마이크로폰; 저장부; 외부기기와 통신하는 통신부; 및 상기 통신부를 통하여 상기 외부기기에 제1소리를 출력하도록 요청하고, 상기 마이크로폰에 상기 제1소리가 수신되는 방향에 기초하여 상기 외부기기의 위치를 식별하고, 상기 식별된 외부기기의 위치에 관한 정보를 상기 저장부에 저장하고, 상기 저장된 정보에 기초하여, 상기 마이크로폰에 수신되는 제2소리의 신호에서 상기 외부기기의 위치로부터 수신되는 소리에 대응하는 노이즈 성분을 제거하고, 상기 노이즈 성분이 제거된 신호에 기초하여 사용자 발화를 인식하는 프로세서를 포함할 수 있다.

Description

전자장치 및 그 제어방법{ELECTORINC APPARATUS AND CONTROL METHOD THEREOF}
본 발명은 전자장치 및 그 제어방법에 관한 것으로서, 보다 상세하게는 주변 환경의 노이즈를 제거하여 음성인식기능을 수행하는 전자장치 및 그 제어방법에 관한 것이다.
최근 음성인식 기술의 발달로 인해 대부분의 전자장치에 음성인식 기술이 탑재되어 장치간 상호작용이 용이해졌다. 따라서 동일한 공간에서 사용하는 다수의 전자장치는 음성인식 시, 각자 발생하는 오디오 신호에 의한 간섭을 받게 된다. 이 때, 사용자가 소음이 섞인 환경에서 발화하는 경우, 음성인식 가능한 전자장치는 사용자의 발화를 추출하기 위해 빔포밍(Beamforming) 기술을 이용한다. 빔포밍은 특정한 방향으로부터의 오디오 신호를 추출하고 나머지 방향으로부터의 오디오 성분을 제거하여, 공간 필터를 만드는 방식으로 작동한다. 입력되는 전체 오디오 신호에서 사용자 발화 방향에서 전달되는 신호를 추출하고 나머지 방향의 신호를 필터링 함으로써 사용자 발화만이 음성인식 시스템을 통과할 수 있도록 한다.
다만, 현재 음성인식에 사용되고 있는 빔포밍 기술은 이상적인 상황에서는 잘 적용이 되나, 한정된 공간에서 다수의 전자장치를 사용하면 각 장치는 다른 장치에서 발생하는 신호에 대한 사전정보가 없기 때문에 사용자 발화 시 음성인식 에러 발생률이 증가한다.
이 때, 사용자는 사용을 원하지 않는 나머지 장치의 출력수준을 모두 낮추거나 발화의 목소리를 높여 SNR (Signal-to-Noise Ratio) 을 장치가 인식 가능한 기준 이상으로 맞춰야 한다. 이는 단기적으로는 사용자의 피로도를 증가시키며, 장기적으로는 음성인식 기능의 사용을 감소시킨다.
본 발명의 목적은 소정의 환경에서 전자장치가 획득한 소리에 포함된 주변 환경의 노이즈를 제거하여 사용자 발화 음성 인식의 정확도를 높이는 것이다.
본 발명의 일 실시예에 따른 전자장치에 있어서, 마이크로폰; 저장부; 외부기기와 통신하는 통신부; 및 상기 통신부를 통하여 상기 외부기기에 제1소리를 출력하도록 요청하고, 상기 마이크로폰에 상기 제1소리가 수신되는 방향에 기초하여 상기 외부기기의 위치를 식별하고, 상기 식별된 외부기기의 위치에 관한 정보를 상기 저장부에 저장하고, 상기 저장된 정보에 기초하여, 상기 마이크로폰에 수신되는 제2소리의 신호에서 상기 외부기기의 위치로부터 수신되는 소리에 대응하는 노이즈 성분을 제거하고, 상기 노이즈 성분이 제거된 신호에 기초하여 사용자 발화를 인식하는 프로세서를 포함할 수 있다.
상기 프로세서는, 상기 제1소리에 대하여 미리 정의된 특성에 기초하여 상기 제1소리가 수신되는지 여부를 식별할 수 있다.
본 발명의 일 실시예에 따른 전자장치는 저장부를 더 포함하고, 상기 프로세서는, 상기 마이크로폰에 상기 제1소리가 수신되는 방향에 기초하여 상기 외부기기의 위치를 식별하고, 상기 식별된 외부기기의 위치에 관한 정보를 상기 저장부에 저장할 수 있다.
상기 특성은, 상기 외부기기의 위치 식별 동작에 관한 안내 관련 정보를 포함할 수 있다.
상기 특성은, 비가청 주파수 대역을 포함할 수 있다.
상기 프로세서는, 상기 외부기기에 상기 특성을 가지는 제1소리를 출력하도록 요청할 수 있다.
상기 프로세서는, 상기 통신부를 통해 서버로부터 상기 특성에 관한 정보를 수신하고, 상기 수신된 정보를 상기 저장부에 저장할 수 있다.
본 발명의 일 실시예에 따른 전자장치는 사용자입력부를 더 포함하고, 상기 프로세서는, 상기 사용자입력부에 입력된 사용자의 명령에 기초하여, 상기 외부기기의 위치를 식별할 수 있다.
상기 저장부는 상기 외부기기의 위치 식별을 실행하는 시점에 관한 정보를 저장하고, 상기 프로세서는, 상기 저장된 정보에 기초하여 상기 실행하는 시점에 상기 외부기기의 위치를 식별할 수 있다.
상기 프로세서는, 상기 통신부를 통해 서버로부터 상기 외부기기의 정보를 수신하고, 상기 수신된 정보에 기초하여, 상기 외부기기의 위치를 식별할 수 있다.
본 발명의 일 실시예에 따른 전자장치는 스피커를 더 포함하고, 상기 프로세서는, 상기 통신부를 통하여 상기 외부기기로부터 상기 전자장치의 위치 식별을 위한 제3소리의 출력 요청을 수신하고, 상기 스피커가 상기 제3소리를 출력할 수 있다.
본 발명의 일 실시예에 따른 전자장치의 제어방법에 있어서, 통신부를 통해 외부기기와 통신하여 상기 외부기기에 제1소리를 출력하도록 요청하는 단계; 마이크로폰에 상기 제1소리가 수신되는 방향에 기초하여 상기 외부기기의 위치를 식별하는 단계; 상기 식별된 외부기기의 위치에 관한 정보를 저장부에 저장하는 단계; 상기 저장된 정보에 기초하여, 상기 마이크로폰에 수신되는 제2소리의 신호에서 상기 외부기기의 위치로부터 수신되는 소리에 대응하는 노이즈 성분을 제거하는 단계; 및 상기 노이즈 성분이 제거된 신호에 기초하여 사용자 발화를 인식하는 단계를 포함할 수 있다.
상기 제1소리에 대하여 미리 정의된 특성에 관한 정보를 저장하는 단계; 및 상기 미리 정의된 특성에 기초하여 상기 제1소리가 수신되는지 여부를 식별하는 단계를 포함할 수 있다.
상기 마이크로폰에 상기 제1소리가 수신되는 방향에 기초하여 상기 외부기기의 위치를 식별하는 단계; 상기 식별된 외부기기의 위치에 관한 정보를 저장부에 저장하는 단계를 포함할 수 있다.
상기 외부기기에 상기 특성을 가지는 제1소리를 출력하도록 요청하는 단계를 포함할 수 있다.
상기 통신부를 통해 서버로부터 상기 특성에 관한 정보를 수신하는 단계; 상기 수신된 정보를 상기 저장부에 저장하는 단계를 포함할 수 있다.
사용자입력부에 입력된 사용자의 명령에 기초하여, 상기 외부기기의 위치를 식별하는 단계를 포함할 수 있다.
상기 외부기기의 위치 식별을 실행하는 시점에 관한 정보를 저장하는 단계; 상기 저장된 정보에 기초하여 상기 실행하는 시점에 상기 외부기기의 위치를 식별하는 단계를 포함할 수 있다.
상기 통신부를 통해 서버로부터 상기 외부기기의 정보를 수신하는 단계; 상기 수신된 정보에 기초하여, 상기 외부기기의 위치를 식별하는 단계를 포함할 수 있다.
상기 통신부를 통하여 상기 외부기기로부터 상기 전자장치의 위치 식별을 위한 제3소리의 출력 요청을 수신하는 단계; 스피커가 상기 제3소리를 출력하도록 제어하는 단계를 포함할 수 있다.
본 발명은 다수의 전자장치가 동시에 사용중인 경우에도, 사용자의 발화에 대한 음성인식의 정확도를 높일 수 있다.
또한, 음성인식을 위해 다른 전자장치의 볼륨을 낮추고 다시 높이는 등의 번거로운 과정을 피할 수 있어 효율적이다.
도 1은 본 발명의 일 실시예에 의한 전체 시스템을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 의한 전자장치의 구성을 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 발화리스트를 도시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 서버와 장치간 통신하는 것을 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.
도 9는 본 발명의 일 실시예에 따른 외부기기의 위치를 식별하는 모습을 도시한 도면이다.
도 10은 본 발명의 일 실시예에 따른 외부기기에 관한 정보를 도시한 도면이다.
도 11은 본 발명의 일 실시예에 따른 전자장치가 수신되는 소리를 처리하는 상황을 도시한 도면이다.
도 12는 본 실시예의 전자장치가 수행하는 동작의 흐름도를 도시한 도면이다.
도 13은 본 실시예의 전자장치가 소리를 처리하는 노이즈 제거 블록을 도시한 도면이다.
도 14는 본 발명의 일 실시예에 따른 전체 시스템을 도시한 도면이다.
도 15는 본 발명의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.
도 16은 본 발명의 일 실시예에 따른 음성처리 후 시스템을 도시한 도면이다.
이하에서는 첨부 도면을 참조하여 본 발명의 실시예들을 상세히 설명한다. 도면에서 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 구성요소를 지칭하며, 도면에서 각 구성요소의 크기는 설명의 명료성과 편의를 위해 과장되어 있을 수 있다. 다만, 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 이하의 실시예에 설명된 구성 또는 작용으로만 한정되지는 않는다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.
본 발명의 실시예에서, 제1, 제2 등과 같이 서수를 포함하는 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 발명의 실시예에서, '구성되다', '포함하다', '가지다' 등의 용어는 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 또한, 본 발명의 실시예에서, '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있으며, 적어도 하나의 모듈로 일체화되어 구현될 수 있다. 또한, 본 발명의 실시예에서, 복수의 요소 중 적어도 하나(at least one)는, 복수의 요소 전부뿐만 아니라, 복수의 요소 중 나머지를 배제한 각 하나 혹은 이들의 조합 모두를 지칭한다.
도 1은 본 발명의 일 실시예에 의한 전체 시스템을 도시한 도면이다. 도 1에 도시된 바와 같이, 전자장치들(100, 110, 120)은 영상을 표시할 수 있는 디스플레이장치로 구현되거나, 디스플레이를 구비하지 않는 장치로 구현될 수 있다. 일 예로, 전자장치들(100, 110, 120)은 TV, AI어시스턴스기기(AI스피커 등), 컴퓨터, 스마트 폰, 태블릿, 휴대용 미디어 플레이어, 웨어러블 디바이스, 비디오 월, 전자액자 등을 포함할 수 있다. 또한, 전자장치들(100, 110, 120)은 디스플레이를 구비하지 않는 셋탑박스 등의 영상처리장치, 냉장고, 블루투스 스피커, 세탁기 등의 생활가전, 컴퓨터본체와 같은 정보처리장치 등 다양한 종류의 장치로 구현될 수 있다. 이하에서는 설명의 편의를 위해 TV로 구현되는 경우는 전자장치(100), 스피커와 냉장고로 구현되는 경우는 각각 외부기기(110, 120)들로 가정하여 설명하나, 본 발명의 전자장치와 외부기기들은 이에 한정되지 않으며, 어느 하나의 외부기기와 전자장치의 역할을 바꾸어도 본 발명은 성립된다.
본 발명의 일 실시예에 따르면, 도 1에 도시된 바와 같이 사용 공간에 전자장치(100)와 복수의 외부기기(110, 120)가 놓여있다. 이 때, 사용자(130)가 전자장치(100)의 음성인식 기능을 사용하려고 할 때, 사용자(130)의 발화음성과 외부기기(110, 120)로부터 나오는 소리가 섞이게 될 수 있다. 그렇다면, 전자장치(100)는 획득한 소리를 처리할 때, 어느 소리의 신호가 사용자의 발화에 의한 신호인지 구별하기 어렵게 된다. 따라서 본 발명은, 사용자(130)가 전자장치(100)의 음성인식 기능을 사용하기 위해 발화한 경우, 전자장치(100)에 입력되는 사용자의 발화에 의한 신호를 획득하기 위해 외부기기(110, 120)의 위치를 식별한다. 그리고 전자장치(100)에 입력된 소리신호 중 식별된 위치로부터 오는 소리신호를 제거한다. 이 경우, 음성인식이 요구되는 전자장치(100)외의 나머지 장치들(110, 120)로부터 발생하는 소리신호를 제거할 수 있으므로, 전자장치(100)는 사용자(130)의 발화 음성만을 인식하여 보다 정확한 음성인식이 가능하다.
도 2는 본 발명의 일 실시예에 의한 전자장치의 구성을 도시한 블록도이다. 도 2에 도시된 바와 같이, 전자장치(100)는 통신부(210), 신호입출력부(220), 방송수신부(230), 디스플레이부(240), 사용자입력부(250), 저장부(260), 마이크로폰(270), 스피커(280), 프로세서(290)를 포함할 수 있다. 도 2에 도시된 전자장치(100)는, 통신부(210), 신호입출력부(220), 방송수신부(230) 등이 각각 별도로 구현되는 예를 도시하나, 이는 하나의 예시에 불과하며, 경우에 따라서는, 예컨대, 방송수신부(230)가 통신부(210) 혹은 신호입출력부(220)에 포함되어 구현될 수도 있다. 또한, 전자장치(100)는 도 2에 도시된 모든 구성을 포함한 구현도 가능하나, 다른 예로서, 이들 중 어느 하나 이상의 구성인 생략된 구현도 가능하다. 예컨대, 네트워크 기능이 없는 장치의 예로서, 통신부(210)가 없는 구현 등도 가능하다. 보다 구체적인 구성에 대해서는 아래에서 상술한다.
이하, 전자장치(100)의 구성에 관해 설명한다. 본 실시예에서는 전자장치(100)가 TV인 경우에 관해 설명하지만, 전자장치(100)는 다양한 종류의 장치로 구현될 수 있으므로, 본 실시예가 전자장치(100)의 구성을 한정하는 것은 아니다. 전자장치(100)가 디스플레이장치로 구현되지 않는 경우도 가능하며, 이 경우의 전자장치(100)는 디스플레이부(240)와 같은 영상 표시를 위한 구성요소들을 포함하지 않을 수 있다. 예를 들면 전자장치(100)가 셋탑박스로 구현되는 경우에, 전자장치(100)는 신호입출력부(220)를 통해 외부의 TV 등과 같은 디스플레이장치에 영상신호 등을 출력할 수 있다.
통신부(210)는 다양한 종류의 유선 및 무선 통신 프로토콜에 대응하는 통신모듈, 통신칩 등의 구성요소들 중 적어도 하나 이상을 포함하는 양방향 통신회로이다. 예를 들면, 통신부(210)는 이더넷으로 라우터 또는 게이트웨이에 유선 접속된 랜카드나, 와이파이(Wi-Fi) 방식에 따라서 AP와 무선통신을 수행하는 무선통신모듈이나, 블루투스 등과 같은 1대 1 다이렉트 무선통신을 수행하는 무선통신모듈 등으로 구현될 수 있다. 통신부(210)는 네트워크 상의 서버와 통신함으로써, 서버와의 사이에 데이터 패킷을 송수신할 수 있다. 다른 실시예로서, 통신부(210)는 서버 외의 다른 외부기기(110, 120)와 연결될 수 있으며, 다른 외부기기로부터 비디오/오디오 데이터를 비롯한 각종 데이터를 수신하거나, 혹은 다른 외부기기로 비디오/오디오 데이터를 비롯한 각종 데이터를 전송할 수 있다. 전자장치(100)에 구비된 마이크로폰(270)으로 음성이나 소리를 수신하는 경우, 통신부(210)는 아날로그 형태의 음성신호(혹은 소리신호)를 디지털화하여 프로세서(290)로 전송하고, 외부기기로부터 음성신호를 수신하는 경우, 아날로그 형태의 음성신호를 디지털화 하여 블루투스나 Wi-Fi 등 데이터 전송 통신을 이용하여 통신부(210)로 전송한다.
신호입출력부(220)는 셋탑박스, 광학미디어 재생장치와 같은 외부기기, 또는 외부 디스플레이장치나, 스피커 등과 1:1 또는 1:N(N은 자연수) 방식으로 유선 접속됨으로써, 해당 외부기기로부터 비디오/오디오 신호를 수신하거나 또는 해당 외부기기에 비디오/오디오 신호를 출력한다. 신호입출력부(120)는 예를 들면 HDMI 포트, DisplayPort, DVI 포트, 썬더볼트, USB 포트 등과 같이, 기 설정된 전송규격에 따른 커넥터 또는 포트 등을 포함한다. 이 때, 예컨대, HDMI 포트, DP, 썬더볼트 등은 비디오/오디오 신호를 동시에 전송할 수 있는 커넥터 또는 포트이고, 다른 실시예로서, 신호입출력부(220)는, 비디오/오디오 신호를 각각 별개로 전송하는 커넥터 또는 포트를 포함할 수도 있다.
방송수신부(230)는 수신하는 영상신호의 규격 및 전자장치(100)의 구현 형태에 대응하여 다양한 방식으로 구현될 수 있다. 방송수신부(230)는 영상신호가 방송신호이므로, 이 방송신호를 채널 별로 튜닝하는 튜너(tuner)를 포함한다. 입력신호는 외부기기로부터 입력될 수 있으며, 예컨대, PC, AV기기, TV, 스마트폰, 스마트패드 등과 같은 외부기기로부터 입력될 수 있다. 또한, 입력신호는 인터넷 등과 같은 네트워크를 통해 수신되는 데이터로부터 기인한 것일 수 있다. 이 경우, 방송수신부(230)는 외부기기와 통신을 수행하는 네트워크 통신부를 포함할 수 있다.
방송수신부(230)는 통신방식으로 유선 또는 무선통신을 사용할 수 있다. 방송수신부(230)는 본 실시예에 따르면 전자장치(100)에 내장되나, 동글(dongle) 또는 모듈(module) 형태로 구현되어 전자장치(100)의 커넥터에 착탈될 수도 있다. 방송수신부(230)는 유선 통신부를 포함하는 경우 기 설정된 주파수(클럭 주파수)의 클럭 신호를 포함하는 유선 디지털 신호를 수신하며, 무선 통신부를 포함하는 경우 기설정된 주파수(캐리어 주파수)의 무선 디지털 신호를 수신한다. 방송수신부(230)를 통해 입력된 입력신호 중 기설정된 주파수 신호(클럭 신호 또는 캐리어 주파수 신호)는 필터부를 통과하여 처리될 수 있다. 방송수신부(230)에서 수신되는 입력신호의 종류는 한정되지 않으며, 예를 들어, 유선 디지털 신호, 무선 디지털 신호 및 아날로그 신호 중 적어도 하나를 수신 가능할 수 있다. 여기서, 방송수신부(230)가 아날로그 신호를 수신하는 경우, 기 설정된 주파수 신호가 추가된 입력신호를 수신할 수 있다.
디스플레이부(240)는 화면 상에 영상을 표시할 수 있는 디스플레이 패널을 포함한다. 디스플레이 패널은 액정 방식과 같은 수광 구조 또는 OLED 방식과 같은 자발광 구조로 마련된다. 디스플레이부(240)는 디스플레이 패널의 구조에 따라서 부가적인 구성을 추가로 포함할 수 있는데, 예를 들면 디스플레이 패널이 액정 방식이라면, 디스플레이부(240)는 액정 디스플레이 패널과, 광을 공급하는 백라이트유닛과, 액정 디스플레이 패널의 액정을 구동시키는 패널구동기판을 포함한다.
사용자입력부(250)는 사용자의 입력을 수행하기 위해 마련된 다양한 종류의 입력 인터페이스 관련 회로를 포함한다. 사용자입력부(250)는 전자장치(100)의 종류에 따라서 여러 가지 형태의 구성이 가능하며, 예를 들면 전자장치(100)의 기계적 또는 전자적 버튼부, 전자장치(100)와 분리된 리모트 컨트롤러, 터치패드, 디스플레이부(240)에 설치된 터치스크린 등이 있다.
저장부(260)는 디지털화된 데이터를 저장한다. 저장부(260)는 전원의 제공 유무와 무관하게 데이터를 보존할 수 있는 비휘발성 속성의 스토리지(storage)와, 프로세서(290)에 의해 처리되기 위한 데이터가 로딩되며 전원이 제공되지 않으면 데이터를 보존할 수 없는 휘발성 속성의 메모리(memory)를 포함한다. 스토리지에는 플래시메모리(flash-memory), HDD(hard-disc drive), SSD(solid-state drive) ROM(Read Only Memory) 등이 있으며, 메모리에는 버퍼(buffer), 램(RAM; Random Access Memory) 등이 있다.
마이크로폰(270)은 사용자 발화를 비롯한 외부 환경의 소리를 수집한다. 마이크로폰(270)은 수집된 소리의 신호를 프로세서(290)에 전달한다. 전자장치(100)는 사용자 음성을 수집하는 마이크로폰(270)을 구비하거나, 또는 마이크로폰을 가진 리모트 컨트롤러, 스마트폰 등의 외부장치로부터 음성신호를 수신할 수 있다. 외부장치에 리모트 컨트롤러 어플리케이션을 설치하여 전자장치(100)를 제어하거나 음성인식 등의 기능을 수행할 수도 있다. 이와 같은 어플리케이션이 설치된 외부장치의 경우, 사용자 음성을 수신할 수 있으며, 외부장치는 전자장치(100)와 Wi-Fi/BT 또는 적외선 등을 이용하여 데이터 송수신 및 제어가 가능한 바, 상기 통신 방식을 구현할 수 있는 복수의 통신부(210)가 전자장치 내에 존재할 수 있다.
스피커(280)는 프로세서(290)에 의해 처리되는 오디오 데이터를 소리로 출력한다. 스피커(280)는 어느 한 오디오 채널의 오디오 데이터에 대응하게 마련된 단위 스피커를 포함하며, 복수 오디오 채널의 오디오 데이터에 각기 대응하도록 복수의 단위 스피커를 포함할 수 있다. 본 발명에서 스피커(280)는 전자장치(100)가 다른 장치의 외부기기로서의 역할을 하는 경우, 자신의 위치를 다른 장치에 알리기 위해 소리를 출력하는 의미를 가진다. 다른 실시예로서, 스피커(280)는 전자장치(100)와 분리되어 마련될 수 있으며, 이 경우 전자장치(100)는 오디오 데이터를 신호입출력부(220)를 통하여 스피커(280)로 전달할 수 있다.
프로세서(290)는 인쇄회로기판 상에 장착되는 CPU, 칩셋, 버퍼, 회로 등으로 구현되는 하나 이상의 하드웨어 프로세서(290)를 포함하며, 설계 방식에 따라서는 SOC(system on chip)로 구현될 수도 있다. 프로세서(290)는 전자장치(100)가 디스플레이장치로 구현되는 경우에 디멀티플렉서, 디코더, 스케일러, 오디오 DSP(Digital Signal Processor), 앰프 등의 다양한 프로세스에 대응하는 모듈들을 포함한다. 여기서, 이러한 모듈들 중 일부 또는 전체가 SOC로 구현될 수 있다. 예를 들면, 디멀티플렉서, 디코더, 스케일러 등 영상처리와 관련된 모듈이 영상처리 SOC로 구현되고, 오디오 DSP는 SOC와 별도의 칩셋으로 구현되는 것이 가능하다.
프로세서(290)는 마이크로폰(270) 등에 의해 획득한 음성신호를 음성데이터로 변환하고, 변환된 음성데이터를 처리한다. 그 후, 프로세서(290)는 처리된 음성데이터에 기초하여 음성 인식을 수행하고 음성데이터가 나타내는 커맨드를 식별하고, 식별된 커맨드에 따라서 동작을 수행한다. 음성데이터는 음성신호를 텍스트 데이터로 변환하는 STT(Speech-to-Text) 처리 과정을 통해 얻어진 텍스트 데이터일 수 있다. STT 처리 과정을 거친 경우, STT서버와 다른 서버 또는 STT서버 역할도 하는 서버, 해당 서버에서 데이터를 처리하여 전자장치로 전송한 정보/데이터를 기반으로 특정 기능을 수행할 수도 있다. 음성데이터 처리 과정과, 커맨드 식별 및 수행 과정은, 전자장치(100)에서 모두 실행될 수도 있다. 그러나, 이 경우에 전자장치(100)에 필요한 시스템 부하 및 소요 저장용량이 상대적으로 커지게 되므로, 적어도 일부의 과정은 네트워크를 통해 전자장치(100)와 통신 가능하게 접속되는 적어도 하나의 서버에 의해 수행될 수 있다.
본 발명의 일 실시예에 따르면, 프로세서(290)는 마이크로폰(270) 등에 의해 사용자(130)의 발화음성을 수신한다. 다만, 사용자(130)의 발화음성을 수신할 때, 본 발명의 전자장치(100)는 사용자의 발화음성 외에도, 전자장치(100)의 주변에 설치된 다른 외부기기(110, 120)로부터 나오는 소리, 즉, 노이즈를 함께 수신할 수 있다. 프로세서(290)는 수신한 소리를 처리하는 과정에서 이러한 노이즈들을 제거하여 사용자의 발화음성에 대응하는 동작을 수행하도록 제어한다. 노이즈를 제거하는 과정에 대해서는 뒤에서 자세히 설명한다.
본 발명에 따른 프로세서(290)는 전자장치(100)와 같은 기기(Machine)가 읽을 수 있는 저장 매체(Storage Medium)에 저장된 소프트웨어의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 전자장치(100)와 같은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(Non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장매체가 실재(tangible)하는 장치이고, 신호(예컨대, 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
한편, 프로세서(290)는 마이크로폰(270) 등에 의해 사용자(130)의 발화음성 과 함께 다른 외부기기의 소리, 즉, 노이즈를 수신하고, 수신한 전체 소리에서 이러한 노이즈들을 제거하여 사용자의 발화음성에 대응하는 동작을 수행하기 위한 데이터 분석, 처리, 및 결과 정보 생성 중 적어도 일부를 규칙 기반 또는 인공지능(Artificial Intelligence) 알고리즘으로서 기계학습, 신경망 네트워크(neural network), 또는 딥러닝 알고리즘 중 적어도 하나를 이용하여 수행할 수 있다.
일 예로, 프로세서(290)는 학습부 및 인식부의 기능을 함께 수행할 수 있다. 학습부는 학습된 신경망 네트워크를 생성하는 기능을 수행하고, 인식부는 학습된 신경망 네트워크를 이용하여 데이터를 인식(또는, 추론, 예측, 추정, 판단)하는 기능을 수행할 수 있다. 학습부는 신경망 네트워크를 생성하거나 갱신할 수 있다. 학습부는 신경망 네트워크를 생성하기 위해서 학습 데이터를 획득할 수 있다. 일 예로, 학습부는 학습 데이터를 저장부(260) 또는 외부로부터 획득할 수 있다. 학습 데이터는, 신경망 네트워크의 학습을 위해 이용되는 데이터일 수 있으며, 상기한 동작을 수행한 데이터를 학습데이터로 이용하여 신경망 네트워크를 학습시킬 수 있다.
학습부는 학습 데이터를 이용하여 신경망 네트워크를 학습시키기 전에, 획득된 학습 데이터에 대하여 전처리 작업을 수행하거나, 또는 복수 개의 학습 데이터들 중에서 학습에 이용될 데이터를 선별할 수 있다. 일 예로, 학습부는 학습 데이터를 기 설정된 포맷으로 가공하거나, 필터링하거나, 또는 노이즈를 추가/제거하여 학습에 적절한 데이터의 형태로 가공할 수 있다. 학습부는 전처리된 학습 데이터를 이용하여 상기한 동작을 수행하도록 설정된 신경망 네트워크를 생성할 수 있다.
학습된 신경망 네트워크는, 복수의 신경망 네트워크(또는, 레이어)들로 구성될 수 있다. 복수의 신경망 네트워크의 노드들은 가중치를 가지며, 복수의 신경망 네트워크들은 일 신경망 네트워크의 출력 값이 다른 신경망 네트워크의 입력 값으로 이용되도록 서로 연결될 수 있다. 신경망 네트워크의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN (Bidirectional Recurrent Deep Neural Network) 및 심층 Q-네트워크 (Deep Q-Networks)과 같은 모델을 포함할 수 있다.
한편 인식부는 상기한 동작을 수행하기 위해, 타겟 데이터를 획득할 수 있다. 타겟 데이터는 저장부(260) 또는 외부로부터 획득된 것일 수 있다. 타겟 데이터는 신경망 네트워크의 인식 대상이 되는 데이터일 수 있다. 인식부는 타겟 데이터를 학습된 신경망 네트워크에 적용하기 전에, 획득된 타겟 데이터에 대하여 전처리 작업을 수행하거나, 또는 복수 개의 타겟 데이터들 중에서 인식에 이용될 데이터를 선별할 수 있다. 일 예로, 인식부는 타겟 데이터를 기 설정된 포맷으로 가공하거나, 필터링 하거나, 또는 노이즈를 추가/제거하여 인식에 적절한 데이터의 형태로 가공할 수 있다. 인식부는 전처리된 타겟 데이터를 신경망 네트워크에 적용함으로써, 신경망 네트워크로부터 출력되는 출력값을 획득할 수 있다. 인식부는 출력값과 함께, 확률값 또는 신뢰도값을 획득할 수 있다.
일 예로, 본 발명에 따른 전자장치(100)의 제어방법은 컴퓨터 프로그램 제품(Computer Program Product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예컨대, CD-ROM)의 형태로 배포되거나, 또는 어플리케이션 스토어(예컨대, 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예컨대, 스마트폰들) 간에 직접, 온라인으로 배포(예컨대, 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
도 3은 본 발명의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다. 본 실시예에서는 전자장치(100)는 사용자의 발화를 보다 정확하게 인식하기 위해, 외부기기(110, 120)로부터 발생하는 소리를 제거하고자, 외부기기(110, 120)들의 위치를 식별하는 흐름도를 도시한다. 따라서, 전자장치(100)는 외부기기(110)에 자신의 위치를 알리는 소리(제1소리)를 출력하도록 통신부(210)에 요청할 수 있다(S310). 여기서 자신의 위치를 알리는 소리란, 예컨대, 외부기기(110)가 AI스피커인 경우 "저는 AI스피커 갤럭시 홈입니다." 등의 소리일 수 있다. 이러한 소리는 사용자에게 현재 장치 간 위치를 식별하는 동작을 수행하고 있음을 알리는 의미로써 구성된 문장일 수 있으나, 사용자의 편의를 위해 비가청 주파수로 이루어질 수 있으며, 어느 하나에 한정되는 것은 아니다. 또한, 동작 S310의 요청은 사용자입력부(250)에 입력된 사용자의 명령에 기초하여 개시될 수 있다. 장치 간 위치를 식별하도록 하기 위한 사용자의 명령은, 예컨대, 리모트 컨트롤러의 버튼을 입력하거나 디스플레이 화면에 터치함으로써 이루어질 수 있다. 외부기기(110)가 제1소리를 출력하면, 전자장치(100)는 제1소리가 수신되는 방향에 기초하여 외부기기(110)의 위치를 식별한다(S320). 전자장치(100)가 외부기기(110)의 위치를 식별하는 과정은 추후 설명한다. 외부기기(110)의 위치를 식별하고 나면, 프로세서(290)는 식별된 외부기기(110)의 위치에 관한 정보를 저장부(260)에 저장한다(S330). 본 발명의 일 실시예에 따른 과정은 다른 외부기기(120)에도 동일하게 적용될 수 있다.
도 4는 본 발명의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다. 본 발명의 일 실시예에 따르면, 전자장치(100)는 외부기기(110)의 위치를 식별하는 동작을 수행하는 시점(이하, '외부기기 위치 식별'이라고도 함)이 다양할 수 있다. 전자장치(100)의 저장부(260)는 외부기기 위치 식별을 수행하기 위한 시점에 대한 정보를 저장할 수 있다. 프로세서(290)는 저장부(260)에 저장된 정보를 참조하여 외부기기 위치 식별을 수행하기 위한 시점을 판단할 수 있다(S410). 본 실시예의 저장부(260)에 저장된 정보는, 외부기기 위치 식별을 수행하기 위한 시점으로서 다음과 같은 시점을 나타낼 수 있다. 예컨대, 전자장치(100)는 최초로 설치하는 과정에서 음성인식 초기 설정을 수행한다. 이 과정에서 사용자는 전자장치(100)의 전원을 연결하고, 홈 네트워크에 연결하며, 미리 설정한 문장을 반복해서 소리 내어 읽음으로써 전자장치(100)의 음성인식 기능을 사용하기 위한 초기 설정을 한다. 이 때, TV, 냉장고 등의 대부분의 가전제품은 그 크기와 무게로 인해 사용자가 한 번 설치한 후 그 위치를 자주 변경하지 않는다고 가정한다. 따라서, 전자장치(100)는 최초로 설치되어 네트워크에 연결된 경우 외부기기 위치 식별을 실행할 수 있다. 다른 실시예로서, 저장부(260)에 저장된 정보가 나타내는 시점은, 전자장치(100) 또는 외부기기(110) 중 어느 하나가 장시간 인터넷에 연결되지 않거나, 전원이 꺼져 있었던 경우 등을 나타낼 수 있다. 즉, 전자장치(100) 또는 외부기기(110)가 장시간 미연결 혹은 전원이 오프되었다면, 이들의 위치가 변경되었다고 예측할 수 있으므로, 새로이 외부기기 위치 식별을 실행할 수 있다. 또 다른 예로는 새로운 기기가 네트워크에 연결된 경우, 이를 감지하여 새로운 외부기기의 위치를 식별할 수 있다. 도 4를 다시 참조하면, 저장부(260)에 저장된 정보가 나타내는 시점이 도래하게 되면(S420의 Yes), 전자장치(100)는 도 3의 동작 S310으로 진입하여, 앞서 언급된 설명과 동일한 과정을 실행한다. 본 실시예에 따르면, 다양한 환경에서 전자장치(100)가 외부기기(110)의 위치를 식별할 수 있어 활용도가 높다.
도 5는 본 발명의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다. 본 실시예는 도 3을 참조하여 설명한, 제1소리가 수신되는 방향에 기초하여 외부기기(110)의 위치를 식별하는 동작(S320)의 보다 구체적인 예시이다. 본 실시예에 따르면, 전자장치(100)의 저장부(260)는 수신되는 제1소리에 대하여 미리 정의된 특성을 저장한다. 여기서 제1소리의 특성이란, 제1소리의 진폭, 주파수, 주기 등 소리의 파형이 될 수 있다. 다른 실시예로서, 제1소리의 특성은 외부기기(110)의 이름, 제조사 등과 같은 외부기기(110)의 식별정보이거나, 외부기기(110)가 출력하는 제1소리에 포함된 발화의 리스트 등에 관한 정보가 될 수 있다. 따라서, 전자장치(100)가 소리를 수신(S520)하게 되면, 프로세서(290)는 수신한 소리가 저장부(260)에 저장된 제1소리의 미리 정의된 특성에 해당하는 소리인지 여부를 식별한다(S530). 프로세서(290)는, 수신된 소리가 미리 정의된 특성에 해당하는 제1소리인 것으로 식별하면(S540), 이어서 제1소리를 발생시키는 외부기기(110)의 위치를 식별하는 동작을 수행할 수 있다. 또 다른 실시예로서, 프로세서(290)는 저장부(260)에 저장된 제1소리의 특성에 기초하여, 통신부(210)를 통해 외부기기(110)에 제1소리의 특성을 가진 제1소리를 출력하도록 요청할 수 있다.
도 6은 본 발명의 일 실시예에 따른 발화리스트를 도시한 도면이다. 본 실시예는 도 5에서 설명한 미리 정의된 특성 중 하나로써 발화리스트가 저장될 수 있다. 발화리스트는 외부기기(110)가 자신의 위치를 전자장치(100)에 알리기 위한 문장들로 이루어진 리스트로써, 전자장치(100)는 외부기기(110)의 소리를 듣고 외부기기(110)의 위치를 식별할 수 있다. 또한, 발화리스트는 장치 간 위치를 식별하는 동작이 수행 중임을 사용자에게 안내하는 문구로 사용될 수 있다. 이는 도 4에 기술된 바와 같이, 외부기기 위치 식별을 수행하기 위한 시점에 대한 정보가 저장되어 있더라도, 사용자는 이에 대해 인지하지 않고 있을 수 있으므로, 문장으로 이루어진 발화리스트가 저장될 수 있다. 예컨대, 외부기기(110)가 스피커인 경우, "저는 AI 스피커 갤럭시홈입니다. 음악이 듣고 싶을 때는 저를 불러주세요."혹은 "지금 음성인식 초기설정을 위해 삼성 스마트 TV에게 저의 위치를 알리고 있습니다." 등의 소리를 반복해서 낼 수 있다. 전자장치(100)는 외부기기(110)의 예시된 소리를 듣고, 진폭, 주파수, 주기 등을 고려하여 전자장치의 위치를 식별할 수 있다.
도 7은 본 발명의 일 실시예에 따른 서버와 장치간 통신하는 것을 도시한 도면이고, 도 8은 본 발명의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다. 본 실시예에 따르면, 프로세서(290)는 통신부(210)를 통해 서버(710) 등 다른 장치로부터 외부기기(110)의 특성에 관한 정보를 수신하고(S810), 수신된 정보를 저장부(260)에 저장할 수 있다. 이는 장치간 제조사가 달라 서로의 특성에 관한 정보를 확보하기 어려운 경우에 있어서, 서버 등을 통해 특성에 관한 정보를 수신할 수 있다. 전자장치(100)는 수신하여 저장한 정보에 기초하여 외부기기(110)의 위치를 보다 용이하게 식별할 수 있다(S820).
도 9는 본 발명의 일 실시예에 따른 외부기기의 위치를 식별하는 모습을 도시한 도면이다. 소리가 발생하는 음원의 방향을 추정하는 방법에는 여러 가지가 존재한다. 그 중 도 9에 의하면, 소리가 특정영역에 도달하는 시간의 차이를 통해 음원의 위치를 식별할 수 있다. 본 실시예에 따르면, 외부기기(110)에서 소리가 발생하는 경우, 발생한 소리가 전자장치의 어느 두 지점 A와 B에 각각 도달하는 시간은 차이가 존재한다. 이 때, 소리의 속도와 각 지점에 도달하는데 걸리는 시간을 이용하여 외부기기로부터 A와 B까지의 거리를 알 수 있다. 이 때, A와 B 사이의 거리 d는 전자장치(100)와 외부기기(110)간의 거리 r에 비해서 매우 작다고 가정하면(d≪r), 전자장치와 외부기기의 지점 A와 B 사이의 거리차인 Δ
Figure pat00001
을 알 수 있고, 이를 통해 전자장치(100)와 외부기기(110) 간의 각도 θ를 알 수 있다. 따라서, 전자장치(100)는, 예컨대, A와 B와 같이 상호 이격되어 배치되는 복수의 마이크로폰(270)을 포함하고, 외부기기(110)와의 거리 r 및 각도 θ를 통해 외부기기(110)의 위치를 식별할 수 있다. 다만, 도 9에 도시된 외부기기(110)의 위치 식별 방법은, 하나의 예시에 불과하며, 본 개시에 따라 외부기기(110)의 위치를 식별하는 방법은 다양할 수 있다.
도 10은 본 발명의 일 실시예에 따른 외부기기에 관한 정보를 도시한 도면이다. 일 실시예에 따르면, 프로세서(290)는 외부기기(110)의 위치를 식별하고, 식별된 외부기기(110)의 위치에 관한 정보를 테이블(1010)의 형태로 저장부(260)에 저장할 수 있다. 이 때, 프로세서(290)는 외부기기(110)의 위치에 관한 정보를 외부기기(110)의 명칭, 거리, 방향, 연결여부 등에 매핑하여 저장할 수 있다. 예컨대, 외부기기 1의 경우 전자장치와의 거리는 r1이고, 전자장치(100)의 기준 방향에 대해서 방위각 θ1에 위치한다. 외부기기 2의 경우 전자장치(100)와의 거리는 r2이고, 방위각 θ2에 위치한다. 본 실시예의 외부기기(110)의 위치는 전자장치(100)의 기준 방향에 대한 방위각으로 나타내나, 이는 하나의 예시에 불과하며, 본 개시에 따른 외부기기(110)의 위치를 나타내는 정보는 다양할 수 있다. 또한, 외부기기(110)가 연결되지 않은 경우 외부기기(110)가 위치한 방향으로 들려오는 소리는 제거대상이 아니므로, 외부기기(110)의 네트워크나 전원 연결여부에 관한 정보 또한 저장할 수 있다. 외부기기(110)의 명칭 등 기타 정보들은 통신부(210)를 통하여 외부기기(110)로부터 수신할 수 있다.
도 11은 본 발명의 일 실시예에 따른 전자장치가 수신되는 소리를 처리하는 상황을 도시하며, 도 12는 본 실시예의 전자장치가 수행하는 동작의 흐름도를 도시하며, 도 13은 본 실시예의 전자장치가 소리를 처리하는 노이즈 제거 블록을 도시한다. 도 11을 참조하면, 사용자(130)가 전자장치(100)의 음성인식 기능을 사용하고자 할 때, 사용자(130)의 발화에 의한 음성(S1)외에도 외부기기(110, 120)로부터 발생하는 소리(S2, S3)가 존재한다고 가정한다. 먼저, 도 12를 참조하면, 전자장치(100)는 마이크로폰(270)을 통해 소리(이하, '제2소리'라고도 함)를 수신한다(S1210). 이 경우, 도 11 및 13에 도시된 바와 같이, 전자장치(100)는 사용자(130)의 발화음성(S1)과 외부기기(110, 120)의 소리(S2, S3)를 합친 제2소리(S)를 마이크로폰(270)으로부터 획득하게 된다.
다음으로, 도 12를 참조하면, 전자장치(100)의 프로세서(290)는 수신되는 제2소리(S)의 신호에서 외부기기(110, 120)의 위치로부터 수신되는 소리에 대응하는 노이즈 성분을 제거한다(S1220). 이 때, 전자장치(100)가 사전에 식별해 둔 외부기기(110, 120)의 위치에 관한 정보(도 10의 1010 참조)에 기초하여, 전자장치(100)의 프로세서(290)는 획득한 제2소리(S)의 신호 중에 포함된 노이즈 성분(S2, S3)이 발생되는 외부기기(110, 120)의 위치를 판단할 수 있다. 따라서, 프로세서(290)는 획득한 제2소리(S)의 신호 중에서 외부기기(110, 120)의 노이즈 성분(S2, S3)을 분리하여 제거할 수 있다.
제2소리(S)의 신호 중에서 외부기기(110, 120)의 노이즈 성분(S2, S3)을 분리 제거하기 위하여, 도 13에 도시된 바와 같이, 전자장치(100)의 프로세서(290)는 노이즈 제거 블록(1310)을 포함할 수 있다. 노이즈 제거 블록(1310)은 하드웨어 및/또는 소프트웨어의 조합으로 구현될 수 있다. 프로세서(290)의 노이즈 제거 블록(1310)은, 빔포밍 기술을 사용하여 제2소리(S)의 신호 중에서 외부기기(110, 120)의 노이즈 성분(S2, S3)을 분리하여 사용자의 발화음성(S1)을 추출할 수 있다. 구체적으로, 노이즈 제거 블록(1310)은 주파수 영역에서 국소 푸리에 변환을 이용해 제2소리(S)의 신호를 일정한 주파수 범위로 나누어 분리한 후, 각자 다른 방향에서 오는 신호 중 겹치는 주파수 범위를 제거함으로써 신호를 분리한다. 프로세서(290)는 도 10에 도시된 바와 같은 테이블(1010)을 참조하여, 노이즈가 발생될 수 있는 외부기기(110, 120)가 존재하는지 여부를 확인한다. 예컨대, 프로세서(290)는 테이블(1010)에서, 네트워크 및 전원이 연결되어 있는 외부기기 1 및 2(110, 120)가 존재하는 것으로 확인한다. 이어, 도 13에 도시된 바와 같이, 프로세서(290)는 외부기기 1 및 2(110, 120)의 위치 정보(θ1, θ2)를 이용하여, 제2소리(S)의 신호 중에서 외부기기(110, 120)의 노이즈 성분(S2, S3)에 대응하는 주파수 범위를 제거하여 제2소리(S)의 신호 중 사용자의 발화음성(S1)을 추출할 수 있다. 마지막으로, 도 12를 다시 참조하면, 프로세서(290)는 노이즈 성분(S2, S3)이 제거된 신호(S1)에 기초하여 사용자의 발화음성을 인식한다(S1230).
본 발명의 일 실시예에 따르면, 전자장치(100)는 외부기기의 존재 및 위치를 식별하여, 외부기기가 존재하는 방향으로부터 발생하는 소리는 노이즈로 구분하므로, 획득된 제2소리(S) 중 노이즈가 되는 신호를 구별하여 제거한 뒤 사용자의 발화음성(S1)을 얻을 수 있다. 즉, 일 실시예에 따르면, 획득된 제2소리(S)의 신호 중 어느 것이 사용자의 발화음성인지, 외부기기로 발생하는 소리인지를 구별함으로써, 단순히 소리의 크기 차이를 이용하여 큰 소리가 발생하는 방향을 유효한 방향으로 두고, 이에 포커스를 맞추어 사용자의 발화음성을 분리하는 기존 기술에 비하여, 사용자의 발화음성을 인식함에 있어 정확성을 높일 수 있고, 외부기기의 위치를 미리 식별해 두어 음성 처리의 속도가 빠르다.
도 14는 본 발명의 일 실시예에 따른 전체 시스템을 도시한 도면이고, 도 15는 해당 시스템에 따른 전자장치의 동작 흐름도를 도시한 도면이다. 앞선 실시예에 따르면, 전자장치(100)가 외부기기(110, 120)로부터 발생하는 소리를 수신하여 이들의 위치를 식별하였으나, 본 도면에서는 전자장치(100)뿐만 아니라 외부기기(110, 120)들도 각자의 위치에서 나머지 장치들의 위치를 식별하여 상호간의 위치를 모두 파악할 수 있도록 한다. 이는 도 4에서 기술된 외부기기 위치 식별을 실행하는 시점에 도래한 경우, 각 장치들을 상호간의 위치를 파악할 수 있다. 본 발명의 일 실시예에 따르면, 전자장치(100)의 프로세서(290)는 통신부(210)를 통해 네트워크에 연결되어 있는 외부기기의 목록을 수신할 수 있고, 이를 저장부(260)에 저장할 수 있다(S1510). 프로세서는 목록에 존재하는 외부기기의 위치를 식별하고 저장할 수 있다(S1520). 이 과정을 마친 뒤, 프로세서(290)는 기 저장한 네트워크에 연결되어 있는 외부기기의 목록을 참조하여 목록에 존재하는 모든 외부기기의 위치를 식별하였는지 여부를 판단한다(S1530). 목록에 존재하는 모든 외부기기의 위치를 식별하였다면(S1530의 Yes), 프로세서(290)는 동작을 종료한다. 만약 위치를 식별하지 않은 외부기기가 존재한다면(S1530의 No), 프로세서(290)는 다시 식별하지 않은 외부기기의 위치를 식별하는 과정을 수행한다. 이와 같은 과정은 전자장치에 대해 완료된 경우, 각 외부기기에 대해서도 마찬가지로 수행한다. 따라서 한정된 공간 내에 존재하고, 네트워크에 연결된 모든 기기들은 자신이 아닌 다른 외부기기의 위치를 식별할 수 있고 본 발명이 적용 가능하다.
도 16은 본 발명의 일 실시예에 따른 음성처리 후 시스템을 도시한 도면이다. 본 실시예에 따르면, 도 13과 같이, 노이즈 제거블록(1310)에서 사용자의 발화 음성(S1)을 획득하는 음성 전처리 과정을 거친 뒤에는, 전자장치(100)의 통신부는 장치 간을 연결하는 블루투스 모듈(1610)을 이용해 외부기기(110, 120)의 볼륨을 조절하도록 제어명령을 외부기기의 통신부로 전송한다. 외부기기의 제어부(1620)는 이에 따라 외부기기의 볼륨을 조절한다. 이 때, 전자장치(100)에서 사용자의 음성인식이 완료되면 자동으로 타 기기의 볼륨이 원래 상태로 복구되도록 설정한다. 블루투스 모듈의 경우 와이파이로 쉽게 대체 가능하다. 다만, 본 실시예는 도 13과 같은 음성 전처리 과정을 통해 얻은 발화 음성뿐만 아니라, 전자장치가 외부기기의 노이즈 영향이 없는 것으로 확인되는 경우 등에도 적용 가능하고 어느 하나에 한정되는 것은 아니다.
전자장치: 100
통신부: 210
신호입출력부: 220
방송수신부: 230
디스플레이부: 240
사용자입력부: 250
저장부: 260
마이크로폰: 270
스피커: 280
프로세서: 290

Claims (20)

  1. 전자장치에 있어서,
    마이크로폰;
    외부기기와 통신하는 통신부; 및
    상기 통신부를 통하여 상기 외부기기에 제1소리를 출력하도록 요청하고,
    상기 마이크로폰에 상기 제1소리가 수신되는 방향에 기초하여 식별된 상기 외부기기의 위치에 관한 정보에 기초하여, 상기 마이크로폰에 수신되는 제2소리의 신호에서 상기 외부기기의 위치로부터 수신되는 소리에 대응하는 노이즈 성분을 제거하고,
    상기 노이즈 성분이 제거된 신호에 기초하여 사용자의 발화를 인식하는 프로세서를 포함하는 전자장치.
  2. 제1항에 있어서, 상기 프로세서는, 상기 제1소리에 대하여 미리 정의된 특성에 기초하여 상기 제1소리가 수신되는지 여부를 식별하는 전자장치.
  3. 제1항에 있어서,
    저장부를 더 포함하고,
    상기 프로세서는, 상기 마이크로폰에 상기 제1소리가 수신되는 방향에 기초하여 상기 외부기기의 위치를 식별하고,
    상기 식별된 외부기기의 위치에 관한 정보를 상기 저장부에 저장하는 전자장치.
  4. 제2항에 있어서,
    상기 특성은, 상기 외부기기의 위치 식별 동작에 관한 안내 관련 정보를 포함하는 전자장치.
  5. 제2항에 있어서,
    상기 특성은, 비가청 주파수 대역을 포함하는 전자장치.
  6. 제2항에 있어서,
    상기 프로세서는, 상기 외부기기에 상기 특성을 가지는 제1소리를 출력하도록 요청하는 전자장치.
  7. 제2항에 있어서,
    상기 프로세서는, 상기 통신부를 통해 서버로부터 상기 특성을 수신하는 전자장치.
  8. 제1항에 있어서,
    사용자입력부를 더 포함하고,
    상기 프로세서는, 상기 사용자입력부에 입력된 사용자의 명령에 기초하여, 상기 외부기기의 위치를 식별하는 전자장치.
  9. 제1항에 있어서,
    상기 저장부는 상기 외부기기의 위치 식별을 실행하는 시점에 관한 정보를 저장하고,
    상기 프로세서는, 상기 저장된 정보에 기초하여 상기 실행하는 시점에 상기 외부기기의 위치를 식별하는 전자장치.
  10. 제1항에 있어서,
    상기 프로세서는,
    상기 통신부를 통해 서버로부터 상기 외부기기의 정보를 수신하고,
    상기 수신된 정보에 기초하여, 상기 외부기기의 위치를 식별하는 전자장치.
  11. 제1항에 있어서,
    스피커를 더 포함하고,
    상기 프로세서는,
    상기 통신부를 통하여 상기 외부기기로부터 상기 전자장치의 위치 식별을 위한 제3소리의 출력 요청을 수신하고,
    상기 스피커가 상기 제3소리를 출력하도록 제어하는 전자장치.
  12. 전자장치의 제어방법에 있어서,
    통신부를 통해 외부기기와 통신하여 상기 외부기기에 제1소리를 출력하도록 요청하는 단계;
    마이크로폰에 상기 제1소리가 수신되는 방향에 기초하여 식별된 외부기기의 위치에 관한 정보에 기초하여, 상기 마이크로폰에 수신되는 제2소리의 신호에서 상기 외부기기의 위치로부터 수신되는 소리에 대응하는 노이즈 성분을 제거하는 단계; 및
    상기 노이즈 성분이 제거된 신호에 기초하여 사용자의 발화를 인식하는 단계를 포함하는 전자장치의 제어방법.
  13. 제11항에 있어서,
    상기 제1소리에 대하여 미리 정의된 특성을 저장하는 단계; 및
    상기 미리 정의된 특성에 기초하여 상기 제1소리가 수신되는지 여부를 식별하는 단계를 포함하는 전자장치의 제어방법.
  14. 제12항에 있어서,
    상기 마이크로폰에 상기 제1소리가 수신되는 방향에 기초하여 상기 외부기기의 위치를 식별하는 단계;
    상기 식별된 외부기기의 위치에 관한 정보를 저장부에 저장하는 단계를 포함하는 전자장치의 제어방법.
  15. 제12항에 있어서,
    상기 특성은, 상기 외부기기의 위치 식별 동작에 관한 안내 관련 정보를 포함하는 전자장치의 제어방법.
  16. 제12항에 있어서,
    상기 특성은, 비가청 주파수 대역을 포함하는 전자장치의 제어방법.
  17. 제12항에 있어서,
    상기 외부기기에 상기 특성을 가지는 제1소리를 출력하도록 요청하는 단계를 포함하는 전자장치의 제어방법.
  18. 제12항에 있어서,
    상기 통신부를 통해 서버로부터 상기 특성에 관한 정보를 수신하는 단계;
    상기 수신된 정보를 상기 저장부에 저장하는 단계를 포함하는 전자장치의 제어방법.
  19. 제11항에 있어서,
    사용자입력부에 입력된 사용자의 명령에 기초하여, 상기 외부기기의 위치를 식별하는 단계를 포함하는 전자장치의 제어방법.
  20. 제11항에 있어서,
    상기 외부기기의 위치 식별을 실행하는 시점에 관한 정보를 저장하는 단계;
    상기 저장된 정보에 기초하여 상기 실행하는 시점에 상기 외부기기의 위치를 식별하는 단계를 포함하는 전자장치의 제어방법.
KR1020190140145A 2019-11-05 2019-11-05 전자장치 및 그 제어방법 KR20210054246A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190140145A KR20210054246A (ko) 2019-11-05 2019-11-05 전자장치 및 그 제어방법
PCT/KR2020/011937 WO2021091063A1 (ko) 2019-11-05 2020-09-04 전자장치 및 그 제어방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190140145A KR20210054246A (ko) 2019-11-05 2019-11-05 전자장치 및 그 제어방법

Publications (1)

Publication Number Publication Date
KR20210054246A true KR20210054246A (ko) 2021-05-13

Family

ID=75848890

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190140145A KR20210054246A (ko) 2019-11-05 2019-11-05 전자장치 및 그 제어방법

Country Status (2)

Country Link
KR (1) KR20210054246A (ko)
WO (1) WO2021091063A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117040940A (zh) * 2023-10-10 2023-11-10 成都运荔枝科技有限公司 一种基于物联网的设备数据加密方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101082839B1 (ko) * 2008-12-22 2011-11-11 한국전자통신연구원 다채널 잡음처리 장치 및 방법
JP2011118124A (ja) * 2009-12-02 2011-06-16 Murata Machinery Ltd 音声認識システムと認識方法
KR102398390B1 (ko) * 2017-03-22 2022-05-16 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
JP2019176332A (ja) * 2018-03-28 2019-10-10 株式会社フュートレック 音声抽出装置及び音声抽出方法
KR102260216B1 (ko) * 2019-07-29 2021-06-03 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117040940A (zh) * 2023-10-10 2023-11-10 成都运荔枝科技有限公司 一种基于物联网的设备数据加密方法
CN117040940B (zh) * 2023-10-10 2023-12-19 成都运荔枝科技有限公司 一种基于物联网的设备数据加密方法

Also Published As

Publication number Publication date
WO2021091063A1 (ko) 2021-05-14

Similar Documents

Publication Publication Date Title
KR102513297B1 (ko) 전자 장치 및 전자 장치의 기능 실행 방법
CN110431623B (zh) 电子设备及其控制方法
US11004453B2 (en) Avoiding wake word self-triggering
US20180033427A1 (en) Speech recognition transformation system
WO2016157782A1 (ja) 音声認識システム、音声認識装置、音声認識方法、および制御プログラム
KR102512614B1 (ko) 오디오 개선을 지원하는 전자 장치 및 이를 위한 방법
US10976997B2 (en) Electronic device outputting hints in an offline state for providing service according to user context
US20210134302A1 (en) Electronic apparatus and method thereof
WO2021091063A1 (ko) 전자장치 및 그 제어방법
US11244676B2 (en) Apparatus for processing user voice input
KR20210078682A (ko) 전자장치 및 그 제어방법
US11942089B2 (en) Electronic apparatus for recognizing voice and method of controlling the same
KR20210029354A (ko) 전자장치 및 그 제어방법
KR20220015306A (ko) 전자장치 및 그 제어방법
KR102204488B1 (ko) 통신 장치
KR20210059367A (ko) 음성 입력 처리 방법 및 이를 지원하는 전자 장치
US11600275B2 (en) Electronic device and control method thereof
KR20210044606A (ko) 웨이크업 모델 생성 방법 및 이를 위한 전자 장치
US20210193144A1 (en) Electronic apparatus and control method thereof
WO2024077588A1 (en) Voice-based user authentication
US20220165298A1 (en) Electronic apparatus and control method thereof
US11412291B2 (en) Electronic device and control method thereof
US20220139413A1 (en) Electronic apparatus and method of controlling the same
KR20210088401A (ko) 전자장치 및 그 제어방법
KR20220033325A (ko) 음성 인식을 위한 전자장치 및 그 제어방법