KR20160089145A - 음성 인식 방법 및 음성 인식 장치 - Google Patents

음성 인식 방법 및 음성 인식 장치 Download PDF

Info

Publication number
KR20160089145A
KR20160089145A KR1020150008713A KR20150008713A KR20160089145A KR 20160089145 A KR20160089145 A KR 20160089145A KR 1020150008713 A KR1020150008713 A KR 1020150008713A KR 20150008713 A KR20150008713 A KR 20150008713A KR 20160089145 A KR20160089145 A KR 20160089145A
Authority
KR
South Korea
Prior art keywords
speech recognition
speech signal
user
signal
speech
Prior art date
Application number
KR1020150008713A
Other languages
English (en)
Other versions
KR102387567B1 (ko
Inventor
문민영
최영상
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150008713A priority Critical patent/KR102387567B1/ko
Priority to US14/993,439 priority patent/US9953647B2/en
Publication of KR20160089145A publication Critical patent/KR20160089145A/ko
Application granted granted Critical
Publication of KR102387567B1 publication Critical patent/KR102387567B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

음성 인식 방법 및 음성 인식 장치가 개시된다. 개시된 음성 인식 방법은 복수의 장치들에 수신된 사용자의 음성 신호들의 SNR(Signal to Noise Ratio)들을 계산하고, 상기 SNR들 중 최대 SNR을 가지는 기준 음성 신호를 인식할 수 있다. 개시된 음성 인식 장치는 사용자의 기준 음성 신호를 수신하는 수신부; 및 상기 음성 신호로부터 계산된 SNR이 다른 음성 인식 장치에서 수신한 상기 사용자의 음성 신호의 SNR보다 큰 경우, 상기 기준 음성 신호를 인식하는 처리부를 포함할 수 있다.

Description

음성 인식 방법 및 음성 인식 장치{METHOD AND APPARATUS FOR SPEECH RECOGNITION}
아래 실시예들은 음성 인식 방법 및 음성 인식 장치에 관한 것이다.
음성 인터페이스는 터치 인터페이스 보다 자연스럽고 직관적인 인터페이스이다. 이에 따라, 음성 인터페이스는 터치 인터페이스의 단점을 보완할 수 있는 차세대 인터페이스로 각광받고 있다. 음성 인터페이스에 있어서 가장 핵심은 음성 인식 기술의 정확도이다. 이에 따라, 음성 인식 기술의 정확도를 높이기 위한 다양한 기법들이 제안됨에 따라 음성 인식 기술은 점점 발전하고 있다.
다만, 이러한 음성 인식 기술의 발전에도 불구하고 음성 신호를 소음 환경에서 수신하거나 사용자와 음성 인식 장치와의 거리가 먼 경우에는 음성 인식 기술에 관한 최적의 성능을 보장하기 어렵다.
일실시예에 따른 음성 인식 방법은 복수의 장치들에 수신된 사용자의 음성 신호들의 SNR(Signal to Noise Ratio)들을 계산하는 단계; 및 상기 SNR들 중 최대 SNR을 가지는 기준 음성 신호를 인식하는 단계를 포함할 수 있다.
일실시예에 따른 음성 인식 방법에서 상기 SNR들을 계산하는 단계는, 상기 음성 신호들에 포함된 사용자의 음성과 노이즈를 분리함으로써 상기 SNR들을 계산할 수 있다.
일실시예에 따른 음성 인식 방법에서 상기 기준 음성 신호를 인식하는 단계는, 상기 기준 음성 신호를 수신한 기준 장치의 사용 가능한 리소스 용량에 기초하여 상기 복수의 장치들 중에서 상기 기준 음성 신호를 인식할 장치를 결정하고, 상기 결정된 장치에서 상기 기준 음성 신호를 인식할 수 있다.
일실시예에 따른 음성 인식 방법에서 상기 기준 음성 신호를 인식하는 단계는, 상기 사용 가능한 리소스 용량이 미리 결정된 임계값보다 큰 경우, 상기 기준 장치에서 상기 기준 음성 신호를 인식할 수 있다.
일실시예에 따른 음성 인식 방법에서 상기 기준 음성 신호를 인식하는 단계는, 상기 사용 가능한 리소스 용량이 미리 결정된 임계값보다 작은 경우, 상기 기준 음성 신호 또는 상기 기준 음성 신호로부터 추출된 특징값을 다른 장치로 전송하여 상기 다른 장치에서 상기 음성 신호를 인식할 수 있다.
일실시예에 따른 음성 인식 방법에서 상기 SNR들을 계산하는 단계는, 상기 복수의 장치들 중 배터리 상태가 미리 결정된 임계값보다 작은 장치가 존재하는 경우, 상기 배터리 상태가 미리 결정된 임계값보다 작은 장치에서 수신한 음성 신호를 다른 장치로 전송하여 SNR을 계산할 수 있다.
일실시예에 따른 음성 인식 방법에서 상기 최대 SNR을 가지는 장치는, 상기 복수의 장치들로부터 SNR들을 수신한 다른 장치에 의해 결정되거나 또는 상기 복수의 장치들 간의 통신을 통해 결정될 수 있다.
일실시예에 따른 음성 인식 방법은 상기 사용자가 상기 복수의 장치들 중 어느 하나의 장치에 대해 명령하는지 여부를 판단하는 단계; 및 상기 사용자가 상기 복수의 장치들 중 어느 하나의 장치에 대해 명령하는 것으로 판단된 경우, 상기 복수의 장치들을 통해 상기 음성 신호들을 수신하는 단계를 더 포함할 수 있다.
일실시예에 따른 음성 인식 방법은 상기 음성 신호를 인식하여 상기 사용자의 명령을 확인하고, 상기 명령에 해당하는 장치로 상기 사용자의 명령을 전송하는 단계를 더 포함하고, 상기 명령에 해당하는 장치는, 상기 명령을 수행할 수 있다.
일실시예에 따른 음성 인식 방법에서 상기 복수의 장치들은, 상기 사용자 주변의 서로 다른 포지션에 위치할 수 있다.
일실시예에 따른 음성 인식 방법에서 상기 복수의 장치들은, IoT(Internet of Things) 환경에서 사물에 대응할 수 있다.
일실시예에 따른 음성 인식 방법에서 상기 복수의 장치들은, 스마트폰, 스마트TV, 스마트 시계, 스마트 세탁기, 스마트 카메라, 스마트 오디오, 스마트 자전거, 스마트 안경, 리모트 컨트롤러, 스마트 냉장고, 스마트 에어컨디셔너, 랩탑, PDA 및 테블릿 중 적어도 하나를 포함할 수 있다.
일실시예에 따른 음성 인식 장치는 사용자의 기준 음성 신호를 수신하는 마이크로폰; 및 상기 음성 신호로부터 계산된 SNR이 다른 음성 인식 장치에서 수신한 상기 사용자의 음성 신호의 SNR보다 큰 경우, 상기 기준 음성 신호를 인식하는 처리부를 포함할 수 있다.
도 1은 일실시예에 따라 음성 인식 장치가 동작하는 환경을 도시한 도면이다.
도 2는 일실시예에 따른 음성 인식 장치를 나타낸 도면이다.
도 3은 일실시예에 따라 복수의 음성 인식 장치들을 통해 사용자의 음성 신호를 인식하는 예시를 설명하기 위한 도면이다.
도 4는 일실시예에 따른 음성 인식 방법을 설명하기 위한 도면이다.
도 5는 다른 일실시예에 따른 음성 인식 방법을 설명하기 위한 도면이다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 아래의 특정한 구조적 내지 기능적 설명들은 단지 실시예들을 설명하기 위한 목적으로 예시된 것으로, 실시예의 범위가 본문에 설명된 내용에 한정되는 것으로 해석되어서는 안된다. 관련 기술 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 또한, 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타내며, 공지된 기능 및 구조는 생략하도록 한다.
도 1은 일실시예에 따라 음성 인식 장치가 동작하는 환경을 도시한 도면이다.
음성 인식 장치는 사용자의 음성 신호를 인식할 수 있는 장치를 나타낸다. 음성 인식 장치는 사용자의 음성 신호로부터 특징값을 추출하고, 음향 모델(acoustic model) 및 언어 모델(language model)에 기초하여 특징값으로부터 음성 인식 결과인 텍스트를 생성할 수 있다. 음성 인식 장치는 음성 인식을 수행하기 위한 각종 모듈들로 구성될 수 있고, 음성 인식 장치를 구성하는 각종 모듈들은 하드웨어 모듈, 소프트웨어 모듈, 또는 이들의 조합으로 구현될 수 있다. 소프트웨어 모듈은 적어도 하나의 프로세서에 의하여 구동될 수 있다.
음성 인식 장치는 사용자의 음성 신호를 처리할 수 있는 기기라면 그 종류에 제한이 없다. 음성 인식 장치는 모바일 디바이스, 웨어러블 디바이스, 고정형 디바이스 등과 같은 다양한 형태로 존재할 수 있는데, 예를 들어, 음성 인식 장치에는 스마트폰, 스마트TV, 스마트 시계, 스마트 세탁기, 스마트 카메라, 스마트 오디오, 스마트 자전거, 스마트 안경, 리모트 컨트롤러, 스마트 냉장고, 스마트 에어컨디셔너, 랩탑, PDA 및 테블릿 등이 포함될 수 있다. 나아가, 음성 인식 장치에 통신 기능이 더해지면서, 음성 인식 장치들이 통신 네트워크로 서로 연결되고 음성 인식 장치들 간의 정보 공유가 가능해 질 수 있다.
도 1을 참조하면, 전술한 음성 인식 장치들이 모여 음성 인식 시스템(100)을 구성할 수 있다. 음성 인식 시스템(100)은 복수의 음성 인식 장치들을 통해 사용자(110)의 음성 신호를 수신하고, 음성 인식을 수행할 수 있다.
예를 들어, 음성 인식 시스템(100)은 복수의 음성 인식 장치들 중 어느 하나에서 수신한 사용자(110)의 음성 신호를 인식하도록 복수의 음성 인식 장치들을 제어할 수 있다. 이 때, 음성 인식 시스템(100)은 복수의 음성 인식 장치들에서 수신된 음성 신호들 중에서 사용자(110)의 음성을 가장 명확하게 포함하고 있는 기준 음성 신호를 식별하고, 기준 음성 신호에 대해 음성 인식을 수행할 수 있다.
복수의 음성 인식 장치들은 사용자(110) 주변의 서로 다른 포지션에 위치할 수 있다. 그래서, 복수의 음성 인식 장치들이 수신한 음성 신호는 복수의 음성 인식 장치들이 위치한 주변 환경에 따라 서로 다른 크기의 사용자(110)의 음성을 포함하거나 서로 다른 크기의 노이즈를 포함할 수 있다.
예를 들어, 도 1에 도시된 음성 인식 시스템(100)은 생활 속 사물들을 유무선 네트워크로 연결하여 정보를 공유하는 IoT(Internet of Things) 환경에 대응할 수 있다. 음성 인식 시스템(100)에 포함된 복수의 음성 인식 장치들은 IoT 환경의 사물에 대응할 수 있다.
도 2는 일실시예에 따른 음성 인식 장치를 나타낸 도면이다.
도 2를 참조하면, 음성 인식 장치(200)는 마이크로폰(210), 처리부(220) 및 통신부(230)를 포함할 수 있다.
마이크로폰(210)는 사용자의 음성 신호를 수신한다. 이하, 설명의 편의를 위해 음성 인식 장치(200)가 수신하는 음성 신호를 기준 음성 신호라고 하고, 다른 음성 인식 장치가 수신하는 음성 신호와 구별될 수 있게 한다.
일례로, 마이크로폰(210)는 초저전력 센서로 구성되어 항상 온 모드로 동작하여 기준 음성 신호를 수신할 수 있다. 다른 일례로, 마이크로폰(210)는 음성 인식 장치(200)가 플러그인됨에 따라 오프 모드에서 온 모드로 전환하여 기준 음성 신호를 수신할 수 있다. 또 다른 일례로, 마이크로폰(210)는 다른 음성 인식 장치로부터 트리거링 신호를 수신함에 따라 슬립 모드에서 온 모드로 전환하여 기준 음성 신호를 수신할 수 있다. 또한, 처리부(220)에 의해 사용자가 음성 인식 장치 또는 다른 음성 인식 장치에 대해 명령하는 것으로 판단되는 경우, 마이크로폰(210)는 슬립 모드에서 온 모드로 전환하여 기준 음성 신호를 수신할 수도 있다.
처리부(220)는 기준 음성 신호의 SNR을 계산할 수 있다. SNR은 노이즈와 인식하고자 하는 사용자의 음성에 해당하는 신호의 비율을 나타내는 것으로서, SNR의 수치가 클수록 기준 음성 신호에 포함된 노이즈가 적다는 것을 의미할 수 있다. 따라서, SNR이 큰 기준 음성 신호일수록 처리부(220)는 높은 인식률로 음성 인식을 수행할 수 있다.
여기서, 음성 신호의 SNR는 음성 신호에 포함된 사용자의 음성을 트랙킹하고, 사용자의 음성을 제외한 성분(예를 들어, 노이즈)로부터 사용자의 음성을 분리함으로써 계산될 수 있다. 이러한 방법을 'speech tracking and separation'이라고 한다. 사용자의 음성은 해당 음성의 기본 주파수(fundamental frequency)를 식별함으로써 음성 신호에서 분리될 수 있다. 이러한 방법을 통해, 음성 신호에 두 명의 사용자의 음성들이 포함되어 있더라도 각 음성의 기본 주파수를 식별함으로써 두 명의 사용자의 음성들을 음성 신호에서 분리할 수 있다. 다만, 음성 신호의 SNR을 계산하는 실시예의 범위가 이러한 설명에 한정되는 것은 아니며, 음성 신호의 SNR을 계산할 수 있는 다양한 방법을 통해 SNR을 구할 수 있다.
여기서, 음성 인식하고자 하는 타겟 음성은 사용자가 미리 음성 인식 장치(200)에 입력할 수 있고, 또는 사용자가 음성 인식 장치(200)를 계속해서 사용함에 따라 음성 인식 장치(200)에 의해 설정될 수도 있다. 예를 들어, 음성 인식 장치(200)는 수신되는 기준 음성 신호를 분석하여 가장 빈번하게 인식되는 기준 음성 신호에 포함된 사용자의 음성을 타겟 음성으로 설정할 수 있다.
처리부(220)는 기준 음성 신호의 SNR이 다른 음성 인식 장치에서 수신한 사용자의 음성 신호의 SNR보다 큰지 여부를 판단할 수 있다. 일례로, 처리부(220)는 다른 음성 인식 장치와의 통신을 통해 다른 음성 인식 장치에서 계산된 SNR을 수신하여 SNR의 크기를 비교할 수 있다. 다른 일례로, 처리부(220)는 계산된 SNR을 미리 결정된 음성 인식 장치로 전송하고, 미리 결정된 음성 인식 장치에서 SNR들을 비교한 결과를 수신할 수 있다.
기준 음성 신호의 SNR이 다른 음성 인식 장치에서 수신한 사용자의 음성 신호의 SNR보다 큰 경우, 처리부(220)는 기준 음성 신호를 인식할 수 있다. 예를 들어, 처리부(220)는 사용할 수 있는 리소스 용량을 고려하여 음성 인식 장치(200)에서 음성 인식을 수행할지 또는 다른 음성 인식 장치에서 음성 인식을 수행할지 여부를 결정할 수 있다. 만약 사용할 수 있는 리소스 용량이 미리 결정된 임계값보다 큰 경우, 처리부(220)는 기준 음성 신호를 인식할 수 있다. 만약 사용할 수 있는 리소스 용량이 미리 결정된 임계값보다 작은 경우, 처리부(220)는 다른 음성 인식 장치에서 음성 인식을 수행하는 것으로 결정하고, 기준 음성 신호 또는 기준 음성 신호로부터 추출된 특징값을 다른 음성 인식 장치로 전송할 수 있다.
통신부(330)는 다른 음성 인식 장치들과 통신을 수행할 수 있다. 예를 들어, 통신부(330)는 계산된 SNR, 기준 음성 신호 또는 기준 음성 신호로부터 추출된 특징값 등을 다른 음성 인식 장치로 전송하거나 다른 음성 인식 장치로부터 수신할 수 있다.
도 3은 일실시예에 따라 복수의 음성 인식 장치들을 통해 사용자의 음성 신호를 인식하는 예시를 설명하기 위한 도면이다.
도 3을 참조하면, 음성 인식 시스템은 제1 음성 인식 장치(310), 제2 음성 인식 장치(320) 및 제3 음성 인식 장치(330)를 포함할 수 있다. 제1 음성 인식 장치(310), 제2 음성 인식 장치(320) 및 제3 음성 인식 장치(330)는 내장된 마이크로폰을 통해 사용자의 음성 신호를 수신하고, 처리부를 통해 SNR 계산 및 음성 인식을 수행할 수 있으며, 통신부를 통해 다른 장치와 통신을 수행할 수 있다.
설명의 편의를 위해, 제1 음성 인식 장치(310)에서 수신한 사용자의 음성 신호는 제1 음성 신호로 나타내고, 제2 음성 인식 장치(320)에서 수신한 사용자의 음성 신호는 제2 음성 신호로 나타내고, 제3 음성 인식 장치(330)에서 수신한 사용자의 음성 신호는 제3 음성 신호로 나타낼 수 있다. 그리고, 도 3에서는 음성 인식 시스템에 포함된 음성 인식 장치가 3개인 것으로 도시되어 있으나, 이는 설명의 편의를 위한 것일 뿐 실시예의 범위가 이에 한정되는 것은 아니며, 음성 인식 시스템은 하나 이상의 음성 인식 장치를 포함할 수 있다.
일실시예에 따른 음성 인식 장치들(310, 320, 330)은 사용자로부터 "이전 채널로 이동"이라는 음성 신호를 수신할 수 있다. 음성 인식 장치들(310, 320, 330) 각각은 사용자로부터 수신한 음성 신호의 SNR을 계산할 수 있다. 이 때, 음성 인식 장치들(310, 320, 330) 각각은 배터리 상태에 기초하여 자신이 수신한 음성 신호의 SNR을 직접 계산할지 여부를 결정할 수 있다.
예를 들어, 제1 음성 인식 장치(310)의 배터리 상태가 미리 결정된 임계값보다 작은 경우, 제1 음성 인식 장치(310)는 제1 음성 신호의 SNR을 직접 계산하지 않고 다른 음성 인식 장치로 제1 음성 신호를 전송할 수 있다. 제1 음성 신호를 수신한 다른 음성 인식 장치는 제1 음성 신호의 SNR을 계산할 수 있다. 여기서, 다른 음성 인식 장치는 제2 음성 인식 장치(320) 및 제3 음성 인식 장치(330) 중 배터리 상태가 보다 더 양호한 장치 또는 제1 음성 인식 장치(310)와의 거리가 짧은 어느 하나를 나타낼 수 있다.
음성 인식 시스템은 계산된 SNR들 중 최대 SNR을 가지는 음성 신호를 식별할 수 있다. 예를 들어, 음성 인식 장치들(310, 320, 330)은 상호 통신을 통해 최대 SNR을 가지는 음성 신호를 식별할 수 있다. 또는, 음성 인식 장치들(310, 320, 330) 중 메인 장치로 선택된 어느 하나는 계산된 SNR을 수신하여 최대 SNR을 가지는 기준 음성 신호를 식별할 수 있다. 예를 들어, 계산된 SNR들 중 최대 SNR이 제1 음성 신호의 SNR인 경우, 음성 인식 시스템은 기준 음성 신호로서 제1 음성 신호를 식별할 수 있다.
음성 인식 시스템은 기준 음성 신호인 제1 음성 신호에 대해 음성 인식을 수행할 수 있다. 예를 들어, 제1 음성 인식 장치(310)는 사용할 수 있는 리소스 용량이 미리 결정된 임계값보다 큰지 여부에 따라 직접 음성 인식을 수행할지 또는 다른 음성 인식 장치에서 음성 인식을 수행할지 여부를 판단할 수 있다. 제1 음성 인식 장치(310)가 사용할 수 있는 리소스 용량이 미리 결정된 임계값보다 큰 경우, 제1 음성 인식 장치(310)는 제1 음성 신호에 대해 음성 인식을 수행할 수 있다. 반대로, 제1 음성 인식 장치(310)가 사용할 수 있는 리소스 용량이 미리 결정된 임계값보다 작은 경우, 제1 음성 인식 장치(310)는 다른 음성 인식 장치로 제1 음성 신호 또는 제1 음성 신호로부터 추출된 특징값을 전송하여 다른 음성 인식 장치에서 음성 인식이 수행될 수 있다. 여기서, 다른 음성 인식 장치는 제2 음성 인식 장치(320) 및 제3 음성 인식 장치(330) 중 사용할 수 있는 리소스 용량이 큰 장치 또는 제1 음성 인식 장치(310)와의 거리가 짧은 장치를 나타낼 수 있다.
제1 음성 인식 장치(310)에서 음성 인식이 수행되고, 제1 음성 인식 장치(310)는 사용자가 "이전 채널로 이동"이라는 명령을 한 것과 사용자의 명령이 스마트 TV인 제2 음성 인식 장치(320)에 해당하는 것임을 확인할 수 있다. 제1 음성 인식 장치(310)는 제2 음성 인식 장치(320)로 사용자 명령을 전송하고, 제2 음성 인식 장치(320)는 사용자 명령인 "이전 채널로 이동"을 수행할 수 있다.
다른 일실시예에 따른 음성 인식 장치들(310, 320, 330)은 사용자로부터 "새로운 이메일 확인"이라는 음성 신호를 수신할 수 있다. 음성 인식 장치들(310, 320, 330) 각각은 사용자로부터 수신한 음성 신호의 SNR을 계산하여, 최대 SNR을 가지는 기준 음성 신호로서 제3 음성 신호를 식별할 수 있다.
제3 음성 인식 장치(330)에서 사용할 수 있는 리소스 용량이 미리 결정된 임계값보다 큰 경우, 제3 음성 인식 장치(330)는 제3 음성 신호에 대해 음성 인식을 수행하여 사용자가 "새로운 이메일 확인"이라는 명령을 한 것과 사용자의 명령이 스마트폰인 제1 음성 인식 장치(310)에 해당하는 것임을 확인할 수 있다. 제3 음성 인식 장치(330)는 제1 음성 인식 장치(310)로 사용자 명령을 전송하고, 제1 음성 인식 장치(310)는 사용자 명령인 "새로운 이메일 확인"을 수행할 수 있다. 나아가, 만약 제1 음성 신호에 포함된 사용자의 음성 크기 또는 제1 음성 신호의 SNR에 기초하여, 사용자와 제1 음성 인식 장치(310) 간의 거리가 가깝지 않고 제1 음성 인식 장치(310)에서 사용자 명령이 수행되더라도 사용자가 명령 수행 결과를 확인하기 어렵다고 판단된 경우, 제1 음성 인식 장치(310)는 명령 수행 결과를 스마트 TV인 제2 음성 인식 장치(320)로 전송하고, 제2 음성 인식 장치(320)는 새로운 이메일을 디스플레이할 수 있다.
도 4는 일실시예에 따른 음성 인식 방법을 설명하기 위한 도면이다.
일실시예에 따른 음성 인식 방법은 복수의 음성 인식 장치들에 포함된 처리부들에서 수행될 수 있다.
단계(410)에서, 복수의 음성 인식 장치들은 수신된 사용자의 음성 신호들의 SNR들을 계산할 수 있다. 복수의 음성 인식 장치들 중 배터리 상태가 미리 결정된 임계값보다 작은 가 존재하는 경우, 해당 음성 인식 장치에서 수신한 음성 신호를 다른 음성 인식 장치로 전송함으로써 다른 음성 인식 장치가 음성 신호의 SNR을 계산할 수 있다.
단계(420)에서, 복수의 음성 인식 장치들은 계산된 SNR들 중 최대 SNR을 가지는 기준 음성 신호를 식별할 수 있다. 예를 들어, 복수의 음성 인식 장치들은 계산된 SNR을 복수의 음성 인식 장치들 중 메인 장치로 선택된 어느 하나로 전송하여 메인 장치에 의해 기준 음성 신호를 식별할 수 있다. 또는, 복수의 음성 인식 장치들 간의 통신을 통해 기준 음성 신호를 식별할 수 있다.
복수의 음성 인식 장치들 중 어느 하나는 기준 음성 신호를 인식할 수 있다. 예를 들어, 기본적으로 기준 음성 신호를 수신한 기준 음성 인식 장치에서 음성 인식이 수행될 수 있으나, 예외적으로 기준 음성 인식 장치의 리소스 용량이 미리 결정된 임계값보다 작은 경우, 기준 음성 인식 장치가 아닌 다른 음성 인식 장치에 의해 기준 음성 신호에 대한 음성 인식이 수행될 수도 있다. 이 때, 다른 음성 인식 장치는 기준 음성 인식 장치로부터 수신한 기준 음성 신호 또는 기준 음성 신호로부터 추출된 특징값에 기초하여 음성 인식을 수행할 수 있다.
도 5는 다른 일실시예에 따른 음성 인식 방법을 설명하기 위한 도면이다.
다른 일실시예에 따른 음성 인식 방법은 어느 하나의 음성 인식 장치에 내장된 처리부에서 수행될 수 있다.
단계(510)에서, 음성 인식 장치는 사용자가 음성 인식 시스템에 포함된 복수의 음성 인식 장치들 중 어느 하나에 대해 명령하는지 여부를 판단할 수 있다. 예를 들어, 사용자의 음성 신호가 미리 결정된 명령에 대응하는 것으로 판단된 경우, 음성 인식 장치가 사용자의 특정 액션을 감지하는 경우, 또는 사용자의 음성 신호에 대하여 음성 인식한 결과 음성 인식 장치에 관한 명령인 것으로 판단되는 경우 등과 같은 상황에서, 음성 인식 장치는 사용자가 명령하는 것으로 판단할 수 있다.
반대로, 사용자의 음성 신호가 미리 결정된 명령에 대응하지 않는 것으로 판단된 경우, 음성 인식 장치는 금번 동작은 종료하고, 추후에 사용자가 복수의 음성 인식 장치들 중 어느 하나에 대해 명령하는지 여부를 판단할 수 있다.
단계(520)에서, 음성 인식 장치는 사용자의 음성 신호를 수신할 수 있다. 이하, 설명의 편의를 위해 음성 인식 장치가 수신한 사용자의 음성 신호는 기준 음성 신호라고 지칭한다.
단계(530)에서, 음성 인식 장치는 기준 음성 신호의 SNR을 계산할 수 있다. 예를 들어, 음성 인식 장치는 기준 음성 신호에 포함된 사용자의 음성과 노이즈를 분리함으로써 SNR을 계산할 수 있다.
단계(540)에서, 기준 음성 신호의 SNR이 다른 음성 인식 장치에서 수신된 음성 신호의 SNR보다 큰 경우, 음성 인식 장치는 기준 음성 신호를 인식할 수 있다. 만약, 음성 인식 장치의 리소스 용량이 미리 결정된 임계값보다 작은 경우, 다른 음성 인식 장치에서 기준 음성 신호에 대한 음성 인식을 수행할 수 있다. 이 때, 음성 인식 장치는 기준 음성 신호 또는 기준 음성 신호로부터 추출된 임계값을 다른 음성 인식 장치로 전송할 수 있다.
단계(550)에서, 음성 인식 장치는 음성 인식 결과에 기초하여 사용자의 명령을 확인할 수 있다. 사용자의 명령이 음성 인식 장치에 관한 것으로 판단되는 경우, 음성 인식 장치는 사용자의 명령을 수행할 수 있다. 반대로 사용자의 명령이 다른 음성 인식 장치에 해당하는 것으로 판단되는 경우, 음성 인식 장치는 다른 음성 인식 장치로 사용자의 명령을 전송하여 다른 음성 인식 장치에서 사용자의 명령이 수행되게 할 수 있다.
실시예들은 복수의 음성 인식 장치들에서 수신된 음성 신호들 중에서 최대 SNR을 가지는 음성 신호에 대해 음성 인식을 수행함으로써, 음성 인식의 정확도를 효과적으로 향상시킬 수 있다.
실시예들은 복수의 음성 인식 장치들을 포함하는 IoT 환경을 이용하여 사용자의 음성 신호를 인식하는 서비스를 제공함으로써, IoT 환경에 포함된 스마트 디바이스의 활용도를 증대시킬 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 비록 한정된 실시예와 도면을 통해 실시예들을 설명하였으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 복수의 장치들에 수신된 사용자의 음성 신호들의 SNR(Signal to Noise Ratio)들을 계산하는 단계; 및
    상기 SNR들 중 최대 SNR을 가지는 기준 음성 신호를 인식하는 단계
    를 포함하는 음성 인식 방법.
  2. 제1항에 있어서,
    상기 SNR들을 계산하는 단계는,
    상기 음성 신호들에 포함된 사용자의 음성과 노이즈를 분리함으로써 상기 SNR들을 계산하는, 음성 인식 방법.
  3. 제1항에 있어서,
    상기 기준 음성 신호를 인식하는 단계는,
    상기 기준 음성 신호를 수신한 기준 장치의 사용 가능한 리소스 용량에 기초하여 상기 복수의 장치들 중에서 상기 기준 음성 신호를 인식할 장치를 결정하고, 상기 결정된 장치에서 상기 기준 음성 신호를 인식하는, 음성 인식 방법.
  4. 제3항에 있어서,
    상기 기준 음성 신호를 인식하는 단계는,
    상기 사용 가능한 리소스 용량이 미리 결정된 임계값보다 큰 경우, 상기 기준 장치에서 상기 기준 음성 신호를 인식하는, 음성 인식 방법.
  5. 제3항에 있어서,
    상기 기준 음성 신호를 인식하는 단계는,
    상기 사용 가능한 리소스 용량이 미리 결정된 임계값보다 작은 경우, 상기 기준 음성 신호 또는 상기 기준 음성 신호로부터 추출된 특징값을 다른 장치로 전송하여 상기 다른 장치에서 상기 음성 신호를 인식하는, 음성 인식 방법.
  6. 제1항에 있어서,
    상기 SNR들을 계산하는 단계는,
    상기 복수의 장치들 중 배터리 상태가 미리 결정된 임계값보다 작은 장치가 존재하는 경우, 상기 배터리 상태가 미리 결정된 임계값보다 작은 장치에서 수신한 음성 신호를 다른 장치로 전송하여 SNR을 계산하는, 음성 인식 방법.
  7. 제1항에 있어서,
    상기 최대 SNR을 가지는 장치는,
    상기 복수의 장치들로부터 SNR들을 수신한 다른 장치에 의해 결정되거나 또는 상기 복수의 장치들 간의 통신을 통해 결정되는, 음성 인식 방법.
  8. 제1항에 있어서,
    상기 사용자가 상기 복수의 장치들 중 어느 하나의 장치에 대해 명령하는지 여부를 판단하는 단계; 및
    상기 사용자가 상기 복수의 장치들 중 어느 하나의 장치에 대해 명령하는 것으로 판단된 경우, 상기 복수의 장치들을 통해 상기 음성 신호들을 수신하는 단계
    를 더 포함하는 음성 인식 방법.
  9. 제1항에 있어서,
    상기 음성 신호를 인식하여 상기 사용자의 명령을 확인하고, 상기 명령에 해당하는 장치로 상기 사용자의 명령을 전송하는 단계
    를 더 포함하고,
    상기 명령에 해당하는 장치는, 상기 명령을 수행하는 음성 인식 방법.
  10. 제1항에 있어서,
    상기 복수의 장치들은, 상기 사용자 주변의 서로 다른 포지션에 위치하는, 음성 인식 방법.
  11. 제1항에 있어서,
    상기 복수의 장치들은, IoT(Internet of Things) 환경에서 사물에 대응하는, 음성 인식 방법.
  12. 제1항에 있어서,
    상기 복수의 장치들은, 스마트폰, 스마트TV, 스마트 시계, 스마트 세탁기, 스마트 카메라, 스마트 오디오, 스마트 자전거, 스마트 안경, 리모트 컨트롤러, 스마트 냉장고, 스마트 에어컨디셔너, 랩탑, PDA 및 테블릿 중 적어도 하나를 포함하는, 음성 인식 방법.
  13. 제1항 내지 제12항 중에서 어느 하나의 항의 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
  14. 사용자의 기준 음성 신호를 수신하는 마이크로폰; 및
    상기 음성 신호로부터 계산된 SNR이 다른 음성 인식 장치에서 수신한 상기 사용자의 음성 신호의 SNR보다 큰 경우, 상기 기준 음성 신호를 인식하는 처리부
    를 포함하는 음성 인식 장치.
  15. 제14항에 있어서,
    상기 처리부는,
    상기 기준 음성 신호에 포함된 사용자의 음성과 노이즈를 분리함으로써 상기 SNR을 계산하는, 음성 인식 장치.
  16. 제14항에 있어서,
    상기 처리부는,
    사용 가능한 리소스 용량에 기초하여 상기 기준 음성 신호를 인식할지 또는 상기 기준 음성 신호를 다른 음성 인식 장치로 전송하여 인식할지 여부를 결정하는, 음성 인식 장치.
  17. 제16항에 있어서,
    상기 처리부는,
    상기 사용 가능한 리소스 용량이 미리 결정된 임계값보다 큰 경우, 상기 기준 음성 신호를 인식하는, 음성 인식 장치.
  18. 제16항에 있어서,
    상기 처리부는,
    상기 사용 가능한 리소스 용량이 미리 결정된 임계값보다 작은 경우, 상기 기준 음성 신호 또는 상기 기준 음성 신호로부터 추출된 특징값을 다른 음성 인식 장치로 전송하고,
    상기 다른 음성 인식 장치는 상기 기준 음성 신호를 인식하는, 음성 인식 장치.
  19. 제14항에 있어서,
    상기 처리부는, 상기 사용자가 상기 음성 인식 장치 또는 다른 음성 인식 장치에 대해 명령하는지 여부를 판단하고,
    상기 마이크로폰은,
    상기 처리부에 의해 상기 사용자가 상기 음성 인식 장치 또는 다른 음성 인식 장치에 대해 명령하는 것으로 판단된 경우, 상기 기준 음성 신호를 수신하는, 음성 인식 장치.
  20. 제14항에 있어서,
    상기 음성 인식 장치는,
    IoT 환경에서 사물에 대응하는, 음성 인식 장치.
KR1020150008713A 2015-01-19 2015-01-19 음성 인식 방법 및 음성 인식 장치 KR102387567B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150008713A KR102387567B1 (ko) 2015-01-19 2015-01-19 음성 인식 방법 및 음성 인식 장치
US14/993,439 US9953647B2 (en) 2015-01-19 2016-01-12 Method and apparatus for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150008713A KR102387567B1 (ko) 2015-01-19 2015-01-19 음성 인식 방법 및 음성 인식 장치

Publications (2)

Publication Number Publication Date
KR20160089145A true KR20160089145A (ko) 2016-07-27
KR102387567B1 KR102387567B1 (ko) 2022-04-18

Family

ID=56408312

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150008713A KR102387567B1 (ko) 2015-01-19 2015-01-19 음성 인식 방법 및 음성 인식 장치

Country Status (2)

Country Link
US (1) US9953647B2 (ko)
KR (1) KR102387567B1 (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190014697A (ko) * 2017-08-03 2019-02-13 에스케이브로드밴드주식회사 음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법
KR20190106550A (ko) 2018-03-09 2019-09-18 에스케이텔레콤 주식회사 서비스 제공 장치 및 방법
KR20200023718A (ko) 2018-08-24 2020-03-06 에스케이텔레콤 주식회사 서비스 추천 장치 및 방법
KR20200034056A (ko) * 2018-09-20 2020-03-31 현대오토에버 주식회사 복수의 인공지능 음성단말장치를 이용하여 구역별 전자장치를 제어하는 시스템 및 방법
KR20200037687A (ko) * 2018-10-01 2020-04-09 삼성전자주식회사 복수의 음성 인식 장치들을 제어하는 방법 및 그 방법을 지원하는 전자 장치
WO2020080771A1 (ko) * 2018-10-15 2020-04-23 삼성전자 주식회사 변형 발화 텍스트를 제공하는 전자 장치 및 그것의 동작 방법
WO2022092530A1 (ko) * 2020-10-30 2022-05-05 삼성전자(주) 전자장치 및 그 제어방법
US11508378B2 (en) 2018-10-23 2022-11-22 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102305584B1 (ko) * 2015-01-19 2021-09-27 삼성전자주식회사 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
KR102429260B1 (ko) * 2015-10-12 2022-08-05 삼성전자주식회사 음성 에이전트 기반의 제어 명령 처리 장치 및 방법과, 에이전트 장치
US20180025731A1 (en) * 2016-07-21 2018-01-25 Andrew Lovitt Cascading Specialized Recognition Engines Based on a Recognition Policy
US10283138B2 (en) * 2016-10-03 2019-05-07 Google Llc Noise mitigation for a voice interface device
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
WO2018205083A1 (zh) * 2017-05-08 2018-11-15 深圳前海达闼云端智能科技有限公司 机器人唤醒方法、装置和机器人
JP6997554B2 (ja) * 2017-08-03 2022-01-17 シャープ株式会社 家電装置システム
EP3447768A1 (en) * 2017-08-21 2019-02-27 Vestel Elektronik Sanayi ve Ticaret A.S. Method of transferring a call, user device and a computer program
TWI651714B (zh) * 2017-12-22 2019-02-21 隆宸星股份有限公司 語音選項選擇系統與方法以及使用其之智慧型機器人
WO2020060311A1 (en) 2018-09-20 2020-03-26 Samsung Electronics Co., Ltd. Electronic device and method for providing or obtaining data for training thereof
KR20200052804A (ko) 2018-10-23 2020-05-15 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
WO2020085769A1 (en) * 2018-10-24 2020-04-30 Samsung Electronics Co., Ltd. Speech recognition method and apparatus in environment including plurality of apparatuses
CN112261686B (zh) * 2020-10-20 2021-07-30 四川天邑康和通信股份有限公司 一种用于5g基站系统的pucch的snr估计方法
US20220293109A1 (en) * 2021-03-11 2022-09-15 Google Llc Device arbitration for local execution of automatic speech recognition
WO2024053822A1 (en) * 2022-09-05 2024-03-14 Samsung Electronics Co., Ltd. System and method for receiving a voice command

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130116107A (ko) * 2012-04-13 2013-10-23 삼성전자주식회사 단말의 원격 제어 방법 및 장치
WO2014064324A1 (en) * 2012-10-26 2014-05-01 Nokia Corporation Multi-device speech recognition

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389010B1 (en) * 1995-10-05 2002-05-14 Intermec Ip Corp. Hierarchical data collection network supporting packetized voice communications among wireless terminals and telephones
US5625697A (en) 1995-05-08 1997-04-29 Lucent Technologies Inc. Microphone selection process for use in a multiple microphone voice actuated switching system
US6353814B1 (en) 1997-10-08 2002-03-05 Michigan State University Developmental learning machine and method
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
JP2001075594A (ja) * 1999-08-31 2001-03-23 Pioneer Electronic Corp 音声認識システム
US8392188B1 (en) 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones
US6885989B2 (en) * 2001-04-02 2005-04-26 International Business Machines Corporation Method and system for collaborative speech recognition for small-area network
US6937980B2 (en) 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
JP2003202888A (ja) * 2002-01-07 2003-07-18 Toshiba Corp 無線通信機能付きヘッドセットおよびこれを用いた音声処理システム
US6834265B2 (en) * 2002-12-13 2004-12-21 Motorola, Inc. Method and apparatus for selective speech recognition
US7917364B2 (en) * 2003-09-23 2011-03-29 Hewlett-Packard Development Company, L.P. System and method using multiple automated speech recognition engines
KR100695127B1 (ko) * 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
KR100655491B1 (ko) 2004-12-21 2006-12-11 한국전자통신연구원 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
US7593376B2 (en) * 2005-12-07 2009-09-22 Motorola, Inc. Method and apparatus for broadcast in an ad hoc network using elected broadcast relay nodes
KR100774519B1 (ko) 2006-03-20 2007-11-08 엘지전자 주식회사 통신장치 및 그 통화방법
US20090022090A1 (en) * 2007-07-19 2009-01-22 Motorola, Inc. Switching allocation in ad hoc network
US9113240B2 (en) * 2008-03-18 2015-08-18 Qualcomm Incorporated Speech enhancement using multiple microphones on multiple devices
US20090248411A1 (en) 2008-03-28 2009-10-01 Alon Konchitsky Front-End Noise Reduction for Speech Recognition Engine
US7516068B1 (en) * 2008-04-07 2009-04-07 International Business Machines Corporation Optimized collection of audio for speech recognition
US8589161B2 (en) * 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) * 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
EP2151822B8 (en) * 2008-08-05 2018-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
JP2010056762A (ja) 2008-08-27 2010-03-11 Murata Machinery Ltd マイクロホンアレー
US8493849B2 (en) * 2009-02-13 2013-07-23 Miraveo, Inc. Systems and methods for creating, managing and communicating users and applications on spontaneous area networks
US9047074B2 (en) * 2010-08-30 2015-06-02 Synapsense Corporation Apparatus and method for managing power capacity in data centers using a wireless sensor network
EP2494545A4 (en) * 2010-12-24 2012-11-21 Huawei Tech Co Ltd METHOD AND DEVICE FOR DETECTING LANGUAGE ACTIVITIES
JP2012203122A (ja) 2011-03-24 2012-10-22 Panasonic Corp 音声選択装置並びにそれを使用したメディア機器およびハンズフリー通話装置
US20150149167A1 (en) * 2011-03-31 2015-05-28 Google Inc. Dynamic selection among acoustic transforms
US9030520B2 (en) 2011-06-20 2015-05-12 Polycom, Inc. Automatic camera selection for videoconferencing
JP5289517B2 (ja) * 2011-07-28 2013-09-11 株式会社半導体理工学研究センター センサネットワークシステムとその通信方法
US20130073293A1 (en) * 2011-09-20 2013-03-21 Lg Electronics Inc. Electronic device and method for controlling the same
US9640175B2 (en) 2011-10-07 2017-05-02 Microsoft Technology Licensing, Llc Pronunciation learning from user correction
JP2014072835A (ja) 2012-10-01 2014-04-21 Ricoh Co Ltd 会議装置
US9640174B2 (en) * 2013-01-02 2017-05-02 Lg Electronics Inc. Home appliance and operation method thereof
JP6519877B2 (ja) * 2013-02-26 2019-05-29 聯發科技股▲ふん▼有限公司Mediatek Inc. 音声信号を発生するための方法及び装置
US9472205B2 (en) * 2013-05-06 2016-10-18 Honeywell International Inc. Device voice recognition systems and methods
US9384751B2 (en) * 2013-05-06 2016-07-05 Honeywell International Inc. User authentication of voice controlled devices
KR20140135349A (ko) * 2013-05-16 2014-11-26 한국전자통신연구원 복수의 마이크로폰을 이용한 비동기 음성인식 장치 및 방법
DK2849462T3 (en) * 2013-09-17 2017-06-26 Oticon As Hearing aid device comprising an input transducer system
US9424843B2 (en) * 2013-09-24 2016-08-23 Starkey Laboratories, Inc. Methods and apparatus for signal sharing to improve speech understanding
US9286897B2 (en) * 2013-09-27 2016-03-15 Amazon Technologies, Inc. Speech recognizer with multi-directional decoding
US9245527B2 (en) * 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
US20150117674A1 (en) * 2013-10-24 2015-04-30 Samsung Electronics Company, Ltd. Dynamic audio input filtering for multi-device systems
EP3097458B1 (en) * 2014-01-22 2019-07-24 Sony Corporation Directing audio output based on gestures
US9972315B2 (en) * 2015-01-14 2018-05-15 Honda Motor Co., Ltd. Speech processing device, speech processing method, and speech processing system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130116107A (ko) * 2012-04-13 2013-10-23 삼성전자주식회사 단말의 원격 제어 방법 및 장치
WO2014064324A1 (en) * 2012-10-26 2014-05-01 Nokia Corporation Multi-device speech recognition

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190014697A (ko) * 2017-08-03 2019-02-13 에스케이브로드밴드주식회사 음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법
KR20190106550A (ko) 2018-03-09 2019-09-18 에스케이텔레콤 주식회사 서비스 제공 장치 및 방법
KR20200023718A (ko) 2018-08-24 2020-03-06 에스케이텔레콤 주식회사 서비스 추천 장치 및 방법
KR20200034056A (ko) * 2018-09-20 2020-03-31 현대오토에버 주식회사 복수의 인공지능 음성단말장치를 이용하여 구역별 전자장치를 제어하는 시스템 및 방법
KR20200037687A (ko) * 2018-10-01 2020-04-09 삼성전자주식회사 복수의 음성 인식 장치들을 제어하는 방법 및 그 방법을 지원하는 전자 장치
WO2020080771A1 (ko) * 2018-10-15 2020-04-23 삼성전자 주식회사 변형 발화 텍스트를 제공하는 전자 장치 및 그것의 동작 방법
US11508378B2 (en) 2018-10-23 2022-11-22 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
WO2022092530A1 (ko) * 2020-10-30 2022-05-05 삼성전자(주) 전자장치 및 그 제어방법

Also Published As

Publication number Publication date
KR102387567B1 (ko) 2022-04-18
US9953647B2 (en) 2018-04-24
US20160210965A1 (en) 2016-07-21

Similar Documents

Publication Publication Date Title
KR102387567B1 (ko) 음성 인식 방법 및 음성 인식 장치
US11114099B2 (en) Method of providing voice command and electronic device supporting the same
KR102346302B1 (ko) 전자 장치 및 음성 인식 기능 운용 방법
EP3379534B1 (en) Execution of voice commands in a multi-device system
EP3734596B1 (en) Determining target device based on speech input of user and controlling target device
US10453457B2 (en) Method for performing voice control on device with microphone array, and device thereof
CN107135443B (zh) 一种信号处理方法及电子设备
KR102429436B1 (ko) 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
KR101510860B1 (ko) 사용자 의도 파악 어플리케이션 서비스 방법 및 서버와 이를 이용한 사용자 의도 파악 어플리케이션 서비스 시스템
US20160162469A1 (en) Dynamic Local ASR Vocabulary
US9953634B1 (en) Passive training for automatic speech recognition
KR20160091725A (ko) 음성 인식 방법 및 장치
KR20180052347A (ko) 음성 인식 장치 및 방법
WO2016094418A1 (en) Dynamic local asr vocabulary
CN103811006A (zh) 用于语音识别的方法和装置
JP7017598B2 (ja) スマートデバイスのデータ処理方法、装置、機器及び記憶媒体
KR20170049817A (ko) 홈 네트워크에서 음성 인식을 위한 음성 인식 디바이스 및 그 동작 방법
US11043222B1 (en) Audio encryption
KR20150103586A (ko) 음성 입력을 처리하는 방법 및 이를 수행하는 전자 장치
US9508345B1 (en) Continuous voice sensing
CN112489413B (zh) 遥控器的控制方法及系统、存储介质、电子设备
JP2020038709A (ja) 人工知能機器における連続会話機能
KR102623998B1 (ko) 음성인식을 위한 전자장치 및 그 제어 방법
WO2017123814A1 (en) Systems and methods for assisting automatic speech recognition
CN113810814B (zh) 耳机模式切换的控制方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant