KR20160067625A - 소리 신호를 처리하는 방법 및 디바이스. - Google Patents

소리 신호를 처리하는 방법 및 디바이스. Download PDF

Info

Publication number
KR20160067625A
KR20160067625A KR1020140173242A KR20140173242A KR20160067625A KR 20160067625 A KR20160067625 A KR 20160067625A KR 1020140173242 A KR1020140173242 A KR 1020140173242A KR 20140173242 A KR20140173242 A KR 20140173242A KR 20160067625 A KR20160067625 A KR 20160067625A
Authority
KR
South Korea
Prior art keywords
signal
frequency domain
domain signal
frequency
sound
Prior art date
Application number
KR1020140173242A
Other languages
English (en)
Other versions
KR102306537B1 (ko
Inventor
조석환
김도형
김재현
이시화
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020140173242A priority Critical patent/KR102306537B1/ko
Priority to US14/959,580 priority patent/US9495978B2/en
Publication of KR20160067625A publication Critical patent/KR20160067625A/ko
Application granted granted Critical
Publication of KR102306537B1 publication Critical patent/KR102306537B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)

Abstract

소리 신호를 처리하는 방법이 개시된다. 소리 신호 처리 방법 은, 디바이스의 외부로부터 소리 신호를 수신하고, 상기 소리 신호를 제 1 주파수 도메인 신호로 변환하고, 상기 변환으로 획득된 제 1 주파수 도메인 신호를 이용하여 상기 소리 신호가 음성 신호인지 여부를 결정하고, 상기 결정에 기초하여 상기 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환하고, 상기 변환으로 획득된 제 2 주파수 도메인 신호를 이용하여 상기 소리 신호를 인식하는 단계를 포함한다.

Description

소리 신호를 처리하는 방법 및 디바이스.{Method and device for processing sound signal}
소리 신호를 처리하는 방법 및 디바이스에 관한 것이다.
정보통신기술이 발달함에 따라 신호를 처리하는 기술이 개선되고 있다. 특히 소리 신호를 처리하는 방법과 관련하여 웨어러블 디바이스 및 지속적 모니터링(always on sensing) 기술의 중요성이 강조되고 있다.
특히 음성 신호를 처리하는 방법과 관련하여, 음성 명령어를 통해 디바이스의 동작이 수행되기 위해서는 일반적으로 지속적 모니터링 기술이 요구된다. 또한, 웨어러블 디바이스의 동작과 관련하여 음성 명령어를 통한 동작 수행이 일반적으로 요구된다.
그러나, 지속적 모니터링 기술 및 웨어러블 디바이스의 구현을 위해서는 저전력 구동 방식이 일반적으로 요구된다.
디바이스는 소리 신호를 처리함에 있어서, 주파수 도메인에서 소리 신호의 변환을 수행함으로써 효율적으로 소리 신호의 처리 동작을 수행할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 제 1 측면은, 디바이스의 외부로부터 소리 신호를 수신하는 단계; 상기 소리 신호를 제 1 주파수 도메인 신호로 변환하고, 상기 변환으로 획득된 제 1 주파수 도메인 신호를 이용하여 상기 소리 신호가 음성 신호인지 여부를 결정하는 단계; 상기 결정에 기초하여 상기 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환하는 단계; 및 상기 변환으로 획득된 제 2 주파수 도메인 신호를 이용하여 상기 소리 신호를 인식하는 단계를 포함할 수 있다.
또한, 상기 결정에 기초하여 상기 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환하는 단계는 상기 소리 신호가 음성 신호인 경우 상기 제 1 주파수 도메인 신호를 상기 제 2 주파수 도메인 신호로 변환할 수 있다.
또한, 상기 결정에 기초하여 상기 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환하는 단계는 업 샘플링, 다운 샘플링, 보간(interpolation), 미러링(mirroring) 및 위상 변환 중 적어도 하나의 방법을 이용하여 상기 제 1 주파수 도메인 신호를 상기 제 2 주파수 도메인으로 변환할 수 있다.
또한, 상기 제 1 주파수 도메인은 DFT 도메인, DCT 도메인, DST 도메인 및 MDCT 도메인 중 적어도 하나를 포함할 수 있다.
또한, 상기 제 2 주파수 도메인은 DFT 도메인, DCT 도메인, DST 도메인 및 MDCT 도메인 중 적어도 하나를 포함할 수 있다.
또한, 상기 결정에 기초하여 상기 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환하는 단계는 상기 제 1 주파수 도메인 신호를 상기 디바이스에 포함된 내부 메모리에 저장하는 단계; 및 상기 저장된 제 1 주파수 도메인 신호를 상기 제 2 주파수 도메인 신호로 변환하는 단계를 포함할 수 있다.
또한, 상기 결정에 기초하여 상기 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환하는 단계는 상기 제 1 주파수 도메인 신호에 대해서 노이즈 필터링을 수행하는 단계; 상기 노이즈 필터링이 수행된 신호를 상기 제 2 주파수 도메인으로 변환하는 단계를 포함할 수 있다.
또한, 상기 변환으로 획득된 제 2 주파수 도메인 신호를 이용하여 상기 소리 신호를 인식하는 단계는 상기 디바이스의 외부에 포함된 외부 메모리를 이용하여 상기 소리 신호로부터 상기 음성 신호를 인식할 수 있다.
또한, 상기 기술적 과제를 달성하기 위한 제 2 측면은, 디바이스의 외부로부터 소리 신호를 수신하는 신호 수신부; 상기 소리 신호를 제 1 주파수 도메인 신호로 변환하고, 상기 변환으로 획득된 제 1 주파수 도메인 신호를 이용하여 상기 소리 신호가 음성 신호인지 여부를 결정하는 음성 신호 결정부; 상기 결정에 기초하여 상기 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환하는 주파수 변환부; 및 상기 변환으로 획득된 제 2 주파수 도메인 신호를 이용하여 상기 소리 신호를 인식하는 신호 인식부를 포함할 수 있다.
또한, 상기 주파수 변환부는 상기 소리 신호가 음성 신호인 경우 상기 제 1 주파수 도메인 신호를 상기 제 2 주파수 도메인 신호로 변환할 수 있다.
또한, 상기 주파수 변환부는 업 샘플링, 다운 샘플링, 보간(interpolation), 미러링(mirroring) 및 위상 변환 중 적어도 하나의 방법을 이용하여 상기 제 1 주파수 도메인 신호를 상기 제 2 주파수 도메인으로 변환할 수 있다.
또한, 상기 제 1 주파수 도메인은 DFT 도메인, DCT 도메인, DST 도메인 및 MDCT 도메인 중 적어도 하나를 포함할 수 있다.
또한, 상기 제 2 주파수 도메인은 DFT 도메인, DCT 도메인, DST 도메인 및 MDCT 도메인 중 적어도 하나를 포함할 수 있다.
또한, 상기 주파수 변환부는 상기 제 1 주파수 도메인 신호를 상기 디바이스에 포함된 내부 메모리에 저장하고, 상기 저장된 제 1 주파수 도메인 신호를 상기 제 2 주파수 도메인 신호로 변환할 수 있다.
또한, 상기 주파수 변환부는 상기 제 1 주파수 도메인 신호에 대해서 노이즈 필터링을 수행하고, 상기 노이즈 필터링이 수행된 신호를 상기 제 2 주파수 도메인으로 변환할 수 있다.
또한, 상기 신호 인식부는 상기 디바이스의 외부에 포함된 외부 메모리를 이용하여 상기 소리 신호로부터 상기 음성 신호를 인식할 수 있다.
또한, 본 개시의 제 3 측면은 제 1 측면의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.
또한, 본 개시의 제 4 측면은 제 1 측면의 방법을 구현하기 위하여 기록매체에 저장된 컴퓨터 프로그램을 제공할 수 있다.
다양한 실시 예에 따른 소리 신호 처리 방법은 소리 신호의 변환을 효율적으로 처리하여 디바이스를 단순화시키고, 디바이스가 저전력으로 동작할 수 있도록 할 수 있다.
도 1은 다양한 실시 예에 따른 디바이스가 신호를 수신하여 음성 인식 결과를 출력하는 일례를 도시한 도면이다.
도 2는 다양한 실시 예에 따른 디바이스가 외부로부터 소리 신호를 수신하여 소리 신호를 인식하는 방법의 흐름도이다.
도 3은 다양한 실시 예에 따른 디바이스가 소리 신호 변환하여 인식하는 일례를 도시한 도면이다.
도 4는 다양한 실시 예에 따른 디바이스가 업샘플링을 통해 소리 신호를 변환하는 방법을 설명하는 흐름도이다.
도 5는 다양한 실시 예에 따른 디바이스가 다운 샘플링을 통해 소리 신호를 변환하는 방법을 설명하는 흐름도이다.
도 6은 다양한 실시 예에 따른 디바이스가 소리 신호를 처리하는 일례를 설명하는 도면이다.
도 7은 다양한 실시 예에 따른 디바이스가 메모리를 이용하여 소리 신호를 처리하는 일례를 설명하는 도면이다.
도 8a와 도 8b는 다양한 실시 예에 따른 디바이스가 소리 신호를 변환하는 방법을 설명하는 도면이다.
도 9는 다양한 실시 예에 따른 주파수 변환부가 신호의 주파수 도메인을 변환하는 방법을 설명하는 도면이다.
도 10은 다양한 실시 예에 따른 디바이스의 구성을 나타내는 블록도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.
또한, 본 명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
이하, 실시 예들을 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략할 수 있다.
도 1은 다양한 실시 예에 따른 디바이스(100)가 신호를 수신하여 음성 인식 결과를 출력하는 일례를 도시한 도면이다.
일 실시 예에 따른 디바이스(100)는 디바이스(100)의 외부로부터 소리 신호를 수신하여 음성 인식 결과를 출력할 수 있다. 예를 들면, 디바이스(100)는 외부로부터 수신되는 소리 신호가 음성 신호인지 여부를 결정하고, 수신되는 소리 신호가 음성 신호인 경우, 음성 인식 결과를 출력할 수 있다.
또한, 일 실시 예에 따른 디바이스(100)는 소리 신호로부터 음성 인식 결과를 출력하는 과정에서 외부 메모리(110)를 이용할 수 있다. 예를 들면, 디바이스(100)는 수신한 소리 신호가 음성 신호인 경우 수신한 소리 신호를 기설정된 형식으로 외부 디바이스에 저장하고 저장된 소리 신호를 분석하여 음성 인식 결과를 획득할 수 있다.
일 실시 예에 따른 디바이스(100)는 소리 신호를 수신하기 위하여 소리 신호에 대한 지속적인 모니터링(always on sensing)을 수행할 수 있다. 예를 들면, 디바이스(100)에 포함된 센서 중 마이크에는 항상 전원이 인가되어 있을 수 있다. 마이크에서 신호를 인식하면 디바이스(100)에 포함된 다른 모듈들이 활성화되어 동작할 수 있다. 일 실시 예에 따른 디바이스(100)는 마이크의 전원만을 항상 유지하고 다른 모듈들은 필요한 경우에만 활성화 시킴으로서 디바이스(100) 전체적으로 소모하는 전력량을 감소시킬 수 있다.
도 2는 다양한 실시 예에 따른 디바이스(100)가 외부로부터 소리 신호를 수신하여 소리 신호를 인식하는 방법의 흐름도이다.
단계 S210에서 일 실시 예에 따른 디바이스(100)는 디바이스(100)의 외부로부터 소리 신호를 수신한다.
일 실시 예에 따른 소리 신호는 물체의 진동에 의하여 생긴 음파 신호를 의미할 수 있다. 일 실시 예에 따른 디바이스(100)는 디바이스(100)의 외부에서 발생하는 소리 신호를 디바이스(100)에 포함된 센서를 통하여 수신할 수 있다. 예를 들면, 디바이스(100)는 소리 신호 감지 센서를 포함하고 있을 수 있다. 일 실시 예에 따른 소리 신호 감지 센서는 마이크를 포함할 수 있다.
또한, 지속적인 모니터링이 가능하도록 디바이스(100)에 포함된 센서 중 소리 신호를 수신하는 센서에는 항상 전원이 인가되어 있을 수 있다. 예를 들면, 디바이스(100)에 포함된 마이크는 항상 활성화 되어 있고, 디바이스(100)에 포함된 마이크 외의 모듈은 마이크에서 수신하는 소리 신호에 대응하여 활성화될 수 있다.
일 실시 예에 따른 디바이스(100)는 기설정된 길이 단위로 소리 신호를 수신할 수 있다. 예를 들면, 디바이스(100)는 10ms 내지 30ms 내에서 기설정된 길이로 수신된 소리 신호를 하나의 단위로 처리할 수 있다. 다른 예로, 디바이스(100)는 외부로부터 수신되는 소리 신호에 대해서 처음 15ms 동안 수신된 소리 신호인 제 1 소리 신호, 처음 소리 신호가 수신되기 시작한 이후 15ms내지 30ms 동안 수신된 소리 신호인 제 2 소리신호, 처음 소리 신호가 수신되기 시작한 이후 30ms 내지 45ms 동안 수신된 소리 신호인 제 3 소리 신호에 대해서, 제 1 소리 신호 내지 제 3 소리 신호를 각각 하나의 소리 신호로 보고 제 1 소리 신호 내지 제 3 소리 신호를 순차적으로 처리할 수 있다. 단 본 명세서에 개시된 수치는 기설정된 값의 일 예에 불과하고, 다른 수치로 기설정된 길이가 결정될 수 있다.
단계 S220에서 일 실시 예에 따른 디바이스(100)는 단계 S210에서 수신한 소리 신호를 제 1 주파수 도메인 신호로 변환한다.
일 실시 예에 따라 단계 S210에서 디바이스(100)가 수신한 소리 신호는 시간 도메인 신호일 수 있다. 일 실시 예에 따른 디바이스(100)는 시간 도메인 신호로 제공되는 소리 신호를 제 1 주파수 도메인 신호로 변환할 수 있다.
일 실시 예에 따른 제 1 주파수 도메인 신호는 기설정된 주파수 도메인으로 표현될 수 있는 형태의 신호를 의미할 수 있다. 예를 들면, 디바이스(100)는 시간 도메인 신호인 소리 신호를 DFT(Discrete Fourier Transform) 도메인 신호로 변환할 수 있다. 다른 예로, 디바이스(100)는 시간 도메인 신호인 소리 신호를 DCT(Discrete Cosine Transform) 도메인 신호로 변환할 수 있다. 다른 예로, 디바이스(100)는 시간 도메인 신호인 소리 신호를 DST(Discrete Sine Transform) 도메인 신호로 변환할 수 있다. 다른 예로, 디바이스(100)는 시간 도메인 신호인 소리 신호를 MDCT(Modified Discrete Cosine Transform) 도메인 신호로 변환할 수 있다.
일 실시 예에 따른 디바이스(100)는 기설정된 시간 길이 단위로 소리 신호를 제 1 주파수 도메인 신호로 변환할 수 있다.
예를 들면, 디바이스(100)는 30ms의 시간 길이 단위로 획득되는 소리 신호를 제 1 주파수 도메인 신호로 변환할 수 있다. 예를 들면, 디바이스(100)는 디바이스(100)가 동작한 이후 930ms만큼 시간이 흐른 시점부터 960ms만큼 시간이 흐른 시점 동안 획득되는 소리 신호인 제 4 소리 신호를 DFT 도메인 신호로 변환할 수 있다. 여기서 제 4 소리 신호는 시간 도메인 신호일 수 있다.
다른 실시 예에 따른 디바이스(100)는 수신한 소리 신호를 이용하여 소리 신호가 음성 신호인지 여부를 결정할 수 있다. 예를 들면, 디바이스(100)는 수신한 소리 신호로부터 특징을 추출하고 추출된 특징을 분석하여 수신한 소리 신호가 음성 신호인지 여부를 결정할 수 있다. 다른 예로, 디바이스(100)는 수신한 소리 신호의 주파수를 분석하여 수신한 소리 신호가 음성 신호인지 여부를 결정할 수 있다.
다른 실시 예에 따른 디바이스(100)는 단계 S210에서 수신한 소리 신호를 제 1 주파수 도메인 신호로 변환하고, 변환으로 획득된 제 1 주파수 도메인 신호를 이용하여 소리 신호가 음성 신호인지 여부를 결정할 수 있다. 예를 들면, 디바이스(100)는 상술한 바와 같이 수신한 소리 신호를 제 1 주파수 도메인 신호로 변환하고, 변환으로 획득된 제 1 주파수 도메인 신호의 특징을 분석하고, 분석 결과에 따라 수신한 소리 신호가 음성 신호인지 여부를 결정할 수 있다.
단계 S230에서 일 실시 예에 따른 디바이스(100)는 단계 S220에서의 결정에 기초하여 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환한다.
일 실시 예에 따른 디바이스(100)는 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환할 수 있다. 예를 들면, 디바이스(100)는 제 1 주파수 도메인 신호를 직접적으로 제 2 주파수 도메인 신호로 변환하기 때문에 짧은 시간 길이 단위의 소리 신호를 처리할 수 있다. 예를 들면, 중간에 시간 도메인으로 변환하는 과정 없이 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 직접 변환하는 경우, 디바이스(100)는 0.1초 이하 시간 길이 단위의 소리 신호를 처리할 수 있다. 다만 본 명세서에서 사용된 0.1초라는 수치는 소리 신호 길이의 일 예에 불과하고, 다른 수치가 적용될 수도 있다. 다른 예로, 음성 명령어가 2초의 길이를 갖는 경우에도, 디바이스(100)는 2초 길이의 소리 신호를 0.05초 시간 길이 단위의 소리 신호로 나누어 나뉘어진 각각의 소리 신호에 대해서 음성 신호인지 여부를 결정할 수 있다.
다른 실시 예에 따른 디바이스(100)는 소리 신호가 음성 신호라고 결정된 경우, 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환할 수 있다. 예를 들면, 디바이스(100)는 소리 신호로부터 제 1 주파수 도메인 신호를 단계 S220에서 획득하고, 제 1 주파수 도메인 신호의 분석을 통해서 소리 신호가 음성 신호가 아니라고 결정된 경우 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환하지 않을 수 있다. 다른 예로, 디바이스(100)는 소리 신호로부터 제 1 주파수 도메인 신호를 단계 S220에서 획득하고, 제 1 주파수 도메인 신호의 분석을 통해서 소리 신호가 음성 신호라고 결정된 경우 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환할 수 있다.
다른 실시 예에 따른 디바이스(100)는 업샘플링, 다운 샘플링, 보간(interpolation) 및 미러링(mirroring) 중 적어도 하나의 방법을 이용하여 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환할 수 있다.
예를 들면, 제 1 주파수 도메인 신호가 DFT 도메인 신호이고, 제 2 주파수 도메인 신호가 DCT 도메인 신호인 경우, 디바이스(100)는 제 1 주파수 도메인 신호에 대해서 업샘플링, 보간 및 위상 변환을 수행하여 제 2 주파수 도메인 신호를 획득할 수 있다. 업샘플링, 보간 및 위상 변환은 도메인 변환에 적응적인 방식으로 수행될 수 있다.
다른 예로, 제 1 주파수 도메인 신호가 DCT 도메인 신호이고, 제 2 주파수 도메인 신호가 DFT 도메인 신호인 경우, 디바이스(100)는 제 1 주파수 도메인 신호에 대해서 다운샘플링, 미러링 및 위상 변환을 수행하여 제 2 주파수 도메인 신호를 획득할 수 있다. 다운샘플링, 미러링 및 위상 변환은 도메인 변환에 적응적인 방식으로 수행될 수 있다.
구체적인 변환 방식은 도 4 및 도 5 에서 후술한다.
다른 실시 예에 따른 디바이스(100)는 제 1 주파수 도메인 신호를 디바이스(100)에 포함된 내부 메모리에 저장하고, 저장된 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환할 수 있다.
예를 들면, 디바이스(100)는 수신한 소리 신호를 제 1 주파수 도메인 신호로 변환하여 디바이스(100)에 포함된 내부 메모리에 저장할 수 있다. 변환된 제 1 주파수 도메인 신호의 용량은 내부 메모리에 저장될 수 있을 정도로 작을 수 있다. 예를 들면, 디바이스(100)는 기설정된 길이의 소리 신호를 제 1 주파수 도메인 신호로 변환하여 디바이스(100)에 포함된 내부 메모리에 저장할 수 있다. 여기서 일 실시 예에 따른 기설정된 길이는 충분히 짧아서 변환된 제 1 주파수 도메인의 신호의 용량은 내부 메모리에 저장될 수 있을 정도로 작을 수 있다. 예를 들면 기설정된 길이는 0.1초 이하일 수 있다. 일 실시 예에 따른 디바이스(100)는 상술된 바와 같이 제 1 주파수 도메인의 신호의 용량을 기설정된 값이하로 제어할 수 있기 때문에, 제 1 주파수 도메인의 신호를 내부 메모리에 저장하여 처리할 수 있다. 디바이스(100)는 내부 메모리만을 이용하여 제 1 주파수 도메인의 신호를 처리할 수 있으므로 외부 메모리에 대한 접근 없이 제 1 주파수 신호를 처리할 수 있다.
다른 예로, 디바이스(100)는 내부 메모리에 저장된 제 1 주파수 도메인 신호에 대해 주파수 변환을 수행하여 제 2 주파수 도메인 신호를 획득할 수 있다. 일 실시 예에 따른 디바이스(100)는 메모리에 저장된 신호에 대해서 주파수 변환을 수행할 수 있다. 따라서 디바이스(100)가 주파수 변환을 수행하기 위해서 제 1 주파수 도메인 신호의 저장이 선행될 수 있다. 디바이스(100)는 내부 메모리에 저장된 제 1 주파수 도메인 신호에 대해 주파수 변환을 수행하여 제 2 주파수 도메인 신호를 획득할 수 있다.
다른 실시 예에 따른 디바이스(100)는 제 1 주파수 도메인 신호에 대해서 노이즈 필터링을 수행하고, 노이즈 필터링이 수행된 신호를 제 2 주파수 도메인으로 변환할 수 있다.
예를 들면, 디바이스(100)는 소리 신호를 제 1 주파수 도메인 신호로 변환하고, 변환으로 획득된 제 1 주파수 도메인 신호에 대해서 노이즈 필터링을 수행하고, 노이즈 필터링이 수행된 신호에 대해 주파수 변환을 수행하여 제 2 주파수 도메인 신호를 획득할 수 있다. 노이즈 필터링은 제 1 주파수 도메인 신호에 대해서 수행되므로 제 1 주파수 도메인 신호에 적합한 노이즈 필터링 방식이 이용될 수 있다.
일 실시 예에 따른 제 2 주파수 도메인 신호는 기설정된 주파수 도메인으로 표현될 수 있는 형태의 신호를 의미할 수 있다. 예를 들면, 디바이스(100)는 제 1 주파수 도메인 신호를 DFT(Discrete Fourier Transform) 도메인 신호로 변환할 수 있다. 다른 예로, 디바이스(100)는 제 1 주파수 도메인 신호를 DCT(Discrete Cosine Transform) 도메인 신호로 변환할 수 있다. 다른 예로, 디바이스(100)는 제 1 주파수 도메인 신호를 DST(Discrete Sine Transform) 도메인 신호로 변환할 수 있다. 다른 예로, 디바이스(100)는 제 1 주파수 도메인 신호를 MDCT(Modified Discrete Cosine Transform) 도메인 신호로 변환할 수 있다.
제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환할 때 요구되는 계산량은 제 1 주파수 도메인 신호를 시간 도메인 신호로 변환한 후 다시 제 2 주파수 도메인 신호를 시간 도메인 신호로부터 획득하는 경우에 요구되는 계산량보다 적을 수 있다. 따라서 디바이스(100)는 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 직접 변환시킴으로써 요구되는 계산량을 감소시킬 수 있다.
일 실시 예에 따라 제 1 주파수 도메인 신호가 DFT 주파수 도메인 신호이고, 제 2 주파수 도메인 신호가 DCT 주파수 도메인 신호인 경우, 제 1 주파수 도메인 신호와 제 2 주파수 도메인 신호는 각각 [수학식 1]과 [수학식 2]로 표현될 수 있다.
[수학식 1]
Figure pat00001
[수학식 2]
Figure pat00002
다른 실시 예에 따라 제 1 주파수 도메인 신호가 DCT 주파수 도메인 신호이고, 제 2 주파수 도메인 신호가 DFT 주파수 도메인 신호인 경우, 제 1 주파수 도메인 신호와 제 2 주파수 도메인 신호는 각각 [수학식 3]과 [수학식 4]로 표현될 수 있다.
[수학식 3]
Figure pat00003
[수학식 4]
Figure pat00004
일 실시 예에 따른 DFT 주파수 도메인 신호는 [수학식 5]로 정의될 수 있으며, 음성신호인 경우, DCT 주파수 도메인 신호를 다운 샘플링 및 미러링을 통해 DFT 주파수 도메인 신호로 변환할 수 있다.
[수학식 5]
Figure pat00005
일 실시 예에 따른 DCT 주파수 도메인 신호는 [수학식 6]으로 정의될 수 있으며, 음성신호인 경우, DFT 주파수 도메인 신호를 업샘플링 및 보간을 통해 DCT 주파수 도메인 신호로 변환할 수 있다.
[수학식 6]
Figure pat00006
단계 S240에서 일 실시 예에 따른 디바이스(100)는 변환으로 획득된 제 2 주파수 도메인 신호를 이용하여 단계 S210에서 수신한 소리 신호를 인식한다.
일 실시 예에 따른 디바이스(100)는 제 2 주파수 도메인 신호를 분석하여 제 2 주파수 도메인 신호의 특징을 추출함으로써 제 2 주파수 도메인 신호로부터 음성 신호를 인식할 수 있다. 제 2 주파수 도메인 신호로부터 인식한 음성 신호는 단계 S210에서 수신한 소리 신호에 대응되는 음성 신호일 수 있다.
예를 들면, 단계 S210에서 수신한 소리 신호가 단계 S220에서 음성 신호로 결정된 경우, 디바이스(100)는 제 2 주파수 도메인 신호의 특징을 추출하여 음성 신호를 인식할 수 있다. 일 실시 예에 따른 디바이스(100)가 음성 인식 동작을 수행할 때, 디바이스(100)는 음성 데이터 베이스를 이용할 수 있다. 음성 데이터 베이스는 음성의 특징과 관련된 데이터를 모아놓은 데이터 베이스를 의미할 수 있다. 일 실시 예에 따른 디바이스(100)는 음성 데이터 베이스에 저장된 음성의 특징들과 제 2 주파수 도메인 신호의 분석 결과를 비교하여 소리 신호에 대응되는 음성 신호를 인식할 수 있다. 예를 들면, 소리 신호가 음성 신호로 “알람 켜기”인 경우 디바이스(100)는 음성 데이터 베이스에 저장된 “알람”이라는 음성 신호 데이터의 특징 및 “켜기”라는 음성 신호 데이터의 특징과 수신된 소리 신호의 특징이 대응된다는 것을 확인하고, 수신한 소리 신호가 “알람 켜기”라는 음성 신호에 대응됨을 인식할 수 있다. 또한, 디바이스(100)는 음성 인식 결과를 디바이스(100) 외부로 송신할 수 있다.
도 3은 다양한 실시 예에 따른 디바이스(100)가 소리 신호 변환하여 인식하는 일례를 도시한 도면이다.
도 3을 참조하면, 일 실시 예에 따른 디바이스(100)는 제 1 주파수 변환부(310), 음성 검출기(voice activity detector, VAD)(340), 제 2 주파수 변환부(350), 특징점 추출부(feature extraction, FX)(360), 디코딩부(decoding, DEC)(370) 및 내부 메모리(38)를 포함할 수 있다. 또한, 일 실시 예에 따른 음성 검출기(340)는 음성 인식기 (320) 및 잡음 제거부 (330)를 포함할 수 있다.
그러나 도시된 구성요소보다 많은 구성요소에 의해 디바이스(100)가 구현될 수도 있고, 도시된 구성요소보다 적은 구성요소에 의해 디바이스(100)가 구현될 수도 있다.
일 실시 예에 따른 제 1 주파수 변환부(310)는 시간 도메인의 신호를 제 1 주파수 도메인의 신호로 변환할 수 있다. 예를 들면, 제 1 주파수 변환부(310)는 시간 도메인의 신호인 소리 신호를 제 1 주파수 도메인의 신호로 변환시킬 수 있다. 예를 들면, 제 1 주파수 변환부(310)는 시간 도메인의 신호인 소리 신호를 DFT 도메인 신호, DCT 도메인 신호, DST 도메인 신호 및 MDCT 도메인 신호 중 적어도 하나의 신호로 변환할 수 있다.
일 실시 예에 따른 제 1 주파수 변환부(310)에 의해 변환되는 소리 신호의 용량은 기설정된 값 이하로 제어될 수 있다. 예를 들면 제 1 주파수 변환부(310)에 의해 변환되는 소리 신호의 길이가 기설정된 길이 이하일 수 있다. 예를 들면, 제 1 주파수 변환부(310)에 의해 변환되는 소리 신호의 길이는 30ms이하일 수 있다.
일 실시 예에 따른 음성 검출기(340)는 음성 인식기(320) 및 잡음 제거부 (330)를 포함할 수 있다. 일 실시 예에 따른 음성 검출기(340)는 외부로부터 수신하는 소리 신호가 음성인지 여부를 결정할 수 있다. 일 실시 예에 따른 음성 검출기(340)에는 전원이 지속적으로 인가되어 있을 수 있다.
일 실시 예에 따른 음성 인식기(320)는 제 1 주파수 변환부(310)로부터 수신한 제 1 주파수 도메인의 신호를 분석하여 입력된 소리 신호가 음성 신호인지 여부를 결정할 수 있다.
일 실시 예에 따른 잡음 제거부(330)는 음성 인식기(320)로부터 수신한 신호에 대해서 잡음을 제거할 수 있다. 일 실시 예에 따른 잡음 제거부(330)는 음성 인식기(320)에서 소리 신호를 음성 신호라고 결정한 경우에 동작할 수 있다. 예를 들면, 잡음 제거부(330)는 음성 인식기(320)에서 현재 수신한 소리 신호가 음성 신호가 아니라고 결정한 경우에는 활성화되지 않고, 추후에 음성 인식기(320)에서 음성 신호라고 판단되는 신호를 수신한 경우 활성화될 수 있다.
또한, 일 실시 예에 따른 잡음 제거부(330)는 제 1 주파수 도메인 신호에 대해서 잡음 제거 동작을 수행하므로 제 1 주파수 도메인 신호에 적응적인 방식으로 잡음 제거 동작을 수행할 수 있다.
일 실시 예에 따른 제 2 주파수 변환부(350)는 음성 검출기(340)로부터 수신한 신호를 제 2 주파수 도메인 신호로 변환할 수 있다.
예를 들면, 제 2 주파수 변환부(350)는 FFT(Fast Fourier Transform) 연산에 기초하여 음성 검출기(340)로부터 수신한 신호를 제 2 주파수 도메인 신호로 변환할 수 있다. 예를 들면, 제 1 주파수 변환부(310)는 소리 신호를 DFT 도메인 신호로 변환하고, 제 2 주파수 변환부(350)는 음성 검출기(340)로부터 수신한 신호를 DCT 도메인 신호로 변환할 수 있다. 이 경우, 음성 검출기(340)는 DFT 도메인 신호를 이용하여 소리 신호가 음성 신호인지 여부를 결정하고, 특징점 추출부(360)는 DCT 도메인 신호를 이용하여 특징점을 추출할 수 있다. 일 실시 예에 따른 음성 검출기(340) 및 제 2 주파수 변환부(350)는 모두 시간 도메인 신호가 아닌 주파수 도메인 신호에 대한 처리를 수행할 수 있다.
다른 예로, 음성 검출기(340)에서 처리하는 신호의 주파수 도메인과 특징점 추출부(360)에서 처리하는 신호의 주파수 도메인이 동일한 경우, 제 2 주파수 변환부(350)는 음성 검출기(340)에서 수신한 신호를 특징점 추출부(360)로 바이패스 할 수 있다. 이 경우, 제 2 주파수 변환부(350)는 수식적으로 단위 행렬(identity matrix)의 동작을 수행할 수 있다.
일 실시 예에 따른 제 2 주파수 변환부(350)는 음성 검출기(340)로부터 수신한 신호를 내부 메모리(380)에 저장하고, 내부 메모리에 저장된 신호에 대한 처리를 수행하여 제 2 주파수 도메인 신호를 획득할 수 있다. 도 2에서 상술한 바와 같이 제 1 주파수 도메인 신호의 용량이 기설정된 값 이하로 제어될 수 있기 때문에 디바이스(100)는 음성 검출기(340)로부터 수신한 신호를 제한된 용량의 내부 메모리(380)에 저장할 수 있다.
일 실시 예에 따른 제 2 주파수 변환부(350)는 주파수 도메인을 변경하는 형식의 변환을 수행함으로써 계산량을 절감하고 디바이스(100)가 전체적으로 저전력으로 구동될 수 있도록 할 수 있다.
일 실시 예에 따른 특징점 추출부(360)는 특징점을 추출할 수 있다.
예를 들면, 특징점 추출부(360)는 제 2 주파수 변환부(350)로부터 획득한 제 2 주파수 도메인 신호로부터 특징점을 추출하여 디코딩부(370)로 전송할 수 있다.
일 실시 예에 따른 특징점 추출부(360)는 음성 검출기(340)의 동작에 종속적으로 동작할 수 있다. 예를 들면, 특징점 추출부(360)는 음성 인식기(320)가 입력된 소리 신호가 음성 신호라고 결정한 경우에 활성화되고, 입력된 소리가 음성 신호가 아니라고 결정한 경우에는 비활성화 될 수 있다.
또한, 일 실시 예에 따른 특징점 추출부(360)는 내부 메모리(380)에 추출한 특징점에 대한 데이터를 저장할 수 있다.
일 실시 예에 따른 디코딩부(370)는 특징점 추출부(360)로부터 수신한 신호를 이용하여 음성을 인식할 수 있다. 예를 들면, 디코딩부(370)는 특징점 추출부(360)에서 추출된 특징점들을 데이터 베이스(미도시)에 저장되어 있는 음성 모델과 비교하여 수신된 음성을 인식할 수 있다.
일 실시 예에 따른 내부 메모리(380)는 디바이스(100) 내에 포함된 저장 공간을 의미할 수 있다. 일 실시 예에 따른 내부 메모리(380)는 외부 메모리와는 다르게 용량이 제한적일 수 있다. 그러나 상술한 바와 같이 음성 검출기(340)로부터 수신된 신호 또는 추출된 특징점에 대한 데이터가 내부 메모리(380)에 저장될 수 있다.
도 4는 다양한 실시 예에 따른 디바이스(100)가 업샘플링을 통해 소리 신호를 변환하는 방법을 설명하는 흐름도이다.
단계 S410에서 일 실시 예에 따른 디바이스(100)는 변환 전 신호로 DFT 도메인 신호를 획득할 수 있다. 예를 들면, 변환 전 신호는 상술한 제 1 도메인 신호를 의미할 수 있다.
단계 S420에서 일 실시 예에 따른 디바이스(100)는 변환 후 신호로 DCT 도메인 신호를 획득할 수 있다. 예를 들면, 변환 후 신호는 상술한 제 2 도메인 신호를 의미할 수 있다.
단계 S430에서 일 실시 예에 따른 디바이스(100)는 변환 전 신호와 변환 후 신호가 동일한 주파수 도메인을 갖는지 여부를 결정할 수 있다.
변환 전 신호와 변환 후 신호가 동일한 주파수 도메인을 갖는 경우 변환을 수행하지 않고 변환을 종료시킬 수 있다. 예를 들면, 변환 전 신호가 DFT 도메인 신호이고 변환 후 신호도 DFT 도메인 신호인 경우 디바이스(100)는 신호의 변환을 수행하지 않고 변환 과정을 종료할 수 있다.
단계 S440에서 변환 전 신호와 변환 후 신호가 동일한 주파수 도메인을 갖지 않는 경우, 일 실시 예에 따른 디바이스(100)는 변환 전 신호인 DFT 도메인 신호에 대해서 도메인 변환에 적합한 업샘플링을 수행할 수 있다. 제 1 그래프(410)에서 확인할 수 있는 바와 같이 디바이스(100)는 신호의 샘플링 주파수를 증가시켜 변환 전 값을 보다 넓은 주파수 영역에 대응시킬 수 있다.
단계 S450에서 일 실시 예에 따른 디바이스(100)는 단계 S440에서 업샘플링이 수행된 신호에 대해서 도메인 변환에 맞는 보간을 수행할 수 있다. 제 2 그래프(420)에서 확인할 수 있는 바와 같이 디바이스(100)는 각 값들의 중간값을 예측 및 보간하여 신호의 변환을 수행할 수 있다.
단계 S460에서 일 실시 예에 따른 디바이스(100)는 단계 S450에서 보간이 수행된 신호에 대해서 도메인 변환에 적합한 위상 변환을 수행할 수 있다. 일 실시 예에 따른 디바이스(100)는 DFT 주파수 도메인 신호를 DCT 주파수 도메인 신호로 변환하는 과정에서 발생하는 기준 주파수간의 위상 차이를 고려하여 위상 변환을 수행할 수 있다.
일 실시 예에 따른 디바이스(100)는 단계 S440, 단계 S450, 단계 S460에서 각각 업샘플링, 보간, 위상 변환을 DFT 주파수 도메인 신호에 수행함으로써 DFT 주파수 도메인 신호에 대응하는 DCT 주파수 도메인 신호를 획득할 수 있다.
도 5는 다양한 실시 예에 따른 디바이스(100)가 다운 샘플링을 통해 소리 신호를 변환하는 방법을 설명하는 흐름도이다.
단계 S510에서 일 실시 예에 따른 디바이스(100)는 변환 전 신호로 DCT 도메인 신호를 획득할 수 있다. 예를 들면, 변환 전 신호는 상술한 제 1 도메인 신호를 의미할 수 있다.
단계 S520에서 일 실시 예에 따른 디바이스(100)는 변환 후 신호로 DFT 도메인 신호를 획득할 수 있다. 예를 들면, 변환 후 신호는 상술한 제 2 도메인 신호를 의미할 수 있다.
단계 S530에서 일 실시 예에 따른 디바이스(100)는 변환 전 신호와 변환 후 신호가 동일한 주파수 도메인을 갖는지 여부를 결정할 수 있다.
변환 전 신호와 변환 후 신호가 동일한 주파수 도메인을 갖는 경우 변환을 수행하지 않고 변환을 종료시킬 수 있다. 예를 들면, 변환 전 신호가 DCT 도메인 신호이고 변환 후 신호도 DCT 도메인 신호인 경우 디바이스(100)는 신호의 변환을 수행하지 않고 변환 과정을 종료할 수 있다.
단계 S540에서 변환 전 신호와 변환 후 신호가 동일한 주파수 도메인을 갖지 않는 경우, 일 실시 예에 따른 디바이스(100)는 변환 전 신호인 DCT 도메인 신호에 대해서 도메인 변환에 적합한 다운 샘플링을 수행할 수 있다. 제 3 그래프(510)에서 확인할 수 있는 바와 같이 디바이스(100)는 신호의 샘플링 주파수를 감소시켜 변환 전 값을 보다 좁은 주파수 영역에 대응시킬 수 있다.
단계 S550에서 일 실시 예에 따른 디바이스(100)는 단계 S540에서 다운 샘플링이 수행된 신호에 대해서 도메인 변환에 맞는 보간을 수행할 수 있다. 제 4 그래프(520)에서 확인할 수 있는 바와 같이 디바이스(100)는 각 값들에 대해서 미러링을 수행하여 신호의 변환을 수행할 수 있다.
단계 S560에서 일 실시 예에 따른 디바이스(100)는 단계 S550에서 미러링이 수행된 신호에 대해서 도메인 변환에 적합한 위상 변환을 수행할 수 있다. 일 실시 예에 따른 디바이스(100)는 DCT 주파수 도메인 신호를 DFT 주파수 도메인 신호로 변환하는 과정에서 발생하는 기준 주파수간의 위상 차이를 고려하여 위상 변환을 수행할 수 있다.
일 실시 예에 따른 디바이스(100)는 단계 S540, 단계 S550, 단계 S560에서 각각 다운샘플링, 미러링, 위상 변환을 DCT 주파수 도메인 신호에 수행함으로써 DCT 주파수 도메인 신호에 대응하는 DFT 주파수 도메인 신호를 획득할 수 있다.
도 6은 다양한 실시 예에 따른 디바이스(100)가 소리 신호를 처리하는 일례를 설명하는 도면이다.
일 실시 예에 따른 디바이스(100)는 시스템 버스(610)에 연결되어 동작할 수 있다. 시스템 버스(610)에는 여러 형태의 외부 디바이스(620)가 연결되어 있을 수 있다. 일 실시 예에 따른 외부 디바이스(620)는 외부 메모리나 외부 프로세서를 포함할 수 있다.
일 실시 예에 따른 디바이스(100)는 도 2 또는 도 3에서 상술한 바와 같이 주파수 변환을 수행하거나 특징점에 대한 데이터를 저장할 때 디바이스(100)내에 포함된 내부 메모리를 이용할 수 있다. 따라서 일 실시 예에 따른 디바이스(100)는 외부 디바이스(620)가 비활성화된 상태에서 동작할 수 있다. 예를 들면, 소리 신호가 음성 신호인지 여부를 판단하는 동작 및 제 1 주파수 도메인 신호를 제 2 주파수 도메인으로 변환하는 동작을 디바이스(100)가 수행할 때 외부 디바이스(620)는 비활성화 되어 있을 수 있다.
도 7은 다양한 실시 예에 따른 디바이스(100)가 메모리를 이용하여 소리 신호를 처리하는 일례를 설명하는 도면이다.
일 실시 예에 따른 디바이스(100)는 외부로부터 소리 신호(710)를 수신할 수 있다.
또한, 일 실시 예에 따른 디바이스(100)는 수신한 소리 신호(710)가 음성 신호인지 여부를 판단하는 동작 및 소리 신호에 대한 변환 동작을 제 1 시간 구간(720) 동안 수행할 수 있다.
다른 실시 예에 따른 디바이스(100)는 소리 신호(710)의 수신이 없는 경우, 제 1 시간 구간(720) 동안 수신한 소리 신호(710)에 대한 음성 인식 동작을 제 2 시간 구간(730) 동안 수행할 수 있다. 일 실시 예에 따른 디바이스(100)는 제 1 시간 구간(720)에서 외부 메모리를 이용하지 않고 동작할 수 있으나, 제 2 시간 구간(730)에서 외부 메모리를 이용하여 동작할 수 있다.
예를 들면, 디바이스(100)는 제 1 시간 구간(720)에서는 소리 신호(710)를 수신하는 중이므로 음성 인식 동작을 수행할 수 없어 외부 메모리에 대한 접근 없이 음성 신호 여부 판단 동작 및 주파수 변환 동작을 수행하고, 제 2 시간 구간(730)에서는 소리 신호(710)의 수신이 종료되었으므로 외부 메모리를 이용하여 수신한 소리 신호(710)에 대한 음성 인식 동작을 수행할 수 있다.
도 8a와 도 8b는 다양한 실시 예에 따른 디바이스(100)가 소리 신호를 변환하는 방법을 설명하는 도면이다.
일 실시 예에 따른 DCT 주파수 도메인 신호가 도 8a에 도시되어 있다. 또한, 도 8a에 도신된 DCT 주파수 도메인 신호에 대응되는 DFT 주파수 도메인 신호가 도 8b에 도시되어 있다.
도 8a에 도시된 DCT 주파수 도메인 신호를 제 1 신호, 도 8b에 도시된 DFT 주파수 도메인 신호를 제 2 신호라고 할 때, 일 실시 예에 따른 디바이스(100)는 제 1 신호에 대한 주파수 변환을 수행하여 제 2 신호를 획득할 수 있다.
예를 들면, 도 5에서 상술한 바와 같이 디바이스(100)는 제 1 신호에 대한 다운 샘플링, 미러링 및 위상 변환을 통해 제 2 신호를 획득할 수 있다. 제 1 구간(810)에 대해서 제 1 신호를 다운 샘플링 하면 제 2 구간(820)에서의 제 2 신호를 획득할 수 있고, 제 2 구간(820)에서의 제 2 신호에 대해 미러링을 수행하여 제 3 구간(830)에서의 제 2 신호를 획득할 수 있다. 또한 위상 변환을 수행함으로써 제 2 구간(820) 및 제 3 구간(830) 전체에서 제 2 신호를 획득할 수 있다.
또한, 다른 실시 예에 따른 디바이스(100)는 제 2 신호에 대한 주파수 변환을 수행하여 제 1 신호를 획득할 수 있다.
예를 들면, 도 4에서 상술한 바와 같이 디바이스(100)는 제 2 신호에 대한 업샘플링, 보간 및 위상 변환을 통해 제 1 신호를 획득할 수 있다. 제 2 구간(820)에 대해서 제 2 신호를 업샘플링하고 보간을 수행 하면 제 1 구간(810)에서의 제 1 신호를 획득할 수 있다. 또한 위상 변환을 수행함으로써 제 1 구간(810)에서 제 1 신호를 획득할 수 있다.
도 8a 및 도 8b에 개시된 신호 변환은 수신한 소리 신호가 음성 신호인 경우에 한해 수행되도록 디바이스(100)는 설정될 수 있다.
도 9는 다양한 실시 예에 따른 주파수 변환부(900)가 신호의 주파수 도메인을 변환하는 방법을 설명하는 도면이다.
일 실시 예에 따른 주파수 변환부(900)는 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환할 수 있다. 예를 들면, 주파수 변환부(900)의 좌측 단자로 입력되는 제 1 주파수 도메인 신호를 주파수 변환부(900)의 우측 단자로 출력되는 제 2 주파수 도메인 신호로 변환할 수 있다.
예를 들면, 주파수 변환부(900)는 DFT 도메인 신호, DCT 도메인 신호, DST 도메인 신호 및 MDCT 도메인 신호 중 하나의 신호를 DFT 도메인 신호, DCT 도메인 신호, DST 도메인 신호 및 MDCT 도메인 신호 중 하나의 신호로 변환할 수 있다.
예를 들면, 주파수 변환부(900)는 DFT 도메인 신호를 DCT 도메인 신호로 변환할 수 있다. 다른 예로, 주파수 변환부(900)는 DCT 도메인 신호를 DFT 도메인 신호로 변환할 수 있다.
다른 예로, 제 1 주파수 도메인 신호와 제 2 주파수 도메인 신호가 동일한 주파수 도메인을 갖는 경우, 주파수 변환부(900)는 수신한 신호를 출력 신호로 바이패스 할 수 있다. 이 경우, 주파수 변환부(900)는 수식적으로 단위 행렬(identity matrix)의 동작을 수행할 수 있다.
도 10은 다양한 실시 예에 따른 디바이스(100)의 구성을 나타내는 블록도이다.
도 7에 도시된 바와 같이, 디바이스(110)는 신호 수신부(1010), 음성 신호 결정부(1020), 주파수 변환부(1030), 신호 인식부(1040) 및 내부 메모리(1050)를 포함할 수 있다. 그러나 도시된 구성요소보다 많은 구성요소에 의해 디바이스(100)가 구현될 수도 있고, 도시된 구성요소보다 적은 구성요소에 의해 디바이스(100) 가 구현될 수도 있다.
이하 상기 구성요소들에 대해 차례로 살펴본다.
일 실시 예에 따른 신호 수신부(1010) 는 디바이스(100)의 외부로부터 소리 신호를 수신한다.
일 실시 예에 따른 소리 신호는 물체의 진동에 의하여 생긴 음파 신호를 의미할 수 있다. 일 실시 예에 따른 신호 수신부(1010)는 디바이스(100)의 외부에서 발생하는 소리 신호를 신호 수신부(1010)에 포함된 센서를 통하여 수신할 수 있다. 예를 들면, 신호 수신부(1010)는 소리 신호 감지 센서를 포함하고 있을 수 있다. 일 실시 예에 따른 소리 신호 감지 센서는 마이크를 포함할 수 있다.
또한, 지속적인 모니터링이 가능하도록 신호 수신부(1010)에 포함된 센서 중 소리 신호를 수신하는 센서에는 항상 전원이 인가되어 있을 수 있다. 예를 들면, 신호 수신부(1010)에 포함된 마이크는 항상 활성화 되어 있고, 신호 수신부(1010)에 포함된 마이크 외의 모듈은 마이크에서 수신하는 소리 신호에 대응하여 활성화될 수 있다.
일 실시 예에 따른 신호 수신부(1010)는 기설정된 길이 단위로 소리 신호를 수신할 수 있다. 예를 들면, 신호 수신부(1010)는 10ms 내지 30ms 내에서 기설정된 길이로 수신된 소리 신호를 하나의 단위로 처리할 수 있다. 다른 예로, 신호 수신부(1010)는 외부로부터 수신되는 소리 신호에 대해서 처음 15ms 동안 수신된 소리 신호인 제 1 소리 신호, 처음 소리 신호가 수신되기 시작한 이후 15ms내지 30ms 동안 수신된 소리 신호인 제 2 소리신호, 처음 소리 신호가 수신되기 시작한 이후 30ms 내지 45ms 동안 수신된 소리 신호인 제 3 소리 신호에 대해서, 제 1 소리 신호 내지 제 3 소리 신호를 각각 하나의 소리 신호로 보고 제 1 소리 신호 내지 제 3 소리 신호를 순차적으로 처리할 수 있다. 단 본 명세서에 개시된 수치는 기설정된 값의 일 예에 불과하고, 다른 수치로 기설정된 길이가 결정될 수 있다.
일 실시 예에 따른 음성 신호 결정부(1020)는 신호 수신부(1010)에서 수신한 소리 신호가 음성 신호를 포함하고 있는지 여부를 결정할 수 있다. 또한, 음성 신호 결정부(1020)는 신호 수신부(1010)에서 수신한 소리 신호를 제 1 주파수 도메인 신호로 변환하고, 변환된 제 1 주파수 도메인 신호를 분석하여 소리 신호가 음성 신호를 포함하고 있는지 여부를 결정할 수 있다.
일 실시 예에 따라 신호 수신부(1010)가 수신한 소리 신호는 시간 도메인 신호일 수 있다. 일 실시 예에 따른 음성 신호 결정부(1020)는 시간 도메인 신호로 제공되는 소리 신호를 제 1 주파수 도메인 신호로 변환할 수 있다.
일 실시 예에 따른 제 1 주파수 도메인 신호는 기설정된 주파수 도메인으로 표현될 수 있는 형태의 신호를 의미할 수 있다. 예를 들면, 음성 신호 결정부(1020)는 시간 도메인 신호인 소리 신호를 DFT(Discrete Fourier Transform) 도메인 신호로 변환할 수 있다. 다른 예로, 음성 신호 결정부(1020)는 시간 도메인 신호인 소리 신호를 DCT(Discrete Cosine Transform) 도메인 신호로 변환할 수 있다. 다른 예로, 음성 신호 결정부(1020)는 시간 도메인 신호인 소리 신호를 DST(Discrete Sine Transform) 도메인 신호로 변환할 수 있다. 다른 예로, 음성 신호 결정부(1020)는 시간 도메인 신호인 소리 신호를 MDCT(Modified Discrete Cosine Transform) 도메인 신호로 변환할 수 있다.
일 실시 예에 따른 음성 신호 결정부(1020)는 기설정된 시간 길이 단위로 소리 신호를 제 1 주파수 도메인 신호로 변환할 수 있다.
예를 들면, 음성 신호 결정부(1020)는 30ms의 시간 길이 단위로 획득되는 소리 신호를 제 1 주파수 도메인 신호로 변환할 수 있다. 예를 들면, 음성 신호 결정부(1020)는 디바이스(100)가 동작한 이후 930ms만큼 시간이 흐른 시점부터 960ms만큼 시간이 흐른 시점 동안 획득되는 소리 신호인 제 4 소리 신호를 DFT 도메인 신호로 변환할 수 있다. 여기서 제 4 소리 신호는 시간 도메인 신호일 수 있다.
다른 실시 예에 따른 음성 신호 결정부(1020)는 수신한 소리 신호를 이용하여 소리 신호가 음성 신호인지 여부를 결정할 수 있다. 예를 들면, 음성 신호 결정부(1020)는 수신한 소리 신호로부터 특징을 추출하고 추출된 특징을 분석하여 수신한 소리 신호가 음성 신호인지 여부를 결정할 수 있다. 다른 예로, 음성 신호 결정부(1020)는 수신한 소리 신호의 주파수를 분석하여 수신한 소리 신호가 음성 신호인지 여부를 결정할 수 있다.
다른 실시 예에 따른 음성 신호 결정부(1020)는 신호 수신부(1010)에서 수신한 소리 신호를 제 1 주파수 도메인 신호로 변환하고, 변환으로 획득된 제 1 주파수 도메인 신호를 이용하여 소리 신호가 음성 신호인지 여부를 결정할 수 있다. 예를 들면, 음성 신호 결정부(1020)는 상술한 바와 같이 수신한 소리 신호를 제 1 주파수 도메인 신호로 변환하고, 변환으로 획득된 제 1 주파수 도메인 신호의 특징을 분석하고, 분석 결과에 따라 수신한 소리 신호가 음성 신호인지 여부를 결정할 수 있다.
일 실시 예에 따른 주파수 변환부(1030) 는 음성 신호 결정부(1020)의 결정에 기초하여 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환할 수 있다.
일 실시 예에 따른 주파수 변환부(1030)는 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환할 수 있다. 예를 들면, 주파수 변환부(1030)는 제 1 주파수 도메인 신호를 직접적으로 제 2 주파수 도메인 신호로 변환하기 때문에 짧은 시간 길이 단위의 소리 신호를 처리할 수 있다. 예를 들면, 중간에 시간 도메인으로 변환하는 과정 없이 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 직접 변환하는 경우, 주파수 변환부(1030)는 0.1초 이하 시간 길이 단위의 소리 신호를 처리할 수 있다. 다만 본 명세서에서 사용된 0.1초라는 수치는 소리 신호 길이의 일 예에 불과하고, 다른 수치가 적용될 수도 있다. 다른 예로, 음성 명령어가 2초의 길이를 갖는 경우에도, 주파수 변환부(1030)는 2초 길이의 소리 신호를 0.05초 시간 길이 단위의 소리 신호로 나누어 나뉘어진 각각의 소리 신호에 대해서 음성 신호인지 여부를 결정할 수 있다.
다른 실시 예에 따른 주파수 변환부(1030)는 소리 신호가 음성 신호라고 결정된 경우, 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환할 수 있다. 예를 들면, 제 1 주파수 도메인 신호의 분석을 통해서 음성 신호 결정부(1020)에서 소리 신호가 음성 신호가 아니라고 결정된 경우, 주파수 변환부(1030)는 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환하지 않을 수 있다. 다른 예로, 제 1 주파수 도메인 신호의 분석을 통해서 소리 신호가 음성 신호라고 결정된 경우, 주파수 변환부(1030)는 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환할 수 있다.
다른 실시 예에 따른 주파수 변환부(1030)는 업샘플링, 다운 샘플링, 보간(interpolation) 및 미러링(mirroring) 중 적어도 하나의 방법을 이용하여 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환할 수 있다.
예를 들면, 제 1 주파수 도메인 신호가 DFT 도메인 신호이고, 제 2 주파수 도메인 신호가 DCT 도메인 신호인 경우, 주파수 변환부(1030)는 제 1 주파수 도메인 신호에 대해서 업샘플링, 보간 및 위상 변환을 수행하여 제 2 주파수 도메인 신호를 획득할 수 있다. 업샘플링, 보간 및 위상 변환은 도메인 변환에 적응적인 방식으로 수행될 수 있다.
다른 예로, 제 1 주파수 도메인 신호가 DCT 도메인 신호이고, 제 2 주파수 도메인 신호가 DFT 도메인 신호인 경우, 주파수 변환부(1030)는 제 1 주파수 도메인 신호에 대해서 다운샘플링, 미러링 및 위상 변환을 수행하여 제 2 주파수 도메인 신호를 획득할 수 있다. 다운샘플링, 미러링 및 위상 변환은 도메인 변환에 적응적인 방식으로 수행될 수 있다.
다른 실시 예에 따른 음성 신호 결정부(1020) 는 제 1 주파수 도메인 신호를 디바이스(100)에 포함된 내부 메모리(1050)에 저장하고, 주파수 변환부(1030)는 저장된 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환할 수 있다.
예를 들면, 음성 신호 결정부(1020)는 수신한 소리 신호를 제 1 주파수 도메인 신호로 변환하여 디바이스(100)에 포함된 내부 메모리(1050)에 저장할 수 있다. 변환된 제 1 주파수 도메인 신호의 용량은 내부 메모리(1050)에 저장될 수 있을 정도로 작을 수 있다. 예를 들면, 음성 신호 결정부(1020)는 기설정된 길이의 소리 신호를 제 1 주파수 도메인 신호로 변환하여 디바이스(100)에 포함된 내부 메모리(1050)에 저장할 수 있다. 여기서 일 실시 예에 따른 기설정된 길이는 충분히 짧아서 변환된 제 1 주파수 도메인의 신호의 용량은 내부 메모리(1050)에 저장될 수 있을 정도로 작을 수 있다. 예를 들면 기설정된 길이는 0.1초 이하일 수 있다. 일 실시 예에 따른 디바이스(100)는 상술된 바와 같이 제 1 주파수 도메인의 신호의 용량을 기설정된 값이하로 제어할 수 있기 때문에, 제 1 주파수 도메인의 신호를 내부 메모리(1050)에 저장하여 처리할 수 있다. 주파수 변환부(1030)는 내부 메모리(1050)만을 이용하여 제 1 주파수 도메인의 신호를 처리할 수 있으므로 외부 메모리에 대한 접근 없이 제 1 주파수 신호를 처리할 수 있다.
다른 예로, 주파수 변환부(1030)는 내부 메모리(1050)에 저장된 제 1 주파수 도메인 신호에 대해 주파수 변환을 수행하여 제 2 주파수 도메인 신호를 획득할 수 있다. 일 실시 예에 따른 주파수 변환부(1030)는 메모리에 저장된 신호에 대해서 주파수 변환을 수행할 수 있다. 따라서 주파수 변환부(1030)가 주파수 변환을 수행하기 위해서 제 1 주파수 도메인 신호의 저장이 선행될 수 있다. 주파수 변환부(1030)는 내부 메모리(1050)에 저장된 제 1 주파수 도메인 신호에 대해 주파수 변환을 수행하여 제 2 주파수 도메인 신호를 획득할 수 있다.
다른 실시 예에 따른 음성 신호 결정부(1020)는 제 1 주파수 도메인 신호에 대해서 노이즈 필터링을 수행하고, 주파수 변환부(1030)는 노이즈 필터링이 수행된 신호를 제 2 주파수 도메인으로 변환할 수 있다.
예를 들면, 음성 신호 결정부(1020)는 소리 신호를 제 1 주파수 도메인 신호로 변환하고, 변환으로 획득된 제 1 주파수 도메인 신호에 대해서 노이즈 필터링을 수행하고, 주파수 변환부(1030)는 노이즈 필터링이 수행된 신호에 대해 주파수 변환을 수행하여 제 2 주파수 도메인 신호를 획득할 수 있다. 노이즈 필터링은 제 1 주파수 도메인 신호에 대해서 수행되므로 제 1 주파수 도메인 신호에 적합한 노이즈 필터링 방식이 이용될 수 있다.
일 실시 예에 따른 제 2 주파수 도메인 신호는 기설정된 주파수 도메인으로 표현될 수 있는 형태의 신호를 의미할 수 있다. 예를 들면, 주파수 변환부(1030)는 제 1 주파수 도메인 신호를 DFT(Discrete Fourier Transform) 도메인 신호로 변환할 수 있다. 다른 예로, 주파수 변환부(1030)는 제 1 주파수 도메인 신호를 DCT(Discrete Cosine Transform) 도메인 신호로 변환할 수 있다. 다른 예로, 주파수 변환부(1030)는 제 1 주파수 도메인 신호를 DST(Discrete Sine Transform) 도메인 신호로 변환할 수 있다. 다른 예로, 주파수 변환부(1030)는 제 1 주파수 도메인 신호를 MDCT(Modified Discrete Cosine Transform) 도메인 신호로 변환할 수 있다.
제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환할 때 요구되는 계산량은 제 1 주파수 도메인 신호를 시간 도메인 신호로 변환한 후 다시 제 2 주파수 도메인 신호를 시간 도메인 신호로부터 획득하는 경우에 요구되는 계산량보다 적을 수 있다. 따라서 주파수 변환부(1030)는 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 직접 변환시킴으로써 요구되는 계산량을 감소시킬 수 있다.
일 실시 예에 따른 신호 인식부(1040)는 변환으로 획득된 제 2 주파수 도메인 신호를 이용하여 신호 수신부(1010)에서 수신한 소리 신호를 인식한다.
일 실시 예에 따른 신호 인식부(1040)는 제 2 주파수 도메인 신호를 분석하여 제 2 주파수 도메인 신호의 특징을 추출함으로써 제 2 주파수 도메인 신호로부터 음성 신호를 인식할 수 있다. 제 2 주파수 도메인 신호로부터 인식한 음성 신호는 신호 수신부(1010)에서 수신한 소리 신호에 대응되는 음성 신호일 수 있다.
예를 들면, 신호 수신부(1010)에서 수신한 소리 신호가 음성 신호 결정부(1020)에서 음성 신호로 결정된 경우, 신호 인식부(1040)는 제 2 주파수 도메인 신호의 특징을 추출하여 음성 신호를 인식할 수 있다. 일 실시 예에 따른 신호 인식부(1040)가 음성 인식 동작을 수행할 때, 신호 인식부(1040)는 음성 데이터 베이스를 이용할 수 있다. 음성 데이터 베이스는 음성의 특징과 관련된 데이터를 모아놓은 데이터 베이스를 의미할 수 있다. 일 실시 예에 따른 신호 인식부(1040)는 음성 데이터 베이스에 저장된 음성의 특징들과 제 2 주파수 도메인 신호의 분석 결과를 비교하여 소리 신호에 대응되는 음성 신호를 인식할 수 있다. 예를 들면, 소리 신호가 음성 신호로 “알람 켜기”인 경우 신호 인식부(1040)는 음성 데이터 베이스에 저장된 “알람”이라는 음성 신호 데이터의 특징 및 “켜기”라는 음성 신호 데이터의 특징과 수신된 소리 신호의 특징이 대응된다는 것을 확인하고, 수신한 소리 신호가 “알람 켜기”라는 음성 신호에 대응됨을 인식할 수 있다. 또한, 신호 인식부(1040)는 음성 인식 결과를 디바이스(100) 외부로 송신할 수 있다.
이상에서 전술한 다양한 실시 예에 따른 복수개의 컨버터를 제어하는 방법 및 장치는 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있고 컴퓨터에 의해 실행됨으로써 전술한 기능들이 실행될 수 있다.
이상에서 전술한 바와 같은 프로그램을 기록한 컴퓨터로 읽힐 수 있는 기록매체는, 일 예로, ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 미디어 저장장치 등이 있다.
또한 전술한 바와 같은 프로그램을 기록한 컴퓨터로 읽힐 수 있는 기록매체는 네트워크로 커넥션 된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 이 경우, 다수의 분산된 컴퓨터 중 어느 적어도 하나의 컴퓨터는 상기에 제시된 기능들 중 일부를 실행하고, 그 결과를 다른 분산된 컴퓨터들 중 적어도 하나에 그 실행 결과를 전송할 수 있으며, 그 결과를 전송 받은 컴퓨터 역시 상기에 제시된 기능들 중 일부를 실행하여, 그 결과를 역시 다른 분산된 컴퓨터들에 제공할 수 있다.

Claims (18)

  1. 디바이스의 외부로부터 소리 신호를 수신하는 단계;
    상기 소리 신호를 제 1 주파수 도메인 신호로 변환하고, 상기 변환으로 획득된 제 1 주파수 도메인 신호를 이용하여 상기 소리 신호가 음성 신호인지 여부를 결정하는 단계;
    상기 결정에 기초하여 상기 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환하는 단계; 및
    상기 변환으로 획득된 제 2 주파수 도메인 신호를 이용하여 상기 소리 신호를 인식하는 단계를 포함하는 소리 신호 처리 방법.
  2. 제 1 항에 있어서,
    상기 결정에 기초하여 상기 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환하는 단계는
    상기 소리 신호가 음성 신호인 경우 상기 제 1 주파수 도메인 신호를 상기 제 2 주파수 도메인 신호로 변환하는 소리 신호 처리 방법.
  3. 제 1 항에 있어서,
    상기 결정에 기초하여 상기 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환하는 단계는
    업 샘플링, 다운 샘플링, 보간(interpolation), 미러링(mirroring) 및 위상 변환 중 적어도 하나의 방법을 이용하여 상기 제 1 주파수 도메인 신호를 상기 제 2 주파수 도메인으로 변환하는 소리 신호 처리 방법.
  4. 제 1 항에 있어서,
    상기 제 1 주파수 도메인은 DFT 도메인, DCT 도메인, DST 도메인 및 MDCT 도메인 중 적어도 하나를 포함하는 소리 신호 처리 방법.
  5. 제 1 항에 있어서,
    상기 제 2 주파수 도메인은 DFT 도메인, DCT 도메인, DST 도메인 및 MDCT 도메인 중 적어도 하나를 포함하는 소리 신호 처리 방법.
  6. 제 1 항에 있어서,
    상기 결정에 기초하여 상기 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환하는 단계는
    상기 제 1 주파수 도메인 신호를 상기 디바이스에 포함된 내부 메모리에 저장하는 단계; 및
    상기 저장된 제 1 주파수 도메인 신호를 상기 제 2 주파수 도메인 신호로 변환하는 단계를 포함하는 소리 신호 처리 방법.
  7. 제 1 항에 있어서,
    상기 결정에 기초하여 상기 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환하는 단계는
    상기 제 1 주파수 도메인 신호에 대해서 노이즈 필터링을 수행하는 단계;
    상기 노이즈 필터링이 수행된 신호를 상기 제 2 주파수 도메인으로 변환하는 단계를 포함하는 소리 신호 처리 방법.
  8. 제 1 항에 있어서,
    상기 변환으로 획득된 제 2 주파수 도메인 신호를 이용하여 상기 소리 신호를 인식하는 단계는
    상기 디바이스의 외부에 포함된 외부 메모리를 이용하여 상기 소리 신호로부터 상기 음성 신호를 인식하는 소리 신호 처리 방법.
  9. 디바이스의 외부로부터 소리 신호를 수신하는 신호 수신부;
    상기 소리 신호를 제 1 주파수 도메인 신호로 변환하고, 상기 변환으로 획득된 제 1 주파수 도메인 신호를 이용하여 상기 소리 신호가 음성 신호인지 여부를 결정하는 음성 신호 결정부;
    상기 결정에 기초하여 상기 제 1 주파수 도메인 신호를 제 2 주파수 도메인 신호로 변환하는 주파수 변환부; 및
    상기 변환으로 획득된 제 2 주파수 도메인 신호를 이용하여 상기 소리 신호를 인식하는 신호 인식부를 포함하는 디바이스.
  10. 제 9 항에 있어서,
    상기 주파수 변환부는
    상기 소리 신호가 음성 신호인 경우 상기 제 1 주파수 도메인 신호를 상기 제 2 주파수 도메인 신호로 변환하는 디바이스.
  11. 제 9 항에 있어서,
    상기 주파수 변환부는
    업 샘플링, 다운 샘플링, 보간(interpolation), 미러링(mirroring) 및 위상 변환 중 적어도 하나의 방법을 이용하여 상기 제 1 주파수 도메인 신호를 상기 제 2 주파수 도메인으로 변환하는 디바이스.
  12. 제 9 항에 있어서,
    상기 제 1 주파수 도메인은 DFT 도메인, DCT 도메인, DST 도메인 및 MDCT 도메인 중 적어도 하나를 포함하는 디바이스.
  13. 제 9 항에 있어서,
    상기 제 2 주파수 도메인은 DFT 도메인, DCT 도메인, DST 도메인 및 MDCT 도메인 중 적어도 하나를 포함하는 디바이스.
  14. 제 9 항에 있어서,
    상기 주파수 변환부는
    상기 제 1 주파수 도메인 신호를 상기 디바이스에 포함된 내부 메모리에 저장하고,
    상기 저장된 제 1 주파수 도메인 신호를 상기 제 2 주파수 도메인 신호로 변환하는 디바이스.
  15. 제 9 항에 있어서,
    상기 주파수 변환부는
    상기 제 1 주파수 도메인 신호에 대해서 노이즈 필터링을 수행하고,
    상기 노이즈 필터링이 수행된 신호를 상기 제 2 주파수 도메인으로 변환하는 디바이스.
  16. 제 9 항에 있어서,
    상기 신호 인식부는
    상기 디바이스의 외부에 포함된 외부 메모리를 이용하여 상기 소리 신호로부터 상기 음성 신호를 인식하는 디바이스.
  17. 제 1 항 내지 제 8 항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체.
  18. 제 1 항 내지 제 8 항 중 어느 한 항의 방법을 구현하기 위하여 기록매체에 저장된 컴퓨터 프로그램.
KR1020140173242A 2014-12-04 2014-12-04 소리 신호를 처리하는 방법 및 디바이스. KR102306537B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140173242A KR102306537B1 (ko) 2014-12-04 2014-12-04 소리 신호를 처리하는 방법 및 디바이스.
US14/959,580 US9495978B2 (en) 2014-12-04 2015-12-04 Method and device for processing a sound signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140173242A KR102306537B1 (ko) 2014-12-04 2014-12-04 소리 신호를 처리하는 방법 및 디바이스.

Publications (2)

Publication Number Publication Date
KR20160067625A true KR20160067625A (ko) 2016-06-14
KR102306537B1 KR102306537B1 (ko) 2021-09-29

Family

ID=56094860

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140173242A KR102306537B1 (ko) 2014-12-04 2014-12-04 소리 신호를 처리하는 방법 및 디바이스.

Country Status (2)

Country Link
US (1) US9495978B2 (ko)
KR (1) KR102306537B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210017485A (ko) * 2019-08-08 2021-02-17 주식회사 인에이블파인드 주파수 분석을 통한 소리 정보 판단 장치 및 그 방법
US11212123B2 (en) 2018-09-04 2021-12-28 Samsung Electronics Co., Ltd. Method of controlling display device, and display device using the method

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5111505A (en) * 1988-07-21 1992-05-05 Sharp Kabushiki Kaisha System and method for reducing distortion in voice synthesis through improved interpolation
US6384759B2 (en) * 1998-12-30 2002-05-07 At&T Corp. Method and apparatus for sample rate pre-and post-processing to achieve maximal coding gain for transform-based audio encoding and decoding
US7917358B2 (en) * 2005-09-30 2011-03-29 Apple Inc. Transient detection by power weighted average
KR20110090739A (ko) * 2010-02-02 2011-08-10 삼성전자주식회사 표면 음향 신호를 이용한 유저 인터페이스 제공 장치 및 방법, 유저 인터페이스를 구비한 디바이스
JP2012185861A (ja) * 2012-07-03 2012-09-27 Toshiba Corp 操作装置及び操作方法
JP2013077172A (ja) * 2011-09-30 2013-04-25 Japan Radio Co Ltd 音声認識装置および音声認識装置における電源供給制御方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7421304B2 (en) * 2002-01-21 2008-09-02 Kenwood Corporation Audio signal processing device, signal recovering device, audio signal processing method and signal recovering method
EP1611679B1 (en) * 2003-03-31 2015-07-15 Callahan Cellular L.L.C. Up and down sample rate converter
KR100594267B1 (ko) * 2004-03-29 2006-06-30 삼성전자주식회사 샘플링 레이트 변환 방법, 샘플링 레이트 변환 장치, 및그 장치를 포함하는 오디오 재생 시스템
US8463610B1 (en) 2008-01-18 2013-06-11 Patrick J. Bourke Hardware-implemented scalable modular engine for low-power speech recognition
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2239732A1 (en) 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
KR101192813B1 (ko) 2010-12-14 2012-10-26 (주)이엔엠시스템 대기 상태에서 저주파 영역 음향에 대해서 음성인식을 수행하는 음성인식 시스템 및 그 제어방법
JP5039214B2 (ja) 2011-02-17 2012-10-03 株式会社東芝 音声認識操作装置及び音声認識操作方法
KR20130105219A (ko) 2012-03-15 2013-09-25 삼성전자주식회사 음성 인식을 이용하여 전원을 제어하는 전자 장치 및 이의 전원 제어 방법
EP2639793B1 (en) 2012-03-15 2016-04-20 Samsung Electronics Co., Ltd Electronic device and method for controlling power using voice recognition
US9524735B2 (en) * 2014-01-31 2016-12-20 Apple Inc. Threshold adaptation in two-channel noise estimation and voice activity detection

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5111505A (en) * 1988-07-21 1992-05-05 Sharp Kabushiki Kaisha System and method for reducing distortion in voice synthesis through improved interpolation
US6384759B2 (en) * 1998-12-30 2002-05-07 At&T Corp. Method and apparatus for sample rate pre-and post-processing to achieve maximal coding gain for transform-based audio encoding and decoding
US7917358B2 (en) * 2005-09-30 2011-03-29 Apple Inc. Transient detection by power weighted average
KR20110090739A (ko) * 2010-02-02 2011-08-10 삼성전자주식회사 표면 음향 신호를 이용한 유저 인터페이스 제공 장치 및 방법, 유저 인터페이스를 구비한 디바이스
JP2013077172A (ja) * 2011-09-30 2013-04-25 Japan Radio Co Ltd 音声認識装置および音声認識装置における電源供給制御方法
JP2012185861A (ja) * 2012-07-03 2012-09-27 Toshiba Corp 操作装置及び操作方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11212123B2 (en) 2018-09-04 2021-12-28 Samsung Electronics Co., Ltd. Method of controlling display device, and display device using the method
KR20210017485A (ko) * 2019-08-08 2021-02-17 주식회사 인에이블파인드 주파수 분석을 통한 소리 정보 판단 장치 및 그 방법

Also Published As

Publication number Publication date
US20160163335A1 (en) 2016-06-09
KR102306537B1 (ko) 2021-09-29
US9495978B2 (en) 2016-11-15

Similar Documents

Publication Publication Date Title
KR101610151B1 (ko) 개인음향모델을 이용한 음성 인식장치 및 방법
CN107591155B (zh) 语音识别方法及装置、终端及计算机可读存储介质
KR101805976B1 (ko) 음성 인식 장치 및 방법
US20190005961A1 (en) Method and device for processing voice message, terminal and storage medium
KR20190060028A (ko) 화자 인식을 위한 뉴럴 네트워크 장치, 및 그 동작 방법
CN110047481B (zh) 用于语音识别的方法和装置
CN109801646B (zh) 一种基于融合特征的语音端点检测方法和装置
CN105845139B (zh) 一种离线语音控制方法和装置
CN110444202B (zh) 复合语音识别方法、装置、设备及计算机可读存储介质
KR20230107860A (ko) 실제 노이즈를 사용한 음성 개인화 및 연합 트레이닝
KR20180025634A (ko) 음성 인식 장치 및 방법
CN109243427A (zh) 一种车辆故障诊断方法及装置
KR101699252B1 (ko) 음성 인식을 위한 특징 파라미터 추출 방법 및 이를 이용하는 음성 인식 장치
EP2977986B1 (en) Audio command adaptive processing system and method
KR102306537B1 (ko) 소리 신호를 처리하는 방법 및 디바이스.
CN109065026B (zh) 一种录音控制方法及装置
JP3434730B2 (ja) 音声認識方法および装置
US11798564B2 (en) Spoofing detection apparatus, spoofing detection method, and computer-readable storage medium
KR101491911B1 (ko) 소음이 발생되는 환경에서 소음을 제거하는 사운드 획득 시스템
CN113516964B (zh) 语音合成方法及可读存储介质
WO2022204612A1 (en) Harmonics based target speech extraction network
CN114333817A (zh) 遥控器及遥控器语音识别方法
CN114996489A (zh) 新闻数据的违规检测方法、装置、设备及存储介质
JP4612468B2 (ja) 信号抽出装置
CN105374364B (zh) 信号处理方法及电子设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant