KR20020068141A - 음성인식장치를 위한 음성명령식별기 - Google Patents

음성인식장치를 위한 음성명령식별기 Download PDF

Info

Publication number
KR20020068141A
KR20020068141A KR1020010008409A KR20010008409A KR20020068141A KR 20020068141 A KR20020068141 A KR 20020068141A KR 1020010008409 A KR1020010008409 A KR 1020010008409A KR 20010008409 A KR20010008409 A KR 20010008409A KR 20020068141 A KR20020068141 A KR 20020068141A
Authority
KR
South Korea
Prior art keywords
signal
digital
steps
analog
microphone
Prior art date
Application number
KR1020010008409A
Other languages
English (en)
Other versions
KR100368289B1 (ko
Inventor
정화진
Original Assignee
(주)성우테크노
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)성우테크노 filed Critical (주)성우테크노
Priority to KR10-2001-0008409A priority Critical patent/KR100368289B1/ko
Priority to CNA028052625A priority patent/CN1493071A/zh
Priority to JP2002574653A priority patent/JP2004522193A/ja
Priority to EP02700873A priority patent/EP1362342A4/en
Priority to PCT/KR2002/000268 priority patent/WO2002075722A1/en
Publication of KR20020068141A publication Critical patent/KR20020068141A/ko
Application granted granted Critical
Publication of KR100368289B1 publication Critical patent/KR100368289B1/ko
Priority to US10/644,886 priority patent/US20040059573A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Selective Calling Equipment (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

본 발명은 사용 환경의 고유 환경 변수를 획득하여 저장함으로써 수행하여야 할 연산량이 감소되고, 새로운 환경 변수를 획득하여 갱신함으로써 대응할 수 있도록 하기 위하여, 음성인식기를 구비한 음성출력가능시스템을 위한 음성명령식별기에 있어서, 소정의 저장용량을 갖는 메모리; 상기 메모리를 운영하며 적어도 하나 이상의 제어신호를 생성하는 마이크로프로세서; 상기 마이크로프로세서의 제어에 응답하여, 상기 오디오신호생성기로부터의 음향신호를 수신하여 디지탈신호로 변환하는 제1 아날로그-디지탈 변환기; 상기 마이크로프로세서의 제어에 응답하여, 상기 마이크로폰으로부터의 전기적 신호를 수신하여 상기 음성인식기에서 인식되기 위한 대상이 되는 인식대상신호를 출력하는 가산기; 상기 가산기로부터의 인식대상신호를 수신하여 디지탈신호로 변환하는 제2 아날로그-디지탈 변환기; 상기 마이크로프로세서의 제어에 응답하여, 상기 메모리로부터 독출된 데이터를 아날로그 신호로 변환하는 제1 및 제2 디지털-아날로그 변환기; 상기 제2 디지털-아날로그 변환기로부터의 출력과 상기 오디오신호생성기로부터의 출력 중 어느 하나를 상기 스피커에 연결시키는 출력전환스위치를 포함하는 음성명령식별기를 제공한다.

Description

음성인식장치를 위한 음성명령식별기{A voice command identifier for a voice recognition system}
본 발명은 음성인식장치를 위한 음성명령식별기에 관한 것으로서, 특히 내장된 음원으로부터 출력된 음성과 사용자에 의한 음성 명령을 식별함으로써 음성인식장치가 유효한 음성 명령을 인식할 수 있도록 하는 음성명령식별기에 관한 것이다.
일반적으로 현재까지 알려진 음성인식장치는 다양한 방식에 의하여 사용자로부터 발성된 음성명령을 효율적으로 인식할 수 있다고 한다(종래의 음성인식장치가 사용자로부터의 음성명령을 인식하는 방법이나 그 구성에 관한 상세는 본 발명의 기술 사상이 그 대상으로 하지 않는 것이므로 이를 생략한다.).
그러나, 도 1에 도시된 바와 같이, 현재 널리 사용되는 가전제품 중 특히 스피커(102)를 구비하여 스스로 음성출력을 발생시킬 수 있는 텔레비젼이나 오디오, 비디오와 같은 장치(10)들은, 내장된 음원에 의하여 출력된 음성이 반사, 회절 등에 의하여 다시 음성인식장치의 마이크(104)로 입력됨에 따라, 재입력되는 출력음성과 사용자에 의하여 발성된 음성명령을 구별할 수 없게 된다. 따라서, 이러한 두 가지 음성 입력을 구별할 수 없는 일반적인 음성인식장치는 음원을 내장한 장치에는 사용될 수 없는 문제점이 있었다.
이것을 해결하기 위한 종래의 방식으로서, 재입력되는 출력음성을 시간적으로 예측하여 이를 마이크(104)의 수신 신호로부터 제거하는 방식이 제안된 바 있다. 즉, 상기 마이크(104)에서 수신된 신호를 Smic(t)라 하고 상기 스피커(102)에서 출력된 출력음성을 Sorg(t)라 하면, 상기 마이크(104)의 수신 신호Smic(t)에는, 사용자가 발성한 음성명령에 의한 음성명령신호(이를, Scommand(t)라 한다.)와, 상기 출력음성 Sorg(t)이 스피커(102)로부터 마이크(104)까지 전달되면서 반사, 회절 등에 의하여 왜곡된 왜곡 신호(이를, Sdis(t)라 한다.)가 포함된다. 이를 수식으로 표현하면 다음과 같다. 즉,
여기서, tk는 반사에 의한 지연시간으로서, 반사거리(dk)를 음속으로 나눈 값이며, Ak는 출력된 음향이 반사되면서 잃어버리는 에너지의 양에 의하여 결정되는 설치 환경에 의한 변수(이하, "환경 변수"라 함)이다. 상기 수학식 1에서 출력음성 Sorg(t)은 이미 알고 있으므로, Ak및 tk를 결정함으로써 사용자에 의한 음성 명령만을 추출할 수 있다는 것이다. 그러나, 상기와 같은 직접적인 연산은 실시간으로 수행하기에는 지나치게 연산량이 많아 현재까지 알려진 하드웨어에 의하여 신뢰성있게 구현하기 어렵다.
그리하여, 상기 왜곡 신호 Sdis(t)를 퓨리에 변환 등으로 변환시킴으로써 연산량을 감소시키고자 하는 대안도 제안된 바 있으나, 이 경우에도 모든 사용 환경의 각 환경 변수를 모두 미리 예측하여 알고 있어야 한다는 문제점이 있다.
본 발명은 상기의 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 사용 환경의 고유 환경 변수를 초기 설치시에 획득하여 저장함으로써 수행하여야 할 연산량을 감소시킨 음성명령식별기를 제공하는 것이다.
본 발명의 다른 목적은 새로운 사용 환경에 위치하는 경우에, 새로운 환경의 환경 변수를 획득하여 갱신함으로써 새로운 사용 환경에 대응할 수 있는 음성명령식별기를 제공하는 것이다.
도 1은 본 발명의 음성명령식별기를 구비한 가전 제품이 사용되는 공간의 일실시예를 개념적으로 도시한 도면.
도 2는 본 발명의 일실시예에 의한 음성명령식별기를 구비한 음성인식장치의 개념적 블럭도.
도 3은 도 2의 음성명령식별기에 의하여 운영되는 서브메모리의 구조를 개념적으로 도시한 도면.
도 4는 도 2의 음성명령식별기의 동작의 일실시예를 도시한 흐름도.
도 5는 도 4의 동작중 '세팅'에 의한 동작의 일실시예를 도시한 흐름도.
도 6은 도 4의 동작중 '정상동작'에 의한 동작의 일실시예를 도시한 흐름도.
도 7은 도 6의 동작 중 출력되는 시험 신호의 파형 및 그에 의하여 수신되는 신호의 파형을 도시한 파형도.
도 8은 도 6의 동작 중 출력되는 음향신호와 그에 의하여 수신되는 신호의 파형을 도시한 파형도.
도 9은 도 6의 동작 중 출력되는 출력 신호의 파형을 도시한 파형도.
*도면의 주요부분의 기호의 설명
10 : 텔레비젼20 : 소파
30 : 사용자40 : 장식물
102 : 스피커104 : 마이크
100 : 음성명령식별기106 : 내부회로
108 : 오디오신호생성기110 : 음성인식기
112, 120 : 아날로그-디지탈 변환기
116, 122 : 디지탈-아날로그 변환기
114 : 마이크로프로세서118 : 가산기
124 : 출력전환스위치
상기의 목적을 달성하기 위하여 본 발명은, 소정의 기능을 수행하도록 구성된 내부회로와, 상기 내부회로로부터 전달되는 신호에 기초하여 가청 주파수를 갖는 음향신호를 발생시키는 오디오신호생성기와, 상기 음향신호를 출력하는 스피커와, 외부로부터의 음향을 수신하여 전기적 신호로 변환하는 마이크로폰과, 상기 마이크로폰으로부터의 전기적 신호에 포함된 사용자로부터의 인식대상신호를 수신하는 음성인식기를 구비한 음성출력가능시스템을 위한 음성명령식별기에 있어서, 소정의 저장용량을 갖는 메모리; 상기 메모리를 운영하며 적어도 하나 이상의 제어신호를 생성하는 마이크로프로세서; 상기 마이크로프로세서의 제어에 응답하여, 상기 오디오신호생성기로부터의 음향신호를 수신하여 디지탈신호로 변환하는 제1 아날로그-디지탈 변환기; 상기 마이크로프로세서의 제어에 응답하여, 상기 마이크로폰으로부터의 전기적 신호를 수신하여 상기 음성인식기에서 인식되기 위한 대상이 되는 인식대상신호를 출력하는 가산기; 상기 가산기로부터의 인식대상신호를 수신하여 디지탈신호로 변환하는 제2 아날로그-디지탈 변환기; 상기 마이크로프로세서의 제어에 응답하여, 상기 메모리로부터 독출된 데이터를 아날로그 신호로 변환하는 제1 및 제2 디지털-아날로그 변환기; 상기 마이크로프로세서의 제어에 응답하여, 상기 제2 디지털-아날로그 변환기로부터의 출력과 상기 오디오신호생성기로부터의 출력 중 어느 하나를 상기 스피커에 연결시키는 출력전환스위치를 더 포함하는 음성명령식별기를 제공한다.
본 발명의 다른 국면에 의하면, 소정의 기능을 수행하도록 구성된 내부회로와, 상기 내부회로로부터 전달되는 신호에 기초하여 가청 주파수를 갖는 음향신호를 발생시키는 오디오신호생성기와, 상기 음향신호를 출력하는 스피커와, 외부로부터의 음향을 수신하여 전기적 신호로 변환하는 마이크로폰과, 상기 마이크로폰으로부터의 전기적 신호에 포함된 사용자로부터의 인식대상신호를 수신하는 음성인식기를 구비한 음성출력가능시스템을 위한 음성명령 식별방법에 있어서, 세팅 작업을 수행할 것인지 정상 동작을 수행할 것인지를 판단하는 제1단계; 상기 제1단계에서 세팅 작업을 수행할 것으로 판단된 경우에는, 상기 스피커로부터 소정의 크기 및 폭을 갖는 펄스를 출력시키는 제1-1단계; 및 상기 펄스가 출력된 후 소정 시간동안 상기 마이크로폰으로 입력되는 신호를 디지탈화하여 설치 환경에 따라 고유하게 결정되는 환경계수데이터를 획득하는 제1-2단계;를 수행하며, 상기 제1단계에서 정상 동작을 수행할 것으로 판단된 경우에는, 상기 오디오신호생성기로부터 출력되는 신호를 아날로그-디지탈 변환하여 디지탈신호를 얻는 제2-1단계; 상기 제2-1단계에서 얻은 디지탈신호와 상기 환경계수데이터를 곱하여 소정 시간동안 적산하는 제2-2단계; 및 상기 적산된 디지털신호를 디지털-아날로그 변환하여 얻은 아날로그 신호를 상기 마이크로폰으로부터 출력되는 전기적 신호로부터 감산함으로써 상기 인식대상신호를 생성하는 제2-3단계를 수행하는 음성명령 식별방법을 제공한다.
이하, 첨부된 도면을 참조하여 본 발명에 의한 음성명령식별기의 바람직한 실시예에 관하여 상세히 설명한다.
먼저, 도 2를 참조하면, 도 2는 본 발명의 일실시예에 의한 음성명령식별기를 구비한 음성인식장치의 개념적 블럭도이다. 도시된 바와 같이, 본 발명의 음성명령식별기(100)는, 텔레비젼이나 가정용 또는 차량용 오디오 플레이어 또는 비디오 플레이어 등과 같이 자체적으로 음성을 출력할 수 있는 장치가 구비된 음성출력가능시스템(이하, 간단히 "시스템"이라고도 함)에 적용되는 것이다. 즉, 본 발명의 음성명령식별기(100)가 적용될 수 있는 음성출력가능시스템은, 소정의 기능을 수행하도록 구성된 내부회로(106)와, 상기 내부회로(106)로부터 전달되는 신호에 기초하여 사용자가 청취할 수 있는 주파수 범위의 음향신호(Sorg(t))를 발생시키는 오디오신호생성기(108)와 상기 음향신호를 음향으로 출력하는 스피커(102)와, 외부로부터의 음향을 수신하여 전기적 신호(Smic(t))로 변환하는 마이크로폰(104)과, 상기 마이크로폰(104)으로부터의 전기적 신호(Smic(t))에 포함된 사용자로부터의 인식대상신호(Scommand(t))를 인식하는 음성인식기(110)를 구비한다. 상기와 같은 구성의 음성출력가능시스템의 각 구성요소들에 관한 기술 사상들은 이미 널리 알려져 있는 공지 기술의 범위내에 속하며, 본 발명에 의한 기술 사상의 직접적인 대상이 아니므로 그 상세를 생략한다.
종래의 기술에 관하여 이미 설명한 바와 같이, 상기 시스템이 설치된 장소에서는 각종 장애물(도 1 참조)에 의하여 자체적으로 출력된 음성이 다시 상기 마이크로폰(104)에 입력되기 때문에, 상기와 같은 시스템에 구비된 음성인식기(110)가 사용자의 발성에 의한 음성명령과 반사되어 재입력된 자체 출력으로부터의 음성을 구분하지 못함으로써 오동작할 가능성이 매우 높다. 따라서, 본 발명의 음성명령식별기(100)는 상기와 같이 자체 출력에 포함된 음성과 사용자의 발성에 의한 음성을 식별하여 사용자의 발성에 의한 음성만이 상기 시스템의 음성인식기(110)로 입력되도록 하기 위한 장치이다.
상기와 같은 기능을 위한 본 발명에 의한 음성명령식별기(100)는, 상기 시스템의 오디오신호생성기(108)로부터의 음향신호(Sorg(t))를 수신하여 디지탈신호로 변환하는 제1 아날로그-디지탈 변환기(112)와, 상기 마이크로폰(104)으로부터의 전기적 신호(Smic(t))를 수신하여 상기 음성인식기(110)에서 인식되기 위한 대상이 되는 인식대상신호(Scommand(t))를 출력하는 가산기(118)와, 상기 가산기(118)로부터의 인식대상신호(Scommand(t))를 수신하여 디지탈신호로 변환하는 제2 아날로그-디지탈 변환기(120)를 포함한다.
상기 제1 및 제2 아날로그-디지탈 변환기(112 및 118)는 상기 음성명령식별기(100)에 구비된 마이크로프로세서(114)의 제어에 응답하여 동작을 수행한다. 상기 마이크로프로세서(114)는 그 외에도 상기 음성명령식별기(100)의 모든 구성요소들의 동작을 제어하며 필요한 연산 및 제어 동작을 수행한다. 상기 마이크로프로세서(114)는 이미 널리 알려진 구성의 범용성있는 하드웨어로서, 본 발명의 기술 사상에 관련된 동작의 명확한 설명에 의하여 충분히 한정되는 것이므로, 이러한 설명 이외의 이미 알려진 기술 사상에 관하여는 그 상세를 생략한다.
또한, 상기 음성명령식별기(100)는, 소정의 저장용량을 갖는 메모리(도시되지 않음)를 더 포함하는데, 상기 메모리는 상기 마이크로프로세서(114)의 내부 메모리인 것이 바람직하지만, 보다 정밀한 제어를 위하여 별도의 외부 메모리(도시되지 않음)를 추가하여 활용할 수도 있다. 상기 메모리에는, 특히 음성신호로부터 변환된 데이터 또는 음성신호로 변환될 수 있는 데이터가 상기 마이크로프로세서(114)의 제어에 응답하여 저장되거나 독출된다. 또한, 상기 메모리의 종류로서는, 후술하는 바와 같이, 휘발성 메모리와 불휘발성 메모리를 모두 구비하여 사용하는 것이 바람직하다.
나아가, 상기 음성명령식별기(100)는, 상기 마이크로프로세서(114)의 제어에 응답하여 상기 메모리로부터 독출된 데이터를 아날로그 신호로 변환하는 제1 디지털-아날로그 변환기(116) 및 제2 디지털-아날로그 변환기(122)를 포함한다. 또한, 상기 음성명령식별기(100)는, 상기 마이크로프로세서(114)의 제어에 응답하여 상기 제2 디지털-아날로그 변환기(122)로부터의 출력과 상기 오디오신호생성기(108)로부터의 출력 중 어느 하나를 상기 스피커(102)에 연결시키는 출력전환스위치(124)를 더 포함한다.
도시된 바와 같이, 본 실시예에 의하면, 상기 가산기(118)는, 상기 마이크로프로세서(114)의 제어에 응답하여, 상기 제1 디지털-아날로그 변환기(116)로부터의 출력 신호를 수신하여 상기 마이크로폰(104)으로부터의 전기적 신호(Smic(t))로부터 감산(-)하는 동작을 수행한다.
여기서, 도 3을 참조하면, 도 3은 도 2의 마이크로프로세서(114)에 의하여 운영되는 메모리의 구조를 개념적으로 도시한 도면이다. 도시된 바와 같이, 상기 메모리는 상호간에 구별되는 네 개의 서브메모리(300, 302, 304 및 306)를 갖도록 구성될 수 있다. 이들 중, 제1 및 제2 서브메모리(300 및 302)는 상기 수학식 1에서의 환경 변수(Ak)에 대응되는 값을 디지털화한 환경계수데이터(C(k))를 저장하기 위한 것으로서, 상기 환경계수데이터(C(k))는 상기 스피커(102)로부터 출력된 음향이 설치된 장소의 환경에 따라 반사되거나 회절되어 다시 상기 마이크로폰(104)에 입력될 때까지 감쇄되거나 지연된 물리량이 반영된다. 따라서, 후술하는 바와 같이, 상기 시스템을 특정의 장소에 설치할 때에 세팅 작업을 통해 환경계수데이터(C(k))를 획득함으로써, 이후의 정상 동작시 상기 시스템으로부터의 자체 출력 신호(Sorg(t))가 설치 환경의 고유 특성에 따른 변화를 거쳐 마이크로폰(104)에 입력되는 경우에도, 음성인식의 대상이 되어야 하는 사용자의 음성신호와 재입력된 자체 출력 음성을 효과적으로 구분할 수 있게 된다.
또한, 상기 제1 서브메모리(300)는 불휘발성 메모리에 구현되는 것이 바람직하며, 제2 서브메모리(302)는 동작속도가 빠른 휘발성 메모리에 구현되는 것이 바람직하다. 따라서, 제2 서브메모리(302)는 처리속도가 중요하지 않은 경우에는 생략될 수 있고, 전력의 소모가 중요하지 않은 경우에는 제1 서브메모리(300)를 생략할 수 있다.
다음으로, 제3 서브메모리(304)는 상기 제1 아날로그-디지탈 변환기(112)가 상기 오디오신호생성기(108)로부터의 음향신호(Sorg(t))를 변환한 디지탈신호(M(k))를 순차적으로 저장하는 서브메모리로서, 이 또한 동작속도가 빠른 휘발성 메모리를 사용하는 것이 바람직하다. 상기 제3 서브메모리(304)는, 후술하는 바와 같이, 이전의 처리 작업에 의하여 획득되었던 값이 저장된 저장 영역에 현재의 처리 작업에 의하여 획득된 새로운 값을 대체하는 것이 아니라, 일정한 개수의 값들이 획득될 때까지는 차례로 다음 저장 영역으로 이동(시프트;shift)시켜 일정 기간동안 획득된 값들을 모두 저장하는 동작을 수행하도록 제어되는 것이 바람직하다(이하, 이러한 메모리의 저장 동작을 "큐동작(Que Operation)"이라 칭한다.). 상기와 같은 제3 서브메모리(304)의 큐동작은 상기 마이크로프로세서(114)의 제어에 의하여 수행될 수도 있으며, 자체적으로 큐동작이 수행되도록 구현된 메모리 장치를 사용함으로써 수행될 수도 있다.
또한, 제4 서브메모리(306)는 상기 제2 아날로그-디지탈 변환기(120)가 상기 가산기(118)로부터의 출력신호(Scommand(t))(이를, "인식대상신호"라 한다.)를 변환한 디지탈신호(D(k))를 순차적으로 저장하는 것으로서, 이 또한 동작속도가 빠른 휘발성 메모리를 사용하는 것이 바람직하다. 상기 제3 서브메모리(304)는 후술하는 바와 같이 정상 동작시에만 사용되며, 상기 제4 서브메모리(306)는 세팅 동작시에만 사용되는 것이므로, 상기 제3 및 제4 서브메모리(304 및 306)는 실제로는 하나의 서브메모리만을 사용하여도 구현될 수 있다.
상기한 제1 내지 제4 서브메모리(300, 302, 304 및 306)는 논리적인 구별이며 반드시 물리적으로 구별되어야 하는 것은 아니다. 따라서, 물리적으로 하나의 메모리 장치를 사용하는 경우에도 논리적으로 구별되는 다수의 서브메모리를 구현할 수 있음은 물론이며, 이러한 메모리 장치의 운영에 관하여는 본 발명의 기술 사상이 속하는 기술 분야에서 이미 널리 알려져 있으므로 그 상세를 생략한다.
다음으로, 상기와 같은 구성의 본 발명에 의한 음성명령식별기(100)의 동작을 도 4 내지 도 9를 참조하여 상세히 설명한다. 먼저, 도 4는 본 발명의 음성명령식별기(100)의 전체 동작의 일실시예를 도시한 흐름도로서, 전원이 인가되어 동작이 시작되면, 먼저 초기 세팅 작업을 수행할 것인가를 판단한다(단계 S402). 이러한 판단은 초기 세팅 작업이 한 번도 수행되지 않았거나, 이후에 사용자의 특별한 필요가 발생한 경우에만 판단되도록 하는 것이 바람직하다. 따라서, 전원 인가와 함께 정상동작(단계 S406)으로 진행되도록 설정한 상태에서, 사용자가 특정의 키를 누른 경우에는 초기 세팅 작업(단계 S402)이 수행되도록 하는 것이 바람직하다. 즉, 만약 사용자가 초기 세팅 작업을 수행하도록 지시하였다면, 도 5에 도시된 초기 세팅 작업을 수행하고, 그렇지 않은 경우에는 도 6에 도시된 정상 동작으로 진행한다.
다음으로, 도 5를 참조하면, 도 5는 도 4의 동작중 초기 세팅 작업에 의한 동작의 일실시예를 도시한 흐름도이다. 상기한 바와 같이, 사용자에 의하여 초기 세팅 작업을 수행하도록 지시되어 그 작업이 시작되면, 먼저 상기 메모리의 제1 내지 제4 서브메모리(300, 302, 304 및 306)에 저장된 모든 변수들의 값을 초기화(예컨대, 모든 값이 0으로)한다(단계 S502). 다음으로, 초기 세팅 동작을 반복할 반복회수(P)를 설정하며, 반복회수를 나타내는 변수 q를 초기화(예컨대, q=0)한다(단계 S504). 상기 단계 S504의 반복회수(P)는 상기 음성명령식별기(100)의 제조시 제조자에 의하여 미리 설정시켜 놓을 수도 있으며, 세팅 동작이 수행될 때마다 사용자가 지정하도록 할 수도 있다.
다음으로, 변수 k의 값을 초기화(예컨대 k=0)한다(단계 S506). 상기 변수 k는 아날로그 신호를 디지탈화하면서 소정의 세팅 기간(Δt)동안 몇번째로 샘플링된 값인지를 나타낸다. 상기 변수 k는 예컨대 0으로부터 시작하여 최대 N의 값을 가지며, 상기 N의 크기는 상기 메모리의 저장용량, 상기 마이크로프로세서(114)의 처리 능력, 음성명령식별의 정밀도 등을 고려하여 결정된다.
다음으로, 상기 마이크로프로세서(114)는 상기 출력전환스위치(124)를 제어하여 상기 스피커(102의 출력을 상기 제2 디지털-아날로그 변환기(122)에 연결하고, 상기 세팅 기간 동안 그 크기가 1인 펄스(δ(t))에 대응하는 음향신호데이터를 생성하여 상기 스피커(102)로 출력한다(단계 S508).
여기서, 도 7을 참조하면, 도 7a 및 도 7b는 각각 상기 단계 S508에서 출력되는 펄스의 파형 및 이 펄스가 다시 상기 마이크로폰(104)으로 수신되어 생성된 전기적 신호(Smic(t))의 파형을 도시한 파형도이다. 도시된 바와 같이, 상기 펄스(δ(t))를 디지털 신호화한 값을 가상의 M(k)라 하면, 상기 가상의 M(k)는 상기 세팅 기간동안 모두 1의 값을 갖는다. 이러한 펄스(δ(t))를 생성하는 것은 연산의 간소화를 위한 것일 뿐, 세팅 작업을 위하여 생성되는 펄스의 크기가 반드시 1이 되어야 하는 것은 아니다. 크기가 1이 아닌 펄스를 출력하는 경우에 관하여는 후술한다. 또한, 상기 세팅 기간(Δt)은 실제로 매우 짧은 시간 동안(예컨대 수 밀리초(㎳) 동안)이기 때문에 사용자가 청취함으로써 불쾌감을 느낄 염려는 없다.
다음으로, 상기 제2 디지탈-아날로그 변환기(116)는, 상기인식대상신호(Scommand(t))를 디지털 신호로 변환하면서 이를 상기 제4 서브메모리(306)에 저장한다(단계 S510). 여기서, 현재 단계의 작업을 수행할 시에는, 상기 제1 디지털-아날로그 변환기(116)로부터 어떠한 신호도 출력되지 않는다는 점을 주의하여야 한다. 따라서, 상기 인식대상신호(Scommand(t))는 상기 마이크로폰(104)으로부터의 전기적신호(Smic(t))와 같아진다. 또한, 상기 인식대상신호(Scommand(t))를 변환한 디지털 신호를 나타내는 변수 D(k)에 아래 첨자 q가 붙은 것은, 상기한 바와 같이 사용자가 이러한 세팅 작업을 P 회에 걸쳐 반복하여 이들 반복된 값의 평균값을 구하기 위한 것이다. 이것은 다른 변수들에게도 동일하게 적용된다. 따라서, 1회의 세팅 작업만을 수행하고 세팅 작업을 종료하는 경우에는 변수에 첨자 q가 불필요하다. 또한, 도면에서 함수 Z[]로 표현한 것은 아날로그 신호를 디지털 신호로 변환하는 작업을 수식적으로 기재한 것이다.
다음으로, 현재 세팅 작업에서 얻은 D(k) 값을 이전 회수까지의 세팅 작업에서 얻은 D(k) 값들에 누적합산한다(단계 S512). 다음으로, 변수 k가 그 최대값(N)에 도달하였는가를 판단하여, 그렇지 않은 경우에는 상기 단계 S510 내지 S514를 반복하여 시행한다.
다음으로, 변수 q가 상기의 반복회수 P에 도달하였는가를 판단(단계 S516)하여 그렇지 않으면, q를 증가시키면서(단계 S518) 상기 단계 S506 내지 단계 S516을 반복하여 시행한다.
상기의 단계들이 완료된 다음에는, D(k) 변수들의 최종 값을 상기의 반복회수 P로 나누고, 이 값을 상기 환경계수데이터 C(k)로서 상기 제1 서브메모리(306)에 저장시킨다(단계 S520). 상기 환경계수데이터 C(k)는 다음의 수학식 2에 근거한 것이다. 즉,
0 = D(k) - C(k)×Z[δ(t)]
여기서, Z[δ(t)]는 상기 제2 디지털-아날로그 변환기(122)에서 상기 마이크로프로세서(114)가 아는 값을 그 크기로 갖는 펄스이므로 1로 계산할 수 있다. 즉 D(k) = C(k)로 볼 수 있으며, 최종적으로 구해진 D(k)는 P번 반복하여 더한 값이므로 이를 반복회수 P로 나누는 것은 당연하다.
그런데, 여기서 만약 상기 단계 S508에서 생성된 펄스의 크기가 1이 아닌 다른 값(예컨대 A)이라면, 이 값(A)을 상기 P에 곱한 값(P*A)을 구하여 상기 D(k) 변수들의 최종 값을 P*A로 나누고, 이 값을 상기 환경계수데이터(C(k))로서 상기 제1 서브메모리(306)에 저장시킨다.
이렇게 하여 구한 C(k)는, 후술하는 바와 같이, 정상 동작시에 상기 실제의 음향신호를 디지털 신호로 변환한 데이터 M(k)와 곱해져서 상기 수학식 1의 잡음신호(Sdis(t))의 근사 신호(Sum(Dis))를 생성하는 음원데이터가 된다.
상기와 같이 초기 세팅 작업의 주요 동작이 완료된다. 그러나, 보다 정밀한 값을 구하기 위하여 도 5의 이후 단계 S522 내지 S530을 추가적으로 수행할 수도 있다. 이하에서 설명한다.
상기 환경계수데이터 C(k)를 구한 다음, 상기 마이크로프로세서(114)는 상기 제3 서브메모리(304)의 M(k)에 임의의 데이터를 저장시키고, 이 데이터들에 의한 음향신호를 스피커(102)를 통하여 출력한다(단계 S522). 다음으로, 후술하는 바와 같은 "정상 동작"을 수행한다(단계 S524). 그리하여, 인식대상신호(Scommand(t))가 거의 0에 가까운지의 여부를 판단한다(단계 S526). 판단의 결과가 긍정적이라면 상기 환경계수데이터 C(k)를 저장(단계 S530)하고 제어를 리턴하며, 만약 부정적이라면 현재의 환경계수데이터 C(k)를 보정(단계 S528)하고 다시 단계 S524 및 S526을 반복한다.
상기와 같이, 정상동작중에 상기 환경계수데이터 C(k)를 보정함으로써, 초기세팅시에 고정된 환경만이 반영되었던 환경계수데이터 C(k)에 변화된 환경에 의한 새로운 값이 저장된다. 예를 들어, 상기 시스템을 텔레비젼이라 하면, 이를 시청하는 시청자의 존재는 새로운 값의 환경계수데이터 C(k)의 값을 요구하게 되며, 또한 시청자의 수에 변화가 있는 경우에도 상기 스피커(102)에서 출력되는 음을 반사하는 주변환경이 변한 것으로 볼 수 있으므로, 이 경우에도 변화된 환경에 대응하는 값을 갖도록 상기 환경계수데이터 C(k)가 보정되어야 할 필요가 있을 수 있는 것이다.
상기와 같이 결정된 환경계수데이터 C(k)는 상기한 바와 같이 불휘발성 메모리에 저장시키는 것이 바람직하다. 이것은 사용자가 전원을 오프한 다음에도 설치 환경이 변화되지 않는 한, 다시 상기 환경계수데이터 C(k)를 구하여야 할 필요가없도록 하기 위한 것이다. 그러나, 상기한 바와 같이, 전력의 소모가 중요하지 않은 경우에는 휘발성 메모리를 사용하여도 무방하지만, 이 경우에는 정전 후에 상기 세팅 작업을 수행하여야 하는 단점이 있다.
다음으로, 도 6을 참조하면, 도 6은 본 발명에 의한 음성명령식별기(100)의 정상 동작의 일실시예를 도시한 흐름도이다. 도 4를 참조하여 상기한 바와 같이, 상기 세팅 작업(단계 S404)이 수행되지 않으면, 자동적으로 정상 동작(단계 S406)이 수행되도록 하는 것이 바람직하다.
도 6을 참조하여 정상 동작이 시작되면, 상기 마이크로프로세서(114)는 먼저 처리 속도가 느린 상기 제1 서브메모리(300)에 저장된 환경계수데이터 C(k)(이를, "CROM(k)"라 한다)를 처리 속도가 빠른 제2 서브메모리(302)로 로드한다(로드된 환경계수데이터를 "CRAM(k)"라 한다.)(단계 S602). 이때, 도시된 바와 같이 계시 변수 T의 값을 초기화(예컨대, T=0)할 수도 있는데, 이에 관하여는 후술한다.
다음으로, 상기 마이크로프로세서(114)는 상기 오디오신호생성기(108)로부터 볼륨데이터(C')를 수신하고, 이를 상기 제2 서브메모리(302)에 로드된 환경계수데이터 CRAM(k)와 곱하여 가중된 환경계수데이터(C'(k))를 구한다(단계 S604).
다음으로, 상기 오디오신호생성기(108)로부터의 음향신호(Sorg(t))를 소정의 샘플링 기간 동안 디지탈 신호로 변환하고(단계 S606), 이 변환된 디지털 데이터(M)를 상기한 큐동작을 수행하며 상기 제3 서브메모리(304)에 M(k) 데이터로서 저장한다(단계 S608). 상기 단계 S606과 S608은 상기 샘플링 기간 동안 반복되어 각 샘플링 시점(tk)에 따라 고유의 데이터가 상기 제3 서브메모리(304)에 M(k)로서 저장된다.
다음으로, 상기 제3 서브메모리(304)의 M(k) 데이터와 상기 가중된 환경계수데이터(C'(k))를 이용하여 의사 왜곡신호(이를 "Sum(Dis)"라 한다.)를 다음의 수학식 3에 따라 구한다(단계 S610).
여기서, 상한 N은 상기 샘플링 기간과 샘플링 주파수가 세팅 작업시의 그것들과 동일한 경우를 가정한 것이다.
여기서 도 8을 참조하여, 상기 수학식 3에 의하면 얻은 의사 왜곡신호의 물리적 의미를 보다 상세히 설명한다. 도 8은 정상 동작시 상기 오디오신호생성기(108)로부터의 음향신호(Sorg(t))와 상기 마이크로폰(104)으로 수신되어 생성된 전기적 신호(Smic(t))의 파형을 도시한 파형도이다. 상기 샘플링 기간을 t0내지 t6이라 하고 현재 시점을 t7이라 하면, 현재 시점 t7에서 상기 마이크로폰(104)에는 t0내지 t6시점 사이에 상기 스피커(102)에서 출력되어 각각 도 1에 도시된 다양한 경로(예컨대, 경로 d1내지 d6) 등을 통하여 환경 변수에 의한 왜곡을 거친 신호들이 중첩되어 입력된다. 따라서, 현재 시점 t7에 상기 마이크로폰(104)에 입력되어 생성된 전기적 신호(Smic(t7))에는, 사용자로부터 발성된 음성 신호와 상기 왜곡된 신호들이 중첩된 신호가 포함된다. 이때, 상기 왜곡된 신호들이 중첩된 신호는 상기 환경 변수에 의한 영향을 누적적으로 포괄하고 있으므로, 현재 시점 t7에서의 의사 왜곡신호(Sum(Dis)t=7)는 다음의 수학식 4와 같이 표현될 수 있다. 즉,
다음으로, 상기 제1 디지털-아날로그 변환기(116)는 상기 의사 왜곡신호 Sum(Dis)를 아날로그 신호로 변환(단계 S612)하고, 상기 가산기(118)는 아날로그 신호로 변환된 의사 왜곡신호를 상기 마이크로폰(104)으로부터의 전기적 신호(Smic(t))로부터 감산하여 음성인식기(110)에서 인식되기 위한 인식대상신호(Scommand(t))를 생성한다(단계 S614).
상기한 동작에 의하여, 상기 스피커(102)에서 출력된 음향중에 상기 음성인식기(110)가 오인식할 수 있는 음성 명령이 포함되어 있는 경우에도, 이에 근사하는 의사 왜곡신호(Sum(Dis))를 상기 마이크로폰(104)에 입력된 신호로부터 감산함으로써, 더 이상 상기 음성인식기(110)가 오인식할 염려가 없게 된다.
상기한 단계들을 수행함에 의하여 본 발명에 의한 음성명령식별기(100)의 정상 동작이 완료된다. 그러나, 상기한 정상 동작중에도 사용자의 움직임이나 새로운 사용자가 입장하는 등의 사태에 의하여 세팅 작업시의 환경과 다른 환경에 처할 수 있게 된다. 따라서, 정상 동작 중의 소정 시간 동안 상기한 도 5의 단계 S502 내지 단계 S520까지의 세팅 작업을 한번씩 실시함으로써 환경의 변화에 의한 환경계수데이터(C(k))를 갱신하도록 할 수도 있다. 이를 위하여 도 6의 이후 단계 S616 내지 S628을 추가적으로 수행하게 할 수도 있다. 이하에서 상세히 설명한다.
먼저, 상기 단계 S602에서 초기화한 계시 변수 T의 값이 소정의 설정 계시값(예컨대, 10)에 도달하였는가를 판단한다(단계 S616). 상기 계시 변수 T는 상기 단계 S602 내지 단계 S614까지의 정상 동작이 수행되는 동안 시간이 얼마나 경과되었는가를 파악하기 위한 것으로서, 실제로는 상기 시스템의 클록을 활용하여 용이하게 구현할 수 있다. 또한 상기 계시값은, 예컨대 10초마다 한 번씩 세팅 작업을 수행하도록 설정된 값으로서, 이 값은 제조시 설정하거나 이후에 사용자가 설정하도록 할 수 있다.
만약 상기 단계 S616에서의 판단 결과, 아직 계시 변수 T의 현재값이 설정 계시값에 도달하지 않았다면, 단위 시간(예컨대 1초)이 경과할 때 마다 상기 계시 변수의 값을 1씩 증가시키고(단계 S618), 상기 단계 S604 내지 단계 S616의 정상 동작을 반복한다.
그러나, 상기 단계 S616에서의 판단 결과, 상기 계시 변수 T의 현재값이 상기 설정 계시값에 도달하였다면, 상기 마이크로프로세서(114)는 상기 출력전환스위치(124)를 제어하여 상기 스피커(102)와 상기 제2 디지탈-아날로그 변환기(122)를 연결시키고, 상기 계시 변수 T의 값을 다시 초기화(예컨대, T=0)한다(단계 S620).
다음으로, 상기 마이크로프로세서(144)는 상기 스피커(102)로부터 어떠한 음향도 출력되지 않도록 제한한다(단계 S622). 이것은 상기 시스템이 설치된 공간내에 잔류하는 음향이 소멸되기를 기다리기 위한 것이다.
다음으로, 소정시간 경과후, 상기 마이크로프로세서(144)는 소정 기간 동안 상기 마이크로폰(104)으로부터의 전기적 신호 Smic(t)를 검출하고(단계 S624), 검출된 신호 Smic(t)에 외부의 소음이 포함되어 있는가를 판단한다(단계 S626). 이것은, 상기 스피커(102)로부터 전혀 음향이 출력되지 않는 상태에서 상기 마이크로폰(104)에 외부의 소음이 입력되는가를 판단하기 위한 것으로서, 외부의 소음이 존재하는 상태에서는 정상적인 환경계수데이터(C(k))를 획득할 수 없기 때문이다. 따라서, 상기 단계 S626에서의 판단의 결과 외부의 소음이 감지되는 경우에는 세팅 작업을 수행하지 않은 채 제어를 상기 단계 604로 복귀시켜 정상 동작을 계속 수행한다.
그러나, 만약 외부의 소음이 감지되지 않은 경우에는 도 5의 단계 S502 내지 단계 S520까지의 세팅 작업을 실시한다(단계 S628)
도 9a 및 도 9b는 각각 상기한 정상 동작 중의 갱신 세팅 작업(상기 단계 S616 내지 단계 S28)이 실제로 수행되는 경우 및 수행되지 않는 경우에 상기 스피커(102)를 통하여 출력되는 음향 신호의 파형을 도시한 파형도이다. 도시된 바와 같이, 상기 단계 S622는 첫번째 Δt 구간에서 시작되어 두번째 Δt 구간까지 유지되며, 상기 단계 S624 및 단계 S626은 두번째 Δt 구간에서 수행되며, 상기 단계 S628은 세번째 Δt 구간에서 수행되는 것이 바람직하다. 물론, 이들 구간의 실제 길이는 그 실시예에 따라 조정될 수 있다.
도 9c를 참조하면, 도 9c는 도 9a의 파형이 2회에 걸쳐 반복되는 경우에 스피커(102)를 통하여 출력되는 음향 신호의 파형을 도시한 파형도이다. 도시된 바와 같이, 실제로 갱신 세팅 작업이 수행되는 시간(3Δt)은 매우 짧은 시간(수 밀리초) 밖에 되지 않으므로, 사용자는 이를 감지할 수 없다.
본 발명의 음성명령식별기에 의하면, 자체적으로 음향을 출력할 수 있는 시스템에 있어서도 신뢰성 있는 음성인식이 가능하도록 사용자의 음성 명령과 반사되어 입력되는 음향 신호를 식별할 수 있으며, 그 연산량이 획기적으로 감소되어 실시간 음성인식이 가능하게 된다.

Claims (11)

  1. 소정의 기능을 수행하도록 구성된 내부회로와, 상기 내부회로로부터 전달되는 신호에 기초하여 가청 주파수를 갖는 음향신호를 발생시키는 오디오신호생성기와, 상기 음향신호를 출력하는 스피커와, 외부로부터의 음향을 수신하여 전기적 신호로 변환하는 마이크로폰과, 상기 마이크로폰으로부터의 전기적 신호에 포함된 사용자로부터의 인식대상신호를 수신하는 음성인식기를 구비한 음성출력가능시스템을 위한 음성명령식별기에 있어서,
    소정의 저장용량을 갖는 메모리;
    상기 메모리를 운영하며 적어도 하나 이상의 제어신호를 생성하는 마이크로프로세서;
    상기 마이크로프로세서의 제어에 응답하여, 상기 오디오신호생성기로부터의 음향신호를 수신하여 디지탈신호로 변환하는 제1 아날로그-디지탈 변환기;
    상기 마이크로프로세서의 제어에 응답하여, 상기 마이크로폰으로부터의 전기적 신호를 수신하여 상기 음성인식기에서 인식되기 위한 대상이 되는 인식대상신호를 출력하는 가산기;
    상기 가산기로부터의 인식대상신호를 수신하여 디지탈신호로 변환하는 제2 아날로그-디지탈 변환기;
    상기 마이크로프로세서의 제어에 응답하여, 상기 메모리로부터 독출된 데이터를 아날로그 신호로 변환하는 제1 및 제2 디지털-아날로그 변환기;
    상기 마이크로프로세서의 제어에 응답하여, 상기 제2 디지털-아날로그 변환기로부터의 출력과 상기 오디오신호생성기로부터의 출력 중 어느 하나를 상기 스피커에 연결시키는 출력전환스위치를 더 포함하는 음성명령식별기.
  2. 제1항에 있어서,
    상기 가산기는, 상기 제1 디지털-아날로그 변환기로부터의 출력 신호를 수신하여 상기 마이크로폰으로부터의 전기적 신호로부터 감산하는 음성명령식별기.
  3. 제1항에 있어서,
    상기 메모리는 상호간에 구별되는 적어도 하나 이상의 서브메모리를 포함하되, 적어도
    설치 환경에 따라 고유하게 결정되는 환경계수데이터를 저장하기 위한 제1 서브메모리; 및
    동작 모드에 따라, 1) 상기 제1 아날로그-디지탈 변환기에 의하여 상기 오디오신호생성기로부터의 음향신호가 아날로그-디지탈 변환된 디지탈신호를 저장하거나, 2) 상기 제2 아날로그-디지탈 변환기에 의하여 상기 가산기로부터의 인식대상신호가 아날로그-디지탈 변환된 디지탈신호를 저장하기 위한 제2 서브메모리를 포함하는 음성명령식별기.
  4. 제3항에 있어서,
    상기 환경계수데이터는,
    상기 마이크로프로세서의 제어에 응답하여, 상기 스피커로부터 소정의 크기 및 폭을 갖는 펄스를 출력시킨 후, 소정 시간동안 상기 마이크로폰으로 입력되는 신호를 디지탈화하여 얻어지는 데이터인 음성명령식별기.
  5. 제3항에 있어서,
    상기 인식대상신호는,
    상기 마이크로프로세서의 제어에 응답하여, 상기 오디오신호생성기로부터 출력되는 신호를 디지탈화하여 얻은 디지탈신호와 상기 환경계수데이터를 곱하여 소정 시간동안 적산하고, 이를 디지털-아날로그 변환하여 얻은 아날로그 신호를 상기 마이크로폰으로부터 출력되는 전기적 신호로부터 감산함으로써 생성되는 신호인 음성명령식별기.
  6. 소정의 기능을 수행하도록 구성된 내부회로와, 상기 내부회로로부터 전달되는 신호에 기초하여 가청 주파수를 갖는 음향신호를 발생시키는 오디오신호생성기와, 상기 음향신호를 출력하는 스피커와, 외부로부터의 음향을 수신하여 전기적 신호로 변환하는 마이크로폰과, 상기 마이크로폰으로부터의 전기적 신호에 포함된 사용자로부터의 인식대상신호를 수신하는 음성인식기를 구비한 음성출력가능시스템을 위한 음성명령 식별방법에 있어서,
    세팅 작업을 수행할 것인지 정상 동작을 수행할 것인지를 판단하는 제1단계;
    상기 제1단계에서 세팅 작업을 수행할 것으로 판단된 경우에는,
    상기 스피커로부터 소정의 크기 및 폭을 갖는 펄스를 출력시키는 제1-1단계; 및
    상기 펄스가 출력된 후 소정 시간동안 상기 마이크로폰으로 입력되는 신호를 디지탈화하여 설치 환경에 따라 고유하게 결정되는 환경계수데이터를 획득하는 제1-2단계;를 수행하며,
    상기 제1단계에서 정상 동작을 수행할 것으로 판단된 경우에는,
    상기 오디오신호생성기로부터 출력되는 신호를 아날로그-디지탈 변환하여 디지탈신호를 얻는 제2-1단계;
    상기 제2-1단계에서 얻은 디지탈신호와 상기 환경계수데이터를 곱하여 소정 시간동안 적산하는 제2-2단계; 및
    상기 적산된 디지털신호를 디지털-아날로그 변환하여 얻은 아날로그 신호를 상기 마이크로폰으로부터 출력되는 전기적 신호로부터 감산함으로써 상기 인식대상신호를 생성하는 제2-3단계를 수행하는 음성명령 식별방법.
  7. 제6항에 있어서,
    상기 제1단계에서 세팅 작업을 수행할 것으로 판단된 경우에,
    상기 오디오신호생성기로부터의 음향신호를 상기 스피커로 출력하는 제1-3단계; 및
    상기 제2-1단계 내지 제2-3단계를 수행하는 제1-4단계를 더 포함하여 수행하는 음성명령 식별방법.
  8. 제6항에 있어서,
    상기 제1단계에서 정상 동작을 수행할 것으로 판단된 경우에,
    상기 스피커의 출력을 제한하는 제2-4단계;
    상기 마이크로폰으로 입력되는 신호가 존재하는가를 판단하는 제2-5단계; 및
    상기 제2-5단계에서 상기 마이크로폰으로 입력되는 신호가 존재하지 않는 것으로 판단된 경우 상기 제1-1단계 및 제1-2단계를 수행하는 제2-6단계를 더 포함하여 수행하는 음성명령 식별방법.
  9. 소정의 기능을 수행하도록 구성된 내부회로와, 상기 내부회로로부터 전달되는 신호에 기초하여 가청 주파수를 갖는 음향신호를 발생시키는 오디오신호생성기와, 상기 음향신호를 출력하는 스피커와, 외부로부터의 음향을 수신하여 전기적 신호로 변환하는 마이크로폰과, 상기 마이크로폰으로부터의 전기적 신호에 포함된 사용자로부터의 인식대상신호를 수신하는 음성인식기를 구비한 음성출력가능시스템을 위한 음성명령 식별방법에 있어서,
    세팅 작업을 수행할 것인지 정상 동작을 수행할 것인지를 판단하는 제1단계;
    상기 제1단계에서 세팅 작업을 수행할 것으로 판단된 경우에는,
    모든 변수들의 값을 초기화하는 제1-1단계;
    세팅 작업을 반복할 반복회수를 설정하며, 반복회수를 나타내는 변수q를 초기화하는 제1-2단계;
    소정의 세팅 기간 동안 몇번째로 샘플링된 값인지를 나타내는 변수 k의 값을 초기화하는 제1-3단계;
    상기 세팅 기간 동안 소정의 폭과 크기를 갖는 펄스에 대응하는 음향신호데이터를 생성하여 상기 스피커로 출력하는 제1-4단계;
    상기 인식대상신호를 디지털 신호로 변환하는 제1-5단계;
    상기 제1-5단계에서 변환된 디지털 신호의 크기를 누적합산하는 제1-6단계;
    상기의 반복회수 P에 도달하였는가를 판단하여, 그렇지 않으면 상기 제1-3단계 내지 제1-6단계를 반복하여 시행하는 제1-7단계; 및
    상기의 단계들이 완료된 다음, 상기 누적합산된 값을 상기 반복회수로 나누어 설치 환경에 따라 고유하게 결정되는 환경계수데이터를 획득하는 제1-8단계를 수행하며,
    상기 제1단계에서 정상 동작을 수행할 것으로 판단된 경우에는,
    상기 환경계수데이터를 로드하는 제2-1단계;
    상기 오디오신호생성기로부터 볼륨데이터를 수신하고, 이를 상기 로드된 환경계수데이터와 곱하여 가중된 환경계수데이터를 구하는 제2-2단계;
    상기 오디오신호생성기로부터의 음향신호를 소정의 샘플링 기간 동안 디지탈 신호로 변환하는 제2-3단계;
    상기 제2-3단계에서 변환된 디지털 데이터를 큐동작에 의하여 메모리에 저장하는 제2-4단계;
    상기 제2-4단계에서 메모리에 저장된 데이터와 상기 가중된 환경계수데이터를 이용하여 다음의 수학식에 따라 의사 왜곡신호 Sum(Dis)를 구하는 제2-5단계;
    상기 의사 왜곡신호 Sum(Dis)를 아날로그 신호로 변환하는 제2-6단계; 및
    상기 아날로그 신호로 변환된 의사 왜곡신호를 상기 마이크로폰으로부터의 전기적 신호로부터 상기 인식대상신호를 생성하는 제2-7단계를 수행하는 음성명령 식별방법.
  10. 제9항에 있어서,
    상기 제1단계에서 세팅 작업을 수행할 것으로 판단된 경우에,
    상기 스피커를 통하여 임의의 데이터에 의한 음향신호를 출력하는 제1-9단계; 및
    상기 제2-1단계 내지 제2-7단계를 수행하는 제1-10단계;
    상기 인식대상신호가 거의 0에 가까운지의 여부를 판단하는 제1-11단계; 및
    상기 제1-11단계에서의 판단의 결과가 긍정적이라면 상기 환경계수데이터를 보존하고 제어를 리턴하며, 만약 판단의 결과가 부정적이라면 현재의 환경계수데이터를 보정하고 상기 제1-9단계 내지 제1-11단계를 반복하는 제1-12단계를 더 포함하여 수행하는 음성명령 식별방법.
  11. 제9항에 있어서,
    상기 제1단계에서 정상 동작을 수행할 것으로 판단된 경우에,
    소정의 설정 계시값에 도달하였는가를 판단하는 제2-8단계;
    상기 제2-8단계에서의 판단 결과, 아직 상기 설정 계시값에 도달하지 않았다면, 상기 설정 계시값에 도달할 때까지 상기 제2-1단계 내지 제2-7단계를 반복하는 제2-9단계;
    상기 제2-8단계에서의 판단 결과, 상기 설정 계시값에 도달하였다면, 상기 스피커로부터 어떠한 음향도 출력되지 않도록 제한하는 제2-10단계;
    소정 기간 동안 상기 마이크로폰으로부터의 전기적 신호를 검출하여, 입력되는 신호가 존재하는가를 판단하는 제2-11단계;
    상기 제2-11단계에서의 판단의 결과, 입력되는 신호가 존재하는 것으로 판단된 경우에는 제2-1단계 내지 제2-7단계를 반복하는 제2-12단계;및
    상기 제2-11단계에서의 판단의 결과, 입력되는 신호가 존재하지 않는 것으로 판단된 경우에는 제1-1단계 내지 제1-8단계를 반복하는 제2-13단계를 더 포함하여 수행하는 음성명령 식별방법.
KR10-2001-0008409A 2001-02-20 2001-02-20 음성인식장치를 위한 음성명령식별기 KR100368289B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR10-2001-0008409A KR100368289B1 (ko) 2001-02-20 2001-02-20 음성인식장치를 위한 음성명령식별기
CNA028052625A CN1493071A (zh) 2001-02-20 2002-02-20 用于语音识别系统的语音命令鉴别器
JP2002574653A JP2004522193A (ja) 2001-02-20 2002-02-20 音声認識装置のための音声命令識別器
EP02700873A EP1362342A4 (en) 2001-02-20 2002-02-20 VOICE COMMAND IDENTIFIER FOR VOICE RECOGNITION SYSTEM
PCT/KR2002/000268 WO2002075722A1 (en) 2001-02-20 2002-02-20 A voice command identifier for a voice recognition system
US10/644,886 US20040059573A1 (en) 2001-02-20 2003-08-19 Voice command identifier for a voice recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0008409A KR100368289B1 (ko) 2001-02-20 2001-02-20 음성인식장치를 위한 음성명령식별기

Publications (2)

Publication Number Publication Date
KR20020068141A true KR20020068141A (ko) 2002-08-27
KR100368289B1 KR100368289B1 (ko) 2003-01-24

Family

ID=19705996

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0008409A KR100368289B1 (ko) 2001-02-20 2001-02-20 음성인식장치를 위한 음성명령식별기

Country Status (6)

Country Link
US (1) US20040059573A1 (ko)
EP (1) EP1362342A4 (ko)
JP (1) JP2004522193A (ko)
KR (1) KR100368289B1 (ko)
CN (1) CN1493071A (ko)
WO (1) WO2002075722A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100556365B1 (ko) * 2003-07-07 2006-03-03 엘지전자 주식회사 음성 인식장치 및 방법
JP2005292401A (ja) * 2004-03-31 2005-10-20 Denso Corp カーナビゲーション装置
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US20080244272A1 (en) * 2007-04-03 2008-10-02 Aten International Co., Ltd. Hand cryptographic device
US9192773B2 (en) * 2009-07-17 2015-11-24 Peter Forsell System for voice control of a medical implant
CN104956436B (zh) * 2012-12-28 2018-05-29 株式会社索思未来 带有语音识别功能的设备以及语音识别方法
CN105516859B (zh) * 2015-11-27 2019-04-16 深圳Tcl数字技术有限公司 消除回声的方法和系统
US10580402B2 (en) * 2017-04-27 2020-03-03 Microchip Technology Incorporated Voice-based control in a media system or other voice-controllable sound generating system
US11093554B2 (en) 2017-09-15 2021-08-17 Kohler Co. Feedback for water consuming appliance
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
US11314215B2 (en) 2017-09-15 2022-04-26 Kohler Co. Apparatus controlling bathroom appliance lighting based on user identity
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances
KR102584588B1 (ko) 2019-01-21 2023-10-05 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4425483A (en) * 1981-10-13 1984-01-10 Northern Telecom Limited Echo cancellation using transversal filters
US4700361A (en) * 1983-10-07 1987-10-13 Dolby Laboratories Licensing Corporation Spectral emphasis and de-emphasis
US5267323A (en) * 1989-12-29 1993-11-30 Pioneer Electronic Corporation Voice-operated remote control system
US6411928B2 (en) * 1990-02-09 2002-06-25 Sanyo Electric Apparatus and method for recognizing voice with reduced sensitivity to ambient noise
JPH0818482A (ja) * 1994-07-01 1996-01-19 Japan Radio Co Ltd エコーキャンセラー
US5680450A (en) * 1995-02-24 1997-10-21 Ericsson Inc. Apparatus and method for canceling acoustic echoes including non-linear distortions in loudspeaker telephones
JP2000112499A (ja) * 1998-10-02 2000-04-21 Kenwood Corp 音響機器
JP2000132200A (ja) * 1998-10-27 2000-05-12 Matsushita Electric Ind Co Ltd 音声認識機能付きオーディオ/ビデオ装置および音声認識方法
KR100587260B1 (ko) * 1998-11-13 2006-09-22 엘지전자 주식회사 음향 기기의 음성인식장치
GB9910448D0 (en) * 1999-05-07 1999-07-07 Ensigma Ltd Cancellation of non-stationary interfering signals for speech recognition
JP4016529B2 (ja) * 1999-05-13 2007-12-05 株式会社デンソー 雑音抑圧装置,音声認識装置及び車両用ナビゲーション装置
JP4183338B2 (ja) * 1999-06-29 2008-11-19 アルパイン株式会社 ノイズリダクションシステム
KR20010004832A (ko) * 1999-06-30 2001-01-15 구자홍 음성인식을 이용한 기기 제어장치
US6889191B2 (en) * 2001-12-03 2005-05-03 Scientific-Atlanta, Inc. Systems and methods for TV navigation with compressed voice-activated commands

Also Published As

Publication number Publication date
EP1362342A4 (en) 2005-09-14
US20040059573A1 (en) 2004-03-25
KR100368289B1 (ko) 2003-01-24
CN1493071A (zh) 2004-04-28
WO2002075722A1 (en) 2002-09-26
JP2004522193A (ja) 2004-07-22
EP1362342A1 (en) 2003-11-19

Similar Documents

Publication Publication Date Title
KR100368289B1 (ko) 음성인식장치를 위한 음성명령식별기
JP4725422B2 (ja) エコーキャンセル回路、音響装置、ネットワークカメラ、及びエコーキャンセル方法
CN106782589B (zh) 移动终端及其语音输入方法和装置
JP3423906B2 (ja) 音声の動作特性検出装置および検出方法
JP2007089058A (ja) マイクアレイ制御装置
EP2962300A1 (en) Method and apparatus for generating a speech signal
US20090132250A1 (en) Robot apparatus with vocal interactive function and method therefor
CN101510425A (zh) 声音识别装置以及用于执行声音识别的方法
CN113259832B (zh) 麦克风阵列的检测方法、装置、电子设备及存储介质
CN106094598B (zh) 声控开关控制方法、系统及声控开关
KR101312451B1 (ko) 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치
CN112509595A (zh) 音频数据处理方法、系统及存储介质
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
US10796677B2 (en) Electronic musical instrument and automatic power-off method
JP2001520764A (ja) スピーチ分析システム
CN103295571A (zh) 使用时间和/或频谱压缩的音频命令的控制
JP4552368B2 (ja) 機器制御システム、音声認識装置及び方法、並びにプログラム
KR101863098B1 (ko) 음성 인식 장치 및 방법
JP2000250577A (ja) 音声認識装置及び同装置に使用される学習方法ならびに学習装置及び同方法がプログラムされ記録された記録媒体
KR100855592B1 (ko) 발성자 거리 특성에 강인한 음성인식 장치 및 그 방법
JP3644086B2 (ja) 音声認識装置
JP4255897B2 (ja) 話者認識装置
US20060023893A1 (en) Sound apparatus, sound system and method of correcting sound signal
JP2000311077A (ja) 音声情報入力装置
KR100298118B1 (ko) Hmm모델의유사성을이용한음성인식장치및방법

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee