KR20120111917A - 제어 장치 및 방법, 및 프로그램 - Google Patents

제어 장치 및 방법, 및 프로그램 Download PDF

Info

Publication number
KR20120111917A
KR20120111917A KR1020117018142A KR20117018142A KR20120111917A KR 20120111917 A KR20120111917 A KR 20120111917A KR 1020117018142 A KR1020117018142 A KR 1020117018142A KR 20117018142 A KR20117018142 A KR 20117018142A KR 20120111917 A KR20120111917 A KR 20120111917A
Authority
KR
South Korea
Prior art keywords
value
sound
knocked
receiver
low
Prior art date
Application number
KR1020117018142A
Other languages
English (en)
Other versions
KR101669302B1 (ko
Inventor
도루 찌넨
유끼 야마모또
미쯔유끼 하따나까
Original Assignee
소니 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 주식회사 filed Critical 소니 주식회사
Publication of KR20120111917A publication Critical patent/KR20120111917A/ko
Application granted granted Critical
Publication of KR101669302B1 publication Critical patent/KR101669302B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2200/00Indexing scheme relating to G06F1/04 - G06F1/32
    • G06F2200/16Indexing scheme relating to G06F1/16 - G06F1/18
    • G06F2200/163Indexing scheme relating to constructional details of the computer
    • G06F2200/1636Sensing arrangement for detection of a tap gesture on the housing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Headphones And Earphones (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Selective Calling Equipment (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은 보다 간단한 구성으로 조작성을 향상시킬 수 있는 제어 장치 및 방법, 및 프로그램에 관한 것이다. 악곡 등의 음성을 재생하는 재생 장치(11)는, 유저의 귀에 장착되는 이어폰(21)과 본체(22)로 구성된다. 수음부(31)는 재생 장치(11)의 주위의 음성을 수음하고, 판별부(34)는 수음된 음성으로부터 특징량을 추출하여, 그 음성이 수음부(31)가 유저에 의해 직접 두드려져 발생한 조작음인지의 여부를 판별한다. 제어부(35)는 판별부(34)에 의한 판별 결과에 따른 처리를 실행한다. 예를 들어, 소정 시간 내에 수음부(31-1)가 한번만 두드려진 경우, 제어부(35)는 재생 제어부(39)를 제어하여 악곡의 재생을 정지시킨다. 재생 장치(11)에서는 수음부(31)를 두드린다고 하는 간단한 조작으로 각종 기능 제어를 행할 수 있고, 버튼 등도 설치할 필요가 없어진다. 본 발명은 음악 플레이어에 적용할 수 있다.

Description

제어 장치 및 방법, 및 프로그램 {CONTROL DEVICE, METHOD, AND PROGRAM}
본 발명은 제어 장치 및 방법, 및 프로그램에 관한 것이며, 특히 보다 간단한 구성으로 조작성을 향상시킬 수 있도록 한 제어 장치 및 방법, 및 프로그램에 관한 것이다.
최근, 음악 플레이어나 휴대 전화기, 나아가 IC(Integrated Circuit) 레코더 등, 마이크로폰을 입력 장치로서 갖는 전자 기기는 증가의 경향에 있다. 현재, 이들 전자 기기에서는, 주로 버튼이나 터치 패널의 조작에 의해 음량의 오르내림, 재생의 개시나 정지, 빨리감기나 되감기 등의 전자 기기의 기능 제어가 행해지고 있다.
이러한 전자 기기에는, 예를 들어 유저의 귀에 장착되는 이어폰과, 전자 기기 본체를 접속하는 코드에 컨트롤러를 설치하여, 컨트롤러의 조작에 의해 전자 기기에 의한 악곡의 재생을 제어할 수 있도록 한 것이 있다(예를 들어, 특허문헌 1 참조). 이 전자 기기에서는 컨트롤러에 카메라가 설치되어 있고, 유저는 컨트롤러나 전자 기기 본체를 조작함으로써 사진을 촬상시킬 수도 있다.
일본 특허 공개 제2003-52089호 공보
그러나, 전자 기기나 컨트롤러에 많은 기능을 갖게 하고자 하면, 그만큼 많은 버튼을 설치하지 않으면 안되어 전자 기기 등의 구성이 복잡하게 된다. 또한, 전자 기기나 컨트롤러에 많은 버튼이 설치되면, 각 버튼이 작아지거나, 목적으로 하는 버튼을 찾기 어려워지거나 하여 조작성이 저하하게 된다.
특히, 전철, 버스, 도보 등에서의 이동 중에 전자 기기를 사용하는 경우, 유저는 가방이나 포켓으로부터 전자 기기 본체를 꺼내거나, 컨트롤러를 들여다보거나 하여 버튼 조작을 해야 하기 때문에, 전자 기기 등에 많은 버튼이 설치되어 있으면 조작하기 어려워진다.
본 발명은 이러한 상황을 감안하여 이루어진 것이며, 보다 간단한 구성으로 조작성을 향상시킬 수 있도록 하는 것이다.
본 발명의 일 측면의 제어 장치는, 주위의 음성을 수음하는 수음부와, 상기 수음부에 의해 수음된 상기 음성의 최대값과 실효값을 사용하여, 상기 수음부가 두드려졌는지의 여부를 판별하는 판별 수단과, 상기 수음부가 두드려졌다고 판별된 경우, 소정의 처리를 실행하는 실행 수단을 구비한다.
상기 실행 수단에는, 상기 판별 수단에 의한 판별 결과에 기초하여, 소정 시간 내에 상기 수음부가 두드려진 횟수를 특정시켜, 특정된 상기 횟수에 대하여 정해진 처리를 실행시킬 수 있다.
상기 판별 수단에는, 상기 최대값에 대한 임계값 처리의 결과와, 상기 실효값에 대한 임계값 처리의 결과에 기초하여, 상기 수음부가 두드려졌는지의 여부를 판별시킬 수 있다.
상기 최대값에 대한 임계값 처리에 사용되는 임계값 및 상기 실효값에 대한 임계값 처리에 사용되는 임계값은, 판별 분석 또는 SVM에 의해 미리 정해지도록 할 수 있다.
상기 판별 수단에는, 상기 음성의 소정 주파수보다도 높은 주파수의 고역 성분의 최대값이 제1 임계값 미만인 경우, 상기 수음부가 두드려져 있지 않다고 판별시키고, 상기 음성의 상기 고역 성분보다도 낮은 주파수의 저역 성분의 최대값이 제2 임계값 미만인 경우, 상기 수음부가 두드려져 있지 않다고 판별시킬 수 있다.
상기 판별 수단에는, 상기 고역 성분의 시간 방향의 복수 구간의 각각에 대하여, 상기 고역 성분의 구간의 실효값이 구간마다 정해진 제3 임계값 이하인지의 여부를 판정시켜, 실효값이 상기 제3 임계값을 초과하는 상기 고역 성분의 구간이 있는 경우, 상기 수음부가 두드려져 있지 않다고 판별시키고, 상기 저역 성분의 시간 방향의 복수 구간의 각각에 대하여, 상기 저역 성분의 구간의 실효값이 구간마다 정해진 제4 임계값 이상인지의 여부를 판정시켜, 실효값이 상기 제4 임계값 미만으로 되는 상기 저역 성분의 구간이 있는 경우, 상기 수음부가 두드려져 있지 않다고 판별시킬 수 있다.
상기 고역 성분의 복수 구간의 각각을 서로 다른 길이의 구간으로 하고, 상기 저역 성분의 복수 구간의 각각을 서로 다른 길이의 구간으로 할 수 있다.
상기 판별 수단에는, 또한 상기 고역 성분의 절대값이 시간 방향의 특정 위치에 있어서 최대로 되는지의 여부를 판정시켜, 상기 절대값이 상기 특정 위치에 있어서 최대로 되지 않는 경우, 상기 수음부가 두드려져 있지 않다고 판별시킬 수 있다.
상기 판별 수단에는, 또한 상기 음성의 제로 크로스값이 제5 임계값 이하인지의 여부를 판정시켜, 상기 제로 크로스값이 상기 제5 임계값을 초과하는 경우, 상기 수음부가 두드려져 있지 않다고 판별시킬 수 있다.
상기 판별 수단에는, 상기 고역 성분의 시간 방향의 복수 구간의 각각의 실효값의 선형합이 제6 임계값 이하인지의 여부를 판정시켜, 상기 선형합이 상기 제6 임계값을 초과하는 경우, 상기 수음부가 두드려져 있지 않다고 판별시킬 수 있다.
상기 판별 수단에는, 상기 고역 성분의 시간 방향의 복수 구간의 각각의 실효값의 대수값의 선형합이 제7 임계값 이하인지의 여부를 판정시켜, 상기 선형합이 상기 제7 임계값을 초과하는 경우, 상기 수음부가 두드려져 있지 않다고 판별시킬 수 있다.
상기 판별 수단에는, 상기 저역 성분의 시간 방향의 복수 구간의 각각의 실효값의 선형합이 제8 임계값 이하인지의 여부를 판정시켜, 상기 선형합이 상기 제8 임계값을 초과하는 경우, 상기 수음부가 두드려져 있지 않다고 판별시킬 수 있다.
상기 판별 수단에는, 상기 저역 성분의 시간 방향의 복수 구간의 각각의 실효값의 대수값의 선형합이 제9 임계값 이하인지의 여부를 판정시켜, 상기 선형합이 상기 제9 임계값을 초과하는 경우, 상기 수음부가 두드려져 있지 않다고 판별시킬 수 있다.
상기 판별 수단에는, 상기 고역 성분의 시간 방향의 복수 구간의 각각의 실효값의 대수값의 선형합과, 상기 저역 성분의 시간 방향의 복수 구간의 각각의 실효값의 대수값의 선형합의 합이 제10 임계값 이하인지의 여부를 판정시켜, 상기 합이 상기 제10 임계값을 초과하는 경우, 상기 수음부가 두드려져 있지 않다고 판별시킬 수 있다.
상기 실행 수단에는, 복수의 상기 수음부 중 두드려진 상기 수음부에 의해 정해지는 처리를 실행시킬 수 있다.
본 발명의 일 측면의 제어 방법 또는 프로그램은, 수음부에 주위의 음성을 수음시켜, 상기 수음부에 의해 수음된 상기 음성의 최대값과 실효값을 사용하여, 상기 수음부가 두드려졌는지의 여부를 판별하고, 상기 수음부가 두드려졌다고 판별된 경우, 소정의 처리를 실행하는 스텝을 포함한다.
본 발명의 일 측면에 있어서는, 수음부에 의해 주위의 음성이 수음되고, 상기 수음부에 의해 수음된 상기 음성의 최대값과 실효값이 사용되어, 상기 수음부가 두드려졌는지의 여부가 판별되고, 상기 수음부가 두드려졌다고 판별된 경우, 소정의 처리가 실행된다.
본 발명의 일 측면에 따르면, 보다 간단한 구성으로 조작성을 향상시킬 수 있다.
도 1은 본 발명을 적용한 재생 장치의 일 실시 형태의 구성예를 나타내는 도면.
도 2는 판별부의 구성예를 나타내는 도면.
도 3은 재생 제어 처리를 설명하는 흐름도.
도 4는 저역 통과 필터와 고역 통과 필터의 주파수 진폭 특성을 나타내는 도면.
도 5는 판별 처리를 설명하는 흐름도.
도 6은 고역 최대값의 출현 확률을 나타내는 도면.
도 7은 고역 실효값의 분포예를 나타내는 도면.
도 8은 고역 실효값의 임계값의 예를 나타내는 도면.
도 9는 저역 최대값의 출현 확률을 나타내는 도면.
도 10은 저역 실효값의 분포예를 나타내는 도면.
도 11은 저역 실효값의 임계값의 예를 나타내는 도면.
도 12는 제로 크로스값의 출현 확률을 나타내는 도면.
도 13은 컴퓨터의 구성예를 나타내는 도면.
이하, 도면을 참조하여, 본 발명을 적용한 실시 형태에 대하여 설명한다.
[재생 장치의 구성]
도 1은 본 발명을 적용한 재생 장치의 일 실시 형태의 구성예를 나타내는 도면이다.
재생 장치(11)는, 예를 들어 악곡 등의 음성을 재생하는 휴대형의 음악 플레이어이며, 유저의 귀에 장착되는 이어폰(21)과, 이어폰(21)이 접속되고 유저에 의해 소지되는 본체(22)로 구성된다.
이어폰(21)에는 수음부(31-1), 수음부(31-2), 스피커(32-1) 및 스피커(32-2)가 설치되어 있다.
수음부(31-1) 및 수음부(31-2)는, 예를 들어 마이크로폰 등으로 구성되고, 재생 장치(11)의 주위의 음성을 수음하여, 그 결과 얻어진 음성 신호를 본체(22)에 공급한다.
스피커(32-1) 및 스피커(32-2)는, 본체(22)로부터 공급된 악곡 등의 음성 신호에 기초하여 음성을 재생한다.
또한, 이하, 수음부(31-1) 및 수음부(31-2)를 특별히 구별할 필요가 없는 경우, 간단히 수음부(31)라고도 칭한다. 또한, 스피커(32-1) 및 스피커(32-2)를 특별히 구별할 필요가 없는 경우, 간단히 스피커(32)라고도 칭한다.
재생 장치(11)에서는 수음부(31) 및 스피커(32)가 일체로 되어 유저의 우측 또는 좌측의 귀에 장착되는 이어폰이 형성되어 있다. 그리고, 수음부(31)에 의해 수음되어 본체(22)에 공급되는 음성은, 소위 노이즈 제거와, 악곡 등의 음성의 재생 제어를 위하여 사용된다.
구체적으로는, 유저가 손가락 등으로 수음부(31)를 직접 두드리면, 본체(22)는 수음된 음성으로부터 유저에 의한 수음부(31)에의 탭 조작을 식별하고, 그 조작에 따른 처리를 실행한다.
또한, 재생 장치(11)의 본체(22)에는 A/D(Analog/Digital) 변환부(33-1), A/D 변환부(33-2), 판별부(34-1), 판별부(34-2), 제어부(35), 음성 공급부(36), 노이즈 제거 처리부(37), 가산부(38) 및 재생 제어부(39)가 설치되어 있다.
A/D 변환부(33-1) 및 A/D 변환부(33-2)는, 수음부(31-1) 및 수음부(31-2)로부터 공급된 아날로그 신호인 음성 신호를 디지털 신호로 변환한다. 디지털 신호로 변환된 음성 신호는, A/D 변환부(33-1)로부터 판별부(34-1) 및 노이즈 제거 처리부(37)에 공급된다. 또한, 디지털 신호로 변환된 음성 신호는, A/D 변환부(33-2)로부터 판별부(34-2) 및 노이즈 제거 처리부(37)에 공급된다.
판별부(34-1) 및 판별부(34-2)는, A/D 변환부(33-1) 및 A/D 변환부(33-2)로부터 공급된 음성에 기초하여, 수음부(31)가 직접 두드려졌는지의 여부를 판별하고, 그 판별 결과를 제어부(35)에 공급한다. 즉, 수음된 음성이 수음부(31)가 유저에 의해 두드려졌을 때에 발생하는 음인지의 여부가 식별된다.
또한, 이하, A/D 변환부(33-1) 및 A/D 변환부(33-2)를 특별히 구별할 필요가 없는 경우, 간단히 A/D 변환부(33)라고도 칭하며, 판별부(34-1) 및 판별부(34-2)를 특별히 구별할 필요가 없는 경우, 간단히 판별부(34)라고 칭한다.
제어부(35)는 재생 장치(11) 전체의 동작을 제어한다. 예를 들어, 제어부(35)는, 판별부(34)로부터 공급된 판별 결과에 기초하여, 음성 공급부(36)에 악곡 등의 음성을 출력시키거나, 재생 제어부(39)에서의 음성의 재생을 제어하거나 한다.
음성 공급부(36)는, 악곡 등의 음성의 데이터를 기록하고 있고, 제어부(35)의 지시에 따라 음성의 데이터를 디코드하여 가산부(38)에 공급한다. 노이즈 제거 처리부(37)는, A/D 변환부(33)로부터 공급된 음성에 기초하여, 재생 장치(11)의 주위의 음성과 역위상의 음성을 생성하여 가산부(38)에 공급한다.
가산부(38)는, 음성 공급부(36)로부터 공급된 음성에, 노이즈 제거 처리부(37)로부터 공급된 음성을 가산하여 재생 제어부(39)에 공급한다. 재생 제어부(39)는, 제어부(35)의 지시에 따라 가산부(38)로부터 공급된 음성을 스피커(32-1) 및 스피커(32-2)에 공급하여 음성을 출력시킨다. 가산부(38)에 있어서, 재생하는 악곡의 음성에, 수음된 주위의 음성과 역위상의 음성을 더함으로써, 주위의 환경 잡음이 상쇄되어 유저의 귀에는 악곡만이 들려오게 된다.
[판별부의 구성]
또한, 도 1의 판별부(34)는, 보다 상세하게는 도 2에 나타낸 바와 같이 구성된다.
즉, 판별부(34)는 저역 필터 처리부(61), 저역 최대값 산출부(62), 저역 실효값 산출부(63), 고역 필터 처리부(64), 고역 최대값 산출부(65), 고역 실효값 산출부(66), 제로 크로스값 산출부(67) 및 판별 처리부(68)로 구성된다.
저역 필터 처리부(61)는, A/D 변환부(33)로부터 공급된 음성 신호에 필터 처리를 실시하여 저역 성분을 추출하고, 그 결과 얻어진 저역 신호를 저역 최대값 산출부(62) 및 저역 실효값 산출부(63)에 공급한다.
저역 최대값 산출부(62)는, 저역 필터 처리부(61)로부터 공급된 저역 신호의 최대값(이하, 저역 최대값이라고도 칭함)을 산출하여 판별 처리부(68)에 공급한다. 저역 실효값 산출부(63)는, 저역 필터 처리부(61)로부터 공급된 저역 신호의 실효값(이하, 저역 실효값이라고도 칭함)을 산출하여 판별 처리부(68)에 공급한다.
고역 필터 처리부(64)는, A/D 변환부(33)로부터 공급된 음성 신호에 필터 처리를 실시하여 고역 성분을 추출하고, 그 결과 얻어진 고역 신호를 고역 최대값 산출부(65) 및 고역 실효값 산출부(66)에 공급한다.
고역 최대값 산출부(65)는, 고역 필터 처리부(64)로부터 공급된 고역 신호의 최대값(이하, 고역 최대값이라고도 칭함)을 산출하여 판별 처리부(68)에 공급한다. 고역 실효값 산출부(66)는, 고역 필터 처리부(64)로부터 공급된 고역 신호의 실효값(이하, 고역 실효값이라고도 칭함)을 산출하여 판별 처리부(68)에 공급한다.
제로 크로스값 산출부(67)는, A/D 변환부(33)로부터 공급된 음성 신호의 제로 크로스값을 산출하여 판별 처리부(68)에 공급한다. 판별 처리부(68)는, 저역 최대값 산출부(62), 저역 실효값 산출부(63), 고역 최대값 산출부(65), 고역 실효값 산출부(66) 및 제로 크로스값 산출부(67)로부터 공급된 최대값, 실효값 및 제로 크로스값을 사용하여 수음된 음성의 식별을 행한다. 즉, 판별 처리부(68)는, 수음부(31)가 유저에 의해 직접 두드려졌는지의 여부를 판별하고, 그 판별 결과를 제어부(35)에 공급한다.
[재생 제어 처리의 설명]
그런데, 유저에 의해 재생 장치(11)가 조작되어, 악곡 등의 재생이 지시되면, 재생 장치(11)는 악곡의 재생을 개시한다. 즉, 음성 공급부(36)는 제어부(35)의 지시에 따라, 지정된 악곡의 음성(음성 신호)을 가산부(38)에 공급한다. 또한, 노이즈 제거 처리부(37)는, 수음부(31)로부터 A/D 변환부(33)를 통하여 공급된 음성(환경음)을 사용하여, 그 음성과는 역위상의 음성을 생성하여 가산부(38)에 공급한다.
그리고, 가산부(38)는 음성 공급부(36) 및 노이즈 제거 처리부(37)로부터의 음성을 가산하고, 재생 제어부(39)는 가산부(38)에서 얻어진 음성을 스피커(32)에 공급하여 출력시킨다.
예를 들어, 이러한 상태에서 유저는 이어폰(21)을 귀에 장착하고, 본체(22)를 입고 있는 옷의 포켓 등에 넣는다. 그리고, 유저는 다음 악곡의 재생이나 음량 조정 등의 조작을 하는 경우, 손가락으로 직접 이어폰(21)의 수음부(31)를 두드려 원하는 처리의 실행을 지시한다.
재생 장치(11)에서는, 유저의 이러한 조작에 따른 처리를 행하기 위하여, 재생 장치(11)의 전원이 온되면, 유저의 수음부(31)에의 조작을 검출하고, 그 조작에 따른 처리를 실행하는 처리인 재생 제어 처리를 반복하여 행한다.
이하, 도 3의 흐름도를 참조하여, 재생 장치(11)에 의한 재생 제어 처리에 대하여 설명한다.
스텝 S11에 있어서, 수음부(31)는 주위의 음성을 수음하고, 그 결과 얻어진 음성 신호를 A/D 변환부(33)에 공급한다. 또한, A/D 변환부(33)는 수음부(31)로부터의 음성 신호를 아날로그 신호로부터 디지털 신호로 변환하여, 저역 필터 처리부(61), 고역 필터 처리부(64) 및 제로 크로스값 산출부(67)에 공급한다.
예를 들어, A/D 변환부(33)는 공급된 음성 신호를 44.1kHz의 샘플링 주파수에서 샘플링한다. 그리고, A/D 변환부(33)는 얻어진 각 샘플링값을 -1부터 1까지의 사이의 값이 되도록 정규화하고, 그 결과 얻어진 값 x(n)(단, n=0, 1, 2, …)을 디지털 신호인 음성 신호로서 출력한다.
또한, 디지털 신호로 된 음성 신호의 값 x(n)에서의 「n」은 시간 인덱스, 즉 몇번째의 샘플링값인지를 나타내고 있다.
또한, 샘플링 주파수는 44.1kHz에 한정되지 않고, 16kHz 정도 이상이면 된다. 샘플링 주파수가 16kHz 정도 이상이면, 수음부(31)가 직접 두드려졌을 때의 음성의 검출 성능에 거의 영향은 없기 때문이다. 또한, 수음부(31)에 의한 수음의 대역폭을 8kHz 이상으로 하면, 수음부(31)가 직접 두드려졌는지의 여부의 판별이 충분히 가능한 음성 신호를 얻을 수 있다.
스텝 S12에 있어서, 저역 필터 처리부(61)는, 저역 통과 필터를 사용한 필터 처리에 의해, A/D 변환부(33)로부터 공급된 음성 신호로부터 저역 신호를 추출하여, 저역 최대값 산출부(62) 및 저역 실효값 산출부(63)에 공급한다.
구체적으로는, 저역 필터 처리부(61)는 하기 수학식 1을 계산함으로써, 음성 신호로부터 저역 신호 xl(n)을 추출한다.
Figure pct00001
또한, 수학식 1에 있어서, Nl은 저역 통과 필터의 탭수를 나타내고, hl(i)는 저역 통과 필터의 계수를 나타내고 있다. 따라서, 가장 새롭게 샘플링되어 얻어진 음성 신호의 값 x(n)부터 값 x(n-Nl+1)까지의 시간적으로 연속되는 Nl개의 음성 신호의 값이 가중치 가산되어 저역 신호 xl(n)으로 된다.
스텝 S13에 있어서, 고역 필터 처리부(64)는, 고역 통과 필터를 사용한 필터 처리에 의해, A/D 변환부(33)로부터 공급된 음성 신호로부터 고역 신호를 추출하여, 고역 최대값 산출부(65) 및 고역 실효값 산출부(66)에 공급한다.
구체적으로는, 고역 필터 처리부(64)는 하기 수학식 2를 계산함으로써, 음성 신호로부터 고역 신호 xh(n)을 추출한다.
Figure pct00002
또한, 수학식 2에 있어서, Nh는 고역 통과 필터의 탭수를 나타내고, hh(i)는 고역 통과 필터의 계수를 나타내고 있다. 따라서, 가장 새롭게 샘플링되어 얻어진 음성 신호의 값 x(n)부터 값 x(n-Nh+1)까지의 시간적으로 연속되는 Nh개의 음성 신호의 값이 가중치 가산되어 고역 신호 xh(n)으로 된다.
또한, 예를 들어 수학식 1 및 수학식 2에서의 계수 hl(i) 및 계수 hh(i)는, FIR(Finite Impulse Response)형에서 직선 위상을 갖는 계수로 되고, 저역 통과 필터 및 고역 통과 필터의 컷오프 주파수는 5512.5Hz로 된다. 즉, 음성 신호 중 5512.5Hz 이하의 주파수 성분이 저역 신호로 되고, 5512.5Hz보다도 큰 주파수 성분이 고역 신호로 된다. 또한, 예를 들어 저역 통과 필터의 탭수 Nl과, 고역 통과 필터의 탭수 Nh는 모두 128 등으로 된다.
이러한 경우, 저역 통과 필터 및 고역 통과 필터는, 도 4에 나타내는 주파수 진폭 특성을 갖게 된다. 또한, 도 4에 있어서, 도면 중 상측에는 저역 통과 필터의 주파수 진폭 특성이 나타내어지고, 도면 중 하측에는 고역 통과 필터의 주파수 진폭 특성이 나타내어져 있다. 또한, 도 4에 있어서, 종축은 진폭(dB)을 나타내고, 횡축은 정규화 주파수를 나타내고 있다.
도면 중, 상측에 나타내는 저역 통과 필터에서는, 정규화 주파수가 0부터 약 0.25까지는 진폭이 거의 0dB로 되어 있고, 정규화 주파수 0.25 부근에서 급격하게 진폭이 작게 되어 있다. 또한, 정규화 주파수가 0.3 이상에서는 정규화 주파수가 커짐에 따라서 진폭이 작아져 간다.
이에 대해, 도면 중 하측에 나타내는 고역 통과 필터에서는, 정규화 주파수가 0부터 약 0.2까지는 진폭이 거의 -60dB로 되어 있고, 정규화 주파수 0.2 부근에서 급격하게 진폭이 크게 되어 있다. 또한, 정규화 주파수가 0.25 이상에서는 진폭이 거의 0dB로 되어 있다. 이와 같이, 고역 통과 필터에서는 저지 영역 감쇠량이 -60dB로 되어 있다.
또한, 고역 통과 필터의 저지 영역 감쇠량이 -60dB인 예에 대하여 설명하였지만, 저지 영역 감쇠량은 -40dB 정도 이하이면 된다. 저지 영역 감쇠량이 -40dB 정도 이하이면, 수음부(31)가 직접 두드려졌을 때의 음성의 검출 성능에 거의 영향은 발생하지 않는다.
또한, 저역 통과 필터의 저지 영역 감쇠량은, 수음부(31)가 직접 두드려졌을 때의 음성의 검출 성능에 거의 영향을 주지 않기 때문에, 저역 통과 필터는 올 패스 필터이어도 된다. 또한, 저역 통과 필터와 고역 통과 필터의 컷오프 주파수가 5512.5Hz인 예에 대하여 설명하였지만, 컷오프 주파수는 2kHz부터 10kHz 정도이면 되고, 그러한 경우, 수음부(31)가 직접 두드려졌을 때의 음성의 검출 성능에 거의 영향은 발생하지 않는다.
또한, 저역 통과 필터 및 고역 통과 필터로서 IIR(Infinite Impulse Response)형의 필터를 사용하여도 된다. 단, 그러한 경우, 직선 위상 특성을 실현하는 것이 곤란하기 때문에, 수음부(31)가 직접 두드려졌을 때의 음성의 검출 성능이 열화될 가능성이 있다.
도 3의 흐름도의 설명으로 되돌아가서, 저역 신호 및 고역 신호가 추출되면, 처리는 스텝 S13으로부터 스텝 S14로 진행된다.
스텝 S14에 있어서, 저역 최대값 산출부(62)는, 저역 필터 처리부(61)로부터 공급된 저역 신호에 기초하여 저역 최대값 Pl(n)을 산출하여, 판별 처리부(68)에 공급한다. 구체적으로는, 저역 최대값 산출부(62)는, 하기 수학식 3을 계산함으로써 저역 최대값 Pl(n)을 산출한다.
Figure pct00003
즉, 저역 신호의 가장 새로운 n번째의 값 xl(n)부터, 과거의 (n-2047)번째의 값 xl(n-2047)까지의 값의 각각에 대하여 절대값이 구해지고, 그들 절대값 중 최대값(최대값 놈(norm))이 저역 최대값 Pl(n)으로 된다.
수학식 3에서는 현재의 시각 n부터 과거의 시각 (n-2047)까지의 2048 샘플의 저역 신호가 처리 대상으로 되어 저역 최대값 Pl(n)의 산출이 행해지지만, 처리 대상으로 하는 샘플수는 512 샘플 정도 이상이면 된다. 저역 최대값 Pl(n)의 산출 시에 처리 대상으로 하는 샘플수가 512 샘플 정도 이상이면, 수음부(31)가 직접 두드려졌을 때의 음성의 검출 성능에 영향은 발생하지 않는다.
예를 들어, 512 샘플의 저역 신호가 처리 대상으로 되는 경우, 과거의 시각 (n-1536)부터 과거의 시각 (n-2047)까지의 512 샘플의 저역 신호가 사용되어, 그들 값의 절대값 중 최대값이 저역 최대값 Pl(n)으로 된다.
스텝 S15에 있어서, 저역 실효값 산출부(63)는, 저역 필터 처리부(61)로부터 공급된 저역 신호에 기초하여 저역 실효값 rmsl(n, m)(단, m=0, 1, 2, 3)을 산출하여 판별 처리부(68)에 공급한다. 구체적으로는, 저역 실효값 산출부(63)는, 하기 수학식 4를 계산함으로써 4개의 저역 실효값 rmsl(n, m)을 산출한다.
Figure pct00004
즉, 저역 실효값 산출부(63)는, 현재의 시각 n부터 과거의 시각 (n-2047)까지의 2048 샘플의 저역 신호를 4개의 구간으로 등간격으로 분할한다. 분할에 의해 얻어진 4개의 구간 LS0 내지 구간 LS3은, 각각 연속되는 512 샘플의 저역 신호의 값으로 이루어진다.
저역 실효값 산출부(63)는, 각 구간 LSm(단, m=0, 1, 2, 3)에 대하여, 그 구간을 구성하는 512 샘플분의 저역 신호의 값의 제곱 평균값(유클리드 놈)을 산출하고, 얻어진 제곱 평균값을 구간 LSm의 저역 실효값 rmsl(n, m)으로 한다.
따라서, 예를 들어 구간 LS3의 저역 실효값 rmsl(n, 3)은, 저역 신호의 시각 n의 값 xl(n)부터 시각 (n-511)의 값 xl(n-511)까지의 각 시각에서의 저역 신호의 값의 제곱 평균값으로 된다. 이와 같이 하여 얻어진 저역 실효값 rmsl(n, m)은, 음성 신호의 저역 성분의 각 구간에서의 실효값이다.
또한, 저역 신호의 제곱 평균값을 구한다고 설명하였지만, 수음부(31)가 두드려졌을 때의 음성의 검출 성능의 개선이나 연산량 저감을 위해, 저역 신호의 절대값 평균값(1차 평균 놈)을 저역 실효값으로 하여도 된다.
또한, 수학식 4의 예에서는 현재의 시각 n부터 과거의 시각 (n-2047)까지의 2048 샘플의 저역 신호가 처리 대상으로 되어 저역 실효값 rmsl(n, m)의 산출이 행해지지만, 처리 대상으로 하는 샘플수는 1024 샘플 정도 이상이면 된다. 처리 대상으로 하는 샘플수가 1024 샘플 정도 이상이면, 수음부(31)가 직접 두드려졌을 때의 음성의 검출 성능에 영향은 발생하지 않는다.
예를 들어, 1024 샘플의 저역 신호가 처리 대상으로 되는 경우, 현재의 시각 n부터 과거의 시각 (n-1023)까지의 저역 신호가 2구간으로 등간격으로 분할된다. 그리고, 분할에 의해 얻어진 각 구간에 대하여, 그 구간을 구성하는 512 샘플의 저역 신호의 값의 제곱 평균값이 저역 실효값으로서 산출된다.
또한, 저역 실효값의 산출 시에, 처리 대상의 구간(샘플수)이 등간격으로 분할된다고 설명하였지만, 저역 신호의 파형이 갖는 특징에 맞추어 저역 신호가 부등 간격으로 분할되도록 하여도 된다. 이에 의해, 저역 신호의 특징적인 파형 부분의 구간을 보다 좁게 하고, 저역 실효값을 사용하여 수음부(31)가 직접 두드려졌을 때의 음성을 검출할 때에, 검출 성능을 향상시킬 수 있다.
스텝 S16에 있어서, 고역 최대값 산출부(65)는, 고역 필터 처리부(64)로부터 공급된 고역 신호에 기초하여 고역 최대값 Ph(n)을 산출한다. 구체적으로는, 고역 최대값 산출부(65)는, 하기 수학식 5를 계산함으로써 고역 최대값 Ph(n)을 산출한다.
Figure pct00005
즉, 고역 신호의 현재의 시각 n의 값 xh(n)부터 과거의 시각 (n-2047)의 값 xh(n-2047)까지의 값의 각각에 대하여 절대값이 구해지고, 그들 절대값 중 최대값(최대값 놈)이 고역 최대값 Ph(n)으로 된다.
또한, 고역 최대값 산출부(65)는, 고역 최대값 Ph(n)으로 된 샘플, 즉 처리 대상의 샘플 중 고역 신호의 값의 절대값이 최대이었던 샘플의 시각(시간 인덱스) hi를, 고역 최대값 Ph(n)과 함께 판별 처리부(68)에 공급한다.
스텝 S17에 있어서, 고역 실효값 산출부(66)는, 고역 필터 처리부(64)로부터 공급된 고역 신호에 기초하여 고역 실효값 rmsh(n, m)(단, m=0, 1, 2, …, 31)을 산출하여 판별 처리부(68)에 공급한다. 구체적으로는, 고역 실효값 산출부(66)는, 하기 수학식 6을 계산함으로써 32개의 고역 실효값 rmsh(n, m)을 산출한다.
Figure pct00006
즉, 고역 실효값 산출부(66)는, 현재의 시각 n부터 과거의 시각 (n-2047)까지의 2048 샘플의 고역 신호를 32개의 구간으로 등간격으로 분할한다. 분할에 의해 얻어진 32개의 구간 HS0 내지 구간 HS31은, 각각 연속되는 64 샘플의 고역 신호의 값으로 이루어진다.
고역 실효값 산출부(66)는, 각 구간 HSm(단, m=0, 1, 2, …, 31)에 대하여, 그 구간을 구성하는 64 샘플분의 고역 신호의 값의 제곱 평균값(유클리드 놈)을 산출하고, 얻어진 제곱 평균값을 구간 HSm의 고역 실효값 rmsh(n, m)으로 한다.
또한, 고역 신호의 제곱 평균값을 구한다고 설명하였지만, 수음부(31)가 두드려졌을 때의 음성의 검출 성능의 개선이나 연산량 저감을 위해, 고역 신호의 절대값 평균값(1차 평균 놈)을 고역 실효값으로 하여도 된다.
또한, 수학식 6의 예에서는 현재의 시각 n부터 과거의 시각 (n-2047)까지의 2048 샘플의 고역 신호가 처리 대상으로 되어 고역 실효값 rmsh(n, m)의 산출이 행해지지만, 처리 대상으로 하는 샘플수는 1024 샘플 정도 이상이면 된다. 처리 대상으로 하는 샘플수가 1024 샘플 정도 이상이면, 수음부(31)가 직접 두드려졌을 때의 음성의 검출 성능에 영향은 발생하지 않는다.
예를 들어, 1024 샘플의 고역 신호가 처리 대상으로 되는 경우, 과거의 시각 (n-1024)부터 과거의 시각 (n-2047)까지의 고역 신호가 16 구간으로 등간격으로 분할된다. 그리고, 분할에 의해 얻어진 각 구간에 대하여, 그 구간을 구성하는 64 샘플의 고역 신호의 값의 제곱 평균값이 고역 실효값으로서 산출된다.
또한, 고역 실효값의 산출 시, 처리 대상의 구간(샘플수)이 등간격으로 분할된다고 설명하였지만, 고역 신호의 파형이 갖는 특징에 맞추어 고역 신호가 부등 간격으로 분할되도록 하여도 된다. 이에 의해, 고역 신호의 특징적인 파형 부분의 구간을 보다 좁게 하고, 고역 실효값을 사용하여, 수음부(31)가 직접 두드려졌을 때의 음성을 검출할 때에 검출 성능을 향상시킬 수 있다.
스텝 S18에 있어서, 제로 크로스값 산출부(67)는, A/D 변환부(33)로부터 공급된 음성 신호 x(n)에 기초하여, 하기 수학식 7을 계산함으로써, 제로 크로스값 zcr(n)을 산출하여 판별 처리부(68)에 공급한다.
Figure pct00007
또한, 수학식 7에 있어서, negative(A)는 인수 A가 마이너스인 경우에 1로 되고, 인수 A가 마이너스가 아닌 경우에 0으로 되는 함수이다. 따라서, 제로 크로스값 zcr(n)은, 현재의 시각 n부터 과거의 시각 (n-2048)까지의 사이에서의 음성 신호(음성의 파형)가 0과 교차하는 비율을 나타내고 있다.
이상에 있어서 설명한 처리에 의해, 음성 신호의 특징의 특징량으로서 저역 최대값, 저역 실효값, 고역 최대값, 고역 실효값 및 제로 크로스값이 판별 처리부(68)에 공급된다. 또한, 이하에 있어서, 이들 저역 최대값, 저역 실효값, 고역 최대값, 고역 실효값 및 제로 크로스값을 특별히 구별할 필요가 없는 경우, 간단히 음성 신호의 특징량이라고도 칭한다.
스텝 S19에 있어서, 판별부(34)는, 판별 처리를 행하여 수음부(31)에 의해 수음된 음성이, 수음부(31)가 유저의 손가락에 의해 직접 두드려졌을 때의 음성인지의 여부를 판별하고, 그 판별 결과를 제어부(35)에 공급한다.
또한, 판별 처리의 상세한 것은 후술하겠지만, 판별 처리에서는 음성 신호의 각 특징량이 소정의 조건을 만족하는 경우, 수음부(31)가 직접 두드려진 취지의 판별 결과가 출력되고, 각 특징량이 소정의 조건을 만족하지 않는 경우, 수음부(31)가 직접 두드려지지 않은 취지의 판별 결과가 출력된다. 이하, 수음부(31)가 직접 두드려진 취지의 판별 결과를 포지티브한 판별 결과라고도 칭하고, 수음부(31)가 직접 두드려지지 않은 취지의 판별 결과를 네가티브한 판별 결과라고도 칭하기로 한다.
판별 처리가 행해지면, 판별부(34-1) 및 판별부(34-2)로부터 각각 판별 결과가 제어부(35)에 공급된다. 즉, 스텝 S11 내지 스텝 S19의 처리는, 수음부(31-1), A/D 변환부(33-1) 및 판별부(34-1)와, 수음부(31-2), A/D 변환부(33-2) 및 판별부(34-2)에 의해 각각 행해진다.
스텝 S20에 있어서, 제어부(35)는, 판별부(34)의 판별 처리부(68)로부터 공급된 판별 결과에 기초하여, 유저에 의해 실행이 지시된 처리를 특정한다.
예를 들어, 재생 장치(11)에서는 수음부(31)마다 수음부(31)가 소정의 시간 내에 두드려진 횟수에 대하여 미리 특정한 처리가 대응되어 있다. 예를 들어, 수음부(31-1)만이 소정 시간 내에 한번만 두드려진 경우, 재생 중인 악곡의 음량이 상승되고, 수음부(31-2)만이 소정 시간 내에 한번만 두드려진 경우, 재생 중인 악곡의 음량이 낮추어지고, 수음부(31-1)만이 소정 시간 내에 두번 두드려진 경우, 악곡의 재생이 정지된다.
제어부(35)는, 판별부(34)로부터 순차 공급되는 판별 결과에 기초하여, 어느 수음부(31)가 소정 시간 내에 몇번 두드려졌는지(조작되었는지)를 특정하고, 그 특정 결과에 대하여 미리 정해진 처리를 특정한다.
따라서, 수음부(31-1)로부터 소정 시간 내에 포지티브한 판별 결과가 2회 공급되고, 수음부(31-2)로부터는 네가티브한 판별 결과가 공급된 경우, 상술한 예에서는 악곡의 재생을 정지하는 처리가 특정된다.
또한, 수음부(31)의 조작에 할당되는 기능(처리)은, 음량의 오르내림, 악곡의 재생이나 정지, 빨리감기, 되감기 등 외에, 설정의 전환이나 전원의 오프 등, 재생 장치(11)에 있어서 실행되는 처리이면 어떠한 것이어도 된다. 또한, 소정 시간 내에 수음부(31-1)와 수음부(31-2)가 교대로 두드려진 경우나, 동시에 두드려진 경우 등, 2개의 수음부(31)의 조합 조작에 대해서도 처리가 할당되도록 하여도 된다.
스텝 S21에 있어서, 제어부(35)는 스텝 S20에 있어서 특정된 처리를 실행하고, 재생 제어 처리는 종료된다.
예를 들어, 악곡의 재생을 일시 정지하는 처리가 특정된 경우, 제어부(35)는 재생 제어부(39)를 제어하여 재생 제어부(39)로부터 스피커(32)에의 음성의 공급을 일시적으로 정지시킨다. 또한, 예를 들어 음량을 높이는 처리가 특정된 경우, 제어부(35)는 재생 제어부(39)로부터 스피커(32)에 공급되는 음성의 음량이 커지도록 재생 제어부(39)를 제어한다.
이상과 같이 하여 재생 장치(11)는, 수음부(31)에 의해 수음된 음성의 특징량을 산출하고, 그들 특징량에 기초하여, 수음된 음성이 수음부(31)를 직접 두드렸을 때의 음성인지의 여부를 판별하고, 그 판별 결과에 따른 처리를 실행한다.
이에 의해, 보다 간단한 구성으로 재생 장치(11)의 조작성을 향상시킬 수 있다. 즉, 재생 장치(11)에서는, 소위 노이즈 제거용으로 설치된 수음부(31)에 의해 주위의 음성을 취득하여, 그 음성에 대하여 각 특징의 특징량이 구해지고, 그들 특징량이 사용되어 유저의 조작이 특정된다.
따라서, 유저는 포켓 등으로부터 일일이 재생 장치를 꺼내, 재생 장치 본체에 설치된 버튼이나 터치 패널에 직접 접촉할 필요없이, 수음부(31)를 두드리는 것만으로 재생 장치(11)에 의한 악곡 등의 재생 제어를 실행시킬 수 있다. 게다가, 수음부(31)에 의해 수음된 음성에 기초하여 유저의 조작을 특정하기 때문에, 재생 장치(11)에 재생 제어용의 버튼 등을 설치할 필요가 없어, 재생 장치(11)의 구성을 보다 간단한 것으로 할 수 있다.
[판별 처리의 설명]
이어서, 도 5의 흐름도를 참조하여, 도 3의 스텝 S19의 처리에 대응하는 판별 처리에 대하여 설명한다. 또한, 이 판별 처리는 판별부(34-1) 및 판별부(34-2)의 각각에 있어서 행해진다.
스텝 S51에 있어서, 판별 처리부(68)는, 고역 최대값 산출부(65)로부터 공급된 시간 인덱스 hi가 하기 수학식 8을 만족하는지의 여부를 판정한다.
Figure pct00008
또한, 수학식 8에 있어서, hi_peak는 미리 정해진 상수이며, 예를 들어 1791로 된다. 또한, 시간 인덱스 hi는 고역 신호의 절대값이 최대로 되는 시각이다. 따라서, 스텝 S51에서는 고역 신호의 절대값이 시각 (n-hi_peak)에서 최대로 되어 있는지의 여부가 판정된다.
고역 신호에서는 수음부(31)가 유저에 의해 직접 두드려진 시각에 있어서, 고역 신호의 절대값이 최대로 될 것이다. 따라서, 처리 기준이 되는 현재 시각 n으로부터 미리 정해진 소정의 시간(여기서는 hi_peak)만큼 과거의 시각에 있어서 절대값이 최대로 되는 음성 신호를, 수음부(31)가 직접 두드려졌을 때의 음성의 판별 대상으로 하면, 판별 정밀도를 향상시킬 수 있다. 즉, 수음부(31)가 유저에 의해 직접 두드려진 전후의 기간의 동기의 취해진 음성 신호의 파형, 즉 특정한 위상의 파형을 처리 대상으로 할 수 있어, 보다 간단하면서 고정밀도로 음성의 판별을 행할 수 있게 된다.
또한, 소정의 시간 hi_peak는 (1791-128)≤hi_peak≤(1791+128) 정도이면, 수음부(31)가 두드려졌을 때의 음성의 검출 성능에 거의 영향이 발생하지 않기 때문에, 시간 hi_peak은 1791 정도의 값이면 된다.
스텝 S51에 있어서, 고역 신호의 절대값이 시각 (n-hi_peak)에서 최대로 되어 있지 않다고 판정된 경우, 스텝 S52에 있어서, 판별 처리부(68)는 수음부(31)가 두드려져 있지 않은 취지의 판별 결과, 즉 네가티브한 판별 결과를 제어부(35)에 공급한다. 그리고, 판별 결과가 출력되면 판별 처리는 종료되고, 그 후, 처리는 도 3의 스텝 S20으로 진행된다.
이에 대해, 스텝 S51에 있어서 고역 신호의 절대값이 시각 (n-hi_peak)에서 최대로 되어 있다고 판정된 경우, 스텝 S53에 있어서, 판별 처리부(68)는 고역 최대값 산출부(65)로부터 공급된 고역 최대값 Ph(n)이 하기 수학식 9를 만족하는지의 여부를 판정한다.
Figure pct00009
또한, 수학식 9에 있어서, ph_low는 미리 정해진 임계값이며, 스텝 S53에서는 고역 최대값 Ph(n)이 임계값 ph_low 이상인지의 여부가 판정된다.
스텝 S53에 있어서, 고역 최대값이 임계값 ph_low 미만이라고 판정된 경우, 스텝 S52에 있어서 네가티브한 판별 결과가 출력되어 판별 처리는 종료되고, 그 후, 처리는 도 3의 스텝 S20으로 진행된다.
수음부(31)가 직접 두드려진 경우, 수음된 음성의 고역 성분은 어느 정도의 강도(진폭)를 갖고 있을 것이다. 따라서, 고역 최대값이 임계값 ph_low 미만인 경우에는, 처리 대상으로 되어 있는 음성(음성 신호)은, 수음부(31)가 직접 두드려졌을 때의 음성이 아니라고 판별되어 네가티브한 판별 결과가 출력된다.
한편, 스텝 S53에 있어서, 고역 최대값이 임계값 ph_low 이상이라고 판정된 경우, 스텝 S54에 있어서, 판별 처리부(68)는 고역 실효값 산출부(66)로부터 공급된 각 고역 실효값 rmsh(n, m)이 하기 수학식 10을 만족하는지의 여부를 판정한다.
Figure pct00010
또한, 수학식 10에 있어서, rmsh_high(m)(단, m=0, 1, 2, …, 31)은 미리 정해진 임계값이며, 스텝 S54에서는 각 구간 HSm의 고역 실효값 rmsh(n, m)이 임계값 rmsh_high(m) 이하인지의 여부가 판정된다. 즉, 고역 실효값 rmsh(n, 0) 내지 고역 실효값 rmsh(n, 31)의 각각이 임계값 rmsh_high(0) 내지 임계값 rmsh_high(31)의 각각 이하인지의 여부가 판정된다.
스텝 S54에 있어서, 고역 실효값이 임계값 rmsh_high(m) 이하가 아니라고 판정된 경우, 스텝 S52에 있어서 네가티브한 판별 결과가 출력되어 판별 처리는 종료되고, 그 후, 처리는 도 3의 스텝 S20으로 진행된다.
수음부(31)가 직접 두드려진 경우, 수음된 음성의 고역 성분은, 두드려진 시각 부근의 구간에서는 실효값이 크고, 그 이외의 구간에서는 그다지 실효값이 크지 않다고 하는 특징을 갖고 있으며, 그러한 특징에 맞추어 각 구간의 임계값 rmsh_high(m)이 미리 정해진다. 그리고, 각 구간의 고역 실효값 중 1개라도 임계값 rmsh_high(m)을 초과하는 것이 있는 경우에는, 처리 대상으로 되어 있는 음성은, 수음부(31)가 직접 두드려졌을 때의 음성이 아니라고 판별되어 네가티브한 판별 결과가 출력된다.
또한, 스텝 S54에 있어서, 고역 실효값이 임계값 rmsh_high(m) 이하라고 판정된 경우, 스텝 S55에 있어서, 판별 처리부(68)는 저역 최대값 산출부(62)로부터 공급된 저역 최대값 Pl(n)이 하기 수학식 11을 만족하는지의 여부를 판정한다.
Figure pct00011
또한, 수학식 11에 있어서, pl_low는 미리 정해진 임계값이며, 스텝 S55에서는 저역 최대값 Pl(n)이 임계값 pl_low 이상인지의 여부가 판정된다.
스텝 S55에 있어서, 저역 최대값이 임계값 pl_low 미만이라고 판정된 경우, 스텝 S52에 있어서 네가티브한 판별 결과가 출력되어 판별 처리는 종료되고, 그 후, 처리는 도 3의 스텝 S20으로 진행된다.
수음부(31)가 직접 두드려진 경우, 특히 수음부(31)에 설치된 마이크로폰의 구멍이 유저의 손가락으로 막혀지도록 두드려진 경우, 수음된 음성의 저역 성분은 어느 정도의 강도(진폭)를 갖고 있을 것이다. 따라서, 저역 최대값이 임계값 pl_low 미만인 경우에는, 처리 대상으로 되어 있는 음성은, 수음부(31)가 직접 두드려졌을 때의 음성이 아니라고 판별되어 네가티브한 판별 결과가 출력된다.
한편, 스텝 S55에 있어서, 저역 최대값이 임계값 pl_low 이상이라고 판정된 경우, 스텝 S56에 있어서, 판별 처리부(68)는 저역 실효값 산출부(63)로부터 공급된 각 저역 실효값 rmsl(n, m)이 하기 수학식 12를 만족하는지의 여부를 판정한다.
Figure pct00012
또한, 수학식 12에 있어서, rmsl_low(m)(단, m=0, 1, 2, 3)은 미리 정해진 임계값이며, 스텝 S56에서는 각 구간 LSm의 저역 실효값 rmsl(n, m)이 임계값 rmsl_low(m) 이상인지의 여부가 판정된다. 즉, 저역 실효값 rmsl(n, 0) 내지 저역 실효값 rmsl(n, 3)의 각각이 임계값 rmsl_low(0) 내지 임계값 rmsl_low(3)의 각각 이상인지의 여부가 판정된다.
스텝 S56에 있어서, 저역 실효값이 임계값 rmsl_low(m) 이상이 아니라고 판정된 경우, 스텝 S52에 있어서 네가티브한 판별 결과가 출력되어 판별 처리는 종료되고, 그 후, 처리는 도 3의 스텝 S20으로 진행된다.
수음부(31)가 직접 두드려진 경우, 수음된 음성의 저역 성분은, 두드려진 시각 후에 있어서도 어느 정도 긴 기간 실효값이 큰 값으로 된다고 하는 특징을 갖고 있고, 그러한 특징에 맞추어 각 구간의 임계값 rmsl_low(m)이 미리 정해진다. 그리고, 각 구간의 저역 실효값 중 1개라도 임계값 rmsl_low(m) 미만으로 되는 것이 있는 경우에는, 처리 대상으로 되어 있는 음성은, 수음부(31)가 직접 두드려졌을 때의 음성이 아니라고 판별되어 네가티브한 판별 결과가 출력된다.
또한, 스텝 S56에 있어서, 저역 실효값이 임계값 rmsl_low(m) 이상이라고 판정된 경우, 스텝 S57에 있어서, 판별 처리부(68)는 제로 크로스값 산출부(67)로부터 공급된 제로 크로스값 zcr(n)이 하기 수학식 13을 만족하는지의 여부를 판정한다.
Figure pct00013
또한, 수학식 13에 있어서, zcr_high는 미리 정해진 임계값이며, 스텝 S57에서는 제로 크로스값 zcr(n)이 임계값 zcr_high 이하인지의 여부가 판정된다.
스텝 S57에 있어서, 제로 크로스값이 임계값 zcr_high보다도 크다고 판정된 경우, 스텝 S52에 있어서 네가티브한 판별 결과가 출력되어 판별 처리는 종료되고, 그 후, 처리는 도 3의 스텝 S20으로 진행된다.
수음부(31)가 직접 두드려진 경우, 수음된 음성에는 저역 성분이 많이 포함되어 있기 때문에, 수음된 음성의 제로 크로스값은 어느 정도 작을 것이다. 따라서, 제로 크로스값 zcr(n)이 임계값 zcr_high를 초과하는 경우에는, 처리 대상으로 되어 있는 음성은, 수음부(31)가 직접 두드려졌을 때의 음성이 아니라고 판별되어 네가티브한 판별 결과가 출력된다.
한편, 스텝 S57에 있어서, 제로 크로스값 zcr(n)이 임계값 zcr_high 이하라고 판정된 경우, 처리는 스텝 S58로 진행된다.
스텝 S58에 있어서, 판별 처리부(68)는, 수음부(31)가 두드려진 취지의 판별 결과, 즉 포지티브한 판별 결과를 제어부(35)에 공급한다. 그리고, 판별 결과가 출력되면 판별 처리는 종료되고, 그 후, 처리는 도 3의 스텝 S20으로 진행된다.
이와 같이 하여 판별 처리부(68)는, 수음된 음성의 각 특징의 특징량이 수음부(31)가 직접 두드려졌을 때의 음성이 만족해야 할 조건을 만족하고 있는지의 여부를 판정함으로써, 수음된 음성이 수음부(31)가 직접 두드려졌을 때의 음성인지의 여부를 판별한다. 수음된 음성의 특징마다 조건을 만족하고 있는지의 여부를 판정함으로써, 보다 확실하게 음성의 판별을 행할 수 있다.
[고역 최대값의 임계값 ph_low에 대하여]
그런데, 이상에 있어서 설명한 판별 처리에 있어서 사용되는 임계값 ph_low, 임계값 rmsh_high(m), 임계값 pl_low, 임계값 rmsl_low(m) 및 임계값 zcr_high는 다수의 샘플로부터 미리 구해져 판별 처리부(68)에 기록된다.
예를 들어 전철, 버스, 도보 등의 다양한 환경 하에서, 수음부(31)를 직접 두드렸을 때의 음성과, 수음부(31)를 두드리지 않았을 때의 음성이 다수 모여져, 그들 음성이 포지티브 판정 또는 네가티브 판정의 학습 데이터로 되어, 특징량으로 이루어지는 특징 공간 상의 판별 경계가 임계값으로서 구해진다.
이하, 이들 임계값의 산출 방법에 대하여 설명한다.
우선, 고역 최대값 Ph(n)의 임계값 ph_low에 대하여 설명한다. 도 6은 전철, 버스, 도보 등의 다양한 환경 하에서의 고역 최대값 Ph(n)의 출현 확률을 나타내는 도면이다. 또한, 도면 중, 횡축은 샘플로 된 각 음성의 고역 최대값(dB)을 나타내고, 종축은 출현 확률을 나타내고 있다.
도 6에서는 도면 중 좌측에는 수음부(31)가 두드려져 있지 않을 때의 음성(이하, 환경음이라고 칭함)에 대한 출현 확률이 나타내어지고, 도면 중 우측에는 수음부(31)가 직접 두드려졌을 때의 음성(이하, 조작음이라고 칭함)에 대한 출현 확률이 나타내어져 있다.
환경음의 고역 최대값은 -45dB 부근에 많이 분포하고 있는 것에 대해, 조작음의 고역 최대값은 0dB 부근에 많이 분포하고 있고, 고역 최대값이 0dB 정도인 환경음은 거의 없다. 즉, 조작음의 고역 최대값은 환경음의 고역 최대값보다도 큰 값에 분포하고 있는 것을 알 수 있다. 이러한 환경음과 조작음의 고역 최대값 Ph(n)의 통계적인 분포의 차이가 사용되어, 환경음 또는 조작음 중 어느 것인지의 예측(판별)이 행해진다.
예를 들어, 환경음과 조작음의 판별에는 선형 판별 분석이 사용된다. 설명 변량을 고역 최대값 Ph(n)으로 하고, 목적 변량을 환경음과 조작음의 2군의 데이터로 하여 선형 판별 분석을 행하면, 하기 수학식 14에 나타내는 판별식이 얻어진다.
Figure pct00014
예를 들어, 도 6에 나타낸 샘플이 사용되는 경우, 상수항 ph_low로서 0.0679가 얻어진다. 이 상수항 ph_low는, 도 6의 환경음의 분포의 무게 중심과, 조작음의 분포의 무게 중심의 중점에 상당하는 값이다.
수학식 14에서는 판별 득점 zph가 0 이상인 경우, 처리 대상의 음성은 조작음인 것으로 되고, 판별 득점 zph가 0 미만인 경우, 처리 대상의 음성은 조작음이 아닌, 즉 환경음인 것으로 판별된다. 이 판별식의 상수항 ph_low가 고역 최대값의 임계값 ph_low로 되어 판별 처리부(68)에 기록된다.
또한, 수학식 14에 의한 1개의 특징량, 즉 고역 최대값 Ph(n)에 의한 판별에서는 조작음을 환경음으로 판별해 버리는 누락 검출이나, 환경음을 조작음으로서 판별해 버리는 과잉 검출이 많다.
누락 검출을 적게 하고자 하는 경우, 임계값 ph_low를 네가티브한 방향, 즉 보다 작아지도록 변경함으로써 최적화할 수는 있지만, 그렇게 하면 과잉 검출이 많아지게 된다. 반대로, 과잉 검출을 적게 하고자 하는 경우에는, 임계값 ph_low를 포지티브한 방향, 즉 보다 커지도록 변경함으로써 최적화할 수는 있지만, 누락 검출이 많아지게 된다.
판별 처리부(68)에 의한 판별 처리에서는, 도 5를 참조하여 설명한 바와 같이, 다단 판별을 행하고 있으므로, 고역 최대값 Ph(n)에 의한 판별에서는, 누락 검출이 적어지고 과잉 검출이 많아지도록 임계값 ph_low를 네가티브한 방향으로 변경하여 최적화하는 것이 바람직하다. 그리고, 그 이후에 있어서 행해지는 고역 실효값, 저역 최대값, 저역 실효값, 제로 크로스값을 사용한 판별에서는, 단계적으로 과잉 검출이 적어지도록 하면, 보다 확실하게 조작음의 판별을 행할 수 있다.
[고역 실효값의 임계값 rmsh_high(m)에 대하여]
이어서, 고역 실효값 rmsh(n, m)의 임계값 rmsh_high(m)에 대하여 설명한다. 도 7은 전철, 버스, 도보 등의 다양한 환경 하에서의 고역 실효값 rmsh(n, m)을 나타내는 도면이다.
또한, 도면 중 횡축은 각 구간 HSm, 즉 고역 실효값 rmsh(n, m)의 변수 m(단, m=0, 1, 2, …, 31)을 나타내고, 종축은 각 구간 HSm의 고역 실효값(dB)을 나타내고 있다.
도 7에서는 도면 중 상측에는 환경음의 고역 실효값이 나타내어지고, 도면 중 하측에는 조작음의 고역 실효값이 나타내어져 있다. 또한, 도 7에 나타내는 고역 실효값은, 도 5의 스텝 S51에서 설명한 시간 인덱스 hi=n-hi_peak의 조건을 만족하는 샘플(음성)의 고역 실효값이며, hi_peak=1791로 되어 있다.
그로 인해, 환경음의 고역 실효값도 조작음의 고역 실효값도 m=2, 3 부근에서는 모두 큰 값에 분포하고 있다. 또한, 조작음의 고역 실효값은 m=2 이하와 m=5 이상인 구간에 있어서, 환경음의 고역 실효값보다도 작은 값에 분포하고 있는 것을 알 수 있다.
이와 같이 조작음에는 수음부(31)가 직접 두드려진 시각 부근의 구간의 고역 실효값이 크고, 그 구간과는 다른 구간의 고역 실효값은 비교적 작다고 하는 특징이 있지만, 환경음의 고역 실효값은 어느 구간에 있어서도 어느 정도의 크기로 되어 있다.
이러한 환경음과 조작음의 각 구간의 고역 실효값 rmsh(n, m)의 통계적인 분포의 차이가 사용되어, 과잉 검출이 적어지도록, 환경음 또는 조작음 중 어느 것인지의 예측(판별)이 행해진다.
예를 들어, 환경음과 조작음의 판별에는 선형 판별 분석이 사용된다. 설명 변량을 고역 실효값 rmsh(n, m)으로 하고, 목적 변량을 환경음과 조작음의 2군의 데이터로 하여 선형 판별 분석을 행하면, 하기 수학식 15에 나타내는 판별식이 얻어진다.
Figure pct00015
예를 들어, 도 7에 나타낸 샘플이 사용되는 경우, 각 변수 m에 대한 상수항 rmsh_high(m), 즉 상수항 rmsh_high(0) 내지 상수항 rmsh_high(31)로서 도 8에 나타내는 값이 얻어진다. 각 상수항 중 상수항 rmsh_high(3) 내지 상수항 rmsh_high(5)가 도 7에 나타낸 조작음의 고역 실효값에 대응하여 특히 큰 값으로 되어 있다.
수학식 15에서는 구간 HS0 내지 구간 HS31의 모든 판별 득점 zrmsh(m)이 0 이상인 경우, 처리 대상의 음성은 조작음인 것으로 되고, 1개라도 판별 득점 zrmsh(m)이 0 미만으로 되는 구간 HSm이 있는 경우, 처리 대상의 음성은 환경음인 것으로 판별된다. 이 판별식의 상수항 rmsh_high(m)이 고역 실효값의 임계값 rmsh_high(m)으로 되어 판별 처리부(68)에 기록된다.
또한, 상술한 임계값 ph_low의 변경에 의한 누락 검출이나 과잉 검출의 최적화와 마찬가지로, 고역 실효값의 임계값 rmsh_high(m)을 변경함으로써도 누락 검출이나 과잉 검출의 최적화를 행하는 것은 가능하지만, 임계값(상수항)이 32개나 있기 때문에 그 변경은 극히 곤란하다.
이에 대해, 설명 변량을 32차원의 고역 실효값 rmsh(n, m)(단, m=0, 1, 2, …, 31)으로 하여 선형 판별 분석을 행하면, 하기 수학식 16에 나타내는 판별식이 얻어진다.
Figure pct00016
수학식 16에 있어서, a_rmsh(m)(단, m=0, 1, 2, …, 31)은 선형 판별 계수이며, b_rmsh는 선형 판별의 상수항이다. 그리고, 수학식 16의 판별 득점 zrmsh가 0 이상인 경우, 처리 대상의 음성은 조작음인 것으로 되고, 판별 득점 zrmsh가 0 미만인 경우, 처리 대상의 음성은 환경음인 것으로 판별된다.
수학식 16의 판별식에 있어서는, 임계값 ph_low의 변경에 의한 누락 검출이나 과잉 검출의 최적화와 마찬가지로, 상수항 b_rmsh를 변경함으로써 수학식 15의 판별식의 경우보다도 간단하게 누락 검출이나 과잉 검출의 최적화를 행할 수 있다.
이 상수항 b_rmsh가 임계값으로 되는 경우, 도 5의 스텝 S54에서는 선형 판별 계수 a_rmsh(m)과 고역 실효값 rmsh(n, m)의 곱의 총합이 임계값 (-b_rmsh)와 비교되어 조작음의 판별이 행해진다. 즉, 선형 판별 계수가 승산된 고역 실효값의 총합이 -b_rmsh를 초과하는 경우, 처리 대상의 음성은 환경음인 것으로 판별된다.
또한, 수학식 16에서의 설명 변량인 32차원의 고역 실효값 rmsh(n, m)을, 하기 수학식 17에 나타낸 바와 같이 대수 척도로 변환하면, 누락 검출이나 과잉 검출을 보다 저감시킬 수 있다.
Figure pct00017
또한, 수학식 17에 있어서, al_rmsh(m)(단, m=0, 1, 2, …, 31)은 선형 판별 계수이며, bl_rmsh는 선형 판별의 상수항이다. 수학식 17의 판별식에 있어서도 판별 득점 zrmsh가 0 이상이면 조작음인 것으로 판별되고, 판별 득점 zrmsh가 0 미만이면 환경음인 것으로 판별된다.
또한, 수학식 17의 판별식에 있어서는, 상수항 bl_rmsh를 변경함으로써 누락 검출이나 과잉 검출의 최적화를 행할 수 있다. 이 상수항 bl_rmsh가 임계값으로 되는 경우, 도 5의 스텝 S54에서는, 선형 판별 계수 al_rmsh(m)과, 10을 바닥으로 하는 고역 실효값 rmsh(n, m)의 대수값과의 곱의 총합이 임계값 (-bl_rmsh)와 비교되어 조작음의 판별이 행해진다. 즉, 선형 판별 계수와 고역 실효값의 대수값의 곱의 총합이 -bl_rmsh를 초과하는 경우, 처리 대상의 음성은 환경음인 것으로 판별된다.
또한, 수학식 15 내지 수학식 17 중 어느 판별식을 사용할지는 연산량, 누락 검출, 과잉 검출의 밸런스에 따라 정하면 된다.
[저역 최대값의 임계값 pl_low에 대하여]
이어서, 저역 최대값 Pl(n)의 임계값 pl_low에 대하여 설명한다. 도 9는 전철, 버스, 도보 등의 다양한 환경 하에서의 저역 최대값 Pl(n)의 출현 확률을 나타내는 도면이다. 또한, 도면 중 횡축은 샘플로 된 각 음성의 저역 최대값(dB)을 나타내고, 종축은 출현 확률을 나타내고 있다.
도 9에서는 도면 중 좌측에는 환경음에 대한 출현 확률이 나타내어지고, 도면 중 우측에는 조작음에 대한 출현 확률이 나타내어져 있다.
환경음의 저역 최대값은 -28dB 부근을 중심으로 넓게 분포하고 있는 것에 대해, 조작음의 저역 최대값은 -10dB 부근에 많이 분포하고 있다. 즉, 조작음의 저역 최대값은 환경음의 저역 최대값보다도 큰 값에 분포하고 있는 것을 알 수 있다. 이러한 환경음과 조작음의 저역 최대값 Pl(n)의 통계적인 분포의 차이가 사용되어, 과잉 검출이 적어지도록, 환경음 또는 조작음 중 어느 것인지의 예측(판별)이 행해진다.
예를 들어, 환경음과 조작음의 판별에는 선형 판별 분석이 사용된다. 설명 변량을 저역 최대값 Pl(n)으로 하고, 목적 변량을 환경음과 조작음의 2군의 데이터로 하여 선형 판별 분석을 행하면, 하기 수학식 18에 나타내는 판별식이 얻어진다.
Figure pct00018
예를 들어, 도 9에 나타낸 샘플이 사용되는 경우, 상수항 pl_low로서 0.644가 얻어진다. 이 상수항 pl_low는, 도 9의 환경음의 분포의 무게 중심과, 조작음의 분포의 무게 중심의 중점에 상당하는 값이다.
수학식 18에서는 판별 득점 zpl이 0 이상인 경우, 처리 대상의 음성은 조작음인 것으로 되고, 판별 득점 zpl이 0 미만인 경우, 처리 대상의 음성은 환경음인 것으로 판별된다. 이 판별식의 상수항 pl_low가 저역 최대값의 임계값 pl_low로 되어 판별 처리부(68)에 기록된다. 또한, 상술한 임계값 ph_low의 경우와 마찬가지로, 저역 최대값의 임계값 pl_low를 변경함으로써도 누락 검출이나 과잉 검출의 최적화를 행하는 것이 가능하다.
[저역 실효값의 임계값 rmsl_low(m)에 대하여]
또한, 저역 실효값 rmsl(n, m)의 임계값 rmsl_low(m)에 대하여 설명한다.
도 10은 전철, 버스, 도보 등의 다양한 환경 하에서의 저역 실효값 rmsl(n, m)을 나타내는 도면이다. 또한, 도면 중 횡축은 각 구간 LSm, 즉 저역 실효값 rmsl(n, m)의 변수 m(단, m=0, 1, 2, 3)을 나타내고, 종축은 각 구간 LSm의 저역 실효값(dB)을 나타내고 있다.
도 10에서는 도면 중 상측에는 환경음의 저역 실효값이 나타내어지고, 도면 중 하측에는 조작음의 저역 실효값이 나타내어져 있다. 또한, 도 10에 나타내는 저역 실효값은, 도 5의 스텝 S51에서 설명한 시간 인덱스 hi=n-hi_peak의 조건을 만족하는 샘플(음성)의 저역 실효값이며, hi_peak=1791로 되어 있다.
그로 인해, 환경음의 저역 실효값도 조작음의 저역 실효값도 m=0에서는 모두 큰 값에 분포하고 있다. 또한, 조작음의 저역 실효값은 m=0, 1, 2, 3의 모든 구간에 있어서, 환경음의 저역 실효값보다도 큰 값에 분포하고 있는 것을 알 수 있다.
이와 같이 조작음에는 수음부(31)가 직접 두드려진 후, 완만하게 저역 실효값이 감소해 간다고 하는 특징이 있지만, 환경음의 저역 실효값은 m=2, 3의 구간에 있어서 급격하게 저역 실효값이 감소하고 있다.
이러한 환경음과 조작음의 각 구간의 저역 실효값 rmsl(n, m)의 통계적인 분포의 차이가 사용되어, 과잉 검출이 적어지도록, 환경음 또는 조작음 중 어느 것인지의 예측(판별)이 행해진다.
예를 들어, 환경음과 조작음의 판별에는 선형 판별 분석이 사용된다. 설명 변량을 저역 실효값 rmsl(n, m)으로 하고, 목적 변량을 환경음과 조작음의 2군의 데이터로 하여 선형 판별 분석을 행하면, 하기 수학식 19에 나타내는 판별식이 얻어진다.
Figure pct00019
예를 들어, 도 10에 나타낸 샘플이 사용되는 경우, 각 변수 m에 대한 상수항 rmsl_low(m), 즉 상수항 rmsl_low(0) 내지 상수항 rmsl_low(3)으로서 도 11에 나타내는 값이 얻어진다. 각 상수항 중 상수항 rmsl_low(0) 및 상수항 rmsl_low(1)이 도 10에 나타낸 조작음의 저역 실효값에 대응하여 특히 큰 값으로 되어 있다.
수학식 19에서는 구간 LS0 내지 구간 LS3의 모든 판별 득점 zrmsl(m)이 0 이상인 경우, 처리 대상의 음성은 조작음인 것으로 되고, 1개라도 판별 득점 zrmsl(m)이 0 미만으로 되는 구간 LSm이 있는 경우, 처리 대상의 음성은 환경음인 것으로 판별된다. 이 판별식의 상수항 rmsl_low(m)이 저역 실효값의 임계값 rmsl_low(m)으로 되어 판별 처리부(68)에 기록된다.
또한, 저역 실효값의 임계값 rmsl_low(m)을 변경함으로써도 누락 검출이나 과잉 검출의 최적화를 행하는 것은 가능하지만, 임계값(상수항)이 4개나 있기 때문에 그 변경은 곤란하다.
이에 대해, 설명 변량을 4차원의 저역 실효값 rmsl(n, m)(단, m=0, 1, 2, 3)으로 하여 선형 판별 분석을 행하면, 하기 수학식 20에 나타내는 판별식이 얻어진다.
Figure pct00020
수학식 20에 있어서, a_rmsl(m)(단, m=0, 1, 2, 3)은 선형 판별 계수이며, b_rmsl은 선형 판별의 상수항이다. 그리고, 수학식 20의 판별 득점 zrmsl이 0 이상인 경우, 처리 대상의 음성은 조작음인 것으로 되고, 판별 득점 zrmsl이 0 미만인 경우, 처리 대상의 음성은 환경음인 것으로 판별된다.
수학식 20의 판별식에 있어서는, 상수항 b_rmsl을 변경함으로써, 수학식 19의 판별식의 경우보다도 간단하게 누락 검출이나 과잉 검출의 최적화를 행할 수 있다.
이 상수항 b_rmsl이 임계값으로 되는 경우, 도 5의 스텝 S56에서는 선형 판별 계수 a_rmsl(m)과 저역 실효값 rmsl(n, m)의 곱의 총합이 임계값 (-b_rmsl)과 비교되어 조작음의 판별이 행해진다. 즉, 선형 판별 계수가 승산된 저역 실효값의 총합이 -b_rmsl을 초과하는 경우, 처리 대상의 음성은 환경음인 것으로 판별된다.
또한, 수학식 20에서의 설명 변량인 4차원의 저역 실효값 rmsl(n, m)을, 하기 수학식 21에 나타낸 바와 같이 대수 척도로 변환하면, 누락 검출이나 과잉 검출을 보다 저감시킬 수 있다.
Figure pct00021
또한, 수학식 21에 있어서, al_rmsl(m)(단, m=0, 1, 2, 3)은 선형 판별 계수이며, bl_rmsl은 선형 판별의 상수항이다. 수학식 21의 판별식에 있어서도, 판별 득점 zrmsl이 0 이상이면 조작음인 것으로 판별되고, 판별 득점 zrmsl이 0 미만이면 환경음인 것으로 판별된다.
또한, 수학식 21의 판별식에 있어서는, 상수항 bl_rmsl을 변경함으로써 누락 검출이나 과잉 검출의 최적화를 행할 수 있다. 이 상수항 bl_rmsl이 임계값으로 되는 경우, 도 5의 스텝 S56에서는, 선형 판별 계수 al_rmsl(m)과, 10을 바닥으로 하는 저역 실효값 rmsl(n, m)의 대수값과의 곱의 총합이 임계값 (-bl_rmsl)과 비교되어 조작음의 판별이 행해진다. 즉, 선형 판별 계수와 저역 실효값의 대수값의 곱의 총합이 -bl_rmsl을 초과하는 경우, 처리 대상의 음성은 환경음인 것으로 판별된다.
또한, 누락 검출이나 과잉 검출의 최적화를 위하여, 설명 변량을 32차원의 고역 실효값 rmsh(n, m)(단, m=0, 1, 2, …, 31)과, 4차원의 저역 실효값 rmsl(n, m)(단, m=0, 1, 2, 3)으로 하여 선형 판별 분석을 행하는 것도 가능하다. 그러한 경우, 하기 수학식 22에 나타내는 판별식이 얻어진다.
Figure pct00022
수학식 22에 있어서, al_rmsh(m)(단, m=0, 1, 2, …, 31) 및 al_rmsl(m)(단, m=0, 1, 2, 3)은 선형 판별 계수이며, bl_rms는 선형 판별의 상수항이다. 수학식 22의 판별식에 있어서도, 판별 득점 zrms가 0 이상이면 조작음인 것으로 판별되고, 판별 득점 zrms가 0 미만이면 환경음인 것으로 판별된다.
또한, 수학식 22의 판별식에 있어서는, 상수항 bl_rms를 변경함으로써 누락 검출이나 과잉 검출의 최적화를 행할 수 있다. 이 상수항 bl_rms가 임계값으로 되는 경우, 도 5의 스텝 S56에서는, 선형 판별 계수 al_rmsh(m)과, 10을 바닥으로 하는 고역 실효값 rmsh(n, m)의 대수값과의 곱의 총합, 및 선형 판별 계수 al_rmsl(m)과, 10을 바닥으로 하는 저역 실효값 rmsl(n, m)의 대수값과의 곱의 총합이 구해진다. 그리고 구해진 2개의 총합의 합이 임계값 (-bl_rms)와 비교되어 조작음의 판별이 행해진다. 즉, 구해진 2개의 총합이 합이 -bl_rms를 초과하는 경우, 처리 대상의 음성은 환경음인 것으로 판별된다. 이 경우, 저역 실효값과 고역 실효값의 밸런스가 음성의 판별에 고려되게 된다.
또한, 수학식 19 내지 수학식 22 중 어느 판별식을 사용할지는 연산량, 누락 검출, 과잉 검출의 밸런스에 따라 정하면 된다.
[제로 크로스값의 임계값 zcr_high에 대하여]
마지막으로, 제로 크로스값 zcr(n)의 임계값 zcr_high에 대하여 설명한다. 도 12는 전철, 버스, 도보 등의 다양한 환경 하에서의 제로 크로스값 zcr(n)의 출현 확률을 나타내는 도면이다. 또한, 도면 중, 횡축은 샘플로 된 각 음성의 제로 크로스값을 나타내고, 종축은 출현 확률을 나타내고 있다.
도 12에서는 도면 중 좌측에는 환경음에 대한 출현 확률이 나타내어지고, 도면 중 우측에는 조작음에 대한 출현 확률이 나타내어져 있다.
환경음의 제로 크로스값은 비교적 작은 값에서 널리 분포하고 있는 것에 대해, 조작음의 제로 크로스값은 0 부근에 많이 분포하고 있다. 또한, 조작음의 제로 크로스값은 0 부근에 있어서 환경음의 제로 크로스값보다도 많이 분포하고 있다. 이러한 환경음과 조작음의 제로 크로스값의 통계적인 분포의 차이가 사용되어, 과잉 검출이 적어지도록, 환경음 또는 조작음 중 어느 것인지의 예측(판별)이 행해진다.
예를 들어, 환경음과 조작음의 판별에는 선형 판별 분석이 사용된다. 설명 변량을 제로 크로스값 zcr(n)으로 하고, 목적 변량을 환경음과 조작음의 2군의 데이터로 하여 선형 판별 분석을 행하면, 하기 수학식 23에 나타내는 판별식이 얻어진다.
Figure pct00023
예를 들어, 도 12에 나타낸 샘플이 사용되는 경우, 상수항 zcr_high로서 0.013이 얻어진다. 이 상수항 zcr_high는, 도 12의 환경음의 분포의 무게 중심과, 조작음의 분포의 무게 중심의 중점에 상당하는 값이다.
수학식 23에서는 판별 득점 zzcr이 0 이상인 경우, 처리 대상의 음성은 조작음인 것으로 되고, 판별 득점 zzcr이 0 미만인 경우, 처리 대상의 음성은 환경음인 것으로 판별된다. 이 판별식의 상수항 zcr_high가 제로 크로스값의 임계값 zcr_high로 되어 판별 처리부(68)에 기록된다. 또한, 제로 크로스값의 임계값 zcr_high를 변경함으로써도 누락 검출이나 과잉 검출의 최적화를 행하는 것이 가능하다.
이상과 같이, 판별 경계를 구하여, 그 판별 경계를 임계값으로서 사용함으로써, 수음부(31)가 직접 두드려졌을 때의 조작음과, 수음부(31)가 두드려지지 않았을 때의 환경음을 판별하는 것이 가능하게 된다.
또한, 이상에 있어서는 선형 판별 분석을 사용하여 판별 함수(판별식)를 작성하는 예에 대하여 설명하였지만, 비선형 판별, 나아가 선형 SVM(Support Vector Machine)이나 비선형 SVM 등을 사용하는 것도 가능하다. 임계값을 얻기 위한 판별 함수의 작성 방법이나, 어떠한 특징량을 사용하여 판별 함수를 작성할지는 누락 검출이나 과잉 검출 등의 판별 성능, 연산량 등의 밸런스에 의해 정하면 된다.
또한, 판별 분석 시에 전철, 버스, 도보 등 여러가지 환경 하에서 조작음과 환경음을 다수 모아, 그들 음성을 포지티브 판정과 네가티브 판정의 학습 데이터로 한다고 설명하였지만, 판별 성능을 높이기 위하여 환경음을 조작음과 유사한 것만으로 한정하도록 하여도 된다. 그러한 경우, 예를 들어 판별 득점이 0값 부근의 환경음만이 조작음과 유사한 음성으로 되어 학습 데이터로서 채용된다.
또한, 이상에 있어서는, 수음부(31)에 의해 수음된 음성이 조작음인지의 여부를 판별하고, 그 판별 결과에 따른 처리를 행하는 장치의 예로서, 휴대형의 음악 플레이어인 재생 장치(11)에 대하여 설명하였지만, 그 외에 IC 레코더 등 어떠한 장치이어도 된다.
상술한 일련의 처리는 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이 전용 하드웨어에 내장되어 있는 컴퓨터, 또는 각종 프로그램을 인스톨함으로써 각종 기능을 실행하는 것이 가능한, 예를 들어 범용의 퍼스널 컴퓨터 등에 프로그램 기록 매체로부터 인스톨된다.
도 13은 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어의 구성예를 나타내는 블록도이다.
컴퓨터에 있어서, CPU(Central Processing Unit)(201), ROM(Read Only Memory)(202), RAM(Random Access Memory)(203)은 버스(204)에 의해 서로 접속되어 있다.
버스(204)에는 입출력 인터페이스(205)가 더 접속되어 있다. 입출력 인터페이스(205)에는 키보드, 마우스, 마이크로폰 등으로 이루어지는 입력부(206), 디스플레이, 스피커 등으로 이루어지는 출력부(207), 하드 디스크나 불휘발성의 메모리 등으로 이루어지는 기록부(208), 네트워크 인터페이스 등으로 이루어지는 통신부(209), 자기 디스크, 광 디스크, 광 자기 디스크, 혹은 반도체 메모리 등의 리무버블 미디어(211)를 구동하는 드라이브(210)가 접속되어 있다.
이상과 같이 구성되는 컴퓨터에서는, CPU(201)가, 예를 들어 기록부(208)에 기록되어 있는 프로그램을 입출력 인터페이스(205) 및 버스(204)를 통하여 RAM(203)에 로드하여 실행함으로써, 상술한 일련의 처리가 행해진다.
컴퓨터(CPU(201))가 실행하는 프로그램은, 예를 들어 자기 디스크(플렉시블 디스크를 포함함), 광 디스크(CD-ROM(Compact Disc-Read Only Memory), DVD(Digital Versatile Disc) 등), 광 자기 디스크, 혹은 반도체 메모리 등으로 이루어지는 패키지 미디어인 리무버블 미디어(211)에 기록하거나, 혹은 근거리 네트워크, 인터넷, 디지털 위성 방송과 같은 유선 또는 무선의 전송 매체를 통하여 제공된다.
그리고, 프로그램은 리무버블 미디어(211)를 드라이브(210)에 장착함으로써, 입출력 인터페이스(205)를 통하여 기록부(208)에 인스톨할 수 있다. 또한, 프로그램은 유선 또는 무선의 전송 매체를 통하여 통신부(209)에서 수신하고, 기록부(208)에 인스톨할 수 있다. 그 외, 프로그램은 ROM(202)이나 기록부(208)에 미리 인스톨해 둘 수 있다.
또한, 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서를 따라 시계열로 처리가 행해지는 프로그램이어도 되고, 병렬로 혹은 호출이 행해졌을 때 등의 필요한 타이밍에서 처리가 행해지는 프로그램이어도 된다.
또한, 본 발명의 실시 형태는 상술한 실시 형태에 한정되는 것이 아니며, 본 발명의 요지를 일탈하지 않는 범위에 있어서 다양한 변경이 가능하다.
11: 재생 장치
21: 이어폰
22: 본체
31-1, 31-2, 31: 수음부
34-1, 34-2, 34: 판별부
35: 제어부
39: 재생 제어부
61: 저역 필터 처리부
62: 저역 최대값 산출부
63: 저역 실효값 산출부
64: 고역 필터 처리부
65: 고역 최대값 산출부
66: 고역 실효값 산출부
67: 제로 크로스값 산출부
68: 판별 처리부

Claims (18)

  1. 주위의 음성을 수음하는 수음부와,
    상기 수음부에 의해 수음된 상기 음성의 최대값과 실효값을 사용하여, 상기 수음부가 두드려졌는지의 여부를 판별하는 판별 수단과,
    상기 수음부가 두드려졌다고 판별된 경우, 소정의 처리를 실행하는 실행 수단을 구비하는, 제어 장치.
  2. 제1항에 있어서, 상기 실행 수단은, 상기 판별 수단에 의한 판별 결과에 기초하여, 소정 시간 내에 상기 수음부가 두드려진 횟수를 특정하고, 특정된 상기 횟수에 대하여 정해진 처리를 실행하는, 제어 장치.
  3. 제1항에 있어서, 상기 실행 수단은, 복수의 상기 수음부 중 두드려진 상기 수음부에 의해 정해지는 처리를 실행하는, 제어 장치.
  4. 제1항에 있어서, 상기 판별 수단은, 상기 최대값에 대한 임계값 처리의 결과와, 상기 실효값에 대한 임계값 처리의 결과에 기초하여, 상기 수음부가 두드려졌는지의 여부를 판별하는, 제어 장치.
  5. 제4항에 있어서, 상기 최대값에 대한 임계값 처리에 사용되는 임계값 및 상기 실효값에 대한 임계값 처리에 사용되는 임계값은, 판별 분석 또는 SVM에 의해 미리 정해지는, 제어 장치.
  6. 제4항에 있어서, 상기 판별 수단은, 상기 음성의 소정 주파수보다도 높은 주파수의 고역 성분의 최대값이 제1 임계값 미만인 경우, 상기 수음부가 두드려져 있지 않다고 판별하고, 상기 음성의 상기 고역 성분보다도 낮은 주파수의 저역 성분의 최대값이 제2 임계값 미만인 경우, 상기 수음부가 두드려져 있지 않다고 판별하는, 제어 장치.
  7. 제6항에 있어서, 상기 판별 수단은,
    상기 고역 성분의 시간 방향의 복수 구간의 각각에 대하여, 상기 고역 성분의 구간의 실효값이 구간마다 정해진 제3 임계값 이하인지의 여부를 판정하고, 실효값이 상기 제3 임계값을 초과하는 상기 고역 성분의 구간이 있는 경우, 상기 수음부가 두드려져 있지 않다고 판별하고,
    상기 저역 성분의 시간 방향의 복수 구간의 각각에 대하여, 상기 저역 성분의 구간의 실효값이 구간마다 정해진 제4 임계값 이상인지의 여부를 판정하고, 실효값이 상기 제4 임계값 미만으로 되는 상기 저역 성분의 구간이 있는 경우, 상기 수음부가 두드려져 있지 않다고 판별하는, 제어 장치.
  8. 제7항에 있어서, 상기 고역 성분의 복수 구간의 각각은 서로 다른 길이의 구간으로 되고, 상기 저역 성분의 복수 구간의 각각은 서로 다른 길이의 구간으로 되는, 제어 장치.
  9. 제7항 또는 제8항에 있어서, 상기 판별 수단은, 또한 상기 고역 성분의 절대값이 시간 방향의 특정 위치에 있어서 최대로 되는지의 여부를 판정하고, 상기 절대값이 상기 특정 위치에 있어서 최대로 되지 않는 경우, 상기 수음부가 두드려져 있지 않다고 판별하는, 제어 장치.
  10. 제9항에 있어서, 상기 판별 수단은, 또한 상기 음성의 제로 크로스값이 제5 임계값 이하인지의 여부를 판정하고, 상기 제로 크로스값이 상기 제5 임계값을 초과하는 경우, 상기 수음부가 두드려져 있지 않다고 판별하는, 제어 장치.
  11. 제6항에 있어서, 상기 판별 수단은, 상기 고역 성분의 시간 방향의 복수 구간의 각각의 실효값의 선형합이 제6 임계값 이하인지의 여부를 판정하고, 상기 선형합이 상기 제6 임계값을 초과하는 경우, 상기 수음부가 두드려져 있지 않다고 판별하는, 제어 장치.
  12. 제6항에 있어서, 상기 판별 수단은, 상기 고역 성분의 시간 방향의 복수 구간의 각각의 실효값의 대수값의 선형합이 제7 임계값 이하인지의 여부를 판정하고, 상기 선형합이 상기 제7 임계값을 초과하는 경우, 상기 수음부가 두드려져 있지 않다고 판별하는, 제어 장치.
  13. 제6항에 있어서, 상기 판별 수단은, 상기 저역 성분의 시간 방향의 복수 구간의 각각의 실효값의 선형합이 제8 임계값 이하인지의 여부를 판정하고, 상기 선형합이 상기 제8 임계값을 초과하는 경우, 상기 수음부가 두드려져 있지 않다고 판별하는, 제어 장치.
  14. 제6항에 있어서, 상기 판별 수단은, 상기 저역 성분의 시간 방향의 복수 구간의 각각의 실효값의 대수값의 선형합이 제9 임계값 이하인지의 여부를 판정하고, 상기 선형합이 상기 제9 임계값을 초과하는 경우, 상기 수음부가 두드려져 있지 않다고 판별하는, 제어 장치.
  15. 제6항에 있어서, 상기 판별 수단은, 상기 고역 성분의 시간 방향의 복수 구간의 각각의 실효값의 대수값의 선형합과, 상기 저역 성분의 시간 방향의 복수 구간의 각각의 실효값의 대수값의 선형합의 합이 제10 임계값 이하인지의 여부를 판정하고, 상기 합이 상기 제10 임계값을 초과하는 경우, 상기 수음부가 두드려져 있지 않다고 판별하는, 제어 장치.
  16. 제1항에 있어서, 상기 수음부는 이어폰에 설치되어 있는, 제어 장치.
  17. 주위의 음성을 수음하는 수음부와,
    상기 수음부에 의해 수음된 상기 음성의 최대값과 실효값을 사용하여, 상기 수음부가 두드려졌는지의 여부를 판별하는 판별 수단과,
    상기 수음부가 두드려졌다고 판별된 경우, 소정의 처리를 실행하는 실행 수단을 구비하는 제어 장치의 제어 방법으로서,
    상기 수음부가 상기 음성을 수음하고,
    상기 판별 수단이 상기 수음부가 두드려졌는지의 여부를 판별하고,
    상기 실행 수단이 상기 판별 수단에 의한 판별 결과에 따라 상기 소정의 처리를 실행하는 스텝을 포함하는, 제어 방법.
  18. 수음부에 주위의 음성을 수음시키고,
    상기 수음부에 의해 수음된 상기 음성의 최대값과 실효값을 사용하여, 상기 수음부가 두드려졌는지의 여부를 판별하고,
    상기 수음부가 두드려졌다고 판별된 경우, 소정의 처리를 실행하는 스텝을 포함하는 처리를 컴퓨터에 실행시키는, 프로그램.
KR1020117018142A 2009-12-11 2010-12-02 제어 장치 KR101669302B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009281964A JP5515709B2 (ja) 2009-12-11 2009-12-11 制御装置および方法、並びにプログラム
JPJP-P-2009-281964 2009-12-11
PCT/JP2010/071606 WO2011070971A1 (ja) 2009-12-11 2010-12-02 制御装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
KR20120111917A true KR20120111917A (ko) 2012-10-11
KR101669302B1 KR101669302B1 (ko) 2016-10-25

Family

ID=44145516

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117018142A KR101669302B1 (ko) 2009-12-11 2010-12-02 제어 장치

Country Status (7)

Country Link
US (1) US9053709B2 (ko)
EP (1) EP2386943B1 (ko)
JP (1) JP5515709B2 (ko)
KR (1) KR101669302B1 (ko)
CN (1) CN102308277B (ko)
BR (1) BRPI1007881A2 (ko)
WO (1) WO2011070971A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140143611A (ko) * 2013-06-07 2014-12-17 엘지전자 주식회사 이어 마이크가 장착되는 이동 단말기 및 그 동작방법
KR101486194B1 (ko) * 2014-06-09 2015-02-11 박미경 이어폰을 이용한 입력 방법 및 장치

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9599981B2 (en) 2010-02-04 2017-03-21 Echostar Uk Holdings Limited Electronic appliance status notification via a home entertainment system
JP5352634B2 (ja) * 2011-07-11 2013-11-27 株式会社エヌ・ティ・ティ・ドコモ 入力装置
CN102435885B (zh) * 2011-10-09 2013-09-11 绵阳市维博电子有限责任公司 一种道岔转辙机动作电压检测方法、设备和系统
US9772612B2 (en) 2013-12-11 2017-09-26 Echostar Technologies International Corporation Home monitoring and control
US9900177B2 (en) 2013-12-11 2018-02-20 Echostar Technologies International Corporation Maintaining up-to-date home automation models
US9769522B2 (en) 2013-12-16 2017-09-19 Echostar Technologies L.L.C. Methods and systems for location specific operations
US9723393B2 (en) 2014-03-28 2017-08-01 Echostar Technologies L.L.C. Methods to conserve remote batteries
US9621959B2 (en) 2014-08-27 2017-04-11 Echostar Uk Holdings Limited In-residence track and alert
US9824578B2 (en) 2014-09-03 2017-11-21 Echostar Technologies International Corporation Home automation control using context sensitive menus
US9989507B2 (en) 2014-09-25 2018-06-05 Echostar Technologies International Corporation Detection and prevention of toxic gas
US9983011B2 (en) 2014-10-30 2018-05-29 Echostar Technologies International Corporation Mapping and facilitating evacuation routes in emergency situations
US9511259B2 (en) 2014-10-30 2016-12-06 Echostar Uk Holdings Limited Fitness overlay and incorporation for home automation system
US9967614B2 (en) 2014-12-29 2018-05-08 Echostar Technologies International Corporation Alert suspension for home automation system
US9729989B2 (en) 2015-03-27 2017-08-08 Echostar Technologies L.L.C. Home automation sound detection and positioning
CN106067996B (zh) * 2015-04-24 2019-09-17 松下知识产权经营株式会社 语音再现方法、语音对话装置
US9948477B2 (en) 2015-05-12 2018-04-17 Echostar Technologies International Corporation Home automation weather detection
US9946857B2 (en) 2015-05-12 2018-04-17 Echostar Technologies International Corporation Restricted access for home automation system
US9632746B2 (en) * 2015-05-18 2017-04-25 Echostar Technologies L.L.C. Automatic muting
US9960980B2 (en) 2015-08-21 2018-05-01 Echostar Technologies International Corporation Location monitor and device cloning
US10589051B2 (en) 2015-10-20 2020-03-17 Steven Salter CPAP compliance notification apparatus and method
US9996066B2 (en) 2015-11-25 2018-06-12 Echostar Technologies International Corporation System and method for HVAC health monitoring using a television receiver
US10101717B2 (en) 2015-12-15 2018-10-16 Echostar Technologies International Corporation Home automation data storage system and methods
US9743170B2 (en) 2015-12-18 2017-08-22 Bose Corporation Acoustic noise reduction audio system having tap control
US9798309B2 (en) 2015-12-18 2017-10-24 Echostar Technologies International Corporation Home automation control based on individual profiling using audio sensor data
US10110987B2 (en) * 2015-12-18 2018-10-23 Bose Corporation Method of controlling an acoustic noise reduction audio system by user taps
US9930440B2 (en) 2015-12-18 2018-03-27 Bose Corporation Acoustic noise reduction audio system having tap control
US10091573B2 (en) 2015-12-18 2018-10-02 Bose Corporation Method of controlling an acoustic noise reduction audio system by user taps
US10091017B2 (en) 2015-12-30 2018-10-02 Echostar Technologies International Corporation Personalized home automation control based on individualized profiling
US10060644B2 (en) 2015-12-31 2018-08-28 Echostar Technologies International Corporation Methods and systems for control of home automation activity based on user preferences
US10073428B2 (en) 2015-12-31 2018-09-11 Echostar Technologies International Corporation Methods and systems for control of home automation activity based on user characteristics
US9628286B1 (en) 2016-02-23 2017-04-18 Echostar Technologies L.L.C. Television receiver and home automation system and methods to associate data with nearby people
US9882736B2 (en) 2016-06-09 2018-01-30 Echostar Technologies International Corporation Remote sound generation for a home automation system
US10294600B2 (en) 2016-08-05 2019-05-21 Echostar Technologies International Corporation Remote detection of washer/dryer operation/fault condition
US10049515B2 (en) 2016-08-24 2018-08-14 Echostar Technologies International Corporation Trusted user identification and management for home automation systems
WO2018167901A1 (ja) * 2017-03-16 2018-09-20 ヤマハ株式会社 ヘッドフォン
CN106814670A (zh) * 2017-03-22 2017-06-09 重庆高略联信智能技术有限公司 一种河道采砂智能监管方法及系统
US10354641B1 (en) 2018-02-13 2019-07-16 Bose Corporation Acoustic noise reduction audio system having tap control
CN112468918A (zh) * 2020-11-13 2021-03-09 北京安声浩朗科技有限公司 主动降噪方法、装置、电子设备以及主动降噪耳机

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6772094B2 (en) * 2000-10-23 2004-08-03 James Tyson Sound-based vessel cleaner inspection
JP2004340706A (ja) * 2003-05-15 2004-12-02 Toshiba Mitsubishi-Electric Industrial System Corp 機器の診断装置
JP2005250584A (ja) * 2004-03-01 2005-09-15 Sharp Corp 入力装置
JP2006323943A (ja) * 2005-05-19 2006-11-30 Sony Corp 再生装置,プログラム及び再生制御方法
KR100677613B1 (ko) * 2005-09-09 2007-02-02 삼성전자주식회사 멀티미디어 기기의 동작을 제어하는 방법 및 그 장치
JP2008054103A (ja) * 2006-08-25 2008-03-06 Nec Corp 携帯電子機器及びその制御方法
CN100555353C (zh) * 2006-08-28 2009-10-28 日本胜利株式会社 电子设备的控制装置及电子设备的控制方法
JP4997962B2 (ja) * 2006-12-27 2012-08-15 ソニー株式会社 音声出力装置、音声出力方法、音声出力処理用プログラムおよび音声出力システム
JP4671055B2 (ja) * 2007-11-26 2011-04-13 セイコーエプソン株式会社 叩きコマンド処理システム、電子機器の操作システム及び電子機器

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140143611A (ko) * 2013-06-07 2014-12-17 엘지전자 주식회사 이어 마이크가 장착되는 이동 단말기 및 그 동작방법
KR101486194B1 (ko) * 2014-06-09 2015-02-11 박미경 이어폰을 이용한 입력 방법 및 장치
WO2015190786A1 (ko) * 2014-06-09 2015-12-17 박미경 이어폰을 이용한 입력 방법 및 장치

Also Published As

Publication number Publication date
WO2011070971A1 (ja) 2011-06-16
KR101669302B1 (ko) 2016-10-25
JP5515709B2 (ja) 2014-06-11
EP2386943A1 (en) 2011-11-16
EP2386943A4 (en) 2012-08-01
EP2386943B1 (en) 2018-11-14
CN102308277A (zh) 2012-01-04
CN102308277B (zh) 2015-03-25
US20110295396A1 (en) 2011-12-01
BRPI1007881A2 (pt) 2016-02-23
US9053709B2 (en) 2015-06-09
JP2011123751A (ja) 2011-06-23

Similar Documents

Publication Publication Date Title
KR20120111917A (ko) 제어 장치 및 방법, 및 프로그램
JP4640461B2 (ja) 音量調整装置およびプログラム
US10523168B2 (en) Method and apparatus for processing an audio signal based on an estimated loudness
US8170879B2 (en) Periodic signal enhancement system
KR101063032B1 (ko) 노이즈 저감 방법 및 장치
US7610196B2 (en) Periodic signal enhancement system
JP4640463B2 (ja) 再生装置、表示方法および表示プログラム
US20060089958A1 (en) Periodic signal enhancement system
US7558636B2 (en) Apparatus and method for adaptive signal characterization and noise reduction in hearing aids and other audio devices
JP5493611B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN112004177B (zh) 一种啸叫检测方法、麦克风音量调节方法及存储介质
JP2012027186A (ja) 音声信号処理装置、音声信号処理方法及びプログラム
JP2010021627A (ja) 音量調整装置、音量調整方法および音量調整プログラム
US9754606B2 (en) Processing apparatus, processing method, program, computer readable information recording medium and processing system
US8103504B2 (en) Electronic appliance and voice signal processing method for use in the same
US20110255710A1 (en) Signal processing apparatus, signal processing method, and program
JP4623124B2 (ja) 楽曲再生装置、楽曲再生方法および楽曲再生プログラム
JP2001188599A (ja) オーディオ信号復号装置
US8242836B2 (en) Acoustic characteristic control apparatus

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant