KR102087832B1 - 데이터베이스를 생성하기 위한 방법 및 장치 - Google Patents

데이터베이스를 생성하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR102087832B1
KR102087832B1 KR1020187003083A KR20187003083A KR102087832B1 KR 102087832 B1 KR102087832 B1 KR 102087832B1 KR 1020187003083 A KR1020187003083 A KR 1020187003083A KR 20187003083 A KR20187003083 A KR 20187003083A KR 102087832 B1 KR102087832 B1 KR 102087832B1
Authority
KR
South Korea
Prior art keywords
signal
database
noise
creating
parameters
Prior art date
Application number
KR1020187003083A
Other languages
English (en)
Other versions
KR20180025921A (ko
Inventor
토마스 스푀러
토비아스 클라우스
유디트 리베트라우
사라 케플링거
디트마르 케플링거
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20180025921A publication Critical patent/KR20180025921A/ko
Application granted granted Critical
Publication of KR102087832B1 publication Critical patent/KR102087832B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Abstract

본 발명의 실시 예는 데이터베이스를 생성하는 방법을 제공한다. 이 방법은 예를 들어 방해 잡음을 포함하는 "환경 잡음을 수신하는 단계", 및 예를 들어 30초 또는 60초, 또는 바람직하게는 5초 이상과 같은 "이동 시간 윈도우동안 환경 잡음을 버퍼링하는 단계"를 포함한다. 대안적으로, 이 방법은 "환경 잡음에 대한 파라미터들의 집합을 도출하는 단계" 그리고 "이동 시간 윈도우동안 파라미터들의 집합을 버퍼링하는 단계"를 포함할 수도 있다. 버퍼링된 환경 잡음 또는 버퍼링된 파라미터들의 집합은 일반적으로 기록으로 언급된다. 또한, 이 방법은 환경 잡음에서의 복수의 신호 클래스들 (방해 잡음 및 비-방해 잡음) 중 (방해 잡음과 같은) 하나의 신호 클래스를 식별하는 "신호를 획득하는 단계"를 포함한다. 세 번째 기본 단계는 내부 또는 외부 메모리와 같은 메모리에 "신호에 응답하여 버퍼링된 기록을 저장하는 단계"이다. 이러한 획득 및 저장 단계는 동일한 신호 클래스에 대한 복수의 버퍼링된 기록들을 포함하는 데이터베이스를 설정하기 위해 반복된다.

Description

데이터베이스를 생성하기 위한 방법 및 장치{Method and device for generating a database}
본 발명의 실시 예들은 복수의 신호 클래스들의 버퍼링된 기록들을 가지는 데이터베이스를 생성하기 위한 방법 및 장치에 관한 것이다.
잡음(noise)들은, 예를 들면, 방해 잡음들 및 비-방해 잡음들과 같은 신호 클래스들로 세분될 수 있다. 예를 들면, 더 방해되는 잡음들 및 덜 방해되는 잡음들로의 세분화도 고려할 수 있다.
방해 잡음들은 분류하기가 항상 쉬운 것은 아니다. 잡음이 방해 잡음으로 인식되는지에 영향을 미치는 여러 요소가 있음을 아는 것이 중요하다. 지저귀는 소리가 크고(객관적인 측정 가능한 파라미터: 음압 수준) 다른 환경 잡음들과 분명히 구별되는 (객관적인 측정 가능한 파라미터: 역학 요인) 경우에도 새는 주관적으로 방해 잡음으로 인식되지 않는다. 그러나 상당히 조용한 비행기 통과는 방금 언급한 새보다 더 많은 시험자에의해 방해 잡음으로 인식될 수 있다.
그 결과로 예를 들어 현재 접근법을 사용하여 잡음 평가를 예측하기 위해 방해 잡음에 대해 호텔, 직장 또는 호텔의 웰빙 구역과 같은 환경을 조사할 때에, 시험자에게 평가를 맡겨야 한다는 것이다.
예를 들어, 절대적인 음량이나 볼륨 또는 레벨 증가에 대한 순전히 자동화된 평가는 첫 번째 힌트로 사용될 수 있지만 최종 평가에는 충분하지 않다. 따라서, 개선된 접근이 필요하다.
본 발명의 목적은 주관적인 방해 잡음들과 같은 잡음들을 분류하기 위한 개념을 제공하는 것이다.
이 목적은 독립항의 주요 특징에 의해 달성될 수 있다.
주요 양태
본 발명의 실시 예는 데이터베이스를 생성하는 방법을 제공한다. 이 방법은 예를 들어 방해 잡음을 포함하는 "환경 잡음을 수신하는 단계", 및 예를 들어 30초 또는 60초, 또는 바람직하게는 5초 이상과 같은 "이동 시간 윈도우(migrating time window)동안 환경 잡음을 버퍼링하는 단계"를 포함한다. 대안적으로, 이 방법은 "환경 잡음에 대한 파라미터들의 집합을 도출하는 단계" 그리고 "이동 시간 윈도우동안 파라미터들의 집합을 버퍼링하는 단계"를 포함할 수도 있다. 버퍼링된 환경 잡음 또는 버퍼링된 파라미터들의 집합은 일반적으로 기록으로 언급된다. 또한, 이 방법은 환경 잡음에서의 복수의 신호 클래스들 (방해 잡음 및 비-방해 잡음) 중 (방해 잡음과 같은) 하나의 신호 클래스를 식별하는 "신호를 획득하는 단계"를 포함한다. 세 번째 기본 단계는 내부 또는 외부 메모리와 같은 메모리에 "신호에 응답하여 버퍼링된 기록을 저장하는 단계"이다. 이러한 획득 및 저장 단계는 동일한 신호 클래스에 대한 복수의 버퍼링된 기록들을 포함하는 데이터베이스를 설정하기 위해 반복된다.
본 발명의 실시 예들은 환경에서 관련 위치를 지속적으로 기록하고 저장하는 장치를 사용하여, 나중에 소리 시퀀스(sound sequence)와 같은 것은 인식하는 것이 가능하도록 기록 또는 기록의 오디오 핑거프린트 또는 심리음향 파라미터와 같은 특성이 저장되는 데이터베이스를 형성하는 것이 가능하다는 발견에 기초한다. 여기서, "주관적으로 방해 잡음 또는 클래스의 잡음을 인식하는" 단계는 예시적으로 버튼, 키(key) 또는 다른 입력 인터페이스를 사용하여 방해 잡음 또는 신호 클래스를 식별하거나 표시하는 사람에 의해 수행된다. 예를 들면, 이 신호는 데이터베이스가 형성되도록 현재 연속적으로 런닝(running)되고 메모리에 저장되는 시퀀스로부터 시퀀스를 자르거나 또는 특성을 추출하기위한 표시자로서 사용된다. 따라서, 나중에 주관적인 잡음 인지의 예측을 가능케하는 방해 잡음 또는 소리(sound)를 기술하는 파라미터를 모호하지 않게 연관시키는 분류자의 라이브러리를 쉽게 설정할 수 있다.
실시 예들에 따르면, 주관적 방해 잡음은 볼륨, 다이내믹(dynamic), 규모(extent), 다이내믹스의 증가, 주파수 스펙트럼, 단조 또는 반복적인 특성과 같은 개별 파라미터들을 포함하는 오디오 핑거프린트와 같은 파라미터에 의해, 또는 선명도, 거칠기(roughness), 음조(tonality), 변화 강도 또는 볼륨과 같은 심리음향 파라미터에의해 기술될 수 있다. 따라서, 다른 실시 예에 따르면, 상기 방법은 상기 버퍼링된 기록에 대한 오디오 핑거프린트를 결정하는 단계 또는 심리음향 파라미터를 결정하는 단계를 포함한다. 일반적으로 기록 또는 오디오 핑거프린트가 데이터베이스에 저장되는 것으로 충분한 반면에 심리음향 파라미터는 추가 정보를 나타낸다. 오디오 핑거프린트를 사용하면 기록을 저장하는 것이 익명화된 방식으로 이루어지는 이점이 있다.
버튼과 같은 사용자 인터페이스로부터 신호를 얻는 개별 단계에서, 현재 식별된 제어 잡음을 주관적으로 평가하는 다른 대안 또는 추가 신호가 또한 획득될 수 있다. 이 주관적인 평가는 오디오 신호를 신호 클래스(방해가 더 적거나 또는 방해가 더 많은 것과 같은)에 할당하는 것에 대해 다룬다. 이 주관적 평가는 각 부분 또는 파라미터와 결합하여 저장된다.
다른 실시 예에 따르면, 타임스탬프는 상기 부분 또는 파라미터에 추가되어 저장될 수 있다. 또 다른 실시 예에 따르면, 예를 들어 GPS 수신기로부터의 현재 위치 정보를 저장하는 것을 고려할 수도 있다. 데이터베이스를 너무 크게 되지 않기 위해, 버퍼링될 데이터를 데이터-감축 방식으로 저장하는 것이 좋을 수 있다.
여기서, 일 실시 예에 따르면, 메모리 또는 데이터베이스는 방법을 실행하는 각각의 장치에 직접 포함되거나 또는 다른 실시 예에 따라 외부적으로 제공될 수 있다.
다른 실시 예는 대응하는 장치에 관한 것이다. 이 장치는 지속적으로 기록하기 위한 마이크로폰, 버퍼링을 위한 버퍼, 신호를 수신하기위한 인터페이스, 및 식별된 방해 잡음에 속하는 신호 클래스와 관련된 기록(오디오 파일, 오디오 핑거프린트 또는 심리음향 파라미터)을 저장하기 위한 다른 메모리를 포함한다. 다른 실시 예에 따르면, 장치는 주관적인 방해 잡음의 존재를 확인되기 위해 또는 일반적으로 잡음을 신호 클래스에 할당하기 위해 사용하는 버튼과 같은 입력 인터페이스를 포함할 수 있다. 입력 수단은, 예를 들어, 몇몇 신호 클래스들 중 하나를 분류하기 위한 방법에 의해, 즉 평가에 의해 확장될 수 있다. 또 다른 실시 예에 따르면, 상기 장치는 외부 메모리(외부 데이터베이스)가 연결되는 통신 인터페이스를 또한 포함할 수 있다.
추가 개선들이 종속항들에서 정의된다.
추가 양태
본 발명의 실시 예들은 복수의 신호 클래스들 (방해 잡음 및 비-방해 잡음과 같은) 중 (방해 잡음과 같은) 하나의 신호 클래스의 잡음을 인식하는 방법을 제공한다. 상기 방법은 "환경 잡음들을 수신하는 단계" 그리고 "환경 잡음들 또는 환경 잡음들로부터 도출된 파라미터들의 집합이 복수의 신호 클래스들 중 상기 신호 클래스를 기술하는 미리 정의된 규칙을 충족하는지 여부를 확립하는 단계"를 포함한다. 이를 시작으로, "미리 정의된 규칙이 충족되었음을 로깅하는 단계", "이동하는 시간 윈도우동안 수신된 환경 잡음을 기록하는 단계", "이동하는 시간 윈도우동안 환경 잡음으로부터 파라미터들의 집합을 도출하고 이 파라미터들의 집합을 저장하는 단계", 또는 "잡음을 인식하는 다른 장치를 위한 활성화 신호를 방출하는 단계"가 수행된다.
이 양태의 실시 예들은 현재의 잡음 환경을 데이터베이스로부터의 잡음 또는 오디오 핑거프린트(fingerprint)와 같은 데이터베이스에 저장되어 있거나 데이터베이스로부터 획득한 파라미터들과 비교함에 의한 것과 같이 상술한 방법에 따른 상술한 장치에 의하여 결정될 수 있는 데이터베이스로부터 시작하여, 주관적으로 인지된 방해 잡음들의 존재를 인식할 수 있다. 이 방법은 자동화된 방식으로 실행될 수 있고, 인간에 의한 어떤 주관적 평가의 수행없이 오롯이 저장된 데이터베이스만 사용하여 잡음 상황 평가 (새의 지저귀는 소리 대 에어컨)를 예측할 수 있다.
규칙의 매치(match)를 인식하는 것은 예를 들어 환경 잡음들을 이전에 버퍼링된 환경 잡음들과 비교하거나 또는 현재 도출된 파라미터 데이터 집합(오디오 핑거프린트)을 이전에 결정된 파라미터 데이터 집합과 비교하거나 또는 심리음향 파라미터를 도출하고 동일한 것에 대한 기 결정된 임계 값과 비교함으로써 수행될 수 있다.
다른 실시 예는 복수의 신호 클래스들 중 하나의 신호 클래스의 잡음을 인식하기위한 장치에 관한 것이다. 상기 장치는 현재의 환경 잡음들을 지속적으로 청취하는 마이크로폰, 현재의 환경 잡음을 (방해 잡음 또는 방해 잡음을 기술하는 파라미터를 기록하는) 데이터베이스에 저장된 데이터와 비교하는 프로세서, 및 현재 환경에서 방해 잡음이 확인되는 순간 정보를 출력하는 인터페이스를 포함한다. 여기서, 이전에 결정된 기록들과 같은 데이터 및 이전에 결정된 오디오 핑거프린트 또는 심리음향 파라미터에 대해 이전에 설정된 임계치는 내부적으로 저장되거나 또는 다른 실시 예에 따라, 추가 양태에 따라 결정될 수 있는 데이터베이스를 사용하여 외부에서 읽어 들여질 수 있다.
인식된 이러한 객관적인 방해 잡음 또는 신호 클래스로부터 시작하여, 정보는 추가적으로 시간 표시, 장소 표시 또는 방해 잡음을 복수의 클래스들(대응하는 방해 그룹: 약한 방해, 방해, 고도 방해) 중 하나로의 분류와 결합하여 또는 단독으로 처리될 수 있다. 바람직한 실시 예에 따르면, 이들 정보는 외부 데이터베이스로 출력된다.
이 실시 예에서는 위치 또는 이 하나의 위치의 평가만 제공되기 때문에, 또 다른 실시 예에 따라, 이러한 평가를 공간 또는 옥외 환경에서의 몇몇 위치, 즉 몇몇 이웃하는 위치(도시 전체에 분산된 것과 같이)와 같은 여러 위치로 확장하는 것을 고려할 수 있다. 따라서, 또 다른 실시 예는 두 개의 이웃 위치에 대해 "기록", "비교" 및 "출력"의 단계가 수신되는 방법을 제공한다. 2개의 이웃 위치에 대한 정보가 있는 경우, 예를 들어, 주관적으로 인지된 방해 잡음의 이동, 공간적 확장 또는 방향을 결정하기 위해 제1 및 제2 위치에 대한 기록 간의 관계가 결정될 수있다.
다른 실시 예에 따르면, 방해 잡음들을 인지하는 것과 유사하게, 제어 명령과 같은, 대응하는 제어 신호가 출력되는 다른 시퀀스를 인식하는 것도 또한 고려할 수 있다. 여기서, 제어 신호와 연관된 기록은 음성 명령이거나 또는 전술 한 바와 같이 방해 잡음으로 분류된 음향 신호일 수 있다. 예를 들면, 기록이 시작되기 위하여 그 자체로 상기 방법을 실행하는 장치에 의해 또는 제어 신호에 의해 기록 모드로 전환되는 다른 위치에 배치된 다른 장치와 같은 외부 장치에 의해 제어 신호가 출력된다.
다른 실시 예에 따르면, 상술된 장치는 이전에 결정된 방해 잡음 또는 파라미터를 읽기 위한 또는 방해 잡음에 대한 정보를 출력하기 위한 데이터베이스와 통신하기 위한 통신 인터페이스를 포함할 수 있다. 또 다른 실시 예에 따르면, 방해 잡음이 2개의 이웃 위치들에서 획득되고 그리고/또는 분석될 수 있도록 이 통신 인터페이스를 사용하여 장치가 다른 장치와 통신할 수 있다.
하위 양태의 실시 예는 신호 클래스의 잡음을 분석하는 방법을 제공한다. 상기 방법은 제1 및 제2 위치에서 현재의 환경 잡음을 지속적으로 기록하는 단계를 포함한다. 여기서 기록은 환경 잡음을 직접 기록하는 것 또는 오디오 핑거프린트나 심리음향 파라미터와 같은 환경 소음과 관련된 파라미터들의 집합에서 도출하는 것을 의미한다. 또한, 각 기록에 대해, 주관적으로 인지된 방해 잡음 또는 방해 잡음을 기술하는 파라미터의 이전에 획득된 기록과의 비교가 각 위치 (제1 및 제2 위치)에 대한 방해 잡음을 식별하기 위해 수행된다. 예를 들어 그 위치, 확장, 또는 이동에 대해 더 정밀하게 결과적인 방해 잡음을 분석할 수 있도록 기록들간의 관계가 상이한 위치에서 하나의 방해 잡음을 포함하는 2개의 기록 (제1 및 제2 기록)으로부터 결정될 수 있다.
이 양태의 실시 예는 두 개의 서로 다른 위치에서 하나의 동일한 방해 잡음의 2개의 기록의 관계를 사용하여 방해 잡음 자체에 대한 확장된 정보를 획득하는 것이 가능하다는 발견에 기초한다. 여기서, 처음에는 각각의 환경 (즉, 제1 위치 및 제2 위치)에서의 방해 잡음이 식별되고, 식별되었을 때, 서로 관련된다. 이점으로서, 방해 잡음의 이동 또는 방해 잡음의 확장 또는 방해 잡음의 전파 방향에 관한 정보를 획득하는 것이 가능하다. 또한, 지역 방해 잡음, 즉 한 위치에서만의 방해 잡음과 전역 사건, 즉 여러 위치에서 발생하는 전역 사건 사이를 구별하는 것도 가능하다. 이 방법을 사용하여 특징적인 잡음 사건들과 그들의 움직임의 전파를 인식할 수 있다.
실시 예들에 따라, 제1 및 제2 기록 간의 관계를 결정하는 단계는 제1 및 제2 기록 간의 레벨(level) 차이를 분석함으로써 수행된다. 선택적으로 또는 부가적으로, 2개의 상이한 위치에서 확립된 2개의 기록의 사건 사이의 시간 오프셋, 즉 지연 또는 런 타임 오프셋에 대해 관계를 결정하는 단계에서 수립되는 것이 가능할 수도 있다. 또한, 두 개의 기록은 주파수 및 홀 효과(Hall effect)의 차이와 관련하여 평가될 수 있다. 이러한 모든 분석 파라미터를 사용하면, 음은 일반적으로 거리가 증가할수록 감소하고 그리고/또는 상위 주파수가 상쇄되는 주파수 천이가 있기 때문에 잡음원과 기록 위치 사이의 거리를 결정할 수 있다.
다른 실시 예에 따르면, 상기 방법은 제1 및 제2 위치 사이의 거리에 대해 오디오 사건 또는 각각의 음원을 분석하는 단계, 주관적 방해 잡음원의 움직임에 대해 분석하는 단계, 및/또는 주관적 방해 잡음원의 양에 대해 분석하는 단계를 포함한다. 이들 3가지 분석은 제1 기록과 제2 기록 사이의 관계를 평가하는 것에 기초하는데 즉, 예를 들어 상술된 인자들을 비교하는 것에 기초한다.
이 양태에서, 지속적인 기록은 바람직하게는 이동 시간 윈도우를 사용하여 수행되는 것이 언급되어야 한다. 또한, 전술한 양태와 같이, 외부에서 비교할 잡음을 읽는 것도 고려할 수있다.
여기서, 상기 방법은 물론 제3 위치로 확장될 수 있다는 것이 지적되어야 한다.
이 양태에 따른 실시 예들에서, 기록은 방해 신호 전파의 시간적 분석이 가능하도록 방해 신호가 제1 위치에서 결정되었을 때에 제2 위치에서 기록이 시작될 수 있다.
또 다른 실시 예는 신호 클래스의 신호를 분석하는 시스템에 관한 것이다. 이 시스템은 현재의 환경 잡음들을 지속적으로 기록하기 위해 각각 하나의 마이크를 갖는 두 개의 유닛을 포함한다. 두 유닛은 이웃한 위치와 같이 다른 위치에 배치될 수 있다. 여기에서 다시 "기록"은 환경 잡음을 직접 기록하는 것과 오디오 핑거프린트와 같은 파라미터로부터 도출되는 것 모두를 의미한다. 또한, 시스템은 제1 또는 제2 유닛에 통합될 수 있고, 제1 및 제2 유닛의 제1 및 제2 기록을 신호 클래스의 신호의 이전에 획득한 적어도 하나의 기록/오디오 핑거프린트 또는 신호 클래스의 신호를 기술하는 파라미터와 비교함으로써 잡음을 식별하도록 구성된 적어도 하나의 프로세서를 포함한다. 또한, 프로세서는 제1 및 제2 기록 사이의 관계를 확립하도록 구성된다.
실시 예들에 따라, 2개의 유닛은 무선 인터페이스와 같은 통신 인터페이스를 경유하여 서로 연결될 수 있다.
다른 실시 예들에 따라 기술된 방법들 중 하나를 실행하기 위한 컴퓨터 프로그램이 제공된다.
이하, 본 발명의 실시 예들을 첨부 도면을 참조하여 상세히 설명한다.
도 1a는 기본 변형에서 "데이터베이스를 설정하는" 양태 1에 따른 방법을 설명하기 위한 흐름도이다.
도 1b는 양태 1에 따른 확장된 방법을 설명하기 위한 흐름도이다.
도 1c 내지 도 1f는 양태 1에 대한 장치의 변형들을 도시한다.
도 2a는 "신호 클래스의 잡음들을 인식하는" 양태 2의 대응하는 기본 변형의 방법을 설명하기 위한 흐름도이다.
도 2b는 양태 2의 확장된 실시 예의 흐름도이다.
도 2c는 양태 2의 장치의 개략적인 블록도이다.
도 3a는 "개별 신호 클래스들의 잡음을 분석하는" 양태 3의 기본 변형의 방법을 설명하기 위한 흐름도이다. 그리고
도 3b는 양태 3의 장치의 개략적인 블록도이다.
아래에서 본 양태들의 실시 예들을 더 상세하게 논의하기 전에, 그 설명이 상호 적용 가능하거나 상호 교환 가능하도록 동일한 효과의 요소들 및 구조들은 동일한 참조 번호로 제공된다.
도 1a는 "마이크로폰 (11) 및 신호(120) 수신을 사용하여 수신 및 기록(110)하는" 단계를 포함하는 데이터베이스를 설정하는 방법(100)을 도시한다. 신호 (120)가 수신된 경우 (결정 장소(125) 참조), 단계(110)의 기록은 단계(130)를 사용하여 도시된 것처럼 데이터베이스에 저장된다. 단계(130)는 기본적으로 기본 방법(100)의 끝을 나타낸다 (끝 (135) 참조).
"기록(110)하는" 단계에서, 기록할 때, 일반적으로 인코딩의 하위 단계가 있을 수 있다. 인코딩은 소위 오디오 핑거프린트, 즉 기록을 위한 특성 파라미터의 도출이 획득되도록 구현될 수도 있다. 이 오디오 핑거프린트는, 기록과 비교하였을 때, 강력하게 압축되어 익명으로 처리되며, 오디오 핑거프린트를 사용하여 유사한 잡음, 즉 동일한 클래스의 잡음을 여전히 인식할 수 있게 한다. 일반적으로, 오디오 핑거프린트는 후속하는 분류가 가능하도록 오디오 신호의 모든 필수 특징들을 나타내는 오디오 신호의 표현인 것으로 기술될 수 있다. 오디오 핑거프린트는 일반적으로 디코딩이 실제 오디오 신호를 형성할 만큼 충분하지 않고, 따라서 프라이버시(privacy)를 보호한다. 유사하게 또는 인코딩과 병행하여, 기록을 기술하는 심리음향 파라미터와 같은 파라미터를 도출하는 하위 단계가 있을 수 있다.
기록 프로세스(110)는 또한 링 버퍼(ring buffer)인 것으로 기술될 수 있는데, 기록이 일반적으로 반복하여 다시 기록되고, 따라서 예를 들어 120, 60 또는 30초, 또는 일반적으로 5초 이상과 같은 미리 결정된 기간에서 버퍼링되기 때문이다. 이 링 버퍼는 또한 프라이버시 요구사항이 충족된다는 장점도 제공합니다. 마지막 기간의 환경 잡음의 시간 윈도우는 단계(130)를 사용하여 신호(120)를 획득할 때 저장되거나 (예를 들어 데이터베이스와 같은) 다른 메모리에 최종적으로 저장되어, 나중에 이용 가능하게 될 것이다. 데이터베이스를 효과적으로 설정하기 위해, 방법(100)을 수행하는 것이 하나 또는 다른 신호 클래스들의 몇몇 신호들에 대해 반복된다.
이 방법(100)은 마이크로폰(11)에 의해 수신된 (즉, 기록된) 주관적 방해 잡음이 식별되는 데이터베이스를 설정하도록 한다. 식별은 사용자가 환경에서 방해 잡음을 인식하였을 때 버튼(12) (또는 일반적으로 사용자 입력 인터페이스(12))를 사용하여 "신호(120) 출력" 단계를 예를 들어 실행하는 사용자에 의해 수행되는 단계를 사용하여 이루어진다. 마이크로폰(11)이 환경 잡음을 청취하고 이들이 단계(110)에서 버퍼링되기 때문에, 이러한 방해 잡음은 버퍼링된 기록 또는 그 일부분이 데이터베이스를 설정하기 위한 영구 메모리에 저장될 수 있도록 기록된다 (단계 130 참조). 사용자에 의해 방해 잡음이 인식되지 않은 경우, 주관적 평가(결정 요소 (125))로부터 시작(101)까지의 화살표를 사용하여 도시된 방법이 반복될 것이다.
이 방법은 이러한 방식으로, 주관적으로 인지된 방해 잡음과 연관된 오디오 핑거프린트와 같은 복수의 기록 또는 파라미터를 포함하는 충분히 넓은 데이터베이스가 설정될 수 있다는 점에서 이점이 있다.
이러한 결과는 시간 윈도우에서 신호의 시간점의 의존성이라는 것을 여기서 지적해야 한다. 예를 들어, 의존성은 신호 시간에서의 시간 윈도우의 시작이 신호 시간 이전의 30 또는 60초와 같은 고정된 거리에 있다는 사실로부터 기인한다. 또한, 시간 윈도우의 끝은 또한 신호의 시간 및 시간 윈도우의 끝이 일치하거나 예를 들어 (신호 시간 전의 끝이) 5초의 시간 거리가 존재하도록 신호의 시간에 의존할 수도 있다. 일반적으로, 의존성은 기록 시간 윈도우가 항상 신호 시간에 선행하도록 선택되며, 신호는 또한 시간 윈도우 내에 있을 수 있다.
도 1b는 확장된 정보를 갖는 데이터베이스를 설정하는 것을 또한 허용하는 확장된 방법 (100')을 도시한다. 방법(100')은 일반적으로 방법(100)에 기초하고, 시작(101)과 끝(135)에 의하여 그 과정이 제한된다. 결과적으로, 방법(100')은 주관적 잡음 평가와 관련하여, 또는 일반적으로, (비방해 잡음, 약한 방해 잡음 및 고도 방해 잡음과 같은) 복수의 신호 클래스들로부터 시작하여 (방해 잡음과 같은) 신호 클래스로 수신된 신호의 할당과 관련하여 신호를 기록(110')하는 단계, 수신(120')하는 단계, 및 버퍼링된 기록(130)을 데이터베이스를 사용하는 것처럼 저장하는 단계의 기초 단계들을 포함한다. 또한, 단계들(130 및 120')은 결정 지점(125)을 통해 연결된다.
이 실시 예에서, 기록(110')하는 단계는 2개의 서브 단계, 즉 단계(110a') 및 단계(110b')로 세분된다. 단계(110a')는 예를 들어 거칠기, 선명도, 볼륨, 음조 및/또는 변화 강도와 같은 심리음향 파라미터들을 계산하는 것을 언급한다. 단계(110b')는 특징적인 특성을 오디오 핑거프린트를 사용하여 나중에 다시 인식할 수 있도록 기록을 기술하는 오디오 핑거프린트를 결정하는 단계로 축소된다.
주관적 잡음 평가의 단계(120')를 수행하기 위한 다른 입력 수단이 있을 수 있다. 이들은 "방법(100')을 실행하는 장치상의 키 또는 버튼 (참조 번호 12a' 참조)을 사용한 평가, 설문지를 사용한 주관적 잡음 평가의 연관 (참조 번호 12b' 참조), 또는 스마트 장치를 사용한 평가(참조 번호 12c' 참조)"이다. 이들 3개의 평가 변동(12a', 12b' 및 12c')은 주관적 잡음 평가(120')의 단계를 수행하기 위해 단독으로 또는 조합되어 사용될 수 있다. 평가가 있는 즉시 (결정 포인트 (125) 참조), 심리음향 파라미터 (참조 번호 110a' 참조) 및/또는 오디오 핑거프린트(참조 번호 110b' 참조)는 단계(130)에 도시된 것처럼 메모리에 저장된다.
다른 실시 예들에 따르면, 시간 및/또는 위치 정보가 순수한 파라미터들 또는 핑거 프린트 또는 오디오 기록의 일부에 추가될 수 있다. 이들은 대응하여 현재 위치를 결정하는 단계 및/또는 현재 시각을 결정하는 단계를 포함하는 다른 단계 (132)에서 비롯되고, 또한 단계(130)에서 저장된다.
데이터베이스가 설정되고 대응하는 크기를 가질 때 (단계 130 참조), 이는 단계 (132)에 도시된 바와 같이, 상관 또는 통계적 평가에 의해서와 같이 평가될 수 있다.
전술한 방법(100, 100')의 전형적인 적용 예는, 예를 들어 장치가 호텔 방에 위치하고 현재의 환경 소음을 감시하는 것이다. 호텔 손님이 호텔 방에서 평화롭고 조용하기를 원하지만 방해 잡음에 의하여 그렇게 할 수 없게 되었을 때에, 그 또는 그녀는 이 방해 잡음을 표시할 수 있다. 이것에 의해 달성할 수 있는 결과는 방이 너무 시끄럽지 않을 수도 있지만 손님이 잠들지 못하도록 하는 에어컨과 같은 특정 소음이 있을 수 있다는 것이다. 장치를 사용하여, 그 또는 그녀는 주관적 평가, 즉 "방해됨", "매우 방해됨" 또는 "고도로 방해됨"과 같은 신호 클래스로의 분류를 수행할 수 있다. 평가는 다른 파라미터를 사용하여 평가된 잡음 상황을 특징지을 수 있다. 마지막으로, 신호 클래스들 중 하나와 연관된 오디오 핑거프린트, 심리음향 파라미터 또는, 일반적으로, 기록이 데이터베이스에 저장된다.
장치의 세 개의 변형이 도 1c, 1d, 및 1e를 참조하여 이하 논의될 것이다.
도 1c는 제1 장치 변형 즉, 인터페이스 또는 무선 인터페이스를 통해 실제 신호 처리 유닛(도시되지 않음)에 연결되고 기본적으로 방해 신호 또는 특정 신호 클래스를 식별하기 위한 신호를 방출하도록 구성된 장치이다. 여기서, 본 실시 예의 장치(22)는 주관적 평가가 수행될 수 있는 2개의 버튼(24a, 24b)을 포함한다. 이들 버튼들(24a 및 24b)은 상이한 신호 클래스들과 연관된다.
장치(20)는 예를 들어, 앱에 통합된 가상 버튼들(24a 및 24b)을 포함하는 태블릿 컴퓨터, 스마트 워치(smart watch), 스마트폰과 같은 스마트 장치일 수 있다. 이 앱은 예를 들어 일반 품질에 대한 추가 정보를 호텔 손님과 같은 사용자로부터 수집할 수 있는 설문지가 포함될 수도 있습니다.
버튼 (24a 또는 24b)을 조작하는 때에, 환경 잡음을 버퍼링하거나 파라미터를 도출하거나 또는 이후 실제로 저장하는 방법이 실제의 데이터 수집 장치에서 수행된다. 이 외부 장치는 예를 들어 각각의 모니터링 장소에서 마이크로폰을 가진 서버일 수 있다.
도 1d는 환경 잡음을 수신하기 위한 내부 마이크로폰(26)이 버튼(24a, 24b)을 포함하는 장치(20')에 통합된 또 다른 변형을 도시한다. 부가적으로 또는 대안적으로, 외부 마이크 (26e)가 인터페이스를 통해 장치(20')에 연결될 수 있다.
도 1e는 입력 수단으로서의 버튼을 더 이상 포함하지 않고, 내부 마이크로폰 (26) 또는 선택적인 또는 대안적인 외부 마이크로폰(26e)만을 포함하는 장치(20")의 다른 변형을 도시하며, 신호 클래스의 환경 잡음과 연관될 수 있는 음성 명령을 사용하여 제어될 수 있다.
장치(20' 및 20")를 참조하면, 이 시점에서 몇 개의 외부 마이크로폰이 또한 연결될 수 있음을 주목해야 한다. 여기에는 정상적인 공기 전달 소리 외에 구조 전달 소리(structure-borne sound)도 기록될 수 있음이 고려될 수 있다. (각 장치가 구조 기반 소리 수신기를 포함함을 의미함).
도 1c 및 도 1d의 실시 예를 참조하면, 다른 버튼들 (24a 및 24b)은 또한 추가적인 버튼들에 의해 확장될 수 있다. 버튼들을 구별하기 위해, 빨간색 = 방해, 노란색 = 무관심, 녹색 = 매우 쾌적한 환경 잡음(후자는 예로서 새가 지저귀는 소리가 명확하게 들리지만 바람직한 잡음으로 인식될 때 적용된다)과 같은 색 코딩이 제공될 수 있다.
도 1c 내지 도 1d를 참고하면, 장치(20, 20' 및 20")는 소프트웨어 애플리케이션으로서, 그리고 스마트폰, 태블릿 컴퓨터 또는 스마트 워치와 같은 장치에 부가적으로 통합될 수 있다. 이러한 소프트웨어 애플리케이션은 다음 기능을 허용할 수 있다.
- 설문 기법 또는 다른 주관적 획득 기법에 의해 상술된 것처럼 잡음 품질의 탐지를 확장.
- 추가 장치에 있는 센서 시스템(마이크로폰, GPS, 경사 센서, 생체 피드백 기능)을 사용
- 데이터 통신을 위해 여기에서 개발된 장치에 무선 또는 해당되는 경우 기계적 연결.
- 여기에서 개발된 소프트웨어를 사용하여 여기에서 개발된 장치의 완전한 제어.
도 1f는 장치(20"')의 구성 요소를 도시한다. 장치(20"')는 마이크로폰(26), 마이크로폰을 교정하기 위한 선택적인 교정 수단(26k), 및 처리 유닛(42) 및 메모리(44)를 포함한다.
처리 수단(42)은 오디오 파일을 코딩하거나 오디오 핑거프린트를 도출하기 위한 전-처리 (46) 및 심리음향 파라미터를 결정하기 위한 유닛(48)을 포함한다. 전-처리(46)의 메타 데이터 및 유닛(48)의 심리음향 파라미터 모두는 메모리(44)에 기록된다. 또한, 오디오 신호는 저장될 수 있는데 예를 들어 버튼에 의해 제어되는 유닛(49)에 의해 메모리(44)에 보다 정확하게 저장될 수 있다.
교정 수단(26k)은 정의된 감도 값을 모든 센서들에 제공하는 역할을 한다. 여기서, 예를 들어, 스위치, 주파수 응답 또는 압축의 측정 또는 기록이 사전에 수행된다.
저장된 오디오 샘플, 메타 데이터 (심리음향 파라미터의 오디오 핑거프린트) 및 도 1c 내지 1d의 입력 수단 중 하나에 의한 표시로부터 시작하여, 데이터 분석기(50)에 의한 실제 데이터 분석 및 개별 신호 클래스들에 대한 연관이 수행될 수 있다.
여기서, 장치는 전형적으로 배터리 또는 축전지를 사용하여 전력이 공급될 수 있는 전형적으로 모바일 장치일 수 있다. 대안으로, 종래의 전원 공급 장치가 또한 실현 가능할 것이다. 기록들을 저장하기 위해, 장치는 (SD 카드와 같은) 휴대용 메모리 매체 또는 서버로의 연결과 같은 메모리 매체를 포함할 수도 있다. 이 서버로의 연결은 유선 또는 유리 섬유 인터페이스 또는 무선 인터페이스를 통해 이루어진다. 프로토콜 수준에서는, 이것을 수행하는 다른 방법들이 있으며 여기서는 더 자세히 설명하지 않는다.
개선된 평가성를 위해, 장치는 또한 예를 들어, 시간 코드 또는 세계 시계와 같은 다른 장치와의 정확한 동기화를 위한 수단을 포함할 수 있다. 또한, 어떤 방해 잡음이 어느 위치에서 결정되었거나 방해되는 것으로 인식되었는지를 결정하기 위해 장치가 GPS 수신기와 같은 위치 결정 유닛과 결합하거나, 또는 장치가 통합된 위치 결정 유닛을 가지는 것이 고려될 수 있다.
다른 실시 예와 관련하여, 방법(100 또는 100')은 또한 사전 교정(교정 수단(26k) 참조)을 포함할 수 있다. 이것은, 실시 예와 관련하여, 전술한 방법(100 또는 100')이 교정 단계를 포함함을 의미한다.
양태 1과 관련하여, 실시 예들에 대응하여, 모든 장치들이 데이터를 감소시키기 위해 측정 데이터의 데이터 감축된 기록을 수행하는 것도 고려될 수 있다. 데이터 감소는 또한 장기 측정과 관련하여 이점이 될 수 있다. 심리음향 파라미터 (거칠기, 선명도, 음조 등) 또는 오디오 핑거프린트와 같은 파라미터만이 기본적으로 기록되도록 감시 데이터가 항상 압축될 수 있기 때문에 압축 또는 오류의 정도에 따라 프라이버시가 보호되는 것을 보장할 수 있다. 기록 또는 오디오 핑거프린트 또는 심리 음향 파라미터만을 사용할지에 대한 정확한 결정은 본질적으로 데이터 및 소비자 보호에 대한 법적 프레임 조건에 의해 영향을 받는다는 것을 여기서 다시 지적합니다.
전술한 바와 같이, 소위 "오디오 핑거프린트"가 사용되며, 이하에서 더욱 상세히 설명되는 이것의 상이한 변형들이 있다. 특징 또는 핑거프린트를 오디오 신호로부터 추출하는데 사용하는 다수의 방법이 이미 알려져 있다. 미국 특허 제5,918,223호는 오디오 정보의 내용-기반 분석, 저장, 복구 및 분할을 위한 방법을 개시한다. 오디오 데이터의 분석은, 특징 벡터(feature vector)로서 칭해지는, 개별 오디오 조각 사이의 유사성을 분류하고 순위를 매기는 데 사용할 수 있는 일련의 수치 값을 생성한다. 오디오 조각의 조각 볼륨, 피치(pitch), 톤의 밝기(brightness of tones), 대역폭 및 소위 MFCC(Mel-Frequency Cepstral Coefficients)가 오디오 조각을 특징짓거나 분류하기 위한 특징으로서 사용된다. 블록 또는 프레임당 값은 저장되고 다음으로 시간에 상대적인 1차 미분을 받는다. 시간의 경과에 따른 변화를 기술하기 위해, 이들의 1차 미분을 포함하면서 이들 특징의 각각의 평균치 또는 표준 편차와 같은 통계량이 값으로부터 계산된다. 이 통계량 집합이 특징 벡터를 형성한다. 따라서, 특징 벡터는 오디오 조각의 핑거프린트이고, 데이터베이스에 저장될 수 있다.
전문가 논문 "Multimedia Content Analysis"(Yao Wang 외, IEEE Signal Processing Magazine, November 2000, 페이지 12~36)는 멀티미디어 조각의 색인 및 특성화를 위한 유사한 개념을 개시한다. 오디오 신호를 특정 클래스에 효율적으로 연관시키기 위해 많은 특징과 분류기가 개발되어왔다. 시간 범위 특징들 또는 주파수 범위 특징들이 멀티미디어 조각의 콘텐츠를 분류하기 위한 특징으로서 제안되었다. 이것들은 볼륨, 오디오 신호 형태의 기본 주파수로서의 피치, 전체 에너지 내용에 대한 밴드의 에너지 내용, 스펙트럼 과정에서의 차단 주파수 및 기타 등등과 같은 스펙트럼 특징을 포함한다. 소위 오디오 신호의 샘플 블록당 크기와 관련된 단시간 특징 외에도 더 긴 기간의 오디오 조각과 관련된 장기간(long-term) 양이 제안되었다. 더 전형적인 특징들은 각 특징의 시간차를 형성함으로써 형성된다. 블록에서 획득한 특징들은 너무 높은 데이터 속도를 나타내기 때문에 분류를 위해 그와 같이 직접 전달되는 경우는 거의 없다. 추가 처리의 하나의 종래 형태는 단기간(short-term) 통계치를 계산하는 것이다. 이 중에는, 예를 들면 평균값, 분산 및 시간 상관 계수를 계산하는 것이 있다. 이것은 데이터 속도를 감소시키고, 다른 한편으로는 오디오 신호의 인식을 향상시킨다.
WO 02/065782은 멀티미디어 신호를 형성하기 위해 핑거프린트를 형성하는 방법이 기재되어 있다. 이 방법은 오디오 신호로부터 하나 또는 다수의 특징을 추출하는 것에 관한 것이다. 여기에서 오디오 신호는 세그먼트로 분할되고 블록 및 주파수 대역에 대한 처리가 각 세그먼트에서 수행된다. 전력 밀도 스펙트럼의 에너지, 음조 및 표준 편차에 대한 대역 별 계산이 예제로 언급된다.
오디오 신호를 분류하기 위한 장치 및 방법이 DE10134471 및 DE10109648에 공지되어 있는데, 핑거프린트는 오디오 신호의 음조의 측정에 의해 획득된다. 여기의 핑거프린트는 오디오 신호의 강건하고, 내용에 기반한 분류를 허용한다. 여기에 언급된 문서들은 오디오 신호에 대해 음조 측정을 생성할 수 있는 몇 가지 가능성을 보여준다. 이 경우, 오디오 신호의 세그먼트를 스펙트럼 범위로 전달하는 것은 음조를 계산하는 기초이다. 음조는 주파수 대역 또는 모든 주파수 대역에 대해 병렬로 계산될 수 있다. 그러나 이러한 시스템의 단점은 오디오 신호의 왜곡이 증가함에 따라, 핑거프린트가 더 이상 충분한 표현력을 가지지 못한다는 점과 오디오 신호를 인식하는 것이 더 이상 만족하는 신뢰성을 줄 수 없다는 점이다. 그러나 왜곡은 매우 많은 경우에 발생하는데, 특히 오디오 신호가 낮은 전송 품질의 시스템을 사용하여 전송될 때 발생한다. 현재 모바일 시스템 또는 강력한 데이터 압축의 경우가 이런 경우이다. 이동전화와 같은 이러한 시스템은 주로 유성음 신호의 양방향 전송을 위해 주로 구현되며 매우 낮은 품질로 음악 신호를 자주 전송합니다. 낮은 품질의 마이크, 채널 교란 및 트랜스 코딩(transcoding) 효과와 같이 전송되는 신호의 품질에 부정적인 영향을 줄 수 있는 요소가 추가적으로 있다. 신호를 식별하고 분류하는 장치의 경우, 신호 품질의 저하의 결과는 인식 성능이 크게 저하된다는 것이다. DE10134471 및 DE10109648에 따른 장치 또는 방법을 사용하는 경우, 특히 음조의 인식 기준 (스펙트럼 평탄도 측정(Spectral Flatness Measure))을 유지하면서 시스템을 변화하는 것은 인식 성능에 있어서 더 큰 개선을 가져 오지 않는다는 것이 시험에서 밝혀졌다.
상이한 신호 클래스의 방해 잡음과 같은 잡음을 포함하는 충분한 데이터베이스가 설정되었다고 가정하면, 이로부터, 특정 방해 잡음이 어떤 환경에서도 탐색될 수 있고, 그런 방해 잡음이 인식되었는지를 로그할 수 있다. 이 방법은 도 2a에 도시되어있다.
도 2a는 마이크로폰(11)을 통해 수신된 환경 잡음(수신하는 단계(205) 참조)을 데이터베이스(15)로부터의 기록과 매칭시키는 단계(210)를 포함하는 방법(200)을 도시한다. 결정 장소(215)에서 도시된 것처럼, 매치가 발견되는 순간 로깅 또는 추가 동작을 배제하는 것과 같은 신호가 출력된다. 어떤 매치도 발견되지 않는 한, 시작(201)으로의 화살표를 사용하여 도시된 것처럼 방법이 반복될 것이다.
실시 예들에 대응하여, 기록 대신에 현재 환경 잡음들의 각각의 오디오 핑거프린트가 데이터베이스(15)에 이전에 저장된 오디오 핑거프린트와 비교될 수 있다. 본 방법은 현재 환경 잡음의 오디오 핑거프린트를 결정하는 단계 및 이것을 데이터베이스(15)에 저장된 오디오 핑거프린트와 비교하는 단계를 포함한다.
방법(200)에서, 환경 잡음들 또는 오디오 핑거프린트들을 데이터베이스(15)에 저장된 환경 잡음들/오디오 핑거프린트들과 매치시키는 단계가 인식하는 단계를 위해 미리 발생한다고 가정하는 경우에도, 일반적으로 표현하면, 환경 잡음은 규칙에 대해 모니터링될 수 있다. 환경 잡음들/오디오 핑거프린트를 비교하는 경우 규칙은 "부분 매치"를 의미할 수 있다.
또 다른 규칙은 예를 들어 단순하게 초과될 볼륨 값 또는 초과될 심리음향 파라미터들에 관한 임계 값일 수 있다. 실시 예들에 따르면, 현재의 환경 잡음들의 심리음향 파라미터들을 도출하는 단계가 발생하는데, 이는 그러한 사건의 발생을 인식하기 위하여 미리 정의된 규칙의 수단에 의해 미리 정의된 각각의 임계 값과 비교된다.
확장된 실시 예에 따라, 상기 방법은 그러한 방해 잡음들을 순전히 인식할뿐만 아니라, 예를 들어, 이 잡음들을 음성, 모터 잡음, 음악, 교회 벨 또는 총격 소리로 분류할 수 있다.
스마트폰 또는 이를 위해 특별히 설계된 장치에서 실행되는 이러한 방법에 대한 애플리케이션의 한 가지 잠재적인 시나리오는 장치를 호텔 방에 배치하고 환경 잡음들을 모니터링하는 것입니다. 여기서, 환경 잡음들은 데이터베이스(15)로부터의 데이터를 사용하여 평가되고, 잡음 사건들 중 아마도 방해받는 것으로 인지되는 어느 것이 그리고 얼마나 많은 것이 시간에 대해 발생해 왔는지가 로깅된다. 예를 들어, 이것은 하루 중 방해가 되는 에어컨 잡음을 세는 것일 수 있다. 로깅의 대안으로, 이 잡음의 오디오 기록 또는 미리 버퍼링된 환경 잡음(위 참조)의 저장이 수행될 수 있다. 기본 아이디어는 호텔 운영자가 이 방법을 사용하여 잡음 인식을 예측하고 평가할 수 있다는 것이다.
도 2b는 결정 단계(215)와 끝(216) 사이에 추가 단계들을 포함하는 확장된 방법(200')을 도시한다.
이들은 결과로서 사건의 수(222)가 획득되도록 단계(220)에 의하여 또는 셀 변수(221)를 사용하여 사건을 카운팅하는 단계이다. 선택적으로, 오디오 기록은 단계(230)를 사용하여 도시된 바와 같이, 인식된 사건에 의해 시작될 수 있다.
도 2c는 장치(40)의 또 다른 구현 예를 도시한다. 이는 중앙 유닛으로서, 분석/매칭의 실제 단계를 수행하는 프로세서(41)를 포함한다. 우선, 프로세서(41)는 내부 마이크로폰(26)을 사용하며, 외부 마이크로폰(26e1, 26e2)을 접속하는 것도 고려될 수 있다. 매칭을 위한 데이터는, 예를 들면, 내부 메모리(44)에 저장된다.
선택적으로, 프로세서는 대응하는 규칙 매칭를 획득하기 위해 오디오 핑거프린트 및/또는 심리음향 파라미터를 결정하고 매칭하도록 구성된다.
이 기능을 가능하게 하기 위해, 내부 클록(55), 배터리(56b) 또는 일반적으로 그 케이블 (56k)을 사용하여 구현될 수 있는 전원(56)과 같은 선택적으로 추가 주변 장치가 제공된다. 선택적으로, 프로세서는 또한 센서 요소(57), 기록 활성화 버튼과 같은 제어 유닛(58) 또는 타이머(59)에 추가적으로 접속한다. 여기서, 다른 실시 예에 따르면, 프로세서(41)는 또한 주관적 평가(주관적인 음조 사건 인식)와 결합하여 상관관계를 확립하기 위하여 객관적인 잡음 평가를 수행하도록 구성될 수 있다.
실시 예에 대응하여, 이전에 획득한 즐거움의 주관적 평가로부터 시작하여, CPU는 신호 클래스들의 개별 인식된 잡음들을 각각의 잡음 클래스에 따라 상이한 평가 행렬로 분류/ 정렬(sort)할 수 있다.
다른 실시 예에 따라, 외부 하드 디스크 또는 서버와 같은 외부 데이터 저장 장치(60)가 또한 데이터베이스를 저장하거나 로딩(loading)하기 위해 제공될 수 있다. 이 연결은 유선 연결 또는 무선 연결일 수 있다. 무선 통신에서, 추가 실시 예들에 대응하여, 외부 접속을 실현하는 무선 인터페이스(62w) 또는 유선 인터페이스(62k)와 같은 통신 인터페이스(62)가 제공된다.
또 다른 양태에 따르면, 대응하는 잡음, 즉 신호 클래스가 장치 중 하나에서 수신된 즉시 장치들이 상호 활성화되도록 서로 결합되는 이전에 기술된 장치(40) 2개로 기본적으로 구성되는 시스템이 제공된다. 이 시스템은 각 잡음 클래스들의 잡음들을 보다 자세히 분석하거나 평가하는 역할을 한다. 아래 도 3에서 설명하는 방법이 여기에서 수행된다.
도 3a는 제1 위치 및 제2 위치에서 수행되는 방법(200 또는 200')에 대응하는 잡음 분석 단계를 포함하는 방법(300)을 도시한다. 이것은 단계(210)가 두 번 존재함을 의미한다 (210a 및 210b 참조).
(단계 (210a) 및 (210b)로부터 결과된) 2개의 위치에서의 오디오 핑거프린트와 같이 결정된 파라미터 또는 기록은 다른 단계(220)에서 비교된다.
2개의 이웃하는 위치에서의 2개의 단계(210)는, 실시 예에 따라, 선택적 단계 "이웃 장치(211)상의 오디오 기록"을 사용하여 도시된 바와 같이, 상호 의존적일 수 있다. 대안적으로, 다른 동작이 이웃 장치에서 수행될 수 있다. 그 이유는, 예를 들면, 방법(210a)을 실행하는 제1 장치가 잡음을 인식하고 방법(210b)을 실행하는 제2 장치를 활성화할 때, 동일한 잡음이 다른 위치에서 인식될 수 있기 때문이다. 여기서 최종적으로, 결정 장소(215)로부터 시작하여, 대응하는 매치가 발견될 때까지 잡음 분석 방법(210a)이 수행된다는 사실을 기본적으로 암시하는 시작(301)으로의 또 다른 화살표가 있다.
위치들은 전형적으로 공간적으로 이웃하므로, 이러한 방식으로 잡음의 전파, 속도 또는 더 큰 잡음원을 추정하는 것이 가능하다.
예시적으로, 자신의 분석을 다른 장치의 분석과 동시에 비교할 때, 하나의 동일한 사건이 여러 장치에서 인식되면, 이것이 천둥, 번개와 같은 전역 사건(결정 필드(321) 이후의 참조 번호 323 참조)인지 지역 사건(결정 필드(321) 이후의 참조 번호 324 참조)인지 여부를 결정될 수 있다. 전역 사건(323)의 경우 일반적으로 "근처" 장치와 "원격" 장치 간의 레벨 차이는 무시할 정도로 작다 (수준 ~ 1/r, r에 대해 작은 r의 변화). 지역 사건(324)에서는 레벨 차이가 크다 (레벨 ~ 1 / r, r에 대해 큰 r의 변화). 지역 사건은, 예를 들어, 도움을 위한 울음, 폭발, 야외 콘서트일 수 있습니다. 지역 사건에서는, 추가의 분석, 즉 추가 파라미터들에 관한 분석(325)이 뒤따를 수 있다. 시간 오프셋(temporal offset) 또는 주파수 시프트(frequency shift)로부터 시작하여, 타임 라인, 전파, 또는 지역 사건의 양이 결정될 수 있다. 그 이후의 분석(325)과 마찬가지로 전역 사건(323) 또는 지역 사건 (324)의 결정(325)은 기본적으로 상기 방법의 끝(329)이다.
예를 들어, 여러 대의 장치를 시내 중심에 분배하는 하나의 가능한 애플리케이션 시나리오가 있다. 모든 장치들은 (유선, 무선, 이더넷 또는 LAN 연결과 같은) 데이터 연결을 통해 서로 연결된다. 서버를 사용하는 연결도 가능하다. 모든 장치들은 잡음 상황(심리음향 파라미터, 오디오 핑거프린트)을 분석한다. 이 장치들 중 하나는 이전에 데이터베이스에서 분류된 신호 클래스와 같은 특징적인 사건을 인식한다. 그 자리에서 오디오 기록이 시작된다. 동시에, 장치는 이웃 노드상의 동작과 같은 행위를 트리거한다. 두 노드를 비교함으로써 위에서 논의한 것처럼 전역 사건과 지역 사건이 구별될 수 있다.
방법(300)은 기본적으로 2개의 장치 (40) (도 2c)를 포함하는 시스템에 의해 수행된다.
그러나 두 개의 장치를 연결하 기위한 여분의 인터페이스가 제공되기 때문에, 도 3b에 도시 된 바와 같이, 약간의 변형이 가능할 수도 있다.
도 3b는 입력측에 마이크로폰(26) 및 선택적인 교정 유닛(26k)을 포함하는 장치(70)를 도시한다. 마이크로폰에 의해 수신된 오디오 스트림(stream)은, 예를 들어 오디오 핑거프린트 (참조 번호 46a 참조) 또는 심리음향 파라미터(참조 번호 48 참조)를 도출하기 위해 전-처리 (46) 수단에 의해 전처리된다. 병행하여, 사건 또는 클래스가 인식될 수 있다(참조 번호 50 참조). 사건/클래스를 인식함으로써, 한편으로 자동 오디오 기록이 트리거되고(참조 번호 50a1 참조) 또는 추가 노드 (참조 번호 50a2 또는 추가 장치(70') 참조)를 활성화하는 것과 같은 제어 명령이 방출될 수 있다. 제어 명령(50a2)을 출력하는 수단은 예를 들어, 메모리를 활성화할 수 있는데, 그러면 메모리는 오디오 핑거프린트(46a)을 생성하는 수단 또는 심리 음향 파라미터를 도출하는 수단(48)으로부터 데이터를 수신하고 기록한다. 오디오 신호는 또한 메모리(44)에도 저장될 수 있고, 여기에서도 버튼(49a)에 의해 기록이 허용 또는 방지될 수 있다. 이 실시 예에서, CPU(41)는 또한 타이머(59)와 연결될 수 있다.
장치(70)와는 별도로, 기본적으로 동일한 기능을 수행하는 장치(70')가 이웃한 또 다른 위치에 제공된다. 이 장치(70')는 또한 장치(70')가 활성화 수단 (50a2)에 의해 또는 인식된 잡음의 시작과 클래스에 속함에 의해 활성화되는 때에, 이 시간 기간 동안 오디오 결과를 저장하는 메모리(44)를 포함한다. 장치(70 및 70')의 메모리(44)로부터의 기록 또는 오디오 핑거프린트 또는 심리음향 파라미터는 다음 단계에서 데이터 분석기(72)에 의해 분석되는데, 예를 들면 확장에 대해 분석된다. 그러나 여기서 데이터 분석기(72)가 다른 장치의 두 메모리와 연결되는 것이 유리한데, 여기서는 데이터 분석기(72)가 장치(70 및 70') 중 하나에 배치되거나 또는 두 장치 모두에 대하여 외부에 배치될 수 있다는 것을 언급한다.
다른 실시 예에 대응하여, 버튼(24a')과 같은 버튼이 장치(70)에 통합되어, 장치(70)가 장치 (20, 20' 또는 20")의 기능을 또한 수행할 수 있다.
선택적 요소(50a')는 분류를 인식한 후 기록의 자동 트리거링을 허용한다. 대안적으로, 이미 획득된 신호 클래스들 중 임의의 신호 클래스에서 어떤 잡음이 발견되지 않은 경우에도 자동 기록이 고려될 수 있다.
다시 말하면, 방법(303)은 방법(200)의 기능, 즉 음성, 모터 잡음, 음악, 부엌 블록, 총격 소리와 같은 잡음을 인식하고 분류하는 기능이 기본적으로 수행되고, 이 기능은 다른 위치에 있는 다수의 마이크에서 시작하여 분석에 의해 확장된다.
예를 들어 테러리즘을 암시하는 폭발 및 총격 소리와 같은 특정 클래스의 자동 기록도 가능할 수 있다. 여기서, 모든 이웃 노드들 (70/70')이 기록으로 직접 전환되는 것이 유용할 것이다.
또한, 특정 잡음 임계 값이 일정 기간을 초과하면 (예를 들면, 시간적으로 제한이 있는) 자동 기록이 가능하다. 또한, 여러 노드를 병합할 때 이러한 더 긴시간의 기록에 의해 신호원의 정확한 지역화를 수행할 수 있도록 기록은 이웃 노드까지 확장될 수 있다(방해 소스에 대한 원인 조사, 잡음원 분리).
위에서 언급 한 세 가지 시나리오의 잠재적인 응용 분야는 다음과 같습니다.
- 관광, 호텔, 건강 부문, 자전거 경로, 등산로;
- 작업 보호 (사무직, 기계 상점, 기내 작업장);
- 도시 계획 (사운드 스케이프(soundscape), 잡음 맵핑(noise mapping));
- 공공 보안 (생산 시설 모니터링).
장치들(20/20'/20"/20"', 40 및 70/70')의 기능 또는 방법들(100/100', 200/200' 및 300)의 조합도 또한 고려될 수 있다. 이것의 예는 장치의 기계 평가를 위해 주관적으로 평가하고 기록하기 위한 장치와 방법의 조합이다.
여기서, 다른 양태와 연결하여 논의된 요소들은 물론 제2 양태에도 적용될 수 있음을 유념해야 한다. 예시적으로, 오디오 핑거프린트 또는 심리음향 파라미터에 관련된 교시는 세 가지 양태 모두에 적용 가능하지만, 상기 교시는 단지 제1 양태와 연결하여 보다 상세히 논의되었다.
비록 몇몇 양태들이 장치의 맥락에서 설명되었지만, 이러한 양태들은 또한 대응하는 방법의 설명을 나타내므로, 장치의 블록 또는 요소는 또한 각각의 방법 단계 또는 방법 단계의 특징에 대응한다. 이와 유사하게, 방법 단계의 맥락에서 기술된 양태들은 대응하는 블록 또는 대응하는 장치의 대응하는 블록 또는 품목 또는 특징의 기술을 나타낸다. 방법 단계들의 일부 또는 전부는 예를 들어 마이크로 프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해 (또는 하드웨어 장치를 사용하여) 실행될 수 있다. 일부 실시 예들에서, 가장 중요한 방법 단계들의 일부 또는 몇몇은 그러한 장치에 의해 실행될 수 있다.
오디오 신호 또는 비디오 신호 또는 전송 스트림 신호와 같은 본 발명에 따라 인코딩된 신호는 디지털 저장 매체상에 저장될 수 있거나 또는 인터넷과 같은 무선 전송 매체 또는 유선 전송 매체와 같은 전송 매체를 통해 전송될 수 있다.
본 발명의 인코딩된 오디오 신호는 디지털 저장 매체에 저장될 수 있거나, 예를 들어 인터넷과 같은 무선 전송 매체 또는 유선 전송 매체와 같은 전송 매체를 통해 전송될 수 있다.
특정 구현 요건들에 따라, 본 발명의 실시 예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력하거나 (또는 협력할 수 있는) 저장된 전자 판독 가능 제어 신호를 가지는 예를 들어, 플로피 디스크, DVD, Blu-ray, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리와 같은 디지털 저장 매체를 사용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터 판독가능할 수 있다.
본 발명에 따른 일부 실시 예는 본 명세서에 기술된 방법들 중 하나가 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자 판독 가능 제어 신호를 포함하는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시 예들은 프로그램 코드를 가지는 컴퓨터 프로그램 제품으로 구현될 수 있는데, 상기 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터상에서 실행될 때 상기 방법들 중 하나를 수행하도록 동작한다.
프로그램 코드는 예를 들어, 기계 판독 가능 캐리어에 저장될 수 있다.
다른 실시 예는 본 명세서에 기술된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하며, 컴퓨터 프로그램은 기계 판독 가능 캐리어에 저장된다.
다시 말하면, 본 발명의 방법의 실시 예는 컴퓨터 프로그램이 컴퓨터상에서 실행될 때, 본 명세서에 기술된 방법들 중 하나를 수행하기 위한 프로그램 코드를 포함하는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법의 또 다른 실시 예는 본 명세서에 기술된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을, 그 위에 기록함으로써 포함하는 데이터 캐리어 (또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다.
그러므로 본 발명의 방법의 또 다른 실시 예는 본 명세서에 기술된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 일련의 신호이다. 데이터 스트림 또는 일련의 신호는 예를 들어 인터넷을 통해 데이터 통신 접속을 통해 전송되도록 구성될 수 있다.
다른 실시 예는 본 명세서에 기술된 방법들 중 하나를 수행하도록 구성되거나 적응된 컴퓨터 또는 프로그램 가능한 논리 장치와 같은 처리 수단을 포함한다.
다른 실시 예는 본 명세서에 기술된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 또 다른 실시 예는 본 명세서에 기술된 방법들 중 적어도 하나를 수행하기위한 컴퓨터 프로그램을 수신기에 전송하도록 구성된 장치 또는 시스템을 포함한다. 전송은 전자적으로 또는 광학적으로 수행될 수 있다. 수신기는 예를 들어 컴퓨터, 모바일 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들어 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시 예에서, 프로그램 가능 논리 장치 (예를 들어, 필드 - 프로그래머블 게이트 어레이 (FPGA))는 본 명세서에서 기술된 방법의 일부 또는 모든 기능을 수행하는데 사용될 수 있다. 일부 실시 예들에서, 필드 - 프로그래머블 게이트 어레이는 본 명세서에서 기술된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 일부 실시 예에서, 상기 방법들은 임의의 하드웨어 장치에 의해 수행된다. 이것은 컴퓨터 프로세서 (CPU)와 같은 범용적인 하드웨어이거나 ASIC과 같은 방법에 특정한 하드웨어 일 수 있다.
전술한 실시 예는 본 발명의 원리를 설명하기 위한 것일 뿐이다. 본 명세서에 기술된 구성 및 세부 사항의 변경 및 변형은 통상의 기술자에게 명백할 것이다. 따라서, 본 발명은 첨부된 특허 청구 범위에 의해서만 제한되고 본 명세서의 실시 예에 대한 설명 및 기술에 의해 제공된 특정 세부 사항에 의해서 제한되지 않는다.

Claims (20)

  1. 데이터베이스(15)를 생성하기 위한 방법(100, 100')으로서,
    환경 잡음들을 수신하고, 버퍼링된 기록을 획득하기 위하여 이동하는 시간 윈도우(migrating time window)동안 상기 환경 잡음들을 버퍼링(buffering)하거나 또는 상기 환경 잡음들로부터 파라미터들의 집합을 도출하고 상기 이동하는 시간 윈도우동안 상기 파라미터들의 집합을 버퍼링하는 단계(110, 110');
    상기 환경 잡음에서 복수의 신호 클래스들 중 하나의 신호 클래스를 식별하는 신호를 획득(120)하는 단계;
    상기 신호에 응답하여 상기 버퍼링된 기록을 메모리(44)에 저장(130)하는 단계; 및
    동일한 신호 클래스에 대해 복수의 버퍼링된 기록들을 포함하는 데이터베이스(15)를 설정하기 위하여 상기 획득(120)하는 단계 및 저장(130)하는 단계를 반복하는 단계;를 포함하고,
    상기 신호는 사용자 입력 수단들(24a, 24b), 버튼(24a, 24b), 또는 스마트 장치에 의해 수신되는,
    데이터베이스(15)를 생성하기 위한 방법(100, 100').
  2. 제1항에 있어서,
    상기 신호와 상기 버퍼링된 기록의 상기 이동하는 시간 윈도우 사이에 시간적 의존성이 있는,
    데이터베이스(15)를 생성하기 위한 방법(100, 100').
  3. 제2항에 있어서,
    상기 시간적 의존성은 상기 이동하는 시간 윈도우의 시작이 상기 신호의 시간 이전이거나; 또는
    상기 이동하는 시간 윈도우의 끝이 상기 신호의 시간이거나 또는 상기 신호의 시간 이전인,
    데이터베이스(15)를 생성하기 위한 방법(100, 100').
  4. 제1항에 있어서,
    상기 신호는 볼륨(volume)을 결정하기 위한 검출기(detector), 상기 환경 잡음에서 제어 신호를 식별하기 위한 프로세서, 또는 이웃 위치에서 데이터베이스(15)를 생성하기 위한 장치에 의해서 수신되는,
    데이터베이스(15)를 생성하기 위한 방법(100, 100').
  5. 제1항에 있어서,
    상기 파라미터들의 집합을 도출하는 단계는 상기 버퍼링된 환경 잡음들에 대한 오디오 핑거프린트를 결정하는 단계를 포함하는,
    데이터베이스(15)를 생성하기 위한 방법(100, 100').
  6. 제1항에 있어서,
    상기 파라미터들의 집합을 도출하는 단계는 상기 버퍼링된 기록의 심리음향(psychoacoustic) 파라미터들을 결정하는 단계를 포함하는,
    데이터베이스(15)를 생성하기 위한 방법(100, 100').
  7. 제6항에 있어서,
    상기 심리음향 파라미터들은 볼륨(volume), 선명도(sharpness), 음조(tonality), 거칠기(roughness), 및/또는 변동 강도를 포함하는,
    데이터베이스(15)를 생성하기 위한 방법(100, 100').
  8. 제1항에 있어서,
    상기 환경 잡음에서 복수의 신호 클래스들 중 추가 신호 클래스를 식별하는 추가 신호를 획득하는 단계를 포함하고, 상기 버퍼링된 기록과 상기 클래스 또는 상기 추가 신호 클래스와의 연관이 유지되도록 상기 저장하는 단계가 상기 추가 신호에 응답하여 수행되는,
    데이터베이스(15)를 생성하기 위한 방법(100, 100').
  9. 제1항에 있어서,
    저장(130)하는 단계에서, 상기 신호가 획득되는 때의 타임스탬프(time stamp)가 또한 상기 버퍼링된 기록과 함께 저장되는,
    데이터베이스(15)를 생성하기 위한 방법(100, 100').
  10. 제1항에 있어서,
    상기 방법(100, 100')은 상기 신호를 획득할 때의 현재 위치를 결정하는 단계를 포함하고, 상기 결정된 위치는 상기 버퍼링된 기록과 함께 저장되는,
    데이터베이스(15)를 생성하기 위한 방법(100, 100').
  11. 제1항에 있어서,
    상기 버퍼링된 기록은 데이터 감축 방식으로 저장되는,
    데이터베이스(15)를 생성하기 위한 방법(100, 100').
  12. 제1항에 있어서,
    상기 메모리(44)는 외부에 배치되는,
    데이터베이스(15)를 생성하기 위한 방법(100, 100').
  13. 프로그램이 컴퓨터 상에서 실행될 때, 제1항에 따른 방법(100, 100')을 수행하기 위한 프로그램 코드가 저장된,
    비일시적 디지털 기록 매체.
  14. 데이터베이스(15)를 생성하기 위한 장치(20, 20', 20'', 20''')로서,
    환경 잡음들을 수신하는 마이크로폰(11);
    버퍼링된 기록을 획득하기 위하여 이동하는 시간 윈도우(migrating time window)동안 상기 환경 잡음들을 버퍼링(buffering)하거나, 또는 상기 환경 잡음들로부터 파라미터들의 집합을 도출하고 상기 이동하는 시간 윈도우동안 상기 파라미터들의 집합을 버퍼링하기 위한 버퍼(buffer);
    상기 환경 잡음에서 복수의 신호 클래스 중 하나의 신호 클래스를 식별하는 신호를 획득하기 위한 인터페이스;
    상기 신호에 응답하여 상기 버퍼링된 기록을 저장하기 위한 메모리(44);를 포함하고,
    상기 신호는 사용자 입력 수단들(24a, 24b), 버튼(24a, 24b), 또는 스마트 장치에 의해 수신되고,
    상기 장치(20, 20', 20'', 20''')는 동일한 신호 클래스에 대해 복수의 버퍼링된 기록들을 포함하는 상기 데이터베이스(15)를 설정하기 위하여 획득 및 저장을 반복하도록 구성되는,
    데이터베이스(15)를 생성하기 위한 장치.
  15. 제14항에 있어서,
    상기 장치(20, 20', 20'', 20''')는 상기 인터페이스에 연결된 입력 수단, 버튼 또는 스마트 장치를 포함하거나; 또는
    상기 인터페이스는 볼륨(volume)을 결정하기 위한 검출기(detector), 상기 환경 잡음에서 제어 신호를 식별하기 위한 프로세서, 또는 이웃 위치에서 데이터베이스(15)를 생성하기 위한 추가 장치(20, 20', 20'', 20''') 와 연결되는,
    데이터베이스(15)를 생성하기 위한 장치.
  16. 제14항에 있어서,
    상기 장치(20, 20', 20'', 20''')는 현재 위치가 저장될 상기 버퍼링된 기록의 부분 또는 파라미터들과 연결되어 저장될 수 있도록 위치 결정 수단을 포함하며, 상기 위치 결정 수단을 사용하여 상기 현재 위치가 결정될 수 있는,
    데이터베이스(15)를 생성하기 위한 장치.
  17. 제14항에 있어서,
    상기 버퍼는 링 메모리(ring memory)인,
    데이터베이스(15)를 생성하기 위한 장치.
  18. 제14항에 있어서,
    상기 장치(20, 20', 20'', 20''')는 상기 메모리(44)와 연결할 수 있게 사용되는 통신 인터페이스를 포함하는,
    데이터베이스(15)를 생성하기 위한 장치.
  19. 삭제
  20. 삭제
KR1020187003083A 2015-06-30 2016-06-30 데이터베이스를 생성하기 위한 방법 및 장치 KR102087832B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15174634.4 2015-06-30
EP15174634 2015-06-30
PCT/EP2016/065392 WO2017001607A1 (de) 2015-06-30 2016-06-30 Verfahren und vorrichtung zum erzeugen einer datenbank

Publications (2)

Publication Number Publication Date
KR20180025921A KR20180025921A (ko) 2018-03-09
KR102087832B1 true KR102087832B1 (ko) 2020-04-21

Family

ID=56368939

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020187003083A KR102087832B1 (ko) 2015-06-30 2016-06-30 데이터베이스를 생성하기 위한 방법 및 장치
KR1020187003091A KR102137537B1 (ko) 2015-06-30 2016-06-30 잡음을 연관시키기 위한 그리고 분석하기 위한 방법 및 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020187003091A KR102137537B1 (ko) 2015-06-30 2016-06-30 잡음을 연관시키기 위한 그리고 분석하기 위한 방법 및 장치

Country Status (7)

Country Link
US (2) US11003709B2 (ko)
EP (2) EP3317878B1 (ko)
JP (2) JP6602406B2 (ko)
KR (2) KR102087832B1 (ko)
CN (2) CN108028047B (ko)
CA (2) CA2990891A1 (ko)
WO (2) WO2017001611A1 (ko)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106974779A (zh) 2012-07-20 2017-07-25 费诺-华盛顿公司
CA2990891A1 (en) 2015-06-30 2017-01-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forchung E.V. Method and device for associating noises and for analyzing
US10402696B2 (en) * 2016-01-04 2019-09-03 Texas Instruments Incorporated Scene obstruction detection using high pass filters
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9826306B2 (en) 2016-02-22 2017-11-21 Sonos, Inc. Default playback device designation
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
CN107731220B (zh) * 2017-10-18 2019-01-22 北京达佳互联信息技术有限公司 音频识别方法、装置和服务器
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11521598B2 (en) * 2018-09-18 2022-12-06 Apple Inc. Systems and methods for classifying sounds
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) * 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
TWI716029B (zh) * 2019-07-09 2021-01-11 佑華微電子股份有限公司 隨選聲音片段偵測方法
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
EP4309172A1 (en) * 2021-03-18 2024-01-24 Telefonaktiebolaget LM Ericsson (publ) Predict and trigger a future response to a predicted background noise based on a sequence of sounds
US11533577B2 (en) 2021-05-20 2022-12-20 Apple Inc. Method and system for detecting sound event liveness using a microphone array
CN113643716B (zh) * 2021-07-07 2023-09-26 珠海格力电器股份有限公司 电机噪声控制方法、装置和电机及电器设备
CN117436709B (zh) * 2023-12-20 2024-03-19 四川宽窄智慧物流有限责任公司 一种跨区域订单数据统筹预警方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000512832A (ja) 1997-04-16 2000-09-26 フランス テレコム 多チャンネル音響エコー消去方法および多チャンネル音響エコー消去装置
JP2001165763A (ja) 1999-12-07 2001-06-22 Kyoto Prefecture 騒音測定管理システム及び該システム用記録媒体
JP2005532582A (ja) 2002-07-08 2005-10-27 エコール・サントラル・ドゥ・リヨン 音響信号に音響クラスを割り当てる方法及び装置

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5367332A (en) * 1992-10-09 1994-11-22 Apple Computer, Inc. Digital camera with time bracketing feature
US5918223A (en) 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
JP3645053B2 (ja) * 1996-12-13 2005-05-11 大昌エンジニアリング株式会社 実音モニターリングシステム
JPH10282985A (ja) * 1997-04-07 1998-10-23 Omron Corp 聴覚支援装置
US6381569B1 (en) * 1998-02-04 2002-04-30 Qualcomm Incorporated Noise-compensated speech recognition templates
US6260010B1 (en) * 1998-08-24 2001-07-10 Conexant Systems, Inc. Speech encoder using gain normalization that combines open and closed loop gains
US6990453B2 (en) 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US7055107B1 (en) 2000-09-22 2006-05-30 Wireless Valley Communications, Inc. Method and system for automated selection of optimal communication network equipment model, position, and configuration
DE60228202D1 (de) 2001-02-12 2008-09-25 Gracenote Inc Verfahren zum erzeugen einer identifikations hash vom inhalt einer multimedia datei
DE10109648C2 (de) 2001-02-28 2003-01-30 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE10134471C2 (de) 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
US6996531B2 (en) 2001-03-30 2006-02-07 Comverse Ltd. Automated database assistance using a telephone for a speech based or text based multimedia communication mode
US6683938B1 (en) * 2001-08-30 2004-01-27 At&T Corp. Method and system for transmitting background audio during a telephone call
US6959276B2 (en) 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US7158931B2 (en) 2002-01-28 2007-01-02 Phonak Ag Method for identifying a momentary acoustic scene, use of the method and hearing device
JP3995040B2 (ja) * 2002-04-19 2007-10-24 リオン株式会社 騒音振動測定における音の録音方法及びそれを用いた装置
JP4352790B2 (ja) * 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
JP2005234074A (ja) * 2004-02-18 2005-09-02 Sony Corp 情報処理装置および情報処理方法、記録媒体、並びにプログラム
DE102004036154B3 (de) * 2004-07-26 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
CN1727911A (zh) * 2004-07-26 2006-02-01 松下电器产业株式会社 声控定位系统及方法
JP2006189367A (ja) * 2005-01-07 2006-07-20 Chugoku Electric Power Co Inc:The 騒音測定装置
DE102005008333A1 (de) * 2005-02-23 2006-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Steuern einer Wellenfeldsynthese-Rendering-Einrichtung
US7948557B2 (en) * 2005-06-22 2011-05-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a control signal for a film event system
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
US20070183604A1 (en) 2006-02-09 2007-08-09 St-Infonox Response to anomalous acoustic environments
US20100257974A1 (en) 2006-06-21 2010-10-14 Carrens Vernon M Mechanical machine designed to utilize unbalanced torque to enhance angular momentum
US20080024469A1 (en) * 2006-07-31 2008-01-31 Niranjan Damera-Venkata Generating sub-frames for projection based on map values generated from at least one training image
JP4854533B2 (ja) * 2007-01-30 2012-01-18 富士通株式会社 音響判定方法、音響判定装置及びコンピュータプログラム
JP5105912B2 (ja) * 2007-03-13 2012-12-26 アルパイン株式会社 音声明瞭度改善装置およびその騒音レベル推定方法
US8762143B2 (en) * 2007-05-29 2014-06-24 At&T Intellectual Property Ii, L.P. Method and apparatus for identifying acoustic background environments based on time and speed to enhance automatic speech recognition
US8164484B2 (en) * 2007-10-03 2012-04-24 University Of Southern California Detection and classification of running vehicles based on acoustic signatures
EP2255359B1 (de) 2008-03-20 2015-07-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zur akustischen anzeige
KR20090122142A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
KR101400588B1 (ko) * 2008-07-11 2014-05-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 워프 활성 신호의 제공 및 이를 이용한 오디오 신호의 인코딩
FR2943875A1 (fr) * 2009-03-31 2010-10-01 France Telecom Procede et dispositif de classification du bruit de fond contenu dans un signal audio.
DK2328363T3 (en) * 2009-09-11 2016-08-22 Starkey Labs Inc SOUND CLASSIFICATION SYSTEM FOR HEARING DEVICES
GB0919672D0 (en) * 2009-11-10 2009-12-23 Skype Ltd Noise suppression
EP2362620A1 (en) * 2010-02-23 2011-08-31 Vodafone Holding GmbH Method of editing a noise-database and computer device
JP5496077B2 (ja) * 2010-02-25 2014-05-21 三菱重工業株式会社 音線解析装置
US8265928B2 (en) * 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
JP5467015B2 (ja) * 2010-08-24 2014-04-09 公益財団法人鉄道総合技術研究所 鉄道車両内騒音の評価方法
US8812014B2 (en) * 2010-08-30 2014-08-19 Qualcomm Incorporated Audio-based environment awareness
WO2012109384A1 (en) 2011-02-10 2012-08-16 Dolby Laboratories Licensing Corporation Combined suppression of noise and out - of - location signals
US8767978B2 (en) * 2011-03-25 2014-07-01 The Intellisis Corporation System and method for processing sound signals implementing a spectral motion transform
US8731474B2 (en) * 2011-05-25 2014-05-20 Shared Spectrum Company Method and system for man-made noise rejection detector
CN102354499B (zh) * 2011-07-25 2017-12-19 中兴通讯股份有限公司 降低噪音的方法和设备
US20130040694A1 (en) * 2011-08-10 2013-02-14 Babak Forutanpour Removal of user identified noise
JP5875609B2 (ja) * 2012-02-10 2016-03-02 三菱電機株式会社 雑音抑圧装置
US9528852B2 (en) * 2012-03-02 2016-12-27 Nokia Technologies Oy Method and apparatus for generating an audio summary of a location
FR2994495B1 (fr) * 2012-08-10 2015-08-21 Thales Sa Procede et systeme pour detecter des evenements sonores dans un environnement donne
KR101967917B1 (ko) * 2012-10-30 2019-08-13 삼성전자주식회사 음성을 인식하는 전자 장치 및 방법
US9275625B2 (en) * 2013-03-06 2016-03-01 Qualcomm Incorporated Content based noise suppression
US9384754B2 (en) * 2013-03-12 2016-07-05 Comcast Cable Communications, Llc Removal of audio noise
US9390170B2 (en) * 2013-03-15 2016-07-12 Shazam Investments Ltd. Methods and systems for arranging and searching a database of media content recordings
WO2015083091A2 (en) 2013-12-06 2015-06-11 Tata Consultancy Services Limited System and method to provide classification of noise data of human crowd
US20150179181A1 (en) 2013-12-20 2015-06-25 Microsoft Corporation Adapting audio based upon detected environmental accoustics
US10373611B2 (en) * 2014-01-03 2019-08-06 Gracenote, Inc. Modification of electronic system operation based on acoustic ambience classification
CN103745728B (zh) * 2014-01-08 2017-04-12 叶兰玉 房屋智能有源降噪的方法及装置
WO2015127194A1 (en) * 2014-02-20 2015-08-27 Harman International Industries, Inc. Environment sensing intelligent apparatus
US9837102B2 (en) * 2014-07-02 2017-12-05 Microsoft Technology Licensing, Llc User environment aware acoustic noise reduction
CN104517607A (zh) * 2014-12-16 2015-04-15 佛山市顺德区美的电热电器制造有限公司 滤除语音控制电器中的噪声的方法及语音控制电器
JP6182676B2 (ja) 2015-01-26 2017-08-16 深▲せん▼市冠旭万達科技有限公司 騒音マップ制作方法及び装置
CA2990891A1 (en) 2015-06-30 2017-01-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forchung E.V. Method and device for associating noises and for analyzing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000512832A (ja) 1997-04-16 2000-09-26 フランス テレコム 多チャンネル音響エコー消去方法および多チャンネル音響エコー消去装置
JP2001165763A (ja) 1999-12-07 2001-06-22 Kyoto Prefecture 騒音測定管理システム及び該システム用記録媒体
JP2005532582A (ja) 2002-07-08 2005-10-27 エコール・サントラル・ドゥ・リヨン 音響信号に音響クラスを割り当てる方法及び装置

Also Published As

Publication number Publication date
JP6654209B2 (ja) 2020-02-26
KR102137537B1 (ko) 2020-07-27
EP3317879A1 (de) 2018-05-09
KR20180022967A (ko) 2018-03-06
WO2017001611A1 (de) 2017-01-05
US11003709B2 (en) 2021-05-11
CA2990891A1 (en) 2017-01-05
JP2018525664A (ja) 2018-09-06
EP3317878A1 (de) 2018-05-09
EP3317878B1 (de) 2020-03-25
JP2018528453A (ja) 2018-09-27
CN108028048A (zh) 2018-05-11
CA2990888A1 (en) 2017-01-05
US11880407B2 (en) 2024-01-23
JP6602406B2 (ja) 2019-11-06
US20180121540A1 (en) 2018-05-03
CN108028047B (zh) 2022-08-30
WO2017001607A1 (de) 2017-01-05
CN108028048B (zh) 2022-06-21
CN108028047A (zh) 2018-05-11
KR20180025921A (ko) 2018-03-09
US20180122398A1 (en) 2018-05-03
EP3317879B1 (de) 2020-02-19

Similar Documents

Publication Publication Date Title
KR102087832B1 (ko) 데이터베이스를 생성하기 위한 방법 및 장치
KR102571011B1 (ko) 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답
Jia et al. SoundLoc: Accurate room-level indoor localization using acoustic signatures
EP4141869A1 (en) A method for identifying an audio signal
CN109997186B (zh) 一种用于分类声环境的设备和方法
CN105611400A (zh) 内容处理设备和用于发送可变大小的片段的方法
WO2017117234A1 (en) Responding to remote media classification queries using classifier models and context parameters
US20230074279A1 (en) Methods, non-transitory computer readable media, and systems of transcription using multiple recording devices
KR102433582B1 (ko) 방법, 컴퓨터 프로그램, 인코더 및 모니터링 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant