KR101678555B1 - 오디오 환경들의 분류를 위한 시스템들 및 방법들 - Google Patents

오디오 환경들의 분류를 위한 시스템들 및 방법들 Download PDF

Info

Publication number
KR101678555B1
KR101678555B1 KR1020157015276A KR20157015276A KR101678555B1 KR 101678555 B1 KR101678555 B1 KR 101678555B1 KR 1020157015276 A KR1020157015276 A KR 1020157015276A KR 20157015276 A KR20157015276 A KR 20157015276A KR 101678555 B1 KR101678555 B1 KR 101678555B1
Authority
KR
South Korea
Prior art keywords
audio
audio environment
time interval
statistics
mfcc
Prior art date
Application number
KR1020157015276A
Other languages
English (en)
Other versions
KR20150084941A (ko
Inventor
레오나드 헨리 그로콥
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20150084941A publication Critical patent/KR20150084941A/ko
Application granted granted Critical
Publication of KR101678555B1 publication Critical patent/KR101678555B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • H04M1/72569
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Computational Linguistics (AREA)
  • Telephone Function (AREA)
  • Artificial Intelligence (AREA)

Abstract

오디오 환경들의 분류를 위한 시스템들 및 방법들이 기재된다. 일 실시예에서, 오디오 환경을 분류하는 방법은, 제 1 시간 간격에 따른 샘플링된 오디오 데이터를 획득하도록 오디오 환경을 샘플링하는 단계, 샘플링된 오디오 데이터의 특성들을 계산하는 단계, 제 2 시간 간격에 따른 샘플링된 오디오 데이터의 특성들로부터 오디오 클러스터 식별자를 추론하는 단계, 및 제 3 시간 간격에 따른 샘플링된 오디오 데이터의 특성들을 사용하여 오디오 환경 모델을 업데이트하는 단계를 포함한다.

Description

오디오 환경들의 분류를 위한 시스템들 및 방법들{SYSTEMS AND METHODS FOR CLASSIFICATION OF AUDIO ENVIRONMENTS}
[0001] 본 발명은 무선 통신들의 분야에 관한 것이다. 특히, 본 발명은, 오디오 환경들의 분류를 위한 시스템들 및 방법들에 관한 것이다.
[0002] 저-전력 상시-온(always-on) 오디오 환경 분류는, 스마트폰들에 대한 상황 인식(context awareness) 애플리케이션들의 인에이블러(enabler)로서 구상될 수도 있다. 관리된(supervised)(즉, 사전-트레이닝된(pre-trained)) 오디오 분류를 용이하게 하기 위한 시도들이 있어 왔지만, 주어진 주변 오디오 환경에 대한 정확한 시멘틱(semantic) 라벨이 종종 사용자-특정적(user-specific)일 수 있기 때문에, 그러한 관리된 오디오 분류의 성능은 믹싱될 수 있다. 예를 들어, 한 사람의 홈의 분위기는 다른 사람의 사무실의 분위기처럼 들릴 수도 있다. 부가적으로, 종래의 오디오 분류 방법들은 계산 집중적일 수도 있어서, 그러한 방법들을 저-전력 상시-온 방식으로의 구현에 대해 부적절하게 한다. 종래의 오디오 분류 방법들에 대한 다른 이슈는, 원본 오디오 샘플들이 저장될 수도 있는 경우, 프라이버시의 우려이다.
[0003] 본 발명에 따른 오디오 환경을 분류하는 방법의 예는, 제 1 시간 간격에 따라, 샘플링된 오디오 데이터를 획득하도록 오디오 환경을 샘플링하는 단계, 샘플링된 오디오 데이터의 특성들을 계산하는 단계, 제 2 시간 간격에 따라, 샘플링된 오디오 데이터의 특성들로부터 오디오 클러스터(cluster) 식별자를 추론하는 단계, 및 제 3 시간 간격에 따라, 샘플링된 오디오 데이터의 특성들을 사용하여 오디오 환경 모델을 업데이트하는 단계를 포함한다.
[0004] 방법의 구현들은, 다음의 특성들 중 하나 또는 그 초과를 포함할 수도 있다. 샘플링된 오디오 데이터의 특성들을 계산하는 단계는, 복수의 MFCC(mel-frequency ceptral coefficient)들을 계산하는 단계, 복수의 MFCC들을 사용하여 제 1 시간 간격에 걸친 MFCC 데이터의 통계들의 구동 추정(running estimate)들을 생성하는 단계, 및 MFCC 데이터의 통계들의 구동 추정들을 저장하는 단계를 포함할 수도 있다. MFCC 데이터의 통계들의 구동 추정들을 생성하는 단계는, 복수의 MFCC들을 오디오 환경에 대한 복수의 MFCC들의 평균에 비례하는 추정에 부가하는 단계, 및 복수의 MFCC들의 제곱을 오디오 환경에 대한 복수의 MFCC들의 분산에 비례하는 추정에 부가하는 단계를 포함할 수도 있다. 오디오 클러스터 식별자를 추론하는 단계는, MFCC 데이터의 통계들의 구동 추정들, 이전에 저장된 오디오 환경 모델, 및 이전에 결정된 오디오 환경 확률 분포를 판독하는 단계, MFCC 데이터의 통계들의 구동 추정들, 이전에 저장된 오디오 환경 모델, 및 이전에 결정된 오디오 환경 확률 분포를 사용하여 현재 오디오 환경 확률 분포를 계산하는 단계, 이전에 결정된 오디오 환경 확률 분포를 현재 오디오 환경 확률 분포로 대체하는 단계, 현재 오디오 환경 확률 분포에 따라 현재 오디오 클러스터 식별자를 추론하는 단계, 및 MFCC 통계들로서 MFCC 데이터의 통계들의 구동 추정들을 저장하는 단계를 포함할 수도 있다. 오디오 환경 모델을 업데이트하는 단계는, MFCC 통계들을 판독하는 단계, MFCC 통계들을 사용하여 오디오 환경 모델을 업데이트하는 단계, 및 저장 디바이스에 오디오 환경 모델을 저장하는 단계를 포함할 수도 있다. 오디오 환경을 샘플링하는 단계는 20 내지 30 밀리초 사이의 지속기간 동안 수행될 수 있고, 오디오 클러스터 식별자를 추론하는 단계는 1 내지 100 밀리초 사이의 지속기간 동안 수행될 수 있으며, 오디오 환경 모델을 업데이트하는 단계는 1 내지 20 분 사이의 지속기간 동안 수행될 수 있다. 제 1 시간 간격은 제 2 시간 간격보다 실질적으로 짧을 수 있고, 제 2 시간 간격은 제 3 시간 간격보다 실질적으로 짧을 수 있다. 제 1 시간 간격은 .5 내지 3 초 사이일 수 있고, 제 2 시간 간격은 30 내지 120 초 사이일 수 있으며, 제 3 시간 간격은 6 내지 24 시간 사이일 수 있다. 오디오 클러스터 식별자는 주변 오디오 환경을 표현할 수 있다.
[0005] 본 발명에 따른 오디오 환경을 분류하기 위한 장치의 예는, 메모리 유닛, 프로세서를 포함하고, 프로세서는, 제 1 시간 간격에 따라, 샘플링된 오디오 데이터를 획득하도록 오디오 환경을 샘플링하고, 샘플링된 오디오 데이터의 특성들을 계산하고, 오디오 클러스터 식별자가 메모리 유닛에 저장되도록, 제 2 시간 간격에 따라, 샘플링된 오디오 데이터의 특성들로부터 오디오 클러스터 식별자를 추론하며, 제 3 시간 간격에 따라, 샘플링된 오디오 데이터의 특성들을 사용하여 오디오 환경 모델을 업데이트하도록 프로그래밍된다.
[0006] 장치의 구현들을 다음의 특성들 중 하나 또는 그 초과를 포함할 수도 있다. 프로세서는, 복수의 MFCC(mel-frequency ceptral coefficient)들을 계산하고, 복수의 MFCC들을 사용하여 제 1 시간 간격에 걸친 MFCC 데이터의 통계들의 구동 추정들을 생성하며, MFCC 데이터의 통계들의 구동 추정들을 메모리 모듈에 저장하도록 프로그래밍될 수 있다. 프로세서는, 복수의 MFCC들을 오디오 환경에 대한 복수의 MFCC들의 평균에 비례하는 추정에 부가하고, 복수의 MFCC들의 제곱을 오디오 환경에 대한 복수의 MFCC들의 분산에 비례하는 추정에 부가하도록 구성될 수 있다. 또한, 프로세서는, MFCC 데이터의 통계들의 구동 추정들, 이전에 저장된 오디오 환경 모델, 및 이전에 결정된 오디오 환경 확률 분포를 판독하고, MFCC 데이터의 통계들의 구동 추정들, 이전에 저장된 오디오 환경 모델, 및 이전에 결정된 오디오 환경 확률 분포를 사용하여 현재 오디오 환경 확률 분포를 계산하고, 이전에 결정된 오디오 환경 확률 분포를 현재 오디오 환경 확률 분포로 대체하고, 현재 오디오 환경 확률 분포에 따라 현재 오디오 클러스터 식별자를 추론하며, MFCC 통계들로서 MFCC 데이터의 통계들의 구동 추정들을 저장하도록 구성될 수도 있다. 또한, 프로세서는, MFCC 통계들을 판독하고, MFCC 통계들을 사용하여 오디오 환경 모델을 업데이트하며, 메모리 유닛에 오디오 환경 모델을 저장하도록 프로그래밍될 수도 있다. 오디오 환경은, 20 내지 30 밀리초 사이의 지속기간 동안 샘플링될 수 있고, 오디오 클러스터 식별자는 1 내지 100 밀리초 사이의 지속기간으로 추론될 수 있으며, 오디오 환경 모델은 1 내지 20 분 사이의 지속기간으로 업데이트될 수 있다. 제 1 시간 간격은 제 2 시간 간격보다 실질적으로 짧을 수 있고, 제 2 시간 간격은 제 3 시간 간격보다 실질적으로 짧을 수 있다. 프로세서는, 제 1 시간 간격이 .5 내지 3 초 사이이고, 제 2 시간 간격이 30 내지 120 초 사이이며, 제 3 시간 간격이 6 내지 24 시간 사이이도록 프로그래밍될 수 있다. 프로세서는, 오디오 클러스터 식별자가 주변 오디오 환경을 표현함을 표시하도록 프로그래밍될 수 있다.
[0007] 본 발명에 따른 컴퓨터 프로그램 물건의 예는, 프로세서-실행가능 컴퓨터 저장 매체 상에 상주하며, 프로세서로 하여금, 제 1 시간 간격에 따라, 샘플링된 오디오 데이터를 획득하도록 오디오 환경을 샘플링하고, 샘플링된 오디오 데이터의 특성들을 계산하고, 제 2 시간 간격에 따라, 샘플링된 오디오 데이터의 특성들로부터 오디오 클러스터 식별자를 추론하며, 제 3 시간 간격에 따라, 샘플링된 오디오 데이터의 특성들을 사용하여 오디오 환경 모델을 업데이트하게 하도록 구성되는 프로세서-실행가능 명령들을 포함한다.
[0008] 컴퓨터 프로그램 물건의 구현들은 다음의 특성들 중 하나 또는 그 초과를 포함할 수도 있다. 명령들은, 프로세서로 하여금, 복수의 MFCC(mel-frequency ceptral coefficient)들을 계산하고, 복수의 MFCC들을 사용하여 제 1 시간 간격에 걸친 MFCC 데이터의 통계들의 구동 추정들을 생성하며, MFCC 데이터의 통계들의 구동 추정들을 메모리 모듈에 저장하게 하도록 구성된다. 명령들은, 프로세서로 하여금, 복수의 MFCC들을 오디오 환경에 대한 복수의 MFCC들의 평균에 비례하는 추정에 부가하고, 복수의 MFCC들의 제곱을 오디오 환경에 대한 복수의 MFCC들의 분산에 비례하는 추정에 부가하게 하도록 구성된다. 명령들은, 프로세서로 하여금, MFCC 데이터의 통계들의 구동 추정들, 이전에 저장된 오디오 환경 모델, 및 이전에 결정된 오디오 환경 확률 분포를 판독하고, MFCC 데이터의 통계들의 구동 추정들, 이전에 저장된 오디오 환경 모델, 및 이전에 결정된 오디오 환경 확률 분포를 사용하여 현재 오디오 환경 확률 분포를 계산하고, 이전에 결정된 오디오 환경 확률 분포를 현재 오디오 환경 확률 분포로 대체하고, 현재 오디오 환경 확률 분포에 따라 현재 오디오 클러스터 식별자를 추론하며, MFCC 통계들로서 MFCC 데이터의 통계들의 구동 추정들을 저장하게 하도록 구성된다. 명령들은, 프로세서로 하여금, MFCC 통계들을 판독하고, MFCC 통계들을 사용하여 오디오 환경 모델을 업데이트하며, 오디오 환경 모델을 저장하게 하도록 구성된다. 명령들은, 프로세서로 하여금, 20 내지 30 밀리초 사이의 지속기간 동안 오디오 환경을 샘플링하고, 1 내지 100 밀리초 사이의 지속기간 동안 오디오 클러스터 식별자를 추론하며, 1 내지 20 분 사이의 지속기간 동안 오디오 환경 모델을 업데이트하게 하도록 구성된다. 명령들은, 제 1 시간 간격이 제 2 시간 간격보다 실질적으로 짧고, 제 2 시간 간격이 제 3 시간 간격보다 실질적으로 짧을 수 있음을 표시한다. 명령들은, 제 1 시간 간격이 .5 내지 3 초 사이이고, 제 2 시간 간격이 30 내지 120 초 사이이며, 제 3 시간 간격이 6 내지 24 시간 사이임을 표시하기 위한 것이다. 명령들은, 프로세서로 하여금, 주변 오디오 환경을 표현할 수 있는 오디오 클러스터 식별자를 추론하게 하기 위한 것이다.
[0009] 본 발명에 따른, 모바일 디바이스를 이용하여 오디오 환경을 분류하기 위한 장치의 예는, 제 1 시간 간격에 따라, 샘플링된 오디오 데이터를 획득하도록 오디오 환경을 샘플링하기 위한 수단, 샘플링된 오디오 데이터의 특성들을 계산하기 위한 수단, 제 2 시간 간격에 따라, 샘플링된 오디오 데이터의 특성들로부터 오디오 클러스터 식별자를 추론하기 위한 수단, 및 제 3 시간 간격에 따라, 샘플링된 오디오 데이터의 특성들을 사용하여 오디오 환경 모델을 업데이트하기 위한 수단을 포함한다.
[0010] 장치의 구현들은 다음의 특성들 중 하나 또는 그 초과를 포함할 수도 있다. 샘플링된 오디오 데이터의 특성들을 계산하기 위한 수단은, 복수의 MFCC(mel-frequency ceptral coefficient)들을 계산하기 위한 수단, 복수의 MFCC들을 사용하여 제 1 시간 간격에 걸친 MFCC 데이터의 통계들의 구동 추정들을 생성하기 위한 수단, 및 MFCC 데이터의 통계들의 구동 추정들을 저장하기 위한 수단을 포함할 수 있다. MFCC 데이터의 통계들의 구동 추정들을 생성하기 위한 수단은, 복수의 MFCC들을 오디오 환경에 대한 복수의 MFCC들의 평균에 비례하는 추정에 부가하기 위한 수단, 및 복수의 MFCC들의 제곱을 오디오 환경에 대한 복수의 MFCC들의 분산에 비례하는 추정에 부가하기 위한 수단을 포함할 수 있다. 오디오 클러스터 식별자를 추론하기 위한 수단은, MFCC 데이터의 통계들의 구동 추정들, 이전에 저장된 오디오 환경 모델, 및 이전에 결정된 오디오 환경 확률 분포를 판독하기 위한 수단, MFCC 데이터의 통계들의 구동 추정들, 이전에 저장된 오디오 환경 모델, 및 이전에 결정된 오디오 환경 확률 분포를 사용하여 현재 오디오 환경 확률 분포를 계산하기 위한 수단, 이전에 결정된 오디오 환경 확률 분포를 현재 오디오 환경 확률 분포로 대체하기 위한 수단, 현재 오디오 환경 확률 분포에 따라 현재 오디오 클러스터 식별자를 추론하기 위한 수단, 및 MFCC 통계들로서 MFCC 데이터의 통계들의 구동 추정들을 저장하기 위한 수단 포함할 수 있다. 오디오 환경 모델을 업데이트하기 위한 수단은, MFCC 통계들을 판독하기 위한 수단, MFCC 통계들을 사용하여 오디오 환경 모델을 업데이트하기 위한 수단, 및 저장 디바이스에 오디오 환경 모델을 저장하기 위한 수단을 포함할 수도 있다. 오디오 환경을 샘플링하는 것은, 20 내지 30 밀리초 사이의 지속기간 동안 수행될 수 있고, 오디오 클러스터 식별자를 추론하는 것은, 1 내지 100 밀리초 사이의 지속기간 동안 수행될 수 있으며, 오디오 환경 모델을 업데이트하는 것은, 1 내지 20 분 사이의 지속기간 동안 수행될 수 있다. 일반적으로, 제 1 시간 간격은 제 2 시간 간격보다 실질적으로 짧고, 제 2 시간 간격은 제 3 시간 간격보다 실질적으로 짧다. 제 1 시간 간격은 .5 내지 3 초 사이일 수 있고, 제 2 시간 간격은 30 내지 120 초 사이일 수 있으며, 제 3 시간 간격은 6 내지 24 시간 사이일 수 있다.
[0011] 본 명세서에 설명된 항목들 및/또는 기술들은 다음의 능력들 중 하나 또는 그 초과 뿐만 아니라 언급되지 않는 다른 능력들을 제공할 수도 있다. 사용자의 스마트폰에 의해 캡쳐된 오디오 데이터는 별개의 주변 환경들로 클러스터링될 수 있다. 캡쳐된 오디오 클립들이 저장될 필요가 없기 때문에 사용자의 프라이버시가 유지될 수 있다. 3개의 독립적인 서비스들이 상이한 시간 스케일로 실행되고, 전력을 보존하도록 듀티 사이클링(duty cycle)될 수 있다. 특성 계산 서비스는 초의 시간 스케일로 동작할 수 있다. 추론 서비스/엔진은 분의 시간 스케일로 동작할 수 있다. 모델 업데이트 서비스는 시간 또는 하루(day)의 시간 스케일로 동작할 수 있다. 다른 능력들이 제공될 수도 있으며, 본 발명에 따른 모든 각각의 구현이, 설명된 능력들 전부는 물론 설명된 능력들 중 임의의 것을 제공해야만 하는 것은 아니다. 추가적으로, 언급된 효과는 언급된 것 이외의 수단에 의해 달성되는 것이 가능할 수도 있으며, 언급된 항목/기술이 반드시 언급된 효과를 산출하는 것은 아닐 수도 있다.
[0012] 본 발명의 전술된 특성들 및 이점들 뿐만 아니라 본 발명의 부가적인 특성들 및 이점들은, 다음의 도면들과 함께 본 발명의 실시예들의 상세한 설명들을 읽은 이후에 더 명백히 이해가능해질 것이다.
[0013] 도 1은 모바일 계산 디바이스의 컴포넌트들의 블록도이다.
[0014] 도 2a 및 도 2b는 본 발명의 몇몇 양상들에 따른, 오디오 환경들의 예시적인 분류들을 도시한다.
[0015] 도 3은 본 발명의 몇몇 양상들에 따른, 오디오 환경을 분류하는 방법을 도시하는 예시적인 흐름도이다.
[0016] 도 4는 본 발명의 몇몇 양상들에 따른, 오디오 환경 데이터를 클러스터링하는데 사용되는 예시적인 모델을 도시한다.
[0017] 도 5는 본 발명의 몇몇 양상들에 따른, 오디오 환경을 분류하는 프로세스를 도시하는 다른 예시적인 흐름도이다.
[0018] 도 6은 본 발명의 몇몇 양상들에 따른, 데이터 포착 및 특성 계산의 예시적인 시간적 맵핑(mapping)을 도시한다.
[0019] 도 7은 본 발명의 몇몇 양상들에 따른, 환경 추론의 예시적인 시간적 맵핑을 도시한다.
[0020] 도 8은 본 발명의 몇몇 양상들에 따른, 오디오 환경 모델을 업데이트하는 예시적인 시간적 맵핑을 도시한다.
[0021] 오디오 환경들을 분류하는 실시예들이 기재된다. 다음의 설명들은 임의의 당업자가 본 발명을 사용 또는 실시할 수 있도록 제공된다. 특정한 실시예들 및 적용들의 설명들은 단지 예들로서 제공된다. 본 명세서에 설명된 예들의 다양한 변형들 및 결합들은 당업자들에게 용이하게 명백할 것이며, 본 명세서에 정의된 일반적인 원리들은 본 발명의 사상 및 범위를 벗어나지 않으면서 다른 예들 및 애플리케이션들에 적용될 수도 있다. 따라서, 본 발명은, 설명되고 도시된 예들로 제한되도록 의도되는 것이 아니라, 본 명세서에 기재된 원리들 및 특성들과 일치하는 가장 넓은 범위에 부합할 것이다.
[0022] 도 1을 참조하면, 예시적인 모바일 디바이스(100)는, 무선 네트워크를 통해 무선 안테나(122)를 통하여 무선 신호들(123)을 전송 및 수신하는 무선 트랜시버(121)를 포함한다. 트랜시버(121)는 무선 트랜시버 버스 인터페이스(120)에 의해 버스(101)에 접속된다. 또한, 무선 트랜시버 버스 인터페이스(120)는, 도 1에서 별개의 컴포넌트들로서 도시되지만 무선 트랜시버(121)의 일부일 수도 있다. 여기서, 모바일 디바이스(100)는 단일 무선 트랜시버(121)를 갖는 것으로 도시된다. 그러나, 대안적으로, 모바일 디바이스(100)는, WiFi, 코드 분할 다중 액세스(CDMA), 광대역 CDMA(WCDMA), 롱 텀 에볼루션(LTE), Bluetooth 등과 같은 다수의 통신 표준들을 지원하기 위해 다수의 무선 트랜시버들(121) 및 무선 안테나들(122)을 가질 수 있다.
[0023] 또한, 범용 프로세서(111), 메모리(140), 디지털 신호 프로세서(DSP)(112) 및/또는 특수화된 프로세서(들)(도시되지 않음)가 무선 신호들(123) 또는 오디오 입력 신호들을 프로세싱하기 위해 전체로 또는 부분적으로 이용될 수도 있다. 무선 신호들(123)로부터의 정보의 저장은, 메모리(140) 또는 레지스터들(도시되지 않음)을 사용하여 수행된다. 오직 하나의 범용 프로세서(111), DSP(112) 및 메모리(140)가 도 1에 도시되지만, 이들 컴포넌트들 중 임의의 컴포넌트의 하나 초과가 모바일 디바이스(100)에 의해 사용될 수 있다. 범용 프로세서(111) 및 DSP(112)는, 직접 또는 버스 인터페이스(110)에 의해 버스(101)에 접속된다. 부가적으로, 메모리(140)는, 직접 또는 버스 인터페이스(150)에 의해 버스(101)에 접속된다. 버스 인터페이스들(110)은, 구현될 때, 범용 프로세서(111), DSP(112) 및/또는 메모리(140)와 함께 집적되거나 이들과 독립적으로 집적될 수 있으며, 이들은 버스 인터페이스들을 이용하여 연관된다.
[0024] 메모리(140)는, 하나 또는 그 초과의 명령들 또는 코드로서 기능들을 저장하는 비-일시적인 컴퓨터-판독가능 저장 매체(또는 매체들)를 포함한다. 메모리(140)를 구성할 수 있는 매체들은, RAM, ROM, FLASH, 디스크 드라이브들 등을 포함하지만 이에 제한되지 않는다. 메모리(140)에 의해 저장된 기능들은, 범용 프로세서(111), 특수화된 프로세서(들), 또는 DSP(112)에 의해 실행된다. 따라서, 메모리(140)는, 프로세서(111) 및/또는 DSP(112)로 하여금 설명된 기능들을 수행하게 하도록 구성되는 소프트웨어 코드(프로그래밍 코드, 명령들 등)를 저장하는 프로세서-판독가능 메모리 및/또는 컴퓨터-판독가능 메모리이다. 대안적으로, 모바일 디바이스(100)의 하나 또는 그 초과의 기능들은 하드웨어에서 전체로 또는 부분적으로 수행될 수도 있다.
[0025] 추가적으로, 모바일 디바이스(100)는, 모바일 디바이스(100)의 근방에서 주변 오디오를 캡쳐하는 마이크로폰(135)을 포함한다. 여기서, 모바일 디바이스(100)는 하나의 마이크로폰(135)을 포함하지만, 마이크로폰 어레이(array), 듀얼-채널 스테레오 마이크로폰 등과 같은 다수의 마이크로폰들(135)이 사용될 수 있다. 모바일 디바이스(100)에 의해 구현되면, 다수의 마이크로폰들(135)은 서로 상호의존적으로 또는 독립적으로 동작할 수 있다. 마이크로폰(135)은, 독립적으로 또는 버스 인터페이스(110)를 통해 버스(101)에 접속된다. 예를 들어, 마이크로폰(135)은, 마이크로폰(135)에 의해 캡쳐된 오디오를 프로세싱하기 위해, 버스(101)를 통해 DSP(112)와 통신할 수 있다. 부가적으로, 마이크로폰(135)은, 범용 프로세서(111) 및/또는 메모리(140)와 통신하여, 캡쳐된 오디오와 연관된 메타데이터를 생성하거나 그렇지 않으면 그러한 메타데이터를 획득할 수 있다.
[0026] 도 2a를 참조하면, 오디오 환경들의 예시적인 분류들(200)이 도시된다. 오디오 환경 클러스터들은, 상이한 위치들 및 모바일 디바이스(100) 주변에서 발생하는 활동들을 표현할 수 있다. 주된 예는, 마이크로폰(135)을 통하여 검출된 사운드들에 기초하여 오디오 환경 클러스터를 추론하는 것이다. 가속도계들, 광 검출기들, 및 위치 결정 기능들과 같은 다른 센서들이 오디오 환경 클러스터를 추론하는 것을 돕기 위해 사용될 수도 있다. 제 1 예시적인 분류(200)는, 오디오 환경 클러스터를 표현하기 위한 수직 축(202), 및 시간을 표현하기 위한 수평 축(204)을 포함한다. 기재된 시스템들 및 방법들은, 음성, 군중, 단독, 타이핑, 시각(time of day), 모션(motion) 상태, 및 다른 관련있는 오디오 추론들과 같은 추론들을 종합하는(aggregate) 것에 의한 오디오 환경들에 기초하여 상황들을 추론할 수도 있다. 이러한 예에서, 추론된 상황들은, 미팅 클러스터(206), 지상라인 전화(landline phone) 클러스터(208), 단독 업무(working alone) 클러스터(210), 드라이빙 클러스터(212) 및 취침 클러스터(214)를 포함할 수도 있다. 상황 추론 방법은, 적절한 시간 기간에 걸쳐 드라이빙 추론들을 종합함으로써 모션-기반 드라이브 검출을 향상시키기 위해 사용될 수도 있음을 유의한다.
[0027] 도 2b를 참조하면, 시각에 기초한 오디오 환경들의 예시적인 분류들(250)이 도시된다. 일 실시예에서, 모바일 디바이스(100)는, 하루의 코스에 걸쳐 오디오 환경을 검출할 수 있다. 검출 이벤트의 결과들은 이전에 저장된 모델과 비교될 수 있고, 활동 라벨들이 추론될 수 있다. 분류 도표(250)에서, 수직 축(252)은 상태를 표현하고, 수평 축(254)은 시각을 표현한다. 예시적인 분류는 이전에 저장된 모델들에 기초하여 추론될 수 있다. 제한이 아닌 일 예에서, 모델은, 잡일(chores) 클러스터, 단독 업무 클러스터, 통근(commuting) 클러스터, 지상라인 전화 클러스터, 운동 클러스터, 다른 사람들과의 대화 클러스터, 식사 클러스터, 및 TV 시청 클러스터를 포함하는 추론될 수도 있는 상황들에 대한 활동 라벨들을 포함한다. 다른 클러스터들이 또한 추론될 수도 있고, 모델들은, 사용자의 활동 및 대응하는 음향, 및 가급적 다른 감각적 입력에 기초하여, 더 많은 활동 라벨들을 포함하도록 확장될 수도 있다.
[0028] 도 3을 참조하면, 모바일 디바이스(100)를 사용하여 오디오 한경을 분류하는 방법(300)의 예시적인 흐름도가 도시된다. 그러나, 방법(300)은, 단지 예시적이며 제한적인 것이 아니다. 방법(300)은, 예를 들어, 스테이지들을 부가, 제거, 또는 재배열되게 함으로써 변경될 수도 있다.
[0029] 일 실시예에서, 방법(300)은, 주변 오디오 환경의 원본 샘플들이 장기 메모리에 존속(persist)하지 않는다는 점에서 사용자의 프라이버시를 보호한다. 또한, 방법(300)은, 듀티-사이클링된 오디오 샘플링 및 특성 계산, 적은 수의 충분 통계량(sufficient statistic)들의 관점에서 현재 주변 오디오 환경의 특성화, 오디오 추론을 수행하기 위해 단시간의 기간들 동안 프로세서를 웨이킹(wake)하는 것, 및 계산 집중적인 모델 업데이트들을 드물게 그리고 기회주의적으로, 예컨대 디바이스가 충전 중일 때 수행하는 것과 같은 특성들을 통해 저-전력 상시-온 구현을 가능하게 할 수 있다.
[0030] 본 발명의 양상들에 따르면, 방법은, 프로세서(111)를 사용하여 3개의 서비스들, 즉, 특성 계산 서비스(302), 추론 엔진(304), 및 오디오 모델 환경 업데이트 서비스(306)를 구동하는 것을 포함한다. 각각의 서비스는 전력 소비를 최소화하기 위해 듀티-사이클링된 방식으로 수행될 수도 있음을 유의한다. 각각의 서비스는 상이한 시간 스케일로 동작할 수도 있다.
[0031] 일 예시적인 구현에서, 특성 계산 서비스(302)는 초의 시간 스케일로 동작한다. 스테이지(308)에서, 모바일 디바이스(100) 상의 프로세서(111)는, 듀티 사이클 동안 오디오 수신 체인을 활성화하기 위한 명령들을 실행할 수도 있다. 예로서, 듀티 사이클(예를 들어, TON + TOFF)은, 대략적으로 500 내지 3000 밀리초(ms)의 범위 내의 지속기간을 갖는 듀티 온(duty on)(예를 들어, TON) 상태를 포함한다. 듀티 온 기간 동안 오디오 체인이 활성화된 경우, 스테이지(310)에서 서비스(302)는, 모바일 디바이스가, 마이크로폰(135) 및 프로세서(들)를 포함할 수도 있는 오디오 서브-시스템을 턴 온(turn on) 하고, 약 20 내지 30 ms의 오디오 데이터를 샘플링하도록 명령할 수 있다. 일 예에서, 샘플링 주파수(fs)는 대략적으로 16 Hz이다.
[0032] 스테이지(312)에서, 프로세서(111) 및 DSP(112)는 13개의 MFCC(Mel-Frequency Cepstral Coefficient)들을 계산할 수 있다. 일 예에서, MFCC들은 30 ms 오디오 프레임에 기초한다. 그 후, 스테이지(314)에서, MFCC 통계들(예를 들어, 평균 및 분산들)이 업데이트되고 저장된다. 통상적으로, 스테이지(314)에서의 구동 추정들에 대해 사용되는 메모리는 휘발성 메모리이다. 예를 들어, 비교 서비스(302)는, MFCC 통계 값들을 현재 오디오 환경에 대한 MFCC들의 평균의 구동 추정에 부가하고, 이들 값들의 제곱을 현재 오디오 환경에 대한 MFCC들의 분산의 구동 추정에 부가한다. 통상적으로, 이들 값들은 MFCC 당 2 바이트의 메모리를 요구하며, 평균 값에 대해 총 26 B 및 분산에 대해 총 26 B를 요구한다. 따라서, 총 사용되는 메모리는 52 B이다. 그 후, 오디오-서브시스템은, 매 초마다 남아있는 시간 동안(대략적으로 965-975 ms) 유휴상태(idle) 또는 휴면상태(asleep)일 수도 있다.
[0033] 일 실시예에서, 추론 엔진(304)은 분의 시간 스케일로 동작한다. 스테이지(320)에서, 프로세서(111)는, 관련있는 리소스들(예를 들어, DSP(112), 메모리(140), 특수화된 프로세서들)을 웨이크 업(wake up)시키도록 구성된다. 통상적인 인터페이스 윈도우 타이머(TINF)는 매 30-120 초마다 만료될 것이다. 타이머가 만료되는 경우, 스테이지(322)에서 엔진(304)은, 스테이지(314)로부터의 MFCC들의 평균 및 분산의 구동 추정들, 스테이지(336)로부터의 저장된 오디오 환경 모델, 및 스테이지(328)로부터의 이전 오디오 환경 분포를 메모리로부터 판독하기 위한 명령들을 포함하고, 이들을 판독한다. 그 후, 엔진(304)은, HMM(Hidden Markov Model)들의 전향 알고리즘(forward algorithm)을 사용하여 새로운 오디오 환경 분포를 계산한다. 그 후, 이전 오디오 환경 분포가 스테이지(328)에서 새로운 것으로 대체된다. 스테이지(324)에서, 엔진(304)은, 현재 오디오 클러스터로서 가장 높은 확률을 갖는 상태를 공시(publish)한다. 스테이지(326)에서, 엔진(304)은, 평균 및 분산의 구동 추정들을 스테이지(330)에서의 비-휘발성 메모리 내의 저장부로 복사하고, 스테이지(314)에서의 구동 추정들을 0으로 리셋한다. 일 실시예에서, 이들 동작들은 대략적으로 약 5 ms를 소요할 수도 있다. 그 후, 엔진(304)은, 인터페이스 윈도우 간격의 나머지(remainder) 동안 슬립(sleep)으로 돌아갈 수도 있다.
[0034] 일반적으로, 오디오 모델 환경 업데이트 서비스(306)는, 시간 또는 하루의 시간 스케일들로 동작한다. 스테이지(332)에서, 업데이트 서비스(306)는 관련있는 프로세서(들)(예를 들어, 프로세서(111), DSP(112), 특수화된 프로세서들)를 웨이크 업시킨다. 제한이 아닌 예로서, 주기적 모델 업데이트를 위한 시간은, 모바일 디바이스(100)가 플러그 인(plug-in)될 때, 바람직하게는 자정 이후에, 하루에 한 번 발생한다. 일단 업데이트가 트리거링(trigger)되면, 스테이지(334)에서, 업데이트 서비스(306)는 저장된 MFCC 데이터(즉, 스테이지(330)에서의 저장된 구동 추정들)를 로딩하고, 오디오 환경 모델 업데이트를 위해 계산들을 수행한다. 이러한 계산이 완료된 경우, 저장된 오디오 환경 모델은 스테이지(336)에서 업데이트될 수도 있고, 관련있는 프로세서들은 다시 슬립으로 놓여질 수 있다. 일 예에서, 스테이지(334)에서의 업데이트 오디오 모델 동작은, 실행되는데 대략적으로 약 1 내지 2 분을 소요할 수도 있다.
[0035] 일 실시예에서, 오디오 모델 환경 업데이트 서비스(306)는, 네트워크를 통하여 모바일 디바이스(100)에 접속되는 원격 서버에 의해 수행된다. 예를 들어, 원격 서버는, 무선 통신 링크를 통하여 액세스가능한 광역 네트워크(예를 들어, 셀룰러 네트워크) 상에 있을 수 있다. 또한, 원격 서버는, 펨토(Femto) 셀 또는 다른 네트워크 액세스 포인트를 통하여 액세스가능할 수도 있다.
[0036] 본 발명의 양상들에 따르면, 오디오 환경 모델 업데이트 서비스(306)는, 저장된 MFCC 데이터를 클러스터링한다. 데이터는, 매 분당 13개의 MFCC들 각각에 대한 하나의 평균 값 및 하나의 분산 값을 포함한다. t번째 분에서의 d번째 MFCC에 대한 저장된 평균 및 분산 데이터 포인트들은, yS(d, t) 및 yS2(d, t)에 의해 각각 표시된다. 클러스터링 동작은, 사용자가 자주 가는 별개의 오디오 환경들의 개수, 및 이들 별개의 오디오 환경들을 특성화하는 파라미터들 둘 모두를 알게 된다. 이들 알게 된 값들은 업데이트된 오디오 환경 모델을 구성한다.
[0037] 시간적 정보, 및 다른 감각적 입력은 클러스터링 동작에 포함될 수 있으며, 그로써 정보는 성능을 개선할 수도 있다. 이러한 접근법에서, 동일한 클러스터에 2개의 숨겨진 상태들을 할당하는 것이, 이들이 적시에(in time) 근접하여 함께 발생하거나, 유사한 감각적 입력 정보를 갖는다면 선호될 수도 있다.
[0038] 도 4를 참조하면, 오디오 환경 데이터를 클러스터링하는데 사용되는 예시적인 모델(400)이 도시된다. 일 구현에서, 데이터는 특정한 통계적 모델에 따라 생성되고, 모델들로부터 모델의 가장 알맞은 파라미터들이 주어진 관측들로부터 추론될 수 있다는 것이 가정된다. 일 예에서, 모델은, 데이터에 숨겨진 클러스터들의 개수에 관한 통계적 가정들을 통합하는 베이시안 비모수적(Bayesian non-parametric) 모델일 수 있다.
[0039] 모델에서의 각각의 클러스터 k ∈ {1, 2,..., K)는, 평균 벡터 μk = [μk(1),..., μk(13)] 및 분산 벡터 σk 2 = [σk 2(1),..., σk 2(13)]에 의해 파라미터화된다. 발견된 클러스터들의 총 개수는 K로 표시된다.
[0040] 클러스터링은, K, μ1,..., μK, σ1 2,..., σk 2, 및 π를 출력하며, 여기서 π는, 클러스터들(즉 상태들)의 쌍들 사이의 트랜지션 확률들을 표현하는 매트릭스이다. 클러스터링을 위해 사용되는 모델이 도 4에 도시된다. 초기에, 모델은, 예측된 상태들의 개수보다 큰 상태들의 개수 L로 구성될 수도 있다. 일 접근법에서, 방법은 L ≫ K를 선택한다. 모델에서, zt는, 하루의 t번째 분 동안 오디오 환경의 숨겨진 클러스터 식별자를 표현한다. 변수 yt,o = [y1,t,o … y13,t,o]는, 데이터의 t번째 분 동안 관측된 원(raw) 오디오 데이터 스트림으로부터 계산된 13개의 차원 MFCC 특성 벡터를 표현한다. 변수 O는 분당 계산된 특성 벡터들의 개수를 표현한다. 다른 접근법에서, 방법은 O = 60을 사용한다. 저장된 데이터는, 충분 통계량들
Figure 112015055371225-pct00001
Figure 112015055371225-pct00002
에 의해 MFCC 특성 벡터들을 요약(encapsulate)한다.
[0041] 본 발명의 양상들에 따르면, 주어진 시점에서의 클러스터 식별자는, zt-1을 zt에 접속시키는 화살표에 의해 표현되는 이전 시점에서의 클러스터 식별자의 함수일 수 있다. 남아있는 변수들은, 클러스터링 모델의 다양한 파라미터들을 표현한다. 도 4는 본 발명의 몇몇 양상들에 따른, 오디오 환경 데이터를 클러스터링하는데 사용되는 예시적인 모델을 도시한다.
[0042] 본 발명의 몇몇 양상들에 따르면, 추론 엔진(304)은, MFCC 통계들의 구동 추정들 yS(d, t) 및 yS2(d, t) 및 이전 오디오 환경 분포
Figure 112015055371225-pct00003
와 함께, 파라미터들 K, μ1,..., μK, σ1 2,..., σk 2, 및 π로 이루어지는 트레이닝된 모델을 사용하여, 새로운 환경 분포
Figure 112015055371225-pct00004
를 추론하고, 세트 {1,..., K}로부터의 정수로서 이러한 분포로부터의 가장 가능성 있는 상태의 식별자를 출력한다. 예를 들어, t번째 분은 다음과 같이 이루어질 수도 있다.
Figure 112015055371225-pct00005
, 여기서,
Figure 112015055371225-pct00006
이다. b의 계산은 일반적으로 로그-도메인에서 수행된다.
[0043] 일 구현에서, 사용자 데이터 상에서의 이러한 오디오 환경 클러스터링 방법의 효능의 예가 도 2b에 도시된다. x-축은 시간 단위로 하루의 시간을 나타낸다. y-축은, 동일한 사용자로부터의 2주의 이전 데이터를 사용하여 모델을 트레이닝하는 것에 기초한 추론된 클러스터 식별자를 도시한다. 활동 라벨들은, 사용자에 의해 제공되는 바와 같은 시간들에서 플롯 상에 도시된다.
[0044] 도 5를 참조하면서 도 3을 추가적으로 참조하면, 모바일 디바이스(100)를 사용하여 오디오 환경을 분류하기 위한 프로세스(500)가 도시된다. 일반적으로, 프로세스(500)는, 모바일 디바이스(100)의 컴포넌트들에 명령하여 식별된 태스크들을 수행하게 하도록 구성되는 메모리(140)에 저장된 컴퓨터-판독가능 명령들을 통해 인에이블링된다. 그러나, 프로세스(500)는, 단지 예시적이며 제한적이지 않다. 프로세스(500)는, 예를 들어, 스테이지들을 부가, 제거, 또는 재배열되게 함으로써 변경될 수도 있다. 일 실시예에서, 프로세스(500)의 하나 또는 그 초과의 스테이지들은, 네트워크를 통하여 모바일 디바이스(100)에 접속되는 원격 컴퓨터에 의해 수행될 수 있다.
[0045] 스테이지(502)에서, 모바일 디바이스(100)는, 프로세서(들)(예를 들어, 프로세서(111), 및 요구된다면 다른 특수 목적 프로세서들) 및 DSP(112)에 명령하여 MFCC 통계들의 구동 추정들을 업데이트하게 하도록 구성되는 컴퓨터-판독가능 명령들을 포함하는 상시-온 관리자 코드 세그먼트(segment)를 포함한다. 스테이지(508)에서, 상시-온 관리자(502)는, 모바일 디바이스(100)에 명령하여, 오디오 프레임 데이터를 수집하고, MFCC들을 계산하며, MFCC 통계들(즉, 평균 및 분산)을 업데이트하게 할 수 있다. 예를 들어, 상시-온 관리자(502)는, 모바일 디바이스(100)에 명령하여, 마이크로폰(135) 및 오디오 수신 체인의 다른 엘리먼트들(예를 들어, DSP(112), 메모리(140), 프로세서(들))을 포함하는 오디오 서브시스템을 턴 온하게 한다. 오디오 서브시스템을 턴 온시키기 위한 명령은, 초의 스케일(예를 들어, 매 0.5, 1, 1.5, 2, 3초마다)로 발생할 수 있다. 스테이지(510)에서, 모바일 디바이스(100)는, 마이크로폰(135)을 통하여 오디오 프레임 정보를 수집하고, 20-30 ms의 오디오 데이터로 샘플링한다. 스테이지(512)에서, 다수의 MFCC들이 계산된다. 예를 들어, 13개의 MFCC들이 스테이지(514)에서 계산되고, 값들은 현재 오디오 환경에 대한 MFCC들의 평균의 구동 추정에 부가되며, 이들 값들의 제곱이 현재 오디오 환경에 대한 MFCC들의 분산의 구동 추정에 부가된다.
[0046] 스테이지(516)에서, 상시-온 관리자(502) 코드 세그먼트는, 프로세서(들)로 하여금 데이터/메모리 관리 기능들을 수행하게 하기 위한 명령들을 포함한다. 예를 들어, 상시-온 관리자(502)는, MFCC 통계들의 추정들을 스테이지(518)에서의 저장부로 이동시키고, 구동 추정들을 스테이지(514)에서 0으로 리셋하기 위한 명령들을 포함한다. 예에서, 상시-온 관리자(502)는, 환경 추론 엔진(504)과 공동으로 스테이지(516)의 기능들을 수행한다.
[0047] 스테이지(504)에서, 모바일 디바이스(100)는, 프로세서(들) 및 DSP(112)에 명령하여 오디오 환경을 업데이트하게 하도록 구성되는 컴퓨터-판독가능 명령들을 포함하는 환경 추론 엔진 코드 세그먼트를 포함한다. 일반적으로, 환경 추론 엔진(504)은 분의 시간 스케일(예를 들어, 매 1, 1.5, 2, 3분마다)로 실행된다. 스테이지(520)에서, 환경 추론 엔진(504)은, (즉, 스테이지(514)로부터) MFCC 통계들, (즉, 스테이지(524)로부터) 저장된 오디오 환경 모델, 및 (즉, 스테이지(526)로부터) 이전 오디오 환경 분포를 수집하기 위한 명령을 제공한다. 스테이지(522)에서, 환경 추론 엔진(504)은 수집된 정보를 사용하여 오디오 환경을 추론한다. 예를 들어, 추론 오디오 환경 스테이지(522)는, 상술된 바와 같이, HMM들에 대한 전향 알고리즘을 사용한다. 따라서, 스테이지(526)에서, 환경 추론 엔진(504)은 매 분 정도마다 이전 오디오 환경 분포를 새로운 것으로 대체한다. 스테이지(516)에서, MFCC 통계들의 구동 추정들은, 비-휘발성 메모리(예를 들어, 모바일 디바이스(100)가 정지되거나 전력-사이클링(power-cycle)될 때 소거되지 않는 메모리) 내의 저장부로 복사되고, 스테이지(514)에서, 구동 추정들은 0으로 셋팅된다.
[0048] 스테이지(506)에서, 모바일 디바이스(100)는, 저장부로부터 MFCC 통계들을 로딩하고, 모델 업데이트를 계산하도록 구성되는 컴퓨터-판독가능 명령들을 포함하는 환경 업데이트 서비스 코드 세그먼트를 포함한다. 일반적으로, 환경 업데이트 서비스는, 하루의 시간 스케일(예를 들어, 매 1, 1.5, 2, 3일마다)로 실행된다. 스테이지(528)에서, 프로세서(111)는, 스테이지(518)로부터 저장된 MFCC 데이터를 로딩하고, MFCC 데이터 상에서 클러스터링 동작을 수행하도록 명령받는다. 예를 들어, 클러스터링 동작은, 도 4에 도시되고 상술된 바와 같을 수 있다. 클러스터링 동작에 대해 요구되는 프로세싱 전력으로 인해, 모바일 디바이스가 전력 소스에 플러그 인 되고, 사용중이지 않을 때(예를 들어, 한밤중에) 스테이지(528)를 실행시키는 것이 바람직하다. 제한이 아닌 예로서, 동작은 실행되는데 약 1-2 분을 소요할 수도 있다. 일 실시예에서, 저장된 MFCC 통계들은 네트워크를 통해 전달될 수 있고, 스테이지(528)에서의 프로세싱은 원격 컴퓨터 상에서 발생할 수 있다. 업데이트된 오디오 환경 모델은 스테이지(524)에서 메모리에 저장될 수 있다.
[0049] 도 6을 참조하면서 도 3을 추가적으로 참조하면, 데이터 포착 및 특성 계산의 예시적인 시간적 맵핑의 예시(600)가 도시된다. 시간적 맵핑은, 단지 예시적이며 제한이 아니므로 다른 시간적 구성들이 사용될 수도 있다. 일반적으로, 데이터 포착 및 특성 계산 프로세스들(302)은 초 단위로 측정된 스케일로 동작한다. 일 예에서, 모바일 디바이스(100)는, 마이크로폰(135)을 활성화하여 오디오 데이터를 수신하도록 구성된다. 오디오 캡쳐(610)의 지속기간은 통상적으로 20-30 ms의 범위 내이고, 샘플링 주파수는 대략적으로 16 kHz이다. 다른 샘플링 지속기간 및 주파수 결합들이 사용될 수도 있다. 특성 계산 모듈(602)은 캡쳐된 오디오 데이터를 수신하고, 13개의 MFCC들을 계산하며, MFCC 통계들(604)을 추정한다. 이러한 계산 단계(612)의 지속기간은 프로세서 속도에 기초하여 변할 수 있지만, 통상적으로 15-30 ms 범위 내에 있다. 그 후, MFCC 통계들(604)은, 모바일 디바이스(100) 내의 휘발성 메모리 모듈에 기입된다. 프로세서 및 메모리 구성이 판독 및 기입 시간들에 영향을 미칠 수 있지만, 판독/기입 동작(614)의 지속기간은 통상적으로 5-10 ms이다. 오디오를 캡쳐하는 프로세스들 사이의 지속기간(608)은 통상적으로 965-975 ms 사이이다.
[0050] 도 7을 참조하면서 도 3을 추가적으로 참조하면, 환경 추론의 예시적인 시간적 맵핑의 예시(700)가 도시된다. 시간적 맵핑은 단지 예시적이며 제한이 아니므로 다른 시간적 구성들이 사용될 수도 있다. 일반적으로, 환경 추론 엔진(304)은 분 단위로 측정된 스케일로 동작한다. 통상적인 예에서, 새로운 오디오 환경 분포들을 계산하는 것 사이의 지속기간(702)은 대략적으로 60 초이다. 이전 오디오 환경 분포를 판독(704)하고, 저장된 환경 모델들(706)을 수신하고, MFCC 통계들을 판독 및 리셋(708)하며, MFCC 버퍼를 비-휘발성 메모리에 전달(710)하는 단계들에 대한 지속기간들은 단지 예시적이며 제한이 아니다. 그러한 메모리 액세스 동작들에 대해 요구되는 시간은, 메모리 및 프로세서 구성들에 의존할 수 있다. 일반적으로, 새로운 오디오 환경 분포를 계산(712)하는데 요구되는 지속기간은 2 밀리초 내지 5 초의 범위 내에 있을 수 있다.
[0051] 도 8을 참조하면서 추가적으로 도 3을 참조하면, 오디오 환경 모델을 업데이트하는 예시적인 시간적 맵핑의 예시(800)가 도시된다. 시간적 맵핑은 단지 예시적이며 제한이 아니므로 다른 시간적 구성들이 사용될 수도 있다. 일반적으로, 환경 업데이트 서비스(306)는 시간 또는 하루 단위로 측정된 스케일로 동작한다. 통상적인 예에서, 오디오 환경 모델을 업데이트하는 것 사이의 지속기간은 대략적으로 24 시간이다(예를 들어, 하루에 한 번). 저장된 MFCC 통계들을 비-휘발성 메모리로부터 판독(804)하고, 환경 모델들을 저장(808)하는 것의 지속기간들은 단지 예시적이며 제한이 아니다. 그러한 메모리 액세스 동작들에 대해 요구되는 시간은 메모리 및 프로세서 구성들에 의존할 수 있다. 일반적으로, 본 발명에 따른 오디오 환경 모델을 계산 및 업데이트하는데 요구되는 지속기간은 약 1-2 분이다.
[0052] 본 명세서에 설명된 방법들 및 모바일 디바이스는, 애플리케이션에 의존하여 다양한 수단에 의해 구현될 수 있다. 예를 들어, 이들 방법들은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 결합으로 구현될 수 있다. 하드웨어 구현에 대해, 프로세싱 유닛들은, 하나 또는 그 초과의 주문형 집적 회로(ASIC)들, 디지털 신호 프로세서(DSP)들, 디지털 신호 프로세싱 디바이스(DSPD)들, 프로그래밍가능 로직 디바이스(PLD)들, 필드 프로그래밍가능 게이트 어레이(FPGA)들, 프로세서들, 제어기들, 마이크로-제어기들, 마이크로프로세서들, 전자 디바이스들, 본 명세서에 설명된 기능들을 수행하도록 설계된 다른 전자 유닛들, 또는 이들의 결합 내에 구현될 수 있다. 본 명세서에서, 용어 "제어 로직"은, 소프트웨어, 하드웨어, 펌웨어, 또는 결합에 의해 구현되는 로직을 포괄한다.
[0053] 펌웨어 및/또는 소프트웨어 구현에 대해, 방법들은 본 명세서에 설명된 기능들을 수행하는 모듈들(예를 들어, 절차들, 함수들 등)을 이용하여 구현될 수 있다. 명령들을 유형으로 구현하는 임의의 머신-판독가능 매체는, 본 명세서에 설명된 방법들을 구현할 시에 사용될 수 있다. 예를 들어, 소프트웨어 코드들은 메모리에 저장되고 프로세싱 유닛에 의해 실행될 수 있다. 메모리는 프로세싱 유닛의 내부에 또는 프로세싱 유닛의 외부에 구현될 수 있다. 본 명세서에 사용된 바와 같이, 용어 "메모리"는 장기, 단기, 휘발성, 비휘발성, 또는 다른 저장 디바이스들의 임의의 타입을 의미하며, 임의의 특정한 타입의 메모리 또는 메모리들의 수, 또는 메모리가 저장되는 매체들의 타입에 제한되지 않는다.
[0054] 펌웨어 및/또는 소프트웨어로 구현되면, 기능들은 컴퓨터-판독가능 매체 상에 하나 또는 그 초과의 명령들 또는 코드로서 저장될 수도 있다. 예들은, 데이터 구조로 인코딩된 컴퓨터-판독가능 매체들 및 컴퓨터 프로그램으로 인코딩된 컴퓨터-판독가능 매체들을 포함한다. 컴퓨터-판독가능 매체들은 제조자의 물품의 형태를 취할 수도 있다. 컴퓨터-판독가능 매체들은 물리적 컴퓨터 저장 매체들을 포함한다. 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수도 있다. 제한이 아닌 예로서, 그러한 컴퓨터-판독가능 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 저장부, 자기 디스크 저장 또는 다른 자기 저장 디바이스들, 또는 명령들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 저장하는데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있고; 본 명세서에 사용된 바와 같이, 디스크(disk) 및 디스크(disc)는 컴팩트 디스크(disc)(CD), 레이저 디스크(disc), 광학 디스크(disc), 디지털 다목적 디스크(disc)(DVD), 플로피 디스크(disk) 및 Blu-ray 디스크(disc)를 포함하며, 여기서, 디스크(disk)들은 일반적으로 데이터를 자기적으로 재생하지만, 디스크(disc)들은 레이저들을 이용하여 광학적으로 데이터를 재생한다. 또한, 상기 것들의 결합들은 컴퓨터-판독가능 매체들의 범위 내에 포함되어야 한다.
[0055] 컴퓨터 판독가능 매체 상의 저장에 부가하여, 명령들 및/또는 데이터는 통신 장치에 포함된 송신 매체들 상의 신호들로서 제공될 수도 있다. 예를 들어, 통신 장치는 명령들 및 데이터를 표시하는 신호들을 갖는 트랜시버를 포함할 수도 있다. 명령들 및 데이터는, 적어도 하나의 프로세서로 하여금 청구항들에서 약술된 기능들을 구현하게 하도록 구성된다. 즉, 통신 장치는, 기재된 기능들을 수행하기 위한 정보를 표시하는 신호들을 갖는 송신 매체들을 포함한다. 제 1 시간에서, 통신 장치에 포함된 송신 매체들은 기재된 기능들을 수행하기 위한 정보의 제 1 부분을 포함할 수도 있지만, 제 2 시간에서, 통신 장치에 포함된 송신 매체들은 기재된 기능들을 수행하기 위한 정보의 제 2 부분을 포함할 수도 있다.
[0056] 본 발명은, WWAN(wireless wide area network), WLAN(wireless local area network), WPAN(wireless personal area network) 등과 같은 다양한 무선 통신 네트워크들과 함께 구현될 수도 있다. 용어들 "네트워크" 및 "시스템"은 종종 상호교환가능하게 사용된다. 용어들 "포지션" 및 "위치"는 종종 상호교환가능하게 사용된다. WWAN은, 코드 분할 다중 액세스(CDMA) 네트워크, 시분할 다중 액세스(TDMA) 네트워크, 주파수 분할 다중 액세스(FDMA) 네트워크, 직교 주파수 분할 다중 액세스(OFDMA) 네트워크, 단일-캐리어 주파수 분할 다중 액세스(SC-FDMA) 네트워크, 롱 텀 에볼루션(LTE) 네트워크, WiMAX(IEEE 802.16) 네트워크 등일 수도 있다. CDMA 네트워크는, cdma2000, 광대역-CDMA(W-CDMA) 등과 같은 하나 또는 그 초과의 라디오 액세스 기술(RAT)들을 구현할 수도 있다. cdma2000은 IS-95, IS2000 및 IS-856 표준들을 포함한다. TDMA 네트워크는 GSM(Global System for Mobile Communications), D-AMPS(Digital Advanced Mobile Phone System), 또는 몇몇 다른 RAT를 구현할 수도 있다. GSM 및 W-CDMA는 "3세대 파트너쉽 프로젝트(3GPP)"로 명칭된 컨소시엄으로부터의 문헌들에 설명되어 있다. cdma2000은 "3세대 파트너쉽 프로젝트 2(3GPP2)"로 명칭된 컨소시엄으로부터의 문헌들에 설명되어 있다. 3GPP 및 3GPP2 문헌들은 공개적으로 이용가능하다. WLAN은 IEEE 802.11x 네트워크일 수도 있고, WPAN은 블루투스 네트워크, IEEE 802.15x, 또는 몇몇 다른 타입의 네트워크일 수도 있다. 또한, 다른 기술들이 WWAN, WLAN 및/또는 WPAN의 임의의 결합과 함께 구현될 수도 있다.
[0057] 모바일 스테이션은, 셀룰러 또는 다른 무선 통신 디바이스, 개인 통신 시스템(PCS) 디바이스, 개인 내비게이션 디바이스(PND), 개인 정보 관리자(PIM), 개인 휴대 정보 단말(PDA), 랩톱, 또는 무선 통신 및/또는 내비게이션 신호들을 수신할 수 있는 다른 적절한 모바일 디바이스와 같은 디바이스를 지칭한다. 또한, 용어 "모바일 스테이션"은, 위성 신호 수신, 보조 데이터 수신, 및/또는 포지션-관련 프로세싱이 디바이스에서 발생하는지 또는 PND에서 발생하는지에 관계없이, 예컨대 단거리 무선 접속, 적외선 접속, 유선 접속, 또는 다른 접속에 의해 개인 내비게이션 디바이스(PND)와 통신하는 디바이스들을 포함하도록 의도된다. 또한, "모바일 스테이션"은, 위성 신호 수신, 보조 데이터 수신, 및/또는 포지션-관련 프로세싱이 디바이스, 서버, 또는 네트워크와 연관된 다른 디바이스에서 발생하는지에 관계없이, 예컨대 인터넷, Wi-Fi, 또는 다른 네트워크를 통하여 서버와 통신할 수 있는 무선 통신 디바이스들, 컴퓨터들, 랩톱들 등을 포함하는 모든 디바이스들을 포함하도록 의도된다. 상기의 임의의 동작가능한 결합이 또한 "모바일 스테이션"으로 고려된다.
[0058] 어떤 것이 "최적화된", "요구된"다는 지정, 또는 다른 지정은, 현재 개시가 최적화된 시스템들 또는 "요구된" 엘리먼트들(또는 다른 지정들로 인한 다른 제한)이 존재하는 시스템들에만 적용된다는 것을 표시하지 않는다. 이들 지정들은 특정한 설명된 구현만을 지칭한다. 물론, 많은 구현들이 가능하다. 기술들은, 본 명세서에 설명된 것들 외에, 개발 중이거나 개발될 프로토콜들을 포함하는 프로토콜들로 사용될 수 있다.
[0059] 당업자는, 기재된 실시예들의 많은 가능한 변형들 및 결합들이, 동일한 기본적인 기저 메커니즘들 및 방법들을 계속 이용하면서 사용될 수도 있음을 인지할 것이다. 전술한 설명은, 설명의 목적들을 위해 특정한 실시예들을 참조하여 작성되었다. 그러나, 위의 예시적인 설명들은, 완전하도록 의도되거나 기재된 정확한 형태들로 본 발명을 제한하도록 의도되지 않는다. 많은 변형들 및 변경들이 상기 교시들의 관점에서 가능하다. 실시예들은, 본 발명의 원리들 및 그것의 실시 적용들을 설명하고, 고려된 특정한 용도에 적절한 바와 같은 다양한 변형들을 갖는 다양한 실시예들을 당업자들이 가장 양호하게 이용할 수 있게 하도록 선택되고 설명된다.

Claims (36)

  1. 오디오 환경을 분류하는 방법으로서,
    제 1 시간 간격에 따라, 샘플링된 오디오 데이터를 획득하기 위해 마이크로폰으로 상기 오디오 환경을 샘플링하는 단계;
    상기 샘플링된 오디오 데이터의 특성들을 계산하는 단계 ― 상기 샘플링된 오디오 데이터의 특성들을 계산하는 단계는 복수의 MFCC(mel-frequency cepstral coefficient)들을 계산하는 단계, 상기 복수의 MFCC들을 사용하여 상기 제 1 시간 간격에 걸친 MFCC 데이터의 통계들의 구동 추정(running estimate)들을 생성하는 단계, 상기 MFCC 데이터의 통계들의 구동 추정들을 저장하는 단계를 포함함 ―;
    제 2 시간 간격에 따라, 상기 샘플링된 오디오 데이터의 특성들로부터 오디오 클러스터(cluster) 식별자를 추론하는 단계; 및
    제 3 시간 간격에 따라, 상기 저장된 MFCC 데이터의 통계들의 구동 추정들을 사용하여 오디오 환경 모델을 업데이트하는 단계를 포함하고,
    상기 제 1 시간 간격은 상기 제 2 시간 간격보다 더 짧은 시간 스케일(scale)을 갖고, 그리고 상기 제 2 시간 간격은 상기 제 3 시간 간격보다 더 짧은 시간 스케일을 갖는,
    오디오 환경을 분류하는 방법.
  2. 제 1 항에 있어서,
    상기 MFCC 데이터의 통계들의 구동 추정들을 생성하는 단계는,
    상기 복수의 MFCC들을 상기 오디오 환경에 대한 상기 복수의 MFCC들의 평균에 비례하는 추정에 부가하는 단계; 및
    상기 복수의 MFCC들의 제곱을 상기 오디오 환경에 대한 상기 복수의 MFCC들의 분산에 비례하는 추정에 부가하는 단계를 포함하는,
    오디오 환경을 분류하는 방법.
  3. 제 1 항에 있어서,
    상기 오디오 클러스터 식별자를 추론하는 단계는,
    상기 MFCC 데이터의 통계들의 구동 추정들, 이전에 저장된 오디오 환경 모델, 및 이전에 결정된 오디오 환경 확률 분포를 판독하는 단계;
    상기 MFCC 데이터의 통계들의 구동 추정들, 상기 이전에 저장된 오디오 환경 모델, 및 상기 이전에 결정된 오디오 환경 확률 분포를 사용하여 현재 오디오 환경 확률 분포를 계산하는 단계;
    상기 이전에 결정된 오디오 환경 확률 분포를 상기 현재 오디오 환경 확률 분포로 대체하는 단계;
    상기 현재 오디오 환경 확률 분포에 따라 현재 오디오 클러스터 식별자를 추론하는 단계; 및
    MFCC 통계들로서 상기 MFCC 데이터의 통계들의 구동 추정들을 저장하는 단계를 포함하는,
    오디오 환경을 분류하는 방법.
  4. 제 3 항에 있어서,
    상기 오디오 환경 모델을 업데이트하는 단계는,
    상기 MFCC 통계들을 판독하는 단계;
    상기 MFCC 통계들을 사용하여 상기 오디오 환경 모델을 업데이트하는 단계; 및
    저장 디바이스에 상기 오디오 환경 모델을 저장하는 단계를 포함하는,
    오디오 환경을 분류하는 방법.
  5. 제 1 항에 있어서,
    상기 오디오 환경을 샘플링하는 단계는 20 내지 30 밀리초 사이의 지속기간 동안 수행되고; 상기 오디오 클러스터 식별자를 추론하는 단계는 1 내지 100 밀리초 사이의 지속기간 동안 수행되며; 그리고 상기 오디오 환경 모델을 업데이트하는 단계는 1 내지 20 분 사이의 지속기간 동안 수행되는,
    오디오 환경을 분류하는 방법.
  6. 삭제
  7. 제 1 항에 있어서,
    상기 제 1 시간 간격은 0.5 내지 3 초 사이이고, 상기 제 2 시간 간격은 30 내지 120 초 사이이며, 상기 제 3 시간 간격은 6 내지 24 시간 사이인,
    오디오 환경을 분류하는 방법.
  8. 제 1 항에 있어서,
    상기 오디오 클러스터 식별자는 주변(ambient) 오디오 환경을 표현하는,
    오디오 환경을 분류하는 방법.
  9. 오디오 환경을 분류하기 위한 장치로서,
    메모리 유닛;
    프로세서를 포함하고,
    상기 프로세서는,
    제 1 시간 간격에 따라, 샘플링된 오디오 데이터를 획득하기 위해 마이크로폰으로 상기 오디오 환경을 샘플링하고;
    상기 샘플링된 오디오 데이터의 특성들을 계산하고 ― 상기 샘플링된 오디오 데이터의 특성들을 계산하는 것은 복수의 MFCC(mel-frequency cepstral coefficient)들을 계산하는 것, 상기 복수의 MFCC들을 사용하여 상기 제 1 시간 간격에 걸친 MFCC 데이터의 통계들의 구동 추정들을 생성하는 것, 상기 MFCC 데이터의 통계들의 구동 추정들을 상기 메모리 유닛에 저장하는 것을 포함함 ―;
    제 2 시간 간격에 따라, 상기 샘플링된 오디오 데이터의 특성들로부터 오디오 클러스터 식별자를 추론하며 ― 상기 오디오 클러스터 식별자는 상기 메모리 유닛에 저장됨 ―; 그리고
    제 3 시간 간격에 따라, 상기 저장된 MFCC 데이터의 통계들의 구동 추정들을 사용하여 오디오 환경 모델을 업데이트하도록 프로그래밍되고,
    상기 제 1 시간 간격은 상기 제 2 시간 간격보다 더 짧은 시간 스케일을 갖고, 그리고 상기 제 2 시간 간격은 상기 제 3 시간 간격보다 더 짧은 시간 스케일을 갖는,
    오디오 환경을 분류하기 위한 장치.
  10. 제 9 항에 있어서,
    상기 프로세서는,
    상기 복수의 MFCC들을 상기 오디오 환경에 대한 상기 복수의 MFCC들의 평균에 비례하는 추정에 부가하고; 그리고
    상기 복수의 MFCC들의 제곱을 상기 오디오 환경에 대한 상기 복수의 MFCC들의 분산에 비례하는 추정에 부가하도록 추가적으로 프로그래밍되는,
    오디오 환경을 분류하기 위한 장치.
  11. 제 9 항에 있어서,
    상기 프로세서는,
    상기 MFCC 데이터의 통계들의 구동 추정들, 이전에 저장된 오디오 환경 모델, 및 이전에 결정된 오디오 환경 확률 분포를 판독하고;
    상기 MFCC 데이터의 통계들의 구동 추정들, 상기 이전에 저장된 오디오 환경 모델, 및 상기 이전에 결정된 오디오 환경 확률 분포를 사용하여 현재 오디오 환경 확률 분포를 계산하고;
    상기 이전에 결정된 오디오 환경 확률 분포를 상기 현재 오디오 환경 확률 분포로 대체하고;
    상기 현재 오디오 환경 확률 분포에 따라 현재 오디오 클러스터 식별자를 추론하며; 그리고
    MFCC 통계들로서 상기 MFCC 데이터의 통계들의 구동 추정들을 저장하도록 추가적으로 프로그래밍되는,
    오디오 환경을 분류하기 위한 장치.
  12. 제 11 항에 있어서,
    상기 프로세서는,
    상기 MFCC 통계들을 판독하고;
    상기 MFCC 통계들을 사용하여 상기 오디오 환경 모델을 업데이트하며; 그리고
    상기 메모리 유닛에 상기 오디오 환경 모델을 저장하도록 추가적으로 프로그래밍되는,
    오디오 환경을 분류하기 위한 장치.
  13. 제 9 항에 있어서,
    상기 프로세서는,
    상기 오디오 환경을 20 내지 30 밀리초 사이의 지속기간 동안 샘플링하고; 상기 오디오 클러스터 식별자를 1 내지 100 밀리초 사이의 지속기간 동안 추론하며; 그리고 상기 오디오 환경 모델을 1 내지 20 분 사이의 지속기간 동안 업데이트하도록 추가적으로 구성되는,
    오디오 환경을 분류하기 위한 장치.
  14. 삭제
  15. 제 9 항에 있어서,
    상기 제 1 시간 간격은 0.5 내지 3 초 사이이고, 상기 제 2 시간 간격은 30 내지 120 초 사이이며, 상기 제 3 시간 간격은 6 내지 24 시간 사이인,
    오디오 환경을 분류하기 위한 장치.
  16. 제 9 항에 있어서,
    상기 오디오 클러스터 식별자는 주변 오디오 환경을 표현하는,
    오디오 환경을 분류하기 위한 장치.
  17. 프로세서-실행가능 명령들을 포함하는 프로세서-실행가능 컴퓨터 저장 매체로서,
    상기 프로세서-실행가능 명령들은, 프로세서로 하여금,
    제 1 시간 간격에 따라, 샘플링된 오디오 데이터를 획득하기 위해 마이크로폰으로 오디오 환경을 샘플링하게 하고;
    상기 샘플링된 오디오 데이터의 특성들을 계산하게 하고 ― 상기 명령들은 상기 프로세서로 하여금, 복수의 MFCC(mel-frequency cepstral coefficient)들을 계산하게 하고, 상기 복수의 MFCC들을 사용하여 상기 제 1 시간 간격에 걸친 MFCC 데이터의 통계들의 구동 추정들을 생성하게 하고, 상기 MFCC 데이터의 통계들의 구동 추정들을 저장하게 하도록 추가적으로 구성됨 ―;
    제 2 시간 간격에 따라, 상기 샘플링된 오디오 데이터의 특성들로부터 오디오 클러스터 식별자를 추론하게 하며; 그리고
    제 3 시간 간격에 따라, 상기 저장된 MFCC 데이터의 통계들의 구동 추정들을 사용하여 오디오 환경 모델을 업데이트하게 하도록 구성되고,
    상기 제 1 시간 간격은 상기 제 2 시간 간격보다 더 짧은 시간 스케일을 갖고, 그리고 상기 제 2 시간 간격은 상기 제 3 시간 간격보다 더 짧은 시간 스케일을 갖는,
    프로세서-실행가능 컴퓨터 저장 매체.
  18. 제 17 항에 있어서,
    상기 프로세서로 하여금 상기 MFCC 데이터의 통계들의 구동 추정들을 생성하게 하도록 구성되는 명령들은,
    상기 프로세서로 하여금,
    상기 복수의 MFCC들을 상기 오디오 환경에 대한 상기 복수의 MFCC들의 평균에 비례하는 추정에 부가하게 하고; 그리고
    상기 복수의 MFCC들의 제곱을 상기 오디오 환경에 대한 상기 복수의 MFCC들의 분산에 비례하는 추정에 부가하게 하도록 구성되는 명령들을 포함하는,
    프로세서-실행가능 컴퓨터 저장 매체.
  19. 제 17 항에 있어서,
    상기 프로세서로 하여금 상기 오디오 클러스터 식별자를 추론하게 하도록 구성되는 명령들은,
    상기 프로세서로 하여금,
    상기 MFCC 데이터의 통계들의 구동 추정들, 이전에 저장된 오디오 환경 모델, 및 이전에 결정된 오디오 환경 확률 분포를 판독하게 하고;
    상기 MFCC 데이터의 통계들의 구동 추정들, 상기 이전에 저장된 오디오 환경 모델, 및 상기 이전에 결정된 오디오 환경 확률 분포를 사용하여 현재 오디오 환경 확률 분포를 계산하게 하고;
    상기 이전에 결정된 오디오 환경 확률 분포를 상기 현재 오디오 환경 확률 분포로 대체하게 하고;
    상기 현재 오디오 환경 확률 분포에 따라 현재 오디오 클러스터 식별자를 추론하게 하며; 그리고
    MFCC 통계들로서 상기 MFCC 데이터의 통계들의 구동 추정들을 저장하게 하도록 구성되는 명령들을 포함하는,
    프로세서-실행가능 컴퓨터 저장 매체.
  20. 제 19 항에 있어서,
    상기 프로세서로 하여금 상기 오디오 환경 모델을 업데이트하게 하도록 구성되는 명령들은,
    상기 프로세서로 하여금,
    상기 MFCC 통계들을 판독하게 하고;
    상기 MFCC 통계들을 사용하여 상기 오디오 환경 모델을 업데이트하게 하며; 그리고
    상기 오디오 환경 모델을 저장하게 하도록 구성되는 명령들을 포함하는,
    프로세서-실행가능 컴퓨터 저장 매체.
  21. 제 17 항에 있어서,
    상기 프로세서로 하여금, 20 내지 30 밀리초 사이의 지속기간 동안 상기 오디오 환경을 샘플링하게 하고; 1 내지 100 밀리초 사이의 지속기간 동안 상기 오디오 클러스터 식별자를 추론하게 하며; 그리고 1 내지 20 분 사이의 지속기간 동안 상기 오디오 환경 모델을 업데이트하게 하도록 구성되는 명령들을 포함하는,
    프로세서-실행가능 컴퓨터 저장 매체.
  22. 삭제
  23. 제 17 항에 있어서,
    상기 명령들은, 상기 제 1 시간 간격이 0.5 내지 3 초 사이이고, 상기 제 2 시간 간격이 30 내지 120 초 사이이며, 상기 제 3 시간 간격이 6 내지 24 시간 사이임을 표시하는,
    프로세서-실행가능 컴퓨터 저장 매체.
  24. 제 17 항에 있어서,
    상기 프로세서로 하여금 상기 오디오 클러스터 식별자를 추론하게 하도록 구성되는 명령들은, 상기 프로세서로 하여금, 주변 오디오 환경을 표현하는 상기 오디오 클러스터 식별자를 추론하게 하도록 구성되는 명령들을 포함하는,
    프로세서-실행가능 컴퓨터 저장 매체.
  25. 모바일 디바이스를 이용하여 오디오 환경을 분류하기 위한 장치로서,
    제 1 시간 간격에 따라, 샘플링된 오디오 데이터를 획득하기 위해 마이크로폰으로 상기 오디오 환경을 샘플링하기 위한 수단;
    상기 샘플링된 오디오 데이터의 특성들을 계산하기 위한 수단 ― 상기 샘플링된 오디오 데이터의 특성들을 계산하기 위한 수단은 복수의 MFCC(mel-frequency cepstral coefficient)들을 계산하기 위한 수단, 상기 복수의 MFCC들을 사용하여 상기 제 1 시간 간격에 걸친 MFCC 데이터의 통계들의 구동 추정들을 생성하기 위한 수단, 상기 MFCC 데이터의 통계들의 구동 추정들을 저장하기 위한 수단을 포함함 ―;
    제 2 시간 간격에 따라, 상기 샘플링된 오디오 데이터의 특성들로부터 오디오 클러스터 식별자를 추론하기 위한 수단; 및
    제 3 시간 간격에 따라, 상기 저장된 MFCC 데이터의 통계들의 구동 추정들을 사용하여 오디오 환경 모델을 업데이트하기 위한 수단을 포함하고,
    상기 제 1 시간 간격은 상기 제 2 시간 간격보다 더 짧은 시간 스케일을 갖고, 그리고 상기 제 2 시간 간격은 상기 제 3 시간 간격보다 더 짧은 시간 스케일을 갖는,
    모바일 디바이스를 이용하여 오디오 환경을 분류하기 위한 장치.
  26. 제 25 항에 있어서,
    상기 MFCC 데이터의 통계들의 구동 추정들을 생성하기 위한 수단은,
    상기 복수의 MFCC들을 상기 오디오 환경에 대한 상기 복수의 MFCC들의 평균에 비례하는 추정에 부가하기 위한 수단; 및
    상기 복수의 MFCC들의 제곱을 상기 오디오 환경에 대한 상기 복수의 MFCC들의 분산에 비례하는 추정에 부가하기 위한 수단을 포함하는,
    모바일 디바이스를 이용하여 오디오 환경을 분류하기 위한 장치.
  27. 제 25 항에 있어서,
    상기 오디오 클러스터 식별자를 추론하기 위한 수단은,
    상기 MFCC 데이터의 통계들의 구동 추정들, 이전에 저장된 오디오 환경 모델, 및 이전에 결정된 오디오 환경 확률 분포를 판독하기 위한 수단;
    상기 MFCC 데이터의 통계들의 구동 추정들, 상기 이전에 저장된 오디오 환경 모델, 및 상기 이전에 결정된 오디오 환경 확률 분포를 사용하여 현재 오디오 환경 확률 분포를 계산하기 위한 수단;
    상기 이전에 결정된 오디오 환경 확률 분포를 상기 현재 오디오 환경 확률 분포로 대체하기 위한 수단;
    상기 현재 오디오 환경 확률 분포에 따라 현재 오디오 클러스터 식별자를 추론하기 위한 수단; 및
    MFCC 통계들로서 상기 MFCC 데이터의 통계들의 구동 추정들을 저장하기 위한 수단을 포함하는,
    모바일 디바이스를 이용하여 오디오 환경을 분류하기 위한 장치.
  28. 제 27 항에 있어서,
    상기 오디오 환경 모델을 업데이트하기 위한 수단은,
    상기 MFCC 통계들을 판독하기 위한 수단;
    상기 MFCC 통계들을 사용하여 상기 오디오 환경 모델을 업데이트하기 위한 수단; 및
    저장 디바이스에 상기 오디오 환경 모델을 저장하기 위한 수단을 포함하는,
    모바일 디바이스를 이용하여 오디오 환경을 분류하기 위한 장치.
  29. 제 25 항에 있어서,
    상기 오디오 환경을 샘플링하는 것은 20 내지 30 밀리초 사이의 지속기간 동안 수행되고; 상기 오디오 클러스터 식별자를 추론하는 것은 1 내지 100 밀리초 사이의 지속기간 동안 수행되며; 그리고 상기 오디오 환경 모델을 업데이트하는 것은 1 내지 20 분 사이의 지속기간 동안 수행되는,
    모바일 디바이스를 이용하여 오디오 환경을 분류하기 위한 장치.
  30. 삭제
  31. 제 25 항에 있어서,
    상기 제 1 시간 간격은 0.5 내지 3 초 사이이고, 상기 제 2 시간 간격은 30 내지 120 초 사이이며, 상기 제 3 시간 간격은 6 내지 24 시간 사이인,
    모바일 디바이스를 이용하여 오디오 환경을 분류하기 위한 장치.
  32. 제 25 항에 있어서,
    상기 오디오 클러스터 식별자는 주변 오디오 환경을 표현하는,
    모바일 디바이스를 이용하여 오디오 환경을 분류하기 위한 장치.
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
KR1020157015276A 2012-11-14 2013-10-25 오디오 환경들의 분류를 위한 시스템들 및 방법들 KR101678555B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261726493P 2012-11-14 2012-11-14
US61/726,493 2012-11-14
US13/785,775 US9124981B2 (en) 2012-11-14 2013-03-05 Systems and methods for classification of audio environments
US13/785,775 2013-03-05
PCT/US2013/066889 WO2014078060A1 (en) 2012-11-14 2013-10-25 Systems and methods for classification of audio environments

Publications (2)

Publication Number Publication Date
KR20150084941A KR20150084941A (ko) 2015-07-22
KR101678555B1 true KR101678555B1 (ko) 2016-11-22

Family

ID=50681707

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157015276A KR101678555B1 (ko) 2012-11-14 2013-10-25 오디오 환경들의 분류를 위한 시스템들 및 방법들

Country Status (6)

Country Link
US (1) US9124981B2 (ko)
EP (1) EP2920784A1 (ko)
KR (1) KR101678555B1 (ko)
CN (1) CN104781875B (ko)
TW (1) TW201434032A (ko)
WO (1) WO2014078060A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190056017A (ko) * 2017-11-16 2019-05-24 성민준 소리 인식을 이용한 자동 분리수거 쓰레기통

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970793B (zh) * 2013-02-04 2020-03-03 腾讯科技(深圳)有限公司 信息查询方法、客户端及服务器
US10410630B2 (en) * 2014-06-19 2019-09-10 Robert Bosch Gmbh System and method for speech-enabled personalized operation of devices and services in multiple operating environments
CN104269169B (zh) * 2014-09-09 2017-04-12 山东师范大学 一种混叠音频事件分类方法
US10747801B2 (en) * 2015-07-13 2020-08-18 Disney Enterprises, Inc. Media content ontology
EP3125244B1 (en) * 2015-07-28 2019-11-27 Nxp B.V. Audio classifier
CN106649513B (zh) * 2016-10-14 2020-03-31 盐城工学院 基于谱聚类的音频数据聚类方法
US11194842B2 (en) * 2018-01-18 2021-12-07 Samsung Electronics Company, Ltd. Methods and systems for interacting with mobile device
CN109002275B (zh) * 2018-07-03 2021-12-07 百度在线网络技术(北京)有限公司 Ar背景音频处理方法、装置、ar设备和可读存储介质
US10832673B2 (en) 2018-07-13 2020-11-10 International Business Machines Corporation Smart speaker device with cognitive sound analysis and response
US10832672B2 (en) * 2018-07-13 2020-11-10 International Business Machines Corporation Smart speaker system with cognitive sound analysis and response
CN110890098B (zh) * 2018-09-07 2022-05-10 南京地平线机器人技术有限公司 盲信号分离方法、装置和电子设备
US10943602B2 (en) * 2019-01-07 2021-03-09 Stmicroelectronics International N.V. Open vs enclosed spatial environment classification for a mobile or wearable device using microphone and deep learning method
US11295751B2 (en) * 2019-09-20 2022-04-05 Tencent America LLC Multi-band synchronized neural vocoder
CN111028861B (zh) * 2019-12-10 2022-02-22 思必驰科技股份有限公司 频谱掩码模型训练方法、音频场景识别方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010190861A (ja) * 2009-02-20 2010-09-02 Toshiba Corp 状況認識装置及び状況認識方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7532943B2 (en) * 2001-08-21 2009-05-12 Microsoft Corporation System and methods for providing automatic classification of media entities according to sonic properties
WO2006132596A1 (en) 2005-06-07 2006-12-14 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio clip classification
EP1884421B1 (en) * 2006-08-04 2008-10-08 Harman Becker Automotive Systems GmbH Method and system for processing voice commands in a vehicle enviroment
EP2064918B1 (en) 2006-09-05 2014-11-05 GN Resound A/S A hearing aid with histogram based sound environment classification
CN101636783B (zh) 2007-03-16 2011-12-14 松下电器产业株式会社 声音分析装置、声音分析方法及系统集成电路
US7612933B2 (en) 2008-03-27 2009-11-03 Qualcomm Mems Technologies, Inc. Microelectromechanical device with spacing layer
CN101546557B (zh) * 2008-03-28 2011-03-23 展讯通信(上海)有限公司 用于音频内容识别的分类器参数更新方法
EP2264988A1 (en) 2009-06-18 2010-12-22 Deutsche Telekom AG Method of detecting a current user activity and environment context of a user of a mobile phone using an accelerator sensor and a microphone, computer program product, and mobile phone
EP2328363B1 (en) 2009-09-11 2016-05-18 Starkey Laboratories, Inc. Sound classification system for hearing aids
US8489600B2 (en) 2010-02-23 2013-07-16 Nokia Corporation Method and apparatus for segmenting and summarizing media content
US8595005B2 (en) 2010-05-31 2013-11-26 Simple Emotion, Inc. System and method for recognizing emotional state from a speech signal
CN102693724A (zh) * 2011-03-22 2012-09-26 张燕 一种基于神经网络的高斯混合模型的噪声分类方法
WO2013057652A2 (en) * 2011-10-17 2013-04-25 Koninklijke Philips Electronics N.V. A medical feedback system based on sound analysis in a medical environment

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010190861A (ja) * 2009-02-20 2010-09-02 Toshiba Corp 状況認識装置及び状況認識方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190056017A (ko) * 2017-11-16 2019-05-24 성민준 소리 인식을 이용한 자동 분리수거 쓰레기통
KR102012561B1 (ko) * 2017-11-16 2019-08-20 성민준 소리 인식을 이용한 자동 분리수거 쓰레기통

Also Published As

Publication number Publication date
WO2014078060A1 (en) 2014-05-22
US20140133663A1 (en) 2014-05-15
CN104781875B (zh) 2016-11-02
US9124981B2 (en) 2015-09-01
EP2920784A1 (en) 2015-09-23
KR20150084941A (ko) 2015-07-22
CN104781875A (zh) 2015-07-15
TW201434032A (zh) 2014-09-01

Similar Documents

Publication Publication Date Title
KR101678555B1 (ko) 오디오 환경들의 분류를 위한 시스템들 및 방법들
CN109960395B (zh) 资源调度方法和计算机设备
JP6363239B2 (ja) パワー効率のよいコンテキストアウェア推定のための適応型センササンプリング
JP6746583B2 (ja) アナログフロントエンドの低パワーコンテキスト認識制御
CN108304758B (zh) 人脸特征点跟踪方法及装置
US8983442B2 (en) Techniques and apparatus to manage power in wireless device
KR101603028B1 (ko) 콘텍스트 감지를 위한 방법
CN107567083B (zh) 进行省电优化处理的方法和装置
KR101531449B1 (ko) 센서의 호출을 제어하기 위한 방법 및 장치
US9432916B2 (en) Situation aware sensor power management
JP6208344B2 (ja) コンテキストに応じた電力管理
WO2015197000A1 (zh) 控制移动终端硬件状态的方法及装置
KR20150082405A (ko) 데이터 클러스터들에 대한 컨텍스트 라벨들의 할당에 의한 모바일 디바이스에서의 컨텍스트 모델의 관리
US20140038674A1 (en) Two-phase power-efficient activity recognition system for mobile devices
WO2013006385A1 (en) Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context
KR20140043166A (ko) 디바이스의 상황을 결정하기 위한 방법 및 시스템
US11997562B2 (en) Tracking proximities of devices and/or objects
JP2017520813A (ja) デバイスの差し迫った使用の検出
US20170093507A1 (en) Adaptive speed data collection
Pendão et al. Energy consumption in personal mobile devices sensing applications
CN113728294B (zh) 功耗控制与方案生成方法、设备、系统及存储介质
US11508395B1 (en) Intelligent selection of audio signatures based upon contextual information to perform management actions
KR102252084B1 (ko) 블랙보드 기반의 사용자 모델링을 위한 방법, 장치 및 컴퓨터 판독가능 저장 매체
CN117612527A (zh) 设备唤醒方法、装置、存储介质及电子设备
KR20150084849A (ko) 콘텍스트 감지를 위한 방법

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190924

Year of fee payment: 4