KR20140133501A - 사운드 식별에 기초한 이동 디바이스의 제어 - Google Patents
사운드 식별에 기초한 이동 디바이스의 제어 Download PDFInfo
- Publication number
- KR20140133501A KR20140133501A KR1020147020389A KR20147020389A KR20140133501A KR 20140133501 A KR20140133501 A KR 20140133501A KR 1020147020389 A KR1020147020389 A KR 1020147020389A KR 20147020389 A KR20147020389 A KR 20147020389A KR 20140133501 A KR20140133501 A KR 20140133501A
- Authority
- KR
- South Korea
- Prior art keywords
- sound
- mobile device
- function
- feature
- media
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08C—TRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
- G08C23/00—Non-electrical signal transmission systems, e.g. optical systems
- G08C23/02—Non-electrical signal transmission systems, e.g. optical systems using infrasonic, sonic or ultrasonic waves
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/34—User authentication involving the use of external additional devices, e.g. dongles or smart cards
- G06F21/35—User authentication involving the use of external additional devices, e.g. dongles or smart cards communicating wirelessly
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/554—Detecting local intrusion or implementing counter-measures involving event detection and direct action
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/70—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
- G06F21/82—Protecting input, output or interconnection devices
- G06F21/83—Protecting input, output or interconnection devices input devices, e.g. keyboards, mice or controllers thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/271—Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2101—Auditing as a secondary aspect
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
이동 디바이스 (130) 에서 기능을 수행하기 위한 방법 및 장치가 개시되어 있다. 이동 디바이스 (130) 외부의 사운드 출력 디바이스 (140) 로부터의 미디어 사운드가 캡처되고, 캡처된 미디어 사운드로부터 사운드 특징이 추출된다. 이동 디바이스 (130) 에서 수행되어야 할 기능은 추출된 사운드 특징에 기초하여 기준 사운드 특징들의 세트에서 적어도 하나의 기준 사운드 특징을 식별함으로써 결정되고, 기준 사운드 특징들의 세트에서의 각각의 기준 사운드 특징은 복수의 미디어 사운드들 중의 적어도 하나 및 복수의 기능들 중의 적어도 하나와 연관된다. 또한, 결정된 기능은 이동 디바이스 (130) 에서 수행된다.
Description
우선권 주장
본 특허 출원은 2012 년 2 월 8 일자로 출원된 미국 가출원 제 61/596,576 호와, 2013 년 1 월 28 일자로 출원된 미국 출원 제 13/752,080 호를 우선권 주장하고, 그 각각은 그 양수인 (출원인) 에게 양도되고, 이것에 의해, 참조를 위해 본원에 명시적으로 포함된다.
기술 분야
본 개시물은 일반적으로 휴대용 컴퓨팅 디바이스들에 대한 기능들을 제어하는 것에 관한 것이다. 더욱 구체적으로, 본 개시물은 사운드 식별에 기초하여 이동 디바이스를 제어하는 것에 관한 것이다.
최근, 스마트폰들 및 태블릿 컴퓨터들과 같은 이동 디바이스들의 이용이 널리 퍼지고 있다. 이 디바이스들은 전형적으로 무선 네트워크들을 통해 음성 및 데이터 통신 능력을 제공한다. 추가적으로, 이러한 이동 디바이스들은 사용자들이 인터넷을 브라우징하는 것, 사진들 또는 비디오들을 촬영하는 것, 전화 또는 영상 통화들을 행하는 것 등과 같은 다양한 기능들을 수행하도록 한다. 이와 같이, 대부분의 이용자들은 편리한 특징을 위하여 이러한 이동 디바이스를 항상 휴대한다.
그러나, 이동 디바이스들은 바람직하지 않은 상황들에서 종종 동작된다. 예를 들어, 이동 전화들의 이용자들은 영화관과 같은 어떤 상황들에서 자신의 이동 전화들을 끈 것으로 종종 기대된다. 그 최선의 의도들에도 불구하고, 일부 이용자들은 근처의 관객을 짜증나게 할 수도 있는 자신의 전화들을 끄는 것을 잊을 수도 있다.
또한, 이동 디바이스 이용자들은 자신의 일상에서 다양한 정보에 종속된다. 이용자가 관심 주제에 대한 더 많은 정보를 찾기를 희망할 때, 사용자는 전형적으로 그의 또는 그녀의 이동 디바이스 상에서 질의를 수동으로 입력함으로써 정보에 대한 검색을 수행한다. 도로 위의 이용자에 대해서는, 이것이 매우 편리한 작업이 아닐 수도 있다.
그러므로, 사용자에 의한 수동 입력 없이 이동 디바이스에서 기능을 자동으로 수행할 수 있는 방법 및 장치에 대한 필요성이 있다.
본 개시물은 사운드 식별에 기초하여 이동 디바이스 상에서의 기능성을 제어하기 위한 방법들, 시스템들 및 디바이스들을 제공한다.
본 개시물의 하나의 양태에 따르면, 이동 디바이스를 제어하기 위한 방법이 개시되어 있다. 방법에서는, 이동 디바이스 외부의 사운드 출력 디바이스로부터의 미디어 사운드가 캡처되고, 캡처된 미디어 사운드로부터 사운드 특징이 추출된다. 이동 디바이스에 의해 수행되어야 할 기능은 추출된 사운드 특징에 기초하여 기준 사운드 특징들의 세트에서 적어도 하나의 기준 사운드 특징을 식별함으로써 결정되고, 기준 사운드 특징들의 세트에서의 각각의 기준 사운드 특징은 복수의 미디어 사운드들 중의 적어도 하나 및 복수의 기능들 중의 적어도 하나와 연관된다. 결정된 기능은 이동 디바이스에서 수행된다. 또한, 방법은 사운드 특징을 발생시키기 위하여 적어도 하나의 기본 필터를 적용하는 것을 포함할 수도 있다. 본 개시물은 이 방법과 관련된 디바이스, 시스템, 서버, 수단들의 조합, 및 컴퓨터 판독가능 매체를 또한 설명한다.
본 개시물의 또 다른 양태에 따르면, 이동 디바이스에서 기능을 수행하기 위한 방법이 개시되어 있다. 방법에서는, 적어도 하나의 미디어 사운드를 포함하는 복합 사운드가 복수의 사운드 센서들에 의해 캡처된다. 적어도 하나의 미디어 사운드는 복합 사운드로부터 분리된다. 또한, 이동 디바이스에서 수행되어야 할 기능은 적어도 하나의 추출된 사운드 특징에 기초하여 기준 사운드 특징들의 세트에서 적어도 하나의 기준 사운드 특징을 식별함으로써 결정된다. 기준 사운드 특징들의 세트에서의 각각의 기준 사운드 특징은 복수의 미디어 사운드들 중의 적어도 하나 및 복수의 기능들 중의 적어도 하나와 연관된다. 결정된 기능은 이동 디바이스에서 수행된다. 본 개시물은 이 방법과 관련된 디바이스, 시스템, 서버, 수단들의 조합, 및 컴퓨터 판독가능 매체를 또한 설명한다.
본 개시물의 또 다른 양태에 따르면, 서버는 수신기, 식별 유닛, 및 기능 결정 유닛을 포함한다. 수신기는 사운드 특징을 수신하도록 구성되고, 사운드 특징은 이동 디바이스에 의해 캡처된 미디어 사운드로부터 추출된다. 식별 유닛은 사운드 특징에 기초하여 기준 사운드 특징들의 세트에서 적어도 하나의 기준 사운드 특징을 식별하도록 구성되고, 기준 사운드 특징들의 상기 세트에서의 각각의 기준 사운드 특징은 복수의 미디어 사운드들 중의 적어도 하나 및 복수의 기능들 중의 적어도 하나와 연관된다. 기능 결정 유닛은 적어도 하나의 식별된 기준 사운드 특징에 기초하여 이동 디바이스에 의해 수행되어야 할 기능을 결정하도록 구성된다.
본 개시물의 또 다른 양태에 따르면, 이동 디바이스는 사운드 센서, 사운드 특징 추출기, 식별 유닛, 기능 결정 유닛, 및 제어 유닛을 포함한다. 사운드 센서는 이동 디바이스 외부의 사운드 출력 디바이스로부터의 미디어 사운드를 캡처하도록 구성된다. 사운드 특징 추출기는 캡처된 미디어 사운드로부터 사운드 특징을 추출하도록 구성된다. 식별 유닛은 사운드 특징에 기초하여 기준 사운드 특징들의 세트에서 적어도 하나의 기준 사운드 특징을 식별하도록 구성되고, 기준 사운드 특징들의 세트에서의 각각의 기준 사운드 특징은 복수의 미디어 사운드들 중의 적어도 하나 및 복수의 기능들 중의 적어도 하나와 연관된다. 기능 결정 유닛은 적어도 하나의 식별된 기준 사운드 특징에 기초하여 이동 디바이스에서 수행되어야 할 기능을 결정하도록 구성된다. 제어 유닛은 이동 디바이스에서 결정된 기능을 수행하도록 구성된다.
본 개시물의 발명의 양태들의 실시형태들은 첨부한 도면들과 함께 판독될 때, 다음의 상세한 설명을 참조하여 이해될 것이다.
도 1 은 일부 실시형태들에 따라 이동 디바이스가 기능을 수행하기 위해 미디어 사운드를 캡처하도록 구성되는 영화관을 예시한다.
도 2 는 일부 실시형태들에 따라, 텔레비전으로부터 캡처된 미디어 사운드에 기초하여 기능을 수행하도록 구성되는 이동 디바이스를 구비한 시청자를 예시한다.
도 3 은 일부 실시형태들에 따라, 텔레비전들로부터의 미디어 사운드들에 기초하여 대화 기능을 개시하도록 구성되는 이동 디바이스들을 각각 구비한 시청자들을 예시한다.
도 4 는 일부 실시형태들에 따라, 자동차 내의 자동차 오디오로부터의 미디어 사운드에 응답하여 기능을 수행하도록 구성될 수도 있는 이동 디바이스를 구비한 운전자를 예시한다.
도 5 는 일부 실시형태들에 따라, 스피커로부터의 미디어 사운드에 응답하여 기능을 수행하도록 구성될 수도 있는 이동 디바이스를 구비한 버스 상의 승객을 예시한다.
도 6a 는 일부 실시형태들에 따라, 미디어 사운드로부터 추출된 사운드 특징에 기초하여 이동 디바이스에서 수행되어야 할 기능을 결정하도록 구성된 시스템을 예시하는 블록도이다.
도 6b 는 일부 실시형태들에 따라, 서버가 이동 디바이스로부터 수신된 미디어 사운드에 기초하여 이동 디바이스에서 수행되어야 할 기능을 결정하도록 구성되는 시스템을 예시하는 블록도이다.
도 7 은 일부 실시형태들에 따라, 수행되어야 할 기능을 결정하기 위해, 사운드 특징 데이터베이스를 포함하는 이동 디바이스의 블록도를 예시한다.
도 8 은 하나의 실시형태에 따라, 사운드 특징 데이터베이스의 데이터 구조를 예시하는 블록도이다.
도 9 는 일부 실시형태들에 따라, 서버에서 수행되어야 할 기능을 결정함으로써 미디어 사운드로부터 추출된 사운드 특징에 기초하여 이동 디바이스에 의해 기능을 수행하기 위한 방법의 플로우차트이다.
도 10 은 일부 실시형태들에 따라, 미디어 사운드의 사운드 특징에 기초하여 이동 디바이스에서 수행되어야 할 기능을 결정하기 위한 방법으로서, 서버에 의해 수행되는 방법의 플로우차트이다.
도 11 은 일부 실시형태들에 따라, 미디어 사운드에 기초하여 기능을 결정하고 이를 수행하기 위한 방법으로서, 이동 디바이스에 의해 수행되는 방법의 플로우차트이다.
도 12 는 일부 실시형태들에 따라, 기본 필터에 기초하여 미디어 사운드로부터 사운드 특징을 추출하기 위한 방법으로서, 이동 디바이스에 의해 수행되는 방법의 플로우차트를 예시한다.
도 13 은 일부 실시형태들에 따라, 사운드 특징을 추출함에 있어서 이용하기 위한 복수의 기본 필터들로부터 적어도 하나의 기본 필터를 선택하기 위한 방법의 플로우차트를 예시한다.
도 14 는 일부 실시형태들에 따라, 이동 디바이스가 복수의 미디어 사운드들 중의 적어도 하나를 캡처하는 것에 응답하여 적어도 하나의 기능을 수행하도록 구성되는, 복수의 사운드 센서들을 갖는 이동 디바이스를 예시한다.
도 15 는 일부 실시형태들에 따라, 복수의 사운드들로부터 선택된 미디어 사운드에 응답하여 기능을 수행하기 위한 이동 디바이스에서의 방법의 플로우차트를 예시한다.
도 16 은 일부 다른 실시형태들에 따라, 복수의 미디어 사운드들에 응답하여 적어도 하나의 기능을 수행하기 위한 이동 디바이스에서의 방법의 플로우차트를 예시한다.
도 17 은 일부 실시형태들에 따라 사운드 식별에 기초하여 기능들을 제어하기 위한 방법들 및 장치가 구현될 수도 있는 예시적인 이동 디바이스의 블록도를 예시한다.
도 18 은 일부 실시형태들에 따라 사운드 식별에 기초하여 기능들을 제어하기 위한 방법들 및 장치가 구현될 수도 있는 서버 시스템의 블록도이다.
도 1 은 일부 실시형태들에 따라 이동 디바이스가 기능을 수행하기 위해 미디어 사운드를 캡처하도록 구성되는 영화관을 예시한다.
도 2 는 일부 실시형태들에 따라, 텔레비전으로부터 캡처된 미디어 사운드에 기초하여 기능을 수행하도록 구성되는 이동 디바이스를 구비한 시청자를 예시한다.
도 3 은 일부 실시형태들에 따라, 텔레비전들로부터의 미디어 사운드들에 기초하여 대화 기능을 개시하도록 구성되는 이동 디바이스들을 각각 구비한 시청자들을 예시한다.
도 4 는 일부 실시형태들에 따라, 자동차 내의 자동차 오디오로부터의 미디어 사운드에 응답하여 기능을 수행하도록 구성될 수도 있는 이동 디바이스를 구비한 운전자를 예시한다.
도 5 는 일부 실시형태들에 따라, 스피커로부터의 미디어 사운드에 응답하여 기능을 수행하도록 구성될 수도 있는 이동 디바이스를 구비한 버스 상의 승객을 예시한다.
도 6a 는 일부 실시형태들에 따라, 미디어 사운드로부터 추출된 사운드 특징에 기초하여 이동 디바이스에서 수행되어야 할 기능을 결정하도록 구성된 시스템을 예시하는 블록도이다.
도 6b 는 일부 실시형태들에 따라, 서버가 이동 디바이스로부터 수신된 미디어 사운드에 기초하여 이동 디바이스에서 수행되어야 할 기능을 결정하도록 구성되는 시스템을 예시하는 블록도이다.
도 7 은 일부 실시형태들에 따라, 수행되어야 할 기능을 결정하기 위해, 사운드 특징 데이터베이스를 포함하는 이동 디바이스의 블록도를 예시한다.
도 8 은 하나의 실시형태에 따라, 사운드 특징 데이터베이스의 데이터 구조를 예시하는 블록도이다.
도 9 는 일부 실시형태들에 따라, 서버에서 수행되어야 할 기능을 결정함으로써 미디어 사운드로부터 추출된 사운드 특징에 기초하여 이동 디바이스에 의해 기능을 수행하기 위한 방법의 플로우차트이다.
도 10 은 일부 실시형태들에 따라, 미디어 사운드의 사운드 특징에 기초하여 이동 디바이스에서 수행되어야 할 기능을 결정하기 위한 방법으로서, 서버에 의해 수행되는 방법의 플로우차트이다.
도 11 은 일부 실시형태들에 따라, 미디어 사운드에 기초하여 기능을 결정하고 이를 수행하기 위한 방법으로서, 이동 디바이스에 의해 수행되는 방법의 플로우차트이다.
도 12 는 일부 실시형태들에 따라, 기본 필터에 기초하여 미디어 사운드로부터 사운드 특징을 추출하기 위한 방법으로서, 이동 디바이스에 의해 수행되는 방법의 플로우차트를 예시한다.
도 13 은 일부 실시형태들에 따라, 사운드 특징을 추출함에 있어서 이용하기 위한 복수의 기본 필터들로부터 적어도 하나의 기본 필터를 선택하기 위한 방법의 플로우차트를 예시한다.
도 14 는 일부 실시형태들에 따라, 이동 디바이스가 복수의 미디어 사운드들 중의 적어도 하나를 캡처하는 것에 응답하여 적어도 하나의 기능을 수행하도록 구성되는, 복수의 사운드 센서들을 갖는 이동 디바이스를 예시한다.
도 15 는 일부 실시형태들에 따라, 복수의 사운드들로부터 선택된 미디어 사운드에 응답하여 기능을 수행하기 위한 이동 디바이스에서의 방법의 플로우차트를 예시한다.
도 16 은 일부 다른 실시형태들에 따라, 복수의 미디어 사운드들에 응답하여 적어도 하나의 기능을 수행하기 위한 이동 디바이스에서의 방법의 플로우차트를 예시한다.
도 17 은 일부 실시형태들에 따라 사운드 식별에 기초하여 기능들을 제어하기 위한 방법들 및 장치가 구현될 수도 있는 예시적인 이동 디바이스의 블록도를 예시한다.
도 18 은 일부 실시형태들에 따라 사운드 식별에 기초하여 기능들을 제어하기 위한 방법들 및 장치가 구현될 수도 있는 서버 시스템의 블록도이다.
지금부터 다양한 실시형태들에 대해 더욱 상세하게 참조될 것이고, 그 예들은 첨부한 도면들에서 예시되어 있다. 다음의 상세한 설명에는, 본 대상 발명의 철저한 이해를 제공하기 위하여 여러 특정 세부사항들이 기재되어 있다. 그러나, 본 대상 발명이 이 특정 세부사항들 없이 실시될 수도 있다는 것은 당해 분야의 당업자에게 분명할 것이다. 다른 사례들에서는, 잘 알려진 방법들, 절차들, 시스템들, 및 컴포넌트들이 다양한 실시형태들의 양태들을 불필요하게 모호하게 하지 않도록 상세하게 설명되지 않았다.
도 1 은 일부 실시형태들에 따른 이동 디바이스 (130) 가 기능을 수행하기 위해 미디어 사운드를 캡처하도록 구성되는 영화관 (100) 을 예시한다. 영화관 (100) 에서의 시청자 (120) (예를 들어, 영화 관객들) 는 이동 디바이스 (130) 를 가질 수도 있다. 이동 디바이스 (130) 는 사운드 캡처 능력, 예를 들어, 마이크로폰, 및/또는 데이터 및/또는 통신 네트워크를 통한 통신 능력을 구비한 셀룰러 전화, 스마트폰, 랩톱 컴퓨터 또는 태블릿 개인용 컴퓨터와 같은 임의의 적당한 디바이스일 수도 있다. 시청자 (120) 는 영화관 (100) 에서 이동 디바이스 (130) 를 끄는 것을 잊을 수도 있다.
시청자 (120) 의 이동 디바이스 (130) 는 환경 사운드 (environmental sound) 들을 캡처하도록 동작한다. 영화가 시작하기 전에, 영화관 (100) 은 하나 이상의 스피커들 (140) 을 통해 "당신의 전화를 꺼 주세요" 와 같은 미디어 사운드를 재생할 수도 있고, 영화 스크린 (110) 상에서 대응하는 시각적 메시지를 또한 디스플레이할 수도 있다. 이동 디바이스 (130) 는 미디어 사운드를 캡처하고, 캡처된 미디어 사운드로부터 사운드 특징을 추출한다.
스피커들 (140) 을 통해 재생되는 미디어 사운드는 재생을 위해 캡처되고 레코딩되었던 사운드이다. 본원에서 이용되는 바와 같이, 미디어 사운드 (예를 들어, 소스 사운드 또는 데이터베이스에 등록된 사운드) 는 재생을 위해 저장 매체 (예를 들어, 광학, 자기, 또는 디지털 매체들) 상에 레코딩될 수 있는 음성, 음악, 또는 임의의 타입의 사운드일 수도 있다. 미디어 사운드는 사운드를 고유하게 설명하거나 나타내는 사운드 특징에 의해 특징화되고, 오디오 핑거프린트 (audio fingerprint), 사운드 서명 (sound signature), 또는 임의의 다른 사운드 식별자를 포함할 수도 있다. 미디어 사운드를 특징화하는 사운드 특징은 미디어 사운드에 응답하여 이동 디바이스를 끄는 것과 같이, 이동 디바이스에 의해 수행되어야 할 기능과 연관될 수도 있다. 용어 "기능" (또는 대안적으로 "액션 (action)" 이라고 지칭됨) 은 이동 디바이스에서 수행되거나 실행될 수 있는 임의의 동작 또는 동작을 위한 명령들을 지칭한다.
캡처된 미디어 사운드로부터 사운드 특징을 추출한 후, 이동 디바이스 (130) 는 추출된 사운드 특징과 연관된 기능을 결정할 수도 있다. 예시된 예에서, 안내방송 "당신의 전화를 꺼 주세요" 는 영화관 (100) 에서의 재생을 위하여 성우에 의해 사전-레코딩될 수도 있다. 일단 기능이 결정되면, 이동 디바이스 (130) 는 기능을 수행한다. 예를 들어, 이동 디바이스 (130) 는 시각, 청각, 또는 촉각 통지를 제공함으로써 시청자 (120) 가 이동 디바이스 (130) 를 끄는 것을 촉구하는 기능을 수행할 수도 있다. 일부 실시형태들에서, 이동 디바이스 (130) 는 시청자 (120) 에 의한 개입을 필요로 하지 않고, 이동 디바이스 (130) 를 자동으로 끄도록 구성될 수도 있다.
도 2 는 일부 실시형태들에 따라, 텔레비전 (210) 으로부터 캡처된 미디어 사운드에 기초하여 기능을 수행하도록 구성되는 이동 디바이스 (130) 가 구비된 시청자 (120) 를 예시한다. 예시된 실시형태에서, 텔레비전 (210) 으로부터 방송되는 어떤 사운드들은 미디어 사운드들일 수도 있고, 그 각각은 이동 디바이스 기능과 연관된 사운드 특징에 의해 특징화된다. 텔레비전 (210) 이 미디어 사운드를 방송할 때, 이동 디바이스 (130) 는 미디어 사운드를 캡처하고, 미디어 사운드로부터 사운드 특징을 추출한다.
하나의 실시형태에서, 텔레비전 (210) 은 스크린 상에 광고를 디스플레이할 수도 있고, 동시에, 텔레비전 (210) 의 하나 이상의 스피커들 (240) 을 통해 방송광고와 연관된 미디어 사운드를 재생할 수도 있다. 예를 들어, 텔레비전 (210) 은 인기있는 통조림 음료에 대한 광고를 재생할 수도 있고, 사전 레코딩되었던 통조림 음료에 관한 사운드 클립 (예를 들어, 통조림 음료를 마시는 사람) 이 이동 디바이스 (130) 에 의해 캡처된다. 일단 캡처되면, 미디어 사운드는 캡처된 사운드 클립에 대한 고유의 사운드 특징을 추출하기 위하여 디지털 방식으로 프로세싱된다. 사운드 특징은 이동 디바이스 (130) 에 의해 수행되어야 할 기능과 연관될 수도 있어서, 이동 디바이스 (130) 는 정보에 대한 검색, 예를 들어, 인터넷 검색을 자동으로 수행할 수도 있다. 통조림 음료 방송광고의 예에서, 이동 디바이스 (130) 는 예를 들어, 검색 엔진을 통해 검색을 자동으로 수행하여 제품 세부사항들, 쿠폰들, 또는 통조림 음료에 관한 검색 결과를 디스플레이할 수도 있다. 또 다른 예에서, 이동 디바이스 (130) 에 의해 수행되어야 할 기능은, 시청자 (120) 가 텔레비전 (210) 상에서 축구 경기를 시청하고 있을 동안에는 축구 선수들에 대한 최신 통계들에 대한 검색을 수행하는 것일 수도 있다. 또 다른 예에서, 이동 디바이스 (130) 는 시청자 (120) 가 시청하고 있는 텔레비전 프로그램, 예를 들어, 뉴스 프로그램 또는 아침 프로그램의 웹사이트의 검색을 수행할 수도 있다.
도 3 은 일부 실시형태들에 따라, 각각 텔레비전들 (312A 및 312B) 로부터의 미디어 사운드들에 기초하여 대화 기능을 개시하도록 구성되는 이동 디바이스들 (130A 및 130B) 을 각각 구비한 시청자들 (120A 및 120B) 을 예시한다. 예시된 실시형태에서, 시청자 (120A) 는 제 1 위치 (310A) 에서 텔레비전 (312A) 을 시청하고 있는 반면, 시청자 (120B) 는 제 2 위치 (310B) 에서 텔레비전 (312B) 을 시청하고 있다. 시청자들 (120A 및 120B) 이 동일한 텔레비전 프로그램 (예를 들어, 쇼, 방송광고, 스포츠 이벤트 등) 을 시청하고 있을 때, 이동 디바이스들 (130A 및 130B) 은 각각 텔레비전들 (312A 및 312B) 로부터 방송된 미디어 사운드들을 캡처하고 캡처된 미디어 사운드들로부터 사운드 특징들을 추출하도록 구성된다. 예를 들어, 텔레비전 프로그램에서의 배우 (330) 의 음성과 같은 미디어 사운드가 텔레비전 (312A) 의 스피커들 (320A) 을 통해 재생될 때, 이동 디바이스 (130A) 는 배우 (330) 의 음성의 미디어 사운드를 캡처할 수도 있다. 유사하게, 시청자들 (120A 및 120B) 이 동일한 텔레비전 프로그램을 시청하고 있으므로, 이동 디바이스 (130B) 는 스피커들 (320B) 을 통해 동일한 배우 (330) 의 음성의 미디어 사운드를 캡처할 수도 있다.
일단 이동 디바이스들 (130A 및 130B) 이 배우 (330) 의 음성의 미디어 사운드들을 캡처하면, 이동 디바이스들 (130A 및 130B) 은 캡처된 미디어 사운드들로부터 사운드 특징들을 추출할 수도 있고, 네트워크 (350) 를 통해 추출된 사운 특징들을 서버 (340) 로 송신할 수도 있다. 네트워크 (350) 는 임의의 타입의 네트워크 뿐만 아니라, 셀룰러 네트워크들, 회선 교환 네트워크들, 공중 교환 네트워크들, 로컬 영역 네트워크들, 광역 네트워크들, 무선 네트워크들, 및/또는 패킷 교환 네트워크들 등을 포함하지만 이것으로 제한되지 않는 네트워크들의 임의의 조합일 수도 있다. 서버 (340) 는 배우 (330) 의 음성의 미디어 사운드로부터 추출되는 기준 사운드 특징을 저장할 수도 있다. 이동 디바이스들 (130A 및 130B) 로부터의 수신된 사운드 특징들이 기준 사운드 특징과 동일한 것으로 결정될 경우, 서버 (340) 는 이 두 사운드 특징들이 동일한 미디어 사운드를 나타내는 것으로 결정한다.
다음으로, 서버 (340) 는 이동 디바이스들 (130A 및 130B) 에 의해 수행되어야 할 기준 사운드 특징과 연관된 기능을 결정한다. 예를 들어, 기능은 음성 또는 비디오 대화 세션, 소셜 네트워크 서비스, 텍스트 및/또는 사진 교환 서비스 등을 개시하는 것과 같은, 두 이동 디바이스들 (130A 및 130B) 에 대한 유사한 동작들을 활성화하는 기능일 수도 있다. 서버 (340) 는 이동 디바이스에 의해 수행되어야 할 기능을 식별하는 정보 (예를 들어, 데이터 또는 명령) 를 이동 디바이스들 (130A 및 130B) 로 송신한다. 이동 디바이스들 (130A 및 130B) 은 수행되어야 할 기능을 식별하는 정보를 수신할 수도 있고, 그 기능을 수행할 수도 있다. 하나의 실시형태에서, 이동 디바이스들 (130A 및 130B) 은 각각 이동 디바이스들 (130A 및 130B) 의 시청자들 (120A 및 120B) 사이의 통신 세션 (예를 들어, 음성 또는 비디오 대화 세션) 을 개시하기 위하여 식별된 기능을 수행한다.
하나의 실시형태에서, 서버 (340) 는 이동 디바이스들 (130A 및 130B) 에 의해 캡처된 사운드들이 서버 (340) 에서의 데이터베이스에 등록된 미디어 사운드들 중 하나인지 여부를 결정함으로써, 사운드 출력 디바이스로부터 출력되는 사운드 (즉, 미디어 사운드) 와, 사운드 출력 디바이스 이외의 소스로부터 출력되는 라이브 사운드 (live sound, 즉, 미디어 사운드가 아닌 사운드) 사이를 구별할 수 있을 수도 있다. 예를 들어, 배우 (330) 가 물리적으로 제 2 위치 (310B) 에 존재하고 텔레비전 (312B) 이 켜 있지 않은 상태에서 시청자 (120B) 에게 말을 할 경우, 이동 디바이스 (130B) 는 배우 (330) 의 라이브 음성 (즉, 미디어 사운드가 아닌 사운드) 을 캡처할 수도 있고, 캡처된 음성으로부터 사운드 특징을 추출할 수도 있다. 다른 한편으로, 이동 디바이스 (130A) 는 사운드 특징을 추출하기 위하여 텔레비전 (312A) 으로부터 배우 (330) 의 사운드 (즉, 미디어 사운드) 를 추출한다. 다음으로, 이동 디바이스들 (130A 및 130B) 은 추출된 사운드 특징들을 서버 (340) 로 송신하고, 서버 (340) 는 이동 디바이스들 (130A 및 130B) 로부터의 추출된 사운드 특징들이 동일한 기준 사운드 특징과 연관되는지 여부를 결정하도록 구성된다. 제 2 위치 (310B) 에서 캡처된 라이브인 배우의 음성에 대한 사운드 특징의 경우, 서버 (340) 에서의 데이터베이스는 일치하는 기준 사운드 특징을 가지지 않을 것이고, 이에 따라, 이동 디바이스 (130A) 에 의해 캡처된 사운드가 이동 디바이스 (130B) 에 의해 캡처된 라이브인 배우의 음성과는 상이한 것으로 결정한다. 그 결과, 서버 (340) 는 이동 디바이스들 (130A 및 130B) 에 의해 수행되어야 할 기능을 식별하는 정보를 제공하지 않는다.
도 4 는 일부 실시형태들에 따라, 자동차 (410) 내의 자동차 오디오 (430) 로부터의 미디어 사운드에 응답하여 기능을 수행하도록 구성될 수도 있는 이동 디바이스 (130) 를 구비한 운전자 (420) 를 예시한다. 예시된 실시형태에서, 자동차 오디오 (430) 는 사전-레코딩되었던 광고, 음악, 뉴스, 또는 날씨 예보와 같은 어떤 사운드를 방송할 수도 있다. 예를 들어, 제품에 관한 광고의 사운드 클립은 미디어 사운드와 같은 이동 디바이스 (130) 에 의해 캡처될 수도 있다. 캡처된 미디어 사운드로부터, 이동 디바이스 (130) 는 사운드 특징을 추출할 수도 있고, 추출된 사운드 특징을 도 3 의 서버 (340) 와 같은 서버로 송신할 수도 있다. 일부 실시형태들에서, 이동 디바이스 (130) 는 글로벌 위치결정 시스템 (GPS; Global Positioning System) 과 같은 이동 디바이스 (130) 의 위치 추적 특징을 이용함으로써 이동 디바이스 (130) 의 위치 정보를 추출된 사운드 특징과 함께 서버 (340) 로 또한 송신할 수도 있다.
이동 디바이스 (130) 로부터 사운드 특징을 수신한 후, 서버 (340) 는 사운드 특징이 서버 (340) 에 저장된 기준 사운드 특징과 동일한지 여부를 결정할 수도 있다. 서버 (340) 가 이동 디바이스 (130) 로부터 수신된 사운드 특징이 기준 사운드 특징과 동일한 것으로 결정할 경우, 서버 (340) 는 이동 디바이스 (130) 에 의해 수행되어야 할 기능을 결정할 수도 있고, 기능을 식별하는 정보를 이동 디바이스 (130) 로 송신할 수도 있다. 예를 들어, 기능은 미디어 사운드를 통해 광고되고 있는 제품이 구입될 수 있는 위치들의 리스트를 제공하는 것일 수도 있다. 이동 디바이스 (130) 는 서버 (340) 로부터 기능을 식별하는 정보를 수신하고, 위치들의 리스트를 지도에서 디스플레이함으로써, 또는 기업의 이름, 위치 정보 및 전화 번호와 같은 상세한 정보를 제공함으로써 기능을 수행한다.
또 다른 실시형태에서, 서버 (340) 는 광고된 제품 및/또는 이동 디바이스 (130) 의 위치에 기초하여 판촉 정보 (예를 들어, 할인 바우처들, 무료 서비스 쿠폰 등) 를 제공하도록 기능을 결정할 수도 있다. 자동차 오디오 (430) 상으로 방송될 수 있는 임의의 미디어 사운드에 기초하여 다른 기능들이 이동 디바이스 (130) 상에서 가능하며 그것은 광고들로 제한될 필요가 없다는 것이 인식될 것이다.
도 5 는 일부 실시형태들에 따라, 버스 (510) 의 스피커 (540) 로부터의 미디어 사운드에 응답하여 기능을 수행하도록 구성될 수도 있는 이동 디바이스 (130) 를 구비한 버스 (510) 상의 승객 (520) 을 예시한다. 승객 (520) 이 버스 (510) 에 있는 동안, 다음 정류장에 대해 승객들에게 통지하기 위하여, 안내방송과 같은 미디어 사운드는 버스 (510) 의 스피커 (540) 를 통해 만들어질 수도 있다. 승객 (520) 의 이동 디바이스 (130) 는 이러한 안내방송을 캡처하고, 이동 디바이스 (130) 상에서 기능을 실행하기 위하여, 이전에 설명된 바와 같이 프로세싱될 수도 있는 사운드 특징을 추출하기 위해 캡처된 사운드를 프로세싱하도록 구성될 수도 있다.
다음 정류장의 안내방송이 행해질 때, 승객 (520) 이 이어폰으로 이동 디바이스 (130) 상의 음악을 청취하고 있으면, 승객 (520) 은 안내방송을 듣지 못할 수도 있다. 따라서, 이동 디바이스 (130) 는 안내방송을 캡처할 수도 있고, 안내방송의 추출된 사운드 특징에 기초하여, 청각 및/또는 시각 메시지, 촉각 통지, 또는 그 임의의 조합을 출력하는 것과 같이, 다음 정류장에 대해 승객 (520) 에게 통지하는 기능을 수행할 수도 있다. 예를 들어, 이동 디바이스 (130) 는 승객 (520) 에게 재생되고 있는 음악을 정지시키고 및/또는 진동 통지를 발생시키도록 구성될 수도 있다. 또한, 이동 디바이스 (130) 는 이동 디바이스 (130) 의 스크린 상에 팝-업 (pop-up) 메시지 (예를 들어, "다음 정류장이 목적지입니다") 를 디스플레이할 수도 있다. 일부 실시형태들에서, 승객 (520) 은 목적지 정류장이 안내방송될 때에 통지를 받기 위하여 목적지 정보로 이동 디바이스 (130) 를 사전구성할 수도 있다.
이동 디바이스 (130) 는 미디어 사운드들에 기초하여 다른 기능들을 수행하도록 구성될 수도 있다. 예를 들어, 이동 디바이스 (130) 는 목적지 정류장들의 사전-레코딩된 안내방송에 기초하여 지도 또는 공공 운송 노선과 같은 위치 정보를 디스플레이하도록 구성될 수도 있다. 또 다른 예에서, 이동 디바이스 (130) 는 버스 (510) 의 스피커 (540) 를 통해 안내방송된 사전-레코딩된 광고를 캡처할 수도 있고, 광고된 제품과 연관된 제품 및/또는 위치 정보를 승객 (520) 에게 통지할 수도 있다.
일부 실시형태들에서, 이동 디바이스 (130) 는 재생 동안의 임의의 시간에 (예를 들어, 라디오 또는 텔레비전 프로그램, 방송광고 사운드 클립, 스피커 안내방송 등으로부터) 미디어 사운드들을 캡처할 수도 있다는 것이 인식될 것이다. 일부 실시형태들에서, 미디어 사운드들은 어떤 시간 간격들로 이동 디바이스 (130) 에 의해 캡처될 수도 있다. 예를 들어, 도 3 에 예시된 바와 같이 텔레비전 프로그램을 시청할 경우, 시청자 (120B) 가 시청자 (120A) 보다 더 이후의 시간에 동일한 텔레비전 프로그램에 맞추면, 다음에 연관된 사운드 특징을 갖는 미디어 사운드가 텔레비전 (312B) 상에서 재생될 때, 이동 디바이스들 (130A 및 130B) 은 대화 서비스를 개시할 것이다.
도 6a 는 일부 실시형태들에 따라, 미디어 사운드로부터 추출된 사운드 특징에 기초하여 이동 디바이스 (130A) 에서 수행되어야 할 기능을 결정하도록 구성된 시스템 (600A) 을 예시하는 블록도이다. 시스템 (600A) 은 네트워크 (350) 를 통해 접속된 서버 (340A) 및 이동 디바이스 (130A) 를 포함할 수도 있다. 이동 디바이스 (130A) 는 사운드 센서 (612), 사운드 특징 추출기 (614), 송신기 (616), 수신기 (618), 제어 유닛 (620), 및 출력 유닛 (622) 을 포함할 수도 있다. 사운드 센서 (612) 는, 전화를 끄는 것, 통지를 전송하는 것, 또는 인터넷 상에서 검색을 행하고 검색 결과를 제공하는 것과 같은, 미디어 사운드와 연관된 기능을 식별하기 위하여 이용될 수 있는 적어도 하나의 고유한 사운드 특징을 갖는 미디어 사운드를 캡처하도록 구성된다. 예를 들어, 사운드 센서 (612) 는 주위의 주변 사운드를 검출하고, 감지하고, 및/또는 캡처하기 위해 이용되는 하나 이상의 마이크로폰들 또는 임의의 다른 타입의 사운드 센서들을 포함할 수도 있다. 사운드 센서 (612) 는 전화 호출들 또는 비디오들의 레코딩을 위해 이동 디바이스 (130A) 내에 구축된 마이크로폰, 또는 주변 사운드를 수신하기 위한 전용의 마이크로폰일 수도 있다. 사운드 특징 추출기 (614) 는 사운드 센서 (612) 로부터 미디어 사운드를 수신하고, 스피치 및 오디오 코딩, 압축, 인식 및 분석 방법들을 포함하는 적당한 신호 프로세싱 방법들을 이용함으로써 미디어 사운드로부터 고유한 사운드 특징 (예를 들어, 오디오 핑거프린트 또는 사운드 서명) 을 추출한다. 예를 들어, 이러한 방법들은, 오디오 핑거프린팅 (audio fingerprinting), 스피치 인식 또는 스피치 및 오디오 코딩을 위한 잘 알려진 방법들인, 스펙트럼 분석, MFCC (Mel-frequency cepstral coefficients; 멜-주파수 켑스트럼 계수들), LPC (linear predictive coding; 선형 예측 코딩), 및/또는 LSP (line spectral pair; 선 스펙트럼 쌍) 기술들을 포함한다. 또한, 아래에서 더욱 상세하게 설명된 바와 같이, 고유한 사운드 특징은 기본 필터를 캡처된 미디어 사운드에 적용함으로써 추출될 수도 있다.
이동 디바이스 (130A) 의 송신기 (616) 는 추출된 사운드 특징을 네트워크 (350) 를 통해 서버 (340A) 로 송신하도록 구성된다. 아래에서 더욱 상세하게 설명되는 바와 같이, 서버 (340A) 는 이동 디바이스 (130A) 에 의해 수행되어야 할 기능을 결정하기 위하여 이동 디바이스 (130A) 로부터 수신된 사운드 특징을 프로세싱하고, 기능을 식별하는 정보를 네트워크 (350) 를 통해 이동 디바이스 (130A) 에 제공한다. 이동 디바이스 (130A) 의 수신기 (618) 는 사운드 특징에 기초하여 결정된 기능을 식별하는 정보를 수신하고, 이동 디바이스 (130A) 에서 기능을 수행하도록 구성되는 제어 유닛 (620) 에 기능을 식별하는 정보를 송신하도록 구성된다. 예를 들어, 제어 유닛 (620) 은 이동 디바이스 (130A) 를 끄거나 출력 유닛 (622) 을 통해 통지 메시지를 디스플레이함으로써 기능을 수행할 수도 있다.
서버 (340A) 는 이동 디바이스 (130A) 로부터 수신된 사운드 특징에 기초하여 이동 디바이스 (130A) 상에서 수행되어야 할 기능을 결정하도록 구성된다. 서버 (340A) 는 수신기 (642), 기능 결정 유닛 (644), 사운드 특징 데이터베이스 (646), 기본 필터 발생기 (650), 송신기 (648), 및 샘플 사운드 데이터베이스 (652) 를 포함할 수도 있다. 수신기 (642) 는 이동 디바이스 (130A) 로부터 사운드 특징을 수신하도록 구성되고, 이동 디바이스 (130A) 에 의해 결정되어야 할 기능을 결정하기 위한 기능 결정 유닛 (644) 에 사운드 특징을 제공한다.
기능 결정 유닛 (644) 은 수신된 사운드 특징과의 최대 유사성을 갖는 기준 사운드 특징을 식별하기 위하여 사운드 특징 데이터베이스 (646) 에 액세스하도록 구성된다. 사운드 특징 데이터베이스 (646) 는 복수의 기준 사운드 특징들을 포함하고, 그 각각은 미디어 사운드로부터 추출되었고 이동 디바이스에 의해 수행되어야 할 기능과 연관된다. 하나의 실시형태에서, 추출된 사운드 특징 또는 기준 사운드 특징은 미디어 사운드를 공유하게 설명하거나 나타내는 값들의 임의의 적당한 세트에 의해 표현될 수도 있다. 예를 들어, 값들의 세트는 주파수 도메인 스펙트럼, 전력 도메인 스펙트럼 등에 대응할 수도 있다. 미디어 사운드는 사운드를 공유하게 설명하거나 나타내는 사운드 특징에 의해 특징화되고, 오디오 핑거프린트, 사운드 서명, 또는 임의의 다른 사운드 식별자를 포함할 수도 있다. 따라서, 사운드 특징 데이터베이스 (646) 는 연관된 기능을 각각 가지는 복수의 추출된 사운드 특징들 또는 기준 사운드 특징들로 구성될 수도 있다. 본원에서 설명되는 바와 같이, 사운드 특징이 미디어 사운드로부터 추출되었고 연관된 기능과 함께 사운드 특징 데이터베이스 (646) 내에 포함되었을 때, 미디어 사운드는 사운드 특징 데이터베이스 (646) 내에 등록되었던 것으로 고려될 수도 있다. 따라서, 입력 미디어 사운드가 사운드 특징 데이터베이스 (646) 에 등록되었을 때, 이동 디바이스에 의해 수행되어야 할 대응하는 기능은 사운드 특징 데이터베이스 (646) 로부터 식별될 수 있다.
아래의 표 1 에서 예시된 바와 같이, 사운드 특징 데이터베이스 (646) 는 수행되어야 할 기능과 각각 연관되는 복수의 기준 사운드 특징들 1 내지 N 을 포함할 수도 있다. 예를 들어, 기준 사운드 특징 1 은 기능 "전화를 끄세요" 와 연관되는 반면, 기준 사운드 특징 2 는 인터넷 상에서 제품 검색을 행하고 검색 결과를 제공하는 기능과 연관될 수도 있다.
기준 사운드 특징들 | 수행되어야 할 기능 |
기준 사운드 특징 1 | 전화를 끄세요 |
기준 사운드 특징 2 | 인터넷 상에서 "제품" 검색을 행하고 검색 결과를 제공한다 |
. . . |
. . . |
기준 사운드 특징 N | 기능 N |
서버 (340A) 에서의 기본 필터 발생기 (650) 는 샘플 사운드 데이터베이스 (652) 의 샘플 사운드들을 이용함으로써 추출된 사운드 특징에 적용될 수도 있는 하나 이상의 기본 필터들을 발생시키도록 구성된다. 또한, 기본 필터들은 사운드 특징 데이터베이스 (646) 의 정확성을 개선시키기 위하여 사운드 특징 데이터베이스 (646) 를 업데이트시키도록 이용될 수도 있다. 기본 필터 발생기 (650) 의 특정 동작들은 아래에서 더욱 상세하게 제공된다.
수신된 사운드 특징에 기초하여, 기능 결정 유닛 (644) 은 사운드 특징 데이터베이스 (646) 를 액세스하고, 수신된 사운드 특징과의 최대 유사성을 가지는 기준 사운드 특징을 결정한다. 일단 기준 사운드 특징이 사운드 특징 데이터베이스 (646) 로부터 식별되었으면, 기능 결정 유닛 (644) 은 사운드 특징 데이터베이스 (646) 로부터의 식별된 기준 사운드 특징과 연관된 기능을 결정한다. 서버 (340A) 는 기능을 식별하는 정보를 네트워크 (350) 를 통해 송신기 (648) 를 거쳐 이동 디바이스 (130A) 로 송신한다. 이동 디바이스 (130A) 의 제어 유닛 (620) 은 기능을 식별하는 정보를 수신기 (618) 를 통해 서버 (340A) 로부터 수신하고, 예를 들어, 이동 디바이스 (130A) 를 끄거나 출력 유닛 (622) 을 통해 통지 메시지를 디스플레이함으로써 이동 디바이스 (130A) 에서 기능을 수행한다.
하나의 실시형태에서, 이동 디바이스 (130A 또는 130B) 는 사용자 개입을 필요로 하지 않으면서, 사운드 프로세싱 기능들을 자동으로 수행하도록 구성될 수도 있다. 다시 말해서, 사용자는 이동 디바이스 (130A 또는 130B) 상에서 기능들의 수행을 수동으로 개시할 필요가 없다. 이 경우, 이동 디바이스 (130A 또는 130B) 의 사운드 센서 (612) 는 이동 디바이스 (130A 또는 130B) 상에서 수행되어야 할 기능을 결정하기 위하여, 예를 들어, 등록된 미디어 사운드를 인식하기 위해 환경 사운드들을 연속적으로 캡처할 수도 있다. 그러나, 이동 디바이스들 (130A 또는 130B) 이 환경 사운드들을 연속적으로 캡처하고 이를 프로세싱하도록 동작하는 동안, 전력은 전형적으로 용량에 있어서 제한되어 있는 배터리로부터 일반적으로 소비된다. 따라서, 배터리를 절감하기 위하여, 이동 디바이스 (130A 또는 130B) 의 전력 소비는 아래의 일부 실시형태들에서 설명된 바와 같이, 저-전력 모드에서 동작함으로써 감소될 수도 있다.
일부 실시형태들에서, 이동 디바이스 (130A) 는 전력 소비를 감소시키기 위하여 미리 결정된 시간 간격으로 환경 사운드를 캡처할 수도 있다. 이 경우, 환경 사운드를 캡처하거나 프로세싱하기 위하여 이용되는 이동 디바이스 (130A) 내의 컴포넌트들은 미리 결정된 시간 간격으로 활성화될 수도 있다 (예를 들어, 100 ms 의 간격으로 10 ms 의 지속기간을 갖는 사운드). 예를 들어, 이러한 컴포넌트들은 10 ms 동안 "활성 상태" (즉, 고-전력 (high-power) 상태) 에 있고 다음 90 ms 동안 "아이들 상태" (즉, 저-전력 (low-power) 상태 또는 오프 (off) 상태) 에 있도록 구성될 수도 있다. 활성 상태 동안, 이동 디바이스 (130A) 는 환경 사운드를 캡처하고, 캡처된 사운드가 미리 결정된 임계 사운드 레벨 (예를 들어, 전력 레벨) 을 초과하는지를 결정한다. 캡처된 사운드의 사운드 레벨이 임계 사운드 레벨을 초과할 경우, 이동 디바이스 (130A) 는 이동 디바이스 (130A) 상에서 수행되어야 할 기능을 결정하기 위하여 캡처된 사운드를 프로세싱할 수도 있다. 아이들 상태에서는, 환경 사운드들을 캡처하거나 프로세싱하기 위해 이용되는 컴포넌트들이 듀티 사이클의 90 % 동안에 비활성 (inactive) 이다. 따라서, 이러한 경우, 이동 디바이스 (130A) 는 환경 사운드들을 연속적으로 캡처하고 이를 프로세싱하는 경우 동안에 사운드 프로세싱에 있어서 전력의 90 % 만큼을 절약할 수도 있다.
이동 디바이스 (130A) 는 캡처된 사운드가 스피치 또는 음악과 같은 미디어 사운드인지 여부를 결정하도록 또한 구성될 수도 있다. 하나의 실시형태에서, 사운드 센서 (612) 는 캡처된 사운드가 잡음과 같은 비-미디어 (non-media) 사운드들과 구별하기 위한 미디어 사운드인지 여부를 결정하기 위하여 디지털 신호 프로세서 ("DSP") 를 포함할 수도 있다. 예를 들어, 캡처된 사운드의 사운드 레벨이 임계 사운드 레벨을 초과하는 것으로 결정될 때, DSP 는 MFCC (멜-주파수 켑스트럼 계수들) 를 갖는 가우시안 혼합 모델 (Gaussian Mixture Mode) 과 같은 적당한 신호 프로세싱 방법들을 이용함으로써 캡처된 사운드가 미디어 사운드인지 아닌지를 결정하기 위하여 활성화될 수도 있다. DSP 가 캡처된 사운드가 스피치 또는 음악과 같은 미디어 사운드인 것으로 결정할 경우, 캡처된 사운드는 위에서 설명된 바와 같은 추가의 프로세싱을 위하여 사운드 특징 추출기 (614) 에 제공된다. 다른 한편으로, DSP 가 캡처된 사운드가 미디어 사운드가 아닌 것으로 결정할 경우, 캡처된 사운드는 더 프로세싱되지 않는다. 사운드 프로세싱의 전단 (front end) 에서 비-미디어 사운드들을 식별하고 이를 폐기함으로써, 이동 디바이스 (130A) 는 모든 캡처된 사운드들을 프로세싱하는 경우에 비해 상당한 전력을 절약할 수도 있다.
도 6b 는 또 다른 실시형태에 따라, 서버 (340B) 가 이동 디바이스 (130B) 로부터 수신된 미디어 사운드에 기초하여 이동 디바이스 (130B) 에서 수행되어야 할 기능을 결정하도록 구성되는 시스템 (600B) 을 예시하는 블록도이다. 예시된 바와 같이, 시스템 (600B) 은 네트워크 (350) 를 통해 접속된 이동 디바이스 (130B) 및 서버 (340B) 를 포함한다. 이 실시형태에서, 사운드 특징 추출기 (643) 는 도 6a 의 시스템 (600A) 과 대조적으로, 이동 디바이스 (130B) 가 아니라 서버 (340B) 내에 포함된다. 이동 디바이스 (130B) 의 사운드 센서 (612) 가 미디어 사운드를 캡처한 후, 이동 디바이스 (130B) 는 송신기 (616) 를 통해 미디어 사운드를 서버 (340B) 로 직접 송신한다.
서버 (340B) 에서는, 수신기 (642) 가 이동 디바이스 (130B) 로부터 송신된 미디어 사운드를 수신하고, 수신된 미디어 사운드를 사운드 특징 추출기 (643) 에 제공한다. 사운드 특징 추출기 (643) 는 미디어 사운드로부터 고유의 사운드 특징을 추출하도록 구성된다. 다음으로, 서버 (340B) 는 이동 디바이스 (130B) 에 의해 수행되어야 할 기능을 결정하고 기능을 식별하는 정보를 네트워크 (350) 를 통해 이동 디바이스 (130B) 에 제공하기 위하여, 도 6a 와 관련하여 위에서 설명된 것과 동일한 방식으로 추출된 사운드 특징을 프로세싱할 수도 있다.
도 7 은 일부 실시형태들에 따라, 수행되어야 할 기능을 결정하기 위한, 사운드 특징 데이터베이스 (740) 를 포함하는 이동 디바이스 (700) 의 블록도를 예시한다. 이동 디바이스 (700) 는 적어도 하나의 고유한 사운드 특징을 갖는 미디어 사운드를 캡처하도록 구성된 사운드 센서 (710) 와, 사운드 센서 (710) 로부터 미디어 사운드를 수신하고 캡처된 미디어 사운드로부터 사운드 특징 (예를 들어, 오디오 핑거프린트) 을 추출하도록 구성된 사운드 특징 추출기 (720) 를 포함한다. 이동 디바이스 (700) 는 추출된 사운드 특징을 제 2 특징 데이터베이스 (740) 에 저장된 복수의 기준 사운드 특징들과 비교하도록 구성된 기능 결정 유닛 (730) 을 추가적으로 포함한다.
기능 결정 유닛 (730) 은 수신된 사운드 특징과의 최대 유사성을 갖는 기준 사운드 특징을 식별하기 위하여 사운드 특징 데이터베이스 (740) 에 액세스하도록 구성된다. 위에서 설명된 바와 같이, 사운드 특징 데이터베이스 (740) 는 복수의 기준 사운드 특징들을 포함하고, 그 각각은 미디어 사운드로부터 추출되었으며 이동 디바이스에 의해 수행되어야 할 기능과 연관된다. 사운드 특징 데이터베이스 (740) 의 복수의 기준 사운드 특징들은 이동 디바이스 (700) 에서 로컬 방식으로 또는 서버와 통신하여 원격으로 업데이트될 수도 있다. 예를 들어, 사용자는 미디어 사운드를 캡처하고 연관된 기능을 이동 디바이스 (700) 에 입력하기 위하여 이동 디바이스 (700) 를 동작시킬 수도 있다. 다음으로, 이동 디바이스 (700) 는 캡처된 미디어 사운드로부터 기준 사운드 특징을 추출할 수도 있고, 연관된 기능을 갖는 추출된 기준 사운드 특징을 사운드 특징 데이터베이스 (740) 에 저장할 수도 있다. 대안적으로, 사운드 특징 데이터베이스 (740) 는 원격 서버로부터 연관된 기능을 갖는 기준 사운드 특징을 다운로딩할 수도 있다. 사운드 특징 데이터베이스 (740) 로부터, 기능 결정 유닛 (730) 은 식별된 기준 사운드 특징과 연관된 기능을 결정한다. 기능 결정 유닛 (730) 으로부터의 결정된 기능에 기초하여, 제어 유닛 (760) 은 이동 디바이스 (700) 에서 기능을 수행한다.
도 8 은 하나의 실시형태에 따라, 사운드 특징 데이터베이스 (646) 의 데이터 구조 (800) 를 예시하는 블록도이다. 도 6a 및 도 6b 의 사운드 특징 데이터베이스 (646) 가 데이터 구조 (800) 에 의해 설명될 수도 있지만, 도 7 의 사운드 특징 데이터베이스 (740) 는 데이터 구조 (800) 를 또한 이용할 수도 있다. 데이터 구조 (800) 는, 기준 사운드 특징들 (812A 내지 812N), 기능들 (814A 내지 814N), 및 컨텍스트 정보 (816A 내지 816N) 를 각각 포함하는 복수의 메타-데이터 (810A 내지 810N) 를 포함한다. 컨텍스트 정보 (816A 내지 816N) 는 각각 기준 사운드 특징들 (812A 내지 812N) 을 위한 추가적인 정보 또는 파라미터들을 제공할 수도 있다. 따라서, 메타-데이터 (810A 내지 810N) 의 각각은 대응하는 기준 사운드 특징의 특성들을 설명한다. 예를 들어, 미디어 사운드 "전화를 꺼 주세요" 는, 미디어 사운드로부터 추출된 기준 사운드 특징 (812A), 이동 디바이스 상에서 수행되어야 할 기능 (814A) (예를 들어, 이동 디바이스를 끄거나 이동 디바이스의 구성을 묵음 모드 (silent mode) 로 조절함), 미디어 사운드가 캡처될 수도 있는 환경 컨텍스트 (예를 들어, 영화관) 를 식별하는 컨텍스트 정보 (816A) 를 포함하는 메타-데이터 (810A) 에 의해 표현될 수도 있다.
메타-데이터 (810A 내지 810N) 는 서버 (340) 에서 로컬 방식으로 또는 또 다른 원격 서버에서 사전-발생될 수도 있고, 사운드 특징 데이터베이스 (646) 에 저장될 수도 있다. 예를 들어, 메타-데이터 (810A) 는 타겟 미디어 사운드로부터 기준 사운드 특징 (812A) 을 추출함으로써, 그리고 희망하는 기능을 기준 사운드 특징 (812A) 과 연관된 기능 (814A) 으로서 제공함으로써 발생될 수도 있다. 기준 사운드 특징 (812A) 을 설명하거나 특징화할 수도 있는 추가적인 정보 또는 파라미터들은 컨텍스트 정보 (816A) 로서 제공될 수 있다. 상기한 방식으로 발생된 메타-데이터 (810A 내지 810N) 는 서버 (340) 에 업로딩될 수도 있고, 사운드 특징 데이터베이스 (646) 에 저장될 수도 있다.
도 9 는 일부 실시형태들에 따라, 서버 (340) 에서 수행되어야 할 기능을 결정함으로써 미디어 사운드로부터 추출된 사운드 특징에 기초하여 이동 디바이스 (130) 에 의해 기능을 수행하기 위한 방법 (900) 의 플로우차트이다. 초기에, 이동 디바이스 (130) 는 910 에서 사운드 출력 디바이스 (예를 들어, 도 1 에 도시된 바와 같은 영화관 (100) 에서의 스피커들 (140)) 를 통해 재생되는 미디어 사운드를 캡처한다. 이동 디바이스 (130) 는 920 에서, 캡처된 미디어 사운드로부터 사운드 특징을 추출하기 위하여, 캡처된 사운드를 프로세싱한다. 930 에서, 이동 디바이스 (130) 는 추출된 사운드 특징을 서버 (340) 에 송신하고, 서버 (340) 는 이동 디바이스 (130) 에 의해 수행되어야 할 기능을 결정하고 기능을 식별하는 정보를 네트워크를 통해 이동 디바이스 (130) 로 송신한다. 이동 디바이스 (130) 는 940 에서, 기능을 식별하는 정보를 서버 (340) 로부터 수신하고, 950 에서, 기능을 수행한다.
도 10 은 일부 실시형태들에 따라, 미디어 사운드의 사운드 특징에 기초하여 이동 디바이스 (130) 에서 수행되어야 할 기능을 결정하기 위한 방법 (1000) 으로서, 서버 (340) 에서 수행되는 방법 (1000) 의 플로우차트이다. 서버 (340) 는 1010 에서, 이동 디바이스 (130) 로부터 추출된 사운드 특징을 수신한다. 다음으로, 1020 에서, 서버 (340) 는 이동 디바이스 (130) 로부터의 추출된 사운드 특징과, 사운드 특징 데이터베이스 (646) 로부터의 기준 사운드 특징들의 각각과의 사이의 유사성 값들을 결정한다. 유사성 값들을 결정한 후, 서버 (340) 는 최대 유사성 값을 결정하고, 1030 에서, 최대 유사성 값과 연관되는 사운드 특징 데이터베이스 (646) 에서의 기준 사운드 특징을 식별한다. 하나의 실시형태에서, 최대 유사성 값이 미리 결정된 임계치보다 작을 경우, 기준 사운드 특징이 식별되지 않고, 이에 따라, 서버 (340) 는 송신된 사운드 특징에 대하여 기능이 전혀 식별되지 않았음을 표시하는 응답을 이동 디바이스 (130) 로 송신할 수도 있다. 일단 최대 유사성 값을 갖는 기준 사운드 특징이 결정되었으면, 서버 (340) 는 1040 에서, 사운드 특징 데이터베이스 (646) 로부터의 식별된 기준 사운드 특징과 연관된 기능을 결정한다. 다음으로, 1050 에서, 서버 (340) 는 결정된 기능을 식별하는 정보를 네트워크를 통해 이동 디바이스 (130) 로 송신한다.
도 11 은 일부 실시형태들에 따라, 미디어 사운드에 기초하여 기능을 결정하고 이를 수행하기 위한 방법 (1100) 으로서, 이동 디바이스 (130) 에 의해 수행되는 방법 (1100) 의 플로우차트이다. 이동 디바이스 (130) 는 초기에 1110 에서, 미디어 사운드를 캡처한다. 이동 디바이스 (130) 는 1120 에서, 캡처된 미디어 사운드로부터 사운드 특징을 추출하기 위하여, 캡처된 사운드를 프로세싱한다. 다음으로, 1130 에서, 이동 디바이스 (130) 는 추출된 사운드 특징과, 이동 디바이스 (130) 내의 사운드 특징 데이터베이스로부터의 기준 사운드 특징들의 각각 사이의 유사성 값들을 결정한다. 유사성 값들을 결정한 후, 이동 디바이스 (130) 는 최대 유사성 값을 결정하고, 1140 에서, 최대 유사성 값과 연관되는 사운드 특징 데이터베이스에서의 기준 사운드 특징을 식별한다. 일단 최대 유사성 값을 갖는 기준 사운드 특징이 결정되었으면, 이동 디바이스 (130) 는 1150 에서, 사운드 특징 데이터베이스로부터의 식별된 기준 사운드 특징과 연관된 기능을 결정한다. 다음으로, 1160 에서, 이동 디바이스 (130) 는 결정된 기능을 수행한다.
도 12 는 일부 실시형태들에 따라, 기본 필터에 기초하여 미디어 사운드로부터 사운드 특징을 추출하기 위한 방법 (1200) 으로서, 이동 디바이스 (130) 에 의해 수행되는 방법 (1200) 의 플로우차트를 예시한다. 이동 디바이스 (130) 의 사운드 센서 (612) 는 초기에 1210 에서, 미디어 사운드를 캡처한다. 이동 디바이스 (130) 의 사운드 특징 추출기 (614) 는 사운드 센서 (612) 로부터 캡처된 미디어 사운드를 수신하고, 1220 에서, 미디어 사운드를 미리 결정된 시간 기간을 갖는 복수의 프레임들로 분할한다 ("윈도우잉 (windowing)" 이라고 또한 지칭될 수도 있음). 하나의 실시형태에서, 인접한 프레임들은 프레임들의 부분들이 프레임들에 공통되도록 중첩하게 분할된다. 이러한 경우, 중첩하는 부분에 대한 시간 기간은 미리 결정될 수도 있다. 프레임들 및 중첩하는 부분들에 대한 시간 기간은 사운드 고유성에 있어서 희망하는 정확성 레벨을 달성하도록 조절될 수도 있다. 예를 들어, 프레임들 및/또는 중첩하는 부분들에 대한 더 작은 시간 기간은 사운드 고유성을 증대시킴으로써 더 큰 정확성으로 이어질 수도 있다.
미디어 사운드를 복수의 프레임들로 분할한 후, 각각의 프레임은 1230 에서, 예를 들어, 고속 퓨리에 변환 (FFT; Fast Fourier Transform) 을 이용함으로써 주파수 도메인 스펙트럼으로 변환된다. 대안적으로, 몇몇 다른 변환 프로세스들 (예를 들어, 이산 코사인 변환 (Discrete Cosine Transform), 하르 변환 (Haar Transform) 또는 왈쉬-하다마드 변환 (Walsh-Hadamard Transform) 을 포함하지만 이것으로 제한되지 않음) 이 프레임들을 변환하기 위하여 이용될 수도 있다. 하나의 실시형태에서, 주파수 도메인 스펙트럼에서의 변환된 프레임들은 추출된 사운드 특징, 또는 추출된 사운드 특징을 발생시키기 위한 중간 사운드 특징으로서 이용될 수도 있다.
프레임에 대응하는 각각의 주파수 도메인 스펙트럼에 대하여, 사운드 특징 추출기 (614) 는 1240 에서 전력 스펙트럼을 계산한다. 이 프로세스에서, 각각의 프레임에 대한 주파수 도메인 스펙트럼은 주파수 대역들로 분할될 수도 있고, 각각의 대역에서의 에너지 값 (즉, 전력 값) 은 각각의 주파수 대역의 전력 레벨로서 계산된다. 따라서, 주파수 대역들의 계산된 에너지 값들은 프레임을 고유하게 식별하기 위하여 중간 사운드 특징으로서 이용될 수도 있는 프레임의 전력 스펙트럼을 나타낸다.
일단 전력 스펙트럼이 각각의 프레임 (즉, 각각의 프레임의 중간 사운드 특징) 에 대하여 얻어졌다면, 사운드 특징 추출기 (614) 는 1250 에서, 기본 필터를 각각의 전력 스펙트럼에 적용함으로써 사운드 특징 (즉, 추출된 사운드 특징) 을 발생시킨다. 본원에서 이용되는 바와 같이, "기본 필터" 는 중간 사운드 특징보다 잡음 및 왜곡에 더욱 강인한 추출된 사운드 특징을 발생시키기 위하여 중간 사운드 특징 (예를 들어, 미디어 사운드로부터 추출된 전력 스펙트럼) 에 적용될 수도 있는 값들의 세트, 벡터, 또는 행렬을 지칭한다. 기본 필터를 적용함으로써 중간 사운드 특징으로부터 추출된 사운드 특징은 중간 특징들보다 더 높은 레벨의 특징을 나타낼 수도 있다. 예를 들어, 추출된 사운드 특징은 캡처된 사운드의 주파수 성분들의 변경들 또는 조합들을 나타내는 반면, 중간 특징은 캡처된 사운드의 주파수 성분들만을 나타낸다. 또 다른 예에서, 추출된 사운드 특징은 캡처된 사운드의 온셋 (onset) 또는 오프셋 (offset) 을 나타낼 수도 있다.
위에서 발생되는 추출된 사운드 특징은 캡처된 사운드를 나타내는 일련의 값들로 구성될 수도 있다. 다음으로, 1260 에서, 임의의 적당한 2 진화 알고리즘들을 채용함으로써, 추출된 사운드 특징의 값들은 2 진 형태 (예를 들어, "0 들" 또는 "1 들") 로 변환될 수도 있다. 하나의 실시형태에서는, 추출된 사운드 특징의 2 진화된 형태를 발생시키기 위하여, 추출된 사운드 특징의 각각의 값은 임계값과 비교될 수도 있다. 예를 들어, 추출된 사운드 특징의 값이 임계값 이상일 경우에는, 비트 "1" 이 값으로 배정되는 반면, 그 값이 임계값보다 작을 경우에는, 비트 "0" 이 그 값에 배정될 것이다. 또 다른 실시형태에서, 일련의 값들 중에서 미리 결정된 수의 값들이 선택될 수도 있고 "1" 의 값이 배정될 수도 있는 반면, 나머지 값들에는 "0" 의 값이 배정된다. 예를 들어, 일련의 값들 중에서 N 개의 최대 값들이 선택될 수도 있고 "1" 의 값이 배정될 수도 있는 반면, 나머지 값들에는 "0" 의 값이 배정된다. 2 진화 후에, 1270 에서, 2 진화된 사운드 특징은 추출된 사운드 특징으로서 출력된다.
일부 실시형태들에서, 기본 필터는 기준 사운드와 기준 사운드의 왜곡된 사운드 사이의 차이들을 최소화하기 위하여 값들 또는 행렬들을 계산함으로써 발생될 수도 있다. 본원에서 이용되는 바와 같이, "기준 사운드 세트" 라고 집합적으로 지칭될 수도 있는 "기준 사운드" (또는 "샘플 사운드") 및 기준 사운드의 왜곡된 사운드는 잡음을 갖지 않는 원래의 사운드의 세트 (즉, 왜곡되지 않은 기준 사운드) 및 잡음을 갖는 원래의 사운드 (즉, 왜곡된 기준 사운드) 를 지칭한다. 예를 들어, 기준 사운드 세트는 음악 또는 안내방송과 같은 잡음을 갖지 않는 임의의 원래의 사운드 (즉, 왜곡되지 않은 기준 사운드) 및 잡음을 갖는 동일한 원래의 사운드 (즉, 왜곡된 기준 사운드) 로부터 추출될 수도 있다.
하나의 실시형태에 따르면, 기본 필터 M 은 왜곡되지 않은 기준 사운드와 그 대응하는 왜곡된 기준 사운드 사이의 에러 E 를 최소화하도록 발생될 수도 있고, 다음과 같이, 행렬 형태로 표현될 수도 있다:
여기서, 는 i 번째 왜곡되지 않은 기준 사운드의 중간 사운드 특징들을 표시하는 벡터이고, 는 i 번째 왜곡되지 않은 기준 사운드의 k 번째 왜곡된 사운드의 중간 사운드 특징들을 표시하는 벡터이다. 상기 수식에서, 에러 E 는 기본 필터 M 에 대한 계수들을 조절하거나 최적화함으로써 감소될 수도 있다. 일부 실시형태들에서, 기본 필터 M 은 PCA (Principal Components Analysis; 주성분 분석), OPCA (Oriented Principal Components Analysis; 지향된 주성분 분석), ICA (Independent Component Analysis; 독립 성분 분석), 스파스 코딩 (Sparse Coding), 및 다른 유사한 알고리즘들을 포함하지만, 이것으로 제한되지 않는 임의의 적당한 기술들을 채용함으로써 발생될 수도 있다.
상기 기본 필터 M 에 기초하여, 기본 필터 M 을 미디어 사운드로부터 추출된 중간 사운드 특징에 적용하는 것은 중간 사운드 특징보다 잡음 및 왜곡에 더 강인한 사운드 특징을 발생시킨다. 기본 필터 M 은 서버 (340) 의 기본 필터 발생기 (650) 에 의해 발생될 수도 있고, 사운드 특징을 추출함에 있어서 이용하기 위하여 송신기 (648) 를 통해 이동 디바이스 (130) 에 제공될 수도 있다. 대안적으로, 이동 디바이스 (130) 는 중간 사운드 특징을, 사운드 특징을 추출함에 있어서 기본 필터 M 을 이용할 수도 있는 서버 (340) 로 송신할 수도 있다. 또 다른 실시형태에서, 이동 디바이스 (130) 는 미디어 사운드를 서버 (340) 로 송신할 수도 있고, 서버 (340) 는 미디어 사운드로부터 중간 사운드 특징을 추출할 수도 있고 사운드 특징을 추출함에 있어서 기본 필터 M 을 이용할 수도 있다. 위에서와 같이 발생된 기본 필터 M 은 사운드 특징 데이터베이스 (646) 에서 기준 사운드 특징들을 발생시키고 이를 업데이트하기 위하여 이용될 수도 있다.
일부 실시형태들에서, 기본 필터들이 OPCA 방법에 의해 발생될 때, 기본 필터들은 기본 필터들의 4 개의 행들을 갖는 행렬에 의해 특징화될 수도 있고, 사운드 특징 C 는 다음의 수식에 따라 발생될 수도 있다:
여기서, 행들 [a1 a2 ... an], [b1 b2 ... bn], [c1 c2 ... cn], 및 [d1 d2 ... dn] 은 제 1 기본 필터, 제 2 기본 필터, 제 3 기본 필터, 및 제 4 기본 필터를 각각 표시하는 반면, 열 [f1 f2 ... fn] 은 미디어 사운드로부터 추출된 중간 사운드 특징 (예를 들어, 전력 스펙트럼) 을 표시한다. 기본 필터 행렬은 4 개의 기본 필터들을 이용하는 것으로 예시되어 있지만, 기본 필터 행렬은 중간 사운드 특징에서 대응하는 엔트리들을 갖는 임의의 적당한 수의 기본 필터들을 포함할 수도 있다.
위에서 설명된 바와 같이, 기본 필터들 (예를 들어, 기본 필터 행렬) 은 왜곡되지 않은 기준 사운드들 및 왜곡된 기준 사운드들을 비교함으로써 발생될 수도 있고, 미디어 사운드로부터 잡음에 강인한 사운드 특징을 추출함에 있어서 이용될 수도 있다. 복수의 기본 필터들의 경우, 일부의 기본 필터들은 다른 기본 필터들보다 잡음을 감소시킴에 있어서 더 양호한 결과를 제공할 수도 있고, 이에 따라, 사운드 특징을 추출함에 있어서 이용하기 위하여 선택될 수도 있다. 예를 들어, 상기 기본 필터 행렬에서, 유사한 사운드 특징들은 왜곡되지 않은 기준 사운드 및 왜곡된 기준 사운드에 기초하여 제 1 기본 필터 및 제 3 기본 필터로부터 발생될 수도 있다. 다른 한편으로, 덜 유사한 사운드 특징들은 왜곡되지 않은 기준 사운드 및 왜곡된 기준 사운드에 기초하여, 제 1 및 제 3 기본 필터들과 대조적으로, 제 2 기본 필터 및 제 4 기본 필터로부터 발생될 수도 있다. 따라서, 아래에서 설명되는 바와 같이, 미디어 사운드로부터 사운드 특징 C 를 발생시키기 위하여 제 1 기본 필터 및 제 3 기본 필터가 선택될 수도 있다 (기본 필터들을 "업데이팅" 하는 것이라고 또한 지칭될 수도 있음):
도 13 은 일부 실시형태들에 따라, 사운드 특징을 추출함에 있어서 이용하기 위한 복수의 기본 필터들로부터 적어도 하나의 기본 필터를 선택하기 위한 방법 (1300) 의 플로우차트를 예시한다. 기본 필터들을 선택하기 위한 방법 (1300) 은 도 6a 및 도 6b 의 서버 (340) 내의 기본 필터 발생기 (650) 또는 이동 디바이스 (130) 내의 기본 필터 발생기에 의해 수행될 수도 있다. 또한, 기본 필터들을 선택하기 위한 방법 (1300) 은 이동 디바이스 (130) 에서 미디어 사운드를 수신하기 전에 수행될 수 있고, 선택된 기본 필터들은 미디어 사운드를 수신한 후에 미디어 사운드로부터 사운드 특징을 추출하기 위하여 이용될 수도 있다. 방법 (1300) 은 설명의 목적들을 위하여 제 1 내지 제 3 샘플 사운드들을 참조하여 설명된다.
예시된 방법 (1300) 에서, 기본 필터 발생기 (650) 는 각각 1302, 1304, 및 1306 에서, 샘플 사운드 데이터베이스 (652) 로부터 제 1 샘플 사운드, 제 2 샘플 사운드, 및 제 3 샘플 사운드를 수신한다. 제 1 샘플 사운드는 잡음을 갖지 않는 왜곡되지 않은 사운드이다. 제 2 샘플 사운드는 잡음을 추가하는 제 1 샘플 사운드의 왜곡된 사운드이고, 이에 따라, 사운드 컨텐츠 (sound content) 에 있어서 제 1 샘플 사운드와 유사하다. 제 3 샘플 사운드는 잡음을 갖지 않는 또 다른 왜곡되지 않은 사운드이고, 이에 따라, 사운드 컨텐츠에 있어서 제 1 샘플 사운드와 상이하다. 예를 들어, 스피커 (예를 들어, 최소 잡음 및 왜곡을 갖는 고충실도 (high fidelity) 스피커) 를 통해 재생되는 음악으로부터 캡처된 사운드는 또 다른 스피커 (예를 들어, 저충실도 (low fidelity) 스피커) 를 통해 재생되는 동일한 음악과 컨텐츠에 있어서 유사한 것으로 고려될 수도 있다. 다른 한편으로, 고충실도 스피커를 통해 재생되는 안내방송 (예를 들어, "당신의 전화를 꺼 주세요") 은 동일한 고충실도 스피커를 통해 재생되는 음악과 컨텐츠에 있어서 유사하지 않은 것으로 고려될 수도 있다.
샘플 사운드 데이터베이스 (652) 로부터 샘플 사운드들을 수신한 후, 기본 필터 발생기 (650) 는 초기에 1308 에서, 복수의 기본 필터들로부터 기본 필터를 선택한다. 제 1 내지 제 3 샘플 사운드들의 각각으로부터, 기본 필터 발생기 (650) 는 1310 에서, 위에서 설명된 전력 스펙트럼과 같은 중간 사운드 특징을 추출한다. 중간 사운드 특징들의 각각에 대하여, 기본 필터 발생기 (650) 는 중간 사운드 특징보다 잡음 및 왜곡에 대해 더 강인한 사운드 특징을 발생시키기 위하여, 1312 에서, 선택된 기본 필터를 각각의 중간 사운드 특징에 적용한다.
일단 샘플 사운드들의 사운드 특징들이 발생되었으면, 선택된 기본 필터를 적용함으로써 한 쌍의 샘플 사운드들로부터 추출되는 사운드 특징들 사이의 유사성의 정도를 표시하는 하나 이상의 신뢰성 값들은 쌍별 부스팅 (PB; pairwise boosting) 알고리즘과 같은 임의의 적당한 알고리즘을 채용함으로써 계산될 수도 있다. 선택된 기본 필터가 한 쌍의 샘플 사운드들의 중간 사운드 특징들에 적용될 때, 신뢰성 값들은 잡음 감소의 정도를 또한 표시할 수도 있다. 하나의 실시형태에서, 기본 필터 발생기 (650) 는 유사한 샘플 사운드들의 추출된 사운드 특징들 사이의 차이의 신뢰성 값과, 유사하지 않은 샘플 사운드들의 추출된 사운드 특징들 사이의 차이의 또 다른 신뢰성 값을 계산할 수도 있다. 구체적으로, 기본 필터의 제 1 신뢰성 값은 1314 에서, 제 1 및 제 2 샘플 사운드들의 추출된 사운드 특징들 사이의 차이를 계산함으로써 결정된다. 예를 들어, 제 1 및 제 2 샘플 사운드들이 유사한 사운드들이라는 것을 고려하면, 선택된 기본 필터를 제 1 및 제 2 샘플 사운드들의 중간 사운드 특징들에 적용함으로써 추출되는 사운드 특징들 사이의 차이가 로우 (low) 일 경우, 기본 필터의 신뢰성 값은 하이 (high) 일 것이다. 또한, 기본 필터의 제 2 신뢰성 값은 1316 에서, 제 1 및 제 3 샘플 사운드들의 추출된 사운드 특징들 사이의 차이를 계산함으로써 결정된다. 이 경우, 제 1 및 제 3 샘플 사운드들이 유사하지 않은 사운드들이라는 것을 고려하면, 선택된 기본 필터를 제 1 및 제 3 샘플 사운드들에 적용함으로써 추출되는 사운드 특징들 사이의 차이가 하이일 경우, 기본 필터의 신뢰성 값은 하이일 것이다.
1318 에서, 기본 필터 발생기 (650) 는 제 1 및 제 2 신뢰성 값들에 기초하여 선택된 기본 필터에 대한 전체 신뢰성 값을 결정한다. 하나의 실시형태에서, 전체 신뢰성 값은 제 1 및 제 2 신뢰성 값들을 추가함으로써 계산될 수도 있다. 대안적으로, 전체 신뢰성 값은 가중처리된 제 1 및 제 2 신뢰성 값들을 추가함으로써 계산될 수도 있다.
선택된 기본 필터의 전체 신뢰성 값을 발생시킨 후, 기본 필터 발생기 (650) 는 1320 에서, 선택될 수 있는 또 다른 기본 필터가 있는지를 결정한다. 그러할 경우, 방법 (1300) 은 1308 로 진행하여, 전체 신뢰성 값을 결정하기 위하여 다음 기본 필터를 선택한다. 일단 전체 신뢰성 값들이 모든 기본 필터들에 대해 계산되었으면, 기본 필터 발생기 (650) 는 1322 에서, 전체 신뢰성 값들에 기초하여 복수의 기본 필터들로부터 적어도 하나의 기본 필터를 선택한다. 하나의 실시형태에서, 최고 전체 신뢰성 값을 갖는 기본 필터가 선택될 수도 있다. 대안적으로, 미리 결정된 임계값을 초과하는 전체 신뢰성 값을 가지는 모든 기본 필터들이 선택될 수도 있다.
도 14 는 일부 실시형태들에 따라, 이동 디바이스 (1430) 가 복수의 미디어 사운드들 중의 적어도 하나를 캡처하는 것에 응답하여 적어도 하나의 기능을 수행하도록 구성되는, 복수의 사운드 센서들 (1440 및 1450) 을 갖는 이동 디바이스 (1430) 를 예시한다. 이동 디바이스 (1430) 에서, 2 개의 사운드 센서들 (1440 및 1450) 은 예를 들어, 2 개의 마이크로폰들일 수도 있다. 각각의 사운드 센서 (1440 및 1450) 는 주위 환경으로부터 복수의 사운드들을 포함하는 복합 사운드를 캡처할 수도 있다 (예를 들어, TV (1410) 로부터 미디어 사운드 그리고 클록 (1420) 으로부터 경고 사운드를 동시에 캡처함). 하나의 실시형태에서, 사운드 센서들 (1440 및 1450) 의 각각으로부터 캡처된 복합 사운드들은 예를 들어, 이동 디바이스 (1430) 의 상이한 위치들에서 사운드들을 캡처하는 사운드 센서들 (1440 및 1450) 로 인해 서로 구별될 수도 있다. 사운드 센서 (1440) 및 사운드 센서 (1450) 로부터 수신된 상이한 복합 사운드들에 기초하여, 이동 디바이스 (1430) 는 복합 사운드를 사운드들의 각각으로 분리할 수도 있다. 예시된 실시형태에서, 이동 디바이스 (1430) 는 TV (1410) 로부터의 미디어 사운드 및 클록 (1420) 으로부터의 경고 사운드와 혼합되는 복합 사운드를 캡처할 수도 있다. 이동 디바이스 (1430) 는 복합 사운드를 TV (1410) 로부터의 미디어 사운드 및 클록 (1420) 의 사운드로 각각 분리할 수도 있다.
소스 (예를 들어, TV 또는 경고) 에 따라 복합 사운드를 분리한 후, 이동 디바이스 (1430) 는 분리된 사운드들의 각각으로부터 사운드 특징들을 추출할 수도 있고, 추출된 사운드 특징들 중의 임의의 하나가 이동 디바이스 (1430) 상에서 수행되어야 할 기능과 연관되는지 여부를 결정할 수도 있다. 이동 디바이스 (1430) 는 분리된 사운드들 중의 하나로부터의 추출된 사운드 특징과 연관된 기능을 수행할 수도 있다. 복수의 기능들은 사운드 센서들 (1440 및 1450) 에 의해 캡처된 복수의 미디어 사운드들로부터 결정될 수도 있다는 것이 인식될 것이다.
도 15 는 일부 실시형태들에 따라, 복수의 사운드들로부터 선택된 미디어 사운드에 응답하여 기능을 수행하기 위한 이동 디바이스 (1430) 에서의 방법 (1500) 의 플로우차트를 예시한다. 이 방법 (1500) 에서, 이동 디바이스 (1430) 는 1510 에서, 사운드 센서들 (예를 들어, 마이크로폰들) 을 통해 적어도 하나의 미디어 사운드를 포함하는 사운드 (즉, 복합 사운드) 를 캡처할 수도 있다. 다음으로, 이동 디바이스 (1430) 는 1520 에서, 캡처된 복합 사운드로부터 적어도 하나의 미디어 사운드를 분리한다. 이 실시형태에서, 캡처된 사운드들은 독립 성분 분석 (ICA) 또는 블라인드 소스 분리 (BSS; blind source separation) 를 채용함으로써 분리될 수도 있지만, 이것으로 제한되지 않는다. 사운드들을 분리한 후, 이동 디바이스 (1430) 는 사운드들 중의 적어도 하나가 미디어 사운드이거나 미디어 사운드일 가능성이 있다는 식별에 기초하여, 1530 에서, 복수의 분리된 사운드들 중에서 하나의 미디어 사운드를 선택할 수도 있다. 하나의 실시형태에서, 이동 디바이스 (1430) 가 영화관에 위치되고 영화 사운드 시스템으로부터 안내방송 "전화를 꺼 주세요" 와 같은 사운드를 수신할 때, 다른 사운드들 (예를 들어, 이동 디바이스의 전화벨 사운드) 은 잡음으로서 간주될 수도 있다. 이 경우, 이동 디바이스 (1430) 는 캡처된 사운드를 분리한 후에, 영화관 사운드 시스템으로부터의 사운드를 선택할 수도 있고 이동 전화로부터의 다른 사운드를 무시할 수도 있다. 1540 에서, 이동 디바이스 (1430) 는 선택된 미디어 사운드로부터 사운드 특징을 추출한다. 추출된 특징은 1550 에서 서버로 송신된다. 이동 디바이스 (1430) 로부터의 사운드 특징에 기초하여, 서버는 1560 에서, 이동 디바이스 (1430) 에서 수행되어야 할 기능을 결정하고, 기능을 식별하는 정보를 이동 디바이스 (1430) 로 전송한다. 서버로부터 기능을 식별하는 정보를 수신한 후, 이동 디바이스 (1430) 는 1570 에서 기능을 수행한다.
도 16 은 일부 다른 실시형태들에 따라, 복수의 미디어 사운드들에 응답하여 적어도 하나의 기능을 수행하기 위한 이동 디바이스 (1430) 에서의 방법 (1600) 의 플로우차트를 예시한다. 이 방법 (1600) 에서, 이동 디바이스 (1430) 는 1610 에서, 사운드 센서들을 통해 복수의 미디어 사운드들을 포함하는 복합 사운드를 캡처할 수도 있다. 다음으로, 이동 디바이스 (1430) 는 1620 에서, 캡처된 복합 사운드로부터 복수의 미디어 사운드들을 분리한다. 복합 사운드를 분리한 후, 이동 디바이스 (1430) 는 1630 에서, 임의의 하나의 사운드를 선택하지 않으면서 분리된 미디어 사운드들의 각각으로부터 사운드 특징들을 추출할 수도 있다. 이동 디바이스 (1430) 는 1640 에서, 추출된 사운드 특징들을 서버로 송신한다. 영화관의 예에서, 이동 디바이스 (1430) 는 영화 사운드 시스템의 사운드로부터 사운드 특징을 추출할 수도 있고, 이동 디바이스의 전화벨 사운드로부터 사운드 특징을 추출할 수도 있고, 두 사운드 특징들을 서버로 전송할 수도 있다. 다음으로, 서버는 수신된 사운드 특징들을 사운드 특징 데이터베이스에 저장된 기준 사운드 특징들과 비교하고, 추출된 사운드 특징들과 연관된 적어도 하나의 기준 사운드 특징을 식별한다. 기준 사운드 특징과의 일치를 식별한 후, 서버는 1650 에서, 식별된 적어도 하나의 기준 사운드 특징과 연관된 적어도 하나의 기능을 식별하는 정보를 이동 디바이스 (1430) 로 전송할 수도 있다. 1660 에서, 이동 디바이스 (1430) 는 1660 에서 적어도 하나의 기능을 수행한다.
도 17 은 일부 실시형태들에 따라 사운드 식별에 기초하여 기능들을 제어하기 위한 본 개시물의 방법들 및 장치가 구현될 수도 있는 무선 통신 시스템에서의 이동 디바이스 (1700) 의 블록도를 예시한다. 이동 디바이스 (1700) 는 셀룰러 전화, 단말, 핸드셋, 개인 정보 단말 (PDA; personal digital assistant), 무선 모뎀, 코드리스 전화, 태블릿 등일 수도 있다. 무선 통신 시스템은 코드 분할 다중 액세스 (CDMA; Code Division Multiple Access) 시스템, GSM (Global System for Mobile Communications) 시스템, 광대역 CDMA (W-CDMA) 시스템, 롱텀 에볼루션 (LTE; Long Term Evolution) 시스템, LTE 어드밴스드 (Advanced) 시스템 등일 수도 있다.
이동 디바이스 (1700) 는 수신 경로 및 송신 경로를 통해 양방향 통신을 제공할 수 있을 수도 있다. 수신 경로 상에서는, 기지국들에 의해 송신된 신호들이 안테나 (1712) 에 의해 수신되고, 수신기 (RCVR; 1714) 에 제공된다. 수신기 (1714) 는 수신된 신호를 조절하고 이를 디지털화하고, 추가의 프로세싱을 위하여 조절되고 디지털화된 신호를 디지털 섹션 (1720) 에 제공한다. 송신 경로 상에서는, 송신기 (TMTR) 가 송신되어야 할 데이터를 디지털 섹션 (1720) 으로부터 수신하고, 데이터를 프로세싱하고 이를 조절하고, 안테나 (1712) 를 통해 기지국들로 송신되는 변조된 신호를 발생시킨다. 수신기 (1714) 및 송신기 (1716) 는 CDMA, GSM, W-CDMA, LTE, LTE 어드밴스드 등을 지원하는 트랜시버의 일부이다.
디지털 섹션 (1720) 은 예를 들어, 모뎀 프로세서 (1722), 감소된 명령 세트 컴퓨터/디지털 신호 프로세서 (RISC/DSP; 1724), 제어기/프로세서 (1726), 내부 메모리 (1728), 범용 오디오 인코더 (1732), 범용 오디오 디코더 (1734), 그래픽/디스플레이 프로세서 (1736), 및/또는 외부 버스 인터페이스 (EBI; 1738) 와 같은 다양한 프로세싱, 인터페이스, 및 메모리 유닛들을 포함한다. 모뎀 프로세서 (1722) 는 데이터 송신 및 수신을 위한 프로세싱, 예를 들어, 인코딩, 변조, 복조, 및 디코딩을 수행한다. RISC/DSP (1724) 는 이동 디바이스 (1700) 를 위한 일반적인 그리고 특화된 프로세싱을 수행한다. 제어기/프로세서 (1726) 는 디지털 섹션 (1720) 내에서의 다양한 프로세싱 및 인터페이스 유닛들의 동작을 제어한다. 내부 메모리 (1728) 는 디지털 섹션 (1720) 내에서의 다양한 유닛들에 대한 데이터 및/또는 명령들을 저장한다.
범용 오디오 인코더 (1732) 는 오디오 소스 (1742), 마이크로폰 (1743) 등으로부터의 입력 신호들에 대한 인코딩을 수행한다. 범용 오디오 디코더 (1734) 는 코딩된 오디오 데이터에 대한 디코딩을 수행하고, 출력 신호들을 스피커/헤드셋 (1744) 에 제공한다. 범용 오디오 인코더 (1732) 및 범용 오디오 디코더 (1734) 는 오디오 소스, 마이크로폰 (1743) 및 스피커/헤드셋 (1744) 과의 인터페이스를 위해 반드시 요구되지는 않으며, 이에 따라, 이동 디바이스 (1700) 에서는 도시되지 않는다는 것에 주목해야 한다. 그래픽/디스플레이 프로세서 (1736) 는 디스플레이 유닛 (1746) 에 제시되는 그래픽들, 비디오들, 이미지들, 및 텍스트들에 대한 프로세싱을 수행한다. 외부 버스 인터페이스 (EBI; 1738) 는 디지털 섹션 (1720) 과 주 메모리 (1748) 사이의 데이터의 전송을 용이하게 한다.
디지털 섹션 (1720) 은 하나 이상의 프로세서들, DSP 들, 마이크로프로세서들, RISC 들 등으로 구현된다. 디지털 섹션 (1720) 은 하나 이상의 주문형 집적 회로 (ASIC; application specific integrated circuit) 들 및/또는 일부 다른 타입의 집적 회로 (IC) 들 상에서 또한 제조된다.
일반적으로, 본원에서 설명된 임의의 디바이스는, 무선 전화, 셀룰러 전화, 랩톱 컴퓨터, 무선 멀티미디어 디바이스, 무선 통신 개인용 컴퓨터 (PC) 카드, PDA, 외부 또는 내부 모뎀, 무선 채널을 통해 통신하는 디바이스 등과 같은 다양한 타입들의 디바이스들을 표시한다. 디바이스는 액세스 단말 (AT; access terminal), 액세스 유닛, 가입자 유닛, 이동국, 클라이언트 디바이스, 이동 유닛, 이동 전화, 모바일, 원격국, 원격 단말, 원격 유닛, 사용자 디바이스, 사용자 장비, 핸드헬드 (handheld) 디바이스 등과 같은 다양한 명칭들을 가질 수도 있다. 본원에서 설명된 임의의 디바이스는 하드웨어, 소프트웨어, 펌웨어, 또는 그 조합들 뿐만 아니라, 명령들 및 데이터를 저장하기 위한 메모리를 가질 수도 있다.
도 18 은 일부 실시형태들에 따라 구현되며 사운드 식별에 기초하여 기능들을 제어하기 위한, 이전에 설명된 서버들 중의 임의의 하나일 수도 있는 서버 시스템 (1800) 을 예시하는 블록도이다. 서버 시스템 (1800) 은 하나 이상의 프로세싱 유닛 (CPU) 들 (1802), 하나 이상의 네트워크 또는 다른 통신 인터페이스들 (1810), 메모리 (1812), 및 이 컴포넌트들을 상호접속하기 위한 하나 이상의 통신 버스들 (1814) 을 포함할 수도 있다. 서버 시스템 (1800) 은 디스플레이 디바이스 및 키보드를 갖는 사용자 인터페이스 (도시되지 않음) 를 또한 포함할 수도 있다.
메모리 (1812) 는 고속 랜덤 액세스 메모리 (예를 들어, DRAM, SRAM, DDR RAM 또는 다른 랜덤 액세스 솔리드 스테이트 (solid state) 메모리 디바이스들) 와 같은 임의의 적당한 메모리일 수도 있다. 메모리 (1812) 는 비-휘발성 메모리 (예를 들어, 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래쉬 메모리 디바이스들, 또는 다른 비-휘발성 솔리드 스테이트 저장 디바이스들) 를 포함할 수도 있거나, 또는 대안적으로 비-휘발성 메모리일 수도 있다. 일부 실시형태들에서, 메모리 (1812) 는 CPU (들) (1802) 로부터 원격으로 위치된 및/또는 다수의 장소들에서 원격으로 위치된 하나 이상의 저장 디바이스들을 포함할 수도 있다.
메모리 (1812) 에 의해 표현된 상기 메모리 디바이스들 중의 임의의 하나는 이전에 설명된 프로세스들, 동작들, 및 방법들 중의 임의의 것을 수행하고 및/또는 실행하기 위한 명령들의 세트에 대응하는 임의의 수의 모듈들 또는 프로그램들을 저장할 수도 있다. 예를 들어, 메모리 (1812) 는 다양한 기본 시스템 서비스들을 처리하고 하드웨어 종속적 태스크들을 수행하기 위한 절차들을 포함하는 명령들을 저장하도록 구성된 오퍼레이팅 시스템 (1816) 을 포함할 수도 있다. 메모리 (1812) 의 네트워크 통신 모듈 (1818) 은 하나 이상의 통신 네트워크 인터페이스들 (1810) (유선 또는 무선) 과, 인터넷, 다른 광역 네트워크들, 로컬 영역 네트워크들, 대도시 영역 네트워크들 등과 같은 하나 이상의 통신 네트워크들을 통해 서버 시스템 (1800) 을 다른 컴퓨터들에 접속하기 위하여 이용될 수도 있다. 메모리 (1812) 는, 기능이 연관되는 미디어 사운드의 기준 사운드 특징으로부터 기능을 결정하도록 구성된 기능 결정 엔진 (1844) 과, 사운드 특징들을 추출하기 위한 기본 필터들을 발생시키고 이를 업데이트 하도록 구성된 기본 필터 발생기 (1850) 를 또한 포함할 수도 있다. 기능 결정 엔진 (1844) 및 기본 필터 발생기 (1850) 는 기준 사운드 특징 데이터, 기본 필터 데이터, 및/또는 샘플 사운드 데이터를 저장하도록 구성된 데이터베이스 (1848) 를 액세스할 수도 있다.
상기 식별된 모듈들 또는 프로그램들 (즉, 명령들의 세트들) 은 별도의 소프트웨어 프로그램들, 절차들 또는 모듈들로서 구현될 필요가 없고, 이에 따라, 이 모듈들의 다양한 서브세트들이 다양한 실시형태들에서 조합될 수도 있거나 또는 이와 다르게 재배치될 수도 있다는 것이 인식될 것이다. 또한, 메모리 (1812) 는 위에서 설명되지 않은 추가적인 모듈들 및 데이터 구조들을 저장할 수도 있다.
도 17 및 도 18 은 본원에서 설명된 실시형태들의 구조적 개략도가 아니라, 클라이언트 시스템 및 서버 시스템의 다양한 특징들의 기능적인 설명들로서 더 많이 의도된 것이다. 실제로, 그리고 당해 분야의 당업자들에 의해 인식되는 바와 같이, 별도로 도시된 항목들은 조합될 수 있고 일부 항목들은 분리될 수 있다. 예를 들어, 도 18 에서 별도로 도시된 일부 항목들은 단일 서버 상에서 구현될 수 있고, 단일 항목들은 하나 이상의 서버들에 의해 구현될 수 있다. 또한, 데이터베이스 (1848) 는 서버들의 상이한 세트 상에서 또는 서버 시스템 (1800) 의 다른 컴포넌트들에서 구현될 수도 있다. 서버 시스템 (1800) 을 구현하기 위해 이용된 서버들의 실제적인 수와, 이들 사이의 특징들의 할당은 하나의 구현으로부터 또 다른 구현까지 변동될 수도 있다.
본원에서 설명된 기술들은 다양한 수단에 의해 구현된다. 예를 들어, 이 기술들은 하드웨어, 펌웨어, 소프트웨어, 또는 그 조합으로 구현된다. 본원에서의 개시물과 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 회로들, 및 알고리즘 단계들은 전자 하드웨어, 컴퓨터 소프트웨어, 또는 가능한 둘 모두의 조합들로서 구현될 수도 있다는 것이 더 인식될 것이다. 하드웨어 및 소프트웨어의 이 상호 교환가능성을 명확하게 예시하기 위하여, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들, 및 단계들이 일반적으로 그 기능성의 측면에서 위에서 설명되었다. 이러한 기능성이 하드웨어 또는 소프트웨어로서 구현되는지 여부는 전체적인 시스템에 대해 부과된 설계 제약들 및 특정한 응용에 종속된다. 설명된 기능성은 각각의 특정한 응용에 대하여 다양한 방식들로 구현될 수도 있지만, 이러한 구현 판정들은 본 개시물의 범위로부터의 이탈을 야기시키는 것으로 해석되지 않아야 한다.
하드웨어 구현을 위하여, 기술들을 수행하기 위하여 이용되는 프로세싱 유닛들은 하나 이상의 ASIC 들, DSP 들, 디지털 신호 프로세싱 디바이스 (DSPD; digital signal processing device) 들, 프로그래밍가능 로직 디바이스 (PLD; programmable logic device) 들, 필드 프로그래밍가능 게이트 어레이 (FPGA; field programmable gate array) 들, 프로세서들, 제어기들, 마이크로-제어기들, 마이크로프로세서들, 전자 디바이스들, 본원에서 설명된 기능들을 수행하도록 설계된 다른 전자 유닛들, 컴퓨터, 또는 그 조합 내에서 구현될 수도 있다.
소프트웨어로 구현될 경우, 이전에 설명된 방법들, 동작들, 및 프로세스들은 컴퓨터 판독가능 매체 상의 하나 이상의 명령들 또는 코드로서 저장될 수도 있거나 이를 통해 송신될 수도 있다. 컴퓨터 판독가능 매체들은, 하나의 장소로부터 또 다른 장소로의 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함하는 컴퓨터 저장 매체들 및 통신 매체들의 둘 모두를 포함한다. 저장 매체들은 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체들일 수도 있다. 제한이 아닌 예로서, 이러한 컴퓨터 판독가능 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 저장, 자기 디스크 저장, 또는 다른 자기 저장 디바이스들, 또는 명령들 또는 데이터 구조들의 형태로 희망하는 프로그램 코드를 운반 또는 저장하기 위해 이용될 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 접속은 컴퓨터 판독가능 매체라고 적절하게 칭해진다. 예를 들어, 동축 케이블, 광섬유 케이블, 트위스트 페어 (twisted pair), 디지털 가입자 회선 (DSL; digital subscriber line), 또는 적외선, 라디오 (radio), 및 마이크로파 (microwave) 와 같은 무선 기술들을 이용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 소프트웨어가 송신될 경우, 동축 케이블, 광섬유 케이블, 트위스트 페어, DSL, 또는 적외선, 라디오, 및 마이크로파와 같은 무선 기술들은 매체의 정의 내에 포함된다. 본원에서 이용되는 바와 같은 디스크 (disk) 및 디스크 (disc) 는 컴팩트 디스크 (CD; compact disc), 레이저 디스크 (laser disc), 광학 디스크 (optical disc), 디지털 다기능 디스크 (DVD; digital versatile disc), 플로피 디스크 (floppy disk) 및 블루레이 디스크 (Blu-ray disc) 를 포함하고, 여기서 디스크 (disk) 들은 통상 데이터를 자기적으로 재생하는 반면, 디스크 (disc) 들은 데이터를 레이저들로 광학적으로 재생한다. 상기의 조합들은 컴퓨터 판독가능 매체들의 범위 내에 또한 포함되어야 한다.
개시물의 이전의 설명은 당해 분야의 당업자가 개시물을 제조 또는 이용하는 것을 가능하게 하기 위해 제공된다. 개시물에 대한 다양한 수정들은 당해 분야의 당업자들에게 용이하게 명백할 것이고, 본원에서 정의된 일반적인 원리들은 개시물의 사상 또는 범위로부터 이탈하지 않으면서 다른 변형들에 적용된다. 따라서, 개시물은 본원에서 설명된 예들로 제한되도록 의도된 것이 아니라, 본원에서 개시된 원리들 및 신규한 특징들과 부합하는 가장 넓은 범위가 부여되어야 한다.
대상 발명은 구조적 특징들 및/또는 방법론적인 행위 (act) 들에 특정한 언어로 설명되었지만, 첨부된 청구항들에서 규정된 대상 발명은 위에서 설명된 특정 특징들 또는 행위들에 반드시 제한되는 것은 아니라는 것을 이해해야 한다. 오히려, 위에서 설명된 특정 특징들 및 행위들은 청구항들을 구현하는 일 예의 형태들로서 개시되어 있다.
Claims (54)
- 이동 디바이스에서 기능을 수행하기 위한 방법으로서,
상기 이동 디바이스 외부의 사운드 출력 디바이스로부터의 미디어 사운드를 캡처하는 단계;
캡처된 상기 미디어 사운드로부터 사운드 특징을 추출하는 단계;
추출된 상기 사운드 특징에 기초하여 기준 사운드 특징들의 세트에서 적어도 하나의 기준 사운드 특징을 식별함으로써 상기 이동 디바이스에서 수행되어야 할 상기 기능을 결정하는 단계로서, 상기 기준 사운드 특징들의 세트에서의 각각의 기준 사운드 특징은 복수의 미디어 사운드들 중의 적어도 하나 및 복수의 기능들 중의 적어도 하나와 연관되는, 상기 이동 디바이스에서 수행되어야 할 상기 기능을 결정하는 단계; 및
상기 이동 디바이스에서 결정된 상기 기능을 수행하는 단계를 포함하는, 이동 디바이스에서 기능을 수행하기 위한 방법. - 제 1 항에 있어서,
상기 적어도 하나의 기준 사운드 특징은 광고와 연관되고, 상기 결정된 기능을 수행하는 단계는 상기 이동 디바이스 상에서 상기 광고를 디스플레이하는 단계를 포함하는, 이동 디바이스에서 기능을 수행하기 위한 방법. - 제 1 항에 있어서,
상기 적어도 하나의 기준 사운드 특징은 검색 엔진에 의해 검색되어야 할 키워드와 연관되고, 상기 결정된 기능을 수행하는 단계는,
상기 키워드를 상기 검색 엔진으로 송신하는 단계;
상기 검색 엔진으로부터 검색 결과를 수신하는 단계; 및
상기 검색 결과를 상기 이동 디바이스 상으로 출력하는 단계를 포함하는, 이동 디바이스에서 기능을 수행하기 위한 방법. - 제 1 항에 있어서,
상기 결정된 기능을 수행하는 단계는 상기 이동 디바이스의 구성을 조정하는 단계를 포함하는, 이동 디바이스에서 기능을 수행하기 위한 방법. - 제 1 항에 있어서,
상기 결정된 기능을 수행하는 단계는,
수행되어야 할 상기 기능의 통지를 출력하는 단계;
상기 기능을 수행하기 위한 입력을 수신하는 단계; 및
수신된 상기 입력에 응답하여 상기 기능을 수행하는 단계를 포함하는, 이동 디바이스에서 기능을 수행하기 위한 방법. - 제 1 항에 있어서,
상기 캡처된 미디어 사운드로부터 상기 사운드 특징을 추출하는 단계 및 상기 이동 디바이스에 의해 수행되어야 할 상기 기능을 결정하는 단계는, 상기 캡처된 미디어 사운드의 사운드 레벨이 미리 결정된 사운드 레벨보다 더 클 경우에 수행되는, 이동 디바이스에서 기능을 수행하기 위한 방법. - 제 1 항에 있어서,
상기 캡처된 미디어 사운드로부터 상기 사운드 특징을 추출하는 단계는,
상기 캡처된 미디어 사운드로부터 중간 사운드 특징을 추출하는 단계; 및
상기 사운드 특징을 발생시키기 위하여 적어도 하나의 기본 필터를 상기 중간 사운드 특징에 적용하는 단계를 포함하는, 이동 디바이스에서 기능을 수행하기 위한 방법. - 제 7 항에 있어서,
상기 적어도 하나의 기본 필터는 복수의 기본 필터들의 각각에 의해 샘플 사운드들의 쌍으로부터 추출된 사운드 특징들 사이의 유사성의 정도에 기초하여 상기 복수의 기본 필터들로부터 선택되는, 이동 디바이스에서 기능을 수행하기 위한 방법. - 제 1 항에 있어서,
상기 적어도 하나의 기준 사운드 특징은 상기 이동 디바이스 상에서 수행되어야 할 상기 기능 및 컨텍스트 정보를 포함하는 메타-데이터와 연관되는, 이동 디바이스에서 기능을 수행하기 위한 방법. - 이동 디바이스에서 기능을 수행하기 위한 방법으로서,
복수의 사운드 센서들에 의해 적어도 하나의 미디어 사운드를 포함하는 복합 사운드를 캡처하는 단계;
상기 복합 사운드로부터 상기 적어도 하나의 미디어 사운드를 분리시키는 단계;
적어도 하나의 분리된 상기 미디어 사운드로부터 적어도 하나의 사운드 특징을 추출하는 단계;
상기 적어도 하나의 추출된 사운드 특징에 기초하여 기준 사운드 특징들의 세트에서 적어도 하나의 기준 사운드 특징을 식별함으로써 상기 이동 디바이스에서 수행되어야 할 상기 기능을 결정하는 단계로서, 상기 기준 사운드 특징들의 세트에서의 각각의 기준 사운드 특징은 복수의 미디어 사운드들 중의 적어도 하나 및 복수의 기능들 중의 적어도 하나와 연관되는, 상기 이동 디바이스에서 수행되어야 할 상기 기능을 결정하는 단계; 및
상기 이동 디바이스에서 결정된 상기 기능을 수행하는 단계를 포함하는, 이동 디바이스에서 기능을 수행하기 위한 방법. - 제 10 항에 있어서,
상기 적어도 하나의 기준 사운드 특징은 광고와 연관되고, 상기 결정된 기능을 수행하는 단계는 상기 이동 디바이스 상에서 상기 광고를 디스플레이하는 단계를 포함하는, 이동 디바이스에서 기능을 수행하기 위한 방법. - 제 10 항에 있어서,
상기 적어도 하나의 기준 사운드 특징은 검색 엔진에 의해 검색되어야 할 키워드와 연관되고, 상기 결정된 기능을 수행하는 단계는,
상기 키워드를 상기 검색 엔진으로 송신하는 단계;
상기 검색 엔진으로부터 검색 결과를 수신하는 단계; 및
상기 검색 결과를 상기 이동 디바이스 상으로 출력하는 단계를 포함하는, 이동 디바이스에서 기능을 수행하기 위한 방법. - 제 10 항에 있어서,
상기 결정된 기능을 수행하는 단계는 상기 이동 디바이스의 구성을 조정하는 단계를 포함하는, 이동 디바이스에서 기능을 수행하기 위한 방법. - 제 10 항에 있어서,
상기 결정된 기능을 수행하는 단계는,
수행되어야 할 상기 기능의 통지를 출력하는 단계;
상기 기능을 수행하기 위한 입력을 수신하는 단계; 및
수신된 상기 입력에 응답하여 상기 기능을 수행하는 단계를 포함하는, 이동 디바이스에서 기능을 수행하기 위한 방법. - 제 10 항에 있어서,
상기 적어도 하나의 분리된 미디어 사운드로부터 상기 적어도 하나의 사운드 특징을 추출하는 단계는,
상기 적어도 하나의 분리된 미디어 사운드로부터 미디어 사운드를 선택하는 단계; 및
선택된 상기 미디어 사운드로부터 사운드 특징을 추출하는 단계를 포함하는, 이동 디바이스에서 기능을 수행하기 위한 방법. - 제 10 항에 있어서,
상기 적어도 하나의 분리된 미디어 사운드로부터 상기 적어도 하나의 사운드 특징을 추출하는 단계는 모든 분리된 미디어 사운드들로부터 사운드 특징들을 추출하는 단계를 포함하는, 이동 디바이스에서 기능을 수행하기 위한 방법. - 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버로서,
사운드 특징을 수신하도록 구성된 수신기로서, 상기 사운드 특징은 상기 이동 디바이스에 의해 캡처된 미디어 사운드로부터 추출되는, 상기 수신기;
상기 사운드 특징에 기초하여 기준 사운드 특징들의 세트에서 적어도 하나의 기준 사운드 특징을 식별하도록 구성된 식별 유닛으로서, 상기 기준 사운드 특징들의 세트에서의 각각의 기준 사운드 특징은 복수의 미디어 사운드들 중의 적어도 하나 및 복수의 기능들 중의 적어도 하나와 연관되는, 상기 식별 유닛; 및
상기 적어도 하나의 식별된 기준 사운드 특징에 기초하여 상기 이동 디바이스에 의해 수행되어야 할 상기 기능을 결정하도록 구성된 기능 결정 유닛을 포함하는, 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버. - 제 17 항에 있어서,
상기 적어도 하나의 기준 사운드 특징은 광고와 연관되고, 상기 기능 결정 유닛은 상기 기능을 상기 이동 디바이스 상에서 상기 광고를 디스플레이하는 것으로서 결정하도록 구성되는, 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버. - 제 17 항에 있어서,
상기 적어도 하나의 기준 사운드 특징은 검색 엔진에 의해 검색되어야 할 키워드와 연관되고, 상기 기능 결정 유닛은 상기 기능을,
상기 키워드를 상기 검색 엔진으로 송신하는 것;
상기 검색 엔진으로부터 검색 결과를 수신하는 것; 및
상기 검색 결과를 상기 이동 디바이스 상으로 출력하는 것으로서 결정하도록 구성되는, 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버. - 제 17 항에 있어서,
상기 기능 결정 유닛은 상기 기능을 상기 이동 디바이스의 구성을 조정하는 것으로서 결정하도록 구성되는, 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버. - 제 17 항에 있어서,
상기 기능 결정 유닛은 상기 기능을,
수행되어야 할 상기 기능의 통지를 출력하는 것;
상기 기능을 수행하기 위한 입력을 수신하는 것; 및
수신된 상기 입력에 응답하여 상기 기능을 수행하는 것으로서 결정하도록 구성되는, 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버. - 제 17 항에 있어서,
상기 사운드 특징은, 상기 캡처된 미디어 사운드의 사운드 레벨이 미리 결정된 사운드 레벨보다 더 클 경우에 상기 캡처된 미디어 사운드로부터 추출되는, 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버. - 제 17 항에 있어서,
상기 사운드 특징은, 상기 캡처된 미디어 사운드로부터 중간 사운드 특징을 추출함으로써 그리고 상기 사운드 특징을 발생시키기 위하여 적어도 하나의 기본 필터를 상기 중간 사운드 특징에 적용함으로써 상기 캡처된 미디어 사운드로부터 추출되는, 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버. - 제 23 항에 있어서,
복수의 기본 필터들의 각각에 의해 샘플 사운드들의 쌍으로부터 추출된 사운드 특징들 사이의 유사성의 정도에 기초하여 상기 복수의 기본 필터들로부터 상기 적어도 하나의 기본 필터를 선택하도록 구성된 기본 필터 발생기를 더 포함하는, 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버. - 제 17 항에 있어서,
상기 적어도 하나의 기준 사운드 특징은 상기 이동 디바이스에 의해 수행되어야 할 상기 기능 및 컨텍스트 정보를 포함하는 메타-데이터와 연관되는, 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버. - 이동 디바이스로서,
상기 이동 디바이스 외부의 사운드 출력 디바이스로부터의 미디어 사운드를 캡처하도록 구성된 사운드 센서;
캡처된 상기 미디어 사운드로부터 사운드 특징을 추출하도록 구성된 사운드 특징 추출기;
상기 사운드 특징에 기초하여 기준 사운드 특징들의 세트에서 적어도 하나의 기준 사운드 특징을 식별하도록 구성된 식별 유닛으로서, 상기 기준 사운드 특징들의 세트에서의 각각의 기준 사운드 특징은 복수의 미디어 사운드들 중의 적어도 하나 및 복수의 기능들 중의 적어도 하나와 연관되는, 상기 식별 유닛;
상기 적어도 하나의 식별된 기준 사운드 특징에 기초하여 상기 이동 디바이스에 의해 수행되어야 할 기능을 결정하도록 구성된 기능 결정 유닛; 및
상기 이동 디바이스에서 결정된 상기 기능을 수행하도록 구성된 제어 유닛을 포함하는, 이동 디바이스. - 제 26 항에 있어서,
상기 적어도 하나의 기준 사운드 특징은 광고와 연관되고, 상기 제어 유닛은 상기 이동 디바이스 상에서 상기 광고를 디스플레이하도록 구성되는, 이동 디바이스. - 제 26 항에 있어서,
상기 적어도 하나의 기준 사운드 특징은 검색 엔진에 의해 검색되어야 할 키워드와 연관되고, 상기 제어 유닛은,
상기 키워드를 상기 검색 엔진으로 송신하고;
상기 검색 엔진으로부터 검색 결과를 수신하고;
상기 검색 결과를 상기 이동 디바이스 상으로 출력하도록 구성되는, 이동 디바이스. - 제 26 항에 있어서,
상기 제어 유닛은 상기 이동 디바이스의 구성을 조정하도록 구성되는, 이동 디바이스. - 제 26 항에 있어서,
상기 제어 유닛은,
수행되어야 할 상기 기능의 통지를 출력하고;
상기 기능을 수행하기 위한 입력을 수신하고;
수신된 상기 입력에 응답하여 상기 기능을 수행하도록 구성되는, 이동 디바이스. - 제 26 항에 있어서,
상기 사운드 센서는, 미리 결정된 시간 간격으로 환경 사운드를 수신함으로써 그리고 수신된 상기 환경 사운드가 상기 미디어 사운드인지 여부를 결정함으로써 상기 미디어 사운드를 캡처하도록 더 구성되는, 이동 디바이스. - 이동 디바이스에서 기능을 수행하기 위한 명령들을 저장하는 비일시적인 컴퓨터 판독가능 저장 매체로서,
상기 명령들은 프로세서로 하여금,
상기 이동 디바이스 외부의 사운드 출력 디바이스로부터의 미디어 사운드를 캡처하는 동작;
캡처된 상기 미디어 사운드로부터 사운드 특징을 추출하는 동작;
추출된 상기 사운드 특징에 기초하여 기준 사운드 특징들의 세트에서 적어도 하나의 기준 사운드 특징을 식별함으로써 상기 이동 디바이스에서 수행되어야 할 상기 기능을 결정하는 동작으로서, 상기 기준 사운드 특징들의 세트에서의 각각의 기준 사운드 특징은 복수의 미디어 사운드들 중의 적어도 하나 및 복수의 기능들 중의 적어도 하나와 연관되는, 상기 이동 디바이스에서 수행되어야 할 상기 기능을 결정하는 동작; 및
상기 이동 디바이스에서 결정된 상기 기능을 수행하는 동작을 수행하게 하는, 비일시적인 컴퓨터 판독가능 저장 매체. - 제 32 항에 있어서,
상기 적어도 하나의 기준 사운드 특징은 광고와 연관되고, 상기 결정된 기능을 수행하는 동작은 상기 이동 디바이스 상에서 상기 광고를 디스플레이하는 동작을 포함하는, 비일시적인 컴퓨터 판독가능 저장 매체. - 제 32 항에 있어서,
상기 적어도 하나의 기준 사운드 특징은 검색 엔진에 의해 검색되어야 할 키워드와 연관되고, 상기 결정된 기능을 수행하는 동작은,
상기 키워드를 상기 검색 엔진으로 송신하는 동작;
상기 검색 엔진으로부터 검색 결과를 수신하는 동작; 및
상기 검색 결과를 상기 이동 디바이스 상으로 출력하는 동작을 포함하는, 비일시적인 컴퓨터 판독가능 저장 매체. - 제 32 항에 있어서,
상기 결정된 기능을 수행하는 동작은 상기 이동 디바이스의 구성을 조정하는 동작을 포함하는, 비일시적인 컴퓨터 판독가능 저장 매체. - 제 32 항에 있어서,
상기 결정된 기능을 수행하는 동작은,
수행되어야 할 상기 기능의 통지를 출력하는 동작;
상기 기능을 수행하기 위한 입력을 수신하는 동작; 및
수신된 상기 입력에 응답하여 상기 기능을 수행하는 동작을 포함하는, 비일시적인 컴퓨터 판독가능 저장 매체. - 제 32 항에 있어서,
상기 캡처된 미디어로부터 상기 사운드 특징을 추출하는 동작 및 상기 이동 디바이스에 의해 수행되어야 할 상기 기능을 결정하는 동작은, 상기 캡처된 미디어 사운드의 사운드 레벨이 미리 결정된 사운드 레벨보다 더 클 경우에 수행되는, 비일시적인 컴퓨터 판독가능 저장 매체. - 제 32 항에 있어서,
상기 캡처된 미디어 사운드로부터 상기 사운드 특징을 추출하는 동작은,
상기 캡처된 미디어 사운드로부터 중간 사운드 특징을 추출하는 동작; 및
상기 사운드 특징을 발생시키기 위하여 적어도 하나의 기본 필터를 상기 중간 사운드 특징에 적용하는 동작을 포함하는, 비일시적인 컴퓨터 판독가능 저장 매체. - 제 38 항에 있어서,
상기 적어도 하나의 기본 필터는 복수의 기본 필터들의 각각에 의해 샘플 사운드들의 쌍으로부터 추출된 사운드 특징들 사이의 유사성의 정도에 기초하여 상기 복수의 기본 필터들로부터 선택되는, 비일시적인 컴퓨터 판독가능 저장 매체. - 제 32 항에 있어서,
상기 적어도 하나의 기준 사운드 특징은 상기 이동 디바이스에서 수행되어야 할 상기 기능 및 컨텍스트 정보를 포함하는 메타-데이터와 연관되는, 비일시적인 컴퓨터 판독가능 저장 매체. - 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버로서,
사운드 특징을 수신하기 위한 수단으로서, 상기 사운드 특징은 상기 이동 디바이스에 의해 캡처된 미디어 사운드로부터 추출되는, 상기 수신하기 위한 수단;
상기 사운드 특징에 기초하여 기준 사운드 특징들의 세트에서 적어도 하나의 기준 사운드 특징을 식별하기 위한 수단으로서, 상기 기준 사운드 특징들의 세트에서의 각각의 기준 사운드 특징은 복수의 미디어 사운드들 중의 적어도 하나 및 복수의 기능들 중의 적어도 하나와 연관되는, 상기 식별하기 위한 수단; 및
상기 적어도 하나의 식별된 기준 사운드 특징에 기초하여 상기 이동 디바이스에 의해 수행되어야 할 상기 기능을 결정하기 위한 수단을 포함하는, 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버. - 제 41 항에 있어서,
상기 적어도 하나의 기준 사운드 특징은 광고와 연관되고, 상기 결정하기 위한 수단은 상기 기능을 상기 이동 디바이스 상에서 상기 광고를 디스플레이하는 것으로서 결정하도록 구성되는, 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버. - 제 41 항에 있어서,
상기 적어도 하나의 기준 사운드 특징은 검색 엔진에 의해 검색되어야 할 키워드와 연관되고, 상기 결정하기 위한 수단은,
상기 키워드를 상기 검색 엔진으로 송신하는 것;
상기 검색 엔진으로부터 검색 결과를 수신하는 것; 및
상기 검색 결과를 상기 이동 디바이스 상으로 출력하는 것으로서 상기 기능을 결정하도록 구성되는, 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버. - 제 41 항에 있어서,
상기 결정하기 위한 수단은 상기 이동 디바이스의 구성을 조정하는 것으로서 상기 기능을 결정하도록 구성되는, 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버. - 제 41 항에 있어서,
상기 결정하기 위한 수단은,
수행되어야 할 상기 기능의 통지를 출력하는 것;
상기 기능을 수행하기 위한 입력을 수신하는 것; 및
수신된 상기 입력에 응답하여 상기 기능을 수행하는 것으로서 상기 기능을 결정하도록 구성되는, 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버. - 제 41 항에 있어서,
상기 사운드 특징은, 상기 캡처된 미디어 사운드의 사운드 레벨이 미리 결정된 사운드 레벨보다 더 클 경우에 상기 캡처된 미디어 사운드로부터 추출되는, 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버. - 제 41 항에 있어서,
상기 사운드 특징은, 상기 캡처된 미디어 사운드로부터 중간 사운드 특징을 추출함으로써 그리고 상기 사운드 특징을 발생시키기 위하여 적어도 하나의 기본 필터를 상기 중간 사운드 특징에 적용함으로써 상기 캡처된 미디어 사운드로부터 추출되는, 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버. - 제 47 항에 있어서,
복수의 기본 필터들의 각각에 의해 샘플 사운드들의 쌍으로부터 추출된 사운드 특징들 사이의 유사성의 정도에 기초하여 상기 복수의 기본 필터들로부터 상기 적어도 하나의 기본 필터를 선택하기 위한 수단을 더 포함하는, 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버. - 제 41 항에 있어서,
상기 적어도 하나의 기준 사운드 특징은 상기 이동 디바이스에 의해 수행되어야 할 상기 기능 및 컨텍스트 정보를 포함하는 메타-데이터와 연관되는, 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 서버. - 이동 디바이스로서,
상기 이동 디바이스 외부의 사운드 출력 디바이스로부터의 미디어 사운드를 캡처하기 위한 수단;
캡처된 상기 미디어 사운드로부터 사운드 특징을 추출하기 위한 수단;
상기 사운드 특징에 기초하여 기준 사운드 특징들의 세트에서 적어도 하나의 기준 사운드 특징을 식별하기 위한 수단으로서, 상기 기준 사운드 특징들의 세트에서의 각각의 기준 사운드 특징은 복수의 미디어 사운드들 중의 적어도 하나 및 복수의 기능들 중의 적어도 하나와 연관되는, 상기 식별하기 위한 수단;
적어도 하나의 식별된 상기 기준 사운드 특징에 기초하여 상기 이동 디바이스에 의해 수행되어야 할 기능을 결정하기 위한 수단; 및
상기 이동 디바이스에서 결정된 상기 기능을 수행하기 위한 수단을 포함하는, 이동 디바이스. - 제 50 항에 있어서,
상기 적어도 하나의 기준 사운드 특징은 광고와 연관되고, 상기 수행하기 위한 수단은 상기 이동 디바이스 상에서 상기 광고를 디스플레이하도록 구성되는, 이동 디바이스. - 제 50 항에 있어서,
상기 적어도 하나의 기준 사운드 특징은 검색 엔진에 의해 검색되어야 할 키워드와 연관되고, 상기 수행하기 위한 수단은,
상기 키워드를 상기 검색 엔진으로 송신하고;
상기 검색 엔진으로부터 검색 결과를 수신하고;
상기 검색 결과를 상기 이동 디바이스 상으로 출력하도록 구성되는, 이동 디바이스. - 제 50 항에 있어서,
상기 수행하기 위한 수단은 상기 이동 디바이스의 구성을 조정하도록 구성되는, 이동 디바이스. - 제 50 항에 있어서,
상기 수행하기 위한 수단은,
수행되어야 할 상기 기능의 통지를 출력하고;
상기 기능을 수행하기 위한 입력을 수신하고;
수신된 상기 입력에 응답하여 상기 기능을 수행하도록 구성되는, 이동 디바이스.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261596576P | 2012-02-08 | 2012-02-08 | |
US61/596,576 | 2012-02-08 | ||
US13/752,080 US9524638B2 (en) | 2012-02-08 | 2013-01-28 | Controlling mobile device based on sound identification |
US13/752,080 | 2013-01-28 | ||
PCT/US2013/023607 WO2013119418A1 (en) | 2012-02-08 | 2013-01-29 | Controlling mobile device based on sound identification |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20140133501A true KR20140133501A (ko) | 2014-11-19 |
Family
ID=48902784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020147020389A KR20140133501A (ko) | 2012-02-08 | 2013-01-29 | 사운드 식별에 기초한 이동 디바이스의 제어 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9524638B2 (ko) |
EP (1) | EP2813061A1 (ko) |
JP (1) | JP2015508205A (ko) |
KR (1) | KR20140133501A (ko) |
CN (1) | CN104094580A (ko) |
WO (1) | WO2013119418A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200067059A (ko) | 2018-12-03 | 2020-06-11 | 한국전기연구원 | 탄소나노소재-나노금속 복합체 및 이의 제조방법 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140372210A1 (en) * | 2013-06-18 | 2014-12-18 | Yahoo! Inc. | Method and system for serving advertisements related to segments of a media program |
CN103414830A (zh) * | 2013-08-28 | 2013-11-27 | 上海斐讯数据通信技术有限公司 | 基于语音实现快速关机的方法及系统 |
CN107076992A (zh) * | 2014-10-03 | 2017-08-18 | 精工爱普生株式会社 | 适应于环境的头戴式显示装置 |
CA3020450A1 (en) | 2016-04-15 | 2017-10-19 | Walmart Apollo, Llc | Systems and methods for facilitating shopping in a physical retail facility |
US10614504B2 (en) * | 2016-04-15 | 2020-04-07 | Walmart Apollo, Llc | Systems and methods for providing content-based product recommendations |
US9928025B2 (en) * | 2016-06-01 | 2018-03-27 | Ford Global Technologies, Llc | Dynamically equalizing receiver |
US10225730B2 (en) | 2016-06-24 | 2019-03-05 | The Nielsen Company (Us), Llc | Methods and apparatus to perform audio sensor selection in an audience measurement device |
US11172293B2 (en) * | 2018-07-11 | 2021-11-09 | Ambiq Micro, Inc. | Power efficient context-based audio processing |
WO2020012145A1 (en) * | 2018-07-12 | 2020-01-16 | Source to Site Accessories Limited | System for identifying electrical devices |
CN111061156A (zh) * | 2018-10-17 | 2020-04-24 | 上海摩软通讯技术有限公司 | 智能家居系统的提醒控制方法及智能家居系统 |
WO2021102342A1 (en) | 2019-11-20 | 2021-05-27 | Salimi Jazi Farzad | Synthetic standardized wave identifiers for representing and classifying entities |
US11934915B2 (en) | 2019-11-20 | 2024-03-19 | Farzad Salimi Jazi | Synthetic standardized wave identifiers for representing and classifying entities |
US20230035941A1 (en) * | 2021-07-15 | 2023-02-02 | Apple Inc. | Speech interpretation based on environmental context |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI942753A (fi) * | 1994-06-10 | 1995-12-11 | Nokia Mobile Phones Ltd | Menetelmä jänniteregulaattorin sisältävän elektronisen laitteen tehonkulutuksen pienentämiseksi |
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
JPH11120468A (ja) | 1997-10-16 | 1999-04-30 | Nec Shizuoka Ltd | 聴覚障害者用生活支援装置 |
DE19816933A1 (de) * | 1998-04-16 | 1999-10-21 | Nokia Mobile Phones Ltd | Verfahren zum Steuern einer elektronischen Einrichtung, insbesondere einer Mobilstation eines Mobilfunknetzes |
US6766295B1 (en) * | 1999-05-10 | 2004-07-20 | Nuance Communications | Adaptation of a speech recognition system across multiple remote sessions with a speaker |
JP2002041276A (ja) | 2000-07-24 | 2002-02-08 | Sony Corp | 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体 |
AU2003230311A1 (en) * | 2002-05-08 | 2003-11-11 | Neomtel Co., Ltd. | Method for playing interactive contents for standby mode in a mobile communication terminal, and a mobile communication terminal of the same |
US7106103B2 (en) | 2003-12-10 | 2006-09-12 | Hewlett-Packard Development Company, L.P. | Selectable integrated circuit interface |
EP1581026B1 (en) | 2004-03-17 | 2015-11-11 | Nuance Communications, Inc. | Method for detecting and reducing noise from a microphone array |
US7308516B2 (en) | 2004-04-26 | 2007-12-11 | Atmel Corporation | Bi-directional serial interface for communication control |
US20060031618A1 (en) | 2004-05-20 | 2006-02-09 | Hansquine David W | Single wire and three wire bus interoperability |
JP2006154926A (ja) | 2004-11-25 | 2006-06-15 | Denso Corp | キャラクタ表示を利用した電子機器操作システム及び電子機器 |
JP2007028391A (ja) * | 2005-07-20 | 2007-02-01 | Sanyo Electric Co Ltd | マイクロホンアレー装置 |
KR100703703B1 (ko) * | 2005-08-12 | 2007-04-06 | 삼성전자주식회사 | 음향 입출력 확장 방법 및 장치 |
US8185680B2 (en) | 2006-02-06 | 2012-05-22 | Standard Microsystems Corporation | Method for changing ownership of a bus between master/slave devices |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7884714B2 (en) * | 2007-01-05 | 2011-02-08 | Voorhuis Plc, Limited Liability Company | System and method for altering settings on electronic devices based upon sensing stimuli |
JP4224797B2 (ja) | 2007-02-22 | 2009-02-18 | ソニー株式会社 | 携帯端末装置、検索サーバ、記録媒体 |
US8121299B2 (en) * | 2007-08-30 | 2012-02-21 | Texas Instruments Incorporated | Method and system for music detection |
DE102008039330A1 (de) * | 2008-01-31 | 2009-08-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Berechnen von Filterkoeffizienten zur Echounterdrückung |
US8077022B2 (en) * | 2008-06-11 | 2011-12-13 | Flextronics Automotive Inc. | System and method for activating vehicular electromechanical systems using RF communications and voice commands received from a user positioned locally external to a vehicle |
US20110069937A1 (en) * | 2009-09-18 | 2011-03-24 | Laura Toerner | Apparatus, system and method for identifying advertisements from a broadcast source and providing functionality relating to the same |
CN201601759U (zh) | 2010-03-18 | 2010-10-06 | 青岛海信电器股份有限公司 | 电视机语音控制系统及采用该语音系统的电视机 |
US8694533B2 (en) | 2010-05-19 | 2014-04-08 | Google Inc. | Presenting mobile content based on programming context |
KR20120034378A (ko) * | 2010-10-01 | 2012-04-12 | 엔에이치엔(주) | 사운드 인식을 통한 광고 정보 제공 시스템 및 방법 |
CN102065260A (zh) | 2010-11-15 | 2011-05-18 | 冠捷显示科技(厦门)有限公司 | 基于背景环境变化自动调节音量的电视 |
US9224388B2 (en) * | 2011-03-04 | 2015-12-29 | Qualcomm Incorporated | Sound recognition method and system |
US8595015B2 (en) * | 2011-08-08 | 2013-11-26 | Verizon New Jersey Inc. | Audio communication assessment |
-
2013
- 2013-01-28 US US13/752,080 patent/US9524638B2/en active Active
- 2013-01-29 WO PCT/US2013/023607 patent/WO2013119418A1/en active Application Filing
- 2013-01-29 KR KR1020147020389A patent/KR20140133501A/ko not_active Application Discontinuation
- 2013-01-29 JP JP2014556569A patent/JP2015508205A/ja active Pending
- 2013-01-29 EP EP13703690.1A patent/EP2813061A1/en not_active Withdrawn
- 2013-01-29 CN CN201380006228.5A patent/CN104094580A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200067059A (ko) | 2018-12-03 | 2020-06-11 | 한국전기연구원 | 탄소나노소재-나노금속 복합체 및 이의 제조방법 |
Also Published As
Publication number | Publication date |
---|---|
EP2813061A1 (en) | 2014-12-17 |
JP2015508205A (ja) | 2015-03-16 |
WO2013119418A1 (en) | 2013-08-15 |
US9524638B2 (en) | 2016-12-20 |
US20130201800A1 (en) | 2013-08-08 |
CN104094580A (zh) | 2014-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9524638B2 (en) | Controlling mobile device based on sound identification | |
US11417302B2 (en) | Machine-control of a device based on machine-detected transitions | |
US10446140B2 (en) | Method and apparatus for identifying acoustic background environments based on time and speed to enhance automatic speech recognition | |
EP2681895B1 (en) | Method and apparatus for grouping client devices based on context similarity | |
US9685156B2 (en) | Low-power voice command detector | |
US9549295B2 (en) | System and method for broadcasting audio tweets | |
KR102702658B1 (ko) | 디스플레이 장치, 디스플레이 장치의 배경음악 제공방법 및 배경음악 제공 시스템 | |
WO2020051357A1 (en) | Communicating context to a device using an imperceptible audio identifier | |
US20150296226A1 (en) | Techniques For Client Device Dependent Filtering Of Metadata | |
US20170371615A1 (en) | Alerting a user to a change in an audio stream | |
US20240241689A1 (en) | Method and System for Seamless Media Synchronization and Handoff | |
WO2016006000A2 (en) | A method and system for optimization of power back up of a communication device for identifying a media content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |