KR20200005476A - 소급 소리 식별 시스템 - Google Patents
소급 소리 식별 시스템 Download PDFInfo
- Publication number
- KR20200005476A KR20200005476A KR1020190080747A KR20190080747A KR20200005476A KR 20200005476 A KR20200005476 A KR 20200005476A KR 1020190080747 A KR1020190080747 A KR 1020190080747A KR 20190080747 A KR20190080747 A KR 20190080747A KR 20200005476 A KR20200005476 A KR 20200005476A
- Authority
- KR
- South Korea
- Prior art keywords
- audio data
- sound
- user
- identity
- sounding
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 67
- 239000000872 buffer Substances 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 12
- 230000004044 response Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 208000000785 Invasive Pulmonary Aspergillosis Diseases 0.000 description 7
- 241000282326 Felis catus Species 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000036387 respiratory rate Effects 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 244000007853 Sarothamnus scoparius Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
- G06F16/634—Query by example, e.g. query by humming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/635—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/638—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/041—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Computer Security & Cryptography (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
소리를 내는 대상의 적어도 하나의 특성을 식별하기 위한 방법은 메모리에, 적어도 하나의 마이크를 통해 청감 환경에서 얻어지는 오디오 데이터를 저장하는 단계; 상기 청감 환경에 포함되는 소리를 내는 대상의 특성을 식별하려는 사용자 요청을 나타내는 입력을 수신하는 단계; 프로세서를 통해 그리고 상기 사용자 요청 전 상기 청감 환경에서 얻어지는 상기 오디오 데이터의 일 부분에 기초하여, 상기 소리를 내는 대상의 상기 특성을 결정하는 단계; 및 상기 소리를 내는 대상의 상기 특성에 대응하는 정보가 적어도 하나의 출력 디바이스를 통해 출력되게 하는 단계를 포함한다.
Description
본 발명의 실시 예들은 일반적으로 컴퓨터 정보 시스템들, 더 구체적으로는 소급 소리 식별 시스템에 관한 것이다.
인터넷의 구축은 본질적으로 임의의 주제에 관한 정보를 인터넷에 연결하는 누구나 쉽게 이용할 수 있게 했다. 뿐만 아니라, 스마트폰, 웨어러블 및 기타 무선 디바이스들의 광범위한 사용은 많은 사용자가 본질적으로 언제나 인터넷에 연결할 수 있게 한다. 유선 연결의 필요에서 자유로워진 사용자들은 이제 무선 서비스를 이용할 수 있는 때는 언제든지 스마트폰이나 전자 태블릿에서 웹 브라우저를 열어 인터넷 검색을 수행할 수 있다. 또한, Microsoft Cortana™, Apple Siri™ 및 Amazon Alexa™와 같이 무선 디바이스들에 포함되는 지능형 가상 비서(IPA)는 사용자들이 디스플레이 스크린을 보거나 검색 매개 변수들을 수동으로 입력할 필요 없이 특정 주제에 관한 정보 검색을 시작할 수 있게 한다. 대신, 사용자는 IPA에 질문하여 말로 인터넷에서 정보를 검색할 수 있다.
일반적으로, 인터넷 검색을 수행하려면, 검색을 수행하는 사람이 관심 주제에 대한 어느 정도 이상의 구체적인 정보를 알아야 한다. 그러나, 많은 경우, 검색을 수행하는 사람은 특정 관심 주제를 충분히 설명하지 못할 수 있고/있거나 관심 주제에 대한 검색 매개 변수들을 분명히 표현하는 것을 어려워 할 수 있다. 예를 들어, 사람이 예기치 못하거나, 흔치 않거나 또는 익숙하지 않은 소리를 들을 때, 그 또는 그녀는 소리를 정확하게 설명하거나 소리의 출처를 알아보기 위한 검색 질의를 만들어 내지 못할 수 있다. 사용자가 정확한 설명이나 관련 검색 매개 변수들을 제공할 수 없으면, IPA 및 관련 알고리즘들은 사용자의 요청에 유용한 응답을 제공하지 못할 수 있다. 또한, 일부 이벤트는 순식간이기 때문에, 사용자는 소리를 알아볼 기회를 가지지 못할 수도 있다. 또한, 소리 이벤트들은 순간적이며, 이는 그것들이 발생한 때, 통상적으로 검색될 수 없음을 의미한다. 결과적으로, 사용자는 소리의 출처 또는 원인을 결정한다든가 다른 방법으로 조사하기 위해 인터넷의 방대한 정보 풀을 이용할 수 없을 수도 있다.
위의 관점에서, 소리 이벤트의 양태들을 알아보기 위한 더 효율적인 기술들이 유용할 수 있다.
다양한 실시 예가 소리 이벤트의 출처를 식별하기 위한 방법을 제시한다. 상기 방법은 메모리에, 적어도 하나의 마이크를 통해 청감 환경에서 얻어지는 오디오 데이터를 저장하는 단계; 상기 청감 환경에 포함되는 소리를 내는 대상의 특성을 식별하려는 사용자 요청을 나타내는 입력을 수신하는 단계; 프로세서를 통해 그리고 상기 사용자 요청 전 상기 청감 환경에서 얻어지는 상기 오디오 데이터의 일 부분에 기초하여, 상기 소리를 내는 대상의 상기 특성을 결정하는 단계; 및 상기 소리를 내는 대상의 상기 특성에 대응하는 정보가 적어도 하나의 출력 디바이스를 통해 출력되게 하는 단계를 포함한다.
개시된 실시 예들의 적어도 하나의 이점은 소리를 내는 대상의 적어도 하나의 특성이, 그 대상이 더 이상 존재하지 않거나 사용자 근방에서 소리를 내지 않더라도 식별될 수 있다는 점이다. 또 다른 이점은 식별된 대상과 관련되거나 연관된 정보, 이를테면, 소리를 내는 대상의 지향성, 어떤 이벤트가 발생하여 소리를 내는 대상이 사용자가 듣는 소리를 냈을 가능성이 있는지 등이 또한 사용자에게 제공될 수 있다는 점이다.
다양한 실시 예의 위에서 열거된 특징들이 상세하게 이해될 수 있도록, 위에서 간단하게 요약된 다양한 실시 예에 대한 더 구체적인 설명이 실시 예들을 참조하여 이루어질 수 있으며, 이들 중 몇몇이 첨부된 도면들에 도시되어 있다. 그러나, 다양한 실시 예는 기타 동등하게 효율적인 실시예들을 받아들일 수 있기 때문에, 첨부된 도면들은 단지 전형적인 실시 예들을 도시하는 것이고 그에 따라 그것의 범위를 제한하는 것으로 간주되지 않아야 한다는 것이 주의되어야 한다.
도 1은 다양한 실시 예의 적어도 하나의 양태를 구현하도록 구성된 소리 식별 시스템을 도시한 개략도이다.
도 2는 다양한 실시 예의 적어도 하나의 양태를 구현하도록 구성된 소리 식별 시스템을 도시한 개략도이다.
도 3은 다양한 실시 예에 따른, 소리를 내는 대상을 식별하기 위한 방법 단계들의 흐름도를 제시한다.
도 4는 다양한 실시 예에 따른, 다수의 알고리즘 대상 식별 서브 시스템을 개략적으로 도시하는 블록도이다.
도 5는 다양한 실시 예에 따른, 소리를 내는 대상을 고 신뢰도로 식별하기 위한 방법 단계들의 흐름도를 제시한다.
도 6은 다양한 실시 예에 따른, 컴퓨팅 디바이스의 더 상세한 도해이다.
명료성을 위해, 도면들 간에 공통된 동일한 요소들을 표기하기 위해 적용 가능할 경우 동일한 참조 부호들이 사용되었다. 일 실시 예의 특징들이 추가 반복 없이 기타 실시 예들에 통합될 수 있는 것으로 고려된다.
도 1은 다양한 실시 예의 적어도 하나의 양태를 구현하도록 구성된 소리 식별 시스템을 도시한 개략도이다.
도 2는 다양한 실시 예의 적어도 하나의 양태를 구현하도록 구성된 소리 식별 시스템을 도시한 개략도이다.
도 3은 다양한 실시 예에 따른, 소리를 내는 대상을 식별하기 위한 방법 단계들의 흐름도를 제시한다.
도 4는 다양한 실시 예에 따른, 다수의 알고리즘 대상 식별 서브 시스템을 개략적으로 도시하는 블록도이다.
도 5는 다양한 실시 예에 따른, 소리를 내는 대상을 고 신뢰도로 식별하기 위한 방법 단계들의 흐름도를 제시한다.
도 6은 다양한 실시 예에 따른, 컴퓨팅 디바이스의 더 상세한 도해이다.
명료성을 위해, 도면들 간에 공통된 동일한 요소들을 표기하기 위해 적용 가능할 경우 동일한 참조 부호들이 사용되었다. 일 실시 예의 특징들이 추가 반복 없이 기타 실시 예들에 통합될 수 있는 것으로 고려된다.
도 1은 본 발명의 다양한 실시 예의 적어도 하나의 양태를 구현하도록 구성된 소리 식별 시스템(100)을 도시한 개략도이다. 소리 식별 시스템(100)은 청감 도메인에서 사람의 인지를 소급하여 높인다. 구체적으로, 소리 식별 시스템(100)은 사용자(101)로부터의 질의(105)에 응답하여, 사용자(101)가 들을 수 있는 소리 이벤트와 연관된 소리를 내는 대상(102)을 식별하도록 구성된다. 소리 이벤트는 제한 없이, 사용자(102)가 들을 수 있는 그리고 서로 동시에 또는 수 초 내에 발생하는 적어도 하나의 관련 소리의 발생을 포함한다. 소리 식별 시스템(100)은 소리를 내는 대상(102)이 더 이상 존재하지 않거나 사용자(101)가 들을 수 있는 소리를 내지 않더라도, 소리를 내는 대상(102)을 식별하고 소리를 내는 대상(102)의 정체성을 사용자에게 알릴 수 있다. 일부 실시 예에서, 소리 식별 시스템(100)은 또한 소리를 내는 대상(102)과 관련되거나 연관된 정보, 이를테면, 소리를 내는 대상의 사용자(101)에 대한 지향성, 어떤 이벤트 또는 이벤트들의 시퀀스가 발생하여 소리를 내는 대상(102)이 소리 이벤트를 발생시켰을 가능성이 있는지, 소리 이벤트에 대한 더 넓은 범주(다수의 소리를 내는 대상 식별에 기초하여) 등을 제공할 수 있다.
소리 식별 시스템(100)은 제한 없이, 적어도 하나의 마이크(103), 오디오 저장소(120), 대상 식별 서브 시스템(130) 및 사용자 인터페이스(140)를 포함한다. 일부 실시 예에서, 적어도 하나의 마이크(103), 오디오 저장소(120), 대상 식별 서브 시스템(130) 및/또는 사용자 인터페이스(140)는 헤드폰- 또는 이어버드-기반 어셈블리와 같은 단일 디바이스(미도시)로 통합된다. 대안적으로, 일부 실시 예에서는, 마이크(103), 오디오 저장소(120) 및 사용자 인터페이스(140) 중 적어도 하나가 헤드폰-기반 어셈블리로 통합되는 한편, 대상 식별 서브 시스템(130)의 기능은 헤드폰-기반 어셈블리에 무선으로 연결되는 스마트폰(미도시)에 구현된다. 어느 경우든, 더 상세하게 후술될 바와 같이, 대상 식별 서브 시스템(130)의 전산 집약 기능들 및/또는 저장 집약 기능들은 원격으로, 예를 들어 적어도 하나의 클라우드-기반 시스템에서 구현될 수 있다.
마이크(103)는 입력들을 수신하고 오디오 데이터(104)를 발생시키는 임의의 기술적으로 실행 가능한 트랜스듀서-기반 또는 기타 소리를 포착하는 디바이스일 수 있다. 일부 실시 예에서, 마이크들(103) 중 적어도 하나는 사용자(101)가 착용한 웨어러블 디바이스 또는 사용자(101)와 연관된 기타 모바일 컴퓨팅 디바이스, 이를테면 헤드폰-기반 어셈블리에 통합된다. 대안적으로, 일부 실시 예에서, 마이크들(103) 중 적어도 하나는 사용자(101)와 연관된 디바이스들 외부에 있으나 사용자(101) 부근에 있고 사용자(101)가 들을 수 있는 소리를 감지할 수 있다. 예를 들어, 그러한 실시 예들에서, 마이크(103)들 중 적어도 하나는 부근 감시 디바이스, 스마트 스피커, 사용자와 동일한 공간 내 사물 인터넷(IoT) 디바이스 등에 포함된다. 그러한 실시 예들에서, 오디오 데이터(104)의 적어도 일 부분은 통상적으로 사용자(102)와 원격의 오디오 저장소(120)에 저장된다.
오디오 저장소(120)는 마이크(들)(103)에서 수신되는 오디오 데이터(104)를 저장하고 그에 따라 사용자(101)가 들을 수 있게 발생한 소리 이벤트들의 레코딩을 포함한다. 일반적으로, 오디오 저장소(120)는 지나간 언젠가로부터 사용자(101)가 소리 식별 시스템(100)에 구체적인 소리 이벤트에 관한 정보에 대해 질의하는 시간까지 사용자(101)가 들을 수 있는 소리 이벤트들의 연속적인 오디오 레코드를 포함한다. 오디오 저장소(120)는 다양한 실시 예로 구현될 수 있다.
데이터 저장 자원들이 제한되는 실시 예들에서, 오디오 저장소(120)는 오디오 데이터(104)의 다수의 최신 샘플을 유지하는 원형 버퍼를 포함함으로써, 사용자 질의에 응답하여 관련 분석 시간에 대응하여 오디오 데이터(104)를 레코딩할 수 있다. 일반적으로, 관련 시간은 사용자(101)가 소리 식별 시스템(100)에 질의하기 수 초 내 수 분 전 시작하여 사용자(101)가 소리 식별 시스템(100)에 질의할 때 종료되는 시간을 포함한다. 그에 따라, 오디오 저장소(120)는 사용자(101)가 소리 식별 시스템(100)에 질의하는 시간 직전 지나간 특정 시간 길이 동안 오디오 데이터(104)를 포함한다. 사용자(101)가 소리 식별 시스템(100)에 질의할 때, 그러한 원형 버퍼에 저장된 오디오 데이터(104)는 대상 식별 서브 시스템(130)이 접근 가능한 메모리로 카피되고/거나 대상 식별 서브 시스템(130)으로 라우팅된다. 대안적으로, 상술한 원형 버퍼는 클라우드-기반 컴퓨팅 디바이스와 같이, 사용자(101)와 원격의 컴퓨팅 디바이스에 구현될 수 있다.
대안적으로 또는 추가적으로, 일부 실시 예에서, 오디오 저장소(120)의 일부 또는 전부는 소리 식별 시스템(100) 외부에 있으나 소리 식별 서브 시스템(130)이 접근 가능한 적어도 하나의 시스템에 포함된다. 상기한 실시 예들에서, 오디오 데이터(104)는 사용자(101)가 착용하거나 사용자(101)와 연관된 모바일 컴퓨팅 디바이스에 포함되는 마이크(103)에 의해 발생되지 않은 데이터를 포함한다. 예를 들어, 상기한 실시 예들에서, 오디오 데이터(104)는 사용자(101)가 소리 식별 시스템(100)에 소리를 내는 대상(102)의 식별에 대해 질의하는 시간 이전 미리 결정된 지속 기간의 시간 간격 동안 이루어진 오디오-비디오 레코딩에서 추출될 수 있다. 소리 식별 시스템(100) 외부에 있으나 대상 식별 서브 시스템(130)이 접근 가능한 예들은 제한 없이, 감시 시스템, 이를테면 사용자(101)의 집 또는 고용주와 연관된 시스템, 사용자(101) 부근 IoT 디바이스들, 스마트 스피커들, 스마트 텔레비전 세트들, 스마트 가전 기기들, 지능형 가상 비서(IPA) 디바이스들 등을 포함한다.
대안적으로 또는 추가적으로, 일부 실시 예에서, 오디오 저장소(120)는 오디오 데이터(104)를 저장하기 위한 다수의 원형 버퍼를 포함하며, 각 버퍼는 일련의 순차적인 시간 간격으로 상이한 시간 간격 동안 오디오 데이터(104)를 포함한다. 상기한 실시 예들에서, 대상 식별 서브 시스템(130)이 임계 신뢰값을 초과하는 신뢰도로 소리를 내는 대상(102)의 정체성을 밝히지 못할 때, 대상 식별 서브 시스템(130)은 더 지나간 시간 간격에 각각 대응하는 다수의 원형 버퍼 중 적어도 하나로부터의 추가 오디오 데이터(104)를 이용하는 추가 분석을 수행할 수 있다. 또한, 임계 신뢰값을 초과하는 신뢰도로 소리를 내는 대상(102)의 정체성을 밝히지 못하면 대상 식별 서브 시스템(130)이 다수의 원형 버퍼 중 다른 원형 버퍼로부터 훨씬 더 지나간 오디오 데이터(104)에 접근할 수 있다. 그에 따라, 상기한 실시 예들에서, 오디오 저장소(120)는 일정한 신뢰 기준이 충족될 때까지, 늘인 길의의 오디오 데이터(104)의 블록들을 대상 식별 서브 시스템(130)으로 계속해서 보낸다. 오디오 데이터(104)의 블록들은 다수의 버퍼로부터의 연결 데이터를 포함하며, 이 다수의 버퍼는 대상 식별 서브 시스템(130)이 충분히 높은 신뢰도로 소리를 내는 대상(102)의 정체성을 밝힌 후 그 안에 저장된 오디오 데이터(104)를 없앤다.
신경 네트워크들 및 기타 신경 예측 시스템들 그리고 패턴 인식 시스템들에서, 신뢰도(confidence measure)는 예측 또는 인식 결과들의 신뢰성을 평가하기 위해 이용된다는 것이 주의된다. 본원에 설명되는 실시 예들에서, 대상 식별 서브 시스템(130)에 의해 밝혀지는 소리를 내는 대상(102)의 특정 정체성과 연관된 신뢰도는 오디오 데이터(104)에 포함되는 오디오 시그니처가 밝혀진 정체성의 오디오 시그니처와 얼마나 밀접하게 매칭되는지를 수량화할 수 있다. 대안적으로 또는 추가적으로, 일부 실시 예에서, 소리를 내는 대상(102)의 특정 정체성과 연관된 신뢰도는 특정 정체성이 소리를 내는 대상(102)의 실제 정체성과 매칭되는 가능성을 수량화할 수 있다. 뿐만 아니라, 대상 식별 서브 시스템(130)에 의해 밝혀지는 소리를 내는 대상(102)의 특정 정체성과 연관된 신뢰도는 대상 식별 서브 시스템(130)의 출력의 추정되는 품질을 수령화하는 임의의 기타 적합한 값을 포함할 수 있다.
사용자 인터페이스(140)는 사용자(101)로부터 질의(105)를 수신하고 대상 식별 서브 시스템(130)에 의해 발생되는 검색 결과들(106)을 사용자(101)에게 전달하도록 구성된다. 사용자 인터페이스(140)는 헤드폰-기반 어셈블리 또는 스마트폰에 통합되는 라우드 스피커들, 웨어러블 컴퓨팅 디바이스 또는 스마트폰에 통합되는 디스플레이 스크린, 스마트 텔레비전 세트, 스마트 가전 기기(예를 들어, 냉장고) 등과 같이, 사용자(101)에게 이해할 수 있는 형태로 검색 결과들(106)을 제공하기에 적합한 임의의 하드웨어 디바이스들 및 관련 소프트웨어를 포함할 수 있다. 검색 결과들(106)을 사용자(101)에게 전달할 때, 사용자 인터페이스(140)는 검색 결과들(106)을 사용자(101)가 이해할 수 있는 형태로 변환한다. 그에 따라, 사용자 인터페이스(140)는 제한 없이, 음성-기반 시스템, 화상 알림 시스템 및/또는 텍스트-기반 시스템을 포함하여, 다수의 통신 양식으로 동작하도록 구성될 수 있다. 음성-기반 시스템은 제한 없이, 사용자(101)가 착용한 웨어러블 컴퓨팅 디바이스(미도시) 또는 사용자(101)와 연관된 기타 모바일 컴퓨팅 디바이스(미도시)에 통합되는 지능형 가상 비서(IPA), 음성 에이전트 또는 기타 대화 시스템을 포함할 수 있다. 화상 알림 시스템은 제한 없이, 웨어러블 컴퓨팅 디바이스 또는 모바일 컴퓨팅 디바이스의 그래픽 사용자 인터페이스(GUI), 이를테면 헤드 장착 디스플레이(HMD) 또는 스마트폰의 디스플레이 스크린에 의해 디스플레이되는 GUI를 포함할 수 있다. 텍스트-기반 시스템은 검색 결과들(106)을 텍스트 형태로 제공하기 위해 화상 알림 시스템의 상술한 디스플레이와 함께 동작할 수 있다. 대안적으로, 텍스트-기반 시스템은 페이저 또는 기타 텍스트 디스플레이 디바이스와 같은 별도의 텍스트 가능 디바이스에 포함될 수 있다.
검색 결과들(106)은 제한 없이, 대상 식별 서브 시스템(130)에 결정된 바에 따른, 소리를 내는 대상(102)에 대해 제시되는 적어도 하나의 정체성을 포함한다. 일부 실시 예에서, 검색 결과들(106)은 적어도 하나의 정체성과 관련된 추가 정보, 이를테면 각 정체성과 연관된 신뢰도, 정체성과 관련된 맥락 정보, 동반되는 알림, 통지 및/또는 검색 결과들(106)에 포함된 정보가 더 알아차릴 수 있거나, 알아볼 수 있거나 또는 이해하게 쉽게 하는 추가 단어 또는 텍스트를 포함할 수 있다. 예를 들어, 사용자 인터페이스(140)가 음성-기반 시스템을 통해 검색 결과들(106)을 제공하는 실시 예에서, 대상 식별 서브 시스템(130)은 검색 결과들(106)에 추가 용어들 또는 언어를 포함시켜 대상 분류를 말로 표시되는 문구로 변환할 수 있다(예를 들어, "고양이"가 "당신이 방금 들은 소리는 고양이였습니다."가 된다).
일부 실시 예에서, 사용자 인터페이스(140)는 소리를 내는 대상(102)의 식별과 관련되거나 그로부터 도출되는 임의의 기타 통지 또는 정보를 사용자(101)에게 전달하도록 구성된다. 예를 들어, 일부 실시 예에서, 대상 식별 서브 시스템(130)이 소리를 내는 대상(102)을 식별하지 못할 때, 또는 그 식별이 특정 신뢰 기준을 충족시키기 못할 경우, 사용자 인터페이스(140)는 추가 정보를 사용자에게 제공함으로써 이러한 실패를 나타낼 수 있다(예를 들어, "죄송합니다, 무엇이 방금 그 소리를 만들었는지 식별할 수 없습니다").
대상 식별 서브 시스템(130)은 사용자(101)로부터의 질의(105)에 응답하여 소리를 내는 대상(102)에 대해 제시된 적어도 하나의 정체성을 밝히기 위한 알고리즘들을 포함한다. 대상 식별 서브 시스템(130)은 그러한 정체성들을 오디오 저장소(120)에 저장된 오디오 데이터(104)에 기초하여 밝힌다. 그에 따라, 대상 식별 서브 시스템(130)은 어떤 소리를 내는 대상(102)이 오디오 저장소(120)에 저장된 오디오 데이터(104)에 포함된 소리들의 적어도 일부를 냈는지 식별하려고 시도한다.
대상 식별 서브 시스템(130)은 오디오 데이터(104)에 기초하여 소리를 내는 대상(102)을 식별하기 위한 적어도 하나의 기계 학습 방법 또는 알고리즘을 포함할 수 있다. 대상 식별 서브 시스템(130)에 이용되는 적합한 기계 학습 및/또는 신경 네트워크 패턴 인식 시스템들은 제한 없이, 최인접 분류기 절차, 마르코프 체인, 심층 학습 방법들 및/또는 기술적으로 실현 가능한 임의의 기타 기계 학습, 통계 또는 인공 지능 기반 접근법들을 포함한다. 예를 들어, 최인접 분류기 절차에서는, 특징들이 오디오 데이터(104)의 발췌로부터 추출되고 알려진 기원의 복수의 참조 오디오 샘플에서 추출된 특징들과 비교된다. 오디오 데이터(104)의 발췌의 특징들과 참조 오디오 샘플들의 특징들 간 누적 거리는 식별 목적을 위해 더 양호한 그리고 열악한 매치들을 정량적으로 결정하기 위해 사용된다. 노래들 간 유사성을 정량화하기 위한 최인접 분류기 절차의 일례가 "A Multiple Feature Model for Musical Similarity Retrieval," Allamanche 외, ISMIR 2003 Conference Proceedings에 설명되어 있다. 은닉 마르코프 모델(HMM)은 상당한 악곡 모음에서 개별 악곡들을 나타내는 데 효율적인 기술로 제안되었다. HMM들을 사용하면, 상기한 상당한 모음에서 특정 악곡을 찾으려는 질의가 질의에 포함된 소리 샘플의 HMM과 가장 밀접하게 매칭되는 HMM을 찾는 것으로 된다. 특정 노래를 검색하는 것을 단순화하기 위한 HMM-기반 절차의 일례가 "Indexing Hidden Markov Models for Music Retrieval," Jin 외, ISMIR 2002 Conference Proceedings에 설명되어 있다. 반복 심화는 전산 부담을 수반하지 않고 특정 멜로디들을 검색 시 강력한 검색 성능을 이루기 위해 제시되었다. 특정 멜로디를 검색하는 것을 단순화하기 위한 심화 반복 기술의 일례가 "Iterative Deepening for Melody Alignment and Retrieval", Adams 외, ISMIR 2005 Conference Proceedings에 설명되어 있다. 상술한 접근법들은 음악과 관련되지 않은 소리 식별에 이용될 수도 있다.
일부 실시 예에서, 대상 식별 서브 시스템(130)은 소리를 내는 대상(102)에 대해 밝혀지는 각각의 가능한 정체성에 대한 신뢰도 또는 기타 정확도 메트릭을 포함하도록 더 구성된다. 그러한 실시 예들에서, 신뢰도는 상술한 바와 같이, 정체성의 질 또는 가능한 정체성이 정확할 가능성을 수량화한다.
일부 실시 예에서, 대상 식별 서브 시스템(130)은 검색 결과들(106)에 소리를 내는 대상(102)과 관련된 추가 정보를 포함하도록 구성되며, 여기서 추가 정보는 소리를 내는 대상(102)의 정의 또는 가능한 정체에 더하여 또는 그 대신 추가될 수 있다. 예를 들어, 그러한 실시 예들에서, 대상 식별 서브 시스템(130)은 소리를 내는 대상(102)의 속성들 또는 기타 정체성과 연관된 정보, 이를테면 링크, 추천, 소리를 내는 대상(102)이 구매될 수 있는 장소(예를 들어, 대상 식별 서브 시스템(130)이 특정 노래를 식별할 때) 또는 기타 임의의 유형의 정보를 포함할 수 있다. 예를 들어, 그러한 실시 예들에서, 추가 정보는 제한 없이, 소리를 내는 대상(102)의 사용자(101)에 대한 지향성, 소리를 내는 대상(102)의 사용자(101)로부터의 거리 및/또는 소리를 내는 대상(102)과 연관된 기타 세부 사항들(예를 들어, "당신이 듣는 것은 여기에서 대략 2 마일 떨어지게, 이륙하는 동안 747입니다")을 포함할 수 있다. 그러한 추가 정보는 사용자(101)와 연관된 스마트폰 또는 기타 무선 컴퓨팅 디바이스, 스마트폰 또는 무선 컴퓨팅 디바이스에 통합된 IPA를 통해 대상 식별 서브 시스템(130)에 의해, 또는 인터넷에 접속하여 직접 검색을 수행함으로써 검색될 수 있다.
비슷한 맥락에서, 대상 식별 서브 시스템(130)은 대안적으로 또는 추가적으로, 검색 결과들(106)에 오디오 데이터(104)에 의해 나타나는 소리 환경에 대한 설명 및/또는 오디오 상황을 결정 및 포함시킬 수 있다. 예를 들어, 그러한 실시 예들에서, 대상 식별 서브 시스템(130)은 검색 결과들(106)에 단지 소리를 내는 대상(102)의 가능한 식별을 포함시키는 것이 아니라, 오디오 데이터(104)에 레코딩된 소리들에 기여하는 다수의 소리를 내는 대상(102)의 가능한 정체성들을 결정하고, 다수의 소리를 내는 대상(102)에 의해 발생되는 소리들의 조합에 의해 생성되는 오디오 환경에 대한 적합한 설명을 포함시킬 수 있다. 그에 따라, 대상 식별 서브 시스템(130)은 사용자(101)에게 소리를 내는 대상(102)이 고양이라는 것을 알리는 것이 아니라, 다수의 소리를 내는 대상(102)의 식별로부터 더 넓은 범주를 나타내는 검색 결과들(106)을 발생시킬 수 있다: "그것은 혼잡한 거리 많은 사람 속 고양이입니다".
일부 실시 예에서, 대상 식별 서브 시스템(130)은 상황들 및/또는 이벤트를 결정하도록, 그리고 검색 결과들(106)에 그에 대한 설명을 포함시키도록 구성된다. 대상 식별 서브 시스템(130)에 의해 결정되는 상황들 및/또는 이벤트들은 다수의 소리를 내는 대상(102)의 식별 및 그것들 사이 가능한 상호 작용들에 기초한다. 그에 따라, 그러한 실시 예들에서, 대상 식별 서브 시스템(130)은 다수의 소리를 내는 대상(102)의 가능한 정체성들의 리스트를 검색 결과들(106)에 포함시키는 것이 아니라, 검색 결과들(106)에 이벤트 또는 상황에 대한 설명을 포함시킨다. 예를 들어, 일례로, 대상 식별 서브 시스템(130)은 "고양이", "개", "으르렁거리는 소리", "쉬익하는 소리"와 같은 오디오 데이터(104)에 기초하여 몇몇 독립적인 대상의 정체성들을 만들고, 그 다음 동일한 오디오 데이터(104)에 함께 있는 이러한 정체성들이 "싸움"을 이룬다는 사실을 조합한다. 결과적으로, 이러한 예에서, 대상 식별 서브 시스템(130)은 검색 결과들(106)에 다음 정보를 포함시키지 않는다: "그것은 고양이 및 개 및 으르렁거리는 소리 및 쉬익하는 소리입니다". 그 대신, 대상 식별 서브 시스템(130)은 검색 결과들(106)에 다음 정보를 포함시킨다: "그것은 개와 고양이가 싸우는 것입니다.". 그러한 실시 예들에서, 대상 식별 서브 시스템(130)은 이벤트들, 또는 적어도 하나의 소리를 내는 대상과 연관된 이벤트들을 설명하는 데이터베이스를 이용할 수 있다. 예를 들어, 그러한 데이터베이스는 스포츠 이벤트에서 환호하는 군중의 오디오를 포함할 수 있고, 그러한 오디오는 "흥분한 많은 군중"으로 라벨링될 것이다. 또한, 대상 식별 서브 시스템(130)은 예를 들어 특별히 맞추어진 신경 네트워크들, 패턴 인식 시스템 및/또는 인공 지능 알고리즘들을 통해, 다수의 소리를 내는 대상의 조합에 기초하여 상위 레벨 이벤트 또는 이벤트 설명을 결정하도록 구성될 수 있다.
뿐만 아니라, 일부 실시 예에서, 검색 결과들(106)에 포함되는 추가 정보는 이를테면 대상 식별 서브 시스템(130)이 소리를 내는 대상(102)의 구체적인 정체성을 결정할 수 없을 때, 오디오 데이터(104)의 분류를 포함할 수 있다. 예를 들어: "이것이 무슨 노래인지 확실하지 않지만 그것은 록 음악처럼 들립니다". 그에 따라, 그러한 실시 예들에서, 대상 식별 서브 시스템(130)은 대상 식별 서브 시스템(130)에 의해 결정되는 가능한 정체성들의 신뢰도에 따라, 소리를 내는 대상(102)에 대한 낮은 신뢰도의 정체성 대신 추가 정보를 제공할 수 있다.
일부 실시 예에서, 대상 식별 서브 시스템(130)은 오디오 데이터(104)의 가능한 출처의 비교 및 식별을 위해 이전에 분류된 오디오 트랙들의 데이터베이스를 이용한다. 하나의 그러한 실시 예가 도 2에 도시되어 있다. 도 2는 본 발명의 다양한 실시 예의 적어도 하나의 양태를 구현하도록 구성된 소리 식별 시스템(200)을 도시한 개략도이다. 소리 식별 시스템(200)은 도시된 바와 같이 소리 식별 시스템(100)과 유사하지만, 또한 조정 엔진(230) 및 오디오 데이터베이스(220)를 포함한다. 일부 실시 예에서, 소리 식별 시스템(200)은 또한 적어도 하나의 추가 센서(203)를 포함한다.
조정 엔진(230)은 마이크(103)로부터 오디오 데이터(104)의 수신, 오디오 데이터(104)의 오디오 저장소(120)로의 지향, 대상 식별 서브 시스템(130)의 개시 및 사용자 인터페이스(140)와의 상호 작용들을 비롯하여, 소리 식별 시스템(200)의 동작을 관리하도록 구성된다. 일부 실시 예에서, 조정 엔진(230)은 마이크(103), 오디오 저장소(120) 및 사용자 인터페이스(140)와 함께, 헤드폰- 또는 이어버드-기반 어셈블리와 같은 웨어러블 디바이스에 포함된다. 대안적으로, 조정 엔진(230)은 사용자(101)와 연관된 스마트폰, 전자 태블릿 또는 기타 모바일 컴퓨팅 디바이스에 구현된다. 그러한 실시 예들에서, 대상 식별 시스템(130)의 기능의 일부 또는 전부는 웨어러블 디바이스와 별도의 컴퓨팅 디바이스, 이를테면 클라우드-기반 또는 기타 분산 컴퓨팅 시스템에 구현될 수 있다. 또한, 그러한 실시 예들에서, 오디오 데이터베이스(220)는 웨어러블 디바이스와 별도의 컴퓨팅 디바이스 또는 분산 컴퓨팅 시스템에 상주한다.
오디오 데이터베이스(220)는 오디오 저장소(120)에서의 오디오 데이터가 비교될 수 있는 복수의 오디오 트랙(221)을 포함한다. 각각의 오디오 트랙들(221)은 어떤 소리를 내는 대상 또는 대상들의 조합이 그러한 특정 오디오 트랙(221)을 발생시켰는지에 따라 분류되거나, 태깅되거나 또는 다른 방법으로 카테고리화된다. 일부 실시 예에서, 오디오 데이터베이스(220)는 각 오디오 트랙(221)과 연관된 추가 메타데이터(222), 이를테면 특정 오디오 트랙(221)과 연관된 이벤트들, 그러한 오디오 트랙(221)과 연관된 소리를 내는 대상과 그 외 소리를 내는 대상들 간에 발생할 수 있는 상호 작용들, 그러한 오디오 트랙을 발생시킨 소리를 내는 대상과 통상적으로 연관되는 소리 출력 레벨 또는 범위 등을 포함한다.
추가 센서들(203)은 소리를 내는 대상(102)의 식별 그리고 그러한 식별이 이루어져야 한다는 결정을 도울 수 있는 추가 정보(204)를 발생시키도록 구성된다. 예를 들어, 소리 식별 시스템(200)은 사용자(101)의 환경 내 대상들의 기타 속성들, 이를테면 그러한 대상들의 시각적 또는 열적 속성들 및/또는 그러한 대상들의 사용자(101)로부터의 거리에 적어도 부분적으로 기초하여 소리를 내는 대상(102)을 식별할 수 있다. 추가 센서들(203)은 제한 없이, 사용자(101)의 얼굴 표정을 포착하고/하거나 사용자(101)의 목전의 환경의 이미지들을 포착하기 위한 적어도 하나의 카메라를 포함할 수 있다. 예를 들어, 일부 실시 예에서, 추가 센서들(203)은 헤드폰-기반 어셈블리로 통합되는 적어도 하나의 카메라를 포함한다. 그러한 실시 예들에서, 대상 식별 시스템(130)은 소리를 내는 대상(102)의 식별을 돕기 위해 최근에 들린 소리의 방향으로 배향된 하나의 그러한 카메라에 의해 포착되는 적어도 하나의 이미지를 이용할 수 있다. 그러한 실시 예들에서, 오디오 저장소(120)와 유사한 추가 센서 데이터 저장소가 소리 식별 시스템(200)에 포함될 수 있다. 대안적으로 또는 추가적으로, 일부 실시 예에서, 추가 센서들(203)은 제한 없이, 사용자(101)의 적어도 하나의 생리학적 파라미터, 이를테면 사용자(101)의 호흡수, 심박수, 인식의 작업량 등을 측정 또는 모니터링하도록 구성된 센서들을 포함한다. 그에 따라, 그러한 실시 예들에서, 추가 센서들(203)은 사용자(101)와 연관되거나 사용자(101)가 겪는 특정 생리학적 변화들 또는 기타 생리학적 이벤트들, 이를테면 호흡수 또는 심박수의 갑작스런 변화, 사용자(101) 상에 증가된 인식의 작업량, 사용자(101) 얼굴 상의 강한 놀라움의 표정 등을 감지할 수 있다. 그러한 이벤트의 감지에 응답하여, 조정 엔진(230)은 대상 식별 서브 시스템(130)이 소리를 내는 대상(들)(102)의 정체성을 결정하게 할 수 있고, 그에 따라 예를 들어 사용자(101)에게 청각적으로 알림으로써 사용자(101)에게: "방금 당신을 깜짝 놀라게 한 시끄러운 소리는 다른 방의 바닥에 떨어진 빗자루일 뿐이었습니다."임을 알릴 수 있다. 그러한 결정은 마이크(103)에 의해 발생한 오디오 데이터로부터 뿐만 아니라 추가 센서들(203)로부터의 정보에 기초할 수 있다.
동작 시, 소리 식별 시스템(200)은 소리를 내는 대상(102)에 의해 발생된 레코딩된 소리에 기초하여 소리를 내는 대상(102)의 정체성을 소급하여 결정하하도록 구성된다. 통상적으로, 소리 식별 시스템(200)은 사용자 요청에 응답하여 정체성을 결정한다. 소리 식별 시스템(200)은 사용자 요청 이전 어느 한 시점에 레코딩된 오디오 데이터(104)를 오디오 데이터베이스(220)에 카테고리화 또는 분류된 오디오 트랙들(221)과 비교함으로써 소리를 내는 대상(102)에 대한 적어도 하나의 정체성을 결정한다. 일부 실시 예에서, 소리 식별 시스템(200)은 적어도 하나의 신경 네트워크 또는 패턴 식별 알고리즘, 또는 기타 임의의 적합한 인공 지능 알고리즘을 사용하여 어느 오디오 트랙(들)(221)이 오디오 데이터(104)와 가장 밀접하게 매칭되는지를 결정한다. 하나의 그러한 실시 예가 도 3과 함께 후술된다.
도 3은 본 발명의 다양한 실시 예에 따른, 소리를 내는 대상을 식별하기 위한 방법 단계들의 흐름도를 제시한다. 방법 단계들이 도 1 및 도 2의 시스템들과 함께 설명되지만, 해당 기술분야의 기술자들은 방법 단계들을 임의의 순서로, 수행하도록 구성된 임의의 시스템이 다양한 실시예의 범위 내에 들어간다는 것을 이해할 것이다.
도시된 바와 같이, 방법(300)은 소리 식별 시스템(200)이 사용자(101)의 청감 환경에서 발생한 소리 이벤트의 디지털 레코딩을 발생시키는 임의적 단계(301)로 시작된다. 소리 이벤트는 사용자(101)가 들을 수 있는 임의의 단일 소리이거나 다수의 소리의 모음일 수 있으며, 이때 다수의 소리는 순차적으로 또는 동시에 발생할 수도 있고, 서로 시간이 부분적으로 중첩될 수도 있다. 일반적으로, 소리 이벤트는 비교적 짧은 시간에 걸쳐, 예를 들어 대략 1초의 몇 분의 1 내지 수 초에 걸쳐 이어진다. 대안적으로 또는 추가적으로, 일부 실시 예에서, 소리 이벤트는 제한 없이, 수 분과 같이 더 긴 기간 동안 계속되는 사용자가 들을 수 있는 적어도 하나의 소리를 포함할 수 있다. 사용자(101)의 청감 환경은 일반적으로 사용자(101)가 들을 수 있는 임의의 소리들을 포함한다. 사용자(101)의 청감 환경이 사용자(101)에 근접한 소리를 내는 대상들에 의해 발생되는 소리들로 제한되지 않는다는 것이 주의된다. 예를 들어, 사용자(101)의 청감 환경에 포함되는 소리는 비교적 먼 소리를 내는 대상, 이를테면 비행기가 이륙하거나 화기가 발사되는 것에 의해 발생되는 아주 시끄러운 소리일 수 있다. 단계(301)에서 발생되는 디지털 레코딩은 조정 엔진(230)에 의해 오디오 저장소(120)에 저장되며, 이는 원형 버퍼 또는 기타 디지털 메모리 디바이스를 포함할 수 있다.
일부 실시 예에서, 소리 식별 시스템(200)은 단계(301)에서 발생된 디지털 레코딩을 오디오 저장소(120)의 원형 버퍼에 레코딩 및 저장한다. 그에 따라, 오디오 저장소(120)에 이전에 저장된 오디오 데이터(104)는 특정 시간 간격 이후, 더 새로운 오디오 데이터(104)로 겹쳐 쓰인다. 즉, 임계 지속 시간보다 오래된 청감 환경에서 얻어진 오디오 데이터는 원형 버퍼에 대응하는 메모리에서 폐기된다. 그러한 실시 예들에서는, 본 발명의 실시 예들을 구현하기 위해 소리 식별 시스템(200)에 필요한 메모리 자원들이 제한된다. 사용자(101)의 청감 환경 내 소리 이벤트들은 일반적으로 특정 관련 기간 이후에는 더 이상 관심사가 아니기 때문에, 오디오 데이터(104)의 스토리지는 일반적으로 그러한 관련 기간 이후 거의 가치가 없다. 일부 실시 예에서, 관련 기간은 평균 구어 문장의 지속 기간, 예를 들어, 수 초에서 수십 초까지를 갖는다. 일부 실시 예에서, 관련 기간은 1분 이상까지 연장되는 지속 기간을 갖는다.
또한, 일부 실시 예에서, 소리 식별 시스템(200)과 별도의 적어도 하나의 컴퓨팅 디바이스는 단계(301)에서 소리 식별 시스템(200)이 소리 이벤트의 디지털 레코딩을 발생시키는 것에 더하여 그리고/또는 그 대신, 사용자(101)의 오디오 환경의 일부 또는 전부를 레코딩한다. 예를 들어, 소리 식별 시스템(200)과 별도이나 대상 식별 서브 시스템(130)이 접근 가능한 적어도 하나의 컴퓨팅 디바이스로부터의 오디오는 사용자(101)의 오디오 환경의 일부 또는 전부를 레코딩하고 그것의 디지털 레코딩을 저장할 수 있다. 그러한 별도의 컴퓨팅 디바이스들의 예들은 제한 없이, 감시 카메라들, 발사된 탄환의 위치를 찾는 오디오 시스템들, 자동차의 계기판 카메라들, 스마트 스피커들, 스마트 텔레비전 세트들, 스마트 가전 기기들, IPA 디바이스들 등을 포함한다. 그러한 실시 예들에서, 단계(301)에서 소리 이벤트의 그러한 추가 소리 레코딩들은 그러한 소리 이벤트와 연관된 적어도 하나의 소리를 내는 대상(102)의 프로세스를 가능하게 하기 위해 이용될 수 있다.
단계(302)에서, 소리 식별 시스템(200)이 소리를 내는 대상의 정체성에 대한 사용자 요청을 나타내는 입력, 예를 들어 질의(105)를 수신한다. 일부 실시 예에서, 입력은 제한 없이, 터치 기반 기구로의 물리적 입력, 이를테면 사용자(101)가 버튼을 누르는 것, 스위치가 작동되는 것 또는 터치 민감 스크린 상에서 제스처가 이루어지는 것(예를 들어, 탭, 스와이프, 더블-탭 등)을 포함할 수 있다. 대안적으로, 또는 추가적으로, 일부 실시 예에서, 입력은 제한 없이, 마이크, 이를테면 마이크(103) 또는 소리 식별 시스템(200)과 연관되거나 그에 포함된 몇몇 기타 마이크로부터의 음성 입력을 포함할 수 있다. 그러한 실시 예들, 입력은 사용자(101)가 말하는 키워드 또는 키 문구, 이를테면 "저것은 무엇이었어?"일 수 있다. 대안적으로 또는 추가적으로, 기타 임의의 음성 발언 또는 소리를 사용자(101)가 음성 입력으로 이용할 수 있다. 대안적으로 또는 추가적으로, 일부 실시 예에서, 입력은 제한 없이, 사용자 제스처, 이를테면 얼굴 제스처(예를 들어, 윙크, 깜빡임 등), 손 제스처, 머리 제스처(예를 들어, 끄덕임 또는 흔듬) 등을 포함할 수 있다. 대안적으로, 또는 추가적으로, 일부 실시 예에서, 입력은 제한 없이, 다른 추가 센서(203)로부터의 추가 정보(204), 이를테면 사용자(101)의 갑작스런 표현 변화, 사용자(101)의 심박수 변화 등을 포함할 수 있다.
대안적으로 또는 추가적으로, 일부 실시 예에서, 입력은 제한 없이, 소리 이벤트의 특정된 카테고리의 감지를 포함할 수 있다. 그에 따라, 그러한 실시 예들에서, 소리 식별 시스템(200)은 사용자(101)로부터의 명시적인 상호 작용 없이 사용자(101)를 위해 소리를 내는 대상(102)을 식별할 수 있다. 예를 들어, 소리 이벤트의 카테고리는 소리 이벤트의 발생 이전에 이루어진 사용자 선택 설정을 통해 사용자(101)에 의해 특정될 수 있다. 그러한실시 예들에서, 사용자는 특정 기준을 충족시키는 특정 소리 이벤트가 단계(301)에서 레코딩될 때, 단계(302)에서 그 다음 소리 식별 시스템(200)이 그러한 소리 이벤트를 소리를 내는 대상의 정체성에 대한 사용자 요청을 나타내는 입력으로 해석하도록 하는 모드를 선택하거나 다른 방법으로 소리 식별 시스템(200)을 프로그래밍할 수 있다. 그에 따라, 특정 소리 이벤트가 특정 기준을 충족하는 것에 응답하여, 소리 식별 시스템(200)은 그 후 단계(304)와 함께 후술될 바와 같이, 특정 소리 이벤트에 포함되는 소리를 발생시키는 적어도 하나의 소리를 내는 대상의 정체성을 결정한다. 예를 들어, 그러한 기준은 특정 소리 이벤트가 특정된 소리 출력 레벨을 초과한다, 사용자(101)에 관해 특정된 방향에서 발생되는 소리를 포함한다, 사용자(101) 이외의 누군가에 의해 발언되는 키워드 또는 키 문구(예를 들어, 사용자의 이름)를 포함한다 그리고/또는 소리의 특정된 카테고리를 포함한다는 결정을 포함할 수 있다. 그러한 실시 예들에서, 소리 식별 시스템(200)은 특정 상황들 하에서, 사용자(101)가 명확하게 "저것이 무엇이었어?"라고 묻지 않고 적어도 하나의 소리를 내는 대상(102)을 사전에 식별할 수 있다. 예를 들어, 시끄러운 소리 이후, 차량에 설치된 소리 식별 시스템(200)은 "당신이 궁금할 경우, 방금 들었던 시끄러운 소리는 당신이 트럭에서 떨어뜨려야 했을 카펫 피스를 몰고 온 것이었습니다."라고 말할 수 있다.
단계(303)에서, 소리 식별 시스템(200)이 사용자(101)의 청감 환경에서 이전에 발생한 소리 이벤트의 디지털 레코딩을 검색한다. 일부 실시 예에서, 조정 엔진(230)은 오디오 저장소(120)에 저장된 오디오 데이터(104)의 적어도 일 부분에 대한 요청(107)을 송신함으로써 디지털 레코딩을 검색하고, 기타 실시 예들에서, 조정 엔진(230)은 요청(107)을 송신함으로써 대상 식별 서브 시스템(130)이 오디오 저장소(120)에서 소리 이벤트의 디지털 레코딩, 즉 오디오 데이터(104)를 검색하게 한다. 통상적으로, 오디오 저장소(120)에서 검색되는 오디오 데이터(104)는 사용자(101)의 오디오 환경의 수 초 또는 분 직전의 디지털 레코딩을 포함한다. 대안적으로 또는 추가적으로, 일부 실시 예에서, 조정 엔진(230)은 대상 식별 서브 시스템(130)이 소리 식별 시스템(200)과 별도의 적어도 하나의 컴퓨팅 디바이스에서 소리 이벤트의 적어도 하나의 디지털 레코딩을 검색하게 한다. 소리 이벤트의 그러한 디지털 레코딩들은 오디오 저장소(120)로부터의 오디오 데이터(104) 대신 또는 그에 더하여 사용될 수 있다.
단계(304)에서, 대상 식별 서브 시스템(130)이 단계(303)에서 검색된 소리 이벤트의 디지털 레코딩(들)에 기초하여, 소리를 내는 대상(102)의 적어도 하나의 정체성을 결정한다. 대안적으로 또는 추가적으로, 일부 실시 예에서, 객체 식별 서브 시스템(130)은 또한 소리를 내는 대상(102)에 대해 결정되는 각 정체성에 대한 신뢰도를 결정한다. 대안적으로 또는 추가적으로, 일부 실시 예에서, 객체 식별 서브 시스템(130)은 또한 단계(304)에서 결정된 소리를 내는 대상(102)의 정체성과 관련된 추가 정보를 결정하고/거나 검색한다.
일부 실시 예에서, 대상 식별 서브 시스템(130)은 적어도 하나의 추가 센서(203)로부터의 정보에 기초하여 소리를 내는 대상(102)의 적어도 하나의 정체성을 결정한다. 예를 들어, 사용자(101) 주변 환경의 적어도 하나의 이미지가 소리를 내는 대상(203)의 정체성을 결정하는 것을 돕기 위해 이용될 수 있다. 일부 실시 예에서, 하나의 추가 센서(203)로부터의 그러한 이미지들은 사용자(101)가 소리를 내는 대상(102)의 정체성을 요청하면서 향하고 있는 방향을 나타내는 다른 추가 센서(203), 이를테면 사용자(101)의 시선 방향 및/또는 사용자(101)가 제스처를 하고 있는 현재 방향을 결정하는 것을 가능하게 하는 카메라로부터의 추가 정보(204)와 함께 사용될 수 있다.
단계(305)에서, 소리 식별 시스템(200)이 검색 결과들(106)을 통해 사용자(101)에게 소리를 내는 대상(102)의 적어도 하나의 정체성을 제공한다. 일부 실시 예에서, 조정 엔진(230)은 사용자 인터페이스(140)를 통해 사용자(101)에게 검색 결과들(106)을 송신하고, 기타 실시 예들에서는, 대상 식별 서브 시스템(130)이 사용자 인터페이스(140)를 통해 사용자(101)에게 검색 결과들(106)을 송신한다. 사용자 인터페이스(140)는 사용자(101)에게 임의의 적합한 제시 모드를 통해 검색 결과들을 제공한다. 예를 들어, 소리 식별 시스템(200)의 사용자가 선택한 설정이 검색 결과들(106)의 바람직한 제시 모드가 소리 식별 시스템(200)이 포함되는 헤드 장착 오디오 디바이스의 라우드 스피커를 통한 청각이라는 것을 나타낼 수 있다. 대안적으로 또는 추가적으로, 소리 식별 시스템(200)의 사용자가 선택한 설정은 검색 결과들(106)에 대한 바람직한 제시 모드가 예를 들어 헤드 장착 디스플레이 디바이스, 공공 디스플레이 디바이스, 사용자(101)와 연관된 스마트폰의 디스플레이 디바이스 등을 통한 시각이라는 것을 나타낼 수 있다.
일부 실시 예에서, 소리 식별 시스템(200)은 소리를 내는 대상(102)을 식별하기 전 문제의 소리의 재생을 포함하도록 구성된다. 예를 들어, 하나의 그러한 실시 예에서, 사용자(101)가 "저것이 무엇이었어?"라고 물을 경우, 소리 식별 시스템(200)은 먼저 "당신이 이것을 의미한 것입니까?"라고 응답한다. 그 다음 소리 식별 시스템(200)은 최근 레코딩된 유리 깨지를 소리를 재생하고 또한 "그것은 바텐더가 방금 유리를 떨어뜨린 것이었습니다"라고 나타낸다.
일부 실시 예에서, 대상 식별 시스템(130)은 소리를 내는 대상(102)의 정체성을 결정하기 위한 다수의 알고리즘, 애플리케이션 또는 모듈을 포함한다. 하나의 그러한 실시 예가 도 4에 도시되어 있다. 도 4는 본 발명의 다양한 실시 예에 따른, 다수의 알고리즘 대상 식별 서브 시스템(400)을 개략적으로 도시하는 블록도이다. 다수의 알고리즘 대상 식별 서브 시스템(400)은 도 1 및 도 2의 대상 식별 서브 시스템(130)에 대해 상술한 조정 엔진(230), 오디오 저장소(120) 및 사용자 인터페이스(140)와 상호 작용하도록 구성된다. 또한, 다수의 알고리즘 대상 식별 서브 시스템(400)은 제한 없이, 오디오 데이터 검색 애플리케이션(410), 소리 카테고리화 애플리케이션(420), 다양한 소리 식별 애플리케이션 및 신뢰도 비교기 애플리케이션(450) 중 적어도 하나를 포함한다. 도 4에 도시된 실시 예에서, 다양한 소리 식별 애플리케이션은 제한 없이, 오디오 대상 식별 애플리케이션(431), 음악 트랙 식별 애플리케이션(432), 음악 장르 식별 애플리케이션(433), 언어 처리 애플리케이션(434), 의미 분석 애플리케이션(435), 적어도 하나의 기타 오디오 식별 애플리케이션(436) 및/또는 적어도 하나의 애플리케이션 특정 대상 식별 애플리케이션(437)을 포함한다. 다수의 알고리즘 대상 식별 서브 시스템(400)이 사용자(101)에게 소리를 내는 대상(102)에 대해 결정된 정체성과 관련된 추가 상황 정보를 제공하도록 구성되는 실시 예들에서, 다수의 알고리즘 대상 식별 서브 시스템(400)은 임의적 상황 분석 애플리케이션(440)을 더 포함한다.
오디오 데이터 검색 애플리케이션(410)은 예를 들어 조정 엔진(230)으로부터의 명령에 응답하여, 오디오 저장소(120)에서 적절한 오디오 데이터(104)를 검색하도록 구성된다. 일부 실시 예에서, 오디오 데이터 검색 애플리케이션(410)은 오디오 저장소(120)에 저장된 모든 오디오 데이터(104)를 검색한다. 일부 실시 예에서, 다수의 알고리즘 대상 식별 서브 시스템(400)은 소리를 내는 대상(102)의 정체성이 신뢰도 기준을 충족하는 것으로 결정될 때까지 오디오 데이터(104)의 점점 더 긴 샘플들을 사용하도록 구성된다. 그러한 실시 예들에서, 다수의 알고리즘 대상 식별 서브 시스템(400)은 오디오 저장소(120)에서 오디오 데이터(104)의 초기 부분을 검색한 다음, 소리를 내는 대상(102)의 정체성이 특정된 신뢰도 임계를 충족하거나 초과한다고 결정되지 않을 때 오디오 저장소(120)에서 오디오 데이터(104)의 추가 부분들을 검색하도록 구성된다.
소리 카테고리화 애플리케이션(420)은 다수의 알고리즘 대상 식별 서브 시스템(400)에 포함되는 초기 소팅 모듈 또는 애플리케이션이다. 그에 따라, 다수의 알고리즘 대상 식별 서브 시스템(400)은 오디오 데이터(104)의 적어도 일 부분을 발생시켰을 가능성이 있는 소리를 내는 대상들 또는 소리들의 적어도 하나의 카테고리를 결정한다. 그에 따라, 일반적으로, 소리 카테고리화 애플리케이션(420)은 오디오 저장소(120)에서 검색된 오디오 데이터(104)가 그 후 오디오 대상 식별 애플리케이션(431), 음악 트랙 식별 애플리케이션(432), 음악 장르 식별 애플리케이션(433), 언어 처리 애플리케이션(434), 오디오 식별 애플리케이션(들)(436) 또는 애플리케이션 특정 대상 식별 애플리케이션(들)(437) 중 적어도 하나에 의해 처리되는지 여부를 결정한다. 예를 들어, 일부 실시 예에서, 소리 카테고리화 애플리케이션(420)은 오디오 데이터(104)의 적어도 일 부분이 음악 또는 특정 노래 또는 음악 장르를 포함하는지, 사람의 언어를 포함하는지 그리고/또는 알려져 있는 오디오 대상에 의해 발생되었던 소리를 포함하는지 여부를 결정한다. 일부 실시 예에서, 소리 카테고리화 애플리케이션(420)은 또한 오디오 데이터(104)의 적어도 일 부분이 특정 환경 또는 상황에서 알려져 있는 소리를 내는 대상에 의해 발생되었었는지 여부, 또는 애플리케이션 특정 대상 식별 애플리케이션(들)(437)이 사용자(101)에 의해 이용되도록 선택되었는지 여부를 결정한다.
오디오 대상 식별 애플리케이션(431)은 소리를 내는 대상(102)에 대한 정체성을 밝히기 위해 오디오 데이터(104)를 알려져 있는 소리를 내는 대상들에 의해 발생되는 소리들과 비교한다. 음악 트랙 식별 애플리케이션(432)은 소리를 내는 대상(102)에 대한 정체성을 밝히기 위해 오디오 데이터(104)를 알려져 있는 음악들 또는 기타 악곡들과 비교한다. 음악 장르 식별 애플리케이션(433)은 오디오 데이터(104)가 알려져 있는 장르의 음악을 포함하는지 여부를 결정하고, 언어 처리 애플리케이션(434)은 오디오 데이터(104)를 알려져 있는 언어들과 비교 및 매칭한다. 의미 분석 애플리케이션(435)은 언어 처리 애플리케이션(434)에 의해 오디오 데이터(104)에서 식별된 언어 단편들의 의미 분석을 수행한다. 기타 오디오 식별 애플리케이션(들)(436)은 소리 식별 알고리즘들의 기타 임의의 기술적으로 실행 가능한 카테고리들을 포함할 수 있다. 애플리케이션 특정 대상 식별 애플리케이션(들)(437)은 이를테면 집에서, 캠핑 시, 운전 시, 공항에서, 공장에서, 도시 환경 등에서, 사용자(101)가 노출될 수 있는 특정 환경 또는 상황에 대해 개발되었던 소리 식별 알고리즘들을 포함할 수 있다.
일부 실시 예에서, 각각의 상술한 소리 식별 애플리케이션들은 별도의 컴퓨팅 디바이스 상에서 또는 다수의 클라우드-기반 컴퓨팅 디바이스들에서 실행된다. 대안적으로 또는 추가적으로, 일부 실시 예에서, 상술한 소리 식별 애플리케이션들 중 적어도 하나는 로컬로, 이를테면 조정 엔진(230)과 연관된 동일한 컴퓨팅 디바이스에 의해 실행된다. 예를 들어, 하나의 그러한 실시 예에서, 사용자 특정 소리 식별 애플리케이션들, 이를테면 애플리케이션 특정 대상 식별 애플리케이션들(437)은 사용자(101)와 연관된 웨어러블 컴퓨팅 디바이스 상에 로딩될 수 있는 한편, 기타 더 일반적인 소리 식별 애플리케이션들, 이를테면 언어 처리 애플리케이션(434)은 원격에 구현된다.
일부 실시 예에서, 상술한 소리 식별 애플리케이션들은 또한 소리를 내는 대상(102)에 대해 결정된 각 정체성에 대한 신뢰도를 생성한다. 그러한 실시 예들에서, 신뢰도 비교기 애플리케이션(450)은 만약에 있다면, 상술한 소리 식별 애플리케이션들에 의해 밝혀진 정체성들 중 어느 정체성이 특정된 신뢰도를 충족 또는 초과하는지를 결정하도록 구성된다. 그 다음 신뢰도 비교기 애플리케이션(450)은 검색 결과들(106)에 가장 높은 관련 신뢰도를 갖는 소리를 내는 대상(102)의 정체성들 중 적어도 하나를 포함시킨다.
일부 실시 예에서, 상황 분석 애플리케이션(440)은 오디오 데이터(104)의 일 부분에서 검출되는 적어도 하나의 소리를 내는 대상(102)에 대해 밝혀진 각 정체성과 관련된 상황 또는 기타 추가 정보를 검색 그리고/또는 다른 방법으로 발생시키도록 구성된다.
일부 실시 예에서, 다수의 알고리즘 대상 식별 서브 시스템(400)은 오디오 데이터의 초기 부분에 기초하여, 그와 연관된 신뢰도를 갖는 소리를 내는 대상(102)의 정체성을 결정하도록 구성된다. 정체성과 연관된 신뢰도가 특정된 신뢰도 기준, 이를테면 특정된 임계값을 충족 또는 초과하지 못할 때, 다수의 알고리즘 대상 식별 서브 시스템(400)은 오디오 데이터(104)의 더 긴 부분을 검색하고, 오디오 데이터(104)의 더 긴 부분의 분석에 기초하여, 다시 소리를 내는 대상(102)의 정체성을 특정된 신뢰도 기준을 충족 또는 초과하는 그와 연관된 신뢰도로 결정하려고 시도한다. 하나의 그러한 실시 예가 도 5와 함께 후술된다.
도 5는 본 발명의 다양한 실시 예에 따른, 소리를 내는 대상을 고 신뢰도로 식별하기 위한 방법 단계들의 흐름도를 제시한다. 방법 단계들이 도 1, 도 2 및 도 4의 시스템들과 함께 설명되지만, 해당 기술분야의 기술자들은 방법 단계들을 임의의 순서로, 수행하도록 구성된 임의의 시스템이 다양한 실시예의 범위 내에 들어간다는 것을 이해할 것이다.
도시된 바와 같이, 방법(500)은 오디오 데이터 검색 애플리케이션(410)이 오디오 저장소(120)에서 오디오 데이터(104)의 일 부분을 검색하는 임의적 단계(501)로 시작된다. 예를 들어, 일부 실시 예에서, 오디오 데이터 검색 애플리케이션(410)은 조정 엔진(230)으로부터의 명령에 응답하여 오디오 데이터(104)의 상기 부분을 검색한다. 단계(501)에서, 오디오 저장소(120)에서 검색되는 오디오 데이터(104)의 상기 부분은 최근 레코딩된 오디오 데이터(104)에 대응한다.
단계(502)에서, 소리 카테고리화 애플리케이션(420)이 오디오 데이터(104)의 상기 부분을 분석하고, 어느 소리 식별 애플리케이션들이 오디오 데이터(104)에서 적어도 하나의 소리를 내는 대상(102)을 식별하는 데 관련이 있을 가능성이 있는지 결정한다. 그에 따라, 단계(502)에서, 소리 카테고리화 애플리케이션(420)은 오디오 데이터(104)가 오디오 대상 식별 애플리케이션(431), 음악 트랙 식별 애플리케이션(432), 음악 장르 식별 애플리케이션(433), 언어 처리 애플리케이션(434), 오디오 식별 애플리케이션(들)(436) 또는 애플리케이션 특정 대상 식별 애플리케이션(들)(437) 중 적어도 하나에 의해 처리되어야 하는지 여부를 결정한다.
단계(503)에서, 다수의 알고리즘 대상 식별 서브 시스템(400)이 단계(502)에서 결정된 관련 소리 식별 애플리케이션들 중 하나를 선택한다.
단계(504)에서, 단계(503)에서 선택된 관련 소리 식별 애플리케이션이 오디오 데이터(104)를 분석하여 소리를 내는 대상들(102)의 적어도 하나의 정체성 또는 기타 특성을 결정한다. 또한, 관련 소리 식별 애플리케이션은 단계(504)에서 결정된 각 정체성 또는 특성에 대해, 또한 오디오 데이터(104)가 이전에 분류된 오디오 트랙(221)과 얼마나 밀접하게 매칭되는지를 나타내는 값, 또는 결정된 정체성이 소리를 내는 대상(102)의 실제 정체성과 매칭되는지 추정되는 가능성 백분율과 같은 신뢰도를 생성한다.
단계(505)에서, 신뢰도 비교기 애플리케이션(450)이 단계(504)에서 결정된 임의의 정체성 또는 특성의 신뢰도가 특정된 신뢰도 임계를 초과하는지 여부를 결정한다. 그러할 경우, 방법(500)은 단계(510)로 진행하고; 그렇지 않을 경우, 방법(500)은 단계(506)로 진행한다.
단계(506)에서, 오디오 데이터 검색 애플리케이션(410)은 오디오 저장소(120)에서 오디오 데이터(104)의 추가 부분을 검색한다. 더 구체적으로, 단계(506)에서, 오디오 데이터 검색 애플리케이션(410)은 단계(501)에서 검색된 오디오 데이터(104)의 제1 부분과 연관된 시간 간격보다 더 이른 시간 간격에 대응하는 오디오 데이터(104)의 추가 부분을 검색한다. 일부 실시 예에서, 오디오 데이터(104)의 추가 부분과 연관된 더 이른 시간 간격은 오디오 데이터(104)의 제1 부분(및 기타 임의의 검색된 부분들)과 연관된 시간 간격과 연접한다. 즉, 그러한 실시 예들에서, 오디오 데이터(104)의 추가 부분은 오디오 데이터(104)의 이전에 검색된 부분들에 대응하는 시간 간격 직전의 시간 간격에 대응한다. 그 다음 방법(500)은 이제 더 긴 시간 간격의 오디오 데이터(104)의 추가 분석을 위해 현재 선택된 관련 소리 식별 애플리케이션에 의해 분석하기 위한 단계(504)로 되돌아간다. 대안적으로, 일부 실시 예에서, 방법(500)은 단계(502)로 되돌아가, 소리 카테고리화 애플리케이션(420)이 이제 더 긴 부분의 오디오 데이터(104)를 분석하여 어느 소리 식별 애플리케이션들이 적어도 하나의 소리를 내는 대상(102)을 식별하는 데 관련이 있을 가능성이 있는지 결정하게 된다.
소리를 내는 대상들(102)에 대한 적어도 하나의 정체성 또는 특성이 그와 연관된 충분한 신뢰도를 갖는 것에 응답하여 수행되는 단계(510)에서, 다수의 알고리즘 대상 식별 서브 시스템(400)은 검색 결과들(106)을 충분한 신뢰도를 갖는 적어도 하나의 정체성 또는 특성을 포함하도록 업데이트한다.
단계(511)에서, 다수의 알고리즘 대상 식별 서브 시스템(400)은 오디오 데이터(104)의 분석을 수행하기 위한 나머지 관련 소리 식별 애플리케이션이 있는지 여부를 결정한다. 그러한 경우, 방법(500)은 단계(503)로 되돌아가고, 다른 관련 소리 식별 애플리케이션이 선택된다; 그렇지 않을 경우, 방법은 임의적 단계(512)로 또는 단계(513)로 진행한다.
임의적 단계(512)에서, 상황 분석 애플리케이션(440)은 검색 결과들(106)에 포함되는 적어도 하나의 정체성 또는 특성 간 상호 작용들과 연관될 가능성 및 기타 연관성들이 있는 추가 상황 정보를 결정 및/또는 검색한다. 추가적으로 또는 대안적으로, 일부 실시 예에서, 상황 분석 애플리케이션(440)은 또한 검색 결과들(106)에 포함되는 소리를 내는 대상(들)(102)에 대한 정체성들 중 적어도 하나와 관련된 추가 정보를 검색 또는 다른 방법으로 수집한다. 그러한 실시 예들에서, 상황 분석 애플리케이션(440)은 추가 상황 정보 및 정체성들 중 적어도 하나와 관련된 추가 정보를 검색 결과들(106)에 포함시킨다.
단계(513)에서, 신뢰도 비교기 애플리케이션(450)은 검색 결과들(106)을 사용자 인터페이스(140)로 송신한다. 그에 따라, 신뢰도 비교기 애플리케이션(450)은 소리를 내는 대상(들)(102)의 적어도 하나의 정체성 또는 기타 특성에 대응하는 정보가 적어도 하나의 출력 디바이스를 통해 출력되게 한다.
방법(500)에서, 초기에는 오디오 데이터(104)의 전부가 아니라, 오디오 데이터(104)의 더 작은 부분에 관해 송신 및 분석이 수행된다. 결정된 정체성 또는 정체성들 또는 특성들이 그와 연관된 비교적 낮은 신뢰도를 가질 경우, 오디오 데이터의 점점 더 긴 부분들의 송신 및 분석이 수행된다. 그에 따라, 방법(500)의 구현은 전산 자원들 및 무선 대역폭이 효율적으로 사용될 수 있게 하는데, 이는 오디오 데이터(104)의 더 작은 부분이 더 쉽게 송신 및 분석되기 때문이다.
후술될 실시 예에서, 다수의 알고리즘 대상 식별 서브 시스템(400)의 각각의 관련 소리 식별 애플리케이션은 오디오 데이터(104)의 일 부분에 관한 분석을 순차적으로 수행한다. 기타 실시 예들에서는, 특히 다수의 알고리즘 대상 식별 서브 시스템(400)의 일부 또는 전부가 클라우드-기반 또는 기타 분산 컴퓨팅 시스템에서 구현될 때, 다수의 알고리즘 대상 식별 서브 시스템(400)의 소리 식별 애플리케이션의 둘 이상이 그러한 분석을 병렬적으로 수행할 수 있다.
본 발명의 다양한 실시 예는 단일 컴퓨팅 디바이스 또는 다수의 컴퓨팅 디바이스를 통해 구현될 수 있다. 예를 들어, 조정 엔진(230), 마이크(103), 오디오 저장소(120) 및 사용자 인터페이스(140)의 기능은 사용자(101)와 연관된 웨어러블 디바이스, 스마트폰 또는 기타 모바일 컴퓨팅 디바이스에 구현될 수 있는 한편, 대상 식별 시스템(130)의 기능의 일부 또는 전부는 클라우드-기반 컴퓨팅 디바이스 또는 분산 컴퓨팅 시스템에 포함되는 컴퓨팅 디바이스에 구현될 수 있다. 모바일 컴퓨팅 디바이스 및/또는 클라우드-기반 컴퓨팅 디바이스로 사용하기에 적합한 컴퓨팅 디바이스의 일 실시 예는 도 6과 함께 후술된다.
도 6은 다양한 실시 예에 따른, 컴퓨팅 디바이스(600)의 더 상세한 도해이다. 컴퓨팅 디바이스(600)는 본원에 설명되는 본 발명의 적어도 하나의 양태를 구현하도록 구성된다. 컴퓨팅 디바이스(600)는 제한 없이, 오디오 저장소(120), 대상 식별 서브 시스템(130), 소리 식별 애플리케이션(들)(601), 조정 엔진(230), 오디오 데이터베이스(220), 소리 카테고리화 애플리케이션(420), 상황 분석 애플리케이션(440) 및/또는 신뢰도 비교기 애플리케이션(450)과 연관된 명령들을 포함하는 애플리케이션 프로그램들을 실행할 수 있는 임의의 유형의 디바이스일 수 있다. 예를 들어, 그리고 제한 없이, 컴퓨팅 디바이스(600)는 전자 태블릿, 스마트폰, 랩탑 컴퓨터 등일 수 있다. 대안적으로, 컴퓨팅 디바이스(600)는 마이크로 프로세서와 같은 독립형 칩으로, 또는 애플리케이션-특정 집적 회로(ASIC), 시스템-온-칩(SoC) 등으로 구현되는 더 종합적인 솔루션의 부분으로 구현될 수 있다. 일반적으로, 컴퓨팅 디바이스(600)는 소리 식별 시스템(100) 또는 소리 식별 시스템(200)과 같은 컴퓨터-기반 시스템의 전체 동작을 조정하도록 구성될 수 있다. 기타 실시 예들에서, 컴퓨팅 디바이스(600)는 그러한 컴퓨터-기반 시스템과 별도이나, 그에 연결될 수 있다. 그러한 실시 예들에서, 컴퓨터-기반 시스템은 컴퓨팅 디바이스(600)로 오디오 데이터(104)와 같은 데이터를 송신하는 별도의 프로세서를 포함할 수 있고, 개인용 컴퓨터, 스마트폰 또는 헤드폰-기반 디바이스와 같은 소비자 전자 디바이스에 포함될 수 있다. 도시된 바와 같이, 컴퓨팅 디바이스(600)는 제한 없이, 프로세서(610), 입력/출력(I/O) 디바이스들(620) 및 메모리(630)를 포함한다.
프로세서 (610)는 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU), 애플리케이션-특정 집적 회로(ASIC), 필드 프로그램 가능한 게이트 어레이(FPGA), 기타 임의의 유형의 처리 장치 또는 상이한 처리 장치들의 조합으로 구현될 수 있다. 일반적으로, 프로세서(610)는 본원에 설명된 바와 같은, 도 1의 소리 식별 시스템(100) 또는 도 2의 소리 식별 시스템(200)의 동작을 가능하게 하도록 데이터를 처리하고/하거나 소프트웨어 애플리케이션들을 실행할 수 있는 임의의 기술적으로 실행 가능한 하드웨어 장치일 수 있다. 다른 것들 중에서도, 그리고 제한 없이, 프로세서(610)는 오디오 저장소(120), 대상 식별 서브 시스템(130), 소리 식별 애플리케이션들(601), 조정 엔진(230), 오디오 데이터베이스(220), 소리 카테고리화 애플리케이션(420), 상황 분석 애플리케이션(440) 및/또는 신뢰도 비교기 애플리케이션(450)과 연관된 명령들을 실행하도록 구성될 수 있다.
메모리 (630)는 랜덤 액세스 메모리(RAM, random access memory) 모듈, 플래시 메모리 장치 또는 기타 임의의 유형의 메모리 장치 또는 이들의 조합을 포함할 수 있고, 단일 메모리 모듈 또는 메모리 모듈들의 집합을 포함할 수 있다. 도시된 바와 같이, 일부 실시 예에서, 오디오 저장소(120), 대상 식별 서브 시스템(130), 소리 식별 애플리케이션들(601), 조정 엔진(230), 오디오 데이터베이스(220), 소리 카테고리화 애플리케이션(420), 상황 분석 애플리케이션(440) 및/또는 신뢰도 비교기 애플리케이션(450)의 일부 또는 전부는 동작 동안 메모리(630)에 상주할 수 있다.
I/O 디바이스들(620)은 키보드, 마우스, 터치 감지 스크린, 마이크(마이크(103)와 같은) 등과 같은 입력을 수신할 수 있는 적어도 하나의 디바이스, 뿐만 아니라 디스플레이 스크린, 라우드 스피커들(헤드폰-기반 시스템과 연관된 라우드 스피커를 포함) 등과 같은 출력을 제공할 수 있는 디바이스들 양자를 포함한다. 컴퓨터 모니터, 비디오 디스플레이 스크린, 별도의 핸드 헬드 디바이스에 통합된 디스플레이 장치 또는 기타 임의의 기술적으로 실현 가능한 디스플레이 스크린과 같은 디스플레이 스크린은 소리 식별 시스템(100)에 통합될 수 있거나 또는 소리 식별 시스템(100) 외부에 있을 수 있다.
요컨대, 다양한 실시 예는 소리를 내는 대상을 소급하여 식별하기 위한 시스템들 및 기술들을 제시한다. 이전에 레코딩된 소리 이벤트가 소리를 내는 대상의 정체성에 대한 사용자 요청을 나타내는 입력에 응답하여, 소리를 내는 대상의 정체성을 결정하기 위해 분석된다. 예를 들어, 이전에 레코딩된 소리 이벤트는 소리 데이터베이스로부터의 카테고리화된 소리들과 비교된다. 그 다음 소리를 내는 대상의 정체성이 사용자에게 제공된다.
개시된 실시 예들의 적어도 하나의 기술적 개선점은 소리를 내는 대상이 더 이상 존재하지 않거나 사용자 근방에서 소리를 내지 않더라도 정체성이 결정될 수 있고/있거나 그 대상의 적어도 하나의 특성이 식별될 수 있다는 점이다. 따라서, 단기 소리 이벤트들과 연관된 소리를 내는 대상들은 동물학(예를 들어, 동물 식별), 군사(예를 들어, 위협 식별), 기술(예를 들어, 기계 유지 보수 및/또는 고장 처리), 의료(예를 들어, 청각 장애인 보조) 등을 비롯한 많은 전후 사정 및 상황에서 식별될 수 있다.
1. 일부 실시 예에서, 소리를 내는 대상의 적어도 하나의 특성을 식별하기 위한 방법으로서, 메모리에, 적어도 하나의 마이크를 통해 청감 환경에서 얻어지는 오디오 데이터를 저장하는 단계; 상기 청감 환경에 포함되는 소리를 내는 대상의 특성을 식별하려는 사용자 요청을 나타내는 입력을 수신하는 단계; 프로세서를 통해 그리고 상기 사용자 요청 전 상기 청감 환경에서 얻어지는 상기 오디오 데이터의 일 부분에 기초하여, 상기 소리를 내는 대상의 상기 특성을 결정하는 단계; 및 상기 소리를 내는 대상의 상기 특성에 대응하는 정보가 적어도 하나의 출력 디바이스를 통해 출력되게 하는 단계를 포함하는, 방법.
2. 조항 1에 있어서, 상기 메모리에서, 임계 지속 시간보다 오래된 상기 청감 환경에서 얻어진 오디오 데이터를 폐기하는 단계를 더 포함하는, 방법.
3. 조항 1 또는 2에 있어서, 상기 메모리는 원형 버퍼를 포함하는, 방법.
4. 조항 1 내지 3 중 어느 한 항에 있어서, 상기 메모리에, 상기 청감 환경에서 얻어지는 오디오 데이터를 저장하는 단계는 상기 원형 버퍼의 제1 부분에 상기 오디오 데이터의 제1 부분을 그리고 상기 원형 버퍼의 제2 부분에 상기 오디오 데이터의 제2 부분을 저장하는 단계를 포함하는, 방법.
5. 조항 1 내지 4 중 어느 한 항에 있어서, 상기 소리를 내는 대상의 상기 특성을 결정하는 단계는 상기 오디오 데이터의 상기 제1 부분에 기초하여 상기 소리를 내는 대상의 제1 정체성을 결정하는 단계를 포함하는, 방법.
6. 조항 1 내지 5 중 어느 한 항에 있어서, 상기 소리를 내는 대상의 상기 특성을 결정하는 단계는: 상기 소리를 내는 대상의 상기 제1 정체성이 그와 연관된 임계 신뢰값 미만의 신뢰도를 갖는다는 것을 결정하는 단계; 및 상기 오디오 데이터의 상기 제1 부분 및 상기 오디오 데이터의 상기 제2 부분에 기초하여 상기 소리를 내는 대상의 제2 정체성을 결정하는 단계를 더 포함하는, 방법.
7. 조항 1 내지 6 중 어느 한 항에 있어서, 상기 오디오 데이터의 상기 제1 부분은 상기 오디오 데이터의 상기 제2 부분에 대응하는 제2 시간 간격보다 상기 사용자 요청을 나타내는 상기 입력을 수신한 것에 더 가깝게 발생하는 제1 시간 간격에 대응하는, 방법.
8. 조항 1 내지 7 중 어느 한 항에 있어서, 상기 사용자 요청을 나타내는 상기 입력은 터치 기반 기구로의 물리적 입력, 음성 입력, 사용자 제스처 및 추가 센서로부터의 추가 정보 중 하나를 포함하는, 방법.
9. 조항 1 내지 8 중 어느 한 항에 있어서, 상기 음성 입력은 키워드 또는 키 구문을 포함하는, 방법.
10. 조항 1 내지 9 중 어느 한 항에 있어서, 상기 입력을 수신하는 컴퓨팅 디바이스와 별도의 컴퓨팅 디바이스에서 상기 오디오 데이터를 검색하는 단계를 더 포함하는, 방법.
11. 조항 1 내지 10 중 어느 한 항에 있어서, 상기 입력을 수신하는 컴퓨팅 디바이스에 포함된 메모리에서 상기 오디오 데이터를 검색하는 단계를 더 포함하는, 방법.
12. 일부 실시 예에서, 명령들을 포함하는 비일시적 컴퓨터 판독 가능한 저장 매체로서, 상기 명령들은 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서를: 메모리에, 적어도 하나의 마이크를 통해 청감 환경에서 얻어지는 오디오 데이터를 저장하는 단계; 상기 청감 환경에 포함되는 소리를 내는 대상의 특성을 식별하려는 사용자 요청을 나타내는 입력을 수신하는 단계; 프로세서를 통해 그리고 상기 사용자 요청 전 상기 청감 환경에서 얻어지는 상기 오디오 데이터의 일 부분에 기초하여, 상기 소리를 내는 대상의 상기 특성을 결정하는 단계; 및 상기 소리를 내는 대상의 상기 특성에 대응하는 정보가 적어도 하나의 출력 디바이스를 통해 출력되게 하는 단계를 수행함으로써 정보를 검색하도록 구성하는, 비일시적 컴퓨터 판독 가능한 저장 매체.
13. 조항 12에 있어서, 상기 사용자 요청을 나타내는 상기 입력은 터치 기반 기구로의 물리적 입력, 음성 입력, 사용자 제스처 및 추가 센서로부터의 추가 정보 중 하나를 포함하는, 비일시적 컴퓨터 판독 가능한 저장 매체.
14. 조항 12 또는 13에 있어서, 상기 음성 입력은 키워드 또는 키 구문을 포함하는, 비일시적 컴퓨터 판독 가능한 저장 매체.
15. 조항 12 내지 14 중 어느 한 항에 있어서, 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서를 상기 입력을 수신하는 컴퓨팅 디바이스와 별도의 컴퓨팅 디바이스에서 상기 오디오 데이터를 검색하는 단계를 수행하도록 구성하는 명령들을 더 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체의 방법.
16. 조항 12 내지 15 중 어느 한 항에 있어서, 상기 입력을 수신하는 컴퓨팅 디바이스에 포함된 메모리에서 상기 오디오 데이터를 검색하는 단계를 더 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
17. 조항 12 내지 16 중 어느 한 항에 있어서, 상기 메모리에, 상기 청감 환경에서 얻어지는 오디오 데이터를 저장하는 단계는 상기 원형 버퍼의 제1 부분에 상기 오디오 데이터의 제1 부분을 그리고 상기 원형 버퍼의 제2 부분에 상기 오디오 데이터의 제2 부분을 저장하는 단계를 포함하고, 상기 소리를 내는 대상의 상기 특성을 결정하는 단계는 상기 오디오 데이터의 상기 제1 부분에 기초하여 상기 소리를 내는 대상의 제1 정체성을 결정하는 단계를 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
18. 일부 실시 예에서, 시스템으로서, 마이크; 메모리; 및 상기 마이크 및 상기 메모리에 결합되는 프로세서로서: 상기 마이크로부터 사용자의 청감 환경에서 발생한 소리 이벤트의 오디오 데이터를 수신하도록; 상기 메모리에 상기 소리 이벤트의 상기 오디오 데이터를 저장하도록; 상기 오디오 데이터를 수신한 후, 소리를 내는 대상의 정체성에 대한 사용자 요청을 나타내는 입력을 수신하도록; 상기 오디오 데이터의 일 부분에 기초하여, 상기 소리를 내는 대상의 상기 정체성을 결정하도록; 그리고 상기 소리를 내는 대상의 상기 정체성에 대응하는 정보가 적어도 하나의 출력 디바이스를 통해 출력되게 하도록 구성되는, 상기 프로세서를 포함하는, 시스템.
19. 조항 18에 있어서, 상기 메모리는 회전 버퍼를 포함하는, 시스템.
20. 조항 18 또는 19에 있어서, 상기 적어도 하나의 출력 디바이스는 헤드폰 기반 어셈블리에 포함된 라우드 스피커를 포함하는, 시스템.
임의의 청구항들에 나열된 요소들 및/또는 본 출원에 설명된 임의의 요소들 중 어느 하나의 임의의 방식으로의 임의의 그리고 모든 조합이 본 발명의 범위 내에 속하고 보호되는 것으로 고려된다.
다양한 실시 예에 대한 설명은 예시의 목적들로 제시되었고, 완전하다거나 개시된 실시 예들로 제한되는 것으로 의도되지 않는다. 많은 변경 및 변형이 설명된 실시 예들의 범위 및 사상으로부터 벗어나지 않고 해당 기술분야의 통상의 기술자들에게 분명할 것이다.
본 실시 예들의 양태들은 시스템, 방법 또는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 따라서, 본 발명의 양태들은 전적으로 하드웨어 실시예, 전적으로 소프트웨어 실시예(펌웨어, 상주 소프트웨어, 마이크로-코드 등을 포함함) 또는 본원에서 "모듈" 또는 "시스템"으로 총칭될 수 있는 소프트웨어 및 하드웨어 양태들을 조합하는 실시 예의 형태를 취할 수 있다. 또한, 본 발명에서 설명된 임의의 하드웨어 및/또는 소프트웨어 기술, 프로세스, 기능, 구성요소, 엔진, 모듈 또는 시스템은 회로 또는 회로들의 세트로 구현될 수 있다. 뿐만 아니라, 본 발명의 양태들은 컴퓨터 판독 가능한 프로그램 코드가 내장된 적어도 하나의 컴퓨터 판독 가능한 매체에 내장된 컴퓨터 프로그램 제품의 형태를 취할 수 있다.
적어도 하나의 컴퓨터 판독 가능한 매체의 임의의 조합이 이용될 수 있다. 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능한 신호 매체 또는 컴퓨터 판독 가능한 저장 매체일 수 있다. 컴퓨터 판독 가능한 저장 매체는, 예를 들면, 이에 제한되지는 않지만, 전기, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 디바이스, 또는 앞서 말한 것의 임의의 적합한 조합일 수 있다. 컴퓨터 판독 가능한 저장 매체의 보다 구체적인 예들(비완전한 리스트)는 다음: 적어도 하나의 와이어를 갖는 전기 접속부, 휴대용 컴퓨터 디스켓, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능한 프로그램 가능한 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 디바이스, 자기 저장 디바이스, 또는 앞서 말한 것의 임의의 적합한 조합을 포함할 수 있다. 본 문서의 맥락에서, 컴퓨터 판독 가능한 저장 매체는 명령 실행 시스템, 장치 또는 디바이스에 의해 또는 이와 관련하여 사용하기 위한 프로그램을 포함하거나 또는 저장할 수 있는 임의의 유형의 매체일 수 있다.
본 발명의 양태들은 본 발명의 실시 예들에 따른, 방법들, 장치(시스템들) 및 컴퓨터 프로그램 제품들의 흐름도들 및/또는 블록도들을 참조하여 상술되었다. 흐름도들 및/또는 블록도들의 각각의 블록, 및 흐름도들 및/또는 블록도들에서의 블록들의 조합들이 컴퓨터 프로그램 명령들에 의해 구현될 수 있다는 것이 이해될 것이다. 이러한 컴퓨터 프로그램 명령들은 범용 컴퓨터, 전용 컴퓨터, 또는 기계를 양산하기 위한 다른 프로그램가능한 데이터 프로세싱 장치의 프로세서에 제공될 수 있고, 그에 따라 컴퓨터 또는 다른 프로그램가능한 데이터 프로세싱 장치의 프로세서를 통해 실행하는 명령들이 흐름도 및/또는 블록도 블록 또는 블록들에 특정된 기능들/행위들의 구현을 가능하게 하게 된다. 그러한 프로세서들은 제한 없이, 범용 프로세서들, 전용 프로세서들, 애플리케이션-특정 프로세서들, 또는 필드-프로그램가능한 프로세서들 또는 게이트 어레이들일 수 있다.
도면들에서의 흐름도 및 블록도들은 본 발명의 다양한 실시 예에 따른 시스템들, 방법들 및 컴퓨터 프로그램 제품들의 가능한 구현들의 아키텍처, 기능 및 동작을 도시한다. 이러한 점에서, 흐름도 또는 블록도에서의 각각의 블록은 특정된 논리 함수(들)를 구현하기 위한 적어도 하나의 실행 가능한 명령을 포함하는, 코드의 모듈, 세그먼트, 또는 부분을 나타낼 수 있다. 일부 대안적인 구현 예에서, 블록에 언급된 기능들이 도면들에 언급된 순서와 다르게 발생할 수 있다는 것이 또한 주의되어야 한다. 예를 들어, 연속적으로 도시된 두 개의 블록은 사실은, 실질적으로 동시에 실행될 수 있거나, 또는 블록들은 때때로 수반되는 기능에 따라, 반대 순서로 실행될 수 있다. 블록도들 및/또는 흐름도의 각각의 블록, 및 블록도들 및/또는 흐름도에서의 블록들의 조합들이 특정된 기능들 또는 동작들, 또는 또는 전용 하드웨어 및 컴퓨터 명령들의 조합들을 수행하는 전용 하드웨어-기반 시스템들에 의해 구현될 수 있다는 것이 또한 주의될 것이다.
선행하는 내용은 본 발명의 실시 예들에 관한 것이지만, 본 발명의 그 외 다른 그리고 추가 실시 예들이 본 발명의 기본 범위에서 벗어나지 않고 창안될 수 있고, 본 발명의 범위는 뒤따르는 청구항들에 의해 결정된다.
Claims (20)
- 소리를 내는 대상의 적어도 하나의 특성을 식별하기 위한 방법으로서,
메모리에, 적어도 하나의 마이크를 통해 청감 환경에서 얻어지는 오디오 데이터를 저장하는 단계;
상기 청감 환경에 포함되는 소리를 내는 대상의 특성을 식별하려는 사용자 요청을 나타내는 입력을 수신하는 단계;
프로세서를 통해 그리고 상기 사용자 요청 전 상기 청감 환경에서 얻어지는 상기 오디오 데이터의 일 부분에 기초하여, 상기 소리를 내는 대상의 상기 특성을 결정하는 단계; 및
상기 소리를 내는 대상의 상기 특성에 대응하는 정보가 적어도 하나의 출력 디바이스를 통해 출력되게 하는 단계를 포함하는, 방법. - 청구항 1에 있어서, 상기 메모리에서, 임계 지속 시간보다 오래된 상기 청감 환경에서 얻어진 오디오 데이터를 폐기하는 단계를 더 포함하는, 방법.
- 청구항 2에 있어서, 상기 메모리는 원형 버퍼를 포함하는, 방법.
- 청구항 3에 있어서, 상기 메모리에, 상기 청감 환경에서 얻어지는 오디오 데이터를 저장하는 단계는 상기 원형 버퍼의 제1 부분에 상기 오디오 데이터의 제1 부분을 그리고 상기 원형 버퍼의 제2 부분에 상기 오디오 데이터의 제2 부분을 저장하는 단계를 포함하는, 방법.
- 청구항 4에 있어서, 상기 소리를 내는 대상의 상기 특성을 결정하는 단계는 상기 오디오 데이터의 상기 제1 부분에 기초하여 상기 소리를 내는 대상의 제1 정체성을 결정하는 단계를 포함하는, 방법.
- 청구항 5에 있어서, 상기 소리를 내는 대상의 상기 특성을 결정하는 단계는:
상기 소리를 내는 대상의 상기 제1 정체성이 그와 연관된 임계 신뢰값 미만의 신뢰도를 갖는다는 것을 결정하는 단계; 및
상기 오디오 데이터의 상기 제1 부분 및 상기 오디오 데이터의 상기 제2 부분에 기초하여 상기 소리를 내는 대상의 제2 정체성을 결정하는 단계를 더 포함하는, 방법. - 청구항 6에 있어서, 상기 오디오 데이터의 상기 제1 부분은 상기 오디오 데이터의 상기 제2 부분에 대응하는 제2 시간 간격보다 상기 사용자 요청을 나타내는 상기 입력을 수신한 것에 더 가깝게 발생하는 제1 시간 간격에 대응하는, 방법.
- 청구항 1에 있어서, 상기 사용자 요청을 나타내는 상기 입력은 터치 기반 기구로의 물리적 입력, 음성 입력, 사용자 제스처 및 추가 센서로부터의 추가 정보 중 하나를 포함하는, 방법.
- 청구항 8에 있어서, 상기 음성 입력은 키워드 또는 키 구문을 포함하는, 방법.
- 청구항 1에 있어서, 상기 입력을 수신하는 컴퓨팅 디바이스와 별도의 컴퓨팅 디바이스에서 상기 오디오 데이터를 검색하는 단계를 더 포함하는, 방법.
- 청구항 1에 있어서, 상기 입력을 수신하는 컴퓨팅 디바이스에 포함된 메모리에서 상기 오디오 데이터를 검색하는 단계를 더 포함하는, 방법.
- 명령들을 포함하는 비일시적 컴퓨터 판독 가능한 저장 매체로서, 상기 명령들은 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서를:
회전 버퍼에, 적어도 하나의 마이크를 통해 청감 환경에서 얻어지는 오디오 데이터를 저장하는 단계;
상기 청감 환경에 포함되는 소리를 내는 대상의 특성을 식별하려는 사용자 요청을 나타내는 입력을 수신하는 단계;
프로세서를 통해 그리고 상기 사용자 요청 전 상기 청감 환경에서 얻어지는 상기 오디오 데이터의 일 부분에 기초하여, 상기 소리를 내는 대상의 상기 특성을 결정하는 단계; 및
상기 소리를 내는 대상의 상기 특성에 대응하는 정보가 적어도 하나의 출력 디바이스를 통해 출력되게 하는 단계를 수행함으로써 정보를 검색하도록 구성하는, 비일시적 컴퓨터 판독 가능한 저장 매체. - 청구항 12에 있어서, 상기 사용자 요청을 나타내는 상기 입력은 터치 기반 기구로의 물리적 입력, 음성 입력, 사용자 제스처 및 추가 센서로부터의 추가 정보 중 하나를 포함하는, 비일시적 컴퓨터 판독 가능한 저장 매체.
- 청구항 13에 있어서, 상기 음성 입력은 키워드 또는 키 구문을 포함하는, 비일시적 컴퓨터 판독 가능한 저장 매체.
- 청구항 12에 있어서, 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서를 상기 입력을 수신하는 컴퓨팅 디바이스와 별도의 컴퓨팅 디바이스에서 상기 오디오 데이터를 검색하는 단계를 수행하도록 구성하는 명령들을 더 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체의 방법.
- 청구항 12에 있어서, 상기 입력을 수신하는 컴퓨팅 디바이스에 포함된 메모리에서 상기 오디오 데이터를 검색하는 단계를 더 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
- 청구항 12에 있어서, 상기 메모리에, 상기 청감 환경에서 얻어지는 오디오 데이터를 저장하는 단계는 상기 원형 버퍼의 제1 부분에 상기 오디오 데이터의 제1 부분을 그리고 상기 원형 버퍼의 제2 부분에 상기 오디오 데이터의 제2 부분을 저장하는 단계를 포함하고, 상기 소리를 내는 대상의 상기 특성을 결정하는 단계는 상기 오디오 데이터의 상기 제1 부분에 기초하여 상기 소리를 내는 대상의 제1 정체성을 결정하는 단계를 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
- 시스템으로서,
마이크;
메모리; 및
상기 마이크 및 상기 메모리에 결합되는 프로세서로서:
상기 마이크로부터 사용자의 청감 환경에서 발생한 소리 이벤트의 오디오 데이터를 수신하도록;
상기 메모리에 상기 소리 이벤트의 상기 오디오 데이터를 저장하도록;
상기 오디오 데이터를 수신한 후, 소리를 내는 대상의 정체성에 대한 사용자 요청을 나타내는 입력을 수신하도록;
상기 오디오 데이터의 일 부분에 기초하여, 상기 소리를 내는 대상의 상기 정체성을 결정하도록; 그리고
상기 소리를 내는 대상의 상기 정체성에 대응하는 정보가 적어도 하나의 출력 디바이스를 통해 출력되게 하도록 구성되는, 상기 프로세서를 포함하는, 시스템. - 청구항 18에 있어서, 상기 메모리는 회전 버퍼를 포함하는, 시스템.
- 청구항 18에 있어서, 상기 적어도 하나의 출력 디바이스는 헤드폰 기반 어셈블리에 포함된 라우드 스피커를 포함하는, 시스템.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/029,491 US10643637B2 (en) | 2018-07-06 | 2018-07-06 | Retroactive sound identification system |
US16/029,491 | 2018-07-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20200005476A true KR20200005476A (ko) | 2020-01-15 |
Family
ID=67180518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190080747A KR20200005476A (ko) | 2018-07-06 | 2019-07-04 | 소급 소리 식별 시스템 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10643637B2 (ko) |
EP (1) | EP3591540B1 (ko) |
KR (1) | KR20200005476A (ko) |
CN (1) | CN110689896B (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11188047B2 (en) * | 2016-06-08 | 2021-11-30 | Exxonmobil Research And Engineering Company | Automatic visual and acoustic analytics for event detection |
CN111681677B (zh) * | 2020-06-09 | 2023-08-04 | 杭州星合尚世影视传媒有限公司 | 视频物体音效构建方法、系统、装置及可读存储介质 |
US11594242B2 (en) * | 2021-05-03 | 2023-02-28 | Gulfstream Aerospace Corporation | Noise event location and classification in an enclosed area |
US20240153524A1 (en) * | 2022-11-03 | 2024-05-09 | Robert Bosch Gmbh | Automatically selecting a sound recognition model for an environment based on audio data and image data associated with the environment |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2829014B2 (ja) * | 1989-01-12 | 1998-11-25 | 株式会社東芝 | 音声認識装置及び方法 |
JPH08287143A (ja) * | 1995-04-18 | 1996-11-01 | Hitachi Ltd | 個人情報の電子化管理装置 |
US7649949B2 (en) * | 2005-07-28 | 2010-01-19 | Sony Corporation | Multipurpose television module |
US20070150138A1 (en) * | 2005-12-08 | 2007-06-28 | James Plante | Memory management in event recording systems |
US20070282860A1 (en) | 2006-05-12 | 2007-12-06 | Marios Athineos | Method and system for music information retrieval |
US8620967B2 (en) * | 2009-06-11 | 2013-12-31 | Rovi Technologies Corporation | Managing metadata for occurrences of a recording |
US8417703B2 (en) * | 2009-11-03 | 2013-04-09 | Qualcomm Incorporated | Data searching using spatial auditory cues |
US9280598B2 (en) | 2010-05-04 | 2016-03-08 | Soundhound, Inc. | Systems and methods for sound recognition |
JP2012053722A (ja) * | 2010-09-02 | 2012-03-15 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
TWI412019B (zh) * | 2010-12-03 | 2013-10-11 | Ind Tech Res Inst | 聲音事件偵測模組及其方法 |
WO2013064914A1 (en) * | 2011-10-31 | 2013-05-10 | Sony Ericsson Mobile Communications Ab | Amplifying audio-visual data based on user's head orientation |
DE102012200083A1 (de) * | 2012-01-04 | 2013-07-04 | Robert Bosch Gmbh | Verfahren und Steuergerät zur Ermittlung eines Identifikationscodes für ein Audiodatenpaket |
US9196242B1 (en) * | 2012-05-29 | 2015-11-24 | Soundhound, Inc. | System and methods for offline audio recognition |
US8880495B2 (en) * | 2012-10-16 | 2014-11-04 | Michael J. Andri | Search query expansion and group search |
US9632683B2 (en) * | 2012-11-08 | 2017-04-25 | Nokia Technologies Oy | Methods, apparatuses and computer program products for manipulating characteristics of audio objects by using directional gestures |
US20140172429A1 (en) * | 2012-12-14 | 2014-06-19 | Microsoft Corporation | Local recognition of content |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
US9711152B2 (en) * | 2013-07-31 | 2017-07-18 | The Nielsen Company (Us), Llc | Systems apparatus and methods for encoding/decoding persistent universal media codes to encoded audio |
US10078703B2 (en) | 2014-08-29 | 2018-09-18 | Microsoft Technology Licensing, Llc | Location-based media searching and sharing |
WO2016070825A1 (en) * | 2014-11-06 | 2016-05-12 | Mediatek Inc. | Processing system having keyword recognition sub-system with or without dma data transaction |
US10204104B2 (en) | 2015-04-14 | 2019-02-12 | Google Llc | Methods, systems, and media for processing queries relating to presented media content |
US9668073B2 (en) * | 2015-10-07 | 2017-05-30 | Robert Bosch Gmbh | System and method for audio scene understanding of physical object sound sources |
US9843877B2 (en) * | 2015-12-31 | 2017-12-12 | Ebay Inc. | Sound recognition |
US20170206898A1 (en) * | 2016-01-14 | 2017-07-20 | Knowles Electronics, Llc | Systems and methods for assisting automatic speech recognition |
US20170256270A1 (en) * | 2016-03-02 | 2017-09-07 | Motorola Mobility Llc | Voice Recognition Accuracy in High Noise Conditions |
US10579879B2 (en) * | 2016-08-10 | 2020-03-03 | Vivint, Inc. | Sonic sensing |
US10026403B2 (en) * | 2016-08-12 | 2018-07-17 | Paypal, Inc. | Location based voice association system |
US10531210B2 (en) * | 2016-09-29 | 2020-01-07 | Walmart Apollo, Llc | Systems, devices, and methods for detecting spills using audio sensors |
US9904506B1 (en) * | 2016-11-15 | 2018-02-27 | Spotify Ab | Methods, portable electronic devices, computer servers and computer programs for identifying an audio source that is outputting audio |
US11443227B2 (en) * | 2018-03-30 | 2022-09-13 | International Business Machines Corporation | System and method for cognitive multilingual speech training and recognition |
-
2018
- 2018-07-06 US US16/029,491 patent/US10643637B2/en active Active
-
2019
- 2019-06-28 EP EP19183436.5A patent/EP3591540B1/en active Active
- 2019-07-04 KR KR1020190080747A patent/KR20200005476A/ko active Search and Examination
- 2019-07-04 CN CN201910598089.9A patent/CN110689896B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110689896A (zh) | 2020-01-14 |
US20200013427A1 (en) | 2020-01-09 |
US10643637B2 (en) | 2020-05-05 |
EP3591540B1 (en) | 2022-03-23 |
CN110689896B (zh) | 2024-08-02 |
EP3591540A1 (en) | 2020-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10685648B2 (en) | Sensor fusion model to enhance machine conversational awareness | |
EP3591540B1 (en) | Retroactive sound identification system | |
KR102571011B1 (ko) | 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답 | |
US10832672B2 (en) | Smart speaker system with cognitive sound analysis and response | |
CN111344780B (zh) | 基于上下文的设备仲裁 | |
JP6912605B2 (ja) | 声識別特徴最適化および動的登録方法、クライアント、ならびにサーバ | |
US10819811B2 (en) | Accumulation of real-time crowd sourced data for inferring metadata about entities | |
US9728188B1 (en) | Methods and devices for ignoring similar audio being received by a system | |
EP3599560A1 (en) | Retroactive information searching enabled by neural sensing | |
US20190138268A1 (en) | Sensor Fusion Service to Enhance Human Computer Interactions | |
CN109643548B (zh) | 用于将内容路由到相关联输出设备的系统和方法 | |
EP3701521B1 (en) | Voice recognition apparatus and operation method thereof cross-reference to related application | |
US11687526B1 (en) | Identifying user content | |
US20200020329A1 (en) | Smart Speaker Device with Cognitive Sound Analysis and Response | |
CN110719553B (zh) | 具有认知声音分析和响应的智能扬声器系统 | |
CN104040480A (zh) | 利用声学语境进行搜索的方法和系统 | |
JP2011253375A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
KR100999655B1 (ko) | 디지털 비디오 레코더 시스템 및 그것의 운용방법 | |
JP2017509009A (ja) | オーディオストリームの中の音楽の追跡 | |
US20210005190A1 (en) | Speech recognition system providing seclusion for private speech transcription and private data retrieval | |
US11948564B2 (en) | Information processing device and information processing method | |
WO2016206647A1 (zh) | 用于控制机器装置产生动作的系统 | |
JP2013257418A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
US12094454B2 (en) | Multimodal intent understanding for automated assistant | |
EP3686755B1 (en) | Automatic reference finding in audiovisual scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination |