KR20140021681A - 모바일 디바이스들에서 오디오 데이터 수집 프라이버시의 보호 - Google Patents
모바일 디바이스들에서 오디오 데이터 수집 프라이버시의 보호 Download PDFInfo
- Publication number
- KR20140021681A KR20140021681A KR1020137034145A KR20137034145A KR20140021681A KR 20140021681 A KR20140021681 A KR 20140021681A KR 1020137034145 A KR1020137034145 A KR 1020137034145A KR 20137034145 A KR20137034145 A KR 20137034145A KR 20140021681 A KR20140021681 A KR 20140021681A
- Authority
- KR
- South Korea
- Prior art keywords
- audio
- audio data
- subset
- continuous
- stream
- Prior art date
Links
- 238000013480 data collection Methods 0.000 title description 3
- 238000000034 method Methods 0.000 claims abstract description 84
- 238000012545 processing Methods 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 description 21
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- VJYFKVYYMZPMAB-UHFFFAOYSA-N ethoprophos Chemical compound CCCSP(=O)(OCC)SCCC VJYFKVYYMZPMAB-UHFFFAOYSA-N 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/02—Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
오디오 데이터를 사용하여 상황 인식 애플리케이션에 의해 상황 결정이 이루어지기 전에 모바일 디바이스의 하드웨어 및/또는 소프트웨어를 사용하여 오디오 데이터 내의 음성을 모호하게 하기 위한 기술들이 개시된다. 특히, 연속적 오디오 스트림의 서브세트는 수집된 오디오로부터 음성(단어들, 구절들 및 문장들)이 신뢰성 있게 재구성될 수 없도록 캡처된다. 오디오 특징들에 관해 서브세트가 분석되고, 주변 환경에 관한 결정이 이루어질 수 있다.
Description
본 출원은 대리인 관리 번호가 111174P1호인 "PRESERVING AUDIO DATA COLLECTION PRIVACY IN MOBILE DEVICES"라는 명칭으로 2011년 5월 23일자 제출된 미국 가특허출원 61/488,927호에 대한 우선권을 주장하며, 이 가출원 전부가 모든 목적들을 위해 이로써 인용에 의해 본 명세서에 포함된다. 본 출원은 또한 대리인 관리 번호가 111174호인 "PRESERVING AUDIO DATA COLLECTION PRIVACY IN MOBILE DEVICES"라는 명칭으로 2011년 8월 19일자 제출된 미국 특허출원 13/213,294호에 대한 우선권을 주장하며, 이 출원 전부가 모든 목적들을 위해 이로써 인용에 의해 본 명세서에 포함된다.
모바일 디바이스들은 오늘날의 사회에 놀라울 정도로 널리 퍼져있다. 예를 들어, 사람들은 셀룰러폰들, 스마트폰들, 개인용 디지털 보조기기들, 랩톱 컴퓨터들, 호출기들, 태블릿 컴퓨터들 등을 사용하여 셀 수 없이 많은 위치들로부터 무선으로 데이터를 전송 및 수신한다. 더욱이, 무선 통신 기술의 발전들은 오늘날의 모바일 디바이스들의 다목적성을 크게 증가시켜, 종래에는 다수의 디바이스들이나 더 큰 비-휴대 장비를 필요로 했던 단일 휴대용 디바이스로부터의 광범위한 작업들을 사용자들이 수행할 수 있게 하였다.
예를 들어, 모바일 디바이스들은 상황(context) 결정이라 하는 프로세스를 통해 모바일 디바이스 사용자가 어떤 환경(예를 들어, 식당, 자동차, 공원, 공항 등) 안에 있을 수 있는지를 결정하도록 구성될 수 있다. 이러한 상황 결정들을 수행하는 상황 인식 애플리케이션들은 GPS, 와이파이(WiFi) 및 블루투스®와 같은 모바일 디바이스의 센서 입력들로부터의 정보를 이용함으로써 모바일 디바이스의 환경을 결정하도록 시도한다. 많은 시나리오들에서, 모바일 디바이스의 마이크로폰으로부터의 오디오를 분류하는 것은 상황 결정들의 수행에 매우 가치가 있지만, 음성(speech)을 포함할 수도 있는 오디오를 수집하는 프로세스는 프라이버시 문제들을 발생시킬 수 있다.
본 명세서에서 개시되는 기술들은 오디오 데이터를 사용하여 상황 인식 애플리케이션에 의해 상황 결정이 이루어지기 전에 모바일 디바이스의 하드웨어 및/또는 소프트웨어를 사용하여 오디오 데이터 내의 음성을 모호하게 하는 것을 제공한다. 특히, 연속적 오디오 스트림의 서브세트는 수집된 오디오로부터 음성(단어들, 구절들 및 문장들)이 신뢰성 있게 재구성될 수 없도록 캡처된다. 오디오 특징들에 관해 서브세트가 분석되고, 주변 환경에 관한 결정이 이루어질 수 있다.
일부 실시예들에서, 프라이버시에 민감한(privacy-sensitive) 오디오 분석 방법이 제시된다. 이 방법은 연속적 오디오 스트림에 포함된 오디오 데이터의 서브세트를 캡처하는 단계를 포함할 수 있다. 연속적 오디오 스트림은 사람의 음성을 포함할 수 있다. 오디오 데이터의 서브세트는 사람의 음성의 내용을 모호하게 할 수 있다. 이 방법은 오디오 특징들에 관해 상기 오디오 데이터의 서브세트를 분석하는 단계를 포함할 수 있다. 이 방법은 상기 오디오 특징들에 적어도 부분적으로 기초하여, 주변 환경을 결정하는 단계를 포함할 수 있다.
이러한 방법의 실시예들은 다음 중 하나 또는 그보다 많은 것을 포함할 수 있다. 상기 오디오 데이터의 서브세트는 상기 연속적 오디오 스트림을 이해할 수 있는 충실도로 재생하는데 필요한 것보다 더 적은 수의 비트들을 갖는 상기 연속적 오디오 스트림의 계산된 함수를 포함할 수 있다. 상기 오디오 데이터의 서브세트는 다수의 오디오 데이터 세그먼트들을 포함할 수 있으며, 각각의 오디오 데이터 세그먼트는 상기 연속적 오디오 스트림의 서로 다른 시간 성분으로부터의 데이터를 포함한다. 이 방법은 상기 오디오 특징들에 적어도 부분적으로 기초하여 사람의 신원을 결정하는 단계를 포함할 수 있다. 상기 다수의 오디오 데이터 세그먼트들은 녹음된 오디오의 30㎳ 내지 100㎳를 포함할 수 있다. 상기 연속적 오디오 스트림의 각각의 시간 성분은 길이가 250㎳ 내지 2s일 수 있다. 이 방법은 상기 오디오 데이터의 서브세트를 분석하기 전에 상기 다수의 오디오 데이터 세그먼트들의 순서를 랜덤하게 변경하는 단계를 포함할 수 있다. 상기 다수의 오디오 데이터 세그먼트들의 순서를 랜덤하게 변경하는 단계는 글로벌 위치 결정 시스템(GPS: Global Positioning System) 디바이스, 모바일 디바이스 내 회로로부터의 신호 잡음, 마이크로폰으로부터의 신호 잡음, 및 안테나로부터의 신호 잡음 중 하나로부터의 정보에 적어도 부분적으로 기초할 수 있다.
일부 실시예들에서, 프라이버시에 민감한 오디오를 모호하게 하기 위한 디바이스가 제시된다. 디바이스는 마이크로폰을 포함할 수 있다. 디바이스는 마이크로폰에 통신 가능하게 연결된 처리 유닛을 포함할 수 있다. 처리 유닛은 상기 마이크로폰으로부터의 신호로 표현된 연속적 오디오 스트림에 포함된 오디오 데이터의 서브세트를 캡처하도록 구성될 수 있다. 연속적 오디오 스트림은 사람의 음성을 포함할 수 있다. 오디오 데이터의 서브세트는 사람의 음성의 내용을 모호하게 할 수 있다. 처리 유닛은 오디오 특징들에 관해 상기 오디오 데이터의 서브세트를 분석하도록 구성될 수 있다. 처리 유닛은 상기 오디오 특징들에 적어도 부분적으로 기초하여, 주변 환경을 결정하도록 구성될 수 있다.
이러한 디바이스의 실시예들은 다음 중 하나 또는 그보다 많은 것을 포함할 수 있다. 오디오 데이터의 서브세트는 상기 연속적 오디오 스트림을 이해할 수 있는 충실도로 재생하는데 필요한 것보다 더 적은 수의 비트들을 갖는 상기 연속적 오디오 스트림의 계산된 함수를 포함할 수 있다. 상기 오디오 데이터의 서브세트는 다수의 오디오 데이터 세그먼트들을 포함할 수 있으며, 각각의 오디오 데이터 세그먼트는 상기 연속적 오디오 스트림의 서로 다른 시간 성분으로부터의 데이터를 포함한다. 처리 유닛은 상기 오디오 특징들에 적어도 부분적으로 기초하여 사람의 신원을 결정하도록 구성될 수 있다. 상기 다수의 오디오 데이터 세그먼트들 각각은 녹음된 오디오의 30㎳ 내지 100㎳를 포함할 수 있다. 상기 연속적 오디오 스트림의 각각의 시간 성분은 길이가 250㎳ 내지 2s일 수 있다. 처리 유닛은 상기 오디오 데이터의 서브세트를 분석하기 전에 상기 다수의 오디오 데이터 세그먼트들의 순서를 랜덤하게 변경하도록 추가로 구성된다. 상기 다수의 오디오 데이터 세그먼트들의 순서를 랜덤하게 변경하는 것은 글로벌 위치 결정 시스템(GPS) 디바이스, 모바일 디바이스 내 회로로부터의 신호 잡음, 상기 마이크로폰으로부터의 신호 잡음, 및 안테나로부터의 신호 잡음 중 하나로부터의 정보에 적어도 부분적으로 기초할 수 있다.
일부 실시예들에서, 모바일 디바이스와 연관된 환경을 결정하기 위한 시스템이 제시된다. 시스템은 연속적 오디오 스트림을 수신하도록 구성된 오디오 센서를 포함할 수 있다. 시스템은 상기 오디오 센서에 연결된 적어도 하나의 처리 유닛을 포함할 수 있다. 처리 유닛은 상기 연속적 오디오 스트림에 포함된 오디오 데이터의 서브세트가 상기 연속적 오디오 스트림에 포함된 사람의 음성의 내용을 모호하게 하게 상기 오디오 데이터의 서브세트를 캡처하도록 구성될 수 있다. 처리 유닛은 오디오 특징들에 관해 상기 오디오 데이터의 서브세트를 분석하도록 구성될 수 있다. 처리 유닛은 상기 오디오 특징들에 적어도 부분적으로 기초하여, 주변 환경을 결정하도록 구성될 수 있다.
이러한 시스템의 실시예들은 다음 중 하나 또는 그보다 많은 것을 포함할 수 있다. 시스템은 상기 오디오 데이터의 서브세트를 나타내는 정보를 네트워크를 통해 상기 모바일 디바이스로부터 멀리 떨어진 위치로 전송하도록 구성된 네트워크 인터페이스를 포함할 수 있다. 적어도 하나의 처리 유닛은 상기 모바일 디바이스로부터 멀리 떨어진 상기 위치에서 상기 주변 환경을 결정하도록 구성될 수 있다. 상기 오디오 데이터의 서브세트는 다수의 오디오 데이터 세그먼트들을 포함할 수 있으며, 각각의 오디오 데이터 세그먼트는 상기 연속적 오디오 스트림의 서로 다른 시간 성분으로부터의 데이터를 포함한다. 적어도 하나의 처리 유닛은 상기 오디오 특징들에 적어도 부분적으로 기초하여 사람의 신원을 결정하도록 구성될 수 있다. 상기 다수의 오디오 데이터 세그먼트들 각각은 녹음된 오디오의 30㎳ 내지 100㎳를 포함할 수 있다. 상기 연속적 오디오 스트림의 각각의 시간 성분은 길이가 250㎳ 내지 2s일 수 있다. 처리 유닛은 상기 오디오 데이터의 서브세트를 분석하기 전에 상기 다수의 오디오 데이터 세그먼트들의 순서를 랜덤하게 변경하도록 추가로 구성될 수 있다.
일부 실시예들에서, 비-일시적 프로세서 판독 가능 매체 상에 상주하는 컴퓨터 프로그램 물건이 제시된다. 비-일시적 프로세서 판독 가능 매체는 프로세서로 하여금, 연속적 오디오 스트림에 포함된 오디오 데이터의 서브세트를 캡처하게 하도록 구성된 프로세서 판독 가능 명령들을 포함한다. 연속적 오디오 스트림은 사람의 음성을 포함할 수 있다. 오디오 데이터의 서브세트는 사람의 음성의 내용을 모호하게 할 수 있다. 프로세서 판독 가능 명령들은 프로세서로 하여금, 오디오 특징들에 관해 상기 오디오 데이터의 서브세트를 분석하게 하도록 구성될 수 있다. 프로세서 판독 가능 명령들은 프로세서로 하여금, 상기 오디오 특징들에 적어도 부분적으로 기초하여, 주변 환경을 결정하게 하도록 구성될 수 있다.
이러한 컴퓨터 프로그램 물건의 실시예들은 다음 중 하나 또는 그보다 많은 것을 포함할 수 있다. 상기 오디오 데이터의 서브세트는 상기 연속적 오디오 스트림을 이해할 수 있는 충실도로 재생하는데 필요한 것보다 더 적은 수의 비트들을 갖는 상기 연속적 오디오 스트림의 계산된 함수를 포함할 수 있다. 상기 오디오 데이터의 서브세트는 다수의 오디오 데이터 세그먼트들을 포함할 수 있으며, 각각의 오디오 데이터 세그먼트는 상기 연속적 오디오 스트림의 서로 다른 시간 성분으로부터의 데이터를 포함한다. 프로세서 판독 가능 명령들은 프로세서로 하여금, 상기 오디오 특징들에 적어도 부분적으로 기초하여 사람의 신원을 결정하게 하도록 구성될 수 있다. 상기 다수의 오디오 데이터 세그먼트들 각각은 녹음된 오디오의 30㎳ 내지 100㎳를 포함할 수 있다. 상기 연속적 오디오 스트림의 각각의 시간 성분은 길이가 250㎳ 내지 2s일 수 있다. 프로세서 판독 가능 명령들은 상기 오디오 데이터의 서브세트를 분석하기 전에 상기 다수의 오디오 데이터 세그먼트들의 순서를 랜덤하게 변경하도록 구성될 수 있다. 상기 다수의 오디오 데이터 세그먼트들의 순서를 랜덤하게 변경하기 위한 프로세서 판독 가능 명령들은 글로벌 위치 결정 시스템(GPS) 디바이스, 모바일 디바이스 내 회로로부터의 신호 잡음, 마이크로폰으로부터의 신호 잡음, 및 안테나로부터의 신호 잡음 중 하나로부터의 정보에 적어도 부분적으로 기초한다.
일부 실시예들에서, 프라이버시에 민감한 오디오를 모호하게 하기 위한 디바이스가 제시된다. 디바이스는 마이크로폰으로부터의 신호로 표현된 연속적 오디오 스트림에 포함된 오디오 데이터의 서브세트를 캡처하기 위한 수단을 포함할 수 있다. 연속적 오디오 스트림은 사람의 음성을 포함할 수 있다. 상기 오디오 데이터의 서브세트는 사람의 음성의 내용을 모호하게 할 수 있다. 디바이스는 오디오 특징들에 관해 상기 오디오 데이터의 서브세트를 분석하기 위한 수단을 포함할 수 있다. 디바이스는 상기 오디오 특징들에 적어도 부분적으로 기초하여, 주변 환경을 결정하기 위한 수단을 포함할 수 있다.
이러한 디바이스의 실시예들 다음 중 하나 또는 그보다 많은 것을 포함할 수 있다. 상기 오디오 데이터의 서브세트를 캡처하기 위한 수단은 상기 연속적 오디오 스트림을 이해할 수 있는 충실도로 재생하는데 필요한 것보다 더 적은 수의 비트들을 갖는 상기 연속적 오디오 스트림의 계산된 함수에 따라 상기 오디오 데이터의 서브세트를 캡처하도록 구성될 수 있다. 상기 오디오 데이터의 서브세트를 캡처하기 위한 수단은, 상기 오디오 데이터의 서브세트가 다수의 오디오 데이터 세그먼트들을 포함하게 상기 오디오 데이터의 서브세트를 캡처하도록 구성될 수 있으며, 각각의 오디오 데이터 세그먼트는 상기 연속적 오디오 스트림의 서로 다른 시간 성분으로부터의 데이터를 포함한다. 상기 주변 환경을 결정하기 위한 수단은, 상기 오디오 특징들에 적어도 부분적으로 기초하여 사람의 신원을 결정하도록 구성될 수 있다. 상기 오디오 데이터의 서브세트를 캡처하기 위한 수단은, 상기 다수의 오디오 데이터 세그먼트들 각각이, 녹음된 오디오의 30㎳ 내지 100㎳를 포함하게 상기 오디오 데이터의 서브세트를 캡처하도록 구성될 수 있다.
본 명세서에서 설명되는 항목들 및/또는 기술들은 다음의 능력들 중 하나 또는 그보다 많은 능력뿐만 아니라, 언급되지 않는 다른 능력들 또한 제공할 수 있다. 상황 결정의 정확도에 거의 또는 전혀 영향을 주지 않으면서, 그 상황 결정에 사용되는 오디오 스트림에 포함될 수 있는 음성의 내용을 모호하게 하는 것. 최소한의 처리 자원들을 사용하여 실시간으로 실행될 수 있는 비교적 단순한 방법의 이용. 상황 결정들에 사용되는 모델들의 정확도 개선을 돕도록 (모호해진 음성을 갖는) 오디오 데이터의 서브세트를 업로드하는 능력의 포함. 적어도 하나의 아이템/기술 효과 쌍이 설명되었지만, 언급된 효과는 언급된 것 이외의 다른 수단에 의해 달성되는 것이 가능할 수 있으며, 언급된 아이템/기술이 반드시 언급된 효과를 내는 것은 아닐 수도 있다.
다음 도면들을 참조로 다양한 실시예들의 특성 및 이점들의 이해가 쉬워질 수 있다. 첨부된 도면들에서, 유사한 컴포넌트들 또는 피처들은 동일한 참조 부호를 가질 수 있다. 또한, 유사한 컴포넌트들 사이를 구별하는 제 2 부호 및 대시 기호가 참조 부호 뒤에 따르게 함으로써 동일한 타입의 다양한 컴포넌트들이 구별될 수 있다. 명세서에서 제 1 참조 부호만 사용된다면, 설명은 제 2 참조 부호와 관계없이 동일한 제 1 참조 부호를 갖는 유사한 컴포넌트들 중 임의의 한 컴포넌트에 적용 가능하다.
도 1은 일 실시예에 따라 상황 인식 애플리케이션들을 지원하도록 구성된 모바일 디바이스의 기본 컴포넌트들의 단순화된 블록도이다.
도 2a - 도 2c는 음성의 프라이버시 보장을 도우면서, 성능 저하 없이 주변 모바일 디바이스의 환경을 분류하기에 충분한 오디오 정보를 캡처하기 위한 프로세스들의 시각화들이다.
도 3a와 도 3b는 도 2b와 도 2c에 도시된 기능을 제공하기 위한 방법들의 흐름도들이다.
도 4는 본 명세서에서 설명되는 특정 처리 방법들로부터 발생하는 오디오 데이터로부터, 음성 인식기가 단어들의 n-gram들을 재구성할 확률에 대한 상한을 계산하는 분석의 결과들을 나타내는 그래프이다.
도 1은 일 실시예에 따라 상황 인식 애플리케이션들을 지원하도록 구성된 모바일 디바이스의 기본 컴포넌트들의 단순화된 블록도이다.
도 2a - 도 2c는 음성의 프라이버시 보장을 도우면서, 성능 저하 없이 주변 모바일 디바이스의 환경을 분류하기에 충분한 오디오 정보를 캡처하기 위한 프로세스들의 시각화들이다.
도 3a와 도 3b는 도 2b와 도 2c에 도시된 기능을 제공하기 위한 방법들의 흐름도들이다.
도 4는 본 명세서에서 설명되는 특정 처리 방법들로부터 발생하는 오디오 데이터로부터, 음성 인식기가 단어들의 n-gram들을 재구성할 확률에 대한 상한을 계산하는 분석의 결과들을 나타내는 그래프이다.
도면들을 참조로 다음의 설명이 제공되며, 여기서는 처음부터 끝까지 동일 엘리먼트들을 지칭하기 위해 동일 참조 부호들이 사용된다. 본 명세서에서는 하나 또는 그보다 많은 기술들의 다양한 세부사항들이 설명되지만, 다른 기술들이 또한 가능하다. 어떤 경우들에는, 다양한 기술들의 설명을 용이하게 하기 위해 잘 알려진 구조들과 디바이스들이 블록도 형태로 도시된다.
상황 인식 애플리케이션들을 갖는, 개인용 디지털 보조기기(PDA: personal digital assistant)들, 모바일폰들, 태블릿 컴퓨터들 및 다른 개인 전자 장비와 같은 모바일 디바이스들이 인에이블될 수 있다. 이러한 상황 인식 애플리케이션들은 무엇보다도, 예를 들어 모바일 디바이스의 사용자가 어디에 있는지 그리고 사용자가 무엇을 하고 있을 수 있는지를 결정할 수 있다. 이러한 상황 결정들은 모바일 디바이스가, 사용자가 자동차 안에 있다는 결정 이후에 자동차 모드에 진입하거나, 사용자가 영화관에 들어갔다는 결정시 무음 모드에 진입하는 것과 같은 추가 기능을 사용자에게 제공할 수 있게 하는데 도움을 줄 수 있다.
본 명세서에서는 모바일 디바이스들의 상황 결정들에 사용되는 오디오에 캡처될 수 있는 음성의 프라이버시를 보호하기 위한 기술들이 설명된다. 더 구체적으로, 음성을 포함할 수 있는 연속적 오디오 스트림으로부터 오디오 데이터의 서브세트가 캡처될 수 있으며, 이로써 샘플링의 특성이 연속적 오디오 스트림에 포함될 수도 있는 임의의 음성을 모호하게 한다. 그러나 샘플링의 특성은 또한 상황 결정― 모바일 디바이스의 특정 주변 환경에 관한 결정과 같은 ―이, 정확도의 저하를 거의 또는 전혀 겪지 않도록 연속적 오디오 스트림의 특정 오디오 특징들을 보호한다. 이러한 그리고 다른 기술들이 뒤에 더 상세히 설명된다.
도 1은 일 실시예에 따라 상황 인식을 제공할 수 있는 모바일 디바이스(100)의 특정 컴포넌트들을 나타내는 단순화된 블록도이다. 이 도면은 일례이며 한정이 아니다. 예를 들어, 모바일 디바이스(100)는 단순화를 위해 도 1에서 생략된 추가 컴포넌트들(예를 들어, 사용자 인터페이스, 안테나들, 디스플레이 등)을 포함할 수도 있다. 추가로, 도시된 컴포넌트들은 모바일 디바이스(100)의 기능에 따라 결합, 분리 또는 생략될 수 있다.
이 실시예에서, 모바일 디바이스(100)는 모바일 네트워크 인터페이스(120)를 포함한다. 이러한 인터페이스는 이동 통신 사업자와 통신하기 위한 하드웨어, 소프트웨어 및/또는 펌웨어를 포함할 수 있다. 모바일 네트워크 인터페이스(120)는 고속 패킷 액세스(HSPA: High Speed Packet Access), 진화형(Enhanced) HSPA (HSPA+), 3GPP 롱 텀 에볼루션(LTE: Long Term Evolution), 및/또는 모바일 통신을 위한 다른 표준들을 이용할 수 있다. 모바일 네트워크 인터페이스(120)는 또한 상황 인식 애플리케이션들에 유용할 수 있는, 위치 데이터와 같은 특정 정보를 제공할 수 있다.
추가로, 모바일 디바이스(100)는 다른 무선 인터페이스(들)(170)를 포함할 수 있다. 이러한 인터페이스들은 IEEE 802.11(와이파이), 블루투스®, 및/또는 다른 무선 기술들을 포함할 수 있다. 이러한 무선 인터페이스(들)(170)는 상황 결정에 사용될 수 있는 정보를 모바일 디바이스(100)에 제공할 수 있다. 예를 들어, 무선 인터페이스(들)(170)는 무선 인터페이스(들)(170) 중 하나 또는 그보다 많은 무선 인터페이스가 접속되는 무선 네트워크의 대략적 위치를 결정함으로써 위치에 관한 정보를 제공할 수 있다. 추가로 또는 대안으로, 무선 인터페이스(들)(170)는 모바일 디바이스(100)가 모바일 디바이스(100)의 상황 결정에 유용한 정보를 제공할 수 있는, 무선 헤드셋들 및/또는 마이크로폰들과 같은 다른 디바이스들과 통신할 수 있게 할 수 있다.
모바일 디바이스(100)는 또한 글로벌 위치 결정 시스템(GPS) 유닛(160), 가속도계(들)(130) 및/또는 다른 센서(들)(150)를 포함할 수 있다. 이러한 추가 피처들은 위치, 방향, 움직임, 온도, 근접성 등과 같은 정보를 제공할 수 있다. 무선 인터페이스(들)(170)에서와 같이, 이러한 컴포넌트들로부터의 정보는 상황 인식 애플리케이션들이 모바일 디바이스(100)의 상황에 관한 상황 결정을 수행하는데 도움을 줄 수 있다.
모바일 디바이스(100)는 추가로 분석/결정 모듈(들)(110)을 포함할 수 있다. 무엇보다도, 분석/결정 모듈(들)(110)은 이러한 모듈이 통신 가능하게 연결된 다양한 컴포넌트들로부터 센서 정보를 수신할 수 있다. 분석/결정 모듈(들)(110)은 또한 분석/결정 모듈(들)(110)로부터 분리될 수 있고 그리고/또는 분석/결정 모듈(들)(110)로 통합될 수 있는 메모리(180) 상에 저장된 (상황 인식 애플리케이션들을 포함하는) 소프트웨어를 실행할 수 있다. 더욱이, 분석/결정 모듈(들)(110)은 중앙 처리 유닛(CPU: central processing unit), 마이크로프로세서, 디지털 신호 프로세서(DSP: digital signal processor), 및/또는 무엇보다도 오디오 데이터를 분석하고 분석을 기초로 결정을 수행할 수 있는 수단을 갖는 컴포넌트들을 포함하여, 하나의 또는 다수의 처리 디바이스들을 포함할 수 있다.
사용자가 야외에 있거나, 인식 가능한 와이파이 또는 블루투스 액세스 포인트들 근처에 있거나, 걷고 있을 때 등에 무선 인터페이스들(170), GPS 유닛(160), 가속도계(들)(130) 및/또는 다른 센서(들)(150)로부터의 정보가 위치 결정을 상당히 도울 수 있다 하더라도, 이러한 컴포넌트들은 이들의 한계들을 갖는다. 많은 시나리오들에서, 이들은 환경 및 상황의 결정에 덜 유용하다. 예를 들어, 이러한 컴포넌트들로부터의 정보는 사용자가 회의중인지 아니면 이들의 사무실에 있는지, 또는 사용자가 식료품점에 있는지 아니면 그 바로 옆에 있는 체육관에 있는지를 구별하는데 덜 유용하다. 이러한 시나리오들이나 다른 시나리오들에서, 모바일 디바이스(100)의 오디오 캡처 모듈(140)(예를 들어, 마이크로폰(들) 및/또는 다른 오디오 캡처 수단)로부터의 정보는 환경을 분류할 뿐만 아니라, 존재하는 음성이 있는지 여부, 존재하는 다수의 화자들이 있는지 여부, 화자의 신원 등을 결정하는 데에도 도움을 주는데 사용될 수 있는 매우 가치있는 오디오 데이터를 제공할 수 있다.
상황 결정을 위해 모바일 디바이스(100)로 오디오 데이터를 캡처하는 프로세스는 오디오 데이터를 전화기의 메모리(180)에 일시적으로 및/또는 영구적으로 저장하는 것을 포함할 수 있다. 그러나 이해할 수 있는 음성을 포함하는 오디오 데이터의 캡처는 프라이버시 문제들을 일으킬 수 있다. 사실, 모바일 디바이스(100)가 동의없이 모바일 디바이스(100)의 사용자 또는 다른 사람으로부터의 음성을 캡처한다면, 연방, 주 및/또는 지방 법규들이 연루될 수 있다. 캡처된 오디오 데이터로부터 음성(단어들, 구절들 및 문장들)이 신뢰성 있게 재구성될 수 없도록, 오디오 데이터가 캡처되기 전에 모바일 디바이스의 하드웨어 및/또는 소프트웨어(100)를 사용하여 오디오 데이터를 전처리함으로써 이러한 문제들이 완화될 수 있다. 더욱이, 전처리는 여전히 (예를 들어, 배경 잡음으로부터의) 주변 환경 및/또는 오디오 데이터의 다른 오디오 특징들, 예컨대 음성, 음악, 타이핑 소리들 등의 존재의 결정을 가능하게 할 수 있다.
도 2a는 성능 저하 없이 모바일 디바이스 및/또는 사용자의 상황/환경을 분류하기에 충분한 오디오 정보를 캡처하기 위한 프로세스의 시각화이다. 추가로, 이 프로세스는 또한 캡처된 정보로부터 음성(단어들, 구절들 및 문장들)이 신뢰성 있게 재구성될 수 없음을 보장하는데 도움을 줄 수 있다. 이 프로세스는 입력된 오디오 스트림의 차원 감소를 수반한다. 즉, 결과적인 오디오 스트림이 연속적 오디오 스트림을 이해할 수 있는 충실도로 재생하는데 필요한 것보다 더 적은 수의 비트들을 갖도록 연속적 오디오의 입력 스트림의 비트들(즉, 디지털 데이터)이 감소된다. 따라서 차원 감소는 음성이 재생 불가능함을 보장하도록 설계된 계산된 함수일 수 있다.
예를 들어, 연속적 오디오 스트림은 T window 초 지속되는 오디오 데이터의 윈도우(210)를 포함할 수 있다. 윈도우(210)는 다수의 오디오 데이터 세그먼트들을 갖는 것으로 여겨질 수 있다. 더 구체적으로, 윈도우(210)는 N개의 시간 성분들 또는 블록들(220)을 포함할 수 있으며, 여기서 각각의 블록(220)은 T block 초 지속되며 각각 T frame 초인 다수의 프레임들(230)을 포함한다. T block 초의 블록마다 (T frame 초의 데이터를 갖는) 단 하나의 프레임(230)이 수집되도록 마이크로폰 신호가 샘플링될 수 있다.
T frame 및 T block 의 값들은 원하는 기능에 따라 달라질 수 있다. 일 실시예에서, 예를 들어 T frame = 50㎳이고 T block = 500㎳이지만, 이러한 설정들은 결과적인 오디오 정보(240-a)를 사용하는 상황 결정의 정확도에 대해 거의 영향을 주지 않으면서 실질적으로 변경될 수 있다. 예를 들어, T frame 은 범위가 30㎳ 미만에서부터 100㎳ 또는 그 초과에 이를 수 있고, T block 은 범위가 250㎳ 미만에서부터 2000㎳(2s) 또는 그 초과까지 이를 수 있으며, T window 는 1분 또는 그 초과까지, 단일 블록(예를 들어, 윈도우당 한 블록)만큼 짧을 수 있다. 서로 다른 프레임, 블록 및 윈도우 길이들은 블록(220)당 프레임들(230)의 수 그리고 윈도우(210)당 블록들(220)의 수에 영향을 줄 수 있다.
프레임들(230)의 캡처는 여러 가지 방식들로 이루어질 수 있다. 예를 들어, 분석/결정 모듈(들)(110)은 연속적 오디오의 윈도우(210) 동안 계속해서 마이크로폰 신호를 샘플링하여, 원치 않는 프레임들(230)을 폐기할 수 있다(즉, 저장하지 않을 수 있다). 따라서 T frame = 50㎳이고 T block = 500㎳인 상기의 예에서, 처리 유닛은 단순히, 샘플링되는 매 500㎳ 중 450㎳를 폐기할 수 있다. 추가로 또는 대안으로, 분석/결정 모듈(들)(110)은 원치 않는 프레임들(230) 동안 오디오 캡처 모듈(140)을 오프로 전환(예를 들어, 매 500㎳ 중 450㎳ 동안 오디오 캡처 모듈(140)을 오프로 전환)함으로써, 상황 결정에 사용되는 결과적인 오디오 정보(240-a)에 삽입될 프레임들(230)만을 수집할 수 있다.
결과적인 오디오 정보(240-a)는 윈도우(210)에서 연속적 오디오 스트림의 서브세트만을 포함하는 프레임들(230)의 집합이다. 그렇긴 하지만, 이 결과적인 오디오 정보(240-a)는 결정의 정확도에 상당한 영향을 주지 않으면서, 주변 환경의 결정과 같은 상황 결정을 가능하게 하는데 도움을 줄 수 있는 오디오 특징들을 포함할 수 있다. 따라서 결과적인 오디오 정보(240-a)는 상황 분류를 위한 애플리케이션에 실시간으로 제공될 수 있고, 그리고/또는 차후의 분석 및/또는 모바일 디바이스(100)에 통신 가능하게 연결된 서버로의 업로드를 위해 메모리(180)에 하나 또는 그보다 많은 파형(들)으로서 저장될 수 있다.
도 2b와 도 2c는 도 2a에 도시된 프로세스와 유사한, 오디오 정보를 캡처하기 위한 프로세스들의 시각화들이다. 그러나 도 2b와 도 2c에서는, 캡처될 수 있는 임의의 음성의 추가 프라이버시 보장을 돕도록 추가 단계들이 실시된다.
도 2b를 참조하면, T window 초의 매 윈도우(210) 동안, 각각의 블록(220)의 첫 번째 프레임들(230)이 어떻게 캡처될 수 있는지를 나타내는 시각화가 제공된다. 윈도우(210)의 마지막 블록(220)의 프레임(230-1)이 캡처된 후, 윈도우(210)의 캡처된 모든 프레임들이 랜덤하게 치환되어(즉, 랜덤하게 셔플되어) 결과적인 오디오 정보(240-b)를 제공할 수 있다. 따라서 결과적인 오디오 정보(240-b)는, 결과적인 오디오 정보(240-b)를 구성하는 프레임들이 랜덤화됨으로써, 결과적인 오디오 정보(240-b)에 포함될 수 있는 임의의 음성이 이해할 수 있는 충실도로 재생될 수 있는 확률을 더 감소시킬 수 있다는 추가 특징을 가지며, 도 2a의 결과적인 오디오 정보(240-a)와 유사하다.
도 2c는 도 2b에 도시된 것과 유사하지만, 각각의 블록(220)에 대해 캡처된 프레임(230)을 추가로 랜덤화하는 프로세스를 나타낸다. 더 구체적으로는, 도 2a와 도 2b에 도시된 것과 같이 윈도우(210)의 각각의 블록(220)의 첫 번째 프레임(230)을 캡처하기보다는, 도 2c에 도시된 프로세스는 각각의 블록(220)으로부터의 랜덤 프레임(230)이 대신 선택될 수 있음을 증명한다. 윈도우(210)의 프레임들(230)의 캡처와 결과적인 오디오 정보(240-c)에서의 프레임들(230)의 순서 모두의 랜덤화는 윈도우(210) 내의 연속적 오디오 스트림에 포함된 임의의 음성이 모호하고 재생 불가능함을 추가로 보장하는데 도움이 된다.
도 2b와 도 2c에 도시된 프로세스들에 사용되는 랜덤화는 수많은 방법들로 생성되는 시드를 사용하여 계산될 수 있다. 예를 들어, 시드는 GPS 유닛(160)에 의해 제공되는 GPS 시간, 모바일 디바이스(100) 내 회로로부터의 잡음, 오디오 캡처 모듈(140)로부터의 잡음(또는 다른 신호), 안테나로부터의 잡음 등을 기초로 할 수 있다. 더욱이, 치환이 폐기되어(예를 들어, 저장되지 않아) 셔플 효과가 반전될 수 없음을 보장하는데 도움이 될 수 있다.
도 2a, 도 2b 그리고 도 2c에 도시된 프로세스들은 예들로서 제공되며 한정이 아니다. 다른 실시예들이 고려된다. 예를 들어, 프레임들(230)이 캡처되기 전에 블록들(220)이 랜덤하게 치환될 수도 있다. 대안으로, 블록(220)당 하나의 프레임(230)을 캡처하기보다는, 전체 윈도우(210)에 걸쳐 랜덤하게 프레임들(230)이 캡처될 수 있다.
도 3a는 도 2b와 2c에 도시된 기능을 제공하기 위한 방법(300-1)의 일 실시예를 나타내는 흐름도이다. 방법(300-1)은 연속적 오디오 스트림으로부터의 오디오 데이터 블록(220)이 수신되는 스테이지(310)에서 시작할 수 있다. 연속적 오디오 스트림은 예를 들어, 모바일 디바이스(100)의 오디오 캡처 모듈(140)이 노출되는 시간 윈도우(210) 내의 오디오일 수 있다.
스테이지(320)에서, 오디오 데이터 블록(220)의 프레임(230)이 캡처된다. 앞서 논의한 바와 같이, 프레임(230)은 각각의 오디오 데이터 블록(220)의 미리 결정된 프레임 (예를 들어, 첫 번째 프레임)일 수 있고, 또는 프레임(230)이 랜덤하게 선택될 수 있다. 프레임(230)은 예를 들어, 모바일 디바이스(100)의 메모리(180)에 (일시적으로 또는 영구적으로) 저장됨으로써 캡처된다. 이전에 논의한 바와 같이, 프레임(230)의 캡처는 오디오 캡처 모듈(140)을 온오프 전환하는 것 그리고/또는 연속적 오디오 스트림을 나타내는 오디오 캡처 모듈(140)로부터의 신호의 특정 부분들을 샘플링하는 것을 포함할 수 있다.
스테이지(330)에서, 현재 윈도우(210)에 추가 블록들(220)이 존재하는지 여부가 결정된다. 존재한다면, 블록(220)으로부터 프레임(230)을 캡처하는 프로세스가 반복된다. 이는 원하는 기능에 따라 임의의 횟수로 반복될 수 있다. 예를 들어, T block = 500㎳ 그리고 T window = 10초인 경우, 프레임(230)을 캡처하는 프로세스는 20회 반복되어, 20개의 캡처된 프레임들(230)을 발생시킬 것이다.
현재 윈도우(210) 내의 모든 블록들(220)로부터의 프레임들(230)이 캡처되었다면, 프로세스는 스테이지(340)로 이동하며, 여기서는 캡처된 프레임들의 순서가 랜덤화된다. 이러한 랜덤화된 프레임들은 예를 들어, 상황 인식 애플리케이션에 의한 분석에 사용되는 오디오 파일에 저장될 수 있다. 마지막으로, 스테이지(350)에서는, 랜덤화된 프레임들의 오디오 특징들에 적어도 부분적으로 기초하여 주변 환경의 결정(또는 다른 상황 결정)이 이루어진다.
방법(300-1)의 서로 다른 스테이지들은 모바일 디바이스(100) 및/또는 모바일 디바이스(100)에 통신 가능하게 연결된 다른 시스템들의 하나 또는 그보다 많은 서로 다른 컴포넌트들에 의해 수행될 수 있다. 더욱이, 스테이지들은 하드웨어, 소프트웨어 및/또는 펌웨어의 임의의 조합에 의해 수행될 수 있다. 예를 들어, 전체 오디오 스트림(예를 들어, 인식 가능한 음성을 가질 수 있는 오디오 스트림)이 모바일 디바이스(100)에 의해 실행되는 소프트웨어 애플리케이션들에 접근할 수 없음을 보장하는데 도움이 되도록, (분석/결정 모듈(들)(110)과 같은) 하드웨어에 의해 스테이지들(320-340)과 같은 특정 스테이지들이 수행되어, 예컨대 버퍼 상의 캡처된 프레임들을 메모리(180)에 저장하고 그리고/또는 이들을 소프트웨어 애플리케이션에 제공하기 전에, 이들을 랜덤화할 수 있다. 추가로 또는 대안으로, 일부 실시예들은 특정 파라미터들(예를 들어, T window , T block 및/또는 T frame )이 적어도 부분적으로는 소프트웨어에 의해 구성 가능해질 수 있게 할 수도 있다.
또 다른 실시예들에서, 모바일 디바이스(100)는 캡처된 프레임들을 포함하는 결과적인 오디오 정보(240)를 원격 서버에 업로드할 수 있다. 이 경우, 원격 서버가 스테이지(350)의 주변 환경을 결정할 수 있다. 대안으로, 모바일 디바이스(100)는 모바일 디바이스(100)에 의해 이루어진 주변 환경의 결정과 함께, 결과적인 오디오 정보(240)를 업로드할 수 있다. 어떤 경우든, 원격 서버는 결정 및 결과적인 오디오 정보(240)를 사용하여, 주변 환경 결정들을 수행하는데 사용된 기존의 모델들을 변형할 수 있다. 이는, 모바일 디바이스들(100)에 의해 수신된 입력으로부터 "학습"할 수 있는 모델들을 서버가 유지할 수 있게 한다. 그 다음, 변형된 그리고/또는 업데이트된 모델들이 모바일 디바이스들(100)에 다운로드되어, 모바일 디바이스들(100)에 의해 이루어지는 주변 환경 결정들의 정확도 개선을 도울 수 있다. 따라서 주변 환경 결정들(또는 다른 상황적 결정들)이 지속적으로 개선될 수 있다.
위에서 지적한 바와 같이, 본 명세서에서 설명하는 기술들은 주변 환경 및/또는 다른 상황적 결정들뿐만 아니라, 오디오 데이터의 다른 오디오 특징들의 결정 또한 가능하게 할 수 있다. 이러한 오디오 특징들은 음성, 음악, 타이핑 소리들 등의 존재를 포함할 수 있다. 오디오 특징들이 포함하는 것에 따라, 서로 다른 결정들이 이루어질 수 있다.
도 3b는 도 3의 방법(300-1)과 유사한 스테이지들을 포함하는 방법(300-1)의 일례를 나타내는 흐름도이다. 그러나 도 3b이 방법(300-2)은 주변 환경을 결정하는데 사용된 캡처된 프레임들에 자신의 음성이 포함된 화자(들)의 신원에 관한 결정이 이루어지는 추가 스테이지(360)를 포함한다. 스테이지(350)에서와 같이, 스테이지(360)의 결정은 모바일 디바이스(100) 및/또는 캡처된 프레임들이 업로드되는 원격 서버에 의해 수행될 수 있다. 추가로, 신원에 관한 결정은 다른 정보 및/또는 화자의 나이, 성별 등의 결정을 돕는 모델들과 같은 모델들, 그리고 특정 사람의 음성의 오디오 특징들에 관한 저장된 정보, 및 다른 데이터의 사용을 포함할 수 있다.
위에서 논의한 프로세스들에 의해 생성된 캡처된 오디오 파일들의 청취는 이러한 방식으로부터 단어들이 신뢰성 있게 재구성될 수 없음을 명백히 증명한다. 그러나 이러한 개념은 음성 인식기가 단어들의 n-gram들을 재구성할 확률에 대한 상한을 계산하기 위한 분석을 수행함으로써 수학적으로 증명될 수 있으며, 여기서 상업용 음성 인식기들을 개발하기 위한 공적으로 이용 가능한 소스들로부터의 수집된 오디오 데이터가 주어지면, 단어들의 n-gram은 n개의 연속한 단어들의 집합이다.
도 4는 수집된 오디오가 주어진다면 n-gram을 정확히 추정할 확률에 대한 상한들을 보여주는, 이러한 분석의 결과들을 나타내는 그래프이다. 1-gram(410) 및 2-gram(420)을 정확히 재구성하기 위한 결과들이 도시되며, 여기서 T block 의 가변적인 길이들에 대해 T frame = 50㎳이다. n-gram을 재구성할 확률은 n의 증가에 따라 직관적으로 감소한다. 이는 도 4로부터 확인될 수 있으며, 여기서 T block = 500㎳ 동안, 1-gram(410)을 정확히 재구성할 확률은 14%인 반면, 2-gram(420)을 정확히 재구성할 확률은 8%이다. (이 분석은, 언어를 훨씬 더 모호하게 하여 확률을 대략 (T window /T block ) 계승(factorial)의 배율로 감소시킬 수 있는, 본 명세서에서 논의한 프레임들의 치환을 포함하지 않는다는 점에 주의해야 한다.)
음성을 재구성할 감소된 확률에도 불구하고, 본 명세서에서 논의한 기술들은 사용자의 환경을 파악하기 위한 분류기들(예를 들어, 상황 인식 애플리케이션들에 사용된 확률적 분류기들)의 능력에 상당한 영향을 갖지 않는다. 이는 표 1에서 증명되는데, 이는 하나의 혼합 컴포넌트 및 2개의 혼합 컴포넌트들을 갖는 통계적 모델들로 상황 인식 분류기의 정확도 및 기억력(recall)을 보여주며, 여기서 T frame = 50㎳이고 T block 은 가변적이다. 사용된 데이터는 상황 인식 애플리케이션들 사이에 공통적인 한 세트의 환경들의(예를 들어, 공원에서, 거리에서, 시장에서, 자동차에서, 공항에서 등) 환경음들의 상업적으로 입수된 오디오 데이터 세트였다.
T frame = 50㎳이기 때문에, T block = 50㎳에 대해 표 1에 도시된 정확도 및 기억력은 연속적 오디오이다. 따라서 표 1은 T block 이 2초에 근접할 때까지 연속적 오디오 스트림의 서브세트들만을 샘플링함으로써 오디오 데이터의 차원을 감소시키는 것이 주변 환경에 대한 분류기의 결정의 정확도에 얼마나 거의 영향을 갖지 않을 수 있는지를 나타낸다(즉, 매 2초에 대해 50㎳, 또는 시간의 2.5% 동안만 마이크로폰이 켜짐). 서로 다른 분류기들에 대해 결과들이 서로 다를 수 있다.
위에서 논의한 방법들, 시스템들, 디바이스들, 그래프들 및 표들은 예들이다. 다양한 구성들은 다양한 프로시저들 또는 컴포넌트들을 적절히 생략, 치환 또는 추가할 수 있다. 예컨대, 대안적인 구성들에서, 방법들은 설명한 것과 다른 순서로 수행될 수 있으며, 그리고/또는 다양한 스테이지들이 추가, 생략 및/또는 결합될 수 있다. 또한, 특정 구성들과 관련하여 설명한 특징들은 다양한 다른 구성들에 결합될 수도 있다. 구성들의 서로 다른 양상들 및 엘리먼트들이 유사한 방식으로 결합될 수도 있다. 또한, 기술이 진화하고, 따라서 엘리먼트들 중 다수는 예들이며 개시 또는 청구항들의 범위를 한정하지 않는다. 추가로, 본 명세서에서 논의한 기술들은 서로 다른 타입들의 상황 인식 분류기들에 서로 다른 결과들을 제공할 수 있다.
(구현들을 포함하는) 예시적인 실시예들의 철저한 이해를 제공하기 위해 설명에서 특정 세부사항들이 주어진다. 그러나 실시예들은 이러한 특정 세부사항들 없이 실시될 수도 있다. 예를 들어, 구성들을 불명료하게 하는 것을 피하기 위해, 잘 알려진 회로들, 프로세스들, 알고리즘들, 구조들 및 기술들은 불필요하게 상세하지 않게 도시되었다. 이 설명은 예시적인 구성들만을 제공하며, 청구항들의 범위, 적용 가능성 또는 구성들을 한정하지는 않는다. 그보다는, 구성들의 앞의 설명은 해당 기술분야에서 통상의 지식을 가진 자들에게 설명된 기술들을 구현하기 위한 가능한 설명을 제공할 것이다. 본 개시의 사상 또는 범위를 벗어나지 않으면서 엘리먼트들의 기능 및 배치에 다양한 변경들이 이루어질 수 있다.
또한, 구성들은 흐름도나 블록도로서 묘사된 프로세스로서 설명될 수 있다. 각각은 동작들을 순차적인 프로세스로서 설명할 수 있지만, 동작들 중 다수는 병행하여 또는 동시에 수행될 수 있다. 또한, 동작들의 순서는 재정렬될 수도 있다. 프로세스는 도면에 포함되지 않은 추가 단계들을 가질 수도 있다.
본 발명의 다양한 특징들을 포함하는 컴퓨터 프로그램들이 다양한 비-일시적 컴퓨터 판독 가능 및/또는 비-일시적 프로세서 판독 가능 저장 매체 상에 인코딩될 수 있으며, 적당한 매체들은 자기 매체들, 광 매체들, 플래시 메모리 및 다른 비-일시적 매체들을 포함한다. 프로그램 코드로 인코딩된 비-일시적 프로세서 판독 가능 저장 매체들은 호환성 있는 디바이스로 패키지화되거나 다른 디바이스들로부터 별개로 제공될 수도 있다. 또한, 프로그램 코드는 인코딩되고, 인터넷을 포함하여 다양한 프로토콜들에 따르는 무선 네트워크들, 및/또는 유선의 광 네트워크들을 통해 전송됨으로써, 예를 들어 인터넷 다운로드를 통한 배포를 가능하게 할 수 있다.
여러 가지 예시적인 구성들을 설명했지만, 본 개시의 사상을 벗어나지 않으면서 다양한 변형들, 대안적인 구성들 및 등가물들이 사용될 수도 있다. 예를 들어, 상기 엘리먼트들은 더 큰 시스템의 컴포넌트들일 수도 있으며, 여기서는 다른 규칙들이 본 발명의 애플리케이션을 변형하거나 아니면 이보다 우선할 수 있다. 또한, 상기 엘리먼트들이 고려되기 전, 고려되는 도중 또는 고려된 후 다수의 단계들이 시작될 수 있다. 따라서 상기 설명은 청구항들의 범위의 한계를 정하는 것은 아니다.
Claims (37)
- 프라이버시에 민감한(privacy-sensitive) 오디오 분석 방법으로서,
연속적 오디오 스트림에 포함된 오디오 데이터의 서브세트를 캡처하는 단계 ― 상기 연속적 오디오 스트림은 사람의 음성(speech)을 포함하고, 상기 오디오 데이터의 서브세트는 상기 사람의 음성의 내용을 모호하게 함 ―;
오디오 특징들에 관해 상기 오디오 데이터의 서브세트를 분석하는 단계; 및
상기 오디오 특징들에 적어도 부분적으로 기초하여, 주변 환경을 결정하는 단계를 포함하는,
프라이버시에 민감한 오디오 분석 방법. - 제 1 항에 있어서,
상기 오디오 데이터의 서브세트는, 상기 연속적 오디오 스트림을 이해할 수 있는 충실도로 재생하는데 필요한 것보다 더 적은 수의 비트들을 갖는 상기 연속적 오디오 스트림의 계산된 함수를 포함하는,
프라이버시에 민감한 오디오 분석 방법. - 제 1 항에 있어서,
상기 오디오 데이터의 서브세트는 다수의 오디오 데이터 세그먼트들을 포함하며,
각각의 오디오 데이터 세그먼트는 상기 연속적 오디오 스트림의 서로 다른 시간 성분으로부터의 데이터를 포함하는,
프라이버시에 민감한 오디오 분석 방법. - 제 3 항에 있어서,
상기 오디오 특징들에 적어도 부분적으로 기초하여 사람의 신원을 결정하는 단계를 더 포함하는,
프라이버시에 민감한 오디오 분석 방법. - 제 3 항에 있어서,
상기 다수의 오디오 데이터 세그먼트들 각각은 녹음된 오디오의 30㎳ 내지 100㎳를 포함하는,
프라이버시에 민감한 오디오 분석 방법. - 제 3 항에 있어서,
상기 연속적 오디오 스트림의 각각의 시간 성분은 길이가 250㎳ 내지 2s인,
프라이버시에 민감한 오디오 분석 방법. - 제 3 항에 있어서,
상기 오디오 데이터의 서브세트를 분석하기 전에 상기 다수의 오디오 데이터 세그먼트들의 순서를 랜덤하게 변경하는 단계를 더 포함하는,
프라이버시에 민감한 오디오 분석 방법. - 제 7 항에 있어서,
상기 다수의 오디오 데이터 세그먼트들의 순서를 랜덤하게 변경하는 단계는,
글로벌 위치 결정 시스템(GPS: Global Positioning System) 디바이스,
모바일 디바이스 내 회로로부터의 신호 잡음,
마이크로폰으로부터의 신호 잡음, 및
안테나로부터의 신호 잡음
중 하나로부터의 정보에 적어도 부분적으로 기초하는,
프라이버시에 민감한 오디오 분석 방법. - 프라이버시에 민감한 오디오를 모호하게 하기 위한 디바이스로서,
마이크로폰; 및
상기 마이크로폰에 통신 가능하게 연결된 처리 유닛을 포함하며,
상기 처리 유닛은,
상기 마이크로폰으로부터의 신호로 표현된 연속적 오디오 스트림에 포함된 오디오 데이터의 서브세트를 캡처하고 ― 상기 연속적 오디오 스트림은 사람의 음성을 포함하고, 상기 오디오 데이터의 서브세트는 상기 사람의 음성의 내용을 모호하게 함 ―;
오디오 특징들에 관해 상기 오디오 데이터의 서브세트를 분석하고; 그리고
상기 오디오 특징들에 적어도 부분적으로 기초하여, 주변 환경을 결정하도록 구성되는,
프라이버시에 민감한 오디오를 모호하게 하기 위한 디바이스. - 제 9 항에 있어서,
상기 오디오 데이터의 서브세트는, 상기 연속적 오디오 스트림을 이해할 수 있는 충실도로 재생하는데 필요한 것보다 더 적은 수의 비트들을 갖는 상기 연속적 오디오 스트림의 계산된 함수를 포함하는,
프라이버시에 민감한 오디오를 모호하게 하기 위한 디바이스. - 제 9 항에 있어서,
상기 오디오 데이터의 서브세트는 다수의 오디오 데이터 세그먼트들을 포함하며,
각각의 오디오 데이터 세그먼트는 상기 연속적 오디오 스트림의 서로 다른 시간 성분으로부터의 데이터를 포함하는,
프라이버시에 민감한 오디오를 모호하게 하기 위한 디바이스. - 제 11 항에 있어서,
상기 처리 유닛은 상기 오디오 특징들에 적어도 부분적으로 기초하여 사람의 신원을 결정하도록 구성되는,
프라이버시에 민감한 오디오를 모호하게 하기 위한 디바이스. - 제 11 항에 있어서,
상기 다수의 오디오 데이터 세그먼트들 각각은 녹음된 오디오의 30㎳ 내지 100㎳를 포함하는,
프라이버시에 민감한 오디오를 모호하게 하기 위한 디바이스. - 제 11 항에 있어서,
상기 연속적 오디오 스트림의 각각의 시간 성분은 길이가 250㎳ 내지 2s인,
프라이버시에 민감한 오디오를 모호하게 하기 위한 디바이스. - 제 11 항에 있어서,
상기 처리 유닛은, 상기 오디오 데이터의 서브세트를 분석하기 전에 상기 다수의 오디오 데이터 세그먼트들의 순서를 랜덤하게 변경하도록 구성되는,
프라이버시에 민감한 오디오를 모호하게 하기 위한 디바이스. - 제 15 항에 있어서,
상기 처리 유닛은,
글로벌 위치 결정 시스템(GPS) 디바이스,
모바일 디바이스 내 회로로부터의 신호 잡음,
상기 마이크로폰으로부터의 신호 잡음, 및
안테나로부터의 신호 잡음
중 하나로부터의 정보에 적어도 부분적으로 기초하여, 상기 다수의 오디오 데이터 세그먼트들의 순서를 랜덤하게 변경하도록 구성되는,
프라이버시에 민감한 오디오를 모호하게 하기 위한 디바이스. - 모바일 디바이스와 연관된 환경을 결정하기 위한 시스템으로서,
연속적 오디오 스트림을 수신하도록 구성된 오디오 센서; 및
상기 오디오 센서에 연결된 적어도 하나의 처리 유닛을 포함하며,
상기 적어도 하나의 처리 유닛은,
상기 연속적 오디오 스트림에 포함된 오디오 데이터의 서브세트가 상기 연속적 오디오 스트림에 포함된 사람의 음성의 내용을 모호하게 하게 상기 오디오 데이터의 서브세트를 캡처하고;
오디오 특징들에 관해 상기 오디오 데이터의 서브세트를 분석하고; 그리고
상기 오디오 특징들에 적어도 부분적으로 기초하여, 주변 환경을 결정하도록 구성되는,
모바일 디바이스와 연관된 환경을 결정하기 위한 시스템. - 제 17 항에 있어서,
상기 오디오 데이터의 서브세트를 나타내는 정보를 네트워크를 통해 상기 모바일 디바이스로부터 멀리 떨어진 위치로 전송하도록 구성된 네트워크 인터페이스를 더 포함하는,
모바일 디바이스와 연관된 환경을 결정하기 위한 시스템. - 제 18 항에 있어서,
상기 적어도 하나의 처리 유닛은, 상기 모바일 디바이스로부터 멀리 떨어진 상기 위치에서 상기 주변 환경을 결정하도록 구성되는,
모바일 디바이스와 연관된 환경을 결정하기 위한 시스템. - 제 18 항에 있어서,
상기 오디오 데이터의 서브세트는 다수의 오디오 데이터 세그먼트들을 포함하며,
각각의 오디오 데이터 세그먼트는 상기 연속적 오디오 스트림의 서로 다른 시간 성분으로부터의 데이터를 포함하는,
모바일 디바이스와 연관된 환경을 결정하기 위한 시스템. - 제 20 항에 있어서,
상기 적어도 하나의 처리 유닛은, 상기 오디오 특징들에 적어도 부분적으로 기초하여 사람의 신원을 결정하도록 구성되는,
모바일 디바이스와 연관된 환경을 결정하기 위한 시스템. - 제 20 항에 있어서,
상기 다수의 오디오 데이터 세그먼트들 각각은 녹음된 오디오의 30㎳ 내지 100㎳를 포함하는,
모바일 디바이스와 연관된 환경을 결정하기 위한 시스템. - 제 20 항에 있어서,
상기 연속적 오디오 스트림의 각각의 시간 성분은 길이가 250㎳ 내지 2s인,
모바일 디바이스와 연관된 환경을 결정하기 위한 시스템. - 제 20 항에 있어서,
상기 적어도 하나의 처리 유닛은, 상기 오디오 데이터의 서브세트를 분석하기 전에 상기 다수의 오디오 데이터 세그먼트들의 순서를 랜덤하게 변경하도록 구성되는,
모바일 디바이스와 연관된 환경을 결정하기 위한 시스템. - 비-일시적 프로세서 판독 가능 매체 상에 상주하며 프로세서 판독 가능 명령들을 포함하는 컴퓨터 프로그램 물건으로서,
상기 프로세서 판독 가능 명령들은 프로세서로 하여금,
연속적 오디오 스트림에 포함된 오디오 데이터의 서브세트를 캡처하게 하고 ― 상기 연속적 오디오 스트림은 사람의 음성을 포함하고, 상기 오디오 데이터의 서브세트는 상기 사람의 음성의 내용을 모호하게 함 ―;
오디오 특징들에 관해 상기 오디오 데이터의 서브세트를 분석하게 하고; 그리고
상기 오디오 특징들에 적어도 부분적으로 기초하여, 주변 환경을 결정하게 하도록 구성되는,
컴퓨터 프로그램 물건. - 제 25 항에 있어서,
상기 오디오 데이터의 서브세트는, 상기 연속적 오디오 스트림을 이해할 수 있는 충실도로 재생하는데 필요한 것보다 더 적은 수의 비트들을 갖는 상기 연속적 오디오 스트림의 계산된 함수를 포함하는,
컴퓨터 프로그램 물건. - 제 25 항에 있어서,
상기 오디오 데이터의 서브세트는 다수의 오디오 데이터 세그먼트들을 포함하며,
각각의 오디오 데이터 세그먼트는 상기 연속적 오디오 스트림의 서로 다른 시간 성분으로부터의 데이터를 포함하는,
컴퓨터 프로그램 물건. - 제 27 항에 있어서,
상기 프로세서 판독 가능 명령들은 상기 프로세서로 하여금, 상기 오디오 특징들에 적어도 부분적으로 기초하여 사람의 신원을 결정하게 하도록 구성되는,
컴퓨터 프로그램 물건. - 제 27 항에 있어서,
상기 다수의 오디오 데이터 세그먼트들 각각은 녹음된 오디오의 30㎳ 내지 100㎳를 포함하는,
컴퓨터 프로그램 물건. - 제 27 항에 있어서,
상기 연속적 오디오 스트림의 각각의 시간 성분은 길이가 250㎳ 내지 2s인,
컴퓨터 프로그램 물건. - 제 27 항에 있어서,
상기 프로세서 판독 가능 명령들은 상기 프로세서로 하여금, 상기 오디오 데이터의 서브세트를 분석하기 전에 상기 다수의 오디오 데이터 세그먼트들의 순서를 랜덤하게 변경하게 하도록 구성되는,
컴퓨터 프로그램 물건. - 제 31 항에 있어서,
상기 프로세서 판독 가능 명령들은 상기 프로세서로 하여금,
글로벌 위치 결정 시스템(GPS) 디바이스,
모바일 디바이스 내 회로로부터의 신호 잡음,
마이크로폰으로부터의 신호 잡음, 및
안테나로부터의 신호 잡음
중 하나로부터의 정보에 적어도 부분적으로 기초하여, 상기 다수의 오디오 데이터 세그먼트들의 순서를 랜덤하게 변경하게 하도록 구성되는,
컴퓨터 프로그램 물건. - 프라이버시에 민감한 오디오를 모호하게 하기 위한 디바이스로서,
마이크로폰으로부터의 신호로 표현된 연속적 오디오 스트림에 포함된 오디오 데이터의 서브세트를 캡처하기 위한 수단 ― 상기 연속적 오디오 스트림은 사람의 음성을 포함하고, 상기 오디오 데이터의 서브세트는 상기 사람의 음성의 내용을 모호하게 함 ―;
오디오 특징들에 관해 상기 오디오 데이터의 서브세트를 분석하기 위한 수단; 및
상기 오디오 특징들에 적어도 부분적으로 기초하여, 주변 환경을 결정하기 위한 수단을 포함하는,
프라이버시에 민감한 오디오를 모호하게 하기 위한 디바이스. - 제 33 항에 있어서,
상기 오디오 데이터의 서브세트를 캡처하기 위한 수단은, 상기 연속적 오디오 스트림을 이해할 수 있는 충실도로 재생하는데 필요한 것보다 더 적은 수의 비트들을 갖는 상기 연속적 오디오 스트림의 계산된 함수에 따라 상기 오디오 데이터의 서브세트를 캡처하도록 구성되는,
프라이버시에 민감한 오디오를 모호하게 하기 위한 디바이스. - 제 33 항에 있어서,
상기 오디오 데이터의 서브세트를 캡처하기 위한 수단은, 상기 오디오 데이터의 서브세트가 다수의 오디오 데이터 세그먼트들을 포함하게 상기 오디오 데이터의 서브세트를 캡처하도록 구성되며,
각각의 오디오 데이터 세그먼트는 상기 연속적 오디오 스트림의 서로 다른 시간 성분으로부터의 데이터를 포함하는,
프라이버시에 민감한 오디오를 모호하게 하기 위한 디바이스. - 제 35 항에 있어서,
상기 주변 환경을 결정하기 위한 수단은, 상기 오디오 특징들에 적어도 부분적으로 기초하여 사람의 신원을 결정하도록 구성되는,
프라이버시에 민감한 오디오를 모호하게 하기 위한 디바이스. - 제 35 항에 있어서,
상기 오디오 데이터의 서브세트를 캡처하기 위한 수단은, 상기 다수의 오디오 데이터 세그먼트들 각각이, 녹음된 오디오의 30㎳ 내지 100㎳를 포함하게 상기 오디오 데이터의 서브세트를 캡처하도록 구성되는,
프라이버시에 민감한 오디오를 모호하게 하기 위한 디바이스.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161488927P | 2011-05-23 | 2011-05-23 | |
US61/488,927 | 2011-05-23 | ||
US13/213,294 | 2011-08-19 | ||
US13/213,294 US8700406B2 (en) | 2011-05-23 | 2011-08-19 | Preserving audio data collection privacy in mobile devices |
PCT/US2012/037783 WO2012162009A1 (en) | 2011-05-23 | 2012-05-14 | Preserving audio data collection privacy in mobile devices |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140021681A true KR20140021681A (ko) | 2014-02-20 |
KR101580510B1 KR101580510B1 (ko) | 2015-12-28 |
Family
ID=46178795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020137034145A KR101580510B1 (ko) | 2011-05-23 | 2012-05-14 | 모바일 디바이스들에서 오디오 데이터 수집 프라이버시의 보호 |
Country Status (6)
Country | Link |
---|---|
US (2) | US8700406B2 (ko) |
EP (1) | EP2715722B1 (ko) |
JP (1) | JP5937202B2 (ko) |
KR (1) | KR101580510B1 (ko) |
CN (1) | CN103620680B (ko) |
WO (1) | WO2012162009A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200057788A (ko) * | 2017-10-20 | 2020-05-26 | 시러스 로직 인터내셔널 세미컨덕터 리미티드 | 보안 음성 바이오메트릭 인증 |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
ES2767097T3 (es) * | 2011-09-30 | 2020-06-16 | Orange | Método, aparatos y aplicaciones para los atributos de oscurecimiento contextual de un perfil de usuario |
US8925037B2 (en) * | 2013-01-02 | 2014-12-30 | Symantec Corporation | Systems and methods for enforcing data-loss-prevention policies using mobile sensors |
US9300266B2 (en) | 2013-02-12 | 2016-03-29 | Qualcomm Incorporated | Speaker equalization for mobile devices |
US9076459B2 (en) * | 2013-03-12 | 2015-07-07 | Intermec Ip, Corp. | Apparatus and method to classify sound to detect speech |
KR102149266B1 (ko) * | 2013-05-21 | 2020-08-28 | 삼성전자 주식회사 | 전자 기기의 오디오 데이터의 관리 방법 및 장치 |
WO2015061712A1 (en) | 2013-10-24 | 2015-04-30 | Tourmaline Labs, Inc. | Systems and methods for collecting and transmitting telematics data from a mobile device |
US10057764B2 (en) * | 2014-01-18 | 2018-08-21 | Microsoft Technology Licensing, Llc | Privacy preserving sensor apparatus |
JP6215129B2 (ja) * | 2014-04-25 | 2017-10-18 | 京セラ株式会社 | 携帯電子機器、制御方法及び制御プログラム |
US10404697B1 (en) | 2015-12-28 | 2019-09-03 | Symantec Corporation | Systems and methods for using vehicles as information sources for knowledge-based authentication |
US10326733B2 (en) | 2015-12-30 | 2019-06-18 | Symantec Corporation | Systems and methods for facilitating single sign-on for multiple devices |
US10116513B1 (en) | 2016-02-10 | 2018-10-30 | Symantec Corporation | Systems and methods for managing smart building systems |
US10375114B1 (en) | 2016-06-27 | 2019-08-06 | Symantec Corporation | Systems and methods for enforcing access-control policies |
US10462184B1 (en) | 2016-06-28 | 2019-10-29 | Symantec Corporation | Systems and methods for enforcing access-control policies in an arbitrary physical space |
US10469457B1 (en) | 2016-09-26 | 2019-11-05 | Symantec Corporation | Systems and methods for securely sharing cloud-service credentials within a network of computing devices |
US10812981B1 (en) | 2017-03-22 | 2020-10-20 | NortonLifeLock, Inc. | Systems and methods for certifying geolocation coordinates of computing devices |
US10540521B2 (en) | 2017-08-24 | 2020-01-21 | International Business Machines Corporation | Selective enforcement of privacy and confidentiality for optimization of voice applications |
DE102019108178B3 (de) * | 2019-03-29 | 2020-06-18 | Tribe Technologies Gmbh | Verfahren und Vorrichtung zur automatischen Überwachung von Telefonaten |
US11354085B2 (en) | 2019-07-03 | 2022-06-07 | Qualcomm Incorporated | Privacy zoning and authorization for audio rendering |
US11580213B2 (en) * | 2019-07-03 | 2023-02-14 | Qualcomm Incorporated | Password-based authorization for audio rendering |
WO2021107218A1 (ko) * | 2019-11-29 | 2021-06-03 | 주식회사 공훈 | 음성 데이터의 프라이버시 보호를 위한 방법 및 디바이스 |
KR20210100368A (ko) | 2020-02-06 | 2021-08-17 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
Family Cites Families (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4221931A (en) * | 1977-10-17 | 1980-09-09 | Harris Corporation | Time division multiplied speech scrambler |
JPS59111441A (ja) * | 1982-12-17 | 1984-06-27 | Sony Corp | 音声信号の秘話方式 |
US5267312A (en) * | 1990-08-06 | 1993-11-30 | Nec Home Electronics, Ltd. | Audio signal cryptographic system |
JP2655046B2 (ja) * | 1993-09-13 | 1997-09-17 | 日本電気株式会社 | ベクトル量子化装置 |
WO1997027578A1 (en) * | 1996-01-26 | 1997-07-31 | Motorola Inc. | Very low bit rate time domain speech analyzer for voice messaging |
US7930546B2 (en) * | 1996-05-16 | 2011-04-19 | Digimarc Corporation | Methods, systems, and sub-combinations useful in media identification |
US6078666A (en) * | 1996-10-25 | 2000-06-20 | Matsushita Electric Industrial Co., Ltd. | Audio signal processing method and related device with block order switching |
US7809138B2 (en) * | 1999-03-16 | 2010-10-05 | Intertrust Technologies Corporation | Methods and apparatus for persistent control and protection of content |
US6119086A (en) * | 1998-04-28 | 2000-09-12 | International Business Machines Corporation | Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens |
JP3180762B2 (ja) * | 1998-05-11 | 2001-06-25 | 日本電気株式会社 | 音声符号化装置及び音声復号化装置 |
US7457415B2 (en) * | 1998-08-20 | 2008-11-25 | Akikaze Technologies, Llc | Secure information distribution system utilizing information segment scrambling |
US7263489B2 (en) * | 1998-12-01 | 2007-08-28 | Nuance Communications, Inc. | Detection of characteristics of human-machine interactions for dialog customization and analysis |
US6937730B1 (en) * | 2000-02-16 | 2005-08-30 | Intel Corporation | Method and system for providing content-specific conditional access to digital content |
US8677505B2 (en) * | 2000-11-13 | 2014-03-18 | Digital Doors, Inc. | Security system with extraction, reconstruction and secure recovery and storage of data |
US7177808B2 (en) * | 2000-11-29 | 2007-02-13 | The United States Of America As Represented By The Secretary Of The Air Force | Method for improving speaker identification by determining usable speech |
US20040059918A1 (en) * | 2000-12-15 | 2004-03-25 | Changsheng Xu | Method and system of digital watermarking for compressed audio |
US7350228B2 (en) * | 2001-01-23 | 2008-03-25 | Portauthority Technologies Inc. | Method for securing digital content |
JP3946965B2 (ja) * | 2001-04-09 | 2007-07-18 | ソニー株式会社 | 無体財産権を保護する情報を記録する記録装置、記録方法、記録媒体、およびプログラム |
DE10138650A1 (de) * | 2001-08-07 | 2003-02-27 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Verschlüsseln eines diskreten Signals sowie Verfahren und Vorrichtung zur Entschlüsselung |
US7143028B2 (en) * | 2002-07-24 | 2006-11-28 | Applied Minds, Inc. | Method and system for masking speech |
GB2392807A (en) * | 2002-09-06 | 2004-03-10 | Sony Uk Ltd | Processing digital data |
FR2846179B1 (fr) * | 2002-10-21 | 2005-02-04 | Medialive | Embrouillage adaptatif et progressif de flux audio |
FR2846178B1 (fr) * | 2002-10-21 | 2005-03-11 | Medialive | Desembrouillage adaptatif et progressif de flux audio |
JP4206876B2 (ja) * | 2003-09-10 | 2009-01-14 | ヤマハ株式会社 | 遠隔地の様子を伝達する通信装置およびプログラム |
US7564906B2 (en) * | 2004-02-17 | 2009-07-21 | Nokia Siemens Networks Oy | OFDM transceiver structure with time-domain scrambling |
US7720012B1 (en) * | 2004-07-09 | 2010-05-18 | Arrowhead Center, Inc. | Speaker identification in the presence of packet losses |
JP2006238110A (ja) * | 2005-02-25 | 2006-09-07 | Matsushita Electric Ind Co Ltd | 監視システム |
EP1725056B1 (en) * | 2005-05-16 | 2013-01-09 | Sony Ericsson Mobile Communications AB | Method for disabling a mobile device |
US8781967B2 (en) * | 2005-07-07 | 2014-07-15 | Verance Corporation | Watermarking in an encrypted domain |
US8700791B2 (en) * | 2005-10-19 | 2014-04-15 | Immersion Corporation | Synchronization of haptic effect data in a media transport stream |
US8214516B2 (en) * | 2006-01-06 | 2012-07-03 | Google Inc. | Dynamic media serving infrastructure |
JP2009534713A (ja) * | 2006-04-24 | 2009-09-24 | ネロ アーゲー | 低減ビットレートを有するデジタル音声データを符号化するための装置および方法 |
US8433915B2 (en) * | 2006-06-28 | 2013-04-30 | Intellisist, Inc. | Selective security masking within recorded speech |
US20080243492A1 (en) * | 2006-09-07 | 2008-10-02 | Yamaha Corporation | Voice-scrambling-signal creation method and apparatus, and computer-readable storage medium therefor |
CN101669308B (zh) * | 2007-02-20 | 2013-03-20 | 尼尔森(美国)有限公司 | 表征媒体的方法和装置 |
JP4245060B2 (ja) * | 2007-03-22 | 2009-03-25 | ヤマハ株式会社 | サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム |
US8243924B2 (en) * | 2007-06-29 | 2012-08-14 | Google Inc. | Progressive download or streaming of digital media securely through a localized container and communication protocol proxy |
JP4914319B2 (ja) * | 2007-09-18 | 2012-04-11 | 日本電信電話株式会社 | コミュニケーション音声処理方法とその装置、及びそのプログラム |
US8379854B2 (en) * | 2007-10-09 | 2013-02-19 | Alcatel Lucent | Secure wireless communication |
KR101444099B1 (ko) * | 2007-11-13 | 2014-09-26 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치 |
US8140326B2 (en) * | 2008-06-06 | 2012-03-20 | Fuji Xerox Co., Ltd. | Systems and methods for reducing speech intelligibility while preserving environmental sounds |
CA2731732A1 (en) * | 2008-07-21 | 2010-01-28 | Auraya Pty Ltd | Voice authentication system and methods |
US8515747B2 (en) * | 2008-09-06 | 2013-08-20 | Huawei Technologies Co., Ltd. | Spectrum harmonic/noise sharpness control |
JP5222680B2 (ja) * | 2008-09-26 | 2013-06-26 | セコム株式会社 | 端末利用者監視装置およびシステム |
US8244531B2 (en) * | 2008-09-28 | 2012-08-14 | Avaya Inc. | Method of retaining a media stream without its private audio content |
US20100114568A1 (en) * | 2008-10-24 | 2010-05-06 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
US20100114344A1 (en) * | 2008-10-31 | 2010-05-06 | France Telecom | Communication system incorporating ambient sound pattern detection and method of operation thereof |
WO2010054373A2 (en) * | 2008-11-10 | 2010-05-14 | Google Inc. | Multisensory speech detection |
EP2221803A2 (en) * | 2009-02-19 | 2010-08-25 | Yamaha Corporation | Masking sound generating apparatus, masking system, masking sound generating method, and program |
KR101581883B1 (ko) * | 2009-04-30 | 2016-01-11 | 삼성전자주식회사 | 모션 정보를 이용하는 음성 검출 장치 및 방법 |
US8200480B2 (en) * | 2009-09-30 | 2012-06-12 | International Business Machines Corporation | Deriving geographic distribution of physiological or psychological conditions of human speakers while preserving personal privacy |
US8861742B2 (en) * | 2010-01-26 | 2014-10-14 | Yamaha Corporation | Masker sound generation apparatus and program |
US20110184740A1 (en) * | 2010-01-26 | 2011-07-28 | Google Inc. | Integration of Embedded and Network Speech Recognizers |
US8423351B2 (en) * | 2010-02-19 | 2013-04-16 | Google Inc. | Speech correction for typed input |
US20110218798A1 (en) * | 2010-03-05 | 2011-09-08 | Nexdia Inc. | Obfuscating sensitive content in audio sources |
US20110216905A1 (en) * | 2010-03-05 | 2011-09-08 | Nexidia Inc. | Channel compression |
US8965545B2 (en) * | 2010-09-30 | 2015-02-24 | Google Inc. | Progressive encoding of audio |
US20120136658A1 (en) * | 2010-11-30 | 2012-05-31 | Cox Communications, Inc. | Systems and methods for customizing broadband content based upon passive presence detection of users |
US8938619B2 (en) * | 2010-12-29 | 2015-01-20 | Adobe Systems Incorporated | System and method for decrypting content samples including distinct encryption chains |
US20120203491A1 (en) * | 2011-02-03 | 2012-08-09 | Nokia Corporation | Method and apparatus for providing context-aware control of sensors and sensor data |
US9262612B2 (en) * | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9407706B2 (en) * | 2011-03-31 | 2016-08-02 | Qualcomm Incorporated | Methods, devices, and apparatuses for activity classification using temporal scaling of time-referenced features |
US20130006633A1 (en) * | 2011-07-01 | 2013-01-03 | Qualcomm Incorporated | Learning speech models for mobile device users |
US9159324B2 (en) * | 2011-07-01 | 2015-10-13 | Qualcomm Incorporated | Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context |
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
-
2011
- 2011-08-19 US US13/213,294 patent/US8700406B2/en active Active
-
2012
- 2012-05-14 KR KR1020137034145A patent/KR101580510B1/ko active IP Right Grant
- 2012-05-14 JP JP2014512870A patent/JP5937202B2/ja active Active
- 2012-05-14 WO PCT/US2012/037783 patent/WO2012162009A1/en unknown
- 2012-05-14 EP EP12724453.1A patent/EP2715722B1/en active Active
- 2012-05-14 CN CN201280030290.3A patent/CN103620680B/zh active Active
-
2014
- 2014-02-21 US US14/186,730 patent/US20140172424A1/en not_active Abandoned
Non-Patent Citations (2)
Title |
---|
Andrey Temko et al., ‘CLEAR Evaluation of acoustic event detection and classification systems’, Multimedia technologies for perception of humans, LNCS 4122, pp.311~322, 2007* * |
Daniel P.W. Ellis et al., ‘Minimal-impact audio-based personal archives’, CARPE’04, Proceedings of the 1st ACM workshop on continuous archive and retrival of personal experiences, 2004* * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200057788A (ko) * | 2017-10-20 | 2020-05-26 | 시러스 로직 인터내셔널 세미컨덕터 리미티드 | 보안 음성 바이오메트릭 인증 |
Also Published As
Publication number | Publication date |
---|---|
CN103620680A (zh) | 2014-03-05 |
WO2012162009A1 (en) | 2012-11-29 |
US20120303360A1 (en) | 2012-11-29 |
US20140172424A1 (en) | 2014-06-19 |
KR101580510B1 (ko) | 2015-12-28 |
JP5937202B2 (ja) | 2016-06-22 |
US8700406B2 (en) | 2014-04-15 |
JP2014517939A (ja) | 2014-07-24 |
EP2715722A1 (en) | 2014-04-09 |
EP2715722B1 (en) | 2018-06-13 |
CN103620680B (zh) | 2015-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101580510B1 (ko) | 모바일 디바이스들에서 오디오 데이터 수집 프라이버시의 보호 | |
WO2020029906A1 (zh) | 一种多人语音的分离方法和装置 | |
US9711135B2 (en) | Electronic devices and methods for compensating for environmental noise in text-to-speech applications | |
EP2994911B1 (en) | Adaptive audio frame processing for keyword detection | |
US20180213339A1 (en) | Adapting hearing aids to different environments | |
KR102047596B1 (ko) | 오디오 대역폭 선택 | |
KR101615421B1 (ko) | 유사한 사운드 환경 내의 모바일 디바이스들을 식별하는 방법 및 장치 | |
US10433256B2 (en) | Application control method and application control device | |
WO2013040414A1 (en) | Mobile device context information using speech detection | |
US11218666B1 (en) | Enhanced audio and video capture and presentation | |
US20210303254A1 (en) | Wireless speaker system | |
US9769311B2 (en) | Presence-based device mode modification | |
US10884696B1 (en) | Dynamic modification of audio signals | |
US9818427B2 (en) | Automatic self-utterance removal from multimedia files | |
CN107659603B (zh) | 用户与推送信息互动的方法及装置 | |
KR20240100384A (ko) | 신호 부호화/복호화 방법, 장치, 사용자 기기, 네트워크측 기기 및 저장 매체 | |
CN117711420B (zh) | 目标人声提取方法、电子设备及存储介质 | |
CN112449284A (zh) | 无线扬声器系统 | |
CN115804099A (zh) | 场景描述的再现控制 | |
CN107005809B (zh) | 智能手机运动分类器 | |
CN111787149A (zh) | 一种降噪处理方法、系统和计算机储存介质 | |
CN110942782A (zh) | 一种语音压缩、解压缩方法、装置和电子设备 | |
CN112926623A (zh) | 识别合成视频的方法、装置、介质及电子设备 | |
WO2023160515A1 (zh) | 视频处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20180928 Year of fee payment: 4 |