KR102229039B1 - 오디오 활동 추적 및 요약들 - Google Patents

오디오 활동 추적 및 요약들 Download PDF

Info

Publication number
KR102229039B1
KR102229039B1 KR1020207010405A KR20207010405A KR102229039B1 KR 102229039 B1 KR102229039 B1 KR 102229039B1 KR 1020207010405 A KR1020207010405 A KR 1020207010405A KR 20207010405 A KR20207010405 A KR 20207010405A KR 102229039 B1 KR102229039 B1 KR 102229039B1
Authority
KR
South Korea
Prior art keywords
audio
mode
activity
tracked
event
Prior art date
Application number
KR1020207010405A
Other languages
English (en)
Other versions
KR20200062229A (ko
Inventor
머레이 자비스
벤자민 탈로우
니꼴라 그로브
클락 돈 울스텐훔
사이먼 핀치
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20200062229A publication Critical patent/KR20200062229A/ko
Application granted granted Critical
Publication of KR102229039B1 publication Critical patent/KR102229039B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

다양한 실시형태들은 오디오 신호를 수신하는 것에 기초하여 오디오 이벤트를 결정하는데 사용될 수도 있는 디바이스를 개시하는 시스템들 및 방법들을 제공한다. 결정된 오디오 이벤트에 기초하여, 오디오 활동이 추적될 수도 있다. 추적된 오디오 활동은 요약 모드에 기초하여 요약될 수도 있다. 요약된 추적된 오디오 활동의 피드백은 피드백 모드에 기초할 수도 있다.

Description

오디오 활동 추적 및 요약들
본원은 2017 년 10 월 12 일자로 출원된 미국 특허 출원 제 15/782,287 호의 혜택을 주장하며, 그 전체 내용은 참조에 의해 본원에 통합된다.
본 개시는 일반적으로 오디오 프로세싱 및 사용자 인터페이스들에 관한 것이다.
기술의 발전으로 인해, 더 많은 소비자들이 신체 활동들을 추적하는데 사용되고 있는 피트니스 밴드 또는 활동 추적기 (예를 들어, 핏비트 (fitbit) 디바이스 또는 웨어러블 워치) 가 발생했다. 이러한 피트니스 및 활동 추적기는 일반적으로 착용되며, 웨어러블 디바이스 내의 트랜시버들에 커플링된, 개인의 심박을 측정하거나 움직임을 측정하기 위한 센서들을 포함한다. 다수의 경우에, 웨어러블 디바이스는 블루투스 무선 통신을 통해 피트니스 또는 활동 (예를 들어, 걸음 수, 소모된 칼로리, 또는 서 있는 시간) 을 스마트폰 또는 다른 모바일 디바이스에 무선으로 송신한다.
지난 몇 년 동안, "히어러블 (hearables)" 이라는 용어는 웨어러블 디바이스 및 헤드폰의 사용을 설명하는데 사용되었다. 또한 히어러블은 사운드를 재생하기 위한 스피커와, 음성 명령을 캡처하거나 전화로 통화하기 위한 마이크를 포함한다. 히어러블은 심박, 온도, 산소 포화도 또는 억양을 추적하기 위한 센서를 포함할 수도 있다. 또한, 히어러블은 스마트 폰 또는 모바일 디바이스와 통신하기 위한 블루투스 집적 회로를 포함할 수도 있다. 일부 히어러블은 Wi-Fi 및 셀룰러 연결이 가능하여 사용자가 전화로의 무선 페어링 없이 전화 통화하게 한다. 머신 학습의 발전에 따라 음성 인식의 발전 또한 증가하고 있으며, 이는 히어러블에 포함될 수도 있는 추가 기술이다.
히어러블의 기술이 계속 발전함에 따라, 새로운 도전과제와 기회가 발생할 수도 있다.
다양한 실시형태들은 오디오 신호를 수신하는 것에 기초하여 오디오 이벤트를 결정하기 위한 하나 이상의 프로세서들을 포함하는 디바이스에 대한 방법을 포함한다. 하나 이상의 프로세서들은 결정된 오디오 이벤트에 기초하여 오디오 활동을 추적하고 요약 모드에 기초하여 추적된 오디오 활동을 요약한다. 또한, 하나 이상의 프로세서들은 피드백 모드에 기초하여 요약된 추적된 오디오 활동의 피드백을 제공한다. 추가로, 하나 이상의 프로세서들은 피드백 모드를 선택하고, 시각적 피드백 모드에 기초하여 요약된 추적된 오디오 활동을 디스플레이할 수도 있다. 동일하거나 대안적인 실시형태에서, 선택된 피드백 모드가 청각 피드백 모드일 때, 요약된 추적된 오디오 활동이 청취가능할 수도 있다.
오디오 신호를 수신하는 것에 기초하여 오디오 이벤트를 결정하는 방법을 포함하는 다양한 실시형태들이 있다. 그 방법은 결정된 오디오 이벤트에 기초하여 오디오 활동을 추적하는 단계를 포함하고, 요약 모드에 기초하여 추적된 오디오 활동을 요약한다. 또한, 방법은 피드백 모드에 기초하여 요약된 추적된 오디오 활동의 피드백을 제공하는 단계를 포함한다. 추가로, 일 실시형태에서, 방법은 피드백 모드를 선택하는 단계, 및 시각적 피드백 모드에 기초하여 요약된 추적된 오디오 활동을 디스플레이하는 단계를 포함한다. 동일하거나 대안적인 실시형태에서, 방법은 추적된 오디오 활동을 요약하는 단계를 포함하고, 선택된 피드백 모드가 청각 피드백 모드일 때, 청취가능할 수도 있다.
오디오 신호를 수신하는 것에 기초하여 오디오 이벤트를 결정하는 수단 및 상기 결정된 오디오 이벤트에 기초하여 오디오 활동을 추적하는 수단을 포함하는 장치를 포함하는 다양한 실시형태들이 존재한다. 또한, 그 장치는 요약 모드에 기초하여 추적된 오디오 활동을 요약하는 수단 및 피드백 모드에 기초하여 요약 된 추적된 오디오 활동의 피드백을 제공하는 수단을 포함한다.
명령들을 저장한 비-일시적 컴퓨터 판독가능 저장 매체를 포함하는 다양한 실시형태들이 존재하며, 그 명령들은, 실행될 때, 디바이스의 하나 이상의 프로세서들이 오디오 신호를 수신하는 것에 기초하여 오디오 이벤트를 결정하게 한다. 명령들은, 실행될 때, 하나 이상의 프로세서들로 하여금 결정된 오디오 이벤트에 기초하여 오디오 활동을 추적하게 하고, 요약 모드에 기초하여 추적된 오디오 활동을 요약하게 하고, 그리고 피드백 모드에 기초하여 요약된 추적된 오디오 활동의 피드백을 제공하게 한다.
본 명세서에 통합되고 본 명세서의 부분을 구성하는 첨부 도면들은 청구항의 예시적인 실시형태들을 도시하고, 상기 제공된 일반적인 설명 및 하기에 제공되는 상세한 설명과 함께, 청구항의 특징들을 설명하도록 제공한다.
도 1 은 본 명세서에 개시된 다양한 실시형태들을 구현하기에 적합한 디바이스의 일 예를 도시한 컴포넌트 블록도이다.
도 2 는 오디오 활동 유닛 및 오디오 활동 피드백 제공기를 포함하는 블록도를 도시한다.
도 3 은 오디오 이벤트 결정기의 다수의 실시형태들을 도시한다.
도 4 는 오디오 활동 추적기의 예시적인 구현을 도시한다.
도 5 는 추적된 활동 요약기의 예시적인 실시형태를 도시한다.
도 6 은 패킷의 일부일 수도 있는 상이한 필드를 도시한다.
도 7 은 상이한 타입의 개인 식별을 도시한다.
도 8 은 오디오 이벤트를 배치 프로세싱하는 실시형태를 도시한다.
도 9 는 디스플레이 상의 일일 오디오 활동의 요약의 예시적인 도면을 도시한다.
도 10 은 디스플레이 상의 요약된 추적된 오디오 활동과 연관된 감정에 대한 링크의 다른 예시적인 뷰를 도시한다.
도 11 은 예시적인 사용 케이스를 도시한다.
다양한 실시형태들이 첨부 도면들을 참조하여 상세하게 설명될 것이다. 가능한 어느 곳에서든, 동일한 참조부호들이 동일하거나 유사한 부분들을 지칭하기 위해 도면들 전반에 걸쳐 사용될 것이다. 특정 예들 및 구현들에 대해 행해진 참조들은 예시적인 목적들을 위한 것이고, 청구항들의 범위를 한정하도록 의도되지 않는다.
본 개시의 특정 구현들이 도면들을 참조하여 이하에 설명된다. 설명에서, 공통 특징들은 도면 전반에 걸쳐 공통 참조 번호로 표시된다. 본 명세서에서 사용된 바와 같이, 다양한 용어가 단지 특정 구현들을 설명할 목적으로 사용되고 한정하는 것으로 의도되지 않는다. 예를 들어, 단수 형태 "a", "an" 및 "the" 는, 문맥이 다르게 명시하지 않으면, 복수 형태들을 포함하도록 의도된다. 용어들 "포함한다 (comprise)", "포함한다 (comprises)", 및 "포함하는 (comprising)" 은 "포함한다 (include)", "포함한다 (includes)", 또는 "포함하는 (including)" 과 상호교환가능하게 사용될 수도 있는 것으로 추가로 이해될 수도 있다. 추가적으로, 용어 "여기서 (wherein)" 는 "여기에서 (where)" 와 상호교환가능하게 사용될 수도 있는 것으로 이해될 것이다. 본원에서 사용될 때, "예시적인" 은 예, 구현예, 및/또는 양태를 표시할 수도 있으며, 한정하거나 또는 선호사항 또는 바람직한 구현예를 표시하는 것으로 해석되어서는 안 된다. 본 명세서에 사용된 바와 같이, 구조, 컴포넌트, 동작 등과 같은 엘리먼트를 수정하는데 사용되는 서수 용어 (예를 들어, "제 1", "제 2", "제 3" 등) 는 그것만으로 그 엘리먼트의 다른 엘리먼트에 대한 어떤 우선순위 또는 순서도 표시하지 않고, 오히려 그 엘리먼트를 (서수 용어의 사용이 없다면) 동일 명칭을 갖는 다른 엘리먼트와 구별할 뿐이다. 본원에 사용된 바와 같이, 용어 "세트" (set) 는 하나 이상의 엘리먼트들의 그룹화를 지칭하고, 용어 "복수" (plurality) 는 다수의 엘리먼트들을 지칭한다.
본원에 사용된 바와 같이, "커플링된" 은 "통신적으로 커플링된", "전기적으로 커플링된", 또는 "물리적으로 커플링된" 을 포함할 수도 있고, 또한 (또는 대안적으로) 이들의 임의의 조합을 포함할 수도 있다. 2 개의 디바이스들 (또는 컴포넌트들) 은 하나 이상의 다른 디바이스, 컴포넌트, 와이어, 버스, 네트워크 (예를 들어, 유선 네트워크, 무선 네트워크, 또는 이들의 조합) 등을 통해 직접적으로 또는 간접적으로 커플링될 (예를 들어, 통신적으로 커플링될, 전기적으로 커플링될, 또는 물리적으로 커플링될) 수도 있다. 전기적으로 커플링된 2 개의 디바이스들 (또는 컴포넌트들) 은 동일한 디바이스 또는 상이한 디바이스에 포함될 수도 있고, 예시적인, 비-제한적인 예들로서 전자기기들, 하나 이상의 커넥터들 또는 유도 결합을 통해 접속될 수도 있다. 일부 구현들에서, 전기 통신에서와 같이 통신적으로 커플링된 2 개의 디바이스 (또는 컴포넌트) 는 하나 이상의 와이어, 버스, 네트워크 등을 통해와 같이 전기 신호 (디지털 신호 또는 아날로그 신호) 를 직접적으로 또는 간접적으로 전송 및 수신할 수도 있다. 본 명세서에서 사용되는 바와 같이, "직접적으로 커플링된" 은 개재하는 컴포넌트들 없이 커플링된 (예를 들어, 통신적으로 커플링된, 전기적으로 커플링된, 또는 물리적으로 커플링된) 2 개의 디바이스들을 포함할 수도 있다.
본원에 사용된 바와 같이, "통합된" 은 "제조된 또는 판매 된" 을 포함할 수도 있다. 사용자가 디바이스를 번들링하거나 패키지의 일부로서 포함하는, 패키지를 구매하는 경우에, 디바이스가 통합될 수도 있다. 일부 설명에서, 2 개의 디바이스들이 커플링될 수도 있지만, 반드시 통합될 필요는 없다 (예를 들어, 상이한 주변 디바이스들이 디바이스에 통합되지 않을 수도 있지만 여전히 "커플링"될 수도 있다). 다른 예는 프로세서에 "커플링"될 수도 있지만 디바이스를 포함하는 패키지의 일부일 필요는 없는, 본 명세서에 기술된 임의의 트랜시버 또는 안테나일 수도 있다. 용어 "통합된" 을 사용할 때, 이 단락을 포함하여 본원에 개시된 문맥으로부터 다른 예들이 추론될 수도 있다.
본 명세서에서 사용되는 바와 같이, "제공하다" 는 "전송하는" 을 포함할 수도 있으며, 예를 들어 하나 이상의 프로세서가 출력 신호 또는 신호들을 다른 컴포넌트에 제공할 수도 있고, 이는 등가적으로 하나 이상의 프로세서가 출력 신호 또는 신호들을 다른 컴포넌트에 전송할 수도 있음을 의미할 수도 있다.
본 명세서에 사용된 바와 같이, 디바이스들 간의 "무선 접속" 은 다양한 무선 기술, 예컨대 블루투스, 무선-충실도 (Wi-Fi) 또는 Wi-Fi 의 변형 (예를 들어, Wi-Fi Direct) 에 기초할 수도 있다. 디바이스들은 롱 텀 에볼루션 (LTE) 시스템, 코드 분할 다중 액세스 (CDMA) 시스템, 모바일 통신용 글로벌 시스템 (GSM) 시스템, 무선 로컬 영역 네트워크 (WLAN) 시스템, 또는 일부 다른 무선 시스템과 같은 상이한 셀룰러 통신 시스템에 기초하여 "무선으로 접속될" 수도 있다. CDMA 시스템은 광대역 CDMA (WCDMA), CDMA 1X, EVDO (Evolution-Data Optimzed), 시분할 동기 CDMA (TD-SCDMA), 또는 CDMA 의 일부 다른 버전을 구현할 수도 있다. 또한, 2 개의 디바이스들 가시선 내에 있을 때, "무선 접속" 은 또한, 초음파, 적외선, 펄스 무선 주파수 전자기 에너지, 구조 광 또는 신호 프로세싱 (예를 들어, 오디오 신호 프로세싱 또는 무선 주파수 프로세싱) 에 사용되는 도달 방향 기술과 같은 다른 무선 기술에 기초할 수도 있다.
"컴퓨팅 디바이스" 라는 용어는 본 명세서에서 일반적으로 서버, 개인용 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 모바일 디바이스, 셀룰러 전화, 스마트북, 울트라북, 팜탑 컴퓨터, 개인용 데이터 보조기 (PDA), 무선 전자 메일 수신기, 멀티미디어 인터넷 가능 셀룰러 전화, GPS (Global Positioning System) 수신기, 무선 게임 컨트롤러, 및 정보를 무선으로 전송 및/또는 수신하기 위한 프로그램가능 프로세서 및 회로를 포함하는 유사한 전자 디바이스 중 어느 하나 또는 전부를 지칭하기 위해 사용된다.
"오디오 신호" 라는 용어는 하나 이상의 마이크로폰이 하나 이상의 마이크로폰에 영향을 미치는 음파를 캡처하거나 또는 기록한 후에 상이한 스테이지들에서 상호 교환가능하게 사용될 수도 있다. 또한, 오디오 신호라는 용어는 또한 다른 디바이스로부터 패킷을 수신하는 상이한 단계에서 상호교환가능하게 사용될 수도 있다.
"모바일 디바이스", "접속된 디바이스", "무선 디바이스", 및 "무선 노드" 라는 용어는 본 명세서에서 상호교환 가능하게 사용되며, 셀룰러 전화, 개인 또는 모바일 멀티미디어 플레이어, 시계, 손목 디스플레이, 의료 디바이스, 헤드셋, 헤드폰, 스피커, 마이크로폰, 컴퓨팅 디바이스 및 기타 유사한 전자기기 중 어느 하나 또는 모두를 포함하여, 정보를 무선으로 전송 및/또는 수신하기 위한 회로를 포함하는 임의의 전자 디바이스를 지칭한다.
본 명세서에서 사용된 바와 같이, A "및/또는" B 는 "A 및 B", 또는 "A 또는 B", 또는 "A 및 B" 와 "A 또는 B" 양자가 적용가능하거나 수용가능하다는 것을 의미할 수도 있다.
도 1 은 디바이스 (100) 의 예시적인 컴포넌트들을 나타내는 블록도이다. 디바이스 (100) 는 청취가능한 디바이스일 수도 있거나 또는 사람의 귀 내에 또는 주위에 스피커를 반드시 포함하지 않는 다른 디바이스일 수도 있다. 예를 들어, 다른 디바이스는 마이크로폰 또는 스마트 워치를 포함하는 가정용 스피커일 수도 있다. 디바이스 (100) 는 또한 하나 이상의 센서, 하나 이상의 카메라, 및/또는 여기에 개시된 일부 실시형태들 통합하는 디스플레이 디바이스와 같은 예시적인 컴포넌트들을 포함할 수도 있다.
특정 구현에서, 디바이스 (100) 는, 메모리 (126) 에 커플링된 중앙 프로세싱 유닛 (CPU); 또는 디지털 프로세서 (DSP); 또는 그래픽 프로세싱 유닛 (GPU) 을 포함하는 프로세서 (128) 를 포함한다. 메모리 (126) 는 컴퓨터 판독가능 명령 또는 프로세서 판독가능 명령과 같은 명령 (130) (예를 들어, 실행가능 명령) 을 포함한다. 명령 (130) 은 프로세서 (128) 와 같은 컴퓨터에 의해 실행가능한 하나 이상의 명령을 포함할 수도 있다.
도 1 은 또한, 프로세서 (128) 에 그리고 디바이스 (100) 의 하나 이상의 컴포넌트들에 커플링된 하나 이상의 제어기 (120) 를 도시한다. 예를 들어, 하나 이상의 제어기 (120) 는 다양한 주변 디바이스들 (예를 들어, 디스플레이 디바이스 (110), 센서 (108), 카메라(들) (106) 및 마이크로폰(들) (102)) 에 커플링될 수도 있다. 본 명세서에 설명된 바와 같이, 디스플레이 디바이스 (110) 는 디바이스 (100) 와 통합되거나, 또는 본 명세서에 개시된 디바이스 (100) 와의 설명과 연관된 구현에서 통합되지 않을 수도 있다.
오디오/스피치 코더/디코더 (코덱) (114) 는 또한 프로세서 (128) 및 메모리 (126) 에 커플링될 수도 있다. 마이크로폰(들) (102) 은 오디오/스피치 코덱에 커플링될 수도 있다. 오디오/스피치 코덱 출력은 오디오/스피치 버퍼 (136) 일 수도 있고, 마이크로폰(들) (102) 에 의해 캡처된 오디오 및/또는 스피치의 샘플을 저장할 수도 있다. 샘플은 오디오 파형의 일부일 수도 있다. 당업자는 오디오/스피치 샘플을 오디오 또는 스피치 샘플 또는 양자로 지칭할 수도 있다. 음성의 시간적 주파수 에 있는 오디오 샘플은 스피치 샘플로 지칭될 수도 있다. 비디오 코더/디코더 (코덱) (미도시) 는 또한 프로세서 (128) 및 메모리 (126) 에 커플링될 수도 있다. 카메라(들) (106) 은 비디오 코덱에 커플링될 수도 있다. 비디오 코덱 출력은 픽셀 버퍼 (131) 일 수도 있고, 카메라(들) (106) 에 의해 캡처된 비디오의 픽셀들을 저장할 수도 있다. 카메라(들) (106) 에 의해 캡처된 비디오의 픽셀들은 디바이스 (100) 근처의 환경 또는 장면의 이미지 또는 이미지의 일부를 포함할 수도 있다. 대안적으로 또는 추가적으로, 카메라(들) (106) 에 의해 캡처된 비디오의 픽셀은 이미지 또는 사용자 이미지의 일부를 포함할 수도 있다. 하나 이상의 센서(들) (108) 은 프로세서 (128) 및 메모리 (126) 에 커플링될 수도 있다. 센서(들) (108) 의 출력은 센서 버퍼 (132) 일 수도 있고, 센서(들) (108) 에 의해 캡처된 여기에 설명된 위치 데이터의 샘플들을 저장할 수도 있다.
디바이스 (100) 는 트랜시버 (122) 를 포함할 수도 있고, 트랜시버 (122) 는 프로세서 (128) 및 안테나 (112) 에 커플링될 수도 있어서, 안테나 (112) 및 트랜시버 (122) 를 통해 수신된 무선 데이터가 프로세서 (128) 에 제공될 수도 있다. 디바이스 (100) 는 또한 통신 프로토콜을 구현하는 네트워크 인터페이스 (124) 를 포함할 수도 있다. 디바이스 (100) 의 일부 구현에서, 네트워크 인터페이스 (124) 는 프로세서 (128) 내로 직접 통합될 수도 있다. 일부 구현들에서, 프로세서 (128), 제어기(들) (120), 메모리 (126) 및 트랜시버 (122) 는 시스템-인-패키지 또는 시스템-온-칩 디바이스에 포함될 수도 있다. 일부 구현들에서, 다양한 주변장치들이 디바이스 (100) 내로 통합될 수도 있다.
또한, 특정 구현에서, 도 1 에 도시된 바와 같이, 디스플레이 디바이스 (110), 센서(들) (108), 카메라(들) (106) 및 마이크로폰(들) (102), 안테나 (112) 는 시스템-온-칩 디바이스 외부에 있다. 특정 구현에서, 디스플레이 디바이스 (110), 센서(들) (108), 카메라(들) (106), 마이크로폰(들) (102) 및 안테나 (112) 의 각각은 하나 이상의 제어기(들) (120) 또는 메모리 (126) 와 같은 시스템-온-칩 디바이스의 컴포넌트에 커플링될 수도 있다.
디바이스 (100) 는 예시적인 비제한적인 예로서, 헤드셋, 스마트 안경 또는 증강 현실 디바이스, 가상 현실 디바이스, 혼합 현실 디바이스, 확장 현실 디바이스, 로봇, 이동 통신 디바이스, 스마트 폰, 셀룰러 폰, 랩톱 컴퓨터, 컴퓨터, 스마트 안경, 태블릿, 개인 디지털 보조장치, 텔레비전, 게임 콘솔, 음악 플레이어, 라디오, 디지털 비디오 플레이어, 차량의 오디오 시스템의 일부로서, 디지털 비디오 디스크 (DVD) 플레이어, 독립형 카메라, 내비게이션 디바이스, 차량, 차량의 컴포넌트 또는 이들의 임의의 조합을 포함할 수도 있다.
예시적인 구현에서, 메모리 (126) 는 명령 (130) 을 저장하는 비-일시적 컴퓨터 판독가능 매체를 포함하거나 또는 이에 대응할 수도 있다. 명령 (130) 은 프로세서 (128) 와 같은 컴퓨터에 의해 실행가능한 하나 이상의 명령을 포함할 수도 있다. 명령 (130) 은 프로세서 (128) 가 도 1 내지 도 10 중 어느 하나와 연관된 설명의 하나 이상의 부분을 포함하지만 이에 제한되지 않는, 여기에 설명된 하나 이상의 동작들을 수행하게 할 수도 있다.
디바이스 (100) 는 오디오 활동 유닛 (116), 오디오 활동 피드백 제공기 (118), 오디오 이벤트 버퍼 (138), 요약된 추적된 오디오 활동 버퍼 (144), 오디오/스피치 패킷 버퍼 (142) 를 포함할 수도 있다. 버퍼, 오디오 활동 유닛 (116) 및 오디오 활동 피드백 제공기 (118) 는 본 개시 내의 다양한 장소에서 보다 상세히 설명된다.
도 2 는 오디오 활동 유닛 및 오디오 활동 피드백 제공기를 포함하는 블록도를 도시한다. 프로세서 기술이 더 작은 노드 크기로 계속해서 축소됨에 따라, Amazon Echo 또는 Google Home 과 같은 디지털 어시스턴트의 기능도 웨어러블 디바이스에 통합될 수도 있다. 디바이스를 착용하는 것의 한 가지 장점은 여러 환경들에서 (예를 들어, 자동차, 집, 사무실에서) 사용자의 사회적 상호작용을 추적할 수 있다는 것이다.
예를 들어, 히어러블, 워치 또는 스마트 안경과 같은 디바이스를 착용하는 것의 또 다른 장점은 이러한 디바이스의 마이크로폰이 사용자의 하루 동안 스마트 폰에서 때때로 발생하는 것처럼, 주머니 또는 지갑에 없을 수도 있다는 것이다. 일부 실시형태에서, 오디오 신호를 레코딩 또는 캡처하는 것과 착용자의 대표적인 경험 사이에는 더 양호한 상관 관계가 있을 수도 있다.
예를 들어, 웨어러블은 경우에 따라 교번하는 배치에서 더 안정적일 수도 있으며, 실제 착용자 경험과 더 집중하여 상관될 수도 있다. 또한, 웨어러블 (예를 들어, 웨어러블 센서) 의 경우, 공통의 물리적 이벤트의 상이한 타입의 측정을 획득하기 위해, 센서를 신체 상의 상이한 지점에 배치하는 것이 유리할 수도 있다. 상이한 장소에 센서를 배치하는 것은 다른 도전과제와 한계를 초래할 수도 있지만, 이러한 배치의 장점은 바디 모션 (예를 들어, 발 센서, 손목 센서, 벨트 주변 센서 또는 히어러블) 이 오디오 이벤트 검출에 대한 신뢰도를 증가시킬 수도 있고 및/또는 오디오 이벤트 검출을 초래할 수도 있다는 것이다. 이와 같이, 이들은 일부 실시형태에서, 잠재적으로 유동적일 수도 있고, 사용자의 모션 또는 사용자의 모션의 적어도 일부 (예를 들어, 팔, 발 등) 와 관련하여 약하고, 유동적이며, 부정확할 수도 있는, 예를 들어 전화에 비해 장점들을 가질 수도 있다.
논-웨어러블 디바이스는 또한, 본 명세서에 개시된 하나 이상의 실시형태들을 통합할 수도 있다. 오디오 활동 유닛 (202) 및/또는 오디오 활동 피드백 제공기 유닛 (210) 을 포함하는 디바이스들은 무선으로 접속된 디바이스들 간의 정보 전송, 더 큰 메모리 크기, 및/또는 기계 학습의 진보로부터 발생되는 기술 능력이 증가될 것으로 예상된다. 예를 들어, 로컬 캡처를 허용하지만 분석을 위해 더 많은 프로세싱을 요구할 수도 있는 센서는 접속 및 원격 프로세싱의 이점을 얻을 수도 있다. 따라서, 사회적 상호작용 외에 다른 오디오 활동을 추적하는 능력은 전반적인 오디오 경험을 캡처하여 이를 활동들로 변환하고, 사회적 상호작용 이상의 경험을 요약하는 것을 목표로 한다. 또한, 상이한 타입의 요약 모드를 기반으로 요약 오디오 활동을 제공할 수 있게 될 것이다. 요약 모드는 도 5 에서 논의된다.
사회적 상호작용을 넘어서는 오디오 활동의 예 (즉, 사회적 상호작용은 적어도 2 명의 사람이 여러모로 논의하는 것을 수반함) 는 텔레비전 또는 음악을 리스닝하는데 소비된 시간을 포함할 수도 있다. 다른 예는 감정 (예를 들어, 화남, 행복함, 중립, 등) 을 분류하는 것, 또는 오디오 신호 레벨 (예를 들어, 외침 또는 속삭임) 에 기초하여 말하는데 (또는 리스닝하는데) 소비된 시간을 분류하는 것과 관련될 수도 있다. 다른 예는 상이한 타입의 사람들 (예를 들어, 어린이 대 성인, 또는 남성 대 여성) 을 리스닝하는데 소비된 시간을 포함한다. 오디오 활동에 기초하여, 오디오 피드백 제공기 (210) 는 사용자에게 시각적 또는 청각적 피드백을 제공할 수도 있다.
일 실시형태에서, 디바이스 (예컨대, 디바이스 (100)) 는 오디오 신호의 수신에 기초하여 오디오 이벤트를 결정하도록 구성된 오디오 이벤트 결정기 (204) (도 3 참조) 를 포함하는 오디오 활동 유닛 (202) 을 포함한다. 오디오 이벤트는 소리를 내는 물체나 개인을 기준으로 발생한다. 오디오 이벤트의 예는 IEEE Transactions of Multimedia, Vol. 17, No. 10, October 2015 에서 Stowell 등의 "Detection and Classification of Acoustic Scenes and Events" 에 개시된다. 오디오 이벤트의 예로는 도어 노크, 도어 슬램 (door slam), 스피치, 웃음, 헛기침, 기침, 서랍, 프린터, 키보드 클릭, 마우스 클릭, 테이블 표면 상의 마커, 테이블에 키를 배치하는 것, 전화 벨 울림, 짧은 경고 (예컨대, 경고음), 페이지 넘김을 포함한다. 오디오 이벤트는 오직 이 예들에만 국한되지 않는다. 오디오 이벤트의 다른 비-제한적인 예는 의자 이동, 악기 스트링 (예를 들어, 기타), 비트 (예를 들어, 드럼), 테이블 위에 놓인 병, 믹서기 소리, 헬리콥터 소리 등을 포함한다.
동일하거나 대안적인 실시형태에서, 오디오 이벤트 결정기 (204) 는 결정된 오디오 이벤트에 기초하여 오디오 활동을 추적하도록 구성된 오디오 활동 추적기 (206) (도 4 참조) 에 커플링된다.
동일하거나 대안적인 실시형태에서, 디바이스는 요약 모드에 기초하여 추적된 오디오 활동을 요약하도록 구성된 추적된 오디오 활동 요약기 (208) (도 5 참조) 에 커플링된 오디오 활동 추적기 (206) 를 포함한다.
동일하거나 대안적인 실시형태에서, 디바이스는 피드백 모드 선택기 (212) 를 포함하는 오디오 활동 피드백 제공기 (210) 를 포함한다. 피드백 모드 선택기 (212) 는 피드백 모드 설정을 통해 구성가능할 수도 있다. 예를 들어, 디바이스의 사용자는 요약된 오디오에 대한 청각적 또는 시각적 피드백, 또는 이들 양자를 제공하도록 피드백 모드 선택기 (212) 를 구성할 수도 있다. 추적된 오디오 활동의 예시적인 피드백이 도 9 및 도 10 에 도시된다.
도 3 은 오디오 이벤트 결정기 (302) 의 다수의 실시형태들을 도시한다. 일 실시형태에서, 이벤트 결정기 (304) 는 오디오 경로 선택기 (302) 에 커플링된다. 오디오 경로 선택기 (302) 는 하나 또는 마이크로폰 (102) 으로부터의 출력에 기초하여, 오디오 파형이 오디오 이벤트 결정기 (304) 에 제공되는지의 여부를 선택하도록 구성된다. 오디오 파형은 코덱 (114) 으로부터 출력될 수도 있다. 오디오 파형은 이벤트 분류기 뱅크 (320) 에 제공될 수도 있거나, 또는 동일하거나 대안적인 실시형태에서 또한 음성 메트릭 결정기 유닛 (314) 에 제공될 수도 있다. 음성 메트릭 결정기 유닛 (314) 은 스피치 프로세싱 및/또는 분류를 돕는 하나 이상의 음성 메트릭을 계산할 수도 있다. 예시적인 음성 메트릭이 도 7 에서 740A1-740E1 (음성 활동 검출 플래그, 음성 주파수, 해싱된 음성 프레임, 최근 스피치의 지속기간 및 피치) 로서 도시된다.
동일하거나 대안적인 실시형태에서, 오디오 경로 선택기 (302) 는 수신기 (301) 에 커플링된다. 수신기 (301) 는 상이한 디바이스로부터 신호를 허용하도록 구성된다. 신호는 데이터 패킷, 오디오 패킷 또는 스피치 패킷을 포함할 수도 있다. 데이터 패킷은 오디오 패킷 또는 스피치 패킷을 캡슐화할 수도 있다. 설명의 편의를 위해, 달리 명시되지 않는 한, 패킷은 데이터 패킷, 오디오 패킷 또는 스피치 패킷일 수도 있다. 오디오 패킷 또는 스피치 패킷은 오디오/스피치 패킷 버퍼 (142) (도 1 참조) 에 저장될 수도 있다. 데이터 패킷은 데이터 패킷 버퍼 (미도시) 에 저장될 수도 있다. 오디오 경로 선택기 (302) 는 패킷 또는 오디오 파형이 오디오 이벤트 결정기 (304) 에 제공되는지의 여부의 선택을 도울 수도 있는 제어기들 (120) 중 하나 이상으로부터 제어기 입력을 수신할 수도 있다.
동일하거나 대안적인 실시형태에서, 패킷은 오디오 이벤트 결정기 (304) 에 제공될 수도 있다. 패킷은 페이로드 데이터 추출기 (312) 에 의해 수신될 수도 있다. 페이로드 데이터 추출기 (312) 는 패킷으로부터 식별 데이터 타입 (ID) (630) 및/또는 개인 식별 정보 (640) 를 추출할 수도 있다 (도 6 참조). 예를 들어, 페이로드 데이터 추출기 (312) 는 개인 식별 (620), 즉 개인이 누구인지를 표시하는 하나 이상의 비트들을 추출할 수도 있다. 예를 들어, Zoe 와 Max 의 2 명의 사람이 말하는 경우, Zoe 의 디바이스는 실제로 Zoe 인 것을 나타내는 하나 이상의 비트들을 Max 의 디바이스로 전송할 수도 있다. Max 의 디바이스는 페이로드 데이터 추출기 (312) 를 포함할 수도 있다. 그것이 Zoe 인 개인 식별은 스피치 인식, 얼굴 인식, 또는 Zoe 의 디바이스, 즉 Max 의 디바이스에 대한 원격 디바이스에 위치한 일부 다른 인식 기술의 결과에 기초할 수도 있다. 예를 들어, Max 의 디바이스는 디바이스 (100) 일 수도 있으며, Zoe 의 음성 또는 얼굴은 별도의 디바이스에서 캡처된다.
동일하거나 대안적인 실시형태에서, Max 의 디바이스는 Max 의 디바이스와 연관된 식별을 브로드캐스팅할 수도 있으며, 이는 예를 들어, 설명된 필드들 (630, 640 또는 620) 중 하나에 대한 대안으로서 포함될 수도 있거나, 또는 필드들 중 하나를 대체할 수도 있으며, 예를 들어, 식별 데이터 타입 (630) 은 Max 의 디바이스를 식별할 수도 있다. 일 실시형태에서, Max 의 디바이스의 식별은 추가적인 보안 및 고유성을 제공하기 위해 랜덤한 숫자 (사용 케이스에 따라 고정되거나 변경됨) 일 수도 있다. 식별 데이터 타입 (630) 은 사용자 (즉, Max) 에 의해 설정된 구성의 결과일 수도 있다.
그룹 구성 또는 설정은 개인 식별 (620) 또는 개인 식별 정보 (640) 를 식별 데이터 타입 (630) 으로부터 분리할 수 있는 권한을 허용할 수도 있다. 일 실시형태에서, 디바이스는 사용자 식별 (예를 들어, 1234567) 을 포함하는 식별 데이터 타입 (630) 의 교환을 허용하기 위해 근접도 (예를 들어, 범핑 또는 NFC ) 내에 있을 수도 있다. 이어서, 구성에 따라, 1234567 의 브로드캐스트 사용자 식별이 패킷으로 디바이스 (100) 에 의해 수신될 수도 있고, 패킷의 필드 (630, 640 또는 620) 에서의 정보는 디바이스 (100) 의 오디오 활동 추적기 (206) 에서 사용될 수도 있다.
다른 실시형태들은 인터넷 또는 개인 메시징을 통해 중재되는 권한을 교환하여 그룹에 가입하고 특정 개인에 대한 권한을 허용할 수도 있다. 동일하거나 대안적인 실시형태에서, 페이로드 데이터 추출기 (312) 는 개인 식별 정보 (640) 를 추출할 수도 있다. 개인 식별 정보의 수많은 예 (740A1-740E1 및 740A2-740E2) 가 도 7 에 도시된다. 당업자는 원격 디바이스가 디바이스 (100) 로 전송될 수도 있는 자신의 음성 메트릭 결정기 유닛을 가질 수도 있다는 것을 이해할 것이다.
동일하거나 대안적인 실시형태에서, 타임스탬프가 또한 페이로드 데이터 추출기 (312) 로부터 추출될 수도 있다. 원격 디바이스로부터의 타임스탬프는 ID 데이터 타입 (630), 개인 식별 (640), 또는 개인 식별 (620) 과 연관된 다른 오디오 이벤트와의 시간 상관 (예를 들어, 공통 시간에 기초할 수도 있음) 을 허용하기 위해 ID 데이터 타입 (630), 개인 식별 정보, 또는 개인 식별과 동시에 또는 시간상 상대적으로 근접하여 도달할 수도 있다. 도달한 타임스탬프에서 이용가능한 페이로드 데이터는 디바이스 (100) 와 상이한 물리적 위치 및 공간에서 캡처되었다. 시간 할당된 타임스탬프 및 연관된 정보 (즉, 페이로드 데이터 필드 (620, 630 및 640)) 는 페이로드 데이터 및 타임스탬프를 포함하는 패킷(들)을 제공한 하나 이상의 상이한 원격 디바이스들로부터 디바이스 (100) 로 전송되며, 결과적으로 오디오 활동 추적기 (206) 가 시간 기반 분석에 포함시키게 한다.
동일하거나 대안적인 실시형태에서, 패킷은 오디오/스피치 디코더 (310) 에 직접 제공될 수도 있다. 오디오/스피치 디코더 (310) 가 오디오/스피치 패킷을 압축 해제한 후에, 재구성된 오디오 및/또는 스피치 파형은 또한 음성 메트릭 결정기 유닛 (314) 에 제공될 수도 있다. 또한, 재구성된 오디오 및/또는 스피치 파형은 이벤트 분류기 뱅크 (320) 에 제공될 수도 있다. 이벤트 분류기 뱅크 (320) 는 패킷 또는 오디오 파형 기반의 입력을 수신할 수도 있기 때문에, 일 실시형태에서 이벤트 분류기 뱅크 (320) 는 제공된 입력이 로컬 디바이스 (예를 들어, 디바이스 (100)) 로부터인지 또는 원격 디바이스로부터인지의 여부를 표시하는 디바이스 모드를 입력으로서 수신할 수도 있다. 디바이스 모드에 의존하여, 이벤트 분류기 뱅크 (320) 가 제어될 수도 있다. 이벤트 분류기 뱅크 (320) 는 로컬 디바이스 (예를 들어, 디바이스 (100)) 로부터의 입력에 응답하는 메모리 또는 분류기를 선택적으로 사용할 수도 있거나, 또는 대안적으로, 원격 디바이스로부터의 입력들에 응답하는 메모리 또는 분류기를 선택적으로 사용할 수도 있다.
이벤트 분류기 뱅크 (320) 로의 입력들이 ID 데이터 타입, 및/또는 개인 식별 정보, 및/또는 재구성된 오디오 및/또는 스피치 파형, 및/또는 재구성된 오디오 및/또는 스피치 파형에 기초한 음성 메트릭인 실시형태들에서, 디바이스 모드는 하나 이상의 비트들로 표현된 하나의 값을 가질 수도 있고, 디바이스 (100) 에 의해 설정될 수도 있다. 실시형태들에서, 이벤트 분류기 뱅크 (320) 로의 입력들이 오디오 파형 및/또는 오디오 파형 이벤트 분류기 뱅크 (320) 에 기초한 음성 메트릭인 경우, 디바이스 모드는 하나 이상의 비트들에 의해 표현된 상이한 값 (디바이스 (100) 와 연관됨) 을 가질 수도 있고, 또한 그 디바이스 (100) 에 의해 설정될 수도 있다.
또한, 이벤트 분류기 뱅크 (320) 의 제어는 또한 애플리케이션에 의존할 수도 있다. 이와 같이, 이벤트 분류기 뱅크 (320) 는 부가적으로 원격 디바이스 ID, 원격 디바이스의 타임스탬프, 개인 ID, (디바이스 (100) 의) 로컬 클록, 및 로컬 디바이스 식별 값 (즉, 디바이스 (100) 의 ID) 을 또한 출력할 수도 있다.
도 4 는 오디오 활동 추적기의 예시적인 구현을 도시한다. 예시적인 오디오 활동 추적기 (402) 는 타임 스탬프 (로컬 클록 또는 원격 타임스탬프에 관계없이), 디바이스 ID (로컬 디바이스 ID 또는 원격 디바이스 ID 에 관계없이), 개인 ID 및/또는 오디오 이벤트의 입력을 포함할 수도 있다. 오디오 이벤트의 비-제한적인 예는 도 2 를 설명할 때 제공되었지만, 당업자는 본 명세서에 설명된 기술로 결정될 수도 있는 오디오 이벤트의 수가 다수의 상황에 따른 환경, 컨텍스트 및 애플리케이션에 걸쳐 있다는 것을 이해할 것이다.
일 실시형태에서, 오디오 활동 추적기 (402) 는 비교 유닛 (404) 을 포함할 수도 있다. 비교 유닛 (404) 은 현재 오디오 이벤트와 이전 오디오 이벤트 간의 비교를 수행할 수도 있고, 현재 오디오 이벤트가 이전 오디오 이벤트와 동일한 오디오 이벤트 (408) 인지 또는 상이한 오디오 이벤트 (406) 인지의 여부를 결정할 수도 있다. 비교는 감산을 기반으로 할 수도 있다. 그러나, 비교는 동일하거나 대안적인 실시형태에서, 현재 오디오 이벤트 값 (또는 현재 오디오 이벤트를 나타내는 값들의 세트) 이 이전 오디오 이벤트 값 (또는 이전 오디오 이벤트 값을 나타내는 값들의 세트) 이하인지의 여부를 평가하는 것에 기초할 수도 있다. 비교가 보다 크다 부등식에 기초하는지 또는 보다 작다 부등식에 기초하는지의 여부는 애플리케이션 또는 설계 선택을 기반으로 할 수도 있다. 추가로, 비교 유닛은 애플리케이션 또는 설계 선택에 의존하여, 로그, 절대 값 또는 임계치를 사용하는 것을 포함할 수도 있다.
오디오 이벤트 데이터 버퍼 (410) 는 값 또는 값들이 동일한 오디오 이벤트 (408) 를 나타내는지 또는 상이한 오디오 이벤트 (406) 를 나타내는지의 여부를 저장할 수도 있다. 오디오 이벤트 데이터 버퍼 (408) 는 또한 현재 오디오 이벤트를 저장할 수도 있다. 또한, 동일하거나 대안적인 실시형태에서, 오디오 이벤트 데이터 버퍼 (410) 는 도 4 에 도시된 바와 같이 타임 스탬프, 디바이스 ID 또는 개인 ID 중 하나 이상을 저장할 수도 있다. 동일하거나 대안적인 실시형태에서, 오디오 버퍼 (138) 는 오디오 이벤트를 개별적으로 저장할 수도 있다.
오디오 이벤트가 나타낼 수 있는 것에 기초하여 텍스트 라벨들이 생성될 수도 있다. 예를 들어, 오디오 이벤트는 키보드 클릭을 나타낼 수도 있다. 텍스트 라벨은 "키보드 키 클릭" 일 수도 있다. 당업자는 오디오 이벤트가 또한 몇 번의 키보드 클릭을 나타낼 수도 있고, 텍스트 라벨이 "키보드 키 클릭" 일 수도 있다는 것을 인식할 것이다. 머리위로 비행하는 제트기가 있는 경우, 소스 분리기는 머리위로 비행하는 제트기 사운드를 분리할 수도 있으며, 텍스트 라벨은 "머리위로 비행하는 제트기" 일 수도 있다. 키보드 키 클릭과 머리위로 비행하는 제트기는 2 개의 개별 오디오 이벤트로 간주될 수도 있거나, 또는 일부 실시형태들에서 "제트기가 머리위로 비행하는 동안 키보드 키 클릭" 이라는 하나의 오디오 이벤트를 나타낼 수도 있다.
당업자는 일 실시형태에서 오디오 이벤트의 텍스트 라벨이 또한 오디오 이벤트 데이터 버퍼 (410) 에 저장될 수도 있음을 인식할 것이다.
본 개시 내에서, 오디오 이벤트에 대한 레퍼런스는 오디오 이벤트의 오디오 또는 스피치 샘플을 포함할 수도 있거나, 또는 오디오 이벤트에 대한 상호교환가능한 레퍼런스는 텍스트 라벨을 포함할 수도 있다. 또한, 오디오 이벤트는 오디오 이벤트의 모음일 수도 있으며, 예를 들어 키보드 키 클릭은 일련의 키보드 키 클릭일 수도 있다.
텍스트 라벨인지 또는 오디오 이벤트의 오디오 또는 스피치 샘플인지에 따라, 오디오 이벤트는 오디오 활동을 결정하기 위해 배치 프로세싱될 수도 있다 (414) (도 8 참조). 결정된 오디오 이벤트에 대한 추가 컨텍스트는 오디오 활동을 결정할 수도 있다. 예를 들어, 오디오 이벤트 또는 텍스트가 숨가쁨 (shortness of breath) 및/또는 빠른 발자국 (rapid footsteps) 을 나타내는 경우, 결정된 오디오 활동은 달리는 것일 수도 있다. 오디오 이벤트가 시멘트 또는 모래 위에 있는 것처럼 빠른 발자국 소리를 나타내는 경우, 결정된 오디오 활동은 시멘트 또는 모래 위를 달리고 있는 것을 나타낼 수도 있다. 타임 스탬프, 디바이스 ID, 및 개인 ID 도 더 많은 컨텍스트를 제공할 수도 있다. 예를 들어, 결정된 오디오 활동은 (개인 ID 로 표시된) Max 가 (타임 스탬프로 표시된) 오후 1시에 시멘트 또는 모래 위를 달리고 있고 (디바이스 ID 로 표시된) 시계를 착용하고 있는 것일 수도 있다.
오디오 활동 추적기 (402) 가 하나 이상의 결정된 오디오 이벤트 및 컨텍스트에 기초하여 오디오 활동을 결정한 후, 결정된 오디오 활동들은, 결정된 오디오 활동들을 오디오 활동 데이터 버퍼 (144) 에 저장함으로써 추적될 수도 있다. 추적된 결정된 오디오 활동의 요약은 추적된 오디오 활동 요약기 (502) (도 5 참조) 에서의 요약 모드에 기초할 수도 있다.
당업자는 일 실시형태에서 추적된 결정된 오디오 활동들의 텍스트 라벨이 또한 오디오 활동 데이터 버퍼 (144) 에 저장될 수도 있음을 인식할 것이다.
본 개시 내에서, 오디오 활동 또는 결정된 오디오 활동에 대한 레퍼런스는 오디오 활동의 오디오 또는 스피치 샘플들을 포함할 수도 있거나, 또는 오디오 활동 또는 결정된 오디오 활동에 대한 상호교환가능한 레퍼런스는 텍스트 라벨을 포함할 수도 있다. 또한, 오디오 활동 또는 결정된 오디오 활동은 오디오 활동의 모음일 수도 있고, 오디오 활동의 모음에 대한 레퍼런스는 오디오 활동으로 지칭될 수도 있다. 예를 들어, "Max 가 오후에 시멘트 위를 달린다 (Max runs on cement in the afternoons)" 는 Max 가 오후 1 시와 오후 5시 사이에 적어도 며칠 동안 달린다는 일련의 오디오 활동들의 모음일 수도 있다. 오디오 활동의 모음 "Max 가 오후에 시멘트 위를 달린다" 은 오디오 활동으로도 지칭될 수도 있다. 하나 이상의 센서(들) (108) 이 하나 이상의 센서(들) (108) 데이터의 상관에 기초하여, 오디오 활동의 모음을 보조하고 오디오 이벤트 검출의 신뢰도를 증가시키는 것이 가능할 수도 있다.
동일하거나 대안적인 실시형태에서, 오디오 활동들의 모음 "Max 가 시멘트 위를 달린다" 은 Max 가 걸을 때 시멘트에 미치는 영향에 기초하여 호흡, 심박수, 가속 응답의 형상을 검출하는 하나 이상의 센서 (108) 에 의해 보조될 수도 있다. 예를 들어, 검출기 뱅크 (804) 의 센서 검출기 (816) 는 이들 하나 이상의 센서(들) (108) (예를 들어, 관성 및 광용적맥파 (PPG) 또는 심박수 (HR) 센서) 의 출력을 검출할 수도 있다 (도 8 참조). 배치 프로세스 (800) 는 호흡과 연련된 사운드 메트릭, 스텝 사운드, 및 스텝이 시멘트에 미치는 영향의 기록된 사운드에 더하여, 센서와 같은 다른 센서 입력을 메트릭 또는 시각 메트릭으로 사용할 수도 있다. 따라서, 배치 프로세스는 예를 들어 달리기와 같은 오디오 활동이 검출기 뱅크 (804) (도 8 참조) 내의 하나 이상의 검출기와 함께, 다른 센서 입력에 기초할 수도 있다는 것을 포함한다.
검출기 뱅크 (804) 는 일부 실시형태들에서 비디오 컨텐츠를 오디오 신호와 상관시켜 오디오 이벤트의 신뢰도 결정을 증가시키거나, 또는 일부 실시형태들에서 오디오 이벤트의 결정으로 돕기 위해 사용될 수도 있는 하나 이상의 카메라(들) (106) 로부터 캡처된 로컬 비디오 컨텐츠를 캡처하기 위한 시각 컨텍스트 검출기 (814) 를 포함할 수도 있다. 유사하게, 일부 실시형태들에서, 검출기 뱅크 (804) 는 일부 실시형태들에서, 하나 이상의 센서 판독치들을 오디오 신호와 상관시켜 오디오 이벤트의 신뢰도 결정을 증가시키거나, 또는 일부 실시형태들에서 오디오 이벤트의 결정을 보조하기 위해 사용될 수도 있는 센서 검출기 (816) 를 포함할 수도 있다. 동일하거나 대안적인 실시형태에서, 센서 검출기 (816) 는 하나 이상의 센서(들) (108) (예를 들어, 관성 및 광용적맥파 (PPG) 또는 심박수 (HR) 센서)에 의해 보조될 수도 있다.
대안적인 실시형태에서, 특정 날짜 (예를 들어, 금요일) 에 특정 개인과 회의하는 것 또는 특정 날짜 (예를 들어, 금요일) 에 다른 그룹 회의에 참석하는 것을 추적하는 것은 오디오 활동의 모음으로서 사용될 수도 있고, 오디오 활동의 모음에 대한 레퍼런스 ("금요일 회의") 가 또한 오디오 활동으로 불릴 수도 있다.
도 5 는 추적된 활동 요약기의 예시적인 실시형태를 도시한다. 추적된 오디오 활동 요약기 (502) 는 출력으로서 요약된 오디오 활동을 제공할 수도 있다. 오디오 활동의 요약은 요약 모드에 기초할 수도 있다. 예시적인 요약 모드가 요약 모드 선택기 (504) 에 도시된다. 예를 들어, 요약 모드는 시간 모드 (506), 감정 모드 (508), 활동 모드 (510), 환경 모드 (512), 스피치 상태 모드 (514), 연관 모드 (516), 오버랩 모드 (518), 및/또는 추천 모드 (524) 일 수도 있다.
일 실시형태에서, 시간 모드 요약 모드는 시간 지속기간에 기초한 오디오 활동의 요약을 제공할 수도 있다. 예를 들어, 시간 지속기간은 최종 10 분, 60 분, 3 시간, 일, 주, 월, 분기, 년 등에 걸칠 수도 있다. 또한, 시간 모드는 디바이스 (100) 의 사용자에 의해 정의될 수도 있다. 일 예로서, 디바이스 (100) 의 사용자는 오후 1 시 및 오후 5 시로 정의되는 오후로서 시간 지속기간을 정의할 수도 있다. 따라서, 작년에 몇 번의 오후에 Max 가 시멘트 위를 달렸는지에 대한 요약된 추적된 오디오 활동은 추적된 오디오 활동 요약기에 의해 제공될 수도 있다. 일 실시형태에서, 시간 모드는 15 분 이상 지속된 대화에 대한 통계를 요약할 수도 있다. 예를 들어, 개인 A (예를 들어, Max) 와 개인 B (예를 들어, Zoe) 사이의 대화에서, 추적된 오디오 활동 요약기는 그들의 20 분 대화 동안 Zoe 가 그 시간의 50% 를 말하고 Max 가 시간의 50% 를 말한 것으로 결정할 수도 있다.
일 실시형태에서, 감정 모드 요약 모드는 감정 검출기에 의해 검출된 다양한 감정에 기초하여 오디오 활동의 요약을 제공할 수도 있다 (도 8 참조). 예를 들어, 일 실시형태에서, 행복, 흥분, 겁먹음, 분노, 상냥함, 또는 슬픔에 기초하여 발생한 오디오 활동들의 요약은, 감정 검출기에 의해 웃음, 울음, 비명 및 외침의 오디오 이벤트를 결정하는 것에 기초하여, 추적된 오디오 활동 요약기 (502) 에 의해 제공될 수도 있다.
일 실시형태에서, 활동 모드 요약 모드는 다양한 타입의 활동들에 기초한 오디오 활동의 요약을 제공할 수도 있다. 예를 들어, 스포츠는 일종의 활동이다. 추적된 오디오 활동 요약기 (502) 는 특정 스포츠 동안의 오디오 활동의 요약을 제공할 수도 있다. 예를 들어, 디바이스 (100) 의 사용자 (예를 들어, Max) 가 농구를 하는 경우, 오디오 활동은 슛을 하기 전에 Max 가 공을 드리블한 횟수 또는 게임에서 그가 얼마나 오랫동안 드리블했는지를 표시할 수도 있다.
일 실시형태에서, 환경 모드 요약 모드는 환경의 타입에 기초하여 오디오 활동의 요약을 제공할 수도 있다. 특정 환경에서, 사운드는 더 시끄럽거나 (예를 들어, 건설 현장), 조용하거나 (예를 들어, 도서관), 또는 낮은 레벨 (예를 들어, 일부 사무실 또는 가정) 일 수도 있다. 환경은 다른 타입, 예를 들어 군중 잡음으로 분류될 수도 있고, 오디오 활동이 발생한 곳을 식별하는데 도움을 줄 수 있다. 추적된 오디오 활동 요약기 (502) 는 환경이 조용한지, 시끄러운지, 낮은 레벨인지, 군중 잡음이 있는지, 또는 환경 타입의 다른 분류들인지의 여부에 기초하여 오디오 활동들의 요약을 제공할 수도 있다.
일 실시형태에서, 스피치 상태 모드 요약 모드는 개인의 스피치 상태에 기초하여 오디오 활동의 요약을 제공할 수도 있다. 상이한 스피치 상태의 예는 (예를 들어, 텔레비전 또는 라디오의) 수동 리스닝, (예를 들어, 대화에서의) 리스닝, 또는 (예를 들어, 대화에서의) 말하기로 분류될 수도 있다. 추적된 오디오 활동 요약기 (502) 는 환경이 조용한지, 시끄러운지, 낮은 레벨인지, 군중 잡음이 있는지, 또는 스피치 상태의 다른 분류들인지의 여부에 기초하여 오디오 활동들의 요약을 제공할 수도 있다.
일 실시형태에서, 연관 모드 요약 모드는 연관 모드에 기초한 오디오 활동의 요약을 제공할 수도 있다. 연관 모드는 개인 또는 사람들의 그룹의 연관에 기초할 수도 있다. 예를 들어, 개인 A 와 개인 B 가 함께 오디오 활동을 수행할 때 오디오 활동에 기초하여 요약들이 요구될 수도 있다. 예를 들어, 그들은 테니스를 치거나, 수영장에서 수영하거나, 커피를 마시며 이야기하거나, 통근을 위해 자동차를 운전하는 등을 하고 있다.
대안적인 실시형태에서, 요약된 추적된 오디오 활동이 위치 정보에 기초하게 할 수도 있는 위치 모드 (도시되지 않음) 가 존재할 수도 있다. 위치 정보는 가능하게 상이한 소스로부터 비롯되거나 또는 (예를 들어, 로깅된 Wi-Fi 패킷 스니프로부터) 오디오 이벤트 후에 결정될 수도 있고, 위치에 기초하여 요약된 활동이 디스플레이되거나 제공되게 할 수도 있다. 예를 들어, 위치는 집, 직장, 운전, 테니스 클럽, 커피 숍 등일 수도 있다.
동일하거나 대안적인 실시형태에서, 2 이상의 요약 모드를 선택함으로써 요약이 제공될 수도 있다. 일 예로서, 오버랩 모드 (518) 를 선택한 후에, 시간 모드 (506) 및 감정 모드 (508) 양자가 선택될 수도 있다. 다른 예는, 오버랩 모드를 선택한 후에, 활동 모드 (510) 및 스피치 상태 모드 (514) 를 선택하는 것이다. 따라서, 오버랩 모드에서, 2 이상의 요약 모드에 기초하여 요약이 제공될 수도 있다.
동일하거나 대안적인 실시형태에서, 사용자에게 피드백을 제공하기 위한 추천 모드 (522) 가 존재할 수도 있다. 예를 들어, 개인이 "엠 (emm)", "음 (umm)" 을 말하는 것, 또는 특정 단어 (예를 들어, "좋아요 (like)") 를 남발하는 경우에 나쁜 말버릇을 교정하기 위한 피드백이 존재할 수도 있다. 피드백은 실시간 및/또는 사후 분석 피드백으로 이루어질 수도 있다.
동일하거나 대안적인 실시형태에서, 요약 모드는 추적된 오디오 활동 요약기 (502) 를 포함하는 디바이스 (100) 에 의해 프로세싱되는 말하기 키워드를 통해 선택될 수도 있다. 사용자는 하나 이상의 요약 모드들을 선택하기 위해 예시적인 문구, "시간 모드", "감정 모드", "환경 모드", "스피치 상태 모드", "연관 모드", "오버랩 모드", 및/또는 "추천 모드" 를 말할 수도 있다. 동일하거나 대안적인 실시형태에서, 다수의 실시형태들의 선택은 오버랩 모드 자체 없이, 그러나 2 이상의 요약 모드를 선택함으로써 수행될 수도 있다.
동일하거나 대안적인 실시형태에서, 요약 모드는 추적된 오디오 활동 요약기 (502) 를 포함하는 디바이스 (100) 에 의해 프로세싱되는 말하기 키워드를 통해 선택될 수도 있다. 사용자는 하나 이상의 요약 모드들을 선택하기 위해 예시적인 문구, "시간 모드", "감정 모드", "환경 모드", "스피치 상태 모드", "연관 모드", "오버랩 모드", 및/또는 "추천 모드" 를 말할 수도 있다. 동일하거나 대안적인 실시형태에서, 다수의 실시형태들의 선택은 오버랩 모드 자체 없이, 그러나 2 이상의 요약 모드를 선택함으로써 수행될 수도 있다.
동일하거나 대안적인 실시형태에서, 추적된 오디오 활동 요약기 (502) 는 디스플레이 디바이스 (100) 에 통합되거나 커플링될 수도 있고, 요약 모드의 선택은 요약 모드가 라디오 버튼 선택인 디스플레이 디바이스 (100) 를 터치하는 것에 기초할 수도 있다.
라디오 버튼은 시간 모드 (506), 감정 모드 (508), 활동 모드 (510), 환경 모드 (512), 스피치 상태 모드 (514), 연관 모드 (516), 오버랩 모드 (518), 및/또는 추천 모드 (524) 를 선택하도록 스크린 상에서 터치될 수도 있다. 대안적인 실시형태에서, 라디오 버튼 상에 도시된 고속 오버랩 모드 (518) 는 없지만, 설명된 요약 모드들 중 하나 이상을 터치함으로써 1 초과의 요약 모드를 선택하는 능력은 추적된 오디오 활동 요약기 (502) 가 하나 이상의 요약 모드들에 기초하여 하나 이상의 오디오 활동들의 요약을 제공하게할 수도 있다.
일 실시형태에서, 요약 모드 선택기 (504) 에서 요약 모드를 선택하는 것은 추적된 오디오 활동 요약기 (502) 를 포함하는 디바이스 (100) 에 통합되거나 커플링된 하나 이상의 푸시 버튼을 누르는 것을 통해 이루어질 수도 있다. 예를 들어, 푸시 버튼을 누르는 것은 시간 모드 (506) 를 선택할 수도 있다. 푸시 버튼을 2 회 누르는 것은 감정 모드 (516) 를 선택할 수도 있다. 후속하는 푸시는 활동 모드 (510) 를 선택할 수도 있다. 다음 푸시는 환경 모드 (512) 를 선택할 수도 있다. 그 후의 푸시는 스피치 상태 모드 (514) 를 선택할 수도 있다. 버튼의 다른 푸시는 연관 모드 (516) 를 선택할 수도 있다.
동일하거나 대안적인 실시형태에서, 추적된 오디오 활동 요약기 (502) 를 포함하는 디바이스 (100) 에 통합되거나 커플링된 추가 버튼이 있다면, 오버랩 모드 (518) 는 다중 요약 모드에 기초하여 요약된 오디오 활동들을 제공하도록 선택될 수도 있다. 예를 들어, 오버랩 모드 (518) 를 선택한 후에, 시간 모드 (506) 및 감정 모드 (508) 양자가 모두 선택될 수도 있고, 시간 및 감정 양자에 기초하여 요약이 제공될 수도 있다.
요약된 추적된 오디오 활동 버퍼 (526) 에서 요약된 오디오의 피드백 모드는 청각적이거나, 시각적이거나, 또는 청각적이고 시각적일 수도 있다. 예를 들어, 도 9 및 도 10 에 요약된 추적된 오디오 활동은 라우드 스피커를 통해 청각적으로 설명될 수도 있다. 또한, 요약된 추적된 오디오 활동은 도 9 및 도 10 에 도시된 바와 같은 그래픽 사용자 인터페이스 (GUI) 상에 차트 형태로 또는 상이한 오디오 활동들 사이의 부분, 백분율 또는 링크를 나타내는 또다른 시각적 표현을 통해 디스플레이될 수도 있다. 시각적 피드백 모드는 또한 텍스트를 포함할 수도 있다. 예를 들어, 오디오 활동의 목록이 디스플레이되거나 메모리에 저장될 수도 있다. 요약된 추적된 오디오 활동 버퍼 (526) 는 요약된 추적된 오디오 활동 버퍼 (144) 로서 참조된다.
도 6 은 2 개의 디바이스들 간의 통신 동안 패킷 (600) 의 일부일 수도 있는 상이한 필드를 도시한다. 통신이 무선 접속에 기초할 때, 패킷 (600) 은 무선 패킷으로 지칭될 수도 있다. (무선인지 아닌지에 관계없이) 패킷 (600) 은 프리앰블 (608), 헤더 (610), 및 페이로드 데이터 (612) 를 포함할 수도 있다. 프리앰블 (608) 은 정보를 교환하는 2 개의 디바이스들 간의 송신 및/또는 수신을 동기화하기 위해 사용될 수도 있다. 헤더 (610) 는 패킷 (600) 내에서 반송되는 데이터, 예를 들어 길이 또는 얼마나 많은 필드 또는 서브-필드가 패킷 (600) 내에 포함되는지에 관한 명령들을 포함할 수도 있다.
일 실시형태에서, 패킷의 페이로드 데이터 (612) 는 개인 식별 (620), 즉 개인이 누구인지를 표시하는 하나 이상의 비트들을 포함할 수도 있다. 개인 식별 (620) 은 음성 인식, 얼굴 인식, 또는 일부 다른 인식 기술의 결과에 기초할 수도 있다. 패킷 (600) 이 디바이스 (100) 에 의해 수신된다면, 인식 기술은 다른 디바이스 상에 위치될 수도 있다. 일 실시형태에서, 로컬 디바이스, 즉 디바이스 (100) 는 인식 기술이 통합되게 할 수도 있고, 패킷 (600) 은 디바이스 (100) 외부로 송신될 수도 있다.
동일하거나 대안적인 실시형태에서, 패킷 (600) 은 ID 데이터 타입 (630) 을 포함할 수도 있다. 예를 들어, ID 데이터 타입 (630) 은 인식이 스피치 인식 또는 얼굴 인식의 결과였는지, 또는 원격 디바이스 상에 위치되고 로컬 디바이스, 즉 디바이스 (100) 로 전송된 일부 다른 인식 기술의 결과였는지를 나타낼 수도 있다.
동일하거나 대안적인 실시형태에서, 페이로드 데이터 (612) 는 개인 식별 정보 (640) 를 포함할 수도 있다. 개인 식별 정보의 수많은 예 (740A1-740E1 및 740A2-740E2) 가 도 7 에 도시된다.
도 7 은 상이한 타입의 개인 식별을 도시한다. 하나 이상의 마이크로폰 (102) 에 기초하여 캡처될 수도 있는 개인 식별이 도 7 에 740A1-740E1 로서 도시된다. 음성 활동 검출 플래그 (740A1) 는 유성음 또는 무성음 스피치가 발생할 때를 나타낼 수도 있다. 음성 주파수 (740A2) 는 말하는 개인의 주파수 프로파일 (진폭 및 포먼트 위치) 의 엔벨로프의 양자화된 선형 예측 계수 또는 다른 유사한 표현일 수도 있다. 해싱된 음성 프레임 (740A3) 은 특정 개인에 고유한 성문 (voice print) 을 나타낼 수도 있다. 최근 스피치 (740A4) 의 지속기간은 누군가가 말한 시간의 길이, 예를 들어 5 초일 수도 있다. 피치 (740A5) 는 말하는 개인의 피치를 나타낼 수도 있다. 어린이와 여성은 피치가 높은 경향이 있는 반면, 남성은 피치가 낮은 경향이 있다.
동일하거나 대안적인 실시형태에서, 하나 이상의 센서들 (108) 에 기초하여 캡처될 수도 있는 추가적인 또는 대안적인 개인 식별이 도 7 에 740A2-740E2 로서 도시된다. 개인의 머리의 온도 (740A2) 는 그들이 너무 차갑거나 너무 뜨거운 물리적 환경에 있는지를 나타내기 위해 사용될 수도 있다. 온도가 너무 뜨겁거나 너무 차갑다면, 개인이 스트레스를 받은 것의 표시자일 수도 있다. 온도 판독치를 다른 센서 판독치와 상관하는 것은 추적되고 있는 오디오 활동을 결정하는 것을 보조하도록 더 많은 컨텍스트를 제공할 수도 있다. 개인의 심박 (740B2) 은 또한 추적되고 요약되는 오디오 활동을 결정하는 것을 보조하도록 스트레스, 평온함, 및/또는 운동과 관련된 더 많은 컨텍스트를 제공할 수도 있다. 개인의 신체 부분 이동 (740C2) 은 개인이 달리고 있는지, 걷고 있는지, 서 있는지, 팔을 들어 올리는지, 손목을 회전시키는지, 머리를 움직이는지를 나타낼 수도 있다. 신체 부분의 이러한 이동은 오디오 활동이 추적되고 요약되는 것을 보조하는 더 많은 상황을 제공할 수도 있다. 최인접 물체에 대한 근접도 (740D2) 는 오디오 활동이 추적되고 요약되는 것을 보조하는 컨텍스트를 제공하는 다른 표시자일 수도 있다. 디바이스 ID 의 배향 (740E2) 은 오디오 활동이 추적되고 요약되는 것을 보조하는 컨텍스트를 제공하는 다른 표시자일 수도 있다.
도 8 은 오디오 이벤트를 배치 프로세싱하는 실시형태를 도시한다. 도 4 를 참조하여 전술한 바와 같이, 오디오 이벤트는 오디오 활동 추적기 (402) 에서 배치 프로세싱될 수도 있다 (800). 결정된 오디오 이벤트는 이전에 결정된 오디오 이벤트와 집성되어 (802) 검출기 뱅크에 제공될 수도 있다 (804). 예를 들어, 결정된 오디오 이벤트는 키보드 키가 클릭된 것일 수도 있다. 다수의 키보드 클릭이 집성되는 경우에, 결정된 오디오 이벤트의 집성은 키보드 키들이 클릭된 것일 수도 있다. 다른 예는 결정된 오디오 이벤트가 모래 위로 발자국이 이동된 것일 수도 있다. 다수의 오디오 이벤트들 (예컨대, 발자국 또는 키보드 클릭) 의 집성은 검출기 뱅크 (804) 로 전송될 수도 있다.
검출기 뱅크 (804) 는 환경 검출기 (806), 감정 검출기 (808), 스피치 상태 검출기 (810), 및 청각 컨텍스트 검출기 (812) 를 포함할 수도 있다. 동일하거나 대안적인 실시형태에서, 추가 입력은 검출기 뱅크 (804) 에 의해 프로세싱될 수도 있다. 예를 들어, ID 데이터 타입, 음성 메트릭과 같은 청각 메트릭, 시각 메트릭, 및/또는 센서 메트릭은 검출기 뱅크 (804) 내로의 입력들로서 작용할 수도 있고, 검출기 뱅크 (804) 내의 검출기들 중 하나 이상에 의해 사용될 수도 있다. 센서로부터의 추가 컨텍스트는 더 많은 컨텍스트를 제공할 수도 있다. 예를 들어, 작업장 문구 또는 커피숍 문구 (즉, 작업 환경 또는 커피숍과 연관된 문구) 는 하나 이상의 마이크로폰들 (102) 에 의해 캡처된 누군가에 의해 발성될 수도 있다. 문구의 컨텍스트를 결정하는 것에 기초한 청각 컨텍스트 검출기 (812) 는 검출기 뱅크 (804) 로부터 출력된 오디오 활동이 개인이 사무실의 랩탑에서 작업하거나 커피숍에서 타이핑하고 있는 것이라는 결정을 보조할 수도 있다. 다른 예에서, 환경 검출기 (806) 는 파도를 검출하고, 검출기 뱅크 (804) 로부터 출력된 오디오 활동이 개인이 바다 근처의 모래 위에서 달리는 것이라는 결정을 보조할 수도 있다.
하나 이상의 마이크로폰 (102) 으로부터의 청각적 입력에 기초한 검출기 뱅크 (804) 또는 이벤트 분류기 뱅크 (320) 는 머신 러닝, 또는 검출을 위한 다른 적응 또는 분류 기술에 의존할 수도 있다. 예를 들어, 감정 검출기 (808) 및 청각 컨텍스트 검출기 (812) 는 심층 신경망 (deep neural network) 에 기초할 수도 있다. 다른 예로서, 성인 대 아동 또는 남성 대 여성 간의 차이를 분류하는 것과 같은 오디오 이벤트는 톤 분류기 또는 심층 신경망에 기초할 수도 있다. 이벤트 분류기 뱅크 (320) 에서의 다른 예는 음악을 재생하는 텔레비전 또는 라우드스피커로부터의 콘텐츠를 결정하기 위해 포맷 구조 분류기 및 톤 분류기를 사용하는 것일 수도 있다. 검출기 뱅크 (804) 는 앞서 논의된 (도 8 에 도시되지 않은) 개인 식별 정보 (640) 에 기초하여 오디오 활동을 결정할 수도 있다.
검출기 뱅크 (804) 는 일부 실시형태들에서 비디오 컨텐츠를 오디오 신호와 상관시켜 오디오 이벤트의 신뢰도 결정을 증가시키거나, 또는 일부 실시형태들에서 오디오 이벤트의 결정을 보조하기 위해 사용될 수도 있는 하나 이상의 카메라(들) (106) 로부터 캡처된 로컬 비디오 컨텐츠를 캡처하기 위한 시각 컨텍스트 검출기 (814) 를 포함할 수도 있다. 유사하게, 일부 실시형태들에서, 검출기 뱅크 (804) 는 일부 실시형태들에서, 하나 이상의 센서 판독치들을 오디오 신호와 상관시켜 오디오 이벤트의 신뢰도 결정을 증가시키거나, 또는 일부 실시형태들에서 오디오 이벤트의 결정을 보조하기 위해 사용될 수도 있는 센서 검출기 (816) 를 포함할 수도 있다. 동일하거나 대안적인 실시형태에서, 센서 검출기 (816) 는 하나 이상의 센서(들) (108) (예를 들어, 관성 및 광용적맥파 (PPG) 또는 심박수 (HR) 센서)에 의해 보조될 수도 있다.
하나 이상의 마이크로폰 (102) 또는 마이크로폰 (102) 에 커플링된 프로세서는 전력을 절약하기 위해 듀티 사이클될 (duty cycled) 수도 있다. 이를 통해 오디오 활동을 연속적으로 모니터링하는 데 더 긴 시간이 걸릴 수도 있다. 일부 시스템에서 발화된 단어를 검출하는 것은 프로세서가 유휴 모드에서 나와 추가의 마이크로폰을 턴 온하게 한다. 디바이스 (100) 는 말하는 개인의 입에서 더 가깝거나 더 멀어지는 마이크로폰 (102) 을 가질 수도 있다. 하나 이상의 마이크로폰 (201) 은 볼륨 모니터링을 허용할 수도 있다. 예를 들어, 히어러블은 볼륨 모니터링을 허용하는 외부 마이크로폰을 가질 수도 있다. 하나 이상의 마이크로폰 (102) 은 외침, 대화, 속삭임 등의 검출을 허용할 수도 있다.
청각적 입력에 기초한 검출기는 또한 훈련된 음성 템플릿을 포함할 수도 있다. 디바이스 (100) 는 안테나 (112) 및 트랜시버 (122) 를 포함할 수도 있고, 훈련된 음성 템플릿은 훈련된 음성 템플릿을 갖지 않는 디바이스에 대해 더 적은 훈련을 촉진할 수 있는 2 개의 디바이스들 사이에서 교환되거나 또는 공유될 수도 있다. 다른 신뢰할 수 있는 그룹이 훈련 데이터를 공유할 수 있다. 신뢰할 수 있는 그룹의 예는 가족이다. 가족 구성원 중에서 훈련된 음성 템플릿은 디바이스들 간에 교환되거나 공유될 수도 있다. 안테나 (112) 및 트랜시버 (122) 는 추적되고 요약된 오디오 활동이 다른 디바이스로 송신되게 한다. 송신은 오디오 활동 추적기 및 요약기 디바이스 (예를 들어, 디바이스 (100)) 의 사용자에 의한 인증에 기초할 수도 있다. 예를 들어, 3 시간 동안 울었고 아무에게도 말하지 않은 개인은 사랑하는 개인에게 전달될 수도 있다. 다른 예는, 노령의 친척이 일정 기간 동안 사회적 상호작용을 하지 않은 것일 수도 있으며, 친척에게 전화를 걸거나 방문하도록 추천될 수도 있다. 또 다른 예에서, 개인이 특정 임계 레벨에 걸쳐 과도한 양의 배경 잡음에 노출된 것일 수도 있다.
도 9 는 디스플레이 디바이스 (110) 상의 GUI (902) 의 일상 오디오 활동의 요약의 예시적인 도면을 도시한다. 도 9 의 예시적인 도면에서, 개인이 참여한 오디오 활동 (904) 이 도시된다. 디스플레이 디바이스 (110) 에서 요약 모드가 사용자에게 보여질 수도 있다 (906). 상이한 요약 모드는 예를 들어, 드롭 다운 메뉴 화살표 (908) 에 의해 선택될 수도 있다 (또는 라디오 버튼에 의해 또는 예를 들어, 요약 모드의 이름을 타이핑함으로써 선택될 수도 있다). 예를 들어, 요약 모드가 시간 모드이고 개인이 특정 시간 주기를 지정한 경우에, 활동들의 요약은 개인이 자동차를 운전함 (A), Joe 를 리스닝함 (B), 음악을 리스닝함 (C), Mary 와 말함 (D), 조용한 환경에 있음 (E), 및 텔레비전을 리스닝함 (F) 일 수도 있다. 원형 차트를 사용하면 비율을 디스플레이할 수 있다.
동일하거나 대안적인 실시형태에서, 사용자는 요약 모드와 연관된 임계치를 선택할 수도 있다. 예를 들어, 10 분 미만 지속된 오디오 활동이 반드시 디스플레이되지 않을 수도 있다. 이와 같이, 개인이 특정 시간 주기 동안 참가했지만 디스플레이 디바이스 (110) 상의 GUI (902) 에는 도시되지 않은 다른 오디오 활동들이 있을 수도 있다.
도 10 은 디스플레이 상의 요약된 추적된 오디오 활동과 연관된 감정에 대한 링크의 다른 예시적인 뷰를 도시한다. 도 10 의 예시적인 관점에서, 오디오 활동의 백분율 (A-F) 은 요약된 추적된 오디오 활동 (1050) 과 연관된 감정에 연결될 수도 있고 디스플레이 디바이스 (110) 상의 상이한 GUI (1040) 에 디스플레이될 수도 있다. 예시적인 감정은 "지루함", "중립", "흥분함" 또는 "행복함" 을 포함하지만 이에 제한되지는 않을 수도 있다.
도 11 은 예시적인 사용 케이스 (1100) 를 도시한다. 도 11 에서, 사람들은 모임에서 교제하고 있다. 모임에는 다수의 상이한 오디오 활동들이 발생할 수도 있다. 예들은, 텔레비전에서 스포츠 경기를 시청하는 것 (A1), 생일 축하 노래를 부르는 것 (B1), 토스트를 제공하는 것 (C1), 선물을 여는 것 (D1), 저녁 식사를 하는 것 (E1), 또는 게임을 하는 것 (F1) 을 포함한다. 사람들이 모이는 방 또는 공간에서, 오디오 활동 유닛 (202) 및 오디오 활동 피드백 제공기 (210) 를 포함하는 디바이스 (1104) 가 존재할 수도 있다. 디바이스 (1104) 는 하나 이상의 마이크로폰 (102) 의 이전 설명과 유사한 방식으로 기능할 수도 있는 마이크로폰 어레이 (1106) 를 포함할 수도 있다. 디바이스 (1104) 는 오디오 활동 (예를 들어, A1-F1) 의 요약을 디스플레이할 수도 있는, GUI (1108) 를 갖는 디스플레이 디바이스를 포함할 수도 있다.
동일하거나 대안적인 실시형태에서, 사람들 중 일부는 본원에 개시된 바와 같이 오디오 활동 유닛 (202) 및 오디오 활동 피드백 제공기 (210) 를 포함하는 웨어러블 디바이스를 착용하고 있을 수도 있다. 예를 들어, 개인은 손목 주위에 웨어러블 디바이스를 갖는다. 웨어러블 디바이스는 손목 밴드 또는 시계일 수도 있다 (양자가 1102A 로 참조됨). 다른 개인은 본원에 개시된 바와 같은 오디오 활동 추적기를 포함하는 히어러블 (1102B) 을 착용하고 있다. 또 다른 개인은 목 주위 웨어러블 디바이스 (1102C) 를 갖는다. 웨어러블 디바이스는 마이크로폰 어레이 (즉, 하나 이상의 마이크로폰 (102)) 를 갖는 목걸이일 수도 있거나, 또는 목 주위에 하나 이상의 마이크로폰 (102) 을 포함하는 디바이스를 착용하는 것을 향후에 사회적으로 허용가능할 수도 있다. 웨어러블 (1102A, 1102B 및 110C) 은 시각적 또는 청각적 형태로 오디오 활동의 요약을 제공할 수도 있다. 예를 들어, 히어러블 (1102B) 및 목 주위 웨어러블 디바이스 (1102C) 는 요약된 오디오 활동을 디스플레이 디바이스로 전달할 수도 있다. 웨어러블 디바이스 (1102A) 가 시계인 경우, 디스플레이 디바이스가 시계에 통합된다. 웨어러블 디바이스 (1102A) 가 디스플레이 디바이스가 없는 손목 밴드인 경우, 요약된 오디오 활동은 디스플레이 디바이스로 전달될 수도 있다. 웨어러블 (1102A, 1102B 및 1102C) 은 또한 오디오 활동의 요약을 재생하기 위해 하나 이상의 라우드스피커를 포함할 수도 있다.
특정 구현에서, 본 명세서에서 개시된 시스템들 및 디바이스들의 하나 이상의 컴포넌트들은 디코딩 시스템 또는 장치 (예를 들어, 전자 디바이스, 또는 그 내부의 프로세서) 에, 인코딩 시스템 또는 장치에, 또는 양자 모두에 통합될 수도 있다. 다른 구현들에서, 본 명세서에서 개시된 시스템들 및 디바이스들의 하나 이상의 컴포넌트들은 무선 전화기, 스마트 안경, 또는 미래 버전의 증강 현실 디바이스, 가상 현실 디바이스, 혼합 현실 디바이스, 확장 현실 디바이스, 로봇, 태블릿 컴퓨터, 데스크톱 컴퓨터, 랩톱 컴퓨터, 셋톱 박스, 뮤직 플레이어, 비디오 플레이어, 엔터테인먼트 유닛, 텔레비전, 게임 콘솔, 네비게이션 디바이스, 통신 디바이스, 개인 디지털 보조기 (PDA), 고정 위치 데이터 유닛, 개인 미디어 플레이어, 또는 다른 타입의 디바이스에 통합될 수도 있다.
설명된 기술들과 관련하여, 디바이스는 오디오 신호를 수신하는 것에 기초하여 오디오 이벤트를 결정하는 수단, 결정된 오디오 이벤트에 기초하여 오디오 활동을 추적하는 수단, 요약 모드에 기초하여 추적된 오디오 활동을 요약하는 수단, 및 요약된 추적된 오디오 이벤트의 피드백을 제공하는 수단을 포함한다. 또한, 디바이스는 피드백 모드를 선택하는 수단을 포함할 수도 있다.
당업자는 일부 실시형태들에서, 주변장치 (예를 들어, 하나 이상의 센서, 하나 이상의 카메라, 및/또는 디스플레이 디바이스), 또는 일부 컴포넌트들 (예를 들어, 코덱, 안테나, 트랜시버) 이 없는 디바이스 (100) 는, 디바이스 (100) 가 서버인 경우, 또한 오디오 신호를 수신하는 것에 기초하여 오디오 이벤트를 결정하고, 결정된 오디오 이벤트에 기초하여 오디오 활동을 추적하고, 요약 모드에 기초하여 추적된 오디오 활동을 요약하며, 그리고 요약된 추적된 오디오 이벤트의 피드백을 제공하도록 구성될 수도 있다.
당업자들은 본원에서 개시된 구현들과 관련하여 설명되는 여러가지 예시적인 로직 블록들, 구성들, 모듈들, 회로들 및 알고리즘 단계들이 전자적 하드웨어, 프로세서에 의해 실행되는 컴퓨터 소프트웨어, 또는 양쪽의 조합들로서 구현될 수도 있음을 또한 인식할 것이다. 다양한 예시적인 컴포넌트들, 블록들, 구성들, 모듈들, 회로들, 및 단계들이 일반적으로 그들의 기능의 관점에서 위에서 설명되었다. 이런 기능이 하드웨어 또는 프로세서 실행가능한 명령들로 구현되는지 여부는 특정의 애플리케이션 및 전체 시스템에 부과되는 설계 제한 사항들에 의존한다. 숙련자들은 각각의 특정의 애플리케이션 마다 설명한 기능을 여러가지 방법으로 구현할 수도 있으며, 그러나 이런 구현 결정들은 본 개시물의 범위로부터의 일탈을 초래하는 것으로 해석되어서는 안 된다.
본원에서 본 개시물과 관련하여 설명되는 방법 또는 알고리즘의 단계들은 하드웨어로, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 이 둘의 조합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 랜덤 액세스 메모리 (RAM), 플래시 메모리, 판독 전용 메모리 (ROM), 프로그래밍가능 판독 전용 메모리 (PROM), 소거가능한 프로그래밍가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능한 프로그래밍가능 판독 전용 메모리 (EEPROM), 레지스터들, 하드 디스크, 착탈식 디스크, 컴팩트 디스크 판독 전용 메모리 (CD-ROM), 또는 당업계에 알려져 있는 임의의 다른 타입의 비-일시적 저장 매체에 상주할 수도 있다. 예시적인 저장매체는 프로세서가 저장 매체로부터 정보를 판독하고 저장 매체에 정보를 기록할 수 있도록 프로세서에 커플링된다. 상기의 조합들이 또한, 비-일시적 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다. 부가적으로, 방법 또는 알고리즘의 동작들은, 코드들 및/또는 명령들 중 하나 또는 그 임의의 조합 또는 그 세트로서 비-일시적 프로세서 판독가능 매체 및/또는 비-일시적 컴퓨터 판독가능 매체 상에 상주할 수도 있으며, 이들은 컴퓨터 프로그램 제품에 통합될 수도 있다. 대안으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 ASIC (application-specific integrated circuit) 에 상주할 수도 있다. ASIC는 컴퓨팅 디바이스 또는 사용자 단말기에 상주할 수도 있다. 다르게는, 프로세서 및 저장 매체는 컴퓨팅 디바이스 또는 사용자 단말기에서 이산 컴포넌트로서 상주할 수도 있다.
이전의 설명은 당업자가 개시된 구현들을 제조 또는 사용하는 것을 가능하게 하기 위하여 제공된다. 이들 구현들에 대한 다양한 변형은 당업자에게는 용이하게 명백할 것이며, 여기에 정의된 원리는 본 개시의 범위를 벗어남이 없이 다른 구현들에 적용될 수도 있다. 따라서, 본 개시는 여기에 나타낸 구현들에 한정되도록 의도된 것이 아니라, 다음 청구항들에 의해 정의되는 원리 및 신규한 특성에 부합하는 가능한 최광의 범위가 허여되어야 한다.

Claims (30)

  1. 하나 이상의 프로세서들을 포함하고,
    상기 하나 이상의 프로세서들은,
    오디오 신호를 수신하는 것에 기초하여 오디오 이벤트를 결정하고;
    결정된 상기 오디오 이벤트에 기초하여 오디오 활동을 추적하고;
    요약 모드의 사용자 선택에 기초하여 추적된 상기 오디오 활동을 요약하는 것으로서, 상기 요약 모드는: 시간 모드, 감정 모드, 활동 모드, 환경 모드, 스피치 상태 모드, 연관 모드, 오버랩 모드, 또는 추천 모드 중 하나 이상인, 상기 요약 모드의 사용자 선택에 기초하여 추적된 상기 오디오 활동을 요약하고; 그리고
    피드백 모드에 기초하여 요약된 추적된 상기 오디오 활동의 피드백을 제공하도록
    구성되는, 디바이스.
  2. 제 1 항에 있어서,
    상기 하나 이상의 프로세서들에 커플링된 오디오 디코더를 더 포함하고,
    상기 오디오 디코더는 다른 디바이스로부터 패킷을 수신하도록 구성되는, 디바이스.
  3. 제 2 항에 있어서,
    상기 오디오 디코더는 페이로드 데이터 추출기에 커플링되고,
    상기 페이로드 데이터 추출기는 다른 디바이스로로부터 수신된 상기 패킷으로부터, 개인 식별, 식별 타입, 개인 식별 정보, 원격 디바이스 ID, 또는 타임스탬프 중 적어도 하나를 추출하도록 구성되는, 디바이스.
  4. 제 2 항에 있어서,
    하나 이상의 마이크로폰들으로부터의 출력에 기초하여, 오디오 파형이 오디오 이벤트 결정기에 제공되는지, 또는 다른 디바이스로부터 수신된 상기 패킷이 상기 오디오 이벤트 결정기에 제공되는지의 여부를 선택하도록 구성된 오디오 경로 선택기를 더 포함하는, 디바이스.
  5. 제 4 항에 있어서,
    상기 오디오 경로 선택기는 제어기 입력을 수신하고 디바이스 모드를 제공하도록 구성되는, 디바이스.
  6. 제 1 항에 있어서,
    오디오 파형을 출력하도록 구성되고 상기 오디오 파형을 상기 하나 이상의 프로세서들에 제공하도록 구성된 오디오 코덱에 커플링된, 하나 이상의 마이크로폰들을 더 포함하는, 디바이스.
  7. 제 6 항에 있어서,
    결정된 상기 오디오 이벤트는 적어도 음성 메트릭 결정기 유닛으로부터 하나의 음성 메트릭을 분류하는 것에 기초하고,
    상기 하나 이상의 프로세서들은 로컬 클록, 로컬 디바이스 식별 값, 및 상기 오디오 이벤트 중 적어도 하나를 제공하도록 구성된 오디오 이벤트 분류기 뱅크를 포함하는, 디바이스.
  8. 제 7 항에 있어서,
    상기 이벤트 분류기 뱅크는 디바이스 모드에 의해 제어되는, 디바이스.
  9. 제 1 항에 있어서,
    요약된 추적된 오디오 활동 버퍼를 포함하는 메모리를 더 포함하는, 디바이스.
  10. 제 9 항에 있어서,
    상기 하나 이상의 프로세서들은 상기 피드백 모드를 선택하도록 구성된 오디오 활동 피드백 제공기를 포함하는, 디바이스.
  11. 제 10 항에 있어서,
    시각적 피드백 모드가 선택될 때 요약된 추적된 오디오 활동의 시각적 피드백을 디스플레이하도록 구성된 디스플레이 디바이스를 더 포함하는, 디바이스.
  12. 제 10 항에 있어서,
    청각적 피드백 모드가 선택될 때 요약된 추적된 오디오 활동의 청각적 피드백을 생성하도록 구성된 하나 이상의 라우드스피커들을 더 포함하는, 디바이스.
  13. 제 12 항에 있어서,
    상기 하나 이상의 라우드스피커들은 히어러블 (hearable) 디바이스 내로 통합되는, 디바이스.
  14. 제 1 항에 있어서,
    상기 하나 이상의 프로세서들은 상기 요약 모드에 기초하여 추적된 상기 오디오 활동을 제공하기 위한 오디오 활동 추적기를 포함하고,
    상기 오디오 활동 추적기는 결정된 상기 오디오 이벤트가 동일한 오디오 이벤트인지 또는 상이한 오디오 이벤트인지를 결정하기 위해 이전의 오디오 이벤트를 비교하는 것을 포함하는, 디바이스.
  15. 제 14 항에 있어서,
    상기 오디오 활동 추적기는 결정된 상기 오디오 이벤트를 집성하는 것에 기초하여, 그리고 타임스탬프, 디바이스 식별 값, 또는 개인 식별 값 중 적어도 하나에 기초하여, 1 초과의 오디오 이벤트를 배치 프로세싱하도록 구성되는, 디바이스.
  16. 제 15 항에 있어서,
    추적된 상기 오디오 활동은 환경, 감정, 스피치 상태, 청각 컨텍스트, 시각 컨텍스트, 또는 센서 판독치 중 적어도 하나를 검출하는 것에 기초하는, 디바이스.
  17. 제 16 항에 있어서,
    추적된 상기 오디오 활동은 식별 데이터 타입, 개인 식별 및 개인 식별 정보 중 하나에 추가로 기초하는, 디바이스.
  18. 제 1 항에 있어서,
    요약된 추적된 상기 오디오 활동과 연관된 감정의 링크를 나타내도록 구성된 디스플레이 디바이스를 더 포함하는, 디바이스.
  19. 오디오 신호를 수신하는 것에 기초하여 오디오 이벤트를 결정하는 단계;
    결정된 상기 오디오 이벤트에 기초하여 오디오 활동을 추적하는 단계;
    요약 모드의 사용자 선택에 기초하여 추적된 상기 오디오 활동을 요약하는 단계로서, 상기 요약 모드는: 시간 모드, 감정 모드, 활동 모드, 환경 모드, 스피치 상태 모드, 연관 모드, 오버랩 모드, 또는 추천 모드 중 하나 이상인, 상기 요약 모드의 사용자 선택에 기초하여 추적된 상기 오디오 활동을 요약하는 단계; 및
    피드백 모드에 기초하여 요약된 추적된 상기 오디오 활동의 피드백을 제공하는 단계를 포함하는, 방법.
  20. 제 19 항에 있어서,
    피드백 모드를 선택하는 단계를 더 포함하는, 방법.
  21. 제 20 항에 있어서,
    요약된 추적된 상기 오디오 활동의 상기 피드백은 상기 피드백 모드가 시각적 피드백 모드일 때 디스플레이되는, 방법.
  22. 제 20 항에 있어서,
    요약된 추적된 상기 오디오 활동의 상기 피드백은 상기 피드백 모드가 청각적 피드백 모드일 때 청취가능한, 방법.
  23. 제 19 항에 있어서,
    요약된 추적된 상기 오디오 활동은 결정된 상기 오디오 이벤트가 동일한 오디오 이벤트인지 또는 상이한 오디오 이벤트인지를 결정하기 위해 이전 오디오 이벤트를 비교하는 것에 기초하는, 방법.
  24. 제 19 항에 있어서,
    요약된 추적된 상기 오디오 활동은 결정된 상기 오디오 이벤트를 집성하는 것에 기초하여 1 초과의 오디오 이벤트를 배치 프로세싱하는, 방법.
  25. 제 19 항에 있어서,
    요약된 추적된 상기 오디오 활동은 다른 디바이스로 송신되는, 방법.
  26. 오디오 신호를 수신하는 것에 기초하여 오디오 이벤트를 결정하는 수단;
    결정된 상기 오디오 이벤트에 기초하여 오디오 활동을 추적하는 수단;
    요약 모드의 사용자 선택에 기초하여 추적된 상기 오디오 활동을 요약하는 수단으로서, 상기 요약 모드는: 시간 모드, 감정 모드, 활동 모드, 환경 모드, 스피치 상태 모드, 연관 모드, 오버랩 모드, 또는 추천 모드 중 하나 이상인, 상기 요약 모드의 사용자 선택에 기초하여 추적된 상기 오디오 활동을 요약하는 수단; 및
    피드백 모드에 기초하여 요약된 추적된 상기 오디오 활동의 피드백을 제공하는 수단을 포함하는, 장치.
  27. 제 26 항에 있어서,
    상기 피드백 모드를 선택하는 수단을 더 포함하는, 장치.
  28. 명령들을 저장한 비-일시적 컴퓨터 판독가능 저장 매체로서,
    상기 명령들은, 실행될 경우, 디바이스의 하나 이상의 프로세서들로 하여금,
    오디오 신호를 수신하는 것에 기초하여 오디오 이벤트를 결정하게 하고;
    결정된 상기 오디오 이벤트에 기초하여 오디오 활동을 추적하게 하고;
    요약 모드의 사용자 선택에 기초하여 추적된 상기 오디오 활동을 요약하게 하는 것으로서, 상기 요약 모드는: 시간 모드, 감정 모드, 활동 모드, 환경 모드, 스피치 상태 모드, 연관 모드, 오버랩 모드, 또는 추천 모드 중 하나 이상인, 상기 요약 모드의 사용자 선택에 기초하여 추적된 상기 오디오 활동을 요약하게 하고; 그리고
    피드백 모드에 기초하여 요약된 추적된 상기 오디오 활동의 피드백을 제공하게 하는, 비-일시적 컴퓨터 판독가능 저장 매체.
  29. 삭제
  30. 삭제
KR1020207010405A 2017-10-12 2018-10-12 오디오 활동 추적 및 요약들 KR102229039B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/782,287 US10614831B2 (en) 2017-10-12 2017-10-12 Audio activity tracking and summaries
US15/782,287 2017-10-12
PCT/US2018/055739 WO2019075423A1 (en) 2017-10-12 2018-10-12 MONITORING AND RECAPITULATIONS OF AUDIO ACTIVITY

Publications (2)

Publication Number Publication Date
KR20200062229A KR20200062229A (ko) 2020-06-03
KR102229039B1 true KR102229039B1 (ko) 2021-03-16

Family

ID=64110114

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207010405A KR102229039B1 (ko) 2017-10-12 2018-10-12 오디오 활동 추적 및 요약들

Country Status (9)

Country Link
US (1) US10614831B2 (ko)
EP (1) EP3695404B1 (ko)
JP (1) JP6812604B2 (ko)
KR (1) KR102229039B1 (ko)
CN (1) CN111194465B (ko)
BR (1) BR112020006904A2 (ko)
SG (1) SG11202001986RA (ko)
TW (1) TWI779113B (ko)
WO (1) WO2019075423A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190102509A (ko) * 2018-02-26 2019-09-04 삼성전자주식회사 음성 명령을 수행하는 방법 및 시스템
US10970040B2 (en) * 2019-03-01 2021-04-06 Bose Corporation Systems and methods for augmented reality content harvesting and information extraction
CN111049848B (zh) * 2019-12-23 2021-11-23 腾讯科技(深圳)有限公司 通话方法、装置、系统、服务器及存储介质
CN111241336A (zh) * 2020-01-07 2020-06-05 厦门快商通科技股份有限公司 音频场景识别方法、装置、电子设备及介质
US11582554B1 (en) 2020-09-22 2023-02-14 Apple Inc. Home sound loacalization and identification
US11343612B2 (en) * 2020-10-14 2022-05-24 Google Llc Activity detection on devices with multi-modal sensing
DE102020129602A1 (de) 2020-11-10 2022-05-12 nxtbase technologies GmbH Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe
DE102020129606A1 (de) 2020-11-10 2022-05-12 nxtbase technologies GmbH Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe
DE102022119188A1 (de) * 2021-08-11 2023-02-16 Sony Europe B.V. Informationsverarbeitungssystem und informationsverarbeitungsverfahren
KR102635981B1 (ko) * 2023-02-06 2024-02-13 김영숙 양육 지원 상담 및 코칭 어플리케이션 제공 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170154638A1 (en) 2015-12-01 2017-06-01 Qualcomm Incorporated Determining audio event based on location information
US20170199934A1 (en) 2016-01-11 2017-07-13 Google Inc. Method and apparatus for audio summarization

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9112989B2 (en) * 2010-04-08 2015-08-18 Qualcomm Incorporated System and method of smart audio logging for mobile devices
US10409860B2 (en) * 2011-03-28 2019-09-10 Staton Techiya, Llc Methods and systems for searching utilizing acoustical context
US9848260B2 (en) * 2013-09-24 2017-12-19 Nuance Communications, Inc. Wearable communication enhancement device
US10585486B2 (en) * 2014-01-03 2020-03-10 Harman International Industries, Incorporated Gesture interactive wearable spatial audio system
US9549273B2 (en) * 2014-08-28 2017-01-17 Qualcomm Incorporated Selective enabling of a component by a microphone circuit
GB201419396D0 (en) * 2014-10-31 2014-12-17 Univ Salford Entpr Ltd Assistive Mixing System And Method Of Assembling A Synchronised Spattial Sound Stage
US9552816B2 (en) * 2014-12-19 2017-01-24 Amazon Technologies, Inc. Application focus in speech-based systems
US9965685B2 (en) * 2015-06-12 2018-05-08 Google Llc Method and system for detecting an audio event for smart home devices
US20180341378A1 (en) * 2015-11-25 2018-11-29 Supered Pty Ltd. Computer-implemented frameworks and methodologies configured to enable delivery of content and/or user interface functionality based on monitoring of activity in a user interface environment and/or control access to services delivered in an online environment responsive to operation of a risk assessment protocol
US9661473B1 (en) * 2016-06-17 2017-05-23 Qualcomm Incorporated Methods and apparatus for determining locations of devices in confined spaces
EP3288035B1 (en) 2016-08-22 2022-10-12 Dolby Laboratories Licensing Corp. Personal audio analytics and behavior modification feedback

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170154638A1 (en) 2015-12-01 2017-06-01 Qualcomm Incorporated Determining audio event based on location information
US20170199934A1 (en) 2016-01-11 2017-07-13 Google Inc. Method and apparatus for audio summarization

Also Published As

Publication number Publication date
TWI779113B (zh) 2022-10-01
CN111194465B (zh) 2021-07-06
US20190115045A1 (en) 2019-04-18
EP3695404B1 (en) 2024-01-03
CN111194465A (zh) 2020-05-22
JP2020537180A (ja) 2020-12-17
TW201923758A (zh) 2019-06-16
EP3695404A1 (en) 2020-08-19
BR112020006904A2 (pt) 2020-10-06
SG11202001986RA (en) 2020-04-29
US10614831B2 (en) 2020-04-07
JP6812604B2 (ja) 2021-01-13
KR20200062229A (ko) 2020-06-03
EP3695404C0 (en) 2024-01-03
WO2019075423A1 (en) 2019-04-18

Similar Documents

Publication Publication Date Title
KR102229039B1 (ko) 오디오 활동 추적 및 요약들
US11785395B2 (en) Hearing aid with voice recognition
US11546690B2 (en) Processing audio and video
US20180124225A1 (en) Wireless Earpiece with Walkie-Talkie Functionality
US20210350823A1 (en) Systems and methods for processing audio and video using a voice print
WO2016136104A1 (ja) 情報処理装置、情報処理方法及びプログラム
CN111368127B (zh) 图像处理方法、装置、计算机设备及存储介质
US20210398539A1 (en) Systems and methods for processing audio and video
US20230005471A1 (en) Responding to a user query based on captured images and audio
US20220076680A1 (en) Systems and methods for processing audio and video
US11493959B2 (en) Wearable apparatus and methods for providing transcription and/or summary
US20210390957A1 (en) Systems and methods for processing audio and video
KR20230118964A (ko) 호흡 분석을 위한 헤드 웨어러블 장치
EP3288035B1 (en) Personal audio analytics and behavior modification feedback
US20230386104A1 (en) Information display device and information display method
US20230042310A1 (en) Wearable apparatus and methods for approving transcription and/or summary
US11979716B2 (en) Selectively conditioning audio signals based on an audioprint of an object
US20220021985A1 (en) Selectively conditioning audio signals based on an audioprint of an object
CN116685263A (zh) 头戴式呼吸分析装置

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant