KR20220078614A

KR20220078614A - 협력 필터링을 사용한 예측 및 추천을 위한 시스템 및 방법

Info

Publication number: KR20220078614A
Application number: KR1020227012803A
Authority: KR
Inventors: 모이즈 카이자르 소나사트; 비노드 체리안 조셉
Original assignee: 삼성전자주식회사
Priority date: 2019-10-17
Filing date: 2020-05-28
Publication date: 2022-06-10
Also published as: EP4014229A4; EP4014229A1; US10769203B1; WO2021075658A1

Abstract

적어도 하나의 디바이스로부터 음향 이벤트 정보를 획득하는 단계로서, 음향 이벤트 정보는 제1 활동에 연관되며, 음향 이벤트 정보의 적어도 부분은 제1 활동의 기간 동안 식별된 그룹에서의 복수의 개인들로부터 유래하는 사운드들에 연관되는, 획득하는 단계, 음향 이벤트 정보를 복수의 사운드 클래스들로 분류하는 단계, 복수의 사운드 클래스들에 대해 협력 필터링을 수행하는 단계, 협력 필터링의 결과들에 기초하여 식별된 그룹에서의 복수의 개인들의 하나 이상의 관심사들을 결정하는 단계, 및 식별된 그룹에서의 복수의 개인들의 하나 이상의 관심사들에 부분적으로 기초하여 식별된 그룹에 대한 공통 활동을 추천하는 단계를 포함하는 방법이 제공된다.

Description

협력 필터링을 사용한 예측 및 추천을 위한 시스템 및 방법

본 개시는 대체로 음향 검출 및 분석에 관한 것이다. 더 구체적으로, 본 개시는 협력 필터링을 사용한 이벤트들 및 활동들의 예측 및 추천을 위한 시스템 및 방법에 관한 것이다.

현재 사회에서, 사람들은 그들의 사랑하는 사람들과 좋은 시간을 보내기가 어려울 수 있다. 바쁜 소비자들은 그들의 가족과 친구들과 더 많은 시간을 보내기 위한 창의적인 방법들에 대한 그리고 기억할 만한 가족 경험들을 만들기 위한 맞춤형 추천을 원한다. 그들은 주어진 제한된 시간, 노력, 및 자원들로 가족 구성원들에 대한 독특한 경험들을 계획, 생성 및 관리하기 위한 지원을 원한다.

매일의 가족 대화들은 가족이 무엇을 좋아하는지에 대한 중요한 음향 콘텍스트와 추천을 위한 적절한 시간을 제공한다. 그러나, 대부분의 기존의 활동과 음향 이벤트 검출 솔루션들에서, 사전 라벨들 및 태그들 없이 비구성된 이벤트를 관련시키는 것은 종종 다루기 힘들거나 또는 부정확하다. 예를 들어, 많은 방법들은 사운드 이벤트들을 검출하기 위해 은닉 마르코프 모델들(Hidden Markov Models)(HMM)과 비부정 행렬 인수분해(Nonnegative Matrix Factorization)(NMF) 접근법들을 사용하는데, 이는 매우 신뢰할 수는 없다.

추가적으로, 일부 장면 독립 시스템들이 상이한 사용자 환경들에서 상이한 홈 시나리오들에 걸쳐 적용 가능한 딥 러닝 모델을 사용하려고 시도하지만, 이러한 딥 러닝 모델들은 시간 및 주파수 분산(time and frequency variance)이 부족한 피드 포워드 네트워크들에 기초한다. 더구나, 시간적 콘텍스트는 스펙트로그램의 짧은 시간 윈도우로 제한된다.

본 발명이 해결하고자 하는 기술적 과제는 사용자의 사운드를 이용하여, 사용자에게 이용 가능한 활동의 추천을 제공하는 방법 및 전자 디바이스를 제공하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 개시는 협력 필터링을 사용한 이벤트들 및 활동들의 예측 및 추천을 위한 시스템 및 방법을 제공한다.

제1 실시예에서, 방법이 적어도 하나의 디바이스로부터 음향 이벤트 정보를 획득하는 단계로서, 음향 이벤트 정보는 제1 활동에 연관되며, 음향 이벤트 정보의 적어도 부분은 제1 활동의 기간 동안 식별된 그룹에서의 복수의 개인들로부터 유래하는 사운드들에 연관되는, 획득하는 단계를 포함한다. 그 방법은 또한 음향 이벤트 정보를 복수의 사운드 클래스들로 분류하는 단계를 포함한다. 그 방법은 또한 복수의 사운드 클래스들에 대해 협력 필터링을 수행하는 단계를 포함한다. 그 방법은 또한 협력 필터링의 결과들에 기초하여 식별된 그룹에서의 복수의 개인들의 하나 이상의 관심사들을 결정하는 단계를 포함한다. 그 방법은 또한 식별된 그룹에서의 복수의 개인들의 하나 이상의 관심사들에 부분적으로 기초하여 식별된 그룹에 대한 공통 활동을 추천하는 단계를 포함한다.

제2 실시예에서, 전자 디바이스가 송수신부와 프로세서를 포함한다. 프로세서는 송수신부를 통해, 적어도 하나의 다른 디바이스로부터 음향 이벤트 정보를 획득하는 것으로서, 음향 이벤트 정보는 제1 활동에 연관되며, 음향 이벤트 정보의 적어도 부분은 제1 활동의 기간 동안 식별된 그룹에서의 복수의 개인들로부터 유래하는 사운드들에 연관되는, 상기 음향 이벤트 정보를 획득하도록 구성된다. 그 프로세서는 또한, 음향 이벤트 정보를 복수의 사운드 클래스들로 분류하도록 구성된다. 그 프로세서는 또한, 복수의 사운드 클래스들에 대해 협력 필터링을 수행하도록 구성된다. 그 프로세서는 또한, 협력 필터링의 결과들에 기초하여 식별된 그룹에서의 복수의 개인들의 하나 이상의 관심사들을 결정하도록 구성된다. 그 프로세서는 또한, 식별된 그룹에서의 복수의 개인들의 하나 이상의 관심사들에 부분적으로 기초하여 식별된 그룹에 대한 공통 활동을 추천하도록 구성된다.

제3 실시예에서, 비일시적 컴퓨터 판독가능 매체가 컴퓨터 판독가능 프로그램 코드를 포함하며, 컴퓨터 판독가능 프로그램 코드는, 실행될 때, 적어도 하나의 프로세서로 하여금, 적어도 하나의 디바이스로부터 음향 이벤트 정보를 획득하는 것으로서, 음향 이벤트 정보는 제1 활동에 연관되며, 음향 이벤트 정보의 적어도 부분은 제1 활동의 기간 동안 식별된 그룹에서의 복수의 개인들로부터 유래하는 사운드들에 연관되는, 상기 음향 이벤트 정보를 획득하게 하며; 음향 이벤트 정보를 복수의 사운드 클래스들로 분류하게 하며; 복수의 사운드 클래스들에 대해 협력 필터링을 수행하게 하며; 협력 필터링의 결과들에 기초하여 식별된 그룹에서의 복수의 개인들의 하나 이상의 관심사들을 결정하게 하며; 그리고 식별된 그룹에서의 복수의 개인들의 하나 이상의 관심사들에 부분적으로 기초하여 식별된 그룹에 대한 공통 활동을 추천하게 한다.

다른 기술적 특징들은 다음의 도면들, 설명들 및 청구항들로부터 본 기술분야의 통상의 기술자에게 쉽사리 명확하게 될 수 있다.

본 개시와 그것의 장점들의 더욱 완전한 이해를 위해, 유사한 참조 번호들이 유사한 부분들을 나타내는 첨부 도면들과 연계하여 취해진 다음의 설명이 이제 언급될 것인데, 도면들 중:
도 1은 본 개시에 따른 예시적인 네트워크 구성을 도시한다.
도 2는 본 개시에 따른 사용자 관심사들을 예측하고 개인 및 그룹 활동들을 추천하는 예시적인 프로세스를 도시한다.
도 3은 도 2의 사용자 액세스 패턴 모델링 기능을 더 상세히 예시한다.
도 4는 도 2의 콘텍스트관련 유사도 검출 기능을 더 상세히 예시한다.
도 5는 본 개시에 따른 도 2의 프로세스의 적어도 일부 부분들이 구현되는 예시적인 그룹 활동을 도시한다.
도 6은 본 개시에 따른 도 5의 그룹 활동에 대한 음향 이벤트들에 대한 등급들을 예시한다.
도 7는 본 개시에 따른 도 2의 프로세스의 적어도 일부 부분들이 구현되는 예시적인 다른 그룹 활동을 도시한다.
도 8은 본 개시에 따른 도 2의 프로세스의 적어도 일부 부분들이 고급 콘텍스트관련 광고에 대해 구현될 수 있는 예시적인 활동 세트를 도시한다.
도 9 및 도 10은 본 개시에 따른 도 2의 프로세스의 적어도 일부 부분들이 비상 서비스들을 제공함에 있어서 도움이 되도록 구현될 수 있는 시나리오들의 예들을 도시한다.
도 11은 본 개시에 따른 사용자 관심사들을 예측하고 개인 및 그룹 활동들을 추천하는 예시적인 방법을 도시한다.

아래의 "발명을 실시하기 위한 구체적인 내용의 설명"에 착수하기에 앞서, 본 특허 문서의 전체에 걸쳐 사용되는 특정 단어들 및 문구들의 정의들을 언급하는 것이 유리할 수 있다. "송신한다", "수신한다" 및 "통신한다"라는 용어들뿐만 아니라 그 파생어들은 직접 통신 및 간접 통신 둘 다를 포함한다. "구비한다" 및 "포함한다"라는 용어들뿐만 아니라 그 파생어들은, 제한 없는 포함을 의미한다. "또는"이란 용어는 포함적(inclusive)이며, "및/또는"을 의미한다. "~에 연관된"이란 문구뿐만 아니라 그 파생어들은, ~를 포함한다, ~내에 포함된다, ~와 상호연결한다, ~를 담고 있다, ~내에 담긴다, ~에 또는 ~와 연결한다, ~에 또는 ~와 커플링한다, ~와 통신 가능하다, ~와 협력한다, ~를 인터리브한다, ~를 병치한다, ~에 근접된다, ~에 또는 ~와 결부된다, ~를 가진다, ~의 특성을 가진다, ~에 또는 ~와 관계를 가진다 등을 의미한다.

더구나, 아래에서 설명되는 다양한 기능들은 하나 이상의 컴퓨터 프로그램들에 의해 구현 또는 지원될 수 있으며, 그러한 컴퓨터 프로그램들의 각각은 컴퓨터 판독가능 프로그램 코드로부터 형성되고 컴퓨터 판독가능 매체에 수록된다. "애플리케이션" 및 "프로그램"이란 용어들은 적합한 컴퓨터 판독가능 프로그램 코드에서의 구현에 적합한 하나 이상의 컴퓨터 프로그램들, 소프트웨어 컴포넌트들, 명령 세트들, 프로시저들, 함수들, 개체들(objects), 클래스들, 인스턴스들, 관련된 데이터, 또는 그 부분을 지칭한다. "컴퓨터 판독가능 프로그램 코드"라는 문구는 소스 코드, 목적 코드, 및 실행가능 코드를 포함하는 임의의 유형의 컴퓨터 코드를 포함한다. "컴퓨터 판독가능 매체"라는 문구는, ROM(read only memory), RAM(random access memory), 하드 디스크 드라이브, CD(compact disc), DVD(digital video disc), 또는 임의의 다른 유형의 메모리와 같은, 컴퓨터에 의해 액세스될 수 있는 임의의 유형의 매체를 포함한다. "비일시적" 컴퓨터 판독가능 매체가 일시적인 전기적 또는 다른 신호들을 전송하는 유선, 무선, 광학적, 또는 다른 통신 링크들을 배제한다. 비일시적 컴퓨터 판독가능 매체는 데이터가 영구적으로 저장될 수 있는 매체와 데이터가 저장되고 나중에 덮어쓰기될 수 있는 매체, 이를테면 재기입가능 광 디스크 또는 소거가능 메모리 디바이스를 포함한다.

여기서 사용되는 바와 같이, 특징(숫자, 기능, 동작, 또는 부품과 같은 컴포넌트와 같음)을 "가진다", "가질 수 있다", "포함한다" 또는 "포함할 수 있다"와 같은 용어들 및 문구들은 그 특징의 존재를 나타내고 다른 특징들의 존재를 배제하지 않는다. 또한, 여기서 사용되는 바와 같이, "A 또는 B", "A 및/또는 B 중 적어도 하나", 또는 "A 및/또는 B 중 하나 이상"은 A 및 B의 모든 가능한 조합들을 포함할 수 있다. 예를 들어, "A 또는 B", "A 및 B 중 적어도 하나", 및 "A 또는 B 중 적어도 하나"는 (1) 적어도 하나의 A를 포함하는 것, (2) 적어도 하나의 B를 포함하는 것, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B를 포함하는 것의 모두를 나타낼 수 있다.

여기서 사용되는 바와 같이, "제1" 및 "제2"라는 용어들은 중요도에 상관없이 다양한 컴포넌트들을 변형할 수 있고 그 컴포넌트들을 제한하지 않는다. 이들 용어들은 하나의 컴포넌트를 다른 컴포넌트로부터 구별하는 데에만 사용된다. 예를 들어, 제1 사용자 디바이스와 제2 사용자 디바이스는 디바이스들의 순서 또는 중요도에 상관없이 서로 상이한 사용자 디바이스들을 나타낼 수 있다. 본 개시의 범위로부터 벗어남 없이 제1 컴포넌트가 제2 컴포넌트로 표시될 수 있고 그 반대의 경우도 마찬가지이다.

엘리먼트(이를테면 제1 엘리먼트)가 다른 엘리먼트(이를테면 제2 엘리먼트)"와/에 (동작적으로 또는 통신적으로) 커플링된" 또는 그것"과/에 연결된" 것으로 언급될 때, 이는 다른 엘리먼트와/에 직접적으로 또는 제3 엘리먼트를 통해 커플링 또는 연결될 수 있다는 것이 이해될 것이다. 반면에, 엘리먼트(이를테면 제1 엘리먼트)가 다른 엘리먼트(이를테면 제2 엘리먼트)"와/에 직접적으로 커플링되는" 또는 그것"과/에 직접적으로 연결되는" 것으로 언급될 때, 그 엘리먼트와 다른 엘리먼트 사이에 또 다른 엘리먼트(이를테면 제3 엘리먼트)가 개재하지 않는다는 것이 이해될 것이다.

여기서 사용되는 바와 같이, ~하도록 "구성되는"(또는 설정되는)"이란 문구는 상황에 따라 "~에 적합한", "~하는 능력을 갖는", "~하도록 설계된", "~하도록 적응되는", "~하도록 만들어진", 또는 "~할 수 있는"이란 문구들과 교환적으로 사용될 수 있다. "~하도록 구성되는(또는 설정되는)"이란 문구는 "~하도록 하드웨어로 구체적으로 설계되는"을 반드시 의미하지는 않는다. 오히려, "~하도록 구성되는"이란 문구는 디바이스가 다른 디바이스 또는 부품들과 함께 동작을 수행할 수 있다는 것을 의미할 수 있다. 예를 들어, "A, B, 및 C를 수행하도록 구성되는(또는 설정되는) 프로세서"라는 문구는 메모리 디바이스에 저장되는 하나 이상의 소프트웨어 프로그램들을 실행함으로써 동작들을 수행할 수 있는 범용 프로세서(이를테면 CPU 또는 애플리케이션 프로세서) 또는 그 동작들을 수행하기 위한 전용 프로세서(이를테면 내장형 프로세서)를 의미할 수 있다.

여기서 사용되는 바와 같은 용어들 및 문구들은 본 개시의 일부 실시예들을 설명하기 위해서만 제공될 뿐이고, 본 개시의 다른 실시예들의 범위를 제한하려는 것은 아니다. "a", "an", 및 "the"의 사용에 해당하는 단수형들은 그렇지 않다고 분명히 알려주지 않는 한 복수 언급들을 포함한다는 것이 이해되어야 한다. 여기서 사용되는 기술적 및 과학적 용어들 및 문구들을 포함한 모든 용어들 및 문구들은 본 개시의 실시예들이 속하는 본 기술분야의 통상의 기술자에 의해 통상적으로 이해되는 바와 동일한 의미를 갖는다. 통상 사용되는 사전들에서 정의된 것들과 같은 용어들 및 문구들은 관련 분야의 관점에서 그것들의 의미와 일치하는 의미를 갖는 것으로서 해석되어야 하고 여기서 명확히 정의되지 않는 한 이상화되거나 과도하게 형식적인 의미로 해석되지 않을 것이라는 것 또한 이해될 것이다. 일부 경우들에서, 여기서 정의된 용어들 및 문구들은 본 개시의 실시예들을 배제하는 것으로 해석될 수 있다.

본 개시의 실시예들에 따른 "전자 디바이스"의 예들은 스마트폰, 태블릿 개인용 컴퓨터(personal computer)(PC), 모바일 폰, 비디오 폰, 전자책 리더기, 데스크톱 PC, 랩톱 컴퓨터, 넷북 컴퓨터, 워크스테이션, 개인 정보 단말기(personal digital assistant)(PDA), 휴대용 멀티미디어 플레이어(portable multimedia player)(PMP), MP3 플레이어, 모바일 의료 디바이스, 카메라, 또는 착용가능 디바이스(이를테면 스마트 안경, 헤드 장착 디바이스(portable multimedia player)(HMD), 전자 의류, 전자 팔찌, 전자 목걸이, 전자 액세서리, 전자 문신, 스마트 거울, 또는 스마트 워치) 중 적어도 하나를 포함할 수 있다. 전자 디바이스의 다른 예들은 스마트 스피커와 스마트 가전기기를 포함한다. 스마트 가전기기의 예들은 텔레비전, 디지털 비디오 디스크(digital video disc)(DVD) 플레이어, 오디오 플레이어, 냉장고, 공기조화기, 진공청소기, 오븐, 마이크로파 오븐, 세탁기, 드라이어, 공기청정기, 셋톱 박스, 홈 자동화 제어 패널, 보안 제어 패널, TV 박스(이를테면 SAMSUNG HOMESYNC, APPLETV, 또는 GOOGLE TV), 게이밍 콘솔(이를테면 XBOX, PLAYSTATION, 또는 NINTENDO), 전자 사전, 전자 키, 캠코더, 또는 전자 픽처 프레임 중 적어도 하나를 포함할 수 있다. 전자 디바이스의 또 다른 예들은 다양한 의료 디바이스들(이를테면 다양한 휴대용 의료 측정 디바이스들(like 혈당 측정 디바이스, 심박 측정 디바이스, 또는 체온 측정 디바이스), MRA(magnetic resource angiography) 디바이스, MRI(magnetic resource imaging) 디바이스, CT(computed tomography) 디바이스, 이미징 디바이스, 또는 초음파 디바이스), 내비게이션 디바이스, GPS(global positioning system) 수신기, EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트 디바이스, 항해 전자 디바이스(이를테면 항해 내비게이션 디바이스 또는 자이로 나침반), 항공전자기기, 보안 디바이스들, 차량 헤드 유닛들, 산업용 또는 가정용 로봇들, ATM들(automatic teller machines), POS(point of sales) 디바이스들, 또는 사물 인터넷(Internet of Things)(IoT) 디바이스들(이를테면 전구(bulb), 다양한 센서들, 전기 또는 가스 계량기, 스프링클러, 화재 경보기, 서모스탯, 가로등, 토스터, 피트니스 장비, 온수 탱크, 히터, 또는 보일러) 중 적어도 하나를 포함한다. 전자 디바이스의 다른 예들은 가구 또는 빌딩/구조물, 전자 보드, 전자 서명 수신 디바이스, 프로젝터, 또는 다양한 측정 디바이스들(이를테면 물, 전기, 가스, 또는 전자파를 측정하기 위한 디바이스들)중 적어도 하나의 일부를 포함한다. 본 개시의 다양한 실시예들에 따르면, 전자 디바이스가 위에 나열된 디바이스들 중 하나 또는 조합일 수 있다는 것에 주의한다. 본 개시의 일부 실시예들에 따르면, 전자 디바이스는 플렉시블 전자 디바이스일 수 있다. 여기서 개시되는 전자 디바이스는 위에 나열된 디바이스들로 제한되지 않고, 기술의 개발에 의존하여 새로운 전자 디바이스들을 포함할 수 있다.

다음의 설명에서, 전자 디바이스들은 본 개시의 다양한 실시예들에 따라 첨부 도면들을 참조하여 설명된다. 여기서 사용되는 바와 같이, "사용자"라는 용어는 전자 디바이스를 사용하는 인간 또는 다른 디바이스(이를테면 인공 지능 전자 디바이스)를 지칭할 수 있다는 것에 주의한다.

다른 특정 단어들 및 문구들에 대한 정의들은 본 특허 문서의 전체에 걸쳐 제공될 수 있다. 본 기술분야의 통상의 기술자들은, 대부분은 아니지만 많은 경우들에서, 이러한 정의들이 이렇게 정의된 단어들 및 문구들의 이전 및 미래의 사용들에 적용된다는 것을 이해하여야 한다.

본 개시의 설명의 어느 것도 임의의 특정 엘리먼트, 단계, 또는 기능이 청구 범위에 포함되어야만 하는 필수 요소임을 암시하는 것으로서 해석되지 않아야 한다. 특허받고자 하는 요지의 범위는 청구항들에 의해서만 정의된다. 청구항 내의 "메커니즘", "모듈", "디바이스", "유닛", "컴포넌트", "엘리먼트", "멤버", "장치", "머신", "시스템", "프로세서", 또는 "제어기"를 비제한적으로 포함하는 임의의 다른 용어의 사용은 관련 기술분야의 통상의 기술자에게 알려진 구조들을 언급하는 것으로 출원인에 의해 이해된다.

아래에서 논의되는 도면들과 본 개시의 다양한 실시예들이 첨부 도면들을 참조하여 설명된다. 그러나, 본 개시는 이들 실시예들로 제한되지 않고, 모든 변경들 및/또는 동등물들 또는 그 대체물들이 또한 본 개시의 범위에 속한다는 것이 이해되어야 한다. 동일하거나 또는 유사한 참조 번호들은 명세서 및 도면들의 전체에 걸쳐 동일하거나 또는 유사한 엘리먼트들을 참조하는데 사용될 수 있다.

위에서 언급된 바와 같이, 사람들은 그들의 가족과 친구들과 더 많은 시간을 보내기 위한 창의적인 방법들에 대한 그리고 기억할 만한 가족 경험들을 만들기 위한 맞춤형 추천을 원한다. 그러나, 추천들을 제공하기 위한 기존의 방법들은 부적당하다. 예를 들어, 일부 기존의 신경망 방법들은 시간적 다이버시티를 위한 일반화된 상호 상관(generalized cross correlation)(GCC) 기반 데이터 또는 스펙트럼을 사용하는 입력 피처들과 함께, 미리 정의된 훈련 데이터 및 태그들이 있는 정적 소스들로만 작동한다. 대부분의 신경망 이벤트 활동 추천 애플리케이션들에서, 참조를 위한 콘텍스트관련 클래스의 지식 없이 입력에서의 위상 스펙트로그램들 및 현지화 데이터와 상호작용하는 것은 종종 다루기 힘들다. 추가적으로, 다른 디바이스 상의 장면 독립적인 활동 기반 음향 이벤트 검출의 경우, 기존의 애플리케이션들은 모델이 전송 피처(transferred feature) 계층들의 어느 정도 학습할 것을 요구한다.

이들 및 다른 문제들을 해결하기 위해, 본 개시는 협력 필터링을 사용한 개인 및 그룹 활동들의 예측 및 추천을 위한 시스템들 및 방법들을 제공한다. 일부 실시예들에서, 시스템이 가정에서 검출되는 다성(polyphonic) 사운드들(즉, 하나를 초과하는 소스에서 유래하는 사운드들)로부터 그리고 가정에서의 음향 패턴들에 기초하여 가정의 상이한 구성원들 전체에 걸친 활동들에서의 관심사(또는 그러한 활동들의 관련성)를 검출할 수 있다. 그 시스템은 콘볼루션 신경망들(convolutional neural networks)(CNN들)로 다성 사운드들을 분석하여 관련 피처들을 학습하고 자동 콘텐츠 인식(automatic content recognition)(ACR) 및 자연어 프로세싱(natural language processing)(NLP)으로부터 도출된 현재 참여한 활동 또는 이벤트 콘텍스트에 관련되는 고수준 사운드 클래스 표현을 구축할 수 있다. 일부 실시예들에서, 시스템은 특징 클래스들 및 관심사들을 예측하기 위해 협력 필터링을 활용할 수 있다. 본 개시에서 사용되는 바와 같이, 협력 필터링은 다수의 데이터 소스들로부터의 정보를 필터링하여 하나 이상의 사용자들에 연관되는 패턴들을 검출하며, 그 다음에 그 패턴들을 사용하여 사용자들의 관심사에 관해 예측들을 하는 프로세스를 말한다. 시스템은 하이브리드 신경망을 적용하여 표현을 위한 프레임 수준 사운드 피처들을 나타내고 사운드 이벤트 클래스들의 확률들을 분류를 향해 추정할 수 있다. 이벤트 활동 데이터 상관의 활용은 콜드 스타트 우려를 극복할 수 있다.

기존의 사운드 검출 시스템들(이는 커맨드 또는 다른 사용자 입력의 이벤트에서만 활성화되고 일반적으로 구두 사운드들만을 검출하고 수 초 동안만 청취함)과는 달리, 개시된 시스템은 더 긴 기간(예컨대, 분, 시, 또는 일)에 걸쳐 구두 사운드 및 비구두 사운드 둘 다를 수동적으로 검출하고 더 긴 검출 기간에 기초하여 콘텍스트들 및 사운드 클래스들을 학습할 수 있다. 개시된 시스템은 사운드 클래스들에 기초하여 개인들의 관심사들을 결정하고 그 개인들에게 공통 활동을 추천할 수 있다. 일부 실시예들에서, 그 시스템은 추천된 활동에 연관되는 계획들을 세우는 것을 또한 도울 수 있다.

도 1은 본 개시에 따른 예시적인 네트워크 구성(100)을 도시한다. 도 1에 도시된 바와 같이, 본 개시의 실시예들에 따르면, 전자 디바이스(101)가 네트워크 구성(100)에 포함된다. 전자 디바이스(101)는 버스(110), 프로세서(120), 메모리(130), 입출력(I/O) 인터페이스(150), 디스플레이(160), 통신 인터페이스(170), 또는 이벤트 프로세싱 모듈(180) 중 적어도 하나를 포함할 수 있다. 일부 실시예들에서, 전자 디바이스(101)는 컴포넌트들 중 적어도 하나를 제외할 수 있거나 또는 다른 컴포넌트를 추가할 수 있다.

버스(110)는 컴포넌트들(120~180)을 서로 연결하기 위한 그리고 통신물들(이를테면 제어 메시지들 및/또는 데이터)을 컴포넌트들 사이에 전달하기 위한 회로를 포함할 수 있다. 프로세서(120)는 중앙 프로세싱 유닛(central processing unit)(CPU), 애플리케이션 프로세서(application processor)(AP), 또는 통신 프로세서(communication processor)(CP) 중 하나 이상을 포함할 수 있다. 프로세서(120)는 전자 디바이스(101)의 다른 컴포넌트들 중 적어도 하나에 대한 제어 및/또는 통신에 관련한 동작 또는 데이터 프로세싱을 수행할 수 있다.

메모리(130)는 휘발성 및/또는 비휘발성 메모리를 포함할 수 있다. 예를 들어, 메모리(130)는 전자 디바이스(101)의 적어도 하나의 다른 컴포넌트에 관련된 커맨드들 또는 데이터를 저장할 수 있다. 본 개시의 실시예들에 따르면, 메모리(130)는 소프트웨어 및/또는 프로그램(140)을 저장할 수 있다. 프로그램(140)은, 예를 들어, 커널(141), 미들웨어(143), 애플리케이션 프로그래밍 인터페이스(application programming interface)(API)(145), 및/또는 애플리케이션 프로그램(또는 "애플리케이션")(147)을 포함할 수 있다. 커널(141), 미들웨어(143), 또는 API(145)의 적어도 부분이 운영 체제(operating system)(OS)로서 표시될 수 있다.

커널(141)은 다른 프로그램들(이를테면 미들웨어(143), API(145), 또는 애플리케이션 프로그램(147))에서 구현되는 동작들 또는 기능들을 수행하는데 사용되는 시스템 자원들(이를테면 버스(110), 프로세서(120), 또는 메모리(130))을 제어 또는 관리할 수 있다. 커널(141)은 미들웨어(143), API(145), 또는 애플리케이션(147)이 시스템 자원들을 제어 또는 관리하기 위해 전자 디바이스(101)의 개개의 컴포넌트들에 액세스하도록 허용하는 인터페이스를 제공할 수 있다. 미들웨어(143)는 API(145) 또는 애플리케이션(147)이, 예를 들어, 커널(141)과 데이터를 통신하는 것을 허용하기 위한 중계기로서 기능을 할 수 있다. 복수의 애플리케이션들(147)이 제공될 수 있다. 미들웨어(143)는 애플리케이션들(147)로부터 수신되는 작업 요청들을 이를테면 (버스(110), 프로세서(120), 또는 메모리(130)와 같은) 전자 디바이스(101)의 시스템 자원들을 사용하는 우선순위를 복수의 애플리케이션들(147) 중 적어도 하나에 할당함으로써 제어할 수 있다. API(145)는 애플리케이션(147)이 커널(141) 또는 미들웨어(143)로부터 제공되는 기능들을 제어하는 것을 허용하는 인터페이스이다. 예를 들어, API(145)는 파일 제어, 윈도우 제어, 이미지 프로세싱, 또는 텍스트 제어를 위한 적어도 하나의 인터페이스 또는 기능(이를테면 커맨드)을 포함할 수 있다.

입출력 인터페이스(150)는, 예를 들어, 사용자 또는 다른 외부 디바이스들로부터 입력된 커맨드들 또는 데이터를 전자 디바이스(101)의 다른 컴포넌트(들)로 전송할 수 있는 인터페이스로서 역할을 할 수 있다. 게다가, 입출력 인터페이스(150)는 또한 전자 디바이스(101)의 다른 컴포넌트(들)로부터 수신된 커맨드들 또는 데이터를 사용자 또는 다른 외부 디바이스에 출력할 수 있다.

디스플레이(160)는, 예를 들어, 액정 디스플레이(liquid crystal display)(LCD), 발광 다이오드(light emitting diode)(LED) 디스플레이, 유기 발광 다이오드(organic light emitting diode)(OLED) 디스플레이, 양자 발광 다이오드(quantum light emitting diode)(QLED) 디스플레이, 마이크로전자기계 시스템들(microelectromechanical systems)(MEMS) 디스플레이, 또는 전자 종이 디스플레이를 포함할 수 있다. 디스플레이(160)는 또한 깊이 인식(depth-aware) 디스플레이, 이를테면 다초점 디스플레이일 수 있다. 디스플레이(160)는 다양한 콘텐츠들(이를테면 텍스트, 이미지들, 비디오들, 아이콘들, 또는 심볼들)을 사용자에게 디스플레이할 수 있다. 디스플레이(160)는 터치스크린을 포함할 수 있고, 예를 들어, 전자 펜 또는 사용자의 신체 부분을 사용한 터치, 제스처, 근접, 또는 호버링 입력을 수신할 수 있다.

통신 인터페이스(170)는 전자 디바이스(101)와 외부 전자 디바이스(이를테면 제1 전자 디바이스(102), 제2 전자 디바이스(104), 또는 서버(106)) 사이의 통신을 셋업할 수 있다. 예를 들어, 통신 인터페이스(170)는 외부 전자 디바이스를 통신하기 위한 무선 또는 유선 통신을 통해 네트워크(162 또는 164)와 연결될 수 있다.

제1 외부 전자 디바이스(102) 또는 제2 외부 전자 디바이스(104)는 착용가능 디바이스 또는 전자 디바이스(101) 장착가능 착용가능 디바이스(이를테면 머리 장착 디스플레이(head mounted display)(HMD))일 수 있다. 전자 디바이스(101)가 HMD(이를테면 전자 디바이스(102))에 장착되는 경우, 전자 디바이스(101)는 HMD에서의 장착을 검출하고 가상 현실 모드에서 동작할 수 있다. 전자 디바이스(101)가 전자 디바이스(102)(이를테면 HMD)에 장착될 때, 전자 디바이스(101)는 통신 인터페이스(170)를 통해 전자 디바이스(102)와 통신할 수 있다. 전자 디바이스(101)는 별도의 네트워크를 수반하는 일없이 전자 디바이스(102)와 통신하기 위해 전자 디바이스(102)와 직접 연결될 수 있다.

무선 통신은, 예를 들어, LTE(long term evolution), LTE-A(long term evolution-advanced), CDMA(code division multiple access), WCDMA(wideband code division multiple access), UMTS(universal mobile telecommunication system), WiBro(wireless broadband), 또는 GSM(global system for mobile communication) 중 적어도 하나를 셀룰러 통신 프로토콜로서 사용할 수 있다. 유선 연결은, 예를 들어, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard 232), 또는 POTS(plain old telephone service) 중 적어도 하나를 포함할 수 있다. 네트워크(162)는 적어도 하나의 통신 네트워크, 이를테면 컴퓨터 네트워크(로컬 영역 네트워크(local area network)(LAN) 또는 광역 네트워크(wide area network)(WAN)와 같음), 인터넷, 또는 전화 네트워크를 포함할 수 있다.

제1 및 제2 외부 전자 디바이스들(102 및 104) 각각은 전자 디바이스(101)로부터 동일한 유형 또는 상이한 유형의 디바이스일 수 있다. 본 개시의 실시예들에 따르면, 서버(106)는 하나 이상의 서버들의 그룹을 포함할 수 있다. 또한, 본 개시의 실시예들에 따르면, 전자 디바이스(101) 상에서 실행되는 동작들의 전부 또는 일부는 다른 하나 또는 다수의 다른 전자 디바이스들(이를테면 전자 디바이스들(102 및 104) 또는 서버(106)) 상에서 실행될 수 있다. 게다가, 본 개시의 실시예들에 따르면, 전자 디바이스(101)가 일부 기능 또는 서비스를 자동으로 또는 요청으로 수행해야 할 때, 전자 디바이스(101)는, 기능 또는 서비스를 자체적으로 또는 추가적으로 실행하는 대신, 다른 디바이스(이를테면 전자 디바이스들(102 및 104) 또는 서버(106))에 연관되는 적어도 일부 기능들을 수행할 것을 요청할 수 있다. 다른 전자 디바이스(이를테면 전자 디바이스들(102 및 104) 또는 서버(106))는 요청된 기능들 또는 추가적인 기능들을 실행하고 실행의 결과를 전자 디바이스(101)에 전달할 수 있다. 전자 디바이스(101)는 수신된 결과를 그대로 또는 추가적으로 프로세싱함으로써 요청된 기능 또는 서비스를 제공할 수 있다. 이를 위해, 예를 들어, 클라우드 컴퓨팅, 분산형 컴퓨팅, 또는 클라이언트-서버 컴퓨팅 기법이 사용될 수 있다.

전자 디바이스(101)가 네트워크(들)(162 또는 164)를 통해 외부 전자 디바이스(102 또는 104) 또는 서버(106)와 통신하기 위한 통신 인터페이스(170)를 포함함을 도 1이 도시하지만, 전자 디바이스(101)는 본 개시의 실시예들에 따른 별도의 통신 기능 없이 독립적으로 운용될 수 있다. 또한, 전자 디바이스(102 또는 104) 또는 서버(106)는 전자 디바이스(101)에 대해 도시된 바와 동일하거나 유사한 방식으로 버스, 프로세서, 메모리, I/O 인터페이스, 디스플레이, 통신 인터페이스, 및 이벤트 프로세싱 모듈(또는 그것의 임의의 적합한 서브세트)를 사용하여 구현될 수 있다는 것에 주의한다.

서버(106)는 전자 디바이스(101) 상에 구현되는 동작들(또는 기능들) 중 적어도 하나를 수행함으로써 전자 디바이스(101)를 구동하도록 동작할 수 있다. 예를 들어, 서버(106)는 전자 디바이스(101)에 구현된 이벤트 프로세싱 모듈(180)을 지원할 수 있는 이벤트 프로세싱 서버 모듈(도시되지 않음)을 포함할 수 있다. 이벤트 프로세싱 서버 모듈은 이벤트 프로세싱 모듈(180)의 컴포넌트들 중 적어도 하나를 포함할 수 있고 이벤트 프로세싱 모듈(180)에 의해 수행되는 동작들(또는 기능들) 중 적어도 하나를 수행(또는 대신 수행)할 수 있다. 이벤트 프로세싱 모듈(180)은 다른 엘리먼트들(이를테면 프로세서(120), 메모리(130), 입출력 인터페이스(150), 또는 통신 인터페이스(170))로부터 획득된 정보의 적어도 일부를 프로세싱할 수 있고 동일한 것을 사용자에게 다양한 방식들로 제공할 수 있다.

이벤트 프로세싱 모듈(180)이 도 1의 프로세서(120)와는 별개의 모듈인 것으로 도시되지만, 이벤트 프로세싱 모듈(180)의 적어도 부분은 프로세서(120) 또는 적어도 하나의 다른 모듈에 포함 또는 구현될 수 있거나, 또는 이벤트 프로세싱 모듈(180)의 전체 기능은 도시된 프로세서(120) 또는 다른 프로세서에 포함 또는 구현될 수 있다. 이벤트 프로세싱 모듈(180)은 메모리(130)에 저장되는 적어도 하나의 프로그램(140)과 연동하여 본 개시의 실시예들에 따른 동작들을 수행할 수 있다.

아래에서 더 상세히 설명되는 바와 같이, 네트워크 구성(100)의 적어도 하나의 디바이스(이를테면 전자 디바이스(101, 102, 104) 또는 서버(106))는 협력 필터링을 사용하여 개인 및 그룹 활동들 또는 이벤트들을 예측하고 추천하기 위한 동작들을 수행한다. 일부 실시예들에서, 그 추천들은 사운드, 자연어 프로세싱(NLP), 및/또는 자동 콘텐츠 인식(ACR)에 기초한다. 일부 실시예들은 가정에서 검출된 다성 사운드들 및 사용자들의 관련된 관심사에 기초하여 그룹 활동 및 이벤트 학습, 태깅, 및 추천을 위한 고유한 모델들을 전개할 수 있다.

도 1이 네트워크 구성(100)의 하나의 예를 예시하지만, 다양한 변경들이 도 1에 대해 이루어질 수 있다. 예를 들어, 네트워크 구성(100)은 임의의 수의 각각의 컴포넌트를 임의의 적합한 배열로 포함할 수 있다. 일반적으로, 컴퓨팅 및 통신 시스템들은 매우 다양한 구성들로 제공되고, 도 1는 본 개시의 범위를 임의의 특정 구성으로 제한하지 않는다. 또한, 도 1이 이 특허 문서에서 개시된 다양한 특징들이 사용될 수 있는 하나의 운영 환경을 예시하지만, 이들 특징들은 임의의 다른 적합한 시스템에서 사용될 수 있다.

도 2는 본 개시에 따른 사용자 관심사들을 예측하고 개인 및 그룹 활동들을 추천하는 예시적인 프로세스(200)를 도시한다. 설명의 편의를 위해, 도 2에 도시된 프로세스(200)는 전자 디바이스(101) 또는 서버(106)와 같은 도 1에 도시된 디바이스들 중 하나에 의해 수행되는 것으로서 설명될 수 있다. 그러나, 프로세스(200)는 임의의 다른 적합한 디바이스 또는 시스템을 사용하여 수행될 수 있다. 도 3 및 도 4는 더 많은 이해를 위한 프로세스(200)의 특정한 동작들에 대한 추가적인 세부사항들을 제공한다.

도 2에 도시된 바와 같이, 전자 디바이스(101)는 하나 이상의 소스들(예컨대, 전자 디바이스(101)의 마이크로폰, 다른 전자 디바이스 등)로부터 사운드 이벤트 데이터(211)를 수신하고 그 사운드 이벤트 데이터(211)를 사용하여 음향 이벤트 활동 프로세싱(210)을 수행하여 음향 이벤트 데이터를 획득한다. 사운드 이벤트 데이터는 그룹에서의 한 명 이상의 개인들이 참여하는 활동 동안 수집될 수 있다. 그 활동은 시드 활동(250)이라고 지칭될 수 있다. 시드 활동(250)의 예들은 라디오에서 재생되는 노래를 청취하는 사람, 텔레비전에서 구기(ballgame) 또는 영화를 보는 사람 등을 포함할 수 있다(하지만 그것으로 제한되는 않는다). 통상적으로, 시드 활동(250)에 연관되는 기록된 오디오, 비디오, 또는 둘 다가 있다.

음향 이벤트 활동 프로세싱(210)은 피처 추출(212)을 포함할 수 있으며, 이 피처 추출은 잡음을 필터링하고 하나 이상의 특정 사운드들을 추출하기 위해 사운드 이벤트 데이터(211)를 파싱하는 것을 포함할 수 있다. 음향 이벤트 활동 프로세싱(210)은 활동 인덱싱(213)을 또한 포함할 수 있으며, 이 활동 인덱싱은 각각의 특정 사운드를 개 짖는 소리, 전화 벨소리, 또는 플레이 중인 게임과 같은 사운드 클래스로 분류한다. 전자 디바이스(101)는 임의의 적합한 기법(들)을 사용하여 음향 이벤트 활동 프로세싱(210)을 수행할 수 있다. 예를 들어, 전자 디바이스(101)는 음향 이벤트 활동 프로세싱(210)을 위해 콘볼루션 신경망(CNN)을 사용할 수 있다.

본 개시에서 사용되는 바와 같이, 사운드 분류는 사운드들의 공유된 특성들 또는 파라미터들에 기초하여 사운드들을 상이한 그룹들 또는 클래스들로 편성하는 것을 의미한다. 사운드 클래스들은 특정적(이를테면 박수(clap) 클래스 또는 개 짖는 소리 클래스), 덜 특정적(이를테면 남자 보이스 클래스, 여자 보이스 클래스, 및 동물 사운드 클래스), 또는 심지어 더 일반적(이를테면 인간 보이스 클래스 및 무생물 사운드 클래스)일 수 있다. 분류는 또한 흥분 또는 감정의 수준을 나타낼 수 있는 구두 사운드들에 대한 음량 및 피치를 고려할 수 있다. 예를 들어, "홈 런"이라고 말하는 것은 "홈 런!"이라고 소리치는 것보다 낮은 참여 수준을 나타낼 수 있고 따라서 상이한 클래스에 포함될 수 있다.

음향 이벤트 활동 프로세싱(210)을 수행하는 것 외에도, 전자 디바이스(101)는 또한 ACR(221), 사용자 프로파일 정보(222), 및 NLP(223)를 포함하여 다른 사운드 및 프로파일 정보를 사용하여 사용자 액세스 패턴 모델링 기능(220)을 수행한다. 도 3은 사용자 액세스 패턴 모델링 기능(220)을 더 상세히 예시한다.

도 3에 도시된 바와 같이, 전자 디바이스(101)는 ACR(221)을 수행하거나, 또는 하나 이상의 다른 전자 디바이스들로부터 ACR 정보를 수신하여, 공간에서 발생하고 있는 활동들을 결정한다. 예를 들어, 전자 디바이스(101)는 ACR(221)을 사용하여 야구 경기가 현재 패밀리 룸에서 텔레비전으로 보여지고 있다고 결정할 수 있다. 더 구체적으로는, ACR(221)은 어떤 팀들이 플레이하는지, 게임이 얼마나 길게 지속되는지 등을 나타낼 수 있다.

전자 디바이스(101)는 또한 활동에 연관될 수 있는 하나 이상의 사용자들에 대한 사용자 프로파일 정보(222)를 획득한다. 사용자 프로파일 정보(222)는 사용자에 관한 정보, 이를테면 사용자의 관심사들, 취미들, 또는 인구통계학적 정보(예컨대, 나이, 성별, 혼인 여부 등)을 포함한다. 사용자 프로파일 정보(222)는 더 이른 시간에 (예컨대, 셋업 또는 초기화 프로세스 동안) 사용자에 의해 입력되거나, 하나 이상의 사용자들에 대한 사용자 프로파일 정보를 이미 갖는 다른 디바이스 또는 애플리케이션으로부터 수신되거나, 또는 전자 디바이스(101)가 각각의 사용자에 관한 더 많은 정보를 학습함에 따라 시간이 지남에 따라 결정될 수 있다.

전자 디바이스(101)는 또한 NLP(223)를 사용하여 활동(또는 활동들)이 일어나는 공간에서 또는 그 공간 근처에서 발생하는 구어(spoken language)를 검출하고 해석한다. 본 기술분야에서 공지된 바와 같이, NLP는 구어의 단어들, 음량, 및 어조(tone)를 파싱하는데 사용되어 화자(speaker)에 관한 인구통계학적 정보(예컨대, 나이, 성별 등), 화자의 정서적 상태(예컨대, 행복, 분노, 흥분, 지루함 등), 및 말해진 실제 메시지를 결정하거나 추정할 수 있다. 이 정보는 임의의 검출된 활동들에 대한 콘텍스트를 제공할 수 있다.

전자 디바이스(101)는 협력 필터링을 사용하여 ACR(221), 사용자 프로파일 정보(222), 및 NLP(223)로부터 사용자 관심 정보(310)를 결정하고 주제 감정 추론들(330)을 생성한다. 사용자 관심 정보(310)는 현재 활동에 대한 특정 사용자의 현재 관심 수준, 이를테면 텔레비전 상에 현재 보이는 특정 구기에 대한 사용자의 관심 및 참여의 수준을 반영한다. 전자 디바이스(101)는 또한 하나 이상의 사운드 이벤트 사전들(320) 및 하나 이상의 기본 사전들(322)로부터의 정보를 사용하여 사용자 관심 정보(310)를 결정할 수 있다.

사운드 이벤트 사전(320)은 사람에 연관될 수 있는 사운드 데이터(예컨대, 박수, 휘파람 등)를 특정 클래스에 매핑한다. 예를 들어, 사운드 이벤트 사전(320)은 박수의 특정 음향 정보를 "박수(clap)" 클래스와 연관시킬 수 있다. 기본 사전(322)은 하나 이상의 공통 활동들에 대한 미리 결정된 사운드 기반 "의견들"을 포함한다. 예를 들어, 스포츠 관련 기본 사전(322)이 야구 홈 런에 대한 "예이(Yay)!"와 같은 데이터 아이템들을 포함할 수 있다. 기본 사전(322)은 또한 각각의 사운드에 대한 사용자 감정을 나타낼 수 있다. 예를 들어, 스포츠 관련 기본 사전(322)에서의 응원 사운드가 활동에 대한 높은 사용자 관심 또는 참여 수준에 연관될 수 있는 한편, 하품(yawn) 사운드는 활동에 대한 낮은 사용자 관심 수준에 연관될 수 있다. 사전들(320~322)에서의 정보는 전자 디바이스(101)가 사용자 관심 정보(310)를 결정하기 위한 추가적인 정보 세트들을 제공한다.

사용자 관심 정보(310)를 취하면, 전자 디바이스(101)는 협력 필터링을 사용하여 하나 이상의 주제 감정 추론들(330)을 결정한다. 주제 감정 추론들(330)은 그 다음에, 아래에서 더욱 상세히 설명되는 바와 같이 콘텍스트관련 유사도 검출 기능(230)에 대한 입력으로서 사용된다. 여기서, 협력 필터링은 다수의 데이터 소스들로부터의 정보(즉, 사용자 관심 정보(310), 사용자 이력 정보(331), 및 그룹 이력 정보(332))를 필터링하여 하나 이상의 사용자들에 연관되는 패턴들을 검출한 다음, 그 패턴들을 사용하여 주제 감정 추론들(330)을 포함하는 사용자들의 관심사에 관한 예측을 하는 프로세스를 말한다.

각각의 주제 감정 추론(330)은 사용자 프로파일 정보(222), 사용자 이력 정보(331)(이는 특정 사용자에 대해 시간이 지남에 따라 획득되는 이전의 활동 및 관심 정보를 포함함), 및 그룹 이력 정보(332)(이는 시간이 지남에 따라 그룹에서의 다른 사용자들(예컨대, 다른 가족 구성원들)의 패턴 기반 이력을 포함함)로부터 획득되는 사용자 피처들, 활동 중에 말해진 단어들로부터 도출되는 피처들 및 재생되는 콘텐츠에 기초하여 사용자가 그 활동을 좋아하는지의 여부의 추정이다. 예를 들어, 주제 감정 추론(330)은 현재 플레이 중인 야구 경기에 대한 사용자의 현재 관심 수준을 포함한다. 주제 감정 추론(330)은 (예컨대, 사용자가 사용자 프로파일 정보(222)에서 취미로서 야구를 나열함에 따라) 일반적으로 야구 스포츠에서, (예컨대, 지난 몇 주, 몇 달, 또는 몇 년 동안 가정에서 보고 있는 야구 경기를 ACR(221)이 검출한 횟수에 따라) 일반적으로 야구 경기들을 시청함에 있어서, 또는 현재 경기중인 특정 팀들을 시청함에 있어서 사용자의 이력 관심 수준을 또한 포함할 수 있다.

일부 실시예들에서, 주제 감정 추론(330)이 사용자에게 제공된 이전의 추천들에 사용자가 어떻게 반응했는지를 또한 포함할 수 있다. 예를 들어, 만약 지역 야구 경기의 티켓들을 구매하라는 이전의 추천들이 있었고, 사용자가 항상 그들 추천들을 거부했다면, 사용자는 텔레비전에서 야구 경기들을 시청하는 것을 좋아하지만 게임들에 직접 참가하기를 원하지 않는다고 결론을 내일 수 있다. 전자 디바이스(101)는 임의의 적합한 토픽 감성 분석 모델링 기법들을 사용하여 주제 감정 추론들(330)을 결정할 수 있다.

도 2로 다시 가면, 전자 디바이스(101)는 음향 이벤트 활동 프로세싱(210) 및 사용자 액세스 패턴 모델링 기능(220) 동안 획득된 정보를 취하고 그 정보를 콘텍스트관련 유사도 검출 기능(230)을 수행하기 위한 입력으로서 제공한다. 전자 디바이스(101)는 콘텍스트관련 유사도 검출 기능(230)을 수행하여 시드 활동(250)과 유사한 그리고 사용자들에게 추천될 수 있는 활동들을 결정한다. 도 4는 콘텍스트관련 유사도 검출 기능(230)을 더 상세히 예시한다.

도 4에 도시된 바와 같이, 주제 감정 추론(330)은 하나 이상의 점수들, 이를테면 품질 점수(401), 인지도 점수(402), 사용자 점수(403), 및 토픽 감정 점수(404)를 포함할 수 있다. 품질 점수(401)는 주제 감정 추론(330)의 정확도에 대한 신뢰 수준을 나타낼 수 있다. 인지도 점수(402)는 인지도 수준을 사용자 그룹과의 활동에 배정한다. 사용자 점수(403)는 활동에 대한 특정 사용자의 관심을 나타낼 수 있다. 토픽 감정 점수(404)는 좋아요, 싫어요, 강한 싫어요 등과 같이 활동에 대한 하나 이상의 사용자들에 의한 감정을 나타낼 수 있다.

음향 이벤트 활동 프로세싱(210) 동안 결정된 음향 이벤트들은 사운드 이벤트들(411) 및 NLP 이벤트들(412)로 분류될 수 있다. 각각의 이벤트(411~412)는 다차원 공간에서 벡터로서 표현될 수 있다. 표현 벡터들 사이의 거리는 그룹의 상이한 구성원들 간의 관심 활동들 사이의 관계들을 특징화하고 정량화한다. 민코프스키(Minkowski) 거리 함수를 사용하면 개별 사용자들의 특정 피처들을 고려함 없이 주관적 모델로 이어진다. 콘텍스트관련 유사도 검출 기능(230)을 수행하는 경우, 전자 디바이스(101)는 정적 가중 스킴과 함께 가중 민코프스키 거리 함수를 사용하여 사용자 그룹(들)의 상이한 인지들과 특정 사용자 그룹에 대한 액세스 패턴들을 고려한다. 예를 들어, 이 방법을 사용하여, 전자 디바이스(101)는 높은 참여가, 예컨대, 응원 사운드 또는 활동의 완료 시의 다른 시끄러운 반응들에 관련됨을 예측할 수 있거나, 또는 침묵 또는 모바일 탭핑 소음들이 특정 활동에 대한 낮은 참여를 의미한다고 예측할 수 있다. 일부 실시예들에서, 전자 디바이스(101)는 중립적인 이벤트들을 필터링하는데, 중립적인 이벤트들이 참여 또는 관심 수준을 일반적으로 나타내지 않기 때문이다.

콘텍스트관련 유사도 검출 기능(230)을 수행하는 경우, 전자 디바이스(101)는 이벤트들(411~412) 중에서 상이한 활동 특정 음향 이벤트들의 예측 가중값들을 결정한다. 예측 가중값들은 시드 활동(250)에 대한 높은 공산으로 구상되는 하나 이상의 가능한 이벤트들에 배정될 수 있다. 전자 디바이스(101)는 사용자 그룹에 대한 이전 사용자 액세스 패턴들 및 기본 패턴들에 기초하여 시드 활동(250)에 대한 기본 평균 등급을 예측할 수 있고 그 뒤에 시드 활동(250)을 향해 해당 특정 사용자에 대한 참여 가중값들을 향상시킬 수 있다. 이는 시드 활동(250)을 위해 제공되는 시드 가중값들과 새로운 기저선을 향하는 사용자 세그먼트를 사용하여 추가로 향상될 수 있다.

일부 실시예들에서, 전자 디바이스(101)는 이러한 분석 및 추천들을 다음과 같이 수행한다. 전자 디바이스(101)는 하나 이상의 세그먼트들에서 사용자 그룹들을 분류할 수 있고, 이벤트(411~412)가 시드 활동(250)에 속할 확률을 각각의 이벤트(411~412)에 배정할 수 있다. 일부 실시예들에서, 그 확률은 다음으로서 표현될 수 있으며:

여기서 wn은 이벤트(n)의 가중값이며, Pn은 이벤트(n)의 확률이고, P[I_n]은 활동(I)에 속하는 이벤트(n)의 확률이다. 시드 활동(250)의 경우, 음향 이벤트들(411~412)은 독립적이고 가우시안적이고, 전자 디바이스(101)는 나이브 베이즈 가정(Naive Bayes assumption)과 같은 알려진 확률 알고리즘을 사용하여 확률을 결정할 수 있다. 그래프 라플라스 행렬(graph Laplacian matrix) 알고리즘들, 가중 민코프스키 거리 함수들, 및 하나 이상의 kNN(k 개의 최근접 이웃들) 모델들을 사용한 협력 필터링을 포함하는 다른 확률 알고리즘들이 이용될 수 있지만 그것들로 제한되지 않는다.

전자 디바이스(101)는 최소-향(min-wise) 해시 인덱싱 스킴을 통한 그들의 사용자 범주에 기초한 개별 사용자들의 선호도들과 함께, 활동 특정 음향 이벤트들과 활동 패턴들 사이의 상관에 기초하여 메트릭 학습 접근법들을 사용하여 유사도 메트릭들을 결정한다. 해싱 스킴을 사용하여, 전자 디바이스(101)는 t 개의 독립적인 해시 함수들의 세트를 차원 n의 사용자 액세스 패턴 벡터의 각각의 컴포넌트에 적용하고, 't' 개 값들 중 최소를 추천된 해시 값으로서 선택한다. 전자 디바이스(101)는 그 다음에 최소 해시 값 거리에 걸쳐 유사도를 비교한다. 전자 디바이스(101)는 그 다음에 각각의 표현에 기초하여 유사도를 계산하고 두 개의 유사도 측정들을 선형적으로 결합한다.

전자 디바이스(101)는 시드 활동(250)에 대한 등급 세트를 전개한다. 등급들은 kNN 모델(420)에 대한 입력으로서 사용된다. 시드 활동(250)에 대한 등급 세트는 등급 행렬 R(U,I)로서 표현될 수 있으며, 여기서 U는 사용자 그룹을 나타내며, I는 활동 그룹을 나타내고, R(U,I)는 활동 그룹(I)에 대한 사용자 그룹(U)의 선호도를 나타낸다. 일부 실시예들에서, 등급 행렬(R)은 사용자 선호도 행렬(Ω)의 반영인 것으로 가정될 수 있으며 여기서 ru,i = Ωu,I이다. 여기서 u는 사용자를 나타내고 i는 활동을 나타낸다.

kNN 모델(420)을 사용하여, 전자 디바이스(101)는 활동 유사도 검출 기능(430)을 수행하여 시드 활동(250)에 유사한 그리고 그룹의 사용자들이 관심이 있을 수 있는 하나 이상의 활동들을 예측한다. 일부 실시예들에서, 사용자들은 |I|-차원 벡터들로서 표현될 수 있고, 전자 디바이스(101)는 두 개의 등급 벡터들 사이의 코사인 거리에 의해 유사도를 측정할 수 있다. 일부 실시예들에서, 이는 그 벡터들의 스칼라곱(dot product)을 취하고 그 스칼라곱을 그 벡터들의 L2(Euclidean) 놈들의 곱에 의해 나눔으로써 효율적으로 컴퓨팅될 수 있다. 전자 디바이스(101)는 해당 기술분야에서 공지된 바와 같이, 피어슨 상관(Pearson Correlation)을 사용하는 알고리즘과 같은 유사도 검출 알고리즘을 통해 하나 이상의 음향 이벤트 세트들에 기초하여 특정 활동에 대한 특정 사용자의 친화도를 추정할 수 있다. 물론, 이는 하나의 예일 뿐이고, 임의의 적합한 유사도 검출 알고리즘이 사용될 수 있다.

예측은 사용자(u)와 과거 행동이 현재 사용자와 유사한 u와 같은 다른 사용자들의 이전의 이력에 기초할 수 있다. 유사도 함수 s : U x U-> R은 예측들을 생성하는데 사용될 수 있다. 이 접근법을 사용하여, 활동의 예측(Pu,i)은 다음과 같이 주어질 수 있으며:

여기서 N은 유사한 행동을 갖는 과거 사용자 세트이며, S는 유사도 행렬이고,

는 활동(i)을 향하는 사용자(u)의 등급이며, u는 현재 이벤트이고,

은 이전 이벤트이다.

일 실시예에 따르면, 결합된 유사도 측정이 음향 피처들에 기초한 것보다 인간 참여 및 관심을 더 정확하게 반영할 수 있다. ACR, NLP, 및 음향 피처들 사이의 협력 관계를 융합하는 접근법은 특정 활동 유형 및 연관된 피처들에 대한 유사도 및 참여의 강건한 추정을 제공한다. 그러나, 전자 디바이스(101)는 사용자의 범주, 사용자 프로파일, 관심 활동들 등을 포함한 사용자 특정 패턴들에 대한 모델을 적응시킬 수 있다. 일부 실시예들에서, 전자 디바이스(101)는 적절한 가중값들을 추정하기 위해 사용자들 또는 사용자 그룹들의 특정 클래스에 대해 에지 기반 적응을 사용할 수 있다.

일부 실시예들에서, 전자 디바이스(101)는 액세스 패턴들이 액티브 사용자들의 것들에 유사한 사용자 서브세트를 선택함으로써 관심들의 병합을 완수한 다음 선택된 것들만을 사용할 수 있다. 전자 디바이스(101)는 활동의 일부가 아닌 비참여 사용자들을 걸러낼 수 있고 사운드 위치파악 (sound localization)은 이 목표를 추진하는데 도움이 된다.

도 4에 도시된 바와 같이, 활동 유사도 검출 기능(430)은 다수의 kNN 모델들을 포함하도록 확장될 수 있다. 예를 들어, 활동이 멀티 그룹 또는 멀티 가족 활동에 참여하는 둘 이상의 가족들과 같은 하나를 초과하는 그룹을 포함하는 경우 전자 디바이스(101)는 하나 이상의 이웃 kNN 모델들(425)을 사용할 수 있다. 이러한 시나리오에서, kNN 모델(420)은 제1 가족에 대한 모델을 반영하는 한편, 이웃 kNN 모델(425)은 다른 가족들에 대한 모델(들)을 반영한다. 이웃 kNN 모델(425)은 옵션적이고 하나의 그룹 또는 가족이 고려되는 경우에만 생략될 수 있다.

도 2로 다시 가면, 전자 디바이스(101)는 콘텍스트관련 유사도 검출 기능(230)으로부터의 정보를 사용하여 활동 그래프(240)를 생성한다. 활동 그래프(240)는 그룹의 하나 이상의 사용자들에게 제안될 수 있는 잠재적 활동들의 리스트를 나타낸다. 일단 전자 디바이스(101)가 활동 그래프(240)를 생성하면, 전자 디바이스(101)는 잠재적 활동들을 시드 활동(250)에 일시적으로 매핑하여 순위들을 전개할 수 있으며, 여기서 순위들은 각각의 사용자가 활동에 대해 보여준 관심 수준에 따라 결정된다. 예를 들어, 높은 순위 활동은 그룹에서의 사용자들의 대부분 또는 모두가 관심있어 하는 것이다. 전자 디바이스(101)는 그러면 제안된 활동들의 순위들에 기초하여 특정 활동들의 하나 이상의 추천들(260)을 한다. 예를 들어, 전자 디바이스(101)는 활동 그래프(240)에서 이용 가능하거나 또는 가까운 장래에 가능한 하나 또는 두 개의 최고 순위 활동들을 (예컨대, 전자 디바이스의 디스플레이 상에) 보여줄 수 있다. 전자 디바이스(101)는 추천된 야구 경기로의 수송과 같이 제안된 활동과 사용될 수 있거나 또는 필요할 수 있는 보조 활동들 또는 서비스들에 대한 추천들을 또한 제공할 수 있다. 전자 디바이스(101)는 그래프 라플라스 및 라벨 전파(label propagation)와 같은 활동 추천을 위한 임의의 적합한 기법을 사용할 수 있다.

도 2 내지 도 4가 사용자 관심사들을 예측하고 개인 및 그룹 활동들을 추천하기 위한 프로세스(200)의 하나의 예를 도시하지만, 다양한 변경들이 도 2 내지 도 4에 대해 이루어질 수 있다. 예를 들어, 도 2 내지 도 4의 특정한 동작들이 특정 순서로 발생하는 것으로서 도시되지만, 다양한 동작들이 중첩하거나 또는 병행하여 발생할 수 있다. 또한, 다양한 동작들이 상이한 순서로 발생할 수 있거나 또는 임의의 횟수 발생할 수 있다.

도 5는 본 개시에 따른 프로세스(200)의 적어도 일부 부분들이 구현되는 예시적인 그룹 활동(500)을 도시한다. 이 시나리오에서, 그룹 활동(500)은 가족이 텔레비전에서 야구 경기를 시청하는 것을 수반한다. 설명의 편의를 위해, 그룹 활동(500)은 전자 디바이스(101)를 수반하는 것으로서 설명된다. 물론, 이는 하나의 예일 뿐이고, 그룹 활동(500)은 임의의 적합한 디바이스 또는 시스템을 수반할 수 있다.

그룹 활동(500)에서, 가족이 야구 경기를 시청하는 것은 시드 활동(250)을 나타낼 수 있다. 도 5에 도시된 바와 같이, 전자 디바이스(101)는 그룹 활동(500) 동안 발생하는 음향 이벤트들(501~509)을 검출한다. 음향 이벤트들(501~509)은 0 초에서 X 초까지 시간이 지남에 따라, 그리고 도 5의 시간 기반 차트에 의해 나타낸 바와 같은 상이한 시간들에 발생한다.

NLP 및 ACR을 포함하여 프로세스(200)에서 설명되는 사운드 프로세싱 기법들을 사용하여, 전자 디바이스(101)는 음향 이벤트들(501~509)을 분석하고 식별한다. 예를 들어, 전자 디바이스(101)는 ACR 기법들을 사용하여 야구 경기가 텔레비전에서 보여지고 있다(음향 이벤트(501))고 결정할 수 있다. 전자 디바이스(101)는 NLP를 사용하여 "홈 런!"(음향 이벤트(502)) 또는 "멋진 샷(Amazing Shot)!"(음향 이벤트(505))이라는 보이스를 검출할 수 있다. 전자 디바이스(101)는 또한 NLP를 사용하여 여자 보이스(음향 이벤트(508))로부터 단어들을 검출할 수 있다. 전자 디바이스(101)는 또한 하나 이상의 박수들(음향 이벤트(503)), 휘파람들(음향 이벤트(504)), 짖는 소리들(음향 이벤트(506)), 아기 딸랑이(baby rattle) 사운드들(음향 이벤트(507)), 및 아기 울음 사운드들(음향 이벤트(509))을 포함한 다른 비구두 사운드들을 검출할 수 있다. 이들 음향 이벤트들은 프로세스(200)에 따라 프로세싱되고 분류될 수 있다.

예를 들어, 동작의 하나의 양태에서, 전자 디바이스(101)는 각각의 음향 이벤트(501~509)에 등급을 배정할 수 있다. 도 6은 도 5에 도시된 음향 이벤트들(501~509)의 일부에 배정된 등급들(601)을 예시한다. 일부 실시예들에서, 음향 이벤트들(501~509)은 그것들의 세기 및 CNN을 통한 활동에 대한 관련성에 기초하여 -5 내지 5의 스케일로 등급화될 수 있다. 전자 디바이스(101)는 짖는소리와 같은 미지의 이벤트들(예컨대, 초기 모델에서 알려지지 않은 이벤트들)에, 0의 등급을 배정할 수 있다.

음향 이벤트들(501~509)의 프로세싱 및 분류에 뒤이어, 전자 디바이스(101)는 가족에 관해 다음 중 하나 이상을 결정할 수 있다:

아버지: 야구 경기 시청에 적극적으로 참여.

두 아이들: 야구 경기 시청에 적극적으로 참여.

어머니: 야구 경기 시청에 적극적으로 참여하지 않음.

게임이 시청되고 있는 공간에서의 유아 및 애완견의 존재.

그 데이터를 사용하여, 전자 디바이스(101)는 적어도 대부분의 가족이 야구 경기들을 즐기는 것으로 결정할 수 있는데, 그들이 텔레비전으로 방송되는 야구 경기에 적극적으로 참여하기 때문이다. 이 정보를 사용하여, 전자 디바이스(101)는 다음의 액션들을 수행할 수 있다:

프로 야구 경기는 가까운 장래에 그 영역에서 예정되어 있다고 결정하고, 가족을 위해 경기 티켓들의 구매를 추천한다.

가족이 경기 장소에 갈 수 있도록 승차 공유 서비스(ride sharing service)를 추천한다.

유아를 위한 보모(nanny) 또는 베이비시터(babysitter)와 개를 돌볼 사람을 추천한다.

가족이 가족 활동에 대한 모든 계획들을 한 번에 쉽게 하도록 추천들의 모두는 함께 제공된다.

도 7은 본 개시에 따른 프로세스(200)의 적어도 일부 부분들이 구현되는 예시적인 다른 그룹 활동(700)을 도시한다. 이 시나리오에서, 그룹 활동(700)은 다수의 가족들이 노래 퀴즈(SONG QUIZ)와 같은 게임을 하는 멀티 그룹 활동이다. 그 그룹 활동에서, 각각의 가족은, 지능형 비서와의 상호작용을 제공할 수 있는 IoT(Internet-of-Things) 스마트 스피커를 사용하여, 자신들의 가정에서 놀 수 있다. 설명의 편의를 위해, 그룹 활동(700)은 전자 디바이스(101)를 수반하는 것으로서 설명된다. 물론, 이는 하나의 예일 뿐이고, 그룹 활동(700)은 임의의 적합한 디바이스 또는 시스템을 수반할 수 있다.

그룹 활동(700)에서, 가족들이 놀이를 하는 게임은 시드 활동(250)을 나타낼 수 있다. 도 7에 도시된 바와 같이, 전자 디바이스(101)(이는, 예를 들어, 하나의 가정에서의 스마트 스피커를 포함할 수 있음)는 그룹 활동(700) 동안 발생하는 하나의 가족의 음향 이벤트들(701~708)을 검출한다. 음향 이벤트들(701~708)은 시간이 지남에 따라, 그리고 도 7의 시간 기반 차트에 의해 나타낸 바와 같은 상이한 시간들에 발생한다.

프로세스(200)에서 설명되는 사운드 프로세싱 기법들을 사용하여, 전자 디바이스(101)는 하나의 가족에 대한 음향 이벤트들(701~708)을 분석하고 식별한다. 예를 들어, 전자 디바이스(101)는 ACR 기법들을 사용하여 노래 퀴즈 게임이 놀이 되고 있다(음향 이벤트(701))고 결정할 수 있다. 전자 디바이스(101)는 NLP를 사용하여 하나 이상의 보이스들이 상이한 노래 이름들을 말함(음향 이벤트(702))을 검출할 수 있다. 전자 디바이스(101)는 또한 NLP를 사용하여 전화 통화에서 남자 보이스(음향 이벤트(704))로부터 단어들을 검출할 수 있다. 전자 디바이스(101)는 또한 전화 통화 벨(음향 이벤트(703)), 놀이 되고 있는 장난감의 사운드(음향 이벤트(705)), 하품(음향 이벤트(706)), 영화 배경의 사운드들(음향 이벤트(707)), 및 NLP를 사용하여 구별하지 못할 수 있는 하나 이상의 진행중인 채팅 사운드들(음향 이벤트(708))을 포함하여 다른 비-구두 사운드들을 검출한다. 이들 음향 이벤트들은 가족에 관해 다음 중 하나 이상을 결정하기 위해 프로세스(200)에 따라 프로세싱되고 분류될 수 있다:

아버지: 게임이 진행되는 동안 전화 통화 중이었기 때문에 게임에 참여하지 않는다.

한 아이: 장난감을 가지고 놀며 그리고/또는 영화를 시청한다.

어머니: 게임에 반쯤 참여하지만, 또한 채팅도 한다.

그 데이터를 사용하여, 전자 디바이스(101)는 (다른 가족들이 그 활동에 참여할 수 있더라도) 이 가족이 노래 퀴즈 활동에 별로 참여하지 않는다고 결정할 수 있다. 따라서, 전자 디바이스(101)는 장래에 이 가족에 대해 제빵 수업(baking class)과 같은 상이한 활동을 추천할 수 있다. 그 가족의 일부 구성원들이 제빵 수업에 관심이 있을 수 있기 때문에, 전자 디바이스(101)는 또한 (제빵 수업을 위한 용품을 위한) 식료품 쇼핑 서비스, 요리책, 및 요리를 즐기지 않는 가족 중의 아이들을 위한 영화를 추천할 수 있다.

도 8은 본 개시에 따른 프로세스(200)의 적어도 일부 부분들이 고급 콘텍스트관련 광고에 대해 구현될 수 있는 예시적인 활동 세트(800)를 도시한다. 이 시나리오에서, 활동 세트(800)는 기간 동안 상이한 활동들에 참여하는 가족들을 수반한다. 설명의 편의를 위해, 활동 세트(800)는 전자 디바이스(101)를 수반하는 것으로서 설명된다. 물론, 이는 하나의 예일 뿐이고, 활동 세트(800)는 임의의 적합한 디바이스 또는 시스템을 수반할 수 있다.

활동 세트(800)에서, 단일 시드 활동은 없는데, 가족의 구성원들이 상이한 활동들에 참여하고 있기 때문이다. 도 8에 도시된 바와 같이, 전자 디바이스(101)(이는, 예를 들어, 스마트 스피커 또는 오디오를 검출하고 프로세싱할 수 있는 다른 디바이스를 포함할 수 있음)는 취미들, 음악 등을 포함한 가족의 다수의 음향 이벤트들(801~808)을 검출한다. 음향 이벤트들(801~808)은 시간이 지남에 따라, 그리고 도 8의 시간 기반 차트에 의해 나타낸 바와 같은 상이한 시간들에 발생한다.

프로세스(200)에서 설명되는 사운드 프로세싱 기법들을 사용하여, 전자 디바이스(101)는 음향 이벤트들(801~808)을 분석하고 식별한다. 예를 들어, 전자 디바이스(101)는 NLP를 사용하여 하나 이상의 취미들에 관련된 단어들을 말하는 보이스(음향 이벤트(801)), 여자 아이 보이스(음향 이벤트(804)), 및 십대 남자 보이스(음향 이벤트(807))를 검출할 수 있다. 전자 디바이스(101)는 또한 음악(음향 이벤트(802)), 장난감으로부터의 사운드들(음향 이벤트(803)), 개 짖는 소리(음향 이벤트(805)), 아기 딸랑이 사운드들(음향 이벤트(806)), 및 아기 울음 사운드들(음향 이벤트(808))을 포함한 다른 비-구두 사운드들을 검출할 수 있다. 이들 음향 이벤트들은 프로세스(200)에 따라 프로세싱되고 분류될 수 있다.

음향 이벤트들(801~808)로부터의 정보는 NLP 도출 정보만을 사용하여 결정되는 광고들보다 더 많이 관련 있고 특정적인 타겟이 되는 광고들에 사용될 수 있다. 예를 들어, 전자 디바이스(101)는 개 짖는 소리 사운드들을 이해하고 이 정보를 다른 NLP 데이터와 연계하여 사용하여 개에 관련되는 관련 제품 광고들 및 서비스들을 홍보할 수 있다. 다른 예로서, 전자 디바이스(101)는 상이한 장난감 사운드들 및 아기 보이스들 또는 울음들을 다른 NLP 데이터와 함께 해석할 수 있다. 전자 디바이스(101)는 이 정보를 사용하여 아이들의 존재와 그들의 나이들, 사용되고 있는 상이한 유형의 장난감들 등을 결정할 수 있다. 이 정보로, 전자 디바이스(101)는 더 관련 있는 장난감 광고들, 뿐만 아니라 아이들을 위한 나이에 적절한 다른 용품을 홍보할 수 있다.

특정 예로서, 음향 이벤트들(801~808)에 기초하여, 전자 디바이스(101)는 가족이 집에 있는 성인 남자, 성인 여자, 두 명의 아이들(십대 남자와 어린 여자 아이), 유아, 및 애완견을 포함한다고 결정할 수 있다. 전자 디바이스(101)는 다음과 같이 상이한 가족 구성원들에 대한 다음의 타겟이 된 광고들을 생성하거나 송신할 수 있다:

십대 남자의 경우: 영화들, 책들 등의 구매를 위한 광고들.

어린 여자 아이의 경우: 나이에 적절한 학용품에 대한 광고들.

성인 여자의 경우: 아기 제품들(예컨대, 아기 캐어 제품들, 보모 서비스들, 유아 장난감들 등)에 대한 광고들.

성인 남자 및 여자의 경우: 그들의 취미들 또는 관심사에 기초한 광고들, 및 개(dog)에 관련된 제품들 또는 서비스들에 대한 광고들.

도 9 및 도 10은 본 개시에 따른 프로세스(200)의 적어도 일부 부분들이 비상 서비스들을 제공함에 있어서 도움이 되도록 구현될 수 있는 시나리오들(900, 1000)의 예들을 도시한다. 시나리오들(900, 1000)에서, 프로세스(200)를 수행하는 전자 디바이스가 다성 사운드들을 사용하여 가정에서의 특정한 비상 상황들을 식별할 수 있다. 설명의 편의를 위해, 시나리오들(900, 1000)은 전자 디바이스(101)를 수반하는 것으로서 설명된다. 물론, 이는 하나의 예일 뿐이고, 시나리오들(900, 1000)은 임의의 적합한 디바이스 또는 시스템을 수반할 수 있다.

도 9에 도시된 바와 같이, 시나리오(900)에서, 전자 디바이스(101)는 가정 내부에서 발생하는 다수의 음향 이벤트들(901~906)을 검출한다. 음향 이벤트들(901~906)은 시간이 지남에 따라, 그리고 도 9의 시간 기반 차트에 의해 나타낸 바와 같은 상이한 시간들에 발생한다. 프로세스(200)에서 설명되는 사운드 프로세싱 기법들을 사용하여, 전자 디바이스(101)는 음향 이벤트들(901~906)을 분석하고 식별한다. 예를 들어, 전자 디바이스(101)는 NLP를 사용하여 폭언을 사용하는 화난 남자 보이스(음향 이벤트(901))를 검출할 수 있다. 전자 디바이스(101)는 또한 찰싹소리(slap)(음향 이벤트(902)), 타격(hitting) 사운드(음향 이벤트(903)), 여자 울음소리(음향 이벤트(904)), 끙끙거리는 사운드들(음향 이벤트(905)), 또는 낙하하는 또는 던져진 물체에 연관되는 사운드들(음향 이벤트(906))을 포함한 다른 비-구두 사운드들을 검출할 수 있다. 이들 음향 이벤트들은 폭행의 에피소드가 가정에서 발생할 수 있고 결정하기 위해 프로세스(200)에 따라 프로세싱되고 분류될 수 있다. 전자 디바이스(101)는 그 다음에 가족의 안전을 보장하기 위해 긴급 구조원들(emergency responders)을 호출하는 것을 포함하는 하나 이상의 액션들을 취할 수 있다.

도 10에 도시된 바와 같이, 시나리오(1000)에서, 전자 디바이스(101)는 가정 내부에서 발생하는 다수의 음향 이벤트들(1001~1005)을 검출한다. 프로세스(200)에서 설명되는 사운드 프로세싱 기법들을 사용하여, 전자 디바이스(101)는 음향 이벤트들(1001~1005)을 분석하고 식별한다. 예를 들어, 전자 디바이스(101)는 NLP를 사용하여 노인 여자로부터의 단어들(음향 이벤트(1001))을 검출할 수 있다. 전자 디바이스(101)는 또한 낙하 사운드(음향 이벤트(1002)), 여자 보이스에서의 고통의 울음들(음향 이벤트(1003)), 끙끙거리는 사운드들(음향 이벤트(1004)), 또는 유리 파손의 사운드들(음향 이벤트(1005))을 포함하는 다른 비-구두 사운드들을 검출할 수 있다. 이들 음향 이벤트들은 의료 비상 상황이 가정에서 발생될 수 있음을 결정하기 위해 프로세스(200)에 따라 프로세싱되고 분류될 수 있다. 전자 디바이스(101)는 그 다음에 긴급 구조원들을 호출하는 것 또는 다른 가족 구성원들과 접촉하는 것을 포함하는 하나 이상의 액션들을 취할 수 있다.

도 11은 본 개시에 따른 사용자 관심사들을 예측하고 개인 및 그룹 활동들을 추천하는 예시적인 방법(1100)을 도시한다. 설명의 편의를 위해, 방법(1100)은 도 1에 도시된 전자 디바이스(101)를 사용한 도 2에 도시된 프로세스(200)의 수행을 수반하는 것으로서 설명된다. 그러나, 방법(1100)은 임의의 다른 적합한 전자 디바이스와 함께 그리고 임의의 적합한 시스템에서 사용될 수 있다.

단계 1101에서, 전자 디바이스(101)는 적어도 하나의 디바이스로부터 음향 이벤트 정보를 획득하며, 여기서 음향 이벤트 정보가 활동에 연관된다. 음향 이벤트 정보의 적어도 부분이 활동의 기간 동안 식별된 그룹에서 다수의 개인들로부터 유래하는 사운드들에 연관된다. 이는, 예를 들어, 전자 디바이스(101)가 도 2의 사운드 이벤트 데이터(211)를 획득하는 것을 포함할 수 있다. 이는, 예를 들어, 전자 디바이스(101)가 ACR(221) 또는 NLP(223)를 사용하여 음향 이벤트 정보를 획득하는 것을 또한 포함할 수 있다.

단계 1103에서, 전자 디바이스(101)는 음향 이벤트 정보를 복수의 사운드 클래스들로 분류한다. 이는, 예를 들어, 전자 디바이스(101)가 도 2의 음향 이벤트 활동 프로세싱(210)을 수행하는 것을 포함할 수 있다.

단계 1105에서, 전자 디바이스(101)는 복수의 사운드 클래스들에 대해 협력 필터링을 수행한다. 이는, 예를 들어, 전자 디바이스(101)가 하나 이상의 주제 감정 추론들(330)을 결정하기 위해 협력 필터링을 사용하는 사용자 액세스 패턴 모델링 기능(220)을 수행하는 것을 포함할 수 있다.

단계 1107에서, 전자 디바이스(101)는 협력 필터링의 결과들에 기초하여 식별된 그룹에서의 개인들의 하나 이상의 관심사들을 결정한다. 이는, 예를 들어, 전자 디바이스(101)가 하나 이상의 주제 감정 추론들(330)을 결정하기 위해 사용자 액세스 패턴 모델링 기능(220)을 수행하는 것을 포함할 수 있다.

단계 1109에서, 전자 디바이스(101)는 식별된 그룹에서의 개인들의 관심사에 부분적으로 기초하여, 식별된 그룹에 대한 공통 활동을 추천한다. 이는, 예를 들어, 전자 디바이스(101)가 활동 그래프(240)에서 활동들을 순위화하고 하나 이상의 추천들(260)을 하는 것을 포함할 수 있다.

도 11이 사용자 관심사들을 예측하고 개인 및 그룹 활동들을 추천하는 방법(1100)의 하나의 예를 도시하지만, 다양한 변경들이 도 11에 대해 이루어질 수 있다. 예를 들어, 일련의 단계들로서 도시되지만, 도 11의 다양한 단계들은 중첩, 병행하여 발생, 상이한 순서로 발생, 또는 임의의 횟수로 발생할 수 있다.

위에서 설명된 실시예들은 제한하려는 의미는 아니고 본 개시의 다양한 양태들을 예시하는 것일 뿐이다. 예시적인 실시예들이 특정 디바이스 범주(이를테면 모바일 디바이스들, 서버들 등)에 적용 가능한 것으로서 나타내어질 수 있지만, 위에서 제공되는 프로세스들 및 예들은 그들 디바이스 카테고리들로만 제한되도록 의도되지 않고, 다양한 디바이스 카테고리들(이를테면 가전기기들, 컴퓨터들, 자동차들, 스마트 스피커들, IoT 디바이스들 등)에 광범위하게 적용 가능할 수 있다.

도면들이 설명되었고 다양한 실시예들에 적용된 바와 같은 신규한 특징들이 위에서 지적되었지만, 위에서 설명된 시스템들, 디바이스들, 또는 프로세스들의 형태 및 세부사항들에서의 다양한 생략들, 치환들, 및 변경들이 본 개시의 범위로부터 벗어남 없이 본 기술분야의 통상의 기술자들에 의해 이루어질 수 있다는 것이 이해될 것이다. 이 설명은 제한하는 의미는 아니고 오히려 본 개시의 일반 원리들을 예시하는 것으로서 취해져야 한다.

본 개시가 다양한 예시적인 실시예들을 참조하여 설명되었지만, 다양한 변경들 및 수정들이 본 기술분야의 통상의 기술자에게 제시될 수 있다. 본 개시는 첨부의 청구항들의 범위 내에 속하는 이러한 변경들 및 수정들을 포함하는 것으로 의도된다.

기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

Claims

적어도 하나의 디바이스로부터 음향 이벤트 정보를 획득하는 단계로서, 상기 음향 이벤트 정보는 제1 활동에 연관되며, 상기 음향 이벤트 정보의 적어도 부분은 상기 제1 활동의 기간 동안 식별된 그룹에서의 복수의 개인들로부터 유래하는 사운드들에 연관되는, 상기 획득하는 단계;
상기 음향 이벤트 정보를 복수의 사운드 클래스들로 분류하는 단계;
상기 복수의 사운드 클래스들에 대해 협력 필터링을 수행하는 단계;
상기 협력 필터링의 결과들에 기초하여 상기 식별된 그룹에서의 상기 복수의 개인들의 하나 이상의 관심사들을 결정하는 단계; 및
상기 식별된 그룹에서의 상기 복수의 개인들의 상기 하나 이상의 관심사들에 부분적으로 기초하여 상기 식별된 그룹에 대한 공통 활동을 추천하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 음향 이벤트 정보는 자동 콘텐츠 인식 및 자연 언어 이해 중 적어도 하나를 사용하여 상기 복수의 사운드 클래스들로 분류되는, 방법.
제1항에 있어서,
상기 복수의 사운드 클래스들에 대해 협력 필터링을 수행하는 단계는,
상기 복수의 개인들에 연관되는 패턴들을 검출하기 위해 상기 사운드 클래스들로부터 정보를 필터링하는 단계; 및
상기 개인들의 상기 하나 이상의 관심사들에 관한 하나 이상의 예측들을 하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 복수의 개인들의 상기 하나 이상의 관심사들은 상기 제1 활동에 대한 각각의 개인의 참여 수준에 따라 결정되는, 방법.
제4항에 있어서,
콘텍스트관련 유사도 검출을 사용하여 각각의 개인의 참여 수준을 결정하는 단계를 더 포함하는, 방법.
제5항에 있어서,
사용자 액세스 패턴 모델에 기초하여 상기 콘텍스트관련 유사도 검출을 수행하는 단계를 더 포함하는, 방법.
제5항에 있어서,
상기 식별된 그룹에 대한 공통 활동을 추천하는 단계는,
상기 각각의 개인의 참여 수준에 기초하여 활동 그래프를 생성하는 단계;
상기 활동 그래프 및 상기 제1 활동에 기초하여 상기 공통 활동을 포함한 하나 이상의 잠재적 활동들을 결정하고 순위화하는 단계; 및
상기 순위화에 적어도 부분적으로 기초하여 상기 하나 이상의 잠재적 활동들로부터 상기 공통 활동을 선택하는 단계를 포함하는, 방법.
송수신부; 및
프로세서를 포함하며,
상기 프로세서는,
상기 송수신부를 통해, 적어도 하나의 다른 디바이스로부터 음향 이벤트 정보를 획득하는 것으로서, 상기 음향 이벤트 정보는 제1 활동에 연관되며, 상기 음향 이벤트 정보의 적어도 부분은 상기 제1 활동의 기간 동안 식별된 그룹에서의 복수의 개인들로부터 유래하는 사운드들에 연관되는, 상기 음향 이벤트 정보를 획득하며;
상기 음향 이벤트 정보를 복수의 사운드 클래스들로 분류하며;
상기 복수의 사운드 클래스들에 대해 협력 필터링을 수행하며;
상기 협력 필터링의 결과들에 기초하여 식별된 그룹에서 상기 복수의 개인들의 하나 이상의 관심사들을 결정하며; 그리고
상기 식별된 그룹에서의 상기 복수의 개인들의 상기 하나 이상의 관심사들에 부분적으로 기초하여 상기 식별된 그룹에 대한 공통 활동을 추천하도록 구성되는, 전자 디바이스.
제8항에 있어서,
상기 프로세서는 추가로, 자동 콘텐츠 인식 및 자연 언어 이해 중 적어도 하나를 사용하여 상기 음향 이벤트 정보를 상기 복수의 사운드 클래스들로 분류하도록 구성되는, 전자 디바이스.
제8항에 있어서,
상기 복수의 사운드 클래스들에 대한 협력 필터링을 수행하기 위해, 상기 프로세서는,
상기 복수의 개인들에 연관되는 패턴들을 검출하기 위해 상기 사운드 클래스들로부터 정보를 필터링하며; 그리고
상기 개인들의 상기 하나 이상의 관심사들에 관한 하나 이상의 예측들을 하도록 구성되는, 전자 디바이스.
제8항에 있어서,
상기 프로세서는 추가로 상기 제1 활동에 대한 각각의 개인의 참여 수준에 따라 상기 복수의 개인들의 상기 하나 이상의 관심사들을 결정하도록 구성되는, 전자 디바이스.
제11항에 있어서,
상기 프로세서는 추가로, 콘텍스트관련 유사도 검출을 사용하여 상기 각각의 개인의 참여 수준을 결정하도록 구성되는, 전자 디바이스.
제12항에 있어서,
상기 프로세서는 추가로, 사용자 액세스 패턴 모델에 기초하여 상기 콘텍스트관련 유사도 검출을 수행하도록 구성되는, 전자 디바이스.
제12항에 있어서,
상기 식별된 그룹에 대한 상기 공통 활동을 추천하기 위해, 상기 프로세서는 추가로,
상기 각각의 개인의 참여 수준에 기초하여 활동 그래프를 생성하며;
상기 활동 그래프 및 상기 제1 활동에 기초하여 상기 공통 활동을 포함한 하나 이상의 잠재적 활동들을 결정하고 순위화하며; 그리고
상기 순위화에 적어도 부분적으로 기초하여 상기 하나 이상의 잠재적 활동들로부터 상기 공통 활동을 선택하도록 구성되는, 전자 디바이스.
컴퓨터 판독가능 프로그램 코드를 포함하는 컴퓨터 판독가능 매체에 있어서,
상기 컴퓨터 판독가능 프로그램 코드는, 실행될 때, 적어도 하나의 프로세서로 하여금 제1항 내지 제7항 중 어느 한 항의 방법을 수행하게 하는, 컴퓨터 판독가능 매체.