KR101559364B1

KR101559364B1 - 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션

Info

Publication number: KR101559364B1
Application number: KR1020140045982A
Authority: KR
Inventors: 송준화; 이영기; 민철홍; 황찬유; 이재웅; 황인석; 주영현; 유충국; 문미리; 이의진
Original assignee: 한국과학기술원
Priority date: 2014-04-17
Filing date: 2014-04-17
Publication date: 2015-10-12
Also published as: US20150302846A1; US9813879B2

Abstract

페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치는 주변의 모바일 장치를 스캐닝하여 대화 그룹을 설정하는 대화 그룹 디텍터, 상기 대화 그룹 내의 복수의 모바일 장치들에서 측정된 소리 신호들을 기초로 생성된 볼륨 토포그래피를 이용하여 대화 참여자 중 어떤 사람이 이야기를 하고 있는지를 의미하는 턴을 판단하는 턴 디텍터 및 상기 턴을 기초로 상기 대화 참여자의 메타 링귀스틱(meta-linguistic) 상황(context)을 추출하는 메타 링귀스틱 인포메이션 프로세서를 포함한다.

Description

페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션 {MOBILE APPARATUS EXECUTING FACE TO FACE INTERACTION MONITORING, METHOD OF MONITORING FACE TO FACE INTERACTION USING THE SAME, INTERACTION MONITORING SYSTEM INCLUDING THE SAME AND INTERACTION MONITORING MOBILE APPLICATION EXECUTED ON THE SAME}

본 발명은 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치에 관한 것으로, 보다 상세하게는 짧은 시간에 정확하게 턴을 판단할 수 있는 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션에 관한 것이다.

최근의 정보통신 패러다임은 유비쿼터스 컴퓨팅(Ubiquitous Computing), 유비쿼터스 네트워크(Ubiquitous Network), 퍼배시브 컴퓨팅(Pervasive Computing) 등이라 할 수 있다. 이는 모두 동일한 개념으로서, 유비쿼터스가 의미하는 것은 사용자가 언제, 어디서라도 원하는 정보를 손쉽게 얻을 수 있음을 말한다. 향후 도래할 유비쿼터스 시대에는 컴퓨팅 및 커뮤니케이션 능력을 가진 스마트 객체들이 동적인 환경 변화를 인식하고 이에 적응할 수 있는 특성, 즉 상황 인식 특성을 갖게 될 것이다.

페이스 투 페이스 소셜 인터랙션은 인간의 삶에 필수적인 요소이다. 매일 사람들은 가족과 식사를 하고 동료들과 회의를 하며 친구들과 대화를 한다. 모바일 센싱의 나아갈 방향은 일상의 페이스 투 페이스 인터랙션 동안 발생하는 복잡다단한 소셜 컨텍스트를 판단하고 활용하는 것이 될 수 있다.

그러나, 인터랙션 인식 애플리케이션은 시스템 레벨의 지원이 없이는 구현이 매우 힘들다는 문제점이 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 짧은 시간에 정확하게 턴을 판단할 수 있는 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치를 제공하는 것이다.

본 발명의 다른 목적은 상기 모바일 장치를 이용하는 인터랙션 모니터링 방법을 제공하는 것이다.

본 발명의 또 다른 목적은 상기 모바일 장치를 포함하는 인터랙션 모니터링 시스템을 제공하는 것이다.

본 발명의 또 다른 목적은 상기 모바일 장치에 의해 수행되는 모바일 애플리케이션을 제공하는 것이다.

상기한 본 발명의 목적을 달성하기 위한 일 실시예에 따른 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치는 주변의 모바일 장치를 스캐닝하여 대화 그룹을 설정하는 대화 그룹 디텍터, 상기 대화 그룹 내의 복수의 모바일 장치들에서 측정된 소리 신호들을 기초로 생성된 볼륨 토포그래피(topography)를 이용하여 대화 참여자 중 어떤 사람이 이야기를 하고 있는지를 의미하는 턴을 판단하는 턴 디텍터 및 상기 턴을 기초로 상기 대화 참여자의 메타 링귀스틱(meta-linguistic) 상황(context)을 추출하는 메타 링귀스틱 인포메이션 프로세서를 포함한다.

본 발명의 일 실시예에 있어서, 상기 대화 그룹 디텍터는 사람의 목소리를 감지하는 보이스 디텍터 및 사용자의 지인들의 모바일 장치의 어드레스를 저장하며, 상기 지인들의 모바일 장치가 스캐닝되면 상기 대화 그룹을 생성하는 인터랙턴트 매니져를 포함할 수 있다.

본 발명의 일 실시예에 있어서, 상기 대화 그룹 디텍터는 상기 소리 신호들에서 중복되는 스피치를 기초로 서브 그룹을 판단하는 서브 그룹 디텍터를 더 포함할 수 있다.

본 발명의 일 실시예에 있어서, 기 대화 그룹 디텍터는 상기 대화 그룹 내의 복수의 모바일 장치들 중에서 상기 턴을 판단하는 헤드 모바일 장치를 결정하는 헤드 셀렉터를 더 포함할 수 있다. 상기 헤드 모바일 장치는 상기 대화 그룹 내의 상기 모바일 장치들의 상기 소리 신호를 수집하여 상기 턴을 판단하고, 상기 턴을 상기 모바일 장치들에 출력할 수 있다.

본 발명의 일 실시예에 있어서, 상기 모바일 장치는 상기 대화 그룹 정보를 기초로 상기 턴의 모니터링을 제어하는 모니터링 플래너를 더 포함할 수 있다. 상기 모니터링 플래너는 상기 대화 그룹 내의 상기 모바일 장치의 개수를 판단하고, 상기 대화 그룹 내의 상기 모바일 장치 중에서 협동적으로 턴을 판단하기 위한 소스 모바일 장치를 설정하는 소스 셀렉터 및 상기 턴 디텍터의 모니터링 동작을 제어하는 익스큐션 플래너를 포함할 수 있다.

본 발명의 일 실시예에 있어서, 상기 모니터링 플래너는 상기 대화 그룹 내의 상기 모바일 장치들 간의 동기화를 수행하는 싱크 매니져를 더 포함할 수 있다.

본 발명의 일 실시예에 있어서, 상기 모니터링 플래너는 상기 모바일 장치의 배터리, CPU, 대역폭의 자원 이용 상태를 판단하는 리소스 모니터를 더 포함할 수 있다.

본 발명의 일 실시예에 있어서, 상기 턴 디텍터는 트래이닝 기간에 상기 대화 그룹 내의 상기 모바일 장치들의 상기 소리 신호들을 기초로 상기 볼륨 토포그래피를 생성하는 볼륨 토포그래피 빌더 및 상기 트래이닝 기간이 종료된 후, 현재의 소리 신호들이 어떤 볼륨 토포그래피에 매칭되는지를 기초로 현재의 턴을 판단하는 볼륨 토포그래피 매쳐를 포함할 수 있다.

본 발명의 일 실시예에 있어서, 상기 볼륨 토포그래피는 주어진 시간이 t, 상기 모바일 장치가 i라고 할 때, p(t,i) 값 및 P(t) 벡터를 이용하여 생성될 수 있다. 상기 p(t,i) 값은 상기 시간 t에서 상기 모바일 장치 i의 상기 소리 신호의 제곱의 평균일 수 있다. 상기 대화 그룹 내에서 상기 턴 모니터링에 참가하는 상기 모바일 장치의 개수가 np일 때, P(t) 벡터는 (p(t,1), p(t,2), ..., p(t,np))일 수 있다.

본 발명의 일 실시예에 있어서, 상기 대화 그룹 내에서 상기 턴 모니터링에 참가하는 상기 모바일 장치의 개수 np는 상기 대화 그룹 내의 상기 대화 참여자의 수보다 작거나 같을 수 있다.

본 발명의 일 실시예에 있어서, 상기 볼륨 토포그래피는 상기 P(t) 벡터를 상기 P(t) 벡터의 평균인 E(t) 벡터로 나눈 정규화 벡터 P'(t) 벡터를 기초로 생성될 수 있다.

본 발명의 일 실시예에 있어서, 상기 볼륨 토포그래피는 상기 주어진 시간이 t, 상기 모바일 장치가 i, 상기 대화 그룹 내에서 상기 턴 모니터링에 참가하는 상기 모바일 장치의 개수가 np이고, Pref가 상수일 때, P''(t) 벡터를 이용할 수 있다. 상기 P''(t) 벡터는 (D(t,1)*p(t,1)/E(t), D(t,2)*p(t,2)/E(t), ..., D(t,np)*p(t,np)/E(t))일 수 있다.

일 수 있다.

본 발명의 일 실시예에 있어서, 상기 대화 그룹 내의 상기 대화 참여자의 수가 n일 때, 상기 볼륨 토포그래피의 개수는 n+1일 수 있다. 상기 n개의 볼륨 토포그래피는 상기 n명의 상기 대화 참여자 각각에 대응하며 상기 하나의 볼륨 토포그래피는 침묵(non-speech)에 해당할 수 있다.

본 발명의 일 실시예에 있어서, 상기 볼륨 토포그래피 빌더는 상기 대화 그룹이 변경되는 경우 상기 볼륨 토포그래피를 재생성할 수 있다.

본 발명의 일 실시예에 있어서, 상기 턴은 (이야기하는 사람, 시작 시간, 종료 시간)의 세가지 인자를 가질 수 있다.

본 발명의 일 실시예에 있어서, 상기 메타 링귀스틱 인포메이션 프로세서는 상기 소리 신호들의 볼륨 및 피치를 판단하는 피쳐 익스트랙터 및 상기 턴, 상기 볼륨 및 상기 피치 중 적어도 어느 하나를 기초로 상기 대화 그룹 내의 상기 대화 참여자 간의 소셜 패턴을 판단하는 패턴 애널라이져를 포함할 수 있다.

본 발명의 일 실시예에 있어서, 상기 패턴 애널라이져는 정해진 시간 내의 상기 턴의 개수를 기초로 인터랙티비티(Interactivity)를 판단할 수 있다.

본 발명의 일 실시예에 있어서, 상기 패턴 애널라이져는 정해진 시간 내의 침묵 턴의 개수를 기초로 스파스니스(Sparseness)를 판단할 수 있다.

본 발명의 일 실시예에 있어서, 상기 패턴 애널라이져는 정해진 시간 내의 모든 대화 참여자의 상기 턴의 표준 편차를 기초로 스큐니스(Skewness)를 판단할 수 있다.

본 발명의 일 실시예에 있어서, 상기 모바일 장치는 대화 세션 및 상기 턴의 정보를 저장하고, 상기 대화 세션 및 상기 턴의 정보를 기초로 사용자의 쿼리에 응답하여 인터랙션 히스토리를 출력하는 인터랙션 히스토리 매니져를 더 포함할 수 있다.

상기한 본 발명의 다른 목적을 달성하기 위한 일 실시예에 따른 페이스 투 페이스 인터랙션 모니터링 방법은 주변의 모바일 장치를 스캐닝하여 대화 그룹을 설정하는 단계, 상기 대화 그룹 내의 복수의 모바일 장치들에서 측정된 소리 신호들을 기초로 생성된 볼륨 토포그래피를 생성하는 단계, 상기 볼륨 토포그래피를 이용하여 대화 참여자 중 어떤 사람이 이야기를 하고 있는지를 의미하는 턴을 판단하는 단계 및 상기 턴을 기초로 상기 대화 참여자의 메타 링귀스틱(meta-linguistic) 상황(context)을 추출하는 단계를 포함한다.

본 발명의 일 실시예에 있어서, 상기 모니터링 방법은 상기 대화 그룹 내의 상기 모바일 장치의 개수를 판단하는 단계 및 상기 대화 그룹 내의 상기 모바일 장치 중에서 협동적으로 턴을 판단하기 위한 소스 모바일 장치를 설정하는 단계를 더 포함할 수 있다.

본 발명의 일 실시예에 있어서, 상기 모니터링 방법은 상기 대화 그룹 내의 상기 모바일 장치들 간의 동기화를 수행하는 단계를 더 포함할 수 있다.

본 발명의 일 실시예에 있어서, 상기 턴을 판단하는 단계는 트래이닝 기간에 상기 대화 그룹 내의 상기 모바일 장치들의 상기 소리 신호들을 기초로 상기 볼륨 토포그래피를 생성하는 단계 및 상기 트래이닝 기간이 종료된 후, 현재의 소리 신호들이 어떤 볼륨 토포그래피에 매칭되는지를 기초로 현재의 턴을 판단하는 단계를 포함할 수 있다.

본 발명의 일 실시예에 있어서, 상기 볼륨 토포그래피는 주어진 시간이 t, 상기 모바일 장치가 i라고 할 때, p(t,i) 값 및 P(t) 벡터를 이용하여 생성될 수 다. 상기 p(t,i) 값은 상기 시간 t에서 상기 모바일 장치 i의 상기 소리 신호의 제곱의 평균일 수 있다. 상기 화 그룹 내에서 상기 턴 모니터링에 참가하는 상기 모바일 장치의 개수가 np일 때, P(t) 벡터는 (p(t,1), p(t,2), ..., p(t,np))일 수 있다.

본 발명의 일 실시예에 있어서, 상기 볼륨 토포그래피는 상기 주어진 시간이 t, 상기 모바일 장치가 i, 상기 대화 그룹 내에서 상기 턴 모니터링에 참가하는 상기 모바일 장치의 개수가 np이고, Pref가 상수일 때, P''(t) 벡터를 이용하여 생성될 수 있다. 상기 P''(t) 벡터는 (D(t,1)*p(t,1)/E(t), D(t,2)*p(t,2)/E(t), ..., D(t,np)*p(t,np)/E(t))일 수 있다.

일 수 있다.

본 발명의 일 실시예에 있어서, 상기 턴을 판단하는 단계는 상기 대화 그룹이 변경되는 경우 상기 볼륨 토포그래피를 재생성하는 단계를 더 포함할 수 있다.

상기한 본 발명의 또 다른 목적을 달성하기 위한 일 실시예에 따른 인터랙션 모니터링 시스템은 대화 참여자 중 어떤 사람이 이야기를 하고 있는지를 의미하는 턴을 직접 판단하는 제1 모바일 장치 및 상기 제1 모바일 장치로부터 상기 턴을 수신하는 제2 모바일 장치를 포함한다. 상기 제1 모바일 장치는 주변의 모바일 장치를 스캐닝하여 대화 그룹을 설정하는 대화 그룹 디텍터, 상기 대화 그룹 내의 복수의 모바일 장치들에서 측정된 소리 신호들을 기초로 생성된 볼륨 토포그래피를 이용하여 상기 턴을 판단하는 턴 디텍터 및 상기 턴 디텍터에서 판단한 상기 턴을 기초로 상기 대화 참여자의 메타 링귀스틱(meta-linguistic) 상황(context)을 추출하는 메타 링귀스틱 인포메이션 프로세서를 포함한다. 상기 제2 모바일 장치는 상기 주변의 모바일 장치를 스캐닝하여 대화 그룹을 설정하는 대화 그룹 디텍터 및 상기 제1 모바일 장치로부터 수신한 상기 턴을 기초로 상기 대화 참여자의 메타 링귀스틱 상황을 추출하는 메타 링귀스틱 인포메이션 프로세서를 포함한다.

상기한 본 발명의 또 다른 목적을 달성하기 위한 일 실시예에 따른 인터랙션 모니터링 모바일 애플리케이션은 주변의 모바일 장치를 스캐닝하여 대화 그룹을 설정하고, 상기 대화 그룹 내의 복수의 모바일 장치들에서 측정된 소리 신호들을 기초로 생성된 볼륨 토포그래피를 이용하여 생성된 대화 참여자 중 어떤 사람이 이야기를 하고 있는지를 의미하는 턴을 기초로 하여, 대화 세션의 개수, 대화의 시간 및 대화한 사람의 수를 판단한다.

본 발명의 일 실시예에 있어서, 상기 모바일 애플리케이션은 각 대화 세션 내에서 전체 턴의 개수, 상기 대화 세션의 시간, 상기 대화 세션의 참가자 수, 사용자의 턴의 개수, 상기 사용자의 턴의 시간 및 상기 전체 턴에 대한 상기 사용자 턴에 대한 비율을 판단할 수 있다.

본 발명의 일 실시예에 있어서, 상기 모바일 애플리케이션은 상기 사용자의 턴 이후에 턴을 이어 받은 대화 참여자들의 턴의 개수 및 상기 사용자의 턴 이후에 턴을 이어 받은 대화 참여자들의 턴의 개수의 비율을 판단할 수 있다.

상기와 같은 본 발명의 실시예에 따른 모바일 장치, 인터랙션 모니터링 방법, 인터랙션 모니터링 시스템 및 인터랙션 모니터링 모바일 애플리케이션은 짧은 시간 안에 턴을 판단할 수 있고, 노이즈에도 불구하고 정확하게 턴을 판단할 수 있으며, 훨씬 간단한 연산을 통해 턴을 판단할 수 있다. 따라서, 짧은 시간에 정확하게 턴을 판단하고, 상기 턴을 기초로 메타 링귀스틱 컨텍스트를 추출하여 다양한 소셜 인터랙션을 인식할 수 있다.

도 1은 본 발명의 일 실시예에 따른 인터랙션 모니터링 모바일 장치를 나타내는 블록도이다.
도 2는 도 1의 모바일 장치의 동작을 나타내는 개념도이다.
도 3은 도 1의 모바일 장치의 핵심 API를 나타내는 개념도이다.
도 4는 도 3의 세션을 나타내는 개념도이다.
도 5는 도 3의 턴을 나타내는 개념도이다.
도 6은 도 1의 모바일 장치의 턴 모니터링을 나타내는 개념도이다.
도 7a 내지 7e는 도 1의 모바일 장치의 턴 모니터링에 사용될 수 있는 특성 벡터에 대한 그래프이다.
도 8a 내지 도 8c는 도 1의 모바일 장치에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션을 나타내는 개념도이다.

본문에 개시되어 있는 본 발명의 실시예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 구성요소에 대해 사용하였다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위로부터 이탈되지 않은 채 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 일 실시예에 따른 인터랙션 모니터링 모바일 장치를 나타내는 블록도이다. 도 2는 도 1의 모바일 장치의 동작을 나타내는 개념도이다.

도 1 및 도 2를 참조하면, 상기 모바일 장치는 대화 그룹 디텍터(100), 턴 디텍터(300) 및 메타 링귀스틱 인포메이션 프로세서(400)를 포함한다. 상기 모바일 장치는 모니터링 플래너(200)를 더 포함할 수 있다. 상기 모바일 장치는 인터랙션 히스토리 매니져(500)를 더 포함할 수 있다.

예를 들어, 상기 모바일 장치는 스마트폰, 태블릿 PC, PDA, 노트북 컴퓨터 중 어느 하나일 수 있다. 그러나, 본 발명은 상기 모바일 장치의 종류에 한정되지 않는다.

상기 모바일 장치는 몇몇 API(Application Program Interface)를 포함한다. 다양한 인터랙션 모니터링 애플리케이션은 상기 API를 갖는 상기 모바일 장치 상에서 동작한다. 상기 API에 대해서는 도 3 내지 도 5를 참조하여 상세히 설명한다.

상기 대화 그룹 디텍터(100)는 주변의 모바일 장치를 스캐닝하여 대화 그룹을 설정한다. 상기 대화 그룹 디텍터(100)는 보이스 디텍터(110), 서브 그룹 디텍터(120), 인터랙턴트 매니져(130) 및 헤드 셀렉터(140)를 포함할 수 있다.

상기 보이스 디텍터(110)는 사람의 목소리를 감지한다. 주변에서 사람의 목소리가 감지될 때, 상기 대화 그룹 디텍터(100)는 대화 그룹을 생성할 수 있다. 주변에 모바일 장치가 스캐닝되더라도 스쳐 지나가는 경우라거나 대화를 나누지 않는 경우에는 대화 그룹을 생성하지 않을 수 있다.

상기 모바일 장치는 네트워크 인터페이스를 이용하여 주변의 모바일 장치를 스캐닝한다. 예를 들어, 상기 모바일 장치는 블루투스 방식으로 주변의 모바일 장치를 스캐닝할 수 있다.

상기 인터랙턴트 매니져(130)는 사용자의 지인들의 모바일 장치의 어드레스를 저장하는 어드레스 데이터베이스를 포함할 수 있다. 예를 들어, 상기 인터랙턴트 매니져(130)는 사용자의 지인들의 모바일 장치의 MAC 어드레스를 저장할 수 있다. 상기 인터랙턴트 매니져(130)는 상기 지인들의 모바일 장치가 스캐닝되면 상기 대화 그룹을 생성할 수 있다.

상기 헤드 셀렉터(140)는 상기 대화 그룹 내의 복수의 모바일 장치들 중에서 상기 턴을 판단하는 헤드 모바일 장치를 결정할 수 있다. 예를 들어, 상기 헤드 모바일 장치는 랜덤하게 설정될 수 있다. 일 실시예에서, 상기 헤드 셀렉터(140)는 상기 모니터링 플래너(200) 내에 포함될 수도 있다.

이 때, 상기 헤드 모바일 장치는 상기 대화 그룹 내의 상기 모바일 장치들의 상기 소리 신호를 수집하여 상기 턴을 판단한다. 상기 대화 그룹 내의 다른 모바일 장치들은 상기 턴을 판단하지 않을 수 있다. 상기 헤드 모바일 장치는 상기 턴을 상기 대화 그룹 내의 상기 모바일 장치들에 출력한다.

상기 서브 그룹 디텍터(120)는 상기 대화 그룹 내의 상기 모바일 장치들의 소리 신호들에서 중복되는 스피치를 기초로 서브 그룹을 판단할 수 있다. 하나의 대화 그룹은 복수의 서브 그룹으로 나눠지는 경우가 있다. 하나의 대화 그룹이 복수의 서브 그룹으로 나뉘지 않는 경우에는 일반적으로 대화 참여자의 스피치가 중복되지 않는다. 그러나 하나의 대화 그룹이 복수의 서브 그룹으로 나뉘는 경우 서로 다른 서브 그룹에 속하는 대화 참여자들의 스피치는 중복될 수 있다. 따라서, 상기 서브 그룹 디텍터(120)는 중복되는 스피치를 기초로 하나의 대화 그룹을 복수의 서브 그룹으로 나눌 수 있다.

상기 모니터링 플래너(200)는 상기 대화 그룹 정보를 기초로 상기 턴의 모니터링을 제어한다. 상기 모니터링 플래너(200)는 익스큐션 플래너(210), 소스 셀렉터(220), 싱크 매니져(230) 및 리소스 모니터(240)를 포함할 수 있다.

상기 익스큐션 플래너(210)는 상기 턴 디텍터(300)의 모니터링 동작을 제어한다.

상기 소스 셀렉터(220)는 상기 대화 그룹 내의 상기 모바일 장치의 개수를 판단하고, 상기 대화 그룹 내의 상기 모바일 장치 중에서 협동적으로 턴을 판단하기 위한 소스 모바일 장치를 설정한다. 예를 들어, 상기 소스 셀렉터(220)는 상기 대화 그룹 내의 상기 모바일 장치가 충분한 배터리 파워를 가지고 있는지, 소리 신호가 식별력 있는 볼륨 토포그래피를 생성할 수 있을만큼 충분히 깨끗한지 등을 판단한다. 예를 들어, 상기 소스 셀렉터(220)는 상기 턴 디텍팅의 정확도를 높이기 위해 배터리가 부족하다거나 노이즈가 많은 모바일 장치는 상기 소스 모바일 장치에서 제외시킬 수 있다.

상기 싱크 매니져(230)는 상기 대화 그룹 내의 상기 모바일 장치들 간의 동기화를 수행한다. 상기 볼륨 토포그래피는 시간과 관련된 특성 벡터를 포함하므로 상기 턴을 정확히 판단하기 위해서 상기 소스 모바일 장치들의 시간이 동기화되어야 한다.

상기 리소스 모니터(240)는 상기 모바일 장치의 배터리, CPU, 대역폭의 자원 이용 상태를 판단한다. 상기 리소스 모니터(240)는 상기 모바일 장치의 배터리, CPU, 대역폭의 자원 이용 상태를 실시간으로 판단할 수 있다. 또한, 상기 모니터링 플래너(200)는 상기 대화 그룹 내의 다른 모바일 장치의 자원 이용 상태를 수신할 수 있다.

상기 턴 디텍터(300)는 상기 대화 그룹 내의 복수의 모바일 장치들에서 측정된 소리 신호들을 기초로 생성된 볼륨 토포그래피를 이용하여 턴을 판단한다. 상기 턴은 대화 참여자 중 어떤 사람이 이야기를 하고 있는지를 의미한다. 예를 들어, 상기 턴은 (이야기하는 사람, 시작 시간, 종료 시간)의 세가지 인자를 가질 수 있다. 상기 턴 디텍터(300)는 볼륨 토포그래피 빌더(310), 볼륨 토포그래피 매쳐(320) 및 스피커 레콕나이져(330)를 포함할 수 있다.

상기 볼륨 토포그래피 빌더(310)는 트래이닝 기간에 상기 대화 그룹 내의 상기 모바일 장치들의 상기 소리 신호들을 기초로 상기 볼륨 토포그래피를 생성한다.

상기 볼륨 토포그래피 매쳐(320)는 상기 트래이닝 기간이 종료된 후, 현재의 소리 신호들이 어떤 볼륨 토포그래피에 매칭되는지를 기초로 현재의 턴을 판단한다.

상기 스피커 레콕나이져(330)는 각 모바일 장치의 소유자의 레퍼런스 스피치 모델을 생성하여 데이터 베이스에 저장할 수 있다. 상기 스피커 레콕나이져(330)는 상기 레퍼런스 스피치 모델을 기초로 상기 대화 그룹 내의 오디오 시그니쳐 (custer-IDs)를 상기 대화 그룹 내의 대화 참여자의 목소리 (member-IDs)로 특정할 수 있다. 예를 들어, 상기 각 모바일 장치는 소유자의 오디오 시그니쳐로 MFCC (Mel-Frequency Cepstral Coefficient)를 생성하고, GMM (Gaussian Mixture Model)으로 계산할 수 있다.

상기 턴 디텍터의 구성 및 동작에 대해서는 도 6, 도 7a 내지 도 7e를 참조하여 상세히 설명한다.

상기 메타 링귀스틱 인포메이션 프로세서(400)는 상기 턴을 기초로 상기 대화 참여자의 메타 링귀스틱(meta-linguistic) 상황(context)을 추출한다. 상기 메타 링귀스틱 인포메이션 프로세서(400)는 피쳐 익스트랙터(510) 및 패턴 애널라이져(520)를 포함할 수 있다.

상기 피쳐 익스트랙터(510)는 상기 소리 신호들로부터 상기 소리 신호들의 볼륨 및 피치를 판단할 수 있다. 예를 들어, 상기 피쳐 익스트랙터(510)는 상기 소리 신호들의 상기 볼륨의 평균, 상기 볼륨의 분산, 상기 피치의 평균 및 상기 피치의 분산을 판단할 수 있다. 예를 들어, 상기 피쳐 익스트랙터(510)는 상기 소리 신호들로부터 상기 대화 참여자의 스피치의 리듬(rhythm), 포먼트(formant), 대역폭(bandwidth), 스펙트럼 인텐시티(spectrum intensity) 등을 판단할 수 있다.

상기 패턴 애널라이져(520)는 상기 턴, 상기 볼륨 및 상기 피치 중 적어도 어느 하나를 기초로 상기 대화 그룹 내의 상기 대화 참여자 간의 소셜 패턴을 판단할 수 있다. 예를 들어, 상기 패턴 애널라이져(520)는 상기 대화 참여자의 상기 대화 그룹 내에서의 도미넌스(dominance), 리더쉽(leadership)을 판단할 수 있다. 또한, 상기 대화의 인터랙티비티(interactivity), 스파스니스(sparseness), 스큐니스(skewness) 등을 판단할 수 있다.

예를 들어, 상기 대화 참여자의 도미넌스는 상기 대화 그룹 내에서의 상기 대화 참여자의 턴의 비율 등으로 판단할 수 있다. 상기 대화 참여자의 리더쉽은 상기 대화 그룹 내에서의 상기 대화 참여자의 턴의 비율, 상기 대화 참여자의 턴 이후에 이어지는 턴 등을 기초로 판단할 수 있다. 상기 대화의 인터랙티비티는 일정 시간 동안의 턴의 개수를 통해서 판단할 수 있다. 상기 대화의 스파스티스는 일정 시간 동안의 침묵(non-speaking) 턴의 개수를 통해서 판단할 수 있다. 상기 대화의 스큐니스는 전체 대화 참여자의 턴의 표준 편차를 이용하여 판단할 수 있다.

상기 인터랙션 히스토리 매니져(500)는 대화 세션 및 상기 턴의 정보를 저장하고, 상기 대화 세션 및 상기 턴의 정보를 기초로 사용자의 쿼리에 응답하여 인터랙션 히스토리를 출력할 수 있다. 상기 인터랙션 히스토리 매니져(500)는 상기 대화 세션 및 상기 턴의 정보를 저장하는 인터랙션 데이터 베이스를 포함할 수 있다.

예를 들어, 상기 사용자는 상기 인터랙션 히스토리 매니져(500)를 통해 현재 진행중인 세션 정보를 얻을 수 있다. 또한, 상기 사용자는 상기 인터랙션 히스토리 매니져(500)를 통해 과거 진행된 인터랙션의 히스토리를 얻을 수 있다.

상기 쿼리의 예시는 "지난 10분간 Jone은 얼마나 많은 턴을 가졌는가?,""금주에 Jone이 가장 많이 대화한 3명의 친구는 누구인가?"가 있다.

도 3은 도 1의 모바일 장치의 핵심 API를 나타내는 개념도이다. 도 4는 도 3의 세션을 나타내는 개념도이다. 도 5는 도 3의 턴을 나타내는 개념도이다.

도 1 내지 도 5를 참조하면, 상기 모바일 장치의 핵심 API는 대화 세션 및 턴 모니터링, 프로소딕 피쳐 및 인터랙션 특징 모니터링 및 인터랙션 히스토리 쿼링으로 나뉠 수 있다.

예를 들어, 상기 대화 세션 및 턴의 모니터링을 위한 API는 세션의 시작을 감지하는 registerSessionStartListner(callback(Session),conditions)와 턴의 변화를 감지하는 registerTurnChangeListner(callback(Turn))가 있다. 상기 registerSessionStartListner의 conditions에는 특정 사람(TARGET_PERSON) 또는 특정 장소(TARGET_PLACE)가 설정될 수 있다. 상기 registerSessionStartListner 및 상기 registerTurnChangeListner는 callback 함수를 이용하여 Session의 발생, Turn의 교체를 인식한다.

예를 들어, 프로소딕 피쳐 및 인터랙션 특징 모니터링을 위한 API는 프로소딕 특성에 대한 감지를 활성화할 것인지를 나타내는 enableProsodicFeature(session_id, features), 각각 스파시티, 인터랙티비티, 비대칭성, 도미넌스, 리더쉽 등을 판단하는 getSparsity, getInteractivity, getAsymmetry, registerDominanceListener, registerLeadershipListner가 있다.

예를 들어, 인터랙션 히스토리 쿼링을 위한 API는 현재 진행중인 대화 세션의 정보를 얻기 위한 getOnGoingSessionHistory("SQL_Query_Statement") 및 과거의 인터랙션 히스토리의 정보를 얻기 위한 getPastInteractionHistory("SQL_Query_Statement")가 있다.

상기 대화 세션 정보는 세션 아이디(sID), 세션에 참가한 인터랙턴트(Interactants), 세션의 시작 시간(start_time), 세션의 종료 시간(end_time) 및 세션의 장소(place)를 포함할 수 있다.

상기 턴 정보는 세션 아이디(sID), 턴 아이디(tID), 턴의 스피커(speaker), 턴의 시작 시간(start_time), 턴의 종료 시간(end_time) 및 프로소딕 포인터(prosodic_ptr)를 포함할 수 있다.

도 6은 도 1의 모바일 장치의 턴 모니터링을 나타내는 개념도이다. 도 7a 내지 7e는 도 1의 모바일 장치의 턴 모니터링에 사용될 수 있는 특성 벡터에 대한 그래프이다.

도 1 내지 도 7e를 참조하면, 도 6과 같이 3명이 대화 그룹을 이루고 그 중 한 명의 스피커가 이야기를 한다면 복수의 모바일 장치들은 무선 수신기로 동작하여 상기 스피커의 목소리 신호를 캡쳐할 수 있다. 각 모바일 장치는 상기 스피커의 목소리 신호의 세기를 측정한다. 상기 스피커의 모바일 장치가 상기 스피커의 바로 옆에 있다면 상기 스피커의 목소리는 상기 스피커의 모바일 장치에서 가장 크게 측정될 것이다. 이와 같이 스피커가 누구인지 판별하는 방식은 볼륨 피크 (Volume peak) 방식이라 할 수 있다.

그러나 상기 방식은 아래와 같은 한계가 있다. 첫째로 상기 모바일 장치의 위치는 항상 제어 가능한 것은 아니다. 예를 들어, 상기 스피커의 모바일 장치가 주머니 속에 있는 경우라면 목소리 신호의 크기가 다른 사람의 모바일 장치보다 작게 측정될 수 있다. 둘째로, 대화 참여자의 일부 모바일 장치는 배터리나 녹음 품질 등의 문제로 사용 불가능할 수 있다. 셋째로, 주변 소음이 심한 경우 피크 디텍션은 정확한 결과를 내지 못할 수 있다.

상기 한계를 극복할 수 있는 본 발명의 실시예에 따른 볼륨 토포그래피 (Volume topography) 방식은 복수의 모바일 장치에서 녹음된 소리 신호의 상대적 차이를 이용한다. 도 9에서와 같이 스피커 A의 목소리는 서로 다른 볼륨으로 3개의 모바일 장치에 모두 녹음된다. 상기 모바일 장치들의 상대적인 위치의 차이에 의해 각 대화 참여자는 차별되는 볼륨 시그니쳐(볼륨 토포그래피)를 갖게 된다. 상기 모바일 장치들은 (트래이닝 구간 동안) 협동적으로 볼륨 토포그래피 데이터 베이스를 생성하고, (트래이닝 구간 이후) 새로 측정된 볼륨 벡터를 상기 볼륨 토포그래피 데이터 베이스와 비교하여 스피커(턴)를 인식하게 된다.

상기 본 실시예의 볼륨 토포그래피 방식에 따르면, 첫째로 트래이닝 구간에만 상대적으로 복잡한 신호 처리가 이루어질 뿐 그 이후로는 복잡한 신호 처리를 요하지 않으므로 종래의 스피커 인식 방식에 비해 가볍다. 둘째로, 아주 짧은 센싱 윈도우(예를 들어, 300ms)를 이용하여 턴을 모니터링할 수 있으므로 빠른 속도로 턴을 판단할 수 있다. 셋째로, 주변 노이즈가 심한 경우라 하더라도 노이즈가 포함된 사운드 신호를 그대로 노이즈가 포함된 볼륨 토포그래피와 비교하여 스피커를 인식할 수 있으므로 노이즈에도 불구하고 정확한 스피커 인식이 가능하다.

트래이닝 구간 동안 각 모바일 장치는 입력되는 소리 신호를 8kHz로 샘플링할 수 있다. 샘플링된 오디오 스트림은 300ms의 프레임으로 분할되며 2400 샘플이 생성된다. 주어진 시간을 t, 각 모바일 장치를 i라고 할 때, 모바일 장치 i의 시간 t에서의 파워는 p(t,i)로 계산된다. 상기 p(t,i)는 소리 신호의 제곱의 평균일 수 있다. 특성 벡터인 P(t) 벡터는 (p(t,1), p(t,2), ..., p(t,np))로 정의된다. 이 때, np는 상기 대화 그룹 내에서 상기 턴 모니터링에 참가하는 상기 모바일 장치의 개수이다. 예를 들어, 상기 대화 그룹 내에서 상기 턴 모니터링에 참가하는 상기 모바일 장치의 개수 np는 상기 대화 그룹 내의 상기 대화 참여자의 수보다 작거나 같을 수 있다. 예를 들어, 상기 대화 그룹 내에서 상기 턴 모니터링에 참가하는 상기 모바일 장치의 개수 np는 상기 대화 그룹 내의 상기 대화 참여자의 수보다 작을 수 있다. 적절한 트래이닝을 위해서 상기 모바일 장치들은 L 초동안 상기 특성 벡터 P(t)를 수집할 수 있다. 예를 들어, 상기 L은 60초일 수 있다. 300ms의 프레임을 갖는 경우, 60초 동안 200개의 특성 벡터를 수집할 수 있다.

턴의 판단의 정확도를 높이기 위해서는 식별력을 갖는 특성 벡터를 정의하여야 한다. 예를 들어, 상기 볼륨 토포그래피는 상기 특성 벡터 P(t)를 기초로 생성될 수 있다. 도 7a는 3명의 대화 참여자가 3개의 모바일 장치를 소유하고 있는 경우에서, 상기 특성 벡터 P(t)의 distribution을 나타낸 그래프이다.

예를 들어, 상기 볼륨 토포그래피는 상기 P(t) 벡터를 상기 P(t) 벡터의 평균인 E(t) 벡터로 나눈 정규화 벡터 P'(t) 벡터를 기초로 생성될 수 있다. 도 7b는 3명의 대화 참여자가 3개의 모바일 장치를 소유하고 있는 경우에서, P'(t) 벡터의 distribution을 나타낸 그래프이다. NS로 표시한 부분은 침묵(non-speech) 턴을 의미한다. P'(t) 벡터에 의할 때, 상기 스피커 A, B, C의 턴으로부터 상기 침묵 턴을 상대적으로 잘 판별할 수 있다. 도 7c는 3명의 대화 참여자가 2개의 모바일 장치를 소유하고 있는 경우에서, P'(t) 벡터의 distribution을 나타낸 그래프이다.

예를 들어, 상기 볼륨 토포그래피는 상기 주어진 시간이 t, 상기 모바일 장치가 i, 상기 대화 그룹 내에서 상기 턴 모니터링에 참가하는 상기 모바일 장치의 개수가 np이고, Pref가 상수일 때, P''(t) 벡터를 이용하여 생성될 수 있다. 상기 P''(t) 벡터는 (D(t,1)*p(t,1)/E(t), D(t,2)*p(t,2)/E(t), ..., D(t,np)*p(t,np)/E(t))일 수 있다.

일 수 있다. 상기 Pref는 standard reference sound pressure level을 의미한다. 예를 들어, 상기 Pref는 20 uPa일 수 있다. 도 7d는 3명의 대화 참여자가 3개의 모바일 장치를 소유하고 있는 경우에서, P''(t) 벡터의 distribution을 나타낸 그래프이다. NS로 표시한 부분은 침묵(non-speech) 턴을 의미한다. 도 7e는 3명의 대화 참여자가 2개의 모바일 장치를 소유하고 있는 경우에서, P''(t) 벡터의 distribution을 나타낸 그래프이다. P''(t) 벡터에 의할 때, 상기 모바일 장치의 개수가 상기 스피커의 수보다 적은 경우에도 상대적으로 상기 스피커 A, B, C의 턴 및 상기 침묵 턴을 잘 판단할 수 있다.

트래이닝 구간에서 얻은 트래이닝 데이터 세트로부터, 오디오 신호 시그니쳐의 세트로 표현되는 각 대화 참여자의 볼륨 토포그래피들 및 침묵(non-speech)의 볼륨 토포그래피를 얻을 수 있다. 예를 들어, 상기 대화 참여자가 n명인 경우, 상기 볼륨 토포그래피의 개수는 n+1일 수 있다.

트래이닝 구간에 입력 데이터 세트가 수집되면 상기 특성 벡터는 클러스터 ID로 명명된다. 트래이닝이 완료된 후 입력되는 프레임을 단순히 상기 클러스터 ID로 맵핑하게 되면, 상기 턴을 판단할 수 있다. 예를 들어, 상기 맵핑은 SVM 분류기를 이용할 수 있다. 본 실시예에 따르면 트래이닝 기간(약 1분)이 상대적으로 짧으므로 턴 모니터링은 대화가 시작된 이후 매우 빠르게 시작될 수 있다.

예를 들어, 상기 턴 디텍터(300)의 샘플링 레이트가 증가하면 턴의 판단의 정확도가 증가하고 상기 턴 디텍터(300)의 샘플링 레이트가 감소하면 상기 턴의 판단의 정확도가 낮아질 수 있다. 본 실시예에서는 약 500Hz의 낮은 샘플링 레이트에서도 상기 턴 디텍터(300)는 충분한 정확도를 나타낸다. 따라서, 상기 턴 디텍터(300)의 샘플링 레이트는 약 500Hz일 수 있다.

연속한 두 프레임이 서로 다른 클러스터에게 귀속되는 경우, 턴이 감지될 수 있다. 이때, 300 ms 보다 작은 길이의 침묵은 침묵 턴으로 고려되지 않고 무시된다.

트래이닝 구간에서는 클러스터 ID를 대화 참여자인 멤버 ID로 변환하기 위한 맵핑 테이블을 생성할 수 있다. 각 모바일 장치는 각 소유자의 목소리 인식 알고리즘을 트래이닝할 수 있다. 예를 들어, 상기 트래이닝 구간의 마지막에 상기 모바일 장치는 각 오디오 시그니쳐의 모든 프레임을 이용하여 MFCC를 생성하고, GMM을 계산할 수 있다. 상기 클러스터들 중 헤드에 해당하는 클러스터는 각 멤버의 GMM을 수집하여 ,클러스터 ID를 멤버 ID로 맵핑할 수 있다.

본 발명의 일 실시예에 따른 인터랙션 모니터링 시스템은 복수의 모바일 장치를 포함할 수 있다. 예를 들어, 상기 인터랙션 모니터링 시스템은 턴을 직접 판단하는 제1 모바일 장치 및 상기 제1 모바일 장치로부터 상기 턴을 수신하는 제2 모바일 장치를 포함할 수 있다. 상기 턴을 직접 판단하는 제1 모바일 장치는 헤드 모바일 장치일 수 있고, 상기 제1 모바일 장치로부터 상기 턴을 수신하는 제2 모바일 장치는 게스트 모바일 장치일 수 있다. 예를 들어, 상기 인터랙션 모니터링 시스템은 2개 이상의 게스트 모바일 장치를 포함할 수 있다.

상기 헤드 모바일 장치는 도 1의 대화 그룹 디텍터(100), 모니터링 플래너(200), 상기 턴 디텍터(300), 상기 메타 링귀스틱 인포메이션 프로세서(400) 및 상기 인터랙션 히스토리 매니져(500)의 기능을 모두 수행할 수 있다.

반면, 상기 게스트 모바일 장치는 도 1의 대화 그룹 디텍터(100), 상기 메타 링귀스틱 인포메이션 프로세서(400) 및 상기 인터랙션 히스토리 매니져(500)의 기능만을 수행할 수 있다.

상기 헤드 모바일 장치는 상기 컨버세이션 그룹 디텍터(100)의 헤드 셀렉터(140)에서 설정할 수 있다. 상기 헤드 모바일 장치는 본인의 볼륨 토포그래피를 생성하며, 상기 게스트 모바일 장치들로부터 각각의 볼륨 토포그래피들을 수집한다. 상기 헤드 모바일 장치는 소리 신호를 샘플링하고 상기 볼륨 토포그래피들과 비교하여 턴을 판단한다. 상기 헤드 모바일 장치는 상기 턴을 상기 게스트 모바일 장치들에 출력한다.

상기 헤드 모바일 장치의 상기 메타 링귀스틱 인포메이션 프로세서(400)는 상기 턴 디텍터(300)에서 판단한 상기 턴을 기초로 상기 대화 참여자의 메타 링귀스틱 상황을 추출한다.

상기 게스트 모바일 장치의 상기 메타 링귀스틱 인포메이션 프로세서(400)는 상기 헤드 모바일 장치로부터 수신한 턴을 기초로 상기 대화 참여자의 메타 링귀스틱 상황을 추출한다.

상기 대화 세션 진행 중에 상기 헤드 모바일 장치는 상기 제1 모바일 장치에서 상기 제2 모바일 장치로 변경될 수 있다. 그러면 상기 제2 모바일 장치가 상기 헤드 모바일 장치로 동작하고 상기 제1 모바일 장치는 상기 게스트 모바일 장치로 동작할 수 있다.

본 실시예에 따르면, 볼륨 토포그래피는 짧은 시간에 신뢰도 있게 측정될 수 있다. 따라서, 빠른 시간 안에 턴 테이킹을 모니터링할 수 있다. 또한, 볼륨 토포그래피는 주변 소음에 민감하지 않으므로 여러 환경에서 정확하게 턴을 모니터링 할 수 있다. 또한 본 방식은 종래의 방식에 비해 훨씬 간소화된 계산을 이용하므로 자원 효율적이다. 또한 약 500Hz의 낮은 샘플링 레이트에서 동작할 수 있으므로 사용자의 프라이버시를 보호할 수 있다.

도 8a 내지 도 8c는 도 1의 모바일 장치에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션을 나타내는 개념도이다.

도 1 내지 도 8c를 참조하면, 상기 인터랙션 모니터링 모바일 애플리케이션은 상기 모바일 장치 상에서 수행된다. 상기 인터랙션 모니터링 모바일 애플리케이션은 페이스 투 페이스 컨버세이션에 대한 데일리 레포트를 제공할 수 있다.

상기 모바일 애플리케이션은 주변의 모바일 장치를 스캐닝하여 대화 그룹을 설정하고, 상기 대화 그룹 내의 복수의 모바일 장치들에서 측정된 소리 신호들을 기초로 생성된 볼륨 토포그래피를 이용하여 생성된 상기 턴을 기초로 하여, 주변 사람과 대화한 상대적 시간을 판단할 수 있다. 예를 들어, 상기 모바일 애플리케이션은 대화 세션의 개수, 대화의 시간 및 대화한 사람의 수를 판단할 수 있다.

상기 모바일 애플리케이션은 대화 세션 내에서 대화를 나눈 대화 참여자와의 상대적인 시간을 나타낸다. 상기 모바일 애플리케이션은 각 대화 세션 내에서 전체 턴의 개수, 상기 대화 세션의 시간, 상기 대화 세션의 참가자 수, 사용자의 턴의 개수, 상기 사용자의 턴의 시간 및 상기 전체 턴에 대한 상기 사용자 턴에 대한 비율을 판단할 수 있다. 상기 모바일 애플리케이션은 상기 턴 정보를 기초로 상기 사용자에게 대화 방식에 있어서의 작은 조언을 남길 수도 있다.

상기 모바일 애플리케이션은 상기 사용자의 턴 이후에 턴을 이어 받은 대화 참여자들의 턴의 개수 및 상기 사용자의 턴 이후에 턴을 이어 받은 대화 참여자들의 턴의 개수의 비율을 판단할 수 있다.

본 발명에 따르면, 볼륨 토포그래피 방식을 통해 짧은 시간 안에 턴을 판단할 수 있고, 노이즈에도 불구하고 정확하게 턴을 판단할 수 있으며, 훨씬 간단한 연산을 통해 턴을 판단할 수 있다. 따라서, 짧은 시간에 정확하게 턴을 판단하고, 상기 턴을 기초로 메타 링귀스틱 컨텍스트를 추출하여 다양한 소셜 인터랙션을 인식할 수 있다.

상술한 바와 같이, 본 발명의 바람직한 실시예를 참조하여 설명하였지만 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

삭제
삭제
주변의 모바일 장치를 스캐닝하여 대화 그룹을 설정하는 대화 그룹 디텍터;
상기 대화 그룹 내의 복수의 모바일 장치들에서 측정된 소리 신호들을 기초로 생성된 볼륨 토포그래피(topography)를 이용하여 대화 참여자 중 어떤 사람이 이야기를 하고 있는지를 의미하는 턴을 판단하는 턴 디텍터; 및
상기 턴을 기초로 상기 대화 참여자의 메타 링귀스틱(meta-linguistic) 상황(context)을 추출하는 메타 링귀스틱 인포메이션 프로세서를 포함하고,
상기 대화 그룹 디텍터는
사람의 목소리를 감지하는 보이스 디텍터; 및
사용자의 지인들의 모바일 장치의 어드레스를 저장하며, 상기 지인들의 모바일 장치가 스캐닝되면 상기 대화 그룹을 생성하는 인터랙턴트 매니져를 포함하며,
상기 대화 그룹 디텍터는 상기 소리 신호들에서 중복되는 스피치를 기초로 서브 그룹을 판단하는 서브 그룹 디텍터를 더 포함하는 것을 특징으로 하는 모바일 장치.
주변의 모바일 장치를 스캐닝하여 대화 그룹을 설정하는 대화 그룹 디텍터;
상기 대화 그룹 내의 복수의 모바일 장치들에서 측정된 소리 신호들을 기초로 생성된 볼륨 토포그래피(topography)를 이용하여 대화 참여자 중 어떤 사람이 이야기를 하고 있는지를 의미하는 턴을 판단하는 턴 디텍터; 및
상기 턴을 기초로 상기 대화 참여자의 메타 링귀스틱(meta-linguistic) 상황(context)을 추출하는 메타 링귀스틱 인포메이션 프로세서를 포함하고,
상기 대화 그룹 디텍터는
사람의 목소리를 감지하는 보이스 디텍터; 및
사용자의 지인들의 모바일 장치의 어드레스를 저장하며, 상기 지인들의 모바일 장치가 스캐닝되면 상기 대화 그룹을 생성하는 인터랙턴트 매니져를 포함하며,
상기 대화 그룹 디텍터는 상기 대화 그룹 내의 복수의 모바일 장치들 중에서 상기 턴을 판단하는 헤드 모바일 장치를 결정하는 헤드 셀렉터를 더 포함하고,
상기 헤드 모바일 장치는 상기 대화 그룹 내의 상기 모바일 장치들의 상기 소리 신호를 수집하여 상기 턴을 판단하고, 상기 턴을 상기 모바일 장치들에 출력하는 것을 특징으로 하는 모바일 장치.
주변의 모바일 장치를 스캐닝하여 대화 그룹을 설정하는 대화 그룹 디텍터;
상기 대화 그룹 내의 복수의 모바일 장치들에서 측정된 소리 신호들을 기초로 생성된 볼륨 토포그래피(topography)를 이용하여 대화 참여자 중 어떤 사람이 이야기를 하고 있는지를 의미하는 턴을 판단하는 턴 디텍터; 및
상기 턴을 기초로 상기 대화 참여자의 메타 링귀스틱(meta-linguistic) 상황(context)을 추출하는 메타 링귀스틱 인포메이션 프로세서를 포함하고,
상기 대화 그룹 정보를 기초로 상기 턴의 모니터링을 제어하는 모니터링 플래너를 더 포함하고,
상기 모니터링 플래너는
상기 대화 그룹 내의 상기 모바일 장치의 개수를 판단하고, 상기 대화 그룹 내의 상기 모바일 장치 중에서 협동적으로 턴을 판단하기 위한 소스 모바일 장치를 설정하는 소스 셀렉터; 및
상기 턴 디텍터의 모니터링 동작을 제어하는 익스큐션 플래너를 포함하는 것을 특징으로 하는 모바일 장치.
제5항에 있어서, 상기 모니터링 플래너는 상기 대화 그룹 내의 상기 모바일 장치들 간의 동기화를 수행하는 싱크 매니져를 더 포함하는 것을 특징으로 하는 모바일 장치.
제5항에 있어서, 상기 모니터링 플래너는 상기 모바일 장치의 배터리, CPU, 대역폭의 자원 이용 상태를 판단하는 리소스 모니터를 더 포함하는 것을 특징으로 하는 모바일 장치.
주변의 모바일 장치를 스캐닝하여 대화 그룹을 설정하는 대화 그룹 디텍터;
상기 대화 그룹 내의 복수의 모바일 장치들에서 측정된 소리 신호들을 기초로 생성된 볼륨 토포그래피(topography)를 이용하여 대화 참여자 중 어떤 사람이 이야기를 하고 있는지를 의미하는 턴을 판단하는 턴 디텍터; 및
상기 턴을 기초로 상기 대화 참여자의 메타 링귀스틱(meta-linguistic) 상황(context)을 추출하는 메타 링귀스틱 인포메이션 프로세서를 포함하고,
상기 턴 디텍터는
트래이닝 기간에 상기 대화 그룹 내의 상기 모바일 장치들의 상기 소리 신호들을 기초로 상기 볼륨 토포그래피를 생성하는 볼륨 토포그래피 빌더; 및
상기 트래이닝 기간이 종료된 후, 현재의 소리 신호들이 어떤 볼륨 토포그래피에 매칭되는지를 기초로 현재의 턴을 판단하는 볼륨 토포그래피 매쳐를 포함하는 것을 특징으로 하는 모바일 장치.
제8항에 있어서, 상기 볼륨 토포그래피는 주어진 시간이 t, 상기 모바일 장치가 i라고 할 때, p(t,i) 값 및 P(t) 벡터를 이용하여 생성되고,
상기 p(t,i) 값은 상기 시간 t에서 상기 모바일 장치 i의 상기 소리 신호의 제곱의 평균이며,
상기 대화 그룹 내에서 상기 턴 모니터링에 참가하는 상기 모바일 장치의 개수가 np일 때, P(t) 벡터는 (p(t,1), p(t,2), ..., p(t,np))인 것을 특징으로 하는 모바일 장치.
제9항에 있어서, 상기 대화 그룹 내에서 상기 턴 모니터링에 참가하는 상기 모바일 장치의 개수 np는 상기 대화 그룹 내의 상기 대화 참여자의 수보다 작거나 같은 것을 특징으로 하는 모바일 장치.
제9항에 있어서, 상기 볼륨 토포그래피는 상기 P(t) 벡터를 상기 P(t) 벡터의 평균인 E(t) 벡터로 나눈 정규화 벡터 P'(t) 벡터를 기초로 생성되는 것을 특징으로 하는 모바일 장치.
제11항에 있어서, 상기 볼륨 토포그래피는 상기 주어진 시간이 t, 상기 모바일 장치가 i, 상기 대화 그룹 내에서 상기 턴 모니터링에 참가하는 상기 모바일 장치의 개수가 np이고, Pref가 상수일 때, P''(t) 벡터를 이용하여 생성되고,
상기 P''(t) 벡터는 (D(t,1)*p(t,1)/E(t), D(t,2)*p(t,2)/E(t), ..., D(t,np)*p(t,np)/E(t))이며,

인 것을 특징으로 하는 모바일 장치.
제8항에 있어서, 상기 대화 그룹 내의 상기 대화 참여자의 수가 n일 때, 상기 볼륨 토포그래피의 개수는 n+1이고,
상기 n개의 볼륨 토포그래피는 상기 n명의 상기 대화 참여자 각각에 대응하며 상기 하나의 볼륨 토포그래피는 침묵(non-speech)에 해당하는 것을 특징으로 하는 모바일 장치.
제8항에 있어서, 상기 볼륨 토포그래피 빌더는 상기 대화 그룹이 변경되는 경우 상기 볼륨 토포그래피를 재생성하는 것을 특징으로 하는 모바일 장치.
제8항에 있어서, 상기 턴은 (이야기하는 사람, 시작 시간, 종료 시간)의 세가지 인자를 갖는 것을 특징으로 하는 모바일 장치.
주변의 모바일 장치를 스캐닝하여 대화 그룹을 설정하는 대화 그룹 디텍터;
상기 대화 그룹 내의 복수의 모바일 장치들에서 측정된 소리 신호들을 기초로 생성된 볼륨 토포그래피(topography)를 이용하여 대화 참여자 중 어떤 사람이 이야기를 하고 있는지를 의미하는 턴을 판단하는 턴 디텍터; 및
상기 턴을 기초로 상기 대화 참여자의 메타 링귀스틱(meta-linguistic) 상황(context)을 추출하는 메타 링귀스틱 인포메이션 프로세서를 포함하고,
상기 메타 링귀스틱 인포메이션 프로세서는
상기 소리 신호들의 볼륨 및 피치를 판단하는 피쳐 익스트랙터; 및
상기 턴, 상기 볼륨 및 상기 피치 중 적어도 어느 하나를 기초로 상기 대화 그룹 내의 상기 대화 참여자 간의 소셜 패턴을 판단하는 패턴 애널라이져를 포함하는 것을 특징으로 하는 모바일 장치.
제16항에 있어서, 상기 패턴 애널라이져는 정해진 시간 내의 상기 턴의 개수를 기초로 인터랙티비티(Interactivity)를 판단하는 것을 특징으로 하는 모바일 장치.
제16항에 있어서, 상기 패턴 애널라이져는 정해진 시간 내의 침묵 턴의 개수를 기초로 스파스니스(Sparseness)를 판단하는 것을 특징으로 하는 모바일 장치.
제16항에 있어서, 상기 패턴 애널라이져는 정해진 시간 내의 모든 대화 참여자의 상기 턴의 표준 편차를 기초로 스큐니스(Skewness)를 판단하는 것을 특징으로 하는 모바일 장치.
주변의 모바일 장치를 스캐닝하여 대화 그룹을 설정하는 대화 그룹 디텍터;
상기 대화 그룹 내의 복수의 모바일 장치들에서 측정된 소리 신호들을 기초로 생성된 볼륨 토포그래피(topography)를 이용하여 대화 참여자 중 어떤 사람이 이야기를 하고 있는지를 의미하는 턴을 판단하는 턴 디텍터; 및
상기 턴을 기초로 상기 대화 참여자의 메타 링귀스틱(meta-linguistic) 상황(context)을 추출하는 메타 링귀스틱 인포메이션 프로세서를 포함하고,
대화 세션 및 상기 턴의 정보를 저장하고, 상기 대화 세션 및 상기 턴의 정보를 기초로 사용자의 쿼리에 응답하여 인터랙션 히스토리를 출력하는 인터랙션 히스토리 매니져를 더 포함하는 것을 특징으로 하는 모바일 장치.
삭제
주변의 모바일 장치를 스캐닝하여 대화 그룹을 설정하는 단계;
상기 대화 그룹 내의 복수의 모바일 장치들에서 측정된 소리 신호들을 기초로 생성된 볼륨 토포그래피를 생성하는 단계;
상기 볼륨 토포그래피를 이용하여 대화 참여자 중 어떤 사람이 이야기를 하고 있는지를 의미하는 턴을 판단하는 단계; 및
상기 턴을 기초로 상기 대화 참여자의 메타 링귀스틱(meta-linguistic) 상황(context)을 추출하는 단계를 포함하고,
상기 대화 그룹 내의 상기 모바일 장치의 개수를 판단하는 단계;
상기 대화 그룹 내의 상기 모바일 장치 중에서 협동적으로 턴을 판단하기 위한 소스 모바일 장치를 설정하는 단계를 더 포함하는 것을 특징으로 하는 모니터링 방법.
제22항에 있어서, 상기 대화 그룹 내의 상기 모바일 장치들 간의 동기화를 수행하는 단계를 더 포함하는 것을 특징으로 하는 모니터링 방법.
주변의 모바일 장치를 스캐닝하여 대화 그룹을 설정하는 단계;
상기 대화 그룹 내의 복수의 모바일 장치들에서 측정된 소리 신호들을 기초로 생성된 볼륨 토포그래피를 생성하는 단계;
상기 볼륨 토포그래피를 이용하여 대화 참여자 중 어떤 사람이 이야기를 하고 있는지를 의미하는 턴을 판단하는 단계; 및
상기 턴을 기초로 상기 대화 참여자의 메타 링귀스틱(meta-linguistic) 상황(context)을 추출하는 단계를 포함하고,
상기 턴을 판단하는 단계는
트래이닝 기간에 상기 대화 그룹 내의 상기 모바일 장치들의 상기 소리 신호들을 기초로 상기 볼륨 토포그래피를 생성하는 단계; 및
상기 트래이닝 기간이 종료된 후, 현재의 소리 신호들이 어떤 볼륨 토포그래피에 매칭되는지를 기초로 현재의 턴을 판단하는 단계를 포함하는 것을 특징으로 하는 모니터링 방법.
제24항에 있어서, 상기 볼륨 토포그래피는 주어진 시간이 t, 상기 모바일 장치가 i라고 할 때, p(t,i) 값 및 P(t) 벡터를 이용하여 생성되고,
상기 p(t,i) 값은 상기 시간 t에서 상기 모바일 장치 i의 상기 소리 신호의 제곱의 평균이며,
상기 대화 그룹 내에서 상기 턴 모니터링에 참가하는 상기 모바일 장치의 개수가 np일 때, P(t) 벡터는 (p(t,1), p(t,2), ..., p(t,np))인 것을 특징으로 하는 모니터링 방법.
제25항에 있어서, 상기 대화 그룹 내에서 상기 턴 모니터링에 참가하는 상기 모바일 장치의 개수 np는 상기 대화 그룹 내의 상기 대화 참여자의 수보다 작거나 같은 것을 특징으로 하는 모니터링 방법.
제25항에 있어서, 상기 볼륨 토포그래피는 상기 P(t) 벡터를 상기 P(t) 벡터의 평균인 E(t) 벡터로 나눈 정규화 벡터 P'(t) 벡터를 기초로 생성되는 것을 특징으로 하는 모니터링 방법.
제27항에 있어서, 상기 볼륨 토포그래피는 상기 주어진 시간이 t, 상기 모바일 장치가 i, 상기 대화 그룹 내에서 상기 턴 모니터링에 참가하는 상기 모바일 장치의 개수가 np이고, Pref가 상수일 때, P''(t) 벡터를 이용하여 생성되고,
상기 P''(t) 벡터는 (D(t,1)*p(t,1)/E(t), D(t,2)*p(t,2)/E(t), ..., D(t,np)*p(t,np)/E(t))이며,

인 것을 특징으로 하는 모니터링 방법.
제24항에 있어서, 상기 대화 그룹 내의 상기 대화 참여자의 수가 n일 때, 상기 볼륨 토포그래피의 개수는 n+1이고,
상기 n개의 볼륨 토포그래피는 상기 n명의 상기 대화 참여자 각각에 대응하며 상기 하나의 볼륨 토포그래피는 침묵(non-speech)에 해당하는 것을 특징으로 하는 모니터링 방법.
제24항에 있어서, 상기 턴을 판단하는 단계는 상기 대화 그룹이 변경되는 경우 상기 볼륨 토포그래피를 재생성하는 단계를 더 포함하는 것을 특징으로 하는 모니터링 방법.
제24항에 있어서, 상기 턴은 (이야기하는 사람, 시작 시간, 종료 시간)의 세가지 인자를 갖는 것을 특징으로 하는 모니터링 방법.
대화 참여자 중 어떤 사람이 이야기를 하고 있는지를 의미하는 턴을 직접 판단하는 제1 모바일 장치 및 상기 제1 모바일 장치로부터 상기 턴을 수신하는 제2 모바일 장치를 포함하고,
상기 제1 모바일 장치는
주변의 모바일 장치를 스캐닝하여 대화 그룹을 설정하는 대화 그룹 디텍터;
상기 대화 그룹 내의 복수의 모바일 장치들에서 측정된 소리 신호들을 기초로 생성된 볼륨 토포그래피를 이용하여 상기 턴을 판단하는 턴 디텍터; 및
상기 턴 디텍터에서 판단한 상기 턴을 기초로 상기 대화 참여자의 메타 링귀스틱(meta-linguistic) 상황(context)을 추출하는 메타 링귀스틱 인포메이션 프로세서를 포함하고,
상기 제2 모바일 장치는
상기 주변의 모바일 장치를 스캐닝하여 대화 그룹을 설정하는 대화 그룹 디텍터; 및
상기 제1 모바일 장치로부터 수신한 상기 턴을 기초로 상기 대화 참여자의 메타 링귀스틱 상황을 추출하는 메타 링귀스틱 인포메이션 프로세서를 포함하며,
상기 제1 모바일 장치의 상기 대화 그룹 디텍터는
사람의 목소리를 감지하는 보이스 디텍터; 및
사용자의 지인들의 모바일 장치의 어드레스를 저장하며, 상기 지인들의 모바일 장치가 스캐닝되면 상기 대화 그룹을 생성하는 인터랙턴트 매니져를 포함하고,
상기 제1 모바일 장치의 상기 대화 그룹 디텍터는 상기 소리 신호들에서 중복되는 스피치를 기초로 서브 그룹을 판단하는 서브 그룹 디텍터를 더 포함하는 것을 특징으로 하는 인터랙션 모니터링 시스템.
삭제
삭제
삭제