KR20140064969A

KR20140064969A - 콘텍스트―기반 스마트폰 센서 로직

Info

Publication number: KR20140064969A
Application number: KR1020147010125A
Authority: KR
Inventors: 토니 에프. 로드리게즈; 양 바이
Original assignee: 디지맥 코포레이션
Priority date: 2011-09-23
Filing date: 2012-09-07
Publication date: 2014-05-28
Also published as: JP6251906B2; US10199042B2; EP2758956A1; US20180130472A1; US10510349B2; US20200227048A1; US20190237082A1; EP2758956A4; EP2758956B1; CN103918247A; WO2013043393A1; US20130150117A1; US9595258B2; JP2015501438A; CN103918247B; US10930289B2; US20160232898A1; US9196028B2; US20170243584A1

Abstract

방법들은 콘텐트 정보(예를 들면, 오디오 및 이미저리(imagery)) 및 콘텍스트 정보 둘 모두를 감지하기 위해 휴대가능한 디바이스들(예를 들면, 스마트폰들)에서 센서들을 이용한다. 디바이스 처리는 바람직하게 둘 모두에 의존한다. 예를 들면, 일부 실시예들은 감지된 콘텐트 및 콘텍스트의 분류에 기초하여 특정 처리기 집약 작동들(예를 들면, 콘텐트 인식)을 활성화한다. 콘텍스트는 이러한 동작들로부터 생성된 정보가 저장되는 위치를 제어할 수 있거나 예를 들면, 감지된 음성이 전사(transcribe)되고 있음을 나타내는 경보 신호를 제어할 수 있다. 일부 장치들은 다른 디바이스들에 의해 액세스 및 처리하기 위해 클라우드 저장소로 하나의 디바이스에 의해 수집된 센서 데이터를 포스팅한다. 다수의 디바이스들은 각각이 가질 수 있는 장점들(예를 들면, 위치에서, 처리 능력, 소셜 네트워크 리소스들, 등)을 이용하기 위해 데이터들을 수집하고 처리하는데 협력할 수 있다. 굉장히 많은 다른 특징들 및 장치들이 또한 상세된다.

Description

콘텍스트―기반 스마트폰 센서 로직{CONTEXT-BASED SMARTPHONE SENSOR LOGIC}

관련 출원 데이터

미국에서, 이 출원은 2011년 9월 23일에 출원된 가 출원 제 61/538,578 호, 및 2011년 10월 3일에 출원된 가 출원 제 61/542,737 호에 대한 우선권을 주장한다.

본 발명은 콘텍스트―기반 스마트폰 센서 로직에 관한 것이다.

공개된 출원들(20110212717, 20110161076 및 20120208592)에서, 본 양수인은 콘텍스트에 따라 응답하는 다양한 스마트폰 장치들을 상세했다. 본 명세서는 특정 측면들에서 이들 교시들을 확장한다.

본 발명의 목적은 콘텍스트―기반 스마트폰 센서 로직을 제공하는 것이다.

하나의 양태에 따라, 본 기술에 따른 시스템들 및 방법들은 오디오 및/또는 시각 정보를 감지하기 위해 스마트폰을 이용하고, 제 1 분류기 모듈에 이러한 정보를 제공한다. 제 1 분류기 모듈은 유형(예를 들면, 음악, 음성, 고요함, 비디오 이미저리(video imagery), 자연 풍경, 얼굴, 등)으로 입력 오디오-시각 자극을 특성화한다. 제 2 분류기 모듈은 요일, 주의 요일, 위치, 달력 데이터, 알람 시계 상태, 동작 센서들, 페이스북 상태, 등과 같은, 다른 콘텍스트 정보(제 1 분류기 모듈로부터의 출력을 포함할 수 있는)를 처리하고, 디바이스 상태 유형, 또는 시나리오를 특성화하는 데이터를 출력한다. 그 다음, 제어 규칙 모듈은 2개의 분류기 모듈들로부터의 출력들에 따라 하나 이상의 콘텐트 인식 모듈들로 제어 신호들을 발행한다(issue).

제어 신호들은 단순하게 상이한 인식 모듈들을 인에이블링(enabling) 또는 디스에이블링(disabling)할 수 있다. 부가적으로, 인식 모듈이 인에이블링되면, 제어 신호들은 주파수, 또는 스케줄, 또는 다른 파라미터(들)를(을) 확립할 수 있고, 모듈은 그들에 의해 상기 모듈의 인식 기능들을 수행한다.

이러한 장치들은 콘텍스트에 요구되지 않거나 적절하지 않은 작동들을 시도하지 않음으로써 배터리 파워를 절약한다. 또한, 그들은 처리 리소스들이 유휴 인식 작동들에 전용되지 않기 때문에, 다른 스마트폰 작동들을 돕는다.

본 기술의 상기 및 다른 특징들과 잇점들은 첨부된 도면들을 참조하여 진행하는 다음의 상세한 설명으로부터 더 용이하게 명백해질 것이다.

도 1은 본 기술의 특정 양태들을 통합하는 일 예시적인 실시예를 도시한 도면.
도 2는 도 1의 실시예에서 이용될 수 있는 몇 개의 콘텐트 인식 모듈들을 도시한 도면.
도 3은 본 기술의 양태들을 이용하는 처리의 블록도.
도 4는 본 기술의 양태들을 이용하는 장치의 블록도.
도 5는 하나의 실시예에 대해, 상이한 오디오 인식 에이전트들이 오디오 분류 데이터에 기초하여 어떻게 활성화되는지를 도시하는 이벤트 제어기 표.
도 6은 하나의 실시예에 대해, 상이한 오디오 인식 에이전트들이 오디오 분류 데이터에 기초하여 어떻게 활성화되는지를 도시하는 흐름도.
도 7은 하나의 실시예에 대해, 상이한 이미지 인식 에이전트들이 광 및 동작 센서들로부터의 출력들, 및 이미지 분류 데이터에 기초하여 어떻게 활성화되는지를 도시하는 이벤트 제어기 표.
도 8은 하나의 실시예에 대해, 상이한 이미지 인식 에이전트들이 광 및 동작 센서들로부터의 출력들, 및 이미지 분류 데이터에 기초하여 어떻게 활성화되는지를 도시하는 흐름도.

도 1을 참조하면, 본 기술의 특정 양태들을 통합하는 일 예시적인 실시예(10)는 하나 이상의 마이크로폰들(12), 카메라들(14), 오디오-시각 분류기 모듈들(16), 제 2 분류기 모듈들(18), 제어 규칙 모듈들(20), 및 콘텐트 인식 모듈들(22)을 포함한다. 이들 구성요소들은 모두 스마트폰에 포함될 수 있다. 대안적으로, 그들은 상이한 위치들 및/또는 상이한 디바이스들(클라우드(cloud)를 포함하는) 사이에 분포될 수 있다.

하나의 적합한 스마트폰은 애플 아이폰 4 디바이스이고, 이는 2개의 카메라들(하나는 앞쪽 방향이고 하나는 뒤쪽 방향인), 및 2개의 마이크로폰들을 포함한다. 또 다른 것은 HTC EVO 3D이고, 이는 스테레오 카메라들(2개 모두 뒤쪽 방향인)을 포함한다.

오디오-시각 분류기 모듈(들)(16)은 마이크로폰(들) 및/또는 카메라(들)에 의해 캡쳐된 데이터를 처리하고, 유형으로 이러한 오디오-시각 콘텐트를 분류한다.

기술자들에 잘 알려진 바와 같이(및 위키피디아 조항 "통계적 분류"로 설명된 바와 같이), 분류는 한 세트의 부류들(하위-모집단들) 중 어느 것에 새로운 관측이 속하는 지를 식별하는 문제점이다. 각각의 관측들은 다양하게 변수들, 특징들, 등으로서 공지된, 한 세트의 정량화가능한 속성들로 분석될 수 있다. 이들 속성들은 단정적(예를 들면, 혈액형에 대해 "A", "B", "AB" 또는 "O")이고, 서수(예를 들면, "넓은", "중간" 또는 "작은"), 등일 수 있다. 익숙한(때로는 어려울지라도) 분류 문제점은 스팸 또는 스팸이 아닌 것으로서 이메일을 식별하고 있다. 분류를 구현하는 알고리즘 또는 절차는 분류기로서 공지된다.

고전적으로, 분류는 그들의 부류 멤버쉽이 공지되는 관측들(또는 인스턴스들(instances))을 포함하는 데이터의 한 트레이닝 세트(training set)에 기초하여 수행된다. 이런 의미에서, 분류는 감독 기계 학습 즉, 한 트레이닝 세트의 정확하게 식별된 관측들이 이용가능한 학습의 일 인스턴스로서 간주된다. 대응하는 감독되지 않은 절차는 클러스터링(clustering)(또는 클러스터 분석)으로서 공지되고, 고유 유사성(예를 들면, 다차원 벡터 공간에서의 벡터들로서 고려된, 인스턴스들 사이의 간격)의 일부 측정치에 기초한 분류들로의 그룹핑 데이터를 포함한다. 본 애플리케이션의 목적들을 위해, 분류는 클러스터링을 포함하는 것으로서 간주된다.

하나의 예시적인 분류기 모듈(16)은 오디오 분류기이고, 이는 음성, 음악, 배경/미확정, 또는 고요함과 같은 입력 자극을 분류한다. 처음 3개에 대해, 모듈은 또한 시끄러운, 중간 레벨, 또는 조용한과 같은, 오디오의 볼륨을 분류한다.

예시적인 오디오 분류 기술들은 이후 섹션에서 상세된다.

단순한 실시예는 다음과 같이 오디오 분류기의 출력에 따라, 상이한 콘텐트 인식 모듈들을 활성화한다:

[표 1]

즉, 오디오 분류기 모듈은 감지된 오디오를 "조용한" 또는 "조용한 배경"으로서 분류하고, 모든 3개의 상세한 콘텐트 인식 모듈들은 "오프(off)"되도록 제어된다. 감지된 오디오가 음악으로서 분류되면, 시스템은 닐슨 오디오 워터마크 검출기, 및 그레이스노트 지문 엔진을 활성화하지만, 뉘앙스 음성 인식 엔진을 중지시킨다.

감지된 오디오가 음성로서 분류되면, 오디오 워터마크 검출기는 음성 인식 엔진이 그랬던 것처럼 활성화되지만, 어떠한 지문 계산들도 수행되지 않는다.

오디오 분류기가 시끄럽거나 중간 레벨의 음향 배경을 식별하지만, 그의 유형을 추가로 분류할 수 없으면, 오디오 워터마크 검출기, 지문 엔진, 및 음성 인식 엔진 모두가 활성화된다.

따라서, 인식 기술들의 상이한 조합들이 콘텐트 분류기에 의해 표시된 콘텐트의 유형에 기초하여, 입력 콘텐트에 적용됨이 인식될 것이다.

(상세한 인식 모듈들은 기술자들에게 모두 익숙하다. 간략한 리뷰는 다음과 같다: 닐슨은 닐슨이 여론조사들, 등을 위한 프로그램들을 식별하는데 도움을 주기 위해 방송 소스 및 시간 데이터를 인코딩하는 오디오 워터마크를 갖는, 미국에서의 텔레비전 방송들 거의 모두를 인코딩한다. 닐슨은 방송들로부터 디코딩된 소스/시간 데이터를 프로그램 이름들 및 다른 식별자들과 상관시키는 데이터베이스를 유지한다. 이러한 워터마크 기술은 예를 들면, 특허들(6,968,564 및 7,006,555)에서 상세된다. 그레이스노트는 음악 인식을 가능하게 하기 위해 오디오 지문 기술을 이용한다. 특성적인 특징 데이터는 지문 엔진에 의해 오디오로부터 얻어지고, 참조 지문 데이터를 포함하는 데이터베이스를 쿼리(query)하기 위해 이용된다. 매치가 발견되면, 연관된 노래 식별 데이터는 데이터베이스로부터 리턴된다. 그레이스노트는 특허 문서들(20060075237 및 20060041753)에서 상세된, 필립스에 의해 원래 개발된 지문 기술을 이용한다. 뉘앙스는 인기있는 음성 인식 기술을 제공한다. 그것의 음성매직 SDK 및/또는 내츄럴리스피킹 SDK는 음성 인식 기능을 제공하기 위해 본 발명의 실시예들로 통합된다.)

제 2 분류기 모듈(18)은 콘텍스트 정보에 따라, 디바이스 상태 유형 데이터, 또는 시나리오 식별 데이터를 출력한다. 이 콘텍스트 정보는 오디오 및/또는 시각 환경의 분류를 포함할 수 있고(도 1에서 파선에 의해 도시된 바와 같은, 오디오-시각 분류기 모듈(들)(16)에 의해), 전형적으로 다른 정보를 포함한다.

이 다른 콘텍스트 정보는 요일의 시간, 주의 요일, 위치, 달력 데이터, 알람 시계 상태, 동작 및 방향 센서 데이터, 소셜 네트워크 정보(예를 들면, 페이스북으로부터의), 등을 포함할 수 있지만, 이에 제한되지 않는다.

제 2 식별자 모듈에 의해 결정된 바와 같은 특정 디바이스 상태 유형들(즉, "근무 시간들 후에 사무실을 떠난" 및 "근무 시간들 동안 사무실에 있는")을 포함하는 [표 1] 정보를 확대하는 [표 2]를 고려하라.

[표 2]

[표 2]의 처음 5개의 행이 [표 1]과 동일함이 인식될 것이다. 그들은 언급된 오디오 환경들이 주어지면, 근무 시간들 후에 이용자가 사무실을 떠날 때, 상이한 모듈들이 어떻게 제어되는지를 상세한다.

행들의 마지막 세트는 상이하다. 이들은 근무 시간들 동안, 이용자의 사무실에 있는 디바이스 상태 유형에 대응한다. 보여질 수 있는 바와 같이, 단지 음성 인식 엔진 만이 이 콘텍스트(즉, 음성 또는 시끄러운 배경 오디오가 감지될 때)에서 항상 활성화된다; 다른 모듈들은 오디오 환경에 상관없이 유휴로 남는다.

이용자가 "근무 시간들 동안 사무실에 있거나", "근무 시간들 후에 사무실을 떠나는"지의 여부를 결정하기 위해, 제 2 분류기 모듈(18)은 참조 데이터와 관련된, 요일 데이터의 시간 및 GPS 데이터와 같은 입력들을 이용한다. 이 참조 데이터는 - 특정한 스마트폰 이용자에 대해 - 근무 시간들(예를 들면, 오전 8시 - 오후 5시, 월요일-금요일)로서 분류되어야 하는 요일의 시간들, 및 사무실 위치(예를 들면, 위도 45.4518°, 경도 -122.7932°, +/-.0012도)로서 분류되어야 하는 위치를 확립한다.

이 장치가 이용자가 근무 중인 동안 노래들 또는 텔레비전 또는 텔레비전 프로그램들을 인식하려고 시도하지 않음으로써 배터리 파워를 절약함이 인식될 것이다. 그것은 또한 처리 리소스들이 유휴 인식 작동들에 전용되지 않기 때문에, 스마트폰이 근무 중에 수행하도록 지시받을 수 있을 때, 다른 업무들에 도움을 준다.

더 전형적으로, 스마트폰은 이 단순한 예의 팩터들 이상의 다른 팩터들을 고려한다. [표 3A]은 제 2 분류기 모듈(18)에 의해 분류된 바와 같은, 더 상세한 시나리오를 도시한다:

[표 3A]

환경들의 이 집합(confluence)은 "시나리오 1"로서 제 2 분류기 모듈에 의해 분류된다. 그것은 이용자가 아마도 잠자고 있는(주중에는 오전 6시 30분 이전이고, 알람은 6시 30분에 대해 설정된다; 스마트폰은 조용하고, 어두운 환경에 고정된다.) 시나리오에 대응한다. 시나리오 1과 연관된 제어 규칙들(20)은 모든 콘텐트 인식 모듈들로 하여금 비활성이 되도록 한다.

다음의 표들은 제 2 분류기 모듈에 의해 분류된 바와 같은, 다른 시나리오들을 도시한다:

[표 3B]

[표 3C]

[표 3D]

[표 3E]

[표 3F]

[표 3G]

[표 3H]

시나리오 2([표 3B])는 일어난 후 및 집을 떠나기 전의 이용자에 대응한다. 규칙들은 이 간격 - 이용자가 텔레비전의 아침 뉴스 프로그램을 시청하거나, 라디오를 듣거나, 배우자와 이야기하고 있는 동안에 적절한 지시들을 포함한다. 특히, 닐슨 워터마크 검출기는 이용자가 텔레비전에서 논의된 무언가에 대한 부가적인 웹 콘텐트에 연결되도록 허용하기 위해 활성이다. 지문 엔진은 또한 이용자가 라디오를 통해 방송되는 매력적인 노래를 식별할 수 있도록 활성이다. 음성 인식은 또한 집에 오는 도중에 케?, 포도들, 은박지 및 우표들을 사오기 위한 배우자의 구두 지시들이 이후의 참조를 위해 전사되도록 인에이블링될 수 있다.

이용자의 스마트폰은 또한 안면 인식을 포함하는 다양한 시각 콘텐트 인식 능력들을 포함한다. 제어 규칙들은 시나리오 2에서, 안면 인식이 - 이용자가 집에서 일찍 마주치는 누군가의 얼굴들을 상기할 것을 프롬프팅(prompting)할 필요가 있음을 기대하지 않기 때문에, 디스에이블링됨을 명시한다.

시나리오 3([표 3C])은 직장으로의 이용자의 운전에 대응한다. 어떠한 텔레비전 오디오도 이 환경에서 기대되지 않고, 따라서 닐슨 워터마크 검출기는 디스에이블링된다. 그러나, 전화 토론 프로그램으로부터의 노래 인식 및 뉴스의 전사(transcription)는 도움이 될 수 있고, 따라서 지문 및 음성 인식 엔진들은 인에이블링된다. 다시, 안면 인식은 디스에이블링된다.

상이한 이용자는 차를 운전하는 대신에, 직장으로 버스를 타고 갈 수 있다. 이 이용자에 대한 제 2 시나리오 제어 규칙들은 상이할 수 있다. 차 라디오 없이, 노래 인식은 요구되지 않고, 따라서 지문 엔진은 디스에이블링된다. 그러나, 이용자는 때때로 버스에서 놀랄만한 대화들을 우연히 듣고, 따라서 음성 인식은 임의의 재미있는 대화가 직장 동료들과 공유될 수 있도록 인에이블링된다. 가끔, 이용자는 그녀가 버스에서 인식해야 하는 누군가를 보지만, - 예를 들면, 아이의 축구 팀동료의 부모 - 이 상이한 환경에서 이름을 상기할 수 없다. 이 만일의 사태를 준비하기 위해, 스마트폰의 안면 인식 기능은 메모리에 로딩되고 동작할 준비가 되지만, 이용자에 의해 시그널링(signalling)될 때까지 카메라 이미저리의 프레임을 처리하지 않는다(신호는 이용자가 미리 결정된 자세로 폰을 잡고 단어 "누구세요"를 말하는 것을 포함할 수 있다.).

제 2 분류기 모듈이 시나리오 4로서 식별하는 [표 3D]에서 상세된 센서 정보의 집합은 그녀의 책상에서 이용자의 아침 업무의 환경에 대응한다. 스마트폰은 분명하게 조용한 업무 환경에서 표면 상에 앞면이 위로 오게 눕혀 있다. 대응하는 제어 규칙들은 모든 인식 모듈들이 디스에이블링됨을 명시한다. 그러나, 오디오 분류기가 오디오 환경에서의 변화 - 중간 레벨의 또는 시끄러운 배경 사운드, 또는 음성으로의 - 를 나타내면, 규칙들은 폰으로 하여금 음성 인식 모듈을 인에이블링하도록 한다. 이것은 그녀에게 주어지는 임의의 요청 또는 정보의 전사된 리코드, 또는 그녀가 발행하는 임의의 지시를 이용자에 제공하여, 그것은 나중에 참조될 수 있다.

음성 인식은 업무 설정을 포함하는, 일부 상황들에서 프라이버시 문제들을 야기할 수 있다. 따라서, 제어 규칙들은 음성 인식 모듈로 하여금, 리코딩이 행해짐을 다른 사람들에게 경고하기 위해 직장에서 활성화될 때, 매 30초 마다 청취가능한 "비프(beep)"를 발행하게 한다. 반대로, 어떠한 "비프" 경보도 이전에 논의된 시나리오들에서는 발행되지 않는데, 이는 개인적인 제 3 자 음성의 어떠한 리코딩도 정상적으로 집 또는 차에서 기대되지 않고, 아마도 버스에서 우연히 들은 음성에 대한 프라이버시의 어떠한 기대도 존재하지 않기 때문이다.

도시된 제 2 분류기 모듈(18)에 의해 처리되는 콘텍스트의 또 다른 자료는 인근의 사람의 수 및 아이덴티티이다. "인근의(Nearby)"는 사람의 셀 폰에 의해 발행된 블루투스 신호의 범위 내에 - 전형적으로 30 피트 또는 그 미만 - 있을 수 있다. 이 범위 내의 상대적인 거리는 블루투스 신호의 세기에 의해 평가될 수 있고, 강한 신호는 예를 들면, 10 피트 또는 그 미만(즉, "가까운") 내의 위치를 나타낸다. 아이덴티티는 - 익숙한 사람에 대해 적어도 - 그들의 공지된 디바이스들을 위한 블루투스 ID들을 참조함으로써 식별될 수 있다. 이용자, 가족 멤버들, 직장동료들, 및 다른 지인들에 의해 소유된 디바이스들을 위한 블루투스 ID들은 잘 공지된 사람들과 다른 사람들을 구별하는데 도움을 주기 위한 제어 규칙들을 이용하여 저장될 수 있다.

이전 시나리오들로 잠시 돌아가면, 규칙들은 음성 인식이 - 인에이블링되면 - 이용자가 분명하게 혼자 있거나(즉, 감지된 어떠한 강한 블루투스 신호들이 존재하지 않거나, 단지 일시적인 신호들만이 존재한다 - 인근의 차량들에서의 낯선 사람들로부터의와 같은), 이용자가 단지 가족 멤버들이 있는 데에 있으면, 경보 비프들 없이 수행될 수 있음을 제공할 수 있다. 그러나, 음성 인식이 인에이블링될 때, 잘 모르는 강한 블루투스 신호가 감지되면, 시스템은 주기적인 경보 비프들의 발행을 지시할 수 있다.

(이용자의 폰이 집에서 음성 인식 경보 비프들을 발행하면, 이용자의 아이가 인식되지 않은 블루투스 식별자를 갖는 새로운 디바이스를 갖기 때문에, 이용자의 폰은 이용자가 이 이전에 인식되지 않은 블루투스 식별자를 저장하도록 허용하는 이용자 인터페이스 스크린을 제공할 수 있다. 이 UI는 이용자가 가족 멤버에 대응하는 것으로서 식별자를 명시하거나, 식별자(예를 들면, 이름 및/또는 관계)와 더 특정한 식별 정보를 연관시키도록 허용한다. 이러한 장치에 의해, 보증되지 않을 때의 비핑은 용이하게 축소되고, 이러한 환경이 미래에 재발할 때 회피된다.)

시나리오 5 - 업무 회의 - 는 전후관계로, 오디오 식별자가 중간 레벨의 배경 오디오를 리포트하고, 폰의 위치가 회의실에 있는 것을 제외하고, 시나리오 4와 동일하다. 음성 인식 모듈은 인에이블링되지만, 기업 데이터 보유 정책들은 회의들의 전사들이 단지 기업 서버들 상에서만 유지되도록 요구하여, 그들은 보유 기간(예를 들면, 12개월)이 경과한 후에 삭제될 수 있다. 제어 규칙 모듈(20)은 이 기업 정책을 따르고, 저장 - 카피 없이 유지하기 위한 기업 전사 데이터베이스로 전사된 음성 데이터를 즉시 송신한다. 경보 비프들은 리코딩의 공손한 리마인더(courtesy reminder)로서 발행된다. 그러나, 모든 인접한 사람들이 "친구들"(즉, 그들의 블루투스 식별자들은 공지된 직장동료들에 대응한다)이 되도록 인식되기 때문에, 규칙들은 폰으로 하여금 비프들의 방해함을 감소시키기 위해, 30초마다 한 번씩 대신에, 단지 5분마다 한 번씩 비프하도록 한다(부가적으로 또는 대안적으로, 비프들의 볼륨은 이용자와 다른 감지된 개인(들) 사이의 사회적 관계의 정도에 기초하여 감소될 수 있어서 - 비프들은 단지 떨어져 있거나 이용자에 사회적으로 전혀 관계가 없는 누군가를 리코딩할 때, 더 시끄럽다.).

시나리오 5에서의 안면 인식에 대한 규칙들은 인접한 것으로 감지된 사람들이 이용자의 폰에 의해 인식되는지의 여부에 의존하여 달라질 수 있다. 모두가 인식되면, 안면 인식 모듈은 활성화되지 않는다. 그러나, 하나 이상의 인접한 사람들이 이용자의 단지 언급된 "친구들" 리스트에(또는 소셜 네트워크에서 일부 더 먼 관계의 정도 내에) 있지 않으면, 안면 인식은 - 주문형(프리-러닝(free-running)보다는) 모드로 - 앞서와 같이 인에이블링된다(대안적으로, 상이한 장치가 예를 들면, 이용자와 연관된 특정 유형의 소셜 네트워크를 갖거나 갖지 않은 하나 이상의 사람들이 존재하는 것으로 감지되면 활성화된 안면 인식과 함께 이용될 수 있다.).

시나리오 6은 정오 시간 동안, 지하철에서 이용자를 발견한다. 규칙들은 버스 통근에 대해 상기 언급된 규칙들과 같다. 그러나, 라디오 수신 배경은 빈약하다. 따라서, 임의의 안면 인식 작동은 - 클라우드 서버 상에 저장되는, 페이스북 또는 피카사 안면 데이터의 이용자의 더 많은 수집을 찾기보다 폰 상에 저장된 단지 안면 아이겐페이스(eigenface) 참조 데이터를 찾는다.

시나리오 7은 금요일 저녁 생일 파티에 대응한다. 많은 익숙하지 않은 사람들이 존재하고, 따라서 규칙들은 - 이용자에 임의의 어둡지 않은 카메라의 시야 내의 모든 인식된 얼굴의 이름들을 제공하는 프리-러닝 모드로 안면 인식 모듈을 론칭(launching)한다. 이 모듈은 클라우드에 저장된 이용자의 페이스북 및 피카사 안면 참조 데이터 뿐만 아니라, 이용자의 페이스북 친구들의 페이스북 계정들에 유지된 이러한 데이터에 의존한다. 음성 인식이 디스에이블링된다. 오디오 지문은 인에이블링되고 - 파티 콘텍스트로 인해 - 폰은 빌보드의 주 노래 리스트들(핫 100, 빌보드 200, 핫 100 에어플레이)에 있는 모든 노래들에 대한 참조 지문들을 다운로드한다. 폰 상에 캐싱된 이 참조 데이터를 갖는 것은 노래 인식 애플리케이션의 훨씬 더 빠른 작동을 허용한다 - 적어도 이들 200+ 노래들에 대해.

부가적인 정보

지문 계산, 워터마크 검출, 및 음성/안면 인식은 계산적으로 상대적으로 비싸다("계산 집약적이다"). 많은 분류 업무들(예를 들면, 음성/음악 분류)도 마찬가지다. 이러한 처리들이 100% 듀티 사이클(duty cycle)로 구동하는 것을 방지하는 것이 바람직하다.

하나의 방식은 이용자로 하여금 - 하나 이상의 계산적인 광 검출기들의 출력으로부터의 도움으로 언제 하나 이상의 과중한 모듈들을 구동하는지를 결정하게 한다. 하나 이상의 과중한 검출기들을 구동하기 이전에 신호 품질을 평가하기 위해 부가적인 단계들을 추가하는 것은 또 다른 방식이다.

과중한 모듈의 듀티 사이클을 감소시키는 것은 간과된 검출의 가능성을 암시하고, 따라서 이용자는 그녀/그가 얼마나 많이 타협하기를 원하는지를 일부 제어해야 한다.

원-세컨드(one-second)의 긴 오디오 프레임 내의 주변 오디오 에너지를 단순하게 확인하고, 이 값을 미리-규정된 임계치에 비교하는 단순한 분류기(예를 들면, 조용한 분류기)를 고려하라. 이러한 모듈은 조용한 상태로부터의 환경에서 급격한 변화가 존재함을 나타낼 수 있다. 규칙들은 새로운 오디오 환경이 음악 또는 음성인지의 여부를 결정하기 위해 하나 이상의 과중한 분류기들의 활성화를 요구할 수 있다. 이 경우에서, 시스템은 이용자가 분류에 착수하기 위해 두드리는 "진행 확인(Confirm to Proceed)" 버튼을 갖는 디스플레이 스크린을 제공할 수 있다(또한 "무시" 버튼이 있을 수 있다. 시스템은 예를 들면, 이용자가 10초와 같은, 미리-규정된 간격 내에서 어떠한 선택도 하지 않으면, 디폴트 거동 예를 들면, "무시"를 가질 수 있다.).

이러한 프롬프트들에 대한 이용자 응답은 로깅(logging)될 수 있고 상이한 콘텍스트 정보(조용한 분류기의 감도(sensitivity)를 포함하는)와 연관될 수 있다. 시간에 따라, 이 저장된 이력 데이터는 이용자가 과중한 분류기에게 진행하도록 지시하는 환경들을 추측하기 위해 이용될 수 있다. 그 다음, 행위는 항상 이용자 탭에 의지하기보다, 이러한 이력의 선례에 기초하여 취해질 수 있다.

즉, 시스템은 이용자 상호작용에 기초하여, 자가-학습할 수 있다. 예를 들면, 조용한 분류기가 양("A")의 라우드니스(loudness)의 변화를 검출할 때, 그것은 더 과중한 분류기(예를 들면, 음악 대 음성 분류기) 또는 검출기(예를 들면, 워터마크 검출기)를 인에이블링하기 위해 이용자의 허가를 요구한다. 이용자가 동의하면, 라우드니스 변화의 이 "A" 레벨은 분명하게 적어도 때때로 이용자에 흥미가 있다. 그러나, 시간에 따라, 이용자가 한결같이 라우드니스가 양("A")만큼 변화할 때, 과중한 분류기를 활성화할 것을 거절함이 명백해지면, 분류기는 그에 따라 그것의 임계치를 재설정할 수 있고, 이용자에게 라우드니스가 "B"(여기서 B>A)만큼 증가하지 않으면, 과중한 모듈을 활성화하기 위한 허가를 요구하지 않는다. 따라서, 조용한 분류기는 덜 민감한 것이 되도록 학습한다.

역으로, 이용자가, 조용한 분류기가 너무 작아서 이용자로의 UI 프롬프트를 트리거링(triggering)할 수 없는 라우드니스에서의 변화를 감지할 때, 과중한 모듈을 수동적으로 론칭하면, 이것은 조용한 분류기에 의해 이용된 임계치가 너무 높음을 나타내고, 더 낮은 레벨로 변경되어야 한다. 따라서, 조용한 분류기는 더 민감한 것이 되도록 학습한다.

도 3은 상기 원리들을 이용하는 장치를 도시한다. 마이크로폰은 단순한 분류기에 주변 오디오 신호를 제공하고, 상기 단순한 분류기는 중대한 분류(예를 들면, 고요함 또는 소리)에 기초하고, 임계치 오디오 레벨에 기초하여 출력을 생성한다. 분류기 모듈이 "고요함"으로부터 "소리"로 스위칭하면, 그것은 스마트폰으로 하여금 시스템이 복잡한 처리(예를 들면, 음성 인식, 음성/음악 분류, 또는 적용가능한 규칙들에 의해 표시된 다른 작동)를 호출해야하는지의 여부를 이용자에게 요청하는 이용자 인터페이스(UI)를 제공하게 한다. 그 다음, 시스템은 이용자의 지시에 따라 동작한다.

포함될 수 있는 방법의 부가적인 양태들이 파선들로 도시된다. 예를 들면, UI를 통해 입력된 - 이용자의 응답은 시스템에 의해 미래의 자동화된 응답들을 가이드하기 위해, 로깅되고 이용자 이력에 부가된다. 현재의 콘텍스트는 또한 콘텍스트 분류기에 의해 제공된 바와 같이, 이러한 이력에 저장된다. 일부 경우들에서, 이용자 이력은 단독으로 - 이용자에게 요청할 필요 없이 주어진 상황에서 어떻게 응답하는지에 대한 지시들을 제공할 수 있다.

(콘텍스트가 변화할 때, 이용자에게 복잡한 처리 모듈을 호출하는지의 여부를 요청하는 대신에, 시스템은 대신에 복잡한 처리 모듈이 호출되지 않아야 하는지의 여부를 요청할 수 있음이 인식될 것이다. 이 경우에, 이용자의 활동부족은 호출되는 처리 모듈을 야기한다.)

또 다른 방식은 현재의 오디오 샘플들이 또 다른 분류를 할 만한(즉, 과중한 식별자로) 품질을 가지는지의 여부를 결정하기 위해, 부가적인 분류기를 이용하는 것이다. 품질이 불충분한 것으로 판정되면, 과중한 분류기는 활성화되지 않는다(또는 활성화해제된다.).

음성 및 음악과 같은 - 정보 관련 신호들은, 간략한 시간 윈도우들(예를 들면, 0.5 내지 3초)에 따라 분석될 때, 적어도 스펙트럼 주파수 콘텐트, 및 또는 일반적으로 진폭에서의 시간적 변동에 의해 특성화된다. 부가적인 분류기는 스펙트럼 주파수 콘텐트에서 상대적으로 일정하고/일정하거나, 이러한 윈도우 간격에 걸쳐, 평균 진폭에서 상대적으로 일정한 오디오 신호들을 주의 깊게 듣는다. 이러한 분류기가 이러한 신호를 검출하고, 이러한 신호의 진폭이 (예를 들면, 3 내지 30초의 이전 반격에 걸쳐) 감지된 오디오 환경의 롱-텀 평균 진폭보다 임계치 양(예를 들면, 3dB)만큼 더 크면, 신호는 원하는 오디오의 신호-대-잡음 비를 수용가능하게 않게 손상시키는 간섭 잡음으로서 간주될 수 있다. 이러한 결정에 응답하여, 시스템은 간섭 신호가 중지될 때까지, 과중한 모듈 처리를 중단한다.

극단적인 경우를 인용하기 위해, 시끄러운 잭-해머(jack-hammer)가 이용되고 있는 건설 현장을 지나는 버스에 탑승하는 이용자를 고려하자. 단지 논의된 분류기는 잭-해머가 동작되는 간격을 검출하고, 이러한 기간 동안 과중한 오디오 처리를 중단시킨다.

이러한 분류기는 - 시스템으로 하여금 이들 환경들에서 그것의 정상 작동으로부터 변화하게 하는 시끄러운 기차가 지나갈 때, 또는 공기 압축기가 동작할 때, 또는 심지어 전화가 울릴 때를 유사하게 트리거링할 수 있다.

또 다른 단순한 분류기는 2011년, Lu 등의 스피커 감지: Energy Efficient Unobtrusive Speaker Identification on Mobile Phones, Pervasive Computing Conf.에서 언급된 원리들에 의존한다. Lu 등은 인간의 음성과 다른 오디오를 구별하기 위해 신호 에너지(RMS) 및 제로 크로싱 레이트(zero crossing raet; ZCR)의 조합을 이용한다. Lu 등이 음성을 식별하기 위해 이들 파라미터들을 이용할지라도, 그들은 또한 특히 정보 관련 신호들을 식별하기 위해(또는, 다르게 언급하면, 과중한 처리 모듈들이 디스에이블링될 수 있도록 아마도 정보가 없는 오디오 악절들(audio passages)을 표시하기 위해) 이용될 수 있다.

또 다른 대안으로서, 부가적인 분류기가 "사운드 변화"의 검출 후에 동작하기 때문에, "사운드 변화" 이전의 오디오 샘플들은 배경 잡음의 근사로서 이용될 수 있고, "사운드 변화" 후의 오디오 샘플은 배경 잡음 플러스 유용한 신호로서 이용될 수 있다. 이것은 대략의 신호-대-잡음 비를 제공한다. 부가적인 분류기는 이 비가 임계 값(예를 들면, 10dB)을 초과할 때까지 유휴 상태로 과중한 모듈들을 유지할 수 있다.

정보 관련 신호가 아마도 없음을 나타내기 위해 - 또 다른 부가적인 분류기는 단순하게 주파수 구성요소들의 비를 검토한다. 일반적으로, 임계 진폭 이상의 주파수 신호 구성요소들의 존재는 오디오 정보의 표시이다. 낮은 주파수 구성요소들(예를 들면, 500Hz 아래의)에서의 에너지와 비교하여 높은 주파수 구성요소들(2KHz 이상의)에서의 에너지의 비는 또 다른 단순한 신호-대-잡음 비의 역할을 할 수 있다. 분류기가, 이러한 비가 3 또는 10dB 아래에 있음을 발견하면, 그것은 과중한 모듈들의 작동을 중단시킬 수 있다.

이러한 장치가 도 4에 도시된다. 하나 이상의 마이크로폰들은 오디오 차단 분류기(30)(즉, 상기 논의한 "부가적인" 분류기)에 감지된 오디오 신호를 제공한다. 마이크로폰 오디오는 선택적으로 음성/음악 오디오 분류기(16)(도 1에서와 같은) 및 몇몇 과중한 오디오 검출기 모듈들(예를 들면, 워터마크 검출기, 음성 인식, 등)에 제공된다. 오디오 차단 분류기의 출력부는 상이한 과중한 검출기들에 인에이블/디스에이블 제어 신호들을 제공한다(예시의 단순성을 위해, 오디오 차단 분류기(30)는 모든 과중한 검출기들에 동일한 제어 신호를 제공하지만, 실제적인 구현에서, 상이한 제어 신호들은 상이한 검출기들에 대해 생성될 수 있다.). 오디오 차단 분류기로부터의 제어 신호들은 마이크로폰에 의해 감지된 오디오에 기초하여 과중한 검출기(들)를(을) 디스에이블링하기 위해 서빙(serving)된다.

도 1의 제 2 분류기 모듈과 같이 동작하는 콘텍스트 분류기(18)가 도 4에 또한 도시된다. 그것은 상이한 콘텍스트 시나리오들을 나타내는 신호들을 출력한다. 이들 출력 데이터는 제어 규칙 모듈(20)에 제공되고, 상기 제어 규칙 모듈(20)은 식별된 시나리오에 기초하여 상이한 과중한 검출기의 작동 모드를 제어한다.

(도 4의 장치들이 과중한 검출기 모듈들의 제어를 도시할지라도, 과중한 분류기 모듈들은 동일한 유형의 장치에 의해 제어될 수 있다.)

상기 논의된 원리들은 마찬가지로 시각 정보의 감지에 적용가능하다. 시각 이미지 분류기들(예를 들면, 안면 인식 시스템들)은 일반적으로 휘도(콘트라스트/강도) 및/또는 색조(컬러/색차)에서의 중요한 공간적 변동을 가지는 이미저리에 대해 동작한다. 이러한 변동들이 부족한 이미저리의 프레임들이 나타나면, 그렇지 않을 경우 동작하고 있는 임의의 과중한 이미지 처리 모듈은 그것의 작동을 중단해야 한다.

따라서, 분류기는 임계치 아래의 휘도 또는 색조 변동에 의해 특성화된 일련의 이미지 프레임들을 찾을 수 있고, 이러한 장면이 검출될 때, 과중한 시각 처리를 중단시킬 수 있다. 따라서, 예를 들면, 과중한 시각 처리들은, 이용자가 카메라를 차폐 벽(blank wall), 또는 바닥으로 가리킬 때, 중단된다(이러한 행위는 또한 예를 들면, 스마트폰이 수평 방향으로 20도 내의 스마트폰의 카메라 축으로 지향될 때, 단지 안면 인식이 동작하는 스마트폰 방향에 기초하여 취해질 수 있다. 다른 임계 값들은 물론 이용될 수 있다.).

유사하게, 안면 인식 분석은 프레임이 촛점 밖에 있으면, 아마도 무의미한 노력이다. 따라서, 단순한 분류기는 프레임 촛점을 검사할 수 있고(예를 들면, 높은 주파수 콘텐트 및 콘트라스트 측정치들과 같은, 공지된 메트릭들(metrics)에 의해, 또는 폰의 동작 센서들에 의해 제공된 - 카메라 쉐이크 메트릭에 의해), 프레임이 아마도 흐릿해지면, 안면 인식을 디스에이블링할 수 있다.

안면 인식은 또한, 대상이 너무 멀어서 정확한 식별을 허용할 것 같지 않으면 디스에이블링될 수 있다. 따라서, 예를 들면, 폰의 자동포커스 시스템이 10미터 또는 그 이상의 촛점 거리를 나타내면, 안면 인식은 관여될 필요가 없다.

블루투스가 인근의 다른 개개인들을 감지할 하나의 방식일지라도, 다른 것들도 존재한다.

하나의 기술은 스마트폰의 달력 애플리케이션에 의존한다. 이용자의 달력, 및 폰 시계가 이용자가 회의하고 있는 시간을 나타낼 때, 이용자의 근처의 다른 참석자들은 달력 애플리케이션에서 회의 참석자 데이터로부터 식별될 수 있다.

다른 방식은 위치 데이터에 의존하고, 상기 위치 데이터는 폰으로부터의 짧은 범위의 방송(또는 폰으로부터 공통 위치로 공개된)이고, 다른 폰들과의 동일 장소 배치(co-location)를 나타내기 위해 이용된다. GPS, WiFi 노드 식별, 등을 포함하는 공지된 기술들로부터 위치 데이터가 얻어질 수 있다.

관련 방식은 위치를 나타낼 수 있는, 감지하기 힘들거나 청취가능하지 않는 배경 오디오 신호들을 환경에 도입하는 음향 방출기들에 의존한다. 마이크로폰이 구비된 디바이스에서의 소프트웨어(예를 들면, 스마트폰 애플리케이션)은 이러한 신호(15 내지 20KHz 이상과 같은, 사람의 청취 범위 이상 또는 그 아래의)를 주의 깊게 들을 수 있고, 감지된 신호에 관한 정보를 - 공동 위치로 방송하거나 공개한다. 공개된 정보는 감지 신호에 의해 전달된(예를 들면, 방출 디바이스 또는 그의 소유자, 디바이스 위치 및/또는 다른 콘텍스트, 등을 식별하는) 정보를 포함할 수 있다. 공개된 정보는 또한 수신 다바이스와 연관된(예를 들면, 방출 디바이스 또는 그의 소유자, 디바이스 위치 및/또는 다른 콘텍스트, 등을 식별하는) 정보를 포함할 수 있다. 이것은 각각의 방출기 가까이의 한 그룹의 폰들이 식별되도록 허용한다(관련 기술은 샵킥 서비스에 의해 이용되고, 특허 공보 US20110029370에 상세된다.).

블루투스는 현재 바람직한데, 이는 - 인근의 사람을 식별하는데 더하여, 그것은 또한 인근의 폰들을 통신 채널에 제공하기 때문이다. 이것은 폰들이 음성 인식, 음악 지문, 안면 인식 등을 포함하는 다양한 업무들에서 협력하는 것을 가능하게 한다. 예를 들면, 복수의 폰들은 그들 각각의 배터리 상태들 및/또는 다른 계속 진행중인 처리 업무들에 관한 정보를 교환할 수 있다. 그 다음, 알고리즘은 특정한 업무를 수행하도록 하나의 폰을 선택하기 위해 이용된다(예를 들면, 대부분의 배터리 수명이 남아 있는 폰은 워터마크 디코딩 또는 안면 인식을 수행하기 위해 선택된다.). 그 다음, 이 폰은 (블루투스 또는 다른 것에 의해) 다른 폰들로 그것의 업무의 결과들 - 또는 그에 기초한 관련 정보 - 을 송신한다.

협력의 또 다른 형태는 각각이 대상의 상이한 뷰(view)를 갖는 2개 이상의 상이한 폰들로부터의 카메라 데이터에 기초한 3D 이미지 모델링이다. 특정한 애플리케이션은 안면 인식이고, 여기서 사람의 2개 이상의 상이한 뷰들은 3D 안면 모델이 생성되도록 허용한다. 그 다음, 안면 인식은 - 2D 안면 인식이 제공하는 것보다 많은 특정 식별을 생성하는 - 3D 모델 정보에 기초할 수 있다.

협력의 또 다른 형태는 다수의 스마트폰들이 동일한 업무에 착수하고 그 다음, 결과들을 공유하는 것이다. 상이한 폰 처리들은 가장 높은 신뢰도 측정치를 갖는 결과가 모든 폰들에 의해 이용될 수 있는 경우에서, 상이한 신뢰도 측정치들을 갖는 결과들을 생성할 수 있다(이러한 처리는 폰들 자신의 처리기들을 이용하는 대신에, 클라우드에서의 처리들에 의해 행해질 수 있다.).

일부 애플리케이션들에서, 폰은 상이한 폰들이 상이한 결과들을 제공하도록 허용하는, 폰-특정 정보와 관련한 주변 오디오/시각 자극을 처리한다. 예를 들면, 공지되지 않은 사람의 얼굴은 하나의 폰에 액세스가능하지만, 다른 폰들에는 액세스가능하지 않은 페이스북 계정에서 식별될 수 있다. 따라서, 하나의 폰은 다른 폰들이 할 수 없는 업무를 완료할 수 있다(다른 폰-특정 정보는 이력, 연락처들, 컴퓨팅 콘텍스트, 이용자 콘텍스트, 물리적 콘텍스트, 등을 포함한다. 예를 들면, 공개된 출원 20110161076 및 2011년 6월 30일에 출원된, 공동 계류중인 출원 13/174,258을 참조하라. 이미지 처리에 대해, 상이한 폰들은 대상의 더 양호하거나 더 나쁜 뷰들을 가질 수 있다.).

관련적으로, 협력 폰들은 처리를 위해 하나 이상의 다른 폰들로 그들이 캡쳐한 오디오/이미저리를 전송할 수 있다. 예를 들면, 유용한 안면 인식 데이터로의 페이스북 액세스를 가지는 폰은 식별될 사람의 최상의 뷰를 갖는 폰이 아닐 수 있다. 복수의 폰들이 각각 데이터를 캡쳐하고, 이러한 데이터(또는 그에 기초한 예를 들면, 아이겐페이스 데이터에 기초한 정보)를 다른 폰들과 공유하면, 임의의 폰 - 혼자 - 이 관리할 수 있는 것보다 양호한 결과들이 성취될 수 있다.

물론, 디바이스들은 블루투스 외의 다른 것으로 통신할 수 있다. NFC 및 WiFi가 2개의 이러한 대안들이다.

블루투스는 또한 이용자가 차량에 있음을 결정하기 위한 기술로서 언급되었다. 다시, 다른 장치들이 이용될 수 있다.

하나는 GPS이다. 심지어 산발적인-실행 GPS 모듈(예를 들면, 1분에 한번씩)은 이용자가 차량의 이동과 일치하는 방식으로 이동하고 있는지의 여부를 결정하기 위해 충분한 궤적 정보를 수집할 수 있다. 예를 들면, GPS는 이용자가 확립된 도로들을 따라가고 있고, 걷기 또는 자전거 타기와 연관된 것 이상의 속도로 이동하고 있음을 확립할 수 있다(자동차 이동으로부터 자전거 타기를 명확하게 할 때, 지상 고도가 고려될 수 있다. 지형이 일반적으로 평평하거나, 여행자가 언덕 위로 가고 있으면, 20mph보다 빠른 유지 속도는 동력 차량과 자전거 타기를 구별할 수 있다. 그러나, 이용자가 가파른 비탈의 경사진 곳 아래의 도로를 따라가면, 35mph보다 빠른 유지 속도는 틀림없이 동력 이동을 확립하기 위해 이용될 수 있다.).

2개 이상의 폰들이 예를 들면, 공유된 짧은 범위의 콘택스트 방송에 의해, 그들이 각각 동일한 속도로 동일한 위치-기반-트랙(geo-location-track)을 따라감을 리포트하면, 2개의 폰들의 이용자들은 그들이 동일한 탈것 - 자동차, 버스, 자전거, 등이든지 - 으로 이동하고 있다고 결론내릴 수 있다.

이러한 결론은 예를 들면, 2개 이상의 폰들이 그들의 3D 가속도계들, 자이로스코프들, 및/또는 자력계들로부터 유사한 데이터를 리포트하면, GPS 없이 유사하게 행해질 수 있다. 게다가, 다수의 이용자들의 공동-탈것은, 2개 이상의 폰들이 동일한 오디오(예를 들면, 임계 값 예를 들면, 0.9를 초과하는 상관 메트릭에 의해 표시된 바와 같은)를 캡쳐하고, 이 정보를 다른 인근의 디바이스들과 공유하면, 마찬가지로 확립될 수 있다.

다시, 클라우드는 스마트폰들에 의해 리포트된 이러한 정보에 대한 수신자의 역할을 할 수 있고, 상기 수신자는 예를 들면, 디바이스들 사이의 상관에 관한 결정을 할 수 있다.

짧은 범위의 콘택스트 방송에 대한 참조가 행해졌다. 이것은 인근의 디바이스들에 블루투스에 의해 그들의 감지된 콘텍스트 정보(캡쳐된 오디오를 포함할 수 있는)를 전달하는 폰들에 의해 영향을 받을 수 있다. 공유된 정보는 - 관련된 송신의 짧은 범위를 고려할 때 - 프라이버시 문제들이 발생하지 않는 이러한 특성(예를 들면, 가속도, 캡쳐된 오디오)일 수 있다.

이 명세서가 오디오 애플리케이션들에 촛점을 맞추고, 또한 안면 인식을 고려할지라도, 인식될 수 있고 그에 따라 영향을 받는 제한되지 않은 부류들이 존재한다. 몇몇 다른 시각 부류들은 광학 문자 인식(OCR) 및 바코드 디코딩을 포함한다.

스마트폰 상의 다수의 카메라들의 존재는 다른 장치들을 인에이블링한다. 예를 들면, 2011년 8월 17일에 출원된, 출원 번호 제 13/212,119 호에 언급된 바와 같이, 이용자 지향 카메라는 이용자(또는 스마트폰 스크린 상에 제시된 정보에 대한 이용자 응답)의 감정들을 평가하고, 그에 따라 - 다른 카메라의 이용을 포함하는 - 폰의 작동을 조정하기 위해 이용될 수 있다.

이용자 지향 카메라는 또한 이용자의 눈 위치를 검출할 수 있다. 폰의 작동은 그에 의해 제어될 수 있다. 예를 들면, 폰의 위치 센서들에 기초하여 "초상화" 디스플레이 모드와 "풍경" 디스플레이 모드 사이를 스위칭하는 대신에, 이 스크린 디스플레이 모드는 이용자의 눈들의 방향에 기초하여 제어될 수 있다. 따라서, 이용자가 한쪽의(즉, 수직으로 확장하는 동공들 사이의 라인을 갖는) 침대에 누워있고, 폰이 공간적으로 풍경 방향(수평으로 확장하고, 이용자의 몸의 축과 평행한 긴 축을 갖는)으로 지향되면, 폰은 "초상화" 모드로 그것의 디스플레이를 동작시킬 수 있다. 이용자가 폰을 90도로 회전시키면(즉, 그것의 긴 축이 이용자들의 눈들 사이의 축과 평행하도록), 폰은 그것의 디스플레이 모드를 "풍경"으로 스위칭한다.

유사하게, 이용자가 등을 대고 누워있고, 폰을 머리 위로 잡고 있으면, 스크린 모드는 스크린 축에 관하여, 이용자의 눈들 사이의 축의 상대적인 방향을 따르도록 스위칭한다(즉, 폰의 긴 축이 이용자의 눈들 사이의 축과 평행하면, 풍경 모드가 이용되고; 그 반대도 마찬가지이다.).

폰이 스테레오 카메라들(즉, 중첩하는 시야들을 갖는 2개의 카메라들)을 구비하면, 2개의 뷰들은 프레임에서 임의의 포인트에 대한 거리 결정(즉, 거리 측정)을 위해 이용될 수 있다. 특정 시각 검출 업무들(예를 들면, 워터마크 및 바코드 디코딩)에 대해, 거리 정보는 최상의 결과들을 성취하기 위해, 이용자에게 폰을 의도된 대상 가까이, 또는 상기 의도된 대상으로부터 멀리 이동시키도록 가이드하기 위해 폰 처리기에 의해 이용될 수 있다.

폰은 감지된 오디오를 참조함으로써 오디오 장면을 식별하도록 노력할 수 있다. 예를 들면, 회의실 장면은 구별가능한 인간 음성을 갖고, 간헐적인 사운드 소스 전이(대안적으로 상이한 사람 연설)를 갖는 조용한 배경에 의해 음향적으로 특성화될 수 있다. 이용자 및 그녀의 남편을 갖는 집 장면은 중간 레벨의 배경 오디오(아마도 음악 또는 텔레비전)에 의해, 및 대안적으로 2개의 상이한 음성 연설에 의해 음향적으로 특성화될 수 있다. 혼잡한 컨벤션 센터는 많은 구별불가능한 사람 음성들을 갖는 높은 레벨의 배경 사운드, 및 때때로 이용자의 음성 또는 또 다른 것에 의해 특성화될 수 있다.

일단 오디오 장면이 식별되면, 2개 이상의 스마트폰들은 상이한 방식들로 동작 및 협력할 수 있다. 예를 들면, 장면이 회의로서 식별되면, 이용자의 폰은 회의실이 이용중임을 나타내는, 방에 대해 자동적으로 체크-인할 수 있다(달력 프로그램들은 종종 이것을 위해 이용되지만, 즉흥적인 회의들은 사전 스케줄링 없이 방들을 이용할 수 있다. 스마트폰은 회의가 시작된 후에 - 경쟁적인 예약들에 대해 방을 예약하는 - 달력 상에 회의를 입력할 수 있다.).

폰은 검토되는 데크에서의 슬라이드들의 수를 학습하기 위해, 현재 디스플레이되고 있는 파워포인트 슬라이드 프리젠테이션을 제어하는 랩톱 또는 다른 디바이스와 통신할 수 있다. 랩톱 또는 폰은 얼마나 빠르게 슬라이드들이 진행되는지를 계산할 수 있고, 회의가 끝날 때를 추론할 수 있다(예를 들면, 데크가 30개의 슬라이드들을 갖고, 그것이 15개의 슬라이드들을 끝내는데 20분이 걸린다면, 처리기는 마지막 15개의 슬라이드들을 끝내는데 또 다른 20분이 걸릴 것을 계산할 수 있다. 결국 최종적인 논의에 대해 10분을 부가함으로써, 그것은 회의가 30분 후에 끝날 것을 계산할 수 있다.). 이 정보는 참석자들과 공유될 수 있거나, 방이 이용가능할 수 있을 때를 나타내기 위해 달력 애플리케이션에 포스팅될 수 있다.

청각 장면이 배우자의 존재를 설정하는 집을 나타내면, 2개의 폰들은 가정 정보(예를 들면, 쇼핑 리스트 정보, 소셜 달력 데이터, 곧 지불될 청구서들, 등)를 교환할 수 있다.

혼잡한 컨벤션 센터 장면에서, 폰은 그것이 또 다른 사람과 잡담하는 이용자를 감지하고, 폰이 이미 다른 사람(예를 들면, 블루투스-표시 셀 폰 번호, 또는 다른 것에 의해 식별된)에 대한 연락처를 갖고 있지 않으면, 자동 전자 비즈니스 카드(예를 들면, v-카드) 교환을 개시할 수 있다.

컨벤션 장면에서, 이용자의 폰은 또한 유사한 운송 요구조건들을 갖는 일반 달력들을 식별하기 위해, 이용자가 이야기하는 사람(예를 들면, 그의 비행이 이용자의 비행의 30분 내의 비행 시간으로 이용자의 출발 비행과 동일한 공항으로부터 출발하는 사람)의 일반 달력들을 확인할 수 있다. 그 다음, 이러한 정보는 예를 들면, 청취가능하거나 촉각 경보로 이용자의 관심을 끌 수 있다.

클라우드에서 특정 작동들을 수행하는 참조가 행해졌다. 업무들은 다양한 팩터들에 기초하여 클라우드에 참조될 수 있다. 일례는 "송신하기 용이한" 데이터(즉, 작은 크기) 및 "계산하기 어려운" 업무들(즉, 계산적으로 복잡한)에 대해 클라우드 처리를 이용한다. 클라우드 처리는 종종 광범위한 로컬 지식(예를 들면, 디바이스 상에 저장된 디바이스 이력 및 다른 정보)을 요구하지 않는 업무들에 대해 최상으로 적합하다.

다운타운의 컨퍼런스 센터 호텔로 통근할 필요가 있는, 회의를 위해 샌프란시스코로 비행하는 여행자를 고려하자. 공항에 착륙 시에, 이용자의 폰은 클라우드 서버로 다운타운 호텔/컨퍼런스 센터의 주소를 전송한다. 클라우드 서버는 실시간 교통 정보, 공사 지연들, 등의 지식을 갖는다. 서버는 다양한 제약들 하에서의 최적의 루트 예를 들면, 최단 시간 루트, 최단 거리 루트, 가장 비용 효율적인 루트, 등을 계산한다. 이용자가 회의가 시작하기 단지 20분 전에 공항에 도착하면, 폰은 택시를 타도록 제안한다(아마도 그것은 동일한 목적지를 갖는 것으로 감지하는 다른 사람들 - 아마도 또한 "양호한"을 초과하는 제 3 자 신뢰성 점수를 갖는 다른 사람들과 택시를 공유하도록 제안한다.). 반대로, 이용자가 회의의 하루 전에 도착하면, 폰은 바트(BART) - 이용자가 한 피스의 확인된 수화물 또는 그 미만(스마트폰 상에 저장된 에어라인 체크-인 데이터를 참조함으로써 결정된)을 갖고 여행한다면 - 를 타도록 제안한다. 이러한 루트 선택 업무는 "적은 데이터, 많은 계산"의 일례이다.

그 자신의 센서들로부터의 오디오 및 이미저리에 더하여, 스마트폰은 주차장, 쇼핑몰, 컨벤션 센터, 또는 가정 보안 시스템에서의 감시 카메라들과 같은, 일반 센서들에 의해 수집된 오디오 및 이미저리에 의존할 수 있다. 이 정보는 클라우드 처리에 의해 제공된 "많은 계산"의 일부일 수 있다. 또는 이용자가, 그녀가 혼잡한 주차장에 그녀의 노란색 니산 리프 자동차를 어디에 주차했는지를 발견하는데 도움을 주는 것과 같은, 데이터는 스마트폰에 의해 독점적으로 처리될 수 있다.

명세서가 오디오 및 이미지 데이터의 분석에 촛점을 맞출지라도, 동일한 원리들은 다른 데이터 유형들에 적용될 수 있다. 하나는 촉각 데이터이다. 또 다른 것은 가스 및 화학 분석이다. 후각 정보가 관련된다(후각 센서들은 예를 들면, 이용자의 입김으로 폐암에 상호연관하는 상체지표들을 검출하는 의학분야의 진단기로서 스마트폰들에 의해 이용될 수 있다.).

물론, 이용자의 소셜 네트워킹 계정들(페이스북, 트위터, 포스퀘어, 샵킥, 링키드인, 등)로부터의 정보는 여기서 상세된 장치들로의 입력으로서(예를 들면, 콘텍스트 정보로서) 이용될 수 있다. 이용자가 예를 들면, 직장에서, 집에서, 회의들, 등에서 우연히 마주치는 사람의 계정들로부터의 일반 정보도 마찬가지다. 게다가, 상세된 장치들로부터 출력된 정보는 이용자의 소셜 네트워킹 계정(들)에 대해 자동적으로 포스팅될 수 있다.

안면 인식이 복수의 이용들을 가짐이 인식될 것이다. 상기 언급된 하나는 - 이용자에게 지인의 이름을 프롬프팅하는 - 메모리 보조와 같다. 또 다른 것은 이용자 식별 및/또는 허가를 위한 것이다. 예를 들면, 이용자의 스마트폰은 그것이 인근의 사람을 친구로서 인식하는 경우에만(예를 들면, 페이스북 상의 이용자의 친구들의 리스트를 참조함으로써), 특정 개인 정보를 전달할 수 있다. 안면 인식은 또한 사람의 이름 및 다른 정보를 갖는 사람의 이미지들을 태그하기 위해 이용될 수 있다.

일부 실시예들에서, 이용자의 스마트폰은 이용자의 하나 이상의 높은 품질의 안면 초상화들, 또는 연관된 아이겐페이스 데이터를 전달한다. 또 다른 스마트폰 이용자는 이용자의 불량한 사진을 스냅(snap)할 수 있다. 그 스마트폰은 스냅된 이미지를 이용자로부터 블루투스를 통해 수신된 높은 품질의 이미지 데이터(또는 아이겐페이스 데이터)와 비교하고, 불량한 사진 및 수신된 이미지 데이터가 동일한 개인에 대응함을 확인할 수 있다. 그 다음, 다른 스마트폰은 예를 들면, 안면 인식을 위해, 또는 연락처를 도시하기 위해, 또는 이용자 사진이 이용될 수 있는 임의의 다른 목적을 위해 불량한 사진 대신에 수신된 이미지 데이터를 이용한다.

도 5는 아마도 고요함, 음성, 및/또는 음악과 같은 입력 오디오를 분류하는 분류기 데이터에 기초하여 2개의 디지털 워터마크 디코더들(하나는 음악에서 공통적으로 발견된 워터마크들을 위해 조정되고, 또 다른 것은 방송 음성에서 공통적으로 발견된 워터마크들을 위해 조정되는)이 어떻게 제어되는지를 나타내는, 또 다른 오디오 실시예에 대한 이벤트 제어기 표를 도시한다. 도 6은 대응하는 흐름도를 도시한다.

도 7은 또 다른 실시예에 대한 이벤트 제어기 표를 도시한다 - 이 하나는 이미저리에 관련된다. 이 배열은 상이한 인식 모듈들(1D 바코드, 2D 바코드, 이미지 워터마크, 이미지 지문, 및 OCR)이 상이한 센서 정보에 따라 어떻게 제어되는지를 도시한다(센서들은 분류기들과 같은, 논리 센서들을 포함할 수 있다.). 도시된 배열들에서, 시스템은 광 센서, 및 동작 센서를 포함한다. 부가적으로, 하나 이상의 이미지 분류기들은 아마도 텍스트, 1D 바코드, 또는 2D 바코드를 도시하는 것과 같은, 이미저리를 식별하는 정보를 출력한다.

"이미지"에 대한 어떠한 분류기 출력도 존재하지 않음에 주의한다. 모든 것은 후보이다. 따라서, 이미지 워터마크 디코딩 모듈, 및 이미지 지문 모듈은 (예를 들면, 3개의 유형들의 분류된 이미지들 모두가 식별되지 않거나 식별될 때) 분류기(들)로부터의 출력들의 특정 조합들에 기초하여 활성화된다.

또한, 시스템이 어두운 장면, 또는 시스템이 이미저리가 이미지 품질을 불확실하게 만드는 이동의 조건들("저크(jerk)") 하에서 캡쳐되었음을 검출할 때, 어떠한 이미지 인식 처리도 착수되지 않음에 주의한다.

도 8은 대응하는 흐름도를 도시한다.

공개된 출원 20120208592는 또한 도 5 내지 도 8의 배열들에 유용한 기술을 상세한다.

오디오 분류에 관한 또 다른 내용

오디오 분류 문제점은 종종 콘텐트 기반 분류/검색, 또는 오디오 분할로서 칭해진다. 이 업무에서 2개의 기본적인 이슈들: 특징 선택 및 분류기 선택이 존재한다.

이 분야에서 초기 업무들 중 하나는 울드 등[5]에 의해 1996년에 공개되었다. 그는 다양한 지각 특징들(시끄러움, 음높이(pitch), 밝기, 대역폭 및 조화성(harmonicity)) 및 가장 가까운 이웃 분류기를 이용했다. [6]에서, 푸트는 오디오 특징들로서 13개의 멜-주파수 캡스트럴 계수들(Mel-Frequency Cepstral Coefficients)(MFCCs), 및 분류를 위한 벡터 양자화 방법을 이용했다. [7]에서, 장 및 쿠오는 오디오 세그먼트들을 특성화하기 위해 숨겨진 마르코프 모델들을 이용했고, 계층적 분류기는 2-단계 분류를 위해 이용된다. [12]에서, 슈아이러는 음성 및 음악을 분류하고, 매우 높은 정확성(약 95%의 정확성, 그러나 단지 음악/음성 분류에 대한)을 달성하고, 특히 소리의 긴 세그먼트들(2.4초)을 통합하기 위한 13개의 특징들의 속성들을 평가했다. 리우 등[8]은 "오디오 이해가 3개의 계층들: 낮은 레벨의 음향 특성들, 상이한 사운딩 오브젝트들과 연관된 중간 레벨의 오디오 서명들, 및 상이한 장면 부류들에서의 오디오의 높은 레벨의 시맨틱 모델들에서의 특징들에 기초할 수 있고", "이들 낮은 레벨의 특징들에 기초한 분류가 단독으로 정확한 것이 될 수 없지만, 에러가 연속적인 오디오 클립들의 시퀀스를 기초로 하는 구조를 검사함으로써 더 높은 계층에서 어드레싱될 수 있음"을 논의했다.

한편, 낮은 레벨의 특징들을 계산하는 것에 관하여, [6,8]은 먼저 오디오 샘플들을 1-초 긴 클립들로 분할하고 그 다음, 또한 각각의 클립을 40개의 중첩하지 않는 25-밀리초 길이의 하위-클립들로 분할하도록 분명하게 언급했다. 낮은 레벨의 특징들은 각각의 25-밀리초 하위-클립에 대해 계산되고 그 다음, 1-초 긴 클립을 표현하기 위해 40개의 하위-클립들을 통해 병합된다. 부류는 1-초 긴 클립들에 기초한다(25-밀리초 기간에서, 사운드 신호는 고정 속성을 보여주는 반면에, 1-초 기간에서, 사운드 신호는 우리가 분류하기를 원하는 부류들에 대응하는 특성들을 나타낸다. 이들 초기 참조들, 및 또한 이후 년도들에서, 이들 부류들은 고요함, 음악, 음성, 환경 사운드, 환경 사운드를 갖는 음성, 등을 포함한다.).

2000년도에, 마이크로소프트 리서치 아시아는 [9, 10]에서 도시된 바와 같은, 오디오 분류에 대해 적극적으로 작업했다. [9]에서 루는 8개의 오더 MFCC들 및 몇몇 다른 지각 특성들 뿐만 아니라, 케스케이딩(cascading)된 방식의 분류기로서 커널 SVM(지원 백터 기계)을 포함하는, 낮은 레벨의 오디오 특징들을 이용했다. [10]에서의 작업에는 또한 k-NN, LSP VQ 및 (스무딩(smoothing)하기 위한) 규칙 기반 방법들을 포함하는, 케스케이딩된 분류 방식의 이용된 상이한 분류기들 및 지각 특징들이 포함된다. 이 페이퍼에서, 그들은 상이한 부류들을 분류하기 위해 동적인 특징 세트들을 이용했다(상이한 특징들을 이용한다).

더 최근에, 오디오 분류에 대한 작업이 증가되었다. 일부 사람은 [2, 3, 4, 17]과 같은, 새로운 오디오 특징들, 또는 새로운 분류기들[13]을 이용하는 것에 대해 작업한다. 다른 사람들은 [1, 18]과 같은, 낮은 레벨의 특징들 이상의 높은 레벨의 분류 프레임워크에 대해 작업한다. 다른 사람들은 오디오 분류 예를 들면, 비디오 클립들의 감정 콘텐트의 결정에 기초하여 애플리케이션들에 대해 작업한다[16].

다른 연구원들은 오디오 분류 구현을 실현가능하게 만드는, 기존의 특징 추출 방법들, 분류기, 및 파라미터 선택 방식들을 비교하고 있고, 심지어 노키아 셀폰 상에 구현된 원형을 갖는다[14, 15].

특히, 음성/음악 구별에 촛점을 둔 장치들은 [19] 및 [20]을 포함한다.

참조문헌들:

다른 언급들

도시적인 예들을 참조하여 우리의 발명적인 업무의 원리들을 설명하고 도시하였지만, 기술이 그렇게 제한되지 않음이 인식될 것이다.

예를 들면, 스마트폰들에 대한 참조가 행해질지라도, 이 기술이 - 휴대가능하고 고정된 온갖 종류의 디바이스들에 대한 용도를 찾음이 인식될 것이다. PDA들, 오거나이저들(organizers), 휴대가능한 음악 플레이어들, 데스크톱 컴퓨터들, 랩톱 컴퓨터들, 태블릿 컴퓨터들, 넷북들, 착용가능한 컴퓨터들, 서버들, 등은 모두 여기에서 상세된 원리들을 이용할 수 있다.

유사하게, 머리에 쓰는 디바이스들(예를 들면, 구글 글래스 고글들), 및 다른 방해받지 않는 센서 플랫폼들이 실질적으로 오늘날의 스마트폰들을 대체할 것임이 기대된다. 물론, 본 기술은 이러한 다른 형태들의 디바이스들과 함께 이용될 수 있다.

용어 "스마트폰"은 심지어 이러한 모든 디바이스들이 엄격히 말해 셀룰러가 아니고, 전화들이 아닐지라도, 상기 모든 디바이스들을 포함하도록 해석되어야 한다.

(그것의 터치 인터페이스를 포함하는, 아이폰의 상세들은 애플의 공개된 특허 출원 20080174570에 제공된다.)

본 기술의 실시예들에서 이용된 스마트폰들 및 다른 컴퓨터들의 설계는 기술자들에게 익숙하다. 일반적인 용어들에서, 각각은 하나 이상의 처리기들, 하나 이상의 메모리들(예를 들면, RAM), 저장장치(예를 들면, 디스크 또는 플래시 메모리), 이용자 인터페이스(예를 들면, 그래픽 이용자 인터페이스를 제공하기 위한 소프트웨어 지시들과 함께, 키패드, TFT LCD 또는 OLED 디스플레이 스크린, 터치 또는 다른 제스처 센서들, 카메라 또는 다른 광 센서, 나침반 센서, 3D 자력계, 3-축 가속도계, 마이크로폰 등을 포함할 수 있는), 이들 요소들 사이의 상호접속들(예를 들면, 버스들), 및 다른 디바이스들과 통신하기 위한 인터페이스(GSM, CDMA, W-CDMA, CDMA2000, TDMA, EV-DO, HSDPA, WiFi, WiMax, 또는 블루투스와 같은, 무선, 및/또는 이더넷 로컬 영역 네트워크, T-1 인터넷 접속, 등과 같은, 유선일 수 있는)를 포함한다.

이 명세서가 양수인의 이전 특허 출원들에 대한 그것의 관계를 미리 언급했을지라도, 그것은 반복할 만하다. 이들 개시들은 일제히 판독되어야 하고 전체적으로 해석되어야 한다. 출원인들은 각각에서의 특징들이 다른것들에서의 특징들과 조합됨을 의도한다. 즉, 본 출원에 개시된 방법들, 요소들 및 개념들이 그들 관련 출원들에서 상세된 방법들, 요소들 및 개념들과 조합됨이 이해되어야 한다. 일부가 특히 본 명세서에서 상세될지라도, 많은 것들은 - 많은 수의 순열들 및 조합들이 크기 때문에 - 상세되지 않는다. 그러나, 모든 이러한 조합들의 구현은 제공된 교시들로부터 기술자에 간단하다.

이 명세서에 상세된 처리들 및 시스템 구성요소들은 마이크로처리기들, 그래픽 처리 유닛들(nVidia Tegra APX 2600과 같은, GPU들), 디지털 신호 처리기들(예를 들면, 텍사스 인스트루먼츠 TMS320 시리즈 디바이스들), 등을 포함하는, 다양한 프로그래밍가능한 처리기들을 위한 범용 처리기 지시들을 포함하는, 디바이스들을 계산하기 위한 지시들로서 구현될 수 있다. 이들 지시들은 소프트웨어, 펌웨어, 등으로서 구현될 수 있다. 이들 지시들은 또한 프로그래밍가능한 논리 디바이스들, FPGA들(예를 들면, 언급된 Xilinx Virtex 시리즈 디바이스들), FPOA들(예를 들면, 언급된 PicoChip 디바이스들), 및 디지털, 아날로그 및 혼합된 아날로그/디지털 회로를 포함하는 - 애플리케이션 특정 회로들을 포함하는, 다양한 형태들의 처리기 회로에 대해 구현될 수 있다. 지시들의 실행은 처리기들 사이에 분포될 수 있고/분배될 수 있거나 디바이스 내의 처리기들에 걸쳐 또는 디바이스들의 네트워크에 걸쳐 유사하게 행해질 수 있다. 콘텐트 신호 데이터의 변환은 또한 상이한 처리기 및 메모리 디바이스들 사이에 분포될 수 있다. "처리기들" 또는 "모듈들"에 대한 참조들은 특정한 형태의 하드웨어 및/또는 소프트웨어 구현을 요구하기보다는 기능을 참조하도록 이해되어야 한다.

상세한 기능을 구현하기 위한 소프트웨어 지시들은 여기서 제공된 설명들로부터 기술자들에 의해 용이하게 쓰여질 수 있다 - 예를 들면, C, C++, 비주얼 베이직, 자바, 파이썬, Tcl, 펄, 스킴, 루비, 등으로 작성될 수 있다. 본 기술의 특정 구현들에 따른 스마트폰들 및 다른 디바이스들은 상이한 기능들 및 행위들을 수행하기 위한 소프트웨어 모듈들을 포함할 수 있다. 공지된 인공 지능 시스템들 및 기술들은 추론들, 결론들, 및 다른 결정들로 하여금 상기에 언급되도록 이용될 수 있다.

공통적으로, 각각의 디바이스는 하드웨어 리소스들 및 범용 기능들에 인터페이스를 제공하는 운영 체제 소프트웨어를 포함하고, 또한 이용자에 의해 요구된 특정한 업무들을 수행하도록 선택적으로 호출될 수 있는 애플리케이션 소프트웨어를 포함한다. 공지된 브라우저 소프트웨어, 통신 소프트웨어, 및 매체 처리 소프트웨어는 여기서 상세된 많은 이용들을 위해 적응될 수 있다. 소프트웨어 및 하드웨어 구성 데이터/지시들은 공통적으로 네트워크에 걸쳐 액세스될 수 있는 자기 또는 광 디스크들, 메모리 카드들, ROM, 등과 같은, 유형의 매체에 의해 운반된 하나 이상의 데이터 구조들에서의 지시들로서 저장된다. 일부 실시예들은 임베딩(embedding)된 시스템들 - 운영 체제 소프트웨어 및 애플리케이션 소프트웨어가 이용자에게 구별가능하지 않은(예를 들면, 기본적인 셀 폰들에서 공통적으로 있는 일이다) 특수 목적 컴퓨터 시스템으로서 구현될 수 있다. 이 명세서에서 상세된 기능은 운영 체제 소프트웨어, 애플리케이션 소프트웨어에서 구현될 수 있고/구현될 수 있거나 임베딩된 시스템 소프트웨어로서 구현될 수 있다.

이 개시가 예시적인 실시예들에서 행위들의 특정한 순서 및 요소들의 특정한 조합들을 상세했을지라도, 다른 고려된 방법들이 행위들을 재-순서화(아마도 일부를 생략하고 다른 것들을 부가한다)할 수 있고, 다른 고려된 조합들이 일부 요소들을 생략하고, 다른 것들을 부가하고, 요소들을 상이하게 구성할 수 있음, 등이 인식될 것이다.

완전한 시스템으로서 개시될지라도, 상세된 장치들의 하위-조합들은 또한 별도로 고려된다.

오디오 캡쳐 및 처리를 수행하는 시스템들의 콘텍스트로 주로 상세될지라도, 대응하는 장치들은 시각 자극(이미저리)를 캡쳐 및 처리하거나, 이미저리 및 오디오 둘 모두를 캡쳐 및 처리하는 시스템들에 동등하게 적용가능하다.

유사하게, 기술의 특정 양태들이 예시적인 방법들을 참조함으로써 설명될지라도, 이러한 방법들의 행위들을 수행하도록 구성된 장치가 또한 출원인의 발명적인 업무의 일부로서 고려됨이 인식될 것이다. 마찬가지로, 다른 양태들은 예시적인 장치를 참조함으로써 설명되고, 이러한 장치에 의해 수행된 방법론은 마찬가지로 본 기술의 범위 내에 있다. 게다가, 이러한 방법들을 수행하도록 처리기 또는 다른 프로그래밍가능한 시스템을 구성하기 위한 지시들을 포함하는 유형의 컴퓨터 판독가능한 매체는 또한 분명하게 고려된다.

인근의 사람들에 대한 근접성, 및 상기 인근의 사람들의 아이덴티티를 나타내기 위한 블루투스 기술에 대한 참조는 단지 예시적이다. 많은 대안적인 기술들은 이들 기능들 중 하나 또는 둘 모두를 수행하도록 공지되고, 용이하게 대체될 수 있다.

실례들은 예시적이고 제한되지 않는 것으로서 이해되어야 한다.

여기서 설명된 기술의 무수히 많은 변동들 및 조합들을 분명하게 분류하는 것은 불가능하다. 출원인들은 이 명세서의 개념들이 - 그들 자신들 중 및 사이 둘 모두에서 뿐만 아니라, 언급된 종래 기술로부터 공지된 개념들과 조합되고, 대체되고 상호교환될 수 있음을 인식하고 의도한다. 게다가, 상세된 기술에는 이로운 효과를 위한 - 현재의 그리고 앞으로의 - 다른 기술들이 포함될 수 있다.

판독자는 여기서 참조된 (특허 문서들을 포함하는) 문서들을 잘 알도록 추정된다. 이 명세서를 과도하게 늘리지 않고 포괄적인 개시를 제공하기 위해, 출원인들은 상기 참조된 이들 문서들을 참조로서 통합한다(이러한 문서들은, 심지어 특정한 그들의 교시들과 관련하여 상기 언급될지라도 전부 통합된다.). 이들 참조문서들은 여기서 상세된 장치들로 통합될 수 있고, 여기서 상세된 기술들 및 교시들이 통합될 수 있는 기술들 및 교시들을 개시한다.

12: 마이크로폰들 14: 카메라들
16: 오디오-시작 분류기 모듈들 18: 제 2 분류기 모듈들
20: 제어 규칙 모듈들 22: 콘텐트 인식 모듈들

Claims

복수의 가능한 유형들 중에서 한 유형의 수신된 정보를 식별하기 위해, 상기 수신된 오디오 및/또는 시각 정보에 제 1 분류 절차를 적용하는 단계;
복수의 가능한 시나리오들 중에서 하나의 시나리오를 식별하기 위해, 수신된 제 2 정보에 제 2 분류 절차를 적용하는 단계로서, 상기 수신된 제 2 정보는 상기 수신된 오디오 또는 시각 정보와 상이한 것인, 상기 적용하는 단계; 및
상기 제 1 및 제 2 분류 절차들로부터의 출력들에 기초하여 하나 이상의 인식 모듈들을 활성화하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 제 1 및 제 2 분류 절차들은 시간, 장소, 및 오디오 정보를 참조함으로써 시간-지리적-청각 시나리오를 식별하고, 상기 방법은 상기 식별된 시간-지리적-청각 시나리오에 기초하여 상기 하나 이상의 인식 모듈들을 활성화하는 단계를 포함하는, 방법.
제 1 항에 있어서,
안면 인식 모듈을 활성화하는 단계를 포함하는, 방법.
제 1 항에 있어서,
음성을 포함하는 것으로서 수신된 오디오 정보를 식별하기 위해, 수신된 오디오 정보에 제 1 분류 절차를 적용하는 단계;
상기 오디오 정보를 처리하기 위해 음성 인식 모듈을 활성화하는 단계; 및
상기 음성 인식 모듈로부터의 출력이 상기 오디오 정보가 캡쳐된 위치에 적어도 부분적으로 기초하여 저장되어야 하는 저장 매체를 식별하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 제 1 및 제 2 분류 절차들로부터의 출력들에 기초하여 복수의 상이한 인식 모듈들을 활성화하는 단계를 포함하는, 방법.
제 1 항에 있어서,
활성화하도록 하나 이상의 인식 모듈들을 식별하는 규칙 모듈에 상기 제 1 및 제 2 분류 절차들로부터의 출력들을 적용하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 수신된 제 2 정보는 상기 제 1 분류 절차로부터 출력된 정보를 포함하는, 방법.
제 1 항에 있어서,
상기 수신된 제 2 정보는 소셜 네트워크 정보를 포함하는, 방법.
제 1 항에 있어서,
상기 수신된 제 2 정보는 인근에 있는 한 명 이상의 사람들에 관한 정보를 포함하는, 방법.
2개의 가능한 유형들: 제 1 유형, 및 제 2 유형 중에서 한 유형의 수신된 정보를 식별하기 위해, 상기 수신된 오디오 및/또는 시각 정보에 제 1 분류 절차를 적용하는 단계;
상기 수신된 정보가 상기 제 1 유형으로서 식별되면, 상기 수신된 정보에 복수의 인식 기술들의 제 1 조합을 적용하는 단계; 및
상기 수신된 정보가 상기 제 2 유형으로서 식별되면, 상기 수신된 정보에 복수의 인식 기술들의 제 2 조합을 적용하는 단계를 포함하고,
상기 인식 기술들 중 적어도 하나는 워터마크 - 또는 지문 기반 인식 기술이고, 상기 제 1 및 제 2 조합들은 모두 상이한 것인, 방법.
제 10 항에 있어서,
3개의 가능한 유형들: 제 1 유형, 제 2 유형, 및 제 3 유형 중에서 상기 수신된 정보의 유형을 식별하기 위해 상기 제 1 분류 절차를 적용하는 단계; 및
상기 수신된 정보가 상기 제 3 유형으로서 식별되면, 상기 수신된 정보에 복수의 인식 기술들의 제 3 조합을 적용하는 단계를 포함하고,
상기 제 1, 제 2, 및 제 3 조합들은 모두 상이한 것인, 방법.
이용자의 디바이스에서 수신된 오디오에 적용된 오디오 분류 처리에 기초하여, 음성을 포함하는 것으로서 오디오를 식별하는 단계;
상기 식별하는 단계에 적어도 부분적으로 기초하여, 음성 인식 모듈을 활성화하는 단계;
상기 디바이스 가까이의 또 다른 사람의 존재를 결정하는 단계; 및
상기 결정하는 단계의 결과에 적어도 부분적으로 기초하여 경보 신호를 활성화하는 단계를 포함하는, 방법.
제 12 항에 있어서,
상기 또 다른 사람이 상기 이용자에 익숙하지 않으면, 상기 경보 신호를 활성화하는 단계를 포함하는, 방법.
제 12 항에 있어서,
상기 이용자와 상기 또 다른 사람 사이의 관계에 기초하여 상기 경보 신호의 간섭(intrusiveness)을 제어하는 단계를 포함하는, 방법.
이용자 디바이스 가까이의 사람의 존재를 결정하는 단계; 및
상기 결정하는 단계에 적어도 부분적으로 기초하여, 상기 이용자 디바이스에 의해 캡쳐된 이미저리(imagery)에 안면 인식 절차를 적용하는 단계를 포함하는, 방법.
제 15 항에 있어서,
하나 이상의 전자기 신호들을 참조함으로써 상기 사람의 존재를 결정하는 단계를 포함하는, 방법.
제 15 항에 있어서,
상기 결정하는 단계는 상기 이용자 디바이스 가까이의, 상기 이용자에 공지된 사람의 존재를 결정하는 단계를 포함하는, 방법.
제 16 항에 있어서,
감지된 라디오 신호를 참조함으로써 상기 사람을 식별하려고 시도하는 단계, 및 상기 시도하는 단계의 결과에 적어도 부분적으로 기초하여 상기 안면 인식 절차를 적용하는 단계를 포함하는, 방법.
제 15 항에 있어서,
상기 사람과 상기 이용자 사이의 소셜 네트워크 관계를 결정하는 단계, 및 상기 소셜 네트워크 관계의 결정의 결과에 적어도 부분적으로 기초하여 상기 안면 인식 절차를 적용하는 단계를 포함하는, 방법.
컴퓨터-제어 시스템이 제 1 상태로부터 제 2 상태로 이용자의 콘텍스트에서의 변화를 감지하는 단계로서, 상기 제 2 상태는 상기 제 1 상태보다 큰 오디오 레벨을 포함하는, 상기 감지하는 단계;
상기 감지된 변화에 적어도 부분적으로 기초하여, 오디오 콘텐트 인식 작동에 대한 이용자 관심에 관해 문의하고, 상기 문의에 응답하여, 이용자 입력, 또는 그의 부족에 따라 오디오 콘텐트 인식에 착수하는 단계
상기 이용자 입력, 또는 그의 부족에 관한 정보를 저장하는 단계; 및
시간에 따라, 상기 문의들에 대해 이용자의 응답들로부터 학습하고, 오디오 환경이 상기 제 1 상태로부터 상기 제 2 상태로 변화할 때, - 이용자 관심에 관한 문의 없이 - 콘텐트 인식에 자동적으로 착수하는 단계를 포함하는, 방법.
제 20 항에 있어서,
상기 학습하는 단계는 또한 상기 시스템이 오디오 콘텐트 인식 작동에 대한 이용자 관심에 관해 문의해야 하는, 상기 제 1 상태와 상기 제 2 상태 사이의 오디오 레벨에서의 임계치 변화를 결정하는 단계를 포함하는, 방법.
이미지 데이터를 상기 안면 인식을 위해 제공하는 카메라의 축이 임계치 양보다 많은 양 만큼 수평 방향으로부터 벗어남을 검출하자마자 안면 인식 모듈의 작동을 중단시키는 단계를 포함하는, 방법.
안면 거리를 나타내는 카메라 시스템으로부터의 데이터에 적어도 부분적으로 기초하여, 안면 인식 모듈의 작동을 제어하는 단계를 포함하는, 방법.
이용자-운반 디바이스에서의 마이크로폰의 이용을 통해, 제 1 디바이스에 의해 방출된 서브리미널 신호(subliminal signal)를 감지하는 단계, 및 상기 이용자-운반 디바이스 이외의 디바이스들에 의해 액세스하기 위해 원격 저장 사이트에 상기 감지된 신호에 관한 데이터를 포스팅(posting)하는 단계를 포함하는, 방법.
제 24 항에 있어서,
상기 제 1 디바이스는 또 다른 이용자에 의해 운반된 휴대가능한 디바이스를 포함하는, 방법.
제 24 항에 있어서,
상기 감지된 신호는 상기 제 1 디바이스에 대한 식별 정보 및 콘텍스트 정보를 포함하는 정보를 운반하고, 상기 방법은 상기 이용자-운반 디바이스에 대한 식별 정보 및 콘텍스트 정보를 포함하는 부가적인 정보와 함께 상기 정보를 상기 원격 저장 사이트에 포스팅하는 단계를 포함하는, 방법.
제 1 이용자에 의해 운반된 제 1 디바이스가, 어떤 디바이스가 이미지 또는 오디오 처리 업무에 착수하는데 더 양호하게 적합한지를 결정하기 위해, 제 2 이용자에 의해 운반된 제 2 디바이스와 무선으로 통신하는 단계;
상기 결정된 디바이스를 이용하여 상기 업무에 착수하는 단계; 및
상기 업무의 결과를 다른 디바이스와 공유하는 단계를 포함하는, 방법.
제 27 항에 있어서,
상기 업무는 안면 인식을 포함하는, 방법.
각각의 제 1 및 제 2 이용자들에 의해 운반된, 제 1 및 제 2 디바이스들이 상기 이용자들에 의해 점유된 환경으로부터 각각의 제 1 및 제 2 정보를 감지하는 단계;
상기 디바이스들 각각이 그것이 감지한 정보를 처리하는 단계; 및
상기 디바이스들 각각이 다른 디바이스에 상기 처리하는 단계로부터의 출력 데이터를 이용가능하게 하는 단계를 포함하는, 방법.
제 29 항에 있어서,
상기 제 1 디바이스는 제 2 디바이스에 의해 생성된 출력 데이터를 수신하고, 상기 제 1 디바이스 자신의 처리에 의해 데이터 출력 대신에 상기 제 2 디바이스로부터 수신된 상기 출력 데이터를 이용하는, 방법.
제 29 항에 있어서,
상기 제 1 디바이스가 상기 제 2 정보를 처리할 때, 상기 제 2 디바이스에 의해 이용되지 않은 소셜 네트워크 정보를 이용하여 상기 제 1 정보를 처리하는 단계를 포함하는, 방법.
각각의 제 1 및 제 2 이용자들에 의해 운반된, 제 1 및 제 2 디바이스들이 상기 이용자들에 의해 점유된 환경으로부터 각각의 제 1 및 제 2 정보를 감지하는 단계;
상기 제 1 디바이스가 상기 제 1 정보를 상기 제 2 디바이스에 이용가능하게 하는 단계; 및
상기 제 2 디바이스가 출력 정보를 생성하기 위해, 상기 제 1 디바이스에 이용가능하지 않은 소셜 네트워크 정보와 함께 상기 제 1 정보를 처리하는 단계를 포함하는, 방법.
제 32 항에 있어서,
상기 제 2 디바이스가 상기 출력 정보를 상기 제 1 디바이스에 이용가능하게 하는 단계를 포함하는, 방법.
디바이스 카메라로부터의 이미지 데이터에 기초하여, 이용자의 눈들이 위치되는 축을 감지하는 단계; 및
상기 감지된 축에 적어도 부분적으로 기초하여 상기 디바이스 상의 디스플레이를 제어하는 단계를 포함하는, 방법.
이용자의 디바이스에 의해 캡쳐된 오디오 데이터를 이용하여, 회의로서 사운드 장면을 특성화하는 단계; 및
상기 회의가 발생하고 있는 방이 달력 상에 바쁜 것으로 도시되도록, 상기 회의에 관한 엔트리를 네트워크 스케줄링 달력에 제출하는 단계를 포함하는, 방법.
제 35 항에 있어서,
상기 방이 상기 달력 상에 시간 간격 동안 바쁜 것으로서 도시되도록, 상기 회의에 관한 상기 시간 간격을 상기 달력에 제출하는 단계를 추가로 포함하는, 방법.
제 36 항에 있어서,
이용자의 디바이스에 의해 수집된 정보에 적어도 부분적으로 기초하여, 상기 시간 간격을 추정하는 단계를 포함하는, 방법.