KR101010081B1

KR101010081B1 - 미디어 식별

Info

Publication number: KR101010081B1
Application number: KR1020097000242A
Authority: KR
Inventors: 토비스 로버트 얀 리차우; 마르쿠스 리웰
Original assignee: 소니 에릭슨 모빌 커뮤니케이션즈 에이비
Priority date: 2006-06-09
Filing date: 2006-12-08
Publication date: 2011-01-24
Also published as: US20100284617A1; MX2008015554A; WO2007144705A1; US20070286463A1; US7787697B2; CN101506828A; RU2408067C2; US8165409B2; RU2008152794A; EP2027557A1; JP2009540414A; KR20090023674A

Abstract

본 방법은 디바이스 상에서 미디어를 획득하고, 이미지/비디오 인식 및 오디오 인식을 통하여 미디어에서 물체의 식별을 제공하고, 상기 식별된 미디어 물체를 기반으로 하여 디바이스 상에 식별 정보를 디스플레이한다.

안면 인식, 음성 인식, 미디어 물체, 태그, 템플릿.

Description

미디어 식별{MEDIA IDENTIFICATION}

본원에 기술된 구현예는 일반적으로 디바이스에 관한 것이며, 특히 미디어에 포함된 물체를 식별하는 디바이스에 관한 것이다.

미디어(예를 들어, 비디오, 이미지, 오디오 등)에서 사람을 보거나 들을 때 장애가 있으면 그 사람이 누구인지 또는 그 사람을 기억하는 이유를 결정할 수 없다. 현재, 이동 통신 디바이스의 사용자는 이동 통신 디바이스로 노래를 식별할 수 있다. 예를 들어, Rocket Mobile로부터 입수 가능한 상표 Song IDentity^TM은 사용자가 노래의 몇 초를 저장하는데 이동 통신 디바이스를 사용함으로써 노래를 식별하도록 하고, 노래의 가수, 앨범 및 제목을 상기 디바이스로 제공한다. 불행하게도, 이러한 식별 시스템은 비디오, 이미지 및 (노래 이외의) 오디오에 대해서는 사람을 식별하고 이러한 사람에 대한 정보를 제공하지 못한다.

안면 인식 기술은 지난 몇 년 동안 상당히 개선되어, 건물 및 컴퓨터로의 액세스을 검증하는 효과적인 도구가 되었다. 그러나, 이 안면 인식 기술은 붐비는 경기장 또는 공항에서 미지의 개인을 식별하는데에는 보다 덜 유용하다. 더구나, 현재의 안면 인식 기술은 비디오, 이미지 및 오디오에 포함된 모든 물체를 식별하지 못하고, 이러한 물체에 관한 식별 정보를 제공하지 못한다.

일 양상에 따르면, 방법은 디바이스 상에서 미디어를 획득하는 단계, 이미지/비디오 인식 및 오디오 인식을 통하여 미디어에서 물체의 식별을 제공하는 단계, 및 상기 식별된 미디어 물체를 기반으로 하여 식별 정보를 상기 디바이스 상에 디스플레이하는 단계를 포함할 수 있다.

추가적으로, 상기 방법은 디바이스를 통하여 미디어를 수신하는 단계를 포함할 수 있다.

추가적으로, 상기 방법은 디바이스로 미디어를 캡처하는 단계를 포함할 수 있다.

추가적으로, 오디오 인식은 이미지/비디오 인식이 소정의 정확도 레벨 내에서 미디어 물체를 식별하지 못하는 경우에 수행될 수 있다.

추가적으로, 이미지/비디오 인식은 오디오 인식이 소정의 정확도 레벨 내에서 미디어 물체를 식별하지 못하는 경우에 수행될 수 있다.

추가적으로, 상기 방법은 이미지/비디오 인식을 통하여 물체를 식별하기 위하여 미디어 물체의 안면을 마킹(marking)하는 단계를 포함할 수 있다.

추가적으로, 상기 방법은 미디어 물체를 식별한 이미지/비디오 인식 결과를 디스플레이하는 단계를 포함할 수 있다.

추가적으로, 상기 방법은 사용자 선택 이미지/비디오 인식 결과에 대한 식별 정보를 디스플레이하는 단계를 포함할 수 있다.

추가적으로, 상기 방법은 미디어 물체를 식별한 오디오 인식 결과를 디스플레이하는 단계를 포함할 수 있다.

추가적으로, 상기 방법은 사용자 선택 오디오 인식 결과에 대한 식별 정보를 디스플레이하는 단계를 포함할 수 있다.

추가적으로, 상기 방법은 미디어 물체를 식별한 이미지/비디오 및 오디오 인식 결과를 디스플레이하는 단계를 포함할 수 있다.

추가적으로, 상기 방법은 사용자 선택 이미지/비디오 및 오디오 인식 결과에 대한 식별 정보를 디스플레이하는 단계를 포함할 수 있다.

추가적으로, 미디어는 이미지 파일, 오디오 파일, 비디오 파일, 또는 애니메이션 파일 중 하나를 포함할 수 있다.

추가적으로, 미디어 물체는 사람, 장소 또는 사물 중 하나를 포함할 수 있다.

추가적으로, 식별 정보는 식별된 미디어 물체에 대한 전기 정보(biographical information), 식별된 미디어 물체에 관한 정보로의 링크, 또는 식별된 미디어 물체를 기반으로 한 추천 중 적어도 하나를 포함할 수 있다.

또 다른 양상에 따르면, 디바이스는 디바이스 상에서 미디어를 획득하는 수단, 안면 또는 음성 인식을 통하여 미디어에서 물체의 식별을 제공하는 수단, 식별된 미디어 물체를 기반으로 하여 디바이스 상에 디바이스 식별 정보를 디스플레이하는 수단을 포함할 수 있다.

또 다른 양상에 따르면, 디바이스는 상기 디바이스와 관련된 미디어 정보를 획득하기 위한 미디어 정보 수집기, 및 프로세싱 로직(processing logic)을 포함할 수 있다. 상기 프로세싱 로직은 안면 및 음성 인식을 통하여 미디어에서 물체의 식별을 제공하고, 미디어 물체를 식별한 안면 및 음성 인식 결과를 디스플레이하며, 사용자 선택 안면 및 음성 인식 결과 중 하나에 대한 식별 정보를 디스플레이할 수 있다.

추가적으로, 미디어 정보 수집기는 카메라, 마이크로폰, 미디어 저장 디바이스 또는 통신 디바이스 중 적어도 하나를 포함할 수 있다.

추가적으로, 안면 인식을 통하여 미디어 물체를 식별할 때, 상기 프로세싱 로직은 미디어 물체에서 안면의 위치를 결정하도록 구성될 수 있다.

추가적으로, 안면 인식을 통하여 미디어 물체를 식별할 때, 상기 프로세싱 로직은 사용자 입력을 기반으로 하여 미디어 물체에서 안면의 위치를 결정하도록 구성될 수 있다.

부가적인 양상에 따르면, 디바이스는 명령을 저장하는 메모리, 및 디바이스 상에서 미디어를 획득하고 안면 및 음성 인식을 통하여 미디어에서 물체의 식별을 제공하고, 식별된 미디어 물체를 기반으로 하여 상기 디바이스 상에 식별 정보를 디스플레이하도록 명령을 실행하는 프로세서를 포함할 수 있다.

또 다른 양상에 따르면, 방법은 디바이스 상에서 비디오를 획득하는 단계, 비디오가 디바이스에서 재생되고 있는 동안 안면 인식 또는 음성 인식을 통하여 비디오에서 물체의 식별을 제공하는 단계, 및 식별된 미디어 물체를 기반으로 하여 상기 디바이스 상에 식별 정보를 디스플레이하는 단계를 포함할 수 있다.

더 부가적인 다른 양상에 따르면, 방법은 디바이스 상에서 미디어를 획득하는 단계, 미디어 사물 및 사물의 데이터베이스의 비교를 기반으로 하여 미디어에서 사물의 식별을 제공하는 단계, 및 식별된 미디어 사물을 기반으로 하여 상기 디바이스 상에 식별 정보를 디스플레이하는 단계를 포함할 수 있다.

추가적으로, 사물은 동물, 인쇄 미디어, 식물, 나무, 바위 또는 만화 캐릭터 중 적어도 하나를 포함할 수 있다.

또 다른 양상에 따르면, 방법은 디바이스 상에 미디어를 획득하는 단계, 미디어 장소 및 장소의 데이터베이스의 비교를 기반으로 하여 미디어에서 장소의 식별을 제공하는 단계, 및 식별된 미디어 장소를 기반으로 하여 상기 디바이스 상에 식별 정보를 디스플레이하는 단계를 포함할 수 있다.

추가적으로, 장소는 건물, 랜드마크(landmark), 길 또는 교량 중 적어도 하나를 포함할 수 있다.

추가적으로, 상기 방법은 식별된 미디어 장소의 위치를 기반으로 하여 상기 디바이스 상에 지도를 디스플레이하는 단계를 더 포함하며, 상기 지도는 식별된 미디어 장소의 표시를 포함한다.

부가적인 양상에 따르면, 방법은 디바이스 상에서 미디어를 획득하는 단계, 물체의 음성 인식 및 텍스트 인식(text recognition)을 기반으로 하여 미디어에서 물체의 식별을 제공하는 단계, 및 식별된 미디어 물체를 기반으로 하여 상기 디바이스 상에 식별 정보를 디스플레이하는 단계를 포함할 수 있다.

본 명세서에 통합되고 본 명세서의 일부를 구성하는 첨부 도면은 본 발명의 실시예를 도시하고, 상세한 설명과 함께, 본 발명을 설명한다.

도1은 본 발명의 원리와 부합하는 개념을 도시한 예시도.

도2는 본 발명의 원리와 부합하는 시스템 및 방법이 구현될 수 있는 예시적 디바이스의 도면.

도3은 도2의 예시적 디바이스의 예시적 구성요소의 도면.

도4A 내지 6B는 본 발명의 원리와 부합하는 구현예에 따른 예시적 미디어 식별 방법의 도면.

도7A 내지 8은 본 발명의 원리와 부합하는 구현예에 따른 예시적 프로세스의 흐름도.

본 발명의 다음의 상세한 설명은 첨부된 도면을 참조한다. 여러 도면에서 동일하거나 유사한 요소에는 동일한 참조 번호가 병기되어 있다. 또한, 다음의 상세한 설명은 본 발명을 제한하지 않는다.

본 발명의 원리와 부합하는 구현예는 안면 및/또는 음성 인식 결과를 기반으로 한 미디어 식별 및 안면 및/또는 음성 인식 결과에 관한 식별 정보의 디스플레이에 관한 것일 수 있다. 미디어 식별(예를 들어, 이미지 및/또는 비디오에서 사람(들)을 식별하는 안면 인식 기술, 및/또는 오디오, 예를 들어, 영화로부터의 사운드 바이트(sound byte)에서 사람(들)을 식별하는 음성 인식 기술)을 사용함으로써, 사람(들)이 식별될 수 있고 사람(들)에 관한 정보가 디바이스 상에 디스플레이 될 수 있다. 예를 들어, 디바이스는 (예를 들어, 사진(picture)를 찍음으로써) 저장장치 또는 또 다른 메커니즘으로부터 미디어(예를 들어, 이미지)를 검색할 수 있고, 사용자가 이미지에 나타난 안면을 선택하도록 할 수 있다. 안면 인식은 안면 상에서 실행될 수 있고, 이미지에 나타난 사람(들)을 식별할 수 있다. 디바이스는 안면 인식에 의해 식별된 사람(들)에 관한 식별 정보를 제공할 수 있다.

본원에 사용된 바와 같은 용어인 "미디어"는 임의의 기계-판독 가능하고 기계-저장 가능한 동작 제품, 다큐먼트(document), 전자 미디어, 등을 포함하도록 광범위하게 해석되어야 한다. 미디어는 예를 들어, 다큐먼트에 포함된 정보, 전자 신문, 전자 서적, 전자 잡지, 온라인 백과사전, 전자 미디어(예를 들어, 이미지 파일, 오디오 파일, 비디오 파일, 애니메이션 파일, 웹 캐스트(web cast), 팟캐스트(podcast), 등), 등을 포함할 수 있다.

본원에 사용된 바와 같은 용어인 "다큐먼트"는 임의의 기계-판독 가능하고 기계-저장 가능한 동작 제품을 포함하도록 광범위하게 해석될 수 있다. 문서는 예를 들어, 이메일, 웹사이트, 파일, 파일의 결합, 다른 파일로 임베딩(embedding)되는 링크를 갖는 하나 이상의 파일, 뉴스 그룹 포스팅(news group posting), 상술된 것 중 어느 하나를 포함할 수 있다. 인터넷의 상황에서, 공통 다큐먼트는 웹 페이지이다. 다큐먼트는 종종 텍스철 정보(textual information)를 포함하며, (메타 정보, 이미지, 하이퍼링크, 등과 같은) 임베딩된 정보 및/또는 (자바스크립트, 등과 같은) 임베딩된 명령을 포함할 수 있다.

본원에 사용된 바와 같은 용어인 "식별 정보"는 미디어에서 식별되는 임의의 물체에 속한다고 간주되는 임의의 정보를 포함하도록 광범위하게 해석될 수 있다. 예를 들어, 물체는 사람(예를 들어, 유명인, 음악가, 가수, 영화배우, 운동선수, 친구, 및/또는 미디어로부터 식별될 수 있는 임의의 사람), 장소(예를 들어, 건물, 랜드마크, 길, 교량, 및/또는 미디어로부터 식별될 수 있는 임의의 장소), 및/또는 사물(예를 들어, 동물, 인쇄 미디어(예를 들어, 책, 잡지 등), 만화 캐릭터, 영화 캐릭터(예를 들어, 킹콩), 식물, 나무 및/또는 미디어로부터 식별될 수 있는 임의의 "사물")을 포함할 수 있다.

본원에 사용된 바와 같은 용어인 "링크"는 컨텐츠로/컨텐츠로부터 다른 컨텐츠 또는 동일 컨텐츠의 다른 부분으로부터/다른 컨텐츠 또는 동일 컨텐츠의 다른 부분으로의 임의의 레퍼런스(reference)를 포함하도록 광범위하게 해석될 수 있다.

본원에 사용된 바와 같은 용어인 "디바이스"는 무선 전화; 셀룰러 무선 전화와 데이터 프로세싱, 팩시밀리 및 데이터 통신 능력을 결합할 수 있는 개인용 통신 시스템(PCS) 단말기; 무선 전화, 페이저(pager), 인터넷/인트라넷 액세스, 웹 브라우저, 오거나이저(orgnizer), 달력, 카메라(예를 들어, 비디오 및/또는 정지 이미지 카메라), 사운드 레코더(예를 들어, 마이크로폰), 도플러 수신기(Doppler receiver), 및/또는 전세계 측위 시스템(GPS) 수신기를 포함할 수 있는 개인용 디지털 보조디바이스(PDA); 랩톱; GPS 디바이스; 카메라(예를 들어, 비디오 및/또는 정지 이미지 카메라); 사운드 레코더(예를 들어, 마이크로폰); 및 개인용 컴퓨터, 가정용 엔터테인먼트 시스템 및 텔레비전과 같은 미디어를 디스플레이할 수 있는 임의의 다른 계산 또는 통신 디바이스, 등을 포함하도록 광범위하게 해석될 수 있 다.

도1은 본 발명의 원리와 부합하는 개념을 도시한 예시도이다. 도1에 도시된 바와 같이, 디바이스의 디스플레이(100)는 사용자에 의해 선택된 이미지 또는 비디오(이미지/비디오)(110)를 포함할 수 있다. 예를 들어, 일 구현예에서, 이미지/비디오(110)는 디스플레이(100) 상에 현재 디스플레이되고 있는 영화 또는 뮤직 비디오일 수 있다. 디스플레이(100)는 선택시에 사용자가 이미지/비디오(110)의 안면의 일부를 (예를 들어, 커서(130)로) 마킹할 수 있도록 할 수 있는 마크 페이스 아이템(mark face item)(120)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 안면이 커서(130)로 마킹되면, 사용자는 디스플레이(100) 상에 제공된 안면 인식 아이템(140)(예를 들어, 아이콘, 링크, 버튼, 및/또는 다른 유사한 선택 메커니즘)을 선택하고, 이하에 더 상세히 설명되는 바와 같이, 이미지/비디오(100)의 안면 인식을 수행할 수 있다. 도1에 도시된 바와 같이, 디스플레이(100)는 사용자가 오디오 파일을 청취하고 있을 때 디스플레이될 수 있는 오디오 파일 아이템(150)(예를 들어, 아이콘, 링크, 버튼, 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 예를 들어, 일 구현예에서, 사용자는 디바이스 상에서 음악(예를 들어, 디지털 음악, MP3, MP4, 등)을 청취할 수 있다. 사용자는 디스플레이(100) 상에 제공되는 음성 인식 아이템(160)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 선택하고, 이하에 더 상세히 설명되는 바와 같이, 오디오 파일의 음성 인식을 수행할 수 있다. 또 다른 구현예에서, 사용자는 음성 인식 아이템(160)을 선택하고, 디스플레이(100) 상에 현재 디스플레이되 고 있는 영화(예를 들어, 비디오(110))에서 음성의 음성 인식을 수행할 수 있다. 또 다른 구현예에서, 사용자는 디스플레이(100) 상에 현재 제공되는 미디어(예를 들어, 비디오(110))에 대해 안면 및 음성 인식 모두를 수행할 수 있다.

예시적 디바이스 아키텍처

도2는 본 발명의 원리와 부합하는 구현예에 따른 예시적 디바이스(200)의 도면이다. 도2에 도시된 바와 같이, 디바이스(200)는 하우징(210), 스피커(220), 디스플레이(230), 제어 버튼(240), 키패드(250), 마이크로폰(260) 및 카메라(270)를 포함할 수 있다. 하우징(210)은 외부 요소로부터 디바이스(200)의 구성요소를 보호할 수 있다. 스피커(220)는 디바이스(200)의 사용자에게 가청 정보를 제공할 수 있다. 디스플레이(230)는 사용자에게 가시 정보를 제공할 수 있다. 예를 들어, 디스플레이(230)는 입중계 또는 출중계 호출, 미디어, 게임, 폰북, 현재 시간, 등에 관한 정보를 제공할 수 있다. 본 발명의 원리와 부합하는 구현예에서, 디스플레이(230)는 (예를 들어, 안면 또는 음성 인식을 통해) 식별될 수 있는 미디어 형태의 정보를 사용자에게 제공할 수 있다. 제어 버튼(240)은 사용자가 디바이스(200)와 상호작용하도록 하여 디바이스(200)가 하나 이상의 동작을 수행하도록 할 수 있다. 키패드(250)는 표준 전화 키패드를 포함할 수 있다. 마이크로폰(260)은 사용자로부터 가청 정보를 수신할 수 있다. 카메라(270)는 사용자가 비디오 및/또는 이미지(예를 들어, 사진)을 캡처하고 저장할 수 있도록 할 수 있다.

도3은 디바이스(200)의 예시적 구성요소의 도면이다. 도3에 도시된 바와 같이, 디바이스(200)는 프로세싱 로직(310), 저장장치(320), 사용자 인터페이 스(330), 통신 인터페이스(340), 안테나 어셈블리(350) 및 미디어 정보 수집기(360)를 포함할 수 있다. 프로세싱 로직(310)은 프로세서, 마이크로프로세서, 주문형 반도체(ASIC), 필드 프로그래머블 게이트 어레이(field programmable gate array: FPGA), 등을 포함할 수 있다. 프로세싱 로직(310)은 디바이스(200) 및 이이 구성요소의 동작을 제어하기 위해 데이터 구조 또는 소프트웨어 프로그램을 포함할 수 있다. 저장장치(320)는 프로세싱 로직(310)에 의해 사용될 수 있는 데이터 및 명령을 저장하기 위해 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM) 및/또는 또 다른 유형의 메모리를 포함할 수 있다.

사용자 인터페이스(330)는 정보를 디바이스(200)로 입력하고/하거나 정보를 디바이스(200)로부터 출력하는 메커니즘을 포함할 수 있다. 입력 및 출력 메커니즘의 예는 전기 신호를 수신하여 오디오 신호를 출력하는 스피커(예를 들어, 스피커(220)), 이미지 및/또는 비디오 신호를 수신하여 전기 신호를 출력하는 카메라(예를 들어, 카메라(270)), 오디오 신호를 수신하여 전기 신호를 출력하는 마이크로폰(예를 들어, 마이크로폰(260)), 데이터 및 제어 명령이 디바이스(200) 내로 입력되도록 하는 버튼(예를 들어 조이스틱, 제어 버튼(240) 및/또는 키패드의 키(250)), 시각 정보(예를 들어, 카메라(270)으로부터의 정보)를 출력하는 디스플레이(예를 들어, 디스플레이(230)) 및/또는 디바이스(200)가 진동하도록 하는 진동기를 포함할 수 있다.

통신 인터페이스(340)는 예를 들어, 프로세싱 로직(310)으로부터의 기저대역 신호를 무선 주파수(RF) 신호로 변환할 수 있는 송신기 및/또는 RF 신호를 기저대 역 신호로 변환할 수 있는 수신기를 포함할 수 있다. 대안적으로, 통신 인터페이스(340)는 송신기 및 수신기 모두의 기능을 수행하는 송수신기를 포함할 수 있다. 통신 인터페이스(340)는 RF 신호의 송신 및 수신을 위하여 안테나 어셈블리(350)에 접속될 수 있다. 안테나 어셈블리(350)는 무선으로 RF 신호를 송신 및 수신하는 하나 이상의 안테나를 포함할 수 있다. 안테나 어셈블리(350)는 통신 인터페이스(340)로부터 RF 신호를 수신하여 이를 무선으로 송신하며, 무선으로 RF 신호를 수신하여 이를 통신 인터페이스(340)로 제공할 수 있다. 일 구현예에서, 예를 들어, 통신 인터페이스(340)는 네트워크(예를 들어, 근거리 네트워크(LAN), 광역 네트워크(WAN), 일반 전화 교환 네트워크(PSTN)와 같은 전화 네트워크, 인트라넷, 인터넷 또는 네트워크의 결합)와 통신할 수 있다.

미디어 정보 수집기(360)는 디바이스(200)로부터 미디어 정보를 획득할 수 있다. 일 구현예에서, 미디어 정보는 디바이스(200) 상에 저장되거나 (예를 들어 통신 인터페이스(340)에 의해) 디바이스(200)에 의해 수신된 미디어에 대응할 수 있다. 이 경우에, 미디어 정보 수집기(360)는 미디어 저장 디바이스(예를 들어, 저장장치(320)), 또는 다른 소스(예를 들어, 외부 미디어 저장 디바이스와의 유선 또는 무선 통신)로부터 미디어를 수신할 수 있는 통신 디바이스(예를 들어, 통신 인터페이스(340))를 포함할 수 있다. 다른 구현예에서, 미디어 정보는 디바이스(200)에 의해 캡처되거나 검색되는 미디어에 대응할 수 있다. 이 경우에, 미디어 정보 수집기(360)는 오디오 정보를 기록할 수 있는 마이크로폰(예를 들어 마이크로폰(260)), 또는 이미지 및/또는 비디오를 기록할 수 있는 카메라(예를 들어, 카메 라(270))를 포함할 수 있다. 캡처된 미디어는 미디어 저장 디바이스(예를 들어, 저장장치(320))에 저장되거나 저장되지 않을 수 있다.

이하에 세하게 설명되는 바와 같이, 본 발명의 원리와 부합하는 디바이스(200)는 미디어 정보를 기반으로 하여 미디어 식별에 관한 특정 동작(예를 들어, 안면 및/또는 음성 인식)을 수행할 수 있다. 디바이스(200)는 프로세싱 로직(320)이 저장장치(320)와 같은 컴퓨터 판독 가능한 매체에 포함되는 애플리케이션의 소프트웨어 명령을 실행하는 것에 응답하여 이러한 동작을 수행할 수 있다. 컴퓨터-판독 가능한 매체는 물리적 또는 논리적 메모리 디바이스 및/또는 반송파로서 규정될 수 있다.

소프트웨어 명령은 통신 인터페이스(340)를 통하여 또 다른 컴퓨터-판독 가능한 매체 또는 또 다른 디바이스로부터 저장장치(320) 내로 판독될 수 있다. 저장장치(320)에 포함된 소프트웨어 명령은 프로세싱 로직(310)이 후술되는 프로세스를 수행하도록 할 수 있다. 대안적으로, 하드와이어드 회로(hardwired circuitry)가 본 발명의 원리와 부합하는 프로세스를 구현하기 위하여 소프트웨어 명령 대신, 또는 상기 소프트웨어 명령과 함께 사용될 수 있다. 그러므로, 본 발명의 원리와 부합하는 구현예는 하드웨어 회로 및 소프트웨어의 임의의 특정 결합으로 제한되지 않는다.

예시적인 미디어 식별 방법

도4A 내지 6B는 본 발명의 원리와 부합하는 구현예에 따른 예시적인 미디어 식별 방법의 도면이다. 도4A 내지 6B의 방법은 디바이스(200)(예를 들어, 디바이 스(200)의 디스플레이(230)) 상에서 전달될 수 있다.

이미지 및/또는 비디오의 안면 인식

도4A에 도시된 바와 같이, 디바이스의 디스플레이(400)(예를 들어, 디바이스(200)의 디스플레이(230))는 이미지/비디오(110)를 디스플레이할 수 있다. 디스플레이(400)는 선택시에 사용자가 이미지/비디오(110)의 안면의 일부를 (예를 들어, 일 구현예에서, 커서(130)로) 마킹할 수 있도록 할 수 있는 마크 페이스 아이템(120)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 안면이 커서(130)로 마킹되면, 사용자는 디스플레이(400) 상에 제공된 안면 인식 아이템(140)(예를 들어, 아이콘, 링크, 버튼 및/또는 유사한 선택 메커니즘)을 선택하여 이미지/비디오(110)의 안면 인식을 수행할 수 있다. 일 구현예에서, 안면 인식은 (예를 들어, 프로세싱 로직(310) 및 디바이스(200)의 저장장치(320)를 통하여) 디바이스에 제공되는 안면 인식 소프트웨어로 이미지/비디오(110)에 대해 수행될 수 있다. 또 다른 구현예에서, 안면 인식은 (예를 들어, 통신 인터페이스(340)를 통하여) 디바이스(200)와 통신하는 디바이스 상에 제공되는 안면 인식 소프트웨어로 이미지/비디오(110)에 대해 수행될 수 있다.

안면 인식 소프트웨어는 이용 가능한 임의의 종래의 안면 인식 소프트웨어를 포함할 수 있다. 예를 들어, 안면 인식 소프트웨어는 검증 및 식별에 사용되는 안면 인식 기술을 포함할 수 있다. 전형적인 검증 태스크(verification task)는 시설로의 입장 또는 데이터로의 액세스를 허용하기 전에 사람이 자신이 자질을 가진 누구이다라고 결정할 수 있다. 이와 같은 경우에, 안면 인식 소프트웨어는 현재 이미 지를 데이터베이스 내의 이미지와 비교할 수 있다. 이와 같은 안면 이미지가 제어된 상황 하에서 캡처되어(예를 들어, 유명인에 대한 사진 촬영), 더 어려운 상황 하에서 촬영된 사진보다 더 높은 품질의 이미지를 발생시킬 수 있기 때문에, 이 방법에 의하여 정합율(match rate)이 양호할 수 있다.

전형적인 식별 태스크는 디지털 카메라 또는 비디오 카메라와 같은 소스로부터의 미지의 개인을 데이터베이스 내의 이미지와 정합시키도록 시도할 수 있다. 이 용도를 위해 획득된 이미지가 일반적으로 제어된 조건 하에서 대상의 협동으로 생성될 수 없기 때문에(예를 들어, 공공 장소에서의 유명인의 사진을 찍는 것), 식별 정합이 더 어려울 수 있다.

현재의 안면 인식 소프트웨어는 4가지 기본 방법; 외관-기반, 규칙-기반, 특징(feature)-기반 및/또는 텍스처-기반 중 하나 이상을 사용할 수 있다. 외관-기반 방법은 이미지로부터 안면 특징을 추출하도록 시도하기보다는 오히려 2개 이상의 이미지의 유사성을 측정할 수 있다. 규칙-기반 방법은 이미지 사이의 관련성을 측정하기 위하여 안면 구성요소(예를 들어 눈, 코 및 입)를 분석할 수 있다. 특징-기반 방법은 안면 특징의 특성(예를 들어, 에지 퀄리티(edge quality), 형상 및 피부색)을 분석할 수 있다. 텍스처-기반 방법은 안면의 상이한 텍스처 패턴을 검사할 수 있다. 이러한 방법 각각에 대해, 안면 인식 소프트웨어는 데이터를 규정 및 저장하는 알고리즘을 사용하여 템플릿(template)을 생성할 수 있다. 이미지가 검증 및 식별을 위해 캡처될 수 있을 때, 안면 인식 소프트웨어는 데이터를 프로세싱하고 이를 템플릿 정보와 비교할 수 있다.

본 발명의 원리와 부합하는 하나의 예시적 구현예에서, Cognitec Systems, Neven Vision, Identix 및 Acsys Biometrics' FRS Discovery로부터 입수 가능한 소프트웨어와 유사하고/하거나 상기 소프트웨어로부터의 안면 인식 소프트웨어가 안면 인식을 수행하는데 사용할 수 있다.

도4A에 또한 도시된 바와 같이, 이미지/비디오(110)의 안면 인식의 결과(410)가 디스플레이(400) 상에 제공될 수 있다. 결과(410)는 이미지/비디오(110)에 나타난 안면과 정합하는 사람(들)의 리스트를 포함할 수 있다. 예를 들어, 일 구현예에서, 결과(410)는 "유명인 번호 1"(420) 및 사람(420)의 정합 근사도의 표시(예를 들어, 사람(420)이 이미지/비디오(110)와 정합할 98% 가능성)를 포함할 수 있다. 결과(410)는 또한 이미지/비디오(110)를 사람(420)의 공지된 이미지와 비교하기 위해 (이미지/비디오(110)와 동일하거나 동일하지 않을 수 있는) 이미지(430)를 포함할 수 있다. 결과(410)는 다양한 방식으로 배열될 수 있다. 예를 들어, 일 구현예에서, 도4A에 도시된 바와 같이, 결과(410)는 가장 근접한 정합으로부터 소정의 퍼센티지(예를 들어, 50%) 내에서 정합하는 사람까지 내림 차순으로 정합하는 사람의 리스트를 제공할 수 있다. 사용자는 선택된 사람에 관한 식별 정보를 디스플레이하기 위해 결과(410)로부터 사람을 선택할 수 있다. 예를 들어, 일 구현예에서, 각각의 사람(예를 들어, 사람(420)) 및/또는 각각의 이미지(430)는 사람에 관한 식별 정보로의 링크를 제공할 수 있다.

사용자가 결과로부터 사람을 선택(예를 들어, 사람(420)을 선택)하는 경우, 디스플레이(400)는 도4B에 도시된 예시적 식별 정보를 제공할 수 있다. 광범위한 식별 정보가 제공될 수 있다. 예를 들어, 사람이 영화배우인 경우, 디스플레이(400)는 메뉴부(440) 및 식별 정보부(450)를 제공할 수 있다. 메뉴부(440)는 예를 들어, 식별 정보부(450)의 부분으로의 선택 가능한 링크(예를 들어, "전기(biography)", "영화 경력", "TV 경력" "웹사이트" 및/또는 "리마인더(reminder)")를 포함할 수 있다. 도4B에 도시된 예시 구현예에서, 식별 정보부(450)는 (예를 들어, 제목 "전기" 하의) 그 사람에 관한 전기 정보, (예를 들어, 제목 "영화 경력" 하의) 그 사람에 관한 영화 경력 정보, (예를 들어, 제목 "텔레비전 경력" 하의) 그 사람에 관한 텔레비전 경력 정보, (예를 들어, 제목 "웹 사이트" 하의) 그 사람에 관한 웹 사이트 정보 및/또는 (예를 들어, 제목 "리마인더" 하의) 리마인더 정보를 포함할 수 있다. 리마인더 정보는 사용자에 의한 선택시에, 사람이 오늘밤에 텔레비전 상에 출연할 수 있다는 리마인더를 설정할 수 있는 리마인더 아이템(reminder item)(460)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다.

도4A가 한 사람의 안면을 마킹하는 것을 도시할지라도, 본 발명의 원리와 부합하는 일 구현예에서는, 다수의 사람, 장소 및 사물이 유사한 방식으로 식별을 위해 마킹될 수 있다. 따라서 식별 정보는 마킹된 사람, 장소 또는 사물 각각에 대해 디스플레이될 수 있다. 더구나, 사용자는 이미지 또는 비디오의 안면을 마킹할 필요가 없고, 오히려, 일 구현예에서, 안면 인식 아이템(140)의 선택시에, 이미지 또는 비디오의 안면이 (예를 들어 안면 인식 소프트웨어에 의해) 이미지 또는 비디오에 자동적으로 위치될 수 있다.

도4B가 예시적 식별 정보를 도시할지라도, 식별되는 미디어에 따라 더 많거나 더 적은 식별 정보가 제공될 수 있다. 예를 들어, 식별되는 사람이 음악가인 경우, 식별 정보는 앨범 정보, 뮤직 비디오 정보, 음악 다운로드 정보, 추천(예를 들어, 음악가로부터 입수 가능한 다른 노래, 비디오 등) 등을 포함할 수 있다. 더구나, 도4B가 메뉴부(440)를 도시할지라도, 디스플레이(400)는 이와 같은 메뉴부를 포함하는 것이 아니라, 식별 정보(예를 들어, 식별 정보부(450))를 제공할 수 있다.

오디오의 음성 인식

도5A에 도시된 바와 같이, 디바이스의 디스플레이(500)(예를 들어, 디바이스(200)의 디스플레이(230))는 오디오 파일 아이템(150)(예를 들어, 아이콘, 링크, 버튼, 및/또는 다른 유사한 선택 메커니즘)을 디스플레이할 수 있고/있거나, 디바이스(예를 들어, 디바이스(200))는 오디오 파일 아이템(150)과 관련된 오디오 파일을 재생할 수 있다. 사용자는 디스플레이(500) 상에 제공된 음성 인식 아이템(160)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 선택하여, 오디오 파일의 음성 인식을 수행할 수 있다. 일 구현예에서, 음성 인식은 (예를 들어, 프로세싱 로직(310) 및 디바이스(200)의 저장장치(320)를 통하여) 디바이스 내에 제공된 음성 인식 소프트웨어로 오디오 파일에 대해 수행될 수 있다. 또 다른 구현예에서, 음성 인식은 (예를 들어, 통신 인터페이스(340)를 통하여) 디바이스(200)와 통신하는 디바이스 상에 제공된 음성 인식 소프트웨어로 오디오 파일에 대해 수행될 수 있다.

음성 인식 소프트웨어는 이용 가능한 임의의 종래의 음성 인식 소프트웨어를 포함할 수 있다. 예를 들어, 음성 인식 소프트웨어는 사람의 음성으로부터 사람을 인식할 수 있는 임의의 소프트웨어를 포함할 수 있다. 음성 인식 소프트웨어는 스피치(speech)로부터 특징을 추출하고, 이를 모델링하고, 이를 사람의 음성으로부터 사람을 인식하는데 사용할 수 있다. 음성 인식 소프트웨어는 개인 사이에서 상이하다는 것을 발견하였던 스피치의 음향 특징을 사용할 수 있다. 이러한 음향 패턴은 어내터미(anotomy)(예를 들어, 목 및 입의 크기 및 형상) 및 학습된 행동 패턴(예를 들어, 음성 피치(voice pitch) 및 발언하는 스타일) 둘 모두를 반영할 수 있다. 학습된 패턴의 음성 템플릿(예를 들어, "보이스프린트(voiceprints)") 내로의 통합은 음성 인식에 "행동 바이오매트릭(behavioral biometric)"으로서의 분류를 가져온다. 음성 인식 소프트웨어는 3개의 스타일의 발언된 입력: 텍스트-의존, 텍스트-프롬프티드(text-prompted) 및 텍스트-독립을 사용할 수 있다. 텍스트-의존 입력은 패턴 인식 기술을 사용하여 발언된 워드(spoken word)를 유효 코드 워드(valid code word)의 데이터베이스와 정합시키는 것을 포함할 수 있다. 텍스트-프롬프티드 입력은 시스템이 사용될 때마다 새 로운 키 문장으로 사용자를 프롬프트하고, 시스템이 프롬프트된 문장을 반복하는 사람이 등록된 화자였다고 결정할 때에만 입력 발화(input utterance)를 수용하는 것을 포함할 수 있다. 텍스트-독립 입력은 음성을 사전프로세싱하고, 특징을 추출하고, 패턴 인식 및 화자 식별을 사용하여 특정 음성의 특징을 데이터베이스에 저장된 템플릿의 특징과 정합시키는 것을 포함할 수 있다. 숨겨진 Markov 모델, 패턴 정합 알고리즘, 신경 네트워크, 매트릭스 표현 및 /또는 판정 트리(decision tree)를 포함한 다양한 기술이 보이스프린트를 프로세싱하고 저장하는데 사용될 수 있다.

본 발명의 원리와 부합하는 일 예시 구현예에서, Gold Systems, PIKA Technologies Inc., RightNow Technologies, SearchCRM 및/또는 SpeechPhone LLC로부터 입수 가능한 소프트에어와 유사하고/하거나 상기 소프트웨어로부터의 음성 인식 소프트웨어가 음성 인식을 수행하는데 사용될 수 있다.

도5A가 오디오 파일 상에서 수행되는 음성 인식을 도시할지라도, 본 발명의 원리와 부합하는 일 구현예에서, 음성 인식은 디바이스(예를 들어, 디바이스(200))에 의해 디스플레이되는 비디오에 의해 생성되고 있는 오디오에 대해 수행될 수 있다. 예를 들어, 사용자가 디바이스(200) 상에서 영화를 시청하고 있는 경우, 사용자는 음성 인식 아이템(160)을 선택하여 영화에서의 음성에 대한 음성 인식을 수행할 수 있다.

도5A에 또한 도시된 바와 같이, 음성 인식의 결과(510)가 디스플레이(500) 상에 제공될 수 있다. 결과(510)는 오디오 파일(또는 비디오에서의 오디오)의 음성 과 정합하는 사람의 리스트를 포함할 수 있다. 예를 들어, 일 구현예에서, 결과(510)는 "유명인 번호 1(520)" 및 사람(520)의 음성의 정합 근사도의 표시(예를 들어, 사람(520)의 음성이 오디오 파일 또는 비디오에서의 오디오와 정합하는 98% 확실성)를 포함할 수 있다. 결과(510)는 또는 음성이 오디오 파일(또는 비디오에서의 오디오)에 정합될 수 있는 사람(520)의 이미지(530)를 포함할 수 있다. 결과(510)는 다양한 방식으로 배열될 수 있다. 예를 들어, 도5A에 도시된 바와 같이, 결과(510)는 가장 근접한 정합으로부터 소정의 퍼센티지(예를 들어 50%) 내의 정합하는 사람까지 내림 차순으로 정합하는 사람의 리스트를 제공할 수 있다. 사용자는 선택된 사람에 관한 식별 정보를 디스플레이하기 위해서 결과(510)로부터 사람을 선택할 수 있다. 예를 들어, 일 구현예에서, 각각의 사람(예를 들어, 사람(520)) 및/또는 각각의 이미지(530)는 사람에 관한 식별 정보로의 링크를 제공할 수 있다.

오디오 파일(또는 비디오에서의 오디오)은 다양한 방식으로 사람과 정합될 수 있다. 예를 들어, 일 구현예에서, 음성 인식 소프트웨어는 오디오 파일에서의 스피치로부터 특징을 추출하고, 이를 모델링하고, 이를 사람의 음성으로부터 사람(들)을 인식하는데 사용할 수 있다. 또 다른 구현예에서, 음성 인식 소프트웨어는 오디오 파일(또는 오디오 파일에 의해 재생된 음악)에서 발언된 워드를 비교하고, 발언된 워드를 이와 같은 워드(예를 들어, 영화에서의 유명한 대사, 음악 파일, 등)을 포함하는 데이터베이스와 비교할 수 있다. 또 다른 구현예에서, 음성 인식 소프트웨어는 오디오 파일을 사람과 정합시키기 위하여 상술된 기술을 결합을 사용할 수 있다.

사용자가 결과로부터 사람을 선택(예를 들어, 사람(520)을 선택)하는 경우, 디스플레이(500)에는 도5B에 도시된 예시적 식별 정보가 제공될 수 있다. 광범위한 식별 정보가 제공될 수 있다. 예를 들어, 사람이 영화배우인 경우, 디스플레이(540)는 메뉴부(540) 및 식별 정보부(550)를 제공할 수 있다. 메뉴부(540)는 예를 들어, 식별 정보부(550)의 부분으로의 선택 가능한 링크(예를 들어 "영화 대사", "전기", "영화 경력", "TV 경력", "웹 사이트" 및/또는 "리마인더")를 포함할 수 있다. 도5B에 도시된 예시적 구현예에서, 식별 정보부(550)는 (예를 들어, 제목 "영화 대사" 하의) 영화 대사 정보(560), (예를 들어, 제목 "전기" 하의) 대사를 발언하는 사람에 관한 전기 정보, (예를 들어, 제목 "영화 경력" 하의) 그 사람에 관한 영화 경력 정보, (예를 들어, 제목 "텔레비전 경력" 하의) 그 사람에 관한 텔레비전 경력 정보, (예를 들어, 제목 "웹사이트" 하의) 그 사람에 관한 웹사이트 정보 및/또는 (예를 들어, 제목 "리마인더" 하의) 리마인더 정보를 포함할 수 있다. 영화 대사 정보(560)는 예를 들어, 음성 인식 소프트웨어에 의해 인식된 영화로부터의 대사 및 영화 제목을 제공할 수 있다. 리마인더 정보는 사용자에 의한 선택시에, 사람이 오늘밤에 텔레비전 상에 출연할 수 있다는 리마인더를 설정할 수 있는 리마인더 아이템(570)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 도5B가 메뉴부(540)를 도시할지라도, 디스플레이(500)는 이와 같은 메뉴부를 포함하는 것이 아니라, 식별 정보(예를 들어, 식별 정보부(550))를 제공할 수 있다.

도5B는 예시적 식별 정보를 도시할지라도, 식별되는 미디어에 따라 더 많거나 더 적은 식별 정보가 제공될 수 있다. 예를 들어, 사람(예를 들어, 사람(520))이 음악가인 경우, 일 구현예에서, 도5C에 도시된 바와 같이, 식별 정보는 음악가와 관련된 정보를 포함할 수 있다. 도5C에 도시된 바와 같이, 디스플레이(500)는 메뉴부(580) 및 식별 정보부(590)를 제공할 수 있다. 메뉴부(580)는 예를 들어, 식별 정보부(590)의 부분으로의 선택 가능한 링크(예를 들어, "노래 이름", "전기", "앨범", "비디오", "다운로드", 및/또는 "리마인더")를 포함할 수 있다. 도5C에 도 시된 예시적 구현예에서, 식별 정보부(590)는 (예를 들어, 제목 "노래 이름" 하의) 노래 이름 정보, (예를 들어, 제목 "전기" 하의) 음악가에 관한 전기 정보, (예를 들어, 제목 "앨범" 하의) 음악가에 관한 앨범 정보, (예를 들어, 제목 "비디오" 하의) 음악가에 관한 비디오 정보, (예를 들어, 제목 "다운로드" 하의) 음악가에 이용 가능한 다운로드 가능 정보 및/또는 (예를 들어, 제목 "리마인더" 하의) 리마인더 정보를 포함할 수 있다. 리마인더 정보는 사용자에 의해 선택시에, 음악가가 오늘밤에 텔레비전 상에 출연할 수 있다는 리마인더를 설정할 수 있는 리마인더 아이템(570)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 도5C가 메뉴부(580)를 도시할지라도, 디스플레이(500)는 이와 같은 메뉴부를 포함하는 것이 아니라, 식별 정보(예를 들어, 식별 정보부(590))를 제공할 수 있다.

디바이스에 의해 캡처된 이미지/비디오/오디오의 안면 및/또는 음성 인식

일 구현예에서, 도4A 내지 도5C에 도시된 바와 같이, 디바이스(예를 들어, 디바이스(200))는 디바이스(200) 상에 저장되고, 디바이스(200)에 의해 액세스 가능한 또 다른 디바이스에 저장되고/저장되거나 디바이스(200)로 다운로드되었던 미디어를 디스플레이 및/또는 재생할 수 있다. 예를 들어, 일 구현예에서, 디바이스(200)는 저장장치(320)에 미디어를 저장하고, 이후에 미디어를 재생할 수 있다. 또 다른 구현예에서, 디바이스(200)는 또 다른 디바이스에 접속될 수 있고(예를 들어, 컴퓨터는 DVD 플레이어에 접속될 수 있다), 다른 디바이스에 저장된 미디어를 재생할 수 있다. 또 다른 구현예에서, 디바이스(200)는 (예를 들어, 인터넷으로부 터) 미디어를 다운로드하고, 상기 미디어를 디바이스(200) 상에서 재생할 수 있다. 다운로드된 미디어는 디바이스(200)의 저장장치(320)에 저장되거나 저장되지 않을 수 있다.

또 다른 구현예에서, 도6A 및 6B에 도시된 바와 같이, 디바이스(예를 들어 디바이스(200))는 미디어를 캡처하고, 미디어에 관한 정합 식별 정보를 디스플레이하기 위하여 미디어에 대해 안면 및/또는 음성 인식을 수행할 수 있다. 예를 들어, 도6A에 도시된 바와 같이, 디바이스의 디스플레이(230)(예를 들어, 디바이스(200)의 디스플레이(230))는 사진을 찍고/찍거나 비디오를 기록하기 위한 메커니즘(예를 들어 카메라(270))을 제공할 수 있다. 디스플레이(600)는 선택시에 사용자가 디바이스(200)로(예를 들어, 디바이스(200)의 카메라(270)를 통해서) 이미지(610)(예를 들어, 사진)를 캡처할 수 있도록 할 수 있는 카메라 아이템(620)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 디스플레이(600)는 선택시에 사용자가 디바이스(200)로(예를 들어, 디바이스(200)의 카메라(270)를 통해서) 비디오(예를 들어, 영화)를 캡처할 수 있도록 할 수 있는 비디오 아이템(630)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 디스플레이(600)는 사용자가 디바이스(200)에 의해 캡처되는 이미지 및/또는 비디오를 확대하도록 할 수 있는 선택적 메커니즘(640)을 또한 포함할 수 있다.

도6A에 또한 도시된 바와 같이, 디스플레이(600)는 선택시에, 사용자가 이미지(610)의 안면의 일부를 (예를 들어, 일 구현예에서, 커서(130)로) 마킹할 수 있 도록 할 수 있는 마크 페이스 아이템(120)(예를 들어, 아이콘, 링크, 버튼, 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 안면이 커서(130)로 마킹되는 경우, 사용자는 도4A 및 도4B와 관련하여 상술된 바와 같이, 디스플레이(600) 상에 제공된 안면 인식 아이템(140)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 선택하여 이미지(610)의 안면 인식을 수행할 수 있다.

도6B에 도시된 바와 같이, 사용자는 비디오 아이템(630)을 선택하고, 디바이스로(예를 들어, 디바이스(200)의 카메라(270)를 통해서) 비디오(650)를 캡처할 수 있다. 사용자는 디바이스(200)의 입력 메커니즘(예를 들어, 제어 버튼(240) 및/또는 키패드의 키(250))의 선택 시에 (예를 들어, 일시정지 텍스트(660)로 나타낸 바와 같이) 비디오(650)를 일시정지할 수 있다. 비디오(650)가 일시정지되는 경우, 사용자는 자신이 비디오(650)의 안면의 일부를 (예를 들어 일 구현예에서, 박스(670)로) 마킹할 수 있도록 할 수 있는 마크 페이스 아이템(120)을 선택할 수 있다. 비디오에서의 일시정지된 프레임이 마킹될 수 있고/있거나, 사용자가 마킹될 비디오의 프레임을 위치시키기 위하여 비디오 상에서 뒤쪽 및/또는 앞쪽으로 검색할 수 있다. 안면이 박스(670)로 마킹되는 경우, 사용자는 도4A 및 4B와 관련하여 상술된 바와 같이, 디스플레이(600) 상에 제공된 안면 인식 아이템(140)(예를 들어, 아이콘, 링크, 버튼, 및/또는 다른 유사한 선택 메커니즘)을 선택하여 비디오(650)의 안면 인식을 수행할 수 있다. 대안적인 구현예에서, 비디오(650)에서의 사람의 안면은 비디오(650)가 재생되고 있는 동안, 즉, 비디오(650)를 일시정지함이 없이, 마킹될 수 있다. 추가적으로 및/또는 대안적으로, 사용자는 도5A 내지 5C 와 관련하여 상술된 바와 같이, 비디오(650)가 재생되고 있는 동안 음성 인식 아이템(160)을 선택하여, 비디오(650)의 오디오 부분의 음성 인식을 수행할 수 있다.

또 다른 구현예에서, 사용자는 비디오(650)가 재생되고 있는 동안 안면/음성 인식 아이템(680)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 선택하여, 비디오(650)의 안면 인식 및/또는 비디오(650)의 오디오 부분의 음성 인식을 수행할 수 있다. 비디오(650)의 안면 및 음성 인식의 결합은 예를 들어, 동시에 수행될 수 있다. 대안적으로, 비디오(650)의 안면 인식이 먼저 수행되고, 비디오(650)의 오디오 부분의 음성 인식은 안면 인식이 최종적인 정합을 제공하지 않는 경우에 다음으로 수행될 수 있다(예를 들어, 소정의 정확도 레벨이 음성 인식이 수행되기 전에 설정될 수 있다). 또 다른 예에서, 비디오(650)의 오디오 부분의 음성 인식이 먼저 실행되고, 비디오(650)의 안면 인식은 음성 인식이 최종적인 정합이 제공되지 않는 경우에 다음으로 수행될 수 있다(예를 들어, 소정의 정확도 레벨이 안면 인식이 수행되기 전에 설정될 수 있다).

도6A 및 도6B가 디바이스로 이미지 및/또는 비디오를 캡처하는 것을 도시할지라도, 디바이스는 또한 (예를 들어, 디바이스(200)의 마이크로폰(260)를 통하여) 오디오를 캡처할 수 있다. 캡처된 오디오는 디바이스(200) 상에(예를 들어, 저장장치(320) 내에) 저장되거나, 또는 디바이스(200) 상에 저장되지 않을 수 있다. 음성 인식은 도5A 내지 5C와 관련하여 상술된 바와 같이, 캡처된 오디오에 대해 수행될 수 있다.

일 구현예에서, 디바이스(200)의 사용자는 미디어가 디바이스(200) 상에서 디스플레이되는 방법을 제어할 수 있다. 예를 들어, 디바이스(200)는 사용자가 미디어의 어느 한 부분을 줌인 및 줌아웃하도록 할 수 있는 사용자 제어 미디어 스케일링 메커니즘(예를 들어, 제어 버튼(240) 및/또는 키패드의 키(250))을 포함할 수 있다. 사용자 제어 줌 기능은 도4A 내지 6B와 관련하여 상술된 방법 중 어느 하나와 함께 사용될 수 있다. 디바이스(200)는 사용자가 미디어를 시작하고 정지하도록 할 수 있는(예를 들어, 디바이스(200)의 스피커(220) 상에서의 오디오 재생) 사용자 제어 미디어 제어 메커니즘(예를 들어, 제어 버튼(240) 및/또는 키패드의 키(250))를 더 포함할 수 있다.

도4A 내지 6C와 관련하여 상술된 예시적 미디어 식별 방법은 다양한 시나리오에서 적용될 수 있다. 다음의 시나리오는 본 발명의 양상을 구현하는데 있어서 일부의 예시적 방법을 제공한다.

사람 식별

하나의 예시적 구현예에서, 사람(예를 들어, 유명인, 음악가, 가수, 영화배우, 운동선수, 친구 및/또는 미디어로부터 식별될 수 있는 임의의 사람)은 상술된 예시적 미디어 식별 방법으로 식별될 수 있다. 예를 들어, 영화배우는 디바이스(200) 상에 디스플레이되는 영화 내에 나올 수 있고, 사용자는 영화배우의 이름 및/또는 그 영화배우가 출연한 다른 영화를 찾고자 할 수 있다. 사용자는 영화배우를 식별하고 영화배우에 관한 다른 식별 정보(예를 들어, 영화배우가 출연한 다른 영화)를 찾기 위하여 영화 상에서(예를 들어, 영화를 통해서) 안면 및/또는 음성 인식을 수행할 수 있다.

또 다른 예에서, 가수 또는 음악가가 디바이스(200) 상에 디스플레이되는 뮤직 비디오 및/또는 디바이스(200) 상에서 재생되는 노래 내에 나올 수 있고, 사용자는 가수/음악가의 이름 및 노래의 이름을 찾고자 할 수 있다. 사용자는 이와 같은 식별 정보를 발견하기 위하여 (예를 들어, 뮤직 비디오에서의 가수/음악가의 얼굴에 대해) 안면 인식 및/또는 (예를 들어, 뮤직 비디오의 오디오 및/또는 노래에 대한) 음성 인식을 수행할 수 있다.

또 다른 예에서, 사용자는 디바이스(200) 상에 영화, 뮤직 비디오 및/또는 음악의 라이브러리(library)를 가질 수 있고, 사용자가 유명인를 식별할 때, 디바이스(200)는 유명인을 포함할 수 있는 라이브러리에서 영화, 뮤직 비디오 및/또는 음악으로의 링크를 제공할 수 있다.

부가적인 예에서, 식별 정보는 전화 번호(들) 및/또는 주소(들)를 포함할 수 있고, 디바이스(200)는 사람들(예를 들어, 사용자의 친구들)의 이미지를 디스플레이할 수 있다. 사용자가 이미지 중 하나를 선택할 때, 디바이스(200)는 이미지를 상기 이미지 내의 사람의 전화 번호(들) 및/또는 주소(들)와 정합시키고, 사용자에게 이와 같은 정보를 디스플레이할 수 있다. 디바이스(200)는 이미지 내의 사람의 전화 번호로 자동적으로 전화하도록 프로그래밍될 수 있다.

더 부가적인 예에서, 상술된 예시적 미디어 식별 방법은 바이오메트릭 정보(예를 들어, 안면 정보 및/또는 음성 정보)가 디바이스(200)에 의한 사용에 이용 가능한 한, 유명인 이외의 사람에 대해서 사용될 수 있다. 예를 들어, 사람이 이용 가능한 안면 정보(예를 들어, 범죄 기록, 여권, 등)를 가지며 디바이스(200)가 이 와 같은 정보에 액세스할 수 있는 경우, 디바이스(200)는 예시적 미디어 식별 정보를 사용하여 이와 같은 사람을 식별할 수 있다. 이와 같은 배열은 사람의 이미지를 캡처하고 상기 이미지를 이용가능한 바이오메트릭 정보와 비교함으로써 사람이 공공 장소에서 지명수배자, 테러리스트, 등을 간단하게 식별할 수 있도록 할 수 있다. 이것은 시민이 알려진 범죄자, 테러리스트, 등의 식별 및 체포에 도움을 줄 수 있도록 할 수 있다.

장소 식별

하나의 예시적 구현예에서, 장소(건물, 랜드마크, 길, 교량 및/또는 미디어로부터 식별될 수 있는 임의의 장소)는 상술된 예시적 식별 방법으로 식별될 수 있다. 예를 들어, 디바이스(200)의 사용자는 도시 주위에서 자신의 길을 찾는 것을 시도하고 있을 수 있다. 사용자는 디바이스(200)로 건물의 이미지 또는 비디오를 캡처할 수 있고, 디바이스(200)는 상술된 예시적 미디어 식별 방법으로 건물을 식별할 수 있다(예를 들어, 캡처된 이미지가 디바이스(200)에 의해 액세스 가능한 데이터베이스 내의 건물의 이미지와 비교될 수 있다). 건물의 식별은 사용자에게 도시에서의 현재 위치를 제공할 수 있고, 사용자가 도시 주위에서 자신의 길을 찾을 수 있도록 할 수 있다. 예시적 구현예에서, 디바이스(200)는 식별된 건물을 기반으로 하여 현재 위치를 나타내는 지도를 사용자에게 디스플레이할 수 있고/있거나, 사용자의 목적지(예를 들어, 도시 내의 호텔)의 이미지 및 방향을 제공할 수 있다.

또 다른 예에서, 사용자는 에어리어 내의 랜드마크를 식별하는 것을 시도하고 있을 수 있다. 사용자는 디바이스(200)로 랜드마크이다라고 생각되는 것의 이미 지 또는 비디오를 캡처하고, 디바이스(200)는 상술된 예시적 미디어 식별 방법으로 랜드마크를 식별할 수 있다(예를 들어, 캡처된 이미지가 디바이스(200)의 의해 액세스 가능한 데이터베이스 내의 랜트마크의 이미지와 비교될 수 있다). 디바이스(200)는 또한 디바이스(200)에 의해 현재 식별된 랜드마크 주위에 위치된 다른 랜드마크에 대한 방향을 제공할 수 있다.

또 다른 예에서, 사용자는 디바이스(200)로 (예를 들어, 우편엽서 상에서) 랜드마크의 이미지를 캡처함으로써 방향을 획득할 수 있고, 디바이스(200)는 상술된 예시적 미디어 식별 방법으로 랜드마크의 위치를 식별할 수 있다(예를 들어, 캡처된 이미지가 디바이스(200)에 의해 액세스 가능한 데이터베이스 내의 랜드마크의 이미지와 비교될 수 있다).

더 부가적인 예에서, 사용자는 디바이스(200)로 도로 표지판(street sign)(들)의 이미지 또는 비디오를 캡처함으로써 방향을 획득할 수 있고, 디바이스(200)는 상술된 예시적 미디어 식별 방법으로 도로(들)의 위치를 식별할 수 있다(예를 들어, 캡처된 이미지에서의 도로의 이름이 디바이스(200)에 의해 액세스 가능한 데이터베이스 내의 도로의 이름과 비교할 수 있다). 디바이스(200)는 또한 식별된 도로 주위의 도로, 건물, 랜드마크, 등을 나타내는 지도를 제공할 수 있다.

장소 식별은 디바이스(200)의 어떤 위치를 제공하기 위하여 (예를 들어, 디바이스(200) 내에 제공된) GPS 디바이스와 함께 동작할 수 있다. 예를 들어, 다수의 "제1 가"가 있을 수 있다. 사용자가 어떤 "제1가" 부근에 있는지를 결정하기 위하여, 미디어 식별 및 GPS 디바이스의 결합이 사용자가 GPS 신호를 기반으로 하여 "제1 가"의 위치(예를 들어, 타운(town), 도시, 등)를 적절하게 식별하도록 할 수 있다.

이와 같은 장소 식별 기술은 안면 인식보다는 오히려, "이미지/비디오 인식"을 사용할 수 있다(예를 들어, 장소의 캡처된 이미지 및/또는 비디오가 디바이스(200)에 의해 액세스 가능한 데이터베이스에 포함된 이미지 및/또는 비디오와 비교될 수 있다). 그러나, 본원에 사용된 바와 같이, "안면 인식"은 "이미지/비디오 인식"의 서브셋(subset)으로 간주될 수 있다.

사물 식별

하나의 예시적 구현예에서, 사물(예를 들어, 동물, 인쇄 미디어, 만화 캐릭터, 영화 캐릭터, 식물, 나무 및/또는 미디어로부터 식별될 수 있는 임의의 "사물")은 상술된 예시적 미디어 식별 방법으로 식별될 수 있다. 예를 들어, 디바이스(200)의 사용자는 광야에 있을 수 있고 자신이 식별하고자 하는 동물을 볼 수 있다. 사용자는 디바이스(200)로 동물의 이미지, 비디오 및/또는 사운드를 캡처할 수 있고, 디바이스(200)는 상술된 예시적 미디어 식별 방법으로 동물을 식별할 수 있다(예를 들어, 캡처된 이미지, 비디오 및/또는 사운드가 디바이스(200)에 의해 액세스 가능한 데이터베이스 내의 동물 이미지 및/또는 사운드와 비교될 수 있다). 동물의 식별은 사용자가 위험한 동물에 너무 가까워지지 않도록 하고/하거나, 동물 관측자(예를 들어, 조류 관측자) 또는 과학 교사가 광야에서 미지의 동물을 식별하는 것을 원조할 수 있도록 보장할 수 있다.

또 다른 예에서, 디바이스(200)의 사용자는 (예를 들어, 식물이 과학용, 교 육용, 등의 덩굴옻나무인지를 결정하기 위해서) 식물을 식별하고자 할 수 있다. 사용자는 디바이스(200)로 식물의 이미지 및/또는 비디오를 캡처할 수 있고, 디바이스(200)는 상술된 예시적 미디어 식별 방법으로 식물을 식별할 수 있다(예를 들어, 캡처된 이미지 및/또는 비디오가 디바이스(200)에 의해 액세스 가능한 데이터베이스 내의 식물 이미지와 비교될 수 있다).

부가적인 예에서, 디바이스(200)의 사용자는 만화를 보고 있을 수 있고, 만화 캐릭터를 식별하고자 할 수 있다. 사용자는 만화 캐릭터를 식별하고 상기 만화 캐릭터에 관한 다른 식별 정보(예를 들어, 상기 캐릭터를 포함하는 다른 만화)를 찾기 위하여 만화에 대해(예를 들어, 만화를 통하여) 안면 및/또는 음성 인식을 수행할 수 있다.

이와 같은 사물 식별 기술은 안면 인식보다는 오히려, "이미지/비디오 인식"을 사용할 수 있다(예를 들어, 사물의 캡처된 이미지 및/또는 비디오가 디바이스(200)에 의해 액세스 가능한 데이터베이스에 포함된 이미지 및/또는 비디오와 비교될 수 있다). 그러나 본원에 사용된 바와 같이, "안면 인식"은 "이미지/비디오 인식"의 서브셋으로 간주될 수 있다. 또한, 이와 같은 사물 식별 기술은 안면 인식보다는 오히려, "오디오 인식"을 사용할 수 있다(예를 들어, 사물의 캡처된 오디오가 디바이스(200)에 의해 액세스 가능한 데이터베이스에 포함된 오디오와 비교될 수 있다). 그러나 본원에 사용된 바와 같이, "음성 인식"은 "오디오 인식"의 서브셋으로 간주될 수 있다.

대안적/추가적 기술

상술된 안면 인식, 음성 인식, 이미지/비디오 인식 및/또는 음성 인식은 미디어를 식별하는 다른 기술과 결합될 수 있다. 예를 들어, 일 구현예에서, 임의의 인식 기술 중 어느 하나가 미디어가 재생되고/되거나 디스플레이되고 있는 동안 배경에서 자동으로 실행되고 있을 수 있다. 예를 들어, 안면 및/또는 음성 인식은 영화가 재생되고 있는 동안 배경에서 자동으로 실행될 수 있고/있거나, 영화에서 미디어 물체(예를 들어, 배우, 여배우, 등)를 식별할 수 있다. 이것은 인식 기술이 영화에서 안면 및/또는 음성 인식에 대한 이상적인 선택을 성취할 수 있도록 할 수 있고, 식별 방법을 개선시킬 수 있다.

또 다른 구현예에서, 미디어에서 제공되는 태그(예를 들어, 주제 또는 카테고리와 같이 동작할 수 있는 키워드)(영화, 비디오, 노래, 등을 식별하는 태그)는 인식 기술 중 어느 하나와 함께 사용될 수 있다. 이와 같은 태그는 미디어의 식별을 위한 검색의 폭을 좁히는 것을 원조할 수 있다. 예를 들어, 텔레비전 상의 프로그램 가이드는 이러한 태그를 제공할 수 있고, 미디어 식별을 위한 검색의 폭을 좁히는데 사용될 수 있다. 또 다른 예에서, 일단 미디어가 식별되면, 태그는 미디어에 관한 식별 정보에 추가될 수 있다.

또 다른 구현예에서, 이미지/비디오 인식은 인쇄 미디어(예를 들어, 책, 잡지, 등)의 텍스트를 스캐닝(scanning)하는데 사용될 수 있다. 인쇄 미디어는 캡처된 이미지 및/또는 비디오의 광학적 문자 인식(optical character recognition: OCR)을 통해 식별될 수 있다. 예를 들어, 캡처된 텍스트 이미지는 OCR로 인식될 수 있고, 캡처된 텍스트가 텍스트 데이터베이스에 나타나는지를 확인하기 위해 텍스트 데이터베이스와 비교될 수 있다.

예시적 프로세스

도7A 내지 8은 본 발명의 원리와 부합하는 구현예에 따른 예시적 프로세스의 흐름도이다. 도7A의 프로세스는 일반적으로 저장된 미디어의 식별로서 설명될 수 있다. 도7B의 프로세스는 일반적으로 안면 인식을 기반으로 한 저장된 미디어의 식별로서 설명될 수 있다. 도7C의 프로세스는 일반적으로 음성 인식을 기반으로 한 저장된 미디어의 식별로서 설명될 수 있다. 도8의 프로세스는 일반적으로 안면 및/또는 음성 인식을 기반으로 한 캡처된 미디어의 식별로서 설명될 수 있다.

저장된 미디어의 식별을 위한 프로세스

도7A에 도시된 바와 같이, 프로세스(700)는 미디어 정보를 획득한다(블록 705). 예를 들어, 도3과 관련하여 상술된 일 구현예에서, 미디어 정보는 디바이스(200) 상에 저장되거나 (예를 들어, 통신 인터페이스(340)에 의해) 디바이스(200)에 의하여 수신된 미디어에 대응할 수 있다. 이 경우에, 미디어 정보 수집기(360)는 미디어 저장 디바이스(예를 들어, 저장장치(320)), 또는 또 다른 소스로부터 미디어를 수신할 수 있는 통신 디바이스(예를 들어, 통신 인터페이스(340))를 포함할 수 있다.

도7A에 또한 도시된 바와 같이, 프로세스(700)는 이미지 또는 비디오가 미디어로서 선택되었는지의 여부를 결정할 수 있다(블록 710). 이미지 또는 비디오가 선택된 경우(블록 710-YES), 도7B의 블록이 수행될 수 있다. 예를 들어, 도1과 관련하여 상술된 일 구현예에서, 디바이스의 디스플레이(100)는 사용자에 의해 선택 된 이미지/비디오(110)를 포함할 수 있다. 예를 들어, 이미지/비디오(110)는 사용자에 의해 선택되고 현재 디스플레이(100)에서 디스플레이되는 영화 또는 뮤직 비디오일 수 있다.

이미지 또는 비디오가 선택되지 않은 경우(블록 710 - NO), 프로세스(700)는 오디오 파일이 미디어로서 선택되었는지의 여부를 결정할 수 있다(블록 715). 오디오 파일이 선택되면(블록 715 - YES), 도7C의 블록이 수행될 수 있다. 예를 들어, 도1과 관련하여 상술된 일 구현예에서, 디스플레이(100)는 사용자가 오디오 파일을 청취하고 있을 때 디스플레이될 수 있는 오디오 파일 아이템(150)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 예를 들어, 사용자는 디바이스 상에서 음악(예를 들어, 디지털 음악, MP3, MP4, 등)을 청취할 수 있다. 오디오 파일이 선택되지 않은 경우(블록 715 - NO), 프로세스(700)는 종료될 수 있다.

안면 인식을 기반으로 한 저장된 미디어의 식별을 위한 프로세스

도7B에 도시된 바와 같이, 프로세스(700)는 이미지 또는 비디오의 안면이 마킹될 수 있는지의 여부를 결정할 수 있다(블록 720). 예를 들어, 도1 및 4A와 관련하여 상술된 일 구현예에서, 디스플레이(100)는 선택시에 사용자가 이미지/비디오(110)의 안면의 일부를 마킹할 수 있도록 할 수 있는 마크 페이스 아이템(120)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 안면이 마킹될 수 있는 경우(블록 720 - YES), 프로세스(700)는 선택된 이미지 또는 비디오에서 안면을 마킹할 수 있다(블록 725). 안면이 마킹될 수 없는 경우(블록 720 - NO), 프로세스(700)는 도7C의 블록을 수행할 수 있다.

도7B에 또한 도시된 바와 같이, 프로세스(700)는 안면 인식이 수행되어야 하는지의 여부를 결정할 수 있다(블록 730). 안면 인식이 수행되지 않아도 되는 경우(블록 730 - NO), 프로세스(700)는 도7C의 블록을 수행할 것이다. 안면 인식이 수행되어야 하는 경우(블록 730 - YES), 프로세스(700)는 안면 인식 결과를 수신하여 사용자에게 디스플레이할 것이다(블록 735). 예를 들어, 도4A 및 4B와 관련하여 상술된 일 구현예에서, 안면이 커서(130)로 마킹되는 경우, 사용자는 디스플레이(400) 상에 제공된 안면 인식 아이템(140)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 선택하여 이미지/비디오(110)의 안면 인식을 수행할 수 있다. 일 구현예에서, 안면 인식은 (예를 들어, 디바이스(200)의 프로세싱 로직(310) 및 저장장치(320)를 통하여) 디바이스 내에 제공된 안면 인식 소프트웨어로 이미지/비디오(110)에 대해 수행될 수 있다. 또 다른 구현예에서, 안면 인식은 디바이스(200)와 통신하는 디바이스 상에 제공된 안면 인식 소프트웨어로 이미지/비디오(110)에 대해 수행될 수 있다(예를 들어, 디바이스(200)는 안면 인식을 수행하고 결과를 디바이스(200)로 리턴시키는 또 다른 디바이스로 마킹된 안면을 송신할 수 있다). 이미지/비디오(110)의 안면 인식의 결과(410)는 디스플레이(400) 상에 제공될 수 있다. 결과(410)는 이미지/비디오(110)에 나타난 안면과 정합하는 사람의 리스트를 포함할 수 있다.

프로세스(700)는 사용자 선택 안면 인식 결과를 기반으로 하여 식별 정보를 디스플레이할 수 있다(블록 740). 예를 들어, 도4B와 관련하여 상술된 일 구현예에 서, 사용자가 결과로부터 사람을 선택(예를 들어, 사람(420)을 선택)하는 경우, 디스플레이(400)는 도4B에 도시된 예시적 식별 정보를 제공할 수 있다. 광범위한 식별 정보가 제공될 수 있다. 예를 들어, 사람이 영화배우인 경우, 디스플레이(400)는 메뉴부(400) 및 식별 정보부(450)를 제공할 수 있다. 메뉴부(440)는 예를 들어, 식별 정보부(450)의 부분으로의 선택 가능한 링크를 포함할 수 있다. 도4B에 도시된 예시적 구현예에서, 식별 정보부(450)는 그 사람에 관한 전기 정보, 그 사람에 관한 영화 경력 정보, 그 사람에 관한 텔레비전 경력 정보, 그 사람에 관한 웹사이트 정보 및/또는 리마인더 정보를 포함할 수 있다.

음성 인식을 기반으로 한 저장된 미디어의 식별을 위한 프로세스

오디오 파일이 선택되고(도7A의 블록 715 - YES), 안면은 마킹되지 않고/안거나(도7B의 블록 720 - NO), 안면 인식이 수행되지 않는 경우(도7B의 블록 730 - NO), 프로세스(700)는 도7C의 블록을 수행할 수 있다. 도7C에 도시된 바와 같이, 프로세스는 음성 인식이 수행되어야 하는지를 결정할 수 있다(블록 745). 예를 들어, 도5A 및 5B와 관련하여 상술된 일 구현예에서, 사용자는 디스플레이(500) 상에 제공된 음성 인식 아이템(160)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 선택하여, 오디오 파일 또는 비디오에 의해 생성되는 오디오의 음성 인식을 수행할 수 있다. 일 구현예에서, 음성 인식은 (예를 들어, 디바이스(200)의 프로세싱 로직(310) 및 저장장치(320)를 통하여) 디바이스 내에 제공되는 음성 인식 소프트웨어로 오디오 파일에 대해 수행될 수 있다. 또 다른 구현예에서, 음성 인식은 (예를 들어, 통신 인터페이스(340)를 통하여) 디바이스(200)와 통 신하는 디바이스 상에 제공되는 음성 인식 소프트웨어로 오디오 파일에 대해 수행될 수 있다. 음성 인식의 결과(510)가 디바이스(500) 상에 제공될 수 있다. 결과(510)는 오디오 파일(또는 비디오에서의 오디오)의 음성과 정합하는 사람의 리스트를 포함할 수 있다.

음성 인식이 수행되지 않아도 되는 경우(블록 745 - NO), 프로세스(700)는 종료될 수 있다. 음성 인식이 수행되어야 하는 경우(블록 745 - YES), 프로세스(700)는 음성 인식 결과를 수신하여 사용자에게 디스플레이할 수 있다(블록 750).

도7C에 또한 도시된 바와 같이, 프로세스(700)는 사용자 선택 음성 인식 결과를 기반으로 하여 식별 정보를 디스플레이할 수 있다(블록 755). 예를 들어, 도5B와 관련하여 상술된 일 구현예에서, 사용자가 결과로부터 사람을 선택(예를 들어, 사람(520)을 선택)하는 경우, 디스플레이(500)는 도5B에 도시된 예시적 식별 정보를 제공할 수 있다. 광범위한 식별 정보가 제공될 수 있다. 사람이 영화배우인 경우, 디스플레이(500)는 메뉴부(540) 및 식별 정보부(550)를 제공할 수 있다. 메뉴부(540)는 예를 들어, 식별 정보부(550)의 부분으로의 선택 가능한 링크를 포함할 수 있다. 도5B에 도시된 예시적 구현예에서, 식별 정보부(550)는 대사를 발언하는 사람에 관한 전기 정보, 그 사람에 관한 영화 경력 정보, 그 사람에 관한 텔레비전 경력 정보, 그 사람에 관한 웹사이트 정보 및/또는 리마인더 정보를 포함할 수 있다.

안면 및/또는 음성 인식을 기반으로 한 캡처된 미디어의 식별을 위한 프로세 스

도8에 도시된 바와 같이, 프로세스(800)는 미디어 정보를 획득할 수 있다(블록 810). 예를 들어, 도3과 관련하여 상술된 일 구현예에서, 미디어 정보는 디바이스(200)에 의해 검색되거나 캡처된 미디어에 대응할 수 있다. 이 경우에, 미디어 정보 수집기(360)는 오디오 정보를 기록할 수 있는 마이크로폰(예를 들어, 마이크로폰(260)) 및/또는 이미지 및/또는 비디오를 기록할 수 있는 카메라(예를 들어, 카메라(270))를 포함할 수 있다.

안면 및 음성 인식이 캡처된 미디어에 대해 수행되어야 하는 경우(블록 820 - YES), 프로세스(800)는 캡처된 미디어에 대한 안면 및 음성 인식 결과를 획득할 수 있고, 정합 식별 정보를 디스플레이할 수 있다(블록 830). 예를 들어, 도6B와 관련하여 상술된 일 실시예에서, 사용자는 비디오 아이템(630)을 선택하고, 디바이스(200)로(예를 들어, 디바이스(200)의 카메라(270)를 통해서) 비디오(650)를 캡처할 수 있다. 비디오(650)가 일시정지되는 경우, 사용자는 자신이 비디오(650)의 안면의 일부를 (예를 들어, 일 구현예에서, 박스(670)로) 마킹할 수 있도록 할 수 있는 마크 페이스 아이템(120)을 선택할 수 있다. 안면이 마킹되는 경우, 사용자는 도4A 및 4B와 관련하여 상술된 바와 같이, 디스플레이(600) 상에 제공된 안면 인식 아이템(140)을 선택하고, 비디오(650)의 안면 인식이 수행되도록 하고, 정합 식별 정보를 디스플레이할 수 있다. 대안적인 구현예에서, 비디오(650)에서의 사람의 안면은 비디오(650)가 재생되고 있는 동안, 즉, 비디오(650)가 일시정지함이 없이, 마킹될 수 있다. 추가적으로, 사용자는 도5A 내지 5C와 관련하여 상술된 바와 같 이, 비디오(650)가 재생되고 있는 동안 음성 인식 아이템(160)을 선택하고, 비디오(650)의 오디오 부분의 음성 인식을 수행하고, 정합 식별 정보를 디스플레이할 수 있다. 또 다른 구현예에서, 사용자는 비디오(650)가 재생되고 있는 동안 안면/음성 인식 아이템(680)을 선택하여, 비디오(650)의 안면 인식 및/또는 비디오(650)의 오디오 부분의 음성 인식이 수행되도록 할 수 있다. 비디오(650)의 안면 및 음성 인식의 결합은 예를 들어, 동시적으로 또는 순차적으로(예를 들어, 안면 인식이 먼저 수행되고, 음성 인식은 안면 인식이 최종적인 정합을 제공하지 않는 경우에 다음으로 수행되고, 그 역도 또한 마찬가지임) 수행될 수 있다.

도8에 또한 도시된 바와 같이, 안면 및 음성 인식이 캡처된 미디어에 대해 수행되지 않아도 되는 경우(블록 820 - NO), 프로세스(800)는 안면 인식이 캡처된 미디어에 대해 수행되어야 하는지의 여부를 결정할 수 있다(블록 840). 안면 인식이 캡처된 미디어에서 수행되어야 하는 경우(블록 840 - YES), 프로세스(800)는 캡처된 미디어에 대한 안면 인식 결과를 획득할 수 있고, 정합 식별 정보를 디스플레이할 수 있다(블록 850). 예를 들어, 도6A와 관련하여 상술된 일 구현예에서, 디스플레이(600)는 선택시에 사용자가 이미지(610)의 안면의 일부를 (예를 들어, 일 구현예에서, 커서(130)로) 마킹할 수 있도록 할 수 있는 마커 페이스 아이템(120)(예를 들어, 아이콘, 링크, 버튼, 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 안면이 커서(130)로 마킹되는 경우, 사용자는 도4A 및 4B와 관련하여 상술된 바와 같이, 디스플레이(600) 상에 제공된 안면 인식 아이템(140)을 선택하고, 이미지(610)의 안면 인식이 수행되도록 하고, 정합 식별 정보를 디스플레이할 수 있다.

도8에 또한 도시된 바와 같이, 안면 인식이 캡처된 미디어에 대해 수행되지 않아도 되는 경우(블록 840 - NO), 프로세스(800)는 음성 인식이 캡처된 미디어에 대해 수행되어야 하는지의 여부를 결정할 수 있다(블록 860). 음성 인식이 캡처된 미디어에 대해 수행되어야 하는 경우(블록 860 - YES), 프로세스(800)는 캡처된 미디어에 대한 음성 인식 결과를 획득할 수 있고, 정합 식별 정보를 디스플레이할 수 있다(블록 870). 예를 들어, 도6A 및 6B와 관련하여 상술된 일 실시예에서, 디바이스는 (예를 들어, 디바이스(200)의 마이크로폰(260)을 통하여) 오디오를 캡처할 수 있다. 캡처된 오디오는 디바이스(200) 상에(예를 들어, 저장장치(320) 내에) 저장되거나, 디바이스(200) 상에 저장되지 않을 수 있다. 음성 인식은 도5A 내지 5C와 관련하여 상술된 바와 같이, 캡처된 오디오에 대해 수행될 수 있고 정합 식별 정보가 디스플레이될 수 있다.

결론

본 발명의 원리와 부합하는 구현예는 미디어에 대한 안면 및/또는 음성 인식 결과를 기반으로 하여 미디어를 식별할 수 있고, 안면 및/또는 음성 인식 결과를 기반으로 하여 식별 정보를 디스플레이할 수 있다. 미디어 식별(예를 들어, 이미지 및/또는 비디오에서 사람을 식별하는 안면 인식 기술 및/또는 오디오, 예를 들어 영화로부터의 사운드 바이트에서 사람을 식별하는 음성 인식 기술)을 사용함으로써, 사람(들)이 식별될 수 있고, 사람(들)에 대한 정보가 디바이스 상에 디스플레이될 수 있다.

본 발명의 바람직한 실시예의 상기의 설명은 실례 및 설명을 제공하지만, 소 모적이거나 개시된 정확한 형태로 본 발명을 제한하고자 하는 것이 아니다. 변경 및 변형이 상기의 내용에 비추어서 가능하거나, 또는 본 발명의 실행으로부터 획득될 수 있다.

예를 들어, 일련의 동작이 도7A 내지 8과 관련하여 설명되었지만, 동작의 순서는 본 발명의 원리와 부합하는 다른 구현예에서 변경될 수 있다. 또한, 비종속적인 동작이 병렬로 수행될 수 있다. 상술된 구현예가 안면 및 음성 바이오메트릭의 사용을 논의할지라도, 다른 바이오메트릭 정보(예를 들어, 지문, 눈의 망막 및 홍채, 손 측정치, 필체, 보행 패턴, 타이핑 패턴, 등)가 미디어를 식별하고 정합 식별 정보를 제공하는데 사용될 수 있다. 또한, 도면이 안면 및 음성 인식 결과를 도시할지라도, 일 구현예에서, 안면 및/또는 음성 인식은 결과를 제공하는 것이 아니라, 그 대신에 안면 및/또는 음성 인식에 의해 발견된 가장 가까운 정합 미디어에 대한 식별 정보를 제공할 수 있다.

본 명세서에서 사용될 때 용어 "포함한다/포함하는"이 진술된 특징, 정수, 단계 또는 구성요소의 존재를 규정하기 위한 것이지만, 하나 이상의 다른 특징, 정수, 단계, 구성요소 및 이들의 그룹의 존재 및 추가를 배제하지 않는다는 점이 강조되어야 한다.

상술된 바와 같이, 본 발명의 양상이 도면에 도시된 구현예에서 많은 상이한 형태의 소프트웨어, 펌웨어 및 하드웨어로 구현될 수 있다는 점이 당업자에게는 명백할 것이다. 본 발명의 원리와 부합하는 양상을 구현하는데 사용되는 실제 소프트웨어 코드 또는 특정 제어 하드웨어는 본 발명을 제한하지 않는다. 그러므로, 그 양상의 동작 또는 작용은 특정 소프트웨어 코드와 관계 없이 설명되었다-당업자가 본원의 설명을 기반으로 하여 양상을 구현하도록 소프트웨어 및 제어 하드웨어를 설계할 수 있을 것이라 점이 이해될 것이다.

본 출원에 사용되는 요소, 동작 또는 명령은 이와 같이 명시적으로 기술되지 않는다면, 본 발명에 결정적이거나 필수적인 것으로서 해석되어야 한다. 또한, 본원에 사용된 바와 같이, 관사 "a"는 하나 이상의 아이템을 포함하도록 의도된다. 하나의 아이템만이 의도되는 경우에, 용어 "하나" 또는 유사한 언어가 사용된다. 또한, 구 "기반으로 하는"은 명시적으로 다르게 진술되지 않는다면, "적어도 부분적으로 기반으로 하는'을 의미한다.

Claims

디바이스 상에서 미디어를 획득하는 단계;

이미지/비디오 인식 및 오디오 인식을 통하여 상기 미디어에서 물체의 식별을 제공하는 단계;

식별된 미디어 물체를 다수의 미디어 물체와 비교하는 단계;

소정의 정확도 퍼센티지 내에서 상기 식별된 미디어 물체와 정합하는 다수의 미디어 물체의 순서화된 리스트를 상기 디바이스 상에 디스플레이하는 단계; 및

정합하는 다수의 미디어 물체 각각과 관련된 정확도 퍼센티지를 상기 디바이스 상에 디스플레이하는 단계를 포함하는 방법.
제1항에 있어서,

상기 디바이스를 통하여 미디어를 수신하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 디바이스로 상기 미디어를 캡처하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

오디오 인식은 상기 이미지/비디오 인식이 소정의 정확도 레벨 내에서 상기 미디어 물체를 식별하지 못할 때 수행되는 것을 특징으로 하는 방법.
제1항에 있어서,

이미지/비디오 인식은 상기 오디오 인식이 소정의 정확도 레벨 내에서 상기 미디어 물체를 식별하지 못할 때 수행되는 것을 특징으로 하는 방법.
제1항에 있어서,

이미지/비디오 인식을 통하여 상기 물체를 식별하기 위하여 상기 미디어 물체의 안면을 마킹하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 정합하는 다수의 미디어 물체 중 하나의 선택을 수신하는 단계; 및

상기 정합하는 다수의 미디어 물체 중 상기 선택된 미디어 물체와 관련된 식별 정보를 디스플레이하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제7항에 있어서,

상기 식별 정보는 사람, 장소, 또는 사물 중 하나와 관련된 정보를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 미디어는:

이미지 파일;

오디오 파일;

비디오 파일; 또는

애니메이션 파일 중 하나를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 미디어 물체는:

사람;

장소; 또는

사물 중 하나를 포함하는 것을 특징으로 하는 방법.
제7항에 있어서,

상기 식별 정보는:

상기 식별된 미디어 물체에 관한 전기 정보;

상기 식별된 미디어 물체에 관한 정보로의 링크; 또는

상기 식별된 미디어 물체를 기반으로 한 추천 중 적어도 하나를 포함하는 것을 특징으로 하는 방법.
디바이스와 관련된 미디어 정보를 획득하는 미디어 정보 수집기; 및

프로세싱 로직으로서, 상기 프로세싱 로직은:

안면 및 음성 인식을 통하여 미디어에서 물체의 식별을 제공하고,

식별된 미디어 물체를 다수의 미디어 물체와 비교하고,

소정의 정확도 퍼센티지 내에서 상기 식별된 미디어 물체와 정합하는 다수의 미디어 물체의 순서화된 리스트를 디스플레이하고,

상기 정합하는 다수의 미디어 물체 각각과 관련된 정확도 퍼센티지를 디스플레이하고,

상기 정합하는 다수의 미디어 물체 중 하나의 선택을 수신하고,

상기 정합하는 다수의 미디어 물체 중 선택된 미디어 물체와 관련된 식별 정보를 디스플레이하는, 프로세싱 로직을 포함하는 디바이스.
제12항에 있어서,

상기 미디어 정보 수집기는:

카메라;

마이크로폰;

미디어 저장 디바이스; 또는

통신 디바이스 중 적어도 하나를 포함하는 것을 특징으로 하는 디바이스.
제12항에 있어서,

안면 인식을 통하여 상기 미디어 물체를 식별할 때, 상기 프로세싱 로직은 상기 미디어 물체에서 안면의 위치를 결정하도록 구성되는 것을 특징으로 하는 디바이스.
제12항에 있어서,

안면 인식을 통하여 상기 미디어 물체를 식별할 때, 상기 프로세싱 로직은 사용자 입력을 기반으로 하여 상기 미디어 물체에서 안면의 위치를 결정하도록 구성되는 것을 특징으로 하는 디바이스.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제