KR101010081B1 - 미디어 식별 - Google Patents

미디어 식별 Download PDF

Info

Publication number
KR101010081B1
KR101010081B1 KR1020097000242A KR20097000242A KR101010081B1 KR 101010081 B1 KR101010081 B1 KR 101010081B1 KR 1020097000242 A KR1020097000242 A KR 1020097000242A KR 20097000242 A KR20097000242 A KR 20097000242A KR 101010081 B1 KR101010081 B1 KR 101010081B1
Authority
KR
South Korea
Prior art keywords
media
video
recognition
image
information
Prior art date
Application number
KR1020097000242A
Other languages
English (en)
Other versions
KR20090023674A (ko
Inventor
토비스 로버트 얀 리차우
마르쿠스 리웰
Original Assignee
소니 에릭슨 모빌 커뮤니케이션즈 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 에릭슨 모빌 커뮤니케이션즈 에이비 filed Critical 소니 에릭슨 모빌 커뮤니케이션즈 에이비
Publication of KR20090023674A publication Critical patent/KR20090023674A/ko
Application granted granted Critical
Publication of KR101010081B1 publication Critical patent/KR101010081B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/02Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/17Image acquisition using hand-held instruments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 방법은 디바이스 상에서 미디어를 획득하고, 이미지/비디오 인식 및 오디오 인식을 통하여 미디어에서 물체의 식별을 제공하고, 상기 식별된 미디어 물체를 기반으로 하여 디바이스 상에 식별 정보를 디스플레이한다.
안면 인식, 음성 인식, 미디어 물체, 태그, 템플릿.

Description

미디어 식별{MEDIA IDENTIFICATION}
본원에 기술된 구현예는 일반적으로 디바이스에 관한 것이며, 특히 미디어에 포함된 물체를 식별하는 디바이스에 관한 것이다.
미디어(예를 들어, 비디오, 이미지, 오디오 등)에서 사람을 보거나 들을 때 장애가 있으면 그 사람이 누구인지 또는 그 사람을 기억하는 이유를 결정할 수 없다. 현재, 이동 통신 디바이스의 사용자는 이동 통신 디바이스로 노래를 식별할 수 있다. 예를 들어, Rocket Mobile로부터 입수 가능한 상표 Song IDentityTM은 사용자가 노래의 몇 초를 저장하는데 이동 통신 디바이스를 사용함으로써 노래를 식별하도록 하고, 노래의 가수, 앨범 및 제목을 상기 디바이스로 제공한다. 불행하게도, 이러한 식별 시스템은 비디오, 이미지 및 (노래 이외의) 오디오에 대해서는 사람을 식별하고 이러한 사람에 대한 정보를 제공하지 못한다.
안면 인식 기술은 지난 몇 년 동안 상당히 개선되어, 건물 및 컴퓨터로의 액세스을 검증하는 효과적인 도구가 되었다. 그러나, 이 안면 인식 기술은 붐비는 경기장 또는 공항에서 미지의 개인을 식별하는데에는 보다 덜 유용하다. 더구나, 현재의 안면 인식 기술은 비디오, 이미지 및 오디오에 포함된 모든 물체를 식별하지 못하고, 이러한 물체에 관한 식별 정보를 제공하지 못한다.
일 양상에 따르면, 방법은 디바이스 상에서 미디어를 획득하는 단계, 이미지/비디오 인식 및 오디오 인식을 통하여 미디어에서 물체의 식별을 제공하는 단계, 및 상기 식별된 미디어 물체를 기반으로 하여 식별 정보를 상기 디바이스 상에 디스플레이하는 단계를 포함할 수 있다.
추가적으로, 상기 방법은 디바이스를 통하여 미디어를 수신하는 단계를 포함할 수 있다.
추가적으로, 상기 방법은 디바이스로 미디어를 캡처하는 단계를 포함할 수 있다.
추가적으로, 오디오 인식은 이미지/비디오 인식이 소정의 정확도 레벨 내에서 미디어 물체를 식별하지 못하는 경우에 수행될 수 있다.
추가적으로, 이미지/비디오 인식은 오디오 인식이 소정의 정확도 레벨 내에서 미디어 물체를 식별하지 못하는 경우에 수행될 수 있다.
추가적으로, 상기 방법은 이미지/비디오 인식을 통하여 물체를 식별하기 위하여 미디어 물체의 안면을 마킹(marking)하는 단계를 포함할 수 있다.
추가적으로, 상기 방법은 미디어 물체를 식별한 이미지/비디오 인식 결과를 디스플레이하는 단계를 포함할 수 있다.
추가적으로, 상기 방법은 사용자 선택 이미지/비디오 인식 결과에 대한 식별 정보를 디스플레이하는 단계를 포함할 수 있다.
추가적으로, 상기 방법은 미디어 물체를 식별한 오디오 인식 결과를 디스플레이하는 단계를 포함할 수 있다.
추가적으로, 상기 방법은 사용자 선택 오디오 인식 결과에 대한 식별 정보를 디스플레이하는 단계를 포함할 수 있다.
추가적으로, 상기 방법은 미디어 물체를 식별한 이미지/비디오 및 오디오 인식 결과를 디스플레이하는 단계를 포함할 수 있다.
추가적으로, 상기 방법은 사용자 선택 이미지/비디오 및 오디오 인식 결과에 대한 식별 정보를 디스플레이하는 단계를 포함할 수 있다.
추가적으로, 미디어는 이미지 파일, 오디오 파일, 비디오 파일, 또는 애니메이션 파일 중 하나를 포함할 수 있다.
추가적으로, 미디어 물체는 사람, 장소 또는 사물 중 하나를 포함할 수 있다.
추가적으로, 식별 정보는 식별된 미디어 물체에 대한 전기 정보(biographical information), 식별된 미디어 물체에 관한 정보로의 링크, 또는 식별된 미디어 물체를 기반으로 한 추천 중 적어도 하나를 포함할 수 있다.
또 다른 양상에 따르면, 디바이스는 디바이스 상에서 미디어를 획득하는 수단, 안면 또는 음성 인식을 통하여 미디어에서 물체의 식별을 제공하는 수단, 식별된 미디어 물체를 기반으로 하여 디바이스 상에 디바이스 식별 정보를 디스플레이하는 수단을 포함할 수 있다.
또 다른 양상에 따르면, 디바이스는 상기 디바이스와 관련된 미디어 정보를 획득하기 위한 미디어 정보 수집기, 및 프로세싱 로직(processing logic)을 포함할 수 있다. 상기 프로세싱 로직은 안면 및 음성 인식을 통하여 미디어에서 물체의 식별을 제공하고, 미디어 물체를 식별한 안면 및 음성 인식 결과를 디스플레이하며, 사용자 선택 안면 및 음성 인식 결과 중 하나에 대한 식별 정보를 디스플레이할 수 있다.
추가적으로, 미디어 정보 수집기는 카메라, 마이크로폰, 미디어 저장 디바이스 또는 통신 디바이스 중 적어도 하나를 포함할 수 있다.
추가적으로, 안면 인식을 통하여 미디어 물체를 식별할 때, 상기 프로세싱 로직은 미디어 물체에서 안면의 위치를 결정하도록 구성될 수 있다.
추가적으로, 안면 인식을 통하여 미디어 물체를 식별할 때, 상기 프로세싱 로직은 사용자 입력을 기반으로 하여 미디어 물체에서 안면의 위치를 결정하도록 구성될 수 있다.
부가적인 양상에 따르면, 디바이스는 명령을 저장하는 메모리, 및 디바이스 상에서 미디어를 획득하고 안면 및 음성 인식을 통하여 미디어에서 물체의 식별을 제공하고, 식별된 미디어 물체를 기반으로 하여 상기 디바이스 상에 식별 정보를 디스플레이하도록 명령을 실행하는 프로세서를 포함할 수 있다.
또 다른 양상에 따르면, 방법은 디바이스 상에서 비디오를 획득하는 단계, 비디오가 디바이스에서 재생되고 있는 동안 안면 인식 또는 음성 인식을 통하여 비디오에서 물체의 식별을 제공하는 단계, 및 식별된 미디어 물체를 기반으로 하여 상기 디바이스 상에 식별 정보를 디스플레이하는 단계를 포함할 수 있다.
더 부가적인 다른 양상에 따르면, 방법은 디바이스 상에서 미디어를 획득하는 단계, 미디어 사물 및 사물의 데이터베이스의 비교를 기반으로 하여 미디어에서 사물의 식별을 제공하는 단계, 및 식별된 미디어 사물을 기반으로 하여 상기 디바이스 상에 식별 정보를 디스플레이하는 단계를 포함할 수 있다.
추가적으로, 사물은 동물, 인쇄 미디어, 식물, 나무, 바위 또는 만화 캐릭터 중 적어도 하나를 포함할 수 있다.
또 다른 양상에 따르면, 방법은 디바이스 상에 미디어를 획득하는 단계, 미디어 장소 및 장소의 데이터베이스의 비교를 기반으로 하여 미디어에서 장소의 식별을 제공하는 단계, 및 식별된 미디어 장소를 기반으로 하여 상기 디바이스 상에 식별 정보를 디스플레이하는 단계를 포함할 수 있다.
추가적으로, 장소는 건물, 랜드마크(landmark), 길 또는 교량 중 적어도 하나를 포함할 수 있다.
추가적으로, 상기 방법은 식별된 미디어 장소의 위치를 기반으로 하여 상기 디바이스 상에 지도를 디스플레이하는 단계를 더 포함하며, 상기 지도는 식별된 미디어 장소의 표시를 포함한다.
부가적인 양상에 따르면, 방법은 디바이스 상에서 미디어를 획득하는 단계, 물체의 음성 인식 및 텍스트 인식(text recognition)을 기반으로 하여 미디어에서 물체의 식별을 제공하는 단계, 및 식별된 미디어 물체를 기반으로 하여 상기 디바이스 상에 식별 정보를 디스플레이하는 단계를 포함할 수 있다.
본 명세서에 통합되고 본 명세서의 일부를 구성하는 첨부 도면은 본 발명의 실시예를 도시하고, 상세한 설명과 함께, 본 발명을 설명한다.
도1은 본 발명의 원리와 부합하는 개념을 도시한 예시도.
도2는 본 발명의 원리와 부합하는 시스템 및 방법이 구현될 수 있는 예시적 디바이스의 도면.
도3은 도2의 예시적 디바이스의 예시적 구성요소의 도면.
도4A 내지 6B는 본 발명의 원리와 부합하는 구현예에 따른 예시적 미디어 식별 방법의 도면.
도7A 내지 8은 본 발명의 원리와 부합하는 구현예에 따른 예시적 프로세스의 흐름도.
본 발명의 다음의 상세한 설명은 첨부된 도면을 참조한다. 여러 도면에서 동일하거나 유사한 요소에는 동일한 참조 번호가 병기되어 있다. 또한, 다음의 상세한 설명은 본 발명을 제한하지 않는다.
본 발명의 원리와 부합하는 구현예는 안면 및/또는 음성 인식 결과를 기반으로 한 미디어 식별 및 안면 및/또는 음성 인식 결과에 관한 식별 정보의 디스플레이에 관한 것일 수 있다. 미디어 식별(예를 들어, 이미지 및/또는 비디오에서 사람(들)을 식별하는 안면 인식 기술, 및/또는 오디오, 예를 들어, 영화로부터의 사운드 바이트(sound byte)에서 사람(들)을 식별하는 음성 인식 기술)을 사용함으로써, 사람(들)이 식별될 수 있고 사람(들)에 관한 정보가 디바이스 상에 디스플레이 될 수 있다. 예를 들어, 디바이스는 (예를 들어, 사진(picture)를 찍음으로써) 저장장치 또는 또 다른 메커니즘으로부터 미디어(예를 들어, 이미지)를 검색할 수 있고, 사용자가 이미지에 나타난 안면을 선택하도록 할 수 있다. 안면 인식은 안면 상에서 실행될 수 있고, 이미지에 나타난 사람(들)을 식별할 수 있다. 디바이스는 안면 인식에 의해 식별된 사람(들)에 관한 식별 정보를 제공할 수 있다.
본원에 사용된 바와 같은 용어인 "미디어"는 임의의 기계-판독 가능하고 기계-저장 가능한 동작 제품, 다큐먼트(document), 전자 미디어, 등을 포함하도록 광범위하게 해석되어야 한다. 미디어는 예를 들어, 다큐먼트에 포함된 정보, 전자 신문, 전자 서적, 전자 잡지, 온라인 백과사전, 전자 미디어(예를 들어, 이미지 파일, 오디오 파일, 비디오 파일, 애니메이션 파일, 웹 캐스트(web cast), 팟캐스트(podcast), 등), 등을 포함할 수 있다.
본원에 사용된 바와 같은 용어인 "다큐먼트"는 임의의 기계-판독 가능하고 기계-저장 가능한 동작 제품을 포함하도록 광범위하게 해석될 수 있다. 문서는 예를 들어, 이메일, 웹사이트, 파일, 파일의 결합, 다른 파일로 임베딩(embedding)되는 링크를 갖는 하나 이상의 파일, 뉴스 그룹 포스팅(news group posting), 상술된 것 중 어느 하나를 포함할 수 있다. 인터넷의 상황에서, 공통 다큐먼트는 웹 페이지이다. 다큐먼트는 종종 텍스철 정보(textual information)를 포함하며, (메타 정보, 이미지, 하이퍼링크, 등과 같은) 임베딩된 정보 및/또는 (자바스크립트, 등과 같은) 임베딩된 명령을 포함할 수 있다.
본원에 사용된 바와 같은 용어인 "식별 정보"는 미디어에서 식별되는 임의의 물체에 속한다고 간주되는 임의의 정보를 포함하도록 광범위하게 해석될 수 있다. 예를 들어, 물체는 사람(예를 들어, 유명인, 음악가, 가수, 영화배우, 운동선수, 친구, 및/또는 미디어로부터 식별될 수 있는 임의의 사람), 장소(예를 들어, 건물, 랜드마크, 길, 교량, 및/또는 미디어로부터 식별될 수 있는 임의의 장소), 및/또는 사물(예를 들어, 동물, 인쇄 미디어(예를 들어, 책, 잡지 등), 만화 캐릭터, 영화 캐릭터(예를 들어, 킹콩), 식물, 나무 및/또는 미디어로부터 식별될 수 있는 임의의 "사물")을 포함할 수 있다.
본원에 사용된 바와 같은 용어인 "링크"는 컨텐츠로/컨텐츠로부터 다른 컨텐츠 또는 동일 컨텐츠의 다른 부분으로부터/다른 컨텐츠 또는 동일 컨텐츠의 다른 부분으로의 임의의 레퍼런스(reference)를 포함하도록 광범위하게 해석될 수 있다.
본원에 사용된 바와 같은 용어인 "디바이스"는 무선 전화; 셀룰러 무선 전화와 데이터 프로세싱, 팩시밀리 및 데이터 통신 능력을 결합할 수 있는 개인용 통신 시스템(PCS) 단말기; 무선 전화, 페이저(pager), 인터넷/인트라넷 액세스, 웹 브라우저, 오거나이저(orgnizer), 달력, 카메라(예를 들어, 비디오 및/또는 정지 이미지 카메라), 사운드 레코더(예를 들어, 마이크로폰), 도플러 수신기(Doppler receiver), 및/또는 전세계 측위 시스템(GPS) 수신기를 포함할 수 있는 개인용 디지털 보조디바이스(PDA); 랩톱; GPS 디바이스; 카메라(예를 들어, 비디오 및/또는 정지 이미지 카메라); 사운드 레코더(예를 들어, 마이크로폰); 및 개인용 컴퓨터, 가정용 엔터테인먼트 시스템 및 텔레비전과 같은 미디어를 디스플레이할 수 있는 임의의 다른 계산 또는 통신 디바이스, 등을 포함하도록 광범위하게 해석될 수 있 다.
도1은 본 발명의 원리와 부합하는 개념을 도시한 예시도이다. 도1에 도시된 바와 같이, 디바이스의 디스플레이(100)는 사용자에 의해 선택된 이미지 또는 비디오(이미지/비디오)(110)를 포함할 수 있다. 예를 들어, 일 구현예에서, 이미지/비디오(110)는 디스플레이(100) 상에 현재 디스플레이되고 있는 영화 또는 뮤직 비디오일 수 있다. 디스플레이(100)는 선택시에 사용자가 이미지/비디오(110)의 안면의 일부를 (예를 들어, 커서(130)로) 마킹할 수 있도록 할 수 있는 마크 페이스 아이템(mark face item)(120)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 안면이 커서(130)로 마킹되면, 사용자는 디스플레이(100) 상에 제공된 안면 인식 아이템(140)(예를 들어, 아이콘, 링크, 버튼, 및/또는 다른 유사한 선택 메커니즘)을 선택하고, 이하에 더 상세히 설명되는 바와 같이, 이미지/비디오(100)의 안면 인식을 수행할 수 있다. 도1에 도시된 바와 같이, 디스플레이(100)는 사용자가 오디오 파일을 청취하고 있을 때 디스플레이될 수 있는 오디오 파일 아이템(150)(예를 들어, 아이콘, 링크, 버튼, 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 예를 들어, 일 구현예에서, 사용자는 디바이스 상에서 음악(예를 들어, 디지털 음악, MP3, MP4, 등)을 청취할 수 있다. 사용자는 디스플레이(100) 상에 제공되는 음성 인식 아이템(160)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 선택하고, 이하에 더 상세히 설명되는 바와 같이, 오디오 파일의 음성 인식을 수행할 수 있다. 또 다른 구현예에서, 사용자는 음성 인식 아이템(160)을 선택하고, 디스플레이(100) 상에 현재 디스플레이되 고 있는 영화(예를 들어, 비디오(110))에서 음성의 음성 인식을 수행할 수 있다. 또 다른 구현예에서, 사용자는 디스플레이(100) 상에 현재 제공되는 미디어(예를 들어, 비디오(110))에 대해 안면 및 음성 인식 모두를 수행할 수 있다.
예시적 디바이스 아키텍처
도2는 본 발명의 원리와 부합하는 구현예에 따른 예시적 디바이스(200)의 도면이다. 도2에 도시된 바와 같이, 디바이스(200)는 하우징(210), 스피커(220), 디스플레이(230), 제어 버튼(240), 키패드(250), 마이크로폰(260) 및 카메라(270)를 포함할 수 있다. 하우징(210)은 외부 요소로부터 디바이스(200)의 구성요소를 보호할 수 있다. 스피커(220)는 디바이스(200)의 사용자에게 가청 정보를 제공할 수 있다. 디스플레이(230)는 사용자에게 가시 정보를 제공할 수 있다. 예를 들어, 디스플레이(230)는 입중계 또는 출중계 호출, 미디어, 게임, 폰북, 현재 시간, 등에 관한 정보를 제공할 수 있다. 본 발명의 원리와 부합하는 구현예에서, 디스플레이(230)는 (예를 들어, 안면 또는 음성 인식을 통해) 식별될 수 있는 미디어 형태의 정보를 사용자에게 제공할 수 있다. 제어 버튼(240)은 사용자가 디바이스(200)와 상호작용하도록 하여 디바이스(200)가 하나 이상의 동작을 수행하도록 할 수 있다. 키패드(250)는 표준 전화 키패드를 포함할 수 있다. 마이크로폰(260)은 사용자로부터 가청 정보를 수신할 수 있다. 카메라(270)는 사용자가 비디오 및/또는 이미지(예를 들어, 사진)을 캡처하고 저장할 수 있도록 할 수 있다.
도3은 디바이스(200)의 예시적 구성요소의 도면이다. 도3에 도시된 바와 같이, 디바이스(200)는 프로세싱 로직(310), 저장장치(320), 사용자 인터페이 스(330), 통신 인터페이스(340), 안테나 어셈블리(350) 및 미디어 정보 수집기(360)를 포함할 수 있다. 프로세싱 로직(310)은 프로세서, 마이크로프로세서, 주문형 반도체(ASIC), 필드 프로그래머블 게이트 어레이(field programmable gate array: FPGA), 등을 포함할 수 있다. 프로세싱 로직(310)은 디바이스(200) 및 이이 구성요소의 동작을 제어하기 위해 데이터 구조 또는 소프트웨어 프로그램을 포함할 수 있다. 저장장치(320)는 프로세싱 로직(310)에 의해 사용될 수 있는 데이터 및 명령을 저장하기 위해 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM) 및/또는 또 다른 유형의 메모리를 포함할 수 있다.
사용자 인터페이스(330)는 정보를 디바이스(200)로 입력하고/하거나 정보를 디바이스(200)로부터 출력하는 메커니즘을 포함할 수 있다. 입력 및 출력 메커니즘의 예는 전기 신호를 수신하여 오디오 신호를 출력하는 스피커(예를 들어, 스피커(220)), 이미지 및/또는 비디오 신호를 수신하여 전기 신호를 출력하는 카메라(예를 들어, 카메라(270)), 오디오 신호를 수신하여 전기 신호를 출력하는 마이크로폰(예를 들어, 마이크로폰(260)), 데이터 및 제어 명령이 디바이스(200) 내로 입력되도록 하는 버튼(예를 들어 조이스틱, 제어 버튼(240) 및/또는 키패드의 키(250)), 시각 정보(예를 들어, 카메라(270)으로부터의 정보)를 출력하는 디스플레이(예를 들어, 디스플레이(230)) 및/또는 디바이스(200)가 진동하도록 하는 진동기를 포함할 수 있다.
통신 인터페이스(340)는 예를 들어, 프로세싱 로직(310)으로부터의 기저대역 신호를 무선 주파수(RF) 신호로 변환할 수 있는 송신기 및/또는 RF 신호를 기저대 역 신호로 변환할 수 있는 수신기를 포함할 수 있다. 대안적으로, 통신 인터페이스(340)는 송신기 및 수신기 모두의 기능을 수행하는 송수신기를 포함할 수 있다. 통신 인터페이스(340)는 RF 신호의 송신 및 수신을 위하여 안테나 어셈블리(350)에 접속될 수 있다. 안테나 어셈블리(350)는 무선으로 RF 신호를 송신 및 수신하는 하나 이상의 안테나를 포함할 수 있다. 안테나 어셈블리(350)는 통신 인터페이스(340)로부터 RF 신호를 수신하여 이를 무선으로 송신하며, 무선으로 RF 신호를 수신하여 이를 통신 인터페이스(340)로 제공할 수 있다. 일 구현예에서, 예를 들어, 통신 인터페이스(340)는 네트워크(예를 들어, 근거리 네트워크(LAN), 광역 네트워크(WAN), 일반 전화 교환 네트워크(PSTN)와 같은 전화 네트워크, 인트라넷, 인터넷 또는 네트워크의 결합)와 통신할 수 있다.
미디어 정보 수집기(360)는 디바이스(200)로부터 미디어 정보를 획득할 수 있다. 일 구현예에서, 미디어 정보는 디바이스(200) 상에 저장되거나 (예를 들어 통신 인터페이스(340)에 의해) 디바이스(200)에 의해 수신된 미디어에 대응할 수 있다. 이 경우에, 미디어 정보 수집기(360)는 미디어 저장 디바이스(예를 들어, 저장장치(320)), 또는 다른 소스(예를 들어, 외부 미디어 저장 디바이스와의 유선 또는 무선 통신)로부터 미디어를 수신할 수 있는 통신 디바이스(예를 들어, 통신 인터페이스(340))를 포함할 수 있다. 다른 구현예에서, 미디어 정보는 디바이스(200)에 의해 캡처되거나 검색되는 미디어에 대응할 수 있다. 이 경우에, 미디어 정보 수집기(360)는 오디오 정보를 기록할 수 있는 마이크로폰(예를 들어 마이크로폰(260)), 또는 이미지 및/또는 비디오를 기록할 수 있는 카메라(예를 들어, 카메 라(270))를 포함할 수 있다. 캡처된 미디어는 미디어 저장 디바이스(예를 들어, 저장장치(320))에 저장되거나 저장되지 않을 수 있다.
이하에 세하게 설명되는 바와 같이, 본 발명의 원리와 부합하는 디바이스(200)는 미디어 정보를 기반으로 하여 미디어 식별에 관한 특정 동작(예를 들어, 안면 및/또는 음성 인식)을 수행할 수 있다. 디바이스(200)는 프로세싱 로직(320)이 저장장치(320)와 같은 컴퓨터 판독 가능한 매체에 포함되는 애플리케이션의 소프트웨어 명령을 실행하는 것에 응답하여 이러한 동작을 수행할 수 있다. 컴퓨터-판독 가능한 매체는 물리적 또는 논리적 메모리 디바이스 및/또는 반송파로서 규정될 수 있다.
소프트웨어 명령은 통신 인터페이스(340)를 통하여 또 다른 컴퓨터-판독 가능한 매체 또는 또 다른 디바이스로부터 저장장치(320) 내로 판독될 수 있다. 저장장치(320)에 포함된 소프트웨어 명령은 프로세싱 로직(310)이 후술되는 프로세스를 수행하도록 할 수 있다. 대안적으로, 하드와이어드 회로(hardwired circuitry)가 본 발명의 원리와 부합하는 프로세스를 구현하기 위하여 소프트웨어 명령 대신, 또는 상기 소프트웨어 명령과 함께 사용될 수 있다. 그러므로, 본 발명의 원리와 부합하는 구현예는 하드웨어 회로 및 소프트웨어의 임의의 특정 결합으로 제한되지 않는다.
예시적인 미디어 식별 방법
도4A 내지 6B는 본 발명의 원리와 부합하는 구현예에 따른 예시적인 미디어 식별 방법의 도면이다. 도4A 내지 6B의 방법은 디바이스(200)(예를 들어, 디바이 스(200)의 디스플레이(230)) 상에서 전달될 수 있다.
이미지 및/또는 비디오의 안면 인식
도4A에 도시된 바와 같이, 디바이스의 디스플레이(400)(예를 들어, 디바이스(200)의 디스플레이(230))는 이미지/비디오(110)를 디스플레이할 수 있다. 디스플레이(400)는 선택시에 사용자가 이미지/비디오(110)의 안면의 일부를 (예를 들어, 일 구현예에서, 커서(130)로) 마킹할 수 있도록 할 수 있는 마크 페이스 아이템(120)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 안면이 커서(130)로 마킹되면, 사용자는 디스플레이(400) 상에 제공된 안면 인식 아이템(140)(예를 들어, 아이콘, 링크, 버튼 및/또는 유사한 선택 메커니즘)을 선택하여 이미지/비디오(110)의 안면 인식을 수행할 수 있다. 일 구현예에서, 안면 인식은 (예를 들어, 프로세싱 로직(310) 및 디바이스(200)의 저장장치(320)를 통하여) 디바이스에 제공되는 안면 인식 소프트웨어로 이미지/비디오(110)에 대해 수행될 수 있다. 또 다른 구현예에서, 안면 인식은 (예를 들어, 통신 인터페이스(340)를 통하여) 디바이스(200)와 통신하는 디바이스 상에 제공되는 안면 인식 소프트웨어로 이미지/비디오(110)에 대해 수행될 수 있다.
안면 인식 소프트웨어는 이용 가능한 임의의 종래의 안면 인식 소프트웨어를 포함할 수 있다. 예를 들어, 안면 인식 소프트웨어는 검증 및 식별에 사용되는 안면 인식 기술을 포함할 수 있다. 전형적인 검증 태스크(verification task)는 시설로의 입장 또는 데이터로의 액세스를 허용하기 전에 사람이 자신이 자질을 가진 누구이다라고 결정할 수 있다. 이와 같은 경우에, 안면 인식 소프트웨어는 현재 이미 지를 데이터베이스 내의 이미지와 비교할 수 있다. 이와 같은 안면 이미지가 제어된 상황 하에서 캡처되어(예를 들어, 유명인에 대한 사진 촬영), 더 어려운 상황 하에서 촬영된 사진보다 더 높은 품질의 이미지를 발생시킬 수 있기 때문에, 이 방법에 의하여 정합율(match rate)이 양호할 수 있다.
전형적인 식별 태스크는 디지털 카메라 또는 비디오 카메라와 같은 소스로부터의 미지의 개인을 데이터베이스 내의 이미지와 정합시키도록 시도할 수 있다. 이 용도를 위해 획득된 이미지가 일반적으로 제어된 조건 하에서 대상의 협동으로 생성될 수 없기 때문에(예를 들어, 공공 장소에서의 유명인의 사진을 찍는 것), 식별 정합이 더 어려울 수 있다.
현재의 안면 인식 소프트웨어는 4가지 기본 방법; 외관-기반, 규칙-기반, 특징(feature)-기반 및/또는 텍스처-기반 중 하나 이상을 사용할 수 있다. 외관-기반 방법은 이미지로부터 안면 특징을 추출하도록 시도하기보다는 오히려 2개 이상의 이미지의 유사성을 측정할 수 있다. 규칙-기반 방법은 이미지 사이의 관련성을 측정하기 위하여 안면 구성요소(예를 들어 눈, 코 및 입)를 분석할 수 있다. 특징-기반 방법은 안면 특징의 특성(예를 들어, 에지 퀄리티(edge quality), 형상 및 피부색)을 분석할 수 있다. 텍스처-기반 방법은 안면의 상이한 텍스처 패턴을 검사할 수 있다. 이러한 방법 각각에 대해, 안면 인식 소프트웨어는 데이터를 규정 및 저장하는 알고리즘을 사용하여 템플릿(template)을 생성할 수 있다. 이미지가 검증 및 식별을 위해 캡처될 수 있을 때, 안면 인식 소프트웨어는 데이터를 프로세싱하고 이를 템플릿 정보와 비교할 수 있다.
본 발명의 원리와 부합하는 하나의 예시적 구현예에서, Cognitec Systems, Neven Vision, Identix 및 Acsys Biometrics' FRS Discovery로부터 입수 가능한 소프트웨어와 유사하고/하거나 상기 소프트웨어로부터의 안면 인식 소프트웨어가 안면 인식을 수행하는데 사용할 수 있다.
도4A에 또한 도시된 바와 같이, 이미지/비디오(110)의 안면 인식의 결과(410)가 디스플레이(400) 상에 제공될 수 있다. 결과(410)는 이미지/비디오(110)에 나타난 안면과 정합하는 사람(들)의 리스트를 포함할 수 있다. 예를 들어, 일 구현예에서, 결과(410)는 "유명인 번호 1"(420) 및 사람(420)의 정합 근사도의 표시(예를 들어, 사람(420)이 이미지/비디오(110)와 정합할 98% 가능성)를 포함할 수 있다. 결과(410)는 또한 이미지/비디오(110)를 사람(420)의 공지된 이미지와 비교하기 위해 (이미지/비디오(110)와 동일하거나 동일하지 않을 수 있는) 이미지(430)를 포함할 수 있다. 결과(410)는 다양한 방식으로 배열될 수 있다. 예를 들어, 일 구현예에서, 도4A에 도시된 바와 같이, 결과(410)는 가장 근접한 정합으로부터 소정의 퍼센티지(예를 들어, 50%) 내에서 정합하는 사람까지 내림 차순으로 정합하는 사람의 리스트를 제공할 수 있다. 사용자는 선택된 사람에 관한 식별 정보를 디스플레이하기 위해 결과(410)로부터 사람을 선택할 수 있다. 예를 들어, 일 구현예에서, 각각의 사람(예를 들어, 사람(420)) 및/또는 각각의 이미지(430)는 사람에 관한 식별 정보로의 링크를 제공할 수 있다.
사용자가 결과로부터 사람을 선택(예를 들어, 사람(420)을 선택)하는 경우, 디스플레이(400)는 도4B에 도시된 예시적 식별 정보를 제공할 수 있다. 광범위한 식별 정보가 제공될 수 있다. 예를 들어, 사람이 영화배우인 경우, 디스플레이(400)는 메뉴부(440) 및 식별 정보부(450)를 제공할 수 있다. 메뉴부(440)는 예를 들어, 식별 정보부(450)의 부분으로의 선택 가능한 링크(예를 들어, "전기(biography)", "영화 경력", "TV 경력" "웹사이트" 및/또는 "리마인더(reminder)")를 포함할 수 있다. 도4B에 도시된 예시 구현예에서, 식별 정보부(450)는 (예를 들어, 제목 "전기" 하의) 그 사람에 관한 전기 정보, (예를 들어, 제목 "영화 경력" 하의) 그 사람에 관한 영화 경력 정보, (예를 들어, 제목 "텔레비전 경력" 하의) 그 사람에 관한 텔레비전 경력 정보, (예를 들어, 제목 "웹 사이트" 하의) 그 사람에 관한 웹 사이트 정보 및/또는 (예를 들어, 제목 "리마인더" 하의) 리마인더 정보를 포함할 수 있다. 리마인더 정보는 사용자에 의한 선택시에, 사람이 오늘밤에 텔레비전 상에 출연할 수 있다는 리마인더를 설정할 수 있는 리마인더 아이템(reminder item)(460)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다.
도4A가 한 사람의 안면을 마킹하는 것을 도시할지라도, 본 발명의 원리와 부합하는 일 구현예에서는, 다수의 사람, 장소 및 사물이 유사한 방식으로 식별을 위해 마킹될 수 있다. 따라서 식별 정보는 마킹된 사람, 장소 또는 사물 각각에 대해 디스플레이될 수 있다. 더구나, 사용자는 이미지 또는 비디오의 안면을 마킹할 필요가 없고, 오히려, 일 구현예에서, 안면 인식 아이템(140)의 선택시에, 이미지 또는 비디오의 안면이 (예를 들어 안면 인식 소프트웨어에 의해) 이미지 또는 비디오에 자동적으로 위치될 수 있다.
도4B가 예시적 식별 정보를 도시할지라도, 식별되는 미디어에 따라 더 많거나 더 적은 식별 정보가 제공될 수 있다. 예를 들어, 식별되는 사람이 음악가인 경우, 식별 정보는 앨범 정보, 뮤직 비디오 정보, 음악 다운로드 정보, 추천(예를 들어, 음악가로부터 입수 가능한 다른 노래, 비디오 등) 등을 포함할 수 있다. 더구나, 도4B가 메뉴부(440)를 도시할지라도, 디스플레이(400)는 이와 같은 메뉴부를 포함하는 것이 아니라, 식별 정보(예를 들어, 식별 정보부(450))를 제공할 수 있다.
오디오의 음성 인식
도5A에 도시된 바와 같이, 디바이스의 디스플레이(500)(예를 들어, 디바이스(200)의 디스플레이(230))는 오디오 파일 아이템(150)(예를 들어, 아이콘, 링크, 버튼, 및/또는 다른 유사한 선택 메커니즘)을 디스플레이할 수 있고/있거나, 디바이스(예를 들어, 디바이스(200))는 오디오 파일 아이템(150)과 관련된 오디오 파일을 재생할 수 있다. 사용자는 디스플레이(500) 상에 제공된 음성 인식 아이템(160)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 선택하여, 오디오 파일의 음성 인식을 수행할 수 있다. 일 구현예에서, 음성 인식은 (예를 들어, 프로세싱 로직(310) 및 디바이스(200)의 저장장치(320)를 통하여) 디바이스 내에 제공된 음성 인식 소프트웨어로 오디오 파일에 대해 수행될 수 있다. 또 다른 구현예에서, 음성 인식은 (예를 들어, 통신 인터페이스(340)를 통하여) 디바이스(200)와 통신하는 디바이스 상에 제공된 음성 인식 소프트웨어로 오디오 파일에 대해 수행될 수 있다.
음성 인식 소프트웨어는 이용 가능한 임의의 종래의 음성 인식 소프트웨어를 포함할 수 있다. 예를 들어, 음성 인식 소프트웨어는 사람의 음성으로부터 사람을 인식할 수 있는 임의의 소프트웨어를 포함할 수 있다. 음성 인식 소프트웨어는 스피치(speech)로부터 특징을 추출하고, 이를 모델링하고, 이를 사람의 음성으로부터 사람을 인식하는데 사용할 수 있다. 음성 인식 소프트웨어는 개인 사이에서 상이하다는 것을 발견하였던 스피치의 음향 특징을 사용할 수 있다. 이러한 음향 패턴은 어내터미(anotomy)(예를 들어, 목 및 입의 크기 및 형상) 및 학습된 행동 패턴(예를 들어, 음성 피치(voice pitch) 및 발언하는 스타일) 둘 모두를 반영할 수 있다. 학습된 패턴의 음성 템플릿(예를 들어, "보이스프린트(voiceprints)") 내로의 통합은 음성 인식에 "행동 바이오매트릭(behavioral biometric)"으로서의 분류를 가져온다. 음성 인식 소프트웨어는 3개의 스타일의 발언된 입력: 텍스트-의존, 텍스트-프롬프티드(text-prompted) 및 텍스트-독립을 사용할 수 있다. 텍스트-의존 입력은 패턴 인식 기술을 사용하여 발언된 워드(spoken word)를 유효 코드 워드(valid code word)의 데이터베이스와 정합시키는 것을 포함할 수 있다. 텍스트-프롬프티드 입력은 시스템이 사용될 때마다 새 로운 키 문장으로 사용자를 프롬프트하고, 시스템이 프롬프트된 문장을 반복하는 사람이 등록된 화자였다고 결정할 때에만 입력 발화(input utterance)를 수용하는 것을 포함할 수 있다. 텍스트-독립 입력은 음성을 사전프로세싱하고, 특징을 추출하고, 패턴 인식 및 화자 식별을 사용하여 특정 음성의 특징을 데이터베이스에 저장된 템플릿의 특징과 정합시키는 것을 포함할 수 있다. 숨겨진 Markov 모델, 패턴 정합 알고리즘, 신경 네트워크, 매트릭스 표현 및 /또는 판정 트리(decision tree)를 포함한 다양한 기술이 보이스프린트를 프로세싱하고 저장하는데 사용될 수 있다.
본 발명의 원리와 부합하는 일 예시 구현예에서, Gold Systems, PIKA Technologies Inc., RightNow Technologies, SearchCRM 및/또는 SpeechPhone LLC로부터 입수 가능한 소프트에어와 유사하고/하거나 상기 소프트웨어로부터의 음성 인식 소프트웨어가 음성 인식을 수행하는데 사용될 수 있다.
도5A가 오디오 파일 상에서 수행되는 음성 인식을 도시할지라도, 본 발명의 원리와 부합하는 일 구현예에서, 음성 인식은 디바이스(예를 들어, 디바이스(200))에 의해 디스플레이되는 비디오에 의해 생성되고 있는 오디오에 대해 수행될 수 있다. 예를 들어, 사용자가 디바이스(200) 상에서 영화를 시청하고 있는 경우, 사용자는 음성 인식 아이템(160)을 선택하여 영화에서의 음성에 대한 음성 인식을 수행할 수 있다.
도5A에 또한 도시된 바와 같이, 음성 인식의 결과(510)가 디스플레이(500) 상에 제공될 수 있다. 결과(510)는 오디오 파일(또는 비디오에서의 오디오)의 음성 과 정합하는 사람의 리스트를 포함할 수 있다. 예를 들어, 일 구현예에서, 결과(510)는 "유명인 번호 1(520)" 및 사람(520)의 음성의 정합 근사도의 표시(예를 들어, 사람(520)의 음성이 오디오 파일 또는 비디오에서의 오디오와 정합하는 98% 확실성)를 포함할 수 있다. 결과(510)는 또는 음성이 오디오 파일(또는 비디오에서의 오디오)에 정합될 수 있는 사람(520)의 이미지(530)를 포함할 수 있다. 결과(510)는 다양한 방식으로 배열될 수 있다. 예를 들어, 도5A에 도시된 바와 같이, 결과(510)는 가장 근접한 정합으로부터 소정의 퍼센티지(예를 들어 50%) 내의 정합하는 사람까지 내림 차순으로 정합하는 사람의 리스트를 제공할 수 있다. 사용자는 선택된 사람에 관한 식별 정보를 디스플레이하기 위해서 결과(510)로부터 사람을 선택할 수 있다. 예를 들어, 일 구현예에서, 각각의 사람(예를 들어, 사람(520)) 및/또는 각각의 이미지(530)는 사람에 관한 식별 정보로의 링크를 제공할 수 있다.
오디오 파일(또는 비디오에서의 오디오)은 다양한 방식으로 사람과 정합될 수 있다. 예를 들어, 일 구현예에서, 음성 인식 소프트웨어는 오디오 파일에서의 스피치로부터 특징을 추출하고, 이를 모델링하고, 이를 사람의 음성으로부터 사람(들)을 인식하는데 사용할 수 있다. 또 다른 구현예에서, 음성 인식 소프트웨어는 오디오 파일(또는 오디오 파일에 의해 재생된 음악)에서 발언된 워드를 비교하고, 발언된 워드를 이와 같은 워드(예를 들어, 영화에서의 유명한 대사, 음악 파일, 등)을 포함하는 데이터베이스와 비교할 수 있다. 또 다른 구현예에서, 음성 인식 소프트웨어는 오디오 파일을 사람과 정합시키기 위하여 상술된 기술을 결합을 사용할 수 있다.
사용자가 결과로부터 사람을 선택(예를 들어, 사람(520)을 선택)하는 경우, 디스플레이(500)에는 도5B에 도시된 예시적 식별 정보가 제공될 수 있다. 광범위한 식별 정보가 제공될 수 있다. 예를 들어, 사람이 영화배우인 경우, 디스플레이(540)는 메뉴부(540) 및 식별 정보부(550)를 제공할 수 있다. 메뉴부(540)는 예를 들어, 식별 정보부(550)의 부분으로의 선택 가능한 링크(예를 들어 "영화 대사", "전기", "영화 경력", "TV 경력", "웹 사이트" 및/또는 "리마인더")를 포함할 수 있다. 도5B에 도시된 예시적 구현예에서, 식별 정보부(550)는 (예를 들어, 제목 "영화 대사" 하의) 영화 대사 정보(560), (예를 들어, 제목 "전기" 하의) 대사를 발언하는 사람에 관한 전기 정보, (예를 들어, 제목 "영화 경력" 하의) 그 사람에 관한 영화 경력 정보, (예를 들어, 제목 "텔레비전 경력" 하의) 그 사람에 관한 텔레비전 경력 정보, (예를 들어, 제목 "웹사이트" 하의) 그 사람에 관한 웹사이트 정보 및/또는 (예를 들어, 제목 "리마인더" 하의) 리마인더 정보를 포함할 수 있다. 영화 대사 정보(560)는 예를 들어, 음성 인식 소프트웨어에 의해 인식된 영화로부터의 대사 및 영화 제목을 제공할 수 있다. 리마인더 정보는 사용자에 의한 선택시에, 사람이 오늘밤에 텔레비전 상에 출연할 수 있다는 리마인더를 설정할 수 있는 리마인더 아이템(570)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 도5B가 메뉴부(540)를 도시할지라도, 디스플레이(500)는 이와 같은 메뉴부를 포함하는 것이 아니라, 식별 정보(예를 들어, 식별 정보부(550))를 제공할 수 있다.
도5B는 예시적 식별 정보를 도시할지라도, 식별되는 미디어에 따라 더 많거나 더 적은 식별 정보가 제공될 수 있다. 예를 들어, 사람(예를 들어, 사람(520))이 음악가인 경우, 일 구현예에서, 도5C에 도시된 바와 같이, 식별 정보는 음악가와 관련된 정보를 포함할 수 있다. 도5C에 도시된 바와 같이, 디스플레이(500)는 메뉴부(580) 및 식별 정보부(590)를 제공할 수 있다. 메뉴부(580)는 예를 들어, 식별 정보부(590)의 부분으로의 선택 가능한 링크(예를 들어, "노래 이름", "전기", "앨범", "비디오", "다운로드", 및/또는 "리마인더")를 포함할 수 있다. 도5C에 도 시된 예시적 구현예에서, 식별 정보부(590)는 (예를 들어, 제목 "노래 이름" 하의) 노래 이름 정보, (예를 들어, 제목 "전기" 하의) 음악가에 관한 전기 정보, (예를 들어, 제목 "앨범" 하의) 음악가에 관한 앨범 정보, (예를 들어, 제목 "비디오" 하의) 음악가에 관한 비디오 정보, (예를 들어, 제목 "다운로드" 하의) 음악가에 이용 가능한 다운로드 가능 정보 및/또는 (예를 들어, 제목 "리마인더" 하의) 리마인더 정보를 포함할 수 있다. 리마인더 정보는 사용자에 의해 선택시에, 음악가가 오늘밤에 텔레비전 상에 출연할 수 있다는 리마인더를 설정할 수 있는 리마인더 아이템(570)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 도5C가 메뉴부(580)를 도시할지라도, 디스플레이(500)는 이와 같은 메뉴부를 포함하는 것이 아니라, 식별 정보(예를 들어, 식별 정보부(590))를 제공할 수 있다.
디바이스에 의해 캡처된 이미지/비디오/오디오의 안면 및/또는 음성 인식
일 구현예에서, 도4A 내지 도5C에 도시된 바와 같이, 디바이스(예를 들어, 디바이스(200))는 디바이스(200) 상에 저장되고, 디바이스(200)에 의해 액세스 가능한 또 다른 디바이스에 저장되고/저장되거나 디바이스(200)로 다운로드되었던 미디어를 디스플레이 및/또는 재생할 수 있다. 예를 들어, 일 구현예에서, 디바이스(200)는 저장장치(320)에 미디어를 저장하고, 이후에 미디어를 재생할 수 있다. 또 다른 구현예에서, 디바이스(200)는 또 다른 디바이스에 접속될 수 있고(예를 들어, 컴퓨터는 DVD 플레이어에 접속될 수 있다), 다른 디바이스에 저장된 미디어를 재생할 수 있다. 또 다른 구현예에서, 디바이스(200)는 (예를 들어, 인터넷으로부 터) 미디어를 다운로드하고, 상기 미디어를 디바이스(200) 상에서 재생할 수 있다. 다운로드된 미디어는 디바이스(200)의 저장장치(320)에 저장되거나 저장되지 않을 수 있다.
또 다른 구현예에서, 도6A 및 6B에 도시된 바와 같이, 디바이스(예를 들어 디바이스(200))는 미디어를 캡처하고, 미디어에 관한 정합 식별 정보를 디스플레이하기 위하여 미디어에 대해 안면 및/또는 음성 인식을 수행할 수 있다. 예를 들어, 도6A에 도시된 바와 같이, 디바이스의 디스플레이(230)(예를 들어, 디바이스(200)의 디스플레이(230))는 사진을 찍고/찍거나 비디오를 기록하기 위한 메커니즘(예를 들어 카메라(270))을 제공할 수 있다. 디스플레이(600)는 선택시에 사용자가 디바이스(200)로(예를 들어, 디바이스(200)의 카메라(270)를 통해서) 이미지(610)(예를 들어, 사진)를 캡처할 수 있도록 할 수 있는 카메라 아이템(620)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 디스플레이(600)는 선택시에 사용자가 디바이스(200)로(예를 들어, 디바이스(200)의 카메라(270)를 통해서) 비디오(예를 들어, 영화)를 캡처할 수 있도록 할 수 있는 비디오 아이템(630)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 디스플레이(600)는 사용자가 디바이스(200)에 의해 캡처되는 이미지 및/또는 비디오를 확대하도록 할 수 있는 선택적 메커니즘(640)을 또한 포함할 수 있다.
도6A에 또한 도시된 바와 같이, 디스플레이(600)는 선택시에, 사용자가 이미지(610)의 안면의 일부를 (예를 들어, 일 구현예에서, 커서(130)로) 마킹할 수 있 도록 할 수 있는 마크 페이스 아이템(120)(예를 들어, 아이콘, 링크, 버튼, 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 안면이 커서(130)로 마킹되는 경우, 사용자는 도4A 및 도4B와 관련하여 상술된 바와 같이, 디스플레이(600) 상에 제공된 안면 인식 아이템(140)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 선택하여 이미지(610)의 안면 인식을 수행할 수 있다.
도6B에 도시된 바와 같이, 사용자는 비디오 아이템(630)을 선택하고, 디바이스로(예를 들어, 디바이스(200)의 카메라(270)를 통해서) 비디오(650)를 캡처할 수 있다. 사용자는 디바이스(200)의 입력 메커니즘(예를 들어, 제어 버튼(240) 및/또는 키패드의 키(250))의 선택 시에 (예를 들어, 일시정지 텍스트(660)로 나타낸 바와 같이) 비디오(650)를 일시정지할 수 있다. 비디오(650)가 일시정지되는 경우, 사용자는 자신이 비디오(650)의 안면의 일부를 (예를 들어 일 구현예에서, 박스(670)로) 마킹할 수 있도록 할 수 있는 마크 페이스 아이템(120)을 선택할 수 있다. 비디오에서의 일시정지된 프레임이 마킹될 수 있고/있거나, 사용자가 마킹될 비디오의 프레임을 위치시키기 위하여 비디오 상에서 뒤쪽 및/또는 앞쪽으로 검색할 수 있다. 안면이 박스(670)로 마킹되는 경우, 사용자는 도4A 및 4B와 관련하여 상술된 바와 같이, 디스플레이(600) 상에 제공된 안면 인식 아이템(140)(예를 들어, 아이콘, 링크, 버튼, 및/또는 다른 유사한 선택 메커니즘)을 선택하여 비디오(650)의 안면 인식을 수행할 수 있다. 대안적인 구현예에서, 비디오(650)에서의 사람의 안면은 비디오(650)가 재생되고 있는 동안, 즉, 비디오(650)를 일시정지함이 없이, 마킹될 수 있다. 추가적으로 및/또는 대안적으로, 사용자는 도5A 내지 5C 와 관련하여 상술된 바와 같이, 비디오(650)가 재생되고 있는 동안 음성 인식 아이템(160)을 선택하여, 비디오(650)의 오디오 부분의 음성 인식을 수행할 수 있다.
또 다른 구현예에서, 사용자는 비디오(650)가 재생되고 있는 동안 안면/음성 인식 아이템(680)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 선택하여, 비디오(650)의 안면 인식 및/또는 비디오(650)의 오디오 부분의 음성 인식을 수행할 수 있다. 비디오(650)의 안면 및 음성 인식의 결합은 예를 들어, 동시에 수행될 수 있다. 대안적으로, 비디오(650)의 안면 인식이 먼저 수행되고, 비디오(650)의 오디오 부분의 음성 인식은 안면 인식이 최종적인 정합을 제공하지 않는 경우에 다음으로 수행될 수 있다(예를 들어, 소정의 정확도 레벨이 음성 인식이 수행되기 전에 설정될 수 있다). 또 다른 예에서, 비디오(650)의 오디오 부분의 음성 인식이 먼저 실행되고, 비디오(650)의 안면 인식은 음성 인식이 최종적인 정합이 제공되지 않는 경우에 다음으로 수행될 수 있다(예를 들어, 소정의 정확도 레벨이 안면 인식이 수행되기 전에 설정될 수 있다).
도6A 및 도6B가 디바이스로 이미지 및/또는 비디오를 캡처하는 것을 도시할지라도, 디바이스는 또한 (예를 들어, 디바이스(200)의 마이크로폰(260)를 통하여) 오디오를 캡처할 수 있다. 캡처된 오디오는 디바이스(200) 상에(예를 들어, 저장장치(320) 내에) 저장되거나, 또는 디바이스(200) 상에 저장되지 않을 수 있다. 음성 인식은 도5A 내지 5C와 관련하여 상술된 바와 같이, 캡처된 오디오에 대해 수행될 수 있다.
일 구현예에서, 디바이스(200)의 사용자는 미디어가 디바이스(200) 상에서 디스플레이되는 방법을 제어할 수 있다. 예를 들어, 디바이스(200)는 사용자가 미디어의 어느 한 부분을 줌인 및 줌아웃하도록 할 수 있는 사용자 제어 미디어 스케일링 메커니즘(예를 들어, 제어 버튼(240) 및/또는 키패드의 키(250))을 포함할 수 있다. 사용자 제어 줌 기능은 도4A 내지 6B와 관련하여 상술된 방법 중 어느 하나와 함께 사용될 수 있다. 디바이스(200)는 사용자가 미디어를 시작하고 정지하도록 할 수 있는(예를 들어, 디바이스(200)의 스피커(220) 상에서의 오디오 재생) 사용자 제어 미디어 제어 메커니즘(예를 들어, 제어 버튼(240) 및/또는 키패드의 키(250))를 더 포함할 수 있다.
도4A 내지 6C와 관련하여 상술된 예시적 미디어 식별 방법은 다양한 시나리오에서 적용될 수 있다. 다음의 시나리오는 본 발명의 양상을 구현하는데 있어서 일부의 예시적 방법을 제공한다.
사람 식별
하나의 예시적 구현예에서, 사람(예를 들어, 유명인, 음악가, 가수, 영화배우, 운동선수, 친구 및/또는 미디어로부터 식별될 수 있는 임의의 사람)은 상술된 예시적 미디어 식별 방법으로 식별될 수 있다. 예를 들어, 영화배우는 디바이스(200) 상에 디스플레이되는 영화 내에 나올 수 있고, 사용자는 영화배우의 이름 및/또는 그 영화배우가 출연한 다른 영화를 찾고자 할 수 있다. 사용자는 영화배우를 식별하고 영화배우에 관한 다른 식별 정보(예를 들어, 영화배우가 출연한 다른 영화)를 찾기 위하여 영화 상에서(예를 들어, 영화를 통해서) 안면 및/또는 음성 인식을 수행할 수 있다.
또 다른 예에서, 가수 또는 음악가가 디바이스(200) 상에 디스플레이되는 뮤직 비디오 및/또는 디바이스(200) 상에서 재생되는 노래 내에 나올 수 있고, 사용자는 가수/음악가의 이름 및 노래의 이름을 찾고자 할 수 있다. 사용자는 이와 같은 식별 정보를 발견하기 위하여 (예를 들어, 뮤직 비디오에서의 가수/음악가의 얼굴에 대해) 안면 인식 및/또는 (예를 들어, 뮤직 비디오의 오디오 및/또는 노래에 대한) 음성 인식을 수행할 수 있다.
또 다른 예에서, 사용자는 디바이스(200) 상에 영화, 뮤직 비디오 및/또는 음악의 라이브러리(library)를 가질 수 있고, 사용자가 유명인를 식별할 때, 디바이스(200)는 유명인을 포함할 수 있는 라이브러리에서 영화, 뮤직 비디오 및/또는 음악으로의 링크를 제공할 수 있다.
부가적인 예에서, 식별 정보는 전화 번호(들) 및/또는 주소(들)를 포함할 수 있고, 디바이스(200)는 사람들(예를 들어, 사용자의 친구들)의 이미지를 디스플레이할 수 있다. 사용자가 이미지 중 하나를 선택할 때, 디바이스(200)는 이미지를 상기 이미지 내의 사람의 전화 번호(들) 및/또는 주소(들)와 정합시키고, 사용자에게 이와 같은 정보를 디스플레이할 수 있다. 디바이스(200)는 이미지 내의 사람의 전화 번호로 자동적으로 전화하도록 프로그래밍될 수 있다.
더 부가적인 예에서, 상술된 예시적 미디어 식별 방법은 바이오메트릭 정보(예를 들어, 안면 정보 및/또는 음성 정보)가 디바이스(200)에 의한 사용에 이용 가능한 한, 유명인 이외의 사람에 대해서 사용될 수 있다. 예를 들어, 사람이 이용 가능한 안면 정보(예를 들어, 범죄 기록, 여권, 등)를 가지며 디바이스(200)가 이 와 같은 정보에 액세스할 수 있는 경우, 디바이스(200)는 예시적 미디어 식별 정보를 사용하여 이와 같은 사람을 식별할 수 있다. 이와 같은 배열은 사람의 이미지를 캡처하고 상기 이미지를 이용가능한 바이오메트릭 정보와 비교함으로써 사람이 공공 장소에서 지명수배자, 테러리스트, 등을 간단하게 식별할 수 있도록 할 수 있다. 이것은 시민이 알려진 범죄자, 테러리스트, 등의 식별 및 체포에 도움을 줄 수 있도록 할 수 있다.
장소 식별
하나의 예시적 구현예에서, 장소(건물, 랜드마크, 길, 교량 및/또는 미디어로부터 식별될 수 있는 임의의 장소)는 상술된 예시적 식별 방법으로 식별될 수 있다. 예를 들어, 디바이스(200)의 사용자는 도시 주위에서 자신의 길을 찾는 것을 시도하고 있을 수 있다. 사용자는 디바이스(200)로 건물의 이미지 또는 비디오를 캡처할 수 있고, 디바이스(200)는 상술된 예시적 미디어 식별 방법으로 건물을 식별할 수 있다(예를 들어, 캡처된 이미지가 디바이스(200)에 의해 액세스 가능한 데이터베이스 내의 건물의 이미지와 비교될 수 있다). 건물의 식별은 사용자에게 도시에서의 현재 위치를 제공할 수 있고, 사용자가 도시 주위에서 자신의 길을 찾을 수 있도록 할 수 있다. 예시적 구현예에서, 디바이스(200)는 식별된 건물을 기반으로 하여 현재 위치를 나타내는 지도를 사용자에게 디스플레이할 수 있고/있거나, 사용자의 목적지(예를 들어, 도시 내의 호텔)의 이미지 및 방향을 제공할 수 있다.
또 다른 예에서, 사용자는 에어리어 내의 랜드마크를 식별하는 것을 시도하고 있을 수 있다. 사용자는 디바이스(200)로 랜드마크이다라고 생각되는 것의 이미 지 또는 비디오를 캡처하고, 디바이스(200)는 상술된 예시적 미디어 식별 방법으로 랜드마크를 식별할 수 있다(예를 들어, 캡처된 이미지가 디바이스(200)의 의해 액세스 가능한 데이터베이스 내의 랜트마크의 이미지와 비교될 수 있다). 디바이스(200)는 또한 디바이스(200)에 의해 현재 식별된 랜드마크 주위에 위치된 다른 랜드마크에 대한 방향을 제공할 수 있다.
또 다른 예에서, 사용자는 디바이스(200)로 (예를 들어, 우편엽서 상에서) 랜드마크의 이미지를 캡처함으로써 방향을 획득할 수 있고, 디바이스(200)는 상술된 예시적 미디어 식별 방법으로 랜드마크의 위치를 식별할 수 있다(예를 들어, 캡처된 이미지가 디바이스(200)에 의해 액세스 가능한 데이터베이스 내의 랜드마크의 이미지와 비교될 수 있다).
더 부가적인 예에서, 사용자는 디바이스(200)로 도로 표지판(street sign)(들)의 이미지 또는 비디오를 캡처함으로써 방향을 획득할 수 있고, 디바이스(200)는 상술된 예시적 미디어 식별 방법으로 도로(들)의 위치를 식별할 수 있다(예를 들어, 캡처된 이미지에서의 도로의 이름이 디바이스(200)에 의해 액세스 가능한 데이터베이스 내의 도로의 이름과 비교할 수 있다). 디바이스(200)는 또한 식별된 도로 주위의 도로, 건물, 랜드마크, 등을 나타내는 지도를 제공할 수 있다.
장소 식별은 디바이스(200)의 어떤 위치를 제공하기 위하여 (예를 들어, 디바이스(200) 내에 제공된) GPS 디바이스와 함께 동작할 수 있다. 예를 들어, 다수의 "제1 가"가 있을 수 있다. 사용자가 어떤 "제1가" 부근에 있는지를 결정하기 위하여, 미디어 식별 및 GPS 디바이스의 결합이 사용자가 GPS 신호를 기반으로 하여 "제1 가"의 위치(예를 들어, 타운(town), 도시, 등)를 적절하게 식별하도록 할 수 있다.
이와 같은 장소 식별 기술은 안면 인식보다는 오히려, "이미지/비디오 인식"을 사용할 수 있다(예를 들어, 장소의 캡처된 이미지 및/또는 비디오가 디바이스(200)에 의해 액세스 가능한 데이터베이스에 포함된 이미지 및/또는 비디오와 비교될 수 있다). 그러나, 본원에 사용된 바와 같이, "안면 인식"은 "이미지/비디오 인식"의 서브셋(subset)으로 간주될 수 있다.
사물 식별
하나의 예시적 구현예에서, 사물(예를 들어, 동물, 인쇄 미디어, 만화 캐릭터, 영화 캐릭터, 식물, 나무 및/또는 미디어로부터 식별될 수 있는 임의의 "사물")은 상술된 예시적 미디어 식별 방법으로 식별될 수 있다. 예를 들어, 디바이스(200)의 사용자는 광야에 있을 수 있고 자신이 식별하고자 하는 동물을 볼 수 있다. 사용자는 디바이스(200)로 동물의 이미지, 비디오 및/또는 사운드를 캡처할 수 있고, 디바이스(200)는 상술된 예시적 미디어 식별 방법으로 동물을 식별할 수 있다(예를 들어, 캡처된 이미지, 비디오 및/또는 사운드가 디바이스(200)에 의해 액세스 가능한 데이터베이스 내의 동물 이미지 및/또는 사운드와 비교될 수 있다). 동물의 식별은 사용자가 위험한 동물에 너무 가까워지지 않도록 하고/하거나, 동물 관측자(예를 들어, 조류 관측자) 또는 과학 교사가 광야에서 미지의 동물을 식별하는 것을 원조할 수 있도록 보장할 수 있다.
또 다른 예에서, 디바이스(200)의 사용자는 (예를 들어, 식물이 과학용, 교 육용, 등의 덩굴옻나무인지를 결정하기 위해서) 식물을 식별하고자 할 수 있다. 사용자는 디바이스(200)로 식물의 이미지 및/또는 비디오를 캡처할 수 있고, 디바이스(200)는 상술된 예시적 미디어 식별 방법으로 식물을 식별할 수 있다(예를 들어, 캡처된 이미지 및/또는 비디오가 디바이스(200)에 의해 액세스 가능한 데이터베이스 내의 식물 이미지와 비교될 수 있다).
부가적인 예에서, 디바이스(200)의 사용자는 만화를 보고 있을 수 있고, 만화 캐릭터를 식별하고자 할 수 있다. 사용자는 만화 캐릭터를 식별하고 상기 만화 캐릭터에 관한 다른 식별 정보(예를 들어, 상기 캐릭터를 포함하는 다른 만화)를 찾기 위하여 만화에 대해(예를 들어, 만화를 통하여) 안면 및/또는 음성 인식을 수행할 수 있다.
이와 같은 사물 식별 기술은 안면 인식보다는 오히려, "이미지/비디오 인식"을 사용할 수 있다(예를 들어, 사물의 캡처된 이미지 및/또는 비디오가 디바이스(200)에 의해 액세스 가능한 데이터베이스에 포함된 이미지 및/또는 비디오와 비교될 수 있다). 그러나 본원에 사용된 바와 같이, "안면 인식"은 "이미지/비디오 인식"의 서브셋으로 간주될 수 있다. 또한, 이와 같은 사물 식별 기술은 안면 인식보다는 오히려, "오디오 인식"을 사용할 수 있다(예를 들어, 사물의 캡처된 오디오가 디바이스(200)에 의해 액세스 가능한 데이터베이스에 포함된 오디오와 비교될 수 있다). 그러나 본원에 사용된 바와 같이, "음성 인식"은 "오디오 인식"의 서브셋으로 간주될 수 있다.
대안적/추가적 기술
상술된 안면 인식, 음성 인식, 이미지/비디오 인식 및/또는 음성 인식은 미디어를 식별하는 다른 기술과 결합될 수 있다. 예를 들어, 일 구현예에서, 임의의 인식 기술 중 어느 하나가 미디어가 재생되고/되거나 디스플레이되고 있는 동안 배경에서 자동으로 실행되고 있을 수 있다. 예를 들어, 안면 및/또는 음성 인식은 영화가 재생되고 있는 동안 배경에서 자동으로 실행될 수 있고/있거나, 영화에서 미디어 물체(예를 들어, 배우, 여배우, 등)를 식별할 수 있다. 이것은 인식 기술이 영화에서 안면 및/또는 음성 인식에 대한 이상적인 선택을 성취할 수 있도록 할 수 있고, 식별 방법을 개선시킬 수 있다.
또 다른 구현예에서, 미디어에서 제공되는 태그(예를 들어, 주제 또는 카테고리와 같이 동작할 수 있는 키워드)(영화, 비디오, 노래, 등을 식별하는 태그)는 인식 기술 중 어느 하나와 함께 사용될 수 있다. 이와 같은 태그는 미디어의 식별을 위한 검색의 폭을 좁히는 것을 원조할 수 있다. 예를 들어, 텔레비전 상의 프로그램 가이드는 이러한 태그를 제공할 수 있고, 미디어 식별을 위한 검색의 폭을 좁히는데 사용될 수 있다. 또 다른 예에서, 일단 미디어가 식별되면, 태그는 미디어에 관한 식별 정보에 추가될 수 있다.
또 다른 구현예에서, 이미지/비디오 인식은 인쇄 미디어(예를 들어, 책, 잡지, 등)의 텍스트를 스캐닝(scanning)하는데 사용될 수 있다. 인쇄 미디어는 캡처된 이미지 및/또는 비디오의 광학적 문자 인식(optical character recognition: OCR)을 통해 식별될 수 있다. 예를 들어, 캡처된 텍스트 이미지는 OCR로 인식될 수 있고, 캡처된 텍스트가 텍스트 데이터베이스에 나타나는지를 확인하기 위해 텍스트 데이터베이스와 비교될 수 있다.
예시적 프로세스
도7A 내지 8은 본 발명의 원리와 부합하는 구현예에 따른 예시적 프로세스의 흐름도이다. 도7A의 프로세스는 일반적으로 저장된 미디어의 식별로서 설명될 수 있다. 도7B의 프로세스는 일반적으로 안면 인식을 기반으로 한 저장된 미디어의 식별로서 설명될 수 있다. 도7C의 프로세스는 일반적으로 음성 인식을 기반으로 한 저장된 미디어의 식별로서 설명될 수 있다. 도8의 프로세스는 일반적으로 안면 및/또는 음성 인식을 기반으로 한 캡처된 미디어의 식별로서 설명될 수 있다.
저장된 미디어의 식별을 위한 프로세스
도7A에 도시된 바와 같이, 프로세스(700)는 미디어 정보를 획득한다(블록 705). 예를 들어, 도3과 관련하여 상술된 일 구현예에서, 미디어 정보는 디바이스(200) 상에 저장되거나 (예를 들어, 통신 인터페이스(340)에 의해) 디바이스(200)에 의하여 수신된 미디어에 대응할 수 있다. 이 경우에, 미디어 정보 수집기(360)는 미디어 저장 디바이스(예를 들어, 저장장치(320)), 또는 또 다른 소스로부터 미디어를 수신할 수 있는 통신 디바이스(예를 들어, 통신 인터페이스(340))를 포함할 수 있다.
도7A에 또한 도시된 바와 같이, 프로세스(700)는 이미지 또는 비디오가 미디어로서 선택되었는지의 여부를 결정할 수 있다(블록 710). 이미지 또는 비디오가 선택된 경우(블록 710-YES), 도7B의 블록이 수행될 수 있다. 예를 들어, 도1과 관련하여 상술된 일 구현예에서, 디바이스의 디스플레이(100)는 사용자에 의해 선택 된 이미지/비디오(110)를 포함할 수 있다. 예를 들어, 이미지/비디오(110)는 사용자에 의해 선택되고 현재 디스플레이(100)에서 디스플레이되는 영화 또는 뮤직 비디오일 수 있다.
이미지 또는 비디오가 선택되지 않은 경우(블록 710 - NO), 프로세스(700)는 오디오 파일이 미디어로서 선택되었는지의 여부를 결정할 수 있다(블록 715). 오디오 파일이 선택되면(블록 715 - YES), 도7C의 블록이 수행될 수 있다. 예를 들어, 도1과 관련하여 상술된 일 구현예에서, 디스플레이(100)는 사용자가 오디오 파일을 청취하고 있을 때 디스플레이될 수 있는 오디오 파일 아이템(150)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 예를 들어, 사용자는 디바이스 상에서 음악(예를 들어, 디지털 음악, MP3, MP4, 등)을 청취할 수 있다. 오디오 파일이 선택되지 않은 경우(블록 715 - NO), 프로세스(700)는 종료될 수 있다.
안면 인식을 기반으로 한 저장된 미디어의 식별을 위한 프로세스
도7B에 도시된 바와 같이, 프로세스(700)는 이미지 또는 비디오의 안면이 마킹될 수 있는지의 여부를 결정할 수 있다(블록 720). 예를 들어, 도1 및 4A와 관련하여 상술된 일 구현예에서, 디스플레이(100)는 선택시에 사용자가 이미지/비디오(110)의 안면의 일부를 마킹할 수 있도록 할 수 있는 마크 페이스 아이템(120)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 안면이 마킹될 수 있는 경우(블록 720 - YES), 프로세스(700)는 선택된 이미지 또는 비디오에서 안면을 마킹할 수 있다(블록 725). 안면이 마킹될 수 없는 경우(블록 720 - NO), 프로세스(700)는 도7C의 블록을 수행할 수 있다.
도7B에 또한 도시된 바와 같이, 프로세스(700)는 안면 인식이 수행되어야 하는지의 여부를 결정할 수 있다(블록 730). 안면 인식이 수행되지 않아도 되는 경우(블록 730 - NO), 프로세스(700)는 도7C의 블록을 수행할 것이다. 안면 인식이 수행되어야 하는 경우(블록 730 - YES), 프로세스(700)는 안면 인식 결과를 수신하여 사용자에게 디스플레이할 것이다(블록 735). 예를 들어, 도4A 및 4B와 관련하여 상술된 일 구현예에서, 안면이 커서(130)로 마킹되는 경우, 사용자는 디스플레이(400) 상에 제공된 안면 인식 아이템(140)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 선택하여 이미지/비디오(110)의 안면 인식을 수행할 수 있다. 일 구현예에서, 안면 인식은 (예를 들어, 디바이스(200)의 프로세싱 로직(310) 및 저장장치(320)를 통하여) 디바이스 내에 제공된 안면 인식 소프트웨어로 이미지/비디오(110)에 대해 수행될 수 있다. 또 다른 구현예에서, 안면 인식은 디바이스(200)와 통신하는 디바이스 상에 제공된 안면 인식 소프트웨어로 이미지/비디오(110)에 대해 수행될 수 있다(예를 들어, 디바이스(200)는 안면 인식을 수행하고 결과를 디바이스(200)로 리턴시키는 또 다른 디바이스로 마킹된 안면을 송신할 수 있다). 이미지/비디오(110)의 안면 인식의 결과(410)는 디스플레이(400) 상에 제공될 수 있다. 결과(410)는 이미지/비디오(110)에 나타난 안면과 정합하는 사람의 리스트를 포함할 수 있다.
프로세스(700)는 사용자 선택 안면 인식 결과를 기반으로 하여 식별 정보를 디스플레이할 수 있다(블록 740). 예를 들어, 도4B와 관련하여 상술된 일 구현예에 서, 사용자가 결과로부터 사람을 선택(예를 들어, 사람(420)을 선택)하는 경우, 디스플레이(400)는 도4B에 도시된 예시적 식별 정보를 제공할 수 있다. 광범위한 식별 정보가 제공될 수 있다. 예를 들어, 사람이 영화배우인 경우, 디스플레이(400)는 메뉴부(400) 및 식별 정보부(450)를 제공할 수 있다. 메뉴부(440)는 예를 들어, 식별 정보부(450)의 부분으로의 선택 가능한 링크를 포함할 수 있다. 도4B에 도시된 예시적 구현예에서, 식별 정보부(450)는 그 사람에 관한 전기 정보, 그 사람에 관한 영화 경력 정보, 그 사람에 관한 텔레비전 경력 정보, 그 사람에 관한 웹사이트 정보 및/또는 리마인더 정보를 포함할 수 있다.
음성 인식을 기반으로 한 저장된 미디어의 식별을 위한 프로세스
오디오 파일이 선택되고(도7A의 블록 715 - YES), 안면은 마킹되지 않고/안거나(도7B의 블록 720 - NO), 안면 인식이 수행되지 않는 경우(도7B의 블록 730 - NO), 프로세스(700)는 도7C의 블록을 수행할 수 있다. 도7C에 도시된 바와 같이, 프로세스는 음성 인식이 수행되어야 하는지를 결정할 수 있다(블록 745). 예를 들어, 도5A 및 5B와 관련하여 상술된 일 구현예에서, 사용자는 디스플레이(500) 상에 제공된 음성 인식 아이템(160)(예를 들어, 아이콘, 링크, 버튼 및/또는 다른 유사한 선택 메커니즘)을 선택하여, 오디오 파일 또는 비디오에 의해 생성되는 오디오의 음성 인식을 수행할 수 있다. 일 구현예에서, 음성 인식은 (예를 들어, 디바이스(200)의 프로세싱 로직(310) 및 저장장치(320)를 통하여) 디바이스 내에 제공되는 음성 인식 소프트웨어로 오디오 파일에 대해 수행될 수 있다. 또 다른 구현예에서, 음성 인식은 (예를 들어, 통신 인터페이스(340)를 통하여) 디바이스(200)와 통 신하는 디바이스 상에 제공되는 음성 인식 소프트웨어로 오디오 파일에 대해 수행될 수 있다. 음성 인식의 결과(510)가 디바이스(500) 상에 제공될 수 있다. 결과(510)는 오디오 파일(또는 비디오에서의 오디오)의 음성과 정합하는 사람의 리스트를 포함할 수 있다.
음성 인식이 수행되지 않아도 되는 경우(블록 745 - NO), 프로세스(700)는 종료될 수 있다. 음성 인식이 수행되어야 하는 경우(블록 745 - YES), 프로세스(700)는 음성 인식 결과를 수신하여 사용자에게 디스플레이할 수 있다(블록 750).
도7C에 또한 도시된 바와 같이, 프로세스(700)는 사용자 선택 음성 인식 결과를 기반으로 하여 식별 정보를 디스플레이할 수 있다(블록 755). 예를 들어, 도5B와 관련하여 상술된 일 구현예에서, 사용자가 결과로부터 사람을 선택(예를 들어, 사람(520)을 선택)하는 경우, 디스플레이(500)는 도5B에 도시된 예시적 식별 정보를 제공할 수 있다. 광범위한 식별 정보가 제공될 수 있다. 사람이 영화배우인 경우, 디스플레이(500)는 메뉴부(540) 및 식별 정보부(550)를 제공할 수 있다. 메뉴부(540)는 예를 들어, 식별 정보부(550)의 부분으로의 선택 가능한 링크를 포함할 수 있다. 도5B에 도시된 예시적 구현예에서, 식별 정보부(550)는 대사를 발언하는 사람에 관한 전기 정보, 그 사람에 관한 영화 경력 정보, 그 사람에 관한 텔레비전 경력 정보, 그 사람에 관한 웹사이트 정보 및/또는 리마인더 정보를 포함할 수 있다.
안면 및/또는 음성 인식을 기반으로 한 캡처된 미디어의 식별을 위한 프로세 스
도8에 도시된 바와 같이, 프로세스(800)는 미디어 정보를 획득할 수 있다(블록 810). 예를 들어, 도3과 관련하여 상술된 일 구현예에서, 미디어 정보는 디바이스(200)에 의해 검색되거나 캡처된 미디어에 대응할 수 있다. 이 경우에, 미디어 정보 수집기(360)는 오디오 정보를 기록할 수 있는 마이크로폰(예를 들어, 마이크로폰(260)) 및/또는 이미지 및/또는 비디오를 기록할 수 있는 카메라(예를 들어, 카메라(270))를 포함할 수 있다.
안면 및 음성 인식이 캡처된 미디어에 대해 수행되어야 하는 경우(블록 820 - YES), 프로세스(800)는 캡처된 미디어에 대한 안면 및 음성 인식 결과를 획득할 수 있고, 정합 식별 정보를 디스플레이할 수 있다(블록 830). 예를 들어, 도6B와 관련하여 상술된 일 실시예에서, 사용자는 비디오 아이템(630)을 선택하고, 디바이스(200)로(예를 들어, 디바이스(200)의 카메라(270)를 통해서) 비디오(650)를 캡처할 수 있다. 비디오(650)가 일시정지되는 경우, 사용자는 자신이 비디오(650)의 안면의 일부를 (예를 들어, 일 구현예에서, 박스(670)로) 마킹할 수 있도록 할 수 있는 마크 페이스 아이템(120)을 선택할 수 있다. 안면이 마킹되는 경우, 사용자는 도4A 및 4B와 관련하여 상술된 바와 같이, 디스플레이(600) 상에 제공된 안면 인식 아이템(140)을 선택하고, 비디오(650)의 안면 인식이 수행되도록 하고, 정합 식별 정보를 디스플레이할 수 있다. 대안적인 구현예에서, 비디오(650)에서의 사람의 안면은 비디오(650)가 재생되고 있는 동안, 즉, 비디오(650)가 일시정지함이 없이, 마킹될 수 있다. 추가적으로, 사용자는 도5A 내지 5C와 관련하여 상술된 바와 같 이, 비디오(650)가 재생되고 있는 동안 음성 인식 아이템(160)을 선택하고, 비디오(650)의 오디오 부분의 음성 인식을 수행하고, 정합 식별 정보를 디스플레이할 수 있다. 또 다른 구현예에서, 사용자는 비디오(650)가 재생되고 있는 동안 안면/음성 인식 아이템(680)을 선택하여, 비디오(650)의 안면 인식 및/또는 비디오(650)의 오디오 부분의 음성 인식이 수행되도록 할 수 있다. 비디오(650)의 안면 및 음성 인식의 결합은 예를 들어, 동시적으로 또는 순차적으로(예를 들어, 안면 인식이 먼저 수행되고, 음성 인식은 안면 인식이 최종적인 정합을 제공하지 않는 경우에 다음으로 수행되고, 그 역도 또한 마찬가지임) 수행될 수 있다.
도8에 또한 도시된 바와 같이, 안면 및 음성 인식이 캡처된 미디어에 대해 수행되지 않아도 되는 경우(블록 820 - NO), 프로세스(800)는 안면 인식이 캡처된 미디어에 대해 수행되어야 하는지의 여부를 결정할 수 있다(블록 840). 안면 인식이 캡처된 미디어에서 수행되어야 하는 경우(블록 840 - YES), 프로세스(800)는 캡처된 미디어에 대한 안면 인식 결과를 획득할 수 있고, 정합 식별 정보를 디스플레이할 수 있다(블록 850). 예를 들어, 도6A와 관련하여 상술된 일 구현예에서, 디스플레이(600)는 선택시에 사용자가 이미지(610)의 안면의 일부를 (예를 들어, 일 구현예에서, 커서(130)로) 마킹할 수 있도록 할 수 있는 마커 페이스 아이템(120)(예를 들어, 아이콘, 링크, 버튼, 및/또는 다른 유사한 선택 메커니즘)을 포함할 수 있다. 안면이 커서(130)로 마킹되는 경우, 사용자는 도4A 및 4B와 관련하여 상술된 바와 같이, 디스플레이(600) 상에 제공된 안면 인식 아이템(140)을 선택하고, 이미지(610)의 안면 인식이 수행되도록 하고, 정합 식별 정보를 디스플레이할 수 있다.
도8에 또한 도시된 바와 같이, 안면 인식이 캡처된 미디어에 대해 수행되지 않아도 되는 경우(블록 840 - NO), 프로세스(800)는 음성 인식이 캡처된 미디어에 대해 수행되어야 하는지의 여부를 결정할 수 있다(블록 860). 음성 인식이 캡처된 미디어에 대해 수행되어야 하는 경우(블록 860 - YES), 프로세스(800)는 캡처된 미디어에 대한 음성 인식 결과를 획득할 수 있고, 정합 식별 정보를 디스플레이할 수 있다(블록 870). 예를 들어, 도6A 및 6B와 관련하여 상술된 일 실시예에서, 디바이스는 (예를 들어, 디바이스(200)의 마이크로폰(260)을 통하여) 오디오를 캡처할 수 있다. 캡처된 오디오는 디바이스(200) 상에(예를 들어, 저장장치(320) 내에) 저장되거나, 디바이스(200) 상에 저장되지 않을 수 있다. 음성 인식은 도5A 내지 5C와 관련하여 상술된 바와 같이, 캡처된 오디오에 대해 수행될 수 있고 정합 식별 정보가 디스플레이될 수 있다.
결론
본 발명의 원리와 부합하는 구현예는 미디어에 대한 안면 및/또는 음성 인식 결과를 기반으로 하여 미디어를 식별할 수 있고, 안면 및/또는 음성 인식 결과를 기반으로 하여 식별 정보를 디스플레이할 수 있다. 미디어 식별(예를 들어, 이미지 및/또는 비디오에서 사람을 식별하는 안면 인식 기술 및/또는 오디오, 예를 들어 영화로부터의 사운드 바이트에서 사람을 식별하는 음성 인식 기술)을 사용함으로써, 사람(들)이 식별될 수 있고, 사람(들)에 대한 정보가 디바이스 상에 디스플레이될 수 있다.
본 발명의 바람직한 실시예의 상기의 설명은 실례 및 설명을 제공하지만, 소 모적이거나 개시된 정확한 형태로 본 발명을 제한하고자 하는 것이 아니다. 변경 및 변형이 상기의 내용에 비추어서 가능하거나, 또는 본 발명의 실행으로부터 획득될 수 있다.
예를 들어, 일련의 동작이 도7A 내지 8과 관련하여 설명되었지만, 동작의 순서는 본 발명의 원리와 부합하는 다른 구현예에서 변경될 수 있다. 또한, 비종속적인 동작이 병렬로 수행될 수 있다. 상술된 구현예가 안면 및 음성 바이오메트릭의 사용을 논의할지라도, 다른 바이오메트릭 정보(예를 들어, 지문, 눈의 망막 및 홍채, 손 측정치, 필체, 보행 패턴, 타이핑 패턴, 등)가 미디어를 식별하고 정합 식별 정보를 제공하는데 사용될 수 있다. 또한, 도면이 안면 및 음성 인식 결과를 도시할지라도, 일 구현예에서, 안면 및/또는 음성 인식은 결과를 제공하는 것이 아니라, 그 대신에 안면 및/또는 음성 인식에 의해 발견된 가장 가까운 정합 미디어에 대한 식별 정보를 제공할 수 있다.
본 명세서에서 사용될 때 용어 "포함한다/포함하는"이 진술된 특징, 정수, 단계 또는 구성요소의 존재를 규정하기 위한 것이지만, 하나 이상의 다른 특징, 정수, 단계, 구성요소 및 이들의 그룹의 존재 및 추가를 배제하지 않는다는 점이 강조되어야 한다.
상술된 바와 같이, 본 발명의 양상이 도면에 도시된 구현예에서 많은 상이한 형태의 소프트웨어, 펌웨어 및 하드웨어로 구현될 수 있다는 점이 당업자에게는 명백할 것이다. 본 발명의 원리와 부합하는 양상을 구현하는데 사용되는 실제 소프트웨어 코드 또는 특정 제어 하드웨어는 본 발명을 제한하지 않는다. 그러므로, 그 양상의 동작 또는 작용은 특정 소프트웨어 코드와 관계 없이 설명되었다-당업자가 본원의 설명을 기반으로 하여 양상을 구현하도록 소프트웨어 및 제어 하드웨어를 설계할 수 있을 것이라 점이 이해될 것이다.
본 출원에 사용되는 요소, 동작 또는 명령은 이와 같이 명시적으로 기술되지 않는다면, 본 발명에 결정적이거나 필수적인 것으로서 해석되어야 한다. 또한, 본원에 사용된 바와 같이, 관사 "a"는 하나 이상의 아이템을 포함하도록 의도된다. 하나의 아이템만이 의도되는 경우에, 용어 "하나" 또는 유사한 언어가 사용된다. 또한, 구 "기반으로 하는"은 명시적으로 다르게 진술되지 않는다면, "적어도 부분적으로 기반으로 하는'을 의미한다.

Claims (28)

  1. 디바이스 상에서 미디어를 획득하는 단계;
    이미지/비디오 인식 및 오디오 인식을 통하여 상기 미디어에서 물체의 식별을 제공하는 단계;
    식별된 미디어 물체를 다수의 미디어 물체와 비교하는 단계;
    소정의 정확도 퍼센티지 내에서 상기 식별된 미디어 물체와 정합하는 다수의 미디어 물체의 순서화된 리스트를 상기 디바이스 상에 디스플레이하는 단계; 및
    정합하는 다수의 미디어 물체 각각과 관련된 정확도 퍼센티지를 상기 디바이스 상에 디스플레이하는 단계를 포함하는 방법.
  2. 제1항에 있어서,
    상기 디바이스를 통하여 미디어를 수신하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  3. 제1항에 있어서,
    상기 디바이스로 상기 미디어를 캡처하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  4. 제1항에 있어서,
    오디오 인식은 상기 이미지/비디오 인식이 소정의 정확도 레벨 내에서 상기 미디어 물체를 식별하지 못할 때 수행되는 것을 특징으로 하는 방법.
  5. 제1항에 있어서,
    이미지/비디오 인식은 상기 오디오 인식이 소정의 정확도 레벨 내에서 상기 미디어 물체를 식별하지 못할 때 수행되는 것을 특징으로 하는 방법.
  6. 제1항에 있어서,
    이미지/비디오 인식을 통하여 상기 물체를 식별하기 위하여 상기 미디어 물체의 안면을 마킹하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  7. 제1항에 있어서,
    상기 정합하는 다수의 미디어 물체 중 하나의 선택을 수신하는 단계; 및
    상기 정합하는 다수의 미디어 물체 중 상기 선택된 미디어 물체와 관련된 식별 정보를 디스플레이하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  8. 제7항에 있어서,
    상기 식별 정보는 사람, 장소, 또는 사물 중 하나와 관련된 정보를 포함하는 것을 특징으로 하는 방법.
  9. 제1항에 있어서,
    상기 미디어는:
    이미지 파일;
    오디오 파일;
    비디오 파일; 또는
    애니메이션 파일 중 하나를 포함하는 것을 특징으로 하는 방법.
  10. 제1항에 있어서,
    상기 미디어 물체는:
    사람;
    장소; 또는
    사물 중 하나를 포함하는 것을 특징으로 하는 방법.
  11. 제7항에 있어서,
    상기 식별 정보는:
    상기 식별된 미디어 물체에 관한 전기 정보;
    상기 식별된 미디어 물체에 관한 정보로의 링크; 또는
    상기 식별된 미디어 물체를 기반으로 한 추천 중 적어도 하나를 포함하는 것을 특징으로 하는 방법.
  12. 디바이스와 관련된 미디어 정보를 획득하는 미디어 정보 수집기; 및
    프로세싱 로직으로서, 상기 프로세싱 로직은:
    안면 및 음성 인식을 통하여 미디어에서 물체의 식별을 제공하고,
    식별된 미디어 물체를 다수의 미디어 물체와 비교하고,
    소정의 정확도 퍼센티지 내에서 상기 식별된 미디어 물체와 정합하는 다수의 미디어 물체의 순서화된 리스트를 디스플레이하고,
    상기 정합하는 다수의 미디어 물체 각각과 관련된 정확도 퍼센티지를 디스플레이하고,
    상기 정합하는 다수의 미디어 물체 중 하나의 선택을 수신하고,
    상기 정합하는 다수의 미디어 물체 중 선택된 미디어 물체와 관련된 식별 정보를 디스플레이하는, 프로세싱 로직을 포함하는 디바이스.
  13. 제12항에 있어서,
    상기 미디어 정보 수집기는:
    카메라;
    마이크로폰;
    미디어 저장 디바이스; 또는
    통신 디바이스 중 적어도 하나를 포함하는 것을 특징으로 하는 디바이스.
  14. 제12항에 있어서,
    안면 인식을 통하여 상기 미디어 물체를 식별할 때, 상기 프로세싱 로직은 상기 미디어 물체에서 안면의 위치를 결정하도록 구성되는 것을 특징으로 하는 디바이스.
  15. 제12항에 있어서,
    안면 인식을 통하여 상기 미디어 물체를 식별할 때, 상기 프로세싱 로직은 사용자 입력을 기반으로 하여 상기 미디어 물체에서 안면의 위치를 결정하도록 구성되는 것을 특징으로 하는 디바이스.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
KR1020097000242A 2006-06-09 2006-12-08 미디어 식별 KR101010081B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/423,337 US7787697B2 (en) 2006-06-09 2006-06-09 Identification of an object in media and of related media objects
US11/423,337 2006-06-09

Publications (2)

Publication Number Publication Date
KR20090023674A KR20090023674A (ko) 2009-03-05
KR101010081B1 true KR101010081B1 (ko) 2011-01-24

Family

ID=38112245

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097000242A KR101010081B1 (ko) 2006-06-09 2006-12-08 미디어 식별

Country Status (8)

Country Link
US (2) US7787697B2 (ko)
EP (1) EP2027557A1 (ko)
JP (1) JP2009540414A (ko)
KR (1) KR101010081B1 (ko)
CN (1) CN101506828A (ko)
MX (1) MX2008015554A (ko)
RU (1) RU2408067C2 (ko)
WO (1) WO2007144705A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017217785A1 (ko) * 2016-06-17 2017-12-21 (주)잼투고 퍼포머 객체 기반의 협업 서비스 제공서버 및 제공방법

Families Citing this family (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7787697B2 (en) * 2006-06-09 2010-08-31 Sony Ericsson Mobile Communications Ab Identification of an object in media and of related media objects
US20080144882A1 (en) * 2006-12-19 2008-06-19 Mind Metrics, Llc System and method for determining like-mindedness
US20090222330A1 (en) * 2006-12-19 2009-09-03 Mind Metrics Llc System and method for determining like-mindedness
US20090247219A1 (en) * 2008-03-25 2009-10-01 Jian-Liang Lin Method of generating a function output from a photographed image and related mobile computing device
JP5121681B2 (ja) * 2008-04-30 2013-01-16 株式会社日立製作所 生体認証システム、認証クライアント端末、及び生体認証方法
CN103402070B (zh) 2008-05-19 2017-07-07 日立麦克赛尔株式会社 记录再现装置及方法
JP2010081457A (ja) * 2008-09-29 2010-04-08 Hitachi Ltd 情報記録再生装置およびビデオカメラ
TWI390177B (zh) * 2008-11-24 2013-03-21 Inst Information Industry 景點推薦裝置和方法以及儲存媒體
US8457366B2 (en) 2008-12-12 2013-06-04 At&T Intellectual Property I, L.P. System and method for matching faces
KR101560184B1 (ko) * 2008-12-26 2015-10-14 삼성전자주식회사 디지털 촬영 장치 및 그 제어 방법
EP3610918B1 (en) * 2009-07-17 2023-09-27 Implantica Patent Ltd. Voice control of a medical implant
US9544379B2 (en) 2009-08-03 2017-01-10 Wolfram K. Gauglitz Systems and methods for event networking and media sharing
US10574614B2 (en) 2009-08-03 2020-02-25 Picpocket Labs, Inc. Geofencing of obvious geographic locations and events
JP5356162B2 (ja) * 2009-09-07 2013-12-04 株式会社ザクティ 物体像探索装置
US9264758B2 (en) 2009-09-14 2016-02-16 Tivo Inc. Method and an apparatus for detecting media content recordings
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US9183580B2 (en) 2010-11-04 2015-11-10 Digimarc Corporation Methods and systems for resource management on portable devices
US8175617B2 (en) 2009-10-28 2012-05-08 Digimarc Corporation Sensor-based mobile search, related methods and systems
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US8819172B2 (en) 2010-11-04 2014-08-26 Digimarc Corporation Smartphone-based methods and systems
US9462318B2 (en) * 2009-11-03 2016-10-04 At&T Intellectual Property I, L.P. System for media program management
US8682145B2 (en) 2009-12-04 2014-03-25 Tivo Inc. Recording system based on multimedia content fingerprints
US20110153341A1 (en) * 2009-12-17 2011-06-23 General Electric Company Methods and systems for use of augmented reality to improve patient registration in medical practices
US20110165917A1 (en) 2009-12-31 2011-07-07 Mary Elizabeth Taylor Methods and arrangements employing sensor-equipped smart phones
WO2011102246A1 (ja) 2010-02-18 2011-08-25 株式会社ニコン 情報処理装置、携帯型装置及び情報処理システム
US9015139B2 (en) 2010-05-14 2015-04-21 Rovi Guides, Inc. Systems and methods for performing a search based on a media content snapshot image
US8627358B1 (en) * 2010-08-16 2014-01-07 West Corporation Location-based movie identification systems and methods
US9484046B2 (en) 2010-11-04 2016-11-01 Digimarc Corporation Smartphone-based methods and systems
US20120173701A1 (en) * 2010-12-30 2012-07-05 Arbitron Inc. Matching techniques for cross-platform monitoring and information
US8577965B2 (en) * 2011-02-25 2013-11-05 Blackberry Limited Knowledge base broadcasting
EP2492852A1 (en) * 2011-02-25 2012-08-29 Research In Motion Limited Knowledge base broadcasting
US9196028B2 (en) 2011-09-23 2015-11-24 Digimarc Corporation Context-based smartphone sensor logic
EP2721528A1 (en) * 2011-06-17 2014-04-23 Thomson Licensing Video navigation through object location
US20130061147A1 (en) * 2011-09-07 2013-03-07 Nokia Corporation Method and apparatus for determining directions and navigating to geo-referenced places within images and videos
US9280545B2 (en) 2011-11-09 2016-03-08 Microsoft Technology Licensing, Llc Generating and updating event-based playback experiences
US9143601B2 (en) 2011-11-09 2015-09-22 Microsoft Technology Licensing, Llc Event-based media grouping, playback, and sharing
US8634647B2 (en) * 2011-12-07 2014-01-21 Elwha Llc Informational data indicative of a possible non-imaged portion of a region of interest
CN102752540B (zh) * 2011-12-30 2017-12-29 新奥特(北京)视频技术有限公司 一种基于人脸识别技术的自动编目方法
US10650442B2 (en) 2012-01-13 2020-05-12 Amro SHIHADAH Systems and methods for presentation and analysis of media content
KR101807456B1 (ko) 2012-06-14 2018-01-18 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 주문형 정보 네트워크
US9836590B2 (en) 2012-06-22 2017-12-05 Microsoft Technology Licensing, Llc Enhanced accuracy of user presence status determination
US9213888B2 (en) * 2012-06-27 2015-12-15 Disney Enterprises, Inc. Electronic devices in local interactions between users
US20140013193A1 (en) * 2012-06-29 2014-01-09 Joseph John Selinger Methods and systems for capturing information-enhanced images
JP6112823B2 (ja) * 2012-10-30 2017-04-12 キヤノン株式会社 情報処理装置、情報処理方法及びコンピュータにより読み取り可能なプログラム
EP2929296B1 (en) 2012-12-04 2019-02-20 Nokia Technologies Oy Method and apparatus for validating potential points of interest using user and device characteristics
US8769557B1 (en) 2012-12-27 2014-07-01 The Nielsen Company (Us), Llc Methods and apparatus to determine engagement levels of audience members
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US9305154B2 (en) * 2013-03-15 2016-04-05 Qualcomm Incorporated Method and apparatus for requesting and providing access to information associated with an image
US9294712B2 (en) 2013-03-20 2016-03-22 Google Inc. Interpolated video tagging
US20140294257A1 (en) * 2013-03-28 2014-10-02 Kevin Alan Tussy Methods and Systems for Obtaining Information Based on Facial Identification
WO2014169238A1 (en) 2013-04-11 2014-10-16 Digimarc Corporation Methods for object recognition and related arrangements
US9671941B1 (en) * 2013-05-09 2017-06-06 Amazon Technologies, Inc. Graphical behaviors for recognition interfaces
US20150012840A1 (en) * 2013-07-02 2015-01-08 International Business Machines Corporation Identification and Sharing of Selections within Streaming Content
US9354778B2 (en) 2013-12-06 2016-05-31 Digimarc Corporation Smartphone-based methods and systems
US20150185017A1 (en) * 2013-12-28 2015-07-02 Gregory L. Kreider Image-based geo-hunt
US10078856B2 (en) 2016-05-09 2018-09-18 Shadecraft, Inc. Mobile computing device control of shading object, intelligent umbrella and intelligent shading charging system
US9432702B2 (en) * 2014-07-07 2016-08-30 TCL Research America Inc. System and method for video program recognition
US20160162893A1 (en) * 2014-12-05 2016-06-09 Mastercard International Incorporated Open, on-device cardholder verification method for mobile devices
WO2016098915A1 (ko) * 2014-12-16 2016-06-23 한양대학교 에리카산학협력단 스마트 디스플레이 및 이를 이용한 광고 방법
KR102297389B1 (ko) 2015-01-05 2021-09-02 픽포켓, 아이엔시. 모바일 타겟과 관련된 미디어 공유와 집합을 제어하는 다이나믹 지오펜스의 용도
RU2594456C1 (ru) * 2015-03-10 2016-08-20 Общество с ограниченной ответственностью "АВТЭКС" Плавательное средство с информационным дисплеем
US9672829B2 (en) * 2015-03-23 2017-06-06 International Business Machines Corporation Extracting and displaying key points of a video conference
CN104820678B (zh) * 2015-04-15 2018-10-19 小米科技有限责任公司 音频信息识别方法及装置
US9596429B2 (en) * 2015-05-08 2017-03-14 Echostar Technologies L.L.C. Apparatus, systems and methods for providing content when loud background noise is present
CN106295270B (zh) * 2015-06-25 2019-03-29 联想(北京)有限公司 一种用户识别方法及电子设备
CN105117628B (zh) * 2015-07-30 2018-02-02 广东欧珀移动通信有限公司 一种终端中文件显示的控制方法、装置及相应移动设备
US10748414B2 (en) 2016-02-26 2020-08-18 A9.Com, Inc. Augmenting and sharing data from audio/video recording and communication devices
US10397528B2 (en) 2016-02-26 2019-08-27 Amazon Technologies, Inc. Providing status information for secondary devices with video footage from audio/video recording and communication devices
US11393108B1 (en) 2016-02-26 2022-07-19 Amazon Technologies, Inc. Neighborhood alert mode for triggering multi-device recording, multi-camera locating, and multi-camera event stitching for audio/video recording and communication devices
AU2017223188B2 (en) * 2016-02-26 2019-09-19 Amazon Technologies, Inc. Sharing video footage from audio/video recording and communication devices
US10489453B2 (en) 2016-02-26 2019-11-26 Amazon Technologies, Inc. Searching shared video footage from audio/video recording and communication devices
US9965934B2 (en) 2016-02-26 2018-05-08 Ring Inc. Sharing video footage from audio/video recording and communication devices for parcel theft deterrence
US10841542B2 (en) 2016-02-26 2020-11-17 A9.Com, Inc. Locating a person of interest using shared video footage from audio/video recording and communication devices
AU2017332287A1 (en) 2016-09-22 2019-05-16 Shadecraft, LLC Mobile computing device control of shading object
US9900645B1 (en) * 2016-11-18 2018-02-20 Panasonic Avionics Corporation Methods and systems for executing functions associated with objects on a transportation vehicle
US9839267B1 (en) 2016-12-29 2017-12-12 Shadecraft, Inc. Shading system with artificial intelligence application programming interface
US10094138B2 (en) 2016-12-29 2018-10-09 Shadecraft, Inc. Control of multiple intelligent umbrellas and/or robotic shading systems
US10488834B2 (en) * 2017-05-13 2019-11-26 Shadecraft, Inc. Intelligent umbrella or robotic shading system having telephonic communication capabilities
US20180349720A1 (en) * 2017-05-31 2018-12-06 Dawn Mitchell Sound and image identifier software system and method
US10664528B1 (en) * 2017-06-28 2020-05-26 Wells Fargo Bank, N.A. Optimizing display of disclosure based on prior interactions
US10349493B2 (en) 2017-07-07 2019-07-09 Shadecraft, Inc. Artificial intelligence (AI) computing device with one or more lighting elements
CN107748879A (zh) * 2017-11-16 2018-03-02 百度在线网络技术(北京)有限公司 用于获取人脸信息的方法及装置
US10554436B2 (en) 2017-11-19 2020-02-04 Shadecraft, Inc. Intelligent umbrella and/or robotic shading system with ultra-low energy transceivers
CN108322770B (zh) * 2017-11-22 2020-02-18 腾讯科技(深圳)有限公司 视频节目识别方法、相关装置、设备和系统
US10519688B2 (en) 2018-01-06 2019-12-31 Shadecraft, Inc. Apparatus and method for identifying operational status of umbrella, parasol or shading system utilizing lighting elements
CN108337532A (zh) * 2018-02-13 2018-07-27 腾讯科技(深圳)有限公司 演出片段的标注方法、视频播放方法、装置及系统
KR20190142192A (ko) * 2018-06-15 2019-12-26 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN108882033B (zh) * 2018-07-19 2021-12-14 上海影谱科技有限公司 一种基于视频语音的人物识别方法、装置、设备和介质
CN109376603A (zh) * 2018-09-25 2019-02-22 北京周同科技有限公司 一种视频识别方法、装置、计算机设备及存储介质
CN111145758A (zh) * 2019-12-25 2020-05-12 厦门快商通科技股份有限公司 声纹识别方法、系统、移动终端及存储介质
US11783207B2 (en) 2020-02-18 2023-10-10 International Business Machines Corporation Robotic Toxicodendron weeding
JP7409947B2 (ja) * 2020-04-14 2024-01-09 清水建設株式会社 情報処理システム
KR20240132972A (ko) * 2023-02-27 2024-09-04 삼성전자주식회사 사용자의 위치에 기반하여 미디어 콘텐트를 표시하기 위한 전자 장치, 방법, 및 컴퓨터 판독 가능 저장 매체

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047704A1 (en) 2004-08-31 2006-03-02 Kumar Chitra Gopalakrishnan Method and system for providing information services relevant to visual imagery
WO2006025797A1 (en) 2004-09-01 2006-03-09 Creative Technology Ltd A search system

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5666442A (en) 1993-05-23 1997-09-09 Infoglide Corporation Comparison system for identifying the degree of similarity between objects by rendering a numeric measure of closeness, the system including all available information complete with errors and inaccuracies
US6085112A (en) * 1995-05-03 2000-07-04 Siemens Aktiengesellschaft Communication device
US5682439A (en) * 1995-08-07 1997-10-28 Apple Computer, Inc. Boxed input correction system and method for pen based computer systems
US5991429A (en) * 1996-12-06 1999-11-23 Coffin; Jeffrey S. Facial recognition system for security access and identification
US6985169B1 (en) * 1998-02-09 2006-01-10 Lenovo (Singapore) Pte. Ltd. Image capture system for mobile communications
US6825875B1 (en) * 1999-01-05 2004-11-30 Interval Research Corporation Hybrid recording unit including portable video recorder and auxillary device
US6578017B1 (en) * 1999-02-26 2003-06-10 Information Decision Technologies, Llc Method to aid object detection in images by incorporating contextual information
US6751354B2 (en) * 1999-03-11 2004-06-15 Fuji Xerox Co., Ltd Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
US6654683B2 (en) * 1999-09-27 2003-11-25 Jin Haiping Method and system for real-time navigation using mobile telephones
ATE257614T1 (de) * 2000-03-14 2004-01-15 I T Vision Solutions Proprieta Erfassung der anwesenheit eines fahrzeuges mit einer bestimmten kennzeichennummer
JP2002189724A (ja) * 2000-12-20 2002-07-05 Victor Co Of Japan Ltd 画像データ検索装置
US6922488B2 (en) * 2001-02-16 2005-07-26 International Business Machines Corporation Method and system for providing application launch by identifying a user via a digital camera, utilizing an edge detection algorithm
EP1573426A4 (en) * 2001-07-12 2009-11-25 Atrua Technologies Inc METHOD AND SYSTEM FOR A BIOMETRIC IMAGE ASSEMBLY OF MULTIPLE PARTIAL BIOMETRIC FRAME SCANS
US20030120478A1 (en) * 2001-12-21 2003-06-26 Robert Palmquist Network-based translation system
KR20030059403A (ko) * 2001-12-29 2003-07-10 엘지전자 주식회사 멀티미디어 검색방법 및 장치
US6731239B2 (en) * 2002-01-18 2004-05-04 Ford Motor Company System and method for retrieving information using position coordinates
US20030161507A1 (en) * 2002-02-28 2003-08-28 Spectra Systems Corporation Method and apparatus for performing facial recognition with a hand-held imaging device
US20030164819A1 (en) * 2002-03-04 2003-09-04 Alex Waibel Portable object identification and translation system
JP2003281157A (ja) * 2002-03-19 2003-10-03 Toshiba Corp 人物検索システム、人物追跡システム、人物検索方法および人物追跡方法
US7587318B2 (en) * 2002-09-12 2009-09-08 Broadcom Corporation Correlating video images of lip movements with audio signals to improve speech recognition
GB0222113D0 (en) * 2002-09-24 2002-10-30 Koninkl Philips Electronics Nv Image recognition
GB0222209D0 (en) * 2002-09-25 2002-10-30 Koninkl Philips Electronics Nv Capturing a text string
JP4239635B2 (ja) * 2003-03-20 2009-03-18 ソニー株式会社 ロボット装置、その動作制御方法、及びプログラム
US7999857B2 (en) * 2003-07-25 2011-08-16 Stresscam Operations and Systems Ltd. Voice, lip-reading, face and emotion stress analysis, fuzzy logic intelligent camera system
US20050119032A1 (en) * 2003-08-28 2005-06-02 Maija Airas Optical messaging
JP4340860B2 (ja) * 2003-09-03 2009-10-07 日本電気株式会社 顔照合システム
US8723964B2 (en) * 2003-09-12 2014-05-13 Sony Corporation Method and device for communication using an optical sensor
US7003140B2 (en) * 2003-11-13 2006-02-21 Iq Biometrix System and method of searching for image data in a storage medium
US7310605B2 (en) * 2003-11-25 2007-12-18 International Business Machines Corporation Method and apparatus to transliterate text using a portable device
JP2005157763A (ja) * 2003-11-26 2005-06-16 Canon Inc 検索装置及び検索制御方法
EP1704710A4 (en) 2003-12-24 2007-09-19 Walker Digital Llc METHOD AND DEVICE FOR AUTOMATIC COLLECTION AND MANAGEMENT OF IMAGES
JP4413633B2 (ja) * 2004-01-29 2010-02-10 株式会社ゼータ・ブリッジ 情報検索システム、情報検索方法、情報検索装置、情報検索プログラム、画像認識装置、画像認識方法および画像認識プログラム、ならびに、販売システム
WO2005096760A2 (en) 2004-04-02 2005-10-20 Kurzweil Technologies, Inc. Portable reading device with mode processing
US7499588B2 (en) * 2004-05-20 2009-03-03 Microsoft Corporation Low resolution OCR for camera acquired documents
US20060015733A1 (en) * 2004-06-24 2006-01-19 John H. Harland Company Process and system for the material reduction of counterfeit and identity-maker fraud
JP4586446B2 (ja) * 2004-07-21 2010-11-24 ソニー株式会社 コンテンツ記録再生装置、コンテンツ記録再生方法及びそのプログラム
US7504942B2 (en) * 2006-02-06 2009-03-17 Videoiq, Inc. Local verification systems and methods for security monitoring
US7787697B2 (en) * 2006-06-09 2010-08-31 Sony Ericsson Mobile Communications Ab Identification of an object in media and of related media objects
US9015029B2 (en) * 2007-06-04 2015-04-21 Sony Corporation Camera dictionary based on object recognition
US8144939B2 (en) * 2007-11-08 2012-03-27 Sony Ericsson Mobile Communications Ab Automatic identifying

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047704A1 (en) 2004-08-31 2006-03-02 Kumar Chitra Gopalakrishnan Method and system for providing information services relevant to visual imagery
WO2006025797A1 (en) 2004-09-01 2006-03-09 Creative Technology Ltd A search system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017217785A1 (ko) * 2016-06-17 2017-12-21 (주)잼투고 퍼포머 객체 기반의 협업 서비스 제공서버 및 제공방법
KR101827978B1 (ko) * 2016-06-17 2018-02-09 (주)잼투고 퍼포머 객체 기반의 협연 서비스 제공서버 및 제공방법

Also Published As

Publication number Publication date
US20070286463A1 (en) 2007-12-13
RU2008152794A (ru) 2010-07-20
RU2408067C2 (ru) 2010-12-27
JP2009540414A (ja) 2009-11-19
MX2008015554A (es) 2009-01-22
US7787697B2 (en) 2010-08-31
EP2027557A1 (en) 2009-02-25
US20100284617A1 (en) 2010-11-11
CN101506828A (zh) 2009-08-12
KR20090023674A (ko) 2009-03-05
WO2007144705A1 (en) 2007-12-21
US8165409B2 (en) 2012-04-24

Similar Documents

Publication Publication Date Title
KR101010081B1 (ko) 미디어 식별
US11843901B2 (en) Secure nonscheduled video visitation system
JP5866728B2 (ja) 画像認識システムを備えた知識情報処理サーバシステム
RU2659746C2 (ru) Способ и устройство обработки изображений
US7751597B2 (en) Apparatus and method for identifying a name corresponding to a face or voice using a database
US6959099B2 (en) Method and apparatus for automatic face blurring
CN112075075A (zh) 用于会议的计算机化智能助理
JP5120777B2 (ja) 電子データ編集装置、電子データ編集方法及びプログラム
JP2010224715A (ja) 画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体
JP2007067972A (ja) 会議システム及び会議システムの制御方法
US20230216684A1 (en) Integrating and detecting visual data security token in displayed data via graphics processing circuitry using a frame buffer
US20220335752A1 (en) Emotion recognition and notification system
Grabovskyi et al. Facial recognition with using of the microsoft face API Service
Singletary et al. Learning visual models of social engagement
JP2008009560A (ja) 容姿判定装置、容姿判定プログラムおよびそれを記録した記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131227

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20141229

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20151230

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20161226

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20171226

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20181226

Year of fee payment: 9