KR101759859B1 - 전자 디바이스들 사이의 접속을 확립하기 위한 방법 및 장치 - Google Patents
전자 디바이스들 사이의 접속을 확립하기 위한 방법 및 장치 Download PDFInfo
- Publication number
- KR101759859B1 KR101759859B1 KR1020167026732A KR20167026732A KR101759859B1 KR 101759859 B1 KR101759859 B1 KR 101759859B1 KR 1020167026732 A KR1020167026732 A KR 1020167026732A KR 20167026732 A KR20167026732 A KR 20167026732A KR 101759859 B1 KR101759859 B1 KR 101759859B1
- Authority
- KR
- South Korea
- Prior art keywords
- target
- target person
- indication
- electronic device
- image
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000001815 facial effect Effects 0.000 claims abstract description 84
- 230000004044 response Effects 0.000 claims description 74
- 230000007613 environmental effect Effects 0.000 claims description 6
- 238000010295 mobile communication Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 52
- 230000006854 communication Effects 0.000 description 52
- 238000001514 detection method Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 14
- 210000000887 face Anatomy 0.000 description 10
- 239000004984 smart glass Substances 0.000 description 9
- 238000000605 extraction Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 235000019800 disodium phosphate Nutrition 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 101000574648 Homo sapiens Retinoid-inducible serine carboxypeptidase Proteins 0.000 description 3
- 102100025483 Retinoid-inducible serine carboxypeptidase Human genes 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000000088 lip Anatomy 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- -1 smart phones Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G06K9/00268—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G06K9/00221—
-
- G06K9/00228—
-
- G06K9/2081—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/235—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G10L17/005—
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/06—Authentication
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- User Interface Of Digital Computer (AREA)
- Collating Specific Patterns (AREA)
- Information Transfer Between Computers (AREA)
- Position Input By Displaying (AREA)
- Telephone Function (AREA)
Abstract
타겟 디바이스에 접속하기 위하여 전자 디바이스에서 수행된 방법이 개시되어 있다. 방법은 타겟 디바이스와 연관된 타겟 인물의 얼굴을 포함하는 이미지를 캡처하는 단계, 및 타겟 인물의 표시를 인식하는 단계를 포함한다. 타겟 인물의 표시는 지시 객체, 스피치 커맨드, 및/또는 임의의 적당한 입력 커맨드일 수도 있다. 이미지에서의 타겟 인물의 얼굴은 표시에 기초하여 검출되고, 이미지에서의 얼굴의 적어도 하나의 얼굴 특징이 추출된다. 적어도 하나의 얼굴 특징에 기초하여, 전자 디바이스는 타겟 디바이스에 접속된다.
Description
우선권 주장
본 출원은, 그 내용이 전체적으로 참조로 편입되고, "METHOD AND APPARATUS FOR ESTABLISHING CONNECTION BETWEEN ELECTRONIC DEVICES (전자 디바이스들 사이의 접속을 확립하기 위한 방법 및 장치)" 라는 명칭인, 2014 년 3 월 19 일자로 출원된 미국 출원 제 14/219,894 호로부터 우선권 주장한다.
본 개시물은 전자 디바이스들 사이의 통신에 관한 것으로, 더욱 구체적으로, 전자 디바이스와 타겟 디바이스 사이의 접속을 확립하는 것에 관한 것이다.
최근, 스마트 안경, 스마트폰들, 및 태블릿 컴퓨터들과 같은 전자 디바이스들의 이용이 급속하게 증가하였다. 이러한 전자 디바이스들은 다른 전자 디바이스들, 통신 네트워크들, 서버들 등과의 통신을 허용하기 위한 무선 통신 기능들을 종종 포함한다. 예를 들어, 기존의 전자 디바이스들은 Wi-Fi, CDMA (Code Division Multiple Access; 코드 분할 다중 액세스), GSB (Global System for Mobile communication; 이동 통신을 위한 글로벌 시스템), GSM2000, LTE (Long-Term Evolution; 롱텀 에볼루션), LTE-Advanced (LTE-어드밴스드) 등과 같은 다양한 무선 통신 기술들을 이용하여 통신할 수도 있다. 또한, 이러한 전자 디바이스들은 또한, 블루투스 (Bluetooth), Wi-Fi 다이렉트 (Wi-Fi Direct), LTE 다이렉트 (LTE Direct), NFC (Near Field Communication; 근접장 통신) 등등과 같은 다양한 단거리 무선 통신 기술들을 이용하여 또 다른 디바이스와 통신할 수도 있다.
또 다른 전자 디바이스와의 통신을 위하여, 기존의 전자 디바이스는 디바이스들의 양자에 공통인 통신 프로토콜에 따라 접속을 확립하기 위하여 또 다른 전자 디바이스와의 페어링 프로세스 (pairing process) 를 종종 수행한다. 예를 들어, 한 쌍의 전자 디바이스들은, 접속을 확립하기 위하여 블루투스 페어링 방식을 이용하여 서로 페어링될 수도 있고, 그 다음으로, 블루투스 통신 기술을 이용하여 서로 통신할 수도 있다. 그러나, 기존의 페어링 방법들은 전자 디바이스들 사이에서 접속을 확립하기 위하여 다수의 단계들을 일반적으로 요구한다.
또 다른 전자 디바이스와의 접속을 확립하기 위하여 다수의 단계들을 수행하는 것은 전자 디바이스들의 사용자들에게 불편할 수도 있다. 예를 들어, 전자 디바이스의 사용자는 접속을 위하여 이용가능한 전자 디바이스들의 리스트로부터 전자 디바이스를 선택하도록 요구될 수도 있다. 그러나, 리스트는 다른 전자 디바이스들을 고유하게 식별하기 위한 충분한 정보를 제공하지 않을 수도 있고, 사용자는 리스트에서 희망하는 전자 디바이스를 식별하기 위하여 더 많은 정보를 획득할 필요가 있을 수도 있다. 희망하는 전자 디바이스가 식별된 후, 전자 디바이스의 사용자는 또한, 또 다른 디바이스에 접속하기 위하여 PIN (Personal Identification Number; 개인 식별 번호), 패스워드 (password) 등등과 같은 식별 코드를 입력하도록 요구될 수도 있다. 이에 따라, 기존의 전자 디바이스들의 사용자는 이러한 페어링 단계들을 통해 다른 디바이스들과 통신하는 것이 좌절될 수도 있다.
본 개시물은 전자 디바이스와 타겟 디바이스 사이의 접속을 확립하는 것에 관한 것이다.
본 개시물의 하나의 양태에 따르면, 타겟 디바이스에 접속하기 위하여 전자 디바이스에서 수행된 방법이 개시되어 있다. 방법은 타겟 디바이스와 연관된 타겟 인물의 얼굴을 포함하는 이미지를 캡처하는 단계, 및 타겟 인물의 표시를 인식하는 단계를 포함한다. 표시에 기초하여, 이미지에서의 타겟 인물의 얼굴이 검출되고, 이미지에서의 얼굴의 적어도 하나의 얼굴 특징이 추출된다. 전자 디바이스는 적어도 하나의 얼굴 특징에 기초하여 타겟 디바이스에 접속된다. 이 개시물은 또한, 이 방법에 관련되는 장치, 디바이스, 수단들의 조합, 및 컴퓨터 판독가능 매체를 설명한다.
본 개시물의 또 다른 양태에 따르면, 타겟 디바이스에 접속하기 위한 전자 디바이스가 개시되어 있다. 전자 디바이스는 타겟 디바이스와 연관된 타겟 인물의 얼굴을 포함하는 이미지를 캡처하도록 구성된 이미지 센서, 및 타겟 인물의 표시를 인식함으로써, 그리고 표시에 기초하여 이미지에서의 타겟 인물의 얼굴을 검출함으로써, 이미지에서의 얼굴의 적어도 하나의 얼굴 특징을 추출하도록 구성된 타겟 식별 유닛을 포함한다. 전자 디바이스는 또한, 적어도 하나의 얼굴 특징에 기초하여 타겟 디바이스로의 접속을 확립하도록 구성된 접속 제어기를 포함한다.
이 개시물의 발명의 양태들의 실시형태들은, 잡지 상의 셔츠에 대한 정보를 탐색하는 사용자로부터의 스피치 질의어 (speech query) 에 응답하여 검색 질의어 (search query) 를 생성하도록 구성된 웨어러블 컴퓨터를 예시하는 동반된 도면들과 함께 판독될 때, 다음의 상세한 설명을 참조하여 이해될 것이다.
도 1 은 본 개시물의 하나의 실시형태에 따라, 사용자의 지시 제스처 (pointing gesture) 에 기초하여 타겟 인물의 타겟 디바이스에 접속하도록 구성되는 사용자의 전자 디바이스를 예시한다.
도 2 는 본 개시물의 하나의 실시형태에 따라, 타겟 인물을 표시하는 지시 객체 (pointing object) 에 기초하여 이미지에서의 타겟 인물의 얼굴을 검출하도록 구성된 전자 디바이스를 예시한다.
도 3 은 본 개시물의 하나의 실시형태에 따라, 사용자의 스피치 커맨드 (speech command) 에 기초하여 타겟 인물의 타겟 디바이스에 접속하도록 구성되는 사용자의 전자 디바이스를 예시한다.
도 4 는 본 개시물의 하나의 실시형태에 따라, 타겟 인물을 식별하는 스피치 커맨드에 기초하여 이미지에서의 타겟 인물의 얼굴을 검출하도록 구성된 전자 디바이스를 예시한다.
도 5 는 본 개시물의 하나의 실시형태에 따라, 사용자의 지시 객체 및 스피치 커맨드에 기초하여 타겟 인물의 타겟 디바이스에 접속하도록 구성되는 사용자의 전자 디바이스를 예시한다.
도 6 은 본 개시물의 하나의 실시형태에 따라, 타겟 인물을 표시하는 지시 객체 및 스피치 커맨드에 기초하여 이미지에서의 타겟 인물의 얼굴을 검출하도록 구성된 전자 디바이스를 예시한다.
도 7 은 본 개시물의 하나의 실시형태에 따라, 접속 요청을 송신함으로써 또 다른 전자 디바이스에 접속하도록 구성된 전자 디바이스의 블록도를 예시한다.
도 8 은 본 개시물의 하나의 실시형태에 따라, 타겟 인물의 표시에 기초하여 이미지에서의 타겟 인물의 얼굴을 검출하도록 구성된 전자 디바이스에서 타겟 식별 유닛의 더욱 상세한 블록도를 예시한다.
도 9 는 본 개시물의 하나의 실시형태에 따라, 응답 메시지를 송신함으로써 또 다른 전자 디바이스와 접속하도록 구성된 전자 디바이스의 블록도를 예시한다.
도 10 은 본 개시물의 하나의 실시형태에 따라, 타겟 인물의 표시에 기초하여 타겟 인물의 타겟 디바이스와의 접속을 확립하기 위하여, 전자 디바이스에서 수행된 방법의 플로우차트를 예시한다.
도 11 은 본 개시물의 하나의 실시형태에 따라, 추가적인 표시를 요청함으로써 타겟 인물의 얼굴을 검출하기 위하여, 전자 디바이스에서 수행된 상세한 방법의 플로우차트를 예시한다.
도 12 는 본 개시물의 하나의 실시형태에 따라, 타겟 디바이스로의 접속을 위한 방법들 및 장치가 편입되는 예시적인 전자 디바이스의 블록도이다.
도 1 은 본 개시물의 하나의 실시형태에 따라, 사용자의 지시 제스처 (pointing gesture) 에 기초하여 타겟 인물의 타겟 디바이스에 접속하도록 구성되는 사용자의 전자 디바이스를 예시한다.
도 2 는 본 개시물의 하나의 실시형태에 따라, 타겟 인물을 표시하는 지시 객체 (pointing object) 에 기초하여 이미지에서의 타겟 인물의 얼굴을 검출하도록 구성된 전자 디바이스를 예시한다.
도 3 은 본 개시물의 하나의 실시형태에 따라, 사용자의 스피치 커맨드 (speech command) 에 기초하여 타겟 인물의 타겟 디바이스에 접속하도록 구성되는 사용자의 전자 디바이스를 예시한다.
도 4 는 본 개시물의 하나의 실시형태에 따라, 타겟 인물을 식별하는 스피치 커맨드에 기초하여 이미지에서의 타겟 인물의 얼굴을 검출하도록 구성된 전자 디바이스를 예시한다.
도 5 는 본 개시물의 하나의 실시형태에 따라, 사용자의 지시 객체 및 스피치 커맨드에 기초하여 타겟 인물의 타겟 디바이스에 접속하도록 구성되는 사용자의 전자 디바이스를 예시한다.
도 6 은 본 개시물의 하나의 실시형태에 따라, 타겟 인물을 표시하는 지시 객체 및 스피치 커맨드에 기초하여 이미지에서의 타겟 인물의 얼굴을 검출하도록 구성된 전자 디바이스를 예시한다.
도 7 은 본 개시물의 하나의 실시형태에 따라, 접속 요청을 송신함으로써 또 다른 전자 디바이스에 접속하도록 구성된 전자 디바이스의 블록도를 예시한다.
도 8 은 본 개시물의 하나의 실시형태에 따라, 타겟 인물의 표시에 기초하여 이미지에서의 타겟 인물의 얼굴을 검출하도록 구성된 전자 디바이스에서 타겟 식별 유닛의 더욱 상세한 블록도를 예시한다.
도 9 는 본 개시물의 하나의 실시형태에 따라, 응답 메시지를 송신함으로써 또 다른 전자 디바이스와 접속하도록 구성된 전자 디바이스의 블록도를 예시한다.
도 10 은 본 개시물의 하나의 실시형태에 따라, 타겟 인물의 표시에 기초하여 타겟 인물의 타겟 디바이스와의 접속을 확립하기 위하여, 전자 디바이스에서 수행된 방법의 플로우차트를 예시한다.
도 11 은 본 개시물의 하나의 실시형태에 따라, 추가적인 표시를 요청함으로써 타겟 인물의 얼굴을 검출하기 위하여, 전자 디바이스에서 수행된 상세한 방법의 플로우차트를 예시한다.
도 12 는 본 개시물의 하나의 실시형태에 따라, 타겟 디바이스로의 접속을 위한 방법들 및 장치가 편입되는 예시적인 전자 디바이스의 블록도이다.
첨부한 도면들에서 그 예들이 예시되어 있는 다양한 실시형태들에 대하여 상세하게 지금부터 참조가 행해질 것이다. 다음의 상세한 설명에서는, 이 개시물의 발명 양태들의 철저한 이해를 제공하기 위하여 여러 특정 세부사항들이 기재된다. 그러나, 이 개시물의 발명 양태들이 이 특정 세부사항들 없이 실시될 수도 있다는 것이 당해 분야의 당업자에게 명백할 것이다. 다른 사례들에서는, 잘 알려진 방법들, 절차들, 시스템들, 및 컴포넌트들이 다양한 실시형태들의 양태들을 불필요하게 모호하게 하지 않도록 상세하게 설명되지 않았다.
도 1 은 본 개시물의 하나의 실시형태에 따라, 사용자 (110) 의 지시 제스처에 기초하여 복수의 전자 디바이스들 (122, 132, 142, 및 152) 중의 임의의 것에 접속하도록 구성되는 사용자 (110) 의 전자 디바이스 (112) 를 예시한다. 본원에서 이용된 바와 같이, 용어 "제스처" 는 인물의 손가락, 손, 팔, 또는 신체, 또는 인물의 손가락, 손, 팔, 또는 신체와 연관된 객체의 임의의 이동 또는 위치일 수도 있다. 도시된 바와 같이, 복수의 인물들 (120, 130, 140, 및 150) 은 스마트 안경으로서 예시되어 있는 전자 디바이스 (112) 의 시야 (field of view) 내에 위치된다. 인물들 (120, 130, 140, 및 150) 은, 스마트 안경, 이동 전화, 태블릿 컴퓨터, 및 스마트 시계로서 각각 도시되어 있는 전자 디바이스들 (122, 132, 142, 및 152) 을 각각 구비한다. 전자 디바이스들 (112, 122, 132, 142, 및 152) 은 위에서와 같이 설명되어 있지만, 이들은 사운드 및 이미지 캡처 및 프로세싱 능력들을 구비한 임의의 적당한 전자 디바이스들일 수도 있고, 인물에 의해 착용될 수 있거나, 휴대될 수 있거나, 또는 이용될 수 있다.
예시된 실시형태에서, 사용자 (110) 는 전자 디바이스 (112) 와 전자 디바이스들 (122, 132, 142, 및 152) 사이의 접속을 확립하기 위하여 인물들 (120, 130, 140, 및 150) 중의 임의의 것을 타겟 인물로서 선택할 수도 있다. 예를 들어, 사용자 (110) 는 인물 (120) 을 타겟 인물로서 표시하기 위하여 그 또는 그녀의 손을 지시 객체 (114) 로서 이용하여 지시 제스처를 행할 수도 있고, 전자 디바이스 (112) 는 사용자의 손을 지시 객체 (114) 로서 포함하는 지시 제스처 및 인물들 (120, 130, 140, 및 150) 중에서의 적어도 타겟 인물 (120) 의 이미지를 캡처할 수도 있다. 본원에서 이용된 바와 같이, 용어 "지시 객체" 는, 타겟을 표시하기 위하여 이용될 수 있고, 인물의 손가락, 손, 팔, 또는 신체, 또는 인물의 손가락, 손, 팔, 또는 신체와 연관된 개체를 포함할 수 있는 임의의 객체일 수도 있다.
캡처된 이미지로부터, 전자 디바이스 (112) 는 사용자의 손의 지시 객체 (114) 를 타겟 인물 (120) 의 표시로서 인식할 수도 있다. 본원에서 이용된 바와 같이, 용어 "표시" 는, 타겟을 표시하거나, 식별하거나, 또는 설명하는 지시 객체, 스피치 커맨드, 입력 커맨드 등등의 임의의 정보 또는 데이터 표현을 지칭한다. 타겟 인물 (120) 의 얼굴은 임의의 적당한 객체 검출 방법들을 이용하여 표시에 기초하여 캡처된 이미지에서 검출될 수도 있다. 예를 들어, 객체 검출 방법들은 전신 검출 (holistic detection), 부분-기반 검출 (part-based detection), 패치-기반 검출 (patch-based detection), 판정 트리 (decision tree) 들, 부스팅 (boosting), 신경망 (neural network) 들, 지원 벡터 머신 (support vector machine) 들 등등을 이용할 수도 있다. 게다가, 타겟 인물 (120) 의 얼굴 특징들의 세트는 임의의 적당한 특징 추출 방법들을 이용하여 이미지에서의 검출된 얼굴로부터 추출될 수도 있다. 예를 들어, 특징 추출 방법들은 신경망들, 시각적 단어들의 가방 (bag of visual words), SIFT (scale-invariant feature transform; 스케일-불변 특징 변환), SURF (speeded-up robust features; 스피드-업된 강인한 특징들), 배향된 그레디언트들의 히스토그램 (histogram of oriented gradient) 등등을 이용할 수도 있다. 본원에서 이용된 바와 같이, 용어 "세트" 는 하나 이상의 데이터 또는 항목들을 지칭하고, 이러한 데이터 또는 항목들의 벡터 표현을 포함할 수도 있다.
전자 디바이스들 (112, 122, 132, 142, 및 152) 은 블루투스, Wi-Fi 다이렉트, LTE 다이렉트, NFC (Near Field Communication; 근접장 통신), IR (infrared; 적외선) 통신 기술 등등과 같은 임의의 적당한 무선 통신 기술들을 이용하여 무선으로 통신하도록 구성된다. 예시된 실시형태에서, 전자 디바이스 (112) 는 예를 들어, 접속 요청을 브로드캐스팅하거나 멀티캐스팅함으로써, 접속 요청을 전자 디바이스들 (122, 132, 142, 및 152) 로 송신할 수도 있다. 접속 요청은 타겟 인물 (120) 의 얼굴 특징들의 추출된 세트와, 제품 식별 번호, MAC 어드레스, IP 어드레스 등등과 같은 전자 디바이스 (112) 의 식별 정보를 포함할 수도 있다.
전자 디바이스들 (122, 132, 142, 및 152) 은 전자 디바이스 (112) 로부터 접속 요청을 수신하고 얼굴 특징들의 수신된 세트가 연관된 인물들 (120, 130, 140, 및 150) 을 각각 표시하는지 여부를 검증하도록 구성될 수도 있다. 얼굴 특징들의 수신된 세트를 검증하기 위하여, 전자 디바이스들 (122, 132, 142, 및 152) 은 인물들 (120, 130, 140, 및 150) 에 대한 얼굴 특징들의 세트를 각각 저장할 수도 있다. 접속 요청을 수신할 시에, 전자 디바이스들 (122, 132, 142, 및 152) 의 각각은 얼굴 특징들의 수신된 세트를 얼굴 특징들의 저장된 세트와 비교함으로써 그것이 접속 요청의 의도된 수신자 (recipient) (즉, 타겟 디바이스) 인지 여부를 검증할 수도 있다.
예시된 실시형태에서, 타겟 인물 (120) 의 전자 디바이스 (122) (즉, 이 실시형태에서의 타겟 디바이스) 는 얼굴 특징들의 수신된 세트가 타겟 인물 (120) 을 표시하는 것으로 결정할 수도 있고, 응답 메시지를 전자 디바이스 (112) 로 송신함으로써 접속 요청에 응답할 수도 있다. 하나의 실시형태에서, 응답 메시지는 전자 디바이스 (122) 가 접속 요청을 수락한다는 것을 표시할 수도 있다. 응답 메시지는 제품 식별 번호, MAC 어드레스, IP 어드레스 등등과 같은 전자 디바이스 (122) 의 식별 정보를 포함할 수도 있다. 게다가, 전자 디바이스 (122) 는 전자 디바이스 (112) 의 수신된 식별 정보를 응답 메시지에서의 목적지 어드레스로서 이용할 수도 있다. 전자 디바이스 (112) 가 접속 요청을 수락하는 응답 메시지를 수신할 때, 전자 디바이스들 (112 및 122) 사이의 통신 접속은 페어링을 포함하지만, 이것으로 제한되지는 않는 임의의 적당한 무선 접속 프로세스들에 의해 확립될 수도 있다.
도 2 는 본 개시물의 하나의 실시형태에 따라, 타겟 인물 (120) 을 표시하는 지시 객체 (114) 에 기초하여 이미지 (210) 에서의 타겟 인물 (120) 의 얼굴 (212) 을 검출하도록 구성된 전자 디바이스 (112) 를 예시한다. 도시된 바와 같이, 전자 디바이스 (112) 는 이미지 센서 (220), 사운드 센서 (230), 및 광학 렌즈들 (240) 을 구비한 스마트 안경으로서 예시되어 있다. 일부의 실시형태들에서, 스마트 안경은 광학 렌즈들 (240) 없이 구현될 수도 있다. 이미지 센서 (220) 및 사운드 센서 (230) 는 이미지들 및 사운드들을 각각 캡처하도록 구성된다. 스마트 안경은 또한, 이미지 센서 (220) 에 의해 검출된 이미지들 및 사용자 (110) 에 대한 다른 정보를 디스플레이하거나 투영하도록 구성된 디스플레이 유닛 (도시되지 않음) 을 포함할 수도 있다.
예시된 실시형태에서, 전자 디바이스 (112) 의 사용자 (110) 는 인물들 (120, 130, 140, 및 150) 을 쳐다 볼 수도 있고, 지시 객체 (114) (예컨대, 사용자 (110) 의 손) 를 이용함으로써 타겟 인물 (120) 을 표시하기 위하여 지시 제스처를 행할 수도 있다. 지시 객체 (114) 가 타겟 인물 (120) 을 지시하고 있는 동안, 전자 디바이스 (112) 는 이미지 센서 (220) 를 통해 인물들 (120, 130, 140, 및 150) 을 포함하는 이미지 (210) 를 캡처할 수도 있다. 일부의 실시형태들에서, 전자 디바이스 (112) 는 지시 객체 (114) 를 검출하거나 사용자 (110) 로부터 입력 커맨드를 수신하는 것에 응답하여 이미지 (210) 를 캡처하도록 구성될 수도 있다.
이미지 (210) 로부터, 전자 디바이스 (112) 는 위에서 설명된 바와 같이 임의의 적당한 객체 검출 방법들을 수행함으로써 이미지 (210) 에서의 지시 객체 (114) 를 검출할 수도 있다. 이미지 (210) 에서의 검출된 지시 객체 (114) 는 타겟 인물 (120) 의 표시로서 인식된다. 전자 디바이스 (112) 는 표시에 기초하여 이미지 (210) 에서의 타겟 인물 (120) 의 얼굴 (212) 을 검출한다.
하나의 실시형태에서, 지시 객체 (114) 가 지시하고 있는 방향은 타겟 인물 (120) 의 얼굴 (212) 을 검출하기 위하여 결정된다. 전자 디바이스 (112) 는 지시 객체 (114) 가 타겟 인물 (120) 로 향하게 되는 것으로 결정할 수도 있고, 타겟 인물 (120) 의 얼굴 (212) 을 검출할 수도 있다. 또 다른 실시형태에서, 전자 디바이스 (112) 는 이미지 (210) 에서의 지시 객체 (114) 의 위치에 기초하여 타겟 인물 (120) 의 얼굴 (212) 을 검출할 수도 있다. 예를 들어, 이미지 (210) 에서의 지시 객체 (114) 에 가장 근접한 얼굴은 타겟 인물 (120) 의 얼굴 (212) 인 것으로 결정된다.
타겟 인물 (120) 의 얼굴 (212) 을 검출할 시에, 전자 디바이스 (112) 는 위에서 설명된 바와 같은 임의의 적당한 특징 추출 방법들을 이용하여 이미지 (210) 에서의 검출된 얼굴 (212) 로부터 타겟 인물 (120) 의 얼굴 특징들의 세트를 추출할 수도 있다. 전자 디바이스 (112) 는 타겟 인물 (120) 의 얼굴 특징들의 추출된 세트와, 전자 디바이스 (112) 의 식별 정보를 포함하는 접속 요청을 생성할 수도 있다. 접속 요청은 예를 들어, 접속 요청을 브로드캐스팅하거나 멀티캐스팅함으로써 전자 디바이스들 (122, 132, 142, 및 152) 로 송신된다.
도 3 은 본 개시물의 하나의 실시형태에 따라, 사용자 (110) 의 스피치 커맨드 (310) 에 기초하여 복수의 전자 디바이스들 (122, 132, 142, 및 152) 중의 임의의 것에 접속하도록 구성되는 사용자 (110) 의 전자 디바이스 (112) 를 예시한다. 도 3 에서 예시된 전자 디바이스들 (112, 122, 132, 142, 및 152) 은 도 1 에서의 것들과 동일하거나 유사한 유닛들일 수도 있다. 본원에서 이용된 바와 같이, 용어 "스피치 커맨드" 는 인물과 같은 객체를 표시하거나, 식별하거나, 또는 설명하는 화자 (speaker) 로부터 발언된 하나 이상의 단어들의 아날로그 또는 디지털 표현을 지칭한다. 또한, 스피치 커맨드는 객체를 표시하거나, 식별하거나, 또는 설명하기 위한 하나 이상의 명사들, 대명사들, 형용사들 등을 포함할 수도 있다.
본 개시물의 하나의 실시형태에서, 타겟 인물을 식별하기 위한 스피치 커맨드는 타겟 인물의 외관을 설명하는 하나 이상의 설명들, 예컨대, "소년", "소녀", "남자", "여자", "그", 및 "그녀" 와 같은 성별 설명, "모자", "안경", "치마", "셔츠", "넥타이" 와 같은 의류의 물품 설명, "청색, "적색 의류를 착용" 과 같은 컬러 설명 등등을 포함할 수도 있다. 또 다른 실시형태에서, 스피치 커맨드는 타겟 인물의 이름 (예컨대, "JOHN", "ANN", "BOB" 등등) 또는 화자의 시야 내의 타겟 인물의 위치 (예컨대, "좌측", "우측", "전방", "후방" 등등) 를 포함할 수도 있다.
도 3 의 예시된 실시형태에서, 사용자 (110) 는 인물들 (120, 130, 140, 및 150) 중의 임의의 것을 전자 디바이스 (112) 와 전자 디바이스들 (122, 132, 142, 및 152) 사이의 접속을 확립하기 위한 타겟 인물로서 선택할 수도 있고, 타겟 인물을 식별하기 위하여 스피치 커맨드를 말할 수도 있다. 예를 들어, 사용자 (110) 는 인물 (140) 을 타겟 인물로서 식별하기 위하여 스피치 커맨드 (310) 로서 "좌측의 그 소녀에게 접속" 을 말할 수도 있다. 전자 디바이스 (112) 는 타겟 인물 (140) 을 식별하는 사용자 (110) 로부터 스피치 커맨드 (310) 를 포함하는 입력 사운드를 수신할 수도 있다. 게다가, 전자 디바이스 (112) 는 인물들 (120, 130, 140, 및 150) 중에서 적어도 타겟 인물 (140) 의 이미지를 캡처할 수도 있다.
수신된 입력 사운드로부터, 전자 디바이스 (112) 는 임의의 적당한 스피치 인식 방법들을 이용하여 스피치 커맨드 (310) (즉, "좌측의 그 소녀에게 접속") 를 타겟 인물 (140) 의 표시로서 인식할 수도 있다. 타겟 인물 (140) 의 얼굴은 위에서 설명된 바와 같은 적당한 객체 검출 방법들을 이용하여 표시에 기초하여 캡처된 이미지에서 검출될 수도 있고, 타겟 인물 (140) 의 얼굴 특징들의 세트는 위에서 설명된 바와 같은 적당한 특징 추출 방법들을 이용하여 이미지에서의 검출된 얼굴로부터 추출될 수도 있다. 다음으로, 전자 디바이스 (112) 는 예를 들어, 접속 요청을 브로드캐스팅하거나 멀티캐스팅함으로써, 접속 요청을 전자 디바이스들 (122, 132, 142, 및 152) 로 송신할 수도 있다. 접속 요청은 타겟 인물 (140) 의 얼굴 특징들의 추출된 세트와, 전자 디바이스 (112) 의 식별 정보를 포함할 수도 있다.
접속 요청을 수신할 시에, 전자 디바이스들 (122, 132, 142, 및 152) 의 각각은 얼굴 특징들의 수신된 세트를 얼굴 특징들의 저장된 세트와 비교함으로써 그것이 접속 요청의 의도된 수신자 (즉, 이 실시형태에서의 타겟 디바이스) 인지 여부를 검증할 수도 있다. 예시된 실시형태에서, 타겟 인물 (140) 과 연관된 전자 디바이스 (142) 는 얼굴 특징들의 수신된 세트를 얼굴 특징들의 저장된 세트와 비교함으로써 얼굴 특징들의 수신된 세트가 타겟 인물 (140) 을 표시하는 것을 검증할 수도 있고, 응답 메시지를 전자 디바이스 (112) 로 송신함으로써 접속 요청에 응답할 수도 있다. 응답 메시지는 전자 디바이스 (142) 의 식별 정보를 포함할 수도 있다. 전자 디바이스 (112) 가 접속 요청을 수락하는 응답 메시지를 수신할 때, 전자 디바이스들 (112 및 142) 사이의 통신 접속이 확립될 수도 있다.
도 4 는 본 개시물의 하나의 실시형태에 따라, 타겟 인물 (140) 을 식별하는 스피치 커맨드 (310) 에 기초하여 이미지 (410) 에서의 타겟 인물 (140) 의 얼굴 (412) 을 검출하도록 구성된 전자 디바이스 (112) 를 예시한다. 상기 도 2 를 참조하여 설명된 바와 같이, 전자 디바이스 (112) 는 이미지 센서 (220), 사운드 센서 (230), 및 광학 렌즈들 (240) 을 구비한 스마트 안경으로서 예시되어 있다. 예시된 실시형태에서, 전자 디바이스 (112) 의 사용자 (110) 는 인물들 (120, 130, 140, 및 150) 을 쳐다 볼 수도 있고, 타겟 인물 (140) 을 식별하기 위한 스피치 커맨드 (310) (예컨대, "좌측의 그 소녀에서 접속") 를 말할 수도 있다.
사운드 센서 (230) 를 통해 사용자 (110) 로부터 스피치 커맨드 (310) 를 포함하는 입력 사운드를 수신할 시에, 전자 디바이스 (112) 는 임의의 적당한 스피치 인식 방법들을 이용하여 입력 사운드로부터의 스피치 커맨드 (310) 를 타겟 인물 (140) 의 표시로서 인식할 수도 있다. 예를 들어, 전자 디바이스 (112) 는 하나 이상의 사운드 특징들 (예컨대, 오디오 손가락 지문 (audio finger fingerprint) 들, MFCC (mel-frequency cepstral coefficients; 멜-주파수 켑스트럼 계수들) 벡터들 등등) 을 추출할 수도 있다. 추출된 사운드 특징들은 스피치 커맨드 (310) 를 인식하기 위하여 GMM (Gaussian mixture model; 가우시안 혼합 모델), HMM (hidden Markov model; 은닉 마코프 모델), SMM (semi-Markov model; 반-마코프 모델) 등등에 기초한 적당한 스피치 인식 방법들을 이용하여 분석된다. 게다가, 전자 디바이스 (112) 는 입력 사운드로부터 스피치 커맨드 (310) 를 인식하거나 사용자 (110) 로부터 입력 커맨드를 수신하는 것에 응답하여 이미지 (410) 를 캡처하도록 구성될 수도 있다.
인식된 스피치 커맨드 (310) 에 기초하여, 전자 디바이스 (112) 는 이미지 (410) 에서의 타겟 인물 (140) 의 얼굴 (412) 을 검출할 수도 있다. 일부의 실시형태들에서, 전자 디바이스 (112) 는 이미지 (410) 에서의 인물들 (120, 130, 140, 및 150) 의 얼굴 객체들 또는 인물 객체들과 같은 후보 객체들을 검출할 수도 있다. 이러한 후보 객체들이 결정될 때, 타겟 인물 (140) 의 얼굴 (412) 은 예를 들어, 타겟 인물 (140) 의 외관, 성별, 컬러, 이름, 위치 등등을 설명하는, 스피치 커맨드 (310) 에서의 설명들에 기초하여 후보 객체들로부터 검출될 수도 있다.
예시된 실시형태에서, 스피치 커맨드 (310) 가 "좌측의 그 소녀에게 접속" 으로서 인식될 때, 전자 디바이스 (112) 는 "소녀" 및 "좌측" 과 같은 스피치 커맨드 (310) 에서의 타겟 인물 (140) 의 설명들에 기초하여 얼굴 및 위치 특성들로 이미지 (410) 에서의 후보 객체들 (예컨대, 인물들 (120, 130, 140, 및 150) 의 얼굴 객체들 또는 인물 객체들) 을 검사할 수도 있다. 이 경우, 설명 "소녀" 은 여성을 표시하므로, 전자 디바이스 (112) 는 임의의 적당한 얼굴 인식 방법들을 이용하여 인물들 (120, 130, 140, 및 150) 의 후보 객체들의 각각에 대한 성별을 식별할 수도 있고, 이미지 (410) 가 2 명의 여성 인물들, 즉, 인물들 (140 및 150) 을 포함하는 것으로 결정할 수도 있다. 예를 들어, 얼굴 인식 방법들은 전신 검출, 부분-기반 검출, 패치-기반 검출, 판정 트리들, 부스팅, 신경망들, 지원 벡터 머신들 등등을 포함할 수도 있지만, 이것으로 제한되지는 않는다.
일단 2 명의 여성 인물들 (140 및 150) 이 결정되면, 전자 디바이스 (112) 는 스피치 커맨드 (310) 에서의 설명 "좌측" 에 기초하여 2 명의 여성 인물들 (140 및 150) 중의 하나를 타겟 인물로서 식별할 수도 있다. 이 경우, 설명 "좌측" 은 이미지 (410) 에서의 타겟 인물에 대한 상대적 위치를 표시할 수도 있으므로, 전자 디바이스 (112) 는 인물 (150) 에 관련하여 좌측에 위치되는 인물 (140) 을 타겟 인물로서 식별할 수도 있다. 위에서 설명된 바와 같은 이러한 방식으로, 캡처된 이미지가 복수의 인물들을 포함할 때, 전자 디바이스 (112) 는 타겟 인물의 표시로서의 스피치 커맨드에서의 하나 이상의 설명들에 기초하여 복수의 인물들 중에서 타겟 인물을 식별할 수도 있다.
타겟 인물 (140) 을 식별할 시에, 전자 디바이스 (112) 는 이미지 (410) 에서의 타겟 인물 (140) 의 얼굴 (412) 을 검출할 수도 있고, 검출된 얼굴 (412) 로부터 타겟 인물 (140) 의 얼굴 특징들의 세트를 추출할 수도 있다. 전자 디바이스 (112) 는 타겟 인물 (140) 의 얼굴 특징들의 추출된 세트와, 전자 디바이스 (112) 의 식별 정보를 포함하는 접속 요청을 생성할 수도 있다. 접속 요청은 예를 들어, 접속 요청을 브로드캐스팅하거나 멀티캐스팅함으로써 전자 디바이스들 (122, 132, 142, 및 152) 로 송신된다.
도 5 는 본 개시물의 하나의 실시형태에 따라, 사용자 (110) 의 지시 제스처 및 스피치 커맨드 (520) 에 기초하여 복수의 전자 디바이스들 (122, 132, 142, 및 152) 중의 임의의 것에 접속하도록 구성되는 사용자 (110) 의 전자 디바이스 (112) 를 예시한다. 도 5 에서 예시된 전자 디바이스들 (112, 122, 132, 142, 및 152) 은 도 1 에서의 것들과 동일하거나 유사한 유닛들일 수도 있다. 예시된 실시형태에서, 사용자 (110) 는 전자 디바이스 (112) 와 전자 디바이스들 (122, 132, 142, 및 152) 사이의 접속을 확립하기 위하여 인물들 (120, 130, 140, 및 150) 중의 임의의 것을 타겟 인물로서 선택할 수도 있다. 예를 들어, 사용자 (110) 는 그 또는 그녀의 손을 지시 객체 (510) 로서 이용하여 지시 제스처를 행할 수도 있고, 인물 (130) 을 타겟 인물로서 표시하기 위하여 스피치 커맨드 (520) (예컨대, "모자를 갖는 그 인물에게 접속") 를 말할 수도 있다.
전자 디바이스 (112) 는 지시 객체 (510) 로서의 사용자의 손과, 인물들 (120, 130, 140, 및 150) 중에서 적어도 타겟 인물 (130) 을 포함하는 이미지를 캡처할 수도 있다. 게다가, 전자 디바이스 (112) 는 타겟 인물 (130) 을 식별하는 사용자 (110) 로부터 스피치 커맨드 (520) 를 포함하는 입력 사운드를 수신할 수도 있다. 하나의 실시형태에서는, 지시 객체 (510) 를 포함하는 이미지가 캡처될 수도 있고, 스피치 커맨드 (520) 를 포함하는 입력 사운드가 동시에 수신된다. 또 다른 실시형태에서는, 스피치 커맨드 (520) 를 포함하는 입력 사운드가 수신되기 전에, 지시 객체 (510) 를 포함하는 이미지가 캡처될 수도 있거나, 또는 그 반대도 마찬가지다. 대안적으로, 스피치 커맨드 (520) 를 포함하는 입력 사운드가 수신되는 동안에, 지시 객체 (510) 를 포함하는 이미지가 캡처될 수도 있거나, 또는 그 반대도 마찬가지다.
캡처된 이미지로부터, 전자 디바이스 (112) 는 사용자의 손의 지시 객체 (510) 를 타겟 인물 (130) 의 제 1 표시인 것으로서 인식할 수도 있다. 게다가, 수신된 입력 사운드로부터, 전자 디바이스 (112) 는 스피치 커맨드 (520) (즉, "모자를 갖는 그 인물에게 접속") 를 타겟 인물 (130) 의 제 2 표시로서 인식할 수도 있다. 타겟 인물 (130) 의 얼굴은 임의의 적당한 객체 검출 방법들을 이용하여 제 1 및 제 2 표시들에 기초하여 캡처된 이미지에서 검출될 수도 있다.
일부의 실시형태들에서는, 타겟 인물의 얼굴이 초기에 인식되는 하나 이상의 표시들에 기초하여 캡처된 이미지에서 검출될 수 없을 때, 전자 디바이스 (112) 는 지시 객체, 스피치 커맨드, 및 임의의 다른 적당한 입력 커맨드들과 같이, 타겟 인물을 식별하기 위한 추가적인 표시를 제공할 것을 사용자 (110) 에게 요청할 수도 있다. 예를 들어, 전자 디바이스 (112) 는 하나 이상의 초기 표시들에 기초하여 캡처된 이미지에서의 복수의 얼굴들 또는 인물들을 검출할 수도 있다. 이 경우, 전자 디바이스 (112) 는 타겟 인물을 식별하는 추가적인 표시에 대한 요청을 출력할 수도 있다. 이에 응답하여, 사용자 (110) 는 예를 들어, 지시 객체로 지시 제스처를 행함으로써, 또는 스피치 커맨드를 말함으로써, 타겟 인물을 식별할 수도 있다. 전자 디바이스 (112) 는 예를 들어, 지시 객체를 포함하는 이미지를 캡처함으로써, 또는 스피치 커맨드를 포함하는 입력 사운드를 수신함으로써, 타겟 인물의 추가적인 표시를 인식할 수도 있다. 타겟 인물은 추가적인 표시에 기초하여 복수의 얼굴들 또는 인물들 중에서 식별될 수도 있고, 타겟 인물의 얼굴은 이미지에서의 식별된 타겟 인물로부터 검출될 수도 있다.
도 5 의 실시형태에서, 일단 타겟 인물 (130) 의 얼굴이 캡처된 이미지에서 검출되면, 전자 디바이스 (112) 는 임의의 적당한 특징 추출 방법들을 이용하여 캡처된 이미지로부터 타겟 인물 (130) 의 검출된 얼굴의 얼굴 특징들의 세트를 추출할 수도 있다. 다음으로, 전자 디바이스 (112) 는 예를 들어, 접속 요청을 브로드캐스팅하거나 멀티캐스팅함으로써, 접속 요청을 전자 디바이스들 (122, 132, 142, 및 152) 로 송신할 수도 있다. 접속 요청은 타겟 인물 (130) 의 얼굴 특징들의 추출된 세트와, 전자 디바이스 (112) 의 식별 정보를 포함할 수도 있다.
전자 디바이스들 (122, 132, 142, 및 152) 이 전자 디바이스 (112) 로부터 접속 요청을 수신할 때, 타겟 인물 (130) 과 연관된 전자 디바이스 (132) 는 얼굴 특징들의 수신된 세트를 얼굴 특징들의 저장된 세트와 비교함으로써 그것이 접속 요청의 의도된 수신자 (즉, 이 실시형태에서의 타겟 디바이스) 인 것을 검증할 수도 있다. 일단 검증되면, 타겟 디바이스 (132) 는 응답 메시지를 전자 디바이스 (112) 로 송신함으로써 접속 요청에 응답할 수도 있다. 전자 디바이스 (112) 가 타겟 디바이스 (132) 로부터 응답 메시지를 수신할 때, 전자 디바이스들 (112 및 132) 사이의 통신 접속이 확립될 수도 있다.
도 6 은 본 개시물의 하나의 실시형태에 따라, 타겟 인물 (130) 을 표시하는 지시 객체 (510) 및 스피치 커맨드 (520) 에 기초하여 이미지 (610) 에서의 타겟 인물 (130) 의 얼굴 (612) 을 검출하도록 구성된 전자 디바이스 (112) 를 예시한다. 상기 도 2 를 참조하여 설명된 바와 같이, 전자 디바이스 (112) 는 이미지 센서 (220), 사운드 센서 (230), 및 광학 렌즈들 (240) 을 구비한 스마트 안경으로서 예시되어 있다. 예시된 실시형태에서, 인물들 (120, 130, 140, 및 150) 을 쳐다 보는 동안, 전자 디바이스 (112) 의 사용자 (110) 는 그 또는 그녀의 손을 지시 객체 (510) 로서 이용함으로써 지시 제스처를 행할 수도 있고, 타겟 인물 (130) 을 표시하기 위한 스피치 커맨드 (520) (예컨대, "모자를 갖는 그 인물에게 접속") 를 말하 수도 있다.
전자 디바이스 (112) 는 이미지 센서 (220) 를 통해 지시 객체 (510) 및 인물들 (120, 130, 140, 및 150) 을 포함하는 이미지 (610) 를 캡처할 수도 있다. 이미지 (610) 로부터, 지시 객체 (510) 가 전자 디바이스 (112) 에 의해 검출되고 타겟 인물 (130) 의 제 1 표시로서 인식된다. 그러나, 도 6 에서 예시된 바와 같이, 지시 객체 (510) 는 이미지 (610) 에서의 인물들 (120 및 130) 사이의 중간 위치를 지시하고, 전자 디바이스 (112) 는 제 1 표시 (즉, 지시 객체 (510)) 에 단독으로 기초하여 인물 (130) 을 타겟 인물로서 식별하지 않을 수도 있다. 이 경우, 인물들 (120 및 130) 은 제 1 표시에 기초하여 후보 객체들로서 검출될 수도 있다.
이 실시형태에서, 전자 디바이스 (112) 는 또한, 사운드 센서 (230) 를 통해 사용자 (110) 로부터 스피치 커맨드 (520) 를 포함하는 입력 사운드를 수신할 수도 있고, 입력 사운드로부터의 스피치 커맨드 (520) 를 타겟 인물 (130) 의 제 2 표시로서 인식할 수도 있다. 제 2 표시 (즉, 스피치 커맨드 (520)) 에 기초하여, 전자 디바이스 (112) 는 이미지 (610) 에서의 타겟 인물 (130) 의 얼굴 (612) 을 검출할 수도 있다. 예를 들어, 전자 디바이스 (112) 는 "모자" 와 같은, 스피치 커맨드 (520) 에서의 타겟 인물 (130) 의 설명들에 기초하여, 의류 특성들로 이미지 (610) 에서의 후보 객체들 (즉, 인물들 (120 및 130)) 을 검사할 수도 있다. 이 경우, 전자 디바이스 (112) 는 설명 "모자" 에 기초하여 인물 (130) 의 모자 (614) 를 검출할 수도 있고, 그 다음으로, 인물 (130) 을 후보 객체들 중에서의 타겟 인물로서 식별할 수도 있다. 타겟 인물 (130) 로부터, 얼굴 (612) 이 검출될 수도 있다.
일단 타겟 인물 (130) 의 얼굴 (612) 이 제 1 및 제 2 표시들에 기초하여 검출되면, 전자 디바이스 (112) 는 결정된 얼굴 (612) 로부터 타겟 인물의 얼굴 특징들의 세트를 추출할 수도 있다. 전자 디바이스 (112) 는 타겟 인물 (130) 의 얼굴 특징들의 추출된 세트와, 전자 디바이스 (112) 의 식별 정보를 포함하는 접속 요청을 생성할 수도 있다. 접속 요청은 예를 들어, 접속 요청을 브로드캐스팅하거나 멀티캐스팅함으로써 전자 디바이스들 (122, 132, 142, 및 152) 로 송신된다.
도 7 은 본 개시물의 하나의 실시형태에 따라, 접속 요청을 송신함으로써 타겟 인물과 연관된 또 다른 전자 디바이스 (즉, 타겟 디바이스) 에 접속하도록 구성된 전자 디바이스 (700) 의 블록도를 예시한다. 전자 디바이스 (700) 는 이미지 센서 (710), 사운드 센서 (720), I/O (입력/출력) 유닛 (730), 타겟 식별 유닛 (740), 접속 제어기 (750), 통신 유닛 (760), 및 저장 유닛 (770) 을 포함할 수도 있다. 전자 디바이스 (700) 는 셀룰러 전화, 스마트폰, 스마트 시계, 스마트 안경, 개인용 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 텔레비전, 게임용 디바이스, 멀티미디어 플레이어 등과 같이, 사운드 캡처 및 프로세싱 능력을 구비한 임의의 적당한 디바이스일 수도 있다. 또한, 도 1 내지 도 6 을 참조하여 위에서 설명된 바와 같은 전자 디바이스 (112) 는 또한, 도 7 에서 예시된 바와 같이 전자 디바이스 (700) 의 컴포넌트들로 구성될 수도 있다.
이미지 센서 (710) 는 지시 객체를 검출하는 것, 스피치 커맨드를 인식하는 것, 또는 I/O 유닛 (730) 을 통해 전자 디바이스 (700) 의 사용자로부터 입력 커맨드를 수신하는 것에 응답하여, 이미지 센서 (710) 의 시야에서 이미지를 캡처하도록 구성될 수도 있다. 또 다른 실시형태에서, 이미지 센서 (710) 는 그 시야에서 하나 이상의 이미지들 또는 비디오들을 연속적으로 또는 주기적으로 캡처할 수도 있다. 이미지는 지시 객체 및/또는 인물들의 얼굴들을 포함할 수도 있다. 이미지 센서 (710) 에 의해 캡처된 이미지는 전자 디바이스 (700) 의 저장 유닛 (770) 에서 영구적으로 (예컨대, 전자 파일의 형태로) 또는 일시적으로 저장될 수도 있다. 이미지 센서 (710) 는 하나 이상의 이미지들을 감지하기 위한 임의의 적당한 수의 카메라들, 이미지 센서들, 또는 비디오 카메라들을 포함할 수도 있다. 이미지 센서 (710) 에 의해 캡처된 이미지는, 이미지가 지시 객체 및/또는 인물의 얼굴을 포함하는지 여부를 결정하도록 구성될 수도 있는 타겟 식별 유닛 (740) 에 제공될 수도 있다.
사운드 센서 (720) 는 이미지 센서 (710) 에 의해 캡처된 이미지에서의 타겟 인물을 식별하는, 사용자로부터의 스피치 커맨드를 포함하는 입력 사운드를 수신 (예컨대, 캡처) 하도록 구성될 수도 있다. 하나의 실시형태에서, 이미지는 타겟 인물을 식별하는 스피치 커맨드를 수신 (또는 인식) 하는 것에 응답하여 캡처될 수도 있다. 또 다른 실시형태에서, 이미지는 이러한 스피치 커맨드를 수신 (또는 인식) 하기 전에 또는 수신 (또는 인식) 할 시에 캡처될 수도 있다.
사운드 센서 (720) 는 스피치 커맨드를 포함하는 입력 사운드를, 캡처된 이미지에서의 타겟 인물의 얼굴을 검출하기 위한 타겟 식별 유닛 (740) 에 제공될 수도 있는 입력 사운드 데이터로 변환할 수도 있다. 사운드 센서 (720) 는 입력 사운드를 수신하고, 캡처하고, 감지하고, 및/또는 검출하기 위하여 이용될 수 있는 하나 이상의 마이크로폰들 또는 임의의 다른 타입들의 사운드 센서들을 포함할 수도 있다. 게다가, 사운드 센서 (720) 는 이러한 기능들을 수행하기 위한 임의의 적당한 소프트웨어 및/또는 하드웨어를 채용할 수도 있다.
I/O 유닛 (730) 은 사용자로부터 입력 커맨드를 수신하고 및/또는 사용자에 대한 정보를 출력하도록 구성될 수도 있다. I/O 유닛 (730) 은 터치스크린, 터치패드, 터치 센서, 버튼, 키 등등과 같이, 입력 커맨드를 수신하고 및/또는 정보를 출력할 수 있는 임의의 적당한 디바이스일 수도 있다. I/O 유닛 (730) 으로서의 터치 스크린의 경우, 터치 스크린은 이미지 센서 (710) 에 의해 캡처되는 인물들 (예컨대, 도 1 에서 예시된 바와 같은 인물들 (120, 130, 140, 및 150)) 의 이미지를 디스플레이할 수도 있고, 전자 디바이스 (700) 의 사용자는 타겟 인물이 디스플레이되는 디스플레이된 이미지에서의 위치에서 터치 스크린을 터치할 수도 있다. 터치 입력은 타겟 인물을 표시하는 입력 커맨드로서 수신될 수도 있다. 입력 커맨드는 캡처된 이미지에서의 타겟 인물의 얼굴을 검출하기 위한 타겟 식별 유닛 (740) 에 제공될 수도 있다.
하나의 실시형태에서, 전자 디바이스 (700) 는, 이미지 센서 (710) 가 타겟 인물을 포함하는 이미지들을 연속적으로 캡처하고 있을 수도 있고 I/O 유닛 (730) 이 이미지들을 연속적으로 디스플레이하고 있을 수도 있는 이미지 캡처 모드에서 동작할 수도 있다. 이 경우, I/O 유닛 (730) 은 디스플레이된 이미지들 상에서 박스, 십자 기호, 점, 원 등등과 같은 마커 (marker) 를 디스플레이할 수도 있다. 마커가 타겟 인물의 얼굴 상에서 디스플레이될 때, 전자 디바이스 (700) 의 사용자는 이미지에서의 타겟 인물을 선택하기 위하여 I/O 유닛 (730) 을 통해 커맨드를 입력할 수도 있다.
저장 유닛 (770) 은 이미지에서의 얼굴 객체들, 지시 객체들, 식별 객체들 (예컨대, 모자들, 안경들, 치마들, 셔츠들, 넥타이들 등등) 과 같은 객체들을 검출하기 위한 객체 데이터베이스를 저장할 수도 있다. 객체 데이터베이스는 객체들의 하나 이상의 참조 특징들 및/또는 참조 형상들을 포함할 수도 있다. 예를 들어, 객체 데이터베이스는 인물의 눈들, 눈썹들, 코들, 입술들, 귀들 등과 같은 얼굴 객체들, 인물의 손가락, 손, 팔, 신체 등과 같은 지시 객체들, 및 인물의 모자, 안경, 치마, 셔츠, 넥타이 등과 같은 식별 객체들을 표시하는 하나 이상의 특징들 및/또는 형상들을 저장할 수도 있다.
저장 유닛 (770) 은 또한, 입력 사운드 데이터로부터의 타겟 인물을 표시하는 스피치 커맨드들을 인식함에 있어서 이용하기 위한 "접속", "인물", "그", "그녀", "남자", "여자", "우측", "좌측" 등등과 같은 복수의 스피치 커맨드들 또는 키워드들을 저장할 수도 있다. 게다가, GMM, HMM, SMM 등등과 같은 스피치 커맨드들 또는 키워드들을 인식하기 위한 하나 이상의 스피치 모델들은 저장 유닛 (770) 에서 저장될 수도 있다. 일부의 실시형태들에서, 사운드 특징들의 세트는 입력 사운드 데이터로부터 추출될 수도 있고, 입력 사운드 데이터에서 스피치 커맨드를 인식하기 위하여 저장된 스피치 모델들에 기초하여 분석될 수도 있다.
저장 유닛 (770) 은 또한, 인물들의 얼굴들을 인식하기 위하여 참조 얼굴 특징 데이터베이스를 포함할 수도 있다. 참조 얼굴 특징 데이터베이스는 하나 이상의 인물들 (예컨대, 친구들, 가족 구성원들, 사용자 등) 에 대한 하나 이상의 참조 얼굴 특징들 및 식별 정보 (예컨대, 이름들, 전화 번호들, 주소들, 이메일 어드레스들 등) 를 포함할 수도 있다. 참조 얼굴 특징들은 인물들의 얼굴들을 포함하는 이미지들로부터 추출될 수도 있다. 타겟 식별 유닛 (740) 은 타겟 인물의 표시를 인식하고 표시에 기초하여 캡처된 이미지에서의 타겟 인물의 얼굴을 검출하기 위하여 저장 유닛 (770) 을 액세스할 수도 있다. 저장 유닛 (770) 은 다양한 타입들의 정보 및 데이터를 저장하기 위하여, RAM (Random Access Memory; 랜덤 액세스 메모리), ROM (Read Only Memory; 판독 전용 메모리), EEPROM (Electrically Erasable Programmable Read Only Memory; 전기적 소거가능 프로그래밍가능 판독 전용 메모리), 또는 플래시 메모리를 포함하지만, 이것으로 제한되지는 않는 임의의 적당한 타입의 메모리 디바이스를 이용하여 구현될 수도 있다.
타겟 식별 유닛 (740) 은, 타겟 인물을 포함하는, 이미지 센서 (710) 에 의해 캡처된 이미지를 수신하도록 구성될 수도 있다. 추가적으로, 타겟 식별 유닛 (740) 은 사운드 센서 (720) 로부터, 이미지에서의 타겟 인물을 식별하는 스피치 커맨드를 포함하는 입력 사운드 데이터를 수신할 수도 있다. 일부의 실시형태들에서, 이미지에서의 타겟 인물을 표시하는 I/O 유닛 (730) 으로부터의 입력 커맨드는 타겟 식별 유닛 (740) 에 의해 수신될 수도 있다.
타겟 식별 유닛 (740) 은 이미지에서의 타겟 인물의 표시를 인식하도록 구성될 수도 있다. 예를 들어, 타겟 식별 유닛 (740) 은 이미지에서의 지시 객체를 타겟 인물의 표시로서 검출할 수도 있다. 추가적으로 또는 대안적으로, 스피치 커맨드는 타겟 인물의 표시로서 입력 사운드 데이터로부터 인식될 수도 있다. 일부의 실시형태들에서, I/O 유닛 (730) 으로부터의 입력 커맨드는 타겟 인물의 표시로서 인식될 수도 있다.
타겟 인물의 표시에 기초하여, 타겟 식별 유닛 (740) 은 캡처된 이미지에서의 타겟 인물의 얼굴을 검출할 수도 있다. 일단 타겟 인물의 얼굴이 검출되면, 타겟 인물의 얼굴 특징들의 세트는 위에서 설명된 바와 같은 임의의 적당한 특징 추출 방법들을 이용하여 이미지에서의 검출된 얼굴로부터 추출될 수도 있다. 얼굴 특징들의 추출된 세트는 통신 유닛 (760) 을 통해 타겟 인물과 연관된 전자 디바이스 (즉, 타겟 디바이스) 와의 접속을 확립함에 있어서 이용하기 위하여 접속 제어기 (750) 에 제공될 수도 있다.
일부의 실시형태들에서, 타겟 식별 유닛 (740) 은 지시 객체 또는 스피치 커맨드와 같은 타겟 인물의 표시에 기초하여 캡처된 이미지에서의 하나를 초과하는 얼굴을 검출할 수도 있다. 이 경우, 타겟 식별 유닛 (740) 은 이미지에서의 타겟 인물을 식별하기 위한 추가적인 표시를 요청할 수도 있다. 타겟 인물의 추가적인 표시에 기초하여, 타겟 식별 유닛 (740) 은 타겟 인물의 얼굴을 검출할 수도 있다. 예를 들어, 타겟 식별 유닛 (740) 이 이미지에서 검출된 지시 객체에 기초하여 타겟 인물의 얼굴을 초기에 검출할 수 없을 때 (예를 들어, 하나를 초과하는 얼굴이 이미지에서 검출될 때), 타겟 식별 유닛 (740) 은 스피치 커맨드 (예컨대, 이미지에서의 타겟 인물을 식별하는 이름, 성별, 위치 등등) 를 타겟 인물의 추가적인 표시로서 제공할 것을 전자 디바이스 (700) 의 사용자에게 요청할 수도 있다. 타겟 인물을 식별하는 스피치 커맨드에 기초하여, 타겟 식별 유닛 (740) 은 검출된 얼굴들 중의 하나를 타겟 인물의 얼굴로서 결정할 수도 있다.
접속 제어기 (750) 는 타겟 식별 유닛 (740) 으로부터 타겟 인물의 얼굴 특징들의 추출된 세트를 수신하고, 타겟 인물의 타겟 디바이스를 포함하는 전자 디바이스 (700) 에 밀접하게 근접하도록 위치된 다른 전자 디바이스들로의 송신을 위한 접속 요청을 생성하도록 구성될 수도 있다. 접속 요청은 타겟 디바이스와의 접속을 확립하기 위한 요청일 수도 있다. 접속 요청은 타겟 인물의 얼굴 특징들의 추출된 세트와, 제품 식별 번호, MAC 어드레스, IP 어드레스 등등과 같은 전자 디바이스 (700) 의 식별 정보를 포함할 수도 있다. 접속 제어기 (750) 는 접속 요청을 다른 전자 디바이스들로 송신할 수도 있는 통신 유닛 (760) 에 접속 요청을 제공할 수도 있다. 일부의 실시형태들에서, 타겟 식별 유닛 (740) 및 접속 제어기 (750) 는, 명령들을 실행할 수 있거나 전자 디바이스 (700) 를 위한 동작들을 수행할 수 있는 중앙 프로세싱 유닛 (central processing unit; CPU), 애플리케이션 프로세서 (application processor; AP), 마이크로프로세서 유닛 (microprocessor unit; MPU) 등등과 같은 임의의 적당한 프로세싱 유닛을 이용하여 구현될 수도 있다. 타겟 식별 유닛 (740) 및 접속 제어기 (750) 는 또한, 전자 디바이스 (700) 에서 구현된 하드웨어 서브시스템일 수도 있다.
통신 유닛 (760) 은 접속 요청을 브로드캐스팅하거나 멀티캐스팅함으로써 접속 요청을 송신할 수도 있다. 접속 요청에 응답하여, 타겟 디바이스는 접속 요청을 검증할 수도 있고, 검증될 경우, 접속 요청을 수락하는 응답 메시지를 전자 디바이스 (700) 로 송신할 수도 있다. 접속 제어기 (750) 는 통신 유닛 (760) 을 통해 타겟 디바이스로부터 응답 메시지를 수신할 수도 있고, 통신 유닛 (760) 을 통해 타겟 디바이스와의 접속을 확립할 수도 있다.
통신 유닛 (760) 은 상대적으로 짧은 통신 범위를 가지는 블루투스, Wi-Fi 다이렉트 등등을 포함하는 임의의 적당한 단거리 통신 프로토콜들을 구현할 수도 있다. 또 다른 실시형태에서, 통신 유닛 (760) 은 상대적으로 짧은 통신 범위를 가지는 초음파 신호들과 같은 비가청 비콘 (inaudible beacon) 사운드 신호들을 이용하여 다른 전자 디바이스들과 통신할 수도 있다. 이러한 사운드 신호들을 이용함으로써, 전자 디바이스 (700) 는 전자 디바이스 (700) 의 짧은 거리 내에 위치된 다른 전자 디바이스들과의 통신들을 제어할 수 있다. 따라서, 짧은 통신 범위는 통신 범위 외부에 위치된 전자 디바이스들이 전자 디바이스 (700) 의 통신 신호들을 수신하는 것을 방지할 수도 있다. 일부의 실시형태들에서, 전자 디바이스 (700) 의 통신 범위는 통신 신호들의 출력 전력 레벨을 제어함으로써 조절될 수도 있다.
일부의 실시형태들에서, 접속 제어기 (750) 는 타겟 디바이스가 전자 디바이스 (700) 가 타겟 디바이스에 밀접하게 근접한지 여부를 검증하도록 하기 위한 보안 정보를 포함하는 접속 요청을 생성할 수도 있다. 예를 들어, 사운드 센서 (720) 는 전자 디바이스 (700) 의 사용자 또는 다른 인물들의 음성, 군중 잡음, 배경 음악 등등과 같은 환경 사운드를 캡처할 수도 있다. 타겟 디바이스가 전자 디바이스 (700) 가 밀접하게 근접한 것으로 결정하도록 하기 위하여, 접속 제어기 (750) 는 환경 사운드로부터 추출된 사운드 특징들의 세트를 포함하는 접속 요청을 통신 유닛 (760) 을 통해 송신할 수도 있다.
접속 요청을 수신하는 것에 응답하여, 타겟 디바이스는 접속 요청에서의 사운드 특징들의 수신된 세트에 시간에 있어서 가까운 환경 사운드를 캡처할 수도 있고, 캡처된 환경 사운드로부터 사운드 특징들의 세트를 추출할 수도 있다. 사운드 특징들의 수신된, 그리고 추출된 세트들을 비교함으로써, 타겟 디바이스는 사운드 특징들이 유사한 것으로 결정할 수도 있고, 전자 디바이스 (700) 가 타겟 디바이스에 밀접하게 근접하도록 위치되는지 여부를 검증할 수도 있다. 예를 들어, 사운드 특징들의 수신된, 그리고 추출되고 수신된 세트들 사이의 유사성이 미리 결정된 문턱을 초과할 경우, 타겟 디바이스는 접속 요청을 수락하는 응답 메시지를, 접속을 확립하기 위한 전자 디바이스 (700) 로 송신할 수도 있다.
하나의 실시형태에 따르면, 타겟 디바이스로부터의 응답 메시지는 타겟 디바이스의 환경 사운드로부터 추출되는 사운드 특징들의 세트와 같은 보안 정보를 포함할 수도 있다. 이러한 응답 메시지를 수신할 시에, 전자 디바이스 (700) 디바이스는 사운드 센서 (720) 를 통해 환경 사운드를 캡처할 수도 있고, 캡처된 환경 사운드로부터 사운드 특징들의 세트를 추출할 수도 있다. 접속 제어기 (750) 는 사운드 특징들의 수신된, 그리고 추출된 세트들을 비교함으로써, 타겟 디바이스가 전자 디바이스 (700) 에 밀접하게 근접하도록 위치되는 것을 검증할 수도 있다. 검증될 경우, 접속 제어기 (750) 는 타겟 디바이스와의 접속을 확립할 수도 있다.
또 다른 실시형태에 따르면, 접속 제어기 (750) 는 접속 요청을 송신 (예컨대, 브로드캐스팅하거나 멀티캐스팅) 하는 것에 응답하여 복수의 응답 메시지들이 복수의 전자 디바이스들로부터 수신될 때에 접속을 확립하기 위한 타겟 디바이스로의 통신을 종결시키도록 구성될 수도 있다. 이 경우, 접속 제어기 (750) 는 복수의 응답 메시지들이 전자 디바이스 (700) 와의 접속을 확립하기 위한 하나 이상의 비-타겟 전자 디바이스들에 의한 시도를 표시하는 것으로 결정할 수도 있다. 예를 들어, 복수의 응답 메시지들은 접속 요청을 송신하거나 복수의 응답 메시지들 중에서 제 1 응답 메시지를 수신한 후에 미리 결정된 시간 주기 (예컨대, 1 초) 내에 수신될 수도 있다. 이러한 경우에 있어서, 접속 제어기 (750) 는 타겟 디바이스가 검증될 수 없는 것으로 결정할 수도 있고, 타겟 디바이스와의 접속을 확립하지 않고 통신을 종결시킬 수도 있다. 또 다른 실시형태에서, 통신을 종결시킨 후에, 접속 제어기 (750) 는 특정된 시간 주기 후에, 또는 사용자 입력에 응답하여, 타겟 디바이스와의 접속을 확립하기 위하여 접속 요청을 재송신할 수도 있다.
도 8 은 본 개시물의 하나의 실시형태에 따라, 타겟 인물의 표시에 기초하여 이미지에서의 타겟 인물의 얼굴을 검출하도록 구성된 타겟 식별 유닛 (740) 의 더욱 상세한 블록도를 예시한다. 도시된 바와 같이, 타겟 식별 유닛 (740) 은 객체 결정 유닛 (810), 얼굴 검출 유닛 (820), 커맨드 인식 유닛 (830), 및 얼굴 정합 유닛 (840) 을 포함할 수도 있다. 타겟 인물의 표시는 이미지 센서 (710) 로부터의 캡처된 이미지에서의 지시 객체, 사운드 센서 (720) 로부터의 사운드 데이터에서의 스피치 커맨드, 및/또는 I/O 유닛 (730) 으로부터의 입력 커맨드일 수도 있다.
타겟 식별 유닛 (740) 에서는, 객체 결정 유닛 (810) 이 이미지 센서 (710) 로부터 캡처된 이미지를 수신할 수도 있고, 이미지가 타겟 인물의 표시로서 지시 객체를 포함하는지 여부를 결정하기 위하여 이미지에 대해 객체 분석 (예컨대, 검출, 세그먼트화, 인식 등등) 을 수행할 수도 있다. 지시 객체는, 타겟 인물을 표시하기 위하여 이용될 수 있고, 인물의 손가락, 손, 팔, 또는 신체, 또는 인물의 손가락, 손, 팔, 또는 신체와 연관된 개체를 포함할 수 있는 임의의 객체일 수도 있다. 일부의 실시형태들에서, 객체 결정 유닛 (810) 은 특징-기반 방법, 에지 정합, 그레이스케일 정합 (grayscale matching), 그래디언트 정합 등등을 이용하여 객체 분석을 수행할 수도 있다.
하나의 실시형태에서, 객체 결정 유닛 (810) 은 이미지에서의 지시 객체를 검출함에 있어서 이용하기 위하여 저장 유닛 (770) 에서의 객체 데이터베이스에서 저장된 지시 객체들의 복수의 참조 특징들을 액세스할 수도 있다. 객체 결정 유닛 (810) 은 이미지에서의 객체들의 특징들을 추출할 수도 있고, 객체들의 하나 이상의 추출된 특징들이 객체 데이터베이스에서의 지시 객체들의 하나 이상의 참조 특징들과 유사한지 여부를 결정할 수도 있다. 이미지에서의 객체의 추출된 특징들과 지시 객체의 참조 특징들과의 사이의 유사성이 미리 결정된 문턱을 초과하는 것으로 결정될 경우, 추출된 특징들에 대한 객체는 지시 객체로서 결정되고, 타겟 인물의 표시로서 인식된다. 타겟 인물의 표시로서의 지시 객체는 타겟 인물의 얼굴을 검출하기 위한 얼굴 검출 유닛 (820) 에 제공될 수도 있다.
커맨드 인식 유닛 (830) 은 사운드 센서 (720) 로부터 입력 사운드 데이터를 수신하고, 입력 사운드 데이터에서의 스피치 커맨드를 이미지에서의 타겟 인물의 표시로서 인식하도록 구성될 수도 있다. 예를 들어, 하나 이상의 사운드 특징들 (예컨대, 오디오 손가락 지문들, MFCC 벡터들 등등) 은 입력 사운드 데이터로부터 추출될 수도 있다. 커맨드 인식 유닛 (830) 은 GMM, HMM, SMM 등등에 기초한 임의의 적당한 스피치 인식 방법들을 이용하여 추출된 사운드 특징들로부터의 스피치 커맨드를 인식할 수도 있다.
스피치 커맨드는 타겟 인물의 이름과 같이, 타겟 인물을 식별할 수도 있는 임의의 설명을 포함할 수도 있다. 하나의 실시형태에서, 스피치 커맨드는 이미지에서의 타겟 인물의 외관 (예컨대, 성별, 의류 물품, 컬러 설명들 등등) 을 설명할 수도 있다. 또 다른 실시형태에서, 스피치 커맨드는 이미지에서의 타겟 인물의 위치 (예컨대, 좌측, 우측, 전방, 후방 등등) 를 표시할 수도 있다. 인식된 스피치 커맨드는 이미지 센서 (710) 로부터의 이미지에서의 타겟 인물의 얼굴을 검출하기 위한 타겟 인물의 표시로서 얼굴 검출 유닛 (820) 에 제공될 수도 있다.
얼굴 검출 유닛 (820) 은 이미지 센서 (710) 로부터 이미지를, 그리고 객체 결정 유닛 (810) 및 커맨드 인식 유닛 (830) 중의 적어도 하나로부터 타겟 인물의 하나 이상의 표시들을 수신하도록 구성될 수도 있다. 게다가, I/O 유닛 (730) 은 이미지에서의 타겟 인물을 표시하는 입력 커맨드를 수신할 수도 있고, 입력 커맨드를 타겟 인물의 표시로서 얼굴 검출 유닛 (820) 에 제공할 수도 있다. 이미지로부터, 얼굴 검출 유닛 (820) 은 지시 객체, 스피치 커맨드, 및 입력 커맨드와 같은 적어도 하나의 표시에 기초하여 타겟 인물의 얼굴을 검출할 수도 있다. 일단 타겟 인물의 얼굴이 검출되면, 타겟 인물의 얼굴 특징들의 세트는 접속 요청을 생성하기 위한 검출된 얼굴로부터 추출될 수도 있다.
하나의 실시형태에서, 타겟 인물의 얼굴은 지시 객체에 기초하여 검출될 수도 있다. 이 경우, 얼굴 검출 유닛 (820) 은 지시 객체가 이미지에서의 타겟 인물을 표시하는 것으로 결정할 수도 있고, 타겟 인물의 얼굴을 검출할 수도 있다. 예를 들어, 얼굴 검출 유닛 (820) 은 이미지에서의 지시 객체에 가장 가까운 얼굴을 타겟 인물의 얼굴로서 검출할 수도 있다. 대안적으로, 지시 객체에 가장 가까운 인물이 타겟 인물로서 검출될 수도 있고, 가장 가까운 인물의 얼굴은 타겟 인물의 얼굴로서 검출될 수도 있다. 또 다른 실시형태에서, 타겟 인물은 지시 객체가 지시하고 있는 이미지에서의 인물을 결정함으로써 검출될 수도 있다.
또 다른 실시형태에 따르면, 타겟 인물의 얼굴은 커맨드 인식 유닛 (830) 으로부터의 스피치 커맨드에 기초하여 검출될 수도 있다. 스피치 커맨드에 기초하여, 얼굴 검출 유닛 (820) 은 이미지에서의 적어도 하나의 얼굴을 검출할 수도 있고, 타겟 인물을 인식할 수도 있다. 예를 들어, 얼굴 검출 유닛 (820) 은 타겟 인물의 외관 및/또는 위치를 설명하는 스피치 커맨드에서의 하나 이상의 설명들에 기초하여 타겟 인물의 얼굴을 검출할 수도 있다.
이미지에서의 타겟 인물의 얼굴이 지시 객체 또는 스피치 커맨드의 어느 하나에 단독으로 기초하여 검출되지 않을 때, 타겟 인물의 얼굴은 지시 객체 및 스피치 커맨드의 양자에 기초하여 검출될 수도 있다. 이 경우, 타겟 식별 유닛 (740) 은 추가적인 지시 객체 또는 스피치 커맨드와 같은 타겟 인물의 추가적인 표시를 제공할 것을 전자 디바이스 (700) 의 사용자에게 요청하는 메시지를 출력할 수도 있다. 사용자로부터의 추가적인 표시에 기초하여, 얼굴 검출 유닛 (820) 은 이미지에서의 타겟 인물의 얼굴을 검출할 수도 있고, 타겟 인물의 얼굴 특징들의 세트를 추출할 수도 있다.
일부의 실시형태들에서, 이미지에서의 타겟 인물의 얼굴은 I/O 유닛 (730) 으로부터의 입력 커맨드에 기초하여 결정될 수도 있다. 예를 들어, I/O 유닛 (730) 이 이미지를 디스플레이하는 터치 스크린일 때, I/O 유닛 (730) 은 입력 커맨드, 예를 들어, 타겟 인물이 디스플레이되는 이미지에서의 위치 상의 터치 입력을 수신할 수도 있다. 얼굴 검출 유닛 (820) 은 이미지에서의 터치된 위치 (예컨대, 이미지에서의 터치 입력의 좌표들) 를 타겟 인물의 표시로서 포함하는 I/O 유닛 (730) 으로부터의 입력 커맨드를 수신할 수도 있다. 표시에 기초하여, 얼굴 검출 유닛 (820) 은 터치된 위치에 가장 가까운 인물을 타겟 인물로서 결정할 수도 있고, 이미지에서의 타겟 인물의 얼굴을 검출할 수도 있다. 타겟 인물의 얼굴 특징들의 세트는 타겟 인물의 검출된 얼굴로부터 추출될 수도 있다.
이미지에서의 타겟 인물의 얼굴은 또한, 스피치 커맨드 (예컨대, "존 (JOHN) 에게 접속") 내에 포함되는 타겟 인물의 이름 (예컨대, "존 (JOHN)") 에 기초하여 검출될 수도 있다. 이 경우, 사운드 센서 (720) 는 타겟 인물의 이름을 포함하는 사용자로부터의 입력 사운드를 캡처할 수도 있고, 타겟 인물의 이름을 포함하는 사운드 데이터를 스피치 커맨드로서 커맨드 인식 유닛 (830) 으로 출력할 수도 있다. 커맨드 인식 유닛 (830) 은 스피치 커맨드를 타겟 인물의 이름을 식별하는 것으로서 인식할 수도 있고, 스피치 커맨드를 얼굴 검출 유닛 (820) 으로 출력할 수도 있다. 타겟 인물의 이름을 식별하는 스피치 커맨드를 수신할 시에, 얼굴 검출 유닛 (820) 은 이미지 센서 (710) 로부터 이미지에서의 하나 이상의 얼굴들을 검출할 수도 있고, 검출된 얼굴들에 대한 얼굴 특징의 하나 이상의 세트들을 추출할 수도 있다. 얼굴 특징들의 추출된 세트들은 얼굴 정합 유닛 (840) 에 제공된다.
얼굴 정합 유닛 (840) 은 커맨드 인식 유닛 (830) (또는 얼굴 검출 유닛 (820)) 으로부터 스피치 커맨드에서의 이름을, 그리고 얼굴 검출 유닛 (820) 으로부터 얼굴 특징들의 추출된 세트들을 수신하도록 구성될 수도 있다. 얼굴 정합 유닛 (840) 은 타겟 인물의 이름과 연관된 참조 얼굴 특징들의 세트를 취출 (retrieve) 하기 위하여 저장 유닛 (770) 을 액세스할 수도 있다. 이미지에서의 인물들의 얼굴 특징들의 추출된 세트들로부터, 타겟 인물의 이름에 대한 참조 얼굴 특징들과 정합하는 얼굴 특징들의 세트는 타겟 인물에 대한 얼굴 특징들의 세트로서 선택된다.
접속 제어기 (750) 는 얼굴 검출 유닛 (820) 또는 얼굴 정합 유닛 (840) 으로부터 타겟 인물의 얼굴 특징들의 세트를 수신하고, 얼굴 특징들의 세트 및 전자 디바이스 (700) 의 식별 정보를 포함하는 접속 요청을 생성하도록 구성된다. 접속 요청은 통신 유닛 (760) 을 통해 타겟 인물의 타겟 디바이스로 송신 (예컨대, 브로드캐스팅하거나 멀티캐스팅) 될 수도 있다. 접속 요청에 응답하여, 타겟 디바이스는 접속 요청을 수락하는 응답 메시지를 송신할 수도 있다. 통신 유닛 (760) 을 통해 응답 메시지를 수신할 시에, 전자 디바이스 (700) 는 타겟 디바이스와의 접속을 확립할 수도 있다.
일부의 실시형태들에서, 타겟 디바이스로부터의 응답 메시지는 전자 디바이스 (700) 가 타겟 디바이스가 전자 디바이스 (700) 에 밀접하게 근접한 것을 검증하도록 하기 위한 보안 정보를 포함할 수도 있다. 예를 들어, 보안 정보는 전자 디바이스 (700) 의 사용자의 얼굴 특징들의 세트를 포함할 수도 있다. 이 경우, 타겟 디바이스는 사용자를 포함하는 이미지를 캡처할 수도 있고, 사용자의 얼굴 특징들의 세트를 추출할 수도 있다. 타겟 디바이스는 사용자의 얼굴 특징들의 추출된 세트를 포함하는 응답 메시지를 전자 디바이스 (700) 로 송신할 수도 있다.
전자 디바이스 (700) 가 응답 메시지를 수신할 때, 전자 디바이스 (700) 에서의 접속 제어기 (750) 는 응답 메시지에서의 얼굴 특징들의 수신된 세트를 얼굴 정합 유닛 (840) 에 제공할 수도 있다. 얼굴 정합 유닛 (840) 은 저장 유닛 (770) 을 액세스함으로써 전자 디바이스 (700) 의 사용자의 참조 얼굴 특징들의 세트를 취출할 수도 있다. 얼굴 특징들의 수신된 세트가 참조 얼굴 특징들의 취출된 세트를 표시할 경우, 얼굴 정합 유닛 (840) 은 타겟 디바이스가 전자 디바이스 (700) 와 밀접하게 근접한 것을 검증하고, 타겟 디바이스와의 접속을 확립할 것을 접속 제어기 (750) 에 명령한다.
도 9 는 본 개시물의 하나의 실시형태에 따라, 응답 메시지를 송신함으로써 또 다른 전자 디바이스와 접속하도록 구성된 전자 디바이스 (900) 의 블록도를 예시한다. 전자 디바이스 (900) 는 이미지 센서 (910), 사운드 센서 (920), 저장 유닛 (930), 정합 유닛 (940), 접속 제어기 (950), 및 통신 유닛 (960) 을 포함할 수도 있다. 이미지 센서 (910), 사운드 센서 (920), 저장 유닛 (930), 및 통신 유닛 (960) 은 도 7 에서의 것들과 동일하거나 유사한 컴포넌트들이다. 또한, 타겟 인물과 연관된 타겟 디바이스로서 선택될 수도 있는, 도 1 내지 도 6 에서의 전자 디바이스들 (122, 132, 142, 및 152) 은 도 9 에서 예시된 전자 디바이스 (900) 의 컴포넌트들로 구성될 수도 있다.
이미지 센서 (910) 는 또 다른 전자 디바이스로부터 접속 요청을 수신하거나 전자 디바이스 (900) 의 사용자로부터 입력 커맨드를 수신하는 것에 응답하여, 이미지 센서 (910) 의 시야에서 이미지를 캡처하도록 구성될 수도 있다. 또 다른 실시형태에서, 이미지 센서 (910) 는 그 시야에서 하나 이상의 이미지들 또는 비디오들을 연속적으로 또는 주기적으로 캡처할 수도 있다. 캡처된 이미지는 저장 유닛 (930) 에서 영구적으로 (예컨대, 전자 파일의 형태로) 또는 일시적으로 저장될 수도 있다. 이미지 센서 (910) 는 하나 이상의 이미지들을 감지하기 위한 임의의 적당한 수의 카메라들, 이미지 센서들, 또는 비디오 카메라들을 포함할 수도 있다.
사운드 센서 (920) 는 환경 사운드를 입력 사운드로서 캡처하고 캡처된 환경 사운드를 입력 사운드 데이터로 변환하도록 구성될 수도 있다. 환경 사운드는 사용자 또는 다른 인물들의 음성, 군중 잡음, 배경 음악 등등을 포함할 수도 있다. 입력 사운드 데이터는 접속 요청을 송신하는 다른 전자 디바이스가 전자 디바이스 (900) 에 밀접하게 근접하도록 위치되는지 여부를 검증하기 위한 정합 유닛 (940) 에 제공될 수도 있고, 이것은 이하에서 상세하게 설명될 것이다. 사운드 센서 (920) 는 입력 사운드를 수신하고, 캡처하고, 감지하고, 및/또는 검출하기 위하여 이용될 수 있는 하나 이상의 마이크로폰들 또는 임의의 다른 타입들의 사운드 센서들을 포함할 수도 있다. 게다가, 사운드 센서 (920) 는 이러한 기능들을 수행하기 위한 임의의 적당한 소프트웨어 및/또는 하드웨어를 채용할 수도 있다.
저장 유닛 (930) 은 전자 디바이스 (900) 의 사용자에 대한 참조 얼굴 특징 데이터베이스를 포함할 수도 있다. 참조 얼굴 특징 데이터베이스는 사용자의 얼굴을 포함하는 이미지로부터 추출될 수도 있는 사용자의 참조 얼굴 특징들의 세트를 포함할 수도 있다. 저장 유닛 (930) 은 다양한 타입들의 정보 및 데이터를 저장하기 위하여, RAM (랜덤 액세스 메모리), ROM (판독 전용 메모리), EEPROM (전기적 소거가능 프로그래밍가능 판독 전용 메모리), 또는 플래시 메모리를 포함하지만, 이것으로 제한되지는 않는 임의의 적당한 타입의 메모리 디바이스를 이용하여 구현될 수도 있다.
정합 유닛 (940) 은 전자 디바이스 (900) 가 수신된 접속 요청의 의도된 수신자 (즉, 타겟 디바이스) 인지 여부를 검증하도록 구성될 수도 있다. 또 다른 전자 디바이스 (예컨대, 도 7 에서의 전자 디바이스 (700)) 로부터의 접속 요청은 통신 유닛 (960) 에 의해 수신될 수도 있다. 접속 요청은 다른 전자 디바이스에 의해 캡처된 이미지로부터 추출되는 타겟 인물의 얼굴 특징들의 세트를 포함할 수도 있다. 접속 요청은 또한, 제품 식별 번호, MAC 어드레스, IP 어드레스 등등과 같은 다른 전자 디바이스의 식별 정보를 포함할 수도 있다. 얼굴 특징들의 수신된 세트는 정합 유닛 (940) 에 제공될 수도 있다.
타겟 인물의 얼굴 특징들의 세트를 수신하는 것에 응답하여, 정합 유닛 (940) 은 저장 유닛 (930) 을 액세스함으로써 전자 디바이스 (900) 의 사용자에 대한 참조 얼굴 특징들의 세트를 취출할 수도 있다. 타겟 사용자의 얼굴 특징들의 수신된 세트가 사용자의 참조 얼굴 특징들의 취출된 세트를 표시할 경우, 정합 유닛 (940) 은 전자 디바이스 (900) 의 사용자가 타겟 인물이고 전자 디바이스 (900) 가 의도된 수신자, 즉, 타겟 디바이스인 것을 검증한다. 이 경우, 정합 유닛 (940) 은 접속 요청을 수락할 것을 접속 제어기 (950) 에 명령할 수도 있다.
하나의 실시형태에서, 정합 유닛 (940) 은 환경 사운드들에 기초하여, 접속 요청을 송신하는 다른 전자 디바이스가 전자 디바이스 (900) 에 밀접하게 근접한지 여부를 검증하도록 구성될 수도 있다. 이 경우, 접속 요청은 다른 전자 디바이스에 의해 캡처된 환경 사운드로부터 추출되는 사운드 특징들의 세트와 같은 보안 정보를 포함할 수도 있다. 사운드 특징들의 세트를 수신할 시에, 환경 사운드는 사운드 센서 (920) 에 의해 캡처될 수도 있고, 사운드 특징들의 세트는 환경 사운드로부터 추출된다. 사운드 특징들의 세트는 접속 제어기 (950) 또는 별도의 특징 추출 유닛 (도시되지 않음) 에서 추출될 수도 있다. 사운드 특징들의 추출된 세트는 정합 유닛 (940) 에 제공된다.
사운드 특징들의 수신된, 그리고 추출된 세트들을 비교함으로써, 정합 유닛 (940) 은 사운드 특징들이 유사한 것으로 결정할 수도 있고, 전자 디바이스 (900) 및 다른 전자 디바이스가 밀접하게 근접한 것을 검증할 수도 있다. 예를 들어, 사운드 특징들의 수신된, 그리고 추출된 세트들 사이의 유사성이 미리 결정된 문턱을 초과할 경우, 다른 전자 디바이스가 전자 디바이스 (900) 에 밀접하게 근접한 것이 검증된다. 이 경우, 정합 유닛 (940) 은 또한, 접속 요청을 수락할 것을 접속 제어기 (950) 에 명령할 수도 있다.
정합 유닛 (940) 으로부터의 명령들에 응답하여, 접속 제어기 (950) 는 다른 전자 디바이스로의 송신을 위한 응답 메시지를 생성할 수도 있다. 응답 메시지는 전자 디바이스 (900) 와 다른 전자 디바이스 사이의 접속을 확립하기 위한 수락 메시지일 수도 있고, 제품 식별 번호, MAC 어드레스, IP 어드레스 등등과 같은 전자 디바이스 (900) 의 식별 정보를 포함할 수도 있다. 응답 메시지는 다른 전자 디바이스의 수신된 식별 정보를 목적지 어드레스로서 이용하여 통신 유닛 (960) 을 통해 송신될 수도 있다. 다른 전자 디바이스가 응답 메시지를 수신할 때, 그것은 타겟 디바이스로서의 전자 디바이스 (900) 와의 접속을 확립할 수도 있다. 일부의 실시형태들에서, 정합 유닛 (940) 및 접속 제어기 (950) 는, 명령들을 실행할 수 있거나 전자 디바이스 (900) 를 위한 동작들을 수행할 수 있는 중앙 프로세싱 유닛 (CPU), 애플리케이션 프로세서 (AP), 마이크로프로세서 유닛 (MPU) 등등과 같은 임의의 적당한 프로세싱 유닛을 이용하여 구현될 수도 있다. 정합 유닛 (940) 및 접속 제어기 (950) 는 또한, 전자 디바이스 (900) 에서 구현된 하드웨어 서브시스템일 수도 있다.
도 7 에서의 전자 디바이스 (700) 와 유사하게, 통신 유닛 (960) 은 상대적으로 짧은 통신 범위를 가지는 블루투스, Wi-Fi 다이렉트 등등을 포함하는 임의의 적당한 단거리 통신 프로토콜들을 구현할 수도 있다. 또한, 상대적으로 짧은 통신 범위를 가지는 초음파 신호들과 같은 비가청 비콘 사운드 신호들이 이용될 수도 있다. 일부의 실시형태들에서, 전자 디바이스 (900) 의 통신 범위는 통신 신호들의 출력 전력에 기초하여 조절될 수도 있다.
하나의 실시형태에 따르면, 접속 제어기 (950) 는 다른 전자 디바이스가 타겟 디바이스로서의 전자 디바이스 (900) 가 다른 전자 디바이스에 밀접하게 근접한지 여부를 검증하도록 하기 위한 보안 정보를 포함하는 응답 메시지를 생성할 수도 있다. 예를 들어, 사운드 센서 (920) 는 환경 사운드를 캡처할 수도 있고, 접속 제어기 (950) 는 환경 사운드로부터 추출되는 사운드 특징들의 세트를 포함하는 응답 메시지를 생성할 수도 있다. 응답 메시지는 전자 디바이스 (900)가 다른 전자 디바이스에 밀접하게 근접한지 여부를 전자 디바이스가 검증하도록 하기 위하여 통신 유닛 (960) 을 통해 다른 전자 디바이스로 송신될 수도 있다.
전자 디바이스 (900) 로부터 응답 메시지를 수신하는 것에 응답하여, 다른 전자 디바이스는 환경 사운드를 캡처할 수도 있고, 캡처된 환경 사운드로부터 사운드 특징들의 세트를 추출할 수도 있다. 사운드 특징들의 수신된, 그리고 추출된 세트들을 비교함으로써, 다른 전자 디바이스는 전자 디바이스 (900) 가 밀접하게 근접하도록 위치되는지 여부를 검증할 수도 있다. 전자 디바이스 (900) 가 검증될 경우, 전자 디바이스들 사이의 접속이 확립될 수도 있다.
또 다른 실시형태에서, 접속 제어기 (950) 는 접속 요청을 송신하는 다른 전자 디바이스의 사용자의 얼굴 특징들의 세트와 같은 보안 정보를 포함하는 응답 메시지를 생성할 수도 있다. 보안 정보는 다른 전자 디바이스가 전자 디바이스 (900) 가 다른 전자 디바이스에 밀접하게 근접한지 여부를 검증하도록 한다. 이 실시형태에서는, 다른 전자 디바이스의 사용자의 이미지가 캡처될 수도 있고 사용자의 얼굴 특징들의 세트가 추출될 수도 있다.
접속 제어기 (950) 는 얼굴 특징들의 추출된 세트를 수신할 수도 있고, 보안 정보로서 얼굴 특징들의 세트를 포함하는 응답 메시지를 생성할 수도 있다. 응답 메시지는 통신 유닛 (960) 을 통해 다른 전자 디바이스로 송신된다. 전자 디바이스 (900) 로부터의 응답 메시지의 수신 시에, 다른 전자 디바이스는 그 사용자에 대한 얼굴 특징들의 수신된 세트 및 참조 얼굴 특징들의 저장된 세트를 비교할 수도 있다. 얼굴 특징들의 수신된 세트가 참조 얼굴 특징들의 저장된 세트를 표시할 경우, 다른 전자 디바이스는 전자 디바이스 (900) 가 다른 전자 디바이스에 밀접하게 근접한 것을 검증할 수도 있고, 전자 디바이스 (900) 와의 접속을 확립할 수도 있다.
도 10 은 본 개시물의 하나의 실시형태에 따라, 타겟 인물의 표시에 기초하여 타겟 인물의 타겟 디바이스와의 접속을 확립하기 위하여, 전자 디바이스에서 수행된 방법 (1000) 의 플로우차트를 예시한다. 1010 에서, 전자 디바이스 (예컨대, 도 7 에서의 전자 디바이스 (700)) 는 전자 디바이스의 사용자에 의해 타겟 인물로서 선택되는 인물을 포함하는 이미지를 캡처할 수도 있다. 타겟 인물을 표시하기 위하여, 사용자는 지시 객체를 이용하여 지시 제스처를 행할 수도 있고, 스피치 커맨드를 말할 수도 있고, 및/또는 전자 디바이스의 I/O 유닛을 통해 커맨드를 입력할 수도 있다. 지시 제스처를 행할 경우, 전자 디바이스는 이미지에서의 지시 객체를 이용하여 지시 제스처를 캡처할 수도 있다. 추가적으로 또는 대안적으로, 전자 디바이스는 사용자로부터의 스피치 커맨드를 포함하는 입력 사운드를 수신할 수도 있다.
1020 에서, 전자 디바이스는 타겟 인물의 표시를 인식한다. 하나의 실시형태에서, 이미지에서의 지시 객체는 타겟 인물의 표시로서 인식될 수도 있다. 추가적으로 또는 대안적으로, 스피치 커맨드는 수신된 입력 사운드로부터의 타겟 인물의 표시로서 인식될 수도 있다. 게다가, 입력 커맨드는 타겟 인물의 표시로서 인식될 수도 있다. 이와 같이, 전자 디바이스는 타겟 인물의 하나 이상의 표시들을 인식할 수도 있다.
1030 에서, 타겟 인물의 얼굴은 표시에 기초하여 캡처된 이미지에서 검출된다. 이 동작에서, 하나 이상의 표시들은 타겟 인물의 얼굴을 검출하기 위하여 이용될 수도 있다. 예를 들어, 표시들로서의 지시 객체 및 스피치 커맨드의 양자는 타겟 인물의 얼굴을 검출하기 위하여 이용될 수도 있다. 1040 에서, 타겟 인물의 얼굴 특징들의 세트는 이미지에서의 검출된 얼굴로부터 추출된다.
1050 에서, 전자 디바이스는 접속 요청을 브로드캐스팅하거나 멀티캐스팅함으로써, 타겟 인물의 얼굴 특징들의 추출된 세트를 포함하는 접속 요청을 타겟 디바이스를 포함하는 다른 전자 디바이스로 송신할 수도 있다. 접속 요청은 또한, 제품 식별 번호, MAC 어드레스, IP 어드레스 등등과 같은 전자 디바이스의 식별 정보를 포함할 수도 있다. 전자 디바이스로부터 접속 요청을 수신할 시에, 타겟 디바이스는 얼굴 특징들의 수신된 세트가 타겟 디바이스의 사용자 (즉, 타겟 인물) 를 표시하는지 여부를 검증하고, 검증될 경우, 응답 메시지를 전자 디바이스로 송신함으로써 접속 요청에 응답한다. 전자 디바이스는 1060 에서, 타겟 디바이스로부터 접속 요청을 수락하는 응답 메시지를 수신할 수도 있고, 1070 에서, 타겟 디바이스와의 접속을 확립한다.
도 11 은 본 개시물의 하나의 실시형태에 따라, 추가적인 표시를 요청함으로써 타겟 인물의 얼굴을 검출하기 위하여, 전자 디바이스에서 수행된 상세한 방법 (1030) 의 플로우차트를 예시한다. 전자 디바이스는 도 10 을 참조하여 위에서 설명된 바와 같이, 1020 에서, 타겟 인물의 적어도 하나의 표시를 인식할 수도 있다. 타겟 인물의 적어도 하나의 표시에 기초하여, 전자 디바이스는 1110 에서, 캡처된 이미지에서의 하나 이상의 얼굴들 (또는 인물들) 을 인식할 수도 있다.
1120 에서, 전자 디바이스는 하나를 초과하는 얼굴이 이미지에서 검출되는지 여부를 결정할 수도 있다. 하나의 얼굴이 검출될 경우 (즉, 1120 에서 아니오), 전자 디바이스는 1130 에서, 검출된 얼굴을 타겟 인물의 얼굴로서 식별할 수도 있고, 방법 (1030) 은 타겟 인물의 얼굴로부터 얼굴 특징들의 세트를 추출하기 위하여 1040 으로 진행한다. 다른 한편으로, 하나를 초과하는 얼굴이 검출될 경우 (즉, 1120 에서 예), 전자 디바이스는 예를 들어, 요청을 전자 디바이스의 사용자에게 출력함으로써, 1140 에서, 타겟 인물을 식별하기 위한 추가적인 표시를 수신할 수도 있다. 추가적인 표시는 지시 객체, 스피치 커맨드, 및/또는 임의의 다른 적당한 입력 커맨드들을 포함할 수도 있다. 추가적인 표시를 수신하는 것에 응답하여, 전자 디바이스는 1150 에서, 추가적인 표시를 인식할 수도 있고, 방법 (1030) 은 인식된 추가적인 표시에 기초하여 이미지에서의 하나 이상의 얼굴들을 검출하기 위하여 1110 으로 진행한다.
도 12 는 본 개시물의 하나의 실시형태에 따라, 타겟 디바이스로의 접속을 위한 방법들 및 장치가 구현될 수도 있는 예시적인 전자 디바이스 (1200) 의 블록도이다. 전자 디바이스 (1200) 의 구성은 도 1 내지 도 11 을 참조하여 설명된 상기 실시형태들에 따라 전자 디바이스들에서 구현될 수도 있다. 전자 디바이스 (1200) 는 셀룰러 전화, 스마트폰, 태블릿 컴퓨터, 랩톱 컴퓨터, 단말, 핸드셋, 개인 정보 단말 (personal digital assistant; PDA), 무선 모뎀, 코드리스 전화, 안경 등일 수도 있다. 무선 통신 시스템은 코드 분할 다중 액세스 (Code Division Multiple Access; CDMA) 시스템, 이동 통신들을 위한 브로드캐스트 시스템 (Broadcast System for Mobile Communications; GSM) 시스템, 광대역 CDMA (Wideband CDMA; WCDMA) 시스템, 롱텀 에볼루션 (LTE) 시스템, LTE 어드밴스드 시스템 등일 수도 있다. 또한, 전자 디바이스 (1200) 는 예컨대, Wi-Fi 다이렉트 또는 블루투스를 이용하여 또 다른 이동 디바이스와 직접적으로 통신할 수도 있다.
전자 디바이스 (1200) 는 수신 경로 및 송신 경로를 통해 양방향 통신을 제공할 수 있다. 수신 경로 상에서, 기지국들에 의해 송신된 신호들은 안테나 (1212) 에 의해 수신되고, 수신기 (receiver; RCVR) (1214) 에 제공된다. 수신기 (1214) 는 수신된 신호를 조절하고 디지털화하고, 조절되고 디지털화된 디지털 신호와 같은 샘플들을 추가의 프로세싱을 위한 디지털 섹션에 제공한다. 송신 경로 상에서, 송신기 (transmitter; TMTR) (1216) 는 디지털 섹션 (1220) 으로부터 송신되어야 할 데이터를 수신하고, 데이터를 프로세싱하고 조절하고, 안테나 (1212) 를 통해 기지국들로 송신되는 변조된 신호를 생성한다. 수신기 (1214) 및 송신기 (1216) 는 CDMA, GSM, LTE, LTE 어드밴스드 등을 지원할 수도 있는 트랜시버의 일부일 수도 있다.
디지털 섹션 (1220) 은 예를 들어, 모뎀 프로세서 (1222), 축약 명령어 세트 컴퓨터/디지털 신호 프로세서 (reduced instruction set computer/digital signal processor; RISC/DSP) (1224), 제어기/프로세서 (1226), 내부 메모리 (1228), 일반화된 오디오 인코더 (1232), 일반화된 오디오 디코더 (1234), 그래픽/디스플레이 프로세서 (1236), 및 외부 버스 인터페이스 (external bus interface; EBI) (1238) 와 같은 다양한 프로세싱, 인터페이스, 및 메모리 유닛들을 포함한다. 모뎀 프로세서 (1222) 는 데이터 송신 및 수신을 위한 프로세싱, 예컨대, 인코딩, 변조, 복조, 및 디코딩을 수행할 수도 있다. RISC/DSP (1224) 는 전자 디바이스 (1200) 를 위한 일반적인 및 특화된 프로세싱을 수행할 수도 있다. 제어기/프로세서 (1226) 는 디지털 섹션 (1220) 내의 다양한 프로세싱 및 인터페이스 유닛들의 동작을 수행할 수도 있다. 내부 메모리 (1228) 는 디지털 섹션 (1220) 내의 다양한 유닛들을 위한 데이터 및/또는 명령들을 저장할 수도 있다.
일반화된 오디오 인코더 (1232) 는 오디오 소스 (1242), 마이크로폰 (1243) 등으로부터의 입력 신호들에 대한 인코딩을 수행할 수도 있다. 일반화된 오디오 디코더 (1234) 는 코딩된 오디오 데이터에 대한 디코딩을 수행할 수도 있고, 출력 신호들을 기능 결정 엔진 (1244) 에 제공할 수도 있다. 그래픽/디스플레이 프로세서 (1236) 는 디스플레이 유닛 (1246) 에 제시될 수도 있는 그래픽, 비디오들, 이미지들, 및 텍스트들에 대한 프로세싱을 수행할 수도 있다. EBI (1238) 는 디지털 섹션 (1220) 과 주 메모리 (1248) 사이의 데이터의 전송을 용이하게 할 수도 있다.
디지털 섹션 (1220) 은 하나 이상의 프로세서들, DSP 들, 마이크로프로세서들, RISC 들 등으로 구현될 수도 있다. 디지털 섹션 (1220) 은 또한, 하나 이상의 애플리케이션 특정 집적 회로 (application specific integrated circuit; ASIC) 들 및/또는 일부의 다른 타입의 집적 회로 (IC) 들 상에서 제조될 수도 있다.
일반적으로, 본원에서 설명된 임의의 디바이스는 무선 전화, 셀룰러 전화, 랩톱 컴퓨터, 무선 멀티미디어 디바이스, 무선 통신 개인용 컴퓨터 (PC) 카드, PDA, 외부 또는 내부 모뎀, 무선 채널을 통해 통신하는 디바이스 등과 같은 다양한 타입들의 디바이스들을 나타낼 수도 있다. 디바이스는 액세스 단말 (access terminal; AT), 액세스 유닛, 가입자 유닛, 이동국, 이동 디바이스, 이동 유닛, 이동 전화, 모바일, 원격 스테이션, 원격 단말, 원격 유닛, 사용자 디바이스, 사용자 장비, 핸드헬드 디바이스 등과 같은 다양한 명칭들을 가질 수도 있다. 본원에서 설명된 임의의 디바이스는 명령들 및 데이터를 저장하기 위한 메모리뿐만 아니라, 하드웨어, 소프트웨어, 펌웨어, 또는 그 조합을 가질 수도 있다.
본원에서 설명된 기법들은 다양한 수단에 의해 구현될 수도 있다. 예를 들어, 이 기법들은 하드웨어, 펌웨어, 소프트웨어, 또는 그 조합으로 구현될 수도 있다. 당해 분야의 당업자들은 본원에서의 개시물과 관련하여 설명된 다양한 예시적인 논리적 블록들, 모듈들, 회로들, 및 알고리즘 단계들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합들로서 구현될 수도 있다는 것을 추가로 인식할 것이다. 하드웨어 및 소프트웨어의 이 교환가능성을 명확하게 예시하기 위하여, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들, 및 단계들은 일반적으로 그 기능성의 측면에서 위에서 설명되었다. 이러한 기능성이 하드웨어 또는 소프트웨어로서 구현되는지 여부는 특정한 애플리케이션과, 전체 시스템에 부과된 설계 제약들에 종속된다. 당업자들은 각각의 특별한 애플리케이션을 위한 다양한 방법들로 설명된 기능성을 구현할 수도 있지만, 이러한 구현 판단들은 본 개시물의 범위로부터의 이탈을 야기시키는 것으로 해석되지 않아야 한다.
하드웨어 구현예에서, 기법들을 수행하기 위하여 이용된 프로세싱 유닛들은 하나 이상의 ASIC 들, DSP 들, 디지털 신호 프로세싱 디바이스 (digital signal processing device; DSPD) 들, 프로그래밍가능 로직 디바이스 (programmable logic device; PLD) 들, 필드 프로그래밍가능 게이트 어레이 (field programmable gate array; FPGA) 들, 프로세서들, 제어기들, 마이크로-제어기들, 마이크로프로세서들, 전자 디바이스들, 본원에서 설명된 기능들을 수행하도록 설계된 다른 전자 유닛들, 컴퓨터, 또는 그 조합 내에서 구현될 수도 있다.
이에 따라, 본원에서의 개시물과 관련하여 설명된 다양한 예시적인 논리적 블록들, 모듈들, 및 회로들은 범용 프로세서, DSP, ASIC, FPGA 또는 다른 프로그래밍가능 로직 디바이스, 개별 게이트 또는 트랜지스터 로직, 개별 하드웨어 컴포넌트들, 또는 본원에서 설명된 기능들을 수행하도록 설계된 그 임의의 조합으로 구현되거나 수행된다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안적으로, 프로세서는 임의의 기존의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신 (state machine) 일 수도 있다. 프로세서는 또한, 컴퓨팅 디바이스들의 조합, 예컨대, DSP 및 마이크로프로세서, 복수의 마이크로프로세서들, DSP 코어와 함께 하나 이상의 마이크로프로세서들, 또는 임의의 다른 이러한 구성의 조합으로서 구현될 수도 있다.
소프트웨어로 구현될 경우, 기능들은 하나 이상의 명령들 또는 코드로서, 컴퓨터 판독가능 매체 상에 저장되거나, 컴퓨터 판독가능 매체 상에서 송신될 수도 있다. 컴퓨터 판독가능 매체들은, 하나의 장소로부터 또 다른 장소까지의 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함하는 컴퓨터 저장 매체들 및 통신 매체들의 양자를 포함한다. 저장 매체들은 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체들일 수도 있다. 그것으로 제한되는 것이 아니라, 예로서, 이러한 컴퓨터 판독가능 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 저장, 자기 디스크 저장, 또는 다른 자기 저장 디바이스들, 또는 명령들 또는 데이터 구조들의 형태로 희망하는 프로그램 코드를 반송하거나 저장하기 위하여 이용될 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 접속은 컴퓨터 판독가능 매체로 적당하게 칭해진다. 예를 들어, 동축 케이블, 광섬유 케이블, 트위스트 페어 (twisted pair), 디지털 가입자 회선 (digital subscriber line; DSL), 또는 무선 기술들 예컨대, 적외선, 라디오 (radio), 및 마이크로파 (microwave) 를 이용하여, 웹사이트, 서버, 또는 다른 원격 소스로부터 소프트웨어가 송신될 경우, 동축 케이블, 광섬유 케이블, 트위스트 페어, DSL, 또는 무선 기술들 예컨대, 적외선, 라디오, 및 마이크로파는 매체의 정의 내에 포함된다. 본원에서 이용된 바와 같은 디스크 (disk) 및 디스크 (disc) 는 컴팩트 디스크 (compact disc; CD), 레이저 디스크 (laser disc), 광학 디스크 (optical disc), 디지털 다기능 디스크 (digital versatile disc; DVD), 플로피 디스크 (floppy disk) 및 블루레이 디스크 (blu-ray disc) 를 포함하고, 여기서, 디스크 (disk) 들은 통상 데이터를 자기적으로 재생하는 반면, 디스크 (disc) 들은 데이터를 레이저들로 광학적으로 재생한다. 상기의 조합들은 컴퓨터 판독가능 매체들의 범위 내에 또한 포함되어야 한다.
개시물의 이전의 설명은 당해 분야의 당업자가 개시물을 제조하거나 이용하는 것을 가능하게 하도록 제공된다. 개시물에 대한 다양한 수정들은 당해 분야의 당업자들에게 용이하게 명백할 것이고, 본원에서 정의된 일반적인 원리들은 개시물의 사상 또는 범위로부터 이탈하지 않으면서 다른 변동들에 적용된다. 이에 따라, 개시물은 본원에서 설명된 예들에 제한되도록 의도된 것이 아니라, 본원에서 개시된 원리들 및 신규한 특징들과 일치하는 가장 넓은 범위를 따르도록 하기 위한 것이다.
예시적인 구현예들은 하나 이상의 단독형 컴퓨터 시스템들의 상황에서 현재 개시된 발명요지의 양태들을 사용하여 참조되지만, 발명요지는 그렇게 제한되는 것이 아니라, 오히려, 네트워크 또는 분산된 컴퓨팅 환경과 같은 임의의 컴퓨팅 환경과 관련하여 구현될 수도 있다. 또한, 현재 개시된 발명요지의 양태들은 복수의 프로세싱 칩들 또는 디바이스들에서 또는 이러한 복수의 프로세싱 칩들 또는 디바이스들에 걸쳐 구현될 수도 있고, 저장장치는 복수의 디바이스들에 걸쳐 유사하게 영향받을 수도 있다. 이러한 디바이스들은 PC 들, 네트워크 서버들, 및 핸드헬드 디바이스들을 포함할 수도 있다.
발명요지는 구조적 특징부들 및/또는 방법론적 액트 (methodological act) 들에 대해 특정된 언어로 설명되었지만, 첨부된 청구항들에서 정의된 발명요지는 위에서 설명된 특정 특징부들 또는 동작들에 반드시 제한되지는 않는다는 것을 이해해야 한다. 오히려, 위에서 설명된 특정 특징부들 및 동작들은 청구항들을 구현하는 일 예의 형태들로서 개시된다.
Claims (32)
- 타겟 디바이스에 접속하기 위하여 전자 디바이스에서 수행된 방법으로서,
상기 타겟 디바이스와 연관된 타겟 인물의 지시 객체 및 얼굴을 포함하는 이미지를 캡처하는 단계;
상기 타겟 인물의 표시를 인식하는 단계로서, 상기 표시는 캡처된 상기 이미지에서의 적어도 상기 지시 객체에 대응하는, 상기 인식하는 단계;
상기 표시에 기초하여 상기 이미지에서의 상기 타겟 인물의 상기 얼굴을 검출하는 단계;
상기 이미지에서의 상기 얼굴의 적어도 하나의 얼굴 특징을 추출하는 단계; 및
상기 적어도 하나의 얼굴 특징에 기초하여 상기 타겟 디바이스에 접속하는 단계를 포함하는, 타겟 디바이스에 접속하기 위하여 전자 디바이스에서 수행된 방법. - 제 1 항에 있어서,
상기 표시를 인식하는 단계는 상기 이미지에서의 상기 지시 객체를 상기 타겟 인물의 상기 표시로서 검출하는 단계를 포함하는, 타겟 디바이스에 접속하기 위하여 전자 디바이스에서 수행된 방법. - 제 1 항에 있어서,
상기 표시를 인식하는 단계는,
입력 사운드를 수신하는 단계; 및
상기 입력 사운드로부터의 스피치 커맨드를 상기 타겟 인물의 추가적인 표시로서 인식하는 단계를 더 포함하는, 타겟 디바이스에 접속하기 위하여 전자 디바이스에서 수행된 방법. - 제 1 항에 있어서,
상기 표시를 인식하는 단계는 입력 커맨드를 상기 타겟 인물의 추가적인 표시로서 입력 커맨드를 수신하는 단계를 더 포함하는, 타겟 디바이스에 접속하기 위하여 전자 디바이스에서 수행된 방법. - 제 1 항에 있어서,
상기 표시를 인식하는 단계는,
상기 이미지에서의 상기 지시 객체를 상기 타겟 인물의 상기 표시로서 검출하는 단계; 및
입력 사운드로부터의 스피치 커맨드를 상기 타겟 인물의 추가적인 표시로서 인식하는 단계를 더 포함하는, 타겟 디바이스에 접속하기 위하여 전자 디바이스에서 수행된 방법. - 제 1 항에 있어서,
상기 타겟 인물의 상기 얼굴을 검출하는 단계는,
복수의 얼굴들이 상기 이미지에서 검출되는 경우에 상기 타겟 인물을 식별하기 위한 추가적인 표시를 수신하는 단계; 및
상기 추가적인 표시에 기초하여 상기 타겟 인물의 상기 얼굴을 검출하는 단계를 포함하는, 타겟 디바이스에 접속하기 위하여 전자 디바이스에서 수행된 방법. - 제 1 항에 있어서,
상기 타겟 디바이스에 접속하는 단계는,
상기 적어도 하나의 얼굴 특징을 포함하는 접속 요청을 송신하는 단계;
상기 타겟 디바이스로부터, 상기 전자 디바이스에 접속하기 위한 응답 메시지를 수신하는 단계; 및
상기 응답 메시지에 기초하여 상기 타겟 디바이스와의 상기 접속을 확립하는 단계를 포함하는, 타겟 디바이스에 접속하기 위하여 전자 디바이스에서 수행된 방법. - 제 7 항에 있어서,
상기 응답 메시지는 상기 타겟 디바이스를 검증하기 위한 보안 정보를 포함하고, 그리고
상기 타겟 디바이스와의 상기 접속을 확립하는 단계는 상기 보안 정보에 기초하여 상기 응답 메시지를 검증하는 단계를 포함하는, 타겟 디바이스에 접속하기 위하여 전자 디바이스에서 수행된 방법. - 제 8 항에 있어서,
상기 보안 정보는 상기 타겟 디바이스에 의해 캡처된 환경 사운드 데이터 및 상기 전자 디바이스의 사용자의 얼굴 특징 데이터 중의 적어도 하나를 포함하는, 타겟 디바이스에 접속하기 위하여 전자 디바이스에서 수행된 방법. - 제 1 항에 있어서,
상기 타겟 디바이스에 접속하는 단계는,
상기 적어도 하나의 얼굴 특징을 포함하는 접속 요청을 송신하는 단계; 및
복수의 응답 메시지들이 상기 전자 디바이스에 접속하기 위하여 수신되는지 여부에 기초하여 상기 타겟 디바이스와의 상기 접속을 확립하는 단계를 포함하는, 타겟 디바이스에 접속하기 위하여 전자 디바이스에서 수행된 방법. - 타겟 디바이스에 접속하기 위한 전자 디바이스로서,
상기 타겟 디바이스와 연관된 타겟 인물의 지시 객체 및 얼굴을 포함하는 이미지를 캡처하도록 구성된 이미지 센서;
상기 타겟 인물의 표시를 인식함으로써, 그리고 상기 표시에 기초하여 상기 이미지에서의 상기 타겟 인물의 상기 얼굴을 검출함으로써, 상기 이미지에서의 상기 얼굴의 적어도 하나의 얼굴 특징을 추출하도록 구성된 타겟 식별 유닛으로서, 상기 타겟 식별 유닛은 캡처된 상기 이미지에서의 상기 지시 객체를 상기 타겟 인물의 상기 표시로서 검출하도록 구성된 객체 결정 유닛을 포함하는, 상기 타겟 식별 유닛; 및
상기 적어도 하나의 얼굴 특징에 기초하여 상기 타겟 디바이스로의 접속을 확립하도록 구성된 접속 제어기를 포함하는, 타겟 디바이스에 접속하기 위한 전자 디바이스. - 제 11 항에 있어서,
상기 타겟 식별 유닛은 입력 사운드로부터의 스피치 커맨드를 상기 타겟 인물의 추가적인 표시로서 인식하도록 구성된 커맨드 식별 유닛을 포함하는, 타겟 디바이스에 접속하기 위한 전자 디바이스. - 제 11 항에 있어서,
입력 커맨드를 상기 타겟 인물의 추가적인 표시로서 수신하도록 구성된 입력 유닛을 더 포함하는, 타겟 디바이스에 접속하기 위한 전자 디바이스. - 제 11 항에 있어서,
상기 타겟 식별 유닛은 또한,
복수의 얼굴들이 상기 이미지에서 검출되는 경우에 상기 타겟 인물을 식별하기 위한 추가적인 표시를 수신하고; 그리고
상기 추가적인 표시에 기초하여 상기 타겟 인물의 상기 얼굴을 검출하도록 구성되는, 타겟 디바이스에 접속하기 위한 전자 디바이스. - 제 11 항에 있어서,
상기 접속 제어기는 또한,
상기 적어도 하나의 얼굴 특징을 포함하는 접속 요청을 송신하고;
상기 타겟 디바이스로부터, 상기 전자 디바이스에 접속하기 위한 응답 메시지를 수신하고; 그리고
상기 응답 메시지에 기초하여 상기 타겟 디바이스와의 상기 접속을 확립하도록 구성되는, 타겟 디바이스에 접속하기 위한 전자 디바이스. - 제 15 항에 있어서,
상기 응답 메시지는 상기 타겟 디바이스를 검증하기 위한 보안 정보를 포함하고, 그리고
상기 접속 제어기는 또한 상기 보안 정보에 기초하여 상기 응답 메시지를 검증하도록 구성되는, 타겟 디바이스에 접속하기 위한 전자 디바이스. - 제 16 항에 있어서,
상기 보안 정보는 상기 타겟 디바이스에 의해 캡처된 환경 사운드 데이터 및 상기 전자 디바이스의 사용자의 얼굴 특징 데이터 중의 적어도 하나를 포함하는, 타겟 디바이스에 접속하기 위한 전자 디바이스. - 제 11 항에 있어서,
상기 접속 제어기는 또한,
상기 적어도 하나의 얼굴 특징을 포함하는 접속 요청을 송신하고; 그리고
복수의 응답 메시지들이 상기 전자 디바이스에 접속하기 위하여 수신되는지 여부에 기초하여 상기 타겟 디바이스와의 상기 접속을 확립하도록 구성되는, 타겟 디바이스에 접속하기 위한 전자 디바이스. - 타겟 디바이스에 접속하기 위한 명령들을 포함하는 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령들은, 전자 디바이스의 프로세서로 하여금,
상기 타겟 디바이스와 연관된 타겟 인물의 지시 객체 및 얼굴을 포함하는 이미지를 캡처하고;
상기 타겟 인물의 표시를 인식하는 것으로서, 상기 표시는 캡처된 상기 이미지에서의 적어도 상기 지시 객체에 대응하는, 상기 인식하고;
상기 표시에 기초하여 상기 이미지에서의 상기 타겟 인물의 상기 얼굴을 검출하고;
상기 이미지에서의 상기 얼굴의 적어도 하나의 얼굴 특징을 추출하고; 그리고
상기 적어도 하나의 얼굴 특징에 기초하여 상기 타겟 디바이스에 접속하는 동작들을 수행하게 하는, 비일시적 컴퓨터 판독가능 저장 매체. - 제 19 항에 있어서,
상기 표시를 인식하는 것은 상기 이미지에서의 상기 지시 객체를 상기 타겟 인물의 상기 표시로서 검출하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체. - 제 19 항에 있어서,
상기 표시를 인식하는 것은,
입력 사운드를 수신하는 것; 및
상기 입력 사운드로부터의 스피치 커맨드를 상기 타겟 인물의 추가적인 표시로서 인식하는 것을 더 포함하는, 비일시적 컴퓨터 판독가능 저장 매체. - 제 19 항에 있어서,
상기 타겟 디바이스에 접속하는 것은,
상기 적어도 하나의 얼굴 특징을 포함하는 접속 요청을 송신하는 것;
상기 타겟 디바이스로부터, 상기 전자 디바이스에 접속하기 위한 응답 메시지를 수신하는 것; 및
상기 응답 메시지에 기초하여 상기 타겟 디바이스와의 상기 접속을 확립하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체. - 제 22 항에 있어서,
상기 응답 메시지는 상기 타겟 디바이스를 검증하기 위한 보안 정보를 포함하고, 그리고
상기 타겟 디바이스와의 상기 접속을 확립하는 것은 상기 보안 정보에 기초하여 상기 응답 메시지를 검증하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체. - 타겟 디바이스에 접속하기 위한 전자 디바이스로서,
상기 타겟 디바이스와 연관된 타겟 인물의 지시 객체 및 얼굴을 포함하는 이미지를 캡처하기 위한 수단;
상기 타겟 인물의 표시를 인식함으로써, 그리고 상기 표시에 기초하여 상기 이미지에서의 상기 타겟 인물의 상기 얼굴을 검출함으로써, 상기 이미지에서의 상기 얼굴의 적어도 하나의 얼굴 특징을 추출하기 위한 수단으로서, 상기 얼굴의 적어도 하나의 얼굴 특징을 추출하기 위한 수단은 상기 이미지에서의 상기 지시 객체를 상기 타겟 인물의 상기 표시로서 검출하기 위한 수단을 포함하는, 상기 추출하기 위한 수단; 및
상기 적어도 하나의 얼굴 특징에 기초하여 상기 타겟 디바이스로의 접속을 확립하기 위한 수단을 포함하는, 타겟 디바이스에 접속하기 위한 전자 디바이스. - 제 24 항에 있어서,
상기 얼굴의 상기 적어도 하나의 얼굴 특징을 추출하기 위한 수단은 입력 사운들로부터의 스피치 커맨드를 상기 타겟 인물의 추가적인 표시로서 인식하기 위한 수단을 포함하는, 타겟 디바이스에 접속하기 위한 전자 디바이스. - 제 24 항에 있어서,
상기 타겟 디바이스로의 상기 접속을 확립하기 위한 수단은,
상기 적어도 하나의 얼굴 특징을 포함하는 접속 요청을 송신하고;
상기 타겟 디바이스로부터, 상기 전자 디바이스에 접속하기 위한 응답 메시지를 수신하고; 그리고
상기 응답 메시지에 기초하여 상기 타겟 디바이스와의 상기 접속을 확립하도록 구성되는, 타겟 디바이스에 접속하기 위한 전자 디바이스. - 제 26 항에 있어서,
상기 응답 메시지는 상기 타겟 디바이스를 검증하기 위한 보안 정보를 포함하고, 그리고
상기 타겟 디바이스로의 상기 접속을 확립하기 위한 수단은 또한 상기 보안 정보에 기초하여 상기 응답 메시지를 검증하도록 구성되는, 타겟 디바이스에 접속하기 위한 전자 디바이스. - 제 11 항에 있어서,
상기 타겟 식별 유닛은 또한, 상기 표시가 인식되지 않는 경우 상기 타겟 인물을 식별하기 위한 추가적인 표시를 요청하도록 구성되는, 타겟 디바이스에 접속하기 위한 전자 디바이스. - 제 1 항에 있어서,
상기 타겟 인물의 상기 표시를 인식하는 단계는 이동 통신 디바이스를 포함하는 디바이스에서 수행되는, 타겟 디바이스에 접속하기 위하여 전자 디바이스에서 수행된 방법. - 제 11 항에 있어서,
안테나; 및
상기 안테나에 결합된 수신기를 더 포함하는, 타겟 디바이스에 접속하기 위한 전자 디바이스. - 제 30 항에 있어서,
상기 이미지 센서, 상기 타겟 식별 유닛, 상기 접속 제어기, 상기 수신기, 및 상기 안테나가 이동 통신 디바이스 내부에 통합되는, 타겟 디바이스에 접속하기 위한 전자 디바이스. - 제 24 항에 있어서,
상기 캡처하기 위한 수단; 상기 추출하기 위한 수단, 및 상기 확립하기 위한 수단은 이동 통신 디바이스 내부에 통합되는, 타겟 디바이스에 접속하기 위한 전자 디바이스.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/219,894 US9311525B2 (en) | 2014-03-19 | 2014-03-19 | Method and apparatus for establishing connection between electronic devices |
US14/219,894 | 2014-03-19 | ||
PCT/US2015/020710 WO2015142719A2 (en) | 2014-03-19 | 2015-03-16 | Method and apparatus for establishing connection between electronic devices |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160117634A KR20160117634A (ko) | 2016-10-10 |
KR101759859B1 true KR101759859B1 (ko) | 2017-07-19 |
Family
ID=52875760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167026732A KR101759859B1 (ko) | 2014-03-19 | 2015-03-16 | 전자 디바이스들 사이의 접속을 확립하기 위한 방법 및 장치 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9311525B2 (ko) |
EP (1) | EP3120298B1 (ko) |
JP (1) | JP6144849B1 (ko) |
KR (1) | KR101759859B1 (ko) |
CN (1) | CN106104569B (ko) |
WO (1) | WO2015142719A2 (ko) |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10713341B2 (en) * | 2011-07-13 | 2020-07-14 | Scott F. McNulty | System, method and apparatus for generating acoustic signals based on biometric information |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
TWI512644B (zh) * | 2014-08-21 | 2015-12-11 | Coretronic Corp | 智慧型眼鏡及使用智慧型眼鏡的人臉辨識與提示方法 |
IL235642B (en) | 2014-11-11 | 2021-08-31 | Lumus Ltd | A compact head-up display system is protected by an element with a super-thin structure |
US9769367B2 (en) | 2015-08-07 | 2017-09-19 | Google Inc. | Speech and computer vision-based control |
JP2017117371A (ja) * | 2015-12-25 | 2017-06-29 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 制御方法、制御装置およびプログラム |
US9838641B1 (en) | 2015-12-30 | 2017-12-05 | Google Llc | Low power framework for processing, compressing, and transmitting images at a mobile image capture device |
US9836484B1 (en) | 2015-12-30 | 2017-12-05 | Google Llc | Systems and methods that leverage deep learning to selectively store images at a mobile image capture device |
US10225511B1 (en) | 2015-12-30 | 2019-03-05 | Google Llc | Low power framework for controlling image sensor mode in a mobile image capture device |
US9836819B1 (en) | 2015-12-30 | 2017-12-05 | Google Llc | Systems and methods for selective retention and editing of images captured by mobile image capture device |
US10732809B2 (en) | 2015-12-30 | 2020-08-04 | Google Llc | Systems and methods for selective retention and editing of images captured by mobile image capture device |
US10178293B2 (en) * | 2016-06-22 | 2019-01-08 | International Business Machines Corporation | Controlling a camera using a voice command and image recognition |
JP2017228080A (ja) * | 2016-06-22 | 2017-12-28 | ソニー株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
US20190258318A1 (en) * | 2016-06-28 | 2019-08-22 | Huawei Technologies Co., Ltd. | Terminal for controlling electronic device and processing method thereof |
MX2018007164A (es) | 2016-11-08 | 2019-06-06 | Lumus Ltd | Dispositivo de guia de luz con borde de corte optico y metodos de produccion correspondientes. |
US10212338B2 (en) * | 2016-11-22 | 2019-02-19 | Google Llc | Camera operable using natural language commands |
KR102692944B1 (ko) | 2017-02-22 | 2024-08-07 | 루머스 리미티드 | 광 가이드 광학 어셈블리 |
CN113341566B (zh) | 2017-03-22 | 2023-12-15 | 鲁姆斯有限公司 | 交叠的反射面构造 |
KR102304701B1 (ko) * | 2017-03-28 | 2021-09-24 | 삼성전자주식회사 | 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치 |
IL251645B (en) | 2017-04-06 | 2018-08-30 | Lumus Ltd | Waveguide and method of production |
US10176807B2 (en) | 2017-04-17 | 2019-01-08 | Essential Products, Inc. | Voice setup instructions |
US10353480B2 (en) * | 2017-04-17 | 2019-07-16 | Essential Products, Inc. | Connecting assistant device to devices |
US10355931B2 (en) | 2017-04-17 | 2019-07-16 | Essential Products, Inc. | Troubleshooting voice-enabled home setup |
DK179549B1 (en) * | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
KR102299847B1 (ko) * | 2017-06-26 | 2021-09-08 | 삼성전자주식회사 | 얼굴 인증 방법 및 장치 |
US11099540B2 (en) | 2017-09-15 | 2021-08-24 | Kohler Co. | User identity in household appliances |
US11093554B2 (en) | 2017-09-15 | 2021-08-17 | Kohler Co. | Feedback for water consuming appliance |
US10887125B2 (en) | 2017-09-15 | 2021-01-05 | Kohler Co. | Bathroom speaker |
US11314214B2 (en) | 2017-09-15 | 2022-04-26 | Kohler Co. | Geographic analysis of water conditions |
US10448762B2 (en) | 2017-09-15 | 2019-10-22 | Kohler Co. | Mirror |
US10992662B2 (en) | 2017-10-09 | 2021-04-27 | International Business Machines Corporation | Enabling/disabling applications using face authentication |
CN107748879A (zh) * | 2017-11-16 | 2018-03-02 | 百度在线网络技术(北京)有限公司 | 用于获取人脸信息的方法及装置 |
CN107911613A (zh) * | 2017-12-25 | 2018-04-13 | 努比亚技术有限公司 | 拍照控制方法、移动终端以及计算机可读介质 |
KR102595790B1 (ko) * | 2018-01-26 | 2023-10-30 | 삼성전자주식회사 | 전자 장치 및 그의 제어방법 |
US10679039B2 (en) * | 2018-04-03 | 2020-06-09 | Google Llc | Detecting actions to discourage recognition |
US10847162B2 (en) * | 2018-05-07 | 2020-11-24 | Microsoft Technology Licensing, Llc | Multi-modal speech localization |
CA3100472C (en) | 2018-05-23 | 2023-05-16 | Lumus Ltd. | Optical system including light-guide optical element with partially-reflective internal surfaces |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
CN108834227B (zh) * | 2018-06-22 | 2021-05-14 | 维沃移动通信有限公司 | 移动终端之间建立连接的方法及装置 |
CN108874360B (zh) * | 2018-06-27 | 2023-04-07 | 百度在线网络技术(北京)有限公司 | 全景内容定位方法和装置 |
CN109545225B (zh) * | 2018-12-07 | 2022-04-15 | 四川长虹电器股份有限公司 | 一种基于电子设备远场语音且可动态调整的蓝牙交互方法 |
US11523092B2 (en) | 2019-12-08 | 2022-12-06 | Lumus Ltd. | Optical systems with compact image projector |
KR20210094798A (ko) * | 2020-01-22 | 2021-07-30 | 한화테크윈 주식회사 | 사용자 피드백에 기초한 도어벨 카메라 시스템에 의한 이벤트 생성 |
JP7438868B2 (ja) * | 2020-02-03 | 2024-02-27 | 清水建設株式会社 | 会話支援システム |
CN111444491B (zh) * | 2020-04-20 | 2021-09-14 | 维沃移动通信(杭州)有限公司 | 一种信息处理方法和电子设备 |
WO2021250814A1 (ja) * | 2020-06-10 | 2021-12-16 | 日本電気株式会社 | 画像提供装置、画像提供システム、画像提供方法及び非一時的なコンピュータ可読媒体 |
JP2024005948A (ja) * | 2022-06-30 | 2024-01-17 | キヤノン株式会社 | 撮像装置、その制御方法及びプログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6339706B1 (en) | 1999-11-12 | 2002-01-15 | Telefonaktiebolaget L M Ericsson (Publ) | Wireless voice-activated remote control device |
JP2006101186A (ja) * | 2004-09-29 | 2006-04-13 | Nikon Corp | カメラ |
US20090286479A1 (en) | 2008-05-16 | 2009-11-19 | Sony Ericsson Mobile Communications Ab | Method and system for sensory pairing for a portable communication device |
JP5376689B2 (ja) * | 2009-05-19 | 2013-12-25 | Necディスプレイソリューションズ株式会社 | 情報処理装置、装置検索方法、装置検索支援方法および記録媒体 |
US20110002680A1 (en) * | 2009-07-02 | 2011-01-06 | Texas Instruments Incorporated | Method and apparatus for focusing an image of an imaging device |
US20110047384A1 (en) | 2009-08-21 | 2011-02-24 | Qualcomm Incorporated | Establishing an ad hoc network using face recognition |
CN110798586A (zh) * | 2010-02-19 | 2020-02-14 | 株式会社尼康 | 电子设备 |
US8379134B2 (en) * | 2010-02-26 | 2013-02-19 | Research In Motion Limited | Object detection and selection using gesture recognition |
KR20130000401A (ko) * | 2010-02-28 | 2013-01-02 | 오스터하우트 그룹 인코포레이티드 | 대화형 머리장착식 아이피스 상의 지역 광고 컨텐츠 |
US20110244829A1 (en) * | 2010-03-30 | 2011-10-06 | Hiroshi Kase | Device registration method and device registration system |
JP5521727B2 (ja) * | 2010-04-19 | 2014-06-18 | ソニー株式会社 | 画像処理システム、画像処理装置、画像処理方法及びプログラム |
US8405729B2 (en) * | 2011-05-11 | 2013-03-26 | Sony Corporation | System and method for pairing hand-held devices utilizing a front-facing camera |
US8818049B2 (en) | 2011-05-18 | 2014-08-26 | Google Inc. | Retrieving contact information based on image recognition searches |
JP5988036B2 (ja) | 2011-05-18 | 2016-09-07 | パナソニックIpマネジメント株式会社 | 通信制御システムおよびその方法、ならびに通信装置およびその方法、プログラム |
KR20130051810A (ko) | 2011-11-10 | 2013-05-21 | 삼성전자주식회사 | 사용자를 인증하는 방법 및 이를 수행하는 장치 |
US9350944B2 (en) | 2012-08-24 | 2016-05-24 | Qualcomm Incorporated | Connecting to an onscreen entity |
JP6011165B2 (ja) * | 2012-08-31 | 2016-10-19 | オムロン株式会社 | ジェスチャ認識装置、その制御方法、表示機器、および制御プログラム |
-
2014
- 2014-03-19 US US14/219,894 patent/US9311525B2/en active Active
-
2015
- 2015-03-16 EP EP15716904.6A patent/EP3120298B1/en active Active
- 2015-03-16 JP JP2016557139A patent/JP6144849B1/ja active Active
- 2015-03-16 WO PCT/US2015/020710 patent/WO2015142719A2/en active Application Filing
- 2015-03-16 CN CN201580012703.9A patent/CN106104569B/zh active Active
- 2015-03-16 KR KR1020167026732A patent/KR101759859B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20160117634A (ko) | 2016-10-10 |
WO2015142719A2 (en) | 2015-09-24 |
US9311525B2 (en) | 2016-04-12 |
WO2015142719A3 (en) | 2016-01-28 |
CN106104569B (zh) | 2018-11-23 |
JP2017517780A (ja) | 2017-06-29 |
JP6144849B1 (ja) | 2017-06-07 |
EP3120298A2 (en) | 2017-01-25 |
EP3120298B1 (en) | 2019-09-25 |
CN106104569A (zh) | 2016-11-09 |
US20150269420A1 (en) | 2015-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101759859B1 (ko) | 전자 디바이스들 사이의 접속을 확립하기 위한 방법 및 장치 | |
KR102346491B1 (ko) | 전자 디바이스에 대한 액세스를 위한 자동 인가 | |
KR102078427B1 (ko) | 사운드 및 기하학적 분석을 갖는 증강 현실 | |
CN104966053B (zh) | 人脸识别方法及识别系统 | |
CN104850828B (zh) | 人物识别方法及装置 | |
WO2019024717A1 (zh) | 防伪处理方法及相关产品 | |
EP3726526A1 (en) | Method and apparatus for activating application by speech input | |
US20150302856A1 (en) | Method and apparatus for performing function by speech input | |
CN106203235B (zh) | 活体鉴别方法和装置 | |
US20150153827A1 (en) | Controlling connection of input device to electronic devices | |
CN107666536B (zh) | 一种寻找终端的方法和装置、一种用于寻找终端的装置 | |
US10116788B2 (en) | Detecting notable events and annotating multimedia data based on the notable events | |
US10671713B2 (en) | Method for controlling unlocking and related products | |
WO2019024718A1 (zh) | 防伪处理方法、防伪处理装置及电子设备 | |
CN111738100A (zh) | 一种基于口型的语音识别方法及终端设备 | |
CN104573642A (zh) | 人脸识别方法及装置 | |
KR20220129986A (ko) | 오디오 신호 기반 디바이스 및 그의 제어방법 | |
CN113099354A (zh) | 用于信息处理的方法、设备和计算机存储介质 | |
CN107526951A (zh) | 一种信息发送方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
A302 | Request for accelerated examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |