KR102499203B1 - 신뢰도에 기반하여 객체를 인식하는 전자 장치 및 방법 - Google Patents

신뢰도에 기반하여 객체를 인식하는 전자 장치 및 방법 Download PDF

Info

Publication number
KR102499203B1
KR102499203B1 KR1020170146639A KR20170146639A KR102499203B1 KR 102499203 B1 KR102499203 B1 KR 102499203B1 KR 1020170146639 A KR1020170146639 A KR 1020170146639A KR 20170146639 A KR20170146639 A KR 20170146639A KR 102499203 B1 KR102499203 B1 KR 102499203B1
Authority
KR
South Korea
Prior art keywords
image
electronic device
objects
processor
reliability
Prior art date
Application number
KR1020170146639A
Other languages
English (en)
Other versions
KR20190051230A (ko
Inventor
김재곤
이용주
임나리
황민철
박지윤
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to KR1020170146639A priority Critical patent/KR102499203B1/ko
Priority to US16/156,334 priority patent/US10977819B2/en
Priority to EP18874247.2A priority patent/EP3673409A4/en
Priority to PCT/KR2018/012187 priority patent/WO2019088511A1/en
Publication of KR20190051230A publication Critical patent/KR20190051230A/ko
Application granted granted Critical
Publication of KR102499203B1 publication Critical patent/KR102499203B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/001Image restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7788Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

본 발명의 다양한 실시예에 따른 전자 장치는 통신 모듈; 및 상기 통신 모듈과 기능적으로 연결된 프로세서를 포함하고, 상기 프로세서는, 하나 이상의 객체들을 포함하는 이미지를 확인하고, 이미지 인식 방식에 적어도 기반하여 인식된, 상기 하나 이상의 객체들의 적어도 일부에 대응하는 하나 이상의 제 1 객체들 및 상기 하나 이상의 제 1 객체들의 인식과 관련된 하나 이상의 신뢰도를 획득하고, 상기 이미지와 관련된 하나 이상의 단어를 포함하는 정보를 포함하는 입력을 획득하고, 문자 인식 방식에 적어도 기반하여 인식된, 상기 하나 이상의 단어들의 적어도 일부에 대응하는 하나 이상의 제 2 객체들을 획득하고, 상기 하나 이상의 제 1 객체들 중 상기 하나 이상의 제 2 객체들에 대응하는 적어도 하나의 객체가 있는 경우, 상기 하나 이상의 신뢰도 중 상기 적어도 하나의 객체에 대응하는 적어도 하나의 신뢰도를 조정하고, 및 상기 적어도 하나의 신뢰도가 조정된 상기 하나 이상의 신뢰도에 적어도 기반하여, 상기 이미지 인식 방식을 이용하여 상기 하나 이상의 제 1 객체를 인식 하도록 설정될 수 있다.
그 외에도, 다양한 실시예들이 가능하다.

Description

신뢰도에 기반하여 객체를 인식하는 전자 장치 및 방법{ELECTRONIC DEVICE AND METHOD FOR RELIABILITY-BASED OJBECT RECOGNITION}
본 발명의 다양한 실시예는 이미지 처리 방법 및 장치에 관한 것으로 특히, 이미지의 인식률을 향상하도록 구성된 전자 장치 및 그 동작에 관한 것이다.
이미지를 처리하는 전자 장치는, 이미지 센서를 통하여 로우(raw) 이미지를 획득할 수 있으며, 획득된 로우 이미지를 내장된 이미지 신호 프로세서(image signal processor: ISP)를 이용하여 처리할 수 있다. 이미지 신호 프로세서는, 화질 개선 알고리즘을 이용하여 수신된 로우 이미지를 처리할 수 있으며, 이에 따라 화질이 개선된 이미지를 제공할 수 있다. 이미지 프로세서는, 화이트 밸런스(white balance) 조절, 컬러 조정(color adjustment)(예: color matrix, color correction, color enhancement), 색 필터 배열 보간(color filter array interpolation), 잡음 감소(noise reduction) 처리 또는 샤프닝(sharpening), 이미지 개선(image enhancement)(예:HDR(high-dynamic-range), face detection 등) 등의 다양한 처리를 수행할 수 있다. 이미지 신호 프로세서로부터 출력된 이미지는, 예를 들어 YUV 포맷을 가질 수도 있다. 이미지 신호 프로세서로부터 출력된 이미지는, 예를 들어 JPEG 압축되고, 압축된 이미지가 전자 장치에 저장될 수 있다.
한편, 이미지 백업 및 새로운 미디어 컨텐트를 생성하기 위한 이미지 처리 클라우드 시스템에 의한 서비스가 제공되고 있다. 클라우드 서버에 업로드된 이미지는, 영상 매칭 등의 기법과 같이 단말 장치에서 수행되기 어려운 컴퓨터 비전 기반의 기술이 적용될 수 있다. 예를 들어, 머신 러닝 기반의 소프트웨어를 이용하여, 클라우드 서버는 이미지 인식을 수행할 수 있다.
본 발명의 배경이 되는 텍스트 구문 분석을 통해 사용자 의도를 인식하는 기술이 공개특허공보 10-2016-0027640에 개시되어 있다.
전자 장치는 머신 러닝(machine learning) 또는 딥 러닝(deep learning)을 통하여 획득된 인식 알고리즘을 이용하여 이미지에서 객체를 인식할 수 있다. 전자 장치는 이러한 객체 인식을 통해 이미지 처리하여 사용자에게 제공할 수 있다. 그런데, 객체 인식의 오류로 이미지 처리 예컨대, 사용자가 원하는 객체의 편집이 부정확해질 수 있다.
본 발명의 다양한 실시예는 정확한 객체 인식의 신뢰도를 제공할 수 있도록 구성된 전자 장치 및 이의 동작을 위한 방법을 제공할 수 있다.
본 발명의 다양한 실시예에 따른 전자 장치는 통신 모듈; 및 상기 통신 모듈과 기능적으로 연결된 프로세서를 포함하고, 상기 프로세서는, 하나 이상의 객체들을 포함하는 이미지를 확인하고, 이미지 인식 방식에 적어도 기반하여 인식된, 상기 하나 이상의 객체들의 적어도 일부에 대응하는 하나 이상의 제 1 객체들 및 상기 하나 이상의 제 1 객체들의 인식과 관련된 하나 이상의 신뢰도를 획득하고, 상기 이미지와 관련된 하나 이상의 단어를 포함하는 정보를 포함하는 입력을 획득하고, 문자 인식 방식에 적어도 기반하여 인식된, 상기 하나 이상의 단어들의 적어도 일부에 대응하는 하나 이상의 제 2 객체들을 획득하고, 상기 하나 이상의 제 1 객체들 중 상기 하나 이상의 제 2 객체들에 대응하는 적어도 하나의 객체가 있는 경우, 상기 하나 이상의 신뢰도 중 상기 적어도 하나의 객체에 대응하는 적어도 하나의 신뢰도를 조정하고, 및 상기 적어도 하나의 신뢰도가 조정된 상기 하나 이상의 신뢰도에 적어도 기반하여, 상기 이미지 인식 방식을 이용하여 상기 하나 이상의 제 1 객체를 인식 하도록 설정될 수 있다.
본 발명의 다양한 실시예에 따른 전자 장치는 터치 감응 디스플레이; 입력 장치; 카메라; 통신 모듈; 및 상기 디스플레이, 상기 입력 장치, 상기 카메라 및 상기 통신모듈과 기능적으로 연결된 프로세서를 포함하고, 상기 프로세서는, 상기 카메라를 통해 제 1 이미지를 획득하고, 상기 제 1이미지에 대응하는 제 2 이미지를 상기 터치 감응 디스플레이에 표시하고, 상기 제 2 이미지 표시되는 중에 상기 터치 감응 디스플레이 또는 상기 입력 장치 중 적어도 하나를 통해 사용자 입력을 획득하고, 외부 전자 장치가 상기 제 1 이미지의 객체들 중 상기 사용자 입력에 대응하는 객체를 인식하도록, 상기 제 1 이미지 및 상기 사용자 입력을 상기 통신 모듈을 통해 상기 외부 전자 장치로 전송하고, 상기 외부 전자 장치로부터 상기 인식의 결과를 수신하고, 상기 결과에 대한 사용자의 제 1 반응을 상기 터치 감응 디스플레이 또는 상기 입력 장치 중 적어도 하나를 통해 획득하고, 상기 외부 전자 장치가 상기 제 1 반응에 기초하여 상기 객체의 인식과 관련된 신뢰도를 조정하도록, 상기 제 1 반응을 상기 통신 모듈을 통해 상기 외부 전자 장치로 전송하도록 설정될 수 있다.
본 발명의 다양한 실시예에 따른 전자 장치를 동작시키는 방법은 하나 이상의 객체들을 포함하는 이미지를 확인하는 동작; 이미지 인식 방식에 적어도 기반하여 인식된, 상기 하나 이상의 객체들의 적어도 일부에 대응하는 하나 이상의 제 1 객체들 및 상기 하나 이상의 제 1 객체들의 인식과 관련된 하나 이상의 신뢰도를 획득하는 동작; 상기 이미지와 관련된 하나 이상의 단어를 포함하는 정보를 포함하는 입력을 획득하는 동작; 문자 인식 방식에 적어도 기반하여 인식된, 상기 하나 이상의 단어들의 적어도 일부에 대응하는 하나 이상의 제 2 객체들을 획득하는 동작; 상기 하나 이상의 제 1 객체들 중 상기 하나 이상의 제 2 객체들에 대응하는 적어도 하나의 객체가 있는 경우, 상기 하나 이상의 신뢰도 중 상기 적어도 하나의 객체에 대응하는 적어도 하나의 신뢰도를 조정하는 동작; 및 상기 적어도 하나의 신뢰도가 조정된 상기 하나 이상의 신뢰도에 적어도 기반하여, 상기 이미지 인식 방식을 이용하여 상기 하나 이상의 제 1 객체를 인식하는 동작을 포함할 수 있다.
본 발명의 다양한 실시예에 따르면, 전자 장치는 사용자 입력에 기반하여 객체 인식함으로써 객체 인식의 신뢰도를 향상시킬 수 있다.
도 1은 다양한 실시예에서의, 네트워크 환경 내의 전자 장치를 도시한다.
도 2는 다양한 실시예에 따른 프로그램 모듈의 블록도이다.
도 3 는 본 발명의 다양한 실시예에 따른 전자 장치 및 외부 전자 장치의 동작을 설명하기 위한 개념도를 도시한다.
도 4는 본 발명의 다양한 실시예에 따른 전자 장치 및 외부 전자 장치의 블록도를 도시한다.
도 5는 다양한 실시예에 따른 프로세서의 동작들을 설명하기 위한 흐름도이다.
도 6은 다양한 실시예에 따른 이미지 인식률 향상을 위한 프로세서의 동작들을 설명하기 위한 흐름도이다.
도 7은 본 발명의 다양한 실시예에 따른 전자 장치 및 외부 전자 장치의 동작들을 설명하기 위한 도면이다.
도 1은, 다양한 실시예들에 따른, 네트워크 환경(100) 내의 전자 장치(101)의 블럭도이다. 도 1을 참조하면, 네트워크 환경(100)에서 전자 장치(101)는 제 1 네트워크(198)(예: 근거리 무선 통신)를 통하여 전자 장치(102)와 통신하거나, 또는 제 2 네트워크(199)(예: 원거리 무선 통신)를 통하여 전자 장치(104) 또는 서버(108)와 통신할 수 있다. 일실시예에 따르면, 전자 장치(101)는 서버(108)를 통하여 전자 장치(104)와 통신할 수 있다. 일실시예에 따르면, 전자 장치(101)는 프로세서(120), 메모리(130), 입력 장치(150), 음향 출력 장치(155), 표시 장치(160), 오디오 모듈(170), 센서 모듈(176), 인터페이스(177), 햅틱 모듈(179), 카메라 모듈(180), 전력 관리 모듈(188), 배터리(189), 통신 모듈(190), 가입자 식별 모듈(196), 및 안테나 모듈(197)을 포함할 수 있다. 어떤 실시예에서는, 전자 장치(101)에는, 이 구성요소들 중 적어도 하나(예: 표시 장치(160) 또는 카메라 모듈(180))가 생략되거나 다른 구성 요소가 추가될 수 있다. 어떤 실시예에서는, 예를 들면, 표시 장치(160)(예: 디스플레이)에 임베디드된 센서 모듈(176)(예: 지문 센서, 홍채 센서, 또는 조도 센서)의 경우와 같이, 일부의 구성요소들이 통합되어 구현될 수 있다.
프로세서(120)는, 예를 들면, 소프트웨어(예: 프로그램(140))를 구동하여 프로세서(120)에 연결된 전자 장치(101)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)을 제어할 수 있고, 다양한 데이터 처리 및 연산을 수행할 수 있다. 프로세서(120)는 다른 구성요소(예: 센서 모듈(176) 또는 통신 모듈(190))로부터 수신된 명령 또는 데이터를 휘발성 메모리(132)에 로드하여 처리하고, 결과 데이터를 비휘발성 메모리(134)에 저장할 수 있다. 일실시예에 따르면, 프로세서(120)는 메인 프로세서(121)(예: 중앙 처리 장치 또는 어플리케이션 프로세서), 및 이와는 독립적으로 운영되고, 추가적으로 또는 대체적으로, 메인 프로세서(121)보다 저전력을 사용하거나, 또는 지정된 기능에 특화된 보조 프로세서(123)(예: 그래픽 처리 장치, 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 여기서, 보조 프로세서(123)는 메인 프로세서(121)와 별개로 또는 임베디드되어 운영될 수 있다.
이런 경우, 보조 프로세서(123)는, 예를 들면, 메인 프로세서(121)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(121)를 대신하여, 또는 메인 프로세서(121)가 액티브(예: 어플리케이션 수행) 상태에 있는 동안 메인 프로세서(121)와 함께, 전자 장치(101)의 구성요소들 중 적어도 하나의 구성요소(예: 표시 장치(160), 센서 모듈(176), 또는 통신 모듈(190))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일실시예에 따르면, 보조 프로세서(123)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성 요소(예: 카메라 모듈(180) 또는 통신 모듈(190))의 일부 구성 요소로서 구현될 수 있다. 메모리(130)는, 전자 장치(101)의 적어도 하나의 구성요소(예: 프로세서(120) 또는 센서모듈(176))에 의해 사용되는 다양한 데이터, 예를 들어, 소프트웨어(예: 프로그램(140)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 저장할 수 있다. 메모리(130)는, 휘발성 메모리(132) 또는 비휘발성 메모리(134)를 포함할 수 있다.
프로그램(140)은 메모리(130)에 저장되는 소프트웨어로서, 예를 들면, 운영 체제(142), 미들 웨어(144) 또는 어플리케이션(146)을 포함할 수 있다.
입력 장치(150)는, 전자 장치(101)의 구성요소(예: 프로세서(120))에 사용될 명령 또는 데이터를 전자 장치(101)의 외부(예: 사용자)로부터 수신하기 위한 장치로서, 예를 들면, 마이크, 마우스, 또는 키보드를 포함할 수 있다.
음향 출력 장치(155)는 음향 신호를 전자 장치(101)의 외부로 출력하기 위한 장치로서, 예를 들면, 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용되는 스피커와 전화 수신 전용으로 사용되는 리시버를 포함할 수 있다. 일실시예에 따르면, 리시버는 스피커와 일체 또는 별도로 형성될 수 있다.
표시 장치(160)는 전자 장치(101)의 사용자에게 정보를 시각적으로 제공하기 위한 장치로서, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일실시예에 따르면, 표시 장치(160)는 터치 회로(touch circuitry) 또는 터치에 대한 압력의 세기를 측정할 수 있는 압력 센서를 포함할 수 있다.
오디오 모듈(170)은 소리와 전기 신호를 쌍방향으로 변환시킬 수 있다. 일실시예에 따르면, 오디오 모듈(170)은, 입력 장치(150)를 통해 소리를 획득하거나, 음향 출력 장치(155), 또는 전자 장치(101)와 유선 또는 무선으로 연결된 외부 전자 장치(예: 전자 장치(102)(예: 스피커 또는 헤드폰))를 통해 소리를 출력할 수 있다.
센서 모듈(176)은 전자 장치(101)의 내부의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 센서 모듈(176)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다.
인터페이스(177)는 외부 전자 장치(예: 전자 장치(102))와 유선 또는 무선으로 연결할 수 있는 지정된 프로토콜을 지원할 수 있다. 일실시예에 따르면, 인터페이스(177)는 HDMI(high definition multimedia interface), USB(universal serial bus) 인터페이스, SD카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.
연결 단자(178)는 전자 장치(101)와 외부 전자 장치(예: 전자 장치(102))를 물리적으로 연결시킬 수 있는 커넥터, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.
햅틱 모듈(179)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 햅틱 모듈(179)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.
카메라 모듈(180)은 정지 영상 및 동영상을 촬영할 수 있다. 일실시예에 따르면, 카메라 모듈(180)은 하나 이상의 렌즈, 이미지 센서, 이미지 시그널 프로세서, 또는 플래시를 포함할 수 있다.
전력 관리 모듈(188)은 전자 장치(101)에 공급되는 전력을 관리하기 위한 모듈로서, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구성될 수 있다.
배터리(189)는 전자 장치(101)의 적어도 하나의 구성 요소에 전력을 공급하기 위한 장치로서, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.
통신 모듈(190)은 전자 장치(101)와 외부 전자 장치(예: 전자 장치(102), 전자 장치(104), 또는 서버(108))간의 유선 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(190)은 프로세서(120)(예: 어플리케이션 프로세서)와 독립적으로 운영되는, 유선 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일실시예에 따르면, 통신 모듈(190)은 무선 통신 모듈(192)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(194)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함하고, 그 중 해당하는 통신 모듈을 이용하여 제 1 네트워크(198)(예: 블루투스, WiFi direct 또는 IrDA(infrared data association) 같은 근거리 통신 네트워크) 또는 제 2 네트워크(199)(예: 셀룰러 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부 전자 장치와 통신할 수 있다. 상술한 여러 종류의 통신 모듈(190)은 하나의 칩으로 구현되거나 또는 각각 별도의 칩으로 구현될 수 있다.
일실시예에 따르면, 무선 통신 모듈(192)은 가입자 식별 모듈(196)에 저장된 사용자 정보를 이용하여 통신 네트워크 내에서 전자 장치(101)를 구별 및 인증할 수 있다.
안테나 모듈(197)은 신호 또는 전력을 외부로 송신하거나 외부로부터 수신하기 위한 하나 이상의 안테나들을 포함할 수 있다. 일시예에 따르면, 통신 모듈(190)(예: 무선 통신 모듈(192))은 통신 방식에 적합한 안테나를 통하여 신호를 외부 전자 장치로 송신하거나, 외부 전자 장치로부터 수신할 수 있다.
상기 구성요소들 중 일부 구성요소들은 주변 기기들간 통신 방식(예: 버스, GPIO(general purpose input/output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))를 통해 서로 연결되어 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.
일실시예에 따르면, 명령 또는 데이터는 제 2 네트워크(199)에 연결된 서버(108)를 통해서 전자 장치(101)와 외부의 전자 장치(104)간에 송신 또는 수신될 수 있다. 전자 장치(102, 104) 각각은 전자 장치(101)와 동일한 또는 다른 종류의 장치일 수 있다. 일실시예에 따르면, 전자 장치(101)에서 실행되는 동작들의 전부 또는 일부는 다른 하나 또는 복수의 외부 전자 장치에서 실행될 수 있다. 일실시예에 따르면, 전자 장치(101)가 어떤 기능이나 서비스를 자동으로 또는 요청에 의하여 수행해야 할 경우에, 전자 장치(101)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 그와 연관된 적어도 일부 기능을 외부 전자 장치에게 요청할 수 있다. 상기 요청을 수신한 외부 전자 장치는 요청된 기능 또는 추가 기능을 실행하고, 그 결과를 전자 장치(101)로 전달할 수 있다. 전자 장치(101)는 수신된 결과를 그대로 또는 추가적으로 처리하여 요청된 기능이나 서비스를 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다.
도 2는, 다양한 실시예들에 따른, 카메라 모듈(180)의 블럭도(200)이다. 도 2를 참조하면, 카메라 모듈(180)은 렌즈 어셈블리(210), 플래쉬(220), 이미지 센서(230), 이미지 스태빌라이저(240), 메모리(250)(예: 버퍼 메모리), 또는 이미지 시그널 프로세서(260)를 포함할 수 있다. 렌즈 어셈블리(210)는 이미지 촬영의 대상인 피사체로부터 방출되는 빛을 수집할 수 있다. 렌즈 어셈블리(210)는 하나 또는 그 이상의 렌즈들을 포함할 수 있다. 일실시예에 따르면, 카메라 모듈(180)은 복수의 렌즈 어셈블리(210)들을 포함할 수 있다. 이런 경우, 카메라 모듈(180)은, 예를 들면, 듀얼 카메라, 360도 카메라, 또는 구형 카메라(spherical camera)일 수 있다. 복수의 렌즈 어셈블리(210)들은 동일한 렌즈 속성(예: 화각, 초점 거리, 자동 초점, f 넘버(f number), 또는 광학 줌)을 갖거나, 또는 적어도 하나의 렌즈 어셈블리는 다른 렌즈 렌즈 어셈블리와 적어도 하나의 다른 렌즈 속성을 가질 수 있다. 렌즈 어셈블리(210)는, 예를 들면, 광각 렌즈 또는 망원 렌즈를 포함할 수 있다. 플래쉬(220)는 피사체로부터 방출되는 빛을 강화하기 위하여 사용되는 광원을 방출할 수 있다. 플래쉬(220)는 하나 이상의 발광 다이오드들(예: RGB(red-green-blue) LED, white LED, infrared LED, 또는 ultraviolet LED), 또는 xenon lamp를 포함할 수 있다.
이미지 센서(230)는 피사체로부터 렌즈 어셈블리(210)를 통해 전달된 빛을 전기적인 신호로 변환함으로써, 상기 피사체에 대응하는 이미지를 획득할 수 있다. 일 실시예에 따르면, 이미지 센서(230)는, 예를 들면, RGB 센서, BW(black and white) 센서, IR 센서, 또는 UV 센서와 같이 속성이 다른 이미지 센서들 중 선택된 하나의 이미지 센서, 동일한 속성을 갖는 복수의 이미지 센서들, 또는 다른 속성을 갖는 복수의 이미지 센서들을 포함할 수 있다. 이미지 센서(230)에 포함된 각각의 이미지 센서는, 예를 들면, CCD(charged coupled device) 센서 또는 CMOS(complementary metal oxide semiconductor) 센서로 구현될 수 있다.
이미지 스태빌라이저(240)는 카메라 모듈(180) 또는 이를 포함하는 전자 장치(101)의 움직임에 반응하여, 촬영되는 이미지에 대한 상기 움직임에 의한 부정적인 영향(예: 이미지 흔들림)을 적어도 일부 보상하기 위하여 렌즈 어셈블리(210)에 포함된 적어도 하나의 렌즈 또는 이미지 센서(230)를 특정한 방향으로 움직이거나 제어(예: 리드 아웃(read-out) 타이밍을 조정 등)할 수 있다. 일실시예에 따르면, 이미지 스태빌라이저(240)는, 예를 들면, 광학식 이미지 스태빌라이저로 구현될 수 있으며, 카메라 모듈(180)의 내부 또는 외부에 배치된 자이로 센서(미도시) 또는 가속도 센서(미도시)를 이용하여 상기 움직임을 감지할 수 있다.
메모리(250)는 이미지 센서(230)을 통하여 획득된 이미지의 적어도 일부를 다음 이미지 처리 작업을 위하여 적어도 일시 저장할 수 있다. 예를 들어, 셔터에 따른 이미지 획득이 지연되거나, 또는 복수의 이미지들이 고속으로 획득되는 경우, 획득된 원본 이미지(예: 높은 해상도의 이미지)는 메모리(250)에 저장이 되고, 그에 대응하는 사본 이미지(예: 낮은 해상도의 이미지)는 표시 장치(160)을 통하여 프리뷰될 수 있다. 이후, 지정된 조건이 만족되면(예: 사용자 입력 또는 시스템 명령) 메모리(250)에 저장되었던 원본 이미지의 적어도 일부가, 예를 들면, 이미지 시그널 프로세서(260)에 의해 획득되어 처리될 수 있다. 일실시예에 따르면, 메모리(250)는 메모리(130)의 적어도 일부로, 또는 이와는 독립적으로 운영되는 별도의 메모리로 구성될 수 있다.
이미지 시그널 프로세서(260)는 이미지 센서(230)을 통하여 획득된 이미지 또는 메모리(250)에 저장된 이미지에 대하여 이미지 처리(예: 깊이 지도(depth map) 생성, 3차원 모델링, 파노라마 생성, 특징점 추출, 이미지 합성, 또는 이미지 보상(예: 노이즈 감소, 해상도 조정, 밝기 조정, 블러링(blurring), 샤프닝(sharpening), 또는 소프트닝(softening))을 수행할 수 있다. 추가적으로 또는 대체적으로, 이미지 시그널 프로세서(260)는 카메라 모듈(180)에 포함된 구성 요소들 중 적어도 하나(예: 이미지 센서(230))에 대한 제어(예: 노출 시간 제어, 또는 리드 아웃 타이밍 제어 등)를 수행할 수 있다. 이미지 시그널 프로세서(260)에 의해 처리된 이미지는 추가 처리를 위하여 메모리(250)에 다시 저장 되거나 카메라 모듈(180)의 외부 구성 요소(예: 메모리(130), 표시 장치(160), 전자 장치(102), 전자 장치(104), 또는 서버(108))로 전달될 수 있다. 일실시예에 따르면, 이미지 시그널 프로세서(260)는 프로세서(120)의 적어도 일부로 구성되거나, 프로세서(120)와 독립적으로 운영되는 별도의 프로세서로 구성될 수 있다. 별도의 프로세서로 구성된 경우, 이미지 시그널 프로세서(260)에 의해 처리된 이미지들은 프로세서(120)에 의하여 그대로 또는 추가의 이미지 처리를 거친 후 표시 장치(160)를 통해 표시될 수 있다.
일실시예에 따르면, 전자 장치(101)는 각각 다른 속성 또는 기능을 가진 둘 이상의 카메라 모듈(180)들을 포함할 수 있다. 이런 경우, 예를 들면, 적어도 하나의 카메라 모듈(180)은 광각 카메라 또는 전면 카메라이고, 적어도 하나의 다른 카메라 모듈은 망원 카메라 또는 후면 카메라일 수 있다.
도 3는 본 발명의 다양한 실시예에 따른 전자 장치 및 외부 전자 장치의 동작을 설명하기 위한 개념도를 도시한다.
본 발명의 다양한 실시예에서, 전자 장치(101)는, 이미지 센서(321), ISP(323) 및 메모리(325)를 포함할 수 있다. 외부 전자 장치(300)는, 인식 모듈(331), ISP(333) 및 저장소(335)를 포함할 수 있다. 인식 모듈(331)은 논리 모듈일 수도 있으며, 외부 전자 장치(300)의 프로세서로 구현될 수도 있다. ISP (333) 또한 외부 전자 장치(300)의 프로세서로 구현될 수 있으며, 예를 들어 외부 전자 장치(300)의 프로세서가 인식과 이미지 처리를 모두 수행할 수도 있다. 도시되지는 않았지만, 전자 장치(101)는 외부 전자 장치(300)와 데이터를 송수신할 수 있는 통신 모듈(예: 도 1의 통신 모듈(190))을 포함할 수 있다. 외부 전자 장치(300)는 전자 장치(101)와 데이터를 송수신할 수 있는 통신 모듈을 포함할 수 있다. 어떠한 실시예에 따르면, 전자 장치(101)에 인식 모듈(327)이 포함될 수 있다. 전자 장치(101)에 탑재된 인식 모듈(327)은 인식 모듈(331)의 기능들 중 적어도 일부와 동일한 기능을 수행하도록 구성될 수 있다. 예컨대, 인식 모듈(327)은, 이미지에서 얼굴을 인식하도록 구성된 하드웨어로서, 외부 전자 장치(300)(예: 서버)보다 간단하고 빠르게 얼굴을 인식하기 위한 용도로 사용될 수 있다.
본 발명의 다양한 실시예에서, 이미지 센서(321)(예: 도 2의 이미지 센서(230))는, 외부 객체에 대한 이미지를 획득할 수 있으며, 이에 대응하는 로우 이미지(322)(원시 이미지, raw image)를 생성할 수 있다. 로우 이미지(322)는 Bayer 포맷, CFA(color filter array) 패턴에 의하여 처리된 포맷, 하나의 픽셀에서 세 가지 컬러를 모두 감지하여 생성된 레이어(layer) 구조의 포맷, 하나의 픽셀에 의하여 다른 시차 정보가 획득되어 생성된 포맷 등의 다양한 포맷으로 구현될 수 있다. 이미지 센서(321)는, 로우 이미지(322)를 ISP(323)(예: 도 2의 이미지 시그널 프로세서(260)) 및/또는 인식 모듈(327)로 전달할 수 있다.
본 발명의 다양한 실시예에서, 이미지 센서(321)는 스몰 로우(small raw) 이미지(326)를 생성할 수 있다. 이미지 센서(321)는 로우 이미지(322)의 용량을 감소시킴으로써 스몰 로우 이미지(326)를 생성할 수 있다. 예를 들어, 이미지 센서(321)는 로우 이미지(322)로부터 다양한 다운-스케일(down-scale) 방식 또는 다운-샘플링(down-sampling) 방식을 이용하여 스몰 로우 이미지(326)를 생성할 수 있다. 이미지 센서(321)는, 예를 들어 로우 이미지(322)의 해상도의 조정, 복수 개의 주파수 대역 중 적어도 일부를 선택, 또는 복수 개의 비트 플레인 레벨 중 적어도 하나의 선택 중 적어도 하나를 수행함으로써, 로우 이미지(322)의 데이터의 크기보다 작은 크기를 갖는 스몰 로우 이미지(326)를 생성할 수 있다. 이미지 센서(321)는, 예를 들어 로우 이미지(322)로부터 저주파수 대역을 추출함으로써 스몰 로우 이미지(326)를 생성할 수 있다. 이미지 센서(321)는, 예를 들어 로우 이미지(322)의 복수 개의 비트 플레인 레벨 중 일부의 비트 플레인 레벨들을 선택함으로써 스몰 로우 이미지(326)를 생성할 수도 있다. 이미지 센서(321)는 스몰 로우 이미지(326)를 통신 모듈을 통하여 외부 전자 장치(300)로 송신할 수 있다. 스몰 로우 이미지(326)는, 로우 이미지(322)의 정보를 적어도 일부 포함하되 로우 이미지(322)보다 용량이 작은 이미지일 수 있다. 로우 이미지(322) 대신 스몰 로우 이미지(326)를 외부 전자 장치에 전송하는 경우, 보다 적은 용량을 전송하게 되므로, 외부 전자 장치(400)로 이미지를 보다 빠르게 전송할 수 있다. 또 다른 실시예에서는, 이미지 센서(321)가 아닌 전자 장치(101)의 프로세서(예: 프로세서(120))가 스몰 로우 이미지(326)를 생성할 수도 있으며, 생성된 스몰 로우 이미지(326)를 통신 모듈을 통하여 외부 전자 장치(300)로 송신할 수 있다.
본 발명의 다양한 실시예에서, 이미지 센서(321)는, 로우 이미지(322)를 압축된 상태로 ISP(323), 외부 전자 장치(300) 또는 인식 모듈(327)로 송신할 수 있다. 이미지 센서(321)는, 로우 이미지(322)의 일부 처리를 위해 압축하여 이미지 센서(321) 내부의 메모리에 저장할 수 있다.
본 발명의 다양한 실시예에서, 외부 전자 장치(300)의 인식 모듈(331)은 통신 모듈을 통하여 스몰 로우 이미지(326)를 획득할 수 있으며, 스몰 로우 이미지(326)로부터 적어도 하나의 이미지 영역(segment)을 세그먼테이션(segmentation)할 수 있다. 인식 모듈(331)은 세그먼테이션 결과로 구분된 적어도 하나의 이미지 영역 각각을 인식할 수 있다. 예를 들어, 인식 모듈(331)은 스몰 로우 이미지(326)에 대하여 세그먼테이션 처리를 수행할 수 있으며, 세그먼테이션 처리 결과에 기초하여 스몰 로우 이미지(326)로부터 적어도 하나의 이미지 영역을 확인할 수 있다. 인식 모듈(331)은, 이미지 영역에 대하여 사물 인식 알고리즘 또는 텍스처 인식 알고리즘을 적용하여, 적어도 하나의 이미지 영역을 인식할 수도 있다. 외부 전자 장치(300)의 인식 모듈(331)은, 다양한 인식 알고리즘을 이용하여 적어도 하나의 이미지 영역을 인식할 수 있으며, 머신 러닝(machine learning) 또는 딥 러닝(deep learning)을 통하여 획득된 인식 알고리즘을 이용하여 적어도 하나의 이미지 영역을 인식할 수 있다. 예를 들어, 외부 전자 장치(300)의 인식 모듈(331)은, 픽셀 좌표 (100, 101), (100, 102), (102, 102), (102, 103)는, '사람의 치아'라는 이미지 영역과 연관된 정보를 획득할 수 있다. 여기에서, 픽셀 좌표는, 로우 이미지(322)의 픽셀 좌표와 대응될 수 있다. 인식 모듈(331)은, 예를 들어 스몰 로우 이미지(326)가 "거리에 사람이 위치함"으로 분류된다는 분류 정보를 획득할 수 있다. 인식 모듈(331)은, 인식 결과를 이용하여 분류 정보를 획득할 수도 있고, 또는 인식 과정 없이 스몰 로우 이미지(326) 내의 컬러 분포 등을 이용하여 분류 정보를 획득할 수도 있다. 인식 모듈(331)은, 상술한 과정을 통하여 획득된 적어도 하나의 이미지 영역과 연관된 정보 또는 분류 정보 중 적어도 하나를 포함하는 보정 영역 정보(332)를 생성할 수 있다. 인식 모듈(331)은 보정 영역 정보(332)을 전자 장치(101)로 송신할 수 있다. ISP(323)는 보정 영역 정보(332)를 이용하여 로우 이미지(322)를 보정할 수 있으며, 이에 따라 보정된 이미지(324)가 생성될 수 있다. 보정된 이미지(324)는, 예를 들어 YUV의 포맷을 가질 수 있다. 보정된 이미지(324)는 메모리(325)에 저장될 수 있다. 또는, 보정된 이미지(324)는 예를 들어 JPEG 방식에 따라 압축될 수 있으며, 압축된 이미지가 메모리(325)에 저장될 수도 있다. 어떠한 실시예에 따르면, 보정 영역 정보는 전자 장치(101)의 인식 모듈(327)에 의해 생성되어 ISP(323)로 전달될 수 있다.
본 발명의 다양한 실시예에서, 이미지 센서(321)로부터 제공되는 로우 이미지(322)는 스몰 로우 이미지(326)와 별도로 외부 전자 장치(300)로 송신될 수 있다. 외부 전자 장치(300)는 로우 이미지(322)를 이용하여 다른 보정 영역 정보를 생성할 수 있다. 외부 전자 장치(300) (예: 외부 전자 장치(300)의 ISP(333))는, 스몰 로우 이미지(326)보다 큰 크기의 로우 이미지(322)를 이용함으로써, 스몰 로우 이미지(326)를 이용한 경우의 보정 영역 정보와는 다른 보정 영역 정보를 생성할 수 있으며, 이를 확장된 보정 영역 정보로 명명할 수 있다. 로우 이미지(322)는, 스몰 로우 이미지(326)에 비하여 더욱 많은 정보를 포함할 수 있으므로, 외부 전자 장치(300)는 더욱 상세한 보정 영역 정보를 생성할 수 있다. 본 발명의 다양한 실시예에서, 외부 전자 장치(300) (예: 외부 전자 장치(300)의 ISP(333))는 로우 이미지(322)로부터 바로 확장된 보정 영역 정보를 생성할 수 있다. 또는, 외부 전자 장치(300) (예: 외부 전자 장치(300)의 ISP(333))는 기존에 스몰 로우 이미지(326)를 이용하여 생성하였던 보정 영역 정보 및 로우 이미지(322)를 이용하여 확장된 보정 영역 정보를 생성할 수도 있다.
본 발명의 다양한 실시예에서, 로우 이미지(322)는, 스몰 로우 이미지(326)에 비하여 용량이 크므로, 스몰 로우 이미지(326)가 우선 외부 전자 장치(300)로 송신되며, 이후 로우 이미지(322)가 외부 전자 장치(300)로 송신될 수 있다. 예를 들어, ISP(323)가 로우 이미지(322)에 대한 보정을 수행하는 동안에 로우 이미지(322)가 외부 전자 장치(300)로 송신될 수도 있다. 로우 이미지(322)는, 이미지 센서(321)에 의하여 생성된 그대로 외부 전자 장치(300)로 업로드될 수도 있으며, 또는 렌즈 왜곡 보상 또는 노이즈 제거가 수행된 전 처리 영상이 업로드될 수도 있다. 상술한 전 처리는 외부 전자 장치(300)에서 수행될 수도 있다. 외부 전자 장치(300)는, 디모자이크(demosaic) 처리 또는 이미지 포맷 변형, 또는 영상 인식률을 높이기 위한 전 처리를 수행할 수도 있다. 외부 전자 장치(300)의 ISP(333)는, 수신된 로우 이미지(322)를 보정할 수 있다. 외부 전자 장치(300)는 기존에 생성하였던 보정 영역 정보(332)를 이용하여 로우 이미지(322)를 보정할 수도 있으며, 또는 확장된 보정 영역 정보를 이용하여 로우 이미지(322)를 보정할 수도 있다. 로우 이미지(322)는, 스몰 로우 이미지(326)에 비하여 해상도가 높을 수도 있으며, 이에 따라 외부 전자 장치(300)의 ISP(333)는 고해상도 이미지로부터 보다 상세한 확장된 보정 영역 정보를 획득할 수 있다. ISP(333)는, 기존에 생성된 보정 영역 정보와 로우 이미지(322)를 함께 이용하여 확장된 보정 영역 정보를 생성할 수도 있다. ISP(333)는 확장된 보정 영역 정보를 이용하여 로우 이미지(322)를 보정함으로써, 고해상도 이미지(high quality image)(334)를 획득할 수 있다. 고해상도 이미지(334)는 외부 전자 장치(300)의 저장소(335)에 저장될 수 있으며, 전자 장치(101)로 다운로드될 수도 있다.
본 문서에 개시된 다양한 실시예들에 따른 전자 장치는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치 (예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치 중 적어도 하나를 포함할 수 있다. 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제 3 구성요소)를 통하여 연결될 수 있다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.
본 문서의 다양한 실시예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)(예: 내장 메모리(136) 또는 외장 메모리(138))에 저장된 명령어(또는, 인스트럭션(instruction))를 포함하는 소프트웨어(예: 프로그램(140))로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치(예: 전자 장치(101))를 포함할 수 있다. 상기 명령이 프로세서(예: 프로세서(120))에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어 하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
일시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
도 4는 본 발명의 다양한 실시예에 따른 전자 장치 및 외부 전자 장치의 블록도를 도시한다.
본 발명의 다양한 실시예에 따른 전자 장치(400)(예: 전자 장치(101))는 카메라 모듈(410), 디스플레이(420), 제 1 프로세서(430), 제 1 메모리(440), 입력 장치(450), 및 음향 출력 장치(460)를 포함할 수 있다. 본 발명의 다양한 실시예에 따른 카메라 모듈(410)은 이미지 센서(411), 제 2 프로세서(412) 및 제 2 메모리(418)를 포함할 수 있다. 본 발명의 다양한 실시예에 따른 제 2 프로세서(412)는 로우 이미지 처리 모듈(413), ISP(416) 및 인코더(417)를 포함할 수 있다. 제 2 프로세서(412)가 수행하는 동작들 중 적어도 일부는 제 1 프로세서(430)가 수행할 수도 있다. 로우 이미지 처리 모듈(413), ISP(416) 및 인코더(417)는 논리 모듈일 수 있으며 이에 따라, 이들이 수행하는 동작은 제 2 프로세서(412)(예: 프로세서(120))가 수행할 수 있다. 다른 실시예에서는, 로우 이미지 처리 모듈(413), ISP(416) 및 인코더(417) 중 적어도 하나가 제 2 프로세서(412) 내의 하드웨어로 구현될 수도 있다.
도시되지는 않았지만, 전자 장치(400)는 외부 전자 장치(470)와 데이터 통신을 위한 통신 모듈(예: 도 1의 통신 모듈(190))을 포함할 수 있고, 외부 전자 장치(470) 또한 전자 장치(400)와 데이터 통신을 위한 통신 모듈을 포함할 수 있다.
본 발명의 다양한 실시예에서, 이미지 센서(411)(예: 도 2의 이미지 센서(230) 또는 도 3의 이미지 센서(321))는 피사체에 대한 다양한 로우 이미지를 획득할 수 있다. 이미지 센서(411)는 CFA(color filter array) 패턴에 따라 다양한 형태의 로우 이미지를 획득할 수 있다. 이미지 센서(411)는 하나의 픽셀에서 서로 다른 시차(또는 위상차) 정보를 포함하는 DP(dual pixel)구조(또는 2PD)의 로우 이미지를 획득할 수 있다. 이미지 센서(411)는, 서로 같거나 다른 특성을 가진 복수의 이미지 센서들(예: Dual sensor(예: RGB+RGB, RGB+Mono, 또는 Wide+Tele 등), 또는 어레이(array) 센서(예: 2개 이상의 센서가 부착) 등)을 포함할 수 있고, 이러한 복수의 이미지 센서를 이용하여, 한 장면(scene)에 대해 하나 이상의 로우 이미지를 획득할 수 있다. 획득된 로우 이미지는 그대로 또는 추가적인 처리를 거쳐 제 2 메모리(418)(예: DRAM)에 저장될 수 있다.
본 발명의 다양한 실시예에 따라 획득된 로우 이미지는 다양한 포맷(예: Bayer 포맷 등)으로 구성될 수 있다. 로우 이미지는 픽셀(pixel) 당 R(red), G(green), 및 B(blue) 중 하나의 색으로 표현될 수 있고, 8~16Bit의 비트-뎁스(bit-depth)로 표현 가능하다. 로우 이미지에는 다양한 CFA (Color Filter Array) 패턴이 적용될 수 있다. 로우 이미지는 하나의 픽셀에 대해 여러 가지 색(예: R,G,B 중 복수의 색) 정보를 포함하는 레이어(layer) 구조일 수 있다. 이미지 센서의 다양한 구성에 따라, 로우 이미지는 색 정보뿐만 아니라, 시차(위상차) 정보 등도 포함할 수 있다. 이미지의 촬영과 관련된 정보(예: 시간, 위치, 조도 등)는 메타데이터로 생성되어 로우 이미지와 관련하여 저장될 수 있다. 예를 들어, 제 2 프로세서(412)는 로우 이미지에 대한 메타 데이터를 이미지 센서(411)를 통해 획득할 수 있다. 이미지 센서(411)를 통해 획득 가능한 메타 데이터는 초점 거리(focal length), 자동 포커싱 영역(auto focus area), 촬영 시 좌우 회전 관련 정보(orientation), 색 좌표(color space), 노출 시간(exposure time) 등의 정보를 포함할 수 있다. 또한, 메타 데이터는 이미지 센서와 상이한 센서(예: GPS 센서)를 통하여 획득될 수 있는, 이미지를 촬영한 장소 정보 등을 포함할 수도 있다.
본 발명의 다양한 실시예에서, 로우 이미지 처리 모듈(413)은 이미지 센서(411)로부터 획득된 로우 이미지에 대해 다양한 처리를 수행할 수 있다. 예를 들어, 로우 이미지 처리 모듈(413)은 로우 이미지에 대해 렌즈 왜곡 보상 또는 노이즈 제거를 수행할 수 있다.
본 발명의 다양한 실시예에 따른 로우 이미지 처리 모듈(413)은 스몰 로우 이미지 생성 모듈(414) 및 압축 모듈(415)을 포함할 수 있다. 스몰 로우 이미지 생성 모듈(414)은 로우 이미지로부터 다양한 다운-스케일(down-scale) 방식(예: 크기 줄이거나 또는 해상도를 낮추는 동작) 또는 다운-샘플링(down-sampling) 방식(예: 샘플링된 일련의 샘플들 중 하나 또는 일부 샘플만을 취하는 동작)을 이용하여 스몰 로우 이미지를 생성할 수 있다. 압축 모듈(415)은 다양한 압축 알고리즘을 이용하여 로우 이미지 또는 스몰 로우 이미지를 압축할 수 있으며, 압축된 로우 이미지 또는 압축된 스몰 로우 이미지를 제 2 메모리(418)에 저장할 수 있다. 스몰 로우 이미지는 제 2 메모리(418)에 일시적 또는 비일시적으로 저장될 수 있다. 전자 장치(400)의 통신 모듈(미도시)(예: 통신 모듈(190))은, 제 2 메모리(418)에 저장된 스몰 로우 이미지를 외부 전자 장치(470)로 송신할 수 있다.
본 발명의 다양한 실시예에서, ISP(416)(예: 도 2의 이미지 시그널 프로세서(260) 또는 도 3의 ISP(423))는 제 2 메모리)에 저장된 로우 이미지에 대하여 이미지 처리를 수행할 수 있다. 예를 들어, ISP(416)는 통신 모듈을 통해 외부 전자 장치(470)로부터 획득된 레시피(recipe) 정보(예: 이미지 영역(segment), 레이어(layer), 벡터(vector), 장면 카테고리(scene category) 등)를 이용하여, 로우 이미지에 대하여 다양한 처리(예: 보정)를 수행할 수 있다. 일 실시예에 따르면, ISP(416)는, 외부 전자 장치(470)가 이미지 처리를 위한 레시피 정보를 생성하도록, 로우 이미지 또는 스몰 로우 이미지를 통신 모듈을 통해 외부 전자 장치(470)로 전송할 수 있다. ISP(416)는 통신 모듈을 통해 외부 전자 장치(470)로부터 획득된 레시피(recipe) 정보를 이용하여 로우 이미지를 처리할 수 있다. ISP(416)는 처리된 로우 이미지를 예컨대, JPEG으로 압축하여 제 1 메모리(440)에 저장할 수 있다.
본 발명의 다양한 실시예에서, 인코더(417)는 ISP(416)에 의해 처리된 로우 이미지를 인코딩하여 이미지 파일(예컨대, JPEG, MPEG, 360도 파노라마 등)을 생성하고, 이미지 파일을 제 1 메모리(440)에 저장할 수 있다.
본 발명의 다양한 실시예에서, 제 1 프로세서(430)(예: 도 1의 프로세서(120))는 카메라 모듈(410), 디스플레이(420), 제 1 메모리(440), 입력 장치(450), 음향 출력 장치(460) 및 통신 모듈(미도시)와 전기적으로 연결되어 이들 중 적어도 하나(예: 카메라 모듈(410), 디스플레이(420), 음향 출력 장치(460) 또는 통신 모듈)를 제어할 수 있고, 다양한 데이터 처리 및 연산을 수행할 수 있다.
본 발명의 다양한 실시예에 따르면, 제 1 프로세서(430)는 전자 장치(400)에 저장된 이미지(예: 디스플레이(420)를 통해 표시되고 있는 이미지에 대응)를, 외부 전자 장치(470)가 이미지 내에서 객체(예: person, sky, balloons, grass)을 인식하도록, 통신 모듈을 통해 외부 전자 장치(470)로 전송할 수 있다. 예를 들어, 제 1 프로세서(430) 또는 이의 제어에 의해 제 2 프로세서(412)가, 로우 이미지, 스몰 로우 이미지, 압축된 로우 이미지, 또는 압축된 스몰 로우 이미지를 제 2 메모리(418)로부터 획득하여 통신 모듈을 통해 외부 전자 장치(470)로 전송할 수 있다. 다른 예로, 제 1 프로세서(430)는 디스플레이(420)를 통해 표시되고 있는 이미지에 대응하는 이미지 파일을 제 1 메모리(440)에서 획득하여 외부 전자 장치(470)로 전송할 수도 있다.
본 발명의 다양한 실시예에 따르면, 제 1 프로세서(430)는 전자 장치(400)에서 획득된 사용자 입력을, 외부 전자 장치(470)가 사용자 입력으로부터 사물에 대응하는 단어를 인식하도록, 통신 모듈을 통해 외부 전자 장치(470)로 전송할 수 있다. 다양한 실시예에서, 사용자 입력은, 외부 전자 장치(470)로 전송되는 이미지에 대응하는 이미지가 표시되고 있는 동안에, 획득된 것일 수 있다. 예를 들어, 사용자 입력은, 어떠한 사진이 디스플레이(420)를 통해 제공되고 있는 동안, 마이크를 통해 획득된 사용자의 발화(utterance)(예: “바다색을 더 푸르게 해줘”)일 수 있다. 다양한 실시예에서, 사용자의 발화는, 외부 전자 장치(470)에서 음성 인식률을 높이기 위해 또는 외부 전자 장치(470)로 전송할 데이터의 크기를 줄이기 위해, 제 1 프로세서(430)에 의해 전 처리(예: 노이즈 제거 또는 억제(suppression), 텍스트로의 변환, 자동 이득 제어(AGC; automatic gain control), 적응 반향 제거(adaptive echo canceller) 등)가 수행될 수 있다. 이렇게 전 처리된 발화가 전자 장치(400)에서 외부 전자 장치(470)로 전송될 수 있다. 다양한 실시예에서, 사용자 입력은 전자 장치(400)의 키보드나 터치에 감응하는 디스플레이(420)로부터 획득된 텍스트일 수 있고, 통신 모듈을 통해 외부 전자 장치(470)로 전송될 수 있다.
본 발명의 다양한 실시예에 따른 제 1 프로세서(430)는, 사용자 입력 및 이미지(또는 이미지 파일)의 전송에 대한 응답으로서, 외부 전자 장치(470)로부터 객체 매칭 정보를 수신할 수 있다. 본 발명의 다양한 실시예에서 객체 매칭 정보는 이미지 내 객체들 중 사용자 입력으로부터 인식된 단어(예: “바다색을 더 푸르게 해줘”라는 발화에서, 객체에 해당하는 목적어로서 '바다')에 매칭되는 객체와 관련된 정보일 수 있다. 바꾸어 말해, 객체 매칭 정보는 표시된 이미지 내 객체들 중에서 사용자가 편집 대상으로서 지칭한 객체를 식별하기 위한 정보로 이해될 수 있다. 예를 들어, 객체 매칭 정보는 이미지 내 해당 객체의 위치를 나타내는 픽셀 좌표를 포함할 수 있다. 추가적으로, 제 1 프로세서(430)는 사용자의 의도(intent)(예: 명령)에 대응하는 동작(예: 편집 방법)에 관한 정보를, 다양한 실시예에 따른 사용자 입력 및 이미지(또는 이미지 파일)의 전송에 대한 응답으로서, 외부 전자 장치(470)로부터 수신할 수 있다.
본 발명의 다양한 실시예에 따른 제 1 프로세서(430) 또는 제 2 프로세서(412)(예: ISP(416))는, 사용자 입력 및 이미지(또는 이미지 파일)의 전송에 대한 응답으로서 외부 전자 장치(470)로부터 수신된 정보에 기초하여, 이미지를 편집할 수 있다. 예를 들어, 제 1 프로세서(430) 또는 제 2 프로세서(412)는 전자 장치(400)에 저장된 이미지(예: 디스플레이(420)를 통해 표시되고 있는 이미지에 대응)를 메모리(예: 제 1 메모리(440) 또는 제 2 메모리(418))를 통해서 획득하고, 획득된 이미지에서 특정 영역을, 외부 전자 장치(470)로부터 수신된 객체 매칭 정보로부터, 확인할 수 있다. 제 1 프로세서(430)는 특정 영역에 대한 처리 방법을, 외부 전자 장치(470)로부터 수신된 동작 정보로부터, 확인할 수 있다. 제 1 프로세서(430)는 확인된 동작 정보에 기초하여 특정 영역을 처리함으로써 이미지를 편집할 수 있다. 제 1 프로세서(430)는 편집된 이미지를 디스플레이(420)를 통해 표시하고 메모리(예: 제 1 메모리(440) 또는 제 2 메모리(418))에 저장할 수 있다.
본 발명의 다양한 실시예에 따르면, 이미지의 편집은 외부 전자 장치가, 전자 장치(400)로부터 사용자 입력 및 이미지(또는 이미지 파일)의 수신에 대한 응답으로서, 수행할 수 있다. 예를 들어, 외부 전자 장치(470)(예: ISP(476)) 또는, 도시하지는 않지만, 이에 기능적으로 연결된, 또 다른 외부 전자 장치(예: 이미지 편집 서버)에서 수행되고, 수행에 따른 결과물이 외부 전자 장치(470)를 통해 전자 장치로 전송될 수 있다.
본 발명의 다양한 실시예에 따른 제 1 프로세서(430)는 이미지 편집에 대한 사용자의 피드백을 사용자에게 요청할 수 있다. 예를 들어, 제 1 프로세서(430)는 편집의 정확도를 문의하기 위한 내용(예: 바다 색이 더 푸르게 되었습니까)을 갖는 팝업 메시지를 디스플레이(420)를 통해 또는 상기 내용에 해당하는 음성을 음향 출력 장치(460)(예: 스피커)를 통해 출력할 수 있다. 추가적으로, 제 1 프로세서(430)는 편집된 이미지 영역을 다른 이미지 영역과 구분하여 표시할 수 있다. 예컨대, 편집된 이미지 영역의 외곽을 강조하는 등 시각적으로 이미지 영역들이 서로 구분될 수 있도록 하는 다양한 방법이 본 발명의 다양한 실시예에 적용될 수 있다. 이러한 시각적인 구분에 따라, 사용자는 편집된 이미지 영역을 식별할 수 있고 자신의 의도대로 작업이 이루어졌는지 여부를 판단할 수 있다. 제 1 프로세서(430)는 문의에 대한 사용자의 피드백을 디스플레이(420) 또는 음향 출력 장치(460)(예: 스피커)를 통해 획득할 수 있고, 이를, 외부 전자 장치(470)가 이미지 인식의 성능 향상에 이용할 수 있도록, 외부 전자 장치(470)로 전송할 수 있다. 본 발명의 다양한 실시예에 따르면, 외부 전자 장치(470)는 전자 장치(400)로부터 수신된 사용자의 피드백을 이용하여, 인식의 신뢰도를 조정할 수 있다.
본 발명의 다양한 실시예에 따른 제 1 프로세서(430)는, 편집 결과에 대한 사용자의 피드백을 확인한 결과 사용자의 의도와 다른 객체가 편집된 경우, 편집 대상을 사용자가 직접 지정하도록 사용자에게 요청할 수 있다. 예를 들어, 제 1 프로세서(430)는 편집 대상을 지정하도록 요청하는 내용의 팝업 메시지(예: 바다를 터치해 주세요)를 디스플레이(420)를 통해 또는 상기 내용에 해당하는 음성을 음향 출력 장치(460)(예: 스피커)를 통해 출력할 수 있다. 제 1 프로세서(430)는 직접 지정 요구에 대한 사용자의 피드백을 디스플레이(420) 또는 입력 장치(예: 마이크)를 통해 획득할 수 있고, 이를 외부 전자 장치(470)로 전송할 수 있다.
본 발명의 다양한 실시예에 따른 제 1 프로세서(430)는, 사용자 입력 및 이미지(또는 이미지 파일)의 전송에 대한 응답으로서, 편집 대상을 찾을 수 없음을 나타내는 메시지를 외부 전자 장치(470)로부터 수신할 수 있다. 메시지 수신에 반응하여, 제 1 프로세서(430)는 편집 대상을 사용자가 직접 지정하도록 사용자에게 요청할 수 있다. 예를 들어, 제 1 프로세서(430)는 편집 대상을 지정하도록 요청하는 내용의 팝업 메시지(예: 바다를 터치해 주세요)를 디스플레이(420)를 통해 또는 상기 내용에 해당하는 음성을 음향 출력 장치(460)(예: 스피커)를 통해 출력할 수 있다. 제 1 프로세서(430)는 직접 지정 요구에 대한 사용자의 피드백을 디스플레이(420) 또는 음향 출력 장치(460)(예: 스피커)를 통해 획득할 수 있고, 이를 외부 전자 장치(470)로 전송할 수 있다.
본 발명의 다양한 실시예에 따른 외부 전자 장치(470)는 클라우드 서버로 구현될 수 있다. 외부 전자 장치(470)는 클라우드 시스템을 구성하고 있는 서버들과 클라우드 시스템에 연결 가능한 전자 장치들(예: 전자 장치(400))에 대한 네트워크 관리, 제공 가능한 서비스 및 권한 등과 관련된 클라우드 서비스 관리, 및 저장소 관리 등의 역할을 수행할 수 있다. 외부 전자 장치(470)는 프로세서(471), 데이터 베이스(478), 로우 이미지 저장소(479) 및 학습용 이미지 저장소(480)를 포함할 수 있다. 본 발명의 다양한 실시예에 따른 프로세서(471)는 전 처리 모듈(474), 사용자 입력 인식 모듈(472), 이미지 인식 모듈(473), 인코더(475), 및 ISP(476)를 포함할 수 있다. 전자 장치(400)의 제 1 프로세서(430) 또는 제 2 프로세서(412)가 수행하는 동작들 중 적어도 일부는 외부 전자 장치 프로세서(471)가 수행할 수도 있다. 전 처리 모듈(474), 사용자 입력 인식 모듈(472), 이미지 인식 모듈(473), 인코더(475), 및 ISP(476)는 논리 모듈일 수 있으며 이에 따라, 이들이 수행하는 동작은 프로세서(471) 또는 전자 장치(400)의 프로세서(예: 제 1 프로세서(430) 또는 제 2 프로세서(412))가 수행할 수 있다. 다른 실시예에서는, 전 처리 모듈(474), 사용자 입력 인식 모듈(472), 이미지 인식 모듈(473), 인코더(475), 및 ISP(476) 중 적어도 하나가 외부 전자 장치 프로세서(471) 내의 하드웨어 또는 전자 장치(400)의 프로세서(예: 제 1 프로세서(430) 또는 제 2 프로세서(412)) 내의 하드웨어로 구현될 수도 있다.
본 발명의 다양한 실시예에 따른 사용자 입력 인식 모듈(472)은 외부 전자 장치(470)의 통신 모듈을 통해 전자 장치(400)로부터 사용자 입력(예: 발화, 또는 텍스트)을 수신할 수 있다. 사용자 입력 인식 모듈(472)은 사용자 입력으로부터 다양한 유의미한 정보(예: 주어, 목적어, 명령 등)를 획득할 수 있다. 일 실시예에 따르면, 사용자 입력 인식 모듈(472)은 발화를 텍스트로 변환할 수 있다. 예를 들어, 사용자 입력 인식 모듈(472)은 음향(acoustic) 모델 및 언어(language) 모델을 포함할 수 있다. 예를 들어, 음향 모델은 발성에 관련된 정보를 포함할 수 있고, 언어 모델은 단위 음소 정보 및 단위 음소 정보의 조합에 대한 정보를 포함할 수 있다. 사용자 입력 인식 모듈(472)은 발성에 관련된 정보 및 단위 음소 정보에 대한 정보를 이용하여 사용자 발화를 텍스트로 변환할 수 있다. 음향 모델 및 언어 모델에 대한 정보는, 예를 들어, 데이터베이스()에 저장될 수 있다. 일 실시예에 따르면, 사용자 입력 인식 모듈(472)은 자연어 이해(NLU; natural language understanding)를 수행하여 텍스트(예: 전자 장치(400) 또는 사용자 입력 인식 모듈(472)에 의해 발화에서 텍스트로 변환된 사용자 입력)로부터 유의미한 정보를 획득할 수 있다. 예를 들어, 사용자 입력 인식 모듈(472)은 문법적 분석(syntactic analyze)을 수행하여 텍스트를 문장 성분 별로 구분하여 목적어를 획득할 수 있다. 또한, 사용자 입력 인식 모듈(472)은 문법적 분석 또는 의미적 분석(semantic analyze)을 수행하여 사용자 의도(예: 명령)를 파악할 수 있다.
본 발명의 다양한 실시예에 따른 사용자 입력 인식 모듈(472)은 사용자 입력 인식 결과로서 획득된 정보로부터 객체 리스트(예: “바다색을 더 푸르게 해줘”라는 발화에서 목적어인 '바다')를 생성할 수 있다. 다양한 실시예에서 객체 리스트의 객체들은 편집 대상이 될 수 있다.
본 발명의 다양한 실시예에 따른 사용자 입력 인식 모듈(472)은 사용자 입력 인식 결과로서 획득된 정보로부터 동작 정보를 생성할 수 있다. 예를 들어, 동작 정보는 “바다색을 더 푸르게 해줘”라는 발화에서 사용자의 의도(명령)에 해당하는 “푸르게 해줘”와, 사용자의 의도를 표현하는 필요한 파라미터로서 '더' 및 '바다'를 포함할 수 있다. 다양한 실시예에서 전자 장치(예: 전자 장치(400) 또는 외부 전자 장치(470)는 동작 정보를 이용하여 상기 편집 대상으로서 정해진 객체에 대해 이미지 처리를 수행할 수 있다.
본 발명의 다양한 실시예에 따른 전 처리 모듈(474)은 전자 장치(400)로부터 수신된 이미지(예: 로우 이미지, 스몰 로우 이미지) 또는 이미지 파일을 전 처리하여 이미지 인식 모듈(473) 또는 ISP(476)로 전송할 수 있다. 예를 들어, 전 처리는 이미지 파일을 압축 해제하여 로우 이미지를 획득하는 동작, 디모자이크 처리, 또는 이미지의 포맷을 YUV로 변형하는 동작 등을 포함할 수 있다.
본 발명의 다양한 실시예에 따른 이미지 인식 모듈(473)은 외부 전자 장치(470)의 통신 모듈을 통해 전자 장치(400)로부터 또는 전 처리 모듈(474)을 거쳐 이미지(예: 로우 이미지, 스몰 로우 이미지)를 수신할 수 있다.
본 발명의 다양한 실시예에 따른 이미지 인식 모듈(473)은 수신된 이미지로부터 다양한 유의미한 정보를 분석하는 동작(예: 사물 인식, 이미지 내 특정 객체의 속도를 나타내는 속도 벡터, 얼굴 인식, 세그먼테이션, 장면 파싱(scene parsing) 등)을 수행할 수 있다. 이미지 인식 모듈(473)은 분석 결과를 이미지와 연관하여 생성, 저장 또는 전송하는 동작을 수행할 수 있다. 분석 결과는 이미지 영역, 레이어, 벡터, 및 장면 카테고리 등의 레시피 정보를 포함할 수 있으며, ISP(예: )에서 이미지 처리할 때 활용될 수 있다.
본 발명의 다양한 실시예에 따른 이미지 인식 모듈(473)은 학습용 이미지 저장소(480)에 머신 러닝 또는 딥 러닝을 적용하여 획득된 인식 알고리즘을 이용하여, 수신된 이미지로부터 다양한 유의미한 정보(예: 이미지 영역들 각각에 대한 위치 정보(예: 픽셀 좌표들), 이미지 영역들 각각에 관련된 객체의 식별 정보, 객체의 인식과 관련된 신뢰도 등)를 획득할 수 있다. 어떠한 실시예에 따르면, 이미지 인식 모듈(473)은 사용자 정보에 기초하여 이미지에서 객체 인식을 수행할 수 있다. 예를 들어, 사용자 정보는 데이터베이스(478)에 등록된 이미지(예: 가족 및 친지의 사진, 거주하는 집의 사진 등)로부터 획득될 수 있다.
본 발명의 다양한 실시예에 따른 이미지 인식 모듈(473)은 이미지 인식 결과로서 획득된 정보와 음성 인식 결과로서 획득된 정보를 비교하여 사용자가 편집 대상으로서 지칭한 객체를 식별할 수 있다. 예를 들어, 이미지 인식 모듈(473)은 사용자 입력 인식 모듈(472)로부터 객체(목적어)에 관한 정보를 수신하고, 이미지 인식을 통해 식별된 객체들 중 상기 목적어에 매칭되는 객체를 편집 대상으로서 식별할 수 있다. 이미지 인식 모듈(473)은 식별된 객체에 관한 객체 매칭 정보를 전자 장치(400) 또는 ISP(476)로 전송할 수 있다. 추가적으로, 이미지 인식 모듈(473)은 이미지 인식 결과로서 획득된 객체의 인식과 관련된 신뢰도에 기초하여 객체를 식별할 수 있다. 예를 들어, 이미지는 하나 이상의 이미지 영역(segment)으로 구분되는데, 각 이미지 영역은 하나 이상의 객체로 인식될 수 있다. 그리고 객체는 인식과 관련된 신뢰도가 부여될 수 있다. 예를 들어, 제 1 이미지 영역이 '바다'일 확률(신뢰도)은 80%(제1우선순위)이고 '하늘'일 확률은 20%(제2우선순위)로 인식될 수 있다. 제 2 이미지 영역은 '하늘'일 확률이 80%(제1우선순위)이고 '바다'일 확률이 20%(제2우선순위)로 인식될 수 있다. 이러한 상황에서 사용자 입력으로부터 인식된 편집 대상이 '바다'일 경우, 편집 대상이 신뢰도에 있어서(확률적으로) 제 2 이미지 영역보다 제 1 이미지 영역에 가깝기 때문에, 제 1 이미지 영역이 편집 대상으로 결정될 수 있다.
본 발명의 다양한 실시예에 따른 이미지 인식 모듈(473)은 뜻이 서로 비슷한 객체들(예: 서점, 문고, 책방)을 하나의 유의어 세트로 관리할 수 있다. 이미지 인식 모듈(473)은 유의어 세트에 기초하여, 이미지로부터 인식된 객체들 중 사용자가 편집 대상으로서 지칭한 객체를 식별할 수 있다. 예를 들어, 이미지로부터 인식된 객체들 중 '서점'이 있으나, 사용자 입력에는 '서점'은 없고 그 유의어인 '문고'나 '책방'이 있을 경우, '서점'이 사용자가 지칭하는 대상으로 식별될 수 있다.
본 발명의 다양한 실시예에 따른 이미지 인식 모듈(473)은 이미지 인식 결과로서 획득된 객체의 인식과 관련된 신뢰도를, 상기 신뢰도에 기초한 매칭 결과에 기초하여, 조정할 수 있다. 예를 들어, 하나의 이미지 영역은 여러 객체들로 인식될 수 있는데, 하나의 이미지 영역에 대응하는 객체 리스트에서 각 객체들은 신뢰도에 따라 우선순위가 부여될 수 있다. 일 실시예에 따르면, 객체들 중에서 “사용자 입력 인식을 통해 인식된 편집 대상과 매칭된 객체”에 부여된 순위에 따라 신뢰도 조정이 수행될 수 있다. 예를 들어, 최상위 객체가 편집 대상에 매칭될 경우, 이미지 인식 모듈(473)은 해당 객체의 신뢰도를 상향 조정할 수 있다. 그 다음 순위(예: 제2우선순위)의 객체가 편집 대상에 매칭될 경우, 이미지 인식 모듈(473)은 해당 객체보다 순위가 높은 객체(예: 제1우선순위 객체)의 신뢰도를 하향 조정하고 해당 객체의 신뢰도를 상향 조정할 수 있다. 예를 들어, 어떤 이미지 영역이 '해' 또는 '횃불'로 인식될 수 있고, '해'일 확률이 보다 높을 수 있다. 이러한 상황에서 사용자 입력에 '해'가 포함될 경우, '해'는 제1우선순위 객체로서 신뢰도가 상향 조정될 수 있다. 사용자 입력에 '횃불'이 포함될 경우, 제1우선순위인 '해'의 신뢰도는 하향 조정되고 제2우선순위인 '횃불'의 신뢰도는 상향 조정될 수 있다. 최상위가 아닌 그 보다 낮은 객체가 편집 대상에 매칭될 경우, 이미지 인식 모듈(473)은 순위를 변경하는 조치를 취할 수도 있다. 예를 들어, 제2우선순위 매칭일 경우, 해당 객체의 순위를 제1우선순위로 올리고 종전에 제1우선순위였던 객체의 순위를 제2우선순위로 내릴 수 있다.
본 발명의 다양한 실시예에 따른 이미지 인식 모듈(473)은 이미지 인식 결과로서 획득된 객체의 인식과 관련된 신뢰도를, 매칭 결과에 대한 사용자의 피드백에 기초하여, 조정할 수 있다. 예를 들어, 제1우선순위 매칭에 대한 피드백이 정답을 나타내는 경우, 이미지 인식 모듈(473)은 제1우선순위 객체의 신뢰도를 상향 조정할 수 있다. 제2우선순위 매칭에 대한 피드백이 정답을 나타내는 경우, 제1우선순위 객체의 신뢰도를 하향 조정하고 제2우선순위 객체의 신뢰도를 상향 조정할 수 있다. 제2우선순위 매칭에 대한 피드백이 정답을 나타내는 경우, 이미지 인식 모듈(473)은 순위를 변경하는 조치를 취할 수도 있다. 매칭에 대한 피드백이 오답을 나타내는 경우, 이미지 인식 모듈(473)은 해당 객체의 신뢰도 또는 순위를 하향 조정할 수 있다.
본 발명의 다양한 실시예에 따르면, 매칭 결과에 대한 사용자의 피드백이 오답을 나타내거나 혹은 정해진 순위(예: 제2우선순위)까지 매칭이 이루어지지 않은 경우, 이미지 인식 모듈(473)은, 사용자가 직접 편집 대상을 지정하도록 요청하는 메시지를 외부 전자 장치(470)의 통신 모듈을 통해 전자 장치(400)로 전송할 수 있다. 이러한 요청의 피드백에 기초하여 이미지 인식 모듈(473)은 신뢰도를 조정할 수 있다.
하나의 예로, 객체 리스트에 사용자가 지정한 객체가 존재하는 경우, 해당 객체의 신뢰도는 상향 조정(예: 제1우선순위 객체보다 신뢰도 상향 조정되어 우선순위 뒤바뀜)될 수 있다.
또 하나의 예로, 어떤 이미지 영역이 '해', '횃불', 또는 '가로등'으로 인식될 수 있고, 신뢰도 면에서 '해'가 가장 높고 '가로등'이 가장 낮을 수 있다. 이러한 상황에서, 사용자 입력에 '해(제1우선순위)'도 아닌 '횃불(2순위)'도 아닌 '가로등(제3우선순위)'이 포함된 경우, 상기 객체 “가로등'이 상기 이미지 영역에 가장 밀접한 객체로 신뢰도 상향 조정(예: 100%)될 수 있다.
또 하나의 예로, 객체 리스트에 사용자가 지정한 객체가 존재하지 않은 경우(예: 사용자 입력이 '해, 횃불 또는 가로등'도 아닌, 객체 리스트에 존재하지 않은 단어를 포함하는 경우), 상기 이미지 영역 관련해서 인식될 수 있는 객체로서 상기 사용자가 지정한 단어가 추가되고 그 신뢰도는 미리 정해진 값의 범위 이하 (예: 50% 이하)으로 설정될 수 있다.
또 하나의 예로, 객체 리스트에 사용자가 지정한 객체가 존재하지 않는다는 것은 사용자 입력의 인식 오류를 의미할 수도 있다. 예를 들어, 사용자는 '바다'라고 발음하였으나, 음성 인식의 오류로 인해 '바다'가 아닌 유사한 발음으로 인식될 수 있다. 이에 따라, 객체 리스트에 사용자가 지정한 객체가 존재하지 않을 수 있다. 이러한 경우, 이미지 인식 모듈(473)은 사용자 입력의 재 요청을 외부 전자 장치(470)의 통신 모듈을 전자 장치(400)로 전송할 수 있다. 이미지 인식 모듈(473)은 상기 재 요청에 대한 사용자의 반응에 기초하여 신뢰도 조정을 수행할 수 있다.
또 하나의 예로, 이미지에서 구분된 이미지 영역들은 적어도 하나의 객체로 인식되는데, 어떤 이미지 영역은 어떤 객체에 대응하는지 인식되지 못할 수 있다. 이러한 상황에서 '식별되지 못한 이미지 영역'을 사용자가 선택한 경우, 사용자가 지정한 객체가 해당 이미지 영역의 객체로 결정될 수 있고, 그 신뢰도는 미리 정해진 값으로 설정될 수 있다.
본 발명의 다양한 실시예에 따른 이미지 인식 모듈(473)은 매칭 결과에 대한 사용자의 피드백이 오답을 나타낼 경우, 고의적인 오답인지 여부를 판단하고, 판단 결과 고의적인 경우, 경고 메시지를 외부 전자 장치(470)의 통신 모듈을 통해 전자 장치(400)로 전송할 수 있다. 예를 들어, 오답이 지속적으로 정해진 횟수 이상 발생된 경우, 사용자에게 인식률 하락될 가능성이 있음을 나타내는 경고 메시지가 발송될 수 있다. 본 발명의 다양한 실시예에 따르면 이미지 인식 모듈(473)에서 이미지 인식을 위한 동작들(이미지 인식 모델)은 사용자에게 적합하게 개인화될 수 있다. 따라서, 피드백이 고의적인 오답일 경우 해당 사용자에 관한 이미지 인식률은 지속적으로 하락될 수 있다. 일부 객체에 대한 인식률이 공통 인식 엔진의 인식률보다 떨어질 경우 사용자의 개인화된 인식 엔진은 초기화 값의 공통 인식 엔진으로 대체될 수 있다.
본 발명의 다양한 실시예에 따른 이미지 인식 모듈(473)은 조정된 신뢰도를 이용한 이미지 인식이 수행되도록 상기 조정된 신뢰도를 학습용 이미지 저장소(480)에 저장할 수 있다.
본 발명의 다양한 실시예에 따른 ISP(476)는 이미지 인식을 통해 획득된 레시피 정보에 기반한 이미지 처리를 수행할 수 있다. ISP(476)는 데이터 베이스(478)로부터 레시피 정보에 대응하는 추가 정보(예: 객체 또는 그 일부(예: 머리카락)의 특징을 나타내는 특징 벡터(feature vector))를 수신하여 이미지 처리에 이용할 수 있다. 처리된 이미지는 전자 장치(400)나 인코더(475)로 전송되거나 또는 로우 이미지 저장소(479)에 저장될 수 있다. 이미지 처리는 화이트 밸런스(white balance), 색 보정(color adjustment), 노이즈 억제(noise reduction), 선명 효과(sharpen), 상세 정보 개선(detail enhancement) 등의 기능을 포함할 수 있다. 이러한 기능들은 레시피 정보에 기반하여, 이미지 영역(segment)별로 수행될 수 있다.
본 발명의 다양한 실시예에 따른 인코더(475)는 ISP(476)에 의해 처리된 로우 이미지를 인코딩하여 이미지 파일(예컨대, JPEG, MPEG, 360도 파노라마 등)을 생성할 수 있다. 인코더(475)에 의해 생성된 이미지 파일은 외부 전자 장치(470)의 통신 모듈을 통해 전자 장치(400)로 전송되거나 로우 이미지 저장소(479)에 저장될 수 있다.
도 5는 다양한 실시예에 따른 프로세서의 동작들을 설명하기 위한 흐름도이다.
도 5를 참조하면, 다양한 실시예에 따른 아래의 동작들은 도 1의 프로세서(120)에 의해 실행될 수 있다. 또한, 아래의 동작들은 도 4의 프로세서들(471, 412, 430) 중 적어도 하나를 통해서 실행될 수도 있다.
다양한 실시예에 따르면, 동작 510에서 프로세서는 이미지를 확인할 수 있다. 예를 들어, 프로세서가 확인할 수 있는 이미지는 이미지 센서(예: 도 4의 411)를 통해 획득된 로우 이미지, 또는 로우 이미지 처리 모듈(예: 도 4의 413)을 통해 획득된 스몰 로우 이미지일 수 있다. 또한, 이미지는 제 2 메모리(418) 또는 제 1 메모리(430)를 통해 획득된 이미지 파일을 압축 해제한 것일 수도 있다. 다양한 실시예에서, 이미지 내 객체들은 다양한 이미지 인식 방식(예: 이미지 인식 모듈(473))에 의해 인식될 수 있다. 예를 들어, 이미지는 다수의 이미지 영역들로 구분될 수 있다. 각각의 이미지 영역은 다양한 이미지 인식 방식에 의해 하나 이상의 객체로 인식될 수 있다.
다양한 실시예에 따르면, 동작 520에서 프로세서는 이미지로부터 인식된 하나 이상의 제 1 객체의 인식과 관련된 신뢰도를 획득할 수 있다. 예를 들어, 하나 이상의 제 1 객체는 이미지 영역들 중 하나에 대응하는 객체로 인식될 수 있으며, 하나 이상의 제 1 객체 각각의 인식과 관련된 신뢰도는 다양한 이미지 인식 방식(예: 이미지 인식 모듈(473))을 이용하여 획득될 수 있다.
다양한 실시예에 따르면, 동작 530에서 프로세서는 사용자 입력을 예컨대, 마이크, 키보드 또는 터치 감응 디스플레이 중 적어도 하나로부터 획득할 수 있다. 사용자 입력 내 단어들은 다양한 문자 인식 방식(예: 사용자 입력 인식 모듈(472))에 의해 인식될 수 있다.
다양한 실시예에 따르면, 동작 540에서 프로세서는 사용자 입력에 포함된 단어들로부터 하나 이상의 제 2 객체(예: 문장 성분들 중 목적어에 해당하는 단어)를 획득할 수 있다.
다양한 실시예에 따르면, 동작 550에서 프로세서는, 하나 이상의 제 1 객체 중에서 하나 이상의 제 2 객체에 대응하는 적어도 하나의 객체가 있는 경우, 상기 적어도 하나의 객체에 대응하는 적어도 하나의 신뢰도를 조정할 수 있다. 예를 들어, 하나 이상의 제 1 객체는 신뢰도 순으로 우선 순위가 결정된, 제1우선순위 객체와 2순위 객체를 포함한다고 가정하자. 제1우선순위 객체가 제 2 객체에 대응할 경우, 제1우선순위 객체의 신뢰도는 상향 조정될 수 있다. 2순위 객체가 제 2 객체에 대응할 경우, 제1우선순위 객체의 신뢰도는 하향 조정되고 2순위 객체의 신뢰도는 상향 조정될 수 있다.
다양한 실시예에 따르면, 동작 560에서 프로세서는 조정된 하나 이상의 신뢰도에 적어도 기반하여, 상기 이미지 인식을 이용하여 상기 하나 이상의 제 1 객체를 인식할 수 있다. 예를 들어, 신뢰도 조정 전에 2순위였던 객체가 신뢰도 조정 후 제1우선순위의 객체로 인식될 수 있다.
도 6은 다양한 실시예에 따른 이미지 인식률 향상을 위한 프로세서의 동작들을 설명하기 위한 흐름도이다.
도 6을 참조하면, 다양한 실시예에 따른 아래의 동작들은 사용자 인터페이스 모듈(601), 이미지 인식 모듈(602), 및 사용자 입력 인식 모듈(603)을 통해 실행될 수 있다. 사용자 인터페이스 모듈(601), 이미지 인식 모듈(602), 및 사용자 입력 인식 모듈(602)이 수행하는 동작들 중 적어도 일부는 도 1의 프로세서(120)에 의해 실행될 수 있다. 또한, 사용자 인터페이스 모듈(601), 이미지 인식 모듈(602), 및 사용자 입력 인식 모듈(603)이 수행하는 동작들 중 적어도 일부는 도 4의 프로세서들(412, 430, 471) 중 적어도 하나를 통해서 실행될 수도 있다.
다양한 실시예에 따르면, 동작 610에서 사용자 인터페이스 모듈(601)은 이미지를 획득하여 이미지 인식 모듈(602)로 전송할 수 있다. 예컨대, 이미지는 이미지 센서(예: 도 4의 411)를 통해 획득된 로우 이미지, 또는 로우 이미지 처리 모듈(예: 도 4의 413)을 통해 획득된 스몰 로우 이미지일 수 있다. 또한, 이미지는 메모리(예 도 4의 418 또는 430)를 통해 획득된 이미지 파일을 압축 해제한 것일 수도 있다.
다양한 실시예에 따르면, 동작 615에서 사용자 인터페이스 모듈(601)은 사용자 입력을 획득하여 사용자 입력 인식 모듈(603)로 전송할 수 있다. 사용자 입력은 예컨대, 마이크, 키보드 또는 터치 감응 디스플레이 중 적어도 하나로부터 획득할 수 있다. 사용자 입력이 마이크로부터 획득된 발화인 경우 텍스트로 변환되어 사용자 입력 인식 모듈(603)로 전송될 수 있다. 다른 예로, 사용자 입력 인식 모듈(603)이 발화를 텍스트로 변환할 수도 있다.
다양한 실시예에 따르면, 동작 620에서 이미지 인식 모듈(602)(예: 도 4의 473)은 이미지 저장소(604)에 다양한 학습 엔진(예: 머신 러닝, 딥 러닝)을 적용하여 획득된 알고리즘을 이용하여, 상기 수신된 이미지로부터 하나 이상의 객체를 인식할 수 있다. 일 실시예에 따르면, 이미지 인식 모듈(602)은 수신된 이미지로부터 하나 이상의 이미지 영역을 구분하고, 이미지 영역을 적어도 하나의 객체로 인식할 수 있다. 또한, 이미지 인식 모듈(602)은 상기 획득된 알고리즘을 이용하여, 객체의 인식과 관련된 신뢰도를 획득될 수 있다.
다양한 실시예에 따르면, 동작 625에서 사용자 입력 인식 모듈(603)(예: 도 4의 472)은 상기 수신된 사용자 입력으로부터 사용자가 편집 대상으로 지칭한 객체를 인식할 수 있다.
다양한 실시예에 따르면, 동작 630에서 이미지 인식 모듈(602)은 이미지로부터 인식된 하나 이상의 제1우선순위 객체 중에서 사용자 입력 인식 모듈(603)에 의해 인식된 객체(편집 대상)에 대응하는 제1우선순위 객체가 존재하는지 여부를 판단할 수 있다.
다양한 실시예에 따르면, 동작 630에서의 판단 결과, 하나 이상의 제1우선순위 객체 중에서 편집 대상에 대응하는 객체가 존재할 경우, 동작 635에서 이미지 인식 모듈(602)은 편집 대상에 대응하는 제1우선순위 객체의 신뢰도를 상향 조정할 수 있고, 이미지와 함께 신뢰도 조정과 관련된 결과 정보를 이미지 저장소(604)에 저장할 수 있다. 예를 들어, 제 1 이미지 영역이 '바다'일 확률(신뢰도)은 80%(제1우선순위)이고 '하늘'일 확률은 20%(2순위)로 인식될 수 있다. 제 2 이미지 영역은 '하늘'일 확률이 80%(제1우선순위)이고 '바다'일 확률이 20%(2순위)로 인식될 수 있다. 이러한 상황에서 사용자 입력으로부터 인식된 객체(목적어)가 '바다'일 경우, 사용자가 지정했다고 볼 수 있는 대상은, 신뢰도에 있어서(확률적으로) 제 2 이미지 영역보다 제 1 이미지 영역에 가깝기 때문에, 제 1 이미지 영역으로 결정되고, 제 1 이미지 영역의 제1우선순위 객체 '바다'의 신뢰도가 상향 조정될 수 있다. 추가적으로, 제 1 이미지 영역의 2순위 객체 '하늘'의 신뢰도는 하향 조정될 수도 있다.
다양한 실시예에 따르면, 동작 630에서의 판단 결과, 하나 이상의 제1우선순위 객체 중에서 편집 대상에 대응하는 객체가 존재하지 않을 경우, 동작 640에서 이미지 인식 모듈(602)은 이미지로부터 인식된 하나 이상의 2순위 객체 중에서 편집 대상에 대응하는 객체가 존재하는지 여부를 판단할 수 있다.
다양한 실시예에 따르면, 동작 640에서의 판단 결과, 하나 이상의 2순위 객체 중에서 편집 대상에 대응하는 객체가 존재할 경우, 동작 645에서 이미지 인식 모듈(602)은 편집 대상에 대응하는 2순위 객체의 신뢰도를 상향 조정할 수 있고, 해당 이미지 영역의 제1우선순위 객체의 신뢰도를 하향 조정할 수 있고, 이미지와 함께 신뢰도 조정과 관련된 결과 정보를 이미지 저장소(604)에 저장할 수 있다. 예를 들어, 제 1 이미지 영역이 '바다'일 확률(신뢰도)은 80%(제1우선순위)이고 '하늘'일 확률은 20%(2순위)로 인식될 수 있다. 제 2 이미지 영역은 '하늘'일 확률이 80%(제1우선순위)이고 '바다'일 확률이 20%(2순위)로 인식될 수 있다. 제 3 이미지 영역은 '횃불'일 확률이 80%(제1우선순위)이고 '해'일 확률이 20%(2순위)로 인식될 수 있다. 이러한 상황에서 사용자 입력으로부터 인식된 객체(목적어)가 '해'일 경우, 제 3 이미지 영역의 2순위 객체 '해'의 신뢰도가 상향 조정되고, 제1우선순위 객체 '횃불'의 신뢰도는, 예컨대 순위가 뒤바뀔 정도로, 하향 조정될 수 있다.
다양한 실시예에 따르면, 동작 640에서의 판단 결과, 하나 이상의 2순위 객체 중에서 편집 대상에 대응하는 객체가 존재하지 않을 경우, 동작 650에서 이미지 인식 모듈(602)은 사용자가 직접 편집 대상을 지정하도록 요청하는 메시지를 사용자 인터페이스 모듈(601)로 전송할 수 있다. 예를 들어, 이미지 인식 결과, 이미지가 제 1 이미지 영역, 제 2 이미지 영역, 제 3 이미지 영역 및 제 4 이미지 영역으로 구분될 수 있는데, 다른 이미지 영역들은 상술한 바와 같이 하나 이상의 객체로 식별되나, 제 4 이미지 영역은 어떠한 객체에 대응하는지 식별되지 못할 수 있다. 이러한 상황에서 사용자 입력으로부터 인식된 객체(목적어)가 '구름'인 경우, 동작 650이 수행될 수 있다.
다양한 실시예에 따르면, 동작 655에서 사용자 인터페이스 모듈(601)은, 이미지 인식 모듈(602)로부터 상기 요청 메시지의 수신에 반응하여, 직접 지정을 요청하는 내용(예: 구름을 터치해 주세요)의 메시지를 출력할 수 있다. 예를 들어, 사용자 인터페이스 모듈(601)은 팝업 메시지를 디스플레이를 통해 또는 상기 내용에 해당하는 음성을 스피커를 통해 출력할 수 있다.
다양한 실시예에 따르면, 동작 660에서 사용자 인터페이스 모듈(601)은 사용자의 피드백(예: 사용자에 의해 선택된 이미지 영역에 관한 정보)을 디스플레이 또는 입력 장치(예: 마이크)를 통해 획득할 수 있고, 이를 이미지 인식 모듈(602)로 전송할 수 있다.
다양한 실시예에 따르면, 동작 665에서 이미지 인식 모듈(602)은 상기 사용자의 피드백에 기초하여 객체의 신뢰도를 결정할 수 있고, 이미지와 함께 신뢰도 결정과 관련된 결과 정보를 이미지 저장소에 저장할 수 있다. 예를 들어, 앞서 인식된 객체들의 리스트에 사용자가 지정한 객체가 존재하는 경우, 해당 객체의 신뢰도는 상향 조정될 수 있다. 객체 리스트에 사용자가 지정한 객체가 없는 경우, 해당 객체의 신뢰도는 미리 정해진 값(예: 50%)로 설정될 수 있다.
도 7은 본 발명의 다양한 실시예에 따른 전자 장치 및 외부 전자 장치의 동작들을 설명하기 위한 도면이다.
도 7을 참조하면, 전자 장치(710)는 도 1의 전자 장치(101), 또는 도 4의 전자 장치(400)의 전체 또는 일부를 포함할 수 있다. 외부 전자 장치(700)(예: 도 4의 470)는 이미지 인식 모듈(740), 사용자 입력 인식 모듈(720) 및 이미지 보정 모듈(730)을 포함할 수 있다. 이미지 인식 모듈(740), 사용자 입력 인식 모듈(720) 및 이미지 보정 모듈(730)은 서로들 간에 기능적으로 연결되어 있으며, 이에 따라, 이들 간에는 자유로운 데이터 전달 및 공유가 가능하다. 일 실시예에 따르면, 이미지 인식 모듈(740), 사용자 입력 인식 모듈(720) 및 이미지 보정 모듈(730)은 논리 모듈일 수 있으며, 따라서 적어도 하나 이상의 프로세서(예: 도 4의 412, 430, 471)가 이들의 동작을 수행할 수 있다. 일 실시예에 따르면, 이미지 인식 모듈(740), 사용자 입력 인식 모듈(720) 및 이미지 보정 모듈(730) 중 적어도 하나가 프로세서(예: 도 4의 412, 430 또는 471) 내 하드웨어로 구현될 수 있다. 일 실시예에 따르면, 이미지 보정 모듈(730)과 동일한 동작을 전자 장치(710)의 프로세서(예: 도 4의 412 또는 430)가 수행할 수도 있다.
다양한 실시예에 따르면, 전자 장치(710)에서 획득된 이미지(751)가 외부 전자 장치(700)의 이미지 인식 모듈(740)로 전송될 수 있다. 또한, 전자 장치(710)에서 획득된 사용자 입력(753)(예: 발화 또는 텍스트)이 외부 전자 장치(710)의 사용자 입력 인식 모듈(720)로 전송될 수 있다.
다양한 실시예에 따르면, 사용자 입력 인식 모듈(720)(예: 도 4의 472)은 사용자 입력으로부터 객체 인식을 수행하고, 그 결과물로서 사용자 입력 인식 결과(754)를 전자 장치(710) 또는 이미지 보정 모듈(730)로 전송할 수 있다.
다양한 실시예에 따르면, 이미지 보정 모듈(730)은 이미지 보정을 위한 다양한 수단들 예컨대, ISP(예: 도 4의 476), 인코더(예: 도 4의 475), 및 전 처리 모듈(예: 도 4의 474)을 포함할 수 있다. 이미지 보정 모듈(730)은 이미지를 보정함에 있어서, 이미지 인식 결과(752)와 사용자 입력 인식 결과(754)를 기반으로 이미지 보정을 수행할 수 있다. 이미지 보정 모듈(730)은 보정된 이미지(756)를 전자 장치(710)로 전송할 수 있다.
다양한 실시예에 따르면, 이미지 인식 모듈(740)(예: 도 4의 473)은 이미지로부터 객체 인식을 수행할 수 있다. 일 실시예에 따르면, 이미지 인식 모듈(740)은 기존에 학습된 딥 러닝(deep learning) 인식 모델을 기반으로 객체 인식을 진행하는데, 객체 인식할 때 사용자마다 다르게 학습된 인식 모델을 사용할 수 있다. 예를 들어, 사용자의 모국어, 사용자 주변 인물 및 거주 환경 등이 고려된, 개인화된 인식 모델들(750)이 데이터베이스에 저장될 수 있으며, 이미지 인식 모듈(740)은 전자 장치(710)의 사용자에 대응하는 인식 모델을 불러 와 객체 인식을 수행할 수 있다. 이미지 인식 모듈(740)은 이미지 인식 결과(752)를 전자 장치(710) 또는 이미지 보정 모듈(730)로 전송할 수 있다.
다양한 실시예에 따르면, 이미지 인식 모듈(740)은, 보정된 이미지(756)에 대한 사용자의 반응으로서 전자 장치(710)로부터 수신된 피드백(757)에 기초하여, 객체의 신뢰도를 조정할 수 있고, 신뢰도 조정과 관련된 결과 정보에 기초하여, 사용자의 인식 모델을 업데이트(758)할 수 있다. 사용자의 피드백 및 신뢰도 조정에 관한 다양한 예시는 앞서 도 4 내지 6을 통해 설명된 예시로 대체한다.
본 발명의 다양한 실시예에 따른 전자 장치는 통신 모듈; 및 상기 통신 모듈과 기능적으로 연결된 프로세서를 포함하고, 상기 프로세서는, 하나 이상의 객체들을 포함하는 이미지를 확인하고, 이미지 인식 방식에 적어도 기반하여 인식된, 상기 하나 이상의 객체들의 적어도 일부에 대응하는 하나 이상의 제 1 객체들 및 상기 하나 이상의 제 1 객체들의 인식과 관련된 하나 이상의 신뢰도를 획득하고, 상기 이미지와 관련된 하나 이상의 단어를 포함하는 정보를 포함하는 입력을 획득하고, 문자 인식 방식에 적어도 기반하여 인식된, 상기 하나 이상의 단어들의 적어도 일부에 대응하는 하나 이상의 제 2 객체들을 획득하고, 상기 하나 이상의 제 1 객체들 중 상기 하나 이상의 제 2 객체들에 대응하는 적어도 하나의 객체가 있는 경우, 상기 하나 이상의 신뢰도 중 상기 적어도 하나의 객체에 대응하는 적어도 하나의 신뢰도를 조정하고, 및 상기 적어도 하나의 신뢰도가 조정된 상기 하나 이상의 신뢰도에 적어도 기반하여, 상기 이미지 인식 방식을 이용하여 상기 하나 이상의 제 1 객체를 인식 하도록 설정될 수 있다.
상기 프로세서는, 상기 하나 이상의 제 1 객체들 중 상기 하나 이상의 제 2 객체들에 대응하는 상기 적어도 하나의 객체가 있는 경우, 상기 하나 이상의 신뢰도 중 상기 적어도 하나의 객체에 대응하는 적어도 하나의 신뢰도를 상향 조정하도록 설정될 수 있다.
상기 프로세서는, 상기 제 1 객체들에 포함된 제1 우선 순위에 대응하는 제 1 일부 객체 셋 및 상기 제 1 우선 순위보다 우선 순위가 낮은 제 2 우선 순위에 대응하는 제 2 일부 객체 셋을 판단하고, 상기 제 1일부 객체 셋에 상기 하나 이상의 제 2 객체들에 대응하는 객체가 포함되어 있는 경우, 상기 1일부 객체 셋에 포함된 상기 하나 이상의 제 2 객체들에 대응하는 객체의 신뢰도를 상향 조정하고, 상기 제 1일부 객체 셋에 상기 하나 이상의 제 2 객체들에 대응하는 객체가 포함되어 있지 않고 상기 제 2일부 객체 셋에는 상기 하나 이상의 제 2 객체들에 대응하는 객체가 포함되어 있는 경우, 상기 제 2일부 객체 셋에 포함된 상기 하나 이상의 제 2 객체들에 대응하는 객체의 신뢰도를 상향 조정하고, 상기 제 1 일부 객체 셋에 포함된 적어도 하나의 객체의 신뢰도를 하향 조정하도록 설정될 수 있다.
상기 프로세서는, 상기 하나 이상의 제 1 객체들 중 상기 하나 이상의 제 2 객체들에 대응하는 객체가 없는 경우, 상기 하나 이상의 제 2 객체들에 대응하는 입력 요청을 출력하도록 설정될 수 있다.
상기 프로세서는, 상기 입력 요청에 대한 사용자의 반응에 기초하여 상기 이미지의 다수의 이미지 영역들 중 하나를 선택하고, 상기 하나 이상의 제 2 객체들을 상기 선택된 이미지 영역에 대응하는 객체로 결정하고, 상기 선택된 이미지 영역에 대응하는 객체의 신뢰도를 결정하도록 설정될 수 있다.
상기 프로세서는, 상기 선택된 이미지 영역에 대응하는 객체가 상기 하나 이상의 제 1 객체들 중에 존재하는 경우, 상기 선택된 이미지 영역에 대응하는 객체의 신뢰도를 상향 조정하도록 설정될 수 있다.
상기 프로세서는, 상기 이미지가 상기 이미지 인식 방식에 적어도 기반하여 보정된 보정 이미지를 표시하고, 상기 표시된 상기 보정 이미지와 관련하여 다른 입력을 획득하고, 및 상기 문자 인식 방식에 따른 상기 다른 입력에 기초하여, 상기 하나 이상의 신뢰도 중 적어도 하나의 신뢰도를 조정하도록 설정될 수 있다.
상기 프로세서는, 상기 입력이 사용자의 발화를 포함하는 경우, 상기 문자 인식 방식의 일부로, 상기 발화를 텍스트로 변환하고, 및 상기 텍스트로부터 상기 하나 이상의 단어들을 인식하도록 설정될 수 있다.
상기 전자 장치는 상기 프로세서와 기능적으로 연결된 카메라를 더 포함하고, 상기 프로세서는, 상기 카메라를 이용하여 제 1 이미지를 획득하고, 상기 제 1 이미지를 이용하여 상기 제 1 이미지의 데이터의 크기 보다 작은 크기를 갖는 제 2 이미지를 생성하고, 외부 전자 장치가 상기 제 2 이미지로부터 상기 하나 이상의 제 1 객체들 및 상기 하나 이상의 신뢰도를 인식하도록, 상기 통신 모듈을 통해 상기 제 2 이미지를 상기 외부 전자 장치로 전송하도록 설정될 수 있다.
상기 전자 장치는 상기 프로세서와 기능적으로 연결된 마이크를 더 포함하고, 상기 프로세서는, 상기 마이크로부터 사용자 입력을 획득하고, 외부 전자 장치가 상기 사용자 입력으로부터 상기 하나 이상의 제 2 객체들을 인식하도록, 상기 통신 모듈을 통해 상기 사용자 입력을 상기 외부 전자 장치로 전송하도록 설정될 수 있다.
상기 프로세서는 상기 이미지 인식 방식에 기반하여 객체 인식될 때 사용되는 이미지 저장소에 상기 이미지와 함께 상기 조정된 신뢰도를 저장하도록 설정될 수 있다.
상기 전자 장치는 상기 프로세서와 기능적으로 연결된 카메라를 더 포함하고 상기 프로세서는, 상기 카메라를 이용하여 이미지를 획득하고, 상기 획득된 이미지를 이용하여 상기 하나 이상의 제 1 객체들 및 상기 하나 이상의 신뢰도를 인식하도록 설정될 수 있다.
본 발명의 다양한 실시예에 따른 전자 장치는 터치 감응 디스플레이; 입력 장치; 카메라; 통신 모듈; 및 상기 디스플레이, 상기 입력 장치, 상기 카메라 및 상기 통신모듈과 기능적으로 연결된 프로세서를 포함하고, 상기 프로세서는, 상기 카메라를 통해 제 1 이미지를 획득하고, 상기 제 1이미지에 대응하는 제 2 이미지를 상기 터치 감응 디스플레이에 표시하고, 상기 제 2 이미지 표시되는 중에 상기 터치 감응 디스플레이 또는 상기 입력 장치 중 적어도 하나를 통해 사용자 입력을 획득하고, 외부 전자 장치가 상기 제 1 이미지의 객체들 중 상기 사용자 입력에 대응하는 객체를 인식하도록, 상기 제 1 이미지 및 상기 사용자 입력을 상기 통신 모듈을 통해 상기 외부 전자 장치로 전송하고, 상기 외부 전자 장치로부터 상기 인식의 결과를 수신하고, 상기 결과에 대한 사용자의 제 1 반응을 상기 터치 감응 디스플레이 또는 상기 입력 장치 중 적어도 하나를 통해 획득하고, 상기 외부 전자 장치가 상기 제 1 반응에 기초하여 상기 객체의 인식과 관련된 신뢰도를 조정하도록, 상기 제 1 반응을 상기 통신 모듈을 통해 상기 외부 전자 장치로 전송하도록 설정될 수 있다.
상기 프로세서는, 상기 제 1 이미지의 객체들 중 상기 사용자 입력에 대응하는 객체가 없음을 나타내는 또는 사용자 입력의 재 요청을 나타내는 메시지를 상기 통신 모듈을 통해 상기 외부 전자 장치로부터 수신하고, 상기 메시지에 대한 사용자의 제 2 반응을 상기 터치 감응 디스플레이 또는 상기 입력 장치 중 적어도 하나를 통해 획득하고, 상기 외부 전자 장치가 상기 제 2 반응에 기초하여 상기 객체의 인식과 관련된 신뢰도를 조정하도록, 상기 제 2 반응을 상기 통신 모듈을 통해 상기 외부 전자 장치로 전송하도록 설정될 수 있다.
본 발명의 다양한 실시예에 따른 전자 장치를 동작시키는 방법은 하나 이상의 객체들을 포함하는 이미지를 확인하는 동작; 이미지 인식 방식에 적어도 기반하여 인식된, 상기 하나 이상의 객체들의 적어도 일부에 대응하는 하나 이상의 제 1 객체들 및 상기 하나 이상의 제 1 객체들의 인식과 관련된 하나 이상의 신뢰도를 획득하는 동작; 상기 이미지와 관련된 하나 이상의 단어를 포함하는 정보를 포함하는 입력을 획득하는 동작; 문자 인식 방식에 적어도 기반하여 인식된, 상기 하나 이상의 단어들의 적어도 일부에 대응하는 하나 이상의 제 2 객체들을 획득하는 동작; 상기 하나 이상의 제 1 객체들 중 상기 하나 이상의 제 2 객체들에 대응하는 적어도 하나의 객체가 있는 경우, 상기 하나 이상의 신뢰도 중 상기 적어도 하나의 객체에 대응하는 적어도 하나의 신뢰도를 조정하는 동작; 및 상기 적어도 하나의 신뢰도가 조정된 상기 하나 이상의 신뢰도에 적어도 기반하여, 상기 이미지 인식 방식을 이용하여 상기 하나 이상의 제 1 객체를 인식하는 동작을 포함할 수 있다.
본 명세서와 도면에 개시된 본 발명의 실시예들은 본 발명의 실시예에 따른 기술 내용을 쉽게 설명하고 본 발명의 실시예의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 실시예의 범위를 한정하고자 하는 것은 아니다. 따라서 본 발명의 다양한 실시예의 범위는 여기에 개시된 실시예들 이외에도 본 발명의 다양한 실시예의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 발명의 다양한 실시예의 범위에 포함되는 것으로 해석되어야 한다.
100: 네트워크 환경
101, 102, 104: 전자 장치
108: 서버
198: 제 1 네트워크
199: 제 2 네트워크

Claims (15)

  1. 전자 장치에 있어서,
    통신 모듈; 및
    상기 통신 모듈과 기능적으로 연결된 프로세서를 포함하고, 상기 프로세서는,
    하나 이상의 객체들을 포함하는 이미지를 확인하고,
    상기 이미지를 하나 이상의 이미지 영역들로 구분하고,
    상기 하나 이상의 이미지 영역들 각각에서 제1 객체들을 인식하고,
    상기 제1 객체들 각각에 대해 신뢰도를 할당하고,
    상기 제1 객체들에 할당된 신뢰도를 상기 이미지와 함께 저장하고,
    상기 통신 모듈을 통해 외부 전자 장치로부터 하나 이상의 단어들을 갖는 정보를 포함하는 제1 사용자 입력을 수신하고,
    NLU(natural language understanding)를 수행하여, 상기 제1 사용자 입력에 포함된 상기 하나 이상의 단어들의 적어도 일부에 대응하는 제2 객체를 인식하고,
    상기 제1 객체들 중에서, 제1 우선순위에 대응하는 제1 객체 세트 및 상기 제1 우선순위보다 낮은 제2 우선순위에 대응하는 제2 객체 세트를 결정하고,
    상기 제1 객체들 중에서 상기 제2 객체에 대응하는 객체가 존재하는지 여부를 결정하고,
    상기 제2 객체에 대응하는 객체가 상기 제1 객체 세트에 존재하는 경우, 상기 제2 객체에 대응하는 객체의 신뢰도를 상향 조정하고,
    상기 제2 객체에 대응하는 객체가 상기 제1 객체 세트에 존재하지 않고 상기 제2 객체 세트에 존재하는 경우, 상기 제2 객체에 대응하는 객체의 신뢰도를 상향 조정하고 상기 제1 객체 세트에 포함된 적어도 하나의 객체의 신뢰도를 하향 조정하고,
    상기 제1 객체들 중에서 상기 제2 객체에 대응하는 객체가 존재하지 않는 경우, 상기 제2 객체에 대응하는 입력 요청을 상기 외부 전자 장치로 전송하고,
    상기 입력 요청에 대한 사용자 반응에 기초하여, 상기 이미지의 이미지 영역들 중 하나를 선택하고,
    상기 제2 객체를 상기 선택된 이미지 영역에 대응하는 객체로 결정하고,
    상기 선택된 이미지 영역에 대응하는 객체의 신뢰도를 결정하도록 설정된 전자 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제1 항에 있어서, 상기 프로세서는,
    상기 선택된 이미지 영역에 대응하는 객체가 상기 제1 객체들 중에 존재하는 경우, 상기 선택된 이미지 영역에 대응하는 객체의 신뢰도를 상향 조정하도록 설정된 전자 장치.
  7. 제1 항에 있어서, 상기 프로세서는,
    상기 이미지가 이미지 인식 방식에 적어도 기반하여 보정된 보정 이미지를 표시하고,
    상기 표시된 상기 보정 이미지와 관련하여 제2 사용자 입력을 획득하고, 및
    상기 제2 사용자 입력에 기초하여, 상기 제1 객체들 중 적어도 하나의 객체의 신뢰도를 조정하도록 설정된 전자 장치.
  8. 제1 항에 있어서, 상기 프로세서는,
    상기 제1 사용자 입력이 사용자의 발화를 포함하는 경우, 상기 발화를 텍스트로 변환하고, 및 상기 텍스트로부터 상기 하나 이상의 단어들을 인식하도록 설정된, 전자 장치.
  9. 제1 항에 있어서, 상기 프로세서와 기능적으로 연결된 카메라를 더 포함하고,
    상기 프로세서는,
    상기 카메라를 이용하여 제1 이미지를 획득하고,
    상기 제1 이미지를 이용하여 상기 제1 이미지의 데이터의 크기 보다 작은 크기를 갖는 제2 이미지를 생성하고,
    상기 외부 전자 장치가 상기 제2 이미지로부터 상기 제1 객체들 및 상기 제1 객체들의 신뢰도를 인식하도록, 상기 통신 모듈을 통해 상기 제2 이미지를 상기 외부 전자 장치로 전송하도록 설정된,
    전자 장치.
  10. 제1 항에 있어서, 상기 프로세서와 기능적으로 연결된 마이크를 더 포함하고,
    상기 프로세서는,
    상기 마이크로부터 제1 사용자 입력을 획득하고,
    상기 외부 전자 장치가 상기 제1 사용자 입력으로부터 상기 제2 객체를 인식하도록, 상기 통신 모듈을 통해 상기 제1 사용자 입력을 상기 외부 전자 장치로 전송하도록 설정된,
    전자 장치.
  11. 제1 항에 있어서, 상기 프로세서는 이미지 인식 방식에 기반하여 객체 인식될 때 사용되는 이미지 저장소에 상기 이미지와 함께 상기 하향 조정 또는 상기 상향 조정된 신뢰도를 저장하도록 설정된,
    전자 장치.
  12. 제1 항에 있어서, 상기 프로세서와 기능적으로 연결된 카메라를 더 포함하고
    상기 프로세서는,
    상기 카메라를 이용하여 이미지를 획득하고,
    상기 획득된 이미지를 이용하여 상기 제1 객체들 및 상기 제1 객체들의 신뢰도를 인식하도록 설정된,
    전자 장치.
  13. 삭제
  14. 삭제
  15. 전자 장치를 동작시키는 방법에 있어서,
    하나 이상의 객체들을 포함하는 이미지를 확인하는 동작;
    상기 이미지를 하나 이상의 이미지 영역들로 구분하는 동작;
    상기 하나 이상의 이미지 영역들 각각에서 제1 객체들을 인식하는 동작;
    상기 제1 객체들 각각에 대해 신뢰도를 할당하는 동작;
    상기 제1 객체들에 할당된 신뢰도를 상기 이미지와 함께 저장하는 동작;
    상기 전자 장치의 통신 모듈을 통해 외부 전자 장치로부터 하나 이상의 단어들을 갖는 정보를 포함하는 제1 사용자 입력을 수신하는 동작;
    NLU(natural language understanding)를 수행하여, 상기 제1 사용자 입력에 포함된 상기 하나 이상의 단어들의 적어도 일부에 대응하는 제2 객체를 인식하는 동작;
    상기 제1 객체들 중에서, 제1 우선순위에 대응하는 제1 객체 세트 및 상기 제1 우선순위보다 낮은 제2 우선순위에 대응하는 제2 객체 세트를 결정하는 동작;
    상기 제1 객체들 중에서 상기 제2 객체에 대응하는 객체가 존재하는지 여부를 결정하는 동작;
    상기 제2 객체에 대응하는 객체가 상기 제1 객체 세트에 존재하는 경우, 상기 제2 객체에 대응하는 객체의 신뢰도를 상향 조정하는 동작;
    상기 제2 객체에 대응하는 객체가 상기 제1 객체 세트에 존재하지 않고 상기 제2 객체 세트에 존재하는 경우, 상기 제2 객체에 대응하는 객체의 신뢰도를 상향 조정하고 상기 제1 객체 세트에 포함된 적어도 하나의 객체의 신뢰도를 하향 조정하는 동작;
    상기 제1 객체들 중에서 상기 제2 객체에 대응하는 객체가 존재하지 않는 경우, 상기 제2 객체에 대응하는 입력 요청을 상기 외부 전자 장치로 전송하는 동작;
    상기 입력 요청에 대한 사용자 반응에 기초하여, 상기 이미지의 이미지 영역들 중 하나를 선택하는 동작;
    상기 제2 객체를 상기 선택된 이미지 영역에 대응하는 객체로 결정하는 동작; 및
    상기 선택된 이미지 영역에 대응하는 객체의 신뢰도를 결정하는 동작을 포함하는 방법.
KR1020170146639A 2017-11-06 2017-11-06 신뢰도에 기반하여 객체를 인식하는 전자 장치 및 방법 KR102499203B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020170146639A KR102499203B1 (ko) 2017-11-06 2017-11-06 신뢰도에 기반하여 객체를 인식하는 전자 장치 및 방법
US16/156,334 US10977819B2 (en) 2017-11-06 2018-10-10 Electronic device and method for reliability-based object recognition
EP18874247.2A EP3673409A4 (en) 2017-11-06 2018-10-16 ELECTRONIC DEVICE AND PROCESS FOR RECOGNIZING OBJECTS BASED ON RELIABILITY
PCT/KR2018/012187 WO2019088511A1 (en) 2017-11-06 2018-10-16 Electronic device and method for reliability-based object recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170146639A KR102499203B1 (ko) 2017-11-06 2017-11-06 신뢰도에 기반하여 객체를 인식하는 전자 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190051230A KR20190051230A (ko) 2019-05-15
KR102499203B1 true KR102499203B1 (ko) 2023-02-13

Family

ID=66328727

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170146639A KR102499203B1 (ko) 2017-11-06 2017-11-06 신뢰도에 기반하여 객체를 인식하는 전자 장치 및 방법

Country Status (4)

Country Link
US (1) US10977819B2 (ko)
EP (1) EP3673409A4 (ko)
KR (1) KR102499203B1 (ko)
WO (1) WO2019088511A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198626B2 (en) * 2016-10-19 2019-02-05 Snap Inc. Neural networks for facial modeling
CN111339459A (zh) * 2018-12-18 2020-06-26 北京京东尚科信息技术有限公司 一种信息处理方法、服务器、终端及计算机存储介质
US11048931B2 (en) * 2019-02-19 2021-06-29 Lenovo (Singapore) Pte. Ltd. Recognition based handwriting input conversion
US11373390B2 (en) * 2019-06-21 2022-06-28 Adobe Inc. Generating scene graphs from digital images using external knowledge and image reconstruction
CN111144322A (zh) * 2019-12-28 2020-05-12 广东拓斯达科技股份有限公司 一种分拣方法、装置、设备和存储介质
KR102505074B1 (ko) 2021-10-12 2023-03-02 주식회사 테스트웍스 계층형 출력을 이용한 영상 데이터 가공장치 및 방법
KR102541600B1 (ko) * 2022-05-03 2023-06-13 주식회사 페르미 실물 객체 인식 기반 상담 서비스 제공 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120301032A1 (en) * 2010-11-29 2012-11-29 Ryouichi Kawanishi Image classification apparatus, image classification method, program, recording medium, integrated circuit, and model creation apparatus
US20150235110A1 (en) * 2014-02-14 2015-08-20 Social Sweepster, LLC. Object recognition or detection based on verification tests

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4032433A (en) 1976-04-30 1977-06-28 Uop Inc. Hydrorefining asphaltenic petroleum charge stocks
US6970185B2 (en) * 2001-01-31 2005-11-29 International Business Machines Corporation Method and apparatus for enhancing digital images with textual explanations
KR20050071237A (ko) 2003-12-31 2005-07-07 엘지전자 주식회사 음성 인식 기술을 이용한 이미지 검색 장치 및 방법
KR100815291B1 (ko) 2007-07-31 2008-03-25 (주)올라웍스 사용자의 피드백을 이용하여, 얼굴 인식기 또는 얼굴검출기의 파라미터를 최적화하는 방법 및 시스템
WO2009061759A1 (en) 2007-11-09 2009-05-14 3M Innovative Properties Company Porous polymeric resins
US20090265165A1 (en) * 2008-04-21 2009-10-22 Sony Ericsson Mobile Communications Ab Automatic meta-data tagging pictures and video records
JP5195291B2 (ja) * 2008-10-30 2013-05-08 トヨタ自動車株式会社 対応付けデータベース構築方法、物体情報認識方法、物体情報認識システム
JP5264457B2 (ja) 2008-12-12 2013-08-14 セコム株式会社 物体検出装置
JP5429564B2 (ja) * 2010-03-25 2014-02-26 ソニー株式会社 画像処理装置および方法、並びにプログラム
KR20150098707A (ko) 2014-02-20 2015-08-31 삼성디스플레이 주식회사 백라이트 어셈블리 및 이를 포함하는 표시 장치
US9569697B1 (en) * 2015-02-19 2017-02-14 Google Inc. Object oriented image editing
KR101719278B1 (ko) 2015-04-14 2017-04-04 (주)한국플랫폼서비스기술 비주얼 콘텐츠기반 영상 인식을 위한 딥러닝 프레임워크 및 영상 인식 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120301032A1 (en) * 2010-11-29 2012-11-29 Ryouichi Kawanishi Image classification apparatus, image classification method, program, recording medium, integrated circuit, and model creation apparatus
US20150235110A1 (en) * 2014-02-14 2015-08-20 Social Sweepster, LLC. Object recognition or detection based on verification tests

Also Published As

Publication number Publication date
KR20190051230A (ko) 2019-05-15
US10977819B2 (en) 2021-04-13
EP3673409A1 (en) 2020-07-01
EP3673409A4 (en) 2020-11-18
WO2019088511A1 (en) 2019-05-09
US20190139256A1 (en) 2019-05-09

Similar Documents

Publication Publication Date Title
KR102499203B1 (ko) 신뢰도에 기반하여 객체를 인식하는 전자 장치 및 방법
KR102495753B1 (ko) 카메라를 이용하여 획득한 원시 이미지를 외부 전자 장치를 이용하여 처리하는 방법 및 전자 장치
CN110581948A (zh) 提供质量定制图像的电子装置及其控制方法、服务器
KR102383129B1 (ko) 이미지에 포함된 오브젝트의 카테고리 및 인식률에 기반하여 이미지를 보정하는 방법 및 이를 구현한 전자 장치
US11941368B2 (en) Method for providing text translation managing data related to application, and electronic device thereof
KR102383134B1 (ko) 우선 순위에 기반하여 이미지를 처리하는 전자 장치 및 그 동작 방법
KR102397924B1 (ko) 이미지 보정 방식 및 이미지의 특징 정보에 기반하여 이미지를 보정하는 전자 장치 및 방법
US20200202603A1 (en) Electronic device and method for providing avatar based on emotion state of user
US11107198B2 (en) Method and apparatus for incorporating noise pattern into image on which bokeh processing has been performed
US11144197B2 (en) Electronic device performing function according to gesture input and operation method thereof
US11425300B2 (en) Electronic device and method for processing image by electronic device
US10970587B2 (en) Electronic device for notifying of update of image signal processing and method for operating the same
US11330227B2 (en) Electronic device for compressing image acquired by using camera, and operation method therefor
KR102482860B1 (ko) 상황 정보 기반 이미지 처리 방법 및 이를 사용하는 전자 장치
CN115516494A (zh) 用于生成图像的方法及其电子装置
KR102457568B1 (ko) 입력된 정보와 관련된 이미지를 제공하기 위한 전자 장치 및 그의 동작 방법
KR102553150B1 (ko) 외부 전자 장치와 이미지를 처리하는 전자 장치 및 그 동작 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant