KR20180055707A - 이미지 관리 방법 및 그 장치 - Google Patents

이미지 관리 방법 및 그 장치 Download PDF

Info

Publication number
KR20180055707A
KR20180055707A KR1020170148051A KR20170148051A KR20180055707A KR 20180055707 A KR20180055707 A KR 20180055707A KR 1020170148051 A KR1020170148051 A KR 1020170148051A KR 20170148051 A KR20170148051 A KR 20170148051A KR 20180055707 A KR20180055707 A KR 20180055707A
Authority
KR
South Korea
Prior art keywords
image
user
roi
images
category
Prior art date
Application number
KR1020170148051A
Other languages
English (en)
Inventor
지쑤엔 리
리 주오
지젠 쉬
웨이 쩡
질리 구
진빈 린
준준 시옹
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US15/814,972 priority Critical patent/US20180137119A1/en
Priority to PCT/KR2017/013047 priority patent/WO2018093182A1/en
Priority to EP17871827.6A priority patent/EP3491504A4/en
Publication of KR20180055707A publication Critical patent/KR20180055707A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F17/30247
    • G06F17/3079
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06K9/3233
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • H04L67/322
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/61Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources taking into account QoS or priority requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/04Protocols for data compression, e.g. ROHC

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 실시예들은 이미지 관리 방법 및 그 장치를 제공한다. 상기 방법은 이미지 상에서 사용자의 동작을 감지하고, 상기 동작 및 이미지 내의 관심 영역에 따라 이미지 관리를 수행하는 단계를 포함한다. 본 발명의 실시예에 의해 제공되는 해결책은 사용자의 관심 영역에 따라 이미지 관리를 수행하므로 사용자의 요구를 만족시키고 이미지 관리의 효율성을 향상시킬 수 있다.

Description

이미지 관리 방법 및 그 장치{IMAGE MANAGEMENT METHOD AND APPARATUS THEREOF}
본 발명은 이미지 처리 기술에 관한 것이며, 보다 구체적으로는 이미지 관리 방법 및 그 장치에 관한 것이다.
지능형 장치 하드웨어 생산 능력이 향상되고 비용이 절감됨에 따라 카메라 성능 및 저장 능력이 크게 향상되었다. 따라서, 지능형 장치는 다량의 이미지를 저장할 수 있다. 사용자는 이미지 탐색과 검색, 공유 및 관리에 대한 요구 사항이 점점 더 많아질 수 있다.
종래의 기술에서는, 이미지가 주로 시간 차원에 따라 탐색된다. 탐색 인터페이스에서, 사용자가 이미지를 전환하면, 모든 이미지가 시간 순서에 따라 사용자에게 표시된다. 그러나, 시간 차원을 기준으로 이미지를 탐색하면 사용자 관심사항이 무시된다.
본 발명의 실시예들은 이미지 관리 방법 및 그 장치를 제공한다.
본 발명의 기술적 해결책은 다음을 포함한다.
본 발명의 실시 예에 따른 이미지 관리 방법은, 이미지에 대한 사용자의 동작을 감지하는 단계; 및 상기 동작 및 이미지의 ROI에 따라 이미지 관리를 수행하는 단계를 포함한다.
또한 본 발명의 실시 예에 따른 이미지 관리 장치는, 이미지 상에서 사용자의 동작을 감지하는 동작 감지 모듈; 및 이미지 내의 동작 및 ROI에 따라 이미지 관리를 수행하는 관리 모듈을 포함한다.
본 발명의 실시예들에 따르면, 이미지에 대한 사용자의 동작이 먼저 감지된 후, 그 동작 및 이미지의 ROI에 따라 이미지 관리가 수행된다. 따라서, 본 발명의 실시예들은 사용자의 관심에 따라 이미지 관리를 수행하므로 사용자의 요구를 만족시키고 이미지 관리의 효율성을 향상시킬 수 있다.
도 1은 본 발명의 실시예들에 따른 이미지 관리 방법을 도시한 흐름도이다.
도 2a는 본 발명의 실시예들에 따른 이미지 속성 리스트를 획득하기 위한 흐름도이다.
도 2b는 본 발명의 실시예들에 따른 이미지의 영역 리스트를 도시한 개략도이다.
도 3은 본 발명의 실시예들에 따른 수동 포커싱에 따라 ROI를 결정하는 과정을 도시한 개략도이다.
도 4는 본 발명의 실시예들에 따른 시선 히트맵 및/또는 돌출맵에 기초하여 ROI를 결정하는 과정을 도시한 개략도이다.
도 5a 내지 도 5d는 본 발명의 실시예들에 따른 돌출맵에 기초하는 ROI의 결정을 보여준다.
도 6a는 본 발명의 실시예들에 따른 카테고리 라벨을 갖는 객체 감지를 도시한 개략도이다.
도 6b는 본 발명의 실시예들에 따른 객체 분류자에 기초하는 카테고리 라벨의 생성을 도시하는 개략도이다.
도 6c는 본 발명의 실시예들에 따른 히트맵 감지 및 이미지 분류의 결합을 도시한 개략도이다.
도 7은 본 발명의 실시예들에 따른 이미지 탐색 동안의 빠른 탐색을 도시한 흐름도이다.
도 8은 본 발명의 실시예들에 따른 개인화된 트리 계층의 구현을 도시한 흐름도이다.
도 9는 본 발명의 실시예들에 따른 개인화된 카테고리에 기초한 분류의 구현을 도시한 흐름도이다.
도 10은 본 발명의 실시예들에 따른 상이한 전송 모드의 선택을 도시한 흐름도이다.
도 11은 본 발명의 실시예들에 따른 사용자에 의한 능동적 이미지 공유에 대한 흐름도이다.
도 12a 내지 도 12b는 본 발명의 실시예들에 따른 사용자가 소셜 애플리케이션을 사용할 경우의 이미지 공유에 대한 흐름도이다.
도 13a 내지 도 13g는 본 발명의 실시예들에 따른 이미지 뷰 인터페이스에서의 빠른 탐색을 나타낸 것이다.
도 14a 내지 도 14c는 본 발명의 실시예들에 따른 다수의 이미지에 기초한 빠른 보기를 나타낸 것이다.
도 15a 내지 도 15c는 본 발명의 실시예들에 따른 빠른 비디오 보기를 나타낸 것이다.
도 16은 본 발명의 실시예들에 따른 카메라 프리뷰 모드의 빠른 보기에 대한 개략도이다.
도 17은 본 발명의 실시예들에 따른 개인화된 트리 계층의 제 1 구조에 대한 개략도이다.
도 18은 본 발명의 실시예들에 따른 트리 계층의 제 2 구조에 대한 개략도이다.
도 19는 본 발명의 실시예들에 따른 모바일 장치에 의한 트리 계층의 빠른 보기를 도시한 개략도이다.
도 20은 본 발명의 실시예들에 따른 소형 화면 장치에 의한 트리 계층의 빠른 보기를 도시한 흐름도이다.
도 21a 내지 도 21b는 본 발명의 실시예들에 따른 소형 화면 장치에서의 트리 계층의 빠른 보기를 도시한 개략도이다.
도 22는 본 발명의 실시예들에 따른 소형 화면 장치에 의한 이미지의 표시를 나타낸 것이다.
도 23은 본 발명의 실시예들에 따른 상이한 전송량 하에서의 전송 모드를 나타낸 것이다.
도 24는 본 발명의 실시예들에 따른 상이한 네트워크 전송 상황 하에서의 전송 모드를 나타낸 것이다.
도 25는 본 발명의 실시예들에 따른 썸네일 보기 모드에서의 이미지 공유를 도시한 제 1 개략도이다.
도 26a 내지 도 26c는 본 발명의 실시예들에 따른 썸네일 보기 모드에서의 이미지 공유를 도시한 제 2 개략도이다.
도 27은 본 발명의 실시예들에 따른 채팅 인터페이스에서의 제 1 공유 방법을 나타낸 것이다.
도 28은 본 발명의 실시예들에 따른 채팅 인터페이스에서의 제 2 공유 방법을 나타낸 것이다.
도 29는 본 발명의 실시예들에 따른 이미지에서 텍스트로의 이미지 선택 방법을 도시한 개략도이다.
도 30은 본 발명의 실시예들에 따른 텍스트에서 이미지로의 이미지 선택 방법을 도시한 개략도이다.
도 31은 본 발명의 실시예들에 따른 이미지 내용에 기초한 이미지 변환을 도시한 개략도이다.
도 32는 본 발명의 실시예들에 따른 이미지 내용에 기초한 지능적 삭제를 도시한 개략도이다.
도 33은 본 발명의 실시예들에 따른 이미지 관리 장치의 구조를 도시한 개략도이다.
도 34는 본 발명의 실시예들에 따른 이미지 관리 장치에 포함된 처리부의 구성 예를 도시한 개략도이다.
이하, 첨부된 도면 및 실시예를 참조하여 본 발명의 기술적인 해결책 및 장점을 보다 상세히 설명한다.
본 발명의 다양한 실시예들은 주로 사용자의 관심 영역, 즉 빠른 탐색, 검색, 적응형 전송, 개인화된 파일 구성, 신속한 공유 및 삭제 등에 기초하여, 이미지 관리를 수행하는 것을 포함하는, 내용 기반의 이미지 관리 방법을 제공한다.
본 발명에 의해 제공되는 실시예들은 지능형 장치의 앨범 관리 애플리케이션에 적용될 수 있거나, 클라우드 엔드에서의 앨범 관리 애플리케이션 등에 적용될 수 있다.
도 1은 본 발명의 실시예들에 따른 이미지 관리 방법을 도시한 흐름도이다.
도 1에 도시된 바와 같이, 본 방법은 다음의 단계를 포함한다.
단계 101에서는, 이미지에 대한 사용자의 동작이 감지된다.
단계 102에서는, 상기 동작 및 이미지 내의 사용자 관심 영역(ROI)에 따라 이미지 관리가 수행된다.
사용자 ROI는 이미지 내의 특정 의미를 갖는 영역일 수 있다.
실시예들에서, 사용자 ROI는 다음의 방법들 중 적어도 하나를 통해 단계 102에서 결정될 수 있다.
방법 (1)에서는, 사진 촬영 중 수동 초점이 감지되고, 수동 초점에 대응하는 이미지 영역이 사용자 ROI로 결정된다.
사진 촬영 과정에서, 수동 초점에 대응하는 영역은 사용자가 관심있는 영역일 확률이 높다. 따라서, 수동 초점에 대응하는 이미지 영역을 사용자 ROI로 결정할 수 있다.
방법 (2)에서는, 사진 촬영 중 자동 초점이 감지되고, 자동 초점에 대응하는 이미지 영역이 사용자 ROI로 결정된다.
사진 촬영 과정에서, 카메라가 자동으로 포커스를 맞추는 영역이 사용자 ROI 일 수도 있다. 따라서, 자동 초점에 대응하는 이미지 영역을 사용자 ROI로 결정할 수 있다.
방법 (3)에서는, 이미지 내의 객체 영역이 감지되고, 이 객체 영역이 사용자 ROI로 결정된다.
여기에서, 객체 영역은 인물, 동물, 식물, 운송 수단, 유명한 풍경, 건물 등이 될 수 있다. 이미지의 다른 픽셀 영역에 비하여, 객체 영역은 사용자 ROI일 확률이 높다. 따라서, 객체 영역은 사용자 ROI로 결정될 수 있다.
방법 (4)에서는, 이미지 내의 시선 히트맵(gaze heat map)에서의 핫 영역(hot region)이 감지되고, 이 시선 히트맵에서의 핫 영역이 사용자 ROI로 결정된다.
여기에서, 시선 히트맵에서의 핫 영역은 사용자가 이미지를 볼 때 자주 쳐다 보는 영역을 말한다. 시선 히트맵에서의 핫 영역은 사용자 ROI일 수 있다. 따라서, 시선 히트맵에서의 핫 영역은 사용자 ROI로 결정될 수 있다.
방법 (5)에서는, 이미지 내의 돌출맵(saliency map)에서의 핫 영역이 감지되고, 이 돌출맵에서의 핫 영역이 사용자 ROI로 결정된다.
여기에서, 돌출맵에서의 핫 영역은 다른 영역과 시각적으로 큰 차이가 있는 영역을 말하며, 뷰어는 그 영역에 관심을 갖는 경향이 있다. 돌출맵에서의 핫 영역은 사용자 ROI로 결정될 수 있다.
실시예들에서는, ROI들의 세트가 수동 포커싱, 자동 포커싱, 시선 히트맵, 객체 감지, 돌출맵 감지 등과 같은 방법에 따라 결정될 수 있다. 그 다음, 소정의 정렬 인자에 따라, 세트 내의 ROI들이 정렬된다. 정렬된 결과에 따라 하나 이상의 ROI가 최종적으로 결정된다. 실시예들에서, 소정의 정렬 인자는 소스 우선 순위, 위치 우선 순위, 카테고리 라벨 우선 순위, 분류 신뢰도 우선 순위, 뷰 빈도 우선 순위 등을 포함할 수 있다.
실시예들에서, 이미지가 사용자에게 나중에 표시될 경우, 이미지 내의 ROI의 정렬된 결과는 대응하는 이미지의 우선 순위에 영향을 줄 수 있다. 예를 들어, 상단에 랭크되는 ROI를 포함하는 이미지는 상대적으로 더 높은 우선 순위를 가질 수 있으며, 따라서 사용자에게 바람직하게 보여질 수 있다.
상기한 내용은 이미지에서 사용자 ROI를 결정하기 위한 예시적인 방법을 설명한 것이다. 당업자는 이들 실시예가 단지 일부 예일 뿐이며 본 발명의 보호 범위를 제한하기 위해 사용되지 않음을 알아야 한다.
실시예들에서, 본 방법은 사용자 ROI에 대한 카테고리 라벨을 생성하는 단계를 더 포함할 수 있다. 카테고리 라벨은 사용자 ROI가 속한 카테고리를 나타내는데 사용된다. 실시예들에서는, 이미지 내의 객체 감지 동안 객체 영역 감지 결과에 기초하여 카테고리 라벨을 생성하는 것이 가능하다. 대안적으로는, 사용자 ROI를 객체 분류자에 입력하고 객체 분류자의 출력 결과에 따라 카테고리 라벨을 생성하는 것이 가능하다.
본 발명의 실시예들에서, 사용자 ROI를 결정한 후에, 본 방법은 다음을 더 포함할 수 있다:
이미지에 대한 영역 리스트를 생성하는 것, 이 영역 리스트는 사용자 ROI에 대응하는 영역 필드를 포함하며, 이 영역 필드는 사용자 ROI의 카테고리 라벨을 포함한다. 이미지에 하나 이상의 ROI가 존재할 수도 있다. 따라서, 영역 리스트에 하나 이상의 영역 필드가 존재할 수 있다. 실시예들에서, 영역 필드는 소스(source)(예를 들면, ROI가 어느 이미지로부터 왔는지); 위치(예를 들면, 이미지 내의 ROI 좌표 위치); 분류 신뢰도; 탐색 빈도 등을 더 포함할 수 있다.
상기한 내용은 영역 필드에 포함되는 세부 정보를 몇 가지 예를 통해 나타낸 것이다. 당업자는 상기 설명이 단지 일부 예를 도시한 것이며, 본 발명의 보호 범위를 제한하기 위해 사용되지 않음을 알아야 한다.
도 2a는 본 발명의 실시예들에 따른 이미지 속성 리스트를 획득하기 위한 과정을 도시한 흐름도이다.
이미지 속성 리스트를 생성할 경우, 전체 이미지의 속성 정보와 각 ROI의 속성 정보를 고려해야 한다. 전체 이미지의 속성 정보는 전체 이미지의 분류 결과, 예를 들어, 장면 유형을 포함할 수 있다. 도 2a에 도시된 바와 같이, 이미지가 입력되면(201), 전체 이미지가 분류되어 분류 결과가 획득된다(203). 또한, 이미지의 ROI를 검출할 필요가 있다(205). 이 단계는 주로 이미지에서 ROI를 검색하는데 사용된다. 전체 이미지 분류(203) 및 ROI 검색(205)의 두 단계를 통해, 이미지 속성 리스트를 만들 수 있다(207). 이미지 속성 리스트는 전체 이미지의 분류 결과와 ROI 리스트(이하 '영역 리스트')을 포함한다.
도 2b는 본 발명의 실시예들에 따른 이미지의 영역 리스트를 도시한 개략도이다.
도 2b에 도시된 바와 같이, 이미지는 2개의 ROI, 즉 인물 영역 및 애완 동물 영역을 포함한다. 이에 대응하여, 이미지의 영역 리스트는 2개의 ROI에 각각 대응하는 2개의 영역 필드를 포함한다. 각 영역 필드는 ROI에 대한 다음 정보를 포함한다: 이미지 소스, 이미지의 ROI 위치, ROI 카테고리(그 영역이 인물을 포함하는 경우, 해당 인물의 ID를 포함해야 함), 카테고리에 속하는 ROI를 얼마나 신뢰할 수 있는지 나타내는 신뢰도, 및 탐색 빈도 등.
이하, 수동 포커싱 방법에 기초하여 사용자 ROI를 결정하는 절차에 대해 설명한다.
도 3은 본 발명의 실시예들에 따른 수동 포커싱에 의한 사용자의 ROI 결정을 도시한 개략도이다.
도 3에 도시된 바와 같이, 장치가 사진 모드 또는 비디오 모드에 있으면(301), 장치는 사용자가 수동 포커스 동작을 하는지 여부를 감지한다(303). 사용자의 수동 포커싱 동작을 감지하면, 장치는 수동 초점을 기록하고, 이미지로부터 수동 초점에 대응하는 소정의 영역을 잘라내어, 그 소정의 영역을 사용자 ROI로 결정한다(305, 307).
소정의 영역은 다음과 같은 방식을 통해 이미지에서 잘라낼 수 있다:
(1) 미리 정의된 파라미터에 따른 자르기(cropping). 이 파라미터는 길이-폭 비율, 이미지의 총 면적에 대한 면적의 비율, 고정된 측면 길이 등을 포함할 수 있다.
(2) 이미지 시각 정보에 따른 자동 자르기. 예를 들어, 이미지는 색상에 따라 분할될 수 있고, 초점의 색상과 유사한 색상을 갖는 세그먼트화된 영역이 잘릴 수 있다.
(3) 이미지에서 객체 감지를 수행하고, 수동 초점이 속하는 객체 영역을 결정하고, 그 객체 영역을 ROI로 결정하여 객체 영역 자르기를 수행한다.
이하, 시선 히트맵 또는 돌출맵에 기초하여 사용자 ROI를 결정하는 절차에 대해 설명한다.
도 4는 본 발명의 실시예들에 따른 시선 히트맵 및/또는 돌출맵에 기초하는 사용자 ROI 결정을 도시한 개략도이다.
도 4에 도시된 바와 같이, 이미지가 입력되고(401), 시선 히트맵 및/또는 돌출맵이 차례로 생성된다(403). 그 다음, 시선 히트맵 및/또는 돌출맵에서 소정의 임계값보다 높은 값을 갖는 지점이 있는지 여부가 판단된다(405). 존재하는 경우, 그 지점을 지점 세트의 시작점으로 설정하고, 이 지점에 인접하고 소정의 임계값보다 높은 에너지를 갖는 히트 지점을, 이 지점 주변의 소정의 임계값보다 높은 에너지를 갖는 지점이 없을 때까지 그 지점 세트에 추가하고(407), ROI를 검색한다(409). 히트 지점의 에너지 값은 0으로 설정된다(409). 상기 절차는 시선 히트맵 및/또는 돌출맵에서 소정의 임계값보다 높은 값을 갖는 지점이 없을 때까지 반복된다. 각 지점 세트는 사용자 ROI를 형성한다.
도 5a 내지 도 5d는 본 발명의 실시예들에 따른 돌출맵에 기초하는 사용자 ROI 결정을 나타낸 것이다.
도 5a는 입력 이미지를 나타낸다. 도 5b는 입력 이미지에 대응하는 돌출맵을 나타낸다. 도 5b에서, 각 지점이 더 밝을수록 더 높은 에너지를 나타내며, 그 지점이 어두울수록 더 낮은 에너지를 나타낸다. 사용자 ROI를 결정할 때, 우선 도 5b의 A 지점(510)이 시작점으로 선택된다. 이 지점부터, 이 지점 주변의 밝은 지점이 A 지점(510)을 시작점으로 하여 지점 세트에 추가된다. 이들 지점의 에너지는 도 5c에 도시된 바와 같이 0으로 설정된다. 유사하게, 상기 절차는 도 5b의 B 지점(530)부터 시작하여 ROI를 검색하기 위해 실행된다. 최종적으로 결정된 사용자 ROI는 도 5d에 도시된 바와 같다.
이하에서는, 사용자 ROI에 대한 카테고리 라벨을 생성하는 절차에 대해 설명한다.
도 6a는 본 발명의 실시예들에 따른 객체 감지에 기초하는 카테고리 라벨의 생성을 도시한 개략도이다.
도 6a에는, 객체 감지에 기초하여 객체의 카테고리 라벨을 포함하는 영역 리스트를 생성하는 흐름이 도시되어 있다.
도 6a에 도시된 바와 같이, 먼저 이미지가 입력된다(601). 그 다음, 이 입력 이미지에 대한 객체 감지가 수행된다(603). 감지된 객체는 사용자 ROI로 간주되고, 객체 감지의 카테고리 결과에 따라 사용자 ROI에 대한 카테고리 라벨이 생성된다(607).
도 6b는 본 발명의 실시예들에 따른 객체 분류자에 기초한 카테고리 라벨의 생성을 도시한 개략도이다.
도 6b에서, 사용자 ROI는 객체 분류자에 입력된다(611). 객체 분류자가 사용자 ROI의 카테고리를 인식(613)할 경우, 그 카테고리에 기초하여 사용자 ROI에 대한 카테고리 라벨이 생성되고(615), 카테고리 라벨을 포함하는 영역 리스트가 생성된다. 객체 분류자가 사용자 ROI 의 카테고리를 인식할 수 없는 경우, 카테고리 라벨이 없는 영역 리스트가 생성된다(617).
실시예들에서는, 히트맵 감지(시선 히트맵 및/또는 돌출맵 포함) 및 이미지 분류가 결합될 수도 있다. 도 6c는 본 발명의 실시예들에 따른 히트맵 검출 및 이미지 분류의 결합을 도시한 개략도이다.
도 6a 내지 도 6c에 도시된 바와 같이, 이미지가 입력되면, 전체 이미지 분류에 사용되는 컨벌루션 뉴럴 네트워크(convolutional neural network) 객체 분류 브랜치와 돌출 감지(saliency detection)에 사용되는 컨벌루션 뉴럴 네트워크 감지 브랜치로 이미지를 처리하여, 전체 이미지의 분류 결과 및 돌출 영역 감지 결과를 동시에 획득한다. 그 다음, 감지된 돌출 영역은 객체 분류를 위한 컨벌루션 뉴럴 검증 네트워크에 입력된다. 마지막으로 분류 결과를 결합하여 이미지의 최종 분류 결과를 획득하고, 분류된 ROI를 획득한다.
분류된 ROI가 획득된 후, ROI는 예를 들어 ROI의 소스, ROI가 특정 카테고리에 속하는 신뢰도, ROI의 탐색 빈도 등에 따라 정렬될 수 있다. 예를 들어, ROI들은 수동 포커싱, 시선 히트맵, 객체 감지 및 돌출맵 검색의 내림차순으로 정렬될 수 있다. 마지막으로, 정렬된 결과에 기초하여, 하나 이상의 사용자 ROI가 선택될 수 있다.
전술한 바와 같이 이미지의 ROI를 결정한 후에는 이미지 탐색 및 검색, 이미지 구성 구조, 사용자 앨범 개인화된 카테고리 정의 및 정확한 분류, 이미지 전송, 빠른 공유, 이미지 선택 및 이미지 삭제와 같은 다양한 종류의 애플리케이션이 구현될 수 있다.
(1) 이미지 탐색 및 검색 측면
실제 애플리케이션에서, 사용자는 상이한 이미지에 대해 상이한 선호도 및 탐색 빈도를 가질 수 있다. 이미지에 사용자가 관심이 있는 객체가 포함되어 있는 경우, 이미지를 더 많이 탐색할 수 있다. 여러 이미지에 사용자가 관심이 있는 객체가 포함되어 있더라도 여러 가지 이유로 인해 이들의 탐색 빈도가 다를 수 있다. 따라서 후보 이미지가 표시될 때, 사용자의 퍼스낼리티(personality)를 고려해야 한다. 또한, 사용자의 경험을 향상시키기 위해 다중 이미지 다중 객체 및 다중 동작 해결책을 제공할 필요가 있다. 또한, 종래의 기술은 작은 화면(예를 들어, 시계)을 갖는 모바일 장치 상에 이미지를 표시하는 방법을 고려하지 않는다. 이미지가 단순히 축소되면 이미지의 세부 정보가 손실된다. 이 경우, 사용자가 보다 관심을 갖는 영역을 이미지로부터 취득하여 작은 화면 상에 표시할 필요가 있다. 또한, 앨범에 다수의 이미지가 있는 경우, 사용자는 ROI에 따라 이미지를 신속하게 탐색할 수 있다.
도 7은 본 발명의 실시예들에 따른 이미지 탐색 동안의 빠른 검색을 도시한 흐름도이다.
도 7에 도시된 바와 같이, 장치는 먼저 사용자가 앨범 내의 이미지를 탐색하고 있음을 감지한다(701). 장치는 ROI 리스트에 따라 ROI의 지점을 획득하고 ROI와 상호 작용하도록 사용자에게 메시지를 보낸다(703). ROI에 대한 사용자의 동작을 감지하면(705), 장치는 사용자의 동작에 따라 이미지 검색 규칙을 생성하고(707), 앨범 내의 검색 규칙에 맞는 이미지를 검색하여(709) 사용자에게 표시한다(711). 실시예들에서, 단계 101의 동작은 적어도 2개의 ROI를 선택하는 선택 동작을 포함하고, 여기서 적어도 2개의 ROI는 동일한 이미지 또는 상이한 이미지에 속하며; 단계 102에서 이미지 관리를 수행하는 단계는 다음을 포함한다:
적어도 2개의 이미지를 선택하는 선택 동작에 기초하여, 대응하는 이미지들 및/또는 비디오 프레임들을 제공한다.
예를 들어, 검색된 이미지는 적어도 2개의 ROI와 동일한 카테고리에 속한 ROI를 포함하거나, 적어도 2개의 ROI 중 하나와 동일한 카테고리에 속한 ROI를 포함하거나, 적어도 2개의 ROI와 동일한 카테고리에 속한 ROI를 포함하지 않거나, 적어도 2개의 ROI 중 하나와 동일한 카테고리에 속한 ROI를 포함하지 않을 수도 있다.
특히, 검색 규칙은 다음 중 적어도 하나를 포함할 수 있다:
(A), 선택 동작이 제 1 유형의 선택 동작인 경우, 제공된 대응 이미지들 및/또는 비디오 프레임들은, 제 1 유형의 선택 동작이 수행되는 모든 ROI들에 대응하는 ROI를 포함한다. 예를 들어, 제 1 유형의 선택 동작은 검색 결과에 포함되어야 하는 요소를 결정하는데 사용된다.
예를 들어, 사용자가 비행기와 자동차를 모두 포함하는 이미지를 검색하기를 원한다면, 사용자는 하나는 비행기를 포함하고 다른 하나는 자동차를 포함하는 두 개의 이미지를 발견할 수 있다. 사용자는 비행기와 자동차를 검색 결과에 포함되어야 하는 요소로 결정하기 위하여, 두 이미지에서 비행기와 자동차를 각각 선택한다. 그 다음, 비행기와 차를 모두 포함하는 모든 이미지를 획득하기 위해 빠른 검색이 수행될 수 있다. 선택적으로, 사용자는 비행기와 자동차를 모두 포함하는 하나의 이미지로부터 검색 결과에 포함되어야 하는 요소를 선택할 수도 있다.
(B), 선택 동작이 제 2 유형의 선택 동작인 경우, 제공된 대응 이미지들 및/또는 비디오 프레임들은, 제 2 유형의 선택 동작이 수행되는 ROI들 중 적어도 하나에 대응하는 ROI를 포함한다. 예를 들어, 제 2 유형의 선택 동작은 요소가 검색 결과에 포함될 수 있는지를 판단하는데 사용된다.
예를 들어, 사용자가 비행기 또는 자동차를 포함하는 이미지를 찾고자 한다면, 사용자는 하나는 비행기를 포함하고 다른 하나는 자동차를 포함하는 두 개의 이미지를 발견할 수 있다. 사용자는 비행기와 자동차를 선택하여 비행기와 자동차를 검색 결과에 포함될 수 있는 요소로 구성한다. 그 다음, 비행기와 자동차를 모두 포함하는 모든 이미지를 획득하기 위해 빠른 검색이 수행될 수 있다. 선택적으로, 사용자는 비행기와 자동차를 모두 포함하는 하나의 이미지로부터 검색 결과에 포함될 수 있는 요소를 선택할 수도 있다.
(C), 선택 동작이 제 3 유형의 선택 동작인 경우, 제공된 대응 이미지들 및/또는 비디오 프레임들은, 제 3 유형의 선택 동작이 수행되는 ROI들에 대응하는 ROI를 포함하지 않는다. 예를 들어, 제 3 유형의 선택 동작은 검색 결과에 포함되지 않는 요소들을 결정하는데 사용된다.
예를 들어, 사용자가 비행기 또는 자동차를 포함하지 않는 이미지를 찾고자 한다면, 사용자는 하나는 비행기를 포함하고 다른 하나는 자동차를 포함하는 두 개의 이미지를 발견할 수 있다. 사용자는 비행기와 자동차를 검색 결과에 포함되지 않는 요소로 구성하기 위하여, 두 이미지에서 비행기와 자동차를 각각 선택한다. 그 다음, 비행기와 차를 모두 포함하지 않는 모든 이미지를 획득하기 위해 빠른 검색이 수행될 수 있다. 선택적으로, 사용자는 비행기와 자동차를 모두 포함하는 하나의 이미지로부터 검색 결과에 포함되지 않는 요소를 선택할 수도 있다.
실시예들에서, 단계 101의 동작은 ROI 선택 동작 및/또는 검색 내용 입력 동작을 포함하며, 여기서 검색 내용 입력 동작은 텍스트 입력 동작 및/또는 음성 입력 동작을 포함한다. 단계 102에서의 이미지 관리는 선택 동작 및/또는 검색 내용 입력 동작에 따라 대응하는 이미지들 및/또는 비디오 프레임들을 제공하는 것을 포함할 수 있다.
예를 들어, 검색된 이미지는, 선택된 ROI와 동일한 카테고리에 속하며 카테고리 정보가 검색 내용과 일치하는 ROI를 포함할 수 있고, 선택된 ROI와 동일한 카테고리에 속하거나 카테고리 정보가 검색 내용과 일치하는 ROI를 포함할 수 있거나, 선택된 ROI와 동일한 카테고리에 속하며 카테고리 정보가 검색 내용과 일치하는 ROI를 포함하지 않을 수 있거나, 선택된 ROI와 동일한 카테고리에 속하거나 카테고리 정보가 검색 내용과 일치하는 ROI를 포함하지 않을 수도 있다.
특히, 검색 규칙은 다음 중 적어도 하나를 포함한다:
(A), 검색 내용 입력 동작이 제 1 유형의 검색 내용 입력 동작인 경우, 제공된 이미지들 및/또는 비디오 프레임들은, 제 1 유형의 검색 내용 입력 동작이 수행되는 모든 ROI들에 대응하는 ROI를 포함한다. 예를 들어, 제 1 유형의 검색 내용 입력 동작은 검색 결과에 포함되어야 하는 요소를 결정하는데 사용된다.
예를 들어, 사용자가 비행기와 자동차를 모두 포함하는 이미지를 검색하고자 하는 경우, 사용자는 비행기와 자동차를 검색 결과에 포함되어야 하는 요소로 결정하기 위하여, 비행기를 포함하는 이미지를 찾고, 이미지에서 비행기를 선택하고, 텍스트 또는 음성을 통해 "자동차"를 입력한다. 그 다음, 비행기와 자동차를 모두 포함하는 이미지를 획득하기 위해 빠른 검색이 수행될 수 있다.
(B), 검색 내용 입력 동작이 제 2 유형의 검색 내용 입력 동작인 경우, 제공된 대응 이미지들 및/또는 비디오 프레임들은, 제 2 유형의 검색 내용 입력 동작이 수행되는 ROI들 중 적어도 하나에 대응하는 ROI를 포함한다. 예를 들어, 제 2 유형의 검색 내용 입력 동작은 요소가 검색 결과에 포함될 수 있는지를 판단하는데 사용된다.
예를 들어, 사용자가 비행기 또는 자동차를 포함하는 이미지를 찾고자 한다면, 사용자는 비행기를 포함하는 이미지를 찾을 수 있고, 사용자는 이미지로부터 비행기를 선택한다. 또한, 사용자는 텍스트 또는 음성을 통해 "자동차"를 입력한다. 따라서, 비행기와 자동차는 검색 결과에 포함될 수 있는 요소로 구성된다. 그 다음, 비행기 또는 자동차를 포함하는 모든 이미지를 획득하기 위해 빠른 검색이 수행될 수 있다.
(C), 검색 내용 입력 동작이 제 3 유형의 검색 내용 입력 동작인 경우, 제공된 대응 이미지들 및/또는 비디오 프레임들은, 제 3 유형의 검색 내용 입력 동작이 수행되는 ROI들에 대응하는 ROI를 포함하지 않는다. 예를 들어, 제 3 유형의 검색 내용 입력 동작은 검색 결과에 포함되지 않는 요소들을 선택하는데 사용된다.
예를 들어, 사용자는 비행기 또는 자동차를 모두 포함하지 않는 이미지를 검색하고자 한다. 사용자는 비행기가 포함된 이미지를 찾고 이미지에서 비행기를 선택할 수 있다. 또한, 사용자는 텍스트 또는 음성을 통해 "자동차"를 입력한다. 따라서, 비행기와 자동차는 검색 결과에 포함되지 않는 요소로 구성된다. 그 다음, 비행기와 자동차를 모두 포함하지 않는 모든 이미지를 획득하기 위해 빠른 검색이 수행될 수 있다.
실시예들에서, 단계 101에서 ROI로 수행된 선택 동작은 카메라 프리뷰 모드, 이미지 탐색 모드, 썸네일 탐색 모드 등의 적어도 하나의 모드에서 감지될 수 있다.
전술한 관점에서, 본 발명의 실시예는 사용자 ROI와 연관된 이미지 검색을 통해, 사용자가 이미지를 신속하게 탐색하고 검색하는 것을 용이하게 한다.
빠른 탐색을 위한 이미지 또는 검색된 이미지를 표시할 때, 이미지의 우선 순위가 먼저 결정될 수 있다. 이미지의 우선 순위에 따라, 이미지의 표시 순서가 결정된다. 따라서, 사용자는 먼저 사용자의 탐색 및 검색 의도에 가장 부합하는 이미지를 보게 되고, 이는 사용자의 탐색 및 검색 경험을 향상시킨다.
특히, 이미지 우선 순위의 결정은 다음에 따라 구현될 수 있다:
(A) 촬영 시간, 장소, 탐색 횟수, 공유 횟수 등과 같은 전체 이미지 레벨에서 수집된 관련 데이터, 그리고, 수집된 관련 데이터에 따라 이미지의 우선 순위가 결정된다.
실시예들에서, 전체 이미지 레벨에서 수집된 관련 데이터의 하나의 데이터 항목은 이미지의 우선 순위를 결정하기 위해 개별적으로 고려될 수 있다. 예를 들어, 촬영 시간이 현재 시간에 가까운 이미지가 우선 순위가 높다. 또는 공휴일, 기념일 등 현재 시간의 구체적인 특징을 고려할 수 있으므로, 현재 시간의 특징과 일치하는 이미지가 우선 순위가 높다. 촬영 위치가 현재 위치에 가까운 이미지는 우선 순위가 더 높다. 더 많은 시간 동안 탐색된 이미지는 우선 순위가 더 높거나 낮다. 더 많은 시간 동안 공유된 이미지는 우선 순위가 높거나 낮다.
실시예들에서, 이미지의 우선 순위를 판단하기 위해 관련 데이터의 다양한 데이터 항목이 결합될 수 있다. 예를 들어, 우선 순위는 가중 점수에 따라 계산될 수 있다. 촬영 시간과 현재 시간 사이의 시간 간격을 t, 촬영 장소와 장치의 현재 위치 사이의 거리를 d, 탐색한 횟수를 v, 공유 횟수를 s라고 가정한다. 다양한 종류의 데이터를 비교 가능하게 하기 위해, 데이터는 t', d', v' 및 s'를 획득하기 위해 정규화될 수 있다(여기서
Figure pat00001
). 우선 순위 점수는 다음 <수학식 1>에 따라 획득할 수 있다.
Figure pat00002
여기서
Figure pat00003
는 각 데이터 항목에 대한 가중치이며 각 데이터 항목의 중요도를 결정하는데 사용된다. 이들의 값은 미리 정의되거나 사용자에 의해 결정될 수 있거나, 또는 사용자가 관심을 갖는 내용, 중요한 시점 등에 따라 정의될 수 있다. 예를 들어, 현재 시점이 축제이거나 또는 사용자가 설정한 중요한 시점인 경우
Figure pat00004
가중치가 증가될 수 있다. 사용자가 다른 이미지보다 더 많은 시간 동안 애완 동물 이미지를 보는 것으로 파악되면 사용자의 현재 관심 있는 내용이 애완 동물 이미지 내용임을 나타낸다. 이 때, 애완 동물 이미지의
Figure pat00005
가중치가 증가될 수 있다.
(B) 객체 수준에서 수집된 관련 데이터. 예를 들면 수동 초점, 시선 히트맵, 객체 분류의 신뢰도 등. 그리고, 수집된 관련 데이터에 따라 이미지의 우선 순위가 결정된다.
실시예들에서, 이미지의 우선 순위는 수동 초점에 따라 결정된다. 사용자가 이미지를 촬영할 경우, 이 수동 초점은 일반적으로 사용자 ROI이다. 장치는 수동 초점과 이 지점에서 감지된 객체를 기록한다. 따라서, 이 객체를 포함하는 이미지는 더 높은 우선 순위를 갖는다.
실시예들에서, 이미지의 우선 순위는 시선 히트맵에 따라 결정된다. 시선 히트맵은 사용자의 이미지에 대한 포커스 정도를 나타낸다. 각 픽셀 또는 객체 지점에서, 사용자의 시선의 포커싱 시간 및/또는 머무르는 시간이 수집된다. 사용자가 포커스를 맞추는 횟수가 많을 때, 또는 사용자의 시선이 어느 지점에 머물러 있을수록 이 지점에 있는 객체를 포함하는 이미지의 우선 순위가 높아진다.
실시예들에서, 이미지의 우선 순위는 객체 분류의 신뢰도에 따라 결정된다. 이미지의 각 객체의 분류 신뢰도는 ROI가 특정 객체 카테고리에 속할 가능성을 반영한다. 신뢰도가 높을수록 ROI가 특정 객체 카테고리에 속할 확률이 높아진다. 높은 신뢰도를 가진 객체를 포함하는 이미지가 우선 순위가 높아진다.
상기 각 데이터 종류를 개별적으로 고려하는 것 이외에, 전체 이미지 레벨에서의 다양한 데이터 항목의 결합과 유사하게, 객체 레벨의 다양한 데이터 항목의 결합에 따라 이미지의 우선 순위를 결정하는 것도 가능하다.
(C) 각 객체를 개별적으로 고려하는 것 이외에, 객체들 간의 관계도 고려될 수 있다. 이미지의 우선 순위는 객체들 간의 관계에 따라 결정될 수 있다.
실시예들에서, 이미지의 우선 순위는 객체들의 시맨틱 결합에 따라 결정된다. 단일 객체의 시맨틱 의미는 앨범에서 좁은 의미로 검색하기 위해 사용될 수 있는데, 즉 사용자가 이미지에서 여러 객체를 선택하고, 장치는 정확한 객체를 포함하는 이미지를 반환한다. 다른 한편으로, 여러 객체들의 결합은 넓은 의미에서 시맨틱 의미로 추상화 될 수 있다. 예를 들어, "사람"과 "생일 케이크"의 결합은 "생일 파티"로 추상화될 수 있는 반면, "생일 파티"는 "생일 케이크"를 포함하지 않을 수 있다.
따라서, 객체 카테고리들의 결합은 추상적 시맨틱 의미를 검색하는데 이용될 수 있고, 또한 객체들의 분류 결과를 전체 이미지들의 분류 결과와 연관시킬 수 있다. 다수의 객체들의 시맨틱 카테고리로부터 상위 계층의 추상 카테고리로의 변환은 미리 정의함으로써 구현될 수 있다. 예를 들어, "사람"과 "생일 케이크"의 결합은 "생일 파티"로 정의될 수 있다. 또한 기계 학습을 통해 구현될 수도 있다. 이미지에 포함된 객체는 고유 벡터로 추상화될 수 있다. 예를 들어, 이미지는 N 종류의 객체를 포함할 수 있으며, 따라서 이미지는 N 차원 벡터로 표현될 수 있다. 그러면, 이미지는 감독 학습 또는 비 감독 학습 방법을 통해 서로 다른 카테고리로 분류된다.
실시예들에서, 이미지 우선 순위는 객체의 상대 지점에 따라 결정된다. 시맨틱 정보 이외에, 객체의 상대 지점은 이미지의 우선 순위를 결정하는데 사용될 수도 있다. 예를 들어, ROI들을 선택할 때, 사용자는 객체 A와 B를 선택하고, 객체 A는 객체 B의 왼쪽에 있다. 따라서, 검색 결과에서 객체 A가 객체 B의 왼쪽에 있는 이미지가 우선 순위가 높아진다. 또한, 보다 정확한 가치 정보에 따라 우선 순위 정렬 규칙을 제공하는 것이 가능하다. 예를 들면, 사용자에 의해 동작된 이미지에서, 객체 A와 B 사이의 거리는 벡터 로 표현된다. 검색된 이미지에서 객체 A와 객체 B 사이의 거리가 이면, 두 벡터의 차이를 계산하여 이미지를 정렬할 수 있다.
(2) 이미지 구성 구조의 측면
이미지 구성에 관해서, 이미지는 이미지의 속성 리스트에 따라 종합되거나 분리될 수 있고, 트리 계층이 구성될 수 있다.
도 8은 본 발명의 실시예들에 따른 개인화된 트리 계층의 구현 과정을 도시한 흐름도이다.
장치는 먼저 트리 계층을 구성하기 위한 트리거 조건, 예를 들어, 이미지의 개수가 임계값에 도달하고, 사용자가 수동으로 트리거하는 등의 조건을 감지한다(801). 그 다음, 장치는 앨범의 각 이미지의 속성 리스트를 검색하고(803), 이미지를 각 이미지의 속성 리스트 및 이미지 개수의 카테고리 정보(전체 이미지의 카테고리 및/또는 ROI의 카테고리)에 따라 여러 세트로 설정하며(805), 각 세트는 트리 계층의 노드이다. 필요한 경우, 각 세트를 하위 세트로 더 분할할 수 있다(807). 장치는 사용자의 동작에 따라 각 노드에 속한 이미지를 사용자에게 표시한다(809). 트리 계층에서, 각 계층의 노드는 카테고리를 나타낸다. 루트 노드에 가까울수록 카테고리는 더 추상적이 된다. 리프 노드에 가까울수록 카테고리는 더 구체적이 된다. 리프 노드는 ROI 또는 이미지이다.
또한, 서로 다른 사용자 앨범의 이미지 분포에 따라 트리 계층에 개인화된 조정을 수행하는 것이 가능하다. 예를 들어, 사용자 A의 앨범은 많은 운송 수단 이미지를 포함하는 반면, 다른 사용자 B의 앨범은 더 적은 운송 수단 이미지를 포함한다. 따라서, 사용자 A의 앨범에 있는 자동차에 대한 트리에는 더 많은 계층이 구성될 수 있지만, 사용자 B에게는 더 적은 계층이 구성될 수 있다. 사용자는 빠른 보기의 목적을 달성하기 위해, 계층간의 빠른 전환을 자유롭게 할 수 있다.
실시예들에서, 단계 102에서 사용자 ROI에 기초한 이미지 관리는 트리 계층에서 썸네일을 표시하는 것; 및/또는 트리 계층에서 전체 이미지를 표시하는 것을 포함한다.
실시예들에서, 트리 계층의 생성은 종합 동작에 기초하여, 동일한 카테고리 라벨을 갖는 ROI들을 포함하는 이미지를 종합하고; 분리 동작에 기초하여, 상이한 카테고리 라벨을 갖는 ROI들을 포함하는 이미지를 분리하고; 트리 계층 연산에 따라 종합 프로세싱 및/또는 분리 프로세싱 후에 이미지용 계층을 포함하는 트리 계층을 구성하는 것을 포함할 수 있다.
실시예들에서, 본 방법은 다음 중 적어도 하나를 더 포함할 수 있다:
트리 계층의 동일 계층의 리프 노드의 수가 소정의 임계값을 초과하는 경우, 카테고리 분할 동작에 기초하여, 카테고리 분할 처리를 수행하는 단계; 트리 계층의 계층을 선택하는 제 1 유형의 트리거 동작에 기초하여, 썸네일들에 의해 선택된 계층에 속하는 이미지들을 표시하는 단계; 트리 계층의 계층을 선택하는 제 2 유형의 트리거 동작에 기초하여, 전체 이미지에서 선택된 계층에 속하는 이미지들을 표시하는 단계; 트리 계층의 계층을 선택하는 제 3 유형의 트리거 동작에 기초하여, 선택된 계층의 하위 계층을 표시하는 단계; 트리 계층의 계층을 선택하는 제 4 유형의 트리거 동작에 기초하여, 상기 선택된 계층의 상위 계층을 표시하는 단계; 트리 계층에서 선택된 계층의 제 5 트리거 동작에 기초하여, 선택된 계층에 포함된 모든 이미지를 표시하는 단계 등.
전술한 관점에서, 본 발명의 실시예는 사용자 ROI에 기초하여, 이미지 구성 구조를 최적화한다. 다양한 종류의 인터페이스에서, 사용자는 빠른 보기의 목적을 달성하기 위해, 계층간의 빠른 전환을 행할 수 있다.
(3) 개인화된 카테고리 정의 및 사용자의 앨범의 정확한 분류
개인화된 앨범 관리를 수행할 때, 사용자는 이미지에 포함된 이미지 및 ROI들의 카테고리에 개인화된 정의를 제공할 수 있다. 예를 들어, 일련의 이미지들은 "내 그림"으로 정의된다. 또 다른 예를 들면, 다른 일련의 이미지들에서 강아지를 포함하는 영역은 "내 강아지"로 정의된다.
이하, 이미지들의 분류는 개인화된 카테고리 정의 및 사용자 앨범의 정확한 분류를 기술하기 위한 예로서 간주된다. ROI의 경우, 개인화된 카테고리 정의 및 정확한 분류를 실현하기 위해 유사한 동작 및 기술이 채택될 수 있다.
기존의 앨범 관리 제품에서는, 사용자가 항상 수동적으로 참여한다. 제품에서 제공하는 관리 정책의 종류는 개발자가 완전히 결정한다. 더 많은 사용자에게 제품을 적용할 수 있도록, 개발자가 결정한 관리 정책은 보통 일반화된다. 따라서, 기존 앨범 관리 기능은 사용자의 개인화된 요구 사항을 만족시킬 수 없다.
또한 기존 제품의 경우, 클라우드 및 모바일 장치의 분류 결과가 서로 독립적이다. 그러나 이들의 결합으로 앨범 관리를 보다 정확하고 지능적이며 개인화할 수 있다. 모바일 장치와 비교할 때, 클라우드 서버는 더 나은 컴퓨팅 및 저장 기능을 가지고 있으므로, 보다 복잡한 알고리즘을 통해 사용자의 다양한 요구 사항을 구현할 수 있다. 따라서, 클라우드 엔드의 리소스를 합리적으로 활용하여 사용자에게 더 나은 환경을 제공해야 한다.
도 9는 본 발명의 실시예들에 따른 개인화된 카테고리 분류를 구현하는 과정을 도시한 흐름도이다.
먼저, 장치는 사용자 동작에 따라 개인화된 카테고리를 정의한다(901). 개인화된 카테고리에 따른 분류는 로컬 해결책(903) 및 클라우드 엔드 해결책(905)의 두 가지 해결책을 통해 구현될 수 있으며, 로컬 엔드 및 클라우드 엔드에서 개인화된 분류를 위한 모델이 업데이트될 수 있고(907), 업데이트된 모델의 분류 결과는 정확한 개인화된 카테고리 분류 결과를 획득하기 위해 결합될 수 있다.
개인화된 카테고리에 대한 사용자의 요구 사항을 만족시키기 위해서는, 먼저 개인화된 카테고리의 정의를 결정해야 한다. 개인화된 카테고리를 정의하는 방법은 다음 중 적어도 하나를 포함할 수 있다:
(A) 사용자에 의해 능동적으로 정의, 즉 어떤 이미지가 어떤 카테고리로 분류되어야 하는지를 장치에 알린다. 예를 들어, 장치는 각 이미지에 대한 속성 리스트를 할당한다. 사용자는 속성 리스트에 카테고리 이름을 추가할 수 있다. 카테고리의 수는 하나 이상일 수 있다. 장치는 사용자가 추가한 카테고리 이름에 고유 식별자를 할당하고 동일한 고유 식별자로 이미지를 하나의 카테고리로 분류한다.
(B) 앨범에 대한 사용자의 자연스러운 동작에 따라 카테고리를 정의한다. 예를 들어, 앨범의 이미지를 관리할 때, 사용자는 일련의 이미지를 폴더로 이동시킨다. 이 때, 장치는 앨범에 대한 사용자의 동작에 따라 이 일련의 이미지가 사용자의 개인화된 카테고리를 형성하는지를 결정한다. 이어서, 이미지가 나오면, 이 이미지가 일련의 이미지와 동일한 카테고리에 속하는지 여부를 판단해야 한다. 긍정(yes)인 경우, 이미지는 사용자가 만든 폴더에 자동으로 표시되거나, 사용자가 만든 폴더에 이미지를 표시할지 묻는 메시지가 사용자에게 제공된다.
(C) 장치에 대한 사용자의 다른 자연스러운 동작에 따라 카테고리 정의를 구현한다. 예를 들어, 사용자가 소셜 애플리케이션을 사용할 때, 장치는 사용자의 공유 동작을 분석함으로써 사회적 관계에 따라 앨범 내의 이미지에 대한 개인화된 카테고리를 정의한다. 소셜 애플리케이션에서 사용자의 행동을 분석하여 보다 세부적인 개인화된 카테고리를 만들 수 있다. 예를 들어, 애완 동물 사진을 친구와 공유할 때 "봐, 내 강아지가 나비를 쫓고 있어" 라고 말할 수 있다. 이 때, 장치는 앨범의 많은 개들 중 어떤 개가 사용자의 애완 동물인지 알 수 있다. 이 때, 새 개인화된 카테고리 "내 강아지"가 만들어 질 수 있다.
(D) 장치는 더 자세한 분류를 수행하도록 사용자에게 자동으로 권장할 수 있다. 사용자 행동을 분석하여 사용자가 앨범의 이미지를 더 자세히 분류할 것을 권장할 수 있다. 예를 들어, 사용자가 인터넷에서 검색 엔진을 사용한다. 사용자의 검색 키워드에 따라, 사용자의 관심 지점이 결정될 수 있다. 장치는 사용자에게 장치에서 검색 키워드와 관련된 이미지를 더 나눌 것인지 여부를 묻는다. 사용자는 자신의 요구에 따라 추가 분류 정책을 결정하여 개인화된 카테고리 정의를 완성할 수 있다. 장치는 또한 기존 카테고리의 이미지를 분석하여 사용자에게 이미지를 더 분류할 것을 권장할 수 있다. 예를 들어, 카테고리의 이미지의 개수가 특정 값을 초과하면, 보기, 관리 및 공유 과정에서 과도한 이미지가 사용자에게 불편을 준다. 따라서, 장치는 사용자에게 이 카테고리를 분할할 지 여부를 물을 수 있다. 사용자는 개인화된 카테고리 정의를 완료하기 위하여 자신의 관심 지점에 따라 각 카테고리를 결정할 수 있다.
사용자가 개인화된 카테고리를 정의한 후에, 개인화된 카테고리 분류에 대한 구현은 다음 중 적어도 하나를 포함할 수 있는 카테고리의 다양한 정도에 따라 결정될 수 있다:
(A) 개인화된 카테고리가 분류 모델의 소정의 카테고리 내에 있는 경우, 사용자의 개인화된 정의와 일치시키기 위하여 분류 모델의 소정의 카테고리가 장치 또는 클라우드 엔드에서 재결합된다. 예를 들어, 분류 모델의 소정의 카테고리가 "흰색 고양이", "검은색 고양이", "흰색 개", "검은색 개", "고양이" 및 "개"이다. 사용자가 정의한 개인화된 카테고리는 "고양이"과 "개"이다. 그 다음, 분류 모델의 "흰색 고양이"와 "검은색 고양이"가 "고양이"에 결합되고, 분류 모델의 "흰색 개"와 "검은색 개"가 "개"에 결합된다. 다른 예를 들어, 사용자가 정의한 개인화된 카테고리가 "흰색 애완 동물" 및 "검은색 애완 동물"이라고 가정한다. 그 다음, 분류 모델의 소정의 카테고리가 재결합된다. 즉 "흰색 고양이"와 "흰색 개"가 "흰색 애완 동물"에 결합되고 "검은색 고양이"와 "검은색 개"가 "검은색 애완 동물"에 결합된다.
(B) 개인화된 카테고리가 분류 모델의 소정의 카테고리에 포함되지 않는 경우, 개인화된 카테고리는 분류 모델에서 소정의 카테고리를 다시 결합하여 획득할 수 없다. 이 때, 분류 모델은 업데이트될 수 있다. 분류 모델은 장치 내에서 또는 클라우드 엔드에서 업데이트될 수 있다. 상기 방법에 따라 정의된 개인화된 카테고리 내의 일련의 이미지는 이미지 개인화된 카테고리 분류를 수행하기 위한 초기 모델을 트레이닝하는데 이용될 수 있다. 예를 들어, 이미지를 탐색할 때, 사용자는 그림의 이미지 라벨을 "그림"에서 "내 그림"으로 변경한다. 사용자가 이미지 속성을 수정한 것을 감지하면 장치는 "내 그림"을 개인화된 카테고리로 정의하고, 수정된 라벨이 있는 이미지를 개인화된 카테고리의 트레이닝용 샘플로 사용한다.
개인화된 카테고리가 정의된 짧은 시간에 트레이닝용 샘플이 거의 없을 수 있다. 초기 모델의 분류가 불안정할 수 있다. 따라서, 이미지가 새로운 카테고리로 분류될 때, 장치는 사용자와 상호 작용할 수 있으며, 예를 들어 이미지가 개인화된 카테고리에 속해야 하는지 여부를 사용자에게 물을 수 있다. 장치는 사용자와의 상호 작용을 통해 이미지가 개인화된 카테고리로 정확하게 분류되는지 여부를 판단할 수 있다.
분류가 정확하다면, 이미지는 개인화된 카테고리에 대한 긍정적인 샘플로 간주된다; 그렇지 않은 경우 이미지는 개인화된 카테고리의 부정적인 샘플로 간주된다. 따라서, 더 많은 트레이닝용 샘플을 수집할 수 있다. 반복된 여러 번의 테르이닝을 통해, 개인화된 카테고리 모델의 성능이 개선될 수 있고, 안정된 분류 수행이 최종적으로 획득될 수 있다. 이미지의 본문이 텍스트인 경우, 이미지에 텍스트 인식을 수행하고 인식 결과에 따라 이미지를 분류할 수 있다.
따라서, 서로 다른 피사체의 문자 이미지를 각각의 카테고리로 분류할 수 있다. 모델이 클라우드 엔드에서 트레이닝을 받으면 새로운 개인화된 카테고리 모델과 현재 모델 간의 차이가 감지되고 다른 부분이 선택되어 업데이트 패키지를 통해 장치에 배포된다. 예를 들어, 개인화된 카테고리 분류를 위한 브랜치가 모델에 추가되는 경우 새로 추가된 브랜치 전송하면 되며 전체 모델을 전송할 필요는 없다.
사용자의 앨범에 있는 이미지를 보다 정확하게 분류하기 위해, 로컬 분류 엔진과 클라우드 분류 엔진 간의 상호 작용이 고려될 수 있다. 다음 상황이 고려될 수 있다.
(A) 사용자가 응답하지 않는 경우. 클라우드 엔드 모델은 풀 사이즈 모델이다. 동일한 이미지의 경우, 로컬 엔진과 클라우드 엔진은 서로 다른 분류 결과를 가질 수 있다. 일반적으로, 클라우드 엔드의 풀 사이즈 모델은 보다 복잡한 네트워크 구조를 가지고 있다. 따라서 일반적으로 분류 정확도에 있어서 로컬 모델보다 낫다. 사용자가 분류 결과가 클라우드 엔드의 결과를 참조하도록 구성하면, 클라우드 엔드가 동시에 분류할 이미지를 처리한다.
분류 결과가 다른 경우, 분류 결과 신뢰도와 같은 요인을 고려할 필요가 있다. 예를 들어, 클라우드 엔드의 분류 신뢰도가 임계값보다 높으면, 클라우드 엔드의 분류 결과에 따라 분류되어야 한다고 간주되고, 장치의 로컬 분류 결과가 클라우드 엔드의 분류 결과에 따라 업데이트 된다. 로컬 엔드의 잘못된 분류에 대한 정보는 이후에 로컬 모델이 개선되기 위하여 클라우드 엔드에도 보고된다.
클라우드 엔드에 보고된 분류 에러 정보는 잘못 분류된 이미지, 장치의 잘못된 분류 결과 및 정확한 분류 결과(클라우드 엔드의 분류 결과)를 포함할 수 있다. 클라우드 엔드는 정보에 따라 관련 카테고리의 트레이닝 세트에 이미지를 추가한다. 예를 들어, 모델을 트레이닝하고 모델의 성능을 향상시키기 위해, 잘못된 분류 카테고리의 부정적인 샘플 세트, 누락된 분류 카테고리의 긍정적인 샘플 세트에 추가한다.
예를 들어 네트워크상의 이유로 장치가 클라우드 엔드에 연결되지 않았거나, 사용자가 분류 결과가 클라우드 엔드 결과를 참조하지 않도록 구성한 경우, 클라우드 엔드와의 연결이 이후에 성립된 경우, 또는 사용자가 분류 결과가 클라우드 엔드 결과를 참조하도록 구성했을 때, 장치는 출력 카테고리의 점수에 따라 라벨의 신뢰도를 판단할 수 있다. 신뢰도가 상대적으로 낮은 경우, 모델을 업데이트하기 위해 사용자가 클라우드 엔드에 로그인 할 때 이미지의 올바른 라벨에 대해 일괄적으로 물어보거나, 또는 사용자가 쉽게 작업을 완료할 수 있도록 게임을 설계할 수 있다.
(B) 사용자는 클라우드 엔드 또는 단말의 분류 결과를 수정할 수 있다. 사용자가 잘못 분류된 이미지의 라벨을 수정하면, 단말은 잘못 분류된 이미지, 잘못 분류된 카테고리, 및 사용자에 의해 지정된 올바른 카테고리를 포함하여 클라우드 엔드로 잘못된 분류 결과를 업로드한다. 사용자가 이미지를 피드백 할 때, 클라우드 엔드는 트레이닝을 위해 다수의 상이한 사용자에 의해 피드백 된 이미지를 수집할 수 있다. 샘플이 충분하지 않으면, 샘플 양을 늘리기 위해 네트워크에서 유사한 이미지가 크롤링될 수 있다. 그것은 사용자가 지정한 카테고리로 분류될 수 있으며, 모델 트레이닝이 시작될 수 있다. 상기 모델 트레이닝 과정은 단말에 의해 구현될 수 있다.
수집된 이미지와 크롤링 된 이미지의 수가 너무 적어서 새 모델을 학습할 수 없는 경우, 이미지는 이미지의 특징에 따라 미리 설정된 차원의 공간에 국지적으로 매핑될 수 있다. 이 공간에서, 이미지는 각각의 종합 센터를 획득하기 위해 종합된다. 공간 내의 이미지의 매핑된 지점과 각 종합 센터 사이의 거리에 따라, 각 테스트 이미지가 속하는 카테고리가 결정된다.
사용자가 수정한 카테고리가 잘못된 카테고리 근처에 있다면, 잘못 분류된 이미지와 유사한 특징을 갖는 이미지가 상위 계층 개념으로 식별된다. 예를 들어, "고양이"의 이미지는 "개"로 잘못 분류되지만, 특징 공간에서의 이미지의 위치는 "고양이"의 종합 중심에 더 가깝기 때문에, 거리에 따라 이미지가 "개"에 속한다고 판단할 수 없다. 그 다음, 이미지의 카테고리가 한 단계 높아지고, "애완 동물"로 분류된다.
사용자가 일부 이미지를 피드백하면, 그 중 잘못 동작된 이미지가 있을 수 있다. 예를 들어, "고양이"의 이미지는 "고양이"로 분류되어 수정되지만, 사용자는 이를 "개"라고 잘못 표시한다. 이 동작은 일종의 잘못된 동작이다. 결정은 피드백을 위해 수행될 수 있다(특히 높은 신뢰도를 갖는 라벨에 대해 잘못된 피드백이 제공되는 경우). 잘못된 동작 감지 모델은 그러한 이미지의 결정을 수행하기 위해 백그라운드에서 생성될 수 있다.
예를 들어, 모델을 트레이닝하기 위한 샘플은 사용자와의 상호 작용을 통해 획득될 수 있다. 이미지의 분류 신뢰도가 임계값보다 높지만 사용자가 다른 카테고리에 속한 것으로 라벨을 지정하면, 사용자에게 변경 여부를 묻는 것이 가능하다. 사용자가 변경하지 않기로 선택하면, 이미지는 잘못된 동작 모델을 학습하기 위한 샘플로 간주될 수 있다. 모델의 속도가 느릴 수 있으며 오류가 있는 이미지의 수정 전용으로 사용된다. 잘못된 동작 감지 모델이 사용자의 잘못된 동작을 감지한 경우, 사용자에게 메시지가 제공될 수 있거나 또는 잘못 동작된 이미지는 학습 샘플로부터 제외될 수 있다.
(C) 영역 이미지와 클라우드 엔드 이미지 사이에 차이가 있는 경우. 이미지 업로드가 없는 경우, 단말은 클라우드 엔드로부터 동기식 업데이트 요청을 수신 할 수 있다. 이미지 업로드 절차 동안 이미지의 업로드가 완료되면 실시간 분류 동작이 수행될 수 있다. 대역폭 점유를 줄이기 위해 일부 이미지가 업로드될 수 있다. 단말의 분류 신뢰도에 따라 업로드되는 이미지를 선택할 수 있다.
예를 들어, 이미지의 분류 신뢰도가 임계값보다 낮으면 이미지의 분류 결과가 신뢰할 수 없다고 간주되어 재 분류를 위해 클라우드 엔드에 업로드해야 한다. 분류 결과가 로컬 분류 결과와 다른 경우, 로컬 분류 결과는 동기적으로 업데이트된다.
(4) 사용자 ROI에 따른 이미지 전송 및 키-포인트 표시.
이미지 데이터 전송 요구를 감지할 때, 장치는 전송 네트워크 유형의 및 전송량을 결정하고, 전송 네트워크 유형의 및 전송량에 따라 상이한 전송 모드를 채택한다. 전송 모드는 전체 이미지 압축으로 이미지 전송, 부분 이미지 압축으로 이미지 전송, 압축 없는 이미지 전송 등을 포함한다.
부분 이미지 압축 모드에서, 낮은 압축비의 압축이 영역의 풍부한 세부 사항을 유지하기 위해 사용자 ROI에 대해 수행된다. 높은 압축비를 갖는 압축은 전송 동안 전력 및 대역폭을 절약하기 위해 ROI 이외의 영역들에 대해 수행된다.
도 10은 본 발명의 실시예들에 따른 상이한 전송 모드의 선택을 도시한 흐름도이다. 여기서, 도 10에 도시된 장치 A(1010) 및 장치 B(1050) 각각은 도 33에 도시한 바와 같이 이미지 관리 장치(3300)를 포함하여 다음과 같이 본 발명의 실시예들에 따른 동작을 수행한다.장치 A(1010)는 장치 B(1050)로 이미지를 요청한다(1011). 장치 B(1050)는 네트워크 대역폭, 네트워크 품질 또는 사용자 구성 등과 같은 다양한 요소를 검사하여(1051) 전송 모드를 결정한다(1055). 경우에 따라, 장치 B(1050)는 장치 A(1010)로 추가 정보를 요청한다(1053). 예를 들어, 전송 모드의 결정을 돕기 위해 장치 A(1010)의 전력을 남긴다(1013). 전송 모드는 다음의 3 가지를 포함할 수 있다: 1) 고품질 전송 모드(1057), 예를 들어 압축이 이미지에 대해 수행되지 않는다(즉, 고품질의 이미지를 요청한다)(1063); 2) 중간 품질 전송 모드(1059), 예를 들어, 낮은 압축비의 압축이 ROI에 수행되고 높은 압축비의 압축이 배경에 수행된다(1065); 3) 저품질 전송 모드(1061), 예를 들어 압축이 전체 이미지에 대해 수행된다(1067). 마지막으로, 장치 B(1050)는 이미지를 장치 A(1010)로 전송한다(1069). 그러면, 장치 A(1010)은 장치 B(1050)로부터 이미지를 수신한다(1015). 경우에 따라, 장치 B(1050)는 또한 이미지를 장치 A(1010)에 처음으로 전송할 수 있다.
실시예들에서, 단계 102에서 이미지 관리를 수행하는 것은 이미지 전송 파라미터 및 이미지 내의 ROI에 따라 이미지를 압축하고, 압축된 이미지를 전송하는 것; 및/또는 서버, 기지국 또는 사용자 장치에 의해 전송된 이미지를 수신하고, 이미지는 이미지 전송 파라미터 및 ROI에 따라 압축되며, 이미지 전송 파라미터는 전송될 이미지의 수, 전송 네트워크 유형의 및 전송 네트워크 품질 등을 포함하는 것 등을 포함한다.
이미지를 압축하는 과정은 다음 중의 적어도 하나를 포함할 수 있다:
(A) 이미지 전송 파라미터가 ROI 비압축 조건을 만족하면, 이미지의 ROI를 제외한 이미지를 압축하고, 이미지의 ROI는 압축하지 않는다.
예를 들어, 전송될 이미지들의 수에 대한 소정의 임계치에 따라 전송될 이미지들의 수가 미리 설정된 적절한 범위 내에 있다고 판단되면, ROI 비압축 조건을 만족했다고 판단된다. 이 때, 이미지의 ROI를 제외한 영역은 압축되고 전송될 이미지의 ROI는 압축되지 않는다.
(B) 이미지 전송 파라미터가 차별화 압축 조건을 만족하면, 이미지의 ROI를 제외한 영역을 제 1 압축비로 압축하고, 전송하고자 하는 이미지의 ROI를 제 2 압축비로 압축하며, 제 2 압축비는 제 1 압축비보다 낮다.
예를 들어, 전송 네트워크가 무선 이동 통신 네트워크인 경우, 차별화 압축 조건을 만족했다고 판단된다. 이 때, 전송될 이미지의 모든 영역이 압축되며, ROI를 제외한 영역은 제 1 압축비로 압축되고, ROI는 제 2 압축비로 압축되고, 제 2 압축비는 제 1 압축보다 낮다.
(C) 이미지 전송 파라미터가 비차별화 압축 조건을 만족하면, 전송될 이미지의 ROI를 제외한 영역과 전송될 이미지의 ROI가 동일한 압축비로 압축된다.
예를 들어, 미리 설정된 전송 네트워크 품질 임계값에 따라 전송 네트워크 품질이 좋지 않다고 판단되면, 미분할 압축 조건을 만족했다고 판단된다. 이 때, 전송될 이미지의 ROI를 제외한 영역과 전송될 이미지의 ROI는 동일한 압축비로 압축된다.
(D) 이미지 전송 파라미터가 비압축 조건을 만족하면, 전송될 이미지가 압축되지 않는다.
예를 들어, 미리 설정된 전송 네트워크 품질 임계값에 따라 전송 네트워크 품질이 양호한 것으로 판단되면, 비압축 조건을 만족했다고 판단된다. 이 때 전송될 이미지는 압축되지 않는다.
(E) 이미지 전송 파라미터가 다중 압축 조건을 만족하면, 전송될 이미지는 압축되고 한 번 이상의 횟수를 통해 전송된다.
예를 들어, 미리 설정된 전송 네트워크 품질 임계값에 따라 전송 네트워크 품질이 매우 열악하다고 판단되면, 다중 압축 조건을 만족한다고 판단될 수 있다. 이 때, 압축 동작 및 하나 이상의 전송 동작이 전송될 이미지에 대해 수행된다.
실시예들에서, 본 방법은 다음 중 적어도 하나를 포함할 수 있다.
전송될 이미지의 수가 미리 설정된 제 1 임계값보다 낮은 경우에는, 이미지 전송 파라미터가 비압축 조건을 만족하는 것으로 판단되고; 전송될 이미지의 수가 제 1 임계값보다 크지만 미리 설정된 제 2 임계값보다 낮은 경우에는, 이미지 전송 파라미터가 ROI 비압축 조건을 만족하는 것으로 판단되고, 여기에서 제 2 임계값은 제 1 임계값보다 높다.
전송될 이미지의 수가 제 2 임계값 이상인 경우에는, 이미지 전송 파라미터가 비차별화 압축 조건을 만족하는 것으로 판단되고; 전송 네트워크 품질의 평가값이 미리 설정된 제 3 임계값보다 낮은 경우에는, 이미지 전송 파라미터가 다중 압축 조건을 만족하는 것으로 판단되고; 전송 네트워크 품질의 평가값이 제 3 임계값 이상이고 제 4 임계값보다 작은 경우에는, 이미지 전송 파라미터가 차별화 압축 조건을 만족하는 것으로 판단되고(여기서 제 4 임계값은 제 3 임계값보다 높음);
전송 네트워크가 프리 네트워크(예를 들어, WiFi 네트워크)인 경우, 이미지 전송 파라미터가 비압축 조건을 만족하는 것으로 판단되고; 전송 네트워크가 운영자의 네트워크인 경우, 압축비는 충전율에 따라 조정되는(충전율이 높을수록 압축비는 높음) 것.
실제로, 본 발명의 실시예들은 또한 상기 압축 조건들 중 어느 하나가 이미지 전송 파라미터들의 가중된 결합에 따라 만족하는지 여부를 판단할 수 있으며, 이는 본 발명에서 반복되지 않는다.
전술한 관점에서, 본 발명의 실시예들은 ROI에 기초하여 전송될 이미지에 차별화된 압축 동작을 수행함으로써, 전송 절차 동안 전력 및 네트워크 자원을 절약할 수 있고, 또한 사용자가 ROI를 명확하게 볼 수 있도록 한다.
실시예들에서, 단계 102에서의 이미지 관리는 다음 중 적어도 하나를 포함한다.
(A) 화면 크기가 미리 설정된 크기보다 작은 경우, ROI의 카테고리 이미지 또는 카테고리 이름이 표시된다.
(B) 화면의 크기가 미리 설정된 크기보다 작고 사용자의 동작에 따라 ROI의 카테고리가 선택될 경우, 카테고리의 이미지가 표시되고 카테고리의 다른 이미지가 사용자의 스위치 동작에 따라 표시될 수 있다.
(C) 화면의 크기가 미리 설정된 크기보다 작은 경우, 이미지는 ROI의 개수에 따라 표시된다.
화면의 크기가 미리 설정된 크기보다 작은 경우, ROI 개수에 기초하여 이미지를 표시하는 것은 다음 중 적어도 하나를 포함할 수 잇다:
(C1) 이미지가 ROI를 포함하지 않는 경우, 이미지를 썸네일 모드로 표시하거나 이미지의 크기를 표시 화면 상에 적합하도록 축소한 후에 표시하는 것.
(C2) 이미지가 하나의 ROI를 포함하는 경우, ROI를 표시하는 것.
(C3) 이미지가 다수의 ROI들을 포함하는 경우, ROI들을 이미지에 교대로 표시하거나, 또는 이미지에 첫 번째 ROI를 표시하고서, 사용자의 스위칭 동작에 따라 다른 ROI를 표시하도록 스위칭하는 것.
전술한 관점에서, 본 발명의 실시예는 장치의 화면이 작을 경우, ROI를 특별하게 표시하여 ROI의 표시 효율을 향상시킨다.
(5) 이미지의 ROI에 기초한 빠른 공유.
장치는 ROI의 연관성에 따라 이미지들간의 연관성을 확립한다. 확립 방법은 유사한 시맨틱 내용, 동일한 지리적 위치, 특정 시간 기간 등을 갖는 동일한 연락처의 이미지를 감지하는 단계를 포함한다. 이미지들간의 연관성은 동일한 시맨틱 개념 등을 포함하는, 동일한 사건으로부터의 동일한 연락처일 수 있다.
썸네일 모드에서, 연관된 이미지는 방법으로 식별 될 수 있고, 하나의 키 공유의 메시지가 사용자에게 제공될 수 있다.
도 11은 본 발명의 실시예들에 따른 사용자에 의한 이미 공유 개시를 도시한 흐름도이다. 장치는 이미지 세트가 사용자에 의해 선택되었음을 감지한다(1101). 장치는 사용자의 공유 이력 및 선택된 이미지와 공유된 이미지간의 연관 정도에 따라 관련 연락처를 결정한다(1103). 장치는 사용자가 개인 또는 그룹과 이미지 세트를 공유하도록 선택했는지를 결정한다(1105). 사용자가 그룹과 공유하도록 선택하는 경우, 장치가 그룹을 만들고 이미지 세트를 그룹과 공유한다(1107, 1109). 사용자가 개인과 공유하도록 선택한 경우, 장치는 이미지 세트의 다중 전송을 통해 사람과 이미지 세트를 공유한다(1111, 1113).
도 12a 내지 도 12b는 본 발명의 실시예들에 따른 사용자가 소셜 애플리케이션을 사용할 경우의 이미지 공유를 도시한 흐름도이다. 사용자가 소셜 애플리케이션을 사용하고 있음을 장치가 감지하면(예를 들면, 인스턴트 메시징 애플리케이션)(1201), 장치는 소셜 애플리케이션에서 사용자의 공유 이력에 따라(1203) 공유되지 않은 이미지로 구성된 이미지 세트를 앨범에서 선택하고(1205) 사용자에게 이미지 세트를 공유할지 여부를 묻는다(1207). 장치가 사용자의 확인 정보를 감지하면 장치는 이미지 세트를 공유한다(1209). 또한, 장치는 도 12b에 도시된 바와 같이, 소셜 애플리케이션에서 사용자에 의해 입력된 텍스트를 분석함으로써 공유될 이미지 세트를 더 결정할 수 있다(1231~1241).
실시예들에서, 사용자의 공유 동작을 감지할 경우, 장치는 이미지에 포함된 연락처에 따라 각각의 연락처와 관련 이미지를 공유하거나 관련 연락처를 포함하는 그룹 채팅을 자동 생성하고 관련 이미지를 각 연락처와 공유한다. 인스턴트 메시징 애플리케이션에서, 사용자의 입력은 자동으로 분석되어 사용자가 이미지를 공유하기를 원하는지 여부를 판단할 수 있다. 사용자가 이미지를 공유하고자 하는 경우, 공유하고자 하는 내용을 분석하여 해당 영역을 이미지에서 자동으로 잘라내어 선택 및 공유를 위해 사용자에게 제공한다.
실시예들에서, 단계 102에서의 이미지 관리는 공유 객체를 결정하는 것; 공유 객체와 이미지를 공유하는 것; 및/또는 채팅 객체 또는 채팅 객체와의 채팅 내용에 따라 공유될 이미지를 결정하고, 채팅 객체와 공유될 이미지를 공유하는 것을 포함할 수 있다. 본 발명의 실시예들은 ROI들 간의 연관성을 감지하고, 감지 결과에 따라 이미지들간의 연관성을 확립하고, 공유 객체 또는 공유될 이미지를 결정하고 관련 이미지를 공유할 수 있다. 실시예들에서, ROI들간의 연관성은 ROI들간의 카테고리들간의 연관성, ROI들의 간의 시간 연관성; ROI의 위치 연관성, ROI의 인적 관계 등을 포함할 수 있다.
특히, 이미지의 ROI에 따라 이미지를 공유하는 것은 다음 중 적어도 하나를 포함할 수 있다:
(1) 이미지의 ROI에 따라 이미지가 공유되는 연락처 그룹을 결정하는 것; 이미지에 대한 사용자의 그룹 공유 동작에 따라 그룹 방법으로 이미지를 연락처 그룹에 공유하는 것.
(2) 이미지의 ROI에 따라 이미지가 공유될 연락처를 결정하고, 사용자의 각각의 공유 동작에 따라 이미지가 공유될 각 연락처에 이미지를 각각 전송하는 것(여기서 각 연락처와 공유되는 이미지에는 연락처에 해당하는 ROI가 포함됨).
(3) 사용자와 채팅 객체 사이의 채팅 문장이 이미지의 ROI와 일치하는 경우, 공유 후보로서 사용자에게 이미지를 추천하는 것.
(4) 채팅 객체가 이미지의 ROI에 해당하는 경우, 공유 후보로 사용자에게 이미지를 추천하는 것.
실시예들에서, 이미지가 공유된 후에, 공유된 이미지는 공유된 연락처에 따라 식별된다.
전술한 관점에서, 본 발명의 실시예는 이미지의 ROI에 기초하여 이미지를 공유한다. 따라서, 다수의 이미지에서 공유할 이미지를 선택하는 것이 편리하다. 그리고 이미지를 여러 애플리케이션 시나리오에 공유하는 것이 편리하다.
(6) ROI에 기초한 이미지 선택 방법.
예를 들어, ROI에 기초한 이미지 선택 방법은 이미지에서 텍스트로의 선택 방법을 포함할 수 있다.
이 방법에서는 일정 기간 내의 이미지를 종합하여 분리한다. 이미지 내의 내용은, 촬영 위치 및 시간의 결합에서, 동일한 기간 및 거의 동일한 사건의 이미지들을 하나의 이미지 세트로 종합하는 것을 돕기 위해 분석된다. 텍스트 설명은 이미지 세트에 포함된 내용에 따라 생성되며 이미지 태피스트리가 자동으로 생성된다. 이미지 태피스트리를 생성하는 동안 이미지의 위치 및 결합 템플릿이 이미지의 영역에 따라 자동으로 조정되어 이미지 태피스트리의 중요한 영역을 표시하고 이미지 태피스트리의 링크를 통해 원본 이미지를 볼 수 있다.
실시예들에서, 단계 102에서의 이미지 관리는, ROI에 기초하여 이미지를 선택하는 것; 선택된 이미지들에 기초하여 이미지 태피스트리를 생성하는 것(여기서 선택된 각각의 이미지들의 ROI들은 이미지 태피스트리에 표시됨)을 포함할 수 있다. 이 실시예에서, 선택된 이미지는 시스템에 의해 자동으로 표시될 수 있다.
실시예들에서, 본 방법은 이미지 태피스트리에서 ROI를 선택하는 사용자의 선택 동작을 감지하는 단계; 선택된 ROI를 포함하는 선택된 이미지를 표시하는 단계를 더 포함할 수 있다. 이 실시예에서, 사용자의 선택 동작에 따라 선택된 이미지를 표시하는 것이 가능하다.
다른 예로서, ROI에 기초한 이미지 선택 방법은 텍스트로부터 이미지로의 선택 방법을 포함할 수 있다.
이 실시예에서, 사용자는 텍스트 단락을 입력한다. 그 다음 시스템은 텍스트에서 키워드를 검색하고 이미지 세트에서 관련 이미지를 선택하고 필요한 경우 이미지를 자르고 관련 이미지 또는 이미지 영역을 사용자 텍스트 단락에 삽입한다.
실시예들에서, 단계 102에서의 이미지 관리는,
사용자에 의해 입력된 텍스트를 감지하는 것; 입력된 텍스트와 연관된 ROI를 포함하는 이미지를 검색하는 것; 및 ROI를 포함하는 발견된 이미지를 사용자의 텍스트에 삽입하는 것을 포함할 수 있다.
(7) 이미지 내용에 기초한 이미지 변환 방법.
시스템은 앨범의 이미지를 분석하고 이미지의 모양과 시간에 따라 이미지의 문자에 자연 언어 처리를 수행할 수 있다.
예를 들어, 썸네일 모드에서, 장치는 방법을 통해 동일한 소스로부터 텍스트 이미지를 식별하고, 사용자에게 결합 추천 버튼을 제공한다. 사용자가 버튼을 클릭하는 것을 감지하면 시스템은 이미지 변환 인터페이스로 들어간다. 이 인터페이스에서 사용자는 이미지를 추가하거나 삭제할 수 있다. 마지막으로 조정된 이미지에 따라 텍스트 파일이 생성된다.
실시예들에서, 본 방법은, 다수의 이미지가 동일한 파일로부터 왔다고 판단할 경우, 이미지를 파일로 자동 종합하거나 사용자의 트리거 동작에 따라 이미지를 파일로 종합하는 단계를 더 포함할 수 있다.
전술한 관점에서, 본 발명의 실시예는 이미지를 종합하여 파일을 생성할 수 있다.
(8) 이미지 내용에 기초한 지능형 삭제 권고.
예를 들어, 이미지의 내용은 ROI에 따라 분석될 수 있다. 이미지의 시각적 유사성, 내용 유사성, 이미지 품질, 포함된 내용 등을 바탕으로 시각적으로 유사하고 내용이 비슷하고 이미지 품질이 낮으며 시맨틱 객체가 없는 이미지를 삭제할 것을 사용자에게 권장한다. 이미지 품질은 이미지의 ROI 위치에 따라 결정될 수 있는 심미적 정도, 서로 다른 ROI 간의 관계를 포함한다.
삭제 인터페이스에서, 삭제될 것으로 권장된 이미지가 그룹 내의 사용자에게 표시될 수 있다. 표시되는 동안, 하나의 이미지는, 예를 들어, 첫 번째 이미지, 최상의 품질을 갖는 이미지 등의 참조로 구성될 수 있다. 다른 이미지들에서, 참조 이미지와 비교했을 때의 차이가 표시된다.
실시예들에서, 단계 102에서의 이미지 관리는 다음 중의 적어도 하나를 포함할 수 있다:
(A) 다른 이미지의 ROI 카테고리 비교 결과에 따라 자동으로 이미지를 삭제하거나 이미지 삭제를 권장하는 것.
(B) 서로 다른 이미지의 ROI에 따라 각 이미지의 정도를 포함하는 시맨틱 정보를 결정하고, 서로 다른 이미지들의 정도를 포함하는 시맨틱 정보의 비교 결과에 따라 자동으로 이미지를 삭제하거나 삭제하도록 권장하는 것.
(C) 서로 다른 이미지들의 ROI들의 상대적 위치에 따라 각 이미지에 대한 점수를 결정하고, 점수에 따라 이미지를 자동으로 삭제하거나 삭제하도록 권장하는 것.
(D) 서로 다른 이미지들의 적어도 하나 이상의 ROI의 절대적 위치에 따라 이미지들의 점수를 결정하고, 점수에 따라 이미지를 자동으로 삭제하거나 삭제하도록 권장하는 것.
전술한 관점에서, 본 발명의 실시예들은 저장 공간을 절약하고 이미지 관리 효율을 향상시킬 수 있는 ROI에 기초한 지능형 삭제 추천을 구현한다.
이상이 ROI에 따른 이미지 관리 방법에 대한 예시적인 설명이다. 당업자는 내용이 단지 일부 예일뿐이며 본 발명의 보호 범위를 제한하는데 사용되지 않음을 알 것이다.
이하, ROI에 기초한 이미지 관리에 대하여 몇 가지 예를 참조하여 설명한다.
실시예 1: 이미지 보기 인터페이스에서의 빠른 보기
단계 1: 장치가 이미지에서 선택 가능한 영역의 지점을 묻는다.
여기에서, 장치는 사용자의 손가락 또는 스타일러스 펜의 화면상의 상대적인 지점을 감지하고, 이 지점을 이미지 내의 ROI의 지점과 비교한다. 두 지점이 겹쳐지면 장치는 ROI가 선택 가능하다는 메시지를 사용자에게 표시한다. 사용자에게 메시지를 표시하는 방법은 이미지에서 선택 가능한 영역을 강조 표시하거나, 프레임을 추가하거나 장치를 진동시키는 방법 등을 포함할 수 있다.
도 13a 내지 도 13g는 본 발명의 실시예들에 따른 이미지 뷰 인터페이스에서의 빠른 보기를 도시한 개략도이다.
도 13a에 도시된 바와 같이, 장치가 사용자의 손가락이 자동차의 위치에 닿았을 때, 장치는 자동차가 위치하는 영역을 하이라이트하여 자동차가 선택 가능하다는 메시지를 보여준다.
단계 1은 선택 사항이다. 실제 애플리케이션에서, 객체가 위치하는 각 영역은 선택될 수 있다. 사용자는 객체 유형에 따라 적절한 영역을 직접 선택할 수 있다. 예를 들어, 장치는 자동차의 이미지를 저장한다. 자동차가 있는 영역은 선택될 수 있다. 장치는 자동차 영역이 선택 가능한지 여부를 사용자에게 알릴 필요가 없다.
단계 2: 장치가 이미지에서 사용자의 동작을 감지한다.
장치는 선택 가능한 영역에서 사용자의 동작을 감지한다. 동작에는 단일 탭, 이중 탭, 슬라이딩, 회전 등이 포함될 수 있다. 각 동작은 "반드시 포함해야 함", "포함할 수 있음", "포함하지 않음", "~만 포함" 등의 특정 검색 의미에 해당할 수 있다.
도 13b, 도 13f 및 도 13g에 도시된 바와 같이, 단일 탭 동작은 "포함할 수 있음"에 해당한다; 이중 탭 동작은 "반드시 포함해야 함"에 해당한다. 슬라이딩 동작은 "포함하지 않음"에 해당한다. 회전 동작은 "~만 포함"에 해당한다. 동작들에 해당하는 검색 의미는 검색 기준들로 참조될 수 있다. 검색 기준은 시스템 또는 사용자에 의해 정의될 수 있다.
화면상의 물리적 동작 외에, 음성 입력을 통해 선택 가능한 각 영역을 동작 할 수도 있다. 예를 들어, 음성으로 자동차를 선택하고자 하는 경우, 사용자는 "자동차"라고 말할 수 있다. 장치는 사용자의 음성 입력 "자동차"를 감지하고 자동차를 동작할지 결정한다. 사용자의 음성 입력이 "반드시 포함해야 함"에 해당할 경우, 장치는 사용자의 음성 입력이 포함되어야 함을 감지하고 사용자에게 자동차가 포함된 이미지를 반환할지 결정한다.
사용자는 물리적 동작을 통해 선택 가능한 영역을 동작시키고 음성을 통해 동작 방법을 결정하는 것과 같이 물리적 동작 및 음성 동작을 결합할 수 있다. 예를 들어, 사용자는 자동차를 반드시 포함하는 이미지를 보려고 한다. 사용자는 이미지에서 자동차 영역을 클릭하고 입력은 음성을 통해 포함되어야 한다. 장치는 자동차의 영역에 대한 사용자의 클릭과, 음성 입력이 포함되어야 함을 감지하고, 사용자에게 자동차가 포함된 이미지를 반환할지 결정한다.
사용자의 동작을 감지한 후에, 장치는 사용자가 다른 동작을 수행하는 것을 용이하게 하는 방법을 통해 사용자의 동작을 표시한다. 도 13c에 도시된 바와 같이, 선택된 내용을 나타내는 텍스트가 표시된다. 또한, 상이한 동작을 나타내기 위해 상이한 색상이 사용될 수 있다. 사용자는 아이콘의 마이너스 기호를 클릭하여 관련 동작을 취소할 수도 있다.
예를 들어, 사용자는 단지 자동차만 포함하는 이미지를 찾고자 한다. 사용자는 이미지에서 자동차를 회전한다. 이 때, 장치는 이미지의 자동차 영역에서 사용자의 회전 동작을 감지하고, 사용자에게 자동차만을 포함하는 이미지를 제공하기로 결정한다.
예를 들어, 사용자는 자동차와 비행기를 모두 포함하는 이미지를 찾고자 한다. 사용자는 이미지에서 자동차 영역과 비행기 영역을 이중 탭한다. 이 때, 장치는 이미지의 자동차 영역 및 비행기 영역의 이중 탭을 감지하고 사용자에게 자동차 및 비행기를 모두 포함하는 이미지를 제공하기로 결정한다.
다른 예를 들면, 사용자는 자동차 또는 비행기를 포함하는 이미지를 찾고자 한다. 사용자는 이미지에서 자동차 영역과 비행기 영역을 단일 탭한다. 이 때, 장치는 이미지의 자동차 영역 및 비행기 영역에서 사용자의 단일 탭 동작을 감지하고, 사용자에게 자동차 또는 비행기를 포함하는 이미지를 제공하기로 결정한다.
또 다른 예를 들면, 사용자는 자동차를 포함하지 않는 이미지를 찾고자 한다. 사용자는 이미지의 자동차 영역에 슬래시를 그릴 수 있다. 이 때, 장치는 이미지의 자동차 영역에서 사용자가 그린 슬래시를 감지하고 사용자에게 자동차를 포함하지 않는 이미지를 제공하기로 결정한다.
사용자는 위의 선택 동작 방법 외에 이미지를 직접 손으로 쓸 수도 있다. 필기 동작은 특정 종류의 검색 의미, 예를 들어, 위에서 언급한 "반드시 포함해야 함", "포함할 수 있음", "포함하지 않음", "~만 포함" 등에 해당할 수 있다.
예를 들어, 필기 동작은 "반드시 포함해야 함"에 해당한다. 자동차는 포함하고 비행기는 포함하지 않는 이미지를 통해 자동차와 비행기를 모두 포함하는 이미지를 찾고자 할 때, 사용자는 손으로 이미지의 모든 영역에 비행기를 쓸 수 있다. 이때, 장치는 사용자의 필기 내용이 "비행기"라고 분석하고, 자동차와 비행기를 모두 포함하는 이미지를 사용자에게 제공하기로 결정한다.
단계 3: 장치가 사용자의 동작에 해당하는 이미지를 검색한다.
사용자의 동작을 감지한 후, 장치는 사용자의 동작에 따라 검색 규칙을 생성하고, 검색 규칙에 따라 장치 또는 클라우드 엔드에서 관련 이미지를 검색하고, 사용자에게 이미지의 썸네일을 화면상에 표시한다. 사용자는 썸네일을 클릭하여 해당 이미지로 전환하여 볼 수 있다. 선택적으로, 발견된 이미지의 원래 이미지가 사용자에게 화면상에 표시될 수 있다.
검색 결과를 표시할 때, 장치는 검색시 사용된 ROI와 이미지 사이의 유사도에 따라 이미지를 정렬할 수 있다. 유사도가 높은 이미지는 전면에 정렬되고 유사도가 낮은 이미지는 후면에 정렬된다.
예를 들어, 장치는 사용자가 이미지에서 자동차를 검색 키워드로 선택했음을 감지한다. 장치가 피드백 한 검색 결과에는 자동차의 이미지가 전면에 표시된다. 버스가 포함된 이미지는 자동차 이미지 후면에 표시된다.
예를 들어, 장치는 사용자가 이미지의 인물을 검색 키워드로 선택했음을 감지한다. 장치가 피드백 한 검색 결과에는, 사용자가 선택한 것과 동일한 인물의 ID를 가진 인물의 이미지가 첫 번째로 표시되고, 그 다음 유사한 외관 또는 옷을 가진 인물의 이미지가 표시되고, 마지막으로 다른 인물의 이미지가 표시된다.
도 13a에 도시된 바와 같이, 장치는 이미지가 자동차를 포함하는 것을 감지하고, 자동차의 영역을 하이라이트 하여, 사용자에게 이 영역이 선택 가능하다는 메시지를 표시한다. 도 13b에 도시된 바와 같이, 장치가 사용자가 이미지를 통해 자동차와 비행기를 이중 탭 했다고 감지하면, 비행기와 자동차는 "반드시 포함되어야 하고", 장치는 사용자가 비행기와 자동차를 모두 포함하는 이미지를 보고자 한다고 판단한다. 따라서, 도 13c에 도시된 바와 같이, 장치에 의해 표시된 모든 후보 이미지는 비행기 및 자동차를 포함한다. 이 실시예를 통해, 사용자가 비행기와 자동차를 모두 포함하는 이미지를 찾고자 할 때, 사용자는 비행기와 자동차를 포함하는 하나의 이미지만 찾을 필요가 있을 뿐이고, 비행기와 자동차를 포함하는 모든 이미지를 찾기 위해 이 이미지에 따라 빠른 검색이 수행된다. 따라서, 이미지 보기 및 검색 속도가 향상된다.
도 13d에 도시된 바와 같이, 장치는 이미지가 자동차를 포함하는 것을 감지하고, 자동차의 영역을 하이라이트 하여, 사용자에게 이 영역이 선택 가능하다는 메시지를 표시한다. 장치가 사용자가 자동차를 이중 탭하고 손으로 비행기를 쓰는 것을 감지하면, 비행기와 차가 "반드시 포함되어야 하고", 장치는 비행기와 자동차를 모두 포함하는 이미지를 보고자 한다고 판단한다. 따라서, 장치에 의해 표시된 모든 후보 이미지는 비행기 및 자동차를 포함한다. 즉, 이중 탭과 필기의 의미가 같고, 둘 다 반드시 포함해야 한다. 이러한 종류의 동작은 다른 내용을 제외하지 않는다. 예를 들어, 반환된 이미지는 인물들을 더 포함할 수 있다.
사용자가 비행기와 자동차를 모두 포함하는 이미지를 찾고자 할 때, 이미지의 개수가 너무 많아서 비행기와 자동차를 모두 포함하는 이미지를 찾을 수 없을 수도 있다. 이 실시예를 통해, 자동차를 포함하는 하나의 이미지를 찾을 필요가 있을 뿐이며, 비행기 및 자동차를 포함하는 모든 이미지를 획득하기 위해 사용자의 이미지 및 필기 내용에 따라 빠른 검색이 수행될 수 있다. 따라서 이미지 보기 및 검색 속도가 향상된다.
도 13e에 도시된 바와 같이, 항공기가 회전된 것을 감지한 후, 장치는 항공기가 단지 "~만 포함" 된 것으로 판단하고, 이러한 종류의 동작은 다른 내용을 배제한다. 따라서, 장치는 사용자가 단지 비행기만 포함하는 이미지를 보고자 한다고 판단한다. 따라서, 장치에 의해 표시된 후보 이미지는 단지 비행기를 포함한다. 이 실시예를 통해, 사용자가 단지 비행기만 포함하는 이미지를 보고자 할 때, 사용자는 비행기를 포함하는 임의의 이미지를 통해 빠른 검색을 할 수 있다. 따라서, 이미지 보기 및 검색 속도가 증가된다.
도 13f에 도시된 바와 같이, 장치가 사용자가 비행기 및 차를 단일 탭한 것을 감지 한 후에, 비행기 및 차는 "포함될 수 있다". 장치는 사용자가 비행기 또는 자동차를 포함하는 이미지를 보고자 한다고 판단한다. 따라서, 장치에 의해 표시된 후보 이미지는 비행기 또는 자동차를 포함할 수 있다. 그들은 함께 또는 혼자 나타날 수 있다. 이러한 종류의 동작은 다른 내용을 제외하지 않는다. 이 실시예를 통해, 비행기 또는 자동차를 포함하는 이미지를 보고자 할 때, 사용자는 비행기 및 자동차를 포함하는 임의의 이미지를 통해 빠른 검색을 할 수 있다. 따라서, 이미지 보기 및 검색 속도가 증가된다.
도 13g에 도시된 바와 같이, 장치가 사용자가 인물을 지운 것을 감지할 때, 인물은 "포함되지 않는다". 장치에 의해 표시된 후보 이미지는 절대 인물을 포함하지 않는다. 이러한 동작은 결합될 수 있다. 예를 들어, 장치는 사용자가 비행기를 단일 탭하고, 자동차를 이중 탭하고, 인물을 지우면, 비행기는 "포함될 수 있고", 자동차는 "반드시 포함되어야 하고" 인물은 "포함되어 있지 않음"을 감지한다. 장치에 의해 표시된 후보 이미지는 비행기를 포함할 수 있으며, 자동차를 포함해야 하며, 절대 인물을 포함하지 않는다. 이 실시예를 통해, 특정 객체를 포함하는 이미지를 찾고자 할 때, 사용자는 이 객체를 포함하는 임의의 이미지를 통해 빠른 검색을 할 수 있다. 따라서, 이미지 보기 및 검색 속도가 증가된다.
경우에 따라 사용자가 원하는 동작과 장치에서 인식된 동작이 일치하지 않을 수 있다. 예를 들어, 사용자는 화면을 이중 탭 하지만 장치는 이를 단일 탭 동작으로 인식할 수 있다. 불일치를 피하기 위해, 사용자의 동작을 인식한 후에, 장치는 다른 방법을 통해 상이한 동작을 표시할 수 있다.
도 13a 내지 도 13g에 도시된 바와 같이, 이미지에서 비행기에 대한 이중 탭 동작을 인식한 후, 장치는 화면의 상부에 비행기를 표시하고 비행기를 소정의 색상을 통해 포함되어야 하는 것으로 식별한다. 예를 들어, 비행기는 빨간색의 색상을 통해 포함되어야 한다고 식별될 수 있다. 이미지에서 자동차에 대한 단일 탭 동작을 인식 한 후, 장치는 화면의 상단에 자동차를 표시하고 소정의 색상을 통해 포함될 수 있는 자동차를 식별한다. 예를 들어, 자동차는 녹색의 색상을 통해 포함될 수 있는 것으로 식별될 수 있다. 이 실시예를 통해, 사용자는 장치의 인식이 올바른지 여부를 판단 할 수 있고, 잘못된 인식의 경우 조정을 하여 보기 및 검색 효율을 향상시킬 수 있다.
실시예 2: 다수의 이미지에 기초한 빠른 보기
사용자는 개와 인물을 모두 포함하는 이미지를 찾기를 바랄 수 있다. 그러나 다수의 이미지가 있는 경우, 사용자가 개와 인물을 모두 포함하는 이미지를 찾기가 어려울 수 있다. 따라서, 본 발명의 실시예들은 상이한 이미지들로부터 객체들을 선택하는 것을 통한 빠른 보기 방법을 더 제공한다.
도 14a 내지 도 14c는 본 발명의 실시예들에 따른 다수의 이미지에 기초한 빠른 보기를 도시한 개략도이다.
단계 1: 장치가 첫 번째 이미지에서 사용자의 동작을 감지한다.
실시예 1에서 설명한 바와 같이, 장치는 첫 번째 이미지 상에서 사용자의 동작을 감지한다. 장치는 사용자가 첫 번째 이미지에서 하나 이상의 영역을 선택하는 것을 감지하고, 사용자의 동작을 감지하여 검색 규칙을 판단하며, 검색된 이미지를 썸네일을 통해 화면 상에 표시한다.
도 14a에 도시된 바와 같이, 사용자가 반환된 이미지가 첫 번째 이미지를 통해 인물을 반드시 포함하도록 구성하고자 하는 경우, 사용자는 첫 번째 이미지에서 인물의 영역을 이중 탭한다. 사용자가 첫 번째 이미지에서 인물의 영역을 이중 탭 하는 것을 감지하면, 장치는 사용자에게 인물을 반드시 포함하는 이미지를 반환하도록 결정한다.
단계 2: 장치가 사용자의 동작에 해당하는 이미지를 검색한다.
사용자의 첫 번째 이미지에 대한 사용자의 동작을 감지한 후, 사용자의 동작에 따라 검색 규칙을 생성하고, 검색 규칙에 따라 장치 또는 클라우드 엔드에서 관련 이미지를 검색하고, 사용자에게 이미지의 썸네일을 화면 상에 표시한다.
도 14a에 도시된 바와 같이, 사용자가 첫 번째 이미지에서 인물의 영역을 이중 탭 하는 것을 감지하면, 장치는 사용자에게 인물을 반드시 포함하는 이미지를 반환하도록 결정한다.
단계 2는 선택 사항이다. 단계 1 후에 단계 3을 진행할 수도 있다.
단계 3: 장치가 사용자의 동작을 감지하여 두 번째 이미지를 선택한다.
장치는 사용자가 두 번째 이미지를 선택하기 위해 활성화되었음을 감지하고, 사용자가 두 번째 이미지를 선택하도록 앨범 썸네일 모드를 시작한다. 두 번째 이미지를 선택하기 위해 활성화되는 사용자의 동작은 제스처, 스타일러스 펜 동작 또는 음성 동작 등일 수 있다.
예를 들어, 사용자는 스타일러스 펜 상의 버튼을 누른다. 장치는 스타일러스 펜의 버튼이 눌린 것을 감지하고, 메뉴를 팝 아웃하며, 여기에서 메뉴의 한 옵션은 다른 이미지를 선택하는 것이다. 장치는 사용자가 다른 이미지 버튼을 클릭하는 것을 감지한다. 또는, 장치는 사용자가 두 번째 이미지를 선택하도록 썸네일 모드로 앨범을 직접 열 수도 있다.
도 14a에 도시된 바와 같이, 장치는 스타일러스 펜의 버튼이 눌린 것을 감지하고, 다른 이미지를 선택하기 위한 메뉴를 팝 아웃 한다. 장치는 사용자가 다른 이미지를 선택하는 버튼을 클릭하는 것을 감지하고, 사용자가 두 번째 이미지를 선택하도록 썸네일 모드로 앨범을 연다.
다른 예를 들면, 사용자는 이미지를 길게 누른다. 장치는 사용자의 길게 누르는 동작을 감지하고, 메뉴를 팝 아웃하며, 여기에서 메뉴의 한 옵션은 다른 이미지를 선택하는 것이다. 장치는 사용자가 다른 이미지를 선택하는 버튼을 클릭하는 것을 감지한다. 또는, 장치가 사용자가 두 번째 이미지를 선택하도록 썸네일 모드로 앨범을 직접 연다.
또 다른 예로서, 장치는 이미지 보기 모드에서 두 번째 이미지를 선택하기 위한 버튼을 표시하고, 버튼의 클릭을 감지한다. 사용자가 버튼을 클릭하는 것으로 감지되면, 사용자가 두 번째 이미지를 선택하도록 썸네일 모드의 이미지가 팝업된다.
또 다른 예를 들면, 사용자는 특정 음성 명령, 예를 들어 "앨범 열기"를 입력한다. 사용자가 음성 명령을 입력하는 것을 감지하면, 장치는 사용자가 두 번째 이미지를 선택하도록 썸네일 모드로 앨범을 연다.
단계 4: 장치가 두 번째 이미지에서 사용자의 동작을 감지한다.
사용자는 동작될 이미지를 선택한다. 장치는 사용자가 동작하고자 하는 이미지를 감지하고 이미지를 화면 상에 표시한다.
사용자는 두 번째 이미지에서 동작한다. 장치는 두 번째 이미지에서 사용자의 동작을 감지한다. 실시예 1에서 설명한 바와 같이, 장치는 사용자가 두 번째 이미지에서 하나 이상의 영역을 선택하는 것을 감지하고, 감지된 사용자의 동작에 따라 검색 규칙을 결정하고, 발견된 이미지의 썸네일을 화면 상에 표시한다.
도 14b에 도시된 바와 같이, 사용자는 개를 포함하는 이미지를 클릭한다. 장치는 사용자가 개가 반드시 포함된 이미지를 클릭하는 것을 감지하고, 개가 포함되어 있는 이미지를 화면 상에 표시한다. 사용자는 반환된 이미지가 두 번째 이미지를 통해 개를 반드시 포함하도록 구성하고자 한다. 따라서 사용자는 두 번째 이미지에서 강아지 영역을 이중 탭한다. 사용자가 두 번째 이미지에서 개 영역을 이중 탭 한 것을 감지한 후, 장치는 인물과 개가 반드시 포함된 이미지를 사용자에게 반환하도록 결정한다.
단계 5: 장치는 사용자의 선택 동작에 대응하는 이미지를 검색한다.
장치는 첫 번째 이미지와 두 번째 이미지에 대한 사용자의 동작을 감지한 후, 첫 번째 이미지와 두 번째 이미지의 결합에 따라 검색 규칙을 생성하고, 검색 규칙에 따라 장치 또는 클라우드 엔드에서 이미지를 검색하고, 검색된 이미지의 썸네일을 화면 상에 표시한다.
도 14c에 도시된 바와 같이, 장치는 사용자가 첫 번째 이미지에서 인물을 이중 탭하고, 두 번째 이미지에서 강아지를 이중 탭 하는 것을 감지한다. 장치는 인물과 개가 반드시 모두 포함되어야 하는 이미지를 사용자에게 반환하도록 결정하고, 이미지들의 썸네일을 화면 상에 표시한다.
이 실시예를 통해, 사용자는 다수의 이미지의 ROI에 따라 필요한 이미지를 신속하게 찾을 수 있다. 따라서, 이미지 검색 속도가 증가된다.
실시예 3: 이미지 영역에 기초한 비디오 탐색
단계 1: 장치가 이미지에서 사용자의 동작을 감지한다.
이미지에 대한 사용자의 동작을 감지하는 구현은 실시예 1 및 2에서 확인할 수 있으며 여기에서는 반복되지 않는다.
장치는 사용자가 이미지에서 하나 이상의 ROI를 선택하는 것을 감지하고, 하나 이상의 ROI에서 사용자의 동작에 따라 검색 규칙을 결정하고, 검색된 이미지 프레임의 썸네일을 화면 상에 표시한다.
도 15a 내지 도 15c는 본 발명의 실시예들에 따른 비디오의 빠른 탐색을 도시한 개략도이다.
도 15a 내지 도 15c에 도시된 바와 같이, 사용자는 반환된 비디오 프레임이 자동차를 반드시 포함하도록 구성하고자 한다. 사용자는 이미지에서 자동차 영역을 이중 탭한다. 장치는 사용자가 이미지에서 자동차의 영역을 이중 탭 하는 것을 감지하면, 자동차를 반드시 포함하는 비디오 프레임을 사용자에게 반환하도록 결정한다.
이미지의 각각의 선택 가능한 영역에 대한 동작 이외에, 장치는 비디오 프레임을 동작할 수 있다. 장치는 재생중인 비디오가 일시 정지되었다는 것을 감지하면, 사용자가 일시 정지된 비디오의 프레임에서 각각의 ROI를 동작할 수 있도록 ROI 기반 검색 모드를 시작한다. 장치는 사용자가 비디오 프레임에서 ROI를 동작하는 것을 감지할 때, 검색 규칙을 결정한다.
예를 들어, 비디오를 재생할 때 장치는 사용자가 일시 정지 버튼을 클릭한 것을 감지하고, 사용자가 비디오 프레임에서 자동차를 이중 탭 하는 것을 감지한다. 장치는 사용자에게 반환된 이미지 또는 비디오 프레임이 자동차를 반드시 포함한다고 판단한다.
단계 2: 장치는 사용자 동작에 대응하는 비디오 프레임을 검색한다.
장치는 이미지 또는 비디오 프레임 상에서 사용자의 동작을 감지한 후, 사용자의 동작에 따라 검색 규칙을 생성하고, 검색 규칙에 따라 장치 또는 클라우드 엔드에서 관련 이미지 또는 비디오 프레임을 검색한다.
이미지 검색의 구현은 실시예 1 및 2와 유사하며 여기서는 반복되지 않는다.
이하, 비디오 내의 관련 비디오 프레임의 검색에 대하여 설명한다.
각 비디오에 대해, 먼저 장면 분할이 비디오에 대해 수행된다. 장면 분할은 비디오 디코딩 중에 프레임 I을 감지하고 프레임 I을 장면의 시작으로 간주하여 수행될 수 있다. 프레임 차이, 색상 히스토그램 차이, 또는 보다 복잡한 시각적 특징(수동으로 정의된 특징 또는 학습 기반 특징)과 같은 프레임 간의 시각적 차이에 따라 비디오를 다른 시나리오의 장면으로 분할하는 것도 가능하다.
각 장면에 대해, 비디오 프레임이 검색 규칙을 따르는지 여부를 판단하기 위해 첫 번째 프레임에서 객체 감지가 수행된다. 비디오 프레임이 검색 규칙을 따르는 경우, 검색 규칙을 따르는 첫 번째 비디오 프레임의 썸네일이 화면 상에 표시된다.
도 15a에 도시된 바와 같이, 장치는 사용자가 자동차 영역을 이중 탭 하는 것을 감지한다. 장치는 비디오를 여러 장면으로 분할하고 각 장면의 비디오 프레임에 자동차가 있는지 여부를 감지한다. 자동차가 존재하는 경우, 자동차를 포함하는 첫 번째 비디오 프레임이 반환된다. 자동차를 포함하는 비디오 프레임을 포함하는 다수의 장면이 있는 경우, 썸네일이 표시되는 동안, 각 장면에서 자동차를 포함하는 첫 번째 비디오 프레임의 썸네일이 표시된다.
도 15b에 도시된 바와 같이, 사용자는 썸네일 상의 아이콘을 통해 썸네일이 분할된 비디오를 나타내는지의 여부를 묻는다.
단계 3: 검색 규칙을 따르는 비디오 장면이 재생된다.
사용자가 검색 규칙을 따르는 분할된 비디오를 보고 싶다면, 사용자는 비디오 아이콘을 포함하는 썸네일을 클릭할 수 있다. 사용자가 비디오 아이콘을 포함하는 썸네일을 클릭하는 것을 감지하면, 장치는 비디오 플레이어로 전환하고 검색 규칙을 따르지 않는 비디오 프레임이 나타날 때까지 사용자의 검색 규칙을 따르는 비디오 프레임의 비디오를 재생하기 시작한다. 사용자는 다른 분할된 비디오 또는 이미지를 계속 탐색하기 위해 비디오 재생을 계속하거나 앨범으로 돌아가도록 선택할 수 있다.
도 15c에 도시된 바와 같이, 사용자는 자동차를 포함하는 비디오 이미지 썸네일을 클릭한다. 장치는 사용자가 자동차가 포함된 비디오 프레임의 썸네일을 클릭하는 것을 감지하면, 이 프레임의 비디오를 재생하기 시작한다.
사용자가 비디오에서 특정 프레임을 찾고자 할 때, 사용자가 프레임의 내용을 안다면, 본 실시예의 방법을 통해 빠른 검색이 구현될 수 있다.
실시예 4: 카메라 프리뷰 모드에서의 빠른 보기.
단계 1: 장치가 카메라 프리뷰 모드에서 사용자의 동작을 감지한다.
사용자는 카메라를 시작하여 카메라 프리뷰 모드로 들어가고 이미지 검색 기능을 시작한다. 장치는 카메라가 시작되고 검색 기능이 활성화되었음을 감지한다. 장치는 카메라를 통해 이미지 입력을 캡쳐하기 시작하고 하나 이상의 입력 이미지에서 ROI를 감지한다. 장치는 이러한 ROI에서 사용자의 동작을 감지한다. 동작 방법은 실시예 1, 2 및 3과 유사할 수 있다.
장치는 사용자가 이미지에서 하나 이상의 ROI를 선택하는 것을 감지하고, 하나 이상의 ROI에서 사용자의 동작에 따라 검색 조건을 판단한다.
도 16은 본 발명의 실시예들에 따른 카메라 프리뷰 모드의 빠른 보기를 도시한 개략도이다.
도 16에 도시된 바와 같이, 프리뷰 모드에서, 사용자는 첫 번째 장면에서 첫 번째 인물을 이중 탭한다. 장치는 첫 번째 장면에서 첫 번째 인물이 이중 탭 된 것을 감지하고, 반환된 이미지가 첫 번째 인물을 반드시 포함한다고 판단한다. 마찬가지로, 사용자는 두 번째 장면에서 두 번째 인물을 이중 탭한다. 장치는 두 번째 인물이 두 번째 장면에서 이중 탭 된 것을 감지하고 반환된 이미지가 첫 번째 인물과 두 번째 인물을 반드시 포함한다고 판단한다. 사용자는 세 번째 장면에서 세 번째 인물을 이중 탭한다. 장치는 세 번째 인물이 세 번째 장면에서 이중 탭 된 것을 감지하고, 반환된 이미지가 첫 번째 인물, 두 번째 인물 및 세 번째 인물을 반드시 포함한다고 판단한다. 장치는 검색 조건에 맞는 발견된 이미지의 썸네일을 화면 상에 표시할 수 있다.
카메라 프리뷰 모드에서 검색 기능을 시작하는 방법은 다양하다.
예를 들어, 카메라 프리뷰 모드에서, 사용자 인터페이스에 버튼을 구성할 수 있다. 장치는 카메라 프리뷰 모드에서 사용자가 버튼을 누른 것을 감지하여 검색 기능을 시작한다. 장치는 이미지의 선택 가능한 영역에서 사용자의 동작을 감지한 후, 검색 조건을 판단한다.
다른 예로서, 카메라 프리뷰 모드에서, 메뉴 버튼은 사용자 인터페이스에서 구성될 수 있고, 이미지 검색 기능을 시작하기 위한 버튼이 이 메뉴에서 구성된다. 장치는 카메라 프리뷰 모드에서 버튼에 대한 사용자 탭을 감지하여 검색 기능을 시작할 수 있다. 장치는 이미지의 선택 가능한 영역에서 사용자의 동작을 감지 한 후, 검색 조건을 판단한다.
다른 예로서, 카메라 프리뷰 모드에서, 장치는 사용자가 스타일러스 펜의 버튼을 누르는 것을 감지하고, 메뉴를 팝 아웃하며, 여기에서 검색 기능을 시작하기 위한 버튼이 메뉴에 구성된다. 사용자가 버튼을 클릭하면, 카메라 프리뷰 모드에서 검색 기능이 시작된다. 장치는 이미지의 선택 가능한 영역에서 사용자의 동작을 감지한 후, 검색 조건을 판단한다.
다른 예를 들면, 장치의 검색 기능이 기본적으로 시작된다. 장치는 이미지의 선택 가능한 영역에서 사용자의 동작을 감지한 후, 검색 조건을 직접 판단한다.
단계 2: 장치가 사용자의 동작에 대응하는 이미지 또는 비디오 프레임을 검색한다.
장치는 카메라 프리뷰 모드에서 사용자의 동작을 감지한 후, 해당 검색 조건을 생성하고, 검색 조건에 따라 장치 또는 클라우드 엔드에서 해당 이미지 또는 비디오 프레임을 검색한다. 검색 조건은 실시예 1과 유사할 수 있으므로 여기서는 반복하지 않는다.
이 실시예에서, 사용자는 프리뷰 모드에서 검색 키워드를 선택함으로써 대응하는 이미지 또는 비디오 프레임을 신속하게 발견할 수 있다.
실시예 5: 개인화된 앨범 트리 계층
단계 1: 장치가 사용자의 이미지를 종합하고 분리한다.
장치는 카테고리 라벨 및 시각적 유사성의 시맨틱에 따라 사용자의 이미지를 종합 및 분리하고, 시맨틱 유사 이미지 또는 시각적으로 유사한 이미지를 종합하고, 시맨틱 차이가 크거나 시각적 차이가 큰 이미지를 분리한다. 시맨틱 개념이 포함된 이미지의 경우, 시맨틱 개념에 따라 종합 및 분리가 수행되며, 예를 들어 풍경 이미지가 종합되고 풍경 이미지 및 운송 수단 이미지가 분리된다. 시맨틱 개념이 없는 이미지의 경우, 빨간색 우위를 갖는 이미지를 종합하고, 빨간색 우위를 갖는 이미지 및 파란색 우위를 갖는 이미지를 분리하는 것과 같이, 시각 정보에 따라 종합 및 분리를 수행한다.
이미지의 종합 및 분리에 관해서는 다음과 같은 방법이 있을 수 있다:
방법 (1), 이 방법은 전체 이미지를 분석하는 것이다. 예를 들어 전체 이미지 또는 전체 이미지의 색상 분포에 따라 이미지의 카테고리가 결정된다. 동일한 카테고리의 이미지가 종합되고 서로 상이한 카테고리의 이미지가 분리된다. 이 방법은 특수 객체를 포함하지 않는 이미지에 적용될 수 있다.
방법 (2), 이 방법은 이미지의 ROI를 분석하는 것이다. 카테고리 라벨을 갖는 ROI의 경우, 카테고리 라벨의 시맨틱에 따라 종합 및 분리가 수행될 수 있다. 동일한 카테고리 라벨을 갖는 ROI는 종합될 수 있고, 상이한 카테고리 라벨을 갖는 ROI는 분리될 수 있다. 카테고리 라벨이 없는 ROI의 경우, 종합 및 분리가 시각적 정보에 따라 수행될 수 있다. 예를 들어 ROI에서 색 막대 그래프를 검색할 수 있다. 히스토그램 거리가 짧은 ROI가 종합될 수 있으며 히스토그램 거리가 긴 ROI가 분리될 수 있다. 이 방법은 특정 객체가 포함된 이미지에 적용할 수 있다. 또한, 이러한 방법으로, 하나의 이미지가 여러 카테고리들로 종합될 수 있다.
방법 (1)과 방법 (2)를 조합할 수도 있다. 예를 들어, 풍경 이미지의 경우, 파란색 우위의 바다 이미지가 한 카테고리에 종합될 수 있고, 녹색 우위의 바다 이미지가 다른 카테고리에 종합될 수 있다. 또 다른 예를 들어, 서로 다른 색상의 자동차 이미지를 여러 카테고리로 종합할 수 있다.
도 17은 본 발명의 실시예들에 따른 개인화된 트리 계층의 제 1 구조를 도시한 개략도이다.
도 17에 도시된 바와 같이, 자동차가 함께 종합되고, 버스는 함께 종합된다.
단계 2: 장치는 종합 및 분리 후 이미지의 트리 계층을 구성한다.
카테고리 라벨을 갖는 ROI 또는 이미지에 관해서, 트리 계층은 카테고리 라벨의 시맨틱 정보에 따라 구성될 수 있다. 트리 계층은 오프라인으로 정의될 수 있다. 예를 들어, 운송 수단은 자동차, 자전거, 오토바이, 비행기, 선박을 포함하고, 자동차는 자동차, 버스, 트럭 등으로 더 분리할 수 있다.
카테고리 라벨이 없는 ROI 또는 이미지의 경우, 함께 종합된 이미지의 평균 시각 정보가 먼저 계산될 수 있다. 예를 들어, 종합된 각 이미지에 대해 색 막대 그래프를 계산할 수 있다. 그 다음 히스토그램에 평균값을 계산하여 종합된 이미지의 시각적 라벨로 간주될 수 있다. 카테고리 라벨이 없는 각 종합 세트에 대해, 시각적 라벨이 계산되고 시각적 라벨 간의 거리가 계산된다. 근거리에 있는 시각적 라벨은 상위 계층의 시각적 라벨로 추상화된다.
예를 들어, 종합 및 분리 과정에서 파란색 우위의 이미지는 첫 번째 종합 세트로 종합되고, 노란색 우위의 이미지는 두 번째 종합 세트로 종합되며, 빨간색 우위의 이미지는 세 번째 종합 세트로 종합된다. 세 가지 종합 세트의 시각적 라벨 간의 거리가 계산된다. 노란색에는 파란색 정보가 포함되므로 노란색 시각적 라벨과 파란색 시각적 라벨은 하나의 카테고리로 추상화된다.
단계 3: 장치가 트리 계층을 수정한다.
먼저, 각 계층의 이미지 개수를 결정한다. 이미지의 개수가 소정의 임계값을 초과하면 다음 계층의 라벨이 사용자에게 노출된다.
예를 들어 한 계층의 이미지 개수에 대해 소정의 임계값이 20이라고 가정한다. 풍경 라벨에 50개의 이미지가 있다. 따라서 바다, 산 및 사막과 같은 라벨이 만들어진다.
장치는 사용자의 수동 구성에 따라 강제적으로 표시되도록 카테고리를 구성 할 수 있다. 예를 들어 한 계층의 이미지 개수에 대해 소정의 임계값이 20이고 장면 라벨에 이미지가 15개 있다고 가정한다. 장치는 사용자가 바다 이미지를 개별적으로 표시하도록 수동으로 구성한 것을 감지한다. 따라서 바다의 라벨이 표시되고 다른 풍경 라벨이 하나의 카테고리로 표시된다.
서로 상이한 사용자에게 이미지는 그들의 장치에서 다르게 배포될 수 있다. 따라서, 장치에 표시된 트리 계층도 서로 상이할 수 있다.
도 18은 본 발명의 실시예들에 따른 제 2 개인화된 트리 계층의 개략도이다.
도 17에서, 사용자 1의 운송 수단 라벨에는 자전거, 자동차, 비행기, 선박을 포함한 4가지 카테고리가 있으며, 자동차에는 자동차, 버스 및 트램카가 추가로 포함되고, 자동차 및 버스는 색상별로 더 분류될 수 있다.
그러나, 도 18에서, 사용자 2의 운송 수단 라벨에는 단지 색이 상이한 자동차만 존재한다.
실시예 6: 개인화된 이미지 카테고리 정의 및 분류
실시예 6은 사용자의 동작에 따라 앨범의 이미지에 대한 개인화된 카테고리 정의를 실현할 수 있으며, 개인화된 카테고리로의 이미지 분류를 실현할 수 있다.
단계 1: 장치는 이미지의 라벨을 수정해야 하는지 여부를 판단한다.
장치는 사용자가 이미지의 속성 관리 인터페이스에서 수동으로 수정하는지 여부를 판단한다. 그러한 경우, 장치는 이미지 분류에 사용되는 새로운 카테고리를 생성한다. 예를 들어, 사용자는 이미지를 탐색할 때 그림의 이미지 라벨을 "그림"에서 "내 그림"으로 수정한다. 장치는 이미지 속성에 대한 사용자 수정을 감지하고 이미지의 라벨을 수정해야 한다고 판단한다.
장치는 사용자가 이미지를 관리할 때 특별한 동작을 했는지 여부를 판별한다. 그러한 경우, 장치는 이미지 분류를 위한 새로운 카테고리를 생성한다. 예를 들어, 사용자는 이미지를 관리할 때 새 폴더를 만들고 이 폴더의 이름을 "내 그림(my paintings)"으로 지정하고 일련의 이미지들을 이 폴더로 이동한다. 장치는 새 폴더가 만들어지고 이미지가 폴더로 이동되었음을 감지하고, 이미지 종합의 라벨을 수정해야 한다고 판단한다.
장치는 사용자가 소셜 애플리케이션을 사용할 때 이미지를 공유했는지 여부를 판단한다. 가족 그룹에서는, 가족 구성원과 관련된 이미지를 공유할 수 있다. 애완 동물과 관련된 교환 그룹에서는, 애완 동물과 관련된 이미지를 공유할 수 있다. 독서 그룹에서는, 책에 대한 이미지를 공유할 수 있다. 장치는 사용자의 동작을 분석함으로써 앨범 내의 이미지들을 사회적 관계와 연관시키고, 이미지의 라벨이 수정되어야 한다고 판단한다.
단계 2: 개인화된 카테고리가 생성된다.
이미지의 라벨을 수정해야 한다고 판단하면, 장치는 새 카테고리 정의를 생성한다. 카테고리에는 고유 식별자가 지정된다. 동일한 고유 식별자를 가진 이미지는 동일한 카테고리에 속한다. 예를 들어, 1 단계의 그림 이미지에는 동일한 고유 식별자인 "내 그림"이 지정된다. 패밀리 그룹에서 공유되는 이미지에는 동일한 고유 식별자 "패밀리 그룹"이 지정된다. 유사하게, 각각의 다른 그룹과 공유되는 이미지에는 "애완 동물" 또는 "독서"와 같은 고유 식별자가 지정된다.
단계 3: 개인화된 카테고리의 차이 정도가 판단된다.
장치는 개인화된 카테고리의 이름을 분석하고, 개인화된 카테고리를 구현하는 방법을 판단하기 위해, 미리 설정된 카테고리와 비교한 이름의 차이 정도를 판단한다.
예를 들어 개인화된 카테고리의 이름은 "흰색 애완 동물"이다. 장치는 카테고리가 두 개의 요소로 구성되어 있다고 분석한다. 하나는 색 속성 "흰색"이고 다른 하나는 객체 유형의 "애완 동물"이다. 장치에는 미리 설정된 하위 카테고리인 "흰색" 및 "애완 동물"이 있다. 따라서 장치는 이 두 가지 하위 카테고리를 연결한다. "흰색"과 "애완 동물"로 분류된 모든 이미지는 "흰색 애완 동물"로 다시 분류된다. 따라서, 개인화된 카테고리 분류가 실현된다.
장치의 미리 설정된 하위 카테고리에 "흰색" 및 "애완 동물"이 포함되어 있지 않은 경우, 모델을 트레이닝해야 한다. 예를 들어, 사용자가 수집한 "흰색 애완 동물" 이미지를 클라우드 엔드로 업로드 한다. 클라우드 서버는 원래 모델에 새 카테고리를 추가하고 업로드 된 이미지에 따라 트레이닝한다. 트레이닝이 끝난 후, 업데이트된 모델이 사용자 장치에 반환된다. 새 이미지가 사용자의 앨범에 나타나면 업데이트된 모델을 사용하여 이미지를 분류한다. 이미지가 "흰색 애완 동물" 카테고리에 속한 것의 신뢰도가 임계값을 초과하면 이미지가 "흰색 애완 동물" 카테고리로 분류된다.
단계 4: 장치가 장치와 클라우드 엔드 간의 분류 일관성을 판단한다.
클라우드 엔드와 장치에서 한 이미지의 분류 결과가 다른 경우, 결과를 최적화해야 한다. 예를 들어, "개"의 이미지의 경우, 장치의 분류 결과는 "고양이"이고 클라우드 엔드의 분류 결과는 "개"이다.
장치가 사용자 피드백을 감지하지 못하는 경우: 임계값을 0.9로 설정하고 클라우드 엔드의 분류 신뢰도가 0.9보다 높고 장치의 분류 신뢰도가 0.9보다 낮으면, 이미지가 "개"로 분류되어야 한다고 간주된다. 반대로, 클라우드 엔드의 분류 신뢰도가 0.9보다 낮고 장치의 분류 신뢰도가 0.9보다 높으면 이미지에 "고양이"라고 표시되어야 한다. 클라우드 엔드와 장치의 분류 신뢰도가 0.9보다 낮으면 이미지의 카테고리를 한 계층씩 올리고 "애완 동물"이라고 표시해야 한다.
장치가 사용자의 긍정적인 피드백을 감지한 경우: 잘못된 분류 결과가, 잘못 분류된 이미지, 이미지가 분류된 카테고리 및 사용자가 지정한 올바른 카테고리를 포함하여 클라우드 엔드에 업로드되며 모델 트레이닝이 시작되었다. 트레이닝을 마친 후, 새 모델이 업데이트를 위해 장치에 제공된다.
실시예 7: 장치의 빠른 보기.
실시예 7은 실시예 5의 트리 계층에 기반한 빠른 보기를 구현할 수 있다.
단계 1: 장치가 특정 계층의 라벨 카테고리를 표시한다.
사용자가 특정 계층을 탐색할 때 장치는 사용자가 계층을 탐색하고 있음을 감지하고, 이 계층에 포함된 모든 라벨 카테고리를 텍스트 또는 이미지 썸네일과 같은 방법으로 사용자에게 표시한다. 이미지 썸네일 그림이 표시되면 카테고리에 대해 미리 설정된 아이콘이 표시되거나 앨범의 실제 이미지가 표시될 수 있다. 가장 최근에 수정된 이미지의 썸네일을 표시하도록 선택하거나 카테고리에서 가장 높은 신뢰도를 갖는 이미지의 썸네일을 표시하도록 선택하는 것이 가능하다.
단계 2: 장치가 사용자의 동작을 감지하고 피드백을 제공한다.
사용자는 다음 라벨을 입력할 수 있도록 각 라벨 카테고리에 대해 동작할 수 있다.
도 19는 본 발명의 실시예들에 따른 모바일 단말에서의 트리 계층 빠른 보기를 도시한 개략도이다.
도 19에 도시된 바와 같이, 사용자가 라벨을 단일 탭하면, 장치는 라벨이 단일 탭 되었음을 감지하고 라벨의 다음 계층을 표시한다. 예를 들어 사용자는 풍경 라벨을 탭한다. 장치는 풍경 라벨이 단일 탭임을 감지하고, 바다, 산, 내륙수, 사막을 포함한 라벨들을 풍경 라벨 아래에 사용자에게 표시한다. 사용자가 내륙수를 더 단일 탭하면, 장치는 내륙수 라벨이 단일 탭임을 감지하고, 이 라벨 아래의 라벨을 폭포, 강 및 호수를 포함하여 사용자에게 표시한다.
사용자는 각 라벨 카테고리에서 동작하여 라벨 카테고리에 포함된 모든 이미지를 볼 수 있다.
도 19에 도시된 바와 같이, 사용자는 라벨을 길게 누른다. 장치는 라벨이 길게 눌린 것을 감지하고 라벨의 모든 이미지를 표시한다. 사용자가 풍경 라벨을 길게 누를 때, 장치는 사용자가 풍경 라벨을 길게 누르는 것을 감지하고, 바다, 산, 내륙수 및 사막을 포함하여 풍경으로 라벨이 붙은 모든 이미지를 사용자에게 표시한다. 사용자가 내륙수 라벨을 길게 누를 때, 장치는 사용자가 내륙수 라벨을 길게 누르는 것을 감지하고, 폭포, 호수 및 강을 포함하여 내륙수로 분류된 모든 이미지를 사용자에게 표시한다. 사용자가 폭포를 길게 누르면, 장치는 폭포 라벨이 길게 눌린 것을 감지하고, 모든 폭포 이미지를 사용자에게 표시한다.
또한 사용자는 음성 방법으로 동작할 수도 있다. 예를 들어, 사용자는 "내륙수 입력"을 음성으로 입력한다. 장치는 사용자의 음성 입력 "내륙수 입력"을 감지하고, 자연 언어 처리에 따라 사용자의 동작이 "입력"이고 동작 객체가 "내륙수"임을 판단한다. 장치는 폭포, 강 및 호수 포함한 라벨을 내륙수 라벨 아래에 사용자에게 표시한다. 사용자가 음성을 통해 "내륙수 보기"를 입력하면, 장치는 음성 입력 "내륙수 보기"를 감지하고, 자연 언어 처리에 따라 동작이 "보기"이고 동작 객체가 "내륙수"임을 판단한다. 장치는 폭포, 호수 및 강의 이미지를 포함하여 내륙수로 표시된 모든 이미지를 사용자에게 표시한다.
이 실시예에서, 사용자는 시각화된 썸네일 방법으로 이미지를 분류함으로써, 카테고리에 따라 신속하게 이미지를 찾을 수 있다. 따라서, 보기 및 검색 속도가 증가한다.
실시예 8: 작은 화면 상에서의 빠른 보기
일부 전자 장치에는 매우 작은 화면이 있다. 실시예 8은 다음과 같은 해결책을 제공한다.
도 20은 본 발명의 실시예들에 따른 소형 화면 장치에 의한 트리 계층의 빠른 보기를 도시한 흐름도이다. 작은 화면 장치는 이미지를 요청하고(2001) 이미지의 속성 리스트에 대해 질의한다(2003). 이미지의 속성 리스트에 하나 이상의 ROI가 포함되어 있으면(2005) ROI가 정렬된다(2009). 정렬 방법은 전술한 빠른 보기 및 검색에서 볼 수 있다. 첫 번째 ROI 순위가 화면 상에 표시된다(2011). 장치가 사용자의 영역 전환 표시를 감지하면(2013) 다음 ROI가 표시된다(2015). 속성 리스트에 ROI가 없으면, 이미지의 중앙 부분이 표시된다(2007).구체적으로, 실시예 8은 실시예 5의 트리 계층에 따라 구현될 수 있다.
단계 1: 장치가 특정 계층의 라벨 카테고리를 표시한다.
사용자가 특정 계층을 탐색할 때, 장치는 사용자가 계층을 탐색하고 있는 것을 감지하고, 텍스트 또는 이미지 썸네일과 같은 방법으로 사용자에게 계층의 라벨 카테고리를 표시한다. 이미지 썸네일이 표시되면, 카테고리에 대해 미리 설정된 아이콘이 표시되거나 앨범의 실제 이미지가 표시될 수 있다. 가장 최근에 수정된 이미지의 썸네일을 표시하도록 선택하거나, 카테고리에서 가장 높은 신뢰도를 갖는 이미지의 썸네일을 표시하도록 선택하는 것이 가능하다.
도 21a 내지 도 21b는 본 발명의 실시예들에 따른 소형 화면 장치에서의 트리 계층 빠른 보기를 도시한 개략도이다.
도 21a에 도시된 바와 같이, 사용자가 운송 수단, 애완 동물 및 풍경으로 구성된 계층을 탐색할 때, 장치는 그 계층이 탐색되었음을 감지하고, 매번 운송 수단, 애완 동물 또는 풍경과 같은 카테고리들 중 하나의 썸네일을 화면 상에 표시한다.
단계 2: 장치가 사용자의 동작을 감지하고 피드백을 제공한다.
사용자는 서로 상이한 라벨 카테고리간의 전환을 위해 각 라벨 카테고리를 동작할 수 있다. 도 21a에 도시된 바와 같이, 장치는 초기에 운송 수단 카테고리의 라벨을 표시한다. 사용자가 화면 상에서 손가락을 슬라이드 한다. 장치는 화면 상에서 사용자의 슬라이딩 동작을 감지하고, 운송 수단 카테고리의 라벨에서 애완 동물 카테고리의 라벨로 전환한다. 다음 번 사용자의 슬라이딩 동작을 감지하면, 장치는 애완 동물 카테고리에서 풍경 카테고리로 전환한다.
라벨 전환을 수행하기 위해 다른 방법이 채택될 수 있음을 알아야 한다. 위의 내용은 단지 예일뿐이다.
사용자는 각 라벨 카테고리를 동작하여 라벨 카테고리에 포함된 모든 이미지를 볼 수 있다. 표시되는 동안, 단지 이미지들만 매번 표시되고, 사용자는 다른 이미지들을 표시하도록 제어할 수 있다.
도 21a에 도시된 바와 같이, 사용자가 라벨을 단일 탭 하면, 장치는 라벨이 단일 탭 되어 있음을 감지하고, 이 라벨 아래의 이미지 중 하나를 표시한다. 예를 들어 사용자는 풍경 라벨을 탭한다. 장치는 풍경 라벨이 단일 탭 되어 있음을 감지하고 풍경 라벨 아래의 사막 장면이 포함된 이미지를 사용자에게 표시한다. 사용자의 슬라이드 동작을 감지하면 장치는 풍경 라벨 아래에 다른 이미지를 표시한다.
이미지들을 전환하기 위해 다른 동작들이 채택될 수 있다는 것을 알아야 한다. 위의 내용은 단지 예일뿐이다.
사용자는 각 층에서 동작하여 계층을 전환할 수 있다. 사용자의 제 1 종류의 동작을 감지할 때, 장치는 다음 계층으로 들어간다. 사용자의 제 2 종류의 동작을 감지할 때, 장치는 상위 계층으로 복귀한다.
도 21b에 도시된 바와 같이, 장치는 풍경 및 운송 수단의 계층을 표시한다. 장치가 자동차의 라벨을 표시하면 사용자는 다이얼을 시계 방향으로 돌린다. 장치는 다이얼이 시계 방향으로 회전하는 것을 감지하고, 풍경 및 운송 수단 계층에서 다음 계층으로 들어가고, 다음 계층은 비행기, 자전거 등의 라벨을 포함한다. 사용자는 슬라이딩 동작을 통해 다른 라벨 카테고리로 전환할 수 있다(예를 들면, 자전거에서 비행기로 전환). 사용자가 다이얼을 반 시계 방향으로 돌리면 장치가 다이얼의 반 시계 방향 회전을 감지하고, 자전거 및 비행기 계층에서 상위 계층으로 전환하고, 상위 계층은 풍경 및 자동차 라벨을 포함한다. 다른 동작들이 계층을 스위칭하기 위해 채택될 수 있다는 것을 알아야 한다. 위의 내용은 단지 예일뿐이다.
유사하게, 사용자는 음성을 통해 상기를 구현할 수도 있다. 예를 들어, 사용자는 "내륙수 입력"을 음성으로 입력한다. 장치는 음성 입력 "내륙수 입력"을 감지하고, 사용자의 동작이 "입력"이고 동작 객체가 "내륙수"임을 자연 언어 처리에 따라 판단하고, 내륙수 라벨 아래에 폭포, 강 및 호수 라벨을 사용자에게 표시한다. 사용자가 음성을 통해 "내륙수 보기"를 입력하면, 장치는 사용자의 음성 입력 "내륙수 보기"를 감지하고, 사용자의 동작이 "보기"이고 동작 객체가 "내륙수"임을 자연 언어 처리에 따라 판단하고, 폭포, 호수 및 강을 포함하여 내륙수로 표시된 모든 이미지를 사용자에게 표시한다. 다른 예로서, 사용자는 음성을 통해 "상위 계층으로 돌아가기"를 입력한다. 장치는 사용자의 음성 입력 "상위 계층으로 돌아가기"를 감지하고 상위 계층으로 전환한다.
음성 입력은 다른 내용을 가질 수도 있음을 알아야 한다. 위의 내용은 단지 예일뿐이다.
실시예 9: 작은 화면상의 이미지 표시.
일부 전자 장치에는 작은 화면이 있다. 사용자는 이러한 장치를 사용하여 다른 장치 또는 클라우드 엔드의 이미지를 볼 수 있다. 이러한 전자 장치에 대한 빠른 보기를 구현하기 위해, 본 발명의 실시예는 다음의 해결책을 제공한다.
단계 1: 장치가 표시할 이미지의 ROI 수를 결정한다.
장치는 이미지의 영역 리스트에 따라 이미지에 포함된 ROI의 수를 확인하고, ROI의 수에 따라 다른 표시 방법을 선택한다.
단계 2: 장치가 이미지의 ROI 수에 따라 표시 방법을 결정한다.
장치는 이미지의 ROI 수를 감지하고 ROI 수에 따라 다른 표시 방법을 선택한다.
도 22는 본 발명의 실시예들에 따른 소형 화면 장치에서의 이미지 표시를 도시한 개략도이다.
도 22에 도시된 바와 같이, 장치가 풍경 이미지에 ROI가 포함되어 있지 않음을 감지하면, 장치는 전체 이미지의 썸네일을 화면 상에 표시한다. 화면의 차이를 고려하여, 필요하다면 원 이미지로부터 일부분을 잘라낼 수 있다. 예를 들면, 화면이 둥근 경우, 내접원은 이미지의 중심으로부터 잘릴 수 있다.
장치가 이미지에 ROI가 있음을 감지하면, 장치는 하나의 ROI를 선택하고 ROI를 화면 중앙에 표시한다. 선택은 사용자의 시선 히트맵에 따라 수행될 수 있다. 사용자가 가장 관심을 갖는 ROI가 적합하게 표시될 수 있다. 선택은 영역의 카테고리 신뢰도에 따라 수행될 수도 있다. 신뢰도가 가장 높은 ROI가 적합하게 표시될 수 있다.
단계 3: 장치가 사용자의 여러 동작을 감지하고 피드백을 제공한다.
사용자는 장치에서 다른 동작을 수행한다. 장치는 다른 동작을 감지하고 다른 동작에 따라 다른 피드백을 제공한다. 이 동작을 통해 사용자는 이미지를 확대하고 축소할 수 있다. 이미지에 ROI가 여러 개 있는 경우 사용자는 일부 동작을 통해 ROI간에 전환할 수 있다.
예를 들어, 사용자의 손가락이 화면을 좁히는 경우, 장치는 사용자의 손가락이 화면을 좁힌 것을 감지하고, 이미지의 긴 면이 장치의 짧은 면과 같아질 때까지 화면 상에 표시된 이미지를 축소한다.
예를 들어, 사용자의 손가락이 화면을 넓히는 경우, 장치는 사용자의 손가락이 화면을 넓힌 것을 감지하고, 화면 상에 표시된 이미지를 원본 이미지의 몇 배로 확대될 때까지 이미지를 확대한다. 몇 배인지는 미리 정의될 수 있다.
다른 예를 들면, 도 22에 도시된 바와 같이, 사용자가 다이얼을 돌릴 때, 장치는 다이얼이 회전된 것을 감지하고, 화면의 중간에 서로 상이한 ROI가 표시된다. 사용자가 다이얼을 시계 방향으로 돌리면 장치는 다이얼이 시계 방향으로 회전하는 것을 감지하고, 화면 중간에 다음 ROI가 표시된다. 사용자가 다이얼을 반 시계 방향으로 돌리면, 장치가 다이얼이 반 시계 방향으로 회전한 것을 감지하고, 화면 중간에 이전 ROI를 표시한다.
이 실시예를 통해, 사용자는 작은 화면 장치에서 이미지를 편리하게 볼 수 있다.
실시예 10: ROI에 기초한 이미지 전송(1)
현재 점점 더 많은 사람들이 클라우드 엔드에 이미지를 저장한다. 이 실시예는 장치상의 클라우드 엔드에서 이미지를 보는 방법을 제공한다.
단계 1: 장치는 규칙에 따라 전송 모드를 결정한다.
장치는 장치의 환경 또는 조건에 따라 전송 모드를 선택하도록 판단할 수 있다. 환경 또는 조건은 클라우드 엔드 또는 다른 장치로부터 장치에 의해 요청 된 이미지의 수를 포함할 수 있다.
전송 모드는 주로 두 가지를 포함한다. 하나는 완전한 전송이고 다른 하나는 적응형 전송이다. 완전 전송 모드는 모든 데이터를 압축하지 않고 장치로 전송한다. 적응형 전송 모드는 데이터 압축 및 다수 회 전송을 통해 대역폭 및 전력 소비를 절약할 수 있다.
도 23은 본 발명의 실시예들에 따른 상이한 전송량 하에서의 전송 모드를 도시한 개략도이다.
도 23에 도시된 바와 같이, 이미지 전송 동안, 임계값 N은 미리 구성될 수 있다. N은 소정의 값, 예를 들어 10 일 수 있다. N의 값은 또한 이미지 크기 및 요청된 이미지의 개수에 따라 계산될 수 있다. N은 N개의 이미지를 완전히 전송하는 트래픽이 N개의 이미지를 적응형으로 전송하는 트래픽보다 1 회 적음을 만족하는 최대 값이다.
장치가 N개 미만의 이미지가 사용자에 의해 요청된 것을 감지하면, 완전 전송 모드가 이미지를 전송하기 위해 채택된다. 장치가 N개 이상의 이미지가 사용자에 의해 요청된 것을 감지하면 적응형 전송 모드가 이미지를 전송하기 위해 채택된다.
단계 2: 이미지는 완전 전송 모드를 통해 전송된다.
장치가 사용자에 의해 요청된 이미지의 수가 N보다 작은 것을 감지하면, 이미지는 완전 전송 모드를 사용하여 전송된다. 이 때 전송될 이미지에는 압축이나 처리가 수행되지 않는다. 원본 이미지는 네트워크를 통해 요청한 장치로 완전히 전송된다.
단계 3: 이미지는 적응형 전송 모드를 통해 전송된다.
적응형 전송 모드에서, 전체 이미지 압축은 전송될 데이터의 양을 줄이기 위해, 예를 들어 이미지 크기를 압축하거나 더 높은 압축비로 압축 알고리즘을 선택하기 위해 클라우드 엔드 또는 다른 장치에서 N개의 이미지에 대해 수행된다. N개의 압축된 이미지는 사용자의 프리뷰를 위해 네트워크 연결을 통해 요청하는 장치로 전송된다.
사용자가 N개의 이미지 중 일부 또는 전부를 보려고 선택하는 경우, 장치는 이미지 A가 전체 화면 보기로 표시됨을 감지하고, 부분적으로 압축된 이미지를 클라우드 엔드 또는 다른 장치에 요청한다. 클라우드 엔드 또는 다른 장치는 부분 압축 이미지(A)의 요청을 수신한 후, 낮은 압축비로 ROI가 압축되고 ROI 이외의 배경이 높은 압축비로 압축되는 규칙에 따라 원본 이미지(A)를 압축한다. 클라우드 엔드 또는 다른 장치는 부분적으로 압축된 이미지를 장치로 전송한다.
도 23에 도시된 바와 같이, 사용자가 요청한 이미지의 ROI는 비행기와 자동차를 포함한다. 비행기와 자동차의 영역은 낮은 압축비로 압축된다. 따라서, 사용자는 비행기 및 자동차의 세부 사항을 명확하게 볼 수 있다. 비행기와 자동차 이외의 영역은 트래픽을 줄이기 위하여 높은 압축비로 압축된다.
사용자가 추가로 이미지를 동작하거나, 원본 이미지를 편집, 확대, 공유 또는 직접 요청하면, 장치는 클라우드 엔드 또는 다른 장치로부터 압축되지 않은 원본 이미지를 요청한다. 장치의 요구를 수신한 후, 클라우드 엔드 또는 다른 장치는 압축되지 않은 원본 이미지를 장치로 전송한다.
이 실시예를 통해, 장치의 전송량이 일정 범위 내로 제한될 수 있고, 데이터 전송량이 감소될 수 있다. 또한, 전송될 이미지가 너무 많으면, 사용자가 필요한 이미지를 신속하게 볼 수 있게 하기 위하여 이미지의 품질이 저하될 수 있다.
실시예 11: ROI에 기초한 이미지 전송(2)
현재 점점 더 많은 사람들이 이미지를 클라우드 엔드에 저장한다. 이 실시예는 장치상의 클라우드 엔드 이미지를 보는 방법을 제공한다.
단계 1: 장치가 규칙에 따라 전송 모드를 결정한다.
장치는 장치의 환경 또는 조건에 따라 전송 모드를 선택할 수 있다. 환경 또는 조건은 장치의 네트워크 연결 유형(예를 들면, WiFi 네트워크, 운영자 통신 네트워크, 유선 네트워크 등), 장치의 네트워크 품질(예를 들면, 고속 네트워크, 저속 네트워크 등) 및 사용자가 수동으로 설정한 이미지 품질 등일 수 있다.
전송 모드는 주로 세 가지 유형을 포함한다. 첫 번째는 완전한 전송이고 두 번째는 부분 압축 전송이고 세 번째는 완전히 압축된 전송이다. 완전 전송 모드는 모든 데이터를 압축하지 않고 장치로 전송한다. 부분 압축 전송모드는 장치에 전송하기 전에 데이터를 부분적으로 압축한다. 완전 압축 전송 모드는 장치에 전송하기 전에 데이터를 완전히 압축한다.
도 24는 본 발명의 실시예들에 따른 상이한 네트워크 전송 상황 하에서의 전송 모드를 도시한 개략도이다.
도 24에 도시된 바와 같이, 장치가 WiFi 네트워크 또는 유선 네트워크에 있는 경우, 데이터 전송 요금은 고려되지 않는다. 장치가 사용자가 이미지를 요청하는 것을 감지하면, 장치는 완전 전송 모드를 통해 이미지를 전송한다.
도 24에 도시된 바와 같이, 장치가 운영자의 네트워크에 있으면 데이터 전송 요금을 고려할 필요가 있다. 장치는 사용자가 이미지를 요구하는 것을 감지할 때, 완전 전송 모드, 부분 압축 전송모드 또는 완전 압축 전송 모드를 통해 장치로 이미지를 전송될 수 있다. 선택은 미리 설정된 디폴트 전송 모드 또는 사용자가 선택한 전송 모드에 따라 구현될 수 있다. 이 실시예를 통해 사용자가 운영자의 네트워크에 있을 때 데이터 전송량을 줄일 수 있다.
장치는 또한 네트워크 품질에 따라 전송 모드를 선택하도록 판단할 수 있다. 예를 들어, 네트워크 품질이 양호하면 완전 전송 모드가 선택 될 수 있다. 부분 압축 전송은 네트워크 품질이 보통인 경우에 선택될 수 있다. 완전 압축 전송 모드는 네트워크 품질이 좋지 않은 경우에 선택될 수 있다. 이 실시예를 통해, 사용자는 필요한 이미지를 신속하게 볼 수 있다.
단계 2: 이미지가 완전 전송 모드를 통해 전송된다.
완전 전송 모드를 통해 이미지를 전송될 때, 클라우드 장치는 전송될 이미지를 압축하거나 처리하지 않으며, 이미지를 네트워크를 통해 사용자 장치로 완전히 전송한다.
단계 3: 이미지가 부분 압축 전송 모드를 통해 전송된다.
이미지가 부분 압축 전송 모드를 통해 전송될 때, 사용자 장치는 클라우드 엔드 또는 다른 장치로부터 부분적으로 압축된 이미지를 요청한다. 요청을 받은 클라우드 엔드 또는 다른 장치는 이미지의 ROI가 낮은 압축비로 압축되고 ROI 이외의 배경이 높은 압축비로 압축되는 규칙에 따라 이미지를 압축한다. 클라우드 엔드 또는 다른 장치는 부분적으로 압축된 이미지를 네트워크를 통해 사용자 장치로 전송한다.
도 24에 도시된 바와 같이, 사용자가 요청한 이미지의 ROI는 비행기 및 자동차를 포함한다. 따라서, 비행기 및 자동차의 영역은 낮은 압축비로 압축되어, 사용자는 비행기 및 자동차의 세부 사항을 명확하게 볼 수 있다. 비행기와 자동차 이외의 영역은 높은 압축비로 압축되어 트래픽을 줄인다.
단계 4: 이미지가 완전 압축 전송 모드를 통해 전송된다.
전송될 데이터의 양을 줄이기 위하여, 클라우드 엔드 또는 다른 장치에서 요청된 이미지에 대해 전체 이미지 압축이 먼저 수행되며, 예를 들어 이미지 크기를 압축하거나 보다 높은 압축비로 압축 알고리즘을 선택한다. 압축된 이미지는 사용자의 프리뷰를 위해 네트워크를 통해 요청 장치로 전송된다.
단계 1에서 결정된 전송 모드에 따라, 단계 2, 3 및 4가 선택적으로 수행될 수 있다.
실시예 12: 썸네일 보기 모드에서의 빠른 공유.
공유될 이미지의 결정은 장치에 의해 자동으로 또는 사용자에 의해 수동으로 구현될 수 있다.
장치가 자동으로 공유할 이미지를 결정하면 장치는 이미지 내용을 분석하여 공유 후보 이미지를 결정한다. 장치는 이미지의 각 ROI의 카테고리 라벨을 감지하고, 동일한 카테고리 라벨을 갖는 이미지를 하나의 후보 세트에 넣는다. 예를 들어, 애완 동물을 포함하는 모든 이미지를 하나의 후보 세트로 둔다.
장치는 이미지들에서 나타나는 연락처들에 따라 공유 후보 세트를 판단할 수 있다. 장치는 인물 카테고리 라벨을 사용하여 ROI에서 각 인물의 신원을 파악하고, 동일한 연락처 또는 동일한 연락처 그룹의 이미지를 하나의 후보 세트로 결정한다.
장치는 또한 기간을 결정할 수 있고, 기간 내에 촬영된 이미지를 공유 후보로서 결정할 수 있다. 기간은 촬영 시간, 지리적 위치와 같은 정보의 분석에 따라 구성될 수 있다. 기간은 미리 정의 될 수 있으며, 예를 들어 매 24 시간이 하나의 기간으로 구성될 수 있다. 각 24 시간 내에 촬영된 이미지는 하나의 공유 후보 세트로 결정된다.
기간은 또한 지리적 위치의 변화에 따라 결정될 수 있다. 장치는 장치가 첫 번째 시간 경우의 첫 번째 지리적 위치, 두 번째 시간 경우의 두 번째 지리적 위치 및 세 번째 시간 경우의 세 번째 지리적 위치에 있음을 감지한다. 첫 번째 지리적 위치와 세 번째 지리적 위치는 같다. 따라서, 장치는 두 번째 시간 경우로부터 세 번째 시간 경우까지의 기간을 구성한다. 예를 들어 장치는 장치가 한 달의 1 일에 북경에, 2 일에 난징에, 그리고 3 일에 북경에 있다는 것을 감지한다.
그 다음, 장치는 2 일에서 3 일 사이의 기간을 구성한다. 2 일째부터 3 일째까지 촬영한 이미지를 공유 객체 세트로 결정한다. 장치의 지리적 위치가 변경되었는지를 판단할 때, 장치는 각각의 지리적 위치들 사이의 거리를 감지할 수 있다. 예를 들어, 특정 거리를 이동한 후 장치는 지리적 위치가 변경된 것으로 판단한다. 거리는 예를 들어, 20 킬로미터와 같이 미리 정의될 수 있다.
사용자가 공유 후보 이미지를 수동으로 선택하면, 사용자는 썸네일을 동작하여 공유될 이미지를 선택한다(예를 들면, 이미지를 길게 누름). 장치는 사용자의 동작을 감지 한 후, 동작된 이미지를 공유 후보 세트에 추가한다.
단계 2: 장치가 썸네일 보기 모드에서 이미지를 공유하도록 사용자에게 요청한다.
장치가 썸네일 보기 모드에 있음을 감지하면 장치는 몇 가지 방법을 통해 공유 후보 세트의 사용자에게 메시지를 표시한다. 예를 들어, 장치는 동일한 색상의 동일한 후보 종합에 있는 이미지의 썸네일을 프레임할 수 있다. 후보 세트에는 공유 버튼이 표시될 수 있다. 사용자가 공유 버튼을 클릭하면 장치는 공유 버튼이 클릭된 것을 감지하고 공유 모드를 시작한다.
단계 3: 공유 후보 종합을 공유한다.
공유 후보 종합은 다른 연락처와 개별적으로 공유될 수 있다. 장치는 연락처와, 연락처가 포함된 이미지를 공유한다. 장치는 우선 공유 후보 세트의 각 이미지가 어떤 연락처를 포함하는지를 판단한 후 대응하는 연락처에 각각 이미지를 전송한다.
도 25는 본 발명의 실시예들에 따른 썸네일 보기 인터페이스에서의 이미지 공유를 도시한 제 1 개략도이다.
도 25에 도시된 바와 같이, 장치는 이미지 1과 이미지 2를 하나의 후보 공유 세트로 판단하고, 이미지 1은 연락처 1과 2를 포함하고 이미지 2는 연락처 1과 3을 포함한다는 것을 감지한다.
사용자가 각 연락처에 공유하기 위해 클릭하면, 장치는 이미지 1과 2를 연락처 1에 전송하고 이미지 1을 연락처 2에 전송하고 이미지 2를 연락처 3에 전송한다. 따라서 사용자는 동일한 이미지를 다른 사용자에게 제공하기 위하여 연락처 3에 대한 반복 동작을 수행할 필요가 없다.
후보 공유 세트는 연락처 그룹과 일괄적으로 공유될 수도 있다. 장치는 각 연락처를 포함하는 이미지를 연락처가 포함된 그룹과 공유한다. 장치는 우선 공유 후보 세트의 각 이미지에 포함된 연락처를 결정하고, 공유 후보 세트와 정확히 동일한 연락처를 포함하는 연락처 그룹이 있는지 여부를 판단한다.
긍정인 경우, 공유 후보 세트의 이미지가 연락처 그룹에 자동으로 공유되거나 사용자가 연락처를 수동으로 수정한 후에 공유된다. 장치가 공유 후보 종합과 완전히 동일한 그룹을 찾지 못할 경우, 장치는 공유 후보 종합에 해당 연락처가 포함된 새 연락처 그룹을 만들고, 참조 그룹으로 사용자에게 연락처 그룹을 제공한다. 사용자는 그룹의 연락처를 수동으로 수정할 수 있다. 새 연락처 그룹을 만든 후 장치는 공유 객체 세트의 이미지를 연락처 그룹에 전송한다.
도 26a에 도시된 바와 같이, 장치는 이미지 1 및 이미지 2를 하나의 후보 공유 세트로 판단하고, 이미지 1은 연락처 1 및 2를 포함하고, 이미지 2는 연락처 1 및 3을 포함한다는 것을 감지한다. 도 26B에 도시된 바와 같이, 사용자가 연락처 그룹에 공유하기 위해 클릭하면, 장치는 연락처 그룹이 있음을 감지하고 단지 연락처 1, 2, 3만을 포함한다. 도 26c에 도시된 바와 같이, 장치는 이미지 1 및 2를 연락처 그룹에 전송한다.
단계 4: 공유 후보 종합의 공유 상태를 수정한다.
공유 후보 세트 내의 이미지들이 공유된 후, 장치는 어떠한 방법으로 공유 후보 세트의 공유 상태를 사용자에게 알려준다. 예를 들어, 사용자에게 공유 후보 세트가 개별 연락처, 연락처 그룹, 공유 횟수 등이 공유되었다는 것을 아이콘을 통해 알린다.
이 실시예를 통해, 이미지 공유 효율이 향상된다.
실시예 13: 채팅 모드에서의 빠른 공유.
단계 1: 장치가 공유 후보 종합을 생성한다.
실시예 11과 마찬가지로, 장치는 이미지 내용, 촬영 시간, 지리적 위치와 같은 정보를 분석함으로써 공유 후보 세트를 판단할 수 있다. 이것은 실시예 13에서 반복되지 않는다.
단계 2: 장치가 채팅 모드에서 이미지 공유를 요청한다.
장치가 채팅 모드에 있음을 감지하면, 장치는 사용자와의 대화를 검색하고 해당 연락처를 각 공유 후보 종합과 비교한다. 공유 후보 세트가 사용자와의 채팅과 일치하는 연락처를 포함하고, 공유 후보 세트가 이전에 공유되지 않았다면, 장치는 사용자에게 어떤 방법으로든 공유하도록 촉구한다.
도 27은 본 발명의 실시예들에 따른 채팅 인터페이스에서의 제 1 공유 방법을 도시한 것이다.
도 27에 도시된 바와 같이, 사용자가 연락처 1, 2, 3을 포함하는 연락처 그룹과 채팅 중임을 감지하면, 연락처 1, 2, 3을 포함하는 공유 후보 세트가 있음을 알게 된다. 장치는 메시지 박스를 프롬프트하여, 공유 후보 세트의 이미지의 썸네일을 표시한다. 사용자가 공유 버튼을 클릭하는 것을 감지하면, 장치는 공유 후보 세트의 이미지를 현재 그룹 채팅으로 전송한다.
장치가 채팅 모드에 있음을 감지하면 장치는 사용자의 입력을 분석하고 사용자가 자연 언어 처리를 통해 이미지를 공유할지 여부를 판단한다. 사용자가 이미지를 공유하려는 경우, 장치는 사용자가 공유하려는 내용을 분석하고 팝 아웃하며, 공유하려는 내용과 일치하는 라벨 카테고리로 ROI를 표시한다. ROI는 시간 순서, 사용자의 탐색 빈도 등에 따라 정렬될 수 있다. 장치는 사용자가 하나 이상의 이미지를 선택하여 전송하기 위하여 클릭을 하는 것을 감지하면, ROI를 포함하는 이미지를 그룹에 전송하거나, ROI를 잘라서 그룹에 ROI를 전송한다.
도 28은 본 발명의 실시예들에 따른 채팅 인터페이스에서의 제 2 공유 방법을 도시한 개략도이다.
도 28에 도시된 바와 같이, 사용자는 "당신에게 자동차를 보여주겠다"라고 입력한다. 장치는 사용자의 입력을 감지하고, 사용자가 자동차의 라벨 카테고리를 공유할 것을 감지한다. 장치가 팝 아웃하며, 자동차의 라벨 카테고리로 ROI를 표시한다. 장치는 사용자가 이미지 중 하나를 클릭하는 것을 감지하면, 자른 ROI를 그룹에 전송한다.
이 실시예를 통해, 이미지 공유 효율이 향상된다.
실시예 14: ROI에 기초한 이미지 선택 방법
단계 1: 장치가 일정 기간 내에 ROI를 종합하고 분리한다.
장치는 이 기간 내에 ROI를 종합하고 구분하는 기간을 결정한다.
기간은 미리 정의될 수 있으며, 예를 들어, 매 24 시간이 기한이다. 각 24 시간 이내에 촬영된 이미지는 종합 및 분리 후보 종합으로 정의된다.
기간은 지리적 위치의 변화에 따라 결정될 수 있다. 장치는 장치가 첫 번째 시간 경우의 첫 번째 지리적 위치, 두 번째 시간 경우의 두 번째 지리적 위치 및 세 번째 시간 경우의 세 번째 지리적 위치에 있음을 감지한다. 첫 번째 지리적 위치와 세 번째 지리적 위치는 같다. 따라서, 장치는 두 번째 시간 경우로부터 세 번째 시간 경우까지의 기간을 구성한다. 예를 들어, 장치는 장치가 한 달의 1 일에 북경에, 2 일에 난징에, 그리고 3 일에 북경에 있다는 것을 감지한다.
그 다음, 장치는 2 일에서 3 일 사이의 기간을 구성한다. 2 일째부터 3 일째까지 촬영한 이미지를 공유 객체 세트로 결정한다. 장치의 지리적 위치가 변경되었는지를 판단할 때, 장치는 각각의 지리적 위치들 사이의 거리를 감지할 수 있다. 예를 들어, 특정 거리를 이동한 후 장치는 지리적 위치가 변경된 것으로 판단한다. 거리는 예를 들어, 20 킬로미터와 같이 미리 정의 될 수 있다.
장치는 일정 기간 내에 이미지 내용을 분석하여 ROI를 종합하고 분리한다. 장치는 이미지의 ROI의 카테고리 라벨을 감지하고, ROI를 동일한 라벨 카테고리로 종합하고, ROI를 상이한 카테고리 라벨로 분리한다. 예를 들어, 음식, 연락처 1, 연락처 2의 이미지를 각각 종합한다.
장치는 이미지에서 나타나는 연락처에 따라 ROI를 종합하고 분리할 수 있다. 장치는 인물의 카테고리 라벨을 사용하여 ROI에서 각 인물의 신원을 감지하고 동일한 연락처의 이미지를 종합하고 다른 연락처의 이미지를 분리할 수 있다.
단계 2: 장치가 선택된 세트를 생성한다.
방법 (1): 이미지에서 텍스트로의 절차를 선택한다.
장치는 각 종합 세트에서 ROI를 선택한다. 선택은 소정의 규칙, 예를 들어, 가장 최근의 촬영 시간, 가장 빠른 촬영 시간에 따라 수행될 수 있다. 또한 품질에 따라 이미지를 정렬하고 최고 화질의 ROI를 선택할 수도 있다. 선택한 ROI가 결합된다. 결합하는 동안 결합 템플릿의 모양 및 비율은 ROI에 따라 자동으로 조정될 수 있다. 이미지 태피스트리가 앨범의 원본 이미지에 연결될 수 있다. 마지막으로, 이미지 태피스트리에 대한 간단한 설명이 ROI의 내용에 따라 생성될 수 있다.
도 29는 본 발명의 실시예들에 따른 이미지에서 텍스트로의 이미지 선택을 도시한 개략도이다.
도 29에 도시된 바와 같이, 장치는 먼저 하루 내에 이미지를 선택하고, 이미지의 ROI를 종합 및 분리하여 풍경 종합 세트, 연락처 1 종합 세트, 연락처 2 종합 세트, 음식 종합 세트 및 꽃 종합 세트를 생성한다. 그 다음 장치는 결합을 위해 4개의 이미지를 선택한다. 결합 중에 ROI의 본체가 표시된다. 마지막으로 텍스트 단락이 ROI의 내용에 따라 생성된다. 장치는 사용자가 이미지 태피스트리를 클릭했음을 감지하고 ROI가 있는 원본 이미지에 연결할 수 있다.
방법 (2): 텍스트에서 이미지로 이미지 선택.
사용자는 텍스트 단락을 입력한다. 장치는 사용자가 입력한 텍스트를 감지하고 키워드를 검색한다. 키워드는 시간, 지리적 위치, 객체 이름, 연락처 신원 등을 포함할 수 있다. 장치는 검색된 시간 및 지리적 위치에 따라 앨범 내의 이미지를 찾아내며, 객체 이름, 연락처 ID 등에 따라 키워드와 일치하는 ORI를 선택한다. 예를 들어, 장치는 ROI 또는 ROI가 속한 이미지를 사용자가 입력한 텍스트에 삽입한다.
도 30은 본 발명의 실시예들에 따른 텍스트에서 이미지로의 이미지 선택을 도시한 개략도이다.
도 30에 도시된 바와 같이, 사용자는 입력된 텍스트로부터 "오늘", "나", "여자 친구", "풍경", "난징", "연꽃" 및 "음식"을 포함하는 키워드를 검색한다. 장치는 키워드에 따라 이미지를 판단하고, 키워드의 내용을 포함하는 ROI를 선택하고, 이미지에서 ROI를 잘라내어 ROI를 사용자가 입력한 텍스트에 삽입한다.
실시예 15: 이미지 내용에 기초한 이미지 변환
도 31은 본 발명의 실시예들에 따른 이미지 내용에 기초한 이미지 변환을 도시한 개략도이다.
단계 1: 장치가 파일 이미지를 감지하고 종합한다.
장치는 장치의 텍스트 라벨이 있는 이미지를 감지한다. 장치는 텍스트 라벨이 있는 이미지가 파일의 모양 및 내용에 따라 동일한 파일에 있는지 여부를 확인한다. 예를 들어 동일한 PPT 템플릿이 있는 파일 이미지는 동일한 파일에서 가져온다. 장치는 자연 언어 처리에 따라 이미지의 텍스트를 분석하고 이미지가 동일한 파일에서 왔는지 여부를 판단한다.
이 단계는 자동으로 실행되도록 트리거될 수 있다. 예를 들어, 장치는 앨범에서 이미지 파일의 변경 사항을 실시간으로 모니터링한다. 앨범 내의 이미지 파일의 수가 변경되는 것을 모니터링하면, 예를 들어, 이미지 파일의 수가 증가되면, 이 단계가 실행되도록 트리거된다. 다른 예로서, 인스턴트 메시징 애플리케이션에서, 장치는 사용자에 의해 수신된 이미지가 텍스트 이미지인지 여부를 자동으로 감지한다. 그러한 경우, 이 단계가 실행되도록 트리거되고, 즉, 텍스트 이미지는 인스턴트 메시징 애플리케이션의 세션에 종합된다. 장치는 하나의 연락처의 상호 작용 정보 또는 그룹의 상호 작용 정보에서 텍스트 이미지를 감지 및 결합할 수 있다.
선택적으로, 이 단계는 사용자가 수동으로 실행하도록 트리거될 수 있다. 예를 들어, 텍스트 이미지 결합 버튼이 앨범의 메뉴에서 구성될 수 있다. 사용자가 버튼을 클릭하는 것을 감지하면 장치가 이 단계의 구현을 트리거한다. 다른 예로서, 인스턴트 메시징 애플리케이션에서, 사용자가 수신된 이미지를 길게 누르고 텍스트로 변환 옵션을 선택하면, 장치는 이 단계를 실행한다.
단계 2: 장치가 이미지를 텍스트로 변환하라는 메시지를 표시한다.
프리뷰 이미지 모드에서, 장치는 동일한 방법으로, 예를 들어, 동일한 컬러의 사각형 프레임을 통해 동일한 문서의 이미지를 표시하고, 그 위에 버튼을 표시한다. 사용자가 버튼을 클릭하면 장치는 변환 버튼이 클릭된 것을 감지하고 이미지를 텍스트로 변환 모드로 전환한다.
인스턴트 메시징 애플리케이션에서, 장치가 사용자에 의해 수신된 이미지가 텍스트 이미지를 포함하는 것을 감지하면, 장치는 예를 들어 이미지가 텍스트로 변환할 수 있다는 것을 알리기 위하여, 특수한 색상, 거품 등을 통해 사용자에게 어떠한 방법으로 메시지를 표시하고, 동시에 버튼을 표시한다. 사용자가 버튼을 클릭하는 것을 감지하면 장치는 이미지-텍스트 변환 모드로 들어간다.
단계 3: 장치가 사용자의 응답에 따라 파일을 생성한다.
이미지-텍스트 변환 모드에서 사용자는 수동으로 이미지를 추가하거나 삭제할 수 있다. 장치는 사용자 동작에 따라 텍스트로 변환될 이미지를 추가하거나 삭제한다. 사용자가 "변환" 버튼을 클릭하면 이미지에서 텍스트 감지 및 광학 문자 인식을 수행하고, 이미지의 문자를 텍스트로 변환한 다음 텍스트를 사용자의 후속 사용을 위한 파일로 저장한다.
실시예 16: 이미지 내용에 기초한 지능형 삭제 권고
단계 1: 이미지의 ROI에 따라 이미지 유사성을 판단한다.
각 ROI는 ROI가 포함된 이미지에서 잘린다. 서로 다른 이미지의 ROI를 비교하여 이미지에 유사한 내용이 포함되어 있는지 확인한다.
예를 들어 이미지 1에는 연락처 1, 2 및 3이 포함된다. 이미지 2는 연락처 1, 2 및 3을 포함하고; 이미지 3은 연락처 1, 2 및 4를 포함한다. 따라서, 이미지 1과 이미지 2는 더 높은 유사도를 갖는다.
다른 예로서, 이미지 4는 붉은 꽃을 포함하는 ROI를 포함한다. 이미지 5는 붉은 꽃이 들어있는 ROI를 포함한다. 이미지 6은 노란 꽃을 포함하는 ROI를 포함한다. 따라서, 이미지 4와 이미지 5는 더 높은 유사도를 갖는다.
이 단계에서 두 이미지의 ROI의 유사도가 이미지의 유사도에 비례하는 경우, ROI의 위치는 유사도와 관련이 없다.
단계 2: 이미지의 ROI에 따라 이미지에 시맨틱 정보가 있는지 확인한다.
장치는 이미지의 ROI 영역 필드를 검색한다. 이미지에 카테고리 라벨이 있는 ROI가 포함된 경우, 이미지에 시맨틱 정보가 포함된다. 예를 들어 인물, 자동차, 애완 동물이 포함된다. 이미지에 카테고리 라벨이 없는 ROI가 포함된 경우, 기하학적인 그림의 경계 등과 같이 이미지의 시맨틱 정보가 줄어든다. 이미지가 임의의 ROI를 포함하지 않으면, 이미지는 예를 들어 순수 색상의 이미지, 노출 부족 이미지와 같은 시맨틱 정보를 갖지 않는다.
단계 3: 이미지의 ROI의 위치 관계에 따라 이미지의 심미 정도를 판단한다.
장치는 이미지의 영역 리스트에서 각 ROI의 카테고리 및 위치 좌표를 검색하고, 카테고리 및 각 ROI의 위치 좌표에 따라 이미지의 심미적 정도를 판단한다. 판단은 골든 섹션 룰에 따라 수행될 수 있다. 예를 들어 이미지의 각 ROI가 골든 섹션 지점에 있으면 이미지의 심미성이 높다. 다른 예를 들어, 나무를 포함하는 ROI가 인물을 포함하는 ROI 바로 위에 있다면 이미지의 심미성은 비교적 낮다.
단계 1, 2 및 3의 실행 순서는 조정될 수 있다는 것을 유의해야 한다. 동시에 1,2,3 단계 중 하나를 실행할 수도 있다. 이것은 본 발명에서 제한되지 않는다.
단계 4: 장치는 사용자가 삭제를 수행할 것을 권장한다.
장치는 유사도가 높은 이미지를 종합하여 사용자가 삭제하도록 권장한다. 장치는 카테고리 라벨에 시맨틱 정보가 포함되어 있지 않거나 시맨틱 정보가 적은 이미지를 삭제할 것을 사용자에게 권장한다. 장치는 사용자에게 낮은 심미적 수준의 이미지를 삭제할 것을 권장한다. 유사도가 높은 이미지를 삭제할 것을 사용자에게 권장할 때, 첫 번째 이미지가 참조로 사용된다. 사용자가 보유한 이미지를 선택할 수 있도록 하기 위하여 첫 번째 이미지와 비교한 각 이미지의 차이가 표시된다.
도 32는 본 발명의 실시예들에 따른 이미지 내용에 기초한 지능적 삭제를 도시한 개략도이다. 도 32에 도시된 바와 같이, 이미지들 간의 차이는 색상 블록을 사용하여 강조될 수 있다.
단계 5: 장치가 사용자의 동작을 감지하고 이미지를 삭제한다.
사용자는 삭제할 것을 권장하는 이미지에서 보존해야 하는 이미지를 선택하고 확인 후 삭제 버튼을 클릭한다. 사용자의 동작을 탐지한 후, 장치는 사용자가 보존하도록 선택한 이미지를 보존하고, 다른 이미지를 삭제한다. 또는, 사용자는 삭제를 권장하는 이미지에서 삭제할 이미지를 선택하고 확인 후 삭제 버튼을 클릭한다. 장치는 사용자의 동작을 감지한 후, 사용자가 선택한 이미지를 삭제하고 다른 이미지를 보존한다.
이 실시예를 통해 원치 않는 이미지를 신속하게 삭제할 수 있다.
상기한 바에 따라, 본 발명의 실시예들은 또한 이미지 관리 장치를 제공한다.
도 33은 본 발명의 실시예들에 따른 이미지 관리 장치의 구조를 도시한 개략도이다.
도 33을 참조하면, 이미지 관리 장치(3300)는 처리부(processor)(3310), 송수신 유닛(3330), 입력부(3351), 출력부(3353) 및 저장부(3370)를 포함한다. 여기서, 상기 입력부(3351) 및 상기 출력부(3353)는 장치의 종류에 따라 하나의 유닛(3350)으로 구성될 수 있고, 일 예로 터치 디스플레이(touch display)로 구현될 수 있다.
먼저, 상기 처리부(3310)는 상기 이미지 관리 장치(3300)의 전반적인 동작을 제어하며, 특히 본 발명의 실시예들에 따른 이미지 관리 장치(3300)에서 이미지를 처리하는 동작에 관련된 동작을 제어한다. 본 발명의 실시예들에 따른 이미지 관리 장치(3300)에서 수행되는 이미지를 처리하는 동작에 관련된 동작에 대해서는 도 1 내지 도 32에서 설명한 바와 동일하므로 여기서는 그 상세한 설명을 생략하기로 한다.
상기 송수신 유닛(3330)은 송신부(3331)와 수신부(3333)를 포함한다. 상기 송신부(3331)는 상기 처리부(3310)의 제어에 따라 시스템에서 포함하는 다른 엔터티들, 일 예로 다른 이미지 관리 장치, 단말 및 기지국 등과 같은 다른 엔터티들로 각종 신호 및 각종 메시지들을 송신한다. 여기서, 상기 송신부(3331)가 송신하는 각종 신호 및 각종 메시지들은 도 1 내지 도 32에서 설명한 바와 동일하므로 여기서는 그 상세한 설명을 생략하기로 한다. 또한, 상기 수신부(3333)는 상기 처리부(3310)의 제어에 따라 상기 시스템에서 포함하는 다른 엔터티들, 일 예로 다른 이미지 관리 장치, 단말 및 기지국 등과 같은 다른 엔터티들로부터 각종 신호 및 각종 메시지들을 수신한다. 여기서, 상기 수신부(3333)가 수신하는 각종 신호 및 각종 메시지들은 도 1 내지 도 32에서 설명한 바와 동일하므로 여기서는 그 상세한 설명을 생략하기로 한다.
상기 저장부(3370)은 상기 처리부(3310)의 제어에 따라 본 발명의 일 실시 예에 따른 이미지 관리 장치에서 이미지를 처리하는 동작에 관련된 프로그램과 각종 데이터 등을 저장한다. 또한, 상기 저장부(3370)는 상기 수신부(3333)가 상기 다른 엔터티들로부터 수신한 각종 신호 및 각종 메시지들을 저장한다.
상기 입력부(3351)는 사용자로부터 숫자, 문자 또는 슬라이딩 동작과 같은 제어 동작을 입력받고 기능들을 설정 및 제어하기 위한 다수의 입력 키 및 기능 키들을 포함할 수 있으며, 터치 키(Touch key), 터치 패드(Touch Pad) 및 터치 스크린(Touch Screen) 등과 같은 입력 수단들 중 어느 하나 또는 이들의 조합으로 형성될 수 있다. 특히, 상기 입력부(3351)는 본 발명의 실시예들에 따라 사용자로부터 이미지를 처리하기 위한 명령을 입력 받으면, 입력된 명령에 해당하는 각종 신호를 생성하여 처리부(3310)로 전달한다. 여기서, 상기 입력부(3351)에 입력되는 명령 및 생성되는 각종 신호들은 도 1 내지 도 32에서 설명한 바와 동일하므로 여기서는 그 상세한 설명을 생략하기로 한다.
상기 출력부(3353)는 상기 처리부(3310)의 제어에 따라 본 발명의 일 실시 예에 따른 이미지 관리 장치(3300)에서 이미지를 처리하는 동작에 관련된 각종 신호 및 각종 메시지들을 출력한다. 여기서, 상기 출력부(3353)가 출력하는 각종 신호 및 각종 메시지들은 도 1 내지 도 32에서 설명한 바와 동일하므로 여기서는 그 상세한 설명을 생략하기로 한다.
한편, 도 33에는 상기 이미지 관리 장치(3300)가 처리부(3310), 송수신 유닛(3330), 입력부(3351), 출력부(3353) 및 저장부(3370)와 같이 별도의 유닛들로 구현된 경우가 도시되어 있으나, 상기 이미지 관리 장치(3300)는 상기 처리부(3310), 송수신 유닛(3330), 입력부(3351), 출력부(3353) 및 저장부(3370) 중 적어도 두 개가 통합된 형태로 구현 가능함은 물론이다. 또한, 상기 이미지 관리 장치(3300)는 1개의 프로세서로 구현될 수도 있음은 물론이다.
도 34는 본 발명의 실시예들에 따른 이미지 관리 장치에 포함된 처리부의 구성 예를 도시한 개략도이다.
도 34를 참조하면, 처리부(3310)는 본 발명의 실시예들에 따른 이미지 관리 장치(3300)에서 이미지를 처리하는 동작에 관련된 동작을 제어하기 위하여,
이미지에 대한 사용자의 동작을 감지하는 동작 감지 모듈(3311); 및
이미지 및 ROI에 따라 이미지 관리를 수행하는 관리 모듈(3313)을 포함할 수 있다.
전술한 내용의 관점에서, 본 발명의 실시예는 주로: (1) 이미지에서 ROI를 생성하는 방법; (2) 이미지 탐색 및 검색, 빠른 공유 등과 같은 이미지 관리를 위한 ROI를 기반으로 하는 애플리케이션을 포함할 수 있다.
특히, 본 발명의 실시예들에 의해 제공되는 해결책은 이미지의 탐색 빈도, 이미지의 각 영역에 포함된 객체의 카테고리, 각각의 포커싱 정도를 포함하는 이미지에 대한 영역 리스트를 생성할 수 있다. 이미지를 탐색할 때, 사용자는 이미지에서 여러 ROI를 선택할 수 있으며 각 ROI에 대해 여러 종류의 동작을 수행할 수 있다. 단일 탭, 이중 탭, 슬라이딩 등을 포함할 수 있다. 상이한 동작을 통해 생성된 상이한 검색 결과가 후보자로서 사용자에게 제공될 수 있다.
후보 이미지의 순서는 사용자의 기호에 따라 판단될 수 있다. 또한, 사용자는 검색을 위해 다수의 이미지 중에서 다수의 ROI를 선택하거나, 실시간으로 카메라로 촬영한 이미지로부터 ROI를 선택하여 검색할 수 있어 빠른 검색이 가능하다. 또한, 개인화된 트리 계층은 이미지가 보다 잘 구성되고 사용자가 빠른 검색을 용이하게 하도록 사용자 앨범의 이미지 분포에 따라 생성될 수 있다.
이미지 전송 및 공유에 관해서는, 본 발명의 실시예에 의해 제공되는 해결책은, 전송 중에 전력 및 대역폭 소비를 줄이기 위하여, 부분 압축을 통해 ROI에 대해 낮은 압축비로 압축을 수행하여 ROI의 풍부한 세부 사항을 유지하고, 높은 압축비로 ROI 외의 다른 영역들에 압축을 수행한다. 또한, 이미지 내용을 분석하고 이미지간의 연관을 확립함으로써, 사용자의 신속한 공유를 용이하게 한다. 예를 들어, 인스턴트 메시징 애플리케이션에서, 이미지로부터 관련 영역을 잘라내고 사용자에게 공유 등을 제공하기 위해 사용자의 입력은 자동으로 분석될 수 있다.
본 발명의 해결책은 또한 이미지로부터 텍스트 및 텍스트에서 이미지로의 2 가지 방법을 포함하는 이미지 선택을 실현한다.
본 발명의 실시예는 또한 텍스트 이미지를 동일한 소스로부터 파일로 변환하는 것을 실현한다.
본 발명의 실시예들은 지능적 삭제 권고를 더 실현하여 유사한 내용을 갖는 시각적으로 유사하고 낮은 화질을 가지며 삭제할 사용자에 대한 의미 객체가 없는 이미지를 추천한다.
전술한 내용은 본 발명의 바람직한 실시예일뿐이며 본 발명의 청구 범위를 제한하는 것은 아니다. 본 발명의 범위 내에서 이루어진 모든 수정, 동등한 대체 및 개선은 본 발명의 청구 범위에 포함되어야 한다.

Claims (26)

  1. 이미지 관리 방법으로서,
    이미지에 대한 사용자의 동작을 감지하는 단계; 및
    상기 동작 및 상기 이미지 내의 상기 사용자의 관심 영역(ROI)에 따라 이미지 관리를 수행하는 단계를 포함하는, 이미지 관리 방법.
  2. 제 1 항에 있어서,
    상기 동작은 적어도 2개의 ROI를 선택하는 선택 동작을 포함하고, 상기 적어도 2개의 ROI는 동일한 이미지 또는 상이한 이미지에 속하며,
    상기 이미지 관리를 수행하는 것은,
    상기 적어도 2개의 ROI를 선택하는 선택 동작에 따라 관련된 이미지들 및/또는 비디오 프레임들을 제공하는 것을 포함하는, 이미지 관리 방법.
  3. 제 1 항에 있어서,
    상기 동작은 ROI 및/또는 검색 내용 입력 동작을 선택하는 선택 동작을 포함하고, 상기 검색 내용 입력 동작은 텍스트 입력 동작 및/또는 음성 입력 동작을 포함하며,
    상기 이미지 관리를 수행하는 것은,
    선택 동작 및/또는 검색 내용 입력 동작에 따라 대응하는 이미지들 및/또는 비디오 프레임들을 제공하는 것을 포함하는, 이미지 관리 방법.
  4. 제 2 항 또는 제 3 항에 있어서,
    상기 선택 동작 및/또는 상기 검색 내용 입력 동작에 따라 상기 대응하는 이미지들 및/또는 비디오 프레임들을 제공하는 것은,
    상기 선택 동작이 제 1 유형의 선택 동작인 경우, 상기 제공된 대응 이미지들 및/또는 비디오 프레임들은, 상기 제 1 유형의 선택 동작에 의해 동작되는 모든 ROI들에 대응하는 ROI를 포함하는 것;
    상기 선택 동작이 제 2 유형의 선택 동작인 경우, 상기 제공된 대응 이미지들 및/또는 비디오 프레임들은, 상기 제 2 유형의 선택 동작에 의해 동작되는 ROI들 중 적어도 하나에 대응하는 ROI를 포함하는 것;
    상기 선택 동작이 제 3 유형의 선택 동작인 경우, 상기 제공된 대응하는 이미지들 및/또는 비디오 프레임들은, 상기 제 3 유형의 선택 동작에 의해 동작되는 ROI들에 대응하는 ROI를 포함하지 않는 것;
    상기 검색 내용 입력 동작이 제 1 유형의 검색 내용 입력 동작인 경우, 상기 제공된 대응 이미지들 및/또는 비디오 프레임들은, 상기 제 1 유형의 검색 내용 입력 동작에 의해 동작되는 모든 ROI들에 대응하는 ROI를 포함하는 것;
    상기 검색 내용 입력 동작이 제 2 유형의 검색 내용 입력 동작인 경우, 상기 제공된 대응 이미지들 및/또는 비디오 프레임들은, 상기 제 2 유형의 검색 내용 입력 동작에 의해 동작되는 ROI들 중 적어도 하나에 대응하는 ROI를 포함하는 것; 및
    상기 검색 내용 입력 동작이 제 3 유형의 검색 내용 입력 동작인 경우, 상기 제 3 유형의 검색 내용 입력 동작에 의해 동작되는 ROI들에 대응하는 ROI를 포함하지 않는 것 중 적어도 하나를 포함하는, 이미지 관리 방법.
  5. 제 2 항 또는 제 3 항에 있어서,
    상기 대응하는 이미지들 및/또는 비디오 프레임들을 제공한 후에, 상기 방법은,
    상기 대응하는 이미지들 및/또는 비디오 프레임들의 우선 순위를 결정하는 단계;
    상기 대응하는 이미지들 및/또는 비디오 프레임들의 우선 순위에 따라 표시 순서를 결정하는 단계; 및
    상기 표시 순서에 따라 대응 이미지들 및/또는 비디오 프레임들을 표시하는 단계를 더 포함하는, 이미지 관리 방법.
  6. 제 5 항에 있어서,
    상기 대응하는 이미지들 및/또는 비디오 프레임들의 우선 순위를 결정하는 것은,
    전체 이미지 레벨에서 수집된 관련 데이터의 하나의 데이터 항목에 따라 대응하는 이미지들 및/또는 비디오 프레임들의 우선 순위를 결정하는 것;
    전체 이미지 레벨에서 수집된 관련 데이터의 적어도 2개의 데이터 항목에 따라 대응하는 이미지들 및/또는 비디오 프레임들의 우선 순위를 결정하는 것;
    객체 레벨에서 수집된 관련 데이터의 하나의 데이터 항목에 따라 대응하는 이미지들 및/또는 비디오 프레임들의 우선 순위를 결정하는 것;
    객체 레벨에서 수집된 관련 데이터의 적어도 2개의 데이터 항목에 따라 대응하는 이미지들 및/또는 비디오 프레임들의 우선 순위를 결정하는 것;
    객체들의 시맨틱 결합에 따라 대응하는 이미지들 및/또는 비디오 프레임들의 우선 순위를 결정하는 것; 및
    객체들의 관련된 위치들에 따라 대응하는 이미지들 및/또는 비디오 프레임들의 우선 순위를 결정하는 것 중 적어도 하나를 포함하는, 이미지 관리 방법.
  7. 제 2 항 또는 제 3 항에 있어서,
    상기 ROI를 선택하는 선택 동작은,
    카메라 프리뷰 모드;
    이미지 탐색 모드; 및
    썸네일 탐색 모드 중 적어도 하나의 모드에서 감지되는, 이미지 관리 방법.
  8. 제 1 항에 있어서,
    상기 이미지 관리를 수행하는 것은,
    공유될 이미지를 결정하고, 상기 이미지를 공유 객체와 공유하고; 그리고/또는
    채팅 객체 또는 채팅 객체를 가진 채팅 내용에 따라 공유될 이미지를 결정하고, 상기 채팅 객체와 공유될 이미지를 공유하는 것을 포함하는, 이미지 관리 방법.
  9. 제 1 항에 있어서,
    상기 이미지 관리를 수행하는 것은,
    상기 이미지의 ROI에 따라 이미지가 공유될 연락처 그룹을 결정하고, 상기 사용자의 그룹 공유 동작에 따라 상기 연락처 그룹에 상기 이미지를 공유하는 것;
    상기 이미지의 ROI에 따라 이미지가 공유될 연락처들을 결정하고, 상기 사용자의 개별적인 공유 동작에 따라 상기 연락처들 각각에 상기 이미지를 전송하되, 각 연락처와 공유되는 이미지는 상기 연락처에 대응하는 ROI를 포함하는 것;
    상기 사용자와 채팅 객체 사이의 채팅 문장이 상기 이미지의 ROI에 대응하는 경우, 이미지를 공유 후보로서 사용자에게 추천하는 것; 및
    채팅 객체가 이미지의 ROI에 대응하는 경우, 이미지를 공유 후보로서 사용자에게 추천하는 것 중 적어도 하나를 포함하는, 이미지 관리 방법.
  10. 제 8 항 또는 제 9 항에 있어서,
    상기 이미지를 공유한 후에, 이미지가 공유되는 연락처에 따라 공유된 이미지를 식별하는 단계를 더 포함하는, 이미지 관리 방법.
  11. 제 1 항에 있어서,
    상기 이미지 관리를 수행하는 것은,
    표시 화면이 소정의 크기보다 작은 경우, 상기 ROI의 카테고리 이미지 또는 카테고리 이름을 표시하고, 상기 사용자의 스위칭 동작에 따라 상기 ROI의 다른 카테고리 이미지 또는 카테고리 이름을 표시하도록 스위칭하는 것;
    상기 표시 화면이 상기 소정의 크기보다 작고 상기 ROI의 카테고리가 상기 사용자의 선택 동작에 따라 선택될 경우, 상기 카테고리의 이미지를 표시하고, 상기 사용자의 스위칭 동작에 따라 카테고리 내의 다른 이미지를 표시하도록 스위칭하는 것; 및
    상기 표시화면이 상기 소정의 크기보다 작은 경우, ROI의 개수에 따라 이미지를 표시하는 것 중 적어도 하나를 포함하는, 이미지 관리 방법.
  12. 제 11 항에 있어서,
    상기 표시 화면이 소정의 크기보다 작은 경우, 상기 ROI의 개수에 따라 상기 이미지를 표시하는 것은,
    이미지가 ROI를 포함하지 않는 경우, 이미지를 썸네일 모드로 표시하거나 이미지의 크기를 상기 표시 화면 상에 적합하도록 축소한 후에 표시하는 것;
    상기 이미지가 하나의 ROI를 포함하는 경우, 상기 ROI를 표시하는 것;
    상기 이미지가 다수의 ROI들을 포함하는 경우, 상기 ROI들을 이미지에 교대로 표시하거나, 또는 상기 이미지에 첫 번째 ROI를 표시하고, 상기 사용자의 스위칭 동작에 따라 다른 ROI를 표시하도록 스위칭하는 것을 포함하는, 이미지 관리 방법.
  13. 제 1 항에 있어서,
    장치들 간의 이미지 전송 동안, 상기 이미지 관리를 수행하는 것은,
    이미지 전송 파라미터 및 이미지 내의 ROI에 따라, 상기 이미지를 압축하고 상기 압축된 이미지를 전송하는 것; 및/또는
    서버, 기지국 또는 사용자 장치로부터 이미지를 수신하는 것, 여기서 상기 이미지는 이미지 전송 파라미터 및 상기 ROI에 따라 압축됨을 포함하는, 이미지 관리 방법.
  14. 제 13 항에 있어서,
    상기 이미지를 압축하는 것은,
    상기 이미지 전송 파라미터가 ROI 비압축 조건을 만족하는 경우, 전송될 이미지에서 ROI를 제외한 이미지 영역을 압축하고, 전송될 이미지에서 ROI를 압축하지 않는 것;
    상기 이미지 전송 파라미터가 차별화 압축 조건을 만족하는 경우, 전송될 이미지의 ROI를 제외한 이미지 영역을 제 1 압축비로 압축하고, 전송될 이미지의 ROI를 제 2 압축비로 압축하는 것, 여기서 상기 제 2 압축비는 제 1 압축비보다 낮음;
    상기 이미지 전송 파라미터가 비차별화 압축 조건을 만족하는 경우, 동일한 압축비로, 전송될 이미지 내의 ROI 및 ROI를 제외한 이미지 영역을 압축하는 것;
    상기 이미지 전송 파라미터가 비압축 조건을 만족하는 경우, 전송될 이미지를 압축하지 않는 것; 및
    상기 이미지 전송 파라미터가 다중 압축 조건을 만족하는 경우, 전송될 이미지에 대하여 압축 처리 및 1 회 이상의 전송 처리를 행하는 것 중 적어도 하나를 포함하는, 이미지 관리 방법.
  15. 제 14 항에 있어서,
    상기 이미지 전송 파라미터는, 전송될 이미지의 품질, 전송 네트워크 유형 및 전송 네트워크 품질 중 적어도 하나를 포함하고;
    상기 방법은,
    상기 전송될 이미지의 개수가 제 1 임계값보다 작은 경우, 이미지 전송 파라미터가 비압축 조건을 만족하는 것으로 결정하는 단계;
    상기 전송될 이미지의 개수가 상기 제 1 임계값 이상이고 제 2 임계값보다 작은 경우, 상기 이미지 전송 파라미터가 상기 ROI 압축 조건을 만족하는 것으로 판단하는 단계, 여기서 상기 제 2 임계값은 상기 제 1 임계값보다 큼;
    상기 전송될 이미지의 개수가 상기 제 2 임계값 이상인 경우, 상기 이미지 전송 파라미터가 상기 ROI 비차별화 압축 조건을 만족하는 것으로 판단하는 단계;
    상기 전송 네트워크 품질의 평가된 값이 소정의 제 3 임계값보다 낮은 경우, 이미지 전송 파라미터가 상기 다중 압축 조건을 만족시키는 것으로 판단하는 단계;
    상기 전송 네트워크 품질의 평가된 값이 상기 제 3 임계값 이상이지만 소정의 제 4 임계값보다 작은 경우, 이미지 전송 파라미터가 상기 차별화 압축 조건을 만족하는 것으로 판단하는 단계, 여기서 상기 제 4 임계값은 상기 제 3 임계값보다 큼;
    상기 전송 네트워크 유형이 프리 네트워크인 경우, 상기 이미지 전송 파라미터가 비압축 조건을 만족시키는 것으로 판단하는 단계 중 적어도 하나를 포함하는, 이미지 관리 방법.
  16. 제 1 항에 있어서,
    상기 이미지 관리를 수행하는 것은,
    ROI에 따라 이미지를 선택하는 것;
    상기 선택된 이미지들에 따라 이미지 태피스트리(image tapestry)를 생성하는 것, 여기서 상기 선택된 각각의 이미지의 ROI는 상기 이미지 태피스트리에 표시됨을 포함하는, 이미지 관리 방법.
  17. 제 1 항에 있어서,
    상기 이미지 태피스트리에서 상기 ROI를 선택하는 사용자의 선택 동작을 감지하는 단계;
    상기 사용자에 의해 선택된 ROI를 포함하는 선택된 이미지를 표시하는 단계를 더 포함하는, 이미지 관리 방법.
  18. 제 1 항에 있어서,
    상기 이미지 관리를 수행하는 것은,
    상기 사용자에 의해 입력된 텍스트를 감지하는 것;
    상기 텍스트와 연관된 ROI를 포함하는 이미지를 검색하는 것; 및
    상기 ROI를 포함하는 이미지를 사용자가 입력한 텍스트에 삽입하는 것을 포함하는, 이미지 관리 방법.
  19. 제 1 항에 있어서,
    복수의 이미지가 동일한 파일로부터의 것인지를 판단할 경우, 다수의 이미지를 파일로 자동으로 종합(aggregating)하거나, 사용자의 트리거 동작에 따라 다수의 이미지를 파일로 종합하는 단계를 더 포함하는, 이미지 관리 방법.
  20. 제 1 항에 있어서,
    상기 이미지 관리를 수행하는 것은,
    다른 이미지들 내의 ROI들의 카테고리들의 비교 결과에 따라, 이미지를 자동으로 삭제 또는 삭제하도록 권장하는 것;
    상기 이미지들의 ROI들에 따라 서로 다른 이미지들의 차이 정도를 포함하는 시맨틱 정보를 판단하고, 서로 다른 이미지들의 차이 정도를 포함하는 시맨틱 정보의 비교 결과에 따라 이미지를 자동으로 삭제 또는 삭제하도록 권장하는 것;
    상기 서로 다른 이미지들 내의 ROI들의 상대적 위치에 따라 상이한 이미지들의 점수를 결정하고, 상기 점수들에 따라 이미지를 자동으로 삭제 또는 삭제하도록 권장하는 것; 및
    상기 서로 다른 이미지들 중 적어도 하나의 ROI의 절대 위치에 따라 서로 다른 이미지들의 점수를 판단하고, 상기 점수들에 따라 이미지를 자동으로 삭제 또는 삭제하도록 권장하는 것 중 적어도 하나를 포함하는, 이미지 관리 방법.
  21. 제 1 항에 있어서,
    상기 이미지 관리를 수행하는 것은,
    상기 이미지 또는 ROI의 개인화된 카테고리를 결정하는 것;
    상기 분류 모델이 상기 개인화된 카테고리에 따라 이미지를 분류할 수 있도록 소정의 분류 모델을 조정하는 것;
    상기 조정된 분류 모델을 이용하여 이미지들 또는 ROI들에 대해 개인화된 분류를 수행하는 것 중 적어도 하나를 포함하는, 이미지 관리 방법.
  22. 제 21 항에 있어서,
    상기 소정의 분류 모델을 조정하는 것은,
    상기 장치 내의 분류 모델의 소정의 카테고리가 상기 개인화된 카테고리를 포함하는 경우, 상기 개인화된 카테고리를 획득하기 위해 상기 장치의 분류 모델에서 상기 소정의 카테고리들을 재결합하는 것;
    상기 장치 내의 분류 모델의 소정의 카테고리가 상기 개인화된 카테고리를 포함하지 않는 경우, 상기 장치의 분류 모델에 상기 개인화된 카테고리를 추가하는 것;
    클라우드 엔드의 분류 모델 내의 소정의 카테고리가 개인화된 카테고리를 포함하는 경우, 클라우드 엔드의 분류 모델 내의 소정의 카테고리들을 재결합하여 개인화된 카테고리를 획득하는 것;
    클라우드 엔드의 분류 모델 내의 소정의 카테고리가 개인화된 카테고리를 포함하지 않는 경우, 클라우드 엔드의 분류 모델에 개인화된 카테고리를 추가하는 것을 포함하는, 이미지 관리 방법.
  23. 제 21 항에 있어서,
    상기 이미지 또는 상기 ROI들에 대한 개인화된 분류를 수행한 후에,
    상기 방법은,
    상기 장치가 사용자에 의해 제공된 분류 에러 피드백 정보를 수신하고, 상기 분류 에러 피드백 정보에 따라 상기 장치에서 조정된 분류 모델을 트레이닝하는 단계;
    상기 클라우드 엔드는 사용자에 의해 제공된 분류 에러 피드백 정보를 수신하고, 상기 분류 에러 피드백 정보에 따라 상기 조정된 분류 모델을 트레이닝하는 단계;
    상기 클라우드 엔드의 개인화된 분류 결과가 상기 장치의 개인화된 분류 결과와 일치하지 않는 경우, 상기 클라우드 엔드의 개인화된 분류 결과에 따라 상기 장치의 개인화된 분류 결과를 업데이트하고, 분류 에러 피드백 정보를 상기 클라우드 엔드로 전송하는 단계 중 적어도 하나를 더 포함하는, 이미지 관리 방법.
  24. 제 1 항 내지 제 23 항 중 어느 한 항에 있어서,
    상기 ROI는,
    수동 초점에 대응하는 이미지 영역;
    자동 초점에 대응하는 이미지 영역;
    객체 영역;
    시선 히트맵(gaze heat map)에서의 핫 영역(hot region);
    돌출맵(saliency map)에서의 핫 영역 중 적어도 하나를 포함하는, 이미지 관리 방법.
  25. 제 1 항 내지 제 24 항 중 어느 한 항에 있어서,
    객체 영역 감지 결과에 따라 카테고리 라벨을 생성하는 단계; 및/또는
    ROI를 객체 분류자에 입력하고, 객체 분류자의 출력에 따라 카테고리 라벨을 생성하는 단계를 더 포함하는, 이미지 관리 방법.
  26. 이미지 상에서 사용자의 동작을 감지하는 동작 감지 모듈; 및
    ROI(region of interest)의 동작에 따라 이미지 관리를 수행하는 관리 모듈을 포함하는, 이미지 관리 장치.
KR1020170148051A 2016-03-29 2017-11-08 이미지 관리 방법 및 그 장치 KR20180055707A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US15/814,972 US20180137119A1 (en) 2016-11-16 2017-11-16 Image management method and apparatus thereof
PCT/KR2017/013047 WO2018093182A1 (en) 2016-11-16 2017-11-16 Image management method and apparatus thereof
EP17871827.6A EP3491504A4 (en) 2016-11-16 2017-11-16 IMAGE MANAGEMENT PROCESS AND DEVICE THEREFOR

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610186766 2016-03-29
CN201611007300.8 2016-11-16
CN201611007300.8A CN107239203A (zh) 2016-03-29 2016-11-16 一种图像管理方法和装置

Publications (1)

Publication Number Publication Date
KR20180055707A true KR20180055707A (ko) 2018-05-25

Family

ID=59983716

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170148051A KR20180055707A (ko) 2016-03-29 2017-11-08 이미지 관리 방법 및 그 장치

Country Status (2)

Country Link
KR (1) KR20180055707A (ko)
CN (1) CN107239203A (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968786A (zh) * 2019-11-29 2020-04-07 百度在线网络技术(北京)有限公司 一种视觉信息推荐方法、装置、设备及存储介质
WO2020111333A1 (ko) * 2018-11-26 2020-06-04 전자부품연구원 영상 화질 개선 시스템 및 그 방법
WO2020145547A1 (ko) * 2019-01-07 2020-07-16 삼성전자주식회사 전자 장치 및 그의 제어 방법
US11102409B2 (en) 2018-10-18 2021-08-24 Samsung Electronics Co., Ltd Electronic device and method for obtaining images
EP3893098A4 (en) * 2019-01-24 2021-12-22 Huawei Technologies Co., Ltd. IMAGE SHARING PROCESS AND MOBILE DEVICE
WO2022225354A1 (ko) * 2021-04-23 2022-10-27 삼성전자 주식회사 정보를 공유하기 위한 전자 장치 및 그 동작 방법
US11562276B2 (en) 2018-08-01 2023-01-24 Forcepoint Llc Double-layered image classification endpoint solution

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908337A (zh) * 2017-12-14 2018-04-13 广州三星通信技术研究有限公司 分享图像内容的方法和装置
CN110020086B (zh) * 2017-12-22 2021-10-26 中国移动通信集团浙江有限公司 一种用户画像查询方法及装置
CN109963071B (zh) * 2017-12-26 2021-07-27 深圳市优必选科技有限公司 一种自动剪辑影像的方法、系统及终端设备
CN109189880A (zh) * 2017-12-26 2019-01-11 爱品克科技(武汉)股份有限公司 一种基于短文本的用户兴趣分类方法
CN108182404A (zh) * 2017-12-28 2018-06-19 上海传英信息技术有限公司 一种基于智能终端的照片分享方法及照片分享系统
CN108230283A (zh) * 2018-01-19 2018-06-29 维沃移动通信有限公司 一种贴图素材推荐方法和电子设备
CN110209916B (zh) * 2018-02-05 2021-08-20 阿里巴巴(中国)有限公司 一种兴趣点图像推荐方法及装置
CN108494947B (zh) * 2018-02-09 2021-01-26 维沃移动通信有限公司 一种图像分享方法及移动终端
CN108650524B (zh) * 2018-05-23 2022-08-16 腾讯科技(深圳)有限公司 视频封面生成方法、装置、计算机设备及存储介质
CN108805867A (zh) * 2018-05-25 2018-11-13 北京百度网讯科技有限公司 用于输出烟叶等级信息的方法和装置
WO2019230275A1 (ja) * 2018-06-01 2019-12-05 富士フイルム株式会社 画像処理装置,画像処理方法,画像処理プログラムおよびそのプログラムを格納した記録媒体
CN110727808A (zh) * 2018-06-29 2020-01-24 华为技术有限公司 图像处理方法、装置及终端设备
CN110955790A (zh) * 2018-09-26 2020-04-03 Oppo广东移动通信有限公司 图片分类方法、装置、计算机可读存储介质及电子设备
US11082620B2 (en) * 2018-09-26 2021-08-03 Qualcomm Incorporated Zoomed in region of interest
CN109410163B (zh) * 2018-10-23 2021-10-01 北京旷视科技有限公司 拍照推荐位置获取方法、装置、终端及计算机存储介质
CN111104954B (zh) * 2018-10-26 2023-11-14 华为云计算技术有限公司 一种对象分类的方法与装置
CN109432779B (zh) * 2018-11-08 2022-05-17 北京旷视科技有限公司 难度调整方法、装置、电子设备及计算机可读存储介质
CN110070107B (zh) * 2019-03-26 2020-12-25 华为技术有限公司 物体识别方法及装置
CN109992568B (zh) * 2019-03-31 2021-07-16 联想(北京)有限公司 一种信息处理方法及装置
CN110012341A (zh) * 2019-04-17 2019-07-12 北京华宇信息技术有限公司 视频证据展示方法、展示装置和电子设备
CN110045892B (zh) * 2019-04-19 2021-04-02 维沃移动通信有限公司 显示方法及终端设备
WO2021004633A1 (en) * 2019-07-10 2021-01-14 Toyota Motor Europe System and method for training a model to perform semantic segmentation on low visibility images using high visibility images having a close camera view
CN110633394B (zh) * 2019-08-28 2021-10-15 浙江工业大学 基于特征加强的图压缩方法
CN110516083B (zh) * 2019-08-30 2022-07-12 京东方科技集团股份有限公司 相册管理方法、存储介质及电子设备
CN110913141B (zh) * 2019-11-29 2021-09-21 维沃移动通信有限公司 一种视频显示方法、电子设备以及介质
CN111353064B (zh) * 2020-02-28 2023-06-13 北京百度网讯科技有限公司 表情包生成方法、装置、设备和介质
CN113361511A (zh) * 2020-03-05 2021-09-07 顺丰科技有限公司 修正模型的建立方法、装置、设备及计算机可读存储介质
CN111522990A (zh) * 2020-04-24 2020-08-11 英华达(上海)科技有限公司 群组分享式摄影方法、拍摄设备、电子设备、存储介质
CN112560992B (zh) * 2020-12-25 2023-09-01 北京百度网讯科技有限公司 优化图片分类模型的方法、装置、电子设备及存储介质
WO2022155818A1 (zh) * 2021-01-20 2022-07-28 京东方科技集团股份有限公司 图像编码、解码方法及装置、编解码器
CN113282780A (zh) * 2021-04-28 2021-08-20 维沃移动通信有限公司 图片管理方法、装置、电子设备和可读存储介质
CN116309494B (zh) * 2023-03-23 2024-01-23 宁波斯年智驾科技有限公司 一种电子地图中兴趣点信息确定方法、装置、设备及介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100101204A (ko) * 2009-03-09 2010-09-17 한국전자통신연구원 관심영역 기반의 유씨씨 영상 검색 방법 및 그 장치
KR101615969B1 (ko) * 2009-09-14 2016-04-28 엘지전자 주식회사 이동 단말기 및 이동 단말기에서의 정보 제공 방법
US9710491B2 (en) * 2009-11-02 2017-07-18 Microsoft Technology Licensing, Llc Content-based image search
RU2533441C2 (ru) * 2009-12-30 2014-11-20 Нокиа Корпорейшн Способ и устройство для обеспечения поиска изображения по содержимому
US8553981B2 (en) * 2011-05-17 2013-10-08 Microsoft Corporation Gesture-based visual search
KR20140098009A (ko) * 2013-01-30 2014-08-07 삼성전자주식회사 컨텍스트 기반 카메라 콜라주를 생성하는 방법 및 시스템
WO2015002409A1 (en) * 2013-07-01 2015-01-08 Samsung Electronics Co., Ltd. Method of sharing information in ultrasound imaging
CN103927767B (zh) * 2014-04-18 2018-05-04 北京智谷睿拓技术服务有限公司 图像处理方法及图像处理装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562276B2 (en) 2018-08-01 2023-01-24 Forcepoint Llc Double-layered image classification endpoint solution
US11102409B2 (en) 2018-10-18 2021-08-24 Samsung Electronics Co., Ltd Electronic device and method for obtaining images
WO2020111333A1 (ko) * 2018-11-26 2020-06-04 전자부품연구원 영상 화질 개선 시스템 및 그 방법
WO2020145547A1 (ko) * 2019-01-07 2020-07-16 삼성전자주식회사 전자 장치 및 그의 제어 방법
EP3893098A4 (en) * 2019-01-24 2021-12-22 Huawei Technologies Co., Ltd. IMAGE SHARING PROCESS AND MOBILE DEVICE
US11695726B2 (en) 2019-01-24 2023-07-04 Huawei Technologies Co., Ltd. Image sharing method and mobile device
CN110968786A (zh) * 2019-11-29 2020-04-07 百度在线网络技术(北京)有限公司 一种视觉信息推荐方法、装置、设备及存储介质
CN110968786B (zh) * 2019-11-29 2023-10-17 百度在线网络技术(北京)有限公司 一种视觉信息推荐方法、装置、设备及存储介质
WO2022225354A1 (ko) * 2021-04-23 2022-10-27 삼성전자 주식회사 정보를 공유하기 위한 전자 장치 및 그 동작 방법

Also Published As

Publication number Publication date
CN107239203A (zh) 2017-10-10

Similar Documents

Publication Publication Date Title
KR20180055707A (ko) 이미지 관리 방법 및 그 장치
US20180137119A1 (en) Image management method and apparatus thereof
US10140515B1 (en) Image recognition and classification techniques for selecting image and audio data
JP6431231B1 (ja) 撮像システム、学習装置、および撮像装置
US11361018B2 (en) Automatically curated image searching
US9727565B2 (en) Photo and video search
US20170278135A1 (en) Image recognition artificial intelligence system for ecommerce
JP5934653B2 (ja) 画像分類装置、画像分類方法、プログラム、記録媒体、集積回路、モデル作成装置
US20140328570A1 (en) Identifying, describing, and sharing salient events in images and videos
KR102646889B1 (ko) 스타일 변환을 위한 영상 처리 장치 및 방법
CN105684038A (zh) 用于替换图像的部分的图像缓存
JP2013502637A (ja) メタデータのタグ付けシステム、イメージ検索方法、デバイス及びそれに適用されるジェスチャーのタグ付け方法
US20170091628A1 (en) Technologies for automated context-aware media curation
US11768871B2 (en) Systems and methods for contextualizing computer vision generated tags using natural language processing
US20110179003A1 (en) System for Sharing Emotion Data and Method of Sharing Emotion Data Using the Same
WO2021238084A1 (zh) 语音包推荐方法、装置、设备及存储介质
CN107153708A (zh) 一种图片查看方法及装置、计算机装置、计算机可读存储介质
US20130301938A1 (en) Human photo search system
US9875512B2 (en) Photo and video sharing
CN107656760A (zh) 数据处理方法及装置、电子设备
CN110633377A (zh) 一种图片清理方法和装置
US20220319082A1 (en) Generating modified user content that includes additional text content
WO2022212669A1 (en) Determining classification recommendations for user content
WO2021036344A1 (zh) 摘要生成方法和装置
TW202141299A (zh) 群組分享式攝影方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
WITB Written withdrawal of application