KR20160043677A - 음성 태그를 이용한 이미지 관리 방법 및 그 장치 - Google Patents

음성 태그를 이용한 이미지 관리 방법 및 그 장치 Download PDF

Info

Publication number
KR20160043677A
KR20160043677A KR1020140138108A KR20140138108A KR20160043677A KR 20160043677 A KR20160043677 A KR 20160043677A KR 1020140138108 A KR1020140138108 A KR 1020140138108A KR 20140138108 A KR20140138108 A KR 20140138108A KR 20160043677 A KR20160043677 A KR 20160043677A
Authority
KR
South Korea
Prior art keywords
image
information
voice
electronic device
voice data
Prior art date
Application number
KR1020140138108A
Other languages
English (en)
Other versions
KR102252072B1 (ko
Inventor
안기모
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020140138108A priority Critical patent/KR102252072B1/ko
Priority to PCT/KR2015/010592 priority patent/WO2016060400A1/en
Priority to EP15188938.3A priority patent/EP3010219B1/en
Priority to CN201910252312.4A priority patent/CN110083730B/zh
Priority to US14/882,879 priority patent/US9916864B2/en
Priority to CN201510661848.3A priority patent/CN105512164B/zh
Publication of KR20160043677A publication Critical patent/KR20160043677A/ko
Priority to US15/918,900 priority patent/US10347296B2/en
Application granted granted Critical
Publication of KR102252072B1 publication Critical patent/KR102252072B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/21Intermediate information storage
    • H04N1/2104Intermediate information storage for one or a few pictures
    • H04N1/2112Intermediate information storage for one or a few pictures using still video cameras
    • H04N1/212Motion video recording combined with still video recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0084Digital still camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

전자 장치가 개시된다. 상기 전자 장치는 외부로부터 음성(voice)를 수신하여, 음성 데이터를 발생하는 음성 입력 모듈, 하나 이상의 이미지(image) 또는 동영상(video)이 저장되는 메모리 장치, 및 상기 음성 입력 모듈 및 메모리 장치와 전기적으로 연결된 프로세서를 포함할 수 있다. 상기 메모리 장치는 상기 프로세서에 의하여 실행 시, 상기 전자 장치가, 상기 음성 데이터, 상기 음성 데이터에 기초한 제1 정보, 또는 상기 음성 데이터 및/또는 상기 제1 정보로부터 발생된 제2 정보 중 적어도 하나를 제2 이미지 또는 동영상과 연결하도록 하는 인스트럭션들(instructions)을 포함할 수 있다. 이 외에도 명세서를 통해 파악되는 다양한 실시 예가 가능하다.

Description

음성 태그를 이용한 이미지 관리 방법 및 그 장치{Method and Apparatus for Managing Images using Voice Tag}
본 발명의 다양한 실시 예들은 이미지에 음성 태그를 등록하고, 이 음성 태그를 이용하여 다수의 이미지 중에서 사용자가 원하는 이미지를 검색하는 기술과 관련된다.
최근 출시되는 스마트폰이나 태블릿과 같은 전자 장치는 기본적으로 카메라를 탑재하고 있다. 또한 탑재된 카메라의 성능 역시 기존의 DSRL(digital single lens reflex) 카메라나 디지털 카메라 못지 않은 수준으로 발전하였다. 예를 들어, Samsung Galaxy S5는 AF(auto focusing), 아웃포커싱(out-focusing), 손떨림 보정 등의 기능을 지원하는 ISOCELL 방식의 1600만 화소의 후면 카메라를 탑재하고 있다.
전자 장치에 탑재된 카메라가 사용자에게 고도의 촬영 기술을 요구하지 않으면서도 양질의 사진을 제공하고, 그 사용도 간편해지면서 (예를 들어, 잠금 상태인 전자 장치의 홈 화면에서도 카메라 기능은 사용이 가능하다.) 사용자의 카메라 사용 빈도는 급격히 증가하고 있다.
한편, 이와 같은 카메라를 이용하여 획득된 사진들은 태그 정보와 함께 저장될 수 있다.
촬영된 사진은 이미지 파일의 형태로 저장될 수 있다. 사용자는 갤러리 어플리케이션과 같은 사진 관리 어플리케이션을 이용하여, 이미지를 폴더 별로 정리하거나, 찍은 날짜, 파일 크기, 또는 해상도 순으로 정렬할 수 있다. 그러나 촬영된 사진의 양이 급격히 증가하면 기존의 방식을 이용하여 수많은 사진 중에서 원하는 사진을 찾는 것은 효율적이지 않을 수 있다.
본 발명의 다양한 실시 예에 따른 전자 장치는, 이미지에 음성 태그를 입력하고, 이 이미지와 유사한 다른 이미지에 동일한 음성 태그를 할당하여, 나중에 사용자가 음성 태그를 이용하여 효과적으로 원하는 사진이 검색되도록 할 수 있다.
본 발명의 다양한 실시 예에 따른 전자 장치는, 특정 이미지에 대한 음성 데이터를 획득하는 음성 입력 모듈, 및 상기 음성 데이터를 분석하여 상기 특정 이미지의 복수의 메타 정보 중 적어도 하나의 메타 정보를 결정하는 제어 모듈을 포함할 수 있다. 또한 상기 제어 모듈은 다수의 이미지 중에서 상기 특정 이미지 또는 상기 결정된 메타 정보에 대하여 지정된 기준을 만족하는 적어도 하나의 연관 이미지에 대하여 상기 음성 데이터를 음성 태그로 등록하도록 설정될 수 있다.
본 발명의 다양한 실시 예에 따르면, 사용자가 전자 장치 또는 다른 위치(장치)에 저장된 다수의 사진 중 원하는 사진을 음성 태그를 이용하여 관리 또는 검색할 수 있는 효과가 있다. 예를 들어, 사용자는 특정 사진, 또는 특정 사진과 소정의 연관 관계를 가지는 사진에 대하여 음성 태그를 등록할 수 있고, 해당 음성 태그를 이용하여 원하는 사진을 검색할 수 있다.
도 1은 다양한 실시 예에 따른 네트워크 환경 내의 전자 장치를 나타낸다.
도 2는 다양한 실시 예에 따른 음성 태그를 등록하는 예시적인 UI를 나타낸다.
도 3은 다양한 실시 예에 따른 메타 정보 및 이를 이용한 태그 등록 과정을 나타낸다.
도 4는 다양한 실시 예에 따른 연관 이미지의 개수를 제어하는 방법을 나타낸다.
도 5는 다양한 실시 예에 따른 음성 태그를 가진 이미지를 검색하는 방법을 나타낸다.
도 6은 다양한 실시 예에 따른 음성 태그 등록 방법을 나타낸다.
도 7은 다양한 실시 예에 따른 파라미터의 우선 순위에 따라 연관 이미지를 결정하는 방법을 나타낸다.
도 8은 다양한 실시 예에 따른 파라미터의 가중치에 따라 연관 이미지를 결정하는 방법을 나타낸다.
도 9는 다양한 실시 예에 따른 음성 태그 등록 방법을 나타낸다.
도 10은 다양한 실시 예에 따른 전자 장치 및 서버에 저장된 이미지에 대하여 음성 태그를 등록하는 방법을 나타낸다.
도 11은 다양한 실시 예에 따른 전자 장치의 블록도를 나타낸다.
도 12는 다양한 실시 예에 따른 프로그램 모듈의 블록도를 나타낸다.
이하, 본 발명의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 문서에서, "가진다", "가질 수 있다", "포함한다", 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 문서에서, "A 또는 B", "A 또는/및 B 중 적어도 하나", 또는 "A 또는/및 B 중 하나 또는 그 이상" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B", "A 및 B 중 적어도 하나", 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
다양한 실시 예에서 사용된 "제1", "제2", "첫째", 또는 "둘째" 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 해당 구성요소들을 한정하지 않는다. 예를 들면, 제1 사용자 기기와 제2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 바꾸어 명명될 수 있다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)", "~하는 능력을 가지는(having the capacity to)", "~하도록 설계된(designed to)", "~하도록 변경된(adapted to)", "~하도록 만들어진(made to)", 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성(또는 설정)된"은 하드웨어적으로 "특별히 설계된(specifically designed to)"것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성(또는 설정)된 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
본 문서에서 사용된 용어들은 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 다른 실시 예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명의 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 일반적으로 사용되는 사전에 정의된 용어들은 관련 기술의 문맥 상 가지는 의미와 동일 또는 유사한 의미를 가지는 것으로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 발명의 실시 예들을 배제하도록 해석될 수 없다.
본 발명의 다양한 실시 예들에 따른 전자 장치는, 예를 들면, 전자 장치는 스마트폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 화상 전화기, 전자책 리더기(e-book reader), 데스크탑 PC (desktop PC), 랩탑 PC(laptop PC), 넷북 컴퓨터(netbook computer), 워크스테이션(workstation), 서버, PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라, 또는 웨어러블 장치(wearable device)(예: 스마트 안경, 머리 착용형 장치(head-mounted-device(HMD)), 전자 의복, 전자 팔찌, 전자 목걸이, 전자 앱세서리(appcessory), 전자 문신, 스마트 미러, 또는 스마트 와치(smart watch))중 적어도 하나를 포함할 수 있다.
어떤 실시 예들에서, 전자 장치는 스마트 가전 제품(smart home appliance)일 수 있다. 스마트 가전 제품은, 예를 들면, 텔레비전, DVD 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스(set-top box), 홈 오토매이션 컨트롤 패널(home automation control panel), 보안 컨트롤 패널(security control panel), TV 박스(예: 삼성 HomeSync™, 애플TV™, 또는 구글 TV™), 게임 콘솔(예: Xbox™, PlayStation™), 전자 사전, 전자 키, 캠코더, 또는 전자 액자 중 적어도 하나를 포함할 수 있다.
다른 실시 예에서, 전자 장치는, 각종 의료기기(예: 각종 휴대용 의료측정기기(혈당 측정기, 심박 측정기, 혈압 측정기, 또는 체온 측정기 등), MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 또는 초음파기 등), 네비게이션(navigation) 장치, GPS 수신기(global positioning system receiver), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트(infotainment) 장치, 선박용 전자 장비(예: 선박용 항법 장치, 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛(head unit), 산업용 또는 가정용 로봇, 금융 기관의 ATM(automatic teller’s machine), 상점의 POS(point of sales), 또는 사물 인터넷 장치(internet of things)(예: 전구, 각종 센서, 전기 또는 가스 미터기, 스프링클러 장치, 화재경보기, 온도조절기(thermostat), 가로등, 토스터(toaster), 운동기구, 온수탱크, 히터, 보일러 등) 중 적어도 하나를 포함할 수 있다.
어떤 실시 예에 따르면, 전자 장치는 가구(furniture) 또는 건물/구조물의 일부, 전자 보드(electronic board), 전자 사인 수신 장치(electronic signature receiving device), 프로젝터(projector), 또는 각종 계측 기기(예: 수도, 전기, 가스, 또는 전파 계측 기기 등) 중 적어도 하나를 포함할 수 있다. 다양한 실시 예에서, 전자 장치는 전술한 다양한 장치들 중 하나 또는 그 이상의 조합일 수 있다. 어떤 실시 예에 따른 전자 장치는 플렉서블 전자 장치일 수 있다. 또한, 본 발명의 실시 예에 따른 전자 장치는 전술한 기기들에 한정되지 않으며, 기술 발전에 따른 새로운 전자 장치를 포함할 수 있다.
이하, 첨부 도면을 참조하여, 다양한 실시 예에 따른 전자 장치가 설명된다. 본 문서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치 (예: 인공지능 전자 장치)를 지칭할 수 있다.
도 1은 다양한 실시 예에 따른 네트워크 환경 내의 전자 장치를 나타낸다.
도 1을 참조하여, 다양한 실시 예에서의 네트워크 환경 100 내의 전자 장치 101이 기재된다. 전자 장치 101은 버스 110, 프로세서 120, 메모리 130, 입출력 인터페이스 150, 디스플레이 160, 및 통신 인터페이스 170을 포함할 수 있다. 또한 전자 장치 101은 촬영 모듈 180을 더 포함할 수 있다. 어떤 실시 예에서는, 전자 장치 101은, 상기 구성요소들 중 적어도 하나를 생략하거나 다른 구성 요소를 추가적으로 구비할 수 있다.
버스 110은, 예를 들면, 구성요소들 110-180을 서로 연결하고, 구성요소들 간의 통신(예: 제어 메시지 및/또는 데이터)을 전달하는 회로를 포함할 수 있다.
프로세서 120은, 중앙처리장치(CPU), AP(application processor), 또는 CP(communication processor) 중 하나 또는 그 이상을 포함할 수 있다. 프로세서 120은, 예를 들면, 전자 장치 101의 적어도 하나의 다른 구성요소들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 실행할 수 있다. 다양한 실시 예에서, 프로세서 120은 제어 모듈 이해될 수 있으며, 영상 처리를 위한 그래픽 처리 모듈(예: GPU)을 포함할 수 있다. 또한 프로세서 120은 음성 데이터를 분석하기 위한 분석 모듈과 같은 하위 모듈을 더 포함할 수 있다.
메모리 130은, 휘발성 및/또는 비휘발성 메모리를 포함할 수 있다. 메모리 130은, 예를 들면, 전자 장치 101의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있다. 한 실시 예에 따르면, 메모리 130은 소프트웨어 및/또는 프로그램 140을 저장할 수 있다. 프로그램 140은, 예를 들면, 커널 141, 미들웨어 143, API(application programming interface) 145, 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 147 등을 포함할 수 있다. 커널 141, 미들웨어 143, 또는 API 145의 적어도 일부는, 운영 시스템(operating system, OS)이라고 불릴 수 있다.
다양한 실시 예에서, 메모리 130은 촬영 모듈 180에 의해 촬영되거나 통신 인터페이스 170을 통해 획득된 다수의 사진이나 동영상 등을 저장하고 있을 수 있다. 또한 메모리 130은 다수의 이미지나 동영상을 편집하거나 관리하기 위한 어플리케이션 147(예: 갤러리 어플리케이션)을 포함할 수 있다.
커널 141은, 예를 들면, 다른 프로그램들(예: 미들웨어 143, API 145, 또는 어플리케이션 프로그램 147)에 구현된 동작 또는 기능을 실행하는 데 사용되는 시스템 리소스들(예: 버스 110, 프로세서 120, 또는 메모리 130 등)을 제어 또는 관리할 수 있다. 또한, 커널 141은 미들웨어 143, API 145, 또는 어플리케이션 프로그램 147에서 전자 장치 101의 개별 구성요소에 접근함으로써, 시스템 리소스들을 제어 또는 관리할 수 있는 인터페이스를 제공할 수 있다.
미들웨어 143은, 예를 들면, API 145 또는 어플리케이션 프로그램 147이 커널 141과 통신하여 데이터를 주고받을 수 있도록 중개 역할을 수행할 수 있다.
또한, 미들웨어 143은 어플리케이션 프로그램 147로부터 수신된 하나 이상의 작업 요청들을 우선 순위에 따라 처리할 수 있다. 예를 들면, 어플리케이션 프로그램 147 중 적어도 하나에 전자 장치 101의 시스템 리소스(예: 버스 110, 프로세서 120, 또는 메모리 130 등)를 사용할 수 있는 우선 순위를 부여할 수 있다. 예컨대, 미들웨어 143은 상기 적어도 하나에 부여된 우선 순위에 따라 상기 하나 이상의 작업 요청들을 처리함으로써, 상기 하나 이상의 작업 요청들에 대한 스케쥴링 또는 로드 밸런싱 등을 수행할 수 있다.
API 145는, 예를 들면, 어플리케이션 147이 커널 141 또는 미들웨어 143에서 제공되는 기능을 제어하기 위한 인터페이스로, 예를 들면, 파일 제어, 창 제어, 화상 처리, 또는 문자 제어 등을 위한 적어도 하나의 인터페이스 또는 함수(예: 명령어)를 포함할 수 있다.
입출력 인터페이스 150은, 예를 들면, 사용자 또는 다른 외부 기기로부터 입력된 명령 또는 데이터를 전자 장치 101의 다른 구성요소(들)에 전달할 수 있는 인터페이스의 역할을 할 수 있다. 또한, 입출력 인터페이스 150은 전자 장치 101의 다른 구성요소(들)로부터 수신된 명령 또는 데이터를 사용자 또는 다른 외부 기기로 출력할 수 있다.
입출력 인터페이스 150은 사용자로부터 음성 입력을 획득하기 위한 음성 입력 모듈 152를 포함할 수 있다. 음성 입력 모듈 152는 예를 들어 마이크일 수 있다.
디스플레이 160은, 예를 들면, 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이, 유기 발광 다이오드(OLED) 디스플레이, 또는 마이크로 전자기계 시스템(microelectromechanical systems, MEMS) 디스플레이, 또는 전자 종이(electronic paper) 디스플레이를 포함할 수 있다. 디스플레이 160은, 예를 들면, 사용자에게 각종 컨텐츠(예: 텍스트, 이미지, 비디오, 아이콘, 또는 심볼 등)을 표시할 수 있다. 디스플레이 160은, 터치 스크린을 포함할 수 있으며, 예를 들면, 전자 펜 또는 사용자의 신체의 일부를 이용한 터치, 제스처, 근접, 또는 호버링(hovering) 입력을 수신할 수 있다.
통신 인터페이스 170은, 예를 들면, 전자 장치 101과 외부 장치(예: 제1 외부 전자 장치 102, 제2 외부 전자 장치 104, 또는 서버 106) 간의 통신을 설정할 수 있다. 예를 들면, 통신 인터페이스 170은 무선 통신 또는 유선 통신을 통해서 네트워크 162에 연결되어 상기 외부 장치 (예: 제2 외부 전자 장치 104 또는 서버 106)와 통신할 수 있다.
무선 통신은, 예를 들면 셀룰러 통신 프로토콜로서, 예를 들면 LTE, LTE-A, CDMA, WCDMA, UMTS, WiBro, 또는 GSM 등 중 적어도 하나를 사용할 수 있다. 또한 무선 통신은, 예를 들면, 근거리 통신 164를 포함할 수 있다. 근거리 통신 164는, 예를 들면, Wi-Fi, Bluetooth, NFC(near field communication), 또는 GPS(global positioning system) 등 중 적어도 하나를 포함할 수 있다. 유선 통신은, 예를 들면, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard 232), 또는 POTS(plain old telephone service) 등 중 적어도 하나를 포함할 수 있다. 네트워크 162는 통신 네트워크(telecommunications network), 예를 들면, 컴퓨터 네트워크(computer network)(예: LAN 또는 WAN), 인터넷, 또는 전화 망(telephone network) 중 적어도 하나를 포함할 수 있다.
제1 및 제2 외부 전자 장치 102, 104 각각은 전자 장치 101과 동일한 또는 다른 종류의 장치일 수 있다. 한 실시 예에 따르면, 서버 106은 하나 또는 그 이상의 서버들의 그룹을 포함할 수 있다. 다양한 실시 예에 따르면, 전자 장치 101에서 실행되는 동작들의 전부 또는 일부는 다른 하나 또는 복수의 전자 장치(예: 전자 장치 102, 104, 또는 서버 106)에서 실행될 수 있다. 한 실시 예에 따르면, 전자 장치 101이 어떤 기능이나 서비스를 자동으로 또는 요청에 의하여 수행해야 할 경우에, 전자 장치 101은 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 그와 연관된 적어도 일부 기능을 다른 장치(예: 전자 장치 102, 104, 또는 서버 106)에게 요청할 수 있다. 다른 전자 장치(예: 전자 장치 102, 104, 또는 서버 106)는 요청된 기능 또는 추가 기능을 실행하고, 그 결과를 전자 장치 101로 전달할 수 있다. 전자 장치 101은 수신된 결과를 그대로 또는 추가적으로 처리하여 요청된 기능이나 서비스를 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다.
도 2는 다양한 실시 예에 따른 음성 태그를 등록하는 예시적인 UI를 나타낸다.
음성 태그를 등록하는 방법은 다양하게 있을 수 있다. 이하에서는 촬영 동작에 연계하여 음성 태그를 등록하는 방법과 사용자 선택에 의해 음성 태그를 등록하는 방법을 설명한다. 그러나 이 방법들은 예시적인 것이며, 본 발명은 다양한 변형을 가질 수 있고, 이 방법들로 한정되지 않는다.
전자 장치(예: 전자 장치 101)의 사용자는 전자 장치에 탑재된 카메라(예: 촬영 모듈 180)를 사용하여 대상을 촬영할 수 있다. 예를 들어, 화면 210을 참조하면, 화면 210에 도시된 적어도 하나의 버튼을 이용하여 원하는 촬영 모드를 조정하고, 지정된 버튼(예: 카메라 모양의 버튼)을 터치 입력하거나 전자 장치에 구비된 소정의 물리 버튼을 선택하여 대상을 촬영할 수 있다.
다양한 실시 예에 따르면, 촬영이 이루어지면 전자 장치는 음성 태그(voice tag)를 등록할지 여부를 확인하는 UI(user interface)를 포함하는 화면을 제공할 수 있다. 예를 들어, 화면 220에는 음성 태그의 등록 여부를 묻는 UI 221이 제공될 수 있다. 사용자는 UI 221에 대한 적절한 응답, 예를 들어 Yes 버튼을 선택하는 동작을 통해 음성 태그를 입력할 수 있다.
화면 220과 같은 UI는 다양한 상황에서 제공될 수 있다. 예를 들어, 화면 220은 카메라가 대상을 촬영하면 자동으로 제공될 수 있다. 또는, 화면 220은 대상이 촬영된 후 사용자로부터 소정의 입력이 이루어지면 제공될 수 있다. 예를 들어, 촬영 후 물리 버튼이 일정 시간이상 눌러진다거나, 전자 장치를 좌우로 흔든다거나 하는 동작이 발생하면 음성 태그 입력 여부를 묻는 화면 220이 제공될 수 있다.
다양한 실시 예에서, UI 221은 사진 촬영이 수행된 후 소정 시간(예: 2초)이 경과한 후에 제공될 수 있다. 또한 UI 221이 제공된 후 소정 시간(예: 1.5초) 동안 아무런 입력이 없는 경우, UI 221은 디스플레이에서 사라질 수 있다. 전술한 소정의 시간 값(예: 2초 또는 1.5초 등)은 사용자 지정에 의해 변경되거나, 시스템(전자 장치)의 설정이나 운용 환경에 따라 변경될 수 있다. 또한 다양한 실시 예에서, UI 221은 사진 촬영이 수행되기 전에도 제공될 수 있다. 예를 들어, UI 221을 포함하는 화면 220이 제공되고, 화면 210에서 사진 촬영이 수행된 후에, 음성 태그 등록을 위한 화면 230이 제공될 수 있다.
일반적으로 사용자는 사진 촬영 이후에 대상을 변경하거나 초점, 구도 등을 변경하여 연속적으로 사진 촬영을 수행할 수 있다. 다음 촬영을 준비하는 동안 촬영 모드에 있는 전자 장치의 디스플레이에는 현재 렌즈에 포착된 대상(전자 장치의 움직임이나 손떨림 등에 따라 대상은 조금씩 달라질 수 있다)이 디스플레이 될 수 있다. 이 상태에서, 현재 촬영 모드의 화면(예: 화면 210)에 음성 태그 입력을 위한 아이콘(또는 메뉴)(예: 화면 260의 아이콘 261)이 적어도 화면의 일부(예: 화면의 우측 상단 또는 하단 중앙 등)에 제공될 수 있다. 해당 아이콘에 선택되면, 전자 장치는 바로 직전에 촬영된 사진에 대하여 음성 태그를 입력하기 위한 화면 220을 제공할 수 있다. 이 예시는 계속해서 여러 장의 사진을 찍을 때, 사용자가 성공적으로 촬영했다고 생각되는 사진에 대하여 마킹(marking)을 하기 위한 방법으로 특히 유용할 수 있다.
사용자가 사진에 음성 태그를 등록하기로 결정하면(예: UI 221에서 Yes를 선택하면), 음성 입력을 위한 화면 230이 제공될 수 있다. 화면 230은 적절한 안내 메시지 231(예: Say voice tag for this photo)을 함께 제공할 수 있다. 사용자가 음성 입력을 제공하면, 전자 장치는 해당 음성 입력을 데이터 파일로 생성하여 해당 사진에 등록할 수 있다. 다양한 실시 예에서, 전자 장치는 음성 입력을 음성 인식 기능 등을 활용하여 텍스트로 변환하고, 상기 음성 입력에 해당하는 음성 태그와 함께 음성 입력이 텍스트로 변환된 텍스트 태그를 해당 사진에 등록할 수 있다. 음성 태그로서 사진에 등록하는 방법은 전술한 예시에 한정되지 않으며, 다양한 방법이 이용될 수 있다.
음성 태그가 등록된 사진은, 예를 들어 화면 240과 같이 음성 태그 아이콘 241을 포함하고 있을 수 있다. 그러나 이는 예시적인 것이며, 다양한 방법으로 해당 이미지에 음성 태그가 등록되어 있음이 표현될 수 있다. 일부 실시 예에서는, 음성 태그가 등록되어 있지 않은 다른 이미지들과 같이 아무런 표시가 되어 있지 않을 수 있다.
사용자에 의해 음성 태그 아이콘 241이 선택되면 사용자가 등록한 음성 데이터가 재생될 수 있다. 혹은 음성 태그 아이콘 241이 선택되고 있는 동안 음성 인식을 통해 변환된 텍스트가 일시적으로 디스플레이 될 수 있다. 다양한 실시 예에서, 음성 태그 아이콘 241에 터치 입력(또는 S-펜 등을 이용한 호버링 입력)이 유지되는 동안 음성 태그 아이콘 241 주위로 음성 듣기, 연관 이미지 검색, 음성 태그 삭제 등의 다양한 메뉴가 제공될 수 있다.
다양한 실시 예에서, 음성 태그는 촬영 동작에 연속적이지 않은 다른 동작을 통해서 등록될 수도 있다. 예를 들어, 사용자는 갤러리 어플리케이션과 같은 이미지 관리 어플리케이션을 통해 전자 장치에 저장된 이미지 목록을 화면 250과 같이 확인할 수 있다. 이제 사용자가 임의의 사진을 선택하면 해당 사진이 화면 260과 같이 제공될 수 있다. 화면 260에는 해당 사진 및 음성 태그 등록을 유도하는 음성 입력 아이콘 261이 함께 제공될 수 있다. 음성 입력 아이콘 261이 선택되면 화면 230과 같은 음성 입력을 위한 화면이 제공될 수 있다. 일부 실시 예에서는, 화면 220이 제공된 후에 사용자 입력에 따라 화면 230이 제공될 수 있다. 이후의 절차는 전술한 설명에 대응될 수 있다.
다양한 실시 예에서, 화면 220이 디스플레이 되는 동작이 생략될 수 있다. 예를 들어, 촬영 후에 바로 음성 입력을 위한 화면 230이 제공되거나, 화면 260에서 바로 화면 230이 제공될 수 있다.
사용자에 의해 특정 사진에 대한 음성 입력이 음성 태그로 등록되면, 전자 장치는 특정 사진과 연관성을 갖는 사진을 검색하여 동일한 음성 태그를 등록하는 동작을 수행할 수 있다. 여기서 연관성이라 함은, 특정 사진과 유사한 사진을 의미할 수도 있지만, 지리적, 시간적 연관성과 같은 다양한 의미의 연관성을 포함하는 것으로 해석될 수 있다.
예를 들어, 식물원에서 촬영된 사진에 단풍나무가 포함되어 있고 사용자가 해당 사진에 대하여 “식물원”이라는 음성 태그를 등록한 경우, 전자 장치는 이 사진과 유사한 다른 이미지(예: 단풍 나무를 포함한 유사한 사진)를 검색하여 같은 음성 태그, 즉 “식물원” 음성 태그를 등록할 수 있다. 그러나 다양한 실시 예에서, 전자 장치는 사용자에 의해 입력된 음성 입력(예: “식물원”)을 분석하고, 해당 음성 입력이 갖는 의미가 특정 범주(예: 장소)에 해당하는 것을 판단할 수 있다. 이 경우, 전자 장치는 해당 사진이 가진 메타 정보 중 적절한 메타 정보(예: 사진이 촬영된 장소에 대한 지역 정보, GPS 좌표 정보 등)를 결정하고, 해당 메타 정보에 대하여 소정의 기준을 만족하는 다른 이미지(예: 동일 지역에서 촬영된 사진, 또는 상기 GPS 좌표로부터 1km 거리 이내에서 촬영된 이미지)에 “식물원” 음성 태그를 등록할 수 있다.
이하에서는 특정 이미지에 대하여 연관성을 갖는 이미지를 판단하기 위해 활용되는 정보를 살펴보고, 각 정보를 이용하여 연관 이미지를 결정하고 음성 태그를 등록하는 방법을 설명한다.
도 3은 다양한 실시 예에 따른 메타 정보 및 이를 이용한 태그 등록 과정을 나타낸다.
다양한 실시 예에서, 특정 이미지 300에 포함된 다양한 정보들이 음성 태그 등록을 위해 사용될 수 있다. 우선, 이미지 그 자체에 대한 정보가 사용될 수 있다. 예를 들어, 이미지가 나타내고 있는 대상(예: 바다, 야경, 하늘, 초원, 산, 빌딩 등), 이미지에 포함된 객체(고양이, 아기, 책, 커피, 음식 등), 또는 이미지의 색상 분포 등이 음성 태그 등록을 위해 사용될 수 있다. 이하에서는 이와 같은 이미지를 통해 시각적으로 제공되는 정보는 단순히 이미지 정보 310으로 표현될 수 있다. 전자 장치의 프로세서 120은 이미지 정보 310을 이용하여 특정 이미지와 다른 이미지 사이의 유사도(예: 75% 유사)를 영상 처리(image processing) 기법 등을 이용하여 판단할 수 있다.
이미지 300은 시각적으로 제공되는 이미지 정보 310 외에, 다양한 메타 정보 320을 포함할 수 있다. 메타 정보 320은 이미지 300이 촬영된 위치를 나타내는 위치 정보 321, 이미지 300이 촬영된 시간을 나타내는 시간 정보 323, 이미지 300을 촬영한 장치에 관한 정보를 나타내는 장치 정보 325, 이미지 300의 촬영 당시에 사용된 촬영 모드를 나타내는 촬영 모드 정보 327, 및 그 외에 다양한 기타 정보 329(예: 이미지 파일의 해상도, 용량, 파일 이름, 파일이 저장된 폴더 등)를 포함할 수 있다.
위치 정보 321은 이미지 300이 촬영된 국가, 도시, 또는 지역이나 특정 건물, 장소에 대한 정보를 포함할 수 있다. 또한 위치 정보 321은 GPS 좌표와 같은 지리학적 정보를 포함할 수 있다. 다양한 실시 예에서, 위치 정보 321은 이미지 300이 촬영될 당시에 연결된 네트워크 AP(access point)나 기지국(node B)에 대한 정보를 포함할 수 있다.
시간 정보 323은 이미지 300이 촬영된 시간에 대한 정보를 포함할 수 있다. 예를 들어, 시간 정보 323은 이미지 300이 촬영된 연, 월, 일, 시, 분, 초 등에 대한 정보를 포함할 수 있다. 다양한 실시 예에서, 시간 정보 323은 그 정보 그대로 활용되거나 혹은 다른 형태(예: 계절, 오전/오후, 일출/일몰, 또는 음력 날짜 등)로 변형되어 활용될 수 있다.
장치 정보 325는 이미지 300이 촬영된 장치가 어떤 장치인지에 대한 정보를 포함할 수 있다. 예를 들어, 촬영 장치의 모델 이름, 제조 업체, 사용된 렌즈의 종류, 또는 촬영 장치와 이미지 300을 디스플레이 하고 있는 사용자 장치가 동일한지 여부(예: 이미지 300이 전자 장치 101에 의해 촬영되었는지, 또는 외부 장치에 의해 촬영된 이미지 300이 전자 장치 101로 네트워크 등을 통해 전송된 것인지 여부) 등에 대한 정보를 포함할 수 있다.
모드 정보 327은 이미지 300이 촬영된 시점의 촬영 모드 정보를 포함할 수 있다. 구체적으로, 촬영 당시의 초점 정보, 아웃포커싱 여부, 플래시 사용 여부, 화이트 밸런스 수준, 보정 여부, 근접 촬영 여부, 야간 모드 여부 등을 포함할 수 있다.
이하에서는 이미지 300의 복수의 메타 정보 중 하나 이상의 메타 정보를 결정하여 연관 이미지 판단에 이용하는 방법에 대하여 설명한다.
동작 301에서 이미지 300에 대하여 사용자의 음성 데이터가 입력되면, 프로세서 120은 동작 303에서 상기 음성 데이터를 분석할 수 있다. 프로세서 120은 음성 데이터를 분석하기 위한 음성 인식 모듈 또는 사운드 스펙트럼 분석(sound spectrum analysis) 엔진을 더 포함할 수 있다. 프로세서 120은 음성 데이터를 분석하여 그 의미를 판단할 수 있다. 예를 들어, 음성 데이터 분석 결과 입력된 음성이 “바다”라고 판단할 수 있다. 프로세서 120은 음성 데이터의 의미를 지정된 범주로 구분(예: “바다”의 경우 장소 범주)하여 해당 범주에 대응하는 메타 정보(예: “바다”의 경우 위치 정보)를 결정할 수 있다.
프로세서 120은 음성 데이터에 기반하여 메타 정보를 결정하기 위해, 음성 데이터 자체에 대한 분석뿐만 아니라 이미지 정보 310을 함께 이용할 수 있다. 예를 들어, 사용자가 “사과”라고 음성 입력을 제공한 경우, 해당 의미가 과일(apple)인지 혹은 미안함의 표시(apology)인지 음성 데이터에만 기반한 분석으로는 명확하지 않다. 프로세서 120은 이미지 정보 310(예: 이미지 300에 나타난 객체, 즉 사과)을 이용하여, 현재 이미지 300에 과일의 한 종류인 사과(apple)가 나타나 있는 경우, 해당 음성 데이터를 “사과(apple)”로 분석할 수 있다.
다양한 실시 예에서, 프로세서 120은 서버 106를 통해 음성 입력의 의미를 확인할 수 있다. 예를 들어, 프로세서 120은 사용자에 의해 입력된 음성 데이터와 이미지 300을 통신 인터페이스 170을 통해 서버 106으로 제공하고, 서버 106에 의해 분석된 결과를 수신하여 메타 정보를 결정하기 위해 활용할 수 있다.
동작 303에서 음성 데이터가 분석되면, 프로세서 120은 음성 데이터의 분석 결과와 메타 정보 321, 323, 325, 327, 또는 329에 포함된 다양한 메타 정보 각각의 연관 관계에 기반하여, 위치, 시간, 촬영 장치, 촬영 모드 등에 대한 정보 중 적어도 하나의 메타 정보를 결정할 수 있다. 예를 들어, 해변, 바다, 한라산, 식물원, 백화점 등과 같이 음성 입력이 장소와 연관된 것으로 분석된 경우, 위치 정보 321을 메타 정보로 결정할 수 있다. 예를 들어, 야경, 일출, 일몰, 생일 등과 같이 음성 입력이 날짜 또는 시간과 연관된 경우, 시간 정보 323을 메타 정보로 결정할 수 있다.
프로세서 120은 하나의 음성 데이터에 대하여 둘 이상의 메타 정보를 결정할 수 있다. 예를 들어, 음성 입력이 “여름 바다”인 경우, 시간 정보 323 및 위치 정보 321이 결정될 수 있다.
프로세서 120은 음성 데이터가 메타 정보에 대응될 수 있는 적절한 범주를 갖지 않는 경우, 예를 들어 음성 입력이 “키보드”와 같이 위치나 시간, 이미지 촬영 장치 등과 무관한 경우에는 미리 정의된 적절한 메타 정보를 결정할 수 있다. 위 예시에서, 프로세서 120은 “키보드”의 음성 입력에 대하여 위치 정보 321, 시간 정보 323, 및 모드 정보 327를 음성 태그 등록에 사용할 메타 정보로 결정할 수 있다. 이러한 경우, 프로세서 120은 “키보드” 음성 태그가 등록된 이미지 300과 비슷한 날짜, 비슷한 장소에서 비슷한 모드(예: 근접 촬영 모드)로 촬영된 다른 이미지들에 대하여 동일하게 “키보드” 음성 태그를 등록할 수 있다. 후술하겠지만, 상기 다른 이미지들은 이미지 정보 310을 사용하여 이미지 300과 어느 정도 유사한(예: 키보드를 포함하고 있는 사진) 것으로 판단된 이미지들일 수 있다.
이하에서는, 이미지 정보 310과 메타 정보 320을 이용하여 연관 이미지를 판단하여 음성 태그를 등록하는 동작(예: 동작 307)을 설명한다.
프로세서 120은 이미지 정보 310과 메타 정보 320을 이용하여 전자 장치 101의 메모리 130에 저장된 다수의 이미지 중에서 이미지 300과 연관된 것으로 판단되는 이미지를 결정할 수 있다. 판단 대상이 되는 이미지는 반드시 메모리 130에 저장되어 있을 필요는 없다. 예를 들어, 클라우드 서버(예: 서버 106)에 저장되어 있는 이미지들에 대해서도 연관 이미지 여부에 대한 판단이 이루어질 수 있다. 이 방법에 대해서는 도 10을 참조하여 후술한다. 이하에서는 설명의 편의상 다수의 이미지들이 전자 장치 101에 저장된 것으로 설명한다.
프로세서 120은 이미지 300과 연관된 이미지를 결정하기 위해 다양한 방법을 활용할 수 있다. 예를 들어, 프로세서 120은 이미지 정보 310을 이용하여, 임계 값 이상의 유사도를 갖는 이미지를 연관 이미지로 결정할 수 있다. 프로세서 120은 이미지 비교를 위해 영상 처리 모듈을 포함하거나, 혹은 영상 처리 알고리즘을 이용할 수 있다.
다양한 실시 예에서, 유사도의 임계 값은 다양하게 설정될 수 있다. 예를 들어, 70% 이상의 유사도를 갖는 이미지가 연관 이미지로 판단되도록 설정될 수 있다. 또는 95% 이상의 유사도를 갖는 이미지가 연관 이미지로 판단되도록 설정될 수 있다. 다양한 실시 예에서, 이미지 정보 310은 이미지 300에 포함된 객체(예: 나무, 자동차, 사람, 음식 등)에 대한 정보를 포함할 수 있고, 프로세서 120은 이미지 300에 포함된 객체, 또는 포함된 객체들 중 가장 많은 비율을 차지하는 객체와 다른 이미지에 포함된 객체 사이의 유사도를 판단하여 연관 이미지를 판단할 수 있다.
전술한 예시에서는 이미지의 유사도가 임계 값 이상을 갖는 경우를 가정하였으나, 다양한 실시 예에서 임계 값은 소정 범위로 대체될 수 있다. 예를 들어, 매우 높은 유사도(예를 들어, 95~100%의 유사도)를 갖는 이미지는 연속 촬영을 통해 획득된 동일 피사체에 대한 이미지일 수 있다. 따라서, 다양한 실시 예에서, 실질적으로 동일한(즉, 매우 높은 유사도를 갖는) 이미지들에 음성 태그를 부여하는 것보다, 소정 범위(예를 들어, 50~80%의 유사도)의 유사도를 갖는 이미지를 연관 이미지로 결정하는 것이 효율적일 수 있다.
프로세서 120은 연관 이미지를 판단하기 위해 메타 정보를 이용할 수 있다. 예를 들어, 프로세서 120은 위치 정보 321을 이용하여, 이미지 300이 촬영된 위치로부터 지정된 범위 내에 해당하는 촬영 위치를 메타 정보로 갖는 다른 이미지를 연관 이미지로 결정할 수 있다. 예를 들어, 프로세서 120은 이미지 300이 촬영된 위치가 인천공항인 경우, 인천공항에 해당하는 위치 정보를 메타 데이터로 포함하는 이미지를 연관 이미지로 판단할 수 있다. 또는 예를 들어, 프로세서 120은 이미지 300이 촬영된 GPS 좌표로부터 지정된 범위(예: 2km) 내에 포함되는 위치를 메타 데이터로 포함하는 이미지를 연관 이미지로 판단할 수 있다.
다양한 실시 예에서 프로세서 120은 시간 정보 323을 이용하여, 이미지 300이 촬영된 시간과 미리 정의된 연관 관계를 갖는 촬영 시간을 메타 정보로 갖는 이미지를 연관 이미지로 결정할 수 있다. 예를 들어, 제어 모듈은 이미지 300이 촬영된 시간(예: 2014년 3월 1일 오후 2시)으로부터 지정된 범위(예: 상기 시간 전후 2시간) 내에 해당하는 시간 정보를 메타 데이터로 포함하는 이미지를 연관 이미지로 결정할 수 있다.
다양한 실시 예에서, 프로세서 120은 이미지 300이 촬영된 시간과 지정된 연관 관계를 갖는 시간 정보를 메타 데이터로 포함하는 이미지를 연관 이미지로 결정할 수 있다. 예를 들어 프로세서 120은 이미지 300이 촬영된 시간과 동일 날짜(예: 3월 1일)를 메타 데이터로 포함하는 이미지를 연관 이미지로 결정할 수 있다. 또는 예를 들어, 프로세서 120은 이미지 300이 촬영된 시간으로부터 지정된 날짜가 경과한 시점을 메타 정보로 갖는 이미지를 연관 이미지로 결정할 수 있다. 또는 예를 들어, 프로세서 120은 이미지 300이 일출 시간대에 촬영된 경우, 촬영 시간이 일출 시간대에 포함되는 이미지들을 연관 이미지로 결정할 수 있다. 이와 같은 실시 예에서, 사용자는 매년 생일날 촬영된 사진을 하나의 음성 태그로 확인하거나, 또는 특정 기념일로부터 100일, 200일, 300일이 경과한 날의 사진을 하나의 음성 태그로 용이하게 확인할 수 있다. 또한 사용자는 일출, 일몰, 노을, 또는 보름달 등과 같은 시간에 의존하는 현상에 대한 사진을 하나의 음성 태그로 용이하게 확인할 수 있다.
상술한 실시 예들은 예시적으로 제시된 것이며, 다양한 확장, 변형 및 적용이 가능하다. 예를 들어, 장치 정보 325를 이용하여 사용자의 전자 장치 101이 아닌 다른 장치에서 촬영된 사진을 별도의 음성 태그로 관리할 수 있다. 또는 모드 정보 327을 사용하여 근접 촬영 모드로 촬영된 사진만 별도의 음성 태그로 관리할 수 있다. 각각의 경우에 어떠한 정보를 사용할 것인지는 자동적으로 결정되거나, 또는 사용자 설정에 의해 결정될 수 있다. 또한 프로세서 120은, 전술한 바와 같이, 상술한 정보를 하나 이상 활용하여 음성 태그 등록을 위한 연관 이미지를 결정할 수 있다. 복수의 정보를 이용하여 연관 이미지를 결정하는 방법과 관련하여, 복수의 정보가 우선 순위를 갖는 경우의 방법은 도 7을 참조하여, 복수의 정보가 가중치를 갖는 경우의 방법은 도 8을 참조하여 후술한다. 이하에서는 도 4를 참조하여 복수의 정보를 이용하여 원하는 개수의 이미지에 음성 태그를 등록하는 방법을 설명한다.
도 4는 다양한 실시 예에 따른 연관 이미지의 개수를 제어하는 방법을 나타낸다.
도 4를 참조하면, 전자 장치 101은 다수의 이미지들 410을 포함할 수 있다. 사용자는 특정 이미지(예: 이미지 300)에 대하여 음성 태그를 등록하고, 상기 특정 이미지와 연관 관계가 있는 다른 이미지에 대하여 상기 음성 태그와 동일한 음성 태그를 등록하기 위한 동작이 수행될 수 있다. 이 동작은 사용자에 의해 수동적으로 수행되거나, 사용자가 음성 태그로 검색을 수행하는 순간 수행되거나, 또는 전자 장치가 대기 상태 또는 아이들(idle) 상태에 있는 경우 백그라운드에서 수행될 수 있다.
프로세서 120은 음성 태그에 대응되는 음성 데이터를 획득할 수 있다. 이 음성 데이터는 상기 특정 이미지가 촬영된 당시에 획득될 수도 있고, 특정 이미지에 이미 등록된 음성 태그로부터 획득될 수도 있다. 만약 음성 데이터의 분석 결과, 음성 데이터가 장소에 관한 것으로 판단되면, 프로세서 120은 특정 이미지의 메타 정보 중 위치 정보 321을 이용하여 연관 이미지를 판단할 수 있다.
판단 결과, 위치 정보 321에 대해 연관 이미지로 판단된 이미지 420의 수가 m개(예: 245개)일 수 있다. 만약 사용자 등에 의해 설정된 연관 이미지의 개수가 N개(예: 50개) 이하인 경우, 위치 정보 321과 이미지 정보 310을 함께 이용하여 연관 이미지를 판단할 수 있다. 이 판단 과정은, 이미지 420에 대하여(이미지 420을 모집단으로 하여) 이미지 정보 310을 이용하여 연관 이미지를 판단하는 동작으로도 이해될 수 있다.
만약 위치 정보 321 및 이미지 정보 310을 이용하여 연관 이미지로 판단된 이미지 430(즉, 위치 정보 321과 소정 거리 조건의 메타 정보를 포함하면서, 특정 이미지와 소정 조건의 유사도를 만족하는 이미지)의 수가 m’(예: 47개)이고, m’이 N보다 적은 경우, 프로세서 120은 이미지 430을 최종적으로 연관 이미지로 결정할 수 있다. 프로세서 120은 이미지 430에 대하여 상기 음성 데이터를 음성 태그로 등록할 수 있다.
만약 상술한 실시 예에서, 위치 정보 321과 이미지 정보 310을 이용하여 판단된 이미지 430의 수 m’이 N보다 큰 경우, 프로세서 120은 추가적인 메타 정보(예: 시간 정보 323 등)를 이용하여 m’이 N보다 적은 값을 가질 때까지 판단 동작을 반복할 수 있다.
다양한 실시 예에서, m’은 소정 범위(예: n < m’ < N)를 갖도록 조절될 수 있다. m’이 N보다 적은 값을 가지는 경우뿐만 아니라, 지정된 값 이상을 갖도록 하여 특정 이미지와 소정 조건의 유사도를 만족하는 이미지의 수가 일정 범위를 유지하도록 할 수 있다. 이와 관련된 예시적인 방법이 도 8을 참조하여 설명된다.
도 5는 다양한 실시 예에 따른 음성 태그를 가진 이미지를 검색하는 방법을 나타낸다.
다양한 실시 예에서, 음성 태그를 갖는 이미지를 검색하기 위한 UI 510이 제공될 수 있다. 예를 들어, 갤러리 어플리케이션에서 검색 메뉴 511이 제공될 수 있다. 검색 메뉴 511이 선택되면 통상 키보드/키패드와 같은 입력 인터페이스가 음성 입력 버튼/키와 함께 제공되고, 사용자는 음성 입력 버튼/키를 선택하여 음성 입력을 제공할 수 있다. 프로세서 120은 제공된 음성 입력과 유사한(예: 95% 이상의 일치를 보이는) 음성 파형에 대응되는 음성 태그를 갖는 이미지를 검색 결과로 제공할 수 있다.
다양한 실시 예에 따르면 음성 태그 메뉴 513이 선택되면, 현재 등록된 음성 태그의 목록이 제공될 수 있다. 음성 태그의 목록은 아이콘 형태로 제공되거나, 음성 태그에 대응되는 텍스트와 함께 제공될 수 있다. 사용자는 제공된 음성 태그를 선택하여 음성 태그에 대응되는 음성 데이터를 재생할 수 있고, 동일한 음성 태그를 갖는 이미지들을 검색할 수 있다.
다양한 실시 예에서, 사용자는 음성 입력 메뉴 515를 선택하는 동작 등을 통해 음성 입력 기능을 활성화시킬 수 있다. 이 상태에서 음성 입력이 제공되면, 프로세서 120은 해당 음성 입력에 대응되는 음성 태그가 있는 경우 음성 태그를 갖는 이미지 검색을 수행할 수 있다. 만약 해당 음성 입력에 대응되는 음성 태그가 없는 경우, 프로세서 120은 일반적인 음성 인식 어플리케이션의 동작(예: S-voice, 또는 Siri 등)을 수행할 수 있다.
이제 사용자에 의해 음성 입력 520이 제공되면, 전자 장치 101은 화면 530 또는 화면 540과 같은 UI를 제공할 수 있다. 예를 들어, 전자 장치 101은 “사용자의 음성 입력에 대응하는 음성 태그에 대하여 34개의 이미지가 검색되었으며, 그 중 1개는 사용자가 직접 음성 태그를 입력한 최초 이미지이고 33개는 상기 최초 이미지의 연관 이미지로 판단된 이미지”와 같은 내용을 나타내는 검색 결과 531을 제공할 수 있다. 또한, 전자 장치 101은 검색 결과 531과 함께 검색된 이미지 또는 이미지의 썸네일(thumbnail) 533, 534, 535 등을 디스플레이 할 수 있다. 이 경우, 최초 이미지 533이 가장 우선하여 디스플레이 될 수 있다.
다양한 실시 예에서, 전자 장치 101은 음성 입력에 대한 검색 결과를 화면 540과 같이 제공할 수 있다. 이 경우, 사용자가 직접 음성 태그를 등록한 원본 이미지(예: 상기 최초 이미지) 541은 중앙 부분에 상대적으로 크게, 원본 이미지와 연관 이미지로 판단되어 동일한 음성 태그가 전자 장치(또는 프로세서 120)에 의해 등록된 이미지 542, 543, 544, 545 등은 상대적으로 작게 썸네일 등의 형태로 하단 부분에 디스플레이 될 수 있다. 사용자가 기능 메뉴 541p 또는 541n을 선택하면, 예를 들어 사용자가 동일한 음성 태그를 복수의 이미지에 직접 등록한 경우, 전자 장치는 다음 원본 이미지(메뉴 541n이 선택된 경우, 만약 메뉴 541p가 선택되면 이전 원본 이미지)를 출력할 수 있다. 원본 이미지 541이 다른 원본 이미지로 변경되면 하단에 출력되는 연관 이미지들 542, 543, 544, 545 역시 다른 원본 이미지의 연관 이미지들이 출력될 수 있다. 만약 화면 540에서 제공되는 이미지 중 임의의 이미지가 선택되면, 그 임의의 이미지는 전체 화면으로 디스플레이 될 수 있다.
이와 같은 검색 결과 제공 방법은 다양한 이점을 가질 수 있다. 예를 들어, 사용자는 2013년에 방문한 식물원에서 촬영한 사진(제1 이미지)에 대해 “식물원”이라는 음성 태그를 등록할 수 있다. 전자 장치 101은 제1 이미지의 연관 이미지(제1 이미지 그룹)에 동일한 음성 태그를 등록할 수 있다. 만약 메타 정보 중 시간 정보가 사용되면, 2013년 방문 당시의 식물원 사진들 중 일부가 제1 이미지 그룹에 포함될 수 있다. 사용자가 2014년에 방문한 식물원에서 촬영한 사진(제2 이미지)에 동일하게 “식물원”이라는 음성 태그를 등록하는 경우, 전자 장치 101은 이미지 정보와 시간 정보(2014년)를 사용하여 제2 이미지의 연관 이미지(제2 이미지 그룹)에 “식물원” 음성 태그를 등록할 수 있다.
이제 사용자가 “식물원”이라는 음성 입력을 통해 이미지 검색을 수행하는 경우, 제1 이미지, 제2 이미지, 제1 이미지 그룹, 제2 이미지 그룹에 해당되는 사진들은 모두 “식물원” 음성 태그를 가지고 있기 때문에 검색 결과 상에서 혼재되어 제공될 수 있다. 그러나 화면 540과 같이 검색 결과를 제공하는 경우, 제1 이미지와 제1 이미지 그룹, 제2 이미지와 제2 이미지 그룹을 용이하게 구별하여 확인할 수 있다.
전술한 예시에서는 메타 정보 중 시간 정보를 함께 활용한 경우가 설명되었으나, 장소 정보 등 다른 메타 정보를 활용한 경우에도 여전히 유용하다. 예를 들어, 사용자가 서로 다른 곳에 위치한 식물원을 방문하여 여러 장의 사진 촬영을 한 경우, 각각의 식물원에서 모두 “식물원”의 음성 입력을 음성 태그로 사용하였더라도, “식물원” 음성 입력에 대한 검색 결과는 각각의 식물원에서 촬영된 이미지가 갖는 장소를 기준으로 구별되어 제공될 수 있다.
다양한 실시 예에서, 화면 530의 결과 이미지 중 소정 이미지가 선택되면 화면 540이 제공될 수 있다. 예를 들어, 화면 530에서 이미지 533(원본 이미지)이 선택되면 화면 540의 이미지 541의 대응되는 위치에 이미지 533이 출력되고, 이미지 533의 연관 이미지들이 화면 540의 하단에 출력될 수 있다. 다양한 실시 예에서, 화면 530의 상태에서 전자 장치 101이 가로 모드(landscape mode)로 회전하면, 화면 540과 같이 결과 화면이 제공될 수도 있다.
이상 도 1 내지 도 5를 참조하여 본 발명의 다양한 실시 예에 따른, 음성 태그를 등록하고 검색할 수 있는 전자 장치가 여러 예시를 통해 설명되었다. 다양한 실시 예에 따르면, 전자 장치(예: 전자 장치 101)는 외부로부터 음성(voice)를 수신하여, 음성 데이터를 발생하는 음성 입력 모듈, 메모리 장치, 및 상기 음성 입력 모듈 및 메모리 장치와 전기적으로 연결된 프로세서를 포함할 수 있다. 또한 상기 메모리 장치는 하나 이상의 이미지(image) 또는 동영상(video)을 저장하도록 구성되고, 상기 프로세서에 의하여 실행시, 상기 전자 장치가, (i) 상기 메모리 장치에 저장된 제1 이미지 또는 동영상에 대하여 상기 음성 입력 모듈을 통하여 음성을 수신하여 음성 데이터를 발생하고, (ii) 상기 음성 데이터 또는 상기 음성 데이터에 기초한 제1 정보를 상기 제1 이미지 또는 동영상과 연결(link)하고, (iii) 상기 메모리 장치에 저장된 제2 이미지 또는 동영상과, 상기 제1 이미지 또는 동영상과의 관계를 판단하고, (iv) 상기 판단된 관계에 적어도 일부 기초하여, (1) 상기 음성 데이터, (2) 상기 제1 정보, 또는 (3) 상기 음성 데이터 및/또는 상기 제1 정보로부터 발생된 제2 정보 중 적어도 하나를 상기 제2 이미지 또는 동영상과 연결하도록 하는 인스트럭션들(instructions)을 포함할 수 있다.
다양한 실시 예에서, 상기 전자 장치는, 상기 제1 정보를 상기 제1 이미지 또는 동영상에 태그 형태로 연결(link)하고, (1) 상기 음성 데이터, (2) 상기 제1 정보, 또는 (3) 상기 제2 정보 중 적어도 하나를 상기 제2 이미지 또는 동영상에 태그 형태로 연결할 수 있다. 여기서 예를 들어, 상기 제1 정보는, 상기 음성 데이터로부터 추출된 음성-대-문자(speech-to-text) 정보를 포함할 수 있다. 또한 상기 전자 장치는, 상기 제1 이미지 또는 동영상 및 상기 제2 이미지 또는 동영상과 연관된 영상 분석(image analysis), 위치 정보, 시간 정보, 텍스트 정보, 또는 얼굴 인식(face recognition) 정보 중 적어도 하나를 이용하여, 상기 관계를 판단할 수 있다.
다양한 실시 예에 따른 전자 장치는, 외부로부터 음성(voice)를 수신하여, 음성 데이터를 발생하는 음성 입력 모듈, 통신 모듈, 메모리 장치, 및 상기 음성 입력 모듈, 상기 통신 모듈, 및 상기 메모리 장치와 전기적으로 연결된 프로세서를 포함할 수 있다. 상기 메모리 장치는 하나 이상의 이미지(image) 또는 동영상(video)을 저장할 수 있고, 상기 프로세서에 의하여 실행 시, 상기 전자 장치가 (i) 상기 메모리 장치에 저장된 제1 이미지 또는 동영상에 대하여 상기 음성 입력 모듈을 통하여 음성을 수신하여 음성 데이터를 발생하고, (ii) 상기 음성 데이터 또는 상기 음성 데이터에 기초한 제1 정보를 상기 제1 이미지 또는 동영상과 연결(link)하고, (iii) 상기 제1 이미지 또는 동영상 및 상기 연결된 음성 데이터 또는 상기 제1 정보를 상기 통신 모듈을 통하여, 상기 전자 장치 외부로 전송하도록 하는, 인스트럭션들(instructions)을 포함할 수 있다.
다양한 실시 예에서, 상기 전자 장치는, 상기 연결된 음성 데이터 또는 상기 제1 정보에 관련된 하나 이상의 이미지 또는 동영상을 요청하는 요구(request)를 상기 전자 장치 외부로 전송하고, (1) 상기 음성 데이터, (2) 상기 제1 정보, 또는 (3) 상기 음성 데이터 및/또는 상기 제1 정보로부터 발생된 제2 정보 중 적어도 하나와 연결된 하나 이상의 이미지 또는 동영상을 상기 전자 장치 외부로부터 수신할 수 있다.
추가적인 또는 대체적인 예시로서, 전자 장치는 특정 이미지에 대한 음성 데이터를 획득하는 음성 입력 모듈, 및 상기 음성 데이터를 분석하여 상기 특정 이미지의 적어도 하나의 메타 정보를 결정하는 제어 모듈을 포함할 수 있다. 여기서 상기 제어 모듈은 다수의 이미지 중에서 상기 특정 이미지 또는 상기 결정된 메타 정보에 대하여 지정된 기준을 만족하는 적어도 하나의 연관 이미지에 대하여 상기 음성 데이터를 음성 태그로 등록할 수 있다. 다양한 실시 예에서, 상기 복수의 메타 정보는 상기 특정 이미지가 촬영된 위치 또는 시간에 대한 정보, 상기 특정 이미지를 촬영한 장치에 대한 정보, 상기 특정 이미지의 촬영 모드에 대한 정보 중 하나 이상을 포함할 수 있다.
다양한 실시 예에서 상기 전자 장치는 촬영 모듈을 더 포함하고, 상기 제어 모듈은 상기 촬영 모듈에 의해 상기 특정 이미지가 촬영되면 상기 음성 입력 모듈을 활성화하여 상기 음성 데이터의 획득을 유도하도록 설정될 수 있다.
또한, 상기 제어 모듈은 상기 특정 이미지가 선택되면 상기 음성 데이터의 획득을 유도하는 사용자 인터페이스(UI)를 제공하도록 설정되거나, 상기 음성 태그와 함께 상기 음성 데이터를 텍스트로 변환한 텍스트 태그를 상기 적어도 하나의 이미지에 대하여 등록하도록 설정되거나, 적어도 상기 특정 이미지에 나타난 객체를 이용하여 상기 음성 데이터를 분석하도록 설정될 수 있다.
다양한 실시 예에서, 상기 제어 모듈은 상기 음성 데이터의 분석 결과와 상기 복수의 정보 각각의 연관 관계에 기반하여 상기 위치, 시간, 촬영 장치, 촬영 모드에 대한 정보 중 적어도 하나의 메타 정보를 결정할 수 있다. 이 경우, 상기 제어 모듈은 상기 다수의 이미지 중에서 상기 특정 이미지의 상기 위치로부터 지정된 범위 내에 해당하는 위치 정보를 메타 데이터로 포함하는 이미지를 상기 적어도 하나의 연관 이미지로 결정하거나, 상기 다수의 이미지 중에서 상기 특정 이미지의 상기 시간으로부터 지정된 범위 내에 해당하는 시간 정보를 메타 데이터로 포함하는 이미지를 상기 적어도 하나의 연관 이미지로 결정하거나, 상기 다수의 이미지 중에서 상기 특정 이미지의 상기 시간과 지정된 연관 관계에 있는 시간 정보를 메타 데이터로 포함하는 이미지를 상기 적어도 하나의 연관 이미지로 결정할 수 있다. 한편 상기 제어 모듈은 상기 다수의 이미지 중에서 상기 특정 이미지와 임계 값 이상의 유사도를 갖는 이미지를 상기 적어도 하나의 연관 이미지로 결정할 수 있다.
또한 다양한 실시 예에서, 상기 다수의 이미지 중 적어도 일부의 이미지는 상기 전자 장치와 기능적으로 연결된 외부 장치에 저장되어 있고, 상기 전자 장치는 상기 외부 장치와 통신할 수 있는 통신 모듈을 더 포함할 수 있다.
한편 다양한 실시 예에 따른 전자 장치는 상기 음성 태그를 이용한 검색 기능을 제공할 수 있다. 예를 들어, 메모리, 전자 장치는 음성 데이터를 획득하는 음성 획득 모듈, 및 상기 획득된 음성 데이터에 기초하여 복수의 이미지 또는 동영상으로부터 적어도 하나의 이미지를 검색하는 프로세서를 포함할 수 있다. 상기 메모리 장치는, 상기 프로세서에 의해 실행 시, 상기 전자 장치가, (1) 상기 복수의 이미지 또는 동영상 중 상기 음성 데이터에 대응되는 음성 태그와 연결되거나, (2) 상기 음성 데이터에 기초한 제1 정보와 연결되거나, 또는 (3) 상기 음성 데이터 및/또는 상기 제1 정보로부터 발생된 제2 정보와 연결된 이미지 또는 동영상 중 적어도 하나의 이미지를 검색하여 제공하도록 하는, 인스트럭션들(instructions)을 포함할 수 있다. 또한 상기 복수의 이미지 또는 동영상 중 적어도 일부는 상기 전자 장치와 기능적으로 연결된 외부 장치에 저장되어 있을 수 있다. 또한 상기 전자 장치가 통신 모듈을 더 포함하는 경우, 상기 메모리 장치는, 상기 외부 장치로 상기 음성 데이터에 기초한 이미지 또는 동영상 검색 결과를 요청하는 요구(request)를 상기 외부 장치로 전송하고, 상기 외부 장치로부터 수신된 검색 결과 중 적어도 일부를 제공하도록 하는 인스트럭션들을 더 포함할 수 있다.
이하에서는 다양한 실시 예에 따른 음성 태그 등록 방법을 설명한다. 이하의 방법들은 전자 장치(예: 전자 장치 101)에 의해 수행될 수 있다. 또한 도시된 순서도에 기재된 순서는, 시간적 순서가 아닌 논리적 흐름을 따르는 것으로, 각 동작들은 논리적으로 모순되지 않는 한 동시에 발생하거나 또는 다른 순서에 따라 동작할 수 있다. 또한 도 1 내지 도 5를 참조하여 설명된 다양한 변형과 확장은 이하의 방법에도 적용될 수 있다.
도 6은 다양한 실시 예에 따른 음성 태그 등록 방법을 나타낸다.
동작 610에서, 전자 장치 101은 특정 이미지에 대한 음성 데이터를 획득할 수 있다. 예를 들어, 입출력 인터페이스 150 또는 음성 입력 모듈 152는 사용자 발화를 음성 데이터로 획득할 수 있다. 또는 예를 들어 사용자가 음성 태그가 등록된 이미지가 디스플레이 되거나 음성 태그가 등록된 이미지에서 음성 태그 아이콘(예: 도 2의 아이콘 241 등)이 선택되는 경우, 전자 장치는 메모리 130에 저장된 음성 태그에 대응되는 음성 데이터를 획득할 수 있다.
동작 610은 이전 동작에 후행하여 수행될 수 있다. 예를 들어, 사용자가 대상을 촬영한 후(예: 도 2의 화면 210 등)에 수행되거나, 사용자가 갤러리 어플리케이션에서 특정 이미지를 선택한 후(예: 도 2의 화면 250)에 수행될 수 있다.
동작 620에서, 전자 장치 101(또는 전자 장치 101의 프로세서 120)은 음성 데이터에 기반하여 메타 정보를 결정할 수 있다. 특정 이미지는 다수의 메타 정보를 가지고 있으며, 전자 장치 101은 음성 데이터를 분석하여, 상기 다수의 메타 정보 중 음성 데이터와 관련된다고 판단되는 적어도 하나의 메타 정보를 결정할 수 있다. 예를 들어, 도 3을 참조하여 설명된 메타 정보 결정 방법이 동작 620에 적용될 수 있다.
동작 630에서, 전자 장치 101은 특정 이미지에 포함된 객체 또는 특정 이미지가 나타내는 피사체 정보(예: 이미지 정보 310) 및/또는 동작 620에서 결정된 적어도 하나의 메타 정보를 이용하여 특정 이미지와 연관된 것으로 판단되는 연관 이미지를 결정할 수 있다. 동작 630에서, 연관 이미지 판단을 위해 다양한 기준이 적용될 수 있다. 예를 들어, 이미지 사이의 일정 수준의 유사성, 메타 정보의 대응, 유사, 연관 관계 만족 등과 같은 기준이 적용될 수 있다. 이와 관련하여 도 3 및 도 4를 참조하여 전술한 기준과 조건들이 동작 630에 적용될 수 있다.
동작 640에서, 전자 장치 101은 동작 610에서 획득된 음성 데이터를 동작 630에서 연관 이미지로 결정된 이미지들에 음성 태그로 등록할 수 있다. 음성 태그가 등록된 이미지들은 음성 태그가 등록되었음을 나타내는 아이콘(예: 도 2의 아이콘 241)을 포함할 수 있다.
다양한 실시 예에서, 하나의 이미지에 복수 개의 음성 태그가 등록될 수 있다. 예를 들어 음성 태그가 등록된 이미지에 대한 다른 음성 입력에 대하여 동작 610, 620, 630, 640이 다시 수행되어 다른 음성 태그가 등록될 수 있다. 복수의 음성 태그가 등록된 이미지에는 아이콘 241과 같은 표시가 여러 개 포함될 수 있다.
다양한 실시 예에서, 전자 장치 101은 동작 610에서 음성 입력을 연속적으로 획득하고(예: 음성 입력 “여름”, 음성 입력 “바다”), 각각의 음성 입력에 기반하여 결정된 메타 정보(예: 시간 정보, 장소 정보)를 이용하여 판단된 연관 이미지(예: 연관 이미지 그룹 A, 연관 이미지 그룹 B)에 각각의 음성 태그(예: “여름”, “바다”)를 등록할 수 있다. 일부 실시 예에서, 전자 장치 101은 동작 610에서 음성 입력(예: “여름 바다”)을 획득하고, 이를 의미 단위, 또는 단어 단위로 분할하여 메타 정보를 결정하고, 분할된 음성 입력에 따라 연관 이미지를 결정하여 음성 태그(“여름 바다”)를 등록할 수 있다. 이와 같은 경우, “여름”으로 검색하거나, “바다”로 검색하거나, 혹은 “여름 바다”로 검색하여도 “여름 바다”의 음성 태그를 갖는 이미지가 검색 결과로 제공될 수 있다.
도 7은 다양한 실시 예에 따른 파라미터의 우선 순위에 따라 연관 이미지를 결정하는 방법을 나타낸다. 도 7 및 도 8 내지 도 10과 관련된 설명에서, 전술한 내용과 중복, 대응되거나 유사한 설명은 생략될 수 있다.
동작 710에서 전자 장치 101은 특정 이미지에 대한 음성 데이터를 획득할 수 있다. 동작 720에서 전자 장치 101은 획득된 음성 데이터에 기반하여 적어도 하나의 메타 정보를 결정할 수 있다. 동작 710 및 동작 720은 도 6의 동작 610 및 동작 620에 각각 대응될 수 있다.
동작 730에서 전자 장치 101은 이미지 정보 및 메타 정보의 적용 우선 순위를 결정할 수 있다. 예를 들어, 도 4의 실시 예는 위치 정보의 우선 순위가 이미지 정보의 우선 순위보다 높게 결정되어 연관 이미지가 판단된 것으로 이해될 수 있다.
이미지 정보 및 복수의 메타 정보는 연관 이미지를 결정하기 위한 파라미터(parameter)로 이해될 수 있다. 전자 장치 101은 각 파라미터의 우선 순위를 결정할 수 있다. 각 파라미터에 대해서는 서로 다른 연관 이미지 판단 기준이 적용될 수 있다. 예를 들어, 이미지 정보에 대해서는 영상 처리에 따른 유사도 판단이, 시간 정보에 대해서는 같은 날짜를 메타 정보로 갖는지 여부에 대한 판단이 그 기준으로 적용될 수 있다.
동작 740에서 전자 장치 101은 우선 순위에 따라 파라미터를 적용하여 연관 이미지를 판단할 수 있다. 예를 들어, 전자 장치 101은 1순위 파라미터 및 그에 대한 판단 기준을 적용하여 다수의 저장된 이미지 중에서 특정 이미지와 연관된 것으로 판단되는 연관 이미지 후보(1차)를 결정할 수 있다.
동작 750에서 전자 장치 101은 동작 740에서 결정된 연관 이미지, 즉 연관 이미지 후보가 지정된 범위를 만족하는지 여부를 판단할 수 있다. 지정된 범위는 사용자 입력에 의해, 또는 전자 장치의 설정 등에 따라 결정될 수 있다. (미리 결정되어 있을 수 있다.) 예를 들어, 소정의 기준 값(예: 15)에 대하여, 연관 이미지 후보의 수가 기준 값보다 적은지 여부를 판단할 수 있다. 만약 연관 이미지 후보의 수가 지정된 범위를 만족하는 경우(예: 13개), 상기 연관 이미지 후보는 연관 이미지로 결정될 수 있다. 동작 770에서 전자 장치 101은 연관 이미지(이 경우는 연관 이미지 후보와 같다)에 대하여 동작 710에서 획득된 음성 데이터를 음성 태그로 입력할 수 있다.
만약 연관 이미지 후보의 수가 지정된 범위를 만족하지 않는 경우(예: 49개), 동작 760에서 전자 장치 101은 2순위의 우선 순위를 갖는 파라미터를 결정할 수 있다. 동작 740에서, 다시 전자 장치 101은 결정된 파라미터(2순위 파라미터)에 대하여 연관 이미지를 판단할 수 있다. 이 판단 결과 결정되는 연관 이미지 후보(2차)는 1순위 파라미터의 조건과 2순위 파라미터의 조건을 모두 만족할 수 있다. 전자 장치는 동작 740-동작 750-동작 760-동작 740의 프로세스를 연관 이미지 후보의 이미지 수가 지정된 범위를 만족할 때까지 반복할 수 있다.
도 8은 다양한 실시 예에 따른 파라미터의 가중치에 따라 연관 이미지를 결정하는 방법을 나타낸다.
동작 810에서 전자 장치 101은 특정 이미지에 대한 음성 데이터를 획득할 수 있다. 동작 820에서 전자 장치 101은 획득된 음성 데이터에 기반하여 적어도 하나의 메타 정보를 결정할 수 있다. 동작 810 및 동작 820은 도 6의 동작 610 및 동작 620에 각각 대응될 수 있다.
동작 830에서 전자 장치 101은 각 파라미터의 가중치를 결정할 수 있다. 예를 들어, 이미지 정보에 대해서는 1의 가중치를, 위치 정보에 대해서는 0.5의 가중치를, 시간 정보에 대해서는 0.8의 가중치를 결정할 수 있다. 가중치는 동작 810에서 획득된 음성 데이터의 분석 결과에 따라서 상황에 따라 다르게 설정될 수 있다.
동작 840에서, 결정된 파라미터 및 가중치에 기반하여 연관 이미지를 판단할 수 있다. 예를 들어, 임의의 이미지가 특정 이미지와 80%의 유사성을 갖고, 특정 이미지의 촬영 장소와 반경 1km 내에 위치하고, 특정 이미지가 촬영된 날짜와 동일 날짜에 촬영된 경우, 이미지 정보에 대해서는 0.8(80%)*1(가중치)의 점수가, 위치 정보에 대해서는 1(위치 환산 점수)*0.5(가중치)의 점수가, 시간 정보에 대해서는 1(시간 환산 점수)*0.8의 점수가 적용되어, 총점 2.1점이 획득될 수 있다. 여기서 위치 환산 점수는, 예를 들어 특정 이미지가 촬영된 장소로부터 1km 이내는 1점, 2km 이내는 0.8점, 3km 이내는 0.6점, 4km 이내는 0.4점, 5km 이내는 0.2점, 5km가 넘는 경우 0점으로 계산될 수 있다. 한편 시간 환산 점수는, 특정 이미지가 촬영된 날짜와 동일한 날짜는 1점, 다른 날짜는 0점과 같이 계산될 수 있다. 각각의 점수 환산 방식은 사용자 설정 또는 음성 데이터 분석 결과에 따라 다르게 설정될 수 있다. 예를 들어, 음성 데이터 분석 결과 위치 정보와 연관된 음성 입력(예: 몰디브)으로 판단되면 메타 정보 중 위치 정보에 높은 가중치가 설정되고, 시간 정보와 연관된 음성 입력(예: 일출)으로 판단되면 메타 정보 중 시간 정보에 높은 가중치가 설정될 수 있다.
연관 이미지 후보인 각각의 이미지에 대하여 점수가 결정되면, 기준 점수 이상을 만족하는 이미지를 연관 이미지로 결정할 수 있다. 예를 들어, 1.5점이 기준 점수인 경우 1.5점 이상을 만족하는 이미지를 연관 이미지로 결정할 수 있다. 연관 이미지가 결정되면, 동작 810에서 획득된 음성 데이터가 음성 태그로 등록될 수 있다.
다양한 실시 예에서, 기준 점수를 조절하여 연관 이미지의 개수를 조절할 수 있다. 예를 들어, 연관 이미지를 20개 이하로 결정하도록 설정된 경우, 기준 점수를 만족하는 연관 이미지의 수가 20개를 넘을 수 있다. 예를 들어, 동작 841에서 판단된 연관 이미지의 수가 지정된 범위(예: 20개 이하)를 만족하지 않는 경우(동작 843), 동작 847에서 전자 장치는 연관 이미지의 판단 기준, 예를 들어 기준 점수를 조정(예: 상향)하여 연관 이미지의 수가 지정된 범위 내에 들어오도록 제어할 수 있다. 전자 장치는 동작 845에서 최종적으로 지정된 범위를 만족하는 이미지들을 연관 이미지로 결정할 수 있다.
도 9는 일 실시 예에 따른 음성 태그 등록 방법을 나타낸다.
동작 910에서 전자 장치 101은 특정 이미지에 대한 음성 데이터를 획득할 수 있다. 동작 920에서 전자 장치 101은 획득된 음성 데이터에 기반하여 적어도 하나의 메타 정보를 결정할 수 있다. 동작 910 및 동작 920은 도 6의 동작 610 및 동작 620에 각각 대응될 수 있다.
동작 930에서, 전자 장치 101은 특정 이미지와 임계 값 이상의 유사도를 갖는 적어도 하나의 이미지를 결정할 수 있다. 예를 들어, 이미지 정보 310에 기초하여 특정 이미지와 전체적으로 유사하거나, 유사한 객체를 포함하는 복수의 이미지를 결정할 수 있다.
동작 940에서, 전자 장치 101은 동작 930에서 결정된 복수의 이미지 중, 동작 920에서 결정된 메타 정보에 대해 지정된 기준을 만족하는 이미지를 결정할 수 있다. 동작 950에서 전자 장치 101은 동작 910에서 획득된 음성 데이터를 동작 940에서 결정된 이미지에 대하여 음성 태그로서 등록할 수 있다.
도 7 또는 도 8을 참조하여 설명된 우선 순위 또는 가중치를 이용한 음성 태그 등록은 도 9의 방법에 적절한 형태로 변형되어 적용될 수 있다. 다만 도 9의 방법은 이미지가 나타내는 대상(이미지의 시각적인 정보)의 유사성을 기본으로 하므로, 우선 순위 또는 가중치는 동작 920에서 결정되는 메타 정보에 대해서만 적용될 수 있다.
도 10은 다양한 실시 예에 따른 전자 장치 및 서버에 저장된 이미지에 대하여 음성 태그를 등록하는 방법을 나타낸다.
일반적으로 사용자 단말에 의해 촬영된 이미지는 같은 사용자 단말에 저장된다. 그러나 최근에는 사용자 단말에 저장된 이미지, 사용자의 PC나 랩탑에 저장된 이미지, 사용자의 태블릿에 저장된 이미지, 사용자의 소셜 계정에 저장된 이미지, 사용자의 클라우드 서버에 저장된 이미지 등을 사용자 계정 등을 이용하여 관리하는 경우가 증가하고 있다. 도 10에서는 이와 같은 상황에서, 사용자 단말에 저장되어 있지 않은 이미지에 대하여 연관 이미지를 판단하고 음성 태그를 등록하는 방법이 설명된다. 비록 도 10은 전자 장치 101과 서버 106에 저장된 이미지들에 대한 음성 태그 등록 방법을 예시하고 있으나, 이는 설명의 편의를 위한 예시적인 구성이며, 서버 106은 사용자 단말(즉, 전자 장치 101)이 아닌 다양한 장치(예: 클라우드 서버, 사용자 PC, 태블릿 등)를 포함할 수 있다.
동작 1010에서 전자 장치 101은 특정 이미지에 대한 음성 데이터를 획득할 수 있다. 동작 1020에서 전자 장치 101은 획득된 음성 데이터에 기반하여 적어도 하나의 메타 정보를 결정할 수 있다. 동작 1010 및 동작 1020은 도 6의 동작 610 및 동작 620에 각각 대응될 수 있다.
다양한 실시 예에서, 동작 1010은 전자 장치 101과 연결된 다른 장치와 연계되어 수행될 수 있다. 예를 들어, 전자 장치 101에 저장된 특정 이미지에 대하여, 전자 장치 101과 연결(예: Bluetooth 연결 등)된 웨어러블 장치(예: 스마트 워치 등)로부터 음성 데이터를 획득할 수 있다. 여기서 웨어러블 장치는 음성 데이터를 획득하기 위한 음성 인식 모듈(예: 마이크)를 포함할 수 있고, 획득된 음성 데이터(또는 획득된 음성 데이터의 분석/처리 결과)를 연결된 통신 채널(예: Bluetooth 통신 채널)을 이용하여 전자 장치 101로 제공할 수 있다.
동작 1030에서 전자 장치 101은 통신 모듈(예: 통신 인터페이스 170)을 통해 이미지 정보 및 메타 정보를 서버 106으로 전송할 수 있다. 상기 정보를 전송할 때, 전자 장치 101은 상기 정보에 기반하여 서버 106에서 서버에 저장된 이미지에 대하여 연관 이미지 판단을 수행하고 판단 결과를 전자 장치 101로 전송하도록 하는 메시지/명령어를 함께 전송할 수 있다.
동작 1040에서, 전자 장치 101과 서버 106은 각각 특정 이미지에 대한 연관 이미지를 판단할 수 있다. 동작 1040은 전자 장치 101과 서버 106 모두에서 수행되거나, 또는 서버 106에서만 수행될 수도 있다. 동작 1050에서 서버 106은 연관 이미지 판단 결과를 전자 장치 101로 전송할 수 있다. 만약 연관 이미지의 개수에 제한이 있는 경우, 서버 106은 판단 결과와 함께 각 이미지에 대하여 산출된 점수 또는 순위 정보 등을 함께 전송할 수 있다. 다양한 실시 예에서, 서버 106은 전자 장치 101의 요청 또는 다른 조건에 의하여 지정된(또는 지정된 범위의) 개수에 맞도록 결정된 연관 이미지 판단 결과를 전자 장치 101로 전송할 수 있다.
동작 1060에서, 전자 장치 101은 전자 장치 101에서 판단된 결과와 서버 106으로부터 수신된 결과를 종합하여 연관 이미지를 결정할 수 있다. 일 예시로서, 전자 장치 101은 전자 장치 101에 저장된 이미지 중 연관 이미지로 판단된 이미지와 서버 106에서 연관 이미지로 판단된 결과에 포함되는 이미지를 모두 연관 이미지로 결정할 수 있다. 다른 예시에서, 전자 장치 101은 전자 장치 101과 서버 106의 판단 결과를 종합한 후, 소정의 기준(예: 산출 점수 등)에 따라 지정된 개수만큼 연관 이미지를 결정할 수 있다.
동작 1070에서 전자 장치 101은 동작 1060의 결정 결과를 서버 106으로 전송할 수 있다. 동작 1080에서 전자 장치 101과 서버 106은 동작 1060의 결정 결과에 해당하는 연관 이미지에 음성 데이터를 음성 태그로서 등록할 수 있다.
다양한 실시 예에 따른 음성 태그 등록 방법은, 적어도 하나의 이미지에 대한 음성 데이터를 획득하는 동작, 상기 음성 데이터에 기반하여 상기 특정 이미지의 적어도 하나의 메타 정보를 결정하는 동작, 상기 특정 이미지 또는 상기 결정된 메타 정보에 대하여 지정된 기준을 만족하는 적어도 하나의 연관 이미지를 결정하는 동작, 및 상기 적어도 하나의 연관 이미지에 상기 음성 데이터를 음성 태그로 등록하는 동작을 포함할 수 있다. 여기서 상기 연관 이미지를 결정하는 동작은, 상기 특정 이미지 또는 상기 결정된 메타 정보의 우선순위에 따라 연관 이미지 후보를 판단하는 동작, 상기 연관 이미지 후보의 수가 지정된 범위를 만족하는지 여부를 판단하는 동작, 및 상기 지정된 범위의 만족 여부에 따라 상기 연관 이미지 후보 중 적어도 일부를 상기 연관 이미지로 결정하는 동작을 포함할 수 있다. 만약 상기 지정된 범위가 만족되지 않는 경우, 지정된 범위가 만족될 때까지 상기 특정 이미지 또는 상기 결정된 메타 정보를 상기 우선 순위에 따라 순차적으로 적용하는 동작이 수행될 수 있다.
다양한 실시 예에서, 상기 연관 이미지를 결정하는 동작은, 상기 특정 이미지 또는 상기 결정된 메타 정보에 대하여 가중치를 결정하는 동작, 상기 특정 이미지 또는 상기 결정된 메타 정보와 각각에 대한 상기 가중치에 기반하여, 연관 이미지 후보 각각의 점수를 산출하는 동작, 기 산출된 점수에 대한 기준 점수를 만족 여부에 따라 상기 연관 이미지 후보 중 적어도 일부의 이미지를 연관 이미지를 결정하는 동작을 포함할 수 있다. 여기서 상기 연관 이미지 후보의 수가 지정된 범위를 만족하는 경우 상기 연관 이미지 후보를 모두 상기 연관 이미지로 결정할 수 있고, 상기 연관 이미지 후보의 수가 지정된 범위가 만족하지 않는 경우 상기 기준 점수를 조정하는 동작이 수행될 수 있다.
또한 다양한 실시 예에 따른 전자 장치에서 특정 이미지에 음성 태그를 등록하는 방법은, 상기 특정 이미지에 대한 음성 데이터를 획득하는 동작, 상기 음성 데이터에 기반하여 상기 특정 이미지의 복수의 메타 정보 중 적어도 하나의 메타 정보를 결정하는 동작, 상기 특정 이미지와 임계 값 이상의 유사도를 갖는 복수의 이미지를 결정하는 동작, 및 상기 복수의 이미지 중 상기 결정된 메타 정보에 대하여 지정된 기준을 만족하는 적어도 하나의 이미지에 상기 음성 데이터를 음성 태그로 등록하는 동작을 포함할 수 있다.
도 11은 다양한 실시 예에 따른 전자 장치의 블록도를 나타낸다.
도 11을 참조하면, 전자 장치 1101은, 예를 들면, 도 1에 도시된 전자 장치 101의 전체 또는 일부를 포함할 수 있다. 전자 장치 1101은 하나 이상의 프로세서(예: 어플리케이션 프로세서(AP)) 1110, 통신 모듈 1120, 가입자 식별 모듈 1124, 메모리 1130, 센서 모듈 1140, 입력 장치 1150, 디스플레이 1160, 인터페이스 1170, 오디오 모듈 1180, 카메라 모듈 1191, 전력 관리 모듈 1195, 배터리 1196, 인디케이터 1197, 및 모터 1198을 포함할 수 있다.
프로세서 1110은, 예를 들면, 운영 체제 또는 응용 프로그램을 구동하여 프로세서 1110에 연결된 다수의 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 각종 데이터 처리 및 연산을 수행할 수 있다. 프로세서 1110은, 예를 들면, SoC(system on chip)로 구현될 수 있다. 한 실시 예에 따르면, 프로세서 1110은 GPU(graphic processing unit) 및/또는 이미지 신호 프로세서(image signal processor)를 더 포함할 수 있다. 프로세서 1110은 도 11에 도시된 구성요소들 중 적어도 일부(예: 셀룰러 모듈 1121)를 포함할 수도 있다. 프로세서 1110은 다른 구성요소들(예: 비휘발성 메모리) 중 적어도 하나로부터 수신된 명령 또는 데이터를 휘발성 메모리에 로드(load)하여 처리하고, 다양한 데이터를 비휘발성 메모리에 저장(store)할 수 있다.
통신 모듈 1120은, 도 1의 통신 인터페이스 170과 동일 또는 유사한 구성을 가질 수 있다. 통신 모듈 1120은, 예를 들면, 셀룰러 모듈 1121, Wi-Fi 모듈 1123, 블루투스(BT) 모듈 1125, GPS 모듈 1127, NFC 모듈 1128 및 RF(radio frequency) 모듈 1129를 포함할 수 있다.
셀룰러 모듈 1121은, 예를 들면, 통신망을 통해서 음성 통화, 영상 통화, 문자 서비스, 또는 인터넷 서비스 등을 제공할 수 있다. 한 실시 예에 따르면, 셀룰러 모듈 1121은 가입자 식별 모듈(예: SIM 카드 1124)을 이용하여 통신 네트워크 내에서 전자 장치 1101의 구별 및 인증을 수행할 수 있다. 한 실시 예에 따르면, 셀룰러 모듈 1121은 프로세서 1110이 제공할 수 있는 기능 중 적어도 일부 기능을 수행할 수 있다. 한 실시 예에 따르면, 셀룰러 모듈 1121은 커뮤니케이션 프로세서(CP)를 포함할 수 있다.
Wi-Fi 모듈 1123, 블루투스 모듈 1125, GPS 모듈 1127 또는 NFC 모듈 1128 각각은, 예를 들면, 해당하는 모듈을 통해서 송수신되는 데이터를 처리하기 위한 프로세서를 포함할 수 있다. 어떤 실시 예에 따르면, 셀룰러 모듈 1121, Wi-Fi 모듈 1123, 블루투스 모듈 1125, GPS 모듈 1127 또는 NFC 모듈 1128 중 적어도 일부(예: 두 개 이상)는 하나의 IC(integrated chip) 또는 IC 패키지 내에 포함될 수 있다.
RF 모듈 1129는, 예를 들면, 통신 신호(예: RF 신호)를 송수신할 수 있다. RF 모듈 1129는, 예를 들면, 트랜시버(transceiver), PAM(power amp module), 주파수 필터(frequency filter), LNA(low noise amplifier), 또는 안테나 등을 포함할 수 있다. 다른 실시 예에 따르면, 셀룰러 모듈 1121, Wi-Fi 모듈 1123, BT 모듈 1125, GPS 모듈 1127 또는 NFC 모듈 1128 중 적어도 하나는 별개의 RF 모듈을 통하여 RF 신호를 송수신할 수 있다.
가입자 식별 모듈 1124는, 예를 들면, 가입자 식별 모듈을 포함하는 카드 및/또는 내장 SIM(embedded SIM)을 포함할 수 있으며, 고유한 식별 정보(예: ICCID (integrated circuit card identifier)) 또는 가입자 정보(예: IMSI (international mobile subscriber identity))를 포함할 수 있다.
메모리 1130(예: 메모리 130)는, 예를 들면, 내장 메모리 1132 또는 외장 메모리 1134를 포함할 수 있다. 내장 메모리 1132는, 예를 들면, 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비-휘발성(non-volatile) 메모리 (예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 SSD(solid state drive) 중 적어도 하나를 포함할 수 있다.
외장 메모리 1134는 플래시 드라이브(flash drive), 예를 들면, CF(compact flash), SD(secure digital), Micro-SD, Mini-SD, xD(extreme digital), MMC(MultiMediaCard), 또는 메모리 스틱(memory stick) 등을 더 포함할 수 있다. 외장 메모리 1134는 다양한 인터페이스를 통하여 전자 장치 1101과 기능적으로 및/또는 물리적으로 연결될 수 있다.
센서 모듈 1140은, 예를 들면, 물리량을 계측하거나 전자 장치 1101의 작동 상태를 감지하여, 계측 또는 감지된 정보를 전기 신호로 변환할 수 있다. 센서 모듈 1140은, 예를 들면, 제스처 센서 1140A, 자이로 센서 1140B, 기압 센서 1140C, 마그네틱 센서 1140D, 가속도 센서 1140E, 그립 센서 1140F, 근접 센서 1140G, 컬러 센서 1140H(예: RGB 센서), 생체 센서 1140I, 온/습도 센서 1140J, 조도 센서 1140K, 또는 UV(ultra violet) 센서 1140M 중의 적어도 하나를 포함할 수 있다. 추가적으로 또는 대체적으로, 센서 모듈 1140은, 예를 들면, 후각 센서(E-nose sensor), EMG(electromyography) 센서, EEG(electroencephalogram) 센서, ECG(electrocardiogram) 센서, IR(infrared) 센서, 홍채 센서 및/또는 지문 센서를 포함할 수 있다. 센서 모듈 1140은 그 안에 속한 적어도 하나 이상의 센서들을 제어하기 위한 제어 회로를 더 포함할 수 있다. 어떤 실시 예에서는, 전자 장치 1101은 프로세서 1110의 일부로서 또는 별도로, 센서 모듈 1140을 제어하도록 구성된 프로세서를 더 포함하여, 프로세서 1110이 슬립(sleep) 상태에 있는 동안, 센서 모듈 1140을 제어할 수 있다.
입력 장치 1150은, 예를 들면, 터치 패널(touch panel) 1152, (디지털) 펜 센서(pen sensor) 1154, 키(key) 1156, 또는 초음파(ultrasonic) 입력 장치 1158을 포함할 수 있다. 터치 패널 1152는, 예를 들면, 정전식, 감압식, 적외선 방식, 또는 초음파 방식 중 적어도 하나의 방식을 사용할 수 있다. 또한, 터치 패널 1152는 제어 회로를 더 포함할 수도 있다. 터치 패널 1152는 택타일 레이어(tactile layer)를 더 포함하여, 사용자에게 촉각 반응을 제공할 수 있다.
(디지털) 펜 센서 1154는, 예를 들면, 터치 패널의 일부이거나, 별도의 인식용 시트(sheet)를 포함할 수 있다. 키 1156은, 예를 들면, 물리적인 버튼, 광학식 키, 또는 키패드를 포함할 수 있다. 초음파 입력 장치 1158은 마이크(예: 마이크 288)를 통해, 입력 도구에서 발생된 초음파를 감지하여, 상기 감지된 초음파에 대응하는 데이터를 확인할 수 있다.
디스플레이 1160(예: 디스플레이 160)은 패널 1162, 홀로그램 장치 1164, 또는 프로젝터 1166을 포함할 수 있다. 패널 1162는, 도 1의 디스플레이 160과 동일 또는 유사한 구성을 포함할 수 있다. 패널 1162는, 예를 들면, 유연하게(flexible), 투명하게(transparent), 또는 착용할 수 있게(wearable) 구현될 수 있다. 패널 1162는 터치 패널 1152와 하나의 모듈로 구성될 수도 있다. 홀로그램 장치 1164는 빛의 간섭을 이용하여 입체 영상을 허공에 보여줄 수 있다. 프로젝터 1166은 스크린에 빛을 투사하여 영상을 표시할 수 있다. 스크린은, 예를 들면, 전자 장치 1101의 내부 또는 외부에 위치할 수 있다. 한 실시 예에 따르면, 디스플레이 1160은 패널 1162, 홀로그램 장치 1164, 또는 프로젝터 1166를 제어하기 위한 제어 회로를 더 포함할 수 있다.
인터페이스 1170은, 예를 들면, HDMI(high-definition multimedia interface) 1172, USB 1174, 광 인터페이스(optical interface) 1176, 또는 D-sub(D-subminiature) 1178을 포함할 수 있다. 인터페이스 1170은, 예를 들면, 도 1에 도시된 통신 인터페이스 170에 포함될 수 있다. 추가적으로 또는 대체적으로, 인터페이스 1170은, 예를 들면, MHL(mobile high-definition link) 인터페이스, SD 카드/MMC(multi-media card) 인터페이스, 또는 IrDA(infrared data association) 규격 인터페이스를 포함할 수 있다.
오디오 모듈 1180은, 예를 들면, 소리(sound)와 전기 신호를 쌍방향으로 변환시킬 수 있다. 오디오 모듈 1180의 적어도 일부 구성요소는, 예를 들면, 도 1 에 도시된 입출력 인터페이스 150에 포함될 수 있다. 오디오 모듈 1180은, 예를 들면, 스피커 1182, 리시버 1184, 이어폰 1186, 또는 마이크 1188 등을 통해 입력 또는 출력되는 소리 정보를 처리할 수 있다.
카메라 모듈 1191은, 예를 들면, 정지 영상 및 동영상을 촬영할 수 있는 장치로서, 한 실시 예에 따르면, 하나 이상의 이미지 센서(예: 전면 센서 또는 후면 센서), 렌즈, ISP(image signal processor), 또는 플래시(예: LED 또는 제논 램프(xenon lamp))를 포함할 수 있다.
전력 관리 모듈 1195는, 예를 들면, 전자 장치 1101의 전력을 관리할 수 있다. 한 실시 예에 따르면, 전력 관리 모듈 1195는 PMIC(power management integrated circuit), 충전 IC(charger integrated circuit), 또는 배터리 또는 연료 게이지(battery or fuel gauge)를 포함할 수 있다. PMIC는, 유선 및/또는 무선 충전 방식을 가질 수 있다. 무선 충전 방식은, 예를 들면, 자기공명 방식, 자기유도 방식 또는 전자기파 방식 등을 포함하며, 무선 충전을 위한 부가적인 회로, 예를 들면, 코일 루프, 공진 회로, 또는 정류기 등을 더 포함할 수 있다. 배터리 게이지는, 예를 들면, 배터리 1196의 잔량, 충전 중 전압, 전류, 또는 온도를 측정할 수 있다. 배터리 1196은, 예를 들면, 충전식 전지(rechargeable battery) 및/또는 태양 전지(solar battery)를 포함할 수 있다.
인디케이터 1197은 전자 장치 1101 혹은 그 일부(예: 프로세서 1110)의 특정 상태, 예를 들면, 부팅 상태, 메시지 상태 또는 충전 상태 등을 표시할 수 있다. 모터 1198은 전기적 신호를 기계적 진동으로 변환할 수 있고, 진동(vibration), 또는 햅틱(haptic) 효과 등을 발생시킬 수 있다. 도시되지는 않았으나, 전자 장치 1101은 모바일 TV 지원을 위한 처리 장치(예: GPU)를 포함할 수 있다. 모바일 TV 지원을 위한 처리 장치는, 예를 들면, DMB(digital multimedia broadcasting), DVB(digital video broadcasting), 또는 미디어플로(MediaFloTM)등의 규격에 따른 미디어 데이터를 처리할 수 있다.
본 문서에서 기술된 구성요소들 각각은 하나 또는 그 이상의 부품(component)으로 구성될 수 있으며, 해당 구성 요소의 명칭은 전자 장치의 종류에 따라서 달라질 수 있다. 다양한 실시 예에서, 전자 장치는 본 문서에서 기술된 구성요소 중 적어도 하나를 포함하여 구성될 수 있으며, 일부 구성요소가 생략되거나 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 또한, 다양한 실시 예에 따른 전자 장치의 구성 요소들 중 일부가 결합되어 하나의 개체(entity)로 구성됨으로써, 결합되기 이전의 해당 구성 요소들의 기능을 동일하게 수행할 수 있다.
도 12는 다양한 실시 예에 따른 프로그램 모듈의 블록도를 나타낸다.
도 12를 참조하면, 한 실시 예에 따르면, 프로그램 모듈 1210(예: 프로그램 140)은 전자 장치(예: 전자 장치 101)에 관련된 자원을 제어하는 운영 체제(operating system, OS) 및/또는 운영 체제 상에서 구동되는 다양한 어플리케이션(예: 어플리케이션 프로그램 147)을 포함할 수 있다. 운영 체제는, 예를 들면, 안드로이드(android), iOS, 윈도우즈(windows), 심비안(symbian), 타이젠(tizen), 또는 바다(bada) 등이 될 수 있다.
프로그램 모듈 1210은 커널 1220, 미들웨어 1230, API 1260, 및/또는 어플리케이션 1270을 포함할 수 있다. 프로그램 모듈 1210의 적어도 일부는 전자 장치 상에 프리로드(preload) 되거나, 외부 전자 장치(예: 전자 장치 102, 104, 서버 106 등)로부터 다운로드 가능하다.
커널 1220(예: 커널 141)은, 예를 들면, 시스템 리소스 매니저 1221 또는 디바이스 드라이버 1223를 포함할 수 있다. 시스템 리소스 매니저 1221은 시스템 리소스의 제어, 할당, 또는 회수 등을 수행할 수 있다. 한 실시 예에 따르면, 시스템 리소스 매니저 1221은 프로세스 관리부, 메모리 관리부, 또는 파일 시스템 관리부 등을 포함할 수 있다. 디바이스 드라이버 1223은, 예를 들면, 디스플레이 드라이버, 카메라 드라이버, 블루투스 드라이버, 공유 메모리 드라이버, USB 드라이버, 키패드 드라이버, Wi-Fi 드라이버, 오디오 드라이버, 또는 IPC(inter-process communication) 드라이버를 포함할 수 있다.
미들웨어 1230은, 예를 들면, 어플리케이션 1270이 공통적으로 필요로 하는 기능을 제공하거나, 어플리케이션 1270이 전자 장치 내부의 제한된 시스템 자원을 효율적으로 사용할 수 있도록 API 1260을 통해 다양한 기능들을 어플리케이션 1270으로 제공할 수 있다. 한 실시 예에 따르면, 미들웨어 1230(예: 미들웨어 143)은 런타임 라이브러리 1235, 어플리케이션 매니저(application manager) 1241, 윈도우 매니저(window manager) 1242, 멀티미디어 매니저(multimedia manager) 1243, 리소스 매니저(resource manager) 1244, 파워 매니저(power manager) 1245, 데이터베이스 매니저(database manager) 1246, 패키지 매니저(package manager) 1247, 연결 매니저(connectivity manager) 1248, 통지 매니저(notification manager) 1249, 위치 매니저(location manager) 1250, 그래픽 매니저(graphic manager) 1251, 또는 보안 매니저(security manager) 1252 중 적어도 하나를 포함할 수 있다.
런타임 라이브러리 1235는, 예를 들면, 어플리케이션 1270이 실행되는 동안에 프로그래밍 언어를 통해 새로운 기능을 추가하기 위해 컴파일러가 사용하는 라이브러리 모듈을 포함할 수 있다. 런타임 라이브러리 1235는 입출력 관리, 메모리 관리, 또는 산술 함수에 대한 기능 등을 수행할 수 있다.
어플리케이션 매니저 1241은, 예를 들면, 어플리케이션 1270 중 적어도 하나의 어플리케이션의 생명 주기(life cycle)를 관리할 수 있다. 윈도우 매니저 1242는 화면에서 사용하는 GUI 자원을 관리할 수 있다. 멀티미디어 매니저 1243은 다양한 미디어 파일들의 재생에 필요한 포맷을 파악하고, 해당 포맷에 맞는 코덱(codec)을 이용하여 미디어 파일의 인코딩(encoding) 또는 디코딩(decoding)을 수행할 수 있다. 리소스 매니저 1244는 어플리케이션 1270 중 적어도 어느 하나의 어플리케이션의 소스 코드, 메모리 또는 저장 공간 등의 자원을 관리할 수 있다.
파워 매니저 1245는, 예를 들면, 바이오스(BIOS: basic input/output system) 등과 함께 동작하여 배터리 또는 전원을 관리하고, 전자 장치의 동작에 필요한 전력 정보 등을 제공할 수 있다. 데이터베이스 매니저 1246은 어플리케이션 1270 중 적어도 하나의 어플리케이션에서 사용할 데이터베이스를 생성, 검색, 또는 변경할 수 있다. 패키지 매니저 1247은 패키지 파일의 형태로 배포되는 어플리케이션의 설치 또는 업데이트를 관리할 수 있다.
연결 매니저 1248은, 예를 들면, Wi-Fi 또는 블루투스 등의 무선 연결을 관리할 수 있다. 통지 매니저 1249는 도착 메시지, 약속, 근접성 알림 등의 사건(event)을 사용자에게 방해되지 않는 방식으로 표시 또는 통지할 수 있다. 위치 매니저 1250은 전자 장치의 위치 정보를 관리할 수 있다. 그래픽 매니저 1251은 사용자에게 제공될 그래픽 효과 또는 이와 관련된 사용자 인터페이스를 관리할 수 있다. 보안 매니저 1252는 시스템 보안 또는 사용자 인증 등에 필요한 제반 보안 기능을 제공할 수 있다. 한 실시 예에 따르면, 전자 장치(예: 전자 장치 101)가 전화 기능을 포함한 경우, 미들웨어 1230은 전자 장치의 음성 또는 영상 통화 기능을 관리하기 위한 통화 매니저(telephony manager)를 더 포함할 수 있다.
미들웨어 1230은 전술한 구성요소들의 다양한 기능의 조합을 형성하는 미들웨어 모듈을 포함할 수 있다. 미들웨어 1230은 차별화된 기능을 제공하기 위해 운영 체제의 종류 별로 특화된 모듈을 제공할 수 있다. 또한, 미들웨어 1230은 동적으로 기존의 구성요소를 일부 삭제하거나 새로운 구성요소들을 추가할 수 있다.
API 1260(예: API 145)은, 예를 들면, API 프로그래밍 함수들의 집합으로, 운영 체제에 따라 다른 구성으로 제공될 수 있다. 예를 들면, 안드로이드 또는 iOS의 경우, 플랫폼 별로 하나의 API 셋을 제공할 수 있으며, 타이젠(tizen)의 경우, 플랫폼 별로 두 개 이상의 API 셋을 제공할 수 있다.
어플리케이션 1270(예: 어플리케이션 프로그램 147)은, 예를 들면, 홈 1271, 다이얼러 1272, SMS/MMS 1273, IM(instant message) 1274, 브라우저 1275, 카메라 1276, 알람 1277, 컨택트 1278, 음성 다이얼 1279, 이메일 1280, 달력 1281, 미디어 플레이어 1282, 앨범 1283, 또는 시계 1284, 건강 관리(health care)(예: 운동량 또는 혈당 등을 측정), 또는 환경 정보 제공(예: 기압, 습도, 또는 온도 정보 등을 제공) 등의 기능을 제공할 수 있는 하나 이상의 어플리케이션을 포함할 수 있다.
한 실시 예에 따르면, 어플리케이션 1270은 전자 장치(예: 전자 장치 101)와 외부 전자 장치(예: 전자 장치 102, 104) 사이의 정보 교환을 지원하는 어플리케이션(이하, 설명의 편의상, "정보 교환 어플리케이션")을 포함할 수 있다. 정보 교환 어플리케이션은, 예를 들면, 외부 전자 장치에 특정 정보를 전달하기 위한 알림 전달(notification relay) 어플리케이션, 또는 외부 전자 장치를 관리하기 위한 장치 관리(device management) 어플리케이션을 포함할 수 있다.
예를 들면, 알림 전달 어플리케이션은 전자 장치의 다른 어플리케이션(예: SMS/MMS 어플리케이션, 이메일 어플리케이션, 건강 관리 어플리케이션, 또는 환경 정보 어플리케이션 등)에서 발생된 알림 정보를 외부 전자 장치(예: 전자 장치 102, 104)로 전달하는 기능을 포함할 수 있다. 또한, 상기 알림 전달 어플리케이션은, 예를 들면, 외부 전자 장치로부터 알림 정보를 수신하여 사용자에게 제공할 수 있다.
장치 관리 어플리케이션은, 예를 들면, 전자 장치와 통신하는 외부 전자 장치(예: 전자 장치 102, 104)의 적어도 하나의 기능(예: 외부 전자 장치 자체(또는 일부 구성 부품)의 턴-온/턴-오프 또는 디스플레이의 밝기(또는 해상도) 조절), 외부 전자 장치에서 동작하는 어플리케이션 또는 외부 전자 장치에서 제공되는 서비스(예: 통화 서비스 또는 메시지 서비스)를 관리(예: 설치, 삭제, 또는 업데이트)할 수 있다.
한 실시 예에 따르면, 어플리케이션 1270은 외부 전자 장치(예: 전자 장치 102, 104)의 속성에 따라 지정된 어플리케이션(예: 모바일 의료 기기의 건강 관리 어플리케이션)을 포함할 수 있다. 한 실시 예에 따르면, 어플리케이션 1270은 외부 전자 장치(예: 서버 106 또는 전자 장치 102, 104)로부터 수신된 어플리케이션을 포함할 수 있다. 한 실시 예에 따르면, 어플리케이션 1270은 프리로드 어플리케이션(preloaded application) 또는 서버로부터 다운로드 가능한 제3자 어플리케이션(third party application)을 포함할 수 있다. 도시된 실시 예에 따른 프로그램 모듈 1210의 구성요소들의 명칭은 운영 체제의 종류에 따라서 달라질 수 있다.
다양한 실시 예에 따르면, 프로그램 모듈 1210의 적어도 일부는 소프트웨어, 펌웨어, 하드웨어, 또는 이들 중 적어도 둘 이상의 조합으로 구현될 수 있다. 프로그램 모듈 1210의 적어도 일부는, 예를 들면, 프로세서(예: 프로세서 210)에 의해 구현(implement)(예: 실행)될 수 있다. 프로그램 모듈 1210의 적어도 일부는 하나 이상의 기능을 수행하기 위한, 예를 들면, 모듈, 프로그램, 루틴, 명령어 세트(sets of instructions) 또는 프로세스 등을 포함할 수 있다.
본 문서에서 사용된 용어 "모듈"은, 예를 들면, 하드웨어, 소프트웨어 또는 펌웨어(firmware) 중 하나 또는 둘 이상의 조합을 포함하는 단위(unit)를 의미할 수 있다. "모듈"은, 예를 들면, 유닛(unit), 로직(logic), 논리 블록(logical block), 부품(component), 또는 회로(circuit) 등의 용어와 바꾸어 사용(interchangeably use)될 수 있다. "모듈"은, 일체로 구성된 부품의 최소 단위 또는 그 일부가 될 수 있다. "모듈"은 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수도 있다. "모듈"은 기계적으로 또는 전자적으로 구현될 수 있다. 예를 들면, "모듈"은, 알려졌거나 앞으로 개발될, 어떤 동작들을 수행하는 ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays) 또는 프로그램 가능 논리 장치(programmable-logic device) 중 적어도 하나를 포함할 수 있다.
다양한 실시 예에 따른 장치(예: 모듈들 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는, 예컨대, 프로그램 모듈의 형태로 컴퓨터로 읽을 수 있는 저장매체(computer-readable storage media)에 저장된 명령어로 구현될 수 있다. 명령어는, 프로세서(예: 프로세서 120)에 의해 실행될 경우, 하나 이상의 프로세서가 명령어에 해당하는 기능을 수행할 수 있다. 컴퓨터로 읽을 수 있는 저장매체는, 예를 들면, 메모리 130이 될 수 있다.
상기 컴퓨터로 판독 가능한 기록 매체는, 하드디스크, 플로피디스크, 마그네틱 매체(magnetic media)(예: 자기테이프), 광기록 매체(optical media)(예: CD-ROM, DVD, 자기-광 매체(magneto-optical media)(예: 플롭티컬 디스크(floptical disk)), 하드웨어 장치(예: ROM, RAM, 또는 플래시 메모리 등) 등을 포함할 수 있다. 또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 다양한 실시 예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.
예를 들어, 다양한 실시 예에 따른 컴퓨터 판독 가능한 명령어를 포함하는 저장 매체는, 실행될 때 전자 장치로 하여금, 제1 이미지 또는 동영상에 대하여 음성을 수신하여 음성 데이터를 발생하고, 상기 음성 데이터 또는 상기 음성 데이터에 기초한 제1 정보를 상기 제1 이미지 또는 동영상과 연결(link)하고, 제2 이미지 또는 동영상과 상기 제1 이미지 또는 동영상과의 관계를 판단하고, 상기 판단한 관계에 적어도 일부 기초하여, (1) 상기 음성 데이터, (2) 상기 제1 정보, 또는 (3) 상기 음성 데이터 및/또는 상기 제1 정보로부터 발생된 제2 정보 중 적어도 하나를 상기 제2 이미지 또는 동영상과 연결하도록 하는 명령어들을 포함하고 있을 수 있다. 이 외에 전술한 다양한 방법을 수행하기 위한 명령어들이 추가적으로 또는 대체적으로 포함될 수 있다.
다양한 실시 예에 따른 모듈 또는 프로그램 모듈은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 다양한 실시 예에 따른 모듈, 프로그램 모듈 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)한 방법으로 실행될 수 있다. 또한, 일부 동작은 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
그리고 본 문서에 개시된 실시 예는 개시된 기술 내용의 설명 및 이해를 위해 제시된 것이며, 본 발명의 범위를 한정하는 것은 아니다. 따라서, 본 발명의 범위는, 본 발명의 기술적 사상에 근거한 모든 변경 또는 다양한 다른 실시 예를 포함하는 것으로 해석되어야 한다.

Claims (29)

  1. 전자 장치에 있어서,
    외부로부터 음성(voice)를 수신하여, 음성 데이터를 발생하는 음성 입력 모듈;
    메모리 장치; 및
    상기 음성 입력 모듈 및 메모리 장치와 전기적으로 연결된 프로세서를 포함하며,
    상기 메모리 장치는 하나 이상의 이미지(image) 또는 동영상(video)을 저장하도록 구성되고,
    상기 메모리 장치는, 상기 프로세서에 의하여 실행시, 상기 전자 장치가,
    상기 메모리 장치에 저장된 제1 이미지 또는 동영상에 대하여 상기 음성 입력 모듈을 통하여 음성을 수신하여 음성 데이터를 발생하고,
    상기 음성 데이터 또는 상기 음성 데이터에 기초한 제1 정보를 상기 제1 이미지 또는 동영상과 연결(link)하고,
    상기 메모리 장치에 저장된 제2 이미지 또는 동영상과, 상기 제1 이미지 또는 동영상과의 관계를 판단하고,
    상기 판단된 관계에 적어도 일부 기초하여, (1) 상기 음성 데이터, (2) 상기 제1 정보, 또는 (3) 상기 음성 데이터 및/또는 상기 제1 정보로부터 발생된 제2 정보 중 적어도 하나를 상기 제2 이미지 또는 동영상과 연결하도록 하는,
    인스트럭션들(instructions)을 포함하는 것을 특징으로 하는 장치.
  2. 청구항 1에 있어서, 상기 전자 장치는,
    상기 제1 정보를 상기 제1 이미지 또는 동영상에 태그 형태로 연결(link)하고,
    (1) 상기 음성 데이터, (2) 상기 제1 정보, 또는 (3) 상기 제2 정보 중 적어도 하나를 상기 제2 이미지 또는 동영상에 태그 형태로 연결하도록 구성된 것을 특징으로 하는 장치.
  3. 청구항 1에 있어서, 상기 제1 정보는,
    상기 음성 데이터로부터 추출된 음성-대-문자(speech-to-text) 정보를 포함하는 것을 특징으로 하는 장치.
  4. 청구항 1에 있어서, 상기 전자 장치는,
    상기 제1 이미지 또는 동영상 및 상기 제2 이미지 또는 동영상과 연관된 영상 분석(image analysis), 위치 정보, 시간 정보, 텍스트 정보, 또는 얼굴 인식(face recognition) 정보 중 적어도 하나를 이용하여, 상기 관계를 판단하도록 구성된 것을 특징으로 하는 장치.
  5. 전자 장치에 있어서,
    외부로부터 음성(voice)를 수신하여, 음성 데이터를 발생하는 음성 입력 모듈;
    통신 모듈;
    메모리 장치; 및
    상기 음성 입력 모듈, 상기 통신 모듈, 및 상기 메모리 장치와 전기적으로 연결된 프로세서를 포함하며,
    상기 메모리 장치는 하나 이상의 이미지(image) 또는 동영상(video)을 저장하도록 구성되고,
    상기 메모리 장치는, 상기 프로세서에 의하여 실행시, 상기 전자 장치가,
    상기 메모리 장치에 저장된 제1 이미지 또는 동영상에 대하여 상기 음성 입력 모듈을 통하여 음성을 수신하여 음성 데이터를 발생하고,
    상기 음성 데이터 또는 상기 음성 데이터에 기초한 제1 정보를 상기 제1 이미지 또는 동영상과 연결(link)하고,
    상기 제1 이미지 또는 동영상 및 상기 연결된 음성 데이터 또는 상기 제1 정보를 상기 통신 모듈을 통하여, 상기 전자 장치 외부로 전송하도록 하는,
    인스트럭션들(instructions)을 포함하는 것을 특징으로 하는 장치.
  6. 청구항 5에 있어서, 상기 전자 장치는,
    상기 연결된 음성 데이터 또는 상기 제1 정보에 관련된 하나 이상의 이미지 또는 동영상을 요청하는 요구(request)를 상기 전자 장치 외부로 전송하고,
    (1) 상기 음성 데이터, (2) 상기 제1 정보, 또는 (3) 상기 음성 데이터 및/또는 상기 제1 정보로부터 발생된 제2 정보 중 적어도 하나와 연결된 하나 이상의 이미지 또는 동영상을 상기 전자 장치 외부로부터 수신하도록 구성된 것을 특징으로 하는 장치.
  7. 전자 장치에 있어서,
    특정 이미지에 대한 음성 데이터를 획득하는 음성 입력 모듈, 및
    상기 음성 데이터를 분석하여 상기 특정 이미지의 적어도 하나의 메타 정보를 결정하는 제어 모듈을 포함하고,
    상기 제어 모듈은 다수의 이미지 중에서 상기 특정 이미지 또는 상기 결정된 메타 정보에 대하여 지정된 기준을 만족하는 적어도 하나의 연관 이미지에 대하여 상기 음성 데이터를 음성 태그로 등록하도록 설정되는, 전자 장치.
  8. 청구항 7에 있어서,
    상기 적어도 하나의 메타 정보는 상기 특정 이미지가 촬영된 위치 또는 시간에 대한 정보, 상기 특정 이미지를 촬영한 장치에 대한 정보, 상기 특정 이미지의 촬영 모드에 대한 정보 중 하나 이상을 포함하는, 전자 장치.
  9. 청구항 7에 있어서,
    상기 전자 장치는 촬영 모듈을 더 포함하고,
    상기 제어 모듈은 상기 촬영 모듈에 의해 상기 특정 이미지가 촬영되면 상기 음성 입력 모듈을 활성화하여 상기 음성 데이터의 획득을 유도하도록 설정되는, 전자 장치.
  10. 청구항 7에 있어서,
    상기 제어 모듈은 상기 특정 이미지가 선택되면 상기 음성 데이터의 획득을 유도하는 사용자 인터페이스(UI)를 제공하도록 설정되는, 전자 장치.
  11. 청구항 7에 있어서,
    상기 제어 모듈은 상기 음성 태그와 함께 상기 음성 데이터를 텍스트로 변환한 텍스트 태그를 상기 적어도 하나의 이미지에 대하여 등록하도록 설정되는, 전자 장치.
  12. 청구항 7에 있어서,
    상기 제어 모듈은 적어도 상기 특정 이미지에 나타난 객체를 이용하여 상기 음성 데이터를 분석하도록 설정되는, 전자 장치.
  13. 청구항 8에 있어서,
    상기 제어 모듈은 상기 음성 데이터의 분석 결과와 상기 적어도 하나의 메타 정보 각각의 연관 관계에 기반하여 상기 위치, 시간, 촬영 장치, 촬영 모드에 대한 정보 중 적어도 하나의 메타 정보를 결정하도록 설정되는, 전자 장치.
  14. 청구항 13에 있어서,
    상기 제어 모듈은 상기 다수의 이미지 중에서 상기 특정 이미지의 상기 위치로부터 지정된 범위 내에 해당하는 위치 정보를 메타 데이터로 포함하는 이미지를 상기 적어도 하나의 연관 이미지로 결정하도록 설정되는, 전자 장치.
  15. 청구항 13에 있어서,
    상기 제어 모듈은 상기 다수의 이미지 중에서 상기 특정 이미지의 상기 시간으로부터 지정된 범위 내에 해당하는 시간 정보를 메타 데이터로 포함하는 이미지를 상기 적어도 하나의 연관 이미지로 결정하도록 설정되는, 전자 장치.
  16. 청구항 13에 있어서,
    상기 제어 모듈은 상기 다수의 이미지 중에서 상기 특정 이미지의 상기 시간과 지정된 연관 관계에 있는 시간 정보를 메타 데이터로 포함하는 이미지를 상기 적어도 하나의 연관 이미지로 결정하도록 설정되는, 전자 장치.
  17. 청구항 7에 있어서,
    상기 제어 모듈은 상기 다수의 이미지 중에서 상기 특정 이미지와 임계 값 이상의 유사도를 갖는 이미지를 상기 적어도 하나의 연관 이미지로 결정하도록 설정되는, 전자 장치.
  18. 청구항 7에 있어서,
    상기 다수의 이미지 중 적어도 일부의 이미지는 상기 전자 장치와 기능적으로 연결된 외부 장치에 저장되어 있고,
    상기 전자 장치는 상기 외부 장치와 통신할 수 있는 통신 모듈을 더 포함하는, 전자 장치.
  19. 적어도 하나의 이미지에 대한 음성 데이터를 획득하는 동작,
    상기 음성 데이터에 기반하여 상기 특정 이미지의 적어도 하나의 메타 정보를 결정하는 동작,
    상기 특정 이미지 또는 상기 결정된 메타 정보에 대하여 지정된 기준을 만족하는 적어도 하나의 연관 이미지를 결정하는 동작, 및
    상기 적어도 하나의 연관 이미지에 상기 음성 데이터를 음성 태그로 등록하는 동작을 포함하는 방법.
  20. 청구항 19에 있어서,
    상기 연관 이미지를 결정하는 동작은,
    상기 특정 이미지 또는 상기 결정된 메타 정보의 우선순위에 따라 연관 이미지 후보를 판단하는 동작,
    상기 연관 이미지 후보의 수가 지정된 범위를 만족하는지 여부를 판단하는 동작, 및
    상기 지정된 범위의 만족 여부에 따라 상기 연관 이미지 후보 중 적어도 일부를 상기 연관 이미지로 결정하는 동작을 포함하는, 음성 태그 등록 방법.
  21. 청구항 20에 있어서,
    상기 지정된 범위가 만족되지 않는 경우, 지정된 범위가 만족될 때까지 상기 특정 이미지 또는 상기 결정된 메타 정보를 상기 우선 순위에 따라 순차적으로 적용하는, 음성 태그 등록 방법.
  22. 청구항 19에 있어서,
    상기 연관 이미지를 결정하는 동작은,
    상기 특정 이미지 또는 상기 결정된 메타 정보에 대하여 가중치를 결정하는 동작,
    상기 특정 이미지 또는 상기 결정된 메타 정보와 각각에 대한 상기 가중치에 기반하여, 연관 이미지 후보 각각의 점수를 산출하는 동작,
    상기 산출된 점수에 대한 기준 점수를 만족 여부에 따라 상기 연관 이미지 후보 중 적어도 일부의 이미지를 연관 이미지를 결정하는 동작을 포함하는, 음성 태그 등록 방법.
  23. 청구항 22에 있어서,
    상기 연관 이미지 후보의 수가 지정된 범위를 만족하는 경우 상기 연관 이미지 후보를 모두 상기 연관 이미지로 결정하는, 음성 태그 등록 방법.
  24. 청구항 22에 있어서,
    상기 연관 이미지 후보의 수가 지정된 범위가 만족하지 않는 경우 상기 기준 점수를 조정하는 동작을 포함하는, 음성 태그 등록 방법.
  25. 전자 장치에서 특정 이미지에 음성 태그를 등록하는 방법에 있어서,
    상기 특정 이미지에 대한 음성 데이터를 획득하는 동작,
    상기 음성 데이터에 기반하여 상기 특정 이미지의 복수의 메타 정보 중 적어도 하나의 메타 정보를 결정하는 동작,
    상기 특정 이미지와 임계 값 이상의 유사도를 갖는 복수의 이미지를 결정하는 동작, 및
    상기 복수의 이미지 중 상기 결정된 메타 정보에 대하여 지정된 기준을 만족하는 적어도 하나의 이미지에 상기 음성 데이터를 음성 태그로 등록하는 동작을 포함하는, 음성 태그 등록 방법.
  26. 컴퓨터 판독 가능한 명령어를 포함하는 저장 매체에 있어서, 상기 명령어는 실행될 때 전자 장치로 하여금,
    제1 이미지 또는 동영상에 대하여 음성을 수신하여 음성 데이터를 발생하고,
    상기 음성 데이터 또는 상기 음성 데이터에 기초한 제1 정보를 상기 제1 이미지 또는 동영상과 연결(link)하고,
    제2 이미지 또는 동영상과 상기 제1 이미지 또는 동영상과의 관계를 판단하고,
    상기 판단한 관계에 적어도 일부 기초하여, (1) 상기 음성 데이터, (2) 상기 제1 정보, 또는 (3) 상기 음성 데이터 및/또는 상기 제1 정보로부터 발생된 제2 정보 중 적어도 하나를 상기 제2 이미지 또는 동영상과 연결하도록 하는, 저장 매체.
  27. 전자 장치에 있어서,
    메모리,
    음성 데이터를 획득하는 음성 획득 모듈, 및
    상기 획득된 음성 데이터에 기초하여 복수의 이미지 또는 동영상으로부터 적어도 하나의 이미지를 검색하는 프로세서를 포함하고,
    상기 메모리 장치는, 상기 프로세서에 의해 실행 시, 상기 전자 장치가,
    (1) 상기 복수의 이미지 또는 동영상 중 상기 음성 데이터에 대응되는 음성 태그와 연결되거나, (2) 상기 음성 데이터에 기초한 제1 정보와 연결되거나, 또는 (3) 상기 음성 데이터 및/또는 상기 제1 정보로부터 발생된 제2 정보와 연결된 이미지 또는 동영상 중 적어도 하나의 이미지를 검색하여 제공하도록 하는,
    인스트럭션들(instructions)을 포함하는 것을 특징으로 하는 장치.
  28. 청구항 27에 있어서,
    상기 복수의 이미지 또는 동영상 중 적어도 일부는 상기 전자 장치와 기능적으로 연결된 외부 장치에 저장되어 있는 것을 특징으로 하는 장치.
  29. 청구항 28에 있어서,
    상기 전자 장치는 통신 모듈을 더 포함하고,
    상기 메모리 장치는, 상기 외부 장치로 상기 음성 데이터에 기초한 이미지 또는 동영상 검색 결과를 요청하는 요구(request)를 상기 외부 장치로 전송하고,
    상기 외부 장치로부터 수신된 검색 결과 중 적어도 일부를 제공하도록 하는 인스트럭션들을 더 포함하는, 장치.
KR1020140138108A 2014-10-14 2014-10-14 음성 태그를 이용한 이미지 관리 방법 및 그 장치 KR102252072B1 (ko)

Priority Applications (7)

Application Number Priority Date Filing Date Title
KR1020140138108A KR102252072B1 (ko) 2014-10-14 2014-10-14 음성 태그를 이용한 이미지 관리 방법 및 그 장치
PCT/KR2015/010592 WO2016060400A1 (en) 2014-10-14 2015-10-07 Method and apparatus for managing images using a voice tag
EP15188938.3A EP3010219B1 (en) 2014-10-14 2015-10-08 Method and apparatus for managing images using a voice tag
CN201910252312.4A CN110083730B (zh) 2014-10-14 2015-10-14 使用语音标签管理图像的方法和装置
US14/882,879 US9916864B2 (en) 2014-10-14 2015-10-14 Method and apparatus for managing images using a voice tag
CN201510661848.3A CN105512164B (zh) 2014-10-14 2015-10-14 使用语音标签管理图像的方法和装置
US15/918,900 US10347296B2 (en) 2014-10-14 2018-03-12 Method and apparatus for managing images using a voice tag

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140138108A KR102252072B1 (ko) 2014-10-14 2014-10-14 음성 태그를 이용한 이미지 관리 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20160043677A true KR20160043677A (ko) 2016-04-22
KR102252072B1 KR102252072B1 (ko) 2021-05-14

Family

ID=54337111

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140138108A KR102252072B1 (ko) 2014-10-14 2014-10-14 음성 태그를 이용한 이미지 관리 방법 및 그 장치

Country Status (5)

Country Link
US (2) US9916864B2 (ko)
EP (1) EP3010219B1 (ko)
KR (1) KR102252072B1 (ko)
CN (2) CN105512164B (ko)
WO (1) WO2016060400A1 (ko)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9633656B2 (en) 2010-07-27 2017-04-25 Sony Corporation Device registration process from second display
KR102252072B1 (ko) 2014-10-14 2021-05-14 삼성전자주식회사 음성 태그를 이용한 이미지 관리 방법 및 그 장치
US10051036B1 (en) * 2015-01-23 2018-08-14 Clarifai, Inc. Intelligent routing of media items
US11163161B2 (en) * 2016-12-30 2021-11-02 Gopro, Inc. Wearable imaging device
KR102402096B1 (ko) * 2017-03-27 2022-05-26 삼성전자주식회사 이미지 내 오브젝트와 관련된 정보를 제공하는 전자 장치
KR102304701B1 (ko) * 2017-03-28 2021-09-24 삼성전자주식회사 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치
KR102480570B1 (ko) * 2017-11-10 2022-12-23 삼성전자주식회사 디스플레이장치 및 그 제어방법
US11074292B2 (en) * 2017-12-29 2021-07-27 Realwear, Inc. Voice tagging of video while recording
KR102527082B1 (ko) * 2018-01-04 2023-04-28 삼성전자주식회사 디스플레이장치 및 그 제어방법
KR102595790B1 (ko) * 2018-01-26 2023-10-30 삼성전자주식회사 전자 장치 및 그의 제어방법
US11264021B2 (en) * 2018-03-08 2022-03-01 Samsung Electronics Co., Ltd. Method for intent-based interactive response and electronic device thereof
US11169668B2 (en) * 2018-05-16 2021-11-09 Google Llc Selecting an input mode for a virtual assistant
US10606888B2 (en) * 2018-06-05 2020-03-31 Eight Plus Ventures, LLC Image inventory production
EP3644616A1 (en) * 2018-10-22 2020-04-29 Samsung Electronics Co., Ltd. Display apparatus and operating method of the same
EP3660848A1 (en) * 2018-11-29 2020-06-03 Ricoh Company, Ltd. Apparatus, system, and method of display control, and carrier means
CN111368492B (zh) * 2018-12-24 2023-09-01 上海新微技术研发中心有限公司 一种用于在集成电路版图中设置标识信息的方法及系统
CN109947971B (zh) * 2019-03-18 2023-04-18 Oppo广东移动通信有限公司 图像检索方法、装置、电子设备及存储介质
JP6647668B1 (ja) * 2019-03-29 2020-02-14 株式会社 情報システムエンジニアリング 機械学習用のデータ構造、学習方法及び情報提供システム
US10990456B2 (en) 2019-06-04 2021-04-27 Rovi Guide, Inc. Methods and systems for facilitating application programming interface communications
US11249823B2 (en) * 2019-06-04 2022-02-15 Rovi Guides, Inc. Methods and systems for facilitating application programming interface communications
KR20210017087A (ko) * 2019-08-06 2021-02-17 삼성전자주식회사 음성 인식 방법 및 이를 지원하는 전자 장치
CN112905825B (zh) * 2019-12-04 2023-03-21 博泰车联网科技(上海)股份有限公司 用于信息处理的方法、设备和计算机存储介质
CN110827351B (zh) * 2020-01-09 2020-04-14 西南交通大学 机器人视听协同学习新目标的语音标签自动生成方法
CN111552731A (zh) * 2020-05-09 2020-08-18 广州佳圣信息科技有限公司 水表流量数据统一方法、装置、计算机设备及存储介质
TWI743798B (zh) * 2020-05-20 2021-10-21 易晨智能股份有限公司 漢語多重語音識別的方法與裝置
CN111914822B (zh) * 2020-07-23 2023-11-17 腾讯科技(深圳)有限公司 文本图像标注方法、装置、计算机可读存储介质及设备
CN114079817A (zh) * 2020-08-20 2022-02-22 北京达佳互联信息技术有限公司 视频特效的控制方法、装置、电子设备及存储介质
US11893668B2 (en) 2021-03-31 2024-02-06 Leica Camera Ag Imaging system and method for generating a final digital image via applying a profile to image information

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050161510A1 (en) * 2003-12-19 2005-07-28 Arto Kiiskinen Image handling
US20050192808A1 (en) * 2004-02-26 2005-09-01 Sharp Laboratories Of America, Inc. Use of speech recognition for identification and classification of images in a camera-equipped mobile handset
WO2007149609A2 (en) * 2006-06-16 2007-12-27 Motorola, Inc. Method and system for cataloging media files
JP2008072572A (ja) * 2006-09-15 2008-03-27 Matsushita Electric Ind Co Ltd コンテンツ撮影装置
WO2011109137A1 (en) * 2010-03-05 2011-09-09 International Business Machines Corp. Digital media voice tags in social networks
US20130121589A1 (en) * 2005-05-09 2013-05-16 Salih Burak Gokturk System and method for enabling the use of captured images through recognition
US20140160316A1 (en) * 2012-12-12 2014-06-12 Lg Electronics Inc. Mobile terminal and control method thereof

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150371629A9 (en) * 2005-01-03 2015-12-24 Luc Julia System and method for enabling search and retrieval operations to be performed for data items and records using data obtained from associated voice files
KR100661177B1 (ko) * 2005-12-02 2006-12-26 삼성전자주식회사 모바일 컨텐츠 관리장치
KR100856407B1 (ko) * 2006-07-06 2008-09-04 삼성전자주식회사 메타 데이터를 생성하는 데이터 기록 및 재생 장치 및 방법
US20080075433A1 (en) * 2006-09-22 2008-03-27 Sony Ericsson Mobile Communications Ab Locating digital images in a portable electronic device
US8260809B2 (en) 2007-06-28 2012-09-04 Microsoft Corporation Voice-based search processing
EP2275953B1 (en) * 2009-06-30 2018-10-24 LG Electronics Inc. Mobile terminal
US8558919B2 (en) * 2009-12-30 2013-10-15 Blackberry Limited Filing digital images using voice input
US20130289991A1 (en) * 2012-04-30 2013-10-31 International Business Machines Corporation Application of Voice Tags in a Social Media Context
CN102708185A (zh) * 2012-05-11 2012-10-03 广东欧珀移动通信有限公司 一种图片语音搜索方法
US20130346068A1 (en) * 2012-06-25 2013-12-26 Apple Inc. Voice-Based Image Tagging and Searching
KR20140035713A (ko) * 2012-09-14 2014-03-24 한국전자통신연구원 실감 미디어 저작 방법 및 장치, 이를 이용하는 휴대형 단말 장치
CN103780973B (zh) * 2012-10-17 2017-08-04 三星电子(中国)研发中心 视频标签添加方法及装置
US20150187390A1 (en) * 2013-12-30 2015-07-02 Lyve Minds, Inc. Video metadata
KR101592981B1 (ko) 2014-02-03 2016-02-12 주식회사 엠앤엘솔루션 음성기반 이미지 파일 태깅장치 및 그를 이용한 클라우드 서비스 기반 이미지 파일 검색방법
KR102252072B1 (ko) 2014-10-14 2021-05-14 삼성전자주식회사 음성 태그를 이용한 이미지 관리 방법 및 그 장치

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050161510A1 (en) * 2003-12-19 2005-07-28 Arto Kiiskinen Image handling
US20050192808A1 (en) * 2004-02-26 2005-09-01 Sharp Laboratories Of America, Inc. Use of speech recognition for identification and classification of images in a camera-equipped mobile handset
US20130121589A1 (en) * 2005-05-09 2013-05-16 Salih Burak Gokturk System and method for enabling the use of captured images through recognition
WO2007149609A2 (en) * 2006-06-16 2007-12-27 Motorola, Inc. Method and system for cataloging media files
JP2008072572A (ja) * 2006-09-15 2008-03-27 Matsushita Electric Ind Co Ltd コンテンツ撮影装置
WO2011109137A1 (en) * 2010-03-05 2011-09-09 International Business Machines Corp. Digital media voice tags in social networks
JP2013521567A (ja) * 2010-03-05 2013-06-10 インターナショナル・ビジネス・マシーンズ・コーポレーション クライアント・コンピューティング・デバイスを含むシステム、メディア・オブジェクトにタグ付けする方法、および音声タグ付きメディア・オブジェクトを含むデジタル・データベースをサーチする方法
US20140160316A1 (en) * 2012-12-12 2014-06-12 Lg Electronics Inc. Mobile terminal and control method thereof

Also Published As

Publication number Publication date
EP3010219A3 (en) 2016-06-29
KR102252072B1 (ko) 2021-05-14
CN110083730A (zh) 2019-08-02
US10347296B2 (en) 2019-07-09
CN105512164B (zh) 2019-04-23
WO2016060400A1 (en) 2016-04-21
US20160104511A1 (en) 2016-04-14
US20180204602A1 (en) 2018-07-19
CN110083730B (zh) 2024-01-30
EP3010219B1 (en) 2020-12-02
EP3010219A2 (en) 2016-04-20
US9916864B2 (en) 2018-03-13
CN105512164A (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
KR102252072B1 (ko) 음성 태그를 이용한 이미지 관리 방법 및 그 장치
US10977491B2 (en) Device for providing information related to object in image
US10021569B2 (en) Theme applying method and electronic device for performing the same
KR102376700B1 (ko) 비디오 컨텐츠 생성 방법 및 그 장치
KR20170076380A (ko) 전자 장치 및 전자 장치의 이미지 제어 방법
CN109196546B (zh) 电子设备和包括该电子设备的信息处理系统
CN108351892B (zh) 用于提供对象推荐的电子装置和方法
KR20170058793A (ko) 가상 현실 환경에서 정보를 제공하는 방법 및 장치
KR20160105239A (ko) 전자 장치 및 그의 영상 표시 방법
US10504560B2 (en) Electronic device and operation method thereof
US11232305B2 (en) Method for outputting content corresponding to object and electronic device therefor
KR20170059201A (ko) 전자 장치 및 전자 장치의 컨텐츠 출력 방법
US20160286132A1 (en) Electronic device and method for photographing
KR20180089699A (ko) 건강 콘텐트 제공 방법 및 이를 수행하는 전자 장치
US10606460B2 (en) Electronic device and control method therefor
KR20160050713A (ko) 오디오 데이터 저장 방법 및 이를 지원하는 전자 장치
US10645211B2 (en) Text input method and electronic device supporting the same
KR20170098113A (ko) 전자 장치의 이미지 그룹 생성 방법 및 그 전자 장치
US10198828B2 (en) Image processing method and electronic device supporting the same
KR102323797B1 (ko) 전자 장치 및 그의 정보 공유 방법
US20170024442A1 (en) Electronic device and method of acquiring user information in electronic device
KR20170069696A (ko) 전자 장치 및 전자 장치의 디스플레이 방법
KR20170022249A (ko) 전자 장치의 정보 제공 방법 및 장치
KR20160027855A (ko) 전자 장치의 콘텐츠를 제공하는 방법과 이를 지원하는 전자 장치
US20180074697A1 (en) Method for outputting screen according to force input and electronic device supporting the same

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant