KR20200083159A

KR20200083159A - 사용자 단말에서의 사진 검색 방법 및 시스템

Info

Publication number: KR20200083159A
Application number: KR1020190098844A
Authority: KR
Inventors: 이상근; 김강민; 박준형; 류우종
Original assignee: 고려대학교 산학협력단
Priority date: 2018-12-28
Filing date: 2019-08-13
Publication date: 2020-07-08
Also published as: KR102230120B1

Abstract

본 발명은 사용자 단말에서의 사진 검색 방법 및 시스템에 관한 것으로서, 사용자 의도에 따른 사진 검색 결과를 제공하기 위한 사진 검색 시스템에 의해 수행되는 사용자 단말에서의 사진 검색 방법에 있어서, a) 사용자 질의가 입력되면 해당 사용자 질의를 질의 단어 벡터로 변환하고, 상기 질의 단어 벡터를 오픈 디렉토리 프로젝트(Open Directory Project, ODP)에 기초하여 기정의된 토픽 분류 트리에 적용하여 질의 시맨틱 토픽을 추출하는 단계; b) 하나 이상의 사진이 저장된 사진 저장소의 각 사진에 대해 객체 정보와 위치 정보를 분석하고, 상기 분석된 상기 객체 정보와 위치 정보로부터 단어 벡터들을 추출하며, 상기 추출된 단어벡터들을 통합하여 통합 단어 벡터를 산출하고, 상기 통합 단어 벡터를 상기 토픽 분류 트리에 적용하여 사진 시맨틱 토픽을 추출하는 단계; 및 c) 상기 질의 시맨틱 토픽과 사진 시맨틱 토픽 간의 주제 분석을 통해 주제적 유사도를 계산하고, 상기 계산된 주제적 유사도 중 상위의 주제적 유사도를 갖는 사진들을 추출하여 상기 사용자 질의에 대한 사진 검색 결과로 제공하는 단계를 포함하는 것이다.

Description

사용자 단말에서의 사진 검색 방법 및 시스템 {METHOD AND SYSTEM FOR SEARCHING PICTURE ON USER TERMINAL}

본 발명은 사용자 단말 내에서 사용자 질의에 적합한 사진을 검색하여 사진 검색 결과를 사용자에게 제공할 수 있는 사용자 단말에서의 사진 검색 방법 및 시스템에 관한 것이다.

최근 스마트 기기의 사용이 증가함에 따라 사용자가 스마트 기기의 카메라를 이용하여 촬영한 사진의 양 또한 급격히 증가하고 있다. 이에 따라, 사용자는 스마트 기기 내의 수많은 사진 속에서 자신이 원하는 사진을 찾기 위하여 많은 시간과 노력을 소비해야 한다.

그러나 사용자는 최소한의 시간과 노력으로 스마트 기기 내에서 자신이 원하는 사진을 제공받기를 원하고 있다. 최근에 글로벌 기업인 구글(Google)에서는 사용자가 본인의 사진을 검색할 수 있도록 구글 알로(Google Allo), 구글 어시스턴트(Google Assistant)와 같은 지능형 어시스턴트 서비스를 제공하고 있다.

도 1은 종래 기술에 따른 사진 검색 시스템을 설명하는 도면이다.

도 1을 참고하면, 사용자는 스마트 단말(10) 내에 보관된 사진을 구글 포토에 모두 업로드하고, AI를 활용한 가상 개인비서 서비스인 구글 어시스턴트 기능을 수행하는 서버(20)는 사용자가 '고양이' 사진을 입력하면 우선 순위로 사용자 계정의 구글 포토에 있는 고양이 사진을 검색하여 제공하고, 웹 이미지(web image)라고 음성 입력하면 웹 상의 고양이 사진을 검색하여 검색 결과로 보여준다.

이러한 사진 검색을 위한 지능형 어시스턴트 기술은 사용자의 스마트 기기 내에 보관된 사진을 모두 서버에 전송해야 하기 때문에 사진 전송 과정에서 개인 정보 유출 등의 보안 문제가 발생할 수 있다. 또한, 사용자는 스마트 기기와 서버 사이의 네트워크 통신에서 발생하는 높은 지연 시간을 필연적으로 겪는다는 점에서 새로운 사진 검색 기술에 대한 연구가 필요한 실정이다.

대한민국 특허등록 제 10-1462473호(발명의 명칭: 이미지상의 객체 인식을 통한 검색방법 및 그 검색방법에 의한 검색서버) 대한민국 특허등록 제 10-1625666호(발명의 명칭: 포토 큐레이션 서비스 방법 및 장치)

본 발명은 전술한 문제점을 해결하기 위하여, 본 발명의 일 실시예에 따라 외부 서버에서 사진을 분석하여 검색해주는 시스템과 달리 사용자 단말에 내장되어 있는 사진 검색 시스템을 통해 사용자 단말 내의 사진 저장소에 저장된 각 사진의 객체 정보와 위치 정보를 동시에 분석하여 사용자 질의와 의미론적 연관성이 높은 사진을 검색하여 사진 검색 결과를 제공하도록 하는 것에 목적이 있다.

또한, 본 발명은 기존에 사용자가 검색 요구에 부합하는 특정 사진을 질의로 입력하였지만, 텍스트 형태의 사용자 질의를 검색 요구사항으로 입력하도록 하는 것에 목적이 있다.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서 본 발명의 일 실시예에 따른 사용자 단말에서의 사진 검색 방법은, 사용자 의도에 따른 사진 검색 결과를 제공하기 위한 사진 검색 시스템에 의해 수행되는 사용자 단말에서의 사진 검색 방법에 있어서, a) 사용자 질의가 입력되면 해당 사용자 질의를 질의 단어 벡터로 변환하고, 상기 질의 단어 벡터를 오픈 디렉토리 프로젝트(Open Directory Project, ODP)에 기초하여 기정의된 토픽 분류 트리에 적용하여 질의 시맨틱 토픽을 추출하는 단계; b) 하나 이상의 사진이 저장된 사진 저장소의 각 사진에 대해 객체 정보와 위치 정보를 분석하고, 상기 분석된 객체 정보와 위치 정보로부터 단어 벡터들을 추출하며, 상기 추출된 단어벡터들을 통합하여 통합 단어 벡터를 산출하고, 상기 통합 단어 벡터를 상기 토픽 분류 트리에 적용하여 사진 시맨틱 토픽을 추출하는 단계; 및 c) 상기 질의 시맨틱 토픽과 사진 시맨틱 토픽 간의 주제 분석을 통해 주제적 유사도를 계산하고, 상기 계산된 주제적 유사도 중 상위의 주제적 유사도를 갖는 사진들을 추출하여 상기 사용자 질의에 대한 사진 검색 결과로 제공하는 단계를 포함하는 것이다.

또한, 본 발명의 다른 일 실시예에 따른 사용자 의도에 따른 사진 검색 결과를 제공하기 위한 사진 검색 시스템에 있어서, 사용자 단말에서의 사진 검색 방법을 수행하기 위한 프로그램이 기록된 메모리; 및 상기 프로그램을 실행하기 위한 프로세서;를 포함하며, 상기 프로세서는, 상기 프로그램의 실행에 의해, 사용자 질의가 입력되면 해당 사용자 질의를 질의 단어 벡터로 변환하고, 상기 질의 단어 벡터를 오픈 디렉토리 프로젝트(Open Directory Project, ODP)에 기초하여 기정의된 토픽 분류 트리에 적용하여 질의 시맨틱 토픽을 추출하고, 하나 이상의 사진이 저장된 사진 저장소의 각 사진에 대해 객체 정보와 위치 정보를 분석하고, 상기 분석된 객체 정보와 위치 정보로부터 단어 벡터들을 추출하며, 상기 추출된 단어벡터들을 통합하여 통합 단어 벡터를 산출하고, 상기 통합 단어 벡터를 상기 토픽 분류 트리에 적용하여 사진 시맨틱 토픽을 추출하고, 상기 질의 시맨틱 토픽과 사진 시맨틱 토픽 간의 주제 분석을 통해 주제적 유사도를 계산하고, 상기 계산된 주제적 유사도 중 상위의 주제적 유사도를 갖는 사진들을 추출하여 상기 사용자 질의에 대한 사진 검색 결과로 제공하는 것이다.

전술한 본 발명의 과제 해결 수단에 의하면, 텍스트 형태의 사용자 질의와 스마트 단말 내 사진에 포함된 객체 정보, 사진이 촬영된 장소의 위치 정보를 하나의 시맨틱 공간에서 함께 분석함으로써 사용자가 텍스트 형태의 질의로 사진 검색을 편리하게 수행할 수 있고, 기존에 서버를 통해 객체 정보 또는 위치 정보만을 분석하여 사진을 검색하는 기술에 비해 사용자의 질의와 의미적으로 연관성이 높은 사진을 더 정확하게 검색하여 제공할 수 있다.

또한, 본 발명은 사용자 단말 내에 사진 검색 시스템이 내장되어 있어 기존에 서버에서 사진을 분석하여 검색해주는 시스템과 달리 개인 사진의 외부 유출을 원천적으로 차단할 수 있기 때문에 보안성이 향상될 수 있고, 사용자 단말과 서버간에 사진 전송을 위해 필연적으로 발생되던 지연 시간이 발생하지 않는다.

도 1은 종래 기술에 따른 사진 검색 시스템을 설명하는 도면이다.
도 2는 본 발명의 일 실시예에 따른 사진 검색 시스템의 구성을 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 사용자 단말에서의 사진 검색 방법을 수행하기 위한 프로그램을 설명하는 도면이다.
도 4는 본 발명의 일 실시예에 따른 사용자 단말에서의 사진 검색 방법을 설명하는 순서도이다.
도 5는 본 발명의 일 실시예에 따른 ODP 기반의 토픽 분류 트리를 설명하는 도면이다.
도 6은 ODP의 카테고리 및 웹 문서 정보를 이용하여 카테고리를 세분화하는 과정을 설명하는 도면이다.
도 7은 본 발명의 일 실시예에 따른 병합 센트로이드 벡터를 산출하는 과정을 수식화한 도면이다.
도 8은 본 발명의 일 실시예에 따른 사진 시맨틱 토픽 추출 과정을 설명하는 도면이다.
도 9는 본 발명의 일 실시예에 따른 질의 단어 벡터와 각 사진에 대한 통합 단어 벡터를 하나의 시맨틱 공간상에 표현한 상태를 설명하는 도면이다.
도 10은 본 발명의 일 실시예에 따른 사용자 단말에서의 사진 검색 방법이 사용자의 대화 문맥에 따라 사진을 추천하는 과정을 설명하는 예시도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 명세서에서 ‘단말’은 휴대성 및 이동성이 보장된 무선 통신 장치일 수 있으며, 예를 들어 스마트 폰, 태블릿 PC 또는 노트북 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치일 수 있다. 또한, ‘단말’은 네트워크를 통해 다른 단말 또는 서버 등에 접속할 수 있는 PC 등의 유선 통신 장치인 것도 가능하다. 또한, 네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다.

무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.

이하의 실시예는 본 발명의 이해를 돕기 위한 상세한 설명이며, 본 발명의 권리 범위를 제한하는 것이 아니다. 따라서 본 발명과 동일한 기능을 수행하는 동일 범위의 발명 역시 본 발명의 권리 범위에 속할 것이다.

이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.

도 2는 본 발명의 일 실시예에 따른 사진 검색 시스템의 구성을 나타낸 도면이고, 도 3은 본 발명의 일 실시예에 따른 사용자 단말에서의 사진 검색 방법을 수행하기 위한 프로그램을 설명하는 도면이다.

도 2를 참조하면, 사진 검색 시스템(100)은 통신 모듈(110), 메모리(120), 프로세서(130) 및 데이터베이스(140)를 포함한다.

상세히, 통신 모듈(110)은 통신망(300)과 연동하여 사용자 단말로 송수신되는 신호를 패킷 데이터 형태로 제공하는 데 필요한 통신 인터페이스를 제공한다. 여기서, 통신 모듈(110)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.

메모리(120)는 사용자 단말에서의 사진 검색 방법을 수행하기 위한 프로그램이 기록된다. 또한, 프로세서(130)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행한다. 여기서, 메모리(120)는 휘발성 저장 매체(volatile storage media) 또는 비휘발성 저장 매체(non-volatile storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

프로세서(130)는 사용자 단말에서의 사진 검색 방법을 제공하는 전체 과정을 제어하는데, 스마트 단말에서의 사진 검색 방법은 검색어로 텍스트를 사용하고, 사진 내 객체 정보나 사진이 촬영된 위치 정보를 사용하여 사진 검색 결과를 제공할 수 있다. 하지만 텍스트 형태의 사용자 질의, 객체 정보 및 위치 정보는 서로 다른 3개의 모달리티(modality)를 갖기 때문에 3개의 모달리티를 동일한 시맨틱 공간에 두고 사진을 검색할 수 있어야 한다.

따라서, 프로세서(130)는 텍스트 형태로 사용자 질의를 입력하고, 사용자 단말 상에 보관된 사진들에 대한 객체 정보와 위치 정보를 하나의 시맨틱 공간에서 분석함으로써 사용자 질의와 의미적으로 연관성을 가지는 사진을 검색하여 제공할 수 있다. 프로세서(130)가 수행하는 각각의 동작에 대해서는 추후 보다 상세히 살펴보기로 한다.

사용자 단말에서의 사진 검색 방법을 수행하기 위한 프로그램은 적어도 하나의 기능(tasks)를 수행(perform)하기 위해 적어도 하나 이상의 프로그램 모듈을 포함할 수 있다. 즉, 도 3에 도시된 바와 같이, 프로그램(300)은 질의 분석 모듈(310), 사진 분석 모듈(320), 사진 검색 모듈(330)을 포함하여 이루어진다.

질의 분석 모듈(310)은 텍스트로 입력된 사용자 질의를 질의 단어 벡터로 변환 한 후 ODP에 기초하여 기정의된 토픽 분류 트리에 적용하여 질의 시맨틱 토픽을 추출한다.

사진 분석 모듈(320)은 사진 저장소(145)(예를 들어, 갤러리) 내의 각 사진에 대해 객체 정보와 위치 정보를 분석하고, 분석된 객체 정보와 위치 정보를 이용하여 토픽 분류 트리에 기초한 사진 시맨틱 토픽을 추출한다. 이때, 사진 분석 모듈(320)은 카테고리를 인덱스로 하여, 인덱스를 기준으로 사진 시맨틱 토픽을 정렬하여 데이터베이스(140)에 저장할 수 있다.

사진 검색 모듈(330)은 질의 시맨틱 토픽과 사진 시맨틱 토픽 사이의 주제 유사도를 계산하고, 질의 시맨틱 토픽과 주제 유사도가 높은 사진 시맨틱 토픽을 갖는 사진들을 추출하여 반환한다.

상술한 모듈들은 본 발명을 설명하기 위한 일 실시예일뿐, 이에 한정되지 않고 다양한 변형으로 구현될 수 있다. 또한, 상술한 모듈들은 프로세서(130)에 의해 제어될 수 있는 컴퓨터로 판독 가능한 기록매체로서 메모리(120)에 저장된다. 또한, 프로그램(300)의 적어도 일부는 소프트웨어, 펌웨어, 하드웨어 또는 이들 중 적어도 둘 이상의 조합으로 구현될 수 있으며, 하나 이상의 기능을 수행하기 위한 모듈, 프로그램, 루틴, 명령어 세트 또는 프로세스를 포함할 수 있다.

프로세서(130)는 프로세서(processor)와 같이 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

데이터베이스(140)는 스마트 단말에서의 사진 검색 방법을 수행하면서 누적되는 데이터가 저장된다. 예컨대, 데이터베이스(140)에는 사진 저장소, 사진 검색 결과 등이 저장될 수 있다.

도 4는 본 발명의 일 실시예에 따른 사용자 단말에서의 사진 검색 방법을 설명하는 순서도이고, 도 5는 본 발명의 일 실시예에 따른 ODP 기반의 토픽 분류 트리를 설명하는 도면이며, 도 6은 ODP의 카테고리 및 웹 문서 정보를 이용하여 카테고리를 세분화하는 과정을 설명하는 도면이다.

사용자 단말에서의 사진 검색 방법은 사용자 질의가 입력되면(S1), 텍스트 형태의 사용자 질의를 질의 단어 벡터로 변환하고(S2), 변환된 질의 단어 벡터를ODP 기반의 토픽 분류 트리에 적용하여 질의 시맨틱 토픽을 추출한다(S3).

오픈 디렉터리 프로젝트(Open Directory Project, ODP)는 일종의 웹 상의 텍스트 데이터베이스이다. 오픈 디렉터리 프로젝트는 월드 와이드 웹(world wide web) 상의 웹 문서 등의 텍스트를 계층적 온톨로지(hierarchical ontology)를 이용하여 카테고리(category)로 세분화하고, 트리 자료 구조(tree data structure)를 이용하여 분류하는 것이다.

각 카테고리에 들어 있는 웹 문서 정보는 하기 수학식 1을 이용하여 단어 형태로 변환된다. 단어 벡터를 구성하기 위해 사용되는 학습 데이터는 각 웹 문서의 제목, 설명 및 페이지 본문을 포함한다. 이를 통해 구성된 각 웹 문서를 나타내는 단어 벡터는 해당하는 카테고리의 센트로이드 벡터를 하기 수학식 2를 이용하여 산출하기 위해 사용된다.

[수학식 1]

수학식 1에서, t는 단어, w_t는 단어 t의 가중치 값, tf_t는 웹 문서가 포함하는 단어 t의 빈도 수, N은 사용되는 전체 문서 수, df_t는 전체 문서에서 단어 t가 포함된 문서의 빈도 수를 각각 의미한다.

[수학식 2]

수학식 2에서, c는 카테고리,

는 카테고리 c의 센트로이드 벡터, D_c는 카테고리 c의 학습 데이터 집합,

는 학습데이터 d에 대한 단어 벡터를 각각 의미한다.

도 7은 본 발명의 일 실시예에 따른 병합 센트로이드 벡터를 산출하는 과정을 수식화한 도면이다.

토픽 분류 트리의 각 카테고리 벡터는 트리 구조를 활용하여 부모 카테고리와 자식 카테고리들 간에 센트로이드를 공유할 수 있다. 따라서 병합 센트로이드 벡터는 최하위 카테고리부터 해당 카테고리가 갖는 센트로이드 벡터와 자식 카테고리의 병합 센트로이드 벡터를 합산하여 산출한다. 이때, 자식 카테고리가 없는 경우에는 해당 카테고리가 갖는 센트로이드 벡터를 병합 센트로이드 벡터로 사용한다. 이러한 과정을 통해 부모 카테고리의 병합 센트로이드 벡터는 자식 카테고리의 병합 센트로이드 벡터를 포함하게 된다.

프로세서(130)는 토픽 분류 트리의 카테고리들이 갖고 있는 병합 센트로이드 벡터와 질의 단어 벡터와의 코사인 유사도를 하기 수학식 3을 이용하여 계산한다.

[수학식 3]

수학식 3에서, u는 질의 단어 벡터, c는 카테고리의 병합 센트로이드 벡터, V는 전체 단어의 집합을 각각 나타낸다.

계산된 유사도 중 상위 k개의 카테고리를 선별하고, 선별된 상위 k개의 카테고리 중 사용자 질의와 의미론적 유사도가 기설정된 임계치 이상인 상위 카테고리들을 질의 시맨틱 토픽으로 추출한다.

도 8은 본 발명의 일 실시예에 따른 사진 시맨틱 토픽 추출 과정을 설명하는 도면이다.

프로세서(130)는 사용자 단말(100) 내의 사진 저장소(145)에 저장된 각 사진에 대해 객체 정보와 위치 정보를 분석한다(S4). 먼저, 각 사진의 객체 정보는 경량 딥러닝 알고리즘을 사용하여 학습된 이미지 분류 모델을 통해 사진 속의 객체를 인식한다. 따라서, 사진의 이미지 데이터가 이미지 분류 모델인 모바일넷에 입력되면, 모바일넷에서 이미지 데이터를 분석하여 해당 이미지 데이터가 기정의된 1000개의 카테고리 안에서 각각의 카테고리에 속할 확률인 분류 확률을 출력한다.

경량 딥러닝(Lightweight Deep Learning)은 기존의 딥러닝을 통해 생성된 모델을 다양한 기법으로 줄여서(예. 크기, 에너지 소모 등) 정확도를 유지하면서 다양한 경량 디바이스에서 내장하여 추론을 가능하게 하는 기술이다. 이때, 분류 모델은 ILSVRC(ImageNet Large Scale Visual Recognition Challenge) 2012 데이터세트를 사용해 학습된 모바일넷(MobileNet) 구조를 사용하는데, 모바일넷은 모바일 디바이스에 적용하기 위해 사전 훈련된 경량 딥러닝 분류 모델 중 하나이다. 즉, 모바일넷은 기존의 합성곱을 채널(Channel) 단위 합성곱(Depthwise Convolution)과 하나의 픽셀(Point)에 대하여 진행하는 점별 합성곱(Pointwise Convolution)으로 나눔으로써 연산량과 변수의 개수를 줄일 수 있다.

한편, 각 사진의 위치 정보는 사진 파일 속에 저장되어 있는 GPS 데이터를 이용하여 추출된다. 예를 들어, 위치 기반 서비스를 제공하는 포스퀘어(Foursquare) API를 사용하면 GPS 데이터를 통해 사진 촬영 장소 주변의 건물과 시설에 대한 장소명을 확인할 수 있다. 즉, 포스퀘어 API에 GPS 데이터를 입력하면, 해당 사진을 촬영한 장소명이나 주변 건물의 이름 등이 반환된다.

프로세서(130)는 각 사진에 대한 객체 정보와 위치 정보를 하나의 시맨틱 공간으로 통합해야 한다. 이때, 프로세서(130)는 카테고리의 분류 확률 값을 정렬하여 가장 분류 확률이 높은 상위 카테고리들을 추출하고, 카테고리의 이름에 해당하는 단어의 가중치값을 이용하여 단어 벡터를 생성한다. 이렇게 생성된 단어 벡터에 각 카테고리의 분류 확률을 곱함으로써 이미지 데이터가 갖는 확률적인 의미론적 정보를 표현할 수 있다.

도 8에 도시된 바와 같이, 음식점에서 식사를 하고 있는 사진으로 사진 시맨틱 토픽을 추출하는 경우, 모바일넷을 통해 이미지 데이터를 분석하면 해당 사진의 이미지 데이터 내 각 이미지들에 대해 바비큐(barbecue) 0.43, 메쉬 포테이토(mashed potato) 0.25, 콘(corn) 0.18등과 같이 음식 종류를 구분하는 카테고리의 분류 확률값이 계산되어 출력된다. 또한, 포스퀘어 API를 이용하면 사진의 GPS 데이터를 통해 사진 촬영 장소 주변의 건물과 시설에 대한 장소명인 'restaurant'이 출력될 수 있다. 프로세서(130)는 두 출력 결과를 통합하여 통합 단어 벡터를 구성한 후 사진 시맨틱 토픽을 추출하면 음식과 관련된 토픽들을 획득할 수 있다.

이와 같이, 위치 정보와 객체 정보가 텍스트 형태로 구성되기 때문에 각각에 대한 단어 벡터를 생성할 수 있고, 객체 정보와 위치 정보의 각 단어 벡터를 합산하여 통합 단어 벡터를 산출함으로써 객체 정보와 위치 정보를 하나의 벡터 공간 안에서 표현할 수 있다(S5).

프로세서(130)는 상기 수학식 3을 이용하여 통합 단어 벡터에 대해 토픽 분류 트리의 카테고리들과 코사인 유사도를 계산하여 상위 카테고리를 추출함으로써 사진 시맨틱 토픽을 추출할 수 있다(S6).

사용자 단말에서의 사진 검색 방법을 수행하기 위한 프로그램(300)을 meChat이라고 가정한다. 표 1은 프로그램(300)이 사진 시맨틱 토픽을 추출하는 과정에서 위치 정보만을 이용하는 경우(meChat_Pla), 객체 정보만을 이용하는 경우(meChat_Obj), 위치 정보와 객체 정보를 함께 이용하는 경우(meChat_Pla+Obj)에 대한 상위 k개의 결과로 정밀도(Precision)를 계산하는precision@k(P@k) 를 정리한 것이다.

[표 1]

표 1에 나타나 있듯이, 사진 분석을 통해 사진 시맨틱 토픽을 추출하는 과정에서 위치 정보만 이용하는 경우에는 가장 부정확한 성능을 보이고, 객체 정보만 이용하는 경우에도 여전히 부정확한 성능을 보이는 반면에, 위치 정보와 객체 정보를 함께 이용할 경우에 서로 상호 보완적인 작용을 함으로써 성능이 크게 향상됨을 알 수 있다.

이와 같이, 사진을 분석할 경우, 객체 정보만을 사용하는 것이 아니라 위치 정보와 같은 부가적인 정보를 함께 활용함으로써 사진 시맨틱 토픽을 더 정확하게 추출할 수 있다.

다시 도 4를 설명하면, 프로세서(130)는 질의 시맨틱 토픽과 사진 시맨틱 토픽 사이의 주제적 유사도를 측정한다(S7). 주제적 유사도는 하기 수학식4를 통해 계산할 수 있다.

[수학식4]

수학식 4에서, C는 코사인 유사도 값이 가장 높은 k개의 질의 시맨틱 토픽 집합, P는 코사인 유사도가 가장 높은 k개의 사진 시맨틱 토픽 집합, wPPR은 가중 개인화된 페이지랭크(weighted Personalized Page Rank) 함수, cw는 유사도 값을 출력하는 함수를 각각 의미한다.

프로세서(130)는 질의 시맨틱 토픽과 사진 저장소에 속한 모든 사진의 사진 시맨틱 토픽 사이의 주제적 유사도를 계산하고, 그 중 상위의 주제적 유사도를 갖는 사진들을 추출함으로써 사용자 질의와 의미론적으로 유사한 사진들을 검색할 수 있다(S8, S9). 이때, 프로세서(130)는 단어의 가중치를 고려하여 개인화된 랭킹을 구하는 페이지 랭크 알고리즘을 이용하여 상위의 주제적 유사도를 갖는 사진들을 순위화하여 정렬한 상태로 사용자에게 제공할 수 있다.

도 9는 본 발명의 일 실시예에 따른 질의 단어 벡터와 각 사진에 대한 통합 단어 벡터를 하나의 시맨틱 공간상에 표현한 상태를 설명하는 도면이고, 도 10은 본 발명의 일 실시예에 따른 사용자 단말에서의 사진 검색 방법이 사용자의 대화 문맥에 따라 사진을 추천하는 과정을 설명하는 예시도이다.

도 9에 도시된 바와 같이, 사용자 질의와 객체 정보, 위치 정보는 서로 다른 3개의 모달리티 (modality)를 갖고 있지만, 본 발명에서는 텍스트 형태의 사용자 질의, 사진의 객체 정보와 위치 정보를 단어 벡터로 변환하여 동일한 시맨틱 공간에 두고 사진을 검색할 수 있다. 이때, 사진의 객체 정보와 위치 정보를 함께 분석함으로써 사용자 질의에 가장 적합한 사진을 정확하게 검색하여 사용자에게 제공할 수 있다.

이러한 사용자 단말에서의 사진 검색 방법은 사용자 의도에 연관된 사진을 검색해주는 지능형 앨범 서비스를 제공할 수 있고, 도 10에 도시된 바와 같이, 메신저를 통해 대화 도중에 업로드할 사진을 사용자의 문맥에 따라 추천해주는 사진 어시스턴트 서비스를 제공할 수도 있다.

표 2는 키워드 매칭 기반의 사진 검색 성능(Keyword)과 GraphScore 점수를 적용한 사진 검색 성능을 precision@k와 MRR(Mean Reciprocal Rank)로 표현한 것이다. 이때, 사진 시맨틱 추출을 위해 객체 정보만, 위치 정보만, 객체 정보와 위치 정보를 모두 활용한 경우의 각각의 검색 성능을 비교하면, 객체 정보와 위치 정보를 함께 이용하여 GraphScore 점수를 적용함으로써 사진 검색 결과의 성능이 크게 향상됨을 알 수 있다.

[표 2]

이와 같이, 본 발명은 스마트 단말 상에서 사용자가 저장한 사진들에 대한 시맨틱을 분석하고 매칭함으로써 사용자 질의와 의미론적으로 연관성이 높은 사진을 검색 결과로 제공할 수 있다.

이상에서 설명한 본 발명의 실시예에 따른 사용자 단말에서의 사진 검색 방법은, 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 이러한 기록 매체는 컴퓨터 판독 가능 매체를 포함하며, 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함하며, 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 사용자 단말에서의 사진 검색 시스템
110: 통신 모듈 120: 메모리
130: 프로세서 140: 데이터베이스

Claims

사용자 의도에 따른 사진 검색 결과를 제공하기 위한 사진 검색 시스템에 의해 수행되는 사용자 단말에서의 사진 검색 방법에 있어서,
a) 사용자 질의가 입력되면 해당 사용자 질의를 질의 단어 벡터로 변환하고, 상기 질의 단어 벡터를 오픈 디렉토리 프로젝트(Open Directory Project, ODP)에 기초하여 기정의된 토픽 분류 트리에 적용하여 질의 시맨틱 토픽을 추출하는 단계;
b) 하나 이상의 사진이 저장된 사진 저장소의 각 사진에 대해 객체 정보와 위치 정보를 분석하고, 상기 분석된 객체 정보와 위치 정보로부터 단어 벡터들을 추출하며, 상기 추출된 단어벡터들을 통합하여 통합 단어 벡터를 산출하고, 상기 통합 단어 벡터를 상기 토픽 분류 트리에 적용하여 사진 시맨틱 토픽을 추출하는 단계; 및
c) 상기 질의 시맨틱 토픽과 사진 시맨틱 토픽 간의 주제 분석을 통해 주제적 유사도를 계산하고, 상기 계산된 주제적 유사도 중 상위의 주제적 유사도를 갖는 사진들을 추출하여 상기 사용자 질의에 대한 사진 검색 결과로 제공하는 단계를 포함하는 것인, 사용자 단말에서의 사진 검색 방법.
제 1 항에 있어서,
상기 a) 단계는,
a-1) 상기 질의 단어 벡터와 상기 토픽 분류 트리의 카테고리들에 대한 병합 센트로이드 벡터들 간의 유사도를 하기 수학식1을 이용하여 계산하는 단계; 및
a-2) 상기 계산된 유사도 중 상위 k개의 카테고리를 선별하고, 상기 상위 k개의 카테고리 중 상기 유사도가 기설정된 임계치 이상을 갖는 상위 카테고리들을 질의 시맨틱 토픽으로 추출하는 단계를 포함하는 것인, 사용자 단말에서의 사진 검색 방법.
[수학식 1]

u: 질의 단어 벡터
c: 카테고리의 병합 센트로이드 벡터
V: 전체 단어의 집합
제 2 항에 있어서,
상기 a-1) 단계는,
상기 병합 센트로이드 벡터는 최하위 카테고리로부터 해당 카테고리가 갖는 센트로이드 벡터와 자식 카테고리의 병합 센트로이드 벡터를 합산하여 산출하되,
상기 자식 카테고리가 없는 경우 해당 카테고리의 센트로이드 벡터를 병합 센트로이드 벡터로 사용하는 것인, 사용자 단말에서의 사진 검색 방법.
제 1 항에 있어서,
상기 b) 단계는,
b-1) 경량 딥러닝 알고리즘을 사용하여 학습된 분류 모델에 기초하여 상기 사진 저장소의 각 사진에 대한 이미지 분석을 통해 하나 이상의 객체를 인식하고, 상기 인식된 객체가 기정의된 카테고리들에 소속될 가능성을 각 카테고리의 분류 확률로 계산하고, 상기 계산된 분류 확률이 기설정된 기준값 이상을 가지는 상위 카테고리들을 객체 정보로 제공하는 단계; 및
b-2) 상기 사진 저장소의 각 사진에 저장된 GPS 데이터를 이용하여 각 사진이 촬영된 장소명을 포함한 위치 정보를 추출하는 단계; 및
b-3) 상기 객체 정보와 위치 정보를 단어 벡터로 각각 변환하고, 각 단어 벡터를 합산하여 통합 단어 벡터를 산출하는 단계를 포함하는 것인, 사용자 단말에서의 사진 검색 방법.
제 4 항에 있어서,
상기 경량 딥러닝 알고리즘을 사용하여 학습된 분류 모델은 ILSVRC(ImageNet Large Scale Visual Recognition Competition)의 데이터세트에 기초하여 학습된 채널 단위 합성곱(Depthwise Convolution)과 점별 합성곱(Pointwise Convolution)을 이용한 합성곱 필터 구조를 사용하는 것인, 사용자 단말에서의 사진 검색 방법.
제 4 항에 있어서,
상기 b-2) 단계는 상기 GPS 데이터를 이용하는 위치 기반 서비스의 응용 프로그래밍 인터페이스(Application Programming Interfaces, API)를 통해 각 사진이 촬영된 장소명을 검색하는 것인, 사용자 단말에서의 사진 검색 방법.
제 1 항에 있어서,
상기 b) 단계는
상기 통합 단어 벡터와 토픽 분류 트리의 카테고리들에 대한 병합 센트로이드 벡터들 간의 유사도를 하기 수학식 2를 이용하여 계산하는 단계; 및
상기 계산된 유사도 중 상위 k개의 카테고리를 선별하고, 상기 상위 k개의 카테고리 중 기설정된 임계치 이상의 유사도를 가지는 상위 카테고리들을 사진 시맨틱 토픽으로 추출하는 단계를 더 포함하는 것인, 사용자 단말에서의 사진 검색 방법.
[수학식 2]

u: 질의 단어 벡터
c: 카테고리의 병합 센트로이드 벡터
V: 전체 단어의 집합
제 1 항에 있어서,
상기 c) 단계는,
상기 주제적 유사도는 하기 수학식 3을 이용한 그래프 기반 유사도 기법으로 계산하는 것인, 사용자 단말에서의 사진 검색 방법.
[수학식3]

C: 코사인 유사도 값이 가장 높은 k개의 질의 시맨틱 토픽 집합,
P: 코사인 유사도가 가장 높은 k개의 사진 시맨틱 토픽 집합
wPPR: 가중 개인화된 페이지랭크(weighted Personalized Page Rank) 함수
cw: 유사도 값을 출력하는 함수
제 1 항에 있어서,
상기 b) 단계는,
상기 추출된 사진 시맨틱 토픽을 상기 사진 저장소에 저장하고, 다음 사용자 질의가 입력되면 상기 사진 저장소에 저장된 사진 시맨틱 토픽을 재사용하는 것인, 사용자 단말에서의 사진 검색 방법.
제 1 항에 있어서,
상기 c) 단계는,
상기 단어벡터의 가중치를 고려하여 개인화된 랭킹을 구하는 페이지 랭크 알고리즘을 이용하여 상위의 주제적 유사도를 갖는 사진들을 순위화하여 정렬하는 것인, 사용자 단말에서의 사진 검색 방법.
사용자 의도에 따른 사진 검색 결과를 제공하기 위한 사진 검색 시스템에 있어서,
사용자 단말에서의 사진 검색 방법을 수행하기 위한 프로그램이 기록된 메모리; 및
상기 프로그램을 실행하기 위한 프로세서; 를 포함하며,
상기 프로세서는, 상기 프로그램의 실행에 의해,
사용자 질의가 입력되면 해당 사용자 질의를 질의 단어 벡터로 변환하고, 상기 질의 단어 벡터를 오픈 디렉토리 프로젝트(Open Directory Project, ODP)에 기초하여 기정의된 토픽 분류 트리에 적용하여 질의 시맨틱 토픽을 추출하고,
하나 이상의 사진이 저장된 사진 저장소의 각 사진에 대해 객체 정보와 위치 정보를 분석하고, 상기 분석된 객체 정보와 위치 정보로부터 단어 벡터들을 추출하며, 상기 추출된 단어벡터들을 통합하여 통합 단어 벡터를 산출하고, 상기 통합 단어 벡터를 상기 토픽 분류 트리에 적용하여 사진 시맨틱 토픽을 추출하고,
상기 질의 시맨틱 토픽과 사진 시맨틱 토픽 간의 주제 분석을 통해 주제적 유사도를 계산하고, 상기 계산된 주제적 유사도 중 상위의 주제적 유사도를 갖는 사진들을 추출하여 상기 사용자 질의에 대한 사진 검색 결과로 제공하는 것인, 사용자 단말에서의 사진 검색 시스템.
제 1 항에 따른 사용자 단말에서의 사진 검색 방법을 수행하는 프로그램이 기록된 컴퓨터 판독가능 기록매체.