KR20160085004A - 중복 이미지 파일 검색 방법 및 장치 - Google Patents

중복 이미지 파일 검색 방법 및 장치 Download PDF

Info

Publication number
KR20160085004A
KR20160085004A KR1020150001810A KR20150001810A KR20160085004A KR 20160085004 A KR20160085004 A KR 20160085004A KR 1020150001810 A KR1020150001810 A KR 1020150001810A KR 20150001810 A KR20150001810 A KR 20150001810A KR 20160085004 A KR20160085004 A KR 20160085004A
Authority
KR
South Korea
Prior art keywords
image file
file
image
duplicate
files
Prior art date
Application number
KR1020150001810A
Other languages
English (en)
Other versions
KR102260631B1 (ko
Inventor
김지호
차준호
정재호
Original Assignee
한화테크윈 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한화테크윈 주식회사 filed Critical 한화테크윈 주식회사
Priority to KR1020150001810A priority Critical patent/KR102260631B1/ko
Publication of KR20160085004A publication Critical patent/KR20160085004A/ko
Application granted granted Critical
Publication of KR102260631B1 publication Critical patent/KR102260631B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F17/30244

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명의 일 실시예에 따른 중복 이미지 파일 검색 방법은 데이터베이스 내에 존재하는 각각의 이미지 파일에서 특징점들을 추출하고 동일한 이미지 파일에서 추출된 특징점들 간의 유클리드 거리(Euclidean Distance)를 산출하는 단계; 상기 특징점들의 개수와 상기 유클리드 거리를 이용하여 각각의 이미지 파일을 비교하여 중복되는 파일을 파악하는 단계; 및 상기 중복 파일로 파악된 이미지 파일에 대해서 추후 상기 이미지 파일 비교에서 제외하는 단계를 포함할 수 있다.

Description

중복 이미지 파일 검색 방법 및 장치{Duplication Image File Searching Method and Apparatus}
본 발명은 중복 이미지 파일 검색 방법 및 장치에 관한 것이다. 보다 자세하게는, 대량의 이미지 파일 중에서 중복되는 이미지 파일을 고속으로 검색하기 위한 중복 이미지 파일 검색 방법 및 장치에 관한 것이다.
기계 학습(Machine Learning) 기술은 인공 지능의 한 분야로 컴퓨터가 학습할 수 있도록 한다. 예를 들면, 기계 학습 기술은 수신한 이메일이 스팸인지 아닌지를 구분할 수 있도록 훈련할 수 있다.
기계 학습에 이용되는 대량의 데이터들에 중복되는 데이터가 많게 되면 기계 학습을 통한 결과의 신뢰성이 낮아질 수 있다.
효과적인 신뢰성 높은 기계 학습을 위해서뿐만 아니라 효율적인 데이터베이스 관리 등을 위하여 중복되는 파일을 검색하고 제거하는 기술이 필요하다.
특히, 대용량의 파일을 고속으로 비교하여 중복되는 파일을 검색하고 제거하는 기술이 필요하다.
본 발명이 해결하고자 하는 기술적 과제는 대용량의 파일을 빠른 속도로 비교하여 중복 파일을 검색할 수 있는 중복 이미지 파일 검색 방법 및 장치를 제공하는 것을 목적으로 한다.
특히, 본 발명이 해결하고자 하는 다른 기술적 과제는 대용량의 이미지 파일을 빠른 속도로 비교하여 중복 이미지 파일을 검색할 수 있는 중복 이미지 파일 검색 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해 될 수 있을 것이다.
상기 기술적 과제를 달성하기 위한 본 발명의 제1 태양(Aspect)에 따른 중복 이미지 파일 검색 방법은 데이터베이스 내에 존재하는 각각의 이미지 파일에서 특징점들을 추출하고 동일한 이미지 파일에서 추출된 특징점들 간의 유클리드 거리(Euclidean Distance)를 산출하는 단계; 상기 특징점들의 개수와 상기 유클리드 거리를 이용하여 각각의 이미지 파일을 비교하여 중복되는 파일을 파악하는 단계; 및 상기 중복 파일로 파악된 이미지 파일에 대해서 추후 상기 이미지 파일 비교에서 제외하는 단계를 포함할 수 있다.
일 실시예에 따르면, 상기 산출하는 단계는, 상기 각각의 이미지 파일에서 코너(Corner)들을 추출하고 상기 추출된 코너들 간의 유클리드 거리를 산출하는 단계를 포함할 수 있다.
일 실시예에 따르면, 상기 산출하는 단계는, 상기 추출된 특징점과 인접한 픽셀들을 포함한 픽셀 그룹을 각각의 특징점 별로 생성하고, 상기 픽셀 그룹들 간의 유클리드 거리를 산출하는 단계를 포함할 수 있다.
상기 이미지 파일은 제1 이미지 파일, 제2 이미지 파일 및 제3 이미지 파일을 포함하며, 상기 중복되는 파일을 파악하는 단계는, 상기 제1 이미지 파일과 중복되는 파일을 파악하기 위하여 상기 제1 이미지 파일을 제2 이미지 파일 및 제3 이미지 파일을 포함한 다른 이미지 파일들과 비교하여 중복되는 파일을 파악하는 제1 단계; 및 상기 제1 단계가 수행된 후 상기 제2 이미지 파일과 중복되는 파일을 파악하기 위하여 상기 제3 이미지 파일을 포함한 상기 다른 이미지 파일들과 비교를 수행하되, 상기 제1 이미지 파일과는 비교를 수행하지 않고 중복되는 파일을 파악하는 제2 단계를 포함할 수 있다.
상기 기술적 과제를 달성하기 위한 본 발명의 제1 태양(Aspect)에 따른 중복 이미지 파일 검색 장치는 데이터베이스 내에 존재하는 각각의 이미지 파일에서 특징점들을 추출하고 동일한 이미지 파일에서 추출된 특징점들 간의 유클리드 거리(Euclidean Distance)를 산출하는 이미지 파일 분석부; 및 상기 특징점들의 개수와 상기 유클리드 거리를 이용하여 각각의 이미지 파일을 비교하여 중복되는 파일을 파악하는 중복 파일 파악부를 포함하되, 상기 중복 파일 파악부는, 상기 중복 파일로 파악된 이미지 파일에 대해서 추후 상기 이미지 파일 비교에서 제외하는, 중복 이미지 파일 검색 장치.
상기와 같은 본 발명에 따르면, 대용량의 파일을 빠른 속도로 비교하여 중복 파일을 검색할 수 있다.
특히, 본 발명에 따르면, 대용량의 이미지 파일을 빠른 속도로 비교하여 중복 이미지 파일을 검색할 수 있다.
또한, 본 발명에 따르면 검색된 중복 이미지를 제거하여 기계 학습(Machine Learning)의 효과 및 신뢰성을 증대시킬 수 있다.
또한, 본 발명에 따르면 데이터베이스 내에 저장된 중복 이미지 파일을 검색 및/또는 제거하여 데이터베이스를 효과적으로 관리할 수 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 중복 이미지 파일 검색 장치에 관한 블록도이다.
도 2는 본 발명의 다른 실시예에 따른 중복 이미지 파일 검색 장치의 하드웨어 구성도이다.
도 3은 본 발명의 또 다른 실시예에 따른 중복 이미지 파일 검색 방법에 관한 순서도이다.
도 4는 중복 이미지 파악 단계(S300)의 일 예를 나타내는 도면이다.
도 5는 도 3 내지 4를 참조하여 설명한 본 발명의 또 다른 실시예에 따른 중복 이미지 파일 검색 방법의 적용 예에 관하여 설명한 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함될 수 있다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
도 1은 본 발명의 일 실시예에 따른 중복 이미지 파일 검색 장치에 관한 블록도이다.
도 1을 참조하면, 중복 이미지 파일 검색 장치(100)는 이미지 파일 분석부(110) 및 중복 파일 파악부(120)를 포함하며, 중복 파일 제거부(130)를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 중복 이미지 파일 검색 장치(100)는 데이터 베이스(200) 내에 저장된 대량의 이미지 파일에서 서로 중복되는 파일을 고속으로 검색하는데 효과적으로 적용될 수 있다.
이미지 파일 분석부(110)는 각각의 이미지 파일에서 특징점들을 추출한다.
이미지 파일 분석부(110)는 추출된 특징점들 간의 유클리드 거리(Euclidean Distance)를 산출할 수 있다.
구체적으로, 이미지 파일 분석부(110)는 특정 이미지 파일에서 추출된 특징점들 간의 유클리드 거리를 산출할 수 있다. 예를 들면, 이미지 파일 분석부(110)는 제1 이미지 파일에서 추출된 제1 내지 제5 특징점들 간의 유클리드 거리를 산출할 수 있다. 또는, 이미지 파일 분석부(110)는 제1 이미지 파일에서 추출된 제1 내지 제5 특징점들이 서로 가장 가까운 위치에 존재하는 특징점들 간의 유클리드 거리를 산출할 수도 있다.
이미지 파일 분석부(110)가 추출하는 특징점은 각각의 이미지 파일에서 코너(Corner)에 해당하는 점일 수 있다.
이미지 파일 분석부(110)가 코너를 추출하는 방법은 해리스 코너(Harris Corner) 검출 기법과 같은 공지된 코너 검출 기법을 이용하여 코너를 추출할 수 있다.
중복 파일 파악부(120)는 이미지 파일 분석부(110)에 의하여 분석된 각각의 이미지 파일의 특징점들 개수와 유클리드 거리를 이용하여 각각의 이미지 파일을 비교하여 중복되는 파일을 파악한다.
중복 파일 파악부(120)는 특징점들 개수 또는 유클리드 거리 중 어느 하나만을 이용하여 각각의 이미지 파일을 비교하여 중복되는 파일을 파악할 수도 있으나 정확도 향상을 위하여 특징점들 개수와 유클리드 거리를 모두 이용할 수 있다.
또한, 중복 파일 파악부(120)는 특징점들의 정보를 모두 이용하기보다는 특징점들 개수와 유클리드 거리를 이용하여 대량의 이미지 파일에서 중복되는 파일을 신속하게 파악할 수 있다.
또한, 중복 파일 파악부(120)는 이미지 파일을 1대 1로 매칭 비교하여 중복 여부를 파악한다.
이 과정에서 중복 파일 파악부(120)는 대량의 이미지 파일에서 중복되는 파일을 신속하게 파악하기 위하여 중복 파일로 파악된 이미지 파일은 추후 이미지 파일 비교에서 제외할 수 있다. 또한, 중복 파일 파악부(120)는 A 이미지 파일과 B 이미지 파일을 비교한 경우에는 추후 B 이미지 파일과 A 이미지 파일을 비교하는 과정을 생략할 수 있다. 이에 관해서는 도 3 내지 5를 참조하여 보다 상세하게 설명한다.
중복 파일 제거부(130)는 중복 파일 파악부(120)에 의하여 파악된 중복 파일 중 하나를 제외하고 삭제할 수 있다.
즉, 중복 파일 제거부(130)는 데이터 베이스(200)에 저장된 이미지 파일 중 중복되는 파일을 삭제할 수 있다.
또는, 중복 파일 제거부(130)는 파악된 중복 파일에 관한 정보를 디스플레이 장치(300)를 통하여 사용자에게 제공할 수도 있다.
중복 파일에 관한 정보는 중복 파일의 명칭, 확장자 명, 생성 날짜 등을 포함할 수 있다.
도 2는 본 발명의 다른 실시예에 따른 중복 이미지 파일 검색 장치(100)의 하드웨어 구성도이다.
본 실시예에 따른 중복 이미지 파일 검색 장치(100)는 도 2의 구성을 가질 수 있다.
도 2에 도시된 바와 같이, 중복 이미지 파일 검색 장치(100)는 중복 이미지 파일 검색 프로세서(10), 스토리지(20), 메모리(30) 및 네트워크 인터페이스(40)를 포함할 수 있다.
또한, 중복 이미지 파일 검색 장치(100)는 중복 이미지 파일 검색 프로세서(10) 및 메모리(30)와 연결되어 데이터 이동 통로가 되는 시스템 버스(50)를 포함할 수 있다.
네트워크 인터페이스(40)에는 다른 컴퓨팅 장치가 연결 될 수 있다. 예를 들면, 네트워크 인터페이스(40)에 연결되는 다른 컴퓨팅 장치는 디스플레이 장치(300), 사용자 단말, 데이터 베이스(200) 등이 될 수 있다.
네트워크 인터페이스(40)는 이더넷, FireWire, USB 등이 될 수 있다.
스토리지(20)는 플래쉬 메모리(Flash memory)와 같은 비휘발성 메모리 소자, 하드 디스크 등으로 구현될 수 있으나 이에 한정되지는 않는다.
스토리지(20)는 중복 이미지 파일 검색용 컴퓨터 프로그램(21)의 데이터를 저장한다. 중복 이미지 파일 검색용 컴퓨터 프로그램(21)의 데이터는 바이너리 실행 파일 및 기타 리소스 파일을 포함할 수 있다.
메모리(30)는 중복 이미지 파일 검색용 컴퓨터 프로그램(21)를 로딩한다. 중복 이미지 파일 검색용 컴퓨터 프로그램(21)은 중복 이미지 파일 검색 프로세서(10)에 제공 되고, 중복 이미지 파일 검색 프로세서(10)에 의하여 실행 된다.
중복 이미지 파일 검색 프로세서(10)는 중복 이미지 파일 검색용 컴퓨터 프로그램(21)을 실행할 수 있는 프로세서이다. 다만, 중복 이미지 파일 검색 프로세서(10)는 중복 이미지 파일 검색용 컴퓨터 프로그램(21)만을 실행할 수 있는 프로세서는 아닐 수 있다. 예를 들면, 중복 이미지 파일 검색 프로세서(10)는 중복 이미지 파일 검색용 컴퓨터 프로그램(21) 외에 다른 프로그램을 실행할 수도 있다.
중복 이미지 파일 검색용 컴퓨터 프로그램(21)은 데이터 베이스(200) 내에 존재하는 각각의 이미지 파일에서 특징점들을 추출하고 동일한 이미지 파일에서 추출된 특징점들 간의 유클리드 거리(Euclidean Distance)를 산출하는 과정, 상기 특징점들의 개수와 상기 유클리드 거리를 이용하여 각각의 이미지 파일을 비교하여 중복되는 파일을 파악하는 과정을 수행하는 일련의 오퍼레이션을 포함할 수 있다.
또한, 중복 이미지 파일 검색용 컴퓨터 프로그램(21)은 중복 파일로 파악된 이미지 파일에 대해서 추후 상기 이미지 파일 비교에서 제외하는 과정을 수행하는 오퍼레이션을 더 포함할 수 있다.
이하, 도 3 내지 5를 참조하여 본 발명의 다른 실시예에 따른 중복 이미지 파일 검색 방법을 설명한다. 본 실시예는 연산 수단을 구비한 컴퓨팅 장치에 의하여 수행 될 수 있다.
상기 컴퓨팅 장치는, 예를 들어 본 발명의 일 실시예에 따른 중복 이미지 파일 검색 장치(100)일 수 있다. 상기 중복 이미지 파일 검색 장치(100)의 구성 및 동작에 대하여는 도 1 및 도 2를 참조하여 설명한 내용을 통해 이해할 수 있다.
또한 다른 예를 들면, 상기 컴퓨팅 장치는 전자 장치를 포함하거나 전자 장치의 일부로서 구현될 수 있다. 전자 장치의 예들은 모바일 장치, PDA(personal digital assistant), 모바일 컴퓨팅 장치, 스마트폰, 휴대 전화, 퍼스널 컴퓨터(PC), 데스크톱 컴퓨터, 랩톱 컴퓨터, 노트북 컴퓨터, 핸드헬드 컴퓨터, 태블릿 컴퓨터, 서버, 서버 어레이 또는 서버 팜, 웹 서버, 네트워크 서버, 인터넷 서버, 워크스테이션, 미니-컴퓨터, 메인 프레임 컴퓨터, 슈퍼컴퓨터, 네트워크 가전 기기, 웹 가전 기기, 분산형 컴퓨팅 시스템, 멀티프로세서 시스템, 프로세서 기반 시스템, 소비자 전자 기기, 프로그래머블 소비자 전자 기기, 텔레비전, 디지털 텔레비전, 기지국, 가입자국, 모바일 가입자 센터, 무선 네트워크 컨트롤러, 허브, 스위치, 머신, 또는 이들의 조합을 포함할 수 있다. 실시예들은 이에 관련하여 제한되지 않는다.
상기 전자 장치를 포함하거나 전자 장치의 일부로서 구현될 수 있는 컴퓨팅 장치는 중복 이미지 파일 검색 장치(100)는 중복 이미지 파일 검색 프로세서(10), 스토리지(20), 메모리(30) 및 네트워크 인터페이스(40)를 포함할 수 있다.
유사하게, 도면에서 동작들이 특정한 순서로 도시되어 있지만, 원하는 결과를 얻기 위해서 그러한 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시된 동작들이 실행되어야만 하는 것으로 이해되어서는 안된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다.
도 3은 본 발명의 또 다른 실시예에 따른 중복 이미지 파일 검색 방법에 관한 순서도이다.
도 3을 참조하면, 컴퓨팅 장치가 각각의 이미지 파일에서 특징점을 추출한다(S100).
예를 들면, 컴퓨팅 장치가 데이터 베이스(200) 내에 존재하는 이미지 파일 각각에서 특징점들을 추출한다. 컴퓨팅 장치가 추출하는 특징점은 각각의 이미지 파일에서 코너(Corner)에 해당하는 점들일 수 있다.
구체적으로 예를 들면, 컴퓨팅 장치는 제1 이미지 파일에서 기 설정된 기법(예를 들면, 해리스 코너 검출 기법 등)을 이용하여 제1 이미지에 존재하는 코너들을 추출할 수 있다. 컴퓨팅 장치는 제1 이미지에서 코너들을 추출하기 전 전처리 과정으로 배경과 전경을 분리하고 전경에 해당하는 대상체의 코너들을 추출할 수도 있다.
컴퓨팅 장치는 제1 이미지 파일 뿐만 아니라 제2 이미지 파일, 제3 이미지 파일 등 데이터 베이스(200) 내에 존재하는 이미지 파일 각각에서 특징점들을 추출할 수 있다.
컴퓨팅 장치는 추출된 특징점들을 이용해서 유클리드 거리를 산출할 수 있다(S200).
예를 들면, 컴퓨팅 장치는 각각의 이미지 파일에서 추출된 코너들을 이용하여 유클리드 거리를 산출할 수 있다.
구체적으로 예를 들면, 컴퓨팅 장치는 제1 이미지 파일에서 추출된 5개의 코너들을 이용하여 유클리드 거리를 산출할 수 있다. 또한, 컴퓨팅 장치는 제2 이미지 파일에서 추출된 7개의 코너들을 이용하여 유클리드 거리를 산출할 수 있다.
컴퓨팅 장치는 특징점들의 개수 및 유클리드 거리를 이용해서 서로 중복되는 이미지 파일을 파악할 수 있다(S300).
즉, 컴퓨팅 장치는 각각의 이미지 파일의 특정점들의 개수(예를 들면, 코너들의 개수) 및 유클리드 거리라는 단순하게 수치화된 정보를 이용하여 두 이미지 파일을 비교하여 중복 이미지 파일을 파악할 수 있다.
본 발명의 또 다른 실시예에 따른 중복 이미지 파일 검색 방법은 이와 같이 단순하게 수치화된 정보를 이용하여 중복 이미지를 파악함으로써 데이터 베이스(200)에 저장된 대량의 이미지 파일을 신속하고 정확하게 비교할 수 있다.
또한, 본 발명의 또 다른 실시예에 따른 중복 이미지 파일 검색 방법은 대량의 이미지 파일을 신속하게 비교하기 위하여 추가적인 알고리즘을 가질 수 있다.
추가적인 알고리즘에 관하여 도 4를 참조하여 설명한다.
도 4는 중복 이미지 파악 단계(S300)의 일 예를 나타내는 도면이다.
도 4를 참조하면, 컴퓨팅 장치는 서로 다른 이미지 파일을 1대 1로 매칭하여 동일한 이미지 파일인지 여부를 비교한다(S310).
컴퓨팅 장치는 서로 다른 이미지 파일을 1대 1로 비교하는 과정에서 비교한 이미지 파일의 경로, 파일명 및 확장자를 메모리 또는 버퍼에 저장할 수 있다(S320).
컴퓨팅 장치는 서로 다른 이미지 파일을 1대 1로 비교하는 과정에서 이미 비교한 이미지 파일은 역순서를 고려하여 비교 대상에서 제외한다(S330).
컴퓨팅 장치는 메모리 또는 버퍼에 저장된 비교한 이미지 파일의 경로, 파일명 및 확장자에 관한 정보를 이용하여 역순서를 고려하여 비교 대상에서 제외할 수 있다.
구체적으로 제1 이미지 파일 중복되는 이미지 파일을 파악하기 위하여 제2 이미지 파일 및 제3 이미지 파일과 각각 비교한 경우를 예로 든다. 각각 비교한 이후 제2 이미지 파일과 중복되는 이미지 파일을 파악하기 위하여 1대 1로 다른 이미지 파일과 비교하는 과정에서 제1 이미지 파일과는 이미 비교를 수행한 바 컴퓨팅 장치는 제1 이미지 파일은 비교 대상에서 제외한다. 따라서, 컴퓨팅 장치는 제2 이미지 파일과 제3 이미지 파일 간 중복 여부를 비교한다.
컴퓨팅 장치는 제2 이미지 파일과 다른 이미지 파일 간 중복 여부를 비교한 이후 제3 이미지 파일과 중복되는 이미지 파일을 파악하기 위하여 1대 1로 다른 이미지 파일과 비교하는 과정에서 제1 이미지 파일 및 제2 이미지 파일과는 이미 1대 1로 비교를 수행한 바 비교 대상에서 제외할 수 있다.
또한, 컴퓨팅 장치는 서로 다른 이미지 파일 간 1대 1 비교 과정에서 특정 이미지 파일과 중복된 이미지 파일로 파악된 파일에 관한 정보는 메모리 또는 버퍼에 저장할 수 있다(S340).
중복된 이미지 파일로 파악된 파일에 관한 정보는 파일명, 파일 경로 및 확장자 등을 포함할 수 있다.
컴퓨팅 장치는 중복 판정된 파일은 비교 대상에서 제외할 수 있다(S350).
즉, 제1 이미지 파일과 제3 이미지 파일이 중복된 이미지 파일로 파악된 경우, 컴퓨팅 장치는 추후 제3 이미지 파일에 대해서는 1대 1로 추가적인 비교를 수행하지 않을 수 있다.
컴퓨팅 장치는 중복된 이미지 파일은 삭제하거나 디스플레이 장치(300)를 통하여 사용자에게 정보를 제공할 수 있다(S360).
사용자에게 제공하는 정보는 중복된 파일의 파일명, 경로, 확장자, 파일 크기 등이 될 수 있다.
도 4를 참조하여 설명한 본 발명의 또 다른 실시예에 따른 중복 이미지 파일 검색 방법의 순서도는 반드시 도시된 순서대로 동작하는 것은 아닐 수 있다. 서로 다른 이미지 파일 간 1대 1 매칭 비교가 되는 동안(S310), S320 내지 S350 단계가 수행될 수 있다. S320 및 S330은 파일 간 1대 1 매칭 비교가 수행되는 동안 지속적으로 수행될 수 있으며, S340 단계 내지 S350 단계는 중복 판정된 이미지 파일이 발생할 때 마다 수행될 수 있다.
도 5는 도 3 내지 4를 참조하여 설명한 본 발명의 또 다른 실시예에 따른 중복 이미지 파일 검색 방법의 적용 예에 관하여 설명한 도면이다.
구체적으로 도 5를 참조하여 도 3 내지 4를 참조하여 설명한 본 발명의 또 다른 실시예에 따른 중복 이미지 파일 검색 방법의 적용 예에 관하여 설명한다.
데이터 베이스(200)에 bmp 확장자를 가진 이미지 파일이 Example 1.bmp 부터 Example 6.bmp이 존재한다고 가정한다.
컴퓨팅 장치가 Example 1.bmp과 다른 이미지 파일을 1대 1로 비교하여 중복 여부를 파악한다(510).
파악 결과 Example 1.bmp과 중복되는 이미지 파일은 Example 4.bmp인 것으로 판단되었다.
따라서, 컴퓨팅 장치는 Example 1.bmp과 1대 1로 비교된 이미지 파일의 경로, 파일명 및 확장자 등에 관한 정보와 중복되는 이미지 파일(Example 4.bmp)에 관한 정보를 메모리 또는 버퍼에 저장한다.
컴퓨팅 장치는 Example 2.bmp과 다른 이미지 파일을 1대 1로 비교하여 중복 여부를 파악한다(520).
컴퓨팅 장치는 메모리 또는 버퍼에 저장된 정보를 이용하여 이미 Example 2.bmp과 비교된 Example 1.bmp과는 비교를 수행하지 않는다. 또한, 이미 중복된 이미지 파일로 파악된 Example 4.bmp과도 비교를 수행하지 않는다.
이를 통하여 컴퓨팅 장치는 Example 2.bmp과 5번의 1대 1 비교를 수행하지 않고 3번의 비교만으로도 Example 2.bmp과 중복되는 이미지 파일을 파악할 수 있다.
컴퓨팅 장치는 Example 2.bmp과 1대 1로 비교된 이미지 파일의 경로, 파일명 및 확장자 등에 관한 정보와 중복되는 이미지 파일(Example 3.bmp)에 관한 정보를 메모리 또는 버퍼에 저장한다.
컴퓨팅 장치는 메모리 또는 버퍼에 저장된 정보를 이용하여 이미 중복된 이미지 파일로 파악된 Example 3.bmp은 다른 이미지 파일과 비교를 수행하지 않는다(530).
또한, 컴퓨팅 장치는 메모리 또는 버퍼에 저장된 정보를 이용하여 이미 중복된 이미지 파일로 파악된 Example 4.bmp도 다른 이미지 파일과 비교를 수행하지 않는다(540).
컴퓨팅 장치는 Example 5.bmp과 다른 이미지 파일을 1대 1로 비교하여 중복 여부를 파악한다(550).
컴퓨팅 장치는 메모리 또는 버퍼에 저장된 정보를 이용하여 이미 Example 5.bmp과 비교된 Example 1.bmp 및 Example 2.bmp 와는 비교를 수행하지 않는다. 또한, 이미 중복된 이미지 파일로 파악된 Example 3.bmp 및 Example 4.bmp과도 비교를 수행하지 않는다. 따라서, 컴퓨팅 장치는 Example 5.bmp과 중복된 파일이 존재하는지 파악하기 위하여 Example 6.bmp과의 1대 1 비교만을 수행하면 된다.
컴퓨팅 장치는 Example 6.bmp과 다른 이미지 파일을 1대 1로 비교하여 중복 여부를 파악할 수 있다.
그러나, 다른 5개의 이미지 파일 중에서 3개는 이미 Example 6.bmp과 1대 1 비교를 수행하였으며, 나머지 2개의 이미지 파일은 이미 중복된 이미지 파일로 파악된 파일이다. 따라서, 컴퓨팅 장치는 Example 6.bmp과 다른 이미지 파일을 1대 1로 비교를 수행하지 않는다(560).
이를 기존 알고리즘에 따라서 1대 1로 중복 여부를 비교하면 총 25번의 비교가 필요하다. 그러나, 본 발명의 또 다른 중복 이미지 파일 검색 방법을 이용하면 비교 횟수를 감소시킬 수 있다. 또한, 특징점의 개수 및 유클리드 거리에 관한 정보를 이용하여 이미지 파일 간 비교를 수행함으로써 신속하게 비교를 수행할 수 있다.
이러한 본 발명의 또 다른 중복 이미지 파일 검색 방법은 비교해야 하는 이미지 파일의 개수가 많을수록 기존 알고리즘 대비 효과가 증대한다.
따라서, 본 발명의 또 다른 중복 이미지 파일 검색 방법은 데이터 베이스(200) 등과 같이 대량의 이미지 파일과 같이 대량의 이미지 파일 간 중복 여부를 파악하는데 특히 더 유용하게 이용될 수 있다.
지금까지 도 3 내지 도 5를 참조하여 설명된 본 발명의 실시예들에 따른 본 발명의 또 다른 중복 이미지 파일 검색 방법은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현된 컴퓨터 프로그램의 실행에 의하여 수행될 수 있다. 상기 컴퓨터가 읽을 수 있는 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록 된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 제1 컴퓨팅 장치로부터 제2 컴퓨팅 장치에 전송되어 상기 제2 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 제2 컴퓨팅 장치에서 사용될 수 있다. 상기 제1 컴퓨팅 장치 및 상기 제2 컴퓨팅 장치는, 서버 장치, 데스크탑 피씨와 같은 고정식 컴퓨팅 장치, 노트북, 스마트폰, 태블릿 피씨와 같은 모바일 컴퓨팅 장치 및 스마트 와치, 스마트 안경과 같은 웨어러블 컴퓨팅 장치를 모두 포함한다.
유사하게, 도면에서 동작들이 특정한 순서로 도시되어 있지만, 원하는 결과를 얻기 위해서 그러한 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시된 동작들이 실행되어야만 하는 것으로 이해되어서는 안된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지될 수 있음을 이해하여야 한다.
지금까지 도 1, 2의 각 구성요소는 소프트웨어(software) 또는, FPGA(field-programmable gate array)나 ASIC(application-specific integrated circuit)과 같은 하드웨어(hardware)를 의미할 수 있다. 그렇지만 상기 구성요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 상기 구성요소들 안에서 제공되는 기능은 더 세분화된 구성요소에 의하여 구현될 수 있으며, 복수의 구성요소들을 합하여 특정한 기능을 수행하는 하나의 구성요소로 구현할 수도 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims (6)

  1. 데이터베이스 내에 존재하는 각각의 이미지 파일에서 특징점들을 추출하고 동일한 이미지 파일에서 추출된 특징점들 간의 유클리드 거리(Euclidean Distance)를 산출하는 단계;
    상기 특징점들의 개수와 상기 유클리드 거리를 이용하여 각각의 이미지 파일을 비교하여 중복되는 파일을 파악하는 단계; 및
    상기 중복 파일로 파악된 이미지 파일에 대해서 추후 상기 이미지 파일 비교에서 제외하는 단계를 포함하는, 중복 이미지 파일 검색 방법.
  2. 제1 항에 있어서,
    상기 산출하는 단계는,
    상기 각각의 이미지 파일에서 코너(Corner)들을 추출하고 상기 추출된 코너들 간의 유클리드 거리를 산출하는 단계를 포함하는, 중복 이미지 파일 검색 방법.
  3. 제1 항에 있어서,
    상기 산출하는 단계는,
    상기 추출된 특징점과 인접한 픽셀들을 포함한 픽셀 그룹을 각각의 특징점 별로 생성하고, 상기 픽셀 그룹들 간의 유클리드 거리를 산출하는 단계를 포함하는, 중복 이미지 파일 검색 방법.
  4. 제1 항에 있어서,
    상기 이미지 파일은 제1 이미지 파일, 제2 이미지 파일 및 제3 이미지 파일을 포함하며,
    상기 중복되는 파일을 파악하는 단계는,
    상기 제1 이미지 파일과 중복되는 파일을 파악하기 위하여 상기 제1 이미지 파일을 제2 이미지 파일 및 제3 이미지 파일을 포함한 다른 이미지 파일들과 비교하여 중복되는 파일을 파악하는 제1 단계; 및
    상기 제1 단계가 수행된 후 상기 제2 이미지 파일과 중복되는 파일을 파악하기 위하여 상기 제3 이미지 파일을 포함한 상기 다른 이미지 파일들과 비교를 수행하되, 상기 제1 이미지 파일과는 비교를 수행하지 않고 중복되는 파일을 파악하는 제2 단계를 포함하는, 중복 이미지 파일 검색 방법.
  5. 데이터베이스 내에 존재하는 각각의 이미지 파일에서 특징점들을 추출하고 동일한 이미지 파일에서 추출된 특징점들 간의 유클리드 거리(Euclidean Distance)를 산출하는 이미지 파일 분석부; 및
    상기 특징점들의 개수와 상기 유클리드 거리를 이용하여 각각의 이미지 파일을 비교하여 중복되는 파일을 파악하는 중복 파일 파악부를 포함하되,
    상기 중복 파일 파악부는,
    상기 중복 파일로 파악된 이미지 파일에 대해서 추후 상기 이미지 파일 비교에서 제외하는, 중복 이미지 파일 검색 장치.
  6. 제5 항에 있어서,
    상기 이미지 파일은 제1 이미지 파일, 제2 이미지 파일 및 제3 이미지 파일을 포함하며,
    상기 중복 파일 파악부는,
    상기 제1 이미지 파일과 중복되는 파일을 파악하기 위하여 상기 제1 이미지 파일을 제2 이미지 파일 및 제3 이미지 파일을 포함한 다른 이미지 파일들과 비교하여 중복되는 파일을 파악하고,
    상기 제1 단계가 수행된 후 상기 제2 이미지 파일과 중복되는 파일을 파악하기 위하여 상기 제3 이미지 파일을 포함한 상기 다른 이미지 파일들과 비교를 수행하되, 상기 제1 이미지 파일과는 비교를 수행하지 않고 중복되는 파일을 파악하는, 중복 이미지 파일 검색 장치.
KR1020150001810A 2015-01-07 2015-01-07 중복 이미지 파일 검색 방법 및 장치 KR102260631B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150001810A KR102260631B1 (ko) 2015-01-07 2015-01-07 중복 이미지 파일 검색 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150001810A KR102260631B1 (ko) 2015-01-07 2015-01-07 중복 이미지 파일 검색 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20160085004A true KR20160085004A (ko) 2016-07-15
KR102260631B1 KR102260631B1 (ko) 2021-06-07

Family

ID=56505924

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150001810A KR102260631B1 (ko) 2015-01-07 2015-01-07 중복 이미지 파일 검색 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102260631B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025310A (zh) * 2017-05-17 2017-08-08 长春嘉诚信息技术股份有限公司 一种自动实时新闻推荐方法
KR102114223B1 (ko) * 2019-12-10 2020-05-22 셀렉트스타 주식회사 딥러닝 기반 유사 이미지를 필터링하는 방법 및 그를 이용한 장치
KR20200101643A (ko) 2019-02-20 2020-08-28 이득기 인공지능 기반의 유사 디자인 검색 장치
KR20200119370A (ko) 2019-03-22 2020-10-20 이득기 인공지능 기반의 유사 디자인 검색 장치
WO2021118040A1 (ko) * 2019-12-10 2021-06-17 셀렉트스타 주식회사 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230162409A (ko) 2022-05-20 2023-11-28 옴니어스 주식회사 중복 이미지를 검출하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0973530A (ja) * 1995-09-01 1997-03-18 Sharp Corp 画像ファイリング装置
WO2005096180A1 (ja) * 2004-03-31 2005-10-13 Pioneer Corporation 画像検索方法、装置及びプログラムを記録した記録媒体
JP2012234257A (ja) * 2011-04-28 2012-11-29 Sony Corp 画像処理装置と画像処理方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0973530A (ja) * 1995-09-01 1997-03-18 Sharp Corp 画像ファイリング装置
WO2005096180A1 (ja) * 2004-03-31 2005-10-13 Pioneer Corporation 画像検索方法、装置及びプログラムを記録した記録媒体
JP2012234257A (ja) * 2011-04-28 2012-11-29 Sony Corp 画像処理装置と画像処理方法およびプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025310A (zh) * 2017-05-17 2017-08-08 长春嘉诚信息技术股份有限公司 一种自动实时新闻推荐方法
KR20200101643A (ko) 2019-02-20 2020-08-28 이득기 인공지능 기반의 유사 디자인 검색 장치
KR20200119370A (ko) 2019-03-22 2020-10-20 이득기 인공지능 기반의 유사 디자인 검색 장치
KR102114223B1 (ko) * 2019-12-10 2020-05-22 셀렉트스타 주식회사 딥러닝 기반 유사 이미지를 필터링하는 방법 및 그를 이용한 장치
WO2021118039A1 (ko) * 2019-12-10 2021-06-17 셀렉트스타 주식회사 딥러닝 기반 유사 이미지를 필터링하는 방법 및 그를 이용한 장치
WO2021118040A1 (ko) * 2019-12-10 2021-06-17 셀렉트스타 주식회사 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치
US11830237B2 (en) 2019-12-10 2023-11-28 Select Star, Inc. Deep learning-based method for filtering similar images, and apparatus using same

Also Published As

Publication number Publication date
KR102260631B1 (ko) 2021-06-07

Similar Documents

Publication Publication Date Title
KR20160085004A (ko) 중복 이미지 파일 검색 방법 및 장치
US11188789B2 (en) Detecting poisoning attacks on neural networks by activation clustering
US9852297B1 (en) Methods and apparatus for detecting malware samples with similar image sets
CN109583325B (zh) 人脸样本图片标注方法、装置、计算机设备及存储介质
CN106446816B (zh) 人脸识别方法及装置
US10282546B1 (en) Systems and methods for detecting malware based on event dependencies
US10878336B2 (en) Technologies for detection of minority events
CN109936582B (zh) 构建基于pu学习的恶意流量检测模型的方法及装置
US11025649B1 (en) Systems and methods for malware classification
US20170293824A1 (en) Method and device for recognizing subject area of image
US20160132718A1 (en) Face recognition using gradient based feature analysis
US9141883B1 (en) Method, hard negative proposer, and classifier for supporting to collect hard negative images using a similarity map
US20200104498A1 (en) Independent malware detection architecture
CN111324784A (zh) 一种字符串处理方法及装置
US11204935B2 (en) Similarity analyses in analytics workflows
US9684705B1 (en) Systems and methods for clustering data
CN104091164A (zh) 人脸图片人名识别方法和系统
US10546123B1 (en) Systems and methods for identifying malicious computer files
IL281410B1 (en) Bit-level data generation and artificial intelligence techniques and architectures for data protection
US8705800B2 (en) Profiling activity through video surveillance
CA2940380A1 (fr) Determiner la severite d'une perturbation geomagnetique sur un reseau electrique a l'aide de mesures de similarite
Dutta et al. A shot detection technique using linear regression of shot transition pattern
US20160098312A1 (en) Log management apparatus, computer-readable recording medium having stored therein log management program, and log management method
CN112116018A (zh) 样本分类方法、装置、计算机设备、介质和程序产品
JP7306460B2 (ja) 敵対的事例検知システム、方法およびプログラム

Legal Events

Date Code Title Description
N231 Notification of change of applicant
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant