WO2021091124A1 - 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법 - Google Patents

복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법 Download PDF

Info

Publication number
WO2021091124A1
WO2021091124A1 PCT/KR2020/014359 KR2020014359W WO2021091124A1 WO 2021091124 A1 WO2021091124 A1 WO 2021091124A1 KR 2020014359 W KR2020014359 W KR 2020014359W WO 2021091124 A1 WO2021091124 A1 WO 2021091124A1
Authority
WO
WIPO (PCT)
Prior art keywords
hash value
file
files
frequency
unique hash
Prior art date
Application number
PCT/KR2020/014359
Other languages
English (en)
French (fr)
Inventor
이미영
Original Assignee
(주)키온비트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)키온비트 filed Critical (주)키온비트
Publication of WO2021091124A1 publication Critical patent/WO2021091124A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/137Hash-based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/156Query results presentation

Definitions

  • the present invention relates to an electronic device and an operating method capable of searching for a similar file with respect to a reference file based on distribution information of features for each of a plurality of files.
  • An electronic device capable of searching for a similar file to a reference file based on distribution information of features for each of a plurality of files according to the present invention and an operation method include a bit string constituting data for each of a plurality of predetermined files. At least one unique hash value extracted so that the hash values do not overlap each other from n hash values corresponding to the n features, and extracts n features divided by a boundary at a point where a preset data pattern exists from After generating distribution information for the frequencies in which each exists, the similarity between the reference file and the remaining files among the plurality of files is calculated based on the distribution information on the frequencies in which each of the at least one unique hash value exists. , It is intended to support the search for a similar file for the reference file.
  • An electronic device capable of searching for a similar file for a reference file based on distribution information of features for each of a plurality of files is
  • n (n is a natural number of 2 or more) features for each of the plurality of files from each of the plurality of files-the n features are the plurality of files
  • n partial bit strings generated by dividing the point at which a predetermined data pattern exists as a boundary-a feature extraction unit for extracting the feature extraction unit
  • the plurality of A hash value generator for generating n hash values for each of the plurality of files by applying the n features for each of the files as input to a preset hash function, for each of the plurality of files
  • the A counting unit that extracts at least one unique hash value in which hash values do not overlap each other from n hash values, and then counts the frequency at which each of the at least one unique hash value exists from the n hash values
  • an operation method of an electronic device capable of searching for a similar file to a reference file based on distribution information of features for each of a plurality of files When a similar file search command for one reference file is received, from each of the plurality of files, n features for each of the plurality of files-the n features collect data for each of the plurality of files.
  • extracting means n partial bit streams generated by dividing the point where a preset data pattern exists as a boundary.-Extracting the n features for each of the plurality of files.
  • n hash values for each of the plurality of files by applying as input to a set hash function, at least one in which hash values do not overlap each other from the n number of hash values for each of the plurality of files After extracting the unique hash value of, counting the frequency of each of the at least one unique hash value from the n hash values, for each of the plurality of files, the frequency of the at least one unique hash value After sorting in ascending order, generating distribution information on the frequency of the at least one unique hash value based on the frequency of the at least one unique hash value sorted in ascending order, the at least one corresponding to the reference file Calculating a similarity between distribution information on the frequency of the unique hash value of and distribution information on the frequency of the at least one unique hash value corresponding to files other than the reference file in the plurality of files, the After selecting at least one similar file whose similarity to the reference file is equal to or higher than a preset reference value among the remaining files, storing the at least one similar file
  • An electronic device capable of searching for a similar file to a reference file based on distribution information of features for each of a plurality of files according to the present invention and an operation method include a bit string constituting data for each of a plurality of predetermined files. At least one unique hash value extracted so that the hash values do not overlap each other from n hash values corresponding to the n features, and extracts n features divided by a boundary at a point where a preset data pattern exists from After generating distribution information for the frequencies in which each exists, the similarity between the reference file and the remaining files among the plurality of files is calculated based on the distribution information on the frequencies in which each of the at least one unique hash value exists. , It is possible to support searching for a similar file for the reference file.
  • FIG. 1 is a diagram illustrating a structure of an electronic device capable of searching for a similar file with respect to a reference file based on distribution information of features for each of a plurality of files according to an embodiment of the present invention.
  • FIG. 2 is a diagram for describing an electronic device capable of searching for a similar file with respect to a reference file based on distribution information of features for each of a plurality of files according to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating a method of operating an electronic device capable of searching for a similar file for a reference file based on distribution information of features for each of a plurality of files according to an embodiment of the present invention.
  • each component, function blocks, or means may be composed of one or more sub-components, and the electrical, electronic, and mechanical functions performed by each component are electronic.
  • a circuit, an integrated circuit, or an application specific integrated circuit (ASIC) may be implemented with various known devices or mechanical elements, and may be implemented separately or two or more may be integrated into one.
  • the blocks of the attached block diagram and the steps in the flowchart are computer program instructions that are mounted on a processor or memory of equipment capable of processing data such as a general-purpose computer, a special-purpose computer, a portable notebook computer, and a network computer to perform specified functions. It can be interpreted as meaning. Since these computer program instructions can be stored in a memory provided in a computer device or in a memory readable by a computer, the functions described in the blocks in the block diagram or in the steps in the flowchart are produced as a product containing the instruction means for performing this. It could be.
  • each block or each step may represent a module, segment, or part of code containing one or more executable instructions for executing the specified logical function(s).
  • FIG. 1 is a diagram illustrating a structure of an electronic device capable of searching for a similar file with respect to a reference file based on distribution information of features for each of a plurality of files according to an embodiment of the present invention.
  • an electronic device 110 capable of searching for a similar file for a reference file based on distribution information of features for each of a plurality of files according to an embodiment of the present invention includes a feature extraction unit 111 , A hash value generating unit 112, a counting unit 113, a distribution information generating unit 114, a similarity calculating unit 115, a file storage unit 116, and a similar file display unit 117.
  • the feature extracting unit 111 receives n(n) for each of the plurality of files from each of the plurality of files. Is a natural number of 2 or more) and extracts features.
  • the n features mean n partial bit strings generated by dividing the bit string constituting data for each of the plurality of files based on a point where a predetermined data pattern exists as a boundary. .
  • the feature extraction unit ( 111) when a similar file search command for a reference file, which is one of the plurality of files, is received from a user, first, a bit string constituting data for'file 1'among the plurality of files is '0000000000000'. By dividing the point where'is present' as a boundary, n features can be extracted for'File 1'.
  • the feature extracting unit 111 provides '6' features for'File 1'. Can be extracted.
  • offset means a data size (Byte) from a bit string constituting data for each of the plurality of files to a point at which the preset data pattern '0000000000000' is found.
  • the feature extraction unit 111 may extract n features for each of the plurality of files from each of the plurality of files, and the number of features extracted from each of the plurality of files may be It can be different.
  • the hash value generator 112 generates n hash values for each of the plurality of files by applying the n features for each of the plurality of files as input to a preset hash function.
  • the hash value generator 112 selects the '6' features for'File 1'among the plurality of files. By applying as input to a preset hash function, '6' hash values can be generated.
  • the hash value generator 112 performs the '6' 'H1','H2','H1','H3','H1', and'H3' may be generated as hash values corresponding to each of the'features'.
  • the hash value generator 112 may generate n hash values for each of the plurality of files in the same manner as the method for'File 1'.
  • the counting unit 113 For each of the plurality of files, the counting unit 113 extracts at least one unique hash value in which hash values do not overlap each other from the n number of hash values, and then the at least one unique hash value from the n number of hash values. Count the number of times each value exists.
  • the counting unit 113 includes the '6' hashes such as'H1','H2','H1','H3','H1' and'H3' for'File 1'among the plurality of files. From the values,'H1','H2', and'H3' may be extracted as at least one unique hash value in which hash values do not overlap with each other.
  • the counting unit 113 is the at least one unique hash value'H1' among the '6' hash values such as'H1','H2','H1','H3','H1' and'H3'. ','H2', and'H3' can count the number of frequencies each exists.
  • the counting unit 113 is selected from among the at least one unique hash value among the '6' hash values such as'H1','H2','H1','H3','H1' and'H3'.
  • the number of frequencies in which H1' exists can be counted as '3'
  • the number of frequencies in which'H3' exists can be counted as '2'.
  • each of the plurality of files With respect to, the frequency number of each of the at least one unique hash value in the n number of hash values may be counted.
  • the distribution information generation unit 114 sorts the frequencies of the at least one unique hash value for each of the plurality of files in ascending order, and then based on the frequency of the at least one unique hash value arranged in an ascending order, Distribution information on the frequency of the at least one unique hash value is generated.
  • the distribution information generation unit 114 calculates the frequency of the at least one unique hash value in ascending order with respect to'File 1'among the plurality of files, '1', '2', and '3'. By arranging in the order of, it is possible to generate distribution information about the frequency of the at least one unique hash value, such as 210 of FIG. 2.
  • the distribution information generator 114 may generate distribution information on the frequency of the at least one unique hash value for each of the plurality of files.
  • the distribution information generation unit 114 may include a normalization unit 118.
  • the normalization unit 118 extracts the maximum frequency and the minimum frequency from the frequencies of the at least one unique hash value. , On the basis of the maximum frequency and the minimum frequency, distribution information on the frequency of the at least one unique hash value is normalized by performing an operation for normalization on the frequency of each of the at least one unique hash value.
  • the normalization unit 118 for normalization according to Equation 1 below for the frequencies of each of the at least one unique hash value based on the maximum frequency and the minimum frequency.
  • distribution information on the frequency of the at least one unique hash value can be normalized.
  • a i is the frequency of the i-th hash value among the at least one unique hash value sorted in ascending order
  • Min is the minimum frequency among the frequencies of the at least one unique hash value
  • Max is the It means the maximum number of frequencies of at least one unique hash value.
  • the normalization unit 118 After extracting the maximum frequency number '3' and the minimum frequency number '1' among the frequencies of at least one unique hash value, based on the maximum frequency number '3' and the minimum frequency number '1', the at least one unique hash value By performing an operation for normalization according to Equation 1 above for each frequency number, distribution information on the frequency number of the at least one unique hash value can be normalized.
  • the normalization unit 118 performs an operation for normalization according to Equation 1 above with respect to '1', '2', and '3', which are the frequencies of each of the at least one unique hash value to be '0'.
  • '1', '2', and '3' are the frequencies of each of the at least one unique hash value to be '0'.
  • the normalization unit 118 performs an operation for normalizing the frequencies of each of the at least one unique hash value based on the maximum and minimum frequencies of the at least one unique hash value. By performing, distribution information on the frequency of the at least one unique hash value can be normalized.
  • the similarity calculating unit 115 includes distribution information on the frequency of the at least one unique hash value corresponding to the reference file, and the at least one unique hash corresponding to the remaining files other than the reference file in the plurality of files. Calculate the similarity between distribution information about the frequency of values.
  • the similarity calculating unit 115 includes distribution information on the frequency of the at least one unique hash value corresponding to the reference file, and the at least one unique hash value corresponding to the remaining files.
  • the similarity between distribution information about the frequency of the hash value can be calculated according to Equation 2 below.
  • Is, for file a, a normalized value of the frequency for the i-th hash value among the at least one unique hash value sorted in ascending order Denotes a normalized value of the frequency for the i-th hash value among the at least one unique hash value sorted in ascending order for the file b
  • m is the number of the at least one unique hash value for the file a and the file b It means the smaller number of the number of the at least one unique hash value for.
  • the similarity calculation unit 115 includes distribution information on the frequency of the at least one unique hash value, such as 220 corresponding to the reference file'File 1', and the remaining files excluding the reference file from the plurality of files.
  • a degree of similarity between distribution information about the frequency of the at least one unique hash value corresponding to the values may be calculated according to Equation 2 above.
  • the similarity calculation unit 115 includes distribution information ⁇ 0, 0.5, 1 ⁇ corresponding to the reference file'File 1'and distribution information corresponding to the'File 2'among the remaining files ⁇ 0, 0.25
  • the similarity between, 1 ⁇ can be calculated as 0.917 according to Equation 3 below.
  • the similarity calculating unit 115 provides distribution information on the frequency of the at least one unique hash value corresponding to the reference file and the distribution of the frequency of the at least one unique hash value corresponding to the remaining files. Similarity between information can be calculated.
  • the file storage unit 116 selects at least one similar file whose similarity to the reference file is greater than or equal to a preset reference value among the remaining files, and then stores the at least one similar file in a file storage.
  • the file storage unit 116 may convert the at least one similar file into a disk image file format and store it in the file storage.
  • the disk image file format means a file format used when duplicating the entire hard disk.
  • image formats used for forensics include Expert Witness Compression Format (EWF) and Advanced Forensics Format (AFF).
  • EWF Expert Witness Compression Format
  • AFF Advanced Forensics Format
  • the file storage unit 116 converts the at least one similar file into a disk image file format and stores it in the file storage, so that it can be used in a digital forensic tool in the future.
  • the similar file display unit 117 displays a similar file list composed of the at least one similar file on the screen in response to the similar file search command for the reference file received from the user.
  • the similar file display unit 117 displays a list of similar files composed of the at least one similar file on the screen to the user.
  • information on a file similar to the reference file may be provided.
  • FIG. 3 is a flowchart illustrating a method of operating an electronic device capable of searching for a similar file for a reference file based on distribution information of features for each of a plurality of files according to an embodiment of the present invention.
  • step S310 when a similar file search command for a reference file, which is one of a plurality of predetermined files, is received from a user, n features for each of the plurality of files from each of the plurality of files ( The n features are extracted from a bit string constituting data for each of the plurality of files, meaning n partial bit strings generated by dividing a point where a preset data pattern exists as a boundary).
  • step S320 the n features for each of the plurality of files are applied as input to a preset hash function to generate n hash values for each of the plurality of files.
  • step S330 for each of the plurality of files, after extracting at least one unique hash value in which hash values do not overlap each other from the n number of hash values, the at least one unique hash value from the n number of hash values Count the number of frequencies each exists.
  • step (S340) for each of the plurality of files, after sorting the frequency of the at least one unique hash value in ascending order, based on the frequency of the at least one unique hash value sorted in ascending order, the at least one Generates distribution information about the frequency of the unique hash values of.
  • step S350 distribution information on the frequency of the at least one unique hash value corresponding to the reference file, and the at least one unique hash value corresponding to the remaining files other than the reference file in the plurality of files Calculate the degree of similarity between distribution information about the frequencies of.
  • step S360 after selecting at least one similar file whose similarity with the reference file is equal to or greater than a preset reference value among the remaining files, the at least one similar file is stored in a file storage.
  • step S370 in response to the similar file search command for the reference file received from the user, a similar file list consisting of the at least one similar file is displayed on the screen.
  • step S340 when distribution information on the frequency of the at least one unique hash value is generated for each of the plurality of files, the at least one unique hash value is After extracting the maximum and minimum frequencies from among the frequencies, based on the maximum and minimum frequencies, an operation for normalization is performed on the frequencies of each of the at least one unique hash value, so that the at least one unique hash value is It may include the step of normalizing the distribution information for the frequency.
  • the step of normalizing distribution information on the frequency of the at least one unique hash value is based on the maximum frequency and the minimum frequency, according to Equation 1 above for the frequency of each of the at least one unique hash value.
  • step S350 distribution information on the frequency of the at least one unique hash value corresponding to the reference file and the at least one unique hash corresponding to the remaining files
  • the similarity between distribution information about the frequency of values can be calculated according to Equation 2 above.
  • the at least one similar file may be converted into a disk image file format and stored in the file storage.
  • FIG. 3 a method of operating an electronic device capable of searching for a similar file with respect to a reference file based on distribution information of features for each of a plurality of files according to an embodiment of the present invention has been described with reference to FIG. 3.
  • a method of operating an electronic device capable of searching for a similar file for a reference file based on distribution information of features for each of a plurality of files according to an embodiment of the present invention is described with reference to FIGS. 1 and 2. Since it may correspond to the configuration of the operation of the electronic device 110 capable of searching for a similar file with respect to a reference file based on distribution information of features for each of the files of, a more detailed description thereof will be omitted.
  • a method of operating an electronic device capable of searching for a similar file for a reference file based on distribution information of features for each of a plurality of files is provided in a storage medium for execution through a combination with a computer. It can be implemented as a stored computer program.
  • the method of operating an electronic device capable of searching for a similar file for a reference file based on distribution information of features for each of a plurality of files is a computer for executing through a combination with a computer. It may be implemented in the form of program instructions and recorded in a computer-readable medium.
  • the computer-readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded in the medium may be specially designed and configured for the present invention, or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks.
  • program instructions such as magneto-optical media, and ROM, RAM, flash memory, and the like.
  • program instructions include not only machine language codes such as those produced by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따른 전자 장치 및 동작 방법은 미리 정해진 복수의 파일들 각각에 대하여, 데이터를 구성하는 비트열로부터 기설정된 데이터 패턴이 존재하는 지점을 경계로 분할된 n개의 피쳐들을 추출하고, 상기 n개의 피쳐들에 대응되는 n개의 해시 값들에서, 해시 값이 서로 중복되지 않도록 추출된 적어도 하나의 고유 해시 값 각각이 존재하는 빈도수에 대한 분포 정보를 생성한 후, 상기 적어도 하나의 고유 해시 값 각각이 존재하는 빈도수에 대한 분포 정보를 기초로 상기 복수의 파일들 중 기준 파일과 나머지 파일들 간 유사도를 연산함으로써, 상기 기준 파일에 대한 유사 파일의 탐색을 지원할 수 있다.

Description

복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법
본 발명은 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법에 대한 것이다.
기술 발전에 따라 정보통신과 관련한 사이버 범죄가 급증하면서, 범죄 수사에 있어, PC나 노트북, 휴대폰 등 각종 저장매체 또는 인터넷 상에 남아 있는 각종 디지털 정보를 분석하여 범죄의 단서를 찾는 수사 기법인 디지털 포렌식(Digital Forensic)이 중요한 역할을 하고 있다.
이러한 디지털 포렌식 수사에 있어, 수사관들은 범죄의 주요 증거를 수집하기 위해 상당한 양의 디지털 정보들을 모두 확인할 필요가 있으나, 많은 양의 디지털 정보들을 일일이 하나씩 확인하기에는 너무 많은 시간과 노력이 소요되어 비효율적이므로, 키워드 검색 등을 통해 정밀하게 분석할 디지털 정보들을 취합하는 과정이 우선적으로 진행되어야 한다.
관련하여, 많은 양의 디지털 정보들 중 필요한 정보를 효율적으로 추출하기 위해서는, 각종 저장 매체 등의 기기에서 생산되는 많은 양의 파일들을 유사한 내용으로 분류하는 기법이 활용될 수 있을 것이다.
기존에는, 수많은 파일들을 서로 유사한 내용의 파일들로 분류하기 위해, 자연어 처리(NLP) 방식 또는 문서 파일 내에 포함된 텍스트를 엔그램(Ngram)으로 변환한 후, 상기 문서 파일 내에서 존재하는 엔그램 각각의 빈도수를 비교하는 방식을 이용하였다.
그러나, 이러한 방식들은 분류 대상인 파일들이 언어와 관련된 프로세스로 구성되어야 한다거나 인코딩 방식이 서로 동일해야 한다는 한계점들이 있어, 여러 종류의 디지털 기기로부터 생산된 다양한 유형의 파일들을 분석하는 디지털 포렌식 업무에 활용되기에 무리가 있었다.
따라서, 효율적인 디지털 포렌식 수사를 위해, 복수의 파일들 각각에 대해 피쳐(feature)들의 분포 정보를 추출하여, 특정 파일에 대한 유사 파일을 탐색할 수 있는 기법에 대한 연구가 필요하다.
본 발명에 따른 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법은 미리 정해진 복수의 파일들 각각에 대하여, 데이터를 구성하는 비트열로부터 기설정된 데이터 패턴이 존재하는 지점을 경계로 분할된 n개의 피쳐들을 추출하고, 상기 n개의 피쳐들에 대응되는 n개의 해시 값들에서, 해시 값이 서로 중복되지 않도록 추출된 적어도 하나의 고유 해시 값 각각이 존재하는 빈도수에 대한 분포 정보를 생성한 후, 상기 적어도 하나의 고유 해시 값 각각이 존재하는 빈도수에 대한 분포 정보를 기초로 상기 복수의 파일들 중 기준 파일과 나머지 파일들 간 유사도를 연산함으로써, 상기 기준 파일에 대한 유사 파일의 탐색을 지원하고자 한다.
본 발명의 일실시예에 따른 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치는 사용자로부터 미리 정해진 복수의 파일들 중 어느 하나인 기준 파일에 대한 유사 파일 탐색 명령이 수신되면, 상기 복수의 파일들 각각으로부터, 상기 복수의 파일들 각각에 대한 n(n은 2이상의 자연수임)개의 피쳐(feature)들 - 상기 n개의 피쳐들은 상기 복수의 파일들 각각에 대한 데이터를 구성하는 비트열에서, 기설정된(predetermined) 데이터 패턴이 존재하는 지점을 경계로 하여 분할함으로써 생성된 n개의 부분 비트열을 의미함 - 을 추출하는 피쳐 추출부, 상기 복수의 파일들 각각에 대한 상기 n개의 피쳐들을 기설정된 해시 함수에 입력으로 인가하여, 상기 복수의 파일들 각각에 대한 n개의 해시 값들을 생성하는 해시 값 생성부, 상기 복수의 파일들 각각에 대하여, 상기 n개의 해시 값들로부터 해시 값이 서로 중복되지 않는 적어도 하나의 고유 해시 값을 추출한 후, 상기 n개의 해시 값들에서 상기 적어도 하나의 고유 해시 값 각각이 존재하는 빈도수를 카운트하는 카운트부, 상기 복수의 파일들 각각에 대하여, 상기 적어도 하나의 고유 해시 값의 빈도수를 오름차순으로 정렬한 후, 오름차순으로 정렬된 상기 적어도 하나의 고유 해시 값의 빈도수를 기초로, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 생성하는 분포 정보 생성부, 상기 기준 파일에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보와, 상기 복수의 파일들에서 상기 기준 파일을 제외한 나머지 파일들에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보 간 유사도를 연산하는 유사도 연산부, 상기 나머지 파일들 중 상기 기준 파일과의 상기 유사도가 기설정된 기준치 이상인 적어도 하나의 유사 파일을 선택한 후, 상기 적어도 하나의 유사 파일을 파일 저장소에 저장하는 파일 저장부 및 상기 사용자로부터 수신된 상기 기준 파일에 대한 상기 유사 파일 탐색 명령에 대응하여, 상기 적어도 하나의 유사 파일로 구성된 유사 파일 목록을 화면 상에 표시하는 유사 파일 표시부를 포함한다.
또한, 본 발명의 일실시예에 따른 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치의 동작 방법은 사용자로부터 미리 정해진 복수의 파일들 중 어느 하나인 기준 파일에 대한 유사 파일 탐색 명령이 수신되면, 상기 복수의 파일들 각각으로부터, 상기 복수의 파일들 각각에 대한 n개의 피쳐들 - 상기 n개의 피쳐들은 상기 복수의 파일들 각각에 대한 데이터를 구성하는 비트열에서, 기설정된 데이터 패턴이 존재하는 지점을 경계로 하여 분할함으로써 생성된 n개의 부분 비트열을 의미함 - 을 추출하는 단계, 상기 복수의 파일들 각각에 대한 상기 n개의 피쳐들을 기설정된 해시 함수에 입력으로 인가하여, 상기 복수의 파일들 각각에 대한 n개의 해시 값들을 생성하는 단계, 상기 복수의 파일들 각각에 대하여, 상기 n개의 해시 값들로부터 해시 값이 서로 중복되지 않는 적어도 하나의 고유 해시 값을 추출한 후, 상기 n개의 해시 값들에서 상기 적어도 하나의 고유 해시 값 각각이 존재하는 빈도수를 카운트하는 단계, 상기 복수의 파일들 각각에 대하여, 상기 적어도 하나의 고유 해시 값의 빈도수를 오름차순으로 정렬한 후, 오름차순으로 정렬된 상기 적어도 하나의 고유 해시 값의 빈도수를 기초로, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 생성하는 단계, 상기 기준 파일에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보와, 상기 복수의 파일들에서 상기 기준 파일을 제외한 나머지 파일들에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보 간 유사도를 연산하는 단계, 상기 나머지 파일들 중 상기 기준 파일과의 상기 유사도가 기설정된 기준치 이상인 적어도 하나의 유사 파일을 선택한 후, 상기 적어도 하나의 유사 파일을 파일 저장소에 저장하는 단계 및 상기 사용자로부터 수신된 상기 기준 파일에 대한 상기 유사 파일 탐색 명령에 대응하여, 상기 적어도 하나의 유사 파일로 구성된 유사 파일 목록을 화면 상에 표시하는 단계를 포함한다.
본 발명에 따른 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법은 미리 정해진 복수의 파일들 각각에 대하여, 데이터를 구성하는 비트열로부터 기설정된 데이터 패턴이 존재하는 지점을 경계로 분할된 n개의 피쳐들을 추출하고, 상기 n개의 피쳐들에 대응되는 n개의 해시 값들에서, 해시 값이 서로 중복되지 않도록 추출된 적어도 하나의 고유 해시 값 각각이 존재하는 빈도수에 대한 분포 정보를 생성한 후, 상기 적어도 하나의 고유 해시 값 각각이 존재하는 빈도수에 대한 분포 정보를 기초로 상기 복수의 파일들 중 기준 파일과 나머지 파일들 간 유사도를 연산함으로써, 상기 기준 파일에 대한 유사 파일의 탐색을 지원할 수 있다.
도 1은 본 발명의 일실시예에 따른 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치의 구조를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치를 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예에 따른 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치의 동작 방법을 도시한 순서도이다.
이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
본 문서에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 본 발명의 다양한 실시예들에 있어서, 각 구성요소들, 기능 블록들 또는 수단들은 하나 또는 그 이상의 하부 구성요소로 구성될 수 있고, 각 구성요소들이 수행하는 전기, 전자, 기계적 기능들은 전자회로, 집적회로, ASIC(Application Specific Integrated Circuit) 등 공지된 다양한 소자들 또는 기계적 요소들로 구현될 수 있으며, 각각 별개로 구현되거나 2 이상이 하나로 통합되어 구현될 수도 있다.
한편, 첨부된 블록도의 블록들이나 흐름도의 단계들은 범용 컴퓨터, 특수용 컴퓨터, 휴대용 노트북 컴퓨터, 네트워크 컴퓨터 등 데이터 프로세싱이 가능한 장비의 프로세서나 메모리에 탑재되어 지정된 기능들을 수행하는 컴퓨터 프로그램 명령들(instructions)을 의미하는 것으로 해석될 수 있다. 이들 컴퓨터 프로그램 명령들은 컴퓨터 장치에 구비된 메모리 또는 컴퓨터에서 판독 가능한 메모리에 저장될 수 있기 때문에, 블록도의 블록들 또는 흐름도의 단계들에서 설명된 기능들은 이를 수행하는 명령 수단을 내포하는 제조물로 생산될 수도 있다. 아울러, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 명령들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 가능한 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 정해진 순서와 달리 실행되는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 실질적으로 동시에 수행되거나, 역순으로 수행될 수 있으며, 경우에 따라 일부 블록들 또는 단계들이 생략된 채로 수행될 수도 있다.
도 1은 본 발명의 일실시예에 따른 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치의 구조를 도시한 도면이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 (110)는 피쳐 추출부(111), 해시 값 생성부(112), 카운트부(113), 분포 정보 생성부(114), 유사도 연산부(115), 파일 저장부(116) 및 유사 파일 표시부(117)를 포함한다.
피쳐 추출부(111)는 사용자로부터 미리 정해진 복수의 파일들 중 어느 하나인 기준 파일에 대한 유사 파일 탐색 명령이 수신되면, 상기 복수의 파일들 각각으로부터, 상기 복수의 파일들 각각에 대한 n(n은 2이상의 자연수임)개의 피쳐(feature)들을 추출한다.
여기서, 상기 n개의 피쳐들은 상기 복수의 파일들 각각에 대한 데이터를 구성하는 비트열에서, 기설정된(predetermined) 데이터 패턴이 존재하는 지점을 경계로 하여 분할함으로써 생성된 n개의 부분 비트열을 의미한다.
예컨대, 복수의 파일들 중 크기가 '100KB(102400B)'인 '파일 1'이 존재하고, 기설정된 데이턴 패턴이 '0000000000000'(뒤에서 13개의 비트들이 0인 값)이라고 가정하면, 피쳐 추출부(111)는 사용자로부터 상기 복수의 파일들 중 어느 하나인 기준 파일에 대한 유사 파일 탐색 명령이 수신된 경우, 우선, 상기 복수의 파일들 중 '파일 1'에 대한 데이터를 구성하는 비트열을 '0000000000000'이 존재하는 지점을 경계로 하여 분할함으로써, '파일 1'에 대하여 n개의 피쳐들을 추출할 수 있다.
만약, '파일 1'에 대한 데이터를 구성하는 비트열에서 '0000000000000'이 존재하는 지점이 하기의 표 1과 같이 존재한다면, 피쳐 추출부(111)는 '파일 1'에 대하여 '6'개의 피쳐들을 추출할 수 있다.
Figure PCTKR2020014359-appb-T000001
상기의 표 1에서, offset은 상기 복수의 파일들 각각에 대한 데이터를 구성하는 비트열에서 상기 기설정된 데이터 패턴인 '0000000000000'이 발견된 지점까지의 데이터 크기(Byte)를 의미한다.
이러한 방식으로, 피쳐 추출부(111)는 상기 복수의 파일들 각각으로부터, 상기 복수의 파일들 각각에 대한 n개의 피쳐들을 추출할 수 있으며, 상기 복수의 파일들 각각으로부터 추출된 피쳐들의 수는 서로 상이할 수 있다.
해시 값 생성부(112)는 상기 복수의 파일들 각각에 대한 상기 n개의 피쳐들을 기설정된 해시 함수에 입력으로 인가하여, 상기 복수의 파일들 각각에 대한 n개의 해시 값들을 생성한다.
만약, 앞선 예와 같이, '파일 1'에 대하여 '6'개의 피쳐들이 추출되었다면, 해시 값 생성부(112)는 상기 복수의 파일들 중 '파일 1'에 대하여, 상기 '6'개의 피쳐들을 기설정된 해시 함수에 입력으로 인가함으로써, '6'개의 해시 값들을 생성할 수 있다.
만약, 상기 표 1에서 나타낸 상기 '6'개의 피쳐들 중 1, 3, 5번 피쳐들이 서로 동일하고, 4, 6번 피쳐들이 서로 동일하다고 하는 경우, 해시 값 생성부(112)는 상기 '6'개의 피쳐들 각각에 대응하는 해시 값으로 'H1', 'H2', 'H1', 'H3', 'H1' 및 'H3'을 생성할 수 있다.
이렇게, 해시 값 생성부(112)는 '파일 1'에 대한 방식과 동일한 방식으로 상기 복수의 파일들 각각에 대한 n개의 해시 값들을 생성할 수 있다.
카운트부(113)는 상기 복수의 파일들 각각에 대하여, 상기 n개의 해시 값들로부터 해시 값이 서로 중복되지 않는 적어도 하나의 고유 해시 값을 추출한 후, 상기 n개의 해시 값들에서 상기 적어도 하나의 고유 해시 값 각각이 존재하는 빈도수를 카운트한다.
예컨대, 전술한 바와 같이, '파일 1'에 대하여 'H1', 'H2', 'H1', 'H3', 'H1' 및 'H3'과 같은 '6'개의 해시 값들이 존재한다고 가정하면, 카운트부(113)는 상기 복수의 파일들 중 '파일 1'에 대하여, 'H1', 'H2', 'H1', 'H3', 'H1' 및 'H3'과 같은 상기 '6'개의 해시 값들로부터 해시 값이 서로 중복되지 않는 적어도 하나의 고유 해시 값으로 'H1', 'H2', 'H3'을 추출할 수 있다.
이후, 카운트부(113)는 'H1', 'H2', 'H1', 'H3', 'H1' 및 'H3'과 같은 상기 '6'개의 해시 값들에서 상기 적어도 하나의 고유 해시 값인 'H1', 'H2', 'H3' 각각이 존재하는 빈도수를 카운트할 수 있다.
즉, 카운트부(113)는 'H1', 'H2', 'H1', 'H3', 'H1' 및 'H3'과 같은 상기 '6'개의 해시 값들에서 상기 적어도 하나의 고유 해시 값 중 'H1'이 존재하는 빈도수를 '3', 'H2'가 존재하는 빈도수를 '1', 'H3'이 존재하는 빈도수를 '2'로 카운트할 수 있고, 이와 같은 방식으로 상기 복수의 파일들 각각에 대하여, 상기 n개의 해시 값들에서 상기 적어도 하나의 고유 해시 값 각각이 존재하는 빈도수를 카운트할 수 있다.
분포 정보 생성부(114)는 상기 복수의 파일들 각각에 대하여, 상기 적어도 하나의 고유 해시 값의 빈도수를 오름차순으로 정렬한 후, 오름차순으로 정렬된 상기 적어도 하나의 고유 해시 값의 빈도수를 기초로, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 생성한다.
예컨대, 앞선 예와 같이, '파일 1'에 대하여, 상기 적어도 하나의 고유 해시 값인 'H1', 'H2', 'H3' 각각이 존재하는 빈도수로 '3', '1', '2'가 카운트되었다고 가정하는 경우, 분포 정보 생성부(114)는 상기 복수의 파일들 중 '파일 1'에 대하여, 상기 적어도 하나의 고유 해시 값의 빈도수를 오름차순인 '1', '2', '3'의 순서로 정렬함으로써, 도 2의 도면부호 210과 같은 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 생성할 수 있다.
이러한 방식으로, 분포 정보 생성부(114)는 상기 복수의 파일들 각각에 대해 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 생성할 수 있다.
이때, 본 발명의 일실시예에 따르면, 분포 정보 생성부(114)는 정규화부(118)를 포함할 수 있다.
정규화부(118)는 상기 복수의 파일들 각각에 대하여, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보가 생성되면, 상기 적어도 하나의 고유 해시 값의 빈도수 중 최대 빈도수와 최소 빈도수를 추출한 후, 상기 최대 빈도수와 상기 최소 빈도수를 기초로, 상기 적어도 하나의 고유 해시 값 각각의 빈도수에 대해 정규화를 위한 연산을 수행함으로써, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 정규화시킨다.
이때, 본 발명의 일실시예에 따르면, 정규화부(118)는 상기 최대 빈도수와 상기 최소 빈도수를 기초로, 상기 적어도 하나의 고유 해시 값 각각의 빈도수에 대해 하기의 수학식 1에 따른 정규화를 위한 연산을 수행함으로써, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 정규화시킬 수 있다.
Figure PCTKR2020014359-appb-M000001
여기서,
Figure PCTKR2020014359-appb-I000001
는 a의 정규화 값을 의미하고, ai는 오름차순으로 정렬된 상기 적어도 하나의 고유 해시 값 중 i번째 해시 값의 빈도수, Min은 상기 적어도 하나의 고유 해시 값의 빈도수 중 상기 최소 빈도수, Max는 상기 적어도 하나의 고유 해시 값의 빈도수 중 상기 최대 빈도수를 의미한다.
예컨대, 앞선 예와 같이 상기 복수의 파일들 중 '파일 1'에 대하여 도 2의 도면부호 210과 같이 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보가 생성되면, 정규화부(118)는 상기 적어도 하나의 고유 해시 값의 빈도수 중 최대 빈도수인 '3'과 최소 빈도수인 '1'을 추출한 후, 상기 최대 빈도수 '3'과 상기 최소 빈도수 '1'을 기초로, 상기 적어도 하나의 고유 해시 값 각각의 빈도수에 대해 상기의 수학식 1에 따른 정규화를 위한 연산을 수행함으로써, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 정규화시킬 수 있다.
구체적으로, 정규화부(118)는 상기 적어도 하나의 고유 해시 값 각각의 빈도수인 '1', '2', '3'에 대해 상기의 수학식 1에 따른 정규화를 위한 연산을 수행하여 '0', '0.5', '1'의 정규화 값을 산출함으로써, 도 2의 도면부호 220과 같이, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 정규화시킬 수 있다.
마찬가지로, 정규화부(118)는 상기 복수의 파일들 각각에 대하여, 상기 적어도 하나의 고유 해시 값의 최대 빈도수와 최소 빈도수를 기초로, 상기 적어도 하나의 고유 해시 값 각각의 빈도수에 대해 정규화를 위한 연산을 수행함으로써, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 정규화시킬 수 있다.
유사도 연산부(115)는 상기 기준 파일에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보와, 상기 복수의 파일들에서 상기 기준 파일을 제외한 나머지 파일들에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보 간 유사도를 연산한다.
이때, 본 발명의 일실시예에 따르면, 유사도 연산부(115)는 상기 기준 파일에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보와, 상기 나머지 파일들에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보 간 유사도를 하기의 수학식 2에 따라 연산할 수 있다.
Figure PCTKR2020014359-appb-M000002
여기서,
Figure PCTKR2020014359-appb-I000002
는 파일 a에 대하여, 오름차순으로 정렬된 상기 적어도 하나의 고유 해시 값 중 i번째 해시 값에 대한 빈도수의 정규화 값,
Figure PCTKR2020014359-appb-I000003
는 파일 b에 대하여, 오름차순으로 정렬된 상기 적어도 하나의 고유 해시 값 중 i번째 해시 값에 대한 빈도수의 정규화 값을 의미하고, m은 파일 a에 대한 상기 적어도 하나의 고유 해시 값의 개수와 파일 b에 대한 상기 적어도 하나의 고유 해시 값의 개수 중 더 작은 수를 의미한다.
관련해서, 전술한 예에서 설명한 '파일 1'이 상기 기준 파일에 해당하고, 상기 나머지 파일들 중 '파일 2'가 '0', '0.25', '1'과 같은 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 정규화된 분포 정보를 갖는다고 가정하자.
유사도 연산부(115)는 상기 기준 파일인 '파일 1'에 대응되는 도면부호 220과 같은 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보와, 상기 복수의 파일들에서 상기 기준 파일을 제외한 나머지 파일들에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보 간 유사도를 상기의 수학식 2에 따라 연산할 수 있다.
구체적으로, 유사도 연산부(115)는 상기 기준 파일인 '파일 1'에 대응되는 분포 정보인 {0, 0.5, 1}과 상기 나머지 파일들 중 '파일 2'에 대응되는 분포 정보인 {0, 0.25, 1} 간 유사도를 하기의 수학식 3에 따라 0.917로 연산할 수 있다.
Figure PCTKR2020014359-appb-M000003
이러한 방식으로, 유사도 연산부(115)는 상기 기준 파일에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보와, 상기 나머지 파일들에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보 간 유사도를 연산할 수 있다.
파일 저장부(116)는 상기 나머지 파일들 중 상기 기준 파일과의 상기 유사도가 기설정된 기준치 이상인 적어도 하나의 유사 파일을 선택한 후, 상기 적어도 하나의 유사 파일을 파일 저장소에 저장한다.
이때, 본 발명의 일실시예에 따르면, 파일 저장부(116)는 상기 적어도 하나의 유사 파일을 디스크 이미지 파일 형식으로 변환하여 상기 파일 저장소에 저장할 수 있다.
여기서, 디스크 이미지 파일 형식이란, 하드 디스크 전체를 복제할 때 사용되는 파일포맷을 의미한다. 관련해서, 포렌식에 사용되는 이미지 포맷으로는 EWF(Expert Witness Compression Format), AFF(Advanced Forensics Format)등이 있다. 이러한 디스크 이미지 파일 형식은 저장매체의 원본 상태를 그대로 유지하기 위하여, 단순히 사본 저장매체에 복사하는 방식이 아니라, 원본 저장매체의 모든 물리적인 섹터를 사본 저장매체로 복제하는 방식을 사용한다.
즉, 파일 저장부(116)는 상기 적어도 하나의 유사 파일을 디스크 이미지 파일 형식으로 변환하여 상기 파일 저장소에 저장함으로써, 추후 디지털 포렌식 툴에 활용될 수 있도록 지원한다.
유사 파일 표시부(117)는 상기 사용자로부터 수신된 상기 기준 파일에 대한 상기 유사 파일 탐색 명령에 대응하여, 상기 적어도 하나의 유사 파일로 구성된 유사 파일 목록을 화면 상에 표시한다.
즉, 유사 파일 표시부(117)는 상기 사용자로부터 상기 기준 파일에 대한 상기 유사 파일 탐색 명령이 수신된 경우, 상기 적어도 하나의 유사 파일로 구성된 유사 파일 목록을 화면 상에 표시함으로써, 사용자에게 상기 복수의 파일들 중 상기 기준 파일과 유사한 파일에 대한 정보를 제공할 수 있다.
도 3은 본 발명의 일실시예에 따른 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치의 동작 방법을 도시한 순서도이다.
단계(S310)에서는 사용자로부터 미리 정해진 복수의 파일들 중 어느 하나인 기준 파일에 대한 유사 파일 탐색 명령이 수신되면, 상기 복수의 파일들 각각으로부터, 상기 복수의 파일들 각각에 대한 n개의 피쳐들(상기 n개의 피쳐들은 상기 복수의 파일들 각각에 대한 데이터를 구성하는 비트열에서, 기설정된 데이터 패턴이 존재하는 지점을 경계로 하여 분할함으로써 생성된 n개의 부분 비트열을 의미함)을 추출한다.
단계(S320)에서는 상기 복수의 파일들 각각에 대한 상기 n개의 피쳐들을 기설정된 해시 함수에 입력으로 인가하여, 상기 복수의 파일들 각각에 대한 n개의 해시 값들을 생성한다.
단계(S330)에서는 상기 복수의 파일들 각각에 대하여, 상기 n개의 해시 값들로부터 해시 값이 서로 중복되지 않는 적어도 하나의 고유 해시 값을 추출한 후, 상기 n개의 해시 값들에서 상기 적어도 하나의 고유 해시 값 각각이 존재하는 빈도수를 카운트한다.
단계(S340)에서는 상기 복수의 파일들 각각에 대하여, 상기 적어도 하나의 고유 해시 값의 빈도수를 오름차순으로 정렬한 후, 오름차순으로 정렬된 상기 적어도 하나의 고유 해시 값의 빈도수를 기초로, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 생성한다.
단계(S350)에서는 상기 기준 파일에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보와, 상기 복수의 파일들에서 상기 기준 파일을 제외한 나머지 파일들에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보 간 유사도를 연산한다.
단계(S360)에서는 상기 나머지 파일들 중 상기 기준 파일과의 상기 유사도가 기설정된 기준치 이상인 적어도 하나의 유사 파일을 선택한 후, 상기 적어도 하나의 유사 파일을 파일 저장소에 저장한다.
단계(S370)에서는 상기 사용자로부터 수신된 상기 기준 파일에 대한 상기 유사 파일 탐색 명령에 대응하여, 상기 적어도 하나의 유사 파일로 구성된 유사 파일 목록을 화면 상에 표시한다.
이때, 본 발명의 일실시예에 따르면, 단계(S340)에서는 상기 복수의 파일들 각각에 대하여, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보가 생성되면, 상기 적어도 하나의 고유 해시 값의 빈도수 중 최대 빈도수와 최소 빈도수를 추출한 후, 상기 최대 빈도수와 상기 최소 빈도수를 기초로, 상기 적어도 하나의 고유 해시 값 각각의 빈도수에 대해 정규화를 위한 연산을 수행함으로써, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 정규화시키는 단계를 포함할 수 있다.
또한, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 정규화시키는 단계는 상기 최대 빈도수와 상기 최소 빈도수를 기초로, 상기 적어도 하나의 고유 해시 값 각각의 빈도수에 대해 상기의 수학식 1에 따른 정규화를 위한 연산을 수행함으로써, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 정규화시킬 수 있다.
이때, 본 발명의 일실시예에 따르면, 단계(S350)에서는 상기 기준 파일에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보와, 상기 나머지 파일들에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보 간 유사도를 상기의 수학식 2에 따라 연산할 수 있다.
또한, 본 발명의 일실시예에 따르면, 단계(S360)에서는 상기 적어도 하나의 유사 파일을 디스크 이미지 파일 형식으로 변환하여 상기 파일 저장소에 저장할 수 있다.
이상, 도 3을 참조하여 본 발명의 일실시예에 따른 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치의 동작 방법은 도 1과 도 2를 이용하여 설명한 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.
본 발명의 일실시예에 따른 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
또한, 본 발명의 일실시예에 따른 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 컴퓨터 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims (12)

  1. 사용자로부터 미리 정해진 복수의 파일들 중 어느 하나인 기준 파일에 대한 유사 파일 탐색 명령이 수신되면, 상기 복수의 파일들 각각으로부터, 상기 복수의 파일들 각각에 대한 n(n은 2이상의 자연수임)개의 피쳐(feature)들 - 상기 n개의 피쳐들은 상기 복수의 파일들 각각에 대한 데이터를 구성하는 비트열에서, 기설정된(predetermined) 데이터 패턴이 존재하는 지점을 경계로 하여 분할함으로써 생성된 n개의 부분 비트열을 의미함 - 을 추출하는 피쳐 추출부;
    상기 복수의 파일들 각각에 대한 상기 n개의 피쳐들을 기설정된 해시 함수에 입력으로 인가하여, 상기 복수의 파일들 각각에 대한 n개의 해시 값들을 생성하는 해시 값 생성부;
    상기 복수의 파일들 각각에 대하여, 상기 n개의 해시 값들로부터 해시 값이 서로 중복되지 않는 적어도 하나의 고유 해시 값을 추출한 후, 상기 n개의 해시 값들에서 상기 적어도 하나의 고유 해시 값 각각이 존재하는 빈도수를 카운트하는 카운트부;
    상기 복수의 파일들 각각에 대하여, 상기 적어도 하나의 고유 해시 값의 빈도수를 오름차순으로 정렬한 후, 오름차순으로 정렬된 상기 적어도 하나의 고유 해시 값의 빈도수를 기초로, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 생성하는 분포 정보 생성부;
    상기 기준 파일에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보와, 상기 복수의 파일들에서 상기 기준 파일을 제외한 나머지 파일들에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보 간 유사도를 연산하는 유사도 연산부;
    상기 나머지 파일들 중 상기 기준 파일과의 상기 유사도가 기설정된 기준치 이상인 적어도 하나의 유사 파일을 선택한 후, 상기 적어도 하나의 유사 파일을 파일 저장소에 저장하는 파일 저장부; 및
    상기 사용자로부터 수신된 상기 기준 파일에 대한 상기 유사 파일 탐색 명령에 대응하여, 상기 적어도 하나의 유사 파일로 구성된 유사 파일 목록을 화면 상에 표시하는 유사 파일 표시부
    를 포함하는 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치.
  2. 제1항에 있어서,
    상기 분포 정보 생성부는
    상기 복수의 파일들 각각에 대하여, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보가 생성되면, 상기 적어도 하나의 고유 해시 값의 빈도수 중 최대 빈도수와 최소 빈도수를 추출한 후, 상기 최대 빈도수와 상기 최소 빈도수를 기초로, 상기 적어도 하나의 고유 해시 값 각각의 빈도수에 대해 정규화를 위한 연산을 수행함으로써, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 정규화시키는 정규화부
    를 포함하는 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치.
  3. 제2항에 있어서,
    상기 정규화부는
    상기 최대 빈도수와 상기 최소 빈도수를 기초로, 상기 적어도 하나의 고유 해시 값 각각의 빈도수에 대해 하기의 수학식 1에 따른 정규화를 위한 연산을 수행함으로써, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 정규화시키는 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치.
    [수학식 1]
    Figure PCTKR2020014359-appb-I000004
    여기서,
    Figure PCTKR2020014359-appb-I000005
    는 a의 정규화 값을 의미하고, ai는 오름차순으로 정렬된 상기 적어도 하나의 고유 해시 값 중 i번째 해시 값의 빈도수, Min은 상기 적어도 하나의 고유 해시 값의 빈도수 중 상기 최소 빈도수, Max는 상기 적어도 하나의 고유 해시 값의 빈도수 중 상기 최대 빈도수를 의미함.
  4. 제3항에 있어서,
    상기 유사도 연산부는
    상기 기준 파일에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보와, 상기 나머지 파일들에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보 간 유사도를 하기의 수학식 2에 따라 연산하는 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치.
    [수학식 2]
    Figure PCTKR2020014359-appb-I000006
    여기서,
    Figure PCTKR2020014359-appb-I000007
    는 파일 a에 대하여, 오름차순으로 정렬된 상기 적어도 하나의 고유 해시 값 중 i번째 해시 값에 대한 빈도수의 정규화 값,
    Figure PCTKR2020014359-appb-I000008
    는 파일 b에 대하여, 오름차순으로 정렬된 상기 적어도 하나의 고유 해시 값 중 i번째 해시 값에 대한 빈도수의 정규화 값을 의미하고, m은 파일 a에 대한 상기 적어도 하나의 고유 해시 값의 개수와 파일 b에 대한 상기 적어도 하나의 고유 해시 값의 개수 중 더 작은 수를 의미함.
  5. 제1항에 있어서,
    상기 파일 저장부는
    상기 적어도 하나의 유사 파일을 디스크 이미지 파일 형식으로 변환하여 상기 파일 저장소에 저장하는 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치.
  6. 사용자로부터 미리 정해진 복수의 파일들 중 어느 하나인 기준 파일에 대한 유사 파일 탐색 명령이 수신되면, 상기 복수의 파일들 각각으로부터, 상기 복수의 파일들 각각에 대한 n(n은 2이상의 자연수임)개의 피쳐(feature)들 - 상기 n개의 피쳐들은 상기 복수의 파일들 각각에 대한 데이터를 구성하는 비트열에서, 기설정된(predetermined) 데이터 패턴이 존재하는 지점을 경계로 하여 분할함으로써 생성된 n개의 부분 비트열을 의미함 - 을 추출하는 단계;
    상기 복수의 파일들 각각에 대한 상기 n개의 피쳐들을 기설정된 해시 함수에 입력으로 인가하여, 상기 복수의 파일들 각각에 대한 n개의 해시 값들을 생성하는 단계;
    상기 복수의 파일들 각각에 대하여, 상기 n개의 해시 값들로부터 해시 값이 서로 중복되지 않는 적어도 하나의 고유 해시 값을 추출한 후, 상기 n개의 해시 값들에서 상기 적어도 하나의 고유 해시 값 각각이 존재하는 빈도수를 카운트하는 단계;
    상기 복수의 파일들 각각에 대하여, 상기 적어도 하나의 고유 해시 값의 빈도수를 오름차순으로 정렬한 후, 오름차순으로 정렬된 상기 적어도 하나의 고유 해시 값의 빈도수를 기초로, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 생성하는 단계;
    상기 기준 파일에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보와, 상기 복수의 파일들에서 상기 기준 파일을 제외한 나머지 파일들에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보 간 유사도를 연산하는 단계;
    상기 나머지 파일들 중 상기 기준 파일과의 상기 유사도가 기설정된 기준치 이상인 적어도 하나의 유사 파일을 선택한 후, 상기 적어도 하나의 유사 파일을 파일 저장소에 저장하는 단계; 및
    상기 사용자로부터 수신된 상기 기준 파일에 대한 상기 유사 파일 탐색 명령에 대응하여, 상기 적어도 하나의 유사 파일로 구성된 유사 파일 목록을 화면 상에 표시하는 단계
    를 포함하는 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치의 동작 방법.
  7. 제6항에 있어서,
    상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 생성하는 단계는
    상기 복수의 파일들 각각에 대하여, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보가 생성되면, 상기 적어도 하나의 고유 해시 값의 빈도수 중 최대 빈도수와 최소 빈도수를 추출한 후, 상기 최대 빈도수와 상기 최소 빈도수를 기초로, 상기 적어도 하나의 고유 해시 값 각각의 빈도수에 대해 정규화를 위한 연산을 수행함으로써, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 정규화시키는 단계
    를 포함하는 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치의 동작 방법.
  8. 제7항에 있어서,
    상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 정규화시키는 단계는
    상기 최대 빈도수와 상기 최소 빈도수를 기초로, 상기 적어도 하나의 고유 해시 값 각각의 빈도수에 대해 하기의 수학식 1에 따른 정규화를 위한 연산을 수행함으로써, 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보를 정규화시키는 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치의 동작 방법.
    [수학식 1]
    Figure PCTKR2020014359-appb-I000009
    여기서,
    Figure PCTKR2020014359-appb-I000010
    는 a의 정규화 값을 의미하고, ai는 오름차순으로 정렬된 상기 적어도 하나의 고유 해시 값 중 i번째 해시 값의 빈도수, Min은 상기 적어도 하나의 고유 해시 값의 빈도수 중 상기 최소 빈도수, Max는 상기 적어도 하나의 고유 해시 값의 빈도수 중 상기 최대 빈도수를 의미함.
  9. 제8항에 있어서,
    상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보 간 유사도를 연산하는 단계는
    상기 기준 파일에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보와, 상기 나머지 파일들에 대응되는 상기 적어도 하나의 고유 해시 값의 빈도수에 대한 분포 정보 간 유사도를 하기의 수학식 2에 따라 연산하는 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치의 동작 방법.
    [수학식 2]
    Figure PCTKR2020014359-appb-I000011
    여기서,
    Figure PCTKR2020014359-appb-I000012
    는 파일 a에 대하여, 오름차순으로 정렬된 상기 적어도 하나의 고유 해시 값 중 i번째 해시 값에 대한 빈도수의 정규화 값,
    Figure PCTKR2020014359-appb-I000013
    는 파일 b에 대하여, 오름차순으로 정렬된 상기 적어도 하나의 고유 해시 값 중 i번째 해시 값에 대한 빈도수의 정규화 값을 의미하고, m은 파일 a에 대한 상기 적어도 하나의 고유 해시 값의 개수와 파일 b에 대한 상기 적어도 하나의 고유 해시 값의 개수 중 더 작은 수를 의미함.
  10. 제6항에 있어서,
    상기 파일 저장소에 저장하는 단계는
    상기 적어도 하나의 유사 파일을 디스크 이미지 파일 형식으로 변환하여 상기 파일 저장소에 저장하는 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치의 동작 방법.
  11. 제6항 내지 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  12. 제6항 내지 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.
PCT/KR2020/014359 2019-11-05 2020-10-20 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법 WO2021091124A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0139908 2019-11-05
KR1020190139908A KR102073833B1 (ko) 2019-11-05 2019-11-05 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법

Publications (1)

Publication Number Publication Date
WO2021091124A1 true WO2021091124A1 (ko) 2021-05-14

Family

ID=69514534

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/014359 WO2021091124A1 (ko) 2019-11-05 2020-10-20 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법

Country Status (2)

Country Link
KR (1) KR102073833B1 (ko)
WO (1) WO2021091124A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102073833B1 (ko) * 2019-11-05 2020-02-05 (주)키온비트 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법
CN112732664B (zh) * 2020-12-31 2024-04-05 五八有限公司 证据提取方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101178068B1 (ko) * 2005-07-14 2012-08-30 주식회사 케이티 텍스트의 카테고리 분류 장치 및 그 방법
JP2013068884A (ja) * 2011-09-26 2013-04-18 Nippon Telegr & Teleph Corp <Ntt> ハッシュ関数生成方法、ハッシュ値演算方法、ハッシュ関数生成装置、ハッシュ値演算装置、ハッシュ関数生成プログラム及びハッシュ値演算プログラム
JP5233518B2 (ja) * 2008-08-29 2013-07-10 沖電気工業株式会社 検索分析サーバ装置及び検索分析方法
JP5598925B2 (ja) * 2011-06-29 2014-10-01 Kddi株式会社 高次元の特徴ベクトルを高精度で検索する検索装置及びプログラム
JP2015201042A (ja) * 2014-04-08 2015-11-12 日本電信電話株式会社 ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
KR102073833B1 (ko) * 2019-11-05 2020-02-05 (주)키온비트 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100459379B1 (ko) * 2002-07-30 2004-12-03 주식회사 모비젠 유사 전자문서 판단을 위한 기초데이터 생성방법 및 그시스템
KR100895102B1 (ko) 2007-05-21 2009-04-28 한국전자통신연구원 파일 탐색 시스템 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101178068B1 (ko) * 2005-07-14 2012-08-30 주식회사 케이티 텍스트의 카테고리 분류 장치 및 그 방법
JP5233518B2 (ja) * 2008-08-29 2013-07-10 沖電気工業株式会社 検索分析サーバ装置及び検索分析方法
JP5598925B2 (ja) * 2011-06-29 2014-10-01 Kddi株式会社 高次元の特徴ベクトルを高精度で検索する検索装置及びプログラム
JP2013068884A (ja) * 2011-09-26 2013-04-18 Nippon Telegr & Teleph Corp <Ntt> ハッシュ関数生成方法、ハッシュ値演算方法、ハッシュ関数生成装置、ハッシュ値演算装置、ハッシュ関数生成プログラム及びハッシュ値演算プログラム
JP2015201042A (ja) * 2014-04-08 2015-11-12 日本電信電話株式会社 ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
KR102073833B1 (ko) * 2019-11-05 2020-02-05 (주)키온비트 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법

Also Published As

Publication number Publication date
KR102073833B1 (ko) 2020-02-05

Similar Documents

Publication Publication Date Title
WO2021091124A1 (ko) 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법
WO2019103224A1 (ko) 문서 내 핵심 키워드 추출 시스템 및 방법
WO2013073805A1 (ko) 이미지 검색 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체
WO2020045714A1 (ko) 콘텐츠 인식 방법 및 시스템
WO2008145055A1 (fr) Procédé pour obtenir une information de mot de restriction et pour optimiser le système du procédé d&#39;entrée et de sortie
WO2017138766A1 (ko) 하이브리드 기반의 영상 클러스터링 방법 및 이를 운용하는 서버
WO2012050252A1 (ko) 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법
WO2017111340A1 (ko) 불법 복제된 온라인 만화 식별 시스템 및 방법
JP4170296B2 (ja) 事例分類装置および方法
WO2022060066A1 (ko) 전자 장치, 컨텐츠 검색 시스템 및 검색 방법
WO2020138607A1 (ko) 챗봇을 이용한 질의 응답 방법 및 장치
WO2021221209A1 (ko) 동영상 내부의 정보를 검색하는 방법 및 장치
WO2014142422A1 (ko) 지시 표현 처리에 기반한 대화 처리 방법 및 장치
WO2022124573A1 (ko) 메뉴 구조 및 스크립트 내 키워드 기반 웹 사이트의 유사도 평가 방법
WO2015133774A1 (ko) 특허 분석 시스템 및 방법과 이를 실행하기 위한 프로그램이 기록된 기록매체
CN111930885A (zh) 文本话题的抽取方法、装置及计算机设备
WO2014148664A1 (ko) 단어의 의미를 기반으로 하는 다국어 검색 시스템, 다국어 검색 방법 및 이를 이용한 이미지 검색 시스템
WO2012030049A2 (ko) 동적 임계값이 적용된 유사문서 분류화 장치 및 방법
WO2019216502A1 (ko) 악성코드 데이터를 분류하는 장치 및 방법
WO2022019601A1 (ko) 영상의 객체 특징점 추출과 이를 이용한 영상검색 시스템 및 방법
WO2020138618A1 (ko) 음악 감성 인식 방법 및 장치
WO2016068514A1 (ko) 자연어 처리를 활용한 제품별 산업구조 분석방법 및 분석장치
WO2021045312A1 (ko) 해시 코드 기반의 검색 장치 및 검색 방법
WO2009126012A2 (ko) 검색시스템 및 그 방법
WO2015020422A1 (ko) 히스토그램을 이용한 고속 유사도 측정 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20885841

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205 DATED 21/09/2022)

122 Ep: pct application non-entry in european phase

Ref document number: 20885841

Country of ref document: EP

Kind code of ref document: A1