WO2019143137A1 - 영상 전처리 방법, 장치 및 컴퓨터 프로그램 - Google Patents

영상 전처리 방법, 장치 및 컴퓨터 프로그램 Download PDF

Info

Publication number
WO2019143137A1
WO2019143137A1 PCT/KR2019/000676 KR2019000676W WO2019143137A1 WO 2019143137 A1 WO2019143137 A1 WO 2019143137A1 KR 2019000676 W KR2019000676 W KR 2019000676W WO 2019143137 A1 WO2019143137 A1 WO 2019143137A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
scene
image
frames
dividing
Prior art date
Application number
PCT/KR2019/000676
Other languages
English (en)
French (fr)
Inventor
정태영
Original Assignee
오드컨셉 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오드컨셉 주식회사 filed Critical 오드컨셉 주식회사
Priority to JP2020535971A priority Critical patent/JP7105309B2/ja
Priority to US16/769,237 priority patent/US20210182566A1/en
Publication of WO2019143137A1 publication Critical patent/WO2019143137A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Definitions

  • the present invention relates to an image preprocessing method, an apparatus, and a computer program, and more particularly, to an image preprocessing method, apparatus, and computer program for facilitating searching of objects included in an image.
  • an administrator has separately defined a goods object in an image and more often used a method of providing an image including the goods object.
  • This method has a limitation in meeting the needs of consumers in that similar items can be confirmed only for the objects specified by the administrator among the objects included in a specific image.
  • Korean Patent Laid-Open No. 10-2008-0078217 (entitled " An object index method included in an image, an additional service method using the index information, an image processing device thereof, : 2008.08.27.)
  • the preceding literature manages virtual frames and cells for managing and storing the relative positions of the objects included in the image in order to recognize the objects included in the specific image, thereby accurately determining the object at the position designated by the viewer on the display device And provides a way to make it happen.
  • the prior art document discloses one of the methods of identifying an object, but does not recognize the problem of reducing resources required for image processing in order to efficiently perform a search. Therefore, there is a need for a method for minimizing the resources required for image processing and for increasing the search accuracy and efficiency.
  • the present invention has been made to solve the above-mentioned problems, and it is an object of the present invention to quickly and accurately identify objects that need to be searched among objects included in an image.
  • Another object of the present invention is to provide an image processing method capable of maximizing the efficiency of object-based image retrieval and minimizing resources used in image processing.
  • Another object of the present invention is to accurately process information required by a consumer viewing an image and process the image so that user-centered information can be provided instead of providing information centered on the image provider.
  • a method of processing an arbitrary image comprising: dividing the image into units of a scene including one or more frames; Identifying an object related to a predetermined theme in the search object frame, and mapping at least one of image or object information corresponding to the object and a search result to the object. .
  • FIG. 1 is a block diagram for explaining an object information providing apparatus according to an embodiment of the present invention
  • FIG. 2 is a flowchart illustrating an object information providing method according to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating an image processing method according to an embodiment of the present invention.
  • 4 to 8 are flowcharts for explaining a scene unit classification method of an image according to an embodiment of the present invention.
  • FIG. 9 is a flowchart for explaining a search object frame selecting method according to an embodiment of the present invention.
  • FIG. 10 is a flowchart for explaining a search object frame selecting method according to another embodiment of the present invention.
  • FIG. 11 is a diagram illustrating an object identified in an image according to an embodiment of the present invention.
  • an object information providing apparatus 100 includes an image reproducing unit 110, an input unit 130, an object identifying unit 150, and an output unit 170.
  • the object information providing apparatus 100 may be a computer, a notebook, or a portable terminal such as a tablet or a smart phone. Furthermore, the object information providing apparatus 100 is a terminal that receives data from a server using a wired / wireless network and controls, manages or outputs data received according to a user input.
  • the object information providing apparatus 100 includes an artificial intelligent speaker, a form of a set- . ≪ / RTI >
  • the communication unit 110 may receive the processed image from the server using the image processing method according to an embodiment of the present invention.
  • the output unit 130 may output the processed image to a display module (not shown) using the image processing method according to an embodiment of the present invention.
  • the image output by the output unit 130 may be received from the communication unit 110, but may be stored in advance in a database (not shown). If the image processing according to an embodiment of the present invention is performed in the object information providing apparatus, the output unit 130 can receive and output the processed image from the image processing apparatus.
  • a detailed description of the image processing method according to an embodiment of the present invention will be described later with reference to FIG. 3 to FIG. According to an exemplary embodiment of the present invention, information on objects included in an image is mapped to the processed image.
  • the output unit 110 may display the object information while reproducing an image according to user settings, It is possible to display the mapped object information when the user input is received while reproducing the original image.
  • the output unit 110 edits and manages an image transmitted to the display module.
  • an embodiment of displaying object information when a user input is received will be described.
  • the input unit 130 receives a predetermined selection command from the user.
  • the input unit 130 is for receiving information from a user and the input unit 130 is connected to a mechanical input unit (or a mechanical key, for example, a button located on the front, A dome switch, a jog wheel, a jog switch, etc.) and a touch-type input means.
  • the touch-type input means may comprise a virtual key, a soft key or a visual key displayed on the touch screen through software processing, And a touch key disposed on the touch panel.
  • the virtual key or the visual key can be displayed on a touch screen having various forms, for example, a graphic, a text, an icon, a video, As shown in FIG.
  • the input unit 130 may be a microphone for processing an external acoustic signal into electrical voice data.
  • the input unit 130 may determine that the selection command has been received. For example, if the nickname of the object information providing apparatus 100 is 'Terry' and the voice 'Haiterry' is input, the object information providing apparatus 100 may be set to be activated. If the activation voice is set as the selection command and the user's voice 'Haiterry' is received through the input unit 130 during the video output, the control unit 170 receives a selection command for capturing the frame at the input time point It is possible to capture a frame at that point in time.
  • the input unit 150 may include a camera module.
  • the pre-set selection command may be a user gesture recognized through the camera module, and if a preset gesture is recognized through the camera module, the controller 170 may recognize the gesture as a selection command.
  • the control unit 170 may acquire a frame at a time point when a selection command is input from the image, and may identify an object included in the acquired frame.
  • the frame may be a screen shot of an image being output to the display device, and may be one of a plurality of frames included within a predetermined range before and after the input of a selection command.
  • selecting one of the frames within a certain range around the input time point may be similar to a method of selecting a search object frame, which will be described later.
  • control unit 170 When the control unit 170 identifies the object from the frame corresponding to the user selection input, the control unit 170 can check the object information mapped to the object and transmit the object information to the output unit 130.
  • the output unit 130 may output the identified object information, and there is no particular limitation on the manner in which the object information is displayed through the display device.
  • FIG. 2 is a flowchart illustrating an object information providing method of an electronic device according to an embodiment of the present invention.
  • image processing according to an embodiment of the present invention is performed (S1000).
  • the image processing may be performed in the server or in an electronic device.
  • the electronic device can receive the processed image from the server and reproduce the processed image. A detailed description of step 1000 will be described later with reference to FIG.
  • the electronic device reproduces the processed image (S2000), and when receiving the preset selection command from the user, it can acquire the frame at the time when the selection command is input (S4000).
  • the object information mapped to the object included in the frame can be displayed on the screen (S5000).
  • the object information is included in the processed image, and may be displayed on the screen when a selection command corresponding to the user request is input in step 3000.
  • the electronic device may display the object information mapped to each object independently of the user's selection command while reproducing the processed image.
  • FIG. 3 is a flowchart illustrating an image processing method of an electronic device according to an embodiment of the present invention.
  • a server processes an image
  • a server may divide an image into units of a scene including one or more frames (S100).
  • a scene is a unit of a picture related to a similar subject or event, and literally means a scene of a movie, a play, or a literary work.
  • a scene unit for segmenting an image may also be understood to mean one or more frames related to one event or topic. That is, one scene is not abruptly changed in space or portrait, and an object included in the image can be maintained (without moving) within the frame without a large change.
  • the present invention distinguishes images in units of scenes, selects only one of the frames in the scene, and reduces the amount of data to be analyzed by analyzing the images.
  • the image uses about 20 to 60 frames per second, and the frame per second (FPS) is gradually increasing as the performance of the electronic device is improved. Assuming 50 frames per second is used, 10 minutes of video is composed of 30,000 frames. Since the object tracking of each frame means that it is necessary to analyze what objects are contained in each of 30,000 frames, there is a problem that the processing capacity becomes too large even if the characteristics of the objects in the frame are analyzed using the machine learning. Therefore, the server divides the image into scene units in the following manner, thereby reducing the processing capacity and increasing the processing speed.
  • FPS frame per second
  • the server identifies the color spectrum of the frame in step S113, determines whether the change of the color spectrum between the first frame and the second frame is equal to or greater than a preset threshold value in step S115, If it is greater than or equal to the predetermined threshold value, the scene of the first frame and the scene of the second frame can be distinguished (S117). If there is no change in the color spectrum between two successive frames, the determination of step 115 may be performed again for the next frame.
  • the server detects feature information that is supposed to be an arbitrary object in the frame and determines whether the first feature information contained in the first frame is included in the second frame that is contiguous .
  • the server can distinguish the first frame from the second frame if the first feature information is not included in the second frame. That is, the frames including the feature information estimated as an arbitrary object are set as one scene, and if the feature information is no longer included in the specific frame, the frame can be divided into another scene.
  • Detection is a concept that is different from recognition or identification, and it can be said to be one level lower than the recognition that an object is an object in that it is to find the existence of an object in an image . More specifically, the feature information estimated as an arbitrary object can be detected by using an interface between an object and a background to distinguish whether it is an object or a global descriptor.
  • the matching rate is an index indicating the degree of matching of images between two frames. If the background is overlapped or the characters included in the frame are the same, the matching rate may be increased.
  • consecutive frames related to an event in which the same person plays in the same space in a movie or a drama will be highly matching because the person and space are matched, so that the frames can be classified into the same scene have.
  • the matching rate is less than the preset value
  • the server can distinguish the first frame from the second frame. That is, when the space displayed on the video is changed or the character is changed, the matching rate between consecutive frames is remarkably decreased. Therefore, the server judges that the scene change has been made in this case, One frame may be set as the first scene and the second frame as the second scene.
  • the server identifies a frequency spectrum of each frame (S153), and determines whether the change of the frequency spectrum between consecutive first and second frames is equal to or greater than a predetermined threshold value (S155), the scene of the first frame and the scene of the second frame can be distinguished (S157).
  • the server can identify the frequency spectrum of each frame using DCT (Discrete Cosine Transform), DST (Discrete Sine Transform), DFT (Discrete Fourier Transform), MDCT (Modified DCT)
  • DCT Discrete Cosine Transform
  • DST Discrete Sine Transform
  • DFT Discrete Fourier Transform
  • MDCT Modified DCT
  • the frequency spectrum represents the distribution of the frequency components of the image included in the frame. It can be understood that the frequency spectrum represents information on the contour of the entire image in the low frequency region and the information on the fine portion of the image in the high frequency region.
  • the change in the frequency spectrum at step 155 is measurable by comparing the size of each component.
  • step S171 the server divides each of the frames into at least one region having a predetermined size (S171), and identifies a color spectrum or a frequency spectrum for each region (S173).
  • the server computes the difference of the color spectrum or the frequency spectrum of the corresponding region in the first frame and the second frame in succession (S175), and adds the absolute value of the difference of each region (S177). If the summed result is greater than or equal to a predetermined threshold value, the first and second frames can be distinguished from each other.
  • each of the frames is divided into at least one region having a predetermined size (S183), the matching rates for the corresponding regions in the first and second consecutive frames are calculated S185). If the average of the matching rates is less than a predetermined value, the first and second frames can be distinguished from each other (S187).
  • the server can select a search target frame according to a preset reference in the scene (S200).
  • a frame to be searched can be understood as a frame including a target object for performing an object-based search. That is, in one embodiment of the present invention, the server can reduce resources by designating a frame to be searched and analyzing only objects included in a frame to be searched, rather than tracking and analyzing the objects of all frames included in the image. Since the server does not analyze all the frames, it is desired to extract an object that can increase the search accuracy most. Therefore, in step 200, a frame that can obtain the most accurate search result in the object based search can be selected as a search target frame .
  • the server in selecting a frame to be searched, the server identifies a blur area in a frame (S213), and calculates a weight occupied by the blur area in the frame (S215).
  • the server can select the frame having the lowest specific gravity of the blur area among the one or more frames included in the first scene as a search target frame of the first scene.
  • the blur area is a blurred area in the image that can not detect the object or may degrade the accuracy of the object based image search.
  • the server selects the frame with the lowest proportion of the blur area as a frame to be searched for each scene, thereby enhancing the accuracy of subsequent object detection and analysis and object-based image search.
  • the server can detect the blur area by identifying the area in the frame where the local descriptor is not extracted as the blur area.
  • the local descriptor is a feature vector representing the core part of the object image and can be extracted by various methods such as SIFT, SURF, LBP, BRISK, MSER, and FREAK.
  • the local descriptor is distinguished from the global descriptor that describes the entire object image. It is a concept used in a high-level application such as object recognition. In the present specification, the local descriptor is used in a conventional sense.
  • the server extracts feature information from a frame in a frame (S233), and the extracted feature information of one or more frames included in the first scene is extracted from the frame Many frames can be selected as the search target frame of the first scene (S235).
  • the feature information includes both a global descriptor and a local descriptor.
  • the feature information may include an outline, a shape, a texture, or feature points and feature vectors capable of recognizing a specific object.
  • the server does not recognize the object, it can extract feature information at a level that can detect that the object exists, and designate a frame including the most feature information as a search target.
  • the server can perform an object-based image search using a frame including the most feature information for each scene, minimize the missing objects without extracting the objects from all the frames, Detection, and utilization.
  • the server may identify an object associated with a predetermined subject in the search object frame. Identification of the object can be performed by extracting feature information of the object. In this step, the server can identify the object in more detail than the detection of the object in the previous step (S100, S200). In other words, a more accurate algorithm can be used in the object identification algorithm, and therefore, the object is extracted so that there is no missing object in the search object frame.
  • the server can classify one or more frames made in the kitchen in the drama image into one scene in step 100 and select a frame to be searched according to a predetermined criterion in step 200.
  • 11 is a search object frame selected in step 200, the frame of FIG. 11 may be selected as a search object frame because the proportion of the blur area is the lowest among the scenes performed in the kitchen, and the number of detected objects There can be many selected.
  • 11 includes objects related to kitchen appliances such as pots K10 and K40 and refrigerators K20 and K30 and clothes such as tops C10 and skirt C20 and clothes C30, Related objects are also included.
  • the server identifies the objects (K10 to K40, C10 to C30) in the search object frame.
  • the server can identify an object related to the predetermined topic.
  • a myriad of objects can be detected within a search object frame, and the server can extract only necessary information by identifying objects related to a predetermined subject.
  • the predetermined theme is clothing
  • the server can identify only the object related to the clothing in the search target frame, and in this case, the server can identify the image C10, the skirt C20, the dress C30, and the like.
  • the preset theme is kitchen appliance / appliance, it will identify K10, K20, K30, K40.
  • 'subject' means a category that distinguishes an object, and a category that defines an arbitrary object according to a user setting may be an upper concept or a lower concept.
  • a subject may be set to a higher concept such as clothing, but it may also be set to a sub-concept such as a skirt, a dress, or a T-shirt.
  • the subject establishing subject may be an administrator who manages the server, or may be a user.
  • the server can receive information on the subject from the user terminal and identify the object in the search object frame according to the received subject information.
  • the server may then retrieve at least one of the image or object information corresponding to the object identified in step 400 and map the search result to the object in step 500.
  • the server may retrieve an image similar to image C10 identified in the image database to obtain an image corresponding to image C10.
  • the server may store object information related to the image (C10) in the database, that is, object image information such as advertisement image and / or image related to the image in which a white slant pattern is printed in black, price, Can be obtained.
  • the database may be generated in advance and included in the server.
  • the database may be constructed through real-time similar image search by real-time crawling of web pages and the like, and the server may perform search have.
  • the product information (price, brand name, product name, product code, product type, product characteristics, product purchaser, etc.) corresponding to the search result, that is, the image corresponding to the identified object, the object, the advertisement text, the advertisement image,
  • the mapped search result may be displayed on a layer adjacent to the image or displayed in an image or an upper layer of the image when the image is reproduced. Or a search result may be displayed in response to a user request at the time of image reproduction.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 영상 전처리 방법, 장치 및 컴퓨터 프로그램에 관한 것이다. 본 발명은 임의의 영상을 처리하는 방법에 있어서, 상기 영상을 하나 이상의 프레임을 포함하는 장면(scene) 단위로 구분하는 단계, 상기 장면에서 기 설정된 기준에 따른 검색 대상 프레임을 선정하는 단계, 상기 검색 대상 프레임에서 기 설정된 주제와 관련된 객체를 식별하는 단계, 상기 객체에 대응되는 이미지 또는 객체 정보 중 적어도 하나를 검색하여 상기 객체에 검색 결과를 맵핑하는 단계를 포함하는 것을 일 특징으로 한다. 본 발명에 의하면 객체 기반 이미지 검색의 효율성을 극대화하고, 영상 처리에 사용되는 리소스를 최소화할 수 있다.

Description

영상 전처리 방법, 장치 및 컴퓨터 프로그램
본 발명은 영상 전처리 방법, 장치 및 컴퓨터 프로그램에 관한 것으로, 보다 자세하게는 영상에 포함된 객체의 검색을 용이하게 하기 위한 영상 전처리 방법, 장치 및 컴퓨터 프로그램에 관한 것이다.
이미지, 비디오 등 멀티미디어 서비스의 수요가 증가하고 휴대용 멀티미디어 기기가 보편적으로 보급되면서 방대한 양의 멀티미디어 데이터를 관리하고 소비자가 원하는 컨텐츠를 빠르고 정확하게 찾아내 제공하는 효율적인 멀티미디어 검색 시스템의 필요성도 커지고 있다.
종래에는 영상에 포함된 상품 객체와 유사 상품 정보를 제공하는 서비스에서 이미지 검색을 수행하기 보다는 영상 내 상품 객체를 관리자가 별도로 정의하고 이를 포함하는 영상을 제공하는 방식을 더 많이 사용하였다. 이러한 방식은 특정 영상에 포함된 객체 중 관리자가 지정한 객체에 대해서만 유사 상품의 확인이 가능하다는 점에서 소비자의 니즈를 충족시키는 데 한계가 있다.
다만, 영상에 포함된 상품 객체에 대해 일일이 검색을 수행하려면 데이터 처리량이 너무 방대해지는 문제가 있다. 또한 영상은 하나 이상의 프레임(이미지)으로 이루어져있으며, 각 프레임은 복수의 객체를 포함하기 때문에 수많은 객체 중 어떤 객체를 쿼리 이미지로 정의할 것인지에 대한 문제도 있다.
영상에 포함된 객체를 식별하기 위한 기술로 한국공개특허 제10-2008-0078217호 (발명의 명칭: 영상에 포함된 객체 색인 방법과 그 색인 정보를 이용한부가 서비스 방법 및 그 영상 처리 장치, 공개일: 2008.08.27.)이 있다. 위 선행문헌은 특정 영상에 포함된 객체의 인식을 위해 영상에 포함된 객체의 상대적인 위치를 관리하고 저장하기 위한 가상의 프레임과 셀을 관리함으로써, 표시 장치 상에서 시청자가 지정한 위치의 객체를 정확하게 판단할 수 있도록 하는 방법을 제공하고 있다.
그러나 위 선행문헌은 객체를 식별하는 방법 중 하나를 개시하고 있을 뿐, 검색을 효율적으로 수행하기 위해 영상 처리에 요구되는 리소스를 줄이는 문제에 대해서는 인식하고 있지 않다. 따라서 영상 처리에 요구되는 리소스를 최소화하고 검색 정확도 및 효율성을 높일 수 있는 방안이 요구된다.
본 발명은 전술한 문제점을 해결하기 위한 것으로서, 영상에 포함된 객체 중 검색이 필요한 객체를 빠르고 정확하게 식별하는 것을 일 목적으로 한다.
또한 본 발명은 객체 기반 이미지 검색의 효율성을 극대화하고, 영상 처리에 사용되는 리소스를 최소화할 수 있는 영상 처리 방법을 제공하는 것을 다른 목적으로 한다.
또한 본 발명은 영상을 시청하는 소비자가 필요로 하는 정보를 정확하게 제공하고, 영상 제공자 중심의 정보 제공이 아니라 사용자 중심의 정보 제공이 이루어질 수 있도록 영상을 처리하는 것을 다른 목적으로 한다.
이러한 목적을 달성하기 위한 본 발명은 임의의 영상을 처리하는 방법에 있어서, 상기 영상을 하나 이상의 프레임을 포함하는 장면(scene) 단위로 구분하는 단계, 상기 장면에서 기 설정된 기준에 따른 검색 대상 프레임을 선정하는 단계, 상기 검색 대상 프레임에서 기 설정된 주제와 관련된 객체를 식별하는 단계, 상기 객체에 대응되는 이미지 또는 객체 정보 중 적어도 하나를 검색하여 상기 객체에 검색 결과를 맵핑하는 단계를 포함하는 것을 일 특징으로 한다.
전술한 바와 같은 본 발명에 의하면, 영상에 포함된 객체 중 검색이 필요한 객체를 빠르고 정확하게 식별할 수 있다.
또한 본 발명에 의하면 객체 기반 이미지 검색의 효율성을 극대화하고, 영상 처리에 사용되는 리소스를 최소화할 수 있다.
또한 본 발명에 의하면 영상을 시청하는 소비자가 필요로 하는 정보를 정확하게 제공할 수 있으며, 영상 제공자 중심의 정보 제공이 아니라 사용자 중심의 정보 제공이 가능하다.
도 1은 본 발명의 일 실시 예에 따른 객체 정보 제공 장치를 설명하기 위한 블록도,
도 2는 본 발명의 일 실시 예에 따른 객체 정보 제공 방법을 설명하기 위한 순서도,
도 3은 본 발명의 일 실시 예에 따른 영상 처리 방법을 설명하기 위한 순서도,
도 4 내지 8은 본 발명의 일 실시 예에 따른 영상의 장면 단위 구분 방법을 설명하기 위한 순서도,
도 9는 본 발명의 일 실시 예에 따른 검색 대상 프레임 선정 방법을 설명하기 위한 순서도,
도 10은 본 발명의 다른 실시 예에 따른 검색 대상 프레임 선정 방법을 설명하기 위한 순서도,
도 11은 본 발명의 일 실시 예에 따라 영상에서 식별되는 객체를 도시한 도면이다.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용되며, 명세서 및 특허청구의 범위에 기재된 모든 조합은 임의의 방식으로 조합될 수 있다. 그리고 다른 식으로 규정하지 않는 한, 단수에 대한 언급은 하나 이상을 포함할 수 있고, 단수 표현에 대한 언급은 또한 복수 표현을 포함할 수 있음이 이해되어야 한다.
도 1은 본 발명의 일 실시 예에 따른 객체 정보 제공 장치를 설명하기 위한 블록도이다. 도 1을 참조하면, 본 발명의 일 실시 예에 따른 객체 정보 제공 장치(100)는 영상 재생부(110), 입력부(130), 객체 식별부(150), 출력부(170)를 포함한다.
객체 정보 제공 장치(100)는 컴퓨터, 노트북, 또는 태블릿, 스마트폰과 같은 휴대용 단말기일 수 있다. 나아가 객체 정보 제공 장치(100)는 유무선 네트워크를 이용해 서버로부터 데이터를 수신하고 사용자 입력에 따라 수신된 데이터를 제어, 관리 또는 출력하는 단말로, 인공지능 스피커, 셋톱박스(Set-Top Box)의 형태로 구현될 수 있다.
통신부(110)는 서버로부터 본 발명의 일 실시 예에 따른 영상 처리 방법을 이용하여 처리된 영상을 수신할 수 있다.
출력부(130)는 본 발명의 일 실시 예에 따른 영상 처리 방법을 이용하여 처리된 영상을 디스플레이 모듈(미도시)로 출력할 수 있다. 출력부(130)가 출력하는 영상은 통신부(110)로부터 수신한 것일 수 있으나 데이터베이스(미도시)에 미리 저장된 것일 수 있다. 만약 객체 정보 제공 장치 내에서 본 발명의 일 실시 예에 따른 영상 처리가 이루어진 경우, 출력부(130)는 영상 처리 장치로부터 처리된 영상을 수신하여 출력할 수 있다. 본 발명의 일 실시 예에 따른 영상 처리 방법에 대한 자세한 설명은 도 3 내지 도 11을 이용하여 후술하기로 한다. 본 발명의 일 실시 예에 따라 처리된 영상에는 영상 내에 포함되어 있는 객체들에 대한 정보가 맵핑되어 있는데, 출력부(110)는 사용자 설정에 따라서 영상을 재생하면서 객체 정보를 함께 표시할 수도 있고, 오리지널 영상을 재생하다가 사용자 입력이 수신되었을 때 맵핑된 객체 정보를 표시할 수 있다. 출력부(110)는 디스플레이 모듈로 전송되는 영상을 편집 및 관리하며, 이하에서는 사용자 입력이 수신되었을 때 객체 정보를 표시하는 경우의 일 실시 예를 설명한다.
입력부(130)는 사용자로부터 기 설정된 선택 명령을 입력받는다. 입력부(130)는 사용자로부터 정보를 입력받기 위한 것으로서, 입력부(130)는 기계식 (mechanical) 입력수단(또는, 메커니컬 키, 예를 들어, 이동 단말기(100)의 전·후면 또는 측면에 위치하는 버튼, 돔 스위치(dome switch), 조그 휠, 조그 스위치 등) 및 터치식 입력수단을 포함할 수 있다. 일 예로서, 터치식 입력수단은, 소프트웨어적인 처리를 통해 터치스크린에 표시되는 가상 키(virtual key), 소프트 키(soft key) 또는 비주얼 키(visual key)로 이루어지거나, 상기 터치스크린 이외의 부분에 배치되는 터치 키(touch key)로 이루어질 수 있다. 한편, 상기 가상키 또는 비주얼 키는, 다양한 형태를 가지면서 터치스크린 상에 표시되는 것이 가능하며, 예를 들어, 그래픽(graphic), 텍스트(text), 아이콘(icon), 비디오(video) 또는 이들의 조합으로 이루어질 수 있다.
또한 입력부(130)는 외부의 음향 신호를 전기적인 음성 데이터로 처리하는 마이크로폰일 수 있다. 마이크로폰으로 객체 정보 제공 장치(100)를 활성화시키는 음성 또는 기 설정된 음성 명령이 입력되면 입력부(130)는 선택 명령이 수신된 것으로 판단할 수 있다. 예를 들어, 객체 정보 제공 장치(100)의 닉네임이 ‘테리’이고, ‘하이 테리’라는 음성이 입력되면 객체 정보 제공 장치(100)가 활성화되도록 설정될 수 있다. 만일 활성화 음성을 선택 명령으로 설정한 경우, 영상 출력 중 사용자의 ‘하이 테리’라는 음성이 입력부(130)를 통해 수신되면, 제어부(170)는 입력된 시점의 프레임을 캡처하는 선택 명령이 수신된 것으로 판단하여 해당 시점의 프레임을 캡쳐할 수 있다.
또한 입력부(150)는 카메라 모듈을 포함할 수 있다. 이 경우 기 설정된 선택 명령은 카메라 모듈을 통해 인식되는 사용자 제스처일 수 있으며, 카메라 모듈을 통해 미리 설정된 제스처가 인식되면 제어부(170)는 이를 선택 명령으로 인지할 수 있다.
제어부(170)는 영상에서 선택 명령이 입력된 시점의 프레임을 획득하고, 획득한 프레임에 포함된 객체를 식별할 수 있다. 프레임은 디스플레이 장치에 출력되고 있는 영상의 스크린샷일 수 있으며, 선택 명령이 입력된 시점의 전후 기 설정된 범위 내에 포함되는 다수의 프레임 중 하나 일 수 있다. 이 경우, 입력 시점을 중심으로 일정 범위 내의 프레임 중 어느 하나를 선택하는 것은, 후술하는 검색 대상 프레임의 선정 방법과 유사할 수 있다.
제어부(170)는 사용자 선택 입력에 대응되는 프레임으로부터 객체를 식별하면, 해당 객체에 맵핑된 객체 정보를 확인하여 출력부(130)로 전송할 수 있다. 출력부(130)는 확인된 객체 정보를 출력할 수 있는데, 디스플레이 장치를 통해 표시되는 방식에는 특별한 제한이 없다.
도 2는 본 발명의 일 실시 예에 따른 전자 장치의 객체 정보 제공 방법을 설명하기 위한 순서도이다. 도 2를 참조하면, 먼저 본 발명의 일 실시 예에 따른 영상 처리가 이루어진다(S1000). 영상 처리는 서버에서 이루어질 수 있으며, 전자 장치 내에서 이루어질 수도 있다. 영상 처리가 서버에서 이루어진 경우, 전자 장치는 서버로부터 처리된 영상을 수신하여 이를 재생할 수 있다. 단계 1000에 대한 자세한 설명은 도 3을 통해 후술한다.
전자 장치는 처리된 영상을 재생하며(S2000), 사용자로부터 기 설정된 선택 명령을 입력받으면 선택 명령이 입력된 시점의 프레임을 획득할 수 있다(S4000). 그리고 프레임에 포함된 객체에 맵핑된 객체 정보를 화면에 표시할 수 있다(S5000). 객체 정보는 처리된 영상에 포함되는 것으로, 단계 3000에서 사용자 요청에 대응되는 선택 명령이 입력되면 화면에 표시될 수 있다.
다른 실시 예로, 전자 장치는 처리된 영상을 재생하면서 사용자의 선택 명령과 무관하게 각 객체에 맵핑된 객체 정보를 함께 표시할 수도 있다.
도 3은 본 발명의 일 실시 예에 따른 전자 장치의 영상 처리 방법을 설명하기 위한 순서도이다. 이하에서는 설명의 편의를 위하여 서버가 영상을 처리하는 실시 예를 중심으로 설명한다.
도 3을 참조하면, 서버는 객체 정보를 제공하기 위해 영상을 처리함에 있어서, 영상을 하나 이상의 프레임을 포함하는 장면(scene) 단위로 구분할 수 있다(S100).
도 4를 참조하여 영상을 장면 단위로 구분하는 단계 100의 일 실시 예를 살펴본다. 장면(Scene)은 유사한 주제 또는 사건과 관련된 영상의 일 단위로, 사전적으로는 영화, 연극, 문학 작품의 한 정경을 의미한다. 본 명세서에서 영상을 구분하는 장면 단위 역시 하나의 사건 또는 주제와 관련된 하나 이상의 프레임을 의미하는 것으로 이해될 수 있다. 즉, 일 장면은 공간 또는 인물의 변화가 급격하지 않아, 영상 내에 포함되는 객체가 (움직이는 것을 제외하) 프레임 내에서 큰 변화없이 유지될 수 있다. 본 발명은 영상을 장면 단위로 구분하고, 장면 중 어느 하나의 프레임만을 선택하여 이미지 분석에 활용함으로써 분석해야 하는 데이터 량을 현저히 줄인다.
예를 들어, 프레임 단위로 객체를 트래킹(tracking)하는 경우, 너무 많은 리소스를 소모하게 되는 문제가 있다. 일반적으로 영상은 초당 20~60개 정도의 프레임을 사용하며, 초당 프레임 수(FPS: Frame Per Second)는 전자 장치의 성능이 개선되면서 점점 증가하는 추세에 있다. 초당 50개의 프레임이 사용된다고 하면, 10분짜리 영상은 3만개의 프레임으로 이루어진다. 프레임 단위의 객체 트래킹은 3만개 프레임 각각에 어떤 객체들이 포함되어 있는지를 일일이 분석해야 하는 것을 의미하므로, 기계 학습을 이용하여 프레임 내 객체의 특징을 분석하더라도 처리 용량이 너무 커지는 문제가 있다. 따라서 서버는 다음과 같은 방식으로 영상을 장면 단위로 구분함으로써 처리 용량을 줄이고 처리 속도를 높일 수 있다.
서버는 단계 100에서 프레임의 컬러 스펙트럼을 식별하고(S113), 연속하는 제1 프레임과 제2 프레임 사이의 컬러 스펙트럼의 변화가 기 설정된 임계값 이상인지 여부를 판단하여(S115) 컬러 스펙트럼의 변화가 기 설정된 임계값 이상이면, 제1 프레임과 제2 프레임의 장면을 구분할 수 있다(S117). 만약 연속하는 두 프레임 간 컬러 스펙트럼의 변화가 없다면, 다음 프레임에 대하여 단계 115의 판단을 다시 수행할 수 있다.
단계 100의 또 다른 실시 예로, 서버는 프레임에서 임의의 객체로 추정되는 특징 정보를 탐지(detect)하고, 제1 프레임에 포함된 제1 특징 정보가 연속하는 제2 프레임에 포함되는지 여부를 판단할 수 있다. 서버는 제2 프레임에 제1 특징 정보가 포함되어 있지 않으면 제1 프레임과 제2 프레임의 장면을 구분할 수 있다. 즉, 임의의 객체로 추정되는 특징 정보가 포함되어 있는 프레임들을 일 장면으로 설정하되, 특정 프레임에서 해당 특징 정보가 더 이상 포함되지 않으면, 그 프레임부터 다른 장면으로 구분할 수 있다. 탐지(detect)는 인식(recognition) 내지 식별(identify)와는 상이한 개념으로, 객체의 이미지 내 존재 여부를 찾기 위한 것이라는 점에서 객체가 어떤 객체인지 식별하는 인식보다는 한 단계 낮은 수준의 작업이라고 할 수 있다. 보다 구체적으로, 임의의 객체로 추정되는 특징 정보의 탐지는 객체(object)와 배경 간 경계 등을 이용하여 물체인지 아닌지 구분하거나 글로벌 디스크립터를 이용할 수 있다.
단계 100의 또 다른 실시 예로, 도 5를 참조하면, 서버는 연속하는 제1 프레임과 제2 프레임의 매칭율을 연산하고(S133), 매칭율이 기 설정된 값 미만인지 여부를 판단할 수 있다(S135). 매칭율은 두 프레임 간 이미지의 매칭 정도를 나타내는 지표로, 배경이 중복된다든지, 프레임에 포함된 인물이 동일한 경우에는 매칭율이 높아질 수 있다.
예를 들어, 영화나 드라마와 같은 영상에서 같은 인물이 동일한 공간 안에서 벌이는 사건과 관련된 연속되는 프레임들은 인물과 공간이 매칭되기 때문에 매칭율이 매우 높게 나타날 것이며, 따라서 위 프레임들은 동일한 장면으로 분류될 수 있다. 서버는 단계 135에서의 판단 결과 매칭율이 기 설정된 값 미만이면 제1 프레임과 제2 프레임의 장면을 구분할 수 있다. 즉, 영상에 표시되는 공간이 변화되었다든지 등장 인물이 변화되는 경우에는 연속되는 프레임 간 매칭율이 현저하게 떨어지므로, 서버는 이러한 경우 장면 전환이 이루어진 것으로 판단하여 각 프레임의 장면을 구분할 수 있으며 제1 프레임은 제1 장면에 제2 프레임은 제2 장면으로 설정될 수 있다.
단계 100의 또 다른 실시 예로, 도 6을 참조하면, 서버는 각 프레임의 주파수 스펙트럼을 식별하고(S153), 연속하는 제1 프레임과 제2 프레임 사이의 상기 주파수 스펙트럼의 변화가 기 설정된 임계값 이상이면(S155), 상기 제1 프레임과 상기 제2 프레임의 장면을 구분할 수 있다(S157). 단계 153에서 서버는 DCT(Discrete Cosine Transform), DST(Discrete Sine Transform), DFT(Discrete Fourier Transform), MDCT(Modified DCT, Modulated Lapped Transform) 등을 이용하여 각 프레임의 주파수 스펙트럼을 식별할 수 있다. 주파수 스펙트럼은 프레임에 포함되는 이미지의 주파수 성분의 분포를 나타내는 것으로, 낮은 주파수 영역에는 전체적인 이미지의 윤곽에 대한 정보를 나타내고 높은 주파수 영역에는 이미지의 세밀한 부분에 대한 정보를 나타내는 것으로 이해될 수 있다. 단계 155에서의 주파수 스펙트럼의 변화는 성분 별 크기 비교를 통해 측정 가능하다.
단계 100의 또 다른 실시 예로, 도 7을 참조하면, 서버는 프레임 각각을 기 설정된 크기의 하나 이상의 영역으로 분할하고(S171), 영역 별로 컬러 스펙트럼 또는 주파수 스펙트럼을 식별할 수 있다(S173). 서버는 연속하는 제1 프레임과 제2 프레임에 있어서 대응되는 영역의 컬러 스펙트럼의 차이 또는 주파수 스펙트럼의 차이를 연산하고(S175), 영역 별 차이의 절대값을 합산한다(S177). 그리고 합산한 결과 값이 기 설정된 임계값 이상이면, 제1 프레임과 제2 프레임의 장면을 구분할 수 있다.
또 다른 실시 예로, 도 8에 도시된 바와 같이 프레임 각각을 기 설정된 크기의 하나 이상의 영역으로 분할하고(S183), 연속하는 제1 프레임과 제2 프레임에 있어서 대응되는 영역별 매칭율을 연산하고(S185), 상기 매칭율의 평균이 기 설정된 값 미만이면, 상기 제1 프레임과 상기 제2 프레임의 장면을 구분할 수 있다(S187).
도 7 및 도 8을 참고하여 상술한 예시와 같이 프레임을 하나 이상의 영역으로 분할하여, 전후 프레임을 영역 별로 비교하면 프레임이 전체적으로는 비슷한데 부분적으로 차이가 많은 경우를 찾아낼 수 있다. 즉, 전술할 두 개 실시 예에 따르면 좀 더 세분화된 장면 구분이 가능하다.
단계 100의 다음 단계에서 서버는 장면에서 기 설정된 기준에 따른 검색 대상 프레임을 선정할 수 있다(S200). 본 명세서에서 검색 대상 프레임은 객체 기반 검색을 수행하기 위한 대상 객체를 포함하는 프레임을 의미하는 것으로 이해될 수 있다. 즉 본 발명의 일 실시 예에서 서버는 영상에 포함된 모든 프레임의 객체를 트래킹하고 분석하는 것이 아니라, 검색 대상 프레임을 지정하고, 검색 대상 프레임에 포함된 객체만 분석함으로써 리소스를 줄일 수 있다. 서버는 모든 프레임을 분석하는 것이 아니기 때문에 가장 검색 정확도를 높일 수 있는 객체를 추출하고자 하며, 따라서 단계 200에서 객체 기반 검색 시 가장 정확도 높은 검색 결과를 얻을 수 있는 프레임을 검색 대상 프레임으로 선정할 수 있다.
일 예로 도 9를 참조하면, 서버는 검색 대상 프레임을 선정함에 있어서, 프레임에서 블러 영역을 식별하고(S213), 블러 영역이 프레임에서 차지하는 비중을 연산할 수 있다(S215). 그리고 서버는 제1 장면에 포함되는 하나 이상의 프레임 중 블러 영역의 비중이 가장 낮은 프레임을 제1 장면의 검색 대상 프레임으로 선정할 수 있다(S217). 블러 영역은 영상에서 흐릿하게 표시되는 영역으로 객체 검출이 불가능하거나 객체 기반 이미지 검색의 정확도를 떨어뜨릴 수 있다. 블러 영역에는 객체성을 불분명하게 하는 픽셀이 다수 혼합될 수 있으며, 이러한 픽셀은 객체를 검출하거나 분석함에 있어서 오류를 발생시킨다. 따라서 서버는 블러 영역의 비중이 가장 낮은 프레임을 각 장면의 검색 대상 프레임으로 선정함으로써 이후 객체 검출 및 분석, 객체 기반 이미지 검색의 정확도를 높일 수 있도록 한다.
본 발명의 일 실시 예에서 서버는 프레임에서 로컬 디스크립터가 추출되지 않는 영역을 블러 영역으로 식별함으로써 블러 영역을 검출할 수 있다. 로컬 디스크립터는 객체 이미지의 핵심 부분을 나타내는 특징 벡터로, SIFT, SURF, LBP, BRISK, MSER, FREAK 등 다양한 방식으로 추출 가능하다. 로컬 디스크립터는 객체 이미지 전체를 설명하는 글로벌 디스크립터와 구별되며, 객체 인식과 같은 상위 수준의 응용 프로그램에서 사용되는 개념으로 본 명세서에서 로컬 디스크립터는 통상의 기술자에게 통용되는 의미로 사용되었다.
검색 대상 프레임을 선정하는 단계 200의 다른 실시 예로, 도 10을 참조하면, 서버는 프레임에서 프레임에서 특징 정보를 추출하고(S233), 제1 장면에 포함되는 하나 이상의 프레임 중 추출된 특징 정보가 가장 많은 프레임을 제1 장면의 검색 대상 프레임으로 선정할 수 있다(S235). 특징 정보는 글로벌 디스크립터와 로컬 디스크립터를 모두 포함하는 개념으로, 객체의 윤곽, 형태, 텍스처 또는 특정 객체를 인식할 수 있는 특징점, 특징 벡터를 포함할 수 있다.
즉, 서버는 객체를 인식할 정도는 아니나, 객체가 존재한다는 것을 탐지할 수 있는 수준의 특징 정보를 추출하고 특징 정보를 가장 많이 포함하고 있는 프레임을 검색 대상으로 지정할 수 있다. 그 결과 서버는 단계 300에서 장면 별로 특징 정보를 가장 많이 포함하는 프레임을 이용하여 객체 기반 이미지 검색을 실시할 수 있으며, 모든 프레임에서 객체를 추출하지 않고도 누락되는 객체를 최소화하고, 높은 정확도로 객체를 검출, 활용할 수 있다.
단계 300에서 서버는 검색 대상 프레임에서 기 설정된 주제와 관련된 객체를 식별할 수 있다. 객체의 식별은 객체의 특징 정보를 추출하는 동작을 통해 이루어질 수 있다. 본 단계에서 서버는 이전 단계(S100, S200)에서 이루어진 객체의 탐지보다 보다 상세하게 객체를 식별할 수 있다. 즉, 객체 식별 알고리즘에 있어서 보다 정확도 높은 알고리즘을 사용할 수 있으며, 따라서 검색 대상 프레임에서 누락되는 객체가 없도록 객체를 추출한다.
예를 들어, 드라마 영상을 처리하는 경우를 가정하자. 서버는 단계 100에서 드라마 영상에서 부엌에서 이루어지는 하나 이상의 프레임을 일 장면으로 구분할 수 있으며, 단계 200에서 기 설정된 기준에 따른 검색 대상 프레임을 선정할 수 있다.
도 11이 단계 200에서 선정된 검색 대상 프레임인 경우, 도 11의 프레임은 부엌에서 이루어지는 장면 중 블러 영역의 비중이 가장 낮아 검색 대상 프레임으로 선정된 것일 수 있으며, 해당 장면 중 탐지되는 객체의 수가 가장 많아 선정된 것일 수 있다. 도 11의 검색 대상 프레임에는 냄비(K10, K40), 냉장고(K20, K30) 등의 주방 가전/기구과 관련된 객체가 포함되어 있으며, 상의(C10), 치마(C20), 원피스(C30)와 같은 의류 관련 객체도 포함되어 있다. 단계 300에서 서버는 상기 객체들(K10 내지 K40, C10 내지 C30)을 검색 대상 프레임에서 식별한다.
이 때 서버는 기 설정된 주제와 관련된 객체를 식별할 수 있다. 도 11에 도시된 바와 같이 검색 대상 프레임 내에는 무수히 많은 객체들이 탐지될 수 있는데, 서버는 기 설정된 주제와 관련된 객체를 식별함으로써 필요한 정보만 추출할 수 있따. 예를 들어, 미리 설정된 주제가 의류인 경우 서버는 검색 대상 프레임에서 의류와 관련된 객체만 식별할 수 있으며, 이 경우 상의(C10), 치마(C20), 원피스(C30) 등을 식별할 수 있다. 만일 미리 설정된 주제가 주방 가전/기구인 경우에는 K10, K20, K30, K40을 식별할 것이다. 여기서 ‘주제’는 객체를 구별하는 카테고리를 의미하는 것으로, 사용자 설정에 따라 임의의 객체를 정의하는 카테고리는 상위 개념일 수도 있고, 하위 개념일 수도 있다. 예를 들어, 주제는 의류와 같은 상위 개념으로 설정될 수도 있으나, 치마, 원피스, 티셔츠와 같은 하위 개념으로 설정될 수도 있다.
주제를 설정하는 주체는 서버를 관리하는 관리자일 수도 있으며, 사용자일 수 있다. 주제가 사용자에 의해 정해지는 경우, 서버는 사용자 단말로부터 주제에 대한 정보를 수신하고, 수신된 주제 정보에 따라 검색 대상 프레임에서 객체를 식별할 수 있다.
다음으로 서버는 단계 400에서 식별된 객체에 대응되는 이미지 또는 객체 정보 중 적어도 하나를 검색하고, 단계 500에서 객체에 검색 결과를 맵핑할 수 있다. 예를 들어, 의류와 관련된 객체가 식별된 경우, 서버는 이미지 데이터베이스에서 식별된 상의(C10)과 유사한 이미지를 검색하여 상의(C10)에 대응되는 이미지를 획득할 수 있다. 또한 서버는 데이터베이스에서 상의(C10)와 관련된 객체 정보, 즉 검은색에 흰색 사선 무늬가 프린팅 되어있는 상의와 관련된 광고 이미지 및/또는 영상, 가격, 브랜드 이름명 구입 가능 온라인/오프라인 매장 등의 객체 정보를 획득할 수 있다. 이 때 데이터베이스는 미리 생성되어 서버 내에 포함될 수도 있으나, 웹페이지 등을 크롤링하여 실시간으로 데이터베이스가 실시간 유사 이미지 검색을 통해 구축되는 것일 수 있으며, 서버가 외부에 구축된 데이터베이스를 이용하여 검색을 수행할 수도 있다.
검색 결과, 즉 상기 식별된 객체에 대응되는 이미지, 객체에 대응되는 상품 정보(가격, 브랜드명, 상품명, 상품 코드, 상품 종류, 상품 특징, 구매처 등), 광고 텍스트, 광고 영상, 광고 이미지 등은 식별된 객체에 맵핑될 수 있으며, 이렇게 맵핑된 검색 결과는 영상 재생 시, 영상에 인접한 레이어에 표시되거나, 영상 내 또는 영상의 상위 레이어에 표시될 수 있다. 또는 영상 재생 시 사용자 요청에 대응하여 검색 결과가 표시될 수도 있다.
본 명세서에서 생략된 일부 실시 예는 그 실시 주체가 동일한 경우 동일하게 적용 가능하다. 또한, 전술한 본 발명은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시 예 및 첨부된 도면에 의해 한정되는 것이 아니다.

Claims (13)

  1. 임의의 영상을 처리하는 방법에 있어서,
    상기 영상을 하나 이상의 프레임을 포함하는 장면(scene) 단위로 구분하는 단계;
    상기 장면에서 기 설정된 기준에 따른 검색 대상 프레임을 선정하는 단계;
    상기 검색 대상 프레임에서 기 설정된 주제와 관련된 객체를 식별하는 단계;
    상기 객체에 대응되는 이미지 또는 객체 정보 중 적어도 하나를 검색하여 상기 객체에 검색 결과를 맵핑하는 단계를 포함하는 영상 처리 방법.
  2. 제1항에 있어서,
    상기 영상을 장면 단위로 구분하는 단계는
    상기 프레임의 컬러 스펙트럼을 식별하는 단계;
    연속하는 제1 프레임과 제2 프레임 사이의 상기 컬러 스펙트럼의 변화가 기 설정된 임계값 이상이면, 상기 제1 프레임과 상기 제2 프레임의 장면을 구분하는 단계를 포함하는 영상 처리 방법.
  3. 제1항에 있어서,
    상기 영상을 장면 단위로 구분하는 단계는
    상기 프레임에서 임의의 객체로 추정되는 특징 정보를 탐지하는 단계;
    제1 프레임에 포함된 제1 특징 정보가 연속하는 제2 프레임에 포함되는지 여부를 판단하는 단계;
    상기 제2 프레임에 상기 제1 특징 정보가 포함되어 있지 않으면 상기 제1 프레임과 상기 제2 프레임의 장면을 구분하는 단계를 포함하는 영상 처리 방법.
  4. 제1항에 있어서,
    상기 영상을 장면 단위로 구분하는 단계는
    연속하는 제1 프레임과 제2 프레임의 매칭율을 연산하는 단계;
    상기 매칭율이 기 설정된 값 미만이면 상기 제1 프레임과 상기 제2 프레임의 장면을 구분하는 단계를 포함하는 영상 처리 방법.
  5. 제1항에 있어서,
    상기 영상을 장면 단위로 구분하는 단계는
    상기 프레임의 주파수 스펙트럼을 식별하는 단계;
    연속하는 제1 프레임과 제2 프레임 사이의 상기 주파수 스펙트럼의 변화가 기 설정된 임계값 이상이면, 상기 제1 프레임과 상기 제2 프레임의 장면을 구분하는 단계를 포함하는 영상 처리 방법.
  6. 제1항에 있어서,
    상기 영상을 장면 단위로 구분하는 단계는
    상기 프레임 각각을 기 설정된 크기의 하나 이상의 영역으로 분할하는 단계;
    상기 영역 별로 컬러 스펙트럼 또는 주파수 스펙트럼을 식별하는 단계;
    연속하는 제1 프레임과 제2 프레임에 있어서 서로 대응되는 영역의 상기 컬러 스펙트럼의 차이 또는 상기 주파수 스펙트럼의 차이를 연산하는 단계;
    상기 영역 별로 연산된 차이의 절대값을 합산하는 단계;
    상기 합산한 결과 값이 기 설정된 임계값 이상이면, 상기 제1 프레임과 상기 제2 프레임의 장면을 구분하는 단계를 포함하는 영상 처리 방법.
  7. 제1항에 있어서,
    상기 영상을 장면 단위로 구분하는 단계는
    상기 프레임 각각을 기 설정된 크기의 하나 이상의 영역으로 분할하는 단계;
    연속하는 제1 프레임과 제2 프레임에 있어서 서로 대응되는 영역별 매칭율을 연산하는 단계;
    상기 매칭율의 평균이 기 설정된 값 미만이면, 상기 제1 프레임과 상기 제2 프레임의 장면을 구분하는 단계를 포함하는 영상 처리 방법.
  8. 제1항에 있어서,
    상기 검색 대상 프레임을 선정하는 단계는
    상기 프레임에서 블러 영역을 식별하는 단계;
    상기 블러 영역이 상기 프레임에서 차지하는 비중을 연산하는 단계;
    제1 장면에 포함되는 하나 이상의 프레임 중 상기 블러 영역의 비중이 가장 낮은 프레임을 상기 제1 장면의 검색 대상 프레임으로 선정하는 단계를 포함하는 영상 처리 방법.
  9. 제8항에 있어서,
    상기 블러 영역을 식별하는 단계는
    상기 프레임에서 로컬 디스크립터가 추출되지 않는 영역을 블러 영역으로 식별하는 단계를 포함하는 영상 처리 방법.
  10. 제1항에 있어서,
    상기 검색 대상 프레임을 선정하는 단계는
    상기 프레임에서 특징 정보를 추출하는 단계;
    제1 장면에 포함되는 하나 이상의 프레임 중 추출된 특징 정보가 가장 많이 포함된 프레임을 상기 제1 장면의 검색 대상 프레임으로 선정하는 단계를 포함하는 영상 처리 방법.
  11. 제1항 내지 제10항 중 어느 한 항의 방법을 이용한 전자 장치의 객체 정보 제공 방법에 있어서,
    제1항 내지 제10항 중 어느 한 항의 방법을 이용하여 처리된 영상을 재생하는 단계;
    사용자로부터 기 설정된 선택 명령을 입력받으면, 상기 선택 명령이 입력된 시점의 프레임을 획득하는 단계;
    상기 프레임에 포함된 객체에 맵핑된 객체 정보를 화면에 표시하는 단계를 포함하는 객체 정보 제공 방법.
  12. 제1항 내지 제10항 중 어느 한 항의 방법을 이용하여 객체 정보를 제공하는 장치에 있어서,
    제1항 내지 제10항 중 어느 한 항의 방법을 이용하여 처리된 영상을 출력하는 출력부;
    사용자로부터 기 설정된 선택 명령을 입력받는 입력부;
    상기 영상에서 상기 선택 명령이 입력된 시점의 프레임을 획득하고, 상기 프레임에 포함된 객체를 식별하는 제어부를 포함하며,
    상기 출력부는 상기 식별된 객체에 맵핑된 객체 정보를 출력하는 객체 정보 제공 장치.
  13. 제1항 내지 제10항의 방법 중 어느 한 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능 매체에 저장된 영상 처리 응용 프로그램.
PCT/KR2019/000676 2018-01-17 2019-01-17 영상 전처리 방법, 장치 및 컴퓨터 프로그램 WO2019143137A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020535971A JP7105309B2 (ja) 2018-01-17 2019-01-17 映像前処理方法、装置及びコンピュータプログラム
US16/769,237 US20210182566A1 (en) 2018-01-17 2019-01-17 Image pre-processing method, apparatus, and computer program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0005820 2018-01-17
KR1020180005820A KR102102164B1 (ko) 2018-01-17 2018-01-17 영상 전처리 방법, 장치 및 컴퓨터 프로그램

Publications (1)

Publication Number Publication Date
WO2019143137A1 true WO2019143137A1 (ko) 2019-07-25

Family

ID=67302353

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/000676 WO2019143137A1 (ko) 2018-01-17 2019-01-17 영상 전처리 방법, 장치 및 컴퓨터 프로그램

Country Status (4)

Country Link
US (1) US20210182566A1 (ko)
JP (1) JP7105309B2 (ko)
KR (1) KR102102164B1 (ko)
WO (1) WO2019143137A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102380255B1 (ko) * 2019-10-10 2022-03-28 주식회사 신세계아이앤씨 영상 기반 선반 상품 재고 모니터링 시스템 및 방법
KR102395876B1 (ko) * 2020-04-14 2022-05-10 빅베이스 주식회사 딥러닝을 이용하여 유사한 이미지를 필터링할 수 있는 상품 분류 시스템 및 방법
KR102423968B1 (ko) * 2020-10-06 2022-07-22 동명대학교산학협력단 영상의 객체 재인식 방법
KR102558504B1 (ko) 2021-06-04 2023-07-25 주식회사 지에프티 장면 기반의 동영상 정리 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090093904A (ko) * 2008-02-28 2009-09-02 미디어코러스 주식회사 장면 변화에 강인한 멀티미디어 영상 분석 장치 및 그 방법과, 그를 이용한 객체 기반 멀티미디어 편집 시스템
KR20150108562A (ko) * 2014-03-18 2015-09-30 에스케이플래닛 주식회사 영상 처리 장치, 이의 제어 방법 및 컴퓨터 프로그램이 기록된 기록 매체
KR20160021016A (ko) * 2014-08-14 2016-02-24 삼성전자주식회사 영상 콘텐츠 제공 방법 및 영상 콘텐츠 제공 장치
KR20160031226A (ko) * 2014-09-12 2016-03-22 삼성에스디에스 주식회사 동영상 내 객체 관련 정보 검색 방법 및 동영상 재생 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3175632B2 (ja) * 1997-04-18 2001-06-11 松下電器産業株式会社 シーンチェンジ検出方法およびシーンチェンジ検出装置
JP2003087771A (ja) * 2001-09-07 2003-03-20 Oki Electric Ind Co Ltd 監視システム及び方法
JP4964044B2 (ja) * 2007-07-06 2012-06-27 三菱電機株式会社 顔検出装置及び顔検出方法
KR101644789B1 (ko) * 2009-04-10 2016-08-04 삼성전자주식회사 방송 프로그램 연관 정보 제공 장치 및 방법
KR20160027486A (ko) * 2014-08-29 2016-03-10 주식회사 테라클 광고 제공 장치, 광고 표시 장치, 광고 제공 방법, 및 광고 표시 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090093904A (ko) * 2008-02-28 2009-09-02 미디어코러스 주식회사 장면 변화에 강인한 멀티미디어 영상 분석 장치 및 그 방법과, 그를 이용한 객체 기반 멀티미디어 편집 시스템
KR20150108562A (ko) * 2014-03-18 2015-09-30 에스케이플래닛 주식회사 영상 처리 장치, 이의 제어 방법 및 컴퓨터 프로그램이 기록된 기록 매체
KR20160021016A (ko) * 2014-08-14 2016-02-24 삼성전자주식회사 영상 콘텐츠 제공 방법 및 영상 콘텐츠 제공 장치
KR20160031226A (ko) * 2014-09-12 2016-03-22 삼성에스디에스 주식회사 동영상 내 객체 관련 정보 검색 방법 및 동영상 재생 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
VO, QUANG NHAT ET AL.: "A feature-based adaptive model for realtime face tracking on smart phones", 18TH SCANDINAVIAN CONFERENCE. SCIA 2013, 17 June 2013 (2013-06-17), pages 630 - 639, XP047470405, Retrieved from the Internet <URL:https://unk.springer.com/book/10.1007/978-3-642-38886-6> doi:10.1007/978-3-642-38886-6_59 *

Also Published As

Publication number Publication date
US20210182566A1 (en) 2021-06-17
JP7105309B2 (ja) 2022-07-22
JP2021509201A (ja) 2021-03-18
KR102102164B1 (ko) 2020-04-20
KR20190087711A (ko) 2019-07-25

Similar Documents

Publication Publication Date Title
WO2019143137A1 (ko) 영상 전처리 방법, 장치 및 컴퓨터 프로그램
WO2014092446A1 (ko) 객체 기반 영상 검색시스템 및 검색방법
CN104520875B (zh) 优选用于搜索和检索目的的从视频内容提取描述符的方法和装置
JP4973188B2 (ja) 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム
US20150023596A1 (en) Person clothing feature extraction device, person search device, and processing method thereof
CN111581423B (zh) 一种目标检索方法及装置
US11463618B2 (en) Apparatus for providing information and method of providing information, and non-transitory storage medium
CN113766330A (zh) 基于视频生成推荐信息的方法和装置
CN111491187A (zh) 视频的推荐方法、装置、设备及存储介质
CN111553327A (zh) 一种服饰识别方法、装置、设备和介质
WO2018043923A1 (ko) 디스플레이장치 및 그 제어방법
CN110717452B (zh) 图像识别方法、装置、终端及计算机可读存储介质
Lienhart et al. The MoCA workbench: Support for creativity in movie content analysis
CN113569613A (zh) 图像处理方法、装置、图像处理设备及存储介质
CN115049962A (zh) 视频服饰检测方法、装置及设备
JP2000030033A (ja) 人物検出方法
CN115115976A (zh) 视频处理方法、装置、电子设备及存储介质
JP2003196662A (ja) カット検出装置およびそのプログラム
CN112668357A (zh) 一种监控方法及装置
CN116028657B (zh) 基于运动检测技术的智能云相框的分析系统
CN116775938B (zh) 解说视频检索方法、装置、电子设备及存储介质
CN117173748B (zh) 一种基于人形识别与人形检测的视频人形事件提取系统
Karthick et al. Automatic genre classification from videos
Aggarwal et al. Automated Navigation System for News Videos: A Survey
CN117011517A (zh) 一种数据处理方法及相关装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19740780

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020535971

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19740780

Country of ref document: EP

Kind code of ref document: A1