WO2021075694A1 - 이벤트의 등장 객체간 관련성 파악이 용이한 비디오 서머리방법 - Google Patents

이벤트의 등장 객체간 관련성 파악이 용이한 비디오 서머리방법 Download PDF

Info

Publication number
WO2021075694A1
WO2021075694A1 PCT/KR2020/010823 KR2020010823W WO2021075694A1 WO 2021075694 A1 WO2021075694 A1 WO 2021075694A1 KR 2020010823 W KR2020010823 W KR 2020010823W WO 2021075694 A1 WO2021075694 A1 WO 2021075694A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
video
image
volume
time
Prior art date
Application number
PCT/KR2020/010823
Other languages
English (en)
French (fr)
Inventor
김윤
이푸름
김희철
안정인
Original Assignee
주식회사 지오비전
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 지오비전 filed Critical 주식회사 지오비전
Priority to US17/766,523 priority Critical patent/US20230336843A1/en
Publication of WO2021075694A1 publication Critical patent/WO2021075694A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Definitions

  • the present invention relates to a video summary method, and relates to a method of making an original video image of a long time into a summary image summarized in a short time with an appearance object as the center.
  • Video summary technology is a method of creating a compressed image of an original video image in a short time.
  • compressing in a short time it is mainly focused on dynamic objects (people, animals, vehicles) appearing in the original video.
  • dynamic objects people, animals, vehicles
  • CCTV is installed to maintain security in an alleyway where people are sparse, sparse people appear in the original image, and most of the time, only the background is continuously photographed.
  • the security center's interest is people, not background.
  • the original video it is uneconomical to replay the entire original video to see who is passing by.
  • the original video can be played at 2x or 3x speed, but it takes a lot of time to play the entire original video, and increasing the speed makes it difficult to accurately recognize the objects appearing in the video.
  • a video summary technology was proposed.
  • the video summary technique is shown in FIG. 1.
  • the XY plane is the video screen
  • t is the time axis.
  • one XY plane becomes one video image frame, and frames over time are collected to generate a moving image. It can be understood as a space-time volume.
  • the appearance time of the object in the summary image can be moved, but the movement of the object reflects the reality as it is. If the movement of the object is reflected as it is, the movement of objects that appeared at different times may overlap each other. In particular, pedestrians passing narrow alleys at different times will inevitably overlap a lot of traffic lines. In this case, since pedestrians appear overlapping in the summary image, accurate recognition of the object may be impossible. Therefore, if the object has a lot of overlapping movement lines, the appearance times should be arranged differently in the summary image.
  • the technical interest in the video summary is about how short the time of the summary video can be made while all dynamic objects appear in the summary video without missing them. That is,'the degree of loss of the appearing object' and'the degree of time reduction'.
  • the'loss of appearing object' includes not only the case that the appearance object of the original image does not appear in the summary image, but also that the movement lines of the appearing objects in the summary image overlap each other and the recognition rate for the appearing object is lowered.
  • the X-axis of FIG. 2 represents distance, that is, displacement, and the Y-axis represents time.
  • the left is the original video and the right is the summary video.
  • object A passed around 10:00 AM for a certain period of time (moving along the X axis), and another object B passed around 12:00 AM.
  • the summary image can be made as shown on the top and bottom of the right.
  • object A and object B appear at about the same time in the summary image in order to shorten the time of the summary image.
  • the summary time has been shortened, since the movement lines of objects A and B are almost identical, the two objects overlap each other in the summary image, making accurate recognition difficult.
  • the recognition rate of the object increases by placing the appearance times of objects A and B slightly different. Of course, because there is a time difference, the time of the summary video is slightly longer than the summary video of the upper side.
  • the video summary technology can be summarized as a technology that separates the background from the dynamic object, detects the movement of the dynamic object, and prevents the movement of the objects from overlapping each other so that it appears in the summary image but compresses the time as much as possible.
  • FIG. 3 A photograph of the summary image created in the above manner is shown in FIG. 3. Looking at the lower left of the frame picture of FIG. 3, the object appearing at 22:29 and the object appearing at 22:51 in the original video can be seen appearing together in the summary video. The same goes for the upper right. Objects of the original video appear without overlapping movement lines.
  • the conventional video summary technology focuses only on technical issues such as'object loss' and'time compression', so it overlooks the point that the video summary technology considers most important when it is used as a monitoring system for security and safety in the real world. I'm doing it.
  • the most important thing in the security monitoring system is the “relationship between the objects appearing in the event”.
  • the images of pedestrians passing peacefully in the alleys are not of major interest in security monitoring.
  • Events such as a fight in an alleyway or a sudden appearance of a dog being bitten by a person are of interest.
  • the problem is that the existing video summary technology focuses only on temporal compression, so the appearance time in the summary image of a person and a dog recognized as a dynamic object can be different from each other. For example, in the summary video, a video of a dog running, stopping for a moment, then running again, and a pedestrian passing by at intervals of time, suddenly standing and complaining of pain.
  • the existing summary technology does not consider the order of appearance time of the objects photographed in the original image in order to shorten the time.
  • this phenomenon is inevitably tolerated, but it is desirable to consider the order of appearance time of objects in the original video as possible to improve the naturalness and quality of the summary video.
  • this consideration is more meaningful. If objects appearing at night in the original video appear in the daytime in the summary video, the background is different, so it is unnatural.
  • Video summary technology is not installed in areas where dynamic objects are very secreted, such as roads in the city center. Rather, dynamic objects do not appear much and are used in a quiet area. Since the area where vehicles and people are secreted is where attention is concentrated, a lot of manpower and equipment can be put in. However, a quiet alleyway is not a place where attention is focused, so manpower and equipment cannot be put in. As a result, it is in a blind spot from a security point of view. Therefore, it relies on unmanned systems such as CCTV to perform safety monitoring.
  • FIG. 4 The right side of FIG. 4 is the original image, and the left side is the summary image.
  • the X axis is the displacement and the Y axis is the time axis.
  • object A appears from the 300th frame to 1200 frames. During this period, it moved from point X1 to point X4. Since it has moved for a very long time, if you do the summary as it is, the summary image may be too long.
  • object A is cut into a plurality of parts (A1, A2, A3) to create a summary image as shown on the left.
  • the same object A appears at the same time point and at the same time point at X1, X2, and X3 respectively. And they move together at 3 points for 300 frames.
  • the same person appears at the same time at three points along the length of the alleyway, and after each walking a certain distance, an image of disappearing together appears.
  • it is successful in temporal compression of the summary video the actual phenomenon is distorted and thus the summary video is bound to feel unfamiliar. Even if video summary technology and summary video are operated by experts, severe distortion of actual phenomena causes cognitive discomfort for users.
  • An object of the present invention is to provide a video summary method in which an event occurring between appearance objects photographed in the original image can be easily identified in the summary image while briefly summarizing the original image. .
  • the present invention provides a method of creating a video summary image with improved quality so that a user can naturally accept the summary image by expressing the actual photographed in the original image without distortion even in the summary image.
  • the present invention provides a method of generating an original image as a summary image of a short time.
  • a frame set is created by selecting only a frame in which a dynamic object appears in an original image
  • a frame volume is created by dividing the frame set by a predetermined time unit
  • a summary image is generated in a frame volume unit.
  • the present invention since a plurality of objects appearing together in the frame volume (in general, the original image) appear together in the summary image, it is possible to very easily grasp the relationship between the objects of the event when an event occurs.
  • the summary image is made to match the original image in which the object appears in the summary image, so that the user's cognitive discomfort can be solved.
  • FIG. 1 is a schematic diagram for explaining a video summary technique.
  • FIG. 2 is a diagram for explaining a process of rearranging an appearance object in an original image into a summary image.
  • 3 is a photograph of a completed video summary image.
  • FIG. 4 is a diagram for explaining a description of distorting an actual phenomenon and expressing it in a summary image in order to shorten time.
  • FIG. 5 is a schematic flowchart of a video summary method according to an example of the present invention.
  • 6 and 7 are for explaining a process of separating a dynamic object from an original image and generating object information.
  • 9 is for explaining an algorithm for creating a summary image.
  • FIG. 10 is for explaining a process of generating a frame set and dividing it into frame volumes in the present invention.
  • 11 is for explaining a process of creating a summary video while updating a summary temporary video.
  • the step of generating the summary image includes incorporating any one frame volume among the plurality of frame volumes into a summary temporary image, and sequentially incorporating the remaining frame volumes into the temporary image in a predetermined order, and the The final summary video is created by gradually increasing the summary video, but when the frame volume is incorporated into the previously prepared summary video, the frame volume and the degree of redundancy and time reduction between the objects appearing in the summary video are compared and judged. , It is preferable to determine the time at which each frame volume is incorporated into the summary temporary image.
  • the plurality of frame volumes are arranged according to the temporal order of the original image, and then sequentially incorporated into the summary temporary image from the first frame volume to the last frame volume. It is desirable to go out.
  • the object when the object appears over a plurality of frame volumes, but appears in a frame volume among a plurality of frame volumes for a predetermined time or less, the object is deleted from the frame volume and then the summary is displayed in the temporary image. Can be transferred.
  • the frame volume according to a preset time interval is incorporated into the summary temporary image, but the time interval of the unit volume of the frame set is temporarily set at a preset time interval. It is variable longer or shorter than that.
  • a plurality of objects appearing in the same frame in the original image appear together in the same frame in the summary image so that it is easy to grasp the relationship between the objects appearing in the event.
  • FIG. 5 is a schematic flowchart of a video summary method according to an example of the present invention.
  • the video summary method is a method of generating a summary image briefly summarizing an original video image.
  • 'Summary' is centered on objects appearing in the original image, mainly dynamic objects.
  • most of the frames in which the dynamic object does not appear in the original image are deleted, and appear in the summary image centering on the dynamic object.
  • the original image as a source may be an image photographing an area requiring safety monitoring using CCTV or the like. In addition, it may be an image of various areas requiring control, such as an airplane runway.
  • the application of the present invention is not excluded in the case of a road with dense vehicles, but it may not be suitable as a video summary.
  • the original video can be received by a download method that has already been filmed, or can be received in real time at the same time as filming by a so-called'streaming' method.
  • Object information is created for this separated object.
  • the object information includes the coordinates (x, y) within the frame, the width and height, and the classification of objects such as people, animals, and vehicles.
  • the object information is preset and may include a color, a movement direction (from left to right, etc.). The above operation is performed in every frame in which a dynamic object appears.
  • FIG. 8 shows the original image, where the X-axis is displacement (assuming a position in a frame -1D), and the Y-axis is time (or frame). That is, a plurality of frames are arranged along the time axis. Lines (A ⁇ D) in the coordinate axis represent dynamic objects. Object D appears first in the original image, and object A appears later in the original image for the longest time.
  • objects have motion continuity, it is possible to determine whether or not the objects appearing over multiple pages are identical by using frames in which a dynamic object appears or by using object information together. For example, if an object appears in 100 consecutive frames, and the continuity of movement lines is confirmed according to the order of the frames, it can be regarded as the same object. Also, looking at object information created for each object appearing in a frame, if the width and height of the object identified in 100 frames are the same within a certain range, and there is continuity in the coordinates, it can be determined as the same object. As a result of determining the identity, identification IDs are assigned to 4 objects as shown in the figure on the right.
  • the process of separating dynamic objects As described above, the process of separating dynamic objects, the process of generating object information by detecting the object (detecting), and the process of assigning an ID for each object by determining identity (tracking) are used in image processing fields such as intelligent CCTV. Since it is a widely used technology, a detailed description thereof will be omitted.
  • the present invention does not necessarily have to undergo all separation, detection, and tracking, and object information may be generated by detecting a dynamic object directly from a frame of an original image without a separation process. Although it is not excluded in the present invention to directly detect a dynamic object in the original image and generate object information, it is preferable to precede the separation process in order to improve speed and accuracy.
  • the tracking process of determining the identity of objects appearing in multiple frames and assigning IDs for each object can also be performed without a detection process after the separation process, but it is desirable to use the results obtained in the detection process to improve accuracy.
  • the process of segmentation, detection, and tracking is sequentially performed to improve processing speed and accuracy in the computer processor.
  • the object information and object ID are stored in the database, and the identification number (ex: frame number) of the frame of the original image in which the object appears is also stored in the database. .
  • a summary video is created according to these conditions. For example, it is possible to set conditions such as creating a summary video showing only vehicles excluding people, allowing only cars facing to the right of the vehicles to appear, or finding only people wearing red clothes. Of course, you can create a summary video that allows all dynamic objects to appear without any conditions. You can create a summary video according to the user's purpose.
  • a frame set that meets this condition is created.
  • a separate frame set is created by selecting only the frames in which dynamic objects that meet the conditions appear among the frames of the original image. For example, it is said that a summary image in which all dynamic objects appear, and the original image consists of 100,000 frames, of which there are 20,000 frames in which dynamic objects appear, and a frame set is created by separating them separately. Dynamic objects will appear on every frame included in the frameset.
  • 9 to 12 are for explaining an algorithm for creating a summary image.
  • a plurality of frame volumes are generated by dividing a frame set selected by condition setting at preset time intervals.
  • the frame sets (right side of Fig. 9) are first arranged in chronological order of the original image.
  • the frame set is divided into units of 300 frames at regular time intervals.
  • One divided unit is called the frame volume.
  • the volume is divided into 4 frame volumes of volumes 1 to 4. Separately, the four frame volumes are as shown on the left side of FIG. 9.
  • Objects A, B, E, F, and G appear only within one frame volume. However, C and D objects appear across multiple frame volumes.
  • the frame volume is not divided by object units, but merely divided by a predetermined time unit.
  • the time interval of the frame volume can be adjusted when initially setting the time interval according to the characteristics of the object to be monitored. For example, when a person is to be monitored, the total length of the alleyway and the walking speed of the person may be considered and adjusted so that a person can pass all the alleyways within one volume. If you want to monitor motorcycles in alleys, you can set the frame volume at shorter time intervals. The meaning of the volume time interval setting will be described later.
  • a summary video is made in earnest.
  • a comparative judgment volume and a summary temporary image are shown.
  • the comparison judgment volume and the summary video are empty.
  • one of a plurality of frame volumes is selected and set as the comparison decision volume.
  • the comparison judgment volume is a temporary volume for comparison with the summary video.
  • volume 1 is selected according to the order of the original image and specified as the comparison decision volume.
  • the motion line redundancy and time compression of the object should be compared between the summary temporary image and the comparison judgment volume.
  • This comparative judgment uses a loss function applied in the field of deep learning, which is a well-known technique, and a detailed description thereof will be omitted.
  • volume 1 in the comparison decision volume is incorporated into the summary video as it is.
  • incorporation does not mean that the frame in Volume 1 is included in the summary temporary image as it is, but by extracting a partial area (the area separated in the previous detection process) containing the object from Volume 1 and copying it into the summary temporary image. It is in the form of pasting.
  • the volume 1 becomes the summary temporary video up to the present time.
  • volume 2 is specified as the comparison and determination volume, and the previously prepared summary video image (current state is the same as volume 1) and volume 2 are compared. Decides where Volume 2 is incorporated into which position is advantageous for time compression and motion redundancy. Referring to FIG. 11, Volume 2 was placed at a slightly higher position (Y-axis-time axis) than the summary temporary image. In other words, Volume 2 was made to come out slightly later in time than the summary of the current state.
  • volume 2 is matched with the previously written summary temporary image, that is, when overlapping, objects B, D, and E overlap only at one point, so movement line overlap is not large. In this case, Volume 2 can be completely overlapped with Volume 1 in order to shorten the time of the summary video.
  • volume 2 is completely separated so as not to overlap with Volume 1 and placed above Volume 1, the object can be identified clearly, but it does not shorten the time, so it is meaningless as a video summary.
  • the frame itself has been shortened because the frame in which the dynamic object does not appear has already been excluded at the frameset stage, but it needs to be further reduced. Therefore, finding the most optimal position (determining the appearance time) where an object or volume will be incorporated is the core of the video summary technology.
  • volume 2 when the volume 2 is incorporated into the summary temporary image, the volume 2 is arranged so that there is a slight difference in the appearance times of A and C. Since the coordinates of A and C (X-axis) are different in the same time zone (Y-axis), it is possible to distinguish between the two. Also, the video playback time was much shorter than that of the original volume A and volume B combined. In the summary video, A and C will be expressed in the form of walking at a slight interval. Now, the combination of Volume 1 and Volume 2 becomes a summary temporary video. In other words, every time one volume is incorporated, the summary temporary video is updated.
  • a plurality of volumes are sequentially specified as comparison and judgment volumes, and the volumes are incorporated into the summary by comparing the summary with the previous order, the motion redundancy, and the time reduction, and the final volume is the summary.
  • the summary video is confirmed as the final summary video.
  • the summary video is completed as shown in FIG. 12. It can be seen that the time of the summary video is shorter than the total time of the frame set. Also, there is almost no overlap between objects. For example, in the case of the G object, although it is the object that appears the latest in the original, it can be seen that the time is shortened by making it appear first in the summary video because the movement line does not overlap with other objects.
  • video summary it is a technology that temporally rearranges objects in the summary image, taking into account the movement of objects and time reduction.
  • the meaning of rearrangement means only time, not spatial rearrangement.
  • the coordinates are implemented the same as the coordinates of the original image.
  • a summary image was created in units of individual objects. This will be described with reference to FIG. 13.
  • a summary image 1 is an example in which a summary image is created in units of volume as in the present invention
  • a summary image 2 is an example in which the time reduction is maximized and a summary image is created in an individual object unit.
  • the difference between the summary images 1 and 2 is the C object and the F object. The rest of the objects are the same.
  • the F object is disposed at the lower end than the summary image 1.
  • the summary image 2 is divided into C1 and C2.
  • C1 and C2 are the same C object, but their movement speed is slow and their appearance time is too long, which hinders time reduction. Accordingly, in the related art, a summary image 2 was created by dividing the C object into a plurality of pieces according to time. The present invention also does not exclude this division method. When an object spans multiple volumes, division is performed. When the object is divided, the space utilization increases, so there is an advantage in that the time of the summary image 2 is shortened.
  • the F object (dotted line) remains at the top, and the F object can be moved to the bottom of the summary image 2 as indicated by arrows in the summary image 2.
  • the time for summary video 2 is shortened compared to summary video 1.
  • the C object is divided into C1 and C2, but it is the same when the object is not divided.
  • the same phenomenon occurs even if the C object is not divided and only the F object is lowered to the bottom.
  • the relevance between objects cannot be grasped.
  • the event between the two is completely unknown.
  • the most essential purpose that is, “identifying events” becomes impossible, and only results with high time reduction in technical terms are derived. This is because the summary image was created in units of individual objects.
  • the time reduction is inferior to that of the summary image 2, but there is an advantage in that the collision situation between the C object and the F object can be checked as it is in the summary image. It can be said to be closer to the essential purpose of video summary technology.
  • a summary image is produced in units of frame volume. Accordingly, objects appearing at the same time (or the same volume or the same frame) in the original image (or frame set) always appear at the same time in the summary image.
  • production of a summary image in units of frame volume can be defined as "a method in which multiple objects appear in the same volume, the multiple objects are treated as a set and incorporated into the summary image together at the same time".
  • a specific frame volume is selected as a comparison decision volume, and then the summary image is updated through comparison with the previously edited summary video.
  • the temporal order of the original image and the order of the summary image match as much as possible.
  • the time interval of the frame volume may be variable. If a summary image is created in units of frame volume, the same object may span a plurality of frame volumes, and the object is divided during the production process and the object C is divided into C1 and C2, so an unnatural phenomenon may occur. This phenomenon is tolerated because the present invention adopts a video summary algorithm in units of frame volume.
  • the time interval of the frame volume may be adjusted in the middle. For example, in the frame set of FIG. 13, objects C and D span Volume 2 and Volume 3.
  • objects C, D, E, and F appearing in the integrated frame volume can be set as a single set.
  • the volume is integrated by applying the loss function, it is possible to determine how much the loss of time reduction will be.
  • the above process can be performed by arbitrarily adjusting the volume size.
  • the summary image can be updated by arbitrarily adjusting the time interval of the frame volume as necessary, and the subsequent summary image can be continuously updated by returning the frame volume back to the original time interval.
  • FIG. 14 As described above, a summary image 2 is being created by sequentially incorporating Volume 1, Volume 2, and Volume 3 according to the present invention. Now, it is a step to incorporate Volume 4 into Summary Video 2. In the frame set, the D object spans volume 3 and volume 4, and the part spanning volume 4 is called D1. In the summary video 2 made so far, only the part of the D object that appeared in Volume 3 is included.
  • a partial deletion of an object is allowed as a method for time reduction. That is, if the same object is hung on a plurality of frame volumes, and the movement line hung on any one volume is very short compared to the entire movement line, this part, that is, the part D1 in FIG. 14 is deleted. In this case, only G object remains in Volume 4, and time reduction can be maximized and motion overlap can be minimized by appearing G object at the bottom of the summary video like summary video 1.
  • the criterion that the moving line is short can be set by the user, and it should be less than 1/2 of the total appearance time of the object even if it is held at the maximum, preferably less than 1/3.
  • D1 and G objects are in the same volume, but since they do not appear together in units of frames, it is possible to delete D1.
  • the object can be deleted through a special exception. For example, if two objects appear in the same frame but do not approach within a predetermined distance, or if the probability of an event between objects is low, such as when the time of appearance of the target to be deleted is very short, a part of the object is deleted. This allows you to maximize time reduction.
  • the present invention is implemented by a computer in which software adapted to perform the above algorithm is mounted on a computer.
  • the comparison and judgment of the time reduction degree and the traffic line redundancy is also performed by a computer algorithm, which is performed by the aforementioned loss function.
  • the present invention provides a method of generating an original image as a summary image of a short time.
  • a frame set is created by selecting only frames in which a dynamic object appears in an original image, and a frame volume is created by dividing the frame set by a predetermined time unit.
  • An important feature of the present invention is that a plurality of objects appearing together in a frame volume (in general, an original image) appear together in a summary image, so that when an event occurs, the relationship between objects can be easily grasped.
  • the summary image is made to match the original image in which the object appears in the summary image, so that the user's cognitive discomfort can be solved.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 비디오 원본영상을 짧은 시간의 서머리영상으로 생성하는 방법에 관한 것이다. 본 발명에서는 원본영상에서 등장하는 동적객체를 중심으로 서머리영상을 만들되, 원본영상에서 동일 시간대에 등장하는 복수의 객체는 서머리영상에서도 동일 시간대에 함께 등장하도록 한다는데 특징이 있다. 이에 따라 이벤트가 발생시 이벤트의 객체간 관련성을 용이하게 파악할 수 있다는 이점이 있다.

Description

이벤트의 등장 객체간 관련성 파악이 용이한 비디오 서머리방법
본 발명은 비디오 서머리 방법으로서, 긴 시간의비디오 원본영상을 등장 객체를 중심으로 짧은 시간으로 요약한 서머리영상으로 만드는 방법에 관한 것이다.
비디오 서머리 기술은 원본 비디오 영상을 짧은 시간으로 압축한 영상을 만드는 방법이다. 짧은 시간으로 압축할 때에는 주로 원본영상에 등장하는 동적 객체(사람, 동물, 차량)에 중심을 둔다. 예컨대, 인적이 드문 골목길에서의 치안 유지를 위해 CCTV를 설치하는 경우, 원본영상에서는 드문드문 사람이 나타나고 대부분의 시간은 배경만 계속적으로 촬영된다. 치안 센터의 관심은 배경이 아니라 사람이다. 원본영상에서 골목길을 지나가는 사람을 확인하려면 원본영상 전체를 다시 재생해야 하는 것은 비경제적이다. 원본영상을 2배속, 3배속으로 재생할 수도 있지만, 역시 원본영상 전체를 재생하는 것이기에 시간이 많이 걸리고 속도를 올리면 영상에 등장하는 객체의 정확한 인식이 어려워진다. 이러한 문제를 해결하고자 비디오 서머리 기술이 제시되었다.
비디오 서머리 기술이 도 1에 도시되어 있다. 도 1의 원본영상에서 XY평면이 비디오 화면이며, t가 시간축이다. 프레임 단위로 설명하면 하나의 XY평면이 하나의 비디오 영상 프레임이 되고, 시간에 따른 프레임들이 모여서 동영상 비디오가 생성된다. 시공간 볼륨으로 이해할 수 있다.
비디오 서머리 기술에서는 먼저 원본영상에서 사람, 동물, 차량 등 동적 객체를 인식한다. 도 1에서는 사람들과 자전거가 인식되었고, 원본영상의 중간 부분에는 배경만 찍혔다고 가정한다. 원본영상의 수 많은 프레임 중에서 동적 객체가 등장하는 프레임만을 선별한다. 그리고 프레임에서 동적 객체가 나오는 영역만을 따로 분리한 후, 이 영역들을 서로 합쳐서 도 1과 같은 서머리영상을 만든다. 자전거와 행인은 원본영상에서 서로 다른 시간에 등장하였지만, 서머리영상에서는 자전거와 행인이 같은 시간에 등장하는 것으로 표현된다. 위의 방법을 통해 원본영상을 압축한 서머리영상을 만들어 낸다. 한편, 서머리영상에서도 동적 객체의 XY 좌표는 그대로 유지한다. 즉 서머리영상에서 객체의 등장시간은 이동 가능하지만 객체의 동선은 실제를 그대로 반영한다. 객체의 동선을 그대로 반영하다 보면, 서로 다른 시간에 등장한 객체의 동선이 서로 겹칠 수 있다. 특히 좁은 골목길을 서로 다른 시간대에 지나가는 행인들이라면 동선이 많이 겹칠 수밖에 없다. 이런 경우 서머리영상에서 행인들이 겹치게 나오므로 객체에 대한 정확한 인식이 불가능해질 수 있다. 따라서 동선이 많이 겹치는 객체라면 서머리영상에서 등장시간을 다르게 배치하여야 한다.
즉, 비디오 서머리에서 기술적 관심은 동적 객체가 빠지지 않고 모두 서머리영상에 등장하되, 서머리영상의 시간을 얼마나 짧게 만들 수 있는지에 관한 것이다. 즉, '등장객체의 손실 정도' 및 '시간 단축 정도'이다. 여기서 '등장객체의 손실'은 원본영상의 등장객체가 서머리영상에서 등장하지 않는 경우는 물론, 서머리영상에서 등장객체들의 동선이 서로 겹쳐서 등장 객체에 대한 인식률이 저하되는 것을 포함한다.
도 2를 참고한다. 도 2의 X축은 거리, 즉 변위를 나타내며, Y축은 시간을 나타낸다. 좌측은 원본영상이고 우측은 서머리영상이다. 원본영상에서는 10:00 AM 부근에 일정 시간 동안 객체 A가 지나갔고(X축을 따라 이동), 또 다른 객체 B는 12:00 AM 근처에 지나갔다. 서머리영상은 우측의 상하에 표시된 것처럼 만들어질 수 있다. 오른쪽의 상측 그림은 서머리영상의 시간을 단축시키기 위하여 객체 A와 객체 B를 서머리영상에서 거의 같은 시간에 등장시킨다. 서머리 시간은 짧아졌지만, 객체 A와 B의 동선이 거의 일치하므로 서머리영상에서 두 객체는 서로 중첩되어 정확한 인식이 힘들어진다. 반면, 아래쪽의 서머리영상에서는 객체 A와 B의 등장시간을 약간 차이를 두어 배치함으로써 객체의 인식률이 올라간다. 물론 시간 차이를 두었기 때문에 서머리영상의 시간은 상측의 서머리영상보다는 약간 더 길어진다.
정리하면, 비디오 서머리 기술은 배경과 동적 객체를 분리하고, 동적 객체의 동선을 탐지하며, 객체들의 동선이 서로 겹치지 않게 하여 서머리영상에 등장시키되 최대한 시간을 압축하는 기술이라고 요약할 수 있다.
상기한 방식으로 만들어진 서머리영상을 캡쳐한 사진이 도 3에 도시되어 있다. 도 3의 프레임 사진의 좌측 하단을 보면 원본영상에서 22:29에 등장한 객체와 22:51분에 등장한 객체가 서머리영상에서는 함께 등장하는 모습을 볼 수 있다. 우측 상단도 마찬가지이다. 동선이 겹치지 않으면서 원본영상의 객체가 등장하고 있다.
그러나 종래의 비디오 서머리 기술은 '객체의 손실' 및' 시간 압축'이라는 기술적 이슈에만 집중한 나머지 비디오 서머리 기술이 현실 세계에서 치안, 안전을 위한 모니터링 시스템으로 활용될 때 가장 중요하게 여기는 점에 대해서 간과하고 있다.
치안 모니터링 시스템에서 가장 중요한 것은 “이벤트의 등장 객체간 관련성”이다. 골목길에서 평화롭게 행인들이 지나가는 영상은 치안 모니터링에서 주요 관심대상이 아니다. 골목길에서 싸움이 났거나, 갑자기 나타난 개에게 사람이 물리거나 하는 등의 이벤트가 주요 관심대상이다. 문제는 기존의 비디오 서머리 기술에서는 시간 압축에만 집중하다 보니, 동적 객체로 인식한 사람과 개의 서머리영상 내에서의 등장시간을 서로 달리할 수 있다는 점이다. 예컨대 서머리영상에서는 개가 달려가다가 잠시 멈춘 후 다시 달려가는 영상이 등장하고, 시간 간격을 두고 행인이 지나가다가 갑자기 서서 아픔을 호소하는 모습이 나타난다. 서머리영상만으로 보면 행인이 개에게 물리는 이벤트를 전혀 파악할 수 없게 된다. 이러한 종래의 기술은 서머리영상의 시간단축에는 유리할 수 있지만, 정작 중요한 사항을 놓쳐 버린다. 치안 모니터링 시스템의 주요 관심사는 이벤트의 파악과, 이벤트에서 등장 객체간의 관련성이다. 이벤트 파악이 용이한 비디오 서머리 기술이 요청된다.
또한, 기존의 서머리 기술은 시간 단축을 위하여 원본영상에 촬영된 객체들의 등장시간의 순서를 고려하지 않는다는 점이다. 서머리 영상의 시간, 공간 최적화를 위해서 객체들의 동선이 겹치지 않는 최적 배열만을 고민한다. 따라서 원본영상에서 늦게 등장하는 사람이 서머리 영상에서는 가장 빨리 나오는 현상이 나타나곤 한다. 비디오 서머리를 위해서는 이러한 현상을 용인할 수밖에 없지만, 가능한 원본영상에서 객체들의 등장 시간의 순서를 고려하는 것이 서머리 영상의 자연스러움과 품질 향상에 바람직하다. 특히 배경과의 관계를 고려하면 이러한 고려는 더욱 의미가 있다. 원본영상에서 밤에 출현한 객체가 서머리 영상에서는 낮에 등장하면 배경이 서로 달라지므로 부자연스럽다.
종래의 이러한 문제점은 비디오 서머리 기술의 실제 활용 환경을 고려하지 않고, 기술적 사항에만 관심을 가졌기 때문이다. 비디오 서머리 기술은 시내 중심가에 있는 도로처럼 동적객체가 매우 분비는 영역에 설치하지 않는다. 오히려 동적 객체가 많이 등장하지 않고 한적한 영역에서 사용한다. 차량과 사람이 분비는 영역은 관심이 집중되는 곳이므로, 인력과 장비를 많이 투입할 수 있다. 그러나 한적한 골목길은 관심이 집중되는 곳이 아니어서 인력과 장비를 투입할 수 없다. 결과적으로 치안의 관점에서는 사각지대에 놓이게 된다. 이에 CCTV 등 무인시스템에 의존하여 안전 모니터링을 수행한다. 결과적으로 비디오 서머리 기술이 적용되는 영역에서는 등장객체가 아주 많지는 않기 때문에 시간압축을 중시하기 보다는 앞에서 설명한 이벤트의 등장인물간 관련성 파악의 용이성에 집중하는 것이 효과적이다. 또한 서머리 영상이 원본영상의 상황을 자연스럽게 반영하는 것이 '품질”의 우수성과 직결된다. 종래의 비디오 서머리 기술은 이러한 점을 간과하고 있다.
한편, 종래의 비디오 서머리 기술에서 또 다른 문제점은 서머리영상의 시간 단축을 위해 실제 현상을 자연스럽지 못하게 표출한다는 점이다. 일종의 왜곡이라고 표현할 수도 있다. 도 4를 참고하여 설명한다. 도 4의 우측은 원본영상이며, 좌측은 서머리영상이다. 앞에서와 마찬가지로 X축은 변위이며, Y축은 시간축이다. 원본영상에서 A 객체가 300번째 프레임부터 1200프레임까지 걸쳐서 등장한다. 이 기간 동안 X1지점으로부터 X4지점까지 이동하였다. 매우 긴 시간 동안에 이동하였기 때문에 그대로 서머리를 하게 되면 서머리 영상이 너무 길어질 수 있다. 이에 종래 기술에서는 A객체를 복수의 부분(A1,A2,A3)으로 잘라서 좌측과 같은 서머리영상을 만든다. 좌측의 서머리영상을 보면 동일한 객체 A가 같은 시점에 각각 X1, X2, X3 시점에 함께 나타난다. 그리고 300프레임 동안 3지점에서 함께 이동한다. 긴 골목길을 상정하면, 골목길의 길이방향을 따라 3지점에서 같은 사람이 동시에 나타나서, 일정 거리만큼 각각 걸은 후 함께 사라지는 형태의 영상이 나타난다. 서머리영상의 시간압축에는 성공적이지만 실제 현상을 왜곡해서 나타내기 때문에 서머리영상이 낯설게 느껴질 수밖에 없다. 비디오 서머리 기술과 서머리영상이 전문가에 의해 운영된다고 해도 실제 현상의 심한 왜곡은 사용자의 인지적 불편함을 불러온다. 더욱이 비디오서머리는 치안 유지를 위해 지자체 등에 설치되서 기술전문가가 아닌 일반인에 의하여 운영되기 때문에 이러한 인지적 불편함은 더욱 클 것이다. 비디오 서머리 기술의 활용성을 높이기 위해서는 시간 단축과 함께 실제 현상을 가능한 왜곡 없이 보여줄 수 있는 기술적 진보가 필요하다.
본 발명은 상기한 문제점을 해결하기 위한 것으로서, 원본영상을 짧게 요약하면서도, 원본영상에 촬영된 등장객체 사이에 발생한 이벤트가 서머리영상에서도 용이하게 파악될 수 있는 비디오 서머리 방법을 제공하는데 그 목적이 있다.
또한 본 발명에서는 원본영상에 촬영된 실제가 서머리영상에서도 왜곡없이 표출시켜 사용자가 서머리영상을 자연스럽게 받아들일 수 있도록 품질이 향항된 비디오 서머리영상을 만드는 방법을 제공하는데 있다.
한편, 본 발명의 명시되지 않은 또 다른 목적들은하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 것이다.
상기 목적을 달성하기 위한 본 발명에 따른 비디오 서머리방법은, (a)복수의 프레임으로 이루어진 비디오 원본영상에 등장하는 복수의 움직이는 객체를 탐지하여, 상기 객체의 프레임 내 위치 및 크기를 포함하는 객체정보를 생성하는 단계; (b)복수의 프레임에 등장하는 객체들 중 동일성이 인정되는 객체에 대하여 동일 ID를 부여하는 단계; (c)상기 원본영상에서 상기 객체들이 등장하는 프레임만을 선별하여 프레임세트를 생성하는 단계; (d)기설정된 시간 간격으로 상기 프레임세트를 분할하여 복수의 프레임으로 이루어진 프레임볼륨을 형성하는 단계; 및 (e)상기 프레임볼륨을 조합하여 상기 원본영상보다 재생 시간이 짧은 비디오 서머리 영상을 생성하는 단계;를 포함하는 것에 특징이 있다.
본 발명에서는 원본영상을 짧은 시간의 서머리영상으로 생성하는 방법을 제공한다. 본 발명에서는 원본영상에서 동적객체가 등장하는 프레임만을 선별하여 프레임세트를 만들고, 프레임세트를 일정 시간 단위로 분할하여 프레임볼륨을 만들고, 프레임볼륨 단위로 서머리영상을 생성한다.
이에 따라 본 발명에서는 프레임볼륨(넓게는 원본영상)에 함께 등장하는 복수의 객체는 서머리영상에서도 함께 등장하므로, 이벤트 발생시 이벤트의 객체간 관련성을 매우 용이하게 파악할 수 있다.
또한 서머리영상에서도 객체의 등장이 가능한 원본영상과 일치하도록 하여 서머리영상이 자연스러워지며, 사용자의 인지적 불편함을 해소할 수 있다.
또한 본 발명에서는 객체의 일부 삭제를 허용함으로써, 기존에 객체를 분할하여 동시간에 동일 객체가 중복 출현하는 부자연스러움 및 사용자의 인지적 불편함을 해소하여 품질이 향상된다는 이점이 있다.
한편, 여기에서 명시적으로 언급되지 않은 효과라하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.
도 1은 비디오 서머리 기술을 설명하기 위한 개략적 도면이다.
도 2는 원본영상에서의 등장객체를 서머리영상에 재배열하는 과정을 설명하기 위한 도면이다.
도 3은 완성된 비디오 서머리영상을 캡쳐한 사진이다.
도 4는 시간 단축을 위해 실제 현상을 왜곡시켜 서머리영상에 표현하는 것을 설명하기 위한 도면이다.
도 5는 본 발명의 일 예에 따른 비디오 서머리방법의 개략적 흐름도이다.
도 6 및 도 7은 원본영상에서 동적객체를 분리하고 객체정보를 생성하는 과정을 설명하기 위한 것이다.
도 8은 동적객체에 대한 트래킹 과정을 설명하기 위한 것이다.
도 9는 서머리 영상을 만드는 알고리즘을 설명하기 위한 것이다.
도 10은 본 발명에서 프레임세트를 생성하고, 프레임볼륨으로 분할하는 과정을 설명하기 위한 것이다.
도 11은 서머리 가영상을 갱신하면서 서머리영상을 만드는 과정을 설명하기 위한 것이다.
도 12는 서머리 가영상을 계속적으로 갱신하여 최종적으로 서머리영상이 만들어진 예를 보여주기 위한 것이다.
도 13은 본 발명에서 프레임볼륨 단위의 서머리영상 생성 방법(서머리영상1)의 장점을 종래의 방법(서머리영상2)과 비교하기 위한 것이다.
도 14는 본 발명에서 객체의 일부 삭제에 따른 서머리영상의 시간단축 효과를 설명하기 위한 것이다.
※ 첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.
상기 목적을 달성하기 위한 본 발명에 따른 비디오 서머리방법은, (a)복수의 프레임으로 이루어진 비디오 원본영상에 등장하는 복수의 움직이는 객체를 탐지하여, 상기 객체의 프레임 내 위치 및 크기를 포함하는 객체정보를 생성하는 단계; (b)복수의 프레임에 등장하는 객체들 중 동일성이 인정되는 객체에 대하여 동일 ID를 부여하는 단계; (c)상기 원본영상에서 상기 객체들이 등장하는 프레임만을 선별하여 프레임세트를 생성하는 단계; (d)기설정된 시간 간격으로 상기 프레임세트를 분할하여 복수의 프레임으로 이루어진 프레임볼륨을 형성하는 단계; 및 (e)상기 프레임볼륨을 조합하여 상기 원본영상보다 재생 시간이 짧은 비디오 서머리 영상을 생성하는 단계;를 포함하는 것에 특징이 있다.
본 발명에 따르면, 상기 서머리 영상을 생성하는 단계는, 상기 복수의 프레임볼륨 중 어느 하나의 프레임볼륨을 서머리 가영상에 편입하고, 나머지 프레임볼륨들을 일정한 순서에 따라 상기 가영상에 순차적으로 편입하여 상기 서머리 가영상을 점진적으로 늘려서 최종 서머리 영상을 만들되, 상기 프레임볼륨을 기작성된 서머리 가영상에 편입할 때 상기 프레임볼륨과 서머리 가영상에 등장하는 객체간 동선의 중복도 및 시간단축도를 비교판단하여, 상기 각 프레임볼륨이 상기 서머리 가영상에 편입되는 시간을 결정하는 것이 바람직하다.
본 발명의 일 예에서, 상기 서머리 영상을 생성할 때, 상기 복수의 프레임볼륨을 상기 원본영상의 시간 순서에 따라 나열한 후, 첫 번쩨 프레임볼륨부터 마지막 프레임볼륨까지 순차적으로 상기 서머리 가영상에 편입해 나가는 것이 바람직하다.
본 발명의 일 예에서, 상기 객체가 복수의 프레임볼륨에 걸쳐서 등장하되, 복수의 프레임볼륨 중 어느 프레임볼륨에서 일정 시간 이하로 등장하는 경우 해당 프레임볼륨으로부터 상기 객체를 삭제한 후 상기 서머리 가영상에 편입할 수 있다.
또는 본 발명의 일 예에서, 상기 서머리 영상을 생성하는 과정에서 기설정된 시간 간격에 따른 상기 프레임볼륨을 상기 서머리 가영상에 편입하되, 일시적으로 상기 프레임세트의 단위 볼륨의 시간 간격을 기설정된 시간 간격보다 더 길거나 짧게 가변가능하다.
본 발명에 따르면, 이벤트의 등장 객체간 관련성 파악이 용이하도록, 상기 원본영상에서 동일한 프레임에 등장하는 복수의 객체는 상기 서머리 영상에서도 동일한 프레임에 함께 등장한다.
본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다.
이하, 첨부된 도면을 참고하여, 본 발명의 일 예에 따른 비디오 서머리방법에 대하여 더욱 상세하게 설명하기로 한다.
도 5는 본 발명의 일 예에 따른 비디오 서머리방법의 개략적 흐름도이다.
도 5를 참고하면, 본 발명의 일 예에 따른 비디오 서머리방법은 비디오 원본영상을 짧게 요약한 서머리영상을 생성하는 방법이다. 여기서 '요약'이란 원본영상에 등장하는 객체, 주로 동적객체를 중심으로 이루어진다. 즉 원본영상에서 동적객체가 등장하지 않는 프레임들은 대부분 삭제되며, 동적객체 중심으로 서머리영상에 등장하게 된다.
소스가 되는 원본영상은 CCTV 등을 이용하여 안전 모니터링이 필요한 지역을 촬영한 영상일 수 있다. 또한 비행기 활주로 등 관제가 필요한 다양한 영역을 촬영한 영상일 수 있다. 차량이 밀집된 도로의 경우 본 발명을 적용하는 것을 배제하지는 않지만, 비디오 서머리로는 적합하지 않을 수 있다.
원본영상은 이미 촬영완료된 것을 다운로드 방식으로 수신할 수도 있으며, 이른바 '스트리밍' 방식으로 촬영과 동시에 실시간으로 수신할 수도 있다.
원본영상을 수신하면, 도 6의 사진에 도시된 바와 같이 원본영상의 각 프레임(좌측)으로부터 동적객체를 탐지하여 분리한다. 원본영상의 N번째 프레임에서 등장한 3명의 사람을 우측 사진과 같이 배경과 분리한다.
이렇게 분리된 객체에 대해서 객체정보를 생성한다. 도 7을 참고하면, 먼저 프레임 내 동적객체가 포함된 영역을 넓게 추출한 후, 추출된 영역 내에서 해당 객체에 대한 정보를 탐지한다. 객체정보에는 프레임 내 좌표(x, y), 폭과 높이, 사람, 동물, 차량 등 객체의 분류를 포함한다. 객체정보는 기설정된 것으로서, 색상, 움직임 방향(좌에서 우로 등) 등을 포함할 수 있다. 동적객체가 나오는 모든 프레임에서 상기한 작업을 수행한다.
객체에 대한 분리 및 탐지가 완료되면, 여러 프레임에 걸쳐서 등장하는 객체의 동일성을 판단하여, 같은 객체로 판단되면 동일한 ID를 부여한다. 도 8을 참고하여 설명한다. 도 8의 좌측은 원본영상을 나타낸 것으로서, X축은 변위(프레임 내 위치-1차원 가정)이고, Y축은 시간(또는 프레임이다). 즉 시간축을 따라 복수의 프레임들이 나열되어 있는 형태이다. 좌표축 안에 있는 라인(A~D)들은 동적객체를 나타낸다. D객체의 경우 원본영상에 가장 먼저 등장하고, A객체의 경우 나중에 등장하여 가장 오랜시간 원본영상에 등장한다. 객체들은 움직임의 연속성을 가지므로, 동적객체가 나타난 프레임들을 이용하거나, 객체정보를 함께 이용하여, 여러 장에 걸쳐서 등장하는 객체의 동일성 여부를 판단할 수 있다. 예컨대 어떤 객체가 100장의 연속되는 프레임에 나타나 있고, 프레임의 순서에 따라 동선의 연속성이 확인되는 경우 동일한 객체로 볼 수 있다. 또한 프레임 내 등장하는 객체별로 만들어진 객체정보를 보면 100장의 프레임에서 확인된 객체의 폭과 높이가 일정 범위 내로 동일하고, 좌표에 연속성이 있는 경우 동일한 객체로 판단할 수 있다. 동일성 판단결과, 오른쪽 그림과 같이 4개의 객체에 대하여 식별 ID를 부여한다.
상기한 바와 같이 동적객체를 분리(segmentation)하는 과정, 객체를 탐지하여 객체정보를 생성하는 과정(detecting) 및 동일성을 판단하여 객체별로 ID를 부여하는 과정(tracking)은 지능형 CCTV 등 영상처리 분야에서 널리 사용되는 기술이므로, 이에 대한 구체적인 설명은 생략하기로 한다.
그리고 본 발명이 분리, 탐지, 트랙킹을 반드시 모두 거쳐야 하는 것은 아니며, 분리과정 없이 원본영상의 프레임에서 곧장 동적객체를 탐지하여 객체정보를 생성할 수도 있다. 이렇게 원본영상에서 동적객체를 직접 탐지하고 객체정보를 생성하는 것도 본 발명에서 배제하지는 않지만, 속도 및 정확도 향상을 위해서는 분리과정을 선행하는 것이 바람직하다. 또한 여러 프레임에 등장하는 객체의 동일성을 판단하고, 객체별로 ID를 부여하는 트래킹 과정 역시 분리과정 후 탐지과정 없이 수행할 수 있으나, 정확도 향상을 위해 탐지과정에서 얻은 결과를 이용하는 것이 바람직하다.
본 실시예에서는 분리(segmentation), 탐지(detection) 및 트래킹(trcking) 과정을 순차적으로 수행하여 컴퓨터 프로세서에서의 처리 속도와 정확성을 향상시킨다.
원본영상에 대한 동적객체의 분리, 탐지 및 트랙킹이 완료되면, 객체정보, 객체 ID를 데이터 베이스에 저장하고, 객체가 등장하는 원본영상의 프레임의 식별번호(ex: 프레임번호)도 데이터베이스에 저장한다.
원본영상에 대한 분석을 통해 객체정보 등의 데이터가 저장되면, 데이터를 이용하여 다양한 서머리 영상을 만들어 낼 수 있다. 사용자가 조건을 설정하면, 이 조건에 따라 서머리 영상을 만든다. 예컨대, 사람은 제외하고 차량만 나오는 서머리 영상을 만들거나, 차량 중에서 우측으로 향하는 차만 나오도록 하거나, 빨간색 옷을 입은 사람만 찾는다거나 하는 등의 조건 설정이 가능하다. 물론 아무런 조건없이 동적객체가 모두 등장하도록 하는 서머리 영상을 만들 수도 있다. 사용자의 목적에 맞게 서머리 영상을 만들 수 있다.
조건이 설정되면, 이 조건에 맞는 프레임세트를 만들어낸다. 즉 원본영상의 프레임들 중에서 조건에 맞는 동적객체가 등장하는 프레임만 선별하여 별도의 프레임세트를 만든다. 예컨대 동적객체가 모두 등장하는 서머리 영상을 만든다고 하고, 원본영상이 10만개의 프레임으로 이루어져 있고, 이 중 동적객체가 등장하는 프레임이 2만개였으면, 이들만 따로 분리하여 프레임세트를 생성한다. 프레임세트에 포함된 모든 프레임에는 동적객체가 나타나 있을 것이다.
프레임세트가 생성되면 서머리 영상을 생성한다. 서머리 영상을 생성하는 것은 본 발명에서 가장 중요한 특징으로서 도 9 내지 도 12를 참고하여 설명한다.
도 9 내지 도 12는 서머리 영상을 만드는 알고리즘을 설명하기 위한 것이다.
도면을 참고하면, 조건 설정에 의하여 선택된 프레임세트를 기설정된 시간 간격으로 분할하여 복수의 프레임볼륨을 생성한다. 본 실시예에서는 먼저 프레임세트(도 9의 우측)를 일단 원본영상의 시간 순서대로 나열한다. 그리고 일정한 시간 간격, 예컨대 300프레임 단위로 프레임세트를 분할한다. 분할된 하나의 단위를 프레임볼륨이라고 한다. 도 9의 좌측을 보면 볼륨1~4의 4개의 프레임볼륨으로 분할한 것을 볼 수 있다. 4개의 프레임볼륨을 분리하여 보면 도 9의 좌측과 같다.
프레임세트에는 A~G의 6개의 객체가 등장한다. 원본영상에서 보면 A와 B객체가 가장 먼저 등장하였다가 사라진다. C의 경우 프레임 내 공간을 대략 300~800 프레임에 걸쳐서 이동한다. 즉 예컨대 거동이 불편한 노인을 상정할 수 있다. 매우 느린 속도로 이동하고 있다. 이에 반하여 F의 경우 매우 짧은 시간 내에 공간을 지나쳐 간다. 골목길을 가정한다면 빠르게 지나가는 오토바이와 같은 객체일 수 있다.
A, B, E, F, G 객체의 경우 하나의 프레임볼륨 내에서만 등장한다. 그러나, C, D 객체는 복수의 프레임볼륨에 걸쳐서 등장한다. 본 실시예에서 프레임볼륨은 객체 단위로 분할한 것이 아니라, 단지 일정한 시간 단위로 분할한 것이다. 물론 모니터링하고자 하는 객체의 특성에 맞게 프레임볼륨의 시간 간격을 처음 설정할 때 조절할 수 있다. 예컨대, 사람을 모니터링하고자 하는 경우, 골목길의 총 길이와 사람의 보행속도를 고려하여 하나의 볼륨 내에서 사람이 골목길을 모두 통과할 수 있도록 조절할 수도 있다. 골목길에서 오토바이를 모니터링하기 위해서라면 보다 짧은 시간 간격으로 프레임볼륨을 설정할 수 있을 것이다. 볼륨 시간 간격 설정이 가지는 의미는 추후 다시 설명하기로 한다.
프레임세트를 복수의 프레임볼륨으로 분할한 후에는 본격적으로 서머리 영상을 만들어간다. 도 10을 참고하면, 비교판단볼륨과 서머리 가영상이 나타나 있다. 시작 단계에서 비교판단볼륨과 서머리가영상은 비어 있는 상태이다. 먼저 복수의 프레임볼륨 중 어느 하나의 프레임볼륨을 선택하여 비교판단볼륨으로 설정한다. 비교판단볼륨은 서머리 가영상과의 비교를 위한 임시볼륨이다. 본 예에서는 원본영상의 순서에 따라 볼륨1을 선택하여 비교판단볼륨으로 특정한다. 서머리 가영상과 비교판단볼륨 사이에 객체의 동선중복도와 시간압축도를 비교하여야 한다. 이러한 비교판단은 딥러닝 분야에서 적용되고 있는 손실함수(loss function)을 이용하는데, 이에 대해서는 공지된 기술인 바 자세한 설명은 생략하기로 한다. 다만 첫 번째 단계에서는 서머리 가영상이 아직 만들어지지 않아 비교대상이 없으므로 비교판단볼륨에 있는 볼륨1이 그대로 서머리 가영상으로 편입된다. 여기서 편입이라는 의미는 볼륨1에 있는 프레임을 그대로 서머리 가영상에 포함시킨다는 의미는 아니고, 볼륨1에서 객체가 포함된 일부 영역(앞의 탐지과정에서 분리된 영역)을 추출해서 서머리 가영상에 카피해서 붙여 넣는 형태이다. 상기한 바와 같이, 첫 번째 단계에서 볼륨1을 서머리 가영상에 편입시키면, 볼륨1이 현재까지의 서머리 가영상이 된다.
두 번째 단계에서는 볼륨2를 비교판단볼륨으로 특정하고 기작성된 서머리 가영상(현재상태는 볼륨1과 동일)과 볼륨2를 비교한다. 볼륨2가 어느 위치에 편입되는 것이 시간압축도와 동선중복도에 유리한지 결정한다. 도 11을 참고하면, 볼륨2는 서머리 가영상보다 약간 높은 위치(Y축-시간축)에 배치시켰다. 다르게 말하면 현재 상태의 서머리 가영상 보다 시간적으로 약간 늦게 볼륨2가 나오도록 하였다. 볼륨2를 기작성된 서머리 가영상과 시간을 일치시키는 경우, 즉 중복시키는 경우, 객체 B,D,E는 동선이 한 점에서만 겹치므로 동선중복이 크지 않다. 이렇다면 서머리영상의 시간 단축을 위해 볼륨2를 볼륨1과 완전히 겹쳐도 된다. 그러나 이렇게 볼륨1과 볼륨2의 시간대를 완전히 겹치게 되면, 즉 볼륨2를 가장 하단까지 시프트 시키면, 객체A와 객체C의 동선이 완전히 겹치게 되므로 서머리영상에서 A와 C를 정확하게 구별할 수 없다. 반대로 볼륨2를 볼륨1과 겹치지 않게 완전히 분리하여 볼륨1의 위쪽에 배치하면 객체의 파악은 분명해지지만, 시간단축이 되지 않으므로 비디오 서머리로서 의미가 없다. 물론 동적객체가 등장하지 않는 프레임은 프레임세트 단계에서 이미 배제했기 때문에 그 자체로 시간이 단축되었지만, 훨씬 더 단축할 필요가 있다. 따라서 객체 또는 볼륨이 편입될 가장 최적의 위치(등장시간의 결정)를 찾는 것이 비디오 서머리 기술의 핵심이다. 본 예의 경우 도 11에 도시된 바와 같이, 볼륨2를 서머리 가영상에 편입할 때 A와 C의 등장시간에 약간의 차이가 나도록 볼륨2를 배치한다. 같은 시간대(Y축)에서 A와 C의 좌표(X축)가 서로 다르므로 둘 사이에 구별이 가능하다. 또한 원래의 볼륨A와 볼륨B의 시간을 합친 것보다 영상의 재생시간이 훨씬 단축되었다. 서머리영상에서는 A와 C가 약간의 간격을 두고 걸어가는 형태로 표출될 것이다. 이제 볼륨1과 볼륨2가 조합된 것이 서머리 가영상이 된다. 즉 하나의 볼륨을 편입시킬 때마다 서머리 가영상이 갱신된다.
상기한 방식으로 복수의 볼륨들을 차례로 비교판단볼륨으로 특정하고, 이전 차수에 갱신된 서머리 가영상과 동선중복도 및 시간단축도를 비교하여 볼륨들을 서머리 가영상에 편입시켜 나가고, 마지막 볼륨이 서머리 가영상에 편입완료되면 서머리 가영상이 최종적인 서머리영상으로 확정된다.
상기한 과정을 반복하여 프레임세트 내 모든 프레임볼륨을 서머리 가영상에 편입하면, 도 12에 도시된 바와 같이 서머리영상이 완성된다. 프레임세트의 총 시간보다 서머리영상의 시간이 단축되는 것을 알 수 있다. 또한 객체간 동선도 거의 중복되지 않는다. 예컨대 G객체의 경우 원본에서는 가장 늦게 등장하는 객체이지만 다른 객체와 동선이 중복되지 않으므로 서머리영상에서는 가장 먼저 등장하게 하여 시간을 단축시킨 것을 알 수 있다. 이와 같이 비디오 서머리에서는 객체들의 동선과 시간단축을 고려하여, 객체들을 서머리영상 내에서 시간적으로 재배치하는 기술이다. 여기서 재배치의 의미는 시간만을 의미하며, 공간적 재배치는 하지 않는다. 좌표는 원본영상의 좌표와 동일하게 구현한다.
본 발명에서 중요한 점은 2가지이다.
첫째, 볼륨 단위로 서머리영상을 만든다는 점이다. 종래에는 개별 객체 단위로 서머리영상을 만들었다. 도 13을 참고하여 설명한다. 도 13에서 서머리영상1은 본 발명과 같이 볼륨 단위로 서머리영상을 만든 예이고, 서머리영상2는 시간단축도를 최대화시키고 개별 객체단위로 서머리영상을 만든 예이다. 서머리영상1,2에서 차이가 나는 부분은 C객체와 F객체이다. 나머지 객체는 동일하다.
도 13의 서머리영상2에서는 F객체가 서머리영상1에 비하여 하단에 배치되어 있다. 또한 C객체의 경우 서머리영상2에서는 C1과 C2로 분리되어 있다. C1과 C2는 동일한 C객체인데 이동속도가 느려서 등장시간이 너무 길기 때문에 시간단축에 방해가 된다. 이에 종래에는 C객체를 시간에 따라 복수 개로 분할하여 서머리영상2를 만들었다. 본 발명에서도 이러한 분할 방법을 배제하지는 않는다. 하나의 객체가 복수의 볼륨에 걸쳐 있는 경우 분할이 이루어진다. 객체를 분할하면 공간활용도가 증가하기 때문에 서머리영상2의 시간은 단축되는 이점이 있다. 그러나 동일한 C객체가 서머리영상2에서는 t1 시점에 X1 지점과 X2 지점에 동시에 나타나서 걸어가는 현상이 나타난다. 시간단축의 측면에서는 유리하지만, 실제 현상을 왜곡해서 나타내므로 인지적인 불편함이 발생한다. 이렇게 하는 이유는 시간단축 때문이다.
한편, C객체를 C1과 C2로 분리하여 하단으로 이동하고 나면 상단에는 F객체(점선)가 남게 되며, F객체는 서머리영상2에서 화살표로 나타낸 것처럼 서머리영상2의 하단으로 이동시킬 수 있다. 이렇게 되면 서머리영상2는 서머리영상1에 비하여 시간이 단축된다.
하지만 문제가 있다. 원본영상에서는 C객체와 F객체는 볼륨3에서 동시에 등장하고 서로 동선이 겹친다. 본 발명을 적용한 서머리영상1에서는 볼륨 단위로 서머리하였으므로, 같은 볼륨(더 엄밀하게는 같은 프레임)에 나타난 복수의 객체는 서머리영상에서도 반드시 같은 시간대에 함께 등장하게 된다. 그러나 서머리영상2에서는 C객체(C1,C2)와 F객체는 같은 시간대에 함께 나타나지 않고 서로 다른 시간대에 등장하게 된다. 예컨대, C객체는 노인이었고, F객체는 오토바이였는데, 원본영상에서 오토바이가 노인을 치고 가는 이벤트(오토바이와 노인의 동선이 겹치는 지점)가 있었다고 하면 서머리영상2의 경우 원본영상에서의 실제 이벤트를 전혀 반영하지 못하는 결과로 귀결된다. 서머리영상2와 같이 만들면 C객체와 F객체가 동시간에 등장하지 않으므로 이벤트 상황이 전혀 파악되지 않는 것이다. 서머리영상2에서는 C객체(C1,C2)가 어느 시점에 혼자 넘어져서 고통스러워 한 후 다시 길을 가는 모습으로만 등장할 것이고, F객체는 어느 시점에서 잠시 움찔거리다가 다시 진행하는 모습으로 나타날 것이다. 앞의 예에서는 C객체를 C1과 C2로 분할하였지만, 분할하지 않은 경우도 마찬가지이다. 위 예에서 C객체를 분할하지 않고 단지 F객체만을 하단으로 내려도 같은 현상이 나타난다. 결국 같은 볼륨에 등장하는 복수의 객체를 개별 객체단위로 파악하여 등장시간대를 변경시키면 객체간 관련성을 파악할 수 없게 된다. 둘 사이의 이벤트는 전혀 파악이 안된다. 비디오 서머리의 활용에 있어서 가장 본질적인 목적, 즉 “이벤트 파악”이 불가능해지며, 단지 기술적 측면에서 시간단축도가 높은 결과물을 도출하게 된다. 개별 객체 단위로 서머리영상을 작성하였기 때문이다.
이에 반하여 본 발명에 따른 서머리영상1에서는 시간단축도는 서머리영상2에 비하여 떨어지지만 C객체와 F객체의 충돌 상황을 서머리영상에서 그대로 확인할 수 있다는 이점이 있다. 비디오 서머리 기술의 본질적 목적에 보다 근접해 있다고 할 수 있다.
본 발명에서 이를 가능하게 한 이유는 프레임볼륨 단위로 서머리영상을 제작하기 때문이다. 이에 따라 원본영상(또는 프레임세트)에서 같은 시간(또는 같은 볼륨 또는 같은 프레임)에 등장하는 객체는 서머리영상에서도 언제나 같은 시간에 등장하게 된다. 즉, 프레임볼륨 단위의 서머리영상 제작이란 “동일 볼륨에 복수의 객체가 등장하면 이 복수의 객체는 하나의 세트로 취급되어 서머리영상에 함께 동시간대에 편입시키는 방법”이라고 정의할 수 있다.
종래기술에서는 원본영상에서 동시간대에 등장하는 객체라고 하더라도, 개별 객체 단위로 서머리영상에서의 등장시간을 재배치하기 때문에, 서머리영상에서 객체간 관련성이 저하될 수 있다.
한편, 본 발명에서는 서머리영상을 만들 때 특정 프레임볼륨을 비교판단볼륨으로 선정한 후 기편집된 서머리 가영상과의 비교를 통해 서머리영상을 갱신해 나간다. 본 발명에서는 원본영상의 시간 순서대로 프레임볼륨을 순차적으로 비교판단볼륨으로 특정해 나가는 것을 선호한다. 시간단축과 동선중복을 고려하면 다른 프레임볼륨을 먼저 서머리영상에 편입하는 것이 좋을 수도 있다. 그러나 원본영상의 시간 순서와 서머리영상의 순서가 가능한 일치하는 것이 자연스럽다. 다만, 본 발명에서 반드시 원본영상의 시간에 따른 프레임볼륨의 순서대로 서머리영상을 갱신해야 하는 것은 아니며, 시간대가 늦은 프레임볼륨을 먼저 이용하여 서머리영상을 제작해 갈 수도 있다는 점을 첨언한다.
한편, 프레임볼륨의 시간 간격은 가변할 수 있다. 프레임 볼륨 단위로 서머리영상을 만들게 되면, 동일 객체가 복수의 프레임볼륨에 걸쳐 있을 수 있고, 제작 과정에서 객체는 분할되어 앞에서의 C객체를 C1과 C2로 나누게 되므로 부자연스러운 현상이 나타날 수도 있다. 본 발명에서 프레임볼륨 단위의 비디오 서머리 알고리즘을 채택하기 때문에 이러한 현상을 용인한다. 하지만, 본 발명의 다른 예에서는 볼륨 단위의 서머리 제조라는 원칙을 깨지 않으면서 서머리영상에서의 객체의 자연스러운 출현을 보장하기 위하여, 프레임 볼륨의 시간 간격을 중간중간 조절할 수 있다. 예컨대, 도 13의 프레임세트에서 객체 C, D는 볼륨2와 볼륨3에 걸쳐 있다. 이 경우 볼륨2와 볼륨3을 통합하여 하나의 볼륨으로 형성한 후 통합된 프레임볼륨에 등장하는 C,D,E,F 객체를 하나의 세트로 설정할 수 있다. 이렇게 되면 객체가 분할되지 않으므로 서머리영상에서 자연스러운 등장이 가능하다. 로스함수를 적용하여 이렇게 볼륨을 통합할 경우 시간단축의 손해가 얼마인지를 파악해서 이를 결정할 수 있다. 또한 기설정된 시간 간격에 따른 프레임볼륨을 통합하는 것 이외에, 임의로 볼륨 사이즈를 조절하는 것으로도 위의 과정을 수행할 수 있다. 프레임볼륨의 시간 간격을 필요에 따라 임의로 조정하여 서머리영상을 갱신하고, 다시 원래의 시간간격으로 프레임볼륨을 되돌려 후속 서머리영상을 계속해서 갱신해 나갈 수 있다.
한편, 본 발명의 2가지 중요한 점 중 두번째 사항에 대하여 설명한다. 이는 앞에서 설명한 객체의 분할, 즉 C객체를 C1과 C2로 분할하는 것과 연관된 것이다. 도 14를 참고한다. 도 14에서도 앞에서 설명한 바와 같이 본 발명에 따라 볼륨1과 볼륨2 및 볼륨3을 순차적으로 편입하여 서머리영상2를 만들고 있는 중이다. 이제 볼륨4를 서머리영상2에 편입시켜야 하는 단계이다. 프레임세트에서 보면 D객체는 볼륨3과 볼륨4에 걸쳐 있고, 볼륨4에 걸친 부분을 D1이라 한다. 현재까지 만들어진 서머리영상2에서는 D객체 중 볼륨3에 등장한 부분만 포함되어 있다. 서머리영상2에서 볼륨4를 서머리영상2의 가장 하단으로 배치하는 경우 G 객체는 문제가 없지만 D1 부분이 C객체의 하단과 완전히 중복되어 버려, 객체C,D가 명확하게 구분되지 않는다. 중복도의 손해 때문에 이러한 배치가 곤란하다. 이에 따라 알고리즘은 로스함수를 계산하여 볼륨4를 다른 위치에 배치하게 되고 결과적으로 시간단축도가 저하된다.
본 발명에서는 시간단축을 위한 방안으로서 객체의 일부 삭제를 허용한다. 즉, 동일 객체가 복수의 프레임볼륨에 걸려 있고, 전체 동선에 비하여 어느 하나의 볼륨에 걸려 있는 동선이 매우 짧다면 이 부분, 즉 도 14에서 D1 부분을 삭제한다. 이렇게 되면 볼륨4에는 G객체만 남게 되고, 서머리영상1과 같이 G객체를 서머리영상의 최하단에 등장시켜 시간단축을 최대화할 수 있고 동선중복도 최소화할 수 있다. 동선이 짧다는 기준은 사용자에 의하여 설정할 수 있는데, 최대로 잡아도 객체의 전체 등장시간의 1/2 미만이 되어야 하며, 바람직하게는 1/3 이하가 바람직하다.
한 가지 유의할 사항은 삭제되는 부분의 프레임에 다른 객체가 함께 등장하지 않는 것이 바람직하다는 점이다. 본 발명의 가장 중요한 특징은 동일 프레임에 등장하는 복수의 객체는 서머리영상에서도 같이 등장하는 것이기 때문이다. 본 케이스의 경우 D1가 G객체는 같은 볼륨에 있지만 프레임 단위로는 함께 등장하지 않기 때문에 D1을 삭제하는 것이 가능하다. 다만, 시간단축을 위해서는 동일 프레임에 복수의 객체가 등장하는 경우에는 특별한 예외를 통해 객체 삭제가 가능하다. 예컨대, 두 개의 객체가 같은 프레임에 등장하지만 소정 거리 이내로 접근하지 않는 경우, 또는 삭제하고자 하는 대상의 등장시간이 시간이 매우 짧은 경우 등 객체간 이벤트가 일어날 확률이 적은 경우라면 객체의 일부를 삭제하는 것을 허용하여 시간단축을 최대화할 수 있다.
지금까지 프레임볼륨 단위로 서머리영상을 생성하는 과정에 대하여 설명하였으며, 프레임볼륨을 서머리영상에 편입할 때 어느 시간에 편입할 것인지에 대하여 현상을 중심으로 설명하였다.
본 발명은 상기한 알고리즘을 수행하도록 되어 있는 소프트웨어가 컴퓨터에 탑재되어, 컴퓨터에 의하여 구현된다. 그리고 시간단축도와 동선중복도를 비교판단 하는 것 역시 컴퓨터 알고리즘에 의하여 이루어지며, 이는 앞에서 언급한 로스함수에 의하여 수행된다.
이상에서 설명한 바와 같이, 본 발명에서는 원본영상을 짧은 시간의 서머리영상으로 생성하는 방법을 제공한다. 본 발명에서는 원본영상에서 동적객체가 등장하는 프레임만을 선별하여 프레임세트를 만들고, 프레임세트를 일정 시간 단위로 분할하여 프레임볼륨을 만든다. 본 발명의 중요한 특징은 프레임볼륨(넓게는 원본영상)에 함께 등장하는 복수의 객체는 서머리영상에서도 함께 등장하도록 하여, 이벤트가 발생시 객체간 관련성을 용이하게 파악할 수 있다.
또한 서머리영상에서도 객체의 등장이 가능한 원본영상과 일치하도록 하여 서머리영상이 자연스러워지며, 사용자의 인지적 불편함을 해소할 수 있다.
또한 본 발명에서는 객체의 일부 삭제를 허용함으로써, 기존에 객체를 분할하여 동시간에 동일 객체가 중복 출현하는 부자연스러움 및 사용자의 인지적 불편함을 해소하여 품질이 향상된다는 이점이 있다.
본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명이 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.

Claims (6)

  1. (a)복수의 프레임으로 이루어진 비디오 원본영상에 등장하는 복수의 움직이는 객체를 탐지하여, 상기 객체의 프레임 내 위치 및 크기를 포함하는 객체정보를 생성하는 단계;
    (b)복수의 프레임에 등장하는 객체들 중 동일성이 인정되는 객체에 대하여 동일 ID를 부여하는 단계;
    (c)상기 원본영상에서 상기 객체들이 등장하는 프레임만을 선별하여 프레임세트를 생성하는 단계;
    (d)기설정된 시간 간격으로 상기 프레임세트를 분할하여 복수의 프레임으로 이루어진 프레임볼륨을 형성하는 단계;
    (e)상기 프레임볼륨을 조합하여 상기 원본영상보다 재생 시간이 짧은 비디오 서머리 영상을 생성하는 단계;를 포함하는 것을 특징으로 하는 비디오 서머리방법.
  2. 제1항에 있어서,
    상기 서머리 영상을 생성하는 단계는,
    상기 복수의 프레임볼륨 중 어느 하나의 프레임볼륨을 서머리 가영상에 편입하고, 나머지 프레임볼륨들을 일정한 순서에 따라 상기 가영상에 순차적으로 편입하여 상기 서머리 가영상을 점진적으로 늘려서 최종 서머리 영상을 만들되,
    상기 프레임볼륨을 기작성된 서머리 가영상에 편입할 때 상기 프레임볼륨과 서머리 가영상에 등장하는 객체간 동선의 중복도 및 시간단축도를 비교판단하여, 상기 각 프레임볼륨이 상기 서머리 가영상에 편입되는 시간을 결정하는 것을 특징으로 하는 비디오 서머리방법.
  3. 제2항에 있어서,
    상기 서머리 영상을 생성할 때,
    상기 복수의 프레임볼륨을 상기 원본영상의 시간 순서에 따라 나열한 후, 첫 번쩨 프레임볼륨부터 마지막 프레임볼륨까지 순차적으로 상기 서머리 가영상에 편입해 나가는 것을 특징으로 하는 비디오 서머리방법.
  4. 제2항에 있어서,
    상기 객체가 복수의 프레임볼륨에 걸쳐서 등장하되, 복수의 프레임볼륨 중 어느 프레임볼륨에서 등장하는 시간이 전체 등장시간에 비하여 소정 비율 이하로 짧게 등장하는 경우 해당 프레임볼륨으로부터 객체를 삭제한 후 상기 서머리 가영상에 편입하는 것을 특징으로 하는 비디오 서머리방법.
  5. 제2항에 있어서,
    상기 서머리 영상을 생성하는 과정에서 기설정된 시간 간격에 따른 상기 프레임볼륨을 상기 서머리 가영상에 편입하되,
    일시적으로 상기 프레임세트의 단위 볼륨의 시간 간격을 기설정된 시간 간격보다 더 길거나 짧게 가변시키는 것을 특징으로 하는 비디오 서머리방법.
  6. 제1항에 있어서,
    상기 원본영상의 동일한 프레임에 등장하는 복수의 객체는 상기 서머리 영상에서도 동일한 프레임에 함께 등장하는 것을 특징으로 하는 비디오 서머리방법.
PCT/KR2020/010823 2019-10-17 2020-08-14 이벤트의 등장 객체간 관련성 파악이 용이한 비디오 서머리방법 WO2021075694A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/766,523 US20230336843A1 (en) 2019-10-17 2020-08-14 Video summarization method for enabling easy identification of relevance between appearing objects in event

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0129196 2019-10-17
KR1020190129196A KR102252083B1 (ko) 2019-10-17 2019-10-17 이벤트의 등장 객체간 관련성 파악이 용이한 비디오 서머리방법

Publications (1)

Publication Number Publication Date
WO2021075694A1 true WO2021075694A1 (ko) 2021-04-22

Family

ID=75537838

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/010823 WO2021075694A1 (ko) 2019-10-17 2020-08-14 이벤트의 등장 객체간 관련성 파악이 용이한 비디오 서머리방법

Country Status (3)

Country Link
US (1) US20230336843A1 (ko)
KR (1) KR102252083B1 (ko)
WO (1) WO2021075694A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110105437A (ko) * 2010-03-19 2011-09-27 에스케이커뮤니케이션즈 주식회사 공간 변화를 이용한 비디오 요약 방법 및 시스템과 이를 위한 기록매체
KR101289085B1 (ko) * 2012-12-12 2013-07-30 오드컨셉 주식회사 객체 기반 영상 검색시스템 및 검색방법
US20160070963A1 (en) * 2014-09-04 2016-03-10 Intel Corporation Real time video summarization
KR20180056655A (ko) * 2015-09-25 2018-05-29 퀄컴 인코포레이티드 비디오 처리를 위한 시스템들 및 방법들
KR20180130354A (ko) * 2017-05-29 2018-12-07 엘지전자 주식회사 휴대 전자장치 및 그 제어 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110105437A (ko) * 2010-03-19 2011-09-27 에스케이커뮤니케이션즈 주식회사 공간 변화를 이용한 비디오 요약 방법 및 시스템과 이를 위한 기록매체
KR101289085B1 (ko) * 2012-12-12 2013-07-30 오드컨셉 주식회사 객체 기반 영상 검색시스템 및 검색방법
US20160070963A1 (en) * 2014-09-04 2016-03-10 Intel Corporation Real time video summarization
KR20180056655A (ko) * 2015-09-25 2018-05-29 퀄컴 인코포레이티드 비디오 처리를 위한 시스템들 및 방법들
KR20180130354A (ko) * 2017-05-29 2018-12-07 엘지전자 주식회사 휴대 전자장치 및 그 제어 방법

Also Published As

Publication number Publication date
KR102252083B1 (ko) 2021-05-14
US20230336843A1 (en) 2023-10-19
KR20210045769A (ko) 2021-04-27

Similar Documents

Publication Publication Date Title
WO2018004298A1 (ko) 영상 축약 시스템 및 방법
WO2014092446A1 (ko) 객체 기반 영상 검색시스템 및 검색방법
WO2018097389A1 (ko) 영상 검색 장치, 데이터 저장 방법 및 데이터 저장 장치
KR20180003309A (ko) 영상 축약 시스템 및 방법
WO2014193065A1 (en) Video search apparatus and method
CN104680791B (zh) 一种基于视频检测的行人违章信息与广告联网播放装置
WO2021002722A1 (ko) 이벤트 태깅 기반 상황인지 방법 및 그 시스템
WO2013048159A1 (ko) 아다부스트 학습 알고리즘을 이용하여 얼굴 특징점 위치를 검출하기 위한 방법, 장치, 및 컴퓨터 판독 가능한 기록 매체
KR20150069518A (ko) 비디오 축약 방법 및 장치
WO2018030658A1 (ko) 재구조화 영상 처리를 통한 cctv 저장영상의 이동객체 검출 방법
WO2021201569A1 (ko) 강화학습 기반 신호 제어 장치 및 신호 제어 방법
WO2020027513A1 (ko) 압축영상에 대한 신택스 기반의 영상분석 시스템과 연동 처리 방법
WO2019124635A1 (ko) 압축영상에 대한 신택스 기반의 객체 침입 감지 방법
KR20190079047A (ko) 육안 인식 검사원의 부하경감을 위한 등급별 영상인식 기술을 이용한 cctv 영상내 의심물체 부분검사 지원 시스템 및 방법
WO2020032506A1 (ko) 시각 감지 시스템 및 이를 이용한 시각 감지 방법
CN109766743B (zh) 一种智能仿生警察系统
WO2021225217A1 (ko) 비디오 데이터 통합 분석 및 관리 시스템
WO2021075694A1 (ko) 이벤트의 등장 객체간 관련성 파악이 용이한 비디오 서머리방법
WO2012137994A1 (ko) 영상인식장치 및 그 영상 감시방법
KR101413620B1 (ko) 영상 분석을 통한 영상 텍스트화 장치
WO2012133963A1 (ko) 가상 세계의 날씨 표현 방법 및 이를 위한 장치
JP3093346B2 (ja) 運動物体検出装置
WO2018008871A1 (ko) 컴팩트 비디오 생성 장치, 방법 및 컴퓨터 프로그램이 기록된 기록매체
CN117273405A (zh) 阵列计算视觉应用在景区管理的方法
WO2018194417A1 (ko) 주차 구역 관리 방법 및 이러한 방법을 수행하는 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20876777

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20876777

Country of ref document: EP

Kind code of ref document: A1