WO2023121161A1 - 모션 증폭 장치 및 이를 사용하는 방법 - Google Patents

모션 증폭 장치 및 이를 사용하는 방법 Download PDF

Info

Publication number
WO2023121161A1
WO2023121161A1 PCT/KR2022/020641 KR2022020641W WO2023121161A1 WO 2023121161 A1 WO2023121161 A1 WO 2023121161A1 KR 2022020641 W KR2022020641 W KR 2022020641W WO 2023121161 A1 WO2023121161 A1 WO 2023121161A1
Authority
WO
WIPO (PCT)
Prior art keywords
motion
shape information
frame
information
amplified
Prior art date
Application number
PCT/KR2022/020641
Other languages
English (en)
French (fr)
Inventor
오태현
김성빈
박상혁
이래경
서준영
Original Assignee
주식회사 포스코
재단법인 포항산업과학연구원
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 포스코, 재단법인 포항산업과학연구원, 포항공과대학교 산학협력단 filed Critical 주식회사 포스코
Publication of WO2023121161A1 publication Critical patent/WO2023121161A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture

Definitions

  • the present disclosure relates to motion amplification devices and methods of using the same.
  • abnormal vibration When a problem occurs in equipment used in industrial sites, abnormal vibration or behavior occurs. For example, in the case of an aging rotating body facility, abnormal vibration may occur in a rotational axis direction, not in a rotational direction.
  • a method for inspectors to check equipment defects with the naked eye is used, but this is a problem in that it is difficult to check the size of vibration when the vibration frequency is high, judgment may vary depending on the inspector's subjectivity, and long-term monitoring is cumbersome.
  • Motion magnification is used to amplify and visualize minute motions.
  • Motion amplification technology generally uses the Eulerian method of estimating motion from changes in physical quantities of objects passing through each fixed point in space.
  • the motion amplification technology has a problem in that it does not provide an accurate numerical value for the magnitude of motion, which is an essential factor for determining whether a facility is defective.
  • the present disclosure is to solve the above problems, and an object of the present disclosure is to provide a numerical value of motion together with motion amplification of equipment.
  • the present disclosure is intended to quantitatively analyze motion while amplifying and visually representing motion of an object.
  • a motion amplification apparatus receives a first frame and a second frame that are arbitrarily adjacent in an image, decomposes the first frame into first shape information and first texture information, and divides the second frame into first shape information and first texture information.
  • An encoder that decomposes into 2 shape information and second texture information, a first module for generating a motion-amplified frame based on the first shape information, the second shape information, and the second texture information;
  • a second module analyzes the magnitude of motion based on 2 shape information and first texture information, and a third module generates amplified image data indicating the magnitude of motion on a frame in which the motion is amplified.
  • the first module multiplies the difference between the first shape information and the second shape information by a preset amplification coefficient to generate new shape information and synthesizes the generated shape information, the first shape information, and the second texture information to obtain motion.
  • Amplified frames can be created.
  • the second module is configured to calculate each pixel change between the first frame and the second frame based on the first shape information and the second shape information, and analyze the magnitude of motion of the object according to the calculated pixel change. It can be.
  • the second module may be configured to analyze the magnitude of motion of an object using a convolutional neural network (CNN) trained to analyze the magnitude of motion from input shape information of arbitrary frames.
  • CNN convolutional neural network
  • a motion amplification method includes receiving an arbitrary first frame and a second frame adjacent to each other in an image, decomposing the first frame into first shape information and first texture information, and dividing the second frame into first shape information and first texture information. Decomposing into 2 shape information and second texture information, generating a motion-amplified frame based on the first shape information, the second shape information, and the second texture information, the first shape information, the second shape information , and analyzing the size of the motion based on the first texture information, and generating amplified image data indicating the size of the motion on a frame in which the motion is amplified.
  • new shape information is generated by multiplying the difference between the first shape information and the second shape information by a preset amplification coefficient, and the generated shape information, the first shape information, and the second texture
  • a step of synthesizing information to generate a motion-amplified frame may be included.
  • Analyzing the size of motion may include calculating each pixel change between the first frame and the second frame based on the first shape information and the second shape information, and calculating the size of the motion of the object according to each pixel change. It may include the step of analyzing.
  • the step of analyzing the size of the motion further includes analyzing the size of the object's motion using a convolutional neural network (CNN) learned to analyze the size of the motion from the input shape information of arbitrary frames.
  • CNN convolutional neural network
  • step of generating a motion-amplified frame if the size of the motion exceeds a pre-stored vibration threshold for the object, it is determined that an area in which motion exceeding the threshold is detected is a dangerous area that needs to be checked, and the amplified image data is displayed.
  • a step of generating amplified image data to indicate a risk area may be included.
  • a recording medium may store a program for performing a motion amplification method.
  • a program according to an embodiment may be stored in a recording medium to perform a motion amplification method.
  • a more accurate motion amplification result can be obtained.
  • a part of an object that needs confirmation may be visually indicated.
  • FIG. 1 is a block diagram of a motion amplification system according to an embodiment of the present invention.
  • FIG. 2 is a block diagram of a controller of the motion amplification device of the present invention.
  • FIG. 3 is a flow chart of a motion amplification method according to the present invention.
  • FIG. 4 is a diagram showing an example of a screen displayed on an output unit of a motion amplification device according to the present invention.
  • FIG. 1 is a block diagram of a motion amplification system according to an embodiment of the present invention.
  • the motion amplification system 1 includes a camera 10 and a motion amplification device 20 .
  • the camera 10 and the motion amplification device 20 may be connected through a network.
  • a network refers to a connection structure capable of exchanging information between nodes such as devices and servers, and examples of such networks include a local area network (LAN), a wide area network (WAN), and BBN ( broadband network), wireless LAN (WLAN), Long Term Evolution (LTE), LTE Advanced (LTE-A), Code-Division Multiple Access (CDMA), Wideband Code Division Multiplex Access (WCDMA), Universal Mobile Telecommunication System), WiBro (Wireless Broadband), GSM (Global System for Mobile Communications), BLE (Bluetooth Low Energy), Bluetooth, Zigbee, UWB (Ultra-WideBand), ANT, Wi-fi, IrDA (infrared data association), PAN (Personal Area Network), etc. are included, but are not limited thereto.
  • LAN local area network
  • WAN wide area network
  • BBN broadband network
  • WLAN wireless LAN
  • LTE Long Term Evolution
  • LTE-A LTE Advanced
  • CDMA Code-Division Multiple Access
  • WCDMA Wideband
  • the camera 10 is a device for photographing an object whose motion is to be analyzed, and may include image sensors of various shapes, such as a charge coupled device (CCD) and a complementary metal oxide semiconductor (CMOS).
  • CCD charge coupled device
  • CMOS complementary metal oxide semiconductor
  • the camera 10 may photograph equipment at an operation site.
  • the camera 10 may obtain an image of an object in real time. An image captured by the camera 10 may be transmitted to the motion amplification device 2 through a network.
  • the motion amplification device 20 is a device that analyzes an image received from the camera 10, detects fine motion existing in the image, and amplifies and analyzes the detected fine motion.
  • the motion amplification device 20 includes a communication unit 210, a control unit 230, a memory unit 250, and an output unit 270.
  • the communication unit 210 is for communicating with the camera 10 through a network.
  • the communication unit 210 may transmit an image received from the camera 10 to the controller 230 .
  • the controller 230 may include an artificial neural network that learns images stored in the memory unit 250 .
  • An artificial neural network includes a plurality of layers, and the plurality of layers are connected through a plurality of calculations to which weights are applied.
  • an artificial neural network includes a plurality of layers including a plurality of operations to which weights are applied.
  • the plurality of layers including a plurality of operations include a convolution layer that performs a convolution operation, a pooling layer that performs a downsampling operation, and an expression that performs an upsampling operation. It may include a pooling (UL: Unpooling Layer) layer, a deconvolution layer (DL: Deconvolution Layer) that performs a deconvolution operation, and the like.
  • UL Unpooling Layer
  • DL Deconvolution Layer
  • training an artificial neural network provides an input having a known output to the neural network to generate a predicted output, and compares the predicted output with the known output through the neural network to reduce the difference between the algorithm of the artificial neural network and the artificial neural network.
  • an artificial neural network may be trained using a gradient decent method. This can be repeated several times, and as it is repeated, the artificial neural network can produce more accurate output.
  • the controller 230 may detect minute motion according to time in an image including a plurality of frames using an artificial neural network and amplify the detected minute motion.
  • the controller 230 may generate an amplified image including the amplified fine motion.
  • the amplified image is an image in which a region in which a fine motion is detected is emphasized in the received image. That is, the amplified image is an image reconstructed by amplifying fine motion according to a preset amplification coefficient.
  • An amplified image may be composed of a plurality of amplified image frames.
  • the controller 230 may analyze movement displacement for each pixel using an artificial neural network.
  • the control unit 230 may derive the vibration magnitude of the fine motion through the analyzed pixel-by-pixel movement displacement.
  • the movement displacement per pixel is referred to as the size of a fine motion.
  • the controller 230 may generate data so that the size of the fine motion is displayed together in the image.
  • the controller 230 may generate amplified image data so that the size of the fine motion is displayed together in the amplified image.
  • the amplified image data is data in which the size of the analyzed fine motion is displayed together with the amplified image.
  • the controller 230 may include an artificial neural network that additionally learns generated amplified images and amplified image data.
  • the controller 230 may determine whether the size of the analyzed fine motion exceeds a preset threshold. If the magnitude of the fine motion exceeds the threshold, the controller 230 may determine that the region in which the fine motion exceeding the threshold is detected is a risk region requiring verification.
  • the controller 230 may transmit the amplified image and the amplified image data to the output unit 300 .
  • the memory unit 250 includes the image received from the camera 10, the amplified image generated by the controller 230, the amplified image data including the size of the fine motion, and any data necessary for training the artificial neural network of the controller 230.
  • the data set of, the threshold of vibration per facility, etc. are stored.
  • the memory unit 250 has been described as being located within the motion amplification device 20, but may be a separate database that is located outside the motion amplification device 20 and communicates with the motion amplification device 20.
  • the output unit 270 may be a display that outputs data received from the controller 230 .
  • the output unit 270 may output an amplified image and amplified image data.
  • the output unit 270 may output an image in which the magnitude of motion is displayed in the image received from the camera 10 .
  • the user may determine whether or not the object photographed by the camera 10 needs confirmation through the output unit 270 .
  • FIG. 2 is a diagram showing the configuration of a controller of the motion amplification device of the present invention.
  • the controller 230 includes an encoder 231 , a first module 233 , a second module 235 , and a third module 237 .
  • the encoder 231 is a component that decomposes an input frame into shape information (Shape) and texture information (Texture). Specifically, the encoder 231 may obtain shape information (Shape n) and texture information (Texture n) of each frame by performing spatial decomposition on each of the two input frames.
  • the encoder 231 may receive shape information and texture information about two randomly adjacent frames and two frames from the memory unit 250 .
  • the encoder 231 may learn to satisfy a regularization term to decompose an input frame into shape information and texture information. Constraints include, for example, a constraint that shape information must be the same even if a texture is changed within one frame in order to decompose shape information, a constraint that textures in two adjacent frames must be the same to decompose texture information, and the like can include
  • the encoder 231 may learn about the two frames transmitted from the memory unit 250 until it outputs known shape information and texture information.
  • the learned encoder 231 may receive two randomly adjacent frames (Frame n, Frame n+1) within the image transmitted from the communication unit 210.
  • the encoder 231 decomposes shape information (Shape n, Shape n+1) and texture information (Texture n, Texture n+1) for each frame to the first module 233 and the second module 235. can be conveyed
  • the first module 233 is a component that generates an amplified frame for a frame received from the encoder 231, and includes a manipulator 2331 and a decoder 2333.
  • the amplifier 2331 is a component that amplifies the difference between shape information (Shape n, Shape n+1), that is, fine motion. Specifically, the amplifier 2331 may obtain a difference between shape information after receiving decomposed shape information (Shape n and Shape n+1) for two consecutive frames from the encoder 231, respectively. Thereafter, the amplifier 2331 may generate new shape information (Shape n+1') including the amplified fine motion by multiplying the difference between the shape information by a specific amplification coefficient ⁇ .
  • the amplification coefficient ⁇ may be a preset coefficient.
  • the amplifier 2331 may transmit new shape information (Shape n+1') to the decoder 2333.
  • the decoder 2333 is a component that combines texture information and shape information into one frame.
  • the decoder 2333 combines the texture information (Texture n + 1) decomposed by the encoder 231 and the shape information (Shape n + 1') amplified by the amplifier 2331 into one frame, A frame (Frame n+1') in which motion is globally amplified may be generated.
  • the second module 235 is a component for analyzing the magnitude of fine motion between frames received from the encoder 231 . Specifically, the second module 235 applies the optical flow technology to two consecutive frames input to the encoder 231 to calculate motion in all pixels. A flow map showing the result ), it is possible to analyze the magnitude of the fine motion.
  • the optical flow technique is a technique for estimating motion information, for example, instantaneous speed, of an object moving spatially within a frame by calculating a partial derivative function for spatial and temporal coordinates of the object.
  • the optical flow technology finds a correspondence between two input frames using a pixel change between adjacent frames and a time interval between adjacent frames, and information about the motion of an object in two frames, for example, the size of the motion ( motion intensity) can be obtained.
  • This optical flow technique belongs to the Lagrangian method.
  • the second module 235 may analyze the magnitude of motion of an object using the trained artificial neural network. Meanwhile, in FIG. 2, when the second module 235 analyzes the size of the fine motion, it is illustrated that a Convolutional Neural Network (CNN) 2351 model is used, but is not limited thereto. 2 module 235 can use any artificial neural network.
  • CNN Convolutional Neural Network
  • CNN 2351 is an artificial neural network composed of convolutional layers.
  • the CNN 2351 may learn to analyze the magnitude of motion through an arbitrary data set transferred from the memory unit 250 .
  • the CNN 2351 may be trained until the loss value, which is the difference between the analysis result and the correct answer, becomes less than or equal to a reference value.
  • the second module 235 may analyze magnitude values of motion between shape information of frames input from the encoder 231 through the learned CNN 2351 . That is, the flow map may be a value obtained by inputting frames to the pretrained CNN 2351.
  • shape information (Shape n, Shape n + 1) and texture information (Texture n) are input to the second module 235 to calculate pixel change between the two shape information (Shape n, Shape n + 1)
  • shape information (Shape n, Shape n + 1)
  • texture information (Texture n)
  • the second module 235 may analyze the magnitude of motion of an object within a frame received from the camera 10 through the communication unit 210 using an artificial neural network.
  • the motion amplification device 20 may generate a flow map by generating an amplified image through the first module 233 and analyzing the magnitude of motion of an object through the second module 235 .
  • the third module 237 may generate amplified image data indicating the size of the motion analyzed by the second module 235 on the frame in which the motion is amplified by the first module 233 .
  • the third module 237 may also generate amplified image data for further displaying a warning mark in a portion having vibration exceeding a threshold value when the moving displacement of the analyzed object exceeds a specific threshold value.
  • the motion amplification device 20 converts shape information (Shape n, Shape n+1) and texture information (Texture n, Texture n+1), which are outputs of the encoder 231, to a motion amplification model based on the Eulerian method.
  • shape information Shape n, Shape n+1
  • texture information Texture n, Texture n+1
  • the second module 235 which is an optical flow model based on the Lagrangian method, is provided.
  • the motion amplification device 20 can train both the first module 233 and the second module 235 with one data, it is data efficient.
  • the encoder 231 can completely decompose the shape information and texture information of the input frame according to the flow map. Therefore, the possibility of wobble effect is low. Also, since the size of the motion of the object can be accurately analyzed through the second module 235, an amplified image matching the size of an amplification coefficient to be amplified by the first module 233 can be obtained.
  • FIG. 3 is a flow chart of a motion amplification method according to the present invention.
  • the encoder 231 receives the n-th frame and the n+1-th frame (S301).
  • the n-th frame and the n+1-th frame may be adjacent frames.
  • the encoder 231 may be trained to decompose a frame input to the encoder 231 into shape information and texture information using an arbitrary data set previously stored in the memory unit 250 .
  • the encoder 231 decomposes the n-th frame into n-th shape information and n-th texture information, and decomposes the n+1-th frame into n+1-th shape information and n+1-th texture information (S303). .
  • the encoder 231 may transmit the decomposed n-th shape information and n-th texture information, and the n+1-th shape information and n+1-th texture information to the first module 233 and the second module 235 .
  • the first module 233 multiplies the difference between the n-th shape information and the n+1-th shape information by an amplification factor to generate amplified n+1'th shape information (S305).
  • the first module 233 synthesizes the amplified n+1'th shape information, the nth shape information, and the n+1th texture information to generate an n+1th frame in which motion is amplified (S307). Accordingly, the first module 233 may generate an amplified image in which motion is emphasized.
  • the second module 235 calculates each pixel change between the n-th frame and the n+1-th frame based on the n-th shape information and the n+1-th shape information (S309).
  • the second module 235 quantitatively analyzes the movement displacement according to the calculated pixel change (S311).
  • the third module 237 displays the digitized movement displacement on the n+1 th frame in which the motion is amplified through the output unit 270 (S313).
  • the third module 237 displays a warning mark on a portion having vibration exceeding the threshold value.
  • the specific threshold may be a threshold of vibration per facility previously stored in the memory 250 .
  • FIG. 4 is a diagram illustrating an example of a screen displayed on an output unit of a motion amplification device when a camera photographs a rotating facility.
  • FIG. 4 is a screen showing one frame of images taken by the camera 10 when the camera 10 photographs equipment rotating on the y-axis.
  • the camera 10 may be installed so as to photograph a problematic part of a facility requiring observation. At this time, the camera 10 may capture an image of the facility in real time and transmit it to the motion amplification device 20 through a network.
  • the problematic part here is the part where the equipment can vibrate parallel to the rotational axis, that is, in the y-axis direction. Motion parallel to the axial direction is an undesirable behavior for the machine and needs to be observed.
  • the motion amplification device 20 may receive an image from the camera 10 , amplify motion parallel to an axial direction through a first module 233 , and analyze the motion through a second module 235 .
  • 4(b) is an example of amplified image data.
  • the movement displacement for the motion of the facility analyzed through the second module 235 is displayed together with the amplified image generated by the first module 233 .
  • the behavior of a facility in the y-axis direction may be displayed.
  • (c) of FIG. 4 is an example of amplified image data in which a warning mark appears in a portion where an object has vibration exceeding a threshold value.
  • the memory unit 250 may store a threshold value of vibration that may occur when the facility being photographed by the camera 10 is operating safely. If the equipment vibrates beyond a pre-stored vibration threshold, it may be in an unsafe condition.
  • the controller 230 may also display a warning display on the corresponding part when the equipment vibrates in the y-axis direction by exceeding a specific threshold value.
  • the motion amplification device According to the motion amplification device according to the present disclosure, it is possible to grasp with the naked eye by amplifying the vibration of a facility and visualizing it on a screen.
  • the motion amplification device it is possible to quantitatively analyze the motion size of a facility suspected of having a defect. By quantitatively measuring the size of the vibration of the facility, the degree of defect can be identified according to the measured result.
  • the motion amplification device there is an economical advantage by replacing the contact sensor. Cost can be reduced by replacing expensive contact sensors for local diagnostic analysis and measurement with GPUs and cameras. Furthermore, since a camera, which is a single movable sensor, is used unlike the contact type, intuitive diagnosis is possible over a wide area, and multiple equipment diagnosis is possible with a small number of sensors. Accordingly, it is possible to accurately diagnose defects in facilities used in various industrial sites and to diagnose safe facility defects early.
  • the above-described embodiments can be implemented in the form of a computer program that can be executed on a computer through various components, and such a computer program can be recorded on a computer-readable medium.
  • the medium is a magnetic medium such as a hard disk, a floppy disk and a magnetic tape, an optical recording medium such as a CD-ROM and a DVD, a magneto-optical medium such as a floptical disk, and It may include a hardware device specially configured to store and execute program instructions, such as a ROM, RAM, flash memory unit, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Geometry (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

실시예에 따른 모션 증폭 장치는, 영상 내에서 임의의 인접하는 제1 프레임 및 제2 프레임을 수신하고, 제1 프레임을 제1 형상 정보 및 제1 텍스쳐 정보로 분해하고, 제2 프레임을 제2 형상 정보 및 제2 텍스쳐 정보로 분해하는 인코더, 제1 형상 정보, 제2 형상 정보, 및 제2 텍스쳐 정보에 기초하여 모션이 증폭된 프레임을 생성하는, 제1 모듈, 제1 형상 정보, 제2 형상 정보, 및 제1 텍스쳐 정보에 기초하여 모션의 크기를 분석하는, 제2 모듈, 그리고 모션이 증폭된 프레임 상에 모션의 크기를 표시하는 증폭 영상 데이터를 생성하는 제3 모듈을 포함한다.

Description

모션 증폭 장치 및 이를 사용하는 방법
본 개시는 모션 증폭 장치 및 이를 사용하는 방법에 관한 것이다.
산업 현장에서 사용되는 설비에서 문제가 발생한 경우에 이상 진동 혹은 거동이 발생한다. 예컨대, 노후화된 회전체 설비의 경우 회전 방향이 아닌, 회전 축 방향으로의 이상 진동이 발생할 수 있다. 보편적으로, 검사자가 육안으로 설비의 결함을 체크하는 방법이 사용되나, 이는 진동 주파수가 높을 경우 진동의 크기를 확인하기 어렵고, 검사자의 주관에 따라 판단이 달라질 수 있으며, 장기적인 모니터링이 번거롭다는 문제가 있다.
이에 따라, 설비들의 결함을 시각화하기 위하여 미세 모션을 증폭시켜 시각화 하는 모션 증폭 기술(motion magnification)이 사용된다. 모션 증폭 기술은 일반적으로 공간 상에서 고정되어 있는 각 지점을 통과하는 물체의 물리량 변화로부터 움직임을 추정하는 오일러리안 방법(Eulerian)을 사용한다.
모션 증폭 기술은 설비의 결함 여부를 판단하기 위한 필수적인 요소인 모션의 크기에 대한 정확한 수치적인 값을 제공하지 않는다는 문제가 있다.
또한, 종래의 모션 증폭 장치를 통해 증폭된 모션의 크기가 미리 설정한 증폭 계수와 동일하지 않는다는 문제가 있다. 더 나아가, 증폭된 영상의 품질이 좋지 못하다는 단점이 있다.
본 개시는 상기와 같은 문제점을 해결하기 위한 것으로, 설비의 모션 증폭과 함께 모션의 수치적인 값을 제공하기 위한 것을 목적으로 한다.
본 개시는 물체의 모션을 증폭하여 시각적으로 나타내면서 동시에 모션을 정량적으로 분석하기 위한 것이다.
일 실시예에 따른 모션 증폭 장치는, 영상 내에서 임의의 인접하는 제1 프레임 및 제2 프레임을 수신하고, 제1 프레임을 제1 형상 정보 및 제1 텍스쳐 정보로 분해하고, 제2 프레임을 제2 형상 정보 및 제2 텍스쳐 정보로 분해하는 인코더, 제1 형상 정보, 제2 형상 정보, 및 제2 텍스쳐 정보에 기초하여 모션이 증폭된 프레임을 생성하는, 제1 모듈, 제1 형상 정보, 제2 형상 정보, 및 제1 텍스쳐 정보에 기초하여 모션의 크기를 분석하는, 제2 모듈, 그리고 모션이 증폭된 프레임 상에 모션의 크기를 표시하는 증폭 영상 데이터를 생성하는 제3 모듈을 포함한다.
제1 모듈은, 제1 형상 정보와 제2 형상 정보의 차이에 미리 설정된 증폭 계수를 곱하여, 새로운 형상 정보를 생성하고 생성한 형상 정보, 제1 형상 정보, 및 제2 텍스쳐 정보를 합성하여 모션이 증폭된 프레임을 생성할 수 있다.
제2 모듈은, 제1 형상 정보 및 제2 형상 정보에 기초하여 제1 프레임 및 제2 프레임 간의 각각의 픽셀 변화를 계산하고, 계산한 각각의 픽셀 변화에 따라 물체의 모션의 크기를 분석하도록 구성될 수 있다.
제2 모듈은, 입력된 임의의 프레임들의 형상 정보로부터 모션의 크기를 분석하도록 학습된 콘볼루션 신경망(Convolutional Neural Network, CNN)을 사용하여 물체의 모션의 크기를 분석하도록 구성될 수 있다.
물체에 대한 진동 임계치를 저장하고 있는 메모리, 및 증폭 영상 데이터를 출력하는 출력부를 더 포함하고, 제3 모듈은, 모션의 크기가 진동 임계치를 초과하면, 임계치를 초과하는 모션이 검출된 영역이 확인이 필요한 위험 영역이라고 판단하고, 증폭 영상 데이터 상에 위험 영역을 표시하도록 증폭 영상 데이터를 생성할 수 있다.
일 실시예에 따른 모션 증폭 방법은, 영상 내에서 임의의 인접하는 제1 프레임 및 제2 프레임을 수신하고, 제1 프레임을 제1 형상 정보 및 제1 텍스쳐 정보로 분해하고, 제2 프레임을 제2 형상 정보 및 제2 텍스쳐 정보로 분해하는 단계, 제1 형상 정보, 제2 형상 정보, 및 제2 텍스쳐 정보에 기초하여 모션이 증폭된 프레임을 생성하는 단계, 제1 형상 정보, 제2 형상 정보, 및 제1 텍스쳐 정보에 기초하여 모션의 크기를 분석하는 단계, 그리고 모션이 증폭된 프레임 상에 모션의 크기를 표시하는 증폭 영상 데이터를 생성하는 단계를 포함한다.
모션이 증폭된 프레임을 생성하는 단계는, 제1 형상 정보와 제2 형상 정보의 차이에 미리 설정된 증폭 계수를 곱하여, 새로운 형상 정보를 생성하고 생성한 형상 정보, 제1 형상 정보, 및 제2 텍스쳐 정보를 합성하여 모션이 증폭된 프레임을 생성하는 단계를 포함할 수 있다.
모션의 크기를 분석하는 단계는, 제1 형상 정보 및 제2 형상 정보에 기초하여 제1 프레임 및 제2 프레임 간의 각각의 픽셀 변화를 계산하고, 계산한 각각의 픽셀 변화에 따라 물체의 모션의 크기를 분석하는 단계를 포함할 수 있다.
모션의 크기를 분석하는 단계는, 입력된 임의의 프레임들의 형상 정보로부터 모션의 크기를 분석하도록 학습된 콘볼루션 신경망(Convolutional Neural Network, CNN)을 사용하여 물체의 모션의 크기를 분석하는 단계를 더 포함할 수 있다.
모션이 증폭된 프레임을 생성하는 단계는, 모션의 크기가 물체에 대해 미리 저장된 진동 임계치를 초과하면, 임계치를 초과하는 모션이 검출된 영역이 확인이 필요한 위험 영역이라고 판단하고, 증폭 영상 데이터 상에 위험 영역을 표시하도록 증폭 영상 데이터를 생성하는 단계를 포함할 수 있다.
일 실시예에 따른 기록 매체는, 모션 증폭 방법을 수행하는 프로그램이 저장되어 있을 수 있다.
일 실시예에 따른 프로그램은, 모션 증폭 방법을 수행하도록 기록 매체에 저장될 수 있다.
본 개시에 따른 실시 예들 중 적어도 하나에 의하면, 더 정확한 모션 증폭 결과를 획득할 수 있다.
본 개시에 따른 실시 예들 중 적어도 하나에 의하면, 물체의 모션 분석이 용이하다.
본 개시에 따른 실시 예들 중 적어도 하나에 의하면, 물체에서 확인이 필요한 부분을 시각적으로 나타낼 수 있다.
도 1은 본 발명의 일 실시예에 따른 모션 증폭 시스템의 블록도이다.
도 2는 본 발명의 모션 증폭 장치의 제어부의 블록도이다.
도 3은 본 발명에 따른 모션 증폭 방법의 순서도이다.
도 4는 본 발명에 따른 모션 증폭 장치의 출력부에 나타난 화면의 일 예시를 도시한 도면이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 동일하거나 유사한 구성요소에는 동일, 유사한 도면 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 첨부한 도면들을 참조하여 본 발명의 실시 예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 모션 증폭 시스템의 블록도이다.
모션 증폭 시스템(1)은 카메라(10) 및 모션 증폭 장치(20)를 포함한다.
카메라(10) 및 모션 증폭 장치(20)는 네트워크를 통해 연결될 수 있다.
본 발명에서 네트워크는 장치들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 LAN(local area network), WAN(wide area network), BBN(broadband network), WLAN(wireless LAN), LTE(Long Term Evolution, LTE), LTE-A(LTE Advanced), CDMA(Code-Division Multiple Access, CDMA), WCDMA(Wideband Code Division Multiplex Access), UMTS(Universal Mobile Telecommunication System), WiBro(Wireless Broadband), GSM(Global System for Mobile Communications), BLE(Bluetooth Low Energy), 블루투스(Bluetooth), Zigbee, UWB (Ultra-WideBand), ANT, Wi-fi, IrDA(infrared data association), PAN (Personal Area Network) 등이 포함되나, 이에 한정되지는 않는다.
카메라(10)는 모션을 분석하고자 하는 물체를 촬영하는 장치로, CCD(Charge Coupled Device), CMOS(Complementary Metal Oxide Semiconductor) 등의 다양한 형상의 이미지 센서를 구비할 수 있다. 예를 들어, 카메라(10)는 조업 현장에서는 설비를 촬영할 수 있다.
카메라(10)는 물체에 대한 영상을 실시간으로 획득할 수 있다. 카메라(10)를 통해 촬영한 영상은 네트워크를 통해 모션 증폭 장치(2)에 전송될 수 있다.
모션 증폭 장치(20)는 카메라(10)로부터 수신한 영상을 분석하여, 영상 내에 존재하는 미세 모션을 검출하고, 검출한 미세 모션을 증폭 및 분석하는 장치이다.
모션 증폭 장치(20)는, 통신부(210), 제어부(230), 메모리부(250), 및 출력부(270)를 포함한다.
통신부(210)는, 네트워크를 통해 카메라(10)와 통신하기 위한 것이다. 통신부(210)는 카메라(10)로부터 수신되는 영상을 제어부(230)로 전달할 수 있다.
제어부(230)는, 메모리부(250)에 저장되어 있는 이미지를 학습하는 인공 신경망을 포함할 수 있다.
인공 신경망은 복수의 레이어를 포함하며, 복수의 레이어는 가중치가 적용되는 복수의 연산을 통해 연결된다. 다시 말하자면, 인공 신경망은 가중치가 적용되는 복수의 연산을 포함하는 복수의 레이어를 포함한다. 여기서, 복수의 연산을 포함하는 복수의 레이어는 컨볼루션 연산을 수행하는 컨볼루션 레이어(convolution layer), 다운 샘플링 연산을 수행하는 풀링 레이어(pooling layer), 업샘플링(Up Sampling) 연산을 수행하는 언풀링(UL: Unpooling Layer) 레이어, 디컨볼루션 연산을 수행하는 디컨볼루션 레이어(DL: Deconvolution Layer) 등을 포함할 수 있다.
한편, 인공 신경망을 학습시키는 것은, 예측된 출력을 생성하기 위해 신경망에 알려진 출력을 갖는 입력을 제공하고, 신경망을 통해 예측된 출력과 알려진 출력을 비교하여 그 차이값이 감소되도록 인공 신경망의 알고리즘을 수정하는 것을 의미한다. 예를 들어, 인공 신경망은 경사하강법(Gradient decent) 방식으로 학습될 수 있다. 이는, 수차례에 걸쳐 반복될 수 있으며, 반복되면서 인공 신경망은 더욱 정확한 출력을 낼 수 있다.
제어부(230)는, 인공 신경망을 사용하여 복수의 프레임을 포함하는 영상 내에 시간에 따른 미세 모션을 검출하고, 검출한 미세 모션을 증폭시킬 수 있다. 제어부(230)는 증폭된 미세 모션이 포함된 증폭 영상을 생성할 수 있다. 증폭 영상은, 전달받은 영상 내에서 미세 모션이 검출된 영역이 강조된 영상이다. 즉, 증폭 영상은 미리 설정된 증폭 계수에 따라 미세 모션이 증폭되어 재구성된 영상이다. 증폭 영상은, 복수의 증폭된 영상 프레임으로 구성될 수 있다.
제어부(230)는 인공 신경망을 사용하여 픽셀 별 이동 변위를 분석할 수 있다. 또한, 제어부(230)는 분석한 픽셀 별 이동 변위를 통해 미세 모션의 진동 크기를 도출할 수 있다. 이하에서는, 픽셀 별 이동 변위를 미세 모션의 크기라고 한다. 제어부(230)는, 미세 모션의 크기가 영상 내에 함께 표시되도록 데이터를 생성할 수 있다. 더 나아가, 제어부(230)는 미세 모션의 크기가 증폭 영상 내에 함께 표시되도록 증폭 영상 데이터를 생성할 수도 있다. 증폭 영상 데이터는, 분석한 미세 모션의 크기가 증폭 영상에 함께 표시되어 있는 데이터이다.
제어부(230)는 메모리부(250)에 저장되어 있는 이미지를 학습하는 것 이외에도, 생성한 증폭 영상 및 증폭 영상 데이터를 추가로 학습하는 인공 신경망을 포함할 수도 있다.
제어부(230)는, 분석한 미세 모션의 크기가 미리 설정되어 있는 임계치를 초과하는지 여부를 판단할 수 있다. 만일 미세 모션의 크기가 임계치를 초과하면, 제어부(230)는 임계치를 초과하는 미세 모션이 검출된 영역이 확인이 필요한 위험 영역이라고 판단할 수 있다.
제어부(230)는, 증폭 영상 및 증폭 영상 데이터를 출력부(300)에 전달할 수 있다.
메모리부(250)에는 카메라(10)로부터 수신한 영상, 제어부(230)가 생성한 증폭 영상, 미세 모션의 크기를 포함하는 증폭 영상 데이터, 제어부(230)의 인공 신경망을 학습시키는 데에 필요한 임의의 데이터 세트, 설비 당 진동의 임계치 등이 저장되어 있다. 여기서, 메모리부(250)는 모션 증폭 장치(20) 내에 위치하는 것으로 기술하였으나, 모션 증폭 장치(20) 외부에 위치하여 모션 증폭 장치(20)와 통신하는 별도의 데이터베이스일 수도 있다.
출력부(270)는 제어부(230)로부터 전달받은 데이터를 출력하는 디스플레이일 수 있다. 예를 들어, 출력부(270)는 증폭 영상, 증폭 영상 데이터를 출력할 수 있다. 또한, 출력부(270)는 카메라(10)로부터 수신한 영상 내에 모션의 크기가 표시된 영상을 출력할 수도 있다.
사용자는 출력부(270)를 통해 카메라(10)가 촬영하고 있는 물체가 확인이 필요한지 여부를 판단할 수 있다.
도 2는 본 발명의 모션 증폭 장치의 제어부의 구성을 도시한 도면이다.
제어부(230)는, 인코더(Encoder)(231), 제1 모듈(233), 제2 모듈(235), 및 제3 모듈(237)을 포함한다.
인코더(231)는 입력받은 프레임을 형상 정보(Shape) 및 텍스쳐 정보(Texture)로 분해하는 구성이다. 구체적으로, 인코더(231)는 입력받은 2개의 프레임 각각에 대해 공간상 분해(Spatial Decomposition)하여, 각각의 프레임에 대한 형상 정보(Shape n) 및 텍스쳐 정보(Texture n)를 획득할 수 있다.
인코더(231)는, 메모리부(250)로부터 임의의 인접한 2개의 프레임과 2개의 프레임에 대한 형상 정보와 텍스쳐 정보를 입력받을 수 있다. 인코더(231)는 입력받은 프레임을 형상 정보와 텍스쳐 정보로 분해하도록 제약 항(regularization term)을 만족하도록 학습될 수 있다. 제약 항은, 예를 들어, 형상 정보를 분해하기 위해 하나의 프레임 내에서 텍스쳐가 변하더라도 형상 정보는 동일해야 한다는 제약, 텍스쳐 정보를 분해하기 위해 인접한 2개의 프레임 내의 텍스쳐는 동일해야 한다는 등의 제약을 포함할 수 있다. 인코더(231)는 메모리부(250)로부터 전달받은 2개의 프레임에 대해, 이미 공지된 형상 정보와 텍스쳐 정보를 출력할 때까지 학습될 수 있다.
이후, 학습된 인코더(231)는, 통신부(210)로부터 전달받은 영상 내에서 임의의 인접한 2개의 프레임(Frame n, Frame n+1)을 입력받을 수 있다. 인코더(231)는 각각의 프레임에 대해 분해한 형상 정보(Shape n, Shape n+1) 및 텍스쳐 정보(Texture n, Texture n+1)를 제1 모듈(233) 및 제2 모듈(235)에 전달할 수 있다.
제1 모듈(233)은 인코더(231)로부터 수신한 프레임에 대한 증폭 프레임을 생성하는 구성으로, 증폭기(Manipulator)(2331) 및 디코더(Decoder)(2333)를 포함한다.
증폭기(2331)는 형상 정보(Shape n, Shape n+1) 간의 차이, 즉 미세 모션을 증폭시키는 구성이다. 구체적으로, 증폭기(2331)는 인코더(231)로부터 연속적인 두 프레임에 대하여 각각 분해된 형상 정보들(Shape n, Shape n+1)을 입력받은 후, 형상 정보의 차이를 구할 수 있다. 이후, 증폭기(2331)는 형상 정보 간의 차이에 특정 증폭 계수(α)를 곱하여, 증폭된 미세 모션을 포함하는 새로운 형상 정보(Shape n+1')를 생성할 수 있다. 여기서, 증폭 계수(α)는 미리 설정된 계수일 수 있다.
증폭기(2331)는 새로운 형상 정보(Shape n+1')를 디코더(2333)에 전달할 수 있다.
디코더(2333)는 텍스쳐 정보와 형상 정보를 하나의 프레임으로 합성하는 구성이다.
구체적으로, 디코더(2333)는 인코더(231)에 의해 분해된 텍스쳐 정보(Texture n+1) 및 증폭기(2331)에 의해 증폭된 형상 정보(Shape n+1')를 하나의 프레임으로 합성하여, 전역적으로 움직임이 증폭된 프레임(Frame n+1')을 생성할 수 있다.
제2 모듈(235)은 인코더(231)로부터 수신한 프레임 간의 미세 모션의 크기를 분석하기 위한 구성이다. 구체적으로, 제2 모듈(235)은 인코더(231)에 입력된 연속된 2개의 프레임에 대하여 옵티컬 플로(Optical Flow) 기술을 적용하여 모든 픽셀에서의 움직임을 계산한 결과를 나타낸 플로 맵(Flow map)을 생성함으로써, 미세 모션의 크기를 분석할 수 있다.
옵티컬 플로 기술은, 물체의 공간 및 시간 좌표에 대한 편도 함수를 계산함으로써 프레임 내에서 공간적으로 이동하는 물체에 대한 모션 정보, 예를 들면 순간 속도를 추정하는 기술이다. 구체적으로, 옵티컬 플로 기술은, 인접한 프레임 간의 픽셀의 변화와 인접한 프레임 간의 시간 간격을 이용하여, 입력된 2개의 프레임 사이의 대응성을 찾아 두 프레임 내의 물체의 모션에 대한 정보, 예컨대 모션의 크기(motion intensity)를 획득할 수 있다. 이러한 옵티컬 플로 기술은 라그랑지안 방법에 속한다.
제2 모듈(235)은 학습된 인공 신경망을 사용하여 물체의 모션의 크기를 분석할 수 있다. 한편, 도 2에서는, 제2 모듈(235)이 미세 모션의 크기를 분석하는 경우에 콘볼루션 신경망(Convolutional Neural Network, CNN)(2351) 모델을 사용하는 것으로 도시되어 있으나, 이에 한정되는 것은 아니며 제2 모듈(235)은 임의의 인공 신경망을 사용할 수 있다.
CNN(2351)은 컨볼루션 레이어로 구성된 인공 신경망이다. CNN(2351)은 메모리부(250)로부터 전달받은 임의의 데이터 세트를 통해 모션의 크기를 분석하도록 학습될 수 있다. CNN(2351)은 분석 결과와 정답 간의 차이인 손실값이 기준값 이하가 될 때까지 학습될 수 있다.
제2 모듈(235)은 학습된 CNN(2351)을 통해 인코더(231)로부터 입력받은 프레임들의 형상 정보 간의 모션의 크기 값을 분석할 수 있다. 즉, 플로 맵은 사전 학습된 CNN(2351)에 프레임들을 입력하여 획득한 값일 수 있다.
정리하면, 제2 모듈(235)에는 형상 정보(Shape n, Shape n+1), 및 텍스쳐 정보(Texture n)가 입력되어 2개의 형상 정보(Shape n, Shape n+1) 간 픽셀 변화를 계산하여 각 픽셀 별 이동 변위의 정량 분석을 할 수 있다.
상술한 바와 같이, 제2 모듈(235)은 인공 신경망을 사용하여 카메라(10)로부터 통신부(210)를 통해 수신된 프레임 내의 물체의 모션의 크기를 분석할 수 있다.
결론적으로, 모션 증폭 장치(20)는 제1 모듈(233)을 통해 증폭 영상을 생성하고, 제2 모듈(235)을 통해 물체에 대한 모션의 크기를 분석하여 플로 맵을 생성할 수 있다.
제3 모듈(237)은 제1 모듈(233)에 의해 모션이 증폭된 프레임 상에, 제2 모듈(235)에 의해 분석된 모션의 크기를 표시하는 증폭 영상 데이터를 생성할 수 있다. 제3 모듈(237)은 또한 분석한 물체의 이동 변위가 특정 임계값을 초과하는 경우에, 임계값을 초과하는 진동을 가지는 부분에 경고 표시를 더 표시하는 증폭 영상 데이터를 생성할 수 있다.
다만, 딥러닝을 사용하여 모션이 증폭된 증폭 영상을 생성하는 방법에서, 인코더에 단순히 제약 항을 추가하여 학습시키는 것만으로는 프레임을 완벽하게 형상 정보와 텍스쳐 정보로 분해하기가 어려울 수 있다. 프레임을 형상 정보와 텍스쳐 정보로 완전히 분해하지 못하면, 미세 모션을 가지는 물체의 경계와 배경이 함께 증폭되어 불안정하게 흔들리는 워블 이펙트(Wobble effect)가 발생할 수 있다. 이 경우에는, 정확한 모션 크기 측정이 불가하므로, 미리 설정된 증폭 계수와 일치하지 않는 증폭 영상을 출력할 수 있다.
반면에, 모션 증폭 장치(20)는 인코더(231)의 출력인 형상 정보(Shape n, Shape n+1)와 텍스쳐 정보(Texture n, Texture n+1)를 오일러리안 방법 기반의 모션 증폭 모델인 제1 모듈(233) 뿐만 아니라 라그랑지안 방법 기반의 옵티컬 플로 모델인 제2 모듈(235)에 제공한다.
모션 증폭 장치(20)는, 하나의 데이터로 제1 모듈(233)과 제2 모듈(235) 모두를 학습시키는 것이 가능하므로, 데이터 효율적이다.
이후, 제1 모듈(233)에 제2 모듈(235)의 출력인 플로 맵에 대한 정보를 제공함으로써, 인코더(231)는 입력된 프레임에 대해 플로 맵에 따라 형상 정보와 텍스쳐 정보를 완전히 분해할 수 있으므로, 워블 이펙트가 발생할 가능성이 낮다. 또한, 제2 모듈(235)을 통해 물체의 모션에 대한 크기를 정확하게 분석할 수 있어서, 제1 모듈(233)의 증폭하고자 하는 증폭 계수의 크기와 일치하는 증폭 영상을 획득할 수 있다.
도 3은 본 발명에 따른 모션 증폭 방법의 순서도이다.
먼저, 인코더(231)는, 제n 프레임 및 제n+1 프레임을 수신(S301)한다.
제n 프레임과 제n+1 프레임은 인접하는 프레임일 수 있다. 또한, 인코더(231)는 메모리부(250)에 미리 저장되어 있는 임의의 데이터 세트를 사용하여 인코더(231)에 입력된 프레임을 형상 정보 및 텍스쳐 정보로 분해하도록 학습되어 있을 수 있다.
그 다음, 인코더(231)는 제n 프레임을 제n 형상 정보 및 제n 텍스쳐 정보로 분해하고, 제n+1 프레임을 제n+1 형상 정보 및 제n+1 텍스쳐 정보로 분해(S303)한다. 인코더(231)는 분해한 제n 형상 정보 및 제n 텍스쳐 정보, 및 제n+1 형상 정보 및 제n+1 텍스쳐 정보를 제1 모듈(233) 및 제2 모듈(235)에 전달할 수 있다.
제1 모듈(233)은, 제n 형상 정보 및 제n+1 형상 정보 간의 차이에 증폭 계수를 곱하여 증폭된 제n+1’ 형상 정보를 생성(S305)한다.
제1 모듈(233)은, 증폭된 제n+1’ 형상 정보, 제n 형상 정보, 및 제n+1 텍스쳐 정보를 합성하여 모션이 증폭된 제n+1 프레임을 생성(S307)한다. 따라서, 제1 모듈(233)은 모션이 강조된 증폭 영상을 생성할 수 있다.
이와 동시에, 제2 모듈(235)은, 제n 형상 정보 및 제n+1 형상 정보에 기초하여 제n 프레임 및 제n+1 프레임 간의 각각의 픽셀 변화를 계산(S309)한다.
제2 모듈(235)은 계산한 각각의 픽셀 변화에 따라 이동 변위를 정량 분석(S311)한다.
이후, 제3 모듈(237)은, 출력부(270)를 통해 모션이 증폭된 제n+1 프레임 상에 수치화된 이동 변위를 표시(S313)한다.
제3 모듈(237)은 출력부(270)를 통해 분석한 물체의 이동 변위가 특정 임계값을 초과하는 경우에, 임계값을 초과하는 진동을 가지는 부분에 경고 표시를 함께 표시한다. 이 때, 특정 임계값은, 메모리(250)에 미리 저장되어 있는 설비 당 진동의 임계치일 수 있다.
도 4는 카메라가 회전하는 설비를 촬영하는 경우에 모션 증폭 장치의 출력부에 나타난 화면의 일 예시를 도시한 도면이다.
도 4의 (a)는, 카메라(10)가 y축을 기준으로 회전하는 설비를 촬영하는 경우에 카메라(10)가 촬영한 영상 중 하나의 프레임을 나타낸 화면이다. 카메라(10)는, 관찰이 필요한 설비의 문제가 되는 부분을 촬영하도록 설치되어 있을 수 있다. 이 때, 카메라(10)는 실시간으로 설비에 대한 영상을 촬영하여 네트워크를 통해 모션 증폭 장치(20)에 전송할 수 있다.
여기서 문제가 되는 부분은, 설비가 회전 축과 평행하게, 즉 y축 방향으로 진동할 수 있는 부분이다. 축 방향에 평행한 모션은 설비에게는 바람직하지 않은 거동으로서, 관찰할 필요성이 있다.
모션 증폭 장치(20)는, 카메라(10)로부터 영상을 수신하여 제1 모듈(233)을 통해 축 방향에 평행한 모션을 증폭하고, 제2 모듈(235)을 통해 모션을 분석할 수 있다.
도 4의 (b)는, 증폭 영상 데이터의 일 예시이다.
도 4의 (b)에는, 제2 모듈(235)을 통해 분석한 설비의 모션에 대한 이동 변위가 제1 모듈(233)이 생성한 증폭 영상에 함께 표시되어 있다. 예를 들어, y축 방향으로의 설비의 거동이 표시될 수 있다.
도 4의 (c)는, 물체가 임계값을 초과하는 진동을 가지는 부분에 경고 표시가 나타난 증폭 영상 데이터의 일 예시이다.
메모리부(250)에는 카메라(10)가 촬영하고 있는 설비가 안전하게 작동하고 있는 경우에 발생할 수 있는 진동의 임계치가 저장되어 있을 수 있다. 설비가 미리 저장되어 있는 진동의 임계치를 초과하여 진동하는 경우에, 안전하지 않은 상태일 수 있다. 제어부(230)는, 설비가 y축 방향으로 특정 임계값을 초과하여 진동하는 경우에, 해당 부분에 경고 표시를 함께 표시할 수 있다.
본 개시에 따른 모션 증폭 장치에 따르면, 설비의 진동을 증폭하고 화면에 시각화하여 육안으로 파악이 가능하다.
또한, 본 개시에 따른 모션 증폭 장치에 따르면, 결함이 의심되는 설비의 모션 크기를 정량적으로 분석 가능하다. 설비의 진동 크기를 정량적으로 측정하여 측정된 결과에 따라 결함 정도를 파악할 수 있다.
또한, 본 개시에 따른 모션 증폭 장치에 따르면, 접촉식 센서를 대체하여 경제적인 이점이 있다. 고가의 국부 진단 분석 및 계측을 위한 접촉식 센서를 GPU와 카메라로 대체하여 비용을 절감할 수 있다. 나아가, 접촉식과 다르게 단일 이동형 센서인 카메라를 사용하기 때문에, 광역적인 범위에 대해 직관적인 진단이 가능하며, 적은 수의 센서로 다수의 설비 진단이 가능하다. 이에 따라, 각종 산업 현장에서 이용되는 설비들의 결함을 정확하게 모니터링하여 안전한 시설 결함의 조기 진단이 가능하다.
이상 설명된 실시예들은 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형상으로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이 때, 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리부 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.
실시예들에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예를 들어, 등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 이로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 통상의 기술자는 특허청구범위 또는 그 균등물의 범주 내에서 다양한 수정, 조합 및 변경이 이루어질 수 있음을 알 수 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였으나, 본 발명의 권리범위가 이에 한정되는 것은 아니며 본 발명이 속하는 분야에서 통상의 지식을 가진 자가 여러 가지로 변형 및 개량한 형상 또한 본 발명의 권리범위에 속한다.

Claims (12)

  1. 영상 내에서 임의의 인접하는 제1 프레임 및 제2 프레임을 수신하고, 상기 제1 프레임을 제1 형상 정보 및 제1 텍스쳐 정보로 분해하고, 상기 제2 프레임을 제2 형상 정보 및 제2 텍스쳐 정보로 분해하는 인코더,
    상기 제1 형상 정보, 상기 제2 형상 정보, 및 상기 제2 텍스쳐 정보에 기초하여 모션이 증폭된 프레임을 생성하는, 제1 모듈,
    상기 제1 형상 정보, 상기 제2 형상 정보, 및 상기 제1 텍스쳐 정보에 기초하여 상기 모션의 크기를 분석하는, 제2 모듈, 그리고
    상기 모션이 증폭된 프레임 상에 상기 모션의 크기를 표시하는 증폭 영상 데이터를 생성하는 제3 모듈
    을 포함하는 모션 증폭 장치.
  2. 제1항에 있어서,
    상기 제1 모듈은, 상기 제1 형상 정보와 상기 제2 형상 정보의 차이에 미리 설정된 증폭 계수를 곱하여, 새로운 형상 정보를 생성하고 생성한 형상 정보 및 상기 제2 텍스쳐 정보를 합성하여 상기 모션이 증폭된 프레임을 생성하는,
    모션 증폭 장치.
  3. 제2항에 있어서,
    상기 제2 모듈은, 상기 제1 형상 정보 및 상기 제2 형상 정보에 기초하여 상기 제1 프레임 및 상기 제2 프레임 간의 각각의 픽셀 변화를 계산하고, 계산한 각각의 픽셀 변화에 따라 상기 물체의 모션의 크기를 분석하도록 구성된,
    모션 증폭 장치.
  4. 제3항에 있어서,
    상기 제2 모듈은, 입력된 임의의 프레임들의 형상 정보로부터 모션의 크기를 분석하도록 학습된 콘볼루션 신경망(Convolutional Neural Network, CNN)을 사용하여 상기 물체의 모션의 크기를 분석하도록 구성되는,
    모션 증폭 장치.
  5. 제3항에 있어서,
    상기 물체에 대한 진동 임계치를 저장하고 있는 메모리, 및
    상기 증폭 영상 데이터를 출력하는 출력부를 더 포함하고,
    상기 제3 모듈은, 상기 모션의 크기가 상기 진동 임계치를 초과하면, 임계치를 초과하는 모션이 검출된 영역이 확인이 필요한 위험 영역이라고 판단하고, 상기 증폭 영상 데이터 상에 상기 위험 영역을 표시하도록 상기 증폭 영상 데이터를 생성하는,
    모션 증폭 장치.
  6. 영상 내에서 임의의 인접하는 제1 프레임 및 제2 프레임을 수신하고, 상기 제1 프레임을 제1 형상 정보 및 제1 텍스쳐 정보로 분해하고, 상기 제2 프레임을 제2 형상 정보 및 제2 텍스쳐 정보로 분해하는 단계,
    상기 제1 형상 정보, 상기 제2 형상 정보, 및 상기 제2 텍스쳐 정보에 기초하여 모션이 증폭된 프레임을 생성하는 단계,
    상기 제1 형상 정보, 상기 제2 형상 정보, 및 상기 제1 텍스쳐 정보에 기초하여 상기 모션의 크기를 분석하는 단계, 그리고
    상기 모션이 증폭된 프레임 상에 상기 모션의 크기를 표시하는 증폭 영상 데이터를 생성하는 단계
    를 포함하는, 모션 증폭 방법.
  7. 제6항에 있어서,
    상기 모션이 증폭된 프레임을 생성하는 단계는,
    상기 제1 형상 정보와 상기 제2 형상 정보의 차이에 미리 설정된 증폭 계수를 곱하여, 새로운 형상 정보를 생성하고 생성한 형상 정보 및 상기 제2 텍스쳐 정보를 합성하여 상기 모션이 증폭된 프레임을 생성하는 단계를 포함하는,
    모션 증폭 방법.
  8. 제7항에 있어서,
    상기 모션의 크기를 분석하는 단계는,
    상기 제1 형상 정보 및 상기 제2 형상 정보에 기초하여 상기 제1 프레임 및 상기 제2 프레임 간의 각각의 픽셀 변화를 계산하고, 계산한 각각의 픽셀 변화에 따라 상기 물체의 모션의 크기를 분석하는 단계를 포함하는,
    모션 증폭 방법.
  9. 제8항에 있어서,
    상기 모션의 크기를 분석하는 단계는,
    입력된 임의의 프레임들의 형상 정보로부터 모션의 크기를 분석하도록 학습된 콘볼루션 신경망(Convolutional Neural Network, CNN)을 사용하여 상기 물체의 모션의 크기를 분석하는 단계를 더 포함하는,
    모션 증폭 방법.
  10. 제9항에 있어서,
    상기 모션이 증폭된 프레임을 생성하는 단계는,
    상기 모션의 크기가 상기 물체에 대해 미리 저장된 진동 임계치를 초과하면, 임계치를 초과하는 모션이 검출된 영역이 확인이 필요한 위험 영역이라고 판단하고, 상기 증폭 영상 데이터 상에 상기 위험 영역을 표시하도록 상기 증폭 영상 데이터를 생성하는 단계를 포함하는,
    모션 증폭 방법.
  11. 제6항 내지 제10항 중 어느 한 항에 따른 방법을 수행하는 프로그램이 저장되어 있는, 기록 매체.
  12. 제6항 내지 제10항 중 어느 한 항에 따른 방법을 수행하도록 기록 매체에 저장되는, 프로그램.
PCT/KR2022/020641 2021-12-21 2022-12-16 모션 증폭 장치 및 이를 사용하는 방법 WO2023121161A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0184021 2021-12-21
KR1020210184021A KR20230094678A (ko) 2021-12-21 2021-12-21 모션 증폭 장치 및 이를 사용하는 방법

Publications (1)

Publication Number Publication Date
WO2023121161A1 true WO2023121161A1 (ko) 2023-06-29

Family

ID=86903342

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/020641 WO2023121161A1 (ko) 2021-12-21 2022-12-16 모션 증폭 장치 및 이를 사용하는 방법

Country Status (2)

Country Link
KR (1) KR20230094678A (ko)
WO (1) WO2023121161A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130077379A (ko) * 2011-12-29 2013-07-09 삼성영상보안주식회사 영상변화율 가중치를 적용한 다중 영상 모니터링 시스템
US20180220085A1 (en) * 2017-01-27 2018-08-02 Sick Ivp Ab Motion encoder
KR102045871B1 (ko) * 2019-06-07 2019-11-18 주식회사 창성에이스산업 인공지능 기술에 기반한 화재감지시스템 및 인공지능 기술에 기반한 화재감지방법
KR20200128239A (ko) * 2019-04-23 2020-11-12 한국기계연구원 영상 학습을 통한 기계 진단시스템 및 이를 이용한 기계 진단방법
KR20210101135A (ko) * 2020-02-07 2021-08-18 포항공과대학교 산학협력단 조기 지진 감지 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130077379A (ko) * 2011-12-29 2013-07-09 삼성영상보안주식회사 영상변화율 가중치를 적용한 다중 영상 모니터링 시스템
US20180220085A1 (en) * 2017-01-27 2018-08-02 Sick Ivp Ab Motion encoder
KR20200128239A (ko) * 2019-04-23 2020-11-12 한국기계연구원 영상 학습을 통한 기계 진단시스템 및 이를 이용한 기계 진단방법
KR102045871B1 (ko) * 2019-06-07 2019-11-18 주식회사 창성에이스산업 인공지능 기술에 기반한 화재감지시스템 및 인공지능 기술에 기반한 화재감지방법
KR20210101135A (ko) * 2020-02-07 2021-08-18 포항공과대학교 산학협력단 조기 지진 감지 장치 및 방법

Also Published As

Publication number Publication date
KR20230094678A (ko) 2023-06-28

Similar Documents

Publication Publication Date Title
CN110108348B (zh) 基于运动放大光流跟踪的薄壁件微幅振动测量方法及系统
WO2014208971A1 (en) Ultrasound image display method and apparatus
WO2017204490A1 (ko) 철도 차량 모니터링 장치 및 이를 이용한 모니터링 방법
WO2016171341A1 (ko) 클라우드 기반 병리 분석 시스템 및 방법
WO2020101103A1 (ko) 옵티컬 플로우 영상 처리를 이용하는 하천 유속 측정 장치 및 방법
KR100898061B1 (ko) 하이브리드 터널 스캐닝 장치
WO2019151763A1 (ko) 사물 인터넷, 빅데이터, 3d 기술 융복합 현실 기반 지능형 전력구 관리 시스템, 이의 방법, 그리고, 이 방법을 저장한 컴퓨터 판독 가능 저장 매체
WO2017014359A1 (ko) 원자력 시설의 해체 작업 시뮬레이션 장치 및 그 방법
CN111798407A (zh) 一种基于神经网络模型的带电设备故障诊断方法
CN111896549B (zh) 一种基于机器学习的建筑物裂缝监测系统和方法
JP2015064346A (ja) 構造物劣化診断システム
TW202008278A (zh) 資訊處理裝置、資訊處理系統、方法及程式
WO2023121161A1 (ko) 모션 증폭 장치 및 이를 사용하는 방법
WO2019045480A1 (ko) 딥러닝 기반 결핵 검사 방법
WO2018030733A1 (ko) 계측-수율 상관성 분석 방법 및 시스템
WO2014157796A1 (ko) 진단 보조용 내시경 시스템 및 그 제어 방법
JP3972647B2 (ja) 画像診断装置,画像診断システム及び画像診断方法
WO2020242102A1 (ko) Ir-uwb 레이더를 이용한 비접촉식 활동량 측정 장치 및 방법
WO2014058165A1 (ko) 단일객체의 크기를 추정하는 영상 감시장치 및 방법
WO2018062963A2 (ko) 유동 채널을 갖는 렌즈프리 cmos 광 어레이 센서 패키지 모듈의 유체흐름 특성 평가 방법
WO2014209043A1 (ko) 이미지 획득 방법 및 이를 이용한 이미지 획득 장치
WO2023121151A1 (ko) 모션 증폭 장치 및 이를 학습시키기 위한 데이터 생성 방법
WO2021112436A1 (ko) 장 정결도의 자동화 계산 장치 및 방법
CN113405666A (zh) 结合识别人脸的红外热成像人体温度差值检测方法及装置
WO2016089091A1 (ko) 열화상 품질 검사 장치 및 이를 이용한 열화상 품질 검사 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22911794

Country of ref document: EP

Kind code of ref document: A1