WO2020116923A1 - Image analysis apparatus and method - Google Patents

Image analysis apparatus and method Download PDF

Info

Publication number
WO2020116923A1
WO2020116923A1 PCT/KR2019/016987 KR2019016987W WO2020116923A1 WO 2020116923 A1 WO2020116923 A1 WO 2020116923A1 KR 2019016987 W KR2019016987 W KR 2019016987W WO 2020116923 A1 WO2020116923 A1 WO 2020116923A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
liquid
information
feature vector
region
Prior art date
Application number
PCT/KR2019/016987
Other languages
French (fr)
Korean (ko)
Inventor
김원태
강신욱
이명재
김동민
김신곤
Original Assignee
(주)제이엘케이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)제이엘케이 filed Critical (주)제이엘케이
Publication of WO2020116923A1 publication Critical patent/WO2020116923A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • G06T7/001Industrial image inspection using an image reference approach
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/84Systems specially adapted for particular applications
    • G01N21/88Investigating the presence of flaws or contamination
    • G01N21/95Investigating the presence of flaws or contamination characterised by the material or shape of the object to be examined
    • G01N21/956Inspecting patterns on the surface of objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present disclosure relates to an image analysis apparatus and method. More specifically, the present disclosure detects whether an input image contains a liquid-like substance to be searched using a previously learned deep-learning-based model, and is required for training a deep-learning-based model for detecting liquid-like substances. It relates to an apparatus and method for efficiently generating training data.
  • customs electronic customs clearance system is a computerized customs clearance service for imports and exports, and through this, it is possible to improve the efficiency of customs administration tasks between multiple parties.
  • the security inspection system is a computerized security inspection task to determine whether there is a product that may cause a safety or security problem in the passenger's belongings, thereby enhancing the security of the security area.
  • deep learning deep learning
  • the characteristic factors are automatically found, and thus, attempts to utilize them in the artificial intelligence field are increasing.
  • the technical problem of the present disclosure is to provide an article search system to which a deep learning technique is applied.
  • Another technical problem of the present disclosure is to provide an apparatus and method for analyzing an image acquired in an article search system using a pre-trained deep learning based model.
  • Another technical problem of the present disclosure is to provide an apparatus and method for retrieving liquid substances using a pre-trained deep learning based model.
  • Another technical problem of the present disclosure is to provide an apparatus and method for generating a database used to search for liquid substances.
  • an image analysis method includes detecting, extracting a feature vector for the liquid region, and comparing the feature vector with a feature vector included in the database to analyze the liquid substance.
  • the image analysis method further includes adding a feature vector to the database, wherein adding the feature vector comprises: receiving a read image containing an additional target liquid substance, the additional target liquid substance Receiving information of the container containing the and the information of the liquid substance to be added, extracting a feature vector of the image of the liquid substance to be added, and the feature vector of the image of the liquid substance to be added to the liquid
  • adding the feature vector comprises: receiving a read image containing an additional target liquid substance, the additional target liquid substance Receiving information of the container containing the and the information of the liquid substance to be added, extracting a feature vector of the image of the liquid substance to be added, and the feature vector of the image of the liquid substance to be added to the liquid
  • adding the feature vector comprises: receiving a read image containing an additional target liquid substance, the additional target liquid substance Receiving information of the container containing the and the information of the liquid substance to be added, extracting a feature vector of the image of the liquid substance to be added, and the feature vector of the image of the liquid substance to be added to the
  • a receiver for receiving an analysis target image and an image analysis unit for analyzing the analysis target image to detect a liquid substance
  • the image analysis unit uses a pre-trained deep learning based model.
  • a liquid container detection unit for detecting a container region of the liquid substance in the analysis target image
  • a liquid region detection unit for detecting a liquid region in the container region
  • a feature extraction unit for extracting a feature vector for the liquid region
  • the feature vector And a feature comparison unit that analyzes the liquid-like substance by comparing the feature vectors included in the database.
  • the receiving unit receives at least one of a readout image containing the liquid substance to be added, information on a container containing the liquid substance to be added, and information on the liquid substance to be added, and the feature extraction section is to add the
  • the feature vector of the image of the target liquid substance may be extracted, and the image analysis unit may further include a database adding unit to add the feature vector of the image of the target substance to the liquid flow database.
  • receiving an analysis target image detecting a container region of a liquid substance in the analysis target image using a pre-trained deep learning-based model, the liquid region in the container region
  • a computer-readable recording medium recording a program for performing a step of detecting, extracting a feature vector for the liquid region, and comparing the feature vector with a feature vector included in a database to analyze the liquid material.
  • an article search system to which a deep learning technique is applied may be provided.
  • an apparatus and method for analyzing an image acquired in an article search system using a pre-trained deep learning-based model may be provided.
  • an apparatus and method for retrieving liquid substances using a deep learning-based model previously learned may be provided.
  • an apparatus and method for generating a database used to search for liquid-like substances may be provided.
  • FIG. 2 is a block diagram showing the configuration of an image analysis apparatus according to an embodiment of the present disclosure.
  • 3 is a view for explaining an image reading process.
  • FIG. 4 is a diagram for explaining an application range of artificial intelligence in an image reading process according to an embodiment of the present disclosure.
  • FIG. 5 is a diagram illustrating an embodiment of an image enhancement device that performs image enhancement according to the present disclosure.
  • FIG. 6 is a diagram for explaining a process of classifying an object and a background from an image including a single object and generating location information of the object, according to an embodiment of the present disclosure.
  • FIG. 7 is a diagram illustrating an image in which colors are expressed based on physical properties of an object according to an embodiment of the present disclosure.
  • FIG. 8 is a view for explaining a process of generating an output image based on color distribution information of an image according to an embodiment of the present disclosure.
  • FIG. 9 is a diagram for explaining a process of obtaining a final output image that combines an image obtained by using color distribution information and an image obtained by applying edge-based filtering or smoothing filtering according to an embodiment of the present disclosure.
  • FIG. 10 is a view for explaining a process of obtaining a final output image using a graphical model according to an embodiment of the present disclosure.
  • FIG. 11 is a view for explaining an image enhancement method according to an embodiment of the present disclosure.
  • FIG. 12 is a diagram for explaining context analysis according to an embodiment of the present disclosure.
  • FIG. 13 is a diagram illustrating a process of generating and analyzing context information of an image according to an embodiment of the present disclosure.
  • FIG. 14 is a diagram for explaining a process in which an image analysis apparatus according to an embodiment of the present disclosure analyzes an image to identify an object.
  • 15 is a view for explaining the operation of the image analysis apparatus according to an embodiment of the present disclosure.
  • 16 is a diagram for explaining an embodiment of a multi-product neural network generating a multi-channel feature map.
  • 17 is a view for explaining an embodiment of a pooling technique.
  • FIG. 18 is a block diagram showing the configuration of an image synthesizing apparatus according to an embodiment of the present disclosure.
  • 19 is a diagram illustrating a process of generating a multi-object image using two images including a single object according to an embodiment of the present disclosure.
  • 20 is a diagram illustrating a process of training a convolutional neural network using a multi-object image according to an embodiment of the present disclosure.
  • 21 is a view for explaining a process of analyzing an actual image using an image synthesizing apparatus according to an embodiment of the present disclosure.
  • 22 is a diagram for explaining a method for synthesizing an image according to an embodiment of the present disclosure.
  • FIG. 23 is a flowchart illustrating a method for detecting a liquid substance according to an embodiment of the present disclosure.
  • FIG. 24 is a flowchart illustrating a method of building a liquid flow database according to an embodiment of the present disclosure.
  • 25 is a diagram for describing an image alignment and interpolation method according to an embodiment of the present disclosure.
  • 26 is a view for explaining a database construction result according to an embodiment of the present disclosure.
  • FIG. 27 is a flowchart illustrating a method for detecting a liquid substance using a liquid flow database, according to some embodiments of the present disclosure.
  • FIG. 28 is a view for explaining a method for detecting a liquid container according to an embodiment of the present disclosure.
  • 29 is a diagram for describing an image post-processing method according to an embodiment of the present disclosure.
  • FIG 30 is another block diagram showing the configuration of an image analysis apparatus according to an embodiment of the present disclosure.
  • first and second are used only for the purpose of distinguishing one component from other components, and do not limit the order or importance of components, etc., unless otherwise specified. Accordingly, within the scope of the present disclosure, the first component in one embodiment may be referred to as a second component in another embodiment, and likewise the second component in one embodiment may be the first component in another embodiment It can also be called.
  • the components that are distinguished from each other are for clarifying each feature, and the components are not necessarily separated. That is, a plurality of components may be integrated to be composed of one hardware or software unit, or one component may be distributed to be composed of a plurality of hardware or software units. Accordingly, such integrated or distributed embodiments are included within the scope of the present disclosure, unless otherwise stated.
  • components described in various embodiments are not necessarily essential components, and some may be optional components. Accordingly, an embodiment composed of a subset of components described in one embodiment is also included in the scope of the present disclosure. Also, embodiments including other elements in addition to the elements described in various embodiments are included in the scope of the present disclosure.
  • FIG. 1 is a view for explaining an article search system according to an embodiment of the present disclosure.
  • the article retrieval system 100 may include a reading unit 110 and/or a learning unit 120.
  • the reading unit 110 may include an image analysis device 112 and/or an output device 114.
  • the learning unit 120 may include a database 122, a deep learning learning unit 124, an algorithm verification unit 126, and/or a trained model storage unit 128.
  • the reading unit 110 may function as a reading interface, and the learning unit 120 may function as a centrally managed artificial intelligence data center.
  • the article search system according to the present disclosure is utilized in an electronic customs clearance system or a security search system as an example.
  • the article search system according to the present disclosure is not limited to such applications.
  • the article search system according to the present disclosure may be utilized in a system that serves to identify a specific article according to various purposes.
  • the input 130 of the article search system 100 may include images, article information and/or control information.
  • the image may be an image of an article including at least one object.
  • it may be an X-Ray image of an article photographed by an X-Ray reading device.
  • the image may be a raw image photographed by an X-Ray imaging device or an image in an arbitrary format (format) for storing or transmitting the raw image.
  • the image may be obtained by capturing and dataizing image information captured by an X-Ray reading device and transmitted to an output device such as a monitor.
  • the image may be enhanced before being output to the output device 114 or before being input to the image analysis device 112. The method of enhancing the image will be described later.
  • the output device 114 may output an image or an enhanced image.
  • the image analysis device 112 may receive an image or an enhanced image and perform an operation of the image analysis device 112 described later.
  • the article information may be information about the article included in the corresponding image.
  • the product information may include import declaration information and/or customs inventory list information.
  • the product information may include passer identification information, passer security level and/or passer authorized item information.
  • the product information may be subjected to a predetermined pre-processing process before being input to the image analysis device 112.
  • a refining operation of a product name may be performed on a product list, import information, and the like included in the product information.
  • Purification work of the product name may refer to a work of unifying the names of various items input for the same or similar items.
  • Input of article information may be optional.
  • the article retrieval system 100 of the present disclosure can operate by receiving only an image as an input even if there is no entry of article information.
  • the article may include all kinds of articles as objects to be inspected or read.
  • the article may be at least one of express cargo, postal cargo, container cargo, traveler transport cargo, and traveler himself.
  • the image analysis apparatus according to the present disclosure is used in a security search system, the article may be at least one of a passenger's belongings and the passenger's own.
  • the electronic customs clearance system reads a traveler, and the traveler is a major traveler with a history of transporting anomalous or dangerous objects in the past, the traveler's cargo has a higher level than that of other travelers.
  • Analysis and/or reading may be performed.
  • the reader may be provided with information that a particular item is the cargo of a traveler of interest.
  • passer-by when the passer-by is a passer with a high security level, it is possible to perform a higher level of analysis and/or reading on the belongings of the passer-by than other passers-by. For example, it is possible to provide the reader with information that a specific item is belonging to a passer with a high security level.
  • control information may be information for controlling image reading or controlling the read image.
  • control information may be input by the reading source 140.
  • control information may include source information, manager information, operation mode information, read sensitivity information, and/or user interface information. The detailed use of control information will be described later.
  • the article search system 100 may receive an image, article information, and/or control information 130 and transmit it to the output device 114 or transmit it to the image analysis device 112.
  • the image analysis device 112 may analyze the input image using a pre-trained deep learning-based model.
  • the image analysis device 112 may transmit the analyzed result to the output device 114.
  • the output device 114 outputs the input image, product information and/or control information 130, the video analysis result and/or user interface received from the video analysis device 112, and the reader 140 is an output device
  • the output result of 114 can be read.
  • a refining operation may be performed on the article information 130, and also, before being input to the image analysis device 112 and/or before being output to the output device 114, the image for the analysis target image Consolidation can be performed.
  • the output device 114 outputs all types of signals that can be detected by humans, such as a device that outputs visual information such as a monitor or a warning light, a device that outputs sound information such as a speaker, or a device that outputs tactile information such as a vibrator Includes a device that can.
  • a user interface may be provided through the output device 114, and a reader may control the operation of the article retrieval system 100 using the user interface.
  • the reading source 140 may control the operation of the image analysis device by inputting control information using an output user interface.
  • an image analysis result of the image analysis device 112 includes an object to be detected, an object with an abnormality, or an object whose risk level is greater than or equal to a threshold
  • the related information is output through the output device 114 as an image analysis result.
  • the reader 140 can confirm this.
  • the image analysis device 112 may perform various processes of analyzing an image to be analyzed. For example, the image analysis device 112 may perform context analysis to more accurately analyze an analysis target image. Various processes and context analysis performed by the image analysis device 112 will be described later.
  • the reader 140 may determine whether to perform an additional test based on an image analysis result output through the output device 114.
  • the additional inspection may include an opening inspection to directly open an article related to the corresponding image and check an object included in the corresponding article.
  • the object to be searched may refer to an object with an abnormality or an object with a risk greater than or equal to a threshold as described above.
  • the present invention is not limited thereto, and may include various objects to be detected or searched by the system of the present disclosure.
  • the image analysis result of the image analysis device, the remodeling inspection result input by the reader after performing the remodeling inspection directly, and/or matching result information obtained by matching the image and product information by the image analysis device may be transmitted to the learning unit 120.
  • the learning unit 120 may store newly received information in the database 122, and the deep learning learning unit 124 may perform deep learning learning using the information stored in the database 122. Alternatively, without being stored in the database 122, the deep learning learning unit 124 may directly receive all or part of the learning data.
  • the results learned by the deep learning learning unit 124 are verified by the algorithm verification unit 126, and the verified models may be stored as updated models in the trained model storage unit 128.
  • the model stored in the trained model storage unit 128 is transmitted to the image analysis device 112 again, and the image analysis device 112 may update and use the received model as the above-described pre-trained deep learning-based model.
  • the learning unit 120 may generate a composite image by receiving and synthesizing a plurality of images.
  • virtual image analysis results, remodeling inspection results and/or matching result information corresponding to the composite image may be generated using image analysis results, remodeling inspection results, and/or matching result information for each of the plurality of images. Can be.
  • the learning unit 120 may use the composite image and the generated virtual information as learning data.
  • the reading unit 110 and the learning unit 120 may be implemented as separate devices or may be implemented within the same device. In addition, some or all of the components included in the reading unit 110 and the learning unit 120 may be configured by hardware or software.
  • Artificial intelligence technology allows computers to learn data and make decisions on their own as if they were humans.
  • Artificial neural networks are mathematical models inspired by biological neural networks. By changing the intensity of synaptic binding through learning, neurons can mean an overall model with problem-solving skills.
  • Artificial neural networks are generally composed of an input layer, a hidden layer, and an output layer. Neurons included in each layer are connected through weights, linear combination of weights and neuron values, and nonlinearity. Through the activation function, the artificial neural network may have a form capable of approximating a complex function.
  • the purpose of artificial neural network learning is to find a weight that minimizes the difference in value between the output calculated from the output layer and the actual output.
  • Deep neural network is an artificial neural network consisting of several hidden layers between the input layer and the output layer, and can model complex nonlinear relationships through many hidden layers.
  • the structure is called deep learning. Deep learning learns a very large amount of data, and when new data is input, it can operate adaptively according to the image because it selects the highest answer probability based on the learning result. In the process of learning, characteristic factors can be automatically found.
  • a deep learning-based model includes a fully convolutional neural network, a fully convolutional neural network, and a cyclic neural network (regression). It may include at least one of a neural network, a recurrent neural network, a restricted Boltzmann machine (RBM), and a deep belief neural network (DBN), but is not limited thereto.
  • a machine learning method other than deep learning may also be included.
  • a hybrid model combining deep learning and machine learning may be included. For example, a feature of an image based on deep learning may be extracted, and a machine learning based model may be applied when classifying or recognizing an image based on the extracted feature. Models based on machine learning may include, but are not limited to, Support Vector Machines (SVM), AdaBoost, and the like.
  • SVM Support Vector Machines
  • AdaBoost AdaBoost
  • a method for learning a model based on deep learning may include at least one of supervised learning, unsupervised learning, or reinforcement learning.
  • Supervised learning is performed using a series of learning data and a corresponding label (target output value), and the neural network model based on supervised learning is a model in which a function is inferred from training data.
  • Supervised learning receives a series of training data and its corresponding target output value, finds errors through learning to compare the actual output value with the target output value for input data, and corrects the model based on the result. do.
  • Supervised learning can be divided into regression, classification, detection, and semantic segmentation. The function derived through supervised learning can be used to predict new results.
  • the neural network model based on supervised learning optimizes the parameters of the neural network model through learning a lot of training data.
  • a model based on deep learning may use information about an input image and an article for learning, and after generating a trained model, information about an image and an article acquired by the apparatus of the present disclosure Can be used to update the neural network model.
  • an analysis result output by the method of the present disclosure for example, anomalies or risks for the identified object, information about the object, and the identified object are searched
  • the neural network model may be updated using prediction results, such as whether the object is an object, comparison information on the prediction result and the final remodeling test result, and evaluation or reliability information on the prediction result.
  • FIG. 2 is a block diagram showing the configuration of an image analysis apparatus 200 according to an embodiment of the present disclosure.
  • the image analysis device 200 of FIG. 2 is an embodiment of the image analysis device 112 of FIG. 1.
  • the image analysis device 200 may include an image receiving unit 210, an article information matching unit 220, and/or an image analyzing unit 230. As described above, since the input of the article information is optional, the image analysis apparatus 200 may not include the article information matching unit 220. Description of the input of the article information is as described with reference to FIG. 1.
  • the image receiving unit 210 may receive an image of an article including one or more objects.
  • the description of the image received by the image receiving unit 210 is as described with reference to FIG. 1.
  • the article information matching unit 220 may receive the image received from the article information and the image receiving unit 210 as an input and perform matching of the article information and the image.
  • the description of the article information is as described with reference to FIG. 1.
  • Matched images and article information may be output to a reader to assist the reader in reading.
  • the matched image and article information may be transmitted to the learning unit 120 of FIG. 1 to be used for learning the deep learning model.
  • the matched image and article information are stored in the database 122 of the learning unit 120 of FIG. 1, and then refined for each reading object and/or reading task, and the deep learning learning unit 124 is for each reading object and/or Alternatively, learning can be performed using the refined data for each read task to be applied.
  • the objects to be read may include express cargo, postal cargo, container cargo, traveler transport cargo, and traveler. Also, the object to be read may include a passenger's belongings and a passenger.
  • the reading task includes determining whether an object included in the object is abnormal or dangerous, determining whether the identified object is an object to be searched, determining whether information on the identified object matches the object, whether the object is reported, or It may include a judgment as to whether or not it has been reported.
  • the model trained in the learning unit 124 may be input to the image analysis unit 230 to update the existing model. At this time, suitable artificial intelligence may be updated according to the object to be read.
  • the learning unit 124 may generate new learning data using the existing learning data and use it for learning. As described above, new learning data can be generated by combining existing images and merging data.
  • the image analysis unit 230 may receive an image (image to be analyzed) or image and article information, analyze the image using a pre-trained deep learning-based model, and output the analyzed result to the output device have.
  • the image analysis unit 230 may identify an object included in the image, and determine whether there is an abnormality or risk for the identified object.
  • the image analysis unit 230 may improve the accuracy of object identification by performing a context analysis process described below.
  • the image analysis unit 230 may determine that the object is abnormal or dangerous.
  • the risk may be expressed as a numerical value, and it may be determined whether the object is a dangerous object through comparison with a predetermined threshold.
  • the numerical value related to the risk and/or the predetermined threshold may be adaptively determined according to a read target and/or a read task.
  • the image analysis unit 230 may more accurately perform analysis on the object included in the image using the image and article information. For example, the type, quantity and/or size information of the items listed in the item list list, the security level of the passer, and/or the authorized item information of the passer may be additionally used to identify the object from the image. When there is a discrepancy between the object and the item information identified by analyzing the image, it may be output as a result of the image analysis.
  • the image analysis result output by the image analysis unit 230 may include at least one of an object's risk, type, amount, number, size, and location.
  • the location of the object may be displayed on the image to be analyzed and output to the output device.
  • the position of the object may be displayed in coordinates, but the object may be highlighted and displayed at the corresponding position in the output image so that the reader can easily read it.
  • the object may be emphasized by highlighting the edge of the object or by displaying a square box surrounding the object.
  • a predetermined object area may be enhanced so that a reader can more easily identify the object through an image enhancement process described later.
  • an image corresponding to a predetermined color may be enhanced to convert an image so that the region can be more clearly identified.
  • the image analysis unit 230 may determine whether an object to be searched (eg, an object for which customs clearance is prohibited or inappropriate) is included in the analysis target image. To this end, the image analysis unit 230 may receive or store information about an object to be searched in advance. In addition, the image analysis unit 230 may identify an object included in the image and determine whether the identified object is a search target object.
  • an object to be searched eg, an object for which customs clearance is prohibited or inappropriate
  • 3 is a view for explaining an image reading process.
  • FIG. 3A is a flowchart of a conventional reading process
  • FIG. 3B is a flowchart of a reading process according to an embodiment of the present disclosure.
  • the image analysis apparatus 322 may learn deep learning in advance.
  • the image is analyzed using the base model, and the analyzed result is provided as information to the reader (324).
  • the image analysis device 322 may transmit the training data to the AI data center 323, and the AI data center 323 may learn the training data.
  • the artificial intelligence data center 323 may transmit the trained model to the image analysis device 322 as a read assistant assistive AI for each reading object.
  • the reader may select 325 an item requiring remodeling inspection based on an analysis result of the image analysis device 322, an image, and/or item information.
  • the result of performing the remodeling test may be input 326 as a test result.
  • the test result may be transmitted to the AI data center 323 and used as learning data.
  • FIG. 4 is a diagram for explaining an application range of artificial intelligence in an image reading process according to an embodiment of the present disclosure.
  • a sample 420 randomly extracted from all the items 410 may be selected 450 as a management object.
  • the risk analysis 440 for all the products 410 may be performed using the screening assistant artificial intelligence 430 for selecting the management object, and the management object may be selected 450 through this.
  • artificial intelligence is not limited to the risk analysis 440 of the aforementioned articles.
  • the management target when selected 450, it may be used as an inspection aid artificial intelligence 460 to assist the examination.
  • the inspection aid artificial intelligence 460 by applying the inspection aid artificial intelligence 460, the inspection of the inspection source can be assisted by identifying the object, determining whether an identified object is abnormal or dangerous, and/or providing information about the object to be searched to the inspection source. .
  • the reader may perform a precise inspection 470 using information provided by the inspection assistant artificial intelligence.
  • FIG. 5 is a diagram illustrating an embodiment of an image enhancement device that performs image enhancement according to the present disclosure.
  • the image enhancement device of FIG. 5 may be configured separately from the image analysis device 112 of FIG. 1 or may be configured as a part thereof.
  • the image enhancement device 500 may include an image reception unit 510, an object image extraction unit 520, a color distribution analysis unit 530, and/or an image enhancement unit 540.
  • this only shows some components necessary to describe the present embodiment, and the components included in the image enhancement apparatus 500 are not limited to the above-described examples. For example, two or more components may be implemented in one component, or an operation executed in one component may be divided and implemented to be executed in two or more components. In addition, some components may be omitted or additional components may be added.
  • the image enhancement apparatus 500 receives the input image 550, extracts an object included in the input image 550, and extracts an object image including the object into one or more regions. Divide, obtain color distribution information for each of the one or more areas, and determine one or more weights for at least some of the one or more areas based on the color distribution information, and determine the determined one or more weights among the one or more areas.
  • the first output image 560 for the object image may be generated by applying to at least a part.
  • Each pixel constituting the image may have a predetermined brightness and color by a combination of a luminance value representing luminance (brightness) and a color value representing color.
  • the color value may be represented by a combination of values of three or more color elements according to various ways of expressing color.
  • the color value may be expressed as an RGB value that is a combination of three color elements (Red(R), Green(G), Blue(B)).
  • each of R, G, and B has a value from 0 to 255, so that the intensity of each color element can be expressed.
  • the range of values that each of R, G, and B can have may be determined based on the number of bits representing each of R, G, and B. For example, when represented by 8 bits, each of R, G, and B may have a value from 0 to 255.
  • Acquiring color distribution information may mean acquiring various statistical values that can be obtained by analyzing color components of color values of pixels included in a corresponding region.
  • the statistical value may be information on a color element having an average largest value among color elements of color values of pixels included in a corresponding region. For example, based on the sum of the values of R, G, and B of all pixels included in the corresponding area, it may be determined which color element has the largest sum or average among R, G, and B. Alternatively, for each pixel, the color element having the largest value among R, G, and B is determined as the dominant color of the corresponding pixel, and which color is determined as the dominant color for all pixels included in the corresponding region I can judge.
  • the dominant color of a given area For example, for the color values of the majority of pixels included in a predetermined region, if R among the three color elements R, G, and B has the largest value, the dominant color of the predetermined region is red. I can judge.
  • color distribution information or dominant color was analyzed based on each of R, G, and B.
  • the present invention is not limited thereto, and may be analyzed based on various colors expressed by a combination of two or more of R, G, and B. For example, if the color to be identified is orange, it may be determined whether the dominant color of the pixel in the corresponding area is orange based on a combination of some or all of R, G, and B representing orange.
  • a region in which the dominant color is red is an object of image enhancement, and an embodiment of a process of enhancing the image by applying a weight will be described in detail.
  • one or more weights may be determined for the corresponding region. Weights can be determined for all or part of R, G, B and luminance. For example, when enhancing red, the weight for R may be a value greater than one. Applying a weight may mean multiplying a color element value of a pixel in a corresponding area by a corresponding weight. In this case, the weight for G and/or B may be a value less than one. By doing so, the region where red is dominant can be strengthened to a region that is more red.
  • the enhancement of the image of the present disclosure is not limited to this, and may include both a change in color value or a change in brightness value. Therefore, if necessary, an image may be enhanced by applying a weight to a luminance value.
  • the image receiving unit 510 may receive an input image 550 including one or more objects.
  • the input image 550 may be an image before being input to the image analysis device 112 and/or an image before being output to the output device 114.
  • the object image extracting unit 520 may extract an object included in the input image received from the image receiving unit 510 and divide the object image including the object into one or more regions. For example, the object image extractor 520 compares the pixel value of the analysis target image with a predetermined threshold to binarize the pixel values and group the binarized pixel values to extract objects included in the input image.
  • extracting an object may mean distinguishing an object from a background, an object may mean a specific object in an image, and the background may mean a portion excluding an object from an image.
  • the background of the image may be expressed in a predetermined color according to a method of photographing or a photographing device. For example, the predetermined color may be white. When a color representing the background of the image is specified, the background and the object may be separated based on the specified background color. For example, an object may be classified by deleting the specified background color area from the input image 550.
  • an object image may be obtained by specifying a bounding box surrounding an object area, and the object image extracting unit 520 may generate location information of the separated object based on the specified rectangle box.
  • the rectangular box may mean an object recognition box.
  • the input image is an X-Ray image of an article photographed by an X-Ray reading device
  • the background portion other than the article is unnecessary, the background portion is cut out and the article exists It can be analyzed with only the domain.
  • it can be said that it is important to obtain an area for an article in a real environment in which the article continuously passes through the X-Ray reading device through the conveyor belt.
  • the object image extraction unit 600 of FIG. 6 may be an embodiment of the object image extraction unit 520 of FIG. 5.
  • the input image 610 may be the input image 550 described with reference to FIG. 5, for example, an image related to an article including the bag 612 as a single object.
  • the object image extraction unit 600 first roughly cuts the surrounding area based on the bag 612 by performing a cropping operation on the input image 610 including one bag 612. A discarded, cropped image 620 may be obtained. Then, the object image extractor 600 may obtain the binarized image 630 by binarizing the pixel value by comparing a pixel value of the cropped image 620 with a predetermined threshold. Then, the object image extractor 600 may obtain a grouped image 640 by grouping (clustering, morphology, closing) adjacent pixels to select a portion of the object in the binarized image 630.
  • the object image extractor 600 performs labeling and hole filling operations on the grouped image 640 to convert the group of pixels formed in the largest shape into an area 652 for the object.
  • the image 650 from which the object is extracted may be obtained by determining and determining the rest as the region 654 for the background.
  • the object image extraction unit 600 may determine the location of the object in the input image 610 using information on the extracted object image. For example, the object image extraction unit 600 may specify a rectangular box surrounding the object area, and generate location information of the object based on the specified rectangular box. Referring to FIG. 6, the object image extraction unit 600 may specify a rectangular box 662 surrounding the bag 612 and obtain location information of the bag 612 based on the specified rectangular box. .
  • the location information of the bag 612 may be location information of four vertices forming the rectangular box 662, but is not limited thereto.
  • the location information may be represented by the coordinates (x, y) of one vertex of the rectangular box 662, and the width and height of the rectangular box.
  • the coordinates (x, y) of the one vertex may be the coordinates of the upper left corner of the rectangular box 662.
  • the coordinates (x, y) of the vertex may be specified based on the coordinates (0, 0) of the upper left corner of the input image 610.
  • the object image extractor 520 may divide the object image into one or more regions based on the size of the object image. Each of the one or more regions may be square.
  • the object image extraction unit 520 may determine the number or size of regions for dividing the object image based on the size of the object image. For example, when the object image is relatively large or has a size larger than a predetermined threshold, the object image may be divided to have more divided areas. Also, the sizes of the regions dividing the object image may not be the same.
  • the object image extractor 520 converts the object image into a square by up-sampling or down-sampling the object image when the object image is not square, and then converting the object image into one or more squares. It can be divided into regions. For example, since the object image is obtained based on a rectangular box surrounding the object for the object extracted by the object image extraction unit 520, the object image may not be square. In this case, the object image extractor 520 may divide the object image into one or more regions, but acquires and obtains a square object image by upsampling or downsampling in the horizontal or vertical direction of the object image. The divided square object image may be divided into one or more regions.
  • the object image 800 may not be square because it is composed of 9 pixels horizontally and 12 pixels vertically.
  • the shape of one or more regions dividing the object image is not limited to a square.
  • the region may have a form of n x m where n and m are different positive integers. In this case, the aforementioned upsampling or downsampling may not be performed.
  • the color distribution analysis unit 530 acquires color distribution information for each of the regions divided by the object image extraction unit 520, and based on the color distribution information, for at least some of the regions One or more weights can be determined.
  • the color distribution information may include information for each of n (n is an integer greater than 1) color expression ranges.
  • the "color expression range” may be defined for a color to be identified. In the above-described example, the color expression range of red is described as a reference, but the color expression range of green (G) or blue (B) may be defined. Alternatively, a range of color expression for arbitrary colors (yellow, orange, sky blue, etc.) expressed by combining some or all of R, G, and B may be defined.
  • Image enhancement When an object included in the image is to be enhanced, for example, an area expressed in orange, as a result of analyzing color distribution information, by applying a weight to a region in which a number of pixels included in the range of orange color expression are predominant or dominant, Image enhancement according to the present disclosure may be performed.
  • the method of applying the weight is as described above.
  • the color distribution information may include information on some or all of the three color elements. If there are five color elements R, G, B, Y (yellow), and P (purple), the color distribution information may include information on some or all of the five color elements.
  • an X-Ray image of an object photographed by an X-Ray reading device different color expression ranges are determined according to properties of objects included in the image (for example, whether the object is an organic substance, an inorganic substance, a metal, or the like).
  • the applied X-Ray image is used.
  • the reader can discriminate not only the shape of the object included in the image, but also the physical properties of the object.
  • the image enhancement of the present disclosure analyzes color distribution information using an X-Ray image to which color is added according to the physical properties of an object as an input image, and strengthens a region of a specific color based on this, thereby detecting an object included in the image. It can improve the accuracy and readability of the reader reading the image.
  • FIG. 7 is a diagram illustrating an image in which colors are expressed based on physical properties of an object according to an embodiment of the present disclosure.
  • a bag image 700 taken by an X-Ray reading device, a medicine container image 710 and a traveler luggage carrier image 720 are shown.
  • the bag loop 702, the bag zipper 704, the medicine 712, and the bottle 722 it can be confirmed that the color expression range (the applied color) is different depending on the properties of the object.
  • the bag loop 702, the bag zipper 704, the medicine 712, and the bottle 722 are relatively clearly colored so that they can be distinguished from other objects, while any content in the luggage 724 In the case of ), it can be seen that it is difficult to determine what the arbitrary content 724 is in the traveler's luggage image 720 and it is not easy to distinguish it from other objects.
  • a metal or an inorganic material is expressed in a relatively clear and distinct color so that it can be clearly distinguished from a background, whereas an organic material is expressed in a light color so that the distinction from the background is not clear.
  • the area of color representing organic matter can be enhanced with a clear and clear color that can be clearly distinguished from the background through a method of enhancing the corresponding color.
  • the color distribution for each of the divided regions may be analyzed to apply weights to at least some regions.
  • the one or more weights may include weights for at least some of n color expression ranges or n color elements representing colors. For example, if one region has n color expression ranges or color elements, the number of weights in the region may have 1 to n.
  • the determined weight when one weight is determined for one area, the determined weight may be applied to all color elements or all color expression ranges included in the one area. Alternatively, the determined weight may be applied to at least a portion of all color elements or all color expression ranges included in the one area. For example, in order to enhance the image, the determined weight may be applied only to a predetermined color element among n color elements or a predetermined color expression range among n color expression ranges.
  • a weight may be determined for each of n color elements or n color expression ranges. That is, the number of weights for one region may be n.
  • a weight corresponding to each color element or color expression range included in the region may be applied to the corresponding color element or color expression range.
  • the weight may be given a relatively high weight for a predetermined color element or color expression range that is an object of image enhancement. For example, a weight greater than 1 may be given and multiplied by a value of a corresponding color element or a pixel value belonging to a corresponding color expression range.
  • a weight may be determined for each of m color elements greater than 1 and less than n or a color expression range. That is, the number of weights for one region may be m. In this case, the weighted weight may be applied only to a weighted color element or color expression range among color elements or color expression ranges included in the region. It is as described above that a relatively high weight is given to a predetermined color element or color expression range that is an object of image enhancement.
  • the weight may be relatively high for a predetermined color element or color expression range among n color elements or color expression ranges.
  • a boundary is often less clearly defined in an image than an object having different physical properties (metal, inorganic, etc.). This is because the color of the object, which is an organic material, is not vivid enough to be distinguished from other objects or backgrounds. For example, by being expressed in light orange, it may not be well distinguished from a white background. Therefore, by applying a relatively high weight to a portion corresponding to a color expression range representing an organic material among the divided regions, the corresponding color can be enhanced to change, for example, light orange to dark orange. By strengthening the image in this way, it is possible to more clearly distinguish between the surrounding objects or the background and the object to be strengthened.
  • the predetermined color element or color expression range to which a relatively high weight is assigned may be one or more.
  • the predetermined color element or color expression range to which a relatively high weight is assigned may be 1 to n.
  • the predetermined color element or color expression range is plural, the degree of image enhancement required for each may be different, and accordingly, different weights may be assigned to each.
  • a relatively high weight may be given only to a color element or a color expression range for an organic material, but for inorganic and organic materials, it is relatively more than a metal. You can also give it a high weight. At this time, a relatively high weight may be given to the organic material rather than the inorganic material.
  • FIG. 8 is a view for explaining a process of generating an output image based on color distribution information of an image according to an embodiment of the present disclosure.
  • the object image 800 may be divided into one or more regions, such as the first region 810 and the second region 820.
  • the process of dividing regions in the object image 800 is as described with respect to the object image extractor 520 of FIG. 5.
  • a process of obtaining color distribution information and determining weights in the first area 810 will be described in detail.
  • the image enhancement device acquires color distribution information including information on five color expression ranges for the first area 810, and based on the obtained color distribution information, at least a part of the 3x3 sized area One or more weights can be determined for.
  • only information on a predetermined color expression range targeted for image enhancement may be obtained and used as color distribution information. For example, when the distribution information for a predetermined color expression range is greater than or equal to a predetermined threshold, the corresponding area is determined as a target for enhancement, and a relatively high weight can be given to the corresponding area.
  • the first color channel image 830, the second color channel image 840, and the third color channel may correspond to color elements of R, G, B, Y, and P, respectively.
  • Each of the first to fifth color channel images 830 to 870 is generated by mapping each pixel to a color channel image corresponding to the corresponding color information based on color information of each of the constituent pixels of the first region 810.
  • the first pixel 812 is mapped to the pixel 852 at the corresponding position of the third color channel image 850
  • the second pixel 814 is the pixel at the corresponding position of the first color channel image 830.
  • Mapped to 832, and the third pixel 816 is mapped to the pixel 872 at the corresponding position of the fifth color channel image 870
  • the fourth pixel 818 is the second color channel image 840.
  • the fifth pixel 820 is mapped to the pixel 874 at the corresponding position of the fifth color channel image 870
  • the sixth pixel 822 is It is mapped to the pixel 876 at the corresponding position in the fifth color channel image 870
  • the seventh pixel 824 is mapped to the pixel 844 at the corresponding position in the second color channel image 840
  • the eighth The pixel 826 is mapped to the pixel 878 at the corresponding position in the fifth color channel image 870
  • the ninth pixel 828 is mapped to the pixel 880 at the corresponding position in the fifth color channel image 870.
  • the color expression range is up to n
  • fewer color channel images than n may be obtained.
  • pixels having a color corresponding to the fourth color channel image 860 may be obtained. Since this does not exist, a total of four color channel images can be obtained except for the fourth color channel image 860.
  • the first color channel image 830, the second color channel image 840, the third color channel image 850, the fourth color channel image 860, and the fifth color channel image 870 Can be applied to the weights a1, a2, a3, a4, and a5, respectively.
  • the weight may be determined in consideration of the color distribution of pixels constituting each area, and for example, the weight may be determined to be proportional to the color distribution of pixels. Alternatively, the weight may be determined to have a relatively high weight for a predetermined color expression range and a relatively low weight for the rest of the color expression range.
  • the image enhancement unit 540 may generate a first output image for the object image by applying one or more weights determined by the color distribution analysis unit 530 to at least some of the one or more regions. .
  • Weighted a1, a2, a3, a4, and a5 may be applied to the weighted first region 810-1 by combining the weighted first to fifth color channel images. And, by repeating the above process for the remaining regions of the object image 800, the first output image may be finally generated.
  • the weight may be determined in consideration of the color distribution of pixels constituting each region, and a relatively high weight may be determined for a predetermined color expression range and a relatively low weight for the remaining color expression ranges.
  • the portion corresponding to the color representing the organic material in each divided region is not clearly distinguished from the background, so the boundary portion is not relatively clearly expressed in the image, so the weight is determined relatively high, and the color corresponding to the color representing the metal Since the portion is relatively distinct from the background, the weight of the border portion may be relatively low because the border portion is relatively clearly expressed in the image. As described above, applying the weight may mean replacing a pixel in the enhanced region with a new pixel value multiplied by the weight.
  • a relatively high weight can be set.
  • red is enhanced, but is not limited thereto, and any color may be determined as a target color.
  • the predetermined threshold and/or weight may be arbitrarily determined, or may be determined based on accumulated image processing information. Alternatively, by performing learning on the threshold and/or weight through an AI-based learning model, the optimal threshold and/or weight may be continuously updated.
  • the image enhancement unit 540 may generate a second output image for the object image by applying edge-based filtering or smoothing filtering on at least some of the one or more regions. Also, the image enhancement unit 540 may generate a third output image for the object image based on the generated first output image and second output image.
  • Edge-based filtering or smoothing filtering is a technique for enhancing the contrast of an image, including, but not limited to, Wiener filtering, Unsharp mask filtering, Histogram equalization, linear contrast adjustment, and the like. May include techniques to enhance.
  • FIG. 9 is a diagram for explaining a process of obtaining a final output image that combines an image obtained by using color distribution information and an image obtained by applying edge-based filtering or smoothing filtering according to an embodiment of the present disclosure.
  • the object image 900 of FIG. 9, the first area 910 and the weighted first area 910-1 are the object image 800 of FIG. 8, the first area 810, and the weighted first area It may correspond to (810-1), respectively.
  • the image enhancement unit 540 may generate the first region 910-2 to which the filtering is applied to the first region 910, and the first region 910-1 to which the weight is applied. And the first region 910-2 to which filtering has been applied may be combined to generate a final first region 910-3.
  • the image enhancement unit 540 may generate a second output image in which the above filtering techniques are applied to the remaining regions, and a third output image combining the first output image and the second output image.
  • the process of generating a weighted area (eg, 910-1), a filtered area (eg, 910-2), and/or a final area 910-3 using the two may be performed in units of areas.
  • the present invention is not limited thereto, and the process may be performed in units of object images.
  • a weighted object image (first output image) may be obtained by performing a process of applying a weight to each of the regions included in the object image.
  • an object image second output image
  • the final image third output image
  • the influence on the first output image may be relatively small by combining the second output image with the first output image.
  • the color representing the organic substance The weight for the distribution information can be determined relatively higher. Also, for example, by combining the first output image and the second output image, more accurate object recognition may be possible even when multiple objects in the image overlap.
  • FIG. 10 is a view for explaining a process of obtaining a final output image using a graphical model according to an embodiment of the present disclosure.
  • the image enhancement apparatus determines each of the color expression ranges included in the color distribution information as an individual node, and determines a relative relationship between each determined individual node and a first output image, a second output image, and a third output image. Using the relative relationship of, a graphical model of a hierarchical structure can be generated.
  • a first output image 1020 may be obtained by applying a weight to each of the corresponding divided regions or the color expression ranges of the divided regions.
  • the first output image 1020 may be determined as the final output image.
  • the second output image 1030 obtained by applying the contrast enhancement technique of the image is further generated, and the third output image 1040 is generated based on the first output image 1020 and the second output image 1030. You may.
  • FIG. 11 is a view for explaining an image enhancement method according to an embodiment of the present disclosure.
  • the image enhancement method of FIG. 11 is a method performed by the image enhancement apparatus of FIG. 5, and the description of the image enhancement apparatus of FIG. 5 may be applied to the image enhancement method of FIG. 11.
  • step S1100 an input image may be received.
  • an object included in the input image may be extracted. For example, by comparing the pixel value of the input image with a predetermined threshold, the pixel value is binarized and the binarized pixel value is grouped to extract an object included in the analysis target image.
  • the object image including the object may be divided into one or more regions.
  • the number or size of regions for dividing the object image may be determined based on the size of the object image.
  • the sizes of the regions dividing the object image may not be the same.
  • the object image can be divided into one or more regions after up-sampling or down-sampling to convert the object image into a square. have.
  • color distribution information may be obtained for each of the one or more regions.
  • the color distribution information may include information for each of n (n is an integer greater than 1) color expression range.
  • one or more weights may be determined for at least some of the one or more regions based on the color distribution information.
  • the one or more weights may include weights for at least some of the n color expression ranges. For example, if one region has n color expression ranges, the number of weights in the region may have 1 to n.
  • a first output image for the object image may be generated by applying the determined one or more weights to at least some of the one or more regions.
  • a second output image for the object image may be generated by applying edge-based filtering or smoothing filtering to at least some of the one or more regions. Also, for example, a third output image for the object image may be generated based on the generated first output image and second output image.
  • the input image may be an image including two or more objects.
  • two or more objects and a background can be distinguished from the input image, and location information can be generated and used for each of the two or more objects.
  • location information can be generated and used for each of the two or more objects.
  • each pixel group is an area for an object as well as other pixel groups formed in the largest shape. The process of generating location information of each determined object is the same as described for an image including one object.
  • At least some of the components of the image enhancement apparatus and steps of the image enhancement method of the present disclosure may be performed using an AI-based or deep learning-based model.
  • an AI-based or deep learning-based model For example, the size, number of regions generated by dividing an object image, weights determined based on color distribution information, various thresholds mentioned in the present disclosure, whether a second output image is generated, or the like is based on artificial intelligence or deep learning. It can be learned using a model, and information according to the trained model can be used.
  • the image analysis device 1200 of FIG. 12 may be an embodiment of the image analysis device 112 of FIG. 1. Alternatively, the image analysis device 1200 of FIG. 12 may be included in the image analysis device 112 of FIG. 1, or may be configured separately to perform context analysis.
  • the image analysis apparatus 1200 may include a feature extraction unit 1210, a context generation unit 1220, and/or a feature and context analysis unit 1230.
  • the image analysis apparatus 1200 may extract characteristics of an input image (analysis target image), generate context information based on the extracted characteristics, and analyze an analysis target image based on the extracted characteristics and the generated context information. have. For example, the image analysis apparatus 1200 may classify an image using the extracted feature and the generated context information or locate the object of interest.
  • the input image of the image analysis apparatus 1200 may be the same as the input image of the image analysis apparatus 112 of FIG. 1.
  • the feature extraction unit 1210 may analyze the input image to extract features of the image.
  • the feature may be a local feature for each region of the image.
  • the feature extraction unit 1210 may extract characteristics of an input image using a general convolutional neural network (CNN) technique or a pooling technique.
  • the pooling technique may include at least one of a max (max) pooling technique and an average pooling technique.
  • the pooling technique referred to in the present disclosure is not limited to the Max pooling technique or the average pooling technique, and includes any technique for obtaining a representative value of an image region of a predetermined size.
  • the representative value used in the pooling technique may be at least one of a variance value, a standard deviation value, a mean value, a most frequent value, a minimum value, and a weighted average value, in addition to the maximum value and the average value.
  • the convolutional neural network of the present disclosure can be used to extract “features” such as borders, line colors, and the like from input data (images), and may include a plurality of layers. Each layer may receive input data and process input data of the corresponding layer to generate output data.
  • the convolutional neural network may output a feature map generated by convolution of an input image or an input feature map with filter kernels as output data.
  • the initial layers of the convolutional neural network can be operated to extract low level features such as edges or gradients from the input.
  • the next layers of the neural network can extract progressively more complex features, such as the eyes and nose. The detailed operation of the convolutional neural network will be described later with reference to FIG. 16.
  • the convolutional neural network may include a pooling layer in which a pooling operation is performed in addition to a convolutional layer in which a convolution operation is performed.
  • the pooling technique is a technique used to reduce the spatial size of data in the pooling layer.
  • the pooling technique includes a max pooling technique that selects a maximum value in a corresponding region and an average pooling technique that selects an average value in a corresponding region.
  • a max pooling technique is generally used. do.
  • the pooling window size and spacing are generally set to the same value.
  • the stride means adjusting an interval to move when applying a filter to input data, that is, an interval to move the filter, and stride can also be used to adjust the size of the output data.
  • the detailed operation of the pulling technique will be described later with reference to FIG. 17.
  • the feature extraction unit 1210 is pre-processing for extracting features of an analysis target image, and filtering may be applied to the analysis target image.
  • the filtering may be a Fast Fourier Transform (FFT), histogram equalization, motion artifact removal, or noise removal.
  • FFT Fast Fourier Transform
  • the filtering of the present disclosure is not limited to the above-listed methods, and may include all types of filtering capable of improving the image quality.
  • enhancement of the image described with reference to FIGS. 5 to 11 may be performed.
  • the context generation unit 1220 may generate context information of the input image (analysis target image) using the features of the input image extracted from the feature extraction unit 1210.
  • the context information may be a representative value representing all or part of an image to be analyzed.
  • the context information may be global context information of the input image.
  • the context generation unit 1220 may generate context information by applying a convolutional neural network technique or a pooling technique to features extracted from the feature extraction unit 1210.
  • the pooling technique may be, for example, an average pooling technique.
  • the feature and context analysis unit 1230 may analyze an image based on the feature extracted by the feature extraction unit 1210 and the context information generated by the context generation unit 1220.
  • the feature and context analysis unit 1230 according to an embodiment concatenates local features and local contexts reconstructed by the context generation unit 1220 for each region of the image extracted by the feature extraction unit 1210. It can be used together to classify the input image or to find the location of the object of interest included in the input image. Since information at a specific 2D position in the input image includes not only local feature information but also global context information, the feature and context analysis unit 1230 uses these information, so that the actual content is different but local feature information. It is possible to more accurately recognize or classify similar input images.
  • the invention according to an embodiment of the present disclosure enables more accurate and efficient learning and image analysis by using global context information as well as local features used by general convolutional neural network techniques. do.
  • the neural network to which the invention according to the present disclosure is applied may be referred to as'deep neural network through context analysis'.
  • FIG. 13 is a diagram illustrating a process of generating and analyzing context information of an image according to an embodiment of the present disclosure.
  • the feature extraction unit 1310, the context generation unit 1320, and the feature and context analysis unit 1330 of FIG. 13 are the feature extraction unit 1210, the context generation unit 1220, and the feature and context analysis of FIG. 12, respectively. It may be an embodiment of the unit 1230.
  • the feature extractor 1310 may extract a feature from the input image 1312 using the input image 1312 and generate a feature image 1314 that includes the extracted feature information.
  • the extracted feature may be a feature for a local area of the input image.
  • the input image 1312 may include an input image of an image analysis device or a feature map at each layer in a convolutional neural network model.
  • the feature image 1314 may include a feature map and/or feature vector obtained by applying a convolutional neural network technique and/or a pooling technique to the input image 1312.
  • the context generation unit 1320 may generate context information by applying a convolutional neural network technique and/or a pooling technique to the feature image 1314 extracted by the feature extraction unit 1310.
  • the context generating unit 1320 may generate context information of various scales, such as an entire image, a quadrant area, and a 9-section area, by variously adjusting the spacing of the pooling.
  • an entire context information image 1322 including context information for an image of a full-size image, and a quadrant context information image including context information for a quarter image having a size that is divided into four parts of the entire image ( 1324) and a 9-part context information image 1326 may be obtained, including context information for a 9-part image of a size divided into 9 parts.
  • the feature and context analysis unit 1330 may more accurately perform analysis on a specific region of an analysis target image using both the feature image 1314 and the context information images 1322, 1324, and 1326.
  • the identified object is obtained from the feature image 1314 including local features extracted by the feature extractor 1310. It is impossible to accurately determine whether is a car or a boat. That is, the feature extraction unit 1310 may recognize the shape of the object based on the local feature, but may not accurately identify and classify the object using only the shape of the object.
  • the context generation unit 1320 can more accurately identify and classify objects by generating context information 1322, 1324, and 1326 based on the analysis target image or the feature image 1314.
  • the feature extracted for the entire image is recognized or classified as "natural landscape”
  • the feature extracted for the quarter image is recognized or classified as “lake”
  • the feature extracted for the 9-part image is "water”
  • the extracted features “natural landscape”, “lake”, and “water” may be generated and utilized as context information.
  • the feature and context analysis unit 1330 may identify an object having a shape of the boat or vehicle as a "boat" by utilizing the context information.
  • context information for an entire image In the embodiment described with reference to FIG. 13, it has been described to generate and utilize context information for an entire image, context information for a quarter image, and context information for a ninth image, but the size of the image for extracting context information is It is not limited to this.
  • context information for an image having a size other than the above-described image may be generated and utilized.
  • FIG. 14 is a diagram for explaining a process in which an image analysis apparatus according to an embodiment of the present disclosure analyzes an image to identify an object.
  • the image analysis device 1400 may accurately identify and/or classify objects included in the image 1410 by receiving the image 1410 and generating information on image regions of various sizes.
  • the input image 1410 may be, for example, an X-ray image including a bag.
  • the image analysis device 1400 analyzes the input image 1410 as described above, extracts features for the entire image, and features for some areas of the image, and accurately identifies the objects included in the image 1410 using the image analysis. can do.
  • the feature 1422 for the entire image may be, for example, a feature for the shape of the bag.
  • Features for some areas of the image may include, for example, features 1424 for handles, features 1426 for zippers, features 1428 for rings, and the like.
  • the image analysis apparatus 1400 can accurately identify that the object included in the image 1410 is a "bag” by using the generated features 1422, 1424, 1426, and 1428 as context information.
  • the image analysis device 1400 cannot identify that the object included in the image 1410 is a "bag” or the image 1410 It may provide an analysis result that the object included in the "bag” cannot be identified.
  • an abnormality of the corresponding object may be output. For example, when an irregular space, a space of a certain thickness, or the like, which is not related to the normal characteristics of the "bag", is detected, the corresponding "bag” may output a signal that there is an abnormal bag.
  • contextual information that is not related to the normal contextual information when contextual information that is not related to the normal contextual information is included, such fact may be output to the reader, and the reader may, based on this, perform a close inspection or remodeling inspection of the object or object of the corresponding image. Can be done.
  • 15 is a view for explaining the operation of the image analysis apparatus according to an embodiment of the present disclosure.
  • the image analysis device may extract characteristics of the image to be analyzed.
  • the image analysis apparatus may extract characteristics of an input image using a general convolutional neural network technique or a pooling technique.
  • the feature of the analysis target image may be a local feature for each region of the image, and the pooling technique may include at least one of a max pooling technique and an average pooling technique.
  • step S1510 the image analysis device may generate context information based on the feature extracted in step S1500.
  • the image analysis apparatus may generate context information by applying a convolutional neural network technique and/or a pooling technique to features extracted in step S1500.
  • the context information may be a representative value representing all or part of an image to be analyzed.
  • the context information may be global context information of the input image.
  • the pooling technique may be, for example, an average pooling technique.
  • step S1520 the image analysis device may analyze the analysis target image based on the feature extracted in step S1500 and the context information generated in step S1510.
  • the image analysis apparatus may classify the input image by combining local features of each region of the image extracted in step S1500 and the global context reconstructed in step S1510, or find the location of the object of interest included in the input image. have. Accordingly, since information at a specific 2D position in the input image is included from the local information to the global context, more accurate recognition or classification of input images having different local contents but similar local information is possible. Alternatively, it is possible to detect an object containing contextual information that is not related to other contextual information.
  • 16 is a diagram for explaining an embodiment of a multi-product neural network generating a multi-channel feature map.
  • the image processing based on the convolutional neural network can be used in various fields.
  • an image processing device for object recognition of an image an image processing device for image reconstruction, an image processing device for semantic segmentation, and image processing for scene recognition It can be used for devices and the like.
  • the input image 1610 may be processed through the convolutional neural network 1600 to output a feature map image.
  • the output feature map image can be utilized in various fields described above.
  • the convolutional neural network 1600 may be processed through a plurality of layers 1620, 1630, and 1640, and each layer may output multi-channel feature map images 1625 and 1635.
  • the plurality of layers 1620, 1630, and 1640 may extract a feature of an image by applying a filter having a constant size from the upper left to the lower right of the received data.
  • the plurality of layers 1620, 1630, and 1640 multiply the weights of the upper left NxM pixels of the input data and map them to one neuron in the upper left of the feature map.
  • the multiplied weight will also be NxM.
  • the NxM may be, for example, 3x3, but is not limited thereto.
  • the plurality of layers 1620, 1630, and 1640 scan input data from left to right and from top to bottom by multiplying the weights by k cells to map to the neurons of the feature map.
  • the k column means a stride to move the filter when performing the convolution, and may be appropriately set to adjust the size of the output data.
  • k may be 1.
  • the NxM weight is called a filter or filter kernel. That is, the process of applying a filter in a plurality of layers 1620, 1630, and 1640 is a process of performing a convolution operation with the filter kernel, and as a result, the extracted result is a "feature map" or "feature. It is called "map image".
  • the layer on which the convolution operation is performed may be referred to as a convolutional layer.
  • multiple-channel feature map refers to a set of feature maps corresponding to a plurality of channels, and may be, for example, a plurality of image data. It may be an input from an arbitrary layer, or an output according to a result of a feature map operation such as a convolution operation, etc.
  • the multi-channel feature maps 1625 and 1635 are feature extraction layers of the convolutional neural network. Fields" or “convolutional layers”, which are created by a plurality of layers 1620, 1630, 1640.
  • Each layer sequentially receives multi-channel feature maps generated in the previous layer, and then as outputs Multi-channel feature maps may be generated.
  • the L (L is an integer) layer 1640 receives the multi-channel feature maps generated by the L-1-th layer (not shown), and the multi-channel features of not shown. You can create maps.
  • feature maps 1625 having K1 channels are outputs according to feature map operation 1620 in layer 1 for input image 1610, and feature map operation 1630 in layer 2 ).
  • feature maps 1635 having K2 channels are outputs according to feature map operation 1630 in layer 2 for input feature maps 1625, and feature map operation in layer 3 (not shown) It becomes the input for.
  • the multi-channel feature maps 1625 generated in the first layer 1620 include feature maps corresponding to K1 (K1 is an integer) channels.
  • the multi-channel feature maps 1635 generated in the second layer 1630 include feature maps corresponding to K2 (K2 is an integer) channels.
  • K1 and K2 representing the number of channels may correspond to the number of filter kernels used in the first layer 1620 and the second layer 1630, respectively. That is, the number of multi-channel feature maps generated in the M (M is an integer of 1 or more and L-1 or less) layer may be the same as the number of filter kernels used in the M layer.
  • 17 is a view for explaining an embodiment of a pooling technique.
  • the window size of the pooling is 2 ⁇ 2 and the stride is 2, and Max pooling may be applied to the input image 1710 to generate the output image 1790.
  • a 2x2 window 1710 is applied to the upper left of the input image 1710, and a representative value (here, maximum value 4) among the values in the window 1710 area is calculated to output the image 1790. ) In the corresponding position 1720.
  • the window is moved by stride, that is, by 2, and a maximum value 3 of the values in the window 1730 area is input to a corresponding position 1740 of the output image 1790.
  • the process is repeated from the position below the stride from the left of the input image. That is, as illustrated in (c) of FIG. 17, the maximum value 5 of the values in the window 1750 area is input to the corresponding position 1760 of the output image 1790.
  • the window is moved by the stride, and a maximum value 2 of the values in the window 1770 area is input to a corresponding position 1780 of the output image 1790.
  • the above process may be repeatedly performed until a window is located in the lower right area of the input image 1710, thereby generating an output image 1790 that applies pooling to the input image 1710.
  • FIG. 18 is a block diagram showing the configuration of an image synthesizing apparatus according to an embodiment of the present disclosure.
  • the image synthesis device 1800 includes an object image extraction unit 1810, an object location information generation unit 1820, an image synthesis unit 1830, and/or an object detection deep learning model learning unit 1840. It can contain. However, this only shows some components necessary to describe the present embodiment, and the components included in the image synthesizing apparatus 1800 are not limited to the above-described examples. For example, two or more components may be implemented in one component, or an operation executed in one component may be divided and implemented to be executed in two or more components. In addition, some components may be omitted or additional components may be added. Or, among the components of the image analysis device 112 of FIG. 1, the image enhancement device 500 of FIG. 5, the image analysis device 1200 of FIG. 12, and the image synthesis device 1800 of FIG. 18, the same function or similar The component performing the function may be implemented as one component.
  • the image synthesizing apparatus 1800 receives a first image including a first object and a second image including a second object, and objects for each of the first image and the second image And a background, the first object and the second object are generated, and the first object and the second object are based on the first object and the second object.
  • 3 images can be generated, and an object detection deep learning model can be trained using location information of a first object, location information of a second object, and a third image.
  • the input image 1850 may include an image including a single object.
  • the description of the input image 1850 is the same as the description of the input image described with reference to FIG. 1 and the like.
  • the object image extraction unit 1810 may receive an image 1850 including a single object and distinguish the received image into an object and a background.
  • the description of the object image extraction unit 1810 is the same as the description of the object image extraction unit 520 described with reference to FIGS. 5 and 6.
  • the object location information generation unit 1820 may determine the location of the object extracted from the object image extraction unit 1810. For example, the object location information generating unit 1820 specifies a bounding box surrounding the object area, and generates location information of the object classified by the object image extraction unit 1810 based on the specified square box. can do.
  • the description of the method for generating the location information of the object is the same as the description for the method with reference to FIG. 6.
  • location information of an object included in an image may be automatically generated, a hassle of having to manually input location information of an object for each image is avoided by a reader for artificial intelligence learning. Can be.
  • the image synthesizing unit 1830 uses a plurality of single object images obtained through the object image extraction unit 1810 and the object location information generation unit 1820 to obtain multi-object images.
  • Can generate For example, for the first image including the first object and the second image including the second object, the location information of the first object through the object image extraction unit 1810 and the object location information generation unit 1820, respectively, and The location information of the second object is obtained, and the image synthesis unit 1830 generates a third image including the first object and the second object based on the obtained location information of the first object and the location information of the second object can do.
  • a detailed process of generating a multi-object image will be described in more detail with reference to FIG. 19.
  • the image synthesizing unit 1900 of FIG. 19 is an embodiment of the image synthesizing unit 1830 of FIG. 18.
  • the image synthesizing unit 1900 includes the first single object image 1910, the second single object image 1920, and the first single object image (obtained through the object image extraction unit and the object location information generation unit).
  • the first single object image 1910 and the second single object image are included in the synthesized multi-object image 1940 and the multi-object image 1940. It is possible to obtain location information 1950 for the objects.
  • the image synthesizing unit 1900 may also use an image 1930 for a background separated from an object when synthesizing the first single object image 1910 and the second single object image 1920.
  • the location information of the first single object image 1910 and the location information of the second single object image 1920 may be arbitrarily modified.
  • image synthesis may be performed based on the corrected location information. By doing so, it is possible to generate a myriad of synthetic images and virtual location information.
  • the object detection deep learning model learning unit 1840 may train an object detection deep learning model using location information of a first object, location information of a second object, and a third image.
  • the object detection deep learning model learning unit 1840 may train the convolutional neural network model.
  • the location information of the first object, the location information of the second object, and the third image may be used for training the convolutional neural network model.
  • the object detection deep learning model learning unit 2000 of FIG. 20 is an embodiment of the object detection deep learning model learning unit 1840 of FIG. 18.
  • a multi-object image 2010 synthesized by using single object images and location information of objects may be used as data necessary for learning.
  • the object detection deep learning model learning unit 2000 may train the convolutional neural network 2020 by projecting the location information of each single object with respect to the multi-object image 2010.
  • an X-Ray image in which a plurality of objects are overlapped may be obtained.
  • a plurality of images may be obtained. Since the convolutional neural network is trained by using the shape of each object together with the positional information of the object, more accurate detection results can be obtained even if overlapping occurs between objects.
  • 21 is a view for explaining a process of analyzing an actual image using an image synthesizing apparatus according to an embodiment of the present disclosure.
  • the image synthesizing apparatus 2100 of FIG. 21 is an embodiment of the image synthesizing apparatus 1800 of FIG. 18.
  • the operations of the object image extraction unit 1810, the object location information generation unit 1820, the image synthesis unit 1830, and the object detection deep learning model learning unit 1840 included in the image synthesis device 1800 of 18 are the same. .
  • the image synthesizing apparatus 2100 includes an object image extraction unit 2104, an object location information generation unit 2106, an image synthesis unit 2108, and an object detection deep learning model learning unit for a plurality of single object images 2102.
  • an object detection device 2120 may detect each object using the convolutional neural network model trained by the image processing device 2100 for the image 2122 including multiple objects in a real environment.
  • the image synthesizing apparatus 2100 of the present disclosure may generate a new multi-object-included image based on a single object region extraction in an X-Ray image. Can be.
  • the object detection device 2120 may find an area where multiple objects included in an article passing through the X-Ray searcher exist. Therefore, by automatically extracting the position of the object with respect to the X-Ray image, a reader can perform the image inspection task more easily, and also includes information on the quantity of the extracted object and the object in the object. It can be used for tasks such as comparing computerized information.
  • 22 is a diagram for explaining a method for synthesizing an image according to an embodiment of the present disclosure.
  • the first image including the first object and the second image including the second object may be input to distinguish an object and a background for each of the first image and the second image. For example, by comparing the pixel value of the input image with a predetermined threshold, the pixel value is binarized, and the objects included in the input image can be distinguished by grouping the binarized pixel values.
  • step S2210 location information of the separated first object and the second object may be generated. For example, a rectangular box surrounding the object area may be specified, and based on the specified rectangular box, location information of the object classified in step S2200 may be generated.
  • a third image including the first object and the second object may be generated.
  • a third image including the first object and the second object may be generated based on the position information of the first object and the position information of the second object obtained in step S2210.
  • the object detection deep learning model may be trained using the location information of the first object, the location information of the second object, and the third image.
  • the convolutional neural network model may be trained, and the location information of the first object and the location information of the second object generated in step S2210 and the third image generated in the step S2220 may be used for training the convolutional neural network model. Can be.
  • the present invention is not limited thereto, and the input image may be an image including two or more objects.
  • the input image may be an image including two or more objects.
  • two or more objects and a background can be distinguished from the input image, and location information can be generated and used for each of the two or more objects.
  • a third image may be generated using two or more single object images and location information of each object. That is, the image processing method and apparatus according to the present disclosure may generate a third image based on two or more images each including one or more objects and location information of each object.
  • the present invention has been proposed to solve the detection of liquid substances that rely on reading by highly skilled readers, and according to the present invention, an inexperienced reader also helps with an image analysis device to which the method for detecting liquid substances is applied. It can perform quick and accurate detection of liquid substances.
  • FIG. 23 is a flowchart illustrating a method for detecting a liquid substance according to an embodiment of the present disclosure.
  • a method for detecting a liquid substance according to an embodiment of the present disclosure may be performed by the article search system 100 or the image analysis device 112.
  • the image analysis device 112 performs a liquid substance detection method.
  • the method for detecting liquid substances according to the present disclosure may also be interpreted as being performed by the article retrieval system 100.
  • a method for detecting a liquid substance includes receiving an image to be analyzed from an X-ray apparatus (S2300), detecting a container region in the analyzed image (S2310), and liquid in the detected vessel region Step (S2320) of detecting a region, step of extracting features of the detected liquid region (S2330), and/or comparing features of the extracted liquid region with feature information included in the liquid flow database to analyze the image to be analyzed. It may include the step (S2340) of determining what the liquid-like substance is included.
  • the image analysis apparatus may receive an image to be analyzed from the X-ray apparatus.
  • the analysis target image may mean an image or a photograph containing a liquid substance to be detected.
  • the liquid in the present invention may freely flow, such as water or oil, to change its shape according to the shape of the container, does not have a constant shape, and may mean a material whose volume change is not large even when compressed.
  • the container in the present invention may mean an object used to contain a liquid material.
  • the method for detecting a liquid substance according to the present disclosure may mean a method for detecting a liquid substance contained in a container.
  • the image analysis device may detect the container region in the image to be analyzed.
  • the container region may refer to a cross-sectional space on an image generated by the closed space of the container.
  • the container area may be different depending on the inclination of the container or the angle of rotation during X-ray imaging.
  • the image analysis device may generate several candidate lists for the type and/or volume of the container using a pre-trained deep learning based model.
  • the image analysis apparatus may derive probability information related to which of the candidates included in the candidate list is the type and/or volume of containers in the image.
  • the image analysis device may detect a liquid region in the container region detected in step S2310.
  • the liquid region may mean a region in which liquid is contained in an enclosed space created by the container region.
  • the liquid region on the X-ray image may be shown by the container, in a form included in the container area.
  • the image analysis device may extract characteristics of the liquid region detected in step S2320.
  • the feature may include color information, color pattern information, brightness information, brightness pattern information, and/or interference information of a liquid region appearing through an image, but is not limited thereto.
  • the feature for the liquid region may mean a feature vector represented by the container and/or liquid on the image.
  • the feature vector may mean a vector parameterizing features for the liquid region.
  • the feature vector may be derived through features of a liquid region on an image to be analyzed.
  • the feature vector may be derived using at least one of color information of a liquid region, color pattern information, brightness information, brightness pattern information, and distribution information of a liquid component in a container region.
  • an average or variance value of color or brightness in the analysis target image may be used.
  • the image analysis apparatus may extract a feature vector from the liquid region using at least one of a Scale Invariant Feature Transform (SIFT) or a Speeded Up Robust Features (SURF) algorithm.
  • SIFT Scale Invariant Feature Transform
  • SURF Speeded Up Robust Features
  • the image analysis apparatus is provided with an output vector of a convolutional neural network (CNN) using the context of a liquid region, and an optimal output vector through a dimensional change algorithm of a vector such as principal component analysis. It can be converted to an output vector with complexity.
  • CNN convolutional neural network
  • the above-described algorithm is an example of an algorithm used to derive the feature vectors of the present disclosure, and does not limit the scope of the present invention.
  • the image analysis apparatus may extract or derive a feature vector from the liquid region by using various algorithms that analyze or extract the features of the image.
  • SIFT may mean an algorithm for extracting feature points that are invariant to the size and rotation of an image.
  • SURF may refer to an algorithm for finding feature points that are invariant to environmental changes by considering environmental changes such as scale and lighting point of view from multiple images.
  • PCA may refer to an algorithm for converting a high-dimensional feature vector to a low-dimensional feature vector.
  • the image analysis device may compare the feature extracted in step S2330 with feature information included in the liquid flow database, and determine what liquid flow material is included in the analysis target image.
  • the image analysis apparatus may perform similarity comparison between a feature vector included in the liquid flow database and a feature vector derived using features extracted through the liquid region.
  • the image analysis device may determine the type of the liquid substance included in the image to be analyzed according to the similarity comparison result. Furthermore, the image analysis apparatus may generate a list of several candidates for the type and/or volume of liquid substances in the image. Furthermore, the image analysis device may derive probability information related to which of the candidate types included in the candidate list is the type and/or volume of the liquid substance in the image.
  • FIG. 24 is a flowchart illustrating a method of building a liquid flow database according to an embodiment of the present disclosure.
  • the method for constructing liquid substance data according to an embodiment of the present disclosure may be performed by the article retrieval system 100, the image analysis device 112, or the learning unit 120.
  • the image analysis device 112 constructs a liquid substance database.
  • the method for detecting liquid substances according to the present disclosure may also be interpreted as being performed by the article search system 100 or the learning unit 120.
  • a method of constructing a liquid flow database includes receiving a read image containing a liquid flow substance (S2400), arranging and/or interpolating the read image (S2410), and a liquid flow substance image. It may include the step of extracting the characteristics of (S2430) and / or adding the characteristics of the extracted liquid material image to the liquid database.
  • the image analysis device may receive a read image for adding a liquid flow database.
  • the read image may be input by a reader or administrator who wishes to build a liquid database.
  • the read image may include a liquid material. Since the read image is an image used to add a database, unlike the image to be analyzed previously described, it may be configured to include only liquid materials for building a database.
  • the liquid-like substance included in the readout image may be an additional target liquid-like substance.
  • the liquid substance to be added may indicate a liquid substance, which is used to add features of the liquid substance substance image to the liquid substance database. That is, in the present disclosure, the additional liquid-like substance may refer to the liquid-like substance included in the readout image.
  • the image analysis apparatus can receive and data the container information and the liquid substance contained in the read image together with the read image.
  • the information of the container and the information of the liquid substance may be input by a reading source or a manager who inputs the read image. It may contain at least one.
  • the liquid information may include at least one of a liquid type, a liquid characteristic, a liquid density, a liquid viscosity, and a liquid amount.
  • the above-described container information and liquid information are examples, and various information capable of representing the container and the liquid may be included in the container information or the liquid information.
  • the image analysis device Since the X-ray image of the liquid substance varies depending on the type of container containing the liquid, the amount of liquid contained in the container, and the degree of inclination or rotation of the container, the image analysis device is the information of the container and the type of liquid. It is necessary to establish a liquid flow database that can be determined according to.
  • the liquid flow database according to the present disclosure may be in a form in which information on a container and liquid information on a specific liquid flow material included in a read image are parameterized.
  • the image analysis device may align and/or interpolate the read image.
  • the alignment of the read image may refer to a process of aligning the liquid materials that are arranged or rotated at various angles at a reference angle.
  • Interpolation of the read image may mean a process of obtaining an image for each angle of the liquid substance by rotating the aligned liquid substance in a certain angle unit.
  • 25 is a diagram for describing an image alignment and interpolation method according to an embodiment of the present disclosure.
  • the image analysis device needs to align the read image in a form that can be used as a basis for building a database.
  • the image analysis apparatus may obtain an aligned liquid substance image 2530 by rotating the liquid substance 2520 on the read image.
  • alignment of the read image may be performed by the image alignment unit 2500.
  • the image alignment unit 2500 may align the liquid material on the read image by rotating the lid portion of the container facing upward.
  • the image analysis apparatus rotates the liquid substance material image 2530 aligned by the image aligning unit 2500 at a predetermined angle interval to obtain the liquid substance substance images 2540 shown at various angles.
  • the image analysis apparatus may obtain a database according to the rotation of the liquid substance by using various rotated liquid substance images 2540. For example, interpolation of the aligned liquid material image 2530 may be performed by the interpolation unit 2510.
  • the image analysis apparatus can acquire a liquid flow database arranged at various angles under the same conditions according to the interpolation method described above.
  • the image analysis device may extract characteristics of the liquid material image that can correspond to the container information and the liquid information.
  • the feature extraction in step S2420 may correspond to the operations of the feature extraction unit 1210, the context generation unit 1220, and the feature and/or context analysis unit 1230 described above.
  • the image analysis device may extract characteristics of the liquid substance on the read image, generate context information based on the extracted features, and data information about the read image based on the extracted features and the generated context information.
  • the feature may mean a local feature for each region of the image. Details of the feature extraction of the liquid material are as described in FIG. 12 and will be omitted.
  • the image analysis device may add a feature of the liquid material image extracted in S2420 to the liquid flow database.
  • 26 is a view for explaining a result of building a liquid flow database according to an embodiment of the present disclosure.
  • the aforementioned container information and liquid information can be considered simultaneously.
  • the feature database of the liquid substance image according to the present disclosure may be constructed based on the characteristics of the container.
  • the database can be categorized by material, shape, and characteristics of the container. For example, when the container is a glass bottle, the characteristics of the image according to the capacity of the glass bottle, the characteristics of the image according to the thickness of the glass bottle, the characteristics of the image according to the type of liquid contained, and the characteristics of the image according to the amount of liquid contained therein Each can be added to a database.
  • the image analysis device may parameterize the characteristics of the extracted liquid substance image into a feature vector.
  • the feature database of the liquid substance image may be a feature vector database of the liquid substance image.
  • FIG. 26 shows an example of clustering various feature vectors and feature vectors included in the liquid flow database into a plurality of clusters 2600, 2610, 2620, and 2630.
  • the x-axis and the y-axis are respectively indicated by length and weight, but this is only an example of the present disclosure, and such description does not limit the feature vector parameter of the present invention.
  • the feature vector can be expressed by various types of parameters for representing the characteristics of the liquid substance image.
  • Each feature vector included in the liquid flow database can be clustered by comparing similarities between feature vectors.
  • the clusters may be used to determine the type of the liquid substance using feature vectors extracted from the analysis target image.
  • the database generated according to the method for constructing a liquid flow database described with reference to FIG. 24 may be stored in the database 122 included in the learning unit 120 or may be stored in a separate database existing inside the image analysis device. have.
  • the base produced here can be used for the detection of liquid substances described in FIG. 23.
  • FIG. 27 is a flowchart illustrating a method for detecting a liquid substance using a liquid flow database, according to some embodiments of the present disclosure.
  • the method for detecting a liquid substance includes receiving an image to be analyzed (S2700), pre-processing an image to be analyzed (S2710), and detecting a container region in the image to be analyzed (S2720).
  • Extracting the liquid region through post-treatment for the container region (S2730), extracting the feature vector for the liquid region (S2740), creating a liquid flow database (S2750), and extracting the feature vector It may include the step of determining what the liquid substance of the image to be analyzed is using the liquid flow database (S2760) and/or providing the detection result to the reader (S2770).
  • Step S2700, step S2720, step S2740, and step S2760 may correspond to steps S2300, S2310, S2330, and S2340 of the image analysis apparatus described in FIG. 23, respectively.
  • step S2750 may correspond to steps S2400 to S2430 of FIG. 24.
  • the image analysis device may perform pre-processing of the input image.
  • the pre-processing of the analysis image may mean a process of removing interference on the entire analysis image or a process of setting color information of the X-ray input image as a preset for detection of the image analysis apparatus.
  • FIG. 28 is a view for explaining a method for detecting a liquid container according to an embodiment of the present disclosure.
  • the image analysis device may detect the container region 2830 included in the analysis image 2810.
  • the image analysis apparatus may utilize a convolutional neural network (CNN) technique, a detection algorithm through serial configuration (adaboost), and the like to detect the container region in the analysis image.
  • CNN convolutional neural network
  • the convolutional neural network of the present disclosure may be used to extract features such as a border, thickness, line color, and region color of a container region from an analysis target image, and may include a plurality of layers. Each layer can receive input data and process input data of the corresponding layer to generate output data. As the hierarchy increases, neural networks can extract more specific features.
  • the image analysis apparatus may detect the container region in the image to be analyzed using the convolutional neural network described in FIG. 16.
  • step S2720 may be performed by the liquid container detector 2800.
  • the liquid container detection unit may detect an object having the same shape as the container in the analysis target image 2810 as the container area 2830.
  • the container detection unit 2800 may detect the container region 2830 in the analysis image using the above-described convolutional neural network or a pre-trained deep learning-based model.
  • the liquid container detector 2800 may detect the container area 2830 and the area 2820 including some background 2831 around the container area, as shown in FIG. 28.
  • the region 2820 including some background may mean a rectangular box used for object identification.
  • 29 is a diagram for describing an image post-processing method according to an embodiment of the present disclosure.
  • the image analysis device may perform detection of the liquid region 2930 through post-processing of the detected container region 2920 or 2940.
  • Post-processing the container area may include removing some background or background interference 2942 around the container area and/or removing internal interference 2950 to the container area.
  • interference 2950 on the image may be illustrated.
  • the liquid material has a large color change on the image due to the density or occlusion of the liquid, interference is likely to occur compared to an object having a predetermined shape.
  • FIG. 29 shows an area 2920 in which some background or background interference 2942 is included in the container area 2940 detected by the liquid container detection unit 2800.
  • the image analysis apparatus may remove some background or background interference 2942 excluding the container region 2940 in the region 2920 including some background or background interference 2942.
  • step S2730 may be performed by the background interference canceling unit 2900 and/or the container internal interference canceling unit 2910.
  • the background interference removing unit 2700 may remove some background or background interference 2701 from the detected container region 2920.
  • the removal of some background or background interference 2701 may be achieved through the above-described convolutional neural network or a pre-trained deep learning based model.
  • the internal interference 29 illustrates a situation in which an internal interference 2950 exists in a portion of the container region 2930 due to the ID Tag object included in the passenger's bag.
  • the internal interference may include a region caused by the thickness of the container or a region caused by other objects disposed on the upper and lower ends of the liquid material.
  • the internal interference may include interference caused by fluidity or image interference generated during X-ray imaging.
  • the internal interference removing unit 2910 may remove internal interference 2950 included in the container region 2930 from which some background or background interference 2942 is removed.
  • the final liquid region 2930 may be detected by removing the internal interference of the container internal interference removal unit 2910.
  • the internal interference canceling unit 2910 may utilize an interference cancellation method in consideration of a video frequency analysis method or a context for arranging surrounding items.
  • the interference removal unit 2910 inside the container may extract the interference-removed liquid region 2930 using KR application 10-2017-0183857 "Image analysis apparatus and method based on image characteristics and context”. .
  • the image analysis device may extract a feature vector for the liquid region detected in step S2730.
  • the feature vector may mean a vector parameterizing characteristics of the extracted liquid region.
  • the image analysis apparatus may extract a feature vector represented by a predetermined parameter using features of the liquid region.
  • step S2760 the image analysis device compares the similarity between the extracted feature vector and the feature vector included in the liquid flow database, and compares at least one of the type of the liquid substance, the type of the container, and/or the probability included in the analysis target image. Can decide.
  • the image analysis apparatus determines which cluster among the plurality of clusters 2800, 2810, 2820, and 2830 in which the extracted feature vector is illustrated in FIG. 28 or performs clustering on the extracted feature vector can do.
  • the cluster in which the feature vector should be included can be determined by comparing the similarity between the representative feature vector of the cluster and the extracted feature vector.
  • the image analysis apparatus may derive a probability value related to which cluster the extracted feature vector is included.
  • each of the first cluster 2800, the second cluster 2810, the third cluster 2820, and the fourth cluster 2830 of FIG. 28 is placed in a water (2800) and a 1.5L plastic bottle in a 500 ml plastic bottle. It may be a cluster including a cola 2810 in a glass, alcohol 2820 in a 500 ml glass bottle, and water 2830 in a 2 L plastic bottle.
  • the data shown in each cluster may be characteristic vector data obtained in a database creation process.
  • the image analysis apparatus when it is determined that the feature vector of the liquid substance material image included in the image to be analyzed is included in the first cluster, the image analysis apparatus performs liquid flow included in the image to be analyzed It can be determined that the substance is water in a 500 ml plastic bottle.
  • the feature vector of the liquid substance image included in the image to be analyzed is included in the first cluster 2800 with a probability of 25% and in the third cluster 2820 with a probability of 70%. If it is determined that the image analysis apparatus, the image analysis device may determine that the liquid substance contained in the image to be analyzed is water contained in a 500 ml plastic bottle with a probability of 25%, and alcohol contained in a 500 ml glass bottle with a probability of 70%.
  • the image analysis device may provide the detection result to the reader.
  • the image analysis device may provide the detection result of the detection of the liquid substance through the output device 114.
  • the read result may include the presence or absence information of liquid substances, container information, liquid information, similar data information, remodeling inspection necessity information, risk information, etc., but the above-described read result is an example and according to the present disclosure.
  • the read result is not limited to this.
  • the image analysis device may provide the reader with a variety of information related to the liquid-like substance conducive to the reader.
  • the image analysis device may provide the reader with container information as a candidate list for the container and a probability that the container shown in the analysis target image corresponds to each candidate.
  • the candidate for the container may be expressed by the type of container and the capacity of the container.
  • the image analysis device reads information that the container included in the image to be analyzed is a 200 ml glass bottle with a probability of 90%, a 180 ml glass bottle with a probability of 5%, and a 200 ml plastic bottle with a probability of 2%. Can be provided.
  • the image analysis apparatus may provide the reader with liquid information as a candidate list for a liquid type and a probability that the liquid type shown in the analysis target image corresponds to each candidate.
  • the image analysis device may provide the reader with information that the liquid contained in the image to be analyzed is water with a probability of 60% and alcohol with a probability of 38%.
  • the similar data information may mean information related to data having a feature vector most similar to a feature vector for a liquid substance included in an image to be analyzed.
  • the image analysis apparatus may provide an image source for a liquid flow material having a feature vector most similar to the liquid flow material included in the current analysis target image.
  • the information on whether a remodeling inspection is necessary may be information on whether a remodeling inspection of a reading source for the analysis target image is necessary. That is, the image analysis device may provide the reader with information related to whether remodeling inspection is required for the liquid substance included in the image to be analyzed. Determination of whether to perform remodeling analysis of the image analysis apparatus is the same as described above, so a description thereof will be omitted.
  • the risk information may refer to the risk of the liquid substances included in the analysis target image derived based on container information and/or liquid information.
  • risk information can be provided to the reader in the form of a number.
  • FIG 30 is another block diagram showing the configuration of an image analysis apparatus according to an embodiment of the present disclosure.
  • the image analysis device 3000 may include an input unit 3010 and/or an image analysis unit 3020.
  • two or more components may be implemented in one component, or an operation executed in one component may be divided and implemented to be executed in two or more components.
  • some components may be omitted or additional components may be added.
  • the same function or similar The component performing the function may be implemented as one component.
  • the input unit 3000 provides an image to be analyzed 3030 to an analysis target image provided from an X-ray reading device and an input read image, container information, and/or liquid information to build a database.
  • the input unit 3010 may be defined as a receiving unit.
  • the image analysis unit 3020 may perform a series of operations for detecting a liquid substance in the analysis target image.
  • the image analysis unit 3020 may detect a liquid substance included in the analysis target image using the liquid flow database 3040 or the liquid flow database provided from the learning unit 120.
  • the image analysis unit 3020 may provide the detection result to the reader through the output device 3030.
  • the image analysis unit 3020 uses the readout image, container information, and/or liquid information to characterize the characteristics of the extracted additional liquid substance material image in the liquid flow database 3040. It may include a database addition to add to.
  • the liquid flow database 3040 may mean the learning unit 120 of FIG. 1 or the database 122 included in the learning unit.
  • the liquid flow database 3040 disclosed by FIG. 30 is illustrated as being configured as a separate device from the image analysis device 3000, but the scope of rights of the present disclosure is not limited thereto.
  • a database having the same function as the liquid flow database 3040 may be configured as part of the image analysis apparatus 3000.
  • the image analysis unit 3020 includes a pre-processing unit 3021, a liquid region detection unit 3022, a liquid container detection unit 3023, a feature extraction unit 3024, a post-processing unit 3025, and/or a feature comparison unit 3026. can do.
  • the image analysis device may further include an image alignment unit, an interpolation unit, and an interference removal unit.
  • the interference canceling unit may include a background interference canceling unit and/or an internal interference canceling unit.
  • each component included in the image analysis apparatus 3000 is the same as that described with reference to FIGS. 23 to 29, and thus description thereof will be omitted.
  • the output device 3030 may display information processed by the image analysis device 3000.
  • the output device 3030 may display execution screen information of an application program driven by the image analysis device 3000, or a user interface or GUI (Graphic User Interface) information according to the execution screen information.
  • GUI Graphic User Interface
  • the output device 3030 includes a liquid crystal display (LCD), a thin film transistor-liquid crystal display (TFT LCD), an organic light-emitting diode (OLED), and a flexible display (flexible) display), a three-dimensional display (3D display), an electronic ink display (e-ink display).
  • LCD liquid crystal display
  • TFT LCD thin film transistor-liquid crystal display
  • OLED organic light-emitting diode
  • flexible display flexible display
  • 3D display three-dimensional display
  • e-ink display electronic ink display
  • the output device 3030 disclosed by FIG. 30 is illustrated as being configured as a separate device from the image analysis device 3000, but the scope of rights of the present disclosure is not limited thereto.
  • the output unit having the same function as the output device may be configured as a part of the image analysis device 3000.
  • Exemplary methods of the present disclosure are expressed as a series of operations for clarity of description, but are not intended to limit the order in which the steps are performed, and if necessary, each step may be performed simultaneously or in a different order.
  • the steps illustrated may include other steps in addition, other steps may be included in addition to the other steps, or additional other steps may be included in addition to some of the steps.
  • various embodiments of the present disclosure may be implemented by hardware, firmware, software, or a combination thereof.
  • ASICs Application Specific Integrated Circuits
  • DSPs Digital Signal Processors
  • DSPDs Digital Signal Processing Devices
  • PLDs Programmable Logic Devices
  • FPGAs Field Programmable Gate Arrays
  • ASICs Application Specific Integrated Circuits
  • DSPs Digital Signal Processors
  • DSPDs Digital Signal Processing Devices
  • PLDs Programmable Logic Devices
  • FPGAs Field Programmable Gate Arrays
  • Universal It can be implemented by a processor (general processor), a controller, a microcontroller, a microprocessor.
  • the scope of the present disclosure includes software or machine-executable instructions (eg, operating systems, applications, firmware, programs, etc.) that cause actions according to the methods of various embodiments to be executed on a device or computer, and such software or Instructions include a non-transitory computer-readable medium that is stored and executable on a device or computer.
  • software or Instructions include a non-transitory computer-readable medium that is stored and executable on a device or computer.
  • the present invention can be utilized in the field of analyzing images or images.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

An image analysis method according to one embodiment of the present invention comprises the steps of: receiving an image to be analyzed; using a pre-learned deep learning-based model so as to detect a container area for a liquid material from the image to be analyzed; detecting a liquid area from the container area; extracting a feature vector for the liquid area; and analyzing the liquid material by comparing the feature vector with a feature vector included in a database.

Description

영상 분석 장치 및 방법Image analysis device and method
본 개시는 영상 분석 장치 및 방법에 관한 것이다. 보다 구체적으로, 본 개시는 미리 학습된 딥러닝 기반의 모델을 이용하여 입력 영상에 검색하고자 하는 액체류 물질이 포함되어 있는지를 검출하고, 액체류 물질 검출을 위한 딥러닝 기반의 모델의 학습에 필요한 학습 데이터를 효율적으로 생성하는 장치 및 방법에 관한 것이다.The present disclosure relates to an image analysis apparatus and method. More specifically, the present disclosure detects whether an input image contains a liquid-like substance to be searched using a previously learned deep-learning-based model, and is required for training a deep-learning-based model for detecting liquid-like substances. It relates to an apparatus and method for efficiently generating training data.
항만, 공항 또는 연구 시설 등의 보안 시설에서는 보안을 강화하고 기술 유출 등을 방지하고자, 통행자의 소지품을 검색해야 하는 필요성이 야기된다. 이때, 다수의 통행자에 대한 소지품을 보다 빠르고 효율적으로 검색하기 위한 기술로서, 방사선(X-ray) 등을 이용한 물품 검색 시스템이 활용되곤 한다.In security facilities such as ports, airports, or research facilities, there is a need to search for belongings of passers-by to enhance security and prevent technology leakage. At this time, as a technique for more quickly and efficiently searching for belongings for a large number of passengers, an article search system using radiation (X-ray) or the like is often used.
이러한 물품 검색 시스템은 특히 관세 전자 통관 시스템 혹은 보안 검사 시스템 등에 널리 활용된다. 예컨데, 관세 전자 통관 시스템은 수출입 화물에 대한 통관 업무를 전산화한 것으로서, 이를 통해 다자간에 이루어지는 관세행정 업무의 효율성을 제고할 수 있다.Such a product retrieval system is particularly widely used in customs electronic customs clearance systems or security inspection systems. For example, the customs electronic customs clearance system is a computerized customs clearance service for imports and exports, and through this, it is possible to improve the efficiency of customs administration tasks between multiple parties.
또한, 보안 검사 시스템은 통행자의 소지품에 안전 또는 보안 상 문제가 발생 할 수 있는 물품이 있는지 여부를 판단하는 보안 검사 업무를 전산화한 것으로, 이를 통해 보안 구역의 보안 강화를 제고 할 수 있다.In addition, the security inspection system is a computerized security inspection task to determine whether there is a product that may cause a safety or security problem in the passenger's belongings, thereby enhancing the security of the security area.
한편, 딥러닝(deep learning)은 매우 방대한 양의 데이터를 학습하여, 새로운 데이터가 입력될 경우 학습 결과를 바탕으로 확률적으로 가장 높은 답을 선택하는 것으로서, 영상에 따라 적응적으로 동작할 수 있으며, 데이터에 기초하여 모델을 학습하는 과정에서 특성인자를 자동으로 찾아내기 때문에 최근 인공 지능 분야에서 이를 활용하려는 시도가 늘어나고 있는 추세이다.On the other hand, deep learning (deep learning) is learning a very large amount of data, and when new data is input, it selects the highest answer probability based on the learning result. In the process of learning a model based on data, the characteristic factors are automatically found, and thus, attempts to utilize them in the artificial intelligence field are increasing.
기존의 물품 검색 시스템은 이러한 딥러닝 등의 기술을 활용한 보다 효율적이고 정확한 데이터 분석에 관한 연구가 부족한 실정이다. 또한, 관세, 통관 등의 물품 검색 시스템에서는 고정된 형태를 가지지 않는 액체류 물질에 대한 검색 필요성이 꾸준히 야기되었다. 이에 따라, 딥러닝을 접목 시킨 액체류 물품 검색 시스템에 대한 연구가 요구된다.Existing product retrieval systems lack research on more efficient and accurate data analysis using technologies such as deep learning. In addition, in the goods search system such as customs duties and customs clearance, the necessity of searching for liquid materials that do not have a fixed form has been steadily caused. Accordingly, research on a liquid article search system incorporating deep learning is required.
본 개시의 기술적 과제는, 딥러닝 기법이 적용된 물품 검색 시스템을 제공하는 것이다.The technical problem of the present disclosure is to provide an article search system to which a deep learning technique is applied.
본 개시의 또 다른 기술적 과제는, 미리 학습된 딥러닝 기반의 모델을 이용하여 물품 검색 시스템에서 획득된 영상을 분석하는 장치 및 방법을 제공하는 것이다.Another technical problem of the present disclosure is to provide an apparatus and method for analyzing an image acquired in an article search system using a pre-trained deep learning based model.
본 개시의 또 다른 기술적 과제는, 미리 학습된 딥러닝 기반의 모델을 이용하여 액체류 물질을 검색하는 장치 및 방법을 제공하는 것이다.Another technical problem of the present disclosure is to provide an apparatus and method for retrieving liquid substances using a pre-trained deep learning based model.
본 개시의 또 다른 기술적 과제는, 액체류 물질을 검색하기 위해 사용되는 데이터 베이스를 생성하는 장치 및 방법을 제공하는 것이다.Another technical problem of the present disclosure is to provide an apparatus and method for generating a database used to search for liquid substances.
본 개시에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The technical problems to be achieved in the present disclosure are not limited to the technical problems mentioned above, and other technical problems that are not mentioned will be clearly understood by those skilled in the art from the description below. Will be able to.
본 개시의 일 양상에 따르면, 분석 대상 영상을 수신하는 단계, 미리 학습된 딥러닝 기반의 모델을 이용하여 상기 분석 대상 영상에서 액체류 물질의 용기 영역을 검출하는 단계, 상기 용기 영역에서 액체 영역을 검출하는 단계, 상기 액체 영역에 대한 특징 벡터를 추출하는 단계 및 상기 특징 벡터와 데이터 베이스에 포함된 특징 벡터를 비교하여 상기 액체류 물질을 분석하는 단계를 포함하는 영상 분석 방법이 제공 될 수 있다.According to an aspect of the present disclosure, receiving an analysis target image, detecting a container region of a liquid substance in the analysis target image using a pre-trained deep learning based model, and detecting the liquid region in the container region. An image analysis method may be provided that includes detecting, extracting a feature vector for the liquid region, and comparing the feature vector with a feature vector included in the database to analyze the liquid substance.
상기 영상 분석 방법은 상기 데이터 베이스에 특징 벡터를 추가하는 단계를 더 포함하되, 상기 특징 벡터를 추가하는 단계는, 추가 대상 액체류 물질이 포함된 판독 영상을 수신하는 단계, 상기 추가 대상 액체류 물질을 담고 있는 용기의 정보와 상기 추가 대상 액체류 물질의 정보를 수신하는 단계, 상기 추가 대상 액체류 물질의 영상의 특징 벡터를 추출하는 단계 및 상기 추가 대상 액체류 물질의 영상의 특징 벡터를 상기 액체류 데이터 베이스에 추가하는 단계를 포함 할 수 있다.The image analysis method further includes adding a feature vector to the database, wherein adding the feature vector comprises: receiving a read image containing an additional target liquid substance, the additional target liquid substance Receiving information of the container containing the and the information of the liquid substance to be added, extracting a feature vector of the image of the liquid substance to be added, and the feature vector of the image of the liquid substance to be added to the liquid This may include adding to the database.
본 개시의 다른 양상에 따르면, 분석 대상 영상을 수신하는 수신부 및 상기 분석 대상 영상을 분석하여 액체류 물질을 검출하는 영상 분석부를 포함하되, 상기 영상 분석부는, 미리 학습된 딥러닝 기반의 모델을 이용하여 상기 분석 대상 영상에서 상기 액체류 물질의 용기 영역을 검출하는 액체 용기 검출부, 상기 용기 영역에서 액체 영역을 검출하는 액체 영역 검출부, 상기 액체 영역에 대한 특징 벡터를 추출하는 특징 추출부 및 상기 특징 벡터와 데이터 베이스에 포함된 특징 벡터를 비교하여 상기 액체류 물질을 분석하는 특징 비교부를 포함하는 영상 분석 장치가 제공 될 수 있다According to another aspect of the present disclosure, a receiver for receiving an analysis target image and an image analysis unit for analyzing the analysis target image to detect a liquid substance, wherein the image analysis unit uses a pre-trained deep learning based model. A liquid container detection unit for detecting a container region of the liquid substance in the analysis target image, a liquid region detection unit for detecting a liquid region in the container region, a feature extraction unit for extracting a feature vector for the liquid region, and the feature vector And a feature comparison unit that analyzes the liquid-like substance by comparing the feature vectors included in the database.
상기 수신부는, 추가 대상 액체류 물질을 포함하는 판독 영상, 상기 추가 대상 액체류 물질을 담고 있는 용기의 정보 및 상기 추가 대상 액체류 물질의 정보 중 적어도 하나를 수신하고, 상기 특징 추출부는, 상기 추가 대상 액체류 물질의 영상의 특징 벡터를 추출하고, 상기 영상 분석부는, 상기 추가 대상 물질의 영상의 특징 벡터를 상기 액체류 데이터 베이스에 추가하는 데이터 베이스 추가부를 더 포함 할 수 있다.The receiving unit receives at least one of a readout image containing the liquid substance to be added, information on a container containing the liquid substance to be added, and information on the liquid substance to be added, and the feature extraction section is to add the The feature vector of the image of the target liquid substance may be extracted, and the image analysis unit may further include a database adding unit to add the feature vector of the image of the target substance to the liquid flow database.
본 개시의 또 다른 양상에 따르면, 분석 대상 영상을 수신하는 단계, 미리 학습된 딥러닝 기반의 모델을 이용하여 상기 분석 대상 영상에서 액체류 물질의 용기 영역을 검출하는 단계, 상기 용기 영역에서 액체 영역을 검출하는 단계, 상기 액체 영역에 대한 특징 벡터를 추출하는 단계 및 상기 특징 벡터와 데이터 베이스에 포함된 특징 벡터를 비교하여 상기 액체류 물질을 분석하는 단계를 수행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체가 제공 될 수 있다.According to another aspect of the present disclosure, receiving an analysis target image, detecting a container region of a liquid substance in the analysis target image using a pre-trained deep learning-based model, the liquid region in the container region A computer-readable recording medium recording a program for performing a step of detecting, extracting a feature vector for the liquid region, and comparing the feature vector with a feature vector included in a database to analyze the liquid material. Can be provided.
본 개시에 대하여 위에서 간략하게 요약된 특징들은 후술하는 본 개시의 상세한 설명의 예시적인 양상일 뿐이며, 본 개시의 범위를 제한하는 것은 아니다.The features briefly summarized above with respect to the present disclosure are merely illustrative aspects of the detailed description of the present disclosure described below, and do not limit the scope of the present disclosure.
본 개시에 따르면, 딥러닝 기법이 적용된 물품 검색 시스템이 제공될 수 있다.According to the present disclosure, an article search system to which a deep learning technique is applied may be provided.
또한, 본 개시에 따르면, 미리 학습된 딥러닝 기반의 모델을 이용하여 물품 검색 시스템에서 획득된 영상을 분석하는 장치 및 방법이 제공될 수 있다.In addition, according to the present disclosure, an apparatus and method for analyzing an image acquired in an article search system using a pre-trained deep learning-based model may be provided.
또한, 본 개시에 따르면, 미리 학습된 딥러닝 기반의 모델을 이용하여 액체류 물질을 검색하는 장치 및 방법이 제공 될 수 있다.In addition, according to the present disclosure, an apparatus and method for retrieving liquid substances using a deep learning-based model previously learned may be provided.
또한, 본 개시에 따르면, 액체류 물질을 검색하기 위해 사용되는 데이터 베이스를 생성하는 장치 및 방법이 제공 될 수 있다.Further, according to the present disclosure, an apparatus and method for generating a database used to search for liquid-like substances may be provided.
본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The effects obtainable in the present disclosure are not limited to the above-mentioned effects, and other effects not mentioned may be clearly understood by those skilled in the art from the following description. will be.
도 2는 본 개시의 일 실시예에 따른 영상 분석 장치의 구성을 나타내는 블록도이다.2 is a block diagram showing the configuration of an image analysis apparatus according to an embodiment of the present disclosure.
도 3은 영상의 판독 과정을 설명하기 위한 도면이다.3 is a view for explaining an image reading process.
도 4는 본 개시의 일 실시예에 따른 영상 판독 과정에서의 인공지능의 적용 범위를 설명하기 위한 도면이다.4 is a diagram for explaining an application range of artificial intelligence in an image reading process according to an embodiment of the present disclosure.
도 5는 본 개시에 따른 영상 강화를 수행하는 영상 강화 장치의 일 실시예를 도시한 도면이다.5 is a diagram illustrating an embodiment of an image enhancement device that performs image enhancement according to the present disclosure.
도 6은 본 개시의 일 실시예에 따라, 단일 객체를 포함하는 영상으로부터 객체와 배경을 구분하고, 객체의 위치 정보를 생성하는 과정을 설명하기 위한 도면이다.6 is a diagram for explaining a process of classifying an object and a background from an image including a single object and generating location information of the object, according to an embodiment of the present disclosure.
도 7은 본 개시의 일 실시예에 따른 객체의 물성에 기초하여 색상이 표현된 영상을 나타내는 도면이다.7 is a diagram illustrating an image in which colors are expressed based on physical properties of an object according to an embodiment of the present disclosure.
도 8은 본 개시의 일 실시예에 따른 영상의 색상 분포 정보에 기초하여 출력 영상을 생성하는 과정을 설명하기 위한 도면이다.8 is a view for explaining a process of generating an output image based on color distribution information of an image according to an embodiment of the present disclosure.
도 9는 본 개시의 일 실시예에 따른 색상 분포 정보를 이용하여 획득된 영상과 에지 기반 필터링 또는 평활화 필터링을 적용하여 획득된 영상을 결합한 최종 출력 영상을 획득하는 과정을 설명하기 위한 도면이다.FIG. 9 is a diagram for explaining a process of obtaining a final output image that combines an image obtained by using color distribution information and an image obtained by applying edge-based filtering or smoothing filtering according to an embodiment of the present disclosure.
도 10은 본 개시의 일 실시예에 따른 그래피컬 모델을 이용하여 최종 출력 영상을 획득하는 과정을 설명하기 위한 도면이다.10 is a view for explaining a process of obtaining a final output image using a graphical model according to an embodiment of the present disclosure.
도 11은 본 개시의 일 실시예에 따른 영상 강화 방법을 설명하기 위한 도면이다.11 is a view for explaining an image enhancement method according to an embodiment of the present disclosure.
도 12는 본 개시의 일 실시예에 따른 맥락 분석을 설명하기 위한 도면이다.12 is a diagram for explaining context analysis according to an embodiment of the present disclosure.
도 13은 본 개시의 일 실시예에 따른 영상의 맥락 정보를 생성하고 분석하는 과정을 나타내는 도면이다.13 is a diagram illustrating a process of generating and analyzing context information of an image according to an embodiment of the present disclosure.
도 14는 본 개시의 일 실시예에 따른 영상 분석 장치가 영상을 분석하여 객체를 식별하는 과정을 설명하기 위한 도면이다.14 is a diagram for explaining a process in which an image analysis apparatus according to an embodiment of the present disclosure analyzes an image to identify an object.
도 15는 본 개시의 일 실시예에 따른 영상 분석 장치의 동작을 설명하기 위한 도면이다.15 is a view for explaining the operation of the image analysis apparatus according to an embodiment of the present disclosure.
도 16은 다채널 특징맵을 생성하는 합성곱 신경망의 일 실시예를 설명하기 위한 도면이다.16 is a diagram for explaining an embodiment of a multi-product neural network generating a multi-channel feature map.
도 17은 풀링 기법의 일 실시예를 설명하기 위한 도면이다.17 is a view for explaining an embodiment of a pooling technique.
도 18은 본 개시의 일 실시예에 따른 영상 합성 장치의 구성을 나타내는 블록도이다.18 is a block diagram showing the configuration of an image synthesizing apparatus according to an embodiment of the present disclosure.
도 19는 본 개시의 일 실시예에 따른 단일 객체를 포함하는 두 개의 영상을 이용하여 다중 객체 영상을 생성하는 과정을 나타내는 도면이다.19 is a diagram illustrating a process of generating a multi-object image using two images including a single object according to an embodiment of the present disclosure.
도 20은 본 개시의 일 실시예에 따른 다중 객체 영상을 이용하여 합성곱 신경망을 학습시키는 과정을 나타내는 도면이다.20 is a diagram illustrating a process of training a convolutional neural network using a multi-object image according to an embodiment of the present disclosure.
도 21은 본 개시의 일 실시예에 따른 영상 합성 장치를 이용하여 실제 영상을 분석하는 과정을 설명하기 위한 도면이다.21 is a view for explaining a process of analyzing an actual image using an image synthesizing apparatus according to an embodiment of the present disclosure.
도 22는 본 개시의 일 실시예에 따른 영상 합성 방법을 설명하기 위한 도면이다.22 is a diagram for explaining a method for synthesizing an image according to an embodiment of the present disclosure.
도 23은 본 개시의 일 실시예에 따른 액체류 물질 검출 방법을 설명하기 위한 흐름도이다.23 is a flowchart illustrating a method for detecting a liquid substance according to an embodiment of the present disclosure.
도 24는 본 개시의 일 실시예에 따른 액체류 데이터 베이스 구축 방법을 설명하기 위한 흐름도이다.24 is a flowchart illustrating a method of building a liquid flow database according to an embodiment of the present disclosure.
도 25는 본 개시의 일 실시예에 따른 영상 정렬 및 보간 방법을 설명하기 위한 도면이다.25 is a diagram for describing an image alignment and interpolation method according to an embodiment of the present disclosure.
도 26은 본 개시의 일 실시예에 따른 데이터 베이스 구축 결과를 설명하기 위한 도면이다.26 is a view for explaining a database construction result according to an embodiment of the present disclosure.
도 27은 본 개시의 몇몇 실시예에 따라, 액체류 데이터 베이스를 이용한 액체류 물질 검출 방법을 설명하기 위한 흐름도이다.27 is a flowchart illustrating a method for detecting a liquid substance using a liquid flow database, according to some embodiments of the present disclosure.
도 28은 본 개시의 일 실시예에 따른 액체류 용기 검출 방법을 설명하기 위한 도면이다.28 is a view for explaining a method for detecting a liquid container according to an embodiment of the present disclosure.
도 29은 본 개시의 일 실시예에 따른 영상 후처리 방법을 설명하기 위한 도면이다.29 is a diagram for describing an image post-processing method according to an embodiment of the present disclosure.
도 30은 본 개시의 일 실시예에 따른 따른 영상 분석 장치의 구성을 나타내는 다른 블록도이다.30 is another block diagram showing the configuration of an image analysis apparatus according to an embodiment of the present disclosure.
이하에서는 첨부한 도면을 참고로 하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. Hereinafter, exemplary embodiments of the present disclosure will be described in detail with reference to the accompanying drawings so that those skilled in the art to which the present disclosure pertains can easily carry out the embodiments. However, the present disclosure can be implemented in many different forms and is not limited to the embodiments described herein.
본 개시의 실시예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 개시에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.In describing the embodiments of the present disclosure, when it is determined that a detailed description of known configurations or functions may obscure the subject matter of the present disclosure, detailed description thereof will be omitted. In the drawings, parts irrelevant to the description of the present disclosure are omitted, and similar reference numerals are used for similar parts.
본 개시에 있어서, 어떤 구성요소가 다른 구성요소와 "연결", "결합" 또는 "접속"되어 있다고 할 때, 이는 직접적인 연결관계뿐만 아니라, 그 중간에 또 다른 구성요소가 존재하는 간접적인 연결관계도 포함할 수 있다. 또한 어떤 구성요소가 다른 구성요소를 "포함한다" 또는 "가진다"고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 배제하는 것이 아니라 또 다른 구성요소를 더 포함할 수 있는 것을 의미한다.In the present disclosure, when a component is said to be "connected", "coupled" or "connected" with another component, this is not only a direct connection relationship, but also an indirect connection relationship in which another component exists in the middle. It may also include. Also, when a component is said to "include" or "have" another component, this means that other components may be further included, not specifically excluded, unless otherwise stated. .
본 개시에 있어서, 제1, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 특별히 언급되지 않는 한 구성요소들간의 순서 또는 중요도 등을 한정하지 않는다. 따라서, 본 개시의 범위 내에서 일 실시예에서의 제1 구성요소는 다른 실시예에서 제2 구성요소라고 칭할 수도 있고, 마찬가지로 일 실시예에서의 제2 구성요소를 다른 실시예에서 제1 구성요소라고 칭할 수도 있다. In the present disclosure, terms such as first and second are used only for the purpose of distinguishing one component from other components, and do not limit the order or importance of components, etc., unless otherwise specified. Accordingly, within the scope of the present disclosure, the first component in one embodiment may be referred to as a second component in another embodiment, and likewise the second component in one embodiment may be the first component in another embodiment It can also be called.
본 개시에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시예도 본 개시의 범위에 포함된다. In the present disclosure, the components that are distinguished from each other are for clarifying each feature, and the components are not necessarily separated. That is, a plurality of components may be integrated to be composed of one hardware or software unit, or one component may be distributed to be composed of a plurality of hardware or software units. Accordingly, such integrated or distributed embodiments are included within the scope of the present disclosure, unless otherwise stated.
본 개시에 있어서, 다양한 실시예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들은 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시예도 본 개시의 범위에 포함된다. 또한, 다양한 실시예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시예도 본 개시의 범위에 포함된다. In the present disclosure, components described in various embodiments are not necessarily essential components, and some may be optional components. Accordingly, an embodiment composed of a subset of components described in one embodiment is also included in the scope of the present disclosure. Also, embodiments including other elements in addition to the elements described in various embodiments are included in the scope of the present disclosure.
이하, 첨부한 도면을 참조하여 본 개시의 실시예들에 대해서 설명한다.Hereinafter, embodiments of the present disclosure will be described with reference to the accompanying drawings.
도 1은 본 개시의 일 실시예에 따른 물품 검색 시스템을 설명하기 위한 도면이다.1 is a view for explaining an article search system according to an embodiment of the present disclosure.
물품 검색 시스템(100)은 판독부(110) 및/또는 학습부(120)를 포함할 수 있다. 판독부(110)는 영상 분석 장치(112) 및/또는 출력 장치(114)를 포함할 수 있다. 학습부(120)는 데이터 베이스(122), 딥러닝 학습부(124), 알고리즘 검증부(126) 및/또는 학습된 모델 저장부(128)를 포함할 수 있다. 판독부(110)는 판독 인터페이스로서 기능할 수 있으며, 학습부(120)는 중앙 관리되는 인공지능 데이터 센터로서 기능할 수 있다.The article retrieval system 100 may include a reading unit 110 and/or a learning unit 120. The reading unit 110 may include an image analysis device 112 and/or an output device 114. The learning unit 120 may include a database 122, a deep learning learning unit 124, an algorithm verification unit 126, and/or a trained model storage unit 128. The reading unit 110 may function as a reading interface, and the learning unit 120 may function as a centrally managed artificial intelligence data center.
이하에서는, 본 개시에 따른 물품 검색 시스템이 전자 통관 시스템 혹은 보안 검색 시스템에 활용되는 경우를 예를 들어 설명한다. 하지만 본 개시에 따른 물품 검색 시스템이 이러한 활용에만 한정되는 것은 아니다. 이외에도, 본 개시에 따른 물품 검색 시스템은 다양한 목적에 따라 특정 물품을 식별하는 역할을 수행하는 시스템에서 활용 될 수 있다.Hereinafter, a case where the article search system according to the present disclosure is utilized in an electronic customs clearance system or a security search system will be described as an example. However, the article search system according to the present disclosure is not limited to such applications. In addition, the article search system according to the present disclosure may be utilized in a system that serves to identify a specific article according to various purposes.
물품 검색 시스템(100)의 입력(130)은 영상, 물품 정보 및/또는 제어 정보를 포함할 수 있다. The input 130 of the article search system 100 may include images, article information and/or control information.
상기 영상은 적어도 하나의 객체를 포함하는 물품에 관한 영상일 수 있다. 예컨대, X-Ray 판독 기기가 촬영한 물품에 관한 X-Ray 영상일 수 있다. 상기 영상은 X-Ray 영상 기기가 촬영한 로(raw) 이미지이거나 상기 로 이미지를 저장 또는 전송하기 위한 임의의 형태(포맷)의 이미지일 수 있다. 상기 영상은 X-Ray 판독 기기가 촬영하여 모니터와 같은 출력 장치로 전송하는 영상 정보를 캡쳐하여 데이터화함으로써 획득될 수도 있다. 영상은 출력 장치(114)에 출력되기 전, 또는 영상 분석 장치(112)에 입력되기 전에 강화될 수 있다. 영상을 강화하는 방법에 대해서는 후술한다. 출력 장치(114)는 영상 또는 강화된 영상을 출력할 수 있다. 영상 분석 장치(112)는 영상 또는 강화된 영상을 입력 받아 후술하는 영상 분석 장치(112)의 동작을 수행할 수 있다. The image may be an image of an article including at least one object. For example, it may be an X-Ray image of an article photographed by an X-Ray reading device. The image may be a raw image photographed by an X-Ray imaging device or an image in an arbitrary format (format) for storing or transmitting the raw image. The image may be obtained by capturing and dataizing image information captured by an X-Ray reading device and transmitted to an output device such as a monitor. The image may be enhanced before being output to the output device 114 or before being input to the image analysis device 112. The method of enhancing the image will be described later. The output device 114 may output an image or an enhanced image. The image analysis device 112 may receive an image or an enhanced image and perform an operation of the image analysis device 112 described later.
상기 물품 정보는 대응하는 영상에 포함된 물품에 관한 정보일 수 있다. 예를 들어, 영상 분석 장치로 입력되는 물품이 전자 통관 시스템에서의 화물인 경우, 물품 정보는 수입 신고된 정보 및/또는 통관 목록 리스트 정보를 포함할 수 있다. 다른 예로, 영상 분석 장치로 입력되는 물품이 보안 검사 시스템에서의 물품인 경우, 물품 정보는 통행자의 식별 정보, 통행자의 보안 레벨 및/또는 통행자의 인가 품목 정보를 포함 할 수 있다.The article information may be information about the article included in the corresponding image. For example, when the product input to the video analysis device is a cargo in the electronic customs clearance system, the product information may include import declaration information and/or customs inventory list information. As another example, when the product input to the image analysis device is a product in a security inspection system, the product information may include passer identification information, passer security level and/or passer authorized item information.
물품 정보는 영상 분석 장치(112)에 입력되기 전에 소정의 전처리 과정을 거칠 수 있다. 예컨대, 물품 정보에 포함된 물품 목록, 반입 정보 등에 대해 품명의 정제 작업이 수행될 수 있다. 품명의 정제 작업이란 동일 또는 유사한 물품에 대해 입력되는 다양한 물품의 명칭을 통일하는 작업을 의미할 수 있다. The product information may be subjected to a predetermined pre-processing process before being input to the image analysis device 112. For example, a refining operation of a product name may be performed on a product list, import information, and the like included in the product information. Purification work of the product name may refer to a work of unifying the names of various items input for the same or similar items.
물품 정보의 입력은 선택적일 수 있다. 예컨대, 본 개시의 물품 검색 시스템(100)은 물품 정보의 입력이 없어도 영상만을 입력으로 받아 동작할 수 있다. 상기 물품은 검사 또는 판독 대상의 물품으로서 모든 종류의 물품을 포함할 수 있다. 예컨대, 본 개시에 따른 영상 분석 장치가 전자 통관 시스템에 사용되는 경우, 상기 물품은 특송 화물, 우편 화물, 컨테이너 화물, 여행자 수송 화물 및 여행자 자신 중 적어도 하나일 수 있다. 다른 예로, 본 개시에 따른 영상 분석 장치가 보안 검색 시스템에 사용되는 경우, 상기 물품은 통행자 소지품 및 통행자 자신 중 적어도 하나 일 수 있다.Input of article information may be optional. For example, the article retrieval system 100 of the present disclosure can operate by receiving only an image as an input even if there is no entry of article information. The article may include all kinds of articles as objects to be inspected or read. For example, when the image analysis apparatus according to the present disclosure is used in an electronic customs clearance system, the article may be at least one of express cargo, postal cargo, container cargo, traveler transport cargo, and traveler himself. As another example, when the image analysis apparatus according to the present disclosure is used in a security search system, the article may be at least one of a passenger's belongings and the passenger's own.
예를 들어, 전자 통관 시스템이 여행자를 판독한 결과, 판독된 여행자가 이상이 있거나 위험한 객체를 과거에 운송한 이력이 있는 요주의 여행자인 경우, 해당 여행자의 화물에 대해서는 다른 여행자의 화물보다 높은 수준의 분석 및/또는 판독을 수행하도록 할 수 있다. 예컨대, 특정 물품이 요주의 여행자의 화물이라는 정보를 판독원에게 제공할 수 있다.For example, if the electronic customs clearance system reads a traveler, and the traveler is a major traveler with a history of transporting anomalous or dangerous objects in the past, the traveler's cargo has a higher level than that of other travelers. Analysis and/or reading may be performed. For example, the reader may be provided with information that a particular item is the cargo of a traveler of interest.
다른 예로, 통행자를 판독한 결과, 통행자가 보안 레벨이 높은 통행자인 경우, 해당 통행자의 소지품에 대해서는 다른 통행자보다 높은 수준의 분석 및/또는 판독을 수행하도록 할 수 있다. 예컨대, 특정 물품이 보안 레벨이 높은 통행자의 소지품이라는 정보를 판독원에게 제공 할 수 있다.As another example, as a result of reading a passer-by, when the passer-by is a passer with a high security level, it is possible to perform a higher level of analysis and/or reading on the belongings of the passer-by than other passers-by. For example, it is possible to provide the reader with information that a specific item is belonging to a passer with a high security level.
상기 제어 정보는 영상 판독을 제어하거나, 판독된 영상을 제어하는 정보 일 수 있다. 일예로, 제어 정보는 판독원(140)에 의해 입력될 수 있다. 예를 들어 제어 정보는 판독원 정보, 관리자 정보, 동작 모드 정보, 판독 민감도 정보 및/또는 유저 인터페이스 정보를 포함 할 수 있다. 제어 정보의 구체적인 활용에 대해서는 후술 하도록 한다.The control information may be information for controlling image reading or controlling the read image. In one example, control information may be input by the reading source 140. For example, control information may include source information, manager information, operation mode information, read sensitivity information, and/or user interface information. The detailed use of control information will be described later.
물품 검색 시스템(100)은 영상, 물품 정보 및/또는 제어 정보(130)를 입력 받아 출력 장치(114)에 전송하거나, 영상 분석 장치(112)에 전송할 수 있다. 영상 분석 장치(112)는 미리 학습된 딥러닝 기반의 모델을 이용하여 입력된 영상을 분석할 수 있다. 영상 분석 장치(112)는 분석된 결과를 출력 장치(114)로 전송할 수 있다. 출력 장치(114)는 입력된 영상, 물품 정보 및/또는 제어 정보(130), 영상 분석 장치(112)로부터 전송 받은 영상 분석 결과 및/또는 유저 인터페이스를 출력하고, 판독원(140)은 출력 장치(114)의 출력 결과를 판독할 수 있다. 전술한 바와 같이, 물품 정보(130)에 대해 정제 작업이 수행될 수 있으며, 또한, 영상 분석 장치(112)에 입력되기 전 및/또는 출력 장치(114)에 출력되기 전에 분석 대상 영상에 대해 영상 강화가 수행될 수 있다.The article search system 100 may receive an image, article information, and/or control information 130 and transmit it to the output device 114 or transmit it to the image analysis device 112. The image analysis device 112 may analyze the input image using a pre-trained deep learning-based model. The image analysis device 112 may transmit the analyzed result to the output device 114. The output device 114 outputs the input image, product information and/or control information 130, the video analysis result and/or user interface received from the video analysis device 112, and the reader 140 is an output device The output result of 114 can be read. As described above, a refining operation may be performed on the article information 130, and also, before being input to the image analysis device 112 and/or before being output to the output device 114, the image for the analysis target image Consolidation can be performed.
출력 장치(114)는 모니터, 경고등 등의 시각 정보를 출력하는 장치, 스피커 등의 음향 정보를 출력하는 장치, 바이브레이터 등의 촉각 정보를 출력하는 장치 등 인간이 감지할 수 있는 모든 형태의 신호를 출력할 수 있는 장치를 포함한다. 출력 장치(114)를 통해 유저 인터페이스가 제공 될 수 있으며, 판독원은 상기 유저 인터페이스를 이용하여 물품 검색 시스템(100)의 동작을 제어 할 수 있다. 예를 들어, 판독원(140)은 출력되는 유저 인터페이스를 이용하여 제어 정보를 입력함으로써, 영상 분석 장치의 동작을 제어 할 수 있다.The output device 114 outputs all types of signals that can be detected by humans, such as a device that outputs visual information such as a monitor or a warning light, a device that outputs sound information such as a speaker, or a device that outputs tactile information such as a vibrator Includes a device that can. A user interface may be provided through the output device 114, and a reader may control the operation of the article retrieval system 100 using the user interface. For example, the reading source 140 may control the operation of the image analysis device by inputting control information using an output user interface.
상기 영상 분석 장치(112)의 영상 분석 결과, 해당 영상에 검출 대상인 객체, 이상이 있는 객체 또는 위험도가 임계치 이상인 객체가 포함된 경우, 이와 관련된 정보가 영상 분석 결과로서 출력 장치(114)를 통해 출력되고, 판독원(140)은 이를 확인할 수 있다. 상기 영상 분석 장치(112)는 분석 대상 영상을 분석하는 다양한 과정을 수행할 수 있다. 예컨대, 영상 분석 장치(112)는 분석 대상 영상을 보다 정확히 분석하기 위해, 맥락 분석을 수행할 수 있다. 상기 영상 분석 장치(112)가 수행하는 다양한 과정 및 맥락 분석에 대해서는 후술한다. When an image analysis result of the image analysis device 112 includes an object to be detected, an object with an abnormality, or an object whose risk level is greater than or equal to a threshold, the related information is output through the output device 114 as an image analysis result. And the reader 140 can confirm this. The image analysis device 112 may perform various processes of analyzing an image to be analyzed. For example, the image analysis device 112 may perform context analysis to more accurately analyze an analysis target image. Various processes and context analysis performed by the image analysis device 112 will be described later.
판독원(140)은 출력 장치(114)를 통해 출력된 영상 분석 결과에 기초하여 추가적인 검사의 수행 여부를 결정할 수 있다. 상기 추가적인 검사는 해당 영상에 관한 물품을 직접 열어 해당 물품에 포함된 객체를 확인하는 개장 검사를 포함할 수 있다. 본 명세서에서 검색 대상 객체는 전술한 바와 같이 이상이 있는 객체 또는 위험도가 임계치 이상인 객체를 의미할 수 있다. 그러나 이에 한정되지 않으며, 본 개시의 시스템에 의해 검출 또는 검색하고자 하는 다양한 객체를 포함할 수 있다.The reader 140 may determine whether to perform an additional test based on an image analysis result output through the output device 114. The additional inspection may include an opening inspection to directly open an article related to the corresponding image and check an object included in the corresponding article. In the present specification, the object to be searched may refer to an object with an abnormality or an object with a risk greater than or equal to a threshold as described above. However, the present invention is not limited thereto, and may include various objects to be detected or searched by the system of the present disclosure.
영상 분석 장치의 영상 분석 결과, 판독원이 직접 개장 검사를 수행한 후 입력하는 개장 검사 결과 및/또는 영상 분석 장치가 영상과 물품 정보를 매칭한 매칭 결과 정보 등은 학습부(120)에 전송될 수 있다. 학습부(120)는 새롭게 수신한 정보를 데이터 베이스(122)에 저장하고, 딥러닝 학습부(124)는 데이터 베이스(122)에 저장된 정보를 이용하여 딥러닝 학습을 수행할 수 있다. 또는 데이터 베이스(122)에 저장됨이 없이, 딥러닝 학습부(124)가 상기 학습 데이터의 전부 또는 일부를 직접 수신할 수도 있다. 딥러닝 학습부(124)에서 학습된 결과는 알고리즘 검증부(126)에서 검증되고, 검증된 모델은 학습된 모델 저장부(128)에 업데이트된 모델로서 저장될 수 있다. 학습된 모델 저장부(128)에 저장된 모델은 다시 영상 분석 장치(112)로 전송되고, 영상 분석 장치(112)는 수신한 모델을 전술한 미리 학습된 딥러닝 기반의 모델로서 업데이트하여 이용할 수 있다. 학습부(120)는 복수의 영상을 수신하여 합성함으로써 하나의 합성 영상을 생성할 수 있다. 또한 상기 복수의 영상의 각각에 대한 영상 분석 결과, 개장 검사 결과 및/또는 매칭 결과 정보 등을 이용하여 상기 합성 영상에 대응하는 가상의 영상 분석 결과, 개장 검사 결과 및/또는 매칭 결과 정보를 생성할 수 있다. 학습부(120)는 상기 합성 영상 및 상기 생성된 가상의 정보 등을 학습 데이터로서 이용할 수 있다. 이에 따르면 학습 데이터의 수가 절대적으로 적다고 하더라도, 이들 학습 데이터를 합성하거나 병합함으로써, 인공 지능 모델의 학습에 필요한 충분한 양의 학습 데이터를 생성해 낼 수 있다. 영상의 합성 및 합성 영상에 대한 가상의 정보의 생성에 대해서는 후술한다.The image analysis result of the image analysis device, the remodeling inspection result input by the reader after performing the remodeling inspection directly, and/or matching result information obtained by matching the image and product information by the image analysis device may be transmitted to the learning unit 120. Can be. The learning unit 120 may store newly received information in the database 122, and the deep learning learning unit 124 may perform deep learning learning using the information stored in the database 122. Alternatively, without being stored in the database 122, the deep learning learning unit 124 may directly receive all or part of the learning data. The results learned by the deep learning learning unit 124 are verified by the algorithm verification unit 126, and the verified models may be stored as updated models in the trained model storage unit 128. The model stored in the trained model storage unit 128 is transmitted to the image analysis device 112 again, and the image analysis device 112 may update and use the received model as the above-described pre-trained deep learning-based model. . The learning unit 120 may generate a composite image by receiving and synthesizing a plurality of images. In addition, virtual image analysis results, remodeling inspection results and/or matching result information corresponding to the composite image may be generated using image analysis results, remodeling inspection results, and/or matching result information for each of the plurality of images. Can be. The learning unit 120 may use the composite image and the generated virtual information as learning data. According to this, even if the number of training data is absolutely small, it is possible to generate sufficient amount of training data necessary for training the artificial intelligence model by synthesizing or merging these training data. Synthesis of the image and generation of virtual information on the composite image will be described later.
판독부(110)와 학습부(120)는 별개의 장치로 구현될 수도 있고, 동일한 장치 내에서 구현될 수도 있다. 또한 판독부(110)와 학습부(120)가 포함하는 구성의 일부 또는 전부는 하드웨어로 구성되거나 소프트웨어로 구성될 수 있다.The reading unit 110 and the learning unit 120 may be implemented as separate devices or may be implemented within the same device. In addition, some or all of the components included in the reading unit 110 and the learning unit 120 may be configured by hardware or software.
인공지능 기술은 컴퓨터에게 데이터를 학습시켜 마치 사람처럼 스스로 의사결정을 할 수 있게 하는데, 인공 신경망(artificial neural network)은 생물학의 신경망에서 영감을 얻은 수학적 모델로서, 시냅스의 결합으로 네트워크를 형성한 인공 뉴런이 학습을 통해 시냅스의 결합 세기를 변화시킴으로써 문제 해결 능력을 가지는 모델 전반을 의미할 수 있다. 인공 신경망은 일반적으로 입력층(input layer), 은닉층(hidden layer) 및 출력층(output layer)로 구성되어 있으며 각 층에 포함된 뉴런들이 가중치를 통해 연결되어 있으며, 가중치와 뉴런값의 선형 결합과 비선형 활성화 함수를 통해 인공 신경망은 복잡한 함수를 근사화할 수 있는 형태를 가질 수 있다. 인공 신경망 학습의 목적은 출력층에서 계산된 출력과 실제 출력의 값 차이를 최소화 시키는 가중치를 찾는데 있다.Artificial intelligence technology allows computers to learn data and make decisions on their own as if they were humans. Artificial neural networks are mathematical models inspired by biological neural networks. By changing the intensity of synaptic binding through learning, neurons can mean an overall model with problem-solving skills. Artificial neural networks are generally composed of an input layer, a hidden layer, and an output layer. Neurons included in each layer are connected through weights, linear combination of weights and neuron values, and nonlinearity. Through the activation function, the artificial neural network may have a form capable of approximating a complex function. The purpose of artificial neural network learning is to find a weight that minimizes the difference in value between the output calculated from the output layer and the actual output.
심층 신경망(deep neural network)은 입력층과 출력층 사이에 여러 개의 은닉층들로 이루어진 인공 신경망으로서, 많은 은닉층을 통해 복잡한 비선형 관계들을 모델링할 수 있으며, 이처럼 층의 개수를 늘림으로써 고도화된 추상화가 가능한 신경망 구조를 딥러닝(deep learning)이라고 부른다. 딥러닝은 매우 방대한 양의 데이터를 학습하여, 새로운 데이터가 입력될 경우 학습 결과를 바탕으로 확률적으로 가장 높은 답을 선택하기 때문에 영상에 따라 적응적으로 동작할 수 있으며, 데이터에 기초하여 모델을 학습하는 과정에서 특성인자를 자동으로 찾아낼 수 있다.Deep neural network (deep neural network) is an artificial neural network consisting of several hidden layers between the input layer and the output layer, and can model complex nonlinear relationships through many hidden layers. The structure is called deep learning. Deep learning learns a very large amount of data, and when new data is input, it can operate adaptively according to the image because it selects the highest answer probability based on the learning result. In the process of learning, characteristic factors can be automatically found.
본 개시의 일 실시예에 따르면, 딥러닝 기반의 모델은 완전 합성곱 신경망(완전 컨볼루션 뉴럴 네트워크, fully convolutional neural network), 합성곱 신경망(컨볼루션 뉴럴 네트워크, convolutional neural network), 순환 신경망(회귀 뉴럴 네트워크, recurrent neural network), 제한 볼츠만 머신(restricted Boltzmann machine, RBM) 및 심층 신뢰 신경망(deep belief neural network, DBN) 중 적어도 하나를 포함할 수 있으나, 이에 제한되지 않는다. 또는, 딥러닝 이외의 머신 러닝 방법도 포함할 수 있다. 또는 딥러닝과 머신 러닝을 결합한 하이브리드 형태의 모델도 포함할 수 있다. 예컨대, 딥러닝 기반의 모델을 적용하여 영상의 특징을 추출하고, 상기 추출된 특징에 기초하여 영상을 분류하거나 인식할 때는 머신 러닝 기반의 모델을 적용할 수도 있다. 머신 러닝 기반의 모델은 서포트 벡터 머신(Support Vector Machine, SVM), 에이다부스트(AdaBoost) 등을 포함할 수 있으나, 이에 한정되지 않는다.According to an embodiment of the present disclosure, a deep learning-based model includes a fully convolutional neural network, a fully convolutional neural network, and a cyclic neural network (regression). It may include at least one of a neural network, a recurrent neural network, a restricted Boltzmann machine (RBM), and a deep belief neural network (DBN), but is not limited thereto. Alternatively, a machine learning method other than deep learning may also be included. Alternatively, a hybrid model combining deep learning and machine learning may be included. For example, a feature of an image based on deep learning may be extracted, and a machine learning based model may be applied when classifying or recognizing an image based on the extracted feature. Models based on machine learning may include, but are not limited to, Support Vector Machines (SVM), AdaBoost, and the like.
또한, 본 개시의 일 실시예에 따르면, 딥러닝 기반의 모델을 학습하는 방법은 지도 학습(supervised learning), 비지도 학습(unsupervised learning) 또는 강화 학습(reinforcement learning) 중 적어도 하나를 포함할 수 있으나, 이에 제한되지 않는다. 지도 학습은 일련의 학습 데이터와 그에 상응하는 레이블(label, 목표 출력값)을 이용하여 학습이 이루어지며, 지도 학습에 기초한 신경망 모델은 훈련용 데이터(training data)로부터 함수를 추론해내는 형태의 모델일 수 있다. 지도 학습은 일련의 학습 데이터와 그에 상응하는 목표 출력 값을 수신하고, 입력되는 데이터에 대한 실제 출력 값과 목표 출력 값을 비교하는 학습을 통해 오류를 찾아내고, 해당 결과를 근거로 모델을 수정하게 된다. 지도 학습은 결과물의 형태에 따라 다시 회귀(regression), 분류(classification), 검출(detection), 시멘틱 세그멘테이션(semantic segmentation) 등으로 구분될 수 있다. 지도 학습을 통해 도출된 함수는 다시 새로운 결과값을 예측하는데 사용될 수 있다. 이처럼, 지도 학습에 기초한 신경망 모델은 수많은 학습 데이터의 학습을 통해, 신경망 모델의 파라미터를 최적화하게 된다.Further, according to an embodiment of the present disclosure, a method for learning a model based on deep learning may include at least one of supervised learning, unsupervised learning, or reinforcement learning. , But is not limited to this. Supervised learning is performed using a series of learning data and a corresponding label (target output value), and the neural network model based on supervised learning is a model in which a function is inferred from training data. Can be. Supervised learning receives a series of training data and its corresponding target output value, finds errors through learning to compare the actual output value with the target output value for input data, and corrects the model based on the result. do. Supervised learning can be divided into regression, classification, detection, and semantic segmentation. The function derived through supervised learning can be used to predict new results. As described above, the neural network model based on supervised learning optimizes the parameters of the neural network model through learning a lot of training data.
본 개시의 일 실시예에 따르면, 딥러닝 기반의 모델은 입력 영상과 물품에 대한 정보를 학습에 이용할 수 있으며, 학습된 모델을 생성한 후에도 본 개시의 장치에서 획득된 영상과 물품에 대한 정보를 이용하여 신경망 모델을 업데이트할 수 있다. 또한, 본 개시의 일 실시예에 따른 딥러닝 기반의 모델은 본 개시의 방법에 의해 출력되는 분석 결과, 예를 들어 식별된 객체에 대한 이상 유무 또는 위험도, 객체에 관한 정보, 식별된 객체가 검색 대상 객체인지의 여부 등의 예측 결과, 상기 예측 결과와 최종 개장 검사 결과에 대한 비교 정보, 상기 예측 결과에 대한 평가도 또는 신뢰도 정보 등을 이용하여 신경망 모델을 업데이트할 수 있다.According to an embodiment of the present disclosure, a model based on deep learning may use information about an input image and an article for learning, and after generating a trained model, information about an image and an article acquired by the apparatus of the present disclosure Can be used to update the neural network model. In addition, in the deep learning based model according to an embodiment of the present disclosure, an analysis result output by the method of the present disclosure, for example, anomalies or risks for the identified object, information about the object, and the identified object are searched The neural network model may be updated using prediction results, such as whether the object is an object, comparison information on the prediction result and the final remodeling test result, and evaluation or reliability information on the prediction result.
도 2는 본 개시의 일 실시예에 따른 영상 분석 장치(200)의 구성을 나타내는 블록도이다. 도 2의 영상 분석 장치(200)는 도 1의 영상 분석 장치(112)의 일 실시예다.2 is a block diagram showing the configuration of an image analysis apparatus 200 according to an embodiment of the present disclosure. The image analysis device 200 of FIG. 2 is an embodiment of the image analysis device 112 of FIG. 1.
영상 분석 장치(200)는 영상 수신부(210), 물품 정보 매칭부(220) 및/또는 영상 분석부(230)를 포함할 수 있다. 전술한 바와 같이, 물품 정보의 입력은 선택적이므로, 영상 분석 장치(200)는 물품 정보 매칭부(220)를 포함하지 않을 수 있다. 물품 정보의 입력에 관한 설명은 도 1을 참조하여 설명된 바와 같다.The image analysis device 200 may include an image receiving unit 210, an article information matching unit 220, and/or an image analyzing unit 230. As described above, since the input of the article information is optional, the image analysis apparatus 200 may not include the article information matching unit 220. Description of the input of the article information is as described with reference to FIG. 1.
영상 수신부(210)는 하나 이상의 객체를 포함하는 물품에 관한 영상을 수신할 수 있다. 영상 수신부(210)가 수신하는 영상에 관한 설명은 도 1을 참조하여 설명된 바와 같다.The image receiving unit 210 may receive an image of an article including one or more objects. The description of the image received by the image receiving unit 210 is as described with reference to FIG. 1.
물품 정보 매칭부(220)는 물품 정보 및 영상 수신부(210)에서 수신한 영상을 입력으로 수신하여 물품 정보와 영상의 매칭을 수행할 수 있다. 상기 물품 정보에 대한 설명은 도 1을 참조하여 설명된 바와 같다. 매칭된 영상과 물품 정보는 판독원에게 출력되어 판독원의 판독 업무를 보조할 수 있다. 또는 매칭된 영상과 물품 정보는 도 1의 학습부(120)에 전송되어, 딥러닝 모델의 학습에 이용될 수도 있다. 매칭된 영상과 물품 정보는 도 1의 학습부(120)의 데이터 베이스(122)에 저장되고, 이후, 판독 대상별 및/또는 판독 업무별로 정제되고, 딥러닝 학습부(124)는 판독 대상별 및/또는 적용될 판독 업무별로 정제된 데이터를 이용하여 학습을 수행할 수 있다. 상기 판독 대상은 특송 화물, 우편 화물, 컨테이너 화물, 여행자 수송 화물 및 여행자를 포함할 수 있다. 또한 상기 판독 대상은 통행자 소지품 및 통행자를 포함 할 수 있다. 상기 판독 업무는 물체에 포함된 객체의 이상 유무 또는 위험 여부 판단, 식별된 객체가 검색 대상 객체인지의 여부 판단, 식별된 객체와 물체에 대한 정보의 매칭 여부에 대한 판단, 물체가 신고된 것인지 또는 신고되지 않은 것인지에 대한 판단을 포함할 수 있다. 전술한 바와 같이 학습부(124)에서 학습된 모델은 영상 분석부(230)에 입력되어 기존의 모델을 업데이트할 수 있다. 이 때, 판독 대상에 따라 적합한 인공 지능이 업데이트될 수 있다. 또한, 전술한 바와 같이, 학습부(124)는 기존의 학습 데이터를 활용하여 새로운 학습 데이터를 생성하고 이를 학습에 이용할 수도 있다. 새로운 학습 데이터는 기존의 영상의 합성 및 데이터의 병합에 의해 생성될 수 있음은 전술한 바와 같다.The article information matching unit 220 may receive the image received from the article information and the image receiving unit 210 as an input and perform matching of the article information and the image. The description of the article information is as described with reference to FIG. 1. Matched images and article information may be output to a reader to assist the reader in reading. Alternatively, the matched image and article information may be transmitted to the learning unit 120 of FIG. 1 to be used for learning the deep learning model. The matched image and article information are stored in the database 122 of the learning unit 120 of FIG. 1, and then refined for each reading object and/or reading task, and the deep learning learning unit 124 is for each reading object and/or Alternatively, learning can be performed using the refined data for each read task to be applied. The objects to be read may include express cargo, postal cargo, container cargo, traveler transport cargo, and traveler. Also, the object to be read may include a passenger's belongings and a passenger. The reading task includes determining whether an object included in the object is abnormal or dangerous, determining whether the identified object is an object to be searched, determining whether information on the identified object matches the object, whether the object is reported, or It may include a judgment as to whether or not it has been reported. As described above, the model trained in the learning unit 124 may be input to the image analysis unit 230 to update the existing model. At this time, suitable artificial intelligence may be updated according to the object to be read. In addition, as described above, the learning unit 124 may generate new learning data using the existing learning data and use it for learning. As described above, new learning data can be generated by combining existing images and merging data.
영상 분석부(230)는 영상(분석 대상 영상) 또는 영상과 물품 정보를 수신하고, 미리 학습된 딥러닝 기반의 모델을 이용하여 상기 영상을 분석한 후, 분석된 결과를 출력 장치로 출력할 수 있다.The image analysis unit 230 may receive an image (image to be analyzed) or image and article information, analyze the image using a pre-trained deep learning-based model, and output the analyzed result to the output device have.
영상만이 수신되는 경우, 영상 분석부(230)는 영상에 포함된 객체를 식별하고, 식별된 객체에 대한 이상 유무 또는 위험도를 판단할 수 있다. 영상 분석부(230)는 후술하는 맥락 분석 과정을 수행하여 객체 식별의 정확도를 향상시킬 수 있다. When only an image is received, the image analysis unit 230 may identify an object included in the image, and determine whether there is an abnormality or risk for the identified object. The image analysis unit 230 may improve the accuracy of object identification by performing a context analysis process described below.
예컨대, 식별된 객체가 금지되거나 부적합하다고 판단되는 경우, 영상 분석부(230)는 해당 객체는 이상이 있거나 위험하다고 판단될 수 있다. 상기 위험도는 수치로 표현될 수 있고, 소정의 임계치와의 비교를 통해 위험한 객체인지 여부가 판단될 수 있다. 상기 위험도에 관한 수치 및/또는 상기 소정의 임계치는 판독 대상 및/또는 판독 업무에 따라 적응적으로 결정될 수 있다.For example, when it is determined that the identified object is prohibited or inappropriate, the image analysis unit 230 may determine that the object is abnormal or dangerous. The risk may be expressed as a numerical value, and it may be determined whether the object is a dangerous object through comparison with a predetermined threshold. The numerical value related to the risk and/or the predetermined threshold may be adaptively determined according to a read target and/or a read task.
영상과 물품 정보가 함께 수신되는 경우, 영상 분석부(230)는 영상과 물품 정보를 이용하여 영상에 포함된 객체에 대한 분석을 보다 정밀하게 수행할 수 있다. 예컨대, 물품 목록 리스트에 기재된 물품의 종류, 수량 및/또는 크기 정보, 통행자의 보안 레벨 및/또는 통행자의 인가 품목 정보 등을 영상으로부터 객체를 식별하는데 추가적으로 이용할 수 있다. 영상을 분석하여 식별한 객체와 물품 정보 사이에 불일치가 있는 경우, 이를 영상 분석 결과로서 출력할 수 있다.When the image and the article information are received together, the image analysis unit 230 may more accurately perform analysis on the object included in the image using the image and article information. For example, the type, quantity and/or size information of the items listed in the item list list, the security level of the passer, and/or the authorized item information of the passer may be additionally used to identify the object from the image. When there is a discrepancy between the object and the item information identified by analyzing the image, it may be output as a result of the image analysis.
영상 분석부(230)가 출력하는 영상 분석 결과는 객체의 위험도, 종류, 양, 수, 크기 및 위치 중 적어도 하나를 포함할 수 있다. 영상 분석 결과가 객체의 위치인 경우, 분석 대상 영상에 해당 객체의 위치를 표시하여 출력 장치로 출력할 수 있다. 해당 객체의 위치는 좌표로 표시될 수도 있으나, 판독원이 용이하게 판독할 수 있도록 출력 영상 내의 해당 위치에 객체를 강조하여 표시할 수 있다. 예컨대, 객체의 에지를 강조하거나 객체를 둘러싸는 사각 박스를 표시하여 객체를 강조할 수도 있다. 또한, 후술하는 영상 강화 과정을 통해 판독원이 보다 용이하게 객체를 식별할 수 있도록 소정의 객체 영역을 강화할 수 있다. 예컨대, 소정의 색상에 해당하는 영역을 강화하여, 영역이 보다 명확히 식별될 수 있도록 영상을 변환할 수 있다.The image analysis result output by the image analysis unit 230 may include at least one of an object's risk, type, amount, number, size, and location. When the image analysis result is the location of the object, the location of the object may be displayed on the image to be analyzed and output to the output device. The position of the object may be displayed in coordinates, but the object may be highlighted and displayed at the corresponding position in the output image so that the reader can easily read it. For example, the object may be emphasized by highlighting the edge of the object or by displaying a square box surrounding the object. In addition, a predetermined object area may be enhanced so that a reader can more easily identify the object through an image enhancement process described later. For example, an image corresponding to a predetermined color may be enhanced to convert an image so that the region can be more clearly identified.
또는, 영상 분석부(230)는 분석 대상 영상에 검색 대상 객체(예컨대, 통관이 금지되거나 부적합한 객체)가 포함되는지 여부를 판단할 수 있다. 이를 위해, 영상 분석부(230)는 검색 대상 객체에 관한 정보를 수신하거나 미리 저장할 수 있다. 또한, 영상 분석부(230)는 영상에 포함된 객체를 식별하고, 식별된 객체가 검색 대상 객체인지 여부를 판단할 수 있다.Alternatively, the image analysis unit 230 may determine whether an object to be searched (eg, an object for which customs clearance is prohibited or inappropriate) is included in the analysis target image. To this end, the image analysis unit 230 may receive or store information about an object to be searched in advance. In addition, the image analysis unit 230 may identify an object included in the image and determine whether the identified object is a search target object.
도 3은 영상의 판독 과정을 설명하기 위한 도면이다.3 is a view for explaining an image reading process.
도 3의 (a)는 종래의 판독 과정에 관한 흐름도이고, 도 3의 (b)는 본 개시의 일 실시예에 따른 판독 과정에 관한 흐름도이다.FIG. 3A is a flowchart of a conventional reading process, and FIG. 3B is a flowchart of a reading process according to an embodiment of the present disclosure.
도 3의 (a)에 도시된 바와 같이, 기존의 판독 과정에 따르면, 영상 및/또는 물품 정보가 입력(311)되면, 판독자에게 정보로서 제공(312)된다. 판독자는 영상 및/또는 물품 정보에 기초하여, 개장 검사가 필요한 물품을 선별(313)한다. 개장 검사를 수행한 결과는 검사 결과로서 입력(314)된다.As shown in (a) of FIG. 3, according to an existing reading process, when image and/or article information is input 311, it is provided 312 to the reader as information. The reader selects (313) an article requiring remodeling inspection based on the image and/or article information. The result of performing the remodeling inspection is input 314 as the inspection result.
도 3의 (b)에 도시된 바와 같이, 본 개시의 일 실시예에 따른 판독 과정에 따르면, 영상 및/또는 물품 정보가 입력(321)되면, 영상 분석 장치(322)는 미리 학습된 딥러닝 기반의 모델을 이용하여 영상을 분석하고, 분석된 결과를 판독자에게 정보로서 제공(324)한다. 또한 영상 분석 장치(322)는 학습 데이터를 인공지능 데이터 센터(323)로 전송하고, 인공지능 데이터 센터(323)는 학습 데이터를 학습할 수 있다. 인공지능 데이터 센터(323)는 추후 판독 대상별 판독 업무 보조 인공지능으로서 학습된 모델을 영상 분석 장치(322)에 전송할 수 있다. As shown in (b) of FIG. 3, according to a reading process according to an embodiment of the present disclosure, when image and/or article information is input 321, the image analysis apparatus 322 may learn deep learning in advance. The image is analyzed using the base model, and the analyzed result is provided as information to the reader (324). Also, the image analysis device 322 may transmit the training data to the AI data center 323, and the AI data center 323 may learn the training data. The artificial intelligence data center 323 may transmit the trained model to the image analysis device 322 as a read assistant assistive AI for each reading object.
판독자는 상기 영상 분석 장치(322)의 분석 결과, 영상 및/또는 물품 정보에 기초하여, 개장 검사가 필요한 물품을 선별(325)할 수 있다. 개장 검사를 수행한 결과는 검사 결과로서 입력(326)될 수 있다. 상기 검사 결과는 인공지능 데이터 센터(323)로 전송되어 학습 데이터로 이용될 수도 있다.The reader may select 325 an item requiring remodeling inspection based on an analysis result of the image analysis device 322, an image, and/or item information. The result of performing the remodeling test may be input 326 as a test result. The test result may be transmitted to the AI data center 323 and used as learning data.
도 4는 본 개시의 일 실시예에 따른 영상 판독 과정에서의 인공지능의 적용 범위를 설명하기 위한 도면이다.4 is a diagram for explaining an application range of artificial intelligence in an image reading process according to an embodiment of the present disclosure.
도 4에 도시된 바와 같이, 모든 물품(410) 중 랜덤하게 추출된 샘플(420)을 관리 대상으로 선별(450)할 수 있다. 또는 관리 대상을 선별하기 위한 선별 보조 인공지능(430)을 이용하여, 모든 물품(410)에 대한 위험 분석(440)을 수행할 수 있고, 이를 통해 관리 대상을 선별(450)할 수 있다. As illustrated in FIG. 4, a sample 420 randomly extracted from all the items 410 may be selected 450 as a management object. Alternatively, the risk analysis 440 for all the products 410 may be performed using the screening assistant artificial intelligence 430 for selecting the management object, and the management object may be selected 450 through this.
인공지능의 활용은 전술한 물품의 위험 분석(440)에만 국한되지 않는다. 예컨대, 관리 대상이 선별(450)되면, 이후, 검사를 보조하기 위한 검사 보조 인공지능(460)으로서 활용될 수 있다. 예컨대, 검사 보조 인공지능(460)을 적용함으로써, 객체의 식별, 식별된 객체의 이상 유무 또는 위험도 판단 및/또는 검색 대상 객체에 관한 정보를 판독원에게 제공함으로써 판독원의 검사를 보조할 수 있다. 판독원은 검사 보조 인공지능이 제공한 정보를 활용하여 정밀 검사(470)를 수행할 수 있다.The use of artificial intelligence is not limited to the risk analysis 440 of the aforementioned articles. For example, when the management target is selected 450, it may be used as an inspection aid artificial intelligence 460 to assist the examination. For example, by applying the inspection aid artificial intelligence 460, the inspection of the inspection source can be assisted by identifying the object, determining whether an identified object is abnormal or dangerous, and/or providing information about the object to be searched to the inspection source. . The reader may perform a precise inspection 470 using information provided by the inspection assistant artificial intelligence.
이하, 도 5 내지 도 11을 참조하여, 도 1의 영상 분석 장치(112)에 입력되기 전 및/또는 출력 장치(114)에 출력되기 전에 영상을 강화하는 방법의 일 실시예를 설명한다.Hereinafter, with reference to FIGS. 5 to 11, an embodiment of a method of enhancing an image before being input to the image analysis device 112 of FIG. 1 and/or before being output to the output device 114 will be described.
도 5는 본 개시에 따른 영상 강화를 수행하는 영상 강화 장치의 일 실시예를 도시한 도면이다.5 is a diagram illustrating an embodiment of an image enhancement device that performs image enhancement according to the present disclosure.
도 5의 영상 강화 장치는 도 1의 영상 분석 장치(112)과는 별개로 구성되거나 또는 그 일부로서 구성될 수 있다.The image enhancement device of FIG. 5 may be configured separately from the image analysis device 112 of FIG. 1 or may be configured as a part thereof.
영상 강화 장치(500)는 영상 수신부(510), 객체 영상 추출부(520), 색상 분포 분석부(530) 및/또는 영상 강화부(540)를 포함할 수 있다. 다만, 이는 본 실시예를 설명하기 위해 필요한 일부 구성요소만을 도시한 것일 뿐, 영상 강화 장치(500)에 포함된 구성요소가 전술한 예에 한정되는 것은 아니다. 예컨대, 둘 이상의 구성부가 하나의 구성부 내에서 구현될 수도 있고, 하나의 구성부에서 실행되는 동작이 분할되어 둘 이상의 구성부에서 실행되도록 구현될 수도 있다. 또한, 일부 구성부가 생략되거나 부가적인 구성부가 추가될 수도 있다.The image enhancement device 500 may include an image reception unit 510, an object image extraction unit 520, a color distribution analysis unit 530, and/or an image enhancement unit 540. However, this only shows some components necessary to describe the present embodiment, and the components included in the image enhancement apparatus 500 are not limited to the above-described examples. For example, two or more components may be implemented in one component, or an operation executed in one component may be divided and implemented to be executed in two or more components. In addition, some components may be omitted or additional components may be added.
본 개시의 일 실시예에 따른 영상 강화 장치(500)는 입력 영상(550)을 수신하고, 입력 영상(550)에 포함되어 있는 객체를 추출하고, 객체를 포함하는 객체 영상을 하나 이상의 영역들로 분할하고, 하나 이상의 영역들 각각에 대해 색상 분포 정보를 획득하고, 색상 분포 정보에 기초하여, 하나 이상의 영역들 중 적어도 일부에 대해 하나 이상의 가중치를 결정하고, 결정된 하나 이상의 가중치를 하나 이상의 영역들 중 적어도 일부에 적용하여 객체 영상에 대한 제1 출력 영상(560)을 생성할 수 있다.The image enhancement apparatus 500 according to an embodiment of the present disclosure receives the input image 550, extracts an object included in the input image 550, and extracts an object image including the object into one or more regions. Divide, obtain color distribution information for each of the one or more areas, and determine one or more weights for at least some of the one or more areas based on the color distribution information, and determine the determined one or more weights among the one or more areas The first output image 560 for the object image may be generated by applying to at least a part.
영상을 구성하는 각 픽셀은 휘도(밝기)를 나타내는 휘도 값과 색상을 나타내는 색상 값의 조합에 의해 소정의 밝기와 색상을 가질 수 있다. 이때, 색상 값은 색상을 표현하는 다양한 방식에 따라, 3개 또는 그 이상의 색요소의 값의 조합에 의해 나타내어질 수 있다. 예컨대, 색상 값은 3개의 색요소(Red(R), Green(G), Blue(B))의 조합인 RGB 값으로 표현될 수 있다. 예컨대, R, G, B의 각각은 0 내지 255 중 하나의 값을 가짐으로써, 해당 색요소 각각의 강도를 표현할 수 있다. R, G, B의 각각이 가질 수 있는 값의 범위는 R, G, B의 각각을 표현하는 비트 수에 기초하여 결정될 수 있다. 예컨대, 8 비트로 표현되는 경우, R, G, B의 각각은 0 내지 255 중 하나의 값을 가질 수 있다.Each pixel constituting the image may have a predetermined brightness and color by a combination of a luminance value representing luminance (brightness) and a color value representing color. At this time, the color value may be represented by a combination of values of three or more color elements according to various ways of expressing color. For example, the color value may be expressed as an RGB value that is a combination of three color elements (Red(R), Green(G), Blue(B)). For example, each of R, G, and B has a value from 0 to 255, so that the intensity of each color element can be expressed. The range of values that each of R, G, and B can have may be determined based on the number of bits representing each of R, G, and B. For example, when represented by 8 bits, each of R, G, and B may have a value from 0 to 255.
색상 분포 정보를 획득한다는 것은 해당 영역에 포함된 픽셀들의 색상 값의 색요소를 분석함으로써, 그로부터 획득될 수 있는 다양한 통계값을 획득한다는 것을 의미할 수 있다. 예컨대, 상기 통계값은 해당 영역에 포함된 픽셀들의 색상 값의 색요소 중 평균적으로 가장 큰 값을 갖는 색요소가 무엇인지에 관한 정보일 수 있다. 예컨대, 해당 영역에 포함된 모든 픽셀들의 R, G 및 B 각각의 값을 더한 값에 기초하여, R, G, B 중 총합 또는 평균이 가장 큰 색요소가 무엇인지 결정될 수 있다. 또는, 각 픽셀마다, R, G, B 중 가장 큰 값을 갖는 색요소를 해당 픽셀의 지배적 색상으로 결정하고, 해당 영역에 포함된 모든 픽셀들에 대해 어떤 색상이 지배적 색상으로 가장 많이 결정되었는지를 판단할 수 있다. 이와 같은 방법으로, 소정 영역의 지배적 색상이 무엇인지가 결정될 수 있다. 예컨대, 소정 영역에 포함된 대다수의 픽셀들의 색상 값들에 대해, 3 개의 색요소(R, G, B) 중 R이 가장 큰 값을 갖는다면, 해당 소정 영역의 지배적 색상은 적색(Red)인 것으로 판단할 수 있다. 상기 설명에서는, R, G, B의 각각을 기준으로 색상 분포 정보 또는 지배적인 색상을 분석하였다. 그러나, 이에 한정되지 않으며, R, G, B 중 둘 이상의 조합에 의해 표현되는 다양한 색상을 기준으로 분석할 수도 있다. 예컨대, 식별하고자하는 색상이 오렌지색이라면, 오렌지색을 표현하는 R, G, B의 일부 또는 전부의 조합을 기준으로하여 해당 영역 내의 픽셀의 지배적 색상이 오렌지색인지 여부를 판단할 수 있다. Acquiring color distribution information may mean acquiring various statistical values that can be obtained by analyzing color components of color values of pixels included in a corresponding region. For example, the statistical value may be information on a color element having an average largest value among color elements of color values of pixels included in a corresponding region. For example, based on the sum of the values of R, G, and B of all pixels included in the corresponding area, it may be determined which color element has the largest sum or average among R, G, and B. Alternatively, for each pixel, the color element having the largest value among R, G, and B is determined as the dominant color of the corresponding pixel, and which color is determined as the dominant color for all pixels included in the corresponding region I can judge. In this way, it can be determined what the dominant color of a given area is. For example, for the color values of the majority of pixels included in a predetermined region, if R among the three color elements R, G, and B has the largest value, the dominant color of the predetermined region is red. I can judge. In the above description, color distribution information or dominant color was analyzed based on each of R, G, and B. However, the present invention is not limited thereto, and may be analyzed based on various colors expressed by a combination of two or more of R, G, and B. For example, if the color to be identified is orange, it may be determined whether the dominant color of the pixel in the corresponding area is orange based on a combination of some or all of R, G, and B representing orange.
이하에서, 지배적 색상이 적색인 영역이 영상 강화의 대상인 경우를 가정하고, 가중치를 적용하여 영상을 강화하는 과정의 일 실시예를 구체적으로 설명한다. 색상 분포 정보에 기초하여 소정 영역의 지배적 색상이 적색인 것으로 판단되면, 해당 영역에 대해 하나 이상의 가중치가 결정될 수 있다. 가중치는 R, G, B 및 휘도의 전부 또는 일부에 대해 결정될 수 있다. 예컨대, 적색을 강화하는 경우, R에 대한 가중치는 1보다 큰 값일 수 있다. 가중치를 적용한다는 것은 해당 영역의 픽셀의 색요소 값에 해당 가중치를 곱한다는 의미일 수 있다. 이 경우, G 및/또는 B에 대한 가중치는 1보다 작은 값일 수 있다. 그럼으로써, 적색이 지배적인 영역은 보다 적색인 영역으로 강화할 수 있다. Hereinafter, it is assumed that a region in which the dominant color is red is an object of image enhancement, and an embodiment of a process of enhancing the image by applying a weight will be described in detail. When it is determined that the dominant color of a predetermined region is red based on the color distribution information, one or more weights may be determined for the corresponding region. Weights can be determined for all or part of R, G, B and luminance. For example, when enhancing red, the weight for R may be a value greater than one. Applying a weight may mean multiplying a color element value of a pixel in a corresponding area by a corresponding weight. In this case, the weight for G and/or B may be a value less than one. By doing so, the region where red is dominant can be strengthened to a region that is more red.
상기에서는 영상의 특정 색상을 강화하는 것에 대해서 설명하였다. 그러나, 본 개시의 영상의 강화는 이에 한정되지 않으며, 색상 값의 변화 또는 밝기 값의 변화를 모두 포함할 수 있다. 따라서, 필요에 따라서는 휘도 값에 대해서도 가중치를 적용하여 영상을 강화할 수 있다.In the above, it was described to enhance a specific color of the image. However, the enhancement of the image of the present disclosure is not limited to this, and may include both a change in color value or a change in brightness value. Therefore, if necessary, an image may be enhanced by applying a weight to a luminance value.
이하, 영상 강화 장치(500)의 각 구성부에 대해 설명한다.Hereinafter, each component of the image enhancement device 500 will be described.
영상 수신부(510)는 하나 이상의 객체를 포함하는 입력 영상(550)을 수신할 수 있다. 입력 영상(550)은 영상 분석 장치(112)에 입력되기 전의 영상 및/또는 출력 장치(114)에 출력되기 전의 영상일 수 있다.The image receiving unit 510 may receive an input image 550 including one or more objects. The input image 550 may be an image before being input to the image analysis device 112 and/or an image before being output to the output device 114.
객체 영상 추출부(520)는 영상 수신부(510)에서 수신된 입력 영상에 포함되어 있는 객체를 추출하고, 객체를 포함하는 객체 영상을 하나 이상의 영역들로 분할할 수 있다. 예컨대 객체 영상 추출부(520)는 분석 대상 영상의 픽셀값과 소정의 임계값을 비교하여 픽셀값을 이진화하고, 이진화된 픽셀값을 그룹핑함으로써 입력 영상에 포함된 객체를 추출할 수 있다. 여기서 객체를 추출한다는 것은 객체와 배경을 구분한다는 의미일 수 있고, 객체는 영상 내의 특정한 물체를 의미하며 또한 배경은 영상에서 객체를 제외한 부분을 의미할 수 있다. 영상의 배경은 영상의 촬영 방법 또는 촬영 장치에 따라 소정의 색상으로 표현될 수 있다. 예컨대, 상기 소정의 색상은 흰색일 수 있다. 영상의 배경을 표현하는 색상이 특정된 경우, 특정된 배경 색상에 기초하여 배경과 객체를 분리할 수도 있다. 예컨대, 특정된 배경 색상 영역을 입력 영상(550)에서 삭제함으로써 객체를 구분할 수도 있다.The object image extracting unit 520 may extract an object included in the input image received from the image receiving unit 510 and divide the object image including the object into one or more regions. For example, the object image extractor 520 compares the pixel value of the analysis target image with a predetermined threshold to binarize the pixel values and group the binarized pixel values to extract objects included in the input image. Here, extracting an object may mean distinguishing an object from a background, an object may mean a specific object in an image, and the background may mean a portion excluding an object from an image. The background of the image may be expressed in a predetermined color according to a method of photographing or a photographing device. For example, the predetermined color may be white. When a color representing the background of the image is specified, the background and the object may be separated based on the specified background color. For example, an object may be classified by deleting the specified background color area from the input image 550.
또한 예컨대 객체 영상은 객체 영역을 둘러싸는 사각형 박스(bounding box)를 특정함으로써 획득될 수 있으며, 객체 영상 추출부(520)는 특정된 사각형 박스에 기초하여, 구분된 객체의 위치 정보를 생성할 수 있다. 즉 사각형 박스는 객체 인식 박스를 의미 할 수 있다.Also, for example, an object image may be obtained by specifying a bounding box surrounding an object area, and the object image extracting unit 520 may generate location information of the separated object based on the specified rectangle box. have. That is, the rectangular box may mean an object recognition box.
본 개시의 일 실시예에 따를 때, 입력 영상이 X-Ray 판독 기기가 촬영한 물품에 관한 X-Ray 영상이라고 하면, 물품이 아닌 배경 부분은 불필요하기 때문에 해당 배경 부분은 잘라내고 물품이 존재하는 영역만으로 분석할 수 있다. 특히, 물품들이 컨베이어 벨트를 통해 계속적으로 X-Ray 판독 기기를 통과하는 실제 환경에서는 물품에 대한 영역을 획득하는 것이 중요하다고 할 수 있다. 객체와 배경을 구분하고 객체의 위치 정보를 생성하는 구체적인 과정은 도 6을 참고하여 자세히 설명한다.According to an embodiment of the present disclosure, if the input image is an X-Ray image of an article photographed by an X-Ray reading device, since the background portion other than the article is unnecessary, the background portion is cut out and the article exists It can be analyzed with only the domain. In particular, it can be said that it is important to obtain an area for an article in a real environment in which the article continuously passes through the X-Ray reading device through the conveyor belt. A detailed process of distinguishing the object from the background and generating the location information of the object will be described in detail with reference to FIG. 6.
도 6은 본 개시의 일 실시예에 따라, 단일 객체를 포함하는 영상으로부터 객체와 배경을 구분하고, 객체의 위치 정보를 생성하는 과정을 설명하기 위한 도면이다. 도 6의 객체 영상 추출부(600)는 도 5의 객체 영상 추출부(520)의 일 실시예일 수 있다. 입력 영상(610)은 도 5를 참조하여 설명한 입력 영상(550)일 수 있으며, 예컨대, 단일 객체로서 가방(612)을 포함하는 물품에 관한 영상일 수 있다. 6 is a diagram for explaining a process of classifying an object and a background from an image including a single object and generating location information of the object, according to an embodiment of the present disclosure. The object image extraction unit 600 of FIG. 6 may be an embodiment of the object image extraction unit 520 of FIG. 5. The input image 610 may be the input image 550 described with reference to FIG. 5, for example, an image related to an article including the bag 612 as a single object.
객체 영상 추출부(600)는 먼저 하나의 가방(612)을 포함하는 입력 영상(610)에 대해 크로핑(cropping) 연산을 수행함으로써 가방(612)을 기준으로 주변 영역을 대략적으로(roughly) 잘라버린, 크로핑된 영상(620)을 획득할 수 있다. 그런 다음 객체 영상 추출부(600)는 크로핑된 영상(620)의 픽셀값과 소정의 임계값을 비교(thresholding)하여 픽셀값을 이진화함으로써 이진화된 영상(630)을 획득할 수 있다. 그리고, 객체 영상 추출부(600)는 이진화된 영상(630)에서 객체에 대한 부분을 선택하기 위해 근접한 픽셀끼리 그룹핑(군집화, morphology, closing)함으로써, 그룹핑된 영상(640)을 획득할 수 있다. 그런 다음, 객체 영상 추출부(600)는 그룹핑된 영상(640)에 대해 라벨링(labeling) 및 홀 채우기(hole filling) 연산을 수행하여 가장 큰 형태로 형성된 픽셀 그룹을 객체에 대한 영역(652)으로 결정하고, 나머지를 배경에 대한 영역(654)으로 결정함으로써 객체가 추출된 영상(650)을 획득할 수 있다. 또한, 객체 영상 추출부(600)는 추출된 객체 영상에 대한 정보를 이용하여 입력 영상(610) 내에서의 객체의 위치를 결정할 수 있다. 예컨대, 객체 영상 추출부(600)는 객체 영역을 둘러싸는 사각형 박스를 특정하고, 특정된 사각형 박스에 기초하여, 객체의 위치 정보를 생성할 수 있다. 도 6을 참조하면, 객체 영상 추출부(600)는 가방(612)을 둘러싸는 사각형 박스(662)를 특정하고, 특정된 사각형 박스에 기초하여, 가방(612)의 위치 정보를 획득할 수 있다. 예컨대, 가방(612)의 위치 정보는 사각형 박스(662)를 형성하는 네 개의 꼭지점의 위치 정보일 수 있으나, 이에 제한되지 않는다. 예컨대, 위치 정보는 사각형 박스(662)의 하나의 꼭지점의 좌표 (x, y) 및 사각형 박스의 가로 길이(width), 세로 길이(height)에 의해 표현될 수도 있다. 상기 하나의 꼭지점의 좌표 (x, y)는 사각형 박스(662)의 좌측 상단 꼭지점의 좌표일 수 있다. 상기 꼭지점의 좌표 (x, y)는 입력 영상(610)의 좌측 상단 꼭지점의 좌표 (0, 0)을 기준으로 특정될 수 있다.The object image extraction unit 600 first roughly cuts the surrounding area based on the bag 612 by performing a cropping operation on the input image 610 including one bag 612. A discarded, cropped image 620 may be obtained. Then, the object image extractor 600 may obtain the binarized image 630 by binarizing the pixel value by comparing a pixel value of the cropped image 620 with a predetermined threshold. Then, the object image extractor 600 may obtain a grouped image 640 by grouping (clustering, morphology, closing) adjacent pixels to select a portion of the object in the binarized image 630. Then, the object image extractor 600 performs labeling and hole filling operations on the grouped image 640 to convert the group of pixels formed in the largest shape into an area 652 for the object. The image 650 from which the object is extracted may be obtained by determining and determining the rest as the region 654 for the background. Also, the object image extraction unit 600 may determine the location of the object in the input image 610 using information on the extracted object image. For example, the object image extraction unit 600 may specify a rectangular box surrounding the object area, and generate location information of the object based on the specified rectangular box. Referring to FIG. 6, the object image extraction unit 600 may specify a rectangular box 662 surrounding the bag 612 and obtain location information of the bag 612 based on the specified rectangular box. . For example, the location information of the bag 612 may be location information of four vertices forming the rectangular box 662, but is not limited thereto. For example, the location information may be represented by the coordinates (x, y) of one vertex of the rectangular box 662, and the width and height of the rectangular box. The coordinates (x, y) of the one vertex may be the coordinates of the upper left corner of the rectangular box 662. The coordinates (x, y) of the vertex may be specified based on the coordinates (0, 0) of the upper left corner of the input image 610.
다시 도 5를 참조하여, 객체 영상 추출부(520)는 객체 영상의 크기에 기초하여 객체 영상을 하나 이상의 영역들로 분할할 수 있다. 상기 하나 이상의 영역들의 각각은 정방형일 수 있다. 예컨대, 객체 영상 추출부(520)는 객체 영상의 크기에 기초하여 객체 영상을 분할하는 영역들의 개수나 크기를 결정할 수 있다. 예컨대, 객체 영상이 상대적으로 크거나 소정의 임계치 이상의 크기를 갖는 경우, 더 많은 분할 영역을 갖도록 분할될 수 있다. 또한, 객체 영상을 분할하는 영역들 각각의 크기는 서로 동일하지 않을 수 있다.Referring back to FIG. 5, the object image extractor 520 may divide the object image into one or more regions based on the size of the object image. Each of the one or more regions may be square. For example, the object image extraction unit 520 may determine the number or size of regions for dividing the object image based on the size of the object image. For example, when the object image is relatively large or has a size larger than a predetermined threshold, the object image may be divided to have more divided areas. Also, the sizes of the regions dividing the object image may not be the same.
또한 객체 영상 추출부(520)는 객체 영상이 정방형이 아닌 경우, 객체 영상을 업샘플링(up-sampling) 또는 다운샘플링(down-sampling)하여 객체 영상을 정방형으로 변환한 후, 객체 영상을 하나 이상의 영역들로 분할할 수 있다. 예컨대, 객체 영상은 객체 영상 추출부(520)에서 추출된 객체에 대해 해당 객체를 둘러싸는 사각형 박스를 기초로 획득되므로 객체 영상이 정방형이 아닐 수 있다. 이 경우에 객체 영상 추출부(520)는 해당 객체 영상에 대해 하나 이상의 영역들로 분할할 수도 있겠으나, 객체 영상의 가로나 세로 방향으로 업샘플링 또는 다운샘플링 함으로써 정방형의 객체 영상을 획득하고, 획득된 정방형의 객체 영상을 하나 이상의 영역들로 분할할 수도 있다.In addition, the object image extractor 520 converts the object image into a square by up-sampling or down-sampling the object image when the object image is not square, and then converting the object image into one or more squares. It can be divided into regions. For example, since the object image is obtained based on a rectangular box surrounding the object for the object extracted by the object image extraction unit 520, the object image may not be square. In this case, the object image extractor 520 may divide the object image into one or more regions, but acquires and obtains a square object image by upsampling or downsampling in the horizontal or vertical direction of the object image. The divided square object image may be divided into one or more regions.
예컨대, 도 8을 참조하면, 객체 영상(800)은 가로 9픽셀 및 세로 12픽셀로 구성되어 정방형이 아닐 수 있다. 이 경우, 본 개시에 따르면, 객체 영상(800)을 3x3 크기의 정방형 영역으로 분할할 수도 있으나(이 경우, (객체 영상의 가로 크기/분할 영역의 가로 크기) x (객체 영상의 세로 크기/분할 영역의 세로 크기) = (9/3) x (12/3) = 12, 총 12개의 영역들을 가진다), 객체 영상(800)의 가로를 업샘플링 하여 가로 12픽셀 및 세로 12픽셀로 구성되는 영상을 획득하고, 이를 3x3 크기의 영역으로 분할하여 총 16개의 영역으로 분할할 수도 있다. 객체 영상을 분할하는 하나 이상의 영역들의 형태는 정방형으로 한정되지 않는다. 예컨대, 상기 영역은 n과 m이 상이한 양의 정수인 n x m의 형태를 가질 수도 있다. 이러한 경우, 전술한 업샘플링 또는 다운 샘플링이 수행되지 않을 수도 있다.For example, referring to FIG. 8, the object image 800 may not be square because it is composed of 9 pixels horizontally and 12 pixels vertically. In this case, according to the present disclosure, the object image 800 may be divided into a 3x3 sized square area (in this case, (horizontal size of object image/horizontal size of divided area)) x (vertical size/division of object image) Vertical size of the area) = (9/3) x (12/3) = 12, which has 12 areas in total), upsampling the horizontal of the object image 800, and consisting of 12 horizontal pixels and 12 vertical pixels It is also possible to obtain and divide it into 3x3 sized areas to divide them into a total of 16 areas. The shape of one or more regions dividing the object image is not limited to a square. For example, the region may have a form of n x m where n and m are different positive integers. In this case, the aforementioned upsampling or downsampling may not be performed.
다시 도 5를 참조하여, 색상 분포 분석부(530)는 객체 영상 추출부(520)에서 분할된 영역들 각각에 대해 색상 분포 정보를 획득하고, 색상 분포 정보에 기초하여 영역들 중 적어도 일부에 대해 하나 이상의 가중치를 결정할 수 있다.Referring back to FIG. 5, the color distribution analysis unit 530 acquires color distribution information for each of the regions divided by the object image extraction unit 520, and based on the color distribution information, for at least some of the regions One or more weights can be determined.
색상 분포 정보는 n(n은 1보다 큰 정수)개의 색상 표현 범위의 각각에 대한 정보를 포함할 수 있다. 색상 표현 범위는 영상 획득 장치의 종류, 성능 등에 따라 달라질 수 있다. 또한, 예컨대, R(red)에 대한 "색상"은 8비트의 영상에서 픽셀값이 (R, G, B) = (255,0,0)을 가지는 픽셀의 색상만을 의미할 수 있으나, R에 대한 "색상 표현 범위"는 상기 픽셀값이 (R, G, B)= (255,0,0)인 경우뿐만 아니라 상기 픽셀값을 기준으로 소정의 범위 내에 있는 유사 색상을 포함하는 의미이다. 예컨대, R에 대한 "색상 표현 범위"는 (R, G, B) = (150~255, 0~100, 0~100)의 범위일 수 있다. 즉, (R, G, B) = (150, 100, 100)인 픽셀도 적색(R)의 색상 표현 범위에 포함되는 것으로 정의할 수 있다. 상기 "색상 표현 범위"는 식별하고자 하는 색상에 대해 정의될 수 있다. 전술한 예에서는 적색의 색상 표현 범위를 기준으로 설명하였으나, 녹색(G) 또는 청색(B)의 색상 표현 범위가 정의될 수도 있다. 또는 R, G, B 중 일부 또는 전부를 조합하여 표현되는 임의의 색상(황색, 주황색, 하늘색 등)에 대한 색상 표현 범위를 정의할 수도 있다. 영상에 포함된 객체 중 예컨대, 주황색으로 표현되는 객체의 영역을 강화하고자 할 경우, 색상 분포 정보의 분석 결과, 주황색의 색상 표현 범위에 포함되는 픽셀이 다수이거나 지배적인 영역에 대해 가중치를 적용함으로써, 본 개시에 따른 영상 강화를 수행할 수 있다. 가중치를 적용하는 방법은 전술한 바와 같다.The color distribution information may include information for each of n (n is an integer greater than 1) color expression ranges. The color expression range may vary depending on the type and performance of the image acquisition device. Further, for example, "color" for R(red) may mean only the color of a pixel having a pixel value of (R, G, B) = (255,0,0) in an 8-bit image, but R The term "color expression range" for "meaning that the pixel value is (R, G, B) = (255,0,0)" is meant to include similar colors within a predetermined range based on the pixel value. For example, the “color expression range” for R may be in the range of (R, G, B) = (150-255, 0-100, 0-100). That is, a pixel having (R, G, B) = (150, 100, 100) can also be defined as being included in the color expression range of red (R). The "color expression range" may be defined for a color to be identified. In the above-described example, the color expression range of red is described as a reference, but the color expression range of green (G) or blue (B) may be defined. Alternatively, a range of color expression for arbitrary colors (yellow, orange, sky blue, etc.) expressed by combining some or all of R, G, and B may be defined. When an object included in the image is to be enhanced, for example, an area expressed in orange, as a result of analyzing color distribution information, by applying a weight to a region in which a number of pixels included in the range of orange color expression are predominant or dominant, Image enhancement according to the present disclosure may be performed. The method of applying the weight is as described above.
영상 획득 장치가 R, G(green), B(blue)의 3가지 색요소의 조합에 의해 색상을 표현한다면, 색상 분포 정보는 3개의 색요소의 일부 또는 전부에 대한 정보를 포함할 수 있다. 색요소가 R, G, B, Y(yellow), P(purple) 5가지라면 색상 분포 정보는 5개의 색요소의 일부 또는 전부에 대한 정보를 포함할 수 있다. If the image acquisition apparatus expresses a color by a combination of three color elements: R, G (green), and B (blue), the color distribution information may include information on some or all of the three color elements. If there are five color elements R, G, B, Y (yellow), and P (purple), the color distribution information may include information on some or all of the five color elements.
X-Ray 판독 기기가 촬영한 물품에 관한 X-Ray 영상에 있어서, 영상에 포함되어 있는 객체들의 물성(예를 들어, 해당 객체가 유기물, 무기물, 금속 등인지 여부)에 따라 다른 색상 표현 범위를 적용한 X-Ray 영상이 사용되고 있다. 판독원은 색상이 부가된 X-Ray 영상을 판독함으로써, 영상에 포함된 객체의 형태뿐만 아니라, 객체의 물성에 대해서도 어느 정도의 식별이 가능하다. 본 개시의 영상 강화는 객체의 물성에 따른 색상이 부가된 X-Ray 영상을 입력 영상으로 하여, 색상 분포 정보를 분석하고, 이에 기초하여 특정 색상의 영역을 강화함으로써, 영상에 포함된 객체 검출의 정확도와 영상을 판독하는 판독원의 가독성을 향상시킬 수 있다.In an X-Ray image of an object photographed by an X-Ray reading device, different color expression ranges are determined according to properties of objects included in the image (for example, whether the object is an organic substance, an inorganic substance, a metal, or the like). The applied X-Ray image is used. By reading a color-added X-Ray image, the reader can discriminate not only the shape of the object included in the image, but also the physical properties of the object. The image enhancement of the present disclosure analyzes color distribution information using an X-Ray image to which color is added according to the physical properties of an object as an input image, and strengthens a region of a specific color based on this, thereby detecting an object included in the image. It can improve the accuracy and readability of the reader reading the image.
도 7은 본 개시의 일 실시예에 따른 객체의 물성에 기초하여 색상이 표현된 영상을 나타내는 도면이다.7 is a diagram illustrating an image in which colors are expressed based on physical properties of an object according to an embodiment of the present disclosure.
도 7을 참조하면, X-Ray 판독 기기에 의해 촬영된 가방 영상(700), 의약품용기 영상(710) 및 여행자수화물 캐리어 영상(720)을 나타낸다. 가방 고리(702), 가방 지퍼(704), 의약품(712) 및 병(722)의 경우 각각 객체의 물성에 따라 색상 표현 범위(적용된 색상)가 상이함을 확인할 수 있다. 한편, 가방 고리(702), 가방 지퍼(704), 의약품(712) 및 병(722)은 다른 객체들과 구분될 수 있도록 비교적 선명하게 색상이 표현되어 있는 반면에, 수화물 내의 임의의 내용물(724)의 경우에는 여행자 수화물 영상(720)에서 그 임의의 내용물(724)이 무엇인지도 확인하기 어렵고 다른 객체들과 구분하기에도 용이하지 않음을 알 수 있다. 이것은 객체의 물성에 기인한 것이다. 예컨대, 금속이나 무기물은 배경과 뚜렷이 구분될 수 있도록 비교적 선명하고 뚜렷한 색상으로 표현되는 반면, 유기물은 옅은 색상으로 표현되어 배경과의 구분이 뚜렷하지 않게 된다. 유기물을 표현하는 색상의 영역에 대해서는 해당 색상을 강화하는 방법을 통해 배경과 뚜렷하게 구분될 수 있는 선명하고 뚜렷한 색상으로 강화할 수 있다.Referring to FIG. 7, a bag image 700 taken by an X-Ray reading device, a medicine container image 710 and a traveler luggage carrier image 720 are shown. In the case of the bag loop 702, the bag zipper 704, the medicine 712, and the bottle 722, it can be confirmed that the color expression range (the applied color) is different depending on the properties of the object. On the other hand, the bag loop 702, the bag zipper 704, the medicine 712, and the bottle 722 are relatively clearly colored so that they can be distinguished from other objects, while any content in the luggage 724 In the case of ), it can be seen that it is difficult to determine what the arbitrary content 724 is in the traveler's luggage image 720 and it is not easy to distinguish it from other objects. This is due to the physical properties of the object. For example, a metal or an inorganic material is expressed in a relatively clear and distinct color so that it can be clearly distinguished from a background, whereas an organic material is expressed in a light color so that the distinction from the background is not clear. The area of color representing organic matter can be enhanced with a clear and clear color that can be clearly distinguished from the background through a method of enhancing the corresponding color.
다시 말해, 객체의 물성에 따라 색상 표현 범위가 상이하다는 특징을 이용하여, 색상 표현 범위에 따라 영상의 강화 정도를 다르게 할 필요가 있다. 이를 위해, 분할된 영역들 각각에 대한 색상 분포를 분석하여 적어도 일부의 영역에 대해 가중치를 적용할 수 있다.In other words, it is necessary to vary the degree of enhancement of the image according to the color expression range by using a feature that the color expression range is different according to the physical properties of the object. To this end, the color distribution for each of the divided regions may be analyzed to apply weights to at least some regions.
상기 하나 이상의 가중치는 n개의 색상 표현 범위 또는 색상을 표현하는 n개의 색요소 중 적어도 일부에 대한 가중치를 포함할 수 있다. 예컨대, 하나의 영역이 n개의 색상 표현 범위 또는 색요소를 가진다고 하면, 해당 영역에서의 가중치의 개수는 1부터 n개를 가질 수 있다.The one or more weights may include weights for at least some of n color expression ranges or n color elements representing colors. For example, if one region has n color expression ranges or color elements, the number of weights in the region may have 1 to n.
예컨대, 하나의 영역에 대해 하나의 가중치가 결정되는 경우, 상기 하나의 영역에 포함된 모든 색요소 또는 모든 색상 표현 범위에 대해 상기 결정된 가중치를 적용할 수 있다. 또는 상기 하나의 영역에 포함된 모든 색요소 또는 모든 색상 표현 범위 중 적어도 일부에 대해 상기 결정된 가중치를 적용할 수도 있다. 예컨대, 영상 강화를 위해, n개의 색요소 중 소정의 색요소 또는 n 개의 색상 표현 범위 중 소정의 색상 표현 범위에 대해서만 상기 결정된 가중치를 적용할 수 있다.For example, when one weight is determined for one area, the determined weight may be applied to all color elements or all color expression ranges included in the one area. Alternatively, the determined weight may be applied to at least a portion of all color elements or all color expression ranges included in the one area. For example, in order to enhance the image, the determined weight may be applied only to a predetermined color element among n color elements or a predetermined color expression range among n color expression ranges.
또는 예컨대, n개의 색요소 또는 n개의 색상 표현 범위의 각각에 대해 가중치가 결정될 수 있다. 즉, 하나의 영역에 대한 가중치의 개수는 n일 수 있다. 이 경우, 상기 영역에 포함된 모든 색요소 또는 색상 표현 범위의 각각에 대응되는 가중치를 해당하는 색요소 또는 색상 표현 범위에 적용할 수 있다. 가중치는 영상 강화의 대상이 되는 소정의 색요소 또는 색상 표현 범위에 대해 상대적으로 높은 가중치가 부여될 수 있다. 예컨대, 1보다 큰 가중치가 부여되어 해당 색요소의 값 또는 해당 색상 표현 범위에 속하는 픽셀값에 곱해질 수 있다.Or, for example, a weight may be determined for each of n color elements or n color expression ranges. That is, the number of weights for one region may be n. In this case, a weight corresponding to each color element or color expression range included in the region may be applied to the corresponding color element or color expression range. The weight may be given a relatively high weight for a predetermined color element or color expression range that is an object of image enhancement. For example, a weight greater than 1 may be given and multiplied by a value of a corresponding color element or a pixel value belonging to a corresponding color expression range.
또는 예컨대, 1보다 크고 n보다 작은 m개의 색요소 또는 색상 표현 범위의 각각에 대해 가중치가 결정될 수 있다. 즉, 하나의 영역에 대한 가중치의 개수는 m일 수 있다. 이 경우, 상기 영역에 포함된 색요소 또는 색상 표현 범위 중 가중치가 부여된 색요소 또는 색상 표현 범위에 대해서만 상기 부여된 가중치를 적용할 수 있다. 영상 강화의 대상이 되는 소정의 색요소 또는 색상 표현 범위에 대해 상대적으로 높은 가중치가 부여되는 것은 전술한 바와 같다.Alternatively, for example, a weight may be determined for each of m color elements greater than 1 and less than n or a color expression range. That is, the number of weights for one region may be m. In this case, the weighted weight may be applied only to a weighted color element or color expression range among color elements or color expression ranges included in the region. It is as described above that a relatively high weight is given to a predetermined color element or color expression range that is an object of image enhancement.
전술한 바와 같이, n개의 색요소 또는 색상 표현 범위 중 소정의 색요소 또는 색상 표현 범위에 대해서는 가중치를 상대적으로 높게 결정할 수 있다. 예컨대, X-Ray 영상에 포함된 객체가 유기물인 경우 다른 물성(금속, 무기물 등)을 가진 객체에 비해 상대적으로 경계가 덜 선명하게 영상에 표현되는 경우가 많다. 이는 유기물인 객체의 색상이 주변의 다른 객체 또는 배경과 구분될 수 있을 정도로 선명하게 표현되지 않기 때문이다. 예컨대, 연한 주황색으로 표현됨으로써, 백색의 배경과 잘 구분되지 않는 경우가 있다. 따라서, 분할 영역 중 유기물을 나타내는 색상 표현 범위에 해당하는 부분에 대해서 상대적으로 높은 가중치를 부여함으로써, 해당 색상을 강화하여, 예컨대, 연한 주황색을 진한 주황색으로 변경할 수 있다. 이와 같은 방식으로 영상을 강화하여, 주변 객체 또는 배경과, 강화의 대상이 되는 객체의 구분을 보다 명확히 할 수 있다.As described above, the weight may be relatively high for a predetermined color element or color expression range among n color elements or color expression ranges. For example, when an object included in an X-Ray image is an organic material, a boundary is often less clearly defined in an image than an object having different physical properties (metal, inorganic, etc.). This is because the color of the object, which is an organic material, is not vivid enough to be distinguished from other objects or backgrounds. For example, by being expressed in light orange, it may not be well distinguished from a white background. Therefore, by applying a relatively high weight to a portion corresponding to a color expression range representing an organic material among the divided regions, the corresponding color can be enhanced to change, for example, light orange to dark orange. By strengthening the image in this way, it is possible to more clearly distinguish between the surrounding objects or the background and the object to be strengthened.
상대적으로 높은 가중치가 부여되는 상기 소정의 색요소 또는 색상 표현 범위는 하나 이상일 수 있다. 예컨대, 전체 색요소 또는 색상 표현 범위가 n개일 때, 상대적으로 높은 가중치가 부여되는 상기 소정의 색요소 또는 색상 표현 범위는 1 내지 n개일 수 있다. 상기 소정의 색요소 또는 색상 표현 범위가 복수 개일 때, 각각에 대해 요구되는 영상 강화의 정도는 상이할 수 있으며, 그에 따라 각각에 대해 상이한 가중치가 부여될 수 있다. 예컨대, 금속->무기물->유기물의 순서로 영상이 선명하게 표현될 때, 유기물에 대한 색요소 또는 색상 표현 범위에 대해서만 상대적으로 높은 가중치를 부여할 수도 있으나, 무기물과 유기물에 대해 금속보다 상대적으로 높은 가중치를 부여할 수도 있다. 이때, 무기물보다는 유기물에 상대적으로 높은 가중치가 부여될 수 있다.The predetermined color element or color expression range to which a relatively high weight is assigned may be one or more. For example, when the total color element or color expression range is n, the predetermined color element or color expression range to which a relatively high weight is assigned may be 1 to n. When the predetermined color element or color expression range is plural, the degree of image enhancement required for each may be different, and accordingly, different weights may be assigned to each. For example, when an image is clearly expressed in the order of metal->inorganic->organic, a relatively high weight may be given only to a color element or a color expression range for an organic material, but for inorganic and organic materials, it is relatively more than a metal. You can also give it a high weight. At this time, a relatively high weight may be given to the organic material rather than the inorganic material.
분할된 영역들 각각에 대해 색상 분포 정보를 획득하고, 가중치를 결정하는 구체적인 과정은 도 8을 참고하여 자세히 설명한다.A detailed process of obtaining color distribution information for each of the divided areas and determining a weight will be described in detail with reference to FIG. 8.
도 8은 본 개시의 일 실시예에 따른 영상의 색상 분포 정보에 기초하여 출력 영상을 생성하는 과정을 설명하기 위한 도면이다.8 is a view for explaining a process of generating an output image based on color distribution information of an image according to an embodiment of the present disclosure.
도 8을 참조하면, 객체 영상(800)은 제1 영역(810), 제2 영역(820) 등 하나 이상의 영역들로 분할될 수 있다. 객체 영상(800)에서 영역들을 분할하는 과정에 대해서는 도 5의 객체 영상 추출부(520)에 대해서 설명한 바와 같다. 이하에서 제1 영역(810)에서 색상 분포 정보가 획득되고 가중치가 결정되는 과정에 대해 자세히 설명한다. 제1 영역(810)은 3x3 크기의 영역으로서 총 9개의 픽셀을 가지고, 5개(n=5)의 색상 표현 범위(이하, 색상 표현 범위는 색요소로 치환될 수 있음)들을 가지는 것으로 가정한다. 일 실시예에 따른 영상 강화 장치는 제1 영역(810)에 대해 5개의 색상 표현 범위에 대한 정보를 포함하는 색상 분포 정보를 획득하고, 획득된 색상 분포 정보에 기초하여 3x3 크기의 영역 중 적어도 일부에 대해 하나 이상의 가중치를 결정할 수 있다. Referring to FIG. 8, the object image 800 may be divided into one or more regions, such as the first region 810 and the second region 820. The process of dividing regions in the object image 800 is as described with respect to the object image extractor 520 of FIG. 5. Hereinafter, a process of obtaining color distribution information and determining weights in the first area 810 will be described in detail. It is assumed that the first region 810 is a 3x3 sized region and has a total of 9 pixels, and has 5 (n=5) color expression ranges (hereinafter, the color expression range may be replaced with color elements). . The image enhancement device according to an embodiment acquires color distribution information including information on five color expression ranges for the first area 810, and based on the obtained color distribution information, at least a part of the 3x3 sized area One or more weights can be determined for.
또는 영상 강화의 대상이 되는 소정의 색상 표현 범위에 대한 정보만을 색상 분포 정보로서 획득하고 이용할 수도 있다. 예컨대, 소정의 색상 표현 범위에 대한 분포 정보가 소정의 임계치 이상인 경우, 해당 영역은 강화의 대상으로 결정되고, 해당 영역에 상대적으로 높은 가중치가 부여될 수 있다.Alternatively, only information on a predetermined color expression range targeted for image enhancement may be obtained and used as color distribution information. For example, when the distribution information for a predetermined color expression range is greater than or equal to a predetermined threshold, the corresponding area is determined as a target for enhancement, and a relatively high weight can be given to the corresponding area.
색상 분포 정보에 기초하여 가중치를 결정하는 일 실시예를 보다 구체적으로 살펴보면, 분할된 영역들 각각에 대해서, n개의 색상 표현 범위 각각에 대한 정보를 반영하는 n개의 색상 채널 영상들이 획득될 수 있다. 예컨대, 제1 영역(810)은 5개(n=5)의 색상 표현 범위들에 대한 정보를 가지므로 5개의 색상 채널 영상들이 획득될 수 있으며, 이를 제1 색상 채널 영상(830), 제2 색상 채널 영상(840), 제3 색상 채널 영상(850), 제4 색상 채널 영상(860) 및 제5 색상 채널 영상(870)이라 한다. 또한 예컨대, X-Ray 판독 기기가 R, G, B, Y, P의 5가지 색요소를 지원하는 경우, 제1 색상 채널 영상(830), 제2 색상 채널 영상(840), 제3 색상 채널 영상(840), 제4 색상 채널 영상(860) 및 제5 색상 채널 영상(870)은 각각 R, G, B, Y 및 P의 색요소에 대응될 수 있다.Looking at an embodiment of determining the weight based on the color distribution information, n color channel images reflecting information on each of the n color expression ranges for each of the divided regions may be obtained. For example, since the first region 810 has information on five (n=5) color expression ranges, five color channel images can be obtained, which are the first color channel image 830 and the second. Referred to as a color channel image 840, a third color channel image 850, a fourth color channel image 860, and a fifth color channel image 870. In addition, for example, when the X-Ray reading device supports five color elements of R, G, B, Y, and P, the first color channel image 830, the second color channel image 840, and the third color channel The image 840, the fourth color channel image 860, and the fifth color channel image 870 may correspond to color elements of R, G, B, Y, and P, respectively.
제1 내지 제5 색상 채널 영상(830~870)의 각각은 제1 영역(810)의 구성 픽셀들 각각의 색상 정보에 기초하여 해당 색상 정보에 대응하는 색상 채널 영상에 각 픽셀을 매핑시킴으로써 생성될 수 있다. 예컨대, 제1 픽셀(812)은 제3 색상 채널 영상(850)의 해당 위치의 픽셀(852)에 매핑되고, 또한 제2 픽셀(814)은 제1 색상 채널 영상(830)의 해당 위치의 픽셀(832)에 매핑되고, 또한 제3 픽셀(816)은 제5 색상 채널 영상(870)의 해당 위치의 픽셀(872)에 매핑되고, 또한 제4 픽셀(818)은 제2 색상 채널 영상(840)의 해당 위치의 픽셀(842)에 매핑되고, 또한 제5 픽셀(820)은 제5 색상 채널 영상(870)의 해당 위치의 픽셀(874)에 매핑되고, 또한 제6 픽셀(822)은 제5 색상 채널 영상(870)의 해당 위치의 픽셀(876)에 매핑되고, 또한 제7 픽셀(824)은 제2 색상 채널 영상(840)의 해당 위치의 픽셀(844)에 매핑되고, 또한 제8 픽셀(826)은 제5 색상 채널 영상(870)의 해당 위치의 픽셀(878)에 매핑되고, 또한 제9 픽셀(828)은 제5 색상 채널 영상(870)의 해당 위치의 픽셀(880)에 매핑됨으로써, 상기 제1 내지 제5 색상 채널 영상(830~870)이 생성될 수 있다.Each of the first to fifth color channel images 830 to 870 is generated by mapping each pixel to a color channel image corresponding to the corresponding color information based on color information of each of the constituent pixels of the first region 810. Can be. For example, the first pixel 812 is mapped to the pixel 852 at the corresponding position of the third color channel image 850, and the second pixel 814 is the pixel at the corresponding position of the first color channel image 830. Mapped to 832, and the third pixel 816 is mapped to the pixel 872 at the corresponding position of the fifth color channel image 870, and the fourth pixel 818 is the second color channel image 840. ) Is mapped to the pixel 842 at the corresponding position, and the fifth pixel 820 is mapped to the pixel 874 at the corresponding position of the fifth color channel image 870, and the sixth pixel 822 is It is mapped to the pixel 876 at the corresponding position in the fifth color channel image 870, and the seventh pixel 824 is mapped to the pixel 844 at the corresponding position in the second color channel image 840, and also the eighth The pixel 826 is mapped to the pixel 878 at the corresponding position in the fifth color channel image 870, and the ninth pixel 828 is mapped to the pixel 880 at the corresponding position in the fifth color channel image 870. By mapping, the first to fifth color channel images 830 to 870 may be generated.
한편, 색상 표현 범위가 최대 n개인 경우, n보다 적은 수의 색상 채널 영상들이 획득될 수 있는데, 예컨대, 제1 영역(810)의 경우 제4 색상 채널 영상(860)에 해당되는 색상을 가진 픽셀이 존재하지 않기 때문에, 제4 색상 채널 영상(860)을 제외한 총 4개의 색상 채널 영상들이 획득될 수 있다.Meanwhile, when the color expression range is up to n, fewer color channel images than n may be obtained. For example, in the case of the first region 810, pixels having a color corresponding to the fourth color channel image 860 may be obtained. Since this does not exist, a total of four color channel images can be obtained except for the fourth color channel image 860.
색상 채널 영상들이 획득되면, 제1 색상 채널 영상(830), 제2 색상 채널 영상(840), 제3 색상 채널 영상(850), 제4 색상 채널 영상(860) 및 제5 색상 채널 영상(870)에 가중치 a1, a2, a3, a4 및 a5를 각각 적용할 수 있다.When the color channel images are acquired, the first color channel image 830, the second color channel image 840, the third color channel image 850, the fourth color channel image 860, and the fifth color channel image 870 ) Can be applied to the weights a1, a2, a3, a4, and a5, respectively.
가중치는 각 영역을 구성하는 픽셀들의 색상 분포를 고려하여 결정될 수 있으며, 예컨대, 픽셀들의 색상 분포에 비례하도록 가중치가 결정될 수 있다. 또는, 가중치는 소정의 색상 표현 범위에 대해서는 가중치를 상대적으로 높게, 나머지 색상 표현 범위에 대해서는 가중치를 상대적으로 낮게 결정할 수 있다. The weight may be determined in consideration of the color distribution of pixels constituting each area, and for example, the weight may be determined to be proportional to the color distribution of pixels. Alternatively, the weight may be determined to have a relatively high weight for a predetermined color expression range and a relatively low weight for the rest of the color expression range.
다시 도 5를 참조하여, 영상 강화부(540)는 색상 분포 분석부(530)에서 결정된 하나 이상의 가중치를 하나 이상의 영역들 중 적어도 일부에 적용하여 객체 영상에 대한 제1 출력 영상을 생성할 수 있다.Referring back to FIG. 5, the image enhancement unit 540 may generate a first output image for the object image by applying one or more weights determined by the color distribution analysis unit 530 to at least some of the one or more regions. .
도 8을 참조하면, 제1 색상 채널 영상(830), 제2 색상 채널 영상(840), 제3 색상 채널 영상(850), 제4 색상 채널 영상(860) 및 제5 색상 채널 영상(870)에 가중치 a1, a2, a3, a4 및 a5를 적용하고, 가중치가 적용된 상기 제1 내지 제5 색상 채널 영상을 결합하여 가중치가 적용된 제1 영역(810-1)이 획득될 수 있다. 그리고, 상기 객체 영상(800)의 나머지 영역들에 대해서도 상기 과정을 반복함으로써, 최종적으로 제1 출력 영상이 생성될 수 있다. 가중치는 각 영역을 구성하는 픽셀들의 색상 분포를 고려하여 결정되고 또한 소정의 색상 표현 범위에 대해서는 상대적으로 높은 가중치가, 나머지 색상 표현 범위에 대해서는 상대적으로 낮은 가중치가 결정될 수 있다. 예컨대, 각 분할 영역에서 유기물을 나타내는 색상에 해당되는 부분은 배경과의 구분이 뚜렷하지 않아 경계 부분이 영상에서 상대적으로 명확하게 표현되지 않으므로 가중치가 상대적으로 높게 결정되고, 금속을 나타내는 색상에 해당되는 부분은 배경과의 구분이 비교적 뚜렷하므로 경계 부분이 영상에서 상대적으로 명확하게 표현되기 때문에 가중치가 상대적으로 낮게 결정될 수 있다. 가중치를 적용한다는 것은 전술한 바와 같이, 강화되는 영역 내 픽셀을 가중치가 곱해진 새로운 픽셀값으로 치환하는 것을 의미할 수 있다. Referring to FIG. 8, a first color channel image 830, a second color channel image 840, a third color channel image 850, a fourth color channel image 860, and a fifth color channel image 870 Weighted a1, a2, a3, a4, and a5 may be applied to the weighted first region 810-1 by combining the weighted first to fifth color channel images. And, by repeating the above process for the remaining regions of the object image 800, the first output image may be finally generated. The weight may be determined in consideration of the color distribution of pixels constituting each region, and a relatively high weight may be determined for a predetermined color expression range and a relatively low weight for the remaining color expression ranges. For example, the portion corresponding to the color representing the organic material in each divided region is not clearly distinguished from the background, so the boundary portion is not relatively clearly expressed in the image, so the weight is determined relatively high, and the color corresponding to the color representing the metal Since the portion is relatively distinct from the background, the weight of the border portion may be relatively low because the border portion is relatively clearly expressed in the image. As described above, applying the weight may mean replacing a pixel in the enhanced region with a new pixel value multiplied by the weight.
또는 전술한 바와 같이, 객체 영상(800)에 포함된 영역(810)의 색상 분포 분석 결과, 영상 강화의 대상이 되는 소정의 색상 표현 범위가 지배적이거나 소정의 임계치 이상의 분포를 갖는 경우, 해당 영역(810)에 대해 상대적으로 높은 가중치를 설정할 수 있다. Alternatively, as described above, as a result of analyzing the color distribution of the region 810 included in the object image 800, when a predetermined color expression range that is an object of image enhancement is dominant or has a distribution of a predetermined threshold or more, the corresponding region ( 810), a relatively high weight can be set.
예를 들어, 강화의 대상이 되는 색상 표현 범위가 적색(R)이고, 소정 영역의 지배적 색상이 적색일 때, 해당 영역에 1 이상의 가중치가 적용될 수 있다. 예컨대, 상기 소정 영역 내 픽셀의 (R, G, B) = (120, 10, 10) 일 때, 가중치 2를 적용함으로써, (R, G, B) = (240, 20, 20)으로 강화할 수 있다. 또는, R, G, B 중 일부, 예컨대, 적색에만 가중치 2가 적용되어, (R, G, B) = (240, 10, 10)으로 강화할 수도 있다. 또는, R, G, B 중 일부, 예컨대, 적색에는 가중치 2가 적용되고, 다른 일부, 예컨대, 녹색과 청색에는 가중치 0.5가 적용되어, (R, G, B) = (240, 5, 5)으로 강화할 수도 있다. 상기 예시는 적색을 강화하는 경우에 관한 것이나, 이에 한정되지 않으며, 임의의 색상을 강화의 대상이 되는 색상으로 결정할 수 있다.For example, when the color expression range targeted for enhancement is red (R) and the dominant color of a predetermined region is red, one or more weights may be applied to the corresponding region. For example, when (R, G, B) = (120, 10, 10) of the pixels in the predetermined area, by applying a weight of 2, (R, G, B) = (240, 20, 20) can be enhanced have. Alternatively, a weight of 2 is applied only to some of R, G, and B, for example, red, and may be enhanced to (R, G, B) = (240, 10, 10). Alternatively, a weight of 2 is applied to some of R, G, and B, such as red, and a weight of 0.5 is applied to other parts, such as green and blue, (R, G, B) = (240, 5, 5) It can also be strengthened. The above example relates to a case in which red is enhanced, but is not limited thereto, and any color may be determined as a target color.
상기 소정의 임계치 및/또는 가중치는 임의로 결정될 수도 있고, 축적된 영상 처리 정보에 기초하여 결정될 수도 있다. 또는, 인공지능 기반 학습 모델을 통해 상기 임계치 및/또는 가중치에 관한 학습을 수행함으로써, 최적의 임계치 및/또는 가중치가 계속하여 업데이트될 수 있다.The predetermined threshold and/or weight may be arbitrarily determined, or may be determined based on accumulated image processing information. Alternatively, by performing learning on the threshold and/or weight through an AI-based learning model, the optimal threshold and/or weight may be continuously updated.
또한, 영상 강화부(540)는 하나 이상의 영역들 중 적어도 일부에 대해 에지 기반 필터링 또는 평활화 필터링을 적용하여 객체 영상에 대한 제2 출력 영상을 생성할 수 있다. 또한, 영상 강화부(540)는 생성된 제1 출력 영상 및 제2 출력 영상에 기초하여 객체 영상에 대한 제3 출력 영상을 생성할 수 있다.Also, the image enhancement unit 540 may generate a second output image for the object image by applying edge-based filtering or smoothing filtering on at least some of the one or more regions. Also, the image enhancement unit 540 may generate a third output image for the object image based on the generated first output image and second output image.
에지 기반 필터링 또는 평활화 필터링은 영상의 컨트라스트(contrast)를 강화하기 위한 기법으로서, 예컨대 Wiener filtering, Unsharp mask filtering, Histogram equalization, linear contrast adjustment의 기법 등을 포함하나, 이에 제한되지 않으며, 영상의 컨트라스트를 강화하기 위한 기법들을 포함할 수 있다.Edge-based filtering or smoothing filtering is a technique for enhancing the contrast of an image, including, but not limited to, Wiener filtering, Unsharp mask filtering, Histogram equalization, linear contrast adjustment, and the like. May include techniques to enhance.
도 9는 본 개시의 일 실시예에 따른 색상 분포 정보를 이용하여 획득된 영상과 에지 기반 필터링 또는 평활화 필터링을 적용하여 획득된 영상을 결합한 최종 출력 영상을 획득하는 과정을 설명하기 위한 도면이다. 도 9의 객체 영상(900), 제1 영역(910) 및 가중치가 적용된 제1 영역(910-1)은 도 8의 객체 영상(800), 제1 영역(810) 및 가중치가 적용된 제1 영역(810-1)에 각각 대응될 수 있다. 도 9를 참조하면, 영상 강화부(540)는 제1 영역(910)에 대해 상기 필터링이 적용된 제1 영역(910-2)을 생성할 수 있으며, 가중치가 적용된 제1 영역(910-1)과 필터링이 적용된 제1 영역(910-2)을 결합하여 최종 제1 영역(910-3)을 생성할 수 있다. 그리고, 영상 강화부(540)는 나머지 영역들에도 상기와 같은 필터링 기법들이 적용된 제2 출력 영상 및 제1 출력 영상과 제2 출력 영상을 결합한 제3 출력 영상을 생성할 수 있다.FIG. 9 is a diagram for explaining a process of obtaining a final output image that combines an image obtained by using color distribution information and an image obtained by applying edge-based filtering or smoothing filtering according to an embodiment of the present disclosure. The object image 900 of FIG. 9, the first area 910 and the weighted first area 910-1 are the object image 800 of FIG. 8, the first area 810, and the weighted first area It may correspond to (810-1), respectively. Referring to FIG. 9, the image enhancement unit 540 may generate the first region 910-2 to which the filtering is applied to the first region 910, and the first region 910-1 to which the weight is applied. And the first region 910-2 to which filtering has been applied may be combined to generate a final first region 910-3. In addition, the image enhancement unit 540 may generate a second output image in which the above filtering techniques are applied to the remaining regions, and a third output image combining the first output image and the second output image.
가중치가 적용된 영역(예컨대, 910-1), 필터링이 적용된 영역(예컨대, 910-2) 및/또는 상기 둘을 이용한 최종 영역(910-3)을 생성하는 과정은 영역 단위로 수행될 수 있다. 그러나 이에 한정되지 않으며, 상기 과정은 객체 영상 단위로 수행될 수도 있다. 예컨대, 객체 영상에 포함된 영역의 각각에 대해 가중치를 적용하는 과정을 수행하여 가중치가 적용된 객체 영상(제1 출력 영상)을 획득할 수 있다. 또한, 객체 영상에 포함된 영역의 각각에 대해 상기 필터링을 적용하는 과정을 수행하여 객체 영상(제2 출력 영상)을 획득할 수 있다. 또한, 상기 가중치가 적용된 객체 영상과 상기 에지가 강화된 객체 영상을 결합함으로써, 상기 최종 영상(제3 출력 영상)을 생성할 수 있다.The process of generating a weighted area (eg, 910-1), a filtered area (eg, 910-2), and/or a final area 910-3 using the two may be performed in units of areas. However, the present invention is not limited thereto, and the process may be performed in units of object images. For example, a weighted object image (first output image) may be obtained by performing a process of applying a weight to each of the regions included in the object image. Also, an object image (second output image) may be obtained by performing the process of applying the filtering to each of the regions included in the object image. In addition, the final image (third output image) may be generated by combining the weighted object image and the edge-enhanced object image.
한편, 예컨대 분할 영역 내 유기물이 다른 물질에 비해 적게 포함된 경우에는, 제1 출력 영상에 제2 출력 영상을 결합함으로써 제1 출력 영상에 대한 영향이 상대적으로 적을 수 있는데, 이 경우 유기물을 나타내는 색상 분포 정보에 대한 가중치를 상대적으로 더 높게 결정할 수 있다. 또한 예컨대, 제1 출력 영상과 제2 출력 영상을 결합함으로써 영상 내 여러 객체가 겹쳐있는 경우에도 보다 정확한 객체 인식이 가능하게 할 수 있다.On the other hand, if the organic matter in the divided region is less than other materials, for example, the influence on the first output image may be relatively small by combining the second output image with the first output image. In this case, the color representing the organic substance The weight for the distribution information can be determined relatively higher. Also, for example, by combining the first output image and the second output image, more accurate object recognition may be possible even when multiple objects in the image overlap.
도 10은 본 개시의 일 실시예에 따른 그래피컬 모델을 이용하여 최종 출력 영상을 획득하는 과정을 설명하기 위한 도면이다.10 is a view for explaining a process of obtaining a final output image using a graphical model according to an embodiment of the present disclosure.
일 실시예에 따른 영상 강화 장치는 색상 분포 정보에 포함된 색상 표현 범위들 각각을 개별 노드로 결정하고, 결정된 각 개별 노드간의 상대적인 관계 및 제1 출력 영상, 제2 출력 영상 및 제3 출력 영상과의 상대적인 관계를 이용하여, 계층적(hierarchical) 구조의 그래피컬 모델(graphical model)을 생성할 수 있다.The image enhancement apparatus according to an embodiment determines each of the color expression ranges included in the color distribution information as an individual node, and determines a relative relationship between each determined individual node and a first output image, a second output image, and a third output image. Using the relative relationship of, a graphical model of a hierarchical structure can be generated.
도 10을 참조하면, 각각의 분할 영역에서, 색상 분포 정보에 n개의 색상 표현 범위가 포함되어 있으면, 가장 하위 노드는 제1 색상 분포 정보(1010-1)부터 제n 색상 분포 정보(1010-n)까지 최대 n개의 노드를 포함할 수 있다. 그런 다음, 각 색상 분포 정보에 기초하여 해당 분할 영역 또는 해당 분할 영역의 색상 표현 범위들의 각각에 가중치를 적용하여 제1 출력 영상(1020)을 획득할 수 있다. 제1 출력 영상(1020)이 최종 출력 영상으로 결정될 수 있다. 또는 영상의 컨트라스트 강화 기법을 적용하여 획득된 제2 출력 영상(1030)을 더 생성하고, 제1 출력 영상(1020)과 제2 출력 영상(1030)을 기초로 제3 출력 영상(1040)을 생성할 수도 있다.Referring to FIG. 10, in each of the divided regions, if n color expression ranges are included in the color distribution information, the lowest node is the first color distribution information 1010-1 to the nth color distribution information 1010-n ) Up to n nodes. Then, based on each color distribution information, a first output image 1020 may be obtained by applying a weight to each of the corresponding divided regions or the color expression ranges of the divided regions. The first output image 1020 may be determined as the final output image. Alternatively, the second output image 1030 obtained by applying the contrast enhancement technique of the image is further generated, and the third output image 1040 is generated based on the first output image 1020 and the second output image 1030. You may.
도 11은 본 개시의 일 실시예에 따른 영상 강화 방법을 설명하기 위한 도면이다. 도 11의 영상 강화 방법은 도 5의 영상 강화 장치가 수행하는 방법으로서, 도 5의 영상 강화 장치에 관한 설명은 도 11의 영상 강화 방법에 적용될 수 있다.11 is a view for explaining an image enhancement method according to an embodiment of the present disclosure. The image enhancement method of FIG. 11 is a method performed by the image enhancement apparatus of FIG. 5, and the description of the image enhancement apparatus of FIG. 5 may be applied to the image enhancement method of FIG. 11.
S1100 단계에서, 입력 영상을 수신할 수 있다.In step S1100, an input image may be received.
S1110 단계에서 입력 영상에 포함되어 있는 객체를 추출할 수 있다. 예컨대, 입력 영상의 픽셀값과 소정의 임계값을 비교하여 픽셀값을 이진화하고, 이진화된 픽셀값을 그룹핑함으로써 분석 대상 영상에 포함된 객체를 추출할 수 있다.In step S1110, an object included in the input image may be extracted. For example, by comparing the pixel value of the input image with a predetermined threshold, the pixel value is binarized and the binarized pixel value is grouped to extract an object included in the analysis target image.
S1120 단계에서 객체를 포함하는 객체 영상을 하나 이상의 영역들로 분할할 수 있다. 예컨대, 객체 영상의 크기에 기초하여 객체 영상을 분할하는 영역들의 개수나 크기를 결정할 수 있다. 또한, 객체 영상을 분할하는 영역들 각각의 크기는 서로 동일하지 않을 수 있다. 또한, 예컨대 객체 영상이 정방형이 아닌 경우, 객체 영상을 업샘플링(up-sampling) 또는 다운샘플링(down-sampling)하여 객체 영상을 정방형으로 변환한 후, 객체 영상을 하나 이상의 영역들로 분할할 수 있다.In step S1120, the object image including the object may be divided into one or more regions. For example, the number or size of regions for dividing the object image may be determined based on the size of the object image. Also, the sizes of the regions dividing the object image may not be the same. In addition, for example, when the object image is not square, the object image can be divided into one or more regions after up-sampling or down-sampling to convert the object image into a square. have.
S1130 단계에서 하나 이상의 영역들 각각에 대해 색상 분포 정보를 획득할 수 있다. 예컨대, 색상 분포 정보는 n(n은 1보다 큰 정수)개의 색상 표현 범위의 각각에 대한 정보를 포함할 수 있다.In step S1130, color distribution information may be obtained for each of the one or more regions. For example, the color distribution information may include information for each of n (n is an integer greater than 1) color expression range.
S1140 단계에서, 색상 분포 정보에 기초하여, 하나 이상의 영역들 중 적어도 일부에 대해 하나 이상의 가중치를 결정할 수 있다. 예컨대, 하나 이상의 가중치는 n개의 색상 표현 범위 중 적어도 일부에 대한 가중치를 포함할 수 있다. 예컨대, 하나의 영역이 n개의 색상 표현 범위를 가진다고 하면, 해당 영역에서의 가중치의 개수는 1부터 n개를 가질 수 있다.In step S1140, one or more weights may be determined for at least some of the one or more regions based on the color distribution information. For example, the one or more weights may include weights for at least some of the n color expression ranges. For example, if one region has n color expression ranges, the number of weights in the region may have 1 to n.
S1150 단계에서, 결정된 하나 이상의 가중치를 하나 이상의 영역들 중 적어도 일부에 적용하여 객체 영상에 대한 제1 출력 영상을 생성할 수 있다. In operation S1150, a first output image for the object image may be generated by applying the determined one or more weights to at least some of the one or more regions.
도 11에는 도시되지 않았으나, 하나 이상의 영역들 중 적어도 일부에 대해 에지 기반 필터링 또는 평활화 필터링을 적용하여 객체 영상에 대한 제2 출력 영상을 생성할 수 있다. 또한 예컨대, 생성된 제1 출력 영상 및 제2 출력 영상에 기초하여 객체 영상에 대한 제3 출력 영상을 생성할 수 있다Although not illustrated in FIG. 11, a second output image for the object image may be generated by applying edge-based filtering or smoothing filtering to at least some of the one or more regions. Also, for example, a third output image for the object image may be generated based on the generated first output image and second output image.
도 5 내지 도 11을 참조하여 설명한 실시예에서는 단일 객체를 포함하는 영상을 입력 받아, 객체와 배경을 분리하는 예를 설명하였다. 그러나, 반드시 이에 한정되지 않으며, 입력 영상이 둘 이상의 객체를 포함하는 영상일 수도 있다. 이 경우, 입력 영상으로부터 둘 이상의 객체와 배경을 구분하고, 둘 이상의 객체의 각각에 대해 위치 정보를 생성하여 이용할 수도 있다. 또한, 이 경우, 도 6을 참조한 설명에서, 복수의 픽셀 그룹이 형성된 경우, 가장 큰 형태로 형성된 픽셀 그룹뿐만 아니라 다른 픽셀 그룹에 대해서도 각각 객체에 대한 영역인 것으로 결정할 수 있다. 각각의 결정된 객체의 위치 정보를 생성하는 과정은 하나의 객체를 포함하는 영상에 대해 설명한 바와 동일하다.In the embodiment described with reference to FIGS. 5 to 11, an example of receiving an image including a single object and separating the object from the background has been described. However, the present invention is not limited thereto, and the input image may be an image including two or more objects. In this case, two or more objects and a background can be distinguished from the input image, and location information can be generated and used for each of the two or more objects. In addition, in this case, in the description with reference to FIG. 6, when a plurality of pixel groups are formed, it may be determined that each pixel group is an area for an object as well as other pixel groups formed in the largest shape. The process of generating location information of each determined object is the same as described for an image including one object.
본 개시의 영상 강화 장치의 구성부들 및 영상 강화 방법의 단계들 중 적어도 일부는 인공지능 기반 또는 딥러닝 기반의 모델을 이용하여 수행될 수 있다. 예컨대, 객체 영상을 분할하여 생성되는 영역의 크기, 개수, 색상 분포 정보에 기초하여 결정되는 가중치, 본 개시에서 언급된 각종 임계치, 제2 출력 영상의 생성 여부 등은 인공지능 기반 또는 딥러닝 기반의 모델을 이용하여 학습될 수 있고, 학습된 모델에 따른 정보가 이용될 수 있다.At least some of the components of the image enhancement apparatus and steps of the image enhancement method of the present disclosure may be performed using an AI-based or deep learning-based model. For example, the size, number of regions generated by dividing an object image, weights determined based on color distribution information, various thresholds mentioned in the present disclosure, whether a second output image is generated, or the like is based on artificial intelligence or deep learning. It can be learned using a model, and information according to the trained model can be used.
이하, 도 12 내지 도 17을 참고하여, 영상 분석 장치(112)가 수행하는 맥락 분석 방법의 일 실시예에 대해 설명한다.Hereinafter, an embodiment of a context analysis method performed by the image analysis apparatus 112 will be described with reference to FIGS. 12 to 17.
도 12의 영상 분석 장치(1200)는 도 1의 영상 분석 장치(112)의 일 실시예일 수 있다. 또는 도 12의 영상 분석 장치(1200)는, 도 1 의 영상 분석 장치(112)에 포함되거나, 별개로 구성되어 맥락 분석을 수행하는 장치일 수 있다.The image analysis device 1200 of FIG. 12 may be an embodiment of the image analysis device 112 of FIG. 1. Alternatively, the image analysis device 1200 of FIG. 12 may be included in the image analysis device 112 of FIG. 1, or may be configured separately to perform context analysis.
도 12를 참조하면, 영상 분석 장치(1200)는 특징 추출부(1210), 맥락 생성부(1220) 및/또는 특징 및 맥락 분석부(1230)를 포함할 수 있다. 다만, 이는 본 실시예를 설명하기 위해 필요한 일부 구성요소만을 도시한 것일 뿐, 영상 분석 장치(1200)에 포함된 구성요소가 전술한 예에 한정되는 것은 아니다.Referring to FIG. 12, the image analysis apparatus 1200 may include a feature extraction unit 1210, a context generation unit 1220, and/or a feature and context analysis unit 1230. However, this only shows some components necessary to describe the present embodiment, and the components included in the image analysis apparatus 1200 are not limited to the above-described examples.
영상 분석 장치(1200)는 입력 영상(분석 대상 영상)의 특징을 추출하고, 추출된 특징에 기초하여 맥락 정보를 생성하고, 추출된 특징 및 생성된 맥락 정보에 기초하여 분석 대상 영상을 분석할 수 있다. 예컨대, 영상 분석 장치(1200)는 추출된 특징 및 생성된 맥락 정보를 이용하여 영상을 분류하거나 관심 객체의 위치를 찾아낼 수 있다.The image analysis apparatus 1200 may extract characteristics of an input image (analysis target image), generate context information based on the extracted characteristics, and analyze an analysis target image based on the extracted characteristics and the generated context information. have. For example, the image analysis apparatus 1200 may classify an image using the extracted feature and the generated context information or locate the object of interest.
영상 분석 장치(1200)의 입력 영상은 도 1의 영상 분석 장치(112)의 입력 영상과 동일할 수 있다.The input image of the image analysis apparatus 1200 may be the same as the input image of the image analysis apparatus 112 of FIG. 1.
특징 추출부(1210)는 입력 영상을 분석하여 영상의 특징을 추출할 수 있다. 예컨대, 상기 특징은 영상의 각 영역마다의 국소적인 특징일 수 있다. 일 실시예에 따른 특징 추출부(1210)는 일반적인 합성곱 신경망(Convolutional Neural Network, CNN) 기법 또는 풀링(pooling) 기법을 이용하여 입력 영상의 특징을 추출할 수 있다. 상기 풀링 기법은 맥스(max) 풀링 기법 및 평균(average) 풀링 기법 중 적어도 하나를 포함할 수 있다. 그러나, 본 개시에서 언급되는 풀링 기법은 맥스 풀링 기법 또는 평균 풀링 기법에 한정되지 않으며, 소정 크기의 영상 영역의 대표값을 획득하는 임의의 기법을 포함한다. 예컨대, 풀링 기법에 사용되는 대표값은 최대값 및 평균값 외에, 분산값, 표준 편차값, 중간값(mean value), 최빈값(most frequent value), 최소값, 가중 평균값 등 중 적어도 하나일 수 있다.The feature extraction unit 1210 may analyze the input image to extract features of the image. For example, the feature may be a local feature for each region of the image. The feature extraction unit 1210 according to an embodiment may extract characteristics of an input image using a general convolutional neural network (CNN) technique or a pooling technique. The pooling technique may include at least one of a max (max) pooling technique and an average pooling technique. However, the pooling technique referred to in the present disclosure is not limited to the Max pooling technique or the average pooling technique, and includes any technique for obtaining a representative value of an image region of a predetermined size. For example, the representative value used in the pooling technique may be at least one of a variance value, a standard deviation value, a mean value, a most frequent value, a minimum value, and a weighted average value, in addition to the maximum value and the average value.
본 개시의 합성곱 신경망은 입력 데이터(영상)로부터 테두리, 선 색 등과 같은 "특징들(features)"을 추출하기 위해 이용될 수 있으며, 복수의 계층들(layers)을 포함할 수 있다. 각각의 계층은 입력 데이터를 수신하고, 해당 계층의 입력 데이터를 처리하여 출력 데이터를 생성할 수 있다. 합성곱 신경망은 입력된 영상 또는 입력된 특징맵(feature map)을 필터 커널들(filter kernels)과 컨볼루션하여 생성한 특징맵을 출력 데이터로서 출력할 수 있다. 합성곱 신경망의 초기 계층들은 입력으로부터 에지들 또는 그레디언트들과 같은 낮은 레벨의 특징들을 추출하도록 동작될 수 있다. 신경망의 다음 계층들은 눈, 코 등과 같은 점진적으로 더 복잡한 특징들을 추출할 수 있다. 합성곱 신경망의 구체적인 동작에 대해서는 도 16을 참고하여 후술한다.The convolutional neural network of the present disclosure can be used to extract “features” such as borders, line colors, and the like from input data (images), and may include a plurality of layers. Each layer may receive input data and process input data of the corresponding layer to generate output data. The convolutional neural network may output a feature map generated by convolution of an input image or an input feature map with filter kernels as output data. The initial layers of the convolutional neural network can be operated to extract low level features such as edges or gradients from the input. The next layers of the neural network can extract progressively more complex features, such as the eyes and nose. The detailed operation of the convolutional neural network will be described later with reference to FIG. 16.
합성곱 신경망은 컨볼루션 연산이 수행되는 합성곱 계층 외에도 풀링 연산이 수행되는 풀링 계층도 포함할 수 있다. 풀링 기법은 풀링 계층에서 데이터의 공간적 크기를 축소하는데 사용되는 기법이다. 구체적으로, 풀링 기법에는 해당 영역에서 최대값을 선택하는 맥스 풀링(max pooling) 기법과 해당 영역의 평균값을 선택하는 평균 풀링(average pooling) 기법이 있으며, 이미지 인식 분야에서는 일반적으로 맥스 풀링 기법이 사용된다. 풀링 기법에서는 일반적으로 풀링의 윈도우 크기와 간격(스트라이드, stride)을 같은 값으로 설정한다. 여기서, 스트라이드란 입력 데이터에 필터를 적용할 때 이동할 간격을 조절하는 것, 즉 필터가 이동할 간격을 의미하며, 스트라이드 또한 출력 데이터의 크기를 조절하기 위해 사용될 수 있다. 풀링 기법의 구체적인 동작에 대해서는 도 17을 참고하여 후술한다.The convolutional neural network may include a pooling layer in which a pooling operation is performed in addition to a convolutional layer in which a convolution operation is performed. The pooling technique is a technique used to reduce the spatial size of data in the pooling layer. Specifically, the pooling technique includes a max pooling technique that selects a maximum value in a corresponding region and an average pooling technique that selects an average value in a corresponding region. In the field of image recognition, a max pooling technique is generally used. do. In the pooling technique, the pooling window size and spacing (stride, stride) are generally set to the same value. Here, the stride means adjusting an interval to move when applying a filter to input data, that is, an interval to move the filter, and stride can also be used to adjust the size of the output data. The detailed operation of the pulling technique will be described later with reference to FIG. 17.
본 개시의 일 실시예에 따른 특징 추출부(1210)는 분석 대상 영상의 특징을 추출하기 위한 전처리(pre-processing)로서, 분석 대상 영상에 필터링을 적용할 수 있다. 상기 필터링은 고속 푸리에 변환(Fast Fourier Transform, FFT), 히스토그램 평활화(histogram equalization), 모션 아티팩트(motion artifact) 제거 또는 노이즈(noise) 제거 등일 수 있다. 그러나, 본 개시의 필터링은 상기 열거한 방법으로 제한되지 않으며, 영상의 품질을 개선할 수 있는 모든 형태의 필터링을 포함할 수 있다. 또는 전처리로서 도 5 내지 도 11을 참조하여 설명한 영상의 강화가 수행될 수도 있다.The feature extraction unit 1210 according to an embodiment of the present disclosure is pre-processing for extracting features of an analysis target image, and filtering may be applied to the analysis target image. The filtering may be a Fast Fourier Transform (FFT), histogram equalization, motion artifact removal, or noise removal. However, the filtering of the present disclosure is not limited to the above-listed methods, and may include all types of filtering capable of improving the image quality. Alternatively, as the pre-processing, enhancement of the image described with reference to FIGS. 5 to 11 may be performed.
맥락 생성부(1220)는 특징 추출부(1210)로부터 추출된 입력 영상의 특징을 이용하여 입력 영상(분석 대상 영상)의 맥락 정보를 생성할 수 있다. 예컨대, 상기 맥락 정보는 분석 대상 영상의 전체 또는 일부 영역을 나타내는 대표값일 수 있다. 또한 상기 맥락 정보는 입력 영상의 전역적인 맥락 정보일 수 있다. 일 실시예에 따른 맥락 생성부(1220)는 합성곱 신경망 기법 또는 풀링 기법을 특징 추출부(1210)로부터 추출된 특징에 적용하여 맥락 정보를 생성할 수 있다. 상기 풀링 기법은 예컨대, 평균 풀링(average pooling) 기법일 수 있다.The context generation unit 1220 may generate context information of the input image (analysis target image) using the features of the input image extracted from the feature extraction unit 1210. For example, the context information may be a representative value representing all or part of an image to be analyzed. Also, the context information may be global context information of the input image. The context generation unit 1220 according to an embodiment may generate context information by applying a convolutional neural network technique or a pooling technique to features extracted from the feature extraction unit 1210. The pooling technique may be, for example, an average pooling technique.
특징 및 맥락 분석부(1230)는 특징 추출부(1210)에서 추출된 특징 및 맥락 생성부(1220)에서 생성된 맥락 정보에 기초하여 영상을 분석할 수 있다. 일 실시예에 따른 특징 및 맥락 분석부(1230)는 특징 추출부(1210)에서 추출된 영상의 각 영역마다의 국소적인 특징 및 맥락 생성부(1220)에서 재구성된 전역적인 맥락을 결합(concatenate)하는 등의 방식으로 함께 사용하여, 입력 영상을 분류하거나 입력 영상에 포함된 관심 객체의 위치 등을 찾는데 이용할 수 있다. 입력 영상 내 특정 2차원 위치에서의 정보는 국소적인 특징 정보뿐만 아니라 전역적인 맥락 정보까지 포함하게 되므로, 특징 및 맥락 분석부(1230)는 이들 정보를 이용함으로써, 실제 내용은 상이하지만 국소적인 특징 정보가 유사한 입력 영상들에 대해 보다 정확한 인식 또는 분류 등이 가능하게 된다. The feature and context analysis unit 1230 may analyze an image based on the feature extracted by the feature extraction unit 1210 and the context information generated by the context generation unit 1220. The feature and context analysis unit 1230 according to an embodiment concatenates local features and local contexts reconstructed by the context generation unit 1220 for each region of the image extracted by the feature extraction unit 1210. It can be used together to classify the input image or to find the location of the object of interest included in the input image. Since information at a specific 2D position in the input image includes not only local feature information but also global context information, the feature and context analysis unit 1230 uses these information, so that the actual content is different but local feature information. It is possible to more accurately recognize or classify similar input images.
전술한 바와 같이, 본 개시의 일 실시예에 따른 발명은, 일반적인 합성곱 신경망 기법이 사용하는 국소적인 특징뿐만 아니라 전역적인 맥락 정보를 함께 사용함으로써, 보다 더 정확하고 효율적인 학습 및 영상 분석이 가능하게 된다. 이러한 관점에서 본 개시에 따른 발명이 적용된 신경망을 '맥락 분석을 통한 심층 신경망'이라 할 수 있다.As described above, the invention according to an embodiment of the present disclosure enables more accurate and efficient learning and image analysis by using global context information as well as local features used by general convolutional neural network techniques. do. From this point of view, the neural network to which the invention according to the present disclosure is applied may be referred to as'deep neural network through context analysis'.
도 13은 본 개시의 일 실시예에 따른 영상의 맥락 정보를 생성하고 분석하는 과정을 나타내는 도면이다.13 is a diagram illustrating a process of generating and analyzing context information of an image according to an embodiment of the present disclosure.
도 13의 특징 추출부(1310), 맥락 생성부(1320), 및 특징 및 맥락 분석부(1330)는 각각 도 12의 특징 추출부(1210), 맥락 생성부(1220), 및 특징 및 맥락 분석부(1230)의 일 실시예일 수 있다.The feature extraction unit 1310, the context generation unit 1320, and the feature and context analysis unit 1330 of FIG. 13 are the feature extraction unit 1210, the context generation unit 1220, and the feature and context analysis of FIG. 12, respectively. It may be an embodiment of the unit 1230.
도 13을 참조하면, 특징 추출부(1310)는 입력 영상(1312)을 이용하여 입력 영상(1312)으로부터 특징을 추출하고, 추출된 특징 정보를 포함하는 특징 영상(1314)을 생성할 수 있다. 상기 추출된 특징은 입력 영상의 국소 영역에 대한 특징일 수 있다. 상기 입력 영상(1312)은 영상 분석 장치의 입력 영상 또는 합성곱 신경망 모델 내의 각 계층에서의 특징맵을 포함할 수 있다. 또한 상기 특징 영상(1314)은 입력 영상(1312)에 대해 합성곱 신경망 기법 및/또는 풀링 기법을 적용하여 획득된 특징맵 및/또는 특징 벡터를 포함할 수 있다.Referring to FIG. 13, the feature extractor 1310 may extract a feature from the input image 1312 using the input image 1312 and generate a feature image 1314 that includes the extracted feature information. The extracted feature may be a feature for a local area of the input image. The input image 1312 may include an input image of an image analysis device or a feature map at each layer in a convolutional neural network model. Also, the feature image 1314 may include a feature map and/or feature vector obtained by applying a convolutional neural network technique and/or a pooling technique to the input image 1312.
맥락 생성부(1320)는 특징 추출부(1310)에서 추출된 특징 영상(1314)에 대해 합성곱 신경망 기법 및/또는 풀링 기법을 적용하여 맥락 정보를 생성할 수 있다. 예컨대, 맥락 생성부(1320)는 풀링의 간격(stride)을 다양하게 조절함으로써 영상 전체, 4등분 영역, 9등분 영역 등의 다양한 크기(scale)의 맥락 정보를 생성할 수 있다. 도 13을 참조하면, 영상 전체 크기의 영상에 대한 맥락 정보를 포함하는 전체 맥락 정보 영상(1322), 영상 전체를 4등분한 크기의 4등분 영상에 대한 맥락 정보를 포함하는 4등분 맥락 정보 영상(1324) 및 영상 전체를 9등분한 크기의 9등분 영상에 대한 맥락 정보를 포함하는 9등분 맥락 정보 영상(1326)이 획득될 수 있다. The context generation unit 1320 may generate context information by applying a convolutional neural network technique and/or a pooling technique to the feature image 1314 extracted by the feature extraction unit 1310. For example, the context generating unit 1320 may generate context information of various scales, such as an entire image, a quadrant area, and a 9-section area, by variously adjusting the spacing of the pooling. Referring to FIG. 13, an entire context information image 1322 including context information for an image of a full-size image, and a quadrant context information image including context information for a quarter image having a size that is divided into four parts of the entire image ( 1324) and a 9-part context information image 1326 may be obtained, including context information for a 9-part image of a size divided into 9 parts.
특징 및 맥락 분석부(1330)는 상기 특징 영상(1314)과 상기 맥락 정보 영상(1322, 1324, 1326)을 모두 이용하여 분석 대상 영상의 특정 영역에 대한 분석을 보다 정확히 수행할 수 있다. The feature and context analysis unit 1330 may more accurately perform analysis on a specific region of an analysis target image using both the feature image 1314 and the context information images 1322, 1324, and 1326.
예컨대, 자동차(car)와 유사한 형태를 갖는 보트(boat)가 포함된 영상이 입력 영상인 경우, 특징 추출부(1310)가 추출한 국소적인 특징을 포함하는 특징 영상(1314)으로부터는 상기 식별된 객체가 자동차인지 보트인지 정확히 판단할 수 없다. 즉, 특징 추출부(1310)는 국소적인 특징에 기초하여 객체의 형상을 인식할 수 있으나, 해당 객체의 형상만 가지고는 정확히 객체를 식별하고 분류할 수 없는 경우가 있다.For example, when an image including a boat having a shape similar to a car is an input image, the identified object is obtained from the feature image 1314 including local features extracted by the feature extractor 1310. It is impossible to accurately determine whether is a car or a boat. That is, the feature extraction unit 1310 may recognize the shape of the object based on the local feature, but may not accurately identify and classify the object using only the shape of the object.
본 개시의 일 실시예에 따른 맥락 생성부(1320)는 상기 분석 대상 영상 또는 상기 특징 영상(1314)에 기초하여 맥락 정보(1322, 1324, 1326)를 생성함으로써, 보다 정확히 객체를 식별하고 분류할 수 있다. 예컨대, 전체 영상에 대해 추출된 특징이 "자연 경관"으로 인식 또는 분류되고, 4등분 영상에 대해 추출된 특징이 "호수"로 인식 또는 분류되고, 9등분 영상에 대해 추출된 특징이 "물"로 인식 또는 분류되는 경우, 상기 추출된 특징인 "자연 경관", "호수", "물"을 맥락 정보로서 생성하고 활용할 수 있다.The context generation unit 1320 according to an embodiment of the present disclosure can more accurately identify and classify objects by generating context information 1322, 1324, and 1326 based on the analysis target image or the feature image 1314. Can be. For example, the feature extracted for the entire image is recognized or classified as "natural landscape", the feature extracted for the quarter image is recognized or classified as "lake", and the feature extracted for the 9-part image is "water" When recognized or classified as, the extracted features “natural landscape”, “lake”, and “water” may be generated and utilized as context information.
본 개시의 일 실시예에 따른 특징 및 맥락 분석부(1330)는 상기 맥락 정보를 활용함으로써, 상기 보트 또는 자동차의 형상을 갖는 객체를 "보트"로 식별할 수 있다.The feature and context analysis unit 1330 according to an embodiment of the present disclosure may identify an object having a shape of the boat or vehicle as a "boat" by utilizing the context information.
도 13을 참조하여 설명한 실시예에서는 전체 영상에 대한 맥락 정보, 4등분 영상에 대한 맥락 정보, 9등분 영상에 대한 맥락 정보를 생성하고 활용하는 것에 대해 설명하였으나, 맥락 정보를 추출하는 영상의 크기는 이에 한정되지 않는다. 예컨대, 전술한 크기의 영상 이외의 크기를 갖는 영상에 대한 맥락 정보를 생성하고 활용할 수도 있다. In the embodiment described with reference to FIG. 13, it has been described to generate and utilize context information for an entire image, context information for a quarter image, and context information for a ninth image, but the size of the image for extracting context information is It is not limited to this. For example, context information for an image having a size other than the above-described image may be generated and utilized.
본 개시의 일 실시예에 따른 합성곱 신경망 기법 및 풀링에 대해서는 도 16 및 도 17을 참조하여 후술한다.The convolutional neural network technique and pooling according to an embodiment of the present disclosure will be described later with reference to FIGS. 16 and 17.
도 14는 본 개시의 일 실시예에 따른 영상 분석 장치가 영상을 분석하여 객체를 식별하는 과정을 설명하기 위한 도면이다.14 is a diagram for explaining a process in which an image analysis apparatus according to an embodiment of the present disclosure analyzes an image to identify an object.
예컨대, 영상 분석 장치(1400)는 영상(1410)을 입력 받고, 다양한 크기의 영상 영역에 대한 정보를 생성함으로써, 영상(1410)에 포함된 객체를 정확히 식별 및/또는 분류할 수 있다. 입력 영상(1410)은 예컨대, 가방을 포함하는 X-ray 영상일 수 있다. 영상 분석 장치(1400)는 전술한 바에 따라 입력 영상(1410)을 분석하여, 영상 전체에 대한 특징, 영상의 일부 영역에 대한 특징을 추출하고 이를 이용하여 영상(1410)에 포함된 객체를 정확히 식별할 수 있다. 상기 영상 전체에 대한 특징(1422)은 예컨대, 가방의 형상에 대한 특징일 수 있다. 상기 영상의 일부 영역에 대한 특징은 예컨대, 손잡이에 대한 특징(1424), 지퍼에 대한 특징(1426, 고리에 대한 특징(1428) 등을 포함할 수 있다. For example, the image analysis device 1400 may accurately identify and/or classify objects included in the image 1410 by receiving the image 1410 and generating information on image regions of various sizes. The input image 1410 may be, for example, an X-ray image including a bag. The image analysis device 1400 analyzes the input image 1410 as described above, extracts features for the entire image, and features for some areas of the image, and accurately identifies the objects included in the image 1410 using the image analysis. can do. The feature 1422 for the entire image may be, for example, a feature for the shape of the bag. Features for some areas of the image may include, for example, features 1424 for handles, features 1426 for zippers, features 1428 for rings, and the like.
영상 분석 장치(1400)는 상기 생성된 특징들(1422, 1424, 1426, 1428)을 맥락 정보로서 활용함으로써, 상기 영상(1410)에 포함된 객체가 "가방"이라는 것을 정확히 식별할 수 있다.The image analysis apparatus 1400 can accurately identify that the object included in the image 1410 is a "bag" by using the generated features 1422, 1424, 1426, and 1428 as context information.
만약 상기 생성된 특징들 중 일부가 "가방"과 관련이 없는 특징이라면, 영상 분석 장치(1400)는 상기 영상(1410)에 포함된 객체가 "가방"이라고 식별할 수 없거나 또는 상기 영상(1410)에 포함된 객체를 "가방"으로 식별할 수 없다는 분석 결과를 제공할 수 있다. 또는, 맥락 정보 중 일부가 다른 맥락 정보와 관련이 없는 경우, 해당 객체의 이상을 출력할 수 있다. 예컨대, "가방"에 대한 통상의 특징과는 관련이 없는 비정형의 공간, 일정한 두께 이상의 공간 등이 검출되는 경우, 해당 "가방"은 이상이 있는 가방이라는 신호를 출력할 수 있다. If some of the generated features are not related to the "bag", the image analysis device 1400 cannot identify that the object included in the image 1410 is a "bag" or the image 1410 It may provide an analysis result that the object included in the "bag" cannot be identified. Alternatively, when some of the context information is not related to other context information, an abnormality of the corresponding object may be output. For example, when an irregular space, a space of a certain thickness, or the like, which is not related to the normal characteristics of the "bag", is detected, the corresponding "bag" may output a signal that there is an abnormal bag.
상기와 같이, 통상의 맥락 정보와는 관련이 없는 맥락 정보가 포함되는 경우, 그러한 사실은 판독원에게 출력될 수 있으며, 판독원은 이에 기초하여 해당 영상의 물품 또는 객체에 대한 정밀 검사 또는 개장 검사를 실시할 수 있다.As described above, when contextual information that is not related to the normal contextual information is included, such fact may be output to the reader, and the reader may, based on this, perform a close inspection or remodeling inspection of the object or object of the corresponding image. Can be done.
도 15는 본 개시의 일 실시예에 따른 영상 분석 장치의 동작을 설명하기 위한 도면이다.15 is a view for explaining the operation of the image analysis apparatus according to an embodiment of the present disclosure.
S1500 단계에서 영상 분석 장치는 분석 대상 영상의 특징을 추출할 수 있다.In step S1500, the image analysis device may extract characteristics of the image to be analyzed.
일 실시예에 따른 영상 분석 장치는 일반적인 합성곱 신경망 기법 또는 풀링 기법을 이용하여 입력 영상의 특징을 추출할 수 있다. 상기 분석 대상 영상의 특징은 영상의 각 영역마다의 국소적인 특징일 수 있으며, 또한 상기 풀링 기법은 맥스 풀링 기법 및 평균 풀링 기법 중 적어도 하나를 포함할 수 있다. The image analysis apparatus according to an embodiment may extract characteristics of an input image using a general convolutional neural network technique or a pooling technique. The feature of the analysis target image may be a local feature for each region of the image, and the pooling technique may include at least one of a max pooling technique and an average pooling technique.
S1510 단계에서 영상 분석 장치는 S1500 단계에서 추출된 특징에 기초하여 맥락 정보를 생성할 수 있다.In step S1510, the image analysis device may generate context information based on the feature extracted in step S1500.
일 실시예에 따른 영상 분석 장치는 합성곱 신경망 기법 및/또는 풀링 기법을 S1500 단계에서 추출된 특징에 적용하여 맥락 정보를 생성할 수 있다. 상기 맥락 정보는 분석 대상 영상의 전체 또는 일부 영역을 나타내는 대표값일 수 있다. 또한 상기 맥락 정보는 입력 영상의 전역적인 맥락 정보일 수 있다. 또한, 상기 풀링 기법은 예컨대, 평균 풀링 기법일 수 있다.The image analysis apparatus according to an embodiment may generate context information by applying a convolutional neural network technique and/or a pooling technique to features extracted in step S1500. The context information may be a representative value representing all or part of an image to be analyzed. Also, the context information may be global context information of the input image. Further, the pooling technique may be, for example, an average pooling technique.
S1520 단계에서 영상 분석 장치는 S1500 단계에서 추출된 특징 및 S1510 단계에서 생성된 맥락 정보에 기초하여 상기 분석 대상 영상을 분석할 수 있다.In step S1520, the image analysis device may analyze the analysis target image based on the feature extracted in step S1500 and the context information generated in step S1510.
예컨대, 영상 분석 장치는 S1500 단계에서 추출된 영상의 각 영역마다의 국소적인 특징 및 S1510 단계에서 재구성된 전역적인 맥락을 결합하여 입력 영상을 분류하거나 입력 영상에 포함된 관심 객체의 위치 등을 찾을 수 있다. 따라서, 입력 영상에서 특정 2차원 위치에서의 정보가 국소적인 정보부터 전역적인 맥락까지 포함됨으로써, 실제 내용은 상이하지만 국소적인 정보가 유사한 입력 영상들에 대해 보다 정확한 인식 또는 분류 등이 가능하다. 또는 다른 맥락 정보와 관련이 없는 맥락 정보를 포함하는 객체에 대한 검출이 가능하다.For example, the image analysis apparatus may classify the input image by combining local features of each region of the image extracted in step S1500 and the global context reconstructed in step S1510, or find the location of the object of interest included in the input image. have. Accordingly, since information at a specific 2D position in the input image is included from the local information to the global context, more accurate recognition or classification of input images having different local contents but similar local information is possible. Alternatively, it is possible to detect an object containing contextual information that is not related to other contextual information.
도 16은 다채널 특징맵을 생성하는 합성곱 신경망의 일 실시예를 설명하기 위한 도면이다.16 is a diagram for explaining an embodiment of a multi-product neural network generating a multi-channel feature map.
합성곱 신경망 기반의 영상 처리는 다양한 분야에 활용될 수 있다. 예컨대, 영상의 객체 인식(object recognition)을 위한 영상 처리 장치, 영상 복원(image reconstruction)을 위한 영상 처리 장치, 시맨틱 세그먼테이션(semantic segmentation)을 위한 영상 처리 장치, 장면 인식(scene recognition)을 위한 영상 처리 장치 등에 이용될 수 있다.The image processing based on the convolutional neural network can be used in various fields. For example, an image processing device for object recognition of an image, an image processing device for image reconstruction, an image processing device for semantic segmentation, and image processing for scene recognition It can be used for devices and the like.
입력 영상(1610)은 합성곱 신경망(1600)을 통해 처리됨으로써 특징맵 영상을 출력할 수 있다. 출력된 특징맵 영상은 전술한 다양한 분야에 활용될 수 있다.The input image 1610 may be processed through the convolutional neural network 1600 to output a feature map image. The output feature map image can be utilized in various fields described above.
합성곱 신경망(1600)은 복수의 계층들(1620, 1630, 1640)을 통해 처리될 수 있으며, 각 계층은 다채널 특징맵 영상들(1625, 1635)을 출력할 수 있다. 일 실시예에 따른 복수의 계층들(1620, 1630, 1640)은 입력 받은 데이터의 좌측 상단으로부터 우측 하단까지 일정한 크기의 필터를 적용하여 영상의 특징을 추출할 수 있다. 예를 들어, 복수의 계층들(1620, 1630, 1640)은 입력 데이터의 좌측 상단 NxM 픽셀에 가중치를 곱해서 특징맵의 좌측 상단의 한 뉴런에 매핑시킨다. 이 경우, 곱해지는 가중치도 NxM가 될 것이다. 상기 NxM은 예컨대, 3x3일 수 있으나, 이에 한정되지 않는다. 이후, 동일한 과정으로, 복수의 계층들(1620, 1630, 1640)은 입력 데이터를 좌측에서 우측으로, 그리고 상단에서 하단으로 k 칸씩 스캔하면서 가중치를 곱하여 특징맵의 뉴런에 매핑한다. 상기 k 칸은 합성곱 수행시 필터를 이동시킬 간격(stride)을 의미하며, 출력 데이터의 크기를 조절하기 위해 적절히 설정될 수 있다. 예컨대, k는 1일 수 있다. 상기 NxM 가중치는 필터 또는 필터 커널이라고 한다. 즉, 복수의 계층들(1620, 1630, 1640)에서 필터를 적용하는 과정은 필터 커널과의 컨볼루션 연산을 수행하는 과정이며, 그 결과 추출된 결과물을 "특징맵(feature map)" 또는 "특징맵 영상"이라고 한다. 또한, 컨볼루션 연산이 수행된 계층을 합성곱 계층이라 할 수 있다.The convolutional neural network 1600 may be processed through a plurality of layers 1620, 1630, and 1640, and each layer may output multi-channel feature map images 1625 and 1635. The plurality of layers 1620, 1630, and 1640 according to an embodiment may extract a feature of an image by applying a filter having a constant size from the upper left to the lower right of the received data. For example, the plurality of layers 1620, 1630, and 1640 multiply the weights of the upper left NxM pixels of the input data and map them to one neuron in the upper left of the feature map. In this case, the multiplied weight will also be NxM. The NxM may be, for example, 3x3, but is not limited thereto. Subsequently, in the same process, the plurality of layers 1620, 1630, and 1640 scan input data from left to right and from top to bottom by multiplying the weights by k cells to map to the neurons of the feature map. The k column means a stride to move the filter when performing the convolution, and may be appropriately set to adjust the size of the output data. For example, k may be 1. The NxM weight is called a filter or filter kernel. That is, the process of applying a filter in a plurality of layers 1620, 1630, and 1640 is a process of performing a convolution operation with the filter kernel, and as a result, the extracted result is a "feature map" or "feature. It is called "map image". In addition, the layer on which the convolution operation is performed may be referred to as a convolutional layer.
“다채널 특징맵(multiple-channel feature map)"의 용어는 복수의 채널에 대응하는 특징맵들의 세트를 의미하고, 예를 들어 복수의 영상 데이터일 수 있다. 다채널 특징맵들은 합성곱 신경망의 임의의 계층에서의 입력일 수 있고, 컨볼루션 연산 등의 특징맵 연산 결과에 따른 출력일 수 있다. 일 실시예에 따르면, 다채널 특징맵들(1625, 1635)은 합성곱 신경망의 "특징 추출 계층들" 또는 "컨볼루션 계층들"이라고도 불리는 복수의 계층들(1620, 1630, 1640)에 의해 생성된다. 각각의 계층은 순차적으로 이전 계층에서 생성된 다채널 특징맵들을 수신하고, 출력으로서 그 다음의 다채널 특징맵들을 생성할 수 있다. 최종적으로 L(L은 정수)번째 계층(1640)에서는 L-1번째 계층(미도시)에서 생성한 다채널 특징맵들을 수신하여 미도시의 다채널 특징맵들을 생성할 수 있다.The term “multiple-channel feature map” refers to a set of feature maps corresponding to a plurality of channels, and may be, for example, a plurality of image data. It may be an input from an arbitrary layer, or an output according to a result of a feature map operation such as a convolution operation, etc. According to an embodiment, the multi-channel feature maps 1625 and 1635 are feature extraction layers of the convolutional neural network. Fields" or "convolutional layers", which are created by a plurality of layers 1620, 1630, 1640. Each layer sequentially receives multi-channel feature maps generated in the previous layer, and then as outputs Multi-channel feature maps may be generated.Lastly, the L (L is an integer) layer 1640 receives the multi-channel feature maps generated by the L-1-th layer (not shown), and the multi-channel features of not shown. You can create maps.
도 16을 참조하면, 채널 K1개를 가지는 특징맵들(1625)은 입력 영상(1610)에 대해 계층 1에서의 특징맵 연산(1620)에 따른 출력이고, 또한 계층 2에서의 특징맵 연산(1630)을 위한 입력이 된다. 또한, 채널 K2개를 가지는 특징맵들(1635)은 입력 특징맵들(1625)에 대해 계층 2에서의 특징맵 연산(1630)에 따른 출력이고, 또한 계층 3에서의 특징맵 연산(미도시)을 위한 입력이 된다.Referring to FIG. 16, feature maps 1625 having K1 channels are outputs according to feature map operation 1620 in layer 1 for input image 1610, and feature map operation 1630 in layer 2 ). In addition, feature maps 1635 having K2 channels are outputs according to feature map operation 1630 in layer 2 for input feature maps 1625, and feature map operation in layer 3 (not shown) It becomes the input for.
도 16을 참조하면, 첫 번째 계층(1620)에서 생성된 다채널 특징맵들(1625)은 K1(K1은 정수)개의 채널에 대응하는 특징맵들을 포함한다. 또한, 두 번째 계층(1630)에서 생성된 다채널 특징맵들(1635)은 K2(K2은 정수)개의 채널에 대응하는 특징맵들을 포함한다. 여기서, 채널의 개수를 나타내는 K1 및 K2는, 첫 번째 계층(1620) 및 두 번째 계층(1630)에서 각각 사용된 필터 커널의 개수와 대응될 수 있다. 즉, M(M은 1 이상 L-1 이하의 정수)번째 계층에서 생성된 다채널 특징맵들의 개수는 M번째 계층에서 사용된 필터 커널의 개수와 동일할 수 있다.Referring to FIG. 16, the multi-channel feature maps 1625 generated in the first layer 1620 include feature maps corresponding to K1 (K1 is an integer) channels. In addition, the multi-channel feature maps 1635 generated in the second layer 1630 include feature maps corresponding to K2 (K2 is an integer) channels. Here, K1 and K2 representing the number of channels may correspond to the number of filter kernels used in the first layer 1620 and the second layer 1630, respectively. That is, the number of multi-channel feature maps generated in the M (M is an integer of 1 or more and L-1 or less) layer may be the same as the number of filter kernels used in the M layer.
도 17은 풀링 기법의 일 실시예를 설명하기 위한 도면이다.17 is a view for explaining an embodiment of a pooling technique.
도 17에 도시된 바와 같이, 풀링의 윈도우 사이즈는 2x2, 스트라이드는 2이며, 맥스 풀링을 입력 영상(1710)에 적용하여 출력 영상(1790)을 생성할 수 있다. As illustrated in FIG. 17, the window size of the pooling is 2×2 and the stride is 2, and Max pooling may be applied to the input image 1710 to generate the output image 1790.
도 17의 (a)에서, 입력 영상(1710)의 좌측 상단에 2x2 윈도우(1710)를 적용하고, 윈도우(1710) 영역 내의 값들 중 대표값(여기서는, 최대값 4)을 계산하여 출력 영상(1790)의 대응 위치(1720)에 입력한다.In FIG. 17A, a 2x2 window 1710 is applied to the upper left of the input image 1710, and a representative value (here, maximum value 4) among the values in the window 1710 area is calculated to output the image 1790. ) In the corresponding position 1720.
이후, 도 17의 (b)에서, 스트라이드만큼, 즉, 2만큼 윈도우를 이동하고, 윈도우(1730) 영역 내의 값들 중 최대값 3을 출력 영상(1790)의 대응 위치(1740)에 입력한다.Thereafter, in FIG. 17B, the window is moved by stride, that is, by 2, and a maximum value 3 of the values in the window 1730 area is input to a corresponding position 1740 of the output image 1790.
더 이상 우측으로 윈도우를 이동시킬 없는 경우, 다시 입력 영상의 좌측에서 스트라이드만큼 아래의 위치부터 상기 과정을 반복한다. 즉, 도 17의 (c)에 도시된 바와 같이, 윈도우(1750) 영역 내의 값들 중 최대값 5를 출력 영상(1790)의 대응 위치(1760)에 입력한다.If the window can no longer be moved to the right, the process is repeated from the position below the stride from the left of the input image. That is, as illustrated in (c) of FIG. 17, the maximum value 5 of the values in the window 1750 area is input to the corresponding position 1760 of the output image 1790.
이후, 도 17의 (d)에 도시된 바와 같이, 스트라이드만큼 윈도우를 이동하고, 윈도우(1770) 영역 내의 값들 중 최대값 2를 출력 영상(1790)의 대응 위치(1780)에 입력한다.Thereafter, as shown in FIG. 17D, the window is moved by the stride, and a maximum value 2 of the values in the window 1770 area is input to a corresponding position 1780 of the output image 1790.
상기 과정은 입력 영상(1710)의 우측 하단 영역에 윈도우가 위치할 때까지 반복적으로 수행됨으로써, 입력 영상(1710)에 풀링을 적용한 출력 영상(1790)을 생성할 수 있다.The above process may be repeatedly performed until a window is located in the lower right area of the input image 1710, thereby generating an output image 1790 that applies pooling to the input image 1710.
이하, 도 18 내지 도 22를 참고하여, 복수의 영상 및/또는 물품 정보를 활용하여 새로운 합성 영상 및/또는 이에 대응하는 가상의 물품 정보를 생성하는 방법의 일 실시예에 대해 설명한다.Hereinafter, an embodiment of a method of generating a new composite image and/or virtual article information corresponding thereto by using a plurality of images and/or article information will be described with reference to FIGS. 18 to 22.
도 18은 본 개시의 일 실시예에 따른 영상 합성 장치의 구성을 나타내는 블록도이다.18 is a block diagram showing the configuration of an image synthesizing apparatus according to an embodiment of the present disclosure.
도 18을 참조하면, 영상 합성 장치(1800)는 객체 영상 추출부(1810), 객체 위치 정보 생성부(1820), 영상 합성부(1830) 및/또는 객체 검출 딥러닝 모델 학습부(1840)를 포함할 수 있다. 다만, 이는 본 실시예를 설명하기 위해 필요한 일부 구성요소만을 도시한 것일 뿐, 영상 합성 장치(1800)에 포함된 구성요소가 전술한 예에 한정되는 것은 아니다. 예컨대, 둘 이상의 구성부가 하나의 구성부 내에서 구현될 수도 있고, 하나의 구성부에서 실행되는 동작이 분할되어 둘 이상의 구성부에서 실행되도록 구현될 수도 있다. 또한, 일부 구성부가 생략되거나 부가적인 구성부가 추가될 수도 있다. 또는, 도 1의 영상 분석 장치(112), 도 5의 영상 강화 장치(500), 도 12의 영상 분석 장치(1200) 및 도 18의 영상 합성 장치(1800)의 구성요소 중, 동일한 기능 또는 유사한 기능을 수행하는 구성부는 하나의 구성요소로서 구현될 수도 있다.Referring to FIG. 18, the image synthesis device 1800 includes an object image extraction unit 1810, an object location information generation unit 1820, an image synthesis unit 1830, and/or an object detection deep learning model learning unit 1840. It can contain. However, this only shows some components necessary to describe the present embodiment, and the components included in the image synthesizing apparatus 1800 are not limited to the above-described examples. For example, two or more components may be implemented in one component, or an operation executed in one component may be divided and implemented to be executed in two or more components. In addition, some components may be omitted or additional components may be added. Or, among the components of the image analysis device 112 of FIG. 1, the image enhancement device 500 of FIG. 5, the image analysis device 1200 of FIG. 12, and the image synthesis device 1800 of FIG. 18, the same function or similar The component performing the function may be implemented as one component.
본 개시의 일 실시예에 따른 영상 합성 장치(1800)는 제1 객체를 포함하는 제1 영상 및 제2 객체를 포함하는 제2 영상을 입력 받아, 제1 영상 및 제2 영상의 각각에 대해 객체와 배경을 구분하고, 구분된 제1 객체 및 제2 객체의 위치 정보를 생성하고, 제1 객체의 위치 정보 및 제2 객체의 위치 정보에 기초하여, 제1 객체 및 제2 객체를 포함하는 제3 영상을 생성하고, 제1 객체의 위치 정보, 제2 객체의 위치 정보 및 제3 영상을 이용하여 객체 검출 딥러닝 모델을 학습할 수 있다.The image synthesizing apparatus 1800 according to an embodiment of the present disclosure receives a first image including a first object and a second image including a second object, and objects for each of the first image and the second image And a background, the first object and the second object are generated, and the first object and the second object are based on the first object and the second object. 3 images can be generated, and an object detection deep learning model can be trained using location information of a first object, location information of a second object, and a third image.
도 18을 참조하면, 입력 영상(1850)은 단일 객체를 포함하는 영상을 포함할 수 있다. 입력 영상(1850)에 대한 설명은 도 1 등을 참조하여 설명한 입력 영상에 대한 설명과 동일하다.Referring to FIG. 18, the input image 1850 may include an image including a single object. The description of the input image 1850 is the same as the description of the input image described with reference to FIG. 1 and the like.
객체 영상 추출부(1810)는 단일 객체를 포함하는 영상(1850)을 수신하고 수신된 영상을 객체와 배경으로 구분할 수 있다. 객체 영상 추출부(1810)에 대한 설명은 도 5 및 도 6을 참조하여 설명한 객체 영상 추출부(520)에 대한 설명과 동일하다.The object image extraction unit 1810 may receive an image 1850 including a single object and distinguish the received image into an object and a background. The description of the object image extraction unit 1810 is the same as the description of the object image extraction unit 520 described with reference to FIGS. 5 and 6.
객체 위치 정보 생성부(1820)는 객체 영상 추출부(1810)로부터 추출된 객체의 위치를 결정할 수 있다. 예컨대, 객체 위치 정보 생성부(1820)는 객체 영역을 둘러싸는 사각형 박스(bounding box)를 특정하고, 특정된 사각형 박스에 기초하여, 객체 영상 추출부(1810)에서 구분된 객체의 위치 정보를 생성할 수 있다. 객체의 위치 정보를 생성하는 방법에 대한 설명은 도 6을 참조한 방법에 대한 설명과 동일하다.The object location information generation unit 1820 may determine the location of the object extracted from the object image extraction unit 1810. For example, the object location information generating unit 1820 specifies a bounding box surrounding the object area, and generates location information of the object classified by the object image extraction unit 1810 based on the specified square box. can do. The description of the method for generating the location information of the object is the same as the description for the method with reference to FIG. 6.
본 개시의 일 실시예에 따르면, 영상에 포함된 객체의 위치 정보가 자동으로 생성될 수 있으므로, 인공지능 학습을 위해 판독원이 각각의 영상마다 객체의 위치 정보를 직접 입력해야 하는 번거로움을 피할 수 있다.According to an embodiment of the present disclosure, since location information of an object included in an image may be automatically generated, a hassle of having to manually input location information of an object for each image is avoided by a reader for artificial intelligence learning. Can be.
다시 도 18을 참조하여, 영상 합성부(1830)는 객체 영상 추출부(1810) 및 객체 위치 정보 생성부(1820)를 거쳐 객체의 위치 정보가 획득된 복수의 단일 객체 영상을 이용하여 다중 객체 영상을 생성할 수 있다. 예컨대, 제1 객체를 포함하는 제1 영상 및 제2 객체를 포함하는 제2 영상에 대해, 각각 객체 영상 추출부(1810) 및 객체 위치 정보 생성부(1820)를 거쳐 제1 객체의 위치 정보 및 제2 객체의 위치 정보가 획득되고, 영상 합성부(1830)는 획득된 제1 객체의 위치 정보 및 제2 객체의 위치 정보에 기초하여 제1 객체 및 제2 객체를 포함하는 제3 영상을 생성할 수 있다. 다중 객체 영상을 생성하는 구체적인 과정에 대해 도 19를 참고하여 보다 상세히 설명한다.Referring back to FIG. 18, the image synthesizing unit 1830 uses a plurality of single object images obtained through the object image extraction unit 1810 and the object location information generation unit 1820 to obtain multi-object images. Can generate For example, for the first image including the first object and the second image including the second object, the location information of the first object through the object image extraction unit 1810 and the object location information generation unit 1820, respectively, and The location information of the second object is obtained, and the image synthesis unit 1830 generates a third image including the first object and the second object based on the obtained location information of the first object and the location information of the second object can do. A detailed process of generating a multi-object image will be described in more detail with reference to FIG. 19.
도 19는 본 개시의 일 실시예에 따른 단일 객체를 포함하는 두 개의 영상을 이용하여 다중 객체 영상을 생성하는 과정을 나타내는 도면이다. 도 19의 영상 합성부(1900)는 도 18의 영상 합성부(1830)의 일 실시예다. 도 19를 참조하면, 영상 합성부(1900)는 객체 영상 추출부 및 객체 위치 정보 생성부를 통해 획득된 제1 단일 객체 영상(1910), 제2 단일 객체 영상(1920) 및 제1 단일 객체 영상(1910)과 제2 단일 객체 영상(1920)의 위치 정보를 이용하여, 제1 단일 객체 영상(1910)과 제2 단일 객체 영상이 합성된 다중 객체 영상(1940) 및 다중 객체 영상(1940)에 포함된 객체들에 대한 위치 정보(1950)를 획득할 수 있다. 한편, 영상 합성부(1900)는 제1 단일 객체 영상(1910)과 제2 단일 객체 영상(1920)의 합성 시 객체로부터 구분된 배경에 대한 영상(1930)도 함께 이용할 수도 있다. 복수의 영상 합성시, 제1 단일 객체 영상(1910)의 위치 정보와 제2 단일 객체 영상(1920)의 위치 정보는 임의로 수정될 수 있다. 또한, 수정된 위치 정보에 기초하여 영상의 합성이 수행될 수 있다. 그럼으로써, 무수히 많은 양의 합성 영상과 가상의 위치 정보를 생성해 낼 수 있다.19 is a diagram illustrating a process of generating a multi-object image using two images including a single object according to an embodiment of the present disclosure. The image synthesizing unit 1900 of FIG. 19 is an embodiment of the image synthesizing unit 1830 of FIG. 18. Referring to FIG. 19, the image synthesizing unit 1900 includes the first single object image 1910, the second single object image 1920, and the first single object image (obtained through the object image extraction unit and the object location information generation unit). Using the location information of 1910) and the second single object image 1920, the first single object image 1910 and the second single object image are included in the synthesized multi-object image 1940 and the multi-object image 1940. It is possible to obtain location information 1950 for the objects. Meanwhile, the image synthesizing unit 1900 may also use an image 1930 for a background separated from an object when synthesizing the first single object image 1910 and the second single object image 1920. When synthesizing a plurality of images, the location information of the first single object image 1910 and the location information of the second single object image 1920 may be arbitrarily modified. In addition, image synthesis may be performed based on the corrected location information. By doing so, it is possible to generate a myriad of synthetic images and virtual location information.
전술한 바와 같이, 합성을 통해 학습에 필요한 만큼의 합성 영상 및/또는 그에 대응하는 가상의 위치 정보를 생성해 낼 수 있다. 따라서, 학습에 필요한 영상 및/또는 위치 정보의 절대적인 수가 작은 경우에도 인공지능 모델을 학습시키기에 충분한 수의 학습 데이터를 얼마든지 생성해 낼 수 있다.As described above, through synthesis, as many synthetic images as necessary for learning and/or virtual location information corresponding thereto may be generated. Therefore, even if the absolute number of images and/or location information necessary for learning is small, it is possible to generate any number of learning data sufficient to train the AI model.
다시 도 18을 참조하여, 객체 검출 딥러닝 모델 학습부(1840)는 제1 객체의 위치 정보, 제2 객체의 위치 정보 및 제3 영상을 이용하여 객체 검출 딥러닝 모델을 학습시킬 수 있다. 예컨대, 객체 검출 딥러닝 모델 학습부(1840)는 합성곱 신경망 모델을 학습시킬 수 있다. 합성곱 신경망 모델의 학습을 위해 제1 객체의 위치 정보, 제2 객체의 위치 정보 및 제3 영상이 이용될 수 있다.Referring back to FIG. 18, the object detection deep learning model learning unit 1840 may train an object detection deep learning model using location information of a first object, location information of a second object, and a third image. For example, the object detection deep learning model learning unit 1840 may train the convolutional neural network model. The location information of the first object, the location information of the second object, and the third image may be used for training the convolutional neural network model.
도 20은 본 개시의 일 실시예에 따른 다중 객체 영상을 이용하여 합성곱 신경망을 학습시키는 과정을 나타내는 도면이다. 도 20의 객체 검출 딥러닝 모델 학습부(2000)는 도 18의 객체 검출 딥러닝 모델 학습부(1840)의 일 실시예다. 도 20을 참조하면, 학습에 필요한 데이터로서 단일 객체 영상들과 객체들의 위치 정보를 이용하여 합성된 다중 객체 영상(2010)을 이용할 수 있다. 객체 검출 딥러닝 모델 학습부(2000)는 다중 객체 영상(2010)에 대해 단일 객체 각각의 위치 정보를 함께 사영시킴으로써 합성곱 신경망(2020)을 학습시킬 수 있다. 일 실시예에 따를 때, 전자 검색 시스템에서 X-Ray 검색기를 통과하는 물체 내에 복수의 객체가 존재하면, 복수의 객체들이 겹쳐진 X-Ray 영상이 획득될 수 있는데, 본 개시에 따르면, 영상 내의 복수의 객체의 위치 정보와 함께 각각의 객체의 형상을 이용하여 합성곱 신경망을 학습시키기 때문에, 객체 간 겹침이 발생하여도 보다 정확한 검출 결과가 획득될 수 있다.20 is a diagram illustrating a process of training a convolutional neural network using a multi-object image according to an embodiment of the present disclosure. The object detection deep learning model learning unit 2000 of FIG. 20 is an embodiment of the object detection deep learning model learning unit 1840 of FIG. 18. Referring to FIG. 20, a multi-object image 2010 synthesized by using single object images and location information of objects may be used as data necessary for learning. The object detection deep learning model learning unit 2000 may train the convolutional neural network 2020 by projecting the location information of each single object with respect to the multi-object image 2010. According to an embodiment, if a plurality of objects are present in an object passing through an X-Ray searcher in an electronic search system, an X-Ray image in which a plurality of objects are overlapped may be obtained. According to the present disclosure, a plurality of images may be obtained. Since the convolutional neural network is trained by using the shape of each object together with the positional information of the object, more accurate detection results can be obtained even if overlapping occurs between objects.
도 21은 본 개시의 일 실시예에 따른 영상 합성 장치를 이용하여 실제 영상을 분석하는 과정을 설명하기 위한 도면이다.21 is a view for explaining a process of analyzing an actual image using an image synthesizing apparatus according to an embodiment of the present disclosure.
도 21의 영상 합성 장치(2100)는 도 18의 영상 합성 장치(1800)의 일 실시예다. 도 21의 영상 합성 장치(2100)가 포함하는 객체 영상 추출부(2104), 객체 위치 정보 생성부(2106), 영상 합성부(2108) 및 객체 검출 딥러닝 모델 학습부(2110)의 동작은 도 18의 영상 합성 장치(1800)에 포함된 객체 영상 추출부(1810), 객체 위치 정보 생성부(1820), 영상 합성부(1830) 및 객체 검출 딥러닝 모델 학습부(1840)의 동작과 동일하다. 따라서, 영상 합성 장치(2100)는 복수의 단일 객체 영상(2102)에 대해 객체 영상 추출부(2104), 객체 위치 정보 생성부(2106), 영상 합성부(2108) 및 객체 검출 딥러닝 모델 학습부(2110)에서의 동작을 수행함으로써 학습된 합성곱 신경망 모델을 생성할 수 있다. 객체 검출 장치(2120)는 실제 환경의 다중 객체를 포함하는 영상(2122)에 대해 영상 처리 장치(2100)에서 학습된 합성곱 신경망 모델을 이용하여 각각의 객체를 검출할 수 있다. The image synthesizing apparatus 2100 of FIG. 21 is an embodiment of the image synthesizing apparatus 1800 of FIG. 18. The operation of the object image extraction unit 2104, the object location information generation unit 2106, the image synthesis unit 2108, and the object detection deep learning model learning unit 2110 included in the image synthesis device 2100 of FIG. The operations of the object image extraction unit 1810, the object location information generation unit 1820, the image synthesis unit 1830, and the object detection deep learning model learning unit 1840 included in the image synthesis device 1800 of 18 are the same. . Accordingly, the image synthesizing apparatus 2100 includes an object image extraction unit 2104, an object location information generation unit 2106, an image synthesis unit 2108, and an object detection deep learning model learning unit for a plurality of single object images 2102. By performing the operation in 2110, a trained convolutional neural network model can be generated. The object detection device 2120 may detect each object using the convolutional neural network model trained by the image processing device 2100 for the image 2122 including multiple objects in a real environment.
일 실시예에 따를 때, 물품 검색 시스템에 본 개시의 발명이 적용되는 경우, 본 개시의 영상 합성 장치(2100)는 X-Ray 영상 내 단일 객체 영역 추출을 기반으로 새롭게 다중 객체 포함 영상을 생성할 수 있다. 또한 객체 검출 장치(2120)는 X-Ray 검색기를 통과하는 물품 내 포함된 다중 객체가 존재하는 영역을 찾을 수 있다. 따라서, X-Ray 영상에 대해 객체의 위치를 자동적으로 추출함으로써, 판독원이 보다 수월하게 영상 검사 작업을 수행할 수 있도록 할 수 있고, 또한 추출된 객체와 물체 내 객체의 수량 정보 등을 포함하는 전산 정보를 비교하는 업무 등에 이용될 수 있다.According to an embodiment, when the invention of the present disclosure is applied to an article search system, the image synthesizing apparatus 2100 of the present disclosure may generate a new multi-object-included image based on a single object region extraction in an X-Ray image. Can be. Also, the object detection device 2120 may find an area where multiple objects included in an article passing through the X-Ray searcher exist. Therefore, by automatically extracting the position of the object with respect to the X-Ray image, a reader can perform the image inspection task more easily, and also includes information on the quantity of the extracted object and the object in the object. It can be used for tasks such as comparing computerized information.
도 22는 본 개시의 일 실시예에 따른 영상 합성 방법을 설명하기 위한 도면이다.22 is a diagram for explaining a method for synthesizing an image according to an embodiment of the present disclosure.
S2200 단계에서, 제1 객체를 포함하는 제1 영상 및 제2 객체를 포함하는 제2 영상을 입력 받아, 제1 영상 및 제2 영상의 각각에 대해 객체와 배경을 구분할 수 있다. 예컨대, 입력 영상의 픽셀값과 소정의 임계값을 비교하여 픽셀값을 이진화하고, 이진화된 픽셀값을 그룹핑함으로써 입력 영상에 포함된 객체를 구분할 수 있다.In step S2200, the first image including the first object and the second image including the second object may be input to distinguish an object and a background for each of the first image and the second image. For example, by comparing the pixel value of the input image with a predetermined threshold, the pixel value is binarized, and the objects included in the input image can be distinguished by grouping the binarized pixel values.
S2210 단계에서, 구분된 제1 객체 및 제2 객체의 위치 정보를 생성할 수 있다. 예컨대, 객체 영역을 둘러싸는 사각형 박스를 특정하고, 특정된 사각형 박스에 기초하여, S2200 단계에서 구분된 객체의 위치 정보를 생성할 수 있다.In step S2210, location information of the separated first object and the second object may be generated. For example, a rectangular box surrounding the object area may be specified, and based on the specified rectangular box, location information of the object classified in step S2200 may be generated.
S2220 단계에서, 제1 객체의 위치 정보 및 제2 객체의 위치 정보에 기초하여, 제1 객체 및 제2 객체를 포함하는 제3 영상을 생성할 수 있다. 예컨대, S2210 단계에서 획득된 제1 객체의 위치 정보 및 제2 객체의 위치 정보에 기초하여 제1 객체 및 제2 객체를 포함하는 제3 영상을 생성할 수 있다.In step S2220, based on the location information of the first object and the location information of the second object, a third image including the first object and the second object may be generated. For example, a third image including the first object and the second object may be generated based on the position information of the first object and the position information of the second object obtained in step S2210.
S2230 단계에서, 제1 객체의 위치 정보, 제2 객체의 위치 정보 및 제3 영상을 이용하여 객체 검출 딥러닝 모델을 학습할 수 있다. 예컨대, 합성곱 신경망 모델을 학습시킬 수 있으며, 합성곱 신경망 모델의 학습을 위해 S2210 단계에서 생성된 제1 객체의 위치 정보와 제2 객체의 위치 정보 및 S2220 단계에서 생성된 제3 영상이 이용될 수 있다.In step S2230, the object detection deep learning model may be trained using the location information of the first object, the location information of the second object, and the third image. For example, the convolutional neural network model may be trained, and the location information of the first object and the location information of the second object generated in step S2210 and the third image generated in the step S2220 may be used for training the convolutional neural network model. Can be.
도 18 내지 도 22를 참조하여 설명한 실시예에서는 단일 객체를 포함하는 영상을 입력 받아, 객체와 배경을 분리하는 예를 설명하였다. 그러나, 반드시 이에 한정되지 않으며, 입력 영상이 둘 이상의 객체를 포함하는 영상일 수도 있다. 이 경우, 입력 영상으로부터 둘 이상의 객체와 배경을 구분하고, 둘 이상의 객체의 각각에 대해 위치 정보를 생성하여 이용할 수도 있다. In the embodiment described with reference to FIGS. 18 to 22, an example of receiving an image including a single object and separating the object from the background has been described. However, the present invention is not limited thereto, and the input image may be an image including two or more objects. In this case, two or more objects and a background can be distinguished from the input image, and location information can be generated and used for each of the two or more objects.
또한, 상기 설명한 실시예에서는 2개의 단일 객체 영상 및 각 객체의 위치 정보에 기초하여 제3 영상을 생성하는 것으로 설명하였다. 그러나, 반드시 이에 한정되지 않으며, 둘 이상의 단일 객체 영상 및 각 객체의 위치 정보를 이용하여 제3 영상을 생성할 수도 있다. 즉, 본 개시에 따른 영상 처리 방법 및 장치는 각각이 하나 이상의 객체를 포함하는 둘 이상의 영상 및 각 객체의 위치 정보에 기초하여 제3 영상을 생성할 수 있다.In addition, in the above-described embodiment, it has been described as generating a third image based on two single object images and location information of each object. However, the present invention is not limited thereto, and a third image may be generated using two or more single object images and location information of each object. That is, the image processing method and apparatus according to the present disclosure may generate a third image based on two or more images each including one or more objects and location information of each object.
이하, 도 23 내지 도 30을 참고하여, 본 개시에 따른 물품 검색 시스템이 액체류 물질을 검출하는 방법 및 액체류 물질 검출을 위한 데이터 베이스를 구성하는 방법에 대해서 설명한다.Hereinafter, a method of detecting a liquid-like substance and a method of configuring a database for detecting the liquid-like substance will be described with reference to FIGS. 23 to 30.
종래 물품 검색 시스템에서 액체류 물질의 검출은, 숙련된 판독원의 경험에 의존하여 수행되는 것이 대부분이었다. 형태가 정해져 있는 물체는, 해당 물체의 특징 판독을 통하여 검출이 가능하였으나, 액체류 물질은 그 형태가 정해져 있지 않고, 담고 있는 용기에 따라 검출 대상 액체의 밀도가 달라져서, 일관된 알고리즘에 따른 검출이 용이하지 않았기 때문이다.In the conventional article retrieval system, the detection of liquid-like materials was mostly performed depending on the experience of an experienced reader. Objects with a predetermined shape can be detected by reading the characteristics of the object, but the liquid substance has no shape, and the density of the liquid to be detected varies depending on the container it contains, making it easy to detect according to a consistent algorithm. Because I did not.
관세 통관 분야 등에서는 위험 물질 혹은 반입 금지 물질을 다른 용기에 옮겨 담아 운반하는 경우가 빈번하였기에, 상술한 문제점에도 불구하고 액체류 물질에 대한 검출 필요성은 줄곧 대두되어 왔다.In the field of customs clearance, there are frequent cases where dangerous substances or prohibited substances are transferred to other containers and transported, and thus, despite the above-mentioned problems, the need to detect liquid substances has been emerging.
본 발명은 고도로 숙련된 판독원에 의한 판독에 의존하는 액체류 물질 검출을 해결하기 위해 제안된 것으로, 본 발명에 따르면, 경험이 다소 부족한 판독원도 액체류 물질 검출 방법이 적용된 영상 분석 장치의 도움을 받아 신속하고 정확한 액체류 물질 검출을 수행 할 수 있다.The present invention has been proposed to solve the detection of liquid substances that rely on reading by highly skilled readers, and according to the present invention, an inexperienced reader also helps with an image analysis device to which the method for detecting liquid substances is applied. It can perform quick and accurate detection of liquid substances.
도 23은 본 개시의 일 실시예에 따른 액체류 물질 검출 방법을 설명하기 위한 흐름도이다.23 is a flowchart illustrating a method for detecting a liquid substance according to an embodiment of the present disclosure.
도 23에 따르면, 본 개시의 일 실시예에 따른 액체류 물질 검출 방법은, 물품 검색 시스템(100) 혹은 영상 분석 장치(112)에 의해 수행 될 수 있다. 이하에서는, 편의상 영상 분석 장치(112)가 액체류 물질 검출 방법을 수행하는 것으로 설명한다. 하지만 넓은 의미에서, 본 개시에 따른 액체류 물질 검출 방법은 물품 검색 시스템(100)에 의해 수행되는 것으로도 해석 될 수 있다.According to FIG. 23, a method for detecting a liquid substance according to an embodiment of the present disclosure may be performed by the article search system 100 or the image analysis device 112. Hereinafter, for convenience, it will be described that the image analysis device 112 performs a liquid substance detection method. However, in a broad sense, the method for detecting liquid substances according to the present disclosure may also be interpreted as being performed by the article retrieval system 100.
본 개시의 일 실시예에 따른 액체류 물질 검출 방법은, X-ray 장치로부터 분석 대상 영상을 수신하는 단계(S2300), 분석 영상 내의 용기 영역을 검출하는 단계(S2310), 검출된 용기 영역 내의 액체 영역을 검출하는 단계(S2320), 검출된 액체 영역에 대한 특징을 추출하는 단계(S2330) 및/또는 추출된 액체 영역에 대한 특징과 액체류 데이터 베이스에 포함된 특징 정보를 비교하여 분석 대상 영상에 포함된 액체류 물질이 무엇인지를 결정하는 단계(S2340)을 포함 할 수 있다.A method for detecting a liquid substance according to an embodiment of the present disclosure includes receiving an image to be analyzed from an X-ray apparatus (S2300), detecting a container region in the analyzed image (S2310), and liquid in the detected vessel region Step (S2320) of detecting a region, step of extracting features of the detected liquid region (S2330), and/or comparing features of the extracted liquid region with feature information included in the liquid flow database to analyze the image to be analyzed. It may include the step (S2340) of determining what the liquid-like substance is included.
단계 S2300에서, 영상 분석 장치는 X-ray 장치로부터 분석 대상 영상을 수신할 수 있다. 여기서 분석 대상 영상은, 검출 대상 액체류 물질을 포함하는 영상 또는 사진을 의미 할 수 있다. 본 발명에서의 액체는 물이나 기름과 같이 자유로이 유동하여 용기의 모양에 따라 그 모양이 변하고, 일정한 형태를 가지지 않으며, 압축해도 부피 변화가 크지 않은 물질을 의미 할 수 있다. 또한, 본 발명에서의 용기는 액체류 물질을 담기 위해 사용되는 물체를 의미 할 수 있다. 본 개시에 따른 액체류 물질 검출 방법은 용기에 담겨 있는 액체류 물질을 검출하는 방법을 의미 할 수 있다.In step S2300, the image analysis apparatus may receive an image to be analyzed from the X-ray apparatus. Here, the analysis target image may mean an image or a photograph containing a liquid substance to be detected. The liquid in the present invention may freely flow, such as water or oil, to change its shape according to the shape of the container, does not have a constant shape, and may mean a material whose volume change is not large even when compressed. In addition, the container in the present invention may mean an object used to contain a liquid material. The method for detecting a liquid substance according to the present disclosure may mean a method for detecting a liquid substance contained in a container.
단계 S2310에서, 영상 분석 장치는 분석 대상 영상 내의 용기 영역을 검출 할 수 있다. 여기서 용기 영역이란, 용기의 밀폐된 공간에 의해 생기는 영상 상의 단면 공간을 의미 할 수 있다. 용기 영역은 X-ray 촬영 시 용기의 기울어진 정도 혹은 회전된 각도에 의해 다르게 나타 날 수 있다. 용기 영역의 검출과 함께, 영상 분석 장치는 미리 학습된 딥러닝 기반의 모델을 이용하여 용기의 종류 및/또는 부피에 대한 몇몇 후보리스트를 생성 할 수 있다. 나아가 영상 분석 장치는 영상 내의 용기의 종류 및/또는 부피가 후보 리스트에 포함되는 후보 중 어느 것에 해당하는지와 관련한 확률 정보를 유도 할 수 있다.In step S2310, the image analysis device may detect the container region in the image to be analyzed. Here, the container region may refer to a cross-sectional space on an image generated by the closed space of the container. The container area may be different depending on the inclination of the container or the angle of rotation during X-ray imaging. In addition to the detection of the container area, the image analysis device may generate several candidate lists for the type and/or volume of the container using a pre-trained deep learning based model. Furthermore, the image analysis apparatus may derive probability information related to which of the candidates included in the candidate list is the type and/or volume of containers in the image.
단계 S2320에서, 영상 분석 장치는 단계 S2310에서 검출된 용기 영역 내의 액체 영역을 검출 할 수 있다. 여기서 액체 영역이란, 용기 영역에 의해 생기는 밀폐된 공간에 액체가 담겨져 도시되는 영역을 의미 할 수 있다. X-ray 영상 상의 액체 영역은 용기에 의해, 용기 영역에 포함되는 형태로 도시 될 수 있다.In step S2320, the image analysis device may detect a liquid region in the container region detected in step S2310. Here, the liquid region may mean a region in which liquid is contained in an enclosed space created by the container region. The liquid region on the X-ray image may be shown by the container, in a form included in the container area.
단계 S2330에서, 영상 분석 장치는 단계 S2320에서 검출된 액체 영역에 대한 특징을 추출 할 수 있다. 여기서 특징은, 영상을 통해 나타나는 액체 영역의 색 정보, 색 패턴 정보, 밝기 정보, 밝기 패턴 정보 및/또는 간섭 정보 등을 포함 할 수 있으나 이에 한정되는 것은 아니다. 다른 예로, 액체 영역에 대한 특징은 영상 상의 용기 및/또는 액체로 인해 표현되는 특징 벡터를 의미 할 수 있다. 또 다른 예로, 특징 벡터는 액체 영역에 대한 특징을 파라미터화한 벡터를 의미 할 수 있다. In step S2330, the image analysis device may extract characteristics of the liquid region detected in step S2320. Here, the feature may include color information, color pattern information, brightness information, brightness pattern information, and/or interference information of a liquid region appearing through an image, but is not limited thereto. As another example, the feature for the liquid region may mean a feature vector represented by the container and/or liquid on the image. As another example, the feature vector may mean a vector parameterizing features for the liquid region.
또 다른 예로, 특징 벡터는 분석 대상 영상 상의 액체 영역의 특징을 통해 유도 될 수 있다. 예컨데, 특징 벡터는 액체 영역의 색 정보, 색 패턴 정보, 밝기 정보, 밝기 패턴 정보 및 용기 영역 내의 액체 성분의 분포 정보 중 적어도 하나를 이용하여 유도 될 수 있다.As another example, the feature vector may be derived through features of a liquid region on an image to be analyzed. For example, the feature vector may be derived using at least one of color information of a liquid region, color pattern information, brightness information, brightness pattern information, and distribution information of a liquid component in a container region.
분석 대상 영상 상의 액체 영역으로부터 특징 벡터를 추출하기 위해, 분석 대상 영상 내의 색 또는 밝기의 평균 혹은 분산 값이 사용될 수 있다. 또한 영상 분석 장치는 SIFT(Scale Invariant Feature Transform) 혹은 SURF(Speeded Up Robust Features) 알고리즘 중 적어도 하나를 이용하여, 액체 영역으로부터 특징 벡터를 추출 할 수 있다.In order to extract the feature vector from the liquid region on the analysis target image, an average or variance value of color or brightness in the analysis target image may be used. In addition, the image analysis apparatus may extract a feature vector from the liquid region using at least one of a Scale Invariant Feature Transform (SIFT) or a Speeded Up Robust Features (SURF) algorithm.
다른 예로, 영상 분석 장치는 액체 영역의 맥락을 이용한 합성곱 신경망 Convolutional Neural Network, CNN)의 출력 벡터를 제공 받고, 주성분 분석법(Principal Component Analysis) 등의 벡터의 차원 변경 알고리즘을 통해 출력 벡터를 최적의 복잡도를 가지는 출력 벡터로 변환 할 수 있다.As another example, the image analysis apparatus is provided with an output vector of a convolutional neural network (CNN) using the context of a liquid region, and an optimal output vector through a dimensional change algorithm of a vector such as principal component analysis. It can be converted to an output vector with complexity.
상술한 알고리즘은 본 개시의 특징 벡터를 유도하는데 사용되는 알고리즘의 일 예로서, 본 발명의 권리범위를 한정하지 않는다. 영상 분석 장치는 영상의 특징을 분석 혹은 추출하는 다양한 알고리즘을 활용하여 액체 영역으로부터 특징 벡터를 추출하거나, 유도 할 수 있다.The above-described algorithm is an example of an algorithm used to derive the feature vectors of the present disclosure, and does not limit the scope of the present invention. The image analysis apparatus may extract or derive a feature vector from the liquid region by using various algorithms that analyze or extract the features of the image.
여기서, SIFT는 영상의 크기와 회전에 불변하느 특징점을 추출하는 알고리즘을 의미 할 수 있다. 또한, SURF는 여러 개의 영상으로부터 스케일, 조명 시점 등의 환경 변화를 고려하여, 환경 변화에 불변하는 특징점을 찾는 알고리즘을 의미 할 수 있다. 또한, PCA는 높은 차원의 특징 벡터를 낮은 차원의 특징 벡터로 변환하는 알고리즘을 의미 할 수 있다.Here, SIFT may mean an algorithm for extracting feature points that are invariant to the size and rotation of an image. In addition, SURF may refer to an algorithm for finding feature points that are invariant to environmental changes by considering environmental changes such as scale and lighting point of view from multiple images. Also, PCA may refer to an algorithm for converting a high-dimensional feature vector to a low-dimensional feature vector.
단계 S2340에서, 영상 분석 장치는 단계 S2330에서 추출된 특징을 액체류 데이터 베이스에 포함되어 있는 특징 정보와 비교하여, 분석 대상 영상에 포함된 액체류 물질이 무엇인지를 결정 할 수 있다.In step S2340, the image analysis device may compare the feature extracted in step S2330 with feature information included in the liquid flow database, and determine what liquid flow material is included in the analysis target image.
일예로, 영상 분석 장치는 액체류 데이터 베이스에 포함된 특징 벡터와, 액체 영역을 통해 추출된 특징을 이용하여 유도된 특징 벡터간의 유사도 비교를 수행할 수 있다. 영상 분석 장치는 유사도 비교 결과에 따라 분석 대상 영상에 포함된 액체류 물질의 종류를 결정 할 수 있다. 나아가, 영상 분석 장치는 영상 내의 액체류 물질의 종류 및/또는 부피에 대한 몇몇 후보 리스트를 생성 할 수 있다. 나아가 영상 분석 장치는 영상 내의 액체류 물질의 종류 및/또는 부피가 후보 리스트에 포함되는 후보 종류 중 어느 것에 해당하는지와 관련한 확률 정보를 유도 할 수 있다.As an example, the image analysis apparatus may perform similarity comparison between a feature vector included in the liquid flow database and a feature vector derived using features extracted through the liquid region. The image analysis device may determine the type of the liquid substance included in the image to be analyzed according to the similarity comparison result. Furthermore, the image analysis apparatus may generate a list of several candidates for the type and/or volume of liquid substances in the image. Furthermore, the image analysis device may derive probability information related to which of the candidate types included in the candidate list is the type and/or volume of the liquid substance in the image.
도 24는 본 개시의 일 실시예에 따른 액체류 데이터 베이스 구축 방법을 설명하기 위한 흐름도이다.24 is a flowchart illustrating a method of building a liquid flow database according to an embodiment of the present disclosure.
도 24를 참조하여, 영상 분석 장치가, 상술한 단계 S2340에서 사용 될 수 있는 데이터 베이스를 구성하는 구축하는 방법에 대해서 설명한다. 본 개시의 일 실시예에 따른 액체류 물질 데이터 구축 방법은, 물품 검색 시스템(100), 영상 분석 장치(112) 혹은 학습부(120)에 의해 수행 될 수 있다. 이하에서는, 편의상 영상 분석 장치(112)가 액체류 물질 데이터 베이스를 구축하는 것으로 설명한다. 하지만 넓은 의미에서, 본 개시에 따른 액체류 물질 검출 방법은 물품 검색 시스템(100) 혹은 학습부(120)에 의해 수행되는 것으로도 해석 될 수 있다.Referring to Fig. 24, a description will be given of a method of constructing a video analysis apparatus configuring a database that can be used in step S2340 described above. The method for constructing liquid substance data according to an embodiment of the present disclosure may be performed by the article retrieval system 100, the image analysis device 112, or the learning unit 120. Hereinafter, for convenience, it will be described that the image analysis device 112 constructs a liquid substance database. However, in a broad sense, the method for detecting liquid substances according to the present disclosure may also be interpreted as being performed by the article search system 100 or the learning unit 120.
본 개시의 일 실시예에 따른 액체류 데이터 베이스 구축 방법은, 액체류 물질을 포함하는 판독 영상을 수신하는 단계(S2400), 판독 영상을 정렬 및/또는 보간 하는 단계(S2410), 액체류 물질 영상의 특징을 추출하는 단계(S2430) 및/또는 추출된 액체류 물질 영상의 특징을 액체류 데이터 베이스에 추가하는 단계를 포함 할 수 있다.According to an embodiment of the present disclosure, a method of constructing a liquid flow database includes receiving a read image containing a liquid flow substance (S2400), arranging and/or interpolating the read image (S2410), and a liquid flow substance image. It may include the step of extracting the characteristics of (S2430) and / or adding the characteristics of the extracted liquid material image to the liquid database.
단계 S2400에서, 영상 분석 장치는 액체류 데이터 베이스 추가를 위한 판독 영상을 수신 할 수 있다. 일예로, 판독 영상은 액체류 데이터 베이스를 구축하고자 하는 판독원 혹은 관리자에 의해 입력 될 수 있다. 여기서, 판독 영상은 액체류 물질을 포함 할 수 있다. 판독 영상은 데이터 베이스 추가를 위해 사용되는 영상이므로, 앞서 설명한 분석 대상 영상과 다르게, 데이터 베이스 구축을 위한 액체류 물질 만을 포함하도록 구성 될 수 있다.In step S2400, the image analysis device may receive a read image for adding a liquid flow database. As an example, the read image may be input by a reader or administrator who wishes to build a liquid database. Here, the read image may include a liquid material. Since the read image is an image used to add a database, unlike the image to be analyzed previously described, it may be configured to include only liquid materials for building a database.
판독 영상에 포함되는 액체류 물질은 추가 대상 액체류 물질일 수 있다. 본 개시에서 추가 대상 액체류 물질이란, 액체류 데이터 베이스에 액체류 물질 영상의 특징을 추가하기 위해 사용되는, 액체류 물질을 지시할 수 있다. 즉, 본 개시에서 추가 대상 액체류 물질은 판독 영상에 포함되는 액체류 물질을 지칭 할 수 있다.The liquid-like substance included in the readout image may be an additional target liquid-like substance. In the present disclosure, the liquid substance to be added may indicate a liquid substance, which is used to add features of the liquid substance substance image to the liquid substance database. That is, in the present disclosure, the additional liquid-like substance may refer to the liquid-like substance included in the readout image.
영상 분석 장치는, 판독 영상과 함께 판독 영상에 포함되어 있는 용기의 정보와 액체류 물질의 정보를 수신하여 데이터화 할 수 있다. 일예로, 용기의 정보와 액체류 물질의 정보는 상기 판독 영상을 입력한 판독원 혹은 관리자에 의해 입력 될 수 있다, 용기의 정보는 용기의 종류, 용기의 재질, 용기의 형태, 용기의 용량 중 적어도 하나를 포함 할 수 있다. 또한, 액체의 정보는 액체의 종류, 액체의 특성, 액체의 밀도, 액체의 점성, 액체의 양 중 적어도 하나를 포함 할 수 있다. 상술한 용기의 정보 및 액체의 정보는 예시로서, 이외에 용기 및 액체를 표현 할 수 있는 다양한 정보가 용기의 정보 혹은 액체의 정보에 포함 될 수 있다.The image analysis apparatus can receive and data the container information and the liquid substance contained in the read image together with the read image. As an example, the information of the container and the information of the liquid substance may be input by a reading source or a manager who inputs the read image. It may contain at least one. Further, the liquid information may include at least one of a liquid type, a liquid characteristic, a liquid density, a liquid viscosity, and a liquid amount. The above-described container information and liquid information are examples, and various information capable of representing the container and the liquid may be included in the container information or the liquid information.
액체류 물질의 X-ray 영상은 액체를 담고 있는 용기의 종류, 용기에 담겨 있는 액체의 양, 용기의 기울어진 정도 혹은 회전된 정도 등에 따라 달라지므로, 영상 분석 장치는 용기의 정보 및 액체의 종류에 따라 결정될 수 있는 액체류 데이터 베이스를 구축할 필요가 있다. 일예로, 본 개시에 따른 액체류 데이터 베이스는 판독 영상에 포함되어 있는 특정 액체류 물질에 대한 용기의 정보 및 액체의 정보가 파라미터화 된 형태 일 수 있다. Since the X-ray image of the liquid substance varies depending on the type of container containing the liquid, the amount of liquid contained in the container, and the degree of inclination or rotation of the container, the image analysis device is the information of the container and the type of liquid. It is necessary to establish a liquid flow database that can be determined according to. As an example, the liquid flow database according to the present disclosure may be in a form in which information on a container and liquid information on a specific liquid flow material included in a read image are parameterized.
단계 S2410에서, 영상 분석 장치는 판독 영상을 정렬 및/또는 보간 할 수 있다. 여기서, 판독 영상의 정렬은 다양한 각도로 배치 혹은 회전되어 있는 액체류 물질을 기준 각도로 정렬하는 과정을 의미 할 수 있다. 판독 영상의 보간은 정렬된 액체류 물질을 일정 각도 단위로 회전시켜, 액체류 물질의 각도별 영상을 얻는 과정을 의미 할 수 있다.In step S2410, the image analysis device may align and/or interpolate the read image. Here, the alignment of the read image may refer to a process of aligning the liquid materials that are arranged or rotated at various angles at a reference angle. Interpolation of the read image may mean a process of obtaining an image for each angle of the liquid substance by rotating the aligned liquid substance in a certain angle unit.
도 25는 본 개시의 일 실시예에 따른 영상 정렬 및 보간 방법을 설명하기 위한 도면이다.25 is a diagram for describing an image alignment and interpolation method according to an embodiment of the present disclosure.
X-ray 영상 상의 액체류 물질은 용기가 배치되어 있는 각도에 따라 다르게 도시되므로, 영상 분석 장치는 데이터 베이스 구축에 기준이 될 수 있는 형태로 판독 영상을 정렬할 필요가 있다.Since the liquid material on the X-ray image is shown differently depending on the angle at which the container is placed, the image analysis device needs to align the read image in a form that can be used as a basis for building a database.
영상 분석 장치는 판독 영상 상의 액체류 물질(2520)을 회전 시켜 정렬된 액체류 물질 영상(2530)을 얻을 수 있다. 일 예로, 판독 영상의 정렬은 영상 정렬부(2500)에 의해 수행 될 수 있다. 예를 들어, 영상 정렬부(2500)는 용기의 뚜껑 부분이 위를 향하도록 판독 영상 상의 액체류 물질을 회전 시켜 정렬할 수 있다.The image analysis apparatus may obtain an aligned liquid substance image 2530 by rotating the liquid substance 2520 on the read image. For example, alignment of the read image may be performed by the image alignment unit 2500. For example, the image alignment unit 2500 may align the liquid material on the read image by rotating the lid portion of the container facing upward.
영상 분석 장치는 영상 정렬부(2500)에 의해 정렬된 액체류 물질 영상(2530)을 일정 각도 간격으로 회전하여, 다양한 각도로 도시 된 액체류 물질 영상들(2540)을 얻을 수 있다. 영상 분석 장치는 다양하게 회전 된 액체류 물질 영상들(2540)을 이용하여, 액체류 물질의 회전에 따른 데이터 베이스를 얻을 수 있다. 일예로, 정렬된 액체류 물질 영상(2530)의 보간은 보간부(2510)에 의해 수행 될 수 있다.The image analysis apparatus rotates the liquid substance material image 2530 aligned by the image aligning unit 2500 at a predetermined angle interval to obtain the liquid substance substance images 2540 shown at various angles. The image analysis apparatus may obtain a database according to the rotation of the liquid substance by using various rotated liquid substance images 2540. For example, interpolation of the aligned liquid material image 2530 may be performed by the interpolation unit 2510.
영상의 회전은, 용기의 특성 및 액체의 특성을 변화시키지 않으므로, 영상 분석 장치는 상술한 보간 방법에 따라, 동일한 조건하에서 다양한 각도로 배치된 액체류 데이터 베이스를 획득 할 수 있다.Since the rotation of the image does not change the characteristics of the container and the characteristics of the liquid, the image analysis apparatus can acquire a liquid flow database arranged at various angles under the same conditions according to the interpolation method described above.
단계 S2420에서, 영상 분석 장치는 용기의 정보 및 액체의 정보에 대응 될 수 있는 액체류 물질 영상의 특징을 추출 할 수 있다. 단계 S2420에서의 특징 추출은, 전술한 영상 분석 장치의 특징 추출부(1210), 맥락 생성부(1220) 및 특징 및/또는 맥락 분석부(1230)의 동작에 대응 될 수 있다. 영상 분석 장치는 판독 영상 상의 액체류 물질의 특징을 추출하고, 추출된 특징에 기초하여 맥락 정보를 생성하고, 추출된 특징 및 생성된 맥락 정보에 기초하여, 판독 영상에 대한 정보를 데이터화 할 수 있다. 여기서의 특징은 영상의 각 영역마다의 국소적인 특징을 의미 할 수 있다. 액체류 물질의 특징 추출에 대한 구체적인 내용은 도 12에서 설명한 바와 같으므로 생략하도록 한다.In step S2420, the image analysis device may extract characteristics of the liquid material image that can correspond to the container information and the liquid information. The feature extraction in step S2420 may correspond to the operations of the feature extraction unit 1210, the context generation unit 1220, and the feature and/or context analysis unit 1230 described above. The image analysis device may extract characteristics of the liquid substance on the read image, generate context information based on the extracted features, and data information about the read image based on the extracted features and the generated context information. . Here, the feature may mean a local feature for each region of the image. Details of the feature extraction of the liquid material are as described in FIG. 12 and will be omitted.
단계 S2430에서, 영상 분석 장치는 S2420에서 추출된 액체류 물질 영상의 특징을 액체류 데이터 베이스에 추가 할 수 있다.In step S2430, the image analysis device may add a feature of the liquid material image extracted in S2420 to the liquid flow database.
도 26은 본 개시의 일 실시예에 따른 액체류 데이터 베이스 구축 결과를 설명하기 위한 도면이다.26 is a view for explaining a result of building a liquid flow database according to an embodiment of the present disclosure.
액체류 물질의 X-ray 영상은 액체를 담고 있는 용기의 특성 및 액체의 특성에 따라 크게 변하므로, 영상 분석 장치가 액체류 물질 영상의 특징을 데이터 베이스화 할 때는 상술한 용기의 정보와 액체의 정보가 동시에 고려 될 수 있다.Since the X-ray image of the liquid substance changes greatly depending on the characteristics of the container containing the liquid and the characteristics of the liquid, when the image analysis device database features the characteristics of the liquid substance substance image, the aforementioned container information and liquid information Can be considered simultaneously.
일 예로, 본 개시에 따른 액체류 물질 영상의 특징 데이터 베이스는 용기의 특성을 기준으로 구축 될 수 있다. 예컨데, 용기의 재질, 형태, 특성 별로 데이터 베이스가 카테고리화 될 수 있다. 예를 들어, 용기가 유리병인 경우, 유리병 용량에 따른 영상의 특징, 유리병의 두께에 따른 영상의 특징, 담겨 있는 액체 종류에 따른 영상의 특징, 담겨 있는 액체의 양에 따른 영상의 특징이 각각 데이터 베이스에 추가 될 수 있다.For example, the feature database of the liquid substance image according to the present disclosure may be constructed based on the characteristics of the container. For example, the database can be categorized by material, shape, and characteristics of the container. For example, when the container is a glass bottle, the characteristics of the image according to the capacity of the glass bottle, the characteristics of the image according to the thickness of the glass bottle, the characteristics of the image according to the type of liquid contained, and the characteristics of the image according to the amount of liquid contained therein Each can be added to a database.
다른 예로, 영상 분석 장치는 추출된 액체류 물질 영상의 특징을 특징 벡터로 파라미터화 할 수 있다. 이 경우, 액체류 물질 영상의 특징 데이터 베이스는 액체류 물질 영상의 특징 벡터 데이터 베이스를 의미하는 것일 수 있다.As another example, the image analysis device may parameterize the characteristics of the extracted liquid substance image into a feature vector. In this case, the feature database of the liquid substance image may be a feature vector database of the liquid substance image.
도 26은 액체류 데이터 베이스에 포함되는 여러 특징 벡터 및 특징 벡터들을 복수의 클러스터(2600, 2610, 2620, 2630)로 클러스터링한 예시를 도시한다. x축과 y축은 각각 길이(length)와 무게(weight)로 표시되어 있으나, 이는 본 개시의 일 예일 뿐, 이러한 기재가 본 발명의 특징 벡터 파라미터를 제한하는 것은 아니다. 특징 벡터는 액체류 물질 영상의 특징을 표현하기 위한 다양한 형태의 파라미터에 의해서 표현 될 수 있다. 액체류 데이터 베이스에 포함되는 각각의 특징 벡터들은 특징 벡터들간의 유사도 비교를 통해 클러스터링 될 수 있다. 여기서, 클러스터들은, 분석 대상 영상에서 추출한 특징 벡터들을 이용하여 액체류 물질의 종류를 결정하는데 사용 될 수 있다.26 shows an example of clustering various feature vectors and feature vectors included in the liquid flow database into a plurality of clusters 2600, 2610, 2620, and 2630. The x-axis and the y-axis are respectively indicated by length and weight, but this is only an example of the present disclosure, and such description does not limit the feature vector parameter of the present invention. The feature vector can be expressed by various types of parameters for representing the characteristics of the liquid substance image. Each feature vector included in the liquid flow database can be clustered by comparing similarities between feature vectors. Here, the clusters may be used to determine the type of the liquid substance using feature vectors extracted from the analysis target image.
도 24를 통해 설명한 액체류 데이터 베이스 구축 방법에 따라 생성된 데이터 베이스는 학습부(120)에 포함되는 데이터 베이스(122)에 저장되거나, 영상 분석 장치 내부에 존재하는 별도의 데이터 베이스에 저장 될 수 있다. 여기서 생성된 베이스는, 도 23에서 설명한 액체류 물질 검출을 위해 사용 될 수 있다.The database generated according to the method for constructing a liquid flow database described with reference to FIG. 24 may be stored in the database 122 included in the learning unit 120 or may be stored in a separate database existing inside the image analysis device. have. The base produced here can be used for the detection of liquid substances described in FIG. 23.
도 27은 본 개시의 몇몇 실시예에 따라, 액체류 데이터 베이스를 이용한 액체류 물질 검출 방법을 설명하기 위한 흐름도이다.27 is a flowchart illustrating a method for detecting a liquid substance using a liquid flow database, according to some embodiments of the present disclosure.
도 27를 참조하여, 영상 분석 장치가 판독원에게 검출 결과를 제공하는 방법에 대해서 설명한다. 본 개시의 일 실시예에 따른 액체류 물질 검출 방법은, 분석 대상 영상을 수신하는 단계(S2700), 분석 대상 영상을 전처리 하는 단계(S2710), 분석 대상 영상 내의 용기 영역을 검출하는 단계(S2720), 용기 영역에 대한 후처리를 통해 액체 영역을 추출하는 단계(S2730), 액체 영역에 대한 특징 벡터를 추출하는 단계(S2740), 액체류 데이터 베이스를 생성하는 단계(S2750), 추출된 특징 벡터와 액체류 데이터 베이스를 이용하여 분석 대상 영상의 액체류 물질이 무엇인지를 결정하는 단계(S2760) 및/또는 판독원에게 검출 결과를 제공하는 단계(S2770)를 포함 할 수 있다.Referring to Fig. 27, a description will be given of a method in which an image analysis device provides a detection result to a reader. The method for detecting a liquid substance according to an embodiment of the present disclosure includes receiving an image to be analyzed (S2700), pre-processing an image to be analyzed (S2710), and detecting a container region in the image to be analyzed (S2720). , Extracting the liquid region through post-treatment for the container region (S2730), extracting the feature vector for the liquid region (S2740), creating a liquid flow database (S2750), and extracting the feature vector It may include the step of determining what the liquid substance of the image to be analyzed is using the liquid flow database (S2760) and/or providing the detection result to the reader (S2770).
단계 S2700, 단계 S2720, 단계 S2740 및 단계 S2760은 각각, 도 23에서 설명한 영상 분석 장치의 단계 S2300, 단계 S2310, 단계 S2330 및 단계 S2340에 대응 될 수 있다. 또한 단계 S2750은 도 24의 단계 S2400 내지 S2430에 대응 될 수 있다.Step S2700, step S2720, step S2740, and step S2760 may correspond to steps S2300, S2310, S2330, and S2340 of the image analysis apparatus described in FIG. 23, respectively. In addition, step S2750 may correspond to steps S2400 to S2430 of FIG. 24.
단계 S2710에서 영상 분석 장치는 입력된 영상에 대한 전처리를 수행 할 수 있다. 분석 영상에 대한 전처리는, 분석 영상 전반에 대한 간섭을 제거하는 과정 혹은 영상 분석 장치의 검출을 위해 X-ray 입력 영상의 색 정보를 프리셋으로 설정하는 과정 등을 의미 할 수 있다.In step S2710, the image analysis device may perform pre-processing of the input image. The pre-processing of the analysis image may mean a process of removing interference on the entire analysis image or a process of setting color information of the X-ray input image as a preset for detection of the image analysis apparatus.
도 28은 본 개시의 일 실시예에 따른 액체류 용기 검출 방법을 설명하기 위한 도면이다.28 is a view for explaining a method for detecting a liquid container according to an embodiment of the present disclosure.
단계 S2720에서 영상 분석 장치는 분석 영상(2810)에 포함되어 있는 용기 영역(2830)을 검출 할 수 있다. 영상 분석 장치는 분석 영상 내의 용기 영역을 검출하기 위해 합성곱 신경망(Convolutional Neural Network, CNN) 기법, 직렬 구성을 통한 검출 알고리즘(Adaboost) 등을 활용 할 수 있다.In step S2720, the image analysis device may detect the container region 2830 included in the analysis image 2810. The image analysis apparatus may utilize a convolutional neural network (CNN) technique, a detection algorithm through serial configuration (adaboost), and the like to detect the container region in the analysis image.
본 개시의 합성곱 신경망은 분석 대상 영상으로부터, 용기 영역의 테두리, 두께, 선 색, 영역의 색 등과 같은 특징들을 추출하기 위해 사용될 수 있으며, 복수의 계층을 포함할 수 있다. 각각의 계층은 입력 데이터를 수신하여 해당 계층의 입력 데이터를 처리하여 출력 데이터를 생성 할 수 있다. 계층의 증가에 따라 신경망은 보다 구체적인 특징들을 추출 할 수 있다.The convolutional neural network of the present disclosure may be used to extract features such as a border, thickness, line color, and region color of a container region from an analysis target image, and may include a plurality of layers. Each layer can receive input data and process input data of the corresponding layer to generate output data. As the hierarchy increases, neural networks can extract more specific features.
예컨데, 영상 분석 장치는 도 16에서 설명한 합성곱 신경망을 이용하여 분석 대상 영상에서 용기 영역을 검출 할 수 있다.For example, the image analysis apparatus may detect the container region in the image to be analyzed using the convolutional neural network described in FIG. 16.
도 28은 분석 대상 영상에 통행자의 가방이 포함되어 있는 예시를 도시한다. 영상 분석 장치는 X-ray 장치로부터 통행자의 가방이 촬영된 분석 대상 영상(2810)을 수신 할 수 있다. 일예로, 단계 S2720은 액체 용기 검출부(2800)에 의해 수행 될 수 있다. 액체 용기 검출부는 분석 대상 영상(2810)에서 용기와 같은 형상을 가지는 객체를 용기 영역(2830)으로 검출해 낼 수 있다. 용기 검출부(2800)는 상술한 합성곱 신경망 또는 미리 학습된 딥러닝 기반의 모델을 이용하여 분석 영상 내의 용기 영역(2830)을 검출 할 수 있다. 28 shows an example in which a bag of a passenger is included in an image to be analyzed. The image analysis apparatus may receive an analysis target image 2810 in which a passenger's bag is photographed from the X-ray apparatus. In one example, step S2720 may be performed by the liquid container detector 2800. The liquid container detection unit may detect an object having the same shape as the container in the analysis target image 2810 as the container area 2830. The container detection unit 2800 may detect the container region 2830 in the analysis image using the above-described convolutional neural network or a pre-trained deep learning-based model.
다른 예로, 액체 용기 검출부(2800)는 도 28에 도시되어 있는 것과 같이 용기 영역(2830)과 용기 영역 주변의 일부 배경(2831)이 포함되어 있는 영역(2820)을 검출 할 수 있다. 여기서 일부 배경이 포함되어 있는 영역(2820)은 객체 식별에 사용되는 사각형 박스(bounding box)를 의미하는 것일 수 있다. As another example, the liquid container detector 2800 may detect the container area 2830 and the area 2820 including some background 2831 around the container area, as shown in FIG. 28. Here, the region 2820 including some background may mean a rectangular box used for object identification.
도 29은 본 개시의 일 실시예에 따른 영상 후처리 방법을 설명하기 위한 도면이다.29 is a diagram for describing an image post-processing method according to an embodiment of the present disclosure.
단계 S2730에서, 영상 분석 장치는 검출된 용기 영역(2920 또는 2940)에 대한 후처리를 통해 액체 영역(2930) 검출을 수행 할 수 있다. 용기 영역에 대한 후처리는 용기 영역 주변의 일부 배경 혹은 배경 간섭(2941)을 제거하는 단계 및/또는 용기 영역에 대한 내부 간섭(2950)을 제거하는 단계를 포함 할 수 있다.In step S2730, the image analysis device may perform detection of the liquid region 2930 through post-processing of the detected container region 2920 or 2940. Post-processing the container area may include removing some background or background interference 2942 around the container area and/or removing internal interference 2950 to the container area.
X-ray를 통해 입력된 분석 영상에 도시되는 액체류 물질의 영상, 다른 객체에 의해 상하 부분이 겹쳐지는 경우, 영상 상의 간섭(2950)이 포함되는 형태로 도시 될 수 있다. 특히, 액체류 물질은 액체의 밀도 혹은 가려짐 등에 의한 영상 상의 색변화가 크기 때문에, 형태가 정해져 있는 객체에 비해 간섭이 발생하기 쉽다.When the upper and lower portions overlap by an image of a liquid substance shown in the analysis image input through the X-ray or another object, interference 2950 on the image may be illustrated. In particular, since the liquid material has a large color change on the image due to the density or occlusion of the liquid, interference is likely to occur compared to an object having a predetermined shape.
도 29은 액체 용기 검출부(2800)가 검출한 용기 영역(2940)에 일부 배경 혹은 배경 간섭(2941)이 포함되어 있는 영역(2920)을 도시한다. 영상 분석 장치는 일부 배경 혹은 배경 간섭(2941)이 포함되어 있는 영역(2920)에서, 용기 영역(2940)을 제외한 일부 배경 혹은 배경 간섭(2941)을 제거 할 수 있다. 일예로, 단계 S2730은 배경 간섭 제거부(2900) 및/또는 용기 내부 간섭 제거부(2910)에 의해 수행 될 수 있다.FIG. 29 shows an area 2920 in which some background or background interference 2942 is included in the container area 2940 detected by the liquid container detection unit 2800. The image analysis apparatus may remove some background or background interference 2942 excluding the container region 2940 in the region 2920 including some background or background interference 2942. For example, step S2730 may be performed by the background interference canceling unit 2900 and/or the container internal interference canceling unit 2910.
배경 간섭 제거부(2700)는 검출된 용기 영역(2920)으로부터 일부 배경 혹은 배경 간섭(2741)을 제거 할 수 있다. 일부 배경 혹은 배경 간섭(2741)의 제거는 상술한 합성곱 신경망 혹은 미리 학습된 딥러닝 기반의 모델을 통해 이루어 질 수 있다.The background interference removing unit 2700 may remove some background or background interference 2701 from the detected container region 2920. The removal of some background or background interference 2701 may be achieved through the above-described convolutional neural network or a pre-trained deep learning based model.
도 29느 통행자의 가방 내부에 포함되어 있는 ID Tag 객체로 인해, 용기 영역(2930) 일부분에 내부 간섭(2950)이 존재하는 상황을 도시한다. 여기서 내부 간섭은 용기의 두께로 인해 발생되는 영역 혹은 액체류 물질의 상하단에 배치되는 다른 객체로 인해 발생되는 영역을 포함 할 수 있다. 또는 내부 간섭은 액체의 유동성에 의해 발생하는 간섭 혹은 X-ray 촬영 과정에서 발생하는 영상 간섭을 포함 할 수 있다.29 illustrates a situation in which an internal interference 2950 exists in a portion of the container region 2930 due to the ID Tag object included in the passenger's bag. Here, the internal interference may include a region caused by the thickness of the container or a region caused by other objects disposed on the upper and lower ends of the liquid material. Alternatively, the internal interference may include interference caused by fluidity or image interference generated during X-ray imaging.
용기 내부 간섭 제거부(2910)은 일부 배경 혹은 배경 간섭(2941)이 제거된 용기 영역(2930)에 포함되어 있는 내부 간섭(2950)을 제거 할 수 있다. 용기 내부 간섭 제거부(2910)의 내부 간섭 제거를 통해, 최종적인 액체 영역(2930)이 검출 될 수 있다.The internal interference removing unit 2910 may remove internal interference 2950 included in the container region 2930 from which some background or background interference 2942 is removed. The final liquid region 2930 may be detected by removing the internal interference of the container internal interference removal unit 2910.
용기 내부 간섭 제거부(2910)는 내부 간섭을 제거하기 위해, 영상 주파수 분석법 혹은 주변 물품들의 배치 등에 대한 맥락을 고려한 간섭 제거 방법을 활용 할 수 있다. 일 예로, 용기 내부 간섭 제거부(2910)는 KR출원 10-2017-0183857"영상의 특징 및 맥락에 기초한 영상 분석 장치 및 방법"을 이용하여 간섭이 제거된 액체 영역(2930)을 추출 할 수 있다.In order to remove the internal interference, the internal interference canceling unit 2910 may utilize an interference cancellation method in consideration of a video frequency analysis method or a context for arranging surrounding items. For example, the interference removal unit 2910 inside the container may extract the interference-removed liquid region 2930 using KR application 10-2017-0183857 "Image analysis apparatus and method based on image characteristics and context". .
단계 S2740에서 영상 분석 장치는, 단계 S2730에서 검출한 액체 영역에 대한 특징 벡터를 추출 할 수 있다. 여기서의 특징 벡터는 상술한바와 같이 추출한 액체 영역에 대한 특징을 파라미터화한 벡터를 의미 할 수 있다. 영상 분석 장치는 액체 영역의 특징을 이용하여 기설정된 파라미터로 표현되는 특징 벡터를 추출 할 수 있다.In step S2740, the image analysis device may extract a feature vector for the liquid region detected in step S2730. As described above, the feature vector may mean a vector parameterizing characteristics of the extracted liquid region. The image analysis apparatus may extract a feature vector represented by a predetermined parameter using features of the liquid region.
단계 S2760에서 영상 분석 장치는 추출된 특징 벡터와 액체류 데이터 베이스에 포함되는 특징 벡터 간의 유사도 비교를 통해, 분석 대상 영상에 포함되어 있는 액체류 물질의 종류, 용기의 종류 및/또는 확률 중 적어도 하나를 결정 할 수 있다.In step S2760, the image analysis device compares the similarity between the extracted feature vector and the feature vector included in the liquid flow database, and compares at least one of the type of the liquid substance, the type of the container, and/or the probability included in the analysis target image. Can decide.
예를 들어, 영상 분석 장치는 추출된 특징 벡터가 도 28에 도시되어 있는 복수의 클러스터(2800, 2810, 2820, 2830) 중 어느 클러스터에 포함되어야 하는지를 결정하거나, 추출된 특징 벡터에 대한 클러스터링을 수행 할 수 있다. 여기서, 특징 벡터가 포함되어야 할 클러스터는 클러스터의 특징 벡터 대표 값과 추출된 특징 벡터에 대한 유사도 비교를 통해 결정 될 수 있다. 다른 예로, 영상 분석 장치는 추출된 특징 벡터가 어느 클러스터에 포함되는지와 관련된 확률 값을 유도 할 수 있다.For example, the image analysis apparatus determines which cluster among the plurality of clusters 2800, 2810, 2820, and 2830 in which the extracted feature vector is illustrated in FIG. 28 or performs clustering on the extracted feature vector can do. Here, the cluster in which the feature vector should be included can be determined by comparing the similarity between the representative feature vector of the cluster and the extracted feature vector. As another example, the image analysis apparatus may derive a probability value related to which cluster the extracted feature vector is included.
예를 들어, 도 28의 제 1 클러스터(2800), 제 2 클러스터(2810), 제 3 클러스터(2820) 및 제 4 클러스터(2830) 각각은 500ml 패트병에 담겨 있는 물(2800), 1.5L 패트병에 담겨 있는 콜라(2810), 500ml 유리병에 담겨 있는 알콜(2820), 2L 패트병에 담겨 있는 물(2830) 데이터 베이스를 포함하는 클러스터일 수 있다. 각 클러스터에 도시되어 있는 데이터들은 데이터 베이스 생성 과정에서 얻어진 특성 벡터 데이터 일 수 있다.For example, each of the first cluster 2800, the second cluster 2810, the third cluster 2820, and the fourth cluster 2830 of FIG. 28 is placed in a water (2800) and a 1.5L plastic bottle in a 500 ml plastic bottle. It may be a cluster including a cola 2810 in a glass, alcohol 2820 in a 500 ml glass bottle, and water 2830 in a 2 L plastic bottle. The data shown in each cluster may be characteristic vector data obtained in a database creation process.
일 예로, 도 28과 관련하여, 영상 분석 장치가 분석 대상 영상에 포함되어 있는 액체류 물질 영상의 특징 벡터가 제 1 클러스터에 포함된다고 판단한 경우, 영상 분석 장치는 분석 대상 영상에 포함되어 있는 액체류 물질이 500ml 패트병에 들어있는 물이라고 결정 할 수 있다.As an example, in connection with FIG. 28, when it is determined that the feature vector of the liquid substance material image included in the image to be analyzed is included in the first cluster, the image analysis apparatus performs liquid flow included in the image to be analyzed It can be determined that the substance is water in a 500 ml plastic bottle.
다른 예로, 영상 분석 장치가 분석 대상 영상에 포함되어 있는 액체류 물질 영상의 특징 벡터가 25%의 확률로 제 1 클러스터(2800)에 포함되고, 70%의 확률로 제 3 클러스터(2820)에 포함된다고 판단한 경우, 영상 분석 장치는 분석 대상 영상에 포함되어 있는 액체류 물질이 25%의 확률로 500ml 패트병에 들어있는 물이고, 70%의 확률로 500ml 유리병에 담겨있는 알콜이라고 결정할 수 있다.As another example, the feature vector of the liquid substance image included in the image to be analyzed is included in the first cluster 2800 with a probability of 25% and in the third cluster 2820 with a probability of 70%. If it is determined that the image analysis apparatus, the image analysis device may determine that the liquid substance contained in the image to be analyzed is water contained in a 500 ml plastic bottle with a probability of 25%, and alcohol contained in a 500 ml glass bottle with a probability of 70%.
단계 S2770에서, 영상 분석 장치는 검출 결과를 판독원에게 제공 할 수 있다. 영상 분석 장치는 출력 장치(114)를 통해 액체류 물질의 검출 결과를 판독원에게 제공 할 수 있다.In step S2770, the image analysis device may provide the detection result to the reader. The image analysis device may provide the detection result of the detection of the liquid substance through the output device 114.
여기서, 판독 결과는 액체류 물질의 존재 여부 정보, 용기 정보, 액체 정보, 유사 데이터 정보, 개장 검사 필요 여부 정보, 위험도 정보 등을 포함 할 수 있으나, 상술한 판독 결과는 예시로서, 본 개시에 따른 판독 결과는 이에 한정되지 않는다. 영상 분석 장치는 판독원의 판독에 도움이 되는 액체류 물질과 관련된 다양한 정보를 판독원에게 제공 할 수 있다. Here, the read result may include the presence or absence information of liquid substances, container information, liquid information, similar data information, remodeling inspection necessity information, risk information, etc., but the above-described read result is an example and according to the present disclosure. The read result is not limited to this. The image analysis device may provide the reader with a variety of information related to the liquid-like substance conducive to the reader.
일 예로, 영상 분석 장치는 판독원에게 용기 정보를 용기에 대한 후보 리스트 및 분석 대상 영상에 도시되는 용기가 각각의 후보에 해당할 확률에 대한 정보로 제공 할 수 있다. 여기서, 용기에 대한 후보는 용기의 종류 및 용기의 용량으로 표현 될 수 있다. 예를 들어, 영상 분석 장치는 분석 대상 영상에 포함되어 있는 용기가 90%의 확률로 200ml 유리병이고, 5%의 확률로 180ml 유리병이며, 2%의 확률로 200ml 패트 병이라는 정보를 판독원에게 제공 할 수 있다.For example, the image analysis device may provide the reader with container information as a candidate list for the container and a probability that the container shown in the analysis target image corresponds to each candidate. Here, the candidate for the container may be expressed by the type of container and the capacity of the container. For example, the image analysis device reads information that the container included in the image to be analyzed is a 200 ml glass bottle with a probability of 90%, a 180 ml glass bottle with a probability of 5%, and a 200 ml plastic bottle with a probability of 2%. Can be provided.
일 예로, 영상 분석 장치는 판독원에게 액체 정보를 액체의 종류에 대한 후보 리스트 및 분석 대상 영상에 도시되는 액체의 종류가 각각의 후보에 해당할 확률에 대한 정보로 제공 할 수 있다. 예를 들어, 영상 분석 장치는 분석 대상 영상에 포함되어 있는 액체가 60%의 확률로 물이고, 38%의 확률로 알콜이라는 정보를 판독원에게 제공 할 수 있다.For example, the image analysis apparatus may provide the reader with liquid information as a candidate list for a liquid type and a probability that the liquid type shown in the analysis target image corresponds to each candidate. For example, the image analysis device may provide the reader with information that the liquid contained in the image to be analyzed is water with a probability of 60% and alcohol with a probability of 38%.
유사 데이터 정보는, 현재 분석 대상 영상에 포함된 액체류 물질에 대한 특징 벡터와 가장 유사한 특징 벡터를 가지는 데이터와 관련된 정보를 의미 할 수 있다. 예를 들어, 영상 분석 장치는 현재 분석 대상 영상에 포함된 액체류 물질과 가장 유사한 특징 벡터를 가지는 액체류 물질에 대한 영상 샘플을 판독원에게 제공 할 수 있다.The similar data information may mean information related to data having a feature vector most similar to a feature vector for a liquid substance included in an image to be analyzed. For example, the image analysis apparatus may provide an image source for a liquid flow material having a feature vector most similar to the liquid flow material included in the current analysis target image.
개장 검사 필요 여부 정보는, 분석 대상 영상에 대한 판독원의 개장 검사 필요 여부에 대한 정보일 수 있다. 즉, 영상 분석 장치는 판독원에게 현재 분석 대상 영상에 포함된 액체류 물질에 대해 개장 검사가 필요한지 여부와 관련된 정보를 제공 할 수 있다. 영상 분석 장치의 개장 분석 수행 필요 여부 결정은 앞서 설명한바와 같으므로 설명을 생략한다.The information on whether a remodeling inspection is necessary may be information on whether a remodeling inspection of a reading source for the analysis target image is necessary. That is, the image analysis device may provide the reader with information related to whether remodeling inspection is required for the liquid substance included in the image to be analyzed. Determination of whether to perform remodeling analysis of the image analysis apparatus is the same as described above, so a description thereof will be omitted.
위험도 정보는 용기 정보 및/또는 액체 정보를 바탕으로 유도된, 분석 대상 영상에 포함된 액체류 물질이 가지는 위험도를 의미 할 수 있다. 예를 들어 위험도 정보는 수치의 형태로 판독원에게 제공 될 수 있다.The risk information may refer to the risk of the liquid substances included in the analysis target image derived based on container information and/or liquid information. For example, risk information can be provided to the reader in the form of a number.
도 30은 본 개시의 일 실시예에 따른 따른 영상 분석 장치의 구성을 나타내는 다른 블록도이다.30 is another block diagram showing the configuration of an image analysis apparatus according to an embodiment of the present disclosure.
도 30을 참조하면, 영상 분석 장치(3000)은 입력부(3010) 및/또는 영상 분석부(3020)를 포함 할 수 있다. 다만, 이는 본 실시예를 설명하기 위해 필요한 일부 구성요소만을 도시한 것일 뿐, 영상 분석 장치(3000)에 포함된 구성요소가 전술한 예에 한정되는 것은 아니다. 예컨대, 둘 이상의 구성부가 하나의 구성부 내에서 구현될 수도 있고, 하나의 구성부에서 실행되는 동작이 분할되어 둘 이상의 구성부에서 실행되도록 구현될 수도 있다. 또한, 일부 구성부가 생략되거나 부가적인 구성부가 추가될 수도 있다. 또한, 도 1의 영상 분석 장치(112), 도 5의 영상 강화 장치(500), 도 12의 영상 분석 장치(1200) 및 도 18의 영상 합성 장치(1800)의 구성요소 중, 동일한 기능 또는 유사한 기능을 수행하는 구성부는 하나의 구성요소로서 구현될 수도 있다.Referring to FIG. 30, the image analysis device 3000 may include an input unit 3010 and/or an image analysis unit 3020. However, this only shows some components necessary to describe the present embodiment, and the components included in the image analysis apparatus 3000 are not limited to the above-described examples. For example, two or more components may be implemented in one component, or an operation executed in one component may be divided and implemented to be executed in two or more components. In addition, some components may be omitted or additional components may be added. In addition, among the components of the image analysis device 112 of FIG. 1, the image enhancement device 500 of FIG. 5, the image analysis device 1200 of FIG. 12, and the image synthesis device 1800 of FIG. 18, the same function or similar The component performing the function may be implemented as one component.
입력부(3000)는 X-ray 판독 기기로부터 제공받은 분석 대상 영상, 데이터 베이스 구축을 위해 입력 받은 판독 영상, 용기 정보 및/또는 액체 정보를 영상 분석부(3020)에 제공한다. 여기서 입력부(3010)는 수신부로 정의될 수도 있다.The input unit 3000 provides an image to be analyzed 3030 to an analysis target image provided from an X-ray reading device and an input read image, container information, and/or liquid information to build a database. Here, the input unit 3010 may be defined as a receiving unit.
영상 분석부(3020)는 분석 대상 영상에서 액체류 물질을 검출하는 일련의 동작을 수행 할 수 있다. 영상 분석부(3020)는 액체류 데이터 베이스(3040) 혹은 학습부(120)로부터 제공 받은 액체류 데이터 베이스를 이용하여 분석 대상 영상에 포함된 액체류 물질을 검출 할 수 있다. 또한 영상 분석부(3020)는 검출 결과를 출력 장치(3030)를 통해 판독원에게 제공 할 수 있다.The image analysis unit 3020 may perform a series of operations for detecting a liquid substance in the analysis target image. The image analysis unit 3020 may detect a liquid substance included in the analysis target image using the liquid flow database 3040 or the liquid flow database provided from the learning unit 120. In addition, the image analysis unit 3020 may provide the detection result to the reader through the output device 3030.
다른 예로, 도 30에 도시되지는 않았지만, 영상 분석부(3020)는 판독 영상, 용기 정보 및/또는 액체 정보를 이용하여, 추출된 추가 대상 액체류 물질 영상의 특징을 액체류 데이터 베이스(3040)에 추가하는 데이터 베이스 추가부를 포함 할 수 있다. 여기서 액체류 데이터 베이스(3040)은 도 1의 학습부(120)을 의미하거나, 학습부에 포함되는 데이터 베이스(122)를 의미할 수 있다. 도 30에 의해 개시되는 액체류 데이터 베이스는(3040)는 영상 분석 장치(3000)와는 별도의 장치로 구성되는 것으로 도시되어 있으나 본 개시의 권리범위가 이에 한정되는 것은 아니다. 액체류 데이터 베이스(3040)와 동일한 기능을 하는 데이터 베이스가 영상 분석 장치(3000)의 일부로 구성될 수도 있다.As another example, although not illustrated in FIG. 30, the image analysis unit 3020 uses the readout image, container information, and/or liquid information to characterize the characteristics of the extracted additional liquid substance material image in the liquid flow database 3040. It may include a database addition to add to. Here, the liquid flow database 3040 may mean the learning unit 120 of FIG. 1 or the database 122 included in the learning unit. The liquid flow database 3040 disclosed by FIG. 30 is illustrated as being configured as a separate device from the image analysis device 3000, but the scope of rights of the present disclosure is not limited thereto. A database having the same function as the liquid flow database 3040 may be configured as part of the image analysis apparatus 3000.
영상 분석부(3020)은 전처리부(3021), 액체 영역 검출부(3022), 액체 용기 검출부(3023), 특징 추출부(3024), 후처리부(3025) 및/또는 특징 비교부(3026)를 포함 할 수 있다. The image analysis unit 3020 includes a pre-processing unit 3021, a liquid region detection unit 3022, a liquid container detection unit 3023, a feature extraction unit 3024, a post-processing unit 3025, and/or a feature comparison unit 3026. can do.
또한, 도 30에 도시되지는 않았지만, 영상 분석 장치는, 영상 정렬부, 보간부, 간섭 제거부를 추가로 포함 할 수 있다. 여기서 간섭 제거부는 배경 간섭 제거부 및/또는 용기 내부 간섭 제거부를 포함 할 수 있다. In addition, although not illustrated in FIG. 30, the image analysis device may further include an image alignment unit, an interpolation unit, and an interference removal unit. Here, the interference canceling unit may include a background interference canceling unit and/or an internal interference canceling unit.
영상 분석 장치(3000)에 포함되는 각각의 구성요소의 구체적인 동작은 도 23 내지 도 29를 통해 설명한바와 같으므로 설명을 생략하도록 한다.The detailed operation of each component included in the image analysis apparatus 3000 is the same as that described with reference to FIGS. 23 to 29, and thus description thereof will be omitted.
출력 장치(3030)는 영상 분석 장치(3000)에서 처리되는 정보를 디스플레이 할 수 있다. 예를 들어, 출력 장치(3030)는 영상 분석 장치(3000)에서 구동되는 응용 프로그램의 실행 화면 정보, 또는 이러한 실행 화면 정보에 따른 유저 인터페이스, GUI(Graphic User Interface) 정보를 표시할 수 있다.The output device 3030 may display information processed by the image analysis device 3000. For example, the output device 3030 may display execution screen information of an application program driven by the image analysis device 3000, or a user interface or GUI (Graphic User Interface) information according to the execution screen information.
출력 장치(3030)는 액정 디스플레이(liquid crystal display, LCD), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display, TFT LCD), 유기 발광 다이오드(organic light-emitting diode, OLED), 플렉서블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전자잉크 디스플레이(e-ink display) 중에서 적어도 하나를 포함할 수 있다.The output device 3030 includes a liquid crystal display (LCD), a thin film transistor-liquid crystal display (TFT LCD), an organic light-emitting diode (OLED), and a flexible display (flexible) display), a three-dimensional display (3D display), an electronic ink display (e-ink display).
도 30에 의해 개시되는 출력 장치(3030)는 영상 분석 장치(3000)와는 별도의 장치로 구성되는 것으로 도시되어 있으나 본 개시의 권리범위가 이에 한정되는 것은 아니다. 출력 장치와 동일한 기능을 하는 출력부가 영상 분석 장치(3000)의 일부로 구성될 수도 있다.The output device 3030 disclosed by FIG. 30 is illustrated as being configured as a separate device from the image analysis device 3000, but the scope of rights of the present disclosure is not limited thereto. The output unit having the same function as the output device may be configured as a part of the image analysis device 3000.
본 개시의 예시적인 방법들은 설명의 명확성을 위해서 동작의 시리즈로 표현되어 있지만, 이는 단계가 수행되는 순서를 제한하기 위한 것은 아니며, 필요한 경우에는 각각의 단계가 동시에 또는 상이한 순서로 수행될 수도 있다. 본 개시에 따른 방법을 구현하기 위해서, 예시하는 단계에 추가적으로 다른 단계를 포함하거나, 일부의 단계를 제외하고 나머지 단계를 포함하거나, 또는 일부의 단계를 제외하고 추가적인 다른 단계를 포함할 수도 있다.Exemplary methods of the present disclosure are expressed as a series of operations for clarity of description, but are not intended to limit the order in which the steps are performed, and if necessary, each step may be performed simultaneously or in a different order. To implement the method according to the present disclosure, the steps illustrated may include other steps in addition, other steps may be included in addition to the other steps, or additional other steps may be included in addition to some of the steps.
본 개시의 다양한 실시예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.The various embodiments of the present disclosure are not intended to list all possible combinations, but are intended to describe representative aspects of the present disclosure, and the details described in the various embodiments may be applied independently or in combination of two or more.
또한, 본 개시의 다양한 실시예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다. Further, various embodiments of the present disclosure may be implemented by hardware, firmware, software, or a combination thereof. For implementation by hardware, one or more Application Specific Integrated Circuits (ASICs), Digital Signal Processors (DSPs), Digital Signal Processing Devices (DSPDs), Programmable Logic Devices (PLDs), Field Programmable Gate Arrays (FPGAs), Universal It can be implemented by a processor (general processor), a controller, a microcontroller, a microprocessor.
본 개시의 범위는 다양한 실시예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.The scope of the present disclosure includes software or machine-executable instructions (eg, operating systems, applications, firmware, programs, etc.) that cause actions according to the methods of various embodiments to be executed on a device or computer, and such software or Instructions include a non-transitory computer-readable medium that is stored and executable on a device or computer.
본 발명은 영상 혹은 화상을 분석하는 분야에 활용될 수 있다.The present invention can be utilized in the field of analyzing images or images.

Claims (17)

  1. 분석 대상 영상을 수신하는 단계;Receiving an analysis target image;
    미리 학습된 딥러닝 기반의 모델을 이용하여 상기 분석 대상 영상에서 액체류 물질의 용기 영역을 검출하는 단계;Detecting a container region of a liquid substance in the analysis target image using a previously learned deep learning-based model;
    상기 용기 영역에서 액체 영역을 검출하는 단계;Detecting a liquid region in the container region;
    상기 액체 영역에 대한 특징 벡터를 추출하는 단계; 및Extracting a feature vector for the liquid region; And
    상기 특징 벡터와 데이터 베이스에 포함된 특징 벡터를 비교하여 상기 액체류 물질을 분석하는 단계를 포함하는, 영상 분석 방법.And analyzing the liquid material by comparing the feature vector and the feature vector included in the database.
  2. 제 1항에 있어서,According to claim 1,
    상기 특징 벡터는, 상기 액체 영역의 색 정보, 색 패턴 정보, 밝기 정보, 밝기 패턴 정보 및 간섭 정보 중 적어도 하나에 기반하여 결정되는, 영상 분석 방법.The feature vector is determined based on at least one of color information, color pattern information, brightness information, brightness pattern information, and interference information of the liquid region.
  3. 제 1항에 있어서,According to claim 1,
    상기 액체 영역을 검출하는 단계는The step of detecting the liquid region is
    상기 용기 영역에 대한 간섭을 제거하는 단계를 포함하되,Removing the interference to the container area,
    상기 용기 영역에 대한 간섭은, 상기 용기 영역의 배경 간섭 및 내부 간섭 중 적어도 하나를 포함하는, 영상 분석 방법.The interference with the container area includes at least one of background interference and internal interference of the container area.
  4. 제 1항에 있어서,According to claim 1,
    상기 액체류 물질을 분석하는 단계는,The step of analyzing the liquid material,
    상기 추출된 특징 벡터와 상기 데이터 베이스에 포함된 특징 벡터의 유사도를 이용하여, 상기 액체류 물질을 담고 있는 용기의 종류 및 상기 액체류 물질의 종류 중 적어도 하나를 결정하는 단계를 포함하는 영상 분석 방법.Determining at least one of the type of the container containing the liquid-like substance and the type of the liquid-like substance, by using the similarity between the extracted feature vector and the feature vector included in the database. .
  5. 제 1항에 있어서,According to claim 1,
    상기 액체류 물질을 분석하는 단계는,The step of analyzing the liquid material,
    상기 추출된 특징 벡터와 상기 데이터 베이스에 포함된 특징 벡터를 비교하여 상기 액체류 물질의 양을 측정하는 단계를 포함하는, 영상 분석 방법.And comparing the extracted feature vector with the feature vector included in the database to measure the amount of the liquid substance.
  6. 제 1항에 있어서,According to claim 1,
    상기 액체류 물질에 대한 분석 결과를 출력하는 단계를 더 포함하되,Further comprising the step of outputting the analysis results for the liquid material,
    상기 분석 결과는 상기 액체류 물질을 담고 있는 용기의 종류, 상기 용기의 부피 및 상기 액체류 물질의 종류 중 적어도 하나를 포함하는, 영상 분석 방법.The analysis result includes at least one of the type of the container containing the liquid-like material, the volume of the container, and the type of the liquid-like material.
  7. 제 1항에 있어서,According to claim 1,
    상기 액체류 물질을 분석하는 단계는,The step of analyzing the liquid material,
    상기 액체류 물질을 담고 있는 용기가 상기 데이터 베이스에 포함되어 있는 특정 용기에 해당 할 확률을 결정하는 단계를 더 포함하는, 영상 분석 방법.And determining a probability that the container containing the liquid-like substance corresponds to a specific container included in the database.
  8. 제 7항에 있어서,The method of claim 7,
    상기 액체류 물질에 대한 분석 결과를 출력하는 단계를 더 포함하되,Further comprising the step of outputting the analysis results for the liquid material,
    상기 분석 결과는 상기 액체류 물질을 담고 있는 용기가 상기 특정 용기에 해당 할 확률과 관련된 정보를 포함하는, 영상 분석 방법.The analysis result includes information related to the probability that the container containing the liquid substance corresponds to the specific container.
  9. 제 1항에 있어서,According to claim 1,
    상기 액체류 물질을 분석하는 단계는,The step of analyzing the liquid material,
    상기 액체류 물질의 종류가 상기 데이터 베이스에 포함되어 있는 특정 액체류 물질에 해당 할 확률을 결정하는 단계를 더 포함하는, 영상 분석 방법.And determining a probability that the type of the liquid substance corresponds to a specific liquid substance contained in the database.
  10. 제 9항에 있어서,The method of claim 9,
    상기 액체류 물질에 대한 분석 결과를 출력하는 단계를 더 포함하되,Further comprising the step of outputting the analysis results for the liquid material,
    상기 분석 결과는 상기 액체류 물질의 종류가 상기 특정 물질에 해당 할 확률과 관련된 정보를 포함하는, 영상 분석 방법.The analysis result includes information related to the probability that the type of the liquid substance corresponds to the specific substance.
  11. 제 1항에 있어서,According to claim 1,
    상기 데이터 베이스에 특징 벡터를 추가하는 단계를 더 포함하되,The method further includes adding a feature vector to the database,
    상기 특징 벡터를 추가하는 단계는,The step of adding the feature vector,
    추가 대상 액체류 물질이 포함된 판독 영상을 수신하는 단계;Receiving a readout image containing an additional target liquid substance;
    상기 추가 대상 액체류 물질을 담고 있는 용기의 정보와 상기 추가 대상 액체류 물질의 정보를 수신하는 단계;Receiving information of a container containing the liquid substance to be added and information of the liquid substance to be added;
    상기 추가 대상 액체류 물질의 영상의 특징 벡터를 추출하는 단계; 및Extracting a feature vector of the image of the liquid substance to be added; And
    상기 추가 대상 액체류 물질의 영상의 특징 벡터를 상기 액체류 데이터 베이스에 추가하는 단계를 포함하는, 영상 분석 방법.And adding a feature vector of the image of the liquid substance to be added to the liquid flow database.
  12. 제 11항에 있어서,The method of claim 11,
    상기 특징 벡터를 추가하는 단계는,The step of adding the feature vector,
    상기 판독 영상을 기설정된 각도에 따라 정렬하는 단계를 더 포함하는, 영상 분석 방법.And aligning the read image according to a predetermined angle.
  13. 제 11항에 있어서,The method of claim 11,
    상기 특징 벡터를 추가하는 단계는,The step of adding the feature vector,
    상기 판독 영상을 기설정된 각도 간격에 따라 회전시켜, 상기 판독 영상의 각도별 영상을 얻는 단계를 더 포함하는, 영상 분석 방법.And rotating the read image according to a predetermined angular interval to obtain an image for each angle of the read image.
  14. 분석 대상 영상을 수신하는 수신부; 및A receiver configured to receive an analysis target image; And
    상기 분석 대상 영상을 분석하여 액체류 물질을 검출하는 영상 분석부를 포함하되,Including the image analysis unit to detect the liquid material by analyzing the analysis target image,
    상기 영상 분석부는,The image analysis unit,
    미리 학습된 딥러닝 기반의 모델을 이용하여 상기 분석 대상 영상에서 상기 액체류 물질의 용기 영역을 검출하는 액체 용기 검출부;A liquid container detector configured to detect a container region of the liquid-like substance in the analysis target image using a previously learned deep learning-based model;
    상기 용기 영역에서 액체 영역을 검출하는 액체 영역 검출부;A liquid region detection unit for detecting a liquid region in the container region;
    상기 액체 영역에 대한 특징 벡터를 추출하는 특징 추출부; 및A feature extraction unit for extracting a feature vector for the liquid region; And
    상기 특징 벡터와 데이터 베이스에 포함된 특징 벡터를 비교하여 상기 액체류 물질을 분석하는 특징 비교부를 포함하는, 영상 분석 장치.And a feature comparison unit that analyzes the liquid material by comparing the feature vector and the feature vector included in the database.
  15. 제 14항에 있어서,The method of claim 14,
    상기 특징 벡터는, 상기 액체 영역의 색 정보, 색 패턴 정보, 밝기 정보 및 간섭 정보 중 적어도 하나에 기반하여 결정되는, 영상 분석 장치.The feature vector is determined based on at least one of color information, color pattern information, brightness information, and interference information of the liquid region.
  16. 제 14항에 있어서,The method of claim 14,
    상기 수신부는, 추가 대상 액체류 물질을 포함하는 판독 영상, 상기 추가 대상 액체류 물질을 담고 있는 용기의 정보 및 상기 추가 대상 액체류 물질의 정보 중 적어도 하나를 수신하고,The receiving unit receives at least one of a readout image including the liquid substance to be added, information on a container containing the liquid substance to be added, and information on the liquid substance to be added,
    상기 특징 추출부는, 상기 추가 대상 액체류 물질의 영상의 특징 벡터를 추출하고, The feature extraction unit extracts a feature vector of the image of the liquid substance to be added,
    상기 영상 분석부는, 상기 추가 대상 액체류 물질의 영상의 특징 벡터를 상기 데이터 베이스에 추가하는 데이터 베이스 추가부를 더 포함하는 영상 분석 장치.The image analysis unit, the image analysis apparatus further comprising a database addition unit for adding a feature vector of the image of the liquid substance to be added to the database.
  17. 분석 대상 영상을 수신하는 단계;Receiving an analysis target image;
    미리 학습된 딥러닝 기반의 모델을 이용하여 상기 분석 대상 영상에서 액체류 물질의 용기 영역을 검출하는 단계;Detecting a container region of a liquid substance in the analysis target image using a previously learned deep learning-based model;
    상기 용기 영역에서 액체 영역을 검출하는 단계;Detecting a liquid region in the container region;
    상기 액체 영역에 대한 특징 벡터를 추출하는 단계; 및Extracting a feature vector for the liquid region; And
    상기 특징 벡터와 데이터 베이스에 포함된 특징 벡터를 비교하여 상기 액체류 물질을 분석하는 단계를 수행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.A computer-readable recording medium recording a program for performing the step of analyzing the liquid-like substance by comparing the feature vector and the feature vector included in the database.
PCT/KR2019/016987 2018-12-07 2019-12-04 Image analysis apparatus and method WO2020116923A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180156707A KR102032796B1 (en) 2018-12-07 2018-12-07 Image analysis apparatus and method
KR10-2018-0156707 2018-12-07

Publications (1)

Publication Number Publication Date
WO2020116923A1 true WO2020116923A1 (en) 2020-06-11

Family

ID=68542042

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/016987 WO2020116923A1 (en) 2018-12-07 2019-12-04 Image analysis apparatus and method

Country Status (2)

Country Link
KR (1) KR102032796B1 (en)
WO (1) WO2020116923A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4307211A1 (en) * 2022-07-14 2024-01-17 Samsung Electronics Co., Ltd. Method and apparatus with image restoration
WO2024046803A1 (en) * 2022-09-01 2024-03-07 Koninklijke Philips N.V. Estimating volumes of liquid

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102032796B1 (en) * 2018-12-07 2019-11-08 (주)제이엘케이인스펙션 Image analysis apparatus and method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060070898A (en) * 2004-12-21 2006-06-26 한국원자력연구소 Identification system for screening of concealed explosive substance
KR20160108373A (en) * 2013-12-27 2016-09-19 눅테크 컴퍼니 리미티드 Fluoroscopic examination system and method capable of conducting automatic classification and recognition on goods
KR20170058263A (en) * 2015-11-18 2017-05-26 눅테크 컴퍼니 리미티드 Methods and systems for inspecting goods
KR101893557B1 (en) * 2017-12-29 2018-08-30 (주)제이엘케이인스펙션 Image processing apparatus and method
KR102032796B1 (en) * 2018-12-07 2019-11-08 (주)제이엘케이인스펙션 Image analysis apparatus and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060070898A (en) * 2004-12-21 2006-06-26 한국원자력연구소 Identification system for screening of concealed explosive substance
KR20160108373A (en) * 2013-12-27 2016-09-19 눅테크 컴퍼니 리미티드 Fluoroscopic examination system and method capable of conducting automatic classification and recognition on goods
KR20170058263A (en) * 2015-11-18 2017-05-26 눅테크 컴퍼니 리미티드 Methods and systems for inspecting goods
KR101893557B1 (en) * 2017-12-29 2018-08-30 (주)제이엘케이인스펙션 Image processing apparatus and method
KR102032796B1 (en) * 2018-12-07 2019-11-08 (주)제이엘케이인스펙션 Image analysis apparatus and method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DOMINGO MERY: "X-ray Testing: The State of the Art", E-JOURNAL OF NONDESTRUCTIVE TESTING (NDT), vol. 18, no. 9, 2013, pages 1 - 12, XP055186920 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4307211A1 (en) * 2022-07-14 2024-01-17 Samsung Electronics Co., Ltd. Method and apparatus with image restoration
WO2024046803A1 (en) * 2022-09-01 2024-03-07 Koninklijke Philips N.V. Estimating volumes of liquid

Also Published As

Publication number Publication date
KR102032796B1 (en) 2019-11-08

Similar Documents

Publication Publication Date Title
WO2020138803A1 (en) Image analysis device and method
WO2019132587A1 (en) Image analysis device and method
WO2020116923A1 (en) Image analysis apparatus and method
WO2020159232A1 (en) Method, apparatus, electronic device and computer readable storage medium for image searching
WO2020091337A1 (en) Image analysis apparatus and method
WO2018088794A2 (en) Method for correcting image by device and device therefor
US7403656B2 (en) Method and apparatus for recognition of character string in scene image
AU2018319215B2 (en) Electronic apparatus and control method thereof
WO2020116988A1 (en) Image analysis device, image analysis method, and recording medium
WO2019151735A1 (en) Vision inspection management method and vision inspection system
WO2020106010A1 (en) Image analysis system and analysis method
WO2019135621A1 (en) Video playback device and control method thereof
WO2019132131A1 (en) Multi-wavelength image analysis electro-optical system for detecting accident vessel and victim
WO2021215730A1 (en) Computer program, method, and device for generating virtual defect image by using artificial intelligence model generated on basis of user input
WO2019132592A1 (en) Image processing device and method
WO2020117006A1 (en) Ai-based face recognition system
WO2022139111A1 (en) Method and system for recognizing marine object on basis of hyperspectral data
WO2022114731A1 (en) Deep learning-based abnormal behavior detection system and detection method for detecting and recognizing abnormal behavior
WO2021006482A1 (en) Apparatus and method for generating image
WO2015199354A1 (en) Pupil extraction method using neighbor aggregation binarization and pupil extraction control apparatus using same
WO2020091253A1 (en) Electronic device and method for controlling electronic device
WO2020085653A1 (en) Multiple-pedestrian tracking method and system using teacher-student random fern
WO2012086965A2 (en) Reporting method, electronic device and recording medium performing same
WO2019088592A1 (en) Electronic device and control method thereof
WO2022119136A1 (en) Method and system for extracting tag information from screenshot image

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19893594

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19893594

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 08.10.2021)

122 Ep: pct application non-entry in european phase

Ref document number: 19893594

Country of ref document: EP

Kind code of ref document: A1