WO2022030551A1 - 画像照合処理装置、方法およびプログラム - Google Patents

画像照合処理装置、方法およびプログラム Download PDF

Info

Publication number
WO2022030551A1
WO2022030551A1 PCT/JP2021/028966 JP2021028966W WO2022030551A1 WO 2022030551 A1 WO2022030551 A1 WO 2022030551A1 JP 2021028966 W JP2021028966 W JP 2021028966W WO 2022030551 A1 WO2022030551 A1 WO 2022030551A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
model
collation
processing
information
Prior art date
Application number
PCT/JP2021/028966
Other languages
English (en)
French (fr)
Inventor
哲希 柴田
鮎美 松本
育弘 宇田
篤 佐藤
Original Assignee
エヌ・ティ・ティ・コミュニケーションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エヌ・ティ・ティ・コミュニケーションズ株式会社 filed Critical エヌ・ティ・ティ・コミュニケーションズ株式会社
Publication of WO2022030551A1 publication Critical patent/WO2022030551A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • An embodiment of the present invention relates to an image collation processing apparatus, method and program used for collating a captured image of a person, for example.
  • a surveillance camera is installed in a place used by an unspecified number of people such as a store, an office building, a station yard, a road, etc., and a suspicious person or the like is monitored based on the image information obtained by the surveillance camera.
  • the detecting system is known.
  • the face image of a person captured by a camera installed at the entrance / exit of a building is collated with a reference face image stored in advance to calculate the similarity, and the calculated similarity is used as a threshold value.
  • a technique for comparing and determining whether or not both images match and outputting the determination result from the interface unit to an external terminal is described.
  • the present invention was made by paying attention to the above circumstances, and is intended to provide a technique that enables addition or change of a collation algorithm with a small number of setting changes.
  • one aspect of the image matching processing apparatus or method according to the present invention selectively uses a plurality of image matching models having different algorithms for image matching processing on image data acquired from a camera.
  • a model file including at least the trained parameter information corresponding to each of the plurality of image collation models and the architecture information for identifying the image collation model is stored in the storage unit.
  • the corresponding image matching model is called based on the architecture information included in the model file, the image data and the parameter information included in the model file are given to the called image matching model, and the image matching model is used.
  • a process of extracting a feature amount from the image data and a process of generating an image collation result based on the extracted feature amount are performed, and a process of receiving the image collation result from the image collation model and outputting it to the outside is executed. I tried to do it.
  • FIG. 1 is a block diagram showing a configuration of a system in which an image collation processing device according to an embodiment of the present invention is provided in a video analysis engine.
  • FIG. 2 is a block diagram showing a hardware and software configuration of a video analysis engine including an image collation processing device according to an embodiment of the present invention.
  • FIG. 3 is a flowchart showing a processing procedure and processing contents executed in the image collation processing apparatus shown in FIG.
  • FIG. 4 is a diagram showing an example of information stored in a model file used in the image collation processing apparatus shown in FIG.
  • FIG. 5 is a diagram showing another example of information stored in the model file used in the image collation processing apparatus shown in FIG.
  • FIG. 1 is a block diagram showing a configuration of a system in which an image collation processing device according to an embodiment of the present invention is provided in a video analysis engine.
  • FIG. 2 is a block diagram showing a hardware and software configuration of a video analysis engine including an image collation processing device according to an embodiment of the present
  • FIG. 6 is an example of a source code showing a series of processing contents from the call of the model corresponding to the architecture name defined in the model file to the extraction of the feature amount of the input image data by the image matching processing apparatus shown in FIG. It is a figure which shows.
  • FIG. 7 is a diagram showing an example of a source code showing a series of processing contents from reading weight information by a conventional interface dedicated to a specific model to extracting features of input image data.
  • FIG. 8 is a diagram showing an example of a source code showing a calling function for calling a model by the image matching processing apparatus shown in FIG. 2.
  • FIG. 9 is a diagram showing an example of a source code showing the similarity calculation between images and the normalization processing thereof by the image matching processing apparatus shown in FIG. 2.
  • FIG. 10 is a diagram for explaining the concept of similarity normalization processing.
  • FIG. 11 is a diagram showing the similarity after the normalization processing obtained by the image matching processing apparatus shown in FIG. 2 in comparison with the similarity when the conventional normalization processing
  • FIG. 1 is a block diagram showing an example of a system configuration in which an image collation processing device according to an embodiment of the present invention is provided in a video analysis engine.
  • This system includes a web server SV and a web server SV capable of data communication between the surveillance camera CM, the video analysis engine VE connected to the surveillance camera CM, and the video analysis engine VE via a network (not shown). It is equipped with a monitor device MT to be connected.
  • the Web server SV includes a Web application execution unit 50, a file server 60, and a database server 70.
  • the Web server SV acquires image data output from the image analysis engine VE, which will be described later, and information representing the image analysis result, and stores the information in the database server 70. Further, the Web server SV performs various processes related to the monitoring work based on the image data and the information representing the image analysis result, and displays the result on the monitoring device MT.
  • a wired LAN Local Area Network
  • a wireless LAN is used, but any other network may be used.
  • the video analysis engine VE includes a hardware processor such as a central processing unit (CPU), and the hardware processor is input with a storage unit having a program storage area and a data storage area via a bus. It is composed of a so-called information processing unit in which an output interface (input / output I / F) and a communication interface (communication I / F) are connected.
  • a hardware processor such as a central processing unit (CPU)
  • CPU central processing unit
  • the hardware processor is input with a storage unit having a program storage area and a data storage area via a bus. It is composed of a so-called information processing unit in which an output interface (input / output I / F) and a communication interface (communication I / F) are connected.
  • the image analysis engine VE has an image matching processing unit AD that functions as an image matching processing device of one embodiment, a camera interface (camera I / F) 30, and an image matching processing unit AD that performs image matching processing. It is provided with a plurality of models 41 to 4n used for the purpose and a stream processing unit SB.
  • the camera I / F30 and the models 41 to 4n are provided outside the image collation processing unit AD is shown, but the camera I / F30 and the models 41 to 4n are inside the image collation processing unit AD. It may be provided.
  • the stream processing unit SB has a function of transmitting data indicating the similarity score between images obtained by the image collation processing unit AD to the Web server SV and receiving various control data sent from the Web server SV. Further, when the video analysis engine VE is provided with, for example, a plurality of image matching modules, the stream processing unit SB sequentially calls the image matching processing unit corresponding to each image matching module in chronological order and receives a similarity score. It has a function of transmitting information representing an image analysis result including the similarity score to the Web server SV together with the corresponding image data.
  • FIG. 2 is a functional block diagram showing a software configuration of the video analysis engine VE.
  • the camera I / F30 has a function of receiving video data output from the surveillance camera CM and outputting it to the image collation processing unit AD.
  • Models 41 to 4n collate, for example, the whole body or half of a person by different algorithms. More specifically, for example, a process of extracting a feature amount (also referred to as a feature vector) from input image data using a neural network, the extracted feature amount, and an image of a person given in advance. By calculating the distance from the feature amount extracted from, the process of obtaining the similarity score between the images is performed.
  • a feature amount also referred to as a feature vector
  • the image collation processing unit AD includes an information processing unit 10 and a storage unit 20.
  • the storage unit 20 uses a part of the storage unit included in the video analysis engine VE, and stores various programs and data related to the image collation process.
  • the data includes trained model files 21-2n used by models 41-4n for image matching processing.
  • weight information (weight) as trained parameter information given to the corresponding models is provided.
  • Information that specifies the image size (height) in the vertical direction (height direction) and the image size (width) in the horizontal direction of the image, and information that specifies the architecture name (architecture) are saved.
  • the information processing unit 10 executes various processes related to the image collation process by causing the hardware processor included in the video analysis engine VE to execute various programs stored in the storage unit 20.
  • the processing functions to be executed include a model call processing unit 11, an image data acquisition processing unit 12, an image preprocessing unit 13, a feature amount extraction processing unit 14, a similarity calculation processing unit 15, and a normalization / output.
  • a processing unit 16 is provided.
  • the model call processing unit 11 reads the stored information from the model file specified in advance in the model files 21 to 2n, and performs a process of calling the model (for example, 4k) corresponding to the architecture name included in the stored information by the calling function. ..
  • the image data acquisition processing unit 12 performs a process of acquiring the video data captured by the surveillance camera CM as image data in frame units via the camera I / F30.
  • the image preprocessing unit 13 performs preprocessing such as image resizing on the acquired image data according to the image size included in the saved information read from the model file. Then, a process of inputting to the model 4k called by the model call processing unit 11 is performed.
  • the feature amount extraction processing unit 14 gives the trained weight information included in the stored information to the model 4k, and thereby performs a process of extracting the feature amount from the input image data by the model 4k.
  • the similarity calculation processing unit 15 calculates the distance between the feature amount of the input image extracted by the feature amount extraction processing unit 14 and the feature amount extracted from the preset query image of the person. Performs the process of obtaining the similarity score between images.
  • the normalization / output processing unit 16 performs normalization processing on the calculated similarity score so that the range thereof is within the range of the threshold value defined in advance by the Web server SV. Then, the normalization / output processing unit 16 transfers the similarity score after the normalization processing obtained by the similarity calculation processing unit 15 to the stream processing unit SB as information representing the image analysis result according to the request of the stream processing unit SB. Performs output processing.
  • FIG. 3 is a flowchart showing a processing procedure and processing contents of the image collation processing unit AD using the models 41 to 4n.
  • the above learning process is also performed when a new model is added after the start of operation of the system, and this learning process creates a model file corresponding to the new model and additionally stores it in the storage unit 20. ..
  • Model call When the system operation is started, the information processing unit 10 of the image collation processing unit AD first steps under the control of the model call processing unit 11.
  • a model file corresponding to the model to be used is selected from the plurality of model files 21 to 2n stored in the storage unit 20, and the stored information is read. For example, if a model corresponding to the architecture name AC1 is specified, the model file 21 corresponding to the model is selected, and the stored information shown in FIG. 4 is read from the model file 21.
  • step S11 the model call processing unit 11 calls the corresponding model 41 based on the architecture name AC1 included in the stored information read from the model file 21.
  • the call processing of this model can be similarly performed for other models (for example, 42) based on the architecture name (AC2 in this case).
  • the source code 3 shown in FIG. 6 shows an example of a series of processing procedures in the class CLASS1 according to the embodiment.
  • the load function loads the model file
  • the calling function obtain-model calls the model corresponding to the architecture name described in the model file.
  • the source code 4 shown in FIG. 7 shows the processing procedure in the conventional class CLASS0 (for example, MCCNN: Multichannel Convolutional Neural Network).
  • MCCNN Multichannel Convolutional Neural Network
  • the source code 5 shown in FIG. 8 shows an example of the contents of the above calling function obtain-model.
  • the calling function obtain-model corresponds to each of the model used (corresponding to the architecture names AC1 and AC2) and the model corresponding to the new algorithm planned to be used (architecture name newmodel).
  • the processing procedure to be performed is defined. That is, when using a new model, it is only necessary to add the source code indicating the processing content in association with the corresponding architecture name newmodel, and there is no need to separately create a dedicated calling function corresponding to the new model. ..
  • the information processing unit 10 of the image collation processing unit AD captures the video data captured by the surveillance camera CM in step S12. It is acquired as image data from I / F30 in frame units.
  • the image data may be acquired every multiple frames or at regular time intervals.
  • the image data acquisition processing unit 12 temporarily stores the acquired image data in the image storage area in the storage unit 20.
  • the above image data reading process is performed by executing the predict function described in the 12th to 13th lines in the source code 3 shown in FIG. In the figure, the image data is indicated by x.
  • step S13 the information processing unit 10 of the image collation processing unit AD reads out the image data from the image storage area in step S13, and the image data.
  • preprocessing such as image resizing is performed according to the information (height, width) indicating the image size included in the saved information previously read from the model file.
  • step S14 the image preprocessing unit 13 inputs the image data after the preprocessing into the corresponding model 41.
  • the preprocessing is shown in the 14th to 15th lines in the source code 3 shown in FIG.
  • the information processing unit 10 of the image matching processing unit AD subsequently sets the similarity score in the Web server SV in step S17 under the control of the normalization / output processing unit 16. Normalizes to be within the predefined threshold range.
  • the source code 6 shown in FIG. 9 shows an example of a processing procedure from the feature amount extraction process to the similarity score calculation process and the normalization process. That is, in the model, the feature quantities y1 and y2 are extracted from the image x1 and the image x2, respectively. In addition, the average mean and variance variation of the model-specific image-to-image similarity are read from the model file. Then, the normalized similarity between y1 and y2 is calculated using the function sim for calculating the similarity score and the mean mean and the variance variation.
  • the model calculates the similarity between many sample images at the learning stage, and holds the average and variance of the similarity between the sample images in the model file in advance.
  • FIG. 10 is for explaining an example of the similarity score normalization process performed by the image collation processing unit AD.
  • the similarity scores obtained for the architectures AC1 and AC2 are 0 to 2000 and 0 to 2
  • the threshold value defined by the Web server SV is 0 to 31
  • each of the above similarity scores is set as the threshold value. Shows the case where is normalized to 0 to 30 so that it is in the range of 0 to 31.
  • FIG. 11 is a diagram showing a comparison between the output result of the similarity score in one embodiment and the output result of the conventional similarity score without the normalization process.
  • the Web server SV does not need to perform the process of correcting the similarity score for each model, which is the process on the Web server SV side. It is possible to reduce the load on the engineer who designs the function and the processing load on the Web server SV.
  • the model file itself holds the normalization parameters (mean mean and variance variation), so the design engineer confirms the score output range. There is no need to add special processing.
  • the image collation processing unit AD provided in the video analysis engine VE performs the following processing. That is, weight information (weight) as trained parameter information and image size (height) in the vertical direction (height direction) of the image corresponding to each of the model used and the new model planned to be used. ) And information that specifies the image size (width) in the width direction, and information that specifies the architecture name (architecture) is created and stored in the storage unit 20.
  • class CLASS1 that functions in common for each of the above models is defined, and the source code indicating the processing procedure corresponding to each of the above models is described in the call function defined in this class CLASS1.
  • the process of calling the corresponding model according to the architecture name read from the model file the process of acquiring the image data, and the process of acquiring the acquired image data according to the image size defined in the model file.
  • Pre-processing to resize the image processing to input the image data after pre-processing into the above model and extract the feature amount, and calculate the similarity score with the feature amount of the detected image based on the extracted feature amount. I am trying to process it.
  • the calculated similarity score is set within the threshold range defined by the Web server SV.
  • the normalization process is performed, and the normalized similarity score is transmitted to the Web server SV via the stream processing unit SB. Therefore, in the Web server SV, it is not necessary to perform the process of correcting the similarity score for each model, thereby reducing the load on the engineer who designs the processing function on the Web server SV side and reducing the processing load on the Web server SV. It is possible to reduce it.
  • the program according to the present embodiment may be transferred in a state of being stored in an electronic device, may be transferred in a state of being stored in a storage medium, or may be transferred by downloading via a network or the like.
  • the recording medium is a non-temporary computer-readable storage medium such as a magnetic disk, an optical disk, or a flash memory.
  • the present invention is not limited to the above-described embodiment as it is, and at the implementation stage, the components can be modified and embodied within a range that does not deviate from the gist thereof.
  • various inventions can be formed by an appropriate combination of the plurality of components disclosed in the above-described embodiment. For example, some components may be removed from all the components shown in the embodiments. In addition, components from different embodiments may be combined as appropriate.
  • CM Surveillance camera VE ... Video analysis engine AD ... Image collation processing unit SB ... Stream processing unit SV ... Web server MT ... Monitor device 10 ... Information processing unit 11 ... Model call processing unit 12 ... Image data acquisition processing unit 13 ... Image front Processing unit 14 ... Feature amount extraction processing unit 15 ... Similarity calculation processing unit 16 ... Normalization / output processing unit 20 ... Storage unit 21 to 2n ... Model file 30 ... Camera I / F 41-4n ... Model for image matching 50 ... Web application execution unit 60 ... File server 70 ... Database server

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

少ない設定変更で照合アルゴリズムの追加又は変更を可能にする。 この発明の一態様は、アルゴリズムの異なる複数の画像照合モデルを選択的に用いて画像照合処理を行う際に、前記複数の画像照合モデルの各々に対応する、学習済のパラメータ情報と、前記画像照合モデルを識別するアーキテクチャ情報とを少なくとも含むモデルファイルを記憶部に保存し、前記モデルファイルに含まれる前記アーキテクチャ情報をもとに対応する画像照合モデルを呼び出し、呼び出された前記画像照合モデルに前記画像データと前記モデルファイルに含まれる前記パラメータ情報を与え、当該画像照合モデルにより前記画像データから特徴量を抽出する処理と抽出された前記特徴量をもとに画像照合結果を生成する処理を行い、前記画像照合結果を前記画像照合モデルから受け取って外部へ出力する処理を実行するようにしたものである。

Description

画像照合処理装置、方法およびプログラム
 この発明の実施形態は、例えば人物の撮像画像を照合するために使用される画像照合処理装置、方法およびプログラムに関する。
 例えば、店舗やオフィスビル、駅の構内、道路等のように不特定多数の人が利用する場所に監視カメラを設置し、この監視カメラにより得られる画像情報に基づいて不審者等の監視対象を検知するシステムが知られている。例えば特許文献1には、建物の出入り口に設置されたカメラにより撮像された人物の顔画像を予め記憶された基準顔画像と照合してその類似度を算出し、算出された類似度を閾値と比較して両画像が一致するか否かを判定し、その判定結果をインタフェース部から外部端末へ出力する技術が記載されている。
日本国特許第6627894号公報
 ところで、画像照合の分野では、画像処理技術の発展により様々な照合アルゴリズムが開発され、例えば用途や環境条件に応じて適切な照合アルゴリズムを選択的に使用したり、追加することが考えられている。しかし、従来のシステムでは、照合アルゴリズム毎に専用のインタフェースを設け、このインタフェースを介して外部へ照合結果を出力するようにしている。このため、照合アルゴリズムを追加又は変更する毎に大掛かりな設定変更が必要となり、その作業に多くの労力と時間を要するという課題があった。
 この発明は上記事情に着目してなされたもので、少ない設定変更で照合アルゴリズムの追加または変更を可能にする技術を提供しようとするものである。
 上記課題を解決するためにこの発明に係る画像照合処理装置又は方法の一態様は、カメラから取得される画像データに対し、アルゴリズムの異なる複数の画像照合モデルを選択的に用いて画像照合処理を行う画像照合処理装置にあって、前記複数の画像照合モデルの各々に対応する、学習済のパラメータ情報と、前記画像照合モデルを識別するアーキテクチャ情報とを少なくとも含むモデルファイルを記憶部に保存し、前記モデルファイルに含まれる前記アーキテクチャ情報をもとに対応する画像照合モデルを呼び出し、呼び出された前記画像照合モデルに前記画像データと前記モデルファイルに含まれる前記パラメータ情報を与え、当該画像照合モデルにより前記画像データから特徴量を抽出する処理と抽出された前記特徴量をもとに画像照合結果を生成する処理を行い、前記画像照合結果を前記画像照合モデルから受け取って外部へ出力する処理を実行するようにしたものである。
 この発明の一態様によれば、例えば、新しいモデルに対応する専用の処理手順を定義したファイルを最初から作り直す必要がなくなり、これによりシステムの設計者または管理者の作業負担を大幅に軽減することが可能となる。
 すなわちこの発明の一態様によれば、少ない設定変更で照合アルゴリズムの追加または変更を可能にする技術を提供することができる。
図1は、この発明の一実施形態に係る画像照合処理装置を映像解析エンジンに備えたシステムの構成を示すブロック図である。 図2は、この発明の一実施形態に係る画像照合処理装置を備えた映像解析エンジンのハードウェアおよびソフトウェア構成を示すブロック図である。 図3は、図2に示した画像照合処理装置において実行される処理手順と処理内容を示すフローチャートである。 図4は、図2に示した画像照合処理装置において使用されるモデルファイルに保存される情報の一例を示す図である。 図5は、図2に示した画像照合処理装置において使用されるモデルファイルに保存される情報の他の例を示す図である。 図6は、図2に示した画像照合処理装置による、モデルファイルに定義されたアーキテクチャ名に対応するモデルの呼び出しから、入力画像データの特徴量抽出までの一連の処理内容を示すソースコードの一例を示す図である。 図7は、従来の特定モデル専用のインタフェースによる重み情報の読み込みから入力画像データの特徴量抽出までの一連の処理内容を示すソースコードの一例を示す図である。 図8は、図2に示した画像照合処理装置による、モデルの呼び出しを行うための呼び出し関数を示すソースコードの一例を示す図である。 図9は、図2に示した画像照合処理装置による、画像間の類似度計算とその正規化処理を示すソースコードの一例を示す図である。 図10は、類似度の正規化処理の概念を説明するための図である。 図11は、図2に示した画像照合処理装置により得られる正規化処理後の類似度を、従来の正規化処理を行わない場合の類似度と対比して示した図である。
 以下、図面を参照してこの発明に係わる実施形態を説明する。
 [一実施形態]
 (構成例)
 (1)システム
 図1は、この発明の一実施形態に係る画像照合処理装置を映像解析エンジンに備えたシステムの構成の一例を示すブロック図である。
 このシステムは、監視カメラCMと、監視カメラCMに接続される映像解析エンジンVEと、映像解析エンジンVEとの間で図示しないネットワークを介してデータ通信が可能なWebサーバSVと、WebサーバSVに接続されるモニタ装置MTとを備えている。
 このうちWebサーバSVは、Webアプリケーション実行部50と、ファイルサーバ60と、データベースサーバ70とを備える。WebサーバSVは、後述する映像解析エンジンVEから出力される画像データおよび画像解析結果を表す情報を取得してデータベースサーバ70に記憶する。またWebサーバSVは、上記画像データおよび画像解析結果を表す情報に基づいて監視業務に係る種々の処理を行い、その結果をモニタ装置MTに表示させる。
 なお、ネットワークとしては、例えば有線LAN(Local Area Network)または無線LANが用いられるが、他のどのようなネットワークが使用されてもよい。
 映像解析エンジンVEは、中央処理ユニット(Central Processing Unit:CPU)等のハードウェアプロセッサを備え、このハードウェアプロセッサに対し、バスを介して、プログラム記憶領域およびデータ記憶領域を有する記憶ユニットと、入出力インタフェース(入出力I/F)と、通信インタフェース(通信I/F)を接続した、いわゆる情報処理装置により構成される。
 また映像解析エンジンVEは、その機能として、一実施形態の画像照合処理装置として機能する画像照合処理部ADと、カメラインタフェース(カメラI/F)30と、画像照合処理部ADが画像照合処理のために使用する複数のモデル41~4nと、ストリーム処理部SBとを備えている。
 なお、この例では、カメラI/F30およびモデル41~4nが画像照合処理部ADの外に設けた場合を示しているが、カメラI/F30およびモデル41~4nは画像照合処理部AD内に設けられてもよい。
 ストリーム処理部SBは、画像照合処理部ADにより得られる画像間の類似度スコアを示すデータをWebサーバSVへ送信すると共に、WebサーバSVから送られる各種制御データを受信する機能を有する。またストリーム処理部SBは、映像解析エンジンVEが例えば複数の画像照合モジュールを備えている場合に、それぞれの画像照合モジュールに対応する画像照合処理部を時系列に順次に呼び出して類似度スコアを受け取り、この類似度スコアを含む画像解析結果を表す情報を、対応する画像データと共にWebサーバSVへ送信する機能を有している。
 (2)装置
 図2は、映像解析エンジンVEのソフトウェア構成を示す機能ブロック図である。
  カメラI/F30は、監視カメラCMから出力される映像データを受信して画像照合処理部ADへ出力する機能を有する。
 モデル41~4nは、それぞれ異なるアルゴリズムにより、例えば人物の全身または半身の照合を行う。より具体的には、例えばニューラルネットワークを使用して、入力された画像データから特徴量(特徴ベクトルとも云う)を抽出する処理と、抽出された上記特徴量と、予め与えられている人物の画像から抽出した特徴量との間の距離を計算することで、画像間の類似度スコアを求める処理を行う。
 画像照合処理部ADは、情報処理部10と、記憶部20とを備える。記憶部20は、映像解析エンジンVEが備える記憶ユニットの一部を使用したもので、画像照合処理に係る各種プログラムとデータを記憶する。データには、モデル41~4nが画像照合処理のために使用する学習済のモデルファイル21~2nが含まれる。
 モデルファイル21~2nには、例えば図4および図5のソースコード1,2に示すように、それぞれ対応するモデル(アーキテクチャとも云う)に与える学習済のパラメータ情報としての重み情報(weight)と、画像の縦方向(高さ方向)の画像サイズ(height)および横幅方向の画像サイズ(width)を指定する情報と、アーキテクチャ名(architecture)を指定する情報が保存される。
 情報処理部10は、上記記憶部20に格納された各種プログラムを映像解析エンジンVEが備えるハードウェアプロセッサに実行させることで、画像照合処理に係る各種処理を実行する。実行される処理機能には、モデル呼出処理部11と、画像データ取得処理部12と、画像前処理部13と、特徴量抽出処理部14と、類似度算出処理部15と、正規化・出力処理部16とを備える。
 モデル呼出処理部11は、モデルファイル21~2nのうち予め指定されたモデルファイルから保存情報を読み込み、この保存情報に含まれるアーキテクチャ名に対応するモデル(例えば4k)を呼出関数により呼び出す処理を行う。
 画像データ取得処理部12は、監視カメラCMにより撮像された映像データを、カメラI/F30を介してフレーム単位で、画像データとして取得する処理を行う。
 画像前処理部13は、取得された上記画像データに対し、上記モデルファイルから読み込んだ保存情報に含まれる画像サイズに従い画像リサイズなどの前処理を行う。そして、上記モデル呼出処理部11により呼び出されたモデル4kに入力する処理を行う。
 特徴量抽出処理部14は、上記モデル4kに上記保存情報に含まれる学習済の重み情報を与え、これによりモデル4kにより上記入力画像データから特徴量を抽出する処理を行う。
 類似度算出処理部15は、上記特徴量抽出処理部14により抽出された入力画像の特徴量と、予め設定された人物のクエリ画像から抽出した特徴量との間の距離を計算することで、画像間の類似度スコアを求める処理を行う。
 正規化・出力処理部16は、上記算出された類似度スコアを、その範囲がWebサーバSVにより予め定義された閾値の範囲内になるように正規化処理を行う。そして正規化・出力処理部16は、上記類似度算出処理部15により得られる正規化処理後の類似度スコアを、ストリーム処理部SBの要求に従い、画像解析結果を表す情報としてストリーム処理部SBへ出力する処理を行う。
 (動作例)
 次に、以上のように構成された映像解析エンジンVEによる画像照合処理の動作例を説明する。 
 図3は、モデル41~4nを用いた画像照合処理部ADの処理手順と処理内容を示すフローチャートである。
 (1)システム運用前の事前設定
 先ず、システム運用前の学習フェーズにおいて、映像解析エンジンVEで使用されるまたは使用する予定の複数のモデルの各々について学習を行う。そして、学習により得られた重み情報(weight)と、モデル毎に決められる入力画像の縦(高さ)方向のサイズ(height)および横幅方向のサイズ(width)と、モデル毎のアーキテクチャ名(architecture)とがシリアライズされたモデルファイル21~2nを作成し、記憶部20に記憶させる。図4および図5に示すソースコード1,2は、それぞれアーキテクチャ名AC1,AC2に対応するモデルファイルを定義するソースコードの一例を示したものである。
 上記学習処理は、システムの運用開始後に新たなモデルを追加する場合にも同様に行われ、この学習処理により上記新たなモデルに対応するモデルファイルが作成されて、記憶部20に追加記憶される。
 また、新たなモデルを追加する場合、当該モデルを呼び出すための呼出関数を定義するソースコードに、上記新たなモデルに対応するアルゴリズムを追加する。このときの呼出関数を定義するソースコードの具体例は後に示す。
 (2)システムの運用時の動作
 (2-1)モデルの呼び出し
 システムの運用が開始されると、画像照合処理部ADの情報処理部10は、先ずモデル呼出処理部11の制御の下、ステップS10において、記憶部20に記憶された複数のモデルファイル21~2nの中から、使用するモデルに対応するモデルファイルを選択し、その保存情報を読み込む。例えば、いまアーキテクチャ名AC1に対応するモデルが指定されていれば、当該モデルに対応するモデルファイル21を選択し、当該モデルファイル21から図4に示す保存情報を読み込む。
 モデル呼出処理部11は、次にステップS11において、上記モデルファイル21から読み込んだ保存情報に含まれるアーキテクチャ名AC1をもとに、対応するモデル41を呼び出す。このモデルの呼出処理は、他のモデル(例えば42)についても、アーキテクチャ名(この場合はAC2)をもとに同様に行うことができる。
 図6に示すソースコード3は、一実施形態に係るクラスCLASS1における一連の処理手順の一例を示すものである。この例では、load関数によりモデルファイルの読み込みが行われ、呼出関数obtain-modelにより、上記モデルファイルに記載されたアーキテクチャ名に対応するモデルの呼び出しが行われる。
 因みに、図7に示すソースコード4は、従来のクラスCLASS0(例えばMCCNN: Multichannel Convolutional Neural Network)における処理手順を示したものである。この場合には、load関数によりモデルファイルから重み情報(weight)のみが読み込まれた後、呼出関数が実行されずに、そのままpredict関数により画像データの読み込み以降の処理が実行される。そのため、新たなモデルを呼び出そうとすれば、それ専用のソースコードを別途作成して設定する必要がある。
 図8に示すソースコード5は、上記呼出関数obtain-modelの内容の一例を示すものである。この例に示すように、呼出関数obtain-modelには、使用されるモデル(アーキテクチャ名AC1,AC2に対応)および使用を予定している新しいアルゴリズムに対応するモデル(アーキテクチャ名newmodel)の各々に対応する処理手順が定義される。すなわち、新しいモデルを使用する際には、それに対応するアーキテクチャ名newmodelに対応付けて処理内容を示すソースコードを追加するだけでよく、新しいモデルに対応する専用の呼出関数を別途作成する必要がない。
 (2-2)画像データの取得
 次に画像照合処理部ADの情報処理部10は、画像データ取得処理部12の制御の下、ステップS12において、監視カメラCMにより撮像された映像データを、カメラI/F30からフレーム単位で画像データとして取得する。なお、画像データの取得は、複数フレーム毎または一定の時間間隔で行われるようにしてもよい。画像データ取得処理部12は、取得された画像データを記憶部20内の画像記憶領域に一旦保存する。
 以上の画像データの読み込み処理は、図6に示すソースコード3においては、第12行~13行に記載されたpredict関数の実行により行われる。同図では画像データをxで示している。
 (2-3)画像の前処理
 続いて画像照合処理部ADの情報処理部10は、画像前処理部13の制御の下、ステップS13において、上記画像記憶領域から画像データを読み出し、当該画像データに対し、先にモデルファイルから読み込んだ保存情報に含まれる画像サイズを示す情報(height,width)に従い画像リサイズなどの前処理を行う。そして、画像前処理部13は、ステップS14において、上記前処理後の画像データを対応するモデル41に入力する。上記前処理は、図6に示すソースコード3においては、第14行~15行に示される。
 (2-4)特徴量の抽出
 画像データが入力されると、特徴量抽出処理部14として機能するモデルは、ステップS15において、先にモデルファイルから読み込んだ保存情報に含まれる重み情報(weight)に従い、上記画像データから人物の全身または半身の特徴量を抽出する。そして、抽出された特徴量を類似度算出処理部15に渡す。この特徴量抽出処理は、図6に示すソースコード3では第16行に示される。同図では、特徴量をyで示している。
 (2-5)類似度の算出と正規化処理
 特徴量が得られると、類似度算出処理部15として機能するモデルは、ステップS16において、抽出された上記入力画像の類似度と、予め設定された人物のクエリ画像から抽出した特徴量との間の距離を計算し、これにより各画像間の類似度スコアを求める。
 類似度スコアが算出されると、画像照合処理部ADの情報処理部10は、続いて正規化・出力処理部16の制御の下、ステップS17において、上記類似度スコアをその範囲がWebサーバSVにより予め定義された閾値の範囲内になるように正規化する。
 図9に示すソースコード6は、特徴量の抽出処理から類似度スコアの算出処理および正規化処理までの処理手順の一例を示すものである。すなわち、モデルにおいて、画像x1および画像x2からそれぞれ特徴量y1,y2が抽出される。また、モデルファイルからモデル固有の画像間類似度の平均meanおよび分散varianceが読み出される。そして、類似度スコアを計算する関数sim、および平均meanと分散varianceを用いてy1,y2間の正規化された類似度が算出される。
 尚、上記した正規化処理のため、モデルは学習段階で多数のサンプル画像間の類似度を計算し、サンプル画像間の類似度の平均と分散をモデルファイルにあらかじめ保持している。
 図10は、上記画像照合処理部ADにより行われる類似度スコアの正規化処理の一例を説明するためのものである。この例は、アーキテクチャAC1,AC2についてそれぞれ得られる類似度スコアが0~2000,0~2であり、WebサーバSVで定義された閾値が0~31である場合に、上記各類似度スコアを閾値が0~31の範囲内にするべく0~30に正規化する場合を示している。また図11は、一実施形態における類似度スコアの出力結果と、正規化処理を行わない従来における類似度スコアの出力結果を対比して表す図である。
 このように正規化が行われた類似度スコアをWebサーバSVへ出力すれば、WebサーバSVではモデル毎にその類似度スコアを補正する処理を行う必要がなくなり、これによりWebサーバSV側の処理機能を設計する技術者の負荷の軽減と、WebサーバSVにおける処理負荷を軽減することが可能となる。
 ちなみに、従来では、類似度のスコア範囲として例えば0~3000を出力するモデルがあったとすると、設計技術者が手動で「スコアを100で割り算する処理」を逐一追加し、これによりスコア範囲を0~30にする必要があった。このとき、「100」という数字はモデルごとに変わるため、従来の手法ではモデルごとに類似度出力値域を調べる必要があり、その作業負担が極めて高くなる。
 これに対し、一実施形態のように正規化処理手順を導入すると、モデルファイル自体が正規化パラメータ(平均meanと分散variance)を保持しているため、設計技術者がスコア出力範囲を確認して特別な処理を追加する必要が不要となる。
 (2-6)類似度スコアの出力
 画像照合処理部ADの情報処理部10は、正規化・出力処理部16の制御の下、ステップS18において、上記算出された正規化処理後の類似度スコアをストリーム処理部SBへ出力する。ストリーム処理部SBは、上記正規化処理後の類似度スコアをWebサーバSVへ送信する。
 (作用・効果)
 以上述べたように一実施形態では、映像解析エンジンVEに設けられる画像照合処理部ADにおいて、以下のような処理を行っている。すなわち、使用されるモデルおよび使用を予定している新しいモデルの各々に対応して、学習済のパラメータ情報としての重み情報(weight)と、画像の縦方向(高さ方向)の画像サイズ(height)および横幅方向の画像サイズ(width)を指定する情報と、アーキテクチャ名(architecture)を指定する情報を含むモデルファイルを作成して記憶部20に保存する。またそれと共に、上記各モデルに対し共通に機能するクラスCLASS1を定義し、このクラスCLASS1で定義される呼出関数に上記各モデルに対応する処理手順を示すソースコードを記述する。そして、上記CLASS1で定義される処理手順に従い、モデルファイルから読み込んだアーキテクチャ名に従い対応するモデルを呼び出す処理、画像データを取得する処理、取得された画像データに対しモデルファイルで定義された画像サイズに従い画像リサイズを行う前処理、前処理後の画像データを上記モデルに入力して特徴量を抽出する処理、抽出された特徴量をもとに検知対象画像の特徴量との類似度スコアを算出する処理を行うようにしている。
 従って、新しいモデルを使用しようとする際には、それに対応するアーキテクチャ名newmodelを含むモデルファイルを用意すると共に、新しいモデルの処理内容を示すソースコードを呼出関数に追記するだけでよく、新しいモデルに対応する専用の処理手順を定義したファイルを最初から作り直す必要がない。このため、システムの設計者または管理者の作業負担を大幅に軽減することが可能となる。
 また一実施形態では、画像照合処理部ADにおいて、画像間の特徴量の類似度スコアを算出する処理に続き、算出された類似度スコアをWebサーバSVで定義された閾値の範囲内にするべく正規化処理を行い、この正規化処理された類似度スコアをストリーム処理部SBを介してWebサーバSVへ送信するようにしている。従って、WebサーバSVではモデル毎にその類似度スコアを補正する処理を行う必要がなくなり、これによりWebサーバSV側の処理機能を設計する技術者の負荷の軽減と、WebサーバSVにおける処理負荷を軽減することが可能となる。
 [その他の実施形態]
 前記一実施形態では、人物の全身または半身の照合を行う場合を例にとって説明したが、人物の顔を照合する場合にもこの発明は適用可能である。その他、画像照合処理装置の構成やその処理手順および処理内容、モデルの種類やモデルファイルに保存される情報の種類等についても、この発明の要旨を逸脱しない範囲で種々変形して実施できる。
 以上、本発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。
 本実施形態に係るプログラムは、電子機器に記憶された状態で譲渡されてよいし、記憶媒体に記憶された状態で譲渡されてもよいし、ネットワーク等を介したダウンロードにより譲渡されてもよい。記録媒体は、磁気ディスク、光ディスク、又はフラッシュメモリ等の非一時的なコンピュータ可読記憶媒体である。 
 要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
 CM…監視カメラ
 VE…映像解析エンジン
 AD…画像照合処理部
 SB…ストリーム処理部
 SV…Webサーバ
 MT…モニタ装置
 10…情報処理部
 11…モデル呼出処理部
 12…画像データ取得処理部
 13…画像前処理部
 14…特徴量抽出処理部
 15…類似度算出処理部
 16…正規化・出力処理部
 20…記憶部
 21~2n…モデルファイル
 30…カメラI/F
 41~4n…画像照合用のモデル
 50…Webアプリケーション実行部
 60…ファイルサーバ
 70…データベースサーバ
 

Claims (6)

  1.  カメラから取得される画像データに対し、アルゴリズムの異なる複数の画像照合モデルを選択的に用いて画像照合処理を行う画像照合処理装置であって、
     前記複数の画像照合モデルの各々に対応する、学習済のパラメータ情報と、前記画像照合モデルを識別するアーキテクチャ情報とを少なくとも含むモデルファイルを保存する記憶部と、
     前記モデルファイルに含まれる前記アーキテクチャ情報をもとに対応する前記画像照合モデルを呼び出し、呼び出された前記画像照合モデルに前記画像データと前記モデルファイルに含まれる前記パラメータ情報を与え、当該画像照合モデルにより前記画像データから特徴量を抽出する処理と抽出された前記特徴量をもとに画像照合結果を生成する処理を行い、前記画像照合結果を前記画像照合モデルから受け取って外部へ出力する情報処理部と
    を備える画像照合処理装置。
  2.  前記記憶部に保存される前記モデルファイルは、前記画像データの画像サイズを指定する情報をさらに含み、
     前記情報処理部は、前記画像データに対し前記モデルファイルに含まれる画像サイズを指定する情報に従い画像リサイズを含む前処理をさらに行う、
    請求項1に記載の画像照合処理装置。
  3.  前記情報処理部は、前記画像照合モデルにより、前記画像データから抽出された前記特徴量と予め設定された対象画像の特徴量との間の類似度を算出し、算出された類似度を含む前記画像照合結果を生成する、請求項1に記載の画像照合処理装置。
  4.  前記情報処理部は、算出された類似度を予め設定された判定閾値の範囲内にするための正規化する処理をさらに行う、請求項3に記載の画像照合処理装置。
  5.  カメラから取得される画像データに対し、アルゴリズムの異なる複数の画像照合モデルを選択的に用いて画像照合処理を行う装置が実行する画像照合処理方法であって、
     前記複数の画像照合モデルの各々に対応する、学習済のパラメータ情報と、前記画像照合モデルを識別するアーキテクチャ情報とを少なくとも含むモデルファイルを生成し、記憶部に保存する過程と、
     前記モデルファイルに含まれる前記アーキテクチャ情報をもとに対応する前記画像照合モデルを呼び出す過程と、
     呼び出された前記画像照合モデルに、前記画像データと前記モデルファイルに含まれる前記パラメータ情報を与え、当該画像照合モデルにより前記画像データから特徴量を抽出する処理と抽出された前記特徴量をもとに画像照合結果を生成する処理を行う過程と、 前記画像照合結果を前記画像照合モデルから受け取って外部へ出力する過程と
    を備える画像照合処理方法。
  6.  請求項1乃至4のいずれかに記載の画像照合処理装置が備える前記情報処理部による各処理を、前記画像照合処理装置が備えるプロセッサに実行させるプログラム。
     
PCT/JP2021/028966 2020-08-07 2021-08-04 画像照合処理装置、方法およびプログラム WO2022030551A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020135173A JP7419189B2 (ja) 2020-08-07 2020-08-07 画像照合処理装置、方法およびプログラム
JP2020-135173 2020-08-07

Publications (1)

Publication Number Publication Date
WO2022030551A1 true WO2022030551A1 (ja) 2022-02-10

Family

ID=80117528

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/028966 WO2022030551A1 (ja) 2020-08-07 2021-08-04 画像照合処理装置、方法およびプログラム

Country Status (2)

Country Link
JP (1) JP7419189B2 (ja)
WO (1) WO2022030551A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018097671A (ja) * 2016-12-14 2018-06-21 株式会社グルーヴノーツ サービス構築装置、サービス構築方法及びサービス構築プログラム
JP2020038410A (ja) * 2018-08-31 2020-03-12 ソニーセミコンダクタソリューションズ株式会社 固体撮像装置、情報処理装置、情報処理システム、情報処理方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018097671A (ja) * 2016-12-14 2018-06-21 株式会社グルーヴノーツ サービス構築装置、サービス構築方法及びサービス構築プログラム
JP2020038410A (ja) * 2018-08-31 2020-03-12 ソニーセミコンダクタソリューションズ株式会社 固体撮像装置、情報処理装置、情報処理システム、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP2022030869A (ja) 2022-02-18
JP7419189B2 (ja) 2024-01-22

Similar Documents

Publication Publication Date Title
US20140348420A1 (en) Method and system for automatic selection of one or more image processing algorithm
CN112183166A (zh) 确定训练样本的方法、装置和电子设备
CN112418360B (zh) 卷积神经网络的训练方法、行人属性识别方法及相关设备
CN112507314B (zh) 客户身份核实方法、装置、电子设备及存储介质
CN111814775A (zh) 目标对象异常行为识别方法、装置、终端及存储介质
CN113723288A (zh) 基于多模态混合模型的业务数据处理方法及装置
CN112699758A (zh) 基于动态手势识别的手语翻译方法、装置、计算机设备及存储介质
CN110929555B (zh) 脸部识别方法与使用此方法的电子装置
CN114637450A (zh) 业务流程的自动处理方法及系统、电子设备
WO2022030551A1 (ja) 画像照合処理装置、方法およびプログラム
CN111738182B (zh) 基于图像识别的身份验证方法、装置、终端及存储介质
CN112766176A (zh) 轻量化卷积神经网络的训练方法及人脸属性识别方法
US20060130022A1 (en) Method to integrate biometric functionality into a host software application with runtime and compilation independence
CN110716778A (zh) 应用兼容性测试方法、装置及系统
CN115037790B (zh) 异常注册识别方法、装置、设备及存储介质
CN116028246A (zh) 数据处理的调度方法、系统和计算机设备和存储介质
CN113326113B (zh) 任务处理方法及装置、电子设备和存储介质
CN111859370B (zh) 识别服务的方法、装置、电子设备和计算机可读存储介质
CN114610386A (zh) H5与应用程序的交互方法、装置、设备及存储介质
CN114245204A (zh) 基于人工智能的视频面签方法、装置、电子设备及介质
CN112686156A (zh) 一种情绪监测方法、装置、计算机设备及可读存储介质
CN113343948A (zh) 一种满意度分析方法、系统及其计算机存储介质
CN111339939A (zh) 基于图像识别的考勤方法及装置
CN110956102A (zh) 银行柜台监控方法、装置、计算机设备和存储介质
CN117894041B (zh) 一种基于物联网的屠宰场智能管理方法及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21852775

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21852775

Country of ref document: EP

Kind code of ref document: A1