WO2023007669A1 - 認識装置、認識方法、及び認識プログラム - Google Patents

認識装置、認識方法、及び認識プログラム Download PDF

Info

Publication number
WO2023007669A1
WO2023007669A1 PCT/JP2021/028191 JP2021028191W WO2023007669A1 WO 2023007669 A1 WO2023007669 A1 WO 2023007669A1 JP 2021028191 W JP2021028191 W JP 2021028191W WO 2023007669 A1 WO2023007669 A1 WO 2023007669A1
Authority
WO
WIPO (PCT)
Prior art keywords
character
recognition
characters
shape
string
Prior art date
Application number
PCT/JP2021/028191
Other languages
English (en)
French (fr)
Inventor
皓平 森
夕貴 横畑
亜紀 林
崇洋 秦
和昭 尾花
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2023537859A priority Critical patent/JPWO2023007669A1/ja
Priority to PCT/JP2021/028191 priority patent/WO2023007669A1/ja
Publication of WO2023007669A1 publication Critical patent/WO2023007669A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/017Detecting movement of traffic to be counted or controlled identifying vehicles
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions

Definitions

  • the technology disclosed relates to a recognition device, a recognition method, and a recognition program.
  • Non-Patent Document 1 a technique for automatically detecting the vehicle when it enters a detection area. It is assumed that the vehicle in question repeats the dangerous behavior at another location, at another time, and at another vehicle. Therefore, it is considered highly necessary to notify other vehicles that the vehicle is dangerous. For that purpose, it is important to obtain information that can identify the vehicle. However, it is difficult to think that location information, action history, and images inside the vehicle are provided as information that can be specified from the side of the vehicle that repeats dangerous behavior, and it is necessary to specify it from the outside.
  • FIG. 1 is a diagram schematically showing a case where another vehicle is observed from an observation vehicle. As shown in FIG. 1, it is assumed that another vehicle (A2) is observed from an observation vehicle (A1) and the shape of the license plate (A3) of the other vehicle is recognized. In addition, there is a possibility that a vehicle of the same type or the same color exists in the vicinity of the vehicle in question, and identification of the number is essential to uniquely identify the vehicle in question.
  • Non-Patent Documents 2 and 3 As an existing technology, a method of detecting a license plate with object detection technology and reading the characters written therein has been proposed (see Non-Patent Documents 2 and 3). This method performs front/rear detection, license plate detection, and character recognition (character detection) in stages.
  • Fig. 2 is a diagram showing the general flow of processing from license plate detection to recognition.
  • OCR or object detection for example, the object is detected, or the outline is extracted by binarization and the shape of the rectangle is detected.
  • the detection accuracy may be increased by inserting vehicle object detection before (2). Further, before (3), tilt correction may be performed so that the shape of the area becomes a rectangle.
  • license plate recognition is composed of 26 alphabetic characters + 10 types of numbers in the English-speaking world assumed in Non-Patent Document 3. is assumed to be relatively easy. However, in countries such as Japan and China where there are localized license plate formats, it is necessary to recognize characters including hiragana and kanji divided into multiple stages, and cases where patterns become complicated are assumed. In addition, in the example of Non-Patent Document 3, object detection is performed in three stages, and the calculation cost is high.
  • cases where some characters are small, cases where kanji characters are included, cases where 1 to 3 digits of numbers are partially alphabetic, cases where one hiragana character is used, and cases where dots ( ⁇ ) are included, etc. is.
  • cases where dots are included include numbers with three digits or less, such as " ⁇ 1-43".
  • the background of the license plate there are multiple types of backgrounds depending on the classification such as general use, business use, normal vehicle, light passenger car, and vehicle inspection, and it is decided regardless of the color of the car body. be done.
  • the variation of the background is increasing due to the influence of local license plates peculiar to the region (see Non-Patent Document 4). Thus, there is a problem regarding license plate recognition.
  • in-vehicle cameras are more susceptible to blurring of the subject, that is, blurring caused by the relative speed of the observation vehicle and the target vehicle. In some cases, it is difficult to recognize by the conventional method because the photographing conditions such as exposure and reflection are different each time.
  • the disclosed technique has been made in view of the above circumstances, and provides a recognition device, a recognition method, and a recognition method capable of evaluating detected characters and recognizing an object even when it is difficult to recognize a specific object.
  • the purpose is to provide a recognition program.
  • a first aspect of the present disclosure is a recognition device that includes an acquisition unit that acquires time-series images acquired in an environment in which a vehicle travels, and a detection unit that detects each character of a predetermined character string from the images. and a shape recognition unit that evaluates the relationship between each character of the detected character string and recognizes the shape of an object that includes the character string.
  • a second aspect of the present disclosure is a recognition method, which acquires time-series images acquired in an environment in which a vehicle travels, detects each character of a predetermined character string from the images, A computer is caused to perform a process of evaluating the relationship of each of the characters of a string and recognizing the shape of an object containing said string.
  • a third aspect of the present disclosure is a recognition program, which acquires time-series images acquired in an environment in which a vehicle travels, detects each character of a predetermined character string from the images, and detects the detected characters.
  • a computer is caused to perform a process of evaluating the relationship of each of the characters of a string and recognizing the shape of an object containing said string.
  • FIG. 4 is a diagram schematically showing a case where another vehicle is observed from an observation vehicle;
  • FIG. 2 is a diagram showing a general flow of processing from license plate detection to recognition; It is a figure which shows an example of the flow of recognition of the license plate of this embodiment. It is a figure which shows the example in the image regarding the conditions regarding selection of a character string. It is a figure explaining the relationship of how a camera and an object are captured.
  • FIG. 10 is a diagram showing an example of detection using a detection rectangle from an image;
  • FIG. 10 is a diagram showing an example of information on the coordinates of detected detection rectangles;
  • the method of this embodiment does not detect the pattern or shape corresponding to the license plate, but rather the pattern in which the character string corresponding to the license plate is drawn is the number, and the area where the character string pattern is located is the number. Recognize it as a plate.
  • character string patterns represent character string patterns. This is because the drawn character string conforms to the writing rules of the license plate regardless of the color and pattern of the background of the license plate.
  • the character string portion of the license plate may be referred to as a number, and the license plate itself as an object may be referred to as a plate. Note that the method of the present embodiment can be applied not only to license plates, but also to signs and other features on which characters are drawn.
  • FIG. 3 is a diagram showing an example of the license plate recognition flow of this embodiment.
  • the license plate was detected. Detect and sort out the characters that correspond to the license plate.
  • character selection for example, the character string of the license plate is selected based on conditions such as four numbers existing at regular intervals, the height being almost uniform, and existing below the vanishing point of the image. sort out.
  • (3) instead of dividing the area the area is enlarged. and (4) combine the proximal regions with the results of character recognition.
  • the boundary line can be assumed.
  • the background is special, such as a region-specific license plate, it can be handled without additional learning.
  • the focus will be on the character string "XX-XX" in the number portion of the license plate. Considering the peculiarity of fonts and description rules, it is assumed that the license plate can be recognized only by the "XX-XX” part. There are restrictions on the license plate, and restrictions are imposed on the installation position, angle, arrangement within the plate, and the like.
  • the definition of characters in the character string includes numbers, symbols, hiragana, and kanji.
  • FIG. 4 is a diagram showing an example of an image regarding conditions for character string selection. For example, it may be limited to the area below the vanishing point, or the character string may be detected in the lower half of the image.
  • the character string since only 0 to 9 and dots appear in the "XX-XX" part, if the on-vehicle camera shoots the front or back of the vehicle, those character strings will be displayed horizontally and at specific intervals. reflected in In addition, it can be determined that a number in which a plurality of alphabetic characters are listed is not a number.
  • a special font it is possible to narrow down by font as well. Vertically written character strings in advertisements for utility poles and the like may be excluded from detection.
  • the object detection technique described in Reference 1 For detection of each character in the string, the object detection technique described in Reference 1, for example, is utilized. In this technique, for example, objects and alphanumeric characters are detected from an image, and coordinate information on the circumscribed rectangular image (upper left XY coordinates and lower right XY coordinates of the rectangle) is output. Each character in the string can be detected.
  • Reference 1 "YOLO: Real-Time Object Detection", URL:"https://pjreddie.com/darknet/yolo/"
  • FIG. 5 is a diagram explaining the relationship between how the camera and the object are captured. If the camera captures the front or rear of another vehicle straight ahead, the plane parallel to the projection plane, that is, the front or rear of the vehicle body, will appear in the image with the same size if the distance in the depth direction is the same. This is because the camera and the projection plane can be represented by similar triangles, and the base length and height have the same value. In other words, no matter how many lanes the on-board camera mounted on the observation vehicle is separated from the other vehicle whose license plate you want to read, the characters on the license plate itself will appear in the same way.
  • FIG. 6 is a block diagram showing the hardware configuration of the recognition device 100. As shown in FIG.
  • the recognition device 100 includes a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12, a RAM (Random Access Memory) 13, a storage 14, an input unit 15, a display unit 16, and a communication interface ( I/F) 17.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • storage 14 an input unit 15, a display unit 16, and a communication interface ( I/F) 17.
  • I/F communication interface
  • the CPU 11 is a central processing unit that executes various programs and controls each section. That is, the CPU 11 reads a program from the ROM 12 or the storage 14 and executes the program using the RAM 13 as a work area. The CPU 11 performs control of each configuration and various arithmetic processing according to programs stored in the ROM 12 or the storage 14 . In this embodiment, the ROM 12 or storage 14 stores a recognition program.
  • the ROM 12 stores various programs and various data.
  • the RAM 13 temporarily stores programs or data as a work area.
  • the storage 14 is configured by a storage device such as a HDD (Hard Disk Drive) or SSD (Solid State Drive), and stores various programs including an operating system and various data.
  • HDD Hard Disk Drive
  • SSD Solid State Drive
  • the input unit 15 includes a pointing device such as a mouse and a keyboard, and is used for various inputs.
  • the display unit 16 is, for example, a liquid crystal display, and displays various information.
  • the display unit 16 may employ a touch panel system and function as the input unit 15 .
  • the communication interface 17 is an interface for communicating with other devices such as terminals.
  • the communication uses, for example, a wired communication standard such as Ethernet (registered trademark) or FDDI, or a wireless communication standard such as 4G, 5G, or Wi-Fi (registered trademark).
  • FIG. 7 is a block diagram showing the functional configuration of the recognition device of this embodiment.
  • Each functional configuration is realized by the CPU 11 reading a recognition program stored in the ROM 12 or the storage 14, developing it in the RAM 13, and executing it.
  • the recognition device 100 includes an acquisition unit 110, a recognition unit 112, and a storage unit 114.
  • the acquisition unit 110 acquires time-series images from the video captured by the vehicle-mounted camera of the observation vehicle.
  • the recognition unit 112 includes a detection unit 120 and a shape recognition unit 122.
  • the storage unit 114 stores correspondence information related to target features.
  • the correspondence information is, for example, information identifying the type of font of the license plate or the sign, and information of constraints such as the interval between numbers.
  • the detection unit 120 detects each character of the character string from the image.
  • an object detection technique is used to detect, for example, characters represented by numbers (or symbolic dots, etc.) in an image by means of detection rectangles representing character ranges defined by coordinates.
  • the positions of the characters in the image can be detected as coordinates, and the coordinates of the upper left X, upper left Y, lower right X, and lower right Y points are used to obtain a detection rectangle.
  • each character in a character string of a specific font may be detected using a model that has been learned in advance to detect characters of a specific font.
  • the shape recognition unit 122 evaluates the relationship between each character in the detected character string and recognizes the shape of the object containing the character string.
  • the shape recognition unit 122 evaluates the positional relationship of each detection rectangle corresponding to each character, and evaluates the relationship between the pixels of the detection rectangle, as the evaluation of the relationship. The case of the example shown in FIG. 8 will be described.
  • Regarding the positional relationship it is evaluated whether each character corresponding to the number of the license plate is recognized.
  • the horizontal axis evaluates the degree of proximity. 5 and 6, 7 and 8, 3 and 0 are adjacent in the horizontal direction of the respective images. For four characters, the degree of separation between the second and third characters is evaluated. 6 and 7 are slightly further apart than 5 and 6 and 7 and 8 are laterally separated.
  • the coordinates 5, 6, 7 and 8, and the coordinates 3 and 0 are adjacent to each other in the vertical direction of the image. Therefore, the degree of adjacency is evaluated for four characters. For pixel relationships, evaluate the distribution of colors within each sensing rectangle and evaluate whether 5, 6, 7, 8 are the same color and gray, and 3 and 0 are the same color and similar to blue or dark blue. In the above evaluation example, the positional relationship is such that the spaces between the first and second characters, and the spaces between the third and fourth characters are close in the horizontal direction, and the space between the second and third characters in the character string.
  • the condition for recognizing a number is that the degree/interval satisfies the constraints and the position coordinates in the vertical direction are adjacent to each other.
  • a condition for recognizing a number is that the pixels of detection rectangles of four characters have the same color distribution. Also, recognition may be performed in units of two characters or in units of four characters. If it is a unit of two characters, it is evaluated whether 5 and 6 and 7 and 8 are adjacent in the horizontal direction. Also, hyphens between numbers may be considered.
  • the shape recognition unit 122 determines whether the fonts are the same for each character of the character string, and evaluates the positional relationship between the fonts determined to be the same.
  • the target may be specified from a list of features for which fonts are known to be used.
  • the font may also be determined by comparing each detection rectangle using features such as the aspect ratio of each character.
  • the shape recognition unit 122 can recognize the "XX-XX” portion corresponding to the number. Therefore, the shape recognition unit 122 may additionally recognize the characters surrounding the "XX-XX” portion corresponding to the number. Alternatively, the shape of the object may be recognized and detected from the size of the characters.
  • the shape recognition unit 122 searches around the character string of four characters corresponding to the number of the license plate, and if there is a pixel of the same color as the background of the license plate, it is determined to be the area of the license plate. You may implement the additional process of doing. It should be noted that the background of the license plate is pixels other than the character pixels within the rectangle detected by the coordinates. Alternatively, the area in which the license plate is assumed to appear may be recognized from the number of pixels of the four-character detection rectangle.
  • the shape recognition unit 122 recognizes the license plate as described above and identifies the area on the image where the license plate is drawn. As described above, the recognition device 100 recognizes the shape of the license plate from the specified area and outputs the recognition result.
  • each letter of a string of specific numbers, such as 30, would be detected. Then, each character is evaluated, and when the color of the character, the font, and the pixel value on the concentric circle change from white to red, it can be determined as a road sign.
  • FIG. 10 is a flowchart showing the flow of recognition processing by the recognition device 100.
  • Recognition processing is performed by the CPU 11 reading out the recognition program from the ROM 12 or the storage 14, developing it in the RAM 13, and executing it.
  • step S100 the CPU 11, as the acquisition unit 110, acquires time-series images from the video captured by the on-board camera of the observation vehicle.
  • step S102 the CPU 11, as the detection unit 120, detects each character of the character string from the image by means of detection rectangles.
  • step S104 the CPU 11, as the shape recognition unit 122, evaluates the positional relationship of the detection rectangles corresponding to each character of the character string.
  • step S106 the CPU 11, as the shape recognition unit 122, evaluates the relationship between the pixels of the detection rectangle.
  • step S108 the CPU 11, as the shape recognition unit 122, identifies the area on the image where the license plate is drawn based on the evaluation result of the positional relationship and the evaluation result of the pixel relationship.
  • step S110 the CPU 11, as the shape recognition unit 122, recognizes the shape of the license plate from the specified area and outputs the recognition result.
  • the recognition device 100 of this embodiment even if it is difficult to recognize a specific target, it is possible to evaluate the detected characters and recognize the target.
  • the dot is a symbol unique to Japan that is difficult to recognize. For example, it is not a rule to start with 0 like "00-08", but it is a rule that starts with 0 like "...--8", "--28", and "-1-28". In some cases, there is a rule to express with a dot. Therefore, as a modification, the object detection technology may be applied to numbers and individual dots may be searched. If the detected number is a single character, a search is made for three pixel regions with a pattern likely to be regarded as a dot in the "left" applicable pixel, taking into account the hyphen region.
  • the peripheral areas that are candidates for dots are binarized, and dots are detected by determining whether the center area is a black pixel and the other area is a white pixel. If the number of digits detected is 2 characters, the search range is 2 locations, and if the number is 3 characters, the search range is 1 location.
  • any camera that captures the environment in which the vehicle runs can be used.
  • a fixed surveillance camera installed above an intersection or in a parking lot, or a photographing device for identifying a speeding vehicle may be used, or a surveillance camera installed on a sidewalk or in a storefront may be used.
  • license plates and road signs may appear tilted rather than straight ahead.
  • the shape may be recognized after correction.
  • the recognition processing executed by the CPU by reading the software (program) in the above embodiment may be executed by various processors other than the CPU.
  • the processor is a PLD (Programmable Logic Device) whose circuit configuration can be changed after manufacturing, such as an FPGA (Field-Programmable Gate Array), and an ASIC (Application Specific Integrated Circuit) to execute specific processing.
  • a dedicated electric circuit or the like which is a processor having a specially designed circuit configuration, is exemplified.
  • the recognition processing may be performed by one of these various processors, or by a combination of two or more processors of the same or different type (for example, multiple FPGAs, a combination of a CPU and an FPGA, etc.). ) can be run.
  • the hardware structure of these various processors is an electric circuit in which circuit elements such as semiconductor elements are combined.
  • the recognition program is stored (installed) in advance in the storage 14 , but it is not limited to this.
  • Programs are stored in non-transitory storage media such as CD-ROM (Compact Disk Read Only Memory), DVD-ROM (Digital Versatile Disk Read Only Memory), and USB (Universal Serial Bus) memory.
  • CD-ROM Compact Disk Read Only Memory
  • DVD-ROM Digital Versatile Disk Read Only Memory
  • USB Universal Serial Bus
  • the program may be downloaded from an external device via a network.
  • a recognizer configured to:
  • Appendix 2 A non-transitory storage medium storing a program executable by a computer to perform recognition processing, Acquiring time-series images acquired in the environment in which the vehicle runs, detecting each character of a predetermined character string from the image; evaluating the relationship of each of the characters of the detected string to recognize the shape of objects containing the string; Non-transitory storage media.
  • recognition device 110 acquisition unit 112 recognition unit 114 storage unit 120 detection unit 122 shape recognition unit

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

認識装置は、車両が走行する環境において取得される時系列の画像を取得し、前記画像から所定の文字列の文字の各々を検出し、検出された前記文字列の文字の各々の関係を評価し、前記文字列を含む対象の形状を認識する。

Description

認識装置、認識方法、及び認識プログラム
 開示の技術は、認識装置、認識方法、及び認識プログラムに関する。
 ドライブレコーダ等の車載カメラの映像に映った他の物体の形状を認識する技術がある。
 ここで、他の物体ついて、例えば、煽り運転といった危険行為を繰り返す問題の車両を観測することを想定する。問題の車両に関して、検知エリアに進入した場合に自動で検知する技術が開発されている(非特許文献1参照)。問題の車両は、別地点、別時間、及び別の車両に対しても危険行為を繰り返すことが想定される。よって、その車両が危険であることを、他の車両にも通知する必要性が高いと考えられる。そのためには当該車両を識別可能な情報を得ることが重要となる。しかし、危険行為を繰り返す車両の側から特定可能な情報として、位置情報、行動履歴、及び車内の映像等を提供するとは考えにくく、外部から特定する必要がある。
 車両を特定するためには、例えば、車種、車体の色、自動車登録番号標(ナンバープレート)に記載のナンバーが特定に有用な情報となる。図1は、観測車両から他の車両を観測する場合について模式的に示す図である。図1に示すように、観測車両(A1)から他の車両(A2)を観測して、他の車両のナンバープレート(A3)を対象として形状を認識することが想定される。また、同一車種、又は同一色の車両が問題の車両の近隣に存在する可能性が存在しており、一意に問題の車両を特定するにはナンバーの特定が必須となる。
 既存技術として、ナンバープレートを物体検知技術により検知し、その中に記載された文字を読み取る手法が提案されている(非特許文献2及び非特許文献3参照)。フロント/リア検出をし、ナンバープレート検出、文字認識(文字検知)と段階的に処理する手法である。
 図2は、ナンバープレートの検出から認識までの処理の一般的な流れを示す図である。(1)映像(時系列の画像)の取得、(2)ナンバープレート検出、(3)領域分割、(4)領域ごとの文字認識(OCR又は物体検知)、の流れである。ナンバープレート検出では、例えば物体検知、又は2値化による輪郭抽出及び四角形の形状から検出する。また、(2)の前に車両の物体検知を挟むことで検知精度を上げる場合もある。また、(3)の前に領域の形状が長方形になるよう傾き補正を行う場合もある。
 ここで、ナンバープレートの認識は、非特許文献3において想定されている英字圏ではアルファベット26文字+数字10種によって構成され、主要となる文字列が大きく一行であらわされることが多いため、文字認識が比較的容易であることが想定される。しかし、日本又は中国のようなローカライズされたナンバープレートの態様がある国においては、複数の段に分かれたひらがなや漢字を含む文字の認識が必要となり、パターンが複雑になるケースが想定される。また、非特許文献3の例では3段階の物体検知を実施しており、計算コストは大きい。
 例えば、一部の文字のサイズが小さいケース、漢字の文字が含まれるケース、数字1~3桁について一部桁がアルファベットのケース、ひらがな1文字のケース、及びドット(・)が含まれるケース等である。ドットが含まれるケースとは、例えば「・1-43」のように3桁以下の数字の場合が挙げられる。また、ナンバープレートの背景についても、一般用、若しくは事業用、又は普通車両、若しくは軽乗用車、及び車検切れ等の区分に応じて複数の種類の背景が存在し、車体の色には関係なく決定される。また、地域特有のご当地ナンバープレートの影響で背景のバリエーションが増えている(非特許文献4参照)。このようにナンバープレートの認識に関する課題がある。
 また、高価な高性能カメラと異なり、車載カメラでは被写体のブレ、すなわち観測車両及び対象車両との相対速度の影響で発生するブレの影響が大きくなる。主に露光及び反射等の撮影条件が都度異なるため従来の手法では認識が困難なケースがある。
 例えば、車体色とナンバープレートに関係性は無いため、ナンバープレートと車体色が類似している場合、境界が不明瞭となり、物体検知、及び形状認識が難しいことが想定される。例えば、白又は銀の車体に白地のナンバープレート、黒い車体に黒地のナンバープレート等が想定される。また、ナンバープレートの領域を拡大しても「XX―XX」の数字以外の部分は不明瞭であるケースもある。このように被写体のブレに関する課題がある。
 開示の技術は、上記の事情に鑑みてなされたものであり、特定の対象の認識が困難な場合であっても、検出した文字について評価を行い、対象を認識できる認識装置、認識方法、及び認識プログラムを提供することを目的とする。
 本開示の第1態様は、認識装置であって、車両が走行する環境において取得される時系列の画像を取得する取得部と、前記画像から所定の文字列の文字の各々を検出する検出部と、検出された前記文字列の文字の各々の関係を評価し、前記文字列を含む対象の形状を認識する形状認識部と、を含む。
 本開示の第2態様は、認識方法であって、車両が走行する環境において取得される時系列の画像を取得し、前記画像から所定の文字列の文字の各々を検出し、検出された前記文字列の文字の各々の関係を評価し、前記文字列を含む対象の形状を認識する、処理をコンピュータに実行させる。
 本開示の第3態様は、認識プログラムであって、車両が走行する環境において取得される時系列の画像を取得し、前記画像から所定の文字列の文字の各々を検出し、検出された前記文字列の文字の各々の関係を評価し、前記文字列を含む対象の形状を認識する、処理をコンピュータに実行させる。
 開示の技術によれば、特定の対象の認識が困難な場合であっても、検出した文字について評価を行い、対象を認識できる。
観測車両から他の車両を観測する場合について模式的に示す図である。 ナンバープレートの検出から認識までの処理の一般的な流れを示す図である。 本実施形態のナンバープレートの認識の流れの一例を示す図である。 文字列の選定に関する条件に関する画像における例を示す図である。 カメラと物体との写り方の関係を説明する図である。 認識装置のハードウェア構成を示すブロック図である。 本実施形態の認識装置の機能的な構成を示すブロック図である。 画像から検知矩形により検出する場合の例を示す図である。 検出した検知矩形の座標の情報の例を示す図である。 認識装置による認識処理の流れを示すフローチャートである。
 以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
 まず、本開示の概要について説明する。以下、本実施形態で説明する例では、観測車両から捉えた対象車両のナンバープレートを対象に形状を認識する場合を説明する。本実施形態の手法では、ナンバープレートに相当するパターン、又は形状を検知するのではなく、ナンバープレートに相当する文字列が描かれたパターンがナンバーであり、その文字列のパターンがある領域をナンバープレートであると認識する。以下、文字列に関する記載は文字列のパターンを表すことを前提とする。これは、ナンバープレートの背景がどのような色及び模様であったとしても、描かれている文字列はナンバープレートの記載ルールに沿っているからである。また、以下では、ナンバープレートの文字列の部分をナンバーと記載し、物体としてのナンバープレート自体をプレートと記載する場合がある。なお、本実施形態の手法は、ナンバープレートだけでなく、標識、及びその他文字が描かれた地物にも適用可能である。
 図3は、本実施形態のナンバープレートの認識の流れの一例を示す図である。例えば、課題において説明した一般的な例では、ナンバープレートの検出を行っていたが、本実施形態の手法では、(1)映像(時系列の画像)の取得をした後、(2)文字の検出を行い、ナンバープレートに相当する文字を選別する。文字の選別としては、例えば、数字4つが規定の間隔で存在し、かつ、高さがほぼ均一であり、画像の消失点より下側に存在している等の条件によって、ナンバープレートの文字列を選別する。また、(3)領域分割ではなく、逆に領域を拡大する。そして、(4)近接領域を文字認識の結果と結合する。これにより、ナンバープレートと車体色が類似しており境界が曖昧であっても、境界線を仮定することができる。また、地域特有のナンバープレートのように、背景が特殊な場合であっても、追加学習等を必要とせず対応できる。
 以下の実施形態の説明では、ナンバープレートのナンバー部分の文字列である「XX-XX」の箇所に焦点を当てて説明する。フォントの特殊性、及び記載ルールを考慮すると、「XX-XX」の部分だけでナンバープレートが認識できると想定される。ナンバープレートには制約があり、設置される位置、角度、プレート内の配置等に制約が課されている。なお、本実施形態において、文字列の文字の定義は、数字、記号、ひらがな、及び漢字を含む。
 図4は、文字列の選定に関する条件に関する画像における例を示す図である。例えば、消失点より下の領域に限定可能してもよく、画像下半分を対象に文字列を検出してもよい。また、「XX-XX」の部分であれば、0~9とドットしか登場しないため、車両の前方又は後方を撮影する車載カメラであれば、それらの文字列は水平方向かつ特定の間隔で画像に映る。また、英字が複数羅列されているものはナンバーではないと判断できる。また、特殊なフォントが用いられている場合は、フォントでも絞り込みが可能である。また、電柱の広告等における縦書きの文字列は検出から除外してもよい。
 本実施形態で活用する既存技術について説明する。
 文字列の文字の各々の検出には、例えば参考文献1に記載されている物体検知技術を活用する。この技術では、例えば物体、及び英数字の各文字を画像から検知し、外接矩形状の画像上の座標情報(矩形の左上XY座標、及び右下のXY座標)を出力する手法であり、文字列の文字の各々を検出できる。
[参考文献1]" YOLO: Real-Time Object Detection",URL:"https://pjreddie.com/darknet/yolo/"
 また、参考文献2に記載されているようなカメラの原理を活用する。
[参考文献2]"遠近感",URL:" http://www.persfreaks.jp/main/intro/pers/"
 一般的な車載カメラのような単眼カメラを用いる場合、他車両、又はビルといった地物は消失点に対して収束するように描画される。また、非広角レンズを用いた場合、又は広角レンズの歪みの少ない領域を切り出す場合等、レンズ歪みの影響を受けにくい画像を用いるのであれば、画像に写る物体のサイズは、透視図のように近似することができ、基準となる地点からの距離に対して法則に従って変化する。
 図5は、カメラと物体との写り方の関係を説明する図である。カメラが他の車両の前方又は後方をまっすぐ捉えているとすると、投影面に並行な面、すなわち車体のフロント又はリアは奥行方向の距離が同一なら同じサイズで画像に写る。カメラと投影面は、3角形の相似で表現でき、底辺の長さと高さは同じ値になるからである。つまり観測車両に搭載された車載カメラと、ナンバーを読み取りたい他の車両とが何車線離れていたとしても、ナンバープレート自体の文字は同じように写る。
 以上を踏まえて本実施形態の構成を説明する。
 図6は、認識装置100のハードウェア構成を示すブロック図である。
 図6に示すように、認識装置100は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ストレージ14、入力部15、表示部16及び通信インタフェース(I/F)17を有する。各構成は、バス19を介して相互に通信可能に接続されている。
 CPU11は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU11は、ROM12又はストレージ14からプログラムを読み出し、RAM13を作業領域としてプログラムを実行する。CPU11は、ROM12又はストレージ14に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ROM12又はストレージ14には、認識プログラムが格納されている。
 ROM12は、各種プログラム及び各種データを格納する。RAM13は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ14は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)等の記憶装置により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。
 入力部15は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。
 表示部16は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部16は、タッチパネル方式を採用して、入力部15として機能してもよい。
 通信インタフェース17は、端末等の他の機器と通信するためのインタフェースである。当該通信には、例えば、イーサネット(登録商標)若しくはFDDI等の有線通信の規格、又は、4G、5G、若しくはWi-Fi(登録商標)等の無線通信の規格が用いられる。
 次に、認識装置100の各機能構成について説明する。図7は、本実施形態の認識装置の機能的な構成を示すブロック図である。各機能構成は、CPU11がROM12又はストレージ14に記憶された認識プログラムを読み出し、RAM13に展開して実行することにより実現される。
 図7に示すように、認識装置100は、取得部110と、認識部112と、記憶部114とを含んで構成されている。
 取得部110は、観測車両の車載カメラにより撮影された映像から時系列の画像を取得する。
 認識部112は、検出部120と、形状認識部122とを含んでいる。
 記憶部114には、対象となる地物に関する対応情報が格納されている。対応情報は、例えば、ナンバープレート又は標識のフォントの種類を識別する情報、ナンバーの間隔等の制約の情報である。
 検出部120は、画像から文字列の文字の各々を検出する。図8に示すように、物体検知技術を用いて、例えば画像内の数字(又は記号のドット等)で表される文字を、座標で規定される文字の範囲を表す検知矩形により検出する。図9に示すように、画像内の文字の位置は座標として検出でき、左上X、左上Y、右下X、右下Yの各点の座標により検知矩形を得る。
 また、検出部120の検出では、予め特定のフォントの文字を検出するように学習されたモデルを用いて、特定のフォントの文字列の文字の各々を検出するようにしてもよい。
 形状認識部122は、検出された文字列の文字の各々の関係を評価し、文字列を含む対象の形状を認識する。
 形状認識部122による評価の例を説明する。形状認識部122は、関係性に関する評価として、各文字に相当する各検知矩形の位置関係を評価し、検知矩形の画素の関係を評価する。図8に示した例の場合で説明する。位置関係については、ナンバープレートのナンバーに該当する文字の各々が認識されるかを評価する。横軸方向は近接の度合いを評価する。5と6、7と8、3と0はそれぞれの画像の横軸方向で近接している。4文字について、2文字目と3文字目の離れ度合いを評価する。6と7は、5と6、7と8の横軸方向の間隔よりは若干離れている。画像の縦方向の位置座標が5、6、7、8の座標、3と0の座標が隣接している。そのため、4文字について、隣接度合いを評価する。画素の関係については、各検知矩形内の色の分布を評価し、5、6、7、8が同色かつグレー、3と0が同色で青又は紺に類似した色であるかを評価する。以上の評価の例では、位置関係では、1文字目及び2文字目、3文字目及び4文字目の間隔が横軸方向で近接しており、文字列の2文字目と3文字目の離れ度合い/間隔が制約を満たし、縦方向の位置座標が隣接していることをナンバーと認識する条件としている。画素の関係では、4文字の検知矩形の画素が同様の色の分布であること、をナンバーと認識する条件としている。また、2文字単位、又は4文字単位で認識してもよい。2文字単位であれば、5及び6と、7及び8とが横軸方向で近接しているかを評価する。また、ナンバーの間のハイフンを考慮してもよい。
 また、形状認識部122は、文字列の文字の各々についてフォントが同一であるかを判定し、同一と判定されたフォント同士の位置関係を評価する。記憶部114の対応情報を参照し、フォントが用いられていることが既知である地物のリストから対象を特定してもよい。フォントは、さらに各文字の縦横比といった特徴を用いて各検知矩形を比較して求めてもよい。
 以上で、形状認識部122は、ナンバーに相当する「XX-XX」の部分を認識できる。そこで、形状認識部122は、追加でナンバーに相当する「XX-XX」の部分の周囲の文字を認識してもよい。また文字の大きさから対象の形状を認識し検知してもよい。例えば、ナンバープレートの形状を認識しようとしている場合、「XX-XX」の上と左の領域に追加の文字が存在すること、「XX-XX」の各々の文字の文字サイズ、ここでは検知矩形の縦横の画素数を考慮し、周囲に文字、又は文字とは認識できない小さな要素として、「XX-XX」の文字と同色の画素がないかを探索し、ナンバープレートの写ったナンバー以外の画素を推測してもよい。
 また、形状認識部122では、ナンバープレートのナンバーに相当する4文字の文字列の周囲を探索して、周囲に、ナンバープレートの背景と同じ色の画素があればナンバープレートの領域であると判断する、という追加処理を実施してもよい。なお、ナンバープレートの背景は、座標で検出した矩形内の文字の画素以外の画素である。また、4文字の検知矩形の画素数からナンバープレートが写っていると想定される領域を認識してもよい。
 形状認識部122は、以上のようにしてナンバープレートを認識して、ナンバープレートが描画された画像上の領域を特定する。以上により、認識装置100は、特定した領域により、ナンバープレートの形状を認識し、認識結果を出力する。
 なお、ナンバープレートを例に説明したが、例えば速度制限等を表す道路標識、又は路面標示を対象としてもよい。図8に示した標識であれば、30等の特定の数字の文字列の文字の各々を検出する。そして、文字の各々を評価し、文字の色、フォント、及び同心円上の画素値が白から赤へと変化する場合等に道路標識と判断することができる。
 次に、認識装置100の作用について説明する。
 図10は、認識装置100による認識処理の流れを示すフローチャートである。CPU11がROM12又はストレージ14から認識プログラムを読み出して、RAM13に展開して実行することにより、認識処理が行なわれる。
 ステップS100において、CPU11は、取得部110として、観測車両の車載カメラにより撮影された映像から時系列の画像を取得する。
 ステップS102において、CPU11は、検出部120として、画像から文字列の文字の各々を検知矩形により検出する。
 ステップS104において、CPU11は、形状認識部122として、文字列の各文字に相当する検知矩形の位置関係を評価する。
 ステップS106において、CPU11は、形状認識部122として、検知矩形の画素の関係を評価する。
 ステップS108において、CPU11は、形状認識部122として、位置関係の評価結果、及び画素の関係の評価結果に基づいて、ナンバープレートが描画された画像上の領域を特定する。
 ステップS110において、CPU11は、形状認識部122として、特定した領域により、ナンバープレートの形状を認識し、認識結果を出力する。
 以上説明したように本実施形態の認識装置100によれば、特定の対象の認識が困難な場合であっても、検出した文字について評価を行い、対象を認識できる。
 また、物体検知技術を用いて数値を含む文字を認識する例を説明したが、パターンマッチング等の別手法を用いてもよい。例えば、複数のパターンを用意し、画像内にパターンと類似性のある箇所を探索する。
 ナンバープレートで使用される文字のうち、ドットは日本固有のナンバーに用いられる認識が困難な記号である。例えば、「00-08」のような0を先頭にするルールになっておらず、「・・-・8」、「・・-28」、「・1-28」というように先頭が0の場合にはドットで表現するルールがある。そこで変形例として、あくまで物体検知技術は数字への適用として、ドットを個別に探索してもよい。検出した数字が1文字の場合は「左」の該当し得る画素にドットと捉えられそうなパターンの画素領域が3カ所ないかを、ハイフンの領域も考慮に入れて、探索する。そして、ドットの候補となる周辺の領域を2値化し、中央が黒画素、他は白画素であるかを判定することにより、ドットを検出する等である。また、検知した数位が2文字の場合は2カ所、3文字の場合は1か所が探索範囲となる。
 また車載カメラを用いる例を記載したが、車両が走行する環境を撮影するカメラであれば何を用いてもよい。交差点上部又は駐車場に設置された固定の監視カメラ、又はスピード違反車両を特定するための撮影機器でもよく、また歩道、又は店頭に設置された監視カメラ等を用いてもよい。またその場合、ナンバープレート及び道路標識等が真正面ではなく傾いて映る可能性があるため、検知した文字や数字の縦横比を考慮し、縦又は横に伸びている部分、又は曲がっている部分を補正して、形状認識してもよい。また、検知矩形同士の関係性の評価において、対象の1文字あたりの縦横比がどの程度であるかを考慮してもよい。
 なお、上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した認識処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、認識処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
 また、上記実施形態では、認識プログラムがストレージ14に予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
 以上の実施形態に関し、更に以下の付記を開示する。
 (付記項1)
 メモリと、
 前記メモリに接続された少なくとも1つのプロセッサと、
 を含み、
 前記プロセッサは、
 車両が走行する環境において取得される時系列の画像を取得し、
 前記画像から所定の文字列の文字の各々を検出し、
 検出された前記文字列の文字の各々の関係を評価し、前記文字列を含む対象の形状を認識する、
 ように構成されている認識装置。
 (付記項2)
 認識処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
 車両が走行する環境において取得される時系列の画像を取得し、
 前記画像から所定の文字列の文字の各々を検出し、
 検出された前記文字列の文字の各々の関係を評価し、前記文字列を含む対象の形状を認識する、
 非一時的記憶媒体。
100 認識装置
110 取得部
112 認識部
114 記憶部
120 検出部
122 形状認識部

Claims (8)

  1.  車両が走行する環境において取得される時系列の画像を取得する取得部と、
     前記画像から所定の文字列の文字の各々を検出する検出部と、
     検出された前記文字列の文字の各々の関係を評価し、前記文字列を含む対象の形状を認識する形状認識部と、
     を含む認識装置。
  2.  前記画像として、車載カメラにより撮影された前記画像を用い、
     前記形状認識部は、ナンバープレート及び標識の少なくとも一方を前記対象として、前記対象が描画された画像上の領域を特定することにより、前記対象の形状を認識する請求項1に記載の認識装置。
  3.  前記形状認識部は、前記文字の各々の関係性について、位置関係について評価を行う請求項1又は請求項2に記載の認識装置。
  4.  前記形状認識部は、前記文字列の文字の各々についてフォントを判定し、同一と判定されたフォント同士の位置関係を評価する請求項1~請求項3の何れか1項に記載の認識装置。
  5.  前記検出部は、前記文字の各々の座標で規定される文字の範囲を表す検知矩形を検出し、
     前記形状認識部は、前記検知矩形における、文字の画素と文字以外の画素とについて、画素の関係の評価を行う請求項1~請求項4の何れか1項に記載の認識装置。
  6.  前記検出部は、予め特定のフォントの文字を検出するように学習されたモデルを用いて、前記文字列の文字の各々を検出する請求項1~請求項5の何れか1項に記載の認識装置。
  7.  車両が走行する環境において取得される時系列の画像を取得し、
     前記画像から所定の文字列の文字の各々を検出し、
     検出された前記文字列の文字の各々の関係を評価し、前記文字列を含む対象の形状を認識する、
     処理をコンピュータに実行させる認識方法。
  8.  車両が走行する環境において取得される時系列の画像を取得し、
     前記画像から所定の文字列の文字の各々を検出し、
     検出された前記文字列の文字の各々の関係を評価し、前記文字列を含む対象の形状を認識する、
     処理をコンピュータに実行させる認識プログラム。
PCT/JP2021/028191 2021-07-29 2021-07-29 認識装置、認識方法、及び認識プログラム WO2023007669A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023537859A JPWO2023007669A1 (ja) 2021-07-29 2021-07-29
PCT/JP2021/028191 WO2023007669A1 (ja) 2021-07-29 2021-07-29 認識装置、認識方法、及び認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/028191 WO2023007669A1 (ja) 2021-07-29 2021-07-29 認識装置、認識方法、及び認識プログラム

Publications (1)

Publication Number Publication Date
WO2023007669A1 true WO2023007669A1 (ja) 2023-02-02

Family

ID=85087714

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/028191 WO2023007669A1 (ja) 2021-07-29 2021-07-29 認識装置、認識方法、及び認識プログラム

Country Status (2)

Country Link
JP (1) JPWO2023007669A1 (ja)
WO (1) WO2023007669A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231376A (ja) * 1996-02-28 1997-09-05 Oki Electric Ind Co Ltd ナンバープレート検出システム
JP2006155126A (ja) * 2004-11-29 2006-06-15 Mitsubishi Heavy Ind Ltd 車両番号認識装置
JP2015114983A (ja) * 2013-12-13 2015-06-22 住友電工システムソリューション株式会社 ナンバープレート検出装置、コンピュータプログラム及びナンバープレート検出方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231376A (ja) * 1996-02-28 1997-09-05 Oki Electric Ind Co Ltd ナンバープレート検出システム
JP2006155126A (ja) * 2004-11-29 2006-06-15 Mitsubishi Heavy Ind Ltd 車両番号認識装置
JP2015114983A (ja) * 2013-12-13 2015-06-22 住友電工システムソリューション株式会社 ナンバープレート検出装置、コンピュータプログラム及びナンバープレート検出方法

Also Published As

Publication number Publication date
JPWO2023007669A1 (ja) 2023-02-02

Similar Documents

Publication Publication Date Title
Laroca et al. An efficient and layout‐independent automatic license plate recognition system based on the YOLO detector
Soilán et al. Traffic sign detection in MLS acquired point clouds for geometric and image-based semantic inventory
CN110069986B (zh) 一种基于混合模型的交通信号灯识别方法及系统
CN107590470B (zh) 一种车道线检测方法及装置
Arenado et al. Monovision‐based vehicle detection, distance and relative speed measurement in urban traffic
CN108090459B (zh) 一种适用于车载视觉系统的交通标志检测识别方法
US20090110286A1 (en) Detection method
JP6688090B2 (ja) 物体認識装置および物体認識方法
CN111931683B (zh) 图像识别方法、装置及计算机可读存储介质
CN106951898B (zh) 一种车辆候选区域推荐方法及系统、电子设备
CN110879943A (zh) 一种图像数据处理方法及系统
Jo LED Dot matrix text recognition method in natural scene
KR100969603B1 (ko) 숫자의 기하학적 관계를 이용한 차량 번호판 인식 방법
Aldoski et al. Impact of traffic sign diversity on autonomous vehicles: a literature review
JP6620476B2 (ja) 車種判別装置、車種判別方法、および車種判別プログラム
WO2023007669A1 (ja) 認識装置、認識方法、及び認識プログラム
JP6355908B2 (ja) シンボル認識装置および車両用標識認識装置
CN111950469A (zh) 一种道路标识检测方法、系统、设备和介质
CN117037082A (zh) 一种停车行为的识别方法及系统
Yu et al. Research on detection and recognition algorithm of road traffic signs
Kageyama et al. Recognition of speed limit signs in night scene images in Japan
CN111639640B (zh) 基于人工智能的车牌识别方法、装置及设备
Johansson Road sign recognition from a moving vehicle
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
JP5834373B2 (ja) ナンバープレート検出装置、コンピュータプログラム及びナンバープレート検出方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21951869

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023537859

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE