WO2023276599A1 - 文字認識装置、文字認識方法及び文字認識プログラム - Google Patents

文字認識装置、文字認識方法及び文字認識プログラム Download PDF

Info

Publication number
WO2023276599A1
WO2023276599A1 PCT/JP2022/023216 JP2022023216W WO2023276599A1 WO 2023276599 A1 WO2023276599 A1 WO 2023276599A1 JP 2022023216 W JP2022023216 W JP 2022023216W WO 2023276599 A1 WO2023276599 A1 WO 2023276599A1
Authority
WO
WIPO (PCT)
Prior art keywords
character
recognition
unit
character recognition
character string
Prior art date
Application number
PCT/JP2022/023216
Other languages
English (en)
French (fr)
Inventor
悟史 山上
聡 柳本
Original Assignee
ダイキン工業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ダイキン工業株式会社 filed Critical ダイキン工業株式会社
Priority to CN202280043601.3A priority Critical patent/CN117501324A/zh
Publication of WO2023276599A1 publication Critical patent/WO2023276599A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method

Definitions

  • the present disclosure relates to a character recognition device, a character recognition method, and a character recognition program.
  • Optical character recognition technology takes a picture of the device nameplate attached to each type of device installed on site using a mobile terminal or the like and reads the character string through character recognition processing. According to this technique, for example, device data can be read from device nameplates attached to various devices.
  • the device nameplate contains many character types such as alphabets, numbers, symbols, and kanji, and it takes a certain amount of time to read the character string by character recognition processing.
  • the present disclosure provides a character recognition device, a character recognition method, and a character recognition program that shorten the reading time when reading a character string through character recognition processing.
  • a first aspect of the present disclosure is a character recognition device comprising: an extraction unit for extracting a specific character string from a captured image; a determination unit that determines a processing area of the captured image according to the position of the extracted specific character string; and a recognition unit that performs character recognition on the determined processing area in the captured image.
  • the first aspect of the present disclosure it is possible to provide a character recognition device that shortens the reading time when reading a character string through character recognition processing.
  • a second aspect of the present disclosure is the character recognition device according to the first aspect,
  • the number of character types in the first library used in character recognition when the extraction unit extracts the specific character string is smaller than the number of character types in the second library used when the recognition unit performs character recognition.
  • a third aspect of the present disclosure is the character recognition device according to the second aspect, Having a first holding unit that holds determination information that defines the configuration of characters included in the specific character string,
  • the extracting unit performs character recognition on the captured image using the first library, identifies a character string from the recognized characters, and extracts a configuration of the character specified by the determination information from the identified character string.
  • the specific character string is extracted by judging the character string it contains.
  • a fourth aspect of the present disclosure is the character recognition device according to the third aspect,
  • the judgment information defines one of the number of characters, the type of characters, and the order of characters as the configuration of the characters.
  • a fifth aspect of the present disclosure is the character recognition device according to the fourth aspect,
  • the determining unit is an area including a bounding box used by the extracting unit to extract the specific character string, has a height that is a predetermined multiple of the height of the bounding box, and is determined as the processing area.
  • a sixth aspect of the present disclosure is the character recognition device according to the first aspect, Having a second holding unit that holds a recognition information list, The recognition unit determines whether the recognized character corresponds to any recognition information included in the recognition information list.
  • a seventh aspect of the present disclosure is the character recognition device according to the sixth aspect, An output unit for outputting the extracted specific character string as data corresponding to the corresponding recognition information when the recognition unit determines that it corresponds to any recognition information included in the recognition information list.
  • An eighth aspect of the present disclosure is the character recognition device according to the seventh aspect, When the same recognition information is included in the plurality of processing regions because a part of the plurality of processing regions overlaps, the output unit converts a specific character string closer to the position of the same recognition information to the same character string. Output as data corresponding to recognition information.
  • a ninth aspect of the present disclosure is the character recognition device according to the sixth aspect,
  • the identification information included in the identification information list is the label of the device, and includes at least one of model name, serial number, date of manufacture, refrigerant type, refrigerant amount, and compression capability.
  • a tenth aspect of the present disclosure is the character recognition device according to the first aspect,
  • the photographed image is an image obtained by photographing a nameplate attached to the device.
  • An eleventh aspect of the present disclosure is a character recognition method comprising: an extraction step of extracting a specific character string from the captured image; a determination step of determining a processing region of the captured image according to the position of the extracted specific character string; and a recognition step of performing character recognition on the determined processing area in the photographed image.
  • the eleventh aspect of the present disclosure it is possible to provide a character recognition method that shortens the reading time when reading a character string through character recognition processing.
  • a twelfth aspect of the present disclosure is a character recognition program, an extraction step of extracting a specific character string from the captured image; a determination step of determining a processing region of the captured image according to the position of the extracted specific character string; and a recognition step of performing character recognition on the determined processing area in the photographed image.
  • FIG. 1 is a diagram showing a usage example of a character recognition device.
  • FIG. 2 is a diagram showing an example of the hardware configuration of the character recognition device.
  • FIG. 3 is a diagram showing an example of the functional configuration of the character recognition device.
  • FIG. 4 is a diagram showing the details of the functional configuration of the extraction unit.
  • FIG. 5 is a diagram illustrating a specific example of processing by the extraction unit.
  • FIG. 6 is a diagram illustrating the details of the functional configuration of the determination unit;
  • FIG. 7 is a diagram illustrating a specific example of processing by the determining unit;
  • FIG. 8 is a diagram showing the details of the functional configuration of the recognition unit.
  • FIG. 9 is a diagram illustrating a specific example of processing by the recognition unit.
  • FIG. 10 is a first flowchart showing the flow of character recognition processing.
  • FIG. 11 is a second flowchart showing the flow of character recognition processing.
  • FIG. 1 is a diagram showing a usage example of a character recognition device. As shown on the left side of FIG. 1, the character recognition device 120 is used, for example, in a scene where device data is read from the device nameplate 111 attached to the side of the field device 110 or the like.
  • the character recognition device 120 for example, when the maintenance worker 130 conducts an on-site investigation and registers the investigation results in a server device (not shown), equipment data for specifying the on-site equipment 110 to be investigated is It is possible to save the maintenance worker 130 from manually inputting. Also, it is possible to prevent the maintenance worker 130 from incorrectly inputting the device data.
  • the field device 110 is an outdoor unit of an air conditioner
  • the character recognition device 120 is a mobile terminal.
  • the field device 110 is not limited to the outdoor unit of the air conditioner, and may be a unit other than the outdoor unit of the air conditioner, or may be a field device other than the air conditioner.
  • the character recognition device 120 is not limited to a mobile terminal, and may be a terminal other than a mobile terminal as long as it has an optical character recognition function.
  • the right side of FIG. 1 shows a photographed image 121 displayed on the display screen of the character recognition device 120 as a result of the maintenance worker 130 photographing the equipment nameplate 111 .
  • the captured image 121 includes an image area 122 corresponding to the device nameplate 111 .
  • the device nameplate 111 includes, for example, ⁇ Description indicating that it is an outdoor unit, ⁇ Description indicating that the outdoor unit is used for both cooling and heating, ⁇ Description about the model (label, model code data), ⁇ Description of the serial number (label, serial number data), ⁇ Description of product mass (label, mass data), ⁇ Description of power supply specifications (label, number of phase data, voltage data, frequency data), ⁇ Description on the output of the compressor motor (label, power consumption data), ⁇ Description of control number (label, control code data), ⁇ Description on the amount and type of refrigerant (label, refrigerant amount data, refrigerant type code), ⁇ Description of design pressure (label, pressure data), ⁇ Description of JIS mark, ⁇ Description about JIS (registered certification body code data, JIS code data), etc.
  • the description on the device nameplate 111 includes many types of characters such as alphabets, numbers, symbols, and kanji (the language of the country where the field device 110 is installed).
  • the device nameplate 111 may include, in addition to the above descriptions, descriptions of manufacturing dates (labels, manufacturing date data), for example. .
  • FIG. 2 is a diagram showing an example of the hardware configuration of the character recognition device.
  • the character recognition device 120 has a processor 201 , a memory 202 , an auxiliary storage device 203 , a user interface device 204 , an imaging device 205 and a communication device 206 .
  • Each piece of hardware of the character recognition device 120 is interconnected via a bus 207 .
  • the processor 201 has various computing devices such as a CPU (Central Processing Unit).
  • the processor 201 reads various programs (for example, a character recognition program to be described later) onto the memory 202 and executes them.
  • programs for example, a character recognition program to be described later
  • the memory 202 has main storage devices such as ROM (Read Only Memory) and RAM (Random Access Memory).
  • the processor 201 and the memory 202 form a so-called computer, and the processor 201 executes various programs read onto the memory 202, thereby realizing various functions of the computer.
  • the auxiliary storage device 203 stores various programs and various data used when the various programs are executed by the processor 201 (for example, a first library, device data rules, a second library, a label list, etc., which will be described later).
  • the user interface device 204 has, for example, an operation function for the maintenance worker 130 to perform various operations, and a display function for displaying processing results of various processes executed by the character recognition device 120 .
  • the imaging device 205 captures the device nameplate 111 and generates a captured image 121 .
  • a communication device 206 is a communication device for communicating with an external device (for example, a server device (not shown)) via a network.
  • auxiliary storage device 203 Various programs installed in the auxiliary storage device 203 are installed by being downloaded from the network via the communication device 206, for example.
  • the character recognition program is installed in the character recognition device 120.
  • the character recognition device 120 an extraction unit 310, - decision unit 320, - Recognition unit 330, function as
  • the extraction unit 310 acquires a photographed image (for example, the photographed image 121) photographed by the imaging device 205.
  • the extracting unit 310 also performs character recognition on the acquired photographed image using the first library stored in the first library storage unit 340, and identifies a character string from the recognized characters.
  • the extracting unit 310 extracts a character string including a configuration of characters defined by the device data rule (determination information) held in the device data rule holding unit 350 (an example of the first holding unit) among the identified character strings. By determining, a candidate for equipment data (a specific character string) is extracted.
  • the extraction unit 310 notifies the recognition unit 330 of the extracted device data candidates (specific character strings). Furthermore, the extracting unit 310 notifies the determining unit 320 of bounding box information (height, width, position in the captured image) used when extracting the device data candidate (specific character string).
  • the first library stored in the first library storage unit 340 is composed of alphanumeric characters, for example, and has fewer character types than a general library for character recognition.
  • the general character recognition library here includes alphanumeric characters, characters and numbers representing the language of the country where the field device 110 is installed, and characters used for device nameplates (eg, Greek numerals, Roman letters, etc.). , various symbols, etc.
  • the device data rule held in the device data rule holding unit 350 is information that defines the character structure of the device data of the outdoor unit of the air conditioner.
  • the equipment data of the outdoor unit of the air conditioner includes: ⁇ Model code data, ⁇ Serial number data, ⁇ Manufacturing date data, ⁇ Refrigerant type code, ⁇ Refrigerant amount data, ⁇ Power consumption data of the compressor motor, etc. are included.
  • the extraction unit 310 performs character recognition on the character area within the image area 122 of the captured image 121 using the alphanumeric characters that make up the first library. In addition, the extraction unit 310 identifies the recognized alphanumeric character strings, and determines character strings including character configurations defined by the device data rule among the identified character strings. As a result, the extracting unit 310 extracts a candidate for the equipment data of the outdoor unit of the air conditioner, and notifies the recognizing unit 330 of it.
  • the determination unit 320 acquires the captured image captured by the imaging device 205 and acquires the bounding box information (height, width, position within the captured image) notified from the extraction unit 310 . Further, the determination unit 320 determines the processing area of the captured image based on the acquired bounding box information, and notifies the recognition unit 330 of the determination.
  • the processing area determined by the determining unit 320 is the target area for character recognition by the recognizing unit 330, and is the target area for searching for a "label" (an example of recognition information) corresponding to the device data candidate.
  • the recognition unit 330 acquires the processing area determined by the determination unit 320, performs character recognition on the acquired processing area using the second library stored in the second library storage unit 360, and recognizes characters from the recognized characters. Identifies a string.
  • the second library stored in the second library storage unit 360 is the general library for character recognition described above.
  • the recognition unit 330 refers to the label list (an example of the recognition information list) held in the label list holding unit 370 (an example of the second holding unit), and the character string identified in the processing area is stored in the label list. Determine if any of the included labels apply. If the recognition unit 330 determines that the label corresponds to one of the labels included in the label list, the recognition unit 330 outputs the device data candidate as the device data of the corresponding label in association with the label.
  • the recognizing unit 330 identifies the "label" corresponding to the device data candidate from among the character strings identified in the processing area.
  • the character recognition device 120 reads device data from the device nameplate 111, instead of recognizing all of many character types, The processing area is narrowed down by performing character recognition using a first library with a small number of character types, and extracting equipment data candidates using equipment rule data that defines character configurations. Then, character recognition is performed on the narrowed processing area using the second library having many character types. ⁇ Regarding character strings identified by performing character recognition using the second library, use the label list to determine whether or not they correspond to labels. Output as device data.
  • the character recognition process can shorten the reading time when reading the device data from the device nameplate. Further, according to the first embodiment, reading accuracy can be improved.
  • FIG. 4 is a diagram showing the details of the functional configuration of the extraction unit.
  • the extraction unit 310 has a character string identification unit 410 , a specific character string determination unit 420 and a bounding box determination unit 430 .
  • the character string identification unit 410 acquires the captured image captured by the imaging device 205, performs character recognition using the first library stored in the first library storage unit 340, and identifies the character string from the recognized alphanumeric characters. do.
  • the specific character string determination unit 420 determines whether the character string identified by the character string identification unit 410 is a character string including a character configuration defined by the device data rule, thereby determining whether the device data candidate is identified. to extract
  • the device data rule 440 defines the character configuration (number of characters, character type, character order, etc.) of the device data of the outdoor unit of the air conditioner.
  • the character configuration of the "model code data” is stipulated as "6 characters or more, 11 characters or less, 1 or more uppercase alphanumeric characters, and 2 or more numbers". Therefore, the specific character string determining unit 420 determines and extracts the character string including the character structure as a candidate for the "model code data".
  • the character configuration of the "manufacturing number data" is "(6 or more and 12 or less and the first character is an uppercase alphanumeric character) or (6 or more and 12 or less and all numeric )”. Therefore, the specific character string determination unit 420 determines and extracts the character string including the character configuration as "serial number data”.
  • the character configuration of the "manufacturing date data” includes “/", two or more characters before and after the "/”, and two characters before and after the "/" are numbers, and The manufacturing month is defined as an integer less than or equal to 12.” Therefore, the specific character string determination unit 420 determines and extracts the character string including the character structure as a candidate for the "manufacturing year/month data".
  • the character configuration of the "refrigerant type code” is defined as "five characters or less, the first character being "G", and two or more numerals". Therefore, the specific character string determination unit 420 determines and extracts the character string including the character configuration as a candidate for the "refrigerant type code”.
  • the configuration of characters in the "refrigerant amount data” is "including any of 'kg', 'ke', and 'k' at the same height, and the refrigerant type at the same height. contains and ". "including digits”. Therefore, the specific character string determination unit 420 determines and extracts the character string including the character structure as a candidate for the “refrigerant amount data”.
  • the composition of characters in the "compressor motor power consumption data” is "including either 'kw' or 'km' at the same height and '. "including digits”. Therefore, the specific character string determination unit 420 determines and extracts the character string including the character configuration as a candidate for the "compressor motor power consumption data".
  • the specific character string determination unit 420 notifies the recognition unit 330 of the determined device data candidates. Specifically, the specific character string determination unit 420 determines model code data candidates, serial number data candidates, manufacturing date data candidates, refrigerant type code candidates, refrigerant amount data candidates, power consumption of the compressor motor, and so on. The quantity data candidates and the like are notified to the recognition unit 330 .
  • the specific character string determination unit 420 notifies the bounding box determination unit 430 of the bounding box used when extracting the determined device data candidate.
  • the bounding box determination unit 430 calculates the height, width, and position within the captured image based on the acquired bounding box, and determines the bounding box information (height, width, position within the captured image). to notify.
  • FIG. 5 is a diagram illustrating a specific example of processing by the extraction unit.
  • 5a in FIG. 5 shows an extracted image area 122 corresponding to the equipment nameplate 111 from the photographed image 121 acquired by the character string identification unit 410.
  • FIG. 5b of FIG. 5 shows how the character string identification unit 410 performs character recognition using the first library and identifies the recognized alphanumeric character strings (codes 501 to 512).
  • the specific character string determination unit 420 selects characters 501, 502, 505 to 505 as character strings including character configurations defined by the device data rule among the identified character strings. 508 and 512 show how the character strings are determined and extracted.
  • the bounding box determination unit 430 extracts the character strings determined by the specific character string determination unit 420 (the character strings indicated by reference numerals 501, 502, 505 to 508, and 512). get the box.
  • FIG. 6 is a diagram illustrating the details of the functional configuration of the determination unit; As shown in FIG. 6 , the determining section 320 has a height information calculating section 610 , a width information calculating section 620 and a processing area determining section 630 .
  • the height information calculation unit 610 acquires the bounding box information (height, width, position in the captured image) notified from the bounding box determination unit 430, and multiplies the acquired height information of the bounding box by a predetermined value. By doing so, the height information of the processing area is calculated. Thereby, the height information calculation unit 610 identifies the position of the lower side and the position of the upper side of the processing area.
  • the width information calculation unit 620 acquires the bounding box information (height, width, position in the captured image) notified from the bounding box determination unit 430, and expands the acquired bounding box to the end in the width direction. Thus, the width information of the processing area is calculated. Thereby, the width information calculation unit 620 identifies the positions of the right side and the left side of the processing area.
  • the end in the width direction refers to the left end position or the right end position of the captured image 121
  • whether the width information calculation unit 620 expands to the left end position or the right end position in the width direction depends on the device nameplate 111 .
  • Depends on direction For example, when the language in which the “label” of the device nameplate 111 is written is written from left to right, the width information calculation unit 620 expands the bounding box to the left end position of the captured image.
  • the width information calculation unit 620 expands the bounding box to the right end position of the captured image.
  • the processing area determination unit 630 determines the processing area based on the height information calculated by the height information calculation unit 610 and the width information calculated by the width information calculation unit 620. Also, the determined processing area is extracted from the captured image 121 and the extracted processing area is notified to the recognition unit 330 .
  • FIG. 7 is a diagram illustrating a specific example of processing by the determining unit
  • FIG. 7a of FIG. 7 shows each bounding box (bounding boxes 701 to 707) within the image area 122 of the captured image 121 notified by the bounding box determination unit 430.
  • FIG. 7a shows each bounding box (bounding boxes 701 to 707) within the image area 122 of the captured image 121 notified by the bounding box determination unit 430.
  • FIG. 7b of FIG. 7 shows how the processing regions for the bounding boxes 701 and 707 of the bounding boxes 701 to 707 are determined.
  • a processing area 710 indicates a processing area determined by multiplying the bounding box 701 by a predetermined value in the height direction and enlarging it in the width direction to the edge position 700 of the captured image 121 .
  • a processing area 720 indicates a processing area determined by multiplying the bounding box 707 by a predetermined value in the height direction and enlarging it in the width direction to the edge position 700 of the captured image 121 .
  • FIG. 8 is a diagram showing the details of the functional configuration of the recognition unit.
  • the recognition section 330 has a processing area character recognition section 810 and a determination section 820 .
  • the processing area character recognition unit 810 acquires the processing area from the processing area determination unit 630, and uses the second library stored in the second library storage unit 360 to perform character recognition on the character area in the processing area. and identify strings of recognized characters. As a result, the processing area character recognition unit 810 notifies the determination unit 820 of “label” candidates corresponding to the device data candidates.
  • the determination unit 820 is an example of an output unit, and acquires the "label" candidate corresponding to the device data candidate notified from the processing area character recognition unit 810 . Further, the determination unit 820 refers to the label list held in the label list holding unit 370, and judges which label included in the label list corresponds to the character string identified in the processing area. As a result, the determining unit 820 identifies the “label” corresponding to the device data candidate.
  • the determination unit 820 selects a more appropriate device data candidate as the device corresponding to the applicable label. judged as data. More suitable device data candidates are, for example, ⁇ The distance between one device data candidate and the “label” candidate, - The distance between the other device data candidate and the "label” candidate, Refers to the closer equipment data candidate when comparing the .
  • a more appropriate device data candidate is, for example, - A line to which one device data candidate and a "label" candidate belong, - A line to which the other device data candidate and the "label" candidate belong, refers to a candidate for device data that belongs to the same row or a closer row when comparing .
  • the determination unit 820 outputs, among the device data candidates notified from the extraction unit 310, a device data candidate corresponding to the specified label as device data together with the specified label.
  • FIG. 9 is a diagram illustrating a specific example of processing by the recognition unit.
  • 9a in FIG. 9 shows how the processing area character recognition unit 810 performs character recognition on the character area in the processing area 710 determined based on the information of the bounding box 701.
  • FIG. 9a of FIG. 9 "model” (model name) is specified (reference numeral 921) as the label corresponding to the device data candidate, and "model: A12BCD" is output.
  • FIG. 9b of FIG. 9 shows how the processing area character recognition unit 810 performs character recognition on the character area in the processing area 911 determined based on the information of the bounding box 702.
  • FIG. 9b of FIG. 9 "manufacturing number” is specified as the label corresponding to the candidate for the device data (reference numeral 922), and “manufacturing number: EF34567" is output.
  • 9c of FIG. 9 shows how the processing area character recognition unit 810 performs character recognition on the character area in the processing area 912 determined based on the information of the bounding box 703.
  • compression function power compression function power
  • yy.y kW compression function power
  • 9d of FIG. 9 shows how the processing area character recognition unit 810 performs character recognition on the character area in the processing area 913 determined based on the information of the bounding box 704.
  • FIG. 9d of FIG. 9 the label corresponding to the candidate for the equipment data is not specified, and the equipment data is not output.
  • “compressor motor output” recognized as characters in the processing area 913 is a candidate label, but “compressor motor output” is also recognized as characters in the processing area 912. It is recognized and is a candidate label. Further, the label candidate and the device data candidate in the processing area 912 are located on the same line, whereas the label candidate and the device data candidate in the processing area 913 are located on different lines. there is Therefore, “compressor motor output” is specified as a label corresponding to the candidate for the device data in the processing area 912 . Therefore, determination unit 820 determines that the label corresponding to the device data candidate could not be specified in processing area 913 . As a result, no device data is output from the processing area 913 .
  • FIG. 9e of FIG. 9 shows how the processing area character recognition unit 810 performs character recognition on the character area in the processing area 914 determined based on the information of the bounding box 705.
  • 9f of FIG. 9 shows how the processing area character recognition unit 810 performs character recognition on the character area in the processing area 915 determined based on the information of the bounding box 706.
  • FIG. 9g of FIG. 9 shows how the processing area character recognition unit 810 performs character recognition on the character area in the processing area 720 determined based on the information of the bounding box 707.
  • the "low voltage part" recognized in the processing area 720 is a character string not included in the label list. It is determined that the label to be used could not be specified.
  • the recognition unit 330 - determine a processing region based on a bounding box corresponding to a candidate for equipment data; ⁇ Specify the label by performing character recognition on the character area of the determined processing area, - Output candidate device data corresponding to the specified label as device data in association with the specified label.
  • the recognition unit 330 ⁇ Model: A12BCD, ⁇ Manufacturing number: EF34567, - Compressor motor output: yy. ykW, - Refrigerant amount: zz. z kg, ⁇ Refrigerant type: G89, to output
  • step S ⁇ b>1001 the extraction unit 310 acquires a photographed image generated by photographing the device nameplate 111 with the imaging device 205 .
  • step S1002 the extraction unit 310 extracts a character area included in the captured image.
  • step S1003 the extraction unit 310 performs character recognition on the extracted character area using the first library.
  • step S1004 the extraction unit 310 identifies character strings from the recognized characters, and determines character strings that include character configurations defined by the device data rule among the identified character strings.
  • step S1004 If it is determined in step S1004 that the character string does not include the character structure defined by the device data rule (NO in step S1004), the process proceeds to step S1006.
  • step S1004 if it is determined in step S1004 that the character string includes a character structure defined by the device data rule (if YES in step S1004), the process proceeds to step S1005.
  • step S1005 the extraction unit 310 determines that the identified character string is a candidate for device data.
  • step S1006 the extraction unit 310 determines whether character recognition has been performed for all character regions extracted in step S1002.
  • step S1006 If it is determined in step S1006 that there is a character area for which character recognition has not been performed (NO in step S1006), the process returns to step S1003.
  • step S1006 determines whether character recognition has been performed for all character regions extracted in step S1002 (if YES in step S1006). If it is determined in step S1006 that character recognition has been performed for all character regions extracted in step S1002 (if YES in step S1006), the process proceeds to step S1007.
  • step S1007 the determination unit 320 determines the processing region based on the bounding box used when extracting the device data candidates.
  • step S1101 of FIG. 11 the recognition unit 330 extracts a character area from the determined processing area.
  • step S1102 the recognition unit 330 performs character recognition on the extracted character area using the second library.
  • step S1103 the recognition unit 330 refers to the label list and determines whether the character string identified in the processing area corresponds to any label included in the label list.
  • step S1103 If it is determined in step S1103 that the character string identified in the processing area does not correspond to any label included in the label list (NO in step S1103), the process proceeds to step S1105.
  • step S1103 determines whether the character string identified in the processing area corresponds to any label included in the label list (YES in step S1103). If it is determined in step S1103 that the character string identified in the processing area corresponds to any label included in the label list (YES in step S1103), the process proceeds to step S1104.
  • step S1104 the recognition unit 330 determines that the device data candidate is device data corresponding to the applicable label.
  • step S1105 the recognition unit 330 determines whether character recognition has been performed for all character regions extracted in step S1101.
  • step S1105 If it is determined in step S1105 that there is a character area for which character recognition has not been performed (NO in step S1105), the process returns to step S1103.
  • step S1105 determines whether character recognition has been performed for all character areas extracted in step S1101 (if YES in step S1105). If it is determined in step S1105 that character recognition has been performed for all character areas extracted in step S1101 (if YES in step S1105), the process proceeds to step S1106.
  • step S1106 the recognition unit 330 determines whether or not there are multiple device data candidates for the same label. If it is determined in step S1106 that there are not a plurality of device data candidates (NO in step S1106), the process proceeds to step S1108.
  • step S1106 determines whether there are multiple device data candidates (if YES in step S1106). If it is determined in step S1106 that there are multiple device data candidates (if YES in step S1106), the process proceeds to step S1107.
  • step S1107 the recognition unit 330 determines a more appropriate device data candidate from among a plurality of device data candidates.
  • step S1107 the recognition unit 330 outputs the determined device data candidate as device data corresponding to the applicable label in association with the applicable label, and then terminates the character recognition processing.
  • the character recognition device 120 according to the first embodiment - Extracting device data candidates from the captured image based on the first library. - The processing area of the captured image is determined according to the position of the bounding box used when extracting the device data candidates. ⁇ Character recognition is performed on the determined processing area in the captured image.
  • the reading time for reading the device data can be shortened by performing character recognition processing on the captured image of the device nameplate.
  • the determining unit 320 determines the processing region based on the bounding box used when the extracting unit 310 extracts equipment data candidates.
  • the determination unit 320 may determine the processing area based on information other than the bounding box (height, width, information indicating the position in the captured image, etc. of the character string that is the candidate for the device data).
  • the determination unit 320 calculates the height information of the processing region by multiplying the height information of the bounding box by a predetermined value, and expands the bounding box to the end in the width direction.
  • the description has been given assuming that the width information of the processing area is calculated.
  • the method of calculating the height information and the width information when the determination unit 320 determines the processing area is not limited to this.
  • the width information of the processing area may be calculated by multiplying the width information of the bounding box by a predetermined value.
  • the width information of the processing area may be calculated by enlarging the edge of the image area 122 of the equipment nameplate 111 instead of the edge in the width direction of the captured image.
  • the distances between the label and the device data candidates are compared in order to determine a more appropriate device data candidate. described as a thing.
  • the rows to which the label and device data candidates belong respectively are compared.
  • the method of determining a more appropriate device data candidate is not limited to these.
  • a combination rule of device data candidates and labels may be prepared in advance and determination may be made based on the combination rule.
  • the target for reading the device data is not limited to the device nameplate.
  • the target read from the device nameplate is not limited to device data.
  • the object to be photographed by the imaging device is not limited to the device nameplate, and may include a specific character string.
  • the equipment data rule is exemplified when the field equipment is the outdoor unit of the air conditioner, but when the field equipment is different, the equipment data rule corresponding to the different field equipment is used.
  • the label list is exemplified when the field device is an outdoor unit of an air conditioner, but when the field device is different, a label list corresponding to the different field device is used.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

文字認識処理により文字列を読み取る際の読み取り時間を短縮する文字認識装置、文字認識方法及び文字認識プログラムを提供する。撮影画像から、特定の文字列を抽出する抽出部と、抽出された特定の文字列の位置に応じて、前記撮影画像の処理領域を決定する決定部と、前記撮影画像のうち、決定された処理領域を対象に、文字認識を行う認識部とを有する。

Description

文字認識装置、文字認識方法及び文字認識プログラム
 本開示は、文字認識装置、文字認識方法及び文字認識プログラムに関する。
 現場に設置されている各種機器に付された機器銘板を、携帯端末等を用いて撮影し、文字認識処理により文字列を読み取る光学的文字認識技術が知られている。当該技術によれば、例えば、各種機器に付された機器銘板から機器データを読み取ることができる。
特開2020-119195号公報 特開2013-206131号公報
 一方で、機器銘板には、アルファベットや数字、記号、漢字など、多くの文字種が含まれており、文字認識処理による文字列の読み取りには、一定程度の時間がかかる。
 本開示は、文字認識処理により文字列を読み取る際の読み取り時間を短縮する文字認識装置、文字認識方法及び文字認識プログラムを提供する。
 本開示の第1の態様は、文字認識装置であって、
 撮影画像から、特定の文字列を抽出する抽出部と、
 抽出された特定の文字列の位置に応じて、前記撮影画像の処理領域を決定する決定部と、
 前記撮影画像のうち、決定された処理領域を対象に、文字認識を行う認識部とを有する。
 本開示の第1の態様によれば、文字認識処理により文字列を読み取る際の読み取り時間を短縮する文字認識装置を提供することができる。
 また、本開示の第2の態様は、第1の態様に記載の文字認識装置であって、
 前記抽出部が前記特定の文字列を抽出する際の文字認識において用いる第1ライブラリの文字種は、前記認識部が文字認識を行う際に用いる第2ライブラリの文字種よりも少ない。
 また、本開示の第3の態様は、第2の態様に記載の文字認識装置であって、
 前記特定の文字列に含まれる文字の構成を規定した判断情報を保持する第1保持部を有し、
 前記抽出部は、前記撮影画像を対象に前記第1ライブラリを用いて文字認識を行い、認識した文字から文字列を識別し、識別した文字列のうち前記判断情報により規定された文字の構成を含む文字列を判定することで、前記特定の文字列を抽出する。
 また、本開示の第4の態様は、第3の態様に記載の文字認識装置であって、
 前記判断情報は、前記文字の構成として、文字数、文字種、文字順序のいずれかを規定する。
 また、本開示の第5の態様は、第4の態様に記載の文字認識装置であって、
 前記決定部は、前記抽出部が前記特定の文字列を抽出する際に用いたバウンディングボックスを含む領域であって、前記バウンディングボックスの高さの所定倍の高さを有し、かつ、前記特定の文字列の位置から前記撮影画像の端部位置までの幅を有する領域を、前記処理領域として決定する。
 また、本開示の第6の態様は、第1の態様に記載の文字認識装置であって、
 認識情報リストを保持する第2保持部を有し、
 前記認識部は、認識した文字が前記認識情報リストに含まれるいずれかの認識情報に該当するかを判断する。
 また、本開示の第7の態様は、第6の態様に記載の文字認識装置であって、
 前記認識部により前記認識情報リストに含まれるいずれかの認識情報に該当すると判断された場合、前記抽出された特定の文字列を、該当する認識情報に対応するデータとして出力する出力部を有する。
 また、本開示の第8の態様は、第7の態様に記載の文字認識装置であって、
 複数の前記処理領域の一部が互いに重複することで、複数の前記処理領域に同じ認識情報が含まれる場合、前記出力部は、前記同じ認識情報の位置により近い特定の文字列を、前記同じ認識情報に対応するデータとして出力する。
 また、本開示の第9の態様は、第6の態様に記載の文字認識装置であって、
 前記認識情報リストに含まれる認識情報は機器のラベルであり、少なくとも、機種名、製造番号、製造年月、冷媒種類、冷媒量、圧縮機能力のいずれか1つを含む。
 また、本開示の第10の態様は、第1の態様に記載の文字認識装置であって、
 前記撮影画像は、機器に付された銘板を撮影した画像である。
 また、本開示の第11の態様は、文字認識方法であって、
 撮影画像から、特定の文字列を抽出する抽出工程と、
 抽出された特定の文字列の位置に応じて、前記撮影画像の処理領域を決定する決定工程と、
 前記撮影画像のうち、決定された処理領域を対象に文字認識を行う認識工程とを有する。
 本開示の第11の態様によれば、文字認識処理により文字列を読み取る際の読み取り時間を短縮する文字認識方法を提供することができる。
 また、本開示の第12の態様は、文字認識プログラムであって、
 撮影画像から、特定の文字列を抽出する抽出工程と、
 抽出された特定の文字列の位置に応じて、前記撮影画像の処理領域を決定する決定工程と、
 前記撮影画像のうち、決定された処理領域を対象に文字認識を行う認識工程と
 をコンピュータに実行させる。
 本開示の第12の態様によれば、文字認識処理により文字列を読み取る際の読み取り時間を短縮する文字認識プログラムを提供することができる。
図1は、文字認識装置の利用例を示す図である。 図2は、文字認識装置のハードウェア構成の一例を示す図である。 図3は、文字認識装置の機能構成の一例を示す図である。 図4は、抽出部の機能構成の詳細を示す図である。 図5は、抽出部の処理の具体例を示す図である。 図6は、決定部の機能構成の詳細を示す図である。 図7は、決定部の処理の具体例を示す図である。 図8は、認識部の機能構成の詳細を示す図である。 図9は、認識部の処理の具体例を示す図である。 図10は、文字認識処理の流れを示す第1のフローチャートである。 図11は、文字認識処理の流れを示す第2のフローチャートである。
 以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省く。
 [第1の実施形態]
 <文字認識装置の利用例>
 はじめに、第1の実施形態に係る文字認識装置の利用例について説明する。図1は、文字認識装置の利用例を示す図である。図1の左側に示すように、文字認識装置120は、例えば、現場機器110の側面等に付された機器銘板111から、機器データを読み取るシーン等において利用される。
 文字認識装置120によれば、例えば、保守作業者130が現場調査を行い、調査結果を不図示のサーバ装置等に登録する際、調査対象である現場機器110を特定するための機器データを、保守作業者130が手入力する手間を省くことができる。また、保守作業者130が機器データを誤入力するのを防止することができる。
 なお、本実施形態では、現場機器110が空調機器の室外機であり、文字認識装置120が携帯端末であるとして説明する。ただし、現場機器110は空調機器の室外機に限定されるものではなく、空調機器の室外機以外のユニットであってもよいし、空調機器以外の現場機器であってもよい。また、文字認識装置120は携帯端末に限定されず、光学的文字認識機能を有する端末であれば、携帯端末以外の端末であってもよい。
 図1の右側は、保守作業者130が機器銘板111を撮影したことで、文字認識装置120の表示画面に、撮影画像121が表示された様子を示している。図1の右側に示すように、撮影画像121には、機器銘板111に対応する画像領域122が含まれる。
 現場機器110が空調機器の室外機の場合、画像領域122に示すように、機器銘板111には、例えば、
・室外機であることを示す記載、
・冷房と暖房とを兼用する室外機であることを示す記載、
・機種についての記載(ラベル、機種コードデータ)、
・製造番号についての記載(ラベル、製造番号データ)、
・製品質量についての記載(ラベル、質量データ)、
・電源仕様についての記載(ラベル、相数データ、電圧データ、周波数データ)、
・圧縮機電動機の出力についての記載(ラベル、消費電力量データ)、
・管理番号についての記載(ラベル、管理コードデータ)、
・冷媒の量及び種類についての記載(ラベル、冷媒量データ、冷媒種コード)、
・設計圧力についての記載(ラベル、圧力データ)、
・JISマークの記載、
・JISについての記載(登録認証機関コードデータ、JISコードデータ)、
等が含まれる。このように、機器銘板111の記載には、アルファベットや数字、記号、漢字(現場機器110が設置された国の言語)など、多くの文字種が含まれる。なお、図1の画像領域122には示されていないが、機器銘板111には、上記記載のほか、例えば、製造年月についての記載(ラベル、製造年月データ)が含まれていてもよい。
 <文字認識装置のハードウェア構成>
 次に、文字認識装置120のハードウェア構成について説明する。図2は、文字認識装置のハードウェア構成の一例を示す図である。図2に示すように、文字認識装置120は、プロセッサ201、メモリ202、補助記憶装置203、ユーザインタフェース装置204、撮像装置205、通信装置206を有する。なお、文字認識装置120の各ハードウェアは、バス207を介して相互に接続されている。
 プロセッサ201は、CPU(Central Processing Unit)等の各種演算デバイスを有する。プロセッサ201は、各種プログラム(例えば、後述する文字認識プログラム等)をメモリ202上に読み出して実行する。
 メモリ202は、ROM(Read Only Memory)、RAM(Random Access Memory)等の主記憶デバイスを有する。プロセッサ201とメモリ202とは、いわゆるコンピュータを形成し、プロセッサ201が、メモリ202上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。
 補助記憶装置203は、各種プログラムや、各種プログラムがプロセッサ201によって実行される際に用いられる各種データ(例えば、後述する第1ライブラリ、機器データルール、第2ライブラリ、ラベルリスト等)を格納する。
 ユーザインタフェース装置204は、例えば、保守作業者130が各種操作を行うための操作機能と、文字認識装置120により実行される各種処理の処理結果を表示する表示機能とを有する。
 撮像装置205は、機器銘板111を撮影し、撮影画像121を生成する。通信装置206は、ネットワークを介して外部装置(例えば、不図示のサーバ装置)と通信を行うための通信デバイスである。
 なお、補助記憶装置203にインストールされる各種プログラムは、例えば、通信装置206を介してネットワークからダウンロードされることで、インストールされる。
 <文字認識装置の機能構成>
 次に、文字認識装置120の機能構成について説明する。上述したように、文字認識装置120には、文字認識プログラムがインストールされており、当該プログラムが実行されることで、文字認識装置120は、
・抽出部310、
・決定部320、
・認識部330、
として機能する。
 抽出部310は、撮像装置205により撮影された撮影画像(例えば、撮影画像121)を取得する。また、抽出部310は、取得した撮影画像に対して、第1ライブラリ記憶部340に記憶された第1ライブラリを用いて文字認識を行い、認識した文字から文字列を識別する。
 また、抽出部310は、識別した文字列のうち、機器データルール保持部350(第1保持部の一例)に保持された機器データルール(判断情報)により規定された文字の構成を含む文字列を判定することで、機器データの候補(特定の文字列)を抽出する。
 また、抽出部310は、抽出した機器データの候補(特定の文字列)を認識部330に通知する。更に抽出部310は、機器データの候補(特定の文字列)を抽出する際に用いたバウンディングボックスの情報(高さ、幅、撮影画像内での位置)を決定部320に通知する。
 なお、第1ライブラリ記憶部340に記憶されている第1ライブラリは、例えば、英数字により構成されており、一般的な文字認識用のライブラリよりも文字種が少ないライブラリであるとする。ここでいう一般的な文字認識用のライブラリとは、英数字のほか、現場機器110が設置された国の言語を表す文字及び数字、機器銘板に用いられる文字(例えば、ギリシャ数字、ローマ字等)、各種記号、等を含むライブラリを指す。
 また、機器データルール保持部350に保持されている機器データルールは、本実施形態の場合、空調機器の室外機の機器データの文字の構成を規定した情報である。なお、空調機器の室外機の機器データには、例えば、
・機種コードデータ、
・製造番号データ、
・製造年月データ、
・冷媒種コード、
・冷媒量データ、
・圧縮機電動機の消費電力量データ、
等が含まれる。
 つまり、抽出部310は、第1ライブラリを構成する英数字を用いて、撮影画像121の画像領域122内の文字の領域を対象に文字認識を行う。また、抽出部310は、認識した英数字の文字列を識別し、識別した文字列のうち、機器データルールにより規定された文字の構成を含む文字列を判定する。これにより、抽出部310は、空調機器の室外機の機器データの候補を抽出し、認識部330に通知する。
 決定部320は、撮像装置205により撮影された撮影画像を取得するとともに、抽出部310から通知された、バウンディングボックスの情報(高さ、幅、撮影画像内での位置)を取得する。また、決定部320は、取得したバウンディングボックスの情報に基づいて、撮影画像の処理領域を決定し、認識部330に通知する。
 なお、決定部320が決定する処理領域は、認識部330が文字認識を行う対象領域であり、機器データの候補に対応する「ラベル」(認識情報の一例)を探索する対象領域である。
 認識部330は、決定部320が決定した処理領域を取得し、取得した処理領域を対象に、第2ライブラリ記憶部360に記憶された第2ライブラリを用いて文字認識を行い、認識した文字から文字列を識別する。
 なお、第2ライブラリ記憶部360に記憶されている第2ライブラリは、上述した一般的な文字認識用のライブラリである。
 また、認識部330は、ラベルリスト保持部370(第2保持部の一例)に保持されているラベルリスト(認識情報リストの一例)を参照し、処理領域において識別した文字列が、ラベルリストに含まれるいずれかのラベルに該当するかを判断する。また、認識部330は、ラベルリストに含まれるいずれかのラベルに該当すると判断した場合、機器データの候補を、該当するラベルの機器データとして、ラベルと対応付けて出力する。
 つまり、認識部330は、処理領域において識別した文字列の中から、機器データの候補に対応する「ラベル」を特定する。
 このように、文字認識装置120では、機器銘板111から、機器データを読み取る際、多くの文字種全てを文字認識する代わりに、
・文字種の少ない第1ライブラリを用いて文字認識を行うとともに、文字の構成を規定した機器ルールデータを用いて機器データの候補を抽出することで、処理領域を絞り込む。そして、絞り込んだ処理領域を対象に、文字種の多い第2ライブラリを用いて文字認識を行う。
・第2ライブラリを用いて文字認識を行うことで識別した文字列について、ラベルリストを用いてラベルに該当するかを判断し、該当すると判断した場合に、機器データの候補を、該当するラベルの機器データとして出力する。
 これにより、第1の実施形態によれば、文字認識処理により、機器銘板から機器データを読み取る際の読み取り時間を短縮することができる。また、第1の実施形態によれば、読み取り精度を向上させることができる。
 <抽出部の機能構成の詳細>
 次に、抽出部310の機能構成の詳細について説明する。図4は、抽出部の機能構成の詳細を示す図である。図4に示すように、抽出部310は、文字列識別部410、特定文字列判定部420、バウンディングボックス判定部430を有する。
 文字列識別部410は、撮像装置205により撮影された撮影画像を取得し、第1ライブラリ記憶部340に記憶された第1ライブラリを用いて文字認識を行い、認識した英数字から文字列を識別する。
 特定文字列判定部420は、文字列識別部410により識別された文字列が、機器データルールにより規定された文字の構成を含む文字列であるか否かを判定することで、機器データの候補を抽出する。
 機器データルール440には、空調機器の室外機の機器データの文字の構成(文字数、文字種、文字順序等)が規定されている。機器データルール440によれば、「機種コードデータ」の文字の構成は、“6文字以上 かつ 11文字以下 かつ 英数字大文字1文字以上 かつ 数字2文字以上”と規定されている。したがって、特定文字列判定部420では、当該文字の構成を含む文字列を「機種コードデータ」の候補と判定して抽出する。
 また、機器データルール440によれば、「製造番号データ」の文字の構成は、「(6文字以上 かつ 12文字以下 かつ 一文字目が大文字英数字) または (6文字以上 かつ12文字以下 かつ すべて数字)」と規定されている。したがって、特定文字列判定部420では、当該文字の構成を含む文字列を、「製造番号データ」と判定して抽出する。
 また、機器データルール440によれば、「製造年月データ」の文字の構成は、「“/”を含む かつ “/”の前後が2文字以上 かつ “/”の前後2文字以内は数字 かつ 製造月は12以下の整数」と規定されている。したがって、特定文字列判定部420では、当該文字の構成を含む文字列を、「製造年月データ」の候補と判定して抽出する。
 また、機器データルール440によれば、「冷媒種コード」の文字の構成は、「5文字以下 かつ 一文字目が“G” かつ 数字2文字以上」と規定されている。したがって、特定文字列判定部420では、当該文字の構成を含む文字列を、「冷媒種コード」の候補と判定して抽出する。
 また、機器データルール440によれば、「冷媒量データ」の文字の構成は、「同じ高さに“kg”、“ke”、“k”のいずれかを含む かつ 同じ高さに冷媒種類を含む かつ “.”と数字とを含む」と規定されている。したがって、特定文字列判定部420では、当該文字の構成を含む文字列を、「冷媒量データ」の候補と判定して抽出する。
 また、機器データルール440によれば、「圧縮機電動機の消費電力量データ」の文字の構成は、「同じ高さに“kw”、“km”のいずれかを含む かつ “.”と数字とを含む」と規定されている。したがって、特定文字列判定部420では、当該文字の構成を含む文字列を、「圧縮機電動機の消費電力量データ」の候補と判定して抽出する。
 特定文字列判定部420は、判定した機器データの候補を、認識部330に通知する。具体的には、特定文字列判定部420は、機種コードデータの候補、製造番号データの候補、製造年月データの候補、冷媒種コードの候補、冷媒量データの候補、圧縮機電動機の消費電力量データの候補等を、認識部330に通知する。
 また、特定文字列判定部420は、判定した機器データの候補を抽出する際に用いたバウンディングボックスを、バウンディングボックス判定部430に通知する。
 バウンディングボックス判定部430は、取得したバウンディングボックスに基づいて高さ、幅、撮影画像内での位置を算出し、バウンディングボックスの情報(高さ、幅、撮影画像内での位置)を決定部320に通知する。
 <抽出部の処理の具体例>
 次に、抽出部310の処理の具体例について説明する。図5は、抽出部の処理の具体例を示す図である。
 このうち、図5の5aは、文字列識別部410が取得した撮影画像121のうち、機器銘板111に対応する画像領域122を抜粋して示したものである。
 また、図5の5bは、文字列識別部410が第1ライブラリを用いて文字認識を行い、認識した英数字の文字列(符号501~符号512)を識別した様子を示している。
 また、図5の5cは、特定文字列判定部420が、識別された文字列のうち、機器データルールにより規定された文字の構成を含む文字列として、符号501、符号502、符号505~符号508、符号512に示す文字列を判定して抽出した様子を示している。
 なお、バウンディングボックス判定部430では、特定文字列判定部420により判定された文字列(符号501、符号502、符号505~符号508、符号512に示す文字列)を抽出する際に用いられたバウンディングボックスを取得する。
 <決定部の機能構成の詳細>
 次に、決定部320の機能構成の詳細について説明する。図6は、決定部の機能構成の詳細を示す図である。図6に示すように、決定部320は、高さ情報算出部610、幅情報算出部620、処理領域決定部630を有する。
 高さ情報算出部610は、バウンディングボックス判定部430から通知された、バウンディングボックスの情報(高さ、幅、撮影画像内での位置)を取得し、取得したバウンディングボックスの高さ情報を所定倍することで、処理領域の高さ情報を算出する。これにより、高さ情報算出部610では、処理領域の下辺の位置と上辺の位置とを特定する。
 幅情報算出部620は、バウンディングボックス判定部430から通知された、バウンディングボックスの情報(高さ、幅、撮影画像内の位置)を取得し、取得したバウンディングボックスを幅方向の端部まで拡大することで、処理領域の幅情報を算出する。これにより、幅情報算出部620は、処理領域の右辺の位置と左辺の位置とを特定する。
 なお、幅方向の端部とは、撮影画像121の左端位置または右端位置を指し、幅情報算出部620が幅方向の左端位置まで拡大するか、右端位置まで拡大するかは、機器銘板111の記載方向による。例えば、機器銘板111の「ラベル」を記載する言語が、左から右へと記載する記載方向の言語である場合、幅情報算出部620では、バウンディングボックスを、撮影画像の左端位置まで拡大する。一方、機器銘板111の「ラベル」を記載する言語が、右から左へと記載する記載方向の言語である場合、幅情報算出部620では、バウンディングボックスを、撮影画像の右端位置まで拡大する。
 処理領域決定部630は、高さ情報算出部610により算出された高さ情報と、幅情報算出部620により算出された幅情報とに基づいて、処理領域を決定する。また、撮影画像121から、決定した処理領域を抽出し、抽出した処理領域を認識部330に通知する。
 <決定部の処理の具体例>
 次に、決定部320の処理の具体例について説明する。図7は、決定部の処理の具体例を示す図である。
 このうち、図7の7aは、バウンディングボックス判定部430より通知された、撮影画像121の画像領域122内の、各バウンディングボックス(バウンディングボックス701~707)を示している。
 図7の7bは、各バウンディングボックス701~707のうち、バウンディングボックス701、バウンディングボックス707について、処理領域を決定した様子を示している。
 このうち、処理領域710は、バウンディングボックス701を、高さ方向に所定倍し、撮影画像121の端部位置700まで、幅方向に拡大することで決定された処理領域を示している。
 同様に、処理領域720は、バウンディングボックス707を、高さ方向に所定倍し、撮影画像121の端部位置700まで、幅方向に拡大することで決定された処理領域を示している。
 <認識部の機能構成の詳細>
 次に、認識部330の機能構成の詳細について説明する。図8は、認識部の機能構成の詳細を示す図である。図8に示すように、認識部330は、処理領域文字認識部810、判断部820を有する。
 処理領域文字認識部810は、処理領域決定部630から処理領域を取得し、第2ライブラリ記憶部360に記憶された第2ライブラリを用いて、処理領域内の文字の領域を対象に文字認識を行い、認識した文字の文字列を識別する。これにより、処理領域文字認識部810は、機器データの候補に対応する「ラベル」の候補を、判断部820に通知する。
 判断部820は出力部の一例であり、処理領域文字認識部810から通知された、機器データの候補に対応する「ラベル」の候補を取得する。また、判断部820は、ラベルリスト保持部370に保持されているラベルリストを参照し、処理領域において識別した文字列が、ラベルリストに含まれるいずれのラベルに該当するかを判断する。これにより、判断部820では、機器データの候補に対応する「ラベル」を特定する。
 なお、異なる処理領域の一部が重なることで、異なる領域それぞれから同じ「ラベル」の候補が取得された場合、判断部820は、より適切な機器データの候補を、該当するラベルに対応する機器データと判定する。より適切な機器データの候補とは、例えば、
・一方の機器データの候補と、「ラベル」の候補との間の距離と、
・他方の機器データの候補と、「ラベル」の候補との間の距離と、
を対比した際のより近い方の機器データの候補を指す。
 あるいは、より適切な機器データの候補とは、例えば、
・一方の機器データの候補と、「ラベル」の候補とが属する行と、
・他方の機器データの候補と、「ラベル」の候補とが属する行と、
を対比した際に同じ行またはより近い行に属する方の機器データの候補を指す。
 また、判断部820は、抽出部310から通知された機器データの候補のうち、特定したラベルに対応する機器データの候補を、機器データとして、特定したラベルとともに出力する。
 <認識部の処理の具体例>
 次に、認識部330の処理の具体例について説明する。図9は、認識部の処理の具体例を示す図である。
 このうち、図9の9aは、バウンディングボックス701の情報に基づいて決定された処理領域710において、処理領域文字認識部810が、文字の領域を対象に文字認識を行った様子を示している。図9の9aによれば、機器データの候補に対応するラベルとして、「機種」(機種名)が特定され(符号921)、「機種:A12BCD」が出力される。
 また、図9の9bは、バウンディングボックス702の情報に基づいて決定された処理領域911において、処理領域文字認識部810が、文字の領域を対象に文字認識を行った様子を示している。図9の9bによれば、機器データの候補に対応するラベルとして、「製造番号」が特定され(符号922)、「製造番号:EF34567」が出力される。
 また、図9の9cは、バウンディングボックス703の情報に基づいて決定された処理領域912において、処理領域文字認識部810が、文字の領域を対象に文字認識を行った様子を示している。図9の9cによれば、機器データの候補に対応するラベルとして、「圧縮機電動機出力」(圧縮機能力)が特定され(符号923)、「圧縮機電動機出力:yy.y kW」が出力される。
 また、図9の9dは、バウンディングボックス704の情報に基づいて決定された処理領域913において、処理領域文字認識部810が、文字の領域を対象に文字認識を行った様子を示している。図9の9dの場合、機器データの候補に対応するラベルが、特定されず、機器データは出力されない。
 より具体的には、図9の9dは、処理領域913において文字認識された「圧縮機電動機出力」が、ラベルの候補となるが、「圧縮機電動機出力」については、処理領域912においても文字認識され、ラベルの候補となっている。更に、処理領域912におけるラベルの候補と機器データの候補とは、同じ行に位置しているのに対して、処理領域913におけるラベルの候補と機器データの候補とは、異なる行に位置している。したがって、「圧縮機電動機出力」については、処理領域912の機器データの候補に対応するラベルとして特定される。このため、判断部820では、処理領域913において、機器データの候補に対応するラベルが特定できなかったと判断する。この結果、処理領域913からは、機器データが出力されない。
 また、図9の9eは、バウンディングボックス705の情報に基づいて決定された処理領域914において、処理領域文字認識部810が、文字の領域を対象に文字認識を行った様子を示している。図9の9eによれば、機器データの候補に対応するラベルが特定され(符号924)、「冷媒量:zz.z kg」が出力される。
 また、図9の9fは、バウンディングボックス706の情報に基づいて決定された処理領域915において、処理領域文字認識部810が、文字の領域を対象に文字認識を行った様子を示している。図9の9fによれば、機器データの候補に対応するラベルとして、「冷媒」が特定され(符号924)、「冷媒種類:G89」が出力される。
 また、図9の9gは、バウンディングボックス707の情報に基づいて決定された処理領域720において、処理領域文字認識部810が、文字の領域を対象に文字認識を行った様子を示している。図9の9gによれば、機器データの候補に対応するラベルが特定されず、機器データは出力されない。
 より具体的には、図9の9gは、処理領域720において文字認識された「低圧部」が、ラベルリストに含まれていない文字列であるため、判断部820では、機器データの候補に対応するラベルが特定できなかったと判断する。
 このように、認識部330は、
・機器データの候補に対応するバウンディングボックスに基づいて処理領域を決定し、
・決定した処理領域の文字の領域に対して文字認識を行うことでラベルを特定し、
・特定したラベルに対応する機器データの候補を機器データとして、特定したラベルと対応付けて出力する。
 この結果、機器銘板111から読み取った機器データとして、認識部330では、
・機種:A12BCD、
・製造番号:EF34567、
・圧縮機電動機出力:yy.y kW、
・冷媒量:zz.z kg、
・冷媒種類:G89、
を出力する。
 <文字認識装置による文字認識処理の流れ>
 次に、文字認識装置120による文字認識処理の流れについて説明する。図10及び図11は、文字認識処理の流れを示す第1及び第2のフローチャートである。
 ステップS1001において、抽出部310は、撮像装置205により機器銘板111が撮影されることで生成された撮影画像を取得する。
 ステップS1002において、抽出部310は、取得した撮影画像に含まれる文字の領域を抽出する。
 ステップS1003において、抽出部310は、抽出した文字の領域について、第1ライブラリを用いて文字認識を行う。
 ステップS1004において、抽出部310は、認識した文字から文字列を識別し、識別した文字列のうち、機器データルールにより規定された文字の構成を含む文字列を判定する。
 ステップS1004において、機器データルールにより規定された文字の構成を含まない文字列であると判定した場合には(ステップS1004においてNOの場合には)、ステップS1006に進む。
 一方、ステップS1004において、機器データルールにより規定された文字の構成を含む文字列であると判定した場合には(ステップS1004においてYESの場合には)、ステップS1005に進む。
 ステップS1005において、抽出部310は、識別した文字列を、機器データの候補と判定する。
 ステップS1006において、抽出部310は、ステップS1002において抽出した文字の領域全てについて、文字認識を行ったか否かを判定する。
 ステップS1006において、文字認識を行っていない文字の領域があると判定した場合には(ステップS1006においてNOの場合には)、ステップS1003に戻る。
 一方、ステップS1006において、ステップS1002において抽出した文字の領域全てについて、文字認識を行ったと判定した場合には(ステップS1006においてYESの場合には)、ステップS1007に進む。
 ステップS1007において、決定部320は、機器データの候補を抽出する際に用いたバウンディングボックスに基づいて処理領域を決定する。
 図11のステップS1101において、認識部330は、決定した処理領域から文字の領域を抽出する。
 ステップS1102において、認識部330は、抽出した文字の領域について、第2ライブラリを用いて文字認識を行う。
 ステップS1103において、認識部330は、ラベルリストを参照し、処理領域において識別した文字列が、ラベルリストに含まれるいずれかのラベルに該当するかを判断する。
 ステップS1103において、処理領域において識別した文字列が、ラベルリストに含まれるいずれのラベルにも該当しないと判断した場合には(ステップS1103においてNOの場合には)、ステップS1105に進む。
 一方、ステップS1103において、処理領域において識別した文字列が、ラベルリストに含まれるいずれかのラベルに該当すると判断した場合には(ステップS1103においてYESの場合には)、ステップS1104に進む。
 ステップS1104において、認識部330は、機器データの候補を、該当するラベルに対応する機器データと判定する。
 ステップS1105において、認識部330は、ステップS1101において抽出した文字の領域全てについて、文字認識を行ったか否かを判定する。
 ステップS1105において、文字認識を行っていない文字の領域があると判定した場合には(ステップS1105においてNOの場合には)、ステップS1103に戻る。
 一方、ステップS1105において、ステップS1101において抽出した文字の領域全てについて文字認識を行ったと判定した場合には(ステップS1105においてYESの場合には)、ステップS1106に進む。
 ステップS1106において、認識部330は、同じラベルに、機器データの候補が複数あるか否かを判定する。ステップS1106において、機器データの候補が複数ないと判定した場合には(ステップS1106においてNOの場合には)、ステップS1108に進む。
 一方、ステップS1106において、機器データの候補が複数あると判定した場合には(ステップS1106においてYESの場合には)、ステップS1107に進む。
 ステップS1107において、認識部330は、複数の機器データの候補の中から、より適切な機器データの候補を判定する。
 ステップS1107において、認識部330は、判定した機器データの候補を、該当するラベルに対応する機器データとして、該当するラベルと対応付けて出力した後、文字認識処理を終了する。
 <まとめ>
 以上の説明から明らかなように、第1の実施形態に係る文字認識装置120は、
・撮影画像から、第1ライブラリに基づいて機器データの候補を抽出する。
・機器データの候補を抽出する際に用いたバウンディングボックスの位置に応じて、撮影画像の処理領域を決定する。
・撮影画像のうち、決定した処理領域を対象に、文字認識を行う。
 これにより、第1の実施形態によれば、機器銘板を撮影した撮影画像に対して文字認識処理を行うことで機器データを読み取る際の読み取り時間を短縮することができる。
 [第2の実施形態]
 上記第1の実施形態において決定部320は、抽出部310が機器データの候補を抽出する際のバウンディングボックスに基づいて、処理領域を決定するものとして説明した。しかしながら、決定部320は、バウンディングボックス以外の情報(機器データの候補となる文字列の高さ、幅、撮影画像内での位置を示す情報等)に基づいて処理領域を決定してもよい。
 また、上記第1の実施形態において決定部320は、バウンディングボックスの高さ情報を所定倍することで処理領域の高さ情報を算出し、バウンディングボックスを幅方向の端部まで拡大することで、処理領域の幅情報を算出するものとして説明した。しかしながら、決定部320が処理領域を決定する際の、高さ情報及び幅情報の算出方法はこれに限定されない。例えば、幅方向についても、バウンディングボックスの幅情報を所定倍することで処理領域の幅情報を算出してもよい。あるいは、撮影画像の幅方向の端部の代わりに、例えば、機器銘板111の画像領域122の端部まで拡大することで、処理領域の幅情報を算出してもよい。
 また、上記第1の実施形態では、同じラベルに複数の機器データ候補があると判定された際、より適切な機器データ候補を判定するにあたり、ラベルと機器データ候補との間の距離を対比するものとして説明した。あるいは、ラベル及び機器データ候補がそれぞれ属する行を対比するものとして説明した。しかしながら、より適切な機器データ候補の判定方法はこれらに限定されず、例えば、機器データの候補とラベルとの組み合わせルールを予め用意しておき、当該組み合わせルールに基づいて判定してもよい。
 また、上記第1の実施形態では、機器銘板から機器データを読み取る場合について説明したが、機器データを読み取る対象は、機器銘板に限定されない。あるいは、機器銘板から読み取る対象は、機器データに限定されない。更に、撮像装置が撮影する対象は機器銘板に限定されず、特定の文字列が含まれていればよい。
 また、上記第1の実施形態では、現場機器が空調機器の室外機である場合の機器データルールについて例示したが、現場機器が異なる場合には、異なる現場機器に応じた機器データルールが用いられるものとする。同様に、上記第1の実施形態では、現場機器が空調機器の室外機である場合のラベルリストについて例示したが、現場機器が異なる場合には、異なる現場機器に応じたラベルリストが用いられるものとする。
 以上、実施形態を説明したが、特許請求の範囲の趣旨及び範囲から逸脱することなく、形態や詳細の多様な変更が可能なことが理解されるであろう。
 本出願は、2021年7月1日に出願された日本国特許出願第2021-109954号に基づきその優先権を主張するものであり、同日本国特許出願の全内容を参照することにより本願に援用する。
 110         :現場機器
 111         :機器銘板
 120         :文字認識装置
 121         :撮影画像
 205         :撮像装置
 310         :抽出部
 320         :決定部
 330         :認識部
 410         :文字列識別部
 420         :特定文字列判定部
 430         :バウンディングボックス判定部
 440         :機器データルール
 610         :高さ情報算出部
 620         :幅情報算出部
 630         :処理領域決定部
 701~707     :バウンディングボックス
 710、720     :処理領域
 810         :処理領域文字認識部
 820         :判断部
 911~915     :処理領域

Claims (12)

  1.  撮影画像から、特定の文字列を抽出する抽出部と、
     抽出された特定の文字列の位置に応じて、前記撮影画像の処理領域を決定する決定部と、
     前記撮影画像のうち、決定された処理領域を対象に、文字認識を行う認識部と
     を有する文字認識装置。
  2.  前記抽出部が前記特定の文字列を抽出する際の文字認識において用いる第1ライブラリの文字種は、前記認識部が文字認識を行う際に用いる第2ライブラリの文字種よりも少ない、請求項1に記載の文字認識装置。
  3.  前記特定の文字列に含まれる文字の構成を規定した判断情報を保持する第1保持部を有し、
     前記抽出部は、前記撮影画像を対象に前記第1ライブラリを用いて文字認識を行い、認識した文字から文字列を識別し、識別した文字列のうち前記判断情報により規定された文字の構成を含む文字列を判定することで、前記特定の文字列を抽出する、請求項2に記載の文字認識装置。
  4.  前記判断情報は、前記文字の構成として、文字数、文字種、文字順序のいずれかを規定する、請求項3に記載の文字認識装置。
  5.  前記決定部は、前記抽出部が前記特定の文字列を抽出する際に用いたバウンディングボックスを含む領域であって、前記バウンディングボックスの高さの所定倍の高さを有し、かつ、前記特定の文字列の位置から前記撮影画像の端部位置までの幅を有する領域を、前記処理領域として決定する、請求項4に記載の文字認識装置。
  6.  認識情報リストを保持する第2保持部を有し、
     前記認識部は、認識した文字が前記認識情報リストに含まれるいずれかの認識情報に該当するかを判断する、請求項1に記載の文字認識装置。
  7.  前記認識部により前記認識情報リストに含まれるいずれかの認識情報に該当すると判断された場合、前記抽出された特定の文字列を、該当する認識情報に対応するデータとして出力する出力部を有する、請求項6に記載の文字認識装置。
  8.  複数の前記処理領域の一部が互いに重複することで、複数の前記処理領域に同じ認識情報が含まれる場合、前記出力部は、前記同じ認識情報の位置により近い特定の文字列を、前記同じ認識情報に対応するデータとして出力する、請求項7に記載の文字認識装置。
  9.  前記認識情報リストに含まれる認識情報は機器のラベルであり、少なくとも、機種名、製造番号、製造年月、冷媒種類、冷媒量、圧縮機能力のいずれか1つを含む、請求項6に記載の文字認識装置。
  10.  前記撮影画像は、機器に付された銘板を撮影した画像である、請求項1に記載の文字認識装置。
  11.  撮影画像から、特定の文字列を抽出する抽出工程と、
     抽出された特定の文字列の位置に応じて、前記撮影画像の処理領域を決定する決定工程と、
     前記撮影画像のうち、決定された処理領域を対象に文字認識を行う認識工程と
     を有する文字認識方法。
  12.  撮影画像から、特定の文字列を抽出する抽出工程と、
     抽出された特定の文字列の位置に応じて、前記撮影画像の処理領域を決定する決定工程と、
     前記撮影画像のうち、決定された処理領域を対象に文字認識を行う認識工程と
     をコンピュータに実行させるための文字認識プログラム。
PCT/JP2022/023216 2021-07-01 2022-06-09 文字認識装置、文字認識方法及び文字認識プログラム WO2023276599A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202280043601.3A CN117501324A (zh) 2021-07-01 2022-06-09 字符识别装置、字符识别方法以及字符识别程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-109954 2021-07-01
JP2021109954A JP7235995B2 (ja) 2021-07-01 2021-07-01 文字認識装置、文字認識方法及び文字認識プログラム

Publications (1)

Publication Number Publication Date
WO2023276599A1 true WO2023276599A1 (ja) 2023-01-05

Family

ID=84690284

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/023216 WO2023276599A1 (ja) 2021-07-01 2022-06-09 文字認識装置、文字認識方法及び文字認識プログラム

Country Status (3)

Country Link
JP (1) JP7235995B2 (ja)
CN (1) CN117501324A (ja)
WO (1) WO2023276599A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060251A (ja) * 1999-08-23 2001-03-06 Fuji Photo Film Co Ltd 画像処理装置、画像処理方法、及び記録媒体
JP2007233913A (ja) * 2006-03-03 2007-09-13 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2019220069A (ja) * 2018-06-22 2019-12-26 株式会社東芝 カード番号認識装置およびカード番号認識方法
JP2020184275A (ja) * 2019-05-09 2020-11-12 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI607387B (zh) * 2016-11-25 2017-12-01 財團法人工業技術研究院 字符辨識系統及其字符辨識方法
JP7225548B2 (ja) * 2018-03-22 2023-02-21 セイコーエプソン株式会社 画像処理装置、画像処理方法および画像処理プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060251A (ja) * 1999-08-23 2001-03-06 Fuji Photo Film Co Ltd 画像処理装置、画像処理方法、及び記録媒体
JP2007233913A (ja) * 2006-03-03 2007-09-13 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2019220069A (ja) * 2018-06-22 2019-12-26 株式会社東芝 カード番号認識装置およびカード番号認識方法
JP2020184275A (ja) * 2019-05-09 2020-11-12 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Also Published As

Publication number Publication date
JP2023007011A (ja) 2023-01-18
JP7235995B2 (ja) 2023-03-09
CN117501324A (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
US11138425B2 (en) Named entity recognition with convolutional networks
KR100411697B1 (ko) 문자판독방법및주소판독방법
CN112699775B (zh) 基于深度学习的证件识别方法、装置、设备及存储介质
EP3916634A2 (en) Text recognition method and device, and electronic device
KR20120066397A (ko) 텍스트 영역의 추출 방법, 추출 장치 및 이를 이용한 번호판 자동 인식 시스템
CN111931771B (zh) 票据内容识别方法、装置、介质及电子设备
CN111754536A (zh) 图像标注方法、装置、电子设备及存储介质
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN113342249B (zh) 可实时预览的内容管理方法、装置、设备及存储介质
CN108376333B (zh) 文件审批方法、介质、装置和计算设备
WO2023276599A1 (ja) 文字認識装置、文字認識方法及び文字認識プログラム
KR101768914B1 (ko) 지오 태깅 방법, 지오 태깅 장치 및 이를 수행하는 프로그램을 기록하는 기록매체
CN112417687A (zh) 智能审图方法及相关装置
CN113762109A (zh) 一种文字定位模型的训练方法及文字定位方法
CN113850220A (zh) 文本透视变换方法及设备
CN108170838B (zh) 话题演变的可视化展现方法、应用服务器及计算机可读存储介质
JP4160206B2 (ja) 文字認識装置を利用したデータベース登録方法
JP2019175317A (ja) 文字認識装置、文字認識方法およびプログラム
CN115048599A (zh) 企业产品的界面配置方法、装置、设备及介质
CN114724170A (zh) 一种bom的生成方法、装置、电子设备及存储介质
CN112395450A (zh) 图片文字检测方法、装置、计算机设备及存储介质
CN113762292A (zh) 一种训练数据获取方法、装置及模型训练方法、装置
CN113939711A (zh) 多边形检索方法
JP7533615B2 (ja) 表示制御装置、表示制御方法、及びプログラム
JP4213558B2 (ja) 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22832756

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202280043601.3

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 07/05/2024)