WO2015189941A1 - 情報処理装置、情報処理方法、および、プログラム - Google Patents

情報処理装置、情報処理方法、および、プログラム Download PDF

Info

Publication number
WO2015189941A1
WO2015189941A1 PCT/JP2014/065508 JP2014065508W WO2015189941A1 WO 2015189941 A1 WO2015189941 A1 WO 2015189941A1 JP 2014065508 W JP2014065508 W JP 2014065508W WO 2015189941 A1 WO2015189941 A1 WO 2015189941A1
Authority
WO
WIPO (PCT)
Prior art keywords
symbol
handwritten
image
graphic
recognition
Prior art date
Application number
PCT/JP2014/065508
Other languages
English (en)
French (fr)
Inventor
康広 光原
克夫 深沢
真樹 稲見
Original Assignee
株式会社Pfu
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Pfu filed Critical 株式会社Pfu
Priority to PCT/JP2014/065508 priority Critical patent/WO2015189941A1/ja
Publication of WO2015189941A1 publication Critical patent/WO2015189941A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition

Definitions

  • the present invention relates to an information processing apparatus, an information processing method, and a program.
  • Patent Document 1 a technique for converting handwritten characters and handwritten figures written on a whiteboard or paper into a composite data format is disclosed (see Patent Document 1).
  • Patent Document 1 has a grouping process of formal and abbreviated combinations of character graphic data, and a grouping process of combinations including the groups. There is a problem in that symbols cannot be automatically recognized, a group of character and graphic data constituting the symbols can be grouped, and a tag representing the symbol cannot be assigned.
  • the present invention has been made in view of the above problems, and by automatically recognizing a symbol from a handwritten graphic image and making it meaningful, it is possible to search for a handwritten graphic image and classify and sort it.
  • An object is to provide an information processing apparatus, an information processing method, and a program.
  • an information processing apparatus applies, from a handwritten image, a graphic recognition processing unit that recognizes at least a handwritten graphic, and the handwritten graphic recognized by the graphic recognition processing unit.
  • a symbol recognizing unit for recognizing a symbol applicable to the handwritten graphic a tag adding unit for adding a tag representing the symbol to the symbol graphic data related to the symbol recognized by the symbol recognizing unit, and the symbol
  • the symbol graphic data and symbol display means for displaying the tag are provided.
  • the information processing method includes a graphic recognition processing step for recognizing at least a handwritten graphic from a handwritten image, and the handwritten graphic based on the handwritten graphic recognized in the graphic recognition processing step.
  • a symbol recognizing step for recognizing a symbol applicable to the graphic a tag adding step for adding a tag representing the symbol to the symbol graphic data regarding the symbol recognized in the symbol recognizing step, and the symbol graphic data regarding the symbol, And a symbol display step for displaying the tag.
  • the program according to the present invention is based on a figure recognition processing step for recognizing at least a handwritten figure from a handwritten image, and based on the handwritten figure recognized in the figure recognition processing step.
  • a symbol recognizing step for recognizing a corresponding symbol a tag adding step for adding a tag representing the symbol to the symbol graphic data related to the symbol recognized in the symbol recognizing step, the symbol graphic data regarding the symbol, and
  • FIG. 1 is a system block diagram showing an outline of the present embodiment.
  • FIG. 2 is a hardware configuration diagram illustrating an example of the configuration of the information processing apparatus according to the present embodiment.
  • FIG. 3 is a hardware configuration diagram illustrating an example of the configuration of the information processing apparatus according to the present embodiment.
  • FIG. 4 is a flowchart illustrating an example of processing in the information processing apparatus according to the present embodiment.
  • FIG. 5 is a diagram showing an example of a non-character / non-line drawing area in the present embodiment.
  • FIG. 6 is a diagram illustrating an example of stroke extraction in the present embodiment.
  • FIG. 7 is a diagram illustrating an example of long stroke separation in the present embodiment.
  • FIG. 8 is a diagram illustrating an example of user character recognition in the present embodiment.
  • FIG. 1 is a system block diagram showing an outline of the present embodiment.
  • FIG. 2 is a hardware configuration diagram illustrating an example of the configuration of the information processing apparatus according to the present embodiment.
  • FIG. 3 is a
  • FIG. 9 is a diagram illustrating an example of user character recognition in the present embodiment.
  • FIG. 10 is a diagram illustrating an example of user character recognition in the present embodiment.
  • FIG. 11 is a diagram illustrating an example of handwritten character recognition in the present embodiment.
  • FIG. 12 is a diagram illustrating an example of handwritten character recognition in the present embodiment.
  • FIG. 13 is a diagram illustrating an example of handwritten character recognition in the present embodiment.
  • FIG. 14 is a diagram illustrating an example of handwritten character recognition in the present embodiment.
  • FIG. 15 is a flowchart illustrating an example of processing in the information processing apparatus of this embodiment.
  • FIG. 16 is a flowchart illustrating an example of processing in the information processing apparatus of this embodiment.
  • FIG. 16 is a flowchart illustrating an example of processing in the information processing apparatus of this embodiment.
  • FIG. 17 is a diagram illustrating an example of discrimination of the arrow at the leading end of the lead line in the present embodiment.
  • FIG. 18 is a flowchart illustrating an example of processing in the information processing apparatus of the present embodiment.
  • FIG. 19 is a flowchart illustrating an example of processing in the information processing apparatus of the present embodiment.
  • FIG. 20 is a diagram illustrating an example of feature data according to the present embodiment.
  • FIG. 21 is a diagram showing an example of a symbol recognition dictionary in the present embodiment.
  • FIG. 22 is a diagram illustrating an example of symbol selection in the present embodiment.
  • FIG. 23 is a diagram showing an example of layout change in the present embodiment.
  • FIG. 24 is a diagram showing an example of layout change in the present embodiment.
  • FIG. 1 is a system block diagram showing an outline of the present embodiment.
  • the present embodiment schematically has the following basic features.
  • a portion surrounded by a dotted line is a portion outside the system (information processing apparatus).
  • the information processing apparatus of the present embodiment uses a whiteboard handwritten image captured by a camera or a scanner via a scanner interface (I / F) to input a handwritten image of paper or whiteboard.
  • a handwritten image of the read paper is acquired (step S1).
  • the information processing device varies in image quality depending on the shooting environment, unlike scanner input. Therefore, for the handwritten image of the whiteboard photographed by the camera, and / or Camera image processing such as brightness correction is performed to improve the image quality to the same extent as the handwritten image read by the scanner (step S2).
  • the information processing apparatus performs media separation processing on the input handwritten image, an image including only characters (handwritten character image), an image including only graphics (handwritten graphic image), a photograph,
  • the image is sorted into other images such as painting (step S3).
  • the information processing apparatus performs free (free pitch) handwritten character recognition on the handwritten character image, and converts the image content into text (step S4). At this time, the information processing apparatus also determines whether the image sorted as the handwritten character image is a character, separates an image that is not a character (non-character image), and sends it to the graphic extraction process.
  • the information processing apparatus receives two of the handwritten graphic image sorted by the media separation process and the non-character image output by the free handwritten process. After the synthesis, graphic extraction such as circles and straight lines is performed (step S5).
  • the information processing apparatus performs symbol recognition based on the character recognition result and the graphic extraction result, groups the handwritten graphic images described in the original handwritten image for each symbol, and adds “ Semantic information such as “automobile” or “camera” is given (step S6).
  • Semantic information such as “automobile” or “camera” is given (step S6).
  • the information processing apparatus can replace the original handwritten graphic image with the corresponding illustration data based on the given semantic information.
  • the information processing apparatus performs screen display of the character, figure, symbol, and other image data obtained by the above processing and confirmation of the recognition result by the application (step S7).
  • the information processing apparatus converts these image data into a composite data format such as Microsoft (registered trademark) PowerPoint (registered trademark) and exports it to an external application (step S8).
  • the information processing apparatus (computer) 100 of the present embodiment is generally configured to be communicably connected to an image input device 200.
  • the communication includes remote communication such as wired / wireless communication via the network 300 (not shown) as an example.
  • Each unit of the information processing apparatus 100 is connected to be communicable via an arbitrary communication path.
  • the image input device 200 may be an image reading apparatus such as an image scanner or a photographing device such as a digital camera.
  • the image reading apparatus is a document scanner apparatus of a manual insertion paper feed system (continuous paper feed mechanism (CDF) system), a document scanner apparatus of an automatic paper feed mechanism system (ADF system), a flat bed type document. It may be a scanner device or an overhead image reading device.
  • CDF continuous paper feed mechanism
  • ADF automatic paper feed mechanism system
  • flat bed type document It may be a scanner device or an overhead image reading device.
  • the information processing apparatus 100 generally includes a control unit 102, a storage unit 106, an input / output unit 112 (a display 112-1, a mouse 112-2, and a keyboard 112-3. Etc.).
  • the information processing apparatus 100 may further include an input / output interface unit (not shown) that connects the input / output unit 112 and the control unit 102.
  • the information processing apparatus 100 may further include a communication interface unit (not shown), and is connected to an external apparatus (for example, the image input device 200) via the communication interface unit so as to be able to communicate with each other.
  • the communication interface unit is an interface connected to a communication device such as an antenna and / or a router connected to a communication line and / or a telephone line and has a function of performing communication control between the information processing device 100 and the network 300. You may have.
  • the communication interface unit may be a NIC or the like. Further, these units are communicably connected via an arbitrary communication path.
  • the control unit 102 may control the input / output unit 112, the input / output interface unit, and the communication interface unit.
  • the storage unit 106 stores various databases, tables, and / or files (such as the image database 106a and the symbol recognition dictionary database 106b).
  • the storage unit 106 is a storage unit, and for example, a memory such as a RAM / ROM, a fixed disk device such as a hard disk, a flexible disk, and / or an optical disk can be used.
  • the storage unit 106 stores computer programs and the like for giving instructions to a CPU (Central Processing Unit) and performing various processes.
  • CPU Central Processing Unit
  • the image database 106a stores images.
  • the image may be acquired by the image input device 200.
  • the image may be downloaded from an external device or the like via the network 300.
  • the image database 106a includes a handwritten image, a handwritten character image, a handwritten graphic image, a partial image of the handwritten image, a simple image included in the handwritten image, a combined image obtained by combining the partial images of the handwritten image, Other images related to non-character / non-line drawing areas, character / line drawing images, long stroke images, long stroke removed images, simple character images, non-character images, symbol graphic data relating to symbols applicable to hand-drawn graphics, tags representing symbols, hand writing Character data relating to characters and / or composite data in a composite data format (for example, Microsoft (registered trademark), PowerPoint (registered trademark), etc.) may be stored.
  • a composite data format for example, Microsoft (registered trademark), PowerPoint (registered trademark), etc.
  • the symbol recognition dictionary database 106b stores a symbol recognition dictionary including feature data, name, and category data for each symbol.
  • the input / output unit 112 performs data input / output (I / O).
  • the input / output unit 112 may be, for example, a key input unit, a touch panel, a control pad (for example, a touch pad and a game pad), a mouse 112-2, a keyboard 112-3, and a microphone.
  • the input / output unit 112 may be a display unit (for example, a display 112-1, a monitor, a touch panel, or the like including a liquid crystal or an organic EL) that displays a display screen of an application or the like.
  • the input / output unit 112 may be an audio output unit (for example, a speaker) that outputs audio information as audio.
  • the control unit 102 includes a CPU that controls the information processing apparatus 100 in an integrated manner.
  • the control unit 102 has an internal memory for storing a control program, a program defining various processing procedures, and necessary data, and performs information processing for executing various processes based on these programs.
  • control unit 102 is roughly divided into an image acquisition unit 102a, an image display unit 102b, a graphic recognition processing unit 102c, a symbol recognition unit 102d, a symbol candidate display unit 102e, a tag addition unit 102f, a symbol display unit 102g, and a search unit. 102h, a grouping unit 102i, an editing unit 102j, a correction unit 102k, and a conversion unit 102m.
  • the image acquisition unit 102a acquires an image.
  • the image acquisition unit 102a may acquire a handwritten image.
  • the image acquisition unit 102a may acquire an image acquired by the image input device 200.
  • the image acquisition unit 102a may acquire an image read by the image input device 200.
  • the image acquisition unit 102a may acquire an image captured by the image input device 200.
  • the image acquisition unit 102a may store an image or the like in the image database 106a.
  • the image acquisition unit 102a may cause the image (original) to be read by the image input device 200 and acquire an image. That is, the image acquisition unit 102a may acquire the image by controlling the image input device 200.
  • the image acquisition unit 102a may perform image processing (for example, projective conversion processing, image cut-out processing, and / or brightness correction processing) on the acquired image.
  • the image display unit 102b displays an image.
  • the image display unit 102b may display a handwritten image.
  • the image display unit 102b may display an image stored in the image database 106a.
  • the image display unit 102b may display an image (a handwritten image, a handwritten character image, and / or a handwritten graphic image) on the input / output unit 112.
  • the figure recognition processing unit 102c recognizes at least a handwritten figure from the handwritten image.
  • the graphic recognition processing unit 102c may further recognize a handwritten character from the handwritten image.
  • the recognition range is determined by a predetermined operation on the handwritten image displayed by the image display unit 102b
  • the graphic recognition processing unit 102c recognizes the handwritten image corresponding to the recognized range as a handwritten character image. Then, a handwritten character may be recognized from the handwritten character image.
  • the predetermined operation may be a tracing operation.
  • the graphic recognition processing unit 102c when the graphic recognition processing unit 102c cannot determine whether the handwritten image is a handwritten character image or a handwritten graphic image, the graphic recognition processing unit 102c separates the partial image into a plurality of simple images and recognizes them as handwritten characters in the vicinity.
  • a simple image that has nothing, and a partial image that is clearly unrecognizable as a character by performing character recognition on the partial image is regarded as a handwritten graphic image, and is combined with the identified handwritten graphic image.
  • Handwritten graphics may be recognized.
  • the graphic recognition processing unit 102c may automatically recognize the handwritten character string and the handwritten graphic written in the handwritten character graphic image. Further, when a device in which the display screen and the tablet are integrated is used, the graphic recognition processing unit 102c displays character graphic images of unrecognized portions or erroneously recognized portions in the character graphic data displayed on the screen. The recognition range may be determined by tracing with a finger or a pen to recognize characters.
  • the symbol recognition unit 102d recognizes a symbol applicable to the handwritten figure.
  • the symbol recognition unit 102d may recognize a symbol applicable to the handwritten graphic based on the handwritten graphic recognized by the graphic recognition processing unit 102c. Further, the symbol recognition unit 102d may recognize a symbol applicable to the handwritten graphic based on the handwritten character and the handwritten graphic recognized by the graphic recognition processing unit 102c.
  • the symbol recognition unit 102d acquires a plurality of symbol candidates that apply to the handwritten graphic based on the handwritten graphic recognized by the graphic recognition processing unit 102c, and selects one symbol candidate from the plurality of symbol candidates.
  • the symbol candidate may be recognized as a symbol.
  • the symbol recognition unit 102d may recognize the selected symbol candidate as a symbol.
  • the symbol recognition unit 102d may recognize a symbol applicable to the handwritten graphic by identifying the context of the handwritten character recognized from the entire handwritten image by the graphic recognition processing unit 102c.
  • the symbol recognizing unit 102d is based on the handwritten character. You may recognize the symbol applicable to the said handwritten figure.
  • the symbol recognizing unit 102d acquires a plurality of symbol candidates applicable to the handwritten graphic based on the handwritten graphic recognized by the graphic recognition processing unit 102c, and stores the symbol recognition dictionary stored in the symbol recognition dictionary database 106b. Based on the above, one symbol candidate may be selected from a plurality of symbol candidates, and the symbol candidate may be recognized as a symbol.
  • the symbol recognition unit 102d may automatically recognize a symbol that is a superordinate concept from a combination of automatically recognized character graphic data. Further, the symbol recognition unit 102d may automatically select one symbol from a plurality of symbol candidates.
  • the symbol candidate display unit 102e displays symbol candidates.
  • the symbol candidate display unit 102e causes the input / output unit 112 to display a plurality of symbol candidates acquired by the symbol recognition unit 102d.
  • the tag assigning unit 102f assigns a tag representing the symbol to the symbol graphic data related to the symbol recognized by the symbol recognizing unit 102d. That is, the tag assigning unit 102f may attach a tag representing the symbol to the block of character graphic data constituting the automatically recognized symbol.
  • the symbol display unit 102g displays symbol graphic data and / or tags related to symbols.
  • the symbol display unit 102g may further display character data related to handwritten characters. That is, the symbol display unit 102g may display character graphic data or a block of character graphic data constituting a symbol and its tag.
  • the symbol display unit 102g may display symbol graphic data, character data, and / or a tag converted into the composite data format.
  • the search unit 102h searches for a tag representing character data and / or a symbol based on the keyword.
  • the search unit 102h may search for a tag representing character data and / or a symbol based on the keyword. That is, the search unit 102h may search for tags representing characters and symbols using a search key designated by the user. Thereby, the handwritten character graphic data can be searched, or the classification of the character graphic data can be determined and sorted.
  • the grouping unit 102i groups a plurality of configurations into groups.
  • the grouping unit 102i may be grouped into groups configured based on the character data related to the symbols displayed by the symbol display unit 102g and the symbol graphic data related to the symbols.
  • the grouping unit 102i is a group configured based on a handwritten character image related to a handwritten character related to the symbol displayed by the symbol display unit 102g and a handwritten graphic image related to a handwritten graphic corresponding to the symbol. May be grouped together.
  • the editing unit 102j performs editing in units of groups when an editing instruction is input for each component of the group.
  • the editing may be movement, enlargement / reduction, rotation, and / or deletion. That is, the editing unit 102j groups character and graphic data blocks constituting a symbol, and can perform editing such as movement, enlargement / reduction, rotation, and / or deletion for each group using a mouse, a pen, a finger, or the like. It may be.
  • the correction unit 102k When a correction instruction is input to the symbol graphic data, character data, and / or tag displayed by the symbol display unit 102g, the correction unit 102k performs symbol graphic data and character data based on the correction instruction. And / or modify the tag. That is, the correction unit 102k may correct the displayed character graphic data and / or the character graphic data block and the tag constituting the symbol. In addition, the correction unit 102k may function as a user interface for changing to another candidate in confirmation correction.
  • the conversion unit 102m converts symbol graphic data, character data, and / or tags related to symbols into a composite data format. That is, the conversion unit 102m may convert the character graphic data, the character graphic data block constituting the symbol, and the tag thereof into a composite data format including text and / or graphics.
  • an information processing apparatus (computer) 100 is roughly connected to an image input device (digital camera) 200 so as to be communicable, and an input / output unit 112 (tablet integrated display 112-4). And may be configured.
  • the information processing apparatus 100 may be configured as a tablet PC with a camera that has been widely used in recent years, in which a digital camera 200 is built in a housing and an integrated display (touch panel) 112 is provided. .
  • FIG. 4 is a flowchart illustrating an example of processing in the information processing apparatus 100 according to the present embodiment.
  • the graphic recognition processing unit 102c recognizes a region (non-character / non-line drawing region) that is neither a character nor a line drawing from the handwritten image acquired by the image acquisition unit 102a, and the original hand
  • a non-character / non-line drawing area for example, a photograph or a filled area
  • a character / line drawing image are separated from the document image (step SA-1).
  • the line width is measured for each pixel, and the line width exceeds the threshold value. Or, it is realized by recognizing the area where the line width statistic (dispersion etc.) exceeds the threshold as non-character / non-line drawing area and separating (excluding) non-character / non-line drawing area from the handwritten image. Also good.
  • the graphic recognition processing unit 102c acquires the other image related to the separated non-character / non-line drawing area (step SA-1: other (photograph, fill, etc.)), and ends the process.
  • step SA-1 character / line drawing image
  • FIG. 5 is a diagram showing an example of a non-character / non-line drawing area in the present embodiment.
  • the non-character / non-line drawing area in the present embodiment may be a filled area surrounded by a dotted line.
  • the graphic recognition processing unit 102c obtains vector data by vectorizing the entire character / line drawing image (converting it into vector data) (step SA-2).
  • the vectorization may be performed by thinning the entire image and then approximating the thinned point sequence by a polygonal line.
  • vectorization may be performed by using the methods described in Hideyuki Tamura (supervised) “Introduction to Computer Image Processing” and “Computer Image Processing: Applied Practice 2” (both published by Soken).
  • the graphic recognition processing unit 102c extracts a stroke from the character / line drawing image based on the tracking of the vector data (step SA-3).
  • the stroke extraction is based on the tracking of the vector data.
  • the tracking may be started from the end point of the vector, and the pair having the smallest angle may be connected at the branch point of the vector. Thereby, one handwritten line written by a human can be represented as one stroke.
  • FIG. 6 is a diagram illustrating an example of stroke extraction in the present embodiment.
  • the graphic recognition processing unit 102c separates the extracted stroke larger than the character size (long stroke image) from the character / line drawing image (long stroke separation) (step SA-4). This is because the character is read when the character and the figure are in contact with each other in the image. In this way, by separating (erasing) long line segments, it is possible to read a character in contact with the leader line or the surrounding frame.
  • the graphic recognition processing unit 102c acquires the separated long stroke image (step SA-4: long stroke image), and shifts the processing to step SA-7.
  • the graphic recognition processing unit 102c acquires a long stroke removal image obtained by separating the long stroke image (step SA-4: long stroke removal image), and shifts the processing to step SA-5.
  • FIG. 7 is a diagram illustrating an example of long stroke separation in the present embodiment.
  • the vertical line at the right end in the image shown in the left diagram of FIG. 7 may be regarded as a long stroke, and the long stroke image may be separated as shown in the right diagram of FIG.
  • the long stroke separation may cause the figure to be regarded as a character, but such a figure may be further recognized in the character recognition process and re-recognized as a figure. .
  • the graphic recognition processing unit 102c performs labeling on the long stroke removed image (step SA-5).
  • the graphic recognition processing unit 102c separates the labeled region below the character size (small size) and the other (other than small size) and labeled regions into different images (step SA-6).
  • an isolated region labeled with a character size (small size) or smaller is a candidate for handwritten characters, and this is used as input for handwritten character recognition processing.
  • step SA-6 other than small size
  • the graphic recognition processing unit 102c combines the long stroke image and the image based on the area labeled other than the small size (step SA-7), and shifts the processing to step SA-12.
  • step SA-6 small size (character image)
  • step SA-8 shifts the processing to step SA-8.
  • the graphic recognition processing unit 102c performs character string extraction on the isolated region labeled as a small size in the free handwritten character recognition processing (step SA-8).
  • the graphic recognition processing unit 102c separates the simple character image related to the extracted character string from the simple image (step SA-9).
  • step SA-9 simple image
  • the graphic recognition processing unit 102c synthesizes a handwritten graphic image (graphic image) based on the long stroke image and the area labeled other than the small size and the simple image (step SA-12), and performs processing. finish.
  • step SA-9 simple character image
  • step SA-10 character recognition on the simple character image
  • FIGS. 8 to 10 are diagrams showing an example of user character recognition in the present embodiment.
  • the user traces the location of the handwritten image to be recognized with a finger.
  • the image display unit 102b changes the color of the handwritten image in the area traced with the finger by the user.
  • the graphic recognition processing unit 102c recognizes the handwritten character image corresponding to the recognized portion as the handwritten character image, and recognizes the handwritten character from the handwritten character image.
  • the image display unit 102b displays the character data related to the handwritten characters recognized by the graphic recognition processing unit 102c on the touch panel 112, and the user determines that there is no problem and moves the area with his / her finger.
  • the figure recognition processing unit 102c may confirm character recognition.
  • the figure recognition processing unit 102c may cancel the character recognition.
  • the UI is used when re-recognizing characters, and the user can intuitively re-recognize by tracing with a finger.
  • the graphic recognition processing unit 102c separates the non-character image and the handwritten character image (character image) from the simple character image based on the character recognition for the simple character image (step SA-11).
  • the graphic recognition processing unit 102c acquires the separated non-character image as a handwritten graphic image (graphic image) (step SA-11: non-character image), and ends the process.
  • the graphic recognition processing unit 102c acquires the separated character image as a final character recognition result (step SA-11: character image), and ends the processing.
  • step SA-11 character image
  • FIGS. 11 to 14 are diagrams illustrating an example of handwritten character recognition in the present embodiment.
  • a small size (character) and a labeled area are separated from a non-small (other than small size) and a labeled area.
  • a portion represented in bold is an area labeled as a small size (character).
  • character string extraction is performed on a small size (character) and a labeled area (dotted line area) so as not to misread anything other than characters.
  • the character string extraction may be a method of integrating labels at a distance within a threshold. At this time, if integration is not performed beyond the circles and ruled lines in the original image, erroneous integration can be reduced.
  • a character having one character and a character that can be expressed by one stroke is recognized as a non-character.
  • the character recognition result score is low due to character recognition such as OCR, and those that are clearly determined not to be characters (regions in which the dotted line is removed from the dotted line region in FIG. 13) are also non- It is recognized as a character.
  • FIG. 15 is a flowchart illustrating an example of processing in the information processing apparatus 100 according to the present embodiment.
  • the graphic recognition processing unit 102c acquires vector data by vectorizing the graphic image (converting it into vector data) (step SB-1).
  • the graphic recognition processing unit 102c extracts a stroke from the graphic image based on the tracking of the vector data (step SB-2).
  • the graphic recognition processing unit 102c extracts a straight line using vector data (step SB-3).
  • the graphic recognition processing unit 102c may perform straight line extraction by performing straight line discrimination by applying a least square method to the arrangement of vector data.
  • the graphic recognition processing unit 102c further extracts a circle by using vector data to acquire graphic data (step SB-4), and ends the process.
  • the graphic recognition processing unit 102c may perform the circle extraction by performing the circle determination by applying the least square method to the arrangement of the vector data.
  • FIG. 16 is a flowchart illustrating an example of processing in the information processing apparatus 100 according to the present embodiment.
  • the symbol recognizing unit 102d separates the lead line graphic data and the graphic data other than the lead lines from the graphic data acquired by the graphic recognition processing unit 102c (step SC-1).
  • step SC-1 leader line
  • the symbol recognition unit 102d acquires graphic data other than the separated lead lines (step SC-1: other than lead lines), and shifts the processing to step SC-2.
  • a condition of “consisting of one stroke”, “the stroke length is equal to or greater than a threshold”, or “one or both ends of the stroke is an arrow” is used. It may be determined by use.
  • the determination of the arrow for example, it may be determined as an arrow line when there is a vector whose length is within a threshold value at the tip of the stroke and the angle formed with the stroke tip is within the threshold.
  • FIG. 17 is a diagram illustrating an example of discrimination of the arrow at the leading end of the lead line in the present embodiment.
  • the vector of the leading end of the lead line is used to determine the arrow based on the angle ⁇ between the lead line and the arrow head and the length L of the arrow head. Also good.
  • the symbol recognizing unit 102d may recognize other elements (such as a table) in the graphic data other than the leader line, and recognize those elements (other elements) as necessary.
  • the other elements and the remaining graphic data are separated (step SC-2).
  • the symbol recognizing unit 102d acquires the separated other element as an element other than the symbol (step SC-2: other element), and ends the process.
  • step SC-2 the symbol recognition unit 102d acquires the separated remaining graphic data (step SC-2: remaining), and shifts the processing to step SC-3.
  • the symbol recognizing unit 102d groups the remaining graphic data by grouping the remaining graphic data by repeating integration for each stroke (step SC-3).
  • the integration processing may be a method in which strokes within a distance within a threshold are combined until the vertical and horizontal sizes when grouped exceed the upper limit.
  • line drawings often come into contact with other graphics, and may be combined in units of strokes instead of in units of labels.
  • step SC-3 symbol candidate (grouped graphic data)
  • the symbol recognizing unit 102d acquires the remaining graphic data that failed to be grouped as an element other than the symbol (step SC-3: element for which integration failed) The process is terminated.
  • the symbols constituting the symbol can be grouped by the same method as the character string extraction. Good.
  • FIG. 18 is a flowchart illustrating an example of processing in the information processing apparatus 100 according to the present embodiment.
  • the symbol recognizing unit 102d performs feature calculation (feature extraction) of the grouped remaining graphic data which are symbol candidates (step SD-1).
  • FIG. 19 is a flowchart illustrating an example of processing in the information processing apparatus 100 according to the present embodiment.
  • the symbol recognizing unit 102d performs inclination correction using vector data on the remaining grouped graphic data (step SE-1). Thereby, it is possible to increase the accuracy by suppressing the influence of the inclination.
  • the symbol recognizing unit 102d normalizes the outer size of the grouped remaining graphic data (step SE-2).
  • the symbol recognizing unit 102d converts the grouped remaining graphic data into an image (step SE-3).
  • the symbol recognition unit 102d performs feature extraction on the converted image (step SE-4), and ends the process.
  • the graphic data may be returned to the image for matching.
  • the symbol recognition unit 102d performs pattern matching processing by collating the symbol recognition dictionary (information about symbols) stored in the symbol recognition dictionary database 106b with the feature data calculated by feature calculation (step SD). -2).
  • a symbol may be regarded as one character, and distance calculation similar to character recognition may be performed.
  • FIG. 20 is a diagram illustrating an example of feature data according to the present embodiment.
  • the feature data in the present embodiment is characterized by dividing the length of line segments constituting the figure for each direction, and in addition, the vector angle, the number of intersections, and It is characterized by the number of circles included.
  • the distance between the feature data and the symbol recognition dictionary may be calculated, and the result may be obtained in order from the closest.
  • FIG. 21 is a diagram showing an example of a symbol recognition dictionary in the present embodiment.
  • the symbol recognition dictionary in the present embodiment is composed of three elements of feature data, symbol name, and symbol category, and registers as many as the number of symbols to be recognized.
  • distances may be calculated with the features obtained from the symbols of the input image and all the features stored in the dictionary, and the symbol names may be obtained in ascending order of distance. .
  • the distance calculation in the present embodiment may be performed, for example, by obtaining the Euclidean distance between the input feature and the dictionary feature. At this time, symbols whose distance exceeds the threshold may be rejected, and only symbols whose distance is within the threshold may be arranged in order of increasing distance value as symbol candidates. In the present embodiment, when the distance values of all symbols registered in the dictionary exceed the threshold value, it may be considered that there is no matching symbol.
  • the feature data is a feature obtained from a grouped figure
  • the symbol name is a name of the figure and may be a result of symbol recognition.
  • the symbol category may be information indicating a scene where the symbol is used.
  • the order of symbols including the category in the symbol category may be increased. This can be realized by obtaining symbol candidates and then sorting again in descending order of the number of matches with the symbol category.
  • the symbol recognizing unit 102 d captures the character string, and / or Alternatively, the context of the handwritten character recognized from the recognition target (the entire handwritten image) is identified, and the context is captured (step SD-3).
  • the symbol recognizing unit 102d obtains a symbol recognition result by performing a final determination of selecting one symbol that matches the grouped remaining graphic data based on the captured character string and / or context ( Step SD-4), the process ends.
  • the present embodiment if there is a letter “TV” in the vicinity of a picture that is a handwritten figure, it may be regarded as a picture on the television. Further, in this embodiment, even if some characters are misread like “Telehi” or “Telebi” instead of “TV”, if the picture as a handwritten figure is similar to “TV”, The character may be regarded as “television” and the handwritten figure may be regarded as a television picture. Thereby, even if a character or a figure is ambiguous, a correct character and symbol can be output. Further, in the present embodiment, if there are many medical terms in the character recognition result in the entire handwritten image, it may be identified by narrowing down to medical related symbols.
  • FIG. 22 is a diagram illustrating an example of symbol selection in the present embodiment.
  • FIG. 23 and FIG. 23 and 24 are diagrams showing an example of layout change in the present embodiment.
  • the character image and / or graphic image displayed on the screen can be moved in symbol units.
  • the layout of the original input data can be changed.
  • the vector data may be moved in conjunction with the user operation, and it is easy to obtain the original image corresponding to the vector data, so the image data can be moved in symbol units. It is good.
  • a recognition range without a keyboard and a mouse for handwritten character / graphic data with messy entries can be specified and recognized by the user.
  • a handwritten character graphic image can be converted into electronic data in a composite data format more efficiently than when a human manually recreates the image.
  • the user can search for a handwritten character graphic image including the character string and a corresponding portion by designating the search character string.
  • a handwritten character graphic image including the character string and a corresponding portion by designating the search character string.
  • a handwritten character graphic image be simply converted into composite data format electronic data, but also a symbol is automatically recognized from a combination of character graphic data, and a meaning is given to the symbol data. It is possible to search for handwritten text and graphic images or to perform classification and sorting.
  • the information processing apparatus 100 may perform processing in a stand-alone form, performs processing in response to a request from a client terminal (which is a separate housing from the information processing apparatus 100), and the processing result is You may make it return to a client terminal.
  • a client terminal which is a separate housing from the information processing apparatus 100
  • all or a part of the processes described as being automatically performed can be manually performed, or all of the processes described as being manually performed can be performed.
  • a part can be automatically performed by a known method.
  • processing procedure, control procedure, specific name, information including parameters such as registration data or search conditions for each processing, screen examples, or database configuration shown in the description and drawings are specially noted. It can be changed arbitrarily except for.
  • each illustrated component is functionally conceptual and does not necessarily need to be physically configured as illustrated.
  • each apparatus of the information processing apparatus 100 and the image input device 200 may be entirely or arbitrarily part of a CPU (Central Processing Unit).
  • a CPU Central Processing Unit
  • it may be realized by a program interpreted and executed by the CPU, or may be realized as hardware by wired logic.
  • the program is recorded on a non-transitory computer-readable recording medium including a programmed instruction for causing a computer to execute the method according to the present invention, which will be described later.
  • 100 mechanically read. That is, in the storage unit 106 such as a ROM or an HDD (Hard Disk Drive), a computer program for giving instructions to the CPU in cooperation with an OS (Operating System) and performing various processes is recorded. This computer program is executed by being loaded into the RAM, and constitutes a control unit in cooperation with the CPU.
  • OS Operating System
  • the computer program may be stored in an application program server connected to the information processing apparatus 100 and the image input device 200 via an arbitrary network, and if necessary, all or a part thereof. Can also be downloaded.
  • the program according to the present invention may be stored in a computer-readable recording medium, or may be configured as a program product.
  • the “recording medium” includes a memory card, USB memory, SD card, flexible disk, magneto-optical disk, ROM, EPROM, EEPROM, CD-ROM, MO, DVD, and Blu-ray (registered trademark). It includes any “portable physical medium” such as Disc.
  • program is a data processing method described in an arbitrary language or description method, and may be in any form such as source code or binary code. Note that the “program” is not necessarily limited to a single configuration, but is distributed in the form of a plurality of modules and libraries, or in cooperation with a separate program typified by an OS (Operating System). Including those that achieve the function.
  • OS Operating System
  • a well-known structure and procedure can be used about the specific structure for reading a recording medium in each apparatus shown in embodiment, a reading procedure, or the installation procedure after reading.
  • Various databases and the like (image database 106a and symbol recognition dictionary database 106b) stored in the storage unit 106 are a memory device such as a RAM or a ROM, a fixed disk device such as a hard disk, a flexible disk, and / or an optical disk.
  • the storage means may store various programs, tables, databases, and / or web page files used for various processes and website provision.
  • the information processing apparatus 100 may be configured as an information processing apparatus such as a known personal computer or workstation, or may be configured by connecting an arbitrary peripheral device to the information processing apparatus.
  • the information processing apparatus 100 may be realized by installing software (including programs, data, and the like) that causes the information processing apparatus to implement the method of the present invention.
  • the specific form of distribution / integration of the devices is not limited to that shown in the figure, and all or a part of them may be functional or physical in arbitrary units according to various additions or according to functional loads. Can be distributed and integrated. That is, the above-described embodiments may be arbitrarily combined and may be selectively implemented.
  • an information processing apparatus and information processing that can automatically search for a handwritten graphic image and perform classification and sorting by automatically recognizing a symbol from the handwritten graphic image according to the present invention and giving it a meaning.
  • the method and the program can be implemented in many industrial fields, particularly in the field of image processing that handles images read by a scanner or a camera, and are extremely useful.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

 本発明は、手書画像から、少なくとも手書図形を認識し、図形認識処理ステップにて認識された手書図形に基づいて、当該手書図形に当てはまるシンボルを認識し、認識されたシンボルに関するシンボル図形データに、当該シンボルを表すタグを付与し、シンボルに関するシンボル図形データ、および、タグを表示させる。

Description

情報処理装置、情報処理方法、および、プログラム
 本発明は、情報処理装置、情報処理方法、および、プログラムに関する。
 従来から、手書きの文字および図形を活用する技術が開示されている。
 ここで、ホワイトボードまたは紙に記入された手書文字および手書図形を複合データ形式に変換する技術が開示されている(特許文献1を参照)。
特許第4340076号公報
 しかしながら、従来の変換システム(特許文献1等)においては、文字図形データのそれぞれ正式または略式の組み合わせのグループ化、および、そのグループを含む組み合わせのグループ化処理を有するものの、文字図形データの組み合わせからシンボルを自動認識し、シンボルを構成する文字図形データの塊をグループ化し、そのシンボルを表すタグを付与することができないという問題点を有していた。
 本発明は、上記問題点に鑑みてなされたもので、手書図形画像から、シンボルを自動認識し、これに意味を持たせることで、手書図形画像の検索や分類仕分けを行うことができる情報処理装置、情報処理方法、および、プログラムを提供することを目的とする。
 このような目的を達成するため、本発明に係る情報処理装置は、手書画像から、少なくとも手書図形を認識する図形認識処理手段と、前記図形認識処理手段により認識された前記手書図形に基づいて、当該手書図形に当てはまるシンボルを認識するシンボル認識手段と、前記シンボル認識手段により認識された前記シンボルに関するシンボル図形データに、当該シンボルを表すタグを付与するタグ付与手段と、前記シンボルに関する前記シンボル図形データ、および、前記タグを表示させるシンボル表示手段と、を備えたことを特徴とする。
 また、本発明に係る情報処理方法は、手書画像から、少なくとも手書図形を認識する図形認識処理ステップと、前記図形認識処理ステップにて認識された前記手書図形に基づいて、当該手書図形に当てはまるシンボルを認識するシンボル認識ステップと、前記シンボル認識ステップにて認識された前記シンボルに関するシンボル図形データに、当該シンボルを表すタグを付与するタグ付与ステップと、前記シンボルに関する前記シンボル図形データ、および、前記タグを表示させるシンボル表示ステップと、を含むことを特徴とする。
 また、本発明に係るプログラムは、手書画像から、少なくとも手書図形を認識する図形認識処理ステップと、前記図形認識処理ステップにて認識された前記手書図形に基づいて、当該手書図形に当てはまるシンボルを認識するシンボル認識ステップと、前記シンボル認識ステップにて認識された前記シンボルに関するシンボル図形データに、当該シンボルを表すタグを付与するタグ付与ステップと、前記シンボルに関する前記シンボル図形データ、および、前記タグを表示させるシンボル表示ステップと、を実行させることを特徴とする。
 この発明によれば、文字を含まない図形だけのイメージであっても、図形データの分類を決定し仕分けを行うことができる。
図1は、本実施形態の概要を示すシステムブロック図である。 図2は、本実施形態に係る情報処理装置の構成の一例を示すハードウェア構成図である。 図3は、本実施形態に係る情報処理装置の構成の一例を示すハードウェア構成図である。 図4は、本実施形態の情報処理装置における処理の一例を示すフローチャートである。 図5は、本実施形態における非文字・非線画領域の一例を示す図である。 図6は、本実施形態におけるストローク抽出の一例を示す図である。 図7は、本実施形態における長ストローク分離の一例を示す図である。 図8は、本実施形態におけるユーザ文字認識の一例を示す図である。 図9は、本実施形態におけるユーザ文字認識の一例を示す図である。 図10は、本実施形態におけるユーザ文字認識の一例を示す図である。 図11は、本実施形態における手書文字認識の一例を示す図である。 図12は、本実施形態における手書文字認識の一例を示す図である。 図13は、本実施形態における手書文字認識の一例を示す図である。 図14は、本実施形態における手書文字認識の一例を示す図である。 図15は、本実施形態の情報処理装置における処理の一例を示すフローチャートである。 図16は、本実施形態の情報処理装置における処理の一例を示すフローチャートである。 図17は、本実施形態における引き出し線先端の矢印の判別の一例を示す図である。 図18は、本実施形態の情報処理装置における処理の一例を示すフローチャートである。 図19は、本実施形態の情報処理装置における処理の一例を示すフローチャートである。 図20は、本実施形態の特徴データの一例を示す図である。 図21は、本実施形態におけるシンボル認識辞書の一例を示す図である。 図22は、本実施形態におけるシンボル選択の一例を示す図である。 図23は、本実施形態におけるレイアウト変更の一例を示す図である。 図24は、本実施形態におけるレイアウト変更の一例を示す図である。
 以下に、本発明に係る情報処理装置、情報処理方法、および、プログラムの実施形態を図面に基づいて詳細に説明する。なお、この実施形態により本発明が限定されるものではない。
[本発明の実施形態の概要]
 以下、本発明の実施形態の概要について図1を参照して説明し、その後、本実施形態の構成および処理等について詳細に説明する。図1は、本実施形態の概要を示すシステムブロック図である。本実施形態は、概略的に、以下の基本的特徴を有する。なお、図1において、点線で囲んだ部分は、システム(情報処理装置)外の部分である。
 すなわち、本実施形態の情報処理装置は、紙またはホワイトボードの手書画像を入力するために、カメラで撮影したホワイトボードの手書画像、または、スキャナインターフェース(I/F)を介してスキャナで読み取った紙の手書画像を取得する(ステップS1)。
 そして、情報処理装置は、カメラ入力の場合はスキャナ入力とは異なり撮影環境により画質にばらつきがでるため、カメラで撮影したホワイトボードの手書画像に対して、ホワイトボードの切り出し、および/または、明るさの補正などのカメラ画像処理を行い、スキャナで読み取った手書画像と同等程度に画質を改善する(ステップS2)。
 そして、情報処理装置は、入力した手書画像に対してメディア分離処理によって、文字のみが存在する画像(手書文字画像)、図形のみが存在する画像(手書図形画像)、および、写真や塗りつぶしなどそれ以外の画像に分別する(ステップS3)。
 そして、情報処理装置は、手書文字画像に対してはフリー(フリーピッチ)手書文字認識を行い、画像内容のテキスト化を行う(ステップS4)。この際、情報処理装置は、手書文字画像として分別した画像に対して文字か否かの判断も行い、文字ではない画像(非文字画像)を分離して図形抽出処理に送る。
 また、情報処理装置は、手書図形画像に対する図形抽出処理においては、メディア分離処理によって分別された手書図形画像と、フリー手書処理が出力した非文字画像との2つを受け取り、内部で合成した後、円や直線などの図形抽出を行う(ステップS5)。
 そして、情報処理装置は、文字認識結果と図形抽出結果とを元にシンボル認識を行い、元の手書画像に記載されている手書図形画像をシンボルごとにグループ化して、それらのグループに「自動車」または「カメラ」などの意味情報を与える(ステップS6)。ここで、情報処理装置は、与えた意味情報に基づいて、元の手書図形画像を、該当するイラストデータに置き換えることも可能である。
 そして、情報処理装置は、以上の処理によって得られた文字、図形、シンボル、およびそれ以外の画像データを、アプリケーションにて画面表示および認識結果の確認などを行う(ステップS7)。
 そして、情報処理装置は、これらの画像データをMicrosoft(登録商標) PowerPoint(登録商標)のような複合データ形式に変換し、外部アプリにエクスポートする(ステップS8)。
[本実施形態の構成]
 以下、本発明の実施形態に係る情報処理装置100の構成の一例について図2および図3を参照して説明し、その後、本実施形態の処理等について詳細に説明する。但し、以下に示す実施形態は、本発明の技術思想を具体化するための情報処理装置100を例示するものであって、本発明をこの情報処理装置100に特定することを意図するものではなく、請求の範囲に含まれるその他の実施形態の情報処理装置100にも等しく適用し得るものである。例えば、本実施形態で例示する情報処理装置100における機能分散の形態は以下に限られず、同様の効果や機能を奏し得る範囲において、任意の単位で機能的または物理的に分散・統合して構成することができる。図2および図3は、本実施形態に係る情報処理装置100の構成の一例を示すハードウェア構成図である。
 図2に示すように、本実施形態の情報処理装置(コンピュータ)100は、概略的に、画像入力デバイス200と通信可能に接続して構成される。ここで、通信には、一例として、ネットワーク300(図示せず)を介した有線・無線通信等の遠隔通信等を含む。また、これら情報処理装置100の各部は任意の通信路を介して通信可能に接続されている。
 ここで、画像入力デバイス200は、イメージスキャナ等の画像読取装置のほか、デジタルカメラ等の撮影デバイスであってもよい。本実施形態において、画像読取装置は、手挿入給紙方式(連送給紙機構(CDF)方式)のドキュメントスキャナ装置、自動給紙機構方式(ADF方式)のドキュメントスキャナ装置、フラットベッド式のドキュメントスキャナ装置、または、オーバーヘッド型画像読取装置等であってもよい。
 まず、図2に示すように、情報処理装置100は、概略的に、制御部102と、記憶部106と、入出力部112(ディスプレイ112-1、マウス112-2、および、キーボード112-3等)と、を備えて構成される。また、情報処理装置100は、更に、入出力部112と制御部102とを接続する入出力インターフェース部(図示せず)を備えていてもよい。
 また、情報処理装置100は、更に、通信インターフェース部(図示せず)を備えていてもよく、通信インターフェース部を介して、外部装置(例えば、画像入力デバイス200等)と相互に通信可能に接続されていてもよい。通信インターフェース部は、通信回線および/または電話回線等に接続されるアンテナおよび/またはルータ等の通信装置に接続されるインターフェースであり情報処理装置100とネットワーク300との間における通信制御を行う機能を有していてもよい。ここで、通信インターフェース部は、NIC等であってもよい。また、これら各部は任意の通信路を介して通信可能に接続されている。なお、制御部102は、入出力部112、入出力インターフェース部、および、通信インターフェース部を制御してもよい。
 ここで、記憶部106は、各種のデータベース、テーブル、および/または、ファイル(画像データベース106a、および、シンボル認識辞書データベース106b等)などを格納する。記憶部106は、ストレージ手段であり、例えばRAM・ROM等のメモリ、ハードディスクのような固定ディスク装置、フレキシブルディスク、および/または、光ディスク等を用いることができる。記憶部106には、CPU(Central Processing Unit)に命令を与え各種処理を行うためのコンピュータプログラム等が記録されている。
 これら記憶部106の各構成要素のうち、画像データベース106aは、画像を記憶する。ここで、画像は、画像入力デバイス200にて取得されたものであってもよい。また、画像は、ネットワーク300を介して外部装置等からダウンロードしたものであってもよい。
 また、画像データベース106aは、手書画像、手書文字画像、手書図形画像、手書画像の部分画像、手書画像に含まれる単純画像、手書画像の部分画像同士を結合した結合画像、非文字・非線画領域に関するその他画像、文字・線画画像、長ストローク画像、長ストローク除去画像、単純文字画像、非文字画像、手書図形に当てはまるシンボルに関するシンボル図形データ、シンボルを表すタグ、手書文字に関する文字データ、および/または、複合データ形式(例えば、Microsoft(登録商標) PowerPoint(登録商標)等)の複合データ等を記憶してもよい。
 また、シンボル認識辞書データベース106bは、シンボル毎に特徴データ、名称、および、カテゴリデータを含むシンボル認識辞書を記憶する。
 また、入出力部112は、データの入出力(I/O)を行う。ここで、入出力部112は、例えば、キー入力部、タッチパネル、コントロールパッド(例えば、タッチパッド、および、ゲームパッド等)、マウス112-2、キーボード112-3、および、マイク等であってもよい。また、入出力部112は、アプリケーション等の表示画面を表示する表示部(例えば、液晶または有機EL等から構成されるディスプレイ112-1、モニタ、および、タッチパネル等)であってもよい。また、入出力部112は、音声情報を音声として出力する音声出力部(例えば、スピーカ等)であってもよい。
 また、制御部102は、情報処理装置100を統括的に制御するCPU等からなる。制御部102は、制御プログラムと各種の処理手順等を規定したプログラムと所要データとを格納するための内部メモリを有し、これらプログラムに基づいて種々の処理を実行するための情報処理を行う。
 ここで、制御部102は、大別して、画像取得部102a、画像表示部102b、図形認識処理部102c、シンボル認識部102d、シンボル候補表示部102e、タグ付与部102f、シンボル表示部102g、検索部102h、グループ化部102i、編集部102j、修正部102k、および、変換部102mを備える。
 画像取得部102aは、画像を取得する。ここで、画像取得部102aは、手書画像を取得してもよい。また、画像取得部102aは、画像入力デバイス200にて取得された画像を取得してもよい。また、画像取得部102aは、画像入力デバイス200にて読み取られた画像を取得してもよい。また、画像取得部102aは、画像入力デバイス200にて撮像された画像を取得してもよい。また、画像取得部102aは、画像等を画像データベース106aに格納してもよい。
 ここで、画像取得部102aは、媒体(原稿)を画像入力デバイス200にて読取らせ、画像を取得してもよい。すなわち、画像取得部102aは、画像入力デバイス200を制御して、画像を取得してもよい。また、画像取得部102aは、取得した画像に画像処理(例えば、射影変換処理、画像切り出し処理、および/または、明るさ補正処理等)を行ってもよい。
 画像表示部102bは、画像を表示させる。ここで、画像表示部102bは、手書画像を表示させてもよい。また、画像表示部102bは、画像データベース106aに記憶された画像を表示させてもよい。また、画像表示部102bは、画像(手書画像、手書文字画像、および/または、手書図形画像等)を入出力部112に表示させてもよい。
 図形認識処理部102cは、手書画像から、少なくとも手書図形を認識する。また、図形認識処理部102cは、更に、手書画像から、手書文字を認識してもよい。また、図形認識処理部102cは、画像表示部102bにより表示された手書画像に対して所定操作により認識範囲が決定された場合、当該認識範囲に対応する手書画像を手書文字画像と認定して、当該手書文字画像から手書文字を認識してもよい。ここで、所定操作は、なぞる操作であってもよい。
 また、図形認識処理部102cは、手書画像の部分画像が手書文字画像か手書図形画像か判別できない場合、部分画像を複数の単純画像に分離し、周辺に手書文字と認識されるものが無い単純画像、および、部分画像に対して文字認識を実行して明らかに文字と認識できない部分画像を、手書図形画像とみなし、判別済みの手書図形画像に結合し、結合画像から手書図形を認識してもよい。
 すなわち、図形認識処理部102cは、手書文字図形画像に記された手書文字列および手書図形を自動認識してもよい。また、図形認識処理部102cは、表示画面とタブレットが一体化した機器を用いた場合、画面に表示された文字図形データのうち、未認識の箇所、または、誤認識の箇所の文字図形イメージを、指またはペンでなぞって認識範囲を決定し、文字認識してもよい。
 シンボル認識部102dは、手書図形に当てはまるシンボルを認識する。ここで、シンボル認識部102dは、図形認識処理部102cにより認識された手書図形に基づいて、当該手書図形に当てはまるシンボルを認識してもよい。また、シンボル認識部102dは、図形認識処理部102cにより認識された手書文字および手書図形に基づいて、当該手書図形に当てはまるシンボルを認識してもよい。
 また、シンボル認識部102dは、図形認識処理部102cにより認識された手書図形に基づいて、当該手書図形に当てはまる複数のシンボル候補を取得し、複数のシンボル候補から1つのシンボル候補を選択して、当該シンボル候補をシンボルと認識してもよい。また、シンボル認識部102dは、シンボル候補表示部102eにより表示された複数のシンボル候補から1つのシンボル候補が選択された場合、選択されたシンボル候補をシンボルと認識してもよい。
 また、シンボル認識部102dは、図形認識処理部102cにより手書画像全体から認識された手書文字のコンテキストを識別することで、当該手書図形に当てはまるシンボルを認識してもよい。また、シンボル認識部102dは、図形認識処理部102cにより手書図形と認識された手書図形画像周囲に、手書文字と認識された手書文字画像がある場合、手書文字に基づいて、当該手書図形に当てはまるシンボルを認識してもよい。
 また、シンボル認識部102dは、図形認識処理部102cにより認識された手書図形に基づいて、当該手書図形に当てはまる複数のシンボル候補を取得し、シンボル認識辞書データベース106bに記憶されたシンボル認識辞書に基づいて、複数のシンボル候補から1つのシンボル候補を選択して、当該シンボル候補をシンボルと認識してもよい。
 すなわち、シンボル認識部102dは、自動認識された文字図形データの組み合わせから、上位概念となるシンボルを自動認識してもよい。また、シンボル認識部102dは、複数シンボル候補から1つのシンボルを自動選択していてもよい。
 シンボル候補表示部102eは、シンボル候補を表示させる。ここで、シンボル候補表示部102eは、シンボル認識部102dにより取得された複数のシンボル候補を入出力部112に表示させる。
 タグ付与部102fは、シンボル認識部102dにより認識されたシンボルに関するシンボル図形データに、当該シンボルを表すタグを付与する。すなわち、タグ付与部102fは、自動認識されたシンボルを構成する文字図形データの塊にそのシンボルを表すタグを付与してもよい。
 シンボル表示部102gは、シンボルに関するシンボル図形データ、および/または、タグを表示させる。ここで、シンボル表示部102gは、更に、手書文字に関する文字データを表示させてもよい。すなわち、シンボル表示部102gは、文字図形データ、または、シンボルを構成する文字図形データの塊とそのタグとをそれぞれ表示してもよい。また、シンボル表示部102gは、複合データ形式に変換されたシンボル図形データ、文字データ、および/または、タグを表示してもよい。
 検索部102hは、キーワードに基づいて、文字データ、および/または、シンボルを表すタグを検索する。ここで、検索部102hは、キーワードが指定された場合、当該キーワードに基づいて、文字データ、および/または、シンボルを表すタグを検索してもよい。すなわち、検索部102hは、ユーザの指定した検索キーにより、文字およびシンボルを表すタグを検索してもよい。これにより、手書文字図形データを検索すること、または、当該文字図形データの分類を決定し仕分けを行うことができる。
 グループ化部102iは、複数の構成をグループにグループ化する。グループ化部102iは、シンボル表示部102gにより表示されたシンボルに係る文字データと、シンボルに関するシンボル図形データと、に基づいて構成されるグループにグループ化してもよい。また、グループ化部102iは、シンボル表示部102gにより表示されたシンボルに係る手書文字に関する手書文字画像と、シンボルに対応する手書図形に関する手書図形画像と、に基づいて構成されるグループにグループ化してもよい。
 編集部102jは、グループの各構成に対して編集指示が入力された場合、グループ単位で編集を行う。ここで、編集は、移動、拡縮、回転、および/または、削除等であってもよい。すなわち、編集部102jは、シンボルを構成する文字図形データの塊をグループ化し、マウス、ペンまたは指などを使って、グループ単位で移動や拡縮、回転、および/または、削除などの編集が行えるようにしてもよい。
 修正部102kは、シンボル表示部102gにより表示されたシンボル図形データ、文字データ、および/または、タグに対して、修正指示が入力された場合、当該修正指示に基づいて、シンボル図形データ、文字データ、および/または、タグを修正する。すなわち、修正部102kは、表示された文字図形データ、および/または、シンボルを構成する文字図形データの塊とそのタグを修正してもよい。また、修正部102kは、確認修正において、他の候補に変更するユーザーインターフェースとして機能してもよい。
 変換部102mは、シンボルに関するシンボル図形データ、文字データ、および/または、タグを、複合データ形式に変換する。すなわち、変換部102mは、文字図形データ、シンボルを構成する文字図形データの塊とそのタグとを、テキストおよび/または図形等を含む複合データ形式に変換してもよい。
 また、図3に示すように、情報処理装置(コンピュータ)100は、概略的に、画像入力デバイス(デジタルカメラ)200と通信可能に接続され、入出力部112(タブレット一体型ディスプレイ112-4)と、を備えて構成されてもよい。例えば、本実施形態において、情報処理装置100は、デジタルカメラ200を筐体内部に内蔵し、一体型ディスプレイ(タッチパネル)112を備えた、近年普及しているカメラ付きタブレットPCとして構成されてもよい。
[本実施形態の処理]
 上述した構成の情報処理装置100で実行される処理の一例について、図4乃至図24を参照して説明する。
[メディア分離処理]
 まず、本実施形態におけるファイル一覧表示処理の一例について、図4乃至図14を参照して説明する。図4は、本実施形態の情報処理装置100における処理の一例を示すフローチャートである。
 図4に示すように、まず、図形認識処理部102cは、画像取得部102aにより取得された手書画像から、文字でも線画でもない領域(非文字・非線画領域)を認識し、元の手書画像から非文字・非線画領域(例えば、写真または塗りつぶし領域等)と文字・線画画像とを分離する(ステップSA-1)。
 ここで、本実施形態における非文字・非線画領域の分離方法としては、例えば、手書画像全体を二値化した後、各画素に対して線幅を測定し、線幅が閾値を越える領域、または、線幅の統計量(分散等)が閾値を越える領域を、非文字・非線画領域と認識し、手書画像から非文字・非線画領域を分離する(除く)ことで実現してもよい。
 そして、図形認識処理部102cは、分離した非文字・非線画領域に関するその他画像を取得し(ステップSA-1:その他(写真、塗りつぶしなど))、処理を終了する。
 一方、図形認識処理部102cは、分離した文字・線画画像を取得し(ステップSA-1:文字・線画画像)、処理をステップSA-2に移行させる。
 ここで、図5を参照して本実施形態における非文字・非線画領域の一例について説明する。図5は、本実施形態における非文字・非線画領域の一例を示す図である。
 図5に示すように、本実施形態における非文字・非線画領域とは、点線で囲まれたような塗りつぶし領域であってもよい。
 図4に戻り、図形認識処理部102cは、文字・線画画像全体をベクトル化(ベクトルデータ化)することで、ベクトルデータを取得する(ステップSA-2)。ここで、ベクトル化は、画像全体を細線化した後、細線化の点列を折れ線近似する方法を使用してもよい。例えば、ベクトル化は、田村秀行(監修)の「コンピュータ画像処理入門」および「コンピュータ画像処理:応用実践編2」(ともに総研出版)等に記載された手法を用いてもよい。
 そして、図形認識処理部102cは、ベクトルデータの追跡に基づいて、文字・線画画像から、ストローク抽出を行う(ステップSA-3)。ここで、ストローク抽出は、ベクトルデータの追跡に基づくものであり、ベクトルの端点から追跡を開始して、ベクトルの分岐点では、最も角度の小さいペアを接続してもよい。これにより、ヒトが書いた手書線1本を、1本のストロークとして表すことができる。
 ここで、図6を参照して、本実施形態におけるストローク抽出の一例について説明する。図6は、本実施形態におけるストローク抽出の一例を示す図である。
 図6では、(1)-(4)の4本のストロークが抽出しており、ヒトが書いた横線に対応する(1)のストロークを抽出している。
 図4に戻り、図形認識処理部102cは、抽出したストロークのうち、文字サイズよりも大きいもの(長ストローク画像)を文字・線画画像から分離(長ストローク分離)する(ステップSA-4)。これは、画像中で、文字と図形とが接触している場合に、文字を読み取るためである。このように、長い線分を分離(消去)することで、引き出し線または囲み枠と接触した文字を読み取ることが可能となる。
 そして、図形認識処理部102cは、分離した長ストローク画像を取得し(ステップSA-4:長ストローク画像)、処理をステップSA-7に移行させる。
 一方、図形認識処理部102cは、長ストローク画像を分離した長ストローク除去画像を取得し(ステップSA-4:長ストローク除去画像)、処理をステップSA-5に移行させる。
 ここで、図7を参照して、本実施形態における長ストローク分離の一例について説明する。図7は、本実施形態における長ストローク分離の一例を示す図である。
 図7左図に示す画像中の右端の縦線を長ストロークと見なし、図7右図に示すように、長ストローク画像を分離してもよい。ここで、長ストローク分離により、図形が文字と見なされるようになる場合があるが、このような図形は、文字認識処理の中でさらに判別を行って、図形であると認識し直してもよい。
 図4に戻り、図形認識処理部102cは、長ストローク除去画像に対し、ラベリングを行う(ステップSA-5)。
 そして、図形認識処理部102cは、文字サイズ以下(小サイズ)とラベリングした孤立領域と、それ以外(小サイズ以外)とラベリングした領域とを別の画像に分離する(ステップSA-6)。ここで、本実施形態において、文字サイズ(小サイズ)以下とラベリングした孤立領域が、手書文字の候補となるものであり、これを手書文字認識処理の入力としている。
 そして、図形認識処理部102cは、小サイズ以外とラベリングした領域を取得し(ステップSA-6:小サイズ以外)、処理をステップSA-7に移行させる。
 そして、図形認識処理部102cは、長ストローク画像、および、小サイズ以外とラベリングした領域に基づく画像を合成し(ステップSA-7)、処理をステップSA-12に移行させる。
 一方、図形認識処理部102cは、小サイズとラベリングした孤立領域を取得し(ステップSA-6:小サイズ(文字画像))、処理をステップSA-8に移行させる。
 そして、図形認識処理部102cは、フリー手書文字認識処理において、小サイズとラベリングした孤立領域に対し、文字列抽出を行う(ステップSA-8)。
 そして、図形認識処理部102cは、抽出した文字列に関する単純文字画像と、単純画像とを分離する(ステップSA-9)。
 そして、図形認識処理部102cは、分離した単純画像を取得し(ステップSA-9:単純画像)、処理をステップSA-12に移行させる。
 そして、図形認識処理部102cは、長ストローク画像および小サイズ以外とラベリングした領域に基づく画像と、単純画像とに基づく手書図形画像(図形画像)を合成し(ステップSA-12)、処理を終了する。
 一方、図形認識処理部102cは、分離した単純文字画像を取得し(ステップSA-9:単純文字画像)、単純文字画像に対して文字認識を行う(ステップSA-10)。
 ここで、図8乃至図10を参照して、本実施形態におけるユーザ文字認識の一例について説明する。図8乃至図10は、本実施形態におけるユーザ文字認識の一例を示す図である。
 図8に示すように、画像表示部102bにより入出力部(タッチパネル)112に表示された手書画像に対して、ユーザは、認識したい手書画像の場所を指でなぞる。
 それにより、図9に示すように、画像表示部102bは、ユーザにより指でなぞられた領域にある手書画像の色を変更させる。そして、図形認識処理部102cは、認識箇所に対応する手書画像を手書文字画像と認定して、当該手書文字画像から手書文字を認識する。
 そして、図10に示すように、画像表示部102bは、図形認識処理部102cにより認識された手書文字に関する文字データをタッチパネル112に表示させ、ユーザが問題ないと判断して領域内を指でタップした場合、図形認識処理部102cは、文字認識を確定させてもよい。
 また、ユーザが領域外をタップした場合、図形認識処理部102cは、文字認識をキャンセルしてもよい。このように、本実施形態においては、文字を再認識するときにUIを利用し、ユーザが指でなぞることで直感的に再認識を行うことを可能としている。
 図4に戻り、図形認識処理部102cは、単純文字画像に対する文字認識に基づいて、単純文字画像から非文字画像と手書文字画像(文字画像)との分離を行う(ステップSA-11)。
 そして、図形認識処理部102cは、分離した非文字画像を手書図形画像(図形画像)として取得し(ステップSA-11:非文字画像)、処理を終了する。
 一方、図形認識処理部102cは、分離した文字画像を最終的な文字認識結果として取得し(ステップSA-11:文字画像)、処理を終了する。このように、本実施形態においては、文字以外の画像の再分離を行ってもよい。
 ここで、図11乃至図14を参照して、本実施形態における手書文字認識の一例について説明する。図11乃至図14は、本実施形態における手書文字認識の一例を示す図である。
 図11に示すように、長ストローク除去画像に対し、ラベリングすることにより、小サイズ(文字)とラベリングした領域と、それ以外(小サイズ以外)とラベリングした領域とを分離している。なお、図11において、太字で表されている部分が、小サイズ(文字)とラベリングした領域である。
 そして、図12に示すように、文字以外のものを誤読しないように、小サイズ(文字)とラベリングした領域(点線領域)に対して文字列抽出を行う。ここで、文字列抽出は、閾値以内の距離にあるラベルを統合する方法であってもよい。この際、元の画像にある円および罫線などを超えて統合しないようにすれば、誤統合を減らすことが可能となる。
 そして、図13に示すように、文字数が1文字、且つ、1ストロークで表現できる文字(図12の点線領域から点線を除去した領域)は、非文字と認識している。また、図14に示すように、OCR等の文字認識により、文字認識結果の得点が低く、明らかに文字ではないと判断されたもの(図13の点線領域から点線を除去した領域)も、非文字と認識している。
[図形抽出処理]
 次に、本実施形態における図形抽出処理の一例について、図15を参照して説明する。図15は、本実施形態の情報処理装置100における処理の一例を示すフローチャートである。
 図15に示すように、まず、図形認識処理部102cは、図形画像をベクトル化(ベクトルデータ化)することで、ベクトルデータを取得する(ステップSB-1)。
 そして、図形認識処理部102cは、ベクトルデータの追跡に基づいて、図形画像から、ストローク抽出を行う(ステップSB-2)。
 そして、図形認識処理部102cは、ベクトルデータを使って直線の抽出を行う(ステップSB-3)。ここで、図形認識処理部102cは、ベクトルデータの並びに対し最小二乗法をかけることで直線の判別を行うことで、直線の抽出を行ってもよい。
 そして、図形認識処理部102cは、更に、ベクトルデータを使って円の抽出を行うことで、図形データを取得し(ステップSB-4)、処理を終了する。ここで、図形認識処理部102cは、ベクトルデータの並びに対し最小二乗法をかけることで円の判別を行うことで、円の抽出を行ってもよい。
[シンボル分離処理]
 更に、本実施形態におけるシンボル分離処理の一例について、図16および図17を参照して説明する。図16は、本実施形態の情報処理装置100における処理の一例を示すフローチャートである。
 図16に示すように、まず、シンボル認識部102dは、図形認識処理部102cにより取得された図形データから、引き出し線図形データと引き出し線以外図形データとを分離する(ステップSC-1)。
 そして、シンボル認識部102dは、分離した引き出し線図形データを、明らかにシンボル化する対象とならないもの、すなわち、シンボル以外の要素として取得し(ステップSC-1:引き出し線)、処理を終了する。
 一方、シンボル認識部102dは、分離した引き出し線以外図形データを取得し(ステップSC-1:引き出し線以外)、処理をステップSC-2に移行させる。
 ここで、引き出し線の判別には、例えば、「1本のストロークで構成される」、「ストローク長が閾値以上」、または、「ストローク端の片方または両端が矢印となっている」という条件を使用して判別してもよい。ここで、矢印の判別には、例えば、ストローク先端に長さが閾値以内のベクトルがあり、且つ、ストローク先端となす角度が閾値以内のときに矢印の線と判別してもよい。
 ここで、図17を参照して、本実施形態における引き出し線先端の矢印の判別の一例について説明する。図17は、本実施形態における引き出し線先端の矢印の判別の一例を示す図である。
 図17に示すように、本実施形態においては、引き出し線先端のベクトルデータを用いて、引き出し線と矢頭とのなす角度θ、および、矢頭の長さLに基づいて、矢印の判別を行ってもよい。
 図16に戻り、シンボル認識部102dは、引き出し線以外図形データにはその他の要素(表など)が書かれている場合もあるため、必要に応じてそれらの要素(その他要素)を認識し、その他要素と残り図形データとを分離する(ステップSC-2)。
 そして、シンボル認識部102dは、分離したその他要素を、シンボル以外の要素として取得し(ステップSC-2:その他要素)、処理を終了する。
 一方、シンボル認識部102dは、分離した残り図形データを取得し(ステップSC-2:残り)、処理をステップSC-3に移行させる。
 そして、シンボル認識部102dは、残り図形データに対し、ストロークごとに統合を繰り返すことで、残り図形データをグループ化(統合処理)する(ステップSC-3)。ここで、統合処理は、閾値以内の距離にあるストローク同士を、グループ化したときの縦横サイズが上限を超えるまで結合していく方法であってもよい。また、本実施形態において、線画は、他の図形と接触することが多いため、ラベル単位ではなくストローク単位で結合してもよい。
 そして、シンボル認識部102dは、残り図形データのグループ化(統合処理)に成功した場合、グループ化した残り図形データをシンボル候補として取得し(ステップSC-3:シンボル候補(グループ化した図形データ))、処理を終了する。
 一方、シンボル認識部102dは、残り図形データのグループ化(統合処理)に失敗した場合、グループ化に失敗した残り図形データをシンボル以外の要素として取得し(ステップSC-3:統合失敗した要素)、処理を終了する。
 このように、本実施形態におけるシンボル分離処理では、まず与えられた図形画像の中から明らかにシンボルでないものを分離した後、文字列抽出と同様の手法でシンボルを構成する図形をグループ化してもよい。
[シンボル認識処理]
 更に、本実施形態におけるシンボル認識処理の一例について、図18乃至図24を参照して説明する。図18は、本実施形態の情報処理装置100における処理の一例を示すフローチャートである。
 図18に示すように、シンボル認識部102dは、シンボル候補であるグループ化した残り図形データの特徴計算(特徴抽出)を行う(ステップSD-1)。
 ここで、図19を参照して、本実施形態における特徴抽出処理の一例について説明する。図19は、本実施形態の情報処理装置100における処理の一例を示すフローチャートである。
 図19に示すように、まず、シンボル認識部102dは、グループ化した残り図形データに対して、ベクトルデータを使った傾き補正を行う(ステップSE-1)。これにより、傾きの影響を抑えて精度を上げることができる。
 そして、シンボル認識部102dは、グループ化した残り図形データの外形サイズを正規化する(ステップSE-2)。
 そして、シンボル認識部102dは、グループ化した残り図形データを画像に変換する(ステップSE-3)。
 そして、シンボル認識部102dは、変換画像に対して特徴抽出を行い(ステップSE-4)、処理を終了する。このように、本実施形態においては、図形データを画像に戻してマッチングしてもよい。
 図18に戻り、シンボル認識部102dは、シンボル認識辞書データベース106bに記憶されたシンボル認識辞書(シンボルに関する情報)と、特徴計算で算出した特徴データと、の照合によるパターンマッチ処理を行う(ステップSD-2)。なお、本実施形態においては、シンボルを1文字とみなし、文字認識と同様の距離計算を行ってもよい。
 ここで、図20を参照して、本実施形態のシンボル認識(パターンマッチ)のための特徴データの一例について説明する。図20は、本実施形態の特徴データの一例を示す図である。
 図20に示すように、本実施形態における特徴データは、図形を構成する線分の長さを方向ごとに分けて特徴としたものであり、併せて、ベクトルの角度、交差点の数、および、含まれる円の数を特徴としている。ここで、本実施形態においては、これら特徴データに対して、シンボル認識辞書との距離計算を行い、もっとも近いものから順に結果としてもよい。
 また、図21を参照して、本実施形態におけるシンボル認識辞書の一例について説明する。図21は、本実施形態におけるシンボル認識辞書の一例を示す図である。
 図21に示すように、本実施形態におけるシンボル認識辞書は、特徴データ、シンボル名称、および、シンボルカテゴリの3つの要素からなり、これを認識したいシンボルの数だけ登録している。ここで、本実施形態においては、シンボル認識の際、入力画像のシンボルから得られた特徴と、辞書に格納されている特徴すべてと距離計算を行い、距離の小さい順にシンボル名称を得てもよい。
 ここで、本実施形態における距離計算は、例えば、入力特徴と辞書特徴とのユークリッド距離を求めることで行ってもよい。この際、距離が閾値を越えるシンボルは、棄却し、距離が閾値以内のものだけを距離値の小さい順に並べてシンボル候補としてもよい。また、本実施形態においては、辞書に登録されている全てのシンボルの距離値が閾値を越える場合、合致するシンボル無しと見なしてもよい。
 また、特徴データは、グループ化した図形から求めた特徴であり、シンボル名称は、その図形の名称であり、シンボル認識の結果となるものであってもよい。また、シンボルカテゴリは、そのシンボルが使用される場面を現す情報であってもよい。ここで、本実施形態においては、認識した紙またはホワイトボードに対し、記入内容のカテゴリが与えられた場合、そのカテゴリをシンボルカテゴリに含むシンボルの順位を上げてもよい。これは、シンボル候補を求めた後、シンボルカテゴリへの合致数の多い順に再度ソートを行うことで実現できる。
 ここで、図21に示すように、「カメラ」と「日の丸」とは同一の特徴を持つため、図形の情報だけでは区別が付かないが、カテゴリ情報がITと与えられると、「カメラ」が「日の丸」より候補の上位になってもよい。本実施形態においては、このような方法を用いることにより、文字図形画像から、文字認識結果、図形抽出結果、および、シンボル認識結果を得ることができ、これにより元の文字図形画像の検索または編集が可能になる。
 図18に戻り、シンボル認識部102dは、グループ化した残り図形データの近傍(周囲)に文字列(手書文字と認識された手書文字画像)がある場合、当該文字列を取り込み、および/または、認識対象(手書画像全体)から認識される手書文字のコンテキストを識別し、当該コンテキストを取り込む(ステップSD-3)。
 そして、シンボル認識部102dは、取り込んだ文字列、および/または、コンテキストに基づいて、グループ化した残り図形データに当てはまるシンボルを1つ選択する最終判断を行うことで、シンボル認識結果を取得し(ステップSD-4)、処理を終了する。
 例えば、本実施形態においては、手書図形である絵の近傍に「テレビ」という文字があれば、テレビの絵と見なしてもよい。また、本実施形態においては、文字を「テレビ」ではなく「テレヒ」または「テレービ」のように一部誤読していても、手書図形である絵が「テレビ」に類似していれば、文字を「テレビ」とみなし、かつ、手書図形をテレビの絵とみなしてもよい。これによって、文字または図形があいまいであっても、正しい文字およびシンボルを出力することができる。また、本実施形態においては、手書画像全体における文字認識結果において、医療用語が多ければ、医療関係のシンボルに絞り込んで識別してもよい。
 ここで、図22を参照して、本実施形態におけるシンボル選択の一例について説明する。図22は、本実施形態におけるシンボル選択の一例を示す図である。
 図22に示すように、本実施形態においては、シンボル自動選択を行い、得られたシンボル認識結果(シンボルデータ)の候補のうち、1位候補(カメラ)が入力画像におけるシンボルであると自動認識してもよい。そして、図22において、ユーザが意図しないシンボル認識結果(カメラ)が得られた場合、画面上に表示された他の候補(日の丸)を、ユーザが選択することで、自動認識結果を変更するようにしてもよい。
 このように、本実施形態においては、基本的なパターンマッチ処理を行い、図形が単純で、認識結果の候補が多数になった場合、絞込みを行うことによりグループ化した図形からシンボル認識を行ってもよい。これにより、あいまいな形であっても正しいシンボルを出力することができる。
 ここで、図23および図24を参照して、本実施形態におけるレイアウト変更の一例について説明する。図23および図24は、本実施形態におけるレイアウト変更の一例を示す図である。
 図23に示す手書画像は、シンボル認識まで行っているため、抽出したシンボル毎に手書図形画像および/または手書文字画像がグループ化されている。それにより、図24に示すように、パソコンの絵がユーザによりマウスでドラッグされた場合、パソコンの絵の手書図形画像だけを独立して移動させることができる。
 このように、本実施形態においては、画面上に表示された文字画像および/または図形画像をシンボル単位で移動させることができる。これにより、本実施形態においては、元の入力データのレイアウト変更が可能となる。ここで、本実施形態においては、ユーザ操作に連動させてベクトルデータを移動可能としてもよく、ベクトルデータに対応する元画像のイメージを求めることも容易であるので、イメージデータをシンボル単位で移動可能としてもよい。
 近年、情報入力ツールとして、スマートフォンまたはタブレットなどのオンライン入力は、広く普及しているが、紙またはホワイトボードへの手書き記入も、広く使われており、今後も活用されていくと予想される。
 しかしながら、従来、これら紙またはホワイトボードに書かれた情報の活用手段として、画像でキャプチャして保存する方法が一般的であった。したがって、画像での保存では、編集および検索等の利活用がしにくいため、紙またはホワイトボードに書かれた情報は、証拠保存としての意味しかなく、情報として活用がされていなかった。
 そこで、本実施形態においては、紙またはホワイトボードに記入された手書きの文字図形を活用するための新たな手段を提供することで、これまで活用できなかった情報の利活用を可能としている。
 また、従来、紙またはホワイトボードに手書きされた情報は、スキャナまたはカメラでイメージに変換することで電子的に保存することが一般的であり、検索のためにタグ付けするには、オペレータによる手作業が必要であった。
 そこで、本実施形態においては、文字と図形とを両方記入されたものから、手書文字の文字認識だけでなく、文字以外の記入内容についてもタグ付けした電子データに変換することで、従来技術の課題を解決している。例えば、本実施形態においては、車の絵とカメラの絵とが記入されたものから、「自動車」および「カメラ」を電子的に検索することができるようにしている。
 また、従来から、検索以外に、手書き記入の内容を元に新たな資料を作成したいという用途があったが、手書き記入の文字図形を編集可能な形式に変換する手段が存在しなかった。そこで、本実施形態においては、例えば、単に図形を円や直線などのプリミティブに変換することではなく、テレビなどの書かれている絵をひとつの塊として認識することができ、塊単位に移動や拡大縮小などができるようにする手段を提供している。
 また、本実施形態においては、キーボードおよびマウスが接続されないことが一般的な可搬型の端末(スマートフォンなど)において、乱雑な記入もある手書きの文字図形データに対して、キーボードおよびマウス無しに認識範囲をユーザが指定して認識させることができる。また、本実施形態においては、手書きの文字図形イメージを、人間が手作業で再作成するよりも効率的に、複合データ形式の電子データに変換できる。
 また、本実施形態においては、ユーザが検索文字列を指定することで、その文字列が含まれる手書文字図形イメージおよび該当箇所を検索することができる。これにより、本実施形態においては、記入された文字だけではなく、シンボルも検索対象とすることができ、文字図形イメージの活用範囲を広げることができる。
 また、本実施形態においては、手書きの文字図形イメージを、単に複合データ形式の電子データに変換できるだけではなく、文字図形データの組み合わせから、シンボルを自動認識し、これに意味を持たせ、図形データだけでも手書きの文字図形イメージの検索または分類仕分けを行うことができるようにしている。
[他の実施形態]
 さて、これまで本発明の実施形態について説明したが、本発明は、上述した実施形態以外にも、請求の範囲に記載した技術的思想の範囲内において種々の異なる実施形態にて実施されてよいものである。
 例えば、情報処理装置100は、スタンドアローンの形態で処理を行ってもよく、クライアント端末(情報処理装置100とは別筐体である)からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するようにしてもよい。
 また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
 このほか、明細書中および図面中で示した処理手順、制御手順、具体的名称、各処理の登録データもしくは検索条件等のパラメータを含む情報、画面例、または、データベース構成については、特記する場合を除いて任意に変更することができる。
 また、情報処理装置100、および、画像入力デバイス200に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
 例えば、情報処理装置100、および、画像入力デバイス200の各装置が備える処理機能、特に制御部102にて行われる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現してもよく、また、ワイヤードロジックによるハードウェアとして実現してもよい。尚、プログラムは、後述する、コンピュータに本発明に係る方法を実行させるためのプログラム化された命令を含む、一時的でないコンピュータ読み取り可能な記録媒体に記録されており、必要に応じて情報処理装置100に機械的に読み取られる。すなわち、ROMまたはHDD(Hard Disk Drive)などの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAMにロードされることによって実行され、CPUと協働して制御部を構成する。
 また、このコンピュータプログラムは、情報処理装置100、および、画像入力デバイス200に対して任意のネットワークを介して接続されたアプリケーションプログラムサーバに記憶されていてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
 また、本発明に係るプログラムを、コンピュータ読み取り可能な記録媒体に格納してもよく、また、プログラム製品として構成することもできる。ここで、この「記録媒体」とは、メモリーカード、USBメモリ、SDカード、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD-ROM、MO、DVD、および、Blu-ray(登録商標) Disc等の任意の「可搬用の物理媒体」を含むものとする。
 また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
 記憶部106に格納される各種のデータベース等(画像データベース106a、および、シンボル認識辞書データベース106b)は、RAMもしくはROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、および/または、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラム、テーブル、データベース、および/または、ウェブページ用ファイル等を格納してもよい。
 また、情報処理装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理装置として構成してもよく、また、該情報処理装置に任意の周辺装置を接続して構成してもよい。また、情報処理装置100は、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。
 更に、装置の分散・統合の具体的形態は図示するものに限られず、その全部または一部を、各種の付加等に応じて、または、機能負荷に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。すなわち、上述した実施形態を任意に組み合わせて実施してもよく、実施形態を選択的に実施してもよい。
 以上のように、本発明に係る手書図形画像から、シンボルを自動認識し、これに意味を持たせることで、手書図形画像の検索や分類仕分けを行うことができる情報処理装置、情報処理方法、および、プログラムは、産業上の多くの分野、特にスキャナまたはカメラで読み込んだ画像を扱う画像処理分野で実施することができ、極めて有用である。
 100 情報処理装置
 102 制御部
 102a 画像取得部
 102b 画像表示部
 102c 図形認識処理部
 102d シンボル認識部
 102e シンボル候補表示部
 102f タグ付与部
 102g シンボル表示部
 102h 検索部
 102i グループ化部
 102j 編集部
 102k 修正部
 102m 変換部
 106 記憶部
 106a 画像データベース
 106b シンボル認識辞書データベース
 112 入出力部
 200 画像入力デバイス
 300 ネットワーク

Claims (17)

  1.  手書画像から、少なくとも手書図形を認識する図形認識処理手段と、
     前記図形認識処理手段により認識された前記手書図形に基づいて、当該手書図形に当てはまるシンボルを認識するシンボル認識手段と、
     前記シンボル認識手段により認識された前記シンボルに関するシンボル図形データに、当該シンボルを表すタグを付与するタグ付与手段と、
     前記シンボルに関する前記シンボル図形データ、および前記タグを表示させるシンボル表示手段と、
     を備えたことを特徴とする、情報処理装置。
  2.  前記図形認識処理手段は、
     更に、前記手書画像から、手書文字を認識し、
     前記シンボル認識手段は、
     前記図形認識処理手段により認識された前記手書文字および前記手書図形に基づいて、当該手書図形に当てはまる前記シンボルを認識し、
     前記シンボル表示手段は、
     更に、前記手書文字に関する文字データを表示させる、請求項1に記載の情報処理装置。
  3.  キーワードに基づいて、前記文字データ、および/または、前記シンボルを表す前記タグを検索する検索手段、
     を更に備えた、請求項2に記載の情報処理装置。
  4.  前記手書画像を表示させる画像表示手段、
     を更に備え、
     前記図形認識処理手段は、
     前記画像表示手段により表示された前記手書画像に対して所定操作により認識範囲が決定された場合、当該認識範囲に対応する前記手書画像を手書文字画像と認定して、当該手書文字画像から前記手書文字を認識する、請求項2または3に記載の情報処理装置。
  5.  前記シンボル表示手段により表示された前記シンボルに係る前記文字データと、前記シンボルに関する前記シンボル図形データと、に基づいて構成されるグループにグループ化するグループ化手段と、
     前記グループの各構成に対して編集指示が入力された場合、前記グループ単位で編集を行う編集手段と、
     を更に備えた、請求項2乃至4のいずれか一つに記載の情報処理装置。
  6.  前記手書画像を表示させる画像表示手段、
     を更に備え、
     前記画像表示手段により表示された前記シンボルに係る前記手書文字に関する手書文字画像と、前記シンボルに対応する前記手書図形に関する手書図形画像と、に基づいて構成されるグループにグループ化するグループ化手段と、
     前記グループの各構成に対して編集指示が入力された場合、前記グループ単位で編集を行う編集手段と、
     を更に備えた、請求項2または3に記載の情報処理装置。
  7.  前記シンボル認識手段は、
     前記図形認識処理手段により認識された前記手書図形に基づいて、当該手書図形に当てはまる複数のシンボル候補を取得し、前記複数のシンボル候補から1つの前記シンボル候補を選択して、当該シンボル候補を前記シンボルと認識する、請求項1乃至6のいずれか一つに記載の情報処理装置。
  8.  前記シンボル認識手段により取得された複数の前記シンボル候補を表示させるシンボル候補表示手段、
     を更に備え、
     前記シンボル認識手段は、
     前記シンボル候補表示手段により表示された前記複数のシンボル候補から1つの前記シンボル候補が選択された場合、選択された前記シンボル候補を前記シンボルと認識する、請求項7に記載の情報処理装置。
  9.  前記シンボル表示手段により表示された前記シンボル図形データ、および/または、前記タグに対して、修正指示が入力された場合、当該修正指示に基づいて、前記シンボル図形データ、および/または、前記タグを修正する修正手段、
     を更に備えた、請求項1乃至8のいずれか一つに記載の情報処理装置。
  10.  前記シンボルに関する前記シンボル図形データ、および/または、前記タグを、複合データ形式に変換する変換手段、
     を更に備えた、請求項1乃至9のいずれか一つに記載の情報処理装置。
  11.  前記図形認識処理手段は、
     前記手書画像の部分画像が手書文字画像か手書図形画像か判別できない場合、前記部分画像を複数の単純画像に分離し、周辺に前記手書文字と認識されるものが無い前記単純画像、および、前記部分画像に対して文字認識を実行して明らかに文字と認識できない前記部分画像を、前記手書図形画像とみなし、判別済みの前記手書図形画像に結合し、結合画像から前記手書図形を認識する、請求項1または2に記載の情報処理装置。
  12.  前記シンボル認識手段は、
     前記図形認識処理手段により前記手書画像全体から認識された前記手書文字のコンテキストを識別することで、当該手書図形に当てはまるシンボルを認識する、請求項2乃至6のいずれか一つに記載の情報処理装置。
  13.  前記シンボル認識手段は、
     前記図形認識処理手段により前記手書図形と認識された手書図形画像周囲に、前記手書文字と認識された手書文字画像がある場合、前記手書文字に基づいて、当該手書図形に当てはまるシンボルを認識する、請求項2に記載の情報処理装置。
  14.  前記検索手段は、
     前記キーワードが指定された場合、当該キーワードに基づいて、前記文字データ、および/または、前記シンボルを表す前記タグを検索する、請求項3に記載の情報処理装置。
  15.  前記シンボル毎に特徴データ、名称、および、カテゴリデータを含むシンボル認識辞書を記憶するシンボル認識辞書記憶手段、
     を更に備え、
     前記シンボル認識手段は、
     前記図形認識処理手段により認識された前記手書図形に基づいて、当該手書図形に当てはまる複数の前記シンボル候補を取得し、前記シンボル認識辞書記憶手段に記憶された前記シンボル認識辞書に基づいて、前記複数のシンボル候補から1つの前記シンボル候補を選択して、当該シンボル候補を前記シンボルと認識する、請求項7に記載の情報処理装置。
  16.  手書画像から、少なくとも手書図形を認識する図形認識処理ステップと、
     前記図形認識処理ステップにて認識された前記手書図形に基づいて、当該手書図形に当てはまるシンボルを認識するシンボル認識ステップと、
     前記シンボル認識ステップにて認識された前記シンボルに関するシンボル図形データに、当該シンボルを表すタグを付与するタグ付与ステップと、
     前記シンボルに関する前記シンボル図形データ、および、前記タグを表示させるシンボル表示ステップと、
     を含むことを特徴とする、情報処理方法。
  17.  手書画像から、少なくとも手書図形を認識する図形認識処理ステップと、
     前記図形認識処理ステップにて認識された前記手書図形に基づいて、当該手書図形に当てはまるシンボルを認識するシンボル認識ステップと、
     前記シンボル認識ステップにて認識された前記シンボルに関するシンボル図形データに、当該シンボルを表すタグを付与するタグ付与ステップと、
     前記シンボルに関する前記シンボル図形データ、および、前記タグを表示させるシンボル表示ステップと、
     を実行させるためのプログラム。
PCT/JP2014/065508 2014-06-11 2014-06-11 情報処理装置、情報処理方法、および、プログラム WO2015189941A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/065508 WO2015189941A1 (ja) 2014-06-11 2014-06-11 情報処理装置、情報処理方法、および、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/065508 WO2015189941A1 (ja) 2014-06-11 2014-06-11 情報処理装置、情報処理方法、および、プログラム

Publications (1)

Publication Number Publication Date
WO2015189941A1 true WO2015189941A1 (ja) 2015-12-17

Family

ID=54833070

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/065508 WO2015189941A1 (ja) 2014-06-11 2014-06-11 情報処理装置、情報処理方法、および、プログラム

Country Status (1)

Country Link
WO (1) WO2015189941A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023038894A (ja) * 2021-09-07 2023-03-17 株式会社リコー 表示装置、表示プログラム、表示方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981743A (ja) * 1995-09-14 1997-03-28 Toshiba Corp 文字・図形処理装置及び文字・図形処理方法
JPH10124547A (ja) * 1996-10-17 1998-05-15 Nippon Telegr & Teleph Corp <Ntt> 建築図面認識方法
JPH11191159A (ja) * 1997-12-25 1999-07-13 Casio Comput Co Ltd 画像出力装置およびそのプログラム記録媒体
JP2001292300A (ja) * 2000-04-07 2001-10-19 Fuji Photo Film Co Ltd 画像処理方法
JP2007115238A (ja) * 2005-09-20 2007-05-10 Fukui Computer Kk 2次元cadデータ処理装置、2次元cadデータ処理方法、2次元cadデータ処理プログラム、及び閉領域識別方法
JP2009020689A (ja) * 2007-07-11 2009-01-29 Canon Inc データ検索方法及びデータ検索装置
JP2009245036A (ja) * 2008-03-31 2009-10-22 Fujitsu Frontech Ltd 文字認識装置
JP2010134876A (ja) * 2008-12-08 2010-06-17 Canon Inc 情報処理装置及び情報処理方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981743A (ja) * 1995-09-14 1997-03-28 Toshiba Corp 文字・図形処理装置及び文字・図形処理方法
JPH10124547A (ja) * 1996-10-17 1998-05-15 Nippon Telegr & Teleph Corp <Ntt> 建築図面認識方法
JPH11191159A (ja) * 1997-12-25 1999-07-13 Casio Comput Co Ltd 画像出力装置およびそのプログラム記録媒体
JP2001292300A (ja) * 2000-04-07 2001-10-19 Fuji Photo Film Co Ltd 画像処理方法
JP2007115238A (ja) * 2005-09-20 2007-05-10 Fukui Computer Kk 2次元cadデータ処理装置、2次元cadデータ処理方法、2次元cadデータ処理プログラム、及び閉領域識別方法
JP2009020689A (ja) * 2007-07-11 2009-01-29 Canon Inc データ検索方法及びデータ検索装置
JP2009245036A (ja) * 2008-03-31 2009-10-22 Fujitsu Frontech Ltd 文字認識装置
JP2010134876A (ja) * 2008-12-08 2010-06-17 Canon Inc 情報処理装置及び情報処理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023038894A (ja) * 2021-09-07 2023-03-17 株式会社リコー 表示装置、表示プログラム、表示方法
JP7351374B2 (ja) 2021-09-07 2023-09-27 株式会社リコー 表示装置、表示プログラム、表示方法

Similar Documents

Publication Publication Date Title
US10013624B2 (en) Text entity recognition
JP5181887B2 (ja) 電子書類を照合するシステム及び照合方法
JP5095534B2 (ja) ジャンクションを生成するシステム及び方法
JP5181888B2 (ja) グラフィカルユーザインターフェースを生成する方法及びシステム
CN107885430B (zh) 一种音频播放方法、装置、存储介质及电子设备
JP2007317022A (ja) 手書文字処理装置及び手書文字処理方法
US20150146985A1 (en) Handwritten document processing apparatus and method
JP2009020889A (ja) 電子書類を検索する方法及びシステム
RU2634194C1 (ru) Верификация результатов оптического распознавания символов
KR101552525B1 (ko) 폰트를 인식하고 폰트정보를 제공하는 시스템 및 그 방법
JPH01253077A (ja) 文字列検出方法
WO2021070972A1 (en) Display apparatus, color supporting apparatus, display method, and program
US8494278B2 (en) Handwritten character recognition based on frequency variations in characters
RU2673016C1 (ru) Способы и системы оптического распознавания символов серии изображений
US9230181B2 (en) Handwritten document retrieval apparatus and method
Marne et al. Identification of optimal optical character recognition (OCR) engine for proposed system
RU2603495C1 (ru) Классификация изображений документов на основе параметров цветовых слоев
CN109101973B (zh) 文字识别方法、电子设备、存储介质
JP5505106B2 (ja) 手書き文字分離装置、手書き文字分離方法及び手書き文字分離プログラム
WO2015189941A1 (ja) 情報処理装置、情報処理方法、および、プログラム
JP2015135576A (ja) 帳票項目認識方法、帳票項目認識装置及び帳票項目認識プログラム
Diem et al. Semi-automated document image clustering and retrieval
EP3825868A1 (en) Display apparatus, display method, and program
CN113486171A (zh) 一种图像处理方法及装置、电子设备
CN113158961A (zh) 基于智能笔手写图像的处理方法、装置、系统及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14894249

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14894249

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP