WO2003050714A1 - Systeme de traitement d'image de terminal cellulaire, terminal cellulaire et serveur - Google Patents

Systeme de traitement d'image de terminal cellulaire, terminal cellulaire et serveur Download PDF

Info

Publication number
WO2003050714A1
WO2003050714A1 PCT/JP2002/012281 JP0212281W WO03050714A1 WO 2003050714 A1 WO2003050714 A1 WO 2003050714A1 JP 0212281 W JP0212281 W JP 0212281W WO 03050714 A1 WO03050714 A1 WO 03050714A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
unit
translation
character string
server
Prior art date
Application number
PCT/JP2002/012281
Other languages
English (en)
French (fr)
Inventor
Takashi Hirano
Yasuhiro Okada
Original Assignee
Mitsubishi Denki Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Denki Kabushiki Kaisha filed Critical Mitsubishi Denki Kabushiki Kaisha
Priority to US10/498,267 priority Critical patent/US20050221856A1/en
Publication of WO2003050714A1 publication Critical patent/WO2003050714A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Definitions

  • Mobile terminal type image processing system mobile terminal and server
  • the present invention relates to a portable terminal type image processing system that translates characters included in an image captured by a camera of a portable terminal, a portable terminal, and a server.
  • Japanese Patent Application Laid-Open No. Hei 9-138802 discloses a system for character-recognizing a character string included in an image captured by a camera of a portable terminal and translating the text of the recognition result. I have.
  • This method has a character recognition process and a translation process inside the mobile terminal, and uses these processes to recognize and translate a character string in an image captured by a camera.
  • this method there is a problem that it is difficult to perform advanced character recognition processing and translation processing due to the limitation of the size of the mobile terminal.
  • Fig. 25 shows processing related to the conventional mobile terminal type image processing system.
  • this processing procedure is divided into a process in the portable terminal and a process in the server.
  • the user captures an image using a camera built in or connected to the mobile terminal.
  • a memo handwritten on paper or a part of a printed document is read (step ST1).
  • the service for example, translation of a character string included in the image captured in step ST1, or a database search using the character as a keyword is specified.
  • a character string translation service is specified (step ST 2).
  • the captured image and the specified service request are transmitted to the server (step ST3).
  • the server when the server receives the image and the service request from the mobile terminal (step ST4), it starts an application program for processing the received image (step ST5).
  • the text string is obtained by recognizing the character string included in the image received by the started application program (step ST6).
  • the service specified by the mobile terminal is executed.
  • the extracted text is translated (step ST7).
  • the translation processing result is sent to the mobile terminal (step ST8).
  • the portable terminal receives the processing result transmitted from the server (step ST 9).
  • the content of the received processing result, that is, the translation is displayed on the display of the portable terminal (step ST10).
  • the image captured by the camera of the mobile terminal The translation result of the included character string can be obtained.
  • the conventional method obtains the translation result for the character string in the image by translating the character string (text) resulting from character recognition of the character string in the image.
  • the image captured by the camera of the mobile terminal has lower resolution and lower image quality than the image read by a scanner that is recognized by a general OCR (character recognition device).
  • OCR character recognition device
  • a character string written in another language in a foreign language is imaged with a camera and then translated into its own language.
  • the character string on a signboard has many decorative characters.
  • the current character recognition processing performance for character strings and decorative characters in such poor-quality images is low, and the possibility of erroneous recognition is high. Therefore, there is a problem that it is difficult to obtain correct results even if the text obtained by the character recognition processing is translated as it is.
  • the image captured by the mobile terminal is transmitted to the super
  • the character recognition processing and translation processing possessed by the server are considered to be for general terms, in which case the name of the local cuisine listed in the menu and the medical certificate should be entered.
  • the character recognition processing and translation processing possessed by the server are considered to be for general terms, in which case the name of the local cuisine listed in the menu and the medical certificate should be entered.
  • text entered in its own language is converted to another language.
  • a request to translate is also assumed.
  • problems with mobile terminals such as the need to input text.
  • the present invention has been made to solve the above problems, and an object of the present invention is to provide a portable terminal type translation system, a portable terminal, and a server that are highly convenient for performing translation. Disclosure of the invention
  • a portable terminal type translation system includes a portable terminal and a server that exchanges data with the portable terminal.
  • the portable terminal stores an image captured by an image capturing unit and an image captured by the image capturing unit.
  • Data transmission for transmitting data comprising the specified key code, the type of the specified processing service and the relevant information of the portable terminal to the server.
  • a receiving unit that receives a translation result translated by the server; and a display unit that displays the received translation result.
  • the server transmits data transmitted from the mobile terminal.
  • a data receiving unit for receiving, extracting a plurality of character strings from one character string included in the received image, and translating the plurality of extracted character strings to generate respective translation results Character string recognition in the image to be translated, a translation unit, a text translation unit that generates a related sentence for the received keyword, and translates the generated related sentence to generate a translation result; included in the received data
  • a processing control unit that switches between processing by the character string recognition / translation unit in the image or processing by the text translation unit according to the type of the specified processing service to be executed;
  • a character string recognition / translation unit or a result transmission unit that transmits a translation result generated by the text translation unit to the portable terminal based on the related information.
  • a portable terminal type translation system includes a portable terminal and a server that exchanges data with the portable terminal.
  • the portable terminal stores an image captured by the image capturing unit and the image captured by the image capturing unit.
  • a data transmitting unit for transmitting to the server; a result receiving unit for receiving a translation result translated by the server; and a display unit for displaying the received translation result.
  • a data receiving unit that receives the data transmitted from the server, extracting a plurality of character strings for one character string included in the received image, and translating the extracted plurality of character strings.
  • the character string recognition in the image and processing control for operating the translation unit
  • a result transmitting unit for transmitting the generated translation result to the portable terminal based on the related information.
  • a portable terminal type translation system includes a portable terminal and a server for exchanging data with the portable terminal.
  • the portable terminal includes: a key input unit for inputting a keyword; A process instructing unit for instructing a processing service requested to the server; and data for transmitting to the server data including a keyword input by the key input unit, an instruction of the processing service, and information related to the portable terminal.
  • a data receiving unit for receiving data; a text for generating a related sentence for the keyword included in the received data; translating the generated related sentence to generate the translation result;
  • a translation unit a processing control unit that operates the text translation unit in accordance with an instruction of the processing service included in the received data, and the portable terminal that generates the translation result based on the related information.
  • a result transmitting unit for transmitting data
  • the portable terminal type translation system Character string recognition within image
  • the translation unit recognizes one character string in the image under a plurality of different conditions to generate a plurality of character string recognition results.
  • the character string recognition / translation unit of the server recognizes one character string in the image under a plurality of different conditions, thereby obtaining a plurality of character string recognition results.
  • a character string recognition unit that generates a similar character string having a similar spelling to the plurality of character string recognition results using a language dictionary, and the generated character string recognition result and the character string recognition result. It has an in-image character string translation unit that generates a plurality of translation results by translating each of the similar character strings.
  • the text translation unit of the server generates a plurality of sentences highly relevant to the keyword by referring to the related sentence dictionary based on the received keyword.
  • a related sentence generating unit; and a related sentence translating unit that generates a translation result by translating the plurality of generated sentences.
  • the portable terminal translation system is a portable terminal, wherein the portable terminal sequentially selects images sequentially captured at predetermined time intervals by the image capturing unit and accumulated in the image buffer, and outputs the images to the data transmitting unit.
  • An image control unit wherein the server sequentially generates each translation result of the character string included in each of the received images and transmits the translation result to the mobile terminal, and the display unit of the mobile terminal includes: It is displayed every time a translation result is received.
  • the portable terminal type translation system is the portable terminal type translation system, wherein the transmission control unit of the portable terminal reads the image sequentially read from the image buffer and compares the difference between the newly captured image and the image captured immediately before the newly captured image. Are compared, and when the difference is equal to or smaller than the threshold value, the newly picked-up image is selected and output to the data transmission unit.
  • the server includes an image integration unit that combines a plurality of images received continuously to create one composite image, and performs character string recognition in the image.
  • the translation unit is configured to generate a translation result for a character string included in the created composite image.
  • the portable terminal in the portable terminal translation system, includes a GPS unit that acquires a current position of the portable terminal and adds the current position to data to be transmitted to the server.
  • the processing control unit of the server specifies the facility where the user possessing the portable terminal is present by referring to the map data based on the received current position, Various dictionaries used in the server are replaced with dedicated dictionaries corresponding to the specified facilities.
  • the portable terminal type translation system is configured such that the processing instruction unit of the portable terminal can specify a type of the dedicated dictionary by a user, and the type of the specified dedicated dictionary is provided as a server.
  • the processing control unit of the server uses the data in the server based on the type of the received dedicated dictionary.
  • the portable terminal type translation system is characterized in that the portable terminal comprises: a pre-processing system which binarizes the character string and the background from the color image or the scale image stored in the image buffer so as to separate the character string from the background; An image pre-processing unit that creates a post-image and stores the post-image in the image buffer, and transmits the pre-processed image to a server to obtain a translation result.
  • a pre-processing system which binarizes the character string and the background from the color image or the scale image stored in the image buffer so as to separate the character string from the background
  • An image pre-processing unit that creates a post-image and stores the post-image in the image buffer, and transmits the pre-processed image to a server to obtain a translation result.
  • the portable terminal type translation system is configured such that, when the preprocessed image contains noise, the portable terminal can designate a noise removal target area surrounding the noise by key input,
  • the image pre-processing unit converts black pixels in the noise removal target area into white pixels and edits the pre-processed image.
  • a mobile terminal is a mobile terminal that exchanges data with a server that performs a translation process, comprising: an image capturing unit; an image buffer for storing images captured by the image capturing unit; A key input unit for inputting, a processing instruction unit for specifying a type of processing service to be requested to the server, an image stored in the image buffer or an input key, the specified processing service
  • a data transmitting unit for transmitting data including the type of the information and the related information of the mobile terminal to the server; and receiving a recognized character string recognized by the server and a translated result translated. It has a result receiving unit and a display unit for displaying the received translation result.
  • a portable terminal that exchanges data with a server that performs a translation process, comprising: an image capturing unit; an image buffer that stores an image captured by the image capturing unit; A processing instruction unit for instructing a processing service to be requested to the server, and data for transmitting to the server a data consisting of the image stored in the image buffer, the instruction of the processing service, and related information of the portable terminal.
  • a mobile terminal is a mobile terminal that exchanges data with a server that performs a translation process, a key input unit that inputs a keyword, and a processing instruction that indicates a processing service to request the server.
  • a data transmission unit configured to transmit, to the server, a data consisting of an input keyword, an instruction of the processing service, and information related to the mobile terminal; and a server that receives a translation result translated by the server.
  • a mobile terminal includes a transmission image control unit that sequentially selects images stored in an image buffer that are continuously imaged at a fixed time interval by an image imaging unit and outputs the images to a data transmission unit,
  • the display unit sequentially displays each translation result of the character string included in each of the images sequentially received from the server.
  • the transmission control unit may include For the images sequentially read from the buffer, the difference between the newly captured image and the immediately preceding image is compared, and when the difference is equal to or smaller than the threshold value, the newly captured image is selected and decompressed. It is designed to be output to the transmission section overnight.
  • the mobile terminal includes a GPS section for adding the current position of the mobile terminal by a GPS function and transmitting the current position to the server.
  • a portable terminal is configured so that a user can specify a type of a dedicated dictionary used in a server, and adds the specified type of the dedicated dictionary to data transmitted to the server. It was done.
  • the portable terminal creates a pre-processed image that has been binarized so that a character string and a background are separated from a color image or a grayscale image stored in an image buffer, and stores the image in the image buffer
  • the image processing apparatus further comprises an image pre-processing unit for storing, and transmits the pre-processed image read from the image buffer to a server to obtain a translation result.
  • the mobile terminal is configured such that, when noise is included in the pre-processed image, a noise removal target area surrounding the noise can be designated by a single input, and the image pre-processing unit includes: The pre-processed image is edited by converting black pixels in the noise removal target area into white pixels.
  • a server is a server that exchanges data with a portable terminal, the image or a key-in keyword transmitted from the portable terminal, the type of a designated processing service, and Data comprising the relevant information of the mobile terminal
  • a data receiving unit to receive, extract a plurality of character strings from one character string included in the received image, and translate the extracted plurality of character strings to generate respective translation results
  • a processing control unit that controls whether to perform processing by the character string recognition / translation unit in the image or processing by the text translation unit according to the type of the character string recognition / translation unit in the image; And a result transmission unit for transmitting the translation result generated by the translation unit to the portable terminal based on the related information.
  • a server is a server for exchanging data with a portable terminal, the server receiving data including an image transmitted from the portable terminal, a processing service instruction, and information related to the portable terminal.
  • An overnight receiving unit extracting a plurality of character strings from one character string included in the received image, and translating the extracted plurality of character strings to generate respective translation results
  • a character string recognition / translation unit in the image a processing control unit that operates the character string recognition / translation unit in the image in accordance with an instruction of the processing service included in the received data; and a character string recognition / translation in the image.
  • a result transmitting section for transmitting a translation result generated by the text translating section to the portable terminal based on the related information.
  • a server is a server for exchanging data with a mobile terminal.
  • a data receiving unit that receives a command including a service instruction and data including the related information of the mobile terminal; and a text that generates a related sentence for the keyword, translates the generated related sentence, and generates a translation result.
  • a translation unit a processing control unit that operates the text translation unit in accordance with the instruction of the processing service included in the received data, and a translation result generated by the text translation unit based on the related information.
  • a result transmitting unit for transmitting the result to the portable terminal.
  • the character string recognition / translation unit in the image generates a plurality of character string recognition results by recognizing one character string in the image under a plurality of different conditions.
  • the character string recognition / translation unit in the image generates one or more character string recognition results by recognizing one character string in the image under a plurality of different conditions.
  • a character string recognition unit that generates a similar character string having a similar spelling to the plurality of character string recognition results using a language dictionary; and the generated character string recognition result and the similar character. It has an in-image character string translation unit that generates a plurality of translation results by translating each of the columns.
  • the text translating unit generates a plurality of sentences having high relevance to the keyword by referring to the related sentence dictionary based on the key word input at the key input unit. Translating the plurality of generated sentences. And a related sentence translator for generating a translation result.
  • a server includes an image integration unit that combines a plurality of images received continuously to create one combined image, and a character string recognition / translation unit in the image is created. Further, a translation result for a character string included in the synthesized image is generated.
  • a server includes a map data storing a position of each facility, and a processing control unit refers to the map data based on a current position of the mobile terminal included in the received data.
  • the facility where the user having the portable terminal is currently located is specified, and various dictionaries used in the server are replaced with a dedicated dictionary corresponding to the specified facility.
  • the processing control unit replaces various dictionaries used in the server with the specified dedicated dictionary based on the type of the specified dedicated dictionary included in the received data. That's what I did. BRIEF DESCRIPTION OF THE FIGURES
  • FIG. 1 is a block diagram showing the configuration of a portable terminal type translation system according to Embodiment 1 of the present invention.
  • FIG. 2 is an explanatory diagram illustrating an image capturing state according to the first embodiment of the present invention
  • FIG. 3 is a flowchart showing a processing procedure of the character string recognition unit in the image according to the first embodiment of the present invention.
  • FIG. 4 is an explanatory diagram illustrating an operation example of the in-image character string recognition unit according to the first embodiment of the present invention.
  • FIG. 5 is an explanatory diagram illustrating an example of a character recognition process including an error according to the first embodiment of the present invention.
  • FIG. 6 is an explanatory diagram illustrating an operation example of the intra-image character string translation unit according to the first embodiment of the present invention.
  • FIG. 7 is an explanatory diagram illustrating an operation example of the intra-image character string translation result generation unit according to the first embodiment of the present invention.
  • FIG. 8 is an explanatory diagram showing a display example of a character string translation result in an image according to the first embodiment of the present invention.
  • FIG. 9 is an explanatory diagram showing a display example of keyword input according to the first embodiment of the present invention.
  • FIG. 10 is an explanatory diagram showing a configuration example of a related sentence dictionary according to Embodiment 1 of the present invention.
  • FIG. 11 is an explanatory diagram illustrating an operation example of the related sentence translating unit according to the first embodiment of the present invention.
  • FIG. 12 is an explanatory diagram showing an example of the translation result of the related sentence according to the first embodiment of the present invention.
  • FIG. 13 is an explanatory diagram showing a display example of a translation result of a related sentence according to the first embodiment of the present invention.
  • FIG. 14 is a block diagram showing the configuration of a portable terminal type translation system according to Embodiment 2 of the present invention.
  • FIG. 15 is an explanatory diagram showing an image capturing state according to the second and third embodiments of the present invention.
  • FIG. 16 is an explanatory diagram showing an example of a continuously captured image according to the second and third embodiments of the present invention.
  • FIG. 17 is an explanatory diagram illustrating the operation of the transmission image control unit according to the second embodiment of the present invention.
  • FIG. 18 is a block diagram showing a configuration of a portable terminal type translation system according to Embodiment 3 of the present invention.
  • FIG. 19 is an explanatory diagram for explaining the operation of the image integration unit according to the third embodiment of the present invention.
  • FIG. 20 is a block diagram showing a configuration of a portable terminal type translation system according to Embodiment 4 of the present invention.
  • FIG. 21 is an explanatory diagram showing an example of specifying recognition conditions according to Embodiment 4 of the present invention.
  • FIG. 22 is a block diagram showing a configuration of a portable terminal type translation system according to Embodiment 5 of the present invention.
  • FIG. 23 is an explanatory diagram for explaining the operation of the image preprocessing unit according to the fifth embodiment of the present invention.
  • FIG. 24 is an explanatory diagram illustrating an image correction process according to the fifth embodiment of the present invention.
  • FIG. 25 is a flowchart showing a processing procedure according to a conventional portable terminal type image processing system.
  • FIG. 1 is a block diagram showing a configuration of a portable terminal type translation system according to Embodiment 1 of the present invention.
  • 101 is a portable terminal
  • 102 is a data transmission unit
  • 103 is a key input unit
  • 104 is a processing instruction unit
  • 105 is an image capturing unit
  • 106 is an image buffer.
  • 107 is a display unit
  • 108 is a result receiving unit.
  • One 09 is a server
  • 110 is a data receiving unit
  • 111 is a result transmitting unit
  • 112 is a processing control unit
  • 113 is a character string recognition / translation unit in an image
  • 119 is text translation. Department.
  • 1 1 4 is a character string recognition unit in the image
  • 1 15 is a character string translation unit in the image
  • 1 16 is a character string translation result generation unit in the image
  • 1 17 is a recognition dictionary
  • i 18 is a language dictionary
  • 124 is a first translation dictionary.
  • 1 2 0 is a related sentence generator
  • 1 2 1 is a related sentence translator
  • 1 2 2 is a related sentence translation result generator
  • 1 2 3 is a related sentence dictionary
  • 1 25 is a second translation dictionary.
  • FIG. 2 is an explanatory diagram for explaining an image capturing situation, wherein 201 is a document and 202 is a camera field of view.
  • FIG. 3 is a flowchart showing a processing procedure of the image character string recognition unit.
  • Fig. 4 is an explanatory diagram for explaining an operation example of the character string recognition unit in the image, where 401 is a captured image, 402 is an image after preprocessing, 400 is an extracted character string, and 404 is cut out.
  • the character pattern, 405 is the character recognition result.
  • FIG. 5 is an explanatory diagram for explaining an example of a character recognition process including an error, where 501 indicates a cut-out character pattern and 502 indicates a character recognition result including an error.
  • Figure 6 is an explanatory diagram illustrating an example of the operation of the intra-image character string translation unit. 600 1 translates the character string recognition result, 60 2 translates the similar character string, and 60 3 translates the character string recognition result 60 1
  • the character string translation result, 604, is the character string translation result of the similar character string 602.
  • FIG. 7 is an explanatory diagram for explaining an example of the operation of the intra-image character string translation result generation unit.
  • FIG. 7 illustrates an example of the intra-image character string translation result.
  • FIG. 8 is an explanatory view showing a display example of a character string translation result in an image.
  • Reference numeral 1 denotes a recognized character string image
  • reference numeral 800 denotes an image of a character string translation result in the image.
  • FIG. 9 is an explanatory diagram showing a display example of a keyword input, in which 91 is a key input area and 90 2 is a translation button display.
  • FIG. 10 is an explanatory diagram showing a configuration example of a related sentence dictionary, and 1001 is related sentence dictionary data.
  • Figure 11 is an explanatory diagram illustrating an example of the operation of the related sentence translator, where 1101 is the input text, 1102 is the related sentence, and 1103 and 1104 are the character string translation results. is there.
  • FIG. 12 is an explanatory diagram for explaining an operation example of the related sentence translation result generation unit, and reference numeral 1201 denotes an output result of the related sentence translation result generation unit.
  • FIG. 13 is an explanatory view showing a display example of the translation result of the related sentence, and 1301 is the translation result.
  • the translation system consists of a mobile terminal 101 and a server 109.
  • the mobile terminal 101 has a communication function for transmitting and receiving data to and from the server 109.
  • the mobile terminal 101 requests the server 109 to perform processing, and receives and displays the processing result. Can be done.
  • the communication between the portable terminal 101 'and the server 109 is performed by a method of transmitting and receiving data wirelessly, a method of transmitting and receiving data by infrared communication, or a method of transmitting and receiving data by wire.
  • the server 109 has two services. One is a service that translates a character string included in an image captured by the image capturing unit 105 of the mobile terminal, and is hereinafter referred to as a character string recognition / translation service in an image.
  • the other is a service for translating the contents of text input from the key input unit 103 of the mobile terminal.
  • This service is hereinafter referred to as a text translation service.
  • Character string recognition in images ⁇ The operation of the translation service is explained.
  • the user uses the image capturing unit 105 of the mobile terminal 101 to capture an image including a character string.
  • the image capturing unit 105 is a camera provided with a CCD or CMOS sensor having an image capturing function attached to or connected to the mobile terminal 101.
  • the captured image is a color image or a drop scale image. It is a statue.
  • the object to be imaged is a part of a document or a character in a scene such as a signboard or a signboard.
  • the image captured by the image capturing unit 105 is stored in the image buffer 106.
  • the processing instruction unit 104 specifies the type of processing service to be performed by the server 109. This specification is made by the user from the key input section 103 or automatically by using default settings. Here, character string recognition / translation in the image is specified as the type of processing service.
  • the data transmission unit 102 transmits the image stored in the image buffer 106, the type of the processing service specified by the processing instruction unit 104, and The data including the related information (for example, model code, etc.) relating to the mobile terminal 101 is transmitted to the server 109.
  • the data receiving unit 110 receives the data transmitted from the data transmitting unit 102 of the portable terminal 101, the data is input to the processing control unit 112.
  • the processing control unit 112 switches the subsequent processing content according to the type of the specified processing service.
  • the character string recognition / translation service in the image is specified as described above.
  • Character string recognition in image ⁇ The translation unit 113 is controlled to operate. If a text translation service is specified in the processing instructing unit 104, the text translating unit 119 is controlled to operate.
  • the character string recognition unit 114 in the image operates first, and recognizes the character string in the image of the data transmitted from the portable terminal 101.
  • the specific operation of the in-image character string recognition unit 114 will be described with reference to the processing procedure of FIG.
  • preprocessing is performed on the image transmitted from the mobile terminal 101 (step ST21), and a preprocessed image is created by separating the character string and the background in the image.
  • a preprocessed image is created by separating the character string and the background in the image.
  • the background is white and the character string is black by applying preprocessing to the captured image 401.
  • a black-and-white pre-processed image 402. For the method of realizing such pre-processing, see the paper T extextractionfromcollodocuments, “clusteringapproachesinthreeandfourdimensio ns”, T. 1).
  • an extracted character string is obtained by extracting from the preprocessed image (step ST22).
  • the pre-processed image 402 of Figure 4 Extract the extracted character string 4 0 3.
  • a method already implemented in conventional OCR is used for the process of extracting a character string from such a black-and-white image.
  • the contents of the extracted character string extracted in step ST22 are recognized as characters (step ST23).
  • a method of character recognition a method of extracting a pattern of one character constituting a character string, comparing the extracted pattern with a recognition dictionary 117, and converting it into a character code is widely known.
  • a character string recognition result (text) for the character string in the image can be obtained.
  • the character recognition result is often incorrect. For example, as shown in FIG. 5, an error may occur in the extracted character pattern 501, and as a result, an incorrect character recognition result 502 may be obtained.
  • the processing parameters are changed and the processing of steps ST 21 to ST 23 is repeated a plurality of times to obtain a plurality of character recognition results (step ST 24). For example, by changing the processing parameters for the extracted character string 4003 in FIG. 4 and repeating the processing of steps ST21 to ST23 twice, as shown in FIG.
  • “Strategic” and “Stranger” are obtained as the character string recognition result 6 01.
  • the correct character string recognition result is included in the result.
  • the correct result may not be included in the multiple character string recognition results obtained in step ST24. Therefore, referring to the language dictionary 118, a plurality of character strings similar in spelling to the plurality of character string recognition results obtained in step ST24 are extracted (step ST25). For example, as shown in FIG. 6, three similar character strings 602 having similar spellings are created from the two character string recognition results 600 obtained in step ST24. '
  • the in-image character string recognition unit 114 combines the plurality of character string recognition results obtained in step ST 24 and the plurality of similar character strings obtained in step ST 25 with the in-image character string translation unit 1. Output to 15 (step ST26). As described above, since a plurality of character string recognition results and a plurality of similar character strings corresponding to the character string recognition results are output, the possibility that a correct character string recognition result is included in the result is further increased. The above is the operation of the in-image character string recognition unit 114.
  • the in-image character string translation unit 115 refers to the first translation dictionary 124 that stores information necessary for translation, and obtains a plurality of characters obtained in the in-image character string recognition unit 114.
  • the result of the string recognition is translated, the result of the character string translation is obtained, and the result is output to the in-image character string translation result generator 116.
  • the translation processing is performed on the character string recognition result 6001 obtained by the character string recognition unit 114 in the image and the character string translation result obtained by translating the similar character string 6002. 6 0 3 and 6 0 4 are obtained.
  • the in-image character string translation result generation unit 116 generates the character string recognition result and similar character string obtained in the in-image character recognition unit 114, and the character string translation result obtained in the in-image character string translation unit 115. And translate the character string in the image as data to be transmitted to the mobile terminal 101.
  • the translation result 7001 in the image shown in FIG. 7 is obtained for the captured image 401 shown in FIG.
  • the translation of the character string in the image 7 0 1 is the position coordinates of the extracted character string 4 0 3 extracted from the pre-processed image 4 0 2 (for example, the upper left point x, y coordinates of the circumscribed rectangle surrounding the character string and the circumscribed rectangle Has a width w and a height h).
  • it has the character string recognition result and similar character string obtained by the in-image character recognition unit 114, and the character string translation result obtained by the in-image character string translation unit 115.
  • the server 109 transmits the character string translation result created by the intra-image character string translation result generation unit 116 from the result transmission unit 111 to the mobile terminal 101.
  • the data format of the character string recognition result, the similar character string, and the character string translation result is text or image.
  • the image on which the character string recognition result is drawn is used as the character string translation result in the image.
  • the portable terminal 101 does not have a function of displaying characters in the language constituting the character string translation result
  • the image on which the character string translation result is drawn is used as the intra-image character string translation result.
  • whether or not the mobile terminal 101 has a function of displaying characters in a specific language is determined by the data transmission unit 102 of the mobile terminal 101. This is performed based on the relevant information about the mobile terminal (model code, etc.) transmitted from the terminal.
  • the result receiving unit 108 receives the character string translation result in the image transmitted from the result transmitting unit 111 of the server 109.
  • the display unit 107 displays the translation result of the character string included in the captured image on the display unit 107 based on the captured image stored in the image buffer 106 and the received character string translation result in the image. I do.
  • the display unit 107 is a display device capable of displaying characters and images such as a liquid crystal display. For example, as shown in Fig. 8, a recognized character string image 8001 representing the recognized character string is displayed on the display unit 107, and at the same time, the character string recognition result, similar character string, and character string translation result are displayed.
  • the image 8002 resulting from the character string translation within the image is displayed.
  • the above is an example of executing the character string recognition and translation service in an image. The operation of the text translation service will be described.
  • a user first inputs text to be translated using the key input unit 103.
  • keywords related to the text content are input here. For example, if you want to translate the text “What time will the next bus depart?”, Enter “bus” and “time” as keywords.
  • FIG. 9 shows an example in which a keyword is input on the mobile terminal. The input keyword is displayed in a keyword input area 901 on the display unit 107. After entering the keyword, the user operates the key input section 103 to execute the translation button display 902 displayed on the display section 107, and the translation is performed. Start processing for
  • the processing instruction unit 104 specifies the type of processing service performed by the server 109.
  • the text translation service is specified as the type of processing service.
  • the data transmission unit 102 determines the key word input to the keyword input area 901, the type of the processing service specified by the processing instruction unit 104, and the association related to the mobile terminal 101.
  • Information eg, model code
  • the data receiving unit 110 receives the data transmitted from the data transmitting unit 102 of the portable terminal '101, and inputs the data to the processing control unit 112.
  • the processing control unit 112 switches the subsequent processing content according to the type of the processing service specified by the processing instruction unit 104.
  • the text translation unit 119 is controlled to operate.
  • the related sentence generating unit 120 operates first, and the keyword is transmitted based on the keyword transmitted from the portable terminal 101 and the data in the related sentence dictionary 123. Then, a sentence (hereinafter referred to as a related sentence) is generated by analogy.
  • the related sentence dictionary 123 has related sentence dictionary data 1001 as shown in FIG. 10, for example.
  • This related sentence dictionary contains a number of related sentences and their indexes.
  • the related sentence generating unit 120 compares the index with the keypad transmitted from the data transmitting unit 102, reads out the related sentence including the keyword in the index from the related sentence dictionary 123, and reads the related sentence translating unit. Output to 1 2 1. For example, if the keywords are "bus" and "time”, the related sentence The related sentence No. 1 in the dictionary data 1001 "When will the next bus leave?" And the related sentence No. 2 "How long does it take on the bus?” I do.
  • the related sentence translator 1 211 translates the keyword sent from the data transmitter 102 and the related sentence obtained by the related sentence generator 120 using the second translation dictionary 125. .
  • translation processing is performed on the input text 1101 and the related sentence 1102 corresponding to the keywords shown in Fig. 11, and the character string translation results 1103 and 1104 are obtained, respectively. And outputs it to the related sentence translation result generator 122.
  • the function of translating such text is a method that has already been realized by general translation software.
  • the related sentence translation result generation unit 122 includes the keyword sent from the data transmission unit 102, the related sentence obtained by the related sentence generation unit 120, and the character string obtained by the related sentence translation unit 122. By compiling the translation results, a related sentence translation result is created as data to be sent to the mobile terminal 101, and output to the result transmission unit 111. As an example, the related sentence translation result 1 201 of FIG. 12 is shown. Here, “keywords and related sentences” and their “translation results” are stored in association with each other.
  • the result transmitting unit 111 transmits the relevant sentence translation result created by the relevant sentence translation result generating unit 122 to the portable terminal 101.
  • the data format of the translation result is text or image.
  • the image on which the translation result is drawn is used as the translation result of the related sentence.
  • the portable terminal 101 receives the related sentence translation result by the result receiving unit 108 and gives it to the display unit 107.
  • the display unit 107 displays the content of the received related sentence translation result. For example, as shown in FIG. 13, the display unit 107 displays a translation result 1301 composed of text, related components, and their translation results.
  • the above is an execution example of the text translation service.
  • the image character string recognition unit 114 creates a plurality of character recognition results and a plurality of similar character strings from the character strings in the image
  • a plurality of translation results for the plurality of character recognition results and a plurality of similar character strings are created, and the plurality of translation results are transmitted to the mobile terminal 101 and the display unit 10 Since it is displayed in Fig. 7, it is possible to obtain a translation result with a high accuracy rate even for characters and decorative characters in images with low quality and low resolution due to difficult character recognition.
  • Example 2 In the text translation service, a plurality of related sentences are generated from the keyword input on the mobile terminal 101, and the translation results are displayed on the display unit 107 of the mobile terminal 101. As a result, it is not necessary to enter all the text to be translated, which reduces the troublesome text input and the translation result of the required text with a high accuracy rate. The effect that can be obtained is obtained.
  • Example 2 In the text translation service, a plurality of related sentences are generated from the keyword input on the mobile terminal 101, and the translation results are displayed on the display unit 107 of the mobile terminal 101. As a result, it is not necessary to enter all the text to be translated, which reduces the troublesome text input and the translation result of the required text with a high accuracy rate. The effect that can be obtained is obtained. Example 2.
  • the character string recognition / translation service in the image of the first embodiment after the user captures one image with the mobile terminal 101, the image is transmitted to the server 109, and the image is included in the image. Get the translation result of the included string. Therefore, when translating a large number of character strings at one time, the user has to move the field of view of the camera over the character string to be translated and press the shutter many times, which is time-consuming.
  • the problem is that when a user starts imaging, after that, images are automatically captured at fixed time intervals, and the captured images are sequentially translated by the server 109 to obtain a translation result in semi-real time. If you can do it, you can solve it. Embodiment 2 achieves this.
  • FIG. 14 is a block diagram showing a configuration of the portable terminal type translation system according to the second embodiment, and 1401 is a transmission image control unit.
  • FIG. 15 is an explanatory diagram showing the image capturing situation of a continuous image, wherein 1501 is a camera field of view, and 1502 is a movement locus of the camera field of view.
  • FIG. 16 is an explanatory diagram showing an example of an image taken continuously, and 1601 is an image taken continuously.
  • FIG. 17 is an explanatory diagram for explaining the operation of the transmission image control unit, and 1701 is a divided area. Next, the operation will be described.
  • the image capturing unit 105 when executing the character string recognition / translation service in an image, captures an image including a character string. Unlike the first embodiment, the image capturing unit 105 captures an image once, and then continuously captures images at fixed time intervals. The image captured by the image capturing unit 105 is stored in the image buffer 106 every time. This image buffer 106 can store one or more images.
  • the transmission image control unit 1401 first selects one of the images stored in the image buffer 106. At this stage, the transmission image control unit 1401 selects the first captured image.
  • the processing instruction unit 104 specifies the type of the processing service performed by the server 9 similarly to the first embodiment.
  • character string recognition / translation in images is specified as the type of processing service. '
  • the data transmission unit 102 includes the image selected by the transmission image control unit 1401, the type of the processing service specified by the processing instruction unit 104, and related information on the portable terminal 101 (for example, the model To the server 109.
  • the server 109 translates the character string included in the captured image transmitted by the data transmission unit 102 and translates the character string translation result in the image obtained by the processing into the mobile terminal. Sent to 1 0 1 Then, as in the first embodiment, in the portable terminal 101, the result receiving unit 108 receives the translation result of the character string in the image from the server 109 and transmits the translation result received by the display unit 107. indicate.
  • the transmission image control unit 140 1 selects another image stored in the image buffer 106 (the image taken next to the currently translated image), and
  • the camera field of view 1501 of the mobile terminal 101 was moved according to the movement locus 1502 as shown in Fig. 15. Let's say it was moving.
  • 11 captured images 1601 as shown in FIG. 16 are obtained.
  • t represents time
  • These captured images 1601 are transmitted to the server 109, and are sequentially translated sequentially from the first captured image, and the translation results are displayed on the display unit 107 of the portable terminal 101. Displayed above.
  • the transmission image control unit 1401 selects all the images in the order in which the images were captured.
  • the transmission image control unit 1401 selects all the images and sends a character string recognition / translation service in the image to the server 109. Relying on the request increases the amount of data to be transmitted and increases the processing amount of the server 109. Therefore, the images to be selected may be narrowed down according to another criterion.
  • the transmission image control unit 1401 creates a divided area 1701 divided into N parts vertically and horizontally for the image stored in the image buffer 106, as shown in Fig. 17 Then, the luminance of each divided area is obtained. Then, the divided area is divided into the newly captured image and the image captured immediately before that.
  • the difference between the brightness values for each area is calculated, and if the sum of the differences is less than or equal to the threshold value, a newly captured image is selected.
  • a newly captured image is selected.
  • the imaging is automatically performed at regular time intervals thereafter, and the server 109 sequentially translates the captured images.
  • the server 109 sequentially translates the captured images.
  • the transmission image control unit 1401 obtains a change amount of the image between the taken image and the image taken immediately before the taken image, and determines an image whose change amount is equal to or less than the threshold value. Since it is selected and transmitted to the server 109, it is possible to obtain a translation result only for the image including the character string that the user wants to translate, and to reduce the data transmission amount and the processing amount of the server 109.
  • the character string to be translated needs to be included in one image.
  • the images captured by the camera of the mobile terminal 101 are not , It is difficult to store long strings and sentences in a single image. This limits the length of translatable strings.
  • Such a problem is that a plurality of images obtained by capturing a character string or a fragment of a sentence from the mobile terminal 101 are transmitted to the server 109, and the server 109 side receives one or more images from the plurality of images. This can be solved by creating a large composite image and translating the character strings included in the composite image. Example 3 achieves this.
  • FIG. 18 is a block diagram showing a configuration of a portable terminal type translation system according to Embodiment 3 of the present invention, and 1801 is an image integration unit.
  • Fig. 19 is an explanatory diagram explaining an example of the operation of the image integration unit.
  • 1901 is a composite image
  • 1902 is a preprocessed image corresponding to the composite image
  • 1903 is an extracted character string.
  • 904 is a character string recognition result
  • 195 is a similar character string.
  • the mobile terminal 101 When executing the character string recognition / translation service in an image, the mobile terminal 101 first obtains images at fixed time intervals as in the second embodiment, and stores the plurality of images in the image buffer 106. accumulate. For example, when the camera field of view 1501 is moved according to the movement locus 1502 of the camera field of view as shown in Fig. 15, a plurality of captured images 1601 are stored in the image buffer 106. Be stacked.
  • the processing instruction section 104 processes the processing server executed by the server 109.
  • the character string recognition / translation service in the image is specified as the type of processing service, and “create a composite image” is specified as the execution condition.
  • This specification is made by a human through the key input section 103 or automatically by using a default setting.
  • the data transmission unit 102 can store a plurality of images stored in the image buffer 106, the type and execution conditions of the processing service specified by the processing instruction unit 104, and the mobile terminal 100.
  • the relevant information (for example, model code, etc.) related to 1 is transmitted to the server 109.
  • the data receiving unit 110 receives the data transmitted from the data transmitting unit 102, and the processing control unit 112 responds according to the type of the specified processing service. Switches the subsequent processing contents.
  • the image integration unit 1801 also operates.
  • the execution condition of the designated processing service specifies “create a composite image”
  • the image integration unit 1801 combines the received multiple images to form one composite image. create. For example, by combining a plurality of captured images 1601 shown in FIG. 16, a combined image 1901 shown in FIG. 19 is obtained.
  • the process of creating one large composite image from a plurality of fragmentary images in this way is already installed in commercially available digital cameras and image processing software, and can be realized using these methods.
  • the in-image character string recognition unit 114 operates on the composite image created by the image integration unit 1801.
  • the in-image character string recognition unit 114 performs the same processing as in the first and second embodiments.
  • a preprocessed image 1902 is created from the composite image 1901, and an extracted character string 1903 is extracted from the preprocessed image 1902.
  • a plurality of character string recognition results 1904 and a similar character string 1905 are obtained for the extracted character string 1903.
  • the intra-image character string translating unit 115 converts each of the plurality of inner character string recognition results obtained by the intra-image character string recognizing unit 114 and similar character strings into similar ones. Generates a string translation result of
  • the intra-image character string translation result generation unit 116 creates the intra-image character string translation result.
  • the character string translation result in the image has character string position coordinates, a character string recognition result, a similar character string, and a character string translation result as shown in FIG.
  • the extracted character string extracted from the composite image is also added to the intra-image character string translation result.
  • the result receiving unit 108 receives the character string translation result in the image transmitted from the server 109 in the result receiving unit 108, and gives the result to the display unit 107 for display.
  • the recognized character string image 8001 extracted from the composite image is displayed as the display result, and the image including the character string recognition result, similar character string, and character string translation result is displayed. Display the image 8002 of the character string translation result.
  • a plurality of images obtained by capturing a character string or a fragment of a sentence from the mobile terminal 101 are transmitted to the server.
  • the server 109 combined these images to create one large composite image, and recognized, extracted, and translated the character strings contained in this composite image. This has the effect of translating long strings and sentences that do not fit in the camera's field of view.
  • the character string recognition processing and the translation processing possessed by the server are directed to general terms.
  • general terms For example, if you want to enter a foreign restaurant and translate the name of a local dish, or if you want to translate the name of a disease written on a medical certificate at an overseas hospital, you need to translate highly specialized terms. is there. In such a case, it is difficult to obtain sufficient character recognition performance and translation performance.
  • various types of character recognition and translation processing are performed based on the user's current position obtained from the user's designation and the GPS (G1oba1 Positioning System) function of the mobile terminal. The problem can be solved by replacing the dictionary with an appropriate technical term dictionary and performing processing. Embodiment 4 achieves this.
  • FIG. 20 is a block diagram showing a configuration of the portable terminal type translation system according to the fourth embodiment.
  • 200 1 is a GPS unit
  • 200 2 is a dedicated recognition dictionary
  • 200 3 is a dedicated language dictionary
  • 200 4 is the first dedicated translation dictionary
  • 2005 is the dedicated related sentence dictionary
  • 2006 is the second dedicated translation dictionary
  • 2 0 07 is map data.
  • FIG. 21 is an explanatory diagram showing an example of specifying a recognition condition
  • 211 is a selection screen.
  • the image capturing unit 105 captures an image including a character string and stores the captured image in the image buffer 106 by the same processing as in the first to third embodiments. After that, the transmission image control unit 1401 selects one image stored in the image buffer 106.
  • the processing instruction unit 104 specifies the type of processing service performed by the server 109 and its execution conditions.
  • the character string recognition / translation service in the image is specified as the type of processing service.
  • the 0-3 section 2001 obtains the current position of the portable terminal 101 owned by the GPS function from the radio wave transmitted by the artificial satellite.
  • the data transmission unit 102 transmits the image selected by the transmission image control unit 1401, the type of the processing service specified by the processing instruction unit 104, and information on the mobile terminal 101 to the server 100.
  • the information on the portable terminal 101 includes related information (eg, model code) and the current position of the portable terminal 101 acquired by the GPS unit 201.
  • the server 109 translates a character string included in the captured image transmitted by the data transmission unit 102 and transmits the result to the portable terminal 101.
  • the processing control unit 112 refers to the contents of the map data 2007 based on the current position of the mobile terminal 101 obtained by the GPS unit 201 and possesses the mobile terminal. The facility where the user Identify. Then, various dictionaries used in the image character string recognition / translation unit 113 are replaced with dedicated dictionaries corresponding to the specified facilities. Specifically, the recognition dictionary 1 17, the language dictionary 1 18, and the first translation dictionary 1 2 4 shown in FIG. 1 are combined with the dedicated recognition dictionary 2 0 2, the dedicated language dictionary 2 0 3, and the first Replace with the dedicated translation dictionary 2 0 4 respectively.
  • the map data 2007 stores the location information of various facilities, and it is possible to know which facility the user is at from the current location of the portable terminal 101 obtained by the GPS unit 2001. Can be. Therefore, the processing control unit 112 selects a dedicated dictionary corresponding to the facility. For example, if the user is in a restaurant, select a dedicated dictionary that contains a menu of local dishes that are likely to be used in the restaurant. Thereafter, the in-image character string recognition / translation unit 113 performs the same processing as in the first to third embodiments, using the dedicated dictionaries 200, 200, and 204. Then, the processed translation result is sent to the portable terminal 101 and displayed on the display unit 107.
  • the above is the operation of the character string recognition / translation service in the image in the fourth embodiment.
  • the user inputs a key word to be translated using the key input unit 103, and the processing instruction unit 104 receives the text translation as the type of processing service performed by the server 109. Specify the service.
  • the data transmission unit 102 receives the keyword entered in the key input unit 103, the type of processing service specified in the processing instruction unit 104, and information about the mobile terminal 101 (model code, GPS unit 200 Current user obtained in 1 Is sent to server 109.
  • the processing control unit 112 may use the mobile terminal 101 acquired by the GPS unit 201. Based on the current location of the mobile terminal, the user refers to the contents of the map data 2007 and identifies the facility where the user holding the mobile terminal 101 is currently located. Then, various dictionaries used in the text translating unit 119 are replaced with dedicated dictionaries corresponding to the specified facility. Specifically, the related sentence dictionary 123 and the second translation dictionary 125 shown in Fig. 1 are replaced with the dedicated related sentence dictionary 200 and the second dedicated translation dictionary 200, respectively. .
  • the above is the operation of the text translation service in the present embodiment.
  • the processing control unit 112 selects the type of the specialized dictionary based on the user's current position obtained by the GPS unit 2001 and the map data 2007.
  • the type of the dedicated dictionary may be specified directly from the mobile terminal 101.
  • the processing instruction unit 104 displays a selection screen 2101 on the display unit 107 showing the type of dedicated dictionary as shown in FIG. 21, and the type of dedicated dictionary desired by the user from among them. Can be specified.
  • the dedicated data specified by the user by the processing instruction unit 104 is used.
  • the type of dictionary is added to the transmission data and transmitted to the server 109.
  • the processing system The control unit 112 selects a dedicated dictionary specified by the user, and executes the processing of the character string recognition / translation unit 113 and the text translation unit 119 in the image.
  • the current position of the portable terminal 101 and the map data 200 0 held by the server 109 are specified by the user or obtained by the GPS unit 200 1.
  • the facility where the user is currently located is specified based on 7 and various dictionaries used for character string recognition processing and translation processing of the server are replaced with appropriate dedicated dictionaries, which has the effect of improving the performance of translation results.
  • a color image or a grayscale image captured by the image capturing unit 105 from the mobile terminal 101 to the server 109 is used.
  • color images and sagging scale images require a long time to transmit because of the large data amount. This problem can be solved by creating an image with reduced data size and sending it to the server. Embodiment 5 achieves this.
  • FIG. 22 is a block diagram showing the configuration of the portable terminal type translation system according to the fifth embodiment.
  • Reference numeral 2201 denotes an image preprocessing unit.
  • FIG. 23 is an explanatory diagram for explaining the operation of the image preprocessing unit, where 2301 is a captured image, and 230 Is the post-processing image.
  • Fig. 24 is an explanatory diagram for explaining the image correction processing in the image pre-processing unit, where 2401 is the noise, 2402 is the pre-processed image after noise removal, and 2403 is the noise removal target. Area.
  • the image capturing unit 105 captures an image including a character string
  • the image buffer 106 stores the image captured by the image capturing unit 105.
  • the image pre-processing unit 2201 performs image processing on the captured images stored in the image buffer 106 to reduce the amount of image decompression.
  • This image processing is the same as the preprocessing (step ST21 in FIG. 3) included in the processing procedure of the character string recognition unit 114 in the image of the server 109.
  • a black-and-white preprocessed image 2 in which the character string portion is black and the background portion is white Obtain 3 0 2.
  • Such a binarized image having only two colors of black and white has a smaller data amount than a single color image or a grayscale image captured by the image capturing unit 105.
  • the preprocessed image whose data amount has been reduced in this way is again stored in the image buffer 106.
  • the noise may remain in the image after the preprocessing.
  • the noise 2401 remains black on the preprocessed image 2302.
  • Such noise 2401 causes erroneous recognition in the character recognition processing.
  • the image preprocessing unit 2201 allows the user to add noise from the preprocessed image. Has a function that can be deleted. For example, the preprocessed image is displayed on the display unit 107, and the user visually checks this. If noise is found, a rectangular noise removal target area 2403 surrounding the noise 2401, as shown in Fig. 24, is specified. This designation is performed by operating the key input section 103. When the rectangular noise removal target area 2403 is specified, the image preprocessing unit 2201 converts black pixels in the noise removal target area 2403 into white pixels, and performs noise-free preprocessing. Edit to the subsequent image 2402.
  • the data transmission unit 102 receives the data stored in the image buffer 106 after processing. Send the image to server 109. Subsequent processing is the same as in the first to fourth embodiments. However, since the preprocessing performed by the server 109 in the first to fourth embodiments is already performed by the mobile terminal 101, the preprocessing is skipped in the server 109 of the fifth embodiment.
  • the server 109 receives the pre-processed image, recognizes the included character string, obtains the translation result, and transmits it to the portable terminal 101. The above is the operation of the fifth embodiment.
  • the preprocessing is performed by the image preprocessing unit 2201 of the mobile terminal 101, and the character string and the background are separated from the color image or the grayscale image.
  • the binarized pre-processed image is created and sent to the super-computer 109 to translate the character strings included in the pre-processed image, so that the data amount can be reduced, and
  • the effect of shortening the processing time can be obtained.
  • the post-processing image contains noise
  • the pre-processing image with noise removed is obtained, so it is possible to eliminate the cause of misrecognition during the character recognition processing on the server 109 side. The effect that can be obtained is obtained.
  • the present invention includes a mobile terminal and a server that exchanges data with the mobile terminal.
  • the mobile terminal stores an image captured by the image capturing unit and the image captured by the image capturing unit.
  • a data transmission unit that sends to the server the data consisting of the type of service and related information of the mobile terminal, and a translation at the server
  • a server that includes a result receiving unit that receives the processed translation result; and a display unit that displays the received translation result.
  • the server includes: a data receiving unit that receives data transmitted from the mobile terminal; Character string recognition and translation unit that extracts multiple character strings for one character string included in the, and translates the extracted multiple character strings to generate each translation result.
  • a text translation unit that generates a related sentence for the keyword, translates the generated related sentence and generates a translation result, and an image according to the type of specified processing service included in the received data.
  • In-image character string recognitionA processing control unit that controls switching between processing in the translation unit and text processing unit, and in-image character string recognition and translation generated by the translation unit or text translation unit Turn results into relevant information Since it is configured to include a result transmitter for transmitting to the portable terminal Zui is effective to realize a system that can be compatible with both the translation for the text Bok entered the translation of pairs in the image string.
  • a result transmitter for transmitting to the portable terminal Zui is effective to realize a system that can be compatible with both the translation for the text Bok entered the translation of pairs in the image string.
  • translation is performed by extracting a plurality of character strings for characters and decorative characters in an image with low quality and low resolution, which are difficult to recognize. This has the effect of obtaining a translation result with a high accuracy rate, and furthermore, in the text translation processing, it is not necessary to input all the texts to be translated because of the keyword input, thereby reducing the time and effort of text input. effective.
  • the present invention since the present invention is configured as described above, it comprises a portable terminal and a server for exchanging data with the portable terminal, and the portable terminal captures an image by the image capturing unit and the image capturing unit.
  • Image buffer that stores the stored image
  • a processing instruction unit that instructs the processing service to be requested to the server, and transmits data that includes the image stored in the image buffer, the instruction of the processing service, and the information related to the mobile terminal to the server
  • the receiving unit that receives the data, extracts multiple character strings from one character string included in the received image, translates the extracted multiple character strings, and generates a translation result for each character string Image character string recognition and translation unit, a processing control unit that operates the image character string recognition and translation unit according to the processing service instruction included in the received data, and a generated translation result. And a result transmitting unit that transmits the result to the mobile terminal based on the character string, so that high-accuracy translation results can be obtained even for characters and decorative characters in images with low resolution and poor quality because character recognition is difficult. There is an effect that can be.
  • the present invention comprises a mobile terminal and a server for exchanging data with the mobile terminal.
  • the mobile terminal includes a key input unit for inputting a keyword, and a process for requesting the server.
  • a processing instructing unit for instructing a service a data transmitting unit for transmitting data including a keyword input by the key input unit, an instruction for the processing service, and information related to the mobile terminal to the server;
  • the server includes a result receiving unit that receives the translation result translated by the server, and a display unit that displays the received translation result, wherein the server transmits the data transmitted from the mobile terminal.
  • a data receiving unit that receives the evening, a text translating unit that generates a related sentence for the keywords included in the received data, translates the generated related sentence, and generates a translation result, is included in the received data
  • a result transmission unit that transmits the generated translation result to the mobile terminal based on the related information. Since there is no need to enter all the text to be translated because of the keyword input, there is an effect that the troublesome text input can be reduced.
  • the character string recognition / translation unit in the server of the server converts one character string in the image under a plurality of different conditions, for example, by changing parameters at the time of processing.
  • An in-image character string recognition unit that generates a plurality of character string recognition results by recognizing, and an in-image character string translation unit that generates a plurality of translation results, each of which translates the generated plurality of character string recognition results With such a configuration, it is possible to obtain a translation result with a high correct answer rate even for characters and decorative characters in an image having low resolution and low quality due to difficulty in character recognition.
  • the character string recognition / translation unit in the server of the server converts one character string in the image under a plurality of different conditions, for example, by changing parameters at the time of processing.
  • a character string recognition unit that generates a plurality of character string recognition results by recognition and generates a similar character string having a similar spelling to the plurality of character string recognition results using a language dictionary; Images that generate multiple translation results by translating each of the extracted character string recognition results and similar character strings Since it is configured to have an internal character string translation unit, it is possible to obtain a translation result with an extremely high accuracy rate even for characters and decorative characters in images with poor recognition and low quality that are difficult to recognize. There is fruit.
  • the text translating unit of the server refers to the related sentence dictionary based on the received keyword and generates a plurality of sentences having high relevance to the keyword. Since it has a sentence generation unit and a related sentence translation unit that generates a translation result by translating a plurality of generated sentences, all text to be translated is input for keyword input. This eliminates the need for inputting, and reduces the time and effort required for inputting text, and has the effect of obtaining the translation result of the required sentence with a high accuracy rate.
  • the mobile terminal sequentially selects images stored in the image buffer that are continuously captured by the image capturing unit at fixed time intervals and sequentially transmits the data to the data transmitting unit.
  • the server has a transmission image control unit that outputs to the mobile terminal, and the server sequentially generates each translation result of the character string included in each received image and sends it to the mobile terminal.
  • the transmission control unit of the mobile terminal transmits an image to be sequentially read from the image buffer. Then, the difference between the newly captured image and the image captured immediately before is compared, and when the difference is equal to or smaller than the threshold value, the newly captured image is selected and output to the data transmission unit.
  • the transmission control unit of the mobile terminal transmits an image to be sequentially read from the image buffer. Then, the difference between the newly captured image and the image captured immediately before is compared, and when the difference is equal to or smaller than the threshold value, the newly captured image is selected and output to the data transmission unit.
  • the server includes an image integration unit that combines a plurality of continuously received images to create one combined image, and includes a character string in the image.
  • Recognition ⁇ The translation unit is configured to generate the translation result for the character string included in the created composite image, so it has the effect of translating long character strings and text contents that do not fit in the camera's field of view.
  • the mobile terminal includes a GPS unit that obtains the current position of the mobile terminal and adds the data to the server for transmission to the server.
  • the processing control unit of the server refers to the map data based on the received current position to identify the facility where the user holding the mobile terminal is currently located, and Since the various dictionaries used in the system are configured to be replaced with dedicated dictionaries corresponding to the specified facilities, the effect of improving the performance of translation results by switching to an appropriate dictionary without the user's awareness and performing translation is achieved. is there.
  • the processing instruction unit of the mobile terminal can specify the type of the dedicated dictionary by the user.
  • the specified dedicated dictionary type is specified, and the processing control unit of the server specifies various dictionaries used in the server based on the received dedicated dictionary type. Since it is configured to be replaced with a dedicated dictionary, it is possible to respond to the translation according to the user's request, which has the effect of improving the performance of the translation result.
  • the mobile terminal is provided with a pre-processed image that has been binarized so as to separate a character string and a background from a color image or a single scale image stored in an image buffer. It has an image preprocessing unit that creates and stores it in the image buffer, and is configured to send the preprocessed image to the server and obtain the translation result, so that the data amount can be reduced and it is caused by a blank image or grayscale image This has the effect of reducing the transmission time required and the processing time on the server.
  • the mobile terminal is configured such that, when noise is included in the preprocessed image, a noise removal target region surrounding the noise can be designated by key input, and
  • the pre-processing unit is configured to convert the black pixels in the noise removal target area to white pixels and edit the pre-processed image, so eliminating the cause of incorrect recognition in the server-side character recognition processing There is an effect that can be.
  • the present invention relates to a mobile terminal that exchanges data with a server that performs a translation process, comprising: an image capturing unit; and an image storing an image captured by the image capturing unit.
  • a buffer a key input unit for inputting a keyword, and a processing instruction for specifying the type of processing service requested to the server Unit, a data transmission unit that transmits to the server data consisting of images stored in the image buffer or input keywords, the type of specified processing service, and information related to the mobile terminal, and recognition characters recognized by the server.
  • the present invention relates to a mobile terminal that exchanges data with a server that performs a translation process, comprising: an image capturing unit; and an image storing an image captured by the image capturing unit.
  • a buffer a processing instruction unit for instructing a processing service to be requested to the server, and a data transmitting unit for transmitting data stored in the image buffer to the server, the data including a processing service instruction and information related to the mobile terminal.
  • a result receiving unit for receiving the recognized character string recognized by the server and the translated translation result, and a display unit for displaying the received translation result.
  • the present invention is a portable terminal that exchanges data with a server that performs translation processing, and specifies a key input unit that inputs a keyword and a processing service to request the server.
  • a processing instruction unit that performs the processing, and a data consisting of the input keyword, processing service instruction, and related information of the mobile terminal. Since it is configured to include a data transmitting unit that transmits an overnight message to the server, a result receiving unit that receives the translation result translated by the server, and a display unit that displays the received translation result, This has the effect of realizing a portable terminal that can support a translation service related to an input keyword that does not require input of all text to be translated.
  • transmission is performed by sequentially selecting images stored in the image buffer that are continuously captured by the image capturing unit at fixed time intervals and outputting the images to the data transmitting unit.
  • An image control unit is provided, and the display unit is configured to sequentially display each translation result of the character strings included in each image sequentially received from the server. There is no need to move the camera's field of view over the desired character string and press the shirt every time, reducing the user's time and effort and realizing a mobile terminal that can obtain translation results in semi-real time. .
  • the transmission control unit compares the difference between the newly captured image and the image captured immediately before the image sequentially read from the image buffer. When the difference is less than the threshold, the newly captured image is selected and output to the data transmission unit. This has the effect of providing a mobile terminal that can obtain translation results for only the images that include it and that reduces the amount of data transmitted and the amount of processing by the server.
  • the GPS A function to acquire the current position of the mobile terminal using the function and add it to the data to be sent to the server is provided. There is an effect of realizing a mobile terminal suitable for the device. Further, since the present invention is configured as described above, it is possible to allow the user to specify the type of the dedicated dictionary used in the server, and to add the type of the specified dedicated dictionary to the server in the evening. With this configuration, there is an effect of realizing a mobile terminal suitable for performing translation using an appropriate dictionary according to a user's request on the server side.
  • the preprocessed image that has been binarized so as to separate the character string from the background from the color image or the scale image that is accumulated in the image buffer is used. It has an image preprocessing unit that creates and stores it in the image buffer, and transmits the preprocessed image read from the image buffer to the server to obtain the translation result, so that the amount of data can be reduced and the color can be reduced. This has the effect of reducing the transmission time due to one image or grayscale image and realizing a mobile terminal that can shorten the processing time in the server.
  • the present invention is configured as described above, when noise is included in the pre-processed image, a noise removal target area surrounding the noise can be designated by key input, and the image pre-processing unit Since the pre-processing image is edited by converting black pixels in the target area to white pixels, the effect of realizing a mobile terminal that eliminates the cause of erroneous recognition during character recognition processing on the server side is achieved. is there.
  • the present invention is a server for exchanging data with the mobile terminal overnight, the image transmitted from the mobile terminal or the key input keyword, the type of the specified processing service
  • a data receiving unit that receives data including information related to the mobile terminal, and extracts a plurality of character strings for one character string included in the received image, and extracts the extracted character strings.
  • Character string recognition in image that translates and generates each translation result.
  • Translation unit, and text translation unit that generates related sentences for keywords and translates the generated related sentences to generate translation results.
  • Processing control unit that switches between processing by the character string recognition and translation unit in the image and processing by the text translation unit according to the type of processing service provided, and character string recognition and translation in the image
  • the system is provided with a result transmitting unit that transmits the translation result generated by the text translating unit to the mobile terminal based on the related information, so that both the translation of the character string in the image and the translation of the input text can be performed.
  • This has the effect of realizing a server that can respond.
  • character recognition is difficult, and character strings and decorative characters in images with low resolution and poor quality are extracted by extracting multiple character strings.
  • Translation has the effect of obtaining a high translation rate with a high accuracy rate.Furthermore, in the process of text translation, all relevant text is acquired to generate related sentences from received keywords. There is no need to obtain the translation result requested by the user, and it is possible to reduce the burden on the user when performing input on the portable terminal. Further, since the present invention is configured as described above, it is a server for exchanging data with the mobile terminal, which is a data server including images transmitted from the mobile terminal, processing service instructions, and information related to the mobile terminal. A data receiving unit that receives the evening, extracts multiple character strings for one character string included in the received image, translates the extracted multiple character strings, and translates each translation result.
  • Character string recognition in the image to be generated ⁇ 'Translation unit, processing control unit that operates the image character string recognition * translation unit in accordance with the processing service instructions included in the received data, and image character string recognition-translation unit
  • a text transmission unit is provided with a result transmission unit that transmits the translation result generated by the text translation unit to the mobile terminal based on the related information.
  • the letter Also it has the effect of realizing the server to obtain high translation result with the accuracy rate was.
  • the present invention is a server that exchanges data with the mobile terminal, and receives data including a key-in keyword, a processing service instruction, and information related to the mobile terminal.
  • a text-to-speech receiving unit a text translating unit that generates a related sentence for the keyword, translates the generated related sentence to generate a translation result, and sends a text according to the processing service instructions included in the received data.
  • a processing control unit for operating the text translating unit and a result transmitting unit for transmitting the translation result generated by the text translating unit to the portable terminal based on the related information. Since a related sentence is generated from words, a server that can obtain the translation result requested by the user without receiving all the text to be translated is realized. This has the effect of reducing the burden on the user when inputting on the portable terminal side.
  • the character string recognition / translation unit in the image recognizes one character string in the image under a plurality of different conditions, such as changing parameters during processing.
  • an in-image character string recognition unit that generates a plurality of character string recognition results, and an in-image character string translation unit that generates a plurality of translation results respectively translated from the plurality of generated character string recognition results are configured as described above.
  • the character string recognition / translation unit in the image recognizes one character string in the image under a plurality of different conditions, such as changing parameters during processing.
  • the text translating unit refers to the related sentence dictionary based on the keyword input by the key input unit, and a plurality of highly relevant keywords are provided. Since it has a related sentence generation unit that generates sentences and a related sentence translation unit that generates translation results by translating a plurality of generated sentences, multiple sentence keywords are received. , A server that allows users to obtain translation results with extremely high accuracy for requests without receiving all the text to be translated, and when inputting on the mobile terminal side This has the effect of reducing the burden on the user.
  • the image processing apparatus includes an image integration unit that synthesizes a plurality of images that are continuously received to create one composite image, and performs character string recognition and translation in the image. Since the section is configured to generate the translation result for the character string included in the created composite image, it has the effect of realizing a server that can translate long character strings and text contents that do not fit in the field of view of the camera.
  • the present invention is configured as described above, it is provided with map data storing the location of each facility, and the processing control unit refers to the map data based on the current location of the mobile terminal included in the received data.
  • the facility where the user possessing the portable terminal is currently located is specified, and various dictionaries used in the server are replaced with dedicated dictionaries corresponding to the specified facility.
  • the processing control unit specifies various dictionaries to be used in the server based on the type of the specified dedicated dictionary included in the received data. Since it is configured so that it can be replaced with a dedicated dictionary, it is possible to respond to the translation according to the user's request, and there is an effect of realizing a server that improves the performance of the translation result.

Description

明 細 書
携帯端末型画像処理システム、 携帯端末およびサーバ 技術分野
本発明は、 携帯端末のカメラで撮像した画像に含まれる 文字を翻訳する携帯端末型画像処理システム、 携帯端末お よびサーバに関するものである。 背景技術
近年、 カメラを装備した携帯電話の製品化が盛んになつ てきた。 このような携帯端末のカメラで撮像した画像に含 まれる文字列を文字認識して、 認識結果のテキス トを翻訳 するシステムについて特開平 9 一 1 3 8 8 0 2号公報に開 示されている。 この方式は、 携帯端末内部に文字認識処理 と翻訳処理を持ち、 これらの処理を用いてカメラで撮像し た画像内の文字列を認識 · 翻訳するものである。 しかし、 この方式では、 携帯端末のサイズ上の制限により、 高度な 文字認識処理と翻訳処理を行う ことが困難な課題がある。
一方、 これに対して、 携帯端末 (携帯電話) のカメラで 撮像した画像を外部のサーバに一旦送信し、 サーバ側で画 像内の文字を認識 · 翻訳した結果を携帯端末に送り返す方 式が特開平 1 0 — 1 3 4 0 0 4号公報に提案されている。 この方式によれば、 処理性能の高いサーバ側で文字認識と 翻訳を行うため、 高度な処理が可能となる。 以下、 この方 式の動作について図 2 5 を用いて説明する。
図 2 5は従来の携帯端末型画像処理システムに係る処理 手順を示すフローチャートで、 この処理手順は、 携帯端末 における処理とサーバにおける処理の二つに別れる。
まず、 携帯端末側において、 ユーザが携帯端末に内蔵ま たは接続されたカメラを用いて画像を撮像する。ここでは、 紙面に手書きされたメモや、 印刷された文書の一部を読み 取る (ステップ S T 1 )。 読み取った画像に関して処理した いサービスを指定する。 サービスとしては、 例えばステツ プ S T 1で撮像した画像に含まれる文字列の翻訳や、 その 文字をキーワードとしたデータべ一ス検索などを指定する。 ここでは、文字列の翻訳サービスを指定するものとする(ス テツプ S T 2 )。 その後、 撮像した画像と指定したサービス 要求をサーバに送信する (ステップ S T 3 )。
次にサ一バ側において、 携帯端耒からの画像とサービス 要求を受信すると (ステップ S T 4 )、 受信した画像を処理 するアプリケーショ ンプログラムを起動する (ステップ S T 5 )。起動したアプリケーショ ンプログラムにより受信し た画像に含まれる文字列を認識して、 テキス トを得る (ス テツプ S T 6 )。 次に、 携帯端末で指定したサービスを実行 する。 ここでは、 翻訳サービスを指定しているので抽出さ れたテキス トを翻訳する (ステップ S T 7 )。 翻訳の処理結 果を携帯端末に送信する (ステップ S T 8 )。
その後、 携帯端末側において、 サーバから送信された処 理結果を受信する (ステップ S T 9 )。 受信した処理結果の 内容、 すなわち翻訳文を携帯端末のディスプレイに表示す る (ステップ S T 1 0 )。
以上の処理により、 携帯端末のカメラで撮像した画像に 含まれる文字列の翻訳結果を得ることができる。
以上述べたように、 従来の方式は画像内の文字列を文字 認識した結果の文字列 (テキス ト) を翻訳することで、 画 像内の文字列に対する翻訳結果を得ている。 しかし、 携帯 端末のカメラで撮像した画像は、 一般の O C R (文字認識 装置) が認識対象とするスキャナで読み取った画像に比べ て解像度が低く、 画像の品質が悪い。 また、 海外において 他国語で記入された看板中の文字列をカメラで撮像して、 自国語に翻訳するというような使用方法が想定されるが、 看板の文字列は飾り文字が多い。 このような品質の悪い画 像内の文字列や飾り文字に対して、 現状の文字認識処理の 性能は低く、 誤認識する可能性が高い。 そのため、 文字認 識処理で得たテキス トをそのまま翻訳しても、 正しい結果 が得ることは困難であるという課題があつた。
また、 一度に多数の文字列を翻訳する場合、 ユーザは翻 訳したい文字列上にカメラの視野を移動させてシャッター を押すという作業を何度も繰り返す必要が生じ、 手間を要 するという課題があった。 さらに、 携帯端末のカメラで撮 像した画像は解像度が低いため、 長い文字列や文章を 1枚 の画像内に納めることができない。 これに対して、 カメラ を後ろに引くなどして広範囲を撮像すれば、 長い文字列も 1枚の画像に納めることは可能であるが、 1文字を表現す る画素数は少なくなり、 文字認識率が低下する。 このため 翻訳可能な文字列の長さが制限されるという課題があった,
― さらにまた、 携帯端末で撮像した画像をサ一パに送信す る場合、 送信するデ一夕量が大きいため、 一般の電話回線 ではデータ送信に時間がかかるという課題がある。加えて、 従来の方式において、 サーバが持つ文字認識処理や翻訳処 理は、 一般用語を対象としたものと考えられるが、 その場 合はメニューに載っている郷土料理の名前や診断書に記入 された病名等、 専門性の高い用語に対して十分な文字認識 性能および翻訳性能を得ることが困難であるという課題が あった。 また、 このようなシステムを海外旅行等で使用す る場合、 画像に含まれる他国語の文字列を自国語に翻訳す る使用形態に加え、 逆に自国語で入力したテキス トを他国 語に翻訳する要求も想定される。 しかし、 携帯端末では、 テキス 卜の入力に手間がかかるなどの課題があった。
この発明は上記のような課題を解決するためになされた もので、 翻訳を行う上で利便性の高い携帯端末型翻訳シス テム、 携帯端末およびサーバを得ることを目的とする。 発明の開示
第 1 の発明に係る携帯端末型翻訳システムは、 携帯端末 とこの携帯端末とデータ交換を行うサーバとからなり、 前 記携帯端末は、 画像撮像部と、 この画像撮像部により撮像 した画像を蓄積する画像バッファと、 キ一ワードを入力す るキー入力部と、 前記サーバへ依頼する処理サービスの種 類を指定する処理指示部と、 前記画像バッファに蓄積され た画像あるいは前記キー入力部により入力されたキーヮ一 ド、 指定された処理サービスの種類および前記携帯端末の 関連情報からなるデータを前記サーバに送信するデータ送 信部と、 前記サーバにおいて翻訳処理された翻訳結果を受 信する結果受信部と、 受信した前記翻訳結果を表示する表 示部とを備え、 前記サーバは、 前記携帯端末から送信され たデータを受信するデータ受信部と、 受信した前記画像に 含まれる 1個の文字列に対して複数個の文字列を抽出し、 抽出した前記複数個の文字列を翻訳してそれぞれの翻訳結 果を生成する画像内文字列認識 · 翻訳部と、 受信した前記 キーワードに対する関連文を生成し、 生成された前記関連 文を翻訳して翻訳結果を生成するテキス ト翻訳部と、 受信 したデ一夕に含まれる前記指定された処理サービスの種類 に従って前記画像内文字列認識 · 翻訳部で処理するか、 あ るいは前記テキス 卜翻訳部で処理するかを切り替え制御す る処理制御部と、 前記画像内文字列認識 · 翻訳部または前 記テキス ト翻訳部で生成された翻訳結果を前記関連情報に 基づいて前記携帯端末に送信する結果送信部とを備えたも のである。
第 2 の発明に係る携帯端末型翻訳システムは、 携帯端末 とこの携帯端末とデータ交換を行うサーバとからなり、 前 記携帯端末は、 画像撮像部と、 この画像撮像部により撮像 した画像を蓄積する画像バッファと、 前記サーバへ依頼す る処理サービスを指示する処理指示部と、 前記画像バッフ ァに蓄積された画像、 前記処理サービスの指示および前記 携帯端末の関連情報からなるデ一夕を前記サーバに送信す るデータ送信部と、 前記サーバにおいて翻訳処理された翻 訳結果を受信する結果受信部と、 受信した前記翻訳結果を 表示する表示部とを備え、 前記サーバは、 前記携帯端末か ら送信されたデ一夕を受信するデータ受信部と、 受信した 前記画像に含まれる 1個の文字列に対して複数個の文字列 を抽出し、 抽出した前記複数個の文字列を翻訳してそれぞ れの翻訳結果を生成する画像内文字列認識 · 翻訳部と、 受 信したデ一夕に含まれる前記処理サービスの指示に従って ■ 前記画像内文字列認識 ·翻訳部を動作させる処理制御部と、 生成された前記翻訳結果を前記関連情報に基づいて前記携 帯端末に送信する結果送信部とを備えたものである。
第 3の発明に係る携帯端末型翻訳システムは、 携帯端末 とこの携帯端末とデータ交換を行うサ一バとからなり、 前 記携帯端末は、 キ一ワードを入力するキ一入力部と、 前記 サーバへ依頼する処理サービスを指示する処理指示部と、 前記キー入力部により入力されたキーワード、 前記処理サ —ビスの指示および前記携帯端末の関連情報からなるデ一 タを前記サーバに送信するデータ送信部と、 前記サーバに おいて翻訳処理された翻訳結果を受信する結果受信部と、 受信した前記翻訳結果を表示する表示部とを備え、 前記サ —バは、 前記携帯端末から送信されたデータを受信するデ —タ受信部と、 受信したデータに含まれる前記キーワード に対する関連文を生成し、 生成された前記関連文を翻訳し て前記翻訳結果を生成するテキス ト翻訳部と、 受信したデ —夕に含まれる前記処理サービスの指示に従って前記テキ ス ト翻訳部を動作させる処理制御部と、 生成された前記翻 訳結果を前記関連情報に基づいて前記携帯端末に送信する 結果送信部とを備えたものである。
第 4の発明に係る携帯端末型翻訳システムは、 サーバの 画像内文字列認識 · 翻訳部が、 異なる複数の条件で画像内 の 1個の文字列を認識することにより複数個の文字列認識 結果を生成する画像内文字列認識部と、 生成した前記複数 個の文字列認識結果をそれぞれ翻訳した複数個の翻訳結果 を生成する画像内文字列翻訳部とを有したものである。 第 5 の発明に係る携帯端末型翻訳システムは、 サーバの 画像内文字列認識 · 翻訳部が、 異なる複数の条件で画像内 の 1個の文字列を認識することにより複数個の文字列認識 結果を生成すると共に、 言語辞書を用いて前記複数個の文 字列認識結果に対してスペリ ングが類似する類似文字列を 生成する画像内文字列認識部と、 生成した前記文字列認識 結果と前記類似文字列のそれぞれを翻訳することにより複 数個の翻訳結果を生成する画像内文字列翻訳部とを有した ものである。
第 6 の発明に係る携帯端末型翻訳システムは、 サーバの テキス ト翻訳部が、 受信したキーワードに基づいて関連文 辞書を参照して前記キーワー ドに関連性の高い複数個の文 章を生成する関連文生成部と、 生成された前記複数個の文 章を翻訳することによ り翻訳結果を生成する関連文翻訳部 とを有したものである。
第 7の発明に係る携帯端末型翻訳システムは、 携帯端末 は、 画像撮像部により一定の時間間隔で連続的に撮像され 画像バッファに蓄積した各画像を順次選択してデータ送信 部に出力する送信画像制御部を備え、 サーバが、 受信した 前記各画像に含まれる文字列の各翻訳結果を順次生成して 前記携帯端末に送信し、 前記携帯端末の表示部が、 前記各 翻訳結果を受信する都度表示するようにしたものである。 第 8 の発明に係る携帯端末型翻訳システムは、 携帯端末 の送信制御部が、 画像パッファから順次読み出す画像につ いて、 新しく撮像された画像とその一つ前に撮像された画 像との差を比較し、 その差が閾値以下となった場合に前記 新しく撮像された画像を選択してデータ送信部に出力する ようにしたものである。
第 9 の発明に係る携帯端末型翻訳システムは、サーバは、 連続的に受信された複数個の画像を合成して 1枚の合成画 像を作成する画像統合部を備え、 画像内文字列認識 · 翻訳 部が、 作成された前記合成画像に含まれる文字列に対する 翻訳結果を生成するようにしたものである。
第 1 0の発明に係る携帯端末型翻訳システムは、 携帯端 末は、 当該携帯端末の現在位置を取得してサーバに送信す るデータに加える G P S部を備え、 前記サーバは、 各施設 の位置を格納した地図データを備え、 前記サーバの処理制 御部が、 受信した前記現在位置に基づいて前記地図データ を参照することにより当該携帯端末を所持するユーザが現 在いる施設を特定し、 当該サーバ内で用いる各種の辞書を 特定された前記施設に対応する専用辞書に置き換えるよう にしたものである。
第 1 1の発明に係る携帯端末型翻訳システムは、 携帯端 末の処理指示部が、 ユーザにより専用辞書の種類を指定で きるように構成し、 指定された前記専用辞書の種類をサ一 バに送信するデータに加え、 前記サーバの処理制御部が、 受信した前記専用辞書の種類に基づいて当該サーバ内で用 T JP02/12281
9 いる各種の辞書を指定された専用辞書に置き換えるように したものである。
第 1 2 の発明に係る携帯端末型翻訳システムは、 携帯端 末は、,画像バッファに蓄積されたカラ一画像あるいはダレ 一スケール画像から文字列と背景を分離するように二値化 した前処理後画像を作成し前記画像バッファに蓄積する画 像前処理部を備え、 前記前処理後画像をサーバに送信して 翻訳結果を得るようにしたものである。
第 1 3 の発明に係る携帯端末型翻訳システムは、 携帯端 末が、 前処理後画像にノイズが含まれる場合にはキー入力 により前記ノイズを囲むノイズ除去対象領域を指定できる ように構成され、 画像前処理部が、 前記ノイズ除去対象領 域内の黒画素を白画素に変換して前処理後画像を編集する ようにしたものである。
第 1 4の発明に係る携帯端末は、 翻訳処理を行うサーバ とデータ交換を行う携帯端末であって、 画像撮像部と、 こ の画像撮像部により撮像した画像を蓄積する画像バッファ と、 キーワードを入力するキー入力部と、 前記サ一バへ依 頼する処理サービスの種類を指定する処理指示部と、 前記 画像バッファに蓄積された画像あるいは入力されたキ一ヮ —ド、 指定した前記処理サービスの種類および前記携帯端 末の関連情報からなるデ一夕を前記サーバに送信するデ一 夕送信部と、 前記サ一バにおいて認識された認識文字列お よび翻訳処理された翻訳結果を受信する結果受信部と、 受 信した前記翻訳結果を表示する表示部とを備えたものであ る。 第 1 5の発明に係る携帯端末は、 翻訳処理を行うサーバ とデータ交換を行う携帯端末であって、 画像撮像部と、 こ の画像撮像部により撮像した画像を蓄積する画像バッファ と、 前記サーバへ依頼する処理サービスを指示する処理指 - 示部と、 前記画像バッファに蓄積された画像、 前記処理サ 一ビスの指示および前記携帯端末の関連情報からなるデ一 夕を前記サーバに送信するデータ送信部と、 前記サーバに おいて認識された認識文字列および翻訳処理された翻訳結 果を受信する結果受信部と、 受信した前記翻訳結果を表示 する表示部とを備えたものである。
第 1 6の発明に係る携帯端末は、 翻訳処理を行うサーバ とデータ交換を行う携帯端末であって、 キーワードを入力 するキー入力部と、 前記サーバへ依頼する処理サ一ビスを 指示する処理指示部と、 入力されたキーワード、 前記処理 サービスの指示および前記携帯端末の関連情報からなるデ 一夕を前記サーバに送信するデ一夕送信部と、 前記サーバ において翻訳処理された翻訳結果を受信する結果受信部と、 受信した前記翻訳結果を表示する表示部とを備えたもので ある。
第 1 7の発明に係る携帯端末は、 画像撮像部により一定 の時間間隔で連続的に撮像され画像バッファに蓄積した各 画像を順次選択してデータ送信部に出力する送信画像制御 部を備え、 表示部が、 サーバから順次受信する前記各画像 に含まれる文字列の各翻訳結果を逐次表示するようにした ものである。
第 1 8の発明に係る携帯端末は、 送信制御部が、 画像バ ッファから順次読み出す画像について、 新しく撮像された 画像とその一つ前に撮像された画像との差を比較し、 その 差が閾値以下となった場合に前記新しく撮像された画像を 選択してデ一夕送信部に出力するようにしたものである。
第 1 9の発明に係る携帯端末は、 G P S機能により当該 携帯端末の現在位置を取得してサーバに送信するデ一夕に 加える G P S部を備えたものである。
第 2 0の発明に係る携帯端末は、 サーバ内で使用する専 用辞書の種類をユーザにより指定できるように構成し、 指 定された前記専用辞書の種類をサーバに送信するデータに 加えるようにしたものである。
第 2 1 の発明に係る携帯端末は、 画像バッファに蓄積さ れたカラー画像あるいはグレースケール画像から文字列と 背景を分離するように二値化した前処理後画像を作成し前 記画像バッファに蓄積する画像前処理部を備え、 前記画像 バッファから読み出した前記前処理後画像をサーバに送信 して翻訳結果を得るようにしたものである。
第 2 2 の発明に係る携帯端末は、 前処理後画像にノイズ が含まれる場合にはキ一入力により前記ノイズを囲むノィ ズ除去対象領域を指定できるように構成され、 画像前処理 部が、 前記ノイズ除去対象領域内の黒画素を白画素に変換 して前処理後画像を編集するようにしたものである。
第 2 3 の発明に係るサーバは、 携帯端末とデータ交換を 行うサーバであって、 前記携帯端末から送信された画像あ るいはキー入力されたキーワード、 指定された処理サ一ビ スの種類および前記携帯端末の関連情報からなるデータを 受信するデータ受信部と、 受信した前記画像に含まれる 1 個の文字列に対して複数個の文字列を抽出し、 抽出した前 記複数個の文字列を翻訳してそれぞれの翻訳結果を生成す る画像内文字列認識 · 翻訳部と、 前記キーワードに対する 関連文を生成し、 生成した前記関連文を翻訳して翻訳結果 を生成するテキス ト翻訳部と、 前記指定された処理サ一ビ スの種類に従って前記画像内文字列認識 · 翻訳部で処理す るか、 あるいは前記テキス ト翻訳部で処理するかを切り替 え制御する処理制御部と、 前記画像内文字列認識 · 翻訳部 あるいは前記テキス ト翻訳部で生成した翻訳結果を前記関 連情報に基づいて前記携帯端末に送信する結果送信部とを 備えたものである。
第 2 4の発明に係るサーバは、 携帯端末とデータ交換を 行うサーバであって、 前記携帯端末から送信された画像、 処理サービスの指示および前記携帯端末の関連情報からな るデータを受信するデ一夕受信部と、 受信した前記画像に 含まれる 1個の文字列に対して複数個の文字列を抽出し、 抽出した前記複数個の文字列を翻訳してそれぞれの翻訳結 果を生成する画像内文字列認識 · 翻訳部と、 受信したデ一 夕に含まれる前記処理サービスの指示に従って前記画像内 文字列認識 · 翻訳部を動作させる処理制御部と、 俞記画像 内文字列認識 · 翻訳部あるいは前記テキス ト翻訳部で生成 した翻訳結果を前記関連情報に基づいて前記携帯端末に送 信する結果送信部とを備えたものである。
第 2 5の発明に係るサーバは、 携帯端末とデータ交換を 行うサーバであって、 キー入力されたキーワード、 処理サ 一ビスの指示および前記携帯端末の関連情報からなるデ一 夕を受信するデータ受信部と、 前記キーワードに対する関 連文を生成し、 生成した前記関連文を翻訳して翻訳結果を 生成するテキス ト翻訳部と、 受信したデ一夕に含まれる前 記処理サービスの指示に従って前記テキス ト翻訳部を動作 させる処理制御部と、 前記テキス ト翻訳部で生成した翻訳 結果を前記関連情報に基づいて前記携畨端末に送信する結 果送信部とを備えたものである。
第 2 6の発明に係るサーバは、 画像内文字列認識 · 翻訳 部が、, 異なる複数の条件で画像内の 1個の文字列を認識す ることにより複数個の文字列認識結果を生成する画像内文 字列認識部と、 生成した前記複数個の文字列認識結果をそ れぞれ翻訳した複数個の翻訳結果を生成する画像内文字列 翻訳部とを有したものである。
第 2 7の発明に係るサーバは、 画像内文字列認識 · 翻訳 部が、 異なる複数の条件で画像内の 1個の文字列を認識す . ることにより複数個の文字列認識結果を生成すると共に、 言語辞書を用いて前記複数個の文字列認識結果に対してス ペリ ングが類似する類似文字列を生成する画像内文字列認 識部と、 生成した前記文字列認識結果と前記類似文字列の それぞれを翻訳することにより複数個の翻訳結果を生成す る画像内文字列翻訳部とを有したものである。
第 2 8の発明に係るサーバは、 テキス ト翻訳部が、 キ一 入力部で入力したキ一ワードに基づいて関連文辞書を参照 して前記キーワードに関連性の高い複数個の文章を生成す る関連文生成部と、 生成された前記複数個の文章を翻訳す ることにより翻訳結果を生成する関連文翻訳部とを有した ものである。
第 2 9の発明に係るサーバは、 連続的に受信された複数 個の画像を合成して 1枚の合成画像を作成する画像統合部 を備え、 画像内文字列認識 · 翻訳部が、 作成された前記合 成画像に含まれる文字列に対する翻訳結果を生成するよう にしたものである。
第 3 0の発明に係るサーバは、 各施設の位置を格納した 地図データを備え、 処理制御部が、 受信したデータに含ま れる携帯端末の現在位置に基づいて前記地図データを参照 することにより当該携帯端末を所持するユーザが現在いる 施設を特定し、 当該サ一バ内で用いる各種の辞書を特定さ れた前記施設に対応する専用辞書に置き換えるようにした ものである。
第 3 1 の発明に係るサーバは、 処理制御部が、 受信した データに含まれる指定された専用辞書の種類に基づいて当 該サーバ内で用いる各種の辞書を指定された専用辞書に置 き換 るようにしたものである。 図面の簡単な説明
図 1 は本発明の実施例 1 による携帯端末型翻訳システム の構成を示すブロック図、
図 2は本発明の実施例 1 に係る画像の撮像状況を説明す る説明図、
図 3は本発明の実施例 1 に係る画像内文字列認識部の処 理手順を示すフローチヤ一 ト、 図 4は本発明の実施例 1 に係る画像内文字列認識部の動 作例を説明する説明図、
図 5は本発明の実施例 1 に係る誤り を含む文字認識処理 の例を説明する説明図、
図 6は本発明の実施例 1 に係る画像内文字列翻訳部の動 作例を説明する説明図、
図 7は本発明の実施例 1 に係る画像内文字列翻訳結果生 成部の動作例を説明する説明図、
図 8は本発明の実施例 1 に係る画像内文字列翻訳結果の 表示例を示す説明図、
図 9は本発明の実施例 1 に係るキーワード入力の表示例 を示す説明図、
図 1 0は本発明の実施例 1 に係る関連文辞書の構成例を 示す説明図、
図 1 1 は本発明の実施例 1 に係る関連文翻訳部の動作例 を説明する説明図、
図 1 2は本発明の実施例 1 に係る関連文翻訳結果の例を 示す説明図、
図 1 3は本発明の実施例 1 に係る関連文翻訳結果の表示 例を示す説明図、
図 1 4は本発明の実施例 2による携帯端末型翻訳システ ムの構成を示すブロック図、
図 1 5は本発明の実施例 2および実施例 3 に係る画像の 撮像状況を示す説明図、
図 1 6は本発明の実施例 2および実施例 3 に係る連続的 に撮像された画像例を示す説明図、 図 1 7 は本発明の実施例 2 に係る送信画像制御部の動作 を説明する説明図、
図 1 8は本発明の実施例 3 による携帯端末型翻訳システ ムの構成を示すブロック図、
図 1 9は本発明の実施例 3 に係る画像統合部の動作を説 明する説明図、
図 2 0は本発明の実施例 4による携帯端末型翻訳システ ムの構成を示すブロック図、
図 2 1 は本発明の実施例 4に係る認識条件指定の例を示 す説明図、
図 2 2は本発明の実施例 5 による携帯端末型翻訳システ ムの構成を示すプロック図、
図 2 3は本発明の実施例 5 に係る画像前処理部の動作を 説明する説明図、
図 2 4は本発明の実施例 5 に係る画像補正処理を説明す る説明図、
図 2 5は従来の技術による携帯端末型画像処理システム に係る処理手順を示すフローチャートである。 発明を実施するための最良の形態
実施例 1 .
図 1 は本発明の実施例 1 による携帯端末型翻訳システム の構成を示すブロック図である。 図において、 1 0 1 は携 帯端末、 1 0 2はデータ送信部、 1 0 3はキー入力部、 1 0 4は処理指示部、 1 0 5は画像撮像部、 1 0 6は画像バ ッファ、 1 0 7は表示部、 1 0 8は結果受信部である。 1 0 9はサーバ、 1 1 0はデータ受信部、 1 1 1 は結果送信 部、 1 1 2は処理制御部、 1 1 3は画像内文字列認識 · 翻 訳部、 1 1 9はテキス ト翻訳部である。画像内文字列認識 - 翻訳部 1 1 3 において、 1 1 4は画像内文字列認識部、 1 1 5は画像内文字列翻訳部、 1 1 6は画像内文字列翻訳結 果生成部、 1 1 7は認識辞書、 i 1 8は言語辞書、 1 2 4 は第 1翻訳辞書である。 テキス ト翻訳部 1 1 9に,おいて、 1 2 0は関連文生成部、 1 2 1 は関連文翻訳部、 1 2 2は 関連文翻訳結果生成部、 1 2 3は関連文辞書、 1 2 5は第 2翻訳辞書である。
図 2は画像の撮像状況を説明する説明図であり、 2 0 1 は文書、 2 0 2はカメラ視野である。 図 3は画像内文字列 認識部の処理手順を示すフローチャートである。 図 4は画 像内文字列認識部の動作例を説明する説明図で、 4 0 1 は 撮像画像、 4 0 2は前処理後画像、 4 0 3は抽出文字列、 4 0 4は切出した文字パターン、 4 0 5は文字認識結果で ある。 図 5は誤りを含む文字認識処理の例を説明する説明 図で、 5 0 1 は切出した文字パターン、 5 0 2は誤りを含 む文字認識結果である。 図 6 は画像内文字列翻訳部の動作 例を説明する説明図で、 6 0 1 は文字列認識結果、 6 0 2 は類似文字列、 6 0 3は文字列認識結果 6 0 1 を翻訳した 文字列翻訳結果、 6 0 4は類似文字列 6 0 2の文字列翻訳 結果である。
図 7は画像内文字列翻訳結果生成部の動作例を説明する 説明図で、 7 0 1 は画像内文字列翻訳結果の例である。 図 8は画像内文字列翻訳結果の表示例を示す説明図で、 8 0 1は認識文字列画像、 8 0 2は画像内文字列翻訳結果の画 像である。図 9はキーワー ド入力の表示例を示す説明図で、 9 0 1はキ一ヮ一 ド入力エリア、 9 0 2は翻訳ポタン表示 である。 図 1 0は関連文辞書の構成例を示す説明図で、 1 0 0 1 は関連文辞書データである。 図 1 1 は関連文翻訳部 の動作例を説明する説明図で、 1 1 0 1は入力テキス ト、 1 1 0 2は関連文、 1 1 0 3, 1 1 0 4は文字列翻訳結果 である。 図 1 2は関連文翻訳結果生成部の動作例を説明す る説明図で、 1 2 0 1 は関連文翻訳結果生成部の出力結果 である。図 1 3は関連文翻訳結果の表示例を示す説明図で、 1 3 0 1 は翻訳結果である。
次に動作について説明する。
ごの翻訳システムは携帯端末 1 0 1 とサーバ 1 0 9で構 成される。 この携帯端末 1 0 1 は、 サーバ 1 0 9 とデ一夕 を送受信する通信機能を備え'ており、 サ一バ 1 0 9 に処理 を依頼して、 その処理結果を受信して表示することができ る。 この携帯端末 1 0 1'とサ一バ 1 0 9間の通信は、 無線 でデータを送受信する方式や赤外線通信でデ一夕を送受信 する方式または有線でデータを送受信する方式により行う。 ここで、 サーバ 1 0 9は 2つのサ一ビスを有する。 一つは 携帯端末の画像撮像部 1 0 5より撮像した画像に含まれる 文字列を翻訳'するサービスであり、 以降これを画像内文字 列認識 · 翻訳サービスと呼ぶ。 もう一つは、 携帯端末のキ —入力部 1 0 3より入力したテキス トの内容を翻訳するサ 一ビスであり、 以降、 これをテキス ト翻訳サービスと呼ぶ。 画像内文字列認識 · 翻訳サービスの動作を説明する。 ユーザは携帯端末 1 0 1 の画像撮像部 1 0 5 により文字 列を含む画像を撮像する。 例えば、 図 2 に示すように携帯 端末 1 0 1 を文書 2 0 1 の前に近づけて、 カメラ視野 2 0 2の範囲を 1枚の画像として撮像する。 この画像撮像部 1 0 5は、 携帯端末 1 0 1 に付属または接続された画像撮像 機能を持つ C C Dや C M O Sセンサ等を備えたカメラであ り、 撮像した画像はカラ一画像もしくはダレ一スケール画 像である。 また、 撮像する対象は文書の一部あるいは看板 や案内板等情景中の文字である。 画像撮像部 1 0 5で撮像 された画像は画像バッファ 1 0 6 に蓄積される。
次に、 処理指示部 1 0 4はサーバ 1 0 9で行う処理サ一 ビスの種類を指定する。 この指定は、 キー入力部 1 0 3か らユーザが行うか、 またはデフォルトの設定を用いて自動 的に行うようになっている。 ここでは、 処理サービスの種 類として、. 画像内文字列認識 · 翻訳を指定する。 処理指示 部 1 0 4により処理サービスが指定されると、 デ一夕送信 部 1 0 2は、 画像バッファ 1 0 6 に蓄積された画像、 処理 指示部 1 0 4で指定した処理サービスの種類および携帯端 末 1 0 1 に関する関連情報 (例えば、 機種コード等) から なるデータをサーバ 1 0 9 に送信する。
サーバ 1 0 9では、 データ受信部 1 1 0 により携帯端末 1 0 1 のデ一夕送信部 1 0 2から送信されたデータを受信 すると、 処理制御部 1 1 2 に入力する。
処理制御部 1 1 2は、 指定した処理サービスの種類に応 じて以降の処理内容を切り替える。 ここでは、 前述したよ うに画像内文字列認識 ·翻訳サービスを指定しているので、 画像内文字列認識 · 翻訳部 1 1 3が動作するように制御さ れる。 仮に処理指示部 1 0 4でテキス ト翻訳サービスが指 定されている場合には、 テキス ト翻訳部 1 1 9が動作する ように制御されることになる。
画像内文字列認識 · 翻訳部 1 1 3では、 まず画像内文字 列認識部 1 1 4が動作し、 携帯端末 1 0 1から送信された データの画像内の文字列を認識する。 この画像内文字列認 識部 1 1 4の具体的な動作を図 3の処理手順に従い説明す る。
まず、 携帯端末 1 0 1から送信された画像に対して前処 理を行い (ステップ S T 2 1 )、 画像内の文字列と背景を分 離した前処理後画像を作成する。 例えば、 携帯端末 1 0 1 から図 4に示すようなカラーの撮像画像 4 0 1が送信され た場合、 この撮像画像 4 0 1 に前処理を適用することで、 背景を白色、 文字列を黒色とした白黒の前処理後画像 4 0 2 を得る。 このような前処理の実現方法については、 論文 T e x t e x t r a c t i o n f r o m c o l o r d o c u m e n t s 一 c l u s t e r i n g a p p r o a c h e s i n t h r e e a n d f o u r d i m e n s i o n s ", T . P e r r o u d , K . S o b o t t k a , H . B u n k e , I n t e r n a t i o n a l C o n f e r e n c e o n D o c u m e n t A n a l y s i s a n d R e c o g n i t i o n ( 2 0 0 1 ) に開示されている。
次に、 前処理後画像から抽出して抽出文字列を得る (ス テツプ S T 2 2 )。 例えば、 図 4の前処理後画像 4 0 2から 抽出文字列 4 0 3 を抽出する。 このような白黒の画像から 文字列を抽出する処理には、 従来の O C Rで既に実現され ている方式が用いられる。 ステップ S T 2 2で抽出した抽 出文字列の内容を文字認識する (ステップ S T 2 3 )。 文字 認識の方法としては、 文字列を構成する 1文字のパターン を切出し、 切出したパターンを認識辞書 1 1 7 と比較して 文字コードに変換する方法が広く知られている。 ここで、 切出したパターンを文字コードに変換する際に、 言語辞書 1 1 8を参照することにより、 言語的に整合性の高い文字 認識結果を得ることができる。 この方法も一般的である。 例えば、 図 4に示す抽出文字列 4 0 3 に本処理を適用した 場合、 まず 1文字づっ切出した文字パターン 4 0 4を得、 それら文字パターン 4 0 4を文字コードに変換することで、 テキス ト化された文字認識結果 4 0 5 を得る。
以上の処理により、 画像内の文字列に対する文字列認識 結果 (テキス ト) を得ることができる。 ただし、 対象とす る画像の解像度が低く、 品質の悪い場合や、 認識対象とす る文字列が飾り文字である場合には、 文字認識結果を誤る ことが多い。 例えば図 5に示すように、 切出した文字バタ —ン 5 0 1 に誤りが生じ、 その結果として誤った文字認識 結果 5 0 2 を得ることがある。 この問題に対処するため、 処理パラメ一夕を変更してステップ S T 2 1 〜 S T 2 3の 処理を複数回繰り返し、 複数個の文字認識結果を得る (ス テツプ S T 2 4 )。 例えば、 図 4の抽出文字列 4 0 3に対し て処理パラメータを変えてステップ S T 2 1 〜 S T 2 3の 処理を 2回繰り返すことで、 図 6で示すように、 2個の文 字列認識結果 6 0 1 として " S t r a t e g i c " と " S t r a n g e r " を得る。 このように、 複数個の文字列認 識結果を取得すれば、 その中に正解の文字列認識結果が含 まれる可能性は高い。 しかし、 ステップ S T 2 4で得た複 数個の文字列認識結果にも正解が含まれない場合がある。 そこで、 言語辞書 1 1 8 を参照して、 ステップ S T 2 4で 得た複数個の文字列認識結果とスペリ ングが類似した文字 列を複数個抽出する (ステップ S T 2 5 )。 例えば図 6 に示 すように、 ステップ S T 2 4で得た 2個の文字列認識結果 6 0 1 から、 スペリ ングの類似した 3個の類似文字列 6 0 2を作成する。 '
画像内文字列認識部 1 1 4は、 ステップ S T 2 4で得た 複数個の文字列認識結果とステップ S T 2 5で得た複数個 の類似文字列とを合せて画像内文字列翻訳部 1 1 5 に出力 する (ステップ S T 2 6 )。 このように複数個の文字列認識 結果とそれらの文字列認識結果に対する複数個の類似文字 列とを出力するため、 その中に正解の文字列認識結果が含 まれる可能性が一層高くなる。 以上が画像内文字列認識部 1 1 4の動作である。
次に画像内文字列翻訳部 1 1 5は、 翻訳に必要な情報を 格納した第 1翻訳辞書 1 2 4を参照して、 画像内文字列認 識部 1 1 4で得た複数個の文字列認識結果を翻訳し、 文字 列翻訳結果を得て画像内文字列翻訳結果生成部 1 1 6 に出 力する。 この翻訳処理は、 例えば図 6 に示すように、 画像 内文字列認識部 1 1 4で得た文字列認識結果 6 0 1 と類似 文字列 6 0 2 に対して、 それぞれ翻訳した文字列翻訳結果 6 0 3, 6 0 4を得る。
画像内文字列翻訳結果生成部 1 1 6は、 画像内文字認識 部 1 1 4で得た文字列認識結果と類似文字列、 および画像 内文字列翻訳部 1 1 5で得た文字列翻訳結果をまとめ、 携 帯端末 1 0 1 に対して送信するためのデータとして画像内 文字列翻訳結果を作成する。 例えば、 図 7の画像内文字列 翻訳結果 7 0 1 は、 図 4に示す撮像画像 4 0 1 に対して得 られたものである。 この画像内文字列翻訳結果 7 0 1 は、 前処理後画像 4 0 2から切出した抽出文字列 4 0 3の位置 座標 (例えば、 文字列を囲む外接矩形の左上点 x, y座標 と外接矩形の幅 w、 高さ h ) を持つ。 加えて、 画像内文字 認識部 1 1 4で得た文字列認識結果と類似文字列、 および 画像内文字列翻訳部 1 1 5で得た文字列翻訳結果を持つ。
サーバ 1 0 9は、 画像内文字列翻訳結果生成部 1 1 6で 作成した文字列翻訳結果を結果送信部 1 1 1から携帯端末 1 0 1 に送信する。
ここで文字列認識結果と類似文字列、 および文字列翻訳 結果のデ一夕形式はテキス トか、 または画像である。 例え ば、 携帯端末 1 0 1が文字列認識結果を構成する言語の文 字を表示する機能を持たない場合、 その文字列認識結果の 描かれた画像を画像内文字列翻訳結果に用いる。 同様に、 携帯端末 1 0 1が文字列翻訳結果を構成する言語の文字を 表示する機能を持たない場合、 その文字列翻訳結果の描か れた画像を画像内文字列翻訳結果に用いる。 ここで、 携帯 端末 1 0 1が特定の言語の文字を表示する機能を持つか否 かの判定は、 携帯端末 1 0 1 の持つデータ送信部 1 0 2か ら送信された携帯端末に関する関連情報 (機種コード等) に基づいて行う。
次に、 携帯端末 1 0 1では、 まず結果受信部 1 0 8が、 サーバ 1 0 9の結果送信部 1 1 1から送信された画像内文 字列翻訳結果を受信する。 その後、 表示部 1 0 7は、 画像 バッファ 1 0 6 に蓄積した撮像画像と受信した画像内文字 列翻訳結果を基に、 撮像画像に含まれる文字列の翻訳結果 を表示部 1 0 7 に表示する。 この表示部 1 0 7は、 液晶デ イスプレイ等の文字や画像を表示することのできる表示装 置である。 例えば図 8 に示すように、 表示部 1 0 7上に認 識した文字列を表す認識文字列画像 8 0 1 を表示し、 同時 に、 文字列認識結果、 類似文字列および文字列翻訳結果か らなる画像内文字列翻訳結果の画像 8 0 2 を表示する。 以 上が、 画像内文字列認識 · 翻訳サービスの実行例である。 テキス ト翻訳サービスの動作'を説明する。
携帯端末 1 0 1 において、 まずユーザがキー入力部 1 0 3により、 翻訳したいテキス トを入力する。 ただし、 一般 の携帯端末ではテキス トの入力に手間を要するため、 ここ ではテキス トの内容に関連したキーワードを入力する。 例 えば 「次のバスは何時に出発しますか?」 というテキス ト を翻訳したい場合、 キーワードとして 「バス」 と 「時間」 を入力する。 図 9は携帯端末でキーワードを入力した例で あり、 入力したキーワードが表示部 1 0 7上のキ一ワード 入力エリア 9 0 1 に表示されている。 キーワードを入力し た後、 ユーザがキー入力部 1 0 3 を操作して表示部 1 0 7 上に表示された翻訳ボタン表示 9 0 2 を実行すると、 翻訳 のための処理を開始する。
処理指示部 1 0 4はサーバ 1 0 9で行う処理サ一ビスの 種類を指定する。 ここでは処理サービスの種類として、 テ キス ト翻訳サ一ビスを指定する。 すると、 データ送信部 1 0 2は、 キ一ワード入力エリア 9 0 1 に入力されたキ一ヮ ー ド、 処理指示部 1 0 4で指定した処理サービスの種類お よび携帯端末 1 0 1 に関する関連情報 (例えば、 機種コー ド等) をサーバ 1 0 9 に送信する。
サーバ 1 0 9 において、 データ受信部 1 1 0が携帯端末 '1 0 1 のデータ送信部 1 0 2から送信されたデータを受信 し、 処理制御部 1 1 2 に入力する。 処理制御部 1 1 2は、 処理指示部 1 0 4で指定した処理サービスの種類に応じて 以降の処理内容を切り替える。 ここでは、 処理指示部 1 0 4でテキス ト翻訳サービスが指定されているため、 テキス ト翻訳部 1 1 9が動作するように制御する。
テキス ト翻訳部 1 1 9では、 まず関連文生成部 1 2 0が 動作し、 携帯端末 1 0 1 から送信されたキーワー ドと関連 文辞書 1 2 3のデ一夕とを基に、 キーワー ドから類推され る文章 (以降、 関連文と呼ぶ) を生成する。 ここで関連文 辞書 1 2 3は、 例えば図 1 0 に示すような関連文辞書デー 夕 1 0 0 1 を持つ。 この関連文辞書デ一夕は多数の関連文 と、 その索引を格納したものである。 関連文生成部 1 2 0 は、 この索引とデータ送信部 1 0 2から送信されたキーヮ 一ドとを比較し、 索引にキーワードを含む関連文を関連文 辞書 1 2 3から読み出し関連文翻訳部 1 2 1 に出力する。 例えば、 キーワードが 「バス」 と 「時間」 の場合、 関連文 辞書デ一夕 1 0 0 1 における関連文 N o . 1 「次のバスは いつ出発しますか?」 と関連文 N o . 2 「バスでどれく ら い時間がかかりますか?」 を出力する。
関連文翻訳部 1 2 1 は、 データ送信部 1 0 2から送信さ れたキ一ワードと関連文生成部 1 2 0で得た関連文を、 第 2翻訳辞書 1 2 5を用いて翻訳する。 例えば、 図 1 1 に示 すキーワードに該当する入力テキス ト 1 1 0 1 と関連文 1 1 0 2 に対して翻訳処理を行い、 それぞれ文字列翻訳結果 1 1 0 3 , 1 1 0 4を得て関連文翻訳結果生成部 1 2 2 に 出力する。 このようなテキス トを翻訳する機能は、 一般の 翻訳ソフ トで既に実現されている方法である。
関連文翻訳結果生成部 1 2 2 は、 データ送信部 1 0 2か ら送信されたキーワー ド、 関連文生成部 1 2 0で得た関連 文および関連文翻訳部 1 2 1で得た文字列翻訳結果をまと めて、 携帯端末 1 0 1 に送るデータとして関連文翻訳結果 を作成し、 結果送信部 1 1 1 に出力する。 例として、 図 1 2の関連文翻訳結果 1 2 0 1が示される。 ここには、 「キ一 ワードと関連文」 およびそれらの 「翻訳結果」 が対応付け て格納されている。
結果送信部 1 1 1 は、 関連文翻訳結果生成部 1 2 2で作 成した関連文翻訳結果を携帯端末 1 0 1 に送信する。
ここで、 翻訳結果のデータ形式は、 テキス トか画像であ る。 例えば、 携帯端末 1 0 1が翻訳結果を構成する言語の 文字を表示する機能を持たない場合、 その翻訳結果の描か れた画像を関連文翻訳結果に用いる。 ここで、 携帯端末 1 0 1が特定の言語の文字を表示する機能を持つか否かの判 定は、 携帯端末 1 0 1 の持つデータ送信部 1 0 2から送信 された携帯端末に関する関連情報 (機種コード等) に基づ いて行う。
携帯端末 1 0 1 は、 結果受信部 1 0 8 により関連文翻訳 結果を受信し、 表示部 1 0 7 に与える。 表示部 1 0 7は、 受信した関連文翻訳結果の内容を表示する。 例えば図 1 3 に示すように、 表示部 1 0 7はテキス ト、 関連分およびそ れらの翻訳結果からなる翻訳結果 1 3 0 1が表示される。 以上が、 テキス ト翻訳サ一ビスの実行例である。
以上のように、 この実施例 1 によれば、 画像内文字列に 対する翻訳と入力したテキス トに対する翻訳の両方に対応 できるシステムを実現する効果が得られる。 画像内文字列 認識 · 翻訳サービスにおいて、 画像内文字列認識部 1 1 4 は、 画像内の文字列から複数個の文字認識結果と複数個の 類似文字列を作成し、 画像内文字列翻訳部 1 1 5では、 そ れら複数個の文字認識結果と複数個の類似文字列に対する それぞれの翻訳結果を作成し、 これら複数個の翻訳結果を 携帯端末 1 0 1 に送信して表示部 1 0 7 に表示するように したので、 文字認識が困難で解像度が低い品質の悪い画像 内の文字や飾り文字に対しても正解率の高い翻訳結果を出 せる効果が得られる。 また、 テキス ト翻訳サービスでは、 携帯端末 1 0 1で入力したキ一ワードから複数個の関連文 を生成し、 それらの翻訳結果を携帯端末 1 0 1 の表示部 1 0 7 に表示するようにしたので、 翻訳したい全てのテキス トを入力する必要がなく、 面倒なテキス ト入力の手間を削 減できると共に、 正解率の高い要求する文章の翻訳結果を 得ることができる効果が得られる。 実施例 2 .
次に本発明の別の実施例に係る画像内文字列認識 · 翻訳 サービスについて説明する。 上記実施例 1 の画像内文字列 認識 · 翻訳サ一ビスでは、 ユーザが携帯端末 1 0 1で 1枚 の画像を撮像した後、その画像をサーバ 1 0 9に送信して、 その画像内に含まれる文字列の翻訳結果を得る。そのため、 一度.に多数の文字列を翻訳する場合、 ユーザは翻訳したい 文字列上にカメラの視野を移動させてシャッターを押す作 業を何度も繰り返す必要があり、 手間を要する。 この課題 は、 ュ一ザが撮像を開始すると、 その後は一定の時間間隔 で自動的に撮像を行い、 その撮像した画像を逐次サーバ 1 0 9で翻訳することにより、 半リアルタイムに翻訳結果を 得るようにできれば解決できる。 実施例 2 はこれを実現す るものである。
実施例 2について図 1 4から図 1 7 を用いて説明する。 図中、 実施例 1 の各図と共通な部分は同一の符号を付し、 その説明を原則として省略する。 図 1 4は実施例 2 による 携帯端末型翻訳システムの構成を示すブロック図で、 1 4 0 1 は送信画像制御部である。 図 1 5は連続的な画像の撮 像状況を示す説明図で、 1 5 0 1はカメラ視野、 1 5 0 2 はカメラ視野の移動軌跡である。 図 1 6は連続的に撮像さ れた画像例を示す説明図で、 1 6 0 1 は連続的に撮像した 画像である。 図 1 7は送信画像制御部の動作を説明する説 明図で、 1 7 0 1 は分割領域である。 次に動作について説明する。
携帯端末 1 0 1 において、 画像内文字列認識 · 翻訳サー ビスを実行する際、 画像撮像部 1 0 5が文字列を含む画像 を撮像する。 実施例 1 と異なり、 画像撮像部 1 0 5は 1度 画像を撮像した後、 一定の時間間隔で連続的に画像を撮像 する。 画像撮像部 1 0 5で撮像した画像は、 毎回、 画像バ ッファ 1 0 6 に蓄積される。 この画像バッファ 1 0 6 には 1枚以上の画像を蓄積することができる。 次に、 送信画像 制御部 1 4 0 1は、 まず画像バッファ 1 0 6 に蓄積された 画像の 1枚を選択するが、 この段階では、 最初に撮像され た画像を選択する。 処理指示部 1 0 4は、 実施例 1 と同様 にサーバ 1 ひ 9で行う処理サ一ビスの種類を指定する。 こ こでは、 処理サービスの種類として画像内文字列認識 · 翻 訳を指定することとする。 '
データ送信部 1 0 2 は、 送信画像制御部 1 4 0 1で選択 した画像、 処理指示部 1 0 4で指定した処理サ一ビスの種 類および携帯端末 1 0 1 に関する関連情報 (例えば、 機種 コー ド等) をサーバ 1 0 9に送信する。
サーバ 1 0 9では、 実施例 1 と同様に、 データ送信部 1 0 2で送信した撮像画像に含まれる文字列を翻訳して、 そ の処理によって得られた画像内文字列翻訳結果を携帯端末 1 0 1 に送信する。 その後、 実施例 1 と同様に、 携帯端末 1 0 1 において、 結果受信部 1 0 8がサーバ 1 0 9からの 画像内文字列翻訳結果を受信して表示部 1 0 7 により受信 した翻訳結果を表示する。
次に、 携帯端末 1 0 1 において、 送信画像制御部 1 4 0 1は画像バッファ 1 0 6に蓄積された別の画像 (今翻訳し た画像の次に撮像された画像) を選択し、 同様にサ一パ 1
0 9 に対して画像内文字列認識 · 翻訳サ一ビスを依頼し、 その翻訳結果を受け取って表示部 1 0 7 に表示する。以降、 画像バッファ 1 0 6 に蓄積された残りの画像に対して、 同 様に一連の処理を順次繰り返す。
上記の一連の処理を繰り返している間、 翻訳したい文章 を全て撮像するために、 携帯端末 1 0 1 のカメラ視野 1 5 0 1 を、 図 1 5 に示すように移動軌跡 1 5 0 2 に従って移 動させていたとする。 その結果、 図 1 6 に示すような 1 1 個の撮像画像 1 6 0 1が得られる。 t は時間を表し、 t = 0が最初に撮像された画像を示し、 t = 1 0が最後に撮像 された画像を示す。 これら各々の撮像画像 1 6 0 1は、 サ —バ 1 0 9に送信され、 最初に撮像された画像から順番に 逐次翻訳され、 その各翻訳結果が携帯端末 1 0 1 の表示部 1 0 7上に表示される。
なお、 ここで送信画像制御部 1 4 0 1 は、 撮像された順 に全ての画像を選択すると説明したが、 全ての画像を選択 してサーバ 1 0 9に画像内文字列認識 · 翻訳サービスを依 頼することは、 送信するデータ量の増加と、 サーバ 1 0 9 の処理量増加を招く。 そこで、 別の基準に従って選択する 画像を絞り込んでも良い。 例えば、 送信画像制御部 1 4 0 1 は、 画像バッファ 1 0 6に蓄積された画像に対して、 図 1 7 に示すように、 縦と横に N等分した分割領域 1 7 0 1 を作成し、 分割領域毎の輝度を求める。 そして、 新しく撮 像された画像と、 その一つ前に撮像された画像とで分割領 域毎の輝度値の差を計算し、 差の合計値が閾値以下となる 場合に、 新しく撮像された画像を選択する。 これにより、 カメラの移動が停止した時点で撮像された画像のみが選択 され、 ユーザが翻訳したい文字列を含む画像のみをサーバ に送信することができる。 図 1 7の例では、 時間 t = 1、 t = 5、 t = 7、 t = 1 0 の撮像画像 1 6 0 1が選択され ることになる。
以上のように、 実施例 2 によれば、 ユーザが撮像を開始 すると、 その後は一定の時間間隔で自動的に撮像を行い、 サーバ 1 0 9側で、 その撮像した画像を逐次翻訳する。 こ れにより、 一度に多数の文字列を翻訳する場合、 ユーザは 翻訳したい文字列上にカメラの視野を移動させてシャツ夕 一を押す作業を何度も繰り返す必要がなく、 ユーザの手間 を削減すると共に、 半リアルタイムに翻訳結果を得ること ができる効果が得られる。 また、 送信画像制御部 1 4 0 1 は、 撮像された画像とその一つ前に撮像された画像との間 で画像の変化量を求め、 その変化量が閾値以下の場合とな る画像を選択してサーバ 1 0 9 に送信するので、 ユーザが 翻訳したい文字列を含む画像のみに対する翻訳結果を得る ' ことができ、 かつデータ送信量とサーバ 1 0 9の処理量を 削減する効果が得られる。 実施例 3 .
上記実施例 1 と 2 の画像内文字列認識 · 翻訳サービスで は、 翻訳したい文字列を 1枚の画像内に含む必要がある。 しかし、 携帯端末 1 0 1 のカメラで撮像した画像は解像度 が低いため、 長い文字列や文章を 1枚の画像内に納めるこ とが困難である。 そのため翻訳可能な文字列の長さが制限 されることになる。 このような課題は、 携帯端末 1 0 1 か ら文字列や文章の断片を撮像した複数枚の画像をサーバ 1 0 9 に送信し、 サーバ 1 0 9側で、 これらの複数枚の画像 から 1枚の大きな合成画像を作成し、 この合成画像に含ま れる文字列を翻訳するようにすれば解決できる。 実施例 3 はこれを実現するものである。
以下、 この発明の実施例 3 について図 1 5、 図 1 6、 図 1 8および図 1 9 を用いて説明するが.、 図中、 実施例 1 と 2の各図と共通な部分は同一の符号を付し、 その説明を原 則的には省略する。 図 1 8はこの発明の実施例 3 による携 帯端末型翻訳システムの構成を示すブロック図で、 1 8 0 1 は画像統合部である。 図 1 9は画像統合部の動作例を説 明する説明図で、 1 9 0 1は合成画像、 1 9 0 2 は合成画 像に対応する前処理後画像、 1 9 0 3は抽出文字列、 1 9 0 4は文字列認識結果、 1 9 0 5は類似文字列である。 次に動作について説明する。
画像内文字列認識 · 翻訳サービスを実行する際、 まず携 帯端末 1 0 1では、 実施例 2 と同様に一定の時間間隔で画 像を取得し、 それら複数の画像を画像バッファ 1 0 6 に蓄 積する。 例えば、 図 1 5に示したようにカメラ視野の移動 軌跡 1 5 0 2に従ってカメラ視野 1 5 0 1 を移動させた場 合、 複数個の撮像画像 1 6 0 1が画像バッファ 1 0 6に蓄 積される。
次に、 処理指示部 1 0 4はサーバ 1 0 9で行う処理サー ビスの種類を指定する。 ここでは処理サービスの種類とし て画像内文字列認識 · 翻訳サービスを指定すると共に、 そ の実行条件として 「合成画像を作成する」 と指定する。 こ の指定は、 キー入力部 1 0 3から人間が行うか、 もしくは デフォルトの設定を用いて自動的に行う。 これにより、 デ 一夕送信部 1 0 2は、 画像バッファ 1 0 6に蓄積された複 数個の画像、 処理指示部 1 0 4で指定した処理サービスの 種類および実行条件、 さらに携帯端末 1 0 1 に関する関連 情報 (例えば、 機種コード等) をサーバ 1 0 9 に送信する。 サーバ 1 0 9では、 まずデータ受信部 1 1 0がデ一夕送 信部 1 0 2から送信されたデータを受信し、 処理制御部 1 1 2 は、 指定された処理サービスの種類に応じて以降の処 理内容を切り替える。 また、 画像内文字列認識 · 翻訳ザ一 ビスが指定されている場合、 画像統合部 1 8 0 1 も動作す る。 画像統合部 1 8 0 1 は、 指定した処理サ一ビスの実行 条件に 「合成画像を作成する」 との指定がある場合、 受信 された複数個の画像を合成して 1枚の合成画像を作成する。 例えば、 図 1 6 に示す複数個の撮像画像 1 6 0 1 を合成す ることで、 図 1 9 に示す合成画像 1 9 0 1 を得る。 このよ うに複数の断片的な画像から 1枚の大きな合成画像を作成 する処理は、 既に市販のディジタルカメラや画像処理ソフ トに搭載されており、 これらの方式を用いて実現すること ができる。
以降、 画像統合部 1 8 0 1で作成した合成画像を対象と して、 画像内文字列認識部 1 1 4が動作する。 この画像内 文字列認識部 1 1 4では実施例 1および 2 と同様な処理を 行う。 例えば図 1 9 に示すように、 合成画像 1 9 0 1から 前処理後画像 1 9 0 2 を作成し、 この前処理後画像 1 9 0 2から抽出文字列 1 9 0 3 を抽出する。 そして、 この抽出 文字列 1 9 0 3に対して複数個の文字列認識結果 1 9 0 4 と類似文字列 1 9 0 5 を得る。 次に、 画像内文字列翻訳部 1 1 5は、 実施例 1および 2 と同様に、 画像内文字列認識 部 1 1 4で得た複数個の内文字列認識結果と類似文字列に 対するそれぞれの文字列翻訳結果を生成する。
文字列翻訳結果が得られると、 画像内文字列翻訳結果生 成部 1 1 6は、 画像内文字列翻訳結果を作成する。 実施例 1お'よび 2では、 画像内文字列翻訳結果は、 図 7 に示した ように文字列位置座標、 文字列認識結果、 類似文字列およ び文字列翻訳結果を持つ。 この実施例 3では、 合成画像か ら抽出した抽出文字列も画像内文字列翻訳結果に追加する。 その後、 実施例 1および 2 と同様に、 画像内文字列翻訳結 果生成部 1 1 6で作成した画像内文字列翻訳結果を結果送 信部 1 1 1 により携帯端末 1 0 1 に送信する。
携帯端末 1 0 1では、 結果受信部 1 0 8が、 サーバ 1 0 9送信された画像内文字列翻訳結果を結果受信部 1 0 8で 受信し、 表示部 1 0 7 に与えて表示する。 この表示結果と しては、 図 8 に示したと同様に、 合成画像から抽出した認 識文字列画像 8 0 1 を表示し、 文字列認識結果、 類似文字 列および文字列翻訳結果を含む画像内文字列翻訳結果の画 像 8 0 2を表示する。
以上のように、 この実施例 3によれば、 携帯端末 1 0 1 から文字列や文章の断片を撮像した複数枚の画像をサーバ 1 0 9 に送信すると、 サーバ 1 0 9はこれらの画像を統合 して 1枚の大きな合成画像を作成し、 この合成画像に含ま れる文字列を認識して抽出し翻訳するようにしたので、 こ れによりカメラの視野に納まらない長い文字列や文章の内 容を翻訳できる効果が得られる。 実施例 4 .
上記実施例 1から 3 において、 サーバが持つ文字列認識 処理や翻訳処理は、 一般用語を対象としたものである。 し かし、 例えば海外のレス トランに入って郷土料理の名前を 翻訳したい場合、 あるいは海外の病院で診断書に記入され た病名を翻訳したい場合等では、 専門性の高い用語を翻訳 する必要がある。 このような場合は、 十分な文字認識性能 および翻訳性能を得ることが困難である。 この課題に対し ては、ュ一ザの指定や携帯端末の G P S ( G 1 o b a 1 P o s i t i o n i n g S y s t e m ) 機能から得られた ユーザの現在位置を基に、 文字認識処理や翻訳処理に用い る各種辞書を適切な専門用語辞書に置き換えて処理を行う ことで解決できる。実施例 4はこれを実現するものである。 以下、 実施例 4について図 2 0および図 2 1 を用いて説 明する。 図中、 実施例 1から 3 と共通な部分は同一の符号 を付し、 原則としてその説明を省略する。 図 2 0は実施例 4による携帯端末型翻訳システムの構成を示すブロック図 で、 2 0 0 1 は G P S部、 2 0 0 2は専用認識辞書、 2 0 0 3は専用言語辞書、 2 0 0 4は第 1専用翻訳辞書、 2 0 0 5は専用関連文辞書、 2 0 0 6 は第 2専用翻訳辞書、 2 0 0 7は地図データである。 図 2 1は認識条件指定の例を 示す説明図で、 2 1 1は選択画面である。
次に動作について説明するが、まず、画像内文字列認識 · 翻訳サービスを実行する場合について説明する。
こ こでは実施例 1から 3 と同様な処理により、 画像撮像 部 1 0 5が文字列を含む画像を撮像して撮像画像を画像バ ッファ 1 0 6 に蓄積する。 その後、 送信画像制御部 1 4 0 1 は、 画像バッファ 1 0 6 に蓄積された 1枚の画像を選択 する。 処理指示部 1 0 4はサーバ 1 0 9で行う処理サービ スの種類とその実行条件を指定する。 ここでは、 処理サ一 ビスの種類として画像内文字列認識 · 翻訳サ一ビスを指定 する。
また、 0 ? 3部 2 0 0 1 は、 G P S機能により人工衛星 の発信した電波から所持している携帯端末 1 0 1 の現在位 置を取得する。 データ送信部 1 0 2は、 送信画像制御部 1 4 0 1で選択した画像と、 処理指示部 1 0 4で指定した処 理サービスの種類および携帯端末 1 0 1 に関する情報をサ ーバ 1 0 9 に送信する。 ここで携帯端末 1 0 1 に関する情 報としては、 関連情報 (例、 機種コ一ド) と G P S部 2 0 0 1で取得した携帯端末 1 0 1 の現在位置とが含まれる。 サーバ 1 0 9では、 実施例 1から 3 と同様に、 データ送 信部 1 0 2で送信した撮像画像に含まれる文字列を翻訳し て、 その結果を携帯端末 1 0 1 に送信する。 ただしその際、 処理制御部 1 1 2は、 G P S部 2 0 0 1で取得した携帯端 末 1 0 1 の現在位置に基づいて地図データ 2 0 0 7の内容 を参照して、 携帯端末を所持するユーザが現在いる施設を 特定する。 そして、 画像内文字列認識 · 翻訳部 1 1 3で用 いる各種の辞書を、 特定された施設に対応する専用辞書に 置き換える。 具体的には、 図 1 に示された認識辞書 1 1 7 と言語辞書 1 1 8 と第 1翻訳辞書 1 2 4を、 専用認識辞書 2 0 0 2 と専用言語辞書 2 0 0 3 と第 1専用翻訳辞書 2 0 0 4にそれぞれ置き換える。
ここで、 地図データ 2 0 0 7 には各種施設の位置情報が 格納されており、 G P S部 2 0 0 1で取得した携帯端末 1 0 1の現在位置から、 ユーザがどの施設にいるかを知るこ とができる。 したがって、 処理制御部 1 1 2は、 その施設 に対応した専用辞書を選択する。 例えば、 ユーザがレス ト ランにいる場合は、 レス トランで使用される確率が高い郷 土料理のメニュー等を含んだ専用辞書を選択する。 以降、 画像内文字列認識 · 翻訳部 1 1 3では、 各専用辞書 2 0 0 2 , 2 0 0 3 , 2 0 0 4を用いて、 実施例 1から 3 と同様 な処理を行う。 そして、 処理した翻訳結果を携帯端末 1 0 1 に送り、 表示部 1 0 7で表示する。 以上が実施例 4にお ける画像内文字列認識 · 翻訳サービスの動作である。
次に、 テキス ト翻訳サ一ビスの動作を説明する。
まず実施例 1 と同様に、 ユーザがキー入力部 1 0 3 によ り翻訳するキ一ワードを入力し、 処理指示部 1 0 4はサー バ 1 0 9で行う処理サービスの種類としてテキス ト翻訳サ 一ビスを指定する。 データ送信部 1 0 2 は、 キー入力部 1 0 3で入力したキーワード、 処理指示部 1 0 4で指定した 処理サービスの種類および携帯端末 1 0 1 に関する情報 (機種コードと、 G P S部 2 0 0 1で取得したユーザの現 在位置) をサーバ 1 0 9 に送信する。
以降、 実施例 1 と同様な処理で翻訳処理を行い、 その結 果を携帯端末 1 0 1 の表示部 1 0 7 に表示する。 ただし、 処理制御部 1 1 2は、 デ一夕送信部 1 0 2で指定された処 理サービスの種類がテキス ト翻訳サービスである場合、 G P S部 2 0 0 1で取得した携帯端末 1 0 1の現在位置に基 づいて地図デ一夕 2 0 0 7の内容を参照し、 携帯端末 1 0 1 を所持するユーザが現在いる施設を特定する。 そして、 テキス ト翻訳部 1 1 9で用いる各種の辞書を特定された施 設に対応する専用辞書に置き換える。 具体的には、 図 1 に 示された関連文辞書 1 2 3 と第 2翻訳辞書 1 2 5 を、 専用 関連文辞書 2 0 0 5 と第 2専用翻訳辞書 2 0 0 6 にそれぞ れ置き換える。 以上が本実施例におけるテキス ト翻訳サ一 ビスの動作である。
なお、 上記の動作説明では、 処理制御部 1 1 2は G P S 部 2 0 0 1で得たユーザの現在位置と地図データ 2 0 0 7 に基づいて專用辞書の種類を選択するとしたが、 代り に携 帯端末 1 0 1から直接に専用辞書の種類を指定するように しても良い。 例えば、 処理指示部 1 0 4により、 表示部 1 0 7 に図 2 1 に示すような専用辞書の種類を表す選択画面 2 1 0 1 を表示し、 ユーザがその中から希望する専用辞書 の種類を指定できるようにする。 そして、 データ送信部 1 0 2がサーバ 1 0 9 に対して画像内文字列認識 · 翻訳サー ビスやテキス ト翻訳サ一ビスを依頼する際に、 処理指示部 1 0 4によりユーザが指定した専用辞書の種類を送信デ一 夕に付けてサーバ 1 0 9へ送信する。 これによ り、 処理制 御部 1 1 2は、 ユーザが指定した専用辞書を選択し画像内 文字列認識 · 翻訳部 1 1 3やテキス 卜翻訳部 1 1 9の処理 を実行するようにする。
以上のように、 この実施例 4によれば、 ユーザにより指 定するか、 あるいは G P S部 2 0 0 1で得た携帯端末 1 0 1 の現在位置とサーバ 1 0 9の持つ地図データ 2 0 0 7 に 基づいてユーザが現在いる施設を特定し、 サーバの文字列 認識処理や翻訳処理に用いる各種辞書を適切な専用辞書に 置き換えるようにしたので、 これにより翻訳結果の性能を 向上させる効果が得られる。 実施例 5 .
上記実施例 1から 4における画像内文字列認識 · 翻訳サ 一ビスでは、 携帯端末 1 0 1からサーバ 1 0 9 に対して画 像撮像部 1 0 5で撮像したカラ一画像もしくはグレースケ ール画像を送信した。 しかし、 カラー画像やダレ一スケ一 ル画像はデータ量が大きいため送信に時間を要する。 この 課題は、 データサイズを削減した画像を作成してサーバに 送信することで解決できる。 実施例 5 はこれを実現するも のである。
以下、 実施例 5 について図 2 2から図 2 4を用いて説明 する。 図中、 実施例 1から 4 と共通な部分は同一の符号を 付し、 原則としてその説明を省略する。 図 2 2は実施例 5 による携帯端末型翻訳システムの構成を示すブロック図で、 2 2 0 1 は画像前処理部である。 図 2 3は画像前処理部の 動作を説明する説明図で、 2 3 0 1 は撮像画像、 2 3 0 2 は前処理後画像である。 図 2 4は画像前処理部における画 像補正処理を説明する説明図で、 2 4 0 1 はノイズ、 2 4 0 2はノイズ除去後の前処理後画像、 2 4 0 3はノイズ除 去対象領域である。
次に動作について説明する。
まず、 実施例 1から 4 と同様に、 画像撮像部 1 0 5は文 字列を含む画像を撮像し、 画像バッファ 1 0 6は画像撮像 '部 1 0 5で撮像した画像を蓄積する。
次に、 画像前処理部 2 2 0 1 は、 画像バッファ 1 0 6に 蓄積された撮像画像に対して画像処理を行い、 画像のデ一 夕量を削減する。 この画像処理は、 サーバ 1 0 9の画像内 文字列認識部 1 1 4の処理手順に含まれる前処理 (図 3の ステップ S T 2 1 ) と同じである。 例えば、 図 2 3 に示す ように、 画像バッファ 1 0 6 に蓄積された画像 2 3 0 1 に 対して前処理を適用すると、 文字列部分を黒く背景部分を 白く した白黒の前処理後画像 2 3 0 2 を得る。 このような 色数が白黒の二色しかない二値化した画像は、 画像撮像部 1 0 5で撮像したカラ一画像やグレースケール画像に比べ てデータ量が小さい。 このようにデータ量を削減した前処 理後画像は再び画像バッファ 1 0 6 に蓄積される。
また、 画像撮像部 1 0 5で撮像した画像上にノィズが含 まれると、そのノイズが前処理後の画像に残る場合がある。 例えば図 2 4では、 ノイズ 2 4 0 1が前処理後画像 2 3 0 2上に黒く残っている。 このようなノイズ 2 4 0 1 は、 文 字認識処理における誤認識の原因となる。 そのため、 画像 前処理部 2 2 0 1 は、 前処理後画像からユーザがノイズを 削除できる機能を持つ。 例えば、 前処理後画像を表示部 1 0 7 に表示して、 ユーザはこれを目視でチェックする。 そ してノイズを発見した場合は、 図 2 4に示すようにノイズ 2 4 0 1 を囲む矩形のノイズ除去対象領域 2 4 0 3 を指定 する。 この指定はキー入力部 1 0 3を操作して行う。 矩形 のノイズ除去対象領域 2 4 0 3が指定されると、 画像前処 理部 2 2 0 1 はノイズ除去対象領域 2 4 0 3 内の黒画素を 白画素に変換し、 ノイズの無い前処理後画像 2 4 0 2 に編 集する。
その後、 携帯端末 1 0 1から画像内文字列認識 · 翻訳サ 一ビスをサーバ 1 0 9 に依頼する際は、 デ一タ送信部 1 0 2は画像バッファ 1 0 6 に蓄積された俞処理後画像をサー バ 1 0 9に送信する。 以降の処理は実施例 1から 4 と同じ である。 ただし、 実施例 1から 4ではサーバ 1 0 9で行つ ていた前処理を既に携帯端末 1 0 1で行っているため、 こ の実施例 5のサーバ 1 0 9では前処理をスキップする。 サ —バ 1 0 9は、 この前処理後画 を受信して、 含まれる文 字列を認識し、 その翻訳結果を得て携帯端末 1 0 1 に送信 する。 以上が実施例 5の動作である。
以上のように、 この実施例 5 によれば、 携帯端末 1 0 1 の画像前処理部 2 2 0 1 で前処理を行い、 カラ一画像ある いはグレースケール画像から文字列と背景を分離するよう に二値化した前処理後画像を作成しサ一パ 1 0 9 に送信し、 前処理後画像に含まれる文字列を翻訳するようにしたので、 データ量を削減でき、 カラ一画像やグレースケール画像に 起因する送信時間を削減すると共に、 サーバ 1 0 9での処 理時間の短縮化が図れる効果が得られる。 また前処理後画 像にノイズが含まれる場合には、 ノイズを除去した前処理 後画像を得るようにしたので、 サーバ 1 0 9側の文字認識 処理時における誤認識を引き起こす原因を取り除く ことが できる効果が得られる。 く 各実施例について説明してきたが、 これらの例は、 画像 撮像部で撮像した画像に含まれる文字列に対する翻訳処理 と、 キー入力部で入力したキーワードについて関連文生成 してその関連文に対する翻訳処理とを共に持つ構成につい てであった。 これらの翻訳処理はシステムとして別々に成 り立つものである。 また、 サーバ側が両方の処理ができる 構成を備えているが、 携帯端末側がいずれか一方の処理だ けを行うデータを送る構成となる場合もある。 ただし、 そ の場合には、 処理指示部や処理制御部等の機能は若干変更 されることになる。 産業上の利用の可能性
本発明は上記のように構成されているので、 携帯端末と この携帯端末とデータ交換を行うサーバとからなり、 携帯 端末は、 画像撮像部と、 この画像撮像部により撮像した画 像を蓄積する画像バッファと、 キーワードを入力するキ一 入力部と、 サーバへ依頼する処理サービスの種類を指定す る処理指示部と、 画像バッファに蓄積された画像あるいは キー入力部により入力されたキーワード、 指定された処理 サービスの種類および携帯端末の関連情報からなるデ一夕 をサーバに送信するデータ送信部と、 サーバにおいて翻訳 処理された翻訳結果を受信する結果受信部と、 受信した翻. 訳結果を表示する表示部とを備え、 サーバは、 携帯端末か ら送信されたデータを受信するデータ受信部と、 受信した 画像に含まれる 1個の文字列に対して複数個の文字列を抽 出し、 抽出した複数個の文字列を翻訳してそれぞれの翻訳 結果を生成する画像内文字列認識 · 翻訳部と、 受信したキ 一ワー ドに対する関連文を生成し、 生成された関連文を翻 訳して翻訳結果を生成するテキス ト翻訳部と、 受信したデ 一夕に含まれる指定された処理サ一ビスの種類に従って画 像内文字列認識 · 翻訳部で処理するか、 あるいはテキス ト 翻訳部で処理するかを切り替え制御する処理制御部と、 画 像内文字列認識 · 翻訳部またはテキス ト翻訳部で生成され た翻訳結果を関連情報に基づいて携帯端末に送信する結果 送信部とを備えるように構成したので、 画像内文字列に対 する翻訳と入力したテキス 卜に対する翻訳の両方に対応で きるシステムを実現する効果がある。 また、 画像内文字列 認識 · 翻訳の処理においては、 文字認識が困難で解像度が 低い品質の悪い画像内の文字や飾り文字に対して、 複数個 の文字列を抽出することで翻訳を行うので、 正解率の高い 翻訳結果が得られる効果があり、 さらに、 テキス ト翻訳の 処理においては、 キーワード入力のため、 翻訳したい全て のテキス トを入力する必要がなく、 テキス ト入力の手間を 削減できる効果がある。
また本発明は上記のように構成されているので、 携帯端 末とこの携帯端末とデータ交換を行うサーバとからなり、 携帯端末は、 画像撮像部と、 この画像撮像部により撮像し た画像を蓄積する画像バッファと、 サーバへ依頼する処理 サービスを指示する処理指示部と、 画像バッファに蓄積さ れた画像、 処理サービスの指示および携帯端末の関連情報 からなるデータをサーバに送信するデ一夕送信部と、 サー バにおいて翻訳処理された翻訳結果を受信する結果受信部 と、 受信した翻訳結果を表示する表示部とを備え、 サーバ は、 携帯端末から送信されたデ一夕を受信するデ一夕受信 部と、 受信した画像に含まれる 1個の文字列に対して複数 個の文字列を抽出し、 抽出した複数個の文字列を翻訳して それぞれの翻訳結果を生成する画像内文字列認識 · 翻訳部 と、 受信したデ一夕に含まれる処理サービスの指示に従つ て画像内文字列認識 · 翻訳部を動作させる処理制御部と、 生成された翻訳結果を関連情報に基づいて携帯端末に送信 する結果送信部とを備えるように構成したので、 文字認識 が困難で解像度が低い品質の悪い画像内の文字や飾り文字 に対しても正解率の高い翻訳結果を得ることができる効果 がある。
また本発明は上記のように構成されているので、 携帯端 末とこの携帯端末とデータ交換を行うサーバとからなり、 携帯端末は、 キーワー ドを入力するキー入力部と、 サーバ へ依頼する処理サ一ビスを指示する処理指示部と、 キー入 力部により入力されたキーワード、 処理サ一ビスの指示お よび携帯端末の関連情報からなるデ一夕をサーバに送信す るデータ送信部と、 サーバにおいて翻訳処理された翻訳結 果を受信する結果受信部と、 受信した翻訳結果を表示する 表示部とを備え、 サーバは、 携帯端末から送信されたデ一 夕を受信するデータ受信部と、 受信したデータに含まれる キーワードに対する関連文を生成し、 生成された関連文を 翻訳して翻訳結果を生成するテキス ト翻訳部と、 受信した デ一夕に含まれる処理サ一ビスの指示に従ってテキス ト翻 訳部を動作させる処理制御部と、 生成された翻訳結果を関 連情報に基づいて携帯端末に送信する結果送信部とを備え るように構成したので、 キーワード入力のため、 翻訳した い全てのテキス トを入力する必要がなく、 面倒なテキス ト 入力の手間を削減できる効果がある。
また本発明は上記のように構成されているので、 サーバ の画像内文字列認識 · 翻訳部が、 処理時のパラメータを変 えるなどして異なる複数の条件で画像内の 1個の文字列を 認識することにより複数個の文字列認識結果を生成する画 像内文字列認識部と、 生成した複数個の文字列認識結果を それぞれ翻訳した複数個の翻訳結果を生成する画像内文字 列翻訳部とを有するように構成したので、 文字認識が困難 で解像度が低い品質の悪い画像内の文字や飾り文字に対し ても正解率の高い翻訳結果を得ることができる効果がある。
また本発明は上記のように構成されているので、 サーバ の画像内文字列認識 · 翻訳部が、 処理時のパラメータを変 えるなどして異なる複数の条件で画像内の 1個の文字列を 認識することにより複数個の文字列認識結果を生成すると 共に、 言語辞書を用いて複数個の文字列認識結果に対して スペリングが類似する類似文字列を生成する画像内文字列 認識部と、 生成した文字列認識結果と類似文字列のそれぞ れを翻訳することにより複数個の翻訳結果を生成する画像 内文字列翻訳部とを有するように構成したので、 認識が困 難で解像度が低い品質の悪い画像内の文字や飾り文字に対 しても正解率の極めて高い翻訳結果を得ることができる効 果がある。
また本発明は上記のように構成されているので、 サーバ のテキス ト翻訳部が、 受信したキーワードに基づいて関連 文辞書を参照してキーワー ドに関連性の高い複数個の文章 を生成する関連文生成部と、 生成された複数個の文章を翻 訳することにより翻訳結果を生成する関連文翻訳部とを有 するように構成したので、 キーワード入力のため、 翻訳し たい全てのテキス トを入力する必要がなく、 面倒なテキス ト入力の手間を削減できると共に、 正解率の高い要求する 文章の翻訳結果を得ることができる効果がある。
また本発明は上記のように構成されているので、 携帯端 末は、 画像撮像部により一定の時間間隔で連続的に撮像さ れ画像バッファに蓄積した各画像を順次選択してデータ送 信部に出力す'る送信画像制御部を備え、 サーバが、 受信し た各画像に含まれる文字列の各翻訳結果を順次生成して携 帯端末に送信し、 携帯端末の表示部が、 各翻訳結果を受信 する都度表示するように構成したので、 一度に多数の文字 列を翻訳する場合、 ユーザは翻訳したい文字列上にカメラ の視野を移動させてシャッターを押す作業を何度も繰り返 す必要もなくユーザの手間を削減すると共に、 半リアル夕 ィムに翻訳結果が得られる効果がある。
また本発明は上記のように構成されているので、 携帯端 末の送信制御部が、 画像バッファから順次読み出す画像に ついて、 新しく撮像された画像とその一つ前に撮像された 画像との差を比較し、 その差が閾値以下となった場合に新 しく撮像された画像を選択してデータ送信部に出力するよ うに構成したので、 連続的な複数の画像からユーザが翻訳 したい文字列を含む画像のみに対する翻訳結果を得ること ができ、 またデータ送信量とサーバの処理量を削減する効 果がある。
また本発明は上記のように構成されているので、 サーバ は、 連続的に受信された複数個の画像を合成して 1枚の合 成画像を作成する画像統合部を備え、 画像内文字列認識 · 翻訳部が、 作成された合成画像に含まれる文字列に対する 翻訳結果を生成するように構成したので、 カメラの視野に 納まらない長い文字列や文章の内容を翻訳できる効果があ る。
また本発明は上記のように構成されているので、 携帯端 末は、 当該携帯端末の現在位置を取得してサーバに送信す るデ一夕に加える G P S部を備え、 サーバは、 各施設の位 置を格納した地図データを備え、 サーバの処理制御部が、 受信した現在位置に基づいて地図データを参照することに より当該携帯端末を所持するユーザが現在いる施設を特定 し、 当該サーバ内で用いる各種の辞書を特定された施設に 対応する専用辞書に置き換えるように構成したので、 ユー ザが意識することなく適切な辞書に切り換えて翻訳を行う ことにより翻訳結果の性能を向上させる効果がある。
また本発明は上記のように構成されているので、 携帯端 末の処理指示部が、 ユーザにより専用辞書の種類を指定で きるように構成し、 指定された専用辞書の種類をサーバに 送信するデータに加え、 サーバの処理制御部が、 受信した 専用辞書の種類に基づいて当該サーバ内で用いる各種の辞 書を指定された専用辞書に置き換えるように構成したので、 ユーザの要求に応じた翻訳に対応でき、 翻訳結果の性能を 向上させる効果がある。
また本発明は上記のように構成されているので、 携帯端 末は、 画像バッファに蓄積されたカラー画像あるいはダレ 一スケール画像から文字列と背景を分離するように二値化 した前処理後画像を作成し画像バッファに蓄積する画像前 処理部を備え、 前処理後画像をサーバに送信して翻訳結果 を得るように構成したので、 データ量を削減でき、 カラ一 画像やグレースケール画像に起因する送信時間を削減する と共に、サーバでの処理時間の短縮化が図れる効果がある。
また本発明は上記のように構成されているので、 携帯端 末が、 前処理後画像にノィズが含まれる場合にはキー入力 により ノイズを囲むノイズ除去対象領域を指定できるよう に構成され、 画像前処理部が、 ノイズ除去対象領域内の黒 画素を白画素に変換して前処理後画像を編集するように構 成したので、 サーバ側の文字認識処理時における誤認識を 引き起こす原因を取り除く ことができる効果がある。
また本発明は上記のように構成されているので、 翻訳処 理を行うサーバとデータ交換を行う携帯端末であって、 画 像撮像部と、 この画像撮像部により撮像した画像を蓄積す る画像バッファと、 キ一ワードを入力するキー入力部と、 サーバへ依頼する処理サービスの種類を指定する処理指示 部と、 画像バッファに蓄積された画像あるいは入力された キーワード、 指定した処理サービスの種類および携帯端末 の関連情報からなるデータをサーバに送信するデ一夕送信 部と、 サーバにおいて認識された認識文字列および翻訳処 理された翻訳結果を受信する結果受信部と、 受信した翻訳 結果を表示する表示部とを備えるように構成したので、 サ ーバ側における画像内文字列に対する翻訳と入力したテキ ス トに対する翻訳の両方のサービスに対応できる携帯端末 を実現する効果がある。
また本発明は上記のように構成されているので、 翻訳処 理を行うサーバとデータ交換を行う携帯端末であって、 画 像撮像部と、 この画像撮像部により撮像した画像を蓄積す る画像バッファと、 サーバへ依頼する処理サービスを指示 する処理指示部と、 画像バッファに蓄積された画像、 処理 サービスの指示および携帯端末の関連情報からなるデ一夕 をサーバに送信するデ一夕送信部と、 サーバにおいて認識 された認識文字列および翻訳処理された翻訳結果を受信す る結果受信部と、 受信した翻訳結果を表示する表示部とを 備えるように構成したので、 サ一バ側における画像内文字 列に対する翻訳を要求し、 その翻訳結果を受信表示できる 携帯端末を実現する効果がある。
また本発明は上記のように構成されているので、 翻訳処 理を行うサーバとデータ交換を行う携帯端末であって、 キ —ワードを入力するキー入力部と、 サーバへ依頼する処理 サービスを指示する処理指示部と、入力されたキーワー ド、 処理サービスの指示および携帯端末の関連情報からなるデ 一夕をサーバに送信するデ一夕送信部と、 サーバにおいて 翻訳処理された翻訳結果を受信する結果受信部と、 受信し た翻訳結果を表示する表示部とを備えるように構成したの で、 翻訳したい全てのテキス トの入力を要しない入力キ一 ワードに関連する翻訳サービスに対応できる携帯端末を実 現する効果がある。
また本発明は上記のように構成されているので、 画像撮 像部により一定の時間間隔で連続的に撮像され画像バッフ ァに蓄積した各画像を順次選択してデータ送信部に出力す る送信画像制御部を備え、 表示部が、 サーバから順次受信 する各画像に含まれる文字列の各翻訳結果を逐次表示する ように構成したので、一度に多数の文字列を翻訳する場合、 ユーザは翻訳したい文字列上にカメラの視野を移動させて シャツ夕一を押す作業を何度も繰り返す必要もなくユーザ の手間を削減すると共に、 半リアルタイムに翻訳結果が得 られる携帯端末を実現する効果がある。
また本発明は上記のように構成されているので、 送信制 御部が、 画像バッファから順次読み出す画像について、 新 しく撮像された画像とその一つ前に撮像された画像との差 を比較し、 その差が閾値以下となった場合に新しく撮像さ れた画像を選択してデ一夕送信部に出力するように構成し たので、 連続的な複数の画像からユーザが翻訳したい文字 列を含む画像のみに対する翻訳結果を得ることができ、 ま たデータ送信量とサーバの処理量を削減する携帯端末を実 現する効果がある。
また本発明は上記のように構成されているので、 G P S 機能により当該携帯端末の現在位置を取得してサーバに送 信するデータに加える G P S部を備えるように構成したの で、 ユーザが意識することなくサーバ側で適切な辞書によ り翻訳を行う場合に適した携帯端末を実現する効果がある。 また本発明は上記のように構成されているので、 サーバ 内で使用する専用辞書の種類をユーザにより指定できるよ うにし、 指定された専用辞書の種類をサーバに送信するデ —夕に加えるように構成したので、 サーバ側でユーザの要 求に応じた適切な辞書により翻訳を行う場合に適した携帯 端末を実現する効果がある。
また本発明.は上記のように構成されているので、 画像バ ッファに蓄積されたカラ一画像あるいはダレ一スケール画 像から文字列と背景を分離するように二値化した前処理後 画像を作成し画像バッファに蓄積する画像前処理部を備え、 画像バッファから読み出した前処理後画像をザ一バに送信 して翻訳結果を得るように構成したので、 デ一夕量を削減 でき、 カラ一画像やグレースケール画像に起因する送信時 間を削減すると共に、 サーバでの処理時間の短縮化が図れ る携帯端末を実現する効果がある。
また本発明は上記のように構成されているので、 前処理 後画像にノイズが含まれる場合にはキー入力によりノィズ を囲むノイズ除去対象領域を指定できるようにし、 画像前 処理部が、 ノイズ除去対象領域内の黒画素を白画素に変換 して前処理後画像を編集するように構成したので、 サーバ 側の文字認識処理時における誤認識を引き起こす原因を取 り除く携帯端末を実現する効果がある。 また本発明は上記のように構成されているので、 携帯端 末とデ一夕交換を行うサーバであって、 携帯端末から送信 された画像あるいはキー入力されたキーワード、 指定され た処理サービスの種類および携帯端末の関連情報からなる データを受信するデータ受信部と、 受信した画像に含まれ る 1個の文字列に対して複数個の文字列を抽出し、 抽出し た複数個の文字列を翻訳してそれぞれの翻訳結果を生成す る画像内文字列認識 · 翻訳部と、 キーワードに対する関連 文を生成し、 生成した関連文を翻訳して翻訳結果を生成す るテキス 卜翻訳部と、 指定された処理サービスの種類に従 つて画像内文字列認識 · 翻訳部で処理するか、 あるいはテ キス ト翻訳部で処理するかを切り替え制御する処理制御部 と、 画像内文字列認識 · 翻訳部あるいはテキス ト翻訳部で 生成した翻訳結果を関連情報に基づいて携帯端末に送信す る結果送信部とを備えるように構成したので、 画像内文字 列に対する翻訳と入力したテキス トに対する翻訳の両方に 対応できるサーバを実現する効果がある。 また、 画像内文 字列認識 · 翻訳の処理においては、 文字認識が困難で解像 度が低い品質の悪い画像内の文字や飾り文字に対して、 複 数個の文字列を抽出することで翻訳を行うので、 正解率の 高い翻訳結果が得られる効果があり、 さらに、 テキス ト翻 訳の処理においては、 受信したキーワードから関連文を生 成するため、 翻訳したい全てのテキス トを取得する必要が なく、 ユーザが要求する翻訳結果を得ることができ、 かつ 携帯端末側での入力時のユーザの負担を軽減できる効果が ある。 また本発明は上記のように構成されているので、 携帯端 末とデータ交換を行うサーバであって、 携帯端末から送信 された画像、 処理サービスの指示および携帯端末の関連情 報からなるデ一夕を受信するデータ受信部と、 受信した画 像に含まれる 1個の文字列に対して複数個の文字列を抽出 し、 抽出した複数個の文字列を翻訳してそれぞれの翻訳結 果を生成する画像内文字列認識 · '翻訳部と、 受信したデー 夕に含まれる処理サービスの指示に従って画像内文字列認 識*翻訳部を動作させる処理制御部と、画像内文字列認識 - 翻訳部あるいはテキス 卜翻訳部で生成した翻訳結果を関連 情報に基づいて携帯端末に送信する結果送信部とを備える ように構成したので、 文字認識が困難で解像度が低い品質 の悪い画像内の文字や飾り文字に対しても正解率の高い翻 訳結果を得るサーバを実現する効果がある。
また本発明は上記のように構成されているので、 携帯端 末とデータ交換を行うサーバであって、 キー入力されたキ —ワード、 処理サービスの指示および携帯端末の関連情報 からなるデータを受信するデ一夕受信部と、 キーワードに 対する関連文を生成し、 生成した関連文を翻訳して翻訳結 果を生成するテキス ト翻訳部と、 受信したデータに含まれ る処理サービスの指示に従ってテキス 卜翻訳部を動作させ る処理制御部と、 テキス 卜翻訳部で生成した翻訳結果を関 連情報に基づいて携帯端末に送信する結果送信部とを備え るように構成したので、 受信したキ一ワードから関連文を 生成するため、 翻訳したい全てのテキス トを受信しなくて も、 ユーザが要求する翻訳結果を得るサーバを実現し、 ま た携帯端末側での入力時のユーザの負担を軽減できる効果 がある。
また本発明は上記のように構成されているので、 画像内 文字列認識 · 翻訳部が、 処理時のパラメ一夕を変えるなど して異なる複数の条件で画像内の 1個の文字列を認識する ことにより複数個の文字列認識結果を生成する画像内文字 列認識部と、 生成した複数個の文字列認識結果をそれぞれ 翻訳した複数個の翻訳結果を生成する画像内文字列翻訳部 とを有するように構成したので、 文字認識が困難で解像度 が低い品質の悪い画像内の文字や飾り文字に対しても正解 率の高い翻訳結果を得るサーバを実現する効果がある。
また本発明は上記のように構成されているので、 画像内 文字列認識 · 翻訳部が、 処理時のパラメ一夕を変えるなど して異なる複数の条件で画像内の 1個の文字列を認識する ことにより複数個の文字列認識結果を生成すると共に、 言 語辞書を用いて複数個の文字列認識結果に対してスペリ ン グが類似する類似文字列を生成する画像内文字列認識部と、 生成した文字列認識結果と類似文字列のそれぞれを翻訳す ることにより複数個の翻訳結果を生成する画像内文字列翻 訳部とを有するように構成したので、 認識が困難で解像度 が低い品質の悪い画像内の文字や飾り文字に対しても正解 率の極めて高い翻訳結果を得るサーバを実現する効果があ る。
また本発明は上記のように構成されているので、 テキス ト翻訳部が、 キー入力部で入力したキーワードに基づいて 関連文辞書を参照してキーワードに関連性の高い複数個の 文章を生成する関連文生成部と、 生成された複数個の文章 を翻訳することにより翻訳結果を生成する関連文翻訳部と を有するように構成したので、 受信したキ一ワー ドから複 数個の関連文を生成するため、 翻訳したい全てのテキス ト を受信しなくてもユーザが要求に対して極めて正解率の高 い翻訳結果を得るサーバを実現し、 また携帯端末側での入 力時のユーザの負担を軽減できる効果がある。
また本発明は上記のように構成されているので、 連続的 に受信された複数個の画像を合成して 1枚の合成画像を作 成する画像統合部を備え、 画像内文字列認識 · 翻訳部が、 作成された合成画像に含まれる文字列に対する翻訳結果を 生成するように構成したので、 カメラの視野に納まらない 長い文字列や文章の内容を翻訳できるサーバを実現する効 果がある。
また本発明は上記のように構成されているので、 各施設 の位置を格納した地図データを備え、 処理制御部が、 受信 したデータに含まれる携帯端末の現在位置に基づいて地図 データを参照することにより当該携帯端末を所持するユー ザが現在いる施設を特定し、 当該サーバ内で用いる各種の 辞書を特定された施設に対応する専用辞書に置き換えるよ うに構成したので、 ユーザが意識することなく適切な辞書 に切り換えて翻訳を行う ことにより翻訳結果の性能を向上 させるサーバを実現する効果がある。
また本発明は上記のように構成されているので、 処理制 御部が、 受信したデ一夕に含まれる指定された専用辞書の 種類に基づいて当該サーバ内で用いる各種の辞書を指定さ れた専用辞書に置き換えるように構成したので、 ユーザの 要求に応じた翻訳に対応でき、 翻訳結果の性能を向上させ るサーバを実現する効果がある。

Claims

請 求 の 範 囲
1 . 携帯端末とこの携帯端末とデータ交換を行うサーバ とからなる携帯端末型画像処理システムであって、
前記携帯端末は、
画像撮像部と、
この画像撮像部により撮像した画像を蓄積する画像バッ ファと、
キーワードを入力するキー入力部と、 前記サーバへ依頼する処理サ一ビスの種類を指定する処 理指示部と、
前記画像バッファに蓄積された画像あるいは前記キ一入 力部により入力されたキーワード、 指定された処理サービ スの種類および前記携帯端末の関連情^からなるデ一夕を 前記サーバに送信するデータ送信部と、
前記サーバにおいて翻訳処理された翻訳結果を受信する 結果受信部と、
受信した前記翻訳結果を表示する表示部とを備え、 前記サーバは、
前記携帯端末から送信されたデータを受信するデータ受 信部と、
受信した前記画像に含まれる 1個の文字列に対して複数 個の文字列を抽出し、 抽出した前記複数個の文字列を翻訳 してそれぞれの翻訳結果を生成する画像内文字列認識 · 翻 訳部と、
受信した前記キーワードに対する関連文を生成し、 生成 された前記関連文を翻訳して翻訳結果を生成するテキス ト 翻訳部と、
受信したデ一夕に含まれる前記指定された処理サービス の種類に従って前記画像内文字列認識 · 翻訳部で処理する か、 あるいは前記テキス ト翻訳部で処理するかを切り替え 制御する処理制御部と、
前記画像内文字列認識 · 翻訳部または前記テキス ト翻訳 部で生成された翻訳結果を前記関連情報に基づいて前記携 帯端末に送信する結果送信部とを備えたことを特徴とする . 携帯端末型画像処理システム。
2 . 携帯端末とこの携帯端末とデータ交換を行うサーバ とからなる携帯端末型画像処理システムであって、
前記携帯端末は、
画像撮像部と、
この画像撮像部により撮像した画像を蓄積する画像バッ ファと、
前記サーバへ依頼する処理サービスを指示する処理指示 部と、
前記画像バッファに蓄積された画像、 前記処理サービス の指示および前記携帯端末の関連情報からなるデータを前 記サーバに送信するデータ送信部と、
前記サーバにおいて翻訳処理された翻訳結果を受信する 結果受信部と、
受信した前記翻訳結果を表示する表示部とを備え、 前記サーバは、
前記携帯端末から送信されたデ一夕を受信するデータ受 信部と、
受信した前記画像に含まれる 1個の文字列に対して複数 個の文字列を抽出し、 抽出した前記複数個の文字列を翻訳 してそれぞれの翻訳結果を生成する画像内文字列認識 · 翻 訳部と、
受信したデータに含まれる前記処理サービスの指示に従 つて前記画像内文字列認識 · 翻訳部を動作させる処理制御 部と、
生成された前記翻訳結果を前記関連情報に基づいて前記 携帯端末に送信する結果送信部とを備えたことを特徴とす る携帯端末型画像処理システム。
3 . 携帯端末とこの携帯端末とデータ交換を行うサーバ とからなる携帯端末型画像処理システムであって、
前記携帯端末は、
キ一ワードを入力するキー入力部と、
前記サーバへ依頼する処理サービスを指示する処理指示 部と、
前記キー入力部により入力されたキーワー ド、 前記処理 サービスの指示および前記携帯端末の関連情報からなるデ —夕を前記サーバに送信するデータ送信部と、
前記サーバにおいて翻訳処理された翻訳結果を受信する 結果受信部と、
受信した前記翻訳結果を表示する表示部とを備え、 前記サーバは、
前記携帯端末から送信されたデータを受信するデータ受 信部と、 受信したデータに含まれる前記キーワードに対する関連 文を生成し、 生成された前記関連文を翻訳して前記翻訳 果を生成するテキス ト翻訳部と、
受信したデータに含まれる前記処理サービスの指示に従つ て前記テキス ト翻訳部を動作させる処理制御部と、
生成された前記翻訳結果を前記関連情報に基づいて前記 携帯端末に送信する結果送信部とを備えたことを特徴とす る携帯端末型画像処理システム。
4 . サーバの画像内文字列認識 · 翻訳部が、
異なる複数の条件で画像内の 1個の文字列を認識するこ とによ り複数個の文字列認識結果を生成する画像内文字列 認識部と、 .
生成した前記複数個の文字列認識結果をそれぞれ翻訳し た複数個の翻訳結果を生成する画像内文字列翻訳部とを有 したことを特徴とする請求の範囲第 1項または請求の範囲 第 2記載の携帯端末型画像処理システム。
5 . サーバの画像内文字列認識 · 翻訳部が、
異なる複数の条件で画像内の 1個の文字列を認識するこ とにより複数個の文字列認識結果を生成すると共に、 言語 辞書を用いて前記複数個の文字列認識結果に対してスペリ ングが類似する類似文字列を生成する画像内文字列認識部 と、
生成した前記文字列認識結果と前記類似文字列のそれぞ れを翻訳することにより複数個の翻訳結果を生成する画像 内文字列翻訳部とを有したことを特徴とする請求の範囲第 1項または請求の範囲第 2項記載の携帯端末型画像処理シ ステム。
6 . サーバのテキス 卜翻訳部が、
受信したキーワー ドに基づいて関連文辞書を参照して前 記キーワードに関連性の高い複数個の文章を生成する関連 文生成部と、
生成された前記複数個の文章を翻訳することにより翻訳 結果を生成する関連文翻訳部とを有したことを特徴とする 請求の範囲第 1項または請求の範囲第 3項記載の携帯端末 型画像処理システム。
7 . 携帯端末は、 画像撮像部により一定の時間間隔で連 続的に撮像され画像バッファに蓄積した各画像を順次選択 してデ一夕送信部に出力する送信画像制御部を備え、 サーバが、 受信した前記各画像に含まれる文字列の各翻 訳結果を順次生成して前記携帯端末に送信し、
前記携帯端末の表示部が、 前記各翻訳結果を受信する都 度表示するようにしたことを特徴とする請求の範囲第 1項 または請求の範囲第 2項記載の携帯端末型画像処理システ ム。
8 . 携帯端末の送信制御部が、 画像バッファから順次読 み出す画像について、 新しく撮像された画像とその一つ前 に撮像された画像との差を比較し、 その差が閾値以下とな つた場合に前記新しく撮像された画像を選択してデ一夕送 信部に出力するようにしたことを特徴とする請求の範囲第 7項記載の携帯端末型画像処理システム。
9 - サ一パは、 連続的に受信された複数個の画像を合成 して 1枚の合成画像を作成する画像統合部を備え、 画像内文字列認識 · 翻訳部が、 作成された前記合成画像 に含まれる文字列に対する翻訳結果を生成するようにした ことを特徴とする請求の範囲第 7項または請求の範囲第 8 項記載の携帯端末型画像処理システム。
1 0 . 携帯端末は、 当該携帯端末の現在位置を取得して サーバに送信するデータに加える G P S部を備え、
前記サーバは、 各施設の位置を格納した地図デ一夕を備 え、
前記サーバの処理制御部が、 受信した前記現在位置に基 づいて前記地.図データを参照することにより当該携帯端末 を所持するユーザが現在いる施設を特定し、 当該サーバ内 で用いる各種の辞書を特定された前記施設に対応する専用 辞書に置き換えるようにしたことを特徴とする請求の範囲 第 1項から請求の範囲第 9項のうちのいずれか 1項記載の 携帯端末型画像処理システム。
1 1 . 携帯端末の処理指示部が、 ユーザにより専用辞書 の種類を指定できるよう に構成し、 指定された前記専用辞 書の種類をサーバに送信するデータに加え、
前記サーバの処理制御部が、 受信した前記専用辞書の種 類に基づいて当該サーバ内で用いる各種の辞書を指定され た専用辞書に置き換えるようにしたことを特徴とする請求 の範囲第 1項から請求の範囲第 9項のうちのいずれか 1項 記載の携帯端末型画像処理システム。
1 2 . 携帯端末は、 画像バッファに蓄積されたカラー画 像あるいはグレースケール画像から文字列と背景を分離す るように二値化した前処理後画像を作成し前記画像バッフ ァに蓄積する画像前処理部を備え、 前記前処理後画像をサ ーバに送信して翻訳結果を得るようにしたことを特徴とす る請求の範囲第 1項、 請求の範囲第 3項から請求の範囲第 5項、 請求の範囲第 7項から請求の範囲第 1 1項のうちの いずれか 1項記載の携帯端末型画像処理システム。
1 3 . 携帯端末が、 前処理後画像にノイズが含まれる場 合にはキー入力により前記ノイズを囲むノイズ除去対象領 . 域を指定できるように構成され、
画像前処理部が、 前記ノイズ除去対象領域内の黒画素を 白画素に変換して前処理後画像を編集するようにしたこと を特徴とする請求の範囲第 1 2項記載の携帯端末型画像処 理システム。
1 4 . 翻訳処理を行うサーバとデータ交換を行う携帯端 末であって、
画像撮像部と、
この画像撮像部により撮像した画像を蓄積する画像バッ ファと、
キーワードを入力するキー入力部と、
前記サーバへ依頼する処理サービスの種類を指定する処 理指示部と、
前記画像バッファに蓄積された画像あるいは入力された キーワード、 指定した前記処理サービスの種類および前記 携帯端末の関連情報からなるデ一夕を前記サーバに送信す るデータ送信部と、
前記サ一バにおいて認識された認識文字列および翻訳処 理された翻訳結果を受信する結果受信部と、 受信した前記翻訳結果を表示する表示部とを備えたこと を特徴とする携帯端末。
1 5 . 翻訳処理を行うサーバとデータ交換を行う携帯端 末であつて、
画像撮像部と、
この画像撮像部により撮像した画像を蓄積する画像バッ ファと、
前記サーバへ依頼する処理サービスを指示する処理指示 部と、
前記画像バッファに蓄積された画像、 前記処理サービス の指示および前記携帯端末の関連情報からなるデータを前 記サーバに送信するデータ送信部と、
前記サーバにおいて認識された認識文字列および翻訳処 理された翻訳結果を受信する結果受信部と、
受信した前記翻訳結果を表示する表示部とを備えたこと を特徴とする携帯端末。
1 6 . 翻訳処理を行うサーバとデータ交換を行う携帯端 末であって、
キ一ワー ドを入力'するキ一入力部と、
前記サーバへ依頼する処理サービスを指示する処理指示 部と、
入力されたキーワード、 前記処理サービスの指示および 前記携帯端末の関連情報からなるデータを前記サーバに送 信するデータ送信部と、
前記サーバにおいて翻訳処理された翻訳結果を受信する 結果受信部と、 受信した前記翻訳結果を表示する表示部とを備えたこと を特徴とする携帯端末。
1 7 . 画像撮像部により一定の時間間隔で連続的に撮像 され画像バッファに蓄積した各画像を順次選択してデータ 送信部に出力する送信画像制御部を備え、
表示部が、 サーバから順次受信する前記各画像に含まれ る文字列の各翻訳結果を逐次表示するようにしたことを特 徵とする請求の範囲第 1 4項または請求の範囲第 1 5項記 載の携帯端末。 ' 1 8 . 送信制御部が、 画像バッファから順次読み出す画 像について、 新しく撮像された画像とその一つ前に撮像さ れた画像との差を比較し、 その差が閾値以下となった場合 に前記新しく撮像された画像を選択してデータ送信部に出 力するようにしたことを特徴とする請求の範囲第 1 7項記 載の携帯端末。
1 9 . G P S機能により当該携帯端末の現在位置を取得 してサーバに送信するデータに加える G P S部を備えたこ とを特徴とする請求の範囲第 1 4項から請求の範囲第 1 8 項のうちのいずれか 1項記載の携帯端末。
2 0 . 処理指示部が、 サーバ内で使用する専用辞書の種 類をユーザにより指定できるように構成し、 指定された前 記専用辞書の種類をサーバに送信するデータに加えるよう にしたことを特徴とする請求の範囲第 1 4項から請求の範 囲第 1 8項のうちのいずれか 1項記載の携帯端末。
2 1 . 画像バッファに蓄積されたカラー画像あるいはグ レースケール画像から文字列と背景を分離するように二値 化した前処理後画像を作成し前記画像バッファに蓄積する 画像前処理部を備え、 前記画像バッファから読み出した前 記前処理後画像をサーバに送信して翻訳結果を得るように したことを特徴とする請求の範囲第 1 4項、 請求の範囲第 1 5項および請求の範囲第 1 7項から請求の範囲第 2 0項 のうちのいずれか 1項記載の携帯端末。
2 2 . 前処理後画像にノイズが含まれる場合にはキー入 力により前記ノイズを囲むノイズ除去対象領域を指定でき るように構成され、
画像前処理部が、 前記ノイズ除去対象領域内の黒画素を 白画素に変換して前処理後画像を編集するようにしたこと を特徴とする請求の範囲第 2 1項記載の携帯端末。
2 3 . 携帯端末とデータ交換を行うサーバであって、 前記携帯端末から送信された画像あるいはキー入力され たキーワー ド、 指定された処理サービスの種類および前記 携帯端末の関連情報からなるデータを受信するデータ受信 部と、
受信した前記画像に含まれる 1個の文字列に対して複数 個の文字列を抽出し、 抽出した前記複数個の文字列を翻訳 してそれぞれの翻訳結果を生成する画像内文字列認識 · 翻 訳部と、
前記キーワードに対する関連文を生成し、 生成した前記 関連文を翻訳して翻訳結果を生成するテキス 卜翻訳部と、 前記指定された処理サービスの種類に従って前記画像内 文字列認識 · 翻訳部で処理するか、 あるいは前記テキス ト 翻訳部で処理するかを切り替え制御する処理制御部と、 前記画像内文字列認識 · 翻訳部あるいは前記テキス ト翻 訳部で生成した翻訳結果を前記関連情報に基づいて前記携 帯端末に送信する結果送信部とを備えたことを特徴とする サーバ。
2 4 . 携帯端末とデータ交換を行うサーバであって、 前記携帯端末から送信された画像、 処理サービスの指示 および前記携帯端末の関連情報からなるデータを受信する データ受信部と、
受信した前記画像に含まれる 1個の文字列に対して複数 個の文字列を抽出し、 抽出した前記複数個の文字列を翻訳 してそれぞれの翻訳結果を生成する画像内文字列認識 · 翻 訳部と、
受信したデータに含まれる前記処理サービスの指示に従 つて前記画像内文字列認識 · 翻訳部を動作させる処理制御 部と、
前記画像内文字列認識 · 翻訳部あるいは前記テキス ト翻 訳部で生成した翻訳結果を前記関連情報に基づいて前記携 帯端末に送信する結果送信部とを備えたことを特徴とする サーバ。
2 5 . 携帯端末とデータ交換を行うサーバであって、 キー入力されたキーワー ド、 処理サービスの指示および 前記携帯端末の関連情報からなるデータを受信するデータ 受信部と、
前記キーワードに対する関連文を生成し、 生成した前記 関連文を翻訳して翻訳結果を生成するテキス ト翻訳部と、 受信したデータに含まれる前記処理サービスの指示に従 つて前記テキス ト翻訳部を動作させる処理制御部と、 前記テキス ト翻訳部で生成した翻訳結果を前記関連情報 に基づいて前記携帯端末に送信する結果送信部とを備えた ことを特徴とするサーバ。
2 6 . 画像内文字列認識 · 翻訳部が、
異なる複数の条件で画像内の 1個の文字列を認識するこ とにより複数個の文字列認識結果を生成する画像内文字列 認識部と、
生成した前記複数個の文字列認識結果をそれぞれ翻訳し た複数個の翻訳結果を生成する画像内文字列翻訳部とを有 したことを特徴とする請求の範囲第 2 3項または請求の範 囲第 2 4項記載のサーバ。
2 7 . 画像内文字列認識 · 翻訳部が、
異なる複数の条件で画像内の 1個の文字列を認識するこ とにより複数個の文字列認識結果を生成すると共に、 言語 辞書を用いて前記複数個の文字列認識結果に対してスペリ ングが類似する類似文字列を生成する画像内文字列認識部 と、
生成した前記文字列認識結果と前記類似文字列のそれぞ れを翻訳することにより複数個の翻訳結果を生成する画像 内文字列翻訳部とを有したことを特徴とする請求の範囲第 2 3項または請求の範囲第 2 4項記載のサーバ。
2 8 . テキス ト翻訳部が、
キー入力部で入力したキーワー ドに基づいて関連文辞書 を参照して前記キーワードに関連性の高い複数個の文章を 生成する関連文生成部と、 生成された前記複数個の文章を翻訳することにより翻訳 結果を生成する関連文翻訳部とを有したことを特徴とする 請求の範囲第 2 5項記載のサーバ。
2 9 . 連続的に受信された複数個の画像を合成して 1枚 の合成画像を作成する画像統合部を備え、
画像内文字列認識 · 翻訳部が、 作成された前記合成画像 に含まれる文字列に対す ¾翻訳結果を生成するようにした ことを特徵とする請求の範囲第 2 3項、 請求の範囲第 2 4 項および請求の範囲第 2 6項および請求の範囲第 2 7項の うちのいずれか 1項記載のサーバ。
3 0 . 各施設の位置を格納した地図デ一夕を備え、 処理制御部が、 受信したデータに含まれる携帯端末の現 在位置に基づいて前記地図データを参照することにより当 該携帯端末を所持するユーザが現在いる施設を特定し、 当 該サーバ内で用いる各種の辞書を特定された前記施設に対 応する専用辞書に置き換えるようにしたことを特徴とする 請求の範囲第 2 3項から請求の範囲第 2 9項のうちのいず れか 1項記載のサーバ。
3 1 . 処理制御部が、 受信したデータに含まれる指定さ れた専用辞書の種類に基づいて当該サーバ内で用いる各種 の辞書を指定された専用辞書に置き換えるようにしたこと を特徴とする請求の範囲第 2 3項から請求の範囲第 2 9項 のうちのいずれか 1項記載のサーバ。
PCT/JP2002/012281 2001-12-10 2002-11-26 Systeme de traitement d'image de terminal cellulaire, terminal cellulaire et serveur WO2003050714A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US10/498,267 US20050221856A1 (en) 2001-12-10 2002-11-26 Cellular terminal image processing system, cellular terminal, and server

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001376254A JP2003178067A (ja) 2001-12-10 2001-12-10 携帯端末型画像処理システム、携帯端末およびサーバ
JP2001-376254 2001-12-10

Publications (1)

Publication Number Publication Date
WO2003050714A1 true WO2003050714A1 (fr) 2003-06-19

Family

ID=19184484

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/012281 WO2003050714A1 (fr) 2001-12-10 2002-11-26 Systeme de traitement d'image de terminal cellulaire, terminal cellulaire et serveur

Country Status (4)

Country Link
US (1) US20050221856A1 (ja)
JP (1) JP2003178067A (ja)
CN (1) CN1615478A (ja)
WO (1) WO2003050714A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100342742C (zh) * 2003-05-18 2007-10-10 刘珉恺 具有图像识别能力的电话机
CN100416591C (zh) * 2005-03-25 2008-09-03 富士施乐株式会社 字符识别电子设备和字符识别方法
US7916948B2 (en) 2004-01-08 2011-03-29 Nec Corporation Character recognition device, mobile communication system, mobile terminal device, fixed station device, character recognition method and character recognition program

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7899243B2 (en) 2000-11-06 2011-03-01 Evryx Technologies, Inc. Image capture and identification system and process
US7680324B2 (en) 2000-11-06 2010-03-16 Evryx Technologies, Inc. Use of image-derived information as search criteria for internet and other search engines
US8224078B2 (en) 2000-11-06 2012-07-17 Nant Holdings Ip, Llc Image capture and identification system and process
US7565008B2 (en) * 2000-11-06 2009-07-21 Evryx Technologies, Inc. Data capture and identification system and process
US9310892B2 (en) 2000-11-06 2016-04-12 Nant Holdings Ip, Llc Object information derived from object images
KR100464040B1 (ko) * 2002-12-16 2005-01-03 엘지전자 주식회사 얼굴 움직임을 이용한 이동 통신 단말기의 제어 방법
US9116890B2 (en) * 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
JP2005332062A (ja) * 2004-05-18 2005-12-02 Sharp Corp 画像処理装置,画像処理システム,画像処理方法,画像処理プログラム及びその画像処理プログラムが記録されたコンピュータ読み取り可能な記録媒体
JP4648697B2 (ja) * 2004-12-27 2011-03-09 アイシン・エィ・ダブリュ株式会社 画像認識装置及び方法、ナビゲーション装置
JP4419891B2 (ja) 2005-03-25 2010-02-24 富士ゼロックス株式会社 翻訳装置、翻訳方法およびプログラム
JP2006303651A (ja) * 2005-04-15 2006-11-02 Nokia Corp 電子装置
WO2007082534A1 (en) * 2006-01-17 2007-07-26 Flemming Ast Mobile unit with camera and optical character recognition, optionally for conversion of imaged text into comprehensible speech
CN101082956B (zh) * 2006-06-02 2010-10-13 英华达(上海)电子有限公司 手持设备上基于图片进行外文翻译的装置及方法
US20080094496A1 (en) * 2006-10-24 2008-04-24 Kong Qiao Wang Mobile communication terminal
US7787693B2 (en) * 2006-11-20 2010-08-31 Microsoft Corporation Text detection on mobile communications devices
CN101193158B (zh) * 2006-11-30 2010-12-08 财团法人工业技术研究院 应用行动通信设备翻译影像文字的方法及其系统
JP4396719B2 (ja) * 2007-03-22 2010-01-13 ブラザー工業株式会社 印刷システム、携帯端末、及び携帯端末プログラム
US8144990B2 (en) 2007-03-22 2012-03-27 Sony Ericsson Mobile Communications Ab Translation and display of text in picture
IL184179A0 (en) * 2007-06-24 2008-03-20 Rdc Rafael Dev Corp Ltd A method and apparatus for connecting a cellular telephone user to the internet
KR101291195B1 (ko) * 2007-11-22 2013-07-31 삼성전자주식회사 문자인식장치 및 방법
JP4626777B2 (ja) * 2008-03-14 2011-02-09 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
EP2144189A3 (en) * 2008-07-10 2014-03-05 Samsung Electronics Co., Ltd. Method for recognizing and translating characters in camera-based image
EP2189926B1 (en) * 2008-11-21 2012-09-19 beyo GmbH Method for providing camera-based services using a portable communication device of a user and portable communication device of a user
JP5223739B2 (ja) * 2009-03-13 2013-06-26 オムロン株式会社 携帯式文字認識装置、文字認識プログラム及び文字認識方法
CN101834894A (zh) * 2010-04-19 2010-09-15 中兴通讯股份有限公司 远程处理方法、装置及系统
EP2577654A1 (en) * 2010-06-02 2013-04-10 Naxos Finance SA Apparatus for image data recording and reproducing, and method thereof
JP4912495B2 (ja) * 2010-10-25 2012-04-11 アイシン・エィ・ダブリュ株式会社 画像認識装置及び方法、ナビゲーション装置
CN102479177A (zh) * 2010-11-23 2012-05-30 英业达股份有限公司 移动装置的实时翻译方法
JP5606385B2 (ja) 2011-04-28 2014-10-15 楽天株式会社 サーバ装置、サーバ装置の制御方法、及び、プログラム
US9082035B2 (en) * 2011-08-29 2015-07-14 Qualcomm Incorporated Camera OCR with context information
US9179278B2 (en) 2011-09-01 2015-11-03 Qualcomm Incorporated Systems and methods involving augmented menu using mobile device
JP5982844B2 (ja) * 2012-02-06 2016-08-31 オムロン株式会社 文字読取用のプログラムおよび文字読取装置
CN102798986A (zh) * 2012-06-13 2012-11-28 南京物联传感技术有限公司 一种智能眼镜及其工作方法
KR20140030361A (ko) * 2012-08-27 2014-03-12 삼성전자주식회사 휴대단말기의 문자 인식장치 및 방법
JP6144168B2 (ja) * 2013-09-27 2017-06-07 シャープ株式会社 翻訳装置およびその制御プログラム
JP6320732B2 (ja) * 2013-11-28 2018-05-09 シャープ株式会社 翻訳装置、および翻訳装置の制御方法
US9613145B2 (en) * 2014-06-18 2017-04-04 Google Inc. Generating contextual search presentations
US9558158B2 (en) 2015-03-06 2017-01-31 Translation Management Systems, Ltd Automated document translation
JP6677601B2 (ja) * 2016-07-29 2020-04-08 株式会社Nttドコモ 翻訳システム
JP6592024B2 (ja) * 2017-02-08 2019-10-16 パナソニック株式会社 文字認識システム、文字認識方法、及び文字認識サーバ
JP6780129B1 (ja) * 2019-03-27 2020-11-04 三菱電機ビルテクノサービス株式会社 設備機器情報収集システム
WO2022195870A1 (ja) * 2021-03-19 2022-09-22 ソニーグループ株式会社 情報処理装置、情報処理方法、情報処理プログラムおよび端末装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1069536A (ja) * 1996-08-28 1998-03-10 Sharp Corp 画像合成装置
JPH1069537A (ja) * 1996-08-28 1998-03-10 Nec Corp 画像合成方法及び画像合成装置
JPH10134004A (ja) * 1996-10-28 1998-05-22 Casio Comput Co Ltd 画像データ処理システム
JPH10312381A (ja) * 1997-05-12 1998-11-24 Nippon Hoso Kyokai <Nhk> 翻訳方法および装置
JP2000194698A (ja) * 1998-12-25 2000-07-14 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2000200275A (ja) * 1999-01-07 2000-07-18 Hitachi Ltd 翻訳装置、記録媒体
JP2000207401A (ja) * 1999-01-20 2000-07-28 Sony Corp 情報処理装置および方法、並びに提供媒体

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1069536A (ja) * 1996-08-28 1998-03-10 Sharp Corp 画像合成装置
JPH1069537A (ja) * 1996-08-28 1998-03-10 Nec Corp 画像合成方法及び画像合成装置
JPH10134004A (ja) * 1996-10-28 1998-05-22 Casio Comput Co Ltd 画像データ処理システム
JPH10312381A (ja) * 1997-05-12 1998-11-24 Nippon Hoso Kyokai <Nhk> 翻訳方法および装置
JP2000194698A (ja) * 1998-12-25 2000-07-14 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2000200275A (ja) * 1999-01-07 2000-07-18 Hitachi Ltd 翻訳装置、記録媒体
JP2000207401A (ja) * 1999-01-20 2000-07-28 Sony Corp 情報処理装置および方法、並びに提供媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Masaaki ISHIBASHI, "Pasokon Tsushin Kikai Hon'yaku System", Medical Care & Computer, 20 October 1993, Vol. 6, No. 1, pages 18 to 25 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100342742C (zh) * 2003-05-18 2007-10-10 刘珉恺 具有图像识别能力的电话机
US7916948B2 (en) 2004-01-08 2011-03-29 Nec Corporation Character recognition device, mobile communication system, mobile terminal device, fixed station device, character recognition method and character recognition program
US8135218B2 (en) 2004-01-08 2012-03-13 Nec Corporation Character recognition device, mobile communication system, mobile terminal device, fixed station device, character recognition method and character recognition program
CN100416591C (zh) * 2005-03-25 2008-09-03 富士施乐株式会社 字符识别电子设备和字符识别方法

Also Published As

Publication number Publication date
JP2003178067A (ja) 2003-06-27
CN1615478A (zh) 2005-05-11
US20050221856A1 (en) 2005-10-06

Similar Documents

Publication Publication Date Title
WO2003050714A1 (fr) Systeme de traitement d&#39;image de terminal cellulaire, terminal cellulaire et serveur
EP2383970B1 (en) Camera based method for text input and keyword detection
EP1553517B1 (en) Character recognition processing device, character recognition processing method, and mobile terminal device
EP2122539B1 (en) Translation and display of text in picture
US8411960B2 (en) Image processing for generating electronic document data in which an object can be searched from an input image
US20030120478A1 (en) Network-based translation system
US20050226507A1 (en) Web service application based optical character recognition system and method
US7623742B2 (en) Method for processing document image captured by camera
WO2004091193A1 (en) Method for capturing of real-time image
CN116469165A (zh) 基于数字人的汉语到手语的翻译方法及系统
JP2002158982A (ja) 画像処理方法、装置及びコンピュータ可読媒体
CN111144141A (zh) 基于拍照功能的翻译方法
JP2005182772A (ja) 文字認識装置、プログラムおよび記録媒体
JP2001008072A (ja) 電子カメラ及びその制御方法
JP7336872B2 (ja) 作業支援システムおよび作業支援方法ならびに作業支援装置
CN111507082A (zh) 文本处理方法和装置、存储介质和电子装置
JP5181935B2 (ja) 画像処理装置、プログラム及び被写体検出方法
JP2006139681A (ja) オブジェクト検出装置
JP2007072671A (ja) 携帯情報処理装置
JP2002216148A (ja) 画像表示制御装置、画像表示制御方法およびその方法をコンピュータに実行させるプログラム
JP2005167500A (ja) マルチメディア翻訳機、端末間翻訳システム、マルチメディア翻訳機の制御方法、制御プログラム、および該プログラムを記録した記録媒体
KR20050054007A (ko) 캠코더 기능의 카메라가 구비된 이동 통신 단말기에서번역 기능을 구현하는 방법
JP2019053461A (ja) 画像処理装置、プログラム及び画像データ
JP2005018507A (ja) 携帯情報端末及びそれを用いた文字認識方法
KR20080044726A (ko) 카메라를 구비한 단말기 및 그의 동작방법

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN US

WWE Wipo information: entry into national phase

Ref document number: 10498267

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 20028271130

Country of ref document: CN