WO2012144006A9 - データ処理装置、データ処理装置の制御方法、及びプログラム - Google Patents

データ処理装置、データ処理装置の制御方法、及びプログラム Download PDF

Info

Publication number
WO2012144006A9
WO2012144006A9 PCT/JP2011/059564 JP2011059564W WO2012144006A9 WO 2012144006 A9 WO2012144006 A9 WO 2012144006A9 JP 2011059564 W JP2011059564 W JP 2011059564W WO 2012144006 A9 WO2012144006 A9 WO 2012144006A9
Authority
WO
WIPO (PCT)
Prior art keywords
document name
language type
character
document
setting
Prior art date
Application number
PCT/JP2011/059564
Other languages
English (en)
French (fr)
Other versions
WO2012144006A1 (ja
Inventor
寺尾 仁秀
Original Assignee
キヤノン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by キヤノン株式会社 filed Critical キヤノン株式会社
Priority to EP11863881.6A priority Critical patent/EP2709036B1/en
Priority to PCT/JP2011/059564 priority patent/WO2012144006A1/ja
Priority to RU2013150985/08A priority patent/RU2560816C2/ru
Priority to JP2013510758A priority patent/JP5847807B2/ja
Priority to CN201180070219.3A priority patent/CN103493066B/zh
Priority to US13/443,777 priority patent/US8831351B2/en
Publication of WO2012144006A1 publication Critical patent/WO2012144006A1/ja
Publication of WO2012144006A9 publication Critical patent/WO2012144006A9/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00331Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/00474Output means outputting a plurality of functional options, e.g. scan, copy or print
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/0048Indicating an illegal or impossible operation or selection to the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/00482Output means outputting a plurality of job set-up options, e.g. number of copies, paper size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00498Multi-lingual facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00501Tailoring a user interface [UI] to specific requirements
    • H04N1/00506Customising to the data to be displayed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32106Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title separate from the image data, e.g. in a different computer file
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32106Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title separate from the image data, e.g. in a different computer file
    • H04N1/32122Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title separate from the image data, e.g. in a different computer file in a separate device, e.g. in a memory or on a display separate from image data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0008Connection or combination of a still picture apparatus with another apparatus
    • H04N2201/0065Converting image data to a format usable by the connected apparatus or vice versa
    • H04N2201/0068Converting from still picture data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0081Image reader
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3202Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of communication or activity log or report
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3212Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image
    • H04N2201/3214Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image of a date
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3212Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image
    • H04N2201/3215Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image of a time or duration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3212Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image
    • H04N2201/3216Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image of a job size, e.g. a number of images, pages or copies, size of file, length of message
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3212Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image
    • H04N2201/3219Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image of a job status, e.g. successful execution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3225Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document
    • H04N2201/3226Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document of identification information or the like, e.g. ID code, index, title, part of an image, reduced-size image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3225Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document
    • H04N2201/3226Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document of identification information or the like, e.g. ID code, index, title, part of an image, reduced-size image
    • H04N2201/3228Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document of identification information or the like, e.g. ID code, index, title, part of an image, reduced-size image further additional information (metadata) being comprised in the identification information
    • H04N2201/3229Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document of identification information or the like, e.g. ID code, index, title, part of an image, reduced-size image further additional information (metadata) being comprised in the identification information further additional information (metadata) being comprised in the file name (including path, e.g. directory or folder names at one or more higher hierarchical levels)
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3225Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document
    • H04N2201/3249Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document data relating to a linked page or object, e.g. hyperlink
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3261Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal
    • H04N2201/3266Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal of text or character information, e.g. text accompanying an image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3273Display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3274Storage or retrieval of prestored additional information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/328Processing of the additional information

Definitions

  • the present invention relates to a data processing apparatus for setting a document name in electronic document data obtained by reading a document, a control method for the data processing apparatus, and a program.
  • OCR Optical Character Recognition
  • the document name of the transmitted document data is displayed on the transmission history screen together with items such as a sender and a transmission date and time.
  • the document name set in the document data is generally displayed on the digital multifunction peripheral.
  • characters such as a document name are displayed on a digital multi-function peripheral, it is usually displayed in a language type set by the language type setting of the operation unit of the digital multi-function peripheral.
  • the document name of the document data in which the character string extracted by OCR by the method of Patent Document 1 is set as the document name may be displayed on the digital multifunction peripheral as described above. For example, this is the case when the document name of the transmitted document data is displayed on the transmission history screen.
  • the character code assigned to the character recognized by OCR in the designated language type is assigned to the character code system of the language type set in the language type setting of the operation unit of the digital multifunction peripheral. There may not be.
  • the present invention performs an appropriate process when the character code recognized by the character recognition process is not assigned to the character code system of the language type set in the language type setting of the operation unit. It aims to provide a means to do.
  • the data processing apparatus of the present invention includes an input unit for inputting document data, a character recognition unit for recognizing the document data input by the input unit in a designated language type, A document name setting means for setting a character string recognized by the character recognition means as at least a part of a document name of the document data input by the input means; and a document name set by the document name setting means.
  • Control means for restricting display of the document name including the character string set by the document name setting means in the case of a code system; Characterized in that it.
  • FIG. 1 is a system configuration diagram including a digital multi-function peripheral that is an example of a data processing apparatus.
  • FIG. 2 is a diagram illustrating a hardware configuration of the digital multifunction peripheral of FIG. 1.
  • FIG. 2 is a diagram illustrating an example of a transmission setting screen displayed on an operation unit of the digital multifunction peripheral of FIG. 1. It is a figure which shows an example of the screen which selects the file format of the document data to transmit. It is a figure which shows an example of the screen which selects the language type designated when performing document name OCR.
  • FIG. 6 is a diagram schematically showing a correspondence relationship between a language type set in a language type setting of an operation unit, a language type specified as an initial value when performing document name OCR, and a character code system.
  • FIG. 5 is a flowchart showing processing executed by the digital multi-functional peripheral of FIG. 1 in response to pressing of a transmission button on the transmission setting screen of FIG. It is an image figure which showed the character string recognized by performing document name OCR.
  • FIG. 5 is a diagram illustrating an example of a transmission history screen displayed when a transmission history button is pressed on the transmission setting screen of FIG. 4. It is a figure which shows the detail of the transmission log
  • FIG. 1 is a diagram showing a configuration of the entire system in the present embodiment.
  • a digital multifunction machine 103 which is an example of a data processing apparatus
  • a file sharing server 101 which is an example of an external apparatus
  • a mail server 102 are connected to a network 104.
  • the digital multifunction peripheral 103 has various image processing functions such as an image reading function, an image transmission function, and an image forming (printing) function.
  • the file sharing server 101 is a computer that operates as a file server that manages files on the network 104 in accordance with a file sharing protocol such as SMB or WebDAV.
  • the mail server 102 is a computer that transmits and receives mail according to an electronic mail protocol such as SMTP or POP.
  • document data obtained by scanning a document with the digital multi-function peripheral 103 and digitizing it is transmitted as a file to the file sharing server 101 according to a protocol such as SMB, or transmitted to the mail server 102 as an email attachment.
  • a protocol such as SMB
  • FIG. 2 is a diagram showing a hardware configuration of the digital multi-function peripheral 103 shown in FIG.
  • the digital multi-function peripheral 103 includes a CPU 201 that controls the entire apparatus, and a RAM 202 that provides a work area for the CPU 201.
  • the ROM 203 stores system programs and application programs. Note that the applications stored in the ROM 203 include applications that extract character strings by OCRing document data input by the scanner 205.
  • the digital multi-function peripheral 103 includes a scanner 205 that reads a document image, and a printer 204 that prints an image based on document data input from the scanner 205 and data input via the network interface 208.
  • the digital multi-function peripheral 103 further includes an HDD 207 that stores data, various setting parameters, and document data.
  • the digital multi-function peripheral 103 has an operation unit 206 (such as a touch panel) in which an input device that receives an operation from a user and a display device that displays an operation screen displayed to perform the operation are integrated. The operation screen displayed on the operation unit 206 is displayed based on the operation screen data stored in the ROM 203.
  • the operation screen data is stored in the ROM 203 or HDD 207 for each of a plurality of language types to be described later.
  • the operation screen data corresponding to the language type is read and displayed on the operation unit 206.
  • the digital multifunction machine 103 further includes a network interface 208 that performs network communication with the file sharing server 101, the mail server 102, and other external devices.
  • FIG. 3 is a diagram illustrating an example of a transmission setting screen displayed on the operation unit 206 in FIG.
  • the digital multi-function peripheral 103 scans and digitizes the document data scanned by the scanner 205 via the network 104 by reading the document on the transmission setting screen in FIG. Send to etc.
  • the transmission destination of the document data is displayed on the transmission destination screen 301.
  • the user selects any of “FAX”, “file”, and “e-mail” with the new destination button 303, and the user arbitrarily inputs the transmission destination on the spot on the operation unit 206, so that it is stored in the HDD 207.
  • Document data can be sent to destinations that are not address book data.
  • the transmission destination set by pressing the new destination button 303 is displayed on the transmission destination screen 301 in the same manner as when the address book button 302 is set.
  • the resolution setting button 304 can set the resolution (200 dpi or the like) of the document to be scanned.
  • the document name OCR 306 (also referred to as title OCR) is pressed
  • the setting of the document name OCR becomes valid.
  • the digital multifunction peripheral 103 performs OCR (Optical Character Recognition) on the scanned and digitized document data. Then, a character string is extracted from the document data, and a document name including the extracted character string is set in the document data.
  • OCR Optical Character Recognition
  • FIG. 4 is a screen for selecting the file format of the document data displayed when the file format button 305 of FIG. 3 is pressed.
  • One of the file formats (JPEG, TIFF, PDF, XPS, OOXML) listed in the file format 401 can be selected.
  • the OK button is pressed on the screen of FIG. 4, the set value is stored in the RAM 202.
  • the cancel button is pressed, the set value becomes invalid.
  • an OCR setting button 402 for setting whether or not to perform OCR (character recognition), an OCR language type 403 that is a language type (language type) for performing OCR, and an OCR language type 403 And a change button 404 for changing.
  • OCR setting button 402 is pressed, OCR is performed with the language type displayed in the OCR language type 403 on the scanned and digitized document data.
  • the OCR language type 403 is set to the same language type as the language type set in the language type setting of the operation unit 206 as an initial value.
  • the language type set in the language type setting of the operation unit 206 is English. Therefore, the OCR language type 403 also sets English as an initial value.
  • the language type set in the language type setting of the operation unit 206 cannot always be set as the language type for OCR. In the case of a language type that can be set as a language type that is set in the language type setting of the operation unit 206 but cannot be set as an OCR language, the language type when OCR another language type is set. The initial value is used.
  • FIG. 6 schematically shows the correspondence between the language types and the character code systems of the language types. Information of each record shown in FIG. 6 is stored in the HDD 207.
  • FIG. 6A shows a correspondence relationship between a language type (hereinafter referred to as “display language type”) 601 and a character code system 602 of the display language type 601 when displayed on the screen of the operation unit 206.
  • FIG. 6B shows a correspondence relationship between a language (hereinafter referred to as “OCR language type”) 603 specified when performing OCR and a character code system 604 of the OCR language type 603.
  • the display language type 601 is a language type that can be displayed on the operation unit 206 by the digital multifunction peripheral 103.
  • a screen is displayed on the operation unit 206 according to the language type set on the language type setting screen (not shown) by the user from the list of display language types 601.
  • the examples of the screens in FIGS. 3 to 5 are states in which “Japanese” is set as the display language type on the language type setting screen (not shown).
  • Japanese is set in the display language type 601
  • the OCR language type 603 set as the initial value is “Japanese”.
  • “English” is set in the display language type 601
  • the OCR language type 603 set as the initial value is “English”.
  • the OCR language type 403 set as an initial value in FIG.
  • the change button 404 is pressed, the screen in FIG. 5 is displayed.
  • FIG. 5 is an example of a screen for selecting an OCR language type.
  • a list of OCR language types supported by the digital multifunction peripheral 103 is read from the HDD 207 and displayed in the field 501.
  • the digital multifunction peripheral 103 stores the value set on the screen of FIG.
  • FIG. 7 is a flowchart showing processing of the digital multi-function peripheral 103 according to this embodiment.
  • a program for executing each step of the flowchart of FIG. 7 is stored in the HDD 207. Then, it is loaded into the RAM 202 and executed by the CPU 201.
  • the CPU 201 acquires a display language type designated as a display language type of the operation unit 206. For example, when the screens of FIGS. 3 to 5 (screens displaying characters in English) are displayed, information of “English” is acquired as the display language type.
  • the OCR language type designation is acquired. For example, when “Japanese” is designated as the OCR language type 403 as in the screen of FIG. 4, “Japanese” is acquired as the OCR language type.
  • OCR is performed using the language type acquired in S702. Therefore, the character recognition accuracy can be improved as compared with the case where no language type is designated when performing OCR.
  • the CPU 201 determines whether or not a character string recognized by OCR is set as a document name (whether or not document name OCR is performed). Specifically, when the setting of the document name OCR 306 in FIG. 3 is set to ON and the setting of the OCR (character recognition) 402 in FIG. 4 is set to ON, the document name It is determined that OCR is performed. When the setting of the document name OCR 306 is set to OFF, or when the setting of the document name OCR 306 is set to ON but the setting of the OCR setting button 402 is set to OFF, the document name OCR is performed. Judge that there is no. If it is determined not to perform the document name OCR (NO in S703), the process proceeds to S712, and normal transmission processing is performed. If it is determined that the document name OCR is to be performed (YES in S703), the process proceeds to S704.
  • the CPU 201 acquires a character code system corresponding to the display language type received in S701 from the table of FIG. For example, when “English” is set as the display language type as in the screens of FIGS. 3 to 5, the character code system Windows-1252 is acquired from the table of FIG.
  • step S ⁇ b> 705 the CPU 201 acquires the character code system of the language type specified as the OCR language type 403 from the table of FIG. 6B.
  • the character code system Shift_JIS is acquired from the table of FIG.
  • the CPU 201 compares the character code system (also referred to as an encoding method) acquired in S704 with the character code system acquired in S705, and determines whether or not they are the same character code system. If it is determined in S706 that the character code system is the same (YES in S706), the CPU 201 performs OCR on the document data (S707). Then, a part of the character string extracted as a result of the OCR is set in the document data as the document name and transmitted to the device indicated by the destination (S708).
  • the character code system also referred to as an encoding method
  • the character code system of the display language type and the character code system of the OCR language type need not be the same character code system. If the character code system of the OCR language type and the character code system of the display language type are compatible, YES may be determined in S706. For example, characters written in ASCII code can be displayed correctly without being garbled even if they are displayed using the Shift_JIS character code system. Therefore, ASCII is a character code system that is compatible with Shift_JIS.
  • the character code system of the display language type is compared with the character code system of the OCR language type, but in order to perform simpler control, the comparison between the language types is performed instead of the character code system. May be.
  • the character code system of both is the common character code system (Windows-1252).
  • NO is determined, and the process proceeds to the document name OCR restriction process.
  • the CPU 201 writes the document name set in S708 in the HDD 207 as part of the transmission history information.
  • FIG. 8 shows a document image on which a character string extracted when the document name OCR is performed in S707 is printed.
  • the character string in the area 801 shown in FIG. 8 is extracted as a result of OCR, the scanned document data is transmitted with the document name “MEETING” set.
  • a character string “DOCUMENT NAME: MEETING” is displayed.
  • FIG. 9 is an example of a transmission history screen.
  • the screen in FIG. 9 is displayed when the transmission history button 308 in FIG. 3 is pressed.
  • the detailed information 902 is pressed, the detailed information of the transmission history in FIG. 10 is displayed. Items that can be displayed as detailed information of the transmission history include the time at which transmission started and the time at which transmission ended, a transmission destination, a transmission document name 1001, a transmission size, and the like.
  • FIG. 10 shows the details of the transmission history of the process of sending the document data with the document name OCR when the original image as shown in FIG. 8 is scanned.
  • step S710 is a process performed when it is determined in S706 that the character code system of the display language type is different from the character code system of the OCR language type 403.
  • the CPU 201 determines whether the digital multifunction peripheral 103 can display characters on the operation unit 206 with a character code compatible with Unicode and can convert the result of OCR into a character code compatible with Unicode. To do. If it is determined that the character can be displayed on the operation unit 206 with the Unicode-compatible character code and the OCR result can be converted into the Unicode-compatible character code (YES in S710), the process proceeds to S707. If it is determined that the Unicode-compatible character cannot be displayed on the operation unit 206 or the OCR result cannot be converted into the Unicode-compatible character code (NO in S710), the process proceeds to the document name OCR restriction process in S711.
  • FIG. 11 is a flowchart showing details of the process in S711 of FIG.
  • the CPU 201 performs OCR on the scanned and digitized document data, but does not set the character string recognized by the OCR as the document name.
  • a default document name that is, a document name set when the document name OCR is OFF
  • the document data in which the default document name is set is transmitted.
  • the default document name is written in the HDD 207 as a transmission history, and the processing of this flowchart is terminated.
  • the default document name is a document name set according to a rule determined in advance by the digital multi-function peripheral 103 without causing garbled characters.
  • a document name such as “year / month / day / hour / minute / second (for example: 2010011170023)” described in the ASCII code is set.
  • a document name of a character code system set in the language type setting of the operation unit 206 may be set.
  • a character string according to the character code system of Windows-1252 is set as the document name.
  • warning message such as “Disable document name OCR setting” may be displayed on the operation unit 206 when the default document name is set in S1101.
  • the document name OCR is set. Even if it is valid, the document name OCR is not performed. That is, the character string extracted as a result of OCR is not set as the document name. Instead, the default document name is set and the document data is transmitted. As a result, garbled document names set in the transmission document data displayed on the transmission history screen can be prevented.
  • the result of OCR is used as the document name.
  • the default document name was set in the document data without using.
  • the above-mentioned problem that is, a document that may be garbled in the operation unit 206 even if the OCR result is set as the document name but the set document name is not written in the transmission history. The problem that the name is displayed can be solved.
  • a character string obtained by OCR (not the default document name) is set in the document data as the document name, and in S1102, the document data having the document name set as the document name OCR is transmitted.
  • control is performed so that the document name information set as the document name OCR is not written to the HDD 207.
  • FIG. 12 is a flowchart for explaining details of S711 in FIG. 7 in the second embodiment.
  • the CPU 201 cancels the reading process based on the settings received on the screens of FIGS. 3 to 5, and in S1202, the CPU 201 displays a warning screen shown in FIG. As a result, control is performed so that transmission processing cannot be executed even if the transmission button 307 is pressed.
  • the character code system of the display language type and the character code system of the OCR language type are different, it is prohibited to execute the document data transmission process.
  • the garbled document name is not displayed on the transmission history screen, and it is possible to prevent the document data from being transmitted with the document name set against the content designated by the user.
  • a warning screen can be displayed to notify the user to that effect.
  • the present invention can also be realized by executing the following processing. That is, software (program) that realizes the functions of the above-described embodiments is supplied to a system or apparatus via a network or various storage media, and a computer (or CPU, MPU, or the like) of the system or apparatus reads the program. It is a process to be executed.

Abstract

 表示言語と文書名OCR時に使用するOCR言語を異なる設定にした場合、画面に表示される送信文書名が正しく表示されない場合がある。 文書データに基づいて認識された文字列を含む文書名を、前記読取手段によって生成された文書データに設定する文書名設定手段と、文字認識言語指定手段によって指定された言語と、表示言語設定手段によって指定された言語とが異なる場合、文書名設定手段が前記文書名を設定することを制限する制御手段を有することを特徴とする。

Description

データ処理装置、データ処理装置の制御方法、及びプログラム
 本発明は、原稿を読み取って電子化した文書データに文書名を設定するデータ処理装置、データ処理装置の制御方法、及びプログラムに関する。
 従来、デジタル複合機やスキャナなどのデータ処理装置において、スキャンして電子化した文書データに対して文字認識処理(以後、「OCR(Optical Character Recognition)」という)を行う技術が知られている。そして、OCRを行って抽出した文字列を、その文書データの文書名として設定する技術も一般的に知られている(特許文献1参照)。更に、OCRを行う前に、言語の種類(例えば、日本語、英語等、以下「言語種」という)をユーザに指定させ、その指定された言語種でOCRを行うことも知られている。指定された言語種でOCRを行うことにより、OCRする際の文字認識精度を向上させることができる。
 また別の従来技術として、スキャンして電子化した文書データを指定の宛先へ送信した場合に、送信履歴画面に、送信者や送信日時などの項目とともに、送信した文書データの文書名も表示する場合がある。このように、文書データに設定した文書名を、デジタル複合機で表示することは一般的に行われている。デジタル複合機で文書名等の文字を表示する場合、デジタル複合機の操作部の言語種設定により設定された言語種で表示されることが通常である。
特開平9-134406号公報
 特許文献1の方法でOCRして抽出した文字列を文書名として設定した文書データの文書名を、上述のように、デジタル複合機で表示する場合がある。例えば、送信した文書データの文書名を送信履歴画面に表示する場合などがこれにあたる。この場合、指定された言語種でOCRして文字認識された文字に割り当てられた文字のコードが、デジタル複合機の操作部の言語種設定で設定された言語種の文字コード体系には割り当てられていないことがある。
 例えば、OCRを行う際に指定された言語種が「日本語」であって、デジタル複合機の操作部の言語種設定で設定された言語種が「英語」である場合を考える。このとき、OCRして日本語の言語種で抽出した文字のコードには、英語の文字コード体系(例えばWindows-1252)には割り当てられていないコードがある。そのため、設定した文書名をデジタル複合機で英語の言語種で表示しようとしたときに文字化けが起こることがある。
 また、指定された言語種で文字認識された文字のコードが、デジタル複合機の操作部の言語種設定で設定された言語種の文字コード体系においては異なる文字に割り当てられている場合にも文字化けは起こる。
 本発明は、上記課題に鑑みて、文字認識処理によって文字認識された文字のコードが、操作部の言語種設定で設定された言語種の文字コード体系に割り当てられていない場合、適切な処理を行う手段を提供することを目的とする。
 上記目的を達成するために、本発明のデータ処理装置は、文書データを入力する入力手段と、前記入力手段によって入力された文書データを、指定された言語種で文字認識する文字認識手段と、前記文字認識手段によって文字認識された文字列を、前記入力手段によって入力された文書データの文書名の少なくとも一部として設定する文書名設定手段と、前記文書名設定手段によって設定された文書名を操作部に表示する表示手段と、前記文字認識手段によって文字認識する場合に指定された文字コード体系が、前記操作部の言語種設定で設定された言語種の文字コード体系と互換性がない文字コード体系である場合、前記文書名設定手段によって設定される前記文字列を含む文書名を前記表示手段が表示することを制限する制御手段とを有することを特徴とする。
 本発明によれば、指定された言語種で文字認識された文字列の文書名を表示手段に表示したときに起こり得る文字化けを防止できる。
データ処理装置の一例であるデジタル複合機を含むシステム構成図である。 図1のデジタル複合機のハードウェア構成を示す図である。 図1のデジタル複合機の操作部に表示される送信設定画面の一例を示す図である。 送信する文書データのファイル形式を選択する画面の一例を示す図である。 文書名OCRを行う場合に指定する言語種を選択する画面の一例を示す図である。 操作部の言語種設定で設定される言語種、文書名OCRを行う場合に初期値として指定する言語種、及び文字コード体系の対応関係を模式的に示した図である。 図4の送信設定画面で送信ボタンが押されたことに従って図1のデジタル複合機が実行する処理を示すフローチャートである。 文書名OCRを行って認識される文字列を示したイメージ図である。 図4の送信設定画面で送信履歴ボタンが押された場合に表示される送信履歴画面の一例を示す図である。 図9の送信履歴画面の詳細を示す図である。 第1の実施形態において図7のステップS711の詳細を説明するためのフローチャートである。 第2の実施形態において図7のステップS711の詳細を説明するためのフローチャートである。 操作部の言語種設定で設定される言語種の文字コード体系とOCRする際の言語種の文字コード体系が異なる場合に表示する警告画面の一例を示す図である。
 以下、本発明を実施するための形態について、図面を用いて説明する。
(実施形態1)
 図1は、本実施形態におけるシステム全体の構成を示す図である。本システムでは、ネットワーク104上に、データ処理装置の一例であるデジタル複合機103と、外部装置の一例であるファイル共有サーバ101、メールサーバ102とが接続されている。デジタル複合機103は、画像読取機能、画像送信機能、画像形成(印刷)機能などの各種画像処理機能を有する。ファイル共有サーバ101は、SMBやWebDAV等のファイル共有プロトコルに従いネットワーク104上でファイルを管理するファイルサーバとして動作するコンピュータである。メールサーバ102は、SMTPやPOP等の電子メールプロトコルに従ってメールを送受信するコンピュータである。
 本実施形態では、デジタル複合機103で原稿をスキャンして電子化した文書データを、SMB等のプロトコルに従ってファイルとしてファイル共有サーバ101に送信したり、電子メールに添付してメールサーバ102に送信したりする例について説明する。
 図2は、図1に示すデジタル複合機103のハードウェア構成を示す図である。デジタル複合機103は、装置全体を制御するCPU201、CPU201のワークエリアを提供するRAM202を有する。ROM203には、システムプログラムやアプリケーションプログラムが格納されている。なおROM203に格納されているアプリケーションには、スキャナ205で入力された文書データをOCRして文字列を抽出するアプリケーションが含まれる。
 更に、デジタル複合機103は、原稿画像を読み取るスキャナ205、及び、スキャナ205から入力された文書データやネットワークインタフェース208を介して入力されたデータに基づき画像を印刷するプリンタ204を有する。更にデジタル複合機103は、データや各種の設定パラメータや文書データを記憶するHDD207を有する。更にデジタル複合機103は、ユーザから操作を受け付ける入力装置と、その操作を行うために表示する操作画面を表示する表示装置とが一体となった操作部206(タッチパネル等)を有する。操作部206に表示される操作画面は、ROM203に格納された操作画面のデータに基づき表示される。操作画面のデータは、後述する複数の言語種毎にROM203又はHDD207に格納されている。ユーザが操作部206を介して複数の言語種のいずれか1つを選択すると、その言語種に対応する操作画面のデータを読み出し、操作部206に表示する。
[規則91に基づく訂正 22.03.2012] 
 更にデジタル複合機103は、ファイル共有サーバ101や、メールサーバ102、他の外部機器とのネットワーク通信を行うネットワークインタフェース208を有する。
 図3は、図2の操作部206に表示される送信設定画面の一例を示す図である。図3の送信設定画面で原稿を読み取って文書データを送信する指示を行うことにより、デジタル複合機103は、スキャナ205でスキャンして電子化した文書データを、ネットワーク104を介してファイル共有サーバ101等に送信する。
 アドレス帳ボタン302が押下され、HDD207に保存されているアドレス帳データが読み出されて選択されると、送信宛先画面301に文書データの送信宛先が表示される。また、新規宛先ボタン303で「FAX」、「ファイル」、「電子メール」のいずれかを選択して、ユーザが任意にその場で送信宛先を操作部206で入力することで、HDD207に保存されていないアドレス帳データの宛先に対しても文書データを送信できる。なお新規宛先ボタン303を押下して設定した送信宛先は、アドレス帳ボタン302で設定したときと同様に送信宛先画面301に表示される。
 解像度設定ボタン304では、スキャンする文書の解像度(200dpi等)を設定することが可能である。
 文書名OCR306(タイトルOCRともいう)を押下することで、文書名OCRの設定が有効になる。この設定が有効になると、デジタル複合機103は、スキャンして電子化した文書データに対してOCR(Optical Character Recognition)を行う。そして、文書データから文字列を抽出し、抽出した文字列を含む文書名を文書データに設定する。
[規則91に基づく訂正 22.03.2012] 
 ファイル形式ボタン305を押下することで、図4のファイル形式を選択するための画面が表示される。
 図4は、図3のファイル形式ボタン305が押下された場合に表示される、文書データのファイル形式を選択するための画面である。ファイル形式401に列挙されているファイル形式(JPEG、TIFF、PDF、XPS、OOXML)から1つ選択することができる。図4の画面でOKボタンが押下されると、設定した値をRAM202に記憶する。キャンセルボタンが押下されると設定した値は無効となる。
 ファイル形式401で、OCRが可能なファイル形式、すなわち、PDF、XPS、OOXMLのいずれかのファイル形式を選択した場合、図4の画面右側に示すようなポップアップ画面を表示する。ポップアップ画面には、OCR(文字認識)を行うか否かを設定するためのOCR設定ボタン402と、OCRを行う際の言語の種類(言語種)であるOCR言語種403と、OCR言語種403を変更するための変更ボタン404とが表示される。OCR設定ボタン402を押下すると、スキャンして電子化した文書データに対して、OCR言語種403に表示されている言語種でOCRを行う。なお本実施形態では、OCR言語種403は、初期値として、操作部206の言語種設定で設定された言語種と同じ言語種が設定されている。図4の例では、操作部206の言語種設定で設定された言語種は英語である。そのため、OCR言語種403も、英語を初期値として設定している。ただし、操作部206の言語種設定で設定される言語種が、必ずしも、OCRする際の言語種として設定できるとは限らない。操作部206の言語種設定で設定される言語種としては設定可能な言語種であるがOCR言語としては設定不可能な言語種の場合には、別の言語種をOCRする際の言語種の初期値としている。
 図6に、言語種と言語種の文字コード体系との対応関係を模式的に示す。なお図6に示す各レコードの情報は、HDD207に記憶されている。
 図6(a)は、操作部206の画面に表示する際の言語種(以下、「表示言語種」という)601とその表示言語種601の文字コード体系602の対応関係を示す。図6(b)は、OCRする時に指定される言語(以下、「OCR言語種」という)603とOCR言語種603の文字コード体系604の対応関係を示す。表示言語種601は、デジタル複合機103が操作部206に表示することが可能な言語種である。表示言語種601の一覧からユーザによって不図示の言語種設定画面で設定された言語種に従って、画面が操作部206に表示される。なお図3~5の画面の例は、不図示の言語種設定画面で、表示言語種として「日本語」が設定されている状態である。
 表示言語種601に「日本語」が設定されている場合には、初期値として設定されているOCR言語種603は「日本語」である。表示言語種601に「英語」が設定されている場合には、初期値として設定されているOCR言語種603は「英語」となっている。
 図4の説明に戻る。図4に初期値として設定されているOCR言語種403は、変更ボタン404によって変更できる。変更ボタン404を押下すると、図5の画面が表示される。
[規則91に基づく訂正 22.03.2012] 
 図5は、OCR言語種を選択するための画面の一例である。デジタル複合機103が対応しているOCR言語種の一覧をHDD207から読み出してフィールド501に表示する。ユーザが所望の言語種をOCR言語種として選択し、OKボタンを押下すると、デジタル複合機103は、図5の画面で設定した値をRAM202に記憶する。
[規則91に基づく訂正 22.03.2012] 
 図3~図5の画面で上述の設定がされ図3の送信ボタン307が押下されると、図7のフローチャートの処理が開始され、デジタル複合機103は上述の設定に従った文書データを送信する。
 図7は、本実施形態におけるデジタル複合機103の処理を示すフローチャートである。図7のフローチャートの各ステップを実行するためのプログラムは、HDD207に記憶されている。そして、RAM202にロードされてCPU201によって実行される。
 S701にて、CPU201は、操作部206の表示言語種として指定されている表示言語種を取得する。例えば、図3~図5の画面(英語で文字が表示されている画面)が表示されている場合には、表示言語種として「英語」の情報を取得する。
 S702にて、もし文書データにOCRを行う設定がされている場合には、OCR言語種の指定を取得する。例えば、図4の画面のようにOCR言語種403に「日本語」が指定されている場合には、OCR言語種として「日本語」を取得する。なお、OCRを行う際には、S702で取得した言語種でOCRを行う。そのため、OCRする際に言語種を何も指定しない場合と比べて文字認識精度を向上させることができる。
 S703にて、CPU201は、OCRして認識した文字列を文書名に設定するかどうか(文書名OCRを行うかどうか)の判定を行う。具体的には、図3の文書名OCR306の設定がONに設定されている場合であって、かつ、図4のOCR(文字認識)402の設定がONに設定されている場合に、文書名OCRを行うと判定する。文書名OCR306の設定がOFFに設定されている場合や、文書名OCR306の設定がONに設定されているがOCR設定ボタン402の設定がOFFに設定されている場合には、文書名OCRを行わない、と判定する。文書名OCRを行わないと判定した場合(S703でNO)、S712に進み、通常の送信処理を行う。文書名OCRを行うと判定した場合(S703でYES)、S704に進む。
 S704にて、CPU201は、S701で受け取った表示言語種に対応する文字コード体系を図6(a)のテーブルから取得する。例えば、図3~図5の画面のように、表示言語種として「英語」が設定されている場合には、図6(a)のテーブルから文字コード体系Windows-1252を取得する。
[規則91に基づく訂正 22.03.2012] 
 S705にて、CPU201は、OCR言語種403として指定されている言語種の文字コード体系を図6(b)のテーブルから取得する。例えば、図4の画面のように、OCR言語種として「JAPANESE(日本語)」が指定されている場合には、図6(b)のテーブルから文字コード体系Shift_JISを取得する。
 S706にて、CPU201は、S704で取得した文字コード体系(符号化方式ともいう)とS705で取得した文字コード体系を比較し、両者が同じ文字コード体系であるか否かを判定する。S706で同じ文字コード体系であると判定した場合(S706でYES)、CPU201は、文書データに対してOCRを行う(S707)。そして、そのOCRした結果抽出した文字列の一部を文書名として文書データに設定し、宛先が示す装置へ送信する(S708)。
 なおS706において、表示言語種の文字コード体系とOCR言語種の文字コード体系が完全に同一の文字コード体系である必要はない。OCR言語種の文字コード体系と表示言語種の文字コード体系とが互換性のある文字コード体系であれば、S706でYESと判定してもよい。例えば、ASCIIコードで記述された文字は、Shift_JISの文字コード体系で文字を表示しても文字化けすることなく正しく表示できる。そのため、ASCIIは、Shift_JISと互換性がある文字コード体系である。
 またS706では、表示言語種の文字コード体系とOCR言語種の文字コード体系とを比較しているが、より簡単な制御を行うために、文字コード体系の比較ではなく、言語種同士の比較をしてもよい。言語種同士の比較を行う場合は、例えば、表示言語種が「英語」でOCR言語種が「フランス語」である場合、両者の文字コード体系は共通の文字コード体系(Windows-1252)であるが、S706でNOと判定され、文書名OCR制限処理に移行することになる。表示言語種とOCR言語種を比較することにより、より簡単な比較処理で文字化けを防止することができる。
 S709では、CPU201は、S708で設定した文書名を、送信履歴情報の一部としてHDD207に書き込む。
 図8は、S707で文書名OCRを行う場合に抽出される文字列が印字された原稿画像を示したものである。
 図8に示した領域801の文字列がOCRの結果抽出されると、スキャンした文書データには、「MEETING」という文書名が設定されて送信される。更に、後述する図9、図10の送信履歴の画面を表示した際には「DOCUMENT NAME:MEETING」という文字列が表示される。
[規則91に基づく訂正 22.03.2012] 
 図9は、送信履歴画面の一例である。図9の画面は、図3の送信履歴ボタン308を押下したときに表示される。送信履歴の一覧901からどれか一つを選択して詳細情報902を押下すると、図10の送信履歴の詳細情報が表示される。送信履歴の詳細情報として表示可能な項目としては、送信を開始した時刻や終了した時刻や、送信宛先、送信文書名1001、送信サイズ等がある。図10は、図8のような原稿画像をスキャンした場合に文書名OCRして文書データを送信した処理の送信履歴の詳細である。
 S710は、S706で表示言語種の文字コード体系とOCR言語種403の文字コード体系とが異なると判定された場合に行う処理である。S710では、CPU201は、デジタル複合機103がUnicode対応の文字コードで文字を操作部206に表示可能であって、かつ、OCRした結果をUnicode対応の文字のコードに変換可能であるかどうかを判定する。Unicode対応の文字コードで文字を操作部206に表示可能であって、かつ、OCR結果をUnicode対応の文字のコードに変換可能であると判定した場合には(S710でYES)、S707に進む。Unicode対応の文字を操作部206に表示可能でない、あるいは、OCR結果をUnicode対応の文字のコードに変換可能でないと判定した場合には(S710でNO)、S711の文書名OCR制限処理に進む。
 S711の処理の詳細は、図11を用いて説明する。
 図11は、図7のS711の処理の詳細を示すフローチャートである。S1101では、CPU201は、スキャンして電子化した文書データに対してOCRは行うが、そのOCRして認識した文字列を文書名としては設定しない。文書名は、デフォルトの文書名(すなわち、文書名OCRがOFFのときに設定される文書名)が文書に設定される。そして、S1102で、そのデフォルトの文書名が設定された文書データを送信する。その後、S1103にて、デフォルトの文書名を、送信履歴としてHDD207に書き込み、本フローチャートの処理を終了する。デフォルトの文書名とは、文字化けが起こらない、デジタル複合機103で予め決められた規則に従って設定される文書名のことである。本実施形態では、ASCIIコードで記述された「年月日時分秒(例:20101001170023)」のような文書名設定をする。
[規則91に基づく訂正 22.03.2012] 
 また操作部206の言語種設定で設定された文字コード体系の文書名を設定してもよい。この場合、例えば、操作部206の言語種設定が英語である場合には、Windows-1252の文字コード体系に従った文字列が文書名として設定される。
 S1102で送信された文書データの送信履歴を図10の送信履歴画面で表示する場合、OCRした結果を文書名として設定する代わりに、デフォルトの文書名が設定された文書データを送信する。そのため、文字化けが起こり得る文字コード体系に対応する文書名が操作部206に表示されることがない。
 なお、S1101でデフォルトの文書名を設定するときに、「文書名OCRの設定を無効にします」などの警告メッセージを操作部206に表示するようにしてもよい。
 本実施形態によると、操作部206の言語種設定画面(不図示)で設定された表示言語種の文字コード体系とOCR言語種403の文字コード体系が異なる場合は、たとえ文書名OCRの設定が有効になっていたとしても、文書名OCRは行わない。すなわち、OCRした結果抽出された文字列を文書名としては設定しない。その代わりに、デフォルトの文書名を設定して文書データを送信する。この結果、送信履歴画面に表示される、送信文書データに設定される文書名の文字化けを未然に防止できる。
[規則91に基づく訂正 22.03.2012] 
 なお、本実施形態では、S706において、表示言語種の文字コード体系とOCR言語種の文字コード体系とが同じであるか異なるかを判定している。しかし、変形例として、S706で、上述の判定処理を行う代わりに、文書名OCRを行って文字認識された文字のコードが、S704で取得した表示言語種の文字コード体系に割り当てられているか否かを判定するようにしてもよい。
 なお、本実施形態では、操作部206に画面を表示するときの表示言語種に対応する文字コード体系とOCR言語種403に対応する文字コード体系とが異なる場合は、OCRした結果を文書名には使わずにデフォルトの文書名を文書データに設定した。しかし、変形例として、OCR結果を文書名には設定するが、設定した文書名を送信履歴に書き込まないようにすることによっても、上述の課題、すなわち、操作部206に文字化けが起こり得る文書名が表示されてしまう、という課題を解決できる。
 例えば、S1101では、(デフォルト文書名ではなく)文書名OCRした文字列を文書名として文書データに設定し、S1102では、文書名OCRして設定された文書名の文書データを送信する。そして、S1103では、文書名OCRして設定された文書名の情報をHDD207に書き込まないように制御する。
(実施形態2)
 実施形態1では、表示言語種の文字コード体系とOCR言語種の文字コード体系とが異なる場合、文書名OCRを行わずにデフォルト文書名を設定して文書データを送信する。実施形態2では、文書データの送信自体を行わないようにして、ユーザが指示した内容に反して文書名が設定された文書データが送信されることを未然に防止した。
 実施形態2において、前述の実施形態1とは図1~図7は共通なので説明は省略する。
 図12は、第2の実施形態における、図7のS711の詳細を説明するためのフローチャートである。
 S1201にて、CPU201は、図3~図5の画面で受け付けた設定に基づく読み取り処理を中止し、S1202にて、CPU201は、図13に示す警告画面を操作部206に表示する。この結果、送信ボタン307が押されても送信処理を実行できないように制御する。
 本実施形態によると、表示言語種の文字コード体系とOCR言語種の文字コード体系が異なる場合には、文書データの送信処理を実行させることを禁止する。このようにすることで、送信履歴画面に文字化けした文書名が表示されることもなく、かつユーザの指示した内容に反して文書名が設定されて文書データが送信されることも防止できる。更に、警告画面を表示してユーザにその旨を通知することができる。
 (他の実施形態)
 また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
 本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために以下の請求項を添付する。
101 ファイル共有サーバ
102 メールサーバ
103 デジタル複合機
201 CPU
202 RAM
203 ROM
204 プリンタ
205 スキャナ
206 操作部
208 ネットワークインタフェース
 

Claims (11)

  1.  文書データを入力する入力手段と、
     前記入力手段によって入力された文書データを、指定された言語種で文字認識する文字認識手段と、
     前記文字認識手段によって文字認識された文字列を、前記入力手段によって入力された文書データの文書名の少なくとも一部として設定する文書名設定手段と、
     前記文書名設定手段によって設定された文書名を操作部に表示する表示手段と、
     前記文字認識手段によって文字認識する場合に指定された文字コード体系が、前記操作部の言語種設定で設定された言語種の文字コード体系と互換性がない文字コード体系である場合、前記文書名設定手段によって設定される前記文字列を含む文書名を前記表示手段が表示することを制限する制御手段と
     を有することを特徴とするデータ処理装置。
  2.  前記制御手段は、前記文書名設定手段が前記文字列を含む文書名を設定することを禁止することによって、前記文字列を含む文書名を表示することを制限する、ことを特徴とする請求項1に記載のデータ処理装置。
  3.  前記制御手段は、前記操作部の言語種設定で設定された言語種の文字コード体系に従った文字列を文書名として前記文書名設定手段が設定するように制御することによって、前記文字認識手段によって文字認識された文字列を含む文書名を前記表示手段が表示することを制限する、ことを特徴とする請求項1に記載のデータ処理装置。
  4.  前記制御手段は、ASCIIコードの文書名を前記文書名設定手段が設定するように制御することによって、前記文字認識手段によって文字認識された文字列を含む文書名を前記表示手段が表示することを制限する、ことを特徴とする請求項1に記載のデータ処理装置。
  5.  前記入力手段によって入力された文書データを外部装置へ送信する送信手段を更に有することを特徴とする請求項1に記載のデータ処理装置。
  6.  前記表示手段は、前記送信手段が文書データを送信した場合に、その文書データに設定された文書名を送信履歴として表示することを特徴とする請求項5に記載のデータ処理装置。
  7.  前記文字認識手段が文字認識をする場合の言語種はユーザによって入力されることを特徴とする請求項1に記載のデータ処理装置。
  8.  前記互換性がある文字コード体系とは、前記操作部の言語種設定で設定された言語種の文字コード体系で表示しても文字化けしない文字コード体系である、ことを特徴とする請求項1に記載のデータ処理装置。
  9.  前記互換性がある文字コード体系とは、前記操作部の言語種設定で設定された言語種の文字コード体系と同じ文字コード体系である、ことを特徴とする請求項8に記載のデータ処理装置。
  10.  入力手段が、文書データを入力する入力ステップと、
     文字認識手段が、前記入力手段によって入力された文書データを、指定された言語種で文字認識する文字認識ステップと、
     前記文字認識手段によって文字認識された文字列を、前記入力手段によって入力された文書データの文書名の少なくとも一部として設定する文書名設定ステップと、
     前記文書名設定ステップで設定された文書名を操作部に表示する表示ステップと、
     前記文字認識ステップで文字認識する場合に指定された文字コード体系が、前記操作部の言語種設定で設定された言語種の文字コード体系と互換性がない文字コード体系である場合、前記文書名設定ステップで設定される前記文字列を含む文書名を前記操作部に表示することを制限する制御ステップと
     を有することを特徴とするデータ処理装置の制御方法。
  11.  請求項1に記載のデータ処理装置の各手段として機能させるためのプログラム。
     
PCT/JP2011/059564 2011-04-18 2011-04-18 データ処理装置、データ処理装置の制御方法、及びプログラム WO2012144006A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
EP11863881.6A EP2709036B1 (en) 2011-04-18 2011-04-18 Data processing device, control method of data processing device, and program
PCT/JP2011/059564 WO2012144006A1 (ja) 2011-04-18 2011-04-18 データ処理装置、データ処理装置の制御方法、及びプログラム
RU2013150985/08A RU2560816C2 (ru) 2011-04-18 2011-04-18 Устройство обработки данных, способ управления устройством обработки данных и программа
JP2013510758A JP5847807B2 (ja) 2011-04-18 2011-04-18 データ処理装置、データ処理装置の制御方法、及びプログラム
CN201180070219.3A CN103493066B (zh) 2011-04-18 2011-04-18 数据处理设备和用于控制数据处理设备的方法
US13/443,777 US8831351B2 (en) 2011-04-18 2012-04-10 Data processing apparatus, method for controlling data processing apparatus, and non-transitory computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/059564 WO2012144006A1 (ja) 2011-04-18 2011-04-18 データ処理装置、データ処理装置の制御方法、及びプログラム

Publications (2)

Publication Number Publication Date
WO2012144006A1 WO2012144006A1 (ja) 2012-10-26
WO2012144006A9 true WO2012144006A9 (ja) 2013-12-19

Family

ID=47006419

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/059564 WO2012144006A1 (ja) 2011-04-18 2011-04-18 データ処理装置、データ処理装置の制御方法、及びプログラム

Country Status (6)

Country Link
US (1) US8831351B2 (ja)
EP (1) EP2709036B1 (ja)
JP (1) JP5847807B2 (ja)
CN (1) CN103493066B (ja)
RU (1) RU2560816C2 (ja)
WO (1) WO2012144006A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6051827B2 (ja) * 2012-12-07 2016-12-27 株式会社リコー 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
KR20130020072A (ko) * 2011-08-18 2013-02-27 삼성전자주식회사 화상형성장치 및 제어 방법
JP5991104B2 (ja) * 2012-09-18 2016-09-14 株式会社リコー 情報処理装置、情報処理方法、及びプログラム
JP2014174923A (ja) * 2013-03-12 2014-09-22 Ricoh Co Ltd 文書処理装置、文書処理方法、および文書処理プログラム
JP5403183B1 (ja) * 2013-08-09 2014-01-29 富士ゼロックス株式会社 画像読取装置及びプログラム
JP2015210683A (ja) * 2014-04-25 2015-11-24 株式会社リコー 情報処理システム、情報処理装置、情報処理方法およびプログラム
JP2015215853A (ja) * 2014-05-13 2015-12-03 株式会社リコー システム、画像処理装置、画像処理方法およびプログラム
JP7151477B2 (ja) * 2018-12-28 2022-10-12 京セラドキュメントソリューションズ株式会社 画像形成装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3425834B2 (ja) * 1995-09-06 2003-07-14 富士通株式会社 文書画像からのタイトル抽出装置および方法
US5784069A (en) * 1995-09-13 1998-07-21 Apple Computer, Inc. Bidirectional code converter
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
GB9727322D0 (en) * 1997-12-29 1998-02-25 Xerox Corp Multilingual information retrieval
SE517295C2 (sv) * 2000-07-19 2002-05-21 Jacob Weitman Sätt och anordning för upptagning, behandling, lagring och överföring av text och blandad text- och bildinformation
JP4050950B2 (ja) * 2002-07-26 2008-02-20 富士通株式会社 対訳候補表示装置および対訳候補表示プログラム
RU2349956C2 (ru) * 2002-09-26 2009-03-20 Кендзи ЙОСИДА Способ воспроизведения информации, способ ввода/вывода информации, устройство воспроизведения информации, портативное устройство ввода/вывода информации и электронная игрушка, в которой использован точечный растр
JP4597644B2 (ja) * 2003-11-28 2010-12-15 シャープ株式会社 文字認識装置、プログラムおよび記録媒体
JP4947883B2 (ja) * 2004-07-30 2012-06-06 キヤノン株式会社 通信装置、制御方法ならびにプログラム
JP2006252049A (ja) * 2005-03-09 2006-09-21 Fuji Xerox Co Ltd 翻訳システム、翻訳方法およびプログラム
JP2006276911A (ja) * 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 電子機器およびプログラム
US20060245005A1 (en) * 2005-04-29 2006-11-02 Hall John M System for language translation of documents, and methods
WO2007091331A1 (ja) * 2006-02-10 2007-08-16 Fujitsu Limited 情報表示システム、情報表示方法及びプログラム
JP2007253572A (ja) * 2006-03-24 2007-10-04 Brother Ind Ltd 印刷装置
JP4891013B2 (ja) * 2006-09-22 2012-03-07 パナソニック株式会社 タイトル抽出装置、画像読取装置、タイトル抽出方法、及びタイトル抽出プログラム
JP4420045B2 (ja) * 2007-03-07 2010-02-24 ブラザー工業株式会社 画像処理装置
JP2008252289A (ja) * 2007-03-29 2008-10-16 Brother Ind Ltd 画像形成システム、データ処理装置、プログラム、及び画像形成装置
WO2009013818A1 (ja) * 2007-07-25 2009-01-29 Fujitsu Limited 文字認識処理方法及び装置
US9021505B2 (en) * 2007-12-07 2015-04-28 Ca, Inc. Monitoring multi-platform transactions
JP5086837B2 (ja) * 2008-02-22 2012-11-28 キヤノン株式会社 印刷制御装置、印刷制御方法、及び、印刷制御プログラム
JP5712487B2 (ja) * 2009-09-04 2015-05-07 株式会社リコー 画像処理装置、画像処理システム、画像処理方法、及びプログラム
CN102215310B (zh) * 2010-04-02 2014-04-02 京瓷办公信息系统株式会社 帮助显示装置、操作装置以及电子设备

Also Published As

Publication number Publication date
EP2709036A1 (en) 2014-03-19
JP5847807B2 (ja) 2016-01-27
EP2709036B1 (en) 2019-09-11
CN103493066B (zh) 2017-03-29
US8831351B2 (en) 2014-09-09
WO2012144006A1 (ja) 2012-10-26
RU2013150985A (ru) 2015-05-27
CN103493066A (zh) 2014-01-01
RU2560816C2 (ru) 2015-08-20
JPWO2012144006A1 (ja) 2014-07-28
EP2709036A4 (en) 2015-04-15
US20120263380A1 (en) 2012-10-18

Similar Documents

Publication Publication Date Title
JP5847807B2 (ja) データ処理装置、データ処理装置の制御方法、及びプログラム
US10075597B2 (en) Image processing apparatus having file server function, and control method and storage medium therefor
JP5534666B2 (ja) ドキュメント処理装置およびその制御方法、ドキュメント管理システムおよび該システムにおけるデータ処理方法並びにコンピュータプログラム
JP5219418B2 (ja) ファイル送信装置、方法、プログラム
JP4550034B2 (ja) 画像処理装置及びプログラム
US8503004B2 (en) Appending restriction information to a job before transmission
US20100332624A1 (en) Information processing apparatus for managing address book data, control method therefor, and storage medium storing control program therefor
US11089168B2 (en) Image processing apparatus, method to generate image data and registering template for transmitting to a folder named by a character string
US20040054904A1 (en) Image processing system and authentication method of the same
US10277772B2 (en) File generation apparatus, method for controlling file generation apparatus, and storage medium
US8531694B2 (en) Appending restriction information to a job before transmission
JP2010056770A (ja) 文書管理システム、画像形成装置、サーバ、文書管理方法、及びプログラム
US8854655B2 (en) Image forming apparatus and method of generating additional information-added documents
US10893165B2 (en) Information processing apparatus, method of controlling the same, and storage medium
US10627986B2 (en) Information processing apparatus, method for controlling information processing apparatus, and program
JP2007088796A (ja) 文書管理装置及びプログラム
JP5163304B2 (ja) 画像形成装置、画像配信方法、プログラム、記録媒体及び配信システム
US20190094987A1 (en) Image processing apparatus, method for controlling image processing apparatus, and storage medium
JP2008166958A (ja) ドキュメント処理システム及びドキュメント処理装置
US20230085170A1 (en) Server, method of controlling the server, and storage medium
JP2012156860A (ja) 画像処理装置
US20220377188A1 (en) Image processing apparatus, server, system, controlling method and storage medium therefor
US20230216975A1 (en) System having image processing apparatus, server apparatus, and information terminal, storage medium, control method for information terminal, and information terminal
JP2004288038A (ja) データ処理システム及びプログラム
JP4114672B2 (ja) ファクシミリサーバ

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11863881

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013510758

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2011863881

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2013150985

Country of ref document: RU

Kind code of ref document: A