WO2013080739A1 - 画像処理装置、画像認識装置、画像認識方法およびプログラム - Google Patents

画像処理装置、画像認識装置、画像認識方法およびプログラム Download PDF

Info

Publication number
WO2013080739A1
WO2013080739A1 PCT/JP2012/078343 JP2012078343W WO2013080739A1 WO 2013080739 A1 WO2013080739 A1 WO 2013080739A1 JP 2012078343 W JP2012078343 W JP 2012078343W WO 2013080739 A1 WO2013080739 A1 WO 2013080739A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
recognition
unit
frame
information code
Prior art date
Application number
PCT/JP2012/078343
Other languages
English (en)
French (fr)
Inventor
正道 飛鳥井
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201280057699.4A priority Critical patent/CN103946871A/zh
Priority to US14/352,790 priority patent/US9025082B2/en
Publication of WO2013080739A1 publication Critical patent/WO2013080739A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4126The peripheral being portable, e.g. PDAs or mobile phones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00132Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture in a digital photofinishing system, i.e. a system where digital photographic images undergo typical photofinishing processing, e.g. printing ordering
    • H04N1/00167Processing or editing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00132Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture in a digital photofinishing system, i.e. a system where digital photographic images undergo typical photofinishing processing, e.g. printing ordering
    • H04N1/00185Image output
    • H04N1/00188Printing, e.g. prints or reprints
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • H04N21/4725End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content using interactive regions of the image, e.g. hot spots
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/858Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
    • H04N21/8586Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot by using a URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/835Generation of protective data, e.g. certificates
    • H04N21/8358Generation of protective data, e.g. certificates involving watermark
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3225Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document
    • H04N2201/3233Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document of authentication information, e.g. digital signature, watermark

Definitions

  • the present disclosure relates to an image processing device, an image recognition device, an image recognition method, and a program.
  • the use of information codes such as two-dimensional barcodes has become widespread.
  • the information code when the information code is printed on a paper medium and a captured image of the information code is obtained by the imaging device, the information code can be recognized by image recognition, and information according to the recognition result can be obtained. .
  • the information code can be recognized from both a still image format captured image and a moving image format captured image. For example, as described in Patent Document 1, by analyzing each frame image constituting a captured image in the moving image format, it is possible to identify an information code area in the captured image and recognize the information code.
  • a usage mode in which the information code is displayed on the display device is also conceivable.
  • a usage pattern in which an information code is arranged in a partial area of a TV broadcast screen and a usage pattern in which an information code is arranged in a data broadcast screen are also conceivable.
  • the information code hinders viewing of the TV broadcast screen and the data broadcast screen. Moreover, it is troublesome to switch the display to the data broadcast screen in order to use the information code.
  • the present disclosure proposes a new and improved image processing apparatus, image recognition apparatus, image recognition method, and program for providing a recognition image such as an information code without impairing the user's feeling of use.
  • an image insertion unit that inserts a recognition image identified by image recognition into video content, and the image insertion unit has a display time of the recognition image that is less than a value near a perception threshold.
  • An image processing apparatus for inserting the recognition image is provided.
  • an image selection unit that selects a part of frame images from a plurality of frame images obtained by imaging, and a recognition image is identified by image recognition from the frame image selected by the image selection unit.
  • an image recognition apparatus comprising: an image recognition unit that performs control, and a control unit that controls provision of information according to a recognition result by the image recognition unit.
  • An image recognition method including providing information according to a recognition result according to a recognition result.
  • the computer can be used for recognition by image recognition from an image selection unit that selects some frame images from a plurality of frame images obtained by imaging, and image recognition from the frame images selected by the image selection unit.
  • a program for functioning as an image recognition unit for identifying an image and a control unit for controlling provision of information according to a recognition result by the image recognition unit is provided.
  • a recognition image such as an information code can be provided without impairing the user's feeling of use.
  • a plurality of constituent elements having substantially the same functional configuration may be distinguished by adding different alphabets after the same reference numeral.
  • a plurality of configurations having substantially the same functional configuration are distinguished as required by the display devices 30A, 30B, and 30C.
  • only the same reference numerals are given.
  • the display devices 30A, 30B, and 30C they are simply referred to as the display device 30.
  • the technology according to the present disclosure may be implemented in various forms as described below as an example.
  • the system according to the present disclosure also includes: A.
  • An image selection unit (230) that selects some frame images from a plurality of frame images obtained by imaging, and an image recognition unit that identifies a recognition image by image recognition from the frame images selected by the image selection unit ( 240) and a control unit (260) that controls provision of information according to a recognition result by the image recognition unit, and an image recognition device (portable terminal 20), Is provided.
  • FIG. 1 is an explanatory diagram illustrating an example of a usage pattern of a system according to the present disclosure.
  • the system according to the present disclosure includes display devices 30A to 30C and a portable terminal 20.
  • the system according to the present disclosure further includes a content processing device that processes content to be displayed on the display device 30.
  • the display device 30 displays video content such as a moving image or a still image.
  • the display device 30 is arranged in a public space as shown in FIG. 1 and displays content related to advertisements and promotions.
  • the display device 30 may be a TV device installed in a general home.
  • the content displayed by the display device 30 is not limited to advertisements and promotions.
  • the display device 30 may display program content by terrestrial digital broadcasting or satellite broadcasting.
  • the portable terminal 20 is an information processing terminal that includes an imaging function and a display unit 22.
  • the mobile terminal 20 identifies a specific recognition image from the captured image by image recognition, the mobile terminal 20 displays information corresponding to the recognition image on the display unit 22.
  • the information corresponding to the recognition image may be text, a still image, a moving image, audio, or the like, or guidance information or advertisement information for the user.
  • an explicit information code such as a two-dimensional code will be described as an example of a recognition image, but the recognition image may be an image that does not include an explicit information code.
  • the smart phone is shown as the portable terminal 20 which is an example of an image recognition apparatus
  • an image recognition apparatus is not limited to this example.
  • the image recognition device may be an information processing device such as a PC (Personal Computer), a home video processing device (DVD recorder, VCR, etc.), a PDA (Personal Digital Assistant), a home game device, or a home appliance. Good.
  • the image recognition device may be an information processing device such as a mobile phone, a PHS (Personal Handyphone System), a portable music playback device, a portable video processing device, or a portable game device.
  • the display device 30 displays the content in which the information code is inserted. For this reason, the portable terminal 20 can display or output the information corresponding to the information code displayed on the display device 30 by photographing the display device 30.
  • the information code C is continuously arranged in a part of the main content screen 32 such as a TV broadcast screen, the information code C hinders viewing of the main content screen 32.
  • a usage form in which the information code C is arranged on the sub-content screen 34 such as a data broadcast screen is also conceivable, but the display is switched to the sub-content screen 34 in order to use the information code C. That is complicated.
  • the embodiment according to the present disclosure has been created with the above circumstances in mind. According to the embodiment of the present disclosure, by inserting the information code into the content so that the information code is displayed instantaneously, the information code can be provided without impairing the user's feeling of use.
  • the content processing device 10 and the mobile terminal 20 that realize the embodiment of the present disclosure will be sequentially described in detail.
  • the content processing apparatus 10 processes content by inserting an information code into content composed of a plurality of frames.
  • the content processing device 10 inserts an information code so that it is difficult for the user to perceive, normal display of the content and provision of the information code are realized simultaneously by the display device 30 displaying the processed content. Is possible.
  • the content processing apparatus 10 will be described in detail.
  • FIG. 4 is a functional block diagram showing the configuration of the content processing apparatus 10.
  • the content processing apparatus 10 includes a storage unit 110, an image insertion unit 120, an image adjustment unit 130, and a detection unit 140.
  • a method of inserting an information code into content in the content processing apparatus 10 will be described.
  • the display apparatus 30 by providing the display apparatus 30 with an information code and an insertion parameter (for example, information indicating an insertion position), the display apparatus It is also possible to insert an information code at 30.
  • the storage unit 110 is a storage medium that stores video content to be processed.
  • the storage unit 110 may store the content in which the information code is inserted by the image insertion unit 120.
  • the image insertion unit 120 reads the content from the storage unit 110 and inserts the information code into the content so that the display time of the information code is less than a value near the perception threshold.
  • the threshold is generally considered to be about 30 ms, but this threshold is known to vary depending on the luminance, area, central visual field, and peripheral visual field. Therefore, experiments were conducted under various conditions, and it was found that the information code was easily perceived when the information code display time was 60 ms or longer. For this reason, in this embodiment, 60 ms is used as a value near the perception threshold. That is, the image insertion unit 120 according to the present embodiment inserts the information code so that the display time of the information code is less than 60 ms. Note that even if the information code is perceived with consciousness, the information code is an abstract image and has no meaning visually, so it is considered that the perception under the consciousness of the information code has little influence on the user's action.
  • the image insertion unit 120 can insert an information code by various methods.
  • a specific example of the information code insertion method performed by the image insertion unit 120 will be described together with the functions of the image adjustment unit 130 and the detection unit 140.
  • the first to fourth insertion methods described below can be used alone or in combination.
  • FIG. 5 is an explanatory diagram showing a first information code insertion method.
  • the image insertion unit 120 inserts a black and white frame image including the information code C into a plurality of frame images constituting the content as a first insertion method.
  • the image insertion unit 120 may insert a frame image including the information code C in one frame of 30 fps content so that the display time of the information code is less than a value near the threshold.
  • the information code is difficult to perceive, but the screen may flicker.
  • the second to fourth insertion methods described below it is possible to suppress flickering of the screen.
  • the image adjusting unit 130 of the content processing apparatus 10 adjusts each pixel value in the frame image including the information code C so that a difference from the brightness and color of the adjacent frame image after insertion becomes small. Then, as a second insertion method, the image insertion unit 120 inserts a frame image including the information code C in which each pixel value is adjusted by the image adjustment unit 130 into the content. This will be described more specifically with reference to FIG.
  • FIG. 6 is an explanatory diagram showing a specific example of a frame image including the information code C.
  • the frame image to be inserted includes an area where the information code C is formed and a peripheral area A.
  • the image adjustment unit 130 may adjust the pixel value of the peripheral area A of such a frame image according to the brightness or color of the adjacent frame image. For example, when the adjacent frame image is blue sky, the image adjustment unit 130 may adjust the peripheral area A to blue. With this configuration, it is possible to suppress flickering that occurs when the processed content is displayed.
  • FIG. 7 is an explanatory diagram showing a third insertion method of the information code.
  • the image insertion unit 120 inserts the information code C into a part of the frame image 32 constituting the content as a third insertion method. Furthermore, since it is considered that the user gazes near the center of the image, the vicinity of the edge of the image is captured not by the central visual field but by the peripheral visual field, and there is a possibility that the spatial resolution and color perception may decrease. Therefore, as shown in FIG. 7, the image insertion unit 120 may insert the information code C in the vicinity of the edge of the image such as the right corner. With this configuration, it is possible to suppress the user's uncomfortable feeling and screen flicker.
  • the detection unit 140 of the content processing apparatus 10 detects a frame image in which a scene switches in the content. For example, the detection unit 140 calculates a difference between adjacent frames, and detects a frame image having a large image change such as cut-in or cut-out. Then, as a fourth insertion method, the image insertion unit 120 inserts the information code C into a frame image having a large difference with respect to the adjacent frame image detected by the detection unit 140. Even in such a configuration, it is possible to suppress the user's discomfort and flickering of the screen by retrograde masking or antegrade masking.
  • the content processing apparatus 10 according to the embodiment of the present disclosure has been described above.
  • the mobile terminal 20 according to the embodiment of the present disclosure will be described.
  • the mobile terminal 20 according to the present embodiment can provide information corresponding to the information code to the user by imaging the display device 30 that displays the content in which the information code is inserted by the content processing device 10 described above. is there.
  • FIG. 8 is a functional block diagram illustrating a configuration of the mobile terminal 20 according to the embodiment of the present disclosure.
  • the mobile terminal 20 according to the embodiment of the present disclosure includes an imaging unit 220, an image selection unit 230, a storage unit 240, an image recognition unit 250, a control unit 260, and the display unit 22. And an audio output unit 270.
  • the image capturing unit 220 captures a subject and acquires a captured image.
  • the imaging unit 220 includes a photographing optical system such as a photographing lens and a zoom lens, and an imaging element such as a CCD (Charge Coupled Device) or a CMOS (Complementary Metal Oxide Semiconductor).
  • a photographing optical system such as a photographing lens and a zoom lens
  • an imaging element such as a CCD (Charge Coupled Device) or a CMOS (Complementary Metal Oxide Semiconductor).
  • the photographing optical system condenses light emitted from the subject and forms a subject image on the imaging surface of the photographing element.
  • the image sensor converts a subject image formed by the photographing optical system into an electrical image signal.
  • the imaging element is composed of an R component (red) light receiving element, a G component (green) light receiving element, and a B component (blue) light receiving element, and an R image that is a detection result of the R component by the light receiving elements of each color component.
  • a G image that is the detection result of the G component and a B image that is the detection result of the B component are obtained.
  • the image selection unit 230 selects some frame images from a plurality of frame images continuously obtained by the imaging unit 220. Specifically, the image selection unit 230 selects a frame image that may contain an information code from a plurality of frame images. Since the processing load is high when image code recognition of all frame images obtained by the imaging unit 220 is performed, the efficiency of image recognition is improved by selecting some frame images for image recognition. It is possible.
  • the image selection unit 230 may select a frame image whose partial area is black and white from the frame images continuously obtained by the imaging unit 220. According to this configuration, when the information code is inserted by the “first insertion method” described above, it is possible to appropriately select the frame image in which the information code is inserted.
  • the image selection unit 230 may calculate a difference between adjacent frame images and select a frame image having a large difference from the adjacent frame image. For example, the image selection unit 230 calculates the total value of the differences between the pixel values of the R image of a certain frame and the R image of the adjacent frame, and if the total value of the differences exceeds the reference, the image selection unit 230 selects the frame image. Good. According to this configuration, when the information code is inserted by the above-described “first insertion method” and “fourth insertion method”, the frame image in which the information code is inserted is selected appropriately. Is possible.
  • the information code formation region has a difference from the adjacent frame. This is also effective when the information code is inserted by the “second insertion method” and the “third insertion method”.
  • the storage unit 240 is a storage medium that stores an information code and information to be provided to the user in association with each other.
  • a storage unit 240 may be a storage medium such as a nonvolatile memory, a magnetic disk, an optical disk, and an MO (Magneto Optical) disk.
  • the non-volatile memory include flash memory, SD card, micro SD card, USB memory, EEPROM (Electrically Erasable Programmable Read-Only Memory), and EPROM (Erasable Programmable ROM).
  • Examples of the magnetic disk include a hard disk and a disk type magnetic disk.
  • the optical disc include a CD (Compact Disc), a DVD (Digital Versatile Disc), and a BD (Blu-Ray Disc (registered trademark)).
  • the image recognition unit 250 recognizes the information code from the frame image selected by the image selection unit 230.
  • the image recognition unit 250 may recognize the information code by using the method described in JP-A-2000-82108, and acquire information corresponding to the information code from the storage unit 240.
  • recognition of the above information code and acquisition of corresponding information can also be realized by cloud computing. That is, the mobile terminal 20 transmits the frame image selected by the image selection unit 230 to the processing server on the network, the processing server recognizes the information code from the frame image, and sends information corresponding to the information code to the mobile terminal 20. You may send it. Further, the portable terminal 20 can generate a composite image in the processing server by transmitting each color image to the processing server.
  • the control unit 260 controls the provision of information acquired by the image recognition unit 250 to the user. For example, when the information includes video, the control unit 260 displays the information on the display unit 22, and when the information includes audio, the control unit 260 causes the audio output unit 270 to output the information.
  • the audio output unit 270 may be a speaker, an earphone, a headphone, or the like.
  • FIG. 9 is an explanatory diagram showing a specific example of the frame image selected by the image selection unit 230
  • FIG. 10 is an explanatory diagram showing a specific example of information corresponding to the information code.
  • the image recognition unit 250 displays the information code.
  • Information corresponding to C is acquired from the storage unit 240.
  • the control unit 260 displays the map screen 38 on the display unit 22 based on the information acquired by the image recognition unit 250.
  • the map screen 38 indicating the position of “xxx station bar” is shown as information provided to the user, but the information provided to the user is not limited to this example.
  • the audio output unit 270 outputs the audio when the beer is poured, and the video indicating the beer is poured.
  • the display unit 22 may display.
  • Mobile device operation The configuration of the mobile terminal 20 according to the present embodiment has been described above. Next, with reference to FIG. 11, the operation of the mobile terminal 20 according to the present embodiment is organized.
  • FIG. 11 is a flowchart showing the operation of the mobile terminal 20 according to the present embodiment.
  • the imaging unit 220 of the mobile terminal 20 images the display device 30 that displays the content in which the information code is inserted (S310).
  • the image selection unit 230 selects some frame images from a plurality of frame images obtained continuously by the imaging unit 220 (S320).
  • the image recognition unit 250 recognizes the information code from the frame image selected by the image selection unit 230, and acquires information corresponding to the information code from the storage unit 240 (S330). And the control part 260 controls provision to the user of the information acquired by the image recognition part 250 (S340).
  • the mobile terminal 20 does not include all the frame images continuously obtained by the imaging unit 220 but the information code only for a part of the frame images selected by the image selection unit 230. Thus, it is possible to reduce the processing load for image recognition.
  • FIG. 12 is an explanatory diagram showing an application example of this embodiment.
  • the image insertion unit 120 may insert the information code C1 and a plurality of information codes C2 associated with information different from the information code C1.
  • FIG. 12 shows an example in which the information code C1 and the information code C2 are inserted into the same frame image, the information code C1 and the information code C2 may be inserted into different frame images.
  • the information code C1 is larger than the information code C2.
  • the range of the imaging position where the information code C1 can be recognized is different from the range of the imaging position where the information code C2 can be recognized. Accordingly, different information can be provided to the user according to the distance between the display device 30 that displays the information code and the imaging position of the mobile terminal 20. Hereinafter, this point will be described more specifically.
  • FIG. 13 is an explanatory diagram showing the relationship between the imaging position and the frame image obtained by imaging. As shown in FIG. 13, at the imaging position P2 that is relatively far from the display device 30, the information code C1 can be recognized, while the information code C2 is small and difficult to recognize. On the other hand, at the imaging position P1 that is relatively close to the display device 30, it is difficult to recognize the information code C1 because the entire information code C1 does not fall within the angle of view, but it is possible to recognize the information code C2. is there.
  • coupon information is associated with the information code C2, and information indicating that coupon information is obtained when the information code C1 is close to the display device 30 is displayed, thereby displaying a user far from the display device 30. It is possible to guide in the vicinity of the device 30.
  • the information associated with each information code is not limited to the above example.
  • schematic information may be associated with the information code C1 that can be recognized from a relatively long distance
  • detailed information may be associated with the information code C2 that can be recognized from a relatively close distance.
  • FIG. 14 is an explanatory diagram showing a hardware configuration of the mobile terminal 20.
  • the mobile terminal 20 includes a CPU (Central Processing Unit) 201, a ROM (Read Only Memory) 202, a RAM (Random Access Memory) 203, an input device 208, an output device 210, A storage device 211, a drive 212, an imaging device 213, and a communication device 215 are provided.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the CPU 201 functions as an arithmetic processing unit and a control unit, and controls the overall operation in the portable terminal 20 according to various programs. Further, the CPU 201 may be a microprocessor.
  • the ROM 202 stores programs used by the CPU 201, calculation parameters, and the like.
  • the RAM 203 temporarily stores programs used in the execution of the CPU 201, parameters that change as appropriate during the execution, and the like. These are connected to each other by a host bus including a CPU bus.
  • the input device 208 includes input means for a user to input information, such as a mouse, keyboard, touch panel, button, microphone, switch, and lever, and an input control circuit that generates an input signal based on the input by the user and outputs the input signal to the CPU 201. Etc.
  • the user of the mobile terminal 20 can input various data and instruct processing operations to the mobile terminal 20 by operating the input device 208.
  • the output device 210 includes a display device such as a liquid crystal display (LCD) device, an OLED (Organic Light Emitting Diode) device, and a lamp. Furthermore, the output device 210 includes an audio output device such as a speaker and headphones. For example, the display device displays a captured image or a generated image. On the other hand, the audio output device converts audio data or the like into audio and outputs it.
  • a display device such as a liquid crystal display (LCD) device, an OLED (Organic Light Emitting Diode) device, and a lamp.
  • the output device 210 includes an audio output device such as a speaker and headphones.
  • the display device displays a captured image or a generated image.
  • the audio output device converts audio data or the like into audio and outputs it.
  • the storage device 211 is a data storage device configured as an example of a storage unit of the mobile terminal 20 according to the present embodiment.
  • the storage device 211 may include a storage medium, a recording device that records data on the storage medium, a reading device that reads data from the storage medium, a deletion device that deletes data recorded on the storage medium, and the like.
  • the storage device 211 stores programs executed by the CPU 201 and various data.
  • the drive 212 is a storage medium reader / writer, and is built in or externally attached to the portable terminal 20.
  • the drive 212 reads information recorded on a removable storage medium 24 such as a mounted magnetic disk, optical disk, magneto-optical disk, or semiconductor memory, and outputs it to the RAM 203.
  • the drive 212 can also write information to the removable storage medium 24.
  • the imaging device 213 includes an imaging optical system such as a photographing lens and a zoom lens that collects light, and a signal conversion element such as a CCD (Charge Coupled Device) or a CMOS (Complementary Metal Oxide Semiconductor).
  • the imaging optical system collects light emitted from the subject and forms a subject image in the signal conversion unit, and the signal conversion element converts the formed subject image into an electrical image signal.
  • the imaging device 213 corresponds to the imaging unit 220 illustrated in FIG.
  • the communication device 215 is a communication interface configured with, for example, a communication device for connecting to the network 12.
  • the communication device 215 may be a wireless LAN (Local Area Network) compatible communication device, an LTE (Long Term Evolution) compatible communication device, or a wire communication device that performs wired communication.
  • the network 12 is a wired or wireless transmission path for information transmitted from a device connected to the network 12.
  • the network 12 may include a public line network such as the Internet, a telephone line network, and a satellite communication network, various LANs (Local Area Network) including the Ethernet (registered trademark), a WAN (Wide Area Network), and the like.
  • the network 12 may include a dedicated line network such as an IP-VPN (Internet Protocol-Virtual Private Network).
  • the hardware configuration of the mobile terminal 20 has been described above with reference to FIG. 14, the hardware of the content processing apparatus 10 can be configured substantially the same as the mobile terminal 20. Omitted.
  • the content processing device 10 inserts an information code so as not to be perceived by the user. Therefore, when the display device 30 displays the processed content, Viewing and providing information codes can be realized simultaneously. Furthermore, the content processing apparatus 10 can also suppress the user's uncomfortable feeling and flickering of the screen due to the insertion of the information code.
  • the mobile terminal 20 is not an image of an information code only for a part of the frame images selected by the image selection unit 230 instead of all the frame images continuously obtained by the imaging unit 220. Since recognition is performed, it is possible to reduce the processing load for image recognition.
  • each step in the processing of the mobile terminal 20 in the present specification does not necessarily have to be processed in time series in the order described as a flowchart.
  • each step in the processing of the mobile terminal 20 may be processed in an order different from the order described as the flowchart, or may be processed in parallel.
  • a computer program for causing hardware such as the CPU 201, the ROM 202, and the RAM 203 incorporated in the content processing apparatus 10 and the portable terminal 20 to perform the same functions as the components of the content processing apparatus 10 and the portable terminal 20 described above is also provided. Can be created. A storage medium storing the computer program is also provided.
  • An image insertion unit that inserts a recognition image identified by image recognition into video content, The image processing apparatus, wherein the image insertion unit inserts the recognition image so that a display time of the recognition image is less than a value near a perception threshold.
  • the image processing device includes: A detection unit for detecting a frame image in which a scene switches in the video content; The image processing apparatus according to (1) or (2), wherein the image insertion unit inserts the recognition image into the frame image detected by the detection unit.
  • the image insertion unit inserts a frame image including the recognition image into the video content in a moving image format
  • the image processing apparatus includes: The image processing apparatus according to (1), further including an image adjustment unit that adjusts each pixel value in the frame image according to an adjacent frame image.
  • the image insertion unit inserts a first recognition image and a second recognition image associated with information different from the first recognition image, The image processing apparatus according to any one of (1) to (4), wherein the first recognition image is larger than the second recognition image.
  • An image selection unit that selects some frame images from a plurality of frame images obtained by imaging; An image recognition unit for identifying a recognition image by image recognition from the frame image selected by the image selection unit; A control unit that controls provision of information according to a recognition result by the image recognition unit; An image recognition apparatus comprising: (8) The image recognition device according to (7), wherein the image selection unit detects a difference between two consecutive frame images and selects one of the two frame images whose difference exceeds a reference. (9) The image recognition device according to (7), wherein the image selection unit selects a frame image in which a partial region is black and white from the plurality of frame images.
  • An image recognition method including: (11) Computer An image selection unit that selects some frame images from a plurality of frame images obtained by imaging; An image recognition unit for identifying a recognition image by image recognition from the frame image selected by the image selection unit; A control unit that controls provision of information according to a recognition result by the image recognition unit; Program to function as

Abstract

 映像コンテンツに、画像認識によって識別される認識用画像を挿入する画像挿入部を備え、前記画像挿入部は、前記認識用画像の表示時間が知覚の閾値付近の値未満になるように前記認識用画像を挿入する、画像処理装置。

Description

画像処理装置、画像認識装置、画像認識方法およびプログラム
 本開示は、画像処理装置、画像認識装置、画像認識方法およびプログラムに関する。
 近日、画像認識技術の発達に伴い、二次元バーコードのような情報コードの利用が普及している。具体的には、情報コードは例えば紙媒体に印刷され、撮像装置により情報コードの撮像画像が得られると、画像認識により情報コードを認識し、認識結果に応じた情報を得ることが可能となる。
 なお、情報コードは、静止画形式の撮像画像および動画形式の撮像画像のいずれからも認識可能である。例えば、特許文献1に記載されているように、動画形式の撮像画像を構成する各フレーム画像を解析することにより、撮像画像における情報コードの領域を特定し、情報コードを認識することができる。
特開2011-186846号公報
 また、情報コードを表示装置に表示する利用形態も考えられる。例えば、TV放送画面の一部の領域に情報コードを配置する利用形態や、データ放送画面に情報コードを配置する利用形態も考えられる。
 しかし、上記の利用形態では、情報コードがTV放送画面やデータ放送画面の視聴の妨げとなる。また、情報コードを利用するために表示をデータ放送画面に切り替えることは煩雑である。
 そこで、本開示では、情報コードのような認識用画像をユーザの使用感を損なわずに提供するための、新規かつ改良された画像処理装置、画像認識装置、画像認識方法およびプログラムを提案する。
 本開示によれば、映像コンテンツに、画像認識によって識別される認識用画像を挿入する画像挿入部を備え、前記画像挿入部は、前記認識用画像の表示時間が知覚の閾値付近の値未満になるように前記認識用画像を挿入する、画像処理装置が提供される。
 また、本開示によれば、撮像により得られた複数のフレーム画像から一部のフレーム画像を選択する画像選択部と、前記画像選択部により選択されたフレーム画像から画像認識によって認識用画像を識別する画像認識部と、前記画像認識部による認識結果に応じた情報の提供を制御する制御部と、を備える画像認識装置が提供される。
 また、本開示によれば、撮像により得られた複数のフレーム画像から一部のフレーム画像を選択することと、前記選択されたフレーム画像から画像認識によって認識用画像を識別することと、前記画像認識の結果に応じた認識結果に応じた情報を提供することと、を含む、画像認識方法が提供される。
 また、本開示によれば、コンピュータを、撮像により得られた複数のフレーム画像から一部のフレーム画像を選択する画像選択部と、前記画像選択部により選択されたフレーム画像から画像認識によって認識用画像を識別する画像認識部と、前記画像認識部による認識結果に応じた情報の提供を制御する制御部と、として機能させるためのプログラムが提供される。
 以上説明したように本開示によれば、情報コードのような認識用画像をユーザの使用感を損なわずに提供することが可能である。
本開示によるシステムの利用形態の一例を示した説明図である。 情報コードの挿入例を示した説明図である。 情報コードの他の挿入例を示した説明図である。 コンテンツ加工装置の構成を示した機能ブロック図である。 情報コードの第1の挿入手法を示した説明図である。 情報コードCを含むフレーム画像の具体例を示した説明図である。 情報コードの第3の挿入手法を示した説明図である。 本開示の実施形態による携帯端末の構成を示した機能ブロック図である。 画像選択部により選択されたフレーム画像の具体例を示した説明図である。 情報コードに対応する情報の具体例を示した説明図である。 本実施形態による携帯端末の動作を示したフローチャートである。 本実施形態の応用例を示した説明図である。 撮像位置と撮像により得られるフレーム画像との関係を示した説明図である。 携帯端末のハードウェア構成を示した説明図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成を、必要に応じて表示装置30A、30Bおよび30Cのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、表示装置30A、30Bおよび30Cを特に区別する必要が無い場合には、単に表示装置30と称する。
 また、以下に示す項目順序に従って本開示を説明する。
  1.本開示によるシステムの利用形態
  2.コンテンツ加工装置
  3.携帯端末
  4.応用例
  5.ハードウェア構成
  6.むすび
  <1.本開示によるシステムの利用形態>
 本開示による技術は、一例として以下に説明するように、多様な形態で実施され得る。また、本開示によるシステムは、
A.映像コンテンツに、画像認識によって識別される認識用画像を挿入する画像挿入部(120)を有し、前記画像挿入部は、前記認識用画像の表示時間が知覚の閾値付近の値未満になるように前記認識用画像を挿入する、画像処理装置(コンテンツ加工装置10)と、
B.撮像により得られた複数のフレーム画像から一部のフレーム画像を選択する画像選択部(230)と、前記画像選択部により選択されたフレーム画像から画像認識によって認識用画像を識別する画像認識部(240)と、前記画像認識部による認識結果に応じた情報の提供を制御する制御部(260)と、を有する画像認識装置(携帯端末20)と、
を備える。
 以下では、まず、このような本開示によるシステムの利用形態について図1を参照して説明する。
 図1は、本開示によるシステムの利用形態の一例を示した説明図である。図1に示したように、本開示によるシステムは、表示装置30A~30Cと、携帯端末20とを含む。なお、図1には示していないが、本開示によるシステムは、表示装置30に表示するためのコンテンツを加工するコンテンツ加工装置をさらに備える。
 (表示装置)
 表示装置30は、動画または静止画のような映像コンテンツを表示する。例えば、表示装置30は、図1に示したようにパブリックスペースに配置され、広告や宣伝に関するコンテンツを表示する。なお、表示装置30は、一般家庭に配置されるTV装置であってもよい。また、表示装置30が表示するコンテンツは広告や宣伝に限定されない。例えば、表示装置30は、地上波デジタル放送や衛星放送による番組コンテンツを表示してもよい。
 (携帯端末)
 携帯端末20は、撮像機能および表示部22を備える情報処理端末である。携帯端末20は、撮像画像から特定の認識用画像を画像認識によって識別すると、当該認識用画像に対応する情報を表示部22に表示する。例えば、認識用画像に対応する情報は、テキスト、静止画、動画、または音声などであってもよいし、ユーザへの案内情報または広告情報などであってもよい。また、以下では、認識用画像の一例として二次元コードのような明示的な情報コードを説明するが、認識用画像は明示的な情報コードを含まない画像であってもよい。
 なお、図1においては、画像認識装置の一例である携帯端末20としてスマートフォンを示しているが、画像認識装置はかかる例に限定されない。例えば、画像認識装置は、PC(Personal Computer)、家庭用映像処理装置(DVDレコーダ、ビデオデッキなど)、PDA(Personal Digital Assistants)、家庭用ゲーム機器、家電機器などの情報処理装置であってもよい。また、画像認識装置は、携帯電話、PHS(Personal Handyphone System)、携帯用音楽再生装置、携帯用映像処理装置、携帯用ゲーム機器などの情報処理装置であってもよい。
 (利用形態)
 このような本開示によるシステムにおいては、表示装置30が、情報コードが挿入されたコンテンツを表示する。このため、携帯端末20は、表示装置30を撮影することにより、表示装置30に表示された情報コードに対応する情報を表示または音声出力することができる。
 (背景)
 しかし、情報コードの挿入の仕方によっては、ユーザの使用感が損なわれる恐れがある。例えば、図2に示したように、TV放送画面のようなメインコンテンツ画面32の一部に情報コードCが継続的に配置されると、情報コードCがメインコンテンツ画面32の視聴の妨げとなる。
 また、図3に示したように、データ放送画面のようなサブコンテンツ画面34に情報コードCを配置する利用形態も考えられるが、情報コードCを利用するために表示をサブコンテンツ画面34に切り替えることは煩雑である。
 そこで、上記事情を一着眼点にして本開示による実施形態を創作するに至った。本開示の実施形態によれば、情報コードが瞬時的に表示されるように情報コードをコンテンツに挿入することにより、情報コードをユーザの使用感を損なわずに提供することができる。以下、このような本開示の実施形態を実現するコンテンツ加工装置10および携帯端末20について順次詳細に説明する。
  <2.コンテンツ加工装置>
 本開示の実施形態によるコンテンツ加工装置10は、複数フレームからなるコンテンツに情報コードを挿入することによりコンテンツを加工する。特に、コンテンツ加工装置10は、ユーザによって知覚され難いように情報コードを挿入するので、表示装置30が加工後のコンテンツを表示することにより、コンテンツの通常の視聴、および情報コードの提供を同時に実現することが可能である。以下、このようなコンテンツ加工装置10について詳細に説明する。
 図4は、コンテンツ加工装置10の構成を示した機能ブロック図である。図4に示したように、コンテンツ加工装置10は、記憶部110と、画像挿入部120と、画像調整部130と、検出部140と、を備える。なお、以下ではコンテンツ加工装置10において情報コードをコンテンツに挿入する手法を説明するが、表示装置30に情報コードや挿入用のパラメータ(例えば、挿入位置を示す情報)を提供することにより、表示装置30において情報コードの挿入を行うことも可能である。
 記憶部110は、加工対象の映像コンテンツを記憶する記憶媒体である。また、記憶部110は、画像挿入部120によって情報コードが挿入されたコンテンツを記憶してもよい。
 画像挿入部120は、記憶部110からコンテンツを読出し、コンテンツに、情報コードの表示時間が知覚の閾値付近の値未満になるように情報コードを挿入する。ここで、閾値は、一般に30ms程度と考えられているが、この閾値は、輝度、面積、中心視野および周辺視野によって変動することが知られている。そこで、多様な条件下で実験を行ったところ、情報コードの表示時間が60ms以上だと情報コードが知覚され易いことが分かった。このため、本実施形態においては知覚の閾値付近の値として60msを用いる。すなわち、本実施形態による画像挿入部120は、情報コードの表示時間が60ms未満になるように情報コードを挿入する。なお、情報コードが意識下で知覚されても、情報コードは抽象画像であり、目視においては意味を持たないので、情報コードの意識下の知覚がユーザの行動に与える影響は少ないと考えられる。
 また、画像挿入部120は、多様な手法で情報コードの挿入を行うことができる。以下、画像挿入部120による情報コードの挿入手法の具体例について、画像調整部130および検出部140の機能と併せて説明する。なお、以下に説明する第1~第4の挿入手法は、単独で用いることも、組合せで用いることも可能である。
 (第1の挿入手法)
 図5は、情報コードの第1の挿入手法を示した説明図である。図5に示したように、画像挿入部120は、第1の挿入手法として、コンテンツを構成する複数のフレーム画像に情報コードCを含む白黒のフレーム画像を挿入する。例えば、画像挿入部120は、情報コードの表示時間が閾値付近の値未満となるように、30fpsのコンテンツの1フレームに情報コードCを含むフレーム画像を挿入してもよい。
 ただし、当該第1の挿入手法では、情報コードは知覚され難いものの、画面のチラつきが生じる場合がある。これに対し、以下に説明する第2~第4の挿入手法によれば、画面のチラつきを抑制することが可能である。
 (第2の挿入手法)
 コンテンツ加工装置10の画像調整部130は、情報コードCを含むフレーム画像内の各画素値を、挿入後の隣接フレーム画像の明度や色との差分が小さくなるように調整する。そして、画像挿入部120は、第2の挿入手法として、画像調整部130によって各画素値が調整された情報コードCを含むフレーム画像をコンテンツに挿入する。図6を参照し、より具体的に説明する。
 図6は、情報コードCを含むフレーム画像の具体例を示した説明図である。図6に示したように、挿入されるフレーム画像は、情報コードCが形成された領域と、周辺領域Aからなる。画像調整部130は、このようなフレーム画像の周辺領域Aの画素値を、隣接フレーム画像の明度や色に合わせて調整してもよい。例えば、隣接フレーム画像が青空である場合、画像調整部130は、周辺領域Aを青色に調整してもよい。かかる構成により、加工後のコンテンツの表示時に発生するチラつきを抑制することが可能である。
 (第3の挿入手法)
 図7は、情報コードの第3の挿入手法を示した説明図である。図7に示したように、画像挿入部120は、第3の挿入手法として、コンテンツを構成するフレーム画像32の一部分に情報コードCを挿入する。さらに、ユーザは画像の中心付近を注視すると考えられるので、画像の縁部付近は中心視野でなく周辺視野で捉えられ、空間解像度や色の知覚が低下する可能性がある。そこで、画像挿入部120は、図7に示したように、情報コードCを右隅のような画像の縁部付近に挿入してもよい。かかる構成により、ユーザの違和感や画面のチラつきを抑制することが可能である。
 (第4の挿入手法)
 コンテンツ加工装置10の検出部140は、コンテンツにおいてシーンが切り替わるフレーム画像を検出する。例えば、検出部140は、隣接フレーム間の差分を算出し、カットインやカットアウトなどの画像の変化の大きいフレーム画像を検出する。そして、画像挿入部120は、第4の挿入手法として、検出部140によって検出された隣接フレーム画像に対して差分が大きなフレーム画像に情報コードCを挿入する。かかる構成においても、逆行性マスキングまたは順行性マスキングによりユーザの違和感や画面のチラつきを抑制することが可能である。
  <3.携帯端末>
 以上、本開示の実施形態によるコンテンツ加工装置10について説明した。続いて、本開示の実施形態による携帯端末20について説明する。本実施形態による携帯端末20は、上述したコンテンツ加工装置10により情報コードが挿入されたコンテンツを表示する表示装置30を撮像することにより、情報コードに対応する情報をユーザに提供することが可能である。
 (携帯端末の構成)
 図8は、本開示の実施形態による携帯端末20の構成を示した機能ブロック図である。図8に示したように、本開示の実施形態による携帯端末20は、撮像部220と、画像選択部230と、記憶部240と、画像認識部250と、制御部260と、表示部22と、音声出力部270と、を備える。
 撮像部220は、被写体を撮像して撮像画像を取得する。具体的には、撮像部220は、撮影レンズおよびズームレンズなどの撮影光学系、および、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子を備える。
 撮影光学系は、被写体から発せられる光を集光して、撮影素子の撮像面に被写体像を形成する。撮像素子は、撮影光学系によって形成された被写体像を電気的な画像信号に変換する。ここで、撮像素子は、R成分(赤色)受光素子、G成分(緑色)受光素子、およびB成分(青色)受光素子からなり、各色成分の受光素子により、R成分の検出結果であるR画像、G成分の検出結果であるG画像、およびB成分の検出結果であるB画像が得られる。
 画像選択部230は、撮像部220によって連続的に得られる複数のフレーム画像から一部のフレーム画像を選択する。具体的には、画像選択部230は、複数のフレーム画像から、情報コードが含まれている可能性のあるフレーム画像を選択する。撮像部220によって得られた全てのフレーム画像に対して情報コードの画像認識を行うと処理負荷が高いので、画像認識を行う一部のフレーム画像を選択することにより、画像認識の効率化を図ることが可能である。
 例えば、画像選択部230は、撮像部220によって連続的に得られるフレーム画像から、一部の領域が白黒であるフレーム画像を選択してもよい。かかる構成によれば、上述した「第1の挿入手法」により情報コードが挿入されている場合に、情報コードが挿入されているフレーム画像を適確に選択することが可能である。
 また、画像選択部230は、隣接フレーム画像間の差分を算出し、隣接フレーム画像との差分が大きいフレーム画像を選択してもよい。例えば、画像選択部230は、あるフレームのR画像と隣接フレームのR画像の各画素値の差分の合計値を算出し、差分の合計値が基準を上回る場合、当該フレーム画像を選択してもよい。かかる構成によれば、上述した「第1の挿入手法」、「第4の挿入手法」により情報コードが挿入されている場合に、情報コードが挿入されているフレーム画像を適確に選択することが可能である。また、「第2の挿入手法」、「第3の挿入手法」により情報コードが挿入されている場合にも、情報コードの形成領域は隣接フレームと差分を有するので、かかる構成によれば、「第2の挿入手法」、「第3の挿入手法」により情報コードが挿入されている場合にも有効である。
 記憶部240は、情報コードと、ユーザに提供するための情報とを関連付けて記憶している記憶媒体である。このような記憶部240は、不揮発性メモリ、磁気ディスク、光ディスク、およびMO(Magneto Optical)ディスクなどの記憶媒体であってもよい。不揮発性メモリとしては、例えば、フラッシュメモリ、SDカード、マイクロSDカード、USBメモリ、EEPROM(Electrically Erasable Programmable Read-Only Memory)、EPROM(Erasable Programmable ROM)があげられる。また、磁気ディスクとしては、ハードディスクおよび円盤型磁性体ディスクなどがあげられる。また、光ディスクとしては、CD(Compact Disc)、DVD(Digital Versatile Disc)およびBD(Blu-Ray Disc(登録商標))などがあげられる。
 画像認識部250は、画像選択部230によって選択されたフレーム画像から情報コードを認識する。例えば、画像認識部250は、特開2000-82108に記載の手法を援用して情報コードを認識し、情報コードに対応する情報を記憶部240から取得してもよい。
 なお、上記の情報コードの認識や、対応する情報の取得は、クラウドコンピューティングにより実現することも可能である。すなわち、携帯端末20は、画像選択部230によって選択されたフレーム画像をネットワーク上の処理サーバに送信し、処理サーバがフレーム画像から情報コードを認識し、情報コードに対応する情報を携帯端末20に送信してもよい。さらに、携帯端末20が各色画像を処理サーバに送信することにより、処理サーバにおいて合成画像の生成を行うことも可能である。
 制御部260は、画像認識部250によって取得された情報のユーザへの提供を制御する。例えば、情報が映像を含む場合、制御部260は当該情報を表示部22に表示させ、情報が音声を含む場合、制御部260は当該情報を音声出力部270に音声出力させる。なお、音声出力部270は、スピーカ、イヤホン、またはヘッドホンなどであってもよい。
 (情報提供の具体例)
 ここで、図9および図10を参照し、上述した携帯端末20によって提供される情報の一例を説明する。
 図9は、画像選択部230により選択されたフレーム画像の具体例を示した説明図であり、図10は、情報コードに対応する情報の具体例を示した説明図である。図9に示したように、撮像部220によって連続的に得られる複数のフレーム画像から、情報コードCを表示する表示装置30を含むフレーム画像36が選択されると、画像認識部250が情報コードCに対応する情報を記憶部240から取得する。
 そして、制御部260が、画像認識部250により取得された情報に基づいて表示部22に地図画面38を表示させる。ここで、図10においてはユーザに提供される情報として「xxx station bar」の位置を示す地図画面38を示しているが、ユーザに提供される情報はかかる例に限定されない。例えば、情報コードCにビールの注がれる様子を示す動画/音声情報が対応する場合、ビールが注がれる時の音声を音声出力部270が出力し、ビールが注がれる様子を示す動画を表示部22が表示してもよい。
 (携帯端末の動作)
 以上、本実施形態による携帯端末20の構成を説明した。続いて、図11を参照し、本実施形態による携帯端末20の動作を整理する。
 図11は、本実施形態による携帯端末20の動作を示したフローチャートである。図11に示したように、まず、携帯端末20の撮像部220が、情報コードが挿入されたコンテンツを表示する表示装置30を撮像する(S310)。そして、画像選択部230は、撮像部220によって連続的に得られる複数のフレーム画像から一部のフレーム画像を選択する(S320)。
 その後、画像認識部250は、画像選択部230によって選択されたフレーム画像から情報コードを認識し、情報コードに対応する情報を記憶部240から取得する(S330)。そして、制御部260は、画像認識部250によって取得された情報のユーザへの提供を制御する(S340)。
 以上説明したように、本実施形態による携帯端末20は、撮像部220によって連続的に得られる全てのフレーム画像でなく、画像選択部230によって選択された一部のフレーム画像に対してのみ情報コードの画像認識を行うので、画像認識のための処理負荷を軽減することが可能である。
  <4.応用例>
 続いて、図12を参照し、本実施形態の応用例を説明する。図12は、本実施形態の応用例を示した説明図である。図12に示したように、画像挿入部120は、情報コードC1、および情報コードC1と異なる情報が対応付けられた複数の情報コードC2を挿入してもよい。なお、図12においては、情報コードC1と情報コードC2が同一のフレーム画像に挿入される例を示しているが、情報コードC1と情報コードC2は異なるフレーム画像に挿入されてもよい。
 ここで、情報コードC1は、情報コードC2によりも大きい。このため、情報コードC1を認識できる撮像位置の範囲と、情報コードC2を認識できる撮像位置の範囲は異なる。これにより、情報コードを表示する表示装置30と携帯端末20による撮像位置との距離に応じ、異なる情報をユーザに提供することが可能となる。以下、この点についてより具体的に説明する。
 図13は、撮像位置と撮像により得られるフレーム画像との関係を示した説明図である。図13に示したように、表示装置30から比較的遠い撮像位置P2においては、情報コードC1は認識可能である一方、情報コードC2は小さくて認識することが困難である。一方、表示装置30から比較的近い撮像位置P1においては、情報コードC1の全体が画角に収まらないので情報コードC1を認識することは困難であるが、情報コードC2を認識することは可能である。
 このため、例えば情報コードC2にはクーポン情報を対応付け、情報コードC1には表示装置30に近づけばクーポン情報が得られる旨を示す情報を対応付けることにより、表示装置30の遠くにいるユーザを表示装置30の近くに誘導することが可能となる。なお、各情報コードに対応付ける情報は上記の例に限定されない。例えば、比較的遠くから認識可能な情報コードC1には概略的な情報を対応付け、比較的近くから認識可能な情報コードC2には詳細な情報を対応付けてもよい。
  <5.ハードウェア構成>
 以上、本開示の実施形態を説明した。上述した画像選択処理や画像認識処理は、以下に説明する携帯端末20のハードウェアとの協働により実現される。
 図14は、携帯端末20のハードウェア構成を示した説明図である。図14に示したように、携帯端末20は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、入力装置208と、出力装置210と、ストレージ装置211と、ドライブ212と、撮像装置213と、通信装置215とを備える。
 CPU201は、演算処理装置および制御装置として機能し、各種プログラムに従って携帯端末20内の動作全般を制御する。また、CPU201は、マイクロプロセッサであってもよい。ROM202は、CPU201が使用するプログラムや演算パラメータ等を記憶する。RAM203は、CPU201の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバスにより相互に接続されている。
 入力装置208は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU201に出力する入力制御回路などから構成されている。携帯端末20のユーザは、該入力装置208を操作することにより、携帯端末20に対して各種のデータを入力したり処理動作を指示したりすることができる。
 出力装置210は、例えば、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置を含む。さらに、出力装置210は、スピーカおよびヘッドホンなどの音声出力装置を含む。例えば、表示装置は、撮像された画像や生成された画像などを表示する。一方、音声出力装置は、音声データ等を音声に変換して出力する。
 ストレージ装置211は、本実施形態にかかる携帯端末20の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置211は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置211は、CPU201が実行するプログラムや各種データを格納する。
 ドライブ212は、記憶媒体用リーダライタであり、携帯端末20に内蔵、あるいは外付けされる。ドライブ212は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体24に記録されている情報を読み出して、RAM203に出力する。また、ドライブ212は、リムーバブル記憶媒体24に情報を書き込むこともできる。
 撮像装置213は、光を集光する撮影レンズおよびズームレンズなどの撮像光学系、およびCCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの信号変換素子を備える。撮像光学系は、被写体から発せられる光を集光して信号変換部に被写体像を形成し、信号変換素子は、形成された被写体像を電気的な画像信号に変換する。なお、撮像装置213は、図4に示した撮像部220に対応する。
 通信装置215は、例えば、ネットワーク12に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置215は、無線LAN(Local Area Network)対応通信装置であっても、LTE(Long Term Evolution)対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。
 なお、ネットワーク12は、ネットワーク12に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク12は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク12は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
 なお、上記では図14を参照して携帯端末20のハードウェア構成について説明したが、コンテンツ加工装置10のハードウェアは携帯端末20と実質的に同一に構成することが可能であるため、説明を省略する。
  <6.むすび>
 以上説明したように、本開示の実施形態によるコンテンツ加工装置10は、ユーザによって知覚され難いように情報コードを挿入するので、表示装置30が加工後のコンテンツを表示することにより、コンテンツの通常の視聴、および情報コードの提供を同時に実現することが可能である。さらに、コンテンツ加工装置10は、情報コードの挿入によるユーザの違和感や画面のチラつきを抑制することも可能である。
 また、本開示の実施形態による携帯端末20は、撮像部220によって連続的に得られる全てのフレーム画像でなく、画像選択部230によって選択された一部のフレーム画像に対してのみ情報コードの画像認識を行うので、画像認識のための処理負荷を軽減することが可能である。
 なお、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、本明細書の携帯端末20の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、携帯端末20の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
 また、コンテンツ加工装置10や携帯端末20に内蔵されるCPU201、ROM202およびRAM203などのハードウェアを、上述したコンテンツ加工装置10や携帯端末20の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
 また、以下のような構成も本開示の技術的範囲に属する。
(1)
 映像コンテンツに、画像認識によって識別される認識用画像を挿入する画像挿入部を備え、
 前記画像挿入部は、前記認識用画像の表示時間が知覚の閾値付近の値未満になるように前記認識用画像を挿入する、画像処理装置。
(2)
 前記画像挿入部は、前記映像コンテンツを構成するフレーム画像の一部分に前記認識用画像を挿入する、前記(1)に記載の画像処理装置。
(3)
 前記画像処理装置は、
 前記映像コンテンツにおいてシーンが切り替わるフレーム画像を検出する検出部をさらに備え、
 前記画像挿入部は、前記検出部により検出されたフレーム画像に前記認識用画像を挿入する、前記(1)または(2)に記載の画像処理装置。
(4)
 前記画像挿入部は、前記認識用画像を含むフレーム画像を動画形式の前記映像コンテンツに挿入し、
 前記画像処理装置は、
 前記フレーム画像内の各画素値を隣接フレーム画像に応じて調整する画像調整部をさらに備える、前記(1)に記載の画像処理装置。
(5)
 前記画像挿入部は、第1の認識用画像、および前記第1の認識用画像と異なる情報が対応付けられた第2の認識用画像を挿入し、
 前記第1の認識用画像は、前記第2の認識用画像より大きい、前記(1)~(4)のいずれか一項に記載の画像処理装置。
(6)
 前記画像挿入部は、複数の前記認識用画像を、同一または異なるフレーム画像における異なる位置に挿入する、前記(1)~(5)のいずれか一項に記載の画像処理装置。
(7)
 撮像により得られた複数のフレーム画像から一部のフレーム画像を選択する画像選択部と、
 前記画像選択部により選択されたフレーム画像から画像認識によって認識用画像を識別する画像認識部と、
 前記画像認識部による認識結果に応じた情報の提供を制御する制御部と、
を備える、画像認識装置。
(8)
 前記画像選択部は、連続する2つのフレーム画像の差分を検出し、差分が基準を上回る2つのフレーム画像のいずれかのフレーム画像を選択する、前記(7)に記載の画像認識装置。
(9)
 前記画像選択部は、前記複数のフレーム画像から、一部の領域が白黒であるフレーム画像を選択する、前記(7)に記載の画像認識装置。
(10)
 撮像により得られた複数のフレーム画像から一部のフレーム画像を選択することと、
 前記選択されたフレーム画像から画像認識によって認識用画像を識別することと、
 前記画像認識の結果に応じた認識結果に応じた情報を提供することと、
を含む、画像認識方法。
(11)
 コンピュータを、
 撮像により得られた複数のフレーム画像から一部のフレーム画像を選択する画像選択部と、
 前記画像選択部により選択されたフレーム画像から画像認識によって認識用画像を識別する画像認識部と、
 前記画像認識部による認識結果に応じた情報の提供を制御する制御部と、
として機能させるための、プログラム。
10 コンテンツ加工装置
20 携帯端末
22 表示部
30 表示装置
110 記憶部
120 画像挿入部
130 画像調整部
140 検出部
220 撮像部
230 画像選択部
240 記憶部
250 画像認識部
260 制御部
270 音声出力部

Claims (11)

  1.  映像コンテンツに、画像認識によって識別される認識用画像を挿入する画像挿入部を備え、
     前記画像挿入部は、前記認識用画像の表示時間が知覚の閾値付近の値未満になるように前記認識用画像を挿入する、画像処理装置。
  2.  前記画像挿入部は、前記映像コンテンツを構成するフレーム画像の一部分に前記認識用画像を挿入する、請求項1に記載の画像処理装置。
  3.  前記画像処理装置は、
     前記映像コンテンツにおいてシーンが切り替わるフレーム画像を検出する検出部をさらに備え、
     前記画像挿入部は、前記検出部により検出されたフレーム画像に前記認識用画像を挿入する、請求項1に記載の画像処理装置。
  4.  前記画像挿入部は、前記認識用画像を含むフレーム画像を動画形式の前記映像コンテンツに挿入し、
     前記画像処理装置は、
     前記フレーム画像内の各画素値を隣接フレーム画像に応じて調整する画像調整部をさらに備える、請求項1に記載の画像処理装置。
  5.  前記画像挿入部は、第1の認識用画像、および前記第1の認識用画像と異なる情報が対応付けられた第2の認識用画像を挿入し、
     前記第1の認識用画像は、前記第2の認識用画像より大きい、請求項1に記載の画像処理装置。
  6.  前記画像挿入部は、複数の前記認識用画像を、同一または異なるフレーム画像における異なる位置に挿入する、請求項1に記載の画像処理装置。
  7.  撮像により得られた複数のフレーム画像から一部のフレーム画像を選択する画像選択部と、
     前記画像選択部により選択されたフレーム画像から画像認識によって認識用画像を識別する画像認識部と、
     前記画像認識部による認識結果に応じた情報の提供を制御する制御部と、
    を備える、画像認識装置。
  8.  前記画像選択部は、連続する2つのフレーム画像の差分を検出し、差分が基準を上回る2つのフレーム画像のいずれかのフレーム画像を選択する、請求項7に記載の画像認識装置。
  9.  前記画像選択部は、前記複数のフレーム画像から、一部の領域が白黒であるフレーム画像を選択する、請求項7に記載の画像認識装置。
  10.  撮像により得られた複数のフレーム画像から一部のフレーム画像を選択することと、
     前記選択されたフレーム画像から画像認識によって認識用画像を識別することと、
     前記画像認識の結果に応じた認識結果に応じた情報を提供することと、
    を含む、画像認識方法。
  11.  コンピュータを、
     撮像により得られた複数のフレーム画像から一部のフレーム画像を選択する画像選択部と、
     前記画像選択部により選択されたフレーム画像から画像認識によって認識用画像を識別する画像認識部と、
     前記画像認識部による認識結果に応じた情報の提供を制御する制御部と、
    として機能させるための、プログラム。
     
PCT/JP2012/078343 2011-12-02 2012-11-01 画像処理装置、画像認識装置、画像認識方法およびプログラム WO2013080739A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201280057699.4A CN103946871A (zh) 2011-12-02 2012-11-01 图像处理装置、图像识别装置、图像识别方法以及程序
US14/352,790 US9025082B2 (en) 2011-12-02 2012-11-01 Image processing device, image recognition device, image recognition method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011264445 2011-12-02
JP2011-264445 2011-12-02

Publications (1)

Publication Number Publication Date
WO2013080739A1 true WO2013080739A1 (ja) 2013-06-06

Family

ID=48535207

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/078343 WO2013080739A1 (ja) 2011-12-02 2012-11-01 画像処理装置、画像認識装置、画像認識方法およびプログラム

Country Status (3)

Country Link
US (1) US9025082B2 (ja)
CN (1) CN103946871A (ja)
WO (1) WO2013080739A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015200973A (ja) * 2014-04-04 2015-11-12 株式会社デジタル 携帯端末装置および表示装置
US10078636B2 (en) 2014-07-18 2018-09-18 International Business Machines Corporation Providing a human-sense perceivable representation of an aspect of an event

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9406089B2 (en) 2013-04-30 2016-08-02 Intuit Inc. Video-voice preparation of electronic tax return
CN105991931B (zh) * 2015-02-05 2019-08-02 宇龙计算机通信科技(深圳)有限公司 视频的采集方法及终端
EP3278267A1 (en) 2015-03-31 2018-02-07 Arçelik Anonim Sirketi Image display device retrieving locational information in association with an object in a broadcast program
CN105184773B (zh) * 2015-08-13 2018-05-01 海信集团有限公司 一种场景切换中插入图片的方法和设备
WO2017104272A1 (ja) * 2015-12-18 2017-06-22 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
CN106060654A (zh) * 2016-06-29 2016-10-26 乐视控股(北京)有限公司 一种家庭影院直播的防伪码增加的方法和装置
CN108449627B (zh) * 2018-03-16 2021-08-10 北京视觉世界科技有限公司 视频处理、视频来源的识别方法、装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005086356A (ja) * 2003-09-05 2005-03-31 Mitsubishi Electric Corp 情報記録装置及び情報検出装置
JP2006128900A (ja) * 2004-10-27 2006-05-18 Denso Corp 映像信号出力装置、コード入り映像信号生成方法、映像信号出力プログラム、カメラ駆動装置、カメラ駆動プログラム、幾何学形状コード解読装置、および幾何学形状コード解読プログラム
WO2007015452A1 (ja) * 2005-08-04 2007-02-08 Nippon Telegraph And Telephone Corporation 電子透かし埋め込み方法、電子透かし埋め込み装置、電子透かし検出方法、電子透かし検出装置、及びプログラム
JP2007036833A (ja) * 2005-07-28 2007-02-08 Sharp Corp 電子透かし埋め込み方法及び埋め込み装置、電子透かし検出方法及び検出装置
WO2009113416A1 (ja) * 2008-03-10 2009-09-17 日本電気株式会社 通信システム、送信装置及び受信装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1404130A1 (en) * 2002-09-24 2004-03-31 Matsushita Electric Industrial Co., Ltd. Method and apparatus for processing a video signal mixed with an additional image signal
US8599317B2 (en) * 2009-03-13 2013-12-03 Disney Enterprises, Inc. Scene recognition methods for virtual insertions
JP5348027B2 (ja) 2010-03-09 2013-11-20 沖電気工業株式会社 動画像処理プログラム、及び動画像処理装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005086356A (ja) * 2003-09-05 2005-03-31 Mitsubishi Electric Corp 情報記録装置及び情報検出装置
JP2006128900A (ja) * 2004-10-27 2006-05-18 Denso Corp 映像信号出力装置、コード入り映像信号生成方法、映像信号出力プログラム、カメラ駆動装置、カメラ駆動プログラム、幾何学形状コード解読装置、および幾何学形状コード解読プログラム
JP2007036833A (ja) * 2005-07-28 2007-02-08 Sharp Corp 電子透かし埋め込み方法及び埋め込み装置、電子透かし検出方法及び検出装置
WO2007015452A1 (ja) * 2005-08-04 2007-02-08 Nippon Telegraph And Telephone Corporation 電子透かし埋め込み方法、電子透かし埋め込み装置、電子透かし検出方法、電子透かし検出装置、及びプログラム
WO2009113416A1 (ja) * 2008-03-10 2009-09-17 日本電気株式会社 通信システム、送信装置及び受信装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015200973A (ja) * 2014-04-04 2015-11-12 株式会社デジタル 携帯端末装置および表示装置
US10078636B2 (en) 2014-07-18 2018-09-18 International Business Machines Corporation Providing a human-sense perceivable representation of an aspect of an event

Also Published As

Publication number Publication date
CN103946871A (zh) 2014-07-23
US9025082B2 (en) 2015-05-05
US20140253804A1 (en) 2014-09-11

Similar Documents

Publication Publication Date Title
WO2013080739A1 (ja) 画像処理装置、画像認識装置、画像認識方法およびプログラム
US10855910B2 (en) Electronic device, method, and program
US8384816B2 (en) Electronic apparatus, display control method, and program
JP5539313B2 (ja) テレビジョン受像機および方法
EP2540072B1 (en) Video delivery and control by overwriting video data
CN103136746A (zh) 图像处理装置和图像处理方法
US20130033618A1 (en) Image processing apparatus detecting quadrilateral region from picked-up image
US9207768B2 (en) Method and apparatus for controlling mobile terminal using user interaction
EP2938060A1 (en) Dynamic adjustment device for recording resolution and dynamic adjustment method and terminal
US20170047048A1 (en) Method and apparatus for adjusting display settings of a display according to ambient lighting
JP2012123513A (ja) 情報処理装置、および情報処理システム
KR101985880B1 (ko) 디스플레이 장치 및 이의 제어 방법
JP2008015860A (ja) 画像認識カメラ
CN104247412B (zh) 图像处理装置、摄像装置、图像处理方法、记录介质以及程序
WO2016072238A1 (ja) 画像処理装置、画像表示装置、画像処理方法及び画像表示方法
JP2013092855A (ja) 画像処理装置およびプログラム
JP2014123908A (ja) 画像処理装置、画像切り出し方法、及びプログラム
JP2013092856A (ja) 画像処理装置およびプログラム
JP2019023670A (ja) 電子機器及び表示方法
KR20160120469A (ko) 사용자 단말 장치, 외부 장치 및 오디오 출력 방법
US9262663B2 (en) Image processing device, image processing method, and program
JP6202786B2 (ja) 表示制御装置、表示制御装置の制御方法
JP2015032952A (ja) 表示制御装置、表示制御方法および記録媒体
WO2011043104A1 (ja) 液晶表示装置、画像表示方法、プログラムおよび記録媒体
KR20150135718A (ko) 광고 제공 방법, 디스플레이 장치, 모바일 장치 및 비 일시적 기록 매체

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12854044

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14352790

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12854044

Country of ref document: EP

Kind code of ref document: A1