WO2019039194A1 - Voice image reproduction device, voice image reproduction method, and data structure of image data - Google Patents

Voice image reproduction device, voice image reproduction method, and data structure of image data Download PDF

Info

Publication number
WO2019039194A1
WO2019039194A1 PCT/JP2018/028373 JP2018028373W WO2019039194A1 WO 2019039194 A1 WO2019039194 A1 WO 2019039194A1 JP 2018028373 W JP2018028373 W JP 2018028373W WO 2019039194 A1 WO2019039194 A1 WO 2019039194A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
image
information
image data
metadata
Prior art date
Application number
PCT/JP2018/028373
Other languages
French (fr)
Japanese (ja)
Inventor
裕生 渡邉
Original Assignee
株式会社Jvcケンウッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Jvcケンウッド filed Critical 株式会社Jvcケンウッド
Publication of WO2019039194A1 publication Critical patent/WO2019039194A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof

Definitions

  • the present invention relates to an audio and video reproduction apparatus, an audio and video reproduction method, and a data structure of image data.
  • Patent Document 1 Patent Document 2
  • Patent Document 3 various techniques involved in the reproduction
  • Patent Document 1 can display moving image content and stream AR information in a superimposed manner (Paragraphs 0062 to 0065 of Patent Document 1).
  • the timing correction system disclosed in Patent Document 2 can correct the timing of superimposing and displaying a comment on a video in accordance with the video (Paragraph 0033 of Patent Document 2).
  • the present invention solves at least one of the above-mentioned problems, and an audio and video reproduction apparatus, an audio and video reproduction method, and data of image data capable of easily displaying an image according to the reproduction elapsed time of audio data. Intended to provide a structure.
  • an audio and video reproduction apparatus reproduces audio data in which image data including data obtained by encoding an image and metadata relating to the data is embedded.
  • the metadata includes at least telop information in which text data and time information are combined, and the audio image reproducing unit reproduces the audio based on the audio data, and based on the audio data according to the telop information of the image data It is characterized in that a telop image based on text data according to an elapsed time from the start of reproduction of voice is superimposed on an image based on image data.
  • the telop information further includes text control information including at least one of color information of text data, font information, information indicating presence or absence of shading, and background color information.
  • the audio image reproducing unit displays a telop image based on text data in accordance with the text control information.
  • the text data is lyric data
  • the data obtained by encoding the image is obtained by encoding the original image data made of artwork.
  • the audio and video reproduction method of the present invention has a data reproduction step of reproducing audio data in which image data having encoded data and metadata is embedded, and the metadata includes text data and time information.
  • the data reproduction step includes the step of reproducing the audio data, the step of reproducing the audio data, and the telop based on the text data according to the elapsed time from the start of the reproduction of the audio data according to the telop information of the image data. And displaying the image superimposed on the image data.
  • the data structure of the image data according to the present invention is text data for displaying a text superimposed on the image in addition to the data obtained by encoding the image, and time information indicating timing of superimposing the text of the text data on the image And metadata having at least telop information in combination with the above.
  • an audio and video reproduction apparatus an audio and video reproduction method, and a data structure of image data capable of easily displaying an image according to the reproduction elapsed time of audio data.
  • FIG. 7 is a diagram showing an example of a functional block configuration of an information processing apparatus for performing an example of image reproduction processing accompanied by tampering detection.
  • 5 is a flowchart showing tampering detection processing in image reproduction processing. It is a figure which shows the process example in case an original image is a map image and metadata contain character strings, such as a place name selected and displayed according to the position on the map, and a setting language.
  • FIG. 6 is a diagram showing an example of processing when the original image is a landscape picture and the metadata includes object information such as position information of a building or the like in the picture. It is a figure which shows the process example in case an original image is a landscape photography and metadata contain object information, such as positional information on a building etc. in the photography.
  • the audio and video reproduction apparatus, the information processing apparatus, the audio and video reproduction method, and the data structure of image data according to the present invention will be described below with reference to FIGS. 1 to 6 and FIGS.
  • the audio image reproduction processing according to the embodiment of the present invention will be described with reference to FIGS. 7 to 9.
  • the image reproduction processing in FIGS. 1 to 6 and FIGS. 10 to 18 can be replaced with or combined with the image reproduction processing in the sound and image reproduction processing described with reference to FIGS. 7 to 9.
  • the audio and video reproduction apparatus, the information processing apparatus, the audio and video reproduction method, and the data structure of the image data according to the present invention are not limited to the embodiments exemplified herein. The description will be made in the following order. 1. Outline of generation process of image data storing metadata Example of image reproduction processing Example of sound and image reproduction processing Another Example of Image Reproduction Process Modified example
  • FIG. 1 is a diagram showing an outline of generation processing of image data storing metadata.
  • the information processing apparatus 1 of the present embodiment is, for example, an apparatus such as a notebook computer or a desktop computer.
  • the information processing apparatus 1 generates metadata, and functions as an image data generating apparatus that generates image data storing the generated metadata, and an image capable of reproducing an image from the image data storing the metadata It has a function as a playback device. Therefore, in the information processing apparatus 1, a program for functioning as an image data generation apparatus and a program for functioning as an image reproduction apparatus are installed in advance. However, the information processing apparatus 1 may have only the function as the image data generation apparatus or any one of the functions of the image reproduction apparatus.
  • the information processing apparatus 1 inputs original image data captured by a camera or original image data created by image processing (including so-called artwork that is data created by image processing software), and Input playback control data of image data.
  • the reproduction control data is, for example, data consisting of trimming information in which time information and area information are combined.
  • the area information is information for specifying an area in the original image data, and is, for example, information including upper left coordinates, width, and height, or information including upper left coordinates and lower right coordinates.
  • the time information is information indicating an elapsed time (elapsed time) from the start of reproduction of the original image data.
  • the information processing apparatus 1 performs a predetermined encoding process on the input original image data, and generates metadata from the input reproduction control data, and has the encoded data and the generated metadata. Generate image data.
  • FIG. 2 is a view showing an example of the format of image data.
  • the image data P includes SOI (Start of Image), APP1 (Application marker segment 1),... APP11 (Application marker segment 11), original image data, and EOI (End of Image). It consists of areas.
  • the image data P of the present embodiment is defined, for example, by a box file format of JPEG XT Part 3 which is an extension function of the conventional JPEG (Joint Photographic Experts Group) standard, and an extensible box-based which can be freely described File format is specified.
  • the SOI is a marker at the top of the JPEG file and representing the start point of the JPEG file. By reading this SOI, the JPEG file is identified.
  • APP1 stores attached information (Exif: Exchangeable image file format) for the image.
  • the APP 11 stores metadata defined by the box file format of JPEG XT Part 3 described in JSON (JavaScript Object Notation). More specifically, in APP 11, the length of the application marker segment and a plurality of box data are stored, and in each box data, the box length (Box Length), box type (Box Type), metadata Stores the type (Metadata type), schema ID (Schema ID), and metadata.
  • the metadata type is MIME
  • the schema ID is APP / JSON
  • the metadata is JSON is stored in the box data of JUMBF (0).
  • the box data of JUMBF (1) data having a metadata type of Vender, a schema ID of Vender / XXX, and metadata of XXX data is stored.
  • compressed image coded data in JPEG format is stored.
  • EOI is a marker that represents the end of the JPEG file.
  • FIG. 3 is a diagram showing an example of trimming the score according to the playback elapsed time.
  • image encoded data consisting of a score of 12 bars is stored.
  • the metadata M1 described in JSON is stored in the area of the APP 11 of the image data P1.
  • the first line is "" clip “: [”, the second line is “ ⁇ ”, the third line is “" time “: 0,", the fourth line is “"”:10,” 5th line “" top “: 60,” 6th line “" width “: 400,” 7th line “" height “: 100, 8th line
  • the eyes “ ⁇ ,” line 9 “ ⁇ ”, line 10 "” time “: 16,", line 11 “" left “: 10, line 12”” top “: 160”, “13””line”:”400", line 14 "" height ": 100”, line 15 “ ⁇ ,”, line n " ] Is described.
  • ““ Clip ” is information instructing to use the trimming function (clip function).
  • the information described after “" time indicates time information
  • the information described after" “left” “,” “top”, and “” width indicates area information. That is, trimming information in which time information and area information for trimming a predetermined position of an image are trimmed by the trimming function is described in the metadata M1, and the information processing apparatus 1 uses the metadata (trimming information). ) By reading out M1, it is possible to trim and sequentially display a predetermined area based on the area information linked to the time information according to the elapsed time from the start of reproduction of the image data P1.
  • the height from the position of the left 10 pixels and the upper 60 pixels from the display start time to the first 16 seconds is An area 100 pixels wide and 400 pixels wide is trimmed.
  • the area P2 of the first four bars is trimmed and displayed as indicated by the end of the arrow A1.
  • an area 100 pixels high and 400 pixels wide is trimmed from the position of 10 pixels on the left and 160 pixels on from the left until 16 seconds after the display start time until 32 seconds.
  • the area P3 of the next four bars is trimmed and displayed.
  • FIG. 4 is a block diagram showing an example of the hardware configuration of the information processing apparatus 1.
  • the information processing apparatus 1 includes a central processing unit (CPU) 11, a read only memory (ROM) 12, a random access memory (RAM) 13, a bus 14, an input unit 15, an output unit 16, a storage unit 17, and a communication unit 18.
  • CPU central processing unit
  • ROM read only memory
  • RAM random access memory
  • bus 14 an input unit 15, an output unit 16, a storage unit 17, and a communication unit 18.
  • the CPU 11, the ROM 12 and the RAM 13 are mutually connected by a bus 14.
  • An input unit 15, an output unit 16, a storage unit 17, and a communication unit 18 are also connected to the bus 14.
  • the input unit 15 includes an input device such as a keyboard and a mouse, and supplies various information to the CPU 11 via the bus 14.
  • the output unit 16 is composed of an output device such as a display or a speaker, and displays an image or reproduces an audio according to an instruction of the CPU 11.
  • the storage unit 17 is configured of a hard disk, a non-volatile memory, and the like.
  • the storage unit 17 stores various data such as image data in which metadata is stored, in addition to the program executed by the CPU 11.
  • the communication unit 18 is configured by a network interface or the like, and communicates with an external device (not shown) via wireless or wired communication.
  • FIG. 5 shows an example of functional block configuration of the information processing apparatus 1 for carrying out an example of image reproduction processing for trimming an image as an information processing apparatus 1A.
  • the information processing apparatus 1A includes an image data generating apparatus 30 that generates metadata and generates image data storing the generated metadata, and an image reproducing apparatus 40 that reproduces an image based on the metadata. .
  • the image data generation device 30 includes an image encoding unit 31, a metadata generation unit 32, an image data generation unit 33, and a recording control unit 34.
  • the image encoding unit 31 inputs original image data captured by a camera or original image data created by image processing, and encodes the input original image data in JPEG XT format.
  • the obtained image coded data is supplied to the image data generation unit 33.
  • the metadata generation unit 32 inputs reproduction control data composed of trimming information in which time information and area information are combined, and generates metadata defined by a box file format of JPEG XT Part 3 that can be described in JSON.
  • the generated metadata is supplied to the image data generation unit 33.
  • the image data generation unit 33 generates image data (FIG. 2) in which the image coded data supplied from the image coding unit 31 and the metadata supplied from the metadata generation unit 32 are stored. The generated image data is supplied to the recording control unit 34.
  • the recording control unit 34 supplies the image encoded data and the image data having the metadata supplied from the image data generation unit 33 to the storage unit 17 and controls the recording there.
  • the image reproduction device 40 includes an analysis unit 41, an image decoding unit 42, an image storage unit 43, an image trimming unit 44, and an output control unit 45.
  • the analysis unit 41 acquires image data from the storage unit 17 based on an instruction from the input unit 15, analyzes the metadata stored in the acquired image data, and stores the JPEG XT stored in the image data.
  • the encoded image data in the format is supplied to the image decoding unit 42.
  • the analysis unit 41 starts an internal timer (not shown), and among the plurality of trimming information in which time information of the internal timer and time information described in the analyzed metadata and area information are combined, the internal timer performs time measurement.
  • the image trimming unit 44 is controlled based on trimming information having time information that matches the time.
  • the analyzing unit 41 sequentially trims an image of a predetermined area among the images represented by the image data stored in the image storage unit 43 at a predetermined timing.
  • the image trimming unit 44 is controlled so as to
  • the image decoding unit 42 decodes the image coding data in the JPEG XT format supplied from the analysis unit 41.
  • the obtained image decoded data is supplied to the image storage unit 43 and temporarily stored there.
  • the image trimming unit 44 trims an image in a predetermined area at a predetermined timing among the image decoding data stored in the image storage unit 43 based on the control of the analysis unit 41, and decodes the image corresponding to the trimmed image. Supply data to the output control unit 45.
  • the output control unit 45 outputs (displays) the decoded data of the image of the predetermined area supplied from the image trimming unit 44 to the display.
  • step S ⁇ b> 1 the analysis unit 41 acquires image data from the storage unit 17 based on an instruction from the input unit 15.
  • step S 2 the analysis unit 41 analyzes the metadata stored in the image data, and supplies the image decoding unit 42 with the image coding data in JPEG XT format stored in the read image data.
  • step S3 the image decoding unit 42 decodes the image encoded data supplied from the analysis unit 41 to obtain image decoded data.
  • the image decoding data is supplied to the image storage unit 43 and temporarily stored therein.
  • step S4 the analysis unit 41 activates an internal timer.
  • step S5 the analysis unit 41 determines whether or not there is trimming information having time information that matches the timekeeping time of the internal timer among the plurality of trimming information described in the analyzed timer and the measured time of the internal timer. Determine
  • step S5 when the analysis unit 41 determines that there is trimming information having time information that matches the clocking time of the internal timer (step S5: YES), trimming information having time information that matches the clocking time of the internal timer
  • the image trimming unit 44 is controlled based on
  • step S6 the image trimming unit 44 generates an image of a predetermined area based on the area information linked to the time information among the image decoded data stored in the image storage unit 43 under the control of the analysis unit 41.
  • the image decoding data corresponding to the above is taken out and supplied to the output control unit 45.
  • step S7 the output control unit 45 outputs the image decoding data corresponding to the image of the predetermined area supplied from the image trimming unit 44 to the display. Thereafter, the process returns to step S5, and the above-described process is repeated until it is determined that there is no trimming information having time information that matches the time measured by the internal timer.
  • step S5 When it is determined in step S5 that there is no trimming information having time information that matches the time measured by the internal timer (step S5: NO), the image trimming display process shown in FIG. 6 ends.
  • generation of image data having metadata including at least data obtained by encoding an image and trimming information in which time information and area information are combined is generated.
  • the display timing that matches the time information described in the metadata is reached, it is possible to trim and display only a predetermined area of the image based on the area information linked to the time information. Since the display timing and management data can be included in the image data, data management becomes simple. Also, the image area to be displayed and the reproduction timing of the image area need only be edited in the information in the metadata, and can be easily changed since it is not necessary to use a specific device or software. The display according to the reproduction elapsed time can be easily performed.
  • the information processing apparatus 1A further includes an audio data reproduction unit, and can store the audio data in the storage unit 17 in association with the image data.
  • the information processing apparatus 1A can reproduce audio data associated with the image data.
  • audio data of a violin performance which serves as a guide for the musical score.
  • the user can practice the piano performance according to the guide performance.
  • audio data of a violin performance based on the musical score can also be reproduced simultaneously. Thereby, the user can enjoy the double performance with the violin performance only by performing the piano performance.
  • the information processing apparatus 1A may further describe animation information in metadata including at least trimming information in which time information and area information are combined.
  • the information processing apparatus 1A can simultaneously display an image based on animation information associated with the image data. For example, when displaying a predetermined area of musical score data of a piano, it is possible to superimpose and display an image of a guiding function of the piano performance of the musical score (an animation which tells the location of the keyboard to be played next). This allows the user to practice piano playing according to the guide function.
  • FIG. 7 is a diagram showing an example in which the lyric data is displayed in telop in accordance with the reproduction elapsed time of the audio data.
  • image encoded data consisting of artwork is stored in the original image data of the image data P11.
  • metadata M11 described in JSON is stored in an area of the APP 11 of the image data P11.
  • “" Lyrics "" is information instructing to use the lyric display function.
  • the information described after "" time indicates time information, and the information described after" “text” indicates text data. That is, in the metadata M11, telop information in which time information and text data for displaying lyrics are described by the lyrics display function is described, and the information processing apparatus 1 is an image data in which the metadata M11 is stored.
  • the image data P11 embedded in the audio data is acquired, and the metadata (telop information) M11 stored in the acquired image data P11 is read out.
  • FIG. 8 shows an example of the functional block configuration of the information processing apparatus 1 for carrying out the sound and image reproduction processing example as an information processing apparatus 1B.
  • the information processing apparatus 1B generates metadata, generates image data storing the generated metadata, generates a sound data in which the generated image data is embedded, and generates a sound from the sound data.
  • An audiovisual player (Audiovisual Player) 60 that reproduces an image from image data based on metadata while reproducing.
  • the data generation device 50 includes an image encoding unit 51, a metadata generation unit 52, a data generation unit 53, and a recording control unit 54.
  • the image coding unit 51 inputs original image data captured by a camera or original image data created by image processing, and performs image encoding on the input original image data in JPEG XT format.
  • the encoded data is supplied to the data generation unit 53.
  • the metadata generation unit 52 inputs reproduction control data consisting of telop information in which time information and text data are combined, and generates metadata defined by a box file format of JPEG XT Part 3 that can be described in JSON.
  • the generated metadata is supplied to the data generation unit 53.
  • the data generation unit 53 generates image data (FIG. 2) storing the encoded data supplied from the image coding unit 51 and the metadata supplied from the metadata generation unit 52.
  • the data generation unit 53 inputs audio data from the outside, embeds the image data in which the metadata is stored in the input audio data, and supplies it to the recording control unit 54.
  • the recording control unit 54 supplies, to the storage unit 17, the audio data in which the image data having the encoded image data and the metadata is embedded and which is supplied from the data generation unit 53, and controls the recording there.
  • the audio and video reproduction apparatus 60 includes an analysis unit 61, an image decoding unit 62, a text drawing unit 63, and an output control unit 64.
  • the analysis unit 61 acquires audio data from the storage unit 17 based on an instruction from the input unit 15, supplies the acquired audio data to the output control unit 64, and the image data embedded in the acquired audio data Is acquired, and the metadata stored in the acquired image data is analyzed.
  • the image encoded data in the JPEG XT format stored in the image data is supplied to the image decoding unit 62 by analysis.
  • the analysis unit 61 activates an internal timer (not shown), and the internal timer among the plurality of telop information that is a combination of time information described in the analyzed metadata, time information described in the analyzed metadata, and text data.
  • the text drawing unit 63 is controlled based on the telop information having time information that matches the clocked time of. That is, the analysis unit 61 controls the text drawing unit 63 so that the text data is sequentially imaged at predetermined timing based on the plurality of telop information described in the metadata.
  • the image decoding unit 62 decodes the encoded image data of JPEG XT format supplied from the analysis unit 61.
  • the decoded image data is supplied to the output control unit 64.
  • the text drawing unit 63 converts the text data supplied from the analysis unit 61 into image data at a predetermined timing based on the control of the analysis unit 61, and supplies the image data to the output control unit 64.
  • the output control unit 64 outputs a voice based on the voice data supplied from the analysis unit 61 to a speaker for reproduction, and causes the image data supplied from the image decoding unit 62 to be image data supplied from the text drawing unit 63. Are output (displayed) on the display.
  • step S11 the analysis unit 61 acquires voice data from the storage unit 17 based on an instruction from the input unit 15.
  • step S12 the analysis unit 61 analyzes metadata of the image data embedded in the audio data.
  • the acquired audio data is supplied to the output control unit 64, and the encoded image data of JPEG XT format stored in the analyzed metadata is supplied to the image decoding unit 52.
  • step S 13 the image decoding unit 62 decodes the image coding data in the JPEG XT format supplied from the analysis unit 61 to generate image decoding data, and supplies the image decoding data to the output control unit 64.
  • step S14 the output control unit 64 outputs the sound based on the sound data to the speaker for reproduction.
  • step S15 the analysis unit 61 activates an internal timer.
  • step S16 the analysis unit 61 determines whether or not there is telop information having time information that matches the timekeeping time of the internal timer among the plurality of telop information described in the analyzed metadata and the timekeeping time of the internal timer. Determine
  • step S16 when the analyzing unit 61 determines that there is telop information having time information that matches the clocking time of the internal timer (step S16: YES), telop information having time information that matches the clocking time of the internal timer
  • the text drawing unit 63 is controlled based on
  • step S17 the text drawing unit 63 converts the text data linked to the time information into image data based on the control of the analysis unit 61, and supplies the image data to the output control unit 64.
  • step S18 the output control unit 64 superimposes the text image data supplied from the text drawing unit 63 on the image data supplied from the image decoding unit 62, and outputs the superimposed image. Thereafter, the process returns to step S16, and the above-described process is repeated until it is determined that there is no telop information having time information that matches the time measured by the internal timer.
  • step S16 When it is determined in step S16 that there is no telop information having time information that matches the time measured by the internal timer (step S16: NO), the telop display process shown in FIG. 9 is ended.
  • information processing apparatus 1B further includes text color information, font information, information indicating the presence or absence of shading, and background color information. And the like may be described. With such a configuration, the information processing apparatus 1B can display a telop that can be enjoyed visually even from a monotonous telop when displaying a telop.
  • FIG. 10 is a diagram illustrating an example of image data in which tampering detection data is described in metadata.
  • image encoded data in which a photograph is an original image is stored.
  • metadata M21 described in JSON is stored.
  • the hash value A is a value obtained by executing a script using Seed data as an argument.
  • Seed data is data (parameters) embedded in advance in a predetermined area of the image data P21.
  • the hash value B is a value obtained by executing a script with the program string of the script as an argument.
  • the script is a hash function (program) for calculating a hash value. That is, data for detecting tampering is described in the metadata M21, and the information processing apparatus 1 reads the metadata (falsification detection data) M21 and executes a script to obtain image data P21. It is possible to detect tampering.
  • FIG. 11 shows an example of functional block configuration of the information processing apparatus 1 for carrying out this example of image reproduction processing as an information processing apparatus 1C.
  • the same components as those in FIG. 5 are denoted by the same reference numerals, and the redundant description will be appropriately omitted.
  • the information processing apparatus 1C generates metadata, generates an image data generation apparatus 30 that generates image data storing the generated metadata, and detects whether the image data storing the metadata has been tampered with or not.
  • the image data tampering detection apparatus 70 reproduces image data when the image data is not tampered with.
  • the metadata generation unit 32 inputs reproduction control data including a hash value A, a hash value B, and a script for detecting tampering, and specifies metadata defined by a box file format of JPEG XT Part 3 that can be described in JSON. Generate The generated metadata is supplied to the image data generation unit 33.
  • the image data tampering detection device 70 includes an analysis unit 71, a comparison unit 72, a tampering detection unit 73, an image decoding unit 74, and an output control unit 75.
  • the analysis unit 71 acquires image data from the storage unit 17 based on an instruction from the input unit 15, analyzes metadata stored in the acquired image data, and detects tampering detection data described in the metadata ( The hash value A, the hash value B, and the script are supplied to the comparison unit 72, and the encoded data of the JPEG XT image format stored in the image data is supplied to the image decoding unit 74.
  • the analysis unit 71 reads the Seed data embedded in the image data by a predetermined method, and also supplies the same to the comparison unit 72.
  • the comparing unit 72 calculates the hash value A ′ based on the script and the Seed data included in the tampering detection data supplied from the analyzing unit 71, and is described in the calculated hash value A ′ and metadata (tampering detection data) And the hash value A. Further, the comparison unit 72 calculates the hash value B ′ based on the program character string of the script included in the tampering detection data, and the calculated hash value B ′ and the hash value B described in the metadata (tampering detection data) Compare The comparison result is supplied to the tampering detection unit 73.
  • the falsification detection unit 73 detects whether the image data is falsified or not based on the two comparison results of the comparison unit 72, and the image data is not falsified (both the hash value A and the hash value B are correct). If it is determined that the image data is tampered (if either or both of the hash value A and the hash value B is incorrect) is detected, the image is decoded. The decryption process of the decryption unit 74 is prohibited.
  • the image decoding unit 74 decodes the image coding data in the JPEG XT format supplied from the analysis unit 71 when the execution of the decoding process is instructed based on the control of the tampering detection unit 73, and performs image decoding.
  • the data is supplied to the output control unit 75 as data.
  • the image decoding unit 74 does not decode the JPEG XT image encoded data supplied from the analysis unit 71, but the output control unit Supply to 75.
  • the output control unit 75 outputs (displays) the data supplied from the image decoding unit 74 to a display.
  • step S ⁇ b> 21 the analysis unit 71 acquires image data from the storage unit 17 based on an instruction from the input unit 15.
  • step S22 the analysis unit 71 analyzes the metadata stored in the image data, and supplies the tampering detection data (hash value A, hash value B, and script) described in the metadata to the comparison unit 72.
  • the encoded image data in the JPEG XT format stored in the read out image data is supplied to the image decoding unit 74.
  • the analysis unit 71 reads Seed data embedded in the image data by a predetermined method, and supplies the Seed data to the comparison unit 72.
  • step S23 the comparison unit 72 executes a script described in metadata (falsification detection data) using the Seed data supplied from the analysis unit 71 as an argument, and calculates a hash value A ′.
  • step S24 the comparison unit 72 compares the hash value A described in the metadata (tamper detection data) with the calculated hash value A '.
  • step S25 the comparison unit 72 executes the script with the program character string of the script described in the metadata (tamper detection data) as an argument, and calculates the hash value B '.
  • step S26 the comparison unit 72 compares the hash value B described in the metadata (tamper detection data) with the calculated hash value B '. The comparison results of step S24 and step S26 are supplied to the tampering detection unit 73.
  • step S27 the falsification detection unit 73 determines whether or not the image data has been falsified from the two comparison results, and if any one or both comparison results are different, it is determined that the image data is falsified.
  • Step S27: YES the decoding process of the image decoding unit 74 is prohibited in step S28. Accordingly, the image decoding unit 74 supplies the image control data in the JPEG XT format supplied from the analysis unit 71 to the output control unit 75 without decoding.
  • the output control unit 75 outputs (displays) the data supplied from the image decoding unit 74 to a display.
  • step S27 if the two comparison results are identical to each other, the tampering detection unit 73 determines that the image data is not tampered (step S27: NO), and in step S29, the decryption processing of the image decryption unit 74 Run
  • the image decoding unit 74 decodes the image coding data in the JPEG XT format supplied from the analysis unit 71, and supplies the decoded data as image decoding data to the output control unit 75.
  • the output control unit 75 outputs (displays) the image decoded data supplied from the image decoding unit 74 to a display.
  • the Seed data is assumed to be embedded in a predetermined area of the image data P21 in advance.
  • the present invention is not limited to this. You may make it store.
  • step S25 the hash value B 'calculated in step S25 is obtained by executing the script using the program character string of the script as an argument
  • the script is executed using the program character string of the script and the Seed data as arguments. May be obtained by
  • the information processing apparatuses 1A, 1B, and 1C may generate image data having image encoded data and metadata including a character string such as a location name to be selectively displayed according to position information on a map or a setting language.
  • the information processing apparatuses 1A, 1B, and 1C set the language set in the information processing apparatuses 1A, 1B, and 1C among the metadata stored in the image data. It is possible to acquire a string attached, and to display the acquired string superimposed on a predetermined position.
  • FIG. 13 is a diagram showing an example of use of image data having metadata including a character string such as a place name to be selectively displayed according to a position on a map and a set language, in addition to image coded data.
  • image encoded data in which an original image of a Japanese map is encoded is stored in the original image data.
  • metadata M31 described in JSON is stored in an area of the APP 11 of the image data P31.
  • Point “” is information instructing to use a function for pointing to a specific position on the screen.
  • the information described after “" Sapporo "", “" Tokyo “", “” Naha “”, “” x “”, “” y “” is the coordinate information of each place name (position) on the map It shows.
  • the information described after "" name “indicates the language, and the information described after” “en-US” "indicates the name of the place to be displayed when the language is set.
  • the information described after "JP” indicates a place name (character string) to be displayed when the language is set.
  • place name information including a combination of coordinate information for displaying a place name in a predetermined language, a set language and a place name is described by a function indicating a specific position on the screen, and the information processing apparatus 1A , 1B, and 1C, by displaying the metadata (place name information) when displaying the image data, the place name corresponding to the predetermined language set in the terminal may be superimposed and displayed at the predetermined position. it can.
  • the place names (Sapporo, Tokyo, Naha) following the "" en-US "of the metadata M31 are read out.
  • the information processing apparatuses 1A, 1B, and 1C superimpose a geographical name in English on a predetermined position on the Japanese map display P33 as indicated by the end of the arrow A32.
  • this image is generated by generating image encoded data and metadata including a character string such as a location name to be selectively displayed according to position information on a map and a setting language.
  • the place name linked to the language set in the information processing devices 1A, 1B, 1C may be superimposed and displayed at a predetermined position based on the place name information described in the metadata. it can.
  • the information processing apparatuses 1A, 1B, and 1C may generate image data including encoded image data and metadata including a character string such as an address of a shooting location of the image and a facility name. As a result, when displaying an image, the information processing apparatuses 1A, 1B, and 1C can acquire the character string of the metadata stored in the image data, and superimpose the acquired character string on the image. The information processing apparatuses 1A, 1B, and 1C can also perform image search using a character string of metadata stored in image data as a search key.
  • FIG. 14 is a diagram showing a usage example of image data having metadata including a character string such as an address of a photographing place of an image and a facility name in addition to image coded data.
  • a picture taken in Okinawa is encoded and stored as image encoded data.
  • metadata M41 described in JSON is stored in an area of the APP 11 of the image data P41.
  • the first line is ““ location ”: ⁇ ”
  • the second line is ““ address ”:“ Shuri Kinjocho 1-chome 2 Naha, Okinawa Prefecture ”
  • the third line is“ ⁇ Is described.
  • ““ Location ” is information instructing to use a function that can specify the current location and cooperate with the service.
  • the information described after "" address "indicates the address of the shooting location. That is, information indicating the address of the shooting location is described in the metadata M41, and the information processing apparatuses 1A, 1B, and 1C describe the metadata by reading out the metadata when displaying the image. Information indicating the address of the photographed place can be superimposed and displayed.
  • the information processing apparatuses 1A, 1B, and 1C connect the image data P41 storing such metadata M41 to a database (DB) connected via a network (not shown) as indicated by the point of arrow A42. ) Can be supplied and managed there. Accordingly, when the information processing apparatuses 1A, 1B, and 1C perform image search using "Okinawa" as a search key, image data including "Okinawa" in the metadata M41 among a plurality of image data managed by the database 101 You can search for Then, as indicated by the end of the arrow A43, the information processing apparatuses 1A, 1B, and 1C can display the image list P43 including thumbnail images of a plurality of searched image data.
  • the image when the image is displayed by generating the image data including the image encoded data and the metadata including the character string such as the address of the shooting location and the facility name, the image is displayed It is possible to superimpose the address of the shooting location stored in the data and the facility name.
  • the generated image data when a search key is designated, it is possible to easily search for image data in which metadata including the search key is stored.
  • the information processing apparatuses 1A, 1B, and 1C may generate image data having metadata including text data indicating the content of the image coded data in addition to the image coded data.
  • the information processing apparatuses 1A, 1B, and 1C acquire text data of metadata stored in the image data, and the acquired text data is voiced by the text-to-speech function Can be converted and played back.
  • FIG. 15 is a diagram showing an example of use of image data having metadata including text data indicating contents of the image coded data in addition to the image coded data.
  • Tts "" is information instructing to use a text-to-speech function called a tts (text-to speech) system.
  • the information described after "" lang “” indicates the language specified when using the text-to-speech function.
  • the information described after "" text "indicates text data read out when using the tts system. That is, text data for reading out in Japanese by the text-to-speech function is described in the metadata M51, and the information processing apparatuses 1A, 1B, and 1C read this metadata when displaying the image data. The voice based on the text data described in the metadata can be reproduced.
  • the image is displayed based on the image data by generating the image data including the encoded image data and the metadata including the text data indicating the content of the encoded image data.
  • the image data is displayed based on the image data by generating the image data including the encoded image data and the metadata including the text data indicating the content of the encoded image data.
  • sound based on text data stored in the image data can be reproduced.
  • the information processing apparatuses 1A, 1B, and 1C may generate image data including image coded data encrypted by a public key and metadata storing the public key. Thus, when displaying the image, the information processing apparatuses 1A, 1B, and 1C acquire the public key of the metadata stored in the image data, and only when the image code has the secret key linked to the acquired public key, the image code Can be decoded and displayed.
  • FIG. 16 is a diagram showing an example of use of image data including image encoded data encrypted by a public key and metadata storing the public key.
  • image encoded data encrypted with a public key is stored in the original image data of the image data P61.
  • the metadata M61 described in JSON is stored in the area of the APP 11 of the image data P61.
  • a thumbnail image P61a as it is in plain text is also stored in the area of APP1 (Exif) of the image data P61.
  • the first line is ““ encrypt ”: ⁇ ”
  • the second line is ““ OID ”:“ 1.2.840.10045.2.1 ””
  • the third line is “public_key”: “ 04FC 2 E 8 B 81 DD ... ”” and “ ⁇ ” are described in the fourth line.
  • ““ Encrypt ”” is information instructing to use the encryption function.
  • the information described after “" OID “" indicates information identifying an object, and the information described after "" public_key “” indicates a public key. That is, the public key used for the encryption of the image encoded data is described in the metadata M61, and the information processing apparatuses 1A, 1B, and 1C read this metadata when displaying the image.
  • the image encoded data in the image data P61 can be decoded and displayed only when there is a secret key linked to the public key described in the metadata.
  • the information processing apparatuses 1A, 1B, and 1C do not have the secret key 111 linked to the public key read from the metadata M61, the information processing apparatuses 1A, 1B, and 1C can decode the image encoded data in the image data P61. Then, as indicated by the tip of the arrow A62, the data P63 as it is encrypted is displayed.
  • the fourth modification when the image is displayed by generating the image data having the image encoded data encrypted by the public key and the metadata storing the public key, Only in the case of having a secret key linked to the public key of the metadata stored in the data, the encrypted image encoded data can be decoded and displayed.
  • the information processing apparatuses 1A, 1B, and 1C are image data having encoded image data, metadata including object (facility etc.) information identified based on the shooting position and direction of the original image, and the angle of view and map information. May be generated. Accordingly, the information processing apparatuses 1A, 1B, and 1C can perform image search using object information of metadata stored in image data as a search key.
  • FIG. 17 and FIG. 18 are diagrams showing an example of use of image data having image coded data, metadata including object information identified based on shooting position and direction of the original image, angle of view and map information. is there.
  • an image of the Tokyo Tower taken at latitude 35.65851 and longitude 139.745433 is encoded and stored as image encoded data. ing.
  • APP1 (Exif) of the image data P71 Exif information of latitude 35.6591, longitude 139.741969, and azimuth N 90 ° is stored.
  • APP1 (Exif) of the image data P72 Exif information of latitude 35.65851, longitude 139.745433, and azimuth N 315 ° is stored.
  • the operation unit 112 of the information processing apparatus 1A, 1B, 1C inputs the image data P71, refers to the Map database 111 connected via the network (not shown), and relates to Exif information stored in the image data P71. Object information to be acquired.
  • the calculation unit 112 generates metadata M71 described in JSON based on the object information acquired from the Map database 111, as indicated by the tip of the arrow A71.
  • the operation unit 113 of the information processing apparatuses 1A, 1B, and 1C receives the image data P72, refers to the Map database 111 connected via a network (not shown), and relates to Exif information stored in the image data P72. Object information to be acquired.
  • the calculation unit 113 generates the metadata M72 described in JSON based on the object information acquired from the Map database 111 as indicated by the tip of the arrow A72.
  • the information processing apparatuses 1A, 1B, and 1C store the generated metadata M71 in the area of the APP 11 of the image data P71, and store the generated metadata M72 in the area of the APP 11 of the image data P72.
  • the information processing apparatuses 1A, 1B, and 1C are configured such that the image data P71 in which the metadata M71 is stored, and the image data P72 in which the metadata M72 is stored, as indicated by the arrow A81 in FIG. Can be supplied to and managed by the object database 121 connected thereto.
  • the information processing apparatuses 1A, 1B, and 1C perform image search using "Tokyo Tower” as a search key, "Tokyo Tower” is selected as metadata M71, M72 from among a plurality of image data managed by the database 121.
  • the image data P71 and P72 including the image data can be searched.
  • the information processing apparatuses 1A, 1B, and 1C can display an image list P81 including thumbnail images of a plurality of searched image data, as indicated by the end of the arrow A82.
  • image data having metadata including object data identified based on encoded data, shooting position and direction of image data, and angle of view and map information is generated.
  • the metadata described in the image reproduction processing example for trimming an image describes time information and area information
  • the metadata described in the audio image reproduction processing example describes time information and text data
  • the metadata described in the example of the image reproduction processing accompanied by the falsification detection describes the falsification detection data
  • time information, area information, metadata describing tamper detection data, time information, text data, metadata describing tamper detection data, time information, area information, text information, and tamper detection data are described It is also possible to generate metadata. With such a configuration, only when the image data is detected not to be tampered with is detected according to the tampering detection data described in the metadata, the predetermined area of the image data is trimmed and displayed at a predetermined display timing. It is possible to display the image data in telop display at a predetermined timing, or to display only a predetermined area of the image data in a trimmed display at a predetermined timing and to display a telop display on the image data.
  • object information, shooting position information, and the like are described in the metadata, but the present invention is not limited to this.
  • the face of Mr. Yamada is located at x-coordinate 300 and y-coordinate 200 in image data. It is also possible to describe information indicating that Mr. Suzuki's face is in the x-coordinate 500 and the y-coordinate 300. With such a configuration, it is possible to extract Mr. Yamada's image from among a plurality of image data and to search for Mr. Yamada's face (position) in the extracted image.
  • image data detected by performing predetermined image recognition processing on image data captured by a drive recorder, a security camera or the like, data such as date and time, location, status, etc. may be described in metadata. With such a configuration, it is possible to extract an image in a dangerous situation by image analysis from among a plurality of image data.
  • the image data generation device 30, the image reproduction device 40, the audio image data generation device 50, the audio image reproduction device 60, and the image data tampering detection device 70 are provided in the same information processing devices 1A, 1B, 1C. However, it is also possible to provide those functions as separate devices.
  • the series of processes described above can be performed by hardware or software.
  • various functions are executed by installing a computer in which a program configuring the software is incorporated in dedicated hardware or various programs. Can be installed, for example, on a general-purpose personal computer from the program storage medium.
  • the program executed by the computer may be a program that performs processing in chronological order according to the order described in this specification, in parallel, or when necessary, such as when a call is made. It may be a program to be processed.
  • 1, 1A, 1B, 1C information processing apparatus
  • 16 output unit
  • 17 storage unit
  • 30 image data generation apparatus

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

Provided are a voice image reproduction device, a voice image reproduction method, and the data structure of image data, by which image display corresponding to a reproduction elapsed time of voice data can be easily performed. The present invention is provided with a voice image reproduction unit that reproduces voice and an image from voice data in which image data including data obtained by encoding the image and including meta data related to the data, is embedded. The meta data at least includes telop information in which text data and time information are paired with each other. The voice image reproduction unit reproduces the voice on the basis of the voice data, and displays, in accordance with the telop information of the image data, a telop image that is based on the text data corresponding to an elapsed time from start of the voice reproduction.

Description

音声画像再生装置、音声画像再生方法、および画像データのデータ構造Audio image reproduction apparatus, audio image reproduction method, and data structure of image data
 本発明は、音声画像再生装置、音声画像再生方法、および画像データのデータ構造に関する。 The present invention relates to an audio and video reproduction apparatus, an audio and video reproduction method, and a data structure of image data.
 近年、様々な情報機器の普及により、画像を手軽に再生することができるようになってきた。また、画像の再生時に、関連する情報を重畳表示することができるようにもなってきており、再生に伴う様々な技術が提案されている(たとえば特許文献1、特許文献2、特許文献3)。 In recent years, with the spread of various information devices, it has become possible to easily reproduce images. In addition, at the time of image reproduction, it has become possible to display related information in a superimposed manner, and various techniques involved in the reproduction have been proposed (for example, Patent Document 1, Patent Document 2, Patent Document 3) .
 特許文献1に開示されるコンテンツ表示装置では、動画コンテンツとストリームAR情報を重畳表示することができる(特許文献1の段落0062~0065)。 The content display device disclosed in Patent Document 1 can display moving image content and stream AR information in a superimposed manner (Paragraphs 0062 to 0065 of Patent Document 1).
 特許文献2に開示されるタイミング補正システムでは、コメントを映像に重畳して表示する際のタイミングを映像に合わせて補正することができる(特許文献2の段落0033)。 The timing correction system disclosed in Patent Document 2 can correct the timing of superimposing and displaying a comment on a video in accordance with the video (Paragraph 0033 of Patent Document 2).
 特許文献3に開示される字幕表示装置では、動画とテキストを重畳させるタイミングを合わせることができる(特許文献3の段落0033)。 In the subtitle display device disclosed in Patent Document 3, the timing of superimposing the moving image and the text can be matched (Paragraph 0033 of Patent Document 3).
特許第6130841号公報Patent No. 6130841 特開2016-200711号公報JP, 2016-200711, A 特許第4792458号公報Patent No. 4792458 gazette
 画像に情報を重畳表示させるためには、重畳タイミングや重畳するテキスト等、重畳表示に係るデータを、画像データとは別に管理する必要があり、煩雑になるという課題がある。 In order to display information superimposed on an image, it is necessary to manage data relating to superimposed display, such as superimposed timing and superimposed text, separately from image data, which causes a problem of complexity.
 また、重畳表示に係るデータを読み出すことが可能な装置やソフトウエアが必要となり、コストがかかる課題がある。 In addition, an apparatus and software capable of reading out data relating to superimposed display are required, which causes a problem of cost.
 本発明は、上述した問題の少なくとも1つを解決するため、音声データの再生経過時刻に応じた画像の表示を容易に行うことができる音声画像再生装置、音声画像再生方法、および画像データのデータ構造を提供することを目的とする。 The present invention solves at least one of the above-mentioned problems, and an audio and video reproduction apparatus, an audio and video reproduction method, and data of image data capable of easily displaying an image according to the reproduction elapsed time of audio data. Intended to provide a structure.
 上記課題を解決するために、本発明の音声画像再生装置は、画像を符号化したデータとそのデータに関するデータであるメタデータとを有する画像データが埋め込まれた音声データを再生する音声画像再生部を備え、メタデータは、テキストデータと時刻情報とを組みとするテロップ情報を少なくとも含み、音声画像再生部は、音声データに基づき音声を再生するとともに、画像データのテロップ情報に従って、音声データに基づく音声の再生開始からの経過時刻に応じたテキストデータに基づくテロップ画像を画像データに基づく画像に重畳表示することを特徴とする。 In order to solve the above problems, an audio and video reproduction apparatus according to the present invention reproduces audio data in which image data including data obtained by encoding an image and metadata relating to the data is embedded. The metadata includes at least telop information in which text data and time information are combined, and the audio image reproducing unit reproduces the audio based on the audio data, and based on the audio data according to the telop information of the image data It is characterized in that a telop image based on text data according to an elapsed time from the start of reproduction of voice is superimposed on an image based on image data.
 また、上述した音声画像再生装置であって、テロップ情報は、テキストデータの色情報、フォント情報、陰影の有無を示す情報、背景色情報のうちの少なくとも1つを含むテキスト制御情報をさらに有し、音声画像再生部は、テキスト制御情報に従って、テキストデータに基づくテロップ画像を表示することが好ましい。 Further, in the above-described audio and video reproduction apparatus, the telop information further includes text control information including at least one of color information of text data, font information, information indicating presence or absence of shading, and background color information. Preferably, the audio image reproducing unit displays a telop image based on text data in accordance with the text control information.
 また、上述した音声画像再生装置であって、テキストデータは歌詞データであり、前記画像を符号化したデータはアートワークからなる原画像データを符号化したものであることが好ましい。 In addition, in the above-described audio image reproducing apparatus, it is preferable that the text data is lyric data, and the data obtained by encoding the image is obtained by encoding the original image data made of artwork.
 また、本発明の他の側面は、音声画像再生方法に関するものである。すなわち、本発明の音声画像再生方法は、符号化されたデータとメタデータを有する画像データが埋め込まれた音声データを再生するデータ再生ステップを有し、メタデータは、テキストデータと時刻情報とを組みとするテロップ情報を少なくとも含み、データ再生ステップは、前記音声データを再生するステップと、画像データの前記テロップ情報に従って、前記音声データの再生開始からの経過時刻に応じた前記テキストデータに基づくテロップ画像を画像データに重畳表示するステップとを有することを特徴とする。 In addition, another aspect of the present invention relates to an audio-visual image reproduction method. That is, the audio and video reproduction method of the present invention has a data reproduction step of reproducing audio data in which image data having encoded data and metadata is embedded, and the metadata includes text data and time information. The data reproduction step includes the step of reproducing the audio data, the step of reproducing the audio data, and the telop based on the text data according to the elapsed time from the start of the reproduction of the audio data according to the telop information of the image data. And displaying the image superimposed on the image data.
 また、本発明の他の側面は、画像データのデータ構造に関するものである。すなわち、本発明の画像データのデータ構造は、画像を符号化したデータに加え、画像と重畳してテキストを表示させるためのテキストデータと、テキストデータのテキストを画像と重畳させるタイミングを示す時刻情報とを組みとするテロップ情報を少なくとも含むメタデータを有することを特徴とする。 Another aspect of the present invention relates to the data structure of image data. That is, the data structure of the image data according to the present invention is text data for displaying a text superimposed on the image in addition to the data obtained by encoding the image, and time information indicating timing of superimposing the text of the text data on the image And metadata having at least telop information in combination with the above.
 本発明によれば、音声データの再生経過時刻に応じた画像の表示を容易に行うことができる音声画像再生装置、音声画像再生方法、および画像データのデータ構造を提供することができる。 According to the present invention, it is possible to provide an audio and video reproduction apparatus, an audio and video reproduction method, and a data structure of image data capable of easily displaying an image according to the reproduction elapsed time of audio data.
メタデータを格納した画像データの生成処理の概要について示す図である。It is a figure shown about an outline of generation processing of image data which stored metadata. 画像データのフォーマット例を示す図である。It is a figure which shows the example of a format of image data. 楽譜を再生経過時間に合わせてトリミング表示する例を示す図である。It is a figure which shows the example which trims and displays a score according to reproduction | regeneration elapsed time. 情報処理装置のハードウェア構成例を示すブロック図である。It is a block diagram showing the example of hardware constitutions of an information processor. トリミング処理を伴う画像再生処理を実施するための情報処理装置の機能ブロック構成例を示す図である。It is a figure showing an example of functional block composition of an information processor for carrying out image reproduction processing accompanied by trimming processing. 画像トリミング表示処理を示すフローチャートである。It is a flowchart which shows an image trimming display process. 歌詞を再生経過時間に合わせてテロップ表示する例を示す図である。It is a figure which shows the example which carries out a telop display according to reproduction | regeneration elapsed time to a lyric. 本発明の実施形態に係る音声画像再生処理例を実施するための情報処理装置の機能ブロック構成例を示す図である。It is a figure showing an example of functional block composition of an information processor for carrying out an example of sound image reproduction processing concerning an embodiment of the present invention. テロップ表示処理を示すフローチャートである。It is a flowchart which shows telop display processing. メタデータに改ざん検出データが記述された画像データの例を示す図である。It is a figure which shows the example of the image data by which falsification detection data were described by the metadata. 改ざん検出を伴う画像再生処理例を実施するための情報処理装置の機能ブロック構成例を示す図である。FIG. 7 is a diagram showing an example of a functional block configuration of an information processing apparatus for performing an example of image reproduction processing accompanied by tampering detection. 画像再生処理における改ざん検出処理を示すフローチャートである。5 is a flowchart showing tampering detection processing in image reproduction processing. 原画像が地図画像であり、メタデータがその地図上の位置や設定言語に従って選択表示する地名などの文字列を含む場合の処理例を示す図である。It is a figure which shows the process example in case an original image is a map image and metadata contain character strings, such as a place name selected and displayed according to the position on the map, and a setting language. 原画像が写真であり、メタデータがその写真の撮影場所の住所や施設名などの文字列を含む場合の処理例を示す図である。It is a figure which shows the processing example in case an original image is a photograph and metadata contain character strings, such as an address of the photography place of the photograph, and a facility name. 原画像が道路案内標識の画像であり、メタデータがその道路案内標識の内容を示すテキストデータを含む場合の処理例を示す図である。It is a figure which shows the process example in case an original image is an image of a road information sign, and metadata contain the text data which show the content of the road information sign. 原画像データが公開鍵で暗号化され、メタデータにその公開鍵が格納されている場合の処理例を示す図である。It is a figure which shows the process example in case the original image data is encrypted by a public key and the public key is stored in metadata. 原画像が風景(landscape)写真であり、メタデータがその写真内の建造物等の位置情報等のオブジェクト情報を含む場合の処理例を示す図である。FIG. 6 is a diagram showing an example of processing when the original image is a landscape picture and the metadata includes object information such as position information of a building or the like in the picture. 原画像が風景写真であり、メタデータがその写真内の建造物等の位置情報等のオブジェクト情報を含む場合の処理例を示す図である。It is a figure which shows the process example in case an original image is a landscape photography and metadata contain object information, such as positional information on a building etc. in the photography.
 以下、本発明に係る音声画像再生装置、情報処理装置、音声画像再生方法および画像データのデータ構造に関し、その一部となる画像再生処理に関しては図1~図6、図10~図18を参照して説明し、本発明の実施例である音声画像再生処理に関しては、図7~図9を参照して説明する。図1~図6、図10~図18における画像再生処理は、図7~図9を参照して説明する音声画像再生処理における画像再生処理と入れ替える、あるいは組み合わせることができるものである。なお、本発明に係る音声画像再生装置、情報処理装置、音声画像再生方法および画像データのデータ構造は、ここで例示する実施の形態に限定されるものではない。説明は以下の順序で行う。
1.メタデータを格納した画像データの生成処理の概要
2.画像再生処理の一例
3.音声画像再生処理の実施例
4.画像再生処理の別の例
5.変形例
The audio and video reproduction apparatus, the information processing apparatus, the audio and video reproduction method, and the data structure of image data according to the present invention will be described below with reference to FIGS. 1 to 6 and FIGS. The audio image reproduction processing according to the embodiment of the present invention will be described with reference to FIGS. 7 to 9. The image reproduction processing in FIGS. 1 to 6 and FIGS. 10 to 18 can be replaced with or combined with the image reproduction processing in the sound and image reproduction processing described with reference to FIGS. 7 to 9. The audio and video reproduction apparatus, the information processing apparatus, the audio and video reproduction method, and the data structure of the image data according to the present invention are not limited to the embodiments exemplified herein. The description will be made in the following order.
1. Outline of generation process of image data storing metadata Example of image reproduction processing Example of sound and image reproduction processing Another Example of Image Reproduction Process Modified example
<<メタデータを格納した画像データの生成処理の概要>>
 図1は、メタデータを格納した画像データの生成処理の概要について示す図である。本実施の形態の情報処理装置1は、たとえば、ノートパソコンやデスクトップパソコン等の装置である。情報処理装置1は、メタデータを生成し、生成したメタデータを格納した画像データを生成する画像データ生成装置としての機能と、メタデータが格納された画像データから画像を再生することができる画像再生装置としての機能を有している。そのため、情報処理装置1には、画像データ生成装置として機能させるためのプログラムや、画像再生装置として機能させるためのプログラムが予めインストールされている。しかしながら、情報処理装置1は、画像データ生成装置としての機能または画像再生装置のいずれかの機能のみを有しているものであってもよい。
<< Outline of generation process of image data storing metadata >>
FIG. 1 is a diagram showing an outline of generation processing of image data storing metadata. The information processing apparatus 1 of the present embodiment is, for example, an apparatus such as a notebook computer or a desktop computer. The information processing apparatus 1 generates metadata, and functions as an image data generating apparatus that generates image data storing the generated metadata, and an image capable of reproducing an image from the image data storing the metadata It has a function as a playback device. Therefore, in the information processing apparatus 1, a program for functioning as an image data generation apparatus and a program for functioning as an image reproduction apparatus are installed in advance. However, the information processing apparatus 1 may have only the function as the image data generation apparatus or any one of the functions of the image reproduction apparatus.
 情報処理装置1は、カメラにより撮像された原画像データ、あるいは、画像処理により作成された原画像データ(画像処理ソフトにより作成されたデータである、いわゆるアートワークも含む)を入力するとともに、原画像データの再生制御データを入力する。再生制御データは、たとえば、時刻情報と領域情報とを組みとするトリミング情報からなるデータである。領域情報は、原画像データ内のある領域を指定するための情報であって、たとえば、左上の座標、幅、高さからなる情報、あるいは、左上の座標、右下の座標からなる情報である。時刻情報は、原画像データの再生開始からの経過時刻(経過時間)を示す情報である。 The information processing apparatus 1 inputs original image data captured by a camera or original image data created by image processing (including so-called artwork that is data created by image processing software), and Input playback control data of image data. The reproduction control data is, for example, data consisting of trimming information in which time information and area information are combined. The area information is information for specifying an area in the original image data, and is, for example, information including upper left coordinates, width, and height, or information including upper left coordinates and lower right coordinates. . The time information is information indicating an elapsed time (elapsed time) from the start of reproduction of the original image data.
 情報処理装置1は、入力された原画像データに対して所定の符号化処理を施すとともに、入力された再生制御データからメタデータを生成し、符号化されたデータと生成されたメタデータを有する画像データを生成する。 The information processing apparatus 1 performs a predetermined encoding process on the input original image data, and generates metadata from the input reproduction control data, and has the encoded data and the generated metadata. Generate image data.
 図2は、画像データのフォーマット例を示す図である。図2に示すように、画像データPは、SOI(Start of Image)、APP1(Application marker segment 1)、・・・APP11(Application marker segment 11)、原画像データ、およびEOI(End of Image)の領域からなる。本実施の形態の画像データPは、たとえば、従来のJPEG(Joint Photographic Experts Group)規格の拡張機能である、JPEG XT Part3のボックスファイルフォーマットにより規定されており、自由記述できる拡張可能なボックスベースのファイル形式が指定される。 FIG. 2 is a view showing an example of the format of image data. As shown in FIG. 2, the image data P includes SOI (Start of Image), APP1 (Application marker segment 1),... APP11 (Application marker segment 11), original image data, and EOI (End of Image). It consists of areas. The image data P of the present embodiment is defined, for example, by a box file format of JPEG XT Part 3 which is an extension function of the conventional JPEG (Joint Photographic Experts Group) standard, and an extensible box-based which can be freely described File format is specified.
 SOIは、JPEGファイルの先頭にあり、JPEGファイルの起点を表すマーカである。このSOIが読み取られることで、JPEGファイルの判別が行われる。 The SOI is a marker at the top of the JPEG file and representing the start point of the JPEG file. By reading this SOI, the JPEG file is identified.
 APP1には、画像に対する付属情報(Exif:Exchangeable image file format)が格納される。 APP1 stores attached information (Exif: Exchangeable image file format) for the image.
 APP11には、JSON(JavaScript Object Notation)で記述されるJPEG XT Part3のボックスファイルフォーマットにより規定されるメタデータが格納される。さらに具体的に説明すると、APP11には、アプリケーションマーカセグメントの長さおよび複数のボックスデータが格納され、各ボックスデータには、ボックスの長さ(Box Length)、ボックスタイプ(Box Type)、メタデータタイプ(Metadata type)、スキーマID(Schema ID)、メタデータが格納される。図2の例では、JUMBF(0)のボックスデータには、メタデータタイプがMIME、スキーマIDがAPP/JSON、メタデータがJSONからなるデータが格納される。JUMBF(1)のボックスデータには、メタデータタイプがVender、スキーマIDがVender/XXX、メタデータがXXXデータからなるデータが格納される。 The APP 11 stores metadata defined by the box file format of JPEG XT Part 3 described in JSON (JavaScript Object Notation). More specifically, in APP 11, the length of the application marker segment and a plurality of box data are stored, and in each box data, the box length (Box Length), box type (Box Type), metadata Stores the type (Metadata type), schema ID (Schema ID), and metadata. In the example of FIG. 2, data in which the metadata type is MIME, the schema ID is APP / JSON, and the metadata is JSON is stored in the box data of JUMBF (0). In the box data of JUMBF (1), data having a metadata type of Vender, a schema ID of Vender / XXX, and metadata of XXX data is stored.
 原画像データとしては、JPEG形式の圧縮画像符号化データが格納される。 As original image data, compressed image coded data in JPEG format is stored.
 EOIは、JPEGファイルの終わりを表すマーカである。 EOI is a marker that represents the end of the JPEG file.
 図2に示したように、画像データPのAPP11のボックスファイルデータ内に、JSONで記述できるメタデータを格納することにより、そこに指定されたデータを読み取ることで、画像の再生を管理することができる。 As shown in FIG. 2, by storing metadata that can be described in JSON in the box file data of the APP 11 of the image data P, managing reproduction of the image by reading the data designated there Can.
<<画像をトリミング表示する画像再生処理例(楽譜を用いた例)>>
 図3は、楽譜を再生経過時間に合わせてトリミング表示する例を示す図である。図3に示すように、画像データP1の原画像データには、12小節の楽譜からなる画像符号化データが格納されている。画像データP1のAPP11の領域には、JSONで記述されたメタデータM1が格納されている。メタデータM1には、第1行目に「"clip”:[」、第2行目に「{」、第3行目に「"time”:0,」、第4行目に「"left”:10,」、第5行目に「"top”:60,」、第6行目に「"width”:400,」、第7行目に「"height”:100」、第8行目に「},」第9行目に「{」、第10行目に「"time”:16,」、第11行目に「"left”:10,」、第12行目に「"top”:160,」、第13行目に「"width”:400,」、第14行目に「"height”:100」、第15行目に「},」、第n行目に「]」が記述されている。
<< Example of image reproduction processing for trimming and displaying images (example using score) >>
FIG. 3 is a diagram showing an example of trimming the score according to the playback elapsed time. As shown in FIG. 3, in the original image data of the image data P1, image encoded data consisting of a score of 12 bars is stored. The metadata M1 described in JSON is stored in the area of the APP 11 of the image data P1. In the metadata M1, the first line is "" clip ": [", the second line is "{", the third line is "" time ": 0,", the fourth line is """:10," 5th line "" top ": 60," 6th line "" width ": 400," 7th line "" height ": 100, 8th line The eyes "}," line 9 "{", line 10 "" time ": 16,", line 11 "" left ": 10, line 12"" top ": 160", "13""line":"400", line 14 "" height ": 100", line 15 "},", line n " ] Is described.
 「"clip”」は、トリミング機能(クリップ機能)を用いることを指示する情報である。「"time”」の後に記述される情報は、時刻情報を示し、「"left”」、「"top”」、「"width”」の後に記述される情報は、領域情報を示している。つまり、メタデータM1には、トリミング機能によって画像の所定位置をトリミングするための時刻情報と領域情報とを組みとするトリミング情報が記述されており、情報処理装置1は、このメタデータ(トリミング情報)M1を読み出すことで、画像データP1の再生開始からの経過時刻に応じて、時刻情報に紐付けられた領域情報に基づく所定領域をトリミングして順次表示させることができる。 ““ Clip ”is information instructing to use the trimming function (clip function). The information described after "" time "indicates time information, and the information described after" "left" "," "top", and "" width "indicates area information. That is, trimming information in which time information and area information for trimming a predetermined position of an image are trimmed by the trimming function is described in the metadata M1, and the information processing apparatus 1 uses the metadata (trimming information). ) By reading out M1, it is possible to trim and sequentially display a predetermined area based on the area information linked to the time information according to the elapsed time from the start of reproduction of the image data P1.
 図3の例では、このようなメタデータM1が格納された画像データP1を表示させる際、表示開始時刻から最初の16秒までの間は、左10ピクセル、上60ピクセルの位置から、高さ100ピクセル、幅400ピクセルの領域がトリミングされる。これにより、矢印A1の先に示されるように、最初の4小節の領域P2がトリミング表示される。 In the example of FIG. 3, when displaying the image data P1 in which such metadata M1 is stored, the height from the position of the left 10 pixels and the upper 60 pixels from the display start time to the first 16 seconds is An area 100 pixels wide and 400 pixels wide is trimmed. Thus, the area P2 of the first four bars is trimmed and displayed as indicated by the end of the arrow A1.
 続いて、表示開始時刻から16秒が経過してから32秒までの間は、左10ピクセル、上160ピクセルの位置から、高さ100ピクセル、幅400ピクセルの領域がトリミングされる。これにより、矢印A2の先に示されるように、次の4小節の領域P3がトリミング表示される。 Subsequently, an area 100 pixels high and 400 pixels wide is trimmed from the position of 10 pixels on the left and 160 pixels on from the left until 16 seconds after the display start time until 32 seconds. As a result, as indicated by the end of the arrow A2, the area P3 of the next four bars is trimmed and displayed.
 以上のような画像データを経過時間に合わせてトリミング表示する動作の詳細についてはフローチャートを参照して後述する。 Details of the operation of trimming and displaying the image data as described above in accordance with the elapsed time will be described later with reference to the flowchart.
<情報処理装置の構成例>
 図4は、情報処理装置1のハードウェア構成例を示すブロック図である。情報処理装置1は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Accedd Memory)13、バス14、入力部15、出力部16、記憶部17、および通信部18を有する。
<Configuration Example of Information Processing Device>
FIG. 4 is a block diagram showing an example of the hardware configuration of the information processing apparatus 1. The information processing apparatus 1 includes a central processing unit (CPU) 11, a read only memory (ROM) 12, a random access memory (RAM) 13, a bus 14, an input unit 15, an output unit 16, a storage unit 17, and a communication unit 18. Have.
 CPU11、ROM12、RAM13は、バス14により相互に接続される。バス14には、入力部15、出力部16、記憶部17、および通信部18も接続される。 The CPU 11, the ROM 12 and the RAM 13 are mutually connected by a bus 14. An input unit 15, an output unit 16, a storage unit 17, and a communication unit 18 are also connected to the bus 14.
 入力部15は、キーボードやマウス等の入力デバイスからなり、各種情報をバス14を介してCPU11に供給する。出力部16は、ディスプレイやスピーカ等の出力デバイスからなり、CPU11の指示に従って画像を表示したり、音声を再生したりする。記憶部17は、ハードディスクや不揮発性のメモリなどにより構成される。記憶部17は、CPU11が実行するプログラムの他に、メタデータが格納された画像データなどの各種データを記憶する。通信部18は、ネットワークインタフェースなどにより構成され、無線や有線による通信を介して、図示せぬ外部機器と通信を行う。 The input unit 15 includes an input device such as a keyboard and a mouse, and supplies various information to the CPU 11 via the bus 14. The output unit 16 is composed of an output device such as a display or a speaker, and displays an image or reproduces an audio according to an instruction of the CPU 11. The storage unit 17 is configured of a hard disk, a non-volatile memory, and the like. The storage unit 17 stores various data such as image data in which metadata is stored, in addition to the program executed by the CPU 11. The communication unit 18 is configured by a network interface or the like, and communicates with an external device (not shown) via wireless or wired communication.
 図5は、画像をトリミングする画像再生処理例を実施するための情報処理装置1の機能ブロック構成例を情報処理装置1Aとして示す。この情報処理装置1Aは、メタデータを生成し、生成したメタデータを格納した画像データを生成する画像データ生成装置30、および、メタデータに基づいて画像を再生する画像再生装置40から構成される。 FIG. 5 shows an example of functional block configuration of the information processing apparatus 1 for carrying out an example of image reproduction processing for trimming an image as an information processing apparatus 1A. The information processing apparatus 1A includes an image data generating apparatus 30 that generates metadata and generates image data storing the generated metadata, and an image reproducing apparatus 40 that reproduces an image based on the metadata. .
 画像データ生成装置30は、画像符号化部31、メタデータ生成部32、画像データ生成部33、および記録制御部34から構成される。 The image data generation device 30 includes an image encoding unit 31, a metadata generation unit 32, an image data generation unit 33, and a recording control unit 34.
 画像符号化部31は、カメラにより撮像された原画像データ、あるいは、画像処理により作成された原画像データを入力し、入力された原画像データをJPEG XT形式で符号化する。得られた画像符号化データは、画像データ生成部33に供給される。 The image encoding unit 31 inputs original image data captured by a camera or original image data created by image processing, and encodes the input original image data in JPEG XT format. The obtained image coded data is supplied to the image data generation unit 33.
 メタデータ生成部32は、時刻情報と領域情報とを組みとするトリミング情報からなる再生制御データを入力し、JSON で記述できるJPEG XT Part3のボックスファイルフォーマットにより規定されるメタデータを生成する。生成されたメタデータは、画像データ生成部33に供給される。 The metadata generation unit 32 inputs reproduction control data composed of trimming information in which time information and area information are combined, and generates metadata defined by a box file format of JPEG XT Part 3 that can be described in JSON. The generated metadata is supplied to the image data generation unit 33.
 画像データ生成部33は、画像符号化部31から供給された画像符号化データと、メタデータ生成部32から供給されたメタデータとを格納した画像データ(図2)を生成する。生成された画像データは、記録制御部34に供給される。 The image data generation unit 33 generates image data (FIG. 2) in which the image coded data supplied from the image coding unit 31 and the metadata supplied from the metadata generation unit 32 are stored. The generated image data is supplied to the recording control unit 34.
 記録制御部34は、画像データ生成部33から供給された画像符号化データとメタデータを有する画像データを記憶部17に供給し、そこへの記録を制御する。 The recording control unit 34 supplies the image encoded data and the image data having the metadata supplied from the image data generation unit 33 to the storage unit 17 and controls the recording there.
 画像再生装置40は、解析部41、画像復号部42、画像記憶部43、画像トリミング部44、および出力制御部45から構成される。 The image reproduction device 40 includes an analysis unit 41, an image decoding unit 42, an image storage unit 43, an image trimming unit 44, and an output control unit 45.
 解析部41は、入力部15からの指示に基づいて、記憶部17から画像データを取得し、取得した画像データに格納されているメタデータを解析するとともに、画像データに格納されているJPEG XT形式の画像符号化データを画像復号部42に供給する。解析部41は、図示せぬ内部タイマを起動し、内部タイマの計時時刻と、解析したメタデータに記述された時刻情報と領域情報とを組みとする複数のトリミング情報のうち、内部タイマの計時時刻に合致する時刻情報を有するトリミング情報に基づいて、画像トリミング部44を制御する。つまり、解析部41は、メタデータに記述された複数のトリミング情報に基づいて、画像記憶部43に記憶されている画像データで示される画像のうち所定領域の画像を、所定のタイミングで順次トリミングさせるように、画像トリミング部44を制御する。 The analysis unit 41 acquires image data from the storage unit 17 based on an instruction from the input unit 15, analyzes the metadata stored in the acquired image data, and stores the JPEG XT stored in the image data. The encoded image data in the format is supplied to the image decoding unit 42. The analysis unit 41 starts an internal timer (not shown), and among the plurality of trimming information in which time information of the internal timer and time information described in the analyzed metadata and area information are combined, the internal timer performs time measurement. The image trimming unit 44 is controlled based on trimming information having time information that matches the time. That is, based on a plurality of trimming information described in the metadata, the analyzing unit 41 sequentially trims an image of a predetermined area among the images represented by the image data stored in the image storage unit 43 at a predetermined timing. The image trimming unit 44 is controlled so as to
 画像復号部42は、解析部41から供給されたJPEG XT形式の画像符号化データを復号する。得られた画像復号化データは、画像記憶部43に供給され、そこに一時記憶される。 The image decoding unit 42 decodes the image coding data in the JPEG XT format supplied from the analysis unit 41. The obtained image decoded data is supplied to the image storage unit 43 and temporarily stored there.
 画像トリミング部44は、解析部41の制御に基づいて、画像記憶部43に記憶されている画像復号化データのうち、所定のタイミングで、所定領域の画像をトリミングし、トリミング画像に相当する復号化データを出力制御部45に供給する。 The image trimming unit 44 trims an image in a predetermined area at a predetermined timing among the image decoding data stored in the image storage unit 43 based on the control of the analysis unit 41, and decodes the image corresponding to the trimmed image. Supply data to the output control unit 45.
 出力制御部45は、画像トリミング部44から供給された所定領域の画像の復号化データをディスプレイに出力(表示)する。 The output control unit 45 outputs (displays) the decoded data of the image of the predetermined area supplied from the image trimming unit 44 to the display.
<画像をトリミングする画像再生処理例における情報処理装置の動作>
 図6のフローチャートを参照して、情報処理装置1Aの画像トリミング表示処理について説明する。
<Operation of Information Processing Apparatus in Example of Image Reproduction Processing for Trimming an Image>
The image trimming display process of the information processing apparatus 1A will be described with reference to the flowchart of FIG.
 ステップS1において、解析部41は、入力部15からの指示に基づいて、記憶部17から画像データを取得する。ステップS2において、解析部41は、画像データに格納されているメタデータを解析するとともに、読み出した画像データに格納されているJPEG XT形式の画像符号化データを画像復号部42に供給する。 In step S <b> 1, the analysis unit 41 acquires image data from the storage unit 17 based on an instruction from the input unit 15. In step S 2, the analysis unit 41 analyzes the metadata stored in the image data, and supplies the image decoding unit 42 with the image coding data in JPEG XT format stored in the read image data.
 ステップS3において、画像復号部42は、解析部41から供給された画像符号化データを復号し、画像復号化データを得る。この画像復号化データは、画像記憶部43に供給され、そこに一時記憶される。 In step S3, the image decoding unit 42 decodes the image encoded data supplied from the analysis unit 41 to obtain image decoded data. The image decoding data is supplied to the image storage unit 43 and temporarily stored therein.
 ステップS4において、解析部41は、内部タイマを起動する。ステップS5において、解析部41は、内部タイマの計時時刻と、解析したメタデータに記述された複数のトリミング情報のうち、内部タイマの計時時刻に合致する時刻情報を有するトリミング情報があるか否かを判定する。 In step S4, the analysis unit 41 activates an internal timer. In step S5, the analysis unit 41 determines whether or not there is trimming information having time information that matches the timekeeping time of the internal timer among the plurality of trimming information described in the analyzed timer and the measured time of the internal timer. Determine
 ステップS5において、解析部41は、内部タイマの計時時刻に合致する時刻情報を有するトリミング情報があると判定した場合(ステップS5:YES)、内部タイマの計時時刻に合致する時刻情報を有するトリミング情報に基づいて、画像トリミング部44を制御する。 In step S5, when the analysis unit 41 determines that there is trimming information having time information that matches the clocking time of the internal timer (step S5: YES), trimming information having time information that matches the clocking time of the internal timer The image trimming unit 44 is controlled based on
 ステップS6において、画像トリミング部44は、解析部41の制御に基づいて、画像記憶部43に記憶されている画像復号化データのうち、時刻情報に紐付けられた領域情報に基づく所定領域の画像に相当する画像復号化データを取り出し、出力制御部45に供給する。 In step S6, the image trimming unit 44 generates an image of a predetermined area based on the area information linked to the time information among the image decoded data stored in the image storage unit 43 under the control of the analysis unit 41. The image decoding data corresponding to the above is taken out and supplied to the output control unit 45.
 ステップS7において、出力制御部45は、画像トリミング部44から供給された所定領域の画像に相当する画像復号化データをディスプレイに出力する。その後、処理はステップS5に戻り、内部タイマの計時時刻に合致する時刻情報を有するトリミング情報がないと判定されるまで、上述した処理を繰り返す。 In step S7, the output control unit 45 outputs the image decoding data corresponding to the image of the predetermined area supplied from the image trimming unit 44 to the display. Thereafter, the process returns to step S5, and the above-described process is repeated until it is determined that there is no trimming information having time information that matches the time measured by the internal timer.
 そして、ステップS5において、内部タイマの計時時刻に合致する時刻情報を有するトリミング情報がないと判定された場合(ステップS5:NO)、図6に示す画像トリミング表示処理を終了する。 When it is determined in step S5 that there is no trimming information having time information that matches the time measured by the internal timer (step S5: NO), the image trimming display process shown in FIG. 6 ends.
 以上のように、図5に示す情報処理装置1Aによれば、画像を符号化したデータと、時刻情報と領域情報とを組みとするトリミング情報を少なくとも含むメタデータを有する画像データを生成することにより、メタデータに記述された時刻情報に合致する表示タイミングになった際、その時刻情報に紐付けられた領域情報に基づいて、画像の所定領域のみをトリミングして順次表示させることができる。画像データに表示タイミングおよび管理データを内包することができるため、データ管理が単純となる。また、表示させたい画像領域や、その画像領域の再生タイミングについて、メタデータ内の情報を編集するだけでよく、特定の装置やソフトウエアを用いなくてもよいため容易に変更することができると共に、再生経過時刻に応じた表示を容易に行わせることができる。 As described above, according to the information processing apparatus 1A illustrated in FIG. 5, generation of image data having metadata including at least data obtained by encoding an image and trimming information in which time information and area information are combined is generated. Thus, when the display timing that matches the time information described in the metadata is reached, it is possible to trim and display only a predetermined area of the image based on the area information linked to the time information. Since the display timing and management data can be included in the image data, data management becomes simple. Also, the image area to be displayed and the reproduction timing of the image area need only be edited in the information in the metadata, and can be easily changed since it is not necessary to use a specific device or software. The display according to the reproduction elapsed time can be easily performed.
 また、情報処理装置1Aは、図示していないが、音声データ再生部をさらに備え、画像データに関連付けて音声データを記憶部17に記憶させることができる。このような構成によって、情報処理装置1Aは、画像データを表示する際、画像データに関連付けられた音声データを再生することができる。たとえば、ピアノの楽譜データを表示させる際、その楽譜のガイドとなるピアノ演奏の音声データも同時に再生させることができる。これにより、ユーザは、ガイド演奏に従ってピアノ演奏を練習することができる。またたとえば、ピアノの楽譜データを表示させる際、その楽譜に基づくバイオリン演奏の音声データも同時に再生させることができる。これにより、ユーザは、ピアノ演奏するだけで、バイオリン演奏との二重奏を楽しむことができる。 Although not shown, the information processing apparatus 1A further includes an audio data reproduction unit, and can store the audio data in the storage unit 17 in association with the image data. With such a configuration, when displaying the image data, the information processing apparatus 1A can reproduce audio data associated with the image data. For example, when displaying musical score data of a piano, it is possible to simultaneously reproduce voice data of a piano performance which serves as a guide for the musical score. This allows the user to practice the piano performance according to the guide performance. For example, when displaying musical score data of a piano, audio data of a violin performance based on the musical score can also be reproduced simultaneously. Thereby, the user can enjoy the double performance with the violin performance only by performing the piano performance.
 また以上において、情報処理装置1Aは、時刻情報と領域情報とを組みとするトリミング情報を少なくとも含むメタデータに、さらに、アニメーション情報を記述するようにしてもよい。このような構成によって、情報処理装置1Aは、画像データを表示する際、画像データに関連付けられたアニメーション情報に基づく画像も同時に表示させることができる。たとえば、ピアノの楽譜データの所定領域を表示させる際、その楽譜のピアノ演奏のガイド機能(次に弾く鍵盤の場所を教えてくれるアニメーション)の画像を重畳表示させることができる。これにより、ユーザは、ガイド機能に従ってピアノ演奏を練習することができる。 Also, in the above, the information processing apparatus 1A may further describe animation information in metadata including at least trimming information in which time information and area information are combined. With such a configuration, when displaying image data, the information processing apparatus 1A can simultaneously display an image based on animation information associated with the image data. For example, when displaying a predetermined area of musical score data of a piano, it is possible to superimpose and display an image of a guiding function of the piano performance of the musical score (an animation which tells the location of the keyboard to be played next). This allows the user to practice piano playing according to the guide function.
<<音声画像再生処理例(歌詞データを用いた例)>>
 図7は、歌詞データを音声データの再生経過時間に合わせてテロップ表示する例を示す図である。図7に示すように、画像データP11の原画像データには、アートワークからなる画像符号化データが格納されている。画像データP11のAPP11の領域には、JSONで記述されたメタデータM11が格納されている。メタデータM11には、第1行目に「"lyrics”:[」、第2行目に「{」、第3行目に「"time”:58」、第4行目に「"text”: "ああ金沢はー”」、第5行目に「},」第6行目に「{」、第7行目に「"time”:65」、第8行目に「"text”: "今日も雪だったー”」、第9行目に「},」、第n行目に「]」が記述されている。
<< Example of sound and image reproduction processing (example using lyrics data) >>
FIG. 7 is a diagram showing an example in which the lyric data is displayed in telop in accordance with the reproduction elapsed time of the audio data. As shown in FIG. 7, in the original image data of the image data P11, image encoded data consisting of artwork is stored. In an area of the APP 11 of the image data P11, metadata M11 described in JSON is stored. In the metadata M11, "lyrics": ["in the first line,"{"in the second line,""time": 58 "in the third line," text "in the fourth line : "Oh Kanazawa-", 5th line "}," 6th line "{", 7th line "" time ": 65", 8th line "" text ": "It was snowing today", "}," is described on the 9th line, and "]" is described on the nth line.
 「"lyrics”」は、歌詞表示機能を用いることを指示する情報である。「"time”」の後に記述される情報は、時刻情報を示し、「"text”」の後に記述される情報は、テキストデータを示している。つまり、メタデータM11には、歌詞表示機能によって歌詞表示するための時刻情報とテキストデータとを組みとするテロップ情報が記述されており、情報処理装置1は、メタデータM11が格納された画像データP11を埋め込んだ音声データを生成することで、音声データを再生する際、音声データに埋め込まれた画像データP11を取得し、取得した画像データP11に格納されたメタデータ(テロップ情報)M11を読み出すことで、音声データの再生開始からの経過時刻に応じて、時刻情報に紐付けられたテキストデータに基づくテロップを順次表示させることができる。 "" Lyrics "" is information instructing to use the lyric display function. The information described after "" time "indicates time information, and the information described after" "text" indicates text data. That is, in the metadata M11, telop information in which time information and text data for displaying lyrics are described by the lyrics display function is described, and the information processing apparatus 1 is an image data in which the metadata M11 is stored. When reproducing audio data by generating audio data in which P11 is embedded, the image data P11 embedded in the audio data is acquired, and the metadata (telop information) M11 stored in the acquired image data P11 is read out. Thus, it is possible to sequentially display telops based on the text data linked to the time information according to the elapsed time from the start of reproduction of the audio data.
 図7の例では、このようなメタデータM11が格納された画像データP11が埋め込まれた音声データを再生させる際、再生開始時刻から58秒が経過して65秒までの間は、「ああ金沢はー」が読み出される。これにより、矢印A11の先に示されるように、画像P12に重畳して「ああ金沢はー」のテキストがテロップ表示される。 In the example of FIG. 7, when reproducing the audio data in which the image data P11 in which such metadata M11 is stored is reproduced, the period of 58 seconds has elapsed from the reproduction start time to 65 seconds. "-" Is read out. As a result, as indicated by the end of the arrow A11, the text "Oh Kanazawa ha" is superimposed on the image P12.
 続いて、再生開始時刻から65秒が経過してから次の時刻情報までの間は、「今日も雪だったー」が読み出される。これにより、矢印A12の先に示されるように、画像P13に重畳して「今日も雪だったー」のテキストがテロップ表示される。 Subsequently, “It is snow today” is read out from the time when 65 seconds have elapsed from the reproduction start time until the next time information. As a result, as indicated by the end of the arrow A12, the text "It is snow today" is superimposed on the image P13.
 以上のような音声データの再生経過時間に合わせてテロップ表示する動作の詳細についてはフローチャートを参照して後述する。 The details of the operation of displaying telops in accordance with the reproduction elapsed time of the audio data as described above will be described later with reference to the flowchart.
<音声画像再生処理を実行する情報処理装置の機能構成例>
 以上の音声画像再生処理例を実施する情報処理装置のハードウェア構成としては、図4に示したものを用いることができ、その説明は省略する。図8は、音声画像再生処理例を実施するための情報処理装置1の機能ブロック構成例を、情報処理装置1Bとして示す。この情報処理装置1Bは、メタデータを生成し、生成したメタデータを格納した画像データを生成し、生成した画像データを埋め込んだ音声データを生成するデータ生成装置50、および、音声データから音声を再生するとともにメタデータに基づいて画像データから画像を再生する音声画像再生装置(Audiovisual Player)60から構成される。
<Example of Functional Configuration of Information Processing Apparatus that Executes Audio-Visual Image Reproduction Processing>
As a hardware configuration of an information processing apparatus for implementing the above-described audio / video reproduction processing example, one shown in FIG. 4 can be used, and the description thereof will be omitted. FIG. 8 shows an example of the functional block configuration of the information processing apparatus 1 for carrying out the sound and image reproduction processing example as an information processing apparatus 1B. The information processing apparatus 1B generates metadata, generates image data storing the generated metadata, generates a sound data in which the generated image data is embedded, and generates a sound from the sound data. An audiovisual player (Audiovisual Player) 60 that reproduces an image from image data based on metadata while reproducing.
 データ生成装置50は、画像符号化部51、メタデータ生成部52、データ生成部53、および記録制御部54から構成される。 The data generation device 50 includes an image encoding unit 51, a metadata generation unit 52, a data generation unit 53, and a recording control unit 54.
 画像符号化部51は、カメラにより撮像された原画像データ、あるいは、画像処理により作成された原画像データを入力し、入力された原画像データに対して、JPEG XT形式で画像符号化する。符号化されたデータは、データ生成部53に供給される。 The image coding unit 51 inputs original image data captured by a camera or original image data created by image processing, and performs image encoding on the input original image data in JPEG XT format. The encoded data is supplied to the data generation unit 53.
 メタデータ生成部52は、時刻情報とテキストデータとを組みとするテロップ情報からなる再生制御データを入力し、JSON で記述できるJPEG XT Part3のボックスファイルフォーマットにより規定されるメタデータを生成する。生成されたメタデータは、データ生成部53に供給される。 The metadata generation unit 52 inputs reproduction control data consisting of telop information in which time information and text data are combined, and generates metadata defined by a box file format of JPEG XT Part 3 that can be described in JSON. The generated metadata is supplied to the data generation unit 53.
 データ生成部53は、画像符号化部51から供給された符号化されたデータと、メタデータ生成部52から供給されたメタデータとを格納した画像データ(図2)を生成する。データ生成部53は、外部から音声データを入力し、入力した音声データに、メタデータが格納された画像データを埋め込み、それを記録制御部54に供給する。 The data generation unit 53 generates image data (FIG. 2) storing the encoded data supplied from the image coding unit 51 and the metadata supplied from the metadata generation unit 52. The data generation unit 53 inputs audio data from the outside, embeds the image data in which the metadata is stored in the input audio data, and supplies it to the recording control unit 54.
 記録制御部54は、データ生成部53から供給された、画像符号化データとメタデータを有する画像データが埋め込まれた音声データを記憶部17に供給し、そこへの記録を制御する。 The recording control unit 54 supplies, to the storage unit 17, the audio data in which the image data having the encoded image data and the metadata is embedded and which is supplied from the data generation unit 53, and controls the recording there.
 音声画像再生装置60は、解析部61、画像復号部62、テキスト描画部63、および出力制御部64から構成される。 The audio and video reproduction apparatus 60 includes an analysis unit 61, an image decoding unit 62, a text drawing unit 63, and an output control unit 64.
 解析部61は、入力部15からの指示に基づいて、記憶部17から音声データを取得し、取得した音声データを出力制御部64に供給するとともに、取得した音声データに埋め込まれている画像データを取得し、取得した画像データに格納されているメタデータを解析する。解析によって、画像データに格納されているJPEG XT形式の画像符号化データが画像復号部62に供給される。 The analysis unit 61 acquires audio data from the storage unit 17 based on an instruction from the input unit 15, supplies the acquired audio data to the output control unit 64, and the image data embedded in the acquired audio data Is acquired, and the metadata stored in the acquired image data is analyzed. The image encoded data in the JPEG XT format stored in the image data is supplied to the image decoding unit 62 by analysis.
 また、解析部61は、図示せぬ内部タイマを起動し、内部タイマの計時時刻と、解析したメタデータに記述された時刻情報とテキストデータとを組みとする複数のテロップ情報のうち、内部タイマの計時時刻に合致する時刻情報を有するテロップ情報に基づいて、テキスト描画部63を制御する。つまり、解析部61は、メタデータに記述された複数のテロップ情報に基づいて、所定のタイミングでテキストデータを順次画像化させるように、テキスト描画部63を制御する。 In addition, the analysis unit 61 activates an internal timer (not shown), and the internal timer among the plurality of telop information that is a combination of time information described in the analyzed metadata, time information described in the analyzed metadata, and text data. The text drawing unit 63 is controlled based on the telop information having time information that matches the clocked time of. That is, the analysis unit 61 controls the text drawing unit 63 so that the text data is sequentially imaged at predetermined timing based on the plurality of telop information described in the metadata.
 画像復号部62は、解析部61から供給されたJPEG XT形式の画像符号化データを復号する。復号された画像データは、出力制御部64に供給される。 The image decoding unit 62 decodes the encoded image data of JPEG XT format supplied from the analysis unit 61. The decoded image data is supplied to the output control unit 64.
 テキスト描画部63は、解析部61の制御に基づいて、所定のタイミングで、解析部61から供給されたテキストデータを画像データ化して出力制御部64に供給する。 The text drawing unit 63 converts the text data supplied from the analysis unit 61 into image data at a predetermined timing based on the control of the analysis unit 61, and supplies the image data to the output control unit 64.
 出力制御部64は、解析部61から供給された音声データに基づく音声をスピーカに出力して再生させるとともに、画像復号部62から供給された画像データに、テキスト描画部63から供給された画像データを重畳して、ディスプレイに出力(表示)する。 The output control unit 64 outputs a voice based on the voice data supplied from the analysis unit 61 to a speaker for reproduction, and causes the image data supplied from the image decoding unit 62 to be image data supplied from the text drawing unit 63. Are output (displayed) on the display.
<音声画像再生処理例における情報処理装置の動作>
 図9のフローチャートを参照して、情報処理装置1Bのテロップ表示処理について説明する。
<Operation of Information Processing Device in Example of Sound and Image Reproduction Processing>
The telop display process of the information processing apparatus 1B will be described with reference to the flowchart of FIG.
 ステップS11において、解析部61は、入力部15からの指示に基づいて、記憶部17から音声データを取得する。ステップS12において、解析部61は、音声データに埋め込まれている画像データのメタデータを解析する。取得した音声データは、出力制御部64に供給され、解析されたメタデータに格納されているJPEG XT形式の画像符号化データは、画像復号部52に供給される。 In step S11, the analysis unit 61 acquires voice data from the storage unit 17 based on an instruction from the input unit 15. In step S12, the analysis unit 61 analyzes metadata of the image data embedded in the audio data. The acquired audio data is supplied to the output control unit 64, and the encoded image data of JPEG XT format stored in the analyzed metadata is supplied to the image decoding unit 52.
 ステップS13において、画像復号部62は、解析部61から供給されたJPEG XT形式の画像符号化データを復号して画像復号化データを生成し、出力制御部64に供給する。ステップS14において、出力制御部64は、音声データに基づく音声をスピーカに出力して再生させる。 In step S 13, the image decoding unit 62 decodes the image coding data in the JPEG XT format supplied from the analysis unit 61 to generate image decoding data, and supplies the image decoding data to the output control unit 64. In step S14, the output control unit 64 outputs the sound based on the sound data to the speaker for reproduction.
 ステップS15において、解析部61は、内部タイマを起動する。ステップS16において、解析部61は、内部タイマの計時時刻と、解析したメタデータに記述された複数のテロップ情報のうち、内部タイマの計時時刻に合致する時刻情報を有するテロップ情報があるか否かを判定する。 In step S15, the analysis unit 61 activates an internal timer. In step S16, the analysis unit 61 determines whether or not there is telop information having time information that matches the timekeeping time of the internal timer among the plurality of telop information described in the analyzed metadata and the timekeeping time of the internal timer. Determine
 ステップS16において、解析部61は、内部タイマの計時時刻に合致する時刻情報を有するテロップ情報があると判定した場合(ステップS16:YES)、内部タイマの計時時刻に合致する時刻情報を有するテロップ情報に基づいて、テキスト描画部63を制御する。 In step S16, when the analyzing unit 61 determines that there is telop information having time information that matches the clocking time of the internal timer (step S16: YES), telop information having time information that matches the clocking time of the internal timer The text drawing unit 63 is controlled based on
 ステップS17において、テキスト描画部63は、解析部61の制御に基づいて、時刻情報に紐付けられたテキストデータを画像データ化し、出力制御部64に供給する。 In step S17, the text drawing unit 63 converts the text data linked to the time information into image data based on the control of the analysis unit 61, and supplies the image data to the output control unit 64.
 ステップS18において、出力制御部64は、画像復号部62から供給された画像データに、テキスト描画部63から供給されたテキスト画像データを重畳して、ディスプレイ出力する。その後、処理はステップS16に戻り、内部タイマの計時時刻に合致する時刻情報を有するテロップ情報がないと判定されるまで、上述した処理を繰り返す。 In step S18, the output control unit 64 superimposes the text image data supplied from the text drawing unit 63 on the image data supplied from the image decoding unit 62, and outputs the superimposed image. Thereafter, the process returns to step S16, and the above-described process is repeated until it is determined that there is no telop information having time information that matches the time measured by the internal timer.
 そして、ステップS16において、内部タイマの計時時刻に合致する時刻情報を有するテロップ情報がないと判定された場合(ステップS16:NO)、図9に示すテロップ表示処理を終了する。 When it is determined in step S16 that there is no telop information having time information that matches the time measured by the internal timer (step S16: NO), the telop display process shown in FIG. 9 is ended.
 以上のように、符号化されたデータと、時刻情報とテキストデータとを組みとするテロップ情報を少なくとも含むメタデータを有する画像データを埋め込んだ音声データを生成することにより、音声データを再生する際、音声データに埋め込まれた画像データのメタデータに記述された時刻情報に合致する表示タイミングになった際、その時刻情報に紐付けられたテキストデータを画像データ化し、得られたテキスト画像データを画像データに重畳してテロップ表示させることができるので、音声データの再生経過時刻に応じた画像の表示を容易に行うことができる。また、たとえば、上述した画像データ、音声データ、テキストデータを一つの音楽ファイルとして管理することが可能となるため、データの取扱いが容易となる。また、テロップ情報をテキストデータで格納しているため、テロップ時刻情報の編集も容易となる。 As described above, when reproducing audio data by generating audio data in which image data having metadata including at least encoded data and telop information including time information and text data is embedded is generated. When the display timing matches the time information described in the metadata of the image data embedded in the audio data, the text data linked to the time information is converted into image data, and the obtained text image data is Since the subtitles can be displayed superimposed on the image data, it is possible to easily display an image according to the playback elapsed time of the audio data. In addition, for example, the image data, the audio data, and the text data described above can be managed as one music file, which facilitates the handling of the data. Further, since telop information is stored as text data, editing of telop time information becomes easy.
 また以上において、情報処理装置1Bは、時刻情報とテキストデータとを組とするテロップ情報を少なくとも含むメタデータに、さらに、テキストの色情報、フォント情報、陰影の有無を示す情報、および背景色情報などを記述するようにしてもよい。このような構成によって、情報処理装置1Bは、テロップ表示をする際、単調なテロップから視覚的にも楽しめるテロップを表示させることができる。 Further, in the above, in the metadata including at least telop information in which time information and text data are combined, information processing apparatus 1B further includes text color information, font information, information indicating the presence or absence of shading, and background color information. And the like may be described. With such a configuration, the information processing apparatus 1B can display a telop that can be enjoyed visually even from a monotonous telop when displaying a telop.
<<改ざん検出を伴う画像再生処理例>>
 図10は、メタデータに改ざん検出データが記述された画像データの例を示す図である。図10に示すように、画像データP21の原画像データには、写真を原画像とする画像符号化データが格納されている。画像データP21のAPP11の領域には、JSONで記述されたメタデータM21が格納されている。メタデータM21には、ハッシュ値A、ハッシュ値B、およびスクリプトが記述されている。ハッシュ値Aは、Seedデータを引数としてスクリプトを実行することで得られる値である。Seedデータは、画像データP21の所定領域に予め埋め込まれているデータ(パラメータ)である。ハッシュ値Bは、スクリプトのプログラム文字列を引数としてスクリプトを実行することで得られる値である。スクリプトは、ハッシュ値を算出するためのハッシュ関数(プログラム)である。つまり、メタデータM21には、改ざんを検出するためのデータが記述されており、情報処理装置1は、このメタデータ(改ざん検出データ)M21を読み出してスクリプトを実行することで、画像データP21の改ざんを検出することができる。
<< Example of image reproduction processing with falsification detection >>
FIG. 10 is a diagram illustrating an example of image data in which tampering detection data is described in metadata. As shown in FIG. 10, in the original image data of the image data P21, image encoded data in which a photograph is an original image is stored. In the area of the APP 11 of the image data P21, metadata M21 described in JSON is stored. In the metadata M21, a hash value A, a hash value B, and a script are described. The hash value A is a value obtained by executing a script using Seed data as an argument. Seed data is data (parameters) embedded in advance in a predetermined area of the image data P21. The hash value B is a value obtained by executing a script with the program string of the script as an argument. The script is a hash function (program) for calculating a hash value. That is, data for detecting tampering is described in the metadata M21, and the information processing apparatus 1 reads the metadata (falsification detection data) M21 and executes a script to obtain image data P21. It is possible to detect tampering.
 以上のような改ざん検出データを読み出して実行する動作の詳細についてはフローチャートを参照して後述する。 Details of the operation for reading out and executing the tampering detection data as described above will be described later with reference to the flowchart.
<改ざん検出を伴う画像再生処理例を実行する情報処理装置の機能構成例>
 改ざん検出を伴う画像再生処理例を実施する情報処理装置のハードウェア構成としては、図4に示したものを用いることができ、その説明は省略する。図11は、この画像再生処理例を実施するための情報処理装置1の機能ブロック構成例を、情報処理装置1Cとして示す。図11に示す構成のうち、図5の構成と同じ構成については同じ符号を付してあり、重複する説明は適宜省略する。情報処理装置1Cは、メタデータを生成し、生成したメタデータを格納した画像データを生成する画像データ生成装置30、および、メタデータが格納された画像データが改ざんされているか否かを検出し、改ざんされていない場合に画像データを再生する画像データ改ざん検出装置70から構成される。
<An example of functional composition of an information processor which performs an example of image reproduction processing accompanied by falsification detection>
As a hardware configuration of an information processing apparatus that implements an example of image reproduction processing accompanied by tampering detection, one shown in FIG. 4 can be used, and the description thereof will be omitted. FIG. 11 shows an example of functional block configuration of the information processing apparatus 1 for carrying out this example of image reproduction processing as an information processing apparatus 1C. In the configuration shown in FIG. 11, the same components as those in FIG. 5 are denoted by the same reference numerals, and the redundant description will be appropriately omitted. The information processing apparatus 1C generates metadata, generates an image data generation apparatus 30 that generates image data storing the generated metadata, and detects whether the image data storing the metadata has been tampered with or not. The image data tampering detection apparatus 70 reproduces image data when the image data is not tampered with.
 メタデータ生成部32は、改ざんを検出するためのハッシュ値A、ハッシュ値B、およびスクリプトからなる再生制御データを入力し、JSONで記述できるJPEG XT Part3のボックスファイルフォーマットにより規定されるメタデータを生成する。生成されたメタデータは、画像データ生成部33に供給される。 The metadata generation unit 32 inputs reproduction control data including a hash value A, a hash value B, and a script for detecting tampering, and specifies metadata defined by a box file format of JPEG XT Part 3 that can be described in JSON. Generate The generated metadata is supplied to the image data generation unit 33.
 画像データ改ざん検出装置70は、解析部71、比較部72、改ざん検出部73、画像復号部74、および出力制御部75から構成される。 The image data tampering detection device 70 includes an analysis unit 71, a comparison unit 72, a tampering detection unit 73, an image decoding unit 74, and an output control unit 75.
 解析部71は、入力部15からの指示に基づいて、記憶部17から画像データを取得し、取得した画像データに格納されているメタデータを解析し、メタデータに記述された改ざん検出データ(ハッシュ値A、ハッシュ値B、スクリプト)を比較部72に供給するとともに、画像データに格納されているJPEG XT画像形式の符号化データを画像復号部74に供給する。解析部71は、画像データに埋め込まれているSeedデータを所定の方法で読み出し、それも比較部72に供給する。 The analysis unit 71 acquires image data from the storage unit 17 based on an instruction from the input unit 15, analyzes metadata stored in the acquired image data, and detects tampering detection data described in the metadata ( The hash value A, the hash value B, and the script are supplied to the comparison unit 72, and the encoded data of the JPEG XT image format stored in the image data is supplied to the image decoding unit 74. The analysis unit 71 reads the Seed data embedded in the image data by a predetermined method, and also supplies the same to the comparison unit 72.
 比較部72は、解析部71から供給された改ざん検出データに含まれるスクリプトとSeedデータに基づいてハッシュ値A´を算出し、算出したハッシュ値A´とメタデータ(改ざん検出データ)に記述されたハッシュ値Aとを比較する。また比較部72は、改ざん検出データに含まれるスクリプトのプログラム文字列に基づいてハッシュ値B´を算出し、算出したハッシュ値B´とメタデータ(改ざん検出データ)に記述されたハッシュ値Bとを比較する。比較結果は、改ざん検出部73に供給される。 The comparing unit 72 calculates the hash value A ′ based on the script and the Seed data included in the tampering detection data supplied from the analyzing unit 71, and is described in the calculated hash value A ′ and metadata (tampering detection data) And the hash value A. Further, the comparison unit 72 calculates the hash value B ′ based on the program character string of the script included in the tampering detection data, and the calculated hash value B ′ and the hash value B described in the metadata (tampering detection data) Compare The comparison result is supplied to the tampering detection unit 73.
 改ざん検出部73は、比較部72の2つの比較結果に基づいて、画像データが改ざんされているか否かを検出し、画像データが改ざんされていない(ハッシュ値Aおよびハッシュ値Bともに正しい)と判断した場合には画像復号部74の復号処理を実行させ、画像データが改ざんされている(ハッシュ値Aおよびハッシュ値Bのいずれか一方または両方が正しくない)ことを検出した場合には、画像復号部74の復号処理を禁止させる。 The falsification detection unit 73 detects whether the image data is falsified or not based on the two comparison results of the comparison unit 72, and the image data is not falsified (both the hash value A and the hash value B are correct). If it is determined that the image data is tampered (if either or both of the hash value A and the hash value B is incorrect) is detected, the image is decoded. The decryption process of the decryption unit 74 is prohibited.
 画像復号部74は、改ざん検出部73の制御に基づいて、復号処理の実行が指示された場合には、解析部71から供給されたJPEG XT形式の画像符号化データを復号し、画像復号化データとして出力制御部75に供給する。画像復号部74は、改ざん検出部73の制御に基づいて、復号処理が禁止された場合には、解析部71から供給されたJPEG XT形式の画像符号化データを復号せずに、出力制御部75に供給する。 The image decoding unit 74 decodes the image coding data in the JPEG XT format supplied from the analysis unit 71 when the execution of the decoding process is instructed based on the control of the tampering detection unit 73, and performs image decoding. The data is supplied to the output control unit 75 as data. When the decoding process is prohibited based on the control of the tampering detection unit 73, the image decoding unit 74 does not decode the JPEG XT image encoded data supplied from the analysis unit 71, but the output control unit Supply to 75.
 出力制御部75は、画像復号部74から供給されたデータをディスプレイに出力(表示)する。 The output control unit 75 outputs (displays) the data supplied from the image decoding unit 74 to a display.
<改ざん検出を伴う画像再生処理例における情報処理装置の動作>
 図12のフローチャートを参照して、以上のような構成を有する改ざん検出を伴う画像再生処理例における情報処理装置1Cの改ざん検出処理について説明する。
<Operation of Information Processing Apparatus in Example of Image Reproduction Processing with Tamper Detection>
The falsification detection process of the information processing apparatus 1C in the example of the image reproduction process with the falsification detection having the configuration as described above will be described with reference to the flowchart of FIG.
 ステップS21において、解析部71は、入力部15からの指示に基づいて、記憶部17から画像データを取得する。ステップS22において、解析部71は、画像データに格納されているメタデータを解析し、メタデータに記述された改ざん検出データ(ハッシュ値A、ハッシュ値B、およびスクリプト)を比較部72に供給するとともに、読み出した画像データに格納されているJPEG XT形式の画像符号化データを画像復号部74に供給する。また解析部71は、画像データに埋め込まれたSeedデータを所定の方法で読み出し、比較部72に供給する。 In step S <b> 21, the analysis unit 71 acquires image data from the storage unit 17 based on an instruction from the input unit 15. In step S22, the analysis unit 71 analyzes the metadata stored in the image data, and supplies the tampering detection data (hash value A, hash value B, and script) described in the metadata to the comparison unit 72. At the same time, the encoded image data in the JPEG XT format stored in the read out image data is supplied to the image decoding unit 74. Further, the analysis unit 71 reads Seed data embedded in the image data by a predetermined method, and supplies the Seed data to the comparison unit 72.
 ステップS23において、比較部72は、解析部71から供給されたSeedデータを引数としてメタデータ(改ざん検出データ)に記述されたスクリプトを実行し、ハッシュ値A´を算出する。ステップS24において、比較部72は、メタデータ(改ざん検出データ)に記述されたハッシュ値Aと算出したハッシュ値A´とを比較する。 In step S23, the comparison unit 72 executes a script described in metadata (falsification detection data) using the Seed data supplied from the analysis unit 71 as an argument, and calculates a hash value A ′. In step S24, the comparison unit 72 compares the hash value A described in the metadata (tamper detection data) with the calculated hash value A '.
 ステップS25において、比較部72は、メタデータ(改ざん検出データ)に記述されたスクリプトのプログラム文字列を引数としてスクリプトを実行し、ハッシュ値B´を算出する。ステップS26において、比較部72は、メタデータ(改ざん検出データ)に記述されたハッシュ値Bと算出したハッシュ値B´とを比較する。ステップS24およびステップS26による比較結果は、改ざん検出部73に供給される。 In step S25, the comparison unit 72 executes the script with the program character string of the script described in the metadata (tamper detection data) as an argument, and calculates the hash value B '. In step S26, the comparison unit 72 compares the hash value B described in the metadata (tamper detection data) with the calculated hash value B '. The comparison results of step S24 and step S26 are supplied to the tampering detection unit 73.
 ステップS27において、改ざん検出部73は、2つの比較結果から画像データが改ざんされているか否かを判定し、いずれか1つまたは両方の比較結果が異なる場合、画像データは改ざんされていると判定し(ステップS27:YES)、ステップS28において、画像復号部74の復号処理を禁止させる。これにより、画像復号部74は、解析部71から供給されたJPEG XT形式の画像符号化データを復号せずに、出力制御部75に供給する。出力制御部75は、画像復号部74から供給されたデータをディスプレイに出力(表示)する。 In step S27, the falsification detection unit 73 determines whether or not the image data has been falsified from the two comparison results, and if any one or both comparison results are different, it is determined that the image data is falsified. (Step S27: YES), the decoding process of the image decoding unit 74 is prohibited in step S28. Accordingly, the image decoding unit 74 supplies the image control data in the JPEG XT format supplied from the analysis unit 71 to the output control unit 75 without decoding. The output control unit 75 outputs (displays) the data supplied from the image decoding unit 74 to a display.
 ステップS27において、改ざん検出部73は、2つの比較結果がいずれも同一である場合、画像データは改ざんされていないと判定し(ステップS27:NO)、ステップS29において、画像復号部74の復号処理を実行させる。画像復号部74は、解析部71から供給されたJPEG XT形式の画像符号化データを復号し、画像復号化データとして出力制御部75に供給する。出力制御部75は、画像復号部74から供給された画像復号化データをディスプレイに出力(表示)する。 In step S27, if the two comparison results are identical to each other, the tampering detection unit 73 determines that the image data is not tampered (step S27: NO), and in step S29, the decryption processing of the image decryption unit 74 Run The image decoding unit 74 decodes the image coding data in the JPEG XT format supplied from the analysis unit 71, and supplies the decoded data as image decoding data to the output control unit 75. The output control unit 75 outputs (displays) the image decoded data supplied from the image decoding unit 74 to a display.
 以上のように、符号化されたデータと、改ざん検出データとを少なくとも含むメタデータを有する画像データを生成することにより、メタデータに記述された改ざん検出データを読み出してスクリプトを実行することで、画像データが改ざんされているか否かを容易に検出することができる。そして、画像データが改ざんされていると判定された場合には、復号処理を禁止させることができる。これにより、従来のハッシュ値を用いた改ざん検知方法と比較すると、ハッシュ値を算出するためのスクリプトが画像データと共に送られてくるため、改ざんの検知自体が容易に行うことができるようになる上に、改ざんを試みようとする場合には、画像データ毎にハッシュ値算出方法を変えることができるので、一意に改ざんをすることは困難であるため、改ざん手法の確立ができなくなる。また、自分以外のデータ提供者が生成した画像データについても容易に改ざんの検証をすることができるようになる。 As described above, by generating image data having metadata including at least encoded data and tampering detection data, by reading the tampering detection data described in the metadata and executing the script, Whether or not image data has been tampered with can be easily detected. Then, when it is determined that the image data is falsified, the decryption processing can be prohibited. As a result, in comparison with the conventional tampering detection method using a hash value, a script for calculating the hash value is sent together with the image data, so that tampering detection itself can be easily performed. When attempting to falsify, since it is possible to change the hash value calculation method for each image data, it is difficult to uniquely falsify, and it becomes impossible to establish the falsification method. In addition, falsification can be easily verified for image data generated by data providers other than the user.
 以上においては、Seedデータは、画像データP21の所定領域に予め埋め込まれているものとしたが、これに限らず、データを扱う規格等で統一するようにしてもよいし、あるいは、メタデータに格納させるようにしてもよい。 In the above, the Seed data is assumed to be embedded in a predetermined area of the image data P21 in advance. However, the present invention is not limited to this. You may make it store.
 また、ステップS25において算出されるハッシュ値B´は、スクリプトのプログラム文字列を引数としてスクリプトを実行することで得られるものとしたが、スクリプトのプログラム文字列とSeedデータを引数としてスクリプトを実行することで得られるものであってもよい。 Also, although the hash value B 'calculated in step S25 is obtained by executing the script using the program character string of the script as an argument, the script is executed using the program character string of the script and the Seed data as arguments. May be obtained by
<<変形例>>
<変形例1>
 情報処理装置1A,1B,1Cは、画像符号化データと、地図上の位置情報や設定言語に従って選択表示する地名などの文字列を含むメタデータを有する画像データを生成するようにしてもよい。これにより、情報処理装置1A,1B,1Cは、画像データに基づいて画像を表示する際、その画像データに格納されたメタデータのうち、情報処理装置1A,1B,1Cで設定された言語に紐付けられた文字列を取得し、取得した文字列を所定位置に重畳表示させることができる。
<< Modification >>
<Modification 1>
The information processing apparatuses 1A, 1B, and 1C may generate image data having image encoded data and metadata including a character string such as a location name to be selectively displayed according to position information on a map or a setting language. Thus, when displaying the image based on the image data, the information processing apparatuses 1A, 1B, and 1C set the language set in the information processing apparatuses 1A, 1B, and 1C among the metadata stored in the image data. It is possible to acquire a string attached, and to display the acquired string superimposed on a predetermined position.
 図13は、画像符号化データに加え、地図上の位置や設定言語に従って選択表示する地名などの文字列を含むメタデータを有する画像データの利用例を示す図である。 FIG. 13 is a diagram showing an example of use of image data having metadata including a character string such as a place name to be selectively displayed according to a position on a map and a set language, in addition to image coded data.
 図13に示すように、画像データP31には、その原画像データに、日本地図の原画像が符号化された画像符号化データが格納されている。画像データP31のAPP11の領域には、JSONで記述されたメタデータM31が格納されている。メタデータM31には、第1行目に「"point”:{」、第2行目に「"Sapporo”:{」、第3行目に「"x”:560,」、第4行目に「"y”:80,」、第5行目に「"name”:{」、第6行目に「"en-US”: "Sapporo”,」、第7行目に「"ja-JP”: "札幌”」、第8行目に「}」、第9行目に「},」第10行目に「"Tokyo”:{」、第11行目に「"x”:600,」、第12行目に「"y”:600,」、第13行目に「"name”:{」、第14行目に「"en-US”: "Tokyo”,」、第15行目に「"ja-JP”: "東京”」、第16行目に「}」、第17行目に「},」第18行目に「"Naha”:{」、第19行目に「"x”:200,」、第20行目に「"y”:1100,」、第21行目に「"name”:{」、第22行目に「"en-US”: "Naha”,」、第23行目に「"ja-JP”: "那覇”」、第24行目に「}」、第25行目に「},」、第26行目に「}」が記述されている。 As shown in FIG. 13, in the image data P <b> 31, image encoded data in which an original image of a Japanese map is encoded is stored in the original image data. In an area of the APP 11 of the image data P31, metadata M31 described in JSON is stored. In the metadata M31, the first line is "" point ": {", the second line is "" Sapporo ": {", the third line is "" x ": 560,", the fourth line "" Y ": 80,", 5th line "" name ": {", 6th line "" en-US ":" Sapporo "," 7th line "" JP ":" Sapporo "", line 8 "}", line 9 "}," line 10 "" Tokyo ": {", line 11 "x": 600 "," Y ": 600," on the 12th line, "" name ": {" on the 13th line, "" en-US ":" Tokyo ", on the 14th line, 15 Line "" ja-JP ":" Tokyo "", line 16 "}", line 17 "}," line 18 "" Naha ": {, line 19 To "" x ": 200," to line 20, "" y ": 1100," to line 21, "" name ": {", to line 22, "" en-US ":" Naha “,” “23”, “'ja-JP”: “Naha”, line 24'} ', line 25'}, ', line 26'} ” Description It is done.
 「"point”」は、画面上の特定の位置を指し示す機能を用いることを指示する情報である。「"Sapporo”」、「"Tokyo”」、「"Naha”」の「"x”」、「"y”」の後に記述される情報は、地図上におけるそれぞれの地名(位置)の座標情報を示している。「"name”」の後に記述される情報は、言語を示し、「" en-US”」の後に記述される情報は、その言語が設定された際に表示させる地名を示し、「"ja-JP”」の後に記述される情報は、その言語が設定された際に表示させる地名(文字列)を示している。つまり、メタデータM31には、画面上の特定の位置を指し示す機能によって所定言語で地名表示するための座標情報と設定言語と地名とを組みとする地名情報が記述されており、情報処理装置1A,1B,1Cは、画像データを表示する際に、このメタデータ(地名情報)を読み出すことで、端末に設定されている所定の言語に応じた地名を、所定の位置に重畳表示させることができる。 "" Point "" is information instructing to use a function for pointing to a specific position on the screen. The information described after "" Sapporo "", "" Tokyo "", "" Naha "", "" x "", "" y "" is the coordinate information of each place name (position) on the map It shows. The information described after "" name "indicates the language, and the information described after" "en-US" "indicates the name of the place to be displayed when the language is set. The information described after "JP" indicates a place name (character string) to be displayed when the language is set. That is, in the metadata M31, place name information including a combination of coordinate information for displaying a place name in a predetermined language, a set language and a place name is described by a function indicating a specific position on the screen, and the information processing apparatus 1A , 1B, and 1C, by displaying the metadata (place name information) when displaying the image data, the place name corresponding to the predetermined language set in the terminal may be superimposed and displayed at the predetermined position. it can.
 図13の例では、このようなメタデータM31が格納された画像データP31に基づいて画像を表示させる際、情報処理装置1A,1B,1Cの言語が日本語に設定されている場合には、メタデータM31の「"ja-JP”」の後に続く地名の日本語表記(札幌、東京、那覇)が読み出される。これにより、情報処理装置1A,1B,1Cは、矢印A31の先に示されるように、日本地図表示P32上において、所定の位置に、日本語で地名を重畳表示させる。また、情報処理装置1A,1B,1Cの言語が英語に設定されている場合には、メタデータM31の「" en-US”」の後に続く地名(Sapporo,Tokyo,Naha)が読み出される。これにより、情報処理装置1A,1B,1Cは、矢印A32の先に示されるように、日本地図表示P33上において、所定の位置に、英語で地名を重畳表示させる。 In the example of FIG. 13, when displaying an image based on the image data P31 in which such metadata M31 is stored, when the language of the information processing apparatuses 1A, 1B, and 1C is set to Japanese, The Japanese notation (Sapporo, Tokyo, Naha) of the place name following "" ja-JP "" of the metadata M31 is read out. Thereby, the information processing apparatuses 1A, 1B, and 1C superimpose a geographical name in Japanese on a predetermined position on the Japanese map display P32 as indicated by the end of the arrow A31. When the language of the information processing apparatuses 1A, 1B, and 1C is set to English, the place names (Sapporo, Tokyo, Naha) following the "" en-US "of the metadata M31 are read out. Thereby, the information processing apparatuses 1A, 1B, and 1C superimpose a geographical name in English on a predetermined position on the Japanese map display P33 as indicated by the end of the arrow A32.
 このように、変形例1によれば、画像符号化データと、地図上の位置情報や設定言語に従って選択表示させる地名などの文字列を含むメタデータを有する画像データを生成することにより、この画像データに基づいて画像を表示させる際、メタデータに記述された地名情報に基づいて、情報処理装置1A,1B,1Cに設定された言語に紐付けられた地名を所定位置に重畳表示させることができる。 As described above, according to the first modification, this image is generated by generating image encoded data and metadata including a character string such as a location name to be selectively displayed according to position information on a map and a setting language. When displaying an image based on data, the place name linked to the language set in the information processing devices 1A, 1B, 1C may be superimposed and displayed at a predetermined position based on the place name information described in the metadata. it can.
<変形例2>
 情報処理装置1A,1B,1Cは、画像符号化データと、その画像の撮影場所の住所や施設名などの文字列を含むメタデータを有する画像データを生成するようにしてもよい。これにより、情報処理装置1A,1B,1Cは、画像を表示する際、画像データに格納されたメタデータの文字列を取得し、取得した文字列を画像に重畳表示させることができる。また情報処理装置1A,1B,1Cは、画像データに格納されたメタデータの文字列を検索キーとして画像検索したりすることもできる。
<Modification 2>
The information processing apparatuses 1A, 1B, and 1C may generate image data including encoded image data and metadata including a character string such as an address of a shooting location of the image and a facility name. As a result, when displaying an image, the information processing apparatuses 1A, 1B, and 1C can acquire the character string of the metadata stored in the image data, and superimpose the acquired character string on the image. The information processing apparatuses 1A, 1B, and 1C can also perform image search using a character string of metadata stored in image data as a search key.
 図14は、画像符号化データに加え、画像の撮影場所の住所や施設名などの文字列を含むメタデータを有する画像データの利用例を示す図である。 FIG. 14 is a diagram showing a usage example of image data having metadata including a character string such as an address of a photographing place of an image and a facility name in addition to image coded data.
 図14に示すように、画像データP41の原画像データには、沖縄で撮像された写真が、符号化されて画像符号化データとして格納されている。画像データP41のAPP11の領域には、JSONで記述されたメタデータM41が格納されている。メタデータM41には、第1行目に「"location”:{」、第2行目に「"address”: "沖縄県那覇市首里金城町1丁目2”」、第3行目に「}」が記述されている。 As shown in FIG. 14, in the original image data of the image data P41, a picture taken in Okinawa is encoded and stored as image encoded data. In an area of the APP 11 of the image data P41, metadata M41 described in JSON is stored. In the metadata M41, the first line is ““ location ”: {”, the second line is ““ address ”:“ Shuri Kinjocho 1-chome 2 Naha, Okinawa Prefecture ”, the third line is“ } Is described.
 「"location”」は、現在位置を特定してサービスと連携させることができる機能を用いることを指示する情報である。「"address”」の後に記述される情報は、撮影場所の住所を示している。つまり、メタデータM41には、撮影場所の住所を示す情報が記述されており、情報処理装置1A,1B,1Cは、画像を表示する際に、このメタデータを読み出すことで、メタデータに記述された撮影場所の住所を示す情報を重畳表示させることができる。 ““ Location ”is information instructing to use a function that can specify the current location and cooperate with the service. The information described after "" address "indicates the address of the shooting location. That is, information indicating the address of the shooting location is described in the metadata M41, and the information processing apparatuses 1A, 1B, and 1C describe the metadata by reading out the metadata when displaying the image. Information indicating the address of the photographed place can be superimposed and displayed.
 図14の例では、このようなメタデータM41が格納された画像データP41に基づいて画像を表示させる際、メタデータM41の「"address”」の後に続く文字列(沖縄県那覇市首里金城町1丁目2)が読み出される。これにより、情報処理装置1A,1B,1Cは、矢印A41の先に示されるように、画像表示P42上に、撮影場所である住所を重畳表示させる。 In the example of FIG. 14, when displaying an image based on the image data P41 in which such metadata M41 is stored, a character string following ““ address ”” of the metadata M41 (Shuri Kinjo, Naha City, Okinawa Prefecture Town 1-2 is read out. Thus, the information processing apparatuses 1A, 1B, and 1C superimpose an address, which is a shooting location, on the image display P42 as indicated by the end of the arrow A41.
 また、情報処理装置1A,1B,1Cは、このようなメタデータM41が格納された画像データP41を、矢印A42の先に示されるように、図示せぬネットワークを介して接続されたデータベース(DB)101に供給し、そこで管理させることもできる。これにより、情報処理装置1A,1B,1Cは、「沖縄」を検索キーとして画像検索すると、データベース101で管理されている複数の画像データの中から、メタデータM41に「沖縄」を含む画像データを検索することができる。そして、情報処理装置1A,1B,1Cは、矢印A43の先に示されるように、検索された複数の画像データのサムネイル画像からなる画像リストP43を表示させることができる。 In addition, the information processing apparatuses 1A, 1B, and 1C connect the image data P41 storing such metadata M41 to a database (DB) connected via a network (not shown) as indicated by the point of arrow A42. ) Can be supplied and managed there. Accordingly, when the information processing apparatuses 1A, 1B, and 1C perform image search using "Okinawa" as a search key, image data including "Okinawa" in the metadata M41 among a plurality of image data managed by the database 101 You can search for Then, as indicated by the end of the arrow A43, the information processing apparatuses 1A, 1B, and 1C can display the image list P43 including thumbnail images of a plurality of searched image data.
 このように、変形例2によれば、画像符号化データと、撮影場所の住所や施設名などの文字列を含むメタデータとを有する画像データを生成することで、画像を表示させる際、画像データに格納された撮影場所の住所や施設名などを重畳表示させることができる。また、生成された画像データをデータベースで管理させるようにすることで、検索キーを指定すると、検索キーを含むメタデータが格納された画像データを容易に検索することもできる。 As described above, according to the second modification, when the image is displayed by generating the image data including the image encoded data and the metadata including the character string such as the address of the shooting location and the facility name, the image is displayed It is possible to superimpose the address of the shooting location stored in the data and the facility name. In addition, by causing the generated image data to be managed in a database, when a search key is designated, it is possible to easily search for image data in which metadata including the search key is stored.
<変形例3>
 情報処理装置1A,1B,1Cは、画像符号化データに加え、この画像符号化データの内容を示すテキストデータを含むメタデータを有する画像データを生成するようにしてもよい。これにより、情報処理装置1A,1B,1Cは、画像データに基づいて画像を表示する際、その画像データに格納されたメタデータのテキストデータを取得し、取得したテキストデータをテキスト読み上げ機能によって音声に変換し、変換した音声を再生させることができる。
<Modification 3>
The information processing apparatuses 1A, 1B, and 1C may generate image data having metadata including text data indicating the content of the image coded data in addition to the image coded data. Thus, when displaying an image based on image data, the information processing apparatuses 1A, 1B, and 1C acquire text data of metadata stored in the image data, and the acquired text data is voiced by the text-to-speech function Can be converted and played back.
 図15は、画像符号化データに加え、画像符号化データの内容を示すテキストデータを含むメタデータを有する画像データの利用例を示す図である。 FIG. 15 is a diagram showing an example of use of image data having metadata including text data indicating contents of the image coded data in addition to the image coded data.
 図15に示すように、画像データP51の原画像データには、カーナビゲーションシステムで表示されるナビゲーション画像のデータが、画像符号化データとして格納されている。画像データP51のAPP11の領域には、JSONで記述されたメタデータM51が格納されている。メタデータM51には、第1行目に「"tts”:{」、第2行目に「"lang”: "ja-JP”,」、第3、第4行目に「"text”: "徳島本町方面、渋滞中。徳島本町まで約20分かかります。”」、第5行目に「}」が記述されている。 As shown in FIG. 15, in the original image data of the image data P51, data of a navigation image displayed by the car navigation system is stored as image encoded data. In the area of the APP 11 of the image data P51, metadata M51 described in JSON is stored. In the metadata M51, "tts": {in the first line, "lang": "ja-JP", in the second line, "text" in the third and fourth lines. "Tokushima Honcho, in traffic. It takes about 20 minutes to Tokushima Honcho. "", "}" Is described in the fifth line.
 「"tts”」は、tts(text-to speech)システムと呼ばれるテキスト読み上げ機能を用いることを指示する情報である。「"lang”」の後に記述される情報は、テキスト読み上げ機能を用いる際に指定される言語を示している。「"text”」 の後に記述される情報は、ttsシステムを用いる際に読み上げられるテキストデータを示している。つまり、メタデータM51には、テキスト読み上げ機能によって日本語で読み上げるためのテキストデータが記述されており、情報処理装置1A,1B,1Cは、画像データを表示する際に、このメタデータを読み出すことで、メタデータに記述されたテキストデータに基づく音声を再生させることができる。 "" Tts "" is information instructing to use a text-to-speech function called a tts (text-to speech) system. The information described after "" lang "" indicates the language specified when using the text-to-speech function. The information described after "" text "indicates text data read out when using the tts system. That is, text data for reading out in Japanese by the text-to-speech function is described in the metadata M51, and the information processing apparatuses 1A, 1B, and 1C read this metadata when displaying the image data. The voice based on the text data described in the metadata can be reproduced.
 図15の例では、このようなメタデータM51が格納された画像データP51に基づいて画像を表示させる際、メタデータM51の「"text”」 の後に続くテキストデータ(徳島本町方面、渋滞中。徳島本町まで約20分かかります。)が読み出される。これにより、情報処理装置1A,1B,1Cは、矢印A51の先に示されるように、画像P52を表示させるとともに、テキスト読み上げ機能を用いて、吹き出しS51に示すようなテキストに基づく音声を再生させる(読み上げる)。 In the example of FIG. 15, when displaying an image based on the image data P51 in which such metadata M51 is stored, text data following "" text "" of the metadata M51 (in Tokushima Honcho, traffic jam). It takes about 20 minutes to Tokushima Honcho.) Is read out. Thus, as indicated by the end of arrow A51, the information processing apparatuses 1A, 1B, and 1C cause the image P52 to be displayed, and the text-to-speech function is used to reproduce the speech based on the text as shown in the balloon S51. (Read aloud).
 このように、変形例3によれば、画像符号化データと、画像符号化データの内容を示すテキストデータを含むメタデータとを有する画像データを生成することで、画像データに基づき画像を表示させる際、画像データに格納されたテキストデータに基づく音声を再生させることができる。 As described above, according to the third modification, the image is displayed based on the image data by generating the image data including the encoded image data and the metadata including the text data indicating the content of the encoded image data. In this case, sound based on text data stored in the image data can be reproduced.
<変形例4>
 情報処理装置1A,1B,1Cは、公開鍵により暗号化された画像符号化データと、その公開鍵を格納したメタデータとを有する画像データを生成するようにしてもよい。これにより、情報処理装置1A,1B,1Cは、画像を表示する際、画像データに格納されたメタデータの公開鍵を取得し、取得した公開鍵にリンクする秘密鍵を有する場合のみ、画像符号化データを復号して表示させることができる。
<Modification 4>
The information processing apparatuses 1A, 1B, and 1C may generate image data including image coded data encrypted by a public key and metadata storing the public key. Thus, when displaying the image, the information processing apparatuses 1A, 1B, and 1C acquire the public key of the metadata stored in the image data, and only when the image code has the secret key linked to the acquired public key, the image code Can be decoded and displayed.
 図16は、公開鍵により暗号化された画像符号化データと、その公開鍵を格納したメタデータとを有する画像データの利用例を示す図である。 FIG. 16 is a diagram showing an example of use of image data including image encoded data encrypted by a public key and metadata storing the public key.
 図16に示すように、画像データP61の原画像データには、公開鍵で暗号化された画像符号化データが格納されている。画像データP61のAPP11の領域には、JSONで記述されたメタデータM61が格納されている。また画像データP61のAPP1(Exif)の領域には、平文のままのサムネイル画像P61aも格納されている。メタデータM61には、第1行目に「"encrypt”:{」、第2行目に「"OID”: "1.2.840.10045.2.1”,」、第3行目に「"public_key”: "04FC2E8B81DD...”」、第4行目に「}」が記述されている。 As shown in FIG. 16, in the original image data of the image data P61, image encoded data encrypted with a public key is stored. The metadata M61 described in JSON is stored in the area of the APP 11 of the image data P61. Also, in the area of APP1 (Exif) of the image data P61, a thumbnail image P61a as it is in plain text is also stored. In the metadata M61, the first line is ““ encrypt ”: {”, the second line is ““ OID ”:“ 1.2.840.10045.2.1 ”,” the third line is “public_key”: “ 04FC 2 E 8 B 81 DD ... ”” and “}” are described in the fourth line.
 「" encrypt”」は、暗号化機能を用いることを指示する情報である。「"OID”」の後に記述される情報は、オブジェクトを識別する情報を示し、「" public_key”」 の後に記述される情報は、公開鍵を示している。つまり、メタデータM61には、画像符号化データの暗号化に用いられた公開鍵が記述されており、情報処理装置1A,1B,1Cは、画像を表示する際に、このメタデータを読み出すことで、メタデータに記述された公開鍵にリンクする秘密鍵を有する場合のみ、画像データP61内の画像符号化データを復号して表示させることができる。 ““ Encrypt ”” is information instructing to use the encryption function. The information described after "" OID "" indicates information identifying an object, and the information described after "" public_key "" indicates a public key. That is, the public key used for the encryption of the image encoded data is described in the metadata M61, and the information processing apparatuses 1A, 1B, and 1C read this metadata when displaying the image. The image encoded data in the image data P61 can be decoded and displayed only when there is a secret key linked to the public key described in the metadata.
 図16の例では、このようなメタデータM61が格納された画像データP61に基づき画像を表示させる際、メタデータM61の「" public_key”」の後に続く公開鍵(04FC2E8B81DD...)が読み出される。これにより、情報処理装置1A,1B,1Cは、読み出した公開鍵にリンクする秘密鍵111を有する場合、その秘密鍵111を用いて画像データP61内の画像符号化データを復号(解読)し、矢印A61の先に示されるように、画像P62を表示させる。 In the example of FIG. 16, when displaying an image based on the image data P61 in which such metadata M61 is stored, the public key (04FC2E8B81DD ...) following "" public_key "of the metadata M61 is read out. . Accordingly, when the information processing apparatuses 1A, 1B, and 1C have the secret key 111 linked to the read public key, the information processing apparatuses 1A, 1B, and 1C use the secret key 111 to decrypt (decode) the image coded data in the image data P61. The image P62 is displayed as indicated by the tip of the arrow A61.
 また、情報処理装置1A,1B,1Cは、メタデータM61から読み出した公開鍵にリンクする秘密鍵111を有していない場合には、画像データP61内の画像符号化データを復号することができず、矢印A62の先に示されるように、暗号化されたままのデータP63を表示させる。 Further, when the information processing apparatuses 1A, 1B, and 1C do not have the secret key 111 linked to the public key read from the metadata M61, the information processing apparatuses 1A, 1B, and 1C can decode the image encoded data in the image data P61. Then, as indicated by the tip of the arrow A62, the data P63 as it is encrypted is displayed.
 このように、変形例4によれば、公開鍵により暗号化された画像符号化データと、その公開鍵を格納したメタデータとを有する画像データを生成することで、画像を表示させる際、画像データに格納されたメタデータの公開鍵にリンクする秘密鍵を有する場合のみ、暗号化された画像符号化データを復号して表示させることができる。 As described above, according to the fourth modification, when the image is displayed by generating the image data having the image encoded data encrypted by the public key and the metadata storing the public key, Only in the case of having a secret key linked to the public key of the metadata stored in the data, the encrypted image encoded data can be decoded and displayed.
<変形例5>
 情報処理装置1A,1B,1Cは、画像符号化データと、原画像の撮影位置、方向、および画角と地図情報に基づいて識別したオブジェクト(施設等)情報を含むメタデータとを有する画像データを生成するようにしてもよい。これにより、情報処理装置1A,1B,1Cは、画像データに格納されたメタデータのオブジェクト情報を検索キーとして画像検索したりすることができる。
<Modification 5>
The information processing apparatuses 1A, 1B, and 1C are image data having encoded image data, metadata including object (facility etc.) information identified based on the shooting position and direction of the original image, and the angle of view and map information. May be generated. Accordingly, the information processing apparatuses 1A, 1B, and 1C can perform image search using object information of metadata stored in image data as a search key.
 図17および図18は、画像符号化データと、原画像の撮影位置、方向、および画角と地図情報に基づいて識別したオブジェクト情報を含むメタデータとを有する画像データの利用例を示す図である。 FIG. 17 and FIG. 18 are diagrams showing an example of use of image data having image coded data, metadata including object information identified based on shooting position and direction of the original image, angle of view and map information. is there.
 図17に示すように、画像データP71および画像データP72の原画像データにはそれぞれ、緯度35.65851、経度139.745433の位置にある東京タワーを撮影した画像が、符号化されて画像符号化データとして格納されている。画像データP71のAPP1(Exif)の領域には、緯度35.6591、経度139.741969、方位N90°のExif情報が格納されている。画像データP72のAPP1(Exif)の領域には、緯度35.65851、経度139.745433、方位N315°のExif情報が格納されている。 As shown in FIG. 17, in the original image data of the image data P71 and the image data P72, an image of the Tokyo Tower taken at latitude 35.65851 and longitude 139.745433 is encoded and stored as image encoded data. ing. In the area of APP1 (Exif) of the image data P71, Exif information of latitude 35.6591, longitude 139.741969, and azimuth N 90 ° is stored. In the area of APP1 (Exif) of the image data P72, Exif information of latitude 35.65851, longitude 139.745433, and azimuth N 315 ° is stored.
 情報処理装置1A,1B,1Cの演算部112は、画像データP71を入力し、図示せぬネットワークを介して接続されたMapデータベース111を参照し、画像データP71に格納されているExif情報に関連するオブジェクト情報を取得する。演算部112は、Mapデータベース111から取得したオブジェクト情報に基づいて、矢印A71の先に示されように、JSONで記述したメタデータM71を生成する。 The operation unit 112 of the information processing apparatus 1A, 1B, 1C inputs the image data P71, refers to the Map database 111 connected via the network (not shown), and relates to Exif information stored in the image data P71. Object information to be acquired. The calculation unit 112 generates metadata M71 described in JSON based on the object information acquired from the Map database 111, as indicated by the tip of the arrow A71.
 情報処理装置1A,1B,1Cの演算部113は、画像データP72を入力し、図示せぬネットワークを介して接続されたMapデータベース111を参照し、画像データP72に格納されているExif情報に関連するオブジェクト情報を取得する。演算部113は、Mapデータベース111から取得したオブジェクト情報に基づいて、矢印A72の先に示されるように、JSONで記述したメタデータM72を生成する。 The operation unit 113 of the information processing apparatuses 1A, 1B, and 1C receives the image data P72, refers to the Map database 111 connected via a network (not shown), and relates to Exif information stored in the image data P72. Object information to be acquired. The calculation unit 113 generates the metadata M72 described in JSON based on the object information acquired from the Map database 111 as indicated by the tip of the arrow A72.
 メタデータM71、M72には、第1行目に「"objects”:[」、第2行目に「{」、第3行目に「"name”: "東京タワー”,」、第n-1行目に「}」、第n行目に「]」が記述されている。「"objects”」の後に記述される情報は、オブジェクト情報を示している。つまり、メタデータM71、M72には、撮影位置に関連するオブジェクト情報が記述されている。 In the metadata M71 and M72, "objects": ["in the first line," {"in the second line," "name": "Tokyo Tower", in the third line, n- "}" Is described in the first line, and "]" is described in the n-th line. The information described after "" objects "" indicates object information. That is, object information related to the shooting position is described in the metadata M71 and M72.
 情報処理装置1A,1B,1Cは、生成したメタデータM71を画像データP71のAPP11の領域に格納し、生成したメタデータM72を画像データP72のAPP11の領域に格納する。 The information processing apparatuses 1A, 1B, and 1C store the generated metadata M71 in the area of the APP 11 of the image data P71, and store the generated metadata M72 in the area of the APP 11 of the image data P72.
 情報処理装置1A,1B,1Cは、メタデータM71が格納された画像データP71、メタデータM72が格納された画像データP72を、図18の矢印A81の先に示されるように、図示せぬネットワークを介して接続されたオブジェクトデータベース121に供給し、そこで管理させることができる。これにより、情報処理装置1A,1B,1Cは、「東京タワー」を検索キーとして画像検索すると、データベース121で管理されている複数の画像データの中から、メタデータM71、M72に「東京タワー」を含む画像データP71、P72を検索することができる。そして、情報処理装置1A,1B,1Cは、矢印A82の先に示されるように、検索された複数の画像データのサムネイル画像からなる画像リストP81を表示させることができる。 The information processing apparatuses 1A, 1B, and 1C are configured such that the image data P71 in which the metadata M71 is stored, and the image data P72 in which the metadata M72 is stored, as indicated by the arrow A81 in FIG. Can be supplied to and managed by the object database 121 connected thereto. As a result, when the information processing apparatuses 1A, 1B, and 1C perform image search using "Tokyo Tower" as a search key, "Tokyo Tower" is selected as metadata M71, M72 from among a plurality of image data managed by the database 121. The image data P71 and P72 including the image data can be searched. The information processing apparatuses 1A, 1B, and 1C can display an image list P81 including thumbnail images of a plurality of searched image data, as indicated by the end of the arrow A82.
 このように、変形例5によれば、符号化されたデータと、画像データの撮影位置、方向、および画角と地図情報に基づいて識別したオブジェクト情報を含むメタデータを有する画像データを生成し、生成された画像データをデータベースで管理することで、検索キーを指定すると、検索キーを含むメタデータが格納された画像データを容易に検索することができる。 As described above, according to the fifth modification, image data having metadata including object data identified based on encoded data, shooting position and direction of image data, and angle of view and map information is generated. By designating the search key by managing the generated image data in the database, it is possible to easily search the image data in which the metadata including the search key is stored.
 以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。たとえば、画像をトリミングする画像再生処理例で説明したメタデータは、時刻情報及び領域情報を記述するものであり、音声画像再生処理例で説明したメタデータは、時刻情報およびテキストデータを記述するものであり、改ざん検出を伴う画像再生処理例で説明したメタデータは、改ざん検出データを記述するものであるが、たとえば、時刻情報、領域情報、およびテキスト情報を記述したメタデータを生成することも可能である。このような構成によって、メタデータに記述された時刻情報に合致する表示タイミングになった際、その時刻情報に紐付けられた領域情報に基づいて、画像データの所定領域のみをトリミングして表示させ、さらに、その時刻情報に紐付けられたテキストデータを画像化し、画像化したテキスト画像を画像データに重畳してテロップ表示させることができる。 As mentioned above, although embodiment of this invention was described, this invention is not limited to embodiment mentioned above, A various change is possible in the range which does not deviate from the summary of this invention. For example, the metadata described in the image reproduction processing example for trimming an image describes time information and area information, and the metadata described in the audio image reproduction processing example describes time information and text data Although the metadata described in the example of the image reproduction processing accompanied by the falsification detection describes the falsification detection data, it is also possible to generate, for example, metadata describing time information, area information, and text information. It is possible. With such a configuration, when the display timing that matches the time information described in the metadata is reached, only the predetermined area of the image data is trimmed and displayed based on the area information linked to the time information. Furthermore, it is possible to image the text data linked to the time information and superimpose the imaged text image on the image data for telop display.
 また、時刻情報、領域情報、および改ざん検出データを記述したメタデータ、時刻情報、テキストデータ、および改ざん検出データを記述したメタデータ、時刻情報、領域情報、テキスト情報、および改ざん検出データを記述したメタデータを生成することも可能である。このような構成によって、メタデータに記述された改ざん検出データに従って、画像データが改ざんされていないことが検出された場合にのみ、所定の表示タイミングで、画像データの所定領域みをトリミングして表示させたり、所定のタイミングで画像データにテロップ表示させたり、あるいは、所定のタイミングで画像データの所定領域のみをトリミング表示し、かつ画像データにテロップ表示させたりすることができる。 Also, time information, area information, metadata describing tamper detection data, time information, text data, metadata describing tamper detection data, time information, area information, text information, and tamper detection data are described It is also possible to generate metadata. With such a configuration, only when the image data is detected not to be tampered with is detected according to the tampering detection data described in the metadata, the predetermined area of the image data is trimmed and displayed at a predetermined display timing. It is possible to display the image data in telop display at a predetermined timing, or to display only a predetermined area of the image data in a trimmed display at a predetermined timing and to display a telop display on the image data.
 変形例では、メタデータに、オブジェクト情報や撮影位置情報等を記述するようにしたが、これに限らず、たとえば、画像データ中に、山田さんの顔がx座標300、y座標200の位置にあり、鈴木さんの顔がx座標500、y座標300にあることを示す情報を記述するようにしてもよい。このような構成によって、複数ある画像データの中から、山田さんの画像を抽出し、かつ抽出した画像中の山田さんの顔(位置)を探すことが可能になる。 In the modified example, object information, shooting position information, and the like are described in the metadata, but the present invention is not limited to this. For example, the face of Mr. Yamada is located at x-coordinate 300 and y-coordinate 200 in image data. It is also possible to describe information indicating that Mr. Suzuki's face is in the x-coordinate 500 and the y-coordinate 300. With such a configuration, it is possible to extract Mr. Yamada's image from among a plurality of image data and to search for Mr. Yamada's face (position) in the extracted image.
 また、ドライブレコーダやセキュリティカメラ等で撮像した画像データに対して、所定の画像認識処理を施して検知した画像情報、日時、場所、状況等のデータをメタデータに記述するようにしてもよい。このような構成によって、複数ある画像データの中から、画像解析により危険な状況にある画像を抽出することが可能になる。 In addition, image data detected by performing predetermined image recognition processing on image data captured by a drive recorder, a security camera or the like, data such as date and time, location, status, etc. may be described in metadata. With such a configuration, it is possible to extract an image in a dangerous situation by image analysis from among a plurality of image data.
 以上においては、画像データ生成装置30画像再生装置40、音声画像データ生成装置50、音声画像再生装置60および画像データ改ざん検出装置70は、同一の情報処理装置1A,1B,1C内に設けられるものとしたが、それらの機能を別々の装置として設けることも可能である。 In the above, the image data generation device 30, the image reproduction device 40, the audio image data generation device 50, the audio image reproduction device 60, and the image data tampering detection device 70 are provided in the same information processing devices 1A, 1B, 1C. However, it is also possible to provide those functions as separate devices.
 また、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、たとえば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。 Also, the series of processes described above can be performed by hardware or software. When a series of processes are executed by software, various functions are executed by installing a computer in which a program configuring the software is incorporated in dedicated hardware or various programs. Can be installed, for example, on a general-purpose personal computer from the program storage medium.
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。 Note that the program executed by the computer may be a program that performs processing in chronological order according to the order described in this specification, in parallel, or when necessary, such as when a call is made. It may be a program to be processed.
1, 1A,1B,1C…情報処理装置、16…出力部、17…記憶部、30…画像データ生成装置、31…画像符号化部、32…メタデータ生成部、33…画像データ生成部、34…記録制御部、40…画像再生装置、41…解析部、42…画像復号部、43…画像記憶部、44…画像トリミング部、45…出力制御部、50…音声画像データ生成装置、51…画像符号化部、52…メタデータ生成部、53…データ生成部、54…記録制御部、60…音声画像再生装置、61…解析部、62…画像復号部、63…テキスト描画部、64…出力制御部、70…画像データ改ざん検出装置、71…解析部、72…比較部、73…改ざん検出部、74…画像復号部、75…出力制御部 1, 1A, 1B, 1C: information processing apparatus, 16: output unit, 17: storage unit, 30: image data generation apparatus, 31: image coding unit, 32: metadata generation unit, 33: image data generation unit, 34: recording control unit 40: image reproduction device 41: analysis unit 42: image decoding unit 43: image storage unit 44: image trimming unit 45: output control unit 50: audio image data generation device 51 ... image encoding unit, 52 ... metadata generation unit, 53 ... data generation unit, 54 ... recording control unit, 60 ... audio image reproduction device, 61 ... analysis unit, 62 ... image decoding unit, 63 ... text drawing unit, 64 ... output control unit 70 ... image data tampering detection device 71 ... analysis unit 72 ... comparison unit 73 ... tampering detection unit 74 ... image decoding unit 75 ... output control unit

Claims (5)

  1.  画像を符号化したデータとそのデータに関するデータであるメタデータとを有する画像データが埋め込まれた音声データに基づき音声および画像を再生する音声画像再生部を備え、
     前記メタデータは、テキストデータと時刻情報とを組みとするテロップ情報を少なくとも含み、
     前記音声画像再生部は、前記音声データに基づく音声を再生するとともに、前記画像データの前記テロップ情報に従って、前記音声データに基づく音声の再生開始からの経過時刻に応じた前記テキストデータに基づくテロップ画像を再生画像に重畳表示する
     ことを特徴とする音声画像再生装置。
    The audio image reproduction unit is configured to reproduce audio and an image based on audio data in which image data having data obtained by encoding an image and metadata relating to the data is embedded.
    The metadata includes at least telop information in which text data and time information are combined,
    The audio and video reproduction unit reproduces the audio based on the audio data, and according to the telop information of the image data, a telop image based on the text data according to an elapsed time from the start of the audio reproduction based on the audio data An audio and video reproduction apparatus characterized by superimposing and displaying it on a reproduced image.
  2.  前記テロップ情報は、前記テキストデータの色情報、フォント情報、陰影の有無を示す情報、背景色情報のうちの少なくとも1つを含むテキスト制御情報をさらに有し、
     前記音声画像再生部は、前記テキスト制御情報に従って、前記テキストデータに基づくテロップ画像を表示する
     ことを特徴とする請求項1に記載のデータ再生装置。
    The telop information further includes text control information including at least one of color information of the text data, font information, information indicating presence or absence of shading, and background color information.
    The data reproduction apparatus according to claim 1, wherein the audio and video reproduction unit displays a telop image based on the text data according to the text control information.
  3.  前記テロップ画像は歌詞データであり、前記画像データはアートワークからなる原画像データから生成される
     ことを特徴とする請求項1に記載のデータ再生装置。
    The data reproduction apparatus according to claim 1, wherein the telop image is lyric data, and the image data is generated from original image data consisting of artwork.
  4.  画像を符号化したデータとそのデータに関するデータであるメタデータとを有する画像データが埋め込まれた音声データに基づき音声および画像を再生する音声画像再生ステップを有し、
     前記メタデータは、テキストデータと時刻情報とを組みとするテロップ情報を少なくとも含み、
     前記音声画像再生ステップは、
     前記音声データに基づく音声を再生するステップと、
     前記画像データの前記テロップ情報に従って、前記音声データの再生開始からの経過時刻に応じた前記テキストデータに基づくテロップ画像を再生画像に重畳表示するステップと
     を有することを特徴とするデータ再生方法。
    The audio image reproduction step of reproducing audio and an image based on audio data in which image data having data obtained by encoding an image and metadata relating to the data is embedded,
    The metadata includes at least telop information in which text data and time information are combined,
    The sound and image reproduction step includes
    Playing an audio based on the audio data;
    Displaying a telop image based on the text data in accordance with the elapsed time from the start of reproduction of the audio data according to the telop information of the image data, and superimposing it on the reproduction image.
  5.  符号化された画像データと、
     前記画像データと重畳させるためのテキストデータと、前記テキストデータのテキストを前記画像データと重畳させるタイミングを示す時刻情報とを組みとするテロップ情報を少なくとも含むメタデータと、
    を有することを特徴とする画像データのデータ構造。
    Encoded image data,
    Metadata including at least text data for superimposing on the image data, and telop information in which time information indicating timing of superimposing the text of the text data on the image data is combined;
    The data structure of image data characterized by having.
PCT/JP2018/028373 2017-08-23 2018-07-30 Voice image reproduction device, voice image reproduction method, and data structure of image data WO2019039194A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-160605 2017-08-23
JP2017160605A JP6874593B2 (en) 2017-08-23 2017-08-23 Data playback device, data playback method, and data structure of image data

Publications (1)

Publication Number Publication Date
WO2019039194A1 true WO2019039194A1 (en) 2019-02-28

Family

ID=65438779

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/028373 WO2019039194A1 (en) 2017-08-23 2018-07-30 Voice image reproduction device, voice image reproduction method, and data structure of image data

Country Status (2)

Country Link
JP (1) JP6874593B2 (en)
WO (1) WO2019039194A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11606531B2 (en) * 2020-02-19 2023-03-14 Beijing Xiaomi Mobile Software Co., Ltd. Image capturing method, apparatus, and storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023075188A1 (en) * 2021-10-28 2023-05-04 세종대학교산학협력단 Method for configuring object-based multimedia for short-form content and device using same

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04326398A (en) * 1991-04-26 1992-11-16 Casio Comput Co Ltd Automatic music player device
JPH10254435A (en) * 1997-01-09 1998-09-25 Yamaha Corp Method and device for controlling display and recording medium recording program for display control
JP2007142728A (en) * 2005-11-17 2007-06-07 Sharp Corp Mobile terminal, information processing method, program, and computer-readable recording medium recording the same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04326398A (en) * 1991-04-26 1992-11-16 Casio Comput Co Ltd Automatic music player device
JPH10254435A (en) * 1997-01-09 1998-09-25 Yamaha Corp Method and device for controlling display and recording medium recording program for display control
JP2007142728A (en) * 2005-11-17 2007-06-07 Sharp Corp Mobile terminal, information processing method, program, and computer-readable recording medium recording the same

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11606531B2 (en) * 2020-02-19 2023-03-14 Beijing Xiaomi Mobile Software Co., Ltd. Image capturing method, apparatus, and storage medium

Also Published As

Publication number Publication date
JP6874593B2 (en) 2021-05-19
JP2019041191A (en) 2019-03-14

Similar Documents

Publication Publication Date Title
WO2019039196A1 (en) Image data alteration detection device, image data alteration detection method, and data structure of image data
JP5193124B2 (en) Digital watermark embedding method and apparatus
US8521007B2 (en) Information processing method, information processing device, scene metadata extraction device, loss recovery information generation device, and programs
KR102340196B1 (en) Video processing apparatus and method of operations thereof
CN101212648A (en) Method and device for synchronizing data flow and metadata of content
WO2019039194A1 (en) Voice image reproduction device, voice image reproduction method, and data structure of image data
WO2019039192A1 (en) Image reproduction device, information processing apparatus, image reproduction method, and data structure of image data
CN104065908A (en) Apparatus And Method For Creating And Reproducing Live Picture File
JP2011030224A (en) System and method for displaying multimedia subtitle
JP4070742B2 (en) Method and apparatus for embedding / detecting synchronization signal for synchronizing audio file and text
KR20180080642A (en) Video editing method with music source
US20130073934A1 (en) Image display apparatus, image display method, and computer readable medium
JP5371574B2 (en) Karaoke device that displays lyrics subtitles to avoid face images in background video
BRPI0616365A2 (en) system and method for watermark generation in digital cinema projector
JP5711242B2 (en) Method for adding audio content to video content and apparatus for implementing the method
WO2019043871A1 (en) Display timing determination device, display timing determination method, and program
CN112151048B (en) Method for generating and processing audio-visual data
KR101934393B1 (en) System for Instructional visual content using Automatically convert images from electronic documents
JP2007243824A (en) Apparatus, method and program for multiplexing
JP2003152707A (en) Contents generating device, contents reproducing device, and contents providing method
KR100577558B1 (en) Sync signal insertion/detection method and apparatus for synchronization between audio contents and text
CN115209214B (en) Identifying and removing restricted information from video
JP7197688B2 (en) Playback control device, program and playback control method
CN108124147B (en) Method and system for synthesizing audio PNG picture
JP2009253342A (en) Information processing device and method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18847927

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18847927

Country of ref document: EP

Kind code of ref document: A1