WO2014103123A1 - ダイジェストを生成するための装置、方法、及びプログラム - Google Patents

ダイジェストを生成するための装置、方法、及びプログラム Download PDF

Info

Publication number
WO2014103123A1
WO2014103123A1 PCT/JP2013/006415 JP2013006415W WO2014103123A1 WO 2014103123 A1 WO2014103123 A1 WO 2014103123A1 JP 2013006415 W JP2013006415 W JP 2013006415W WO 2014103123 A1 WO2014103123 A1 WO 2014103123A1
Authority
WO
WIPO (PCT)
Prior art keywords
digest
section
unit
similarity
moving image
Prior art date
Application number
PCT/JP2013/006415
Other languages
English (en)
French (fr)
Inventor
雄基 篠本
智典 中村
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Publication of WO2014103123A1 publication Critical patent/WO2014103123A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features

Definitions

  • the electronic device automatically extracts a video that matches the user's preference from the video represented by the video content as a digest.
  • the types of digests are limited to those that meet the user's preference, so the number of digests to be checked by the user can be smaller than the number of moving image contents.
  • the video represented by any digest matches the user's preference, the user can check the video relatively quickly.
  • it is difficult to express the user's preference with the feature of the video itself it is difficult to set a judgment criterion that matches / does not match the user's preference with the feature vector of the video.
  • An object of the present invention is to solve the above-described problems, and in particular, to provide an apparatus that can automatically and quickly generate a digest of moving image content with respect to a reference.
  • the digest generation apparatus uses the number of appearances of words in audio or subtitles instead of video features when grouping video content sections. As a result, the apparatus can automatically, accurately and quickly separate the characteristics of each group. Further, the apparatus selects a group to be extracted as a digest based on the similarity between the set of words appearing in the audio or subtitle and the set of reference words. As a result, the apparatus can automatically and quickly generate a digest of moving image content accurately with respect to a reference.
  • FIG. 1 is a schematic diagram illustrating a home video network system according to an embodiment of the present invention. It is a block diagram which shows the hardware constitutions of the home video server in the system shown by FIG. 1, ie, NAS. 2 is a functional block diagram of a home video server, or NAS, in the system shown in FIG.
  • FIG. 3 is a schematic diagram showing a data structure of moving image content adopting an MPEG-2 TS format. It is a schematic diagram which shows the data structure of a text subtitle stream. It is a functional block diagram of the section classification
  • FIG. 4 is a functional block diagram of an interest information collection unit shown in FIG. 3. It is a flowchart of the process by the interest information collection part shown by FIG. It is a table
  • the router 110 communicates with other electronic devices 120, 130,..., 160 in the system 100 through a wired LAN (IEEE802.3) or wireless LAN (IEEE802.11), and connects to the Internet WWW through the WAN. It has. The router 110 uses these functions to relay data exchange between the other electronic devices 120,..., 160 and between the electronic devices and the Internet WWW.
  • a wired LAN IEEE802.3
  • wireless LAN IEEE802.11
  • the NAS 120 has a function of storing a large amount of video / audio (AV) data using a mass storage device such as a hard disk drive (HDD) or a semiconductor memory drive (SSD), a wired LAN or a wireless LAN (hereinafter referred to as LAN).
  • the NAS 120 uses these functions to play a central role within the system 100, i.e., as a home video server. Specifically, the NAS 120 receives various moving image contents from other electronic devices 121, 122, 130,..., 160 in the system 100 using the router 110 or an external interface, and stores them in the storage device.
  • the mobile device 160 is a mobile phone such as a smartphone, a portable information terminal, or a tablet PC.
  • the mobile device 160 receives a function of accessing the Internet WWW through a mobile phone line, a function of communicating with the router 110 through a LAN, a function of displaying a web page or moving image content on a screen using a browser, and a one-segment broadcasting wave. It has a function of reproducing a video of a desired program from a broadcast wave on a screen and reproducing the sound, and a photo / home video shooting function similar to those of the digital cameras 121 and 122.
  • the NAS 120 collects and stores a large number of various video contents from other electronic devices 121, 122, 130,..., 160 in the system 100.
  • the NAS 120 has a function of generating a digest of each moving image content as a function for supporting the selection.
  • the part of the NAS 120 that realizes this function is referred to as a “digest generation device”.
  • the digest generation apparatus automatically generates a digest particularly suited to the user's preference from each moving image content.
  • the digest generation apparatus first acquires interest information about the user through the router 110 from each electronic device in the system 100 including the NAS 120.
  • “Interest information” refers to information that a specific user views by operating each electronic device. If there are multiple users, the interest information is collected for each user. For example, when a user operates the recording device 130 or the PC 150 to make a reservation recording of a broadcast program, program information of the broadcast program is acquired as interest information from the recording device 130 or the like. When the user operates the PC 150 or the mobile device 160 to search for information from the Internet, the information or a keyword used for the search is acquired from the PC 150 or the like as interest information.
  • the Web page is acquired as interest information from the display device 140 or the like.
  • the user views the video content distributed from the broadcasting station or downloaded from the NAS 120 by operating the display device 140, 141, PC 150, or mobile device 160, the title, program information, and audio included in the video content Data or caption data is acquired from the NAS 120 as interest information.
  • the digest generation apparatus analyzes the voice or character string represented by the acquired interest information, and sets a set of words included therein as a reference word set.
  • the “word” means an independent word whose meaning is understood independently such as a noun, a verb, etc., and excludes an ancillary word whose meaning is not understood by itself, that is, a particle and an auxiliary verb.
  • the set of reference words can be regarded as a set of keywords representing the user's preference in the sense of “a set of words included in information in which the user has expressed interest”.
  • the digest generation apparatus calculates the similarity of the feature vectors between the different sections, and determines whether or not the sections should be classified into the same scene based on the similarity.
  • a plurality of scenes are constructed from the moving image content. Specifically, the combination of the display period of each scene and the number of appearances of each word in the audio or subtitle represented by the scene is recorded as scene information related to the moving image content.
  • both audio data and subtitle data are significantly smaller than video data. Therefore, the process of comparing the feature vector of each section of the moving image content with the number of appearances of each word in the audio or subtitles is significantly less than the process of comparing with the feature quantity of the video. Therefore, even if a large number of moving image contents are stored in the NAS 120, this digest generation device can keep the time required for processing that configures a scene from each moving image content within a practical range.
  • audio and subtitles that flow along with video often express the characteristics of the video in words, so the feature vector composed of the number of appearances of each word in the audio or subtitle accurately reflects the video characteristics. The possibility is high. As a result, the digest generating apparatus can automatically, accurately and quickly construct a plurality of scenes having different characteristics from each moving image content.
  • the NAS 120 In response to a request from the display device 140 or the like, the NAS 120 generates digests as a list of stored video content and provides them to the requesting electronic device. For example, the electronic device displays these digests as thumbnails on the screen, and allows the user to select video content to be viewed.
  • the type of digest can be narrowed down to the one that matches the user's preference, so the number of digests to be checked by the user is generally that of the moving image content. Much less than the number.
  • any digest is composed of scenes that match the user's preference, the user can check them relatively quickly. As a result, the user can quickly select the moving image content to be viewed.
  • FIG. 2 is a block diagram showing a hardware configuration of the home video server, that is, the NAS 120 in the system 100.
  • the NAS 120 includes a digest generation device 200, a storage unit 210, an external interface 220, and connectors 221 and 222.
  • the digest generation device 200 includes a CPU 201, a memory unit 202, a hardware decoder 203, a network interface 204, a storage unit interface 205, and a bus 206.
  • the digest generation device 200 and the external interface 220 are mounted on a single integrated circuit such as an LSI.
  • the hardware decoder 203 is an integrated circuit specialized for AV data decoding processing, and particularly has an accelerator function for the decoding processing.
  • the network interface 204 is an interface compliant with IEEE 802.3 or IEEE 802.11, and realizes data communication between the router 110 and the bus 206 in a wired or wireless manner.
  • the storage unit interface 205 is an interface conforming to ATA or SCSI, and realizes data communication between the bus 206 and the storage unit 210.
  • the bus 206 is a combination of wiring and a chip set for connecting the hardware elements in the NAS 120, and is used as a common transmission path for data communication between these elements.
  • the external interface 220 is an interface compliant with DV, HDMI (registered trademark), USB, IEEE 1394, Bluetooth (registered trademark) or the like, and relays AV data from an external electronic device to the bus 206 through connectors 221 and 222.
  • the connectors 221 and 222 are connection terminals conforming to the same standard as the external interface 220.
  • the digital cameras 121 and 122 can be connected to the connectors 221 and 222.
  • the moving image database 301 and the interest information database 302 are realized by the storage unit 210 shown in FIG.
  • moving image contents are registered from an external moving image source VSR through the LAN or the external interface 220.
  • the moving image source VSR in the system 100 shown in FIG. 1 includes digital cameras 121 and 122, a recording device 130, display devices 140 and 141, a PC 150, and a mobile device 160.
  • scene information related to the moving image contents is registered by the section classification unit 311.
  • interest information database 302 interest information about the user is registered from an external interest information source ITS through the LAN.
  • Interest information sources ITS in the system 100 include a recording device 130, display devices 140 and 141, a PC 150, and a mobile device 160.
  • a reference word table for each user is registered by the interest information collection unit 315.
  • the “reference word table” for each user is a list of words belonging to a set of reference words for the user.
  • the video management unit 303 uses the network interface 204 to detect a video content upload request sent from the external video source VSR to the NAS 120.
  • the moving picture management unit 303 also uses the external interface 220 to detect the connection of the digital cameras 121 and 122 to the connectors 221 and 222. In response to these detections, the video management unit 303 establishes a connection with the video source VSR, acquires video content from the video source VSR, and registers it in the video database 301.
  • the moving picture management unit 303 uses the network interface 204 to detect a download request for moving picture content sent from the external client CLT to the NAS 120.
  • the client CLT in the system 100 includes a recording device 130, display devices 140 and 141, a PC 150, and a mobile device 160.
  • the video management unit 303 establishes a connection with the client CLT in response to the detection of the download request, searches the video database 301 for the video content requested by the client CLT, and supplies it to the client CLT.
  • the interest information collection unit 315 uses the network interface 204 to detect the interest information source ITS connected to the LAN. Accordingly, every time a new interest information source ITS is connected to the LAN, the interest information collection unit 315 requests interest information about each user from the interest information source ITS. The interest information collection unit 315 also periodically requests interest information about each user from the interest information source ITS already connected to the LAN. In addition, the interest information collection unit 315 requests the interest information regarding the user of the client CLT from the movie management unit 303 every time the movie management unit 303 causes the client CLT to download the movie content from the movie database 301. In response to these requests, the interest information source ITS and the moving image management unit 303 return the latest history of interest information.
  • the recording reservation history is returned from the recording device 130 and the PC 150, and the search history on the Internet, the browsing history of the Web page, and the viewing of the broadcast program are displayed from the display devices 140, 141, the PC 150, and the mobile device 160.
  • a history is returned, and a moving image content viewing history is returned from the moving image management unit 303.
  • the interest information collection unit 315 acquires a history of the interest information and analyzes a voice or a character string represented by each interest information. Thereby, a word is extracted from those voices or character strings.
  • the interest information collection unit 315 classifies the extracted word group for each user, and additionally writes the extracted word group in the reference word table registered in the interest information database 302 for the corresponding user. If the reference word table for the corresponding user is not registered, the interest information collection unit 315 newly creates a reference word table for the user and registers it in the interest information database 302. Thus, the reference word table for each user is updated or set.
  • the section classification unit 311 configures a plurality of scenes from each video content registered in the video database 301 as follows. First, the section classification unit 311 reads moving image contents one by one from the moving image database 301 using the storage unit interface 205, and the hardware decoder 203 decodes audio data or subtitle data from each moving image content. Next, the section classification unit 311 converts voice data into text data or extracts text data from subtitle data and analyzes the text data. Thereby, words are extracted from the character string represented by the text data, and the number of appearances for each word in each section of the moving image content is obtained. Subsequently, the section classification unit 311 constructs a feature vector of the section from the number of appearances.
  • This feature vector is a vector whose component is the number of appearances of each word in the section, and can be regarded as belonging to a space having a dimension equal to the total number of words appearing in the moving image content (hereinafter referred to as feature space). .
  • the section classification unit 311 further calculates the similarity of feature vectors between different sections, and determines whether or not these sections should be classified into the same scene based on the similarity. Specifically, the cosine distance between feature vectors in different sections is calculated as the similarity, and if the similarity is equal to or greater than the allowable lower limit, the different sections are classified into the same scene. In this way, the section classification unit 311 basically determines whether or not all pairs of adjacent sections in one moving image content should be classified into the same scene.
  • the feature vectors are basically aligned in substantially the same direction in each pair of adjacent sections. That is, the difference in the scene accurately reflects the difference in the characteristics of the audio or subtitles between them.
  • the section classification unit 311 creates scene information related to the moving image content from the combination of the display period of each scene in each moving image content and the number of appearances of each voice in the audio or subtitle represented by the scene. That is, the scene information represents the start time and end time of the display period of each scene and the synthesis of feature vectors in that scene.
  • the section classification unit 311 uses the storage unit interface 205 to register scene information regarding each video content in the video database 301.
  • the user identification unit 314 uses the network interface 204 to detect a download request for a list of video content sent from the external client CLT to the NAS 120. In response to the detection, the user identification unit 314 authenticates the client CLT. When the authentication is successful, the user identification unit 314 requests user identification information from the client CLT. Thereafter, when the user identification information arrives from the client CLT, the user identification unit 314 authenticates the user. If the authentication is successful, the user identification unit 314 passes the identification information between the client CLT and the user to the digest extraction unit 312.
  • the digest extraction unit 312 receives the identification information between the client CLT and the user from the user identification unit 314, and uses the storage unit interface 205 accordingly to search the interest information database 302 for a reference word table related to the user. Next, the digest extraction unit 312 selects from the video content registered in the video database 301 what can be displayed by the client CLT indicated by the received identification information, and searches the video database 301 for scene information related thereto. To do. For example, when the identification information of the client CLT indicates the display device 140, a moving image content of full HD (resolution 1920 ⁇ 1080) is selected, and when it indicates the smartphone 160, qHD (resolution 960 ⁇ 540) or HD (resolution 1280) ⁇ 720) moving image content is selected.
  • 3D video moving image content is selected.
  • 2D video moving image content is selected.
  • a list of types of moving image content that can be displayed by each client CLT is stored in advance in the digest extraction unit 312 or the moving image database 301.
  • the moving image database 301 may be registered with a list of client CLTs that can display moving image content.
  • the digest extraction unit 312 uses these lists for selection of moving image content.
  • the digest extraction unit 312 extracts words appearing in the audio or subtitles represented by each scene from the scene information regarding each video content, and collates with words registered in the reference word table. Thereby, the digest extraction unit 312 obtains the number of words belonging to the common part between the set of words appearing in the audio or subtitles represented by each scene and the set of reference words, and the similarity between the sets related to the scene is calculated. Set the evaluation value to the number of words. The digest extraction unit 312 further compares the evaluation value related to each scene with the above threshold value, and identifies a scene whose evaluation value is equal to or greater than the threshold value.
  • the digest extraction unit 312 then reads each moving image content from the moving image database 301 using the hardware decoder 203, extracts the specified scene from the moving image content, and decodes it. When a plurality of scenes are extracted from one moving image content, the digest extraction unit 312 concatenates these scenes into one digest. Thus, the digest extraction unit 312 generates one digest from each video content registered in the video database 301 and passes it to the digest presentation unit 313.
  • the digest extracting unit 312 also notifies the digest presenting unit 313 of the highest evaluation value and the most frequently occurring word of each digest together with the identification information of the client CLT.
  • the “highest evaluation value” of each digest refers to the highest similarity evaluation value among the scenes constituting the digest
  • the “most frequent word” refers to the highest evaluation value of similarity.
  • words belonging to a common part of a set of words appearing in a sound or subtitles represented by a scene equal to and a set of reference words those appearing most frequently in the sound or subtitles.
  • the digest presentation unit 313 receives the digest, the highest evaluation value, and the most frequently used word from the digest extraction unit 312 and creates list information of moving image content from the data. Specifically, the digest presentation unit 313 encodes the digests, incorporates the highest evaluation value, the most frequent word, and the identification information of the moving image content into the encoded data in a predetermined format, and is thus obtained. Data is defined as the list information.
  • the predetermined format is the transmission source of the download request detected by the user identification unit 314, that is, the client CLT indicated by the identification information received from the digest extraction unit 312 from the list information, the encoded data, It is selected so that the correspondence between parameters to be incorporated can be grasped.
  • the user identification unit 314 causes the client CLT to specify the predetermined format and the encoding format of the digest through the download request itself or the protocol used when transmitting the request, and data indicating the specified format. Incorporated into the identification information of the client CLT.
  • the digest presenting unit 313 adopts the format indicated by the data for creating the list information.
  • the digest presentation unit 313 further uses the network interface 204 to transmit the list information to the client CLT.
  • the section classification unit 311 configures a scene from the moving image content using the fact that the moving image content includes audio data or caption data. Therefore, it is easier to understand the details of the section classification unit 311 if the data structure of the moving image content to be processed is determined before the details of the section classification unit 311 are described.
  • stream data representing video and audio is multiplexed, and in many cases, stream data representing subtitles is also multiplexed.
  • the system 100 shown in FIG. 1 supports the main multiplexing formats of moving image content.
  • a typical multiplexing format is the MPEG-2 transport stream (TS) format.
  • TS transport stream
  • this multiplexing format is adopted in current digital broadcasting.
  • the section classification unit 311 it is assumed for the sake of convenience that the moving image content is in this multiplexed format. It will be easy for those skilled in the art to change the description so that it applies to moving image contents of other multiplexed formats such as MPEG-2 program stream format.
  • FIG. 4 is a schematic diagram showing the data structure of moving image content adopting the MPEG-2 TS format.
  • a plurality of stream data called elementary streams are usually multiplexed to form one stream file.
  • a video stream 401, an audio stream 402, a presentation graphics (PG) stream 403, and a text subtitle stream 804 are multiplexed on the moving image content 400.
  • a video stream 401 is an elementary stream representing a video, and is MPEG-2, H.264. It is compressed by a method such as H.264 / MPEG-4 AVC or SMPTE VC-1.
  • the audio stream 402 is an elementary stream representing sound, and is AC-3, Dolby Digital Plus (Dolby Digital Plus: “Dolby Digital” is a registered trademark), MLP (Meridian Lossless Packing: registered trademark), DTS. (Digital Theater System: registered trademark), DTS-HD, or linear PCM (Pulse Code Modulation).
  • the PG stream 403 is an elementary stream representing graphics video. The graphics video should be displayed so as to be superimposed on the video represented by the video stream 401, such as graphics subtitles.
  • the text subtitle stream 404 is an elementary stream that represents subtitles as text character strings.
  • the “text character string” is a data string in which each character of the caption is represented by a specific code (character code).
  • the video stream 401 is composed of a combination of the audio stream 402 and the PG stream 403 to form one stream file.
  • the text subtitle stream 404 alone constitutes one stream file.
  • up to 32 elementary streams other than video streams can be multiplexed for each type in one stream file.
  • the audio stream may include a language representing two or more languages, and may include a sub-audio in addition to the main audio.
  • a unique packet identifier is assigned to each elementary stream 401,.
  • PID packet identifier
  • each of the video stream 401, the audio stream 402, the PG stream 403, and the text subtitle stream 404 is assigned one of the hexadecimal values 0x1011, 0x1100-0x111F, 0x1200-0x121F, and 0x1800 as the PID. It has been.
  • FIG. 4 further schematically shows the arrangement of the elementary streams 401, 402, 403, 404 in the moving image content 400.
  • the video stream 401 is first stored in one PES (Packetized Elementary Stream) packet 411 for each picture 401A.
  • a PTS Presentation Time-Stamp
  • the PTS is a parameter that indicates to the decoder the timing at which the picture stored in the packet should be written to the frame buffer after decoding.
  • each PES packet 411 is generally divided into a plurality of parts, and each part is stored in a different TS packet 421.
  • the TS packet 421 is a packet having a length of 188 bytes, including a header in the first 4 bytes and a part of the PES packet in the remaining 184 bytes.
  • the PID of the video stream 401 stored in the packet is stored.
  • the audio stream 402, the PG stream 403, and the text subtitle stream 404 are respectively stored in PES packets 412, 413, and 414 in appropriate data units, and each PES packet is stored in a plurality of TS packets 422, 423, and 424. Stored.
  • a plurality of TS packets 421,..., 424 obtained from each elementary stream 401,..., 404 are multiplexed in a series of packet sequences 400 by time division.
  • the TS packet sequence 400 includes a PAT (Program Association Table) 431, a PMT (Program Map Table) 432, and a PCR (in addition to the TS packets 421,..., 424 storing elementary streams.
  • Program TS Clock Reference) 433 is stored.
  • the PMT 432 is assigned to each moving picture content when a series of TS packet sequences 400 includes a plurality of moving picture contents, and a list of PIDs of the elementary streams constituting the moving picture content and attribute information thereof, and the PCR 433 Indicates the PID.
  • the attribute information of the elementary stream includes, for example, identification information of the codec used for compression of the elementary stream, a frame rate, and an aspect ratio.
  • the PAT 431 indicates the PID of each PMT 432 included in the series of TS packet sequences 400. PAT431 itself has a PID of zero.
  • the PCR 433 is a parameter indicating an STC (System Time Clock) value for the decoder, and is stored in a single TS packet. “STC” refers to a clock used by the decoder to measure the timing indicated by the PTS.
  • STC System Time Clock
  • the PCR 433 is inserted into the TS packet sequence 400 of the moving image content at predetermined time intervals, for example, 100 msec intervals. Each time the decoder detects the PCR 433, it aligns the STC value with the value indicated by the PCR 433.
  • FIG. 5 is a schematic diagram showing the data structure of the text subtitle stream.
  • the text subtitle stream 500 includes a one-dimensional array of text data entries 510.
  • Each text data entry 510 is composed of a pair of style information 511 and text information 512.
  • Text information 512 indicates a text character string representing a subtitle to be displayed superimposed on one picture.
  • the style information 511 indicates information necessary for converting the text character string into video data of the character string.
  • the style information 511 includes a PTS 501, a display position 502, a font ID 503, a display style 504, and a font size 505.
  • the PTS 501 indicates to the decoder the timing at which video data of a character string converted from a text character string should be written to the frame buffer.
  • a display position 502 indicates a position on the screen where a character string represented by the video data is to be displayed.
  • a font ID 503 indicates identification information of a font set to be used when the text character string is converted into video data of the character string.
  • a display style 504 indicates a font when a character string represented by the video data is displayed on the screen.
  • the font size 505 indicates the size when the character string is displayed on the screen.
  • FIG. 6 is a functional block diagram of the section classification unit 311.
  • the section classification unit 311 includes a PID filter 610, an audio decoder 620, a text subtitle decoder 630, an audio recognition unit 640, a feature vector configuration unit 650, and a scene boundary setting unit 660.
  • the PID filter 610 and the two types of decoders 620 and 630 are mounted on the hardware decoder 203, and the other functional units 640, 650, and 660 are realized by the CPU 201 as software.
  • the PID filter 610 reads the PID of the PMT 432 from the PAT 431, extracts a TS packet including the PID in the header from the TS packet sequence, and restores the PMT 432 therefrom. Subsequently, the PID filter 610 reads out the PID of the audio stream and the PID of the text subtitle stream from the PMT 432, extracts TS packets including each PID in the header from the TS packet sequence, and the elementary stream corresponding to the PID.
  • TS packet with a PID of 0x1100-0x111F is transferred to the audio decoder 620
  • a TS packet with a PID of 0x1800 is transferred to the text subtitle decoder 630.
  • the audio decoder 620 includes a transport stream buffer (TB) 621, a multiplexing buffer (MB) 622, an elementary stream buffer (EB). Stream Buffer) 623 and a compressed audio decoder (DEC) 624.
  • TB transport stream buffer
  • MB multiplexing buffer
  • EB elementary stream buffer
  • DEC compressed audio decoder
  • Each of TB621, MB622, and EB623 is a buffer memory, and each uses one area of a memory element incorporated in the audio decoder 620.
  • the TB 621 stores the TS packet received from the PID filter 610 as it is.
  • the MB 622 removes the header from the TS packet stored in the TB 621 and restores and stores the PES packet from the remaining data.
  • the EB 623 extracts and stores the compressed audio data and its PTS from the PES packet stored in the MB 622.
  • the DEC 624 is a hardware decoder specialized for decoding compressed audio data.
  • the DEC 624 specifies the compression encoding method and the attribute of the audio stream from the TS packet, and decodes the compressed audio data stored in the MB 622 by a method suitable for them.
  • the DEC 624 further transfers the decoded non-compressed voice data to the voice recognition unit 640 together with the PTS.
  • the voice recognition unit 640 analyzes the uncompressed voice data transferred from the voice decoder 620 and recognizes words (here, both independent words and attached words) included in the voice indicated by the voice data. Specifically, the voice recognition unit 640 examines the frequency spectrum of the voice indicated by the uncompressed voice data, and is statistically recognized as “a pattern indicating a predetermined phoneme sequence” from the temporal change pattern. Find the part. This phoneme string constitutes a voice representing a specific word. Therefore, if a pattern indicating the phoneme string is detected, it can be considered that the voice indicated by the voice data includes the specific word. The voice recognition unit 640 further passes text data representing the recognized word to the feature vector construction unit 650 together with the PTS.
  • words here, both independent words and attached words
  • the text subtitle decoder 630 removes the header from each TS packet received from the PID filter 610 and restores the text data entry 510 from the remaining data.
  • the text subtitle decoder 630 further reads a PTS from the style information 511 in the entry 510, reads a text character string representing a subtitle from the text information 512, and sets a pair of the PTS and the text character string as a feature vector configuration unit Pass to 650.
  • the feature vector construction unit 650 uses the PTS received from each of the speech recognition unit 640 and the text subtitle decoder 630 to specify the section of the moving image content to which each of the text data received together with the PTS.
  • the feature vector construction unit 650 performs a morphological analysis on the (natural language) character string represented by the text data belonging to each section of the moving image content, and sets the independent words, especially nouns as “words” from the character strings. Extract.
  • the feature vector construction unit 650 obtains the number of appearances for each word in each section of the moving image content.
  • the feature vector construction unit 650 constructs a feature vector of the section from the number of appearances.
  • any section of the moving image content includes at least audio data.
  • a feature vector is configured for any section of the moving image content.
  • the feature vector construction unit 650 constructs a feature vector for all sections of the moving image content, and then passes the feature vector of each section to the scene boundary setting unit 660 together with the PTS of the boundary of the section.
  • the scene boundary setting unit 660 has a capability of calculating a cosine distance between feature vectors in these sections as the similarity of the feature vectors between different sections.
  • the feature vector FV [j] (w 1 [j], w 2 [j],..., W Nwd [j]) of the j-th section (character j is an integer equal to or greater than 1 ).
  • the dimension Nwd of the feature space is equal to the total number of words appearing in the moving image content.
  • the i-th component (character i is an integer not less than 1 and not more than a constant Nwd) of each feature vector FV [j], FV [j + k] is represented by w i [j], w i [j + k] The number of times the i-th word appearing in the video content appears in the j-th and (j + k) -th sections.
  • the similarity SML (j, j + k) is not less than ⁇ 1 and not more than +1, and the closer to the maximum value 1, the two feature vectors FV [j] and FV [j + k] Is close in direction. That is, in the j-th and (j + k) -th section, the distribution pattern of words appearing in the audio or subtitle is similar. In that sense, it can be said that “the higher the similarity SML (j, j + k), the more similar the features in both sections”.
  • the scene boundary setting unit 660 determines whether or not these sections should be classified into the same scene based on the similarity of feature vectors between different sections. Specifically, the scene boundary setting unit 660 calculates the similarity of feature vectors between the next section and the next section in order from the head section, and compares it with the allowable lower limit. If the degree of similarity is equal to or greater than the allowable lower limit, it can be regarded that “the two sections are sufficiently similar in characteristics”. Accordingly, when the similarity is equal to or greater than the allowable lower limit, the scene boundary setting unit 660 classifies these two sections into the same scene and repeats the above processing for the next section.
  • the j-th section and the section where the audio or subtitle characteristics are not very similar are the (j + 1) -th section. It can be seen that only a number k ⁇ 1, which is smaller than the constant GP, continues from the interval.
  • the constant GP is set in advance so as to satisfy the following condition: “If a section having different audio or subtitle characteristics from the immediately preceding section is less than the constant GP, The change of the feature in the continuous section is only temporary, and after that continuous section, it can be expected that a section similar to the previous section will continue again.
  • the scene boundary setting unit 660 Classifies the jth to (j + k) th section into the same scene, and compares the feature vector similarity between the section and the next section in order from the (j + k) th section and the allowable lower limit. To resume.
  • the scene boundary setting unit 660 sets a scene boundary between the jth and (j + 1) th sections. After that, the scene boundary setting unit 660 restarts the comparison between the feature vector similarity and the allowable lower limit between the section and the next section in order from the (j + 1) th section.
  • the scene boundary setting unit 660 performs the above processing for all sections of the video content. As a result, a plurality of scenes are constructed from the moving image content. In each scene, the feature vectors are aligned in almost the same direction, and even if a portion whose feature vector direction is significantly different from that direction is included, the length of the entire section is smaller than the constant GP. It is only continuous. On the other hand, the direction of the feature vector differs greatly between different scenes. Thus, the difference in the scene accurately reflects the difference in the characteristics of the audio or subtitles between them.
  • the scene boundary setting unit 660 After composing a plurality of scenes from each video content, the scene boundary setting unit 660 creates scene information related to the video content from the display period of each scene and the number of appearances by word in the audio or subtitles represented by the scene To do. Specifically, the scene boundary setting unit 660 obtains a PTS representing each of the start time and end time of the display period of each scene based on the PTS of the boundary of each section received from the feature vector configuration unit 650, In addition, the synthesis of the feature vector is obtained for the entire section included in the scene, and the obtained value is incorporated into the scene information. Thereafter, the scene boundary setting unit 660 registers scene information regarding each moving image content in the moving image database 301.
  • FIG. 7 is a flowchart of processing by the section classification unit 311. This process is started when the moving image management unit 303 registers new moving image content in the moving image database 301.
  • step S701 the section classification unit 311 selects a new moving image content as a processing target, and transfers the TS packet sequence from the moving image database 301 to the PID filter 610.
  • the PID filter 610 first detects the PAT from the TS packet sequence, and then detects the PMT using the PID indicated by the PAT.
  • step S702 the PID filter 610 extracts TS packets of the text subtitle stream from the TS packet sequence to be processed, and sends these TS packets to the text subtitle decoder 630.
  • the text subtitle decoder 630 restores the text data entry 510 from these TS packets, reads the PTS and the text character string from them, and passes them to the feature vector construction unit 650. Thereafter, the process proceeds to step S703.
  • step S703 the section classification unit 311 searches for a section not including subtitles from the video content to be processed by searching for discontinuous portions from a series of PTSs read by the text subtitle decoder 630. . If the section is detected, the process proceeds to step S704. If not detected, the process proceeds to step S706.
  • step S704 at least some sections of the moving image content to be processed do not include subtitles.
  • the section classification unit 311 causes the PID filter 610 to extract audio stream TS packets from the TS packet sequence to be processed. Those TS packets are sent from the PID filter 610 to the audio decoder 620.
  • the audio decoder 620 first restores the compressed audio data and its PTS from those TS packets.
  • the audio decoder 620 decodes at least one of the compressed audio data belonging to a section not including subtitles using the restored PTS.
  • the decoded uncompressed audio data is transferred to the audio recognition unit 640 together with the PTS. Thereafter, the process proceeds to step S705.
  • step S705 the voice recognition unit 640 recognizes a word included in the voice represented by the uncompressed voice data.
  • the voice recognition unit 640 further passes text data representing the recognized word to the feature vector construction unit 650 together with the PTS. In this way, audio data is converted into text for a section that does not include subtitles in the moving image content to be processed. Thereafter, the process proceeds to step S706.
  • step S706 the feature vector configuration unit 650 uses PTS to divide the text data into sections of moving image content. Thereafter, the process proceeds to step S707.
  • the process of dividing the text data into sections is specifically executed as follows.
  • the feature vector construction unit 650 For speech, the feature vector construction unit 650 first determines the time position where the phoneme sequence recognized as each word appears in step S705 in the display period of the “section not including subtitles” specified in step S703. Represented by the value of. Next, the feature vector construction unit 650 identifies the section to which the text data representing the word belongs by comparing the STC value with the PTS representing the boundary between the display periods of each section.
  • the feature vector construction unit 650 For the subtitles, the feature vector construction unit 650 first calculates the display period of the subtitles represented by each text character string from the PTS included in the same text data entry 510 as that text character string. Next, the feature vector construction unit 650 adds the length of the subtitle display period represented by each successive text character string in order from the first text character string. When the obtained sum reaches the display time per section, the feature vector construction unit 650 concatenates these continuous text character strings into one and separates them from the remaining text character strings. By repeating the above operations in order from the beginning of the remaining text character strings, the feature vector construction unit 650 divides all text character strings into sections.
  • step S707 the feature vector construction unit 650 uses morphological analysis to extract words from character strings represented by text data belonging to each section of the moving image content to be processed. At the same time, the feature vector construction unit 650 obtains the number of appearances for each word in each section. Thereafter, the process proceeds to step S708.
  • step S708 the feature vector construction unit 650 constructs the feature vector of each section of the moving image content to be processed from the number of appearances for each word in the section. Since each section includes at least audio data, feature vectors are configured for all sections.
  • the feature vector construction unit 650 passes the feature vector of each section to the scene boundary setting section 660 together with the PTS of the boundary of the section. Thereafter, the process proceeds to step S709.
  • step S709 the scene boundary setting unit 660 first calculates the feature vector similarity SML (j, j + 1) between two adjacent sections using equation (1).
  • the scene boundary setting unit 660 compares the similarity SML (j, j + 1) with the allowable lower limit, and if the similarity SML (j, j + 1) is greater than or equal to the allowable lower limit, Classify two sections into the same scene.
  • the scene boundary setting unit 660 sequentially starts from the (j + 2) th section between the section and the jth section. It repeats that the similarity of the feature vector is further calculated and compared with the allowable lower limit.
  • the boundary setting unit 660 classifies these continuous sections into the same scene as the j-th section. In any section from (j + 1) th to (j + GP) th, if the similarity SML (j,.) Of the feature vector with the jth section is less than the allowable lower limit, the scene boundary setting unit 660 determines that the jth ( The boundary of the scene is set between the j + 1) th section. In this way, the section classification unit 311 configures a plurality of scenes from the moving image content to be processed, and ends the processing.
  • FIG. 8 is a schematic diagram showing processing in which the section classification unit 311 extracts words from the audio stream.
  • the entire display period of the frame sequence FRS reproduced from the video stream includes display periods SC1, SC2,... For each section of the moving image content at a constant time interval.
  • the audio SND represented by the audio stream is reproduced in synchronization with the reproduction of the frame sequence FRS, and generally changes continuously across the boundary between the display periods SC1 and SC2 of adjacent sections.
  • the section classification unit 311 represents the temporal position of the phoneme string of each word included in the speech SND with STC values WT1, WT2,..., And the PTS representing the boundary between the display periods of each section. To identify the section to which the word belongs. In the example of FIG.
  • STC values WT1 and WT2 representing the beginning positions of the phoneme strings of the words “7 o'clock” and “news” are end times from the first PTSP0 representing the start time of the display period SC1 of the first section. Belongs to the range up to the second PTSP1 representing those, so those words are classified into the first section.
  • the phoneme string of the word “Shrine” straddles the boundary between the display period SC1 of the first section and the display period SC2 of the second section, but the STC value WT5 representing the head position is smaller than the second PTSP1. Therefore, the word “Shrine” is classified into the first section. Since the STC value WT6 indicating the head position of the phoneme string of the word “main conference” is larger than the second PTSP1, the word “main conference” is classified into the second section.
  • FIG. 9 is a flowchart of the process of connecting the text character string representing the caption for each section of the moving image content in step S706 shown in FIG. This process is started when the feature vector construction unit 650 receives a text character string from the text subtitle decoder 630.
  • step S901 the feature vector configuration unit 650 initializes the value of the integer value variable j to 1. Thereafter, the process proceeds to step S902.
  • step S902 the feature vector construction unit 650 calculates the display period for the jth text string received from the text subtitle decoder 630 from the PTS received together with the text string.
  • the “display period for the text character string” refers to a period during which the subtitles represented by the text character string are displayed on the screen. Specifically, a PTS pair representing the start time and end time of the period. Defined by The PTS pair representing the display period for the jth text character string is substituted into the variable DSP. Thereafter, the process proceeds to step S903.
  • step S903 the feature vector construction unit 650 checks whether or not there is a (j + 1) th text string received from the text subtitle decoder 630. If so, the process proceeds to step S904; otherwise, the process proceeds to step S909.
  • step S904 the feature vector configuration unit 650 compares the length of the display period DSP with a reference value.
  • the length of the display period DSP refers to the time length from the start time to the end time of the display period, and is specifically defined by the difference between the two PTSs represented by the variable DSP.
  • the reference value a display time per section of the moving image content, for example, 30 seconds, 1 minute, 5 minutes, or 10 minutes is adopted. If the length of the display period DSP is smaller than the reference value, the process proceeds to step S905. If the display period DSP is longer than the reference value, the process proceeds to step S907.
  • step S905 since the length of the display period DSP has not yet reached the display time per section of the moving image content, the feature vector configuration unit 650 extends the display period DSP by the display period for the next text character string. Try to do. In preparation for this, the feature vector construction unit 650 increases the value of the integer value variable j by one. Thereafter, the process proceeds to step S906.
  • step S906 the feature vector construction unit 650 calculates the display period for the j-th text character string from the PTS received from the text subtitle decoder 630, and extends the display period DSP by that display period. Thereafter, the process is repeated from step S903.
  • step S907 the length of the display period DSP has already reached the display time per section of the moving image content. Therefore, the feature vector construction unit 650 first concatenates a text character string representing a caption displayed on the screen during the display period DSP as a series of text data. Next, the feature vector construction unit 650 specifies one section of the moving image content including a portion representing the video displayed on the screen during the display period DSP, and classifies the connected text data into the section. Thereafter, the process proceeds to step S908.
  • step S908 the feature vector configuration unit 650 increases the value of the integer value variable j by 1. Thereafter, the process is repeated from step S902.
  • the display period DSP includes the display period for the last text character string received from the text subtitle decoder 630 to the feature vector construction unit 650. Therefore, the feature vector construction unit 650 first concatenates a text character string representing a caption displayed on the screen during the display period DSP as a series of text data. Next, the feature vector construction unit 650 specifies one section of the moving image content including a portion representing the video displayed on the screen during the display period DSP, and classifies the connected text data into the section. In this way, all text character strings are divided by section. Thereafter, the process proceeds to step S707.
  • FIG. 10 is a schematic diagram showing processing in which the feature vector construction unit 650 extracts words from a text character string.
  • the feature vector construction unit 650 extracts words from a text character string.
  • moving image content identification information 1001 a PTS pair representing the start time and end time of the display period for each text character string, and the subtitle represented by the text character string Is displayed.
  • the feature vector construction unit 650 first obtains the length of the subtitle display period represented by each text character string from the difference between the PTSs representing the start time and end time of the display period.
  • the feature vector construction unit 650 then adds the length of the subtitle display period represented by each successive text character string to the variable DSP in order from the first text character string.
  • FIG. 10 is a schematic diagram showing processing in which the feature vector construction unit 650 extracts words from a text character string.
  • the feature vector configuration unit 650 concatenates the text character strings representing the subtitle SB1 and the subtitles displayed before the subtitle SB1 into one segment SC42.
  • the feature vector construction unit 650 further classifies the text character string representing the subtitle SB2 to be displayed from the start time “00: 48: 51,890” into the next section SC43, and sets the value of the variable DSP in the display period of the subtitle SB2. Reset to length.
  • FIG. 11 is a list of information on the feature vectors configured by the feature vector configuration unit 650.
  • the information associates the moving image content identification information 1101 with a PTS pair representing the start time and end time of each section and the feature vector of the section.
  • the feature vector of each section has as its component the number of appearances of each word in the voice or caption represented by the section.
  • the feature vector of the first section indicates that the number of occurrences of the words “news”, “hot spring”, and “weather” is “1”, “3”, “2”, and the feature vector of the second section Indicates that the number of occurrences of the words “pension”, “Ministry of Health, Labor and Welfare” and “consumption tax” is “4”, “3”, “2”.
  • FIG. 11B is a schematic diagram geometrically representing the feature vector formed by the feature vector configuration unit 650.
  • the feature vector geometrically extends in one direction in the multidimensional feature space.
  • This feature space has the same dimension as the total number of words appearing in the moving image content, the coordinate axis of each dimension represents one word, and the coordinates on that axis represent the number of appearances of the word.
  • FIG. 11B shows a feature vector of the second section shown in FIG.
  • the feature of the audio or subtitle represented by each section is expressed by “how much and how long the feature vector of the section extends in the feature space”.
  • a section having a feature vector whose direction and length are closer to a feature vector of a specific section can be regarded as having a similar sound or caption feature to that represented by the specific section.
  • the feature vector is used, the feature of the voice or caption represented by each section can be geometrically expressed.
  • FIG. 12 is a flowchart of the process for configuring a scene in step S709 shown in FIG. This process is started when the scene boundary setting unit 660 receives the feature vector of each section from the feature vector configuration unit 650.
  • step S1201 the scene boundary setting unit 660 initializes the value of the integer value variable j to 1. Thereafter, the process proceeds to step S1202.
  • step S1202 the scene boundary setting unit 660 initializes the value of the integer value variable k to 1. Thereafter, the process proceeds to step S1203.
  • step S1203 the scene boundary setting unit 660 checks whether or not there is a (j + k) th section in the moving image content to be processed. If so, the process proceeds to step S1204; otherwise, the process proceeds to step S1211.
  • step S1204 the moving image content to be processed has a (j + k) th section.
  • the scene boundary setting unit 660 uses equation (1) to calculate the cosine distance between the feature vector FV [j] of the jth section and the feature vector FV [j + k] of the (j + k) th section, that is, both The feature vector similarity SML (j, j + k) between sections is calculated. Thereafter, processing proceeds to step S1205.
  • step S1205 the scene boundary setting unit 660 compares the feature vector similarity SML (j, j + k) between the j-th and (j + k) -th sections with an allowable lower limit. If the similarity SML (j, j + k) is greater than or equal to the allowable lower limit, the process proceeds to step S1206, and if less than the allowable lower limit, the process proceeds to step S1208.
  • step S1206 the feature vector similarity SML (j, j + k) between the j-th and (j + k) -th sections is equal to or greater than the allowable lower limit. Accordingly, the scene boundary setting unit 660 classifies the jth to (j + k) th sections into the same scene. Thereafter, the process proceeds to step S1207.
  • step S1209 the feature vector similarity SML (j, j + k) between the j-th and (j + k) -th sections is less than the allowable lower limit, and the value of the variable k is smaller than the constant GP. Accordingly, the scene boundary setting unit 660 increases the value of the variable k by 1, and then repeats the processing from step S1203.
  • step S1210 the feature vector similarity SML (j, j + k) between the j-th and (j + k) -th sections is less than the allowable lower limit, and the value of the variable k is greater than or equal to the constant GP.
  • the sections in which the features of the audio or caption are not very similar to the j-th section are continuous by at least a number equal to the constant GP, counting from the (j + 1) -th section.
  • the scene boundary setting unit 660 sets a scene boundary between the j-th and (j + 1) -th sections. Thereafter, the process proceeds to step S1211.
  • step S1211 the scene boundary setting unit 660 increases the value of the integer value variable j by 1. Thereafter, the process is repeated from step S1202. As a result, the similarity of the feature vector between the section and the next section (if any) and the allowable lower limit are re-started from the section in which the feature of the voice or caption is greatly changed from that of the immediately preceding section. The comparison between is resumed.
  • step S1213 the scene boundary setting unit 660 first obtains a PTS representing each of the start time and end time of the display period of each scene based on the PTS of the boundary of each section received from the feature vector configuration unit 650. Next, the scene boundary setting unit 660 calculates the synthesis of feature vectors over the entire section included in each scene. The scene boundary setting unit 660 creates scene information related to the moving image content to be processed from the pair of PTSs representing the display period of each scene thus obtained and the number of appearances of each word in the audio or subtitles represented by the scene. Registered in the video database 301. Thereafter, the process ends.
  • the feature vector similarity SML (j, j + 1) that is, the cosine distance between the feature vectors FV [j] and FV [j + 1] is calculated and compared with the allowable lower limit Th.
  • the similarity SML (1, 2) between the first section SC1 and the second section SC2 and the similarity SML (2, 3) between the second section SC2 and the third section SC3 are both Since it is equal to or greater than the allowable lower limit Th, the scene boundary setting unit 660 classifies the first section SC1 to the third section SC3 as the first scene SN1. On the other hand, since the similarity SML (3,4) between the third section SC3 and the fourth section SC4 is less than the allowable lower limit Th, the scene boundary setting unit 660 further sequentially starts from the fifth section SC5.
  • the information source monitoring unit 1401 uses the network interface 204 to detect the information source of interest ITS connected to the LAN. Thus, each time a new interest information source ITS is connected to the LAN, the information source monitoring unit 1401 requests interest information regarding each user from the interest information source ITS. The information source monitoring unit 1401 also periodically requests interest information regarding each user from the interest information source ITS already connected to the LAN. In addition, every time the moving image management unit 303 causes the client CLT to download moving image content from the moving image database 301, the information source monitoring unit 1401 requests interest information regarding the user of the client CLT from the moving image management unit 303.
  • the interest information acquisition unit 1402 uses the network interface 204 to acquire the latest history of interest information returned from the interest information source ITS and the video management unit 303 in response to a request from the information source monitoring unit 1401.
  • Examples of the acquired history include a recording reservation history from the recording device 130 or the like; a search history on the Internet from the display device 140 or the like, a web page browsing history, and a broadcast program viewing history; There is a viewing history of video content from.
  • the recording reservation history includes the program information of the broadcast program for which recording reservation has been made, the Internet search history includes the searched information or the keyword used for the search, and the Web page browsing history is the browsing
  • the viewing history of the broadcast program includes the watched broadcast program title, program information, audio data, or caption data.
  • the viewing history of the moving image content includes scene information of the moving image content registered in the moving image database 301.
  • the interest information acquisition unit 1402 further classifies the acquired interest information into character information, AV data, and scene information, passes the character information to the character information analysis unit 1403, passes the AV data to the AV data analysis unit 1404, The scene information is passed to the reference word table management unit 1406.
  • the interest information acquisition unit 1402 identifies the identification information and date / time of the user who viewed the information from each interest information, and notifies the reference word table management unit 1406 of the correspondence between the interest information, the user, and the viewing date / time. To do.
  • step S1505 the information source monitoring unit 1401 detects the download of the moving image content from the moving image database 301, and requests the moving image management unit 303 for interest information regarding the user of the download destination client CLT.
  • the interest information acquisition unit 1402 reads the scene information from the history and passes it to the word table management unit 1406. Thereafter, processing proceeds to step S1506.
  • the text subtitle decoder 1725 includes a text decoder (DEC) 1708 and a bitmap buffer 1709.
  • the DEC 1708 is a hardware decoder specialized for text character string decoding processing and rendering processing, and has an accelerator function for the processing.
  • the DEC 1708 decodes the text data entry from the TS packet group received from the PID filter 1721 and specifies the font set and PTS indicated by the style information.
  • the DEC 1708 uses the font set to convert the text string indicated by the text information in the same text data entry into bitmap data and writes the data to the bitmap buffer 1709.
  • the bitmap buffer 1709 is an area of a memory element built in the text subtitle decoder 1725.
  • the bitmap buffer 1726 transfers the bitmap data to the PG plane memory 1728 at the timing indicated by the PTS. To do.
  • the audio mixer 1729 When the uncompressed audio data received from the audio decoder 1726 includes data representing the secondary audio in addition to the data representing the secondary audio, the audio mixer 1729 performs mixing using the audio data. The audio mixer 1729 further passes the synthesized sound data obtained by the mixing to the scene connection unit 1730.
  • the video plane memory 1727 and the PG plane memory 1728 are both areas of the memory element built in the decoding unit 1720, and can store at least one frame of pixel data, that is, plane data.
  • Plane data refers to a two-dimensional array of pixel data, the number of elements of which is equal to the resolution of one frame (for example, 1920 ⁇ 1080 in HD).
  • Each element of the array, that is, pixel data is composed of a combination of a color coordinate value and an ⁇ value (opacity).
  • the color coordinate value is represented by an RGB value or a YCrCb value.
  • the video decoder 1723 writes an uncompressed picture to generate a video plane.
  • the scene connection unit 1730 accumulates the frames received from the plane addition unit 172A to form a series of frame sequences.
  • the scene concatenation unit 1730 further multiplexes the audio data received from the audio mixer 1729 into the frame sequence to form a digest.
  • the portion representing the video of the display period indicated by the PTS pair received from the similarity evaluation unit 1710 to the decoding unit 1720 that is, the similarity evaluation unit A digest is constructed from one of the scenes identified by 1710. Thereafter, when another scene is extracted from the same moving image content, the scene connecting unit 1730 connects the scene to the digest.
  • step S1805 the similarity evaluation unit 1710 compares the evaluation value of similarity regarding the jth scene with the above threshold value. If the evaluation value is greater than or equal to the threshold value, the process proceeds to step S1806. If the evaluation value is less than the threshold value, the process proceeds to step S1807.
  • step S1807 the similarity evaluation unit 1720 checks whether any unprocessed scenes remain in the scene described in the scene information searched in step S1802. If an unprocessed scene remains, the process proceeds to step S1808, and if not, the process proceeds to step S1809.
  • step S1808 unprocessed scenes remain in the scenes described in the scene information searched in step S1802. Therefore, the similarity evaluation unit 1710 increases the value of the integer value variable j by 1 for the purpose of setting one of the unprocessed scenes as a processing target. Thereafter, the process is repeated from step S1804.
  • step S1809 the processing for all the scenes described in the scene information searched in step S1802 has been completed. Therefore, the similarity evaluation unit 1710 passes all the PTS pairs stored in step S1806 to the decoding unit 1720 together with the moving image content identification information specified in step S1802. The similarity evaluation unit 1710 further selects the highest evaluation value from the evaluation values stored in step S1806, and specifies the most frequently used word stored together with the highest evaluation value. The similarity evaluation unit 1710 notifies the digest presentation unit 313 of the highest evaluation value and the most frequently occurring word together with the identification information of the client CLT received from the user identification unit 314.
  • the most frequent word MFW is displayed below each display area.
  • the most frequent word MFW can be a hint for the user to understand how the digest meets the user's preference.
  • the client CLT can allow the user to use not only the digests DG1 and DG2 themselves, but also their display area positions and the most frequently used words MFW as judgment materials when selecting the video content to be viewed. .
  • FIG. 19B is a schematic diagram showing another example of the layout of the digest displayed on the selection screen of the moving image content to be viewed by one of the clients shown in FIG.
  • digests DG3 and DG4 are displayed as thumbnails on the screen SCN of the client CLT.
  • the size of the display area differs depending on the digest. This is due to the fact that the size of the display area represents the maximum evaluation value. For example, the digest DG3 having the largest display area size has the largest maximum evaluation value, and the digest having the smallest display area size has a smaller maximum evaluation value. Therefore, the more likely a user's eye-catching digest is, the more likely it is to meet the user's preference. In this way, the client CLT can prompt the user to select the video content to be viewed.
  • the home video system is not limited to the electronic device shown in FIG. 1, and various electronic devices such as an optical disk reproduction-only machine, a printer, a scanner, a copier, and a fixed telephone. Equipment and information appliances may be included.
  • the LAN topology may be various types such as a bus type or a tree type using a hub or a LAN switch.
  • the transfer of moving image content between electronic devices may be performed in a state of being recorded on a portable recording medium such as a memory card, other than via a network.
  • the above-described interest information collected by the interest information collection unit 315 is merely an example. Information that can be viewed by the user, such as e-mails sent and received by the user and their attached files, document / audio / video files created / edited by the user, information on directories that manage these files, and information related thereto If the interest information collecting unit 315 can automatically acquire and includes a voice or a character string, it can be used as the interest information.
  • the interest information collection unit 315 may select information that satisfies a predetermined criterion from the collected interest information and use it to create a reference word table. For example, information that is within a predetermined period such as one week or one month from the current time point of view or information that is viewed or searched more than a predetermined threshold is adopted as actual interest information. Is done.
  • the digest generation device 200 and the external interface 220 shown in FIG. 2 may be composed of a plurality of integrated circuits such as LSIs. Furthermore, these integrated circuits may be multichip modules. In that case, since a plurality of chips are sealed in one package in the multichip module, those integrated circuits appear as a single LSI.
  • the digest generation apparatus 200 may be configured by an FPGA (Field Programmable Gate Gate Array) that can be programmed after manufacture, or a reconfigurable processor that can reconfigure connections and settings between internal circuit cells. .
  • the digest generating apparatus 200 shown in FIG. 2 uses a hardware decoder 203 for decoding moving image content.
  • the CPU 201 may construct a software decoder according to an application program and use it for decoding moving image content.
  • the section classification unit 311 determines each section of the video content so that the display time of the video represented by the section is constant. In addition, the section classification unit 311 may determine a part of the moving image content representing a video of a period in which audio or subtitles are continuous as one section. The section classification unit 311 may also divide the section of the moving image content at the point in time when a phrase indicating a topic change appears in the audio or subtitles, such as “next” and “above”.
  • the section classification unit 311 associates the words that appear in the audio or subtitles represented by the moving image content with the dimensions of the feature space on a one-to-one basis.
  • the section classifying unit 311 can add a predetermined number of categories (for example, “politics”, “weather”) to those words (for example, “primary”, “ruling party”, “bill”, “clear”, “rain”, “typhoon”). )),
  • the number of appearances of words for each category is added, and the obtained number of appearances or appearance frequency for each category may be used as a component of the feature vector. In that case, since the dimension of the feature space is limited to the total number of categories, the load on the section classification unit 311 is reduced.
  • the protocol for exchanging data among the digest extraction unit 312, the user identification unit 314, and the client CLT shown in FIG. 3 is not limited to the above, and various other modes can be used. .
  • client CLT or user authentication may be omitted, and a process of encrypting and transmitting moving image content list information may be added.
  • the digest extraction unit 312 evaluates the similarity between a set of words appearing in audio or subtitles represented by one scene and a set of reference words based on the number of words belonging to the common part of both sets. . In that case, the digest extraction unit 312 may weight the reference word according to the number of appearances of the word in the interest information. As a result, the higher the similarity is evaluated, the more the scene in which words that match the reference word with higher weight appear in the audio or subtitles.
  • the display device 140 or the like in the system 100 shown in FIG. 1 uses the digest generated by the digest generation device 200 as a moving image content selection screen.
  • the display device 140 or the like may cause the user to view the digest instead of the moving image content main body. For example, in the case of a news program, it is possible to allow the user to watch only news that meets the user's preference in a shorter time than the original broadcast time.
  • the present invention may be characterized as follows based on the above embodiment.
  • the section classification unit calculates the similarity of the feature vector between two adjacent sections in one video content, compares it with the allowable lower limit, and if the similarity is equal to or higher than the allowable lower limit, Classify into the same group. In that case, in each scene, feature vectors are aligned in substantially the same direction in each pair of adjacent sections. That is, the difference in the scene accurately reflects the difference in the characteristics of the audio or subtitles between them.
  • the similarity of the feature vector between the j-th section (character j represents an integer of 1 or more) and the (j + 1) -th section in one video content is less than the allowable lower limit
  • the similarity of the feature vector between the (j + k) -th section (character k represents an integer of 2 or more and a constant GP or less) and the j-th section is further calculated and allowed. Compare with lower limit. If the calculated similarity reaches the allowable lower limit before the integer k exceeds the threshold value GP, the section classification unit classifies the jth to (j + k) th sections into the same group.
  • the section classification unit separates the jth and (j + 1) th sections into different groups. Classify into: As a result, even if a feature vector is aligned in almost the same direction in each scene and a portion in which the direction of the feature vector is greatly different from that direction is included, the portion is the length of the entire section having a number smaller than the constant GP. It is only continuous. On the other hand, the direction of the feature vector differs greatly between different scenes. Thus, the difference in the scene more accurately reflects the difference in the characteristics of the audio or subtitles between them.
  • the digest extraction unit evaluates the similarity between the set of words appearing in the voice or subtitle represented by each of the plurality of groups and the set of reference words by the number of words belonging to the common part of both sets. The greater the number, the more likely that the features of the audio or subtitle will match the features expressed by the reference word set. Therefore, the digest generation device can automatically and rapidly extract the digest of the moving image content with respect to the reference.
  • the digest generation apparatus may further include an interest information collection unit.
  • the interest information collection unit acquires content viewed by the user by operating the external device or information related to the content from the external device as interest information related to the user, and is included in the voice or character string represented by the interest information.
  • a set of words is set as a reference set of words. For example, when an external device is a device that searches information on a network according to a user's operation, information searched by the device or a keyword used for the search can be used as interest information.
  • the external device is a device that downloads a Web page from the network by causing the user to operate the browser, the Web page downloaded by the device can be used as interest information.
  • the external device When the external device is a device that pre-records a broadcast program in accordance with a user operation, program information of the broadcast program reserved for recording in the device can be used as interest information.
  • the external device When the external device is a device that displays the moving image content on the screen according to the user's operation, the title, program information, audio data, or caption data of the moving image content can be used as the interest information. Since the interest information is the content viewed by the user or information related thereto, the set of words included in the voice or character string represented by the content can be regarded as appropriately expressing the user's preference. Therefore, the digest production
  • this method when the sections of the moving image content are grouped, the number of appearances for each word in the audio or caption is used instead of the video feature. Thereby, this method can make the electronic device automatically, accurately and quickly divide the characteristics of each group. Furthermore, this method selects a group to be extracted as a digest based on the similarity between the set of words appearing in the audio or subtitles and the set of reference words. As a result, this method can cause the electronic device to automatically and rapidly generate a digest of the moving image content with respect to the reference.
  • the digest generation program is a program for causing an electronic device to generate a digest from video content, Configuring a feature vector of the section from the number of appearances of each word in the audio or subtitle represented by each of the plurality of sections included in one video content; Classifying the plurality of sections into a plurality of groups based on the similarity of feature vectors between different sections; Evaluating a similarity between a set of words appearing in audio or subtitles represented by each of the plurality of groups and a set of reference words; and Extracting a group whose evaluated value is equal to or greater than a predetermined threshold from the one video content as a digest; Is executed by the electronic device.
  • the present invention relates to a technology for automatically generating a digest of a moving image content in an electronic device, and as described above, the electronic device recognizes a word appearing in audio or subtitles represented by the moving image content, and the number of appearances is determined for the moving image. Used for grouping content sections. Thus, the present invention is clearly industrially applicable.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 ダイジェスト生成装置は、動画コンテンツからダイジェストを生成するための装置である。区間分類部は、1つの動画コンテンツに含まれる複数の区間のそれぞれが表す音声又は字幕における単語別の出現回数からその区間の特徴ベクトルを構成し、異なる区間の間での特徴ベクトルの類似度に基づいて、複数の区間を複数のグループに分類する。ダイジェスト抽出部は、複数のグループのそれぞれが表す音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性を評価し、評価された値が所定の閾値以上であるグループをダイジェストとして動画コンテンツから抽出する。

Description

ダイジェストを生成するための装置、方法、及びプログラム
 本発明は、動画コンテンツを電子機器に自動的に解析させる技術に関し、特に動画コンテンツのダイジェストを電子機器に自動的に生成させる技術に関する。
 ハードディスク・ビデオ・レコーダ及びパーソナル・コンピュータが各家庭に普及したことにより、放送番組の録画及びインターネットからの動画コンテンツのダウンロードを誰もが手軽に行えるようになっている。また、デジタル・ビデオ・カメラの普及により、オリジナルの動画コンテンツを誰もが容易に作成できるようにもなっている。それらの結果、多様な動画コンテンツが数多く蓄積されているという状況が、いずれの家庭にもごく普通に生じ得る。従って、動画コンテンツの整理が全てユーザの手に委ねられた場合、膨大な数の動画コンテンツをユーザが持て余すという事態が生じかねない。そのような事態の回避を目的として、家庭用電子機器には、ユーザによる動画コンテンツの整理を支援する機能が求められている。
 ユーザによる情報の整理を支援する機能として電子機器が備えるものの1つに、情報の自動解析機能がある。その機能では情報の特徴ベクトルが利用される(例えば、特許文献1、2参照)。情報の「特徴ベクトル」とは、その情報の特徴量を成分とするベクトルをいう。情報の「特徴量」とは、その情報に特徴的な量であり、かつ、その情報から電子機器によって自動的に算定可能な量をいう。例えば、音声データの特徴ベクトルは、その音声データが表す音声に含まれる様々な音素、音節、若しくは単語それぞれの出現頻度、又はその音声のレベル、ピッチ、若しくは周波数分布を成分とする。一方、映像データの特徴ベクトルは、その映像データが表す色座標の色空間における分布(カラー・ヒストグラム)、又はその映像データの自己相関を成分とする。
 マルチメディア・コンテンツの特徴ベクトルは、電子機器がそのコンテンツを自動的に分割する際に利用される。例えば特許文献1に開示された技術は、まず、音声データの一定区間ごとに特徴ベクトルを求める。次に、隣接する区間の間で特徴ベクトルの内積を求め、その内積の値が閾値を下回る場所でその音声データを分割する。こうして、その音声データは特徴の変化に応じて分割されるので、ユーザはその音声データの各部分に、その特徴を表すタグを付けやすい。一方、特許文献2に開示された技術は、まず、ビデオ・データのセグメントごとに特徴ベクトルを求める。次に、特徴ベクトルが類似する一連のセグメント群から1つのシーンを構成する。こうして、そのビデオ・データは、映像の特徴が似ている連続部分ごとに異なるシーンに分割される。従って、ユーザはそのビデオ・データから、所望の特徴を持つシーンを容易に検索できる。
特願2000-259167号公報 特許第4683253号公報
 従来の電子機器の中には、ユーザによる動画コンテンツの選択を支援する機能として、各コンテンツのダイジェストを提示する機能を備えたものがある。動画コンテンツの「ダイジェスト」とは、そのコンテンツが表す映像の冒頭部分等、その映像全体の中から抜粋された映像部分、又はその映像部分を表すデータをいう。従来の電子機器は例えば、ユーザが選択肢の動画コンテンツを識別しやすい環境として、それらのダイジェストがサムネイル表示された画面を提示する。しかし、近年、全番組録画が可能なレコーダの登場、及びスマートフォンの爆発的な普及が、各家庭に蓄積される動画コンテンツの増加のペースを更に加速している。それに伴い、ダイジェストでさえも、ユーザがそれらを隈無くチェックするには多過ぎるようになりつつある。従って、ユーザに、膨大な数のダイジェストの中から、自分の嗜好に合ったものを手早く選択させるための工夫が更に必要である。
 そのような工夫の1つとしては、電子機器に自動的に、動画コンテンツが表す映像の中から、ユーザの嗜好に合った映像をダイジェストとして抽出させることが考えられる。その場合、動画コンテンツの数は膨大であっても、ダイジェストの種類は、ユーザの嗜好に合ったものに絞られるので、ユーザがチェックすべきダイジェストの数は動画コンテンツの数よりも少なくてすむ。また、いずれのダイジェストが表す映像もユーザの嗜好に合っているので、ユーザはそれらの映像を比較的迅速にチェックできる。しかし、映像そのものの特徴でユーザの嗜好を表現するのは難しいので、ユーザの嗜好に合う/合わないの判断基準を映像の特徴ベクトルで設定するのは難しい。また、仮にその基準を映像の特徴ベクトルで設定できたとしても、映像の解析に必要な計算量は一般に大きいので、その基準に合うダイジェストを動画コンテンツから抽出する処理には時間がかかる。従って、動画コンテンツの数又はサイズが膨大であれば、ダイジェストの生成に必要な時間を実用的な範囲に収めることが難しい。
 本発明の目的は上記の課題を解決することにあり、特に、動画コンテンツのダイジェストを自動的に、迅速に、かつ基準に対して的確に生成することのできる装置を提供することにある。
 本発明の1つの観点によるダイジェスト生成装置は、動画コンテンツからダイジェストを生成するための装置であり、区間分類部とダイジェスト抽出部とを備えている。区間分類部は、1つの動画コンテンツに含まれる複数の区間のそれぞれが表す音声又は字幕における単語別の出現回数からその区間の特徴ベクトルを構成し、異なる区間の間での特徴ベクトルの類似度に基づいて、複数の区間を複数のグループに分類する。ダイジェスト抽出部は、複数のグループのそれぞれが表す音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性を評価し、評価された値が所定の閾値以上であるグループをダイジェストとして動画コンテンツから抽出する。
 本発明の上記の観点によるダイジェスト生成装置は動画コンテンツの区間をグループ分けする際、映像の特徴に代えて、音声又は字幕における単語の出現回数を利用する。それにより、この装置は各グループの特徴を自動的に、的確に、かつ迅速に分けることができる。更にこの装置は、ダイジェストとして抽出されるべきグループを、音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性に基づいて選択する。その結果、この装置は動画コンテンツのダイジェストを自動的に、迅速に、かつ基準に対して的確に生成することができる。
本発明の実施形態によるホーム・ビデオ・ネットワーク・システムを示す模式図である。 図1に示されているシステムにおけるホーム・ビデオ・サーバ、すなわちNASのハードウェア構成を示すブロック図である。 図1に示されているシステムにおけるホーム・ビデオ・サーバ、すなわちNASの機能ブロック図である。 MPEG-2 TS形式を採用した動画コンテンツのデータ構造を示す模式図である。 テキスト字幕ストリームのデータ構造を示す模式図である。 図3に示されている区間分類部の機能ブロック図である。 図6に示されている区間分類部による処理のフローチャートである。 図6に示されている区間分類部がオーディオ・ストリームから単語を抽出する処理を示す模式図である。 図7に示されているステップS706において、字幕を表すテキスト文字列を動画コンテンツの区間ごとに連結する処理のフローチャートである。 図6に示されている特徴ベクトル構成部がテキスト文字列から単語を抽出する処理を示す模式図である。 (a)は、図6に示されている特徴ベクトル構成部が構成した特徴ベクトルに関する情報の一覧表である。(b)は、その特徴ベクトルを幾何学的に表す模式図である。 図7に示されているステップS709においてシーンを構成する処理のフローチャートである。 (a)、(b)は、図12に示されている処理によるシーンの構成を示す模式図である。(c)は、図6に示されているシーン境界設定部が作成したシーン情報を示す表である。 図3に示されている関心情報収集部の機能ブロック図である。 図14に示されている関心情報収集部による処理のフローチャートである。 図14に示されている基準単語表管理部によって管理される基準単語表を示す表である。 図3に示されているダイジェスト抽出部の機能ブロック図である。 図17に示されているダイジェスト抽出部による処理のフローチャートである。 (a)、(b)はそれぞれ、図3に示されているクライアントの1つが視聴対象の動画コンテンツの選択画面に表示するダイジェストのレイアウトの一例を示す模式図である。
 以下、本発明の実施形態について、図面を参照しながら説明する。
 [ホーム・ビデオ・ネットワーク・システムの構成]
 図1は、本発明の実施形態によるホーム・ビデオ・ネットワーク・システム100を示す模式図である。図1を参照するに、このシステム100は、ルータ110、ネットワーク・ストレージ(NAS:Network Attached Storage)120、デジタル・スチル・カメラ121、デジタル・ビデオ・カメラ122、録画装置130、表示装置140、141、パーソナル・コンピュータ(PC)150、及びモバイル機器160を含む。
 ルータ110は、システム100内の他の電子機器120、130、…、160と有線LAN(IEEE802.3)又は無線LAN(IEEE802.11)を通して通信する機能、及び、インターネットWWWにWANを通して接続する機能を備えている。ルータ110はそれらの機能を利用して、他の電子機器120、…、160の相互間、及び、それらの電子機器とインターネットWWWとの間でのデータ交換を中継する。
 NAS120は、ハードディスク・ドライブ(HDD)又は半導体メモリ・ドライブ(SSD)等の大容量記憶装置を利用して大量の映像・音声(AV)データを保管する機能、有線LAN又は無線LAN(以下、LANと略す。)を通してルータ110と通信する機能、及び、外部インタフェースを通して別の電子機器から直接、データを取り込む機能を備えている。NAS120はそれらの機能を利用して、システム100内の中心的役割、すなわちホーム・ビデオ・サーバとしての役割を果たす。具体的には、NAS120はルータ110又は外部インタフェースを利用して、システム100内の他の電子機器121、122、130、…、160から様々な動画コンテンツを受け付けて記憶装置に格納する。一方、NAS120はそれらの電子機器からの要求に応じて、記憶装置に保存されている動画コンテンツの一覧として、それらのダイジェストを生成して返信する。その後、それらの電子機器から特定の動画コンテンツのダウンロードを要求された場合、NAS120はその動画コンテンツを記憶装置から検索して要求元の電子機器へ返信する。
 デジタル・スチル・カメラ121とデジタル・ビデオ・カメラ122とは、ユーザの操作に従って静止画(すなわち写真)又は動画(すなわちホームビデオ)を撮影する機能、及び、NAS120の外部インタフェースへAVデータを転送する機能を備えている。各デジタル・カメラ121、122はそれらの機能を利用して、写真の映像データとホームビデオのAVデータとをNAS120へ転送する。
 録画装置130はハードディスク・レコーダ又は光ディスク・レコーダである。録画装置130は、ユーザから録画予約を受け付ける機能、地上デジタル放送波、衛星デジタル放送波、又はケーブル・テレビ放送波(以下、放送波と略す。)を受信してその放送波から録画対象の番組のAVデータを抽出する機能、ハードディスク又は光ディスク等の記録媒体へAVデータを記録する機能、その記録媒体からAVデータを再生する機能、及び、LANを通してルータ110と通信する機能を備えている。録画装置130はそれらの機能を利用して、ユーザに指定された放送番組を予約録画する一方、私的に録画された放送番組又は市販の映画等の動画コンテンツを記録媒体から再生してNAS120へ転送する。
 表示装置140、141は、液晶ディスプレイ、プラズマ・ディスプレイ、又は有機ELディスプレイ等のフラット・パネル・ディスプレイである。表示装置140、141は、放送波を受信して、その放送波から所望の番組の映像を画面に再現し、かつ、その音声を再生する機能、LANを通してルータ110と通信する機能、及び、ブラウザを用いてWebページ又は動画コンテンツを画面に表示する機能を備えている。PC150も同様な機能を備えている。表示装置140、141とPC150とはそれらの機能を利用して、所望の放送番組をリアルタイムでユーザに視聴させ、所望の動画コンテンツをNAS120若しくはインターネットWWWからダウンロードしてユーザに視聴させ、又は、所望の動画コンテンツを録画装置130に記録媒体から再生させてユーザに視聴させる。PC150はその他に、インターネットWWWからダウンロードした動画コンテンツをNAS120へアップロードする。
 モバイル機器160は、スマートフォン等の携帯電話、携帯情報端末、又はタブレット型PCである。モバイル機器160は、携帯電話回線を通してインターネットWWWにアクセスする機能、LANを通してルータ110と通信する機能、ブラウザを用いてWebページ又は動画コンテンツを画面に表示する機能、ワンセグ放送波を受信して、その放送波から所望の番組の映像を画面に再現し、かつ、その音声を再生する機能、及び、デジタル・カメラ121、122と同様な写真・ホームビデオの撮影機能を備えている。モバイル機器160はそれらの機能を利用して、所望の動画コンテンツをNAS120若しくはインターネットWWWからダウンロードしてユーザに視聴させ、所望の放送番組をリアルタイムでユーザに視聴させ、所望の動画コンテンツを録画装置130に記録媒体から再生させてユーザに視聴させ、又は、インターネットWWWからダウンロードした動画コンテンツ若しくは写真・ホームビデオをNAS120へアップロードする。
 [ホーム・ビデオ・サーバの特徴の概要]
 NAS120にはシステム100内の他の電子機器121、122、130、…、160から、多種多様な動画コンテンツが数多く集められて蓄積される。ユーザは、NAS120に保存されている動画コンテンツを表示装置140等に表示させて視聴する場合、NAS120に蓄積された多数の動画コンテンツの中から視聴対象を選択しなければならない。NAS120はその選択を支援する機能として、各動画コンテンツのダイジェストを生成する機能を備えている。以下、NAS120の構成のうち、この機能を実現する部分を「ダイジェスト生成装置」と呼ぶ。本発明の実施形態によるダイジェスト生成装置は、以下に述べるようにして、特にユーザの嗜好に合ったダイジェストを各動画コンテンツから自動的に生成する。
 ダイジェスト生成装置はまず、NAS120を始め、システム100内の各電子機器からルータ110を通してユーザに関する関心情報を取得する。「関心情報」とは、特定のユーザが各電子機器を操作して視聴した情報をいう。ユーザが複数であれば、関心情報はユーザ別に収集される。例えばユーザが録画装置130又はPC150を操作して放送番組を予約録画した場合、その放送番組の番組情報が関心情報として録画装置130等から取得される。ユーザがPC150又はモバイル機器160を操作して情報をインターネットから検索した場合、その情報、又はその検索に用いられたキーワードが関心情報としてPC150等から取得される。ユーザが表示装置140、141、PC150、又はモバイル機器160のブラウザを操作してWebページを閲覧した場合、そのWebページが関心情報として表示装置140等から取得される。ユーザが表示装置140、141、PC150、又はモバイル機器160を操作して、放送局から配信され、又はNAS120からダウンロードされる動画コンテンツを視聴した場合、その動画コンテンツに含まれるタイトル、番組情報、音声データ、又は字幕データが関心情報としてNAS120から取得される。
 ダイジェスト生成装置は次に、取得された関心情報が表す音声又は文字列を解析し、その中に含まれる単語の集合を基準の単語の集合として設定する。ここで、「単語」とは、名詞、動詞等、単独で意味がわかる自立語を意味し、単独では意味がわからない付属語、すなわち助詞と助動詞とを除く。基準の単語の集合は、「ユーザが関心を示した情報に含まれていた単語の集合である」という意味で、そのユーザの嗜好を表すキーワードの集合とみなすことができる。
 ダイジェスト生成装置は続いて、NAS120に保存されている各動画コンテンツの区間をグループ分けすることにより、複数のシーンを構成する。ここで、動画コンテンツの「区間」とは、その動画コンテンツが表す映像全体の表示期間をその開始時点から一定の時間間隔で複数の期間に分けた場合、それらの期間のうちの1つに表示されるべき映像部分を表すその動画コンテンツの部分をいう。また、「シーン」とは、動画コンテンツの中で連続する区間のグループ、又はそのグループが表す一連の映像、音声、及び字幕等をいう。ダイジェスト生成装置はまず、動画コンテンツの各区間が表す音声又は字幕を解析し、その音声又は字幕における単語別の出現回数からその区間の特徴ベクトルを構成する。ダイジェスト生成装置は次に、異なる区間の間で特徴ベクトルの類似度を算定し、その類似度に基づいて、それらの区間を同じシーンに分類すべきか否かを判断する。こうして、その動画コンテンツから複数のシーンが構成される。具体的には、各シーンの表示期間と、そのシーンが表す音声又は字幕における単語別の出現回数との組み合わせが、その動画コンテンツに関するシーン情報として記録される。
 動画コンテンツでは、音声データ及び字幕データはいずれも映像データよりもサイズが大幅に小さい。従って、動画コンテンツの各区間の特徴ベクトルを、音声又は字幕における単語別の出現回数から構成して比較する処理は、映像の特徴量から構成して比較する処理よりも計算量が大幅に少ない。従って、このダイジェスト生成装置は、NAS120に多数の動画コンテンツが蓄積されていても、各動画コンテンツからシーンを構成する処理に必要な時間を実用的な範囲に収めることができる。また、映像と共に流れる音声及び字幕はその映像の特徴を言葉で表現している場合が多いので、音声又は字幕における単語別の出現回数で構成された特徴ベクトルが映像の特徴を的確に反映している可能性は高い。それらの結果、このダイジェスト生成装置は各動画コンテンツから、互いに特徴の異なる複数のシーンを自動的に、的確に、かつ迅速に構成することができる。
 ダイジェスト生成装置はシーン情報を利用して、動画コンテンツからダイジェストを次のように生成する。まず、シーン情報を参照して、各シーンが表す音声又は字幕に出現する単語の集合を形成する。次に、その単語の集合と基準の単語の集合との間の類似性を評価する。その評価には例えば、両集合の共通部分に属する単語の数が利用される。続いて、評価された値が所定の閾値以上であるシーンをダイジェストとして抽出する。この閾値は、「評価値がそれ以上であれば、シーンがユーザの嗜好に合うとみなせる」という条件を満たすように決定されている。実際、評価値が高いシーンほど、音声又は字幕に出現する単語の多くが基準の単語の集合にも属している。従って、ダイジェストは、ユーザの嗜好に合う可能性が高いシーンのみを含む。こうして、ダイジェスト生成装置は動画コンテンツのダイジェストを自動的に、迅速に、かつ「ユーザの嗜好に合う」という基準に対して的確に抽出することができる。
 NAS120は表示装置140等からの要求に応じ、保存されている動画コンテンツの一覧としてそれらのダイジェストを生成して要求元の電子機器へ提供する。その電子機器は例えば、それらのダイジェストを画面にサムネイル表示して、ユーザに視聴対象の動画コンテンツを選択させる。ここで、NAS120に膨大な数の動画コンテンツが保存されていても、ダイジェストの種類は、ユーザの嗜好に合ったものに絞られるので、ユーザがチェックすべきダイジェストの数は一般には、動画コンテンツの数よりもずっと少ない。また、いずれのダイジェストも、ユーザの嗜好に合ったシーンから構成されているので、ユーザはそれらを比較的迅速にチェックできる。それらの結果、ユーザは視聴対象の動画コンテンツを手早く選択できる。
 [ホーム・ビデオ・サーバのハードウェア構成]
 図2は、システム100におけるホーム・ビデオ・サーバ、すなわちNAS120のハードウェア構成を示すブロック図である。図2を参照するに、NAS120は、ダイジェスト生成装置200、記憶部210、外部インタフェース220、及びコネクタ221、222を含む。ダイジェスト生成装置200は、CPU201、メモリ部202、ハードウェア・デコーダ203、ネットワーク・インタフェース204、記憶部インタフェース205、及びバス206を含む。ダイジェスト生成装置200と外部インタフェース220とは、LSI等、単一の集積回路に実装されている。
 記憶部210は、NAS120に内蔵又は外付けされた大容量記憶装置であり、具体的にはHDD又はSSDである。CPU201は、ファームウェアに列記された命令群に従い、NAS120内の他のハードウェア要素を制御する。それにより、CPU201はそれらの要素と協働してNAS120の様々な機能、特にダイジェスト生成装置200の機能を実現する。メモリ部202はROMとRAMとを含む。ROMは、CPU201に実行されるべきファームウェア群を、NAS120の停止期間中も安定に保持する。RAMはNAS120の動作期間中、パラメータの一時的な保管場所又はフレーム・バッファ等の作業領域をCPU201とハードウェア・デコーダ203とに提供する。ハードウェア・デコーダ203は、AVデータの復号処理に特化した集積回路であり、特にその復号処理のアクセラレータ機能を備えている。ネットワーク・インタフェース204は、IEEE802.3又はIEEE802.11に準拠したインタフェースであり、ルータ110とバス206との間のデータ通信を有線又は無線で実現する。記憶部インタフェース205は、ATA又はSCSIに準拠したインタフェースであり、バス206と記憶部210との間のデータ通信を実現する。バス206は、NAS120内のハードウェア要素間を接続する配線及びチップセットの組み合わせであり、それらの要素間でのデータ通信に共通の伝送経路として利用される。外部インタフェース220は、DV、HDMI(登録商標)、USB、IEEE1394、又はBluetooth(登録商標)等に準拠のインタフェースであり、コネクタ221、222を通して外部の電子機器からバス206へAVデータを中継する。コネクタ221、222は、外部インタフェース220と同じ規格に準拠の接続端子である。コネクタ221、222にはデジタル・カメラ121、122が接続可能である。
 [ホーム・ビデオ・サーバの機能]
 図3は、システム100におけるホーム・ビデオ・サーバ、すなわちNAS120の機能ブロック図である。図3を参照するに、NAS120の機能部は、動画データベース301、関心情報データベース302、動画管理部303、及びダイジェスト生成装置200の機能部を含む。ダイジェスト生成装置200の機能部は、区間分類部311、ダイジェスト抽出部312、ダイジェスト提示部313、ユーザ識別部314、及び関心情報収集部315を含む。これらの機能部は、CPU201がファームウェアの命令群に従って、図2に示されているハードウェア要素を制御することにより実現される。
 動画データベース301と関心情報データベース302とは、図2に示されている記憶部210によって実現される。動画データベース301には、外部の動画源VSRからLAN又は外部インタフェース220を通して動画コンテンツが登録される。図1に示されているシステム100における動画源VSRは、デジタル・カメラ121、122、録画装置130、表示装置140、141、PC150、及びモバイル機器160を含む。動画データベース301にはまた、それらの動画コンテンツに関するシーン情報が区間分類部311によって登録される。関心情報データベース302には、外部の関心情報源ITSからLANを通してユーザに関する関心情報が登録される。システム100における関心情報源ITSは、録画装置130、表示装置140、141、PC150、及びモバイル機器160を含む。関心情報データベース302にはまた、各ユーザに関する基準単語表が関心情報収集部315によって登録される。各ユーザに関する「基準単語表」とは、そのユーザに関する基準の単語の集合に属する単語の一覧表である。
 動画管理部303はネットワーク・インタフェース204を利用して、外部の動画源VSRからNAS120宛に送られた動画コンテンツのアップロード要求を検出する。動画管理部303はまた、外部インタフェース220を利用して、コネクタ221、222へのデジタル・カメラ121、122の接続を検出する。それらの検出に応じて、動画管理部303は動画源VSRとの間の接続を確立し、動画源VSRから動画コンテンツを取得して動画データベース301に登録する。
 一方、動画管理部303はネットワーク・インタフェース204を利用して、外部のクライアントCLTからNAS120宛に送られた動画コンテンツのダウンロード要求を検出する。システム100におけるクライアントCLTは、録画装置130、表示装置140、141、PC150、及びモバイル機器160を含む。動画管理部303はダウンロード要求の検出に応じてクライアントCLTとの間の接続を確立し、クライアントCLTに要求された動画コンテンツを動画データベース301から検索してクライアントCLTへ供給する。
 関心情報収集部315はネットワーク・インタフェース204を利用して、LANに接続されている関心情報源ITSを検出する。それにより、関心情報収集部315は、LANへ新たな関心情報源ITSが接続される度に、その関心情報源ITSに対して、各ユーザに関する関心情報を要求する。関心情報収集部315はまた、LANに既に接続されている関心情報源ITSに対しては定期的に、各ユーザに関する関心情報を要求する。関心情報収集部315はその他に、動画管理部303がクライアントCLTに動画コンテンツを動画データベース301からダウンロードさせる度に、動画管理部303に対して、そのクライアントCLTのユーザに関する関心情報を要求する。それらの要求に応じ、関心情報源ITS及び動画管理部303からは関心情報の最新の履歴が返信される。例えば、録画装置130とPC150とからは録画予約の履歴が返信され、表示装置140、141、PC150、及びモバイル機器160からは、インターネットでの検索履歴、Webページの閲覧履歴、及び放送番組の視聴履歴が返信され、動画管理部303からは動画コンテンツの視聴履歴が返信される。関心情報収集部315はそれら関心情報の履歴を取得して、各関心情報が表す音声又は文字列を解析する。それにより、それらの音声又は文字列の中から単語が抽出される。関心情報収集部315は、抽出された単語群をユーザ別に分類し、関心情報データベース302に登録されている基準単語表のうち、対応するユーザに関するものに追記する。対応するユーザに関する基準単語表が未登録である場合、関心情報収集部315は、そのユーザに関する基準単語表を新たに作成して関心情報データベース302に登録する。こうして、各ユーザに関する基準単語表が更新又は設定される。
 区間分類部311は、動画データベース301に登録されている各動画コンテンツから複数のシーンを次のように構成する。区間分類部311はまず、記憶部インタフェース205を利用して動画データベース301から動画コンテンツを1つずつ読み出し、ハードウェア・デコーダ203により各動画コンテンツから音声データ又は字幕データを復号する。区間分類部311は次に、音声データをテキスト・データに変換し、又は字幕データからテキスト・データを抽出し、それらのテキスト・データを解析する。それにより、そのテキスト・データが表す文字列から単語が抽出され、動画コンテンツの各区間における単語別の出現回数が求められる。区間分類部311は続いて、それらの出現回数からその区間の特徴ベクトルを構成する。この特徴ベクトルは、その区間における単語別の出現回数を成分とするベクトルであり、動画コンテンツに出現する単語の総数と等しい次元の空間(以下、特徴空間という。)に属するものとみなすことができる。区間分類部311は更に、異なる区間の間で特徴ベクトルの類似度を算定し、その類似度に基づいて、それらの区間を同じシーンに分類すべきか否かを判断する。具体的には、異なる区間の特徴ベクトル間でのコサイン距離が類似度として計算され、その類似度が許容下限以上であれば、それら異なる区間が同じシーンに分類される。こうして、区間分類部311は基本的には、1つの動画コンテンツの中で隣接する区間の対の全てについて、それらの対を同じシーンに分類すべきか否かを判断する。その結果、その動画コンテンツから複数のシーンが構成される。ここで、2つの特徴ベクトル間のコサイン距離が最大値1に近いほど、それら2つの特徴ベクトルは向きが近い。従って、各シーンでは基本的に、隣接する区間の対のそれぞれで特徴ベクトルがほぼ同じ向きに揃っている。すなわち、シーンの違いが、それらの間での音声又は字幕の特徴の違いを的確に反映している。
 その後、区間分類部311は、各動画コンテンツ内の各シーンの表示期間と、そのシーンが表す音声又は字幕における単語別の出現回数との組み合わせから、その動画コンテンツに関するシーン情報を作成する。すなわち、シーン情報は、各シーンの表示期間の開始時刻と終了時刻、及び、そのシーンにおける特徴ベクトルの合成を表す。区間分類部311は記憶部インタフェース205を利用して、各動画コンテンツに関するシーン情報を動画データベース301に登録する。
 ユーザ識別部314はネットワーク・インタフェース204を利用して、外部のクライアントCLTからNAS120宛に送られた動画コンテンツの一覧のダウンロード要求を検出する。ユーザ識別部314はその検出に応じてそのクライアントCLTの認証を行い、その認証に成功した場合、そのクライアントCLTにユーザの識別情報を要求する。その後、そのクライアントCLTからユーザの識別情報が届いた場合、ユーザ識別部314はユーザの認証を行う。更にその認証に成功した場合、ユーザ識別部314はそのクライアントCLTとユーザとの識別情報をダイジェスト抽出部312へ渡す。
 ダイジェスト抽出部312はユーザ識別部314からクライアントCLTとユーザとの識別情報を受信し、それに応じて記憶部インタフェース205を用い、まず、そのユーザに関する基準単語表を関心情報データベース302から検索する。ダイジェスト抽出部312は次に、動画データベース301に登録されている動画コンテンツの中から、受信された識別情報が示すクライアントCLTによって表示可能なものを選択し、それらに関するシーン情報を動画データベース301から検索する。例えば、クライアントCLTの識別情報が表示装置140を示す場合にはフルHD(解像度1920×1080)の動画コンテンツが選択され、スマートフォン160を示す場合にはqHD(解像度960×540)又はHD(解像度1280×720)の動画コンテンツが選択される。また、クライアントCLTの識別情報が3D映像対応の表示装置を示す場合には3D映像の動画コンテンツが選択され、3D映像非対応の表示装置を示す場合には2D映像の動画コンテンツが選択される。各クライアントCLTによって表示可能な動画コンテンツの種類の一覧は、ダイジェスト抽出部312又は動画データベース301に予め保存されている。その他に、動画データベース301に、動画コンテンツと共に、それを表示可能なクライアントCLTの一覧が登録されていてもよい。ダイジェスト抽出部312はそれらの一覧を動画コンテンツの選択に利用する。
 ダイジェスト抽出部312は続いて、各動画コンテンツに関するシーン情報から、各シーンが表す音声又は字幕に出現する単語を抽出し、基準単語表に登録されている単語と照合する。それにより、ダイジェスト抽出部312は、各シーンが表す音声又は字幕に出現する単語の集合と基準の単語の集合との共通部分に属する単語の数を求め、そのシーンに関する両集合間の類似性の評価値をその単語の数に設定する。ダイジェスト抽出部312は更に、各シーンに関する評価値を上記の閾値と比較し、評価値がその閾値以上であるシーンを特定する。ダイジェスト抽出部312はその後、ハードウェア・デコーダ203を用いて動画データベース301から各動画コンテンツを読み出し、特定されたシーンをその動画コンテンツから抽出して復号する。ダイジェスト抽出部312は、1つの動画コンテンツから複数のシーンを抽出した場合、それらのシーンを1つのダイジェストに連結する。こうして、ダイジェスト抽出部312は、動画データベース301に登録されている各動画コンテンツから1つのダイジェストを生成してダイジェスト提示部313へ渡す。
 ダイジェスト抽出部312はまた、各ダイジェストの最高評価値と最頻出単語とをクライアントCLTの識別情報と共にダイジェスト提示部313へ通知する。ここで、各ダイジェストの「最高評価値」とは、そのダイジェストを構成するシーンの間で最も高い類似性の評価値をいい、「最頻出単語」とは、類似性の評価値が最高評価値に等しいシーンが表す音声又は字幕に出現する単語の集合と基準の単語の集合との共通部分に属する単語の中で、その音声又は字幕に最も多く出現するものをいう。
 ダイジェスト提示部313はダイジェスト抽出部312から、ダイジェスト、最高評価値、及び最頻出単語を受信し、それらのデータから動画コンテンツの一覧情報を作成する。具体的には、ダイジェスト提示部313はそれらのダイジェストを符号化し、それらの符号化データに、最高評価値、最頻出単語、及び動画コンテンツの識別情報を所定の形式で組み込み、それにより得られたデータをその一覧情報として定める。ここで、その所定の形式は、ユーザ識別部314によって検出されたダウンロード要求の送信元、すなわち、ダイジェスト抽出部312から受信した識別情報の示すクライアントCLTがその一覧情報から、符号化データと、それに組み込まれるパラメータとの間の対応関係を把握できるように選択される。例えばユーザ識別部314がそのクライアントCLTに、そのダウンロード要求そのもの、又はその要求を送信する際のプロトコルを通じて、その所定の形式とダイジェストの符号化形式とを指定させ、指定された形式を示すデータをそのクライアントCLTの識別情報に組み込む。ダイジェスト提示部313は一覧情報の作成に、そのデータが示す形式を採用する。ダイジェスト提示部313は更にネットワーク・インタフェース204を利用して、そのクライアントCLTへ一覧情報を送信する。
 [区間分類部の詳細]
 区間分類部311は上記のとおり、動画コンテンツが音声データ又は字幕データを含むことを利用して、その動画コンテンツからシーンを構成する。従って、区間分類部311の詳細を説明する前に、その処理対象である動画コンテンツのデータ構造を決めておく方が、区間分類部311の詳細を理解しやすいであろう。
   -動画コンテンツのデータ構造-
 動画コンテンツには、映像と音声とを表すストリーム・データが多重化されており、更に多くの場合、字幕を表すストリーム・データも多重化されている。図1に示されているシステム100は動画コンテンツの主な多重化形式に対応している。特に代表的な多重化形式としては、MPEG-2 トランスポート・ストリーム(TS)形式が挙げられる。例えば、現行のデジタル放送にはこの多重化形式が採用されている。以下に述べる区間分類部311の詳細についての説明では便宜上、動画コンテンツがこの多重化形式である場合を想定する。尚、その説明を、MPEG-2 プログラム・ストリーム形式等、他の多重化形式の動画コンテンツに当てはまるように変更することは、当業者であれば容易であろう。
 図4は、MPEG-2 TS形式を採用した動画コンテンツのデータ構造を示す模式図である。MPEG-2 TS形式では通常、エレメンタリ・ストリームと呼ばれるストリーム・データが複数、多重化されて1つのストリーム・ファイルを構成する。図4を参照するに、この動画コンテンツ400には、ビデオ・ストリーム401、オーディオ・ストリーム402、プレゼンテーション・グラフィックス(PG)ストリーム403、及びテキスト字幕ストリーム804が多重化されている。ビデオ・ストリーム401は、映像を表すエレメンタリ・ストリームであり、MPEG-2、H.264/MPEG-4 AVC、又はSMPTE VC-1等の方式で圧縮されている。オーディオ・ストリーム402は、音声を表すエレメンタリ・ストリームであり、AC-3、ドルビー・デジタル・プラス(Dolby Digital Plus:「ドルビー・デジタル」は登録商標)、MLP(Meridian Lossless Packing:登録商標)、DTS(Digital Theater System:登録商標)、DTS-HD、又はリニアPCM(Pulse Code Modulation)等の方式で圧縮されている。PGストリーム403は、グラフィックス映像を表すエレメンタリ・ストリームである。そのグラフィックス映像は、グラフィックスによる字幕等、ビデオ・ストリーム401が表す映像に重ねて表示されるべきものである。テキスト字幕ストリーム404は、字幕をテキスト文字列で表すエレメンタリ・ストリームである。「テキスト文字列」は、字幕の各文字を特定の符号(キャラクタ・コード)で表したデータ列である。
 ビデオ・ストリーム401はオーディオ・ストリーム402とPGストリーム403との組み合わせで1つのストリーム・ファイルを構成する。一方、テキスト字幕ストリーム404は単独で1つのストリーム・ファイルを構成する。一般に1つのストリーム・ファイルには、ビデオ・ストリーム以外のエレメンタリ・ストリームが種類ごとに最大32本まで多重化可能である。例えばオーディオ・ストリームとして、二カ国以上の言語を表すものが含まれていてもよく、主音声を表すものの他に、副音声を表すものが含まれていてもよい。
 各エレメンタリ・ストリーム401、…、404には固有のパケット識別子(PID)が割り当てられている。例えば、ビデオ・ストリーム401、オーディオ・ストリーム402、PGストリーム403、及びテキスト字幕ストリーム404にはそれぞれ、PIDとして16進数値0x1011、0x1100-0x111Fのいずれか、0x1200-0x121Fのいずれか、及び0x1800が割り当てられている。
 図4には更に、動画コンテンツ400内における各エレメンタリ・ストリーム401、402、403、404の配置が模式的に示されている。例えばビデオ・ストリーム401はまず、ピクチャ401Aごとに1つのPES(Packetized Elementary Stream)パケット411に格納される。各PESパケットのヘッダにはPTS(Presentation Time-Stamp)が格納される。PTSは、デコーダに対して、そのパケットに格納されたピクチャを復号後にフレーム・バッファへ書き込むべきタイミングを示すパラメータである。次に、各PESパケット411が一般に複数の部分に分割され、各部分が異なるTSパケット421に格納される。TSパケット421は188バイト長のパケットであり、先頭の4バイトにヘッダを含み、残りの184バイトにPESパケットの一部を含む。TSパケット421のヘッダには、そのパケットに格納されたビデオ・ストリーム401のPIDが格納される。同様に、オーディオ・ストリーム402、PGストリーム403、及びテキスト字幕ストリーム404がそれぞれ、適当なデータ単位でPESパケット412、413、414に格納され、各PESパケットが複数のTSパケット422、423、424に格納される。最後に、各エレメンタリ・ストリーム401、…、404から得られた複数のTSパケット421、…、424が一連のパケット列400に時分割で多重化される。
 図4を更に参照するに、TSパケット列400は、エレメンタリ・ストリームを格納したTSパケット421、…、424以外にも、PAT(Program Association Table)431、PMT(Program Map Table)432、及びPCR(Program Clock Reference)433を格納したTSパケットを含む。PMT432は、一連のTSパケット列400が複数の動画コンテンツを含む場合に各動画コンテンツに1つずつ割り当てられ、その動画コンテンツを構成するエレメンタリ・ストリームのPIDとその属性情報との一覧、及びPCR433のPIDを示す。エレメンタリ・ストリームの属性情報には、例えば、そのエレメンタリ・ストリームの圧縮に利用されたコーデックの識別情報、及びフレーム・レートとアスペクト比とが含まれる。PAT431は、一連のTSパケット列400に含まれるPMT432それぞれのPIDを示す。PAT431自身のPIDは0である。PCR433は、デコーダに対してSTC(System Time Clock)の値を示すパラメータであり、単一のTSパケットに格納される。「STC」とは、デコーダが、PTSの示すタイミングの計測に利用するクロックをいう。PCR433は動画コンテンツのTSパケット列400の中に所定の時間間隔、例えば100m秒間隔で挿入される。デコーダはPCR433を検出する度にSTCの値を、そのPCR433が示す値に揃える。
 図5は、テキスト字幕ストリームのデータ構造を示す模式図である。図5を参照するに、テキスト字幕ストリーム500はテキスト・データ・エントリ510の一次元配列を含む。各テキスト・データ・エントリ510はスタイル情報511とテキスト情報512との対から構成されている。テキスト情報512は、1枚のピクチャに重ねて表示されるべき字幕を表すテキスト文字列を示す。スタイル情報511は、そのテキスト文字列を文字列の映像データに変換する際に必要な情報を示す。具体的には、図5に示されているとおり、スタイル情報511は、PTS501、表示位置502、フォントID503、表示スタイル504、及びフォント・サイズ505を含む。PTS501は、デコーダに対し、テキスト文字列から変換した文字列の映像データをフレーム・バッファへ書き込むべきタイミングを示す。表示位置502は、その映像データが表す文字列が表示されるべき画面上の位置を示す。フォントID503は、そのテキスト文字列が文字列の映像データに変換される際に利用されるべきフォント・セットの識別情報を示す。表示スタイル504は、その映像データが表す文字列が画面に表示される際の字体を示す。フォント・サイズ505は、その文字列が画面に表示される際の大きさを示す。
   -区間分類部の機能-
 図6は、区間分類部311の機能ブロック図である。図6を参照するに、区間分類部311は、PIDフィルタ610、音声デコーダ620、テキスト字幕デコーダ630、音声認識部640、特徴ベクトル構成部650、及びシーン境界設定部660を含む。PIDフィルタ610と2種類のデコーダ620、630とはハードウェア・デコーダ203に実装され、他の機能部640、650、660はCPU201によってソフトウェア的に実現される。
 PIDフィルタ610は動画データベース301から動画コンテンツのTSパケット列を読み出し、各TSパケットからPIDを検出する。それにより、まず、PID=0のTSパケットが集められ、それらからPAT431が復元される。PIDフィルタ610はそのPAT431からPMT432のPIDを読み出し、そのPIDをヘッダに含むTSパケットをTSパケット列から抽出して、それらからPMT432を復元する。PIDフィルタ610は続いて、そのPMT432からオーディオ・ストリームのPIDとテキスト字幕ストリームのPIDとを読み出し、各PIDをヘッダに含むTSパケットをTSパケット列から抽出して、そのPIDに対応するエレメンタリ・ストリームの復号に適したデコーダ620、630へ転送する。すなわち、PIDが0x1100-0x111FのいずれかであるTSパケットは音声デコーダ620へ転送され、PIDが0x1800であるTSパケットはテキスト字幕デコーダ630へ転送される。
 音声デコーダ620は、図6に示されているように、トランスポート・ストリーム・バッファ(TB:Transport Stream Buffer)621、多重化バッファ(MB:Multiplexing Buffer)622、エレメンタリ・ストリーム・バッファ(EB:Elementary Stream Buffer)623、及び圧縮音声デコーダ(DEC)624を含む。TB621、MB622、及びEB623はいずれもバッファ・メモリであり、それぞれが、音声デコーダ620に内蔵されたメモリ素子の一領域を利用する。TB621は、PIDフィルタ610から受信されたTSパケットをそのまま蓄積する。MB622は、TB621に蓄積されたTSパケットからヘッダを除去し、残りのデータからPESパケットを復元して蓄積する。EB623は、MB622に蓄積されたPESパケットから圧縮音声データとそのPTSとを抽出して蓄積する。DEC624は、圧縮音声データの復号処理に特化したハードウェア・デコーダである。DEC624は、TSパケットからオーディオ・ストリームの圧縮符号化方式とその属性とを特定し、それらに合った方法で、MB622に蓄積された圧縮音声データを復号する。DEC624は更に、復号された非圧縮の音声データを、そのPTSと共に音声認識部640へ転送する。
 音声認識部640は、音声デコーダ620から転送された非圧縮の音声データを解析して、それが示す音声に含まれる単語(ここでは自立語と付属語との両方である。)を認識する。具体的には音声認識部640は、非圧縮の音声データの示す音声の周波数スペクトルを調べ、その時間変化のパターンの中から「所定の音素列を示すパターンである」と統計学的に認められる部分を探す。この音素列は、特定の単語を表す音声を構成する。従って、その音素列を示すパターンが検出されれば、その音声データの示す音声がその特定の単語を含むとみなすことができる。音声認識部640は更に、認識された単語を表すテキスト・データをPTSと共に特徴ベクトル構成部650へ渡す。
 テキスト字幕デコーダ630は、PIDフィルタ610から受信された各TSパケットからヘッダを除去し、残りのデータからテキスト・データ・エントリ510を復元する。テキスト字幕デコーダ630は更に、そのエントリ510内のスタイル情報511からPTSを読み出し、テキスト情報512からは、字幕を表すテキスト文字列を読み出して、そのPTSとテキスト文字列との対を特徴ベクトル構成部650へ渡す。
 特徴ベクトル構成部650はまず、音声認識部640とテキスト字幕デコーダ630とのそれぞれから受信したPTSを利用して、それらと共に受信したテキスト・データのそれぞれが属する動画コンテンツの区間を特定する。特徴ベクトル構成部650は次に、動画コンテンツの各区間に属するテキスト・データが表す(自然言語の)文字列に対して形態素解析を行い、その文字列から自立語、特に名詞を「単語」として抽出する。それと同時に、特徴ベクトル構成部650は動画コンテンツの各区間における単語別の出現回数を求める。特徴ベクトル構成部650は続いて、それらの出現回数からその区間の特徴ベクトルを構成する。ここで、動画コンテンツのいずれの区間も少なくとも音声データは含む。従って、動画コンテンツのいずれの区間に対しても特徴ベクトルが構成される。特徴ベクトル構成部650は、動画コンテンツの全ての区間に対して特徴ベクトルを構成した後、各区間の特徴ベクトルを、その区間の境界のPTSと共にシーン境界設定部660へ渡す。
 シーン境界設定部660は、異なる区間の間での特徴ベクトルの類似度として、それらの区間の特徴ベクトル間のコサイン距離を計算する能力を持つ。具体的には、j番目(文字jは1以上の整数である。)の区間の特徴ベクトルFV[j]=(w1[j], w2[j], …, wNwd[j])と(j+k)番目(文字kは1以上の整数である。)の区間の特徴ベクトルFV[j+k]=(w1[j+k], w2[j+k], …, wNwd[j+k])との間のコサイン距離が、両区間間での特徴ベクトルの類似度SML(j,j+k)として次式(1)で計算される:
Figure JPOXMLDOC01-appb-M000001
 ここで、特徴空間の次元Nwdは、動画コンテンツに出現する単語の総数に等しい。また、各特徴ベクトルFV[j]、FV[j+k]のi番目(文字iは1以上定数Nwd以下の整数である。)の成分wi[j]、wi[j+k]は、動画コンテンツに出現するi番目の単語がj番目、(j+k)番目の各区間に出現する回数である。式(1)から明らかなとおり、類似度SML(j,j+k)は-1以上+1以下であり、最大値1に近いほど、2つの特徴ベクトルFV[j]、FV[j+k]は向きが近い。すなわち、j番目と(j+k)番目との区間では、音声又は字幕に出現する単語の分布パターンが似ている。その意味で、「類似度SML(j,j+k)が高いほど、両区間は特徴が似ている」と言える。
 シーン境界設定部660は、異なる区間間での特徴ベクトルの類似度に基づいて、それらの区間を同じシーンに分類すべきか否かを判断する。具体的には、シーン境界設定部660は先頭の区間から順番に、その区間と次の区間との間で特徴ベクトルの類似度を算定して許容下限と比較する。その類似度が許容下限以上であれば、「それら2つの区間は特徴が十分に似ている」とみなせる。従って、その類似度が許容下限以上である場合には、シーン境界設定部660はそれら2つの区間を同じシーンに分類し、次の区間について以上の処理を繰り返す。
 一方、j番目と(j+1)番目との区間間での特徴ベクトルの類似度が許容下限未満である場合、シーン境界設定部660は(j+2)番目の区間から順番に、(j+k)番目(k=2、3、4、…)とj番目との区間の間で特徴ベクトルの類似度を更に算定して許容下限と比較する。
 整数kが2以上の定数GPを超える前に、更に算定された類似度が許容下限以上に達すれば、j番目の区間と音声又は字幕の特徴があまり似ていない区間は、(j+1)番目の区間から数えて、定数GPよりも少ない数k-1しか連続していないことがわかる。ここで、定数GPは、次の条件を満たすように予め設定されている:「直前の区間とは音声又は字幕の特徴が異なる区間が、定数GPよりも少ない数しか連続していなければ、その連続区間における特徴の変化は一時的なものに過ぎず、その連続区間の後、それ以前の区間と特徴が似た区間が再び連続することが十分に期待できる。」従って、シーン境界設定部660はj番目から(j+k)番目までの区間を同じシーンに分類し、(j+k)番目の区間から順番に、その区間と次の区間との間での特徴ベクトルの類似度と許容下限との比較を再開する。
 整数kが2から定数GPまでのいずれの値であっても、更に算定された類似度が許容下限に満たなければ、j番目の区間と音声又は字幕の特徴があまり似ていない区間は、(j+1)番目の区間から数えて、少なくとも定数GPに等しい数、連続していることがわかる。その場合、「j番目以前の区間と(j+1)番目以降の区間とでは、音声又は字幕の特徴は本質的に異なる」という可能性が高い。従って、シーン境界設定部660はj番目と(j+1)番目との区間の間にシーンの境界を設定する。その後、シーン境界設定部660は(j+1)番目の区間から順番に、その区間と次の区間との間での特徴ベクトルの類似度と許容下限との比較を再開する。
 以上の処理を、シーン境界設定部660は動画コンテンツの全ての区間について行う。その結果、その動画コンテンツから複数のシーンが構成される。各シーンでは特徴ベクトルがほぼ同じ向きに揃っており、その向きとは特徴ベクトルの向きが大きく異なる部分が含まれていたとしても、その部分は、定数GPよりも少ない数の区間全体の長さしか連続していない。一方、異なるシーンの間では特徴ベクトルの向きが大きく異なる。このように、シーンの違いが、それらの間での音声又は字幕の特徴の違いを的確に反映している。
 各動画コンテンツから複数のシーンを構成した後、シーン境界設定部660は、各シーンの表示期間と、そのシーンが表す音声又は字幕における単語別の出現回数とから、その動画コンテンツに関するシーン情報を作成する。具体的には、シーン境界設定部660は、特徴ベクトル構成部650から受信した各区間の境界のPTSに基づいて、各シーンの表示期間の開始時刻と終了時刻とのそれぞれを表すPTSを求め、かつ、そのシーンに含まれる区間全体で特徴ベクトルの合成を求め、得られた値をシーン情報に組み込む。その後、シーン境界設定部660は各動画コンテンツに関するシーン情報を動画データベース301に登録する。
   -区間分類部の動作-
 図7は、区間分類部311による処理のフローチャートである。この処理は、動画管理部303が動画データベース301に新たな動画コンテンツを登録した時点に開始される。
 ステップS701では、区間分類部311が新たな動画コンテンツを処理対象に選択し、そのTSパケット列を動画データベース301からPIDフィルタ610へ転送する。PIDフィルタ610はそのTSパケット列から、まずPATを検出し、それが示すPIDを利用して、次にPMTを検出する。区間分類部311は、PMTの示すPIDの一覧にテキスト字幕ストリームのPID=0x1800が有るか否かを判断する。もし有れば処理はステップS702へ進み、無ければ処理はステップS704へ進む。
 ステップS702では、PIDフィルタ610が処理対象のTSパケット列からテキスト字幕ストリームのTSパケットを抽出して、それらのTSパケットをテキスト字幕デコーダ630へ送る。テキスト字幕デコーダ630はそれらのTSパケットからテキスト・データ・エントリ510を復元し、その中からPTSとテキスト文字列とを読み出して特徴ベクトル構成部650へ渡す。その後、処理はステップS703へ進む。
 ステップS703では、区間分類部311は、テキスト字幕デコーダ630によって読み出された一連のPTSの中から不連続な部分を探すことにより、処理対象の動画コンテンツの中から、字幕を含まない区間を探す。その区間が検出されれば処理はステップS704へ進み、検出されなければ処理はステップS706へ進む。
 ステップS704では、処理対象の動画コンテンツの少なくとも一部の区間が字幕を含まない。従って、区間分類部311はPIDフィルタ610に、処理対象のTSパケット列の中からオーディオ・ストリームのTSパケットを抽出させる。それらのTSパケットはPIDフィルタ610から音声デコーダ620へ送られる。音声デコーダ620はまず、それらのTSパケットから圧縮音声データとそのPTSとを復元する。音声デコーダ620は次に、復元されたPTSを利用して、圧縮音声データのうち、少なくとも、字幕を含まない区間に属するものを復号する。復号された非圧縮の音声データはそのPTSと共に音声認識部640へ転送される。その後、処理はステップS705へ進む。
 ステップS705では、音声認識部640が、非圧縮の音声データが表す音声に含まれる単語を認識する。音声認識部640は更に、認識された単語を表すテキスト・データをPTSと共に特徴ベクトル構成部650へ渡す。こうして、処理対象の動画コンテンツのうち、字幕を含まない区間については音声データがテキスト化される。その後、処理はステップS706へ進む。
 ステップS706では、特徴ベクトル構成部650がPTSを利用してテキスト・データを動画コンテンツの区間別に分ける。その後、処理はステップS707へ進む。ここで、テキスト・データを区間別に分ける処理は、具体的には次のように実行される。
 音声については、特徴ベクトル構成部650はまず、ステップS703で特定された「字幕を含まない区間」の表示期間において、ステップS705で各単語として認識された音素列が出現する時間的な位置をSTCの値で表す。特徴ベクトル構成部650は次に、そのSTCの値と、各区間の表示期間間の境界を表すPTSとを比較することにより、その単語を表すテキスト・データの所属先の区間を特定する。
 字幕については、特徴ベクトル構成部650はまず、各テキスト文字列が表す字幕の表示期間を、そのテキスト文字列と同じテキスト・データ・エントリ510に含まれていたPTSから割り出す。特徴ベクトル構成部650は次に、先頭のテキスト文字列から順番に、連続するテキスト文字列のそれぞれが表す字幕の表示期間の長さを加算する。得られた和が1区間当たりの表示時間に達した場合、特徴ベクトル構成部650はそれら連続するテキスト文字列を1つに連結し、残りのテキスト文字列から分ける。以上の操作を残りのテキスト文字列の先頭から順に繰り返すことにより、特徴ベクトル構成部650は全てのテキスト文字列を区間別に分ける。
 ステップS707では、特徴ベクトル構成部650は形態素解析を用いて、処理対象の動画コンテンツの各区間に属するテキスト・データが表す文字列から単語を抽出する。それと同時に、特徴ベクトル構成部650は各区間における単語別の出現回数を求める。その後、処理はステップS708へ進む。
 ステップS708では、特徴ベクトル構成部650は処理対象の動画コンテンツの各区間の特徴ベクトルを、その区間における単語別の出現回数から構成する。いずれの区間も少なくとも音声データは含むので、全ての区間について特徴ベクトルが構成される。特徴ベクトル構成部650は各区間の特徴ベクトルを、その区間の境界のPTSと共にシーン境界設定部660へ渡す。その後、処理はステップS709へ進む。
 ステップS709では、シーン境界設定部660がまず、式(1)を用いて、隣接する2つの区間間での特徴ベクトルの類似度SML(j,j+1)を計算する。シーン境界設定部660は次に、その類似度SML(j,j+1)を許容下限と比較し、その類似度SML(j,j+1)が許容下限以上である場合には、それら2つの区間を同じシーンに分類する。一方、その類似度SML(j,j+1)が許容下限未満である場合には、シーン境界設定部660は(j+2)番目の区間から順番に、その区間とj番目の区間との間での特徴ベクトルの類似度を更に算定して許容下限と比較することを繰り返す。j番目の区間との特徴ベクトルの類似度SML(j,・)が許容下限未満である区間が、(j+1)番目の区間から数えて、定数GPよりも少ない数しか連続していない場合、シーン境界設定部660はそれらの連続区間をj番目の区間と同じシーンに分類する。(j+1)番目から(j+GP)番目までのいずれの区間もj番目の区間との特徴ベクトルの類似度SML(j,・)が許容下限未満である場合、シーン境界設定部660はj番目と(j+1)番目との区間の間にシーンの境界を設定する。こうして、区間分類部311は処理対象の動画コンテンツから複数のシーンを構成して、処理を終える。
   -音声に含まれる各単語の属する区間の特定-
 図8は、区間分類部311がオーディオ・ストリームから単語を抽出する処理を示す模式図である。図8を参照するに、ビデオ・ストリームから再生されるフレーム列FRSの全体の表示期間は一定の時間間隔で動画コンテンツの各区間の表示期間SC1、SC2、…を含む。一方、オーディオ・ストリームの表す音声SNDはフレーム列FRSの再生に同期して再生され、一般には、隣接する区間の表示期間SC1、SC2の間の境界を跨いで連続して変化する。区間分類部311は、その音声SNDに含まれる各単語の音素列の時間的な位置をSTCの値WT1、WT2、…で表し、その値と、各区間の表示期間間の境界を表すPTSとを比較することにより、その単語の所属先の区間を特定する。図8の例では、単語「7時」、「ニュース」の音素列の先頭の位置を表すSTCの値WT1、WT2が、第1区間の表示期間SC1の開始時刻を表す第1PTSP0から、終了時刻を表す第2PTSP1までの範囲に属しているので、それらの単語が第1区間に分類される。単語「衆院」の音素列は第1区間の表示期間SC1と第2区間の表示期間SC2との間の境界を跨いでいるが、その先頭の位置を表すSTCの値WT5が第2PTSP1よりも小さいので、その単語「衆院」は第1区間に分類される。単語「本会議」の音素列の先頭の位置を表すSTCの値WT6は第2PTSP1よりも大きいので、その単語「本会議」は第2区間に分類される。
   -字幕を表すテキスト文字列の連結-
 図9は、図7に示されているステップS706において、字幕を表すテキスト文字列を動画コンテンツの区間ごとに連結する処理のフローチャートである。この処理は、特徴ベクトル構成部650がテキスト字幕デコーダ630からテキスト文字列を渡されることによって開始される。
 ステップS901では、特徴ベクトル構成部650は整数値変数jの値を1に初期化する。その後、処理はステップS902へ進む。
 ステップS902では、特徴ベクトル構成部650は、テキスト字幕デコーダ630から受信したテキスト文字列のうち、j番目のものに対する表示期間を、そのテキスト文字列と共に受信したPTSから割り出す。ここで、「テキスト文字列に対する表示期間」とは、そのテキスト文字列の表す字幕が画面に表示される期間をいい、具体的には、その期間の開始時刻と終了時刻とを表すPTSの対で定義される。j番目のテキスト文字列に対する表示期間を表すPTSの対は、変数DSPに代入される。その後、処理はステップS903へ進む。
 ステップS903では、特徴ベクトル構成部650は、テキスト字幕デコーダ630から受信したテキスト文字列の中に(j+1)番目のものが有るか否かを確認する。もし有れば処理はステップS904へ進み、無ければ処理はステップS909へ進む。
 ステップS904では、特徴ベクトル構成部650は表示期間DSPの長さを基準値と比較する。ここで、「表示期間DSPの長さ」とはその表示期間の開始時刻から終了時刻までの時間長をいい、具体的には、変数DSPが表す2つのPTSの間の差で定義される。また、基準値としては動画コンテンツの1区間当たりの表示時間、例えば30秒、1分、5分、又は10分が採用される。表示期間DSPの長さが基準値よりも小さい場合には処理はステップS905へ進み、基準値以上である場合には処理はステップS907へ進む。
 ステップS905では、表示期間DSPの長さがまだ、動画コンテンツの1区間当たりの表示時間には達していないので、特徴ベクトル構成部650は、次のテキスト文字列に対する表示期間だけ表示期間DSPを延長することを試みる。その準備として、特徴ベクトル構成部650は整数値変数jの値を1だけ増やす。その後、処理はステップS906へ進む。
 ステップS906では、特徴ベクトル構成部650はj番目のテキスト文字列に対する表示期間を、テキスト字幕デコーダ630から受信したPTSから割り出して、その表示期間だけ表示期間DSPを延長する。その後、処理はステップS903から繰り返される。
 ステップS907では、表示期間DSPの長さが既に、動画コンテンツの1区間当たりの表示時間以上に達している。従って、特徴ベクトル構成部650はまず、その表示期間DSPに画面に表示される字幕を表すテキスト文字列を一連のテキスト・データとして連結する。特徴ベクトル構成部650は次に、その表示期間DSPに画面に表示される映像を表す部分を含む動画コンテンツの1区間を特定し、連結後のテキスト・データをその区間に分類する。その後、処理はステップS908へ進む。
 ステップS908では、特徴ベクトル構成部650は整数値変数jの値を1だけ増やす。その後、処理はステップS902から繰り返される。
 ステップS909では、テキスト字幕デコーダ630から特徴ベクトル構成部650へ受信したテキスト文字列のうち、最後のものに対する表示期間が表示期間DSPに含まれる。従って、特徴ベクトル構成部650はまず、その表示期間DSPに画面に表示される字幕を表すテキスト文字列を一連のテキスト・データとして連結する。特徴ベクトル構成部650は次に、その表示期間DSPに画面に表示される映像を表す部分を含む動画コンテンツの1区間を特定し、連結後のテキスト・データをその区間に分類する。こうして、全てのテキスト文字列が区間別に分けられる。その後、処理はステップS707へ進む。
 図10は、特徴ベクトル構成部650がテキスト文字列から単語を抽出する処理を示す模式図である。図10の上部には、テキスト字幕ストリームの表す情報として、動画コンテンツの識別情報1001、各テキスト文字列に対する表示期間の開始時刻と終了時刻とを表すPTSの対、及びそのテキスト文字列が表す字幕が表示されている。特徴ベクトル構成部650はまず、各テキスト文字列が表す字幕の表示期間の長さを、その表示期間の開始時刻と終了時刻とを表すPTS間の差から求める。特徴ベクトル構成部650は次に、先頭のテキスト文字列から順番に、連続するテキスト文字列のそれぞれが表す字幕の表示期間の長さを変数DSPに加算する。図10の例では、開始時刻“00:48:48,119”から終了時刻“00:48:51,890”までの期間に表示されるべき字幕SB1の表示期間の長さが変数DSPに加算されると、その変数DSPの値が1区間当たりの表示時間=60秒を超える。従って、特徴ベクトル構成部650はその字幕SB1と、それ以前に表示される字幕とのそれぞれを表すテキスト文字列を1つに連結して1つの区間SC42に分類する。特徴ベクトル構成部650は更に、開始時刻“00:48:51,890”から表示されるべき字幕SB2を表すテキスト文字列を次の区間SC43に分類し、変数DSPの値をその字幕SB2の表示期間の長さにリセットする。その結果、終了時刻“00:48:51,890”に表示が終了されるべき字幕SB1以前の字幕に出現する単語「天気図」、「明日」、…、「間隔」、「北海道」は前の区間SC42に分類され、開始時刻“00:48:51,890”から表示が開始されるべき字幕SB2以降の字幕に出現する単語「明日」、「明け方」、…は次の区間SC43に分類される。
   -動画コンテンツの各区間の特徴ベクトル-
 図11の(a)は、特徴ベクトル構成部650が構成した特徴ベクトルに関する情報の一覧表である。図11の(a)を参照するに、その情報は、動画コンテンツの識別情報1101に、各区間の開始時刻と終了時刻とを表すPTSの対、及びその区間の特徴ベクトルを対応付けている。各区間の特徴ベクトルは、その区間が表す音声又は字幕における単語別の出現回数を成分とする。例えば、第1区間の特徴ベクトルは、単語「ニュース」、「温泉」、「天気」の各出現回数が“1”、“3”、“2”であることを示し、第2区間の特徴ベクトルは、単語「年金」、「厚生労働省」、「消費税」の各出現回数が“4”、“3”、“2”であることを示す。
 図11の(b)は、特徴ベクトル構成部650が構成した特徴ベクトルを幾何学的に表す模式図である。図11の(b)を参照するに、この特徴ベクトルは幾何学的には、多次元の特徴空間の中で一方向に延びている。この特徴空間は、動画コンテンツに出現する単語の総数と次元が等しく、各次元の座標軸が1つの単語を表し、その軸における座標がその単語の出現回数を表す。図11の(b)には、(a)に示された第2区間の特徴ベクトルが示されている。各区間が表す音声又は字幕の特徴は、「その区間の特徴ベクトルが特徴空間のどの向きに、どれだけの長さで延びているか」で表現される。特定の区間の特徴ベクトルと向き及び長さが近い特徴ベクトルを持つ区間ほど、それが表す音声又は字幕の特徴が、その特定の区間が表すものに似ているとみなすことができる。このように、特徴ベクトルを用いれば、各区間が表す音声又は字幕の特徴を幾何学的に表現することができる。
   -特徴ベクトルの類似度に基づくシーンの構成-
 図12は、図7に示されているステップS709においてシーンを構成する処理のフローチャートである。この処理は、シーン境界設定部660が特徴ベクトル構成部650から各区間の特徴ベクトルを渡されることによって開始される。
 ステップS1201では、シーン境界設定部660は整数値変数jの値を1に初期化する。その後、処理はステップS1202へ進む。
 ステップS1202では、シーン境界設定部660は整数値変数kの値を1に初期化する。その後、処理はステップS1203へ進む。
 ステップS1203では、シーン境界設定部660は、処理対象の動画コンテンツに(j+k)番目の区間が有るか否かを確認する。もし有れば処理はステップS1204へ進み、無ければ処理はステップS1211へ進む。
 ステップS1204では、処理対象の動画コンテンツには、(j+k)番目の区間が有る。シーン境界設定部660は式(1)を用いて、j番目の区間の特徴ベクトルFV[j]と(j+k)番目の区間の特徴ベクトルFV[j+k]との間のコサイン距離、すなわち両区間間での特徴ベクトルの類似度SML(j,j+k)を算定する。その後、処理はステップS1205へ進む。
 ステップS1205では、シーン境界設定部660はj番目と(j+k)番目との区間間での特徴ベクトルの類似度SML(j,j+k)を許容下限と比較する。その類似度SML(j,j+k)が許容下限以上であれば処理はステップS1206へ進み、未満であれば処理はステップS1208へ進む。
 ステップS1206では、j番目と(j+k)番目との区間間での特徴ベクトルの類似度SML(j,j+k)が許容下限以上である。従って、シーン境界設定部660はj番目から(j+k)番目までの区間を同じシーンに分類する。その後、処理はステップS1207へ進む。
 ステップS1207では、シーン境界設定部660は整数値変数jの値を変数kの値だけ増やす。その後、処理はステップS1202から繰り返される。それにより、ステップS1206で同じシーンに分類された区間の中で最後のものとその次の区間(もし有れば)との間で特徴ベクトルの類似度が算定され、許容下限と比較される。
 ステップS1208では、j番目と(j+k)番目との区間間での特徴ベクトルの類似度SML(j,j+k)が許容下限未満である。その場合、シーン境界設定部660は変数kの値を定数GPと比較する。変数kの値が定数GPよりも小さい場合、処理はステップS1209へ進み、定数GP以上である場合、処理はステップS1210へ進む。
 ステップS1209では、j番目と(j+k)番目との区間間での特徴ベクトルの類似度SML(j,j+k)が許容下限未満であり、かつ変数kの値が定数GPよりも小さい。従って、シーン境界設定部660は変数kの値を1だけ増やし、その後、処理をステップS1203から繰り返す。
 ステップS1210では、j番目と(j+k)番目との区間間での特徴ベクトルの類似度SML(j,j+k)が許容下限未満であり、かつ変数kの値が定数GP以上である。その場合、j番目の区間と音声又は字幕の特徴があまり似ていない区間は、(j+1)番目の区間から数えて、少なくとも定数GPに等しい数、連続していることがわかる。従って、シーン境界設定部660はj番目と(j+1)番目との区間間にシーンの境界を設定する。その後、処理はステップS1211へ進む。
 ステップS1211では、シーン境界設定部660は整数値変数jの値を1だけ増やす。その後、処理はステップS1202から繰り返される。それにより、音声又は字幕の特徴が直前の区間のものから大きく変化した区間から改めて、その区間とその次の区間(もし有れば)との間での特徴ベクトルの類似度と許容下限との間の比較が再開される。
 ステップS1212では、処理対象の動画コンテンツに(j+k)番目の区間が無い。すなわち、(j+k-1)番目の区間がその動画コンテンツの最後の区間である。従って、シーン境界設定部660はj番目から(j+k-1)番目までの区間を同じシーン、すなわちその動画コンテンツの最後のシーンに分類する。その後、処理はステップS1212へ進む。
 ステップS1213では、シーン境界設定部660がまず、特徴ベクトル構成部650から受信した各区間の境界のPTSに基づいて、各シーンの表示期間の開始時刻と終了時刻とのそれぞれを表すPTSを求める。シーン境界設定部660は次に、各シーンに含まれる区間全体で特徴ベクトルの合成を求める。こうして得られた、各シーンの表示期間を表すPTSの対と、そのシーンが表す音声又は字幕における単語別の出現回数とから、シーン境界設定部660は処理対象の動画コンテンツに関するシーン情報を作成して動画データベース301に登録する。その後、処理は終了する。
 図13の(a)、(b)は、図12に示されている処理によるシーンの構成を示す模式図である。図13の(a)、(b)を参照するに、シーン境界設定部660は先頭の区間SC1から順番に、その区間SCj(j=1、2、3)と次の区間SC(j+1)との間で特徴ベクトルの類似度SML(j,j+1)、すなわち特徴ベクトルFV[j]、FV[j+1]間のコサイン距離を算定して許容下限Thと比較する。先頭の区間SC1と2番目の区間SC2との間の類似度SML(1,2)、及び2番目の区間SC2と3番目の区間SC3との間の類似度SML(2,3)がいずれも許容下限Th以上であるので、シーン境界設定部660は先頭の区間SC1から3番目の区間SC3までを第1シーンSN1に分類する。一方、3番目の区間SC3と4番目の区間SC4との間の類似度SML(3,4)は許容下限Th未満であるので、シーン境界設定部660は更に5番目の区間SC5から順番に、3番目の区間SC3との間の類似度SML(3,3+k)(k=2、3、…)を算定する。
 図13の(a)では、3番目の区間SC3と5番目の区間SC5との間の類似度SML(3,5)は許容下限Th未満であるが、3番目の区間SC3と6番目の区間SC6との間の類似度SML(3,6)は許容下限Th以上である。ここで、定数GPが“4”である場合を想定すると、整数kが、定数GPよりも小さい“3”に達したときに、更に算定された類似度SML(3,6)が許容下限Th以上に達する。すなわち、3番目の区間SC3の特徴ベクトルFV3と向きが大きく異なる特徴ベクトルを持つ区間は、4番目の区間SC4から数えて、定数GPよりも少ない数k-1=2しか連続していない。従って、シーン境界設定部660は3番目の区間SC3から5番目の区間SC5までを同じシーンSN1に分類し、6番目の区間SC6から順番に、その区間と次の区間との間での特徴ベクトルの類似度と許容下限との比較を再開する。6番目の区間SC6と7番目の区間SC7との間の類似度SML(6,7)は許容下限Th以上であるので、シーン境界設定部660は6番目の区間SC6と7番目の区間SC7とを第2シーンSN2に分類する。
 図13の(b)では、5番目の区間SC5から7番目の区間SC7までのいずれも、3番目の区間SC3との間の類似度SML(3,3+k)(k=2、3、4)が許容下限Th未満である。すなわち、3番目の区間SC3の特徴ベクトルFV3と向きが大きく異なる特徴ベクトルを持つ区間が、4番目の区間SC4から数えて、少なくとも定数GP=4に等しい数、連続している。従って、シーン境界設定部660は3番目の区間SC3と4番目の区間SC4との間にシーンの境界BNDを設定する。その後、シーン境界設定部660は4番目の区間SC4から順番に、その区間と次の区間との間での特徴ベクトルの類似度と許容下限との比較を再開する。4番目の区間SC4から7番目の区間SC7までは、隣接する区間間の類似度SML(j,j+1)(j=4、5、6、7)がいずれも許容下限Th以上であるので、シーン境界設定部660はそれらの区間SC4、…、SC7を第2シーンSN1に分類する。
 図13の(c)は、シーン境界設定部660が作成したシーン情報を示す表である。図13の(c)を参照するに、シーン情報は、動画コンテンツの識別情報1301に、各シーンの表示期間の開始時刻と終了時刻とを表すPTSの対、及び、そのシーンに含まれる区間全体での特徴ベクトルの合成を対応付けている。この合成ベクトルは、そのシーンを構成する区間全体が表す音声又は字幕における単語別の出現回数を示す。すなわち、同じシーンに属する異なる区間に共通の単語が出現する場合、それらの区間でのその単語の出現回数の総和をその合成ベクトルは成分として含む。
 [関心情報収集部の詳細]
   -関心情報収集部の機能-
 図14は、関心情報収集部315の機能ブロック図である。図14を参照するに、関心情報収集部315は、情報源監視部1401、関心情報取得部1402、文字情報解析部1403、AVデータ解析部1404、単語抽出部1405、及び基準単語表管理部1406を含む。AVデータ解析部1404は、デマルチプレクサ1441、音声デコーダ1442、字幕デコーダ1443、及び音声認識部1444を含む。デマルチプレクサ1441と2種類のデコーダ1442、1443とはハードウェア・デコーダ203に実装され、他の機能部1401、1402、1403、1444、1405、1406はCPU201によってソフトウェア的に実現される。
 情報源監視部1401はネットワーク・インタフェース204を利用して、LANに接続されている関心情報源ITSを検出する。それにより、情報源監視部1401は、LANへ新たな関心情報源ITSが接続される度に、その関心情報源ITSに対して、各ユーザに関する関心情報を要求する。情報源監視部1401はまた、LANに既に接続されている関心情報源ITSに対しては定期的に、各ユーザに関する関心情報を要求する。情報源監視部1401はその他に、動画管理部303がクライアントCLTに動画コンテンツを動画データベース301からダウンロードさせる度に、動画管理部303に対して、そのクライアントCLTのユーザに関する関心情報を要求する。
 関心情報取得部1402はネットワーク・インタフェース204を利用して、情報源監視部1401の要求に応じて関心情報源ITS及び動画管理部303から返信される関心情報の最新の履歴を取得する。取得される履歴には例えば、録画装置130等からの録画予約の履歴;表示装置140等からのインターネットでの検索履歴、Webページの閲覧履歴、及び放送番組の視聴履歴;並びに、動画管理部303からの動画コンテンツの視聴履歴がある。録画予約の履歴は、録画予約がされた放送番組の番組情報を含み、インターネットでの検索履歴は、検索された情報、又はその検索に用いられたキーワードを含み、Webページの閲覧履歴は、閲覧されたWebページを含み、放送番組の視聴履歴は、視聴された放送番組のタイトル、番組情報、音声データ、又は字幕データを含む。動画コンテンツの視聴履歴は、動画データベース301に登録されたその動画コンテンツのシーン情報を含む。関心情報取得部1402は更に、取得された関心情報を、文字情報、AVデータ、及びシーン情報に分別し、文字情報は文字情報解析部1403へ渡し、AVデータはAVデータ解析部1404へ渡し、シーン情報は基準単語表管理部1406へ渡す。一方、関心情報取得部1402は各関心情報から、その情報を視聴したユーザの識別情報と日時とを特定し、関心情報、ユーザ、及び視聴日時の間の対応関係を基準単語表管理部1406へ通知する。
 文字情報解析部1403は、関心情報取得部1402から受信した文字情報を解析し、その情報からテキスト・データを抽出する。文字情報は例えば、放送番組のタイトルと番組情報、インターネットで検索された文書、その検索に用いられたキーワード、Webページを含む。文字情報解析部1403は更に、抽出されたテキスト・データを単語抽出部1405へ渡す。
 AVデータ解析部1404は、関心情報取得部1402から受信したAVデータの中から音声データ又は字幕データを抽出する。例えばAVデータがMPEG-2 TS形式である場合、デマルチプレクサ1441、音声デコーダ1442、及び字幕デコーダ1443はそれぞれ、図6に示されているPIDフィルタ610、音声デコーダ620、及びテキスト字幕デコーダ630と同等である。デマルチプレクサ1441は、AVデータのヘッダ等に記載された情報に基づいて、そのAVデータから音声データ又は字幕データを抽出する。デマルチプレクサ1441は更に、音声データを音声デコーダ1442へ転送し、字幕データを字幕デコーダ1443へ転送する。音声デコーダ1442は、音声データのヘッダ等から圧縮符号化方式とその属性とを特定し、それらに合った方法で音声データを復号する。音声デコーダ1442は更に、復号された非圧縮の音声データを音声認識部1444へ転送する。字幕デコーダ1443は字幕データから、字幕の文字列を表すテキスト・データを復号して単語抽出部1405へ渡す。音声認識部1444は、図6に示されている音声認識部640と同様に、非圧縮の音声データを解析して、それが示す音声に含まれる単語を認識する。音声認識部1444は更に、認識された単語を表すテキスト・データを単語抽出部1405へ渡す。
 単語抽出部1405は、文字情報解析部1403、音声認識部1444、及び字幕デコーダ1443のそれぞれから受信したテキスト・データが表す(自然言語の)文字列に対して形態素解析を行い、その文字列から自立語、特に名詞を「単語」として抽出する。それと同時に、単語抽出部1405は各テキスト・データにおける単語別の出現回数を求め、基準単語表管理部1406へ渡す。
 基準単語表管理部1406は、単語抽出部1405から受信した単語別の出現回数と、関心情報取得部1402から通知された、関心情報、ユーザ、及び視聴日時の間の対応関係とに基づいて、関心情報から抽出された単語群をユーザ別に分類し、かつ各単語の出現日時を特定する。基準単語表管理部1406は続いて、それらの単語群と出現日時とを、関心情報データベース302に登録されている基準単語表のうち、対応するユーザに関するものに追記する。対応するユーザに関する基準単語表が未登録である場合、基準単語表管理部1406は、そのユーザに関する基準単語表を新たに作成して関心情報データベース302に登録する。
   -関心情報収集部の動作-
 図15は、関心情報収集部315による処理のフローチャートである。この処理は、NAS120がLANに接続された時点に開始される。
 ステップS1501-S1504では、情報源監視部1401が電子機器によるLANへの接続を監視して、LANに接続されている関心情報源ITSを検出する。情報源監視部1401は更に、検出された関心情報源ITSに対して各ユーザに関する関心情報を要求する。その要求に応じて関心情報源ITSから返信される関心情報の最新の履歴を関心情報取得部1402が取得する。関心情報取得部1402は更に、取得された関心情報を文字情報とAVデータとに分別し、文字情報は文字情報解析部1403へ渡し、AVデータはAVデータ解析部1404へ渡す。関心情報取得部1402はまた、各関心情報から、その情報を視聴したユーザの識別情報と日時とを特定し、それらの間の対応関係を基準単語表管理部1406へ通知する。
 ステップS1501では、LANに接続されている録画装置130又はPC150を情報源監視部1401が検出し、それらに対して各ユーザに関する関心情報を要求する。その要求に応じて録画装置130又はPC150から録画予約の最新の履歴が返信された場合、関心情報取得部1402がその履歴から、録画予約がされた放送番組の番組情報を読み取って文字情報解析部1403へ渡す。その後、処理はステップS1502へ進む。
 ステップS1502では、LANに接続されている表示装置140、141、PC150、又はモバイル機器160を情報源監視部1401が検出し、それらに対して各ユーザに関する関心情報を要求する。それに応じて表示装置140等からインターネットでの最新の検索履歴が返信された場合、関心情報取得部1402はその履歴から、検索された情報、又はその検索に用いられたキーワードを読み取る。関心情報取得部1402は更に、検索された情報がAVデータを含む場合はそのAVデータをAVデータ解析部1404へ渡し、その他の場合は、検索された情報を文字情報解析部1403へ渡す。その後、処理はステップS1503へ進む。
 ステップS1503では、LANに接続されている表示装置140、141、PC150、又はモバイル機器160を情報源監視部1401が検出し、それらに対して各ユーザに関する関心情報を要求する。それに応じて表示装置140等からWebページの最新の閲覧履歴が返信された場合、関心情報取得部1402はその履歴から、閲覧されたWebページを読み取る。関心情報取得部1402は更に、そのWebページがAVデータを含む場合はそのAVデータをAVデータ解析部1404へ渡し、その他の場合はそのWebページを文字情報解析部1403へ渡す。その後、処理はステップS1504へ進む。
 ステップS1504では、LANに接続されている表示装置140、141、PC150、又はモバイル機器160を情報源監視部1401が検出し、それらに対して各ユーザに関する関心情報を要求する。それに応じて表示装置140等から放送番組の最近の視聴履歴が返信された場合、関心情報取得部1402はその履歴から、視聴された放送番組のタイトル、番組情報、音声データ、又は字幕データを読み取る。関心情報取得部1402は更に、その音声データ又は字幕データをAVデータ解析部1404へ渡し、その他の情報を文字情報解析部1403へ渡す。その後、処理はステップS1505へ進む。
 ステップS1505では、動画データベース301からの動画コンテンツのダウンロードを情報源監視部1401が検出し、動画管理部303に対してダウンロード先のクライアントCLTのユーザに関する関心情報を要求する。それに応じて動画管理部303から動画コンテンツの最新の視聴履歴が返信された場合、関心情報取得部1402はその履歴からシーン情報を読み取って単語表管理部1406へ渡す。その後、処理はステップS1506へ進む。
 ステップS1506では、基準単語表管理部1406が、単語別の出現回数と、関心情報、ユーザ、及び視聴日時の間の対応関係とに基づいて、関心情報から抽出された単語群と各単語の出現日時とを、関心情報データベース302に登録されている各ユーザに関する基準単語表に追記し、又は新たな基準単語表に記入する。その後、処理は終了する。
 図16は、基準単語表管理部1406によって管理される基準単語表を示す表である。図16を参照するに、基準単語表は各ユーザの識別情報1401、1402に、そのユーザに関する関心情報から抽出された各単語、現在までに収集された関心情報におけるその単語の出現回数、及びその出現日時の一覧を対応付けている。
 [ダイジェスト抽出部の詳細]
   -ダイジェスト抽出部の機能-
 図17は、ダイジェスト抽出部312の機能ブロック図である。図17を参照するに、ダイジェスト抽出部312は、類似性評価部1710、復号部1720、及びシーン連結部1730を含む。復号部1720は、MPEG-2 TS形式に対応したデコーダであり、PIDフィルタ1721、STCカウンタ1722、映像デコーダ1723、PGデコーダ1724、テキスト字幕デコーダ1725、音声デコーダ1726、映像プレーン・メモリ1727、PGプレーン・メモリ1728、音声ミキサ1729、及びプレーン加算部172Aを含む。類似性評価部1710とシーン連結部1730とはCPU201によってソフトウェア的に実現され、復号部1720はハードウェア・デコーダ203に実装される。
 類似性評価部1710はユーザ識別部314からクライアントCLTとユーザとの識別情報を受信し、そのユーザの識別情報を利用してそのユーザに関する基準単語表を関心情報データベース302から検索する。一方、類似性評価部1710はそのクライアントCLTの識別情報を利用して、動画データベース301に登録された動画コンテンツの中から処理対象を選択し、その処理対象に関するシーン情報を動画データベース301から検索する。ここで、その処理対象は、そのクライアントCLTによって表示可能な動画コンテンツである。類似性評価部1710は続いて、検索されたシーン情報から、各シーンが表す音声又は字幕に出現する単語を抽出し、基準単語表に登録された基準の単語と照合する。それにより、類似性評価部1710は、各シーンが表す音声又は字幕に出現する単語の集合と基準の単語の集合との共通部分に属する単語の数を決定し、そのシーンに関する類似性の評価値をその単語の数に設定する。類似性評価部1710は更に、各シーンに関する評価値を上記の閾値と比較して、評価値がその閾値以上であるシーンを特定する。処理対象の動画コンテンツに含まれる全てのシーンに関する評価値を閾値と比較し終えた後、類似性評価部1710は、特定されたシーンそれぞれの表示期間を表すPTSの対をシーン情報から読み出して、その動画コンテンツの識別情報と共に復号部1720へ渡す。類似性評価部1710はまた、特定されたシーンに関する評価値の中から最高評価値を選択し、その最高評価値と評価値が等しいシーンにおける最頻出単語をシーン情報に基づいて決定し、その最高評価値と最頻出単語とをクライアントCLTの識別情報と共にダイジェスト提示部313へ通知する。
 PIDフィルタ1721は、類似性評価部1710から受信した動画コンテンツの識別情報を用いて動画データベース301からその動画コンテンツのTSパケット列を検索し、図6に示されているもの610と同様に、それらのTSパケットをPID別に分別する。すなわち、PIDフィルタ1721はまず、PID=0のTSパケットからPAT431を復元し、次に、そのPAT431の示すPIDを利用してPMT432を復元する。PIDフィルタ1721は続いて、そのPMT432から各エレメンタリ・ストリームのPIDを読み出し、そのPIDを含むTSパケットを、そのエレメンタリ・ストリームの復号に適したデコーダ1723、1724、1725、1726へ転送する。具体的には、PIDが、0x1011、0x1100-0x111Fのいずれか、0x1200-0x121Fのいずれか、0x1400-0x141Fのいずれか、0x1800であるTSパケットはそれぞれ、映像デコーダ1723、音声デコーダ1726、PGデコーダ1724、及びテキスト字幕デコーダ1725へ転送される。PIDフィルタ1721はまた、PMT432の示すPCR433のPIDを利用してPCR433を検出し、その検出時にSTCカウンタ1722の値を、そのPCR433が示す値に揃える。
 STCカウンタ1722は、27MHzクロックのパルスを数えるカウンタであり、そのカウント値が各デコーダ1723、…、1726によってSTCとして利用される。具体的には、各デコーダは、TSパケットからPESパケットを復元してそのヘッダからPTSを読み取り、そのPTSに従って、そのPESパケットの含むデータを復号すべきタイミングを決める。
 映像デコーダ1723は、TB1701、MB1702、EB1703、圧縮映像デコーダ(DEC)1704、及び復号ピクチャ・バッファ(DPB:Decoded Picture Buffer)1705を含む。TB1701、MB1702、EB1703、及びDPB1705はいずれもバッファ・メモリであり、それぞれが、映像デコーダ1723に内蔵されたメモリ素子の一領域を利用する。TB1701はPIDフィルタ1721からのTSパケットをそのまま蓄積する。MB1702は、TB1701に蓄積されたTSパケットからヘッダを除去し、残りのデータからPESパケットを復元して蓄積する。EB1703は、MB1702に蓄積されたPESパケットから圧縮ピクチャとそのPTSとを抽出して格納する。DEC1704は、圧縮ピクチャの復号処理に特化したハードウェア・デコーダであり、特にその復号処理のアクセラレータ機能を備えている。DEC1704は、EB1703に蓄積された圧縮ピクチャのヘッダから圧縮符号化方式とその属性とを特定し、それらに合った方法でその圧縮ピクチャを復号する。DEC1704は更に、復号された非圧縮のピクチャをDPB1705へ転送する。DPB1705はその非圧縮のピクチャを一時的に保持し、DEC1704からの指示に応じて、保持しているピクチャを参照ピクチャとしてDEC1704へ提供する。DPB1705は更に、EB1703に蓄積されたPTSのうち、類似性評価部1710から受信したPTSの対の間にあるものを検索し、検索された各PTSが示すタイミングで、そのPTSに対応するピクチャを映像プレーン・メモリ1727へ書き込む。
 PGデコーダ1724はまず、PIDフィルタ1721からTSパケットを受信して、それらからPESパケットを復元する。PGデコーダ1724は次に、そのPESパケットからグラフィックス・オブジェクトを復号すると共に、そのPESパケットからPTSを読み取る。PGデコーダ1724は更に、そのPTSが、類似性評価部1710から受信したPTSの対の間にある場合、そのPTSが示すタイミングでグラフィックス・オブジェクトをPGプレーン・メモリ1728へ書き込む。
 テキスト字幕デコーダ1725は、テキスト・デコーダ(DEC)1708とビットマップ・バッファ1709とを含む。DEC1708は、テキスト文字列の復号処理とレンダリング処理とに特化したハードウェア・デコーダであり、特にそれらの処理のアクセラレータ機能を備えている。DEC1708はまず、PIDフィルタ1721から受信されたTSパケット群からテキスト・データ・エントリを復号し、そのスタイル情報の示すフォント・セットとPTSとを特定する。DEC1708は次に、そのフォント・セットを利用して、同じテキスト・データ・エントリ内のテキスト情報の示すテキスト文字列をビットマップ・データへ変換し、そのデータをビットマップ・バッファ1709へ書き込む。ビットマップ・バッファ1709は、テキスト字幕デコーダ1725に内蔵されたメモリ素子の一領域である。ビットマップ・バッファ1726は、DEC1708によって特定されたPTSが、類似性評価部1710から受信したPTSの対の間にある場合、そのPTSが示すタイミングでビットマップ・データをPGプレーン・メモリ1728へ転送する。
 音声デコーダ1726は、図6に示されている音声デコーダ620と同様に、PIDフィルタ1721から受信されたTSパケット群を非圧縮の音声データに復号する。音声デコーダ1726は更に、その音声データの出力タイミングを示すPTSが、類似性評価部1710から受信したPTSの対の間にある場合、そのPTSが示すタイミングでその音声データを音声ミキサ1729へ渡す。
 音声ミキサ1729は、音声デコーダ1726から受信される非圧縮の音声データに、主音声を表すものの他に、副音声を表すものが含まれている場合、それらの音声データを用いてミキシングを行う。音声ミキサ1729は更に、そのミキシングで得られた合成音のデータをシーン連結部1730へ渡す。
 映像プレーン・メモリ1727とPGプレーン・メモリ1728とはいずれも、復号部1720に内蔵されたメモリ素子の一領域であり、少なくとも1フレームの画素データ、すなわちプレーン・データを格納可能である。「プレーン・データ」とは、画素データの2次元配列であり、その要素数が1フレームの解像度(例えば、HDでは1920×1080)に等しいものをいう。その配列の各要素、すなわち画素データは、色座標値とα値(不透明度)との組み合わせから成る。色座標値はRGB値又はYCrCb値で表される。映像プレーン・メモリ1727では、映像デコーダ1723が非圧縮のピクチャを書き込むことにより、映像プレーンが生成される。PGプレーン・メモリ1728では、PGデコーダ1724がグラフィックス・オブジェクトを書き込むことによってPGプレーンが生成され、テキスト字幕デコーダ1725がビットマップ・データを書き込むことによって字幕プレーンが生成される。PGプレーンと字幕プレーンとはいずれもグラフィックス・プレーンであり、グラフィックス映像を表す。
 プレーン加算部172Aは、映像プレーン・メモリ1727とPGプレーン・メモリ1728とのそれぞれから、同じPTSが示すタイミングで書き込まれたプレーン・データを読み出し、それらを互いに重畳して1枚のビデオ・フレームに合成する。プレーン加算部172Aは更にそのフレームをシーン連結部1730へ渡す。
 シーン連結部1730は、プレーン加算部172Aから受信したフレームを蓄積して一連のフレーム列を構成する。シーン連結部1730は更に、音声ミキサ1729から受信した音声データをそのフレーム列に多重化してダイジェストを構成する。こうして、復号部1720によって動画データベース301から読み出された動画コンテンツのうち、類似性評価部1710から復号部1720へ受信したPTSの対が示す表示期間の映像を表す部分、すなわち、類似性評価部1710によって特定されたシーンの1つからダイジェストが構成される。シーン連結部1730はその後、同じ動画コンテンツから別のシーンを抽出した場合、そのシーンをダイジェストに連結する。類似性評価部1710から復号部1720へ受信したPTSの対が示す動画コンテンツの部分の全て、すなわち、類似性評価部1710によって特定されたシーンの全てからダイジェストを構成し終えた後、シーン連結部1730はそのダイジェストをダイジェスト提示部313へ渡す。
   -ダイジェスト抽出部とダイジェスト提示部との動作-
 図18は、ダイジェスト抽出部312による処理のフローチャートである。この処理は、クライアントCLTから届いたユーザの識別情報をユーザ識別部314がダイジェスト抽出部312へ渡すことによって開始される。
 ステップS1801では、類似性評価部1710が、ユーザ識別部314から受信したユーザの識別情報を利用してそのユーザに関する基準単語表を関心情報データベース302から検索する。その後、処理はステップS1802へ進む。
 ステップS1802では、類似性評価部1710が、ユーザ識別部314から受信したクライアントCLTの識別情報を利用して、動画データベース301に登録されている動画コンテンツの中から、そのクライアントCLTによって表示可能なものを1つ、処理対象として選択する。類似性評価部1710は更に、その処理対象に関するシーン情報を動画データベース301から検索する。その後、処理はステップS1803へ進む。
 ステップS1803では、類似性評価部1710が整数値変数jの値を1に初期化する。その後、処理はステップS1804へ進む。
 ステップS1804では、ステップS1802で検索されたシーン情報から、j番目のシーンが表す音声又は字幕に出現する単語を類似性評価部1710が抽出する。類似性評価部1710は続いて、抽出された単語から成る集合を、ステップS1801で検索された基準単語表に登録された基準の単語の集合と照合する。それにより、類似性評価部1710は、両集合の共通部分に属する単語の数を求めて、両集合間の類似性の評価値をその単語の数に設定する。類似性評価部1710はまた、両集合の共通部分に属する単語の中から最頻出単語をシーン情報に基づいて決定する。その後、処理はステップS1805へ進む。
 ステップS1805では、類似性評価部1710がj番目のシーンに関する類似性の評価値を上記の閾値と比較する。その評価値がその閾値以上である場合、処理はステップS1806へ進み、その閾値未満である場合、処理はステップS1807へ進む。
 ステップS1806では、j番目のシーンに関する類似性の評価値が上記の閾値以上である。その場合、その閾値の定義から「j番目のシーンはユーザの嗜好に合う」とみなされる。類似性評価部1710は、j番目のシーンの表示期間を示すPTSの対を、ステップS1802で検索されたシーン情報から読み出して、j番目のシーンに関する類似性の評価値と、ステップS1804で決定された最頻出単語と共に記憶する。その後、処理はステップS1807へ進む。
 ステップS1807では、類似性評価部1720は、ステップS1802で検索されたシーン情報に記載されたシーンの中に未処理のものが残っているか否かをチェックする。未処理のシーンが残っていれば、処理はステップS1808へ進み、残っていなければ、処理はステップS1809へ進む。
 ステップS1808では、ステップS1802で検索されたシーン情報に記載されたシーンの中に未処理のものが残っている。従って、類似性評価部1710は未処理のシーンの1つを処理対象に設定することを目的として、整数値変数jの値を1だけ増やす。その後、処理はステップS1804から繰り返される。
 ステップS1809では、ステップS1802で検索されたシーン情報に記載されたシーンの全てに対する処理が終わっている。従って、類似性評価部1710は、ステップS1806で記憶されたPTSの対を全て、ステップS1802で特定された動画コンテンツの識別情報と共に復号部1720へ渡す。類似性評価部1710は更に、ステップS1806で記憶された評価値の中から最高評価値を選択し、その最高評価値と共に記憶された最頻出単語を特定する。類似性評価部1710はその最高評価値と最頻出単語とを、ユーザ識別部314から受信したクライアントCLTの識別情報と共にダイジェスト提示部313へ通知する。
 一方、復号部1720は、類似性評価部1710から受信した識別情報が示す動画コンテンツを動画データベース301から検索する。復号部1720は更に、検索された動画コンテンツの中から、類似性評価部1710から受信したPTSの対が示す表示期間の映像を表す部分、すなわち類似性評価部1710によって特定されたシーンを全て復号し、1つのダイジェストに連結する。こうして構成されたダイジェストを復号部1720はダイジェスト提示部313へ渡す。その後、処理はステップS1810へ進む。
 ステップS1810では、動画データベース301に登録されている動画コンテンツの中に、クライアントCTLによって表示可能であるが、ダイジェストはまだ生成されていないものが残っているか否かを類似性評価部1710がチェックする。残っていれば、処理はステップS1802から繰り返され、残っていなければ、処理はステップS1811へ進む。
 ステップS1811では、ダイジェスト提示部313が、ダイジェスト抽出部312から受信した各動画コンテンツのダイジェスト、及びそのダイジェストの最高評価値と最頻出単語にその動画コンテンツの識別情報を組み合わせて動画コンテンツの一覧情報を作成する。ダイジェスト提示部313は更にその一覧情報を、ダイジェスト抽出部312から受信した識別情報が示すクライアントCLTへ送信する。その後、処理は終了する。
 [ダイジェストの表示方法]
 ユーザがクライアントCLTの1つに対し、NAS120に保存されている動画コンテンツの一覧の表示を指示した場合、そのクライアントCLTはNAS120へ、その一覧のダウンロード要求を送信する。NAS120はその要求に応じて動画コンテンツの一覧情報を上記のように作成し、そのクライアントCLTへ返信する。そのクライアントCLTはその一覧情報を利用して、それに含まれるダイジェストを、以下のように画面に表示する。
 図19の(a)は、図3に示されているクライアントの1つが視聴対象の動画コンテンツの選択画面に表示するダイジェストのレイアウトの一例を示す模式図である。図19の(a)を参照するに、クライアントCLTの画面SCNにはダイジェストDG1、DG2がそれぞれサムネイル表示されている。ダイジェストの表示領域はそれぞれサイズが等しく、マトリクス状に配置されている。そのマトリクスでは、表示領域の順序が最高評価値の大きさの順序を表す。例えば、画面の左上に表示されるダイジェストDG1は最高評価値が最も大きく、それよりも右又は下に遠く離れて表示されるダイジェストほど最高評価値が小さい。従って、画面の左上に表示領域が近いダイジェストほど、ユーザの嗜好に合う可能性が高い。更に各表示領域の下には、動画コンテンツのタイトルTTLに加えて最頻出単語MFWが表示されている。最頻出単語MFWは、そのダイジェストがどういう点でユーザの嗜好に合うのかをそのユーザが理解するためのヒントになり得る。このようにクライアントCLTはユーザに、視聴対象の動画コンテンツを選択する際に、ダイジェストDG1、DG2そのものだけでなく、それらの表示領域の位置と最頻出単語MFWとを判断材料として利用させることができる。
 図19の(b)は、図3に示されているクライアントの1つが視聴対象の動画コンテンツの選択画面に表示するダイジェストのレイアウトの別例を示す模式図である。図19の(b)を参照するに、クライアントCLTの画面SCNにはダイジェストDG3、DG4がそれぞれ、サムネイル表示されている。但し、図19の(a)とは異なり、ダイジェストによって表示領域のサイズが異なる。これは、表示領域のサイズが最高評価値の大きさを表すことに起因する。例えば、表示領域のサイズが最も大きいダイジェストDG3は最高評価値が最も大きく、表示領域のサイズが小さいダイジェストほど最高評価値が小さい。従って、ユーザの目に付きやすいダイジェストほど、そのユーザの嗜好に合う可能性が高い。こうして、クライアントCLTはユーザに視聴対象の動画コンテンツを手早く選択させることができる。
 《変形例》
 (A)本発明の実施形態によるホーム・ビデオ・システムは、図1に示されている電子機器の他にも、光ディスクの再生専用機、プリンタ、スキャナ、コピー機、固定電話機等、多様な電子機器及び情報家電を含んでもよい。また、LANのトポロジーは、図1に示されているスター型の他に、ハブ又はLANスイッチを利用してバス型又は樹木型等、多様な型式であってもよい。更に、電子機器間での動画コンテンツの転送は、ネットワーク経由以外に、メモリカード等の可搬性記録媒体に記録された状態で行われてもよい。
 (B)図3に示されているNAS120では、関心情報収集部315がLAN上の関心情報源ITSを検出し、それらに対して各ユーザに関する関心情報を要求する。その他に、関心情報源ITS又はルータ110が、ユーザによる情報の視聴に関するログを記録し、そのログを更新する度に、又は定期的に、そのログを関心情報収集部315へ送信してもよい。
 (C)関心情報収集部315が収集する上記の関心情報は一例に過ぎない。ユーザが送受信したEメールとその添付ファイル、ユーザが作成/編集した文書/音声/映像ファイル、それらのファイルを管理するディレクトリに関する情報等、ユーザが視聴可能な情報、及びその情報に関連する情報は、関心情報収集部315が自動的に取得可能であり、かつ音声又は文字列を含んでいれば、関心情報として利用可能である。
 (D)関心情報収集部315は、収集された関心情報の中から、所定の基準を満たすものを選択して基準単語表の作成に利用してもよい。例えば、視聴された時点が現時点から1週間若しくは1ヶ月等、所定の期間以内である情報、又は、視聴され、若しくは検索された回数が所定の閾値以上である情報が、実際の関心情報として採用される。
 (E)図2に示されているダイジェスト生成装置200と外部インタフェース220とは、複数のLSI等の集積回路から構成されてもよい。更に、それらの集積回路がマルチチップ・モジュールであってもよい。その場合、マルチチップ・モジュールには複数のチップが1つのパッケージに封止されているので、それらの集積回路は単一のLSIに見える。その他に、ダイジェスト生成装置200が、製造後にプログラムが可能なFPGA(Field Programmable Gate Array)、又は、内部の回路セル間の接続及び設定を再構成可能なリコンフィギュラブル・プロセッサによって構成されてもよい。
 (F)本発明の実施形態によるダイジェスト生成装置200は、NAS120以外にも、例えば録画装置130、表示装置140、PC150等、図2に示されているCPU201、メモリ部202等と同等なハードウェア構成を含む電子機器であれば搭載可能である。また、そのような電子機器であれば、図3に示されているダイジェスト生成装置200のいずれの機能部311、…、315も単独で実装可能である。従って、ダイジェスト生成装置200の機能部がLAN上の複数の電子機器に分散されてもよい。特にスマートフォン160のように、CPUパワーが比較的低く、又は記憶容量が比較的小さい電子機器であっても、ダイジェスト生成装置200の一部の機能を分担可能である。更にダイジェスト生成装置200が、インターネット等、WAN上のクラウド・サーバに搭載されてもよい。
 (G)図2に示されているダイジェスト生成装置200は動画コンテンツの復号にハードウェア・デコーダ203を利用する。その他に、CPU201がアプリケーション・プログラムに従ってソフトウェア・デコーダを構築して、動画コンテンツの復号に利用してもよい。
 (H)区間分類部311は動画コンテンツの各区間を、それの表す映像の表示時間が一定であるように定める。区間分類部311はその他に、音声又は字幕が連続する期間の映像を表す動画コンテンツの部分を1つの区間と定めてもよい。区間分類部311はまた、音声又は字幕に、「次は」及び「以上で」等、話題の変化を示す語句が出現する時点で動画コンテンツの区間を分けてもよい。
 (I)区間分類部311は単語別の出現回数から特徴ベクトルを構成する。区間分類部311はその他に、TF-IDF(Term Frequency-Inverse Document Frequency)等に従って単語別の出現回数から単語別の出現頻度を算定し、それを成分とする特徴ベクトルを構成してもよい。区間分類部311はまた、出現回数又は出現頻度が所定の閾値を超え、又は下回る単語を特徴ベクトルの成分から除外してもよい。それにより、特徴空間の各次元に対応する単語を、動画コンテンツの特徴付けに適したものに制限することができる。
 (J)区間分類部311は特徴ベクトルの類似度の算定に、式(1)の表すコサイン距離を利用する。区間分類部311はその他に、単語別の出現回数を成分とする特徴ベクトルを正規化によってノルム=1の特徴ベクトルに変換し、正規化後の特徴ベクトル間の内積を類似度として算定してもよい。
 (K)区間分類部311は、動画コンテンツが表す音声又は字幕に出現する単語と特徴空間の次元とを1対1に対応させる。区間分類部311はその他に、それらの単語(例えば「首相」、「与党」、「法案」、「晴れ」、「雨」、「台風」)を所定数のカテゴリー(例えば「政治」、「天気」)に分類してカテゴリー別に単語の出現回数を加算し、得られたカテゴリー別の出現回数又は出現頻度を特徴ベクトルの成分としてもよい。その場合、特徴空間の次元がカテゴリーの総数に抑えられるので、区間分類部311の負荷が軽減される。
 (L)図3に示されているダイジェスト抽出部312、ユーザ識別部314、及びクライアントCLTの間でのデータ交換におけるプロトコルは上記のものには限られず、他の様々な形態が利用可能である。例えば、クライアントCLT又はユーザの認証が省略されてもよく、また、動画コンテンツの一覧情報を暗号化して伝送するプロセスが追加されてもよい。
 (M)ダイジェスト抽出部312は、1つのシーンが表す音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性を、両集合の共通部分に属する単語の数で評価する。その場合、ダイジェスト抽出部312は基準の単語に対し、関心情報におけるその単語の出現回数に応じた重み付けをしてもよい。それにより、重みの高い基準の単語に一致する単語が音声又は字幕に多く出現するシーンほど、類似性が高く評価される。
 (N)ダイジェスト抽出部312は形態素解析により、テキスト・データの表す文字列から名詞を「単語」として抽出する。その他に、動詞、形容詞、形容動詞、又は副詞が「単語」として抽出されてもよい。
 (O)図1に示されているシステム100内の表示機器140等は、ダイジェスト生成装置200が生成するダイジェストを動画コンテンツの選択画面に利用する。その他に、表示装置140等がユーザに、動画コンテンツ本体に代えて、そのダイジェストを視聴させてもよい。例えば報道番組であれば、本来の放送時間よりも短い時間で、ユーザの嗜好に合うニュースのみをユーザに視聴させることができる。
 《補足》
 本発明は、上記の実施形態に基づき、下記のように特徴付けられてもよい。
 区間分類部は、1つの動画コンテンツ内で隣接する2つの区間の間で特徴ベクトルの類似度を算定して許容下限と比較し、その類似度が許容下限以上であれば、それら2つの区間を同じグループに分類する。その場合、各シーンでは、隣接する区間の対のそれぞれで特徴ベクトルがほぼ同じ向きに揃う。すなわちシーンの違いが、それらの間での音声又は字幕の特徴の違いを的確に反映する。
 区間分類部は、1つの動画コンテンツ内のj番目(文字jは1以上の整数を表す。)と(j+1)番目との区間の間での特徴ベクトルの類似度が許容下限未満である場合、(j+2)番目の区間から順番に、(j+k)番目(文字kは2以上定数GP以下の整数を表す。)とj番目との区間の間での特徴ベクトルの類似度を更に算定して許容下限と比較する。整数kが閾値GPを超える前に、更に算定された類似度が許容下限以上に達すれば、区間分類部はj番目から(j+k)番目までの区間を同じグループに分類する。一方、整数kが2から定数GPまでのいずれの値であっても、更に算定された類似度が許容下限に満たなければ、区間分類部はj番目と(j+1)番目との区間を異なるグループに分類する。その結果、各シーンでは特徴ベクトルがほぼ同じ向きに揃い、その向きとは特徴ベクトルの向きが大きく異なる部分が含まれていたとしても、その部分は、定数GPよりも少ない数の区間全体の長さしか連続していない。一方、異なるシーンの間では特徴ベクトルの向きが大きく異なる。このように、シーンの違いが、それらの間での音声又は字幕の特徴の違いを更に的確に反映する。
 ダイジェスト抽出部は、複数のグループのそれぞれが表す音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性を、両集合の共通部分に属する単語の数で評価する。その数が多いほど、音声又は字幕の特徴が、基準の単語の集合で表現される特徴に合う可能性が高い。従って、ダイジェスト生成装置は動画コンテンツのダイジェストを自動的に、迅速に、かつ基準に対して的確に抽出することができる。
 本発明によるダイジェスト生成装置は関心情報収集部を更に備えていてもよい。その関心情報収集部は、ユーザが外部装置を操作して視聴したコンテンツ、又はそのコンテンツに関する情報をそのユーザに関する関心情報としてその外部装置から取得し、その関心情報が表す音声又は文字列に含まれる単語の集合を基準の単語の集合として設定する。例えば、外部装置が、ユーザの操作に従って情報をネットワークで検索する装置である場合、その装置によって検索された情報、又は検索に用いられたキーワードが関心情報として利用可能である。外部装置が、ユーザにブラウザを操作させることによってWebページをネットワークからダウンロードする装置である場合、その装置によってダウンロードされたWebページが関心情報として利用可能である。外部装置が、ユーザの操作に従って放送番組を予約録画する装置である場合、その装置に録画予約がされた放送番組の番組情報が関心情報として利用可能である。外部装置が、ユーザの操作に従って動画コンテンツを画面に表示する装置である場合、その動画コンテンツのタイトル、番組情報、音声データ、又は字幕データが関心情報として利用可能である。それらの関心情報は、ユーザが視聴したコンテンツ又はそれに関する情報であるので、それが表す音声又は文字列に含まれる単語の集合はユーザの嗜好を適切に表現しているものとみなすことができる。従って、本発明によるダイジェスト生成装置はダイジェストを、ユーザの嗜好に合うものにすることができる。
 本発明によるダイジェスト生成方法は、電子機器を用いて動画コンテンツからダイジェストを生成する方法であり、
 1つの動画コンテンツに含まれる複数の区間のそれぞれが表す音声又は字幕における単語別の出現回数から当該区間の特徴ベクトルを構成するステップ、
 異なる区間の間での特徴ベクトルの類似度に基づいて前記複数の区間を複数のグループに分類するステップ、
 前記複数のグループのそれぞれが表す音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性を評価するステップ、及び、
 評価された値が所定の閾値以上であるグループをダイジェストとして前記1つの動画コンテンツから抽出するステップ、
を備えている。この方法は、動画コンテンツの区間をグループ分けする際、映像の特徴に代えて、音声又は字幕における単語別の出現回数を利用する。それにより、この方法は電子機器に各グループの特徴を自動的に、的確に、かつ迅速に分けさせることができる。更にこの方法は、ダイジェストとして抽出されるべきグループを、音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性に基づいて選択する。その結果、この方法は電子機器に動画コンテンツのダイジェストを自動的に、迅速に、かつ基準に対して的確に生成させることができる。
 本発明によるダイジェスト生成プログラムは、電子機器に動画コンテンツからダイジェストを生成させるためのプログラムであり、
 1つの動画コンテンツに含まれる複数の区間のそれぞれが表す音声又は字幕における単語別の出現回数から当該区間の特徴ベクトルを構成するステップ、
 異なる区間の間での特徴ベクトルの類似度に基づいて前記複数の区間を複数のグループに分類するステップ、
 前記複数のグループのそれぞれが表す音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性を評価するステップ、及び、
 評価された値が所定の閾値以上であるグループをダイジェストとして前記1つの動画コンテンツから抽出するステップ、
を前記電子機器に実行させる。このプログラムは電子機器に動画コンテンツの区間をグループ分けさせる際、映像の特徴に代えて、音声又は字幕における単語別の出現回数を利用させる。それにより、このプログラムは電子機器に各グループの特徴を自動的に、的確に、かつ迅速に分けさせることができる。更にこのプログラムは電子機器に、ダイジェストとして抽出されるべきグループを、音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性に基づいて選択させる。その結果、このプログラムは電子機器に動画コンテンツのダイジェストを自動的に、迅速に、かつ基準に対して的確に生成させることができる。
 本発明は、動画コンテンツのダイジェストを電子機器に自動的に生成させる技術に関し、上記のとおり、電子機器に、動画コンテンツの表す音声又は字幕に出現する単語を認識させて、その出現回数をその動画コンテンツの区間のグループ分けに利用させる。このように、本発明は明らかに産業上利用可能である。
 120    NAS
 200    ダイジェスト生成装置
 301    動画データベース
 302    関心情報データベース
 303    動画管理部
 311    区間分類部
 312    ダイジェスト抽出部
 313    ダイジェスト提示部
 314    ユーザ識別部
 315    関心情報収集部
 VSR    動画源
 CLT    クライアント
 ITS    関心情報源

Claims (11)

  1.  動画コンテンツからダイジェストを生成するための装置であり、
     1つの動画コンテンツに含まれる複数の区間のそれぞれが表す音声又は字幕における単語別の出現回数から当該区間の特徴ベクトルを構成し、異なる区間の間での特徴ベクトルの類似度に基づいて、前記複数の区間を複数のグループに分類する区間分類部、及び、
     前記複数のグループのそれぞれが表す音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性を評価し、評価された値が所定の閾値以上であるグループをダイジェストとして前記1つの動画コンテンツから抽出するダイジェスト抽出部、
    を備えたダイジェスト生成装置。
  2.  前記区間分類部は、前記1つの動画コンテンツ内で隣接する2つの区間の間で特徴ベクトルの類似度を算定して許容下限と比較し、当該類似度が前記許容下限以上であれば、前記2つの区間を同じグループに分類することを特徴とする、請求項1に記載のダイジェスト生成装置。
  3.  前記区間分類部は、
     前記1つの動画コンテンツ内のj番目(文字jは1以上の整数を表す。)と(j+1)番目との区間の間での特徴ベクトルの類似度が前記許容下限未満である場合、(j+2)番目の区間から順番に、(j+k)番目(文字kは2以上定数GP以下の整数を表す。)とj番目との区間の間での特徴ベクトルの類似度を更に算定して前記許容下限と比較し、
     整数kが閾値GPを超える前に、更に算定された類似度が前記許容下限以上に達すれば、j番目から(j+k)番目までの区間を同じグループに分類し、
     整数kが2から定数GPまでのいずれの値であっても、更に算定された類似度が前記許容下限に満たなければ、j番目と(j+1)番目との区間を異なるグループに分類する
    ことを特徴とする、請求項2に記載のダイジェスト生成装置。
  4.  前記ダイジェスト抽出部は、前記複数のグループのそれぞれが表す音声又は字幕に出現する単語の集合と前記基準の単語の集合との間の類似性を、両集合の共通部分に属する単語の数で評価することを特徴とする、請求項1に記載のダイジェスト生成装置。
  5.  ユーザが外部装置を操作して視聴したコンテンツ、又は前記コンテンツに関する情報を前記ユーザに関する関心情報として前記外部装置から取得し、前記関心情報が表す音声又は文字列に含まれる単語の集合を前記基準の単語の集合として設定する関心情報収集部、
    を更に備えた、請求項1に記載のダイジェスト生成装置。
  6.  前記外部装置は、前記ユーザの操作に従って情報をネットワークで検索する装置であり、前記関心情報は、当該装置によって検索された情報、又は検索に用いられたキーワードであることを特徴とする、請求項5に記載のダイジェスト生成装置。
  7.  前記外部装置は、前記ユーザにブラウザを操作させることによってWebページをネットワークからダウンロードする装置であり、前記関心情報は、当該装置によってダウンロードされたWebページであることを特徴とする、請求項5に記載のダイジェスト生成装置。
  8.  前記外部装置は、前記ユーザの操作に従って放送番組を予約録画する装置であり、前記関心情報は、当該装置に録画予約がされた放送番組の番組情報であることを特徴とする、請求項5に記載のダイジェスト生成装置。
  9.  前記外部装置は、前記ユーザの操作に従って動画コンテンツを画面に表示する装置であり、前記関心情報は当該動画コンテンツのタイトル、番組情報、音声データ、又は字幕データであることを特徴とする、請求項5に記載のダイジェスト生成装置。
  10.  電子機器を用いて動画コンテンツからダイジェストを生成する方法であり、
     1つの動画コンテンツに含まれる複数の区間のそれぞれが表す音声又は字幕における単語別の出現回数から当該区間の特徴ベクトルを構成するステップ、
     異なる区間の間での特徴ベクトルの類似度に基づいて前記複数の区間を複数のグループに分類するステップ、
     前記複数のグループのそれぞれが表す音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性を評価するステップ、及び、
     評価された値が所定の閾値以上であるグループをダイジェストとして前記1つの動画コンテンツから抽出するステップ、
    を備えたダイジェスト生成方法。
  11.  電子機器に動画コンテンツからダイジェストを生成させるためのプログラムであり、
     1つの動画コンテンツに含まれる複数の区間のそれぞれが表す音声又は字幕における単語別の出現回数から当該区間の特徴ベクトルを構成するステップ、
     異なる区間の間での特徴ベクトルの類似度に基づいて前記複数の区間を複数のグループに分類するステップ、
     前記複数のグループのそれぞれが表す音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性を評価するステップ、及び、
     評価された値が所定の閾値以上であるグループをダイジェストとして前記1つの動画コンテンツから抽出するステップ、
    を前記電子機器に実行させるためのダイジェスト生成プログラム。
PCT/JP2013/006415 2012-12-27 2013-10-30 ダイジェストを生成するための装置、方法、及びプログラム WO2014103123A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-284674 2012-12-27
JP2012284674A JP2016035607A (ja) 2012-12-27 2012-12-27 ダイジェストを生成するための装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2014103123A1 true WO2014103123A1 (ja) 2014-07-03

Family

ID=51020261

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/006415 WO2014103123A1 (ja) 2012-12-27 2013-10-30 ダイジェストを生成するための装置、方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP2016035607A (ja)
WO (1) WO2014103123A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740427A (zh) * 2016-01-29 2016-07-06 上海典爆信息科技有限公司 基于引擎的语言信息管理系统和方法
JP2016534666A (ja) * 2014-08-15 2016-11-04 小米科技有限責任公司Xiaomi Inc. ビデオのバックアップ方法、装置、プログラム及び記録媒体
CN107615268A (zh) * 2015-03-10 2018-01-19 非对称实验室公司 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法
CN109992667A (zh) * 2019-03-26 2019-07-09 新华三大数据技术有限公司 一种文本分类方法以及装置
CN112445921A (zh) * 2019-08-28 2021-03-05 华为技术有限公司 摘要生成方法和装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6610572B2 (ja) * 2017-01-24 2019-11-27 京セラドキュメントソリューションズ株式会社 編集装置
JP7158902B2 (ja) * 2018-06-13 2022-10-24 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
KR20210134866A (ko) * 2020-04-29 2021-11-11 엠랩 주식회사 동영상 내부의 정보를 검색하는 방법 및 장치
CN111770375B (zh) * 2020-06-05 2022-08-23 百度在线网络技术(北京)有限公司 视频处理方法、装置、电子设备及存储介质
JP2024024798A (ja) * 2022-08-10 2024-02-26 株式会社ユニゾンシステムズ 映像編集装置、映像編集プログラム、及び映像編集方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007305054A (ja) * 2006-05-15 2007-11-22 Nippon Hoso Kyokai <Nhk> コンテンツ受信装置およびコンテンツ受信プログラム
JP2009265909A (ja) * 2008-04-24 2009-11-12 Nippon Hoso Kyokai <Nhk> デジタル放送用の受信装置及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007305054A (ja) * 2006-05-15 2007-11-22 Nippon Hoso Kyokai <Nhk> コンテンツ受信装置およびコンテンツ受信プログラム
JP2009265909A (ja) * 2008-04-24 2009-11-12 Nippon Hoso Kyokai <Nhk> デジタル放送用の受信装置及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RIE SAWAI ET AL.: "Proposal and Evaluation of a Method for Calculating News Value for Creating News Digest", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN DATABASE, vol. 2, no. 2, 15 November 2009 (2009-11-15), pages 158 - 172 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016534666A (ja) * 2014-08-15 2016-11-04 小米科技有限責任公司Xiaomi Inc. ビデオのバックアップ方法、装置、プログラム及び記録媒体
CN107615268A (zh) * 2015-03-10 2018-01-19 非对称实验室公司 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法
CN107615268B (zh) * 2015-03-10 2021-08-24 非对称实验室公司 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法
CN105740427A (zh) * 2016-01-29 2016-07-06 上海典爆信息科技有限公司 基于引擎的语言信息管理系统和方法
CN105740427B (zh) * 2016-01-29 2019-06-14 上海典爆信息科技有限公司 基于引擎的语言信息管理系统和方法
CN109992667A (zh) * 2019-03-26 2019-07-09 新华三大数据技术有限公司 一种文本分类方法以及装置
CN109992667B (zh) * 2019-03-26 2021-06-08 新华三大数据技术有限公司 一种文本分类方法以及装置
CN112445921A (zh) * 2019-08-28 2021-03-05 华为技术有限公司 摘要生成方法和装置

Also Published As

Publication number Publication date
JP2016035607A (ja) 2016-03-17

Similar Documents

Publication Publication Date Title
WO2014103123A1 (ja) ダイジェストを生成するための装置、方法、及びプログラム
CA2924065C (en) Content based video content segmentation
US7131059B2 (en) Scalably presenting a collection of media objects
EP2557782B1 (en) Server system for real-time moving image collection, recognition, classification, processing, and delivery
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
JP6385447B2 (ja) 動画提供方法および動画提供システム
US10306287B2 (en) System and method for organizing multimedia content
US20110267544A1 (en) Near-lossless video summarization
KR102199446B1 (ko) 영상 컨텐츠 검색을 지원하는 영상 서비스 장치 및 영상 컨텐츠 검색 지원 방법
KR101811468B1 (ko) 톱-k 처리를 이용한 의미 보강
EP1920607A1 (en) Method and apparatus for encoding multimedia contents and method and system for applying encoded multimedia contents
US20080018503A1 (en) Method and apparatus for encoding/playing multimedia contents
KR20050099488A (ko) 비디오 및 메타데이터의 통합을 위한 비디오 멀티미디어응용 파일 형식의 인코딩/디코딩 방법 및 시스템
KR101640317B1 (ko) 오디오 및 비디오 데이터를 포함하는 영상의 저장 및 검색 장치와 저장 및 검색 방법
JP2009225116A (ja) ネットワーク伝送機能を備えた映像記録装置
WO2014103374A1 (ja) 情報管理装置、サーバ及び制御方法
Löffler et al. iFinder: An MPEG-7-based retrieval system for distributed multimedia content
KR101749420B1 (ko) 자막 정보를 이용한 영상 콘텐츠의 대표 이미지 추출 장치 및 방법
KR20090096158A (ko) 동영상 스틸컷 기반의 크로스미디어 검색 시스템 및 방법
AT&T
JP2008288804A (ja) 画像再生装置、画像再生装置の制御方法および制御プログラム
JP2010086615A (ja) 多重化装置およびプログラムおよび多重化方法
WO2018042959A1 (ja) 動画データ解析装置及び動画データ解析方法
Gibbon et al. Large-Scale Analysis for Interactive Media Consumption
Zavesky et al. Searching visual semantic spaces with concept filters

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13868741

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13868741

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP