WO2011013288A1 - 動画ファイル再生方法、動画ファイル再生装置およびその関連技術 - Google Patents
動画ファイル再生方法、動画ファイル再生装置およびその関連技術 Download PDFInfo
- Publication number
- WO2011013288A1 WO2011013288A1 PCT/JP2010/003806 JP2010003806W WO2011013288A1 WO 2011013288 A1 WO2011013288 A1 WO 2011013288A1 JP 2010003806 W JP2010003806 W JP 2010003806W WO 2011013288 A1 WO2011013288 A1 WO 2011013288A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- scene
- digest
- moving image
- detected
- decoded
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
- G11B27/105—Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
Definitions
- the present invention relates to a moving picture file reproducing method and a moving picture file reproducing apparatus for reproducing a digest (summarization of moving picture file) for grasping the contents of a moving picture file in a short time.
- the present invention relates to a technique for reproducing a digest of a moving image file that does not have additional information (camera operation information of a user, face detection information, camera shake sensor information, etc.) to be reproduced at high speed.
- the present invention also relates to digital cameras, digital video cameras, and DVD players.
- HDDs Hard Disc Drives
- DVDs Digital Versatile Discs
- Patent Document 1 As prior art documents related to the present invention, there are Patent Document 1 and Patent Document 2.
- information related to the content of the moving image is stored as additional information together with the moving image file.
- Use of the additional information enables direct digest reproduction without any operation for analysis. By doing so, the analysis time of the moving image is reduced, and the speed of digest playback is improved.
- the additional information related to the content of the moving image is face detection information, camera operation information by the user, camera shake sensor information, etc. if it is a moving image taken with a video camera, and if it is television recording information, data of the electronic program guide Etc.
- the present invention is to solve the above-mentioned problems, and it is an object of the present invention to provide a moving picture file reproducing method and a moving picture file reproducing apparatus which can start digest reproduction at high speed even for moving picture files having no additional information.
- the present invention takes the following measures in order to solve the above problems.
- the moving image file subject to playback processing has additional information (face detection information, camera shake sensor information, user's camera operation information, etc.) related to the content of the moving image for generating a digest that is a summary of the moving image file.
- the non-moving image file may of course be a moving image file having such additional information. In the case of a moving image file having additional information, it is not necessary to use the additional information.
- a moving image file to be processed is read out from the recording medium, and the read out moving image file is decoded to detect a digest scene including specific information such as face information. At this time, the number of decoded frames n F is counted.
- a digest scene including specific information such as face information is detected in the decoded moving image data. Further, the start / end position of the digest scene including the detected specific information is specified, and the number of digest scenes detected ns is counted.
- the specific information mentioned here is Information on a specific area to be detected on the moving image plane (for example, when detecting a face area of a person as the specific area, information on the face area) ⁇ Moving image change information (for example, information on scene change and information on zoom processing), ⁇ Voice information, and so on.
- the scene number determination threshold N is a threshold for determining the reproduction start time of the digest scene based on the detected scene number n s .
- the frame number determination threshold value M is a threshold for determining a reproduction start time of the digest scene based on the decoded frame number n F.
- the determination of [5] includes the determination of [5-1] and the determination of [5-2] described below.
- This determination is a determination to perform the comparison process in the above [4] after performing the comparison process in the above [3], and
- the number of detected scenes is equal to or more than the scene number determination threshold N.
- the number of detected scenes is 1 or more and less than the scene number determination threshold N
- the number of decoded frames is more than the number of frame determination threshold M. In this case, it is determined that the digest scene detected in the above [2] is to be decoded.
- This determination is a determination to perform the comparison process in the above [3] after performing the comparison process in the above [4], and
- the number of decoded frames is equal to or more than the number of frame determination threshold M.
- the number of decoded frames is less than the number of frames determination threshold M, and in the above [3], the number of detected scenes is greater than or equal to the number of scenes determination threshold N. In this case, it is determined that the digest scene detected in the above [2] is to be decoded.
- the digest which is the summary of the moving image file is not generated.
- the digest is not generated in advance, converted into a file, and then the digest file is not reproduced.
- Decoding and reproducing only a digest scene including specific information is digest reproduction (filtered reproduction). Since the digest is not generated, additional information such as face detection information and camera shake sensor information related to the content of the moving image which is the original when generating the digest is not required. That is, not only the creation of the additional information is not required, but also the search by the additional information is not required. Even moving image files that do not have such additional information can be processed. Even in the case of a moving image file having additional information, the additional information may not be used.
- the scene number determination threshold value smaller than the total number of scenes of the target moving image file, it is possible to reproduce the digest scene including the specific information without waiting for the analysis end of all the moving image data.
- the number of detected scenes does not reach the scene number determination threshold, when the number of decoded frames reaches the number of frame determination threshold or more, reproduction of a digest scene is started. As a result, the playback start time of the digest scene is advanced, and the digest playback is speeded up.
- this moving image creation method even a moving image file that does not have additional information such as face detection information that is the basis for generating a digest can be processed as a processing target, and all analysis of all moving image data is waited for Since it is possible to start the reproduction of the digest scene including the specific information, the reproduction start time of the digest scene is advanced, and the digest reproduction is accelerated.
- any one of the moving picture file reproducing apparatus, the digital camera, the digital video camera and the DVD player according to the present invention A first decoder that decodes the moving picture file and counts the number of decoded frames; After detecting a digest scene including specific information from a plurality of scenes constituting moving image data decoded by the first decoder, specifying the start / end position of the detected digest scene, and the number of detected digest scenes A digest detection unit that counts A detected scene number determination unit that compares the number of detected digest scenes counted by the digest detection unit with a scene number determination threshold for determining a reproduction start time of the digest scene; A decoded frame number determination unit that compares the number of decoded frames counted by the first decoder with a frame number determination threshold for determining the reproduction start time of the digest scene; If it is determined that the digest scene detected by the digest detection unit is to be decoded based on the comparison determination result of the detected scene number determination unit and the comparison determination result of the decoded frame number determination unit, A second decoder
- the second decoder has the following two modes.
- the second decoder incorporates the comparison determination result of the detected scene number determination unit earlier than the comparison determination result of the decoded frame number determination unit, and determines whether the digest scene is to be decoded.
- the detected scene number determination unit the detected scene number is greater than or equal to the scene number determination threshold.
- the number of detected scenes is 1 or more and less than the number of scenes determination threshold in the number of detected scenes determination unit, and the number of decoded frames is equal to or more than the number of frames determination threshold in the number of decoded frames determination unit. In case, It is determined that the digest scene detected by the digest detection unit is to be decoded.
- the second decoder incorporates the comparison determination result of the decoded frame number determination unit earlier than the comparison determination result of the detected scene number determination unit, in the decoding determination of the digest scene, In the decoded frame number determination unit, the decoded frame number is equal to or greater than the frame number determination threshold. Or In the decoded frame number determination unit, the decoded frame number is less than the frame number determination threshold, and in the detected scene number determination unit, the detected scene number is greater than or equal to the scene number determination threshold. In case, It is determined that the digest scene detected by the digest detection unit is to be decoded.
- the number of detected scenes in the digest scene including specific information such as face information is equal to or greater than the scene number determination threshold
- the number of decoded frames is equal to or greater than the number of frame determination threshold
- FIG. 1A is a flowchart (part 1) illustrating a procedure of processing of a moving image file reproduction method according to a first embodiment.
- FIG. 1B is a flowchart (part 2) of the procedure of the process of the moving image file reproducing method according to the first embodiment.
- FIG. 2 is a block diagram showing the configuration of the moving picture file reproducing apparatus according to the first embodiment of the present invention.
- FIG. 3A is a first exemplary diagram of the decoding start position in the first decoding step S11.
- FIG. 3B is a second exemplary diagram of the decoding start position in the first decoding step S11.
- FIG. 4 is a flowchart showing the detailed flow of the detection step S13 of FIG. FIG.
- FIG. 5 is an exemplary view of information output from the face detection unit in the first embodiment of the present invention.
- FIG. 6 is an explanatory drawing showing the relationship between the first decoder and the second decoder when N scenes are detected in Embodiment 1 of the present invention.
- FIG. 7 is an explanatory drawing showing the relationship between the first decoder and the second decoder in the M-th frame in the first embodiment of the present invention.
- FIG. 8 is an explanatory drawing showing a method for starting decoding of a digest scene in Embodiment 1 of the present invention.
- FIG. 9A is a flowchart (No. 1) showing a procedure of processing of a moving image file reproduction method in the case where steps are replaced in FIG.
- FIG. 1 is a flowchart (No. 1) showing a procedure of processing of a moving image file reproduction method in the case where steps are replaced in FIG.
- FIG. 1 is a flowchart (No. 1) showing a procedure of processing of a moving image file reproduction method in the case
- FIG. 9B is a flowchart (part 2) of the procedure of the process of the moving picture file reproduction method when the steps are replaced in FIG. 1.
- FIG. 10A is an exemplary diagram (No. 1) of an execution example of the first embodiment of the present invention.
- FIG. 10B is a second example of the execution example of the first embodiment of the present invention.
- FIG. 10C is an exemplary view (No. 3) of an execution example of the first embodiment of the present invention.
- FIG. 10D is an illustration (No. 4) of an execution example of the first embodiment of the present invention.
- FIG. 11 is an explanatory diagram of a reproduction situation in the case where the setting value of the scene number determination threshold N is smaller than the condition of the first embodiment in the second embodiment of the present invention.
- FIG. 10A is an exemplary diagram (No. 1) of an execution example of the first embodiment of the present invention.
- FIG. 10B is a second example of the execution example of the first embodiment of the present invention.
- FIG. 10C is an exemplary view
- FIG. 12 is an explanatory diagram of how to expand the decoded frame interval according to the number of remaining frames in the second embodiment of the present invention.
- FIG. 13 is a block diagram showing the configuration of a moving picture file reproducing apparatus that displays the decoding results of the first decoder and the second decoder according to the second embodiment of the present invention.
- FIG. 14 is a flowchart showing a process flow of displaying the decoding results of the first decoder and the second decoder in the second embodiment of the present invention.
- FIG. 15 is an illustration of an example of execution of a process of displaying the decoding result of the first decoder and the second decoder in the second embodiment of the present invention.
- FIG. 17 is an explanatory drawing showing an example of reducing the number of frames in the first decoding step S11 in Embodiment 3 of the present invention. It is a block diagram which shows the structure of the moving image file reproducing
- FIG. 21 is a flowchart showing a flow that replaces steps S31 to S33 in the sixth embodiment of the present invention. It is an illustration figure of the example of implementation of Embodiment 6 of this invention.
- the moving picture file reproducing method of the present invention can be further advantageously developed in the following embodiment.
- the decoding speed in the first decoding step is set to A times (A is a positive number exceeding 1) the decoding speed in the second decoding step. There is. According to this aspect, the reproduction start time of the digest scene is further advanced, and the digest reproduction is further speeded up.
- the first decoding step requires a decoding mode for decoding from the first frame of the moving picture file and a decoding mode for decoding from the last frame of the moving picture file
- the moving image file is decoded while switching according to.
- the division point frame pre-decoded after the division point frame at the division point provided for each fixed size in the moving picture file is preceded decoded.
- the specific information from the moving image data of a point frame and selectively decoding the moving image file of a frame group in the vicinity of the division point frame where the specific information is detected.
- the decoding of a moving image file first, roughly detecting the digest scene including the specific information, narrowing down the candidate frames of the digest scene, and then densely detecting the digest scene in the narrowed frames. Become.
- the detection of the digest scene can be realized with a smaller number of frames than the actual data, and the time length required for the digest reproduction can be further shortened.
- the moving picture file reproducing method of the present invention is compressed based on inter-frame prediction,
- the first decoding step only the Intra frame is decoded.
- Moving picture files in the Moving Picture Experts Group (MPEG) format are composed of Intra frames, Predictive frames, and Bidirectionally predictive frames.
- MPEG Moving Picture Experts Group
- the necessary information is preferably luminance information.
- luminance information and color difference information are general for luminance information and color difference information to be compressed together in a moving image file, digest reproduction can be further speeded up by limiting the decoding target to luminance information.
- the first decoding step, the detection step, the first comparison step, the second comparison step, and the second decoding step are looped.
- the first decoding step frames of the moving image file are discontinuously decoded at intervals.
- the interval between decoded frames is adjusted according to the number of remaining frames or the number of remaining scenes for which decoding of the digest scene is unprocessed in the second decoding step.
- the moving image file reproducing method of the present invention In the detection step, arbitrary specific information can be selected from a plurality of the specific information, And, in the detecting step, the specific information is selected according to a power supply amount in a decoding device that executes the first decoding step and the second decoding step.
- a power supply amount in a decoding device that executes the first decoding step and the second decoding step.
- a digest scene is detected using a plurality of specific information such as face information and voice information as specific information, and when power is supplied from a battery, the specific information The digest scene is detected using only face information. Thereby, the decoding process according to the power supply amount is performed, and unnecessary power consumption is suppressed.
- the specific area is preferably a face area.
- the face area is one of the most suitable elements.
- the change information is a scene change or zoom information in the image file.
- scene change and zoom information is one of the most suitable elements.
- Audio information is one of the most suitable elements in detecting a digest scene.
- the moving image file reproducing method in the step of decoding a digest scene from the moving image file, is a compression method based on inter-frame prediction, and a P (Predictive) frame
- a B (Bidirectionally Predictive) frame When a B (Bidirectionally Predictive) frame is designated as the start position, the digest scene is reproduced from an I (Intra) frame immediately before the start position.
- I-frames can be decoded only by I-frames, but P-frames and B-frames can not be decoded without I-frames. Therefore, when a P frame or B frame is specified as the start position, it is appropriate to start decoding from an I frame serving as a reference frame.
- the moving picture file reproducing method in the step of decoding a digest scene from the moving picture file, is a compression method based on inter-frame prediction and a P (Predictive) frame
- a B (Bidirectionally Predictive) frame is designated as the start position
- the digest scene is decoded from the I (Intra) frame, but the digest scene is reproduced from the frame designated as the start position.
- reproduction may be performed from the P frame or B frame as the start position.
- the detected digest scene may have one scene from the start position to the end position.
- the detected digest scene is a scene having a certain number of frames K. If the number of frames is small, the user does not know what is displayed. Therefore, if the appropriate number of frames K is determined as the threshold and the number of detected scenes n s becomes this threshold (the number of frames K), the user's viewing becomes easy to understand if this is used as the digest scene.
- the moving picture file reproducing method further includes the step of recording the specific information as additional information in the moving picture file. If the specific information used for detecting the digest scene is recorded as additional information, analysis of the moving image file becomes unnecessary after the next time, and digest reproduction can be performed at high speed even with the existing reproduction method.
- the moving image file reproducing method according to (1) further including the step of compressing the detected digest scene at a low compression rate and compressing and recording the non-target scene at a high compression rate. is there.
- the moving image file of the obtained digest scene is recorded, and the important digest scene is of high resolution and high quality.
- FIG. 1 is a flowchart showing a procedure of processing of a moving image file reproducing method according to a first embodiment of the present invention.
- S11 thereby decoding one frame at a time with no additional information video file, the number of frames decoded (hereinafter, referred to as decoded frame number n F) is a first decoding step of counting.
- a digest scene before comparison with the threshold value K is referred to as a digest scene candidate, and a digest scene regarded as a normal digest scene based on the comparison with the threshold value K is simply referred to as a digest scene to distinguish the two. .
- S15 is a first comparison step of comparing the number n s of detected scenes counted in the detection step S13 with the scene number determination threshold N.
- the first comparison step specifically, it is determined whether the number of detected scenes n s is equal to or greater than the scene number determination threshold N.
- the scene number determination threshold N is a natural number and is a threshold for determining the reproduction start time of the digest scene.
- the second comparison step S17 is a second comparison step performed when it is determined in the first comparison step S15 that the detected scene number n s is 1 or more and less than the scene number determination threshold N.
- the number n F and the frame number determination threshold M decoded frame is compared. Specifically, the frame number n F decoded by the first decoding step S11 whether or not the frame number determination threshold value M or more is determined.
- the frame number determination threshold M is a natural number, and is a threshold for determining the playback start time of the digest scene.
- the detected scene number n s is determined to be the scene number determination threshold N or more in the first comparison step S15, or the detected scene number n s is less than the scene number determination threshold N in the first comparison step S15. although it is determined as the frame number n F in the second comparison step S17 is Tatsuhata steps to make a digest reproduction flag when it is determined that the number of frames determined threshold M or more.
- S21 is a final position determination step of determining whether or not the frame subjected to the second comparison step S17 or the flag step S19 is the final frame of moving image data to be subjected to digest reproduction.
- S31 is a determination step of determining whether or not the digest reproduction flag is flagged.
- S33 is a second decoding step of selectively decoding the digest scene detected in the detection step S13. Steps S11 to S21 and steps S31 to S33 operate in parallel.
- FIG. 2 is a block diagram showing the main part of a digital camera, a digital video camera, or a DVD (Digital Versatile Disc) player provided with the configuration of the moving picture file reproducing apparatus according to the first embodiment.
- This apparatus includes a recording medium 20, a first decoder 11, a face detection unit 13, a detected scene number determination unit 14, a decoded frame number determination unit 15, a second decoder 12, and a display unit 16. Prepare.
- the recording medium 20 stores a moving image file 21 to be subjected to digest reproduction.
- the first decoder 11 reads a moving image file from the recording medium 20 and decodes it one frame at a time. Furthermore, the first decoder 11 counts the number of decoded frames n F (the number of decoded frames).
- the face detection unit 13 detects various digest scenes from the data decoded by the first decoder 11, detects the start / end position of the digest scene, and counts the number of detected scenes n s. carry out.
- the face detection unit 13 is an example of a digest detection unit.
- the detected scene number determination unit 14 compares the detected scene number n s obtained by the face detection unit 13 with the scene number determination threshold N.
- the detected scene number determination unit 14 determines whether the detected scene number n s is equal to or larger than the scene number determination threshold N.
- the decoded frame number determination unit 15 compares the number of decoded frames n F obtained by the first decoder 11 with the frame number determination threshold M. Specifically, in the decoded frame number determination unit 15, it is determined whether or not the number of decoded frames n F is equal to or more than the number of frame determination threshold M.
- the second decoder 12 decodes only the digest scene detected by the face detection unit 13.
- the display unit 16 displays the decoded data.
- the first decoder 11 and the second decoder 12 are part of the decoder in the multi-decoder 10.
- the multi decoder 10 has two or more decoders mounted, and can adjust the number of decoders allocated to the first decoder 11 and the second decoder 12 according to processing.
- the detected scene number determination unit 14 and the decoded frame number determination unit 15 are configured as functions of a CPU (not shown). It is assumed that the number of decoded frames n F , the number of detected scenes n s , and various other data required in the present embodiment are managed by a CPU (Central Processing Unit).
- First decoding step S11 First, the first decoder 11 after having decoded a frame reads the moving image file 21 recorded in the recording medium 20, and counts the decoded frame number n F. When the first decoding step S11 is completed, the process proceeds to a detection step S13.
- the decoded data decoded by the first decoder 11 is supplied to the face detection unit 13.
- the face detection unit 13 detects a digest scene from the decoded data, and detects the start / end position of the digest scene. Further, the face detection unit 13 counts up the number of detected scenes n s (the number of detected scenes) based on the detection of the digest scene.
- the detection step S13 is completed, the process proceeds to a first comparison step S15.
- the detected scene number determination unit 14 compares the detected scene number n s with the scene number determination threshold N. That is, the detected scene number determination unit 14 determines whether the detected scene number n s is equal to or more than the scene number determination threshold N. If it is determined that the detected scene number n s is less than the scene number determination threshold N, the process proceeds to the flag step S19, and if it is determined that the detected scene number n s is greater than or equal to the scene number determination threshold N, the second It transfers to comparison step S17 of.
- the decoded frame number determination unit 15 compares the number of decoded frames nF with the frame number determination threshold M. That is, the decoded frame number determination unit 15 determines whether the number of decoded frames n F is equal to or greater than the number of frame determination threshold M.
- the operation of the second decoder 12 (a flag step S19, a final position determination step S21, a flag determination step S31 , The second decoding step S33).
- the information of the moving image file 21 and the information of the start / end position of the digest scene (detected by the face detection unit 13) are supplied to the second decoder 12.
- the second decoder 12 decodes only the digest scene detected by the face detection unit 13 in the second decoding step S33, and supplies the decoded data to the display unit 16 for reproduction.
- the process moves to the final position determination step S21.
- the first decoder 11 stops its operation when it is confirmed in the final position determination step S21 that the decoding has been completed up to the final frame of the moving image file 21.
- the second decoder 12 stops its operation, and the display unit 16 also stops accordingly, and the reproduction ends.
- the first decoder 11 sequentially decodes the moving image file 21 read from the recording medium 20 from its head data.
- the first decoder 11 operates at a decoding speed that is A times (A is a positive number greater than 1) that of the second decoder 12.
- the decoding speed is the time required for decoding per frame (the shorter the time required for decoding, the faster the decoding speed).
- the decoding speed required to reproduce a 30 fps (frame per second) moving image is 1/30 (seconds / frame). Since the second decoder 12 generates decoded data for display, in consideration of reproducing a moving image at 30 fps, a decoding speed of 1/30 (seconds / frame) is sufficient.
- the amount of data to be decoded may be reduced.
- luminance data, color difference data, sound data, etc. in the moving image file 21, but the data necessary for face area detection in this embodiment is only the luminance data. Only luminance data is decoded from the read moving image data.
- the motion picture data is compressed together with luminance data and color difference data, and there are also specifications for decoding both depending on the device specifications, but the memory access amount is reduced, resulting in high speed as a result.
- luminance data is used in the above-described example, other data in the moving image file may be used depending on the detection content, or may be used in combination.
- the digest scene is not such that there is only one frame, but it should be continuous to some extent. Therefore, the number of times of decoding may be reduced to once in two frames and once in three frames.
- the decoding position in the moving image data is not limited to only the head frame of the moving image data.
- 3A and 3B show an example of the decoding start position in the first decoding step S11. As shown in FIG. 3A, decoding may be sequentially performed from the head frame to the final frame of moving image data, or sequentially from the last frame to the head frame, and decoding from a plurality of positions as shown in FIG. May start.
- the face detection unit 13 detects a digest scene candidate from the decoded data, and further detects the start / end position of the digest scene candidate. Further, in the detection step S13, the number of detected scenes n s is counted up based on the detection of the digest scene candidate. In counting up the number of detected scenes n s , only digest scene candidates having a frame number equal to or more than scene units are extracted as valid digest scenes from digest scene candidates, and then the number of scene units included in the extracted digest scene (detection Count up the scene number n s ).
- the threshold K indicates a scene unit.
- the scene unit indicates the minimum number of frames that can be recognized as a digest scene.
- FIG. 4 shows the detailed flow of the detection step S13.
- Face area detection is performed on the decoded data (step S41), and it is determined whether or not a face area is detected in step S41 (step S42). If it is determined in step S42 that the face area is detected, it is determined that the frame in which the face area is detected is included in the digest scene candidate, and the number d F of detection frames of the digest scene candidate is counted up (step S43). ). Further, it is determined whether the detected frame number d F counted up is 1 or not (step S44).
- step S48 it is determined whether the number of detected frames at the current time is less than 1 (step S48). If it is determined in step S48 that the number of detected frames d F is less than 1, it is determined that a face area has not been detected, and the series of processing ends.
- step S49 If it is determined in step S49 that the number of frames in the period from the start position to the current frame is determined to be larger than the threshold K, then the frame immediately preceding the current frame is the number of frames that is an integral multiple of scene units (including 1). It is determined that the continuous digest scene is maintained with the number of frames which is less than the scene unit after being continuous.
- the digest scene maintained at this time is the number of frames which is an integral multiple (including 1) of the scene unit (hereinafter referred to as the first frame number) and the number of frames less than the scene unit (hereinafter referred to as the second frame number) Has the number of frames added.
- step S49 If it is determined in step S49 that the number of frames in the period from the start position to the current frame is determined to be larger than the threshold K, the threshold is further increased from the frame position displaced from the start position of the digest scene being maintained to the first number of frames.
- the frame position advanced by K (the first frame number + K) is determined as the end position of the digest scene currently maintained, and the end position is updated by the frame position (first frame number + K) (Step S50).
- step S49 determines whether the number of frames in the period from the start position to the current frame is determined to be smaller than the threshold K. If such a determination is made in step S49, it is determined that the digest scene candidate is not a legitimate digest scene but not necessary, and the start position recorded in step S45 is discarded (step S53).
- step S51 the number of detected frames d F is initialized (set to 0) (step S51), and the count-up of the number of detected scenes n s is resumed (step S52). .
- step S45 When the processes of step S45, step S46, step S48, step S52, and step S53 end, the detection ends.
- step S41 a method of detecting a face area from the positional relationship of standard face parts (such as eyes and mouth), a method of detecting a face area based on face color and edge information, or a method of preparing in advance Since various inventions such as a method of detecting a face area based on comparison with the feature data of the face area have already been made and are obvious processes, the description will be omitted.
- the information output from the face detection unit 13 is shown in FIG.
- the detection result 30 output from the face detection unit 13 includes total detected scene number information 31 and digest scene information 32.
- the digest scene information 32 comprises start position information 33 and end position information 34.
- the 50th frame In the processing of the 50th frame in which the face area is detected for the first time, the 50th frame is determined to be included in the digest scene candidate, and the number of detected frames d F is counted up to 1 and the digest scene The 50th frame is stored as the start position.
- the detection frame number d F is sequentially counted up.
- the detection frame number d F is sequentially counted up.
- the detection frame number d F is sequentially counted up to 21.
- the digest scene is determined and the start / end position thereof is specified and stored.
- the number of detected scenes n s is counted up from 3 to 4, and then the count-up is continued, and the start / end position is stored.
- the processing below the detection frame number d F is the threshold value K is started in the case of more than the threshold value K to the end position from the position, although the digest scene, the threshold K to the end position from the start position If less than, the digest part was truncated.
- the scene number determination threshold N is a threshold for determining the timing to start digest reproduction (the digest scene reproduction start time) based on the detected scene number n s , and there are various setting methods.
- the scene number determination threshold N is set to a value that does not interrupt playback if digest playback is started.
- a method of setting such a scene number determination threshold N will be described.
- FIG. 6 shows the relationship between the first decoder 11 and the second decoder 12 when N (defined by the scene number determination threshold N) scenes are detected.
- N defined by the scene number determination threshold N
- L indicates the total number of frames of moving image data in the moving image file.
- the decoding speed of the first decoder 11 is A times the decoding speed of the second decoder 12.
- Detecting a digest scene consisting of N scene units (each scene unit has K frames) and starting reproduction of the digest scene means that a digest scene consisting of K ⁇ N frames is It is to detect and reproduce.
- K ⁇ N frames of buffer information exist in the second decoder 12.
- the decoding speed of the first decoder 11 is A times that of the second decoder 12
- the first decoder 11 processes the K ⁇ N frames while the second decoder 12 processes K ⁇ N frames. It means that it is possible to process A ⁇ K ⁇ N frames. Therefore, if N is set so that decoding processing is started by the second decoder 12 in the (L ⁇ A ⁇ K ⁇ N) -th and subsequent frames, the digest scene playback will not be interrupted.
- the second decoder 12 can carry out the decoding process that can be reproduced without interruption.
- the scene number determination threshold N is preferably as small as possible.
- FIG. 7 shows the relationship between the first decoder 11 and the second decoder 12 in the Mth frame.
- n be the number of detected scenes up to the Mth frame.
- the fact that the detection of n scenes is finished means that the detection of data of n ⁇ K frames is finished. Therefore, the time length required to decode n scenes by the second decoder 12 is equal to the time length required to decode data of A ⁇ n ⁇ K frames in the first decoder 11. Therefore, if detection of data for n scenes is completed, since the first decoder 11 can decode for A ⁇ n ⁇ K frames while reproducing data for the n scenes, reproduction is performed without interruption.
- FIG. 8 shows a digest scene decoding start method.
- I-frames can be decoded only by I-frames, but P-frames and B-frames can not be decoded without I-frames. Therefore, when a P frame or a B frame is designated as the start position, as shown in FIG. 8, the decoding is started from the I frame serving as the reference frame and displayed. Note that even if decoding is performed from the I frame, reproduction may be performed from the P frame or B frame that has become the start position in FIG.
- the user can view the digest scene by inputting the decoded data output from the second decoder 12 executed in the second decoding step S33 to the display unit 16.
- a recording unit may be provided instead of the display unit, and only the digest scene may be recorded as new moving image data.
- 9A and 9B show a flow of the moving picture file reproducing method according to the modification of the first embodiment in which the first comparison step S15 and the second comparison step S17 of FIG. 1 are replaced with each other.
- Steps S11, S13, S19, S21, S31, and S33 are the same as in FIG.
- the decoded frame number determination unit 15 compares the number of decoded frames nF with the frame number determination threshold M. That is, the decoded frame number determination unit 15 determines whether the number of decoded frames n F is equal to or greater than the number of frame determination threshold M. If it is determined that the number of decoded frames n F is equal to or greater than the number of frames determination threshold M, the process proceeds to the flag step S 19, and if it is determined that the number of decoded frames n F is less than the number of frames determination threshold M, the first It transfers to comparison step S16 of.
- the detected scene number determination unit 14 compares the detected scene number n s with the scene number determination threshold N. That is, the detected scene number determination unit 14 determines whether the detected scene number n s is equal to or more than the scene number determination threshold N. If it is determined that the detected scene number n s is less than the scene number determination threshold N, the process proceeds to the flag step S19, and if it is determined that the detected scene number n s is greater than or equal to the scene number determination threshold N, the final position The process proceeds to determination step S21.
- the scene number determination threshold N based on the above assumption is based on the equation (2) described above. N ⁇ 54000 / ⁇ 90 ⁇ (1 + 24) ⁇ ⁇ 24 (scene) And When a digest scene for 24 scenes is detected in 60 scenes which is the total number of scene units, reproduction of the digest scene can be started.
- FIG. 10B shows a state in which digest scenes to be detected are evenly dispersed in moving image data.
- the reproduction start instruction of the digest scene is output at the highest speed.
- the digest scene is detected at 24 ⁇ speed from the moving image data of this time length.
- the reproduction start instruction of the digest scene is issued at the latest.
- the reproduction start instruction is output at the frame number determination threshold M.
- FIG. 10D 60 scenes of the target moving image data exist in the last part of the moving image data.
- detection of a digest scene is started from 67.5 seconds as in the case of calculation using the above-described scene number determination threshold N.
- the decision to start digest playback is made as follows.
- FIG. 11 shows the reproduction situation in the case where the value of the scene number determination threshold N is smaller than the value of the first embodiment. As shown in FIG. 11, when the value of the scene number determination threshold value N decreases, it is expected that a blank time will occur where there is no playback target and nothing is played back.
- FIG. 12 shows a method of extending the decoded frame interval according to the number of remaining frames R.
- the number R of remaining frames of moving image data at the time when N digest scenes are detected can be expressed by the following expression (4) using the total number L of moving image frames.
- R L-current frame ... (4)
- the number of frames which can be decoded by the first decoder 11 is A ⁇ N ⁇ K.
- the decoding interval may correspond to the number of remaining digest scenes. For example, if the number of remaining undetected digest scenes is 1, the decoding interval C is R / (A ⁇ N ⁇ K), and if it is 2, the decoding interval C is R / (2 ⁇ A ⁇ N If it is n, it may be R / (n ⁇ A ⁇ N ⁇ K).
- FIG. 13 shows a moving picture file reproducing apparatus that displays the decoding results of the first decoder 11 and the second decoder 12.
- This moving image file reproducing apparatus includes a recording medium 20, a first decoder 11, a face detection unit 13, a detected scene number determination unit 14, a decoded frame number determination unit 15, a second decoder 12, and a display unit. And 16).
- the recording medium 20 stores a moving image file to be reproduced.
- the first decoder 11 sequentially decodes the moving image file.
- the face detection unit 13 detects the start position and the end position of the digest scene based on the decoded data decoded by the first decoder 11.
- the detected scene number determination unit 14 determines whether the detected scene number n s obtained by the face detection unit 13 is N (N is a natural number) or more of the scene number determination threshold value for determining the reproduction start time of the digest scene. .
- the decoded frame number determination unit 15 determines whether or not the decoded frame number n F obtained by the first decoder 11 is equal to or more than M (M is a natural number) the frame number determination threshold for determining the reproduction start time of the digest scene. Do.
- the second decoder 12 decodes only the digest scene detected by the face detection unit 13.
- the display unit 16 displays the information decoded by the first decoder 11 and the second decoder 12.
- the first decoder 11 and the second decoder 12 are part of the decoder in the multi-decoder 10.
- the multi decoder 10 is mounted with two or more decoders. It is assumed that the number of frames decoded by the first decoder 11 and the number of detected scenes are managed by the CPU.
- the detected scene number determination unit 14 and the decoded frame number determination unit 15 are configured as a function of the CPU.
- the decoding result of the first decoder 11 is output at a speed A times that of a normal moving image. Therefore, it is necessary to narrow down and display the frame amount that matches the display processing capability of the display unit 16. As a result, displaying the decoding result of the first decoder 11 is the same as watching the fast forward reproduction.
- FIG. 14 shows a processing flow for displaying the decoding result of the first decoder 11 and the decoding result of the second decoder 12.
- the present flow is executed.
- the activation of the second decoder 12 and the display switching of the display unit 16 will be described with reference to FIGS. 13 and 14.
- the digest scene detected by the second decoder 12 is decoded, and the decoding result is supplied to the display unit 16 (step S61).
- the process is continued until the end of the detected scene (detected digest scene) comes, and when it is confirmed that all the detected scenes have been decoded (step S62), the reproduction flag is turned off (step S63).
- step S64 When it is confirmed by the first decoder 11 that the last frame of the moving image has been reached, the process is ended (step S64), and when it is confirmed that the last frame is not the last frame, it is determined whether the reproduction flag is set (step S65). When it is confirmed that the reproduction flag is not set, the decoding result of the first decoder 11 is supplied to the display unit 16 (step S66).
- FIG. 15 shows an example of execution of processing for displaying the decoding result of the first decoder 11 and the decoding result of the second decoder 12.
- the second decoder 12 does not perform the decoding process until the first decoder 11 detects moving image data.
- the second decoder 12 decodes only the digest scene (41) and supplies the decoded data to the display unit 16. At this time, the user can view the decoded data at the normal playback speed. If a new digest scene is not detected even if all the digest scenes have been decoded, the decoding result (42) of the first decoder 11 is supplied to the display unit 16. Here, only the necessary number of frames is supplied in accordance with the display capability of the display unit 16.
- the display state at this time is similar to that of fast forward reproduction.
- the decoder for processing the detected digest scene is switched, and the decoding result (43) of the second decoder 12 is supplied to the display unit 16 and displayed again.
- the user can view the decoding result (43) in normal playback.
- the number N of scenes for which the reproduction flag is set may be changed after the first reproduction starts.
- the image data of the extracted frame is selectively decoded.
- the decoded data is subjected to face area detection processing by the face detection unit 13, and the processing result (presence or absence of the face area) is output.
- a divided frame group including decoded data in which a face area is detected that is, from a frame in which the face area is detected to a frame in which detection of the face area is next attempted.
- the image data of the complaint group is stored, only the stored image data is decoded from the beginning. As a result, the digest scene is detected with a smaller number of frames than the actual data, and the speed of digest reproduction can be increased.
- the moving image data is divided by a predetermined number of frames (for example, 6 frames), and one frame is selectively extracted and decoded for each divided frame group (for example, the division point frame at the division point (specifically, the top) of each divided frame group is extracted and decoded, and face area detection is tried from the decoded data.
- face area detection it is assumed that a face area is detected in half of the decoded data (decoded data of three frames in FIG. 16). In this case, only the remaining frames in the divided frame group including the frame in which the face area is detected are applied to the face detection unit 13.
- the number of decoded frames is half that in the case where face area detection is performed in all the frames. This is equivalent to decoding 15 minutes of moving image data and performing face area detection.
- the reproduction start instruction of the digest scene is output at the highest speed.
- the digest scene is detected at 24 ⁇ speed from the moving image data of this time length.
- the second method is a method of decoding only I-frames in the case of a moving image file recorded in the MPEG format.
- the moving picture file of the MPEG format is composed of I frame, P frame and B frame. Among these, by decoding only I frame and applying detection, face area detection can be performed without analyzing all moving image files.
- Embodiment 4 [Configuration for detecting a digest scene containing specific information other than face information]
- face information determined based on only one frame of decoded data is used as the specific information, but the specific information handled in the present invention is not limited to face information.
- a method of detecting a digest scene based on specific information that requires several frames of image data to determine the presence or absence of information such as information related to image changes such as scene change and zoom, audio information, etc. It is suitable as a detection process.
- Various inventions have been made in the past for the method of detecting the above information, and the explanation thereof will be omitted because it is an obvious process.
- FIG. 17 shows a block diagram of the fifth embodiment.
- the configuration of the present embodiment is basically the same as that of the first embodiment, but in addition to the configuration of the first embodiment, an information creating unit 17 is provided.
- reference numeral 22 denotes additional information associated with the moving image file 21.
- the additional information 22 is generated by the information creating unit 17, then associated with the moving image file 21 and recorded in the recording medium 20. Ru.
- the information creation unit 17 creates the additional information 22 associated with the moving image file 21 based on the face detection information detected by the face detection unit 13 and the moving image file 21. By this processing, analysis after the next time is unnecessary, and digest reproduction can be performed at high speed by the reproduction method invented in the past. Furthermore, a moving image recording unit is provided instead of the information creating unit 17, and the detected digest scene is recorded at low compression (high resolution) and non-target scene at high compression (low resolution) to create a new moving image file. May be
- Sixth Embodiment A configuration for selectively playing back a digest scene normally, while performing fast-forward playback for scenes other than digest scenes
- the sixth embodiment when a digest scene is detected while reproducing and displaying the decoding result of the first decoder 11, the detected digest scene is reproduced at a normal speed.
- the moving picture file reproducing apparatus for realizing the present embodiment is the same as that shown in FIG. Further, the present embodiment is the same as steps S11 to S21 in the flow of FIG. In steps S31 to S33, display processing of the decoding result of the first decoder 11 is added.
- FIG. 18 shows a flow replacing the steps S31 to S33. The processing details of the present embodiment will be described using FIG. 13 and FIG.
- step S71 it is judged whether or not the reproduction flag is set. If it is determined that the reproduction flag is not set, the decoding result (decoded data) of the first decoder 11 is supplied to the display unit 16 (step S75). Then, it is determined whether the decoding result by the first decoder 11 this time is the end of the moving image data (step S76). If it is determined in step S76 that the end of the image data is not determined, the process loops back to determination of the reproduction flag (step S71). If it is determined in step S71 that the reproduction flag is set, the detected digest scene is decoded by the second decoder 12 and the decoding result is supplied to the display unit 16 (step S72). Thereby, the display image is switched. The processing of step S72 is continued until the end of the detected digest scene, and when it is confirmed that the end of the detected digest scene is reached (step S73), the reproduction flag is turned off (step S74).
- FIG. 10 An execution example of the sixth embodiment is shown in FIG.
- the scene number determination threshold N 1.
- the display unit 16 reproduces the output of the first decoder 11 until a digest scene is detected from the decoding result of the first decoder 11.
- the user feels that the moving image data is being viewed in a fast-forwarding manner.
- the second decoder 12 decodes the digest scene and supplies it to the display unit 16.
- the display unit 16 displays the output of the second decoder 12.
- the user feels that the digest scene is normally viewed.
- the second decoder 12 decodes n 1 scenes.
- the second decoder 12 stops the decoding process.
- the decoding result of the first decoder 11 is supplied to the display unit 16 again, and the display unit 16 displays the output of the first decoder 11.
- the start instruction is supplied to the second decoder 12.
- the second decoder 12 decodes n 2 scenes and supplies the decoded data to the display unit 16.
- the present invention enables digest playback of various moving pictures, and therefore, the present invention may be used in digital moving picture file reproduction such as digital video cameras, surveillance cameras, television contents, and DVDs.
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
ダイジェストシーン検出数とダイジェストシーンの再生開始時刻を決めるためのシーン数判定閾値とを第1の比較ステップで比較する。復号フレーム数とダイジェストシーンの再生開始時刻を決めるためのフレーム数判定閾値とを第2の比較ステップで比較する。第1の比較ステップの比較判定結果と第2の比較ステップの比較判定結果とに基づいてダイジェストシーンを復号するか否かを判断し、復号すると判断すると、第2の復号ステップで動画ファイルからダイジェストシーンをその開始/終了位置で抽出して復号する。
Description
本発明は、動画ファイルの内容を短時間で把握するためのダイジェスト(動画ファイルの要約)を再生する動画ファイル再生方法および動画ファイル再生装置にかかわり、詳しくは、演算なしにダイレクトにダイジェスト再生を可能にするための付加情報(ユーザのカメラ操作情報、顔検出情報、手振れセンサ情報等)を有しない動画ファイルでも、そのダイジェストを高速に再生できるようにするための技術に関する。また、デジタルカメラ、デジタルビデオカメラ、DVDプレーヤに関する。
近年、HDD(Hard Disc Drive)やDVD(Digital Versatile Disc)等の記録媒体は大容量化しており、ユーザが所有できる動画ファイルの情報量は膨大なものになっている。この動画ファイルの内容把握のために動画をすべて視聴するには時間と手間がかかるため、ユーザの所望する部分だけを再生するダイジェスト再生が要望されている。
ダイジェスト再生をするためには、動画ファイルを解析することによってそこからダイジェストシーンを検出しなければならない。ダイジェストシーンの検出においては、従来からシーンチェンジやズーム等の動画中の変化を検出する方法や、動画中の人物を検出する方法、字幕を解析する方法等、多くの技術が提案されている。これらの方法は、動画をすべて解析したあと、ダイジェスト再生を行うものである。ダイジェスト再生の前提に、動画すべての解析が条件となっているため、ダイジェストシーンの検出が終わるまではダイジェスト再生を開始することができない。
本発明に関連する先行技術文献としては特許文献1、特許文献2がある。そこでは、動画ファイルを解析する代わりに、動画の内容に関連する情報を付加情報として動画ファイルと共に記憶するようにしている。付加情報を用いると、解析のための演算なしにダイレクトにダイジェスト再生が可能になる。そうすることで動画の解析時間を削減し、ダイジェスト再生の高速化を図っている。動画の内容に関連する付加情報とは、ビデオカメラで撮影した動画であれば顔検出情報、ユーザによるカメラ操作情報や、手振れセンサ情報等であり、またテレビ録画情報であれば電子番組表のデータ等である。
前述のように動画に関する付加情報を用いれば動画解析が不要であり、短い時間で動画のダイジェストを作成できる。しかしながら、付加情報を有しない動画ファイルは、付加情報を新たに作成しなければならず、付加情報の作成に要する時間分、ダイジェスト再生に余分の時間がかかる。ユーザが所有している動画ファイルには付加情報のないものも多数あり、この課題は重要である。
本発明は上記課題を解決するものであり、付加情報を有しない動画ファイルに関しても、高速にダイジェスト再生を開始できる動画ファイル再生方法、動画ファイル再生装置を提供することを目的としている。
本発明は、上記の課題を解決するために次のような手段を講じる。
再生処理の対象の動画ファイルについては、動画ファイルの要約であるダイジェストを生成するための動画の内容に関連する付加情報(顔検出情報、手振れセンサ情報、ユーザのカメラ操作情報等)を有していない動画ファイルはもちろん、そのような付加情報を有している動画ファイルであってもよい。付加情報を有している動画ファイルの場合には、その付加情報を利用しなくてもよいわけである。
(1)付加情報を用いないことを前提にするので、動画データの解析を行うのであるが、動画データを全体にわたって解析するのではなく、制限を加える。以下、説明する。
[1]
まず、記録媒体から処理対象の動画ファイルを読み出し、顔情報などの特定情報を含むダイジェストシーンを検出するために、読み出した動画ファイルを復号する。このとき、復号フレーム数nF をカウントする。
まず、記録媒体から処理対象の動画ファイルを読み出し、顔情報などの特定情報を含むダイジェストシーンを検出するために、読み出した動画ファイルを復号する。このとき、復号フレーム数nF をカウントする。
[2]
次いで、復号された動画データにおいて、顔情報などの特定情報を含むダイジェストシーンを検出する。さらに検出した特定情報を含むダイジェストシーンの開始/終了位置を特定し、検出したダイジェストシーン数ns をカウントする。ここでいう特定情報には、
・動画面上で検出したい特定領域に関する情報(例えば、特定領域として人物の顔領域を検出したい場合には、その顔領域に関する情報)、
・動画変化情報(例えば、シーンチェンジに関する情報やズーム処理に関する情報)、
・音声情報、
などがある。
次いで、復号された動画データにおいて、顔情報などの特定情報を含むダイジェストシーンを検出する。さらに検出した特定情報を含むダイジェストシーンの開始/終了位置を特定し、検出したダイジェストシーン数ns をカウントする。ここでいう特定情報には、
・動画面上で検出したい特定領域に関する情報(例えば、特定領域として人物の顔領域を検出したい場合には、その顔領域に関する情報)、
・動画変化情報(例えば、シーンチェンジに関する情報やズーム処理に関する情報)、
・音声情報、
などがある。
[3]
次に、前記の検出シーン数ns がシーン数判定閾値N以上であるか否かを判定する。このシーン数判定閾値Nは、検出シーン数ns に基づいてダイジェストシーンの再生開始時刻を決めるための閾値である。
次に、前記の検出シーン数ns がシーン数判定閾値N以上であるか否かを判定する。このシーン数判定閾値Nは、検出シーン数ns に基づいてダイジェストシーンの再生開始時刻を決めるための閾値である。
[4]
次に、前記の復号フレーム数nF がフレーム数判定閾値M以上であるか否かを判定する。このフレーム数判定閾値Mは、復号フレーム数nF に基づいてダイジェストシーンの再生開始時刻を決めるための閾値である。
次に、前記の復号フレーム数nF がフレーム数判定閾値M以上であるか否かを判定する。このフレーム数判定閾値Mは、復号フレーム数nF に基づいてダイジェストシーンの再生開始時刻を決めるための閾値である。
[5]
次に、[3]における比較判定結果と[4]における比較判定結果とに基づいて、[2]で検出したダイジェストシーンを復号するか否かを判断したうえで、復号すると判断すると、[2]で特定した開始/終了位置で動画ファイルからダイジェストシーンを抽出して復号する。これにより、特定情報を含むダイジェストシーンのみが選択され復号される。
次に、[3]における比較判定結果と[4]における比較判定結果とに基づいて、[2]で検出したダイジェストシーンを復号するか否かを判断したうえで、復号すると判断すると、[2]で特定した開始/終了位置で動画ファイルからダイジェストシーンを抽出して復号する。これにより、特定情報を含むダイジェストシーンのみが選択され復号される。
上記[5]の判断には、以下に説明する[5-1]の判断と[5-2]の判断とがある。
[5-1]
この判断は、上記[3]における比較処理を実行したのち、上記[4]における比較処理を行う判断であって、
上記[3]において前記検出シーン数が前記シーン数判定閾値N以上である、
または、
上記[3]において前記検出シーン数が1以上前記シーン数判定閾値N未満であり、かつ上記[4]において前記復号フレーム数が前記フレーム数判定閾値M以上である、
場合に、上記[2]で検出した前記ダイジェストシーンを復号する、と判断する。
この判断は、上記[3]における比較処理を実行したのち、上記[4]における比較処理を行う判断であって、
上記[3]において前記検出シーン数が前記シーン数判定閾値N以上である、
または、
上記[3]において前記検出シーン数が1以上前記シーン数判定閾値N未満であり、かつ上記[4]において前記復号フレーム数が前記フレーム数判定閾値M以上である、
場合に、上記[2]で検出した前記ダイジェストシーンを復号する、と判断する。
[5-2]
この判断は、上記[4]における比較処理を実行したのち、上記[3]における比較処理を行う判断であって、
上記[4]において復号フレーム数がフレーム数判定閾値M以上である、
または、
上記[4]において復号フレーム数がフレーム数判定閾値M未満であり、かつ上記[3]において検出シーン数がシーン数判定閾値N以上である、
場合に、上記[2]で検出したダイジェストシーンを復号する、と判断する。
この判断は、上記[4]における比較処理を実行したのち、上記[3]における比較処理を行う判断であって、
上記[4]において復号フレーム数がフレーム数判定閾値M以上である、
または、
上記[4]において復号フレーム数がフレーム数判定閾値M未満であり、かつ上記[3]において検出シーン数がシーン数判定閾値N以上である、
場合に、上記[2]で検出したダイジェストシーンを復号する、と判断する。
上記処理においては、動画ファイルの要約であるダイジェストは生成していない。従来技術のようにあらかじめダイジェストを生成し、それをファイル化した上で、ダイジェストファイルを再生する、といったものではない。特定情報を含むダイジェストシーンのみを復号再生すること自体がダイジェスト再生(絞り込み再生)になっている。ダイジェストを生成しないので、ダイジェストを生成する上で元になる動画の内容に関連する顔検出情報や手振れセンサ情報などの付加情報については、これを必要としない。つまり、付加情報の作成を必要としないだけでなく、付加情報による検索も必要としない。そのような付加情報を有していない動画ファイルであっても処理対象とできる。付加情報を有している動画ファイルの場合でも、その付加情報は用いないでよい。
シーン数判定閾値を、対象とする動画ファイルの全シーン数に比べて小さく設定しておくことにより、全動画データの解析終了を待つことなく、特定情報を含むダイジェストシーンの再生が可能となる。また、検出シーン数がシーン数判定閾値に達しない場合でも、復号フレーム数がフレーム数判定閾値以上に達すると、ダイジェストシーンの再生を開始する。これにより、ダイジェストシーンの再生開始時刻が早められ、ダイジェスト再生が高速化される。
この動画作成方法によれば、ダイジェストを生成する上で元になる顔検出情報などの付加情報を有していない動画ファイルであっても処理対象とでき、しかも、全動画データの解析終了を待つことなく、特定情報を含むダイジェストシーンの再生を開始できるので、ダイジェストシーンの再生開始時刻が早められ、ダイジェスト再生が高速化される。
また、本発明による動画ファイル再生装置、デジタルカメラ、デジタルビデオカメラおよびDVDプレーヤは、そのいずれもが、
動画ファイルを復号するとともに、復号フレーム数をカウントする第1のデコーダと、
前記第1のデコーダで復号された動画データを構成する複数のシーンの中から特定情報を含むダイジェストシーンを検出したうえで、検出した前記ダイジェストシーンの開始/終了位置の特定と、ダイジェストシーン検出数をカウントするダイジェスト検出部と、
前記ダイジェスト検出部でカウントした前記ダイジェストシーン検出数と、前記ダイジェストシーンの再生開始時刻を決めるためのシーン数判定閾値とを比較する検出シーン数判定部と、
前記第1のデコーダでカウントした前記復号フレーム数と、前記ダイジェストシーンの再生開始時刻を決めるためのフレーム数判定閾値とを比較する復号フレーム数判定部と、
前記検出シーン数判定部の比較判定結果と前記復号フレーム数判定部の比較判定結果とに基づいて、前記ダイジェスト検出部で検出した前記ダイジェストシーンを復号するか否かを判断したうえで、復号すると判断すると、前記ダイジェスト検出部で特定した前記開始/終了位置で前記動画ファイルから前記ダイジェストシーンを抽出して復号する第2のデコーダと、
を備える。
動画ファイルを復号するとともに、復号フレーム数をカウントする第1のデコーダと、
前記第1のデコーダで復号された動画データを構成する複数のシーンの中から特定情報を含むダイジェストシーンを検出したうえで、検出した前記ダイジェストシーンの開始/終了位置の特定と、ダイジェストシーン検出数をカウントするダイジェスト検出部と、
前記ダイジェスト検出部でカウントした前記ダイジェストシーン検出数と、前記ダイジェストシーンの再生開始時刻を決めるためのシーン数判定閾値とを比較する検出シーン数判定部と、
前記第1のデコーダでカウントした前記復号フレーム数と、前記ダイジェストシーンの再生開始時刻を決めるためのフレーム数判定閾値とを比較する復号フレーム数判定部と、
前記検出シーン数判定部の比較判定結果と前記復号フレーム数判定部の比較判定結果とに基づいて、前記ダイジェスト検出部で検出した前記ダイジェストシーンを復号するか否かを判断したうえで、復号すると判断すると、前記ダイジェスト検出部で特定した前記開始/終了位置で前記動画ファイルから前記ダイジェストシーンを抽出して復号する第2のデコーダと、
を備える。
なお、前記第2のデコーダには、次の二つの態様がある。
第1の態様の第2のデコーダは、前記検出シーン数判定部の比較判定結果を、前記復号フレーム数判定部の比較判定結果より先に取り込んだうえで、前記ダイジェストシーンの復号判断において、
前記検出シーン数判定部において前記検出シーン数が前記シーン数判定閾値以上である、
または、
前記検出シーン数判定部において前記検出シーン数が1以上前記シーン数判定閾値未満であり、かつ前記復号フレーム数判定部において前記復号フレーム数が前記フレーム数判定閾値以上である、
場合に、
前記ダイジェスト検出部で検出した前記ダイジェストシーンを復号すると判断する。
前記検出シーン数判定部において前記検出シーン数が前記シーン数判定閾値以上である、
または、
前記検出シーン数判定部において前記検出シーン数が1以上前記シーン数判定閾値未満であり、かつ前記復号フレーム数判定部において前記復号フレーム数が前記フレーム数判定閾値以上である、
場合に、
前記ダイジェスト検出部で検出した前記ダイジェストシーンを復号すると判断する。
第2の態様の第2のデコーダは、前記復号フレーム数判定部の比較判定結果を、前記検出シーン数判定部の比較判定結果より先に取り込んだうえで、前記ダイジェストシーンの復号判断において、
前記復号フレーム数判定部において前記復号フレーム数が前記フレーム数判定閾値以上である、
または、
前記復号フレーム数判定部において前記復号フレーム数が前記フレーム数判定閾値未満であり、かつ前記検出シーン数判定部において前記検出シーン数が前記シーン数判定閾値以上である、
場合に、
前記ダイジェスト検出部で検出した前記ダイジェストシーンを復号すると判断する。
前記復号フレーム数判定部において前記復号フレーム数が前記フレーム数判定閾値以上である、
または、
前記復号フレーム数判定部において前記復号フレーム数が前記フレーム数判定閾値未満であり、かつ前記検出シーン数判定部において前記検出シーン数が前記シーン数判定閾値以上である、
場合に、
前記ダイジェスト検出部で検出した前記ダイジェストシーンを復号すると判断する。
本発明によれば、
・顔情報などの特定情報を含むダイジェストシーンの検出シーン数がシーン数判定閾値以上となる、
・復号フレーム数がフレーム数判定閾値以上となる、
という二つの条件をのうちのいずれか一つを満たすと、全動画データの解析終了を待つことなくダイジェストシーンの再生を開始するので、ダイジェストシーンの再生開始時刻を早めて、ダイジェスト再生を高速化することができる。
・顔情報などの特定情報を含むダイジェストシーンの検出シーン数がシーン数判定閾値以上となる、
・復号フレーム数がフレーム数判定閾値以上となる、
という二つの条件をのうちのいずれか一つを満たすと、全動画データの解析終了を待つことなくダイジェストシーンの再生を開始するので、ダイジェストシーンの再生開始時刻を早めて、ダイジェスト再生を高速化することができる。
本発明の動画ファイル再生方法は、次のような実施の形態においてさらに有利に展開することが可能である。
(1)本発明の動画ファイル再生方法には、前記第1の復号ステップにおける復号速度を、前記第2の復号ステップにおける復号速度のA倍(Aは1を超える正数)にする、いう態様がある。この態様によれば、ダイジェストシーンの再生開始時刻がさらに早められ、ダイジェスト再生が一層高速化される。
(2)本発明の動画ファイル再生方法には、前記第1の復号ステップでは、前記動画ファイルの先頭フレームから復号を行う復号モードと、前記動画ファイルの最終フレームから復号を行う復号モードとを必要に応じて切り替えながら前記動画ファイルを復号する、という態様がある。
(3)本発明の動画ファイル再生方法には、前記第1の復号ステップでは、前記動画ファイルに一定サイズ毎に設けた分割点にある分割点フレームを先行復号したうえで、先行復号した前記分割点フレームの動画データから前記特定情報を検出し、前記特定情報を検出した前記分割点フレーム近傍のフレーム群の前記動画ファイルを選択的に復号する、という態様がある。この態様によれば、動画ファイルの復号において、まずは特定情報を含むダイジェストシーンの検出を粗く行い、ダイジェストシーンの候補となるフレームを絞り込み、次いで絞り込んだフレームにおいてダイジェストシーンの検出を密に行うことになる。これにより、ダイジェストシーンの検出を実際のデータよりも少ないフレーム数で実現できて、ダイジェスト再生に要する時間長をさらに短縮することができる。
(4)本発明の動画ファイル再生方法には、前記動画ファイルは、フレーム間予測に基づいて圧縮されたものであり、
前記第1の復号ステップでは、Intraフレームのみを復号する、という態様がある。MPEG(Moving Picture Experts Group)形式の動画ファイルは、Intraフレーム、Predictiveフレーム、Bidirectionally predictiveフレームから構成される。この態様によれば、上記フレームのうち、Intraフレームのみを復号しダイジェストシーンの検出をかけることにより、すべての動画ファイルを解析せずに、特定情報を含むダイジェストシーンの検出が行え、ダイジェスト再生に要する時間長をさらに短縮することができる。
前記第1の復号ステップでは、Intraフレームのみを復号する、という態様がある。MPEG(Moving Picture Experts Group)形式の動画ファイルは、Intraフレーム、Predictiveフレーム、Bidirectionally predictiveフレームから構成される。この態様によれば、上記フレームのうち、Intraフレームのみを復号しダイジェストシーンの検出をかけることにより、すべての動画ファイルを解析せずに、特定情報を含むダイジェストシーンの検出が行え、ダイジェスト再生に要する時間長をさらに短縮することができる。
(5)本発明の動画ファイル再生方法には、前記第1の復号ステップでは、前記検出ステップで必要となる情報のみを復号する、という態様がある。この態様によれば、復号に要する時間長を短縮することができる。
(6)上記(5)の動画ファイル再生方法では、前記必要となる情報は輝度情報であるのが好ましい。動画ファイルでは輝度情報・色差情報が一緒に圧縮されているのが一般的であるが、復号対象を輝度情報に限定することにより、ダイジェスト再生をさらに高速化することができる。
(7)本発明の動画ファイル再生方法には、前記第1の復号ステップと前記検出ステップと前記第1の比較ステップと前記第2の比較ステップと前記第2の復号ステップとはループ処理され、
前記第1の復号ステップでは、前記動画ファイルのフレームを間隔を空けて不連続に復号し、
かつ前記第1の復号ステップでは、前記第2の復号ステップにおいて前記ダイジェストシーンの復号が未処理となった残余のフレーム数または残余のシーン数に応じて復号フレームの間隔を調整する、
という態様がある。この態様によれば、ダイジェスト再生に要する時間長をさらに短縮することができるために、シーン数判定閾値をより小さい値に設定する場合、第2の復号ステップでダイジェストシーンが不足し、ダイジェストシーンの復号処理が止まってしまう可能性がある。このような状況を避けるため、前記第1の復号ステップでは、前記第2の復号ステップにおいて前記ダイジェストシーンの抽出が未処理となった残余のフレーム数または残余のシーン数に応じて復号フレームの間隔を調整することで、ダイジェスト再生開始時刻を早めながら、ダイジェストシーンの復号処理を連続化させることが可能となる。
前記第1の復号ステップでは、前記動画ファイルのフレームを間隔を空けて不連続に復号し、
かつ前記第1の復号ステップでは、前記第2の復号ステップにおいて前記ダイジェストシーンの復号が未処理となった残余のフレーム数または残余のシーン数に応じて復号フレームの間隔を調整する、
という態様がある。この態様によれば、ダイジェスト再生に要する時間長をさらに短縮することができるために、シーン数判定閾値をより小さい値に設定する場合、第2の復号ステップでダイジェストシーンが不足し、ダイジェストシーンの復号処理が止まってしまう可能性がある。このような状況を避けるため、前記第1の復号ステップでは、前記第2の復号ステップにおいて前記ダイジェストシーンの抽出が未処理となった残余のフレーム数または残余のシーン数に応じて復号フレームの間隔を調整することで、ダイジェスト再生開始時刻を早めながら、ダイジェストシーンの復号処理を連続化させることが可能となる。
(8)本発明の動画ファイル再生方法には、
前記検出ステップでは、複数の前記特定情報の中から任意の特定情報を選択可能であり、
かつ前記検出ステップでは、前記第1の復号ステップと前記第2の復号ステップとを実行する復号装置における電源供給量に準じて前記特定情報が選択される、
という態様がある。例えば、復号装置に電源コンセントから電源供給がある場合には特定情報として顔情報と音声情報など複数の特定情報を使用してダイジェストシーンの検出を行い、電池から電源供給がある場合には特定情報として顔情報のみを使用してダイジェストシーンの検出を行う。これにより、電源供給量に準じた復号処理が実施されて不要な電源消費が抑制される。
前記検出ステップでは、複数の前記特定情報の中から任意の特定情報を選択可能であり、
かつ前記検出ステップでは、前記第1の復号ステップと前記第2の復号ステップとを実行する復号装置における電源供給量に準じて前記特定情報が選択される、
という態様がある。例えば、復号装置に電源コンセントから電源供給がある場合には特定情報として顔情報と音声情報など複数の特定情報を使用してダイジェストシーンの検出を行い、電池から電源供給がある場合には特定情報として顔情報のみを使用してダイジェストシーンの検出を行う。これにより、電源供給量に準じた復号処理が実施されて不要な電源消費が抑制される。
(9)上記(1)の構成の動画ファイル再生方法において、前記特定情報は特定領域であるという態様がある。
(10)上記(9)の動画ファイル再生方法において、前記特定領域は顔領域とするのが好ましい。ダイジェストシーンの検出において、顔領域は最も適した要素の1つである。
(11)上記(1)の構成の動画ファイル再生方法において、前記特定情報は動画の変化情報であるという態様がある。
(12)上記(11)の動画ファイル再生方法において、前記変化情報は前記画像ファイルにおけるシーンチェンジまたはズーム情報とするのが好ましい。ダイジェストシーンの検出において、シーンチェンジやズーム情報は最も適した要素の1つである。
(13)上記(1)の構成の動画ファイル再生方法において、前記特定情報は音声情報であるという態様がある。ダイジェストシーンの検出において、音声情報は最も適した要素の1つである。
(14)上記(1)の構成の動画ファイル再生方法において、前記動画ファイルからダイジェストシーンの復号を行うステップでは、前記動画ファイルがフレーム間予測に基づく圧縮方式であり、かつ、P(Predictive)フレーム、B(Bidirectionally predictive)フレームが前記開始位置と指定された場合において、前記ダイジェストシーンの再生は前記開始位置の直前にあるI(Intra)フレームから行うという態様がある。圧縮データがMPEG形式の場合、IフレームはIフレームのみで復号できるが、PフレームとBフレームはIフレームがなければ復号できない。よって開始位置にPフレームやBフレームを指定した場合には、参照フレームとなるIフレームから復号を開始するのが適切である。
(15)上記(1)の構成の動画ファイル再生方法において、前記動画ファイルからダイジェストシーンの復号を行うステップでは、前記動画ファイルがフレーム間予測に基づく圧縮方式であり、かつ、P(Predictive)フレーム、B(Bidirectionally predictive)フレームが前記開始位置と指定された場合において、I(Intra)フレームから復号するものの、前記ダイジェストシーンの再生は前記開始位置として指定されたフレームから行うという態様がある。上記のようにIフレームから復号しても、再生するのは開始位置となったPフレームまたはBフレームからとしてもよい。
(16)上記(1)の構成の動画ファイル再生方法において、前記検出されたダイジェストシーンは、前記開始位置から終了位置までが1つのシーンであるという態様がある。
(17)上記(1)の構成の動画ファイル再生方法において、前記検出されたダイジェストシーンは、ある一定のフレーム数Kとなるシーンであるという態様がある。フレーム数が少ないと、ユーザには何が写っているのか分からない。よって、閾値として適切なフレーム数Kを定め、検出シーン数ns がこの閾値(フレーム数K)になったときに、それをダイジェストシーンとすれば、ユーザの視聴は分かりやすいものとなる。
(18)上記(1)の構成の動画ファイル再生方法において、前記動画ファイルからダイジェストシーンの復号を行うステップでは、再生された動画データを記録するという態様がある。ダイジェストシーンのみを新たな動画データとして記録することにより、次回以降のダイジェスト再生を高速化することが可能となる。
(19)上記(1)の構成の動画ファイル再生方法において、さらに、前記特定情報を前記動画ファイルに付加情報として記録するステップを含むという態様がある。ダイジェストシーンの検出に用いた特定情報を付加情報として記録しておけば、次回以降では動画ファイルの解析が不要となり、既存の再生方法でも高速にダイジェスト再生を行える。
(20)上記(1)の構成の動画ファイル再生方法において、さらに、検出されたダイジェストシーンを低い圧縮率で圧縮し、対象外シーンを高い圧縮率で圧縮し、記録するステップを含むという態様がある。得られたダイジェストシーンの動画ファイルを記録しておくものであり、重要なダイジェストシーンは解像度の高い高品質のものとなる。
以下、図面を参照して本発明の実施の形態について説明する。なお、以下に説明する実施の形態はあくまで一例であり、様々な改変を行うことが可能である。また、以下の説明では特定情報を人物の顔情報とし、それに伴って、顔情報によって検出された顔領域が写っているシーンをダイジェストシーンと見なしている。
(実施の形態1)
[途切れなくダイジェスト再生するためのシーン数判定閾値Nとフレーム数判定閾値Mとを用いる構成]
図1は本発明の実施の形態1である動画ファイル再生方法の処理の手順を示すフローチャートである。S11は付加情報のない動画ファイルを1フレームずつ復号するとともに、復号したフレームの数(以下、復号フレーム数nF という)をカウントする第1の復号ステップである。
[途切れなくダイジェスト再生するためのシーン数判定閾値Nとフレーム数判定閾値Mとを用いる構成]
図1は本発明の実施の形態1である動画ファイル再生方法の処理の手順を示すフローチャートである。S11は付加情報のない動画ファイルを1フレームずつ復号するとともに、復号したフレームの数(以下、復号フレーム数nF という)をカウントする第1の復号ステップである。
S13は第1の復号ステップS11にて復号された復号データからダイジェストシーンを検出したうえで、検出したダイジェストシーンの開始/終了位置を検出し、さらに開始/終了位置が検出されることでそのフレーム数が特定されたダイジェストシーンに含まれるシーン単位の数(以下、検出シーン数nsという)をカウントアップするステップである。シーン単位の詳細に付いては後述する。検出シーン数nsのカウントアップでは、フレーム数がK個未満(以下、このKを閾値Kという)のダイジェストシーンを正規のダイジェストシーンと見なすことなく、閾値K以上のフレーム数を有するダイジェストシーンだけを正規のダイジェストシーンと見なし、正規のダイジェストシーンだけを選択的にカウントする。以下、閾値Kとの比較が行われる以前のダイジェストシーンをダイジェストシーン候補と称し、閾値Kとの比較に基づいて正規のダイジェストシーンと見なされるダイジェストシーンを単にダイジェストシーンと称して、両者を区別する。
S15は検出ステップS13にてカウントされている検出シーン数ns とシーン数判定閾値Nとを比較する第1の比較ステップである。第1の比較ステップでは、具体的に検出シーン数ns がシーン数判定閾値N以上であるか否かが判定される。シーン数判定閾値Nは自然数であって、ダイジェストシーンの再生開始時刻を決めるための閾値である。
S17は、第1の比較ステップS15において検出シーン数ns が1以上でありかつシーン数判定閾値N未満であると判定された場合に行われる第2の比較ステップである。第2の比較ステップS17では、復号フレーム数nF とフレーム数判定閾値Mとが比較される。具体的には、第1の復号ステップS11にて復号されたフレーム数nF がフレーム数判定閾値M以上であるか否かが判定される。フレーム数判定閾値Mは自然数であって、ダイジェストシーンの再生開始時刻を決めるための閾値である。
S19は第1の比較ステップS15において検出シーン数ns がシーン数判定閾値N以上と判定された場合、または、第1の比較ステップS15において検出シーン数ns がシーン数判定閾値N未満であると判定されたものの第2の比較ステップS17においてフレーム数nF がフレーム数判定閾値M以上と判定された場合においてダイジェスト再生フラグを立てる立旗ステップである。
S21は第2の比較ステップS17もしくは立旗ステップS19を経たフレームが、ダイジェスト再生対象とする動画データの最終フレームであるか否かを判定する最終位置判定ステップである。
S31はダイジェスト再生フラグが立旗されたか否かを判定する判定ステップである。S33は検出ステップS13で検出されたダイジェストシーンを選択的に復号する第2の復号ステップである。ステップS11~S21と、ステップS31~S33は並列に動作する。
図2は実施の形態1の動画ファイル再生装置の構成を備えたデジタルカメラ、デジタルビデオカメラ、またはDVD(Digital Versatile Disc)プレーヤの要部を示すブロック図である。この装置は、記録媒体20と、第1のデコーダ11と、顔検出部13と、検出シーン数判定部14と、復号フレーム数判定部15と、第2のデコーダ12と、表示部16とを備える。
記録媒体20は、ダイジェスト再生対象となる動画ファイル21を格納している。第1のデコーダ11は記録媒体20から動画ファイルを読み出して1フレームずつ復号する。さらに第1のデコーダ11は、復号フレーム数nF (復号したフレームの数)をカウントする。顔検出部13は、・第1のデコーダ11で復号されたデータからダイジェストシーンを検出する、・ダイジェストシーンの開始/終了位置を検出する、・検出シーン数ns をカウントする、という各種処理を実施する。顔検出部13はダイジェスト検出部の一例である。検出シーン数判定部14は、顔検出部13で得られた検出シーン数ns とシーン数判定閾値Nとを比較する。検出シーン数判定部14では、具体的に、検出シーン数ns がシーン数判定閾値N以上であるか否かが判定される。復号フレーム数判定部15は、第1のデコーダ11で得られた復号フレーム数nF とフレーム数判定閾値Mとを比較する。復号フレーム数判定部15では、具体的に、復号フレーム数nF がフレーム数判定閾値M以上であるか否かが判定される。第2のデコーダ12は、顔検出部13で検出されたダイジェストシーンのみを復号する。表示部16は、復号されたデータを表示する。
第1のデコーダ11と第2のデコーダ12とは、マルチデコーダ10内のデコーダの一部である。なお、マルチデコーダ10は2つ、またはそれ以上のデコーダを搭載しており、処理に応じて第1のデコーダ11と第2のデコーダ12とに割り当てるデコーダの数を調整することができる。検出シーン数判定部14と復号フレーム数判定部15とは図示しないCPUの機能として構成される。復号フレーム数nF 、検出シーン数ns、その他本実施形態で必要となる各種データはCPU(Central Processing Unit)で管理されているものとする。
図1、図2を用いて本実施の形態の処理を説明する。
(第1の復号ステップS11)
まず、第1のデコーダ11が記録媒体20に記録されている動画ファイル21を読み出して1フレーム復号したうえで、復号フレーム数nFをカウントする。第1の復号ステップS11が完了すると、検出ステップS13に移行する。
まず、第1のデコーダ11が記録媒体20に記録されている動画ファイル21を読み出して1フレーム復号したうえで、復号フレーム数nFをカウントする。第1の復号ステップS11が完了すると、検出ステップS13に移行する。
(検出ステップS13)
第1のデコーダ11で復号された復号データは、顔検出部13に供給される。顔検出部13は復号データからダイジェストシーンを検出し、そのダイジェストシーンの開始/終了位置を検出する。さらに顔検出部13は、ダイジェストシーンの検出に基づいて、検出シーン数ns (シーン単位の検出数)をカウントアップする。検出ステップS13が完了すると、第1の比較ステップS15に移行する。
第1のデコーダ11で復号された復号データは、顔検出部13に供給される。顔検出部13は復号データからダイジェストシーンを検出し、そのダイジェストシーンの開始/終了位置を検出する。さらに顔検出部13は、ダイジェストシーンの検出に基づいて、検出シーン数ns (シーン単位の検出数)をカウントアップする。検出ステップS13が完了すると、第1の比較ステップS15に移行する。
(第1の比較ステップS15)
検出シーン数判定部14は検出シーン数ns とシーン数判定閾値Nとの比較を行う。すなわち、検出シーン数判定部14は検出シーン数ns がシーン数判定閾値N以上であるか否かを判定する。検出シーン数ns がシーン数判定閾値N未満であると判定されると、立旗ステップS19に移行し、検出シーン数ns がシーン数判定閾値N以上であると判定されると、第2の比較ステップS17に移行する。
検出シーン数判定部14は検出シーン数ns とシーン数判定閾値Nとの比較を行う。すなわち、検出シーン数判定部14は検出シーン数ns がシーン数判定閾値N以上であるか否かを判定する。検出シーン数ns がシーン数判定閾値N未満であると判定されると、立旗ステップS19に移行し、検出シーン数ns がシーン数判定閾値N以上であると判定されると、第2の比較ステップS17に移行する。
(第2の比較ステップS17)
復号フレーム数判定部15は、復号フレーム数nF とフレーム数判定閾値Mとの比較を行う。すなわち、復号フレーム数判定部15は、復号フレーム数nF がフレーム数判定閾値M以上であるか否かを判定する。
復号フレーム数判定部15は、復号フレーム数nF とフレーム数判定閾値Mとの比較を行う。すなわち、復号フレーム数判定部15は、復号フレーム数nF がフレーム数判定閾値M以上であるか否かを判定する。
第2の比較ステップS17で復号フレーム数nF がフレーム数判定閾値M以上であると判定されると、第2のデコーダ12の動作(立旗ステップS19、最終位置判定ステップS21、旗判定ステップS31、第2の復号ステップS33)に移行する。このとき、動画ファイル21の情報とダイジェストシーンの開始/終了位置の情報(顔検出部13によって検出される)が第2のデコーダ12に供給される。これにより第2のデコーダ12は、顔検出部13によって検出されたダイジェストシーンのみを第2の復号ステップS33で復号したうえで、その復号データを表示部16に供給して再生させる。一方、第2の比較ステップS17で復号フレーム数nF がフレーム数判定閾値M未満であると判定されると、最終位置判定ステップS21に移行する。
第1のデコーダ11は、動画ファイル21の最終フレームまで復号し終わったことを、最終位置判定ステップS21で確認すると、その動作を停止する。第2のデコーダ12は顔検出部13によるダイジェストシーンの供給がなくなると、その動作を停止し、それに伴い表示部16も停止して再生が終了する。
ステップS11~S33の各処理に関して以下に詳細を説明する。なお、立旗ステップS19、最終位置判定ステップS21、旗判定ステップS31は自明な処理のため説明を省略する。
第1の復号ステップS11では、第1のデコーダ11が、記録媒体20から読み出した動画ファイル21をその先頭データから順次復号する。第1のデコーダ11は第2のデコーダ12のA倍(Aは1を超える正数)の復号速度で動作させる。復号速度とは、ここでは、1フレーム当たりの復号に要する時間のことである(復号に要する時間が短いほど復号速度は速い)。30fps(frame per second)の動画を再生させるために必要な復号速度は、1/30(秒/フレーム)である。第2のデコーダ12は表示用の復号データを生成するので、30fpsで動画を再生することを考えると、復号速度は1/30(秒/フレーム)で十分である。第1のデコーダ11は検出用の復号データを作成するので、さらに速い復号速度で動作させてもよい。デコーダには復号速度が1/240(秒/フレーム)のものもあり、このデコーダ最大限の復号速度を使用すると、再生用の第2のデコーダ12よりも8倍の復号速度で動作させることができる。また、第1のデコーダ11と第2のデコーダ12とに対して1つずつデコーダを割り振った場合について説明したが、例えば、マルチデコーダ10内に4つのデコーダが搭載されている場合、第1のデコーダ11に3つ、第2のデコーダ12に1つを割り当てると、A=3倍の能力を持つ。これら2つの方法を組み合わせることにより、A=8×3=24倍の処理能力を持つことができる。
なお、第1のデコーダ11の復号速度を上げる方法として、復号するデータの量を減らしてもよい。動画ファイル21中には輝度データ・色差データ・音データ等が存在するが、本実施の形態における顔領域検出に必要なデータは輝度データのみであるため、第1のデコーダ11は動画ファイル21から読み出した動画データから輝度データのみを復号する。動画データは輝度データ・色差データが一緒に圧縮されており、装置の仕様によっては両方復号する仕様のものもあるが、メモリアクセス量が減るため、結果として高速になる。上述の例では輝度データを用いたが、検出内容によっては動画ファイル中にあるその他のデータでもよいし、組み合わせて使ってもよい。また、ダイジェストシーンは1フレームだけ存在する、といったようなものではなく、ある程度連続しているはずである。そのため、2フレームに1回、3フレームに1回と復号回数を減らしてもよい。
さらに、動画データ中の復号位置は、動画データの先頭フレームからだけに限定されない。図3A、図3Bは、第1の復号ステップS11における復号開始位置例を示す。図3Aに示すように、動画データの先頭フレームから最終フレームに向かって順次復号する、または最終フレームから先頭フレームに向かって順次復号してもよく、図3Bに示すように複数位置からの復号を開始してもよい。
検出ステップS13では、顔検出部13が復号データからダイジェストシーン候補を検出し、さらにそのダイジェストシーン候補の開始/終了位置を検出する。さらに検出ステップS13では、ダイジェストシーン候補の検出に基づいて、検出シーン数nsをカウントアップする。検出シーン数nsのカウントアップでは、ダイジェストシーン候補から、シーン単位以上のフレーム数を有するダイジェストシーン候補のみを正規のダイジェストシーンとして抽出したうえで、抽出したダイジェストシーンに含まれるシーン単位数(検出シーン数ns)をカウントアップする。
前述したように閾値Kはシーン単位を示す。シーン単位とは、ダイジェストシーンとして認知可能な最小限のフレーム数を示す。30fpsの動画では、任意の1フレームだけで前記検出対象が検出されたもののその任意のフレームの前後に位置する隣接フレームでは顔領域等の検出対象が何も検出されない状態で検出されたダイジェストシーンは、1フレーム(1/30秒分)だけであって、そのような短期間のダイジェストシーンを再生しても、何が写っているのかをユーザが判別できない。よって、閾値K(シーン単位)は、ユーザがダイジェストシーンとして視聴したと実感できる最小視聴秒数を確保するために必要となる最小限のフレーム数であって、30fpsの動画において上記最小視聴秒数を3秒と設定すると、閾値K(シーン単位)はK=90(フレーム)となる。
以下に、閾値K(=90フレーム)を用いた検出ステップS13の処理を詳細に説明する。図4に検出ステップS13の詳細なフローを示す。復号データにおいて顔領域検出が実施されて(ステップS41)、ステップS41で顔領域が検出されたか否かが判定される(ステップS42)。ステップS42で顔領域が検出されたと判定されると、顔領域が検出されたフレームはダイジェストシーン候補に含まれると判断されて、ダイジェストシーン候補の検出フレーム数dF がカウントアップされる(ステップS43)。さらにカウントアップされた検出フレーム数dF が1であるか否かが判定される(ステップS44)。ステップS44で検出フレーム数dF が1であると判定されると、現フレームが現在検出しているダイジェストシーン候補の開始位置であると認定されてその開始位置が記憶される(ステップS45)。一方、ステップS44で検出フレーム数dF が1以外であると判定されると、検出フレーム数dF が閾値K(=90フレーム)であるか否かが判定される(ステップS46)。ステップS46において、検出フレーム数dF が閾値Kであると判定されると、そのダイジェストシーン候補はシーン単位のフレームを有するダイジェストシーン、もしくはシーン単位以上のフレームを有するダイジェストシーンの一部を構成する部分シーンであると判定されたうえで、現時点におけるダイジェストシーンの終了位置が、現フレーム(検出フレーム数dF が閾値Kと等しいと認定されたフレーム)によって更新される(ステップS47)。
一方、ステップS42で顔領域が検出されなかったと判定されると、現時点における検出フレーム数が1未満であるか否かが判定される(ステップS48)。ステップS48で検出フレーム数dFが1未満であると判定されると、顔領域が検出されていないと判断され、一連の処理を終了する。一方、検出フレーム数dFが1以上であると判定されると、現フレームでは顔領域は検出されなかったものの、現フレームの一つ前のフレームは、
・シーン単位未満のフレーム数で連続するダイジェストシーン候補が検出された状態、
もしくは、
・シーン単位の1以上の整数倍のフレーム数で連続しさらにシーン単位未満のフレーム数で連続するダイジェストシーンが検出された状態、
であると判断される。
・シーン単位未満のフレーム数で連続するダイジェストシーン候補が検出された状態、
もしくは、
・シーン単位の1以上の整数倍のフレーム数で連続しさらにシーン単位未満のフレーム数で連続するダイジェストシーンが検出された状態、
であると判断される。
以上の判断が下されたうえで、維持されているダイジェストシーン候補またはダイジェストシーンにおける開始位置から現フレームに至る期間におけるフレーム数(=現フレーム-開始位置)が閾値K(=90フレーム)より大きいか否かが判定される(ステップS49)。
ステップS49において、開始位置から現フレームに至る期間におけるフレーム数が閾値Kより大きいと判定されると、現フレームの一つ前のフレームは、シーン単位の整数倍(1を含む)のフレーム数で連続したうえでさらにシーン単位未満のフレーム数で連続するダイジェストシーンが維持された状態であると判断される。この時維持されているダイジェストシーンは、シーン単位の整数倍(1を含む)のフレーム数(以下、第1のフレーム数という)にシーン単位未満のフレーム数(以下、第2のフレーム数という)が加算されたフレーム数を有する。
ステップS49において、開始位置から現フレームに至る期間におけるフレーム数が閾値Kより大きいと判定されると、維持されているダイジェストシーンの開始位置から第1のフレーム数まで変位したフレーム位置から、さらに閾値Kだけ進行したフレーム位置(第1のフレーム数+K)が、現時点で維持されているダイジェストシーンの終了位置として判定されたうえで、そのフレーム位置(第1のフレーム数+K)によって終了位置が更新される(ステップS50)。
一方、ステップS49において、開始位置から現フレームに至る期間におけるフレーム数が閾値Kより小さいと判定されると、現フレームの一つ前のフレームは、シーン単位未満のフレーム数で連続するダイジェストシーン候補が検出された状態であると判断される。ステップS49でそのように判断されると、そのダイジェストシーン候補は正規のダイジェストシーンではなく不要である、と判断されたうえで、ステップS45で記録された開始位置が破棄される(ステップS53)。
ステップS47、ステップS50の処理が完了すると、検出フレーム数dF が初期化された(0にされた)うえで(ステップS51)、検出シーン数ns のカウントアップが再開される(ステップS52)。
ステップS45、ステップS46、ステップS48、ステップS52、ステップS53の処理が終わると、検出は終了する。
なお、ステップS41では、標準的な顔のパーツ(目や口等)の位置関係から顔領域を検出する方法や、顔の色やエッジ情報を基にして顔領域を検出する方法や、予め用意した顔領域の特徴データとの比較に基づいて顔領域を検出する方法等の様々な発明が既になされており自明な処理であるため、説明を省略する。
図5に、顔検出部13から出力される情報を示す。顔検出部13が出力する検出結果30は、総検出シーン数情報31、ダイジェストシーン情報32とからなる。ダイジェストシーン情報32は、開始位置情報33と終了位置情報34とからなる。
図4と図5とを参照して、ダイジェストシーンの検出方法の具体例を説明する。例えば、閾値K=90(フレーム)に設定された状態で、ある動画の50~250番目のフレーム群において顔領域が存在しているとし、さらには初期状態では、検出フレーム数dF 、検出シーン数ns はともに0であるとする。49番目までのフレーム群の処理では顔領域が検出されないので、諸値は更新されない。
顔領域が初めて検出される50番目のフレームの処理では、当該50番目のフレームはダイジェストシーン候補に含まれると判断されたうえで、検出フレーム数dF がカウントアップされて1となり、ダイジェストシーンの開始位置として、50番目のフレームが記憶される。
51~139番目のフレーム群の処理においては連続して顔領域が検出されるので、検出フレーム数dF が順次カウントアップされる。139番目のフレームの処理においては、検出フレーム数dF が閾値K(=90)に到達するので、その時点で維持されているダイジェストシーン候補は、単一のシーン単位(K個)のフレーム数を有するダイジェストシーン、もしくは単一のシーン単位以上のフレーム数を有するダイジェストシーンの一部を構成する部分シーンであると判定される。このダイジェストシーン判定に基づいて、139フレーム番目のフレームがダイジェストシーンの終了位置として仮記憶される。さらにこの時点において検出シーン数ns がカウントアップされて1になり、検出フレーム数dF が初期化されて0になる。ダイジェストシーンの開始位置(=50番目のフレーム)は破棄されずに維持される。
140番目のフレームの処理では、引き続いて顔領域が検出されるため、139番目のフレームの処理で確定されたダイジェストシーンは、単一シーン単位以上のフレーム数を有するダイジェストシーンの一部を構成する部分シーンであって、当該140番目のフレームは、139番目のフレームで確定されたダイジェストシーン(部分シーン)に含まれると判定される。そのうえで、検出フレーム数dF がカウントアップされて1となる。ダイジェストシーンの開始位置(=50番目のフレーム)は、破棄されずに維持される。
141~229番目のフレーム群においても引き続いて連続して顔領域が検出されるので、検出フレーム数dF が順次カウントアップされる。229番目のフレームの処理では、検出フレーム数dF が閾値K(=90)に到達するので、その時点で維持されているダイジェストシーンは、閾値Kの2倍を満たすフレーム数を有するダイジェストシーン、もしくは閾値Kの2倍以上のフレーム数を有するダイジェストシーンの一部を構成する部分シーンであると判定される。このダイジェストシーン判定に基づいて、ダイジェストシーンの終了位置が229フレーム番目のフレームで更新される。さらにこの時点において検出シーン数ns がカウントアップされて2になり、検出フレーム数dF が初期化されて0になる。ダイジェストシーンの開始位置(=50番目のフレーム)は破棄されずに維持される。
230番目のフレームの処理では、引き続いて連続して顔領域が検出されるため、229番目のフレームの処理で確定されたダイジェストシーンは、閾値Kの2倍以上のフレーム数を有するダイジェストシーンの一部を構成する部分シーンであって、当該230番目のフレームは、229番目のフレームで確定されたダイジェストシーン(部分シーン)に含まれると判定される。そのうえで、検出フレーム数dF がカウントアップされて1となる。ダイジェストシーンの開始位置(=50番目のフレーム)は破棄されずに維持される。
230~250番目のフレーム群においても顔領域が検出されるので、検出フレーム数dF は21まで順次カウントアップされる。251番目のフレームの処理では顔領域が検出されなくなり、それと同時に21までカウントアップされた状態である検出フレーム数dF が次の状態であることが確認される。すなわち、検出フレーム数dF は1を超えておりかつ当該251番目のフレームと開始位置(=50番目のフレーム)との間の差分は201=(251-50)であって、その差分は閾値K(=90)を超えていることが確認される。この確認に基づき、その時点で維持されているダイジェストシーンの終了位置は、次のようにして確定される。すなわち、その時点で維持されている終了位置(=229番目のフレーム)に閾値K(=90)を加算したフレーム位置(319=229+90)がダイジェストシーンの終了位置として確定される。さらに検出シーン数ns が3にカウントアップされ、検出フレーム数dF は初期化されて0になる。
以上の処理により、ダイジェストシーンが確定されるとともにその開始/終了位置が特定されて記憶される。次に2つ目のダイジェストシーンが検出された場合、検出シーン数ns は、3から4にカウントアップされたうえでカウントアップが継続されてその開始/終了位置が記憶される。
なお、上述した例では、検出フレーム数dF が閾値K未満の処理においては、開始位置から終了位置までが閾値K以上の場合は、ダイジェストシーンとしたが、開始位置から終了位置までが閾値K未満の場合、そのダイジェスト部分は切り捨てられていた。しかしながら、検出したダイジェストシーンを切り捨てることなくスロー再生してもよい。例えば、動画データの記録フォーマットが30fpsでありかつ閾値K=90である状態で15フレーム分のダイジェストシーンが検出された場合では、30×15/90=5fpsで動画をスロー再生してもよい。
次いで第1の比較ステップS15を詳細に説明する。第1の比較ステップS15では、検出ステップS13において検出された検出結果30に基づいて、総検出シーン数情報31(検出結果30に含まれる)がシーン数判定閾値N以上を示すか否かが判定される。シーン数判定閾値Nは、検出シーン数ns に基づいてダイジェスト再生を開始するタイミング(ダイジェストシーンの再生開始時刻)を決めるための閾値であって、その設定方法は様々なものがある。本実施の形態では、ダイジェスト再生が開始されたならば、その再生が途切れないような値にシーン数判定閾値Nが設定されている。以下、そのようなシーン数判定閾値Nの設定方法を説明する。
図6に、N個(シーン数判定閾値Nによって規定される)のシーンが検出されたときの第1のデコーダ11と第2のデコーダ12との関係を示す。図中、Lは動画ファイル中の動画データの総フレーム数を示す。以下の説明では、第1のデコーダ11の復号速度が第2のデコーダ12の復号速度のA倍であると仮定される。
N個のシーン単位(各シーン単位はK個のフレームを有する)からなるダイジェストシーンを検出したうえで、そのダイジェストシーンの再生を開始するということは、K×N個のフレームからなるダイジェストシーンを検出して再生するということである。つまり、第2のデコーダ12にK×N個のフレームのバッファ情報が存在することになる。ここで、第1のデコーダ11の復号速度は第2のデコーダ12のA倍であるため、第2のデコーダ12がK×N個のフレームを処理している間に、第1のデコーダ11はA×K×N個のフレームの処理ができるということである。よって、(L-A×K×N)番目以降のフレームにおいて第2のデコーダ12で復号処理が開始されるようにNを設定すれば、ダイジェストシーンの再生が途切れることはない。よって、次の(1)式を満たせば、ダイジェストシーンの連続再生が可能となる。
K×N≧L-A×K×N …(1)
(1)式をシーン数判定閾値Nの算定式に変形すると、次の(2)式となる。
N≧L/K(1+A) …(2)
なお、Lは前述したように、動画総フレーム数のことである。
K×N≧L-A×K×N …(1)
(1)式をシーン数判定閾値Nの算定式に変形すると、次の(2)式となる。
N≧L/K(1+A) …(2)
なお、Lは前述したように、動画総フレーム数のことである。
したがって、(2)式を満足するシーン数判定閾値N(Nは自然数)を設定すれば、第2のデコーダ12では、途切れなく再生することが可能となる復号処理を実施することができる。なお、シーン数判定閾値Nはできるだけ小さい方が望ましい。
次に、第2の比較ステップS17におけるフレーム数判定閾値Mの設定方法について以下に述べる。図7にMフレーム目における第1のデコーダ11と第2のデコーダ12との関係を示す。Mフレーム目までの検出シーン数をnとする。nシーンの検出が終わっているということは、n×Kフレーム分のデータの検出が終わっているということである。よって、nシーンを第2のデコーダ12で復号するのに要する時間長は第1のデコーダ11でA×n×Kフレーム分のデータを復号するのに要する時間長と等しい。したがって、nシーン分のデータの検出が完了していれば、第1のデコーダ11は、そのnシーン分のデータを再生している間にA×n×Kフレーム分復号できるため、途切れなく再生するためのフレーム数判定閾値M(=開始指示位置)は、次の(3)式を満足するように設定すればよい。
M≧L-A×n×K …(3)
第2の復号ステップS33では、検出シーンのみを第2のデコーダ12によって復号する。図8にダイジェストシーンの復号開始方法を示す。圧縮データがMPEG形式の場合、I(Intra)フレーム、P(Predictive)フレーム、B(Bidirectionally predictive)フレームで構成される。IフレームはIフレームのみで復号できるが、PフレームとBフレームはIフレームがなければ復号できない。よって開始位置にPフレームやBフレームを指定した場合、図8に示すとおり、参照フレームとなるIフレームから復号を開始し、表示する。なお、Iフレームから復号しても、再生するのは図8で開始位置となったPフレームやBフレームからでもよい。
M≧L-A×n×K …(3)
第2の復号ステップS33では、検出シーンのみを第2のデコーダ12によって復号する。図8にダイジェストシーンの復号開始方法を示す。圧縮データがMPEG形式の場合、I(Intra)フレーム、P(Predictive)フレーム、B(Bidirectionally predictive)フレームで構成される。IフレームはIフレームのみで復号できるが、PフレームとBフレームはIフレームがなければ復号できない。よって開始位置にPフレームやBフレームを指定した場合、図8に示すとおり、参照フレームとなるIフレームから復号を開始し、表示する。なお、Iフレームから復号しても、再生するのは図8で開始位置となったPフレームやBフレームからでもよい。
第2の復号ステップS33の処理で実行される第2のデコーダ12にて出力される復号データを表示部16に入力することにより、ユーザはダイジェストシーンを視聴することができる。なお、表示部の代わりに記録部を備え、ダイジェストシーンのみを新たな動画データとして記録してもよい。
なお、第1の比較ステップS15の処理と第2の比較ステップS17の処理との処理順序を入れ替えてもよい。図9A、図9Bには、図1の第1の比較ステップS15と第2の比較ステップS17とを入れ替えた実施の形態1の変形例の動画ファイル再生方法におけるフローが示される。
ステップS11、ステップS13、ステップS19、ステップS21、ステップS31、ステップS33は図1と同じである。
(第2の比較ステップS14)
復号フレーム数判定部15は、復号フレーム数nF とフレーム数判定閾値Mとの比較を行う。すなわち、復号フレーム数判定部15は、復号フレーム数nF がフレーム数判定閾値M以上であるか否かを判定する。復号フレーム数nF がフレーム数判定閾値M以上であると判定されると、立旗ステップS19に移行し、復号フレーム数nF がフレーム数判定閾値M未満であると判定されると、第1の比較ステップS16に移行する。
復号フレーム数判定部15は、復号フレーム数nF とフレーム数判定閾値Mとの比較を行う。すなわち、復号フレーム数判定部15は、復号フレーム数nF がフレーム数判定閾値M以上であるか否かを判定する。復号フレーム数nF がフレーム数判定閾値M以上であると判定されると、立旗ステップS19に移行し、復号フレーム数nF がフレーム数判定閾値M未満であると判定されると、第1の比較ステップS16に移行する。
(第1の比較ステップS16)
検出シーン数判定部14は検出シーン数ns とシーン数判定閾値Nとの比較を行う。すなわち、検出シーン数判定部14は検出シーン数ns がシーン数判定閾値N以上であるか否かを判定する。検出シーン数ns がシーン数判定閾値N未満であると判定されると、立旗ステップS19に移行し、検出シーン数ns がシーン数判定閾値N以上であると判定されると、最終位置判定ステップS21に移行する。
検出シーン数判定部14は検出シーン数ns とシーン数判定閾値Nとの比較を行う。すなわち、検出シーン数判定部14は検出シーン数ns がシーン数判定閾値N以上であるか否かを判定する。検出シーン数ns がシーン数判定閾値N未満であると判定されると、立旗ステップS19に移行し、検出シーン数ns がシーン数判定閾値N以上であると判定されると、最終位置判定ステップS21に移行する。
次に30fpsの30分間分の動画データにおける実施の形態1の実行例を図10A、図10Bを参照して説明する。図10Aの動画データは30fpsで30分の動画データであって、この動画総フレーム数Lは、L=1800×30=54000(フレーム)となる。3秒間連続するフレーム群(検出シーン)をシーン単位として検出する場合、閾値Kは90(=30×3)となってシーン単位当たりのフレーム数は90フレームとなる。ユーザが、30分間分の動画データにおいてその1/10をダイジェストシーンとして要望する場合、ダイジェストシーンの総量は3分間(180秒間)分の画像データとなる。その場合、画像データにおいて検出される3秒間分のシーン単位の数は、180/3=60となる。さらに、第1の復号ステップS11で前述したように、第1のデコーダ11の復号速度Aを、A=24(倍)とし、第1のデコーダ11は第2のデコーダ12の24倍の復号速度を有すると想定する。以上の想定に基づいて本実施の形態の効果を説明する。
まず、シーン数判定閾値Nで再生開始指示が出る場合について述べる。上記想定によるシーン数判定閾値Nは、前述した(2)式に基づいて、
N≧54000/{90×(1+24)}≧24(シーン)
となり、
全シーン単位数である60シーン中において24シーン分のダイジェストシーンが検出された場合、ダイジェストシーンの再生が開始可能となる。
N≧54000/{90×(1+24)}≧24(シーン)
となり、
全シーン単位数である60シーン中において24シーン分のダイジェストシーンが検出された場合、ダイジェストシーンの再生が開始可能となる。
図10Bには、検出対象であるダイジェストシーンが動画データ中に均等にばらついている状態が示されている。この場合、動画データをその先頭から解析を初めて全データを解析が終了してからダイジェストシーンの動画再生を開始するのに要する期間長に比べて、1/3程度の短期間でダイジェストシーンの動画再生を開始することができる。具体的には、30分(=1800秒)の全画像データを24倍速で解析したうえで、ダイジェストシーンの動画再生を開始するには、1800(秒)/24=75(秒)の時間長が必要となるが、本実施の形態では、(1800(秒)/24)×(24/60)=30(秒)という短い時間長となる。
さらには、動画データの先頭領域に24シーン単位分のダイジェストシーンが偏在している状態では、最速でダイジェストシーンの再生開始指示が出力されることになる。この場合、24シーン単位分の再生時間長は、72秒(=24×3秒(シーン単位の時間長)となるが、この時間長の動画データから24倍速でダイジェストシーンの検出を行うのに要する時間長は、3秒(=72/24)となる。つまり、ダイジェストシーンの検出開始後3秒でダイジェストシーンの動画再生を開始することができる。
一方、動画データの末尾領域に60シーン単位分のダイジェストシーンが偏在している状態では、最も遅くダイジェストシーンの再生開始指示が出されることになる。この場合、ダイジェストシーンが最初に検出されるタイミングは、検出を開始してから、67.5(=(1800-180)/24)秒後となる。そして、最初にダイジェストシーンが検出されてから24シーン単位分の検出が終了するには、3(=(24×3)/24)秒を要するので、ダイジェストシーンの動画再生が開始されるのは、70.5(=67.5+3)秒後となる。したがって、後述するフレーム数判定閾値Mとの比較によれば、本実施の形態では最悪の条件下におけるダイジェストシーンの動画再生が実施されることはない。
次に、フレーム数判定閾値Mで再生開始指示が出力される場合について述べる。本実施の形態の想定を前述した(3)式に代入すれば、フレーム数に換算したフレーム数判定閾値Mは、
M=54000-24×90×n=54000-2160n
となる。表1にシーン単位数nsにおけるフレーム数換算のフレーム数判定閾値Mと秒数換算のフレーム数判定閾値M(=ダイジェストシーンの動画再生開始に要する時間長)とを表す。
M=54000-24×90×n=54000-2160n
となる。表1にシーン単位数nsにおけるフレーム数換算のフレーム数判定閾値Mと秒数換算のフレーム数判定閾値M(=ダイジェストシーンの動画再生開始に要する時間長)とを表す。
シーン単位数nsの増加と共に、フレーム数判定閾値Mが小さくなる(=ダイジェストシーンの動画再生開始時刻が早くなる)のが分かる。表1に基づけば、シーン単位数ns=1である場合、復号フレーム数nFがフレーム数判定閾値M(=51840フレーム=72秒)より多ければ再生が開始される。シーン単位数nsがシーン数判定閾値N(この場合、N=24)に満たない場合、フレーム数判定閾値Mに基づいてダイジェスト開始指示を行うか否かが判定される。
実行例を図10Cに参照して説明する。図10Cに示す動画データでは、検出シーンは、開始部分に20シーン単位、終了部分に40シーン単位それぞれ存在している。1シーン単位の検出時間は0.125(=3/24)秒であるため、このような動画データを解析し始めると、開始部分にある20シーン単位の検出シーンに要する検出時間は2.5秒となる。開始部分にある検出シーンは20シーン単位であって、シーン数判定閾値N以下(20>N=24)であるため、ダイジェストの開始指示は出力されない。シーン単位数ns=20である場合、表1に基づけば、復号フレーム数nFがフレーム数判定閾値M(=10800フレーム=15秒)より大きければダイジェスト再生が可能となる。したがって、復号フレーム数nFが、10800フレームとなった時点、すなわち、解析開始から15秒進行した時点でダイジェスト再生開始指示が出力される。
次に最もダイジェスト再生の開始が遅くなるケースを図10Dに基づいて説明する。この場合の例として、図10Dでは、動画データの最後の部分に、対象とする動画データが60シーン存在している。この場合、前述したシーン数判定閾値Nで計算した時と同様、67.5秒からダイジェストシーンの検出が開始される。以上の状況においてダイジェスト再生の開始判断は次のように下される。
シーン単位数ns=1の場合では、秒換算の復号フレーム数nFは、67.625秒(=67.5+0.125×1)となり、この復号フレーム数nFはフレーム数判定閾値M(=72秒)より小さいため、ダイジェスト再生開始指示は出力されない。シーン単位数ns=2の場合では、秒換算の復号フレーム数nFは、67.750秒(=67.5+0.125×2)となり、この復号フレーム数nFはフレーム数判定閾値M=69(秒)より小さいため、ダイジェスト再生開始指示は出力されない。シーン単位数ns=3の場合では、秒換算の復号フレーム数nFは、67.875秒(=67.5+0.125×3)となり、この復号フレーム数nFはフレーム数判定閾値M=66(秒)より大きいため、ダイジェスト再生開始指示が出力される。
さらに、復号速度の倍率Aを高速にすることにより、さらに開始位置も高速になる。ダイジェストシーンは連続しているものなので、動画を数フレーム飛ばしても問題はない。ここで、2フレームに1回復号にすることは、復号速度が2倍になることに等しい。よって、A=24×2=48(倍)となる。
これにより、復号速度の倍率Aが2倍になることによりシーン数判定閾値Nがほぼ半分である
N≧54000/(24×90×2)=12.5≒13(シーン)
となる。
N≧54000/(24×90×2)=12.5≒13(シーン)
となる。
A=48の状態で動画全体を解析すると、1800秒(=30分)/48=37.5(秒)で全データを解析することができる。これに対して本実施の形態では、全60シーンのダイジェストシーンのうちで13シーン、すなわち、ほぼ1/3の検出が終了した時点でダイジェストシーンの再生を開始することが可能となる。つまり、全画像を解析してからダイジェストシーンの動画再生を開始するよりも、ダイジェストシーンの動画再生に要する時間を1/6に短縮することができる。このように、復号速度の倍率Aを大きくすることで、それに反比例してダイジェストシーンの動画再生に要する時間長を小さくすることができる。このように、復号速度の倍率Aを大きくするほど、本実施の形態の効果は高まる。以上のように本実施の形態によれば、付加情報がなくても全画像を解析し終わるのを待つことなくダイジェストシーンの動画再生を、高速に行うことができる。
(実施の形態2)
[シーン数判定閾値Nが実施の形態1の条件を満たさない状態に適用した構成]
ダイジェストシーンの再生開始に要する時間長をさらに短縮化するために、シーン数判定閾値Nを、実施の形態1の条件を満たさない値に設定すると(すなわちより小さい値に設定すると)、ダイジェストシーンが不足して第2のデコーダ12での処理が止まってしまう可能性がある。図11にシーン数判定閾値Nの値が実施の形態1の値より小さい場合の再生状況を示す。図11に示すとおり、シーン数判定閾値Nの値が小さくなると、再生対象がなくなって何も再生されない空白時間が生じることが予想される。
[シーン数判定閾値Nが実施の形態1の条件を満たさない状態に適用した構成]
ダイジェストシーンの再生開始に要する時間長をさらに短縮化するために、シーン数判定閾値Nを、実施の形態1の条件を満たさない値に設定すると(すなわちより小さい値に設定すると)、ダイジェストシーンが不足して第2のデコーダ12での処理が止まってしまう可能性がある。図11にシーン数判定閾値Nの値が実施の形態1の値より小さい場合の再生状況を示す。図11に示すとおり、シーン数判定閾値Nの値が小さくなると、再生対象がなくなって何も再生されない空白時間が生じることが予想される。
本実施の形態では、上述したような不具合の発生を避けるため、シーン数判定閾値Nで規定されるN個のダイジェストシーンが検出されて再生が開始された時点において、動画データの残りフレーム数に応じて復号するフレームの間隔を広げている。図12に残りフレーム数Rに応じた復号フレームの間隔の拡張方法を示す。N個のダイジェストシーンが検出された時点における動画データの残フレーム数Rは動画総フレーム数Lを用いて、次の(4)式で表わすことができる。
R=L-現在フレーム …(4)
検出されたNシーンを再生している間に、第1のデコーダ11が復号できるフレーム数はA×N×Kである。よって、復号間隔Cが次の(5)式を満たした状態で動画データを復号していけば、第2のデコーダ12の再生が終わるのと同時に、解析が終了しており途切れなく復号できる。
C=R/(A×N×K) …(5)
なお、復号間隔Cを開けて復号したフレームから顔領域が検出された場合、そのフレーム以降は順次復号したうえでダイジェストシーンの検出が終了した時点で、上記の復号間隔Cを計算し直し、再びフレーム間隔を開けて復号する方法をとってもよい。
R=L-現在フレーム …(4)
検出されたNシーンを再生している間に、第1のデコーダ11が復号できるフレーム数はA×N×Kである。よって、復号間隔Cが次の(5)式を満たした状態で動画データを復号していけば、第2のデコーダ12の再生が終わるのと同時に、解析が終了しており途切れなく復号できる。
C=R/(A×N×K) …(5)
なお、復号間隔Cを開けて復号したフレームから顔領域が検出された場合、そのフレーム以降は順次復号したうえでダイジェストシーンの検出が終了した時点で、上記の復号間隔Cを計算し直し、再びフレーム間隔を開けて復号する方法をとってもよい。
さらに、上記復号間隔を残余のダイジェストシーンの数に対応させてもよい。例えば、再生していない残余の検出済みダイジェストシーンの数が1であれば復号間隔CをR/(A×N×K)に、2であれば復号間隔CをR/(2×A×N×K)に、nであればR/(n×A×N×K)としてもよい。
さらに、ダイジェストシーンが途中で不足した場合の別の対処方法として、再生シーンがない期間中は第1のデコーダ11の復号結果を表示することが挙げられる。以下に詳細を説明する。
図13に、第1のデコーダ11と第2のデコーダ12の復号結果を表示する動画ファイル再生装置を示す。この動画ファイル再生装置は、記録媒体20と、第1のデコーダ11と、顔検出部13と、検出シーン数判定部14と、復号フレーム数判定部15と、第2のデコーダ12と、表示部16とを備える。
記録媒体20は、再生対象となる動画ファイルを格納している。第1のデコーダ11は、動画ファイルを順次復号する。顔検出部13は、第1のデコーダ11でデコードされた復号データに基づいてダイジェストシーンの開始位置と終了位置とを検出する。検出シーン数判定部14は、顔検出部13で得られた検出シーン数ns がダイジェストシーンの再生開始時刻を決めるためのシーン数判定閾値のN(Nは自然数)以上か否かを判定する。復号フレーム数判定部15は、第1のデコーダ11で得られた復号フレーム数nF がダイジェストシーンの再生開始時刻を決めるためのフレーム数判定閾値のM(Mは自然数)以上か否かを判定する。第2のデコーダ12は、顔検出部13で検出されたダイジェストシーンのみを復号する。表示部16は、第1のデコーダ11と第2のデコーダ12とによって復号された情報を表示する。
第1のデコーダ11と第2のデコーダ12とは、マルチデコーダ10内のデコーダの一部である。なお、マルチデコーダ10は2つ、またはそれ以上のデコーダを搭載している。第1のデコーダ11によって復号されたフレーム数や、検出シーン数はCPUで管理されているものとする。検出シーン数判定部14と復号フレーム数判定部15とはCPUの機能として構成されている。
なお、ここで、第1のデコーダ11の復号結果は通常動画のA倍の速度で出力されている。そのため、表示部16の表示処理能力に合うフレーム量に絞って表示する必要がある。結果として、第1のデコーダ11の復号結果を表示するということは、早送り再生を見ているのと同様である。
第1のデコーダ11と第2のデコーダ12の復号結果を表示する処理手順について説明する。この表示手順は、図1の第2の復号ステップS33での顔領域のみを復号して表示するという処理を、第1のデコーダ11の復号結果と第2のデコーダ12の復号結果とを表示する処理に置き換えることで実現できる。図14に第1のデコーダ11の復号結果と第2のデコーダ12の復号結果とを表示する処理フローを示す。
旗判定ステップS31にて再生フラグが立っていることを確認したあと、本フローは実行される。図13と図14とを用いて第2のデコーダ12の起動と表示部16の表示切り替えとについて説明する。第2のデコーダ12で検出されたダイジェストシーンが復号され、その復号結果が表示部16に供給される(ステップS61)。検出シーン(検出したダイジェストシーン)の終わりがくるまで処理が継続され、検出シーンをすべて復号し終わったことが確認されると(ステップS62)、再生フラグがオフされる(ステップS63)。第1のデコーダ11で動画の最終フレームまできたことが確認されると処理が終了され(ステップS64)、最終フレームでないことが確認されると再生フラグが立っているか否かが判定され(ステップS65)、再生フラグが立っていないことが確認されると第1のデコーダ11の復号結果が表示部16に供給される(ステップS66)。上記の処理により、検出シーンが不足した場合、第1のデコーダ11の復号結果が表示されることにより、ユーザの処理待ち時間が回避される。
図15に第1のデコーダ11の復号結果と第2のデコーダ12の復号結果とを表示する処理の実行例を示す。第1のデコーダ11が動画データを検出するまで、第2のデコーダ12は復号処理を行わない。第1のデコーダ11による復号データから検出シーンがN個検出されると第2のデコーダ12はダイジェストシーンだけを復号し(41)、復号データを表示部16に供給する。このときユーザは通常の再生速度でその復号データを視聴できる。ダイジェストシーンをすべて復号し終わっても新たなダイジェストシーンが検出されていない場合、第1のデコーダ11の復号結果(42)が表示部16に供給される。ここでは、表示部16の表示能力に合わせて必要なフレーム数だけが供給される。このときの表示状態は、早送り再生と同様である。再びダイジェストシーンが検出されると、検出されたダイジェストシーンを処理するデコーダが切り替えられ、再び第2のデコーダ12の復号結果(43)が表示部16に供給されて表示される。先程と同様に、ユーザは通常再生でその復号結果(43)を視聴できる。なお、再生フラグを立てるシーン数Nは、1度目の再生が始まったあとに変更してもよい。
(実施の形態3)
[第1の復号ステップで粗く復号する構成]
前述した実施の形態1では、解析に必要なすべての動画データを復号して高速化する方法について述べたが、本実施の形態では、検出ステップS13において粗く復号する構成(つまり、復号フレーム数を削減する構成)を2つ述べる。
(第1の構成)
これは、一度粗く検出をかけることで検出されたフレームの周囲のみを再復号したうえで顔検出部13で処理する構成である。図16は第1の復号ステップS11でのフレーム数削減例を示す。図16の(a)に示すように、画像データにおいて、ある一定間隔毎(例えば、6フレーム毎)に画像データが区切られたうえで、各区分フレーム群から1フレームが抜き出されたうえで、抜き出されたフレームの画像データが選択的に復号される。次に図16の(b)に示すように、その復号データが顔検出部13で顔領域検出処理されたうえで、その処理結果(顔領域の有無)が出力される。次に図16の(c)に示すように、顔領域が検出された復号データを含む区分フレーム群(すなわち、顔領域が検出されたフレームから次に顔領域の検出が試みられたフレームまでのクレーム群)の画像データが記憶されたうえで、記憶された画像データのみが始めから復号される。これにより実際のデータよりも少ないフレーム数でダイジェストシーンが検出されるようになってダイジェスト再生の高速化が可能になる。
[第1の復号ステップで粗く復号する構成]
前述した実施の形態1では、解析に必要なすべての動画データを復号して高速化する方法について述べたが、本実施の形態では、検出ステップS13において粗く復号する構成(つまり、復号フレーム数を削減する構成)を2つ述べる。
(第1の構成)
これは、一度粗く検出をかけることで検出されたフレームの周囲のみを再復号したうえで顔検出部13で処理する構成である。図16は第1の復号ステップS11でのフレーム数削減例を示す。図16の(a)に示すように、画像データにおいて、ある一定間隔毎(例えば、6フレーム毎)に画像データが区切られたうえで、各区分フレーム群から1フレームが抜き出されたうえで、抜き出されたフレームの画像データが選択的に復号される。次に図16の(b)に示すように、その復号データが顔検出部13で顔領域検出処理されたうえで、その処理結果(顔領域の有無)が出力される。次に図16の(c)に示すように、顔領域が検出された復号データを含む区分フレーム群(すなわち、顔領域が検出されたフレームから次に顔領域の検出が試みられたフレームまでのクレーム群)の画像データが記憶されたうえで、記憶された画像データのみが始めから復号される。これにより実際のデータよりも少ないフレーム数でダイジェストシーンが検出されるようになってダイジェスト再生の高速化が可能になる。
具体的には、30分間分の30fpsフォーマットの動画データにおいて、動画データを所定フレーム数(例えば6フレーム)で区切ったうえで、その分割フレーム群毎に1フレームを選択的に抜き出して復号し(例えば、各分割フレーム群の分割点(具体的には先頭)にある分割点フレームを抜き出して復号し)、その復号データから顔領域検出を試みる。顔領域検出の結果、半分の復号データ(図16では3つのフレームの復号データ)において顔領域が検出されたとする。この場合、顔領域が検出されたフレームが含まれる分割フレーム群における残余のフレームだけを顔検出部13にかける。このような顔領域検出を実施する場合、全てのフレームにおいて顔領域検出を実施する場合に比べて、復号フレーム数は半分となる。これは、15分の動画データを復号して顔領域検出を行うことに等しくなる。このとき、実施の形態1で用いたパラメータ閾値K=90および復号速度の倍率A=24を、前述した(2)式に代入すると、シーン数判定閾値Nは、
N≧27000/{90×(1+24)}≧12(シーン)
となる。復号速度倍率A=24で15分の動画を全解析するのに要する時間長は、900秒(=15分)/24=37.5(秒)となる。しかしながら、前述したように粗く復号した結果として、この15分の動画データの大部分は、ダイジェストシーンによって占有されている可能性が高いと予想される。この場合、 さらには、動画データの先頭領域に24シーン単位分のダイジェストシーンが偏在している状態では、最速でダイジェストシーンの再生開始指示が出力されることになる。この場合、12シーン単位分の再生時間長は、36秒(=12×3秒(シーン単位の時間長)となるが、この時間長の動画データから24倍速でダイジェストシーンの検出を行うのに要する時間長は、1.5秒(=36/24)となる。つまり、ダイジェストシーンの検出開始後1.5秒でダイジェストシーンの動画再生を開始することができる。
N≧27000/{90×(1+24)}≧12(シーン)
となる。復号速度倍率A=24で15分の動画を全解析するのに要する時間長は、900秒(=15分)/24=37.5(秒)となる。しかしながら、前述したように粗く復号した結果として、この15分の動画データの大部分は、ダイジェストシーンによって占有されている可能性が高いと予想される。この場合、 さらには、動画データの先頭領域に24シーン単位分のダイジェストシーンが偏在している状態では、最速でダイジェストシーンの再生開始指示が出力されることになる。この場合、12シーン単位分の再生時間長は、36秒(=12×3秒(シーン単位の時間長)となるが、この時間長の動画データから24倍速でダイジェストシーンの検出を行うのに要する時間長は、1.5秒(=36/24)となる。つまり、ダイジェストシーンの検出開始後1.5秒でダイジェストシーンの動画再生を開始することができる。
第2は、MPEG形式で記録されている動画ファイルの場合、Iフレームのみを復号していく方法である。MPEG形式の動画ファイルは前述の通り、Iフレーム、Pフレーム、Bフレームで構成される。このうち、Iフレームのみを復号し、検出をかけることにより、すべての動画ファイルを解析せずに、顔領域検出を行うことができる。
I→B→B→P→B→B→P→B→Bの繰り返しであるようなMPEG形式の場合、Iは9フレームに1回存在し、Iフレームのみで検出を行うということは、9フレームに1回検出を行うということで、第1のデコーダ11の復号速度が9倍になることに等しく、パラメータAを改善するので、ダイジェスト再生をより高速化させる。
以上、復号フレーム数を削減する2つの構成を説明した。これらにより、さらに高速なダイジェスト再生が可能となる。ただし、粗く検出してしまうため、シーンの検出精度という点においては劣る。デコーダの復号処理能力に応じて、使い分けるのが望ましい。
(実施の形態4)
[顔情報以外の特定情報を含んだダイジェストシーンを検出する構成]
実施の形態1~3では、1フレームの復号データのみで判断される顔情報を特定情報としていたが、本発明で扱う特定情報は顔情報に限定されない。例えば、シーンチェンジやズーム等の画像変化に関する情報や、音声に関する情報等、情報の有無を判断するのに数フレームの画像データを要する特定情報に基づいてダイジェストシーンを検出する方法も、本発明の検出処理として適当である。上記情報の検出方法は過去様々な発明がなされ、自明な処理のため説明を省略する。
[顔情報以外の特定情報を含んだダイジェストシーンを検出する構成]
実施の形態1~3では、1フレームの復号データのみで判断される顔情報を特定情報としていたが、本発明で扱う特定情報は顔情報に限定されない。例えば、シーンチェンジやズーム等の画像変化に関する情報や、音声に関する情報等、情報の有無を判断するのに数フレームの画像データを要する特定情報に基づいてダイジェストシーンを検出する方法も、本発明の検出処理として適当である。上記情報の検出方法は過去様々な発明がなされ、自明な処理のため説明を省略する。
ダイジェストシーンの検出方法は様々あるが、消費電力の観点からいって、小型機器に複数のダイジェスト検出部を載せて動作させるのは好ましくない。よって、電源供給状態に対応してシーン検出の種類を限定する必要がある。例えば、ビデオカメラに搭載した場合、電池で駆動している場合は、顔領域だけを用いて、ダイジェストシーンの検出と再生とを行う一方、電源コンセント等の継続供給可能な電源から電源供給がある場合は、顔領域と音声など、複数の特定情報を用いてダイジェストシーンの検出と再生を行う。
(実施の形態5)
[新たに付加情報または加工動画を記録する構成]
検出したダイジェストシーンを再生する他に、検出したダイジェストシーンに関する情報を付加情報として動画ファイルに記憶してもよい。図17に、実施の形態5のブロック図を示す。本実施の形態の構成は、基本的に実施の形態1と同様であるが、実施の形態1の構成に加えて、情報作成部17を備える。なお、図中、22は、動画ファイル21に関連付けされる付加情報であって、付加情報22は、情報作成部17によって生成されたうえで、動画ファイル21に関連付けられて記録媒体20に記録される。
[新たに付加情報または加工動画を記録する構成]
検出したダイジェストシーンを再生する他に、検出したダイジェストシーンに関する情報を付加情報として動画ファイルに記憶してもよい。図17に、実施の形態5のブロック図を示す。本実施の形態の構成は、基本的に実施の形態1と同様であるが、実施の形態1の構成に加えて、情報作成部17を備える。なお、図中、22は、動画ファイル21に関連付けされる付加情報であって、付加情報22は、情報作成部17によって生成されたうえで、動画ファイル21に関連付けられて記録媒体20に記録される。
情報作成部17は、顔検出部13で検出された顔検出情報と動画ファイル21とに基づいて、動画ファイル21に関連付けされた付加情報22を作成する。この処理により、次回以降の解析が不要となり、過去に発明された再生方法により、高速にダイジェスト再生を行うことができる。さらに、情報作成部17の代わりに動画記録部を設け、検出されたダイジェストシーンを低圧縮(高解像度)で、対象外シーンを高圧縮(低解像度)に記録し、新たな動画ファイルを作成してもよい。
(実施の形態6)
[ダイジェストシーンを選択的に通常再生する一方、ダイジェストシーン以外は早送り再生を行う構成]
実施の形態6では、第1のデコーダ11の復号結果を再生表示しつつ、ダイジェストシーンを検出すると、検出したダイジェストシーンを通常速度で再生する。本実施の形態を実現する動画ファイル再生装置は図13と同様である。また、本実施の形態は図1のフローにおいて、ステップS11~S21までは同様である。ステップS31~S33において、第1のデコーダ11の復号結果の表示処理を加える。図18に、ステップS31~S33に代わるフローを示す。図13と図18を用いて、本実施の形態の処理詳細を説明する。
[ダイジェストシーンを選択的に通常再生する一方、ダイジェストシーン以外は早送り再生を行う構成]
実施の形態6では、第1のデコーダ11の復号結果を再生表示しつつ、ダイジェストシーンを検出すると、検出したダイジェストシーンを通常速度で再生する。本実施の形態を実現する動画ファイル再生装置は図13と同様である。また、本実施の形態は図1のフローにおいて、ステップS11~S21までは同様である。ステップS31~S33において、第1のデコーダ11の復号結果の表示処理を加える。図18に、ステップS31~S33に代わるフローを示す。図13と図18を用いて、本実施の形態の処理詳細を説明する。
初めに、再生フラグが立っているか否かが判定される(ステップS71)。再生フラグが立っていないと判定される場合、第1のデコーダ11の復号結果(復号データ)が表示部16に供給される(ステップS75)。そのうえで、今回の第1のデコーダ11による復号結果が動画データの最後であるか否かが判定される(ステップS76)。ステップS76で画像データの最後ではないと判定される場合、再生フラグの判定(ステップS71)へループする。ステップS71で再生フラグが立っていると判定される場合、検出されたダイジェストシーンを第2のデコーダ12で復号したうえで、その復号結果を表示部16に供給する(ステップS72)。これにより、表示画像が切り替わる。検出したダイジェストシーンの終端までステップS72の処理を継続し、検出したダイジェストシーンの終端になったことを確認すると(ステップS73)、再生フラグをオフにする(ステップS74)。
図19に実施の形態6の実行例を示す。この例ではシーン数判定閾値N=1とする。第1のデコーダ11による復号結果からダイジェストシーンが検出されるまで、表示部16は第1のデコーダ11の出力を再生する。ここで、ユーザは動画データが早送り再生されたものを視聴していると感じる。第1のデコーダ11により、ダイジェストシーンが検出された場合、第2のデコーダ12はそのダイジェストシーンを復号して表示部16に供給する。表示部16は第2のデコーダ12の出力を表示する。ここで、ユーザはダイジェストシーンが通常再生されたものを視聴していると感じる。第1のデコーダ11で、結果としてn1 シーン分検出された場合、第2のデコーダ12ではn1 シーン分の復号を行う。第2のデコーダ12でダイジェストシーンの復号処理を終了しても、次のダイジェストシーンが検出されない場合、第2のデコーダ12は復号処理を停止する。その結果、再び第1のデコーダ11の復号結果が表示部16に供給されることになり、表示部16は第1のデコーダ11の出力を表示する。再び、検出シーン数が1となったら、第2のデコーダ12に開始指示が供給される。検出結果がn2 シーン分であれば、第2のデコーダ12ではn2 シーン分の復号を行い、復号データを表示部16に供給する。以上の処理により、ユーザはダイジェストシーンのみを通常速度で、それ以外の画像データを早送り再生することができる。
これまで実施の形態1~6を説明してきたが、これら実施の形態の動画ファイル再生方法はあくまで一例に過ぎず、様々な改変が可能であることは言うまでもない。
なお、上記において複数の実施の形態、実施例について説明したが、本発明の趣旨を逸脱しない範囲で、複数の実施の形態、実施例における各構成要素を任意に組み合わせてもよい。
本発明によって、様々な動画のダイジェスト再生が可能となるため、デジタルビデオカメラや、監視カメラ、テレビコンテンツ、DVDなど、デジタルの動画ファイル再生において利用可能性がある。
S11 付加情報のない動画ファイルを1フレーム復号する第1の復号ステップ
S13 復号されたデータからダイジェストシーンの開始/終了位置を検出し、検出シーン数をカウントする検出ステップ
S15 検出シーン数がNシーン以上であるか否かを判定するステップ
S17 復号されたフレーム数がMフレーム以上であるか否かを判定するステップ
S19 第2の復号ステップの開始のためにダイジェスト再生フラグを立てるステップ
S21 動画の最終フレームであるか否かを判定するステップ
S31 ダイジェスト再生フラグが立ったか否かを判定するステップ
S33 検出されたダイジェストシーンのみを復号する第2の復号ステップ
10 マルチデコーダ
11 第1のデコーダ
12 第2のデコーダ
13 顔検出部(ダイジェスト検出部)
14 検出シーン数判定部
15 復号フレーム数判定部
16 表示部
17 情報作成部
20 記録媒体
21 動画ファイル
22 付加情報
S13 復号されたデータからダイジェストシーンの開始/終了位置を検出し、検出シーン数をカウントする検出ステップ
S15 検出シーン数がNシーン以上であるか否かを判定するステップ
S17 復号されたフレーム数がMフレーム以上であるか否かを判定するステップ
S19 第2の復号ステップの開始のためにダイジェスト再生フラグを立てるステップ
S21 動画の最終フレームであるか否かを判定するステップ
S31 ダイジェスト再生フラグが立ったか否かを判定するステップ
S33 検出されたダイジェストシーンのみを復号する第2の復号ステップ
10 マルチデコーダ
11 第1のデコーダ
12 第2のデコーダ
13 顔検出部(ダイジェスト検出部)
14 検出シーン数判定部
15 復号フレーム数判定部
16 表示部
17 情報作成部
20 記録媒体
21 動画ファイル
22 付加情報
Claims (29)
- 動画ファイルを1復号するとともに、復号フレーム数をカウントする第1の復号ステップと、
前記第1の復号ステップで復号された動画データを構成する複数のシーンの中から特定情報を含むダイジェストシーンを検出したうえで、検出した前記ダイジェストシーンの開始/終了位置の特定と、ダイジェストシーン検出数のカウントとを行う検出ステップと、
前記検出ステップでカウントした前記ダイジェストシーン検出数と、前記ダイジェストシーンの再生開始時刻を決めるためのシーン数判定閾値とを比較する第1の比較ステップと、
前記第1の復号ステップでカウントした前記復号フレーム数と、前記ダイジェストシーンの再生開始時刻を決めるためのフレーム数判定閾値とを比較する第2の比較ステップと、
前記第1の比較ステップの比較判定結果と前記第2の比較ステップの比較判定結果とに基づいて、前記検出ステップで検出した前記ダイジェストシーンを復号するか否かを判断したうえで、復号すると判断すると、前記検出ステップで特定した前記開始/終了位置で前記動画ファイルから前記ダイジェストシーンを抽出して復号する第2の復号ステップと、
を含む動画ファイル再生方法。 - 前記第1の比較ステップを実行したのち前記第2の比較ステップを行い、
前記第2の復号ステップでは、
前記第1の比較ステップにおいて前記検出シーン数が前記シーン数判定閾値以上である、
または、
前記第1の比較ステップにおいて前記検出シーン数が1以上前記シーン数判定閾値未満であり、かつ前記第2の比較ステップにおいて前記復号フレーム数が前記フレーム数判定閾値以上である、
場合に、前記検出ステップで検出した前記ダイジェストシーンを復号すると判断する、
請求項1の動画ファイル再生方法。 - 前記第2の比較ステップを実行したのち前記第1の比較ステップを行い、
前記第2の復号ステップでは、
前記第2の比較ステップにおいて前記復号フレーム数が前記フレーム数判定閾値以上である、
または、
前記第2の比較ステップにおいて前記復号フレーム数が前記フレーム数判定閾値未満であり、かつ前記第1の比較ステップにおいて前記検出シーン数が前記シーン数判定閾値以上である、
場合に、前記検出ステップで検出した前記ダイジェストシーンを復号すると判断する、
請求項1の動画ファイル再生方法。 - 前記第1の復号ステップにおける復号速度を、前記第2の復号ステップにおける復号速度のA倍(Aは1を超える正数)にする、
請求項1の動画ファイル再生方法。 - 前記第1の復号ステップでは、前記動画ファイルの先頭フレームから復号を行う復号モードと、前記動画ファイルの最終フレームから復号を行う復号モードとを必要に応じて切り替えながら前記動画ファイルを復号する、
請求項1の動画ファイル再生方法。 - 前記第1の復号ステップでは、前記動画ファイルに一定サイズ毎に設けた分割点にある分割点フレームを先行復号したうえで、先行復号した前記分割点フレームの動画データから前記特定情報を検出し、前記特定情報を検出した前記分割点フレーム近傍のフレーム群の前記動画ファイルを選択的に復号する、
請求項1の動画ファイル再生方法。 - 前記動画ファイルは、フレーム間予測に基づいて圧縮されたものであり、
前記第1の復号ステップでは、Intraフレームのみを復号する、
請求項1の動画ファイル再生方法。 - 前記第1の復号ステップでは、前記検出ステップで必要となる情報のみを復号する、
請求項1の動画ファイル再生方法。 - 前記必要となる情報は輝度情報である、
請求項8の動画ファイル再生方法。 - 前記第1の復号ステップと前記検出ステップと前記第1の比較ステップと前記第2の比較ステップと前記第2の復号ステップとはループ処理され、
前記第1の復号ステップでは、前記動画ファイルのフレームを間隔を空けて不連続に復号し、
かつ前記第1の復号ステップでは、前記第2の復号ステップにおいて前記ダイジェストシーンの復号が未処理となった残余のフレーム数または残余のダイジェストシーン数に応じて復号するフレームの間隔を調整する、
請求項1の動画ファイル再生方法。 - 前記検出ステップでは、複数の前記特定情報の中から任意の特定情報を選択可能であり、
かつ前記検出ステップでは、前記第1の復号ステップと前記第2の復号ステップとを実行する復号装置における電源供給量に準じて前記特定情報が選択される、
請求項1の動画ファイル再生方法。 - 前記特定情報は画像内における特定領域に関する情報である、
請求項1の動画ファイル再生方法。 - 前記特定領域は、画像内における被写体の顔領域である、
請求項12の動画ファイル再生方法。 - 前記特定情報は前記動画ファイルにおける動画変化情報である、
請求項1の動画ファイル再生方法。 - 前記動画変化情報は、前記画像ファイルにおけるシーンチェンジまたはズーム処理に関する情報である、
請求項14の動画ファイル再生方法。 - 前記特定情報は音声情報である、
請求項1の動画ファイル再生方法。 - 前記動画ファイルは、フレーム間予測に基づいて圧縮されたものであり、
前記検出ステップでは、前記開始/終了位置における開始位置として、Predictiveフレーム、またはBidirectionally predictiveフレームを指定し、
前記第2の復号ステップでは、前記開始位置の直前のIntraフレームから前記ダイジェストシーンを抽出して復号する、
請求項1の動画ファイル再生方法。 - 前記動画ファイルは、フレーム間予測に基づいて圧縮されたものであり、
前記検出ステップでは、前記開始/終了位置における開始位置として、Predictiveフレーム、またはBidirectionally predictiveフレームを指定し、
前記第2の復号ステップでは、前記開始位置の直前のIntraフレームから前記ダイジェストシーンを抽出して復号するものの、前記ダイジェストシーンの再生は前記開始位置から行う、
請求項1の動画ファイル再生方法。 - 前記検出ステップでは、単一シーンからなる前記ダイジェストシーンを検出する、
請求項1の動画ファイル再生方法。 - 前記検出ステップでは、任意の一定フレーム数からなる前記ダイジェストシーンを検出する、
請求項1の動画ファイル再生方法。 - 前記第2の復号ステップでは、再生した前記ダイジェストシーンの動画データを記録する、
請求項1の動画ファイル再生方法。 - 前記特定情報を前記動画ファイルに付加情報として記録する記録ステップを、
さらに含む請求項1の動画ファイル再生方法。 - 前記ダイジェストシーンの動画ファイルを第1の圧縮率で圧縮し、前記ダイジェストシーン以外のシーンの動画ファイルを、前記第1の圧縮率より圧縮率が高い第2の高圧縮率で圧縮して記録する記録ステップを、
さらに含む請求項1の動画ファイル再生方法。 - 動画ファイルを復号するとともに、復号フレーム数をカウントする第1のデコーダと、
前記第1のデコーダで復号された動画データを構成する複数のシーンの中から特定情報を含むダイジェストシーンを検出したうえで、検出した前記ダイジェストシーンの開始/終了位置の特定と、ダイジェストシーン検出数をカウントするダイジェスト検出部と、
前記ダイジェスト検出部でカウントした前記ダイジェストシーン検出数と、前記ダイジェストシーンの再生開始時刻を決めるためのシーン数判定閾値とを比較する検出シーン数判定部と、
前記第1のデコーダでカウントした前記復号フレーム数と、前記ダイジェストシーンの再生開始時刻を決めるためのフレーム数判定閾値とを比較する復号フレーム数判定部と、
前記検出シーン数判定部の比較判定結果と前記復号フレーム数判定部の比較判定結果とに基づいて、前記ダイジェスト検出部で検出した前記ダイジェストシーンを復号するか否かを判断したうえで、復号すると判断すると、前記ダイジェスト検出部で特定した前記開始/終了位置で前記動画ファイルから前記ダイジェストシーンを抽出して復号する第2のデコーダと、
を備える動画ファイル再生装置。 - 前記第2のデコーダは、前記検出シーン数判定部の比較判定結果を、前記復号フレーム数判定部の比較判定結果より先に取り込んだうえで、前記ダイジェストシーンの復号判断において、
前記検出シーン数判定部において前記検出シーン数が前記シーン数判定閾値以上である、
または、
前記検出シーン数判定部において前記検出シーン数が1以上前記シーン数判定閾値未満であり、かつ前記復号フレーム数判定部において前記復号フレーム数が前記フレーム数判定閾値以上である、
場合に、前記ダイジェスト検出部で検出した前記ダイジェストシーンを復号すると判断する、
請求項24の動画ファイル再生装置。 - 前記第2のデコーダは、前記復号フレーム数判定部の比較判定結果を、前記検出シーン数判定部の比較判定結果より先に取り込んだうえで、前記ダイジェストシーンの復号判断において、
前記復号フレーム数判定部において前記復号フレーム数が前記フレーム数判定閾値以上である、
または、
前記復号フレーム数判定部において前記復号フレーム数が前記フレーム数判定閾値未満であり、かつ前記検出シーン数判定部において前記検出シーン数が前記シーン数判定閾値以上である、
場合に、前記ダイジェスト検出部で検出した前記ダイジェストシーンを復号すると判断する、
請求項24の動画ファイル再生装置。 - 請求項24の動画ファイル再生装置を備える、
デジタルカメラ。 - 請求項24の動画ファイル再生装置を備える、
デジタルビデオカメラ。 - 請求項24の動画ファイル再生装置を備える、
DVDプレーヤ。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009174354 | 2009-07-27 | ||
JP2009-174354 | 2009-07-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2011013288A1 true WO2011013288A1 (ja) | 2011-02-03 |
Family
ID=43528963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2010/003806 WO2011013288A1 (ja) | 2009-07-27 | 2010-06-08 | 動画ファイル再生方法、動画ファイル再生装置およびその関連技術 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2011013288A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004040629A (ja) * | 2002-07-05 | 2004-02-05 | Sony Corp | 情報信号処理装置、情報信号処理方法、情報信号表示装置及び情報信号表示方法 |
JP2007097015A (ja) * | 2005-09-30 | 2007-04-12 | Sony Corp | 再生装置、記録再生装置、データ処理方法及びそのプログラム |
JP2009004850A (ja) * | 2007-06-19 | 2009-01-08 | Hitachi Ltd | デジタル映像信号のダイジェスト再生装置 |
-
2010
- 2010-06-08 WO PCT/JP2010/003806 patent/WO2011013288A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004040629A (ja) * | 2002-07-05 | 2004-02-05 | Sony Corp | 情報信号処理装置、情報信号処理方法、情報信号表示装置及び情報信号表示方法 |
JP2007097015A (ja) * | 2005-09-30 | 2007-04-12 | Sony Corp | 再生装置、記録再生装置、データ処理方法及びそのプログラム |
JP2009004850A (ja) * | 2007-06-19 | 2009-01-08 | Hitachi Ltd | デジタル映像信号のダイジェスト再生装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8411735B2 (en) | Data processing apparatus, data processing method, and program | |
EP2031593A1 (en) | Selective copying of video scenes with human faces from a first to a second recording medium | |
JP2004194338A (ja) | スライドショーの制作方法およびシステム | |
US9438876B2 (en) | Method for semantics based trick mode play in video system | |
CN102833480B (zh) | 再现设备和再现方法 | |
JP2009124298A (ja) | 符号化映像再生装置及び符号化映像再生方法 | |
JP2007036495A (ja) | 再生装置、圧縮装置、記録装置及び再生方法 | |
WO2010125757A1 (ja) | 映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法 | |
US7343088B2 (en) | Disc apparatus, disc recording method, disc playback method, recording medium, and program | |
JP2007048378A (ja) | 記録装置、記録方法、記録方法のプログラム及び記録方法のプログラムを記録した記録媒体 | |
JP2006340066A (ja) | 動画像符号化装置、動画像符号化方法及び記録再生方法 | |
WO2008035459A1 (fr) | Procede et dispositif de reproduction d'image dynamique | |
US6999090B2 (en) | Data processing apparatus, data processing method, information storing medium, and computer program | |
WO2011013288A1 (ja) | 動画ファイル再生方法、動画ファイル再生装置およびその関連技術 | |
JP2001119661A (ja) | 動画編集システムおよび記録媒体 | |
JP2003324690A (ja) | 映像記録再生装置 | |
JP2006049988A (ja) | デジタルデータ記録再生装置 | |
JP3785107B2 (ja) | 動画像および音声データの記録再生装置および再生方法 | |
JPH08181947A (ja) | 画像圧縮記録媒体及び画像圧縮記録媒体再生装置 | |
JP4703733B2 (ja) | 映像・音声再生装置 | |
US20090040382A1 (en) | Camera apparatus and still image generating method of camera apparatus | |
JP2013058853A (ja) | 動画再生装置、動画再生方法及びプログラム | |
JP2013021654A (ja) | 再生装置 | |
JP2009044210A (ja) | 再生装置、プログラム及び電子画面を構築する方法 | |
JP2007329732A (ja) | サムネイル表示方法及び情報記録再生装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 10804041 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 10804041 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |