WO2010109943A1 - サムネイル生成装置及びサムネイル生成方法 - Google Patents

サムネイル生成装置及びサムネイル生成方法 Download PDF

Info

Publication number
WO2010109943A1
WO2010109943A1 PCT/JP2010/051100 JP2010051100W WO2010109943A1 WO 2010109943 A1 WO2010109943 A1 WO 2010109943A1 JP 2010051100 W JP2010051100 W JP 2010051100W WO 2010109943 A1 WO2010109943 A1 WO 2010109943A1
Authority
WO
WIPO (PCT)
Prior art keywords
moving image
thumbnail
face
area
unit
Prior art date
Application number
PCT/JP2010/051100
Other languages
English (en)
French (fr)
Inventor
加藤 大作
Original Assignee
日本ビクター株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本ビクター株式会社 filed Critical 日本ビクター株式会社
Priority to EP10755744.9A priority Critical patent/EP2413597B1/en
Priority to US13/259,685 priority patent/US8849093B2/en
Priority to CN201080013004.3A priority patent/CN102362491B/zh
Priority to KR1020117024660A priority patent/KR101296152B1/ko
Publication of WO2010109943A1 publication Critical patent/WO2010109943A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2624Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects for obtaining an image which is composed of whole input images, e.g. splitscreen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk
    • H04N21/4325Content retrieval operation from a local storage medium, e.g. hard-disk by playing back content from the storage medium
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/44029Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • H04N5/772Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8227Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being at least another television signal

Definitions

  • the present invention relates to a thumbnail generation device and a thumbnail generation method for generating a moving image thumbnail for allowing a user to grasp the contents of a moving image played back by a playback device.
  • Still image thumbnails obtained by extracting and reducing any one of a plurality of frames or fields constituting the captured and recorded moving images are recorded for each recorded moving image or with a predetermined delimiter (A video camera having a still image thumbnail display function that is generated for each chapter) and displays the generated still image thumbnails as thumbnail list screens on a monitor liquid crystal panel provided in the main body is well known.
  • Patent Document 1 As a technique for making it easier for the user to grasp the content of an image corresponding to a still image thumbnail, for example, in Patent Document 1, a person's face is detected from a captured still image, and the detected person's face is detected.
  • an image processing apparatus that generates a still image thumbnail obtained by reducing a captured still image to a predetermined size.
  • Patent Document 1 makes it easier for the user to grasp the content of an image corresponding to a still image thumbnail as compared with a normal still image thumbnail display function, the displayed thumbnail is a still image. Therefore, when the image corresponding to the still image thumbnail is a moving image, the user may not be able to grasp the content of the moving image.
  • a still image thumbnail is focused (highlighted frame) by a user operation or the like on the thumbnail list screen
  • the still image thumbnail is displayed.
  • it has a motion thumbnail function for displaying a moving image thumbnail instead.
  • This motion thumbnail function reproduces a moving image of a predetermined period corresponding to the selected still image thumbnail, generates a moving image thumbnail in which the reproduced moving image is reduced to the same size as the still image thumbnail, and generates the generated moving image.
  • This is a function for displaying thumbnails in the corresponding still image thumbnail area on the still image thumbnail list screen. The user can easily grasp the contents of the moving image by viewing the moving image thumbnail displayed by the motion thumbnail function.
  • the motion thumbnail function is applied to the video camera, since the screen of the monitor liquid crystal panel provided in the main body is relatively small, the moving image thumbnail displayed on the thumbnail list screen also becomes small. Therefore, it is difficult for the user to grasp the content of the moving image thumbnail, that is, the content of the moving image corresponding to the moving image thumbnail.
  • the present invention has been made in view of the above problems, and an object of the present invention is to generate and display a moving image thumbnail that makes it easy for a user to grasp the content of a moving image recorded in a recording / playback device, and a thumbnail generation device It is to provide a thumbnail generation method.
  • a first feature of the thumbnail generating apparatus is that, within a first predetermined period of a moving image, the second predetermined period shorter than the first predetermined period, A moving image extraction unit that extracts each image constituting a moving image and a human face area included in each extracted image are integrated, and a face display area is determined so as to surround the integrated face area.
  • a second feature of the thumbnail generation apparatus is based on the number of consecutive images in which a human face region exists among the images extracted by the moving image extraction unit.
  • a thumbnail section determining unit that determines one or more of the first predetermined periods is further provided.
  • a third feature of the thumbnail generating apparatus is that the reduction / enlargement ratio calculation unit uses a value of the area of the face display area as a denominator and a value of a total area of the face area. If the ratio value obtained as a numerator is smaller than a predetermined threshold value, a facial region that is close to the center and has the largest area among the facial regions is used as a representative region, and the size of the representative region is the size of the display region. The reduction / enlargement ratio is calculated so as to be substantially the same.
  • a fourth feature of the thumbnail generating apparatus further includes a face feature information storage unit that stores face features that can uniquely identify a human face as face feature information.
  • the reduction / enlargement ratio calculation unit determines whether a facial feature existing in the facial region matches or approximates a facial feature indicated by facial feature information stored in the facial feature information storage unit. When it is determined that they match or approximate, the size of the face region corresponding to the matching or approximate facial feature is substantially the same as the size of the display region. The reduction / enlargement ratio is calculated.
  • a first feature of the thumbnail generation method is that, within a first predetermined period of a moving image, the second predetermined period shorter than the first predetermined period, A moving image extraction step for extracting each image constituting a moving image and a human face area included in each extracted image are integrated, and a face display area is determined so as to surround the integrated face area.
  • a reduction ratio calculating step for calculating a reduction / enlargement ratio of the moving image so that the determined size of the face display area is substantially the same as the size of a predetermined display area determined in advance for displaying thumbnails.
  • thumbnail generation device and thumbnail generation method of the present invention it is possible to generate and display a moving image thumbnail that makes it easy for the user to grasp the content of the moving image recorded in the recording / playback device.
  • FIG. 1 is a configuration diagram illustrating a configuration of a video camera that records an AV stream and stream management information to be supplied to a thumbnail generation apparatus that is Embodiment 1 of the present invention on a recording medium.
  • FIG. It is the block diagram which showed the structure of the thumbnail production apparatus which is Example 1 of this invention. It is the figure which showed an example of the screen which the user interface part with which the thumbnail production apparatus which is Example 1 of this invention is provided displays. It is the figure explaining the superimposition with the OSD screen and moving image reproduction
  • (A) is a figure explaining the order of superimposition of an OSD screen and a moving image reproduction screen
  • (b) is a figure which showed an example of each of an OSD screen and a moving image reproduction screen
  • (c) is an OSD. It is the figure which showed an example of the synthetic
  • 6 is a flowchart illustrating face detection processing in a face detection unit included in the video camera. It is the flowchart which showed the moving image extraction process in the thumbnail production
  • (A) shows a face detection area from time t1 to time t5 in a certain section
  • (b) is a diagram of a moving image when the face detection area shown in (a) is integrated
  • (C) is a diagram of a moving image when the face detection areas are dispersed in the moving image
  • (d) is a diagram of a moving image when the face detection regions are densely populated in the moving image. is there. It is the figure explaining calculation of the reduction rate of a moving image by the reduction rate calculation part with which the thumbnail production apparatus which is Example 1 of this invention is provided.
  • (A) shows an example of a moving image to be reduced
  • (b) shows an example of an OSD screen.
  • Embodiment 1 of the present invention a video camera having a face detection unit for detecting a human face based on a captured moving image, an AV stream generated by the video camera and recorded on a recording medium, and stream management information
  • a thumbnail generation apparatus that generates a moving image thumbnail will be described as an example.
  • FIG. 1 is a configuration diagram showing a configuration of a video camera that generates an AV stream and stream management information for use in the thumbnail generation apparatus according to the first embodiment of the present invention and records the information on a recording medium.
  • the video camera 101 includes an optical lens 111, an image sensor 112, a signal processor 113, and an H.264 video camera.
  • H.264 encoder 114 multiplexer 115, face detector 116, adder 117, microphone 121, A / D converter 122, AC3 encoder 123, and CPU 131.
  • the optical lens 111 condenses incident light with the axis P as the optical axis.
  • the image sensor 112 forms an image of the light collected by the optical lens 111 and converts the formed subject image into an electrical signal.
  • the signal processing unit 113 generates a video signal based on the electrical signal converted by the image sensor 112 according to an instruction from the CPU 131.
  • the H.264 encoder 114 generates a video stream and GOP (Group of picture) information based on the video signal generated by the signal processing unit 113 according to an instruction from the CPU 131.
  • GOP Group of picture
  • the A / D converter 122 converts the sound collected by the microphone 121 from analog data to digital data in accordance with an instruction from the CPU 131.
  • the AC3 encoder 123 generates an audio stream and audio information by encoding the digital data converted by the A / D converter 122 according to an instruction from the CPU 131.
  • Multiplexer 115 is instructed by CPU 131 according to instructions from H.131.
  • the video stream encoded by the H.264 encoder 114 and the audio stream encoded by the AC3 encoder 123 are multiplexed to generate an AV stream compliant with the AVCHD standard, and the generated AV stream is recorded on the recording medium A. .
  • the face detection unit 116 performs face detection based on the video signal generated by the signal processing unit 113 according to an instruction from the CPU 131. Specifically, the face detection unit 116 samples a moving image at a predetermined face detection time interval based on the video signal, detects a human face from the sampled moving image, and supplies the detected face to the adder 117 as face detection information. Supply.
  • the face detection process can be realized for each frame by using a device or algorithm capable of performing the process at high speed.
  • the data size of the face detection information is unnecessarily large for each frame. Therefore, the face detection time is preferably set to about 0.5 seconds, for example.
  • the face detection information includes the number of face detection areas in which face detection has been performed (0 to 4, 0 indicates no face detection), and the upper left of the moving image for each face detection area in which face detection has been performed. In this case, the upper left coordinates (X, Y) of the face detection area where the face is detected and the size (width and height) of the face detection area where the face is detected are included.
  • a moving image is composed of frames or fields that are continuous still images, and the present invention can be applied to any of them, but hereinafter, for convenience of explanation, a still image is referred to as a frame.
  • the face detection unit 116 calculates the reliability of the detected face of the person, that is, the degree of reliability indicating the person's face, and the reliability is equal to or higher than a predetermined reliability threshold. It is determined whether or not.
  • the adder 117 is operated according to the instruction from the CPU 131.
  • the stream management information including the GOP information supplied from the H.264 encoder 114, the audio information supplied from the AC3 encoder 123, and the face detection information supplied from the face detection unit 116 is generated, and the stream management information is recorded on the recording medium. Record in A.
  • the CPU 131 performs central control of the video camera 101. Specifically, the CPU 131 includes the above-described image sensor 112, the signal processing unit 113, H.264, and the like.
  • the H.264 encoder 114, the multiplexer 115, the face detection unit 116, the adder 117, the A / D conversion unit 122, and the AC3 encoder 123 are controlled.
  • FIG. 2 is a configuration diagram illustrating the configuration of the thumbnail generation apparatus according to the first embodiment of the present invention.
  • the thumbnail generating apparatus 1 includes a demultiplexer 11, an AC3 decoder 12, a speaker 13, and an H.264. It includes an H.264 decoder 14, a reduction / enlargement unit 15, an adder 16, a user interface unit 17, an OSD generation unit 18, a CPU 20, and a moving image thumbnail time storage unit 19.
  • the demultiplexer 11 reads an AV stream recorded on the recording medium A according to an instruction from the CPU 20, and generates a video stream and an audio stream by demultiplexing the read AV stream.
  • the AC3 decoder 12 decodes the audio stream supplied from the demultiplexer 11 according to an instruction from the CPU 20 to generate reproduced audio data and outputs the audio from the speaker 13.
  • the H.264 decoder 14 generates playback moving image data by decoding the video stream supplied from the demultiplexer 11 according to an instruction from the CPU 20, and supplies the generated playback moving image data to the reduction / enlargement unit 15.
  • the reduction / enlargement unit 15 is instructed by the CPU 20 to execute
  • the reproduced moving image data supplied from the H.264 decoder 14 is reduced or enlarged, thereby generating reduced or enlarged reproduced moving image data for display as a moving image thumbnail.
  • the CPU 20 performs central control of the thumbnail generation device 1. Specifically, the CPU 20 includes the demultiplexer 11, the AC3 decoder 12, the speaker 13, and the H.264. The H.264 decoder 14, the reduction / enlargement unit 15, the adder 16, the user interface unit 17, and the OSD generation unit 18 are controlled. Further, the CPU 20 supplies the stream management information read from the recording medium A to the OSD generation unit 18.
  • the OSD generation unit 18 generates OSD image data for displaying an OSD screen based on the supplied stream management information, and supplies the OSD image data to the adder 16 according to the instruction of the CPU 20.
  • the adder 16 superimposes the composite image data by superimposing the OSD image data supplied from the OSD generation unit 18 on the reduced or enlarged reproduction moving image data supplied from the reduction / enlargement unit 15 according to an instruction from the CPU 20.
  • the generated composite image data is displayed on the user interface unit 17.
  • the user interface unit 17 includes an image display unit composed of an organic EL (electroluminescence) display, a liquid crystal display, or the like. Then, the user interface unit 17 displays a composite screen on the image display unit based on the composite image data supplied from the adder 17 in accordance with an instruction from the CPU 20.
  • an image display unit composed of an organic EL (electroluminescence) display, a liquid crystal display, or the like. Then, the user interface unit 17 displays a composite screen on the image display unit based on the composite image data supplied from the adder 17 in accordance with an instruction from the CPU 20.
  • the user interface unit 17 also includes operation units such as operation buttons and sliders configured by touch sensors or the like. Then, when the operation button or slider is operated by the user, the user interface unit 17 generates an operation signal corresponding to the operation, and supplies the generated operation signal to the CPU 20.
  • operation units such as operation buttons and sliders configured by touch sensors or the like. Then, when the operation button or slider is operated by the user, the user interface unit 17 generates an operation signal corresponding to the operation, and supplies the generated operation signal to the CPU 20.
  • the moving image thumbnail time storage unit 19 stores the reproduction time of the moving image and the reproduction time of the moving image thumbnail corresponding to the reproduction time in association with each other. This association will be described later.
  • FIG. 3 is a diagram illustrating an example of an appearance of the user interface unit 17 included in the thumbnail generation apparatus 1 according to the first embodiment of the present invention and a screen displayed on the image display unit of the user interface unit 17.
  • the user interface unit 17 includes an image display unit 17g, operation buttons 17b, and a slider 17c.
  • an OSD screen including a still image thumbnail generated based on the OSD image data and a moving image thumbnail generated based on the playback moving image data reduced or enlarged by the reduction / enlargement unit 15 are superimposed. And displayed as a composite screen.
  • thumbnail display area 17d On the OSD screen displayed on the image display unit 17g, a thumbnail display area 17d, an operation guide display area 17e, and a page display area 17f are displayed as divided areas.
  • thumbnail display area 17d still image thumbnails and moving image thumbnails are displayed. This display method will be described later.
  • an icon or the like for indicating the function assigned to the operation button 17b to the user is displayed.
  • a page of the still image thumbnail list currently displayed in the thumbnail display area 17d is displayed. For example, when 8/9 is displayed, it indicates that there are 9 pages in total and the current 8th page is displayed.
  • buttons 17b are arranged. Of the five arranged operation buttons, the leftmost operation button generates an operation signal for requesting confirmation of selection of a moving image thumbnail, and the rightmost operation button generates an operation signal for requesting menu display. It is a menu button to do. In addition, no fixed function is assigned to the three operation buttons between these operation buttons, and the CPU 20 assigns various functions according to transition of user operations.
  • the operation guide display area 17e described above is used to indicate to the user the function assigned to each operation button. In the example of FIG. 3, a digest playback function is assigned to the left operation button, a zoom playback function is assigned to the center operation button, and a trash can function is assigned to the right operation button.
  • the slider 17c is for sliding a highlight frame 17k which is a display area for displaying a moving image thumbnail described later.
  • the highlight frame 17k moves from left to right, and when the user performs an operation of tracing up, the highlight frame 17k moves from right to left.
  • FIG. 4 is a diagram for explaining a method of displaying a list of moving image thumbnails together with still image thumbnails.
  • a moving image playback screen 17h and an OSD screen 17a are used.
  • the CPU 20 displays a thumbnail display area 17d on the OSD screen 17a.
  • a list of still image thumbnails is displayed in the thumbnail display area 17d.
  • the still image thumbnail is generated, for example, by extracting and decoding an I frame at an arbitrary position of each moving image, and reducing or enlarging the decoded image.
  • the highlight frame 17k displayed on the upper left still picture thumbnail in the thumbnail display area 17d is a still picture thumbnail displayed in a list in the thumbnail display area 17d by the user's operation of the slider 17c. Move so that any one of is selected.
  • the CPU 20 deletes the still image thumbnail surrounded by the highlight frame 17k and transmits the highlight frame 17k. Make the screen.
  • the CPU 20 causes the reduction / enlargement unit 15 to reduce or enlarge the playback moving image data to the same size as the highlight frame 17k, and generates a moving image thumbnail 17j whose display position matches the highlight frame. Displayed as a playback screen 17h.
  • CPU20 superimposes the moving image reproduction
  • the moving image thumbnail 17j in the moving image reproduction screen 17h on the back is displayed in the highlight frame 17k that is a transparent screen in the OSD screen 17a.
  • FIG. 5 is a diagram illustrating an example of moving image thumbnail time information stored in the moving image thumbnail time storage unit 19 included in the thumbnail generation device 1 according to the first embodiment of the present invention.
  • the column name “moving picture playback time” (reference numeral 101), the column name “moving picture thumbnail playback time” (reference numeral 102), and the column name “moving picture thumbnail playback section number” (reference numeral 103).
  • the moving image thumbnail playback time 102 is calculated by multiplying a unit segment time, which will be described later, by the number of moving image thumbnail playback sections 103.
  • the CPU 20 includes a moving image extraction unit 20a, a reduction / enlargement rate calculation unit 20b, and a thumbnail section determination unit 20d in terms of its functions.
  • the moving image extraction unit 20a extracts each image constituting the moving image for each second predetermined period shorter than a first predetermined period described later within the first predetermined period of the moving image.
  • the thumbnail section determination unit 20d determines one or more first predetermined periods based on the consecutive number of images in which human face regions exist among the images extracted by the moving image extraction unit 20a.
  • the reduction / enlargement ratio calculation unit 20b integrates the human face area included in each extracted image, determines a face display area so as to surround the integrated face area, and determines the determined face display area.
  • the reduction / enlargement ratio of the moving image is calculated so that the size of the video image is substantially the same as the size of a predetermined display area that is determined in advance for displaying the moving image thumbnail.
  • the reduction / enlargement ratio calculation unit 20b uses the face detection area close to the center and large in area as a representative area when the total area of the face detection area with respect to the determined area of the target face area is smaller than a predetermined threshold.
  • the reduction / enlargement ratio of the moving image is calculated so that the size of the representative area is substantially the same as the size of the moving image thumbnail.
  • FIG. 6 is a flowchart showing face detection processing in the face detection unit 116 provided in the video camera 101.
  • the face detection unit 116 selects frames constituting a moving image every face detection time (second predetermined period: here, for example, 0.5 seconds) based on the video signal. Sampling is performed, and a human face is detected from the sampled frame, and a mantissa Np of the face detection area (face area) from which the face has been detected is generated (step S201).
  • the face detection unit 116 assigns “1” as an initial value to the value of the counter i of the face detection area where the face is detected, and assigns “0” as an initial value to the number M of effective faces (step S202). ).
  • the face detection unit 116 calculates the reliability of the i-th face detection area detected from the mantissa Np of the detected face detection area, and the reliability is equal to or higher than a predetermined reliability threshold. Whether or not (step S203).
  • the reliability indicates the degree of probability that the face detected by the face detection is a human face.
  • step S203 when it is determined that the reliability of the i-th face detection area is less than the predetermined reliability threshold (in the case of NO), the face detection unit 116 deletes the i-th face detection area. (Step S204).
  • step S203 when it is determined in step S203 that the reliability of the i-th face detection area is equal to or greater than a predetermined reliability threshold value (in the case of YES), the face detection unit 116 sets the value of the effective face number M to “ Only 1 ′′ is added (step S205).
  • the face detection unit 116 determines whether or not the value of the counter i exceeds the mantissa Np of the face detection area where the face is detected (step S206).
  • step S206 when it is determined that the value of the counter i exceeds the mantissa Np of the face detection area where the face is detected (in the case of YES), the face detection unit 116 sets the effective face number M to the maximum face number Mmax. It is determined whether or not it exceeds (step S207).
  • the maximum number of faces Mmax is calculated in advance by a provider or the like in advance, such as “4”, for example, and an appropriate value is set in advance by the provider or the user. There is a need.
  • step S207 When it is determined in step S207 that the effective face number M is equal to or less than the maximum face number Mmax (in the case of NO), the face detection unit 116 substitutes the value of the effective face number M into the face evaluation number Mval (step S207). S208).
  • step S207 when it is determined in step S207 that the effective face number M exceeds the maximum face number Mmax (in the case of YES), the face detection unit 116 calculates the area of the face detection region for the effective face number M. (Step S208).
  • the face detection unit 116 sorts the face detection areas corresponding to the number M of effective faces in descending order of the area of the face detection area calculated in step S208 (step S209).
  • the face detection unit 116 selects Mmax from the top from the face detection areas for the number M of effective faces sorted in step S209 (step S210).
  • the face detection unit 116 substitutes the value of Mmax into the face evaluation number Mval (step S211).
  • the face detection unit 116 generates face detection information (step S212). Specifically, the face detection unit 116 substitutes the value of the face evaluation number Mval for the number N of face detection areas where the face is detected, and the number N of face detection areas where the face is detected and N Face detection information including the coordinates (X, Y) and size (width and height) of the face detection area is generated, and the generated face detection information is supplied to the adder 117.
  • the face detection unit 116 performs the video generated by the signal processing unit 113 by executing the face detection process. Based on the signal, a moving image (frame) is sampled at face detection time intervals, a human face is detected from the sampled moving image (frame), and is supplied to the adder 117 as face detection information.
  • the thumbnail generating apparatus 1 can generate a moving image thumbnail based on the face detection information.
  • the thumbnail generating apparatus 1 mainly executes a moving image extraction process and a moving image thumbnail display process in order. Therefore, each process will be described in detail below.
  • FIG. 7 is a flowchart showing moving image extraction processing in the thumbnail generation apparatus 1 according to the first embodiment of the present invention.
  • the moving image extraction unit 20a of the CPU 20 determines that a predetermined time (for example, 0.5 seconds) has elapsed after any one of the still image thumbnails is selected based on an operation signal from the user interface unit 17.
  • the thumbnail section determination unit 20d performs predetermined processing based on the number N of face detection areas (face areas) in which face detection is included in the face detection information of the stream management information read from the recording medium A.
  • the “section with face (first predetermined period)” of the unit section time is determined from the “section with face” continuous for the unit section time (here, 5 seconds) (step S102).
  • the unit division time is too long, the integration time of the face area, which will be described later, becomes long, so that the video thumbnail cannot be effectively enlarged and displayed. If it is too short, the video thumbnail image is skipped in a short time. Therefore, it becomes difficult for the user to grasp the contents. Therefore, it is necessary for the provider or the like to calculate an appropriate value based on the actual measurement in advance, for example, 5 seconds, and for the provider or the user to set an appropriate value in advance.
  • the thumbnail section determining unit 20 d of the thumbnail generating apparatus 1 determines “a section with a face of unit section time”, and the moving image extracting section 20 a is “a section with a face of unit section time”. It is a figure explaining the process which extracts ".”
  • the stream management information read from the recording medium A includes face detection information for each face detection time interval (0.5 seconds).
  • the face detection information includes face detection information.
  • the number N of face detection areas is included.
  • the thumbnail section determination unit 20d determines that a section in which the number N of face detection areas for which face detection has been performed is “0” continues for more than 4, that is, a section for which no face is detected for more than 2 seconds is a “faceless section”. And other sections as “section with face”.
  • the section 205 in which no face is detected for more than 2 seconds is set as a “faceless section”, and the section 206 in which face detection is not performed for 2 seconds or less is set as “a section with face”. .
  • the moving image extraction unit 20a extracts the sections with faces 207 and 208 for the unit segment time from the “section with faces”.
  • the total number of “sections with a face for a unit segment time” extracted by the moving image extraction unit 20a is referred to as an extraction section number S.
  • the moving image extraction unit 20a determines that the number of extracted sections S is a moving image thumbnail reproduction based on the moving image reproduction time included in the stream management information and the moving image thumbnail time information stored in the moving image thumbnail time storage unit 19. It is determined whether or not the number of sections is less than 103 (step S104). Specifically, the moving image extraction unit 20a, based on the moving image thumbnail time information stored in the moving image thumbnail time storage unit 19 shown in FIG. 5, moves the moving image thumbnail according to the moving image playback time included in the stream management information. The playback section number 103 is determined, and it is determined whether the extracted section number S is less than the determined moving image thumbnail playback section number 103.
  • step S104 When it is determined in step S104 that the number of extracted sections S is less than the number of moving image thumbnail playback sections 103 (in the case of YES), the moving image extracting unit 20a excludes the extracted “section with face of unit segment time”. Whether or not there is a “section with face” that is less than the unit segment time is determined (step S105).
  • step S105 When it is determined in step S105 that there is a “section with face” that is less than the unit section time except for the extracted “section with face of unit section time” (in the case of YES), the moving image extraction unit 20a Except for the extracted “section with face in unit segment time”, a shortage of “section with face” is extracted from the beginning of the moving image (step S106).
  • the moving image extracting unit 20a adds the number of sections extracted in step S106 to the number of extracted sections S, and sets the number of determined extracted sections Sf (step S107).
  • step S105 If it is determined in step S105 that there is no “section with face” that is less than the unit section time except for the extracted “section with face of unit section time” (NO), the moving image extraction unit 20a The number of extracted sections S is substituted for the number of confirmed extracted sections Sf (step S120).
  • step S104 when it is determined in step S104 that the number of extracted sections S is greater than or equal to the number of moving image thumbnail playback sections 103 (in the case of NO), the moving image extracting unit 20a determines that the number of extracted sections S is the number of moving image thumbnail playback sections 103. It is determined whether or not they are the same (step S108).
  • step S108 When it is determined in step S108 that the number of extracted sections S is the same as the number of moving image thumbnail playback sections 103 (in the case of YES), the moving image extracting unit 20a substitutes the number of extracted sections S for the determined number of extracted sections Sf. (Step S109).
  • step S108 when it is determined in step S108 that the number of extracted sections S is not the same as the number of moving image thumbnail playback sections 103 (in the case of NO), the moving image extracting unit 20a determines the size of the face detection area included in the face detection information. Based on (width and height), the average value of the area of the face detection region is calculated for each “section with face of unit section time” (step S110).
  • the moving image extraction unit 20a sorts the extracted “section with face of unit segment time” in descending order of the average value of the area of the face detection area calculated in step S110 (step S111).
  • the moving image extraction unit 20a selects from the head the number of moving image thumbnail playback sections of 103 minutes from the “section with face of unit division time” sorted in step S111 (step S112).
  • the moving image extraction unit 20a substitutes the number of moving image thumbnail playback sections 103 for the number of confirmed extraction sections Sf (step S113).
  • the section in which the average value of the area of the face detection area is preferentially selected so the section in which a person's face is captured is preferentially selected. Selected.
  • the thumbnail generating apparatus 1 performs the moving image extraction process so that the moving image extracting unit 20a detects the face for each moving image reproduction time and face detection time interval. Based on the number of detected face detection areas and the size (width and height) of the detected face detection areas, a moving image is reproduced from a moving image excluding frames in which no face is detected continuously for a predetermined time. It is possible to extract a moving image (frame) corresponding to the playback time of the moving image thumbnail that does not exceed the time.
  • FIG. 9 is a flowchart showing moving image thumbnail generation and display processing in the thumbnail generation apparatus 1 according to the first embodiment of the present invention.
  • the reduction / enlargement ratio calculation unit 20b of the CPU 20 substitutes “0” as the initial value for the value of the counter k in the section (step S301), and substitutes “1” as the initial value for the counter j of the face detection area. (Step S302).
  • the reduction / enlargement ratio calculation unit 20b of the CPU 20 determines the size (width and width) of the face detection area included in the face detection information in the k-th section among the “section with face” extracted by the number of confirmed extraction sections Sf. Based on (height), the total area B of the face detection area (face area) is calculated (step S303).
  • the reduction / enlargement ratio calculation unit 20b of the CPU 20 determines the upper left coordinates (X, Y) of the face detection area included in the face detection information and the size (width and height) of the face detection area in the kth section. Based on this, the area A of the rectangular area (face display area) having the same aspect ratio (16: 9) as the moving image surrounding the face detection area is calculated (step S304).
  • FIG. 10 is a diagram illustrating the calculation of the area A of the rectangular area having an aspect ratio of 16: 9 surrounding the face detection area by the reduction / enlargement ratio calculation unit 20b of the CPU 20 included in the thumbnail generation apparatus 1 according to the first embodiment of the present invention. is there.
  • A shows a face detection area from time t1 to time t5 within a certain section
  • (b) is a diagram of a frame when the face detection area shown in (a) is integrated
  • (c) () Is a diagram in the case where the face detection areas are dispersed in the frame
  • (d) is a diagram in the case where the face detection areas are dense in the frame.
  • the positions of the detected face detection areas 301 to 305 are moved little by little as time passes from time t1 to time t5.
  • the reduction / enlargement ratio calculation unit 20b calculates the area A of the rectangular area 402 having an aspect ratio (16: 9) surrounding the integrated face detection area 401.
  • the reduction / enlargement ratio calculation unit 20b calculates the area A of the rectangular area in this manner, when the face detection areas 301 to 305 are dispersed in the frame, as shown in FIG.
  • the area A of the 403 is large and the face detection areas 301 to 305 are dense within the frame, the area A of the rectangular area 404 is small as shown in FIG.
  • the reduction / enlargement ratio calculation unit 20b of the CPU 20 determines whether or not the sum B of the area of the face detection area calculated in step S303 with respect to the area A of the rectangular area calculated in step S304 is smaller than a predetermined threshold R. Determination is made (step S305).
  • the threshold R is too small, as will be described later, even if the area A of the rectangular area is large, the reduction / enlargement ratio of the moving image is set so that the area of the rectangular area is the same as the area of the moving image thumbnail. Since it is calculated, it is impossible to effectively enlarge and display the video thumbnail. If the threshold R is too large, the area A of the rectangular area is small, and even when it is desired to enlarge each of the plurality of face detection areas, only one face detection area with the maximum evaluation point P is enlarged. In addition, since the reduction / enlargement ratio of the moving image is calculated, it is impossible to effectively enlarge and display the moving image thumbnail.
  • step S305 when it is determined that the total area B of the face detection area with respect to the area A of the rectangular area is equal to or larger than the predetermined threshold R (in the case of NO), the reduction / enlargement ratio calculation unit 20b determines the size of the rectangular area ( The reduction / enlargement ratio of the moving image is calculated so that the width (height) is the same as the size (width and height) of the moving image thumbnail (step S306).
  • FIG. 11 is a diagram for explaining calculation of the reduction / enlargement ratio of a moving image by the reduction / enlargement ratio calculation unit 20b included in the thumbnail generation apparatus 1 according to the first embodiment of the present invention.
  • (A) shows an example of a frame of a moving image to be reduced and enlarged
  • (b) shows an example of an OSD screen 17a.
  • the frame size of the moving image is X ⁇ Y (aspect ratio 16: 9)
  • the size of the rectangular area 501 is X2 ⁇ Y2 (aspect ratio 16: 9)
  • the reduction / enlargement ratio calculation unit 20b calculates the reduction / enlargement ratio of the moving image so that the size of the rectangular area 501 is the same as the size of the highlight frame 17k. That is, when the reduction / enlargement ratio is Q, the reduction / enlargement ratio Q is calculated using the following (Equation 1).
  • step S305 in FIG. 9 when it is determined in step S305 in FIG. 9 that the total area B of the face detection area with respect to the area A of the rectangular area is less than the predetermined threshold R (in the case of YES), the reduction / enlargement ratio calculation unit 20b In the k-th section, the evaluation point P (j) of the j-th face detection area among the N face detection areas detected is calculated using the following (Formula 2) (step S307).
  • step S309 When it is determined in step S309 that the value of the counter j has exceeded the number N of face detection areas in which face detection has been performed (in the case of YES), the reduction / enlargement ratio calculation unit 20b determines that N face detection areas have been detected. Among them, a face detection area close to the center of the screen and having a large area, that is, a face detection area having the highest evaluation point P is selected as a representative area (step S310).
  • the reduction / enlargement ratio calculation unit 20b reduces the moving image so that the size (width and height) of the representative area selected in step S310 is substantially the same as the size (width and height) of the moving image thumbnail.
  • An enlargement ratio is calculated (step S311).
  • FIG. 12 is a diagram for explaining calculation of the reduction / enlargement ratio of a moving image by the reduction / enlargement ratio calculation unit 20b included in the thumbnail generation apparatus 1 according to the first embodiment of the present invention.
  • (A) shows an example of a frame of a moving image to be reduced or enlarged
  • (b) shows an example of an OSD screen 17a.
  • the frame size of the moving image is X ⁇ Y (aspect ratio 16: 9)
  • the representative area 502 is X3 ⁇ Y3 (aspect ratio 16: 9)
  • the reduction / enlargement ratio calculation unit 20b calculates the reduction / enlargement ratio of the moving image so that the size of the representative area 502 is the same as the size of the highlight frame 17k. That is, assuming that the reduction / enlargement ratio is Q, the reduction / enlargement ratio Q is calculated by substituting X2 and Y2 with X3 and Y3, respectively, using (Equation 1).
  • the reduction / enlargement ratio calculation unit 20b determines that the size (width and height) of the representative area selected in step S310 is substantially the same as the size (width and height) of the moving image thumbnail. Since the reduction / enlargement ratio is calculated, the person's face is easily enlarged, and the user can easily understand the contents of the moving image.
  • the reduction / enlargement unit 15 reduces or enlarges the moving image based on the reduction / enlargement rate calculated by the reduction / enlargement rate calculation unit 20b to generate a moving image thumbnail (step S312).
  • the adder 16 to which the reproduced image data including the generated moving image thumbnail is supplied combines the two screens based on the OSD image data so that the OSD screen overlaps the moving image reproduction screen.
  • the synthesized screen is displayed on the user interface unit 17.
  • the reduction / enlargement ratio calculation unit 20b of the CPU 20 adds “1” to the value of the counter k (step S313), and then determines whether the counter k is equal to or greater than the number of confirmed extraction sections Sf (step S314).
  • the processes in steps S303 to S314 are repeatedly executed until the counter k becomes equal to or more than the determined extraction section number Sf.
  • the thumbnail generating apparatus 1 As described above, according to the thumbnail generating apparatus 1 according to the first embodiment of the present invention, it is possible to generate and display a moving image thumbnail that allows the user to easily understand the content of the moving image.
  • face detection information related to the detected human face is supplied from the video camera 101 via the medium A, and a thumbnail for generating a moving image thumbnail based on the supplied face detection information.
  • the generation device has been described as an example, the present invention is not limited thereto, and is connected to the video camera 101 via a network, and face detection information related to a human face detected from the video camera 101 is supplied via this network, A moving image thumbnail may be generated based on the supplied face detection information.
  • Embodiment 1 of the present invention face detection related to a detected human face is performed via a recording medium A by a video camera 101 to which a face detection device that detects a human face based on a captured moving image is applied.
  • the description has been given by taking as an example a thumbnail generation device that supplies information and generates a moving image thumbnail by reducing or enlarging a moving image based on the supplied face detection information. Further, based on registered face feature information Thus, a moving image thumbnail may be generated by reducing or enlarging the moving image.
  • a video camera 101 to which a face detection device that detects a person's face based on a captured moving image is applied to a person's face detected via a recording medium A.
  • a description will be given by taking as an example a thumbnail generation apparatus that is supplied with face detection information and generates a moving image thumbnail by reducing or enlarging a moving image based on the supplied face detection information and face feature information.
  • ⁇ Configuration of video camera 101> The configuration of the video camera 101 that records the AV stream and stream management information to be supplied to the thumbnail generation apparatus according to the second embodiment of the present invention on the recording medium A is supplied to the thumbnail generation apparatus 1 according to the first embodiment of the present invention.
  • the video camera 101 for recording the AV stream and the stream management information for recording on the recording medium A has the same configuration, and a description thereof will be omitted.
  • FIG. 13 is a configuration diagram showing a configuration of a thumbnail generating apparatus 1A that is Embodiment 2 of the present invention.
  • the thumbnail generating apparatus 1A includes a demultiplexer 11, an AC3 decoder 12, a speaker 13, and an H.264. It includes an H.264 decoder 14, a reduction / enlargement unit 15, an adder 16, a user interface unit 17, an OSD generation unit 18, a CPU 20A, a moving image thumbnail time storage unit 19, and a face feature information storage unit 21.
  • the demultiplexer 11, the AC3 decoder 12, the speaker 13, and the H.264 The H.264 decoder 14, the reduction / enlargement unit 15, the adder 16, the user interface unit 17, the OSD generation unit 18, and the moving image thumbnail time storage unit 19 are included in the thumbnail generation apparatus 1 according to the first embodiment of the present invention. Since it is the same as the structure to which each is provided with the same code
  • the face feature information storage unit 21 stores a person ID that uniquely identifies a person and face feature information in association with each other as face feature information.
  • FIG. 14 is a diagram illustrating an example of face feature information stored in the face feature information storage unit 21 included in the thumbnail generation apparatus 1A according to the second embodiment of the present invention.
  • the column name “person ID” (reference numeral 601) and the column name “feature information” (reference numeral 602) are associated and stored as face characteristic information.
  • the facial feature information is information indicating facial features that can uniquely identify a human face such as the size and shape of eyes, nose, mouth, and the like.
  • the CPU 20A performs central control of the thumbnail generation device 1A. Further, the CPU 20A includes a moving image extraction unit 20a and a reduction / enlargement rate calculation unit 20c in terms of its functions.
  • the moving image extraction unit 20a based on the moving image reproduction time and the number of face images detected at each face detection time interval, from the frame of the moving image excluding the time when the face is not detected continuously for a predetermined time. Extract frames of moving images for a time that does not exceed the playback time of the video thumbnail.
  • the reduction / enlargement ratio calculation unit 20c stores the face feature information included in the supplied face detection information in the face feature information storage unit 21. It is determined whether or not the facial feature information matches or approximates. When it is determined that the facial feature information matches or approximates, the face detection area corresponding to the matching or approximate facial feature information is maximized.
  • the reduction / enlargement ratio of the moving image is calculated as follows.
  • the reduction / enlargement ratio calculation unit 20c selects a face detection area corresponding to matching or approximate face feature information as a registered face area, and the size of the selected registered face area is the size of the moving image thumbnail.
  • the reduction / enlargement ratio of the moving image is calculated so as to be substantially the same.
  • FIG. 15 is a diagram for explaining the calculation of the reduction / enlargement ratio of a moving image by the reduction / enlargement ratio calculation unit 20c included in the thumbnail generation apparatus 1A according to the second embodiment of the present invention.
  • (A) shows an example of a frame of a moving image to be reduced or enlarged
  • (b) shows an example of an OSD screen 17a.
  • the size of the moving image frame is X ⁇ Y (aspect ratio 16: 9), and the size of the registered face area 601 is X4 ⁇ Y4 (aspect ratio 16: 9).
  • the size of the moving image thumbnail on the OSD screen 17a that is, the size of the highlight frame 17k is X1 ⁇ Y1 (aspect ratio 16: 9).
  • the reduction / enlargement ratio calculation unit 20b calculates the reduction / enlargement ratio of the moving image so that the size of the registered face area 601 is the same as the size of the highlight frame 17k. That is, when the reduction / enlargement ratio is Q, the reduction / enlargement ratio Q is calculated by replacing X2 and Y2 with X4 and Y4, respectively, using the above-described (Equation 1).
  • the reduction / enlargement ratio calculation unit 20c calculates the reduction / enlargement ratio of the moving image so that the size of the selected registered face area is substantially the same as the size of the moving image thumbnail. Becomes easier to expand. This makes it easier for the user to view the face image of a desired person and to easily understand the content of the moving image.
  • the thumbnail generation apparatus 1A includes the face feature information storage unit 21 and the reduction / enlargement ratio calculation unit 20c. Therefore, the thumbnail according to the first embodiment of the present invention.
  • one or more persons registered in advance can be enlarged preferentially and displayed as a moving image thumbnail.
  • the second embodiment when a face that matches a pre-stored facial feature is detected among the detected faces, only the matched face is set as a processing target. Even in a moving image in which a child and his / her child are photographed together, only the child's face can be enlarged and displayed as a video thumbnail.
  • face feature information storage unit 101 ... video camera 111 ... optical lens 112 ... image element unit 113 ... signal processing unit 114 ... H. H.264 encoder 115 ... multiplexer 116 ... face detection unit 117 ... adder 121 ... microphone 122 ... A / D conversion unit 123 ... AC3 encoder

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)

Abstract

サムネイル生成装置は、動画像抽出部、縮小拡大率算出部、及び縮小拡大部を備える。動画像抽出部は、動画像に含まれる人物の顔を検出して生成された顔検出情報から得られる顔検出領域の数及び面積に基づいて、動画像から、この動画像の再生時間より短い時間分の動画像を抽出する。縮小拡大率算出部は、動画像抽出部により抽出された動画像の顔検出情報に基づいて、所定の時間間隔毎に顔検出領域を積分し、この積分結果に基づいて、動画像抽出部により抽出された動画像に含まれる人物の顔が大きく表示されるように、動画像抽出部により抽出された動画像の縮小拡大率を算出する。縮小拡大部は、縮小拡大率算出部により算出された縮小拡大率に基づいて、動画像抽出部により抽出された動画像を縮小又は拡大した動画サムネイルを生成する。

Description

サムネイル生成装置及びサムネイル生成方法
 本発明は、再生装置で再生される動画像の内容をユーザに把握させるための動画サムネイルを生成するサムネイル生成装置及びサムネイル生成方法に関する。
 撮影、記録した動画像を構成する複数のフレーム又はフィールドのうちの任意の1枚を抽出して縮小した静止画サムネイルを、記録されている動画像毎や、これらの動画像における所定の区切り(チャプタ)毎に生成し、これら生成した複数の静止画サムネイルを、本体に具備するモニター用の液晶パネルにサムネイル一覧画面として表示させる静止画サムネイル表示機能を有するビデオカメラがよく知られている。
 また、静止画サムネイルに対応した画像の内容をユーザに把握させやすくするための技術として、例えば、特許文献1には、撮影した静止画像から人物の顔を検出し、その検出した人物の顔に合わせて、撮影した静止画像を所定のサイズに縮小した静止画サムネイルを生成する画像処理装置が提案されている。
 しかしながら、特許文献1に記載の技術は、通常の静止画サムネイル表示機能に比較すれば、静止画サムネイルに対応した画像の内容をユーザに把握させやすくなるものの、表示されるサムネイルは静止画であるので、その静止画サムネイルに対応した画像が動画像の場合、利用者は、その動画像の内容を把握できない場合があった。
 一方、HDD(Hard Disk Drive)レコーダーやDVD(Digital Versatile Disk)レコーダーでは、サムネイル一覧画面において、ユーザ操作等によって1つの静止画サムネイルにフォーカス(ハイライト枠)があてられたとき、その静止画サムネイルに換えて動画サムネイルを表示するモーションサムネイル機能を有していることが多い。このモーションサムネイル機能は、選択された静止画サムネイルに対応する所定期間の動画像を再生し、この再生した動画像を静止画サムネイルと同じサイズに縮小させた動画サムネイルを生成し、この生成した動画サムネイルを、静止画サムネイル一覧画面において対応する静止画サムネイルの領域に表示する機能である。利用者はこのモーションサムネイル機能によって表示された動画サムネイルを見ることにより、動画像の内容を把握し易くなる。
特開2005-269563号公報
 ここで、ビデオカメラにも、このモーションサムネイル機能を適用することが考えられる。
 しかしながら、ビデオカメラにモーションサムネイル機能を適用した場合、本体に具備するモニター用の液晶パネルの画面は比較的小さいので、サムネイル一覧画面に表示される動画サムネイルも小さくなってしまう。従って、利用者はその動画サムネイルの内容、つまりその動画サムネイルに対応する動画像の内容を把握することが困難であった。
 本発明は、上記課題に鑑みてなされたものであり、その目的は、利用者に、記録再生装置に記録されている動画像の内容を把握させやすい動画サムネイルを生成し表示するサムネイル生成装置及びサムネイル生成方法を提供することにある。
 上記目的を達成するため、本発明に係るサムネイル生成装置の第1の特徴は、動画像の第1の所定期間内において、前記第1の所定期間よりも短い第2の所定期間毎に、前記動画像を構成する各画像を抽出する動画像抽出部と、抽出された各画像に含まれる人物の顔の領域を積分し、この積分された顔の領域を囲むように顔表示領域を決定し、この決定された顔表示領域のサイズが、予め動画サムネイルを表示するために定められた所定の表示領域のサイズと略同一となるように、前記動画像の縮小拡大率を算出する縮小拡大率算出部と、算出された前記縮小拡大率に基づいて、前記動画像を縮小または拡大し、前記動画サムネイルを生成する動画サムネイル生成部とを備えたことにある。
 上記目的を達成するため、本発明に係るサムネイル生成装置の第2の特徴は、前記動画像抽出部によって抽出された各画像のうち、人物の顔の領域が存在する画像の連続する数に基づいて、前記第1の所定期間を1つ以上決定するサムネイル区間決定部を更に備えることを特徴としたことにある。
 上記目的を達成するため、本発明に係るサムネイル生成装置の第3の特徴は、前記縮小拡大率算出部は、前記顔表示領域の面積の値を分母とし、前記顔の領域の合計面積の値を分子として求めた比の値が、所定の閾値より小さい場合、前記顔の領域のうち中心に近くかつ面積が最も大きい顔の領域を代表領域として、この代表領域のサイズが前記表示領域のサイズと略同一となるように、前記縮小拡大率を算出することを特徴としたことにある。
 上記目的を達成するため、本発明に係るサムネイル生成装置の第4の特徴は、人物の顔を一意に識別可能な顔の特徴を顔特徴情報として記憶する顔特徴情報記憶部と、を更に備え、前記縮小拡大率算出部は、前記顔の領域内に存在する顔の特徴が、前記顔特徴情報記憶部に記憶されている顔特徴情報が示す顔の特徴と一致又は近似しているか否かを判定し、一致又は近似していると判定された場合に、この一致又は近似している顔の特徴に対応する前記顔の領域のサイズを前記表示領域のサイズと略同一となるように、前記縮小拡大率を算出することにある。
 上記目的を達成するため、本発明に係るサムネイル生成方法の第1の特徴は、動画像の第1の所定期間内において、前記第1の所定期間よりも短い第2の所定期間毎に、前記動画像を構成する各画像を抽出する動画像抽出ステップと、抽出された各画像に含まれる人物の顔の領域を積分し、この積分された顔の領域を囲むように顔表示領域を決定し、この決定された顔表示領域のサイズが、予めサムネイルを表示するために定められた所定の表示領域のサイズと略同一となるように、前記動画像の縮小拡大率を算出する縮小率算出ステップと、算出された前記縮小拡大率に基づいて、前記動画像を縮小または拡大し、前記動画サムネイルを生成する動画サムネイル生成ステップとを有することにある。
 本発明のサムネイル生成装置及びサムネイル生成方法によれば、利用者に、記録再生装置に記録されている動画像の内容を把握させやすい動画サムネイルを生成し表示することができる。
本発明の実施例1であるサムネイル生成装置に供給するためのAVストリーム及びストリーム管理情報を記録媒体に記録するビデオカメラの構成を示した構成図である。 本発明の実施例1であるサムネイル生成装置の構成を示した構成図である。 本発明の実施例1であるサムネイル生成装置が備えるユーザインタフェース部が表示する画面の一例を示した図である。 本発明の実施例1であるサムネイル生成装置が備えるユーザインタフェース部におけるOSD画面と動画再生画面との重ね合わせを説明した図である。(a)は、OSD画面及び動画再生画面の重ね合わせの順序を説明した図であり、(b)は、OSD画面及び動画再生画面それぞれの一例を示した図であり、(c)は、OSD画面と動画再生画面とが重ね合わされた合成画面の一例を示した図である。 本発明の実施例1であるサムネイル生成装置が備える動画サムネイル時間記憶部に記憶された動画サムネイル時間情報の一例を示した図である。 ビデオカメラが備える顔検出部における顔検出処理を示したフローチャートである。 本発明の実施例1であるサムネイル生成装置における動画像抽出処理を示したフローチャートである。 本発明の実施例1であるサムネイル生成装置の動画像抽出部が、「単位区分時間の顔あり区間」を抽出する処理を説明した図である。 本発明の実施例1であるサムネイル生成装置における動画サムネイル表示処理を示したフローチャートである。 本発明の実施例1であるサムネイル生成装置が備えるCPUの縮小率算出部による顔検出領域を囲むアスペクト比16:9の矩形領域の面積Aの算出を説明した図である。(a)は、ある区間内におけるt1時点からt5時点までにおける顔検出領域を示しており、(b)は、(a)に示した顔検出領域を積分した場合における動画像の図であり、(c)は、顔検出領域が動画像内で分散している場合における動画像の図であり、(d)は、顔検出領域が動画像内で密集している場合における動画像の図である。 本発明の実施例1であるサムネイル生成装置が備える縮小率算出部による動画像の縮小率の算出を説明した図である。(a)は、縮小する動画像の一例を示しており、(b)は、OSD画面の一例を示している。 本発明の実施例1であるサムネイル生成装置が備える縮小率算出部による動画像の縮小率の算出を説明した図である。(a)は、縮小する動画像の一例を示しており、(b)は、OSD画面の一例を示している。 本発明の実施例2であるサムネイル生成装置の構成を示した構成図である。 本発明の実施例2であるサムネイル生成装置が備える顔特徴情報記憶部に記憶された顔特徴情報の一例を示した図である。 本発明の実施例2であるサムネイル生成装置が備える縮小率算出部による動画像の縮小率の算出を説明した図である。(a)は、縮小する動画像の一例を示しており、(b)は、OSD画面の一例を示している。
 以下、本発明の実施の形態について図面を参照して説明する。
 本発明の実施例1では、撮像された動画像に基づいて人物の顔を検出する顔検出部を有するビデオカメラと、このビデオカメラにより生成されて記録媒体に記録されたAVストリーム及びストリーム管理情報に基づいて、動画サムネイルを生成するサムネイル生成装置を例に挙げて説明する。
<ビデオカメラの構成>
 図1は、本発明の実施例1であるサムネイル生成装置で用いるためのAVストリーム及びストリーム管理情報を生成して記録媒体に記録するビデオカメラの構成を示した構成図である。
 ビデオカメラ101は、光学レンズ111と、撮像素子112と、信号処理部113と、H.264エンコーダ114と、マルチプレクサ115と、顔検出部116と、加算器117と、マイク121と、A/D変換部122と、AC3エンコーダ123と、CPU131とを備えている。
 光学レンズ111は、軸Pを光軸として入射する光を集光させる。
 撮像素子112は、光学レンズ111により集光された光を結像させ、結像させた被写体像を電気信号に変換する。
 信号処理部113は、CPU131の指示により、撮像素子112により変換された電気信号に基づいてビデオ信号を生成する。
 H.264エンコーダ114は、CPU131の指示により、信号処理部113により生成されたビデオ信号に基づいて、ビデオストリーム及びGOP(Group of picture)情報を生成する。
 A/D変換部122は、CPU131の指示により、マイク121により集音された音声をアナログデータからディジタルデータに変換する。
 AC3エンコーダ123は、CPU131の指示により、A/D変換部122により変換されたディジタルデータをエンコードすることによりオーディオストリーム及びオーディオ情報を生成する。
 マルチプレクサ115は、CPU131の指示により、H.264エンコーダ114によりエンコードされたビデオストリームと、AC3エンコーダ123によりエンコードされたオーディオストリームとを、マルチプレクスしてAVCHD規格に準拠したAVストリームを生成し、生成されたAVストリームを記録媒体Aに記録する。
 顔検出部116は、CPU131の指示により、信号処理部113により生成されたビデオ信号に基づいて、顔検出を行う。具体的には、顔検出部116は、ビデオ信号に基づいて、所定の顔検出時間間隔で動画像をサンプリングし、サンプリングした動画像から人物の顔を検出し、顔検出情報として加算器117へ供給する。
 ここで、顔検出処理は、処理を高速に行なえるデバイスやアルゴリズムを用いればフレーム毎に実現することが可能である。しかし、フレーム毎では、顔検出情報のデータサイズが無駄に大きくなってしまう。従って、顔検出時間は、例えば0.5秒程度に設定することが好ましい。なお、顔検出情報には、顔検出された顔検出領域の数(0~4、0は顔検出なしを示す)と、顔検出された顔検出領域毎の、動画像の左上を基準点とした場合における顔検出された顔検出領域の左上の座標(X,Y)と、顔検出された顔検出領域のサイズ(幅と高さ)とが含まれる。
 なお、動画像は連続する静止画像であるフレームまたはフィールドで構成され、本発明はいずれにも適用可能であるが、以降は説明の便宜上、静止画像をフレームと呼ぶこととする。
 また、顔検出部116は、検出した人物の顔の信頼度、即ち、どの程度の確からしさで人物の顔であるかを示した信頼度を算出し、この信頼度が所定の信頼度閾値以上であるか否かを判定する。
 加算器117は、CPU131の指示により、H.264エンコーダ114から供給されるGOP情報と、AC3エンコーダ123から供給されるオーディオ情報と、顔検出部116から供給される顔検出情報とを含むストリーム管理情報を生成し、このストリーム管理情報を記録媒体Aに記録する。
 CPU131は、ビデオカメラ101の中枢的な制御を行う。具体的には、CPU131は、上述した撮像素子112と、信号処理部113と、H.264エンコーダ114と、マルチプレクサ115と、顔検出部116と、加算器117と、A/D変換部122と、AC3エンコーダ123とを制御する。
<サムネイル生成装置の構成>
 図2は、本発明の実施例1であるサムネイル生成装置の構成を示した構成図である。
 図2に示すように、本発明の実施例1であるサムネイル生成装置1は、デマルチプレクサ11と、AC3デコーダ12と、スピーカ13と、H.264デコーダ14と、縮小拡大部15と、加算器16と、ユーザインタフェース部17と、OSD生成部18と、CPU20と、動画サムネイル時間記憶部19とを備える。
 デマルチプレクサ11は、CPU20の指示により、記録媒体Aに記録されたAVストリームを読み出し、読み出されたAVストリームをデマルチプレクスすることにより、ビデオストリームとオーディオストリームとを生成する。
 AC3デコーダ12は、CPU20の指示により、デマルチプレクサ11から供給されたオーディオストリームをデコードすることにより、再生音声データを生成し、スピーカ13から音声出力させる。
 H.264デコーダ14は、CPU20の指示により、デマルチプレクサ11から供給されたビデオストリームをデコードすることにより、再生動画像データを生成し、この生成した再生動画像データを縮小拡大部15へ供給する。
 縮小拡大部15は、CPU20の指示により、H.264デコーダ14から供給された再生動画像データを縮小または拡大することにより、動画サムネイルとして表示するための縮小または拡大された再生動画像データを生成する。
 CPU20は、サムネイル生成装置1の中枢的な制御を行う。具体的には、CPU20は、デマルチプレクサ11と、AC3デコーダ12と、スピーカ13と、H.264デコーダ14と、縮小拡大部15と、加算器16と、ユーザインタフェース部17と、OSD生成部18とを制御する。また、CPU20は、記録媒体Aから読み出したストリーム管理情報をOSD生成部18に供給する。
 OSD生成部18は、CPU20の指示により、供給されたストリーム管理情報に基づいてOSD画面を表示するためのOSD画像データに生成し、加算器16へ供給する。
 加算器16は、CPU20の指示により、縮小拡大部15から供給された縮小または拡大された再生動画像データに、OSD生成部18から供給されたOSD画像データを重ね合わせることにより、合成画像データを生成し、この生成された合成画像データをユーザインタフェース部17に表示させる。
 ユーザインタフェース部17は、有機EL(electroluminescence)ディスプレイや、液晶ディスプレイ等で構成される画像表示部を備える。そして、ユーザインタフェース部17は、この画像表示部に、CPU20の指示により、加算器17から供給される合成画像データに基づいて合成画面を表示する。
 また、ユーザインタフェース部17は、タッチセンサ等で構成される操作ボタンやスライダー等の操作部も備える。そして、ユーザインタフェース部17は、利用者によってこの操作ボタンやスライダーが操作されると、その操作に応じた操作信号を生成し、生成した操作信号をCPU20へ供給する。
 動画サムネイル時間記憶部19は、動画像の再生時間と、この再生時間に応じた動画サムネイルの再生時間とを関連付けて記憶する。この関連付けについては後述する。
 図3は、本発明の実施例1であるサムネイル生成装置1が備えるユーザインタフェース部17の外観と、このユーザインタフェース部17の画像表示部に表示される画面の一例を示した図である。
 図3に示すように、ユーザインタフェース部17は、画像表示部17gと、操作ボタン17bと、スライダー17cとを含んで構成される。
 画像表示部17gには、OSD画像データに基づいて生成された静止画サムネイルを含むOSD画面と、縮小拡大部15により縮小または拡大された再生動画像データに基づいて生成された動画サムネイルとが重ね合わされて、合成画面として表示される。
 画像表示部17gに表示されるOSD画面には、サムネイル表示領域17dと、操作ガイド表示領域17eと、ページ表示領域17fとが領域分割されて表示されている。
 サムネイル表示領域17dは、静止画サムネイルと動画サムネイルとが表示される。この表示方法については後述する。
 操作ガイド表示領域17eには、操作ボタン17bに割り当てた機能をユーザに示すためのアイコン等を表示する。
 ページ表示領域17fには、現在、サムネイル表示領域17dに表示された静止画サムネイル一覧のページを表示する。例えば、8/9と表示されている場合、全部で9ページあり、現在8ページ目を表示していることを示す。
 操作ボタン17bは、図3の例では、5つ配置されている。配置された5つの操作ボタンのうち、左端の操作ボタンは、動画サムネイルの選択確定を要求する操作信号を生成するためのOKボタン、右端の操作ボタンは、メニューの表示を要求する操作信号を生成するためのメニューボタンである。また、これらの操作ボタンの間の3個の操作ボタンには固定の機能が割り当てられておらず、CPU20が、ユーザ操作の遷移に応じて種々の機能を割り当てる。そして、各操作ボタンに割り当てた機能をユーザに示すために、上記した操作ガイド表示領域17eを用いる。図3の例では、左側の操作ボタンにダイジェスト再生の機能が割り当てられており、中央の操作ボタンにズーム再生の機能が割り当てられており、右側の操作ボタンにゴミ箱の機能が割り当てられている。
 スライダー17cは、後述する動画サムネイルを表示させるための表示領域であるハイライト枠17kをスライドするためのものである。利用者がこのスライダー17cを下になぞる操作を行うとハイライト枠17kが左から右に移動し、上になぞる操作を行うと、ハイライト枠17kは右から左に移動する。
 図4は、動画サムネイルを静止画サムネイルとともに一覧表示する方法を説明した図である。
 図4(a)に示すように、動画サムネイルを静止画サムネイルとともに一覧表示する場合、動画再生画面17hとOSD画面17aとが用いられる。
 まず、図4(b)に示すように、CPU20は、OSD画面17a上にサムネイル表示領域17dを表示する。このサムネイル表示領域17dには、静止画サムネイルが一覧表示されている。ここで静止画サムネイルは、例えば、各動画像の任意の位置のIフレームを抽出してデコードし、そのデコードした画像を縮小または拡大することで生成される。
 図4(b)においてサムネイル表示領域17d内の左上の静止画サムネイル上に表示されているハイライト枠17kは、利用者によるスライダー17cの操作により、サムネイル表示領域17dに一覧表示された静止画サムネイルの中のいずれか1つが選択されるように移動する。
 そして、静止画サムネイルの中からいずれか1つが選択され後、例えば0.5秒経過すると、CPU20は、ハイライト枠17kにより囲まれた静止画サムネイルを消去して、ハイライト枠17k内を透過画面にする。
 一方、CPU20は、縮小拡大部15により、再生動画像データを、ハイライト枠17kと同等のサイズに縮小または拡大するとともに、表示位置をこのハイライト枠に合わせた動画サムネイル17jを生成し、動画再生画面17hとして表示する。
 そして、図4(c)に示すように、CPU20は、加算器16により、OSD画面17aの背面に動画再生画面17hを重ね合わせて、合成画面を生成する。このようにすることで、OSD画面17aのうち、透過画面になったハイライト枠17k内に背面の動画再生画面17h内の動画サムネイル17jが表示されるようになる。
 図5は、本発明の実施例1であるサムネイル生成装置1が備える動画サムネイル時間記憶部19に記憶された動画サムネイル時間情報の一例を示した図である。
 図5に示すように、カラム名“動画像の再生時間”(符号101)と、カラム名“動画サムネイルの再生時間”(符号102)と、カラム名“動画サムネイル再生区間数”(符号103)とが関連付けられて、動画サムネイル時間情報として記憶されている。なお、動画サムネイルの再生時間102は、後述する単位区分時間に動画サムネイル再生区間数103を乗算することにより算出される。
 また、CPU20は、その機能上、動画像抽出部20aと、縮小拡大率算出部20bと、サムネイル区間決定部20dとを備える。
 動画像抽出部20aは、動画像の第1の所定期間内において、後述する第1の所定期間よりも短い第2の所定期間毎に、動画像を構成する各画像を抽出する。
 サムネイル区間決定部20dは、動画像抽出部20aによって抽出された各画像のうち、人物の顔の領域が存在する画像の連続する数に基づいて、第1の所定期間を1つ以上決定する。
 縮小拡大率算出部20bは、抽出された各画像に含まれる人物の顔の領域を積分し、この積分された顔の領域を囲むように顔表示領域を決定し、この決定された顔表示領域のサイズが、予め動画サムネイルを表示するために定められた所定の表示領域のサイズと略同一となるように、動画像の縮小拡大率を算出する。
 また、縮小拡大率算出部20bは、決定された対象顔領域の面積に対する顔検出領域の合計面積が所定の閾値より小さい場合に、中心に近くかつ面積が大きい顔検出領域を代表領域として、この代表領域のサイズが動画サムネイルのサイズと略同一となるように、前記動画像の縮小拡大率を算出する。
<ビデオカメラ101が備える顔検出部116の作用>
 次に、ビデオカメラ101が備える顔検出部116が実行する顔検出処理について説明する。
 図6は、ビデオカメラ101が備える顔検出部116における顔検出処理を示したフローチャートである。
 図6に示すように、顔検出部116は、ビデオ信号に基づいて、顔検出時間(第2の所定期間:ここでは、例えば0.5秒とする)毎に、動画像を構成するフレームをサンプリングし、サンプリングしたフレームから人物の顔を検出すると共に、顔検出された顔検出領域(顔の領域)の仮数Npを生成する(ステップS201)。
 次に、顔検出部116は、顔検出された顔検出領域のカウンタiの値に初期値として“1”を代入すると共に、有効顔数Mに初期値として“0”を代入する(ステップS202)。
 そして、顔検出部116は、顔検出された顔検出領域の仮数Npのうち第i番目に顔検出された顔検出領域の信頼度を算出し、この信頼度が所定の信頼度閾値以上であるか否かを判定する(ステップS203)。ここで、信頼度とは、顔検出された顔がどの程度の確からしさで人物の顔であるかを示している。
 ステップS203において、第i番目の顔検出領域の信頼度が所定の信頼度閾値未満であると判定された場合(NOの場合)、顔検出部116は、第i番目の顔検出領域を削除する(ステップS204)。
 一方、ステップS203において、第i番目の顔検出領域の信頼度が所定の信頼度閾値以上であると判定された場合(YESの場合)、顔検出部116は、有効顔数Mの値を“1”だけ加算する(ステップS205)。
 次に、顔検出部116は、カウンタiの値が顔検出された顔検出領域の仮数Npを越えているか否かを判定する(ステップS206)。
 ステップS206において、カウンタiの値が顔検出された顔検出領域の仮数Npを越えていると判定された場合(YESの場合)、顔検出部116は、有効顔数Mが最大顔数Mmaxを越えているか否かを判定する(ステップS207)。ここで、最大顔数Mmaxは、例えば“4”といったように、予め提供者等が実測に基づいた適正な値を予め算出し、提供者や利用者等が予め適正な値を設定しておく必要がある。
 ステップS207において、有効顔数Mが最大顔数Mmax以下であると判定された場合(NOの場合)、顔検出部116は、有効顔数Mの値を、顔評価数Mvalへ代入する(ステップS208)。
 一方、ステップS207において、有効顔数Mが最大顔数Mmaxを越えていると判定された場合(YESの場合)、顔検出部116は、有効顔数M個分の顔検出領域の面積を算出する(ステップS208)。
 次に、顔検出部116は、有効顔数M個分の顔検出領域を、ステップS208において算出された顔検出領域の面積が大きい順にソートする(ステップS209)。
 そして、顔検出部116は、ステップS209においてソートされた有効顔数M個分の顔検出領域から、Mmax個だけ先頭から選択する(ステップS210)。
 さらに、顔検出部116は、Mmaxの値を、顔評価数Mvalへ代入する(ステップS211)。
 次に、顔検出部116は、顔検出情報を生成する(ステップS212)。具体的には、顔検出部116は、顔評価数Mvalの値を、顔検出された顔検出領域の数Nに代入し、この顔検出された顔検出領域の数Nと、N個分の顔検出領域の座標(X,Y)及びサイズ(幅と高さ)とを含む顔検出情報を生成し、この生成された顔検出情報を加算器117へ供給する。
 以上のように、本発明の実施例1であるビデオカメラ101が備える顔検出部116によれば、顔検出処理を実行することにより、顔検出部116が、信号処理部113により生成されたビデオ信号に基づいて、顔検出時間間隔で動画像(フレーム)をサンプリングし、サンプリングした動画像(フレーム)から人物の顔を検出し、顔検出情報として加算器117へ供給するので、後述するように、サムネイル生成装置1が、この顔検出情報に基づいて、動画サムネイルを生成することができる。
<サムネイル生成装置1の作用>
 次に、本発明の実施例1であるサムネイル生成装置1の作用について説明する。
 本発明の実施例1であるサムネイル生成装置1は、主に動画像抽出処理及び動画サムネイル表示処理とを順に実行する。そのため、各々の処理について以下に詳細に説明する。
≪動画像抽出処理≫
 本発明の実施例1であるサムネイル生成装置1の動画像抽出処理の詳細について説明する。
 図7は、本発明の実施例1であるサムネイル生成装置1における動画像抽出処理を示したフローチャートである。
 まず、CPU20の動画像抽出部20aは、ユーザインタフェース部17からの操作信号に基づき、静止画サムネイルの中からいずれか1つが選択された後、所定時間(例えば0.5秒)経過したと判断した場合(ステップS101)、サムネイル区間決定部20dは、記録媒体Aから読み出したストリーム管理情報の顔検出情報に含まれる顔検出された顔検出領域(顔の領域)の数Nに基づいて、所定の単位区分時間(ここでは、5秒とする)以上連続した「顔あり区間」から、「単位区分時間の顔あり区間(第1の所定期間)」を決定する(ステップS102)。
 ここで、単位区分時間は、長すぎると、後述する顔領域の積分時間が長くなるので、動画サムネイルの効果的な拡大表示ができなくなり、短かすぎると、動画サムネイルの画像が短時間でスキップするので、利用者にとって、内容を把握し難くなる。そのため、例えば5秒といったように、予め提供者等が実測に基づいた適正な値を予め算出し、提供者や利用者等が予め適正な値を設定しておく必要がある。
 図8は、本発明の実施例1であるサムネイル生成装置1のサムネイル区間決定部20dが「単位区分時間の顔あり区間」を決定し、動画像抽出部20aが「単位区分時間の顔あり区間」を抽出する処理を説明した図である。
 図8に示すように、記録媒体Aから読み出したストリーム管理情報には、顔検出時間間隔(0.5秒)毎の顔検出情報が含まれおり、この顔検出情報には、顔検出された顔検出領域の数Nが含まれている。
 サムネイル区間決定部20dは、顔検出された顔検出領域の数Nが“0”である区間が、4を越えて連続する区間、即ち2秒を越えて顔検出されない区間を「顔なし区間」とし、その他の区間を「顔あり区間」とする。
 図8に示した例では、2秒を越えて顔検出されない区間205は、「顔なし区間」とされ、顔検出されないのが2秒以下である区間206は、「顔あり区間」とされる。
 そして、動画像抽出部20aは、この「顔あり区間」の中から、単位区分時間分の顔あり区間207,208を抽出する。ここで、動画像抽出部20aにより抽出された「単位区分時間分の顔あり区間」の総数を抽出区間数Sという。
 次に、動画像抽出部20aは、ストリーム管理情報に含まれる動画像の再生時間と、動画サムネイル時間記憶部19に記憶された動画サムネイル時間情報に基づいて、抽出区間数Sが、動画サムネイル再生区間数103未満か否かを判定する(ステップS104)。具体的には、動画像抽出部20aは、図5に示す動画サムネイル時間記憶部19に記憶された動画サムネイル時間情報に基づいて、ストリーム管理情報に含まれる動画像の再生時間に応じた動画サムネイル再生区間数103を決定し、抽出区間数Sが、この決定された動画サムネイル再生区間数103未満か否かを判定する。
 ステップS104において、抽出区間数Sが動画サムネイル再生区間数103未満であると判定された場合(YESの場合)、動画像抽出部20aは、抽出済みの「単位区分時間の顔あり区間」を除いて、単位区分時間未満である「顔あり区間」があるか否かを判定する(ステップS105)。
 ステップS105において、抽出済みの「単位区分時間の顔あり区間」を除いて単位区分時間未満である「顔あり区間」があると判定された場合(YESの場合)、動画像抽出部20aは、抽出済み「単位区分時間の顔あり区間」を除いて、動画像の先頭から「顔あり区間」を不足数だけ抽出する(ステップS106)。
 そして、動画像抽出部20aは、ステップS106において抽出された区間の数を抽出区間数Sに加算し、確定抽出区間数Sfとする(ステップS107)。
 ステップS105において、抽出済みの「単位区分時間の顔あり区間」を除いて単位区分時間未満である「顔あり区間」がないと判定された場合(NOの場合)、動画像抽出部20aは、確定抽出区間数Sfに抽出区間数Sを代入する(ステップS120)。
 一方、ステップS104において、抽出区間数Sが動画サムネイル再生区間数103以上であると判定された場合(NOの場合)、動画像抽出部20aは、抽出区間数Sが動画サムネイル再生区間数103と同一であるか否かを判定する(ステップS108)。
 ステップS108において、抽出区間数Sが動画サムネイル再生区間数103と同一であると判定された場合(YESの場合)、動画像抽出部20aは、確定抽出区間数Sfに抽出区間数Sを代入する(ステップS109)。
 一方、ステップS108において、抽出区間数Sが動画サムネイル再生区間数103と同一ではないと判定された場合(NOの場合)、動画像抽出部20aは、顔検出情報に含まれる顔検出領域のサイズ(幅と高さ)に基づいて、「単位区分時間の顔あり区間」毎に、顔検出領域の面積の平均値を算出する(ステップS110)。
 次に、動画像抽出部20aは、抽出された「単位区分時間の顔あり区間」を、ステップS110において算出された顔検出領域の面積の平均値が大きい順にソートする(ステップS111)。
 そして、動画像抽出部20aは、ステップS111においてソートされた「単位区分時間の顔あり区間」から、動画サムネイル再生区間数103分だけ先頭から選択する(ステップS112)。
 次に、動画像抽出部20aは、確定抽出区間数Sfに動画サムネイル再生区間数103数を代入する(ステップS113)。
 このように、「単位区分時間の顔あり区間」のうち、顔検出領域の面積の平均値が高い区間から優先して選択されるので、人物の顔が大きく撮影されている区間が優先的に選択される。
 以上のように、本発明の実施例1であるサムネイル生成装置1は、動画像抽出処理を実行することにより、動画像抽出部20aが、動画像の再生時間と顔検出時間間隔毎に顔検出された顔検出領域の数と、顔検出された顔検出領域のサイズ(幅と高さ)とに基づいて、所定時間連続して顔検出されなかったフレームを除く動画像から、動画像の再生時間を越えない、動画サムネイルの再生時間分の動画像(フレーム)を抽出することができる。
 これにより、選択された静止画サムネイルに対応する動画サムネイルを生成するために、記録媒体Aに記録された動画像を構成するフレームのうち、適切な区間分のフレームを抽出することができる。
≪動画サムネイル生成及び表示処理≫
 本発明の実施例1であるサムネイル生成装置1の動画サムネイル生成及び表示処理の詳細について説明する。
 図9は、本発明の実施例1であるサムネイル生成装置1における動画サムネイル生成及び表示処理を示したフローチャートである。
 まず、CPU20の縮小拡大率算出部20bは、区間のカウンタkの値に初期値として“0”を代入し(ステップS301)、顔検出領域のカウンタjの値に初期値として“1”を代入する(ステップS302)。
 次に、CPU20の縮小拡大率算出部20bは、確定抽出区間数Sf分だけ抽出された「顔あり区間」のうち、第k区間において、顔検出情報に含まれる顔検出領域のサイズ(幅と高さ)に基づいて、顔検出領域(顔の領域)の面積の総和Bを算出する(ステップS303)。
 さらに、CPU20の縮小拡大率算出部20bは、第k区間において、顔検出情報に含まれる顔検出領域の左上の座標(X,Y)と、顔検出領域のサイズ(幅と高さ)とに基づいて、顔検出領域を囲む動画像と同一のアスペクト比(16:9)の矩形領域(顔表示領域)の面積Aを算出する(ステップS304)。
 図10は、本発明の実施例1であるサムネイル生成装置1が備えるCPU20の縮小拡大率算出部20bによる顔検出領域を囲むアスペクト比16:9の矩形領域の面積Aの算出を説明した図である。(a)は、ある区間内におけるt1時点からt5時点までにおける顔検出領域を示しており、(b)は、(a)示した顔検出領域を積分した場合におけるフレームの図であり、(c)は、顔検出領域がフレーム内で分散している場合の図であり、(d)は、顔検出領域がフレーム内で密集している場合の図である。
 図10(a)に示すように、t1時点~t5時点において、時間の経過と共に、検出された顔検出領域301~305の位置が少しずつ移動している。
 そして、これらの顔検出領域301~305を積分すると、図10(b)に示すように、積分顔検出領域401となる。
 縮小拡大率算出部20bは、この積分顔検出領域401を囲むアスペクト比(16:9)の矩形領域402の面積Aを算出する。
 縮小拡大率算出部20bは、このようにして矩形領域の面積Aを算出するので、顔検出領域301~305がフレーム内で分散していた場合、図10(c)に示すように、矩形領域403の面積Aは大きくなり、顔検出領域301~305がフレーム内で密集していた場合、図10(d)に示すように、矩形領域404の面積Aは小さくなる。
 次に、CPU20の縮小拡大率算出部20bは、ステップS304において算出された矩形領域の面積Aに対するステップS303において算出された顔検出領域の面積の総和Bが所定の閾値Rより小さいか否かを判定する(ステップS305)。
 ここで、この閾値Rは、小さすぎると、後述するように、矩形領域の面積Aが大きくても、矩形領域の面積が動画サムネイルの面積と同一となるように、動画像の縮小拡大率を算出するので、動画サムネイルの効果的な拡大表示ができなくなる。また、閾値Rは、大きすぎると、矩形領域の面積Aが小さく、複数の顔検出領域それぞれが拡大されるようにしたい場合でも、評価点Pが最大の1つの顔検出領域のみを拡大するように、動画像の縮小拡大率を算出してしまうので、この場合も動画サムネイルの効果的な拡大表示ができなくなる。
 ステップS305において、矩形領域の面積Aに対する顔検出領域の面積の総和Bが所定の閾値R以上であると判定された場合(NOの場合)、縮小拡大率算出部20bは、矩形領域のサイズ(幅と高さ)が動画サムネイルのサイズ(幅と高さ)と同一となるように、動画像の縮小拡大率を算出する(ステップS306)。
 図11は、本発明の実施例1であるサムネイル生成装置1が備える縮小拡大率算出部20bによる動画像の縮小拡大率の算出を説明した図である。(a)は、縮小拡大する動画像のフレームの一例を示しており、(b)は、OSD画面17aの一例を示している。
 図11(a)に示すように、動画像のフレームのサイズがX×Y(アスペクト比16:9)、矩形領域501のサイズがX2×Y2(アスペクト比16:9)であり、図11(b)に示すように、OSD画面17aの動画サムネイルのサイズ、即ちハイライト枠17kのサイズがX1×Y1(アスペクト比16:9)であるとする。
 この場合、縮小拡大率算出部20bは、矩形領域501のサイズがハイライト枠17kのサイズと同一となるように、動画像の縮小拡大率を算出する。即ち縮小拡大率をQとすると、下記の(数式1)を用いて縮小拡大率Qを算出する。
 Q=(X1/X)×(X1/X2)  ・・・(数式1)
 なお、(X1/X2)のX2の値は、図11(a)に示したオリジナルの動画像のフレーム中のX2の大きさではなく、図11(b)に示した動画サムネイルに合わせられた動画像のフレーム中のX2の大きさを表している。このように、縮小拡大率算出部20bは、矩形領域501のサイズがハイライト枠17kのサイズと同一となるように、動画像の縮小拡大率を算出するので、(X1/X)よりも(X1/X2)が大きい場合、動画サムネイルとしては拡大されて表示されているように見えるが、実際には、この動画サムネイルの画像は元の動画像から縮小または拡大されて表示されることとなる。
 一方、図9におけるステップS305において、矩形領域の面積Aに対する顔検出領域の面積の総和Bが所定の閾値R未満であると判定された場合(YESの場合)、縮小拡大率算出部20bは、第k区間において、N個の顔検出された顔検出領域のうち第j番目の顔検出領域の評価点P(j)を、下記の(数式2)を用いて算出する(ステップS307)。
 P(j)=第j番目の顔検出領域の面積-(画面の中央から第j番目の顔検出領域の中央までの長さ)2×0.2・・・(数式2)
 そして、縮小拡大率算出部20bは、カウンタjの値を“1”だけ加算した後(ステップS308)、カウンタjの値が、顔検出された顔検出領域の数Nを越えたか否かを判定する(ステップS309)。
 ステップS309において、カウンタjの値が顔検出された顔検出領域の数Nを越えたと判定された場合(YESの場合)、縮小拡大率算出部20bは、N個の顔検出された顔検出領域のうち、画面の中心に近くかつ面積が大きい顔検出領域、即ち、評価点Pの値が最も高い顔検出領域を代表領域として選択する(ステップS310)。
 次に、縮小拡大率算出部20bは、ステップS310において選択された代表領域のサイズ(幅と高さ)が動画サムネイルのサイズ(幅と高さ)と略同一となるように、動画像の縮小拡大率を算出する(ステップS311)。
 図12は、本発明の実施例1であるサムネイル生成装置1が備える縮小拡大率算出部20bによる動画像の縮小拡大率の算出を説明した図である。(a)は、縮小または拡大する動画像のフレームの一例を示しており、(b)は、OSD画面17aの一例を示している。
 図12(a)に示すように、動画像のフレームのサイズがX×Y(アスペクト比16:9)、代表領域502のサイズがX3×Y3(アスペクト比16:9)であり、図12(b)に示すように、OSD画面17aの動画サムネイルのサイズ、即ちハイライト枠17kのサイズがX1×Y1(アスペクト比16:9)であるとする。
 この場合、縮小拡大率算出部20bは、代表領域502のサイズがハイライト枠17kのサイズと同一となるように、動画像の縮小拡大率を算出する。即ち縮小拡大率をQとすると、上述した(数式1)を用いて、X2,Y2をそれぞれX3,Y3に置き換えることにより縮小拡大率Qを算出する。
 このように、縮小拡大率算出部20bが、ステップS310において選択された代表領域のサイズ(幅と高さ)が動画サムネイルのサイズ(幅と高さ)と略同一となるように、動画像の縮小拡大率を算出するので、人物の顔が拡大されやすくなり、利用者は動画像の内容を把握し易くなる。
 次に、縮小拡大部15は、縮小拡大率算出部20bにより算出された縮小拡大率に基づいて、動画像を縮小または拡大し、動画サムネイルを生成する(ステップS312)。
 これにより、この生成した動画サムネイルを含む再生画像データが供給された加算器16は、OSD画像データに基づいて、動画再生画面の上にOSD画面が重なるように、2つの画面を合成し、この合成された画面をユーザインタフェース部17に表示させる。
 次に、CPU20の縮小拡大率算出部20bは、カウンタkの値を“1”だけ加算した後(ステップS313)、カウンタkが確定抽出区間数Sf以上か否かを判定し(ステップS314)、カウンタkが確定抽出区間数Sf以上になるまで、ステップS303~S314の処理を繰り返し実行する。
 以上のように、本発明の実施例1であるサムネイル生成装置1によれば、利用者にとって動画像の内容が把握しやすい動画サムネイルを生成し、表示することができる。
 なお、本発明の実施例1では、ビデオカメラ101から媒体Aを介して、検出された人物の顔に関する顔検出情報が供給され、供給された顔検出情報に基づいて、動画サムネイルを生成するサムネイル生成装置を例に挙げて説明したが、これに限らず、ビデオカメラ101とネットワークを介して接続され、このネットワークを介してビデオカメラ101から検出された人物の顔に関する顔検出情報が供給され、供給された顔検出情報に基づいて、動画サムネイルを生成するようにしてもよい。
 本発明の実施例1では、撮像された動画像に基づいて人物の顔を検出する顔検出装置が適用されたビデオカメラ101により、記録媒体Aを介して、検出された人物の顔に関する顔検出情報が供給され、供給された顔検出情報に基づいて、動画像を縮小または拡大して動画サムネイルを生成するサムネイル生成装置を例に挙げて説明したが、さらに、登録された顔特徴情報に基づいて、動画像を縮小または拡大して動画サムネイルを生成するようにしてもよい。
 そこで、本発明の実施例2では、撮像された動画像に基づいて人物の顔を検出する顔検出装置が適用されたビデオカメラ101により、記録媒体Aを介して、検出された人物の顔に関する顔検出情報が供給され、供給された顔検出情報と顔特徴情報とに基づいて、動画像を縮小または拡大して動画サムネイルを生成するサムネイル生成装置を例に挙げて説明する。
<ビデオカメラ101の構成>
 本発明の実施例2であるサムネイル生成装置に供給するためのAVストリーム及びストリーム管理情報を記録媒体Aに記録するビデオカメラ101の構成は、本発明の実施例1であるサムネイル生成装置1に供給するためのAVストリーム及びストリーム管理情報を記録媒体Aに記録するビデオカメラ101と同一構成を有するので、説明を省略する。
<サムネイル生成装置の構成>
 図13は、本発明の実施例2であるサムネイル生成装置1Aの構成を示した構成図である。
 図13に示すように、本発明の実施例2であるサムネイル生成装置1Aは、デマルチプレクサ11と、AC3デコーダ12と、スピーカ13と、H.264デコーダ14と、縮小拡大部15と、加算器16と、ユーザインタフェース部17と、OSD生成部18と、CPU20Aと、動画サムネイル時間記憶部19と、顔特徴情報記憶部21とを備える。
 このうち、デマルチプレクサ11と、AC3デコーダ12と、スピーカ13と、H.264デコーダ14と、縮小拡大部15と、加算器16と、ユーザインタフェース部17と、OSD生成部18と、動画サムネイル時間記憶部19とは、本発明の実施例1であるサムネイル生成装置1が備えるそれぞれ同一符号が付された構成と同一であるので、説明を省略する。
 顔特徴情報記憶部21は、人物を一意に識別する人物IDと、顔の特徴情報とを関連付けて顔特徴情報として記憶する。
 図14は、本発明の実施例2であるサムネイル生成装置1Aが備える顔特徴情報記憶部21に記憶された顔特徴情報の一例を示した図である。
 図14に示すように、カラム名“人物ID”(符号601)と、カラム名“特徴情報”(符号602)とが関連付けられて、顔特徴情報として記憶されている。なお、顔特徴情報とは、目、鼻、及び口等の大きさ及び形等の人物の顔を一意に識別可能な顔の特徴を示す情報である。
 CPU20Aは、サムネイル生成装置1Aの中枢的な制御を行う。また、CPU20Aは、その機能上、動画像抽出部20aと、縮小拡大率算出部20cとを備える。
 動画像抽出部20aは、動画像の再生時間と顔検出時間間隔毎に検出された顔画像の数とに基づいて、所定時間連続して顔検出されなかった時間を除く動画像のフレームから、動画サムネイルの再生時間を越えない時間分の動画像のフレームを抽出する。
 縮小拡大率算出部20cは、ビデオカメラ101から顔特徴情報を含む顔検出情報が供給された場合に、供給された顔検出情報に含まれる顔特徴情報が、顔特徴情報記憶部21に記憶されている顔特徴情報に一致又は近似しているか否かを判定し、一致又は近似していると判定された場合に、この一致又は近似している顔特徴情報に対応する顔検出領域が最大になるように動画像の縮小拡大率を算出する。
 具体的には、縮小拡大率算出部20cは、一致又は近似している顔特徴情報に対応する顔検出領域を登録顔領域として選択し、この選択された登録顔領域のサイズが動画サムネイルのサイズと略同一となるように、動画像の縮小拡大率を算出する。
 図15は、本発明の実施例2であるサムネイル生成装置1Aが備える縮小拡大率算出部20cによる動画像の縮小拡大率の算出を説明した図である。(a)は、縮小または拡大する動画像のフレームの一例を示しており、(b)は、OSD画面17aの一例を示している。
 図15(a)に示すように、動画像のフレームのサイズがX×Y(アスペクト比16:9)、登録顔領域601のサイズがX4×Y4(アスペクト比16:9)であり、図15(b)に示すように、OSD画面17aの動画サムネイルのサイズ、即ちハイライト枠17kのサイズがX1×Y1(アスペクト比16:9)であるとする。
 この場合、縮小拡大率算出部20bは、登録顔領域601のサイズがハイライト枠17kのサイズと同一となるように、動画像の縮小拡大率を算出する。即ち縮小拡大率をQとすると、上述した(数式1)を用いて、X2,Y2をそれぞれX4,Y4に置き換えることにより縮小拡大率Qを算出する。
 このように、縮小拡大率算出部20cは、選択された登録顔領域のサイズが動画サムネイルのサイズと略同一となるように、動画像の縮小拡大率を算出するので、登録された人物の顔が拡大されやすくなる。これにより、利用者は所望の人物の顔画像を注目して見やすくなるので、動画像の内容を把握し易くなる。
 以上のように、本発明の実施例2であるサムネイル生成装置1Aによれば顔特徴情報記憶部21と、縮小拡大率算出部20cとを備えているので、本発明の実施例1であるサムネイル生成装置1による効果に加えて、予め登録された1人以上の人物を優先的に拡大して動画サムネイルとして表示することができる。
 本実施例2では、検出されている顔の中に、予め記憶している顔の特徴と一致する顔が検出された場合、この一致した顔をのみを処理対象とすることで、例えば、他人の子供と自分の子供が一緒に撮影された動画像においても、自分の子供の顔だけを動画サムネイルで拡大表示させることができる。
 1,1A…サムネイル生成装置
 11…デマルチプレクサ
 12…AC3デコーダ
 13…スピーカ
 14…H.264デコーダ
 15…縮小拡大部
 16…加算器
 17…ユーザインタフェース部
 17a…画像表示部
 17b…操作ボタン
 17c…スライダー
 17d…サムネイル表示領域
 17e…操作ガイド表示領域
 17f…ページ表示領域
 17g…画像表示部
 17k…ハイライト枠
 17h…動画再生画面
 17j…動画サムネイル
 18…OSD生成部
 19…動画サムネイル時間記憶部
 20,20A,131…CPU
 20a…動画像抽出部
 20b,20c…縮小拡大率算出部
 20d…サムネイル区間決定部
 21…顔特徴情報記憶部
 101…ビデオカメラ
 111…光学レンズ
 112…画像素子部
 113…信号処理部
 114…H.264エンコーダ
 115…マルチプレクサ
 116…顔検出部
 117…加算器
 121…マイク
 122…A/D変換部
 123…AC3エンコーダ

Claims (5)

  1.  動画像の第1の所定期間内において、前記第1の所定期間よりも短い第2の所定期間毎に、前記動画像を構成する各画像を抽出する動画像抽出部と、
     抽出された各画像に含まれる人物の顔の領域を積分し、この積分された顔の領域を囲むように顔表示領域を決定し、この決定された顔表示領域のサイズが、予め動画サムネイルを表示するために定められた所定の表示領域のサイズと略同一となるように、前記動画像の縮小拡大率を算出する縮小拡大率算出部と、
     算出された前記縮小拡大率に基づいて、前記動画像を縮小または拡大し、前記動画サムネイルを生成する動画サムネイル生成部と、
     を備えたことを特徴とするサムネイル生成装置。
  2.  前記動画像抽出部によって抽出された各画像のうち、人物の顔の領域が存在する画像の連続する数に基づいて、前記第1の所定期間を1つ以上決定するサムネイル区間決定部
     を更に備えることを特徴とした請求項1記載のサムネイル生成装置。
  3.  前記縮小拡大率算出部は、
     前記顔表示領域の面積の値を分母とし、前記顔の領域の合計面積の値を分子として求めた比の値が、所定の閾値より小さい場合、前記顔の領域のうち中心に近くかつ面積が最も大きい顔の領域を代表領域として、この代表領域のサイズが前記表示領域のサイズと略同一となるように、前記縮小拡大率を算出する
     ことを特徴とした請求項1又は2記載のサムネイル生成装置。
  4.  人物の顔を一意に識別可能な顔の特徴を顔特徴情報として記憶する顔特徴情報記憶部と、を更に備え、
     前記縮小拡大率算出部は、
     前記顔の領域内に存在する顔の特徴が、前記顔特徴情報記憶部に記憶されている顔特徴情報が示す顔の特徴と一致又は近似しているか否かを判定し、一致又は近似していると判定された場合に、この一致又は近似している顔の特徴に対応する前記顔の領域のサイズを前記表示領域のサイズと略同一となるように、前記縮小拡大率を算出する
     ことを特徴とした請求項1又は2記載のサムネイル生成装置。
  5.  動画像の第1の所定期間内において、前記第1の所定期間よりも短い第2の所定期間毎に、前記動画像を構成する各画像を抽出する動画像抽出ステップと、
     抽出された各画像に含まれる人物の顔の領域を積分し、この積分された顔の領域を囲むように顔表示領域を決定し、この決定された顔表示領域のサイズが、予めサムネイルを表示するために定められた所定の表示領域のサイズと略同一となるように、前記動画像の縮小拡大率を算出する縮小率算出ステップと、
     算出された前記縮小拡大率に基づいて、前記動画像を縮小または拡大し、前記動画サムネイルを生成する動画サムネイル生成ステップと、
     を有することを特徴とするサムネイル生成方法。
PCT/JP2010/051100 2009-03-25 2010-01-28 サムネイル生成装置及びサムネイル生成方法 WO2010109943A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP10755744.9A EP2413597B1 (en) 2009-03-25 2010-01-28 Thumbnail generation device and method of generating thumbnail
US13/259,685 US8849093B2 (en) 2009-03-25 2010-01-28 Thumbnail generating apparatus and thumbnail generating method
CN201080013004.3A CN102362491B (zh) 2009-03-25 2010-01-28 缩略图生成装置及缩略图生成方法
KR1020117024660A KR101296152B1 (ko) 2009-03-25 2010-01-28 섬네일 생성 장치 및 섬네일 생성 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-073345 2009-03-25
JP2009073345A JP4640515B2 (ja) 2009-03-25 2009-03-25 サムネイル生成装置、サムネイル生成方法、及びサムネイル生成プログラム

Publications (1)

Publication Number Publication Date
WO2010109943A1 true WO2010109943A1 (ja) 2010-09-30

Family

ID=42780640

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/051100 WO2010109943A1 (ja) 2009-03-25 2010-01-28 サムネイル生成装置及びサムネイル生成方法

Country Status (6)

Country Link
US (1) US8849093B2 (ja)
EP (1) EP2413597B1 (ja)
JP (1) JP4640515B2 (ja)
KR (1) KR101296152B1 (ja)
CN (1) CN102362491B (ja)
WO (1) WO2010109943A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101952260B1 (ko) * 2012-04-03 2019-02-26 삼성전자주식회사 다수의 동영상 썸네일을 동시에 표시하기 위한 영상 재생 장치 및 방법
WO2014021005A1 (ja) * 2012-07-31 2014-02-06 日本電気株式会社 画像処理システム、画像処理方法及びプログラム
CN102999599B (zh) * 2012-11-19 2015-10-07 北京奇虎科技有限公司 一种图片展示方法和装置
KR20140100784A (ko) * 2013-02-07 2014-08-18 삼성전자주식회사 디스플레이 장치 및 디스플레이 방법
CN104063844B (zh) * 2013-03-21 2019-01-15 腾讯科技(深圳)有限公司 一种缩略图生成方法及系统
JP2014220724A (ja) * 2013-05-10 2014-11-20 ソニー株式会社 表示制御装置、表示制御方法、およびプログラム
CN104252696B (zh) * 2013-06-28 2017-12-12 广州华多网络科技有限公司 获取缩略图的方法及装置
CN103927713B (zh) * 2014-04-23 2017-07-18 锤子科技(北京)有限公司 图片缩略图的获取方法及装置
CN104063444A (zh) * 2014-06-13 2014-09-24 百度在线网络技术(北京)有限公司 缩略图的生成方法和装置
KR102252448B1 (ko) 2014-09-12 2021-05-14 삼성전자주식회사 제어 방법 및 그 방법을 처리하는 전자장치
WO2016051803A1 (ja) * 2014-10-03 2016-04-07 パナソニックIpマネジメント株式会社 コンテンツ受信装置、コンテンツ受信システム、コンテンツ受信装置の制御方法、およびプログラム
EP3203751A4 (en) 2014-10-03 2017-08-09 Panasonic Intellectual Property Management Co., Ltd. Content reception device, content reception system, content reception device control method, and program
CN104504104B (zh) * 2014-12-30 2018-09-07 百度在线网络技术(北京)有限公司 用于搜索引擎的图片物料处理方法、装置和搜索引擎
JP6579925B2 (ja) * 2015-11-17 2019-09-25 キヤノン株式会社 画像再生装置およびその制御方法ならびにプログラムならびに記録媒体
US10347294B2 (en) * 2016-06-30 2019-07-09 Google Llc Generating moving thumbnails for videos
CN106341623A (zh) * 2016-10-19 2017-01-18 上海传英信息技术有限公司 连拍图片动态缩略图的生成方法及用户终端
US11169661B2 (en) * 2017-05-31 2021-11-09 International Business Machines Corporation Thumbnail generation for digital images
JP6958226B2 (ja) * 2017-10-23 2021-11-02 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7171212B2 (ja) * 2018-04-02 2022-11-15 キヤノン株式会社 情報処理装置、画像表示方法、コンピュータプログラム、及び記憶媒体

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0746582A (ja) * 1993-07-28 1995-02-14 Nippon Telegr & Teleph Corp <Ntt> 映像切り出し方法
JP2002223412A (ja) * 2001-01-26 2002-08-09 Canon Inc 画像処理装置、画像処理システム、画像処理方法、記憶媒体、及びプログラムソフトウェア
JP2005210573A (ja) * 2004-01-26 2005-08-04 Mitsubishi Electric Corp 映像表示システム
JP2005269563A (ja) 2004-03-22 2005-09-29 Fuji Photo Film Co Ltd 画像処理装置及び画像再生装置
JP2008147838A (ja) * 2006-12-07 2008-06-26 Sony Corp 画像処理装置、画像処理方法、およびプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060064716A1 (en) * 2000-07-24 2006-03-23 Vivcom, Inc. Techniques for navigating multiple video streams
JP4489608B2 (ja) * 2004-03-31 2010-06-23 富士フイルム株式会社 ディジタル・スチル・カメラ,画像再生装置および顔画像表示装置ならびにそれらの制御方法
JP4359773B2 (ja) * 2004-06-22 2009-11-04 ソニー株式会社 画像圧縮処理装置、画像圧縮処理方法および画像圧縮処理プログラム
EP1830361A1 (en) * 2006-03-02 2007-09-05 Sony Corporation Image displaying method and video playback apparatus
JP2008017042A (ja) * 2006-07-04 2008-01-24 Sony Corp 情報処理装置および方法、並びにプログラム
JP4998026B2 (ja) * 2007-03-15 2012-08-15 ソニー株式会社 画像処理装置、撮像装置、および画像表示制御方法、並びにコンピュータ・プログラム
JP4518131B2 (ja) * 2007-10-05 2010-08-04 富士フイルム株式会社 撮像方法及び装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0746582A (ja) * 1993-07-28 1995-02-14 Nippon Telegr & Teleph Corp <Ntt> 映像切り出し方法
JP2002223412A (ja) * 2001-01-26 2002-08-09 Canon Inc 画像処理装置、画像処理システム、画像処理方法、記憶媒体、及びプログラムソフトウェア
JP2005210573A (ja) * 2004-01-26 2005-08-04 Mitsubishi Electric Corp 映像表示システム
JP2005269563A (ja) 2004-03-22 2005-09-29 Fuji Photo Film Co Ltd 画像処理装置及び画像再生装置
JP2008147838A (ja) * 2006-12-07 2008-06-26 Sony Corp 画像処理装置、画像処理方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2413597A4

Also Published As

Publication number Publication date
KR101296152B1 (ko) 2013-08-19
CN102362491B (zh) 2014-06-18
JP4640515B2 (ja) 2011-03-02
EP2413597A1 (en) 2012-02-01
US8849093B2 (en) 2014-09-30
EP2413597A4 (en) 2013-02-06
JP2010226572A (ja) 2010-10-07
EP2413597B1 (en) 2015-09-30
CN102362491A (zh) 2012-02-22
US20120020643A1 (en) 2012-01-26
KR20120001765A (ko) 2012-01-04

Similar Documents

Publication Publication Date Title
JP4640515B2 (ja) サムネイル生成装置、サムネイル生成方法、及びサムネイル生成プログラム
JP4618166B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP5326910B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP4525558B2 (ja) 情報処理装置、撮像装置、および情報処理方法、並びにコンピュータ・プログラム
JP4379409B2 (ja) 撮像装置、および情報処理方法、並びにコンピュータ・プログラム
JP6249202B2 (ja) 画像表示装置、画像表示方法、およびプログラム
CN104092957B (zh) 一种融合人像和语音的屏幕视频生成方法
KR101376455B1 (ko) 화상 처리 장치 및 화상 표시 방법
KR100883066B1 (ko) 텍스트를 이용한 피사체 이동 경로 표시장치 및 방법
KR102170693B1 (ko) 영상재생장치 및 영상재생장치에서 영상정보 제공 방법
US20080022230A1 (en) Information processing apparatus and method, and program
JP5630541B2 (ja) 情報処理装置、情報処理方法およびプログラム
EP1347455A2 (en) Contents recording/playback apparatus and contents edit method
WO2014181529A1 (en) Display control apparatus, display control method, and program
JP4504452B1 (ja) 映像視聴装置及び映像再生制御方法及び記録再生用プログラム
JP5329130B2 (ja) 検索結果表示方法
WO2010125757A1 (ja) 映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法
JP2009017598A (ja) 撮像装置、および情報処理方法、並びにコンピュータ・プログラム
WO2014181532A1 (en) Display control apparatus, display control method, and program
WO2017022296A1 (ja) 情報管理装置及び情報管理方法、並びに映像再生装置及び映像再生方法
JP6295442B2 (ja) 画像生成装置、撮影装置、画像生成方法及びプログラム
KR101198156B1 (ko) 디지털 비디오 레코더에서의 녹화 및 재생 제어방법
JP2010034918A (ja) 動画像再生装置
JP5868145B2 (ja) 画像処理装置及びその制御方法
JP6295443B2 (ja) 画像生成装置、撮影装置、画像生成方法及びプログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080013004.3

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10755744

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13259685

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20117024660

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2010755744

Country of ref document: EP