WO2015104780A1 - 映像撮像装置 - Google Patents
映像撮像装置 Download PDFInfo
- Publication number
- WO2015104780A1 WO2015104780A1 PCT/JP2014/006452 JP2014006452W WO2015104780A1 WO 2015104780 A1 WO2015104780 A1 WO 2015104780A1 JP 2014006452 W JP2014006452 W JP 2014006452W WO 2015104780 A1 WO2015104780 A1 WO 2015104780A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- video
- unit
- information
- attribute information
- area
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/765—Interface circuits between an apparatus for recording and another apparatus
- H04N5/77—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
- H04N5/772—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/804—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
- H04N9/8042—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
- H04N9/8045—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction using predictive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/804—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
- H04N9/806—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/82—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
- H04N9/8205—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
- H04N9/8211—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a sound signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/87—Regeneration of colour television signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/907—Television signal recording using static stores, e.g. storage tubes or semiconductor memories
Definitions
- the present disclosure relates to a video imaging apparatus that captures and outputs a video, and particularly relates to a video imaging apparatus capable of digest playback.
- a video area having metadata such as a human face, a human voice, camera work in a zoomed-in or stationary state is usually highly evaluated, and is preferentially output even during digest playback.
- Patent Document 1 a video area having metadata such as a human face, a human voice, camera work in a zoomed-in or stationary state is usually highly evaluated, and is preferentially output even during digest playback.
- a video imaging device includes an imaging unit, a generation unit that generates time information capable of specifying a temporal position in an image captured by the imaging unit, and an image captured by the imaging unit based on the time information Is divided into video areas of a predetermined time unit, and for each video area, a detection unit that detects attribute information related to a predetermined video feature including posture information of the device itself, and attribute information and time information for each video area.
- a storage unit that stores the associated information, and a video area in which an evaluation value of attribute information related to predetermined posture information is larger than a predetermined value, or a change value of attribute information related to predetermined posture information is lower than a predetermined value.
- An adding unit that assigns tag information indicating that the image region has an image characteristic to a large image region.
- This configuration can provide a video imaging device capable of digest playback of dynamic video.
- FIG. 1 is an external perspective view of a video camera according to the present disclosure.
- FIG. 2 is a schematic diagram illustrating a hardware configuration inside the video camera according to the present disclosure.
- FIG. 3 is a functional configuration diagram illustrating a functional configuration of the video camera according to the present disclosure.
- FIG. 4 is a schematic diagram illustrating an example of attribute information generated by the generation unit according to the present disclosure.
- FIG. 5 is an explanatory diagram illustrating an example of an evaluation value list of attribute information related to a predetermined video feature according to the present disclosure.
- FIG. 6 is an explanatory diagram illustrating another example of an evaluation value list of attribute information related to a predetermined video feature according to the present disclosure.
- FIG. 7 is an explanatory diagram illustrating an example of an evaluation value list of attribute information related to a predetermined video feature in another mode according to the present disclosure.
- FIG. 1 is an external perspective view of the video camera 100.
- the video camera 100 includes a battery 101, a grip belt 102, an imaging unit 301 (not shown) that captures an image, a display unit 318 that displays an image captured by the imaging unit 301, and the like.
- the imaging unit 301 includes a C-MOS sensor (not shown) that converts light incident from the lens unit 300 into a video signal.
- the display unit 318 includes a touch panel type liquid crystal display.
- FIG. 2 is a diagram showing an outline of the hardware configuration inside the video camera 100.
- the video camera 100 includes a lens group 200, an image sensor 201, a video ADC (Analog to Digital Converter) 202, a video signal conversion circuit 203, a CPU (Central Processing Unit) 204, a clock 205, and a lens control module 206.
- Memory 214, HDD (Hard Disk Drive) 215, audio ADC (Analog to Digital Converter) 216, and stereo microphone 217 Comprises as components a.
- the lens group 200 adjusts light incident from the subject in order to form a subject image on the image sensor 201. Specifically, the lens group 200 adjusts the focal length and zoom (image magnification) by changing the distance between a plurality of lenses having various characteristics. These adjustments may be performed manually by a photographer of the video camera 100 or automatically by control from the CPU 204 or the like through a lens control module 206 described later.
- the image sensor 201 converts light incident through the lens group 200 into an electrical signal.
- An image sensor such as a CCD (Charge Coupled Device) or a C-MOS (Complementary Metal Oxide Semiconductor) can be used for the image sensor 201.
- the video ADC 202 converts an analog electrical signal output from the image sensor 201 into a digital electrical signal.
- the digital signal converted by the video ADC 202 is output to the video signal conversion circuit 203.
- the video signal conversion circuit 203 converts the digital signal output from the video ADC 202 into a video signal (video signal) of a predetermined system such as NTSC (National Television System Committee) or PAL (Phase Alternating Line).
- NTSC National Television System Committee
- PAL Phase Alternating Line
- CPU 204 controls the entire video camera 100.
- control for example, there is lens control for controlling the incident light to the image sensor 201 by controlling the focal length and zoom of the lens via the lens control module 206.
- input control for external input from the input button 208 and the posture detection sensor 207, operation control of the compression / decompression circuit 212, and the like.
- the CPU 204 executes these control algorithms with software or the like.
- the clock 205 outputs a clock signal serving as a reference for processing operation to a circuit such as the CPU 204 operating in the video camera 100.
- the clock 205 may be a single clock or a plurality of clocks depending on an integrated circuit to be used and data to be handled. Further, an arbitrary multiple of the clock signal of one oscillator may be used.
- the lens control module 206 detects the state of the lens group 200 and operates each lens included in the lens group 200 based on the control from the CPU 204.
- the lens control module 206 includes a lens control motor 206a and a lens position sensor 206b.
- the lens position sensor 206b detects a distance or a positional relationship between a plurality of lenses constituting the lens group 200. Position information between the plurality of lenses detected by the lens position sensor 206b is transmitted to the CPU 204. The CPU 204 transmits a control signal for properly arranging a plurality of lenses to the lens control motor 206a based on information from the lens position sensor 206b and information from other components such as the image sensor 201. .
- the lens control motor 206 a is a motor that drives the lens based on the control signal transmitted from the CPU 204. As a result, the relative positional relationship between the plurality of lenses of the lens group 200 is changed, and the focal length and zoom of the lenses can be adjusted. Thus, the incident light that has passed through the lens group 200 forms a target subject image on the image sensor 201.
- the CPU 204 may detect a camera shake at the time of shooting an image with the video camera 100 with a lens position sensor 206b, a posture detection sensor 207, which will be described later, and the like, and perform control to drive the lens control motor 206a. . Thereby, the CPU 204 can also execute an operation for preventing camera shake via the lens control module 206.
- the posture detection sensor 207 detects the posture state of the video camera 100.
- the posture detection sensor 207 includes an acceleration sensor 207a, an angular velocity sensor 207b, and an elevation angle / decline angle sensor 207c. With these various sensors, the CPU 204 detects in what state the video camera 100 is shooting. Note that these sensors are preferably capable of detecting in three axial directions (vertical direction, horizontal direction, etc.), respectively, in order to detect the posture of the video camera 100 in detail.
- the input button 208 is one of input interfaces used by the photographer of the video camera 100.
- the input button 208 allows the photographer to communicate various requests to the video camera 100, such as the start or end of shooting, or the insertion of markings into the video being shot.
- a display 209 which will be described later, is a touch panel, and may constitute a part of the input button 208.
- the display 209 is provided for the photographer to view a video when the video camera 100 is photographed or to view a stored video.
- the display 209 allows the photographer to check the captured video on the spot.
- more detailed information such as shooting information and device information can be transmitted to the photographer.
- the speaker 210 is used for audio output when playing back the captured video.
- the speaker 210 can transmit a warning output from the video camera 100 to the photographer with sound.
- the output I / F 211 is used to output video captured by the video camera 100 to an external device, or to output a control signal for controlling the operation of the pan head 500 described later.
- the output I / F 211 is a cable interface when connecting to an external device with a cable, a memory card interface when recording a photographed video on a portable memory card 218, and the like.
- the compression / decompression circuit 212 converts the captured video and audio into a predetermined digital data format (encoding process). Specifically, the compression / decompression circuit 212 applies MPEG (Moving Picture Experts Group) or H.264 to the captured video data and audio data. H.264 or the like is encoded and converted (compressed) into a predetermined data format. The compression / decompression circuit 212 performs data processing for decompressing video data in a predetermined data format and displaying it on the display 209 or the like when the captured data is reproduced. The compression / decompression circuit 212 may also have a function of compressing / decompressing still images as well as video.
- MPEG Motion Picture Experts Group
- the ROM 213 stores software programs processed by the CPU 204 and various data for operating the programs.
- the RAM 214 is used as a memory area used when executing a software program processed by the CPU 204.
- the RAM 214 may be used in common with the compression / decompression circuit 212.
- the HDD 215 is used for the purpose of storing video data and still image data encoded by the compression / decompression circuit 212.
- the data to be stored can also store data of reproduction information described later.
- the HDD 215 is described as a representative storage medium as a storage medium, but other semiconductor storage elements may be used.
- the audio ADC 216 converts audio input from the stereo microphone 217 from an analog electric signal to a digital electric signal.
- the stereo microphone 217 converts the sound outside the video camera 100 into an electrical signal and outputs it.
- the hardware configuration of the video camera 100 is shown, but the present invention is not limited to the above configuration.
- the video ADC 202, the video signal conversion circuit 203, and the like can be realized as a single integrated circuit, and a part of the software program executed by the CPU 204 is separately implemented using a FPGA (Field Programmable Gate Array). It is also possible to implement as hardware.
- FPGA Field Programmable Gate Array
- FIG. 3 is a detailed functional configuration diagram illustrating the functional configuration of the video camera 100 of FIG.
- the video camera 100 includes, as functional components, a lens unit 300, an imaging unit 301, a video AD conversion unit 302, a video signal processing unit 303, a video signal compression unit 304, Imaging control unit 305, video analysis unit 306, lens control unit 307, posture detection unit 308, attribute information generation unit 309, detection unit 310, generation unit 311, audio analysis unit 312 and audio signal compression Unit 313, multiplexing unit 314, storage unit 315, adding unit 316, video signal expansion unit 317, display unit 318, audio signal expansion unit 319, audio output unit 320, and audio AD conversion unit 321
- the lens unit 300 adjusts the focal length of the light incident from the subject, the zoom magnification (magnification magnification of the image), and the like. These are performed under the control of the lens control unit 307.
- the lens unit 300 corresponds to the lens group 200 in FIG.
- the imaging unit 301 converts the light transmitted through the lens unit 300 into an electrical signal.
- the imaging unit 301 outputs data in an arbitrary range on the imaging device under the control of the imaging control unit 305.
- chromaticity space information of the three primary colors, white coordinates and gain information of at least two of the three primary colors, color temperature information, ⁇ uv (delta uv), and gamma information of the three primary colors or luminance signal Etc. can also be output. These pieces of information are output to the attribute information generation unit 309.
- the imaging unit 301 corresponds to the imaging element 201 in FIG.
- the video AD conversion unit 302 converts the electrical signal from the imaging unit 301 from an analog electrical signal to a digital electrical signal according to predetermined processing content.
- the video AD conversion unit 302 corresponds to the video ADC 202 in FIG.
- the video signal processing unit 303 converts the digital signal output from the video AD conversion unit 302 into a predetermined video signal format. For example, the video signal is converted into a video signal conforming to the number of horizontal lines, the number of scanning lines, and the frame rate specified by NTSC.
- the video signal processing unit 303 corresponds to the video signal conversion circuit 203 in FIG.
- the video signal compression unit 304 performs predetermined coding conversion on the digital signal processed by the video signal processing unit 303 to compress the data amount. Specifically, MPEG2, MPEG4, H.264. There are encoding methods such as H.264.
- the video signal compression unit 304 corresponds to the compression function of the compression / decompression circuit 212 of FIG.
- the imaging control unit 305 controls the operation of the imaging unit 301. Specifically, the imaging control unit 305 controls the imaging unit 301 with respect to the exposure amount at the time of shooting, the shooting speed, the sensitivity, and the like. These control information are also output to the attribute information generation unit 309.
- the imaging control unit 305 is realized by one of the control algorithms processed by the CPU 204 in FIG.
- the video analysis unit 306 extracts video features from the captured video signal.
- Video is composed of objects and background.
- objects include animals such as people and pets, furniture, daily life, clothing, houses, cars, bicycles, and motorcycles.
- An image change is a change in an object or background in the image.
- video features are features such as the objects and background shapes and textures (patterns that include colors) and sizes included in the images, and features related to temporal changes in the objects and backgrounds included in the images. .
- the change in the video can be detected not only by the video analysis unit 306 in the device but also by a server on the cloud network.
- luminance information and color information included in the video for example, one screen of the video is divided into a total of 576 blocks of horizontal 32 and vertical 18, and the distribution of the color and luminance included in each block is calculated.
- the video feature is extracted by analyzing the video signal, such as detecting the face of the person.
- the motion vector can be realized by calculating a difference in feature quantity between a plurality of frames.
- face detection can be realized by feature amount pattern matching or the like by learning of feature amounts representing facial features.
- the video analysis unit 306 is realized by one of the algorithms processed by the CPU 204 in FIG. Person detection and object detection can also be realized by similar pattern learning and pattern matching.
- the lens control unit 307 controls operations such as zooming and focusing of the lens unit 300.
- the lens control unit 307 includes a zoom control unit 307a, a focus control unit 307b, a camera shake correction control unit 307c, and the like.
- the zoom control unit 307a controls the zoom lens of the lens unit 300 to input incident light from the subject to the imaging unit 301 with a desired magnification.
- the focus control unit 307 b controls the focus lens of the lens unit 300 to set the focal length between the subject and the imaging unit 301.
- the camera shake correction control unit 307c suppresses shaking of the apparatus when shooting an image or the like.
- the lens control unit 307 controls the lens unit 300 and outputs the control information to the attribute information generation unit 309.
- the lens control unit 307 corresponds to the lens control module 206 in FIG.
- the posture detection unit 308 detects the acceleration, angular velocity, elevation angle, depression angle, and the like of the video camera 100.
- the posture detection unit 308 includes an acceleration sensor 308a, an angular velocity sensor 308b, and an elevation angle / decline angle sensor 308c. These sensors are used for the purpose of detecting the posture of the video camera 100 and its change state. It is desirable that acceleration and angular velocity can be detected in three directions, vertical and horizontal (two directions).
- the posture detection unit 308 corresponds to the posture detection sensor 207 in FIG.
- the microphone unit 322 converts ambient sounds into electrical signals and outputs them as audio signals.
- the microphone unit 322 corresponds to the stereo microphone 217 of FIG.
- the voice AD conversion unit 321 converts an analog electrical signal input from the microphone unit 322 into a digital electrical signal.
- the audio AD conversion unit 321 corresponds to the audio ADC 216 in FIG.
- the voice analysis unit 312 extracts a characteristic sound from the voice data converted into a digital electric signal.
- the characteristic sounds here include, for example, a photographer's voice, pronunciation of a specific word, cheers, gunshots, and the like. These sounds can be extracted by registering in advance the unique frequencies of these sounds (speech) and using a method of discriminating them based on the comparison result.
- the voice analysis unit 312 also detects features such as the input level of the sound captured by the microphone unit 322.
- the voice analysis unit 312 is realized by one of algorithms processed by the CPU 204 in FIG.
- the audio signal compression unit 313 converts the audio data output from the audio AD conversion unit 321 using a predetermined encoding algorithm. Encoding includes MP3 (MPEG Audio Layer-3) and AAC (Advanced Audio Coding) methods.
- the audio signal compression unit 313 is realized by one of the compression functions of the compression / decompression circuit 212 of FIG.
- the multiplexing unit 314 multiplexes the encoded video data output from the video signal compression unit 304 and the encoded audio data output from the audio signal compression unit 313 and outputs the multiplexed data.
- the multiplexing unit 314 may be software executed by the CPU 204 in FIG. 2, or may be hardware processed by the compression / decompression circuit 212.
- the external input unit 323 outputs various kinds of information received from the outside at the time of video shooting, such as button input by the photographer or shooting index information received from the outside via communication.
- the shooting index information is, for example, an identification number used to identify each shooting, such as a number identifying a shooting scene at the time of shooting a movie or a number indicating the number of shootings.
- the external input unit 323 corresponds to the input button 208 in FIG.
- the attribute information generation unit 309 generates shooting information, external input information, and other information at the time of shooting a video and a still image as attribute information for a video area in a predetermined time unit (for example, 2 seconds). Examples of information included in the attribute information include the following information.
- the attribute information generation unit 309 extracts or calculates information useful for evaluating the video area from various information at the time of shooting, and attribute information such as face and person position information, moving object position information, and sound position information. Is generated.
- the detection unit 310 detects attribute information related to video features useful for digest reproduction based on the attribute information generated by the attribute information generation unit 309 for each video area.
- Video features useful for digest playback include zoom-in, zoom-out, camera work such as panning, tilting, or stillness, presence or absence of a person (moving object) by face detection or motion vector, a specific color (for example, finger color, gloves Or the like, voice such as a human voice, the magnitude of a motion vector, or the magnitude of a change amount of a motion vector.
- the attribute information generation unit 309 and the detection unit 310 are one of algorithms processed by the CPU 204 in FIG.
- the generating unit 311 generates time information in synchronization with the video being shot. With the time information generated by the generation unit 311, it is possible to specify a temporal position in each video area of the captured video. Further, based on this time information, the attribute information generation unit 309 divides the video imaged by the imaging unit 301 into video areas of a predetermined time unit, and generates attribute information for each video area.
- the generation unit 311 corresponds to the clock 205 in FIG.
- the assigning unit 316 has a video feature with respect to a video region in which an evaluation value and / or change value of a predetermined video feature is larger than a predetermined threshold among video regions having the video feature detected by the detection unit 310.
- Tag information indicating an area is assigned.
- the tag information serves as a mark for digest playback.
- an evaluation value of each video area is calculated based on an evaluation value of a predetermined video feature as shown in FIG. 5, and tag information is added to a video area having a high evaluation value and / or change value.
- the change value is a difference between evaluation values of images (still images) of at least two frames constituting a video (moving image).
- the assigning unit 316 is one of software processing algorithms executed by the CPU 204 of FIG.
- the storage unit 315 includes, for each video area, encoded video data and encoded audio data output from the multiplexing unit 314, time information output from the generation unit 311 and attribute information related to the video features output from the detection unit 310. Associate or hold for a long time. In addition, tag information output from the assigning unit 316 is also preferably retained.
- the storage unit 315 corresponds to the HDD 215, the RAM 214, the memory card 218, and the like in FIG.
- the output unit 324 preferentially outputs the video area to which the tag information is added by the adding unit 316 among the videos taken by the imaging unit 301.
- the digest playback function may be executed based on a user instruction or may be automatically executed.
- an action mode for outputting a video with a large action as a center and a static mode (second mode) for outputting a slow camera work as a center can be selected. May be.
- the mode can be selectively configured by changing the evaluation value of the attribute information related to a predetermined video feature that is referred to when tag information is added in accordance with the user's instruction.
- the output unit 324 can output mainly a video with a large action, which is a photographer's movement due to a viewpoint from a sports athlete or a sudden happening factor.
- the output unit 324 can output mainly a video of slow camerawork that tracks an object such as a specific person.
- the mode is automatically selected and output, for example, in the assigning unit 316, the evaluation value of the attribute information when evaluated in the action mode and the evaluation of the attribute information when evaluated in the static mode for the entire captured video
- This can be realized by installing an algorithm or the like that compares the values and selects a mode with less variation in high evaluation values.
- the output unit 324 is one of software processing algorithms executed by the CPU 204 of FIG.
- the action mode will be described in detail.
- the action mode is a mode in which not all the captured videos are reproduced, but a video with a large action such as a viewpoint from a sports athlete or a photographer's accident is extracted and output.
- FIG. 4 is an example of attribute information regarding a predetermined video feature output from the attribute information generation unit 309.
- the attribute information generation unit 309 detects attribute information relating to a predetermined video feature included in a video area in a predetermined time unit. When there are a plurality of video features and the like, attribute information relating to the plurality of video features is detected.
- a 20-second video from the start of shooting is composed of 10 video areas (A) to (J), and attribute information is detected in each video area. It shows that.
- video information relating to a predetermined video feature is detected and a tag is given.
- the detection unit 310 performs camera work such as zoom-in, zoom-out, panning, tilting, and stillness useful for digest playback, face detection, motion vectors, and the like. Presence / absence of a person (moving object) due to, presence / absence of specific color (for example, finger color, glove color, etc.), voice such as human voice, magnitude of motion vector or magnitude of motion vector change Attribute information related to the video feature of is detected. In the action mode, the magnitude of the motion vector or the magnitude of the change amount of the motion vector is important. In FIG. 4, tags are assigned to video regions (F) and (J) in which attribute information “motion (large)” regarding video features having a large motion vector is detected.
- the accuracy of camera change patterns and video change patterns can be improved if the number of evaluations is large, but the amount of computation is small and practical by comparing the previous 3-5 patterns compared to the point in time.
- Action detection can be realized.
- a change pattern when a change in pattern is detected, such as (1) camera work is stationary for 3 seconds, (2) sudden movement is for 1 second, and (3) is stationary for 3 seconds, (2 ) Is detected as an action.
- the accuracy of action detection is improved by analyzing the video and audio during the period of this change pattern and adding processing that the action determination is correct only when it matches a predetermined video and audio pattern. be able to.
- the assigning unit 316 evaluates the attribute information regarding the predetermined video feature detected by the detecting unit 310.
- FIG. 5 is an example of an evaluation value list of attribute information related to predetermined video features in the action mode. As shown in FIG. 5, the evaluation value list includes attribute information and its evaluation value. As the evaluation value, a large evaluation value is given to the image feature of interest. In FIG. 5, since the largest evaluation value 100 is given to the motion vector (large), it can be seen that a video region characterized by motion is highly evaluated.
- the assigning unit 316 evaluates each video area using the evaluation value of the attribute information detected in each video area based on the evaluation value list.
- the evaluation is basically performed with the maximum evaluation value of the multiple attribute information. However, the evaluation may be performed using the sum of the evaluation values of the multiple attribute information. The average value of the evaluation values of the attribute information may be used.
- the assigning unit 316 assigns tag information to a video region having a high evaluated value. Also, tag information is assigned to both video areas for two video areas having a large change in value evaluated between adjacent video areas.
- the change value of the attribute information is predetermined among the video areas in which the evaluation value of the attribute information is larger than a predetermined value among the video areas, or among a plurality of temporal video areas.
- a first mode for preferentially outputting a plurality of video areas larger than the value of the image, and storing in association with attribute information having video characteristics relating to a person, a specific camera work, a specific audio, or a specific color among the video areas A second mode for preferentially outputting the recorded video area.
- the assigning unit 316 assigns tag information to a video area to be preferentially output in the selected mode.
- an action mode (first mode) for outputting mainly a video with a large action and a static mode (second mode) for outputting slowly camera work can be selected.
- the output unit 324 preferentially outputs the video area to which the tag information is added when outputting the video.
- the output unit 324 outputs from the video area having time information that is a predetermined time later than the temporal position at which the video area to be preferentially output starts.
- the output unit 324 starts a video having a video feature related to the person or the voice. Output from the video area.
- the detection unit 310 Based on the attribute information generated by the attribute information generation unit 309, the detection unit 310 performs camera work such as zoom-in, zoom-out, pan, tilt, or stillness, presence / absence of a person (moving object) based on face detection or a motion vector, and identification In addition to the presence or absence of colors (for example, finger color, glove color, etc.), voice such as a human voice, the magnitude of the motion vector or the amount of change in the motion vector, and the horizontal posture as a reference Attribute information relating to predetermined video features such as the magnitude of elevation and depression, the magnitude of change in elevation and depression, or the magnitude of acceleration and angular velocity is detected.
- the assigning unit 316 evaluates the attribute information detected by the detecting unit 310.
- FIG. 6 is an example of an evaluation value list of attribute information related to a predetermined video feature in the action mode including posture information.
- acceleration (large) to elevation angle (small) are attribute information relating to predetermined video features in the posture information.
- the assigning unit 316 performs the same evaluation as in the first embodiment, and assigns tag information to a video region having a high evaluated value. In addition, for two video areas having a large change between the video areas, tag information is assigned to both video areas.
- the output unit 324 When performing digest playback, the output unit 324 preferentially outputs the video area to which the tag information is added. At this time, as in the first embodiment, the output unit 324 may output from a time point that is a predetermined time later than the video area to which the tag information is assigned. Further, when there is attribute information about a person or attribute information about a voice such as a human voice in a video area before the video area to which the tag information is added, the output unit 324 has attribute information about the person or the voice. You may output from the time of an image
- the predetermined video feature includes the posture information of the device itself, and the assigning unit 316 has an evaluation value of the attribute information related to the predetermined posture information in the video region larger than the predetermined value.
- Information is given to a video area or a video area in which a change value of attribute information related to predetermined posture information is larger than a predetermined value.
- Embodiments 1 and 2 have been described as examples of the technology disclosed in the present application. However, the technology in the present disclosure is not limited to this, and can also be applied to an embodiment in which changes, replacements, additions, omissions, and the like are appropriately performed. In addition, it is possible to combine the components described in the first and second embodiments to form a new embodiment.
- the handheld video camera 100 has been described.
- the present invention is not limited to this, and the present invention can also be applied to a so-called wearable camera.
- FIG. 7 An example of the video feature evaluation value list in the action mode is shown, but in the static mode, an evaluation value list as shown in FIG. 7 may be used.
- a person is included in the evaluation value list, and the evaluation value of the person is set to a high evaluation value among other video features.
- (C) Information associated with a video area, time information, attribute information, and tag information may be used for video search. At this time, the linked information may be output to another device via the network.
- the attribute information is used for extracting a video area for digest reproduction, but may be used for another purpose.
- it may be applied to a camera and the shutter may be released when there is no motion in the video. In this case, it can be realized by adding tag information to a video area without movement.
- This disclosure can be applied to a wearable camera that can shoot a viewpoint video from a sports athlete, or a general video camera when outputting a video with a large action.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Studio Devices (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
撮像部(301)と、撮影された映像の時間情報を生成する生成部(311)と、撮影された映像から所定の映像特徴を検出する検出部(310)と、撮影された映像と時間情報と映像特徴とを関連付けて記憶する記憶部(315)と、映像特徴の評価値が所定値よりも大きい映像、または、変化値が所定値よりも大きい映像に対し、タグ情報を付与する付与部(316)と、撮影された映像を出力するとき、撮影された映像のうちタグ情報が付与された映像を優先的に出力する出力部(324)と、を備える。これにより、動的な映像をダイジェスト再生可能な撮像装置を提供できる。
Description
本開示は、映像を撮影し出力する映像撮像装置に関し、特にダイジェスト再生可能な映像撮像装置に関する。
従来、撮影した映像を再生する際に、撮影した映像のメタデータに基づいて映像を評価し、自動的にダイジェスト再生を行なう映像撮像装置が知られている。
このような映像撮像装置では、通常、人物の顔、人の声、ズームインあるいは静止した状態のカメラワークなどのメタデータを有する映像領域が高く評価され、ダイジェスト再生の際にも優先的に出力される(例えば、特許文献1)。
本開示の映像撮像装置は、撮影部と、撮影部で撮影された映像における時間的な位置を特定可能な時間情報を生成する生成部と、時間情報に基づいて、撮影部で撮影された映像を所定の時間単位の映像領域に区分し、映像領域毎に、自装置の姿勢情報を含む所定の映像特徴に関する属性情報を検出する検出部と、映像領域毎に、属性情報と、時間情報を関連づけて記憶する記憶部と、映像領域のうち、所定の姿勢情報に関する属性情報の評価値が所定の値よりも大きい映像領域、または所定の姿勢情報に関する属性情報の変化値が所定の値よりも大きい映像領域に対して、映像特徴を有する映像領域であることを示すタグ情報を付与する付与部と、を備える。
この構成により、動的な映像をダイジェスト再生可能な映像撮像装置を提供できる。
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
なお、発明者らは、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。
(実施の形態1)
[1-1.構成]
本開示に係る映像撮像装置の具体例として、ビデオカメラ100の構成について図1を用いて説明する。図1は、ビデオカメラ100の外観斜視図である。詳細は後述するが、ビデオカメラ100は、バッテリ101と、グリップベルト102と、映像を撮影する撮像部301(不図示)と、撮像部301により撮影された映像を表示する表示部318などを有する。撮像部301は、レンズ部300から入射した光を映像信号に変換するC-MOSセンサ(不図示)などから構成される。表示部318は、タッチパネル式の液晶ディスプレイから構成される。
[1-1.構成]
本開示に係る映像撮像装置の具体例として、ビデオカメラ100の構成について図1を用いて説明する。図1は、ビデオカメラ100の外観斜視図である。詳細は後述するが、ビデオカメラ100は、バッテリ101と、グリップベルト102と、映像を撮影する撮像部301(不図示)と、撮像部301により撮影された映像を表示する表示部318などを有する。撮像部301は、レンズ部300から入射した光を映像信号に変換するC-MOSセンサ(不図示)などから構成される。表示部318は、タッチパネル式の液晶ディスプレイから構成される。
[1-1.ハードウェア構成]
図2は、ビデオカメラ100内部のハードウェア構成の概略を示した図である。ビデオカメラ100は、レンズ群200と、撮像素子201と、映像ADC(Analog to Digital Converter)202と、映像信号変換回路203と、CPU(Central Processing Unit)204と、クロック205と、レンズ制御モジュール206と、姿勢検出センサ207と、入力ボタン208と、ディスプレイ209と、スピーカー210と、出力I/F(Interface)211と、圧縮伸張回路212と、ROM(Read Only Memory)213と、RAM(Randam Access Memory)214と、HDD(Hard Disk Drive)215と、音声ADC(Analo to Digital Converter)216と、ステレオマイク217とを構成要素として備える。
図2は、ビデオカメラ100内部のハードウェア構成の概略を示した図である。ビデオカメラ100は、レンズ群200と、撮像素子201と、映像ADC(Analog to Digital Converter)202と、映像信号変換回路203と、CPU(Central Processing Unit)204と、クロック205と、レンズ制御モジュール206と、姿勢検出センサ207と、入力ボタン208と、ディスプレイ209と、スピーカー210と、出力I/F(Interface)211と、圧縮伸張回路212と、ROM(Read Only Memory)213と、RAM(Randam Access Memory)214と、HDD(Hard Disk Drive)215と、音声ADC(Analo to Digital Converter)216と、ステレオマイク217とを構成要素として備える。
レンズ群200は、撮像素子201上で被写体像を形成するために、被写体から入射する光を調整する。具体的には、レンズ群200は、焦点距離およびズーム(映像の拡大倍率)を、様々な特性を持つ複数のレンズ間の距離を変化させることで調整する。これらの調整は、ビデオカメラ100の撮影者が手動で調整するものでも、後述するレンズ制御モジュール206を通じてCPU204等からの制御により自動的に調整するものであってもよい。
撮像素子201は、レンズ群200を通して入射する光を電気信号に変換する。撮像素子201には、CCD(Charge Coupled Device)あるいはC-MOS(Complementary Metal Oxide Semiconductor)等のイメージセンサを利用することが可能である。
映像ADC202は、撮像素子201から出力されたアナログの電気信号をデジタルの電気信号に変換する。映像ADC202で変換されたデジタル信号は、映像信号変換回路203へ出力される。
映像信号変換回路203は、映像ADC202が出力するデジタル信号を、NTSC(National Television System Committee)またはPAL(Phase Alternating Line)と言った所定の方式の映像信号(映像信号)に変換する。
CPU204は、ビデオカメラ100全体を制御する。制御の種類としては、例えば、レンズ制御モジュール206を介して上述のレンズの焦点距離およびズームの制御を行うことで、撮像素子201への入射光を制御するレンズ制御がある。また、入力ボタン208および姿勢検出センサ207等からの外部入力に対する入力制御、あるいは、圧縮伸張回路212の動作制御等がある。CPU204は、これらの制御アルゴリズムをソフトウェア等で実行する。
クロック205は、ビデオカメラ100内で動作するCPU204等の回路に、処理動作の基準となるクロック信号を出力する。なお、クロック205は、利用する集積回路及び扱うデータによって、単一または複数のクロックを用いることも可能である。また、ひとつの発振子のクロック信号を任意の倍数に乗じて使用してもよい。
レンズ制御モジュール206は、レンズ群200の状態を検出し、CPU204からの制御に基づいて、レンズ群200に含まれる各レンズを動作させる。レンズ制御モジュール206は、レンズ制御用モータ206aと、レンズ位置センサ206bとを備える。
レンズ位置センサ206bは、レンズ群200を構成する複数のレンズ間の距離または位置関係等を検出する。レンズ位置センサ206bが検出した複数のレンズ間の位置情報等は、CPU204に送信される。CPU204は、レンズ位置センサ206bからの情報、および撮像素子201等の他の構成要素からの情報に基づいて、複数のレンズを適正に配置させるための制御信号を、レンズ制御用モータ206aに送信する。
レンズ制御用モータ206aは、CPU204から送信された制御信号に基づいて、レンズを駆動させるモータである。この結果、レンズ群200の複数のレンズ間の相対的な位置関係が変更され、レンズの焦点距離、およびズームを調整することができる。これにより、レンズ群200を通過した入射光は、撮像素子201上で、目的とする被写体像を結ぶ。
なお、CPU204は、上記以外にも、ビデオカメラ100で映像撮影時の手振れをレンズ位置センサ206bおよび後述する姿勢検出センサ207等で検出し、レンズ制御用モータ206aを駆動する制御を行ってもよい。これにより、CPU204は、手振れ防止の動作を、レンズ制御モジュール206を介して実行させることも可能である。
姿勢検出センサ207は、ビデオカメラ100の姿勢の状態を検出する。姿勢検出センサ207は、加速度センサ207aと、角速度センサ207bと、仰角・俯角センサ207cとを備える。これらの各種センサにより、CPU204は、ビデオカメラ100がどのような状態で撮影を行っているかを検出する。なお、これらのセンサは、好ましくはビデオカメラ100の姿勢を詳細に検出するために、3軸方向(垂直方向、水平方向等)についてそれぞれ検出できることが望ましい。
入力ボタン208は、ビデオカメラ100の撮影者が使用する入力インタフェースの一つである。入力ボタン208により、撮影者が撮影の開始または終了、ビデオ撮影中の映像にマーキングを挿入する等、各種要求をビデオカメラ100に伝えることが可能となる。また、後述するディスプレイ209がタッチパネルとなっており、入力ボタン208の一部を構成してもよい。
ディスプレイ209は、撮影者がビデオカメラ100の撮影時に映像を見るため、あるいは、記憶された映像を見るため等に設けられている。ディスプレイ209により、撮影者は、撮影した映像をその場で確認することが可能となる。また、上記以外にも、ビデオカメラ100の各種情報を表示することで、撮影情報および機器情報等のより詳細な情報を撮影者に伝えることが可能となる。
スピーカー210は、撮影した映像を再生する際の音声出力に使用される。それ以外にも、スピーカー210は、ビデオカメラ100が出力する警告を音で撮影者へ伝えることも可能である。
出力I/F211は、ビデオカメラ100が撮影した映像を外部機器へ出力したり、後述する雲台500の動作を制御する制御信号を出力したりするために用いられる。具体的には、出力I/F211は、外部機器とケーブルで接続する場合のケーブルインタフェース、および撮影した映像を可搬可能なメモリカード218に記録する場合のメモリカードインタフェース等である。出力I/F211を介して撮影した映像を出力することにより、撮影した映像をビデオカメラ100に備え付けのディスプレイ209よりも大きな外部のディスプレイを用いて視聴等することが可能となる。
圧縮伸張回路212は、撮影した映像および音声を、所定のデジタルデータ形式(符号化処理)にする。具体的には、圧縮伸張回路212は、撮影した映像データおよび音声データに対して、MPEG(Moving Picture Expoerts Group)またはH.264等の符号化処理を行い、所定のデータ方式に変換(圧縮)する。また、圧縮伸張回路212は、撮影したデータの再生時に、所定のデータ形式の映像データを伸張して、ディスプレイ209等に表示するデータ処理を行う。なお、圧縮伸張回路212は、静止画像についても、映像と同様に、圧縮伸張する機能を備えるものであっても良い。
ROM213は、CPU204が処理するソフトウェアのプログラムおよびプログラムを動作させるための各種データを記憶する。
RAM214は、CPU204が処理するソフトウェアのプログラム実行時に使用するメモリ領域等として使用される。また、圧縮伸張回路212と共用でこのRAM214を使用してもよい。
HDD215は、圧縮伸張回路212が符号化した映像データおよび静止画像データを蓄積等する目的で利用される。なお、記憶されるデータは、上記以外にも、後述する再生情報のデータ等を記憶することも可能である。また、本説明では、記憶媒体としてHDD215を代表の記憶媒体として説明しているが、これ以外にも半導体記憶素子を用いるものであっても良い。
音声ADC216は、ステレオマイク217から入力される音声を、アナログ電気信号からデジタル電気信号に変換処理する。
ステレオマイク217は、ビデオカメラ100外部の音声を電気信号に変換して出力する。
上記の通り、ビデオカメラ100のハードウェア構成を示したが、本発明では上記の構成に限定されるものではない。例えば、映像ADC202及び映像信号変換回路203等を単一の集積回路として実現することも可能であるし、CPU204が実行するソフトウェアプログラムの一部を別途、FPGA(Field Programmable Gate Array)を用いてハードウェアとして実現することも可能である。
[1-1-2.機能構成]
図3は、図1のビデオカメラ100の機能構成について説明する詳細な機能構成図である。
図3は、図1のビデオカメラ100の機能構成について説明する詳細な機能構成図である。
ビデオカメラ100は、図3に示すように、機能的な構成要素として、レンズ部300と、撮像部301と、映像AD変換部302と、映像信号処理部303と、映像信号圧縮部304と、撮像制御部305と、映像解析部306と、レンズ制御部307と、姿勢検出部308と、属性情報生成部309と、検出部310と、生成部311と、音声解析部312と、音声信号圧縮部313と、多重化部314と、記憶部315と、付与部316と、映像信号伸張部317と、表示部318と、音声信号伸張部319と、音声出力部320と、音声AD変換部321と、マイク部322と、外部入力部323と、出力部324とを備える。
レンズ部300は、被写体から入射した光の焦点距離およびズーム倍率(映像の拡大倍率)等を調整する。これらはレンズ制御部307からの制御により行われる。レンズ部300は、図2のレンズ群200に相当する。
撮像部301は、レンズ部300を透過した光を電気信号に変換する。撮像部301は、撮像制御部305の制御により、撮像素子上の任意の範囲のデータを出力する。また映像データ以外にも、3原色点の色度空間情報、白色の座標および3原色のうち少なくとも2つのゲイン情報、色温度情報、Δuv(デルタuv)、および、3原色または輝度信号のガンマ情報等の情報も出力することが可能である。これらの情報は、属性情報生成部309へ出力される。撮像部301は、図2の撮像素子201に相当する。
映像AD変換部302は、撮像部301からの電気信号を、所定の処理内容にしたがってアナログの電気信号からデジタルの電気信号に変換する。映像AD変換部302は、図2の映像ADC202に相当する。
映像信号処理部303は、映像AD変換部302から出力されたデジタル信号を、所定の映像信号フォーマットに変換する。例えば、NTSCで規定された水平線の数、走査線の数およびフレームレートに準拠した映像信号に変換する。映像信号処理部303は、図2の映像信号変換回路203に相当する。
映像信号圧縮部304は、映像信号処理部303によって処理されたデジタル信号に対して所定の符号化変換を行い、データ量を圧縮等する。具体的には、MPEG2、MPEG4、H.264等の符号化方式がある。映像信号圧縮部304は、図2の圧縮伸張回路212の圧縮機能に相当する。
撮像制御部305は、撮像部301の動作を制御する。具体的には、撮像制御部305は、撮像部301に対して、撮影時の露出量、撮影速度および感度等を制御する。また、これらの制御情報は、属性情報生成部309へも併せて出力される。撮像制御部305は、図2のCPU204で処理される制御アルゴリズムの一つによって実現される。
映像解析部306は、撮影された映像信号から映像の特徴を抽出する。
映像はオブジェクトおよび背景により構成されている。オブジェクトの例として、人やペットなどの動物、また、家具、生活用具、衣類、家屋、車、自転車、バイクなどがあげられる。映像の変化とは、映像内のオブジェクトまたは背景の変化であり、映像内で人やものの形状やテクスチャー(模様)や位置が変化したり、映像内で背景の形状やテクスチャーや位置が変化したりすることである。また、映像の特徴とは、映像に含まれるオブジェクトや背景の形状やテクスチャー(色を含んだ模様)、大きさなどの特徴、また、映像に含まれるオブジェクトや背景の時間的変化に関する特徴である。映像の変化の検出は、機器内の映像解析部306で検出するだけでなく、クラウドネットワーク上のサーバーでも検出することができる。
本実施の形態では、映像に含まれる輝度情報や色情報(例えば、映像の1画面を横32、縦18の合計576個のブロックに分割し、各ブロックに含まれる色や輝度の分布を算出する)、動きベクトル、ホワイトバランス、さらに映像に人物の顔が含まれている場合には、当該人物の顔検出を行う等、映像信号を解析することで、映像の特徴を抽出する。また、動きベクトルは、複数フレーム間での特徴量の差分を算出することで実現可能である。また、顔検出は、顔の特徴を表す特徴量の学習により、特徴量のパターンマッチング等により実現可能である。映像解析部306は、図2のCPU204でソフトウェア処理されるアルゴリズムの一つによって実現される。人物検出や物体検出も同様のパターン学習とパターンマッチングにより実現できる。
レンズ制御部307は、レンズ部300のズーム、フォーカスなどの動作を制御する。レンズ制御部307は、ズーム制御部307a、フォーカス制御部307b、及び手振れ補正制御部307c等を備える。
ズーム制御部307aは、レンズ部300のズームレンズを制御することで、被写体からの入射光を所望の拡大倍率にして撮像部301に入力させる。フォーカス制御部307bは、レンズ部300のフォーカスレンズを制御することで、被写体と撮像部301との焦点距離を設定する。手振れ補正制御部307cは、映像等の撮影時の該装置の揺れを抑制する。レンズ制御部307は、レンズ部300を制御するとともに、これらの制御情報を属性情報生成部309へ出力する。レンズ制御部307は、図2のレンズ制御モジュール206に相当する。
姿勢検出部308は、ビデオカメラ100の加速度、角速度、及び仰角・俯角等を検出する。姿勢検出部308は、加速度センサ308a、角速度センサ308b、及び仰角・俯角センサ308cを備える。これらのセンサは、ビデオカメラ100の姿勢及びその変化状況を検出する目的等に用いられる。加速度及び角速度については、垂直・水平(2方向)の3方向について検出できることが望ましい。姿勢検出部308は、図2の姿勢検出センサ207に相当する。
マイク部322は、周囲の音を電気信号に変換して音声信号として出力する。マイク部322は、図2のステレオマイク217に相当する。
音声AD変換部321は、マイク部322から入力されたアナログの電気信号をデジタルの電気信号に変換する。音声AD変換部321は、図2の音声ADC216に相当する。
音声解析部312は、デジタルの電気信号に変換された音声データから特徴のある音を抽出する。ここで特徴のある音とは、例えば、撮影者の声、特定の単語の発音、歓声、及び銃声等がある。これらの音は、これらの音(音声)が持つ特有の周波数を予め登録しておき、それとの比較結果で判別する方法等を用いることで、抽出が可能である。また、上記以外にも、音声解析部312は、マイク部322が捕捉した音の入力レベル等の特徴も検出する。音声解析部312は、図2のCPU204でソフトウェア処理されるアルゴリズムの一つによって実現される。
音声信号圧縮部313は、音声AD変換部321から出力された音声データを、所定の符号化アルゴリズムで変換する。符号化には、MP3(MPEG Audio Layer-3)及びAAC(Advanced Audio Coding)等の方法がある。音声信号圧縮部313は、図2の圧縮伸張回路212の圧縮機能の一つによって実現される。
多重化部314は、映像信号圧縮部304から出力される符号化映像データおよび音声信号圧縮部313から出力される符号化音声データを多重化して出力する。多重化部314は、図2のCPU204で実行されるソフトウェアであってもよいし、圧縮伸張回路212で、ハードウェア処理されるものであってもよい。
外部入力部323は、映像撮影時に外部から受信した各種の情報、例えば、撮影者によるボタン入力、または外部から通信経由で受信した撮影インデックス情報等を出力する。なお、撮影インデックス情報とは、例えば、映画撮影時における撮影場面を識別する番号または撮影回数を示す番号等、それぞれの撮影を識別するために用いられる識別番号などである。外部入力部323は、図2の入力ボタン208等に相当する。
属性情報生成部309は、所定の時間単位(例えば、2秒間)の映像領域に対し、映像並びに静止画像の撮影時における撮影情報、外部入力情報およびその他の情報を属性情報として生成する。属性情報に含まれる情報の一例として以下のような情報がある。
・ 焦点距離
・ ズーム倍率
・ 露出
・ 撮影速度(フレームレート、シャッタースピード)
・ 感度
・ 3原色点の色空間情報
・ ホワイトバランス
・ 3原色のうち少なくとも2つのゲイン情報
・ 色温度情報
・ Δuv(デルタuv)
・ 3原色または輝度信号のガンマ情報
・ 色分布
・ 動きベクトル
・ 人物(顔認識、顔による個人認証、人認識、歩き方やしぐさから個人の歩容認証)
・ カメラ姿勢(加速度、角速度、仰角・俯角、方位、GPSによる測位値等)
・ 撮影時刻(撮影開始時刻、終了時刻)
・ 撮影インデックス情報(たとえば、カメラの撮影モードのセットアップ値)
・ ユーザ入力
・ フレームレート
・ サンプリング周波数
・ 構図の変化量
属性情報には、上記の情報から算出した映像領域を特徴づける情報(撮影時の各種情報を組み合わせ、それらを分析等することで得られる情報)も含まれる。また、映像領域に対し、複数の属性情報が含まれている。なお、映像領域とは、期間と同義の時間的な領域のことである。
・ ズーム倍率
・ 露出
・ 撮影速度(フレームレート、シャッタースピード)
・ 感度
・ 3原色点の色空間情報
・ ホワイトバランス
・ 3原色のうち少なくとも2つのゲイン情報
・ 色温度情報
・ Δuv(デルタuv)
・ 3原色または輝度信号のガンマ情報
・ 色分布
・ 動きベクトル
・ 人物(顔認識、顔による個人認証、人認識、歩き方やしぐさから個人の歩容認証)
・ カメラ姿勢(加速度、角速度、仰角・俯角、方位、GPSによる測位値等)
・ 撮影時刻(撮影開始時刻、終了時刻)
・ 撮影インデックス情報(たとえば、カメラの撮影モードのセットアップ値)
・ ユーザ入力
・ フレームレート
・ サンプリング周波数
・ 構図の変化量
属性情報には、上記の情報から算出した映像領域を特徴づける情報(撮影時の各種情報を組み合わせ、それらを分析等することで得られる情報)も含まれる。また、映像領域に対し、複数の属性情報が含まれている。なお、映像領域とは、期間と同義の時間的な領域のことである。
具体的には、カメラ姿勢(加速度、角速度、仰角・俯角等)の情報からビデオカメラ100の撮影時におけるパン、チルト等のカメラワークの情報を得ることが可能となる。また、焦点距離およびズーム倍率の情報は、そのままでも属性情報として用いることが可能である。属性情報生成部309は、撮影時の各種情報から映像領域の評価に有用な情報を抽出、あるいは算出等して、顔や人物の位置情報、動体の位置情報、音の位置情報などの属性情報を生成する。
検出部310は、映像領域毎に、属性情報生成部309で生成された属性情報に基づいて、ダイジェスト再生に有用な映像特徴に関する属性情報を検出する。ダイジェスト再生に有用な映像特徴としては、ズームイン、ズームアウト、パン、チルトあるいは静止などのカメラワーク、顔検出や動きベクトルなどによる人物(動体)の有無、特定の色(例えば、指の色、手袋の色など)の有無、人の声などの音声、動きベクトルの大きさあるいは動きベクトルの変化量の大きさなどが挙げられる。属性情報生成部309および検出部310は、図2のCPU204でソフトウェア処理されるアルゴリズムの一つである。
生成部311は、撮影中の映像に同期して時間情報を生成する。生成部311によって生成される時間情報によって、撮影された映像の各映像領域において、時間的な位置を特定することが可能である。また、この時間情報に基づいて、属性情報生成部309は、撮像部301で撮像された映像を所定の時間単位の映像領域に区分し、各映像領域に対して属性情報を生成する。生成部311は、図2のクロック205に相当する。
付与部316は、検出部310によって検出された映像特徴を有する映像領域のうち、所定の映像特徴の評価値および/または変化値が所定の閾値よりも大きい映像領域に対し、映像特徴を有する映像領域であることを示すタグ情報を付与する。タグ情報は、ダイジェスト再生する際の目印となる。詳細は後述するが、図5に示すような所定の映像特徴の評価値に基づいて、各映像領域の評価値を算出し、評価値および/または変化値の高い映像領域に対し、タグ情報を付与する。ここで変化値とは、映像(動画像)を構成する少なくとも2フレームの画像(静止画像)の評価値の差分である。付与部316は、図2のCPU204で実行されるソフトウェア処理のアルゴリズムの一つである。
記憶部315は、映像領域毎に、多重化部314から出力された符号化映像データならびに符号化音声データ、生成部311から出力された時間情報および検出部310から出力された映像特徴に関する属性情報を関連付けて一時保持または長期保持する。加えて、付与部316から出力されたタグ情報も保持するとなおよい。記憶部315は、図2のHDD215、RAM214およびメモリカード218等に相当する。
出力部324は、撮像部301で撮影された映像のうち、付与部316によってタグ情報を付与された映像領域を優先的に出力する。ダイジェスト再生の機能は、ユーザの指示に基づいて実行されてもよく、自動的に実行されてもよい。
[1-2.動作]
[1-2-1.動作モード]
ユーザの指示による場合は、例えば、アクションの大きな映像を中心に出力するアクションモード(第1モード)と、ゆっくりとしたカメラワークを中心に出力するスタティックモード(第2モード)とを選択可能に構成してもよい。この場合、ユーザの指示に合わせて、タグ情報を付与する際に参照する所定の映像特徴に関する属性情報の評価値を変更することにより、モードを選択的に構成可能である。
[1-2-1.動作モード]
ユーザの指示による場合は、例えば、アクションの大きな映像を中心に出力するアクションモード(第1モード)と、ゆっくりとしたカメラワークを中心に出力するスタティックモード(第2モード)とを選択可能に構成してもよい。この場合、ユーザの指示に合わせて、タグ情報を付与する際に参照する所定の映像特徴に関する属性情報の評価値を変更することにより、モードを選択的に構成可能である。
アクションモードでは、出力部324は、スポーツの競技者からの視点や、突然起こるハプニング的な要因などによる撮影者の動きである、アクションが大きな映像を中心に出力することができる。一方、スタティックモードでは、出力部324は、特定の人物などのオブジェクトを追跡するようなゆっくりとしたカメラワークの映像を中心に出力することができる。
自動的にモードを選択して出力する場合は、例えば、付与部316において、撮影した映像全体について、アクションモードで評価した場合の属性情報の評価値とスタティックモードで評価した場合の属性情報の評価値とを比較し、高い評価値のばらつきが少ない方のモードを選択するアルゴリズム等を搭載することで実現可能である。
出力部324は、図2のCPU204で実行されるソフトウェア処理のアルゴリズムの一つである。
[1-2-2.アクションモード]
アクションモードについて、詳細に説明する。アクションモードは、撮影した映像を全て再生するのではなく、スポーツの競技者からの視点や撮影者のアクシデントといったアクションの大きな映像を中心に抽出して出力するモードである。
アクションモードについて、詳細に説明する。アクションモードは、撮影した映像を全て再生するのではなく、スポーツの競技者からの視点や撮影者のアクシデントといったアクションの大きな映像を中心に抽出して出力するモードである。
図4は、属性情報生成部309から出力される所定の映像特徴に関する属性情報の一例である。属性情報生成部309は、所定の時間単位の映像領域に含まれる、所定の映像特徴に関する属性情報を検出する。映像特徴等が複数ある場合には、複数の映像特徴に関する属性情報が各々検出される。
図4は、所定の時間単位が2秒間である場合、撮影開始から20秒間の映像が10個の映像領域(A)~(J)で構成され、各映像領域で属性情報が検出されていることを示す。また、映像領域(F)、(J)には、所定の映像特徴に関する映像情報が検出され、タグが付与されている。
上述の通り、検出部310は、属性情報生成部309で生成された属性情報に基づいて、ダイジェスト再生に有用なズームイン、ズームアウト、パン、チルトあるいは静止などのカメラワーク、顔検出や動きベクトルなどによる人物(動体)の有無、特定の色(例えば、指の色、手袋の色など)の有無、人の声などの音声、動きベクトルの大きさあるいは動きベクトルの変化量の大きさなどの所定の映像特徴に関する属性情報を検出する。アクションモードでは、動きベクトルの大きさあるいは動きベクトルの変化量の大きさが重要となる。図4においては、動きベクトルが大きい映像特徴に関する属性情報「動き(大)」が検出された映像領域(F)、(J)にタグが付与されている。
また、カメラワークの変化パターン、映像の変化パターンとそれらの組み合わせを検出して、予め登録しておいたカメラワークの変化パターン、映像の変化パターンと比較することにより、アクション検出をすることができる。たとえば、カメラワークの変化パターンや、映像の変化パターンは、評価数が多い方が精度向上できるが、その時点よりも過去の3~5個のパターンを比較することで、演算量が小さく実用的なアクション検出が実現できる。例えば、変化パターンの例として、(1)カメラワークが3秒間の静止状態、(2)1秒間の急な動き状態、(3)3秒間の静止状態といったパターンの変化を検出した場合、(2)がアクションとして検出される。さらに、この変化パターンの期間における映像や音声を解析し、予め決めておいた映像や音声のパターンと一致した場合のみにアクション判定が正しいという処理を追加することにより、アクション検出の精度を向上させることができる。
付与部316は、検出部310で検出された所定の映像特徴に関する属性情報を評価する。図5は、アクションモードでの所定の映像特徴に関する属性情報の評価値リストの一例である。図5に示すように、評価値リストは、属性情報とその評価値で構成されている。評価値は、着目する映像特徴には大きい評価値が与えられる。図5においては、動きベクトル(大)に最も大きい評価値100が付与されているので、動きに特徴がある映像領域を高く評価することが分かる。
付与部316は、評価値リストに基づいて、各映像領域を各映像領域で検出された属性情報の評価値を用いて評価する。複数の属性情報が検出されている場合は、基本的には、複数の属性情報のうちの最大の評価値で評価するが、複数の属性情報の評価値の総和で評価してもよく、複数の属性情報の評価値の平均値を用いてもよい。
付与部316は、評価された値が高い映像領域に対し、タグ情報を付与する。また、隣接する映像領域間で評価された値の変化が大きい2つの映像領域については、両映像領域に対し、タグ情報を付与する。
ダイジェスト再生する場合、出力部324は、タグ情報が付与された映像領域を優先的に出力する。このとき、出力部324は、タグ情報が付与された映像領域よりも所定の時間(例えば、3秒間)遡った時点から出力してもよい。具体的には、図4の(F)の映像領域にタグ情報が付与されている場合、T=10より3秒間遡ったT=7であるaの時点から出力する。
また、タグ情報が付与された映像領域よりも前の映像領域に人物に関する属性情報や人の声などの音声に関する属性情報がある場合には、出力部324は、人物または音声に関する属性情報を有する映像領域が始まる時点からを出力してもよい。具体的には、図4に示すように、タグ情報が付与されている映像領域(J)の1つ前の映像領域(I)が、人物および音声に関する属性情報を有するので、映像領域(I)の先頭のbの時点(T=16)から出力する。
これにより、突然アクションの大きな映像が出力されるのではなく、間を取ることができ、大きなアクションが発生する経緯なども視聴することができる。
[1-3.効果など]
実施の形態1のビデオカメラ100は、映像領域のうち、属性情報の評価値が所定の値よりも大きい映像領域、または時間的に連続する複数の映像領域のうち、属性情報の変化値が所定の値よりも大きい複数の映像領域を優先的に出力する第1モードと、映像領域のうち、人物、特定のカメラワーク、特定の音声または特定の色に関する映像特徴を有する属性情報と関連付けて記憶された映像領域を優先的に出力する第2モードとを有する。付与部316は選択されたモードにおいて、優先して出力する映像領域にタグ情報を付与する。
実施の形態1のビデオカメラ100は、映像領域のうち、属性情報の評価値が所定の値よりも大きい映像領域、または時間的に連続する複数の映像領域のうち、属性情報の変化値が所定の値よりも大きい複数の映像領域を優先的に出力する第1モードと、映像領域のうち、人物、特定のカメラワーク、特定の音声または特定の色に関する映像特徴を有する属性情報と関連付けて記憶された映像領域を優先的に出力する第2モードとを有する。付与部316は選択されたモードにおいて、優先して出力する映像領域にタグ情報を付与する。
これにより、例えば、アクションの大きな映像を中心に出力するアクションモード(第1モード)と、ゆっくりとしたカメラワークを中心に出力するスタティックモード(第2モード)とを選択可能に構成することができる。また、出力部324は映像を出力する時に、タグ情報を付与された映像領域を優先的に出力する。
従って、映像特徴のある映像領域を優先して出力することができる。すなわち、動的な映像のダイジェスト再生が可能となる。
また、出力部324は、優先的に出力する映像領域が始まる時間的な位置よりも所定の時間遡った時間情報を有する映像領域から出力する。
また、出力部324は、優先的に出力する映像領域が始まる時間的な位置より前に、人物または音声に関する映像特徴を有する映像領域がある場合、当該人物または音声に関する映像特徴を有する映像が始まる映像領域から出力する。
これにより、突然アクションの大きな映像が出力されるのではなく、間を取ることができる。また、大きなアクションが発生する経緯なども視聴することができる。
(実施の形態2)
[2-1.動作]
本実施形態では、姿勢検出部308からの姿勢情報も活用したアクションモードの機能について説明する。本実施の形態のビデオカメラ1の構成は実施の形態1と同様であり、実施形態1と重複する部分は説明を省略する。
[2-1.動作]
本実施形態では、姿勢検出部308からの姿勢情報も活用したアクションモードの機能について説明する。本実施の形態のビデオカメラ1の構成は実施の形態1と同様であり、実施形態1と重複する部分は説明を省略する。
検出部310は、属性情報生成部309で生成された属性情報に基づいて、ズームイン、ズームアウト、パン、チルトあるいは静止などのカメラワーク、顔検出や動きベクトルなどによる人物(動体)の有無、特定の色(例えば、指の色、手袋の色など)の有無、人の声などの音声、動きベクトルの大きさあるいは動きベクトルの変化量の大きさ、に加え、水平姿勢を基準としたときの仰角・俯角の大きさ、仰角・俯角の変化量の大きさあるいは加速度・角速度の大きさなどの所定の映像特徴に関する属性情報を検出する。付与部316では、検出部310で検出された属性情報を評価する。
図6は、姿勢情報も加えたアクションモードにおける所定の映像特徴に関する属性情報の評価値リストの一例である。図6において、例えば、加速度(大)~仰角(小)が姿勢情報において、所定の映像特徴に関する属性情報である。
付与部316は、実施の形態1と同様の評価を行い、評価された値が高い映像領域に対し、タグ情報を付与する。また、映像領域間での変化が大きい2つの映像領域については、両映像領域に対し、タグ情報を付与する。
ダイジェスト再生する場合、出力部324は、タグ情報が付与された映像領域を優先的に出力する。このとき、実施形態1と同様に、出力部324は、タグ情報が付与された映像領域よりも所定の時間遡った時点から出力してもよい。また、タグ情報が付与された映像領域よりも前の映像領域に人物に関する属性情報や人の声などの音声に関する属性情報がある場合には、出力部324は、人物または音声に関する属性情報を有する映像領域が始まる時点から出力してもよい。
これにより、突然アクションの大きな映像が出力されるのではなく、間を取ることができ、撮影者のアクシデントの経緯なども確認することができる。
[2-2.効果など]
実施の形態2のビデオカメラ100において、所定の映像特徴は自装置の姿勢情報を含み、付与部316は、映像領域のうち、所定の姿勢情報に関する属性情報の評価値が所定の値よりも大きい映像領域、または所定の姿勢情報に関する属性情報の変化値が所定の値よりも大きい映像領域に対して、情報を付与する。
実施の形態2のビデオカメラ100において、所定の映像特徴は自装置の姿勢情報を含み、付与部316は、映像領域のうち、所定の姿勢情報に関する属性情報の評価値が所定の値よりも大きい映像領域、または所定の姿勢情報に関する属性情報の変化値が所定の値よりも大きい映像領域に対して、情報を付与する。
これにより、ビデオカメラ100の姿勢情報を用いて、動きが大きな映像領域の検出が可能となる。
従って、動的な映像のダイジェスト再生が可能となる。
(その他の実施形態)
以上のように、本出願において開示する技術の例示として、実施形態1~2を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施形態1~2で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
以上のように、本出願において開示する技術の例示として、実施形態1~2を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施形態1~2で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
そこで、以下、他の実施の形態を例示する。
(A)上述の実施形態では、手持ちタイプのビデオカメラ100を用いて説明したが、これに限定されるものではなく、装着タイプの、所謂ウェアラブルカメラにも適用可能である。
(B)上述の実施形態では、アクションモードにおける映像特徴の評価値リストの一例を示したが、スタティックモードでは、図7に示すような評価値リストを用いるとよい。図7は、評価値リストに人物が含まれ、人物の評価値は他の映像特徴の中で高い評価値が設定されている。これにより、特定の人物を追跡するようなゆっくりとしたカメラワークの映像を中心に出力することができる。また、他のモードに合わせた評価値リストをさらに保持してもよい。
(C)映像領域と時間情報と属性情報とタグ情報とを紐付けた情報を、映像の検索に用いてもよい。この時、紐付けた情報をネットワーク経由で、別の機器に出力してもよい。
(D)上述の実施形態では、属性情報をダイジェスト再生のための映像領域の抽出のために用いたが、別の用途に用いてもよい。例えば、カメラに適用し、映像に動きがない場合に、シャッターを切るとしてもよい。この場合、動きのない映像領域にタグ情報を付与することで実現できる。
以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲、またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
本開示は、スポーツの競技者からの視点映像を撮影可能なウェアラブルカメラや、一般的なビデオカメラでもアクションの大きな映像を中心に出力する際に適用できる。
100 ビデオカメラ
200 レンズ群
201 撮像素子
202 映像ADC
203 映像信号変換回路
204 CPU
205 クロック
206 レンズ制御モジュール
206a レンズ制御用モータ
206b レンズ位置センサ
207 姿勢検出センサ
207a 加速度センサ
207b 角速度センサ
207c 仰角・俯角センサ
208 入力ボタン
209 ディスプレイ
210 スピーカー
211 出力I/F
212 圧縮伸張回路
213 ROM
214 RAM
215 HDD
216 音声ADC
217 ステレオマイク
300 レンズ部
301 撮像部
302 映像AD変換部
303 映像信号処理部
304 映像信号圧縮部
305 撮像制御部
306 映像解析部
307 レンズ制御部
307a ズーム制御部
307b フォーカス制御部
307c 手振れ補正制御部
308 姿勢検出部
308a 加速度センサ
308b 角速度センサ
308c 仰角・俯角センサ
309 属性情報生成部
310 検出部
311 生成部
312 音声解析部
313 音声信号圧縮部
314 多重化部
315 記憶部
316 付与部
317 映像信号伸張部
318 表示部
319 音声信号伸張部
320 音声出力部
321 音声AD変換部
322 マイク部
323 外部入力部
324 出力部
200 レンズ群
201 撮像素子
202 映像ADC
203 映像信号変換回路
204 CPU
205 クロック
206 レンズ制御モジュール
206a レンズ制御用モータ
206b レンズ位置センサ
207 姿勢検出センサ
207a 加速度センサ
207b 角速度センサ
207c 仰角・俯角センサ
208 入力ボタン
209 ディスプレイ
210 スピーカー
211 出力I/F
212 圧縮伸張回路
213 ROM
214 RAM
215 HDD
216 音声ADC
217 ステレオマイク
300 レンズ部
301 撮像部
302 映像AD変換部
303 映像信号処理部
304 映像信号圧縮部
305 撮像制御部
306 映像解析部
307 レンズ制御部
307a ズーム制御部
307b フォーカス制御部
307c 手振れ補正制御部
308 姿勢検出部
308a 加速度センサ
308b 角速度センサ
308c 仰角・俯角センサ
309 属性情報生成部
310 検出部
311 生成部
312 音声解析部
313 音声信号圧縮部
314 多重化部
315 記憶部
316 付与部
317 映像信号伸張部
318 表示部
319 音声信号伸張部
320 音声出力部
321 音声AD変換部
322 マイク部
323 外部入力部
324 出力部
Claims (7)
- 撮影部と、
前記撮影部で撮影された映像における時間的な位置を特定可能な時間情報を生成する生成部と、
前記時間情報に基づいて、前記撮影部で撮影された映像を所定の時間単位の映像領域に区分し、前記映像領域毎に、自装置の姿勢情報を含む所定の映像特徴に関する属性情報を検出する検出部と、
前記映像領域毎に、前記属性情報と、前記時間情報を関連づけて記憶する記憶部と、
前記映像領域のうち、前記所定の姿勢情報に関する属性情報の評価値が所定の値よりも大きい映像領域、または前記所定の姿勢情報に関する属性情報の変化値が所定の値よりも大きい映像領域に対して、映像特徴を有する映像領域であることを示すタグ情報を付与する付与部と、
を備えた映像撮像装置。 - 撮影部と、
前記撮影部で撮影された映像における時間的な位置を特定可能な時間情報を生成する生成部と、
前記時間情報に基づいて、前記撮影部で撮影された映像を所定の時間単位の映像領域に区分し、前記映像領域毎に所定の映像特徴に関する属性情報を検出する検出部と、
前記映像領域毎に、前記属性情報と、前記時間情報を関連づけて記憶する記憶部と、
前記映像領域のうち、前記属性情報の評価値が所定の値よりも大きい映像領域、または時間的に連続する複数の映像領域のうち、前記属性情報の変化値が所定の値よりも大きい複数の映像領域に、映像特徴を有する映像領域であることを示すタグ情報を付与する第1モードと、
前記映像領域のうち、人物、特定のカメラワーク、特定の音声または特定の色に関する映像特徴を有する属性情報と関連付けて記憶された映像領域に前記タグ情報を付与する第2モードとを有する付与部と
を備えた映像撮像装置。 - 前記付与部は、前記映像領域のうち、前記属性情報の評価値が所定の値よりも大きい映像領域、または時間的に連続する複数の映像領域のうち、前記属性情報の変化値が所定の値よりも大きい複数の映像領域に、前記タグ情報を付与する請求項1記載の映像撮像装置。
- 前記付与部は、前記第1モードで前記所定の映像特徴を評価した評価値と、前記第2モードで前記映像特徴を評価した評価値とを比較して、高い評価値のばらつきが少ない方のモードを選択して、前記タグ情報を付与する請求項2記載の映像撮像装置。
- 前記撮影部で撮影された映像を出力する時、前記タグ情報が付与された映像領域を優先的に出力する出力部を備えた請求項1ないし4記載の映像撮像装置。
- 前記出力部は、前記優先的に出力する映像領域が始まる時間的な位置よりも所定の時間遡った時間情報を有する映像領域から出力する請求項5記載の映像撮像装置。
- 前記出力部は、前記優先的に出力する映像領域が始まる時間的な位置より前に、人物または音声に関する映像特徴を有する映像領域がある場合、当該人物または音声に関する映像特徴を有する映像が始まる映像領域から出力する請求項5記載の映像撮像装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015556647A JPWO2015104780A1 (ja) | 2014-01-07 | 2014-12-25 | 映像撮像装置 |
US15/049,746 US20160172004A1 (en) | 2014-01-07 | 2016-02-22 | Video capturing apparatus |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014000736 | 2014-01-07 | ||
JP2014-000736 | 2014-01-07 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US15/049,746 Continuation US20160172004A1 (en) | 2014-01-07 | 2016-02-22 | Video capturing apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2015104780A1 true WO2015104780A1 (ja) | 2015-07-16 |
Family
ID=53523637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2014/006452 WO2015104780A1 (ja) | 2014-01-07 | 2014-12-25 | 映像撮像装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20160172004A1 (ja) |
JP (1) | JPWO2015104780A1 (ja) |
WO (1) | WO2015104780A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10757358B1 (en) * | 2019-06-05 | 2020-08-25 | Primesensor Technology Inc. | Photographing device having two output interfaces |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003274366A (ja) * | 2002-03-12 | 2003-09-26 | Canon Inc | 画像処理装置、画像処理方法、プログラム及び記録媒体 |
JP2005318278A (ja) * | 2004-04-28 | 2005-11-10 | Fuji Photo Film Co Ltd | 撮影装置及び撮影装置の画像再生方法 |
WO2011099299A1 (ja) * | 2010-02-10 | 2011-08-18 | パナソニック株式会社 | 映像抽出装置、撮影装置、プログラム及び記録媒体 |
JP2012244562A (ja) * | 2011-05-24 | 2012-12-10 | Nikon Corp | デジタルカメラ |
JP2013197995A (ja) * | 2012-03-21 | 2013-09-30 | Casio Comput Co Ltd | 動画撮影装置、動画撮影方法、及び、プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1067800A4 (en) * | 1999-01-29 | 2005-07-27 | Sony Corp | METHOD FOR PROCESSING SIGNALS AND DEVICE FOR PROCESSING VIDEO / VOCAL SIGNALS |
US8489600B2 (en) * | 2010-02-23 | 2013-07-16 | Nokia Corporation | Method and apparatus for segmenting and summarizing media content |
US20140081968A1 (en) * | 2012-09-19 | 2014-03-20 | Deep River Ventures, Llc | Methods, Systems, and Program Products for Automatically Managing Tagging of a Resource |
US20150009363A1 (en) * | 2013-07-08 | 2015-01-08 | Htc Corporation | Video tagging method |
-
2014
- 2014-12-25 WO PCT/JP2014/006452 patent/WO2015104780A1/ja active Application Filing
- 2014-12-25 JP JP2015556647A patent/JPWO2015104780A1/ja not_active Withdrawn
-
2016
- 2016-02-22 US US15/049,746 patent/US20160172004A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003274366A (ja) * | 2002-03-12 | 2003-09-26 | Canon Inc | 画像処理装置、画像処理方法、プログラム及び記録媒体 |
JP2005318278A (ja) * | 2004-04-28 | 2005-11-10 | Fuji Photo Film Co Ltd | 撮影装置及び撮影装置の画像再生方法 |
WO2011099299A1 (ja) * | 2010-02-10 | 2011-08-18 | パナソニック株式会社 | 映像抽出装置、撮影装置、プログラム及び記録媒体 |
JP2012244562A (ja) * | 2011-05-24 | 2012-12-10 | Nikon Corp | デジタルカメラ |
JP2013197995A (ja) * | 2012-03-21 | 2013-09-30 | Casio Comput Co Ltd | 動画撮影装置、動画撮影方法、及び、プログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2015104780A1 (ja) | 2017-03-23 |
US20160172004A1 (en) | 2016-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7396341B2 (ja) | 映像音響処理装置および方法、並びにプログラム | |
JP5685732B2 (ja) | 映像抽出装置、プログラム及び記録媒体 | |
JP5456023B2 (ja) | 画像撮影装置、画像撮影方法、プログラム、及び集積回路 | |
WO2015098110A1 (ja) | 撮像装置、撮像システムおよび撮像方法 | |
JP5837922B2 (ja) | カメラ位置に基づくキービデオフレームのランク付け | |
JP2008109336A (ja) | 画像処理装置および撮像装置 | |
KR20150141059A (ko) | 동영상의 썸네일 영상을 제공하는 장치 및 방법 | |
TWI477887B (zh) | 影像處理裝置、影像處理方法及記錄媒體 | |
JP5655668B2 (ja) | 撮像装置、画像処理方法及びプログラム | |
KR101665175B1 (ko) | 화상 취득 장치, 화상 취득 방법 및 기록매체 | |
JP2010245856A (ja) | 映像編集装置 | |
JP2012151544A (ja) | 撮像装置及びプログラム | |
JP6295442B2 (ja) | 画像生成装置、撮影装置、画像生成方法及びプログラム | |
WO2015104780A1 (ja) | 映像撮像装置 | |
JP2011119936A (ja) | 撮影装置及び再生方法 | |
JP6314321B2 (ja) | 画像生成装置、撮影装置、画像生成方法及びプログラム | |
JP2011119934A (ja) | 画像撮影装置及び画像撮影方法 | |
JP5712599B2 (ja) | 撮像装置及びプログラム | |
JP2011101161A (ja) | 撮像装置、その制御方法、再生装置およびプログラム | |
JP6295443B2 (ja) | 画像生成装置、撮影装置、画像生成方法及びプログラム | |
JP2014072642A (ja) | 動画像データ処理システム、動画像データ送信装置、及び動画像データ受信装置 | |
JP2010263611A (ja) | 映像撮影装置 | |
KR20150034931A (ko) | 이미지 촬영 장치 및 방법 | |
JP2009302665A (ja) | 撮像装置および撮像装置用プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 14878238 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2015556647 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 14878238 Country of ref document: EP Kind code of ref document: A1 |