WO2010086912A1 - 記録装置及び記録方法 - Google Patents

記録装置及び記録方法 Download PDF

Info

Publication number
WO2010086912A1
WO2010086912A1 PCT/JP2009/003099 JP2009003099W WO2010086912A1 WO 2010086912 A1 WO2010086912 A1 WO 2010086912A1 JP 2009003099 W JP2009003099 W JP 2009003099W WO 2010086912 A1 WO2010086912 A1 WO 2010086912A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
recording
data
frame rate
moving image
Prior art date
Application number
PCT/JP2009/003099
Other languages
English (en)
French (fr)
Inventor
加藤大作
Original Assignee
日本ビクター株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本ビクター株式会社 filed Critical 日本ビクター株式会社
Publication of WO2010086912A1 publication Critical patent/WO2010086912A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • H04N5/772Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/782Television signal recording using magnetic recording on tape
    • H04N5/783Adaptations for reproducing at a rate different from the recording rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • H04N9/8063Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals

Definitions

  • the present invention relates to a recording apparatus and a recording method for recording moving image data and sound data on a recording medium.
  • moving picture data is higher than a conventional frame rate of 60 frames per second (hereinafter also referred to as “first frame rate”), for example, a frame rate of 300 frames per second (hereinafter also referred to as “second frame rate”).
  • first frame rate a conventional frame rate of 60 frames per second
  • second frame rate a frame rate of 300 frames per second
  • recording devices such as video cameras and digital cameras that record on a recording medium have been commercialized.
  • a recording apparatus of the present invention includes a moving image recording control unit that records moving image data acquired at a second frame rate higher than the first frame rate on a recording medium, The sound data acquired corresponding to the moving image data at the first frame rate is converted into time using a predetermined speech rate conversion technique based on a ratio of the second frame rate to the first frame rate.
  • a sound recording control unit that extends on the shaft and records the information on the recording medium.
  • the recording method of the present invention corresponds to the moving image recording control step of recording moving image data acquired at a second frame rate higher than the first frame rate on a recording medium, and the moving image data at the first frame rate. Recording the sound data acquired on the recording medium by extending the sound data on the time axis using a predetermined speech speed conversion technique based on the ratio of the second frame rate to the first frame rate Control steps.
  • the present invention it is possible to provide a recording technique in which sound is effectively reproduced even in slow motion reproduction.
  • FIG. 3 is a functional block diagram illustrating a configuration of a video camera according to Embodiment 1.
  • FIG. It is a flowchart which shows each step of the operation
  • FIG. 10 is a diagram for describing an operation of generating a stream by multiplexing moving image data and sound data in the third embodiment.
  • FIG. 20 is a diagram for describing an operation of generating a stream by multiplexing moving image data and sound data in the fourth embodiment. It is a figure for demonstrating the priority at the time of reproduction
  • FIG. 1 is a functional block diagram showing the configuration of the video camera 100 according to the first embodiment.
  • the video camera 100 includes a recording device 101 that performs recording processing of moving image data and sound data, and a reproducing device 102 that performs reproduction processing of moving image data and sound data.
  • the recording apparatus 101 includes an optical unit 1, an imaging unit 2, a moving image A / D conversion unit 3, a data management unit 4, a first Random Access Memory (RAM) 5, a signal switching unit 6, and a microphone. 7, a sound A / D converter 8, a recording / playback controller 9, a second RAM 10, and a recording medium 11.
  • an optical unit 1 an imaging unit 2, a moving image A / D conversion unit 3, a data management unit 4, a first Random Access Memory (RAM) 5, a signal switching unit 6, and a microphone.
  • RAM Random Access Memory
  • the recording apparatus 101 includes an optical unit 1, an imaging unit 2, a moving image A / D conversion unit 3, a data management unit 4, a first Random Access Memory (RAM) 5, a signal switching unit 6, and a microphone. 7, a sound A / D converter 8, a recording / playback controller 9, a second RAM 10, and a recording medium 11.
  • RAM Random Access Memory
  • the optical unit 1 is a unit that collects light
  • the imaging unit 2 is a unit that converts light into an electrical signal
  • the A / D conversion unit 3 for moving images is a unit that converts an analog signal into a digital signal.
  • the data management unit 4 is a unit for managing data obtained by the moving image A / D conversion unit 3
  • the first RAM 5 is a unit for holding data
  • the signal switching unit 6 is a unit for controlling the destination of data. It is.
  • the microphone 7 is means for collecting sound and converting it into an electrical signal
  • the sound A / D converter 8 is means for converting an analog signal into a digital signal.
  • the recording / reproducing control unit 9 is means for controlling data recording and reproduction
  • the second RAM 10 is means for holding data
  • the recording medium 11 is means for recording data.
  • the playback device 102 includes a signal switching unit 6, a recording / playback control unit 9, a recording medium 11, a moving image D / A conversion unit 12, a display unit 13, a sound D / A conversion unit 14, and a speaker 15. And have.
  • the signal switching unit 6, the recording / reproducing control unit 9, and the recording medium 11 are the means described above, and are included in the recording device 101 and the reproducing device 102.
  • the moving image D / A conversion unit 12 is a unit that converts a digital signal into an analog signal
  • the display unit 13 is a unit that displays an image.
  • the sound D / A converter 14 is a means for converting a digital signal into an analog signal
  • the speaker 15 is a means for outputting sound.
  • the video camera 100 also includes an operation unit 16 that is operated by a user and receives an instruction from the user.
  • the operation of the video camera 100 of Embodiment 1 will be described. Since the operation of the video camera 100 includes an operation of recording moving image data and sound data and an operation of reproducing the recorded moving image data and sound data, these operations will be described in order.
  • FIG. 2 is a flowchart showing each step of the operation when the video camera 100 records moving image data.
  • the optical unit 1 collects the light that is the source of the image to generate an optical image of the subject, and the imaging unit 2 converts the generated optical image into an electrical signal.
  • the moving image A / D conversion unit 3 converts the analog signal obtained by the imaging unit 2 into a digital signal, thereby generating digital moving image data (S1).
  • the data management unit 4 displays the moving image data obtained by the moving image A / D conversion unit 3. Is output to the signal switching unit 6.
  • the signal switching unit 6 outputs the moving image data from the data management unit 4 to the recording / playback control unit 9.
  • the recording / playback control unit 9 records the moving image data from the signal switching unit 6 on the recording medium 11 at a normal frame rate.
  • the recording target image is a high-definition image
  • the data of the recording target image is recorded on the recording medium 11 at a resolution of 1920 pixels ⁇ 1080 pixels and a frame rate of 60 fps.
  • the signal switching unit 6 sends data of 60 images per second to the recording / reproducing control unit 9.
  • CMOS complementary metal oxide semiconductor
  • the user can instruct the operation unit 16 to record moving image data at a frame rate that is five times the normal rate, for example, at 300 fps.
  • the signal switching unit 6 sends the moving image data to the recording / playback control unit 9 at a speed five times that of 60 fps, and transmission corresponding to the speed. Bandwidth is required.
  • Embodiment 1 when the moving image data is processed by the recording / playback control unit 9 at a frame rate of 300 fps, the data management unit 4 The moving image data generated by the / D conversion unit 3 is temporarily stored in the first RAM 5. After the storage process is completed, the data management unit 4 sends the moving image data temporarily stored in the first RAM 5 to the recording / playback control unit 9 via the signal switching unit 6. The recording / reproducing control unit 9 records the moving image data from the signal switching unit 6, that is, the temporarily accumulated moving image data on the recording medium 11.
  • the time during which a moving image can be shot at 300 fps is limited by the capacity of the first RAM 5.
  • 60 fps is an example of the first frame rate
  • 300 fps is an example of the second frame rate.
  • moving image data is recorded on the recording medium 11 at the second frame rate of 300 fps.
  • the data management unit 4 stores the moving image data generated at 300 fps by the imaging unit 2 and the moving image A / D conversion unit 3 up to 4 times. Temporarily accumulates in the first RAM 5 for up to a second (S2). Thereafter, the data management unit 4 sends the moving image data temporarily stored in the first RAM 5 to the recording / reproduction control unit 9 at 60 fps via the signal switching unit 6. Since the moving image data is sent to the recording / playback control unit 9 at 60 fps, the recording / playback control unit 9 processes the moving image data temporarily stored in the first RAM 5 at 60 fps, which is the same as in normal shooting.
  • the data management unit 4 resizes the image of 720 pixels ⁇ 480 pixels, and then adds a black frame around the image, thereby 1920 An image of pixels ⁇ 1080 pixels is generated, and moving image data corresponding to the generated image is sent to the recording / playback control unit 9.
  • the resized image is an image of 1440 pixels ⁇ 960 pixels, and each image of the moving image data sent to the recording / playback control unit 9 is 1440 pixels ⁇ 960.
  • An image of 1920 ⁇ 1080 pixels with a black frame around the pixel image is obtained.
  • the moving image data temporarily stored in the first RAM 5 at a speed of 300 fps is sent to the recording / playback control unit 9 at a speed of 60 fps after the temporary storage process is completed.
  • a high-definition image is compressed by the video encoder in the Advanced Video Code High Definition (AVCHD) format to generate a video stream (S3).
  • AVCHD Advanced Video Code High Definition
  • the recording / playback control unit 9 includes a moving image encoder and a moving image decoder that can compress high-definition images in the AVCHD format.
  • the video decoder operates during playback.
  • the recording / playback control unit 9 acquires the moving image data from the recording medium 11 and reproduces it, the moving image D / A conversion unit 12 converts the reproduced digital moving image data into analog moving image data, and the display unit 13 Then, an image based on the analog moving image data generated by the moving image D / A converter 12 is displayed.
  • the moving image data shot at 300 fps is five times longer than 60 fps in time, it takes five times the shooting time to encode and record the data on the recording medium 11. Then, when the recorded stream is reproduced at a normal speed of 60 fps, a 1 / 5-times slow motion video is reproduced.
  • FIG. 2 is also a flowchart showing each step of the operation when the video camera 100 records sound data.
  • the microphone 7 collects sound and converts it into an electric signal, and the sound A / D converter 8 converts the analog electric signal into a digital electric signal, thereby generating digital sound data (S4).
  • the sound A / D conversion unit 8 sends the generated sound data to the recording / playback control unit 9.
  • the sound A / D converter 8 samples the sound at 48 KHz, which is the same as when the moving image is recorded at the normal recording speed of 60 fps, even during the period when the moving image is captured at 300 fps.
  • the recording / playback control unit 9 temporarily stores the sound data generated by the sound A / D conversion unit 8 in the second RAM 10 (S5).
  • the recording / reproducing control unit 9 temporarily stores the moving image data generated at 300 fps by the imaging unit 2 and the moving image A / D conversion unit 3 in the first RAM 5 for a maximum of 4 seconds, Are obtained from the RAM 10 and processed (S6), and a sound stream is generated.
  • the recording / playback control unit 9 extends the sound data five times on the time axis.
  • the sound data is simply copied four times for each sample and the data amount is increased by five times, the sound data is extended by five times on the time axis. Is reduced to 1/5, and it is difficult to put it into practical use in terms of hearing.
  • the recording / playback control unit 9 generates sound data corresponding to the moving image data having the first frame rate of 60 fps for each predetermined unit based on the ratio of the second frame rate of 300 fps to the first frame rate.
  • the sound data is processed a plurality of times (S6).
  • the recording / playback control unit 9 performs encoding for converting the processed sound data into a sound stream (S7), multiplexes the moving image stream and the sound stream (S8), and records the multiplexed stream on the recording medium 11. (S9).
  • the recording / playback control unit 9 repeats the sound data for each predetermined unit, the number of times obtained by dividing the second frame rate by the first frame rate.
  • the recording / playback control unit 9 repeats the sound data five times for each predetermined unit. Details of the process in which the recording / playback control unit 9 repeats sound data of a predetermined unit will be described later with reference to FIG.
  • the recording / playback control unit 9 may, for example, use a known speech speed conversion technique or sound playback speed conversion in order to make the pitch almost the same as the case where the sound data is not stretched even if it is stretched five times. Use technology.
  • FIG. 3 is a diagram illustrating a method of extending the Linear Pulse Code Modulation (LPCM) data acquired by the microphone 7 at a sampling rate of 48 KHz and 16-bit sampling by 5 times.
  • LPCM Linear Pulse Code Modulation
  • LPCM is one of the methods for converting an analog signal such as sound into a digital signal, and is a method in which data is not compressed. That is, LPCM data is uncompressed data.
  • 3 shows the case where the sound data is only one channel for simplification of explanation, the method shown in FIG. 3 is a case where the sound data is data of a plurality of channels such as stereo. But it is applicable.
  • FIG. 3A shows LPCM data acquired by the microphone 7 and the sound A / D converter 8 at a sampling rate of 48 KHz and 16-bit sampling.
  • FIG. 3B shows 800 samples, which are unit data taken out by the recording / playback control unit 9 from the beginning of the LPCM data in FIG.
  • FIG. 3C shows data in which 800 samples of FIG. 3B are copied by the recording / playback control unit 9, and then the leading portion of the 800 samples is faded in and the trailing portion is faded out.
  • the recording / reproducing control unit 9 performs a fade-in process based on the following equation (1).
  • Output Input ⁇ x / w (1)
  • Output is the result
  • Input is the original data
  • x is the position of the sample
  • w is the number of samples to be faded in (in this case, 100).
  • the position x of the sample at which the fade-in process is started is “0”.
  • the recording / playback control unit 9 performs a fade-out process based on the following equation (2).
  • Output Input ⁇ (100 ⁇ x) / w (2)
  • Input is the result
  • Input is the original data
  • x is the position of the sample
  • w is the number of samples to be faded in (in this case, 100). Note that the position x of the sample at which the fade-out process starts is “0”.
  • FIG. 3D the data in which the head portion shown in FIG. 3C is faded in and the tail portion is faded out is added five times while being recorded 100 samples at a time by the recording / playback controller 9. The state is shown. Thereby, the recording / reproducing control unit 9 generates LPCM data obtained by extending the original data by five times.
  • FIG. 3E shows LPCM data obtained by extending the original data by 5 times by the recording / playback control unit 9.
  • a portion surrounded by an ellipse is a portion where the fade-in processed data is added to the fade-out processed data.
  • the recording / playback control unit 9 connects 700 units of the unit data immediately before the start of connection (see FIG. 3A) when connecting the extended unit data to the next unit data. Start the concatenation process from the advanced position.
  • the recording / playback control unit 9 extends LPCM data while preventing the generation of impulse noise, and generates sound data that is played back slowly without changing the pitch during playback.
  • the way the sound is heard varies greatly depending on how the number of unit data samples to be processed for fade-in and fade-out shown in FIG. 3B is selected. For example, in the case of a sound of “good morning”, if the number of unit data samples is small, it sounds like “Oh, oh, hahahaha...” and there are many unit data samples. , “Good morning, good morning, good morning.” The number of unit data samples depends on the sampling rate, but when the sampling rate is 48 kHz, the number of unit data samples seems to be about 800 samples.
  • the processing of the sound data that extends the sound data on the time axis is not limited to the example described with reference to FIG.
  • the target sound is not limited to a human conversation, it is inappropriate to perform a process of detecting a silent section and filling it in time.
  • the recording / reproducing control unit 9 acquires sound data from the recording medium 11 and reproduces the sound data at a normal speed corresponding to 60 fps, which is a normal frame rate (first frame rate), and the sound D / A conversion unit 14 Converts the reproduced digital sound data into analog sound data, and the speaker 15 outputs a sound based on the sound data obtained by the sound D / A converter 14.
  • the recording / playback control unit 9 performs a process of extending the sound data before recording the sound data on the recording medium 11 (see S6 in FIG. 2 and FIG. 3).
  • the recording / playback control unit 9 plays back moving image data recorded on the recording medium 11 at a high-speed second frame rate of 300 fps at a normal frame rate (first frame rate) of 60 fps, 1
  • a smooth slow-motion image with a speed of 5 times is played, and at the same time, a sound with a sense of presence that does not change the pitch so much.
  • the recording / playback control unit 9 performs a process of extending the sound data before recording the sound data on the recording medium 11, a special device for playing back the sound data is not required.
  • the stream recorded on the recording medium 11 is not different from that normally recorded as a format, and the reproducing apparatus can reproduce the stream recorded on the recording medium 11 in the same manner as the normally recorded stream.
  • the realistic sound of slow motion video is played back in slow motion.
  • the sound data to be processed is once sent to the recording / playback control unit 9 at the time of shooting an image and temporarily stored in the second RAM 10.
  • the sound data to be processed is Is stored in the first RAM 5 together with the moving image data when the image is taken. That is, the sound data to be processed is temporarily stored in the second RAM 10 before being processed by the recording / playback control unit 9 in the first embodiment, but in the second embodiment, the recording / playback control unit 9 is used. Is temporarily stored in the first RAM 5 before being processed. This is the difference between the first embodiment and the second embodiment.
  • FIG. 4 is a diagram for explaining an operation of generating a stream by multiplexing moving image data and sound data in the third embodiment. If the encoder is compatible with high-definition (HD), it is possible to sufficiently encode SD data at 5 ⁇ speed. Further, the encoder according to the third embodiment can process data at a double speed of 120 fps or a quadruple speed of 240 fps if the speed is 5 times or less.
  • HD high-definition
  • the imaging unit 2 generates moving image data at an image size of 720 pixels ⁇ 480 pixels at a speed of 300 fps, and the generated moving image data is supplied to the recording / reproducing control unit 9 through the signal switching unit 6.
  • the recording / playback control unit 9 assumes that the SD moving image data is supplied at a normal 5 times speed of 60 fps, and processes the data to be processed at a real time speed of 5 times to generate an image stream. In this case, a bandwidth five times that for processing an SD image is required, but a high-definition image is an image of 1920 pixels ⁇ 1080 pixels, and has a pixel amount six times that of an SD image. Therefore, an encoder that supports high-definition signals can sufficiently encode SD images at 5 times speed, depending on the implementation.
  • the recording / playback control unit 9 encodes the data to be processed by AVCHD at 5 times the real time, the encoded data is recorded on the recording medium 11 even if the bit rate of the data to be processed is 4 Mbps.
  • the bit rate at that time is 5 times 20 Mbps.
  • the recording medium 11 is a hard disk and the recordable bit rate exceeds 50 Mbps, no problem occurs in the recording process even if the bit rate of the recorded SD stream is a little higher.
  • the recording medium 11 is a medium that causes problems when recording when the recording bit rate exceeds about 25 Mbps to 30 Mbps, it is better to suppress the bit rate of the encoded SD stream to 5 Mbps or less. .
  • SD data is encoded by AVCHD, a sufficiently high-quality image can be obtained even at 5 Mbps, so no problem occurs.
  • An object of the present invention is to record realistic sound data suitable for an image when moving image data is reproduced in slow motion.
  • a method for processing sound data so that when a recorded AVCHD stream is normally played back, the sound is played back at a speed of 1/5 and the pitch does not change much will be described.
  • the recording / playback control unit 9 first extends the sound data by 5 times by the method described in the first embodiment, encodes the sound data at 5 times speed by the AC3 encoder, and generates a stream at a 5 times bit rate.
  • the recording / playback control unit 9 also multiplexes the image stream and the sound stream at 5 ⁇ speed. As a result, when the image is normally reproduced, the image is reproduced in a slow motion of 1/5, and the sound corresponding to the sound is generated, and an SD AVCHD standard stream reproduced in a realistic state is generated.
  • the video camera 100 encodes (compresses) images and sounds while shooting at a high speed such as 300 fps, and records a stream obtained by the encoding on the recording medium 11. This is the fundamental difference between the third embodiment and the first and second embodiments.
  • the video camera 100 of the third embodiment has the following advantages (i) and (ii) over the video camera 100 of the first and second embodiments.
  • the video camera 100 according to the first and second embodiments requires “the time of shooting + n times the time (n depends on the speed of high-speed shooting)” as the time required for shooting and recording. And If 30 seconds is taken at 300 fps and n is “5”, the video camera 100 of Embodiments 1 and 2 has “30 seconds + 30 seconds ⁇ 5” as the time required for shooting and recording, that is, “ 180 seconds "is required. On the other hand, the video camera 100 according to Embodiment 3 can perform shooting and recording in real time (30 seconds).
  • the recording / playback control unit 9 encodes the sound data with AC3. This is because the AVCHD standard requires that the sound data be encoded with AC3, but depending on the system configuration, the AC3 may not be encoded at 5 ⁇ speed.
  • FIG. 5 is a diagram for explaining an operation of generating a stream by multiplexing moving image data and sound data in the fourth embodiment.
  • the recording / playback control unit 9 In the AVCHD standard, it is also allowed to record sound data in LPCM. Even in such a case, AC3 sound data is essential, and the recording / playback control unit 9 generates silence data in AC3 and records the sound data extended five times by LPCM. Thereby, the recording / reproducing control unit 9 can add the target sound data to the moving image stream in a state where the AVCHD standard is satisfied.
  • the playback device When playing the stream, the playback device seems to select AC3 sound data by default. In that case, the sound is silent during reproduction as it is, but when the user operates the reproduction device to select sound data of LPCM, the target sound is reproduced.
  • the configuration of the fourth embodiment is effective as an alternative means when the configuration of the third embodiment cannot be realized.
  • the number of quantization bits is 16 bits, the processing load is heavy and cannot be handled as the accuracy of the operation, but there are cases where processing is possible if the number of quantization bits is reduced to 8 bits.
  • the sound quality deteriorates when one or both of the sampling frequency and the number of quantization bits are lowered, the sound data is processed in accordance with the slow motion image, and the normal sampling frequency 48 KHz, quantum If the sound quality is within the practical range even if the sound quality is lower than the 16-bit sound, dropping the sampling frequency and / or the quantization bit number will not impair the merchantability. .
  • the 2ch is mixed into a monaural sound, then processed as a 1ch monaural sound, and 2ch (L By returning to the same sound as R and R, the amount of processing for extending the sound data on the time axis with a large load can be halved. Also by this, it seems that merchantability is not impaired for the same reason as described above.
  • the recording / playback control unit 9 reduces the sampling frequency of the sound data to be processed, reduces the number of quantization bits of the sound data to be processed, and the sound data when the sound data is a stereo signal.
  • the amount of sound data to be processed may be reduced by executing all or part of the conversion to a monaural signal. Thereby, the processing load of the recording / reproducing control unit 9 is reduced.
  • the recording / playback control unit 9 records dummy silence in AC3 and records the sound data subjected to the processing of the present invention in LPCM, and the stream is recorded on an AVCHD disc (DVD).
  • LPCM sound data which is the sound data of the uncompressed sound format
  • AC3 dummy silence sound data which is the sound data of the compressed sound format
  • the recording / playback control unit 9 gives priority to the identification number of LPCM sound data that is sound data in uncompressed sound format over the identification number of AC3 dummy silent sound data that is sound data in compressed sound format. Recording is performed on the recording medium 11.
  • the recording / playback control unit 9 sets the LPCM sound data identification number, which is sound data in the uncompressed sound format, to “1”, and the dummy silence of AC3, which is the sound data in the compressed sound format.
  • the identification number of the sound data is set to “2”, and information for specifying the priority order is recorded on the recording medium 11. It is assumed that the lower the identification number, the higher the priority. In this case, when sound data is reproduced by an AVCHD-compatible player and recorder, it can be expected that LPCM sound data is preferentially reproduced.
  • the playback apparatus includes a moving image playback control unit that plays back moving image data recorded on a recording medium, an LPCM sound data identification number that is sound data in an uncompressed sound format recorded on the recording medium, and a compressed sound.
  • a sound reproduction control unit that compares the identification number of the AC3 dummy silent sound data that is the format sound data and reproduces the sound data having the identification number having a high priority may be provided.
  • the AVCHD standard does not specify which of the AC3 sound data and LPCM sound data should be played by default, so although it is not certain, the above-described processing can be expected to be feasible in many cases. . If this is not the case, if the user selects LPCM sound data by remote control operation or the like, the target sound is reproduced. For example, the user is allowed to select the identification number “1”.
  • the playback apparatus includes a moving image playback control unit that plays back moving image data recorded on a recording medium, an LPCM sound data identification number that is sound data in an uncompressed sound format recorded on the recording medium, and a compressed sound.
  • a sound reproduction control unit that reproduces sound data to which the identification number selected by the user among the identification numbers of AC3 dummy silent sound data that is the format sound data may be provided.
  • examples of the embodiment of the recording apparatus of the present invention are a video camera and a digital camera.
  • the recording / reproducing control unit 9 in the above-described embodiment is an example of a moving image recording control unit and a sound recording control unit of the recording apparatus of the present invention.
  • the moving image may be encoded by a standard such as Moving Picture Expert Group (MPEG) and recorded on the recording medium 11.
  • MPEG Moving Picture Expert Group
  • the standard for encoding a moving image may be any standard.
  • the recording medium 11 may be a removable medium that is not provided in the video camera 100.
  • the present invention it is possible to provide a recording technique in which sound is effectively reproduced even in slow motion reproduction. Further, according to the present invention, it is possible to provide a recording technique in which sound is effectively reproduced in slow motion reproduction without a special mechanism in the apparatus for reproducing moving images and sounds.
  • the playback device does not need to have a slow motion playback function, and when the playback is normally performed on such a playback device, the moving image is played back in slow motion. Reproduced and a sense of realism appears.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Television Signal Processing For Recording (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

 ビデオカメラ100は、第1のフレームレートより高い第2のフレームレートで取得される動画データを記録媒体11に記録するとともに、第1のフレームレートの動画データに対応して取得される音データを、第1のフレームレートに対する第2のフレームレートの比に基づいて、所定の話速変換技術を用いて時間軸上で引き延ばして記録媒体11に記録する記録再生制御部9を備える。

Description

記録装置及び記録方法
 本発明は、動画データ及び音データを記録媒体に記録する記録装置及び記録方法に関する。
 近年、動画データを記録する技術の進歩により、ハイフレームレートでの撮影及び記録(以下、単に「記録」という)を実現する装置が現れ始めた。例えば、動画データを従来一般的な毎秒60フレームといったフレームレート(以下、「第1のフレームレート」ともいう)より高い、例えば毎秒300フレームのフレームレート(以下、「第2のフレームレート」ともいう)で記録媒体に記録するビデオカメラ及びデジタルカメラ等の記録装置が商品化されている。
 第2のフレームレートで動画データを高速に撮影しておき、これを第1のフレームレートで再生することにより、例えば水滴の液面への落下や鳥の羽ばたきといった高速の動きを滑らかにスローモーション再生することができる。第2のフレームレートが300fps、第1のそれが60fpsである場合、1/5倍速のスローモーション再生となる。
特開2008-153795号公報
 しかしながら、こうした記録装置によるスローモーション再生では、一般に音は再生されない。なぜなら、動画を記録するときと再生するときとで時間の長さが変わってしまうため、仮に音を同時に記録しておいても、再生される動画と時間的にうまくマッチしないためである。例えば、毎秒300フレームで動画データを1秒間記録し、その間音も記録しておくとする。これを毎秒60フレームで再生すると映像はスローモーション再生になり5秒間再生されるものの、音は1秒間分しか存在せず、動画と音の同時再生には根本的な問題が生じる。このため、スローモーション再生を目的とする動画データの記録においては、音の記録は断念されるのが一般的であり、音のある通常の動画再生に比べると、どうしても臨場感に欠けるという課題があった。
 本発明はこうした課題に鑑みてなされたものであり、その目的は、上述のようなスローモーション再生においても音が有効に再生される記録技術を提供することである。本発明の別の目的は動画及び音を再生する側の装置に特別な仕組みがなくとも、通常再生時に映像がスローモーション再生となる場合において音が有効に再生される記録技術を提供することである。
 上記課題を解決し上記目的を達成するために、本発明の記録装置は、第1のフレームレートより高い第2のフレームレートで取得される動画データを記録媒体に記録する動画記録制御部と、前記第1のフレームレートの前記動画データに対応して取得される音データを、前記第1のフレームレートに対する前記第2のフレームレートの比に基づいて、所定の話速変換技術を用いて時間軸上で引き延ばして前記記録媒体に記録する音記録制御部とを備える。
 本発明の記録方法は、第1のフレームレートより高い第2のフレームレートで取得される動画データを記録媒体に記録する動画記録制御ステップと、前記第1のフレームレートの前記動画データに対応して取得される音データを、前記第1のフレームレートに対する前記第2のフレームレートの比に基づいて、所定の話速変換技術を用いて時間軸上で引き延ばして前記記録媒体に記録する音記録制御ステップとを含む。
 本発明により、スローモーション再生においても音が有効に再生される記録技術を提供することができる。また、本発明により、動画及び音を再生する側の装置に特別な仕組みがなくとも、スローモーション再生において音が有効に再生される記録技術を提供することができる。すなわち、再生装置はスローモーション再生機能を持つ必要がなく、そのような再生装置で通常再生される際、動画がスローモーション再生されることはもちろん、本発明により、音も動画にあったスローで再生されて臨場感が現れる。
実施の形態1のビデオカメラの構成を示す機能ブロック図である。 ビデオカメラが動画データ及び音データを記録する動作の各ステップを示すフローチャートである。 48KHzのサンプリングレートで、かつ16ビットのサンプリングで取得されたLPCMデータを、5倍に引き延ばす方法を示す図である。 実施の形態3における動画データと音データとを多重してストリームを生成する動作を説明するための図である。 実施の形態4における動画データと音データとを多重してストリームを生成する動作を説明するための図である。 非圧縮音フォーマットの音データと圧縮音フォーマットの音データとの再生時の優先順位を説明するための図である。
 以下に、本発明を実施するための形態を図面を参照して説明する。なお、以下の説明では、ビデオカメラを例にとって本発明の記録装置を説明する。
 (実施の形態1)
 先ず、実施の形態1のビデオカメラ100の構成を図1を用いて説明する。図1は実施の形態1のビデオカメラ100の構成を示す機能ブロック図である。
 図1に示すように、実施の形態1のビデオカメラ100は、動画データ及び音データの記録処理を行なう記録装置101と、動画データ及び音データの再生処理を行なう再生装置102とを有する。
 記録装置101は、光学部1と、撮像部2と、動画用A/D変換部3と、データ管理部4と、第1のRandom Access Memory(RAM)5と、信号切換部6と、マイクロホン7と、音用A/D変換部8と、記録再生制御部9と、第2のRAM10と、記録媒体11とを有する。
 光学部1は光を集める手段であり、撮像部2は光を電気信号に変換する手段であり、動画用A/D変換部3はアナログの信号をデジタルの信号に変換する手段である。データ管理部4は動画用A/D変換部3によって得られたデータを管理する手段であり、第1のRAM5はデータを保持する手段であり、信号切換部6はデータの行き先を制御する手段である。マイクロホン7は音を収集して電気信号に変換する手段であり、音用A/D変換部8はアナログの信号をデジタルの信号に変換する手段である。記録再生制御部9はデータの記録及び再生を制御する手段であり、第2のRAM10はデータを保持する手段であり、記録媒体11はデータが記録される手段である。
 再生装置102は、信号切換部6と、記録再生制御部9と、記録媒体11と、動画用D/A変換部12と、表示部13と、音用D/A変換部14と、スピーカ15とを有する。
 信号切換部6、記録再生制御部9、及び記録媒体11は、上述した手段であって、記録装置101及び再生装置102に含まれる。動画用D/A変換部12はデジタルの信号をアナログの信号に変換する手段であり、表示部13は画像を表示する手段である。音用D/A変換部14はデジタルの信号をアナログの信号に変換する手段であり、スピーカ15は音を出力する手段である。
 なお、ビデオカメラ100は、ユーザによって操作され、ユーザの指示を受け付ける操作部16をも有する。
 次に、実施の形態1のビデオカメラ100の動作を説明する。ビデオカメラ100の動作は、動画データ及び音データを記録する動作と、記録された動画データ及び音データを再生する動作とを含むので、それらの動作を順に説明する。
 先ず、ビデオカメラ100が動画データを記録する際の動作を図2を用いて説明する。図2は、ビデオカメラ100が動画データを記録する際の動作の各ステップを示すフローチャートである。
 光学部1は画像の元となる光を集めて被写体の光学像を生成し、撮像部2は生成された光学像を電気信号に変換する。動画用A/D変換部3は、撮像部2によって得られたアナログの信号をデジタルの信号に変換し、それによってデジタルの動画データを生成する(S1)。
 ユーザが通常のフレームレートで、例えば60fpsで、動画データを記録させるための操作を操作部16に対して行なうと、データ管理部4は、動画用A/D変換部3によって得られた動画データを信号切換部6に出力する。信号切換部6は、データ管理部4からの動画データを記録再生制御部9に出力する。記録再生制御部9は、信号切換部6からの動画データを通常のフレームレートで記録媒体11に記録する。
 ところで、記録対象画像がハイビジョンの画像である場合、記録対象画像のデータは、1920画素×1080画素の解像度で、かつ60fpsのフレームレートで記録媒体11に記録される。その場合、信号切換部6は、毎秒60枚の画像のデータを記録再生制御部9に送る。
 近年、撮像部2として、解像度は低いものの、60fpsの5倍速である300fpsのフレームレートで動画データを生成することができるComplementary Metal Oxide Semiconductor(CMOS)センサが実用化されている。
 そのため、通常の5倍のフレームレートで、例えば300fpsで、動画データを記録させるための指示をユーザは操作部16に対して行なうことができる。動画データを300fpsのフレームレートで記録再生制御部9により処理させる場合、信号切換部6は60fpsの5倍の速度で動画データを記録再生制御部9に送ることになり、その速度に対応する伝送帯域が必要になる。
 その伝送帯域を確保することが困難となる場合を考慮して、実施の形態1では、動画データを300fpsのフレームレートで記録再生制御部9により処理させる場合、データ管理部4は、動画用A/D変換部3によって生成された動画データを第1のRAM5に一時的に蓄積する。その蓄積処理の終了後、データ管理部4は、第1のRAM5に一時的に蓄積された動画データを信号切換部6を介して記録再生制御部9に送る。記録再生制御部9は、信号切換部6からの動画データを、つまり一時的に蓄積された動画データを記録媒体11に記録する。
 動画データを第1のRAM5に一時的に蓄積させる場合、300fpsで動画を撮影することができる時間は第1のRAM5の容量により制限される。しかしながら、近年は民生用ビデオカメラでも、画像サイズが720画素×480画素である動画データを300fpsで4秒程度撮影して蓄積することが可能になってきている。300fpsは60fpsの5倍速であるので、蓄積された動画データを通常の速度である60fpsで再生すると、20秒の動画が再生される。
 なお、60fpsは第1のフレームレートの一例であり、300fpsは第2のフレームレートの一例である。以下では、第2のフレームレートである300fpsで動画データを記録媒体11に記録する場合を説明する。
 第2のフレームレートである300fpsで動画データを記録媒体11に記録する場合、データ管理部4は、撮像部2及び動画用A/D変換部3によって300fpsで生成された動画データを、最大4秒間まで第1のRAM5に一時的に蓄積する(S2)。その後、データ管理部4は、第1のRAM5に一時的に蓄積された動画データを信号切換部6を介して60fpsで記録再生制御部9に送る。動画データが60fpsで記録再生制御部9に送られるので、記録再生制御部9は、第1のRAM5に一時的に蓄積された動画データを、通常の撮影時と同じ60fpsで処理する。
 なお、動画データが、画像サイズが720画素×480画素の画像のデータである場合、データ管理部4は、720画素×480画素の画像をリサイズし、その後周りに黒枠を付加し、それにより1920画素×1080画素の画像を生成し、生成した画像に対応する動画データを記録再生制御部9に送る。
 720画素×480画素の画像をリサイズでどれだけ大きくするかは、画質の劣化をどこまで許容するかによって決定される。仮に元の画像を2倍まで大きくすることが許容される場合、リサイズされた画像は1440画素×960画素の画像となり、記録再生制御部9に送られる動画データの各画像は、1440画素×960画素の画像の周囲に黒枠が付けられた1920画素×1080画素の画像となる。
 上述したように、300fpsの速度で第1のRAM5に一時的に蓄積された動画データは、一時蓄積処理が終了した後、60fpsの速度で記録再生制御部9に送られ、記録再生制御部9内の動画エンコーダによってハイビジョンの画像としてAdvanced Video Codec High Definition(AVCHD)フォーマットで圧縮されて、動画ストリームが生成される(S3)。
 記録再生制御部9は、ハイビジョンの画像をAVCHDのフォーマットで圧縮することができる動画エンコーダと動画デコーダとを有している。動画デコーダは再生時に動作する。
 次に、ビデオカメラ100が動画データを再生する際の動作を説明する。
 記録再生制御部9は、動画データを記録媒体11から取得して再生し、動画用D/A変換部12は、再生されたデジタルの動画データをアナログの動画データに変換し、表示部13は、動画用D/A変換部12によって生成されたアナログの動画データに基づく画像を表示する。
 ところで、300fpsで撮影された動画像のデータは時間的に60fpsの5倍の長さがあるので、エンコードして記録媒体11に記録するのに撮影時間の5倍かかる。そして、記録されたストリームを通常の速度である60fpsで再生すると、1/5倍速のスローモーションの動画が再生される。
 次に、ビデオカメラ100が音を記録する際の動作を図2を用いて説明する。図2は、ビデオカメラ100が音データを記録する際の動作の各ステップを示すフローチャートでもある。
 マイクロホン7は音を収集して電気信号に変換し、音用A/D変換部8は、アナログの電気信号をデジタルの電気信号に変換し、それによってデジタルの音データを生成する(S4)。音用A/D変換部8は、生成された音データを記録再生制御部9に送る。なお、音用A/D変換部8は、動画が300fpsで撮影されている期間中も、動画が通常の記録速度である60fpsで記録されている場合と同じ48KHzで音をサンプリングする。
 動画データが第1のRAM5に蓄積されている間、記録再生制御部9は、音用A/D変換部8によって生成された音データを第2のRAM10に一時的に蓄積する(S5)。
 記録再生制御部9は、撮像部2及び動画用A/D変換部3によって300fpsで生成された動画データが最大4秒間まで第1のRAM5に一時的に蓄積された後、音データを第2のRAM10から取得して加工し(S6)、音ストリームを生成する。
 次に、記録再生制御部9が行なう音データの加工について説明する。
 動画が300fpsで4秒間撮影された場合、動画像が60fpsで再生されると、再生時間は4秒間の5倍の20秒間となる。しかし、第2のRAM10に蓄積された音データは4秒間の音データである。そこで、記録再生制御部9は、音データを時間軸上で5倍に引き延ばす。ここで、単に1サンプル毎に音データを4回コピーしてデータ量を5倍にしても、音データを時間軸上で5倍に引き延ばしたことにはなるが、それだと再生自に周波数が1/5に低下してしまい、聴感上実用することは難しい。
 そこで、記録時にデータ量を時間軸上で5倍に引き延ばしても、再生時に周波数が下がらない処理を行なう。つまり、記録再生制御部9は、60fpsの第1のフレームレートの動画データに対応する音データを、第1のフレームレートに対する300fpsの第2のフレームレートの比に基づいて、所定の単位毎に複数回繰り返して音データを加工する(S6)。そして、記録再生制御部9は、加工した音データを音ストリームに変換するエンコードを行ない(S7)、動画ストリームと音ストリームとをマルチプレクスし(S8)、マルチプレクスしたストリームを記録媒体11に記録する(S9)。
 記録再生制御部9は、音データを所定の単位毎に複数回繰り返す場合、音データを所定の単位毎に、第2のフレームレートを第1のフレームレートで除算することによって得られる回数繰り返す。上述した例では、第1のフレームレートが60fpsであり、第2のフレームレートが300fpsであるので、記録再生制御部9は、音データを所定の単位毎に5回繰り返す。記録再生制御部9が所定の単位の音データを繰り返す処理の詳細は、図3を用いて後述する。
 なお、記録再生制御部9は、音データを5倍に引き延ばしても引き延ばさない場合と音程がほとんど変わらない状態にするために、例えば、公知の話速変換技術、又は、音の再生速度変換技術を用いる。
 次に、話速変換の実施例の一つとして、音質面では劣るものの、記録再生制御部9での音データの加工処理の負荷が小さくて済む方法を図3を用いて説明する。
 図3は、48KHzのサンプリングレート、かつ16ビットのサンプリングでマイクロホン7によって取得されたLinear Pulse Code Modulation(LPCM)データを、5倍に引き延ばす方法を示す図である。なお、LPCMは、音等のアナログ信号をデジタル信号に変換する方法の一つであって、データを圧縮しない方法である、すなわち、LPCMデータは非圧縮のデータである。また、図3では、説明の簡略化のため、音データが1チャンネルのみである場合が示されているが、図3に示す方法は、音データがステレオ等の複数のチャンネルのデータである場合でも適用可能である。
 図3(A)は、サンプリングレート48KHz、かつ16ビットのサンプリングでマイクロホン7及び音用A/D変換部8によって取得されたLPCMデータを示す。
 図3(B)は、図3(A)のLPCMのデータの先頭から記録再生制御部9によって取り出される単位データである800サンプルを示す。
 図3(C)は、記録再生制御部9によって、図3(B)の800サンプルがコピーされ、その後、800サンプルの先頭部分がフェードイン処理され、後尾部分がフェードアウト処理されたデータを示す。
 次に、記録再生制御部9が行なうフェードイン処理及びフェードアウト処理を説明する。
 先ず、フェードイン処理を説明する。
 記録再生制御部9は、フェードイン処理を以下に示す式(1)に基づいて行なう。
 Output=Input×x/w   (1)
 ここで、Outputは結果であり、Inputは元のデータであり、xはサンプルの位置であり、wはフェードイン処理するサンプル数(この場合は100)である。なお、フェードイン処理を開始するサンプルの位置xは“0”である。
 次に、フェードアウト処理を説明する。
 記録再生制御部9は、フェードアウト処理を以下に示す式(2)に基づいて行なう。
 Output=Input×(100×x)/w   (2)
 ここで、Outputは結果であり、Inputは元のデータであり、xはサンプルの位置であり、wはフェードイン処理するサンプル数(この場合は100)である。なお、フェードアウト処理を開始するサンプルの位置xは“0”である。
 図3(D)は、図3(C)に示される先頭部分がフェードイン処理され、かつ後尾部分がフェードアウト処理されたデータが、記録再生制御部9によって100サンプルずつ重ねられながら5回加算される様子を示す。これにより、記録再生制御部9は、元のデータを5倍に引き延ばしたLPCMデータを生成する。
 図3(E)は、記録再生制御部9によって元のデータが5倍に引き延ばされたLPCMデータを示す。図3(E)において楕円で囲まれている部分は、フェードアウト処理されたデータにフェードイン処理されたデータが加算されている部分である。
 このようにしないで、図3(B)に示すデータを単純に5回繰り返して連結すると、結合部の波形が不連続となり、再生時に聴感上インパルスノイズが発生する。フェードイン処理した結果とフェードアウト処理した結果とを加算することで、インパルスノイズの発生を防ぐことができる。
 なお、記録再生制御部9は、引き延ばされた単位データと引き延ばされたその次の単位データとを連結する際、連結開始直前の単位データ(図3(A)参照)で700サンプル進んだ位置から連結処理を開始する。
 このようにして、記録再生制御部9は、インパルスノイズの発生を防ぎつつ、LPCMデータを引き延ばし、再生時に音程を変えずにゆっくり再生される音データを記録時に生成する。
 なお、図3(B)に示すフェードイン及びフェードアウトの処理の対象となる単位データのサンプル数の選び方で、再生時の音の聞こえ方が大きく変わる。例えば、「おはよう」という音の場合、単位データのサンプル数が少ないと、「おおおおおおおおははははははは・・・」と震えているように聞こえ、単位データのサンプル数が多いと、「おはおはおはおはおはおはようようようようよう」というように聞こえる。単位データのサンプル数は、サンプリングレートに依存するが、サンプリングレートが48KHzである場合、単位データのサンプル数は800サンプル程度が良いようである。
 また、音データを時間軸上で引き延ばす音データの加工処理は、図3を用いて説明した例に限定されない。しかしながら、対象の音は人の会話であるとは限定されないので、無音区間を検出しそこを時間的につめる処理を行なうことは不適当である。
 次に、ビデオカメラ100が音データを再生する際の動作を説明する。
 記録再生制御部9は、音データを記録媒体11から取得して、通常のフレームレート(第1のフレームレート)である60fpsに対応する通常の速度で再生し、音用D/A変換部14は、再生されたデジタルの音データをアナログの音データに変換し、スピーカ15は、音用D/A変換部14によって得られた音データに基づく音を出力する。
 上述したように、実施の形態1では、記録再生制御部9は、音データを記録媒体11に記録する前に音データを引き延ばす加工処理を行なう(図2のS6及び図3を参照)。これにより、記録再生制御部9が高速の第2のフレームレートである300fpsで記録媒体11に記録された動画データを通常のフレームレート(第1のフレームレート)である60fpsで再生する場合、1/5倍速のなめらかなスローモーションの画像が再生され、それとともに、音程があまり変わっていない、臨場感がある音が再生される。
 また、記録再生制御部9は、音データを記録媒体11に記録する前に音データを引き延ばす加工処理を行なうので、音データを再生するための特別な装置は必要とされない。記録媒体11に記録されたストリームは、フォーマットとしては通常記録されたものと何ら変わらず、再生装置は通常記録されたストリームと同様に、記録媒体11に記録されたストリームを再生可能である。更に、スローモーションの動画にあった臨場感がある音がスローで再生される。
 (実施の形態2)
 実施の形態1では、処理対象の音データは画像の撮影時に記録再生制御部9に一旦送られ、第2のRAM10に一時的に蓄積されるが、実施の形態2では、処理対象の音データは画像の撮影時に動画データとともに第1のRAM5に蓄積される。つまり、処理対象の音データは、実施の形態1では、記録再生制御部9によって処理される前に第2のRAM10に一時的に蓄積されるが、実施の形態2では、記録再生制御部9によって処理される前に第1のRAM5に一時的に蓄積される。その点が実施の形態1と実施の形態2との相違点である。
 なお、第1のRAM5から記録再生制御部9に動画データと音データとが送られる場合、動画データがエンコードされたストリームと、音データがエンコードされたストリームとをマルチプレクスすることができる速度で、動画データ及び音データは、第1のRAM5から記録再生制御部9に供給される。
 (実施の形態3)
 実施の形態3では、記録再生制御部9が持つAVCHDのエンコーダが、処理対象のデータがstandard definition(SD)のデータであれば5倍速でエンコードできる能力を持つ場合について図4を用いて説明する。図4は、実施の形態3における動画データと音データとを多重してストリームを生成する動作を説明するための図である。なお、ハイビジョン(HD)に対応したエンコーダであれば、SDのデータを5倍速でエンコードするのは十分に実現可能である。また、実施の形態3のエンコーダは、5倍速以下であれば、2倍速の120fps又は4倍速の240fpsでデータを処理することができる。
 撮像部2は、画像サイズ720画素×480画素で、300fpsの速度で動画データを生成し、生成された動画データは、信号切換部6を通して記録再生制御部9に供給される。記録再生制御部9は、SDの動画データが通常の60fpsの5倍速で供給されているとして、処理対象のデータを実時間の5倍速で処理して画像のストリームを生成する。その場合、SDの画像を処理するときの5倍の帯域が必要となるが、ハイビジョンの画像は1920画素×1080画素の画像であり、SDの画像の6倍のピクセル量を有する。よってハイビジョン信号に対応したエンコーダは、実装にもよるがSDの画像を5倍速でエンコードすることは十分可能である。
 記録再生制御部9は、実時間の5倍速でAVCHDで処理対象のデータをエンコードするので、処理対象のデータのビットレートが4Mbpsであっても、エンコードしたデータを記録媒体11に記録しているときのビットレートは5倍の20Mbpsとなる。記録媒体11がハードディスクで、記録可能なビットレートが50Mbpsを超える場合、記録されるSDのストリームのビットレートがもう少し高くても記録処理に問題は生じない。しかしながら、記録媒体11がメモリカード等の記録時のビットレートが25Mbps~30Mbps程度を越えると記録時に課題を生じる媒体である場合、エンコードしたSDのストリームのビットレートは5Mbps以下に抑えた方がよい。それでも、SDのデータをAVCHDでエンコードするなら、5Mbpsでも十分高画質な画像が得られるので、問題は生じない。
 ここまでは画像の処理について説明した。次に、音の処理について説明する。本発明の目的は、動画データを記録する際、それがスローモーションで再生される際の画像に相応しい、臨場感のある音のデータを記録することである。記録されたAVCHDのストリームを通常に再生すると、音が1/5の速度でかつ音程があまり変わらない状態で再生されるように音データを処理する方法を以下に示す。
 動画像を5倍速で撮影中に、音はマイクロホン7から音用A/D変換部8を通して記録再生制御部9に入力される。音データは記録再生制御部9に入力される。記録再生制御部9は、音データを実施の形態1で示した方法で先ず5倍に引き延ばし、AC3エンコーダにより5倍速でエンコードし、5倍のビットレートでストリームを生成する。
 記録再生制御部9は、画像のストリームと音のストリームとのマルチプレクスも5倍速で行なう。これにより、通常に再生すると画像が1/5のスローモーションで再生され、音はそれにあった、臨場感のある状態で再生されるSDのAVCHD規格のストリームが生成される。
 実施の形態3では、ビデオカメラ100は、300fpsのような高速で撮影しながら、画像及び音のエンコード(圧縮)を行ない、エンコードすることによって得られるストリームを記録媒体11に記録する。その点が、実施の形態3と実施の形態1及び実施の形態2との根本的な違いである。
 実施の形態3のビデオカメラ100は、実施の形態1及び実施の形態2のビデオカメラ100に対して次に示す(i)及び(ii)の長所を有する。
 (i)撮影可能時間が第1のRAM5の制約を受けることがなく、記録媒体11に空き容量がある限り撮影を続けることができる。
 (ii)実施の形態1及び実施の形態2のビデオカメラ100は、撮影及び記録に要する時間として「撮影した時間+その時間のn倍の時間(nは高速撮影の速度に依存)」を必要とする。仮に300fpsで30秒撮影し、nが“5”である場合、実施の形態1及び実施の形態2のビデオカメラ100は、撮影及び記録に要する時間として「30秒+30秒×5」、すなわち「180秒」を必要とする。それに対して実施の形態3のビデオカメラ100は、実時間(30秒)で撮影及び記録を行なうことができる。
 (実施の形態4)
 実施の形態3では、記録再生制御部9は、音データをAC3でエンコードをする。これはAVCHD規格では音データをAC3でエンコードすることが必須になっているためであるが、システムの構成によってはAC3のエンコードを5倍速で行なうことができない場合もある。その場合の代替手段を図5を用いて説明する。図5は、実施の形態4における動画データと音データとを多重してストリームを生成する動作を説明するための図である。
 AVCHD規格では、音データをLPCMで記録することも許されている。その場合でもAC3の音データは必須であり、記録再生制御部9は、AC3では無音データを生成し、5倍に引き延ばした音データはLPCMで記録する。これにより、記録再生制御部9は、AVCHD規格を満たした状態で、目的の音データを動画像のストリームに付加することができる。
 そのストリームを再生する際、再生装置はデフォルトでAC3の音データを選ぶと思われる。その場合、そのままでは再生時は無音であるが、ユーザに再生装置を操作させてLPCMの音データを選択させると、目的の音が再生される。
 AC3のエンコーダを5倍速で動かすことが困難な場合でも、AC3の無音のデータを生成してストリームを生成する処理は、AC3エンコーダの一部を利用して可能となる場合が多いと考えられる。実施の形態4の構成は、実施の形態3の構成を実現することができない場合の代替手段として有効である。
 (実施の形態5)
 音データは、サンプリング周波数48KHz、量子化ビット数16ビットで記録されることが多い。これは高い質の音を再生するためであるが、本発明を適用するシステムの構成によっては、処理の負荷が重すぎて対応することができない場合もあり得る。その場合、例えばサンプリング周波数を24KHzにすれば、処理するデータの量が半分に減るので、システムが処理することができる可能性が出てくる。
 また、演算の精度として量子化ビット数が16ビットでは処理負荷が重くて対応することはできないが、量子化ビット数を8ビットに落せば処理可能という場合も考えられる。
 サンプリング周波数と量子化ビット数との一方又は双方を落とすと音質は悪くなるものの、音データをスローモーションの画像に合わせて加工していること、また、その用途から、通常のサンプリング周波数48KHz、量子化ビット数16ビットの音に比べて低音質であっても実用可能な範囲内であれば、サンプリング周波数と量子化ビット数との一方又は双方を落としても、商品性を損なわないと思われる。
 また、処理対象の音が本来は2chステレオ音である場合、2chをミックスしてモノラル音にした後、1chのモノラル音として処理し、音データとして記録媒体11に記録される状態では2ch(LとRとは同じ音)に戻すことによって、負荷の大きい時間軸上で音データを引き延ばす処理の量を半分にすることもできる。これによっても、上述した理由と同様の理由により、商品性を損なわないと思われる。
 したがって、記録再生制御部9は、処理対象の音データのサンプリング周波数を遅くすることと、処理対象の音データの量子化ビット数を少なくすることと、音データがステレオ信号である場合の音データをモノラル信号に変換することとの全部又は一部を実行することによって、処理対象の音データの量を小さくしてもよい。これにより、記録再生制御部9の処理負担は軽減される。
 (実施の形態6)
 実施の形態6では、記録再生制御部9は、AC3にてダミーの無音を記録し、LPCMにて本発明の処理を施した音データを記録する場合、そのストリームをAVCHDのディスク(DVD)に書き込むとき、再生時に、非圧縮音フォーマットの音データであるLPCMの音データを、圧縮音フォーマットの音データであるAC3のダミーの無音の音データより優先して再生させるために以下に示す処理を行なう。
 すなわち、記録再生制御部9は、非圧縮音フォーマットの音データであるLPCMの音データの識別番号を、圧縮音フォーマットの音データであるAC3のダミーの無音の音データの識別番号より優先させて記録媒体11に記録する。
 記録再生制御部9は、例えば図6に示すように、非圧縮音フォーマットの音データであるLPCMの音データの識別番号を“1”とし、圧縮音フォーマットの音データであるAC3のダミーの無音の音データの識別番号を“2”として、優先順位を特定する情報を記録媒体11に記録する。識別番号が小さい方が優先度は高いと仮定する。この場合、AVCHD対応のプレイヤ及びレコーダにて音データが再生されるとき、LPCMの音データが優先して再生されると期待できる。
 つまり、再生装置は、記録媒体に記録されている動画データを再生する動画再生制御部と、記録媒体に記録されている非圧縮音フォーマットの音データであるLPCMの音データの識別番号と圧縮音フォーマットの音データであるAC3のダミーの無音の音データの識別番号とを比較し、優先度の高い識別番号が付されている音データを再生する音再生制御部とを備えてもよい。
 上述した処理は、AVCHDの規格で定められている、Play ListのSTN TableのAudioストリームのエントリの先頭をLPCMにし、次のエントリをDolby Digitalにすると、一般的なプレイヤ及びレコーダは先に見つかった音をデフォルトで再生すると思われるので行なう。
 AVCHDの規格にはAC3の音データとLPCMの音データとのどちらをデフォルトで再生すべきかが明記されていないため、確実ではないものの、上述した処理は、多くの場合、実現可能になると期待できる。なお、そうでない場合はリモコン操作などによってユーザにLPCMの音データを選ばせれば、目的の音が再生される。例えば、ユーザに、識別番号“1”を選択させる。
 つまり、再生装置は、記録媒体に記録されている動画データを再生する動画再生制御部と、記録媒体に記録されている非圧縮音フォーマットの音データであるLPCMの音データの識別番号と圧縮音フォーマットの音データであるAC3のダミーの無音の音データの識別番号とのうちでユーザによって選択された識別番号が付されている音データを再生する音再生制御部とを備えてもよい。
 なお、本発明の記録装置の実施態様の一例は、ビデオカメラ及びデジタルカメラである。
 また、上述した実施の形態における記録再生制御部9は、本発明の記録装置の動画記録制御部及び音記録制御部の一例である。
 また、動画は、Moving Picture Expert Group(MPEG)等の規格によってエンコードされて記録媒体11に記録されてもよい。動画をエンコードするための規格はいずれの規格であってもよい。
 更に、記録媒体11は、ビデオカメラ100に設けられていないリムーバブルの媒体であってもよい。
100 ビデオカメラ、 101 記録装置、 102 再生装置、 1 光学部、 2 撮像部、 3 動画用A/D変換部、 4 データ管理部、 5 第1のRAM、6 信号切換部、 7 マイクロホン、 8 音用A/D変換部、9 記録再生制御部、10 第2のRAM、 11 記録媒体、 12 動画用D/A変換部、 13 表示部、 14 音用D/A変換部、 15 スピーカ、 16 操作部。
 本発明により、スローモーション再生においても音が有効に再生される記録技術を提供することができる。また、本発明により、動画及び音を再生する側の装置に特別な仕組みがなくとも、スローモーション再生において音が有効に再生される記録技術を提供することができる。すなわち、再生装置はスローモーション再生機能を持つ必要がなく、そのような再生装置で通常再生される際、動画がスローモーション再生されることはもちろん、本発明により、音も動画にあったスローで再生されて臨場感が現れる。

Claims (7)

  1.  第1のフレームレートより高い第2のフレームレートで取得される動画データを記録媒体に記録する動画記録制御部と、
     前記第1のフレームレートの前記動画データに対応して取得される音データを、前記第1のフレームレートに対する前記第2のフレームレートの比に基づいて、所定の話速変換技術を用いて時間軸上で引き延ばして前記記録媒体に記録する音記録制御部と
     を備える記録装置。
  2.  前記音記録制御部は、圧縮音フォーマットで無音データを前記記録媒体に記録し、前記音データを、前記第1のフレームレートに対する前記第2のフレームレートの比に基づいて、所定の話速変換技術を用いて時間軸上で引き延ばし、非圧縮音フォーマットで前記記録媒体に記録する
     請求項1に記載の記録装置。
  3.  前記音記録制御部は、前記非圧縮音フォーマットの音データの識別番号を、前記圧縮音フォーマットの音データの識別番号より優先させて前記記録媒体に記録する
     請求項2に記載の記録装置。
  4.  前記音記録制御部は、前記音データのサンプリング周波数を低くすることと、前記音データの量子化ビット数を少なくすることと、前記音データがステレオ信号である場合の前記音データをモノラル信号に変換することとの全部又は一部を実行する
     請求項1から3のいずれか1項に記載の記録装置。
  5.  第1のフレームレートより高い第2のフレームレートで取得される動画データを記録媒体に記録する動画記録制御ステップと、
     前記第1のフレームレートの前記動画データに対応して取得される音データを、前記第1のフレームレートに対する前記第2のフレームレートの比に基づいて、所定の話速変換技術を用いて時間軸上で引き延ばして前記記録媒体に記録する音記録制御ステップと
     を含む記録方法。
  6.  前記音記録制御ステップにおいて、圧縮音フォーマットで無音データを前記記録媒体に記録し、前記音データを、前記第1のフレームレートに対する前記第2のフレームレートの比に基づいて、所定の話速変換技術を用いて時間軸上で引き延ばし、非圧縮音フォーマットで前記記録媒体に記録する
     請求項5に記載の記録方法。
  7.  前記音記録制御ステップにおいて、前記非圧縮音フォーマットの音データの識別番号を、前記圧縮音フォーマットの音データの識別番号より優先させて前記記録媒体に記録する
     請求項6に記載の記録方法。
PCT/JP2009/003099 2009-01-30 2009-07-03 記録装置及び記録方法 WO2010086912A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-019317 2009-01-30
JP2009019317A JP2010178124A (ja) 2009-01-30 2009-01-30 記録装置及び記録方法

Publications (1)

Publication Number Publication Date
WO2010086912A1 true WO2010086912A1 (ja) 2010-08-05

Family

ID=42395183

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/003099 WO2010086912A1 (ja) 2009-01-30 2009-07-03 記録装置及び記録方法

Country Status (2)

Country Link
JP (1) JP2010178124A (ja)
WO (1) WO2010086912A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110086905A (zh) * 2018-03-26 2019-08-02 华为技术有限公司 一种录像方法及电子设备
WO2019183784A1 (zh) * 2018-03-26 2019-10-03 华为技术有限公司 一种录像方法及电子设备
CN110521211A (zh) * 2017-04-17 2019-11-29 索尼公司 发送设备、发送方法、接收设备、接收方法、记录设备和记录方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015076277A1 (ja) 2013-11-22 2015-05-28 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
WO2016129303A1 (ja) 2015-02-10 2016-08-18 ソニー株式会社 画像処理装置、撮像装置、画像処理方法、および、プログラム
WO2016139971A1 (ja) 2015-03-03 2016-09-09 ソニー株式会社 信号処理装置、信号処理システム、信号処理方法、および、プログラム
US10812854B2 (en) 2015-05-19 2020-10-20 Sony Corporation Image processing device, image processing method, reception device, and transmission device
JP2017009663A (ja) 2015-06-17 2017-01-12 ソニー株式会社 録音装置、録音システム、および、録音方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096392A (ja) * 1995-06-16 1997-01-10 Hitachi Ltd 話速変換装置および話速変換装置の利用方法
JP2004334046A (ja) * 2003-05-09 2004-11-25 Brother Ind Ltd 圧縮音声データ再生装置、カラオケ装置
JP2005115980A (ja) * 2003-10-02 2005-04-28 Sony Corp オーディオ信号処理装置及びオーディオ信号処理方法
WO2007029832A1 (ja) * 2005-09-08 2007-03-15 Sony Corporation 撮像画像記録装置、撮像画像記録方法、撮像画像再生装置、撮像画像再生方法及び撮像画像記録再生システム
JP2007287199A (ja) * 2006-04-13 2007-11-01 Matsushita Electric Ind Co Ltd 再生装置
JP2008153795A (ja) * 2006-12-15 2008-07-03 Casio Comput Co Ltd 動画撮影装置、動画再生制御方法、及び動画再生制御プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096392A (ja) * 1995-06-16 1997-01-10 Hitachi Ltd 話速変換装置および話速変換装置の利用方法
JP2004334046A (ja) * 2003-05-09 2004-11-25 Brother Ind Ltd 圧縮音声データ再生装置、カラオケ装置
JP2005115980A (ja) * 2003-10-02 2005-04-28 Sony Corp オーディオ信号処理装置及びオーディオ信号処理方法
WO2007029832A1 (ja) * 2005-09-08 2007-03-15 Sony Corporation 撮像画像記録装置、撮像画像記録方法、撮像画像再生装置、撮像画像再生方法及び撮像画像記録再生システム
JP2007287199A (ja) * 2006-04-13 2007-11-01 Matsushita Electric Ind Co Ltd 再生装置
JP2008153795A (ja) * 2006-12-15 2008-07-03 Casio Comput Co Ltd 動画撮影装置、動画再生制御方法、及び動画再生制御プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110521211A (zh) * 2017-04-17 2019-11-29 索尼公司 发送设备、发送方法、接收设备、接收方法、记录设备和记录方法
CN110086905A (zh) * 2018-03-26 2019-08-02 华为技术有限公司 一种录像方法及电子设备
WO2019183784A1 (zh) * 2018-03-26 2019-10-03 华为技术有限公司 一种录像方法及电子设备
CN110506415A (zh) * 2018-03-26 2019-11-26 华为技术有限公司 一种录像方法及电子设备
CN110086905B (zh) * 2018-03-26 2020-08-21 华为技术有限公司 一种录像方法及电子设备
CN110506415B (zh) * 2018-03-26 2021-03-30 华为技术有限公司 一种录像方法及电子设备

Also Published As

Publication number Publication date
JP2010178124A (ja) 2010-08-12

Similar Documents

Publication Publication Date Title
WO2010086912A1 (ja) 記録装置及び記録方法
US10244271B2 (en) Audio recording device, audio recording system, and audio recording method
JPH0730837A (ja) 電子スチルカメラ
JP2007511992A (ja) 動画撮影装置および動画撮影方法、動画撮影装置により映像信号が記録された記録媒体、記録媒体に記録された映像信号を再生する動画再生装置および動画再生方法
JP2007312006A (ja) ストリーム生成装置、撮像装置、データ処理装置、およびストリーム生成方法
JP2010081457A (ja) 情報記録再生装置およびビデオカメラ
US20180012618A1 (en) Image processing apparatus, image pickup device, image processing method, and program
JP2004180290A (ja) 伝送装置と伝送方法と再生装置と再生方法およびプログラムと記録媒体
JP4973497B2 (ja) 撮像画像記録装置、撮像画像記録方法、撮像画像再生装置、撮像画像再生方法及び撮像画像記録再生システム
US6334023B1 (en) Method of and arrangement for recording and reproducing video images
US7236688B2 (en) Signal processing method and signal processing apparatus
JP4346966B2 (ja) 撮像装置
JP3925487B2 (ja) 撮像装置と撮像方法
KR20000035719A (ko) 영상 신호 기록 재생 방법 및 장치
JP3566216B2 (ja) デジタル音声映像情報の記録装置
JP4377079B2 (ja) 信号処理方法及び信号処理装置
JP3926102B2 (ja) Mpeg方式の映像・音声データ記録システム及びその編集システム
JP4510337B2 (ja) 信号処理方法及び信号処理装置
JP4520483B2 (ja) 記録再生方法及び記録再生装置
JP4251859B2 (ja) データ処理装置及び方法
JP4356046B2 (ja) 符号化データ記録再生装置、及び符号化データ再生装置
JP3985775B2 (ja) 編集画像表示制御装置と編集画像表示制御方法およびプログラム
JP2006121183A (ja) 映像記録再生装置
JP4641023B2 (ja) 映像信号再生装置
JP3093153U (ja) 光ディスク装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09839104

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09839104

Country of ref document: EP

Kind code of ref document: A1