WO2022030259A1 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2022030259A1
WO2022030259A1 PCT/JP2021/027256 JP2021027256W WO2022030259A1 WO 2022030259 A1 WO2022030259 A1 WO 2022030259A1 JP 2021027256 W JP2021027256 W JP 2021027256W WO 2022030259 A1 WO2022030259 A1 WO 2022030259A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
audio signal
target sound
sound
editing
Prior art date
Application number
PCT/JP2021/027256
Other languages
English (en)
French (fr)
Inventor
優樹 山本
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US18/005,801 priority Critical patent/US20230282226A1/en
Publication of WO2022030259A1 publication Critical patent/WO2022030259A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Definitions

  • the present technology relates to signal processing devices and methods, and programs, and in particular, to signal processing devices, methods, and programs that have made it possible to reduce content production costs.
  • the types of sound sources included in video content such as movies and dramas are broadly divided into audio, background sounds, sound effects, and music.
  • identification processing such as speaker identification and environmental sound identification is known, and a method using linear identification, decision tree, support vector machine, neural network, etc. is proposed as such identification processing.
  • a method using linear identification, decision tree, support vector machine, neural network, etc. is proposed as such identification processing.
  • the creator of the sound of these contents performed the following two editing tasks E1 and E2 so that the sound could be heard in the work of mixing multiple sound sources, that is, the mixing work.
  • editing work E2 As a specific example of editing work E2, the following editing work E2 (1) to E2 (3) can be considered.
  • This technology was made in view of such a situation, and makes it possible to reduce the production cost of contents.
  • the signal processing device of one aspect of the present technology is based on a mixed audio signal including the sound of the target sound source and the sound of a non-target sound source different from the target sound source, and the time of the sound of the target sound source from the mixed audio signal.
  • the mixed audio signal is based on a sound detection unit that detects a section, label information indicating a time section of the sound of the target sound source in the audio signal of the target sound source, and a detection result of the sound time section of the target sound source. It is provided with a sound determination unit that performs determination processing as to whether or not the sound of the target sound source is easy to hear.
  • a signal processing method or program is based on a mixed audio signal including a sound of a target sound source and a sound of a non-target sound source different from the target sound source, and the sound of the target sound source from the mixed audio signal.
  • the mixed audio signal based on the label information indicating the time interval of the sound of the target sound source in the audio signal of the target sound source and the detection result of the time section of the sound of the target sound source. It includes a step of determining whether the sound of the target sound source is easy to hear.
  • the time interval of the sound of the target sound source is detected from the mixed audio signal based on the mixed audio signal including the sound of the target sound source and the sound of a non-target sound source different from the target sound source. Then, based on the label information indicating the time interval of the sound of the target sound source in the audio signal of the target sound source and the detection result of the time section of the sound of the target sound source, the sound of the target sound source is generated in the mixed audio signal. Judgment processing is performed to determine whether it is easy to hear.
  • DAW Digital Audio Workstation
  • an editing screen as shown in FIG. 1 is displayed, and each of a plurality of sound sources constituting the content is edited.
  • the time waveforms of the audio signals of each of a plurality of sound sources are displayed side by side so that the user (content creator) who performs the editing work can simultaneously play the audio signals of these sound sources. It has become.
  • the sound source types of each audio signal that composes the content are described.
  • the sound source types “voice”, “sound effect”, “music”, and “background sound” 4 It can be seen that the content is composed of sound sources of one sound source type.
  • the time waveform of each audio signal is displayed in the area SC2, and in the area SC2, the horizontal direction indicates the time direction in the figure.
  • the audio signal of one sound source whose sound source type is "voice”, that is, the time waveform of the audio signal for one track is displayed.
  • the audio signal of one sound source is a stereo signal of two channels L and R on the left and right, but the audio signal of each sound source may be a monaural signal of one channel, or three or more. It may be a multi-channel signal of the channel of.
  • a playback bar V11 showing the playback position when playing back the content, that is, the sound based on the audio signals of all sound sources, is also displayed.
  • the playback bar V11 moves to the right in the figure.
  • the user can play the content from any playback position by moving the playback bar V11 to any position.
  • a content creator who is a user of a DAW simultaneously plays a sound based on the audio signals of all the sound sources constituting the content, and while listening to the reproduced sound, that is, the sound of the content, the above-mentioned editing work E1 and editing Perform work E2 and create content.
  • editing work E1 and editing work E2 are performed automatically, that is, on the signal processing device side that realizes DAW.
  • any type of sound source of the audio signal constituting the content may be used, but in the following, the sound source types of the audio signal constituting the content are “voice”, “sound effect”, and “sound effect”. An example in which there are four types of sound sources, “music” and “background sound”, will be described.
  • the detector used for confirming whether the voice is easy to hear is generated in advance by machine learning such as a neural network.
  • the audio signal of each sound source of the past contents is used as learning data.
  • an audio audio addition signal obtained by adding an audio signal whose sound source type is "voice” and a non-voice audio addition signal obtained by adding an audio signal whose sound source type is other than "voice” are generated. Will be done.
  • the entire sound section based on the audio-audio addition signal has sound, that is, a sounded time section (hereinafter, also referred to as a sounded section) and a non-voice time section, that is, a silent time section (hereinafter, also referred to as a silent section).
  • the audio-audio addition signal consists of a signal in a sound section and a signal in a silent section.
  • a voice correct answer label which is label information indicating whether or not the sound of the sound source type "voice" is a sound section, is assigned to each time section such as each frame of the voice audio addition signal.
  • a voice correct answer label having a value of "1”, that is, a voice correct answer label value "1”, indicating that the sound section is a sound section is given to the sound section in the voice audio addition signal.
  • a voice correct answer label having a value of "0”, that is, a voice correct answer label value "0" is given, which indicates that the section is not a sounded section.
  • Such a voice correct answer label may be automatically assigned based on a threshold value determination process for the sound pressure value of the voice audio addition signal, a detection technique by a neural network, or the like, or may be manually performed by a user or the like. You may be asked.
  • the processing boundary of the arithmetic processing in the discriminator for a predetermined frame of the input voice audio addition signal and the discriminator for other frames of the input voice audio addition signal is also possible to learn a classifier that matches the processing boundary of the arithmetic processing in. By doing so, it is possible to reduce the amount of memory required for arithmetic processing in the classifier.
  • the voice correct answer label value "1" is given when the sound pressure value of the voice audio addition signal is equal to or higher than a predetermined threshold value. do it.
  • the audio audio addition signal and the non-audio audio addition signal are added to obtain an audio addition signal.
  • a data set of this audio addition signal and the voice correct label value given for each time interval is generated for a large amount of past contents, and those data sets are prepared as learning data.
  • a voice detector is generated by performing machine learning using an audio addition signal of such a learning data set as an input and a voice correct answer label as an output using a neural network or the like.
  • the detector is learned so that the processing boundary of the arithmetic processing by the detector for a predetermined frame of the input audio addition signal coincides with the processing boundary of the arithmetic processing by the detector for other frames. You may do so.
  • the detector such as the neural network generated by the above machine learning will be referred to as a voice detector in particular.
  • the voice detector When a predetermined audio signal is input, the voice detector performs arithmetic processing based on the audio signal and parameters constituting the neural network, etc., and the sound based on the audio signal includes the sound of the sound source type "voice". Is detected, and the voice correct answer label is output as the detection result. In other words, the time interval of the sound of the sound source type "voice" is detected.
  • the voice correct answer label output from the voice detector is a numerical value between “0" and “1", and the closer the voice correct answer label value is to "1", the more the sound source type " It indicates that it is likely that the sound of "voice” is included.
  • this voice correct label value indicates the ease of hearing the sound whose sound source type included in the audio signal is "voice" when the sound is reproduced based on the input audio signal. be able to.
  • the data set for learning of the voice detector is an audio addition signal as a result of editing work that makes it easier for the creator to hear the sound of the sound source type "voice” in the production of past contents, and a sound source in the audio addition signal. It consists of a voice correct answer label indicating in which time interval the sound whose type is "voice" is.
  • the voice detector which is the result of learning based on such a data set for learning
  • the sound based on the input audio signal is the same as the past content (sound of sound source type "voice").
  • the voice detector outputs a voice correct answer label having a value closer to "0" so that the sound based on the input audio signal is as easy to hear as the voice that is not equivalent to the past contents. That is, the closer the voice correct label value is to "1", the easier it is to hear the sound whose sound source type is "voice” when the sound based on the input audio signal is reproduced.
  • the voice correct answer label which is the output of the voice detector, will also be referred to as a voice detection label in particular.
  • the value of the voice detection label indicates the ease of hearing the sound of the sound source type "voice" when the content is played back.
  • the voice correct answer label value "1" is given to the voice time interval, and the voice correct answer label value "0" is given to the time section other than the voice.
  • the new content referred to here is, for example, content to be edited.
  • the voice correct answer label is automatically assigned based on the threshold value determination process for the sound pressure value of the audio signal, the detection technique by the neural network, etc., as in the case of machine learning of the voice detector described above. It may be done manually, or it may be done manually by a user or the like. Further, when the speech correct answer label is given by using the discriminator by the neural network, the discriminator may be learned so that the processing boundaries of the arithmetic processing for different frames match as described above.
  • the audio signal obtained by mixing the audio signals of all the sound sources constituting the new content that is, the above-mentioned audio addition signal is input to the voice detector, and the voice detection label which is the output of the voice detector is obtained. ..
  • ifrm indicates a predetermined time interval such as a frame.
  • label ref (ifrm) indicates the audio correct answer label in the time interval ifrm given to the audio addition signal of the content, more specifically, the audio audio addition signal, and the value of the audio correct answer label label ref (ifrm) is It is set to either "0" or "1".
  • label detect (ifrm) indicates a voice detection label in the time interval ifrm, and the value of the voice detection label is a value between "0" and "1".
  • the difference label diff is the difference value between the values of the voice correct label label ref (ifrm) and the value of the voice detection label label detect (ifrm).
  • threshold processing is performed based on the difference label diff (ifrm) and the predetermined threshold thre, and the time interval in which the difference label diff (ifrm) is larger than the threshold thre is performed.
  • the sound of the sound source type "voice" that is, the voice is difficult to hear.
  • the threshold threshold is 0.5.
  • the value of the difference label diff (ifrm) is 0 or less, the above-mentioned editing work E2 is unnecessary because the voice is not included in the time interval.
  • the gain of the audio signal of the sound source type “voice” is adjusted, and the audio signal after the gain adjustment is used to generate the audio addition signal. Then, a difference label diff (ifrm) is obtained based on the obtained audio addition signal, and the above-mentioned determination process is performed.
  • the volume of the audio signal of the sound source type "voice" is increased by 0.1 dB.
  • the gain adjustment is performed within a predetermined adjustment range (hereinafter, also referred to as a volume adjustment range) such that the volume adjustment is from -6 dB to 6 dB.
  • the volume adjustment range may be a range in which the volume can be increased or decreased, that is, a range in which the adjustment amount can be taken, or the volume of the sound based on the audio signal after the volume adjustment (gain adjustment) is taken. It may be within the range to be obtained.
  • gain adjustment is also performed for an audio signal whose sound source type is other than "voice".
  • the gain adjustment for reducing the volume by 0.1 dB is repeatedly performed for the audio signal whose sound source type is other than “voice”.
  • Gain adjustment for audio signals whose sound source type is other than "voice” is also performed so that the volume adjustment is within the volume adjustment range, for example, from -6 dB to 6 dB.
  • the audio of the sound source type other than "voice” is further adjusted.
  • Gain adjustments can be made to the signal.
  • the gain adjustment for the audio signal of the sound source type "voice” and the gain adjustment for the audio signal whose sound source type is other than "voice” may be performed at the same time.
  • equalizer processing is performed to increase the level of a predetermined EQ band (frequency band) in an audio signal whose sound source type is "voice" by 0.1 dB.
  • the level of a predetermined EQ band may be increased, and at the same time, the level of another EQ band different from the predetermined EQ band may be decreased.
  • the EQ band to be processed by the equalizer processing that is, the EQ band that increases the level (increases the volume) is, for example, an EQ band in which a general audio audio signal contains many components.
  • the equalizer processing for the audio signal whose sound source type is "voice” is repeated within a predetermined level (volume) range, for example, within the above-mentioned volume adjustment range, until the difference label diff (ifrm) becomes equal to or less than the threshold value thre. It will be done.
  • the range of the adjustable level (volume) may be determined for the entire audio signal (entire frequency band) or for each EQ band.
  • the range of the adjustable volume (level) may be different between the processing of the editing work E2 (1) and the processing of the editing work E2 (2).
  • an equalizer processing for reducing the level of a predetermined EQ band in an audio signal whose sound source type is other than "voice" is performed by 0.1 dB.
  • the equalizer processing for the audio signal whose sound source type is other than "voice” is repeatedly performed, for example, within the above-mentioned volume adjustment range until the difference label diff (ifrm) becomes equal to or less than the threshold value thre.
  • the equalizer processing is performed for the audio signal of the sound source type "voice", but the difference label diff (ifrm) does not fall below the threshold threshold within the volume adjustment range, the equalizer for the audio signal of the sound source type other than "voice” is further performed.
  • the process can be done.
  • equalizer processing may be performed simultaneously for the audio signal of the sound source type "voice" and the audio signal of the sound source type other than "voice".
  • an audio signal whose sound source type is other than "voice” is subjected to the same sound source type as the sound source type of the audio signal, that is, information on the characteristics of the same sound source (same attribute).
  • the replacement process of replacing the other audio signal with the other audio signal is performed.
  • a process of replacing an audio signal of a predetermined sound effect with an audio signal of another sound effect similar to the sound effect is performed as a replacement process.
  • the replaced audio signal is used to generate an audio addition signal. Then, the difference label diff (ifrm) is obtained based on the obtained audio addition signal, the above-mentioned determination process is performed, and the replacement process is repeated until the difference label diff (ifrm) becomes equal to or less than the threshold value thre.
  • any one of the editing work E2 (1) to the editing work E2 (3) may be performed independently, or two or three.
  • the processes may be performed in combination.
  • the processing of editing work E2 (1) is performed first, and in the processing of editing work E2 (1), when the difference label diff (ifrm) does not fall below the threshold threshold within the volume adjustment range, further.
  • the processing of the editing work E2 (2) and the editing work E2 (3) may be performed in order.
  • the processing of the editing work E2 (2) is performed on the audio signal obtained as the processing result of the editing work E2 (1), and the audio obtained as the processing result of the editing work E2 (2) is further performed.
  • Editing work E2 (3) may be performed on the signal.
  • the processing of the editing work E2 (2) is performed after the processing of the editing work E2 (1)
  • the editing work is performed before the processing of the editing work E2 (1), that is, the original audio signal.
  • the processing of E2 (2) may be performed.
  • FIGS. 2 to 6 the parts corresponding to the case in FIG. 1 are designated by the same reference numerals, and the description thereof will be omitted as appropriate. Further, in FIGS. 2 to 6, the parts corresponding to each other are designated by the same reference numerals, and the description thereof will be omitted as appropriate.
  • This edit screen is provided with an area SC1 in which the sound source type of each audio signal is displayed and an area SC2 in which the time waveform of each audio signal is displayed, and the reproduction bar V11 is also displayed in the area SC2. ..
  • a GUI for specifying the parameter (threshold threshold) used in the judgment process, and more specifically, the detection button B11 as a GUI component (widget).
  • the detection button B11 as a GUI component (widget).
  • a detection threshold bar B12 and a text box B13 for the detection threshold.
  • the adjustment button B14 and the adjustment threshold are used as a GUI (GUI component) for instructing the execution of editing work processing that makes the sound easier to hear and for specifying the parameters (volume adjustment range) used in the editing work processing.
  • GUI GUI component
  • a bar B15, a text box B16 for the lower limit of the adjustment threshold, and a text box B17 for the upper limit of the adjustment threshold are also provided.
  • the user who is the creator of the content operates the detection buttons B11 to the text box B17 to determine whether the voice is easy to hear and adjust parameters such as a threshold value in the process of making the voice easy to hear. Can be done.
  • the detection threshold bar B12 is a GUI for adjusting (designating) the threshold threshold used in the determination process of whether or not the voice is easy to hear.
  • the threshold threshold is set to "0"
  • the threshold value is set to "1”.
  • the user can also set the threshold value by inputting a numerical value to be the threshold value in the text box B13 for the detection threshold value.
  • the threshold value thre 0.5.
  • the user can appropriately perform an operation on the detection threshold bar B12 and the text box B13, and then press (operate) the detection button B11 to execute a determination process of whether or not the content being edited is easy to hear. can.
  • the determination result is reflected, for example, the edit screen is displayed as shown in FIG.
  • the part of the time interval in which the difference label diff (ifrm) is larger than the threshold value that is, the part of the time interval T11 to the time interval T13 is red, and other times. It is displayed in a different color from the section.
  • time intervals T11 to time interval T13 indicate the time intervals in which it is determined that the voice is difficult to hear as a result of the determination processing of whether the voice is easy to hear.
  • the user can manually perform the above-mentioned editing work E2 for these time intervals T11 to T13, or can make them perform automatically.
  • the processing of the editing work E2 can be executed or the gain can be executed by operating the adjustment button B14, the adjustment threshold bar B15, the text box B16, and the text box B17. You can specify parameters for adjustment, etc.
  • the adjustment threshold bar B15 is provided with two sliders, and the user can operate these sliders to adjust the volume in the processing of editing work E2 (1) and the processing of editing work E2 (2). It is possible to specify (change) the upper limit value and the lower limit value of a certain adjustment threshold value.
  • the user can specify the lower limit value of the adjustment threshold value by operating the slider on the left side of the adjustment threshold bar B15 (hereinafter referred to as the left slider).
  • the left slider can be set to the adjustment threshold bar B15.
  • the lower limit is set to -12 dB.
  • the user can also specify the lower limit of the adjustment threshold by directly inputting a desired numerical value in the text box B16 for the lower limit of the adjustment threshold.
  • the lower limit of the adjustment threshold is It is said to be "-2.0 dB".
  • the user can specify the upper limit of the adjustment threshold value by operating the slider on the right side of the adjustment threshold bar B15 (hereinafter referred to as the right slider).
  • the upper limit is set to 12 dB.
  • the user can also specify the upper limit of the adjustment threshold by inputting a desired numerical value in the text box B17 for the upper limit of the adjustment threshold.
  • the upper limit of the adjustment threshold is "3.0 dB". It is said that.
  • the adjustment button B14 When the adjustment button B14 is operated (pressed) after the user operates the adjustment threshold bar B15 or the like to set the upper limit value and the lower limit value of the adjustment threshold value, that is, the volume adjustment range, for example, in the editing work E2 (1).
  • the process is automatic, that is, on the device side.
  • the processing result of the editing work E2 (1) is reflected in the display of the editing screen, and the display of the editing screen is updated as shown in FIG. 4, for example.
  • the area of the time section of the track (sound source) for which gain adjustment (volume adjustment) has been performed by the processing of editing work E2 (1) is displayed in a different color from the other areas.
  • the areas R11 to R13 in the sound source type "voice" part of the area SC2 are displayed in a different color from other areas such as yellow.
  • the area R14 and area R15 in the part of the sound source type other than the sound source type "voice" of the area SC2 are displayed in a color different from other areas such as purple.
  • Areas R11 to R13 displayed in yellow indicate the time interval in which the volume adjustment, that is, the gain adjustment, of the editing work E2 (1) in the audio signal (track) whose sound source type is "voice" is performed. The amount of adjustment in gain adjustment is displayed in those areas.
  • the numerical value "+3.0" indicating the adjustment amount is displayed in the area R11, and it can be seen that the volume is adjusted by 3.0 dB by the gain adjustment in the time section corresponding to the area R11.
  • the gain is adjusted for the same time section of three tracks whose sound source type is “voice”.
  • Areas R14 and R15 displayed in purple indicate the time interval in which the gain adjustment of the editing work E2 (1) was performed in the audio signal (track) whose sound source type is other than "audio".
  • the adjustment amount in the gain adjustment is displayed in the area.
  • a track whose sound source type is other than "voice” is a track whose sound source type is "sound effect”, "music", and "background sound”.
  • the numerical value "-1.8" indicating the adjustment amount is displayed in the area R14, and it can be seen that the volume is lowered by 1.8 dB by the gain adjustment in the time section corresponding to the area R14.
  • the gain is adjusted for the same time section of three tracks whose sound source type is other than "voice".
  • the user can adjust the gain in which time interval and how much. Can be instantly grasped as to whether or not was performed. This makes it possible to improve the usability of DAWs to which this technology is applied, that is, content editing software.
  • the processing result of the editing work E2 (2) is reflected in the display of the editing screen, and the display of the editing screen is updated as shown in FIG. 5, for example.
  • the area of the time section of the track (sound source) that has been equalized by the processing of editing work E2 (2) is displayed in a different color from the other areas.
  • the area R11 and the area R12 in the sound source type "voice" part of the area SC2 are displayed in a different color from other areas such as yellow.
  • the display of the area R13 is the same as that in FIG. 4, and it can be seen that the processing of the editing work E2 (2) was not performed for the time interval corresponding to the area R13.
  • the area R14 and area R15 in the part of the sound source type other than the sound source type "voice" of the area SC2 are displayed in a color different from other areas such as purple.
  • the part of the time interval ifrm whose difference label diff (ifrm) is larger than the threshold threshold is replaced with the signal of another sound source.
  • the replacement process (replaced) is performed.
  • the replacement process may be performed for all tracks whose sound source type is other than "voice", or tracks are selected one by one until the difference label diff (ifrm) becomes equal to or less than the threshold threshold.
  • the replacement process may be performed.
  • the order of selecting as the track to be replaced is determined based on the sound source type and the sound pressure value of the audio signal in the time interval ifrm in which the difference label diff (ifrm) is larger than the threshold value thre. do it.
  • the entire audio signal of the track may be replaced with the audio signal of another sound source.
  • the area R11 to the area R13 of the time interval of the track (sound source) where the editing work E2 (1) and the editing work E2 (2) are processed in the sound source type "voice" part of the area SC2 is yellow. It is displayed in a different color from other areas.
  • the area R14 and the area R15 of the time section of the track (sound source) replaced by the processing of the editing work E2 (3) are purple, etc. It is displayed in a different color from the area.
  • the character string "REPLACE” indicating that the replacement process was performed for the time interval corresponding to those areas is also displayed.
  • the user can instantly grasp which track and which time section the replacement process was performed on.
  • the user can not only apply this technology to the content being edited as needed, but also further in the DAW after application. Editing can also be done, which makes editing work more efficient. As a result, it is possible to keep the production cost of the content low.
  • FIG. 7 is a diagram showing a configuration example of an embodiment of the signal processing apparatus to which the present technology described above is applied.
  • the signal processing device 11 shown in FIG. 7 is composed of, for example, a personal computer, a tablet-type terminal device, or the like, and realizes a DAW or the like by executing a program.
  • the signal processing device 11 has an input unit 21, a correct label generation unit 22, an audio signal editing unit 23, a voice detection unit 24, a voice determination unit 25, a display control unit 26, and a display unit 27.
  • the input unit 21 is composed of, for example, a mouse, a keyboard, a touch panel, etc., and supplies signals according to the user's operation to the audio signal editing unit 23 and the display control unit 26.
  • the correct answer label generation unit 22 adds an audio signal whose sound source type is "voice" among the audio signals of each sound source constituting the supplied content to generate a voice audio addition signal, and voice to the voice audio addition signal. Give the correct answer label. In other words, a voice correct label for each time interval is generated based on the voice-audio addition signal.
  • This voice correct answer label is label information indicating whether or not the time section of the voice audio addition signal is a sound section of the sound of the sound source type "voice", and is a value of either "0" or "1". Will be done.
  • the correct answer label generation unit 22 supplies the voice correct answer label for each time section of the voice audio addition signal to the voice determination unit 25.
  • the signal processing device 11 may not be provided with the correct answer label generation unit 22, and the voice correct answer label for each time section generated manually by the user or the like may be supplied to the voice determination unit 25.
  • the audio signal editing unit 23 appropriately edits the audio signal of each sound source constituting the supplied content, and outputs the audio signal of each sound source obtained as a result to the audio detection unit 24 and the display control unit 26. Supply to.
  • the audio signal editing unit 23 performs the above-mentioned editing work E2 as an editing process, and supplies the editing information related to the editing to the display control unit 26.
  • the editing information is information indicating the editing contents and editing points performed on the audio signal. That is, for example, the editing information includes an audio signal to be edited, a time interval in which the audio signal is edited, and information indicating the content of the editing process performed in the time interval.
  • the information indicating the content of the editing process includes not only the types of editing processing such as gain adjustment, equalizer processing, and replacement processing, but also information indicating the amount of volume adjustment during the editing process and the sound source after replacement. ing.
  • the voice detection unit 24 holds a voice detector generated by machine learning in advance, and the audio signal of the sound source constituting the content supplied from the audio signal editing unit 23 based on the holding voice detector.
  • a voice detection label is given to the device. In other words, a voice detection label is generated for each time interval of the content.
  • the voice detector is composed of, for example, a neural network generated by performing machine learning based on a data set for learning.
  • the learning data set of the voice detector is a mixture of the audio signal of the target sound source "voice" obtained for multiple contents and the audio signal of the non-target sound source, that is, the sound source different from the "voice". It consists of an audio signal (audio addition signal) and an audio correct answer label given to the audio signal (audio audio addition signal) of the target sound source.
  • This voice detector takes an audio signal in which the sound of the target sound source and the sound of the non-target sound source are mixed as an input, detects the time interval of the sound of the target sound source in the input audio signal, and detects the sound detection label as the detection result. Is output.
  • the voice detection label is a numerical value between "0" and "1".
  • the voice detection unit 24 supplies the voice detection label, which is the output of the voice detector, to the voice determination unit 25.
  • the voice determination unit 25 determines the target sound source type "voice" for each time interval based on the voice correct answer label supplied from the correct answer label generation unit 22 and the voice detection label supplied from the voice detection unit 24. A determination process is performed to determine whether the sound is easy to hear, and the determination result is supplied to the audio signal editing unit 23 and the display control unit 26.
  • the display control unit 26 controls the display unit 27 based on the signal from the input unit 21, the determination result from the voice determination unit 25, the audio signal from the audio signal editing unit 23, and the editing information, and the display unit 27 has a DAW or the like. Display the content editing screen by.
  • This editing screen is a screen for editing the audio signal of each sound source of the content described with reference to, for example, FIGS. 2 to 6, and the display control unit 26 controls the display unit 27 to display on the editing screen.
  • Display GUI components such as the detection button B11 to the text box B17.
  • the display unit 27 is a display device such as a display, and displays an image such as an edit screen according to the control of the display control unit 26.
  • the audio signal of each sound source (track) of the content to be edited is read by the signal processing device 11, and the editing screen shown in FIG. 2 is displayed on the display unit 27.
  • the signal processing device 11 automatically edits. Start processing.
  • step S11 the correct answer label generation unit 22 assigns a voice correct answer label to the audio signal of the supplied content.
  • the correct answer label generation unit 22 adds an audio signal whose sound source type is "voice" among the audio signals of each sound source constituting the supplied content to generate a voice audio addition signal.
  • the correct answer label generation unit 22 performs threshold value determination processing for the sound pressure value of the voice audio addition signal, and arithmetic processing based on the parameters constituting the classifier such as the neural network learned in advance and the voice audio addition signal. By doing so, it is detected whether or not the sound of the sound source type "voice" is included in each time section of the voice-audio addition signal.
  • the correct answer label generation unit 22 supplies the voice correct answer label for each time section obtained as a result of detecting whether the sound of the sound source type “voice” is included to the voice determination unit 25.
  • the audio signal editing unit 23 supplies the audio signal of each sound source constituting the supplied content to the voice detection unit 24 as it is.
  • step S12 the voice detection unit 24 has a voice with respect to the audio signal of the content based on the voice detector held in advance and the audio signal of each sound source constituting the content supplied from the audio signal editing unit 23. Give a detection label.
  • the voice detection unit 24 adds the audio signals of all the sound sources (tracks) constituting the supplied content to generate an audio addition signal, and is based on the audio addition signal and the parameters constituting the voice detector. By performing arithmetic processing, a voice detection label for each time interval is obtained.
  • the voice detection unit 24 supplies the voice detection label for each time section thus obtained to the voice determination unit 25.
  • step S13 the voice determination unit 25 calculates the above equation (1) based on the voice correct answer label supplied from the correct answer label generation unit 22 and the voice detection label supplied from the voice detection unit 24, and calculates the time interval. Find the difference label diff (ifrm) for each.
  • step S14 the voice determination unit 25 compares the threshold value determined according to the signal supplied from the input unit 21 with the difference label diff (ifrm) obtained in step S13, and the difference label diff (ifrm) is the threshold value. Determine if it is less than or equal to thre.
  • the difference label diff (ifrm) is larger than the threshold value thre even in one time interval among all the time intervals, it is determined that the difference is not less than or equal to the threshold value thre.
  • the voice determination unit 25 supplies the determination result of whether or not it is equal to or less than the threshold value to the audio signal editing unit 23 and the display control unit 26.
  • step S14 If it is determined in step S14 that the threshold value is not less than or equal to the threshold value, that is, if it is determined that there is a time interval in which it is difficult to hear the sound, then the process proceeds to step S15.
  • the display control unit 26 determines the determination result supplied from the voice determination unit 25. Based on this, the display unit 27 is controlled to update the display on the edit screen.
  • the time interval in which it is determined that the sound is difficult to hear on the edit screen is displayed in a display format different from other time intervals.
  • a display indicating a time interval in which it is determined that the sound is difficult to hear is displayed.
  • the display of the edit screen shown in FIG. 2 is updated, and the edit screen shown in FIG. 3 is displayed on the display unit 27.
  • the user appropriately operates the input unit 21 to operate the adjustment threshold bar B15, the text box B16, and the text box B17, and specify the upper limit value and the lower limit value of the volume adjustment range (adjustment threshold value). do. Then, a signal corresponding to the user's operation is supplied from the input unit 21 to the audio signal editing unit 23 and the display control unit 26.
  • step S15 when the user operates the input unit 21 to operate the adjustment button B14 and instructs the user to execute the processing of the editing work E2, the signal corresponding to the operation is supplied from the input unit 21 to the audio signal editing unit 23. After that, the process of step S15 is performed.
  • step S15 the audio signal editing unit 23 performs the above-mentioned editing operation E2 processing as an editing process on the audio signal of the predetermined sound source constituting the content.
  • step S15 a time interval in which the difference label diff (ifrm) is larger than the threshold value thre is targeted, and editing processing is performed for that time interval.
  • the processing of the editing work E2 (1) that is, the gain adjustment for the audio signal of each sound source is performed as the processing of the editing work E2.
  • the audio signal editing unit 23 determines the gain according to the signal supplied from the input unit 21, that is, adjusts the gain within the volume adjustment range specified by the user.
  • the audio signal editing unit 23 determines in step S14 that the processing of the editing work E2 (1) is not equal to or less than the threshold value even if the processing of the editing work E2 (1) is performed within the volume adjustment range, the audio signal editing unit 23 edits as the processing of the editing work E2.
  • Work E2 (2) processing that is, equalizer processing for the audio signal of each sound source is performed. In this case, the processing of the editing work E2 (2) is performed for the time interval in which the difference label diff (ifrm) is larger than the threshold value thre.
  • the audio signal editing unit 23 determines in step S14 that the processing of the editing work E2 (2) is not equal to or less than the threshold value even if the editing work E2 (2) is performed within the volume adjustment range, the audio signal editing unit 23 performs the editing work as the processing of the editing work E2.
  • E2 (3) processing that is, replacement processing for the audio signal of each sound source is performed.
  • the processing of the editing work E2 (3) is performed for the time interval in which the difference label diff (ifrm) is larger than the threshold value thre.
  • step S15 at least one of the processes of the editing work E2 (1) and the editing work E2 (3) may be performed as the editing process.
  • step S16 the audio signal editing unit 23 generates editing information regarding the edited processing (processing of editing work E2) performed based on the processing result of editing work E2.
  • the audio signal editing unit 23 When the audio signal editing unit 23 generates the editing information, the audio signal editing unit 23 supplies the audio signal of each sound source of the edited information and the edited content to the display control unit 26, and detects the audio signal of each sound source of the edited content. Supply to unit 24.
  • step S17 the display control unit 26 controls the display unit 27 based on the signal from the input unit 21, the editing information from the audio signal editing unit 23, and the audio signal, and is displayed on the display unit 27. Update your edit screen.
  • the display control unit 26 updates the display of the editing screen and the editing screen shown in FIG. Is displayed.
  • the time interval in which the editing process is performed is displayed in a display format different from other time intervals.
  • the information indicating the content of the edited process such as "EQ” or the information indicating the content of the edited process such as "+3.0" is performed during the editing process.
  • Information indicating the adjustment amount of the adjustment is displayed.
  • FIGS. 4 to 6 only one of the information indicating the content of the editing process and the information indicating the adjustment amount of the adjustment performed during the editing process is displayed in the area of the time interval in which the editing process is performed. However, both of them may be displayed.
  • step S17 When the process of step S17 is performed, the process returns to step S12 after that, and the above-mentioned process is repeated.
  • steps S12 to S14 is performed based on the audio signal of each sound source after editing, and the editing processing is performed until it is determined that the threshold value is less than or equal to the threshold value, that is, until it is determined that the sound is easy to hear. Is repeated.
  • step S14 when it is determined in step S14 that the threshold value is less than or equal to the threshold value, the audio signal of each sound source of the content whose sound is easy to hear is obtained, so that the automatic editing process ends.
  • the audio signal editing unit 23 appropriately outputs the audio signal of each sound source of the content obtained by editing to the outside, or supplies the audio signal to a recording unit (not shown) for recording. Further, the display control unit 26 updates the display of the edit screen as necessary, for example, by displaying the edit screen shown in FIG. At this time, the processing of the editing work E2 may be completed, and a message or the like indicating that the voice becomes easier to hear may be displayed on the editing screen.
  • the signal processing device 11 determines whether the audio of the content is easy to hear, and performs editing processing to make the audio easy to hear according to the determination result. By doing so, it is possible to improve the work efficiency at the time of editing and reduce the production cost of the content.
  • the series of processes described above can be executed by hardware or software.
  • the programs constituting the software are installed on the computer.
  • the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 9 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • the CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image pickup device, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 into the RAM 503 via the input / output interface 505 and the bus 504 and executes the above-mentioned series. Is processed.
  • the program executed by the computer (CPU501) can be recorded and provided on a removable recording medium 511 as a package medium or the like, for example.
  • the program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by mounting the removable recording medium 511 in the drive 510. Further, the program can be received by the communication unit 509 and installed in the recording unit 508 via a wired or wireless transmission medium. In addition, the program can be pre-installed in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program in which processing is performed in chronological order according to the order described in the present specification, in parallel, or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the embodiment of the present technology is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present technology.
  • this technology can take a cloud computing configuration in which one function is shared by multiple devices via a network and processed jointly.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • this technology can also have the following configurations.
  • a sound detection unit that detects a time interval of the sound of the target sound source from the mixed audio signal based on a mixed audio signal including the sound of the target sound source and the sound of a non-target sound source different from the target sound source. Based on the label information indicating the time interval of the sound of the target sound source in the audio signal of the target sound source and the detection result of the time interval of the sound of the target sound source, the sound of the target sound source is easily heard in the mixed audio signal.
  • a signal processing device including a sound determination unit that performs determination processing.
  • the signal processing apparatus according to (1) or (2), further comprising an editorial unit that performs an editing process for performing the editing process.
  • the sound detection unit is based on an edited mixed audio signal including the sound of the target sound source and the sound of the non-target sound source generated by using the audio signal obtained by the editing process, and the time of the sound of the target sound source. Detect the section and The voice determination unit performs the determination process based on the detection result of the sound of the target sound source based on the edited mixed audio signal and the label information.
  • the signal processing device wherein the editing unit repeats the editing process until it is determined by the determination process that the sound of the target sound source is easy to hear.
  • Signal processing device. (6) (3) to (5) further include a display control unit that controls display according to the result of the determination process on the edit screen for editing the audio signal of the target sound source and the audio signal of the non-target sound source.
  • the signal processing device according to any one of the items.
  • the display control unit adjusts the information indicating the editing process performed during the time interval in which the editing process is performed on the editing screen, and the adjustment performed during the editing process.
  • the voice detection unit detects the time section of the sound of the target sound source based on the sound detector that inputs the mixed audio signal and outputs the detection result of the sound time section of the target sound source (1).
  • the signal processing apparatus according to any one of (12).
  • the signal processing device according to (14), wherein the voice detector is configured by a neural network.
  • the sound of the target sound source is easily heard in the mixed audio signal.
  • a signal processing method for determining whether or not (19) Based on the mixed audio signal including the sound of the target sound source and the sound of a non-target sound source different from the target sound source, the time interval of the sound of the target sound source is detected from the mixed audio signal. Based on the label information indicating the time interval of the sound of the target sound source in the audio signal of the target sound source and the detection result of the time interval of the sound of the target sound source, the sound of the target sound source is easily heard in the mixed audio signal.
  • 11 signal processing device 21 input unit, 22 correct label generation unit, 23 audio signal editing unit, 24 voice detection unit, 25 voice judgment unit, 26 display control unit, 27 display unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

本技術は、コンテンツの制作コストを削減することができるようにする信号処理装置および方法、並びにプログラムに関する。 信号処理装置は、目的音源の音、および目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、混合オーディオ信号から目的音源の音の時間区間を検出する音声検出部と、目的音源のオーディオ信号における目的音源の音の時間区間を示すラベル情報と、目的音源の音の時間区間の検出結果とに基づいて、混合オーディオ信号において目的音源の音が聞こえやすいかの判定処理を行う音声判定部とを備える。本技術は信号処理装置に適用することができる。

Description

信号処理装置および方法、並びにプログラム
 本技術は、信号処理装置および方法、並びにプログラムに関し、特に、コンテンツの制作コストを削減することができるようにした信号処理装置および方法、並びにプログラムに関する。
 映画やドラマ等の映像コンテンツに含まれる音源の種別は、大きく、音声、背景音、効果音、音楽に大別される。
 例えば音源の種別に関する技術として、話者識別や環境音識別等の識別処理が知られており、そのような識別処理として線形識別、決定木、サポートベクタマシン、ニューラルネットワークなどを利用した方法が提案されている(例えば、非特許文献1および非特許文献2参照)。
Kevin P. Murphy, Machine Learning: A Probabilistic Perspective, The MIT Press, 2012 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, The MIT Press, 2016
 ところで、映画やドラマ等の映像コンテンツに含まれる音源のうち、音声は最も重要な音源であることが多い。音声はセリフやナレーションなど、コンテンツの物語や内容を伝えるために重要な役割を果たすからである。
 それゆえ、これらコンテンツの音の制作者は、複数の音源を混合する作業、つまりミキシング作業において、音声が聞こえるように以下の2つの編集作業E1およびE2を行っていた。
(編集作業E1)
 音声が聞こえやすいかの確認
(編集作業E2)
 音声が聞こえにくい場合に、音声を聞こえやすくする編集作業
 編集作業E2の具体的な例としては、以下の編集作業E2(1)乃至E2(3)が考えられる。
(編集作業E2(1))
 音声の音量を上げる、または音声以外の音源の音量を下げる
(編集作業E2(2))
 音声のEQ(Equalizer)を変える、または音声以外の音源のEQを変える
(編集作業E2(3))
 音声以外の音源を、他の音源に差し替える
 しかしながら、現状では、これらの編集作業は手動で行われているため、コンテンツの制作コストが高くなってしまう。
 本技術は、このような状況に鑑みてなされたものであり、コンテンツの制作コストを削減することができるようにするものである。
 本技術の一側面の信号処理装置は、目的音源の音、および前記目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、前記混合オーディオ信号から前記目的音源の音の時間区間を検出する音声検出部と、前記目的音源のオーディオ信号における前記目的音源の音の時間区間を示すラベル情報と、前記目的音源の音の時間区間の検出結果とに基づいて、前記混合オーディオ信号において前記目的音源の音が聞こえやすいかの判定処理を行う音声判定部とを備える。
 本技術の一側面の信号処理方法またはプログラムは、目的音源の音、および前記目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、前記混合オーディオ信号から前記目的音源の音の時間区間を検出し、前記目的音源のオーディオ信号における前記目的音源の音の時間区間を示すラベル情報と、前記目的音源の音の時間区間の検出結果とに基づいて、前記混合オーディオ信号において前記目的音源の音が聞こえやすいかの判定処理を行うステップを含む。
 本技術の一側面においては、目的音源の音、および前記目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、前記混合オーディオ信号から前記目的音源の音の時間区間が検出され、前記目的音源のオーディオ信号における前記目的音源の音の時間区間を示すラベル情報と、前記目的音源の音の時間区間の検出結果とに基づいて、前記混合オーディオ信号において前記目的音源の音が聞こえやすいかの判定処理が行われる。
DAWの編集画面例を示す図である。 本技術を適用したDAWの編集画面例を示す図である。 本技術を適用したDAWの編集画面例を示す図である。 本技術を適用したDAWの編集画面例を示す図である。 本技術を適用したDAWの編集画面例を示す図である。 本技術を適用したDAWの編集画面例を示す図である。 信号処理装置の構成例を示す図である。 自動編集処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 本技術は、上述した編集作業E1や編集作業E2を自動化することで、コンテンツの制作コストを削減できるようにするものである。
 一般的に、映画やドラマ等の映像コンテンツの音源のミキシング作業の多くは、DAW(Digital Audio Workstation)と呼ばれるソフトウェアにより行われる。
 例えばDAWでは、図1に示すような編集画面が表示され、コンテンツを構成する複数の各音源の編集が行われる。
 この例では、複数の各音源のオーディオ信号の時間波形が並べられて表示されており、編集作業を行うユーザ(コンテンツ制作者)は、これらの音源のオーディオ信号を同時に再生させることができるようになっている。
 編集画面の領域SC1の部分には、コンテンツを構成する各オーディオ信号の音源種別が記されており、ここでは音源種別「音声」、「効果音」、「音楽」、および「背景音」の4つの音源種別の音源によりコンテンツが構成されていることが分かる。
 領域SC2の部分には、各オーディオ信号の時間波形が表示されており、領域SC2において図中、横方向は時間方向を示している。
 例えば領域SC2における領域SC3の部分には、音源種別が「音声」である1つの音源のオーディオ信号、すなわち1トラック分のオーディオ信号の時間波形が表示されている。
 なお、この例では1つの音源のオーディオ信号がLとRの左右2チャネルのステレオ信号となっているが、各音源のオーディオ信号は、1つのチャネルのモノラル信号であってもよいし、3以上のチャネルのマルチチャネル信号であってもよい。
 また、編集画面における領域SC2内には、コンテンツ、つまり全音源のオーディオ信号に基づく音を再生するときの再生位置を示す再生バーV11も表示されており、ユーザがコンテンツを再生させると、時間とともに再生バーV11が図中、右方向へと移動していく。
 ユーザは、再生バーV11を任意の位置に動かすことで、コンテンツを任意の再生位置から再生させることができる。
 一般的に、DAWのユーザであるコンテンツ制作者は、コンテンツを構成する全音源のオーディオ信号に基づく音を同時に再生させ、その再生音、つまりコンテンツの音を聞きながら、上述した編集作業E1や編集作業E2を行い、コンテンツを制作する。
 本技術では、編集作業E1や編集作業E2が自動的に、すなわちDAWを実現する信号処理装置側で行われるようにした。
 以下、これらの編集作業E1や編集作業E2の自動化技術について説明する。
 なお、コンテンツを構成するオーディオ信号の音源種別として、どのような種別のものがあってもよいが、以下では、コンテンツを構成するオーディオ信号の音源種別として、「音声」、「効果音」、「音楽」、および「背景音」の4種類の音源種別がある例について説明する。
(A1:音声が聞こえやすいかの確認の自動化)
 まず、編集作業E1、すなわちコンテンツにおいて音声が聞こえやすいかの確認の自動化について説明する。本技術では、音声を検出する検出器が用いられて、音声が聞こえやすいかの確認が信号処理装置側で行われる。
(A1-1:検出器の学習)
 本技術では、音声が聞こえやすいかの確認に用いられる検出器は、例えばニューラルネットワーク等の機械学習により予め生成される。
 検出器の機械学習では、例えば過去のコンテンツの各音源のオーディオ信号が学習データとして用いられる。
 先述の通り、過去のコンテンツの多くはDAWにより編集されて生成されているので、そのような過去のコンテンツの多くについて、音源ごとのオーディオ信号を利用することが可能である。
 まず、ある過去のコンテンツについて、音源種別が「音声」であるオーディオ信号を加算した音声オーディオ加算信号と、音源種別が「音声」以外のものであるオーディオ信号を加算した音声外オーディオ加算信号が生成される。
 音声オーディオ加算信号に基づく音の区間全体は、音声がある、つまり有音の時間区間(以下、有音区間とも称する)と、音声以外の時間区間、つまり無音の時間区間(以下、無音区間とも称する)とからなる。換言すれば、音声オーディオ加算信号は、有音区間の信号と、無音区間の信号とからなる。
 機械学習時には、このような音声オーディオ加算信号の各フレームなど、各時間区間に対して音源種別「音声」の音の有音区間であるか否かを示すラベル情報である音声正解ラベルが付与される。
 具体的には音声オーディオ加算信号における有音区間に対しては、有音区間であることを示す、値が「1」である音声正解ラベル、つまり音声正解ラベル値「1」が付与される。
 これに対して、音声オーディオ加算信号における無音区間に対しては、有音区間ではないことを示す、値が「0」である音声正解ラベル、つまり音声正解ラベル値「0」が付与される。
 このような音声正解ラベルの付与は、音声オーディオ加算信号の音圧値に対する閾値判定処理や、ニューラルネットワークによる検出技術などに基づいて自動で行われるようにしてもよいし、ユーザ等により手動で行われるようにしてもよい。
 例えばニューラルネットワークによる識別器により音声正解ラベルが付与される場合、入力した音声オーディオ加算信号の所定フレームに対する識別器での演算処理の処理境界と、入力した音声オーディオ加算信号の他のフレームに対する識別器での演算処理の処理境界とが一致するような識別器を学習するようにしてもよい。そうすれば、識別器での演算処理時の必要メモリ量を削減することができる。
 また、例えば閾値判定処理により音声正解ラベルの付与が行われる場合には、音声オーディオ加算信号の音圧値が所定の閾値以上であるときに、音声正解ラベル値「1」が付与されるようにすればよい。
 次に、音声オーディオ加算信号と音声外オーディオ加算信号とが加算され、オーディオ加算信号とされる。
 このオーディオ加算信号と、時間区間ごとに付与された音声正解ラベル値とのデータセットが大量の過去のコンテンツについて生成され、それらのデータセットが学習データとして用意される。
 そして、このような学習用のデータセットのオーディオ加算信号を入力とし、音声正解ラベルを出力とする機械学習を、ニューラルネットワーク等を用いて行うことで、音声の検出器が生成される。
 この場合においても、入力するオーディオ加算信号の所定フレームに対する検出器での演算処理の処理境界と、他のフレームに対する検出器での演算処理の処理境界とが一致するような検出器が学習されるようにしてもよい。
 以下では、以上の機械学習により生成したニューラルネットワーク等の検出器を、特に音声検出器とも称することとする。
 音声検出器は、所定のオーディオ信号が入力されると、そのオーディオ信号とニューラルネットワーク等を構成するパラメータとに基づく演算処理を行い、オーディオ信号に基づく音に音源種別「音声」の音が含まれているかを検出し、その検出結果として音声正解ラベルを出力する。換言すれば、音源種別「音声」の音の時間区間が検出される。
 音声検出器の出力となる音声正解ラベルは、「0」から「1」までの間の数値となっており、音声正解ラベル値が「1」に近いほど、入力されたオーディオ信号に音源種別「音声」の音が含まれている可能性が高いことを示している。
 同時に、この音声正解ラベル値は、入力されたオーディオ信号に基づいて音を再生した場合における、そのオーディオ信号に含まれている音源種別が「音声」である音の聞こえやすさを示しているということができる。
 すなわち、音声検出器の学習用のデータセットは、過去のコンテンツの制作において、制作者が音源種別「音声」の音を聞こえやすくした編集作業の結果のオーディオ加算信号と、そのオーディオ加算信号において音源種別が「音声」である音がどの時間区間にあるのかを示す音声正解ラベルとからなる。
 そのため、このような学習用のデータセットに基づき学習を行った結果である音声検出器は、入力されたオーディオ信号に基づく音が、過去のコンテンツと同等の音声(音源種別「音声」の音)の聞こえやすさであるほど、「1」に近い値の音声正解ラベルを出力する。逆に、音声検出器は、入力されたオーディオ信号に基づく音が、過去のコンテンツと同等でない音声の聞こえやすさであるほど「0」に近い値の音声正解ラベルを出力する。つまり、音声正解ラベル値が「1」に近いほど、入力されたオーディオ信号に基づく音を再生したときに、音源種別が「音声」である音が聞こえやすいことになる。
 以下では、音声検出器の出力である音声正解ラベルを、特に音声検出ラベルとも称することとする。音声検出ラベルの値は、コンテンツを再生したときの音源種別「音声」の音の聞こえやすさを示している。
(A1-2:検出器の適用)
 続いて、以上において説明した音声検出器の適用について説明する。
 新たなコンテンツの音源種別「音声」の音源について、音声の時間区間に音声正解ラベル値「1」が付与されるとともに、音声以外の時間区間に音声正解ラベル値「0」が付与される。ここでいう新たなコンテンツとは、例えば編集対象のコンテンツである。
 なお、この場合における音声正解ラベルの付与も、上述した音声検出器の機械学習時と同様に、オーディオ信号の音圧値に対する閾値判定処理や、ニューラルネットワーク等による検出技術などに基づいて自動で行われるようにしてもよいし、ユーザ等により手動で行われるようにしてもよい。また、ニューラルネットワークによる識別器を用いて音声正解ラベルの付与を行う場合には、上述したように互いに異なるフレームに対する演算処理の処理境界が一致するように識別器を学習してもよい。
 次に、新たなコンテンツを構成する全ての音源のオーディオ信号を混合して得られるオーディオ信号、つまり上述のオーディオ加算信号を音声検出器に入力し、音声検出器の出力である音声検出ラベルを得る。
 そして、音声検出ラベルに基づいて次式(1)が計算され、各時間区間ifrmにおける差分labeldiff(ifrm)が求められる。
Figure JPOXMLDOC01-appb-M000001
 なお、式(1)においてifrmはフレーム等の所定の時間区間を示している。labelref(ifrm)は、コンテンツのオーディオ加算信号、より詳細には音声オーディオ加算信号に対して付与された時間区間ifrmにおける音声正解ラベルを示しており、音声正解ラベルlabelref(ifrm)の値は「0」または「1」の何れかの値とされる。また、式(1)においてlabeldetect(ifrm)は時間区間ifrmにおける音声検出ラベルを示しており、音声検出ラベルの値は「0」から「1」までの間の値とされる。
 したがって、差分labeldiff(ifrm)は、音声正解ラベルlabelref(ifrm)の値と、音声検出ラベルlabeldetect(ifrm)の値とに基づいて求められる、それらの値の差分値である。
 式(1)では、音声検出ラベルlabeldetect(ifrm)の値が「1」に近いほど差分labeldiff(ifrm)の値は小さくなり、音源種別「音声」の音が聞こえやすいことになる。
 このようにして差分labeldiff(ifrm)が求められると、その差分labeldiff(ifrm)と所定の閾値threとに基づく閾値処理が行われ、差分labeldiff(ifrm)が閾値threよりも大きい時間区間ifrmでは、音源種別「音声」の音、つまり音声が聞こえにくいと判定される。
 例えば、閾値threは0.5などとされる。なお、差分labeldiff(ifrm)の値が0以下となる場合には、その時間区間には音声は含まれていないので、上述の編集作業E2は不要である。
 これに対して、差分labeldiff(ifrm)が閾値threよりも大きい時間区間ifrmでは、音声が聞こえにくいので、上述の編集作業E2が必要となる。
 以上のように、過去のコンテンツを学習データとして生成された音声検出器を用いることで、従来は手動で行われていた、音声が聞こえやすいかの確認を自動化することができ、コンテンツの制作コストを削減することができる。
(A2:音声を聞こえやすくする編集作業の自動化)
 次に、音声を聞こえやすくする編集作業E2の自動化について説明する。
 差分labeldiff(ifrm)に基づく判定処理により、音声が聞こえにくいと判定された時間区間ifrmに対しては、上述した編集作業E2を行い、差分labeldiff(ifrm)が閾値thre以下となるようにすればよい。
 編集作業E2の具体的な例としては、上述した編集作業E2(1)乃至E2(3)が考えられる。
(編集作業E2(1))
 音声の音量を上げる、または音声以外の音源の音量を下げる
(編集作業E2(2))
 音声のEQを変える、または音声以外の音源のEQを変える
(編集作業E2(3))
 音声以外の音源を、他の音源に差し替える
 これらの編集作業を自動化することで、音声を聞こえやすくする編集作業E2の自動化を実現することができる。
 例えば自動化された編集作業E2(1)の処理では、音源種別「音声」のオーディオ信号に対するゲイン調整が行われ、ゲイン調整後のオーディオ信号が用いられてオーディオ加算信号が生成される。そして、得られたオーディオ加算信号に基づき差分labeldiff(ifrm)が求められて上述の判定処理が行われる。
 このとき、差分labeldiff(ifrm)が閾値thre以下となった場合には、編集作業E2の処理は終了したとされ、差分labeldiff(ifrm)が閾値threよりも大きい場合には、差分labeldiff(ifrm)が閾値thre以下となるまで、音源種別「音声」のオーディオ信号に対するゲイン調整が繰り返し行われる。
 例えば1度のゲイン調整では、音源種別「音声」のオーディオ信号の音量が0.1dBだけ増加するようにされる。ゲイン調整は、例えば音量調整が-6dBから6dBまでなどの所定の調整範囲(以下、音量調整範囲とも称する)内で行われる。
 なお、音量調整範囲は、音量を増加または減少させることの可能な範囲、つまり調整量の取り得る範囲であってもよいし、音量調整(ゲイン調整)後のオーディオ信号に基づく音の音量の取り得る範囲であってもよい。
 また、自動化された編集作業E2(1)の処理では、例えば音源種別が「音声」以外のオーディオ信号に対するゲイン調整も行われる。
 この場合においても、例えば差分labeldiff(ifrm)が閾値thre以下となるまで、音源種別が「音声」以外のオーディオ信号に対して、音量を0.1dBだけ減少させるゲイン調整が繰り返し行われる。なお、音源種別が「音声」以外のオーディオ信号に対するゲイン調整も、例えば音量調整が-6dBから6dBまでなどの音量調整範囲内に収まるように行われる。
 編集作業E2(1)の処理において、音源種別「音声」のオーディオ信号に対するゲイン調整を行うか、音源種別が「音声」以外であるオーディオ信号に対するゲイン調整を行うかは、予め定められているようにしてもよいし、動的に選択されてもよい。
 例えば音源種別「音声」のオーディオ信号に対するゲイン調整を行ったが、音量調整範囲内での調整では差分labeldiff(ifrm)が閾値thre以下とならない場合に、さらに音源種別が「音声」以外のオーディオ信号に対するゲイン調整を行うようにすることができる。その他、音源種別「音声」のオーディオ信号に対するゲイン調整と、音源種別が「音声」以外であるオーディオ信号に対するゲイン調整とが同時に行われてもよい。
 自動化された編集作業E2(2)の処理では、例えば音源種別が「音声」であるオーディオ信号における所定のEQバンド(周波数帯域)のレベルを0.1dBだけ増加させるイコライザ処理が行われる。このとき、例えば所定のEQバンドのレベルを増加させると同時に、その所定のEQバンドとは異なる他のEQバンドのレベルを減少させるようにしてもよい。
 ここで、イコライザ処理の処理対象とされるEQバンド、つまりレベルを増加させる(音量を上げる)EQバンドは、例えば一般的な音声のオーディオ信号に多くの成分が含まれているEQバンドなどとされる。
 この場合、差分labeldiff(ifrm)が閾値thre以下となるまで、所定のレベル(音量)の範囲、例えば上述の音量調整範囲内で、音源種別が「音声」であるオーディオ信号に対するイコライザ処理が繰り返し行われる。なお、調整可能なレベル(音量)の範囲は、オーディオ信号全体(周波数帯域全体)に対して定められてもよいし、EQバンドごとに定められてもよい。その他、編集作業E2(1)の処理と編集作業E2(2)の処理とで、調整可能な音量(レベル)の範囲が異なるようにしてもよい。
 また、自動化された編集作業E2(2)の処理では、例えば音源種別が「音声」以外であるオーディオ信号における所定のEQバンドのレベルを0.1dBだけ減少させるイコライザ処理が行われる。
 この場合においても、差分labeldiff(ifrm)が閾値thre以下となるまで、例えば上述の音量調整範囲内で、音源種別が「音声」以外であるオーディオ信号に対するイコライザ処理が繰り返し行われる。
 なお、編集作業E2(2)の処理において、音源種別「音声」のオーディオ信号に対するイコライザ処理を行うか、音源種別が「音声」以外であるオーディオ信号に対するイコライザ処理を行うかは、予め定められているようにしてもよいし、動的に選択されてもよい。
 例えば音源種別「音声」のオーディオ信号に対するイコライザ処理を行ったが、音量調整範囲内では差分labeldiff(ifrm)が閾値thre以下とならない場合に、さらに音源種別が「音声」以外のオーディオ信号に対するイコライザ処理を行うようにすることができる。
 その他、音源種別「音声」のオーディオ信号と、音源種別が「音声」以外のオーディオ信号とに対して同時にイコライザ処理を行うようにしてもよい。
 自動化された編集作業E2(3)の処理では、例えば音源種別が「音声」以外であるオーディオ信号を、そのオーディオ信号の音源種別と同じ音源種別、つまり同じ音源の特徴の情報(同じ属性)をもつ他のオーディオ信号に置き換える置き換え処理が行われる。
 具体的には、例えば所定の効果音のオーディオ信号が、その効果音と同じような他の効果音のオーディオ信号に置き換える処理が、置き換え処理として行われる。
 置き換えが行われると、置き換え後のオーディオ信号が用いられてオーディオ加算信号が生成される。そして、得られたオーディオ加算信号に基づき差分labeldiff(ifrm)が求められて上述の判定処理が行われ、差分labeldiff(ifrm)が閾値thre以下となるまで、置き換え処理が繰り返し行われる。
 以上の編集作業E2(1)乃至編集作業E2(3)のうちの少なくとも何れかの処理を自動で行うことで、従来は手動で行われていた、音声を聞こえやすくする編集作業を自動化し、制作コストを削減することができる。
 なお、自動化された編集作業E2の処理では、編集作業E2(1)乃至編集作業E2(3)の各処理のうちの何れかが単独で行われるようにしてもよいし、2つまたは3つの処理が組み合わせて行われるようにしてもよい。
 例えば編集作業E2の処理として、まずは編集作業E2(1)の処理が行われ、編集作業E2(1)の処理では音量調整範囲内で差分labeldiff(ifrm)が閾値thre以下とならないときには、さらに編集作業E2(2)や編集作業E2(3)の処理が順番に行われるようにしてもよい。
 この場合、例えば編集作業E2(1)の処理の次に編集作業E2(2)の処理が行われ、編集作業E2(2)では差分labeldiff(ifrm)が閾値thre以下とならないときには、さらに編集作業E2(3)の処理が行われるようにしてもよい。
 このとき、編集作業E2(1)の処理の処理結果として得られたオーディオ信号に対して編集作業E2(2)の処理が行われ、さらに編集作業E2(2)の処理結果として得られたオーディオ信号に対して編集作業E2(3)の処理が行われるようにしてもよい。そうすることで、可能な限りコンテンツ制作者の意図通りの音質で、音声を聞こえやすくすることができる。
 なお、例えば編集作業E2(1)の処理の後、編集作業E2(2)の処理が行われるときには、編集作業E2(1)の処理の前、つまり、もとのオーディオ信号に対して編集作業E2(2)の処理が行われるようにしてもよい。
〈編集画面について〉
 ここで、図2乃至図6を参照して、以上のような本技術を適用したDAWの編集画面(GUI(Graphical User Interface))の一例について説明する。
 なお、図2乃至図6において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。また、図2乃至図6において、互いに対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 本技術を適用したDAWを実行すると、例えば図2に示す編集画面が表示される。
 この編集画面には、各オーディオ信号の音源種別が表示される領域SC1や、各オーディオ信号の時間波形が表示される領域SC2が設けられており、領域SC2には再生バーV11も表示されている。
 また、編集画面には、音声が聞こえやすいかの判定処理の実行の指示や、判定処理で用いるパラメータ(閾値thre)を指定するためのGUI、より詳細にはGUIコンポーネント(ウィジェット)として検出ボタンB11、検出閾値バーB12、および検出閾値用のテキストボックスB13が設けられている。
 編集画面には、音声を聞こえやすくする編集作業の処理の実行の指示や、その編集作業の処理で用いるパラメータ(音量調整範囲)を指定するためのGUI(GUIコンポーネント)として調整ボタンB14、調整閾値バーB15、調整閾値下限用のテキストボックスB16、および調整閾値上限用のテキストボックスB17も設けられている。
 コンテンツの制作者であるユーザは、これらの検出ボタンB11乃至テキストボックスB17に対する操作を行って、音声が聞こえやすいかの判定や、音声を聞こえやすくする処理における閾値等のパラメータの調整などを行うことができる。
 検出閾値バーB12は、音声が聞こえやすいかの判定処理に用いられる閾値threを調整(指定)するためのGUIである。
 例えば検出閾値バーB12のスライダを図中、左端の位置に設定すると閾値threは「0」とされ、スライダを図中、右端の位置に設定すると閾値threは「1」とされる。
 その他、ユーザは、検出閾値用のテキストボックスB13に閾値threとする数値を入力することでも、閾値threの設定を行うことが可能である。この例ではテキストボックスB13には「0.5」が入力されているので、閾値thre=0.5とされる。
 ユーザは、適宜、検出閾値バーB12やテキストボックスB13に対する操作を行った後、検出ボタンB11を押す(操作する)ことで、編集中のコンテンツについて音声が聞こえやすいかの判定処理を実行させることができる。
 検出ボタンB11が操作され、音声が聞こえやすいかの判定処理が行われると、その判定結果が反映され、例えば編集画面は図3に示す表示となる。
 図3の例では、編集画面の領域SC2の部分のうち、差分labeldiff(ifrm)が閾値threよりも大きい時間区間の部分、すなわち時間区間T11乃至時間区間T13の部分が赤色など、他の時間区間とは異なる色で表示されている。
 これらの時間区間T11乃至時間区間T13は、音声が聞こえやすいかの判定処理の結果、音声が聞こえにくいと判定された時間区間を示している。
 ユーザは、これらの時間区間T11乃至時間区間T13に対して、上述の編集作業E2の処理を手動で行うこともできるし、自動で行わせるようにすることもできる。
 例えば、ユーザが編集作業E2の処理を自動で行わせる場合、調整ボタンB14や調整閾値バーB15、テキストボックスB16、テキストボックスB17に対する操作を行うことで、編集作業E2の処理を実行させたり、ゲイン調整等でのパラメータなどを指定したりすることができる。
 調整閾値バーB15には、2つのスライダが設けられており、ユーザはそれらのスライダを操作することで、編集作業E2(1)の処理や編集作業E2(2)の処理での音量調整範囲である調整閾値の上限値と下限値を指定(変更)することができる。
 具体的には、ユーザは調整閾値バーB15の左側にあるスライダ(以下、左スライダと称する)を操作することで調整閾値の下限値を指定することができ、例えば左スライダを調整閾値バーB15の図中、左端の位置に設定すると、下限値が-12dBに設定される。
 また、ユーザは、調整閾値下限用のテキストボックスB16に、所望の数値を直接入力することでも調整閾値の下限値を指定することができるようになっており、この例では調整閾値の下限値は「-2.0dB」とされている。
 一方、ユーザは調整閾値バーB15の右側にあるスライダ(以下、右スライダと称する)を操作することで調整閾値の上限値を指定することができ、例えば右スライダを調整閾値バーB15の図中、右端の位置に設定すると、上限値が12dBに設定される。
 ユーザは、調整閾値上限用のテキストボックスB17に、所望の数値を入力することでも調整閾値の上限値を指定することができるようになっており、この例では調整閾値の上限値は「3.0dB」とされている。
 ユーザが調整閾値バーB15等を操作して調整閾値の上限値と下限値、すなわち音量調整範囲を設定した後、調整ボタンB14が操作される(押される)と、例えば編集作業E2(1)の処理が自動で、つまり装置側で行われる。
 これにより、編集作業E2(1)の処理結果が編集画面の表示に反映され、例えば図4に示すように編集画面の表示が更新される。
 この例では、編集作業E2(1)の処理によりゲイン調整(音量の調整)が行われたトラック(音源)の時間区間の領域が他の領域とは異なる色で表示されている。
 具体的には、領域SC2の音源種別「音声」の部分における領域R11乃至領域R13が黄色など、他の領域とは異なる色で表示されている。
 同様に、領域SC2の音源種別「音声」以外の音源種別の部分における領域R14および領域R15が紫色など、他の領域とは異なる色で表示されている。
 黄色で表示された領域R11乃至領域R13は、音源種別が「音声」であるオーディオ信号(トラック)における編集作業E2(1)の音量調整、つまりゲイン調整が行われた時間区間を示しており、それらの領域にはゲイン調整での調整量が表示されている。
 例えば領域R11には、調整量を示す数値「+3.0」が表示されており、領域R11に対応する時間区間では、ゲイン調整により3.0dBだけ音量を上げる調整が行われたことが分かる。特に、この例では音源種別が「音声」である3つのトラックの同じ時間区間に対してゲイン調整が行われている。
 紫色で表示された領域R14および領域R15は、音源種別が「音声」以外であるオーディオ信号(トラック)における、編集作業E2(1)のゲイン調整が行われた時間区間を示しており、それらの領域にはゲイン調整での調整量が表示されている。
 ここでは、音源種別が「音声」以外であるトラックは、音源種別が「効果音」、「音楽」、および「背景音」であるトラックである。
 例えば領域R14には、調整量を示す数値「-1.8」が表示されており、領域R14に対応する時間区間では、ゲイン調整により1.8dBだけ音量を下げる調整が行われたことが分かる。特に、この例では音源種別が「音声」以外である3つのトラックの同じ時間区間に対してゲイン調整が行われている。
 編集作業E2(1)の処理によりゲイン調整が行われた時間区間を示す領域R11乃至領域R15内に、ゲイン調整での調整量を表示させることで、ユーザはどの時間区間でどれだけのゲイン調整が行われたかを瞬時に把握することができる。これにより、本技術を適用したDAW、つまりコンテンツの編集ソフトウェアの使い勝手を向上させることができる。
 編集作業E2(1)の処理によるゲイン調整によっても、まだ差分labeldiff(ifrm)が閾値threよりも大きい時間区間ifrmがある場合、さらに編集作業E2(2)の処理が自動で行われる。すなわち、音源種別が「音声」であるオーディオ信号の所定のEQバンドのレベルを増加させるイコライザ処理や、音源種別が「音声」以外であるオーディオ信号の所定のEQバンドのレベルを減少させるイコライザ処理が行われる。
 その結果、編集作業E2(2)の処理結果が編集画面の表示に反映され、例えば図5に示すように編集画面の表示が更新される。
 この例では、編集作業E2(2)の処理によりイコライザ処理が行われたトラック(音源)の時間区間の領域が他の領域とは異なる色で表示されている。
 具体的には、領域SC2の音源種別「音声」の部分における領域R11および領域R12が黄色など、他の領域とは異なる色で表示されている。なお、領域R13の表示は図4における場合と同じとなっており、領域R13に対応する時間区間に対しては、編集作業E2(2)の処理が行われなかったことが分かる。
 同様に、領域SC2の音源種別「音声」以外の音源種別の部分における領域R14および領域R15が紫色など、他の領域とは異なる色で表示されている。
 これらの領域R11、領域R12、領域R14、および領域R15内には、その領域に対応する時間区間に対してイコライザ処理が行われたことを示す文字列「EQ」も表示されている。このような表示を行うことで、ユーザはどのトラックのどの時間区間に対してイコライザ処理が施されたのかを瞬時に把握することができる。
 このような編集作業E2(2)の処理によっても、まだ差分labeldiff(ifrm)が閾値threよりも大きい時間区間ifrmがある場合、さらに編集作業E2(3)の処理が自動で行われる。
 すなわち、音源種別が「音声」以外である1または複数のトラック(オーディオ信号)における、差分labeldiff(ifrm)が閾値threよりも大きい時間区間ifrmの部分が、他の音源の信号へと置き換えられる(差し替えられる)置き換え処理が行われる。
 なお、音源種別が「音声」以外である全てのトラックに対して置き換え処理を行うようにしてもよいし、差分labeldiff(ifrm)が閾値thre以下となるまで、1つずつトラックを選択して置き換え処理を行うようにしてもよい。
 このとき、置き換え処理を行うトラックとして選択していく順番は、音源種別や、差分labeldiff(ifrm)が閾値threよりも大きい時間区間ifrmにおけるオーディオ信号の音圧値などに基づいて定められるようにすればよい。
 また、一部の時間区間の信号を置き換えるのではなく、トラックのオーディオ信号全体を他の音源のオーディオ信号に置き換えるようにしてもよい。
 図5に示した状態からさらに編集作業E2(3)の処理、すなわち置き換え処理が行われると、その結果、編集作業E2(3)の処理結果が編集画面の表示に反映され、例えば図6に示すように編集画面の表示が更新される。
 この例では、領域SC2の音源種別「音声」の部分における、編集作業E2(1)や編集作業E2(2)の処理が行われたトラック(音源)の時間区間の領域R11乃至領域R13が黄色など、他の領域とは異なる色で表示されている。
 また、領域SC2の音源種別が「音声」以外である部分における、編集作業E2(3)の処理により置き換えが行われたトラック(音源)の時間区間の領域R14および領域R15が紫色など、他の領域とは異なる色で表示されている。
 領域R14および領域R15内には、それらの領域に対応する時間区間に対して置き換え処理が行われたことを示す文字列「REPLACE」も表示されている。このような表示を行うことで、ユーザはどのトラックのどの時間区間に対して置き換え処理が行われたのかを瞬時に把握することができる。
 以上の図2乃至図6を参照して説明したGUIをDAWに搭載することで、ユーザは編集作業中のコンテンツについて必要に応じて本技術を適用することができるだけでなく、適用後にDAWでさらなる編集を行うこともでき、編集作業が効率化される。その結果、コンテンツの制作コストを低く抑えることが可能となる。
〈信号処理装置の構成例〉
 図7は、以上において説明した本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。
 図7に示す信号処理装置11は、例えばパーソナルコンピュータやタブレット型端末装置などからなり、プログラムを実行することでDAW等を実現する。
 信号処理装置11は、入力部21、正解ラベル生成部22、オーディオ信号編集部23、音声検出部24、音声判定部25、表示制御部26、および表示部27を有している。
 入力部21は、例えばマウスやキーボード、タッチパネルなどからなり、ユーザの操作に応じた信号をオーディオ信号編集部23や表示制御部26に供給する。
 正解ラベル生成部22は、供給されたコンテンツを構成する各音源のオーディオ信号のうちの音源種別が「音声」であるオーディオ信号を加算して音声オーディオ加算信号を生成し、音声オーディオ加算信号に音声正解ラベルを付与する。換言すれば、音声オーディオ加算信号に基づいて各時間区間の音声正解ラベルが生成される。
 この音声正解ラベルは、音声オーディオ加算信号の時間区間が音源種別「音声」の音の有音区間であるか否かを示すラベル情報であり、「0」または「1」の何れかの値とされる。
 正解ラベル生成部22は、音声オーディオ加算信号の各時間区間の音声正解ラベルを、音声判定部25に供給する。
 なお、信号処理装置11に正解ラベル生成部22が設けられず、ユーザ等の人手により生成された各時間区間の音声正解ラベルが音声判定部25に供給されるようにしてもよい。
 オーディオ信号編集部23は、供給されたコンテンツを構成する各音源のオーディオ信号に対して、適宜、編集処理を行い、その結果得られた各音源のオーディオ信号を音声検出部24および表示制御部26に供給する。
 例えばオーディオ信号編集部23は、編集処理として上述した編集作業E2の処理を行い、その編集に関する編集情報を表示制御部26に供給する。
 ここで、編集情報とは、オーディオ信号に対して行った編集内容や編集箇所を示す情報である。すなわち、例えば編集情報には、編集対象とされたオーディオ信号、オーディオ信号の編集が行われた時間区間、およびその時間区間で行われた編集処理の内容を示す情報が含まれている。特に、編集処理の内容を示す情報には、ゲイン調整やイコライザ処理、置き換え処理等の編集処理の種別だけでなく、編集処理時の音量の調整量や置き換え後の音源などを示す情報も含まれている。
 音声検出部24は、予め機械学習により生成された音声検出器を保持しており、保持している音声検出器に基づいて、オーディオ信号編集部23から供給されたコンテンツを構成する音源のオーディオ信号に対して音声検出ラベルを付与する。換言すれば、コンテンツの各時間区間における音声検出ラベルが生成される。
 上述したように音声検出器は、例えば学習用のデータセットに基づいて機械学習を行うことにより生成されたニューラルネットワーク等により構成される。
 音声検出器の学習用のデータセットは、複数のコンテンツについて得られた、目的音源である「音声」のオーディオ信号と、目的外音源、つまり「音声」とは異なる音源のオーディオ信号とが混合されたオーディオ信号(オーディオ加算信号)、および目的音源のオーディオ信号(音声オーディオ加算信号)に対して付与された音声正解ラベルからなる。
 この音声検出器は、目的音源の音および目的外音源の音が混合されたオーディオ信号を入力として、入力されたオーディオ信号における目的音源の音の時間区間を検出し、その検出結果として音声検出ラベルを出力する。上述したように音声検出ラベルは「0」から「1」までの間の数値とされる。音声検出部24は、音声検出器の出力である音声検出ラベルを音声判定部25に供給する。
 音声判定部25は、正解ラベル生成部22から供給された音声正解ラベルと、音声検出部24から供給された音声検出ラベルとに基づいて、時間区間ごとに、目的とする音源種別「音声」の音が聞こえやすいかの判定処理を行い、その判定結果をオーディオ信号編集部23や表示制御部26に供給する。
 表示制御部26は、入力部21からの信号、音声判定部25からの判定結果、オーディオ信号編集部23からのオーディオ信号や編集情報に基づいて表示部27を制御し、表示部27にDAW等によるコンテンツの編集画面を表示させる。
 この編集画面は、例えば図2乃至図6を参照して説明したコンテンツの各音源のオーディオ信号の編集のための画面であり、表示制御部26は表示部27を制御して、編集画面上に検出ボタンB11乃至テキストボックスB17等のGUIコンポーネントを表示させる。
 表示部27は、ディスプレイ等の表示デバイスであり、表示制御部26の制御に従って編集画面等の画像を表示する。
〈自動編集処理の説明〉
 次に、信号処理装置11の動作について説明する。
 例えば信号処理装置11で編集対象とするコンテンツの各音源(トラック)のオーディオ信号が読み込まれ、表示部27に図2に示した編集画面が表示されているとする。
 このとき、例えばユーザが入力部21を操作することにより、適宜、検出閾値バーB12やテキストボックスB13を操作して閾値threを指定し、さらに検出ボタンB11を操作すると、信号処理装置11は自動編集処理を開始する。
 以下、図8のフローチャートを参照して、信号処理装置11による自動編集処理について説明する。
 ステップS11において正解ラベル生成部22は、供給されたコンテンツのオーディオ信号に対して音声正解ラベルを付与する。
 すなわち、例えば正解ラベル生成部22は、供給されたコンテンツを構成する各音源のオーディオ信号のうちの音源種別が「音声」であるオーディオ信号を加算して音声オーディオ加算信号を生成する。
 また、正解ラベル生成部22は、例えば音声オーディオ加算信号の音圧値に対する閾値判定処理や、予め学習されたニューラルネットワーク等の識別器を構成するパラメータと音声オーディオ加算信号とに基づく演算処理を行うことで、音声オーディオ加算信号の各時間区間に音源種別「音声」の音が含まれているかの検出を行う。
 正解ラベル生成部22は、音源種別「音声」の音が含まれているかの検出の結果として得られた各時間区間の音声正解ラベルを音声判定部25に供給する。
 また、オーディオ信号編集部23は、供給されたコンテンツを構成する各音源のオーディオ信号をそのまま音声検出部24に供給する。
 ステップS12において音声検出部24は、予め保持している音声検出器と、オーディオ信号編集部23から供給されたコンテンツを構成する各音源のオーディオ信号とに基づいて、コンテンツのオーディオ信号に対して音声検出ラベルを付与する。
 例えば音声検出部24は、供給されたコンテンツを構成する全音源(トラック)のオーディオ信号を加算してオーディオ加算信号を生成するとともに、そのオーディオ加算信号と、音声検出器を構成するパラメータとに基づく演算処理を行うことで、各時間区間の音声検出ラベルを得る。
 音声検出部24は、このようにして得られた各時間区間の音声検出ラベルを音声判定部25に供給する。
 ステップS13において音声判定部25は、正解ラベル生成部22から供給された音声正解ラベルと、音声検出部24から供給された音声検出ラベルとに基づいて上述の式(1)を計算し、時間区間ごとに差分labeldiff(ifrm)を求める。
 ステップS14において音声判定部25は、入力部21から供給された信号等に応じて定まる閾値threと、ステップS13で求めた差分labeldiff(ifrm)とを比較し、差分labeldiff(ifrm)が閾値thre以下であるか否かを判定する。
 換言すれば、差分labeldiff(ifrm)に対する閾値処理を行うことで、オーディオ加算信号において、音声(音源種別が「音声」である音)が聞こえやすいかの判定処理が行われる。
 ここでは、全時間区間のうち、1つの時間区間でも差分labeldiff(ifrm)が閾値threより大きいときには、閾値thre以下ではないと判定される。
 音声判定部25は、閾値thre以下であるか否かの判定結果をオーディオ信号編集部23および表示制御部26に供給する。
 ステップS14において閾値thre以下ではないと判定された場合、すなわち、音声が聞こえにくい時間区間があると判定された場合、その後、処理はステップS15へと進む。
 この場合、例えばユーザにより検出ボタンB11が操作された直後、すなわち、まだ編集作業E2の処理が行われる前の状態であるときには、表示制御部26は、音声判定部25から供給された判定結果に基づいて表示部27を制御し、編集画面の表示を更新させる。
 このような判定結果に応じた表示の制御により、例えば編集画面において音声が聞こえにくいと判定された時間区間が他の時間区間とは異なる表示形式で表示される。換言すれば、音声が聞こえにくいと判定された時間区間を示す表示が行われる。
 具体的には、例えば図2に示した編集画面の表示が更新されて、図3に示した編集画面が表示部27に表示される。
 この状態で、ユーザは適宜、入力部21を操作することで、調整閾値バーB15や、テキストボックスB16、テキストボックスB17に対する操作を行い、音量調整範囲(調整閾値)の上限値と下限値を指定する。すると、ユーザの操作に応じた信号が入力部21からオーディオ信号編集部23や表示制御部26に供給される。
 さらにユーザが入力部21を操作することで調整ボタンB14に対する操作を行い、編集作業E2の処理の実行を指示すると、その操作に応じた信号が入力部21からオーディオ信号編集部23へと供給され、その後、ステップS15の処理が行われる。
 ステップS15においてオーディオ信号編集部23は、コンテンツを構成する所定の音源のオーディオ信号に対して、上述した編集作業E2の処理を編集処理として行う。
 特に、ステップS15では、差分labeldiff(ifrm)が閾値threより大きい時間区間が対象とされて、その時間区間に対して編集処理が行われる。
 この場合、音源種別「音声」のオーディオ信号、および音源種別が「音声」以外のオーディオ信号の少なくとも何れか一方に対して、音源種別「音声」の音(音声)を聞こえやすくするための編集処理が行われる。
 例えば調整ボタンB14が操作された直後である場合には、編集作業E2の処理として、編集作業E2(1)の処理、つまり各音源のオーディオ信号に対するゲイン調整が行われる。このとき、オーディオ信号編集部23は、入力部21から供給された信号に応じて定まる、つまりユーザにより指定された音量調整範囲内でゲイン調整を行う。
 また、オーディオ信号編集部23は、音量調整範囲内で編集作業E2(1)の処理を行ってもステップS14において閾値thre以下ではないと判定された場合には、編集作業E2の処理として、編集作業E2(2)の処理、つまり各音源のオーディオ信号に対するイコライザ処理を行う。この場合、差分labeldiff(ifrm)が閾値threより大きい時間区間が対象とされて編集作業E2(2)の処理が行われる。
 さらにオーディオ信号編集部23は、音量調整範囲内で編集作業E2(2)の処理を行ってもステップS14において閾値thre以下ではないと判定された場合には、編集作業E2の処理として、編集作業E2(3)の処理、つまり各音源のオーディオ信号に対する置き換え処理を行う。ここでも、差分labeldiff(ifrm)が閾値threより大きい時間区間が対象とされて編集作業E2(3)の処理が行われる。
 なお、ステップS15では、編集処理として、編集作業E2(1)乃至編集作業E2(3)の処理のうちの少なくとも何れか1つが行われるようにすればよい。
 ステップS16においてオーディオ信号編集部23は、編集作業E2の処理結果に基づいて、行った編集処理(編集作業E2の処理)に関する編集情報を生成する。
 オーディオ信号編集部23は、編集情報を生成すると、その編集情報と編集後のコンテンツの各音源のオーディオ信号を表示制御部26に供給するとともに、編集後のコンテンツの各音源のオーディオ信号を音声検出部24に供給する。
 ステップS17において表示制御部26は、必要に応じて、入力部21からの信号や、オーディオ信号編集部23からの編集情報およびオーディオ信号に基づき表示部27を制御し、表示部27に表示されている編集画面を更新する。
 例えば図3に示した編集画面が表示されている状態で編集作業E2(1)の処理が行われた場合、表示制御部26は、編集画面の表示を更新し、図4に示した編集画面を表示させる。
 その他、例えば編集作業E2(2)の処理が行われた場合には、図5に示した編集画面が表示されるなど、適宜、必要な表示の更新が行われる。
 これにより、例えば図4や図5に示したように、領域R11乃至領域R15など、編集処理が行われた時間区間が他の時間区間とは異なる表示形式で表示される。
 また、領域R11乃至領域R15等の編集処理が行われた時間区間の領域には、「EQ」などの行われた編集処理の内容を示す情報や、「+3.0」などの編集処理時に行われた調整の調整量を示す情報などが表示される。
 なお、図4乃至図6では、編集処理が行われた時間区間の領域には、編集処理の内容を示す情報と編集処理時に行われた調整の調整量を示す情報の何れか一方のみが表示されているが、それらの両方が表示されるようにしてもよい。
 ステップS17の処理が行われると、その後、処理はステップS12に戻り、上述した処理が繰り返し行われる。
 この場合、例えば編集後の各音源のオーディオ信号に基づいてステップS12乃至ステップS14の処理が行われ、閾値thre以下であると判定されるまで、すなわち音声が聞こえやすいと判定されるまで、編集処理が繰り返し行われる。
 また、ステップS14において閾値thre以下であると判定された場合、音声が聞こえやすいコンテンツの各音源のオーディオ信号が得られたので、自動編集処理は終了する。
 このとき、オーディオ信号編集部23は、適宜、編集により得られたコンテンツの各音源のオーディオ信号を外部に出力したり、図示せぬ記録部に供給して記録させたりする。また、表示制御部26は、例えば図6に示した編集画面を表示させるなど、必要に応じて編集画面の表示を更新する。このとき、編集作業E2の処理が終了し、音声が聞こえやすくなった旨のメッセージ等が編集画面に表示されるようにしてもよい。
 以上のようにして信号処理装置11は、コンテンツの音声が聞こえやすいかの判定を行い、その判定結果に応じて、音声を聞こえやすくするための編集処理を行う。このようにすることで、編集時の作業効率を向上させ、コンテンツの制作コストを削減することができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図9は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 目的音源の音、および前記目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、前記混合オーディオ信号から前記目的音源の音の時間区間を検出する音声検出部と、
 前記目的音源のオーディオ信号における前記目的音源の音の時間区間を示すラベル情報と、前記目的音源の音の時間区間の検出結果とに基づいて、前記混合オーディオ信号において前記目的音源の音が聞こえやすいかの判定処理を行う音声判定部と
 を備える信号処理装置。
(2)
 前記音声判定部は、時間区間ごとに、前記ラベル情報と前記検出結果とに基づく値に対する閾値処理を行うことで、前記判定処理を行う
 (1)に記載の信号処理装置。
(3)
 前記判定処理により前記目的音源の音が聞こえにくいと判定された場合、前記目的音源のオーディオ信号、および前記目的外音源のオーディオ信号の少なくとも何れか一方に対して、前記目的音源の音を聞こえやすくするための編集処理を行う編集部をさらに備える
 (1)または(2)に記載の信号処理装置。
(4)
 前記音声検出部は、前記編集処理により得られたオーディオ信号を用いて生成された、前記目的音源および前記目的外音源の音が含まれる編集混合オーディオ信号に基づいて、前記目的音源の音の時間区間を検出し、
 前記音声判定部は、前記編集混合オーディオ信号に基づく前記目的音源の音の時間区間の検出結果と、前記ラベル情報とに基づいて前記判定処理を行い、
 前記編集部は、前記判定処理により前記目的音源の音が聞こえやすいと判定されるまで、前記編集処理を繰り返し行う
 (3)に記載の信号処理装置。
(5)
 前記編集部は、ゲイン調整、イコライザ処理、および前記目的外音源のオーディオ信号を他のオーディオ信号に置き換える置き換え処理のうちの少なくとも何れかを前記編集処理として行う
 (3)または(4)に記載の信号処理装置。
(6)
 前記目的音源のオーディオ信号、および前記目的外音源のオーディオ信号の編集のための編集画面における、前記判定処理の結果に応じた表示を制御する表示制御部をさらに備える
 (3)乃至(5)の何れか一項に記載の信号処理装置。
(7)
 前記表示制御部は、前記編集画面において、前記判定処理により前記目的音源の音が聞こえにくいと判定された時間区間を他の時間区間とは異なる表示形式で表示させる
 (6)に記載の信号処理装置。
(8)
 前記表示制御部は、前記編集画面上に、前記編集処理において用いられるパラメータを指定するためのGUIコンポーネントを表示させる
 (6)または(7)に記載の信号処理装置。
(9)
 前記表示制御部は、前記編集画面上に、前記判定処理の実行を指示するためのGUIコンポーネントを表示させる
 (6)乃至(8)の何れか一項に記載の信号処理装置。
(10)
 前記表示制御部は、前記編集画面上に、前記編集処理の実行を指示するためのGUIコンポーネントを表示させる
 (6)乃至(9)の何れか一項に記載の信号処理装置。
(11)
 前記表示制御部は、前記編集処理を行った場合、前記編集画面における前記編集処理が行われた時間区間を、他の時間区間とは異なる表示形式で表示させる
 (6)乃至(10)の何れか一項に記載の信号処理装置。
(12)
 前記表示制御部は、前記編集処理を行った場合、前記編集画面における前記編集処理が行われた時間区間に、行われた前記編集処理を示す情報、および前記編集処理時に行われた調整の調整量を示す情報の少なくとも何れか一方を表示させる
 (11)に記載の信号処理装置。
(13)
 前記音声検出部は、前記混合オーディオ信号を入力とし、前記目的音源の音の時間区間の検出結果を出力とする音声検出器に基づいて、前記目的音源の音の時間区間を検出する
 (1)乃至(12)の何れか一項に記載の信号処理装置。
(14)
 前記音声検出器は機械学習により予め生成される
 (13)に記載の信号処理装置。
(15)
 前記音声検出器はニューラルネットワークにより構成される
 (14)に記載の信号処理装置。
(16)
 前記音声検出部は、前記目的音源のオーディオ信号と、前記目的外音源のオーディオ信号とを加算することで前記混合オーディオ信号を生成する
 (1)乃至(15)の何れか一項に記載の信号処理装置。
(17)
 前記目的音源のオーディオ信号に基づいて、前記ラベル情報を生成するラベル情報生成部をさらに備える
 (1)乃至(16)の何れか一項に記載の信号処理装置。
(18)
 信号処理装置が、
 目的音源の音、および前記目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、前記混合オーディオ信号から前記目的音源の音の時間区間を検出し、
 前記目的音源のオーディオ信号における前記目的音源の音の時間区間を示すラベル情報と、前記目的音源の音の時間区間の検出結果とに基づいて、前記混合オーディオ信号において前記目的音源の音が聞こえやすいかの判定処理を行う
 信号処理方法。
(19)
 目的音源の音、および前記目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、前記混合オーディオ信号から前記目的音源の音の時間区間を検出し、
 前記目的音源のオーディオ信号における前記目的音源の音の時間区間を示すラベル情報と、前記目的音源の音の時間区間の検出結果とに基づいて、前記混合オーディオ信号において前記目的音源の音が聞こえやすいかの判定処理を行う
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 信号処理装置, 21 入力部, 22 正解ラベル生成部, 23 オーディオ信号編集部, 24 音声検出部, 25 音声判定部, 26 表示制御部, 27 表示部

Claims (19)

  1.  目的音源の音、および前記目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、前記混合オーディオ信号から前記目的音源の音の時間区間を検出する音声検出部と、
     前記目的音源のオーディオ信号における前記目的音源の音の時間区間を示すラベル情報と、前記目的音源の音の時間区間の検出結果とに基づいて、前記混合オーディオ信号において前記目的音源の音が聞こえやすいかの判定処理を行う音声判定部と
     を備える信号処理装置。
  2.  前記音声判定部は、時間区間ごとに、前記ラベル情報と前記検出結果とに基づく値に対する閾値処理を行うことで、前記判定処理を行う
     請求項1に記載の信号処理装置。
  3.  前記判定処理により前記目的音源の音が聞こえにくいと判定された場合、前記目的音源のオーディオ信号、および前記目的外音源のオーディオ信号の少なくとも何れか一方に対して、前記目的音源の音を聞こえやすくするための編集処理を行う編集部をさらに備える
     請求項1に記載の信号処理装置。
  4.  前記音声検出部は、前記編集処理により得られたオーディオ信号を用いて生成された、前記目的音源および前記目的外音源の音が含まれる編集混合オーディオ信号に基づいて、前記目的音源の音の時間区間を検出し、
     前記音声判定部は、前記編集混合オーディオ信号に基づく前記目的音源の音の時間区間の検出結果と、前記ラベル情報とに基づいて前記判定処理を行い、
     前記編集部は、前記判定処理により前記目的音源の音が聞こえやすいと判定されるまで、前記編集処理を繰り返し行う
     請求項3に記載の信号処理装置。
  5.  前記編集部は、ゲイン調整、イコライザ処理、および前記目的外音源のオーディオ信号を他のオーディオ信号に置き換える置き換え処理のうちの少なくとも何れかを前記編集処理として行う
     請求項3に記載の信号処理装置。
  6.  前記目的音源のオーディオ信号、および前記目的外音源のオーディオ信号の編集のための編集画面における、前記判定処理の結果に応じた表示を制御する表示制御部をさらに備える
     請求項3に記載の信号処理装置。
  7.  前記表示制御部は、前記編集画面において、前記判定処理により前記目的音源の音が聞こえにくいと判定された時間区間を他の時間区間とは異なる表示形式で表示させる
     請求項6に記載の信号処理装置。
  8.  前記表示制御部は、前記編集画面上に、前記編集処理において用いられるパラメータを指定するためのGUIコンポーネントを表示させる
     請求項6に記載の信号処理装置。
  9.  前記表示制御部は、前記編集画面上に、前記判定処理の実行を指示するためのGUIコンポーネントを表示させる
     請求項6に記載の信号処理装置。
  10.  前記表示制御部は、前記編集画面上に、前記編集処理の実行を指示するためのGUIコンポーネントを表示させる
     請求項6に記載の信号処理装置。
  11.  前記表示制御部は、前記編集処理を行った場合、前記編集画面における前記編集処理が行われた時間区間を、他の時間区間とは異なる表示形式で表示させる
     請求項6に記載の信号処理装置。
  12.  前記表示制御部は、前記編集処理を行った場合、前記編集画面における前記編集処理が行われた時間区間に、行われた前記編集処理を示す情報、および前記編集処理時に行われた調整の調整量を示す情報の少なくとも何れか一方を表示させる
     請求項11に記載の信号処理装置。
  13.  前記音声検出部は、前記混合オーディオ信号を入力とし、前記目的音源の音の時間区間の検出結果を出力とする音声検出器に基づいて、前記目的音源の音の時間区間を検出する
     請求項1に記載の信号処理装置。
  14.  前記音声検出器は機械学習により予め生成される
     請求項13に記載の信号処理装置。
  15.  前記音声検出器はニューラルネットワークにより構成される
     請求項14に記載の信号処理装置。
  16.  前記音声検出部は、前記目的音源のオーディオ信号と、前記目的外音源のオーディオ信号とを加算することで前記混合オーディオ信号を生成する
     請求項1に記載の信号処理装置。
  17.  前記目的音源のオーディオ信号に基づいて、前記ラベル情報を生成するラベル情報生成部をさらに備える
     請求項1に記載の信号処理装置。
  18.  信号処理装置が、
     目的音源の音、および前記目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、前記混合オーディオ信号から前記目的音源の音の時間区間を検出し、
     前記目的音源のオーディオ信号における前記目的音源の音の時間区間を示すラベル情報と、前記目的音源の音の時間区間の検出結果とに基づいて、前記混合オーディオ信号において前記目的音源の音が聞こえやすいかの判定処理を行う
     信号処理方法。
  19.  目的音源の音、および前記目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、前記混合オーディオ信号から前記目的音源の音の時間区間を検出し、
     前記目的音源のオーディオ信号における前記目的音源の音の時間区間を示すラベル情報と、前記目的音源の音の時間区間の検出結果とに基づいて、前記混合オーディオ信号において前記目的音源の音が聞こえやすいかの判定処理を行う
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2021/027256 2020-08-04 2021-07-21 信号処理装置および方法、並びにプログラム WO2022030259A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/005,801 US20230282226A1 (en) 2020-08-04 2021-07-21 Signal processing device and method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-132315 2020-08-04
JP2020132315 2020-08-04

Publications (1)

Publication Number Publication Date
WO2022030259A1 true WO2022030259A1 (ja) 2022-02-10

Family

ID=80119646

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/027256 WO2022030259A1 (ja) 2020-08-04 2021-07-21 信号処理装置および方法、並びにプログラム

Country Status (2)

Country Link
US (1) US20230282226A1 (ja)
WO (1) WO2022030259A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7436082B1 (ja) 2023-10-17 2024-02-21 株式会社Azstoke 音声処理方法、音声処理装置、およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019027053A1 (ja) * 2017-08-04 2019-02-07 日本電信電話株式会社 音声明瞭度計算方法、音声明瞭度計算装置及び音声明瞭度計算プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019027053A1 (ja) * 2017-08-04 2019-02-07 日本電信電話株式会社 音声明瞭度計算方法、音声明瞭度計算装置及び音声明瞭度計算プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KOBAYASHI YOSUKE; KONDO KAZUHIRO: "Japanese speech intelligibility estimation and prediction using objective intelligibility indices under noisy and reverberant conditions", APPLIED ACOUSTICS., ELSEVIER PUBLISHING., GB, vol. 156, 31 July 2019 (2019-07-31), GB , pages 327 - 335, XP085814932, ISSN: 0003-682X, DOI: 10.1016/j.apacoust.2019.07.034 *
TAKAHASHI, HIROTO, KONDO, KAZUHIRO: "1-Q-38 On non-reference speech intelligibility estimation for degraded speech by additive noise: Evaluation of intelligibility estimation accuracy for unseen words", PROCEEDINGS OF THE 2020 SPRING MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN [CD-ROM]; MARCH 16-18-2020, 2 March 2020 (2020-03-02) - 18 March 2020 (2020-03-18), JP, pages 545 - 546, XP009534115 *
YOSUKE KOBAYASHI, KAZUHIRO KONDO: "1-Q-36 Objective Speech Intelligibility Estimation using reference signal prediction model", PROCEEDINGS OF THE 2020 SPRING MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN [CD-ROM]; MARCH 16-18, 2020, 2 March 2020 (2020-03-02) - 18 March 2020 (2020-03-18), JP, pages 541 - 542, XP009534114 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7436082B1 (ja) 2023-10-17 2024-02-21 株式会社Azstoke 音声処理方法、音声処理装置、およびプログラム

Also Published As

Publication number Publication date
US20230282226A1 (en) 2023-09-07

Similar Documents

Publication Publication Date Title
US9530396B2 (en) Visually-assisted mixing of audio using a spectral analyzer
Reiss Intelligent systems for mixing multichannel audio
TWI511489B (zh) 語意音軌混合器
US10623879B2 (en) Method of editing audio signals using separated objects and associated apparatus
US8392004B2 (en) Automatic audio adjustment
JP6231102B2 (ja) 主観的忠実度のための音声コンテンツの変換
US10192461B2 (en) Transcribing voiced musical notes for creating, practicing and sharing of musical harmonies
US11282407B2 (en) Teaching vocal harmonies
WO2015035492A1 (en) System and method for performing automatic multi-track audio mixing
CA3014430A1 (en) Digital audio supplementation
De Man et al. Intelligent music production
JP2022552815A (ja) 音響システムにおけるスピーチのオーディオ品質の改善
WO2022030259A1 (ja) 信号処理装置および方法、並びにプログラム
US11849301B2 (en) Information processing apparatus and method, and program
AU2022202594A1 (en) System for deliverables versioning in audio mastering
KR102155743B1 (ko) 대표음량을 적용한 컨텐츠 음량 조절 시스템 및 그 방법
CN110574107A (zh) 数据格式
Reiss An intelligent systems approach to mixing multitrack audio
WO2023062865A1 (ja) 情報処理装置および方法、並びにプログラム
WO2021124919A1 (ja) 情報処理装置および方法、並びにプログラム
Perez Gonzalez Advanced automatic mixing tools for music
Green et al. Editing
Brandtsegg et al. Applications of Cross-Adaptive Audio Effects: Automatic Mixing, Live Performance and Everything in Between
JP2007033833A (ja) オーサリング装置およびオーサリングプログラム
NZ787401A (en) System for deliverables versioning in audio mastering

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21853825

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21853825

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP