WO2023162508A1 - 信号処理装置および信号処理方法 - Google Patents

信号処理装置および信号処理方法 Download PDF

Info

Publication number
WO2023162508A1
WO2023162508A1 PCT/JP2023/001072 JP2023001072W WO2023162508A1 WO 2023162508 A1 WO2023162508 A1 WO 2023162508A1 JP 2023001072 W JP2023001072 W JP 2023001072W WO 2023162508 A1 WO2023162508 A1 WO 2023162508A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
specific sound
gain
feature
signal processing
Prior art date
Application number
PCT/JP2023/001072
Other languages
English (en)
French (fr)
Inventor
洋介 高橋
知樹 山嶋
麻里子 吉岡
喬 工藤
洋輔 堀場
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023162508A1 publication Critical patent/WO2023162508A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present disclosure relates to a signal processing device and a signal processing method.
  • Patent Literature 1 discloses a method for extracting a sound (center sound) that the audience hears at a live venue and adding the extracted center sound to an input signal as a means of improving the presence of live content. discloses a technique for clarifying the center sound.
  • One of the purposes of this disclosure is to create content experience value.
  • the present disclosure for example, a feature extraction unit that extracts a signal of a specific sound from an input signal using a learning model obtained by machine learning; and a feature addition unit that adjusts the gain of the signal of the specific sound extracted by the feature extraction unit and adds it to the signal based on the input signal.
  • the present disclosure for example, a feature extraction step of extracting a specific sound signal from an input signal using a learning model obtained by machine learning; and a feature adding step of adjusting the gain of the signal of the specific sound extracted in the feature extracting step and adding it to the signal based on the input signal.
  • FIG. 1 is a functional block diagram showing a configuration example of an information processing apparatus.
  • FIG. 2 is a diagram showing a configuration example of a user interface.
  • FIG. 3 is a diagram showing a configuration example of a user interface.
  • FIG. 4 is a diagram for explaining a mode example of automatic setting.
  • FIG. 5 is a diagram for explaining a mode example of automatic setting.
  • FIG. 6 is a diagram showing a configuration example of a user interface.
  • FIG. 7 is a diagram showing a first configuration example of the signal processing unit.
  • FIG. 8 is a diagram showing a second configuration example of the signal processing unit.
  • FIG. 9 is a diagram showing a third configuration example of the signal processing unit.
  • FIG. 10 is a flowchart illustrating a processing example of a signal processing unit;
  • FIG. 11 is a diagram illustrating a hardware configuration example.
  • Embodiment> [1-1. Configuration example of information processing device] [1-2. Setting mode example] [1-3. First configuration example of signal processing unit] [1-4. Second configuration example of signal processing unit] [1-5. Third Configuration Example of Signal Processing Unit] [1-6. Example of processing by the signal processing section] [1-7. Hardware configuration example] ⁇ 2. Variation>
  • FIG. 1 shows a configuration example of an information processing device (information processing device 1) according to an embodiment of the present disclosure.
  • the information processing device 1 is a sound bar used in home audio, home theater, and the like.
  • the information processing device 1 is not limited to a sound bar, and may be other electronic devices such as headphones, earphones, head-mounted displays, audio players, smart phones, and personal computers. The point is that it can be used as long as it is used for content (specifically, content including sound).
  • the information processing device 1 aims to improve the experience value by enabling adjustment of the clarity and localization of a specific sound of content (hereinafter referred to as a specific sound).
  • Specific sounds include, for example, speech (Dialog) in live content such as live sports commentary, vocals in music content, and voice-related sounds such as lines in video content.
  • Sounds related to voices are not limited to human speaking or singing voices, but include voices in a broad sense (for example, laughter, crying, sighing, barking, etc.), and sounds corresponding to voices (for example, characters (such as virtual voice sounds) are also included.
  • the information processing device 1 has a setting unit 2 and a signal processing unit 3 .
  • the setting unit 2 sets the clarity adjustment and localization adjustment of the specific sound, and outputs setting information according to the setting.
  • the setting unit 2 acquires, for example, various information necessary for setting, and performs this setting based on the acquired information.
  • the various information includes, for example, operation information according to the operation of a user interface (UI) such as a user-operable switch or touch panel, and sensing information according to the sensing result of a sensor device such as a camera or a microphone.
  • UI user interface
  • sensing information according to the sensing result of a sensor device such as a camera or a microphone.
  • These information acquisition source devices may or may not be included in the information processing apparatus 1 .
  • the connection between the information processing apparatus 1 and the information acquisition source device may be either a wired connection or a wireless connection.
  • the setting information output by the setting section 2 is sent to the signal processing section 3 .
  • the signal processing unit (signal processing device) 3 performs processing for adjusting the clarity or localization of the specific sound to the input signal, and outputs it as an output signal. Note that the signal processing unit 3 may adjust both clarity and localization. These adjustments are made according to setting information supplied from the setting unit 2 .
  • An input signal input to the signal processing unit 3 is supplied, for example, from another device (eg, television device) connected to the information processing device 1 .
  • the input signal may be a one-channel (ch) signal, a two-channel signal, or a multi-channel signal of more than two.
  • the input signal supply source device may be, for example, a storage device, a receiving device, or the like. These source devices may or may not be included in the information processing apparatus 1 .
  • the connection between the information processing apparatus 1 and the supply source device may be wired connection or wireless connection.
  • the output signal is output to, for example, a speaker (not shown) of the information processing device 1 to output sound.
  • the output signal may have the same number of channels as the input signal, or may have a different number of channels than the input signal due to upmixing or downmixing.
  • the output destination device of the output signal may be, for example, a storage device, a transmission device, or the like. These output destination devices may or may not be included in the information processing apparatus 1 .
  • the connection between the information processing apparatus 1 and the output destination device may be wired connection or wireless connection.
  • the signal processing unit 3 extracts the signal of the specific sound from the input signal, adjusts the gain of the extracted signal of the specific sound, and adds it to the signal based on the input signal (addition by addition of the plus signal and minus signal ), and outputs the added signal as an output signal.
  • the signal based on the input signal referred to here is the input signal or a signal obtained by performing predetermined processing on the input signal. Examples of the predetermined processing include separation processing of a specific sound, delay processing, upmix processing, downmix processing, and the like.
  • the signal processing unit 3 when adjusting the clarity of the specific sound, adds the signal of the specific sound extracted from the input signal to the signal based on the input signal, and increases or decreases the signal level of the specific sound. do. Further, for example, when adjusting the localization of the specific sound, the signal processing unit 3 adds the signal of the specific sound extracted from the input signal to the signal based on the input signal as appropriate to any channel signal. It will be realized by A specific configuration example of the signal processing unit 3 will be described later.
  • the setting of the clarity adjustment and the localization adjustment can be performed, for example, by any of the following three methods. 1. By switching the "sound mode", the setting is uniformly fixed (fixed setting). 2. Automatically switch to the recommended settings with an external trigger (automatic settings). 3. The user can change any setting in real time using a smartphone app or the like (arbitrary setting).
  • Fig. 2 shows a configuration example of a user interface for setting.
  • the fixed setting described above can be realized as follows.
  • the information processing apparatus 1 has an operation unit 4 that can be operated by a user.
  • the operation unit 4 is operated by the user when he/she wishes to increase the clarity of a specific sound (Voice in the illustrated example).
  • the operation unit 4 can be composed of, for example, a push button switch as shown, and when the push button switch is turned on, the information processing device 1 automatically operates to increase the clarity of the specific sound.
  • the setting section 2 reads fixed settings from the storage device according to the operation information, and sets the setting information.
  • a fixed setting is, for example, a setting that an audio setting person considers good. In the case of the setting of the localization adjustment, for example, it can be configured to be switched by a direction key or the like.
  • the automatic setting described above can be realized as follows.
  • the information processing apparatus 1 has sensor devices 5 such as a camera 51 and a microphone 52 .
  • the information processing apparatus 1 can detect the user position by the camera 51, for example, and automatically adjust the localization of the specific sound according to the detected user position.
  • the user is not always at the center of the home audio system. Therefore, for example, when the user is on the right side of the center position, it is possible to adjust the localization so that the sound on the left side is louder, so that the user can hear the same sound as when the user is on the center position. Note that the clarity of the specific sound may be adjusted according to the user's position.
  • the information processing apparatus 1 can, for example, identify the user's age using the camera 51 and adjust the clarity of the specific sound according to the age, as shown in FIG. As a result, it is possible to improve the clarity so that the elderly can be heard easily when the users include the elderly.
  • the localization may be adjusted according to the age of the user.
  • the setting unit 2 described above may automatically set the optimum setting information according to the sensing information of the sensor device. It is also conceivable to have the user input age information using a smartphone application or the like when setting home audio or the like, so that the settings are automatically adjusted to optimal settings according to the input age.
  • the information processing apparatus 1 picks up ambient sounds with a microphone 52 (see FIG. 2), and measures the clarity of a specific sound (a voice in the illustrated example) according to the sound pickup result. may be adjusted.
  • the microphone 52 detects the volume level of sounds other than the specific sound (for example, external noise), and automatically sets the specific sound so that it is easier to hear than sounds other than the specific sound (for example, voice By increasing the level of the signal), it is possible to make it easier to hear the specific sound.
  • the localization of the specific sound may be adjusted according to the sound pickup result.
  • the arbitrary setting described above can be realized as follows.
  • the configuration is such that the user can move the localization of the specific sound to arbitrary coordinates of the application display of the smartphone 10 .
  • a diagram of three-dimensional axes centered on the user's position is displayed, and the localization of the specific sound can be adjusted to a desired position in the diagram.
  • the information processing apparatus 1 may allow the user to change any setting in real time. The same is true for setting the clarity adjustment.
  • FIG. 7 shows a configuration example of the signal processing section 3 (indicated as signal processing section 3A in FIG. 7) when the input signal is a two-channel signal. As shown, the signal processing section 3A receives 2-channel (L and R channel) signals as input signals and outputs 2-channel signals as output signals.
  • the signal processing unit 3A has a feature extraction unit 6 and a feature addition unit 7.
  • the feature extractor 6 extracts a specific sound signal from the input signal.
  • the feature extraction unit 6 extracts a signal of a specific sound (vocal in the illustrated example) from the input signal for each channel, for example, using a learning model obtained by machine learning.
  • This learning model is a learning model obtained by pre-learning so as to extract a signal of a specific sound from an input signal.
  • the learning model for example, one learned for each channel may be used, or one common to each channel may be used.
  • Machine learning for example, neural networks (including DNN (Deep Neural Networks)) can be applied. As a result, it is possible to extract the specific sound with high accuracy.
  • Machine learning is not limited to this, but includes nonnegative matrix factorization (NMF), k-nearest neighbor (k-NN), support vector machine (SVM), mixed Other methods such as Gaussian Mixture Model (GMM) may also be used.
  • NMF nonnegative matrix factorization
  • k-NN k-nearest neighbor
  • SVM support vector machine
  • GMM Gaussian Mixture Model
  • the feature extraction unit 6 separates and outputs the signal of the specific sound of each channel and the signal of the sound other than the specific sound of each channel (Other in the illustrated example).
  • Each signal output from the feature extractor 6 is supplied to the feature adder 7 .
  • the signal processing unit 3A may be configured such that the input signal is directly supplied to the feature adding unit 7 instead of the signal of the sound other than the specific sound. That is, the input signal and the signal of the specific sound may be supplied to the feature adding section 7 . In this case, for example, delay processing is performed (for details, see configuration example 2 described later).
  • the feature addition unit 7 adjusts the gain of the signal of the specific sound extracted by the feature extraction unit 6 and adds it to the signal based on the input signal (in this example, the signal of the sound other than the specific sound).
  • the feature addition unit 7 gain-adjusts the signal of the specific sound, for example, by setting the clarity of the specific sound to change or by setting the localization of the specific sound to change (it may be possible to change both of these settings).
  • the feature addition unit 7 has addition units 71 and 72 that add input signals and output them, and gain adjustment units 73 to 76 that adjust the gains of the input signals and output them.
  • a signal of a specific sound (Vocal L in the illustrated example) separated from the L channel signal is supplied to the addition section 71 via the gain adjustment section 73 and supplied to the addition section 72 via the gain adjustment section 74. be.
  • the signal of the specific sound (Vocal R in the illustrated example) separated from the R channel signal is supplied to the addition section 71 via the gain adjustment section 75 and to the addition section 72 via the gain adjustment section 76. supplied.
  • the gain adjustment units 73 to 76 are each controlled according to the setting information output by the setting unit 2 described above.
  • the gain adjusters 73 to 76 each adjust the gain of the signal of the specific sound with a predetermined fixed setting.
  • each of the gain adjusters 73 to 76 automatically adjusts the gain of the specific sound signal according to the sensing information of the sensor device 5 .
  • the gain adjustment units 73 to 76 may, for example, adjust the gain of the signal of the specific sound according to the user age or the user position obtained by analyzing the captured image of the camera 51, or adjust the sound pickup information of the microphone 52.
  • the gain of the specific sound signal may be adjusted according to the level of the external noise obtained by analysis.
  • each of the gain adjustment units 73 to 76 arbitrarily adjusts the gain of the signal of the specific sound according to the operation information output from the user interface.
  • the signal of the sound other than the specific sound in the L channel (Other L in the example shown) is supplied to the addition unit 71, and the signal of the sound other than the specific sound in the R channel (Other R in the example shown) is added. It is supplied to section 72 .
  • the addition unit 71 adds the signal of the specific sound whose gain is adjusted by the gain adjustment unit 73 and the gain adjustment unit 75 to the signal of the sound other than the specific sound in the L channel, and outputs the signal.
  • the adder 72 adds the signal of the specific sound whose gain is adjusted by the gain adjuster 74 and the gain adjuster 76 to the signal of the sound other than the specific sound of the R channel, and outputs the signal.
  • the signal processing section 3A outputs the signals output by the adding section 71 and the adding section 72 as L and R channel signals, respectively.
  • the signal processing unit 3A can adjust the clarity and localization of the specific sound.
  • the gain adjusters 73 to 76 may be controlled so that the clarity of the specific sound of the output signal is increased or decreased as compared with the input signal.
  • the gains of the L- and R-channel specific sound signals added to the L-channel sound signals other than the specific sound by the adder 71 are increased by the gain adjusters 73 and 76, respectively.
  • This makes it possible to increase the signal level of each specific sound compared to the input signal, thereby emphasizing the specific sound and improving the clarity.
  • by respectively reducing these gains by the gain adjustment section 73 and the gain adjustment section 76 it is possible to suppress the voice and reduce the clarity.
  • sound components other than the specific sound can be emphasized.
  • vocals can be suppressed to achieve a karaoke effect.
  • the gain adjustment units 73 to 76 may be controlled so that the specific sound is localized at a desired position. For example, the specific sound signal extracted from each channel is mixed to one output channel side, and the mixing amount to the other channel side is reduced to pan the specific sound signal to one side. This makes it possible to adjust the localization. Specifically, the gains of the L- and R-channel specific sound signals added to the L-channel sound signals other than the specific sound by the adder 71 are reduced by the gain adjusters 73 and 75, respectively.
  • the gain of the signal of the specific sound component of the L and R channels added to the signal of the sound other than the specific sound of the R channel by the adder 72 is increased by the gain adjuster 74 and the gain adjuster 76 respectively.
  • localization can be adjusted such that the specific sound component of the L channel signal is reduced and the specific sound component of the R channel signal is increased so that the specific sound can be heard mainly from the right channel.
  • the gain adjustment units 73 to 76 may be appropriately controlled in consideration of both. If the clarity and localization of the specific sound are not adjusted, the gain adjusters 73 to 76 should be controlled so that the input signal is output as it is. In this way, according to the signal processing section 3A, it is possible to adjust the clarity and localization of the specific sound, and to create the experience value of the content.
  • FIG. 8 shows a configuration example of the signal processing section 3 (denoted as signal processing section 3B in FIG. 8) when upmix processing is involved.
  • the signal processing unit 3B receives 2-channel (L and R channel) signals as input signals and outputs 5.0.2 channel signals (FL, FR.C.SL, SR, TopFL, Each signal of TopFR) is output.
  • the FL and FR signals are the front left and right signals, and the C signal is the front center signal.
  • the SL and SR signals are surround left and right signals.
  • the TopFL and TopFR signals are upper front left and right signals.
  • the signal processing unit 3B has a feature extraction unit 6B, a feature addition unit 7B, a delay processing unit 8 and a channel number conversion unit 9.
  • the feature extraction unit 6B uses a learning model obtained by machine learning to extract and output a specific sound signal for each channel from the two-channel signal. Each signal output from the feature extractor 6B is supplied to the feature adder 7B. Note that this machine learning and learning model are as described in the first configuration example described above, and description thereof will be omitted.
  • the channel number converter 9 changes the number of channels of the input signal and outputs it. Specifically, the channel number conversion unit 9 converts the 2-channel signal input via the delay processing unit 8 into a 5.0.2-channel signal by an upmix technique, and converts each signal after conversion (FL, FR, C, SL, SR, TopFL, and TopFR signals). Various upmix techniques can be adopted. Each signal output from the channel number converting section 9 is supplied to the feature adding section 7B.
  • the delay processing unit 8 applies delay processing to the input two-channel signal, and processing delay (specifically, , is provided to eliminate the discrepancy caused by the delay in the specific sound extraction process using the learning model (learned data) of machine learning (that is, the analysis time for extracting the specific sound) and to match them. That is, the delay processing unit 8 delays the output of each signal output from the channel number conversion unit 9 according to the processing time (for example, 256 samples) in the feature extraction unit 6B.
  • the delay processing unit 8 for example, delay-processes the input two-channel signals by delays 81 and 82, respectively, and outputs the delayed signals.
  • the feature addition unit 7B adjusts the gain of the signal of the specific sound extracted by the feature extraction unit 6B and adds it to the signal based on the input signal (in this example, the upmixed signal).
  • the feature adding unit 7B gain-adjusts the signal of the specific sound, for example, with a setting that changes the clarity of the specific sound or a setting that changes the localization of the specific sound (it may be a setting that changes both of them).
  • the feature addition unit 7B has addition units 711 to 717 that add input signals and output them, and gain adjustment units 718 to 724 that adjust the gains of the input signals and output them. It should be noted that each of the gain adjusting sections 718 to 724 adjusts the gain of the specific sound signal (Vocal L and Vocal R in the illustrated example) output from the feature extracting section 6B.
  • the gain adjusters 718 to 724 are controlled in the same manner as in the first embodiment according to the setting information output from the setting section 2 described above.
  • the signal of the specific sound output from the feature extraction unit 6B is supplied to each of the addition units 711-717 via each of the gain adjustment units 718-724.
  • the FL and FR signals output from the channel number converter 9 are supplied to the adder 711 and the adder 712, respectively.
  • the C signal output from the channel number converter 9 is supplied to an adder 713, and the SL and SR signals are supplied to an adder 714 and an adder 715, respectively.
  • the TopFL and TopFR signals output from the channel number converter 9 are supplied to the adder 716 and the adder 717, respectively.
  • the adders 711 to 717 add the signals of the two-channel specific sounds whose gains have been adjusted by the gain adjusters 718 to 724 to the multichannel signals output from the channel number converter 9, respectively, and output the multichannel signals.
  • the adder 711 adds the signal of each specific sound to the FL signal and outputs it
  • the adder 712 adds the signal of each specific sound to the FR signal and outputs it
  • the adder 713 adds the signal of each specific sound to the FR signal. is added to the C signal and output.
  • Addition section 714 adds the signal of each specific sound to the SL signal and outputs it
  • addition section 715 adds the signal of each specific sound to the SR signal and outputs it
  • addition section 716 adds the signal of each specific sound to the SR signal and outputs it. is added to the TopSL signal
  • the adder 717 adds the signal of each specific sound to the TopSR signal and outputs it. Then, the signal processing section 3B outputs the respective output signals of the adding sections 711 to 717 as 5.0.2 channel signals.
  • the signal processing unit 3B can adjust the clarity and localization of the specific sound.
  • the gain adjusters 718 to 724 may be controlled so that the clarity of the specific sound of the output signal increases or decreases compared to when the specific sound is not added.
  • the gain adjustment unit 720 increases the gain of each of the two-channel specific sound signals added to the C signal by the addition unit 713 . .
  • the signal level of the specific sound of the output C signal becomes higher than before addition, so that the specific sound can be emphasized and the clarity can be improved.
  • these gains are each reduced by the gain adjuster 720 .
  • the signal level of the specific sound in the output C signal becomes lower than before addition, so that the specific sound can be suppressed and the clarity can be lowered. That is, the karaoke effect can be realized as in the first embodiment.
  • the signal to be adjusted is not limited to the C signal. For example, when the sound source of the specific sound is not located at the center position, a signal corresponding to the direction of the sound source may be adjusted.
  • the gain adjustment units 718 to 724 may be controlled so that the specific sound is localized at a desired position. For example, by increasing the gain of the specific sound signal added to the TopFL signal and decreasing the gain of the specific sound signal added to the other channel signal, the localization of the specific sound can be adjusted to the TopFL side.
  • the channel for increasing or decreasing the level of the signal of the specific sound is not limited to one channel, and may be a plurality of channels.
  • the gain adjustment units 718 to 724 should be appropriately controlled in consideration of both. If the clarity and localization of the specific sound are not adjusted, the gain adjusters 718 to 724 should be controlled so that each signal immediately after the upmixing is output as it is.
  • the characteristic extraction unit 6B extracts the specific sound in parallel with the processing of the delay processing unit 8 and the channel number conversion unit 9, and the extracted specific sound is converted to the channel number conversion unit 9. are combined with the signal after upmixing by At this time, by appropriately adjusting the gain of the signal of the specific sound to be synthesized, it is possible to realize adjustment of clarity and adjustment of localization, and it is possible to create an experiential value of the content.
  • the channel configuration may be other than conversion from 2 channels to 5.0.2 channels. Also, when moving up and down, it is possible to similarly adjust the clarity and the localization.
  • FIG. 9 shows a configuration example of the signal processing section 3 (denoted as signal processing section 3C in FIG. 9) when the input signal is a multi-channel signal.
  • the signal processor 3C receives a 5.0.2 channel signal as an input signal and outputs a 5.0.2 channel signal as an output signal.
  • the signal processing unit 3C has a feature extraction unit 6C, a feature addition unit 7C and a delay processing unit 8C.
  • the feature extraction unit 6C uses a learning model obtained by machine learning to extract and output specific sound signals (Vocal FL, Vocal FR, ..., Vocal Top FR) for each channel from the 5.0.2 channel signal. do.
  • Each signal output from the feature extraction section 6C is supplied to the feature addition section 7C. It should be noted that this machine learning and learning model are also as described in the above-described first configuration example.
  • the delay processing section 8C applies delay processing to the input 5.0.2 channel signal, and eliminates the deviation due to the processing delay that occurs in the feature extraction section 6C when the specific sound is synthesized in the feature addition section 7C. provided to match That is, the delay processing section 8C delays the output of the input 5.0.2 channel signal in accordance with the processing time of the feature extraction section 6C.
  • the delay processor 8C for example, delays the input 5.0.2 channel signal by means of delays 81C to 87C and outputs the delayed signal. Each signal output from the delay processing section 8C is supplied to the feature addition section 7C.
  • the feature addition unit 7C adjusts the gain of the signal of the specific sound extracted by the feature extraction unit 6C and adds it to the signal based on the input signal (in this example, the signal after delay processing).
  • the feature adding unit 7C gain-adjusts the signal of the specific sound, for example, with a setting that changes the clarity of the specific sound or a setting that changes the localization of the specific sound (it may be a setting that changes both).
  • the feature addition unit 7C has addition units 731 to 737 that add input signals and output them, and gain adjustment units 738 to 744 that adjust the gains of the input signals and output them.
  • the gain adjustment units 738 to 744 adjust the gain of the signal of the specific sound output from the feature extraction unit 6C (in the illustrated example, Vocal Multich: Vocal FL, Vocal FR, . . . , Vocal Top FR). do.
  • the gain adjusters 738 to 744 are controlled in the same manner as in the first embodiment according to the setting information output from the setting section 2 described above.
  • the signal of the specific sound output from the feature extraction unit 6C is supplied to each of the addition units 731-737 via each of the gain adjustment units 738-744.
  • the FL and FR signals output from the delay processing section 8C are supplied to the adding section 731 and the adding section 732, respectively.
  • the C signal output from the delay processing section 8C is supplied to the adding section 733, and the SL and SR signals are supplied to the adding section 734 and the adding section 735, respectively.
  • the TopFL and TopFR signals output from the delay processing section 8C are supplied to the adding section 736 and the adding section 737, respectively.
  • the adders 731 to 737 each add the signals of the multi-channel specific sounds whose gains have been adjusted by the gain adjusters 738 to 744 to the multi-channel signals output from the delay processor 8C and output them.
  • the adder 731 adds the signal of each specific sound to the FL signal and outputs it
  • the adder 732 adds the signal of each specific sound to the FR signal and outputs it
  • the adder 733 adds the signal of each specific sound to the FR signal. is added to the C signal and output.
  • the adding section 734 adds the signal of each specific sound to the SL signal and outputs it
  • the adding section 735 adds the signal of each specific sound to the SR signal and outputs it
  • the adding section 736 adds the signal of each specific sound to the SR signal.
  • the signal processing section 3C outputs the respective output signals of the adding sections 731 to 737 as 5.0.2 channel signals.
  • the signal processing unit 3C can adjust the clarity and localization of the specific sound.
  • the gain adjusters 738 to 744 may be controlled so that the clarity of the specific sound of the output signal increases or decreases compared to when the specific sound is not added.
  • the gain adjuster 740 increases the gain of each multi-channel specific sound signal added to the C signal by the adder 733 .
  • these gains are each reduced by the gain adjuster 740 .
  • the signal to be adjusted is not limited to the C signal. For example, a signal corresponding to the sound source direction of the specific sound may be adjusted.
  • the gain adjustment units 738 to 744 may be controlled so that the specific sound is localized at a desired position. For example, by increasing the gain of the specific sound signal added to the TopFL signal and decreasing the gain of the specific sound signal added to the other channel signal, the localization of the specific sound can be adjusted to the TopFL side.
  • the channel for increasing or decreasing the level of the signal of the specific sound is not limited to one channel, and may be a plurality of channels.
  • the gain adjustment units 738 to 744 should be appropriately controlled in consideration of both. If the clarity and localization of the specific sound are not adjusted, the gain adjusters 738 to 744 should be controlled so that the signals output from the delay processor 8C are output as they are.
  • the signal processing unit 3C even when the input signal is a multi-channel signal, it is possible to realize the adjustment of the clarity and the adjustment of the localization, thereby creating the experience value of the content. can.
  • the channel configuration may be other than 5.0.2 channels.
  • FIG. 10 shows the processing by the signal processing unit 3 described above as a flow chart.
  • the signal processing unit 3 receives an input signal when processing is started by power-on or the like (step S10). Then, the signal processing unit 3 uses the learning model obtained by machine learning to extract the signal of the specific sound from the input signal (feature extraction step: step S20). Next, the signal processing unit 3 appropriately adjusts the gain of the signal of the extracted specific sound and adds it to the signal based on the input signal (feature adding step: step S30). The gain of the signal of the specific sound to be added is appropriately adjusted according to the setting information output by the setting section 2 described above.
  • the signal processing unit 3 outputs the signal to which the signal of the specific sound is added as an output signal (step S40).
  • the signal processing unit 3 terminates the processing by turning off the power or the like.
  • FIG. 11 shows a hardware configuration example of the information processing apparatus 1 described above.
  • the information processing apparatus 1 has a control section 101, a storage section 102, an input section 103, a communication section 104 and an output section 105 interconnected by a bus.
  • the control unit 101 is composed of, for example, a CPU (Central Processing Unit), RAM (Random Access Memory), ROM (Read Only Memory), and the like.
  • the ROM stores programs and the like that are read and operated by the CPU.
  • the RAM is used as work memory for the CPU.
  • the CPU controls the entire information processing apparatus 1 by executing various processes and issuing commands according to programs stored in the ROM.
  • the storage unit 102 is a storage medium configured by, for example, a HDD (Hard Disk Drive), an SSD (Solid State Drive), a semiconductor memory, or the like. , programs (for example, applications) and other data.
  • a HDD Hard Disk Drive
  • SSD Solid State Drive
  • semiconductor memory or the like.
  • the input unit 103 is a device for inputting various information to the information processing device 1 .
  • the control unit 101 performs various processes corresponding to the input information.
  • the input unit 103 may be a mouse and keyboard, a microphone, various sensors, a touch panel, a touch screen integrated with a monitor, physical buttons, and the like.
  • Various types of information may be input to the information processing apparatus 1 via the communication unit 104, which will be described later.
  • the communication unit 104 is a communication module that communicates with other devices and the Internet according to a predetermined communication standard.
  • Communication methods include wireless LAN (Local Area Network) such as Wi-Fi (Wireless Fidelity), LTE (Long Term Evolution), 5G (5th generation mobile communication system), broadband, Bluetooth (registered trademark), etc. .
  • Wi-Fi Wireless Fidelity
  • LTE Long Term Evolution
  • 5G Fifth Generation mobile communication system
  • Bluetooth registered trademark
  • the output unit 105 is a device for outputting various information from the information processing device 1 .
  • the output unit 105 includes, for example, a display (display device) for displaying images and videos, and an output device for outputting sound such as a speaker.
  • Various types of information from the information processing apparatus 1 may be output via the communication unit 104 .
  • the control unit 101 performs various processes by reading and executing programs (eg, applications) stored in the storage unit 102, for example.
  • programs eg, applications
  • the information processing device 1 functions as a computer.
  • the program (eg, application) and data need not be stored in the storage unit 102.
  • the information processing apparatus 1 may read and use programs and data stored in a readable storage medium.
  • the storage medium include optical discs, magnetic discs, semiconductor memories, HDDs, etc. that can be detachably attached to the information processing apparatus 1 .
  • programs and data may be stored in a device (for example, cloud storage) connected to a network such as the Internet, and the information processing device 1 may read and execute the programs and data therefrom.
  • the program may be, for example, a plug-in program that adds part or all of the processing to an existing application.
  • the specific sound is not limited to this.
  • the specific sound may be any sound that can be extracted, such as the sound of a specific musical instrument, sound effects, cheering sounds, and noise (for example, noise mixed in from the outside).
  • the noise can be suppressed by setting the clarity of the specific sound to be lowered.
  • the gain adjustment units 73 to 76 of the first configuration example, the gain adjustment units 718 to 724 of the second configuration example, and the gain adjustment units 738 to 744 of the third configuration example are directly controlled by the user via a user interface.
  • the configuration may be such that these can be adjusted.
  • a feature extraction unit that extracts a signal of a specific sound from an input signal using a learning model obtained by machine learning
  • a signal processing apparatus comprising: a feature addition unit that adjusts the gain of the signal of the specific sound extracted by the feature extraction unit and adds the signal based on the input signal.
  • a channel number conversion unit that changes the number of channels of the input signal and outputs the input signal;
  • both the input signal and the signal based on the input signal are multi-channel signals;
  • the feature extraction unit extracts the specific sound signal from each channel signal of the input signal,
  • the feature adding section adjusts the gain of each specific sound signal extracted by the feature extracting section and adds it to each channel signal based on the input signal.
  • signal processor (5) The signal processing device according to any one of (1) to (4), wherein the feature adding section adjusts the gain of the signal of the specific sound in a setting that changes the clarity of the specific sound.
  • the specific sound is a vocal of music content;
  • the signal processing device according to (5), wherein the feature addition unit reduces a gain as the gain adjustment.
  • the signal processing device adjusts the gain of the signal of the specific sound in a setting that changes the localization of the specific sound.
  • the specific sound is a sound related to voice.
  • the signal processing device according to any one of (1) to (8), wherein the specific sound is sound of a specific musical instrument, sound effects, cheers, or noise.
  • the signal processing device according to any one of (1) to (10), wherein the feature extraction unit uses DNN (Deep Neural Network) as the machine learning.
  • the feature adding section adjusts the gain of the signal of the specific sound with a predetermined fixed setting.
  • the feature addition unit automatically adjusts the gain of the signal of the specific sound according to sensing information output from a sensor device.
  • the sensor device includes a camera;
  • the signal processing device adjusts the gain of the signal of the specific sound according to the age of the user obtained by analyzing the captured image of the camera.
  • the sensor device includes a camera; The signal processing device according to (13) or (14), wherein the feature addition unit adjusts the gain of the signal of the specific sound according to the user position obtained by analyzing the captured image of the camera.
  • the sensor device includes a microphone; The feature adding unit according to any one of (13) to (15), wherein the gain of the signal of the specific sound is adjusted according to the level of the external noise obtained by analyzing the collected sound information of the microphone.
  • Signal processor The signal processing device according to any one of (1) to (16), wherein the feature addition unit arbitrarily adjusts the gain of the signal of the specific sound according to operation information output from a user interface.
  • a signal processing method comprising: a feature addition step of gain-adjusting the signal of the specific sound extracted in the feature extraction step and adding it to the signal based on the input signal.
  • Information processing device 2 Setting unit 3, 3A, 3B, 3C Signal processing unit 6, 6B, 6C Feature extraction unit 7, 7B, 7C Feature Addition section 8, 8C... Delay processing section 9... Channel number conversion section 71, 72, 711 to 717, 731 to 737... Addition section 73 to 76, 718 to 724, 738 to 744 ⁇ Gain adjuster

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

例えば、コンテンツの体験価値の創出を図る。 機械学習によって得られた学習モデルを用いて入力信号から特定音の信号を抽出する特徴抽出部と、特徴抽出部で抽出された特定音の信号をゲイン調整して入力信号に基づく信号に付加する特徴付加部とを有する信号処理装置である。

Description

信号処理装置および信号処理方法
 本開示は、信号処理装置および信号処理方法に関する。
 コンテンツの体験価値を向上させる技術が知られている。例えば、下記の特許文献1には、ライブコンテンツの臨場感の向上を実現するものとして、ライブ会場において観客に聴かせる音声(センタ音)を抽出し、抽出したセンタ音を入力信号に付加することでセンタ音を明瞭化する技術について開示されている。
特開2015-99266号公報
 ところで、昨今、スポーツ実況などのライブコンテンツ、音楽コンテンツ、映画コンテンツなどの種々の娯楽コンテンツの需要が増えており、さらなるコンテンツの体験価値の創出が望まれている。
 本開示は、コンテンツの体験価値の創出を図ることを目的の一つとする。
 本開示は、例えば、
 機械学習によって得られた学習モデルを用いて入力信号から特定音の信号を抽出する特徴抽出部と、
 前記特徴抽出部で抽出された特定音の信号をゲイン調整して前記入力信号に基づく信号に付加する特徴付加部と
 を有する信号処理装置である。
 本開示は、例えば、
 機械学習によって得られた学習モデルを用いて入力信号から特定音の信号を抽出する特徴抽出ステップと、
 前記特徴抽出ステップで抽出された特定音の信号をゲイン調整して前記入力信号に基づく信号に付加する特徴付加ステップと
 を有する信号処理方法である。
図1は、情報処理装置の構成例を示す機能ブロック図である。 図2は、ユーザインタフェースの構成例を示す図である。 図3は、ユーザインタフェースの構成例を示す図である。 図4は、自動設定の態様例を説明するための図である。 図5は、自動設定の態様例を説明するための図である。 図6は、ユーザインタフェースの構成例を示す図である。 図7は、信号処理部の第1構成例を示す図である。 図8は、信号処理部の第2構成例を示す図である。 図9は、信号処理部の第3構成例を示す図である。 図10は、信号処理部の処理例を示すフローチャートである。 図11は、ハードウェア構成例を示す図である。
 以下、本開示の実施の形態等について図面を参照しながら説明する。なお、以下に説明する実施の形態等は本開示の好適な具体例であり、本開示の内容は、これらの実施の形態等に限定されるものではない。説明は以下の順序で行う。
<1.実施の形態>
[1-1.情報処理装置の構成例]
[1-2.設定態様例]
[1-3.信号処理部の第1構成例]
[1-4.信号処理部の第2構成例]
[1-5.信号処理部の第3構成例]
[1-6.信号処理部による処理例]
[1-7.ハードウェア構成例]
<2.変形例>
<1.実施の形態>
[1-1.情報処理装置の構成例]
 図1は、本開示の実施の形態に係る情報処理装置(情報処理装置1)の構成例を示している。情報処理装置1は、ホームオーディオ、ホームシアター等で使用されるサウンドバーである。なお、情報処理装置1は、サウンドバーに限らず、ヘッドホン、イヤホン、ヘッドマウントディスプレイ、オーディオプレーヤ、スマートホン、パーソナルコンピュータ等の他の電子機器であってもよい。要は、コンテンツ(具体的には、音が含まれるコンテンツ)の利用に使用するものであればよい。
 情報処理装置1は、コンテンツの特定の音(以下、特定音と称する)の明瞭度の調整および定位の調整を可能とすることで体験価値の向上を図るものである。特定音としては、例えば、スポーツ実況等のライブコンテンツ内における話(Dialog)、音楽コンテンツ内におけるボーカル、映像コンテンツ内における台詞等の声に関連する音があげられる。ここでいう声に関連する音とは、人の話し声や歌声に限らず、広い意味での声(例えば、笑い声、泣き声、ため息、鳴き声等を含む)や、声に準じた音(例えば、キャラクタなどの仮想的な声の音)も含まれる。
 情報処理装置1は、設定部2および信号処理部3を有している。設定部2は、特定音の明瞭度の調整および定位の調整の設定を行い、設定に応じた設定情報を出力する。設定部2は、例えば、設定に必要な各種情報を取得し、取得した情報に基づきこの設定を行う。この各種情報としては、例えば、ユーザ操作可能なスイッチ、タッチパネル等のユーザインタフェース(UI)の操作に応じた操作情報、カメラ、マイクロホン等のセンサデバイスのセンシング結果に応じたセンシング情報等があげられる。これらの情報取得元デバイスは、情報処理装置1に含まれていてもよいし、含まれていなくてもよい。また、情報処理装置1と情報取得元デバイスとの接続は、有線接続および無線接続の何れであっても構わない。設定部2により出力された設定情報は、信号処理部3に送られる。
 信号処理部(信号処理装置)3は、入力信号に特定音の明瞭度の調整または定位の調整の処理を施し、出力信号として出力する。なお、信号処理部3は、明瞭度および定位の両方の調整を行うものであってもよい。これらの調整は、設定部2から供給される設定情報に応じて行われる。
 信号処理部3に入力される入力信号は、例えば、情報処理装置1に接続されている他の装置(例えば、テレビジョン装置)から供給される。入力信号は、1チャンネル(ch)信号、2チャンネル信号およびそれ以上のマルチチャンネル信号の何れであってもよい。なお、入力信号の供給元デバイスは、例えば、記憶装置、受信装置等であってもよい。これらの供給元デバイスは、情報処理装置1に含まれていてもよいし、含まれていなくてもよい。情報処理装置1と供給元デバイスとの接続は、有線接続および無線接続の何れであっても構わない。
 出力信号は、例えば、情報処理装置1が有するスピーカ(図示略)に出力され、音が出力される。出力信号は、入力信号と同じチャンネル数であってもよいし、アップミックスまたはダウンミックスによりチャンネル数が入力信号と異なっていてもよい。なお、出力信号の出力先デバイスは、例えば、記憶装置、送信装置等であってもよい。これらの出力先デバイスは、情報処理装置1に含まれていてもよいし、含まれていなくてもよい。情報処理装置1と出力先デバイスとの接続は、有線接続および無線接続の何れであっても構わない。
 信号処理部3は、具体的には、入力信号から特定音の信号を抽出し、抽出した特定音の信号をゲイン調整して入力信号に基づく信号に付加(プラス信号の付加による加算とマイナス信号の付加による減算の両方を含む)し、付加した信号を出力信号として出力する。ここでいう入力信号に基づく信号とは、入力信号または入力信号を所定処理した信号である。この所定処理としては、例えば、特定音の分離処理、遅延処理、アップミックス処理、ダウンミックス処理等があげられる。
 信号処理部3は、例えば、特定音の明瞭度を調整する場合には、入力信号から抽出した特定音の信号を入力信号に基づく信号に足し込み、特定音の信号レベルを増減させることで実現する。また、信号処理部3は、例えば、特定音の定位を調整する場合には、入力信号から抽出した特定音の信号を入力信号に基づく信号に足し込む際に、任意のチャンネル信号に適宜足し込むことで実現する。信号処理部3の具体的な構成例については後述する。
[1-2.設定態様例]
 ここで、上述した設定部2における設定の態様例について説明する。明瞭度の調整および定位の調整の設定は、例えば、以下の3つの何れかにより行うことができる。
1.「サウンドモード」の切り替えにより一律に固定の設定とする(固定設定)。
2.外部トリガにより自動的にお薦めの設定に切り替える(自動設定)。
3.スマートホンのアプリ等でユーザが任意の設定にリアルタイムに変更する(任意設定)。
 図2は、設定用のユーザインタフェースの構成例を示している。例えば、以下のようにして上述した固定設定を実現することができる。図2に示すように、例えば、情報処理装置1がユーザ操作可能な操作部4を有するものとする。操作部4は、特定音(図示例では、Voice)の明瞭度を高めたい場合にユーザが操作するものである。操作部4は、例えば、図示するような押釦スイッチで構成することができ、押釦スイッチをオンにすると、情報処理装置1は、自動的に特定音の明瞭度を上げるように動作する。具体的には、押釦スイッチが押された場合に、その操作情報に応じて上述した設定部2が記憶装置から固定の設定を読み込み、設定情報を設定する。固定の設定は、例えば、音響設定者がよいと考えた設定である。定位調整の設定の場合は、例えば、方向キー等で切り替わる構成とすることができる。
 なお、スマートホンのアプリ等から明瞭度の調整および定位の調整の設定を可能な構成としてもよい。例えば、図3に示すように、スマートホン10の情報処理装置1(図示例では、サウンドバー)の設定画面において、「Preset Mode」、「Clear Voice」の順に設定することで、操作部4と同様に設定を行うことができる。定位調整の設定の場合も同様である。
 また、例えば、以下のようにして上述した自動設定を実現することができる。図2に示すように、例えば、情報処理装置1がカメラ51、マイクロホン52等のセンサデバイス5を有するものとする。これにより、情報処理装置1は、例えば、カメラ51によりユーザ位置を検出し、検出したユーザ位置に応じて特定音の定位を自動的に調整するものとすることができる。ユーザは常にホームオーディオ等のセンタ位置にいるとは限らない。そこで、例えば、ユーザがセンタ位置よりも右側にいるときは、左側の音が大きくなるように定位調整し、センタ位置にいる場合と同じように聴こえるようにすることができる。なお、ユーザ位置に応じて特定音の明瞭度を調整してもよい。
 また、情報処理装置1は、例えば、図4に示すように、カメラ51によりユーザ年齢を識別し、年齢に応じて特定音の明瞭度を調整するものとすることができる。これにより、ユーザに高齢者が含まれる場合には聞き取りやすいように明瞭度を高めることができる。なお、ユーザ年齢に応じて定位を調整してもよい。このように、カメラ51の画像解析の結果に応じて自動的に設定するようにすることもできる。つまり、センサデバイスのセンシング情報に応じて上述した設定部2が自動的に最適な設定情報を設定してもよい。なお、ホームオーディオ等のセット設定時にスマートホンのアプリ等で年齢情報をユーザに入力させることで、入力された年齢に応じて最適な設定に自動調整するなども考えられる。
 さらに、情報処理装置1は、例えば、図5に示すように、マイクロホン52(図2を参照)により周囲音を収音し、収音結果に応じて特定音(図示例では声)の明瞭度を調整するものとすることができる。例えば、マイクロホン52により特定音以外(例えば、外来ノイズ)の音量レベルを検出し、特定音が特定音以外の音よりも聞えやすくなるように自動的に設定する(例えば、図示するように、声信号のレベルを大きくする)ようにすることで、特定音を聞き取りやすくすることができる。なお、収音結果に応じて特定音の定位を調整するものとしてもよい。
 また、例えば、以下のようにして上述した任意設定を実現することができる。図6に示すように、例えば、特定音の定位をスマートホン10のアプリ表示の任意の座標にユーザが移動可能な構成とする。具体的には、ユーザ位置を中心とした3次元軸の図を表示し、図中の好みの位置に特定音の定位を調整可能にする。このように、情報処理装置1は、ユーザが任意の設定にリアルタイムに変更可能なものであってもよい。明瞭度の調整の設定についても、同様である。
[1-3.信号処理部の第1構成例]
 図7は、入力信号が2チャンネル信号である場合の信号処理部3(図7では信号処理部3Aと表記)の構成例を示している。図示するように、信号処理部3Aは、入力信号として2チャンネル(LおよびRチャンネル)信号を入力し、出力信号として2チャンネル信号を出力する。
 信号処理部3Aは、特徴抽出部6および特徴付加部7を有している。特徴抽出部6は、入力信号から特定音の信号を抽出するものである。特徴抽出部6は、例えば、機械学習によって得られた学習モデルを用いて、チャンネル毎に、入力信号から特定音の信号(図示例では、Vocal)を抽出する。この学習モデルは、入力信号から特定音の信号を抽出するように予め学習して得られた学習モデルである。なお、学習モデルとしては、例えば、チャンネル毎に各々学習したものを用いてもよいし、各チャンネルで共通のものを用いてもよい。
 機械学習としては、例えば、ニューラルネットワーク(DNN(Deep Neural Networks)を含む)を適用することができる。これにより、精度よく特定音の抽出が可能である。なお、機械学習は、これに限らず、非負値行列因子分解(NMF:Nonnegative Matrix Factorization)、k近傍法(k-NN:k-nearest neighbor)、サポートベクタマシン(SVM:support vector machine)、混合ガウスモデル(GMM:Gaussian Mixture Model)等の他の手法によるものであってもよい。
 特徴抽出部6は、この抽出結果に基づいて各チャンネルの特定音の信号と、各チャンネルの特定音以外の音の信号(図示例では、Other)とを分離して出力する。特徴抽出部6から出力された各信号は、特徴付加部7に供給される。なお、信号処理部3Aは、特定音以外の音の信号に替えて、入力信号がそのまま特徴付加部7に供給される構成であってもよい。つまり、入力信号と特定音の信号とが特徴付加部7に供給される構成であっても構わない。この場合、例えば、遅延処理を行う(詳しくは、後述する構成例2を参照)。
 特徴付加部7は、特徴抽出部6で抽出された特定音の信号をゲイン調整して入力信号に基づく信号(本例では、特定音以外の音の信号)に付加するものである。特徴付加部7は、例えば、特定音の明瞭度が変化する設定または特定音の定位が変化する設定(これらの両方が変化する設定でもよい)で特定音の信号をゲイン調整する。
 特徴付加部7は、入力される信号を加算して出力する加算部71,72と、入力される信号のゲインを調整して出力するゲイン調整部73~76とを有している。Lチャンネル信号から分離された特定音の信号(図示例では、Vocal L)は、ゲイン調整部73を介して加算部71に供給されるとともに、ゲイン調整部74を介して加算部72に供給される。また、Rチャンネル信号から分離された特定音の信号(図示例では、Vocal R)は、ゲイン調整部75を介して加算部71に供給されるとともに、ゲイン調整部76を介して加算部72に供給される。
 ゲイン調整部73~76は、各々、上述した設定部2が出力する設定情報に応じて制御される。例えば、上述した固定設定の場合、ゲイン調整部73~76は、各々、所定の固定設定で特定音の信号をゲイン調整する。例えば、上述した自動設定の場合、ゲイン調整部73~76は、各々、センサデバイス5のセンシング情報に応じて自動的に特定音の信号をゲイン調整する。ゲイン調整部73~76は、例えば、カメラ51の撮像画像を解析して得られたユーザ年齢またはユーザ位置に応じて特定音の信号をゲイン調整してもよいし、マイクロホン52の収音情報を解析して得られた外来ノイズのレベルに応じて特定音の信号をゲイン調整してもよい。また、例えば、上述した任意設定の場合、ゲイン調整部73~76は、各々、ユーザインタフェースから出力される操作情報に応じて任意に特定音の信号をゲイン調整する。
 一方、Lチャンネルの特定音以外の音の信号(図示例では、Other L)は、加算部71に供給され、Rチャンネルの特定音以外の音の信号(図示例では、Other R)は、加算部72に供給される。加算部71は、ゲイン調整部73およびゲイン調整部75により各々ゲイン調整された特定音の信号をLチャンネルの特定音以外の音の信号に付加して出力する。加算部72は、ゲイン調整部74およびゲイン調整部76により各々ゲイン調整された特定音の信号をRチャンネルの特定音以外の音の信号に付加して出力する。そして、信号処理部3Aは、加算部71および加算部72が出力した信号を、各々、LおよびRチャンネル信号として出力する。
 以上の構成により、信号処理部3Aは、特定音の明瞭度の調整および定位の調整が可能となっている。特定音の明瞭度を調整する場合には、入力信号と比較して出力信号の特定音の明瞭度が増加または減少するように各ゲイン調整部73~76を制御すればよい。例えば、加算部71でLチャンネルの特定音以外の音の信号に付加するLおよびRチャンネルの特定音の信号のゲインを、ゲイン調整部73およびゲイン調整部76により各々増やす。これにより、入力信号と比較して各々の特定音の信号レベルを増加させて特定音を強調し明瞭度を向上させることができる。また、例えば、これらのゲインを、ゲイン調整部73およびゲイン調整部76により各々減らすことで、音声を抑制して明瞭度を低下させることができる。言い換えると、特定音以外の音成分を強調することができる。これにより、例えば、音楽コンテンツでは、ボーカルを抑制してカラオケ効果を実現することができる。
 また、特定音の定位を調整する場合には、特定音が所望の位置に定位するように各ゲイン調整部73~76を制御すればよい。例えば、各チャンネルにて抽出した特定音の信号を一方の出力チャンネル側にミックスし、他方のチャンネル側へのミックス量を下げることで、一方側に特定音の信号をパニングする。これにより、定位の調整を実現することができる。具体的には、加算部71でLチャンネルの特定音以外の音の信号に付加するLおよびRチャンネルの特定音の信号のゲインを、ゲイン調整部73およびゲイン調整部75により各々減らす。また、加算部72でRチャンネルの特定音以外の音の信号に付加するLおよびRチャンネルの特定音成分の信号のゲインを、ゲイン調整部74およびゲイン調整部76により各々増やす。これにより、Lチャンネル信号の特定音成分を減らしてRチャンネル信号の特定音成分を増やし、右チャンネルから主に特定音が聞こえるようにするなどといった定位の調整を行うことができる。
 なお、特定音の明瞭度の調整および定位の調整の両方を行う場合には、両方を考慮して各ゲイン調整部73~76を適宜制御すればよい。特定音の明瞭度の調整および定位の調整を行わない場合には、入力信号がそのまま出力されるように各ゲイン調整部73~76を制御すればよい。このように、信号処理部3Aによれば、特定音の明瞭度の調整および定位の調整が可能となり、コンテンツの体験価値の創出を図ることができる。
[1-4.信号処理部の第2構成例]
 図8は、アップミックス処理を伴う場合の信号処理部3(図8では信号処理部3Bと表記)の構成例を示している。図示するように、信号処理部3Bは、入力信号として2チャンネル(LおよびRチャンネル)信号を入力し、出力信号として5.0.2チャンネル信号(FL,FR.C.SL,SR,TopFL,TopFRの各信号)を出力する。
 FLおよびFR信号は、前方左用および右用信号であり、C信号は、前方中央用信号である。SLおよびSR信号は、サラウンド左用および右用信号である。TopFLおよびTopFR信号は、上前方左用および右用信号である。
 信号処理部3Bは、特徴抽出部6B、特徴付加部7B、遅延処理部8およびチャンネル数変換部9を有している。特徴抽出部6Bは、機械学習によって得られた学習モデルを用いて2チャンネル信号からチャンネル毎に特定音の信号を抽出し出力する。特徴抽出部6Bから出力された各信号は、特徴付加部7Bに供給される。なお、この機械学習および学習モデルは、上述した第1構成例で説明した通りであり、説明を省略する。
 一方、チャンネル数変換部9は、入力信号のチャンネル数を変更して出力するものである。チャンネル数変換部9は、具体的には、遅延処理部8を介して入力される2チャンネル信号をアップミックス技術により、5.0.2チャンネル信号に変換し、変換後の各信号(FL,FR.C.SL,SR,TopFL,TopFRの各信号)を出力する。アップミックス技術としては、種々のものを採用することができる。チャンネル数変換部9から出力された各信号は、特徴付加部7Bに供給される。
 なお、遅延処理部8は、入力される2チャンネル信号に遅延処理を施すものであり、特徴付加部7Bでの特定音の信号の合成時に、特徴抽出部6Bで生じる処理遅延(具体的には、機械学習の学習モデル(学習済データ)を用いた特定音抽出処理時の遅延、つまり、特定音抽出の解析時間)によるズレを解消して一致させるために設けられている。つまり、遅延処理部8は、チャンネル数変換部9から出力される各信号の出力を特徴抽出部6Bでの処理時間(例えば、256サンプル)に合わせて遅延させる。遅延処理部8は、例えば、入力される2チャンネル信号を、各々ディレイ81,82によって遅延処理して出力する。
 特徴付加部7Bは、特徴抽出部6Bで抽出された特定音の信号をゲイン調整して入力信号に基づく信号(本例では、アップミックス後の信号)に付加するものである。特徴付加部7Bは、例えば、特定音の明瞭度が変化する設定または特定音の定位が変化する設定(これらの両方が変化する設定でもよい)で特定音の信号をゲイン調整する。
 特徴付加部7Bは、入力される信号を加算して出力する加算部711~717と、入力される信号のゲインを調整して出力するゲイン調整部718~724とを有している。なお、各ゲイン調整部718~724は、特徴抽出部6Bから出力された特定音の信号(図示例では、Vocal LおよびVocal R)を、各々ゲイン調整する。ゲイン調整部718~724は、各々、上述した設定部2が出力する設定情報に応じて第1実施例と同様に制御される。
 特徴抽出部6Bから各々出力された特定音の信号は、それぞれ、ゲイン調整部718~724の各々を介して加算部711~717の各々に供給される。一方、チャンネル数変換部9から出力されたFLおよびFR信号は、各々、加算部711および加算部712に供給される。また、チャンネル数変換部9から出力されたC信号は、加算部713に供給され、SLおよびSR信号は、各々、加算部714および加算部715に供給される。さらに、チャンネル数変換部9から出力されたTopFLおよびTopFR信号は、各々、加算部716および加算部717に供給される。
 加算部711~717は、各々、ゲイン調整部718~724の各々によりゲイン調整された2チャンネルの各特定音の信号をチャンネル数変換部9から出力されるマルチチャンネル信号に付加して出力する。加算部711は、各特定音の信号をFL信号に付加して出力し、加算部712は、各特定音の信号をFR信号に付加して出力し、加算部713は、各特定音の信号をC信号に付加して出力する。また、加算部714は、各特定音の信号をSL信号に付加して出力し、加算部715は、各特定音の信号をSR信号に付加して出力し、加算部716は、各特定音の信号をTopSL信号に付加して出力し、加算部717は、各特定音の信号をTopSR信号に付加して出力する。そして、信号処理部3Bは、加算部711~717の各出力信号を、5.0.2チャンネル信号として出力する。
 以上の構成により、信号処理部3Bは、特定音の明瞭度の調整および定位の調整が可能となっている。特定音の明瞭度を調整する場合には、出力信号の特定音の明瞭度が特定音を付加しない場合と比較して増加または減少するように各ゲイン調整部718~724を制御すればよい。例えば、音楽コンテンツのボーカルなど、センタ位置に特定音の音源が位置する場合、加算部713でC信号に付加する2チャンネルの各特定音の信号のゲインをゲイン調整部720により各々増やすようにする。これにより、出力されるC信号の特定音の信号レベルが付加前よりも大きくなるため、特定音を強調して明瞭度を向上させることができる。また、例えば、これらのゲインを、ゲイン調整部720により各々減らすようにする。これにより、出力されるC信号の特定音の信号レベルが付加前よりも小さくなるため、特定音を抑制して明瞭度を低下させることができる。つまり、第1実施例と同様、カラオケ効果の実現が可能となる。なお、調整を行う信号は、C信号に限らず、例えば、特定音の音源がセンタ位置にない場合に音源方向に応じた信号を調整するようにしてもよい。
 また、特定音の定位を調整する場合には、特定音が所望の位置に定位するように各ゲイン調整部718~724を制御すればよい。例えば、TopFL信号に付加する特定音の信号のゲインを増やし、他チャンネル信号に付加する特定音の信号のゲインを減らすことで、特定音の定位をTopFL側に調整することができる。なお、明瞭度の調整および定位の調整を行う場合、特定音の信号のレベルを増減させるチャンネルは、1つのチャンネルに限らず、複数のチャンネルであってもよい。
 特定音の明瞭度の調整および定位の調整の両方を行う場合には、両方を考慮して各ゲイン調整部718~724を適宜制御すればよい。特定音の明瞭度の調整および定位の調整を行わない場合には、アップミックス直後の各信号がそのまま出力されるように各ゲイン調整部718~724を制御すればよい。
 このように、信号処理部3Bによれば、遅延処理部8およびチャンネル数変換部9の処理と並列して特徴抽出部6Bによる特定音の抽出を行い、抽出した特定音をチャンネル数変換部9によるアップミックス後の信号に合成させる。その際、合成させる特定音の信号を適宜ゲイン調整することで、明瞭度の調整および定位の調整を実現することができ、コンテンツの体験価値の創出を図ることができる。なお、チャンネル構成は、2チャンネルから5.0.2チャンネルへの変換以外であっても構わない。また、アップダウンを行う場合も、同様に明瞭度の調整および定位の調整を実現することができる。
 また、アップミックスの処理を行うと、通常、声等の音の明瞭度が低下するが、上述したように明瞭度を向上させることで、ユーザに明瞭度の低下を感じさせなくすることができる。
[1-5.信号処理部の第3構成例]
 図9は、入力信号がマルチチャンネル信号である場合の信号処理部3(図9では信号処理部3Cと表記)の構成例を示している。図示するように、信号処理部3Cは、入力信号として5.0.2チャンネル信号を入力し、出力信号として5.0.2チャンネル信号を出力する。
 信号処理部3Cは、特徴抽出部6C、特徴付加部7Cおよび遅延処理部8Cを有している。特徴抽出部6Cは、機械学習によって得られた学習モデルを用いて5.0.2チャンネル信号からチャンネル毎に特定音の信号(Vocal FL、Vocal FR、・・・、Vocal TopFR)を抽出し出力する。特徴抽出部6Cから出力された各信号は、特徴付加部7Cに供給される。なお、この機械学習および学習モデルも、上述した第1構成例で説明した通りである。
 遅延処理部8Cは、入力される5.0.2チャンネル信号に遅延処理を施すものであり、特徴付加部7Cでの特定音の合成時に、特徴抽出部6Cで生じる処理遅延によるズレを解消して一致させるために設けられている。つまり、遅延処理部8Cは、入力される5.0.2チャンネル信号の出力を特徴抽出部6Cでの処理時間に合わせて遅延させる。遅延処理部8Cは、例えば、入力される5.0.2チャンネル信号を、各々ディレイ81C~87Cによって遅延処理して出力する。遅延処理部8Cから出力された各信号は、特徴付加部7Cに供給される。
 特徴付加部7Cは、特徴抽出部6Cで抽出された特定音の信号をゲイン調整して入力信号に基づく信号(本例では、遅延処理後の信号)に付加するものである。特徴付加部7Cは、例えば、特定音の明瞭度が変化する設定または特定音の定位が変化する設定(両方とも変化する設定でもよい)で特定音の信号をゲイン調整する。
 特徴付加部7Cは、入力される信号を加算して出力する加算部731~737と、入力される信号のゲインを調整して出力するゲイン調整部738~744とを有している。なお、各ゲイン調整部738~744は、特徴抽出部6Cから出力された特定音の信号(図示例では、Vocal Multi ch:Vocal FL、Vocal FR、・・・、Vocal TopFR)を、各々ゲイン調整する。ゲイン調整部738~744は、各々、上述した設定部2が出力する設定情報に応じて第1実施例と同様に制御される。
 特徴抽出部6Cから各々出力された特定音の信号は、それぞれ、ゲイン調整部738~744の各々を介して加算部731~737の各々に供給される。一方、遅延処理部8Cから出力されたFLおよびFR信号は、各々、加算部731および加算部732に供給される。また、遅延処理部8Cから出力されたC信号は、加算部733に供給され、SLおよびSR信号は、各々、加算部734および加算部735に供給される。さらに、遅延処理部8Cから出力されたTopFLおよびTopFR信号は、各々、加算部736および加算部737に供給される。
 加算部731~737は、各々、ゲイン調整部738~744の各々によりゲイン調整されたマルチチャンネルの各特定音の信号を遅延処理部8Cから出力されるマルチチャンネル信号に付加して出力する。加算部731は、各特定音の信号をFL信号に付加して出力し、加算部732は、各特定音の信号をFR信号に付加して出力し、加算部733は、各特定音の信号をC信号に付加して出力する。また、加算部734は、各特定音の信号をSL信号に付加して出力し、加算部735は、各特定音の信号をSR信号に付加して出力し、加算部736は、各特定音の信号をTopSL信号に付加して出力し、加算部737は、各特定音の信号をTopSR信号に付加して出力する。そして、信号処理部3Cは、加算部731~737の各出力信号を、5.0.2チャンネル信号として出力する。
 以上の構成により、信号処理部3Cは、特定音の明瞭度の調整および定位の調整が可能となっている。特定音の明瞭度を調整する場合には、出力信号の特定音の明瞭度が特定音を付加しない場合と比較して増加または減少するように各ゲイン調整部738~744を制御すればよい。例えば、センタ位置に特定音の音源が位置する場合、加算部733でC信号に付加するマルチチャンネルの各特定音の信号のゲインをゲイン調整部740により各々増やすようにする。これにより、特定音を強調して明瞭度を向上させることができる。また、例えば、これらのゲインを、ゲイン調整部740により各々減らすようにする。これにより、特定音を抑制して明瞭度を低下させることができる。つまり、第1実施例と同様、カラオケ効果の実現が可能となる。なお、この場合も調整を行う信号は、C信号に限らず、例えば、特定音の音源方向に応じた信号を調整するようにしてもよい。
 また、特定音の定位を調整する場合には、特定音が所望の位置に定位するように各ゲイン調整部738~744を制御すればよい。例えば、TopFL信号に付加する特定音の信号のゲインを増やし、他チャンネル信号に付加する特定音の信号のゲインを減らすことで、特定音の定位をTopFL側に調整することができる。なお、明瞭度の調整および定位の調整を行う場合、特定音の信号のレベルを増減させるチャンネルは、1つのチャンネルに限らず、複数のチャンネルであってもよい。
 特定音の明瞭度の調整および定位の調整の両方を行う場合には、両方を考慮して各ゲイン調整部738~744を適宜制御すればよい。特定音の明瞭度の調整および定位の調整を行わない場合には、遅延処理部8Cから出力される各信号がそのまま出力されるように各ゲイン調整部738~744を制御すればよい。
 このように、信号処理部3Cによれば、入力信号がマルチチャンネル信号の場合であっても、明瞭度の調整および定位の調整を実現することができ、コンテンツの体験価値の創出を図ることができる。なお、チャンネル構成は、5.0.2チャンネル以外であっても構わない。
[1-6.信号処理部による処理例]
 図10は、上述した信号処理部3による処理をフローチャートとして示したものである。信号処理部3は、電源オンなどにより処理が開始されると入力信号を入力する(ステップS10)。そして、信号処理部3は、機械学習によって得られた学習モデルを用いて、その入力信号から特定音の信号を抽出する(特徴抽出ステップ:ステップS20)。次に、信号処理部3は、この抽出した特定音の信号のゲインを適宜調整して、入力信号に基づく信号に付加する(特徴付加ステップ:ステップS30)。付加する特定音の信号のゲインは、上述した設定部2が出力する設定情報に応じて適宜調整される。このように、付加する特定音の信号のゲインを調整可能とすることで、特定音の明瞭度の調整および定位の調整が可能となる。そして、信号処理部3は、その特定音の信号を付加した信号を出力信号として出力する(ステップS40)。信号処理部3は、電源オフなどにより処理を終了する。
[1-7.ハードウェア構成例]
 図11は、上述した情報処理装置1のハードウェア構成例を示している。情報処理装置1は、バスにより相互接続されている制御部101、記憶部102、入力部103、通信部104および出力部105を有している。
 制御部101は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)およびROM(Read Only Memory)等で構成されている。ROMには、CPUにより読み込まれ動作されるプログラム等が記憶されている。RAMは、CPUのワークメモリとして用いられる。CPUは、ROMに記憶されたプログラムにしたがい、様々な処理を実行してコマンドの発行を行うことによって情報処理装置1全体の制御を行う。
 記憶部102は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、半導体メモリ等により構成された記憶媒体であり、画像データ、動画データ、音声データ、テキストデータ等のコンテンツデータの他、プログラム(例えば、アプリケーション)等のデータを保存するものである。
 入力部103は、情報処理装置1に対して各種情報を入力するための装置である。入力部103により情報が入力されると、制御部101は、その入力情報に対応した各種処理を行う。入力部103は、マウスおよびキーボードの他、マイクロホン、各種センサ、タッチパネル、モニタと一体に構成されたタッチスクリーン、物理ボタン等でもよい。なお、情報処理装置1への各種情報の入力は、後述する通信部104を介して行われる構成であってもよい。
 通信部104は、所定の通信規格により他の装置やインターネットと通信する通信モジュールである。通信方法としては、Wi-Fi(Wireless Fidelity)等の無線LAN(Local Area Network)、LTE(Long Term Evolution)、5G(第5世代移動通信システム)、ブロードバンド、Bluetooth(登録商標)等があげられる。
 出力部105は、情報処理装置1から各種情報を出力するための装置である。出力部105は、例えば、画像や映像を表示するディスプレイ(表示デバイス)、スピーカ等の音を出力する出力デバイスで構成されている。なお、情報処理装置1からの各種情報の出力は、通信部104を介して行われる構成であってもよい。
 制御部101は、例えば、記憶部102に記憶されているプログラム(例えば、アプリケーション)を読み出し実行することで各種処理を行う。つまり、情報処理装置1は、コンピュータとしての機能を有している。
 なお、プログラム(例えば、アプリケーション)およびデータは、記憶部102に記憶されていなくてもよい。例えば、情報処理装置1が読み取り可能な記憶媒体に記憶されているプログラムやデータを読み出して使用するものでもよい。この記憶媒体としては、例えば、情報処理装置1に対して着脱自在な光ディスク、磁気ディスク、半導体メモリ、HDDなどがあげられる。また、インターネット等のネットワークに接続された装置(例えば、クラウドストレージ)にプログラムやデータを記憶させておき、情報処理装置1がそこからプログラムやデータを読み出して実行するようにしてもよい。また、プログラムは、例えば、既存のアプリケーションに、処理の一部または全てを追加するプラグインプログラムであってもよい。
<2.変形例>
 以上、本開示の実施の形態について具体的に説明したが、本開示は、上述した実施の形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。例えば、次に述べるような各種の変形が可能である。また、次に述べる変形の態様は、任意に選択された一又は複数を、適宜に組み合わせることもできる。また、上述した実施の形態の構成、方法、工程、形状、材料および数値等は、本開示の主旨を逸脱しない限り、互いに組み合わせることや入れ替えることが可能である。また、1つのものを2つ以上に分けることも可能であり、一部を省略することも可能である。
 例えば、上述した実施の形態では、特定音として、声に関連する音を例示したが、特定音は、これに限らない。例えば、特定音は、特定の楽器の音、効果音、歓声音、雑音(例えば、外部から混入するノイズ)等、抽出可能な音であればよい。例えば、特定音として雑音を抽出する場合には、特定音の明瞭度を下げる設定とすることで雑音を抑制することができる。
 また例えば、上述した第1構成例のゲイン調整部73~76、第2構成例のゲイン調整部718~724および第3構成例のゲイン調整部738~744は、ユーザインタフェースを介してユーザが直接これらを調整可能な構成であってもよい。
 なお、本開示は、以下のような構成も採ることができる。
(1)
 機械学習によって得られた学習モデルを用いて入力信号から特定音の信号を抽出する特徴抽出部と、
 前記特徴抽出部で抽出された特定音の信号をゲイン調整して前記入力信号に基づく信号に付加する特徴付加部と
 を有する信号処理装置。
(2)
 前記入力信号のチャンネル数を変更して出力するチャンネル数変換部を有し、
 前記特徴付加部は、前記チャンネル数変換部から出力された信号に前記特定音の信号を付加する
 (1)に記載の信号処理装置。
(3)
 前記チャンネル数変換部は、アップミックス技術を用いてチャンネル数を増加する
 (2)に記載の信号処理装置。
(4)
 前記入力信号および前記入力信号に基づく信号は、ともに複数チャンネルの信号であり、
 前記特徴抽出部は、前記入力信号の各チャンネル信号から前記特定音の信号を各々抽出し、
 前記特徴付加部は、前記特徴抽出部で抽出された各特定音の信号を各々ゲイン調整して前記入力信号に基づく各チャンネル信号に付加する
 (1)から(3)のうちの何れかに記載の信号処理装置。
(5)
 前記特徴付加部は、前記特定音の明瞭度が変化する設定で前記特定音の信号をゲイン調整する
 (1)から(4)のうちの何れかに記載の信号処理装置。
(6)
 前記特定音は、音楽コンテンツのボーカルであり、
 前記特徴付加部は、前記ゲイン調整としてゲインを減らす
 (5)に記載の信号処理装置。
(7)
 前記特徴付加部は、前記特定音の定位が変化する設定で前記特定音の信号をゲイン調整する
 (1)から(6)のうちの何れかに記載の信号処理装置。
(8)
 前記特徴付加部への前記入力信号に基づく信号の出力を前記特徴抽出部での処理時間に合わせて遅延させる遅延処理部を有する
 (1)から(7)のうちの何れかに記載の信号処理装置。
(9)
 前記特定音は、声に関連する音である
 (1)から(8)のうちの何れかに記載の信号処理装置。
(10)
 前記特定音は、特定の楽器の音、効果音、歓声または雑音である
 (1)から(8)のうちの何れかに記載の信号処理装置。
(11)
 前記特徴抽出部は、前記機械学習としてDNN(Deep Neural Network)を用いる
 (1)から(10)のうちの何れかに記載の信号処理装置。
(12)
 前記特徴付加部は、所定の固定設定で前記特定音の信号をゲイン調整する
 (1)から(11)のうちの何れかに記載の信号処理装置。
(13)
 前記特徴付加部は、センサデバイスから出力されるセンシング情報に応じて自動的に前記特定音の信号をゲイン調整する
 (1)から(12)のうちの何れかに記載の信号処理装置。
(14)
 前記センサデバイスにカメラが含まれており、
 前記特徴付加部は、前記カメラの撮像画像を解析して得られたユーザ年齢に応じて前記特定音の信号をゲイン調整する
 (13)に記載の信号処理装置。
(15)
 前記センサデバイスにカメラが含まれており、
 前記特徴付加部は、前記カメラの撮像画像を解析して得られたユーザ位置に応じて前記特定音の信号をゲイン調整する
 (13)または(14)に記載の信号処理装置。
(16)
 前記センサデバイスにマイクロホンが含まれており、
 前記特徴付加部は、前記マイクロホンの収音情報を解析して得られた外来ノイズのレベルに応じて前記特定音の信号をゲイン調整する
 (13)から(15)のうちの何れかに記載の信号処理装置。
(17)
 前記特徴付加部は、ユーザインタフェースから出力される操作情報に応じて任意に前記特定音の信号をゲイン調整する
 (1)から(16)のうちの何れかに記載の信号処理装置。
(18)
 機械学習によって得られた学習モデルを用いて入力信号から特定音の信号を抽出する特徴抽出ステップと、
 前記特徴抽出ステップで抽出された特定音の信号をゲイン調整して前記入力信号に基づく信号に付加する特徴付加ステップと
 を有する信号処理方法。
 1・・・情報処理装置、2・・・設定部、3,3A,3B,3C・・・信号処理部、6,6B,6C・・・特徴抽出部、7,7B,7C・・・特徴付加部、8,8C・・・遅延処理部、9・・・チャンネル数変換部、71,72,711~717,731~737・・・加算部、73~76,718~724,738~744・・・ゲイン調整部

Claims (18)

  1.  機械学習によって得られた学習モデルを用いて入力信号から特定音の信号を抽出する特徴抽出部と、
     前記特徴抽出部で抽出された特定音の信号をゲイン調整して前記入力信号に基づく信号に付加する特徴付加部と
     を有する信号処理装置。
  2.  前記入力信号のチャンネル数を変更して出力するチャンネル数変換部を有し、
     前記特徴付加部は、前記チャンネル数変換部から出力された信号に前記特定音の信号を付加する
     請求項1に記載の信号処理装置。
  3.  前記チャンネル数変換部は、アップミックス技術を用いてチャンネル数を増加する
     請求項2に記載の信号処理装置。
  4.  前記入力信号および前記入力信号に基づく信号は、ともに複数チャンネルの信号であり、
     前記特徴抽出部は、前記入力信号の各チャンネル信号から前記特定音の信号を各々抽出し、
     前記特徴付加部は、前記特徴抽出部で抽出された各特定音の信号を各々ゲイン調整して前記入力信号に基づく各チャンネル信号に付加する
     請求項1に記載の信号処理装置。
  5.  前記特徴付加部は、前記特定音の明瞭度が変化する設定で前記特定音の信号をゲイン調整する
     請求項1に記載の信号処理装置。
  6.  前記特定音は、音楽コンテンツのボーカルであり、
     前記特徴付加部は、前記ゲイン調整としてゲインを減らす
     請求項5に記載の信号処理装置。
  7.  前記特徴付加部は、前記特定音の定位が変化する設定で前記特定音の信号をゲイン調整する
     請求項1に記載の信号処理装置。
  8.  前記特徴付加部への前記入力信号に基づく信号の出力を前記特徴抽出部での処理時間に合わせて遅延させる遅延処理部を有する
     請求項1に記載の信号処理装置。
  9.  前記特定音は、声に関連する音である
     請求項1に記載の信号処理装置。
  10.  前記特定音は、特定の楽器の音、効果音、歓声音または雑音である
     請求項1に記載の信号処理装置。
  11.  前記特徴抽出部は、前記機械学習としてDNN(Deep Neural Network)を用いる
     請求項1に記載の信号処理装置。
  12.  前記特徴付加部は、所定の固定設定で前記特定音の信号をゲイン調整する
     請求項1に記載の信号処理装置。
  13.  前記特徴付加部は、センサデバイスから出力されるセンシング情報に応じて自動的に前記特定音の信号をゲイン調整する
     請求項1に記載の信号処理装置。
  14.  前記センサデバイスにカメラが含まれており、
     前記特徴付加部は、前記カメラの撮像画像を解析して得られたユーザ年齢に応じて前記特定音の信号をゲイン調整する
     請求項13に記載の信号処理装置。
  15.  前記センサデバイスにカメラが含まれており、
     前記特徴付加部は、前記カメラの撮像画像を解析して得られたユーザ位置に応じて前記特定音の信号をゲイン調整する
     請求項13に記載の信号処理装置。
  16.  前記センサデバイスにマイクロホンが含まれており、
     前記特徴付加部は、前記マイクロホンの収音情報を解析して得られた外来ノイズのレベルに応じて前記特定音の信号をゲイン調整する
     請求項13に記載の信号処理装置。
  17.  前記特徴付加部は、ユーザインタフェースから出力される操作情報に応じて任意に前記特定音の信号をゲイン調整する
     請求項1に記載の信号処理装置。
  18.  機械学習によって得られた学習モデルを用いて入力信号から特定音の信号を抽出する特徴抽出ステップと、
     前記特徴抽出ステップで抽出された特定音の信号をゲイン調整して前記入力信号に基づく信号に付加する特徴付加ステップと
     を有する信号処理方法。
PCT/JP2023/001072 2022-02-25 2023-01-17 信号処理装置および信号処理方法 WO2023162508A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-027573 2022-02-25
JP2022027573 2022-02-25

Publications (1)

Publication Number Publication Date
WO2023162508A1 true WO2023162508A1 (ja) 2023-08-31

Family

ID=87765416

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/001072 WO2023162508A1 (ja) 2022-02-25 2023-01-17 信号処理装置および信号処理方法

Country Status (1)

Country Link
WO (1) WO2023162508A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007142865A (ja) * 2005-11-18 2007-06-07 Sharp Corp テレビジョン受信装置
JP2009301323A (ja) * 2008-06-13 2009-12-24 Hitachi Ltd 画像表示装置
JP2017022498A (ja) * 2015-07-08 2017-01-26 キヤノン株式会社 信号処理装置及び方法
JP2018031967A (ja) * 2016-08-26 2018-03-01 日本電信電話株式会社 音源強調装置、その方法、及びプログラム
WO2021089544A1 (en) * 2019-11-05 2021-05-14 Sony Corporation Electronic device, method and computer program
JP2021526334A (ja) * 2018-06-01 2021-09-30 ソニーグループ株式会社 オーディオコンテンツの適応的なリミキシング

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007142865A (ja) * 2005-11-18 2007-06-07 Sharp Corp テレビジョン受信装置
JP2009301323A (ja) * 2008-06-13 2009-12-24 Hitachi Ltd 画像表示装置
JP2017022498A (ja) * 2015-07-08 2017-01-26 キヤノン株式会社 信号処理装置及び方法
JP2018031967A (ja) * 2016-08-26 2018-03-01 日本電信電話株式会社 音源強調装置、その方法、及びプログラム
JP2021526334A (ja) * 2018-06-01 2021-09-30 ソニーグループ株式会社 オーディオコンテンツの適応的なリミキシング
WO2021089544A1 (en) * 2019-11-05 2021-05-14 Sony Corporation Electronic device, method and computer program

Similar Documents

Publication Publication Date Title
JP7389081B2 (ja) 三次元拡張オーディオを提供するシステム及び方法
CN108369811B (zh) 分布式音频捕获和混合
JP5973058B2 (ja) レイアウト及びフォーマットに依存しない3dオーディオ再生のための方法及び装置
US10834503B2 (en) Recording method, recording play method, apparatuses, and terminals
JP2019525571A (ja) ライブ音楽実演のマルチメディア・コンテンツのネットワーク・ベースの処理および配送
JP2015509212A (ja) 空間オーディオ・レンダリング及び符号化
JP2011519223A (ja) オーディオ信号の処理方法及び装置
US11924627B2 (en) Ambience audio representation and associated rendering
WO2020182020A1 (zh) 一种音频信号播放方法及显示设备
KR20210072388A (ko) 오디오 출력 장치 및 오디오 출력 장치의 제어 방법
JP2023527473A (ja) オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器
CN114615534A (zh) 显示设备及音频处理方法
CN114466242A (zh) 显示设备及音频处理方法
KR102070360B1 (ko) 입체음향서비스장치의 구동방법, 그리고 컴퓨터판독가능기록매체
US20230254655A1 (en) Signal processing apparatus and method, and program
WO2023162508A1 (ja) 信号処理装置および信号処理方法
CN114598917B (zh) 显示设备及音频处理方法
JP4834146B2 (ja) 音場再生装置及び音場再生方法
US20230362571A1 (en) Information processing device, information processing terminal, information processing method, and program
CN114466241A (zh) 显示设备及音频处理方法
JP2010230972A (ja) 音信号処理装置、その方法、そのプログラム、および、再生装置
JP6798561B2 (ja) 信号処理装置、信号処理方法およびプログラム
CN114631142A (zh) 电子设备、方法和计算机程序
CN113348508A (zh) 电子设备、方法和计算机程序
JP2019140503A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23759514

Country of ref document: EP

Kind code of ref document: A1