WO2016039465A1 - 音響解析装置 - Google Patents

音響解析装置 Download PDF

Info

Publication number
WO2016039465A1
WO2016039465A1 PCT/JP2015/075925 JP2015075925W WO2016039465A1 WO 2016039465 A1 WO2016039465 A1 WO 2016039465A1 JP 2015075925 W JP2015075925 W JP 2015075925W WO 2016039465 A1 WO2016039465 A1 WO 2016039465A1
Authority
WO
WIPO (PCT)
Prior art keywords
impression
index
acoustic
feature
analysis
Prior art date
Application number
PCT/JP2015/075925
Other languages
English (en)
French (fr)
Inventor
隆一 成山
英樹 阪梨
舞 小池
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2016039465A1 publication Critical patent/WO2016039465A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/04Sound-producing devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Definitions

  • the present invention relates to a technique for analyzing sound.
  • Patent Document 1 sequentially evaluates a difference between a reference value (target) indicating an exemplary singing and a characteristic (acoustic characteristic) of a singing voice to be evaluated, such as “pronunciation clearly”, “clearly”, and the like.
  • target a reference value
  • a characteristic acoustic characteristic
  • Patent Document 2 discloses a configuration in which a plurality of types of control variables for adjusting the acoustic characteristics of synthesized speech are set according to instructions from a user.
  • an object of the present invention is to bring the acoustic hearing impression closer to the target without requiring specialized knowledge regarding the correlation between the acoustic feature and the auditory impression.
  • the acoustic analysis device of the present invention includes a feature extraction unit that extracts a feature index of a sound to be analyzed, an impression index that indicates an acoustic auditory impression, and a plurality of features that indicate the acoustic feature of the sound. Applying the feature index extracted by the feature extraction unit to the relational expression expressing the relationship with the index, the impression specifying unit for calculating the impression index of the analysis target sound, and the target setting unit for setting the target value of the impression index And analysis processing means for specifying an acoustic feature to be changed in order to bring the impression index of the analysis target sound calculated by the impression specifying means close to the target value.
  • the impression index of the auditory impression of the analysis target sound is calculated by applying the characteristic index of the analysis target sound to the relational expression, and the acoustic feature to be changed is specified in order to bring the impression index closer to the target value . Therefore, it is possible to specify the acoustic feature for bringing the auditory impression of the analysis target sound closer to the target without requiring specialized knowledge regarding the correlation between the acoustic feature and the auditory index.
  • the impression specifying means includes a plurality of reference data in which an impression index indicating an auditory impression of a reference sound and a feature index indicating an acoustic feature of the reference sound are associated with each other, and an auditory impression
  • the relationship between the impression index of auditory impression and the characteristic index of multiple types of acoustic features is set using the relationship description data that defines the correspondence with multiple types of acoustic features.
  • the impression index of the sound to be analyzed is calculated by applying the feature index extracted by the feature extraction unit to the relational expression expressing the relationship.
  • the relational expression is set only by statistical analysis of the reference data, a pseudo-correlation (inferred as if a specific feature index does not actually correlate with a specific auditory impression but also correlates with potential factors.
  • a relational expression in which a feature index that does not actually correlate with the auditory impression influences the auditory impression predominantly due to the influence of the apparent relationship).
  • the relational expression is obtained using the relationship description data that defines the correspondence between the auditory impression and the plurality of types of acoustic features. Is set. Therefore, compared to a configuration in which a relational expression is set using only reference data, the auditory impression of the target sound is analyzed using a relational expression that appropriately reflects the actual correlation between the impression index and multiple feature indices. Can be evaluated appropriately.
  • the acoustic analysis apparatus includes a presentation processing means for presenting acoustic characteristics specified by the analysis processing means to the user.
  • a presentation processing means for presenting acoustic characteristics specified by the analysis processing means to the user.
  • the acoustic analysis apparatus includes acoustic processing means for executing acoustic processing for changing the acoustic feature specified by the analysis processing means on the analysis target sound.
  • acoustic processing means for executing acoustic processing for changing the acoustic feature specified by the analysis processing means on the analysis target sound.
  • the target setting means sets a target value in accordance with an instruction from the user.
  • the target value of the impression index is set according to the instruction from the user, there is an advantage that the acoustic feature for making the auditory impression of the analysis target sound close to the desired impression of the user can be specified. .
  • FIG. 1 is a configuration diagram of an acoustic analysis device according to a first embodiment of the present invention. It is explanatory drawing of the correspondence of the auditory impression prescribed
  • FIG. 1 is a configuration diagram of an acoustic analysis device 100A according to the first embodiment of the present invention.
  • the acoustic analysis device 100A according to the first embodiment is realized by a computer system including an arithmetic processing device 10, a storage device 12, an input device 14, a sound collection device 16, and a display device 18.
  • a portable information processing device such as a mobile phone or a smartphone, or a portable or stationary information processing device such as a personal computer can be used as the acoustic analysis device 100A.
  • the sound collection device 16 is a device (microphone) that collects ambient sounds.
  • the sound collection device 16 of the first embodiment collects a singing voice V in which a user sang a song.
  • the acoustic analysis device 100A can also be used as a karaoke device that mixes and reproduces the accompaniment sound of the music and the singing voice V.
  • illustration of the A / D converter which converts the signal of the singing voice V picked up by the sound pickup device 16 from analog to digital is omitted for convenience.
  • Display device 18 (for example, a liquid crystal display panel) displays an image instructed from arithmetic processing device 10.
  • the input device 14 is an operating device operated by the user for various instructions to the acoustic analysis device 100A, and includes a plurality of operators operated by the user, for example.
  • a touch panel configured integrally with the display device 18 can also be used as the input device 14.
  • the storage device 12 stores a program executed by the arithmetic processing device 10 and various data used by the arithmetic processing device 10.
  • a known recording medium such as a semiconductor recording medium or a magnetic recording medium or a combination of a plurality of types of recording media is arbitrarily employed as the storage device 12.
  • the acoustic analysis device 100A of the first embodiment is a signal processing device that analyzes the singing voice V collected by the sound collection device 16.
  • the arithmetic processing device 10 executes a program stored in the storage device 12 to thereby analyze a plurality of functions for analyzing the singing voice V (a feature extraction unit 22, an impression identification unit 24, a presentation processing unit 26, and a related expression setting).
  • Unit 40, target setting unit 42, and analysis processing unit 44 A configuration in which each function of the arithmetic processing device 10 is distributed to a plurality of devices or a configuration in which a dedicated electronic circuit realizes a part of the function of the arithmetic processing device 10 may be employed.
  • the feature extraction unit 22 analyzes the singing voice V collected by the sound collection device 16 to extract a plurality (N) of feature indexes X1 to XN indicating different types of acoustic features (N is a natural number).
  • the acoustic feature means an acoustic feature of the singing voice V that influences an auditory impression (hereinafter referred to as “auditory impression”) sensed by the listener of the singing voice V.
  • a feature index Xn (n 1 to N) that quantifies each of various acoustic features, such as pitch stability, vibrato depth (pitch amplitude), and frequency characteristics, is sung. Extracted from voice V.
  • the numerical value ranges of the N feature indexes X1 to XN extracted by the feature extraction unit 22 of the first embodiment are common.
  • the auditory impression means a subjective or sensory feature (impression) that is perceived by the listener of the singing voice V, and the acoustic feature is extracted by analysis of the singing voice V. Means an objective or physical feature.
  • the impression specifying unit 24 specifies the auditory impression of the singing voice V using the N feature indexes X1 to XN extracted by the feature extracting unit 22.
  • the impression specifying unit 24 of the first embodiment calculates a plurality (M) of impression indices Y1 to YM indicating different auditory impressions of the singing voice V (M is a natural number).
  • M is a natural number.
  • the M impression indexes Y1 to YM can be rephrased as subjective singing style information sensed by the listener of the singing voice V.
  • each of various auditory impressions such as young children (adult / childish), light / dark (bright / dark), and turbidity (clear and transparent / slow and muddy) were quantified.
  • An impression index Ym is specified. For example, the larger an impression index Ym related to a young child is in a positive number range, the more adult-like sound is meant, and the smaller the impression index Ym is in a negative number range, the more child-like sound is meant.
  • an arithmetic expression (hereinafter referred to as “related expression”) Fm set in advance for each impression index Ym is used.
  • An arbitrary relational expression Fm is an arithmetic expression that expresses the relationship between the impression index Ym and the N feature indices X1 to XN.
  • the relational expression Fm of the first embodiment represents each impression index Ym as a linear expression of N feature indices X1 to XN, as exemplified below.
  • the coefficient anm (a11 to aNM) of the relational expression Fm exemplified above is a constant (gradient of the impression index Ym with respect to the feature index Xn) corresponding to the degree of correlation between the feature index Xn and the impression index Ym, and the coefficient bm ( b1 to bM) are predetermined constants (intercepts).
  • the coefficient anm can also be restated as the contribution (weighted value) of the feature index Xn to the impression index Ym.
  • the impression specifying unit 24 applies the N feature indexes X1 to XN extracted by the feature extraction unit 22 to each of the related expressions F1 to FM, so that M impression indexes Y1 to YM corresponding to different auditory impressions are applied. Is calculated.
  • a nonlinear system such as a hidden Markov model or a neural network (multilayer perceptron) can be used for calculating the impression index Ym (Y1 to YM). .
  • the relational expression setting unit 40 in FIG. 1 sets relational expressions Fm (F1 to FM) used for calculating the impression index Ym of each auditory impression.
  • the storage device 12 of the first embodiment stores a reference data group DR and relationship description data DC.
  • the related expression setting unit 40 sets M related expressions F1 to FM using the reference data group DR and the relationship description data DC.
  • the reference data group DR is a set (database) of a plurality of reference data r.
  • the plurality of reference data r included in the reference data group DR is generated in advance by using a sound (hereinafter referred to as “reference sound”) generated by an unspecified number of speakers.
  • reference sound a sound generated by an unspecified number of speakers.
  • the sound of an arbitrary singer singing an arbitrary piece of music is recorded as a reference sound and used to generate reference data r.
  • any one piece of reference data r associates each impression index ym (y1 to yM) of the reference sound with the feature index xn (x1 to xN) of the reference sound. It is data.
  • the impression index ym is set to a numerical value corresponding to the auditory impression actually sensed by the listener of the reference sound
  • the characteristic index xn is a numerical value of the acoustic feature extracted from the reference sound in the same process as the feature extracting unit 22.
  • the relationship description data DC defines a correspondence relationship (correlation) between an auditory impression and a plurality of acoustic features.
  • FIG. 2 is an explanatory diagram illustrating the correspondence defined by the relationship description data DC of the first embodiment.
  • the relationship description data DC of the first embodiment affects the auditory impression EYm for each of M types of auditory impressions EY (EY1 to EYM) corresponding to different impression indices Ym.
  • a correspondence relationship ⁇ m ( ⁇ 1 to ⁇ M) with a plurality of types of acoustic features EX is defined.
  • FIG. 2 exemplifies correspondence relationships ⁇ 1 to ⁇ 3 with a plurality of types of acoustic features EX for each of three types of auditory impressions EY1 to EY3: long childhood, clearness, and light and dark.
  • each acoustic feature EX correlated with each auditory impression EYm is as follows.
  • the numerical value of each acoustic feature EX exemplified below corresponds to the above-described feature index Xn.
  • ⁇ Pitch stability Degree of minute change (fluctuation) in time
  • Rise speed Degree of increase in volume immediately after pronunciation
  • ⁇ Fall Decrease the pitch from the reference value (note pitch)
  • Degree of singing expression (eg number of times)
  • Scribbling the degree of singing expression that raises the pitch over time from the reference value (for example, the number of times)
  • Vibrato depth the degree of pitch change in vibrato (eg amplitude and frequency) Contour: degree of sound clarity.
  • the volume ratio of the high frequency component to the low frequency component is suitable.
  • -Tongue The degree of temporal change in acoustic characteristics.
  • the degree of temporal change typically the time change rate of the frequency characteristics (for example, formant frequency or fundamental frequency) is suitable.
  • ⁇ Attack Volume immediately after sound generation
  • Crescend Degree of increase in volume over time
  • Frequency characteristics Shape of frequency spectrum
  • Higher harmonics Intensity of higher harmonic components
  • the correspondence relationship ⁇ m that the relationship description data DC of the first embodiment defines for any one type of auditory impression EYm is used to identify multiple types of intermediate elements EZ related to the auditory impression EYm.
  • This is a hierarchical relationship (hierarchical structure) interposed between the impression EYm and each acoustic feature EX.
  • a plurality of types of intermediate elements EZ related to one type of auditory impression EYm correspond to an impression that causes the listener to perceive the auditory impression EYm and an impression obtained by subdividing the auditory impression EYm into a plurality of parts.
  • Any one intermediate element EZ is associated with a plurality of types of acoustic features EX that affect the intermediate element EZ.
  • Each correspondence ⁇ m defined in the relationship description data DC is, for example, a survey (interviews, singer, etc.) for experts who have a lot of specialized knowledge about music and voice (singing). Constructed by analyzing the correlation between each acoustic impression EYm and each acoustic feature EX (what kind of acoustic impression EYm the listener tends to perceive from the sound of the acoustic feature EX) by questionnaire) Is done.
  • a known investigation technique represented by an evaluation grid method or the like can be arbitrarily employed.
  • the relationship description data DC described above defines only the mutual relationship (connection) of each element (acoustic feature EX, intermediate element EZ, auditory impression EYm) included in the correspondence relationship ⁇ m, and between the elements.
  • the degree of correlation is not specified.
  • each correspondence ⁇ m defined by the relationship description data DC is an actual correlation between the acoustic feature EX and the auditory impression EYm observed from the reference sounds collected from a large number of unspecified speakers. (I.e., the actual relationship between each impression index ym and each feature index xn statistically observed from the reference data group DR reflecting the tendency of the actual reference sound) It can be said that there is.
  • the reference data group DR and the relationship description data DC described above are created in advance and stored in the storage device 12.
  • the relational expression setting unit 40 in FIG. 1 sets M relational expressions F1 to FM using the reference data group DR and the relationship description data DC stored in the storage device 12. That is, the relational expression setting unit 40 represents the relational expression Fm that expresses the relationship between the impression index Ym of the auditory impression EYm and the characteristic index Xn of the acoustic feature EX under the corresponding relations ⁇ m defined by the relationship description data DC. Is set for each of the M impression indices Y1 to YM.
  • the relational expression setting unit 40 sets N coefficients a1m to aNm and one coefficient bm for each relational expression Fm.
  • known statistical processing such as structural equation modeling (SEM) or multivariate analysis (for example, multiple regression analysis) can be arbitrarily employed. As understood from the example of FIG.
  • the types and the total number of acoustic features EX that are correlated with the auditory impression EYm under the correspondence ⁇ m expressed by the relationship description data DC are actually Although different for each auditory impression EYm, the type and total number of feature indexes Xn included in each of the related formulas Fm described above are common to M related formulas F1 to FM.
  • the coefficient anm corresponding to the feature index Xn of the acoustic feature EX whose correlation with the auditory impression EYm is not defined under the correspondence relationship ⁇ m is set to zero in the related expression Fm (that is, the feature index Xn is Does not affect the impression index Ym).
  • the M relational expressions (for example, structural equations and multiple regression equations) F1 to FM set by the relational expression setting unit 40 in the above procedure are stored in the storage device 12. Specifically, N coefficients a1m to aNm and one coefficient bm are stored in the storage device 12 for each of the M related expressions F1 to FM.
  • the impression specifying unit 24 applies the M feature indexes X1 to XN to each of the M related formulas F1 to FM set by the related formula setting unit 40, so that the M types of impression indexes Y1 to YM are applied. Is calculated.
  • the singing is performed using the relational expression Fm that defines the relationship between each feature index Xn extracted from the singing voice V and the impression index Ym indicating the auditory impression of the singing voice V.
  • Auditory impressions impression indices Y1 to YM
  • the listener of the singing voice V is actually impressed compared to a technique that evaluates the skill of the singing by focusing only on the difference between the reference value indicating the exemplary singing and the characteristic index Xn of the singing voice V. It is possible to appropriately evaluate the subjective impressions.
  • the tendency of the correlation between the impression index ym and the feature index xn is statistically analyzed to set the related expression Fm (hereinafter referred to as “proportional”).
  • Proportional the relationship description data DC is not used for setting the relational expression Fm.
  • a specific acoustic feature EX that does not actually correlate with the auditory impression EYm is recognized as if it is correlated with the auditory impression EYm due to a potential factor (pseudo-correlation).
  • a relational expression Fm is derived in which the characteristic index Xn that does not actually correlate with the impression index Ym has a dominant influence on the impression index Ym.
  • the relationship description data DC defining the hypothetical correspondence ⁇ m between each auditory impression EYm and each acoustic feature EX is used together with the reference data group DR for setting the relational expression Fm.
  • the influence of the pseudo correlation between the auditory impression EYm and the acoustic feature EX is reduced (ideally excluded). Therefore, there is an advantage that the relational expression Fm appropriately expressing the actual correlation between the auditory impression EYm and each acoustic feature EX can be set.
  • the auditory impression EYm and each acoustic feature EX via a plurality of intermediate elements EZ related to the auditory impression EYm is defined by the relationship description data DC
  • the auditory impression EYm and each Compared with the configuration in which the acoustic feature EX is directly correlated (the configuration in which the correspondence ⁇ m includes only the auditory impression EYm and the acoustic feature EX), the actual correlation between the auditory impression EYm and each acoustic feature EX is related
  • the above-described effect of being able to be appropriately expressed by the formula Fm is particularly remarkable.
  • the presentation processing unit 26 of the first embodiment presents information to the user by causing the display device 18 to display various images. Specifically, the presentation processing unit 26 causes the display device 18 to display an image representing a result of analyzing the singing voice V and an image for accepting an instruction from the user.
  • the target setting unit 42 variably sets each target value Am in accordance with an instruction from the user to the input device 14.
  • the presentation processing unit 26 causes the display device 18 to display the operation screen 80 of FIG. 3 that accepts an instruction of the target value Am of each impression index Ym.
  • Each operation element image 82 is an image of a slider-type operation element that moves in response to an instruction from the user to the input device 14 and accepts an instruction of a target value Am by the user.
  • the target setting unit 42 sets a target value Am for each impression index Ym according to the position of each operator image 82. Note that each of the plurality of operation element images 82 on the operation screen 80 can be moved individually, but each operation element image 82 can also be moved in conjunction with each other.
  • the analysis processing unit 44 in FIG. 1 specifies an acoustic feature (feature index Xn) to be changed in order to bring each impression index Ym specified for the singing voice V by the impression specifying unit 24 close to the target value Am.
  • the analysis processing unit 44 of the first embodiment generates analysis data Q that designates acoustic features that should be changed to bring each impression index Ym close to the target value Am and the direction (increase / decrease) of the change.
  • the presentation processing unit 26 causes the display device 18 to display the contents of the analysis data Q generated by the analysis processing unit 44 (acoustic features to be changed and change directions). Therefore, the user can grasp an improvement point for bringing his / her song close to the target auditory impression.
  • the presentation of the analysis data Q corresponds to singing instruction for realizing a target auditory impression.
  • the analysis processing unit 44 of the first embodiment minimizes a numerical value (hereinafter referred to as “total difference”) ⁇ obtained by summing the absolute value
  • the acoustic features that should be changed in order to be converted are identified from the N types of acoustic features.
  • the analysis processing unit 44 calculates the total difference ⁇ when it is assumed that the feature index Xn of any one of N types of acoustic features is changed by a predetermined change amount p, as the acoustic feature to be changed.
  • p predetermined change amount
  • the total difference ⁇ when any one feature index Xn is changed by the change amount p is expressed by the following formula (A).
  • the subtraction of the multiplication value of the change amount p and the coefficient anm in the formula (A) corresponds to a process of changing the feature index Xn by the change amount p.
  • the characteristic index Xn having a large coefficient anm in the relational expression Fm of the impression index Ym different from the target value Am is the impression.
  • the index Ym is preferentially selected as the characteristic index Xn to be changed in order to bring the index Ym close to the target value Am.
  • the user who confirms the analysis result (analysis data Q) by the analysis processing unit 44 on the display device 18 is a measure of “decrease the vibrato depth” in order to realize the “childish and clean voice” that he / she wants to achieve. Can be grasped as the best.
  • FIG. 4 is a flowchart of the operation for generating the analysis data Q.
  • the processing in FIG. 4 is started when an operation (instruction to start analysis) from the user with respect to the input device 14 is triggered.
  • the feature extraction unit 22 acquires the singing voice V picked up by the sound pickup device 16 (S1), and N feature indices X1 indicating the acoustic features of the analysis section of the singing voice V. .About.XN are extracted (S2).
  • the analysis section is a section of the singing voice V that is an analysis target of an auditory impression, and is, for example, the entire section or a part of the singing voice V (for example, a chorus section).
  • the impression identification unit 24 calculates M impression indexes Y1 to YM by applying the N feature indexes X1 to XN extracted by the feature extraction unit 22 to each related expression Fm (S3).
  • the analysis processing unit 44 specifies the acoustic feature (feature index Xn) to be changed in order to bring each impression index Ym calculated by the impression specifying unit 24 close to the target value Am set by the target setting unit 42, and the analysis data Q Generate (S4).
  • the presentation processing unit 26 causes the display device 18 to display the contents of the analysis data Q generated by the analysis processing unit 44 (acoustic features to be changed and the changing direction) (S5).
  • the impression index Ym of the singing voice V is calculated by applying the characteristic index Xn of the singing voice V to each related expression Fm, and each impression index Ym is brought close to the target value Am.
  • the acoustic features to be changed are identified and presented. Therefore, without requiring specialized knowledge about the correlation between the acoustic features and the auditory impression, the user grasps the optimal improvement point (acoustic feature) for bringing the auditory impression of the singing voice V close to the target, and the singing voice is obtained. It is possible to effectively bring the auditory impression of V closer to the target.
  • application as a technique of self-fulfillment and health maintenance can be expected by improving the user's own singing so as to approach the goal.
  • Second Embodiment A second embodiment of the present invention will be described.
  • standard referred by description of 1st Embodiment is diverted, and each detailed description is abbreviate
  • FIG. 5 is a configuration diagram of the acoustic analysis device 100B of the second embodiment.
  • the acoustic analysis device 100 ⁇ / b> B of the second embodiment includes the same elements (feature extraction unit 22, impression identification unit 24, related expression setting unit 40, target setting unit 42, analysis) as in the first embodiment.
  • an acoustic processing unit 46 is added to the processing unit 44).
  • the target setting unit 42 of the second embodiment sets the target value Am of each impression index Ym according to an instruction from the user, for example, as in the first embodiment.
  • the analysis processing unit 44 uses the analysis data Q for designating acoustic features (feature index Xn) to be changed in order to bring each impression index Ym specified by the impression specifying unit 24 for the singing voice V close to the target value Am in the first embodiment. Generate in the same way as
  • the acoustic processing unit 46 in FIG. 5 performs an acoustic process on the singing voice V to change the acoustic feature specified by the analysis processing unit 44. Specifically, the acoustic processing unit 46 adjusts so that the acoustic feature specified by the analysis data Q generated by the analysis processing unit 44 changes (increases / decreases) in the direction specified by the analysis data Q. Acoustic processing is performed on the singing voice V collected by the sound device 16. That is, among the N feature indexes X1 to XN of the singing voice V, the feature index Xn (that is, the impression index) having a large coefficient (contribution to the impression index Ym) anm in the relational expression Fm of the impression index Ym different from the target value Am. The characteristic index Xn) that can effectively bring Ym close to the target value Am is preferentially changed by the acoustic processing by the acoustic processing unit 46.
  • a known acoustic processing technique for the specific acoustic processing executed on the singing voice V, a known acoustic processing technique according to the type of acoustic feature to be changed is arbitrarily adopted.
  • the acoustic processing unit 46 performs acoustic processing (noise addition processing) for adding a noise component to the singing voice V.
  • the analysis data Q designates “decrease in vibrato depth” as illustrated in the first embodiment, the acoustic processing unit 46 suppresses minute fluctuations in pitch in the singing voice V. An acoustic process is performed on the singing voice V.
  • the singing voice V after processing by the acoustic processing unit 46 is reproduced from, for example, the sound emitting device 17 (speaker or headphones). Note that, instead of (or along with) reproduction of the singing voice V, it is also possible to generate a file of the singing voice V after processing by the acoustic processing unit 46.
  • the characteristic index Xn specified by the analysis data Q (hereinafter referred to as “priority index” for convenience) is sufficiently varied in the singing voice V (that is, the impression index Ym sufficiently approximates the target value Am). It may not be possible. For example, even if the analysis data Q specifies “increase in the depth of vibrato”, if the singing voice V does not include a section in which the pitch is maintained for a length of time that vibrato can be added, the priority index is The impression index Ym cannot be made sufficiently close to the target value Am by increasing a certain “depth of vibrato”.
  • the acoustic processing unit 46 sets the priority index in the order effective for bringing the impression index YM close to the target value Am among the N characteristic indices X1 to XN of the singing voice V (ascending order of the total difference ⁇ ).
  • the acoustic processing for the singing voice V is executed so that the feature index Xn positioned at the next position changes. According to the above configuration, each impression index Ym can be effectively brought close to the target value Am regardless of the characteristics of the singing voice V.
  • the impression index Ym of the singing voice V is calculated by applying the characteristic index Xn of the singing voice V to each related expression Fm, and each impression index Ym is changed to be close to the target value Am.
  • an acoustic process for changing the acoustic feature is performed on the singing voice V. Therefore, it is possible to generate the singing voice V of the target auditory impression without requiring specialized knowledge regarding the correlation between the acoustic feature and the auditory impression.
  • the target value Am of each auditory impression is set according to an instruction from the user, there is an advantage that the singing voice V of the user's desired auditory impression can be generated effectively.
  • FIG. 6 shows one impression index Y1 related to a younger child (adult / childish) among M kinds of impression indexes Y1 to YM and one related to turbidity (clean and transparent / slowly turbid).
  • This is a display example of an analysis result image 70 representing the impression index Y2.
  • the analysis result image 70 includes a coordinate plane in which a first axis 71 indicating the numerical value of the impression index Y1 and a second axis 72 indicating the numerical value of the impression index Y2 are set.
  • the singing voice V is located at a coordinate position corresponding to the numerical value of the impression index Y1 calculated by the impression specifying unit 24 in the first axis 71 and the numerical value of the impression index Y2 calculated in the second axis 72 by the impression specifying unit 24.
  • An image (icon) 74 meaning an auditory impression is arranged.
  • the analysis result image 70 is an image representing an auditory impression of the singing voice V (an image representing a singing style including young children and turbidity). The user can visually and intuitively grasp the auditory impression of the singing voice V by visually recognizing the analysis result image 70 displayed on the display device 18.
  • the user designates the auditory impression of the singing voice V by appropriately operating the input device 14 after the music is finished. For example, for each of the M types of auditory impressions, a plurality of options (multiple levels of evaluation) of the impression index Ym are displayed on the display device 18, and the user specifies one desired option for each auditory impression.
  • the relational expression setting unit 40 extracts each feature extracted by the feature extraction unit 22 for the impression index ym (y1 to ym) and the singing voice V of each auditory impression specified by the user.
  • Reference data r including the index xn (x1 to xN) is acquired and stored in the storage device 12. Then, the relational expression setting unit 40 uses the reference data group DR including the new reference data r corresponding to the singing voice V to generate the relational expression Fm (F1 to FM) in the same manner as in the first embodiment. Set and remember.
  • the predetermined relational expression Fm (F1 to FM) is updated to reflect the relationship between the auditory impression (impression index ym) and the acoustic feature (feature index xn) of the singing voice V collected by the sound collection device 16.
  • the relational expressions F1 to FM can be updated to contents reflecting the relationship between the auditory impression of the actual singing voice V and the acoustic features.
  • the timing for setting (updating) the relational expression Fm using the reference data group DR is arbitrary.
  • a configuration in which the related formula Fm is updated each time the reference data r corresponding to the singing voice V is acquired, or a configuration in which the related formula Fm is updated when a predetermined number of new reference data r is accumulated can be adopted.
  • the auditory impression is specified for the singing voice V over the entire section of the music, but the auditory impression (M impressions) for each of a plurality of sections obtained by dividing the singing voice V on the time axis. It is also possible to specify the indicators Y1 to YM) sequentially.
  • the analysis data Q exemplified in each of the above-described forms is sequentially set for each section according to the auditory impression of each section of the singing voice V (in real time).
  • a configuration for updating may also be employed.
  • the acoustic analysis device 110 and the acoustic analysis device 120 that communicate with each other via the communication network 200 can share the functions illustrated in the above-described embodiments.
  • the acoustic analysis device (relevant formula setting device) 110 uses the reference data group DR and the relationship description data DC to set M related formulas F1 to FM in the same manner as in the first embodiment. Part 40.
  • the acoustic analysis device 110 is realized by a server device connected to the communication network 200.
  • the M related formulas F1 to FM set by the acoustic analysis device 110 (the related formula setting unit 40) are transferred to the acoustic analysis device 120 via the communication network 200.
  • the acoustic analysis device 120 includes a feature extraction unit 22 and an impression identification unit 24, and sings in the same manner as in the first embodiment using M related expressions F1 to FM transferred from the acoustic analysis device 110.
  • the auditory impression M impression indices Y1 to YM
  • a target setting unit 42 and an analysis processing unit 44 similar to those in the first embodiment and the second embodiment may be installed. In the configuration of FIG. 7, it is not necessary to cause the acoustic analysis device 120 to hold the reference data group DR and the relationship description data DC and to set each relational expression Fm. There is an advantage that.
  • each target value Am is set according to an instruction from the user, but the method for setting the target value Am is not limited to the above examples.
  • a configuration may be employed in which the target value Am (A1 to AM) is selected in advance for each song, and the target setting unit 42 selects the target value Am of the song that the user actually sings.
  • the target setting unit 42 can variably set each target value Am according to the attributes of the music sung by the user (main melody, genre, singer, etc.).
  • the relational expression Fm set using the reference data group DR and the relationship description data DC is exemplified.
  • the setting method of the relational expression Fm is arbitrary in the present invention.
  • the impression index ym is used by using only the plurality of reference data r of the reference data group DR without using the relationship description data DC, as in the case of the comparison.
  • the analysis object is not limited to the singing voice V.
  • auditory impressions M impression indicators
  • Fm voice synthesis technology
  • Y1-YM an impression index Ym such as light and darkness and turbidity
  • an auditory impression such as “muffled / excluded” or “far / perverse” may be used.
  • any sound system including sound played back at each point under a remote conference system that sends and receives sound between remote locations (for example, conversation sound at a conference) and sound emitting devices such as speakers.
  • the auditory impression can be specified for the sound to be heard.
  • the specific content (type) of the sound (analysis target sound) to be analyzed in the present invention, the principle of pronunciation, and the like are arbitrary.
  • the acoustic analysis device is realized by a dedicated electronic circuit, or by cooperation of a general-purpose arithmetic processing device such as a CPU (Central Processing Unit) and a program.
  • the program of the present invention can be provided in a form stored in a computer-readable recording medium and installed in the computer.
  • the recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but a known arbitrary one such as a semiconductor recording medium or a magnetic recording medium This type of recording medium can be included.
  • the program of the present invention can be provided in the form of distribution via a communication network and installed in a computer.
  • the present invention is also specified as an operation method (acoustic analysis method) of the acoustic analysis device according to each of the above embodiments.
  • 100 100 (100A, 100B), 110, 120 ... acoustic analysis device, 10 ... arithmetic processing device, 12 ... storage device, 14 ... input device, 16 ... sound collecting device, 18 ... display device, 22 ... ... Feature extracting unit 24... Impression specifying unit 26... Presentation processing unit 40... Relevant expression setting unit 42 .. Target setting unit 44 .. Analysis processing unit 46.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

 特徴抽出部(22)は、歌唱音声(V)の特徴指標(Xn)を抽出する。印象特定部(24)は、参照音の聴覚印象を示す印象指標(ym)と当該参照音の音響特徴を示す特徴指標(xn)とを相互に対応させた複数の参照データ(r)、および、聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データ(DC)を利用して設定され、関係性記述データ(DC)で規定される対応関係における聴覚印象の印象指標(Ym)と複数種の音響特徴の特徴指標(Xn)との関係を表現する関連式(Fm)に、特徴抽出部(22)が抽出した特徴指標(Xn)を適用することで、歌唱音声(V)の印象指標(Ym)を算定する。目標設定部(42)は、印象指標(Ym)の目標値(Am)を設定する。解析処理部(44)は、印象特定部(24)が算定した歌唱音声(V)の印象指標(Ym)を目標値(Am)に近付けるために変化させるべき音響特徴を特定する。

Description

音響解析装置
 本発明は、音響を解析する技術に関する。
 歌唱音声等の音響を目標の音響特性に近付けるための各種の技術が従来から提案されている。例えば特許文献1には、模範的な歌唱を示す基準値(目標)と評価対象の歌唱音声の特徴(音響特徴)との差異を順次に評価し、「発音は明瞭に」「はっきりと」等の音響特徴の改善点のコメントを評価結果に応じて利用者に提示する技術が開示されている。また、特許文献2には、合成音声の音響特徴を調整するための複数種の制御変数を利用者からの指示に応じて設定する構成が開示されている。
日本国特開2008-020798号公報 日本国特開2011-095397号公報
 しかし、特許文献1の技術では、模範的な歌唱を実現するための音響特徴の改善点が利用者に提示されるに過ぎず、受聴者に特定の聴覚印象(例えば「大人っぽい歌唱」等)を感取させ得る歌唱を実現することは困難である。また、特許文献2の技術では、複数種の制御変数のうちの何れを如何に調整すれば所望の聴覚印象の音声が実現されるのかを利用者が明確に把握することは困難である。以上の通り、特許文献1および特許文献2の何れの技術のもとでも、所望の聴覚印象が感取され得る音響を実現するためには、音響特徴と聴覚印象との相関(所望の聴覚印象を実現するために変化させるべき音響特徴)に関する専門的な知識が必要である。以上の事情を考慮して、本発明は、音響特徴と聴覚印象との相関に関する専門的な知識を必要とせずに音響の聴覚印象を目標に近付けることを目的とする。
 以上の課題を解決するために、本発明の音響解析装置は、解析対象音の特徴指標を抽出する特徴抽出手段と、音響の聴覚印象を示す印象指標と当該音響の音響特徴を示す複数の特徴指標との関係を表現する関連式に、特徴抽出手段が抽出した特徴指標を適用することで、解析対象音の印象指標を算定する印象特定手段と、印象指標の目標値を設定する目標設定手段と、印象特定手段が算定した解析対象音の印象指標を目標値に近付けるために変化させるべき音響特徴を特定する解析処理手段とを具備する。以上の構成では、解析対象音の特徴指標を関連式に適用することで解析対象音の聴覚印象の印象指標が算定され、印象指標を目標値に近付けるために変化させるべき音響特徴が特定される。したがって、音響特徴と聴覚指標との相関に関する専門的な知識を必要とせずに、解析対象音の聴覚印象を目標に近付けるための音響特徴を特定することが可能である。
 本発明の好適な態様において、印象特定手段は、参照音の聴覚印象を示す印象指標と当該参照音の音響特徴を示す特徴指標とを相互に対応させた複数の参照データ、および、聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データを利用して設定され、関係性記述データで規定される対応関係における聴覚印象の印象指標と複数種の音響特徴の特徴指標との関係を表現する関連式に、特徴抽出手段が抽出した特徴指標を適用することで、解析対象音の印象指標を算定する。参照データの統計的な解析のみで関連式を設定する構成では、疑似相関(特定の特徴指標が実際には特定の聴覚印象に相関しないのに潜在的な要因によって恰も相関するかのように推測される見掛け上の関係)の影響で、実際には聴覚印象に相関しない特徴指標が当該聴覚印象に優勢に影響するような関連式が導出される可能性がある。以上の態様では、印象指標と特徴指標とを相互に対応させた複数の参照データに加え、聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データを利用して関連式が設定される。したがって、参照データのみを利用して関連式を設定する構成と比較して、印象指標と複数の特徴指標との実際の相関が適切に反映された関連式を利用して解析対象音の聴覚印象を適切に評価することが可能である。
 本発明の好適な態様に係る音響解析装置は、解析処理手段が特定した音響特徴を利用者に提示する提示処理手段を具備する。以上の態様では、解析処理手段が特定した音響特徴が利用者に提示されるから、解析対象音の印象指標を目標値に近付けるために変化させるべき音響特徴を利用者が把握できる(ひいては当該音響特徴を改善できる)という利点がある。
 本発明の好適な態様に係る音響解析装置は、解析処理手段が特定した音響特徴を変化させる音響処理を解析対象音に対して実行する音響処理手段を具備する。以上の態様では、解析処理手段が特定した音響特徴を変化させる音響処理が解析対象音に対して実行されるから、目標の聴覚印象の音響を生成することが可能である。
 本発明の好適な態様において、目標設定手段は、利用者からの指示に応じて目標値を設定する。以上の態様では、印象指標の目標値が利用者からの指示に応じて設定されるから、解析対象音の聴覚印象を利用者の所望の印象に近付けるための音響特徴を特定できるという利点がある。
本発明の第1実施形態に係る音響解析装置の構成図である。 関係性記述データで規定される聴覚印象と音響特徴との対応関係の説明図である。 操作画面の説明図である。 歌唱音声を解析する動作のフローチャートである。 第2実施形態に係る音響解析装置の構成図である。 解析結果の表示例である。 変形例に係る音響解析装置の構成図である。
<第1実施形態>
 図1は、本発明の第1実施形態に係る音響解析装置100Aの構成図である。第1実施形態の音響解析装置100Aは、演算処理装置10と記憶装置12と入力装置14と収音装置16と表示装置18とを具備するコンピュータシステムで実現される。例えば携帯電話機またはスマートフォン等の可搬型の情報処理装置やパーソナルコンピュータ等の可搬型または据置型の情報処理装置が音響解析装置100Aとして利用され得る。
 収音装置16は、周囲の音響を収音する機器(マイクロホン)である。第1実施形態の収音装置16は、利用者が楽曲を歌唱した歌唱音声Vを収音する。音響解析装置100Aは、楽曲の伴奏音と歌唱音声Vとを混合して再生するカラオケ装置としても利用され得る。なお、収音装置16が収音した歌唱音声Vの信号をアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。
 表示装置18(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。入力装置14は、音響解析装置100Aに対する各種の指示のために利用者が操作する操作機器であり、例えば利用者が操作する複数の操作子を含んで構成される。表示装置18と一体に構成されたタッチパネルを入力装置14として利用することも可能である。記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。
 第1実施形態の音響解析装置100Aは、収音装置16が収音した歌唱音声Vを解析する信号処理装置である。演算処理装置10は、記憶装置12に記憶されたプログラムを実行することで、歌唱音声Vを解析するための複数の機能(特徴抽出部22,印象特定部24,提示処理部26,関連式設定部40,目標設定部42,解析処理部44)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、演算処理装置10の機能の一部を専用の電子回路が実現する構成も採用され得る。
 特徴抽出部22は、収音装置16が収音した歌唱音声Vを解析することで、相異なる種類の音響特徴を示す複数(N個)の特徴指標X1~XNを抽出する(Nは自然数)。音響特徴は、歌唱音声Vの受聴者が感取する聴感的な印象(以下「聴覚印象」という)に影響する歌唱音声Vの音響的な特徴を意味する。具体的には、音高(ピッチ)の安定度,ビブラートの深度(音高の振幅),周波数特性等の多様な音響特徴の各々を数値化した特徴指標Xn(n=1~N)が歌唱音声Vから抽出される。第1実施形態の特徴抽出部22が抽出するN個の特徴指標X1~XNの数値範囲は共通する。以上の説明から理解される通り、聴覚印象は、歌唱音声Vの受聴者が感取する主観的ないし感覚的な特徴(印象)を意味し、音響特徴は、歌唱音声Vの解析で抽出される客観的ないし物理的な特徴(特性)を意味する。
 印象特定部24は、特徴抽出部22が抽出したN個の特徴指標X1~XNを利用して歌唱音声Vの聴覚印象を特定する。第1実施形態の印象特定部24は、歌唱音声Vの相異なる聴覚印象を示す複数(M個)の印象指標Y1~YMを算定する(Mは自然数)。M個の印象指標Y1~YMは、歌唱音声Vの受聴者が感取する主観的な歌唱スタイルの情報とも換言され得る。第1実施形態における任意の1個の印象指標Ym(m=1~M)は、相互に対立する2種類の印象の程度を数値化した指標である。具体的には、長幼(大人っぽい/子供っぽい),明暗(明るい/暗い),清濁(清らかで透明感がある/嗄れて濁っている)等の多様な聴覚印象の各々を数値化した印象指標Ymが特定される。例えば長幼に関する1個の印象指標Ymが正数の範囲で大きいほど大人っぽい音声を意味し、当該印象指標Ymが負数の範囲で小さいほど子供っぽい音声を意味する。
 N個の特徴指標X1~XNに応じた印象指標Ym(Y1~YM)の算定には、印象指標Ym毎に事前に設定された演算式(以下「関連式」という)Fmが利用される。任意の1個の関連式Fmは、印象指標YmとN個の特徴指標X1~XNとの関係を表現する演算式である。第1実施形態の関連式Fmは、以下に例示される通り、N個の特徴指標X1~XNの一次式で各印象指標Ymを表現する。
Figure JPOXMLDOC01-appb-M000001
 以上に例示した関連式Fmの係数anm(a11~aNM)は、特徴指標Xnと印象指標Ymとの相関の度合に応じた定数(特徴指標Xnに対する印象指標Ymの勾配)であり、係数bm(b1~bM)は所定の定数(切片)である。係数anmは、印象指標Ymに対する特徴指標Xnの寄与度(加重値)とも換言され得る。印象特定部24は、特徴抽出部22が抽出したN個の特徴指標X1~XNを関連式F1~FMの各々に適用することで、相異なる聴覚印象に対応するM個の印象指標Y1~YMを算定する。なお、第1実施形態では前述の通り線形システムを例示するが、隠れマルコフモデルやニューラルネットワーク(多層パーセプトロン)等の非線形システムを印象指標Ym(Y1~YM)の算定に利用することも可能である。
 図1の関連式設定部40は、各聴覚印象の印象指標Ymの算定に利用される関連式Fm(F1~FM)を設定する。図1に例示される通り、第1実施形態の記憶装置12には、参照データ群DRと関係性記述データDCとが格納される。関連式設定部40は、参照データ群DRと関係性記述データDCとを利用してM個の関連式F1~FMを設定する。
 参照データ群DRは、複数の参照データrの集合(データベース)である。参照データ群DRに包含される複数の参照データrは、不特定多数の発声者が発音した音声(以下「参照音」という)を利用して事前に生成される。例えば任意の発声者が任意の楽曲を歌唱した音声が参照音として収録されて参照データrの生成に利用される。図1に例示される通り、任意の1個の参照データrは、参照音の各印象指標ym(y1~yM)と当該参照音の特徴指標xn(x1~xN)とを相互に対応させたデータである。印象指標ymは、参照音の受聴者が実際に感取した聴覚印象に応じた数値に設定され、特徴指標xnは、特徴抽出部22と同様の処理で参照音から抽出された音響特徴の数値に設定される。すなわち、各参照データrは、印象指標ymと特徴指標xnとの関係を実際に観測した資料(学習データ)に相当する。
 関係性記述データDCは、聴覚印象と複数の音響特徴との間の対応関係(相関関係)を規定する。図2は、第1実施形態の関係性記述データDCで規定される対応関係を例示する説明図である。図2に例示される通り、第1実施形態の関係性記述データDCは、相異なる印象指標Ymに対応するM種類の聴覚印象EY(EY1~EYM)の各々について、当該聴覚印象EYmに影響する複数種の音響特徴EXとの対応関係λm(λ1~λM)を規定する。図2には、長幼と清濁と明暗との3種類の聴覚印象EY1~EY3の各々について複数種の音響特徴EXとの対応関係λ1~λ3が例示されている。
 各聴覚印象EYmに相関する音響特徴EXの具体的な内容は以下の通りである。以下に例示する各音響特徴EXの数値が前述の特徴指標Xnに相当する。
・音高の安定度:時間的な音高の微小変化(揺らぎ)の度合
・立上がりの速度:発音直後の音量の増加の度合
・フォール:音高を基準値(音符の音高)から低下させる歌唱表現の度合(例えば回数)
・しゃくり:音高を基準値から経時的に上昇させる歌唱表現の度合(例えば回数)
・ビブラートの深度:ビブラートにおける音高の変化の度合(例えば振幅や回数)
・輪郭:音響の明瞭性の度合。例えば、低域成分に対する高域成分の音量比が好適。
・滑舌:音響特性の時間的な変化の度合。例えば、周波数特性(例えばホルマント周波数や基本周波数)の時間的な変化の度合(典型的には時間変化率)が好適。
・アタック:発音直後の音量
・クレッシェンド:音量の経時的な増加の度合
・周波数特性:周波数スペクトルの形状
・高次倍音:高次側(高域側)の倍音成分の強度
 図2に例示される通り、第1実施形態の関係性記述データDCが任意の1種類の聴覚印象EYmについて規定する対応関係λmは、当該聴覚印象EYmに関連する複数種の中間要素EZを聴覚印象EYmと各音響特徴EXとの間に介在させた階層関係(階層構造)である。1種類の聴覚印象EYmに関連する複数種の中間要素EZは、当該聴覚印象EYmを受聴者に知覚させる要因となる印象や当該聴覚印象EYmを複数に細分化した印象に相当する。任意の1個の中間要素EZには、当該中間要素EZに影響する複数種の音響特徴EXが対応付けられる。
 関係性記述データDCで規定される各対応関係λmは、例えば、音楽や音声(歌唱)に関する専門的な知識が豊富な識者(例えば音楽の制作者または指導者や歌手等)に対する調査(インタビューやアンケート)により、各聴覚印象EYmと各音響特徴EXとの間の相関(どのような音響特徴EXの音声から受聴者が如何なる聴覚印象EYmを感取する傾向があるのか)を解析することで構築される。対応関係λmの構築には、評価グリッド法等に代表される公知の調査手法が任意に採用され得る。
 以上に説明した関係性記述データDCは、対応関係λmに包含される各要素(音響特徴EX,中間要素EZ,聴覚印象EYm)の相互的な関係(連結)のみを規定し、各要素間の相関の度合については規定されない。以上の観点からすると、関係性記述データDCで規定される各対応関係λmは、現実に不特定多数の発声者から収集した参照音から観測される音響特徴EXと聴覚印象EYmとの実際の相関(すなわち、現実の参照音の傾向が反映された参照データ群DRから統計的に観測される各印象指標ymと各特徴指標xnとの実際の関係)までは反映されていない仮説的な関係であると言える。
 以上に説明した参照データ群DRと関係性記述データDCとが事前に作成されて記憶装置12に格納される。図1の関連式設定部40は、記憶装置12に格納された参照データ群DRと関係性記述データDCとを利用してM個の関連式F1~FMを設定する。すなわち、関連式設定部40は、関係性記述データDCが規定する各対応関係λmのもとで聴覚印象EYmの印象指標Ymと音響特徴EXの各特徴指標Xnとの関係を表現する関連式Fmを、M個の印象指標Y1~YMの各々について設定する。具体的には、参照データ群DRの複数の参照データrにおける印象指標ymと特徴指標xnとの相関の度合を関係性記述データDCの対応関係λmに反映した関係が関連式Fmで表現されるように、関連式設定部40は、各関連式FmのN個の係数a1m~aNmと1個の係数bmとを設定する。関連式設定部40による各関連式Fmの設定には、例えば、構造方程式モデリング(SEM:Structural Equation Modeling)や多変量解析(例えば重回帰分析)等の公知の統計処理が任意に採用され得る。なお、図2の例示から理解される通り、関係性記述データDCで表現される対応関係λmのもとで聴覚印象EYmとの相関が規定される音響特徴EXの種類や総数は、実際には聴覚印象EYm毎に相違するが、前掲の各関連式Fmに包含される特徴指標Xnの種類や総数はM個の関連式F1~FMにわたり共通する。対応関係λmのもとで聴覚印象EYmとの相関が規定されていない音響特徴EXの特徴指標Xnに対応する係数anmは、関連式Fmにてゼロに設定される(すなわち、当該特徴指標Xnは印象指標Ymに影響しない)。
 以上の手順で関連式設定部40が設定したM個の関連式(例えば構造方程式や重回帰式)F1~FMは記憶装置12に格納される。具体的には、N個の係数a1m~aNmと1個の係数bmとがM個の関連式F1~FMの各々について記憶装置12に格納される。前述の通り、印象特定部24は、関連式設定部40が設定したM個の関連式F1~FMの各々にN個の特徴指標X1~XNを適用することでM種類の印象指標Y1~YMを算定する。
 以上に説明した通り、第1実施形態では、歌唱音声Vから抽出される各特徴指標Xnと歌唱音声Vの聴覚印象を示す印象指標Ymとの関係を規定する関連式Fmを利用して、歌唱音声Vの聴覚印象(印象指標Y1~YM)が特定される。したがって、例えば模範的な歌唱を示す基準値と歌唱音声Vの特徴指標Xnとの差異のみに着目して歌唱の巧拙を評価する技術と比較して、歌唱音声Vの受聴者が実際に感取する主観的な印象を適切に評価することが可能である。
 ところで、参照データ群DRの複数の参照データrのみを解析することで印象指標ymと特徴指標xnとの相関の傾向を統計的に解析して関連式Fmを設定する構成(以下「対比例」という)も想定され得る。すなわち、対比例では関連式Fmの設定に関係性記述データDCが利用されない。しかし、対比例では、実際には聴覚印象EYmに相関しない特定の音響特徴EXが潜在的な要因に起因して恰も聴覚印象EYmに相関するかのように認識される見掛け上の関係(疑似相関)の影響で、実際には印象指標Ymに相関しない特徴指標Xnが当該印象指標Ymに優勢に影響するような関連式Fmが導出される可能性がある。他方、第1実施形態では、各聴覚印象EYmと各音響特徴EXとの仮説的な対応関係λmを規定する関係性記述データDCが参照データ群DRとともに関連式Fmの設定に利用されるから、聴覚印象EYmと音響特徴EXとの疑似相関の影響が低減(理想的には排除)される。したがって、聴覚印象EYmと各音響特徴EXとの実際の相関を適切に表現した関連式Fmを設定できるという利点がある。第1実施形態では、聴覚印象EYmに関連する複数の中間要素EZを介した聴覚印象EYmと各音響特徴EXとの対応関係λmが関係性記述データDCで規定されるから、聴覚印象EYmと各音響特徴EXとを直接的に相関させた構成(対応関係λmが聴覚印象EYmおよび音響特徴EXのみを包含する構成)と比較して、聴覚印象EYmと各音響特徴EXとの実際の相関を関連式Fmで適切に表現できるという前述の効果は格別に顕著である。
 図1の提示処理部26は、利用者に情報を提示する。第1実施形態の提示処理部26は、表示装置18に各種の画像を表示させることで利用者に情報を提示する。具体的には、提示処理部26は、歌唱音声Vを解析した結果を表現する画像や、利用者からの指示を受付るための画像を表示装置18に表示させる。
 図1の目標設定部42は、M個の印象指標Y1~YMの各々について目標値Am(A1~AM)を設定する。具体的には、目標設定部42は、入力装置14に対する利用者からの指示に応じて各目標値Amを可変に設定する。
 例えば提示処理部26は、各印象指標Ymの目標値Amの指示を受付ける図3の操作画面80を表示装置18に表示させる。操作画面80は、M個の印象指標Y1~YM(図3の例示ではM=3)の各々に対応する操作子画像82を包含する。各操作子画像82は、入力装置14に対する利用者からの指示に応じて移動するスライダ型の操作子の画像であり、利用者による目標値Amの指示を受付ける。目標設定部42は、各操作子画像82の位置に応じて各印象指標Ymの目標値Amを設定する。なお、操作画面80の複数の操作子画像82は各々が個別に移動され得るが、各操作子画像82を相互に連動して移動させることも可能である。
 図1の解析処理部44は、印象特定部24が歌唱音声Vについて特定した各印象指標Ymを目標値Amに近付けるために変化させるべき音響特徴(特徴指標Xn)を特定する。第1実施形態の解析処理部44は、各印象指標Ymを目標値Amに近付けるために変化させるべき音響特徴と当該変化の方向(増加/減少)とを指定する解析データQを生成する。提示処理部26は、解析処理部44が生成した解析データQの内容(変化対象の音響特徴と変化方向)を表示装置18に表示させる。したがって、利用者は、自身の歌唱を目標の聴覚印象に近付けるための改善点を把握することが可能である。以上の説明から理解される通り、解析データQの提示は、目標の聴覚印象を実現するための歌唱指導に相当する。
 第1実施形態の解析処理部44は、印象指標Ymと目標値Amとの差分の絶対値|Ym-Am|をM個の聴覚印象について合計した数値(以下「合計差分」という)δを最小化するために変化させるべき音響特徴をN種類の音響特徴から特定する。具体的には、解析処理部44は、N種類のうち任意の1種類の音響特徴の特徴指標Xnを所定の変化量pだけ変化させたと仮定した場合の合計差分δを、変化対象の音響特徴を相違させた複数の場合について算定したうえで相互に比較し、合計差分δが最小となる場合の変化対象の音響特徴と当該変化の方向(増加/現象)とを指定する解析データQを生成する。
 任意の1個の特徴指標Xnを変化量pだけ変化させた場合の合計差分δは、以下の数式(A)で表現される。
 数式(A)のうち変化量pと係数anmとの乗算値の減算は、特徴指標Xnを変化量pだけ変化させる処理に相当する。解析処理部44は、変化量pの正負を反転させた2通りの場合(p=±1)について、特徴指標Xnを変化量pだけ変化させた数式(A)の合計差分δを算定し、合計差分δが最小化された場合の変化対象の音響特徴と変化の方向(変化量pの正負)とを特定する。
 例えば、長幼の印象指標Y1および清濁の印象指標Y2と、ビブラートの深度を示す特徴指標X1および音高の正確性を示す特徴指標X2とに着目し(M=N=2)、関連式F1および関連式F2を以下のように仮定する(a11=0.7,a21=0.3,a12=-0.4,a22=0.7)。
Figure JPOXMLDOC01-appb-M000003
 いま、印象指標Y1が5であるのに対して目標値A1が4であり、印象指標Y2が4であるのに対して目標値A2が6である場合を想定する((Y1,Y2)=(5,4),(A1,A2)=(4,6))。すなわち、評価済の歌唱音声Vと比較して「子供っぽく清らかな音声」(Y1:5→4,Y2:4→6)を実現するために変化させるべき特徴指標Xnを探索する。
[1]p=1(特徴指標Xnの増加を仮定)
・条件1a:特徴指標X1の変化を仮定(ビブラートの深度を増加させる場合)
 δ=|A1-Y1-p・a11|+|A2-Y2-p・a12|
  =|4-5-1・0.7|+|6-4-1・(-0.4)|
  =1.7+2.4=4.1
・条件1b:特徴指標X2の変化を仮定(音高の正確性を増加させる場合)
 δ=|A1-Y1-p・a21|+|A2-Y2-p・a22|
  =|4-5-1・0.3|+|6-4-1・0.7|
  =1.3+1.3=2.6
[2]p=-1(特徴指標Xnの減少を仮定)
・条件2a:特徴指標X1の変化を仮定(ビブラートの深度を減少させる場合)
 δ=|A1-Y1-p・a11|+|A2-Y2-p・a12|
  =|4-5-(-1)・0.7|+|6-4-(-1)・(-0.4)|
  =0.3+1.6=1.9
・条件2b:特徴指標X2の変化を仮定(音高の正確性を減少させる場合)
 δ=|A1-Y1-p・a21|+|A2-Y2-p・a22|
  =|4-5-(-1)・0.3|+|6-4-(-1)・0.7|
  =0.7+2.7=3.4
 以上の通り、特徴指標X1を減少させる条件2aのもとで合計差分δは最小値(δ=1.9)となる。したがって、解析処理部44は、歌唱音声Vを目標(A1,A2)に近付けるための条件として「ビブラートの深度の減少」(音響特徴=ビブラートの深度,変化方向=減少)を指定する解析データQを生成する。以上の説明から理解される通り、目標値Amと相違する印象指標Ymの関連式Fmにおいて係数anmが大きい特徴指標Xn(すなわち印象指標Ymに対する影響が相対的に大きい特徴指標Xn)が、当該印象指標Ymを目標値Amに近付けるために変化させるべき特徴指標Xnとして優先的に選択される。解析処理部44による解析の結果(解析データQ)を表示装置18で確認した利用者は、自身が目指す「子供っぽく清らかな音声」を実現するには「ビブラートの深度を減少させる」という方策が最善であると把握できる。
 図4は、解析データQを生成する動作のフローチャートである。例えば入力装置14に対する利用者からの操作(解析開始の指示)を契機として図4の処理が開始される。図4の処理を開始すると、特徴抽出部22は、収音装置16が収音した歌唱音声Vを取得し(S1)、歌唱音声Vのうち解析区間の音響特徴を示すN個の特徴指標X1~XNを抽出する(S2)。解析区間は、歌唱音声Vのうち聴覚印象の解析対象となる区間であり、例えば歌唱音声Vの全区間または一部の区間(例えばサビ区間)である。印象特定部24は、特徴抽出部22が抽出したN個の特徴指標X1~XNを各関連式Fmに適用することでM個の印象指標Y1~YMを算定する(S3)。解析処理部44は、印象特定部24が算定した各印象指標Ymを目標設定部42が設定した目標値Amに近付けるために変化させるべき音響特徴(特徴指標Xn)を特定して解析データQを生成する(S4)。提示処理部26は、解析処理部44が生成した解析データQの内容(変化対象の音響特徴と変化方向)を表示装置18に表示させる(S5)。
 以上に説明した通り、第1実施形態では、歌唱音声Vの特徴指標Xnを各関連式Fmに適用することで歌唱音声Vの印象指標Ymが算定され、各印象指標Ymを目標値Amに近付けるために変化させるべき音響特徴が特定および提示される。したがって、音響特徴と聴覚印象との相関に関する専門的な知識を必要とせずに、歌唱音声Vの聴覚印象を目標に近付けるための最適な改善点(音響特徴)を利用者が把握し、歌唱音声Vの聴覚印象を効果的に目標に近付けることが可能である。なお、目標に近付くように利用者が自身の歌唱を改善することで、自己実現や健康維持(心理療法やフィットネス)の手法としての応用も期待できる。
<第2実施形態>
 本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
 図5は、第2実施形態の音響解析装置100Bの構成図である。図5に例示される通り、第2実施形態の音響解析装置100Bは、第1実施形態と同様の要素(特徴抽出部22,印象特定部24,関連式設定部40,目標設定部42,解析処理部44)に音響処理部46を追加した構成である。
 第2実施形態の目標設定部42は、第1実施形態と同様に、例えば利用者からの指示に応じて各印象指標Ymの目標値Amを設定する。解析処理部44は、印象特定部24が歌唱音声Vについて特定した各印象指標Ymを目標値Amに近付けるために変化させるべき音響特徴(特徴指標Xn)を指定する解析データQを第1実施形態と同様の方法で生成する。
 図5の音響処理部46は、解析処理部44が特定した音響特徴を変化させる音響処理を歌唱音声Vに対して実行する。具体的には、音響処理部46は、解析処理部44が生成した解析データQで指定される音響特徴が、当該解析データQで指定される方向に変化(増加/減少)するように、収音装置16が収音した歌唱音声Vに対して音響処理を実行する。すなわち、歌唱音声VのN個の特徴指標X1~XNのうち、目標値Amと相違する印象指標Ymの関連式Fmにおいて係数(印象指標Ymに対する寄与度)anmが大きい特徴指標Xn(すなわち印象指標Ymを効率的に目標値Amに近付けることが可能な特徴指標Xn)が、音響処理部46による音響処理で優先的に変更される。
 歌唱音声Vに対して実行される具体的な音響処理には、変更対象の音響特徴の種類に応じた公知の音響処理技術が任意に採用される。例えば、清濁に関する印象指標Ymを目標値Amに近付けるための特徴指標Xnが「ノイズ感」である場合、音響処理部46は、歌唱音声Vに雑音成分を付与する音響処理(雑音付与処理)を実行する。また、例えば、前述の第1実施形態の例示のように「ビブラートの深度の減少」を解析データQが指定する場合、音響処理部46は、歌唱音声Vにおける音高の微小な変動を抑制する音響処理を歌唱音声Vに対して実行する。音響処理部46による処理後の歌唱音声Vは例えば放音装置17(スピーカやヘッドホン)から再生される。なお、歌唱音声Vの再生に代えて(または再生とともに)、音響処理部46による処理後の歌唱音声Vのファイルを生成することも可能である。
 なお、解析データQが指定する特徴指標Xn(以下では便宜的に「優先指標」という)を歌唱音声Vにて充分に(すなわち印象指標Ymが目標値Amに充分に近似する程度に)変動させることができない場合がある。例えば、解析データQが「ビブラートの深度の増加」を指定しても、ビブラートが付加され得る程度の時間長にわたり音高が維持される区間を歌唱音声Vが包含しない場合には、優先指標である「ビブラートの深度」の増加により印象指標Ymを目標値Amに充分に近付けることはできない。以上の場合、音響処理部46は、歌唱音声VのN個の特徴指標X1~XNのうち各印象指標YMを目標値Amに近付けるために有効な順番(合計差分δの昇順)で優先指標の次位に位置する特徴指標Xnが変化するように歌唱音声Vに対する音響処理を実行する。以上の構成によれば、歌唱音声Vの特性に関わらず各印象指標Ymを有効に目標値Amに近付けることが可能である。
 第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、歌唱音声Vの特徴指標Xnを各関連式Fmに適用することで歌唱音声Vの印象指標Ymが算定され、各印象指標Ymを目標値Amに近付けるために変化させるべき音響特徴が特定されたうえで、当該音響特徴を変化させる音響処理が歌唱音声Vに対して実行される。したがって、音響特徴と聴覚印象との相関に関する専門的な知識を必要とせずに、目標の聴覚印象の歌唱音声Vを生成することが可能である。第2実施形態では、各聴覚印象の目標値Amが利用者からの指示に応じて設定されるから、利用者の所望の聴覚印象の歌唱音声Vを有効に生成できるという利点がある。
<変形例>
 以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は適宜に併合され得る。
(1)印象特定部24が特定した歌唱音声VのM個の印象指標Y1~YMを表現する解析結果画像70を提示処理部26が表示装置18に表示させる構成も好適である。図6は、M種類の印象指標Y1~YMのうち長幼(大人っぽい/子供っぽい)に関する1個の印象指標Y1と清濁(清らかで透明感がある/嗄れて濁っている)に関する1個の印象指標Y2とを表象する解析結果画像70の表示例である。図6から理解される通り、解析結果画像70は、印象指標Y1の数値を示す第1軸71と印象指標Y2の数値を示す第2軸72とが設定された座標平面を包含する。第1軸71のうち印象特定部24が算定した印象指標Y1の数値と、第2軸72のうち印象特定部24が算定した印象指標Y2の数値とに対応した座標位置に、歌唱音声Vの聴覚印象を意味する画像(アイコン)74が配置される。以上の説明から理解される通り、解析結果画像70は、歌唱音声Vの聴覚印象を表象する画像(長幼や清濁を含む歌唱スタイルを表象する画像)である。利用者は、表示装置18に表示された解析結果画像70を視認することで、歌唱音声Vの聴覚印象を視覚的および直観的に把握することが可能である。
(2)前述の各形態では、複数の参照データrが記憶装置12に事前に記憶された場合を例示したが、以下に例示される通り、収音装置16が収音した歌唱音声Vを参照音とした新規な参照データrを利用して各関連式Fmを更新することも可能である。
 利用者(歌唱音声Vの発声者や受聴者)は、楽曲の終了後に、入力装置14を適宜に操作することで歌唱音声Vの聴覚印象を指定する。例えば、M種類の聴覚印象の各々について印象指標Ymの複数の選択肢(複数段階の評価)が表示装置18に表示され、利用者は、聴覚印象毎に所望の1個の選択肢を指定する。
 図1に破線の矢印で図示される通り、関連式設定部40は、利用者が指定した各聴覚印象の印象指標ym(y1~ym)と歌唱音声Vについて特徴抽出部22が抽出した各特徴指標xn(x1~xN)とを含む参照データrを取得して記憶装置12に格納する。そして、関連式設定部40は、歌唱音声Vに応じた新規な参照データrを包含する参照データ群DRを利用して、第1実施形態と同様の方法で関連式Fm(F1~FM)を設定および記憶する。すなわち、収音装置16が収音した歌唱音声Vの聴覚印象(印象指標ym)と音響特徴(特徴指標xn)との関係を反映した内容に既定の関連式Fm(F1~FM)が更新される。以上の構成によれば、関連式F1~FMを、実際の歌唱音声Vの聴覚印象と音響特徴との関係を反映した内容に更新できるという利点がある。なお、参照データ群DRを利用した関連式Fmの設定(更新)の時期は任意である。例えば、歌唱音声Vに応じた参照データrの取得毎に関連式Fmを更新する構成や、新規な参照データrが所定数だけ蓄積された場合に関連式Fmを更新する構成が採用され得る。
(3)前述の各形態では、楽曲の全区間にわたる歌唱音声Vを対象として聴覚印象を特定したが、歌唱音声Vを時間軸上で区分した複数の区間の各々について聴覚印象(M個の印象指標Y1~YM)を順次に特定することも可能である。歌唱音声Vの区間毎に聴覚印象を順次に特定する場合、前述の各形態で例示した解析データQを、歌唱音声Vの各区間の聴覚印象に応じて区間毎に順次に(実時間的に)更新する構成も採用され得る。
(4)前述の各形態では、収音装置16が収音した歌唱音声Vを解析する要素(特徴抽出部22,印象特定部24,提示処理部26,目標設定部42,解析処理部44,音響処理部46)と、各関連式Fmを設定する関連式設定部40との双方を具備する音響解析装置100(100A,100B)を例示したが、関連式設定部40を他の要素とは別体の装置に搭載することも可能である。
 例えば図7に例示される通り、通信網200(例えばインターネット)を介して相互に通信する音響解析装置110と音響解析装置120とに、前述の各形態で例示した機能を分担させることも可能である。音響解析装置(関連式設定装置)110は、参照データ群DRと関係性記述データDCとを利用して第1実施形態と同様の方法でM個の関連式F1~FMを設定する関連式設定部40を具備する。例えば通信網200に接続されたサーバ装置で音響解析装置110は実現される。図7に例示される通り、音響解析装置110(関連式設定部40)が設定したM個の関連式F1~FMは、通信網200を介して音響解析装置120に転送される。音響解析装置110から複数の音響解析装置120にM個の関連式F1~FMを共通に転送することも可能である。音響解析装置120は、特徴抽出部22と印象特定部24とを含んで構成され、音響解析装置110から転送されたM個の関連式F1~FMを利用して第1実施形態と同様に歌唱音声Vを解析することで歌唱音声Vの聴覚印象(M個の印象指標Y1~YM)を特定する。音響解析装置120には、第1実施形態および第2実施形態と同様の目標設定部42および解析処理部44が設置され得る。図7の構成では、参照データ群DRおよび関係性記述データDCの保持や各関連式Fmの設定を音響解析装置120に実行させる必要がないから、音響解析装置120の構成および処理が簡素化されるという利点がある。
(5)前述の各形態では、利用者からの指示に応じて各目標値Amを設定したが、目標値Amの設定の方法は以上の例示に限定されない。例えば、楽曲毎に目標値Am(A1~AM)を事前に選定し、利用者が実際に歌唱する楽曲の目標値Amを目標設定部42が選択する構成も採用され得る。また、利用者が歌唱する楽曲の属性(主旋律,ジャンル,歌手等)に応じて目標設定部42が各目標値Amを可変に設定することも可能である。
(6)前述の各形態では、参照データ群DRと関係性記述データDCとを利用して設定された関連式Fmを例示したが、関連式Fmの設定方法は本発明において任意である。例えば、前述の疑似相関が特段の問題とならない場合、対比例と同様に、関係性記述データDCを利用せずに、参照データ群DRの複数の参照データrのみを利用して印象指標ymと特徴指標xnとの相関の傾向を統計的に解析することで各印象指標Ymの関連式Fmを設定することも可能である。
(7)前述の各形態では、利用者が楽曲を歌唱した歌唱音声Vを例示したが、解析対象は歌唱音声Vに限定されない。例えば、会話音等の音声や楽器の演奏音(楽音)、音声合成技術で生成された合成音声(歌唱音声や会話音)について各関連式Fmを利用した解析で聴覚印象(M個の印象指標Y1~YM)を特定することも可能である。例えば、楽器の演奏音の解析では、前述の各形態と同様に、明暗や清濁等の印象指標Ymが特定され得る。楽器の演奏音については、「こもった/抜けのよい」や「遠鳴りがする/そば鳴りがする」等の聴覚印象を用いてもよい。また、遠隔地間で音声を授受する遠隔会議システムのもとで各地点にて再生される音声(例えば会議での会話音)や、スピーカ等の放音装置を含む任意の音響システムから放射される音響についても聴覚印象を特定し得る。以上の説明から理解される通り、本発明において解析対象となる音響(解析対象音)の具体的な内容(種類)や発音の原理等は任意である。
 以上の各形態に係る音響解析装置は、専用の電子回路で実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、以上の各形態に係る音響解析装置の動作方法(音響解析方法)としても本発明は特定される。
 本出願は、2014年9月12日出願の日本特許出願(特願2014-186193)に基づくものであり、その内容はここに参照として取り込まれる。
本発明によれば、音響特徴と聴覚印象との相関に関する専門的な知識を必要とせずに音響の聴覚印象を目標に近付けることが可能である。
100(100A,100B),110,120……音響解析装置、10……演算処理装置、12……記憶装置、14……入力装置、16……収音装置、18……表示装置、22……特徴抽出部、24……印象特定部、26……提示処理部、40……関連式設定部、42……目標設定部、44……解析処理部、46……音響処理部。 

Claims (4)

  1.  解析対象音の特徴指標を抽出する特徴抽出手段と、
     参照音の聴覚印象を示す印象指標と当該参照音の音響特徴を示す特徴指標とを相互に対応させた複数の参照データ、および、前記聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データを利用して設定され、前記関係性記述データで規定される対応関係における前記聴覚印象の印象指標と前記複数種の音響特徴の特徴指標との関係を表現する関連式に、前記特徴抽出手段が抽出した特徴指標を適用することで、前記解析対象音の印象指標を算定する印象特定手段と
     印象指標の目標値を設定する目標設定手段と、
     前記印象特定手段が算定した前記解析対象音の印象指標を前記目標値に近付けるために変化させるべき音響特徴を特定する解析処理手段と
     を具備する音響解析装置。
  2.  前記解析処理手段が特定した音響特徴を利用者に提示する提示処理手段
     を具備する請求項1の音響解析装置。
  3.  前記解析処理手段が特定した音響特徴を変化させる音響処理を前記解析対象音に対して実行する音響処理手段
     を具備する請求項1の音響解析装置。
  4.  前記目標設定手段は、利用者からの指示に応じて前記目標値を設定する
     請求項1から請求項3の何れかの音響解析装置。 
PCT/JP2015/075925 2014-09-12 2015-09-11 音響解析装置 WO2016039465A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-186193 2014-09-12
JP2014186193A JP2016057572A (ja) 2014-09-12 2014-09-12 音響解析装置

Publications (1)

Publication Number Publication Date
WO2016039465A1 true WO2016039465A1 (ja) 2016-03-17

Family

ID=55459208

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/075925 WO2016039465A1 (ja) 2014-09-12 2015-09-11 音響解析装置

Country Status (2)

Country Link
JP (1) JP2016057572A (ja)
WO (1) WO2016039465A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022102105A1 (ja) * 2020-11-13 2022-05-19 日本電信電話株式会社 変換装置、変換方法及び変換プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110481A (ja) * 1992-09-28 1994-04-22 Yamaha Corp カラオケ装置
JPH0772900A (ja) * 1993-09-02 1995-03-17 Nippon Hoso Kyokai <Nhk> 音声合成の感情付与方法
JPH10187178A (ja) * 1996-10-28 1998-07-14 Omron Corp 歌唱の感情分析装置並びに採点装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110481A (ja) * 1992-09-28 1994-04-22 Yamaha Corp カラオケ装置
JPH0772900A (ja) * 1993-09-02 1995-03-17 Nippon Hoso Kyokai <Nhk> 音声合成の感情付与方法
JPH10187178A (ja) * 1996-10-28 1998-07-14 Omron Corp 歌唱の感情分析装置並びに採点装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAKESHI IKEZOE: "Music Database Retrieval System with Sensitivity Words Using Music Sensitivity Space", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 42, no. 12, December 2001 (2001-12-01) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022102105A1 (ja) * 2020-11-13 2022-05-19 日本電信電話株式会社 変換装置、変換方法及び変換プログラム

Also Published As

Publication number Publication date
JP2016057572A (ja) 2016-04-21

Similar Documents

Publication Publication Date Title
JP4851447B2 (ja) ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム
Airas TKK Aparat: An environment for voice inverse filtering and parameterization
CN101645268B (zh) 一种演唱和演奏的计算机实时分析系统
US9552741B2 (en) Systems and methods for quantifying a sound into dynamic pitch-based graphs
US20180137425A1 (en) Real-time analysis of a musical performance using analytics
Lima et al. A survey of music visualization techniques
CN106383676B (zh) 用于声音的即时光色渲染系统及其应用
Proutskova et al. Breathy, resonant, pressed–automatic detection of phonation mode from audio recordings of singing
Chau et al. The emotional characteristics of bowed string instruments with different pitch and dynamics
Zhang Application of audio visual tuning detection software in piano tuning teaching
US10403304B1 (en) Neural networks for identifying the potential of digitized audio to induce frisson in listeners
WO2016039465A1 (ja) 音響解析装置
Gu Recognition algorithm of piano playing music in intelligent background
Wilmering et al. Audio effect classification based on auditory perceptual attributes
Fabiani et al. Systems for interactive control of computer generated music performance
Grill Perceptually informed organization of textural sounds
WO2016039463A1 (ja) 音響解析装置
Eerola Analysing Emotions in Schubert's Erlkönig: a Computational Approach
Siegel Timbral Transformations in Kaija Saariaho's From the Grammar of Dreams
Edgerton et al. A case study of scaling multiple parameters by the violin
Liu et al. Emotion Recognition of Violin Music based on Strings Music Theory for Mascot Robot System.
JP2007240552A (ja) 楽器音認識方法、楽器アノテーション方法、及び楽曲検索方法
WO2016039464A1 (ja) 音響解析装置
Sephus et al. Enhancing online music lessons with applications in automating self-learning tutorials and performance assessment
JP6135229B2 (ja) 歌唱評価装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15839415

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15839415

Country of ref document: EP

Kind code of ref document: A1