WO2022190403A1 - 信号処理システム、信号処理方法およびプログラム - Google Patents

信号処理システム、信号処理方法およびプログラム Download PDF

Info

Publication number
WO2022190403A1
WO2022190403A1 PCT/JP2021/023831 JP2021023831W WO2022190403A1 WO 2022190403 A1 WO2022190403 A1 WO 2022190403A1 JP 2021023831 W JP2021023831 W JP 2021023831W WO 2022190403 A1 WO2022190403 A1 WO 2022190403A1
Authority
WO
WIPO (PCT)
Prior art keywords
time
signal
unit
point
period
Prior art date
Application number
PCT/JP2021/023831
Other languages
English (en)
French (fr)
Inventor
陽 前澤
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to JP2023505085A priority Critical patent/JPWO2022190403A1/ja
Priority to CN202180095321.2A priority patent/CN116940979A/zh
Publication of WO2022190403A1 publication Critical patent/WO2022190403A1/ja
Priority to US18/463,059 priority patent/US20230419929A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/46Volume control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/091Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/375Tempo or beat alterations; Music timing control
    • G10H2210/391Automatic tempo adjustment, correction or control

Definitions

  • time-series signals such as audio signals or video signals.
  • Patent Literature 1 discloses a technique of estimating a performance position by analyzing an acoustic signal representing the performance sound of a piece of music.
  • one aspect of the present disclosure aims to cause a time-series signal such as an audio signal or a video signal to follow a user's operation.
  • a signal processing system is a signal processing system that causes a reproduction device to reproduce a time-series signal following the reproduction of music, An acquisition unit that acquires an indicated position by a user, and a control unit that executes time expansion/contraction of the time-series signal according to the indicated position.
  • a signal processing method is a method for causing a reproduction device to reproduce a time-series signal following reproduction of a piece of music, in which a position indicated by a user in reproduction of the piece of music is obtained, and time-stretching the time-series signal according to the position;
  • a program according to one aspect of the present disclosure is a program for causing a reproduction device to reproduce a time-series signal following reproduction of a piece of music, the acquisition unit acquiring a position indicated by a user in the reproduction of the piece of music, Also, the computer is caused to function as a control section that executes time expansion/contraction of the time-series signal in accordance with the indicated position.
  • FIG. 1 is a block diagram illustrating the configuration of a performance system according to a first embodiment
  • FIG. 1 is a block diagram illustrating the functional configuration of a signal processing system
  • FIG. FIG. 4 is an explanatory diagram of processing executed by an acquisition unit and an identification unit
  • 4 is a flowchart illustrating a specific procedure of control processing
  • FIG. 4 is an explanatory diagram of specifying processing for specifying a playback position
  • 8 is a flowchart illustrating a specific procedure of specific processing
  • It is a flow chart which illustrates a part of concrete procedure of probability setting processing.
  • FIG. 11 is a flowchart illustrating another part of specific procedures of the probability setting process
  • FIG. FIG. 4 is an explanatory diagram of an inter-sounding period
  • 4 is a flowchart illustrating a specific procedure of reproduction processing
  • FIG. 4 is an explanatory diagram of operation intensity;
  • FIG. 1 is a block diagram illustrating the configuration of a performance system 100 according to the first embodiment.
  • a performance system 100 is a computer system for a user to play music (hereinafter referred to as “target music”), and includes a keyboard instrument 10 and a signal processing system 20 .
  • the keyboard instrument 10 and the signal processing system 20 are interconnected, for example, by wire or wirelessly.
  • the keyboard instrument 10 is an electronic instrument having a plurality of keys corresponding to different pitches.
  • a user plays a target piece of music by operating each key of the keyboard instrument 10 in sequence. Specifically, the user uses the keyboard instrument 10 to play one or more specific performance parts among the plurality of performance parts that form the target musical piece.
  • the keyboard instrument 10 emits sound (for example, musical instrument sound) of the pitch played by the user.
  • the keyboard instrument 10 supplies the performance data D representing the performance to the signal processing system 20 in parallel with the emission of sound according to the performance by the user.
  • the performance data D is instruction data that specifies the pitch and strength of key depression corresponding to the key operated by the user, and is generated each time the keyboard instrument 10 is operated by the user. That is, the time series of performance data D is supplied from the keyboard instrument 10 to the signal processing system 20 .
  • the performance data D is, for example, event data conforming to the MIDI (Musical Instrument Digital Interface) standard.
  • the signal processing system 20 includes a control device 21, a storage device 22, and a sound emitting device 23.
  • the signal processing system 20 is realized by, for example, a portable information device such as a smart phone or a tablet terminal, or a portable or stationary information device such as a personal computer.
  • the signal processing system 20 may be implemented as a single device, or may be implemented as a plurality of devices configured separately from each other. Also, the signal processing system 20 may be installed in the keyboard instrument 10 .
  • the control device 21 is composed of one or more processors that control each element of the signal processing system 20 .
  • the control device 21 includes one or more types of CPU (Central Processing Unit), SPU (Sound Processing Unit), DSP (Digital Signal Processor), FPGA (Field Programmable Gate Array), or ASIC (Application Specific Integrated Circuit). It consists of a processor.
  • the storage device 22 is a single or multiple memories that store programs executed by the control device 21 and various data used by the control device 21 .
  • the storage device 22 is composed of a known recording medium such as a magnetic recording medium or a semiconductor recording medium, or a combination of a plurality of types of recording media.
  • a portable recording medium that can be attached to and detached from the signal processing system 20, or a recording medium that can be written or read by the control device 21 via a communication network such as the Internet (for example, cloud storage) is stored. You may utilize as the apparatus 22.
  • the storage device 22 stores the acoustic signal X representing the performance sound of the target musical piece.
  • the acoustic signal X is a time-series signal (that is, a sample series) representing the waveform of the performance sound of the target song.
  • the acoustic signal X represents musical tones produced by various musical instruments when the target musical piece is played, or singing voices produced by the singer when the target musical piece is sung.
  • the acoustic signal X represents the performance sound of one or more performance parts other than the performance part played by the user using the keyboard instrument 10 among the plurality of performance parts forming the target musical piece.
  • the sound emitting device 23 reproduces the sound instructed by the control device 21 .
  • the sound emitting device 23 is, for example, a speaker or headphones.
  • a sound emitting device 23 separate from the signal processing system 20 may be connected to the signal processing system 20 by wire or wirelessly.
  • the control device 21 of the first embodiment causes the sound emitting device 23 to reproduce the acoustic signal X following the performance of the target music by the user. Specifically, the control device 21 estimates a position (playing position P[t]) corresponding to the performance of the user in the target music, and determines a position ( The sound emitting device 23 is caused to reproduce the portion Y corresponding to the reproduction position R[t]). That is, the acoustic signal X is expanded or contracted (time stretched) on the time axis according to the performance of the target music by the user.
  • the acoustic signal X is expanded on the time axis. That is, the slower the speed of movement of the performance position P[t], the slower the reproduction position R[t] moves on the time axis, and as a result, the acoustic signal X is expanded on the time axis.
  • the speed of performance by the user exceeds the standard speed P0, the acoustic signal X is shortened on the time axis.
  • the reproduction of the acoustic signal X by the sound emitting device 23 follows the performance by the user, an atmosphere is created as if the signal processing system 20 and the user are harmoniously playing together.
  • FIG. 2 is a block diagram illustrating the functional configuration of the signal processing system 20.
  • the control device 21 By executing a program stored in the storage device 22, the control device 21 has a plurality of functions (analysis unit 31, acquisition unit 32) for reproducing the acoustic signal X following the performance of the keyboard instrument 10 by the user. and a control unit 33).
  • the analysis unit 31 analyzes the acoustic signal X to generate an index W[n] (Wa[n], Wb[n], Wc[n]).
  • Each unit period U[n] is a period of predetermined length.
  • the symbol n means the number (frame number) of the unit period U[n].
  • the unit period U[n-1] and the unit period U[n] that are contiguous on the time axis partially overlap each other. However, the unit period U[n ⁇ 1] and the unit period U[n] may be continuous without overlap.
  • Each index W[n] is a variable (feature quantity) relating to the acoustic characteristics of the acoustic signal X within the unit period U[n].
  • the analysis unit 31 generates an index W[n] (W[1] to W[N]) for each unit period U[n] before reproducing the acoustic signal X, stores each index W[n] in the storage device 22 Save to Specifically, the analysis unit 31 calculates the voice presence index Wa[n], the fluctuation index Wb[n], and the pronunciation point index Wc[n] as the index W[n] for each unit period U[n]. do.
  • the spurt index Wa[n] is a variable that binary indicates whether the sound signal X corresponds to spurt or silence in the unit period U[n]. That is, the voice activity indicator Wa[n] is set to a numerical value "1" when the unit period U[n] is voice active, and is set to a numerical value "0" when it is silent.
  • a known voice activity detection VAD: Voice Activity Detection
  • VAD Voice Activity Detection
  • VAD Voice Activity Detection
  • the probability that the sound signal X is voiced within the unit period U[n] (for example, a numerical value of 0 or more and 1 or less) may be used as the voiced voice index Wa[n].
  • the fluctuation index Wb[n] is a variable representing the degree of fluctuation of the acoustic characteristics of the acoustic signal X. For example, the amount of change in the acoustic characteristics between the unit period U[n ⁇ 1] and the unit period U[n] which are consecutive is calculated as the fluctuation index Wb[n] of the unit period U[n]. Therefore, the more easily the acoustic characteristics of the acoustic signal X fluctuate, the larger the fluctuation index Wb[n] is set.
  • the acoustic characteristic is, for example, the intensity spectrum of the acoustic signal X or the frequency characteristic such as MFCC (Mel-Frequency Cepstrum Coefficients).
  • the variation amount of the acoustic characteristics such as the fundamental frequency of the acoustic signal X may be used as the variation index Wb[n].
  • a known analysis technique such as discrete Fourier transform is used to calculate the fluctuation index Wb[n].
  • the fact that the acoustic characteristics are likely to fluctuate means that the acoustic characteristics of the acoustic signal X are likely to fluctuate unstably. Therefore, the fluctuation index Wb[n] can be rephrased as an index of the stability or instability of the acoustic characteristics of the acoustic signal X.
  • the sounding point index Wc[n] is a variable that binary indicates whether or not the unit period U[n] of the acoustic signal X corresponds to the sounding point.
  • the sounding point is the time point (onset) when the sounding of the sound component included in the sound signal X starts, and is also referred to as the sounding time point (attack) of the sound component. Any known analysis technique is used to calculate the pronunciation point index Wc[n]. For example, the time point at which the sound volume of the acoustic signal X sharply increases is detected as the sounding point.
  • the probability that the unit period U[n] of the acoustic signal X is the sounding point (for example, a numerical value of 0 or more and 1 or less) may be used as the sounding point index Wc[n].
  • FIG. 3 is an explanatory diagram relating to the outline of the processing of the acquisition unit 32 and the control unit 33 in FIG.
  • the acquisition unit 32 acquires the performance position P[t] as time elapses. Specifically, the acquisition unit 32 identifies the performance position P[t] in the target musical piece by analyzing the time series of the performance data D sequentially supplied from the keyboard instrument 10 .
  • the symbol t means any one of a plurality of time points set at equal intervals on the time axis. That is, the obtaining unit 32 identifies the performance position P[t] for each of the plurality of time points t on the time axis.
  • the time point t is represented by the number of each time point set on the time axis.
  • the performance position P[t] means an elapsed time (for example, seconds) with the start point of the acoustic signal X as a reference.
  • the identification of the performance position P[t] by the acquisition unit 32 is repeated in parallel with the performance of the target music piece and the reproduction of the acoustic signal X by the user.
  • the speed at which the performance position P[t] moves on the time axis is a variable value according to the user's performance.
  • the acquisition unit 32 of the first embodiment acquires the performance position P[t+d] at the time point (t+d), which is forward of the time point t by a predetermined length d.
  • Estimate i.e. predict
  • the predetermined length d is a predetermined positive number corresponding to an integer number of times t.
  • a known analysis technique is arbitrarily adopted for the estimation of the performance position P[t] by the acquisition unit 32 .
  • the analysis technique disclosed in Japanese Patent Application Laid-Open No. 2016-099512 is used to estimate the performance position P[t].
  • the acquisition unit 32 may also estimate the performance position P[t] using a deep neural network (DNN) or a statistical estimation model such as a hidden Markov model (HMM).
  • DNN deep neural network
  • HMM hidden Markov model
  • the control unit 33 in FIG. 2 executes time expansion/contraction of the acoustic signal X according to the performance position P[t].
  • the control unit 33 of the first embodiment has a specifying unit 331 and a reproducing unit 332 .
  • the specifying unit 331 in FIG. 2 specifies the playback position R[t] corresponding to the performance position P[t].
  • the identifying unit 331 identifies the playback position R[t] for each of multiple points of time t on the time axis.
  • the playback position R[t] is an elapsed time (for example, seconds) with the starting point of the acoustic signal X as a reference.
  • the reproduction position R[t] means that, at one time point t on the time axis, the sound signal X should be reproduced at the time point R[t] after the start point.
  • the specifying unit 331 roughly approximates the playing position R[t] to the playing position P[t], and furthermore, performs the playing position P so that the reproduced sound of the acoustic signal X maintains auditory naturalness. Identify the playback position R[t] from [t].
  • FIG. 3 shows the processing period Q and the analysis period q.
  • a processing period Q is a period between time points t1 and t2 on the time axis.
  • the time t1 corresponds to the current time during the reproduction of the acoustic signal X.
  • Time t2 is located after time t1.
  • the time point t2 is a time point t that is a predetermined length d behind the time point t1.
  • the processing period Q is a period of predetermined length d.
  • the performance position P[t] up to time (t1+d) is estimated by the acquisition unit 32 .
  • the performance position P[t] is estimated for each time t within the processing period Q starting at time t1.
  • the playback position R[t] for each time point t within the processing period Q is not specified.
  • the time t1 is an example of the "first time” and the time t2 is an example of the "second time”.
  • the analysis period q is the period from time t1 to time t3.
  • Time t3 lies between time t1 and time t2.
  • the time point t3 is the time point t after the time point t1 by the number of time points t less than the predetermined length d. That is, the analysis period q is a part of the processing period Q on the start point (t1) side.
  • FIG. 3 exemplifies the case where the time t3 is closer to the time t2 than the time t1, the position of the time t3 within the processing period Q is arbitrary.
  • time t immediately after time t1 may be time t3.
  • Time t3 is an example of a "third time”.
  • the specifying unit 331 determines the time series of the playback position R[t] at each point in time t within the analysis period q in the processing period Q in which the performance position P[t] has been estimated as the performance position P in the processing period Q. Estimate according to the time series of [t]. That is, for each analysis period q on the time axis, the time series of the reproduction position R[t] corresponding to each time point t within the analysis period q is specified. Note that in the form in which the time point t3 is the time point t immediately after the time point t1, the playback position R[t] is specified at each time point t on the time axis.
  • the accuracy with which the acquisition unit 32 estimates the performance position P[t] decreases as the time point t is further away from the current time point t1 on the time axis.
  • the time series of the playback position R[t] within the analysis period q from time t1 to time t3 is changed to It is estimated according to the time series of the performance position P[t]. Therefore, the influence (noise) of the estimation error of the performance position P[t] in the period near the end point of the processing period Q is reduced. That is, in comparison with the configuration in which the time series of the performance positions P[t] within the processing period Q is used to specify the time series of the reproduction positions R[t] throughout the processing period Q, the reproduction position R[t] t] can be properly identified.
  • the reproduction unit 332 in FIG. 2 causes the sound emitting device 23 to reproduce the portion Y of the acoustic signal X corresponding to the reproduction position R[t]. Specifically, at each of a plurality of time points t on the time axis, the reproduction unit 332 causes the sound emitting device 23 to reproduce a portion Y of the acoustic signal X including the reproduction position R[t] at the time point t. .
  • the portion Y is composed of a time series of samples within the period corresponding to the reproduction position R[t] in the acoustic signal X.
  • a D/A converter that converts the portion Y of the acoustic signal X from digital to analog and an amplifier that amplifies the converted signal are omitted from the drawing for the sake of convenience.
  • the acoustic signal X is reproduced in units of a predetermined time length (hop length) Ht.
  • FIG. 4 is a flowchart illustrating a specific procedure of processing (hereinafter referred to as "control processing") S executed by the control device 21 to reproduce the acoustic signal X.
  • control processing executed by the control device 21 to reproduce the acoustic signal X.
  • the control process S is started in response to an instruction from the user.
  • the analysis unit 31 analyzes the acoustic signal X stored in the storage device 22 to obtain the index W[n] for each of the N unit periods U[1] to U[N]. (Wa[n], Wb[n], Wc[n]) is generated (Sa).
  • the specifying unit 331 sets the transition probability ⁇ [n1, n2] by analyzing the acoustic signal X (Sb).
  • the playback position R[t] moves backward on the time axis.
  • the movement of the playback position R[t] in the retroactive direction (past) on the time axis may be allowed.
  • the calculation (Sa) of the index W[n] and the setting (Sb) of the transition probability ⁇ [n1, n2] may be performed before the control process S starts. Also, the calculation (Sa) of the index W[n] and the setting (Sb) of the transition probability ⁇ [n1, n2] may be reversed.
  • the indices W[n] and transition probabilities ⁇ [n1,n2] are stored in storage device 22 . After executing the preparatory processing (Sa, Sb) described above, the acquisition unit 32 estimates the performance position P[t+d] at each time point t on the time axis (Sc).
  • the identification unit 331 executes identification processing Sd.
  • the specific process Sd converts the time series of the playback position R[t] within the analysis period q according to each index W[n] of the sound signal X and the time series of the performance position P[t] within the processing period Q This is the process of specifying.
  • a specific process Sd is executed for each analysis period q on the time axis.
  • the reproducing unit 332 causes the sound emitting device 23 to reproduce the portion Y corresponding to each reproduction position R[t] specified by the specifying process Sd in the acoustic signal X (Se).
  • the control device 21 determines whether or not a predetermined end condition is satisfied (Sf).
  • the end condition is, for example, that an end instruction from the user has been received, or that the reproduction of the entire audio signal X has ended. If the termination condition is not satisfied (Sf: NO), the control device 21 shifts the process to step SC. That is, the estimation (Sc) of the performance position P[t+d], the identification (Sd) of the reproduction position R[t] within the analysis period q, and the reproduction (Se) of the portion Y of the acoustic signal X are repeated. . On the other hand, if the termination condition is satisfied (Sf: YES), the control device 21 terminates the control process S.
  • step SC the control device 21 starts the next process starting from the end point of the current analysis period q (that is, the period in which the time series of the reproduction position R[t] is specified).
  • a period Q is set, and an analysis period q within the processing period Q is set. That is, the specifying unit 331 specifies the time series of the reproduction position R[t] within the analysis period q among the processing periods Q for each of the plurality of processing periods Q on the time axis.
  • the portion Y of the acoustic signal X corresponding to the reproduction position R[t] corresponding to the performance position P[t] of the user is reproduced by the sound emitting device 23.
  • the acoustic signal X is expanded or contracted on the time axis according to the performance of the target music by the user. Therefore, it is possible to cause the reproduction of the acoustic signal X by the sound emitting device 23 to follow the performance of the target music by the user.
  • the function F(P[t]) is a function for converting the performance position P[t] (seconds) into the number n of the unit period U[n] in the sound signal X.
  • the symbols round ⁇ ⁇ in Equation (1) mean rounding off.
  • the symbol fs is the sampling frequency of the acoustic signal X.
  • the symbol Hn is the time length (hop length) that is the unit of analysis of the acoustic signal X.
  • the hop length Ht for the reproduction of the acoustic signal X exceeds the hop length Hb for the analysis of the acoustic signal X (Ht>Hn).
  • the function E(n) is a function for converting the number n of the unit period U[n] into an elapsed time (for example, seconds) based on the starting point of the acoustic signal X.
  • the following formula (2 ) is a function for converting the number n of the unit period U[n] into an elapsed time (for example, seconds) based on the starting point of the acoustic signal X.
  • FIG. 5 is an explanatory diagram of the aforementioned specific processing Sd.
  • FIG. 5 shows each time point t (..., t-2, t-1, t, t+1, t+2,...) on the time axis and each unit period U[n] (... , U[n-2], U[n-1], U[n], U[n+1], U[n+2], . . . ) are shown.
  • the identification process Sd of the first embodiment is a process of searching for a maximum-likelihood path (hereinafter referred to as a "maximum-likelihood path") C (hereinafter referred to as (referred to as "route search”) Sd2.
  • a maximum-likelihood path hereinafter referred to as a "maximum-likelihood path” C (hereinafter referred to as (referred to as "route search") Sd2.
  • the maximum likelihood path C is represented by a time series of multiple position variables c[t] corresponding to different points in time t on the time axis.
  • a dynamic programming method such as the Viterbi algorithm or beam search is used for the route search Sd2.
  • FIG. 6 is a flowchart illustrating specific procedures of the specific processing Sd.
  • the specifying unit 331 calculates the observation likelihood L[t,n] for each time point t within the processing period Q (Sd1).
  • the observation likelihood L[t,n] is the likelihood that the n-th unit period U[n] of the N unit periods U[1] to U[N] of the acoustic signal X should be reproduced at time t. degree. That is, the observation likelihood L[t,n] means the probability that each unit period U[n] of the acoustic signal X corresponds to the reproduction position R[t] at time t.
  • the identifying unit 331 estimates the maximum likelihood route C by route search Sd2.
  • the observation likelihood L[t,n] at each time point t within the processing period Q and the transition probability ⁇ [n1,n2] of the acoustic signal X are applied to the route search Sd2.
  • the transition probability ⁇ [n1, n2] for each combination of two unit periods U[n] (U[n1], U[n2]) of the acoustic signal X is
  • the applied route search Sd2 can appropriately identify the time series of the playback position R[t].
  • the specifying unit 331 sets the position variable c[t1] at the start point (time point t1) of the processing period Q and the position variable c[t2] at the end point (time point t2) of the processing period Q as constraint conditions. Search for the maximum likelihood path C in the original. Specifically, the position variable c[t1] at time t1 is a numerical value F(P [t1]). Further, the position variable c[t2] at time t2 is a numerical value F(P[t2] ).
  • the maximum likelihood path C is represented by the time series of position variables c[t] corresponding to different points in time t within the analysis period q.
  • the specifying unit 331 converts the number n of the unit period U[n] specified by each position variable c[t] using the function E(n), thereby obtaining the reproduction position R[t] for each time point t within the analysis period q. ] is calculated (Sd3). That is, the specifying unit 331 of the first embodiment fixes the playback position R[t1] at time t1 in the analysis period q to the performance position P[t1] at time t1, as illustrated in FIG.
  • the route search Sd2 for specifying the time series of the reproduction position R[t] is executed every processing period Q on the time axis. Therefore, even if the movement speed of the performance position P[t] fluctuates irregularly, it is possible to specify the reproduction position R[t] that follows the user's performance with high accuracy.
  • the observation likelihood L[t,n] is the likelihood that the unit period U[n] of the acoustic signal X should be reproduced at each time point t on the time axis, as described above.
  • the identifying unit 331 calculates an observation likelihood L[t,n] for each of a plurality of points in time t on the time axis using the following equation (3).
  • Expression (1) means that the observation likelihood L[t,n] follows a normal distribution (Normal) with the number n of the unit period U[n] as a random variable.
  • the average of the probability distribution of the observation likelihood L[t,n] is the numerical value F(P[t]) obtained by converting the performance position P[t] estimated by the acquisition unit 32 into the number n of the unit period U[n]. set. That is, the average of the probability distribution of the observation likelihood L[t,n] is set according to the performance position P[t]. According to the above configuration, the possibility that the reproduction position R[t] deviates excessively from the performance position P[t] within the analysis period q is reduced.
  • the sounding point group O is a set of time points t corresponding to performance positions P[t] corresponding to the sounding points of the acoustic signal X.
  • each time point t forming the pronunciation point group O satisfies the following equations (4a) and (4b).
  • Expression (4a) means that the performance position P[t-1] at time (t-1) is different from the performance position P[t] at time t immediately after.
  • Equation (4b) is a numerical value "1", which means that the sounding point index Wc[F(P[t])] in the unit period U[n] corresponding to the performance position P[t] corresponds to the sounding point.
  • Equation (5) The variance ⁇ (Wb[n], O) of the probability distribution regarding the observation likelihood L[t,n] is expressed, for example, by Equation (5) below.
  • the symbol ⁇ in Equation (5) is a sufficiently small positive number ( ⁇ 1).
  • Function I[c] in formula (5) is an indicator function that is set to a numerical value of "1" when condition c is satisfied and is set to a numerical value of "0" when condition c is not satisfied. is.
  • Equation (5) when time t corresponds to the pronunciation point (t ⁇ O), the second term on the right side of equation (5) is eliminated, so the variance ⁇ (W[n], O ) is set to a sufficiently small number ⁇ .
  • the variance ⁇ (Wb[n], O) is a numerical value corresponding to the fluctuation index Wb[n]. It is set to 1/Wb[n].
  • the numerical value ⁇ of the variance ⁇ (Wb[n], O) when the time point t corresponds to the sounding point is the numerical value 1/Wb of the variance ⁇ (Wb[n],O) when the time point t does not correspond to the sounding point. below [n].
  • the variance ⁇ of the probability distribution when the time point t corresponds to the pronunciation point is an example of the "first variance”
  • the variance 1/Wb[n] of the probability distribution when the time point t does not correspond to the pronunciation point is the "second It is an example of "dispersion”.
  • the observation likelihood L[t,n] is locally high in the vicinity of the mean F(P[t]) of the random variable n. Become. That is, at time t corresponding to the sounding point, there is a possibility that the playback position R[t] is close to or coincides with the performance position P[t], and the playback position R[t] diverges from the performance position P[t]. Sufficiently high compared to the possibilities. Therefore, there is an advantage that the reproduction of the acoustic signal X can easily follow the performance of the target music by the user.
  • the reproduced sound may give an unnatural impression.
  • the auditory unnaturalness of the reproduced sound is less likely to become obvious even if the period expands or contracts on the time axis.
  • the identification unit 331 of the first embodiment determines the observation likelihood L[t, n] when the time point t does not correspond to the pronunciation point.
  • a variance ⁇ (Wb[n], O) of the probability distribution is set to a numerical value corresponding to the fluctuation index Wb[n]. Specifically, the smaller the fluctuation index Wb[n], the larger the variance ⁇ (Wb[n], O) is set. That is, compared to the case where the time point t corresponds to the sounding point, the possibility of identifying the playback position R[t] deviating from the performance position P[t] increases.
  • the fluctuation index Wb[n] is set to a smaller numerical value as the acoustic characteristics of the acoustic signal X are maintained more stably. Therefore, the longer the acoustic characteristics of the acoustic signal X are maintained stably (that is, the smaller the fluctuation index Wb[n]), the more likely the playback position R[t] will deviate from the performance position P[t]. do.
  • the tendency is realized that the period in which the acoustic characteristics of the acoustic signal X are stably maintained is easy to expand and contract on the time axis, and the period in which the acoustic characteristics fluctuate unstably is difficult to expand and contract. . Therefore, it is possible to reproduce a reproduced sound with a natural auditory impression.
  • transition probability ⁇ [n1,n2] means the probability that the reproduction position R[t] transitions from the unit period U[n1] of the acoustic signal X to the later unit period U[n2], as described above.
  • the specifying unit 331 selects two unit periods U[n] (U[n1], U[n2]) from N unit periods U[1] to U[N] of the acoustic signal X in all ways. Calculate the transition probabilities ⁇ [n1,n2] for the combinations.
  • the identifying unit 331 selects two unit periods U[n] (U[n1], U [n2]) are selected (Sb1).
  • the specifying unit 331 determines whether or not the unit period U[n1] before the transition corresponds to the last unit period U[n] of the inter-sounding period V (Sb2).
  • the inter-sounding period V is a period obtained by dividing the acoustic signal X on the time axis with each sounding point as a boundary.
  • FIG. 9 shows two inter-sounding periods V (V1, V2) that follow each other on the time axis, and when the unit period U[n1] is located at the end of the inter-sounding period V1 (Sb2: YES) is assumed.
  • the first condition means that the reproduction position R[t] stays in the last unit period U[n] of the inter-onset period V1.
  • the second condition means that the reproduction position R[t] transitions from the last unit period U[n] of the inter-onset period V1 to the unit period U[n+1] within the immediately following inter-onset period V2.
  • the predetermined value ⁇ H and the predetermined value ⁇ L are predetermined positive numbers.
  • the predetermined value ⁇ H is set to a value sufficiently larger than the predetermined value ⁇ L ( ⁇ H>> ⁇ L).
  • the predetermined value ⁇ H is set to a positive number less than or equal to "1" and sufficiently close to "1”
  • the transition of the reproduction position R[t] across the sounding points of the acoustic signal X is suppressed, so that the sound component corresponding to one sounding point can be repeatedly reproduced a plurality of times. is reduced.
  • the possibility that the singing voice, which is the reproduced sound of the acoustic signal X, is perceived by the listener as stuttering is reduced. That is, it is possible to reproduce a reproduced sound with a natural auditory impression. Note that when the reproduction position R[t] stays continuously in one unit period U[n], the volume of the reproduced sound of the acoustic signal X may be decreased over time.
  • the specifying unit 331 determines whether or not the post-transition unit period U[n2] is within a predetermined range on the time axis with respect to the pre-transition unit period U[n1], as illustrated in FIG. ). Specifically, the specifying unit 331 determines whether or not the unit period U[n2] is positioned within a range of a predetermined length ⁇ n starting from the unit period U[n1].
  • the determination result is affirmative. If the number n2 of the unit period U[n2] exceeds a predetermined value (n1+ ⁇ n), it means that the reproduction position R[t] is excessively shifted backward from the unit period U[n1].
  • the specifying unit 331 determines that the acoustic signal X is silent (Sb6). That is, it is determined whether or not both the voice activity indicator Wa[n1] and the voice activity indicator Wa[n2] are the numerical value "0", which means silence.
  • the specifying unit 331 sets the transition probability ⁇ [n1, n2] according to the following formula (6) ( Sb7).
  • the symbol ⁇ in formula (6) means a predetermined positive number
  • the symbol ⁇ 0 means a predetermined threshold.
  • the transition probability ⁇ [n1, n2] is set to the predetermined value ⁇ .
  • is greater than or equal to the threshold ⁇ 0
  • the transition probability ⁇ [n1,n2] is set to "0".
  • the transition of the reproduction position R[t] such that the amount of transition
  • on the time axis exceeds the threshold ⁇ 0 is prohibited ( ⁇ [n1, n2] 0).
  • the specifying unit 331 determines the transition probability ⁇ [n1, n2] are set (Sb8).
  • Expression (7) means that the transition probability ⁇ [n1, n2] follows a normal distribution (Normal) with the difference (n1-n2) between the number n1 and the number n2 as the random variable.
  • the difference (n1-n2) corresponds to the amount of movement of the reproduction position R[t] between time (t-1) and time t, that is, the movement speed of the reproduction position R[t].
  • the average of the probability distribution of transition probabilities ⁇ [n1, n2] is set to the aforementioned standard speed P0.
  • the variance of the probability distribution of transition probabilities ⁇ [n1, n2] is set to a numerical value P0/Wb[n1] corresponding to the fluctuation index Wb[n]. Specifically, the smaller the fluctuation index Wb[n1], the larger the variance P0/Wb[n1] of the probability distribution is set. That is, the smaller the fluctuation index Wb[n1], the more likely the moving speed of the reproduction position R[t] will deviate from the standard speed P0. As described above, the fluctuation index Wb[n] is set to a smaller numerical value as the acoustic characteristics of the acoustic signal X are maintained more stably.
  • the variance P0/Wb [n1] is set to a large numerical value, and as a result, deviation of the moving speed of the reproduction position R[t] from the standard speed P0 is allowed.
  • the variance P0/Wb[n1] in the probability distribution of the transition probability ⁇ [n1.n2] is set to a small numerical value, and as a result, the moving speed of the reproduction position R[t] is maintained at a speed close to the standard speed P0. That is, the period in which the acoustic characteristics of the acoustic signal X are stably maintained is easy to expand or contract on the time axis, and the period in which the acoustic characteristics fluctuate unstably is difficult to expand or contract. Therefore, it is possible to reproduce a reproduced sound with a natural auditory impression.
  • the transition of the reproduction position R[t] within the silent period in the acoustic signal X is the transition of the reproduction position R[t] between the sound period and the silent period, or This occurs more easily than the transition of the reproduction position R[t] within the period. Therefore, it is possible to reproduce a reproduced sound that gives an audibly natural impression, as compared with a form in which transitions of the reproduction position R[t] occur frequently within the sound period.
  • the specifying unit 331 sets the transition probability ⁇ [n1, n2] to a predetermined value ⁇ ( Sb9).
  • the predetermined value ⁇ is set to a sufficiently small positive number compared to the predetermined value ⁇ in Equation (6). That is, the transition of the reproduction position R[t] from the unit period U[n1] to the unit period U[n2] outside the predetermined range is also compared with the transition of the reproduction position R[t] within the range.
  • a low probability (predetermined value ⁇ ) is acceptable.
  • the identification unit 331 is illustrated in FIG. Determining whether transition probabilities ⁇ [n1, n2] have been set for all combinations of selecting two units from N unit periods U[1] to U[N] of the acoustic signal X as described above (Sb10). If there is an unset transition probability ⁇ [n1, n2] (Sb10: NO), the identifying unit 331 shifts the process to step Sb1.
  • the volume of the reproduced sound of the acoustic signal X (hereinafter referred to as "playback volume”) is adjusted to the strength of the operation of the keyboard instrument 10 by the user (hereinafter referred to as "operation strength").
  • operation strength the strength of the operation of the keyboard instrument 10 by the user.
  • the reproduction unit 332 controls the reproduction volume of the acoustic signal X according to the strength of the user's operation.
  • the configuration and operation of each element other than the reproducing unit 332 are the same as in the first embodiment. Therefore, the same effects as in the first embodiment are realized in the second embodiment as well.
  • FIG. 10 is a flowchart illustrating a specific procedure of processing (hereinafter referred to as “reproduction processing”) Se executed by the reproduction unit 332 in the second embodiment.
  • the playback unit 332 calculates the operation strength ⁇ [k] using the following equations (8a) and (8b) (Se1).
  • the operation intensity ⁇ [k] is a numerical value (velocity) specified by the performance data D.
  • FIG. 11 is an explanatory diagram of the operation strength ⁇ [k].
  • the symbol k in equation (8) is a number for identifying each operation (specifically, key depression) on the keyboard instrument 10 .
  • the symbol t[k] denotes the time when operation k occurs.
  • an operation (k-1) with an operation intensity ⁇ [k-1] occurs at time t[k-1], and time t[k] after time t[k-1].
  • Operation k is, for example, a key depression immediately after operation (k-1).
  • Time t[k-1] is an example of a "first time”
  • operation (k-1) is an example of a "first operation”.
  • the time t[k] is an example of a "second time”
  • the operation k is an example of a "second operation”.
  • the reproducing unit 332 converts the larger one (max) of the operation intensity z[k] and the operation intensity ⁇ [k] to the operation intensity ⁇ [ k].
  • the operation intensity z[k] is obtained by changing the operation intensity ⁇ [k-1] of operation (k-1) from time t[k-1] to time t[k]. is a significantly reduced intensity.
  • the symbol ⁇ in Equation (8b) is a predetermined positive number that indicates the degree to which the manipulation intensity ⁇ [k ⁇ 1] is attenuated over time.
  • the manipulation strength z[k] is an example of the "first strength”
  • the manipulation strength ⁇ [k] is an example of the "second strength”.
  • the reproducing unit 332 calculates the adjustment value G according to the operation strength ⁇ [k] (Se2).
  • the adjustment value G is a coefficient (gain) by which the portion Y of the acoustic signal X to be reproduced is multiplied.
  • the reproducing unit 332 calculates the adjustment value G by the following formula (9).
  • the adjustment value G varies within a range between the minimum value of 0.3 and the maximum value of 1, depending on the operation strength ⁇ [k]. Specifically, the larger the operation strength ⁇ [k], the larger the adjustment value G is set.
  • the reproduction unit 332 uses the adjustment value G to adjust the reproduction volume of the acoustic signal X (Se3). Specifically, the reproduction unit 332 multiplies the adjustment value G by the portion Y of the acoustic signal X corresponding to the reproduction position R[t]. As can be understood from the above description, the playback unit 332 controls the playback volume of the acoustic signal X according to the operation strength ⁇ [k].
  • a specific example of the reproduction processing Se in the second embodiment is as described above.
  • the reproduction volume of the acoustic signal X is controlled according to the operation intensity ⁇ [k] of the operation k, whichever is greater (that is, the operation intensity ⁇ [k]). Therefore, even if the operation intensity ⁇ [k] is sufficiently smaller than the operation intensity ⁇ [k ⁇ 1], for example, an operation that decreases the operation intensity ⁇ [k ⁇ 1] with time until time t[k] If the intensity ⁇ [k] is sufficiently large, the reproduction volume of the acoustic signal X is sufficiently maintained. Therefore, it is possible to appropriately control the reproduction volume for the user's performance, compared to the configuration in which the reproduction volume is controlled according to the operation strength ⁇ [k] for each operation.
  • the keyboard instrument 10 was exemplified, but the type of instrument with which the user plays the target piece of music is not limited to the keyboard instrument 10 .
  • any type of instrument such as strings, winds or percussion, may be used by the user to play the target song.
  • the acquisition unit 32 estimates the performance position P[t] by analyzing performance data D supplied from an arbitrary musical instrument.
  • the device that generates the performance data D may be a device other than a musical instrument.
  • an information device such as a smart phone or a tablet terminal, or an operation device such as a keyboard, or any other form of device that accepts performance instructions from the user may be used in place of the keyboard instrument 10 described above.
  • the instruction data representing the user's instruction to perform the performance was exemplified as the performance data D.
  • acoustic data representing waveforms of sounds produced by a user's performance may be used as the performance data D for analysis of the performance.
  • the playback position R[t] is specified by using part of the processing period Q as the analysis period q. t] may be specified. That is, the time t2 and the time t3 may coincide on the time axis, and the distinction between the processing period Q and the analysis period q is omitted.
  • the variance ⁇ (Wb[n], O) in the probability distribution of the observation likelihood L[t,n] is changed according to the variation index Wb[n].
  • the variance of the probability distribution of the degree L[t,n] may be set to a predetermined value that does not depend on the fluctuation index Wb[n].
  • the variance P0/Wb[n1] in the probability distribution of the transition probability ⁇ [n1.n2] was changed according to the fluctuation index Wb[n].
  • n2] may be set to a predetermined value that does not depend on the fluctuation index Wb[n].
  • the moving speed of the reproduction position R[t] may be limited within a predetermined range. For example, when the amount of movement of the playback position R[t] between time (t ⁇ 1) and time t exceeds a predetermined upper limit, the specifying unit 331 sets the numerical value corresponding to the upper limit to the playback position R[ t]. On the other hand, if the amount of movement of the playback position R[t] between time (t ⁇ 1) and time t is below the predetermined lower limit, the identifying unit 331 sets the numerical value corresponding to the lower limit to the playback position R[ t]. According to the above configuration, it is possible to suppress excessive divergence between the performance position P[t] and the reproduction position R[t].
  • the analysis unit 31 generates the index W[n] by analyzing the acoustic signal X stored in the storage device 22, but the index W[n] related to the acoustic signal X is stored in advance. In the form stored in device 22, analysis unit 31 may be omitted. For example, in a form in which the index W[n] regarding the acoustic signal X is provided to the signal processing system 20 from an external device, the analysis unit 31 is omitted.
  • search conditions are applied to the route search Sd2 in each of the above embodiments, as illustrated in each of the above embodiments.
  • the search condition is a condition set according to the characteristics of the acoustic signal X.
  • the search conditions include constraint conditions regarding the playback position R[t] as well as numerical values of variables applied to the route search Sd2.
  • the constraint conditions are, for example, fixing the playback position R[t1] at time t1 in the analysis period q to the performance position P[t1] at time t1, and fixing the playback position R[t1] at time t2 in the analysis period q. [t2] is fixed at the performance position P[t2] at the time t2.
  • indices such as observation likelihood L[t,n], transition probability ⁇ [n1,n2], and fluctuation index Wb[t] are exemplified as search conditions for variables applied to route search Sd2. That is, any variable applied to the route search Sd2 is included in the concept of search conditions.
  • the acquisition unit 32 exemplifies the form in which the user specifies the performance position P[t] of the target song, but the information used to specify the playback position R[t] It is not limited to the performance position P[t].
  • the performance position P[t] may be replaced by a position within the target piece of music that changes according to an operation on an operating device such as a mouse or a touch panel.
  • the position where the user instructs and changes the target music is replaced with the performance position P[t].
  • the position used to specify the playback position R[t] is a position that changes on the time axis within the target song according to the user's action (hereinafter referred to as the "specified position"). comprehensively expressed as The performance position P[t] in each of the above-described forms and the position indicated by the user by operating the operation device are specific examples of the indicated position.
  • the operating device used by the user to indicate the indicated position for example, a DJ controller in which a disk-shaped turntable rotates according to the user's operation may be used.
  • the acquisition unit 32 identifies the indicated position according to the rotation angle of the turntable.
  • the acoustic signal X representing the performance sound of the target song is expanded or contracted according to the performance of the keyboard instrument 10 by the user, but the time-series signal to be expanded or contracted is not limited to the acoustic signal X.
  • a video signal representing a video related to the target song may be expanded or contracted on the time axis according to the performance by the user.
  • the video signal represents, for example, video such as a moving image to be displayed in parallel with the performance of the target musical piece.
  • the reproduction unit 332 causes the display device to display a portion of the video signal corresponding to the reproduction position R[t].
  • the variation index Wb[n] calculated by the analysis unit 31 by analyzing the video signal is, for example, a variable representing the degree of variation in the video characteristics of the video signal.
  • a video characteristic is, for example, the brightness of an image.
  • the analysis unit 31 may calculate an index (motion vector) representing changes in images that occur successively on the time axis as the fluctuation index Wb[n].
  • the signal to be processed by the signal processing system 20 is comprehensively expressed as a time-series signal (for example, the audio signal X or the video signal) representing the audio or video of the target song.
  • the reproduction unit 332 is an element that causes the reproduction device to reproduce a portion corresponding to the reproduction position R[t] in the time-series signal.
  • the reproduction device includes the sound emitting device 23 that reproduces the sound represented by the audio signal X, or the display device that displays the image represented by the video signal.
  • the signal processing system 20 may be realized by a server device that communicates with an information device such as a smart phone or a tablet terminal.
  • performance data D generated by a keyboard instrument 10 connected to an information device is transmitted from the information device to the signal processing system 20 .
  • the reproduction unit 332 transmits a portion Y of the acoustic signal X corresponding to the reproduction position R[t] to the information device.
  • the information device comprises a sound emitting device 23 for reproducing the portion Y received from the signal processing system 20 .
  • the above configuration also achieves the same effect as the above-described embodiments.
  • the operation of the reproduction unit 332 transmitting the portion Y of the acoustic signal X to the information device is expressed as an operation of causing the information device to reproduce the portion.
  • a program according to the present disclosure may be provided in a form stored in a computer-readable recording medium and installed in a computer.
  • the recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disc) such as a CD-ROM is a good example.
  • recording media in the form of The non-transitory recording medium includes any recording medium other than transitory (propagating signal), and does not exclude volatile recording media.
  • a recording medium for storing the program in the distribution device corresponds to the non-transitory recording medium described above.
  • a signal processing system is a signal processing system that causes a playback device to play back a time-series signal following playback of a song, wherein: and a control unit for executing time expansion/contraction of the time-series signal according to the indicated position.
  • the time-series signal is time-stretched according to the position indicated by the user during playback of the music. Therefore, it is possible to cause the reproduction of the time-series signal to follow the user's instruction.
  • “Instructed position” is the position designated by the user within the music. Specifically, a position that changes within a piece of music according to the user's action is exemplified as the "designated position".
  • a typical example of the “indicated position” is, for example, a position on the time axis (playing position) where the user plays within the piece of music.
  • the user's action reflected in the indicated position is not limited to "performance”.
  • a form in which the “indicated position” changes according to an operation (another example of “action”) on an operation device such as a mouse or a touch panel is also conceivable.
  • the "indicated position” also includes the position expected to be indicated by the user in the future.
  • a “time-series signal” is a time-domain signal to be reproduced.
  • a “time-series signal” is a signal in the time domain representing, for example, audio or video.
  • a typical example of the "time-series signal” is an acoustic signal representing the sound of a musical piece played, or a video signal representing an image to be displayed in parallel with the performance of the musical piece. Therefore, the “playback device” is, for example, a sound emitting device that emits sound represented by an acoustic signal, or a display device that displays an image represented by a video signal.
  • the performance sound represented by the "acoustic signal” includes not only the musical sound produced by the musical instrument during the performance, but also the voice produced by the singer (singing voice).
  • the performance sound represented by the acoustic signal and the performance sound generated by the performance by the user are in a relationship of corresponding to a common piece of music, but the specific relationship between them is arbitrary. For example, it does not matter whether the performance part of the performance sound represented by the acoustic signal is different from the performance part played by the user. That is, assuming that a user plays one or more performance parts of a plurality of performance parts of a piece of music, the acoustic signal is the performance sound of the one or more performance parts, or the sound of the performance parts other than the one or more performance parts. Represents the performance sound of one or more performance parts.
  • the time-series signal is a signal representing audio or video
  • the acquisition unit acquires a plurality of pointed positions over time
  • the control unit acquires the plurality of pointed positions over time.
  • the time expansion/contraction is performed by route search using two or more different indicated positions among the indicated positions and search conditions according to the characteristics of the time-series signal.
  • the "search condition” is a condition that is set according to the characteristics of the time-series signal and applied to the route search.
  • the "search conditions” include constraint conditions (for example, Mode 7) regarding the playback position, as well as numerical values of variables applied to route search (for example, Modes 8, 10, and 11).
  • the reproduction of the music is the performance of the music by the user. According to the above aspect, it is possible to cause the reproduction of the time-series signal to follow the performance of the music by the user.
  • “Performance” means the action of the user to make music progress, and in a broad sense it includes the action of operating a device such as a musical instrument to make the instrument sound (narrowly defined performance), as well as the action of the user singing a song. It is a concept.
  • An indicated position (performance position) is specified by analyzing the performance by the user.
  • “Performance analysis” is realized, for example, by analyzing the performance data representing the user's performance.
  • the performance data is instruction data (for example, MIDI data) representing performance instructions by the user, or sound data (for example, a sample series) representing sound waveforms produced by the user's performance.
  • control unit includes a specifying unit that specifies a reproduction position corresponding to the designated position in the time-series signal, and a portion of the time-series signal corresponding to the reproduction position. and a reproducing unit that executes the time expansion/contraction by causing a reproduction device to reproduce the .
  • a reproducing unit that executes the time expansion/contraction by causing a reproduction device to reproduce the .
  • the acquisition unit sequentially identifies the indicated position for each of a plurality of points in time on the time axis, and the identification unit identifies each of a plurality of processing periods on the time axis. , executing a route search using two or more indicated positions respectively specified for two or more points in the processing period among the plurality of points and a search condition according to the characteristics of the time-series signal.
  • time series of two or more reproduction positions corresponding to different time points within at least part of the processing period are specified, and the reproduction unit identifies the two or more reproduction positions in the time-series signal. are played back by the playback device.
  • the route search for specifying the time series of two or more reproduction positions is executed for each processing period on the time axis.
  • the playback position can be identified by following the instruction from the user with high accuracy.
  • the processing period is a period between a first time point and a second time point located after the first time point among the plurality of time points, and The at least part of the period is an analysis period from the first time point to a third time point between the first time point and the second time point.
  • the time series of the two or more playback positions within the analysis period from the first time point to the third time point correspond to the time series of the designated position within the processing period from the first time point to the second time point. estimated by Therefore, it is possible to reduce the influence (noise) of the pointing position estimation error in the period near the end point (for example, the period from the third time point to the second time point) within the processing period. That is, the playback position can be appropriately specified compared to a configuration in which the time series of the indicated position within the processing period is used to specify the time series of the playback position over the entire processing period.
  • the search condition fixes the playback position at the first time point to the designated position at the first time point, and fixes the playback position at the second time point to the designated position at the first time point. It includes conditions for fixing to the indicated position at two points in time. According to the above aspect, the playback position at the first time point is fixed at the designated position at the first time point, and the playback position at the second time point is fixed at the designated position at the second time point. Therefore, the possibility that the playback position deviates excessively from the designated position within the analysis period is reduced.
  • the search condition includes an observation likelihood at each of the plurality of time points, and the observation likelihood is a plurality of unit periods obtained by dividing the time-series signal on a time axis. is the probability corresponding to the playback position at that point in time, and the probability distribution of the observation likelihood is defined by the average corresponding to the indicated position.
  • the average of the probability distribution of the observation likelihood applied to the route search is set according to the indicated position. Therefore, the possibility that the playback position deviates excessively from the designated position within the analysis period is reduced.
  • the time-series signal is an acoustic signal representing the performance sound of the musical piece, and the indicated position corresponds to a pronunciation point of the acoustic signal among the plurality of points of time.
  • the probability distribution of the observation likelihood at a point in time when the indicated position does not correspond to the sounding point of the acoustic signal, among the plurality of points in time is defined by the first variance. It is defined by a second variance greater than 1 variance.
  • the variance (first variance) of the probability distribution that is used to specify the playback position for the time points corresponding to the sounding points of the acoustic signal is used to specify the playback position for the time points that do not correspond to the sounding points.
  • the variance of the probability distribution (second variance) is less than the variance of the probability distribution (second variance). Therefore, at the point corresponding to the pronunciation point, the observation likelihood becomes a locally high numerical value in the vicinity of the numerical value corresponding to the indicated position. That is, at the time corresponding to the sounding point, the possibility that the playback position will be close to or coincide with the indicated position is higher than the possibility that the playback position will deviate from the indicated position. Therefore, there is an advantage that the reproduction of the acoustic signal can easily follow the performance by the user.
  • the search condition includes a variation index representing the degree of variation of characteristics in the time-series signal, and the variance of the probability distribution of the observation likelihood is the variation index.
  • the variance regarding the probability distribution of the observation likelihood is set according to the fluctuation index of the time-series signal. For example, when the characteristics of the time-series signal fluctuate unstably, the variance is set to a small numerical value, and as a result, the reproduction position approximates the indicated position.
  • the value is set to a numerical value with a large variance, and as a result, it is permissible to specify a playback position that deviates from the indicated position. That is, it is possible to reproduce a reproduced sound with a natural auditory impression.
  • a "fluctuation index" is an arbitrary index according to the degree of fluctuation of characteristics in a time-series signal.
  • the degree of characteristic variation is, for example, the frequency of characteristic variation or the amount of characteristic variation. Therefore, the fluctuation index can also be rephrased as an index of stability or instability of the characteristics of the time-series signal.
  • a variation index for an acoustic signal represents the degree of variation of an acoustic characteristic such as the fundamental frequency or frequency characteristic (eg amplitude spectrum or MFCC).
  • a variation index relating to a video signal represents the degree of variation in video characteristics such as brightness.
  • the fluctuation index is an index representing the variability of the characteristics. expressed.
  • the fluctuation index indicates the difficulty of fluctuation of the characteristics. It is expressed as an index that represents.
  • the search condition is set for each combination of two unit periods among a plurality of unit periods obtained by dividing the time-series signal on the time axis. , a transition probability representing the probability that the playback position transitions between the two unit periods. According to the above aspect, it is possible to appropriately specify the time series of the reproduction position by the path search applying the transition probability for each combination of two unit periods in the time series signal 2 .
  • Two unit periods include not only two different unit periods on the time axis, but also a common unit period on the time axis. If the two unit periods are different, the transition probability means the probability that the playback position will move on the time axis. On the other hand, when two unit periods are common, the transition probability means the probability that the playback position stays in one unit period on the time axis.
  • the time-series signal is an acoustic signal representing the performance sound of the musical piece, and the transition probability ( The first transition probability) exceeds the transition probability (second transition probability) when the acoustic signal is voiced in one or both of the two unit periods.
  • the transition of the reproduction position within the silent period in the acoustic signal is compared with the transition of the reproduction position between the sound periods and the silent period or the transition of the reproduction position within the sound period. easily occur. Therefore, it is possible to reproduce a reproduced sound with a natural auditory impression, compared to a form in which the transition of the reproduction position occurs frequently within the sound period.
  • the probability distribution of the transition probability when the acoustic signal is voiced in one or both of the two unit periods has an average set to a predetermined value and the and a variance according to a variation index representing the degree of variation of the acoustic characteristics of the acoustic signal.
  • the variance in the probability distribution of transition probabilities is set according to the variation index of the acoustic signal. For example, during a period in which the acoustic characteristics of the acoustic signal are stably maintained, a numerical value with a large variance in the probability distribution of the transition probability is set, and as a result, deviation of the moving speed of the playback position from the predetermined value is allowed. be done.
  • the variance in the probability distribution of the transition probability is set to a small value, and as a result the moving speed of the reproduction position approaches the predetermined value. That is, the period in which the acoustic characteristics of the acoustic signal are stably maintained is easy to expand or contract on the time axis, and the period in which the acoustic characteristics fluctuate unstably is difficult to expand or contract. Therefore, it is possible to reproduce a reproduced sound with a natural auditory impression.
  • any one of Aspects 11 to 13 (Aspect 14), at the last point of a first inter-onset period among a plurality of inter-onset periods obtained by dividing the acoustic signal on the time axis by a plurality of sounding points, The transition probability that the reproduction position stays higher than the transition probability that the reproduction position transitions from the last time point to the time point within the second inter-onset period immediately after the first inter-onset period.
  • the transition of the reproduction position across the sounding points is suppressed, the possibility that the acoustic component corresponding to one sounding point is reproduced repeatedly is reduced. In other words, it is possible to generate a reproduced sound with a natural auditory impression.
  • the indicated position is a performance position estimated by the acquisition unit analyzing the performance of the music by the user.
  • the performance position of the music by the user is specified as the indicated position. Therefore, it is possible to cause the reproduction of the time-series signal by the reproduction device to follow the performance of the music by the user.
  • the playback unit performs the following operations when a first operation occurs at a first time point in the performance, and a second operation occurs at a second time point after the first time point.
  • the first intensity obtained by decreasing the intensity of the first operation from the first point in time to the second point in time, and the second intensity of the second operation, whichever is larger (that is, the maximum value) is selected as the operation intensity at the second time point, and the volume of the reproduced sound of the time-series signal is controlled according to the operation intensity.
  • the maximum value of a plurality of intensities (control value ) the volume of the reproduced sound of the acoustic signal is controlled.
  • the volume of the reproduced sound is well maintained. Therefore, it is possible to appropriately control the volume of the reproduced sound for the user's performance, compared to the configuration in which the volume of the reproduced sound is controlled according to the intensity of each operation.
  • a signal processing method is a method for causing a playback device to play back a time-series signal following playback of a piece of music, the method comprising acquiring a position indicated by a user in playing back the piece of music. and time expansion/contraction of the time-series signal is executed according to the indicated position.
  • the time-series signal is a signal representing audio or video; , the time expansion/contraction is performed by route search using two or more different indicated positions among the plurality of indicated positions and a search condition according to the characteristic of the time-series signal. Playback of music is, for example, performance of the music by the user.
  • a program according to one aspect (aspect 20) of the present disclosure is a program for causing a playback device to play back a time-series signal following playback of a piece of music, the program acquiring a position indicated by a user in playing back the piece of music. and a control unit that performs time expansion/contraction of the time-series signal in accordance with the indicated position.

Abstract

信号処理システムは、楽曲の再生に追従して時系列信号を再生装置に再生させるシステムであり、前記楽曲の再生における利用者による指示位置を取得する取得部と、前記指示位置に応じて前記時系列信号の時間伸縮を実行する制御部とを具備する。

Description

信号処理システム、信号処理方法およびプログラム
 本開示は、例えば音響信号または映像信号等の時間領域の信号(以下「時系列信号」という)を処理する技術に関する。
 楽曲のうち利用者が演奏している時間軸上の位置(以下「演奏位置」という)を推定する各種の技術が、従来から提案されている。例えば特許文献1には、楽曲の演奏音を表す音響信号を解析することで演奏位置を推定する技術が開示されている。
特開2015-79183号公報
 例えば音響信号が表す音響や映像信号が表す映像の再生を、利用者による演奏に追従(同期)させたいという要望がある。以上の事情を考慮して、本開示のひとつの態様は、例えば音響信号または映像信号等の時系列信号を利用者による動作に追従させることを目的とする。
 以上の課題を解決するために、本開示のひとつの態様に係る信号処理システムは、楽曲の再生に追従して時系列信号を再生装置に再生させる信号処理システムであって、前記楽曲の再生における利用者による指示位置を取得する取得部と、前記指示位置に応じて前記時系列信号の時間伸縮を実行する制御部とを具備する。
 本開示のひとつの態様に係る信号処理方法は、楽曲の再生に追従して時系列信号を再生装置に再生させる方法であって、前記楽曲の再生における利用者による指示位置を取得し、前記指示位置に応じて前記時系列信号の時間伸縮を実行する。
 本開示のひとつの態様に係るプログラムは、楽曲の再生に追従して時系列信号を再生装置に再生させるためのプログラムであって、前記楽曲の再生における利用者による指示位置を取得する取得部、および、前記指示位置に応じて前記時系列信号の時間伸縮を実行する制御部、としてコンピュータを機能させる。
第1実施形態に係る演奏システムの構成を例示するブロック図である。 信号処理システムの機能的な構成を例示するブロック図である。 取得部および特定部が実行する処理の説明図である。 制御処理の具体的な手順を例示するフローチャートである。 再生位置を特定する特定処理の説明図である。 特定処理の具体的な手順を例示するフローチャートである。 確率設定処理の一部の具体的な手順を例示するフローチャートである。 確率設定処理の他の一部の具体的な手順を例示するフローチャートである。 発音間期間の説明図である。 再生処理の具体的な手順を例示するフローチャートである。 操作強度の説明図である。
A:第1実施形態
 図1は、第1実施形態に係る演奏システム100の構成を例示するブロック図である。演奏システム100は、利用者が楽曲(以下「目標楽曲」という)を演奏するためのコンピュータシステムであり、鍵盤楽器10と信号処理システム20とを具備する。鍵盤楽器10と信号処理システム20とは、例えば有線または無線により相互に接続される。
 鍵盤楽器10は、相異なる音高に対応する複数の鍵を具備する電子楽器である。利用者は、鍵盤楽器10の各鍵を順次に操作することで目標楽曲を演奏する。具体的には、利用者は、目標楽曲を構成する複数の演奏パートのうち特定の1以上の演奏パートを鍵盤楽器10により演奏する。鍵盤楽器10は、利用者が演奏した音高の音響(例えば楽器音)を放音する。また、鍵盤楽器10は、利用者による演奏に応じた音響の放音に並行して、当該演奏を表す演奏データDを信号処理システム20に供給する。演奏データDは、利用者が操作した鍵に対応する音高と押鍵の強度とを指定する指示データであり、利用者による鍵盤楽器10の操作毎に生成される。すなわち、演奏データDの時系列が鍵盤楽器10から信号処理システム20に供給される。演奏データDは、例えばMIDI(Musical Instrument Digital Interface)規格に準拠したイベントデータである。
 信号処理システム20は、制御装置21と記憶装置22と放音装置23とを具備する。信号処理システム20は、例えばスマートフォンまたはタブレット端末等の可搬型の情報装置、またはパーソナルコンピュータ等の可搬型または据置型の情報装置により実現される。なお、信号処理システム20は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。また、信号処理システム20は、鍵盤楽器10に搭載されてもよい。
 制御装置21は、信号処理システム20の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置21は、CPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより構成される。
 記憶装置22は、制御装置21が実行するプログラムと、制御装置21が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置22は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、信号処理システム20に対して着脱される可搬型の記録媒体、または例えばインターネット等の通信網を介して制御装置21が書込または読出を実行可能な記録媒体(例えばクラウドストレージ)を、記憶装置22として利用してもよい。
 記憶装置22は、目標楽曲の演奏音を表す音響信号Xを記憶する。音響信号Xは、目標楽曲の演奏音の波形を表す時系列信号(すなわちサンプル系列)である。具体的には、音響信号Xは、目標楽曲の演奏により各種の楽器が発音する楽音、または、目標楽曲の歌唱により歌唱者が発音する歌唱音声を表す。例えば、音響信号Xは、目標楽曲を構成する複数の演奏パートのうち利用者が鍵盤楽器10により演奏する演奏パート以外の1以上の演奏パートの演奏音を表す。
 放音装置23は、制御装置21により指示された音響を再生する。放音装置23は、例えばスピーカまたはヘッドホンである。なお、信号処理システム20とは別体の放音装置23を信号処理システム20に有線または無線により接続してもよい。
 第1実施形態の制御装置21は、利用者による目標楽曲の演奏に追従して音響信号Xを放音装置23に再生させる。具体的には、制御装置21は、目標楽曲のうち利用者による演奏に対応する位置(演奏位置P[t])を推定し、音響信号Xのうち当該位置に応じた時間軸上の位置(再生位置R[t])に対応する部分Yを放音装置23に再生させる。すなわち、利用者による目標楽曲の演奏に応じて音響信号Xが時間軸上で伸縮(タイムストレッチ)される。例えば、利用者による演奏の速度が所定の標準的な速度(以下「標準速度」という)P0を下回る場合、音響信号Xは時間軸上で伸長される。すなわち、演奏位置P[t]の移動の速度が小さいほど、再生位置R[t]が低速度で時間軸上を移動し、結果的に音響信号Xが時間軸上で伸長される。他方、利用者による演奏の速度が標準速度P0を上回る場合、音響信号Xは時間軸上で短縮される。すなわち、演奏位置P[t]の移動の速度が大きいほど、再生位置R[t]が高速度で時間軸上を移動し、結果的に音響信号Xが時間軸上で短縮される。以上の通り、放音装置23による音響信号Xの再生が利用者による演奏に追従するから、信号処理システム20と利用者とが恰も協調的に合奏しているかのような雰囲気が生成される。
 図2は、信号処理システム20の機能的な構成を例示するブロック図である。制御装置21は、記憶装置22に記憶されたプログラムを実行することで、利用者による鍵盤楽器10の演奏に追従して音響信号Xを再生するための複数の機能(解析部31,取得部32および制御部33)を実現する。
 解析部31は、音響信号Xの解析により指標W[n](Wa[n],Wb[n],Wc[n])を生成する。音響信号Xを時間軸上で区分したN個の期間(以下「単位期間」という)U[1]~U[N]の各々について指標W[n](n=1~N)が生成される。各単位期間U[n]は所定長の期間である。記号nは、単位期間U[n]の番号(フレーム番号)を意味する。時間軸上で相前後する単位期間U[n-1]と単位期間U[n]とは、部分的に相互に重複する。ただし、単位期間U[n-1]と単位期間U[n]とが重複なく相互に連続してもよい。
 各指標W[n]は、単位期間U[n]内における音響信号Xの音響特性に関する変数(特徴量)である。解析部31は、音響信号Xの再生前に各単位期間U[n]毎の指標W[n](W[1]~W[N])生成し、各指標W[n]を記憶装置22に保存する。具体的には、解析部31は、有音指標Wa[n]と変動指標Wb[n]と発音点指標Wc[n]とを、単位期間U[n]毎に指標W[n]として算定する。
 有音指標Wa[n]は、単位期間U[n]において音響信号Xが有音および無音の何れに該当するかを2値的に表す変数である。すなわち、有音指標Wa[n]は、単位期間U[n]が有音である場合に数値「1」に設定され、無音である場合に数値「0」に設定される。有音指標Wa[n]の算定には、公知の音声区間検出(VAD:Voice Activity Detection)が利用される。なお、単位期間U[n]内において音響信号Xが有音である確度(例えば0以上かつ1以下の数値)が有音指標Wa[n]として利用されてもよい。
 変動指標Wb[n]は、音響信号Xにおける音響特性の変動の度合を表す変数である。例えば、相前後する単位期間U[n-1]および単位期間U[n]の間における音響特性の変動量が、単位期間U[n]の変動指標Wb[n]として算定される。したがって、音響信号Xの音響特性が変動し易いほど変動指標Wb[n]は大きい数値に設定される。音響特性は、例えば、音響信号Xの強度スペクトルまたはMFCC(Mel-Frequency Cepstrum Coefficients)等の周波数特性である。なお、例えば音響信号Xの基本周波数等の音響特性の変動量が変動指標Wb[n]として利用されてもよい。変動指標Wb[n]の算定には、例えば離散フーリエ変換等の公知の解析技術が利用される。音響特性が変動し易いということは、音響信号Xの音響特性が不安定に変動し易いことを意味する。したがって、変動指標Wb[n]は、音響信号Xにおける音響特性の安定性または不安定性の指標とも換言される。
 発音点指標Wc[n]は、音響信号Xの単位期間U[n]が発音点に該当するか否かを2値的に表す変数である。発音点は、音響信号Xに含まれる音響成分の発音が開始される時点(オンセット)であり、音響成分の立上り時点(アタック)とも換言される。発音点指標Wc[n]の算定には、公知の解析技術が任意に利用される。例えば、音響信号Xの音量が急峻に増加する時点が発音点として検出される。なお、音響信号Xの単位期間U[n]が発音点である確度(例えば0以上かつ1以下の数値)が発音点指標Wc[n]として利用されてもよい。
 図3は、図2の取得部32および制御部33の処理の概要に関する説明図である。取得部32は、時間経過に従い演奏位置P[t]を取得する。具体的には、取得部32は、鍵盤楽器10から順次に供給される演奏データDの時系列を解析することで目標楽曲における演奏位置P[t]を特定する。記号tは、時間軸上の等間隔に設定された複数の時点の何れかを意味する。すなわち、取得部32は、時間軸上の複数の時点tの各々について演奏位置P[t]を特定する。時点tは、時間軸上に設定された各時点の番号で表現される。演奏位置P[t]は、音響信号Xの始点を基準とした経過時間(例えば秒)を意味する。取得部32による演奏位置P[t]の特定は、利用者による目標楽曲の演奏と音響信号Xの再生とに並行して反復される。演奏位置P[t]が時間軸上で移動する速度は、利用者による演奏に応じた可変値である。
 第1実施形態の取得部32は、時間軸上の各時点tにおいて、当該時点tに対して所定長dだけ後方(forward)の時点(t+d)における演奏位置P[t+d]を推定(すなわち予測)する。所定長dは、時点tの整数個に相当する所定の正数である。取得部32による演奏位置P[t]の推定には、公知の解析技術(スコアアライメント技術)が任意に採用される。例えば、特開2016-099512号公報に開示された解析技術が、演奏位置P[t]の推定に利用される。また、取得部32は、深層ニューラルネットワーク(DNN)または隠れマルコフモデル(HMM)等の統計的推定モデルを利用して演奏位置P[t]を推定してもよい。
 図2の制御部33は、演奏位置P[t]に応じて音響信号Xの時間伸縮を実行する。第1実施形態の制御部33は、特定部331と再生部332とを具備する。
 図2の特定部331は、演奏位置P[t]に応じた再生位置R[t]を特定する。特定部331は、時間軸上の複数の時点tの各々について再生位置R[t]を特定する。再生位置R[t]は、音響信号Xの始点を基準とした経過時間(例えば秒)である。すなわち、再生位置R[t]は、時間軸上の1個の時点tにおいて、音響信号Xのうち始点から時間R[t]が経過する時点を再生すべきことを意味する。特定部331は、概略的には再生位置R[t]が演奏位置P[t]に近似し、かつ、音響信号Xの再生音について聴感的な自然性が維持されるように、演奏位置P[t]から再生位置R[t]を特定する。
 図3には、処理期間Qおよび解析期間qが図示されている。処理期間Qは、時間軸上における時点t1と時点t2との間の期間である。時点t1は、音響信号Xの再生中における現在の時点に相当する。時点t2は、時点t1の後方に位置する。具体的には、時点t2は、時点t1に対して所定長dだけ後方の時点tである。すなわち、処理期間Qは所定長dの期間である。前述の通り、時点t1においては、時点(t1+d)までの演奏位置P[t]が取得部32により推定されている。すなわち、時点t1においては、当該時点t1を始点とする処理期間Q内の各時点tについて演奏位置P[t]が推定されている。他方、時点t1が到来した時点では、処理期間Q内の各時点tについて再生位置R[t]は特定されていない。なお、時点t1は「第1時点」の一例であり、時点t2は「第2時点」の一例である。
 解析期間qは、時点t1から時点t3までの期間である。時点t3は、時点t1と時点t2との間に位置する。具体的には、時点t3は、所定長dを下回る個数の時点tだけ時点t1から後方の時点tである。すなわち、解析期間qは、処理期間Qのうち始点(t1)側の一部の期間である。なお、図3においては、時点t3が時点t1よりも時点t2に近い場合が例示されているが、処理期間Q内における時点t3の位置は任意である。例えば時点t1の直後の時点tを時点t3としてもよい。時点t3は、「第3時点」の一例である。
 特定部331は、演奏位置P[t]が推定された処理期間Qのうち、解析期間q内における各時点tの再生位置R[t]の時系列を、当該処理期間Q内における演奏位置P[t]の時系列に応じて推定する。すなわち、時間軸上の解析期間q毎に、当該解析期間q内の各時点tに対応する再生位置R[t]の時系列が特定される。なお、時点t3が時点t1の直後の時点tである形態では、時間軸上の時点t毎に再生位置R[t]が特定される。
 ところで、取得部32が演奏位置P[t]を推定する精度は、現在の時点t1から時間軸上で離間した時点tほど低下する。以上の事情を考慮して、第1実施形態においては、時点t1から時点t3までの解析期間q内における再生位置R[t]の時系列が、時点t1から時点t2までの処理期間Q内における演奏位置P[t]の時系列に応じて推定される。したがって、処理期間Qのうち終点の近傍の期間における演奏位置P[t]の推定誤差の影響(ノイズ)が低減される。すなわち、処理期間Q内の演奏位置P[t]の時系列を利用して当該処理期間Q内の全体にわたる再生位置R[t]の時系列を特定する構成と比較して、再生位置R[t]を適切に特定できる。
 図2の再生部332は、音響信号Xのうち再生位置R[t]に対応する部分Yを放音装置23に再生させる。具体的には、再生部332は、時間軸上の複数の時点tの各々において、音響信号Xのうち当該時点tの再生位置R[t]を含む部分Yを、放音装置23に再生させる。部分Yは音響信号Xのうち再生位置R[t]に対応する期間内のサンプルの時系列で構成される。なお、音響信号Xの部分Yをデジタルからアナログに変換するD/A変換器、および変換後の信号を増幅する増幅器については、便宜的に図示が省略されている。以下の説明においては、所定の時間長(ホップ長)Htを単位として音響信号Xが再生される場合を想定する。
 図4は、制御装置21が音響信号Xの再生のために実行する処理(以下「制御処理」という)Sの具体的な手順を例示するフローチャートである。例えば利用者からの指示を契機として制御処理Sが開始される。制御処理Sが開始されると、解析部31は、記憶装置22に記憶された音響信号Xの解析により、N個の単位期間U[1]~U[N]の各々について指標W[n](Wa[n],Wb[n],Wc[n])を生成する(Sa)。
 特定部331は、音響信号Xの解析により遷移確率τ[n1,n2]を設定する(Sb)。遷移確率τ[n1,n2]は、時間軸上の1個の時点(t-1)において音響信号Xの単位期間U[n1]が再生されていた場合に、直後の時点tにおいて音響信号Xの単位期間U[n2]が再生される確率である(n1,n2=1~N)。すなわち、遷移確率τ[n1,n2]は、再生位置R[t]が音響信号Xの単位期間U[n1]から単位期間U[n2]に遷移する確度を意味する。特定部331は、音響信号XのN個の単位期間U[1]~U[N]から2個の単位期間U[n](U[n1]およびU[n2])を選択する全通りの組合せについて遷移確率τ[n1,n2]を算定する。なお、単位期間U[n2]は、単位期間U[n1]の後方に位置する単位期間U[n](n2>n1)、または、単位期間U[n1]に一致する単位期間U[n](n2=n1)である。遷移確率τ[n1,n2]に係る単位期間U[n1]と単位期間U[n2]とが時間軸上で近いほど、音響信号Xの伸長の度合が大きいことを意味する。また、番号n1と番号n2とが共通する遷移確率τ[n,n](n1=n2)は、再生位置R[t]が当該単位期間U[n]に停留する確度を意味する。以上の説明から理解される通り、再生位置R[t]は時間軸上の後方に移動する。ただし、時間軸を遡及する方向(過去)における再生位置R[t]の移動が許容されてもよい。
 なお、指標W[n]の算定(Sa)と遷移確率τ[n1,n2]の設定(Sb)とは、制御処理Sの開始前に実行されてもよい。また、指標W[n]の算定(Sa)と遷移確率τ[n1,n2]の設定(Sb)との先後は反転されてもよい。指標W[n]および遷移確率τ[n1,n2]は、記憶装置22に記憶される。以上に説明した準備的な処理(Sa,Sb)を実行すると、取得部32は、時間軸上の時点t毎に演奏位置P[t+d]を推定する(Sc)。
 特定部331は、特定処理Sdを実行する。特定処理Sdは、解析期間q内の再生位置R[t]の時系列を、音響信号Xの各指標W[n]と処理期間Q内の演奏位置P[t]の時系列とに応じて特定する処理である。時間軸上の解析期間q毎に特定処理Sdが実行される。再生部332は、音響信号Xのうち特定処理Sdにより特定された各再生位置R[t]に対応する部分Yを放音装置23に再生させる(Se)。
 制御装置21は、所定の終了条件が成立したか否かを判定する(Sf)。終了条件は、例えば、利用者からの終了の指示を受付けたこと、または、音響信号Xの全部の再生が終了したことである。終了条件が成立しない場合(Sf:NO)、制御装置21は、処理をステップSCに移行する。すなわち、演奏位置P[t+d]の推定(Sc)と、解析期間q内の再生位置R[t]の特定(Sd)と、音響信号Xの部分Yの再生(Se)と反復される。他方、終了条件が成立した場合(Sf:YES)、制御装置21は制御処理Sを終了する。
 制御装置21は、処理をステップSCに移行するたびに(Sf:NO)、現時点における解析期間q(すなわち再生位置R[t]の時系列が特定された期間)の終点を始点として直後の処理期間Qを設定し、さらに当該処理期間Q内の解析期間qを設定する。すなわち、特定部331は、時間軸上の複数の処理期間Qの各々について、当該処理期間Qのうち解析期間q内の再生位置R[t]の時系列を特定する。
 以上に説明した通り、第1実施形態においては、音響信号Xのうち利用者の演奏位置P[t]に応じた再生位置R[t]に対応する部分Yが、放音装置23により再生される。すなわち、利用者による目標楽曲の演奏に応じて音響信号Xが時間軸上で伸縮される。したがって、放音装置23による音響信号Xの再生を利用者による目標楽曲の演奏に追従させることが可能である。
 再生位置R[t]の特定について以下に詳述する。なお、以下の説明においては、関数F(P[t])と関数E(n)とを利用する。関数F(P[t])は、演奏位置P[t](秒)を音響信号Xにおける単位期間U[n]の番号nに変換するための関数であり、例えば以下の数式(1)で表現される。
Figure JPOXMLDOC01-appb-M000001
 数式(1)の記号round{ }は四捨五入を意味する。記号fsは、音響信号Xのサンプリング周波数である。また、記号Hnは、音響信号Xの解析の単位となる時間長(ホップ長)である。音響信号Xの再生に関するホップ長Htは、音響信号Xの解析に関するホップ長Hbを上回る(Ht>Hn)。
 他方、関数E(n)は、単位期間U[n]の番号nを、音響信号Xの始点を基準とした経過時間(例えば秒)に変換するための関数であり、例えば以下の数式(2)で表現される。
Figure JPOXMLDOC01-appb-M000002
 図5は、前述の特定処理Sdの説明図である。図5には、時間軸上の各時点t(…,t-2,t-1,t,t+1,t+2,…)と、音響信号Xの各単位期間U[n](…,U[n-2],U[n-1],U[n],U[n+1],U[n+2],…)とが図示されている。第1実施形態の特定処理Sdは、各単位期間U[n]と各時点tとの相異なる組合せで構成される最尤の経路(以下「最尤経路」という)Cを探索する処理(以下「経路探索」という)Sd2を含む。最尤経路Cは、時間軸上の相異なる時点tに対応する複数の位置変数c[t]の時系列で表現される。位置変数c[t]は、音響信号XのN個の単位期間U[1]~U[N]の何れかを指定する(c[t]=1~N)。経路探索Sd2には、例えばビタビアルゴリズムまたはビーム探索等の動的計画法が利用される。
 図6は、特定処理Sdの具体的な手順を例示するフローチャートである。特定処理Sdが開始されると、特定部331は、処理期間Q内の各時点tについて観測尤度L[t,n]を算定する(Sd1)。観測尤度L[t,n]は、音響信号XのN個の単位期間U[1]~U[N]のうち第n番目の単位期間U[n]が時点tにおいて再生されるべき尤度である。すなわち、観測尤度L[t,n]は、音響信号Xの各単位期間U[n]が時点tの再生位置R[t]に該当する確度を意味する。
 特定部331は、経路探索Sd2により最尤経路Cを推定する。経路探索Sd2には、処理期間Q内の各時点tにおける観測尤度L[t,n]と、音響信号Xの遷移確率τ[n1,n2]とが適用される。以上の説明の通り、第1実施形態においては、音響信号Xの2個の単位期間U[n](U[n1],U[n2])の組合せ毎の遷移確率τ[n1,n2]を適用した経路探索Sd2により、再生位置R[t]の時系列を適切に特定できる。
 経路探索Sd2において、特定部331は、処理期間Qの始点(時点t1)における位置変数c[t1]と処理期間Qの終点(時点t2)における位置変数c[t2]とを固定した拘束条件のもとで最尤経路Cを探索する。具体的には、時点t1の位置変数c[t1]は、当該時点t1について推定された演奏位置P[t1]を数式(1)の関数F(P[t])により変換した数値F(P[t1])に固定される。また、時点t2の位置変数c[t2]は、当該時点t2について推定された演奏位置P[t2]を数式(1)の関数F(P[t])により変換した数値F(P[t2])に固定される。
 最尤経路Cは、前述の通り、解析期間q内の相異なる時点tに対応する位置変数c[t]の時系列で表現される。特定部331は、各位置変数c[t]が指定する単位期間U[n]の番号nを関数E(n)により変換することで、解析期間q内の各時点tについて再生位置R[t]を算定する(Sd3)。すなわち、第1実施形態の特定部331は、図3に例示される通り、解析期間qの時点t1の再生位置R[t1]を、当該時点t1の演奏位置P[t1]に固定し、解析期間qの時点t2の再生位置R[t2]を、当該時点t2の演奏位置P[t2]に固定した拘束条件のもとで、解析期間q内における再生位置R[t]の時系列を特定する。以上の構成によれば、解析期間q内において再生位置R[t]が演奏位置P[t]から過度に乖離する可能性が低減される。
 以上の説明の通り、第1実施形態においては、再生位置R[t]の時系列を特定する経路探索Sd2が、時間軸上の処理期間Q毎に実行される。したがって、演奏位置P[t]の移動の速度が不規則に変動した場合でも、利用者による演奏に高精度に追従した再生位置R[t]を特定できる。
 観測尤度L[t,n]および遷移確率τ[n1,n2]について以下に詳述する。
(1)観測尤度L[t,n]の算定(Sd1)
 観測尤度L[t,n]は、前述の通り、時間軸上の各時点tにおいて音響信号Xの単位期間U[n]が再生されるべき尤度である。特定部331は、時間軸上の複数の時点tの各々について、以下の数式(3)の演算により観測尤度L[t,n]を算定する。
Figure JPOXMLDOC01-appb-M000003
 数式(1)は、観測尤度L[t,n]が、単位期間U[n]の番号nを確率変数とする正規分布(Normal)に従うことを意味する。観測尤度L[t,n]の確率分布の平均は、取得部32が推定した演奏位置P[t]を単位期間U[n]の番号nに変換した数値F(P[t])に設定される。すなわち、観測尤度L[t,n]の確率分布の平均は、演奏位置P[t]に応じて設定される。以上の構成によれば、解析期間q内において再生位置R[t]が演奏位置P[t]から過度に乖離する可能性が低減される。
 また、観測尤度L[t,n]の確率分布の分散σ(Wb[n],O)は、前述の変動指標Wb[n]と発音点群Oとを変数とする関数で表現される。発音点群Oは、音響信号Xの発音点に該当する演奏位置P[t]に対応する時点tの集合である。すなわち、発音点群Oを構成する各時点tは、以下の数式(4a)および数式(4b)を充足する。
Figure JPOXMLDOC01-appb-M000004
 数式(4a)は、時点(t-1)の演奏位置P[t-1]と直後の時点tの演奏位置P[t]とが相違することを意味する。数式(4b)は、演奏位置P[t]に対応する単位期間U[n]における発音点指標Wc[F(P[t])]が、発音点に該当することを意味する数値「1」であることを意味する。
 観測尤度L[t,n]に関する確率分布の分散σ(Wb[n],O)は、例えば以下の数式(5)で表現される。
Figure JPOXMLDOC01-appb-M000005
 数式(5)の記号εは、充分に小さい正数である(ε≪1)。また、数式(5)の関数I[c]は、条件cが成立する場合に数値「1」に設定され、条件cが成立しない場合に数値「0」に設定される指示関数(インジケータ関数)である。
 数式(5)から理解される通り、時点tが発音点に該当する場合(t∈O)、数式(5)の右辺における第2項が消去されるから、分散σ(Wb[n],O)は、充分に小さい数値εに設定される。他方、時点tが発音点に該当しない場合、数式(5)の右辺における第1項が消去されるから、分散σ(Wb[n],O)は、変動指標Wb[n]に応じた数値1/Wb[n]に設定される。時点tが発音点に該当する場合の分散σ(Wb[n],O)の数値εは、時点tが発音点に該当しない場合の分散σ(Wb[n],O)の数値1/Wb[n]を下回る。時点tが発音点に該当する場合における確率分布の分散εは「第1分散」の一例であり、時点tが発音点に該当しない場合における確率分布の分散1/Wb[n]は「第2分散」の一例である。
 したがって、発音点に該当する時点t(t∈O)においては、観測尤度L[t,n]は、確率変数nの平均F(P[t])の近傍にて局所的に高い数値となる。すなわち、発音点に該当する時点tにおいては、再生位置R[t]が演奏位置P[t]に近似または一致する可能性が、再生位置R[t]が演奏位置P[t]から乖離する可能性と比較して充分に高い。したがって、音響信号Xの再生を利用者による目標楽曲の演奏に追従させ易いという利点がある。
 ところで、音響信号Xのうち音響特性の変動が顕著な期間を時間軸上で伸縮すると、再生音が聴感的に不自然な印象となる可能性がある。他方、音響信号Xのうち音響特性が安定的に維持される期間は、時間軸上で伸縮しても再生音の聴感的な不自然性は顕在化し難い。
 以上の傾向を考慮して、第1実施形態の特定部331は、前掲の数式(5)から理解される通り、時点tが発音点に該当しない場合における観測尤度L[t,n]の確率分布の分散σ(Wb[n],O)を、変動指標Wb[n]に応じた数値に設定する。具体的には、変動指標Wb[n]が小さいほど分散σ(Wb[n],O)は大きい数値に設定される。すなわち、時点tが発音点に該当する場合と比較して、演奏位置P[t]から乖離した再生位置R[t]が特定される可能性が増加する。前述の通り、音響信号Xの音響特性が安定的に維持されるほど、変動指標Wb[n]は小さい数値に設定される。したがって、音響信号Xの音響特性が安定的に維持される期間(すなわち変動指標Wb[n]が小さい期間)ほど、再生位置R[t]が演奏位置P[t]から乖離する可能性が増加する。以上の構成によれば、音響信号Xの音響特性が安定的に維持される期間は時間軸上で伸縮され易く、音響特性が不安定に変動する期間は伸縮され難い、という傾向が実現される。したがって、聴感的に自然な印象の再生音を再生できる。
(2)遷移確率τ[n1,n2]の算定(Sb)
 遷移確率τ[n1,n2]は、前述の通り、再生位置R[t]が音響信号Xの単位期間U[n1]から後方の単位期間U[n2]に遷移する確度を意味する。特定部331は、音響信号XのN個の単位期間U[1]~U[N]から2個の単位期間U[n](U[n1],U[n2])を選択する全通りの組合せについて遷移確率τ[n1,n2]を算定する。
 図7および図8は、特定部331が遷移確率τ[n1,n2]を算定する処理(以下「確率設定処理」という)Sbの具体的な手順を例示する。確率設定処理Sbが開始されると、特定部331は、音響信号XのN個の単位期間U[1]~U[N]から2個の単位期間U[n](U[n1],U[n2])の組合せを選択する(Sb1)。
 特定部331は、遷移前の単位期間U[n1]が発音間期間Vの最後の単位期間U[n]に該当するか否かを判定する(Sb2)。発音間期間Vは、各発音点を境界として音響信号Xを時間軸上で区分した期間である。図9には、時間軸上で相前後する2個の発音間期間V(V1,V2)が図示され、単位期間U[n1]が発音間期間V1の末尾に位置する場合(Sb2:YES)が想定されている。
 遷移前の単位期間U[n1]が発音間期間V1の末尾に位置する場合(Sb2:YES)、特定部331は、所定の条件が成立するか否かを判定する(Sb3)。具体的には、特定部331は、単位期間U[n1]と単位期間U[n2]とが一致するという第1条件(n1=n2)、または、遷移後の単位期間U[n2]が遷移前の単位期間U[n1]の直後の単位期間U[n1+1]であるという第2条件が成立するか否かを判定する。第1条件は、再生位置R[t]が発音間期間V1の最後の単位期間U[n]に滞留することを意味する。第2条件は、再生位置R[t]が発音間期間V1の最後の単位期間U[n]から直後の発音間期間V2内の単位期間U[n+1]に遷移することを意味する。
 第1条件または第2条件が成立する場合(Sb3:YES)、特定部331は、以下の規則で遷移確率τ[n1,n2]を設定する(Sb4)。具体的には、第1条件が成立する場合、特定部331は、遷移確率τ[n1,n2](n1=n2)を所定値αHに設定する。他方、第2条件が成立する場合、特定部331は、遷移確率τ[n1,n2](n2=n1+1)を所定値αLに設定する。所定値αHおよび所定値αLは、所定の正数である。所定値αHは所定値αLよりも充分に大きい数値に設定される(αH≫αL)。例えば、所定値αHは「1」以下で「1」に充分に近い正数に設定され、所定値αLは「1」から所定値αHを減算した数値(αL=1-αH)に設定される。
 以上の説明から理解される通り、発音間期間V1の最後の単位期間U[n1]に再生位置R[t]が停留する遷移確率τ[n1,n2](=αH)は、発音間期間V1の最後の単位期間U[n1]から直後の発音間期間V1の最初の単位期間U[n2]に再生位置R[t]が遷移する遷移確率τ[n1,n2](=αL)を充分に上回る。以上の構成によれば、音響信号Xの発音点を跨ぐ再生位置R[t]の遷移が抑制されるから、1個の発音点に対応する音響成分が複数回にわたり反復的に再生される可能性が低減される。例えば、音響信号Xの再生音である歌唱音声が、どもり(Stutter)のように受聴者に知覚される可能性が低減される。すなわち、聴感的に自然な印象の再生音を再生できる。なお、再生位置R[t]が1個の単位期間U[n]に継続的に滞留する場合に、音響信号Xの再生音の音量を経時的に減少させてもよい。
 他方、単位期間U[n1]が発音間期間Vの最後の単位期間U[n]に該当しない場合(Sb2:NO)、または、所定の条件が成立しない場合(Sb3:NO)、特定部331は、図8に例示される通り、遷移後の単位期間U[n2]が遷移前の単位期間U[n1]に対して時間軸上において所定の範囲内にあるか否かを判定する(Sb5)。具体的には、特定部331は、単位期間U[n1]を始端とする所定長Δnの範囲内に単位期間U[n2]が位置するか否かを判定する。遷移後の単位期間U[n2]の番号n2が番号n1以上かつ(n1+Δn)以下である場合(n1≦n2≦n1+Δn)に、当該判定の結果は肯定となる。単位期間U[n2]の番号n2が所定値(n1+Δn)を上回る場合、再生位置R[t]が単位期間U[n1]から過度に大きく後方に移動することを意味する。
 単位期間U[n2]が所定の範囲内にある場合(Sb5:YES)、特定部331は、遷移前の単位期間U[n1]および遷移後の単位期間U[n2]の双方において音響信号Xが無音であるか否かを判定する(Sb6)。すなわち、有音指標Wa[n1]および有音指標Wa[n2]の双方が、無音を意味する数値「0」であるか否かが判定される。単位期間U[n1]および単位期間U[n2]の双方が無音である場合(Sb6:YES)、特定部331は、以下の数式(6)により遷移確率τ[n1,n2]を設定する(Sb7)。
Figure JPOXMLDOC01-appb-M000006
 数式(6)の記号βは所定の正数を意味し、記号τ0は所定の閾値を意味する。数式(6)から理解される通り、番号n1と番号n2との差分の絶対値|n1-n2|が閾値τ0を下回る場合、遷移確率τ[n1,n2]は所定値βに設定される。他方、絶対値|n1-n2|が閾値τ0以上である場合、遷移確率τ[n1,n2]は「0」に設定される。以上の説明から理解される通り、時間軸上の遷移量|n1-n2|が閾値τ0を下回る範囲内においては、所定値βを遷移確率τ[n1,n2]として、再生位置R[t]の遷移が許容される。他方、時間軸上の遷移量|n1-n2|が閾値τ0を上回るような再生位置R[t]の遷移は禁止される(τ[n1,n2]=0)。
 他方、単位期間U[n1]および単位期間U[n2]の一方または双方において音響信号Xが有音である場合(Sb6:NO)、特定部331は、以下の数式(7)により遷移確率τ[n1,n2]を設定する(Sb8)。
Figure JPOXMLDOC01-appb-M000007
 数式(7)は、遷移確率τ[n1,n2]が、番号n1と番号n2との差分(n1-n2)を確率変数とする正規分布(Normal)に従うことを意味する。差分(n1-n2)は、時点(t-1)と時点tとの間における再生位置R[t]の移動量、すなわち再生位置R[t]の移動速度に相当する。
 遷移確率τ[n1,n2]の確率分布の平均は、前述の標準速度P0に設定される。標準速度P0は、音響信号Xの標準的な再生速度に相当し、所定の正数に設定される。具体的には、標準速度P0は、音響信号Xの再生位置R[t]が標準的な速度で時間軸上を移動する場合において、時点(t-1)と時点tとの間における番号nの変化量を意味する。例えば、標準速度P0は、ホップ長Htに対するホップ長Hnの比に設定される(P0=Hn/Ht)。
 遷移確率τ[n1,n2]の確率分布の分散は、変動指標Wb[n]に応じた数値P0/Wb[n1]に設定される。具体的には、変動指標Wb[n1]が小さいほど、確率分布の分散P0/Wb[n1]は大きい数値に設定される。すなわち、変動指標Wb[n1]が小さいほど、再生位置R[t]の移動速度が標準速度P0から乖離する可能性が増加する。前述の通り、音響信号Xの音響特性が安定的に維持されるほど、変動指標Wb[n]は小さい数値に設定される。したがって、例えば、音響信号Xのうち音響特性が安定的に維持される期間(すなわち変動指標Wb[n]が小さい期間)においては、遷移確率τ[n1,n2]の確率分布における分散P0/Wb[n1]が大きい数値に設定され、結果的に再生位置R[t]の移動速度が標準速度P0から乖離することが許容される。他方、音響信号Xのうち音響特性が不安定に変動する期間(すなわち変動指標Wb[n]が大きい期間)においては、遷移確率τ[n1.n2]の確率分布における分散P0/Wb[n1]が小さい数値に設定され、結果的に再生位置R[t]の移動速度が標準速度P0に近い速度に維持される。すなわち、音響信号Xの音響特性が安定的に維持される期間は時間軸上で伸縮され易く、音響特性が不安定に変動する期間は伸縮され難い。したがって、聴感的に自然な印象の再生音を再生できる。
 なお、単位期間U[n1]および単位期間U[n2]の双方において音響信号Xが無音である場合(Wa[n1]=Wa[n2]=0)における遷移確率τ[n1,n2](=β)は、単位期間U[n1]および単位期間U[n2]の一方または双方において音響信号Xが有音である場合における遷移確率τ[n1,n2]を上回る。以上の条件のもとでは、音響信号Xのうち無音期間内における再生位置R[t]の遷移が、有音期間と無音期間との間における再生位置R[t]の遷移、または、有音期間内における再生位置R[t]の遷移と比較して発生し易い。したがって、有音期間内における再生位置R[t]の遷移が頻発する形態と比較して、聴感的に自然な印象の再生音を再生できる。
 単位期間U[n2]が単位期間U[n1]に対して所定の範囲内にない場合(Sb5:NO)、特定部331は、遷移確率τ[n1,n2]を所定値γに設定する(Sb9)。所定値γは、数式(6)における所定値βと比較して充分に小さい正数に設定される。すなわち、単位期間U[n1]から所定の範囲の外側の単位期間U[n2]に再生位置R[t]が遷移することも、当該範囲内における再生位置R[t]の遷移と比較して低確率(所定値γ)ではあるが許容される。
 以上の処理により現在の組合せ(U[n1],U[n2])に係る遷移確率τ[n1,n2]を算定すると(Sb4,Sb7,Sb8,Sb9)、特定部331は、図7に例示される通り、音響信号XのN個の単位期間U[1]~U[N]から2個を選択する全通りの組合せについて遷移確率τ[n1,n2]を設定したか否かを判定する(Sb10)。未設定の遷移確率τ[n1,n2]がある場合(Sb10:NO)、特定部331は処理をステップSb1に移行する。すなわち、遷移確率τ[n1,n2]が設定されていない2個の単位期間U[n](U[n1],U[n2])を新規に選択し(Sb1)、当該組合せに係る遷移確率τ[n1,n2]を設定する(Sb2~Sb9)。他方、全部の遷移確率τ[n1,n2]を設定した場合(Sb10:YES)、特定部331は確率設定処理Sbを終了する。
B:第2実施形態
 放音装置23が再生する音響信号Xの音響と鍵盤楽器10が放音する音響との間で音量が乖離する形態では、両者間の音楽的な統一感を生成できない可能性がある。以上の事情を考慮して、第2実施形態においては、音響信号Xの再生音の音量(以下「再生音量」という)を、利用者による鍵盤楽器10の操作の強度(以下「操作強度」という)に連動させる。具体的には、再生部332は、利用者による操作強度に応じて音響信号Xの再生音量を制御する。再生部332以外の各要素の構成および動作は第1実施形態と同様である。したがって、第2実施形態においても第1実施形態と同様の効果が実現される。
 図10は、第2実施形態における再生部332が実行する処理(以下「再生処理」という)Seの具体的な手順を例示するフローチャートである。再生処理Seが開始されると、再生部332は、以下の数式(8a)および数式(8b)により、操作強度Λ[k]を算定する(Se1)。操作強度Λ[k]は、演奏データDにより指定される数値(ベロシティ)である。
Figure JPOXMLDOC01-appb-M000008
 図11は、操作強度Λ[k]の説明図である。数式(8)の記号kは、鍵盤楽器10に対する各回の操作(具体的には押鍵)を識別するための番号である。記号t[k]は、操作kが発生した時点を意味する。図11に例示される通り、時点t[k-1]において操作強度λ[k-1]の操作(k-1)が発生し、時点t[k-1]の後方の時点t[k]において操作強度λ[k]の操作kが発生した場合を想定する。操作kは、例えば操作(k-1)の直後の押鍵である。時点t[k-1]は「第1時点」の一例であり、操作(k-1)は「第1操作」の一例である。また、時点t[k]は「第2時点」の一例であり、操作kは「第2操作」の一例である。
 数式(8a)から理解される通り、再生部332は、操作強度z[k]と操作強度λ[k]とのうち何れか大きい方(max)を、時点t[k]における操作強度Λ[k]として選択する。操作強度z[k]は、数式(8b)から理解される通り、操作(k-1)の操作強度λ[k-1]を、時点t[k-1]から時点t[k]まで経時的に減少させた強度である。数式(8b)の記号λは、操作強度λ[k-1]が経時的に減衰する度合を示す所定の正数である。操作強度z[k]は「第1強度」の一例であり、操作強度λ[k]は「第2強度」の一例である。
 以上の演算により操作強度Λ[k]を算定すると、再生部332は、当該操作強度Λ[k]に応じて調整値Gを算定する(Se2)。調整値Gは、音響信号Xのうち再生対象の部分Yに乗算される係数(ゲイン)である。具体的には、再生部332は、以下の数式(9)により調整値Gを算定する。
Figure JPOXMLDOC01-appb-M000009
 数式(9)から理解される通り、調整値Gは、最小値0.3と最大値1との間の範囲内において操作強度Λ[k]に応じて変化する。具体的には、操作強度Λ[k]が大きいほど調整値Gは大きい数値に設定される。再生部332は、調整値Gを利用して音響信号Xの再生音量を調整する(Se3)。具体的には、再生部332は、音響信号Xのうち再生位置R[t]に対応する部分Yに対して調整値Gを乗算する。以上の説明から理解される通り、再生部332は、操作強度Λ[k]に応じて音響信号Xの再生音量を制御する。第2実施形態における再生処理Seの具体例は以上の通りである。
 第2実施形態においては、操作(k-1)の操作強度λ[k-1]を時点t[k]まで経時的に減少させた操作強度z[k]と、当該時点t[k]における操作kの操作強度λ[k]とのうち何れか大きい方(すなわち操作強度Λ[k])に応じて音響信号Xの再生音量が制御される。したがって、例えば操作強度λ[k]が操作強度λ[k-1]と比較して充分に小さい場合でも、操作強度λ[k-1]を時点t[k]まで経時的に減少させた操作強度Λ[k]が充分に大きい場合には、音響信号Xの再生音量は充分に維持される。したがって、操作毎の操作強度λ[k]に応じて再生音量を制御する構成と比較して、利用者の演奏に対して適切に再生音量を制御できる。
C:変形例
 以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態においては、鍵盤楽器10を例示したが、利用者が目標楽曲を演奏する楽器の種類は鍵盤楽器10に限定されない。例えば、弦楽器,管楽器または打楽器等、任意の種類の楽器が、利用者による目標楽曲の演奏に利用される。例えば、取得部32は、任意の楽器から供給される演奏データDの解析により演奏位置P[t]を推定する。また、演奏データDを生成する装置は、楽器以外の形態の装置でもよい。例えばスマートフォンまたはタブレット端末等の情報装置,あるいは例えばキーボード等の操作装置等、利用者による演奏の指示を受付ける任意の形態の装置が、前述の鍵盤楽器10に代えて利用される。
 なお、前述の各形態においては、利用者による演奏の指示を表す指示データを演奏データDとして例示したが、演奏の解析(演奏位置P[t]の推定)に利用される演奏データDの種類は、指示データに限定されない。例えば、利用者による演奏で発音される音響の波形を表す音響データが、演奏データDとして演奏の解析に利用されてもよい。
(2)前述の各形態においては、処理期間Qの一部を解析期間qとして再生位置R[t]を特定したが、処理期間Qの全部を解析期間qとして特定部331が再生位置R[t]を特定してもよい。すなわち、時点t2と時点t3とは時間軸上で一致してもよく、処理期間Qと解析期間qとの区別は省略される。
(3)前述の各形態においては、観測尤度L[t,n]の確率分布における分散σ(Wb[n],O)を変動指標Wb[n]に応じて変化させたが、観測尤度L[t,n]の確率分布の分散を、変動指標Wb[n]に依存しない所定値に設定してもよい。同様に、前述の各形態においては、遷移確率τ[n1.n2]の確率分布における分散P0/Wb[n1]を変動指標Wb[n]に応じて変化させたが、遷移確率τ[n1,n2]の確率分布の分散を、変動指標Wb[n]に依存しない所定値に設定してもよい。
(4)再生位置R[t]の移動速度を所定の範囲内に制限してもよい。例えば、時点(t-1)と時点tとの間における再生位置R[t]の移動量が所定の上限値を上回る場合、特定部331は、当該上限値に対応する数値に再生位置R[t]を設定する。他方、時点(t-1)と時点tとの間における再生位置R[t]の移動量が所定の下限値を下回る場合、特定部331は、当該下限値に対応する数値に再生位置R[t]を設定する。以上の構成によれば、演奏位置P[t]と再生位置R[t]との過度な乖離を抑制できる。
(5)演奏位置P[t]と再生位置R[t]との差分が所定の閾値を上回る場合に、特定部331が再生位置R[t]を演奏位置P[t]に初期化(R[t]=P[t])してもよい。以上の構成によれば、再生位置R[t]と演奏位置P[t]との過度な乖離が抑制される。また、再生位置R[t]を演奏位置P[t]に初期化した時点から所定の期間内においては、再生位置R[t]を標準速度P0で変化させてもよい。すなわち、当該期間内においては再生位置R[t]に演奏位置P[t]を反映させなくてもよい。
(6)前述の各形態においては、記憶装置22に記憶された音響信号Xの解析により解析部31が指標W[n]を生成したが、音響信号Xに関する指標W[n]が事前に記憶装置22に記憶された形態では、解析部31は省略されてもよい。例えば、音響信号Xに関する指標W[n]が外部装置から信号処理システム20に提供される形態では、解析部31は省略される。
(7)前述の各形態における経路探索Sd2には、前述の各形態における例示の通り、種々の条件(以下「探索条件」という)が適用される。探索条件は、音響信号Xの特性に応じて設定される条件である。探索条件は、再生位置R[t]に関する拘束条件のほか、経路探索Sd2に適用される変数の数値を含む。拘束条件は、前述の例示の通り、例えば、解析期間qの時点t1の再生位置R[t1]を当該時点t1の演奏位置P[t1]に固定し、解析期間qの時点t2の再生位置R[t2]を当該時点t2の演奏位置P[t2]に固定する、という条件である。また、経路探索Sd2に適用される変数に関する探索条件としては、観測尤度L[t,n],遷移確率τ[n1,n2]および変動指標Wb[t]等の指標が例示される。すなわち、経路探索Sd2に適用される任意の変数が探索条件の概念に包含される。
(8)前述の各形態においては、取得部32が、利用者による目標楽曲の演奏位置P[t]を特定する形態を例示したが、再生位置R[t]の特定に利用される情報は演奏位置P[t]に限定されない。例えばマウスまたはタッチパネル等の操作装置に対する操作に応じて目標楽曲内で変化する位置を、演奏位置P[t]に代替してもよい。例えば、利用者が目標楽曲について指示および変更する位置が、演奏位置P[t]に置換される。以上の例示から理解される通り、再生位置R[t]の特定に利用される位置は、利用者の動作に応じて目標楽曲内において時間軸上で変化する位置(以下「指示位置」という)として包括的に表現される。前述の各形態における演奏位置P[t]と、操作装置に対する操作で利用者が指示する位置とは、指示位置の具体例である。なお、指示位置の指示のために利用者が使用する操作装置として、例えば、利用者による操作に応じて円盤状のターンテーブルが回転するDJコントローラが利用されてもよい。取得部32は、ターンテーブルの回転の角度に応じて指示位置を特定する。
(9)前述の各形態においては、目標楽曲の演奏音を表す音響信号Xを利用者による鍵盤楽器10の演奏に応じて伸縮したが、伸縮対象となる時系列信号は音響信号Xに限定されない。例えば、目標楽曲に関連する映像を表す映像信号を、利用者による演奏に応じて時間軸上で伸縮してもよい。映像信号は、例えば、目標楽曲の演奏に並行して表示されるべき動画等の映像を表す。
 映像信号を処理する形態において、取得部32による演奏位置P[t]の推定および特定部331による再生位置R[t]の特定は、前述の各形態と同様である。再生部332は、映像信号のうち再生位置R[t]に対応する部分を表示装置に表示させる。映像信号の解析により解析部31が算定する変動指標Wb[n]は、例えば、映像信号における映像特性の変動の度合を表す変数である。映像特性は、例えば画像の明度である。また、時間軸上で相前後する画像の変化を表す指標(動きベクトル)を、変動指標Wb[n]として解析部31が算定してもよい。
 以上の説明から理解される通り、信号処理システム20による処理対象となる信号は、目標楽曲に関する音響または映像を表す時系列信号(例えば音響信号Xまたは映像信号)として包括的に表現される。また、再生部332は、時系列信号のうち再生位置R[t]に対応する部分を再生装置に再生させる要素である。再生装置は、音響信号Xが表す音響を再生する放音装置23、または、映像信号が表す映像を表示する表示装置を包含する。
(10)例えばスマートフォンまたはタブレット端末等の情報装置と通信するサーバ装置により信号処理システム20が実現されてもよい。例えば、情報装置に接続された鍵盤楽器10が生成する演奏データDが、当該情報装置から信号処理システム20に送信される。信号処理システム20においては、前述の各形態と同様に、取得部32による演奏位置P[t]の推定と、特定部331による再生位置R[t]の特定とが実行される。再生部332は、音響信号Xのうち再生位置R[t]に対応する部分Yを情報装置に送信する。情報装置は、信号処理システム20から受信した部分Yを再生する放音装置23を具備する。以上の構成においても、前述の各形態と同様の効果が実現される。音響信号Xの部分Yを再生部332が情報装置に送信する動作は、当該部分を情報装置に再生させる動作として表現される。
(11)前述の各形態に係る信号処理システム20の機能は、前述の通り、制御装置21を構成する単数または複数のプロセッサと、記憶装置22に記憶されたプログラムとの協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記録媒体が、前述の非一過性の記録媒体に相当する。
D:付記
 以上に例示した形態から、例えば以下の構成が把握される。
 本開示のひとつの態様(態様1)に係る信号処理システムは、楽曲の再生に追従して時系列信号を再生装置に再生させる信号処理システムであって、前記楽曲の再生における利用者による指示位置を取得する取得部と、前記指示位置に応じて前記時系列信号の時間伸縮を実行する制御部とを具備する。以上の形態によれば、楽曲の再生における利用者による指示位置に応じて時系列信号が時間伸縮(タイムストレッチ)される。したがって、時系列信号の再生を利用者による指示に追従させることが可能である。
 「指示位置」は、楽曲内において利用者により指示された位置である。具体的には、利用者による動作に応じて楽曲内で変化する位置が「指示位置」として例示される。「指示位置」の典型例は、例えば楽曲内において利用者が演奏する時間軸上の位置(演奏位置)である。ただし、指示位置に反映される利用者の動作は「演奏」に限定されない。例えばマウスまたはタッチパネル等の操作装置に対する操作(「動作」の他例)に応じて「指示位置」が変化する形態も想定される。また、「指示位置」には、利用者が現時点で指示する位置のほか、利用者が今後に指示すると予測される位置も包含される。
 「時系列信号」は、再生対象となる時間領域の信号である。具体的には、「時系列信号」は、例えば音響または映像を表す時間領域の信号である。具体的には、楽曲の演奏音を表す音響信号、または楽曲の演奏に並行して表示されるべき映像を表す映像信号が、「時系列信号」の典型例である。したがって、「再生装置」は、例えば、音響信号が表す音響を放音する放音装置、または、映像信号が表す映像を表示する表示装置である。
 「音響信号」が表す演奏音は、演奏により楽器が発音する楽音のほか、歌唱者が発音する音声(歌唱音声)も包含する。音響信号が表す演奏音と利用者による演奏により発音される演奏音とは、共通の楽曲に対応するという関係にあるが、両者間の具体的な関係は任意である。例えば、音響信号が表す演奏音の演奏パートと利用者が演奏する演奏パートとの異同は不問である。すなわち、楽曲の複数の演奏パートのうち1以上の演奏パートを利用者が演奏する場合を想定すると、音響信号は、当該1以上の演奏パートの演奏音、または、当該1以上の演奏パート以外の1以上の演奏パートの演奏音を表す。
 態様1の具体例(態様2)において、前記時系列信号は、音響または映像を表す信号であり、前記取得部は、時間経過に従い複数の指示位置を取得し、前記制御部は、前記複数の指示位置のうち相異なる2以上の指示位置と、前記時系列信号の特性に応じた探索条件と、を適用した経路探索により前記時間伸縮を実行する。「探索条件」は、時系列信号の特性に応じて設定され、経路探索に適用される条件である。「探索条件」は、再生位置に関する拘束条件(例えば態様7)のほか、経路探索に適用される変数の数値(例えば態様8,10,11)を含む。
 態様1または態様2の具体例(態様3)において、前記楽曲の再生は、前記利用者による前記楽曲の演奏である。以上の態様によれば、時系列信号の再生を、利用者による楽曲の演奏に追従させることが可能である。
 「演奏」は、利用者が音楽を進行させる動作を意味し、楽器等の機器の操作により当該楽器を発音させる動作(狭義の演奏)のほか、利用者が楽曲を歌唱する動作も含む広義の概念である。利用者による演奏を解析することで指示位置(演奏位置)が特定される。「演奏の解析」は、例えば、利用者による演奏を表す演奏データを解析することで実現される。演奏データは、利用者による演奏の指示を表す指示データ(例えばMIDIデータ)、または、利用者による演奏で発音される音響の波形を表す音響データ(例えばサンプル系列)である。
 態様1の具体例(態様4)において、前記制御部は、前記時系列信号のうち前記指示位置に応じた再生位置を特定する特定部と、前記時系列信号のうち前記再生位置に対応する部分を再生装置に再生させることで前記時間伸縮を実行する再生部とを含む。以上の態様によれば、時系列信号のうち再生位置に対応する部分を再生装置に再生させることで、指示位置の変化に追従した時系列信号の時間伸縮が実現される。「再生位置」は、時系列信号における時間軸上の位置である。
 態様4の具体例(態様5)において、前記取得部は、時間軸上の複数の時点の各々について前記指示位置を順次に特定し、前記特定部は、時間軸上の複数の処理期間の各々において、前記複数の時点のうち当該処理期間内の2以上の時点についてそれぞれ特定された2以上の指示位置と、前記時系列信号の特性に応じた探索条件と、を適用した経路探索を実行することで、当該処理期間のうち少なくとも一部の期間内の相異なる時点に対応する2以上の再生位置の時系列を特定し、前記再生部は、前記時系列信号のうち前記2以上の再生位置の各々に対応する部分を、前記再生装置に再生させる。以上の態様によれば、2以上の再生位置の時系列を特定する経路探索が、時間軸上の処理期間毎に実行されるから、例えば指示位置の移動の速度が不規則に変動した場合でも、利用者からの指示に高精度に追従した再生位置を特定できる。
 態様5の具体例(態様6)において、前記処理期間は、前記複数の時点のうち第1時点と前記第1時点の後方に位置する第2時点との間の期間であり、前記処理期間のうち前記少なくとも一部の期間は、前記第1時点から、前記第1時点と前記第2時点との間の第3時点までの解析期間である。以上の態様によれば、第1時点から第3時点までの解析期間内における2以上の再生位置の時系列が、第1時点から第2時点までの処理期間内における指示位置の時系列に応じて推定される。したがって、処理期間内のうち終点の近傍の期間(例えば第3時点から第2時点までの期間)における指示位置の推定誤差の影響(ノイズ)を低減できる。すなわち、処理期間内の指示位置の時系列を利用して当該処理期間内の全体にわたる再生位置の時系列を特定する構成と比較して、再生位置を適切に特定できる。
 態様6の具体例(態様7)において、前記探索条件は、前記第1時点における前記再生位置を、当該第1時点における前記指示位置に固定し、前記第2時点における前記再生位置を、当該第2時点における前記指示位置に固定する条件を含む。以上の態様によれば、第1時点における再生位置が当該第1時点における指示位置に固定され、第2時点における再生位置が当該第2時点における指示位置に固定される。したがって、解析期間内において再生位置が指示位置から過度に乖離する可能性が低減される。
 態様5の具体例(態様8)において、前記探索条件は、前記複数の時点の各々における観測尤度を含み、前記観測尤度は、前記時系列信号を時間軸上で区分した複数の単位期間の各々が、当該時点における前記再生位置に該当する確度であり、前記観測尤度の確率分布は、前記指示位置に応じた平均により規定される。以上の態様においては、経路探索に適用される観測尤度の確率分布の平均が、指示位置に応じて設定される。したがって、解析期間内において再生位置が指示位置から過度に乖離する可能性が低減される。
 態様8の具体例(態様9)において、前記時系列信号は、前記楽曲の演奏音を表す音響信号であり、前記複数の時点のうち、前記指示位置が前記音響信号の発音点に対応する時点における前記観測尤度の確率分布は、第1分散により規定され、前記複数の時点のうち、前記指示位置が前記音響信号の発音点に対応しない時点における前記観測尤度の確率分布は、前記第1分散を上回る第2分散により規定される。以上の態様によれば、音響信号の発音点に対応する時点について再生位置の特定に利用される確率分布の分散(第1分散)が、発音点に対応しない時点について再生位置の特定に利用される確率分布の分散(第2分散)を下回る。したがって、発音点に該当する時点において、観測尤度は、指示位置に応じた数値の近傍にて局所的に高い数値となる。すなわち、発音点に該当する時点においては、再生位置が指示位置に近似または一致する可能性が、再生位置が指示位置から乖離する可能性と比較して高い。したがって、音響信号の再生を利用者による演奏に追従させ易いという利点がある。
 態様8または態様9の具体例(態様10)において、前記探索条件は、前記時系列信号における特性の変動の度合を表す変動指標を含み、前記観測尤度の確率分布の分散は、前記変動指標に応じて設定される。以上の態様によれば、観測尤度の確率分布に関する分散が、時系列信号の変動指標に応じて設定される。例えば、時系列信号のうち特性が不安定に変動する時点では分散が小さい数値に設定され、結果的に再生位置が指示位置に近似する。他方、時系列信号のうち特性の変動が小さい時点では分散が大きい数値に設定され、結果的に指示位置から乖離した再生位置の特定が許容される。すなわち、聴感的に自然な印象の再生音を再生できる。
 「変動指標」は、時系列信号における特性の変動の度合に応じた任意の指標である。特性の変動の度合とは、例えば、特性が変動する頻度または特性の変動量である。したがって、変動指標は、時系列信号における特性の安定性または不安定性の指標とも換言される。音響信号に関する変動指標は、例えば基本周波数または周波数特性(例えば振幅スペクトルまたはMFCC)等の音響特性の変動の度合を表す。映像信号に関する変動指標は、例えば明度等の映像特性の変動の度合を表す。
 特性の変動の度合が大きいほど(すなわち時間軸上で特性が不安定に変動するほど)、変動指標が大きい数値に設定される形態において、変動指標は、特性の変動し易さを表す指標と表現される。他方、特性の変動の度合が小さいほど(すなわち時間軸上で特性が安定的に維持されるほど)、変動指標が大きい数値に設定される形態において、変動指標は、特性の変動し難さを表す指標と表現される。
 態様4から態様10の何れかの具体例(態様11)において、前記探索条件は、前記時系列信号を時間軸上で区分した複数の単位期間のうち2個の単位期間の組合せ毎に設定され、前記再生位置が前記2個の単位期間の間で遷移する確度を表す遷移確率を含む。以上の態様によれば、時系列信号2おける2個の単位期間の組合せ毎の遷移確率を適用した経路探索により、再生位置の時系列を適切に特定できる。
 「2個の単位期間」は、時間軸上の相異なる2個の単位期間のほか、時間軸上の共通の単位期間も含む。2個の単位期間が相違する場合、遷移確率は、再生位置が時間軸上で移動する確率を意味する。他方、2個の単位期間が共通する場合、遷移確率は、再生位置が時間軸上の1個の単位期間に停留する確率を意味する。
 態様11の具体例(態様12)において、前記時系列信号は、前記楽曲の演奏音を表す音響信号であり、前記2個の単位期間の双方において前記音響信号が無音である場合における遷移確率(第1遷移確率)は、前記2個の単位期間の一方または双方において前記音響信号が有音である場合における遷移確率(第2遷移確率)を上回る。以上の態様によれば、音響信号のうち無音期間内における再生位置の遷移が、有音期間と無音期間との間における再生位置の遷移、または、有音期間内における再生位置の遷移と比較して発生し易い。したがって、有音期間内における再生位置の遷移が頻発する形態と比較して、聴感的に自然な印象の再生音を再生できる。
 態様12の具体例(態様13)において、前記2個の単位期間の一方または双方において前記音響信号が有音である場合における前記遷移確率の確率分布は、所定値に設定された平均と、前記音響信号における音響特性の変動の度合を表す変動指標に応じた分散とにより規定される。以上の態様においては、遷移確率の確率分布における分散が音響信号の変動指標に応じて設定される。例えば、音響信号のうち音響特性が安定的に維持される期間においては、遷移確率の確率分布における分散が大きい数値に設定され、結果的に再生位置の移動速度が所定値から乖離することが許容される。他方、音響信号のうち音響特性が不安定に変動する期間内においては、遷移確率の確率分布における分散が小さい数値に設定され、結果的に再生位置の移動速度が所定値に近付く。すなわち、音響信号の音響特性が安定的に維持される期間は時間軸上で伸縮され易く、音響特性が不安定に変動する期間は伸縮され難い。したがって、聴感的に自然な印象の再生音を再生できる。
 態様11から態様13の何れかの具体例(態様14)において、前記音響信号を複数の発音点により時間軸上で区分した複数の発音間期間のうち第1発音間期間の最後の時点に前記再生位置が停留する遷移確率は、当該最後の時点から、前記第1発音間期間の直後の第2発音間期間内の時点に、前記再生位置が遷移する遷移確率を上回る。以上の態様においては、発音点を跨ぐ再生位置の遷移が抑制されるから、1個の発音点に対応する音響成分が反復的に再生される可能性が低減される。すなわち、聴感的に自然な印象の再生音を生成できる。
 態様4から態様14の何れかの具体例(態様15)において、前記指示位置は、前記利用者による前記楽曲の演奏を前記取得部が解析することで推定される演奏位置である。以上の態様によれば、利用者による楽曲の演奏位置が指示位置として特定される。したがって、再生装置による時系列信号の再生を、利用者による楽曲の演奏に追従させることが可能である。
 態様15の具体例(態様16)において、前記再生部は、前記演奏における第1時点において第1操作が発生し、前記第1時点の経過後の第2時点において第2操作が発生した場合に、前記第1操作の強度を前記第1時点から前記第2時点まで経時的に減少させた第1強度と、前記第2操作の第2強度とのうち何れか大きい方(すなわち最大値)を、前記第2時点における操作強度として選択し、前記操作強度に応じて前記時系列信号の再生音の音量を制御する。以上の態様においては、第1操作の強度を第2時点まで経時的に減少させた第1強度と、第2時点における第2操作の第2強度とを含む複数の強度の最大値(制御値)に応じて音響信号の再生音の音量が制御される。したがって、例えば第2強度が第1強度と比較して充分に小さい場合でも、第1強度を第2時点まで経時的に減少させた第1強度が充分に大きい場合には、再生音の音量は充分に維持される。したがって、操作毎の強度に応じて再生音の音量を制御する構成と比較して、利用者の演奏に対して適切に再生音の音量を制御できる。
 本開示のひとつの態様(態様17)に係る信号処理方法は、楽曲の再生に追従して時系列信号を再生装置に再生させる方法であって、前記楽曲の再生における利用者による指示位置を取得し、前記指示位置に応じて前記時系列信号の時間伸縮を実行する。
 態様17の具体例(態様18)において、前記時系列信号は、音響または映像を表す信号であり、前記指示位置の取得においては、時間経過に従い複数の指示位置を取得し、前記時間伸縮においては、前記複数の指示位置のうち相異なる2以上の指示位置と、前記時系列信号の特性に応じた探索条件と、を適用した経路探索により、前記時間伸縮を実行する。楽曲の再生は、例えば利用者による前記楽曲の演奏である。
 本開示のひとつの態様(態様20)に係るプログラムは、楽曲の再生に追従して時系列信号を再生装置に再生させるためのプログラムであって、前記楽曲の再生における利用者による指示位置を取得する取得部、および、前記指示位置に応じて前記時系列信号の時間伸縮を実行する制御部、としてコンピュータを機能させる。
100…演奏システム、10…鍵盤楽器、20…信号処理システム、21…制御装置、22…記憶装置、23…放音装置、31…解析部、32…取得部、33…制御部、331…特定部、332…再生部。

Claims (20)

  1.  楽曲の再生に追従して時系列信号を再生装置に再生させる信号処理システムであって、
     前記楽曲の再生における利用者による指示位置を取得する取得部と、
     前記指示位置に応じて前記時系列信号の時間伸縮を実行する制御部と
     を具備する信号処理システム。
  2.  前記時系列信号は、音響または映像を表す信号であり、
     前記取得部は、時間経過に従い複数の指示位置を取得し、
     前記制御部は、前記複数の指示位置のうち相異なる2以上の指示位置と、前記時系列信号の特性に応じた探索条件と、を適用した経路探索により前記時間伸縮を実行する
     請求項1の信号処理システム。
  3.  前記楽曲の再生は、前記利用者による前記楽曲の演奏である
     請求項1または請求項2の信号処理システム。
  4.  前記制御部は、
     前記時系列信号のうち前記指示位置に応じた再生位置を特定する特定部と、
     前記時系列信号のうち前記再生位置に対応する部分を再生装置に再生させることで前記時間伸縮を実行する再生部とを含む
     請求項1の信号処理システム。
  5.  前記取得部は、時間軸上の複数の時点の各々について前記指示位置を順次に特定し、
     前記特定部は、時間軸上の複数の処理期間の各々において、前記複数の時点のうち当該処理期間内の2以上の時点についてそれぞれ特定された2以上の指示位置と、前記時系列信号の特性に応じた探索条件と、を適用した経路探索を実行することで、当該処理期間のうち少なくとも一部の期間内の相異なる時点に対応する2以上の再生位置の時系列を特定し、
     前記再生部は、前記時系列信号のうち前記2以上の再生位置の各々に対応する部分を、前記再生装置に再生させる
     請求項4の信号処理システム。
  6.  前記処理期間は、前記複数の時点のうち第1時点と前記第1時点の後方に位置する第2時点との間の期間であり、
     前記処理期間のうち前記少なくとも一部の期間は、前記第1時点から、前記第1時点と前記第2時点との間の第3時点までの解析期間である
     請求項5の信号処理システム。
  7.  前記探索条件は、前記第1時点における前記再生位置を、当該第1時点における前記指示位置に固定し、前記第2時点における前記再生位置を、当該第2時点における前記指示位置に固定する条件を含む
     請求項6の信号処理システム。
  8.  前記探索条件は、前記複数の時点の各々における観測尤度を含み、
     前記観測尤度は、前記時系列信号を時間軸上で区分した複数の単位期間の各々が、当該時点における前記再生位置に該当する確度であり、
     前記観測尤度の確率分布は、前記指示位置に応じた平均により規定される
     請求項5の信号処理システム。
  9.  前記時系列信号は、前記楽曲の演奏音を表す音響信号であり、
     前記複数の時点のうち、前記指示位置が前記音響信号の発音点に対応する時点における前記観測尤度の確率分布は、第1分散により規定され、
     前記複数の時点のうち、前記指示位置が前記音響信号の発音点に対応しない時点における前記観測尤度の確率分布は、前記第1分散を上回る第2分散により規定される
     請求項8の信号処理システム。
  10.  前記探索条件は、前記時系列信号における特性の変動の度合を表す変動指標を含み、
     前記観測尤度の確率分布の分散は、前記変動指標に応じて設定される
     請求項8または請求項9の信号処理システム。
  11.  前記探索条件は、前記時系列信号を時間軸上で区分した複数の単位期間のうち2個の単位期間の組合せ毎に設定され、前記再生位置が前記2個の単位期間の間で遷移する確度を表す遷移確率を含む
     請求項5から請求項10の何れかの信号処理システム。
  12.  前記時系列信号は、前記楽曲の演奏音を表す音響信号であり、
     前記2個の単位期間の双方において前記音響信号が無音である場合における遷移確率は、前記2個の単位期間の一方または双方において前記音響信号が有音である場合における遷移確率を上回る
     請求項11の信号処理システム。
  13.  前記2個の単位期間の一方または双方において前記音響信号が有音である場合における前記遷移確率の確率分布は、所定値に設定された平均と、前記音響信号における音響特性の変動の度合を表す変動指標に応じた分散とにより規定される
     請求項12の信号処理システム。
  14.  前記音響信号を複数の発音点により時間軸上で区分した複数の発音間期間のうち第1発音間期間の最後の時点に前記再生位置が停留する遷移確率は、当該最後の時点から、前記第1発音間期間の直後の第2発音間期間内の時点に、前記再生位置が遷移する遷移確率を上回る
     請求項11から請求項13の何れかの信号処理システム。
  15.  前記指示位置は、前記利用者による前記楽曲の演奏を前記取得部が解析することで推定される演奏位置である
     請求項4から請求項14の何れかの信号処理システム。
  16.  前記再生部は、
     前記演奏における第1時点において第1操作が発生し、前記第1時点の経過後の第2時点において第2操作が発生した場合に、前記第1操作の強度を前記第1時点から前記第2時点まで経時的に減少させた第1強度と、前記第2操作の第2強度とのうち何れか大きい方を、前記第2時点における操作強度として選択し、
     前記操作強度に応じて前記時系列信号の再生音の音量を制御する
     請求項15の信号処理システム。
  17.  楽曲の再生に追従して時系列信号を再生装置に再生させる方法であって、
     前記楽曲の再生における利用者による指示位置を取得し、
     前記指示位置に応じて前記時系列信号の時間伸縮を実行する
     コンピュータにより実現される信号処理方法。
  18.  前記時系列信号は、音響または映像を表す信号であり、
     前記指示位置の取得においては、時間経過に従い複数の指示位置を取得し、
     前記時間伸縮においては、前記複数の指示位置のうち相異なる2以上の指示位置と、前記時系列信号の特性に応じた探索条件と、を適用した経路探索により、前記時間伸縮を実行する
     請求項17の信号処理方法。
  19.  前記楽曲の再生は、前記利用者による前記楽曲の演奏である
     請求項17または請求項18の信号処理方法。
  20.  楽曲の再生に追従して時系列信号を再生装置に再生させるためのプログラムであって、
     前記楽曲の再生における利用者による指示位置を取得する取得部、および、
     前記指示位置に応じて前記時系列信号の時間伸縮を実行する制御部、
     としてコンピュータを機能させるプログラム。
PCT/JP2021/023831 2021-03-09 2021-06-23 信号処理システム、信号処理方法およびプログラム WO2022190403A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2023505085A JPWO2022190403A1 (ja) 2021-03-09 2021-06-23
CN202180095321.2A CN116940979A (zh) 2021-03-09 2021-06-23 信号处理系统、信号处理方法及程序
US18/463,059 US20230419929A1 (en) 2021-03-09 2023-09-07 Signal processing system, signal processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202163158368P 2021-03-09 2021-03-09
US63/158,368 2021-03-09

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/463,059 Continuation US20230419929A1 (en) 2021-03-09 2023-09-07 Signal processing system, signal processing method, and program

Publications (1)

Publication Number Publication Date
WO2022190403A1 true WO2022190403A1 (ja) 2022-09-15

Family

ID=83227744

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/023831 WO2022190403A1 (ja) 2021-03-09 2021-06-23 信号処理システム、信号処理方法およびプログラム

Country Status (4)

Country Link
US (1) US20230419929A1 (ja)
JP (1) JPWO2022190403A1 (ja)
CN (1) CN116940979A (ja)
WO (1) WO2022190403A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009014923A (ja) * 2007-07-03 2009-01-22 Yamaha Corp 演奏クロック生成装置、データ再生装置、演奏クロック生成方法、データ再生方法およびプログラム
WO2018016582A1 (ja) * 2016-07-22 2018-01-25 ヤマハ株式会社 演奏解析方法、自動演奏方法および自動演奏システム
JP2019056871A (ja) * 2017-09-22 2019-04-11 ヤマハ株式会社 再生制御方法および再生制御装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009014923A (ja) * 2007-07-03 2009-01-22 Yamaha Corp 演奏クロック生成装置、データ再生装置、演奏クロック生成方法、データ再生方法およびプログラム
WO2018016582A1 (ja) * 2016-07-22 2018-01-25 ヤマハ株式会社 演奏解析方法、自動演奏方法および自動演奏システム
JP2019056871A (ja) * 2017-09-22 2019-04-11 ヤマハ株式会社 再生制御方法および再生制御装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NAKAMURA, EITA ET AL.: "Score Following Handling Performances with Arbitrary Repeats and Skips and Automatic Accompaniment", TRANSACTIONS OF THE INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 54, no. 4, 15 April 2013 (2013-04-15) *

Also Published As

Publication number Publication date
CN116940979A (zh) 2023-10-24
JPWO2022190403A1 (ja) 2022-09-15
US20230419929A1 (en) 2023-12-28

Similar Documents

Publication Publication Date Title
JP6547878B1 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
JP6610715B1 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
JP6610714B1 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
JP4124247B2 (ja) 楽曲練習支援装置、制御方法及びプログラム
US7825321B2 (en) Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
JP5143569B2 (ja) 音響的特徴の同期化された修正のための方法及び装置
JP6561499B2 (ja) 音声合成装置および音声合成方法
CN111837184A (zh) 声音处理方法、声音处理装置及程序
CN114446266A (zh) 音响处理系统、音响处理方法及程序
JP6737320B2 (ja) 音響処理方法、音響処理システムおよびプログラム
WO2022190403A1 (ja) 信号処理システム、信号処理方法およびプログラム
JP7139628B2 (ja) 音処理方法および音処理装置
WO2021192963A1 (ja) 音信号生成方法、推定モデル訓練方法、音信号生成システム、およびプログラム
JP6835182B2 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
JP6801766B2 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
JP6819732B2 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
WO2023171497A1 (ja) 音響生成方法、音響生成システムおよびプログラム
JP7200483B2 (ja) 音声処理方法、音声処理装置およびプログラム
WO2023171522A1 (ja) 音響生成方法、音響生成システムおよびプログラム
JP7106897B2 (ja) 音声処理方法、音声処理装置およびプログラム
WO2019172396A1 (ja) 音声処理方法、音声処理装置および記録媒体
JP5262908B2 (ja) 歌詞表示装置,プログラム
JP2022027381A (ja) 再生制御方法および再生制御システム
CN116670751A (zh) 音响处理方法、音响处理系统、电子乐器及程序
CN115699161A (zh) 音响处理方法、音响处理系统及程序

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21930253

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023505085

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 202180095321.2

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21930253

Country of ref document: EP

Kind code of ref document: A1