WO2019182074A1 - 信号処理方法および信号処理装置 - Google Patents

信号処理方法および信号処理装置 Download PDF

Info

Publication number
WO2019182074A1
WO2019182074A1 PCT/JP2019/011932 JP2019011932W WO2019182074A1 WO 2019182074 A1 WO2019182074 A1 WO 2019182074A1 JP 2019011932 W JP2019011932 W JP 2019011932W WO 2019182074 A1 WO2019182074 A1 WO 2019182074A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
signal processing
processing
acoustic signal
content
Prior art date
Application number
PCT/JP2019/011932
Other languages
English (en)
French (fr)
Inventor
佳孝 浦谷
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2019182074A1 publication Critical patent/WO2019182074A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof

Definitions

  • This disclosure relates to a technique for analyzing temporal correspondence between a plurality of signals.
  • Patent Document 1 discloses a technique for analyzing a time difference between a plurality of pieces of speech encoded information by comparing signal value patterns. The plurality of pieces of speech encoded information are compared with each other after components whose signal values are outside a predetermined range are extracted.
  • an information processing method performs signal processing for reducing the amplitude of a signal on a first signal, and the first signal after the execution of the signal processing By comparing the second signal, the temporal correspondence between the first signal and the second signal is specified.
  • An information processing apparatus includes a signal processing unit that performs signal processing for reducing the amplitude of a signal on a first signal, a first signal after execution of the signal processing, and a second signal And an analysis processing unit that identifies temporal correspondence between the first signal and the second signal.
  • FIG. 1 is a block diagram illustrating the configuration of an information processing apparatus 100 according to an aspect of the present disclosure.
  • the information processing apparatus 100 (an example of a signal processing apparatus) is a computer system that reproduces various contents including video and sound.
  • the information processing apparatus 100 includes a control device 11, a storage device 12, and a playback device 13.
  • various information terminals such as a mobile phone, a smartphone, a tablet terminal, or a personal computer are used as the information processing apparatus 100.
  • the control device 11 is a processing circuit such as a CPU (Central Processing Unit), and controls each element of the information processing device 100.
  • the control device 11 includes one or more processing circuits.
  • the storage device 12 is a memory that stores a program executed by the control device 11 and various data used by the control device 11.
  • the storage device 12 is a known recording medium such as a magnetic recording medium or a semiconductor recording medium, or a combination of a plurality of types of recording media. Note that a storage device 12 (for example, a cloud storage) separate from the information processing device 100 may be prepared, and the control device 11 may execute writing and reading with respect to the storage device 12 via a communication network. That is, the storage device 12 may be omitted from the information processing device 100.
  • Storage device 12 stores content X1 and content X2.
  • the content X1 and the content X2 are, for example, video works that record a common subject at different positions and angles of view in the acoustic space.
  • content X1 and content X2 received from another device via the communication network are stored in the storage device 12.
  • the information processing apparatus 100 may receive the content X1 and the content X2 recorded by the recording device including the imaging device and the sound collection device.
  • Content X1 is expressed by video signal V1 and audio signal A1
  • content X2 is expressed by video signal V2 and audio signal A2.
  • each acoustic signal An is a signal representing an acoustic waveform collected by the sound collection device.
  • the acoustic signal An is represented by a time series of signal values representing the sound pressure level (intensity).
  • the format of the video signal Vn and the audio signal An is arbitrary. The period in which the recording is performed overlaps between the content X1 and the content X2. Therefore, as illustrated in FIG.
  • the acoustic signal A1 and the acoustic signal A2 include a common acoustic component.
  • the recording start time differs between the content X1 and the content X2
  • the phase differs between the acoustic signal A1 and the acoustic signal A2.
  • the control device 11 generates the content Y by synthesizing the content X1 and the content X2.
  • the content Y is expressed by a video signal Vy and an audio signal Ay.
  • the video signal Vy is an image in which an image represented by the video signal V1 of the content X1 and an image represented by the video signal V2 of the content X2 are juxtaposed.
  • the acoustic signal Ay is generated by mixing the acoustic signal A1 and the acoustic signal A2. Note that one of the acoustic signal A1 and the acoustic signal A2 may be used as the acoustic signal Ay.
  • the playback device 13 plays back the content Y generated by the control device 11.
  • the playback device 13 includes a display device 131 and a sound emitting device 132.
  • the display device 131 is configured by a liquid crystal display panel, for example, and displays an image represented by the video signal Vy of the content Y.
  • the sound emitting device 132 is, for example, a speaker or a headphone, and emits sound represented by the sound signal Ay of the content Y.
  • FIG. 4 is a block diagram illustrating a functional configuration of the information processing apparatus 100.
  • the control device 11 executes a program stored in the storage device 12 to generate a plurality of functions (a signal analysis unit 20, a synthesis processing unit 30, and a reproduction control unit) for generating the content Y from the content X1 and the content X2. 40) is realized.
  • the function of the control device 11 may be realized by a set (that is, a system) of a plurality of devices configured separately from each other, or part or all of the function of the control device 11 is realized by a dedicated electronic circuit. May be.
  • the signal analysis unit 20 analyzes the temporal correspondence between the acoustic signal A1 (example of the first signal) and the acoustic signal A2 (example of the second signal). Specifically, the time difference T between the acoustic signal A1 and the acoustic signal A2 is specified. As illustrated in FIG. 2, the time difference T is the time when a specific sound is generated in the sound signal A 1 when the sound signal A 1 and the sound signal A 2 are arranged so that the start points are common on the time axis. This is the time difference (ie, phase difference) from the point in time when the sound is produced in the sound signal A2.
  • the difference between the start time of recording of the acoustic signal A1 and the start time of recording of the acoustic signal A2 may be expressed as a time difference T.
  • the composition processing unit 30 synthesizes the content X1 and the content X2 while being synchronized with each other.
  • Content Y is generated by combining the content X1 and the content X2 by the composition processing unit 30.
  • the synchronization between the content X1 and the content X2 means a state in which a specific sound or image is reproduced at the same time on the time axis for the content X1 and the content X2.
  • the composition processing unit 30 synchronizes the content X1 and the content X2 by moving one of the content X1 and the content X2 on the time axis with respect to the other by the time difference T analyzed by the signal analysis unit 20.
  • the synthesis processing unit 30 generates the video signal Vy of the content Y by synthesizing the video signal V1 and the video signal V2 in a state of being synchronized with each other. Further, the synthesis processing unit 30 generates the acoustic signal Ay of the content Y by synthesizing the acoustic signal A1 and the acoustic signal A2 in a state of being synchronized with each other. As illustrated in FIG. 3, a video work (that is, a multi-angle moving image) in which a common subject is recorded at different positions and angles of view is generated as the content Y.
  • a video work that is, a multi-angle moving image
  • one of the acoustic signal A1 and the acoustic signal A2 is selected as the acoustic signal Ay
  • one of the acoustic signal A1 and the acoustic signal A2 synchronized with each other according to the analysis result by the signal analysis unit 20 is acoustic. Selected as signal Ay.
  • the reproduction control unit 40 causes the reproduction device 13 to reproduce the content Y generated by the synthesis processing unit 30. That is, the playback control unit 40 supplies the video signal Vy to the display device 131 to display the image of the content Y on the display device 131, and supplies the sound signal Ay to the sound emitting device 132 to generate the sound of the content Y.
  • the sound emitting device 132 emits sound.
  • the signal analysis unit 20 includes a signal processing unit 21 and an analysis processing unit 22.
  • the signal processing unit 21 generates an acoustic signal B1 by signal processing on the acoustic signal A1, and generates an acoustic signal B2 by similar signal processing on the acoustic signal A2.
  • the signal processing executed by the signal processing unit 21 is a process of reducing the amplitude (signal value difference) in the acoustic signal An.
  • the signal processing of this embodiment is a limiting process that limits the amplitude range of the acoustic signal An.
  • FIG. 5 is an explanatory diagram of the restriction process.
  • the restriction process is a process (that is, a limiter) for restricting the range of the signal value of the acoustic signal An to the range R. That is, the amplitude of the acoustic signal An is reduced to the range R by the limiting process.
  • the upper limit value rH of the range R is lower than the maximum value that the signal value of the acoustic signal An can take, and the lower limit value rL of the range R is higher than the minimum value that the signal value of the acoustic signal An can take.
  • the signal processing unit 21 changes the signal value exceeding the upper limit value rH in the acoustic signal An to the upper limit value rH (that is, clipping), and changes the signal value below the lower limit value rL to the lower limit value rL. That is, the portion outside the range R in the acoustic signal An is deleted. On the other hand, the signal value within the range R is not changed in the acoustic signal An. Therefore, as a result of the limiting process, the amplitude of the section of the acoustic signal An having a large amplitude is limited, and the section having a small amplitude is maintained. That is, the signal processing unit 21 emphasizes the acoustic signal An with a degree that differs depending on the signal value.
  • the signal processing by the signal processing unit 21 is a process of emphasizing a component having a small amplitude relative to a component having a large amplitude in the acoustic signal An. That is, the signal processing unit 21 generates the acoustic signal B1 by emphasizing a component having a small amplitude in the acoustic signal A1, and generates the acoustic signal B2 by enhancing a component having a small amplitude in the acoustic signal A2.
  • the range R in the present embodiment is a range of positive and negative symmetry as understood from FIG. That is, the midpoint between the upper limit value rH and the lower limit value rL of the range R corresponds to zero of the signal value. It may be expressed that the absolute value matches between the upper limit value rH and the lower limit value rL. However, the range R may be a positive / negative asymmetric range.
  • the analysis processing unit 22 compares the acoustic signal B1 after the execution of the signal processing described above with the acoustic signal B2 after the execution of the signal processing, so that the temporal analysis of the acoustic signal B1 and the acoustic signal B2 is performed.
  • the correspondence ie time difference T
  • the analysis processing unit 22 calculates the time difference T by evaluating the similarity of the waveform between the acoustic signal B1 and the acoustic signal B2.
  • a cross-correlation is suitable as an index of the similarity of the waveform between the acoustic signal B1 and the acoustic signal B2.
  • the analysis processing unit 22 sequentially calculates the cross-correlation while changing the time difference ⁇ between the acoustic signal B1 and the acoustic signal B2, and when the cross-correlation becomes the maximum value (that is, when the similarity of waveforms is the maximum).
  • the time difference ⁇ between the acoustic signal B1 and the acoustic signal B2 is specified as the time difference T.
  • FIG. 6 is a flowchart illustrating a specific procedure of processing in which the control device 11 generates the content Y.
  • the process in FIG. 6 is started in response to an instruction from the user.
  • the signal processing unit 21 When the processing of FIG. 6 is started, the signal processing unit 21 generates an acoustic signal B1 by signal processing on the acoustic signal A1, and generates an acoustic signal B2 by signal processing on the acoustic signal A2 (S1).
  • the signal processing includes a limiting process for reducing the amplitude of each acoustic signal An to the range R.
  • the analysis processing unit 22 analyzes the time difference T between the two by comparing the acoustic signal B1 and the acoustic signal B2 after the signal processing (S2).
  • the composition processing unit 30 synchronizes both the content X1 and the content X2 by moving the content X1 and the content X2 on the time axis by the time difference T analyzed by the analysis processing unit 22 (S3).
  • the composition processing unit 30 generates the content Y by combining the content X1 and the content X2 that are in synchronization with each other (S4).
  • the reproduction control unit 40 causes the reproduction device 13 to reproduce the content Y synthesized by the synthesis processing unit 30 (S5).
  • signal processing for reducing the amplitude of the signal is performed on each acoustic signal An.
  • a portion having a relatively small signal value in each acoustic signal An is reflected in the comparison between the two. Therefore, as illustrated below, it is possible to specify the temporal correspondence between the acoustic signal A1 and the acoustic signal A2 with high accuracy.
  • the proportionality is a configuration for calculating the cross-correlation between the acoustic signal A1 and the acoustic signal A2.
  • the portion of each acoustic signal An having a large amplitude contributes predominantly to the cross-correlation, and the portion of the acoustic signal An having a small amplitude contributes sufficiently.
  • a portion having a small amplitude in each acoustic signal An may be important. For example, assume a scene in which a low volume conversation sound is continuously generated in an environment in which a high volume sound effect is generated periodically.
  • an effect sound having a large volume contributes predominantly to the cross-correlation, so that an error corresponding to an integral multiple of the sound effect generation period may occur in the time difference T.
  • the degree to which the conversational sound contributes to the cross-correlation relatively increases. Therefore, it is possible to specify the time difference T with high accuracy in consideration of the conversational sound with a small volume. Is possible.
  • the present disclosure also has an advantage that the temporal correspondence between the acoustic signal A1 and the acoustic signal A2 can be specified with high accuracy by a simple restriction process that restricts the range of the signal value.
  • the phase of the acoustic signal An may change before and after the signal processing.
  • the signal value is limited to the range R in which the signal value is symmetrical, the change in the phase of each acoustic signal An caused by the signal processing is suppressed. Therefore, the above-described effect that the temporal correspondence between the acoustic signal A1 and the acoustic signal A2 can be specified with high accuracy is particularly remarkable.
  • the specific content of the signal processing for reducing the amplitude (signal value difference) of the acoustic signal An is not limited to the above-described restriction processing.
  • the signal processing unit 21 may execute signal processing for amplifying the sound signal An to such an extent that a clip is generated in each sound signal An.
  • the amplitude of the acoustic signal An may be limited within the range R by deleting a part of the bit string representing the signal value of the acoustic signal An (that is, lowering the bit).
  • the smoothing of the acoustic signal An is, for example, a process of calculating a time-series moving average or root mean square (RMS) of the signal value.
  • RMS root mean square
  • the amplitude of the signal may be reduced by signal processing that lengthens the sound rise time (attack time).
  • the signal processing unit 21 may execute signal processing for extracting a time series of signal values within a predetermined range R among a plurality of signal values constituting the acoustic signal An. That is, signal values outside the range R are ignored.
  • the signal processing for extracting the signal value within the range R is also included in the concept of the limiting processing, like the signal processing of the above-described form that limits the signal value within the range R.
  • K ranges R1 to RK is, for example, a positive / negative symmetric range, and the numerical value width is different for each range Rk.
  • the analysis processing unit 22 calculates the cross correlation by comparing the acoustic signal B1_k generated from the acoustic signal A1 with the acoustic signal B2_k generated from the acoustic signal A2.
  • K cross-correlations corresponding to different ranges Rk are calculated.
  • the analysis processing unit 22 analyzes, for example, the representative value (for example, the average value or the median value) of the time difference T specified from each of the K cross-correlations, and the analysis result of the temporal correspondence between the acoustic signal A1 and the acoustic signal A2. Confirm as
  • the signal processing executed by the signal processing unit 21 is comprehensively expressed as a process of reducing the amplitude of the acoustic signal An, and specifically, a component having a small amplitude relative to a component having a large amplitude in the acoustic signal An. This is a process to emphasize.
  • the signal processing is performed on the acoustic signal An representing the acoustic waveform (that is, the temporal change of the sound pressure level), but the signal (first signal or second signal) to be subjected to signal processing is It is not limited to illustration.
  • signal processing for reducing the amplitude of a signal may be performed on a signal representing a time series of feature amounts extracted from the sound of the content Xn.
  • the acoustic feature amount include pitch (basic frequency) or MFCC (Mel-Frequency Cepstrum Coefficients).
  • signal processing may be executed for components in a specific frequency band extracted from the acoustic signal An.
  • the signal to be subjected to signal processing is not limited to the signal related to the sound of each content Xn.
  • the temporal correspondence between the two lightness signals may be specified by performing signal processing on the lightness signal representing the time series of the lightness of the image.
  • the temporal correspondence between the two systems of intensity signals may be specified.
  • the present invention is applied to processing of an arbitrary signal expressed by a time series of signal values, and the specific meaning of the signal values is not questioned.
  • the signal processing is performed for both the acoustic signal A1 and the acoustic signal A2, the signal processing may be performed for only one of the acoustic signal A1 and the acoustic signal A2.
  • the signal processing is executed for both the acoustic signal A1 and the acoustic signal A2 not only the portion where the signal value is relatively small in the acoustic signal A1, but also the portion where the signal value is relatively small in the acoustic signal A2. Can also be reflected in the comparison by the analysis processing unit 22. Therefore, the effect that the temporal correspondence between the acoustic signal A1 and the acoustic signal A2 can be specified with high accuracy is particularly remarkable.
  • the temporal correspondence between the two systems of the acoustic signal A1 and the acoustic signal A2 is specified, the temporal correspondence may be specified between three or more systems of signals. For example, it is possible to analyze temporal correspondence for each combination of selecting two systems of signals from three or more systems by using the same method as that described above.
  • the acoustic signal A1 and the acoustic signal A2 contain a common acoustic component. Therefore, it is possible to specify the temporal correspondence between the content X1 and the content X2.
  • each content Xn is expressed by the video signal Vn and the audio signal An
  • one or both of the content X1 and the content X2 may be configured only by the audio signal An.
  • the signal analysis unit 20 analyzes temporal correspondence between the acoustic signal A1 and the acoustic signal A2, and the synthesis processing unit 30 synthesizes the acoustic signal A1 and the acoustic signal A2 in a synchronized state.
  • the content Y sound signal Ay
  • the video signal Vn of each content Xn may be replaced with another signal.
  • the function of the information processing apparatus 100 may be realized by a server device that communicates with a terminal device such as a mobile phone or a smartphone.
  • the information processing apparatus 100 specifies a temporal correspondence (specifically, a time difference T) between the acoustic signal A1 and the acoustic signal A2 received from the terminal apparatus, and transmits the identification result to the terminal apparatus. That is, the information processing apparatus 100 includes the signal analysis unit 20, and the synthesis processing unit 30 and the reproduction control unit 40 are mounted on the terminal device.
  • the signal analysis unit 20 and the synthesis processing unit 30 may be mounted on the information processing apparatus 100, and the content Y generated by the synthesis processing unit 30 may be transmitted to the terminal device.
  • the synthesis processing unit 30 and the reproduction control unit 40 may be omitted from the information processing apparatus 100.
  • the functions of the information processing apparatus 100 are realized by cooperation between a computer (for example, the control apparatus 11) and a program.
  • the program according to the above-described embodiment is provided in a form stored in a computer-readable recording medium and installed in the computer.
  • the recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but a known arbitrary one such as a semiconductor recording medium or a magnetic recording medium Including a recording medium of the form.
  • the non-transitory recording medium includes any recording medium except for a transient propagation signal (transitory, propagating signal), and does not exclude a volatile recording medium.
  • the program may be provided to the computer in the form of distribution via a communication network.
  • signal processing for reducing the amplitude of a signal is performed on the first signal, and the first signal after execution of the signal processing is compared with the second signal.
  • the temporal correspondence between the first signal and the second signal is specified.
  • the signal processing for reducing the amplitude of the signal is executed for the first signal compared with the second signal, the first signal is compared with the configuration in which the amplitude of the first signal is not reduced. A portion having a relatively small signal value is reflected in the comparison with the second signal. Therefore, it is possible to specify the temporal correspondence between the first signal and the second signal with high accuracy.
  • the signal processing may be performed on the second signal, and the first signal after execution of the signal processing may be compared with the second signal after execution of the signal processing.
  • the signal processing for reducing the amplitude of the signal is executed for both the first signal and the second signal. Therefore, not only a portion having a relatively small signal value in the first signal but also a portion having a relatively small signal value in the second signal can be reflected in the comparison between the first signal and the second signal. is there.
  • the signal processing may include a limiting process for limiting the amplitude range of the signal. According to the above aspect, it is possible to reduce the amplitude of the signal by a simple process that limits the amplitude range of the signal.
  • the limiting process may be a process of limiting the signal to a positive / negative symmetrical amplitude range.
  • the signal since the signal is limited to a positive / negative symmetrical amplitude range, a change in phase due to signal processing can be suppressed. Therefore, there is an advantage that the temporal correspondence between the first signal and the second signal can be specified with high accuracy.
  • the aspects of the present disclosure are also realized as an information processing apparatus that executes the information processing method of each aspect exemplified above or a program that causes a computer to execute the information processing method of each aspect exemplified above.
  • DESCRIPTION OF SYMBOLS 100 ... Information processing apparatus, 11 ... Control apparatus, 12 ... Memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Stereophonic System (AREA)
  • Television Signal Processing For Recording (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

信号間の時間的な対応を高精度に特定する。信号処理部(21)は、信号の振幅を減縮する信号処理を音響信号(A1)に対して実行する。解析処理部(22)は、信号処理の実行後の音響信号(B1)と、音響信号(B2)とを対比することで、音響信号(A1)と音響信号(A2)との時間的な対応を特定する。

Description

信号処理方法および信号処理装置
 本開示は、複数の信号の相互間における時間的な対応を解析するための技術に関する。
 複数の信号間における時間的な対応を解析するための技術が従来から提案されている。例えば特許文献1には、複数の音声符号化情報の間で信号値のパターンを比較することで、両者間の時間差を解析する技術が開示されている。複数の音声符号化情報は、信号値が所定の範囲の外側にある成分が抽出されたうえで相互に比較される。
日本国特開2009-10548号公報
 特許文献1の技術では、各音声符号化情報のうち振幅が大きい成分同士が比較される。しかし、信号間の時間的な対応を解析するうえで重要な成分の振幅が、相対的に小さい場合がある。したがって、特許文献1の技術のように振幅が大きい成分同士を比較する構成では、信号間の時間的な対応を高精度に特定できないという問題がある。以上の事情を考慮して、本開示は、信号間の時間的な対応を高精度に特定することを目的とする。
 以上の課題を解決するために、本開示の一態様に係る情報処理方法は、信号の振幅を減縮する信号処理を第1信号に対して実行し、前記信号処理の実行後の第1信号と、第2信号とを対比することで、前記第1信号と前記第2信号との時間的な対応を特定する。
 本開示の別の態様に係る情報処理装置は、信号の振幅を減縮する信号処理を第1信号に対して実行する信号処理部と、前記信号処理の実行後の第1信号と、第2信号とを対比することで、前記第1信号と前記第2信号との時間的な対応を特定する解析処理部とを具備する。
情報処理装置の構成を例示するブロック図である。 2系統の音響信号の時間的な関係の説明図である。 合成後のコンテンツの説明図である。 情報処理装置の機能的な構成を例示するブロック図である。 信号処理の説明図である。 情報処理装置の動作の具体的な手順を例示するフローチャートである。
 図1は、本開示の一態様に係る情報処理装置100の構成を例示するブロック図である。情報処理装置100(信号処理装置の例示)は、映像と音響とを含む各種のコンテンツを再生するコンピュータシステムである。情報処理装置100は、制御装置11と記憶装置12と再生装置13とを具備する。例えば携帯電話機、スマートフォン,タブレット端末またはパーソナルコンピュータ等の各種の情報端末が、情報処理装置100として利用される。
 制御装置11は、例えばCPU(Central Processing Unit)等の処理回路であり、情報処理装置100の各要素を制御する。制御装置11は、1個以上の処理回路を含んで構成される。記憶装置12は、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶するメモリである。記憶装置12は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せである。なお、情報処理装置100とは別体の記憶装置12(例えばクラウドストレージ)を用意し、制御装置11が通信網を介して記憶装置12に対する書込および読出を実行してもよい。すなわち、記憶装置12を情報処理装置100から省略してもよい。
 記憶装置12は、コンテンツX1およびコンテンツX2を記憶する。コンテンツX1およびコンテンツX2は、例えば音響空間内の相異なる位置および画角で共通の被写体を収録した映像作品である。例えば通信網を介して他装置から受信したコンテンツX1およびコンテンツX2が記憶装置12に格納される。なお、撮像装置および収音装置を含む収録装置が収録したコンテンツX1およびコンテンツX2を情報処理装置100が受信してもよい。
 コンテンツX1は映像信号V1と音響信号A1とで表現され、コンテンツX2は映像信号V2と音響信号A2とで表現される。各映像信号Vn(n=1,2)は、撮像装置により撮像された動画像を表す信号であり、各音響信号Anは、収音装置により収音された音響の波形を表す信号である。具体的には、音響信号Anは、音圧レベル(強度)を表す信号値の時系列で表現される。なお、映像信号Vnおよび音響信号Anの形式は任意である。収録が実施された期間はコンテンツX1とコンテンツX2とで重複する。したがって、図2に例示される通り、音響信号A1と音響信号A2とは共通の音響成分を含む。ただし、収録開始の時刻はコンテンツX1とコンテンツX2との間で相違するから、音響信号A1と音響信号A2との間で位相は相違する。
 制御装置11は、コンテンツX1とコンテンツX2とを合成することでコンテンツYを生成する。コンテンツYは、映像信号Vyと音響信号Ayとで表現される。映像信号Vyは、図3に例示される通り、コンテンツX1の映像信号V1が表す画像とコンテンツX2の映像信号V2が表す画像とが並置された画像である。音響信号Ayは、音響信号A1と音響信号A2とを混合することで生成される。なお、音響信号A1および音響信号A2の一方を音響信号Ayとして利用してもよい。
 再生装置13は、制御装置11が生成したコンテンツYを再生する。具体的には、再生装置13は、表示装置131と放音装置132とを具備する。表示装置131は、例えば液晶表示パネルで構成され、コンテンツYの映像信号Vyが表す画像を表示する。放音装置132は、例えばスピーカまたはヘッドホンであり、コンテンツYの音響信号Ayが表す音響を放音する。
 図4は、情報処理装置100の機能的な構成を例示するブロック図である。制御装置11は、記憶装置12に記憶されたプログラムを実行することで、コンテンツX1とコンテンツX2とからコンテンツYを生成するための複数の機能(信号解析部20、合成処理部30および再生制御部40)を実現する。なお、相互に別体で構成された複数の装置の集合(すなわちシステム)で制御装置11の機能を実現してもよいし、制御装置11の機能の一部または全部を専用の電子回路で実現してもよい。
 信号解析部20は、音響信号A1(第1信号の例示)と音響信号A2(第2信号の例示)との時間的な対応を解析する。具体的には、音響信号A1と音響信号A2との時間差Tを特定する。時間差Tは、図2に例示される通り、時間軸上で始点が共通するように音響信号A1と音響信号A2とを配置した場合に、音響信号A1のうち特定の音響が発音される時点と音響信号A2のうち当該音響が発音される時点との時間差(すなわち位相差)である。音響信号A1の収録の開始時刻と音響信号A2の収録の開始時刻と差異を時間差Tと表現してもよい。
 合成処理部30は、コンテンツX1とコンテンツX2とを相互に同期させた状態で合成する。合成処理部30によるコンテンツX1とコンテンツX2との合成によりコンテンツYが生成される。コンテンツX1とコンテンツX2との同期とは、特定の音響または画像が再生される時点がコンテンツX1とコンテンツX2とについて時間軸上で共通する状態を意味する。合成処理部30は、信号解析部20が解析した時間差TだけコンテンツX1およびコンテンツX2の一方を他方に対して時間軸上で移動させることでコンテンツX1とコンテンツX2とを同期させる。具体的には、合成処理部30は、映像信号V1と映像信号V2とを相互に同期させた状態で合成することでコンテンツYの映像信号Vyを生成する。また、合成処理部30は、音響信号A1と音響信号A2とを相互に同期させた状態で合成することでコンテンツYの音響信号Ayを生成する。図3に例示した通り、共通の被写体を相異なる位置および画角で収録した映像作品(すなわちマルチアングル動画)がコンテンツYとして生成される。なお、音響信号A1および音響信号A2の一方を音響信号Ayとして選択する前述の構成では、信号解析部20による解析の結果に応じて相互に同期された音響信号A1および音響信号A2の一方が音響信号Ayとして選択される。
 再生制御部40は、合成処理部30が生成したコンテンツYを再生装置13に再生させる。すなわち、再生制御部40は、映像信号Vyを表示装置131に供給することでコンテンツYの画像を表示装置131に表示させ、音響信号Ayを放音装置132に供給することでコンテンツYの音響を放音装置132に放音させる。
 信号解析部20は、信号処理部21と解析処理部22とを具備する。信号処理部21は、音響信号A1に対する信号処理で音響信号B1を生成し、音響信号A2に対する同様の信号処理で音響信号B2を生成する。信号処理部21が実行する信号処理は、音響信号Anにおける振幅(信号値の差異)を減縮する処理である。本実施形態の信号処理は、音響信号Anの信号の振幅範囲を制限する制限処理である。
 図5は、制限処理の説明図である。制限処理は、音響信号Anの信号値の値域を範囲Rに制限する処理(すなわちリミッタ)である。すなわち、音響信号Anの振幅が制限処理により範囲Rに減縮される。範囲Rの上限値rHは、音響信号Anの信号値がとり得る最大値を下回り、範囲Rの下限値rLは、音響信号Anの信号値がとり得る最小値を上回る。信号処理部21は、音響信号Anにおいて上限値rHを上回る信号値を上限値rHに変更し(すなわちクリップ)、下限値rLを下回る信号値を下限値rLに変更する。すなわち、音響信号Anのうち範囲Rの外側の部分が削除される。他方、音響信号Anにおいて範囲R内の信号値は変更されない。したがって、制限処理の結果、音響信号Anのうち振幅が大きい区間は振幅が制限され、振幅が小さい区間は維持される。すなわち、信号処理部21は、信号値に応じて相違する度合で音響信号Anを強調する。
 信号処理部21による信号処理は、音響信号Anのうち振幅が小さい成分を、振幅が大きい成分に対して相対的に強調する処理である。すなわち、信号処理部21は、音響信号A1のうち振幅が小さい成分を強調することで音響信号B1を生成し、音響信号A2のうち振幅が小さい成分を強調することで音響信号B2を生成する。
 本実施形態における範囲Rは、図5から理解される通り、正負対称の範囲である。すなわち、範囲Rの上限値rHと下限値rLとの中点が信号値のゼロに相当する。上限値rHと下限値rLとの間で絶対値が一致すると表現してもよい。ただし、範囲Rを正負非対称の範囲としてもよい。
 解析処理部22は、以上に説明した信号処理の実行後の音響信号B1と、当該信号処理の実行後の音響信号B2とを対比することで、音響信号B1と音響信号B2との時間的な対応(すなわち時間差T)を特定する。具体的には、解析処理部22は、音響信号B1と音響信号B2との波形の類似性を評価することで時間差Tを算定する。音響信号B1と音響信号B2との間における波形の類似性の指標としては相互相関が好適である。すなわち、解析処理部22は、音響信号B1と音響信号B2との時間差τを変化させながら相互相関を順次に算定し、相互相関が最大値となるとき(すなわち波形の類似性が最大であるとき)の音響信号B1と音響信号B2との時間差τを時間差Tとして特定する。
 図6は、制御装置11がコンテンツYを生成する処理の具体的な手順を例示するフローチャートである。例えば利用者からの指示を契機として図6の処理が開始される。図6の処理を開始すると、信号処理部21は、音響信号A1に対する信号処理で音響信号B1を生成し、音響信号A2に対する信号処理で音響信号B2を生成する(S1)。前述の通り、信号処理は、各音響信号Anの振幅を範囲Rに減縮する制限処理を含む。解析処理部22は、信号処理後の音響信号B1と音響信号B2とを対比することで、両者間の時間差Tを解析する(S2)。合成処理部30は、解析処理部22が解析した時間差TだけコンテンツX1およびコンテンツX2の一方を他方に対して時間軸上で移動させることにより両者を同期させる(S3)。合成処理部30は、相互に同期した状態のコンテンツX1とコンテンツX2とを合成することでコンテンツYを生成する(S4)。再生制御部40は、合成処理部30が合成したコンテンツYを再生装置13に再生させる(S5)。
 本開示では、信号の振幅を減縮する信号処理が各音響信号Anに対して実行される。以上の構成によれば、信号処理を実行しない構成(以下「対比例」という)と比較して、各音響信号Anにおいて信号値が相対的に小さい部分が両者間の対比に反映される。したがって、以下の例示の通り、音響信号A1と音響信号A2との間の時間的な対応を高精度に特定することが可能である。
 対比例は、音響信号A1と音響信号A2との間で相互相関を算定する構成である。対比例では、各音響信号Anのうち振幅が大きい部分が相互相関に対して支配的に寄与し、音響信号Anのうち振幅が小さい部分の寄与は充分に小さい。しかし、音響信号A1と音響信号A2とを同期させるうえで、各音響信号Anのうち振幅が小さい部分が重要となる場合がある。例えば、大音量の効果音が周期的に発生する環境のもとで小音量の会話音が継続的に発音される場面を想定する。対比例では、大音量の効果音が相互相関に対して支配的に寄与するから、効果音の発生周期の整数倍に相当する誤差が時間差Tに発生し得る。対比例とは対照的に、実施形態では、相互相関に対して会話音が寄与する度合が相対的に増大するから、小音量の会話音も加味して高精度に時間差Tを特定することが可能である。
 本開示では、信号値の値域を制限する簡便な制限処理により、音響信号A1と音響信号A2との間の時間的な対応を高精度に特定できるという利点もある。なお、各音響信号Anの信号値を正負非対称の範囲Rに制限する構成では、信号処理の前後で音響信号Anの位相が変化する可能性がある。本開示では、信号値が正負対称の範囲Rに制限されるから、信号処理に起因した各音響信号Anの位相の変化が抑制される。したがって、音響信号A1と音響信号A2との時間的な対応を高精度に特定できるという前述の効果は格別に顕著である。
<変形例>
 以下に変形例を示す。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)音響信号Anの振幅(信号値の差異)を減縮する信号処理の具体的な内容は、前述した制限処理に限定されない。例えば、各音響信号Anにクリップが発生する程度に当該音響信号Anを増幅する信号処理を、信号処理部21が実行してもよい。また、例えば、音響信号Anの信号値を表すビット列の一部を削除すること(すなわち低ビット化)で、音響信号Anの振幅を範囲R内に制限してもよい。
 音響信号Anを時間軸上で平滑化することで、当該音響信号Anの振幅を減縮することも可能である。音響信号Anの平滑化は、例えば信号値の時系列の移動平均または自乗平均平方根(RMS:Root Mean Square)を算定する処理である。また、所定の閾値を上回る信号値を当該信号値に応じた圧縮率で低減する圧縮処理(コンプレッサ)を音響信号Anに対する信号処理として採用してもよい。音響の立上りの時間(アタックタイム)を長くする信号処理により信号の振幅を減縮してもよい。
 音響信号Anを構成する複数の信号値のうち所定の範囲R内の信号値の時系列を抽出する信号処理を信号処理部21が実行してもよい。すなわち、範囲Rの外側の信号値は無視される。範囲R内の信号値を抽出する信号処理も、範囲R内に信号値を制限する前述の形態の信号処理と同様に、制限処理の概念に含まれる。
 相異なる複数(K個)の範囲R1~RKの各々について、当該範囲Rk(k=1~K)を適用した制限処理を実行してもよい。すなわち、相異なる範囲Rkに対応するK系統の音響信号Bn_1~Bn_Kが、音響信号A1および音響信号A2の各々から生成される。K個の範囲R1~RKの各々は、例えば正負対称の範囲であり、数値幅は範囲Rk毎に相違する。解析処理部22は、音響信号A1から生成された音響信号B1_kと音響信号A2から生成された音響信号B2_kとを対比することで相互相関を算定する。すなわち、相異なる範囲Rkに対応したK個の相互相関が算定される。解析処理部22は、例えば、K個の相互相関の各々から特定される時間差Tの代表値(例えば平均値または中央値)を、音響信号A1と音響信号A2との時間的な対応の解析結果として確定する。
 信号処理部21が実行する信号処理は、音響信号Anの振幅を減縮する処理として包括的に表現され、具体的には、音響信号Anのうち振幅が小さい成分を振幅が大きい成分に対して相対的に強調する処理である。
(2)音響の波形(すなわち音圧レベルの時間変化)を表す音響信号Anに対して信号処理を実行したが、信号処理の対象となる信号(第1信号または第2信号)は、以上の例示に限定されない。例えば、コンテンツXnの音響から抽出された特徴量の時系列を表す信号に対して、信号の振幅を減縮するための信号処理を実行してもよい。音響の特徴量としては、例えば音高(基本周波数)またはMFCC(Mel-Frequency Cepstrum Coefficients)が例示される。また、音響信号Anから抽出された特定の周波数帯域の成分について信号処理を実行してもよい。
 また、信号処理の対象となる信号は、各コンテンツXnの音響に関する信号に限定されない。例えば、画像の明度の時系列を表す明度信号に対して信号処理を実行することで、2系統の明度信号の相互間における時間的な対応を特定してもよい。また、例えば無線通信における電波の受信強度の時系列を表す強度信号に対して信号処理を実行することで、2系統の強度信号の相互間における時間的な対応を特定してもよい。信号値の時系列で表現される任意の信号の処理に本発明は適用され、信号値の具体的な意味は不問である。
(3)音響信号A1および音響信号A2の双方について信号処理を実行したが、音響信号A1および音響信号A2の一方のみについて信号処理を実行してもよい。ただし、音響信号A1および音響信号A2の双方について信号処理を実行する構成によれば、音響信号A1において信号値が相対的に小さい部分だけでなく、音響信号A2において信号値が相対的に小さい部分についても、解析処理部22による対比に反映させることが可能である。したがって、音響信号A1と音響信号A2との間の時間的な対応を高精度に特定できるという効果は格別に顕著である。
(4)音響信号A1および音響信号A2の2系統の間で時間的な対応を特定したが、3系統以上の信号の相互間で時間的な対応を特定してもよい。例えば、3系統以上の信号から2系統の信号を選択する各組合せについて、前述の形態と同様の方法で時間的な対応を解析することが可能である。
(5)コンテンツX1とコンテンツX2とで被写体が共通する場合を便宜的に例示したが、コンテンツX1とコンテンツX2との間で被写体が相違してもよい。ただし、音響信号A1と音響信号A2との対比によりコンテンツX1とコンテンツX2との時間的な対応を特定するためには、音響信号A1と音響信号A2との双方に、相互に類似または共通する音響成分が含まれる必要がある。例えば、特定の楽曲が再生される環境で被写体1がダンスする様子を収録したコンテンツX1と、当該楽曲が再生される環境で被写体2がダンスする様子を収録したコンテンツX2とについては、音響信号A1と音響信号A2とが共通の音響成分を含む。したがって、コンテンツX1とコンテンツX2との時間的な対応を特定することが可能である。
(6)映像信号Vnおよび音響信号Anで各コンテンツXnが表現される場合を例示したが、コンテンツX1およびコンテンツX2の一方または双方は、音響信号Anのみで構成されてもよい。例えば、信号解析部20は、音響信号A1と音響信号A2との時間的な対応を解析し、合成処理部30は、音響信号A1と音響信号A2とを相互に同期させた状態で合成することによりコンテンツY(音響信号Ay)を生成する。また、各コンテンツXnの映像信号Vnを他の信号に置換してもよい。
(7)携帯電話機またはスマートフォン等の端末装置との間で通信するサーバ装置により情報処理装置100の機能を実現してもよい。例えば、情報処理装置100は、端末装置から受信した音響信号A1および音響信号A2から両者間の時間的な対応(具体的には時間差T)を特定し、特定結果を端末装置に送信する。すなわち、情報処理装置100は信号解析部20を具備し、合成処理部30および再生制御部40は端末装置に搭載される。なお、信号解析部20および合成処理部30を情報処理装置100に搭載し、合成処理部30が生成したコンテンツYを端末装置に送信してもよい。以上に例示した通り、合成処理部30および再生制御部40を情報処理装置100から省略してもよい。
(8)情報処理装置100の機能は、コンピュータ(例えば制御装置11)とプログラムとの協働により実現される。前述の形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。
<付記>
 以上に例示した形態から、例えば以下の構成が把握される。
 本開示の第1態様に係る信号解析方法は、信号の振幅を減縮する信号処理を第1信号に対して実行し、前記信号処理の実行後の第1信号と、第2信号とを対比することで、前記第1信号と前記第2信号との時間的な対応を特定する。以上の態様では、第2信号と対比される第1信号について、信号の振幅を減縮する信号処理が実行されるから、第1信号の振幅が減縮されない構成と比較して、第1信号のうち信号値が相対的に小さい部分が第2信号との対比に反映される。したがって、第1信号と第2信号との間の時間的な対応を高精度に特定することが可能である。
 前記第2信号に対して前記信号処理を実行し、前記信号処理の実行後の第1信号と、前記信号処理の実行後の第2信号とを対比してもよい。以上の態様では、第1信号および第2信号の双方について、信号の振幅を減縮する信号処理が実行される。したがって、第1信号において信号値が相対的に小さい部分だけでなく、第2信号において信号値が相対的に小さい部分についても、第1信号と第2信号との対比に反映させることが可能である。
 前記信号処理は、前記信号の振幅範囲を制限する制限処理を含んでもよい。以上の態様によれば、信号の振幅範囲を制限する簡便な処理により信号の振幅を減縮することが可能である。
 前記制限処理は、前記信号を正負対称の振幅範囲に制限する処理であってもよい。以上の態様では、信号が正負対称の振幅範囲に制限されるから、信号処理に起因した位相の変化を抑制できる。したがって、第1信号と第2信号との時間的な対応を高精度に特定できるという利点がある。
 以上に例示した各態様の情報処理方法を実行する情報処理装置、または、以上に例示した各態様の情報処理方法をコンピュータに実行させるプログラムとしても、本開示の態様は実現される。
 本出願は、2018年3月20日付にて提出された日本国特許出願である特願2018-052815に基づくものであり、その内容はここに参照として取り込まれる。
100…情報処理装置、11…制御装置、12…記憶装置、13…再生装置、131…表示装置、132…放音装置、20…信号解析部、21…信号処理部、22…解析処理部、30…合成処理部、40…再生制御部、X1,X2,Y…コンテンツ、V1,V2…映像信号、A1,A2,B1,B2…音響信号。

Claims (20)

  1.  信号の振幅を減縮する信号処理を第1信号に対して実行し、
     前記信号処理の実行後の第1信号と、第2信号とを対比することで、前記第1信号と前記第2信号との時間的な対応を特定する
     コンピュータにより実現される信号処理方法。
  2.  前記第2信号に対して前記信号処理を実行し、
     前記信号処理の実行後の第1信号と、前記信号処理の実行後の第2信号とを対比する
     請求項1の信号処理方法。
  3.  前記信号処理は、前記信号の振幅範囲を制限する制限処理を含む
     請求項1または請求項2の信号処理方法。
  4.  前記制限処理は、前記信号を正負対称の振幅範囲に制限する処理である
     請求項3の信号処理方法。
  5.  前記信号処理は、前記信号の振幅の上限値を上回る信号値と、下限値を下回る信号値のうち少なくとも一方をクリップする処理を含む
     請求項1または請求項2の信号処理方法。
  6.  前記信号処理の実行後の第1信号と前記第2信号との相互相関を算定することで、当該第1信号と当該第2信号とを対比する
     請求項1から5のいずれかの信号処理方法。
  7.  特定された前記第1信号と前記第2信号との時間的な対応に基づき、前記第1信号に関連付けされた第3信号と前記第2信号に関連付けされた第4信号とを合成することで、合成信号を生成する
     請求項1から6のいずれかの信号処理方法。
  8.  前記合成信号を再生装置に再生させる
     請求項7の信号処理方法。
  9.  前記第3信号および前記第4信号は、映像信号である
     請求項7または8の信号処理方法。
  10.  前記第1信号および前記第2信号は、音響信号である
     請求項1から9のいずれかの信号処理方法。
  11.  信号の振幅を減縮する信号処理を第1信号に対して実行する信号処理部と、
     前記信号処理の実行後の第1信号と、第2信号とを対比することで、前記第1信号と前記第2信号との時間的な対応を特定する解析処理部と
     を具備する信号処理装置。
  12.  前記信号処理部は、前記第1信号および前記第2信号に対して前記信号処理を実行し、
     前記解析処理部は、前記信号処理の実行後の第1信号と、前記信号処理の実行後の第2信号とを対比する
     請求項11の信号処理装置。
  13.  前記信号処理は、前記信号の振幅範囲を制限する制限処理を含む
     請求項11または請求項12の信号処理装置。
  14.  前記制限処理は、前記信号を正負対称の振幅範囲に制限する処理である
     請求項13の信号処理装置。
  15.  前記信号処理は、前記信号の振幅の上限値を上回る信号値と、下限値を下回る信号値のうち少なくとも一方をクリップする処理を含む
     請求項11または請求項12の信号処理装置。
  16.  前記解析処理部は、前記信号処理の実行後の第1信号と前記第2信号との相互相関を算定することで、当該第1信号と当該第2信号とを対比する
     請求項11から15のいずれかの信号処理装置。
  17.  特定された前記第1信号と前記第2信号との時間的な対応に基づき、前記第1信号に関連付けされた第3信号と前記第2信号に関連付けされた第4信号とを合成することで、合成信号を生成する合成処理部
     をさらに具備する請求項11から16のいずれかの信号処理装置。
  18.  前記合成信号を再生装置に再生させる再生制御部
     をさらに具備する請求項17の信号処理装置。
  19.  前記第3信号および前記第4信号は、映像信号である
     請求項17または18の信号処理装置。
  20.  前記第1信号および前記第2信号は、音響信号である
     請求項11から19のいずれかの信号処理装置。
PCT/JP2019/011932 2018-03-20 2019-03-20 信号処理方法および信号処理装置 WO2019182074A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-052815 2018-03-20
JP2018052815A JP2019165386A (ja) 2018-03-20 2018-03-20 信号解析方法および信号解析装置

Publications (1)

Publication Number Publication Date
WO2019182074A1 true WO2019182074A1 (ja) 2019-09-26

Family

ID=67986295

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/011932 WO2019182074A1 (ja) 2018-03-20 2019-03-20 信号処理方法および信号処理装置

Country Status (2)

Country Link
JP (1) JP2019165386A (ja)
WO (1) WO2019182074A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1092112A (ja) * 1996-09-13 1998-04-10 Nippon Columbia Co Ltd ディジタルデータ系列同期再生方法および同期再生装置
JP2006514329A (ja) * 2003-02-14 2006-04-27 トムソン ライセンシング メディア・サービスの再生自動同期化方法および装置
JP2006323161A (ja) * 2005-05-19 2006-11-30 Dainippon Printing Co Ltd 音響信号への制御コード埋込装置、および音響信号を用いた時系列駆動装置の制御システム
JP2010054728A (ja) * 2008-08-27 2010-03-11 Hitachi Ltd 音源抽出装置
JP2011055483A (ja) * 2009-08-06 2011-03-17 Bond:Kk 番組画像配信システム、番組画像配信方法及びプログラム
JP2015504629A (ja) * 2011-11-14 2015-02-12 アップル インコーポレイテッド マルチメディアクリップの生成

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1092112A (ja) * 1996-09-13 1998-04-10 Nippon Columbia Co Ltd ディジタルデータ系列同期再生方法および同期再生装置
JP2006514329A (ja) * 2003-02-14 2006-04-27 トムソン ライセンシング メディア・サービスの再生自動同期化方法および装置
JP2006323161A (ja) * 2005-05-19 2006-11-30 Dainippon Printing Co Ltd 音響信号への制御コード埋込装置、および音響信号を用いた時系列駆動装置の制御システム
JP2010054728A (ja) * 2008-08-27 2010-03-11 Hitachi Ltd 音源抽出装置
JP2011055483A (ja) * 2009-08-06 2011-03-17 Bond:Kk 番組画像配信システム、番組画像配信方法及びプログラム
JP2015504629A (ja) * 2011-11-14 2015-02-12 アップル インコーポレイテッド マルチメディアクリップの生成

Also Published As

Publication number Publication date
JP2019165386A (ja) 2019-09-26

Similar Documents

Publication Publication Date Title
CN109313907B (zh) 合并音频信号与空间元数据
US10080094B2 (en) Audio processing apparatus
US20170034642A1 (en) Information processing device, information processing method, and program
EP3646323B1 (en) Hybrid audio signal synchronization based on cross-correlation and attack analysis
EP2955713A1 (en) Synchronous audio playback method, apparatus and system
KR20180050652A (ko) 음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용
US11997459B2 (en) Crowd-sourced device latency estimation for synchronization of recordings in vocal capture applications
US10284985B1 (en) Crowd-sourced device latency estimation for synchronization of recordings in vocal capture applications
US20120300941A1 (en) Apparatus and method for removing vocal signal
WO2019002179A1 (en) HYBRID AUDIO SIGNAL SYNCHRONIZATION BASED ON CROSS CORRELATION AND ATTACK ANALYSIS
WO2019182074A1 (ja) 信号処理方法および信号処理装置
EP2774391A1 (en) Audio scene rendering by aligning series of time-varying feature data
CN112687247B (zh) 音频对齐方法、装置、电子设备及存储介质
CN114678038A (zh) 音频噪声检测方法、计算机设备和计算机程序产品
US20160189725A1 (en) Voice Processing Method and Apparatus, and Recording Medium Therefor
US10891966B2 (en) Audio processing method and audio processing device for expanding or compressing audio signals
CN111145769A (zh) 音频处理方法和装置
CN111145792B (zh) 音频处理方法和装置
US11763828B2 (en) Frequency band expansion device, frequency band expansion method, and storage medium storing frequency band expansion program
CN111145776B (zh) 音频处理方法和装置
WO2018193160A1 (en) Ambience generation for spatial audio mixing featuring use of original and extended signal
US10629240B2 (en) Recorded data processing method and recorded data processing device
JP2011211547A (ja) 収音装置および収音システム
WO2019182075A1 (ja) 情報処理方法および情報処理装置
JP2019113866A (ja) 音響装置、欠落帯域推定装置、信号処理方法及び周波数帯域推定装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19772235

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19772235

Country of ref document: EP

Kind code of ref document: A1