KR102128926B1 - 오디오 정보 처리 방법 및 디바이스 - Google Patents

오디오 정보 처리 방법 및 디바이스 Download PDF

Info

Publication number
KR102128926B1
KR102128926B1 KR1020187010355A KR20187010355A KR102128926B1 KR 102128926 B1 KR102128926 B1 KR 102128926B1 KR 1020187010355 A KR1020187010355 A KR 1020187010355A KR 20187010355 A KR20187010355 A KR 20187010355A KR 102128926 B1 KR102128926 B1 KR 102128926B1
Authority
KR
South Korea
Prior art keywords
audio
sound channel
energy value
attribute
audio energy
Prior art date
Application number
KR1020187010355A
Other languages
English (en)
Other versions
KR20180053714A (ko
Inventor
웨이펑 자오
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20180053714A publication Critical patent/KR20180053714A/ko
Application granted granted Critical
Publication of KR102128926B1 publication Critical patent/KR102128926B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/12Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms
    • G10H1/125Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms using a digital filter
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/005Musical accompaniment, i.e. complete instrumental rhythm synthesis added to a performed melody, e.g. as output by drum machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/041Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/025Computing or signal processing architecture features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/055Filters for musical processing or musical effects; Filter responses, filter architecture, filter coefficients or control parameters therefor
    • G10H2250/071All pole filter, i.e. autoregressive [AR] filter
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/261Window, i.e. apodization function or tapering function amounting to the selection and appropriate weighting of a group of samples in a digital signal within some chosen time interval, outside of which it is zero valued
    • G10H2250/275Gaussian window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Auxiliary Devices For Music (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Stereophonic System (AREA)

Abstract

오디오 정보 처리 방법 및 디바이스. 이 오디오 정보 처리 방법은: 오디오 파일을 디코딩하여 제1 오디오 채널 출력에 대응하는 제1 오디오 서브파일 및 제2 오디오 채널 출력에 대응하는 제2 오디오 서브파일을 취득하는 단계(201); 제1 오디오 서브파일로부터 제1 오디오 데이터를 추출하고, 제2 오디오 서브파일로부터 제2 오디오 데이터를 추출하는 단계(202); 제1 오디오 데이터에 대응하는 제1 오디오 에너지 값을 취득하고, 제2 오디오 데이터에 대응하는 제2 오디오 에너지 값을 취득하는 단계(203); 제1 오디오 에너지 및 제2 오디오 에너지에 따라, 제1 오디오 채널 및 제2 오디오 채널 중 적어도 하나의 특성을 결정하는 단계(204)를 포함한다.

Description

오디오 정보 처리 방법 및 디바이스
본 출원은 2016년 3월 18일에 중국 특허청에 출원된, 발명의 명칭이 "오디오 정보 처리 방법 및 단말기"인 중국 특허 출원 제201610157251.X호에 대한 우선권을 주장하며, 그 전체가 인용에 의해 포함된다.
기술분야
본 출원은 정보 처리 기술에 관한 것으로, 특히 오디오 정보 처리 방법 및 장치에 관한 것이다.
반주 기능을 갖는 오디오 파일들은 일반적으로 오리지널 사운드 채널(반주들과 사람-음성들을 가짐)과 반주 사운드 채널인 2개의 사운드 채널을 가지며, 이 사운드 채널들은 사용자가 가라오케를 노래하고 있을 때 사용자에 의해 스위칭된다. 고정된 표준이 없으므로, 상이한 채널들로부터 취득된 오디오 파일들은 상이한 버전들을 가지며, 일부 오디오 파일들의 제1 사운드 채널이 반주인 반면 다른 오디오 파일들의 제2 사운드 채널이 반주이다. 따라서 이들 오디오 파일이 취득된 후에 어느 사운드 채널이 반주 사운드 채널인지를 확인하는 것이 불가능하다. 일반적으로, 오디오 파일들은 인위적인 인식에 의해 또는 장비에 의한 자동 분별에 의해 통일된 형식으로 조정된 후에만 사용될 수 있다.
그러나, 인위적인 필터링 방법은 효율이 낮고 비용이 높고, 많은 반주 오디오들에 다수의 사람-음성 반주가 존재하기 때문에 장비 분별 방법은 정확도가 낮다. 현재, 상기 문제점들에 대한 효과적인 해결방안은 없다.
본 출원의 실시예는 오디오 파일의 대응하는 반주 사운드 채널을 효율적이고 정확하게 구별할 수 있는, 오디오 정보 처리 방법 및 장치를 제공한다.
본 출원의 실시예에 따른 기술적 해결방안은 다음과 같이 달성된다:
본 출원의 실시예는 다음을 포함하는 오디오 정보 처리 방법을 제공한다:
오디오 파일을 디코딩하여 제1 사운드 채널에 대응하여 출력된 제1 오디오 서브파일 및 제2 사운드 채널에 대응하여 출력된 제2 오디오 서브파일을 취득하는 단계;
상기 제1 오디오 서브파일로부터 제1 오디오 데이터를 그리고 상기 제2 오디오 서브파일로부터 제2 오디오 데이터를 추출하는 단계;
상기 제1 오디오 데이터의 제1 오디오 에너지 값 및 상기 제2 오디오 데이터의 제2 오디오 에너지 값을 취득하는 단계;
상기 제1 오디오 에너지 값 및 상기 제2 오디오 에너지 값에 기초하여 상기 제1 사운드 채널 및 상기 제2 사운드 채널 중 적어도 하나의 속성을 결정하는 단계.
선택적으로, 이 방법은 다음을 추가로 포함한다:
다수의 미리 결정된 오디오 파일의 주파수 스펙트럼 특징들을 각각 추출하는 단계;
상기 추출된 주파수 스펙트럼 특징들을 오류 역전파(BP) 알고리즘을 이용하여 훈련시켜 심층 신경망(DNN) 모델을 획득하는 단계;
상기 제1 오디오 서브파일로부터 제1 오디오 데이터를 그리고 상기 제2 오디오 서브파일로부터 제2 오디오 데이터를 추출하는 단계는 다음을 포함한다:
상기 제1 오디오 서브파일로부터 상기 제1 오디오 데이터를 그리고 상기 제2 오디오 서브파일로부터 상기 제2 오디오 데이터를 각각 상기 DNN 모델을 이용하여 추출하는 단계.
선택적으로, 상기 제1 오디오 에너지 값 및 상기 제2 오디오 에너지 값에 기초하여 상기 제1 사운드 채널 및 상기 제2 사운드 채널 중 적어도 하나의 속성을 결정하는 단계는 다음을 포함한다:
상기 제1 오디오 에너지 값과 상기 제2 오디오 에너지 값 사이의 차이 값을 결정하는 단계;
상기 제1 오디오 에너지 값과 상기 제2 오디오 에너지 값 사이의 상기 차이 값이 미리 결정된 에너지 차이 임계 값보다 크고, 상기 제1 오디오 에너지 값이 상기 제2 오디오 에너지 값보다 작으면 상기 제1 사운드 채널의 속성을 제1 속성으로서 결정하는 단계.
대안적으로, 제1 오디오 에너지 값 및 제2 오디오 에너지 값에 기초하여 상기 제1 사운드 채널 및 상기 제2 사운드 채널 중 적어도 하나의 속성을 결정하는 단계는 다음을 포함한다:
상기 제1 오디오 에너지 값과 상기 제2 오디오 에너지 값 사이의 차이 값을 결정하는 단계;
상기 제1 오디오 에너지 값과 상기 제2 오디오 에너지 값 사이의 상기 차이 값이 미리 결정된 에너지 차이 임계 값보다 크지 않으면 미리 결정된 분류 방법을 이용하여 상기 제1 사운드 채널 및 상기 제2 사운드 채널 중 적어도 하나에 속성을 할당하는 단계.
선택적으로, 이 방법은 다음을 추가로 포함한다:
다수의 미리 결정된 오디오 파일의 지각 선형 예측(Perceptual Linear Predictive, PLP) 특성 파라미터들을 추출하는 단계;
상기 추출된 PLP 특성 파라미터들에 기초하여 기대치 최대화(Expectation Maximization, EM) 알고리즘을 이용하여 훈련을 통해 가우시안 혼합 모델(Gaussian Mixture Model, GMM)을 획득하는 단계;
상기 미리 결정된 분류 방법을 이용하여 상기 제1 사운드 채널 및 상기 제2 사운드 채널 중 적어도 하나에 속성을 할당하는 단계는 다음을 포함한다:
훈련을 통해 획득된 상기 GMM을 이용하여 상기 제1 사운드 채널 및 상기 제2 사운드 채널 중 적어도 하나에 속성을 할당하는 단계.
선택적으로, 이 방법은 상기 제1 속성이 상기 제1 사운드 채널에 할당되면 다음을 추가로 포함한다:
상기 제1 오디오 에너지 값이 상기 제2 오디오 에너지 값보다 작은지 여부를 결정하는 단계;
결과가 상기 제1 오디오 에너지 값이 상기 제2 오디오 에너지 값보다 작다는 것을 나타내면 상기 제1 사운드 채널의 속성을 제1 속성으로서 결정하는 단계.
선택적으로, 상기 제1 오디오 데이터는 상기 제1 사운드 채널에 대응하여 출력된 사람-음성 오디오이고, 상기 제2 오디오 데이터는 상기 제2 사운드 채널에 대응하여 출력된 사람-음성 오디오이고;
상기 제1 사운드 채널의 속성을 상기 제1 속성으로서 결정하는 단계는 다음을 포함한다:
상기 제1 사운드 채널을 반주 오디오를 출력하는 사운드 채널로서 결정하는 단계.
선택적으로, 이 방법은 다음을 추가로 포함한다:
상기 속성을 표기하는 단계;
상기 제1 사운드 채널과 상기 제2 사운드 채널 사이의 스위칭이 필요한지 여부를 결정하는 단계;
필요하다고 결정되면 상기 표기에 기초하여 상기 제1 사운드 채널과 상기 제2 사운드 채널 사이에 스위칭하는 단계.
선택적으로, 상기 제1 오디오 데이터는 상기 제2 오디오 데이터와 동일한 속성을 갖는다.
본 출원의 실시예는 디코딩 모듈, 추출 모듈, 취득 모듈 및 처리 모듈을 포함하는 오디오 정보 처리 장치를 추가로 제공하는데,
상기 디코딩 모듈은 오디오 파일을 디코딩하여 제1 사운드 채널에 대응하여 출력된 제1 오디오 서브파일 및 제2 사운드 채널에 대응하여 출력된 제2 오디오 서브파일을 취득하도록 구성되고;
상기 추출 모듈은 상기 제1 오디오 서브파일로부터 제1 오디오 데이터를 그리고 상기 제2 오디오 서브파일로부터 제2 오디오 데이터를 추출하도록 구성되고;
상기 취득 모듈은 상기 제1 오디오 데이터의 제1 오디오 에너지 값 및 상기 제2 오디오 데이터의 제2 오디오 에너지 값을 취득하도록 구성되고;
상기 처리 모듈은 상기 제1 오디오 에너지 값 및 상기 제2 오디오 에너지 값에 기초하여 상기 제1 사운드 채널 및 상기 제2 사운드 채널 중 적어도 하나의 속성을 결정하도록 구성된다.
선택적으로, 상기 장치는 상기 다수의 미리 결정된 오디오 파일의 주파수 스펙트럼 특징들을 각각 추출하고;
상기 추출된 주파수 스펙트럼 특징들을 오류 역전파(BP) 알고리즘을 이용하여 훈련시켜 심층 신경망(DNN) 모델을 획득하도록 구성된 제1 모델 훈련 모듈을 추가로 포함하고;
상기 추출 모듈은 추가로 상기 제1 오디오 서브파일로부터 상기 제1 오디오 데이터를 그리고 상기 제2 오디오 서브파일로부터 상기 제2 오디오 데이터를 각각 상기 DNN 모델을 이용하여 추출하도록 구성된다.
선택적으로, 상기 처리 모듈은 추가로:
상기 제1 오디오 에너지 값과 상기 제2 오디오 에너지 값 사이의 차이 값을 결정하고;
상기 제1 오디오 에너지 값과 상기 제2 오디오 에너지 값 사이의 상기 차이 값이 미리 결정된 에너지 차이 임계 값보다 크고, 상기 제1 오디오 에너지 값이 상기 제2 오디오 에너지 값보다 작은 경우 상기 제1 사운드 채널의 속성을 제1 속성으로서 결정하도록 구성된다.
대안적으로, 선택적으로, 상기 처리 모듈은 추가로:
상기 제1 오디오 에너지 값과 상기 제2 오디오 에너지 값 사이의 차이 값을 결정하고;
상기 제1 오디오 에너지 값과 상기 제2 오디오 에너지 값 사이의 상기 차이 값이 상기 미리 결정된 에너지 차이 임계 값보다 크지 않으면 미리 결정된 분류 방법을 이용하여 상기 제1 사운드 채널 및 상기 제2 사운드 채널 중 적어도 하나에 속성을 할당하도록 구성된다.
선택적으로, 상기 장치는 상기 다수의 미리 결정된 오디오 파일의 지각 선형 예측(PLP) 특성 파라미터들을 추출하고;
상기 추출된 PLP 특성 파라미터들에 기초하여 기대치 최대화(EM) 알고리즘을 이용하여 훈련을 통해 가우시안 혼합 모델(GMM)을 획득하도록 구성된 제2 모델 훈련 모듈을 추가로 포함하고;
상기 처리 모듈은 추가로 훈련을 통해 획득된 상기 GMM을 이용하여 상기 제1 사운드 채널 및 상기 제2 사운드 채널 중 적어도 하나에 속성을 할당하도록 구성된다.
선택적으로, 상기 제1 속성이 상기 제1 사운드 채널에 할당되면, 상기 처리 모듈은 추가로:
상기 제1 오디오 에너지 값이 상기 제2 오디오 에너지 값보다 작은지 여부를 결정하고;
그 결과가 상기 제1 오디오 에너지 값이 상기 제2 오디오 에너지 값보다 작다는 것을 나타내면 상기 제1 사운드 채널의 속성을 상기 제1 속성으로서 결정하도록 구성된다.
선택적으로, 상기 제1 오디오 데이터는 상기 제1 사운드 채널에 대응하여 출력된 사람-음성 오디오이고, 상기 제2 오디오 데이터는 상기 제2 사운드 채널에 대응하여 출력된 사람-음성 오디오이고;
상기 제1 사운드 채널의 속성을 상기 제1 속성으로서 결정하는 단계는 다음을 포함한다:
상기 제1 사운드 채널을 반주 오디오를 출력하는 사운드 채널로서 결정한다.
선택적으로, 상기 처리 모듈은 추가로 상기 속성을 표기하고;
상기 제1 사운드 채널과 상기 제2 사운드 채널 사이의 스위칭이 필요한지 여부를 결정하고;
필요하다고 결정되면 상기 표기에 기초하여 상기 제1 사운드 채널과 상기 제2 사운드 채널 사이에 스위칭하도록 구성된다.
선택적으로, 상기 제1 오디오 데이터는 상기 제2 오디오 데이터와 동일한 속성을 갖는다.
상기 본 출원의 실시예를 적용함에 있어서, 오디오 파일의 이중 채널 디코딩에 의해 대응하는 제1 오디오 서브파일 및 제2 오디오 서브파일을 취득한 다음, 제1 오디오 데이터 및 제2 오디오 데이터(제1 오디오 데이터와 제2 오디오 데이터는 동일한 속성을 가질 수 있다)를 포함하는 오디오 데이터를 추출하고, 최종적으로 제1 오디오 에너지 값과 제2 오디오 에너지 값에 기초하여 제1 사운드 채널 및 제2 사운드 채널 중 적어도 하나의 속성을 결정하여, 특정 속성 요건을 만족시키는 사운드 채널을 결정하고; 이러한 방식으로, 오디오 파일의 대응하는 반주 사운드 채널 및 오리지널 사운드 채널이 효율적이고 정확하게 구별될 수 있어, 인력 분별의 높은 인적 비용 및 낮은 효율 및 장비 자동 분별의 낮은 정확도의 문제점을 해결할 수 있다.
도 1은 구별되어야 할 이중 채널 음악의 개략도이다;
도 2는 본 출원의 실시예에 따른 오디오 정보 처리 방법의 흐름도이다;
도 3은 본 출원의 실시예에 따라 훈련을 통해 DNN 모델을 획득하는 방법의 흐름도이다;
도 4는 본 출원의 실시예에 따른 DNN 모델의 개략도이다;
도 5는 본 출원의 실시예에 따른 다른 오디오 정보 처리 방법의 흐름도이다;
도 6은 본 출원의 실시예에서의 PLP 파라미터 추출의 흐름도이다;
도 7은 본 출원의 실시예에 따른 다른 오디오 정보 처리 방법의 흐름도이다;
도 8은 본 출원의 실시예에 따른 아 카펠라 데이터 추출 프로세스의 개략도이다;
도 9는 본 출원의 실시예에 따른 다른 오디오 정보 처리 방법의 흐름도이다;
도 10은 본 출원의 실시예에 따른 오디오 정보 처리 장치의 구조도이다;
도 11은 본 출원의 실시예에 따른 오디오 정보 처리 장치의 하드웨어 구성의 구조도이다.
현재 장비에 의해 오디오 파일의 대응하는 반주 사운드 채널을 자동으로 구별하는 것은 주로 서포트 벡터 머신(Support Vector Machine, SVM) 모델 또는 가우시안 혼합 모델(GMM)을 훈련시키는 것을 통해 실현된다. 이중 채널 오디오 스펙트럼의 분포 갭은 작고, 도 1에 도시된 바와 같이, 많은 반주 오디오들에 다수의 사람-음성 반주가 존재하므로, 분별 정확도가 높지 않다.
본 출원의 실시예에 따른 오디오 정보 처리 방법은 소프트웨어, 하드웨어, 펌웨어 또는 이들의 조합을 통해 달성될 수 있다. 소프트웨어는 WeSing 소프트웨어일 수 있고, 즉, 본 출원에 의해 제공되는 오디오 정보 처리 방법은 WeSing 소프트웨어에서 사용될 수 있다. 본 출원의 실시예는 오디오 파일의 대응하는 반주 사운드 채널을 머신 학습에 기초하여 자동으로, 신속하고 정확하게 구별하기 위해 적용될 수 있다.
본 출원의 실시예에서는, 오디오 파일을 디코딩하여 제1 사운드 채널에 대응하여 출력된 제1 오디오 서브파일 및 제2 사운드 채널에 대응하여 출력된 제2 오디오 서브파일을 취득하고; 제1 오디오 서브파일로부터 제1 오디오 데이터를 그리고 제2 오디오 서브파일로부터 제2 오디오 데이터를 추출하고; 제1 오디오 데이터의 제1 오디오 에너지 값 및 제2 오디오 데이터의 제2 오디오 에너지 값을 취득하고; 제1 오디오 에너지 값 및 제2 오디오 에너지 값에 기초하여 제1 사운드 채널 및 제2 사운드 채널 중 적어도 하나의 속성을 결정하여, 특정 속성 요건을 만족시키는 사운드 채널을 결정한다.
이하에서는 추가로 첨부 도면들 및 특정 실시예들을 참조하여 본 출원을 상세히 설명한다.
실시예 1
도 2는 본 출원의 실시예에 따른 오디오 정보 처리 방법의 흐름도이다. 도 2에 도시된 바와 같이, 본 출원의 실시예에 따른 오디오 정보 처리 방법은 다음의 단계들을 포함한다:
단계 S201: 오디오 파일을 디코딩하여 제1 사운드 채널에 대응하여 출력된 제1 오디오 서브파일 및 제2 사운드 채널에 대응하여 출력된 제2 오디오 서브파일을 취득한다.
본 명세서의 오디오 파일(제1 오디오 파일이라고도 함)은 그 반주/오리지널 사운드 채널들이 구별되어야 하는 임의의 음악 파일일 수 있다. 제1 사운드 채널 및 제2 사운드 채널은 각각 좌측 채널 및 우측 채널일 수 있고, 대응적으로, 제1 오디오 서브파일 및 제2 오디오 서브파일은 각각 제1 오디오 파일에 대응하는 오리지널 파일 및 반주 파일일 수 있다. 예를 들어, 노래를 디코딩하여 좌측 채널 출력을 나타내는 반주 파일 또는 오리지널 파일 또는 우측 채널 출력을 나타내는 오리지널 파일 또는 반주 파일을 취득한다.
단계 S202: 제1 오디오 서브파일로부터 제1 오디오 데이터를 그리고 제2 오디오 서브파일로부터 제2 오디오 데이터를 추출한다.
제1 오디오 데이터와 제2 오디오 데이터는 동일한 속성을 가질 수 있거나, 또는 그 둘은 동일한 속성을 나타낸다. 그 둘이 모두 사람-음성 오디오들이면, 사람-음성 오디오들은 제1 오디오 서브파일 및 제2 오디오 서브파일로부터 추출된다. 특정 사람-음성 추출 방법은 오디오 파일들로부터 사람-음성 오디오들을 추출하는 데 사용될 수 있는 임의의 방법일 수 있다. 예를 들어, 실제 구현 동안, 심층 신경망(DNN) 모델을 훈련시켜 오디오 파일들로부터 사람-음성 오디오들을 추출할 수 있는데, 예를 들어, 제1 오디오 파일이 노래인 경우, 제1 오디오 서브파일이 반주 오디오 파일이고 제2 오디오 서브파일이 오리지널 오디오 파일이면, DNN 모델을 이용하여 반주 오디오 파일로부터 사람-음성 반주 데이터를 추출하고 오리지널 오디오 파일로부터 아 카펠라 데이터를 추출한다.
단계 S203: 제1 오디오 데이터의 제1 오디오 에너지 값 및 제2 오디오 데이터의 제2 오디오 에너지 값을 취득한다(예를 들어, 계산한다).
제1 오디오 에너지 값은 제1 오디오 데이터의 평균 오디오 에너지 값일 수 있고, 제2 오디오 에너지 값은 제2 오디오 데이터의 평균 오디오 에너지 값일 수 있다. 실제 응용에서는, 오디오 데이터에 대응하는 평균 오디오 에너지 값을 취득하기 위해 상이한 방법들이 사용될 수 있다. 예를 들어, 오디오 데이터는 다수의 샘플링 포인트로 구성되고, 각각의 샘플링 포인트는 일반적으로 0 내지 32767의 값에 대응하고, 모든 샘플링 포인트 값들의 평균 값은 오디오 데이터에 대응하는 평균 오디오 에너지 값으로 간주된다. 이러한 방식으로, 제1 오디오 데이터의 모든 샘플링 포인트들의 평균 값은 제1 오디오 에너지 값으로 간주되고, 제2 오디오 데이터의 모든 샘플링 포인트들의 평균 값은 제2 오디오 에너지 값으로 간주된다.
단계 S204: 제1 오디오 에너지 값 및 제2 오디오 에너지 값에 기초하여 제1 사운드 채널 및 제2 사운드 채널 중 적어도 하나의 속성을 결정한다.
제1 오디오 에너지 값 및 제2 오디오 에너지 값에 기초하여 제1 사운드 채널 및/또는 제2 사운드 채널의 속성을 결정하여, 특정 속성 요건을 만족시키는 사운드 채널을 결정하는데, 즉, 제1 사운드 채널과 제2 사운드 채널 중 어느 것이 특정 속성 요건을 만족시키는 사운드 채널인지를 결정한다. 예를 들어, 제1 사운드 채널에 의해 출력된 사람-음성 오디오의 제1 오디오 에너지 값 및 제2 사운드 채널에 의해 출력된 사람-음성 오디오의 제2 오디오 에너지 값에 기초하여 제1 사운드 채널 또는 제2 사운드 채널이 반주 오디오들을 출력하는 사운드 채널이라고 결정한다.
본 출원의 실시예에 기초하여, 실제 응용에서는, 특정 속성 요건을 만족시키는 사운드 채널은 제1 오디오 파일의 출력된 오디오가 제1 사운드 채널 및 제2 사운드 채널에서의 반주 오디오인 사운드 채널일 수 있다. 예를 들어, 노래에 대해, 특정 속성 요건을 만족시키는 사운드 채널은 좌측 및 우측 채널들에서의 노래에 대응하는 반주를 출력하는 사운드 채널일 수 있다.
특정 속성 요건을 만족시키는 사운드 채널을 결정하는 프로세스에서, 구체적으로, 노래에 대해, 노래에 사람-음성 반주가 거의 없다면, 대응적으로, 노래의 반주 파일에 대응하는 오디오 에너지 값은 작을 것이고, 반면 노래의 아 카펠라 파일에 대응하는 오디오 에너지 값은 클 것이다. 따라서, 임계 값(즉, 오디오 에너지 차이 임계 값)이 미리 결정될 수 있다. 구체적으로, 그것은 실제 요구에 따라 설정될 수 있다. 제1 오디오 에너지 값과 제2 오디오 에너지 값 사이의 차이 값이 결정될 수 있고, 결과가 차이 값이 미리 결정된 임계 값보다 크고 제1 오디오 에너지 값이 제2 오디오 에너지 값보다 작다는 것을 나타내면, 제1 사운드 채널의 속성을 제1 속성으로서 그리고 제2 사운드 채널의 속성을 제2 속성으로서 결정하는데, 즉, 제1 사운드 채널을 반주 오디오들을 출력하는 사운드 채널로서 그리고 제2 사운드 채널을 오리지널 오디오들을 출력하는 사운드 채널로서 결정한다. 반대로, 제1 오디오 에너지 값과 제2 오디오 에너지 값 사이의 차이 값이 미리 결정된 임계 값보다 크고 제2 오디오 에너지 값이 제1 오디오 에너지 값보다 작으면, 제2 사운드 채널의 속성을 제1 속성으로서 그리고 제1 사운드 채널의 속성을 제2 속성으로서 결정하는데, 즉, 제2 사운드 채널을 반주 오디오들을 출력하는 사운드 채널로서 그리고 제1 사운드 채널을 오리지널 오디오들을 출력하는 사운드 채널로서 결정한다.
이러한 방식으로, 제1 오디오 에너지 값과 제2 오디오 에너지 값 사이의 차이 값이 미리 결정된 에너지 차이 임계 값보다 크면, 제1 오디오 에너지 값 또는 제2 오디오 에너지 값(어느 것이든 더 작은 것)에 대응하는 제1 오디오 서브파일 또는 제2 오디오 서브파일이 특정 속성 요건을 만족시키는 오디오 파일(즉, 반주 파일들)로서 결정되고, 특정 속성 요건을 만족시키는 오디오 서브파일에 대응하는 사운드 채널이 특정 요건을 만족시키는 사운드 채널(즉, 반주 파일들을 출력하는 사운드 채널)로서 결정될 수 있다.
제1 오디오 에너지 값과 제2 오디오 에너지 값의 차이 값이 미리 결정된 에너지 차이 임계 값보다 크지 않으면, 응용에서 반주 오디오 파일에 많은 사람-음성 반주들이 있을 수 있지만, 반주 오디오들 및 아 카펠라 오디오들의 주파수 스펙트럼 특성들은 여전히 상이하므로, 그 주파수 스펙트럼 특성들에 따라 사람-음성 반주 데이터가 아 카펠라 데이터와 구별될 수 있다. 반주 데이터가 사전에 결정된 후, 반주 데이터의 평균 오디오 에너지가 아 카펠라 데이터의 평균 오디오 에너지보다 작다는 원리에 기초하여 최종적으로 반주 데이터가 결정될 수 있고, 그 후 반주 데이터에 대응하는 사운드 채널이 특정 속성 요건을 만족시키는 사운드 채널이라는 결과가 획득된다.
실시예 2
도 3은 본 출원의 실시예에 따라 훈련을 통해 DNN 모델을 획득하는 방법의 흐름도이다. 도 3에 도시된 바와 같이, 본 출원의 실시예에 따라 훈련을 통해 DNN 모델을 획득하는 방법은 다음의 단계들을 포함한다:
단계 S301: 다수의 미리 결정된 오디오 파일들 내의 오디오들을 각각 디코딩하여 대응하는 다수의 펄스 코드 변조(Pulse Code Modulation, PCM) 오디오 파일들을 취득한다.
여기서 다수의 미리 결정된 오디오 파일들은 WeSing의 노래 라이브러리로부터 선택된 N개의 오리지널 노래 및 그에 대응하는 N개의 아 카펠라 노래일 수 있다. N은 양의 정수이고 후속 훈련을 위해 2,000보다 큰 것이 바람직하다. 오리지널 및 고품질 아 카펠라 데이터 양쪽 모두를 갖는 수만 개의 노래가 존재하였고(아 카펠라 데이터는 주로 자유 채점 시스템에 의해 선택되고, 즉 더 높은 점수를 갖는 아 카펠라 데이터를 선택), 따라서 그러한 모든 노래들이 수집될 수 있고, 그로부터 10,000개의 노래가 후속 동작들을 위해 무작위로 선택될 수 있다(여기서 후속 훈련의 복잡도 및 정확도가 주로 선택을 위해 고려된다).
모든 미리 결정된 오리지널 파일들 및 대응하는 아 카펠라 파일들을 디코딩하여 16k16bit의 펄스 코드 변조(PCM) 오디오 파일을 취득하는데, 즉 10,000개의 PCM 오리지널 오디오 및 대응하는 10,000개의 PCM 아 카펠라 오디오를 취득한다. xn1, n1∈(1~10000)이 오리지널 오디오들을 나타내기 위해 사용되고 yn2, n2∈(1~10000)이 대응하는 아 카펠라 오디오들을 나타내면, n1과 n2 사이에 일대일 대응관계가 존재한다.
단계 S302: 획득된 다수의 PCM 오디오 파일들로부터 주파수 스펙트럼 특징들을 추출한다.
구체적으로, 다음의 동작들이 포함된다:
1) 오디오들을 프레이밍한다. 여기서, 프레임 길이를 512개의 샘플링 포인트로 그리고 프레임 시프트를 128개의 샘플링 포인트로 설정한다;
2) 해밍 윈도우 함수에 의해 각각의 프레임 데이터에 가중치를 부여하고, 고속 푸리에 변환을 수행하여 257 차원 실수 영역 스펙트럼 밀도 및 255 차원 허수 영역 스펙트럼 밀도, 총 512 차원 특징 zi, i∈(1~512)을 획득한다;
3) 각각의 실수 영역 스펙트럼 밀도와 그에 대응하는 허수 영역 스펙트럼 밀도의 이차 합(quadratic sum)을 계산한다;
즉, |Sreal(f)|2+|Svirtual(f)|2를 계산하여 - 여기서 f는 주파수를 나타내고, Sreal(f)는 푸리에 변환 후 주파수 f에 대응하는 실수 영역 스펙트럼 밀도/에너지 값을 나타내고, Svirtual(f)는 푸리에 변환 후 주파수 f에 대응하는 허수 영역 스펙트럼 밀도/에너지 값을 나타냄 -, 257 차원 특징 ti, i∈(1~257)을 획득한다.
4) 상기 결과들의 loge를 계산하여 필요한 257 차원 주파수 스펙트럼 특징
Figure 112018036496304-pct00001
을 획득한다.
단계 S303: 추출된 주파수 스펙트럼 특징들을 BP 알고리즘을 이용하여 훈련시켜 DNN 모델을 획득한다.
여기서, 오류 역전파(BP) 알고리즘을 이용하여 3개의 숨겨진 층을 갖는 심층 신경망을 훈련시킨다. 도 4에 도시된 바와 같이, 3개의 숨겨진 층 각각에서의 노드의 수는 2048이고, 입력 층은 오리지널 오디오 xi이고, 257 차원 특징의 각각의 프레임이 5개의 프레임을 앞으로 확장한 다음 5개의 프레임을 뒤로 확장하여 11개의 프레임 데이터, 총 11*257=2827 차원 특징, 즉 a∈[1, 2827]을 획득하고, 출력은 아 카펠라 오디오 yi에 대응하는 프레임의 257 차원 특징, 즉 b∈[1, 257]이다. BP 알고리즘에 의해 훈련된 후에, 2827*2048 차원 행렬, 2048*2048 차원 행렬, 2048*2048 차원 행렬 및 2048*257 차원 행렬을 포함하는, 4개의 행렬이 획득된다.
실시예 3
도 5는 본 출원의 실시예에 따른 오디오 정보 처리 방법의 흐름도이다. 도 5에 도시된 바와 같이, 본 출원의 실시예에 따른 오디오 정보 처리 방법은 다음의 단계들을 포함한다:
단계 S501: 오디오 파일을 디코딩하여 제1 사운드 채널에 대응하여 출력된 제1 오디오 서브파일 및 제2 사운드 채널에 대응하여 출력된 제2 오디오 서브파일을 취득한다.
본 명세서의 오디오 파일(제1 오디오 파일이라고도 함)은 그 반주/오리지널 사운드 채널들이 구별되어야 하는 임의의 음악 파일일 수 있다. 그것이 그 반주/오리지널 사운드 채널들이 구별되어야 하는 노래이면, 제1 사운드 채널 및 제2 사운드 채널은 각각 좌측 채널 및 우측 채널일 수 있고, 대응적으로, 제1 오디오 서브파일 및 제2 오디오 서브파일은 각각 제1 오디오 파일에 대응하는 반주 파일 및 오리지널 파일일 수 있다. 즉, 제1 오디오 파일이 노래이면, 이 단계에서, 노래를 디코딩하여 노래의 좌측 채널에 의해 출력된 반주 파일 또는 오리지널 파일 및 우측 채널에 의해 출력된 오리지널 파일 또는 반주 파일을 취득한다.
단계 S502: 제1 오디오 서브파일로부터 제1 오디오 데이터를 그리고 제2 오디오 서브파일로부터 제2 오디오 데이터를 각각 미리 결정된 DNN 모델을 이용하여 추출한다.
여기서, 미리 결정된 DNN 모델은 본 출원의 실시예 2에서 BP 알고리즘을 이용하여 사전 훈련을 통해 획득된 DNN 모델 또는 다른 방법들을 통해 획득된 DNN 모델일 수 있다.
제1 오디오 데이터와 제2 오디오 데이터는 동일한 속성을 가질 수 있거나, 또는 그 둘은 동일한 속성을 나타낸다. 그 둘이 모두 사람-음성 오디오들이면, 사람-음성 오디오들은 사전 훈련을 통해 획득된 DNN 모델을 이용하여 제1 오디오 서브파일 및 제2 오디오 서브파일로부터 추출된다. 예를 들어, 제1 오디오 파일이 노래인 경우, 제1 오디오 서브파일이 반주 오디오 파일이고 제2 오디오 서브파일이 오리지널 오디오 파일이면, DNN 모델을 이용하여 반주 오디오 파일로부터 사람-음성 반주 데이터를 그리고 오리지널 오디오 파일로부터 사람 아 카펠라 데이터를 추출한다.
훈련을 통해 획득된 DNN 모델을 이용하여 아 카펠라 데이터를 추출하는 프로세스는 다음의 단계들을 포함한다:
1) 추출될 아 카펠라 데이터의 오디오 파일을 16k16bit의 PCM 오디오 파일로 디코딩한다;
2) 실시예 2의 단계 S302에서 제공된 방법을 이용하여 주파수 스펙트럼 특징들을 추출한다;
3) 오디오 파일이 총 m개의 프레임을 갖는다고 가정한다. 각각의 프레임 특징은 5개의 프레임을 앞뒤로 각각 확장하여 11*257 차원 특징을 획득하고(이 동작은 오디오 파일의 처음 5개 프레임과 마지막 5개 프레임에 대해서는 수행되지 않음), 입력 특징을 실시예 2에 따라 훈련을 통해 획득된 DNN 모델의 각각의 층에서의 행렬과 곱하여 최종적으로 257 차원 출력 특징을 획득한 다음 m-10 프레임 출력 특징을 획득한다. 제1 프레임은 5개의 프레임을 앞으로 확장하고 마지막 프레임은 5개의 프레임을 뒤로 확장하여 m 프레임 출력 결과를 획득한다;
4) 각각의 프레임의 각각의 차원 특징의 ex를 계산하여 257 차원 특징 ki, i∈(1~257)을 획득한다.
5) 공식
Figure 112018036496304-pct00002
를 이용하여 512 차원 주파수 스펙트럼 특징을 획득한다 - 여기서 i는 512 차원을 나타내고, j는 i의 대응하는 주파수 대역을 나타내고, 257개이고, j는 1 또는 2개의 i에 대응할 수 있고, 변수 z 및 t는 각각 단계 2)에서 획득된 zi 및 ti에 대응한다;
6) 상기 512 차원 특징에 대해 역 푸리에 변환을 수행하여 시간 영역 특징을 획득하고, 모든 프레임들의 시간 영역 특징들을 연결하여 필요한 아 카펠라 파일을 획득한다.
단계 S503: 제1 오디오 데이터의 제1 오디오 에너지 값 및 제2 오디오 데이터의 제2 오디오 에너지 값을 취득한다(예를 들어, 계산한다).
제1 오디오 에너지 값은 제1 오디오 데이터의 평균 오디오 에너지 값일 수 있고, 제2 오디오 에너지 값은 제2 오디오 데이터의 평균 오디오 에너지 값일 수 있다. 실제 응용에서는, 오디오 데이터에 대응하는 평균 오디오 에너지 값을 취득하기 위해 상이한 방법들이 사용될 수 있다. 예를 들어, 오디오 데이터는 다수의 샘플링 포인트로 구성되고, 각각의 샘플링 포인트는 일반적으로 0 내지 32767의 값에 대응하고, 모든 샘플링 포인트 값들의 평균 값은 오디오 데이터에 대응하는 평균 오디오 에너지 값으로 간주된다. 이러한 방식으로, 제1 오디오 데이터의 모든 샘플링 포인트들의 평균 값은 제1 오디오 에너지 값으로 간주되고, 제2 오디오 데이터의 모든 샘플링 포인트들의 평균 값은 제2 오디오 에너지 값으로 간주된다.
단계 S504: 제1 오디오 에너지 값과 제2 오디오 에너지 값 사이의 차이 값이 미리 결정된 임계 값보다 큰지 여부를 결정한다. 그렇다면, 단계 S505로 진행한다; 그렇지 않으면, 단계 S506으로 진행한다.
실제 응용에서는, 노래에 대해, 노래에 사람-음성 반주가 거의 없다면, 대응적으로, 노래의 반주 파일에 대응하는 오디오 에너지 값은 작을 것이고, 반면 노래의 아 카펠라 파일에 대응하는 오디오 에너지 값은 클 것이다. 따라서, 임계 값(즉, 오디오 에너지 차이 임계 값)이 미리 결정될 수 있다. 구체적으로, 그것은 실제 요구에 따라 설정될 수도 있고, 예를 들어, 그것은 486으로 설정될 수도 있다. 제1 오디오 에너지 값과 제2 오디오 에너지 값 사이의 차이 값이 미리 결정된 에너지 차이 임계 값보다 크면, 그 오디오 에너지 값이 더 작은 것에 대응하는 사운드 채널이 반주 사운드 채널로서 결정된다.
단계 S505: 제1 오디오 에너지 값이 제2 오디오 에너지 값보다 작으면, 제1 사운드 채널의 속성을 제1 속성으로 결정하고, 제2 오디오 에너지 값이 제1 오디오 에너지 값보다 작으면, 제2 사운드 채널의 속성을 제1 속성으로 결정한다.
여기서, 제1 오디오 에너지 값 및 제2 오디오 에너지 값을 결정한다. 제1 오디오 에너지 값이 제2 오디오 에너지 값보다 작으면, 제1 사운드 채널의 속성을 제1 속성으로서 그리고 제2 사운드 채널의 속성을 제2 속성으로서 결정하는데, 즉 제1 사운드 채널을 반주 오디오들을 출력하는 사운드 채널로서 그리고 제2 사운드 채널을 오리지널 오디오들을 출력하는 사운드 채널로서 결정한다. 제2 오디오 에너지 값이 제1 오디오 에너지 값보다 작으면, 제2 사운드 채널의 속성을 제1 속성으로서 그리고 제1 사운드 채널의 속성을 제2 속성으로서 결정하는데, 즉 제2 사운드 채널을 반주 오디오들을 출력하는 사운드 채널로서 그리고 제1 사운드 채널을 오리지널 오디오들을 출력하는 사운드 채널로서 결정한다.
이러한 방식으로, 제1 오디오 에너지 값 또는 제2 오디오 에너지 값(어느 것이든 더 작은 것)에 대응하는 제1 오디오 서브파일 또는 제2 오디오 서브파일이 특정 속성 요건을 만족시키는 오디오 파일로서 결정되고, 특정 속성 요건을 만족시키는 오디오 서브파일에 대응하는 사운드 채널이 특정 요건을 만족시키는 사운드 채널로서 결정될 수 있다. 특정 속성 요건을 만족시키는 오디오 파일은 제1 오디오 파일에 대응하는 반주 오디오 파일이고, 특정 요건을 만족시키는 사운드 채널은 제1 오디오 파일의 출력된 오디오가 제1 사운드 채널 및 제2 사운드 채널에서의 반주 오디오인 사운드 채널이다.
단계 S506: 미리 결정된 GMM을 이용하여 제1 사운드 채널 및/또는 제2 사운드 채널에 속성을 할당한다.
여기서, 미리 결정된 GMM 모델은 사전 훈련을 통해 획득되고, 특정 훈련 프로세스는 다음을 포함한다:
다수의 미리 결정된 오디오 파일들의 13 차원 지각 선형 예측(PLP) 특성 파라미터들을 추출한다; PLP 파라미터를 추출하는 특정 프로세스는 도 6에 도시되어 있다. 도 6에 도시된 바와 같이, 오디오 신호(즉 오디오 파일)에 대해 전단 처리(front-end processing)를 수행하고, 그 후 이산 푸리에 변환, 그 후 주파수 대역 계산, 임계 대역 분석, 등음량 프리엠퍼시스(equiloudness pre-emphasis) 및 강도-음량 변환(intensity-loudness conversion)과 같은 처리를 수행하고, 그 후 역 푸리에 변환을 수행하여 전극점 모델(all-pole model)을 생성하고, 켑스트럼(cepstrum)을 계산하여 PLP 파라미터들을 획득한다.
추출된 PLP 특성 파라미터들을 이용하여 1차 차분 및 2차 차분, 총 39개 차원 특징을 계산한다. 기대치 최대화(EM) 알고리즘을 이용하여 추출된 PLP 특성 파라미터들에 기초하여 훈련을 통해 반주 오디오들을 아 카펠라 오디오들로부터 사전에 구별할 수 있는 GMM 모델을 획득한다. 그러나, 실제 응용에서는, 반주 GMM 모델을 훈련시킬 수 있고, 모델과 구별될 오디오 데이터 사이에 유사도 계산을 수행할 수 있고, 높은 유사도를 갖는 오디오 데이터의 그룹은 정확히 반주 오디오 데이터이다. 본 실시예에서, 미리 결정된 GMM을 이용하여 제1 사운드 채널 및/또는 제2 사운드 채널에 속성을 할당함으로써, 제1 사운드 채널 및 제2 사운드 채널 중 어느 것이 특정 속성 요건을 만족시키는 사운드 채널인지가 사전에 결정될 수 있다. 예를 들어, 미리 결정된 GMM 모델과 제1 및 제2 오디오 데이터 사이에 유사도 계산을 수행함으로써, 반주 오디오들을 출력하는 사운드 채널과 높은 유사도를 갖는 오디오 데이터에 대응하는 사운드 채널을 할당 또는 결정한다.
이러한 방식으로, 미리 결정된 GMM 모델을 이용하여 제1 사운드 채널 및 제2 사운드 채널 중 어느 것이 반주 오디오를 출력하는 사운드 채널인지를 결정한 후에, 결정된 사운드 채널은 사전에 특정 속성 요건을 만족시키는 사운드 채널이다.
단계 S507: 제1 오디오 에너지 값 및 제2 오디오 에너지 값을 결정한다. 제1 속성이 제1 사운드 채널에 할당되고 제1 오디오 에너지 값이 제2 오디오 에너지 값보다 작거나, 제1 속성이 제2 사운드 채널에 할당되고 제2 오디오 에너지 값이 제1 오디오 에너지 값보다 작으면, 단계 S508로 진행한다; 그렇지 않으면 단계 S509로 진행한다.
즉, 사전에 특정 속성 요건을 만족시키는 사운드 채널에 대응하는 오디오 에너지 값이 다른 사운드 채널에 대응하는 오디오 에너지 값보다 작은 지 여부를 결정한다. 그렇다면, 단계 S508로 진행한다; 그렇지 않으면 단계 S509로 진행한다. 사전에 특정 속성 요건을 만족시키는 사운드 채널에 대응하는 오디오 에너지 값은 정확히 사운드 채널에 의해 출력된 오디오 파일의 오디오 에너지 값이다.
단계 S508: 제1 속성이 제1 사운드 채널에 할당되고 제1 오디오 에너지 값이 제2 오디오 에너지 값보다 작으면, 제1 사운드 채널의 속성을 제1 속성으로서 그리고 제2 사운드 채널의 속성을 제2 속성으로서 결정하는데, 즉 제1 사운드 채널을 반주 오디오를 출력하는 사운드 채널로서 그리고 제2 사운드 채널을 오리지널 오디오를 출력하는 사운드 채널로서 결정한다. 제1 속성이 제2 사운드 채널에 할당되고 제2 오디오 에너지 값이 제1 오디오 에너지 값보다 작으면, 제2 사운드 채널의 속성을 제1 속성으로서 그리고 제1 사운드 채널의 속성을 제2 속성으로서 결정하는데, 즉 제2 사운드 채널을 반주 오디오를 출력하는 사운드 채널로서 그리고 제1 사운드 채널을 오리지널 오디오를 출력하는 사운드 채널로서 결정한다.
이러한 방식으로, 사전에 특정 속성 요건을 만족시키는 사운드 채널은 반주 오디오를 출력하는 사운드 채널인 특정 속성 요건을 만족시키는 사운드 채널로서 결정될 수 있다.
일 실시예에서, 이 방법은 이 단계 후에 다음의 단계들을 추가로 포함한다:
특정 속성 요건을 만족시키는 사운드 채널을 표기한다;
사운드 채널들을 스위칭하는 것이 필요하다고 결정되면 특정 속성 요건을 만족시키는 사운드 채널의 표기에 기초하여 사운드 채널들 사이에 스위칭한다;
예를 들어, 특정 속성 요건을 만족시키는 사운드 채널은 반주 오디오를 출력하는 사운드 채널이다. 반주 오디오(예컨대 제1 사운드 채널)를 출력하는 사운드 채널이 결정된 후에, 사운드 채널은 반주 오디오 사운드 채널로서 표기된다. 이러한 방식으로, 사용자가 가라오케를 노래하고 있을 때 사용자는 표기된 사운드 채널에 기초하여 반주들과 오리지널들 사이에 스위칭할 수 있다;
대안적으로, 특정 속성 요건을 만족시키는 사운드 채널을 제1 사운드 채널 또는 제2 사운드 채널로서 통일되게 조정할 수 있다; 이러한 방식으로, 반주 오디오들/오리지널 오디오들을 출력하는 모든 사운드 채널들은 통일된 관리의 편의를 위해 통일될 수 있다.
단계 S509: 프롬프트 메시지를 출력한다. 여기서, 프롬프트 메시지는 제1 오디오 파일의 반주 오디오를 출력하는 대응하는 사운드 채널이 구별될 수 없다는 것을 사용자에게 프롬프트하는 데 사용되며, 따라서 사용자는 그것을 인위적으로 확인할 수 있다.
예를 들어, 제1 속성이 제1 사운드 채널에 할당되었지만 제1 오디오 에너지 값이 제2 오디오 에너지 값보다 작지 않거나, 제1 속성이 제2 사운드 채널에 할당되었지만 제2 오디오 에너지 값이 제1 오디오 에너지 값보다 작지 않으면, 제1 사운드 채널 및 제2 사운드 채널의 속성들은 인위적으로 확인될 필요가 있다.
상기 본 출원의 실시예를 적용함에 있어서, 음악 파일들의 특징들에 기초하여, 먼저 훈련된 DNN 모델을 이용하여 음악으로부터 사람-음성 성분을 추출한 다음, 이중 채널 사람-음성 에너지의 비교를 통해 최종 분류 결과를 획득한다. 최종 분류의 정확도는 99% 이상에 도달할 수 있다.
실시예 4
도 7은 본 출원의 실시예에 따른 오디오 정보 처리 방법의 흐름도이다. 도 7에 도시된 바와 같이, 본 출원의 실시예에 따른 오디오 정보 처리 방법은 다음의 단계들을 포함한다:
단계 S701: 미리 훈련된 DNN 모델을 이용하여 검출될 음악의 이중 채널 아 카펠라 데이터(및/또는 사람-음성 반주 데이터)를 추출한다.
아 카펠라 데이터를 추출하는 특정 프로세스는 도 8에 도시되어 있다. 도 8에 도시된 바와 같이, 먼저 훈련을 위한 아 카펠라 데이터와 훈련을 위한 음악 데이터의 특징들을 추출한 다음, DNN 훈련을 수행하여 DNN 모델을 획득한다. 추출될 아 카펠라 음악의 특징들을 추출하고 DNN 모델에 기초하여 DNN 디코딩을 수행한 다음, 특징들을 다시 추출하고, 최종적으로 아 카펠라 데이터를 획득한다.
단계 S702: 추출된 이중 채널 아 카펠라(및/또는 사람-음성 반주) 데이터의 평균 오디오 에너지 값을 각각 계산한다.
단계 S703: 이중 채널 아 카펠라(및/또는 사람-음성 반주) 데이터의 오디오 에너지 차이 값이 미리 결정된 임계 값보다 큰지 여부를 결정한다. 그렇다면, 단계 S704로 진행한다; 그렇지 않으면, 단계 S705로 진행한다.
단계 S704: 더 작은 평균 오디오 에너지 값을 갖는 아 카펠라(및/또는 사람-음성 반주) 데이터에 대응하는 사운드 채널을 반주 사운드 채널로서 결정한다.
단계 S705: 미리 훈련된 GMM을 이용하여 이중 채널 출력을 갖는 검출될 음악을 분류한다.
단계 S706: 반주 오디오로서 분류되는 사운드 채널에 대응하는 오디오 에너지 값이 더 작은지 여부를 결정한다. 그렇다면, 단계 S707로 진행한다; 그렇지 않으면, 단계 S708로 진행한다.
단계 S707: 더 작은 오디오 에너지 값을 갖는 사운드 채널을 반주 사운드 채널로서 결정한다.
단계 S708: 결정할 수 없기 때문에 인위적인 확인이 필요하다는 프롬프트 메시지를 출력한다.
본 출원에 의해 제공되는 오디오 정보 처리 방법이 실제로 구현되는 경우, 미리 결정된 GMM을 이용하여 반주 오디오 사운드 채널이 결정되는 동안 이중 채널 아 카펠라(및/또는 사람-음성 반주) 데이터가 추출될 수 있고, 그 후 회귀 함수를 이용하여 상기 단계 703 내지 단계 708을 실행한다. 단계 S705에서의 동작들은 미리 실행되었으므로, 도 9에 도시된 바와 같이, 회귀 함수가 이용될 때 그러한 동작들은 스킵되어야 한다는 점에 주목해야 한다. 도 9를 참조하면, 분류될 음악(즉, 검출될 음악)에 대해 이중 채널 디코딩을 수행한다. 이와 동시에, 아 카펠라 훈련 데이터를 이용하여 훈련을 통해 DNN 모델을 획득하고 반주 사람-음성 훈련 데이터를 이용하여 훈련을 통해 GMM 모델을 획득한다. 그 후, GMM 모델을 이용하여 유사도 계산을 수행하고 DNN 모델을 이용하여 아 카펠라 데이터를 추출하고, 위에 언급된 바와 같이 회귀 함수를 이용하여 동작하여 최종적으로 분류 결과들을 획득한다.
실시예 5
도 10은 본 출원의 실시예에 따른 오디오 정보 처리 장치의 구성의 구조도이다. 도 10에 도시된 바와 같이, 본 출원의 실시예에 따른 오디오 정보 처리 장치의 구성은 디코딩 모듈(11), 추출 모듈(12), 취득 모듈(13) 및 처리 모듈(14)을 포함하고;
디코딩 모듈(11)은 오디오 파일(즉, 제1 오디오 파일)을 디코딩하여 제1 사운드 채널에 대응하여 출력된 제1 오디오 서브파일 및 제2 사운드 채널에 대응하여 출력된 제2 오디오 서브파일을 취득하도록 구성되고;
추출 모듈(12)은 제1 오디오 서브파일로부터 제1 오디오 데이터를 그리고 제2 오디오 서브파일로부터 제2 오디오 데이터를 추출하도록 구성되고;
취득 모듈(13)은 제1 오디오 데이터의 제1 오디오 에너지 값 및 제2 오디오 데이터의 제2 오디오 에너지 값을 취득하도록 구성되고;
처리 모듈(14)은 제1 오디오 에너지 값 및 제2 오디오 에너지 값에 기초하여 제1 사운드 채널 및 제2 사운드 채널 중 적어도 하나의 속성을 결정하도록 구성된다.
제1 오디오 데이터와 제2 오디오 데이터는 동일한 속성을 가질 수 있다. 예를 들어, 제1 오디오 데이터는 제1 사운드 채널에 의해 출력된 사람-음성 오디오에 대응하고, 제2 오디오 데이터는 제2 사운드 채널에 의해 출력된 사람-음성 오디오에 대응한다;
추가로, 처리 모듈(14)은 제1 사운드 채널에 의해 출력된 사람-음성 오디오의 제1 오디오 에너지 값 및 제2 사운드 채널에 의해 출력된 사람-음성 오디오의 제2 오디오 에너지 값에 기초하여 제1 사운드 채널 및 제2 사운드 채널 중 어느 것이 반주 오디오를 출력하는 사운드 채널인지를 결정하도록 구성될 수 있다.
일 실시예에서, 이 장치는 상기 다수의 미리 결정된 오디오 파일의 주파수 스펙트럼 특징들을 각각 추출하고;
상기 추출된 주파수 스펙트럼 특징들을 오류 역전파(BP) 알고리즘을 이용하여 훈련시켜 DNN 모델을 획득하도록 구성된 제1 모델 훈련 모듈(15)을 추가로 포함하고;
대응적으로, 추출 모듈(12)은 추가로 제1 오디오 서브파일로부터 제1 오디오 데이터를 그리고 제2 오디오 서브파일로부터 제2 오디오 데이터를 각각 상기 DNN 모델을 이용하여 추출하도록 구성될 수 있다.
일 실시예에서, 처리 모듈(14)은 제1 오디오 에너지 값과 제2 오디오 에너지 값 사이의 차이 값을 결정하도록 구성된다. 그 차이 값이 미리 결정된 임계 값(미리 결정된 에너지 차이 임계 값)보다 크고 제1 오디오 에너지 값이 제2 오디오 에너지 값보다 작으면, 제1 사운드 채널의 속성을 제1 속성으로서 그리고 제2 사운드 채널의 속성을 제2 속성으로서 결정하는데, 즉 제1 사운드 채널을 반주 오디오를 출력하는 사운드 채널로서 그리고 제2 사운드 채널을 오리지널 오디오를 출력하는 사운드 채널로서 결정한다. 반대로, 제1 오디오 에너지 값과 제2 오디오 에너지 값 사이의 차이 값이 미리 결정된 임계 값보다 크고 제2 오디오 에너지 값이 제1 오디오 에너지 값보다 작으면, 제2 사운드 채널의 속성을 제1 속성으로서 그리고 제1 사운드 채널의 속성을 제2 속성으로서 결정하는데, 즉, 제2 사운드 채널을 반주 오디오를 출력하는 사운드 채널로서 그리고 제1 사운드 채널을 오리지널 오디오를 출력하는 사운드 채널로서 결정한다.
이러한 방식으로, 처리 모듈(14)이 제1 오디오 에너지 값과 제2 오디오 에너지 값 사이의 차이 값이 미리 결정된 에너지 차이 임계 값보다 크다는 것을 검출하는 경우, 제1 오디오 에너지 값 또는 제2 오디오 에너지 값(어느 것이든 더 작은 것)에 대응하는 제1 오디오 서브파일 또는 제2 오디오 서브파일이 특정 속성 요건을 만족시키는 오디오 파일로서 결정되고, 특정 속성 요건을 만족시키는 오디오 서브파일에 대응하는 사운드 채널이 특정 요건을 만족시키는 사운드 채널로서 결정된다.
대안적으로, 제1 오디오 에너지 값과 상기 제2 오디오 에너지 값 사이의 차이 값이 미리 결정된 에너지 차이 임계 값보다 크지 않다는 것을 검출하는 경우, 미리 결정된 분류 방법을 이용하여 제1 사운드 채널 및 제2 사운드 채널 중 적어도 하나에 속성을 할당하여, 제1 사운드 채널 및 제2 사운드 채널 중 어느 것이 특정 속성 요건을 만족시키는 사운드 채널인지를 사전에 결정한다.
일 실시예에서, 이 장치는 다수의 미리 결정된 오디오 파일의 지각 선형 예측(PLP) 특성 파라미터들을 추출하고;
상기 추출된 PLP 특성 파라미터들에 기초하여 기대치 최대화(EM) 알고리즘을 이용하여 훈련을 통해 가우시안 혼합 모델(GMM)을 획득하도록 구성된 제2 모델 훈련 모듈(16)을 추가로 포함하고;
대응적으로, 처리 모듈(14)은 추가로 훈련을 통해 획득된 GMM을 이용하여 제1 사운드 채널 및 제2 사운드 채널 중 적어도 하나에 속성을 할당하여, 제1 사운드 채널 또는 제2 사운드 채널을 사전에 특정 속성 요건을 만족시키는 사운드 채널로서 사전에 결정하도록 구성된다.
추가로, 처리 모듈(14)은 제1 오디오 에너지 값 및 제2 오디오 에너지 값을 결정하도록 구성된다. 제1 속성이 제1 사운드 채널에 할당되고 제1 오디오 에너지 값이 제2 오디오 에너지 값보다 작거나, 제1 속성이 제2 사운드 채널에 할당되고 제2 오디오 에너지 값이 제1 오디오 에너지 값보다 작으면. 이것도 특정 속성 요건을 만족시키는 사운드 채널에 대응하는 오디오 에너지 값이 다른 사운드 채널에 대응하는 오디오 에너지 값보다 작은지 여부를 사전에 결정하기 위한 것이고;
결과가 사전에 특정 속성 요건을 만족시키는 사운드 채널에 대응하는 오디오 에너지 값이 다른 사운드 채널에 대응하는 오디오 에너지 값보다 작다는 것을 나타내면, 사전에 특정 속성 요건을 만족시키는 사운드 채널을 특정 속성 요건을 만족시키는 사운드 채널로서 결정한다.
일 실시예에서, 처리 모듈(14)은 추가로 결과가 사전에 특정 속성 요건을 만족시키는 사운드 채널에 대응하는 오디오 에너지 값이 다른 사운드 채널에 대응하는 오디오 에너지 값보다 작지 않다는 것을 나타내는 경우 프롬프트 메시지를 출력하도록 구성된다.
오디오 정보 처리 장치에서의 디코딩 모듈(11), 추출 모듈(12), 취득 모듈(13), 처리 모듈(14), 제1 모델 훈련 모듈(15) 및 제2 모델 훈련 모듈(16)은 장치에서의 중앙 처리 유닛(Central Processing Unit, CPU), 디지털 신호 프로세서(Digital Signal Processor, DSP), 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA) 또는 주문형 집적 회로(Application Specific Integrated Circuit, ASIC)를 통해 달성될 수 있다.
도 11은 본 출원의 실시예에 따른 오디오 정보 처리 장치의 하드웨어 구성의 구조도이다. 하드웨어 엔티티(S11)의 일례로서, 장치는 도 11로서 도시되어 있다. 이 장치는 프로세서(111), 저장 매체(112) 및 적어도 하나의 외부 통신 인터페이스(113)를 포함하고; 프로세서(111), 저장 매체(112) 및 외부 통신 인터페이스(113)는 버스(114)를 통해 연결된다.
본 출원의 실시예에 따른 오디오 정보 처리 장치는 이동 전화기, 데스크톱 컴퓨터, PC 또는 올인원 머신일 수 있다는 점에 주목해야 한다. 물론, 오디오 정보 처리 방법은 서버의 동작들을 통해 달성될 수도 있다.
장치에 관한 상기 설명들은 그 방법에 관한 설명들과 유사하므로, 동일한 방법의 유리한 효과들에 대한 설명들은 본 명세서에서 생략된다는 점에 주목해야 한다. 본 출원에서 장치에 대한 실시예에 개시되어 있지 않은 기술적 세부사항들에 대해서는 본 출원에서 방법에 대한 실시예의 설명들을 참조한다.
물론, 본 출원의 실시예에 따른 오디오 정보 처리 장치는 단말기 또는 서버일 수 있다. 유사하게, 본 출원의 실시예에 따른 오디오 정보 처리 방법은 단말기에서 이용되는 것으로 한정되지 않고, 웹 서버 또는 음악 애플리케이션 소프트웨어(예를 들어, WeSing 소프트웨어)에 대응하는 서버와 같은 서버에서도 이용될 수 있다. 특정 처리 절차들에 대해서는 실시예에 대한 상기 설명들을 참조하고, 세부사항들은 본 명세서에서 생략된다.
이 분야의 통상의 기술자는 방법에 대한 상기 실시예들을 달성하기 위한 일부 또는 모든 단계들이 프로그램에 의해 지시되는 관련 하드웨어에 의해 완성될 수 있다는 것을 이해할 수 있다. 전술한 프로그램은 컴퓨터 판독가능 저장 매체에 저장될 수 있고, 그것은 실행 중 방법에 대한 상기 실시예들을 포함하는 단계들을 실행하고; 전술한 저장 매체는 이동 저장 디바이스, 랜덤 액세스 메모리(Random Access Memory, RAM), 판독 전용 메모리(Read-Only Memory, ROM), 디스크(disk), 디스크(disc) 또는 프로그램 코드들을 저장할 수 있는 다른 매체를 포함한다.
대안적으로, 본 출원의 상기 통합 유닛이 소프트웨어 기능 모듈의 형태로 달성되고 독립적인 제품으로서 판매되거나 사용되면, 그것은 컴퓨터 판독가능 저장 매체에 저장될 수도 있다. 이에 기초하여, 본 출원의 실시예에 따른 기술적 해결방안 또는 관련 기술에 기여하는 부분은 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고 컴퓨터 디바이스(개인용 컴퓨터, 서버 또는 네트워크 디바이스일 수 있음)가 본 출원의 실시예에 의해 제공되는 방법의 전부 또는 일부를 실행할 수 있게 하는 수 개의 명령을 포함한다. 전술한 저장 매체는 이동 저장 디바이스, RAM, ROM, 디스크, 디스크 또는 프로그램 코드들을 저장할 수 있는 다른 매체를 포함한다.
전술한 설명은 본 출원의 특정 실시예들에 불과하고, 본 출원의 보호 범위는 이에 한정되지 않는다. 이 분야의 통상의 기술자들에 의해 이루어진 본 출원에 개시된 기술적 범위 내의 임의의 변경들 또는 치환들은 본 출원의 보호 범위 내에 속할 것이다. 그러므로, 본 출원의 보호 범위는 첨부된 청구범위에 따라야 한다.

Claims (20)

  1. 오디오 정보 처리 방법으로서,
    오디오 파일을 디코딩하여 제1 사운드 채널에 대응하여 출력된 제1 오디오 서브파일 및 제2 사운드 채널에 대응하여 출력된 제2 오디오 서브파일을 취득하는 단계;
    상기 제1 오디오 서브파일로부터 제1 오디오 데이터를 추출하는 단계;
    상기 제2 오디오 서브파일로부터 제2 오디오 데이터를 추출하는 단계;
    상기 제1 오디오 데이터의 제1 오디오 에너지 값을 취득하는 단계;
    상기 제2 오디오 데이터의 제2 오디오 에너지 값을 취득하는 단계; 및
    상기 제1 오디오 에너지 값 및 상기 제2 오디오 에너지 값에 기초하여 상기 제1 사운드 채널 및 상기 제2 사운드 채널 중 적어도 하나의 속성을 결정하는 단계를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 방법은:
    다수의 PCM 오디오 파일들의 주파수 스펙트럼 특징들을 각각 추출하는 단계;
    상기 추출된 주파수 스펙트럼 특징들을 오류 역전파(BP) 알고리즘을 이용하여 훈련시켜 심층 신경망(DNN) 모델을 획득하는 단계를 추가로 포함하고,
    상기 제1 오디오 서브파일로부터 상기 제1 오디오 데이터를 추출하는 단계는:
    상기 DNN 모델을 이용하여 상기 제1 오디오 서브파일로부터 상기 제1 오디오 데이터를 추출하는 단계를 포함하고,
    상기 제2 오디오 서브파일로부터 상기 제2 오디오 데이터를 추출하는 단계는:
    상기 DNN 모델을 이용하여 상기 제2 오디오 서브파일로부터 상기 제2 오디오 데이터를 추출하는 단계를 포함하는, 방법.
  3. 제1항에 있어서,
    상기 제1 오디오 에너지 값 및 상기 제2 오디오 에너지 값에 기초하여 상기 제1 사운드 채널 및 상기 제2 사운드 채널 중 적어도 하나의 속성을 결정하는 단계는:
    상기 제1 오디오 에너지 값과 상기 제2 오디오 에너지 값 사이의 차이 값을 결정하는 단계;
    상기 제1 오디오 에너지 값과 상기 제2 오디오 에너지 값 사이의 상기 차이 값이 미리 결정된 임계 값보다 크고, 상기 제1 오디오 에너지 값이 상기 제2 오디오 에너지 값보다 작으면 상기 제1 사운드 채널의 속성을 제1 속성으로서 결정하는 단계를 포함하는, 방법.
  4. 제1항에 있어서,
    상기 제1 오디오 에너지 값 및 상기 제2 오디오 에너지 값에 기초하여 상기 제1 사운드 채널 및 상기 제2 사운드 채널 중 적어도 하나의 속성을 결정하는 단계는:
    상기 제1 오디오 에너지 값과 상기 제2 오디오 에너지 값 사이의 차이 값을 결정하는 단계;
    상기 제1 오디오 에너지 값과 상기 제2 오디오 에너지 값 사이의 상기 차이 값이 미리 결정된 임계 값보다 크지 않으면 미리 결정된 분류 방법을 이용하여 상기 제1 사운드 채널 및 상기 제2 사운드 채널 중 적어도 하나에 속성을 할당하는 단계를 포함하는, 방법.
  5. 제4항에 있어서,
    상기 방법은:
    다수의 미리결정된 오디오 파일들의 지각 선형 예측(Perceptual Linear Predictive, PLP) 특성 파라미터들을 추출하는 단계;
    상기 추출된 PLP 특성 파라미터들에 기초하여 EM 알고리즘을 이용하여 훈련을 통해 가우시안 혼합 모델(Gaussian Mixture Model, GMM)을 획득하는 단계를 추가로 포함하고;
    상기 미리 결정된 분류 방법을 이용하여 상기 제1 사운드 채널 및 상기 제2 사운드 채널 중 적어도 하나에 속성을 할당하는 단계는:
    훈련을 통해 획득된 상기 GMM을 이용하여 상기 제1 사운드 채널 및 상기 제2 사운드 채널 중 적어도 하나에 속성을 할당하는 단계를 포함하는, 방법.
  6. 제4항에 있어서, 상기 방법은 상기 속성이 상기 제1 사운드 채널에 할당되면:
    상기 제1 오디오 에너지 값이 상기 제2 오디오 에너지 값보다 작은지 여부를 결정하는 단계;
    결과가 상기 제1 오디오 에너지 값이 상기 제2 오디오 에너지 값보다 작다는 것을 나타내면 상기 제1 사운드 채널의 속성을 제1 속성으로서 결정하는 단계를 추가로 포함하는, 방법.
  7. 제3항에 있어서,
    상기 제1 오디오 데이터는 상기 제1 사운드 채널에 대응하여 출력된 사람-음성 오디오이고, 상기 제2 오디오 데이터는 상기 제2 사운드 채널에 대응하여 출력된 사람-음성 오디오이고;
    상기 제1 사운드 채널의 속성을 상기 제1 속성으로서 결정하는 단계는:
    상기 제1 사운드 채널을 반주 오디오를 출력하는 사운드 채널로서 결정하는 단계를 포함하는, 방법.
  8. 제1항에 있어서,
    상기 속성을 표기하는 단계;
    상기 제1 사운드 채널과 상기 제2 사운드 채널 사이의 스위칭이 필요한지 여부를 결정하는 단계; 및
    필요하다고 결정되면 상기 표기에 기초하여 상기 제1 사운드 채널과 상기 제2 사운드 채널 사이에 스위칭하는 단계를 추가로 포함하는, 방법.
  9. 제1항에 있어서, 상기 제1 오디오 데이터는 상기 제2 오디오 데이터와 동일한 속성을 갖는, 방법.
  10. 디코딩 모듈, 추출 모듈, 취득 모듈 및 처리 모듈을 포함하는 오디오 정보 처리 장치로서,
    상기 디코딩 모듈은 오디오 파일을 디코딩하여 제1 사운드 채널에 대응하여 출력된 제1 오디오 서브파일 및 제2 사운드 채널에 대응하여 출력된 제2 오디오 서브파일을 취득하도록 구성되고;
    상기 추출 모듈은 상기 제1 오디오 서브파일로부터 제1 오디오 데이터를 그리고 상기 제2 오디오 서브파일로부터 제2 오디오 데이터를 추출하도록 구성되고;
    상기 취득 모듈은 상기 제1 오디오 데이터의 제1 오디오 에너지 값 및 상기 제2 오디오 데이터의 제2 오디오 에너지 값을 취득하도록 구성되고;
    상기 처리 모듈은 상기 제1 오디오 에너지 값 및 상기 제2 오디오 에너지 값에 기초하여 상기 제1 사운드 채널 및 상기 제2 사운드 채널 중 적어도 하나의 속성을 결정하도록 구성되는, 장치.
  11. 제10항에 있어서,
    다수의 PCM 오디오 파일들의 주파수 스펙트럼 특징들을 각각 추출하고;
    상기 추출된 주파수 스펙트럼 특징들을 오류 역전파(BP) 알고리즘을 이용하여 훈련시켜 심층 신경망(DNN) 모델을 획득하도록 구성된 제1 모델 훈련 모듈을 추가로 포함하고,
    상기 추출 모듈은 추가로 상기 제1 오디오 서브파일로부터 상기 제1 오디오 데이터를 그리고 상기 제2 오디오 서브파일로부터 상기 제2 오디오 데이터를 각각 상기 DNN 모델을 이용하여 추출하도록 구성되는, 장치.
  12. 제10항에 있어서,
    상기 처리 모듈은 추가로:
    상기 제1 오디오 에너지 값과 상기 제2 오디오 에너지 값 사이의 차이 값을 결정하고;
    상기 제1 오디오 에너지 값과 상기 제2 오디오 에너지 값 사이의 상기 차이 값이 미리 결정된 임계 값보다 크고, 상기 제1 오디오 에너지 값이 상기 제2 오디오 에너지 값보다 작으면 상기 제1 사운드 채널의 속성을 제1 속성으로서 결정하도록 구성되는, 장치.
  13. 제10항에 있어서, 상기 처리 모듈은 추가로:
    상기 제1 오디오 에너지 값과 상기 제2 오디오 에너지 값 사이의 차이 값을 결정하고;
    상기 제1 오디오 에너지 값과 상기 제2 오디오 에너지 값 사이의 상기 차이 값이 미리 결정된 임계 값보다 크지 않으면 미리 결정된 분류 방법을 이용하여 상기 제1 사운드 채널 및 상기 제2 사운드 채널 중 적어도 하나에 속성을 할당하도록 구성되는, 장치.
  14. 제13항에 있어서,
    다수의 미리결정된 오디오 파일들의 지각 선형 예측(Perceptual Linear Predictive, PLP) 특성 파라미터들을 추출하고;
    상기 추출된 PLP 특성 파라미터들에 기초하여 기대치 최대화(Expectation Maximization, EM) 알고리즘을 이용하여 훈련을 통해 가우시안 혼합 모델(Gaussian Mixture Model, GMM)을 획득하도록 구성된 제2 모델 훈련 모듈을 추가로 포함하고;
    상기 처리 모듈은 추가로:
    훈련을 통해 획득된 상기 GMM을 이용하여 상기 제1 사운드 채널 및 상기 제2 사운드 채널 중 적어도 하나에 속성을 할당하도록 구성되는, 장치.
  15. 제13항에 있어서, 상기 속성이 상기 제1 사운드 채널에 할당되는 경우, 상기 처리 모듈은 추가로:
    상기 제1 오디오 에너지 값이 상기 제2 오디오 에너지 값보다 작은지 여부를 결정하고;
    결과가 상기 제1 오디오 에너지 값이 상기 제2 오디오 에너지 값보다 작다는 것을 나타내면 상기 제1 사운드 채널의 속성을 제1 속성으로서 결정하도록 구성되는, 장치.
  16. 제12항 또는 제15항에 있어서,
    상기 제1 오디오 데이터는 상기 제1 사운드 채널에 대응하여 출력된 사람-음성 오디오이고, 상기 제2 오디오 데이터는 상기 제2 사운드 채널에 대응하여 출력된 사람-음성 오디오이고,
    상기 제1 사운드 채널의 속성을 상기 제1 속성으로서 결정하는 것은:
    상기 제1 사운드 채널을 반주 오디오를 출력하는 사운드 채널로서 결정하는 것을 포함하는, 장치.
  17. 제10항에 있어서,
    상기 처리 모듈은 추가로:
    상기 속성을 표기하고;
    상기 제1 사운드 채널과 상기 제2 사운드 채널 사이의 스위칭이 필요한지 여부를 결정하고;
    필요하다고 결정되면 상기 표기에 기초하여 상기 제1 사운드 채널과 상기 제2 사운드 채널 사이에 스위칭하도록 구성되는, 장치.
  18. 제10항에 있어서, 상기 제1 오디오 데이터는 상기 제2 오디오 데이터와 동일한 속성을 갖는, 장치.
  19. 오디오 정보 처리 장치로서,
    하나 이상의 프로세서, 및
    메모리를 포함하고, 상기 메모리는 프로그램 명령들을 저장하고, 상기 명령들이 상기 하나 이상의 프로세서에 의해 실행되는 경우, 상기 장치는 제1항 내지 제9항 중 어느 한 항에서 청구된 바와 같은 방법을 실행하도록 구성되는, 오디오 정보 처리 장치.
  20. 컴퓨터 판독가능 저장 매체로서, 상기 매체는 프로그램 명령들을 저장하고, 상기 명령들이 계산 장치의 프로세서에 의해 실행되는 경우, 상기 장치는 제1항 내지 제9항 중 어느 한 항에서 청구된 바와 같은 방법을 실행하도록 구성되는, 컴퓨터 판독가능 저장 매체.
KR1020187010355A 2016-03-18 2017-03-16 오디오 정보 처리 방법 및 디바이스 KR102128926B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610157251.X 2016-03-18
CN201610157251.XA CN105741835B (zh) 2016-03-18 2016-03-18 一种音频信息处理方法及终端
PCT/CN2017/076939 WO2017157319A1 (zh) 2016-03-18 2017-03-16 音频信息处理方法及装置

Publications (2)

Publication Number Publication Date
KR20180053714A KR20180053714A (ko) 2018-05-23
KR102128926B1 true KR102128926B1 (ko) 2020-07-01

Family

ID=56251827

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187010355A KR102128926B1 (ko) 2016-03-18 2017-03-16 오디오 정보 처리 방법 및 디바이스

Country Status (6)

Country Link
US (1) US10410615B2 (ko)
JP (1) JP6732296B2 (ko)
KR (1) KR102128926B1 (ko)
CN (1) CN105741835B (ko)
MY (1) MY185366A (ko)
WO (1) WO2017157319A1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105741835B (zh) 2016-03-18 2019-04-16 腾讯科技(深圳)有限公司 一种音频信息处理方法及终端
CN106098081B (zh) * 2016-06-01 2020-11-27 腾讯科技(深圳)有限公司 声音文件的音质识别方法及装置
CN106448630B (zh) * 2016-09-09 2020-08-04 腾讯科技(深圳)有限公司 歌曲的数字乐谱文件的生成方法和装置
CN106375780B (zh) * 2016-10-20 2019-06-04 腾讯音乐娱乐(深圳)有限公司 一种多媒体文件生成方法及其设备
CN108461086B (zh) * 2016-12-13 2020-05-15 北京唱吧科技股份有限公司 一种音频的实时切换方法和装置
CN110085216A (zh) * 2018-01-23 2019-08-02 中国科学院声学研究所 一种婴儿哭声检测方法及装置
CN108231091B (zh) * 2018-01-24 2021-05-25 广州酷狗计算机科技有限公司 一种检测音频的左右声道是否一致的方法和装置
US10522167B1 (en) * 2018-02-13 2019-12-31 Amazon Techonlogies, Inc. Multichannel noise cancellation using deep neural network masking
CN109102800A (zh) * 2018-07-26 2018-12-28 广州酷狗计算机科技有限公司 一种确定歌词显示数据的方法和装置
CN111061909B (zh) * 2019-11-22 2023-11-28 腾讯音乐娱乐科技(深圳)有限公司 一种伴奏分类方法和装置
CN113420771B (zh) * 2021-06-30 2024-04-19 扬州明晟新能源科技有限公司 一种基于特征融合的有色玻璃检测方法
CN113744708B (zh) * 2021-09-07 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 模型训练方法、音频评价方法、设备及可读存储介质
CN114615534A (zh) * 2022-01-27 2022-06-10 海信视像科技股份有限公司 显示设备及音频处理方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4331376C1 (de) * 1993-09-15 1994-11-10 Fraunhofer Ges Forschung Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen
US7630500B1 (en) * 1994-04-15 2009-12-08 Bose Corporation Spatial disassembly processor
US5719344A (en) 1995-04-18 1998-02-17 Texas Instruments Incorporated Method and system for karaoke scoring
DE10109648C2 (de) * 2001-02-28 2003-01-30 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE60217484T2 (de) * 2001-05-11 2007-10-25 Koninklijke Philips Electronics N.V. Schätzung der signalleistung in einem komprimierten audiosignal
DE10123281C1 (de) * 2001-05-14 2002-10-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion
JP2003330497A (ja) * 2002-05-15 2003-11-19 Matsushita Electric Ind Co Ltd オーディオ信号の符号化方法及び装置、符号化及び復号化システム、並びに符号化を実行するプログラム及び当該プログラムを記録した記録媒体
JP4068069B2 (ja) 2004-01-13 2008-03-26 株式会社第一興商 バックコーラス音量を自動制御するカラオケ装置
GB2427338B (en) * 2005-06-17 2010-01-20 Univ Cambridge Tech Restoring corrupted audio signals
KR100772386B1 (ko) * 2005-12-10 2007-11-01 삼성전자주식회사 음악 파일 분류 방법 및 그 시스템
KR101215937B1 (ko) * 2006-02-07 2012-12-27 엘지전자 주식회사 IOI 카운트(inter onset intervalcount) 기반 템포 추정 방법 및 이를 위한 템포 추정장치
US8378964B2 (en) * 2006-04-13 2013-02-19 Immersion Corporation System and method for automatically producing haptic events from a digital audio signal
CN101577117B (zh) * 2009-03-12 2012-04-11 无锡中星微电子有限公司 伴奏音乐提取方法及装置
US8954175B2 (en) * 2009-03-31 2015-02-10 Adobe Systems Incorporated User-guided audio selection from complex sound mixtures
KR20140010468A (ko) * 2009-10-05 2014-01-24 하만인터내셔날인더스트리스인코포레이티드 오디오 신호의 공간 추출 시스템
CN101894559B (zh) * 2010-08-05 2012-06-06 展讯通信(上海)有限公司 音频处理方法及其装置
US8489403B1 (en) * 2010-08-25 2013-07-16 Foundation For Research and Technology—Institute of Computer Science ‘FORTH-ICS’ Apparatuses, methods and systems for sparse sinusoidal audio processing and transmission
JP2016514856A (ja) * 2013-03-21 2016-05-23 インテレクチュアル ディスカバリー カンパニー リミテッド オーディオ信号大きさの制御方法及び装置
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
CN105741835B (zh) 2016-03-18 2019-04-16 腾讯科技(深圳)有限公司 一种音频信息处理方法及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Andrew J.R. Simpson, et al. Deep karaoke: Extracting vocals from musical mixtures using a convolutional deep neural network. International Conference on Latent Variable Analysis and Signal Separation.*

Also Published As

Publication number Publication date
MY185366A (en) 2021-05-11
WO2017157319A1 (zh) 2017-09-21
JP2019502144A (ja) 2019-01-24
US10410615B2 (en) 2019-09-10
CN105741835B (zh) 2019-04-16
JP6732296B2 (ja) 2020-07-29
KR20180053714A (ko) 2018-05-23
CN105741835A (zh) 2016-07-06
US20180293969A1 (en) 2018-10-11

Similar Documents

Publication Publication Date Title
KR102128926B1 (ko) 오디오 정보 처리 방법 및 디바이스
US11670325B2 (en) Voice activity detection using a soft decision mechanism
CN108288468B (zh) 语音识别方法及装置
CN108305643B (zh) 情感信息的确定方法和装置
CN105096941A (zh) 语音识别方法以及装置
WO2022178969A1 (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
Krijnders et al. Sound event recognition through expectancy-based evaluation ofsignal-driven hypotheses
US11133022B2 (en) Method and device for audio recognition using sample audio and a voting matrix
CN105718486B (zh) 在线哼唱检索方法及系统
CN103903633A (zh) 检测语音信号的方法和装置
Mehrabi et al. Similarity measures for vocal-based drum sample retrieval using deep convolutional auto-encoders
US20210158816A1 (en) Method and apparatus for voice interaction, device and computer readable storate medium
CN107680584B (zh) 用于切分音频的方法和装置
CN112331188A (zh) 一种语音数据处理方法、系统及终端设备
CN113823323A (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN113223485B (zh) 节拍检测模型的训练方法、节拍检测方法及装置
KR101571746B1 (ko) 유사도판별장치 및 그 동작 방법
CN106782612B (zh) 一种逆向爆音检测方法及其装置
CN111243618B (zh) 用于确定音频中的特定人声片段的方法、装置和电子设备
KR20160056104A (ko) 사용자 음색 분석 장치 및 음색 분석 방법
CN113421554B (zh) 语音关键词检测模型处理方法、装置及计算机设备
CN114255785A (zh) 音频检测方法、装置、终端及存储介质
Yang Towards real-time music auto-tagging using sparse features
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
CN114822492B (zh) 语音合成方法及装置、电子设备、计算机可读存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant