KR20230098287A - 오디오 생성 방법 및 시스템 - Google Patents

오디오 생성 방법 및 시스템 Download PDF

Info

Publication number
KR20230098287A
KR20230098287A KR1020237018151A KR20237018151A KR20230098287A KR 20230098287 A KR20230098287 A KR 20230098287A KR 1020237018151 A KR1020237018151 A KR 1020237018151A KR 20237018151 A KR20237018151 A KR 20237018151A KR 20230098287 A KR20230098287 A KR 20230098287A
Authority
KR
South Korea
Prior art keywords
audio signal
frequency
audio
signal
noise ratio
Prior art date
Application number
KR1020237018151A
Other languages
English (en)
Inventor
진보 정
메이린 저우
펑윈 랴오
신 치
Original Assignee
썬전 샥 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 썬전 샥 컴퍼니 리미티드 filed Critical 썬전 샥 컴퍼니 리미티드
Publication of KR20230098287A publication Critical patent/KR20230098287A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

본 명세서에서 제공하는 오디오 생성 방법과 시스템에 의하면, 제1오디오 신호와 상기 제2오디오 신호가 주파수 영역내의 각 주파수에 대응하는 음성 품질에 따라 오디오 신호의 주파수 접합점을 동적으로 선택할 수 있으며, 주파수 영역을 제1주파수 구간과 제2주파수 구간으로 구분하고, 각 주파수 구간에 대응하는 음성 품질이 더 높은 오디오 신호를 접합함으로써, 제1오디오 신호와 제2오디오 신호가 융합된 타겟 오디오를 얻을 수 있으며, 타겟 오디오가 상기 주파수 영역내의 각 주파수 구간에서의 음성 품질이 최적이 되도록 함으로써 융합된 타겟 오디오의 음성 품질을 향상시킨다.

Description

오디오 생성 방법 및 시스템
본 명세서는 오디오 신호 처리 분야에 관한 것으로, 특히 오디오 생성 방법 및 시스템에 관한 것이다.
많은 생활 환경에서, 우리는 노이즈로 둘러싸여 있으며, 더 나은 청각 체험을 위해 음성을 증강시켜야 한다. 소위 음성 증강은 노이즈 억제라고도 할 수 있으며, 노이즈를 어느 정도 줄이거나 억제하여 노이즈로 둘러싸인 음성의 품질과 이해도 등 을 향상시키는 것을 말한다. 전통적인 방법에서, 신호원의 수집 장치는 일반적으로 공기 전도 소자, 즉 공기 전도 마이크로폰이다. 노이즈가 큰 환경하에, 공기 전도 마이크로폰에서 출력되는 유효한 오디오 신호는 거의 노이즈에 완전히 싸여있다.
현재, 골전도 마이크로폰은 이어폰 등 전자제품에 사용되고 있으며, 골전도 마이크로폰으로 음성 신호를 수신하는 앱도 점점 늘고 있다. 공기 전도 마이크로폰과 달리, 골전도 마이크로폰은 발성 부위의 진동 신호를 직접 픽업할 수 있어, 환경 노이즈의 영향을 어느 정도 줄일 수 있다. 점점 더 많은 전자 기기가 특성이 다른 공기 전도 마이크로폰과 골전도 마이크로폰을 결합하여 사용하고 있는 바, 공기 전도 마이크로폰을 통해 외부 오디오 신호를 픽업하고, 골전도 마이크로폰을 통해 발성 부위의 진동 신호를 픽업하며, 픽업된 신호에 대해 오디오 증강 처리와 융합을 실행한다. 특정 환경에서, 예를 들어 바람이 있는 노이즈 환경과 노이즈가 큰 환경에서 음성 품질을 최적화할 수 있다.
공기 전도 마이크로폰과 골전도 마이크로폰을 결합하는 방식은 일반적으로 공기 전도 마이크로폰이 픽업한 신호의 고주파 부분과 골전도 마이크로폰이 픽업한 신호의 저주파 부분을 취하여 이들을 조합함으로써 최종 음성 신호로 출력하는 것을 말한다. 현재 대부분의 공기 전도 마이크로폰과 골전도 마이크로폰을 결합하는 방식은, 주파수 접합점보다 낮은 주파수에 해당하는 골전도 마이크로폰 신호와 주파수 접합점보다 높은 주파수에 해당하는 공기 전도 마이크로폰 신호를 접합함으로써, 조합된 오디오 신호를 얻는다.
그러나, 서로 다른 화자가 동일한 환경 노이즈에서 동일한 골전도 마이크로폰 또는 공기 전도 마이크로폰을 사용하여 수집한 신호 강도와 신호 특성은 서로 다르다. 동일한 화자가 서로 다른 환경 노이즈에서 동일한 골전도 마이크로폰 또는 공기 전도 마이크로폰을 사용하여 수집한 신호 강도와 신호 특성도 서로 다르다. 따라서, 서로 다른 환경 노이즈 또는 화자가 동일한 주파수 접합점을 적용하여 오디오 신호를 접합하는 것은 불합리하며, 접합하여 얻은 음성 품질도 차하다.
따라서, 환경 노이즈 또는 화자의 오디오 신호에 따라 주파수 접합점을 선택하고, 오디오 신호를 접합 융합하여 보다 나은 음성 품질을 얻을 수 있는, 새로운 오디오 생성 방법 및 시스템을 제공할 필요가 있다.
본 명세서에서는 환경 노이즈 또는 화자의 오디오 신호에 따라 주파수 접합점을 선택하고, 오디오 신호를 접합 및 융합하여 보다 나은 음성 품질을 얻을 수 있는, 새로운 오디오 생성 방법 및 시스템을 제공한다.
제1측면에서, 본 명세서에서는 오디오 생성 방법을 제공하며, 상기 방법은 제1오디오 신호 및 제2오디오 신호를 취득하는 단계; 및 상기 제1오디오 신호 및 제2오디오 신호에 기초하여 타겟 오디오 신호를 생성하는 단계; 를 포함하며, 상기 타겟 오디오의 주파수 영역은 제1주파수 구간과 제2주파수 구간을 포함하고, 상기 타겟 오디오가 상기 제1주파수 구간에서의 오디오 신호는 상기 제1오디오 신호가 상기 제1주파수 구간에서의 오디오 신호를 포함하며, 상기 타겟 오디오가 상기 제2주파수 구간에서의 오디오 신호는 상기 제2오디오 신호가 상기 제2주파수 구간에서의 오디오 신호를 포함하고, 상기 제1주파수 구간과 상기 제2주파수 구간의 범위는 적어도 상기 제1오디오 신호가 상기 주파수 영역내의 제1 평가 지표의 동적 변동과 상기 제2 오디오 신호가 상기 주파수 영역내의 제2평가 지표의 동적 변동에 따라 동적으로 조정된다.
일부 실시예에서, 상기 제1평가 지표는 상기 제1오디오 신호의 음성 품질과 양의 상관관계가 있고, 상기 제2평가 지표는 상기 제2오디오 신호의 음성 품질과 양의 상관관계가 있으며, 상기 제1주파수 구간에서, 상기 제1오디오 신호의 음성 품질은 상기 제2오디오 신호의 음성 품질보다 높으며, 상기 제2주파수 구간에서, 상기 제1오디오 신호의 음성 품질은 상기 제2오디오 신호의 음성 품질보다 낮다.
일부 실시예에서, 상기 제1주파수 구간 내의 각 주파수에 대응하는 상기 제1평가 지표는 상기 제2평가 지표보다 높다.
일부 실시예에서, 상기 제1평가 지표는 상기 제1오디오 신호에 대응하는 제1신호 대 잡음비를 포함하고, 상기 제2평가 지표는 상기 제2오디오 신호에 대응하는 제2신호 대 잡음비를 포함한다.
일부 실시예에서, 상기 제1오디오 신호 및 상기 제2오디오 신호에 기초하여 타겟 오디오 신호를 생성하는 단계는, 상기 주파수 영역내의 상기 제1평가 지표와 상기 제2평가 지표를 결정하고 이들을 비교하는 단계; 적어도 상기 제1평가 지표 및 상기 제2평가 지표의 비교 결과에 기초하여, 적어도 하나의 타겟 주파수를 결정하며 이로써 상기 제1주파수 구간 및 상기 제2주파수 구간을 결정하는 단계, 여기서, 상기 적어도 하나의 타겟 주파수 각각은 상기 제1주파수 구간과 상기 제2주파수 구간의 연결 부위에 대응하는 주파수임; 및 상기 제1주파수 구간과 상기 제2주파수 구간 및 상기 제1오디오 신호와 상기 제2오디오 신호에 기초하여 상기 타겟 오디오를 생성하는 단계; 를 포함한다.
일부 실시예에서, 상기 제1주파수 구간은 적어도 하나의 연속 주파수 구간을 포함하고, 상기 제2주파수 구간도 적어도 하나의 연속 주파수 구간을 포함한다.
일부 실시예에서, 상기 제1주파수 구간 및 상기 제2주파수 구간을 결정하는 단계는, 상기 제1신호 대 잡음비와 상기 제2신호 대 잡음비가 동일한 경우에 대응하는 주파수에 기초하여, 상기 적어도 하나의 타겟 주파수를 결정하는 단계; 및 상기 적어도 하나의 타겟 주파수를 임계점으로 하여, 상기 제1신호 대 잡음비가 상기 제2신호 대 잡음비보다 높은 경우에 대응하는 주파수 구간을 상기 제1주파수 구간으로, 상기 제1주파수 구간 이외의 주파수 구간을 제2주파수 구간으로 결정하는 단계;를 포함한다.
일부 실시예에서, 상기 적어도 하나의 타겟 주파수 각각은 상기 제1신호 대 잡음비와 상기 제2신호 대 잡음비가 동일한 경우에 대응하는 주파수 근방의 미리 설정된 폭의 주파수 구간 내의 임의의 주파수를 포함한다.
일부 실시예에서, 상기 제1주파수 구간 및 상기 제2주파수 구간을 결정하는 단계는, 신호 대 잡음비 임계값을 얻는 단계; 상기 제1신호 대 잡음비 및 상기 제2신호 대 잡음비를 비교하여, 상기 제1신호 대 잡음비와 상기 제2신호 대 잡음비가 같은 경우에 대응하는 주파수를 적어도 하나의 제1타겟 주파수로 하는 단계; 상기 제1신호 대 잡음비와 상기 신호 대 잡음비 임계값을 비교하여, 상기 제1신호 대 잡음비와 상기 신호 대 잡음비 임계값이 같은 경우에 대응하는 주파수를 적어도 하나의 제2타겟 주파수로 하는 단계; 상기 적어도 하나의 제1 타겟 주파수와 상기 적어도 하나의 제2 타겟 주파수 중 각 주파수에 대응하는 제1신호 대 잡음비, 제2신호 대 잡음비 및 상기 신호 대 잡음비 임계값을 비교하여, 상기 제1신호 대 잡음비가 상기 제2신호 대 잡음비와 상기 신호 대 잡음비 임계값보다 작지 않은 경우에 대응하는 주파수를 상기 적어도 하나의 타겟 주파수로 하는 단계; 및 상기 적어도 하나의 타겟 주파수를 임계점으로 하여, 상기 제1신호 대 잡음비가 모두 상기 제2신호 대 잡음비보다 높은 경우에 대응하는 주파수 구간을 상기 제1주파수 구간으로 결정하고, 상기 제1주파수 구간 이외의 주파수 구간을 상기 제2주파수 구간으로 결정하는 단계; 를 포함한다.
일부 실시예에서, 상기 제1주파수 구간과 상기 제2주파수 구간 및 상기 제1오디오 신호와 상기 제2오디오 신호에 기초하여 상기 타겟 오디오를 생성하는 단계는, 상기 적어도 하나의 타겟 주파수 각각의 기 설정 범위내의 주파수에 대응하는 상기 제1오디오 신호와 상기 제2오디오 신호에 대한 평활화 처리를 실행함으로써, 상기 제1오디오 신호 중 상기 기 설정 범위내의 주파수에 대응하는 오디오 신호와 상기 제2오디오 신호 중 상기 기 설정 범위내의 주파수에 대응하는 오디오 신호를 평활하게 전환하는 단계; 및 상기 평활화 처리된 상기 제1오디오 신호 중 상기 제1주파수 구간의 오디오 신호와 상기 제2오디오 신호 중 상기 제2주파수 구간의 오디오 신호를 주파수 분포에 따라 접합함으로써 상기 타겟 오디오를 얻는 단계; 를 포함한다.
일부 실시예에서,상기 제1오디오 신호는 적어도 하나의 제1류 마이크로폰에서 출력된 오디오 신호이고, 상기 제2오디오 신호는 적어도 하나의 제2류 마이크로폰에서 출력된 오디오 신호이다.
일부 실시예에서,상기 적어도 하나의 제1류 마이크로폰은 인체 진동 신호를 수집하기 위한 것으로, 골전도 마이크로폰을 포함하며, 상기 적어도 하나의 제2류 마이크로폰은 공기 진동 신호를 수집하기 위한 것으로, 공기 전도 마이크로폰을 포함한다.
일부 실시예에서,상기 제1오디오 신호는 상기 적어도 하나의 제1류 마이크로폰에서 직접 출력된 오디오 신호를 포함하고, 상기 제2오디오 신호는 상기 적어도 하나의 제2류 마이크로폰에서 직접 출력된 오디오 신호를 포함한다.
일부 실시예에서,상기 제1오디오 신호는 상기 적어도 하나의 제1류 마이크로폰에서 직접 출력된 오디오 신호가 소음 저감 처리를 거친 후의 오디오 신호를 포함하고, 상기 제2오디오 신호는 상기 적어도 하나의 제2류 마이크로폰에서 직접 출력된 오디오 신호가 소음 저감 처리를 거친 후의 오디오 신호를 포함한다.
제2측면에서, 본 명세서에서는 적어도 하나의 저장 매체 및 적어도 하나의 프로세서를 포함하는 오디오 생성 시스템을 제공하며, 상기 적어도 하나의 저장 매체에는 적어도 하나의 명령 집합이 저장되어 오디오를 생성하고; 상기 적어도 하나의 프로세서는 상기 적어도 하나의 저장 매체와 통신 연결이 가능하며, 상기 오디오 생성 시스템이 작동될 때, 상기 적어도 하나의 프로세서가 상기 적어도 하나의 명령 집합을 판독하고, 상기 적어도 하나의 명령 집합의 지시에 따라, 본 명세서의 제1측면에 따른 상기 오디오 생성 방법을 실행한다.
상술한 기술방안으로부터 알 수 있다시피, 본 명세서에서 제공하는오디오 생성 방법과 시스템에 따르면, 제1오디오 신호와 제2오디오 신호가 주파수 영역내의 각 주파수에 대응하는 평가지표를 획득하고 비교함으로써, 제1오디오 신호와 제2오디오 신호가 주파수 영역내의 각 주파수에 대응하는 음성 품질을 비교할 수 있어, 음성 품질에 따라 오디오 신호의 주파수 접합점을 동적으로 선택할 수 있으며, 이로써 주파수 영역내의 각 주파수에 대해 영역 구분을 하여 각 주파수 구간에 대응하는 음성 품질이 더욱 높은 오디오 신호를 접합함으로써, 제1오디오 신호와 제2오디오 신호가 융합된 타겟 오디오를 얻을 수 있으며, 타겟 오디오가 상기 주파수 영역내의 각 주파수 구간에서의 음성 품질이 최적이 되도록 함으로써 융합된 타겟 오디오의 음성 품질을 향상시킨다.
상이한 시나리오에서도, 예를 들어 화자의 음성 신호가 다르거나 또는 환경 노이즈가 다른 시나리오에서도, 상기 방법과 시스템은 현재 시나리오에서의 제1오디오 신호와 제2오디오 신호의 음성 품질에 따라 주파수 분할점을 동적으로 선택하여 주파수에 대한 동적 영역 구분을 실행하고 오디오 신호를 접합하여 융합된 타겟 오디오가 더 높은 음성 품질을 갇도록 한다.
본 명세서에서 제공하는 오디오 생성 방법과 시스템의 기타 기능은 하기 설명 내용에 일부 기재된다. 기재에 따르면, 이하 숫자와 예시에 의해 설명된 내용은 당업자들에게 있어서 명백한 것이다. 본 명세서에서 제공되는 오디오 생성 방법 및 시스템의 창조적 측면은 실천 또는 하기 상세한 예시에 설명된 방법, 장치 및 조합에 의해 충분히 설명될 수 있다.
본 명세서 실시예의 기술방안을 보다 명확하게 설명하기 위하여, 이하에서는 실시예의 설명에 필요한 도면을 간략히 소개하는 바, 이하 설명된 도면은 단지 본 명세서의 일부 실시예일 뿐이며, 해당 기술분야의 당업자들에게 있어서, 창조적인 노동이 필요하지 않는 전제하에 이들 도면에 따라 다른 도면을 얻을 수 있음은 분명하다.
도 1은 본 명세서의 실시예에 따라 제공되는 오디오 생성 시스템의 장치 설명도이다.
도 2는 본 명세서의 실시예에 따라 제공되는 오디오 생성 방법의 흐름도이다.
도 3은 본 명세서의 실시예에 따라 제공되는 제1오디오 신호와 제2오디오 신호의 주파수 스펙트럼 설명도이다.
도 4는 본 명세서의 실시예에 따라 제공되는 제1신호 대 잡음비와 제2신호 대 잡음비의 설명도이다.
도 5는 본 명세서의 실시예에 따라 제공되는 제1주파수 구간과 제2주파수 구간을 결정하는 흐름도이다.
도 6은 본 명세서의 실시예에 따라 제공되는 제1주파수 구간과 제2주파수 구간의 설명도이다.
도 7은 본 명세서의 실시예에 따라 제공되는 제1주파수 구간과 제2주파수 구간을 결정하는 또 다른 흐름도이다.
도 8은 본 명세서의 실시예에 따라 제공되는 제1주파수 구간과 제2주파수 구간의 또 다른 설명도이다.
도 9은 본 명세서의 실시예에 따라 제공되는 타겟 오디오의 설명도이다.
도 10은 본 명세서의 실시예에 따라 제공되는 타겟 오디오의 또 다른설명도이다.
하기 설명에서는 본 명세서의 특정 응용 시나리오 및 요구 사항을 개시하며, 당업자들이 본 명세서의 내용을 제조하고 사용할 수 있도록 하기 위한 것이다. 개시된 실시예에 대한 일부 수정은 당업자들에게 있어서 자명한 것이며, 본 명세서의 사상과 범위를 벗어나지 않는 전제하에, 여기에 정의된 일반 원리를 다른 실시예 및 응용에 적용할 수 있다. 따라서, 본 명세서는 예시된 실시예에 국한되지 않으며, 청구범위와 일치하는 가장 넓은 범위를 가진다.
여기에 사용된 용어는 특정된 예시적 실시예의 목적을 설명하는 데만 사용되며 제한적이지 않다. 예를 들어, 문맥에 달리 명시되지 않는 한, 여기서 사용되는 단수 형태 '일', '하나' 및 '해당'은 복수 형태를 포함할 수 있다. 본 명세서에서 사용할 경우, 용어 '포괄', '포함' 및/또는 '함유'는 관련된 정수, 단계, 동작, 요소 및/또는 조합의 존재를 의미하지만 하나 이상의 다른 특징, 정수, 단계, 동작, 요소 및/또는 조합의 존재를 배제하는 것이 아니며, 해당 시스템/방법에 다른 특징, 정수, 단계, 동작, 요소 및/또는 조합을 추가할 수도 있다.
이하 설명을 고려할 때, 본 명세서의 이러한 특징과 기타 특징 및 구조의 관련 요소의 동작과 기능 및 구성 요소의 조합 및 제조의 경제성을 크게 향상시킬 수 있다. 첨부 도면을 참조하면, 모든 것은 본 명세서의 일부를 형성한다. 하지만, 도면은 단지 설명 및 설명의 목적으로만 사용되며, 명세서의 범위를 제한하려는 것이 아님을 분명히 이해해야 한다. 또한, 첨부 도면이 비례에 따라 그려진것이 않음을 이해해야 한다.
본 명세서에 사용된 흐름도는 본 명세서의 실시예에 따른 시스템에 의해 구현된 동작을 나타낸다. 흐름도의 동작이 순서대로 이루어지지 않을 수 있다는 것을 분명히 이해해야 한다. 동작은 순서를 바꾸거나 동시에 실행될 수도 있다. 또한, 하나 이상의 다른 동작을 흐름도에 추가할 수도 있다. 하나 이상의 동작을 흐름도에서 제거할 수도 있다.
합성된 후의 음성 신호의 음성 품질을 향상시키기 위하여 본 명세서에서 제공되는 오디오 생성 방법 및 시스템은 골전도 마이크로폰 신호와 공기 전도 마이크로폰 신호의 서로 다른 응용 시나리오에서의 음성 품질에 따라 골전도 마이크로폰 신호와 공기 전도 마이크로폰 신호를 합성하여 타겟 오디오를 생성함으로써, 주파수 영역내의 임의의 주파수에서 음성 품질이 더 좋은 오디오 신호를 선택하고 선택된 오디오 신호를 접합하여 타겟 오디오을 얻을 수 있으며, 상기 타겟 오디오가 주파수 영역내의 임으의 주파수에서의 오디오 신호가 최적화된 오디오 신호임을 보장할 수 있다.
도 1은 오디오 생성 시스템(100, 이하 시스템(100)이라 함)의 장치 설명도이다. 시스템(100)은 전자장치(200)에 적용될 수 있다.
일부 실시예에서,전자장치(200)는 무선 이어폰, 유선 이어폰, 스마트 웨어러블 기기, 예를 들어 스마트 안경, 스마트 헬멧 또는 스마트 손목시계와 같은 오디오 처리 기능이 있는 장치일 수 있다. 전자장치(200)는 또한 모바일 장치, 태블릿 PC, 노트북 컴퓨터, 자동차 내장 장치 또는 이와 유사한 내용 또는 이들의 임의의 조합일 수 있다. 일부 실시예에서, 모바일 장치는 스마트홈 장치, 스마트 모바일 장치 또는 이와 유사한 장치 또는 이들의 임의의 조합을 포함할 수 있다. 예를 들어, 상기 스마트 모바일 장치는 휴대폰, 개인 디지털 어시스턴트, 게임 장치, 내비게이션 장치, 슈퍼 모바일 퍼스널 컴퓨터(Ultra-mobile Personal Computer, UMPC) 등 을 포함하거나 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시예에서, 상기 스마트홈 장치는 스마트 TV, 데스크톱 컴퓨터 등 을 포함하거나 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시예에서, 자동차의 내장 장치는 차량용 컴퓨터, 차량용 TV 등을 포함할 수 있다.
전자장치(200)는 본 명세서에서 설명된 오디오 생성 방법을 실행하기 위한 데이터 또는 명령을 저장하고, 데이터 및/또는 명령을 실행할 수 있다. 전자장치(200)는 처리할 오디오 신호를 수신하고, 본 명세서에서 설명된 오디오 생성 방법에 따른 데이터 또는 명령을 실행하며, 상기 처리할 오디오 신호를 합성하여 타겟 오디오를 생성할 수 있다. 상기 오디오 생성 방법은 본 명세서의 다른 부분에서 설명된다. 예를 들면, 도 2 내지 도 10에 관련된 기재에 오디오 생성 방법이 설명된다.
상기 처리할 오디오 신호에는 적어도 2개의 서로 다른 오디오 신호가 포함된다. 상기 오디오 생성 방법은 상기 적어도 2개의 서로 다른 오디오 신호가 주파수 영역내의 음성 품질에 따라 상기 적어도 2개의 서로 다른 오디오 신호를 접합하여 타겟 오디오를 획득함으로써, 상기 타겟 오디오의 음성 품질을 향상시킨다. 구체적으로, 전자장치(200)는 상기 적어도 2개의 서로 다른 오디오 신호가 주파수 영역내의 각 주파수에 대응하는 음성 품질을 비교할 수 있으며, 각 주파수 내의 더 나은 음성 품질을 가진 오디오 신호를 선택하여 접합함으로써 상기 타겟 오디오를 얻을 수 있다. 상기 타겟 오디오가 상기 주파수 영역내의 모든 주파수에 대응하는 오디오 신호의 음성 품질이 모두 최적일 수 있다.
상기 처리할 오디오 신호는 전자장치(200)에 저장된 로컬 오디오 신호이거나, 전자장치(200)의 오디오 수집장치에서 출력된 오디오 신호일 수도 있으며, 기타 장치에서 전자장치(200)로 발송한 오디오 신호 등 일 수도 있다. 상기 오디오 수집장치는 전자장치(200)에 집적될 수 있거나, 전자장치(200)와 통신 연결된 외접식 장치 일 수 있다. 상기 처리할 오디오 신호는 소음 저감 처리를 거친 오디오 신호이거나, 소음 저감 처리를 거치지 않은 오디오 신호일 수 있다. 설명의 편의를 위해, 이하에서는 상기 처리할 오디오 신호가 전자장치(200)의 오디오 수집장치에서 출력된 오디오 신호임을 예를 들어 설명한다.
도 1에 도시된 바와 같이, 전자장치(200)는 적어도 하나의 저장 매체(230)와 적어도 하나의 프로세서(220)를 포함할 수 있다. 일부 실시예에서, 전자장치(200)는 통신 포트(250)와 내부 통신 버스(210)를 더 포함할 수 있다. 동시에, 전자장치(200)는 I/O컴포넌트(260)를 더 포함할 수 있다. 일부 실시예에서,전자장치(200)는 마이크로폰 모듈(240)을 더 포함할 수 있다.
내부 통신 버스(210)는 저장 매체(230), 프로세서(220)와 마이크로폰 모듈(240) 등 을 포함한 서로 다른 시스템 컴포넌트에 연결될 수 있다.
I/O컴포넌트(260)는 전자장치(200)와 기타 컴포넌트간의 입력/출력을 지원한다. 예를 들면, 전자장치(200)는I/O컴포넌트(260)를 통해 상기 처리할 오디오 신호를 획득한다.
통신 포트(250)는 전자장치(200)가 외부와의 데이터 통신을 하기 위한것이다. 예를 들면, 전자장치(200)는 통신 포트(250)를 통해 상기 처리할 오디오 신호를 획득할 수 있다.
적어도 하나의 저장 매체(230)는 데이터 저장 장치를 포함할 수 있다.상기 데이터 저장 장치는 비일시적 저장 매체이거나, 일시적 저장 매체일 수 있다. 예를 들면,상기 데이터 저장 장치는 자기 디스크(232), 읽기 전용 메모리(ROM, 234), 랜덤 액세스 메모리(RAM, 236)중 하나 이상일 수 있다. 저장 매체(230)는 오디오 생성을 위한, 상기 데이터 저장 장치에 저장된 적어도 하나의 명령 집합을 더 포함한다. 상기 명령은 컴퓨터 프로그램 코드이며, 상기 컴퓨터 프로그램 코드는 본 명세서에서 제공되는 오디오 생성 방법을 실행하기 위한 프로그램, 루틴, 객체, 컴포넌트, 데이터 구조, 프로세스, 모듈 등 을 포함할 수 있다. 적어도 하나의 저장 매체(230)에는 상기 처리할 오디오 신호가 저장될 수 도 있다.
적어도 하나의 프로세서(220)는 적어도 하나의 저장 매체(230)와 내부 통신 버스(210)를 통해 통신 연결된다. 상기 통신 연결은 직접 또는 간접적으로 정보를 수신할 수 있는 임의의 형태의 연결을 말한다. 적어도 하나의 프로세서(220)는 상술한 적어도 하나의 명령 집합을 실행하기 위한 것이다. 시스템(100)이 작동되면, 적어도 하나의 프로세서(220)가 상기 적어도 하나의 명령 집합을 판독하고, 상기 적어도 하나의 명령 집합의 지시에 따라 본 명세서에서 제공되는 오디오 생성 방법을 실행한다. 프로세서(220)는 오디오 생성 방법에 포함된 모든 단계를 실행할 수 있다. 프로세서(220)는 하나 또는 복수개의 프로세서의 형태일 수 있으며, 일부 실시예에서, 프로세서(220)는 하나 또는 복수개의 하드웨어 프로세서를 포함할 수 있는 바, 예를 들면 마이크로 컨트롤러, 마이크로 프로세서, 간소화된 명령 집합 컴퓨터(RISC), 전용 집적 회로(ASIC), 응용에 특화된 명령 집합 프로세서(ASIP), 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU), 물리 처리 장치(PPU), 마이크로 컨트롤러 장치, 디지털 신호 프로세서(DSP), 현장 프로그래머블 게이트 어레이(FPGA), 고급 RISC 기기(ARM), 프로그래머블 논리 디바이스(PLD), 하나 또는 복수의 기능을 실행할 수 있는 임의의 회로 또는 프로세서 등, 또는 이들의 조합을 포함할 수 있다.
설명의 편의를 위해, 본 명세서에서 전자장치(200)는 단지 하나의 프로세서(220)만 기재되었다. 그러나, 본 명세서의 전자장치(200)는 복수의 프로세서를 포함할 수 있기에, 본 명세서에 의해 개시된 동작 및/또는 방법 단계는 본 명세서에 기재된 바와 같이 하나의 프로세서에 의해 실행되거나 복수의 프로세서에 의해 공동으로 실행될 수 있다는 점에 유의해야 한다. 예를 들어, 본 명세서의 전자장치(200)의 프로세서(220)가 단계 A와 B를 실행하는 경우, 단계 A와 B는 2개의 서로 다른 프로세서(220)에 의해 결합되거나 별도로 실행될 수 있음을 이해해야 한다(예를 들어, 제1프로세서는 단계 A를 실행하고, 제2프로세서는 단계 B를 실행하거나, 제1 및 제2프로세서가 단계 A와 B를 공동으로 실행한다).
일부 실시예에서,전자장치(200)는 마이크로폰 모듈(240)을 더 포함할 수 있다. 마이크로폰 모듈(240)은 전자장치(200)의 오디오 수집장치일 수 있다. 마이크로폰 모듈(240)은 현지의 오디오 신호를 획득하고 마이크로폰 신호를 출력하도록 설정될 수 있으며, 다시 말해서 오디오 정보의 전자 신호를 휴대할 수 있다. 상기 처리할 오디오 신호는 마이크로폰 모듈(240)에서 출력된 상기 마이크로폰 신호일 수 있다. 마이크로폰 모듈(240)은 적어도 하나의 프로세서(220) 및 적어도 하나의 저장 매체(230)와 통신 연결될 수 있다. 상기 처리할 오디오 신호가 상기 마이크로폰 신호이고, 시스템(100)이 작동되는 경우, 적어도 하나의 프로세서(220)는 상기 적어도 하나의 명령 집합을 판독하고 상기 적어도 하나의 명령 집합의 지시에 따라 상기 마이크로폰 신호를 획득할 수 있으며, 본 명세서에서 제공되는 오디오 생성 방법을 실행할 수 있다. 마이크로폰 모듈(240)은 전자장치(200)에 집적되거나, 전자장치(200)의 외접식 장치일 수 있다.
마이크로폰 모듈(240)은 현지의 오디오 신호를 획득하고 마이크로폰 신호를 출력하도록 설정될 수 있으며, 다시 말해서 오디오 정보의 전자 신호를 휴대할 수 있다. 마이크로폰 모듈(240)은 귀 밖 마이크로폰 모듈이거나 귓속 마이크로폰 모듈일 수 있다. 예를 들면, 마이크로폰 모듈(240)은 이도 외부에 설치된 마이크로폰이거나, 이도 내에 설치된 마이크로폰일 수 있다. 마이크로폰 모듈(240)은 적어도 하나의 제1류 마이크로폰(242)과 적어도 하나의 제2류 마이크로폰(244)을 포함할 수 있다. 제1류 마이크로폰(242)은 제2류 마이크로폰(244)과 다르다. 제1류 마이크로폰(242)은 인체 진동 신호를 수집하기 위한 것으로, 예를 들면 골전도 마이크로폰일 수 있다. 제2류 마이크로폰(244)은 공기 진동 신호를 수집하기 위한 것으로, 예를 들면 공기 전도 마이크로폰일 수 있다. 물론, 마이크로폰 모듈(240)은 기타 유형의 마이크로폰일 수 있다. 예를 들면, 제1류 마이크로폰(242)은 광학 마이크로폰일 수 있고, 제2류 마이크로폰(244)은 근전도 신호를 수신하는 마이크로폰 일 수 있다. 설명을 용이하게 하기 위해, 본 발명은 제1종 마이크로폰(242)이 골전도 마이크로폰이고 제2류 마이크로폰(244)이 공기 전도 마이크로폰임을 예로 들어 설명한다.
골전도 마이크로폰은 광학 진동 센서, 가속도 센서 등 과 같은 진동 센서를 포함할 수 있다. 상기 진동 센서는 기계적 진동 신호(예를 들면 사용자가 말할 때 피부 또는 골격에서 발생하는 진동으로 인해 생성된 신호)를 수집할 수 있으며, 해당 기계적 진동 신호를 전기 신호로 전환할 수 있다. 여기서 말하는 기계적 진동 신호는 주로 고체를 통해 전파되는 진동을 말한다. 골전도 마이크로폰은 상기 진동 센서 또는 상기 진동 센서와 연결된 진동 부재를 통해 사용자의 피부 또는 골격과 접촉함으로써, 사용자가 소리를 낼 때 골격 또는 피부에 발생하는 진동 신호를 수집하고 진동 신호를 전기 신호로 전환한다. 일부 실시예에서,상기 진동 센서는 기계적 진동에 민감하지만 공기 진동에는 민감하지 않은 장치(즉, 기계적 진동에 대한 상기 진동 센서의 응답 능력이 공기 진동에 대한 상기 진동 센서의 응답 능력을 초과함)일 수 있다. 골전도 마이크로폰은 발성 부위의 진동 신호를 직접 픽업할 수 있기 때문에 골전도 마이크로폰은 환경 노이즈의 영향을 줄일 수 있다.
공기 전도 마이크로폰은 사용자가 소리를 낼 때 발생하는 공기 진동 신호를 수집하고 공기 진동 신호를 전기 신호로 전환한다. 공기 전도 마이크로폰은 단독의 공기 전도 마이크로폰 또는 둘 이상의 공기 전도 마이크로폰으로 구성된 마이크로폰 어레이일 수 있다. 마이크로폰 어레이는 빔 형성 마이크로폰 어레이 또는 기타 유사한 마이크로폰 어레이일 수 있다. 마이크로폰 어레이를 통해 공간의 다른 방향 또는 다른 위치의 소리를 수집할 수 있다.
상기 골전도 마이크로폰이 출력하는 오디오 신호는 저주파에서 노이즈의 영향을 효과적으로 감소시킬 수 있으므로, 상기 골전도 마이크로폰이 출력하는 오디오 신호가 저주파에서의 오디오 품질은 공기 전도 마이크로폰이 저주파에서의 오디오 품질보다 높다. 고주파 영역에서, 골전도 마이크로폰이 출력하는 오디오 신호의 음성 품질은 공기 전도 마이크로폰이 출력하는 오디오 신호의 음성 품질에 비해 차하다. 공기 전도 마이크로폰이 출력하는 오디오 신호는 각 주파수 대역에서 비교적 안정적이다.
제1류 마이크로폰(242)은 제1오디오 신호를 출력할 수 있다. 제2류 마이크로폰(244)은 제2오디오 신호를 출력할 수 있다. 상기 처리할 오디오 신호는 상기 제1오디오 신호와 상기 제2오디오 신호를 포함할 수 있다.
본 명세서에서 제공하는 오디오 생성 방법은 상기 제1오디오 신호와 상기 제2오디오 신호를 합성하여 타겟 오디오를 생성할 수 있다. 상기 제1오디오 신호는 제1류 마이크로폰(242)에서 직접 출력된 오디오 신호이거나, 제1류 마이크로폰(242)에서 직접 출력된 오디오 신호가 소음 저감 처리를 거친 후의 오디오 신호일 수 있다. 상기 제2오디오 신호는 제2류 마이크로폰(244)에서 직접 출력된 오디오 신호이거나, 제2류 마이크로폰(244) 에서 직접 출력된 오디오 신호가 소음 저감 처리를 거친 후의 오디오 신호일 수 있다. 유의해야 될 점은, 제1오디오 신호가 제1류 마이크로폰(242)에서 직접 출력된 오디오 신호인 경우, 제2오디오 신호 또한 제2류 마이크로폰(244)에서 직접 출력된 오디오 신호이다. 제1오디오 신호가 제1류 마이크로폰(242)에서 직접 출력된 오디오 신호가 소음 저감 처리를 거친 후의 오디오 신호인 경우, 제2오디오 신호 또한 제2류 마이크로폰(244)에서 직접 출력된 오디오 신호가 소음 저감 처리를 거친 후의 오디오 신호이다. 상기 제1오디오 신호와 상기 제2오디오 신호의 소음 저감 처리방법은 동일하거나 상이할 수 있다.
제1류 마이크로폰(242)의 수량이 복수개인 경우, 상기 제1오디오 신호는 상기 복수개의 제1류 마이크로폰(242)에서 각각 출력된 마이크로폰 오디오 신호를 융합한 오디오 신호이다. 제2류 마이크로폰(244)의 수량이 복수개인 경우, 상기 제2오디오 신호는 상기 복수개의 제2류 마이크로폰(244)에서 출력된 싱글 마이크로폰 오디오 신호를 융합한 오디오 신호이다.
예를 들면, 제1류 마이크로폰(242)의 수량이 1개, 제2류 마이크로폰(244)의 수량도 1개인 경우, 상기 제1오디오 신호는 제1류 마이크로폰(242)에서 직접 출력된 오디오 신호이며, 이때, 제2오디오 신호도 제2류 마이크로폰(244)에서 직접 출력된 오디오 신호이다. 상기 제1오디오 신호는 제1류 마이크로폰(242)에서 직접 출력된 오디오 신호가 소음 저감 처리를 거친 후의 오디오 신호일 수 있으며, 제2오디오 신호도 제2류 마이크로폰(244)에서 직접 출력된 오디오 신호가 소음 저감 처리를 거친 후의 오디오 신호일 수 있다.
예를 들면, 제1류 마이크로폰(242)의 수량이 1개, 제2류 마이크로폰(244)의 수량이 복수개인 경우, 상기 제1오디오 신호는 제1류 마이크로폰(242)에서 직접 출력된 오디오 신호이며, 이때, 제2오디오 신호는 제2류 마이크로폰(244) 중 복수개의 마이크로폰에서 직접 출력된 오디오 신호를 싱글 마이크로폰 소음 저감 처리한 후 융합하여 얻은 오디오 신호이며; 상기 제1오디오 신호는 제1류 마이크로폰(242) 에서 직접 출력된 오디오 신호가 소음 저감 처리를 거친 후의 오디오 신호일 수 있으며, 제2오디오 신호도 제2류 마이크로폰(244)중 복수개의 마이크로폰에서 직접 출력된 오디오 신호를 싱글 마이크로폰 소음 저감 처리 및 신호 융합한 후, 멀티 마이크로폰 소음 저감 처리를 하여 얻은 오디오 신호일 수 있다. 상기 소음 저감 처리 알고리즘은 스펙트럼 감산, 베르너 필터링, MMSE 알고리즘, MMSE 기반 개선된 알고리즘 중 하나 또는 임의의 조합과 같은 전통적인 음성 노이즈 저감 알고리즘일 수 있다.
특히, 복수개의 공기 전도 마이크로폰으로 구성된 제2류 마이크로폰(244)의 경우, 제2류 마이크로폰(244)에서 직접 출력된 오디오 신호는 소음 저감 처리를 거쳐 음성 품질이 현저히 향상하므로, 제2류 마이크로폰(244) 에서 직접 출력된 오디오 신호가 소음 저감 처리를 거쳐 얻은 오디오 신호를 상기 제2오디오 신호로 하여, 오디오 생성 효율을 향상시킬 수 있는 동시에, 타겟 오디오의 음성 품질을 향상시키고, 계산량을 줄이고 계산 비용을 절감할 수 있다.
시스템(100)은 상기 타겟 오디오에 대하여 추가로 소음 저감 처리를 하여 상기 타겟 오디오의 음성 품질을 향상시킬 수 있다. 시스템(100)은 먼저 상기 제1오디오 신호와 상기 제2오디오 신호에 대해 소음 저감 처리를 하여 타겟 오디오를 생성할 수 있으며, 먼저 상기 제1오디오 신호와 상기 제2오디오 신호를 합성하여 상기 타겟 오디오를 생성한 후, 다시 소음 저감 처리를 실행할 수 도 있다.
도 2는 본 명세서의 실시예에 따라 제공되는 오디오 생성 방법(P100)의 흐름도이다. 상기 방법(P100)은 상기 제1오디오 신호와 상기 제2오디오 신호를 합성하여 음성 품질이 더 높은 오디오 신호를 얻을 수 있다. 구체적으로, 상기 방법(P100)은 상기 제1오디오 신호와 상기 제2오디오 신호가 상기 주파수 영역에서의 음성 품질에 따라 항상 음성 품질이 더 높은 오디오 신호를 선택하고 접합하여 타겟 오디오를 얻을 수 있다. 도 2에 도시된 바와 같이, 상기 방법(P100)은 다음과 같은 단계를 포함할 수 있다.
S120: 전자장치(200)는 제1오디오 신호 및 제2오디오 신호를 획득한다.
전술한 바와 같이, 상기 제1오디오 신호와 상기 제2오디오 신호는 서로 다른 오디오 신호이다. 상기 제1오디오 신호와 상기 제2오디오 신호는 서로 다른 특성을 갖는다. 상기 제1오디오 신호와 상기 제2오디오 신호는 주파수 영역내에서 서로 다른 음성 품질을 갖는다. 상기 제1오디오 신호는 골전도 마이크로폰에서 출력되는 오디오 신호이고, 상기 제2오디오 신호는 공기 전도 마이크로폰에서 출력되는 오디오 신호인 것을 예로 들면, 상기 제1오디오 신호는 저주파 부분에서 상대적으로 높은 음성 품질을 가지며, 상기 제2오디오 신호가 고주파 부분에서의 음성 품질은 상기 제1오디오 신호가 저주파 부분에서의 음성 품질보다 높다. 물론, 상기 제1오디오 신호와 상기 제2오디오 신호는 광학 마이크로폰에서 출력되는 오디오 신호, 근전도 신호를 수신하는 마이크로폰에서 출력되는 오디오 신호와 같은 기타 유형의 오디오 신호일 수도 있다.
S140: 전자장치(200)는 상기 제1오디오 신호와 상기 제2오디오 신호에 기초하여 상기 타겟 오디오를 생성한다. 구체적으로, 단계 S140은 다음을 포함할 수 있다.
S142: 전자장치(200)는 상기 제1오디오 신호가 주파수 영역에서의 제1평가 지표와 상기 제2오디오 신호가 상기 주파수 영역에서의 제2평가 지표를 결정하고, 이들을 비교한다.
상기 제1오디오 신호와 상기 제2오디오 신호를 합성할 때, 상기 제1오디오 신호와 상기 제2오디오 신호의 음성 품질을 비교하여 음성 품질이 더 좋은 오디오 신호를 선택하여 접합할 수 있다. 구체적으로, 전자장치(200)는 평가 지표를 통해 상기 처리할 오디오 신호의 음성 품질을 나타낼 수 있다. 상기 제1평가 지표는 상기 제1오디오 신호의 음성 품질을 나타내고, 상기 제1평가 지표는 상기 제1오디오 신호의 음성 품질을 대표할 수 있으며, 상기 제1평가지표와 상기 제1오디오 신호의 음성 품질은 양의 상관관계가 있으며; 상기 제2평가 지표는 상기 제2오디오 신호의 오디오품질을 대표할 수 있으며, 상기 제2평가 지표와 상기 제2오디오 신호의 음성 품질은 양의 상관관계가 있다.
상기 처리할 오디오 신호의 음성 품질을 평가할 때, 상기 처리할 오디오 신호에 포함된 유효한 오디오 신호의 신호 강도에 따라 평가할 수 있다. 상기 유효 오디오 신호는 오디오 신호가 휴대한 중요 오디오 신호일 수 있다. 노이즈 신호는 상기 유효 오디오 신호 이외의 기타 오디오 신호일 수 있다. 예를 들어, 음성 통화를 할 때, 상기 유효한 오디오 신호는 통화 사용자가 말할 때의 말소리 신호일 수 있고, 상기 노이즈 신호는 자동차 소리, 경적 소리 등과 같은 환경 노이즈일 수 있다. 특수한 소리를 수집할 경우, 예를 들어 새소리를 수집할 때 상기 유효한 오디오 신호는 새소리의 오디오 신호일 수 있으며, 상기 노이즈 신호는 바람 소리, 물 소리 등이 될 수 있다. 설명의 편의를 위해, 이하에서는 음성 통화를 예로 들어 설명하며, 여기서 상기 유효 오디오 신호는 통화 사용자가 말할 때의 말소리 신호이고, 상기 노이즈 신호는 환경 노이즈 일 수 있다. 상기 처리할 오디오 신호의 음성 품질은 상기 처리할 오디오 신호에 포함되는 유효 음성 신호의 강도에 의해 평가될 수 있다. 예를 들면, 상기 유효 오디오 신호가 말소리 신호일 때, 상기 유효 오디오 신호의 강도가 높을수록 상기 유효 음성 신호의 이해도가 더욱 높아지며, 상기 처리할 오디오 신호의 음성 품질이 더욱 높아진다.
상기 노이즈 신호와 상기 유효 오디오 신호는 모두 추정 계산법을 통해 얻은 신호이며, 정확한 유효 오디오 신호와 노이즈 신호가 아님에 유의해야 한다. 상기 노이즈 신호는 노이즈 추정 계산법에 의해 추정될 수 있다. 상기 유효 오디오 신호는 원시의 처리할 오디오 신호에서 상기 노이즈 신호를 감산하여 추정할 수 있다.
구체적으로, 상기 유효 오디오 신호의 강도는 상기 평가지표에 의해 평가될 수 있다. 상기 평가 지표는 상기 처리할 오디오 신호의 신호 대 잡음비일 수 있다. 상기 제1평가 지표는 상기 제1오디오 신호에 대응하는 제1신호 대 잡음비일 수 있고, 상기 제2평가 지표는 상기 제2오디오 신호에 대응하는 제2신호 대 잡음비일 수 있다. 상기 제1신호대 잡음비는 상기 제1오디오 신호 중 유효 오디오 신호와 노이즈 신호의 비율일 수 있다. 상기 제2신호대 잡음비는 상기 제2오디오 신호 중 유효 오디오 신호와 노이즈 신호의 비율일 수 있다. 상기 제1오디오 신호의 제1신호 대 잡음비가 높을수록 현재 주파수에서 유효 오디오 신호의 비율이 더욱 높고, 상기 제1오디오 신호의 음성 품질이 더욱 높음을 나타낸다. 상기 제2오디오 신호의 제2신호 대 잡음비가 높을수록 현재 주파수에서 유효 오디오 신호의 비율이 더욱 높고, 상기 제2오디오 신호의 음성 품질이 더욱 높음을 나타낸다. 상기 제1평가 지표가 상기 제2평가 지표보다 높은 것은 상기 제1 신호 대 잡음비의 값이 상기 제2 신호 대 잡음비의 값보다 높음을 나타낸다.
물론, 상기 처리할 오디오 신호의 음성 품질은 직접 상기 처리할 오디오 신호 중의 유효 음성 신호를 통해 평가될 수도 있다. 즉, 상기 평가 지표는 상기 유효 음성 신호일 수도 있다. 상기 제1평가 지표는 상기 제2오디오 신호에 대응하는 제2평가 지표보다 높고, 상기 제1오디오 신호에 대응하는 제1의 유효 음성 신호의 강도값이 상기 제2오디오 신호에 대응하는 제2 유효 음성 신호의 강도값보다 높을 수 있다. 물론, 상기 평가 지표는 상기 처리할 오디오 신호 중의 노이즈 신호일 수도 있다. 상기 제1평가 지표는 상기 제2오디오 신호에 대응하는 제2평가 지표보다 높고, 상기 제1오디오 신호에 대응하는 제1 노이즈 신호의 강도값이 상기 제2오디오 신호에 대응하는 노이즈 신호의 강도값보다 낮을 수 있다. 물론 상기 평가 지표는 상기 처리할 오디오 신호 중의 노이즈 신호 강도일 수도 있다. 설명을 용이하게 하기 위해, 이하에서 상기 평가 지표는 신호 대 잡음비, 상기 제1평가 지표는 상기 제1 오디오 신호에 대응하는 제1 신호 대 잡음비이며, 상기 제2평가 지표는 상기 제2 오디오 신호에 대응하는 제2 신호 대 잡음비 인 것을 예로 들어 설명한다. 당업자들은 음성 품질을 평가할 수 있는 기타 매개변수가 상기 제1평가 지표와 상기 제2평가 지표로 사용될 수 있음을 이해해야 한다.
상기 신호 대 잡음비는 주파수와 관련된 매개변수이다. 서로 다른 주파수의 오디오 신호에 대응하는 신호 대 잡음비는 서로 다를 수 있다. 구체적으로, 단계 S142에서, 상기 제1오디오 신호가 상기 주파수 영역내의 제1평가지표 및 상기 제2오디오 신호가 상기 주파수 영역내의 평가 지표를 결정하는 것은 상기 제1오디오 신호가 상기 주파수 영역내의 각 주파수에 대응하는 제1신호 대 잡음비 및 상기 제2오디오 신호가 상기 주파수 영역내의 각 주파수에 대응하는 제2신호 대 잡음비를 결정하는 것일 수 있다.
상기 제1오디오 신호의 제1평가 지표와 상기 제2오디오 신호의 제2평가 지표를 얻기 위해, 시스템(100)은 먼저 상기 제1오디오 신호와 상기 제2오디오 신호를 각각 프레임 분할 처리할 수 있다. 프레임은 오디오 신호를 구성하는 기본 단위이다. 오디오 신호의 데이터 처리를 수행할 때, 통상적으로 프레임을 기본 단위로 하여 계산한다. 상기 제1오디오 신호 및 상기 제2오디오 신호는 각각 하나 이상의 오디오 프레임을 포함할 수 있다. 상기 오디오 프레임은 미리 설정된 시간 길이의 오디오 신호를 포함한다. 각 오디오 프레임 내의 오디오 신호는 안정적이다. 인접된 오디오 프레임은 부분적으로 중첩될 수 있다. 상기 미리 설정된 시간의 길이는 20~50밀리초, 예를 들면 20밀리초, 25밀리초, 30밀리초, 40밀리초, 50밀리초 등 일 수 있다. 물론, 상기 미리 설정된 시간의 길이는 더 길거나 더 짧은 시간 일 수도 있다. 서로 다른 오디오 프레임의 길이는 동일하거나 다를 수 있다.
오디오 프레임 각각은 복수의 주파수의 신호가 중첩되어 이루어진다.상기 제1오디오 신호가 상기 주파수 영역내의 각 주파수에 대응하는 제1 평가 지표와 상기 제2오디오 신호가 상기 주파수 영역내의 각 주파수에 대응하는 평가 지표를 얻기 위해, 시스템(100)은 상기 오디오 프레임을 푸리에 변환하여 상기 오디오 프레임 중의 각 주파수의 신호 분포를 얻을 수 있다. 상기 각 주파수의 신호 분포는 상기 오디오 프레임 중의 각 주파수에 대응하는 오디오 신호의 강도일 수 있다.
도 3은 본 명세서의 실시예에 따라 제공되는 제1오디오 신호와 제2오디오 신호의 주파수 스펙트럼 설명도이다. 도 3은 상기 제1 오디오 신호와 상기 제2 오디오 신호 중 서로 대응하는 하나의 오디오 프레임에 대응하는 스펙트로그램이다. 상기 스펙트로그램은 하나의 오디오 프레임 중에서 주파수와 오디오 신호 강도에 대응하는 관계도일 수 있다. 도 3과 같이, 가로축은 주파수, 세로축은 신호 진폭이다. 곡선 1은 상기 제1오디오 신호에 해당하는 스펙트로그램이고, 곡선 2는 상기 제2오디오 신호에 대응하는 스펙트로그램이다. 도 3은 예시일 뿐, 당업자들은 서로 다른 오디오 프레임에 대응하는 곡선 1과 곡선 2가 다를 수 있고, 곡선 1과 곡선 2는 동적으로 변동될 수 있으며, 곡선 1과 곡선 2는 임의의 형태의 주파수 스펙트럼 곡선일 수 있음을 이해해야 한다.
도 4는 본 명세서의 실시예에 따라 제공되는 제1신호 대 잡음비와 제2신호 대 잡음비의 설명도이다. 도 4에서 세로축은 신호 대 잡음비 SNR이고 가로축은 주파수 f이다. 여기서, 곡선 5는 상기 제1오디오 신호의 각 주파수에 대응하는 제1신호 대 잡음비 곡선이다. 곡선 6은 상기 제 2 오디오 신호의 각 주파수에 대응하는 제2 신호 대 잡음비 곡선이다.
도 4와 같이, 곡선 5와 곡선 6을 비교하면, 저주파 영역에서 상기 제1오디오 신호의 제1 신호 대 잡음비가 상기 제2오디오 신호의 제2 신호대 잡음비보다 높고, 고주파 영역에서 상기 제1오디오 신호의 제1 신호 대 잡음비가 상기 제2오디오 신호의 제2 신호대 잡음비보다 낮음을 알 수 있다. 즉, 저주파 영역에서는 상기 제1오디오 신호의 음성 품질이 상기 제2오디오 신호의 음성 품질보다 높고, 고주파 영역에서는 상기 제1오디오 신호의 음성 품질이 상기 제2오디오 신호의 음성 품질보다 낮다.
서로 다른 오디오 프레임에 대응하는 제1 신호 대 잡음비와 제2 신호 대 잡음비는 서로 다를 수 있다. 제1 신호 대 잡음비와 제2 신호 대 잡음비는 동적으로 변동될 수 있다. 마찬가지로, 상기 제1평가지표와 상기 제2평가지표도 동적으로 변동될 수 있다.
도 4는 예시적인 설명일 뿐임을 유의해야 한다. 도 4의 곡선 5 및 곡선 6은 상기 제1 오디오 신호가 골전도 마이크로폰의 출력 신호이고 상기 제2오디오 신호가 공기 전도 마이크로폰의 출력 신호인 것을 예로 들어 설명했다. 골전도 마이크로폰의 출력 신호는 저주파 영역에서 신호 대 잡음비가 비교적 높고 음성 품질이 좋은 반면, 고주파 영역에서 신호 대 잡음비가 비교적 낮고 음성 품질이 차하다. 공기 전도 마이크로폰의 출력 신호는 각 주파수 대역에서 비교적 안정적이다. 당업자들은 상기 제1오디오 신호와 제2오디오 신호가 다른 유형의 마이크로폰에서 출력되는 오디오 신호일 때 곡선 5와 곡선 6의 상대관계가 다를 수 있음을 이해해야 한다. 당업자들은 모든 유형의 상기 제1신호 대 잡음비와 상기 제2신호 대 잡음비의 설명도가 본 명세서의 보호 범위 내에 있음을 이해해야 한다.
단계 S140은 다음과 같은 단계를 포함할 수 있다.
S144: 전자장치(200)는 적어도 상기 제1평가 지표와 상기 제2평가 지표의 비교 결과에 기초하여 적어도 하나의 타겟 주파수를 결정함으로써 제1주파수 구간(001)과 제2주파수 구간(002)을 결정한다.
전술한 바와 같이, 상기 방법(P100)은 상기 제1오디오 신호와 상기 제2오디오 신호를 합성할 때, 상기 주파수 영역내의 각 주파수에 대응하는 음성 품질이 더 높은 오디오 신호를 접합할 수 있다. 따라서, 상기 방법(P100)은 상기 제1오디오 신호와 상기 제2오디오 신호가 상기 주파수 영역내의 평가 지표를 비교하여 상기 제1오디오 신호와 상기 제2오디오 신호가 상기 주파수 영역내의 음성 품질을 비교할 수 있다. 구체적으로, 단계 S144는 전자장치(200)가 상기 제1오디오 신호가 상기 주파수 영역에서의 음성 품질 변화 및 상기 제2오디오 신호가 상기 주파수 영역에서의 음성 품질 변화에 따라 상기 주파수 영역을 상기 제1주파수 구간(001)과 상기 제2주파수 구간(002)으로 구분함으로써, 상기 제1주파수 구간(001)에서 상기 제1오디오 신호의 음성 품질이 상기 제2오디오 신호의 음성 품질보다 높고, 상기 제2주파수 구간(002)에서 상기 제1오디오 신호의 음성 품질이 상기 제2오디오 신호의 음성 품질보다 낮도록 하는 것일 수 있다. 여기서, 상기 제1주파수 구간(001)과 상기 제2주파수 구간(002)의 범위는 상기 제1오디오 신호가 상기 주파수 영역내의 제1평가지표의 동적 변동과 상기 제2오디오 신호가 상기 주파수 영역내의 제2평가지표의 동적 변동에 따라 동적으로 조정될 수 있다. 상기 주파수 영역은 상기 제1주파수 구간(001)과 상기 제2주파수 구간(002)을 포함한다. 상기 적어도 하나의 타겟 주파수 중 각 타겟 주파수는 상기 제1주파수 구간(001)과 상기 제2주파수 구간(002)의 연결부위에 대응하는 주파수이다.
일부 실시예에서, 상기 방법(P100)은 상기 제1오디오 신호의 상기 제1평가지표와 상기 제2오디오 신호의 상기 제2평가지표를 비교한 상대적 결과에 따라, 상기 주파수 영역내의 주파수를 상기 제1주파수 구간(001)과 상기 제2주파수 구간(002)으로 구분한다. 상기 제1오디오 신호의 제1평가지표가 상기 제2오디오 신호의 제2평가지표보다 높은 경우, 상기 제1오디오 신호의 음성 품질이 상기 제1오디오 신호보다 높음을 나타내고, 상기 제1평가지표가 상기 제2평가지표보다 높음에 대응하는 주파수 구간을
제1주파수 구간(001)으로 구분한다. 제1주파수 구간(001) 이외의 주파수는 제2주파수 구간(002)으로 구분된다.
기타 실시예에서, 상기 방법(P100)은 상기 제1평가지표와 상기 제2평가지표를 비교한 상대적 결과 및 상기 제1평가지표와 평가지표의 절대적 임계값 비교 결과에 따라, 상기 주파수 영역내의 주파수를 상기 제1주파수 구간(001)과 상기 제2주파수 구간(002)으로 구분한다. 상기 제1평가지표가 상기 평가지표보다 높은 경우, 상기 제1오디오 신호의 음성 품질이 상기 제1오디오 신호보다 높다는 것을 완전히 나타낼 수 없다. 예를 들면,
상기 골전도 마이크로폰이 출력하는 오디오 신호의 신호 대 잡음비가 상기 공기 전도 마이크로폰이 출력하는 오디오 신호의 신호 대 잡음비보다 높고, 상기 골전도 마이크로폰이 출력하는 오디오 신호의 신호 대 잡음비가 상대적으로 낮아 신호 대 잡음비 임계값보다 낮을 때, 골전도 마이크로폰이 출력하는 오디오 신호의 음성 품질은 공기 전도 마이크로폰이 출력하는 오디오 품질보다 낮을 수 있다. 따라서, 일부 실시예에서, 특히 상기 제1오디오 신호가 골전도 마이크로폰에서 출력된 오디오 신호의 실시예에서, 상기 방법(P100)은 상기 제1평가지표와 상기 평가지표를 비교한 상대 결과 및 상기 제1평가지표와 평가지표의 절대적 임계값의 비교 결과에 따라, 상기 주파수 영역내의 주파수를 상기 제1주파수 구간(001)과 상기 제2주파수 구간(002)으로 구분함으로써 구분의 정확도를 높이고, 타겟 오디오의 음성 품질을 향상시킬 수 있다. 전술한 바와 같이, 상기 제1평가지표는 제1신호 대 잡음비,상기 제2평가지표는 제2신호 대 잡음비일 수 있다. 상기 평가지표의 절대적 임계값은 신호 대 잡음비 임계값일 수 있다.
도 5는 본 명세서의 실시예에 따라 제공되는 제1주파수 구간(001)과 제2주파수 구간(002)을 결정하는 흐름도이다. 도 5에 나타낸 설명도에서 상기 방법(P100)은 상기 제1 신호 대 잡음비와 상기 제2 신호 대 잡음비를 비교한 상대적인 결과에 따라 상기 주파수 영역내의 주파수를 제1주파수 구간(001)과 제2주파수 구간(002)으로 구분할 수 있다. 도 5와 같이, 단계 S144는 다음과 같은 단계를 포함할 수 있다.
S144-2: 전자장치(200)는 상기 제1신호 대 잡음비와 상기 제2신호 대 잡음비가 동일한 경우에 대응하는 주파수에 기초하여 상기 적어도 하나의 타겟 주파수를 결정한다.
S144-3: 전자장치(200)는 상기 적어도 하나의 타겟 주파수를 임계점으로 하여, 상기 제1 신호 대 잡음비가 상기 제2 신호 대 잡음비보다 높은 경우에 대응하는 주파수 구간을 상기 제1주파수 구간(001)으로 결정하고, 상기 제1주파수 구간(001) 이외의 주파수 구간을 상기 제2주파수 구간(002)으로 결정한다.
도 6은 본 명세서의 실시예에 따라 제공되는 제1주파수 구간(001)과 제2주파수 구간(002)의 설명도이다. 도 6은 도 4를 기반으로 한 주파수 구간 구분의 설명도이다. 도 6과 도 5는 서로 대응된다. 도 6에서 볼 수 있듯이, 설명의 편의를 위해, 곡선 5와 곡선 6의 교차점에 대응하는 주파수를 제1 타겟 주파수(
Figure pct00001
)로 정의한다. 즉, 제1타겟 주파수(
Figure pct00002
)는 상기 제1신호 대 잡음비와 상기 제2신호 대 잡음비가 동일한 경우에 대응하는 주파수이다.
일부 실시예에서,상기 적어도 하나의 타겟 주파수 중 각 타겟 주파수는 제1타겟 주파수(
Figure pct00003
)일 수 있다. 다른 실시예에서, 상기 적어도 하나의 타겟 주파수 중 각 타겟 주파수는 제1 타겟 주파수(
Figure pct00004
) 부근의 미리 설정된 폭의 주파수 구간 내의 임의의 주파수, 즉 상기 제1 신호 대 잡음비와 상기 제2 신호 대 잡음비가 동일한 경우에 대응하는 주파수 부근의 미리 설정된 폭의 주파수 구간 내의 임의의 주파수일 수 있다. 상기 미리 설정된 폭은 미리 설정된 주파수 폭일 수 있다.
전자장치(200)는 상기 적어도 하나의 타겟 주파수를 임계점으로 하여, 상기 제1신호 대 잡음비가 상기 제2신호 대 잡음비보다 높은 경우에 대응하는 주파수 구간을 상기 제1주파수 구간(001)으로 결정하고, 상기 제1주파수 구간(001)이외의 주파수 구간을 상기 제2주파수 구간(002)으로 결정할 수 있다. 도 6과 같이, 제 1 타겟 주파수(
Figure pct00005
) 보다 작은 영역에서, 상기 제1 신호 대 잡음비는 제2 신호 대 잡음비보다 높고, 즉, 상기 제1 오디오 신호의 음성 품질은 제2 오디오 신호의 음성 품질보다 높다. 제 1 타겟 주파수(
Figure pct00006
) 보다 높은 영역에서, 상기 제1 신호 대 잡음비는 상기 제2 신호 대 잡음비보다 낮고, 즉, 상기 제1 오디오 신호의 음성 품질은 상기 제2 오디오 신호의 음성 품질보다 낮다. 우리는 제 1 타겟 주파수(
Figure pct00007
) 보다 작은 영역을 상기 제1주파수 구간(001)으로 정의하고, 제 1 타겟 주파수(
Figure pct00008
) 보다 높은 영역을 제2주파수 구간(002)으로 정의한다.
상기 제1주파수 구간(001)은 적어도 하나의 연속 주파수 구간을 포함할 수 있다. 상기 제2주파수 구간(002)은 적어도 하나의 연속 주파수 구간을 포함할 수 있다. 도 6에는 제 1 타겟 주파수(
Figure pct00009
) 만 표시되었으며, 당업자들은 상기 제1오디오 신호와 상기 제2오디오 신호가 서로 다른것에 의해 제 1 타겟 주파수(
Figure pct00010
) 도 복수개일 수 있음을 이해할 수 있다. 제 1 타겟 주파수(
Figure pct00011
)가 복수개인 경우, 이에 대응하는 타겟 주파수도 복수개이고,
제1주파수 구간(001)은 복수개의 연속 주파수 구간을 포함할 수 있으며, 제2주파수 구간(002)도 복수개의 연속 주파수 구간을 포함할 수 있다.
도 7은 본 명세서의 실시예에 따라 제공되는 제1주파수 구간(001)과 제2주파수 구간(002)을 결정하는 또 다른 흐름도이다.
도 7에 도시된 설명도에서, 상기 방법(P100)은 상기 제1 신호 대 잡음비와 상기 제2 신호 대 잡음비를 비교한 상대적인 결과 및 상기 제1신호 대 잡음비와 상기 신호 대 잡음비 임계값의 비교 결과에 따라 상기 주파수 영역내의 주파수를 제1주파수 구간(001)과 제2주파수 구간(002)으로 구분할 수 있다. 도 7와 같이, 단계 S144는 다음과 같은 단계를 포함할 수 있다.
S144-4: 신호 대 잡음비 임계값을 획득한다;
S144-5: 전자장치(200)는 상기 제1신호 대 잡음비와 상기 제2신호 대 잡음비를 비교하여, 상기 제1신호 대 잡음비와 상기 제2신호 대 잡음비가 동일한 경우에 대응하는 주파수를 적어도 하나의 제1 타겟 주파수(
Figure pct00012
)로 결정한다;
S144-6: 전자장치(200)는 상기 제1신호 대 잡음비와 상기 신호 대 잡음비 임계값을 비교하여, 상기 제1신호 대 잡음비와 상기 신호 대 잡음비 임계값이 동일한 경우에 대응하는 주파수를 적어도 하나의 제2 타겟 주파수(
Figure pct00013
)로 결정한다;
S144-8: 전자장치(200)는 상기 적어도 하나의 제1 타겟 주파수(
Figure pct00014
)와 상기 적어도 하나의 제2 타겟 주파수(
Figure pct00015
)중 각 주파수에 대응하는 제1신호 대 잡음비, 제2신호 대 잡음비 및 상기 신호 대 잡음비 임계값을 비교하고, 상기 제1신호 대 잡음비가 상기 제2신호 대 잡음비와 상기 신호 대 잡음비 임계값보다 작지 않은 경우에 대응하는 주파수를 상기 적어도 하나의 타겟 주파수로 결정한다; 및
S144-9: 전자장치(200)는 상기 적어도 하나의 타겟 주파수를 임계점으로 하여, 상기 제1 신호 대 잡음비가 상기 제2 신호 대 잡음비보다 높은 경우에 대응하는 주파수 구간을 상기 제1주파수 구간으로 결정하고, 상기 제1주파수 구간 이외의 주파수 구간을 상기 제2주파수 구간으로 결정한다.
도 8은 본 명세서의 실시예에 따라 제공되는 제1주파수 구간과 제2주파수 구간의 또 다른 설명도이다. 도 8은 도 4를 기반으로 주파수 구간 구분을 수행한 설명도이다. 도 8은 도 7과 대응된다. 도 8과 같이, 설명의 편의를 위해,
Figure pct00016
을 신호 대 잡음비 임계값으로 정의한다. 제1 타겟 주파수(
Figure pct00017
)는 상기 제1 신호 대 잡음비와 상기 제2 신호 대 잡음비가 같은 경우에 대응하는 주파수, 즉 곡선 5와 곡선 6의 교차점에 대응하는 주파수이다. 상기 제2 타겟 주파수(
Figure pct00018
)는 상기 제1신호 대 잡음비와 상기 신호 대 잡음비 임계값(
Figure pct00019
)이 동일한 경우에 대응하는 주파수, 즉 곡선 5와 상기 신호 대 잡음비 임계값(
Figure pct00020
)의 교차점에 대응하는 주파수이다.
신호 대 잡음비 임계값(
Figure pct00021
)은 임의의 값일 수 있으며 적어도 하나의 저장 매체(230)에 미리 저장될 수 있다. 신호 대 잡음비 임계값(
Figure pct00022
)은 수동으로 설정하거나 변경할 수 있다. 신호 대 잡음비 임계값(
Figure pct00023
)은 머신러닝을 통해서도 얻을 수 있다. 예를 들어, 신호 대 잡음비 임계값(
Figure pct00024
)은 3dB이거나 6dB, 또는 기타 값일 수 있다. 신호 대 잡음비 임계값(
Figure pct00025
)은 상기 제1오디오 신호의 종류에 따라 다를 수 있다.
전자장치(200)는 상기 적어도 하나의 제1 타겟 주파수(
Figure pct00026
)와 상기 적어도 하나의 제2 타겟 주파수(
Figure pct00027
)중 각 주파수에 대응하는 제1신호 대 잡음비, 제2신호 대 잡음비 및 상기 신호 대 잡음비 임계값(
Figure pct00028
)을 비교하고, 상기 제1신호 대 잡음비가 상기 제2신호 대 잡음비와 상기 신호 대 잡음비 임계값(
Figure pct00029
)보다 작지 않은 경우에 대응하는 주파수를 상기 적어도 하나의 타겟 주파수로 결정한다. 도 8을 예로 들면 도 8에는 하나의 제1 타겟 주파수(
Figure pct00030
)와 하나의 제2 타겟 주파수(
Figure pct00031
)가 표시된다. 전자장치(200)는 제1 타겟 주파수(
Figure pct00032
)와 하나의 제2 타겟 주파수(
Figure pct00033
)가 각각 대응하는 제1신호 대 잡음비, 제2신호 대 잡음비와 상기 신호 대 잡음비 임계값
Figure pct00034
을 비교한다. 제1 타겟 주파수(
Figure pct00035
)가 대응하는 제1신호 대 잡음비가 제1 타겟 주파수(
Figure pct00036
)가 대응하는 제2신호 대 잡음비와 동일하나, 상기 신호 대 잡음비 임계값(
Figure pct00037
)보다 작다. 제2 타겟 주파수(
Figure pct00038
)가 대응하는 제1신호 대 잡음비는 제2 타겟 주파수(
Figure pct00039
)가 대응하는 제2신호 대 잡음비보다 크며, 상기 신호 대 잡음비 임계값(
Figure pct00040
)과 동일하다. 따라서, 제2 타겟 주파수(
Figure pct00041
)를 상기 타겟 주파수로 결정한다. 제2 타겟 주파수(
Figure pct00042
)보다 작은 영역에서, 상기 제1신호 대 잡음비는 상기 제2신호 대 잡음비보다 높고 상기 신호 대 잡음비 임계값(
Figure pct00043
)보다 크며, 상기 제1오디오 신호의 음성 품질이 상기 제2오디오 신호보다 높음을 증명할 수 있다. 이때, 제2 타겟 주파수(
Figure pct00044
)보다 작은 주파수 구간에 대응하는 주파수 구간을 제1주파수 구간(001)으로 정의하고, 제2 타겟 주파수(
Figure pct00045
)보다 큰 영역을 제2주파수 구간(002)으로 정의한다.
상기 제1주파수 구간(001)은 적어도 하나의 연속 주파수 구간을 포함할 수 있다. 상기 제2주파수 구간(002)은 적어도 하나의 연속 주파수 구간을 포함할 수 있다. 도 8은 하나의 제1 타겟 주파수(
Figure pct00046
)와 하나의 제2 타겟 주파수(
Figure pct00047
)만을 도시했다. 당업자들은 상기 제1오디오 신호와 상기 제2오디오 신호가 서로 다른것에 의해 제 1 타겟 주파수(
Figure pct00048
)와 제2 타겟 주파수(
Figure pct00049
)가 복수개이며, 이에 대응하는 타겟 주파수도 복수개일 수 있음을 이해할 수 있다. 타겟 주파수가 복수개인 경우, 제1주파수 구간(001)은 복수개의 연속 주파수 구간을 포함할 수 있으며, 제2주파수 구간(002)도 복수개의 연속 주파수 구간을 포함할 수 있다.
도 4 내지 도 8에 도시된 바와 같이, 상기 제1신호 대 잡음비와 상기 제2신호 대 잡음비는 작은 범위내에서 위아래로 흔들릴 수 있다. 다시 말해서, 작은 범위내에서 복수개의 주파수에 대응하는 제1신호 대 잡음비와 제2신호 대 잡음비가 동일할 수 있다. 상술한 신호 대 잡음비의 결과가 오디오 생성 정확도에 영향주는 것을 방지하기 위해, 주파수 구간 폭을 미리 설정할 수 있다. 상기 복수개의 주파수 간의 거리가 상기 주파수 구간 폭의 범위에 포함될 경우, 상기 타겟 주파수는 상기 복수개의 주파수 중 임의의 하나이거나, 상기 복수개의 주파수 중 대응하는 상기 제1신호 대 잡음비가 제일 큰 하나일 수 있으며, 상기 복수개 주파수의 평균값 등 일수도 있다.
단계 S140은 다음과 같은 단계를 포함할 수 있다.
S146: 전자장치(200)는 상기 제1주파수 구간(001)과 상기 제2주파수 구간(002) 및 상기 제1오디오 신호와 상기 제2오디오 신호에 기초하여 상기 타겟 오디오를 생성한다.
구체적으로, 단계S146에서, 전자장치(200)는 상기 제1오디오 신호 중 상기 제1주파수 구간(001)의 오디오 신호와 상기 제2오디오 신호중 상기 제2주파수 구간(002)의 오디오 신호를 합성하여 상기 타겟 오디오를 얻을 수 있다. 구체적으로, 상기 주파수 영역에서, 상기 타겟 오디오가 상기 제1주파수 구간(001)에서의 오디오 신호는 상기 제1오디오 신호가 상기 제1주파수 구간에서의 오디오 신호를 포함하고, 상기 타겟 오디오 신호가 상기 제2주파수 구간(002)에서의 오디오 신호는 상기 제2오디오 신호가 상기 제2주파수 구간에서의 오디오 신호를 포함한다.
일부 실시예에서, 상기 타겟 주파수에서 상기 제1오디오 신호의 강도와 상기 제2오디오 신호의 강도는 다를 수 있다. 상기 제1오디오 신호 중 상기 제1주파수 구간(001)의 오디오 신호와 상기 제2오디오 신호 중 상기 제2주파수 구간(002)의 오디오 신호를 접합하면, 상기 타겟 주파수에서의 신호 불연속을 초래할 수 있다. 상기 신호 불연속을 방지하기 위해, 단계S146은 다음 단계를 더 포함할 수 있다.
S146-2: 전자장치(200)는 상기 적어도 하나의 타겟 주파수 중 각 타겟 주파수 기 설정 범위내의 주파수에 대응하는 상기 제1오디오 신호와 상기 제2오디오 신호를 평활화 처리함으로써, 상기 제1오디오 신호 중 상기 기 설정 범위내의 주파수에 대응하는 오디오 신호와 상기 제2오디오 신호 중 상기 기 설정 범위내의 주파수에 대응하는 오디오 신호를 평활하게 전환한다;
S146-4: 전자장치(200)는 상기 평활화 처리된 상기 제1오디오 신호 중 상기 제1주파수 구간(001)의 오디오 신호와 상기 제2오디오 신호 중 상기 제2주파수 구간(002)의 오디오 신호를 주파수 분포에 따라 접합함으로써 상기 타겟 오디오를 얻는다.
상기 기 설정 범위는 상기 타겟 주파수를 포함하는 미리 설정된 폭의 주파수 구간일 수 있다. 상기 평활화 처리는 상기 기 설정 범위내의 오디오 신호를 이득 계수에 의해 이득화하는 이득 처리일 수 있다.
도 9은 본 명세서의 실시예에 따라 제공되는 타겟 오디오의 설명도이다. 도 10은 본 명세서의 실시예에 따라 제공되는 타겟 오디오의 또 다른설명도이다. 여기서, 도 9와 도 6은 서로 대응되며, 도 9에 도시된 상기 타겟 오디오의 상기 타겟 주파수는 제1 타겟 주파수(
Figure pct00050
)이다. 도 10과 도 8은 서로 대응되며, 도 10에 도시된 상기 타겟 오디오의 상기 타겟 주파수는 제2 타겟 주파수(
Figure pct00051
)이다.
상술한 바와 같이, 상기 방법(P100) 및 시스템(100)은 상기 제1오디오 신호와 상기 제2오디오 신호의 평가지표에 기초하여 주파수 영역내의 상기 제1오디오 신호와 상기 제2오디오 신호의 음성 품질을 비교하며; 상기 제1오디오 신호의 음성 품질이 상기 제2오디오 신호의 음성 품질보다 높은 경우에 대응하는 주파수 구간을 제1주파수 구간(001)으로 정의하고, 상기 제1오디오 신호의 음성 품질이 상기 제2오디오 신호의 음성 품질보다 낮은 경우에 대응하는 주파수 구간을 제2주파수 구간(002)으로 정의하며; 상기 제1오디오 신호 중 상기 제1주파수 구간(001)의 오디오 신호와 상기 제2오디오 신호 중 상기 제2주파수 구간(002)의 오디오 신호를 접합하여 상기 타겟 오디오를 얻으며, 이로써 오디오 생성 효과를 높이고 상기 타겟 오디오의 음성 품질을 향상시킬 수 있다. 상기 방법(P100)과 시스템(100)은 상기 제1오디오 신호와 상기 제2오디오 신호의 음성 품질에 따라 타겟 주파수를 동적으로 선택할 수 있으며, 타겟 주파수에 따라 제1주파수 구간(001)과 제2주파수 구간(002)을 동적으로 구분함으로써, 상기 방법(P100)과 시스템(100)이 임의의 시나리오에 적용될 수 있도록 한다. 즉, 임의의 시나리오에서, 상기 방법(P100) 및 시스템(100)은 상기 타겟 오디오가 임의의 주파수 구간에서의 음성 품질이 최적화되도록 보장할 수 있다.
본 명세서의 다른 측면에서는 적어도 한 세트의 오디오를 생성하기 위한 실행 가능한 명령이 저장되는 비일시적 저장 매체를 제공하며, 상기 실행 가능한 명령이 프로세서에 의해 실행될 때, 상기 실행 가능한 명령은 상기 프로세서가 본 명세서에 설명된 상기 오디오 생성 방법(P100)의 단계를 실행하도록 지도한다. 일부 가능한 구현예에서, 본 명세서의 다양한 측면은 프로그램 코드를 포함하는 프로그램 제품의 형태로 구현될 수도 있다. 상기 프로그램 제품이 전자장치(200)에서 실행될 때, 상기 프로그램 코드는 전자장치(200)가 본 명세서에 설명된 오디오 생성 단계를 실행하도록 한다. 상기 방법을 구현하기 위한 프로그램 제품은 프로그램 코드를 포함하는 휴대용 콤팩트 디스크 읽기 전용 메모리(CD-ROM)를 채택할 수 있으며, 전자 장치(200)에서 실행될 수 있다. 그러나, 본 명세서의 프로그램 제품은 이에 국한되지 않으며, 본 명세서에서 판독 가능한 저장 매체는 프로그램을 포함하거나 저장할 수 있는 모든 유형의 매체일 수 있으며, 해당 프로그램은 명령 실행 시스템(예: 프로세서(220))에 의해 사용되거나 이와 결합되어 사용될 수 있다. 상기 프로그램 제품은 하나 이상의 판독 가능 매체의 임의의 조합을 채택할 수 있다. 판독 가능 매체는 판독 가능 신호 매체 또는 판독 가능 저장 매체일 수 있다. 판독 가능 저장 매체는 예를 들어 전기, 자기, 광, 전자기, 적외선 또는 반도체의 시스템, 장치 또는 기기 또는 임의의 조합일 수 있지만 이에 국한되지 않는다. 판독 가능 저장 매체의 보다 구체적인 예는 하나 이상의 도선을 갖는 전기적 연결, 휴대용 디스크, 하드 디스크, RAM, ROM, EPROM 또는 플래시 메모리, 광섬유, CD-ROM, 광 메모리 장치, 자기 메모리 장치 또는 상술한 임의의 적절한 조합을 포함한다. 컴퓨터 판독 가능 저장 매체는 판독 가능한 프로그램 코드가 탑재된, 베이스밴드 또는 반송파의 일부로 전파되는 데이터 신호를 포함할 수 있다. 이러한 전파 데이터 신호는 전자기 신호, 광 신호 또는 위에서 언급한 적절한 조합을 포함하지만 이에 국한되지 않는 다양한 형태일 수 있다. 판독 가능 저장 매체는 판독 가능 저장 매체 이외의 임의의 판독 가능 매체 일 수 있으며, 해당 판독 가능 매체는 명령 실행 시스템, 장치 또는 기기에 의해 사용되거나 이와 결합되어 사용되는 프로그램을 전송, 전파 또는 송신할 수 있다. 판독 가능 저장 매체에 포함된 프로그램 코드는 무선, 유선, 광케이블, RF 등 또는 위에서 언급한 적절한 조합을 포함하는 매체를 통해 전송될 수 있다. 하나 이상의 프로그래밍 언어의 임의의 조합으로 본 명세서의 작업을 실행하기 위한 프로그램 코드를 작성할 수 있으며, 상기 프로그래밍 언어에는 Java, C++ 등과 같은 객체 지향 프로그래밍 언어가 포함되며, "C"언어 또는 유사한 프로그래밍 언어와 같은 일반적인 프로세스 프로그래밍 언어가 포함된다. 프로그램 코드는 전자장치(200)에서 완전히 실행되거나, 부분적으로 전자장치(200)에서 실행될 수 있으며, 하나의 독립적인 소프트웨어 패키지로 실행되거나, 일부가 전자장치(200)에서 실행되고 일부가 원격 컴퓨팅 장치에서 실행되거나, 또는 완전히 원격 컴퓨팅 장치에서 실행될 수도 있다.
이상 본 명세서의 특정 실시예에 대해 설명했다. 다른 실시예들은 첨부된 청구범위의 범위에 포함된다. 경우에 따라, 청구범위에 기재된 동작 또는 단계는 실시예의 순서와 다른 순서로 실행될 수 있으며, 여전히 원하는 결과를 달성할 수 있다. 또한, 도면에 도시된 과정은 특정 순서 또는 연속 순서여야 원하는 결과를 달성하는 것이 아니다. 일부 실시 형태에서는 멀티태스킹 및 병렬 처리도 가능하거나 유리할 수 있다.
상기 내용을 요약하면, 본 개시의 상세 내용을 읽은 후, 당업자들은 전술한 개시의 내용이 예시적인 형태로만 구현될 수 있으며, 제한적이지 않을 수 있음을 이해할 수 있다. 여기에 명확하게 명시되지 않았지만, 당업자들은 본 명세서의 요구 사항이 실시예에 대한 다양한 합리적인 변경, 개선 및 수정을 포함한다는 것을 이해할 수 있다. 이러한 변경, 개선 및 수정은 본 명세서에서 제안된 것이고 본 명세서의 예시적인 실시예의 사상과 범위 내에 포함된다.
또한, 본 명세서의 일부 용어는 본 명세서의 실시예를 설명하는데 사용되었다. 예를 들어, '하나의 실시예', '실시예' 및/또는 '일부 실시예'는 해당 실시예에 설명된 특정 특징, 구조 또는 특성이 본 명세서의 적어도 하나의 실시예에 포함될 수 있음을 의미한다. 따라서, 본 명세서의 각 부분에서 '실시예' 또는 '하나의 실시예' 또는 '대체 실시예'의 둘 이상의 인용이 반드시 동일한 실시예를 지칭하는 것은 아님을 강조하고 이해해야 한다. 또한, 특정 특징, 구조 또는 특성은 본 명세서의 하나 이상의 실시예에 적절하게 조합될 수 있다.
본 명세서의 실시예의 앞서 언급한 설명에서, 본 명세서의 단순화를 목적으로, 한 특징의 이해를 돕기 위해, 본 명세서에서는 단일 실시예, 도면 또는 그 설명에 다양한 특징을 조합한 것을 이해해야 한다. 그러나 이는 해당 특징의 조합이 반드시 필요하다는 의미는 아니며, 당업자들이 본 명세서를 읽을 때, 그 특징 중 일부를 추출하여 별도의 실시예로 이해할 수도 있을 것이다. 즉, 본 명세서의 실시예는 복수의 2차 실시예의 통합으로도 이해할 수 있다. 또한, 각 2차 실시예의 내용은 앞서 언급한 단일 개시 실시예의 모든 특징보다 적을 때에도 성립한다.
여기에 인용된 각 특허, 특허출원, 특허출원의 출판물 및 기타 자료, 예를 들어 기사, 책, 설명서, 출판물, 문서, 물품 등은 인용을 통해 결합될 수 있다. 모든 목적에 사용되는 모든 내용은 관련된 임의의 기소 문서 이력을 제외하고 본 문서와 일치하지 않거나 상충될 수 있는 모든 것과 동일하거나 또는 청구범위의 가장 넓은 범위에 제한적인 영향을 미칠 수 있는 모든 동일한 기소 문서 이력이 존재할 수 있다. 현재 또는 이후에 본 문서와 관련이 있을 수 있다. 예를 들어, 임의의 포함된 재료와 관련된 용어의 설명, 정의 및/또는 본 문서와 관련된 용어, 설명, 정의 및/또는 불일치 또는 충돌이 있는 용어를 사용한 경우, 본 문서의 용어를 기준으로 한다.
마지막으로, 본 명세서에서 개시된 출원의 실행방안은 본 명세서의 실행방안의 원리를 설명하는 것임을 이해해야 한다. 기타 수정된 실시예도 본 명세서의 범위 내에 포함된다. 따라서, 본 명세서에 의해 개시된 실시예는 단지 예시일 뿐 제한이 아니다. 당업자들은 본 명세서에 기재된 실시예에 따라 대체 가능한 구성 요소로 본 명세서의 출원을 구현할 수 있다. 따라서, 본 명세서의 실시예는 출원에 정확하게 설명된 것에 국한되지 않는다.

Claims (15)

  1. 오디오 생성 방법에 있어서,
    상기 방법은 제1오디오 신호 및 제2오디오 신호를 취득하는 단계; 및
    상기 제1오디오 신호 및 제2오디오 신호에 기초하여 타겟 오디오 신호를 생성하는 단계; 를 포함하며, 상기 타겟 오디오의 주파수 영역은 제1주파수 구간과 제2주파수 구간을 포함하고, 상기 타겟 오디오가 상기 제1주파수 구간에서의 오디오 신호는 상기 제1오디오 신호가 상기 제1주파수 구간에서의 오디오 신호를 포함하며, 상기 타겟 오디오가 상기 제2주파수 구간에서의 오디오 신호는 상기 제2오디오 신호가 상기 제2주파수 구간에서의 오디오 신호를 포함하고, 상기 제1주파수 구간과 상기 제2주파수 구간의 범위는 적어도 상기 제1오디오 신호가 상기 주파수 영역내에서의 제1 평가 지표의 동적 변동과 상기 제2 오디오 신호가 상기 주파수 영역내에서의 제2평가 지표의 동적 변동에 따라 동적으로 조정되는 것을 특징으로 하는 오디오 생성 방법.
  2. 제1항에 있어서,
    상기 제1평가 지표는 상기 제1오디오 신호의 음성 품질과 양의 상관관계가 있고, 상기 제2평가 지표는 상기 제2오디오 신호의 음성 품질과 양의 상관관계가 있으며, 상기 제1주파수 구간에서, 상기 제1오디오 신호의 음성 품질은 상기 제2오디오 신호의 음성 품질보다 높으며, 상기 제2주파수 구간에서, 상기 제1오디오 신호의 음성 품질은 상기 제2오디오 신호의 음성 품질보다 낮은 것을 특징으로 하는 오디오 생성 방법.
  3. 제1항에 있어서,
    상기 제1주파수 구간 내의 각 주파수에 대응하는 상기 제1평가 지표는 상기 제2평가 지표보다 높은 것을 특징으로 하는 오디오 생성 방법.
  4. 제3항에 있어서,
    상기 제1평가 지표는 상기 제1오디오 신호에 대응하는 제1신호 대 잡음비를 포함하고, 상기 제2평가 지표는 상기 제2오디오 신호에 대응하는 제2신호 대 잡음비를 포함하는 것을 특징으로 하는 오디오 생성 방법.
  5. 제4항에 있어서,
    상기 제1오디오 신호 및 상기 제2오디오 신호에 기초하여 타겟 오디오 신호를 생성하는 단계는,
    상기 주파수 영역내의 상기 제1평가 지표와 상기 제2평가 지표를 결정하고 이들을 비교하는 단계;
    적어도 상기 제1평가 지표 및 상기 제2평가 지표의 비교 결과에 기초하여, 적어도 하나의 타겟 주파수를 결정하며 이로써 상기 제1주파수 구간 및 상기 제2주파수 구간을 결정하는 단계, 여기서, 상기 적어도 하나의 타겟 주파수 각각은 상기 제1주파수 구간과 상기 제2주파수 구간의 연결 부위에 대응하는 주파수임; 및
    상기 제1주파수 구간과 상기 제2주파수 구간 및 상기 제1오디오 신호와 상기 제2오디오 신호에 기초하여 상기 타겟 오디오를 생성하는 단계; 를 포함하는 것을 특징으로 하는 오디오 생성 방법.
  6. 제5항에 있어서,
    상기 제1주파수 구간은 적어도 하나의 연속 주파수 구간을 포함하고, 상기 제2주파수 구간도 적어도 하나의 연속 주파수 구간을 포함하는 것을 특징으로 하는 오디오 생성 방법.
  7. 제5항에 있어서,
    상기 제1주파수 구간 및 상기 제2주파수 구간을 결정하는 단계는,
    상기 제1신호 대 잡음비와 상기 제2신호 대 잡음비가 동일한 경우에 대응하는 주파수에 기초하여, 상기 적어도 하나의 타겟 주파수를 결정하는 단계; 및
    상기 적어도 하나의 타겟 주파수를 임계점으로 하여, 상기 제1신호 대 잡음비가 상기 제2신호 대 잡음비보다 높은 경우에 대응하는 주파수 구간을 상기 제1주파수 구간으로, 상기 제1주파수 구간 이외의 주파수 구간을 제2주파수 구간으로 결정하는 단계;를 포함하는 것을 특징으로 하는 오디오 생성 방법.
  8. 제7항에 있어서,
    상기 적어도 하나의 타겟 주파수 각각은 상기 제1신호 대 잡음비와 상기 제2신호 대 잡음비가 동일한 경우에 대응하는 주파수 근방의 미리 설정된 폭의 주파수 구간 내의 임의의 주파수를 포함하는 것을 특징으로 하는 오디오 생성 방법.
  9. 제5항에 있어서,
    상기 제1주파수 구간 및 상기 제2주파수 구간을 결정하는 단계는,
    신호 대 잡음비 임계값을 얻는 단계;
    상기 제1신호 대 잡음비 및 상기 제2신호 대 잡음비를 비교하여, 상기 제1신호 대 잡음비와 상기 제2신호 대 잡음비가 같은 경우에 대응하는 주파수를 적어도 하나의 제1타겟 주파수로 하는 단계;
    상기 제1신호 대 잡음비와 상기 신호 대 잡음비 임계값을 비교하여, 상기 제1신호 대 잡음비와 상기 신호 대 잡음비 임계값이 같은 경우에 대응하는 주파수를 적어도 하나의 제2타겟 주파수로 하는 단계;
    상기 적어도 하나의 제1 타겟 주파수와 상기 적어도 하나의 제2 타겟 주파수 중 각 주파수에 대응하는 제1신호 대 잡음비, 제2신호 대 잡음비 및 상기 신호 대 잡음비 임계값을 비교하여, 상기 제1신호 대 잡음비가 상기 제2신호 대 잡음비와 상기 신호 대 잡음비 임계값보다 작지 않은 경우에 대응하는 주파수를 상기 적어도 하나의 타겟 주파수로 하는 단계; 및
    상기 적어도 하나의 타겟 주파수를 임계점으로 하여, 상기 제1신호 대 잡음비가 모두 상기 제2신호 대 잡음비보다 높은 경우에 대응하는 주파수 구간을 상기 제1주파수 구간으로 결정하고, 상기 제1주파수 구간 이외의 주파수 구간을 상기 제2주파수 구간으로 결정하는 단계; 를 포함하는 것을 특징으로 하는 오디오 생성 방법.
  10. 제5항에 있어서,
    상기 제1주파수 구간과 상기 제2주파수 구간 및 상기 제1오디오 신호와 상기 제2오디오 신호에 기초하여 상기 타겟 오디오를 생성하는 단계는,
    상기 적어도 하나의 타겟 주파수 각각의 기 설정 범위내의 주파수에 대응하는 상기 제1오디오 신호와 상기 제2오디오 신호에 대한 평활화 처리를 실행함으로써, 상기 제1오디오 신호 중 상기 기 설정 범위내의 주파수에 대응하는 오디오 신호와 상기 제2오디오 신호 중 상기 기 설정 범위내의 주파수에 대응하는 오디오 신호를 평활하게 전환하는 단계; 및
    상기 평활화 처리된 상기 제1오디오 신호 중 상기 제1주파수 구간의 오디오 신호와 상기 제2오디오 신호 중 상기 제2주파수 구간의 오디오 신호를 주파수 분포에 따라 접합함으로써 상기 타겟 오디오를 얻는 단계; 를 포함하는 것을 특징으로 하는 오디오 생성 방법.
  11. 제1항에 있어서,
    상기 제1오디오 신호는 적어도 하나의 제1류 마이크로폰에서 출력된 오디오 신호이고, 상기 제2오디오 신호는 적어도 하나의 제2류 마이크로폰에서 출력된 오디오 신호인 것을 특징으로 하는 오디오 생성 방법.
  12. 제11항에 있어서,
    상기 적어도 하나의 제1류 마이크로폰은 인체 진동 신호를 수집하기 위한 것으로, 골전도 마이크로폰을 포함하며,
    상기 적어도 하나의 제2류 마이크로폰은 공기 진동 신호를 수집하기 위한 것으로, 공기 전도 마이크로폰을 포함하는 것을 특징으로 하는 오디오 생성 방법.
  13. 제11항에 있어서,
    상기 제1오디오 신호는 상기 적어도 하나의 제1류 마이크로폰에서 직접 출력된 오디오 신호를 포함하고, 상기 제2오디오 신호는 상기 적어도 하나의 제2류 마이크로폰에서 직접 출력된 오디오 신호를 포함하는 것을 특징으로 하는 오디오 생성 방법.
  14. 제11항에 있어서,
    상기 제1오디오 신호는 상기 적어도 하나의 제1류 마이크로폰에서 직접 출력된 오디오 신호가 소음 저감 처리를 거친 후의 오디오 신호를 포함하고, 상기 제2오디오 신호는 상기 적어도 하나의 제2류 마이크로폰에서 직접 출력된 오디오 신호가 소음 저감 처리를 거친 후의 오디오 신호를 포함하는 것을 특징으로 하는 오디오 생성 방법.
  15. 오디오를 생성하는 시스템에 있어서,
    오디오를 생성하기 위한 적어도 하나의 명령 집합이 저장된 적어도 하나의 저장 매체; 및
    상기 적어도 하나의 저장 매체와 통신 연결되는 적어도 하나의 프로세서; 를 포함하며,
    상기 오디오 생성 시스템이 작동될 때, 상기 적어도 하나의 프로세서가 상기 적어도 하나의 명령 집합을 판독하고, 상기 적어도 하나의 명령 집합의 지시에 따라, 제1내지 14항 중 임의의 한 항에 따른 오디오 생성 방법을 실행하는 것을 특징으로 하는 오디오 생성 시스템.
KR1020237018151A 2020-12-31 2020-12-31 오디오 생성 방법 및 시스템 KR20230098287A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/142004 WO2022141364A1 (zh) 2020-12-31 2020-12-31 生成音频的方法和系统

Publications (1)

Publication Number Publication Date
KR20230098287A true KR20230098287A (ko) 2023-07-03

Family

ID=82117560

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237018151A KR20230098287A (ko) 2020-12-31 2020-12-31 오디오 생성 방법 및 시스템

Country Status (6)

Country Link
US (1) US20220208209A1 (ko)
EP (1) EP4273860A1 (ko)
JP (1) JP2023552364A (ko)
KR (1) KR20230098287A (ko)
CN (1) CN116134834A (ko)
WO (1) WO2022141364A1 (ko)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2568640T3 (es) * 2012-02-23 2016-05-03 Dolby International Ab Procedimientos y sistemas para recuperar de manera eficiente contenido de audio de alta frecuencia
JP6123503B2 (ja) * 2013-06-07 2017-05-10 富士通株式会社 音声補正装置、音声補正プログラム、および、音声補正方法
CN106571146B (zh) * 2015-10-13 2019-10-15 阿里巴巴集团控股有限公司 噪音信号确定方法、语音去噪方法及装置
US10535362B2 (en) * 2018-03-01 2020-01-14 Apple Inc. Speech enhancement for an electronic device
KR102570480B1 (ko) * 2019-01-04 2023-08-25 삼성전자주식회사 오디오 신호 처리 방법 및 이를 지원하는 전자 장치
KR102226132B1 (ko) * 2019-07-23 2021-03-09 엘지전자 주식회사 헤드셋 및 그의 구동 방법
CN111131947B (zh) * 2019-12-05 2022-08-09 小鸟创新(北京)科技有限公司 耳机信号处理方法、系统和耳机
CN111161751A (zh) * 2019-12-25 2020-05-15 声耕智能科技(西安)研究院有限公司 复杂场景下的分布式麦克风拾音系统及方法
CN111312275B (zh) * 2020-02-13 2023-04-25 大连理工大学 一种基于子带分解的在线声源分离增强系统
CN111951818B (zh) * 2020-08-20 2023-11-03 北京驭声科技有限公司 一种基于改进功率差噪声估计算法的双麦克风语音增强方法

Also Published As

Publication number Publication date
EP4273860A1 (en) 2023-11-08
US20220208209A1 (en) 2022-06-30
CN116134834A (zh) 2023-05-16
WO2022141364A1 (zh) 2022-07-07
JP2023552364A (ja) 2023-12-15

Similar Documents

Publication Publication Date Title
JP7011075B2 (ja) マイク・アレイに基づく対象音声取得方法及び装置
US9812147B2 (en) System and method for generating an audio signal representing the speech of a user
CN110970057B (zh) 一种声音处理方法、装置与设备
CN110856072B (zh) 一种耳机通话降噪方法及耳机
JP2022547525A (ja) 音声信号を生成するためのシステム及び方法
WO2022140928A1 (zh) 用于抑制回声的音频信号处理方法和系统
CN110992967A (zh) 一种语音信号处理方法、装置、助听器及存储介质
KR20090037845A (ko) 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
US9843859B2 (en) Method for preprocessing speech for digital audio quality improvement
CN112735370B (zh) 一种语音信号处理方法、装置、电子设备和存储介质
KR20230098287A (ko) 오디오 생성 방법 및 시스템
CN114664322B (zh) 基于蓝牙耳机芯片的单麦克风助听降噪方法及蓝牙耳机
CN112581970A (zh) 用于音频信号生成的系统和方法
CN114694668A (zh) 生成音频的方法和系统
WO2022140927A1 (zh) 音频降噪的方法和系统
CN108899041B (zh) 语音信号加噪方法、装置及存储介质
KR20120016709A (ko) 휴대용 단말기에서 통화 품질을 향상시키기 위한 장치 및 방법
CN114694673A (zh) 音频降噪的方法和系统
CN113593612B (zh) 语音信号处理方法、设备、介质及计算机程序产品
CN114697785A (zh) 用于抑制回声的音频信号处理方法和系统
CN117676433A (zh) 语音降噪方法、装置、存储介质及电子设备
JP6221463B2 (ja) 音声信号処理装置及びプログラム
CN117392994A (zh) 一种音频信号处理方法、装置、设备及存储介质
JP2015025913A (ja) 音声信号処理装置及びプログラム
CN112785997A (zh) 一种噪声估计方法、装置、电子设备和可读存储介质