KR20230125304A - 오디오 신호를 생성하기 위한 시스템과 방법들 - Google Patents

오디오 신호를 생성하기 위한 시스템과 방법들 Download PDF

Info

Publication number
KR20230125304A
KR20230125304A KR1020237025917A KR20237025917A KR20230125304A KR 20230125304 A KR20230125304 A KR 20230125304A KR 1020237025917 A KR1020237025917 A KR 1020237025917A KR 20237025917 A KR20237025917 A KR 20237025917A KR 20230125304 A KR20230125304 A KR 20230125304A
Authority
KR
South Korea
Prior art keywords
audio signal
bone conduction
conduction
electromotive
machine learning
Prior art date
Application number
KR1020237025917A
Other languages
English (en)
Inventor
신 치
Original Assignee
썬전 샥 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 썬전 샥 컴퍼니 리미티드 filed Critical 썬전 샥 컴퍼니 리미티드
Publication of KR20230125304A publication Critical patent/KR20230125304A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R23/00Transducers other than those covered by groups H04R9/00 - H04R21/00
    • H04R23/02Transducers using more than one principle simultaneously
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

오디오 신호생성을 위한 방법은 골전도 오디오 신호와 기전도 오디오 신호를 획득하는 단계를 포함할 수 있다. 상기 방법은 특정된 골전도 오디오 신호로부터 도출하는 골전도 데이터의 집합과 특정된 등가 기전도 오디오 신호로부터 도출하는 하나 이상의 등가 기전도 데이터 집합들 사이의 매핑관계를 제공하는 훈련된 기계학습모형을 획득하는 단계를 포함할 수도 있다. 상기 방법은 상기 훈련된 기계학습모형을 이용하여 상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여 타겟 등가 기전도 데이터 집합에 대응되는 상기 골전도 오디오 신호를 확정하는 단계를 포함할 수도 있다. 상기 방법은오디오 신호 출력장치로 하여금 상기 타겟 등가 기전도 데이터 집합에 근거하여 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 출력하게 하는 단계를 더 포함할 수 있다.

Description

오디오 신호를 생성하기 위한 시스템과 방법들
본 개시는 신호처리 분야에 관한 것으로서, 구체적으로, 골전도 오디오 신호 및 기전도 디오 신호에 근거하여 오디오 신호를 생성하기 위한 시스템과 방법들에 관한 것이다.
전자장치들의 광범위한 사용과 더불어, 사람들 사이의 통신은 점점 더 편리해진다. 통신용 전자장치를 사용하는 경우, 사용자가 말할 때 사용자는 마이크로폰(예를 들면, 골전도 마이크로폰 또는 기전도 마이크로폰)으로 오디오 신호들을 획득한다. 상기 마이크로폰에 의해 획득된 오디오 신호는 상기 사용자의 음성을 표시할 수 있다. 그러나, 어떤 경우, 마이크로폰에 의해 획득된 상기 오디오 신호들이 충분히 명료하도록 확보하기 어렵다. 예를 들면, 골전도 마이크로폰으로 획득하는 골전도 오디오 신호는 일부 중요한 정보를 잃을 수 있다. 기전도 마이크로폰으로 획득하는 기전도 오디오 신호는 많은 소음들을 가질 수 있다. 그러므로, 적은 소음들과 더 좋은 충실도를 가지는 오디오 신호를 생성하기 위한 시스템과 방법들을 제공하는 것이 바람직하다.
본 개시의 한 양태에 의하면, 오디오 신호를 생성하기 위한 시스템을 제공할 수 있다. 상기 시스템은 적어도 하나의 저장매체 및 상기 적어도 하나의 저장매체와 통신하는 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 저장매체는 한 조의 명령어들을 포함할 수 있다. 상기 적어도 하나의 프로세서가 상기 한 조의 명령어들을 수행하는 경우, 상기 적어도 하나의 프로세서는 상기 시스템이 하나 이상의 아래의 동작들을 수행하게끔 지시될 수 있다. 상기 시스템은 골전도 센서로 획득하는 골전도 오디오 신호와 기전도 센서로 획득하는 기전도 오디오 신호를 얻을 수 있다. 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 사용자의 음성을 표시할 수 있다. 상기 시스템은 특정된 골전도 오디오 신호로부터 도출하는 골전도 데이터의 집합과 특정된 등가 기전도 오디오 신호로부터 도출하는 하나 이상의 등가 기전도 데이터 집합들 사이의 매핑관계를 제공하는 훈련된 기계학습모형을 획득할 수도 있다. 상기 시스템은 상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여, 상기 훈련된 기계학습모형을 이용하여, 상기 골전도 오디오 신호에 대응되는 타겟 등가 기전도 데이터 집합을 확정할 수도 있다. 상기 타겟 등가 기전도 데이터 집합은 상기 사용자의 음성의 어의내용을 표시할 수 있다. 상기 시스템은 오디오 신호 출력장치로 하여금 상기 타겟 등가 기전도 데이터 집합에 근거하여, 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 출력하게 할 수도 있다.
일부 실시예들에서는, 상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여 상기 골전도 오디오 신호에 대응되는 타겟 등가 기전도 데이터 집합을 확정하기 위해, 상기 시스템은 상기 골전도 오디오 신호에 근거하여, 상기 훈련된 기계학습모형을 이용하여, 상기 골전도 오디오 신호에 대응되는 상기 하나 이상의 등가 기전도 데이터 집합들을 확정할 수 있다. 상기 시스템은 상기 기전도 오디오 신호에 근거하여, 상기 하나 이상의 등가 기전도 데이터 집합들로부터 상기 타겟 등가 기전도 데이터 집합을 식별할 수도 있다.
일부 실시예들에서는, 상기 골전도 오디오 신호에 근거하여 상기 훈련된 기계학습모형을 이용하여 상기 골전도 오디오 신호에 대응되는 하나 이상의 등가 기전도 데이터 집합들을 확정하기 위해, 상기 시스템은 상기 골전도 오디오 신호를 상기 훈련된 기계학습모형에 입력하여, 상기 골전도 오디오 신호에 대응되는 상기 하나 이상의 등가 기전도 데이터 집합들을 획득할 수 있다.
일부 실시예들에서는, 상기 골전도 오디오 신호에 근거하여 상기 훈련된 기계학습모형을 이용하여 상기 골전도 오디오 신호에 대응되는 하나 이상의 등가 기전도 데이터 집합들을 확정하기 위해, 상기 시스템은 상기 골전도 오디오 신호로부터 골전도 음향특성들을 추출할 수 있다. 상기 시스템은 상기 골전도 음향특성들에 근거하여, 상기 골전도 데이터 집합을 확정할 수도 있다. 상기 시스템은 상기 골전도 데이터 집합을 상기 훈련된 기계학습모형에 입력하여, 상기 골전도 오디오 신호에 대응되는 상기 하나 이상의 등가 기전도 데이터 집합들을 획득할 수도 있다.
일부 실시예들에서는, 상기 기전도 오디오 신호에 근거하여 상기 하나 이상의 등가 기전도 데이터 집합들로부터 상기 타겟 등가 기전도 데이터 집합을 식별하기 위해, 상기 시스템은 상기 기전도 오디오 신호로부터 기전도 음향특성들을 추출할 수 있다. 상기 시스템은 상기 기전도 음향특성들에 근거하여, 기전도 데이터 집합을 확정할 수도 있다. 상기 하나 이상의 등가 기전도 데이터 집합들 중의 각 등가 기전도 데이터 집합에 관하여, 상기 시스템은 상기 등가 기전도 데이터 집합과 상기 기전도 데이터 집합 사이의 상관도를 확정할 수도 있다. 상기 시스템은 상기 하나 이상의 등가 기전도 데이터 집합들 중의 상기 기전도 데이터 집합과 최대 상관도를 가지는 상기 하나 이상의 등가 기전도 데이터 집합들 중의 하나의 등가 기전도 데이터 집합을 확정할 수도 있다. 상기 시스템은 상기 하나 이상의 등가 기전도 데이터 집합들 중의 상기 하나의 등가 기전도 데이터 집합에 근거하여, 상기 타겟 등가 기전도 데이터 집합을 확정할 수도 있다.
일부 실시예들에서는, 오디오 신호 출력장치가 상기 타겟 등가 기전도 데이터 집합에 근거하여 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 출력하게 하기 위해, 상기 시스템은 상기 타겟 등가 기전도 데이터 집합을 타겟 등가 기전도 오디오 신호로 변환시킬 수 있다. 상기 시스템은 상기 타겟 등가 기전도 오디오 신호에 근거하여, 상기 타겟 오디오 신호를 확정할 수도 있다. 상기 시스템은 상기 오디오 신호 출력장치로 하여금 상기 타겟 오디오 신호를 출력하게 할 수도 있다.
일부 실시예들에서는, 상기 타겟 오디오 신호는 상기 기전도 오디오 신호 중의 소음레벨보다 작은 소음레벨을 포함할 수 있다.
일부 실시예들에서는, 상기 타겟 등가 기전도 오디오 신호에 근거하여 상기 타겟 오디오 신호를 확정하기 위해, 상기 시스템은 상기 타겟 등가 기전도 오디오 신호에 소음을 추가함으로써 상기 타겟 오디오 신호를 생성할 수 있다.
일부 실시예들에서는, 상기 훈련된 기계학습모형을 생성하기 위해, 상기 시스템은 아래의 동작들 중의 하나 이상을 수행할 수 있다. 상기 시스템은 복수의 훈련 데이터 집합들을 얻을 수 있다. 상기 복수의 훈련 데이터 집합들 중의 각 훈련 데이터 집합은 동일한 음성샘플을 표시하는 제1 오디오 신호와 제2 오디오 신호를 포함할 수 있다. 소음이 없는 조건하에서, 골전도 오디오 획득장치는 상기 제1 오디오 신호를 획득할 수 있고, 기전도 오디오 획득장치는 상기 제2 오디오 신호를 획득할 수 있다. 상기 시스템은 상기 복수의 훈련 데이터 집합들을 이용하여 초보 기계학습모형을 훈련하여 상기 훈련된 기계학습모형을 획득할 수 있다.
일부 실시예들에서는, 상기 초보 기계학습모형은 히든마르코브모형에 근거하여 구축될 수 있다.
일부 실시예들에서는, 상기 복수의 훈련 데이터 집합들을 이용하여 초보 기계학습모형을 훈련하여 상기 훈련된 기계학습모형을 획득하기 위해, 상기 시스템은 상기 제1 오디오 신호로부터 제1 음향특성들을 추출할 수 있다. 상기 시스템은 상기 제2 오디오 신호로부터 제2 음향특성들을 추출할 수 있다. 상기 시스템은 상기 제1 음향특성들에 근거하여 하나 이상의 제1 골전도 데이터 집합을 확정할 수 있다. 상기 시스템은 상기 제2 음향특성들에 근거하여, 하나 이상의 제2 기전도 데이터 집합들을 확정할 수도 있다. 상기 시스템은 복수의 쌍의 기전도 데이터와 골전도 데이터를 확정할 수도 있으며, 각 쌍의 기전도 데이터와 골전도 데이터는 동일한 어의들을 표시하는 제1 골전도 데이터 집합과 제2 기전도 데이터 집합을 포함한다. 상기 시스템은 상기 복수의 쌍의 기전도 데이터와 골전도 데이터에 근거하여, 상기 하나 이상의 제1 골전도 데이터 집합들 중의 각 제1 골전도 데이터 집합과 상기 하나 이상의 제2 기전도 데이터 집합들 중의 적어도 하나 사이의 매핑관계를 구축할 수도 있다.
일부 실시예들에서는, 상기 하나 이상의 제1 골전도 데이터 집합들과 상기 하나 이상의 제2 기전도 데이터 집합들 중의 각각은 하나 이상의 음소들로 구성되는 음절을 포함할 수 있다.
일부 실시예들에서는, 상기 훈련된 기계학습모형은 상기 골전도 오디오 신호 중의 각 음절과 상기 기전도 오디오 신호 중의 하나 이상의 음절들 사이의 매핑관계를 제공할 수 있다.
일부 실시예들에서는, 상기 골전도 오디오 데이터 중의 각 음절과 상기 하나 이상의 등가 기전도 데이터 집합들 중의 하나 이상의 음절들 사이의 매핑관계는 상기 골전도 오디오 데이터 중의 각 음절과 상기 하나 이상의 등가 기전도 데이터 집합들 중의 하나 이상의 음절들 중의 각 음절이 매칭되는 확률을 포함할 수 있다.
본 개시의 다른 하나의 양태에 의하면, 오디오 신호를 생성하기 위한 시스템을 제공할 수 있다. 상기 시스템은 적어도 하나의 저장매체 및 상기 적어도 하나의 저장매체와 통신하는 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 저장매체는 한 조의 명령어들을 포함할 수 있다. 상기 적어도 하나의 프로세서가 상기 한 조의 명령어들을 수행하는 경우, 상기 적어도 하나의 프로세서는 상기 시스템이 하나 이상의 아래의 동작들을 수행하게끔 지시될 수 있다. 상기 시스템은 골전도 센서로 획득하는 골전도 오디오 신호와 기전도 센서로 획득하는 기전도 오디오 신호를 얻을 수 있다. 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 사용자의 음성을 표시할 수 있다. 상기 시스템은 훈련된 기계학습모형을 획득할 수도 있다. 상기 시스템은 상기 훈련된 기계학습모형을 이용하여, 상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여, 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 생성할 수 있다. 상기 시스템은 오디오 신호 출력장치로 하여금 상기 오디오 신호를 출력하게 할 수도 있다. 상기 타겟 오디오 신호는 상기 기전도 오디오 신호의 소음레벨보다 작은 소음레벨을 가질 수 있다.
본 개시의 다른 한 양태에 의하면, 오디오 신호를 생성하기 위한 방법을 제공할 수 있다. 상기 방법은 골전도 센서로 획득하는 골전도 오디오 신호와 기전도 센서로 획득하는 기전도 오디오 신호를 획득하는 단계를 포함할 수 있다. 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 사용자의 음성을 표시할 수 있다. 상기 방법은 특정된 골전도 오디오 신호로부터 도출하는 골전도 데이터의 집합과 특정된 등가 기전도 오디오 신호로부터 도출하는 하나 이상의 등가 기전도 데이터 집합들 사이의 매핑관계를 제공하는 훈련된 기계학습모형을 획득하는 단계를 포함할 수도 있다. 상기 방법은 상기 훈련된 기계학습모형을 이용하여 상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여 타겟 등가 기전도 데이터 집합에 대응되는 상기 골전도 오디오 신호를 확정하는 단계를 포함할 수도 있다. 상기 타겟 등가 기전도 데이터 집합은 상기 사용자의 음성의 어의내용을 표시할 수 있다. 상기 방법은 오디오 신호 출력장치가 상기 타겟 등가 기전도 데이터 집합에 근거하여 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 출력하게 하는 단계를 더 포함할 수 있다.
본 개시의 다른 한 양태에 의하면, 오디오 신호를 생성하기 위한 방법을 제공할 수 있다. 상기 방법은 골전도 센서로 획득하는 골전도 오디오 신호와 기전도 센서로 획득하는 기전도 오디오 신호를 획득하는 것을 포함할 수 있다. 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 사용자의 음성을 표시할 수 있다. 상기 방법은 훈련된 기계학습모형을 획득하는 단계를 포함할 수도 있다. 상기 방법은 상기 훈련된 기계학습모형을 이용하여 상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 생성하는 단계를 포함할 수도 있다. 상기 방법은 오디오 신호 출력장치가 상기 오디오 신호를 생성하게 하는 단계를 더 포함할 수 있으며, 상기 타겟 오디오 신호는 상기 기전도 오디오 신호의 소음레벨보다 작은 소음레벨을 구비한다.
본 개시의 다른 한 양태에 의하면, 오디오 신호를 생성하기 위한 시스템을 제공할 수 있다. 상기 시스템은 획득모듈, 확정모듈, 및 출력모듈을 포함할 수 있다. 상기 획득모듈은 골전도 센서로 획득하는 골전도 오디오 신호, 기전도 센서로 획득하는 기전도 오디오 신호, 및 특정된 골전도 오디오 신호로부터 도출하는 골전도 데이터의 집합과 특정된 등가 기전도 오디오 신호로부터 도출하는 하나 이상의 등가 기전도 데이터 집합들 사이의 매핑관계를 제공하는 훈련된 기계학습모형을 획득하도록 구성될 수 있다. 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 사용자의 음성을 표시할 수 있다. 상기 확정모듈은 상기 훈련된 기계학습모형을 이용하여 타겟 등가 기전도 데이터 집합에 대응되는 상기 골전도 오디오 신호를 확정하도록 구성될 수 있으며, 상기 타겟 등가 기전도 데이터 집합은 상기 훈련된 기계학습모형을 이용하여 타겟 등가 기전도 데이터 집합에 대응되는 상기 골전도 오디오 신호를 표시한다. 상기 출력모듈은 오디오 신호 출력장치로 하여금 상기 타겟 등가 기전도 데이터 집합에 근거하여 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 출력하도록 구성될 수 있다.
본 개시의 다른 한 양태에 의하면, 오디오 신호를 생성하기 위한 시스템을 제공할 수 있다. 상기 시스템은 획득모듈, 확정모듈, 및 출력모듈을 포함할 수 있다. 상기 획득모듈은 골전도 센서로 획득하는 골전도 오디오 신호, 기전도 센서로 획득하는 기전도 오디오 신호, 및 훈련된 기계학습모형을 획득하도록 구성될 수 있다. 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 사용자의 음성을 표시할 수 있다. 상기 확정모듈은 상기 훈련된 기계학습모형을 이용하여 상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 생성하도록 구성될 수 있다. 상기 출력모듈은 오디오 신호 출력장치로 하여금 상기 오디오 신호를 출력하도록 구성될 수 있다. 상기 타겟 오디오 신호는 상기 기전도 오디오 신호의 소음레벨보다 작은 소음레벨을 가질 수 있다.
본 개시의 다른 한 양태에 의하면, 비일시적인 컴퓨터 판독가능 매체를 제공할 수 있다. 상기 비일시적인 컴퓨터 판독가능 매체는 오디오 신호의 생성을 위한 한 조의 명령어들을 포함할 수 있다. 적어도 하나의 프로세서에 의해 수행되는 경우, 상기 한 조의 명령어들은 상기 적어도 하나의 프로세서를 지시하여 방법을 수행하게 할 수 있다. 상기 방법은 골전도 센서로 획득하는 골전도 오디오 신호와 기전도 센서로 획득하는 기전도 오디오 신호를 획득하는 단계를 포함할 수 있다. 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 사용자의 음성을 표시할 수 있다. 상기 방법은 특정된 골전도 오디오 신호로부터 도출하는 골전도 데이터의 집합과 특정된 등가 기전도 오디오 신호로부터 도출하는 하나 이상의 등가 기전도 데이터 집합들 사이의 매핑관계를 제공하는 훈련된 기계학습모형을 획득하는 단계를 포함할 수도 있다. 상기 방법은 상기 훈련된 기계학습모형을 이용하여 상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여 타겟 등가 기전도 데이터 집합에 대응되는 상기 골전도 오디오 신호를 확정하는 단계를 포함할 수도 있다. 상기 타겟 등가 기전도 데이터 집합은 상기 사용자의 음성의 어의내용을 표시할 수 있다. 상기 방법은 오디오 신호 출력장치로 하여금 상기 타겟 등가 기전도 데이터 집합에 근거하여 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 출력하도록 하는 단계를 더 포함할 수 있다.
본 개시의 다른 한 양태에 의하면, 비일시적인 컴퓨터 판독가능 매체를 제공할 수 있다. 상기 비일시적인 컴퓨터 판독가능 매체는 오디오 신호의 생성을 위한 한 조의 명령어들을 포함할 수 있다. 적어도 하나의 프로세서에 의해 수행되는 경우, 상기 한 조의 명령어들은 상기 적어도 하나의 프로세서를 지시하여 방법을 수행하게 할 수 있다. 상기 방법은 골전도 센서로 획득하는 골전도 오디오 신호와 기전도 센서로 획득하는 기전도 오디오 신호를 획득하는 단계를 포함할 수 있다. 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 사용자의 음성을 표시할 수 있다. 상기 방법은 훈련된 기계학습모형을 획득하는 단계를 포함할 수도 있다. 상기 방법은 상기 훈련된 기계학습모형을 이용하여 상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 생성하는 단계를 포함할 수도 있다. 상기 방법은 오디오 신호 출력장치로 하여금 상기 오디오 신호를 출력하도록 하는 단계를 더 포함할 수 있으며, 상기 타겟 오디오 신호는 상기 기전도 오디오 신호의 소음레벨보다 작은 소음레벨을 구비한다.
추가적인 특징들은 아래의 묘사에서 설명될 것이며, 일부는 하기와 첨부된 도면의 검토에 의해 본 분야의 통상의 기술자에게 명백해지거나 실시예의 제조 또는 운용에 의해 학습될 수 있다. 본 개시의 특징들은 아래에서 상세히 토론하는 상세한 예들에서의 기재들의 방법론, 수단들, 및 조합들을 실천하고 사용함으로써 구현되고 획득될 수 있다.
본 개시는 예시적인 실시예에 관하여 더 설명한다. 이러한 예시적인 실시예들은 도면을 참조하여 상세히 설명된다. 이러한 실시예들은 비한정적인 예시적인 실시예들로써, 여기서 유사한 참조부호는 여러 도면에서 유사한 구조를 나타낸다.
도 1은 본 개시의 일부 실시예들에 따른 예시적인 오디오 신호 생성시스템을 나타내는 개략도이다.
도 2는 본 개시의 일부 실시예들에 따른 계산장치의 예시적인 하드웨어와 소프트웨어 부재들을 나타내는 개략도이다.
도 3은 본 개시의 일부 실시예들에 따른 예시적인 음향수집장치의 개략도이다 .
도 4는 본 개시의 일부 실시예들에 따른 예시적인 처리장치를 나타내는 블록도이다.
도 5는 본 개시의 일부 실시예들에 따른 다른 하나의 예시적인 처리장치를 나타내는 블록도이다.
도 6은 본 개시의 일부 실시예들에 따른 오디오 신호를 생성하기 위한 예시적인 처리를 나타내는 개략흐름도이다.
도 7은 본 개시의 일부 실시예들에 따른 골전도 오디오 신호에 대응되는 타겟 등가 기전도 데이터 집합을 확정하기 위한 예시적인 처리를 나타내는 개략흐름도이다.
도 8은 본 개시의 일부 실시예들에 따른 훈련된 기계학습모형을 생성하기 위한 예시적인 처리를 나타내는 개략흐름도이다.
도 9는 본 개시의 일부 실시예들에 따른 예시적인 초보 기계학습모형을 나타내는 개략도이다.
도 10은 본 개시의 일부 실시예들에 따른 다른 하나의 오디오 신호를 생성하기 위한 예시적인 처리를 나타내는 개략흐름도이다.
아래의 상세한 설명에서, 다수의 세부 설명은 관련 개시의 완전한 이해를 제공하기 위해 예를 들어 설명하는 것이다. 그러나, 본 분야의 통상의 기술자들에 있어서 본 개시는 이러한 세부사항이 없이도 실행될 수 있음은 당연한 것이다. 다른 경우에는, 본 개시의 양태가 불명확해지는 것을 방지하기 위해 잘 알려진 방법들, 절차들, 시스템, 부재들, 및/또는 회로는 이미 상세하지 않고 상대적으로 높은 수준으로 설명되었다. 개시된 실시예에 대한 다양한 변형은 본 분야의 통상의 기술자에게 용이할 것이며, 본 개시의 사상 및 범위를 벗어나지 않고 본 명세서에 정의되는 일반적인 원칙들은 다른 실시예들 및 적용분야에 적용될 수 있다. 따라서, 본 개시는 실시예가 나타내는 바에 한정되지 않으며, 청구범위와 동일한 넓은 범위로 한정한다.
본 명세서에서 사용되는 용어는 특정 실시예들을 설명하기 위한 것일 뿐 제한하려는 의도는 아니다. 여기에서 사용한, 단수 형태 "하나", "일" 및 "상기"는 문맥에서 달리 명확하게 지시하지 않는 한, 복수의 형태도 포함함을 의도로 할 수 있다. 더 알아두어야 할 것은 본 명세서에서 사용될 때 용어 "포함" "포괄" 및/또는 "함유"는 명시된 특징, 정수, 단계, 조작, 요소 및/또는 구성요소의 존재를 명시하지만 하나 이상의 다른 특징, 정수, 단계, 조작, 요소, 구성요소 및/또는 이들의 그룹의 추가를 배제하지 않는다.
여기에서 사용하는 용어 "시스템", "엔진", "유닛", "모듈", 및/또는 "블록"은 상이한 레벨들의 상이한 부재들, 소자들, 부품들, 부분들 또는 조립체들을 오름차순으로 구분하는 하나의 방법이다. 그러나, 이 용어들은 동일한 목적을 달성하는 경우, 다른 표현에 의해 대체될 수 있다.
일반적으로, 여기에서 사용하는 단어 "모듈", "유닛", 또는 "블록"은 하드웨어 또는 펌웨어에 포함되는 논리회로거나, 또는 소프트웨어 명령어들의 집합이다. 여기에서 기재하는 모듈, 유닛, 또는 블록은 소프트웨어 및/또는 하드웨어로 구현될 수 있으며 임의의 유형의 비일시적인 컴퓨터 판독가능 매체 또는 기타 저장장치에 저장될 수 있다. 일부 실시예들에서는, 소프트웨어 모듈/유닛/블록은 실행가능한 프로그램으로 편집되거나 링크될 수 있다. 이는 소프트웨어 모듈들이 기타 모듈들/유닛들 /블록들 또는 그들 자체로부터 호출할 수 있고, 및/또는 탐측한 이벤트들 또는 중단들에 응답하여 기동되는 데 유리하다. 계산장치들에서 실행하도록 구성되는 소프트웨어 모듈들/유닛들 /블록들은 컴퓨터 판독가능 매체, 예를 들면, 컴팩트 디스크, 디지털 비디오 디스크, 플래시 드라이브, 자기 디스크, 또는 임의의 기타 유형의 매체에 설치될 수 있거나, 또는 디지털 다운로드 가능하게 설치될 수 있다(초기에 압축되거나 장착가능한 형식으로 저장될 수 있으며, 실행전에 장착, 감압술, 해독이 필요하다 ). 이러한 소프트웨어 코드는 실행 계산장치의 저장장치에 부분적으로 또는 전부 저장되어 상기 계산장치에 의해 실행될 수 있다. 소프트웨어 명령어들은 펌웨어, 예를 들면, 소거 및 프로그래밍가능 읽기전용 메모리(EPROM) 에 감입될 수 있다.이는 하드웨어 모듈들/유닛들 /블록들이 연결된 로직부재들, 예를 들면, 케이트와 촉발기에 포함되는 데 유리하며, 및/또는 프로그램밍 가능한 유닛들, 예를 들면, 프로그램밍 가능한 게이트 어레이들 또는 프로세서에 포함될 수 있다. 여기에서 기재하는 상기 모듈들/유닛들 /블록들 또는 계산장치의 기능은 소프트웨어 모듈들/유닛들 /블록들로 구현될 수 있으며, 하드웨어 또는 펌웨어로 표시될 수 있다. 일반적으로, 여기에서 기재하는 상기 모듈들/유닛들 /블록들은 기타 모듈들/유닛들 /블록들과 조합될 수 있거나 또는 그 물리적 구성 또는 스토리지를 물론하고 서브모듈들/서브유닛들 /서브블록들로 분할될 수 있는 로직 모듈들/유닛들 /블록들이다. 상기 설명은 시스템, 엔진, 또는 그 일부분에 적용될 수 있다.
이해해야 할 것은, 상하문에서 명시하지 않은 한, 유닛, 엔진, 모듈, 또는 블록이 다른 하나의 유닛, 엔진, 모듈, 또는 블록"위에", "에 연결," 또는 "와 결합"한다는 것은 직접 위에 있고, 연결 또는 결합되거나, 또는 기타 유닛, 엔진, 모듈, 또는 블록과 연통되거나, 또는 중간에 개입되는 유닛, 엔진, 모듈, 또는 블록이 존재할 수 있음을 의미한다. 여기에서 사용하는 상기 용어 "및/또는"는 관련 열겨된 아이템들 중의 임의의 하나와 전부의 조합들을 포함한다.
본 발명의 이러한 특징과 특성들, 그리고 구조물의 관련 요소들의 작동 방법과 기능 그리고 부품들의 조합, 제조 경제성은 첨부된 도면을 참조하여 아래에서 설명할 때 더욱 명확해질 수 있으며, 이 모든 것들이 이 공개의 일부를 형성한다. 다만, 도면은 예시 및 설명을 위한 것일 뿐, 본 발명의 범위를 한정하려는 의도는 아니라는 것을 명확히 이해해야 한다. 상기 도면들은 비례에 따라 그려진 것이 아닌 것으로 이해된다.
본 개시에서 사용하는 흐름도는 그 시스템들이 본 개시에서의 일부 실시예들에 따라 수행하는 동작들을 나타한다. 분명히 이해해야 할 것은 상기 흐름도의 동작들은 차례로 수행되지 않을 수 있다는 것이다. 반대로, 동작들은 반대 순서 또는 동시에 실행될 수 있다. 또한 하나 이상의 동작이 흐름도에 추가될 수도 있다. 하나 이상의 동작들은 상기 흐름도로부터 제거할 수 있다.
본 개시의 한 양태는 오디오 신호를 생성하기 위한 시스템과 방법들에 관한 것이다. 상기 시스템은 골전도 센서로 획득하는 골전도 오디오 신호와 기전도 센서로 획득하는 기전도 오디오 신호를 얻을 수 있다. 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 사용자의 음성을 표시할 수 있다. 상기 시스템은 상기 골전도 오디오 신호로부터 도출하는 골전도 데이터의 집합과 하나 이상의 등가 기전도 데이터 집합들 사이의 매핑관계를 제공하는 훈련된 기계학습모형을 획득할 수도 있다. 상기 시스템은 상기 훈련된 기계학습모형을 이용하여, 상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여, 타겟 등가 기전도 데이터 집합에 대응되는 상기 골전도 오디오 신호를 확정할 수도 있다. 상기 타겟 등가 기전도 오디오 데이터 집합은 상기 사용자의 음성의 어의내용을 표시할 수 있다. 상기 시스템은 오디오 신호 출력장치로 하여금 상기 타겟 등가 기전도 데이터 집합에 근거하여 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 출력하게 할 수도 있다. 상기 골전도 오디오 신호와 비교하여, 본 개시의 상기 시스템과 방법들은 상기 골전도 오디오 신호보다 더 많은 주파수 성분들을 구비하는 개선된 충실도를 가지는 상기 타겟 오디오 신호를 생성할 수 있다. 상기 기전도 오디오 신호와 비교하여, 본 개시의 상기 시스템과 방법들은 상기 기전도 오디오 신호보다 낮은 소음레벨을 구비하는 상기 타겟 오디오 신호를 생성할 수 있다.
도 1은 본 개시의 일부 실시예들에 따른 예시적인 오디오 신호 생성시스(100)을 나타내는 개략도이다. 상기 오디오 신호 생성시스(100)은 오디오 수집장치(110), 서버(120), 단말기(130), 저장장치(140), 및 네트워크(150)를 포함할 수 있다.
상기 오디오 수집장치(110)는 사용자의 음성 사용자가 말할 때 소리, 목소리 또는 말(음성)을 수집함으로써, 또는 오디오 데이터(예를 들면, 오디오 신호)를 얻을 수 있다. 예를 들면, 사용자가 말할 때, 상기 사용자의 소리는 상기 사용자의 입 주위의 공기의 진동 및/또는 상기 사용자의 신체(예를 들면, 두골)의 조직들의 진동을 일으킬 수 있다. 상기 오디오 수집장치(110)는 상기 진동을 수신하고 상기 진동을 전기신호들(예를 들면, 아날로그신호들 또는 디지털 신호들)로 변환시킬 수 있으며, 상기 전기신호들은 "상기 오디오 데이터"라고도 부른다. 상기 오디오 데이터는 상기 네트워크(150)를 통해 상기 전기신호들의 형식으로 서버(120), 상기 단말기(130), 및/또는 상기 저장장치(140)에 전송될 수 있다. 일부 실시예들에서는, 상기 오디오 수집장치(110)는 녹음기, 헤드셋, 예를 들면, 블루투스 헤드셋, 유선 헤드셋, 보청기 장치, 등을 포함할 수 있다.
일부 실시예들에서는, 상기 오디오 수집장치(110)는 무선 연결(예를 들면, 상기 네트워크(150)) 및/또는 유선연결을 통해 스피커에 연결될 수 있다. 상기 오디오 데이터는 스피커에 전송되어 상기 사용자의 음성을 재생 및/또는 재현할 수 있다. 일부 실시예들에서는, 상기 스피커와 상기 오디오 수집장치(110)는 단일 장치, 예를 들면, 헤드셋에 통합될 수 있다. 일부 실시예들에서는, 상기 오디오 수집장치(110)와 상기 스피커는 서로 분리될 수 있다. 예를 들면, 상기 오디오 수집장치(110)는 제1 단말기(예를 들면, 헤드셋)에 장착될 수 있으며, 상기 스피커는 다른 하나의 단말기(예를 들면, 상기 단말기(130))에 장착될 수 있다.
일부 실시예들에서는, 상기 오디오 수집장치(110)는 골전도 마이크로폰(112)과 기전도 마이크로폰(114)을 포함할 수 있다. 상기 골전도 마이크로폰(112)은 사용자가 말할 때 사용자의 골격들(예를 들면, 두골)을 통해 전도되는 오디오 신호들("골전도 오디오 신호들"라고도 부른다)을 수집하기 위한 하나 이상의 골전도 센서들("골전도 조립체"라고도 부른다)을 포함할 수 있다. 상기 골전도 오디오 신호들은 사용자가 말할 때 상기 골전도 마이크로폰(112)가 사용자의 골격들(예를 들면, 두골)의 진동신호를 수집함으로써 생성될 수 있다. 일부 실시예들에서는, 상기 하나 이상의 골전도 센서들은 골전도 센서 어레이를 형성할 수 있다. 일부 실시예들에서는, 상기 골전도 마이크로폰(112)은 상기 골전도 데이터를 수집하기 위한 상기 사용자의 신체의 구역에 위치 및/또는 접촉할 수 있다. 상기 사용자의 신체의 상기 구역은 이마, 목(예를 들면, 인후), 얼굴(예를 들면, 입 주위의 영역, 턱), 머리 꼭대기, 유양돌기, 귀 주위의 영역 또는 귀 내부의 영역, 태양혈, 등, 또는 이들의 임의의 조합을 포함할 수 있다. 예를 들면, 상기 골전도 마이크로폰(112)은 이주, 귓바퀴, 내이도, 외이도, 등에 위치 및/또는 접촉할 수 있다. 일부 실시예들에서는, 상기 골전도 데이터의 하나 이상의 특성들은 상기 골전도 마이크로폰(112)이 위치 및/또는 접촉하는 상기 사용자의 신체의 상기 구역에 따라 다를 수 있다. 예를 들면, 귀 주위의 영역에 위치하는 상기 골전도 마이크로폰(112)에 의해 수집되는 상기 골전도 데이터는 이마에 위치하는 상기 골전도 마이크로폰(112)에 의해 수집되는 높은 에너지를 포함할 수 있다.
상기 기전도 마이크로폰(114)는 사용자가 말할 때 공기를 통해 전도되는 오디오 신호들("기전도 오디오 신호들"라고도 부른다)을 수집하기 위한 하나 이상의 기전도 센서들("기전도 조립체"라고도 부른다)을 포함할 수 있다. 일부 실시예들에서는, 상기 하나 이상의 기전도 센서들은 기전도 센서 어레이를 형성할 수 있다. 일부 실시예들에서는, 상기 기전도 마이크로폰(114)은 상기 사용자의 입으로부터 예를 들면, 0cm, 1cm, 2cm, 5cm, 10cm, 20cm, 등 거리 내에 위치할 수 있다. 상기 기전도 데이터(예를 들면, 상기 기전도 데이터의 평균 진폭)의 하나 이상의 특성들은 상기 기전도 마이크로폰(114)와 상기 사용자의 입 사이의 상이한 거리들에 따라 다를 수 있다. 예를 들면, 상기 기전도 마이크로폰(114)과 상기 사용자의 입 사이의 상이한 거리가 클수록, 상기 기전도 데이터의 평균 진폭이 더 작을 수 있다.
일부 실시예들에서는, 상기 골전도 마이크로폰(112)과 상기 기전도 마이크로폰(114)은 단일 장치(예를 들면, 상기 오디오 수집장치(110))에 통합될 수 있다. 일부 실시예들에서는, 상기 골전도 마이크로폰(112)과 상기 기전도 마이크로폰(114)은 상이한 장치들에 통합될 수 있다.
일부 실시예들에서는, 상기 서버(120)는 단일 서버 또는 서버 그룹일 수 있다. 상기 서버 그룹은 집중식(예를 들면, 데이터 센터) 또는 분산식(예를 들면, 상기 서버(120)는 분산시스템일 수 있다)일 수 있다. 일부 실시예들에서는, 상기 서버(120)는 현지 또는 원격에 있을 수 있다. 예를 들면, 상기 서버(120)는 상기 네트워크(150)를 통해 상기 단말기(130), 및/또는 상기 저장장치(140)에 저장된 정보 및/또는 데이터에 접근할 수 있다. 다른 하나의 예로써, 상기 서버(120)는 상기 단말기(130), 및/또는 상기 저장장치(140)에 직접 연결되어 저장된 정보 및/또는 데이터에 접근할 수 있다. 일부 실시예들에서는, 상기 서버(120)는 클라우드 플랫폼에서 구현될 수 있다. 단지 예로써, 상기 클라우드 플랫폼은 사설 클라우드, 공공 클라우드, 혼합 클라우드, 커뮤니티 클라우드, 분산 클라우드, 인터 클라우드, 다중 클라우드, 등, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시예들에서는, 본 개시에서 상기 서버(120)는 도2에서의 하나 이상의 부재들을 구비하는 계산장치(200)에서 수행될 수 있다.
일부 실시예들에서는, 상기 서버(120)는 처리장치(122)를 포함할 수 있다. 상기 처리장치(122)는 오디오 신호의 생성과 관련되는 정보 및/또는 데이터를 처리하여 본 개시에서 설명하는 하나 이상의 기능들을 수행할 수 있다. 예를 들면, 상기 처리장치(122)는 상기 골전도 마이크로폰(112)이 수집하는 골전도 오디오 신호와 상기 기전도 마이크로폰(114)이 수집하는 기전도 오디오 신호을 획득할 수 있다. 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 사용자의 음성을 표시할 수 있다. 상기 처리장치(122)는 특정된 골전도 오디오 신호로부터 도출하는 골전도 데이터의 집합(예를 들면, 상기 골전도 마이크로폰(112)에 의해 수집되는 상기 골전도 오디오 신호)와 하나 이상의 등가 기전도 데이터 집합들 사이의 매핑관계를 제공하는 훈련된 기계학습모형을 획득할 수 있다. 상기 처리장치(122)는 상기 훈련된 기계학습모형을 이용하여, 상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여 타겟 등가 기전도 데이터 집합에 대응되는 상기 골전도 오디오 신호를 생성할 수 있다. 상기 타겟 등가 기전도 오디오 데이터 집합은 상기 사용자의 음성의 어의내용을 표시하며, 상기 기전도 오디오 신호의 소음레벨보다 작은 소음레벨을 포함할 수 있다. 상기 처리장치(122)은 오디오 신호 출력장치로 하여금 상기 타겟 등가 기전도 데이터 집합에 근거하여 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 출력하게 할 수도 있다.
본 개시에서 사용하는 상기 훈련된 기계학습모형은 때때로 업데이트 될 수 있으며, 예를 들면, 정기적으로 또는 비정기적으로, 초기의 훈련된 기계학습모형이 확정되는 상기 초기 샘플세트와 적어도 부분적으로 다른 샘플세트에 근거하여 업데이트 될 수 있다. 예를 들면, 상기 훈련된 기계학습모형은 초기의 샘플세트에 있지 않는 새로은 샘플들을 포함하는 샘플집합에 근거하여 업데이트될 수 있다. 일부 실시예들에서는, 상기 훈련된 기계학습모형의 확정 및/또는 업데이트는 처리장치에서 수행될 수 있으며, 상기 훈련된 기계학습모형의 응욜프로그램은 상이한 처리장치에서 수행될 수 있다. 일부 실시예들에서는, 상기 훈련된 기계학습모형의 확정 및/또는 업데이트는 상기 시스템(100)과 다른 시스템의 처리장치 또는 상기 훈련된 기계학습모형의 응용프로그램이 수행될 수 있는 상기 처리장치(122)를 포함하는 서버와 다른 서버에서 수행될 수 있다. 예를 들면, 상기 훈련된 기계학습모형의 확정 및/또는 업데이트는 이러한 기계학습모형을 제공 및/또는 보수하는 제공업자의 제1 시스템에서 수행될 수 있으며, 및/또는 상기 훈련된 기계학습모형을 확정 및/또는 업데이트하는 데 이용되는 훈련 샘플들에 액세스하고, 동시에 상기 제공되는 기계학습모형에 의한 오디오 신호생성은 상기 제공자의 고객의 제2 시스템에서 수행될 수 있다. 일부 실시예들에서는, 상기 훈련된 기계학습모형의 확정 및/또는 업데이트는 오디오 신호생성을 위한 청구에 응답하여 온라인에서 수행될 수 있다. 일부 실시예들에서는, 상기 훈련된 기계학습모형의 확정 및/또는 업데이트는 오프라인에서 수행될 수 있다.
일부 실시예들에서는, 상기 처리장치(122)는 하나 이상의 처리엔진들(예를 들면, 단일 코어 처리엔진(들) 또는 멀티 코어 프로세서(들))을 포함할 수 있다. 단지 예로써, 상기 처리장치(122)는 중앙처리장치(CPU), 응용프로그램별 집적 회로(ASIC), 응용특정명령집합 프로세서(ASIP), 그래픽 처리장치GPU), 물리 처리장치(PPU), 디지털신호 프로세서(DSP), 필드 프로그램 가능 게이트 어레이(FPGA), 프로그램밍 가능한 로직장치(PLD), 컨트롤러, 마이크로 컨트롤러, 축소명령집합 컴퓨터(RISC), 마이크로 프로세서, 등, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시예들에서는, 상기 처리장치(122)는 상기 오디오 수집장치(110)에 통합될 수 있다.
일부 실시예들에서는, 상기 단말기(130)는 이동장치(130-1), 태블릿 컴퓨터(130-2), 랩톱 컴퓨터(130-3), 차량내장장치(130-4), 착용가능장치(130-5), 등, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시예들에서는, 상기 이동장치(130-1)는 스마트 홈장치, 스마트 이동장치, 가상현실장치, 증강현실장치, 등, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시예들에서는, 상기 스마트 홈장치는 스마트 조명장치, 지능전자장치의 제어장치, 스마트 감시장치, 스마트 털레비젼, 스마트 비디오 카메라, 인터폰, 등, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시예들에서는, 상기 스마트 이동장치는 스마트폰, 개인 디지털 어세스턴트(PDA), 게임장치, 네비게이션장치, POS (point of sale)장치, 등, 또는 이들의 임의의 조합을 포함할 수 잇다. 일부 실시예들에서는, 상기 가상현실장치 및/또는 상기 증강현실장치는 가상현실헬멧, 가상현실 안경, 가상현실 패치, 증강현실헬멧, 증강현실안경, 증강현실패치, 등, 또는 이들의 임의의 조합을 포함할 수 있다. 예를 들면, 상기 가상현실장치 및/또는 상기 증강현실장치는 GoogleTM 안경, Oculus Rift, HoloLens, Gear VR, 등을 포함할 수 있다. 일부 실시예들에서는, 상기 차량내장장치(130-4)는 내장 컴퓨터, 내장 털러비젼, 등을 포함할 수 있다. 일부 실시예들에서는, 상기 단말기(130)는 승객 및/또는 상기 단말기(130)의 위치를 결정하기 위한 위치결정 기술을 구비하는 장치일 수 있다. 일부 실시예들에서는, 상기 착용가능장치(130-5)는 스마트 팔찌, 스마트 발착용장치(footgear), 스마트 안경, 스마트 헬멧, 스마트 시계, 스마트옷, 스마트 백팩, 스마트 악세사리, 등, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시예들에서는, 상기 오디오 수집장치(110)와 상기 단말기(130)는 단일 장치에 집적될 수 있다.
상기 저장장치(140)는 데이터 및/또는 명령어들을 저장할 수 있다. 예를 들면, 상기 저장장치(140)는 복수의 음성샘플들의 데이터 집합, 하나 이상의 기계학습모형들, 훈련된 기계학습모형 및/또는 구축필터, 상기 골전도 마이크로폰(112) 및 기전도 마이크로폰(114)에 의해 수집되는 오디오 데이터, 등을 저장할 수 있다. 일부 실시예들에서는, 상기 저장장치(140)는 상기 단말기(130) 및/또는 상기 오디오 수집장치(110)로부터 획득하는 데이터를 저장할 수 있다. 일부 실시예들에서는, 상기 저장장치(140)는 상기 서버(120)가 실행하거나 또는 이용하여 본 개시에서 설명하는 예시적인 방법들을 수행하는 데이터 및/또는 명령어들을 저장할 수 있다. 일부 실시예들에서는, 저장장치(140)는 대규모 스토리지, 이동가능 스토리지, 휘발성 읽기 및 쓰기 메모리, 읽기전용 메모리(ROM), 등, 또는 이들의 임의의 조합을 포함할 수 있다. 예시적인 대규모 스토리지는 자기 디스크, 광 디스크, 고상드라이브, 등을 포함할 수 있다. 예시적인 이동가능 스토리지는 플래시 드라이브, 플로피 디스크, 광 디스크, 메모리 카드, zip 디스크, 자기 테이프, 등을 포함할 수 있다. 예시적인 휘발성 읽기 및 쓰기 메모리는 랜덤 액세스 메모리(RAM)를 포함할 수 있다. 예시적인 RAM는 동적 RAM(DRAM), 이중 데이터 속도 동기식 동적RAM(DDR SDRAM), 정적 RAM(SRAM), 사이리스터RAM(T-RAM), 및 제로 캐퍼시터(Z-RAM), 등을 포함할 수 있다. 예시적인 ROM는마크스 ROM(MROM), 프로그램밍 가능한 ROM(PROM), 소거 및 프로그래밍 가능 ROM(EPROM), 전기 소거 및 프로그래밍 가능한 ROM(EEPROM), 컴팩트 디스크 ROM(CD-ROM), 및 디지털 다용도 디스크 ROM, 등을 포함할 수 있다. 일부 실시예들에서는, 상기 저장장치(140)는 클라우드 플랫폼에서 구현될 수 있다. 단지 예로써, 상기 클라우드 플랫폼은 사설 클라우드, 공공 클라우드, 혼합 클라우드, 커뮤니티 클라우드, 분산 클라우드, 인터 클라우드, 다중 클라우드, 등, 또는 이들의 임의의 조합을 포함할 수 있다.
일부 실시예들에서는, 상기 저장장치(140)는 상기 오디오 신호 생성시스(100)(예를 들면, 상기 오디오 수집장치(110), 상기 서버(120), 및 상기 단말기(130))의 하나 이상의 부재들과 연통하는 상기 네트워크(150)에 연결될 수 있다. 상기 오디오 신호 생성시스(100)의 하나 이상의 부재들은 상기 네트워크(150)를 통해 상기 저장장치(140)에 저장되어 있는 데이터 또는 명령어들에 액세스할 수 있다. 일부 실시예들에서는, 상기 저장장치(140)는 상기 오디오 신호 생성시스(100)의 하나 이상의 부재들(예를 들면, 상기 오디오 수집장치(110), 상기 서버(120), 및 상기 단말기(130))과 직접 연결하거나 통신할 수 있다. 일부 실시예들에서는, 상기 저장장치(140)는 상기 서버(120)의 일부분일 수 있다.
상기 네트워크(150)는 정보 및/또는 데이터의 교환을 촉진할 수 있다. 일부 실시예들에서는, 상기 오디오 신호 생성시스템(100)의 하나 이상의 부재들(예를 들면, 상기 오디오 수집장치(110), 상기 서버(120), 상기 단말기(130), 및 상기 저장장치(140))은 상기 네트워크(150)를 통해 정보 및/또는 데이터를 상기 오디오 신호 생성시스(100)의 기타 부재(들)에 전송할 수 있다. 예를 들면, 상기 서버(120)는 상기 네트워크(150)를 통해 상기 단말기(130)로부터 골전도 데이터와 기전도 데이터를 얻을 수 있다. 일부 실시예들에서는, 상기 네트워크(150)는 유선 또는 무선 네트워크, 또는 이들의 조합 중의 임의의 유형일 수 있다. 단지 예로써, 상기 네트워크(150)는 케이블 네트워크, 유선 네트워크, 광성유 네트워크, 통신 네트워크, 인트라넷, 인터넷, 근거리 통신망(LAN), 광역 네트워크(WAN), 무선근거리 통신망(WLAN), 도시구역 네트워크(MAN), 공중전화교환 네트워크(PSTN), 블루투스 네트워크, ZigBee 네트워크, 근거리 통신(NFC) 네트워크, 등, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시예들에서는, 상기 네트워크(150)는 하나 이상의 네트워크 액세스 포인트들을 포함할 수 있다. 예를 들면, 상기 네트워크(150)는 유선 또는 무선 네트워크 액세스 포인트들, 예를 들면, 기지국들 및/또는 인터넷 교환 포인트들을 포함할 수 있으며, 이를 통해 상기 오디오 신호 생성시스(100)의 하나 이상의 부재들은 상기 네트워크(150)에 연결되어 데이터 및/또는 정보를 교환할 수 있다.
본 분야의 하나의 통상의 기술자는 상기 오디오 신호 생성시스(100)의 소자(또는 부재)를 수행할 때, 상기 소자 전기신호들 및/또는 전자기 신호들을 통해 수행됨을 이해할 수 있다. 예를 들면, 골전도 마이크로폰(112)가 골전도 데이터를 상기 서버(120)로 전송하는 경우, 상기 골전도 마이크로폰(112)의 프로세서는 상기 골전도 데이터를 부호화한 전기신호를 생성할 수 있다. 상기 골전도 마이크로폰(112)의 프로세서는 그 후 상기 전기신호를 출력포트에 전송할 수 있다. 상기 골전도 마이크로폰(112)이 유선 네트워크를 통해 상기 서버(120)와 연결되면, 상기 출력포트는 전기선에 물리적으로 연결될 수 있으며, 나아가서 상기 전기신호를 상기 서버(120)의 입력포트에 전송할 수도 있다. 상기 골전도 마이크로폰(112)이 무선 네트워크를 통해 상기 서버(120)와 통신하는 경우, 상기 골전도 마이크로폰(112)의 출력포트는 하나 이상의 안테나들일 수 있으며, 상기 안테나는 상기 전기신호를 전자기 신호로 변환시킨다. 유사하게, 기전도 마이크로폰(114)은 기전도 데이터는 전기신호 또는 전자기 신호들을 통해 상기 서버(120)로 전송할 수 있다. 전자장치, 예를 들면, 상기 단말기(130) 및/또는 상기 서버(120)에서, 그 중의 프로세서가 명령어을 처리하고, 명령어를 전송하며, 및/또는 동작을 수행하며, 상기 명령어 및/또는 동작은 전기신호들을 통해 수행될 수 있다. 예를 들면, 상기 프로세서가 저장매체로부터 데이터를 검색하고 저장하는 경우, 전기신호들을 상기 저장매체 중의 읽기/쓰기장치들에 전송할 수 있으며, 상기 읽기/쓰기장치들은 상기 저장매체 내의 데이터를 읽거나 또는 쓸 수 있다. 상기 구축된 데이터는 전기신호들의 형식으로 전자장치의 버스를 통해 프로세서에 전송될 수 있다. 여기서, 전기신호는 하나의 전기신호, 일련의 전기신호들, 및/또는 복수의 이산 전기신호들을 가리킬 수 있다.
도 2는 본 개시의 일부 실시예들에 따른 예시적인 계산장치의 개략도를 내타낸다. 상기 계산장치는 컴퓨터, 예를 들면, 도1에서의 상기 처리장치(122) 및/또는 본 개시의 일부 실시예들에 따른 임의의 특정된 시스템을 수행할 수 있도록 구성된 특정된 기능들을 가지는 컴퓨터일 수 있다. 계산장치(200)는 본 개시에 기재된 하나 이상의 기능들을 수행하는 임의의 부재들을 구현하도록 구성될 수 있다. 예를 들면, 상기 서버(120)는 하드웨어 장치들, 소프트웨어 프로그램들, 펌웨어에서 수행될 수 있거나, 또는 계산장치(200)와 같은 컴퓨터들의 임의의 조합일 수 있다. 간략하게 말하면, 도 2는 하나만의 계산장치를 기재한다. 일부 실시예들에서는, 상기 계산장치의 기능들은 분산형식으로 한 조의 유사한 플랫폼에 의해 실행되어 상기 시스템의 처리부하를 분산시킬 수 있다.
상기 계산장치(200)는 통신포트들(250)을 포함할 수 있으며, 상기 통신포트들(250)은 데이터 통신을 수행할 수 있는 네트워크와 연결할 수 있다. 상기 계산장치(200)는 명령어들을 실행하도록 구성되는 프로세서(220)를 포함하고 하나 이상의 프로세서를 포함할 수 있다. 개략적인 컴퓨터 플랫폼은 내부통신버스(210)를 포함할 수 있으며, 상이한 유형의 프로그램 스토리지 유닛들 및 데이터 스토리지 유닛들(예를 들면, 하드디스크(270) , 읽기전용 메모리(ROM)(230), 랜덤 액세스 메모리(RAM)(240)), 컴퓨터 처리 및/또는 통신에 적용될 수 있는 다양한 데이터 파일들, 및 일부 프로그램 명령어들은 상기 프로세서(220)에 의해 실행될 수 있다. 상기 계산장치(200)는 I/O 장치(260)을 포함할 수도 있으며, 상기 I/O 장치(260)는 계산장치(200)와 기타 부재들 사이의 데이터 흐름의 입출력을 서포트할 수 있다. 또한, 상기 계산장치(200)는 상기 통신 네트워크를 통해 프로그램들 및 데이터를 수신할 수 있다.
도 3은 본 개시의 일부 실시예들에 따른 예시적인 음향수집장치의 개략도이다. 도 3에 표시하는 바와 같이, 상기 음향수집장치(300)는 수집모듈(310)과 신호처리모듈(320)을 포함할 수 있다.
상기 수집모듈(310)은 사용자가 말할 때 생성되는 진동신호를 수집하고, 상기 진동신호들을 전기신호들("오디오 신호들"라고도 부른다)로 변환시키도록 구성될 수 있다. 상기 진동신호는 상기 사용자의 음성을 표시할 수 있다. 구체적으로, 사용자가 말할 때 생성되는 진동신호는 기계적 진동들의 형식으로 상기 수집모듈(310)의 하나 이상의 조립체들(예를 들면,마이크로폰 조립체의 진동막)로 전송될 수 있으며, 상기 수집모듈(310)의 하나 이상의 조립체들이 상응한 기계적 진동들을 생성하게 한다.
설명의 편의를 위해, 상기 수집모듈(310)는 전도 조립체(311) 및/또는 기전도 조립체(312)를 포함할 수 있다. 상기 골전도 조립체(311)는 진동부재, 자석부재, 및 코일을 포함할 수 있다. 본 개시의 다른 부분(예를 들면, 도 1 및 그 관련 설명)에서 설명한 바와 같이, 상기 진동부재는 사용자가 말할 때 생성되는 사용자의 골격(예를 들면, 두골)을 통해 전달되는 진동신호("골전도 진동신호 또는 음파들"라고도 부른다)를 수집할 수 있다. 상기 골전도 조립체(311)는 진동신호를 전기신호들(예를 들면, 오디오 신호들)로 변환시킬 수 있다. 예를 들면, 상기 진동판의 진동은 코일의 진동을 일으킬 수 있다. 상기 코일은 상기 자석부재에 의해 생성되는 자기장에서 진동하여 전기신호들을 생성할 수 있다.
본 개시의 다른 부분(예를 들면, 도 1 및 그 관련 설명)에서 기재한 바와 같이, 상기 기전도 조립체(312)는 사용자가 말할 때 공기를 통해 전달되는 진동신호("기전도 진동신호"라고도 부른다)를 수집할 수 있다. 상기 기전도 조립체(312)는 진동부재, 자석부재, 및 코일을 포함할 수 있다. 본 개시의 다른 부분(예를 들면, 도 1 및 그 관련 설명)에서 기재한 바와 같이, 상기 진동부재는 사용자가 말할 때 공기를 통해 전달되는 진동신호("골전도 진동신호 또는 음파들"라고도 부른다)를 수집할 수 있다. 상기 기전도 조립체(312)는 진동신호를 전기신호들(예를 들면, 오디오 신호들)로 변환시킬 수 있다. 예를 들면, 상기 진동판의 진동은 코일의 진동을 일으킬 수 있다. 상기 코일은 상기 자석부재에 의해 생성되는 자기장에서 진동하여 전기신호들을 생성할 수 있다.
일부 실시예들에서는, 상기 골전도 조립체(311)와 상기 기전도 조립체(312)는 2개의 독립적인 기능성 장치들 또는 단일 장치의 2개의 독립적인 부재들일 수 있다. 여기에서 사용한 바와 같이, 제1 장치가 제2 장치와 독립된다는 것은 상기 제1/제2 장치의 동작은 상기 제2/제1 장치의 동작에 기인하지 않음을 표시하고, 또는 다시 말하면, 상기 제1/제2 장치의 동작은 상기 제2/제1 장치의 동작의 결과가 아님을 표시한다. 상기 골전도 조립체와 상기 기전도 조립체를 예로 들면, 사용자가 말할 때 상기 기전도 조립체가 구동되어 상기 공기의 진동에 의해 상기 기전도 진동신호를 생성하기 때문에, 상기 기전도 조립체는 상기 골전도 조립체와 독립적이며, 상기 골전도 조립체는 사용자가 말할 때 구동되어 상기 골격의 진동에 의해 상기 골전도 진동신호들을 생성한다.
일부 실시예들에서는, 골전도 오디오 신호 또는 기전도 오디오 신호는 상이한 주파수 및/또는 강도들(예를 들면, 진폭들)을 가지는 복수의 파들(예를 들면, 사인파들, 고조파들, 등.)의 중첩에 의해 표시될 수 있다. 여기에서 사용한, 특정된 주파수를 가지는 파는 특정된 주파수를 가지는 "주파수 성분"라고 부를 수도 있다. 일부 실시예들에서는, 골전도 조립체(321)에 의해 획득되는 상기 골전도 오디오 신호에 포함되는 상기 주파수 성분들은 0Hz~20kHz, 또는 20Hz~10kHz, 또는 20Hz~4000Hz, 또는 20Hz~3000Hz, 또는 1000Hz~3500Hz, 또는 1000Hz~3000Hz, 또는 1500Hz~3000Hz, 등의 주파수 범위일 수 있다. 일부 실시예들에서는, 상기 기전도 조립체(322)에 의해 수집되는 기전도 오디오 신호에 포함되는상기 주파수 성분들은 0Hz~20kHz, 또는 20Hz~20kHz, 또는 1000Hz~10kHz, 등의 주파수 범위일 수 있다.
상기 신호처리모듈(320)은 상기 골전도 조립체(311) 및/또는 상기 기전도 조립체(312)와 전기결합될 수 있다. 상기 신호처리모듈(320)은 상기 수집모듈(310)로부터 상기 진동신호(예를 들면, 오디오 신호들)를 수신하고 상기 진동신호(예를 들면, 오디오 신호들)을 처리할 수 있다. 예를 들면, 상기 신호처리모듈(320)은 처리 600, 700, 및/또는 1000에 따라 상기 골전도 오디오 신호와 상기 기전도 오디오 신호를 처리한다.
다른 하나의 예로써, 상기 신호처리모듈(320)은 다양한 신호처리 동작들, 예를 들면, 샘플링, 디지털화, 압축, 주파수 분할, 주파수변조, 부호화, 등, 또는 이들의 조합을 수행함으로써 상기 오디오 신호들을 처리할 수 있다.
일부 실시예들에서는, 상기 신호처리모듈(320)은 상기 처리장치(122)와 같거나 다른 프로세서를 포함할 수 있다.
유의해야 할 것은 상기 오디오 수집장치(300)에 관한 상기 설명은 단지 설명의 목적으로 제공하는 것이며, 본 개시의 범위를 한정하지 않는다. 본 분야의 통상의 기술자에 있어서, 복수의 변화들과 수정들은 본 개시의 교시하에 진행될 수 있다. 그러나, 이러한 변형들과 수정들은 본 개시의 범위를 벗어나지 않는다. 예를 들면, 상기 오디오 수집장치(300)는 처리된 오디오 신호(예를 들면, 본 개시의 다른 부분에 기재한 타겟 오디오 신호)를 출력장치(예를 들면, 스피커(예를 들면, 골전도 스피커 및/또는 기전도 스피커)를 구비하는 단말기)에 전송하도록 구성되는 출력모듈을 포함할 수 있다. 다른 하나의 예로써, 상기 출력모듈은 상기 처리된 오디오 신호를 출력하도록 구성되는 스피커(예를 들면, 골전도 스피커 및/또는 기전도 스피커)를 포함할 수 있다.
도 4는 본 개시의 일부 실시예들에 따른 예시적인 처리장치들(122)을 나타내는 블록도이다. 상기 처리장치(122)는 도 1을 결합하여 설명한 예시적인 처리장치(122)일 수 있다. 일부 실시예들에서는, 상기 처리장치(122)는 하나 이상의 기계학습모형들을 오디오 신호를 생성하는 데 적용하도록 구성될 수 있다.
도 4에 표시하는 바와 같이, 상기 처리장치(122)는 획득모듈(402), 확정모듈(404), 및 출력모듈(406)을 포함할 수 있다.
상기 획득모듈(402)은 상기 오디오 신호 생성시스(100)에 관련된 정보를 획득하도록 구성될 수 있다. 예를 들면, 상기 획득모듈(402)은 골전도 센서로 획득하는 골전도 오디오 신호와 기전도 센서로 획득하는 기전도 오디오 신호를 얻을 수 있다. 상기 골전도 오디오 신호와 상기 기전도 오디오 신호를 획득하는 데 관한 더 많은 설명은 본 개시의 다른 부분, 예를 들면, 도6에서의 602 및 604의 동작들과 관련 설명들에서 찾을 수 있다. 다른 하나의 예로써, 상기 획득모듈(402)은 훈련된 기계학습모형을 얻을 수 있다. 상기 훈련된 기계학습모형은 특정된 골전도 오디오 신호로부터 도출하는 골전도 데이터의 집합과 상기 특정된 골전도 오디오 신호에 대응되는 특정된 등가 기전도 신호로부터 도출되는 하나 이상의 등가 기전도 데이터 집합들 사이의 매핑관계를 제공할 수 있다. 상기 훈련된 기계학습모형에 관한 더 많은 설명은 본 개시의 다른 부분, 예를 들면, 도 6에서의 606의 동작 및 그 관련 설명에서 찾을 수 있다.
상기 확정모듈(404)은 상기 훈련된 기계학습모형을 이용하여 상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여 타겟 등가 기전도 데이터 집합에 대응되는 상기 골전도 오디오 신호를 확정하도록 구성될 수 있다. 상기 타겟 등가 기전도 데이터 집합의 확정에 관한 더 많은 설명은 본 개시의 다른 부분, 예를 들면, 도 6에서의 동작 608 및 그 관련 설명에서 찾을 수 있다.
상기 확정모듈(404)은 상기 제1 기계학습모형을 이용하여 상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 생성하도록 구성될 수도 있다. 상기 타겟 오디오 신호의 생성에 관한 더 많은 설명은 본 개시의 다른 부분, 예를 들면, 도10에서의 동작 1008 및 그 관련 설명에서 찾을 수 있다.
상기 출력모듈(406)은 오디오 신호 출력장치로 하여금 상기 타겟 오디오 신호를 출력하도록 구성될 수 있다. 상기 타겟 오디오 신호의 출력에 관한 더 많은 설명은 본 개시의 다른 부분, 예를 들면, 도6에서의 동작 610, 도10 에서의 동작 1010 및 그 관련 설명에서 찾을 수 있다.
도 5는 본 개시의 일부 실시예들에 따른 예시적인 처리장치(122)를 나타내는 블록도이다. 상기 처리장치(122)는 도 1을 결합하여 설명한 바와 같은 예시적인 처리장치(122)일 수 있다. 일부 실시예들에서는, 상기 처리장치(122)는 하나 이상의 기계학습모형들을 생성하도록 구성될 수 있다. 일부 실시예들에서는, 도 4에 기재된 상기 처리장치(122)와 도 5에 기재된상기 처리장치(122)는 각각 처리유닛에서 실행된다. 또는, 도 4에 기재된 상기 처리장치(122)와 도 5에 기재된 상기 처리장치(122)는 동일한 계산장치(예를 들면, 상기 계산장치(200))에서 수행될 수 있다.
도5에 표시하는 바와 같이, 상기 처리장치(122)는 획득모듈(502)과 모형생성모듈(504)을 포함할 수 있다.
상기 획득모듈(502)은 복수의 훈련 데이터 집합들을 획득하도록 구성될 수 있다. 일부 실시예들에서는, 상기 복수의 훈련 데이터 집합들 중의 각 훈련 데이터 집합은 상기 동일한 음성샘플을 표시하는 제1 오디오 신호와 제2 오디오 신호를 포함할 수 있다. 일부 실시예들에서는, 상기 복수의 훈련 데이터 집합들 중의 각 훈련 데이터 집합은 골전도 오디오 신호, 기전도 오디오 신호, 및 기준 기전도 오디오 신호를 포함할 수 있다. 상기 초보 기계학습모형의 훈련에서, 각 훈련 데이터 집합에서 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 상기 초보 기계학습모형의 입력의 역할을 할 수 있으며, 상기 기준 기전도 오디오 신호는 상기 초보 기계학습모형의 희망하는 출력의 역할을 할 수 있다. 훈련 데이터의 획득에 관한 더 많은 설명은 본 개시의 다른 부분, 예를 들면, 도8에서의 동작 802, 도10에서의 동작 1006, 및 그 관련 설명에서 찾을 수 있다.
상기 모형생성모듈(504)은 상기 복수의 훈련 데이터 집합들을 이용하여 초보 기계학습모형을 훈련시킴으로써 상기 하나 이상의 훈련된 기계학습모형들을 생성하도록 구성될 수 있다. 일부 실시예들에서는, 상기 하나 이상의 기계학습모형들은 기계학습 알고리즘에 근거하여 생성될 수 있다. 상기 기계학습 알고리즘은 인공신경망 알고리즘, 딥러닝 알고리즘, 의사결정트리 알고리즘, 연결규칙 알고리즘, 유도 논리 프로그래밍 알고리즘, 지원벡터시스템 알고리즘, 클러스터링 알고리즘, 베이지안 네트워크 알고리즘, 강화학습 알고리즘, 표현학습 알고리즘, 유사성 및 메트릭 학습 알고리즘, 희소사전학습 알고리즘, 유전 알고리즘, 규칙기반 기계학습 알고리즘, 등, 또는 이들의 임의의 조합을 포함할 수 있으나 이에 한정되지 않는다. 상기 하나 이상의 기계학습모형들을 생성하는 데 사용되는 상기 기계학습 알고리즘은 감독학습 알고리즘, 반감독학습 알고리즘, 비감독학습 알고리즘, 등일 수 있다. 상기 하나 이상의 기계학습모형들의 생성에 관한 더 많은 설명은 본 개시의 다른 부분, 예를 들면, 도8에서의 동작 804, 도10에서의 동작 1006, 및 그 관련 설명에서 찾을 수 있다.
유의해야 할 것은 상기 설명은 단지 설명의 목적으로 제공하는 것이며, 본 개시의 범위를 한정하지 않는다. 본 분야의 통상의 기술자에 있어서, 복수의 변화들과 수정들은 본 개시의 교시하에 진행될 수 있다. 그러나, 이러한 변형들과 수정들은 본 개시의 범위를 벗어나지 않는다. 일부 실시예들에서는, 도4에 기재된 상기 처리장치(122) 및/또는 도5에 기재된 상기 처리장치(122)는 2개 이상의 모듈들을 공유할 수 있으며, 상기 모듈들 중의 임의의 하나는 2개 이상의 유닛들로 나누어질 수 있다. 예를 들면, 도4에 기재된 상기 처리장치(122)와 도5에 기재된 상기 처리장치(122)는 동일한 획득모듈을 공유할 수 있으며; 즉, 상기 획득모듈(402)과 상기 획득모듈(502)은 동일한 모듈이다. 일부 실시예들에서는, 도4에 기재된 상기 처리장치(122) 및/또는 도5에 기재된 상기 처리장치(122)는 하나 이상의 추가적인 모듈들, 예를 들면, 데이터를 저장하기 위한 저장모듈(미도시) 을 포함할 수 있다. 일부 실시예들에서는, 도4에 기재된 상기 처리장치(122)와 도5에 기재된 상기 처리장치(122)는 하나의 처리장치(122)에 통합될 수 있다.
도 6은 본 개시의 일부 실시예들에 따른 오디오 신호를 생성하기 위한 예시적인 처리를 나타내는 개략흐름도이다. 일부 실시예들에서는, 처리과정600은 상기 저장장치(140), ROM(230) 또는 RAM 240, 또는 스토리지(390)에 저장된 한 조의 명령어들(예를 들면, 응용프로그램)로 구현될 수 있다. 상기 처리장치(122), 상기 프로세서(220) , 및/또는 상기 CPU(340)는 상기 한 조의 명령어들을 실행할 수 있으며, 상기 명령어들을 실행할 때, 상기 처리장치(122), 상기 프로세서(220) , 및/또는 상기 CPU(340)는 상기 처리 600를 수행하도록 구성될 수 있다. 아래에서 설명하는 상술한 처리의 동작들은 설명하기 위한 것이다. 일부 실시예들에서는, 상기 처리 600은 기재하지 않은 하나 이상의 추가적인 동작들로 및/또는 언급된 동작들 중의 하나 이상의 동작들이 없이 달성될 수 있다. 그리고, 도6에서 아래에서 설명하는 상기 처리 600의 동작들의 순서는 한정하려는 의도가 아니다.
602에서, 상기 처리장치(122)(예를 들면, 상기 획득모듈(402))는 골전도 센서로 획득하는 골전도 오디오 신호를 얻을 수 있다.
여기에서 사용하는 바와 같이, 본 개시의 다른 부분(예를 들면, 도 1 및 그 관련 설명)에서 기재한 바와 같이, 상기 골전도 센서는 사용자가 말할 때 생성되는 사용자의 골격(예를 들면, 두골)을 통해 전달되는 진동신호를 획득할 수 있는 임의의 센서(예를 들면, 상기 골전도 마이크로폰(112))를 가리킬 수 있다. 골전도 센서에 의해 획득된 상기 진동신호는 상기 골전도 센서 또는 임의의 기타 장치(예를 들면, 증폭기, 아날로그-디지털 변환기(ADC), 등.)에 의해 오디오 신호들("오디오 데이터"라고도 부른다) 로 변환될 수 있다. 골전도 센서에 의해 획득되는 상기 오디오 신호들은 "골전도 오디오 신호들"라고도 부른다. 오디오 신호는 음성의 어의내용을 포함하는 데이터이다.
일부 실시예들에서는, 상기 처리장치(122)는 실시간으로 또는 정기적으로 상기 네트워크(150)를 통해 상기 골전도 센서(예를 들면, 상기 골전도 마이크로폰(112)), 상기 단말기(130), 상기 저장장치(140), 또는 임의의 기타 저장장치로부터 상기 골전도 오디오 신호를 얻을 수 있다. 예를 들면, 상기 골전도 오디오 신호는 사용자가 말할 때 역치(예를 들면, 20ms, 30ms, 40ms, 등.)보다 작은 일정한 기간에 상기 골전도 센서에 의해 획득 및/또는 생성될 수 있다. 상기 골전도 센서는 상기 골전도 오디오 신호를 상기 처리장치(122)로 직접 실시간으로 전송할 수 있다. 여기에서 사용한 바와 같이, 상기 골전도 센서가 상기 골전도 오디오 신호를 상기 처리장치(122)로 실시간으로 전송한다는 것은 골전도 센서에 의해 획득되는 상기 골전도 오디오 신호의 획득시간 및 상기 처리장치(122)에 의해 상기 골전도 오디오 신호를 획득하는 수신시간은 역치(예를 들면, 20ms, 20ms, 30ms, 40ms, 등.)보다 작음을 의미한다. 다른 하나의 예로써, 상기 골전도 센서는 상기 골전도 오디오 신호를 정기적으로, 예를 들면, 매 초마다, 매 분마다, 매 시간마다, 등 전송할 수 있다.
상기 골전도 오디오 신호는 상이한 주파수 및/또는 강도들(예를 들면, 진폭들)의 복수의 파들(예를 들면, 사인파들, 고조파들, 등.)의 중첩으로 표시될 수 있다. 여기에서 사용한, 특정된 주파수를 가지는 파는 특정된 주파수를 가지는 주파수 성분이라고 부를 수도 있다. 일부 실시예들에서는, 상기 골전도 센서에 의해 수집되는 상기 골전도 오디오 신호에 포함되는 상기 주파수 성분들은 0Hz~20kHz, 또는 20Hz~10kHz, 또는 20Hz~4000Hz, 또는 20Hz~3000Hz, 또는 1000Hz~3500Hz, 또는 1000Hz~3000Hz, 또는 1500Hz~3000Hz, 등 주파수 범위 내에 있을 수 있다.
일부 실시예들에서는, 상기 골전도 센서를 사용자의 신체의 구역에 위치결정 및/또는 상기 골전도 센서를 사용자의 피부와 접촉하여 설치함으로써, 상기 골전도 오디오 신호를 수집 및/또는 생성할 수 있다. 상기 골전도 오디오 신호를 수집하기 위해 상기 골전도 센서와 접촉하는 사용자의 신체의 구역들은 이마, 목(예를 들면, 인후), 유양돌기, 귀 주위의 영역 또는 귀 내부, 태양혈, 얼굴(예를 들면, 입 주위의 영역, 턱), 머리 꼭대기, 등을 포함할 수 있으나 이에 한정되지 않는다. 예를 들면, 상기 골전도 마이크로폰(112)는 이주, 귓바퀴, 내이도, 외이도, 등에 위치 및/또는 접촉할 수 있다. 일부 실시예들에서는, 상기 골전도 오디오 신호는 상기 골전도 센서와 접촉하는 사용자의 신체의 상이한 구역들에 따라 다를 수 있다. 예를 들면, 상기 골전도 센서와 접촉하는 사용자의 신체의 상이한 구역들은 상기 주파수 성분들, 상기 골전도 오디오 신호(예를 들면, 주파수 성분의 진폭)의 음향특성들, 상기 골전도 오디오 신호에 포함되는 소음들, 등의 변화를 일으킬 수 있다. 예를 들면, 목에 위치하는 골전도 센서에 의해 수집되는 상기 골전도 오디오 신호의 신호강도는 이주에 위치하는 골전도 센서에 의해 수집되는 상기 골전도 오디오 신호의 신호강도보다 크며, 이주에 위치하는 골전도 센서에 의해 수집되는 상기 골전도 오디오 신호의 신호강도는 이도에 위치하는 골전도 센서에 의해 수집되는 상기 골전도 오디오 신호의 신호강도보다 크다. 또 다른 예로써, 사용자의 귀 주위 구역에 위치하는 제1 골전도 센서에 의해 수집되는 상기 골전도 오디오 신호는 동일한 구성을 가지고 있지만 사용자의 머리 꼭대기에 위치하는 제2 골전도 센서에 의해 동시에 수집되는 상기 골전도 오디오 신호보다 더 많은 주파수 성분들을 포함할 수 있다. 일부 실시예들에서는, 예를 들면,상기 골전도 센서에 의해 0 N~1 N, 또는 0 N~0.8 N, 등 범위의 특정된 압력이 가해지는 사용자의 신체의 구역에 위치하는 상기 골전도 센서에 의해 상기 골전도 오디오 신호를 수집할 수 있다. 예를 들면, 상기 골전도 센서에 의해 특정된 압력 0N, 또는 0.2N, 또는 0.4N, 또는 0.8N, 등을 가함으로써, 사용자의 신체의 이주에 위치하는 상기 골전도 센서에 의해 상기 골전도 오디오 신호가 수집될 수 있다. 상기 골전도 센서에 의해 실행되는 상기 사용자의 신체의 동일한 구역에 대한 상이한 압력들은 상기 주파수 성분들, 상기 골전도 오디오 신호(예를 들면, 주파수 성분의 진폭)의 음향특성들, 상기 골전도 오디오 신호에 포함되는 소음들, 등의 변화를 일으킬 수 있다. 예를 들면, 상기 압력이 0N으로부터 0.8N로 증가될 때, 상기 골전도 데이터의 신호강도는 먼저 점차적으로 증가된 후, 다음 상기 신호강도의 강도의 증가는 천천히 포화상태로 내려온다.
상기 골전도 오디오 신호는 상기 사용자가 말하는 것이 무엇인지, 예를 들면, 상기 사용자의 음성을 표시할 수 있다. 다시 말하면, 상기 골전도 오디오 신호는 상기 사용자의 음성의 어의내용을 반영하거나 또는 표시할 수 있는 음향특성들 및/또는 어의정보를 포함할 수 있다. 여기에서 사용하는 바와 같이, 오디오 신호(예를 들면, 상기 골전도 오디오 신호)로 표시하는 어의정보는 음성식별기술을 이용하여 상기 오디오 데이터로부터 식별되는 어의내용을 가리킬 수 있다. 음성식별기술을 이용하여 오디오 신호(예를 들면, 상기 골전도 오디오 신호)로부터 식별되는 상기 어의정보는 "추정된 어의내용"이라고 부를 수도 있다. 상기 사용자의 음성의 어의내용은 "실제 어의내용"이라고 부를 수도 있다. 상기 오디오 신호(예를 들면, 상기 골전도 오디오 신호)로부터 식별한 상기 추정된 어의내용은 상기 사용자의 음성의 상기 실제 어의내용과 같거나 유사할 수 있다. 여기에서 사용한, 상기 어의정보는 상기 사용자의 음성의 상기 실제 어의내용을 반영하거나 또는 표시하는 오디오 신호(예를 들면, 상기 추정된 어의내용)로 표시한다는 것은 상기 오디오 신호(예를 들면, 상기 골전도 오디오 신호)로부터 식별한 상기 추정된 어의내용과 상기 사용자의 음성의 상기 실제 어의내용 사이의 유사도 또는 상관도가 역치(예를 들면, 90%, 95%, 99%, 등.)보다 큼을 의미한다.
상기 골전도 오디오 신호의 음향특성들은, 기간에 관련되는 하나 이상의 특징들, 에너지에 관련되는 하나 이상의 특징들, 기본 주파수에 관련되는 하나 이상의 특징들, 주파수 스펙트럼에 관련되는 하나 이상의 특징들, 위상 스펙트럼에 관련되는 하나 이상의 특징들, 등을 포함할 수 있다. 기간에 관련되는 특징은 "기간 특징"이라고 부를 수도 있다. 예시적인 기간 특징들은 말하는 속도, 단시간 평균 제로오버 비율, 등을 포함할 수 있다. 에너지에 관련되는 특징은 "에너지 또는 진폭특징"이라고 부를 수도 있다. 예시적인 에너지 또는 진폭특징들은 단시간 평균 에너지, 단시간 평균 진폭, 단시간 에너지 구배, 평균 진폭변화율, 단시간 최대 진폭, 등을 포함할 수 있다. 기본 주파수에 관련되는 특징은 "기본 주파수특징"라고도 부른다. 예시적인 기본 주파수특징들은 기본 주파수, 기본 주파수의 피치(pitch), 평균 기본 주파수, 최대 기본 주파수, 기본 주파수 범위, 등을 포함할 수 있다. 주파수스펙트럼에 관련되는 예시적인 특징들은 포먼트 특징들, 선형예측 세프스트랄 계수(LPCC, linear prediction cepstrum coefficients), 멜주파수 세프스트랄 계수(MFCC, mel-frequency cepstrum coefficients), 등을 포함할 수 있다. 위상 스펙트럼에 관련되는 예시적인 특징들은 순간 위상, 초기위상, 등을 포함할 수 있다.
일부 실시예들에서는, 상기 골전도 오디오 신호는 시간 영역에서의 오디오 신호, 주파수 영역에서의 오디오 신호, 등일 수 있다. 상기 골전도 오디오 신호는 아날로그신호 또는 디지털 신호를 포함할 수 있다.
일부 실시예들에서는, 상기 골전도 오디오 신호는 처리되어 하나 이상의 골전도 데이터 집합들을 획득할 수 있다. 일부 실시예들에서는, 상기 골전도 오디오 신호는 각각 일정한 기간에 관련되는 하나 이상의 부분들로 나누어질 수 있다. 예를 들면, 시간창에 근거하여 상기 골전도 오디오 신호에 대해 프레밍동작(framing operation)을 수행될 수 있다. 골전도 데이터의 집합은 오디오 프레임을 포함할 수 있다. 일부 실시예들에서는, 상기 골전도 오디오 신호에 대해 특징 추출동작을 수행하여 상기 하나 이상의 골전도 데이터 집합들을 획득하며, 및/또는 상기 추출된 음향특성들에 근거하여 오디오 식별동작을 수행하여 상기 하나 이상의 골전도 데이터 집합들을 획득할 수 있다. 상기 골전도 데이터 집합은 골전도 음향특성들, 골전도 음향특성들로 구성되는 음소, 하나 이상의 음소들로 구성되는 음절, 하나 이상의 음절들로 구성되는 단어, 하나 이상의 단어들로 구성되는 어구, 하나 이상의 구절들로 구성되는 구절, 등, 또는 이들의 임의의 조합을 포함할 수 있다.
604에서, 상기 처리장치(122)(예를 들면, 상기 획득모듈(402))는 기전도 센서로 획득하는 기전도 오디오 신호를 얻을 수 있다.
본 개시의 다른 부분(예를 들면, 도 1 및 그 관련 설명)에서 기재한 바와 같이, 여기서 사용하는 상기 기전도 센서는 사용자가 말할 때 공기를 통해 전도되는 진동신호를 획득할 수 있는 임의의 센서(예를 들면, 상기 기전도 마이크로폰(114))를 가리킬 수 있다. 기전도 센서에 의해 획득되는 상기 진동신호는 상기 기전도 센서 또는 임의의 기타 장치(예를 들면, 증폭기,아날로그-디지털 변환기(ADC), 등.)에 의해 오디오 신호들("오디오 데이터"라고도 부른다)로 변환될 수 있다. 기전도 센서에 의해 획득되는 상기 오디오 신호들은 "기전도 오디오 신호들"라고도 부른다.
일부 실시예들에서는, 상기 처리장치(122)는 상기 네트워크(150)를 통해 실시간으로 또는 정기적으로 상기 기전도 센서(예를 들면, 상기 기전도 마이크로폰(114)), 상기 단말기(130), 상기 저장장치(140), 또는 임의의 기타 저장장치로부터 상기 기전도 오디오 신호를 얻을 수 있다. 사용자가 말할 때 상기 기전도 센서에 의해 상기 기전도 오디오 신호를 획득 및/또는 생성할 수 있다. 일부 실시예들에서는, 상기 기전도 센서에 대해 상기 사용자의 입으로부터 거리 역치(예를 들면, 0cm, 1cm, 2cm, 5cm, 10cm, 20cm, 등.) 내에서 위치를 결정함으로써 상기 기전도 오디오 신호를 수집할 수 있다. 일부 실시예들에서는, 상기 기전도 오디오 신호(예를 들면, 상기 기전도 오디오 신호의 평균 진폭)는 상기 기전도 센서와 상기 사용자의 입 사이의 상이한 거리들에 따라 다를 수 있다.
일부 실시예들에서는, 상기 기전도 오디오 신호는 시간 영역에서의 오디오 신호, 주파수 영역에서의 오디오 신호, 등일 수 있다. 상기 기전도 오디오 신호는 아날로그신호 또는 디지털 신호를 포함할 수 있다.
상기 기전도 오디오 신호는 상이한 주파수 및/또는 강도들(예를 들면, 진폭들)을 구비하는 복수의 파들(예를 들면, 사인파들, 고조파들, 등.)의 중첩으로 표시될 수 있다. 일부 실시예들에서는, 상기 기전도 센서에 의해 수집되는 기전도 오디오 신호에 포함된 상기 주파수 성분들은 0Hz~20kHz, 또는 20Hz~20kHz, 또는 1000Hz~10kHz, 등의 주파수 범위 내에 있을 수 있다. 사용자가 말할 때, 상기 기전도 데이터에 의해 상기 기전도 오디오 신호를 수집 및/또는 생성할 수 있다. 상기 기전도 오디오 신호는 상기 사용자가 무엇을 말하는지, 예를 들면, 상기 사용자의 음성을 표시할 수 있다. 예를 들면, 상기 기전도 오디오 신호는 상기 사용자의 음성의 어의내용을 반영할 수 있는 음향특성들 및/또는 어의정보를 포함할 수 있다. 동작 602에서 설명한 바와 같이, 상기 기전도 오디오 신호의 음향특성들은 기간에 관련되는 하나 이상의 특징들, 에너지에 관련되는 하나 이상의 특징들, 기본 주파수에 관련되는 하나 이상의 특징들, 주파수 스펙트럼에 관련되는 하나 이상의 특징들, 위상 스펙트럼에 관련되는 하나 이상의 특징들, 등을 포함할 수 있다.
일부 실시예들에서는, 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 다른 주파수 성분들을 구비하는 동일한 사용자의 음성을 표시할 수 있다. 상기 골전도 데이터와 상기 기전도 데이터는 상기 사용자의 동일한 음성의 상기 실제 어의의 내용을 반영할 수 있는 같거나 또는 상이한 추정된 어의정보를 포함할 수 있다. 상기 기전도 오디오 신호로부터 식별된 상기 추정된 어의정보는 상기 골전도 오디오 신호로부터 식별된 상기 추정된 어의정보와 같거나 다를 수 있다. 상기 사용자의 동일한 음성을 표시하는 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 각각 상기 사용자가 말할 때 상기 골전도 센서와 상기 기전도 센서에 의해 동시에 수집되는 상기 골전도 오디오 신호와 상기 기전도 오디오 신호를 가리킬 수 있다. 일부 실시예들에서는, 상기 골전도 센서에 의해 수집되는 상기 골전도 오디오 신호는 제1 주파수 성분들을 포함할 수 있다. 상기 기전도 오디오 신호는 제2 주파수 성분들을 포함할 수 있다. 일부 실시예들에서는, 상기 기전도 오디오 신호의 상기 제2 주파수 성분들은 상기 제1 주파수 성분들의 적어도 일부분을 포함할 수 있다. 상기 기전도 오디오 신호의 음향특성은 상기 골전도 오디오 신호의 음향특성와 같거나 다를 수 있다. 예를 들면, 상기 골전도 오디오 신호의 특정된 주파수 성분의 진폭은 상기 기전도 오디오 신호의 상기 특정된 주파수 성분의 진폭과 다를 수 있다. 다른 하나의 예로써, 주파수 점(예를 들면, 2000Hz) 또는 주파수 범위(예를 들면, 20Hz~2000Hz)보다 작은 상기 골전도 오디오 신호의 주파수 성분들은 상기 주파수 점(예를 들면, 2000Hz) 또는 상기 주파수 범위(예를 들면, 20Hz~2000Hz)보다 작은 상기 기전도 오디오 신호의 주파수 성분들보다 많을 수 있다. 주파수 점(예를 들면, 3000Hz) 또는 주파수 범위(예를 들면, 3000Hz~20kHz)보다 큰 상기 골전도 오디오 신호의 주파수 성분들은 상기 주파수 점(예를 들면, 3000Hz) 또는 주파수 범위(예를 들면, 3000Hz~20kHz)보다 큰 상기 기전도 오디오 신호의 주파수 성분들보다 적을 수 있다. 여기에서 사용하는 바와 같이, 주파수 점(예를 들면, 2000Hz) 또는 주파수 범위(예를 들면, 20Hz~2000Hz)보다 작은 상기 골전도 오디오 신호의 주파수 성분들은 상기 주파수 점(예를 들면, 2000Hz) 또는 상기 주파수 범위(예를 들면, 20Hz~2000Hz)보다 작은 상기 기전도 오디오 신호의 주파수 성분들보다 많다는 것은 주파수 점(예를 들면, 2000Hz) 또는 주파수 범위(예를 들면, 20Hz~2000Hz)보다 작은 상기 골전도 오디오 신호의 상기 주파수 성분들의 수량이 상기 주파수 점(예를 들면, 2000Hz) 또는 상기 주파수 범위(예를 들면, 20Hz~2000Hz)보다 작은 상기 기전도 오디오 신호의 주파수 성분들의 수량보다 큰 것을 가리킬 수 있다.
일부 실시예들에서는, 상기 기전도 오디오 신호를 처리하여 상기 하나 이상의 골전도 데이터 집합들과 유사하거나 같은 하나 이상의 기전도 데이터 집합들을 획득할 수 있다. 상기 기전도 데이터 집합들는 상기 사용자가 무엇을 말하는지, 예를 들면, 사용자의 음성을 표시할 수 있다. 기전도 데이터 집합은 음소로 될 수 있는 기전도 음향특성들, 상기 기전도 음향특성들로 구성된 하나 이상의 음소, 하나 이상의 음소들로 구성된 하나 이상의 음절들, 하나 이상의 음절들로 구성된 하나 이상의 단어들, 하나 이상의 단어들로 구성된 하나 이상의 문구들은, 하나 이상의 문구들로 구성된 하나 이상의 구절들, 등, 또는 이들의 임의의 조합을 포함할 수 있다.
일부 실시예들에서는, 상기 처리장치(122)는 적어도 하나의 상기 골전도 오디오 신호 또는 상기 기전도 오디오 신호를 전처리할 수 있다. 예시적인 전처리 동작들은 영역변환동작, 신호보정동작, 음성강화동작, 등을 포함할 수 있다.
606에서, 상기 처리장치(122)(예를 들면, 상기 획득모듈(402))는 특정된 골전도 오디오 신호로부터 도출하는 골전도 데이터의 집합과 상기 특정된 골전도 오디오 신호에 대응되는 특정된 등가 기전도 신호로부터 도출하는 하나 이상의 등가 기전도 데이터 집합들 사이의 매핑관계를 제공하는 훈련된 기계학습모형을 획득할 수 있다.
여기에서 사용하는 바와 같이, 상기 특정된 골전도 오디오 신호는 특정된 사용자가 말할 때 골전도 센서(예를 들면, 동작 602에 기재하는 상기 골전도 센서)로 획득하는 오디오 신호(예를 들면, 동작 602에서 획득하는 상기 골전도 오디오 신호)이다. 상기 특정된 사용자의 음성이 상기 특정된 사용자의 음성이 골전도 센서에 의해 획득되는 경우, 사용자의 음성이 소음이 없는 조건하에서 기전도 센서에 의해 획득되면, 상기 특정된 골전도 오디오 신호에 대응되는 특정된 등가 기전도 신호는 기전도 센서(예를 들면, 동작 604에 기재하는 상기 기전도 센서)에 의해 생성될 수 있는 오디오 신호를 가리킨다. 상기 특정된 골전도 오디오 신호는 상기 특정된 등가 기전도 오디오 신호와 동일한 상기 특정된 사용자의 음성을 표시할 수 있다. 상기 소음이 없는 조건은 하나 이상의 소음평가 파라미터들(예를 들면, 소음표준곡선, 통계적 소음레벨, 등.)이 역치보다 작다는 것과 같은 조건을 만족시킴을 가리킬 수 있다. 상기 특정된 골전도 오디오 신호로부터 도출되는 상기 골전도 데이터 집합으로 표시되는 어의정보는 상기 특정된 등가 기전도 오디오 신호로부터 도출되는 상기 하나 이상의 상기 등가 기전도 데이터 집합 중의 각 상기 등가 기전도 데이터 집합으로 표시되는 어의정보와 유사하거나 또는 같을 수 있다. 상기 골전도 데이터 집합으로 표시되는 어의정보와 상기 하나 이상의 상기 등가 기전도 데이터 집합 중의 각 상기 등가 기전도 데이터 집합으로 표시되는 어의정보 사이의 유사도 또는 상관도는 예를 들면, 90%, 95%, 99%, 등과 같은 역치를 초과할 수 있다.
일부 실시예들에서는, 상기 골전도 데이터 집합과 상기 하나 이상의 등가 기전도 데이터 집합들 사이의 매핑관계는 상기 골전도 데이터 집합과 상기 하나 이상의 등가 기전도 데이터 집합들 중의 각 등가 기전도 데이터 집합 사이의 매칭관계를 표시할 수 있다. 여기에서 사용하는 바와 같이, 상기 골전도 데이터 집합과 상기 하나 이상의 등가 기전도 데이터 집합들 중의 각 등가 기전도 데이터 집합 사이의 매칭관계는 상기 골전도 데이터 집합이 상기 하나 이상의 등가 기전도 데이터 집합들 중의 각 등가 기전도 데이터 집합과 매칭됨을 가리킬 수 있다. 상기 골전도 데이터 집합으로 표시되는 어의정보와 상기 등가 기전도 데이터 집합으로 표시되는 어의정보 사이의 유사도 또는 상관도가 90%, 95%, 99%, 등과 같은 역치를 초과하면, 상기 골전도 데이터 집합은 상기 등가 기전도 데이터 집합에 매칭될 수 있다.
일부 실시예들에서는, 상기 특정된 골전도 신호로부터 도출하는 상기 골전도 데이터 집합은 상기 특정된 골전도 신호로부터 추출되는 음향특성들 집합, 하나 이상의 음향특성들의 집합들로 구성되는 음소, 하나 이상의 음소들로 구성되는 음절, 하나 이상의 음절들로 구성되는 단어, 등을 포함할 수 있다. 일부 실시예들에서는, 상기 특정된 등가 기전도 신호로부터 도출되는 상기 등가 기전도 데이터 집합은 상기 특정된 등가 기전도 신호로부터 추출되는 음향특성들 집합, 하나 이상의 음향특성들의 집합들로 구성되는 음소, 하나 이상의 음소들로 구성되는 음절, 하나 이상의 음절들로 구성되는 단어, 등을 포함할 수 있다.
일부 실시예들에서는, 상기 골전도 데이터 집합과 상기 하나 이상의 등가 기전도 데이터 집합들 사이의 매핑관계는 음향특성들 사이의 매핑관계, 음소들 사이의 매핑관계, 음절들 사이의 매핑관계, 단어들 사이의 매핑관계, 등, 또는 이들의 임의의 조합을 포함할 수 있다. 상기 음향특성들 사이의 매핑관계는 상기 특정된 골전도 오디오 신호에서 음향특성들 집합과 상기 특정된 등가 기전도 오디오 신호에서 하나 이상의 음향특성들의 집합들 중의 각 음향특성들의 집합 사이의 매칭관계를 가리킨다. 상기 음소들 사이의 매핑관계는 특정된 골전도 오디오 신호에서 각 음소와 상기 특정된 등가 기전도 오디오 신호에서 하나 이상의 음소들 중 각 음소 사이의 매칭관계이다. 상기 음절들 사이의 매핑관계는 특정된 골전도 오디오 신호 중의 각 음절과 특정된 등가 기전도 오디오 신호 중의 하나 이상의 음절들 중 각 음절 사이의 매칭관계이다. 상기 단어들 사이의 매핑관계는 특정된 골전도 오디오 신호에서 각 단어와 상기 특정된 등가 기전도 오디오 신호에서 하나 이상의 단어들 중 각 단어 사이의 매칭관계이다.
일부 실시예들에서는, 상기 골전도 데이터 집합과 상기 하나 이상의 등가 기전도 데이터 집합들 사이의 매핑관계는 하나 이상의 매칭확률을 포함할 수 있으며, 상기 하나 이상의 매칭확률은 상기 골전도 데이터 집합이 각각 상기 하나 이상의 등가 기전도 데이터 집합들과 매칭되는 확률이다. 상기 골전도 데이터 집합이 등가 기전도 데이터 집합과 매칭되는 매칭확률은 상기 골전도 데이터 집합으로 표시되는 어의정보와 상기 등가 기전도 데이터 집합으로 표시되는 어의정보 사이의 유사도 또는 상관도일 수 있다. 상기 골전도 데이터 집합으로 표시되는 어의정보와 상기 등가 기전도 데이터 집합으로 표시되는 어의정보 사이의 유사도 또는 상관도가 클수록, 상기 골전도 데이터 집합이 상기 등가 기전도 데이터 집합과 매칭되는 매칭확률이 더 크다. 일부 실시예들에서는, 상기 골전도 데이터 집합으로 표시되는 어의정보와 상기 등가 기전도 데이터 집합으로 표시되는 어의정보 사이의 유사도 또는 상관도는 상기 골전도 데이터 집합이 상기 등가 기전도 데이터 집합과 매칭되는 매칭확률과 같거나 이 매칭확룰로 지정될 수 있다.
단지 예로써, 상기 음절들 사이의 매핑관계는 각각 특정된 골전도 오디오 신호 중의 각 음절이 상기 특정된 등가 기전도 오디오 신호 중의 하나 이상의 음절들과 매칭되는 하나 이상의 매칭확률을 포함할 수 있다.
일부 실시예들에서는, 상기 훈련된 기계학습모형은 상기 하나 이상의 등가 기전도 데이터 집합들에 관련된 상기 하나 이상의 등가 기전도 데이터 집합들 및/또는 정보(예를 들면, 상기 하나 이상의 매칭확률)을 확정하도록 구성될 수 있다. 일부 실시예들에서는, 상기 훈련된 기계학습모형은 본 개시의 다른 부분에서 기재한 골전도 오디오 신호 및/또는 기전도 오디오 신호에 음성식별동작을 수행하여 하나 이상의 골전도 데이터 집합들(예를 들면, 음향특성들 집합, 하나 이상의 음소들, 하나 이상의 음절들, 하나 이상의 단어들, 구절, 등.)을 식별하도록 구성될 수 있다. 일부 실시예들에서는, 상기 훈련된 기계학습모형은 상기 식별된 골전도 데이터 집합에 근거하여 상기 하나 이상의 등가 기전도 데이터 집합들에 관련된 상기 하나 이상의 등가 기전도 데이터 집합들 및/또는 정보(예를 들면, 상기 하나 이상의 매칭확률)을 확정하도록 구성될 수 있다. 상기 훈련된 기계학습모형에 관한 더 많은 설명은 본 개시의 다른 부분(예를 들면, 도 7 및 그 관련 설명)에서 찾을 수 있다.
일부 실시예들에서는, 신경망모형에 근거하여 상기 훈련된 기계학습모형을 재구축할 수 있다. 예시적인 신경망모형들은 권적 신경망(CNN)모형, 반복신경망(RNN)모형, 장기 단기 메모리 네트워크(LSTM) 모형, 등을 포함할 수 있다. 일부 실시예들에서는, 상기 훈련된 기계학습모형은 음성식별모형을 포함한다. 예시적인 음성식별모형들은 히든마르코브모형(HMM), DTW(dynamic time warping) 기반 음성식별모형, 인공신경망모형, 단대단 자동음성식별모형, 등, 또는 이들의 임의의 조합을 포함할 수 있다.
일부 실시예들에서는, 상기 처리장치(122)는 네트워크(예를 들면, 상기 네트워크(150))를 통해 상기 오디오 신호 생성시스(100)의 하나 이상의 부재들(예를 들면, 상기 저장장치(140), 상기 단말기(들) 130) 또는 외부 소스로부터 상기 훈련된 기계학습모형을 얻을 수 있다. 예를 들면, 상기 훈련된 기계학습모형은 사전에 계산장치(예를 들면, 상기 처리장치(122))로 훈련되고, 상기 오디오 신호 생성시스(100)의 저장장치(예를 들면, 상기 저장장치(140))에 저장된다. 상기 처리장치(122)는 상기 저장장치에 접근하여 상기 훈련된 기계학습모형을 검색할 수 있다. 일부 실시예들에서는, 상기 훈련된 기계학습모형은 본 개시(예를 들면, 도 4 및 관련설명들)의 다른 부분에서 기재한 기계학습 알고리즘에 근거하여 생성될 수 있다. 상기 훈련된 기계학습모형의 생성에 관한 더 많은 설명은 본 개시의 다른 부분(예를 들면, 도 8 및 그 관련 설명)에서 찾을 수 있다.
일부 실시예들에서는, 동작 602에 설명한 바와 같이 상기 골전도 센서가 상기 골전도 오디오 신호를 획득하는 경우, 상기 처리장치(122)는 상기 골전도 센서가 위치하는 사용자의 신체의 구역 및/또는 상기 골전도 센서가 부가하는 특정된 압력에 근거하여 상기 훈련된 기계학습모형을 얻을 수 있다. 상기 골전도 오디오 신호를 획득하기 위해 상기 골전도 센서와 접촉하는 사용자의 신체의 구역들은 이마, 목(예를 들면, 인후), 유양돌기, 귀 주위의 영역 또는 귀 내부, 태양혈, 얼굴(예를 들면, 입 주위의 영역, 턱), 머리 꼭대기, 등을 포함할 수 있으나 이에 한정되지 않는다. 예를 들면, 상기 골전도 센서가 사용자에게 부가하는 상이한 구역들 및/또는 상이한 압력들에 대응되는 복수의 훈련된 기계학습모형들은 데이터 베이스에 저장될 수 있으며, 동작 602에서 설명한 바와 같이 상기 골전도 센서가 상기 골전도 오디오 신호를 획득하는 경우, 상기 처리장치(122)는 상기 골전도 센서가 위치하는 상기 사용자의 신체의 상기 구역과 동일한 구역에 대응되는 상기 훈련된 기계학습모형을 얻을 수 있다.
608에서, 상기 처리장치(122)(예를 들면, 상기 확정모듈(404))는 상기 훈련된 기계학습모형을 이용하여, 상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여, 상기 골전도 오디오 신호에 대응되는 타겟 등가 기전도 데이터 집합을 확정할 수 있다.
상기 골전도 오디오 신호에 대응되는 상기 타겟 등가 기전도 데이터 집합은 어의내용을 표시할 수 있다. 상기 타겟 등가 기전도 데이터 집합으로 표시되는 어의내용은 상기 사용자의 음성의 실제 어의내용을 가리킬 수 있다.
일부 실시예들에서는, 상기 타겟 등가 기전도 데이터 집합은 상기 등가 기전도 오디오 신호로부터 추출할 수 있는 기전도 음향특성들, 상기 등가 기전도 오디오 신호로부터 추출할 수 있는 기전도 음향특성들로 구성되는 하나 이상의 음소들, 상기 하나 이상의 음소들로 구성되는 하나 이상의 음절들, 하나 이상의 음절들로 구성되는 하나 이상의 단어들, 하나 이상의 단어들로 구성되는 하나 이상의 문구들, 하나 이상의 문구들로 구성되는 하나 이상의 구절들, 등, 또는 이들의 임의의 조합을 포함할 수 있다. 상기 타겟 등가 기전도 데이터 집합, 동작 601에서 획득하는 상기 골전도 오디오 신호, 및 동작 602에서 획득하는 상기 기전도 오디오 신호는 상기 사용자의 동일한 음성을 표시할 수 있다.
일부 실시예들에서는, 동작 602에서 설명한 바와 같이 상기 골전도 오디오 신호는 하나 이상의 골전도 데이터 집합들을 포함할 수 있다. 일부 실시예들에서는, 상기 하나 이상의 골전도 데이터 집합들의 각 골전도 데이터 집합에 대하여, 상기 처리장치(122)는 상기 골전도 데이터 집합에 대응되는 타겟 등가 기전도 데이터 집합을 확정할 수 있다. 상기 하나 이상의 골전도 데이터 집합들에 대응되는 상기 타겟 등가 기전도 데이터 집합은 상기 골전도 오디오 신호에 대응되는 상기 타겟 등가 기전도 데이터 집합을 형성할 수 있다.
일부 실시예들에서는, 상기 하나 이상의 골전도 데이터 집합들의 각 골전도 데이터 집합에 대하여, 상기 처리장치(122)는 상기 훈련된 기계학습모형을 이용하여 상기 골전도 오디오 신호에 근거하여 상기 골전도 데이터 집합에 대응되는 상기 하나 이상의 등가 기전도 데이터 집합들을 확정할 수 있다. 상기 처리장치(122)는 동작 604에서 획득하는 상기 기전도 오디오 신호에 근거하여, 상기 하나 이상의 등가 기전도 데이터 집합들로부터 상기 골전도 데이터 집합에 대응되는 타겟 등가 기전도 데이터 집합을 식별할 수도 있다.
일부 실시예들에서는, 상기 처리장치(122)는 상기 골전도 오디오 신호를 상기 훈련된 기계학습모형에 입력할 수 있고, 상기 훈련된 기계학습모형은 상기 골전도 오디오 신호에 대응되는 상기 하나 이상의 등가 기전도 데이터 집합들 및/또는 상기 하나 이상의 등가 기전도 데이터 집합들 중의 각 등가 기전도 데이터 집합이 상기 골전도 오디오 신호와 매칭되는 확률을 출력할 수 있다. 상기 처리장치(122)는 동작 604에서 획득하는 상기 기전도 오디오 신호에 근거하여, 상기 하나 이상의 등가 기전도 데이터 집합들로부터 상기 골전도 오디오 신호에 대응되는 상기 타겟 등가 기전도 데이터 집합을 확정할 수 있다.
일부 실시예들에서는, 상기 처리장치(122)는 상기 골전도 오디오 신호와 상기 기전도 오디오 신호를 상기 훈련된 기계학습모형에 입력할 수 있고, 상기 훈련된 기계학습모형은 상기 골전도 오디오 신호에 대응되는 상기 타겟 등가 기전도 데이터 집합을 출력할 수 있다.
일부 실시예들에서는, 상기 처리장치(122)는 상기 하나 이상의 골전도 데이터 집합들을 상기 훈련된 기계학습모형에 입력할 수 있으며, 상기 훈련된 기계학습모형은 상기 하나 이상의 골전도 데이터 집합들 중의 각 골전도 데이터 집합에 대응되는 하나 이상의 등가 기전도 데이터 집합들 및/또는 상기 하나 이상의 등가 기전도 데이터 집합들 중의 각 등가 기전도 데이터 집합이 상기 골전도 데이터 집합과 매칭되는 확률을 출력할 수 있다. 상기 처리장치(122)는 동작 604에서 획득하는 기전도 오디오 신호에 포함되는 상기 하나 이상의 기전도 데이터 집합들에 근거하여, 기 하나 이상의 등가 기전도 데이터 집합들로부터 상기 골전도 데이터 집합에 대응되는 타겟 등가 기전도 데이터 집합을 확정할 수 있다.
일부 실시예들에서는, 상기 처리장치(122)는 상기 하나 이상의 골전도 데이터 집합들과 상기 하나 이상의 기전도 데이터 집합들을 상기 훈련된 기계학습모형에 입력할 수 있으며, 상기 훈련된 기계학습모형은 상기 골전도 데이터 집합에 대응되는 상기 타겟 등가 기전도 데이터 집합을 출력할 수 있다.
상기 타겟 등가 기전도 데이터 집합의 확정에 관한 더 많은 설명은 본 개시의 다른 부분(예를 들면, 도 7 및 그 관련 설명)에서 찾을 수 있다.
610에서, 상기 처리장치(122)(예를 들면, 상기 출력모듈(406))는 오디오 신호 출력장치로 하여금 상기 타겟 등가 기전도 데이터 집합에 근거하여, 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 출력하게 할 수 있다.
일부 실시예들에서는, 상기 처리장치(122)는 성합성 알고리즘("텍스트 음성 변환 알고리즘"라고도 부른다)을 이용하여, 상기 타겟 등가 기전도 데이터 집합을 시간 영역에서, 주파수 영역에서의 등가 기전도 오디오 신호로 변환시킬 수 있다. 예시적인 음성합성 알고리즘은 선형예측부호화(LPC, linear predictive coding) 알고리즘, 피치동기 오버랩 및 추가(PSOLA, pitch synchronous overlap and add) 알고리즘, 등을 포함할 수 있다.
상기 처리장치(122)는 상기 등가 기전도 오디오 신호에 근거하여 타겟 오디오 신호를 확정할 수 있다. 일부 실시예들에서는, 상기 처리장치(122)는 상기 등가 기전도 오디오 신호를 상기 타겟 오디오 신호로 지정할 수 있다.
일부 실시예들에서는, 상기 처리장치(122)는 상기 등가 기전도 오디오 신호에 대해 하나 이상의 후처리동작들을 수행할 수 있다. 예를 들면, 상기 처리장치(122)는 상기 기전도 오디오 신호에 근거하여 상기 등가 기전도 오디오 신호에 추가적인 정보를 추가할 수 있다. 예시적인 추가적인 정보는 기전도 오디오 신호에서의 배경소음과 유사한 하나 이상의 유형의 배경소음들(예를 들면, 비로부터 유래되는 소음들, 바람으로부터 유래되는 소음들, 등.), 상기 사용자의 감정적 특징들(예를 들면, 성난, 무서워하는, 슬픈, 즐거운, 등.), 상기 사용자의 음향특성들, 등, 또는 이들의 임의의 조합을 포함할 수 있다. 상기 처리장치(122)는 후처리하는 등가 기전도 오디오 신호를 상기 타겟 오디오 신호로 지정할 수 있으며, 이는 상기 확정된 타겟 오디오 신호의 충실도와 이해도를 개선할 수 있다. 일부 실시예들에서는, 상기 추가적인 정보는 소음들이라고 부를 수도 있다.
일부 실시예들에서는, 상기 타겟 오디오 신호는 상기 기전도 오디오 신호 중의 소음레벨보다 작은 소음레벨을 포함할 수 있다. 일부 실시예들에서는, 상기 타겟 오디오 신호는 동작 602에서 획득하는 상기 골전도 오디오 신호보다 더 많은 주파수 성분들을 포함할 수 있다. 일부 실시예들에서는, 상기 타겟 오디오 신호는 어의정보 또는 동작 602에서 획득하는 상기 골전도 오디오 신호로 표시하는 어의정보 또는 내용보다 상기 사용자의 음성의 실제 어의내용과 높은 유사도를 가지는 내용을 표시할 수 있다.
상기 처리장치(122)는 상기 오디오 신호 출력장치로 하여금 상기 타겟 오디오 신호를 출력하도록 할 수 있다. 일부 실시예들에서는, 상기 처리장치(122)는 상기 네트워크(150)를 통해 고객의 단말기(예를 들면, 상기 단말기(130)), 상기 저장장치(140), 및/또는 임의의 기타 저장장치(생성시스(100)의 오디오 신호에시 미표시)에 신호를 전달할 수 있다. 상기 신호는 상기 타겟 오디오 신호를 포함할 수 있다. 상기 신호는 고객 단말기로 하여금 상기 타겟 오디오 신호를 윤영할 수 있도록 구성될 수 있다.
유의해야 할 것은 상기 처리 600에 관한 상기 설명은 단지 설명의 목적으로 제공하는 것이며, 본 개시의 범위를 한정하지 않는다. 본 분야의 통상의 기술자에 있어서, 복수의 변화들과 수정들은 본 개시의 교시하에 진행될 수 있다. 그러나, 이러한 변형들과 수정들은 본 개시의 범위를 벗어나지 않는다. 예를 들면, 602 및604의 동작들은 단일 동작으로 통합될 수 있다.
도 7은 본 개시의 일부 실시예들에 따른 골전도 오디오 신호에 대응되는 타겟 등가 기전도 데이터 집합을 확정하기 위한 예시적인 처리를 나타내는 개략흐름도이다. 일부 실시예들에서는, 처리700은 상기 저장장치(140), ROM(230) 또는 RAM 240, 또는 스토리지(390)에 저장되어 있는 한 조의 명령어들(예를 들면, 응용프로그램)로 구현될 수 있다. 상기 처리장치(122), 상기 프로세서(220) , 및/또는 상기 CPU(340)는 상기 한 조의 명령어들을 실행할 수 있으며, 상기 명령어들을 실행하는 경우, 상기 처리장치(122), 상기 프로세서(220) , 및/또는 상기 CPU(340)은 상기 처리 700을 수행하도록 구성될 수 있다. 아래에서 설명하는 상술한 처리의 동작들은 설명하기 위한 것이다. 일부 실시예들에서는, 상기 처리 700는 언급되지 않은 하나 이상의 추가적인 동작들 및/또는 언급된 하나 이상의 동작들이 없이 달성될 수 있다. 그리고, 도 7에서 설명한 동작들 및 아래의 설명에서의 순서는 한정하려는 의도가 아니다. 일부 실시예들에서는, 상기 처리 700의 하나 이상의 동작들을 수행하여 도 6을 결합하여 설명한 동작 608의 적어도 일부분을 달성할 수 있다.
702에서, 상기 처리장치(122)(예를 들면, 상기 확정모듈(404))는, 훈련된 기계학습모형을 이용하여 골전도 오디오 신호에 근거하여, 상기 골전도 오디오 신호에 대응되는 하나 이상의 등가 기전도 데이터 집합들을 확정할 수 있다. 상기 골전도 오디오 신호는 도 6을 결합하여 설명한 동작 602의 설명과 같이 획득할 수 있다.
일부 실시예들에서는, 상기 훈련된 기계학습모형은 특정된 골전도 오디오 신호로부터 도출하는 골전도 데이터의 집합과 상기 특정된 기전도 오디오 신호에 대응되는 특정된 등가 기전도 신호로부터 도출하는 하나 이상의 등가 기전도 데이터 집합들 사이의 매핑관계를 제공할 수 있다. 상기 훈련된 기계학습모형에 관한 더 많은 설명은 본 개시의 다른 부분(예를 들면, 도 6 및 그 관련 설명)을 찾을 수 있다.
일부 실시예들에서는, 상기 훈련된 기계학습모형은 음성식별을 수행하도록 구성되는 제1 부분, 및 상기 특정된 골전도 오디오 신호로부터 도출하는 상기 골전도 데이터 집합과 상기 특정된 기전도 오디오 신호에 대응되는 상기 특정된 등가 기전도 신호로부터 도출하는 상기 하나 이상의 등가 기전도 데이터 집합들 사이의 매핑관계를 제공하도록 구성되는 제2 부분을 포함할 수 있다. 상기 제2 부분은 상기 매핑관계에 근거하여 골전도 데이터의 집합에 대응되는 하나 이상의 등가 기전도 데이터 집합들을 확정하도록 구성될 수도 있다.
일부 실시예들에서는, 동작 602에서 설명한 바와 같이, 상기 제1 부분은 상기 골전도 오디오 신호로부터 골전도 데이터의 집합을 생성하도록 구성되는 음성식별모형을 포함할 수 있다. 예시적인 음성식별모형들은 히든마르코브모형(HMM), 엔드투엔드(end-to-end)모형, 연결주의 시간분류(CTC, connectionist temporal classification)모형, 등, 또는 이들의 임의의 조합을 포함할 수 있다.
일부 실시예들에서는,상기 훈련된 기계학습모형의 상기 제1 부분은 특정된 오디오 신호(예를 들면, 상기 골전도 오디오 신호)로부터 음향특성들을 추출하여 음성식별을 수행하도록 구성될 수 있다. 상기 훈련된 기계학습모형의 상기 제1 부분을 이용하는 상기 특정된 오디오 신호의 식별결과는 상기 특정된 오디오 신호의 어의정보를 표시하는 하나 이상의 데이터 집합들을 텍스트의 형식으로 포함할 수 있다. 음향특성추출 알고리즘을 이용하여 상기 특정된 오디오 신호로부터 상기 음향특성들을 추출할 수 있다. 예시적인 음향특성추출 알고리즘은 자동교정기능(ACF) 알고리즘, 평균진폭차이기능(AMDF) 알고리즘, TEO(Teager energy operator)에 기반하는 비선형 특징추출 알고리즘, 선형예측분석(LPC) 알고리즘, 딥러닝 알고리즘(예를 들면, 라플라스 특징매핑(Laplacian Eigenmaps),주성분분석(PCA), 국소보존투영법(LPP ,local preserved projection, 등.), 등을 포함할 수 있다.
상기 훈련된 기계학습모형의 상기 제2 부분은 상기 매핑관계와 상기 골전도 데이터 집합에 근거하여 하나 이상의 등가 기전도 데이터 집합들을 생성하도록 구성될 수 있다. 일부 실시예들에서는, 상기 제2 부분은 상기 매핑관계를 표로 표시할 수 있다. 예를 들면, 상기 표는 복수의 기준 골전도 데이터 집합들과 복수의 기준 등가 기전도 데이터 집합들을 포함할 수 있다. 상기 복수의 기준 골전도 데이터 집합들 중의 각 기준 골전도 데이터 집합은 하나 이상의 기준 등가 기전도 데이터 집합들에 대응될 수 있다. 상기 표는 상기 기준 골전도 데이터 집합은 상기 하나 이상의 기준 등가 기전도 데이터 집합들 중의 각 등가 기전도 데이터 집합과 매칭되는 매칭확률을 포함할 수 있다. 상기 훈련된 기계학습모형의 상기 제2 부분은 상기 표와 상기 골전도 데이터 집합에 근거하여 상기 하나 이상의 등가 기전도 데이터 집합들을 생성할 수 있다. 예를 들면, 상기 훈련된 기계학습모형의 상기 제2 부분은 상기 표에서 상기 골전도 데이터 집합과 같거나 유사한 기준 골전도 데이터 집합을 식별하여, 상기 표로부터 상기 기준 골전도 데이터 집합에 대응되는 상기 하나 이상의 기준 등가 기전도 데이터 집합들을 획득하며, 상기 하나 이상의 기준 등가 기전도 데이터 집합들을 상기 골전도 데이터 집합에 대응되는 상기 하나 이상의 등가 기전도 데이터 집합들로 지정할 수 있다.
일부 실시예들에서는, 상기 제2 부분은 상기 매핑관계를 함수로 표시할 수 있다. 일부 실시예들에서는, 상기 훈련된 기계학습모형의 상기 제2 부분은 상기 함수를 이용하여, 상기 골전도 데이터 집합에 근거하여 상기 하나 이상의 등가 기전도 데이터 집합들을 생성하도록 구성될 수 있다.
일부 실시예들에서는, 상기 골전도 오디오 신호는 상기 훈련된 기계학습모형에 입력될 수 있으며. 상기 훈련된 기계학습모형은 상기 골전도 오디오 신호로부터 골전도 음향특성들을 추출할 수 있다. 동작 602에서 설명한 바와 같이, 상기 골전도 음향특성들은 기간에 관련되는 하나 이상의 특징들, 에너지에 관련되는 하나 이상의 특징들, 기본 주파수에 관련되는 하나 이상의 특징들, 주파수 스펙트럼에 관련되는 하나 이상의 특징들, 위상 스펙트럼에 관련되는 하나 이상의 특징들, 등을 포함할 수 있다. 상기 훈련된 기계학습모형은 상기 골전도 음향특성들에 근거하여 상기 골전도 데이터 집합을 확정할 수 있다. 예를 들면, 상기 훈련된 기계학습모형은 음소를 형성할 수 있는 하나 이상의 골전도 음향특성들을 상기 골전도 데이터 집합으로 확정할 수 있다. 다른 하나의 예로써, 상기 훈련된 기계학습모형은 상기 골전도 음향특성들로 구성된 하나 이상의 음소들을 상기 골전도 데이터 집합으로 지정할 수 있다. 다른 하나의 예로써, 상기 훈련된 기계학습모형은 상기 하나 이상의 음소들로 구성되는 하나 이상의 음절들을 상기 골전도 데이터 집합으로 지정할 수 있다. 또 다른 예로써, 상기 훈련된 기계학습모형은 상기 하나 이상의 음절들로 구성되는 하나 이상의 단어들을 상기 골전도 데이터 집합으로 지정할 수 있다. 또 하나의 예로써, 상기 훈련된 기계학습모형은 상기 하나 이상의 단어들로 구성되는 하나 이상의 문구들을 상기 골전도 데이터 집합으로 지정할 수 있다. 또 다른 예로써, 상기 훈련된 기계학습모형은 상기 하나 이상의 문구들로 구성되는 하나 이상의 구절들을 상기 골전도 데이터 집합으로 지정할 수 있다.
상기 훈련된 기계학습모형은 상기 골전도 데이터 집합과 상기 훈련된 기계학습모형이 제공하는 상기 매핑관계에 근거하여, 상기 하나 이상의 등가 기전도 데이터 집합들에 관련되는 상기 하나 이상의 등가 기전도 데이터 집합들 및/또는 정보를 확정할 수 있다. 예를 들면, 상기 훈련된 기계학습모형의 상기 제1 부분은 상기 골전도 오디오 신호로부터 상기 골전도 데이터 집합을 확정할 수 있다. 상기 훈련된 기계학습모형의 상기 제2 부분은 상기 골전도 데이터 집합을 상기 훈련된 기계학습모형의 상기 제2 부분이 제공하는 상기 복수의 기준 골전도 데이터 집합들과 비교할 수 있다. 상기 훈련된 기계학습모형의 상기 제2 부분은 상기 비교에 근러하여 상기 골전도 데이터 집합에 대응되는 상기 하나 이상의 등가 기전도 데이터 집합들을 확정할 수 있다.
예를 들면, 상기 훈련된 기계학습모형의 상기 제2 부분은 상기 표에서 상기 골전도 데이터 집합과 상기 복수의 기준 골전도 데이터 집합 중의 각 골전도 데이터 집합 사이의 유사도 또는 상관도를 확정할 수 있다. 상기 훈련된 기계학습모형의 상기 제2 부분은 상기 표에서 상기 복수의 기준 골전도 데이터 집합들 중의 상기 골전도 데이터 집합과 최대 유사도 또는 상관도를 가지는 골전도 데이터의 집합을 확정할 수 있다. 상기 훈련된 기계학습모형의 상기 제2 부분은 상기 표에서 상기 복수의 기준 골전도 데이터 집합들 중의 상기 골전도 오디오 신호로부터 도출하는 상기 골전도 데이터 집합과 최대 유사도 또는 상관도를 가지는 한 기준 골전도 데이터 집합에 대응되는 상기 하나 이상의 기준 등가 기전도 데이터 집합들을 출력할 수 있다. 실시예들에서는, 상기 훈련된 기계학습모형의 상기 제2 부분은 상기 표에서 상기 하나 이상의 기준 등가 기전도 데이터 집합들과 상기 복수의 기준 골전도 데이터 집합들 중의 상기 골전도 오디오 신호로부터 도출되는 상기 골전도 데이터 집합과 최대 유사도 또는 상관도를 가지는 하나의 기준 골전도 데이터 집합 사이의 매칭확률을 출력할 수도 있다.
일부 실시예들에서는, 상기 처리장치(122)는 표에서 상기 복수의 기준 골전도 데이터 집합들 중의 하나에 대응되는 상기 하나 이상의 기준 등가 기전도 데이터 집합들을 상기 골전도 오디오 데이터 집합에 대응되는 상기 하나 이상의 등가 기전도 데이터 집합들로 지정할 수 있다.
일부 실시예들에서는, 상기 처리장치(122)는 상기 하나 이상의 기준 등가 기전도 데이터 집합들에 관련되는 정보(예를 들면, 매칭확률)에 근거하여 상기 하나 이상의 기준 등가 기전도 데이터 집합들의 일부분을 상기 골전도 오디오 데이터 집합에 대응되는 상기 하나 이상의 등가 기전도 데이터 집합들로 확정할 수 있다. 상기 처리장치(122)는 상기 하나 이상의 기준 등가 기전도 데이터 집합들과 상기 하나 이상의 매칭확률에 근거하여 상기 하나 이상의 등가 기전도 데이터 집합들을 확정할 수 있다. 예를 들면, 상기 처리장치(122)는 일정한 역치(예를 들면, 0.9, 0.8, 0.7, 등.)보다 큰 매칭확률을 가지는 하나 이상의 기준 등가 기전도 데이터 집합들을 상기 하나 이상의 등가 기전도 데이터 집합들로 확정할 수 있다. 다른 하나의 예로써, 상기 하나 이상의 등가 기전도 데이터 집합들에 대응되는 상기 하나 이상의 매칭확률은 내림차순으로 순서로 정렬될 수 있으며, 상기 처리장치(122)는 내림차순에 따라 상위 하나 이상의 기준 등가 기전도 데이터 집합들을 상기 하나 이상의 등가 기전도 데이터 집합들로 확정할 수 있다.
704에서, 상기 처리장치(122)(예를 들면, 상기 확정모듈(404))는 기전도 오디오 신호에 근거하여, 상기 하나 이상의 등가 기전도 데이터 집합들로부터 타겟 등가 기전도 데이터 집합을 식별할 수 있다.
상기 기전도 오디오 신호와 상기 골전도 오디오 신호는 상이한 주파수 성분들을 구비하는 상기 사용자의 동일한 음성를 표시할 수 있다. 상기 기전도 오디오 신호는 도 6에 기재된 동작 604을 결합하여 설명한 바와 같이 획득될 수 있다.
일부 실시예들에서는, 상기 처리장치(122)는 상기 기전도 오디오 신호를 처리함으로써 기전도 오디오 데이터 집합을 확정할 수 있다. 상기 기전도 데이터 집합과 상기 골전도 데이터 집합은 각각 상기 기전도 센서와 상기 골전도 센서에 의해 동시에 획득되는 상기 기전도 오디오 신호의 적어도 일부분과 상기 골전도 오디오 신호의 적어도 일부분으로부터 도출될 수 있다. 다시 말하면, 상기 기전도 데이터 집합과 상기 골전도 데이터 집합은 상기 사용자의 음성의 동일한 실제 어의내용을 표시할 수 있다. 상기 기전도 데이터 집합에 관한 더 많은 설명은 본 개시의 다른 부분(예를 들면, 도 6 및 그 관련 설명)에서 찾을 수 있다.
일부 실시예들에서는, 상기 처리장치(122)는 상기 기전도 오디오 신호("기전도 음향특성들"라고도 부른다)로부터 음향특성들을 추출함으로써 상기 기전도 데이터 집합을 확정할 수 있다. 일부 실시예들에서는, 본 개시의 다른 부분에서 기재한 바와 같이(예를 들면, 동작 702 및 관련설명들), 음성식별모형 또는 음향특성추출 알고리즘을 이용하여 상기 기전도 오디오 신호로부터 상기 기전도 음향특성들을 추출할 수 있다. 일부 실시예들에서는, 상기 훈련된 기계학습모형의 상기 제1 부분을 이용하여, 상기 기전도 오디오 신호로부터 상기 기전도 음향특성들을 추출할 수 있다. 동작 602에서 설명한 바와 같이, 상기 기전도 음향특성들은 기간에 관련되는 하나 이상의 특징들, 에너지에 관련되는 하나 이상의 특징들, 기본 주파수에 관련되는 하나 이상의 특징들, 주파수 스펙트럼에 관련되는 하나 이상의 특징들, 위상 스펙트럼에 관련되는 하나 이상의 특징들, 등을 포함할 수 있다.
상기 처리장치(122)는 상기 기전도 음향특성들에 근거하여 상기 기전도 데이터 집합을 확정할 수 있다. 예를 들면, 상기 기전도 음향특성들에 근거하여 상기 기전도 데이터 집합을 확정하는 것은, 동작 702 및 그 관련설명에서 기재한 바와 같이, 상기 골전도 음향특성들에 근거하여 상기 골전도 데이터 집합을 확정하는 것과 유사한 방식으로 수행될 수 있다.
각 등가 기전도 데이터 집합과 상기 기전도 데이터 집합 사이의 상관도를 확정함으로써, 상기 처리장치(122)는 상기 하나 이상의 등가 기전도 데이터 집합들로부터 상기 타겟 등가 기전도 데이터 집합을 식별할 수 있다. 일부 실시예들에서는, 상기 처리장치(122)는 유사도 알고리즘을 이용하여 상기 등가 기전도 데이터 집합과 상기 기전도 데이터 집합 사이의 상관도를 확정할 수 있다. 예시적인 유사도 알고리즘은 코사인 유사도 알고리즘, 자카르 계수(Jaccard coefficient) 알고리즘, 주사위 계수(dice coefficient) 알고리즘, 등을 포함할 수 있다. 일부 실시예들에서는, 상기 처리장치(122)는 어의 유사도를 확정하기 위한 기계학습모형을 이용하여 상기 등가 기전도 데이터 집합과 상기 기전도 데이터 집합 사이의 상관도를 확정할 수 있다. 어의 유사도를 확정하기 위한 예시적인 기계학습모형들은 딥구축어의모형(DSSM, deep structured semantic model), 권적잠재어의모형 (CLSM, convolutional latent semantic model), 장기 단기 메모리 딥구축어의모형(LSTM-DSSM, long-short-term memory-deep structured semantic model), 등, 또는 이들의 임의의 조합을 포함할 수 있다.
상기 처리장치(122)는 상기 하나 이상의 등가 기전도 데이터 집합들 중의 상기 하나 이상의 등가 기전도 데이터 집합들 중의 상기 기전도 데이터 집합과 최대 상관도를 가지는 하나 이상의 등가 기전도 데이터 집합들 중의 하나를 초기 타겟 등가 기전도 데이터 집합으로 확정할 수 있다. 상기 처리장치(122)는 상기 초기 타겟 등가 기전도 데이터 집합에 근거하여 상기 타겟 등가 기전도 데이터 집합을 확정할 수 있다.
일부 실시예들에서는, 상기 처리장치(122)는 상기 초기 타겟 등가 기전도 데이터 집합을 상기 타겟 등가 기전도 데이터 집합으로 지정할 수 있다.
일부 실시예들에서는, 상기 처리장치(122)는 상기 초기 타겟 등가 기전도 데이터 집합에 대해 하나 이상의 후처리 동작들을 수행할 수 있다. 예를 들면, 상기 처리장치(122)는 상기 기전도 데이터 집합에 근거하여 상기 초기 타겟 등가 기전도 데이터 집합에 대해 어의정보 교정동작을 수행할 수 있다. 상기 어의정보 교정동작은 상기 기전도 데이터 집합의 어의정보에 근거하여 상기 초기 타겟 등가 기전도 데이터 집합의 어의정보를 조절 또는 교정하는 동작일 수 있으며, 따라서 상기 초기 타겟 등가 기전도 데이터 집합의 어의정보는 상기 기전도 데이터 집합의 어의정보와 같거나 또는 보다 더 유사할 수 있다. 상기 처리장치(122)는 상기 후처리된 초기 타겟 등가 기전도 데이터 집합을 상기 타겟 등가 기전도 데이터 집합으로 지정할 수 있다.
유의해야 할 것은 상기 처리 700에 관한 상기 설명은 단지 설명의 목적으로 제공하는 것이며, 본 개시의 범위를 한정하지 않는다. 본 분야의 통상의 기술자에 있어서, 복수의 변화들과 수정들은 본 개시의 교시하에 진행될 수 있다. 그러나, 이러한 변형들과 수정들은 본 개시의 범위를 벗어나지 않는다. 예를 들면, 처리 700은 상기 골전도 오디오 신호로부터 상기 골전도 데이터 집합을 확정하는 동작 및/또는 상기 기전도 오디오 신호로부터 상기 기전도 데이터 집합을 확정하는 동작을 더 포함할 수 있다.
도 8은 본 개시의 일부 실시예들에 따른 훈련된 기계학습모형을 생성하기 위한 예시적인 처리를 나타내는 개략흐름도이다. 일부 실시예들에서는, 처리800는 상기 저장장치(140), ROM(230) 또는 RAM 240, 또는 스토리지(390)에 저장된 한 조의 명령어들(예를 들면, 응용프로그램)로 구현될 수 있다. 상기 처리장치(122), 상기 프로세서(220) , 및/또는 상기 CPU(340)는 상기 한 조의 명령어들을 실행할 수 있으며, 상기 명령어들을 실행할 때, 상기 처리장치(122), 상기 프로세서(220) , 및/또는 상기 CPU(340)은 상기 처리 800을 수행하도록 구성될 수 있다. 일부 실시예들에서는, 도 6에서의 동작 606을 결합하여 설명한 상기 훈련된 기계학습모형은 상기 처리 800에 근거하여얻을 수 있다. 일부 실시예들에서는, 상기 처리 800은 상기 오디오 신호 생성시스(100)를 제외한 다른 하나의 장치 또는 시스템, 예를 들면, 상기 훈련된 기계학습모형의 제공업자 또는 제조업자의 장치 또는 시스템을 통해 수행될 수 있다. 설명의 편의를 위해, 상기 처리장치(122)에 의한 상기 처리 800을 예로 들어 설명한다.
802에서, 상기 처리장치(122)(예를 들면, 상기 획득모듈(502))는 복수의 훈련 데이터 집합들을 얻을 수 있다.
일부 실시예들에서는, 상기 복수의 훈련 데이터 집합들 중의 각 훈련 데이터 집합은 동일한 음성샘플을 표시하는 제1 오디오 신호와 제2 오디오 신호를 포함할 수 있다.
일부 실시예들에서는, 음성샘플이 소음이 없는 조건하에서 제작되고 상기 오디오 신호 생성시스템(100)의 하나 이상의 부재들(예를 들면, 상기 저장장치(140), 상기 단말기(들) 130) 또는 외부 소스에 저장되는 경우, 상기 제1 오디오 신호와 상기 제2 오디오 신호는 골전도 오디오 획득장치(예를 들면, 상기 골전도 마이크로폰(112))와 기전도 오디오 획득장치(예를 들면, 상기 기전도 마이크로폰(114))에 의해 각각 동시에 획득될 수 있다. 상기 처리장치(122)는 상기 오디오 신호 생성시스(100)의 하나 이상의 부재들로부터 상기 제1 오디오 신호와 상기 제2 오디오 신호를 얻을 수 있다. 여기에서 사용한 바와 같이, 소음이 없는 조건은 하나 이상의 소음평가 파라미터들(예를 들면, 상기 소음표준곡선, 통계적 소음레벨, 등.)이 조건, 예를 들면, 역치보다 작은 조건을 만족시키는 것을 가리킬 수 있다. 상기 제1 오디오 신호는 "골전도 오디오 신호"라고 부를 수도 있고, 상기 제2 오디오 신호는 "기전도 오디오 신호"라고 부를 수도 있다.
일부 실시예들에서는, 훈련 데이터 집합에서 상기 골전도 오디오 신호는 상기 초보 기계학습모형의 입력으로써 이용될 수 있으며, 음성샘플에서 상기 기전도 오디오 신호에 대응되는 상기 골전도 데이터는 상기 초보 기계학습모형을 훈련시키는 과정에서 상기 초보 기계학습모형의 훈련과정에서 상기 초보 기계학습모형의 희망하는 출력으로써 이용될 수 있다. 일부 실시예들에서는, 훈련 데이터 집합 중의 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 상기 초보 기계학습모형의 입력으로써 이용될 수 있다.
일부 실시예들에서는, 사용자의 신체 (예를 들면, 테스터)의 동일한 구역(예를 들면, 귀 주위의 영역)에 위치하는 골전도 센서로 상기 복수의 훈련 데이터 집합들 중의 각 훈련 데이테 집합에서 상기 골전도 오디오 신호를 수집할 수 있다. 일부 실시예들에서는, 상기 훈련된 기계학습모형을 훈련시키는 데 사용하는 상기 골전도 데이터를 수집하기 위한 골전도 센서가 위치하는 신체의 상기 구역은 상기 훈련된 기계학습모형을 적용하기 위해 사용되는 골전도 데이터(예를 들면, 상기 제1 오디오 데이터)를 수집하기 위한 상기 골전도 센서가 위치하는 신체의 구역과 일치 및/또는 동일할 수 있다. 예를 들면, 상기 복수의 훈련 데이터 집합들 중의 각 훈련 데이터 집합 중의 상기 골전도 오디오 신호를 수집하기 위한 상기 골전도 센서가 위치하는 사용자의 신체 (예를 들면, 테스터)의 상기 구역은 동작 602에서 설명한 바와 같이 상기 골전도 오디오 신호를 수집하기 위한 상기 골전도 센서가 위치하는 상기 사용자의 신체의 구역과 같을 수 있다. 또 다른 예로써, 동작 602에서 설명한 바와 같이 상기 골전도 오디오 신호를 수집하기 위한 상기 골전도 센서가 위치하는 상기 사용자의 신체의 구역은 목이며, 상기 훈련된 기계학습모형의 훈련과정에서 사용하는 상기 골전도 데이터를 수집하기 위찬 골전도 센세가 위치하는 신체의 구역은 신체의 목이다.
상기 복수의 훈련 데이터 집합들을 수집하기 위한 상기 골전도 센서가 위치하는 사용자의 신체의 구역(예를 들면, 테스터)은 상기 골전도 오디오 신호로부터 도출해낸 골전도 데이터의 집합과 각 훈련 데이터 집합 중의 상기 기전도 오디오 신호로부터 도출해낸 하나 이상의 기전도 데이터 집합들 사이의 상응한 관계에 영향을 줄 수 있다. 일부 실시예들에서는, 동일한 구성의 복수의 골전도 센서들은 신체의 상이한 구역들, 예를 들면, 유양돌기, 태양혈, 머리 꼭대기, 외이도, 등에 위치할 수 있다. 상기 복수의 골전도 센서들은 사용자가 말할 때 골전도 데이터를 동시에 수집할 수 있다. 복수의 훈련집합들은 상기 복수의 골전도 센서들에 의해 수집되는 상기 골전도 오디오 신호들에 근거하여 형성될 수 있다. 상기 복수의 훈련집합들 중의 각 훈련집합은 상기 복수의 골전도 센서들과 기전도 센서 중의 하나에 의해 수집되는 복수의 훈련 데이터 집합들을 포함할 수 있다. 상기 복수의 훈련 데이터 집합들 중의 각 훈련 데이터 집합은 동일한 음성을 대표하는 골전도 오디오 신호와 기전도 오디오 신호를 포함할 수 있다. 상기 복수의 훈련집합들 중의 각 훈련집합은 기계학습모형을 훈련시키는 데 이용되어 훈련된 기계학습모형을 획득할 수 있다. 상기 복수의 훈련집합들에 근거하여 복수의 훈련된 기계학습모형들을 얻을 수 있다. 상기 복수의 훈련된 기계학습모형들은 특정된 골전도 데이터와 기전도 데이터 사이의 상이한 매핑관계들을 제공할 수 있다. 예를 들면, 상이한 기전도 데이터는 동일한 골전도 데이터를 복수의 훈련된 기계학습모형들에 각각 입력함으로써 생성될 수 있다. 일부 실시예들에서는, 상기 구성에서 상이한 골전도 센서들에 의해 수집되는 골전도 데이터는 다를 수 있다. 따라서, 상기 훈련된 기계학습모형을 훈련시키는 데 사용되는 상기 골전도 데이터를 수집하기 위한 상기 골전도 센서는 상기 구성에서 상기 훈련된 기계학습모형의 응용프로그램에 이용되는 골전도 오디오 신호를 수집하기 위한 상기 골전도 센서와 일치 및/또는 동일할 수 있다.
804에서, 상기 처리장치(122)(예를 들면, 상기 모형생성모듈 508)는 상기 복수의 훈련 데이터 집합들을 이용하여, 초보 기계학습모형을 훈련시켜 훈련된 기계학습모형을 획득할 수 있다.
상기 초보 기계학습모형은 훈련대상모형이라고 부를 수도 있다. 상기 초보 기계학습모형은 본 개시의 다른 부분에서 기재한 바와 같은(예를 들면, 도 6 및 관련설명들) 임의의 유형의 모형(예를 들면, HMM 모형)일 수 있다. 일부 실시예들에서는, 상기 초보 기계학습모형은 훈련집합을 이용하여 훈련한 적이 없는 기계학습모형일 수 있다. 일부 실시예들에서는, 상기 초보 기계학습모형은 동작 802에서 획득하는 상기 복수의 훈련 데이터 집합들과 다른 훈련 데이터를 포함하는 훈련집합을 이용하여 훈련된 "훈련된 기계학습모형" 일 수 있다. 일부 실시예들에서는, 상기 처리장치(122)는 네트워크(예를 들면, 상기 네트워크(150))를 통해 상기 오디오 신호 생성시스(100)의 하나 이상의 부재들(예를 들면, 상기 저장장치(140), 상기 단말기(들) 130) 또는 외부 소스(예를 들면, 제3자의 데이터 베이스)로부터 상기 초보 기계학습모형을 얻을 수 있다.
일부 실시예들에서는, 상기 초보 기계학습모형은 신경망모형(예를 들면, 다층 인지체), 통계모형(예를 들면, 히든마르코브모형(HMM)), 등, 또는 이들의 조합에 근거하여 구축될 수 있다. 일부 실시예들에서는, 상기 초보 기계학습모형은 다층구조를 포함할 수 있다. 예를 들면, 상기 초보 기계학습모형은 입력층, 출력층, 및 상기 입력층과 상기 출력층 사이의 하나 이상의 히든층을 포함할 수 있다. 일부 실시예들에서는, 상기 히든층들은 하나 이상의 권적층들, 하나 이상의 정류선형유닛층들(ReLU 층들), 하나 이상의 풀링층들, 하나 이상의 완전연결층들, 등, 또는 이들의 임의의 조합을 포함할 수 있다. 여기에서 사용한 바와 같이, 모형의 각 층은 상기 층의 데이터의 입력을 처리하기 위한 알고리즘 또는 함수일 수 있다. 상이한 층들은 각자의 입력에 대해 상이한 유형의 처리를 수행할 수 있다. 후속층은 앞의 층의 출력 데이터를 입력 데이터로 이용할 수 있다. 일부 실시예들에서는, 상기 권적층은 복수의 커널들을 포함할 수 있으며, 상기 복수의 커널들은 특징을 추출하는 데 이용될 수 있다. 일부 실시예들에서는, 상기 복수의 커널들 중의 각 커널은 필터부분(예를 들면, 구역)일 수 있다. 상기 풀링층은 상기 권적층의 출력을 입력으로 할 수 있다. 상기 풀링층은 복수의 풀링노드들을 포함할 수 있으며, 상기 복수의 풀링노드들은 상기 권적층의 출력의 샘플로 이용될 수 있으며, 따라서 데이터 처리의 계산부하를 감소시키고 데이터 처리를 가속화시킨다. 일부 실시예들에서는, 입력된 데이터를 표시하는 상기 행렬의 크기는 풀링층에서 감소될 수 있다. 상기 완전연결층은 복수의 뉴??(신경원) 을 포함할 수 있다. 상기 뉴?맛? 상기 풀링층 중의 상기 풀링노드들에 연결될 수 있다. 완전연결층에서, 복수의 풀링노드들에 대응되는 복수의 벡터들은 훈련샘플에 근거하여 확정될 수 있고, 상기 복수의 벡터들에 복수의 가중계수가 분배될 수 있다. 상기 출력층은 상기 완전연결층으로부터 획득한 벡터들 및 가중계수들에 근거하여 출력을 확정할 수 있다.
일부 실시예들에서는, 상기 층들 중 각 층은 하나 이상의 노드들을 포함할 수 있다. 일부 실시예들에서는, 각 노드는 앞의 층 중의 하나 이상의 노드들에 연결될 수 있다. 각 층에서 노드들의 수량은 같거나 다를 수 있다. 일부 실시예들에서는, 각 노드는 활성화 함수에 대응될 수 있다. 여기에서 사용한 바와 같이, 노드의 활성화 함수 주어진 입력 또는 입력 집합의 노드의 출력을 정의할 수 있다. 일부 실시예들에서는, 초기기계학습모형에서 상기 복수의 노드들 중 2개 사이의 각 연결은 하나의 노드로부터 다른 하나의 노드로 신호를 전달할 수 있다. 일부 실시예들에서는, 각 연결은 가중치에 대응될 수 있다. 여기에서 사용한, 연결에 대응되는 가중치는 상기 연결에서 상기 신호의 강도 또는 영향을 증가 또는 감소시키는 데 이용될 수 있다.
상기 기계학습모형은 복수의 파라미터들, 예를 들면, 구조 파라미터들, 학습 파라미터들, 등을 포함할 수 있다. 상기 기계학습모형의 예시적인 구조 파라미터들은 층의 커널의 크기, 층들의 총 수량, 각 층에서 노드들의 수량, 학습속도, 배치 크기, 에포크 등을 포함할 수 있다. 예시적인 학습 파라미터들은 2개의 연결된 노드들 사이의 연결된 가중치, 노드에 관한 바이어스 벡터 등을 포함할 수 있다. 상기 훈련하기 전에, 상기 기계학습모형은 하나 이상의 초기파라미터 값들을 가질 수 있다. 상기 기계학습모형의 훈련에서, 상기 기계학습모형의 학습 파라미터들이 업데이트될 수 있다. 업데이트 처리전에, 상기 기계학습모형의 상기 학습 파라미터들의 값들이 초기화될 수 있다. 예를 들면, 상기 초기 기계학습모형의 노드들의 연결 가중치들 및/또는 바이어스 벡터는 -1~1와 같은 범위에서 랜덤 값들을 분배함으로써 초기화될 수 있다. 다른 하나의 예로써, 상기 초기 기계학습모형의 모든 연결 가중치는 -1~1의 범위에서 동일한 값, 예를 들면, 0으로 분배될 수 있다. 여전히 한 예로써, 상기 초기기계학습모형에서 노드들의 바이어스 벡터는 0~1의 범위에서 랜덤 값들을 분배함으로써 초기화될 수 있다. 일부 실시예들에서는, 상기 초기 기계학습모형의 파라미터들은 가우스 랜덤 알고리즘, 자비에르 알고리즘, 등에 근거하여 초기화될 수 있다.
일부 실시예들에서는, 상기 처리장치(122)는 훈련 알고리즘을 이용하여 상기 초보 기계학습모형을 훈련시켜 상기 훈련된 기계학습모형을 획득할 수 있다. 예시적인 훈련 알고리즘은 역전파 알고리즘, 구배감소 알고리즘, 뉴톤알고리즘, 준뉴톤 알고리즘, 레벤베르크-마르콰르트 알고리즘, 공액구배 알고리즘, 등, 또는 이들의 조합을 포함할 수 있다.
일부 실시예들에서는, 상기 초보 기계학습모형의 훈련은 복수의 반복을 포함할 수 있다. 각 반복에서, 상기 제1 오디오 신호 또는 상기 골전도 데이터 집합은 상기 초보 기계학습모형의 입력의 작용을 할 수 있으며; 상기 기전도 데이터 집합은 상기 초보 기계학습모형의 희망하는 출력의 작용을 할 수 있다. 상기 초보 기계학습모형은 상기 제1 오디오 신호로부터 제1 음향특성들을 추출할 수 있고, 상기 제2 오디오 신호제2 음향특성들을 추출할 수 있다. 예를 들면, 상기 초보 기계학습모형은 서브모형(예를 들면, 동작 702에서 설명한음 성식별모형)을 이용하여 상기 제1 음향특성들과 상기 제2 음향특성들을 추출할 수 있다. 다른 하나의 예로써, 상기 초보 기계학습모형은 본 개시의 다른 부분에서 기재한 (예를 들면, 동작 702 및 관련설명들) 알고리즘을 이용하여 상기 제1 음향특성들과 상기 제2 음향특성들을 추출할 수 있다. 상기 제1 음향특성들과 상기 제2 음향특성들은 동작 602에서 설명한 바와 같은 기간에 관련되는 하나 이상의 특징들, 에너지에 관련되는 하나 이상의 특징들, 기본 주파수에 관련되는 하나 이상의 특징들, 주파수 스펙트럼에 관련되는 하나 이상의 특징들, 위상 스펙트럼에 관련되는 하나 이상의 특징들, 등을 포함할 수 있다. 상기 초보 기계학습모형(예를 들면, 상기 초보 기계학습모형의 상기 제1 부분)은 상기 제1 음향특성들에 근거하여 제1 골전도 데이터 집합들을 확정하고, 상기 제2 음향특성들에 근거하여 하나 이상의 제2 기전도 데이터 집합들을 확정할 수 있다. 상기 하나 이상의 제1 골전도 데이터 집합들과 상기 하나 이상의 제2 기전도 데이터 집합들 중의 각각은 상기 음향특성들로 구성된 하나 이상의 음소들, 상기 하나 이상의 음소들로 구성되는 하나 이상의 음절들, 상기 하나 이상의 음절들로 구성되는 하나 이상의 단어들, 상기 하나 이상의 단어들로 구성되는 하나 이상의 문구들, 하나 이상의 문구들고 구성되는 하나 이상의 구절들, 등, 또는 이들의 임의의 조합을 포함할 수 있다.
상기 초보 기계학습모형(예를 들면, 상기 초보 기계학습모형의 상기 제2 부분)는 복수의 쌍의 기전도 데이터와 골전도 데이터를 확정할 수 있다. 각 쌍은 동일한 어의들을 표시하는 제1 골전도 데이터 집합과 제2 기전도 데이터 집합을 포함할 수 있다. 일부 실시예들에서는, 상기 초보 기계학습모형은 상기 하나 이상의 제1 골전도 데이터 집합들 중 각 제1 골전도 데이터 집합이 상기 하나 이상의 제2 기전도 데이터 집합들 중 각 제2 기전도 데이터 집합과 매칭되는 매칭확률을 확정할 수 있다. 제1 골전도 데이터 집합이 제2 기전도 데이터 집합과 매칭되는 매칭확률은 상기 제1 골전도 데이터 집합으로 표시하는 어의정보와 상기 제2 기전도 데이터 집합으로 표시하는 어의정보 사이의 유사도 또는 상관도를 표시할 수 있다. 상기 제1 골전도 데이터 집합으로 표시하는 어의정보와 상기 제2 기전도 데이터 집합으로 표시하는 어의정보 사이의 유사도 또는 상관도는 상기 제1 골전도 데이터 집합이 상기 제2 기전도 데이터 집합과 매칭되는 매칭확률일 수 있다. 단지 예로써, 상기 초보 기계학습모형은 본 개시의 다른 부분에서 기재한 바와 같은(예를 들면, 동작 704 및 관련설명들) 유사도 알고리즘을 이용하여, 상기 하나 이상의 제1 골전도 데이터 집합들 중 각 제1 골전도 데이터 집합과 상기 하나 이상의 제2 기전도 데이터 집합들 중 각 제2 기전도 데이터 집합 사이의 상관도를 확정할 수 있다. 상기 초보 기계학습모형은 상관도를 매칭확률로 확정할 수 있다.
상기 기계학습모형의 훈련에서, 상기 처리장치(122)는 상기 복수의 훈련 샘플들에 근거하여 상기 초보 기계학습모형의 파라미터 값(들)을 반복적으로 업데이트할 수 있다. 상기 기계학습모형의 학습 파라미터의 업데이트는 "상기 기계학습모형을 업데이트"한다라고도 부른다. 예를 들면, 상기 처리장치(122)는 종료 조건이 만족될 때까지 하나 이상의 반복들을 수행함으로써 상기 기계학습모형의 모형 파라미터(들)을 업데이트할 수 있다. 일부 실시예들에서는, 상기 초보 기계학습모형은 코스트함수를 이용하여 상기 매칭확률과 역치에 관련된 차이 또는 착오를 확정할 수 있다. 상기 코스트함수의 값이 조건을 만족시키지 않으면, 상기 처리장치(122)는 현재 반복에서 역전파알고리즘을 이용하여 상기 코스트함수의 값에 근거하여 상기 초보 기계학습모형의 파라미터값을 조절할 수 있다.
상기 처리장치(122)(예를 들면, 상기 모형생성모듈(504))는 종료조건이 만족되는지 여부를 확정할 수 있다. 상기 종료조건은 상기 기계학습모형이 충분히 훈련되었는지 여부의 표시를 제공할 수 있다. 상기 종료조건은 코스트함수 또는 상기 훈련과정의 반복 수량과 관련될 수 있다. 예를 들면, 상기 처리장치(122)는 상기 기계학습모형의 코스트함수를 확정하고, 상기 추정된 출력과 상기 실제 출력 또는 희망하는 출력(예를 들면, 기준 출력)사이의 차이에 근거하여 코스트함수의 값을 판정할 수 있다. 또한, 상기 처리장치(122)는 코스트함수의 값이 역치보다 작으면 상기 종료조건이 만족되었다고 확정할 수 있다. 상기 역치는 상기 시스(100)의 기본 설정이거나 또는 상이한 상황들에서 조절이 가능할 수 있다. 다른 하나의 예로써, 상기 코스트함수의 값이 수렴되면 상기 종료조건을 만족시킬 수 있다. 상기 수렴은 코스트함수의 값들의 변화가 2개 이상의 연이은 반복들에서 역치(예를 들면, 일정하면)보다 작은 것으로 간주할 수 있다. 다른 하나의 예로써, 상기 처리장치(122)는 상기 훈련과정에서 특정된 수량의 반복들이 수행되면 상기 종료조건이 만족된다고 확정할 수 있다 .
종료조건이 만족된다는 확정에 응답하여, 상기 처리장치(122)는 마지막 반복에서 업데이트된 파라미터 값들을 구비하는 상기 기계학습모형을 상기 훈련된 기계학습모형(예를 들면, 훈련된 기계학습모형)로 지정할 수 있다. 다른 한편으로는, 종료조건이 만족된다는 확정에 응하여, 상기 처리장치(120)는 상기 평가결과에 근거하여 상기 기계학습모형의 적어도 일부분 파라미터값을 업데이트할 수 있다. 예를 들면, 상기 처리장치(122)는 예를 들면, 역전파알고리즘에 근거하여 코스트함수의 값에 근거하여 상기 기계학습모형의 학습 파라미터(들)의 값(들)을 업데이트할 수 있다. 상기 처리장치(120)는 상기 종료조건이 만족될 때까지 다음 반복을 계속하여 수행할 수 있다. 다음 반복에서, 상기 처리장치(122)는 다른 하나의 련 데이터 집합을 얻을 수 있다. 어떤 반복에서 종료조건이 만족된 후, 상기 어떤 반복에서 상기 학습 파라미터(들)의 업데이트된 값(들)을 구비하는 상기 기계학습모형을 상기 훈련된 기계학습모형(예를 들면, 상기 훈련된 기계학습모형)으로 지정할 수 있다.
상기 훈련된 기계학습모형(예를 들면, 상기 초보 기계학습모형의 상기 제2 부분)은 상기 복수의 쌍의 기전도 데이터와 골전도 데이터에 근거하여 상기 하나 이상의 제1 골전도 데이터 집합들 중의 각 제1 골전도 데이터 집합과 상기 하나 이상의 제2 기전도 데이터 집합들 중의 적어도 하나의 기전도 데이터 집합 사이의 매핑관계를 제공할 수 있다. 일부 실시예들에서는, 상기 복수의 쌍의 골전도 데이터와 기전도 데이터 중의 각 쌍은 대응관계를 가지는 한 쌍의 골전도 데이터와 기전도 데이터를 가리킬 수 있다. 여기에서 사용한 바와 같이, 상기 대응관계는 상기 골전도 데이터 집합이 상기 기전도 데이터 집합에 대응됨을 가리킬 수 있다.상기 골전도 데이터 집합으로 표시되는 어의정보와 상기 조의 상기 기전도 데이터로 표시되는 어의정보 사이의 유사도 또는 상관도가 역치, 예를 들면, 90%, 95%, 99%, 등을 초과하면, 상기 골전도 데이터 집합은 상기 기전도 데이터 집합에 대응될 수 있다. 상기 초보 기계학습모형은 상기 대응관계에 근거하여 상기 하나 이상의 제1 골전도 데이터 집합들 중의 각 제1 골전도 데이터 집합과 상기 하나 이상의 제2 기전도 데이터 집합들 중의 적어도 하나 사이의 매핑관계를 구축할 수 있다. 상기 매핑관계는 음향특성들 사이의 매핑관계, 음소들 사이의 매핑관계, 음절들 사이의 매핑관계, 단어들 사이의 매핑관계, 등, 또는 이들의 임의의 조합을 포함할 수 있다. 상기 매핑관계에 관한 더 많은 설명은 본 개시의 다른 부분(예를 들면, 도 6 및 그 관련 설명) 에서 찾을 수 있다.
예를 들면, 상기 하나 이상의 제1 골전도 데이터 집합들는 음절 A와 음절 B를 포함하고, 상기 하나 이상의 제2 기전도 데이터 집합들은 음절 C, 음절 D, 음절 E, 음절 F, 및 음절 G를 포함한다. 상기 복수의 쌍의 기전도 오디오 데이터와 골전도 데이터는A-C, A-D, B-E, B-F, B-G를 포함한다. A와 C, A와D, B와 E, B와 F, B 와 G는 상응한 또는 매칭 관계를 가지는 한 쌍의 골전도 오디오 데이터와 기전도 데이터일 수 있다. 상기 매핑관계는 , 로 표시할 수 있다.
일부 실시예들에서는, 상기 초보 기계학습모형은 제1 부분("제1 서브모형"라고도 부른다)과 제2 부분("제2 서브모형"라고도 부른다)을 포함할 수 있다. 상기 제1 부분은 훈련되어 음성식별모형을 획득할 수 있다. 상기 제1 부분은 상기 오디오 신호의 음향특성들을 추출함으로써 하나의 오디오 신호를 하나 이상의 유닛들("음향벡터"라고도 부른다)로 분해하도록 구성될 수 있다. 각 유닛은 상기 오디오 신호로부터 도출되는 한 조의 오디오 데이터로 부를 수도 있다. 오디오 신호의 유닛(예를 들면, 한 조의 오디오 데이터)는 음향특성들로 구성되는 음소, 하나 이상의 음소들로 구성되는 음절, 상기 하나 이상의 음절들로 구성되는 단어, 상기 하나 이상의 단어들로 구성되는 문구, 상기 하나 이상의 문구들로 구성되는 구절, 등, 또는 이들의 임의의 조합을 포함할 수 있다. 예를 들면, 상기 제1 오디오 신호는 상기 제1 부분에 의해 분해되어 복수의 골전도 데이터 집합들(예를 들면, 복수의 골전도 유닛들)를 획득할 수 있고, 상기 제2 오디오 신호는 상기 제1 부분에 의해 분해되어 복수의 기전도 데이터 집합들(예를 들면, 복수의 기전도 유닛들)를 획득할 수 있다. 일부 실시예들에서는, 상기 초보 기계학습모형의 상기 제1 부분은 기계학습모형(예를 들면, 기존 신경망모형, 딥신경망모형, 등.)을 포함하는 부호기(encoder)를 포함할 수 있다.
상기 제2 부분은 훈련되어 복수의 골전도 데이터 집합들과 복수의 기전도 데이터 집합들 사이의 매핑관계를 구축할 수 있다. 상기 복수의 골전도 데이터 집합들과 복수의 기전도 데이터 집합들 사이의 매핑관계 상기 복수의 골전도 데이터 집합들 중의 각 골전도 데이터 집합을 상기 복수의 기전도 데이터 집합들 중의 하나 이상의 조들과의 매칭관계라고 부를 수도 있다. 일부 실시예들에서는, 골전도 데이터의 집합과 기전도 데이터 집합 사이의 상관도가 역치를 초과하면, 상기 골전도 데이터 집합은 기 조의 기전도 데이터와 매칭될 수 있고, 상기 골전도 데이터 집합과 상기 기전도 데이터 집합 사이에 매칭관계가 구축될 수 있다.
일부 실시예들에서는, 골전도 데이터의 집합과 기전도 데이터 집합 사이의 상관도는 상기 골전도 데이터 집합과 상기 기전도 데이터 집합 사이의 유사도로 표시할 수 있다. 일부 실시예들에서는, 상기 제2 부분은 유사도 확정함수를 포함할 수 있다. 상기 제2 부분은 유사도 확정함수를 이용하여 상기 복수의 골전도 데이터 집합들 중의 각 골전도 데이터 집합과 상기 복수의 기전도 데이터 집합들 중의 각 조의 기전도 데이터 사이의 상관도를 확정할 수 있다. 예시적인 유사도 확정함수는 코사인유사도함수, 자카르 계수(Jaccard coefficient)함수, 주사위계수함수, 등을 포함할 수 있다. 일부 실시예들에서는, 상기 제2 부분은 어의 유사도를 확정하기 위한 기계학습모형을 포함할 수 있다. 어의 유사도를 확정하기 위한 예시적인 기계학습모형들은 딥구축어의모형(DSSM, deep structured semantic model), 권적잠재어의모형 (CLSM, convolutional latent semantic model), 장기 단기 메모리 딥구축어의모형(LSTM-DSSM, long-short-term memory-deep structured semantic model), 등, 또는 이들의 임의의 조합을 포함할 수 있다.
단지 예로써, 도 9는 본 개시의 일부 실시예들에 따른 예시적인 초보 기계학습모형을 나타내는 개략도이다. 도 9에 표시하는 바와 같이, 상기 초보 기계학습모형은 입력층(902), 부호기(904), 디코더(906), 출력층(908)을 포함할 수 있다. 상기 부호기(904)는 상기 초보 기계학습모형(예를 들면, 상기 제1 서브모형)의 제1 부분이라고 부를 수도 있다. 상기 입력층(902)은 오디오 신호들을 입력하도록 구성될 수 있다. 상기 부호기(904)는 입력된 오디오 신호(예를 들면, 상기 제1 오디오 신호와 상기 제2 오디오 신호)를 일련의 음향벡터들로 변환시키도록 구성될 수 있다. 일부 실시예들에서는, 상기 부호기(904)는 복수의 층들 V1, V2, ??, VL을 포함하는 신경망모형(예를 들면, CNN, DNN, 등.)을 포함할 수 있다. 상기 디코더(906)는 다른 하나의 오디오 신호와 대응되는 서열 음향벡터 중의 각 음향벡터일 가능성이 높은 오디오 신호와 대응되는 하나 이상의 음향벡터들을 확정하도록 구성될 수 있다. 상기 디코더(906)는 신경망모형(예를 들면, CNN, DNN, 등.), 베이지안 네트워크모형(예를 들면, HMM), 등을 포함할 수 있다. 도 9에 표시하는 바와 같이, 상기 디코더(906)는 HMM를 포함할 수 있다. 상기 HMM의 파라미터들은 (p, A, B) 로 표시할 수 있으며, p는 초기확률행렬이고, A는 히든상태변환행렬이고, B는 히든상태로부터 관찰상태로 변환하는 확률행렬이다. 히든상태변환행렬 A는 히든상태변환확률, 예를 들면, 히든상태 S0로부터 히든상태 S1로의 변환확률 a01, 히든상태 S1로부터 히든상태 S2로의 변환확률 a12, ···, 히든상태 Sk로부터 히든상태 Sk+1로의 변환확률 ak(k+1) 을 포함할 수 있다. 히든상태로부터 관찰상태로의 변환의 확률행렬 B은 히든상태로부터 관찰상태로의 변환확률, 예를 들면, 히든상태 S1로부터 관찰상태 y0로의 변환확률 b1(y0), 히든상태 S1로부터 관찰상태 y1로의 변환확률 b1(y1), ···, 히든상태 Sk로부터 관찰상태 yk로의 변환확률 bk(yk)을 포함할 수 있다. 각 반복에 관하여, 상기 입력층(902)는 훈련 데이터 집합에서 오디오 신호들(예를 들면, 상기 제1 오디오 신호와 상기 제2 오디오 신호, 예를 들면, 오디오 파형)을 입력할 수 있다. 상기 부호기(904)는 각 오디오 신호(예를 들면, 상기 제1 오디오 신호와 상기 제2 오디오 신호)의 음향특성들을 추출하여 상기 제1 오디오 신호에 대응되는 음향벡터들의 상기 제2 오디오 신호에 대응되는 음향벡터들의 제2 순위를 형성한다. 일부 실시예들에서는, 오디오 신호에 대응되는 음향벡터들 중의 음향벡터는 상기 오디오 신호의 각 단위의 (예를 들면, 음소로 구성되는 음향특성들, 하나 이상의 음소들로 구성되는 음절, 상기 하나 이상의 음절들로 구성되는 단어, 상기 하나 이상의 단어들로 구성되는 문구, 상기 하나 이상의 문구들로 구성되는 구절) 음향특성들을 포함할 수 있다. 상기 디코더(906)는 상기 디코더(906)의 파라미터들과 관찰상태서열(예를 들면, y0, y1, y2, ···, yk, yk+1)에 근거하여 히든상태서열(예를 들면, S0, S1, S2, ···, Sk, Sk+1)을 확정할 수 있다. 다시 말하면, 상기 디코더(906)는 상기 디코더(906)의 파라미터들에 근거하여 상기 제1 오디오 신호에 대응되는 상기 제1 순위 중의 각 음향벡터일 가능성이 높은 상기 제2 오디오 신호에 대응되는 상기 제2 순위의 하나 이상의 음향벡터들을 확정할 수 있다. 그 후, 상기 디코더(906)는 상기 제2 오디오 신호에 대응되는 상기 제2 순위 중의 하나 이상의 음향벡터들과 상기 제1 오디오 신호에 대응되는 상기 제1 순위 중의 각 음향벡터 사이의 매핑관계를 구축할 수 있다. 상기 디코더(906)는 상기 디코더(906)의 파라미터들를 조절할 수 있으며, 상기 부호기(904)는 예를 들면, Baum-Welch 알고리즘에 근거하여 최적해(예를 들면, 상기 제1 오디오 신호에 대응되는 상기 제1 순위에서 각 음향벡터일 가능성이 높은 상기 제2 오디오 신호에 대응되는 상기 제2 순위에서 상기 하나 이상의 음향벡터들)를 획득한다. 일부 실시예들에서는, 상기 디코더(906)는 근사 최대 추정 알고리즘을 이용하여 상기 최적해(예를 들면, 상기 제1 오디오 신호에 대응되는 상기 제1 순위에서 각 음향벡터일 가능성이 가장 높은 상기 제2 오디오 신호에 대응되는 상기 제2 순위에서 상기 하나 이상의 음향벡터들)를 확정할 수 있다.
유의해야 할 것은 상기 처리 800에 관한 상기 설명은 단지 설명의 목적으로 제공하는 것이며, 본 개시의 범위를 한정하지 않는다. 본 분야의 통상의 기술자에 있어서, 복수의 변화들과 수정들은 본 개시의 교시하에 진행될 수 있다. 그러나, 이러한 변형들과 수정들은 본 개시의 범위를 벗어나지 않는다. 예를 들면, 처리과정800은 상기 초보 기계학습모형의 파라미터값을 초기화하는 동작 및/또는 상기 훈련된 기계학습모형을 저장하는 동작을 더 포함할 수 있다.
도 10은 본 개시의 일부 실시예들에 따른 오디오 신호를 생성하기 위한 예시적인 처리를 나타내는 개략흐름도이다. 일부 실시예들에서는, 처리과정1000은 상기 저장장치(140), ROM(230) 또는 RAM 240, 또는 스토리지(390)에 저장되어 있는 한 조의 명령어들(예를 들면, 응용프로그램)로 구현될 수 있다. 상기 처리장치(122), 상기 프로세서(220) , 및/또는 상기 CPU(340)은 상기 한 조의 명령어들을 실행할 수 있으며, 상기 명령어들들을 실행할 때, 상기 처리장치(122), 상기 프로세서(220) , 및/또는 상기 CPU(340)은 상기 처리 1000를 수행하도록 구성될 수 있다. 아래에서 설명하는 상술한 처리의 동작들은 설명하기 위한 것이다. 일부 실시예들에서는, 상기 처리 1000는 기재되지 않은 하나 이상의 추가적인 동작들 및/또는 언급된 하나 이상의 동작들이 없이달성될 수 있다. 그리고, 도10에서 설명한 상기 처리 1000의 동작들 및 아래의 설명에서의 순서는 한정하려는 의도가 아니다.
1002에서, 상기 처리장치(122)(예를 들면, 상기 획득모듈(402))는 골전도 센서로 획득하는 골전도 오디오 신호를 얻을 수 있다.
일부 실시예들에서는, 상기 처리장치(122)는 상기 네트워크(150)를 통해 실시간으로 또는 정기적으로 상기 골전도 센서(예를 들면, 상기 골전도 마이크로폰(112)), 상기 단말기(130), 상기 저장장치(140), 또는 임의의 기타 저장장치로부터 상기 골전도 오디오 신호를 얻을 수 있다. 사용자가 말할 때, 상기 골전도 센서에 의해 상기 골전도 오디오 신호를 획득 및/또는 생성할 수 있다. 일부 실시예들에서는, 동작 1002 는 도6에서 나타내는 상기 처리 600의 동작 602와 유사하거나 또는 같을 수 있다.
1004에서, 상기 처리장치(122)(예를 들면, 상기 획득모듈(402))는 기전도 센서로 획득하는 기전도 오디오 신호를 얻을 수 있다.
일부 실시예들에서는, 상기 처리장치(122)는 상기 네트워크(150)를 통해 실시간으로 또는 정기적으로 상기 기전도 센서(예를 들면, 상기 기전도 마이크로폰(114)), 상기 단말기(130), 상기 저장장치(140), 또는 임의의 기타 저장장치로부터 상기 기전도 오디오 신호를 얻을 수 있다. 사용자가 말할 때 상기 기전도 센서에 의해 상기 기전도 오디오 신호를 획득 및/또는 생성할 수 있다 . 일부 실시예들에서는, 동작 1004 는 도6에서 나타내는 상기 처리 600의 동작 604와 유사하거나 같을 수 있다.
1006에서, 상기 처리장치(122)(예를 들면, 상기 획득모듈(402))는 훈련된 기계학습모형을 얻을 수 있다.
일부 실시예들에서는, 상기 훈련된 기계학습모형은 신경망모형(예를 들면, 딥러닝 모형)에 근거하여 재구축될 수 있다. 예시적인 딥러닝 모형들은 권적 신경망(CNN) 모형, 반복 신경망(RNN) 모형, 장기 단기 메모리 네트워크(LSTM) 모형, 등, 또는 이들의 조합을 포함할 수 있다.
일부 실시예들에서는, 상기 처리장치(122)는 네트워크(예를 들면, 상기 네트워크(150))를 통해 상기 오디오 신호 생성시스(100)의 하나 이상의 부재들(예를 들면, 상기 저장장치(140), 상기 단말기(들) 130) 또는 외부 소스로부터 상기 훈련된 기계학습모형을 얻을 수 있다. 예를 들면, 상기 훈련된 기계학습모형은 계산장치(예를 들면, 상기 처리장치(122))로 사전에 훈련되고, 상기 오디오 신호 생성시스(100)의 저장장치(예를 들면, 상기 저장장치(140))에 저장할 수 있다. 상기 처리장치(122)는 상기 저장장치에 접근하여 상기 훈련된 기계학습모형을 검색할 수 있다.
일부 실시예들에서는, 상기 처리장치(122) 또는 다른 하나의 계산장치(예를 들면, 상기 훈련된 기계학습모형의 공급업체의 계산장치)로 훈련 알고리즘에 근거하여 상기 훈련된 기계학습모형을 생성할 수 있다. 예시적인 훈련 알고리즘은 구배감소 알고리즘, 뉴톤알고리즘, 준뉴톤 알고리즘, 레벤베르크-마르콰르트 알고리즘, 공액구배 알고리즘, 등, 또는 이들의 조합을 포함할 수 있다.
단지 예로써, 상기 훈련된 기계학습모형은 하나의 처리를 통해 얻을 수 있다. 상기 처리는 복수의 훈련 데이터 집합들과 초보 기계학습모형을 획득하는 것, 및 상기 복수의 훈련 데이터 집합들을 이용하여 상기 초보 기계학습모형을 훈련시키는 것을 포함할 수 있다. 상기 복수의 훈련 데이터 집합들 중의 각 훈련 데이터 집합은 골전도 오디오 신호, 기전도 오디오 신호, 및 기준 기전도 오디오 신호를 포함할 수 있다. 상기 초보 기계학습모형의 훈련에서, 각 훈련 데이터 집합 중의 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 상기 초보 기계학습모형의 역할을 할 수 있으며, 상기 기준 기전도 오디오 신호는 상기 초보 기계학습모형의 희망하는 출력의 역할을 할 수 있다. 각 훈련 데이터 집합 중의 상기 골전도 오디오 신호, 상기 기전도 오디오 신호, 상기 기준 기전도 오디오 신호는 사용자의 동일한 음성을 표시할 수 있다. 상기 기준 기전도 오디오 신호는 각 훈련 데이터 집합 중의 상기 기전도 오디오 신호보다 작은 소음레벨. 을 포함할 수 있다.
일부 실시예들에서는, 훈련 데이터 집합 중에서 상기 골전도 오디오 신호와 상기 기준 기전도 오디오 신호는 상기 사용자가 말할 때 각각 소음이 없는 조건하에서 골전도 센서와 기전도 센서에 의해 획득할 수 있다. 훈련 데이터 집합에서 상기 기전도 오디오 신호는 훈련 데이터 집합에서의 상기 기준 기전도 오디오 신호에 소음들을 추가함으로써 획득할 수 있다.
일부 실시예들에서는, 훈련 데이터 집합에서 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 각각 소음 조건하에서 상기 사용자가 말할 때 획득할 수 있다. 훈련 데이터 집합에서 기준 기전도 오디오 신호는 훈련 데이터 집합에서 상기 기전도 오디오 신호에 대해 소음제거를 함으로써 획득할 수 있다.
일부 실시예들에서는, 훈련 데이터 집합에서 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 각각 소음조건하에서 상기 사용자가 말할 때 골전도 센서와 기전도 센서로 획득할 수 있다. 훈련 데이터 집합에서 기준 기전도 오디오 신호는 각각 소음이 없는 조건하에서 기전도 센서로 획득할 수 있다.
일부 실시예들에서는, 상기 기계학습모형은 을 포함할 수 있다 다층구조. 예를 들면, 상기 기계학습모형은 입력층, 출력층, 상기 입력층과 상기 출력층 사이의 하나 이상의 히든층을 포함할 수 있다. 일부 실시예들에서는, 상기 히든층들은 하나 이상의 권적층들, 하나 이상의 정류선형유닛 층들(ReLU 층들), 하나 이상의 풀링층들, 하나 이상의 완전연결층들, 등, 또는 이들의 임의의 조합을 포함할 수 있다. 여기에서 사용하는 바와 같이, 모형의 층은 상기 층의 데이터 입력을 처리하기 위한 알고리즘 또는 함수일 수 있다. 상이한 층들은 상이한 종류의 처리를 자체에 대한 입력에 수행할 수 있다. 후속층은 앞의 층의 출력 데이터를 입력 데이터로 이용할 수 있다. 일부 실시예들에서는, 상기 권적층은 복수의 커널들을 포함할 수 있으며, 상기 복수의 커널들은 특징을 추출하는 데 이용될 수 있다. 일부 실시예들에서는, 상기 복수의 커널들 중의 각 커널은 필터부분(예를 들면, 구역)일 수 있다. 상기 풀링층은 상기 권적층의 출력을 입력으로 할 수 있다. 상기 풀링층은 복수의 풀링노드들을 포함할 수 있으며, 상기 복수의 풀링노드들은 상기 권적층의 출력의 샘플로 이용될 수 있으며, 따라서데이터 처리의 계산부하를 감소시키고 데이터 처리를 가속화시킨다. 일부 실시예들에서는, 입력된 데이터를 표시하는 상기 행렬의 크기는 풀링층에서 감소될 수 있다. 상기 완전연결층은 복수의 뉴??(신경원) 을 포함할 수 있다. 상기 뉴?맛? 상기 풀링층 중의 상기 풀링노드들에 연결될 수 있다. 완전연결층에서, 복수의 풀링노드들에 대응되는 복수의 벡터들은 훈련샘플에 근거하여 확정될 수 있고, 상기 복수의 벡터들에 복수의 가중계수가 분배될 수 있다. 상기 출력층은 상기 완전연결층으로부터 획득한 벡터들 및 가중계수들에 근거하여 출력을 확정할 수 있다.
일부 실시예들에서는, 상기 층들 중 각 층은 하나 이상의 노드들을 포함할 수 있다. 일부 실시예들에서는, 각 노드는 앞의 층 중의 하나 이상의 노드들에 연결될 수 있다. 각 층에서 노드들의 수량은 같거나 다를 수 있다. 일부 실시예들에서는, 각 노드는 활성화 함수에 대응될 수 있다. 여기에서 사용한 바와 같이, 노드의 활성화 함수 주어진 입력 또는 입력 집합의 노드의 출력을 정의할 수 있다. 일부 실시예들에서는, 초기기계학습모형에서 상기 복수의 노드들 중 2개 사이의 각 연결은 하나의 노드로부터 다른 하나의 노드로 신호를 전달할 수 있다. 일부 실시예들에서는, 각 연결은 가중치에 대응될 수 있다. 여기에서 사용한, 연결에 대응되는 가중치는 상기 연결에서 상기 신호의 강도 또는 영향을 증가 또는 감소시키는 데 이용될 수 있다.
상기 기계학습모형은 복수의 파라미터들, 예를 들면, 구조 파라미터들, 학습 파라미터들, 등을 포함할 수 있다. 상기 기계학습모형의 예시적인 구조 파라미터들은 층의 커널의 크기, 층들의 총 수량, 각 층에서 노드들의 수량, 학습속도, 배치 크기, 에포크 등을 포함할 수 있다. 예시적인 학습 파라미터들은 2개의 연결된 노드들 사이의 연결된 가중치, 노드에 관한 바이어스 벡터 등을 포함할 수 있다. 상기 훈련하기 전에, 상기 기계학습모형은 하나 이상의 초기파라미터 값들을 가질 수 있다. 상기 기계학습모형의 훈련에서, 상기 기계학습모형의 학습 파라미터들이 업데이트될 수 있다. 업데이트 처리전에, 상기 기계학습모형의 상기 학습 파라미터들의 값들이 초기화될 수 있다. 예를 들면, 상기 초기 기계학습모형의 노드들의 연결 가중치들 및/또는 바이어스 벡터는 -1~1와 같은 범위에서 랜덤 값들을 분배함으로써 초기화될 수 있다. 다른 하나의 예로써, 상기 초기 기계학습모형의 모든 연결 가중치는 -1~1의 범위에서 동일한 값, 예를 들면, 0으로 분배될 수 있다. 여전히 한 예로써, 상기 초기기계학습모형에서 노드들의 바이어스 벡터는 0~1의 범위에서 랜덤 값들을 분배함으로써 초기화될 수 있다. 일부 실시예들에서는, 상기 초기 기계학습모형의 파라미터들은 가우스 랜덤 알고리즘, 자비에르 알고리즘, 등에 근거하여 초기화될 수 있다.
상기 초보 기계학습모형의 훈련은 종료 조건이 만족될 때까지 일정한 반복에서 상기 훈련 데이터에 근거하여 상기 기계학습 기본 모형의 파라미터값을 반복적으로 업데이트하는 하나 이상의 반복들을 포함할 수 있다. 예시적인 종료조건들은 일정한 반복에서 획득한 손실함수의 값이 역치값보다 작고, 반복들의 일정한 수량은 이미 수행되고, 상기 손실함수가 수렴되며, 따라서, 앞의 반복에서 획득하는 손실함수의 값과 현재 반복 사이의 차이는 역치값 내에 있는 것 등일 수 있다. 상기 손실함수는 각 훈련 데이터 집합 중의 상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여 반복에서 상기 초보 기계학습모형에 의해 예측된 추정된 기전도 오디오 신호와 훈련 데이터 집합중의 상기 기준 기전도 오디오 신호 사이의 차이를 측정하는 데 이용될 수 있다. 예를 들면, 각 훈련 데이터 집합의 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 상기 초보 기계학습모형에 입력될 수 있으며, 상기 초보 기계학습모형은 예측 또는 추정된 기전도 오디오 신호를 출력할 수 있다. 상기 손실함수는 각 훈련 데이터 집합의 예측된 기전도 오디오 신호와 상기 기준 제2 기전도 오디오 신호 사이의 차이를 측정하는 데 이용될 수 있다. 예를 들면, 역전파알고리즘을 이용하여, 기능 현재의 반복에서의 상기 손실함수의 값에 근거하여, 상기 초보 기계학습모형의 파라미터값을 조절할 수 있다. 예시적인 손실함수들은 초점 손실 함수, 로그 손실 함수, 교차 엔트로피 손실, 주사위 비율, 등을 포함할 수 있다. 상기 종료조건이 현재의 반복에서 만족되지 못하면, 상기 처리장치(122)는 예를 들면, 역전파알고리즘에 근거하여, 상기 초보 기계학습모형("상기 초보 기계학습모형의 파라미터값 업데이트"라고도 부른다)를 더 업데이트하여 다음 반복에서 사용할 수 있다. 종료조건이 현재의 반복에서 만족되면, 상기 처리장치(122)는 현재의 반복에서의 상기 초보 기계학습모형을 상기 훈련된 기계학습모형으로 지정할 수 있다.
상기 훈련된 기계학습모형은 특정된 골전도 오디오 신호 및 특정된 기전도 오디오 신호와 상기 특정된 골전도 오디오 신호에 대응되는 등가 기전도 오디오 신호 사이의 매핑관계를 제공할 수 있다. 상기 처리장치(122)는 상기 매핑관계, 상기 특정된 골전도 오디오 신호, 및 상기 특정된 기전도 오디오 신호에 근거하여, 상기 특정된 골전도 오디오 신호에 대응되는 등가 기전도 오디오 신호를 확정할 수 있다. 상기 특정된 골전도 오디오 신호와 상기 특정된 기전도 오디오 신호는 각각 사용자가 말할 때 골전도 센서와 기전도 센서로 획득될 수 있다. 상기 특정된 골전도 오디오 신호와 상기 특정된 기전도 오디오 신호는 상기 사용자의 동일한 음성을 표시할 수 있다. 상기 특정된 골전도 오디오 신호에 대응되는 등가 기전도 오디오 신호는 상기 특정된 기전도 오디오 신호보다 작은 소음레벨을 가질 수 있다.
1008에서, 상기 처리장치(122)(예를 들면, 상기 확정모듈(404))는 상기 훈련된 제1 기계학습모형을 이용하여, 상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여, 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 생성할 수 있다. 일부 실시예들에서는, 상기 타겟 오디오 신호는 상기 기전도 오디오 신호의 소음레벨보다 작은 소음레벨을 가질 수 있다.
일부 실시예들에서는, 상기 골전도 오디오 신호 및/또는 상기 기전도 오디오 신호는 상기 훈련된 기계학습모형에 입력될 수 있으며, 상기 훈련된 기계학습모형은 직접 등가 기전도 오디오 신호를 출력할 수 있다 일부 실시예들에서는, 상기 처리장치(112)는 등가 기전도 오디오 신호를 상기 타겟 오디오 신호로 지정할 수 있다. 일부 실시예들에서는, 본 개시의 다른 부분에서 설명한 바와 같이, 상기 처리장치(112)는 상기 등가 기전도 오디오 신호를 처리하여 상기 타겟 오디오 신호를 획득할 수 있다.
일부 실시예들에서는, 상기 골전도 오디오 신호 및/또는 상기 기전도 오디오 신호는 상기 훈련된 기계학습모형에 입력될 수 있으며, 상기 훈련된 기계학습모형은 상기 타겟 오디오 신호에 관련되는 정보를 출력할 수 있다. 예를 들면, 상기 훈련된 기계학습모형은 한 조의 오디오 데이터를 출력할 수 있다. 상기 처리장치(122)는 알고리즘(예를 들면, 동작 610에서 설명한 바와 같은 음성합성 알고리즘)을 이용하여 상기 조의 오디오 데이터를 상기 타겟 오디오 신호로 변환시킬 수 있다.
1010에서, 상기 처리장치(122)(예를 들면, 상기 출력모듈(406))는 오디오 신호 출력장치로 하여금 상기 타겟 오디오 신호를 출력하도록 할 수 있다.
일부 실시예들에서는, 상기 처리장치(122)는 상기 네트워크(150)를 통해 신호를 고객의 단말기(예를 들면, 상기 단말기(130)), 상기 저장장치(140), 및/또는 임의의 기타 저장장치(오디오 신호 생성시스(100)에서 미표시)에 전송할 수 있다. 상기 신호는 상기 타겟 오디오 신호를 포함할 수 있다. 상기 신호는 고객의 단말기로 하여금 상기 타겟 오디오 신호를 재생시키도록 구성될 수도 있다.
유의해야 할 것은 상기 설명은 단지 설명의 목적으로 제공하는 것이며,본 개시의 범위를 한정하지 않는다. 본 분야의 통상의 기술자에 있어서, 복수의 변화들과 수정들은본 개시의 교시하에 진행될 수 있다. 그러나, 이러한 변형들과 수정들은 본 개시의 범위를 벗어나지 않는다.
상기 기본 개념에 대한 설명을 통하여, 본 분야의 통상의 기술자들은 상기의 상세한 설명을 열독한 후, 이 상세설명은 예를 제시하는 목적뿐이고 한정적이 아님이 명확할 것이다. 여기에서 명기하지 않았지만 본 분야의 통상의 기술자들에 있어서 다양한 변화, 개진, 또는 수정은 가능하며 또한 이를 추구할 수 있다. 본 개시에 의하여 이러한 변화, 개진, 또는 수정은 제안를 주기 위함이고, 이는 본 개시의 바람직한 실시예의 요지와 범위내에 있는 것이다.
또한 본 개시의 실시예들을 설명하는 데 특정된 용어를 사용한다. 예를 들면, "하나의 실시예", "일 실시예", 및/또는 "일부 실시예"는 실시예와 관련하여 설명한 상세한 특징, 구조 또는 특성은 실시예에 관해 설명한 구체적인 특징, 구조 또는 특성들은 본 개시의 적어도 하나의 실시예에 포함됨을 의미한다. 따라서, 강조하고 인정해야 하는 것은 본 명세서의 여러 부분에서 2번 이상 언급된 "일 실시예" 또는 "하나의 실시예" 또는 "대안 실시예"는 전부 동일한 실시예를 가르킬 필요가 없다는 것이다. 또한, 구체적인 특징, 구조 또는 특성은 본 개시의 하나 이상의 실시예에 적당히 조합될 수 있다.
또한, 본 분야의 통상의 기술자들에 있어서, 이해해야 할 것은 본 개시의 각 방면가 임의의 새롭고 유용한 프로세스, 기계, 제조 또는 물질의 조성 또는 이에 대한 새롭고 유용한 개선 사항을 포함하는 다수의 특허 가능한 분류 또는 맥락에서 예시 및 설명될 수 있다는 것이다. 상응하게, 본 개시의 각 양태는 전체적으로 하드웨어, 전체적으로 소프트웨어(펌웨어, 상주 소프트웨어, 마이크로 코드 등) 또는 소프트웨어와 하드웨어를 조합하여 구현될 수 있으며, 이들은 여기서 일반적으로 "유닛", "모듈", 또는 "시스템"이라고 부른다. 또한, 본 개시의 각 양태는 하나 이상의 컴퓨터 판독가능 매체에 컴퓨터 판독가능 프로그램 코드를 탑재한 컴퓨터 프로그램 제품의 형식을 취할 수 있다.
비일시적인 컴퓨터 가독성 신호매체는 컴퓨터 판독가능 프로그램 코드를 탑재하는 전파되는 데이터 신호를 포함할 수 있으며, 예를 들면, 기저대 또는 반송파의 일부일 수 있다. 이러한 전파신호는 전자기, 광, 등 또는 이들의 임의의 적당한 조합을 포함하는 다양한 형식을 취할 수 있다. 컴퓨터 판독가능한 신호 매체는 임의의 컴퓨터 판독가능한 매체로서 이는 컴퓨터 판독가능한 저장 매체가 아니고,이용을 위하여 프로그램을 통신, 전파, 또는 전송이 가능할 수 있거나 명령집행 시스템, 장치 또는 디바이스와 연결할 수 있다. 컴퓨터 판독가능한 신호 매체 상의 프로그램 코드는 무선, 유선, 광섬유 케이블, RF 또는 그 유사물 또는 이들의 적당한 조합을 포함한 임의의 적당한 매체를 사용하여 전송될 수 있다.
본 개시의 각 양태의 동작을 수행하기 위한 컴퓨터 프로그램 코드는자바, 스칼라, 스몰토크, 에펠, JADE, 에메랄드, C++, C#, VB.NET, 파이썬 또는 이들과 유사한 객체 지향 프로그래밍 언어, 관례적인 절차적 프로그래밍 언어, 예를 들면, "C" 프로그래밍 언어, Visual Basic, Fortran, Perl, COBOL, PHP, ABAP, 파이썬, 루비, 그루비 같은 동적 프로그래밍 언어, 또는 기타 프로그래밍 언어와 같은 언어를 포함하여 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성될 수 있다. 프로그램 코드는 전체적으로 사용자의 컴퓨터에서, 일부가 사용자의 컴퓨터에서 독립 실행형 소프트웨어 패키지로써, 일부는 사용자의 컴퓨터에서 일부는 원격 컴퓨터에서 또는 전체적으로 원격 컴퓨터나 서버에서 실행될 수 있다. 후자의 상황에서, 원격 컴퓨터는 LAN(근거리 통신망) 또는 WAN(광역 네트워크)을 포함한 임의의 유형의 네트워크를 통해 사용자의 컴퓨터에 연결되거나, 또는 외부 컴퓨터(예를 들면 인터넷 서비스 공급자를 사용하는 인터넷을 통해), 또는 클라우드 컴퓨팅 환경이나 또는 서비스로서의 소프트웨어(SaaS) 와 같은 서비스의 형식으로 연결될 수 있다.
또한, 처리 요소 또는 순서, 또는 숫자, 문자 또는 기타 명칭의 사용은 청구범위에 명시된 경우를 제외하고 주장된 프로세스 및 방법을 임의의 순서로 제한하기 위한 것이 아니다. 상기 개시는 상기 개시의 여러 다양한 유용한 실시예를 통해 현재 본 개시의 다양한 유용한 실시예로 간주되는 것이 무엇인지를 논의하지만, 이러한 상세 내용은 단지 그 설명의 목적을 위한 것으로서 첨부된 청구범위들이 개시된 실시예들에 한정되는 것이 아니라, 그 반대로, 수정과 공개된 실시예들의 요지와 범위내에 있는 수정안과 동등한 방안을 포괄하기 위한 것임을 이해하여야 한다. 예를 들면, 위에서 설명한 다양한 구성 요소의 구현이 하드웨어 장치에 구현될 수 있지만, 이 역시 소프트웨어만의 해결안으로 구현될 수 있으며, 예를 들면, 기존의 서버 또는 이동장치상의 장착을 통해 구현될 수 있다.
유사하게, 이해해야 할 것은 본 개시의 실시예에 대한 상기 설명에서, 어떤 경우, 다양한 특징들이 하나의 실시예, 도면 또는 설명에 집중되어 하나 이상의 다양한 발명들의 실시예들의 이해를 돕고 설명을 간단화한다. 그러나 이러한 개시 방법, 주장하는 주제가 각 청구항에서 명시한 특징들보더 더 많은 특징들을 요구함을 반영하는 것으로 해석되지 말아야 한다. 오히려, 독창적 발명들은 상기 개시된 단일 실시예의 전부 특징들보다 적을 특징들을 기초로 한다.
일부 실시예들에서는, 본 출원의 어떤 실시예에서 기술 및 주장하는 데 이용되는 양 및 속성의 개수를 표시하는 여러가지 숫자은 일부 예들에서는 용어 "약", "유사", 또는 "기본상" 등으로 수식하여 이해하여야 한다. 예를 들면, "약", "대체로" 또는 "실질저그로"는 ±20%의 변화가 있음을 표시할 수 있다, 별도로 성명하지 않는 한. 상응하게, 일부 실시예들에서는, 일부 실시방안에서 서면 기술과 청구범위에서 열거한 수치 계수는 유사치이며, 특정된 실시방안에서 얻으려는 성질에 따라 변화할 수 있다. 일부 실시예에서 수치 계수는 보고된 유효 숫자를 고려하고 일반적인 반올림 기술을 적용하여 해석되어야 한다. 본 출원의 일부 실시방안에서 광범위의 수치 범위와 계수는 유사치이지만, 구체적인 실시예들에 설명된 수치들은 가능한 한 정확하게 보고된다.
여기에서 참고하는 각 특허, 특허출원, 특허출원의 출판물과 기타 자료, 예를 들면 문장, 서적, 명세서, 출판물, 서류들, 등은 그 전부가 본 명세서에 참고로 결합되었으며, 본 출원의 임의의 소송제출이력, 현재 서류의 내용과 불일치하거나 충돌되는 서류 또는 본 명세서와 관련되는 현재 또는 후속의 최대 범위에 한정적인 영향을 주는 내용은 본 명세서에서 제외된다. 예를 들면, 본 개시의 첨부된 출원에서 사용된 기술, 정의 및/또는 용어 사용이 본 개시에 기재된 내용과 불일치하거나 또는 충돌되면, 본 개시에서의 기술, 정의 및/또는 용어를 기준으로 한다.
결론적으로,상술한 바와 같이 여기에서 개시된 본 출원의 실시예들은 본 출원의 실시예들의 원칙들을 예시하는 것임을 이해할 수 있다. 기타 수정은 본 출원의 범위내에서 적용될 수 있다. 따라서 예를 들어 본 출원의 실시예들의 비한정적인 대안 형태는 여기에서 주는 암시에 따라 이용될 수 있다. 그러므로 본 출원의 실시예들은 보여주고 묘사된대로 정확하게 한정된 것이 아니다.

Claims (21)

  1. 시스템으로서
    한 조의 명령어들을 포함하는 적어도 하나의 저장매체; 및
    상기 적어도 하나의 저장매체와 통신하는 적어도 하나의 프로세서를 포함하며,
    상기 한 조의 명령어들을 실행하는 경우, 상기 적어도 하나의 프로세서는 상기 시스템으로 하여금,
    골전도 센서로 획득하는 골전도 오디오 신호를 획득하는 단계;
    기전도 센서로 획득하는 기전도 오디오 신호를 획득하는 단계로서, 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 사용자의 음성을 표시하는, 상기 기전도 오디오신호를 획득하는 단계;
    특정된 골전도 오디오 신호로부터 도출하는 골전도 데이터의 집합과 특정된 등가 기전도 오디오 신호로부터 도출하는 하나 이상의 등가 기전도 데이터 집합들 사이의 매핑관계를 제공하는 훈련된 기계학습모형을 획득하는 단계;
    상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여, 상기 훈련된 기계학습모형을 이용하여, 상기 골전도 오디오에 대응되고 상기 사용자의 음성의 어의내용을 표시하는 타겟 등가 기전도 데이터 집합을 확정하는 단계; 및
    오디오 신호 출력장치로 하여금 상기 타겟 등가 기전도 데이터 집합에 근거하여, 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 출력하게 하는 단계를 포함하는 동작들을 수행하게 하는
    시스템.
  2. 제1항에 있어서,
    상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여, 상기 골전도 오디오 신호에 대응되는 타겟 등가 기전도 데이터 집합을 확정하는 단계는,
    상기 골전도 오디오 신호에 근거하여, 상기 훈련된 기계학습모형을 이용하여, 상기 골전도 오디오 신호에 대응되는 상기 하나 이상의 등가 기전도 데이터 집합들을 확정하는 단계; 및
    상기 기전도 오디오 신호에 근거하여, 상기 하나 이상의 등가 기전도 데이터 집합들로부터 상기 타겟 등가 기전도 데이터 집합을 식별하는 단계를 포함하는
    시스템.
  3. 제2항에 있어서,
    상기 골전도 오디오 신호에 근거하여, 상기 훈련된 기계학습모형을 이용하여, 상기 골전도 오디오 신호에 대응되는 상기 하나 이상의 등가 기전도 데이터 집합들을 확정하는 단계는,
    상기 골전도 오디오 신호를 상기 훈련된 기계학습모형에 입력하여 상기 골전도 오디오 신호에 대응되는 상기 하나 이상의 등가 기전도 데이터 집합들을 획득하는 단계를 포함하는
    시스템.
  4. 제3항에 있어서,
    상기 골전도 오디오 신호에 근거하여, 상기 훈련된 기계학습모형을 이용하여, 상기 골전도 오디오 신호에 대응되는 상기 하나 이상의 등가 기전도 데이터 집합들을 확정하는 단계는,
    상기 골전도 오디오 신호로부터 골전도 음향특성들을 추출하는 단계;
    상기 골전도 음향특성들에 근거하여 상기 골전도 데이터 집합을 확정하는 단계; 및
    상기 골전도 데이터 집합을 상기 훈련된 기계학습모형에 입력하여 상기 골전도 오디오 신호에 대응되는 상기 하나 이상의 등가 기전도 데이터 집합들을 획득하는 단계를 포함하는
    시스템.
  5. 제3항에 있어서,
    상기 기전도 오디오 신호에 근거하여, 상기 하나 이상의 등가 기전도 데이터 집합들로부터 상기 타겟 등가 기전도 데이터 집합을 식별하는 단계는,
    상기 기전도 오디오 신호로부터 기전도 음향특성들을 추출하는 단계;
    상기 기전도 음향특성들에 근거하여 기전도 데이터 집합을 확정하는 단계;
    상기 하나 이상의 등가 기전도 데이터 집합들 중의 각 등가 기전도 데이터 집합에 관하여, 상기 등가 기전도 데이터 집합과 상기 기전도 데이터 집합 사이의 상관도를 확정하는 단계;
    상기 하나 이상의 등가 기전도 데이터 집합들 중에서 상기 기전도 데이터 집합과 최대 상관도를 가지는 상기 하나 이상의 등가 기전도 데이터 집합 중의 하나의 등가 기전도 데이터 집합을 확정하는 단계; 및
    상기 하나 이상의 등가 기전도 데이터 집합들 중의 상기 하나의 등가 기전도 데이터 집합에 근거하여, 상기 타겟 등가 기전도 데이터 집합을 확정하는 단계를 확정하는 단계를 포함하는
    시스템.
  6. 제1항 내지 제5항에 있어서
    상기 오디오 신호 출력장치로 하여금 상기 타겟 등가 기전도 데이터 집합에 근거하여, 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 출력하도록 하는 단계는,
    상기 타겟 등가 기전도 데이터 집합을 타겟 등가 기전도 오디오 신호로 변환시키는 단계;
    상기 타겟 등가 기전도 오디오 신호에 근거하여 상기 타겟 오디오 신호를 확정하는 단계; 및
    상기 오디오 신호 출력장치로 하여금 상기 타겟 오디오 신호를 출력하게 하는 단계를 포함하는
    시스템.
  7. 제6항에 있어서,
    상기 타겟 오디오 신호는 상기 기전도 오디오 신호의 소음레벨보다 작은 소음레벨을 포함하는
    시스템.
  8. 제6항에 있어서,
    상기 타겟 등가 기전도 오디오 신호에 근거하여 상기 타겟 오디오 신호를 확정하는 단계는,
    소음들을 상기 타겟 등가 기전도 오디오 신호에 추가함으로써, 상기 타겟 오디오 신호를 생성하는 단계를 포함하는
    시스템.
  9. 제1항에 있어서,
    상기 훈련된 기계학습모형은,
    복수의 훈련 데이터 집합들을 획득하는 단계로서, 상기 복수의 훈련 데이터 집합들 중의 각 훈련 데이터 집합은 동일한 음성샘플을 표시하는 제1 오디오 신호와 제2 오디오 신호를 포함하며, 소음이 없는 조건하에서 상기 제1 오디오 신호는 골전도 오디오 획득장치로 획득하고, 상기 제2 오디오 신호는 기전도 오디오 획득장치로 획득하는, 상기 복수의 훈련 데이터 집합들을 획득하는 단계; 및
    상기 복수의 훈련 데이터 집합들을 이용하여 초보 기계학습모형을 훈련시켜 상기 훈련된 기계학습모형을 획득하는 단계를 포함하는 처리를 통해 제공되는
    시스템.
  10. 제9항에 있어서,
    상기 초보 기계학습모형은 히든마르코브모형(hidden Markov model)에 근거하여 구축되는
    시스템.
  11. 제9항 또는 제10항에 있어서,
    상기 복수의 훈련 데이터 집합들을 이용하여 초보 기계학습모형을 훈련시켜 상기 훈련된 기계학습모형을 획득하는 단계는,
    상기 제1 오디오 신호로부터 제1 음향특성들을 추출하는 단계;
    상기 제2 오디오 신호로부터 제2 음향특성들을 추출하는 단계;
    상기 제1 음향특성들에 근거하여 하나 이상의 제1 골전도 데이터 집합을 확정하는 단계;
    상기 제2 음향특성들에 근거하여 하나 이상의 제2 기전도 데이터 집합들을 확정하는 단계;
    복수의 쌍의 기전도 데이터와 골전도 데이터를 확정하는 단계로서, 각 쌍은 동일한 어의들을 표시하는 제1 골전도 데이터 집합과 제2 기전도 데이터 집합을 포함하는, 상기 복수의 쌍의 기전도 데이터와 골전도 데이터를 확정하는 단계; 및
    상기 복수의 쌍의 기전도 데이터와 골전도 데이터에 근거하여, 상기 하나 이상의 제1 골전도 데이터 집합들 중의 각 제1 골전도 데이터 집합과 상기 하나 이상의 제2 기전도 데이터 집합들 중의 적어도 하나의 제2 기전도 데이터 집합 사이의 매핑관계를 구축하는 단계를 포함하는
    시스템.
  12. 제11항에 있어서,
    상기 하나 이상의 제1 골전도 데이터 집합들과 상기 하나 이상의 제2 기전도 데이터 집합들 중의 각 집합은 하나 이상의 음소들로 구성되는 음절을 포함하는
    시스템.
  13. 제1항에 있어서,
    상기 훈련된 기계학습모형은 상기 골전도 오디오 신호 중의 각 음절과 상기 기전도 오디오 신호 중의 하나 이상의 음절들 사이의 매핑관계를 제공하는
    시스템.
  14. 제13항에 있어서,
    상기 골전도 오디오 데이터 중의 각 음절과 상기 하나 이상의 등가 기전도 데이터 집합들 중의 하나 이상의 음절들 사이의 매핑관계는 상기 골전도 오디오 데이터 중의 각 음절과 상기 하나 이상의 등가 기전도 데이터 집합들 중의 하나 이상의 음절들 중의 각 음절이 매칭되는 확률을 포함하는
    시스템.
  15. 시스템으로서,
    한 조의 명령어들을 포함하는 적어도 하나의 저장매체;
    상기 적어도 하나의 저장매체와 통신하는 적어도 하나의 프로세서를 포함하며,
    상기 한 조의 명령어들을 실행하는 경우, 상기 적어도 하나의 프로세서는 상기 시스템으로 하여금,
    골전도 센서로 획득하는 골전도 오디오 신호를 획득하는 단계;
    기전도 센서로 획득하는 기전도 오디오 신호를 획득하는 단계로서, 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 사용자의 음성을 표시하는, 상기 기전도 오디오신호를 획득하는 단계;
    훈련된 기계학습모형을 획득하는 단계;
    상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여, 상기 훈련된 기계학습모형을 이용하여, 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 생성하는 단계; 및
    오디오 신호 출력장치로 하여금 출력 상기 오디오 신호를 출력하게 하는 단계로서, 상기 타겟 오디오 신호는 상기 기전도 오디오 신호의 소음레벨보다 작은 소음레벨을 구비하는, 오디오 신호 출력장치로 하여금 출력 상기 오디오 신호를 출력하게 하는 단계를 포함하는 동작들을 수행하게 하는
    시스템.
  16. 적어도 하나의 프로세서와 적어도 하나의 저장장치를 포함하는 계산장치에서 실행되는 방법으로서,
    골전도 센서로 획득하는 골전도 오디오 신호를 획득하는 단계;
    기전도 센서로 획득하는 기전도 오디오 신호를 획득하는 단계로서, 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 사용자의 음성을 표시하는, 상기 기전도 오디오신호를 획득하는 단계;
    특정된 골전도 오디오 신호로부터 도출하는 골전도 데이터의 집합과 특정된 등가 기전도 오디오 신호로부터 도출하는 하나 이상의 등가 기전도 데이터 집합들 사이의 매핑관계를 제공하는 훈련된 기계학습모형을 획득하는 단계;
    상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여, 상기 훈련된 기계학습모형을 이용하여, 상기 골전도 오디오에 대응되고 상기 사용자의 음성의 어의내용을 표시하는 타겟 등가 기전도 데이터 집합을 확정하는 단계; 및
    오디오 신호 출력장치로 하여금 상기 타겟 등가 기전도 데이터 집합에 근거하여, 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 출력하게 하는 단계를 포함하는
    방법.
  17. 적어도 하나의 프로세서와 적어도 하나의 저장장치를 포함하는 계산장치에서 실행되는 방법으로서,
    골전도 센서로 획득하는 골전도 오디오 신호를 획득하는 단계;
    기전도 센서로 획득하는 기전도 오디오 신호를 획득하는 단계로서, 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 사용자의 음성을 표시하는, 상기 기전도 오디오신호를 획득하는 단계;
    훈련된 기계학습모형을 획득하는 단계;
    상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여, 상기 훈련된 기계학습모형을 이용하여, 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 생성하는 단계; 및
    오디오 신호 출력장치로 하여금 상기 오디오 신호를 출력하게 하는 단계로서, 상기 타겟 오디오 신호는 상기 기전도 오디오 신호의 소음레벨보다 작은 소음레벨을 구비하는, 상기 오디오 신호 출력장치로 하여금 상기 오디오 신호를 출력하게 하는 단계를 포함하는
    방법.
  18. 시스템으로서,
    골전도 센서로 획득하는 골전도 오디오 신호, 기전도 센서로 획득하는 기전도 오디오 신호, 및 특정된 골전도 오디오 신호로부터 도출하는 골전도 데이터의 집합과 특정된 등가 기전도 오디오 신호로부터 도출하는 하나 이상의 등가 기전도 데이터 집합들 사이의 매핑관계를 제공하는 훈련된 기계학습모형을 획득하도록 구성되는 획득모듈로서, 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 사용자의 음성을 표시하는, 상기 획득모듈;
    상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여, 상기 훈련된 기계학습모형을 이용하여, 상기 골전도 오디오에 대응되고 상기 사용자의 음성의 어의내용을 표시하는 타겟 등가 기전도 데이터 집합을 확정하는 확정모듈; 및
    오디오 신호 출력장치로 하여금 상기 타겟 등가 기전도 데이터 집합에 근거하여, 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 출력하게 하는 출력모듈을 포함하는
    시스템.
  19. 시스템으로서,
    골전도 센서로 획득하는 골전도 오디오 신호, 기전도 센서로 획득하는 기전도 오디오 신호, 및 훈련된 기계학습모형을 획득하도록 구성된 획득모듈로서, 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 사용자의 음성을 표시하는, 상기 획득모듈;
    상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여, 상기 훈련된 기계학습모형을 이용하여, 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 생성하도록 구성되는 확정모듈; 및
    오디오 신호 출력장치로 하여금 상기 오디오 신호를 출력하게 하는 출력모듈로서, 상기 타겟 오디오 신호는 상기 기전도 오디오 신호의 소음레벨보다 작은 소음레벨을 구비하는, 상기 출력모듈을 포함하는
    시스템.
  20. 한 조의 명령어들을 포함하는 비일시적인 컴퓨터 판독가능 매체로서,
    상기 명령어들이 적어도 하나의 프로세서에 의해 수행되는 경우, 상기 한 조의 명령어들은 상기 적어도 하나의 프로세서가
    골전도 센서로 획득하는 골전도 오디오 신호를 획득하는 단계;
    기전도 센서로 획득하는 기전도 오디오 신호를 획득하는 단계로서, 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 사용자의 음성을 표시하는, 상기 기전도 오디오신호를 획득하는 단계;
    특정된 골전도 오디오 신호로부터 도출하는 골전도 데이터의 집합과 특정된 등가 기전도 오디오 신호로부터 도출하는 하나 이상의 등가 기전도 데이터 집합들 사이의 매핑관계를 제공하는 훈련된 기계학습모형을 획득하는 단계;
    상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여, 상기 훈련된 기계학습모형을 이용하여, 상기 골전도 오디오에 대응되고 상기 사용자의 음성의 어의내용을 표시하는 타겟 등가 기전도 데이터 집합을 확정하는 단계; 및
    오디오 신호 출력장치로 하여금 상기 타겟 등가 기전도 데이터 집합에 근거하여, 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 출력하게 하는 단계를
    수행하게 하는
    비일시적인 컴퓨터 판독가능 매체.
  21. 한 조의 명령어들을 포함하는 비일시적인 컴퓨터 판독가능 매체로서,
    상기 명령어들이 적어도 하나의 프로세서에 의해 수행되는 경우, 상기 한 조의 명령어들은 상기 적어도 하나의 프로세서가
    골전도 센서로 획득하는 골전도 오디오 신호를 획득하는 단계;
    기전도 센서로 획득하는 기전도 오디오 신호를 획득하는 단계로서, 상기 골전도 오디오 신호와 상기 기전도 오디오 신호는 사용자의 음성을 표시하는, 상기 기전도 오디오신호를 획득하는 단계;
    훈련된 기계학습모형을 획득하는 단계;
    상기 골전도 오디오 신호와 상기 기전도 오디오 신호에 근거하여, 상기 훈련된 기계학습모형을 이용하여, 상기 사용자의 음성을 표시하는 타겟 오디오 신호를 생성하는 단계; 및
    오디오 신호 출력장치로 하여금 상기 오디오 신호를 출력하게 하는 단계로서, 상기 타겟 오디오 신호는 상기 기전도 오디오 신호의 소음레벨보다 작은 소음레벨을 구비하는, 상기 오디오 신호 출력장치로 하여금 상기 오디오 신호를 출력하게 하는 단계를
    수행하게 하는
    비일시적인 컴퓨터 판독가능 매체.
KR1020237025917A 2021-05-14 2021-05-14 오디오 신호를 생성하기 위한 시스템과 방법들 KR20230125304A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/093790 WO2022236803A1 (en) 2021-05-14 2021-05-14 Systems and methods for audio signal generation

Publications (1)

Publication Number Publication Date
KR20230125304A true KR20230125304A (ko) 2023-08-29

Family

ID=84028773

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237025917A KR20230125304A (ko) 2021-05-14 2021-05-14 오디오 신호를 생성하기 위한 시스템과 방법들

Country Status (7)

Country Link
US (1) US20230317092A1 (ko)
EP (1) EP4241459A4 (ko)
JP (1) JP2024504435A (ko)
KR (1) KR20230125304A (ko)
CN (1) CN116964669A (ko)
TW (1) TW202244898A (ko)
WO (1) WO2022236803A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240005937A1 (en) * 2022-06-29 2024-01-04 Analog Devices International Unlimited Company Audio signal processing method and system for enhancing a bone-conducted audio signal using a machine learning model

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109982179B (zh) * 2019-04-19 2023-08-11 努比亚技术有限公司 音频信号输出方法、装置、可穿戴设备及存储介质
EP3737115A1 (en) * 2019-05-06 2020-11-11 GN Hearing A/S A hearing apparatus with bone conduction sensor
EP4005226A4 (en) * 2019-09-12 2022-08-17 Shenzhen Shokz Co., Ltd. SYSTEMS AND METHODS FOR AUDIO SIGNAL GENERATION

Also Published As

Publication number Publication date
US20230317092A1 (en) 2023-10-05
WO2022236803A1 (en) 2022-11-17
EP4241459A1 (en) 2023-09-13
JP2024504435A (ja) 2024-01-31
TW202244898A (zh) 2022-11-16
CN116964669A (zh) 2023-10-27
EP4241459A4 (en) 2024-01-03

Similar Documents

Publication Publication Date Title
US11854527B2 (en) Electronic device and method of controlling speech recognition by electronic device
US11475881B2 (en) Deep multi-channel acoustic modeling
Ling et al. Modeling spectral envelopes using restricted Boltzmann machines for statistical parametric speech synthesis
US11705105B2 (en) Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same
Fazel et al. Synthasr: Unlocking synthetic data for speech recognition
US8996373B2 (en) State detection device and state detecting method
WO2020233504A1 (en) Systems and methods for emotion recognition
JP2022547525A (ja) 音声信号を生成するためのシステム及び方法
KR102281504B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법
JP2021026130A (ja) 情報処理装置、情報処理方法、認識モデルならびにプログラム
US20230317092A1 (en) Systems and methods for audio signal generation
EP4198967A1 (en) Electronic device and control method thereof
CN116884430A (zh) 一种虚拟音色转换方法、装置、系统及存储介质
CN116884386A (zh) 语音合成方法、语音合成装置、设备和存储介质
CN114708876B (zh) 音频处理方法、装置、电子设备及存储介质
Seurin et al. A Machine of Few Words--Interactive Speaker Recognition with Reinforcement Learning
CN114822565A (zh) 音频信号生成方法及系统、非暂时性计算机可读介质
Hasan et al. Effect of vocal tract dynamics on neural network‐based speech recognition: A Bengali language‐based study
CN111755015B (zh) 一种用户画像构建方法及装置
JP7276433B2 (ja) フィッティング支援装置、フィッティング支援方法、及びプログラム
KR20190094310A (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
CN116457872A (zh) 电子设备及其控制方法
Selouani et al. Incorporating phonetic knowledge into an evolutionary subspace approach for robust speech recognition
KR20220064871A (ko) 전자 장치 및 그의 제어 방법
Alonso et al. Speaker adaptation using only vocalic segments via frequency warping.

Legal Events

Date Code Title Description
A201 Request for examination