KR20200085148A - 뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하는 장치 및 방법 - Google Patents

뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하는 장치 및 방법 Download PDF

Info

Publication number
KR20200085148A
KR20200085148A KR1020190001317A KR20190001317A KR20200085148A KR 20200085148 A KR20200085148 A KR 20200085148A KR 1020190001317 A KR1020190001317 A KR 1020190001317A KR 20190001317 A KR20190001317 A KR 20190001317A KR 20200085148 A KR20200085148 A KR 20200085148A
Authority
KR
South Korea
Prior art keywords
digital signal
neural network
input
network model
reference digital
Prior art date
Application number
KR1020190001317A
Other languages
English (en)
Other versions
KR102645659B1 (ko
Inventor
윌리아드 조슈아 데세나 호세
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020190001317A priority Critical patent/KR102645659B1/ko
Priority to EP20736167.6A priority patent/EP3843092A4/en
Priority to PCT/KR2020/000044 priority patent/WO2020141898A1/ko
Priority to US17/278,874 priority patent/US11508394B2/en
Publication of KR20200085148A publication Critical patent/KR20200085148A/ko
Application granted granted Critical
Publication of KR102645659B1 publication Critical patent/KR102645659B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

무선 통신을 수행하는 장치 및 방법이 개시된다. 본 개시의 예시적 실시예에 따른 장치는, 트랜시버 및 트랜시버에 연결된 제어기를 포함할 수 있고, 제어기는 디지털 신호에 기초하여 적어도 하나의 부가 샘플을 뉴럴 네트워크 모델을 이용하여 식별하고, 디지털 신호의 복수의 샘플들에 식별된 적어도 하나의 부가 샘플을 부가하여 디지털 신호를 업스케일링(upscailing)하도록 구성될 수 있다.

Description

뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하는 장치 및 방법{APPARATUS AND METHOD FOR PERFORMING WIRELESS COMMUNICATION BASED ON NEURAL NETWORK MODEL}
본 개시의 기술적 사상은 장치 및 이의 동작방법에 관한 것으로서, 상세하게는 뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하는 장치 및 이의 동작방법에 관한 것이다.
뉴럴 네트워크(neural network)는 생물학적 뇌를 모델링한 컴퓨터 아키텍쳐(computational architecture)를 지칭한다. 최근 뉴럴 네트워크 기술이 발전함에 따라, 다양한 종류의 전자 시스템에서 뉴럴 네트워크 장치를 사용하여 입력 데이터를 분석하고 유용한 정보를 추출하는 연구가 활발히 진행되고 있다.
무선 통신에서, 신호의 품질은 신호를 전달하는 네트워크의 상태에 따라 결정될 수 있다. 특히, 협대역 네트워크에서의 무선 통신은 신호 프레임의 손실 등으로 인한 신호의 열화(degradation)를 자주 겪을 수 있다. 무선 통신 네트워크의 상태와 상관없이 원활한 통신을 수행하기 위하여 신호의 수신 측에서 열화된 신호를 원 신호로 회복할 수 있는 기술이 요구된다.
본 개시의 기술적 사상은 뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하기 위한 장치 및 방법에 관한 것으로서, 디지털 신호를 업스케일링(upscailing)하기 위한 장치 및 방법을 제공한다.
상기와 같은 목적을 달성하기 위하여, 본 개시의 기술적 사상의 일 측면에 따른 무선 통신을 위한 장치는, 트랜시버; 상기 트랜시버에 연결된 제어기로서, 디지털 신호에 기초하여 적어도 하나의 부가 샘플을 뉴럴 네트워크 모델을 이용하여 식별하고, 상기 디지털 신호의 복수의 샘플들에 상기 식별된 적어도 하나의 부가 샘플을 부가하여 상기 디지털 신호를 업스케일링(upscailing)하도록 구성되는 제어기를 포함한다.
한편, 본 개시의 기술적 사상의 다른 일 측면에 따른 무선 통신을 위한 방법은, 디지털 신호에 기초하여 적어도 하나의 부가 샘플을 뉴럴 네트워크 모델을 이용하여 식별하는 단계; 상기 디지털 신호의 복수의 샘플들에 상기 식별된 적어도 하나의 부가 샘플을 부가하여 상기 디지털 신호를 업스케일링(upscailing)하는 단계를 포함한다.
한편, 본 개시의 기술적 사상의 또 다른 일 측면에 따라 제어기의 동작 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체가 제공된다.
본 개시에 따르면, 뉴럴 네트워크 모델에 기반하여 디지털 신호를 업스케일링할 수 있는 장치 및 방법을 제공할 수 있다. 또한, 기준 디지털 신호에 기반하여 뉴럴 네트워크 모델을 생성함으로써, 더욱 개선된 신호 품질을 갖는 디지털 신호를 획득할 수 있는 장치 및 방법을 제공할 수 있다.
도 1은 본 개시의 예시적 실시 예에 따른 무선 통신 시스템을 나타낸다.
도 2는 본 개시의 예시적 실시 예에 따른 장치의 동작에 대한 순서도를 도시한다.
도 3은 본 개시의 예시적 실시 예에 따른 장치가 디지털 신호를 업스케일링하는 실시예를 나타낸다.
도 4는 본 개시의 예시적 실시 예에 따른 장치의 동작에 대한 순서도를 도시한다.
도 5는 본 개시의 예시적 실시 예에 따른 뉴럴 네트워크 모델 생성의 일 예를 설명하는 도면이다.
도 6은 본 개시의 예시적 실시 예에 따른 장치가 뉴럴 네트워크 모델을 생성하는 실시예를 나타낸다.
도 7은 본 개시의 예시적 실시 예에 따른 뉴럴 네트워크 모델 생성의 일 예를 설명하는 도면이다.
도 8은 본 개시의 예시적 실시 예에 따른 장치가 뉴럴 네트워크 모델을 생성하는 실시예를 나타낸다.
도 9는 본 개시의 예시적 실시 예에 따른 장치의 블록도를 도시한다.
도 10은 본 개시의 예시적 실시 예에 따른 네트워크 시뮬레이션의 일 예를 설명하는 도면이다.
도 11은 본 개시의 예시적 실시 예에 따른 뉴럴 네트워크 모델의 일 예를 설명하는 도면이다.
도 12는 본 개시의 예시적 실시 예에 따른 뉴럴 네트워크 모델에 기반하여 디지털 신호를 업스케일링하는 실시예를 나타낸다.
도 13은 본 개시의 예시적 실시 예에 따른 장치의 구성을 나타내는 블록도이다.
도 14는 본 개시의 예시적 실시 예에 따른 무선 통신 시스템을 나타낸다.
이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대해 상세히 설명한다.
도 1은 본 개시의 예시적 실시 예에 따른 무선 통신 시스템을 나타낸다.
도 1을 참조하면, 무선 통신 시스템은 송신 측 단말(1), 기지국(5) 및 수신 측 단말(10)을 포함할 수 있다.
기지국(5)은 하나 이상의 기지국 안테나를 통해 단말(1, 10)과 무선으로 통신할 수 있다. 기지국(5)이 지원하는 무선 통신 네트워크는 가용 네트워크 자원들을 공유함으로써 다수의 사용자들이 통신하는 것을 지원할 수 있다. 예를 들면, 무선 통신 네트워크에서 GSM (Global System for Mobile communication), CDMA(Code Division MultipleAccess), FDMA(Frequency Division MultipleAccess), TDMA(Time Division MultipleAccess), OFDMA(Orthogonal Frequency Division MultipleAccess), SC-FDMA(Single Carrier-Frequency Division MultipleAccess) 등과 같은 다양한 방식으로 정보가 전달될 수 있다.
기지국(5)이 지원하는 무선 통신 네트워크는 음성 신호를 전달할 수 있다. 예를 들면, 무선 통신 네트워크에서 GSM (Global System for Mobile communication), VoLTE(Voice over Long Term Evolution) 등과 같은 다양한 방식으로 음성 신호가 전달될 수 있다. GSM (Global System for Mobile communication) 방식에서 대역폭은 4kHz 로 제한될 수 있다.
단말(1, 10)들 사이에 주고받는 음성 신호는 AMR(Adaptive Multi-Rate)오디오 코덱을 이용하여 압축될 수 있고, 부호화(encoding) 또는 복호화(decoding)될 수 있다.
본 도면에서는 하나의 기지국(5)이 도시되나, 이는 설명의 편의를 위한 것일 뿐 무선 통신 시스템은 다양한 수의 기지국들(예를 들어, 매크로(macro), 마이크로(micro) 및/또는 피코(pico) 기지국)을 포함할 수 있다.
기지국(5)은 소정의 지리적 영역에 대한 통신 커버리지(communication coverage)를 제공할 수 있다. 일부 예에서, 기지국(5)은 기저대역 트랜시버 스테이션(Base Transceiver Station, BTS), 무선 기지국(radio base station), AP(Access Point), 무선 트랜시버(radio transceiver), NodeB, eNodeB(eNB) 또는 다른 적절한 용어로 명명될 수 있다.
단말(1, 10)은 무선 통신 기기로서, 고정되거나 이동성을 가질 수 있고, 기지국(5)과 통신하여 데이터 및/또는 제어정보를 송수신할 수 있는 다양한 기기들을 지칭할 수 있다. 예를 들어, 단말(1, 10)은 단말기기(terminal equipment), MS(Mobile Station), MT(Mobile Terminal), UT(User Terminal), SS(Subscribe Station), 무선 장치(Wireless device), 휴대 장치(handheld device) 등으로 지칭될 수 있다.
송신 측 단말(1)은 아날로그 형태의 음성 신호를 수신하여 디지털 신호로 변환할 수 있다. 송신 측 단말(1)은 디지털 신호로 변환된 음성 신호를 기지국(5)을 통해 수신 측 단말(10)로 전달할 수 있다. 수신 측 단말(10)은 디지털 형태의 음성 신호를 수신하여 아날로그 신호로 변환할 수 있다. 수신 측 단말(10)은 아날로그 신호로 변환된 음성 신호를 수신 측 단말(10)에 내장된 스피커를 통해 출력할 수 있다.
예시적 실시 예에 있어서, 단말(1, 10)은 PCM(Pulse Code Modulation) 방식을 통해 아날로그 신호를 디지털 신호로 변조하고, 디지털 신호를 아날로그 신호로 변조할 수 있다.
도 2는 본 개시의 예시적 실시 예에 따른 장치의 동작에 대한 순서도를 도시한다.
도 2를 참조하면, 장치(10)는 적어도 하나의 부가 샘플을 식별할 수 있다(S300). 예시적 실시예에 있어서, 장치(10)는 입력된 디지털 신호에 기초하여 적어도 하나의 부가 샘플을 식별할 수 있다. 다른 예시적 실시예에 있어서, 장치(10)는 입력된 디지털 신호에 기초하여 적어도 하나의 부가 샘플을 뉴럴 네트워크 모델을 이용하여 식별할 수 있다. 예를 들어, 적어도 하나의 부가 샘플은 입력된 디지털 신호의 복수의 샘플들에 대응하지 않는 샘플일 수 있다.
다음, 장치(10)는 디지털 신호를 업스케일링(upscailing)할 수 있다(S400). 예시적 실시예에 있어서, 장치(10)는 입력된 디지털 신호의 복수의 샘플들에 식별된 적어도 하나의 부가 샘플을 부가함으로써, 디지털 신호를 업스케일링할 수 있다. 예를 들어, 업스케일링된 디지털 신호는 입력된 디지털 신호보다 높은 샘플링 레이트를 가질 수 있다.
도 3은 본 개시의 예시적 실시 예에 따른 장치가 디지털 신호를 업스케일링하는 실시예를 나타낸다.
도 3을 참조하면, 장치(10)는 입력 음성 신호(I_DIG)를 업스케일링하여 출력 음성 신호(O_DIG)를 출력할 수 있다. 예를 들어, 입력 음성 신호와 출력 음성 신호는 디지털 신호이다.
예시적 실시예에 있어서, 장치(10)는 부호화된 입력 음성 신호(I_DIG)를 수신하여 복호화할 수 있다. 예를 들어, 부호화 및 복호화는 AMR 방식에 기반할 수 있다. 다른 예시적 실시예에 있어서, 복호화된 입력 음성 신호(I_DIG)는 8kHz 의 샘플링 레이트를 갖고, 13bit 의 양자화 레벨을 가지며, 20ms 의 길이를 갖는 프레임으로 분할될 수 있다.
또 다른 예시적 실시예에 있어서, 출력 음성 신호(O_DIG)는 입력 음성 신호(I_DIG)보다 높은 샘플링 레이트를 가질 수 있다. 예를 들어, 출력 음성 신호(O_DIG)는 n배로 업샘플링(upsampling)될 수 있고, 8kHz 의 입력 음성 신호(I_DIG)에 응답하여 32kHz 의 샘플링 레이트를 가질 수 있다. 또 다른 예시적 실시예에 있어서, 출력 음성 신호(O_DIG)는 입력 음성 신호(I_DIG)와 동일한 길이의 프레임을 가질 수 있고, 출력 음성 신호(O_DIG)는 입력 음성 신호(I_DIG)보다 높은 양자화 레벨을 가질 수 있다.
도 4는 본 개시의 예시적 실시 예에 따른 장치의 동작에 대한 순서도를 도시한다. 도 4에 도시된 구성 중, 도 2와 중복되는 구성에 대한 설명은 생략하기로 한다.
도 4를 참조하면, 장치(10)는 뉴럴 네트워크 모델을 생성할 수 있다(S100). 예시적 실시예에 있어서, 장치(10)는 디지털 신호를 뉴럴 네트워크 모델로 입력하고, 뉴럴 네트워크 모델로부터 출력된 디지털 신호에 관련된 정보를 뉴럴 네트워크 모델로 피드백함으로써 뉴럴 네트워크 모델을 학습시킬 수 있다.
다른 예시적 실시예에 있어서, 장치(10)는 전-처리(pre-processing)된 기준 디지털 신호를 뉴럴 네트워크 모델로 입력하고, 뉴럴 네트워크 모델로부터 출력된 디지털 신호와 전-처리되지 않은 기준 디지털 신호 간 차이를 뉴럴 네트워크 모델로 피드백함으로써, 뉴럴 네트워크 모델을 학습시킬 수 있다.
또 다른 예시적 실시예에 있어서, 장치(10)는 이미 학습을 통해 생성된 뉴럴 네트워크 모델을 포함할 수 있다. 예를 들어, 뉴럴 네트워크 모델은 장치(10)에 내장된 메모리에 저장될 수 있다. 필요한 경우, 장치(10)는 메모리로부터 저장된 뉴럴 네트워크 모델을 읽을 수 있다.
다음, 장치(10)는 입력된 디지털 신호에 기초하여 가중치를 결정할 수 있다(S200). 예시적 실시예에 있어서, 장치(10)는 뉴럴 네트워크 모델을 이용하여 가중치를 결정할 수 있다. 예를 들어, 뉴럴 네트워크 모델은 전-처리된 기준 디지털 신호에 응답하여 뉴럴 네트워크 모델로부터 출력된 디지털 신호가 전-처리되지 않은 기준 디지털 신호에 유사해지도록 가중치를 수정할 수 있다.
다음, 장치(10)는 적어도 하나의 부가 샘플을 식별할 수 있다(S300). 예시적 실시예에 있어서, 장치(10)는 입력된 디지털 신호 및 결정된 가중치에 기초하여 적어도 하나의 부가 샘플을 식별할 수 있다. 예를 들어, 적어도 하나의 부가 샘플은 입력된 디지털 신호의 복수의 샘플들에 대응하지 않는 샘플일 수 있다.
도 5는 본 개시의 예시적 실시 예에 따른 뉴럴 네트워크 모델 생성의 일 예를 설명하는 도면이다.
도 5를 참조하면, 장치(10)는 제1 입력 디지털 신호를 획득할 수 있다(S110). 예시적 실시예에 있어서, 장치(10)는 뉴럴 네트워크 모델을 이용하여 제1 입력 디지털 신호를 업스케일링할 수 있다.
다른 예시적 실시예에 있어서, 장치(10)는 제1 입력 디지털 신호를 뉴럴 네트워크 모델로 입력하고, 제1 입력 디지털 신호에 기반하여 뉴럴 네트워크 모델로부터 식별된 적어도 하나의 부가 샘플을 제1 입력 디지털 신호에 부가함으로써 제1 입력 디지털 신호를 업스케일링할 수 있다. 예를 들어, 뉴럴 네트워크 모델은 제1 입력 디지털 신호 및 소정의 가중치에 기초하여 적어도 하나의 부가 샘플을 식별할 수 있다.
다음, 장치(10)는 제1 입력 디지털 신호로부터 업스케일링된 제1 출력 디지털 신호와 기준 디지털 신호의 차이가 존재하는 지의 여부를 판단할 수 있다(S120). 예시적 실시예에 있어서, 차이는 기준 디지털 신호의 복수의 샘플들 중 제1 출력 디지털 신호의 복수의 샘플들에 대응하지 않는 적어도 하나의 샘플과 관련될 수 있다.
차이가 존재하는 경우, 장치(10)는 차이를 도출할 수 있다(S130). 예시적 실시예에 있어서, 장치(10)는 도출된 차이 및 제2 입력 디지털 신호를 뉴럴 네트워크 모델로 입력하고, 뉴럴 네트워크 모델로부터 식별된 적어도 하나의 부가 샘플을 제2 입력 디지털 신호에 부가함으로써 제2 입력 디지털 신호를 업스케일링할 수 있다. 예를 들어, 뉴럴 네트워크 모델은 도출된 차이, 제2 입력 디지털 신호 및 소정의 가중치에 기초하여 적어도 하나의 부가 샘플을 식별할 수 있다. 다른 예시적 실시예에 있어서, 뉴럴 네트워크 모델은 도출된 차이의 입력에 기초하여, 기준 디지털 신호와 제2 출력 디지털 신호의 차이가 발생하지 않도록 가중치를 수정할 수 있다.
차이가 존재하지 않는 경우, 장치(10)는 제1 입력 디지털 신호로부터 업스케일링된 제1 출력 디지털 신호를 출력 디지털 신호로서 획득할 수 있다(S140). 예시적 실시예에 있어서, 장치(10)는 차이가 존재하지 않는 경우에 뉴럴 네트워크 모델에서 적용된 가중치를 획득할 수 있다. 예를 들어, 장치(10)는 획득한 가중치를 뉴럴 네트워크 모델에 의한 다음 입력 디지털 신호의 업스케일링 시 적용하도록 뉴럴 네트워크 모델에 제공할 수 있다.
도 6은 본 개시의 예시적 실시 예에 따른 장치가 뉴럴 네트워크 모델을 생성하는 실시예를 나타낸다.
도 6을 참조하면, 장치(10)는 입력 디지털 신호(I_SIG)를 업스케일링하는 프로세서(11)를 포함할 수 있다. 예시적 실시예에 있어서, 프로세서(11)는 뉴럴 네트워크 모델을 포함할 수 있다.
프로세서(11)는 입력 디지털 신호(I_SIG)를 업스케일링하여 출력 디지털 신호(O_SIG)를 생성할 수 있다. 예시적 실시예에 있어서, 프로세서(11)는 뉴럴 네트워크 모델로 입력 디지털 신호(I_SIG)를 입력하고, 뉴럴 네트워크 모델로부터 출력 디지털 신호(O_SIG)를 획득할 수 있다. 예를 들어, 뉴럴 네트워크 모델은 입력 디지털 신호(I_SIG) 및 소정의 가중치에 기초하여 출력 디지털 신호(O_SIG)를 결정할 수 있다.
장치(10)는 출력 디지털 신호(O_SIG)와 기준 디지털 신호(S_SIG)의 차이를 획득하는 연산기(12)를 포함할 수 있다. 예를 들어, 기준 디지털 신호(S_SIG)는 복수의 기준 디지털 신호를 포함하는 기준 디지털 신호 세트 중 하나일 수 있으며, 기준 디지털 신호 세트는 다양한 언어의 음성 신호 및 다양한 사용자 표본의 음성 신호를 포함할 수 있다.
연산기(12)는 하나의 기준 디지털 신호(S_SIG)의 복수의 샘플들 중 출력 디지털 신호(O_SIG)의 복수의 샘플들에 대응하지 않는 적어도 하나의 샘플을 차이로서 도출할 수 있다. 연산기(12)는 도출한 차이를 프로세서(11)로 피드백할 수 있다.
예시적 실시예에 있어서, 프로세서(11)는 연산기(12)로부터 입력받은 차이에 기초하여, 기준 디지털 신호(S_SIG) 및 출력 디지털 신호(O_SIG) 간의 차이가 발생하지 않도록 뉴럴 네트워크 모델에서의 업스케일링 시 적용되는 가중치를 수정할 수 있다.
다른 예시적 실시예에 있어서, 프로세서(11)는 뉴럴 네트워크 모델로 연산기(12)로부터 입력받은 차이 및 입력 디지털 신호(I_SIG)를 입력하고, 뉴럴 네트워크 모델로부터 출력 디지털 신호(O_SIG)를 획득할 수 있다. 뉴럴 네트워크 모델은 입력 디지털 신호(I_SIG), 소정의 가중치 및 연산기(12)로부터 입력받은 차이에 기초하여 출력 디지털 신호(O_SIG)를 결정할 수 있다.
도 7은 본 개시의 예시적 실시 예에 따른 뉴럴 네트워크 모델 생성의 일 예를 설명하는 도면이다. 도 7에 도시된 구성 중, 도 5와 중복되는 구성에 대한 설명은 생략하기로 한다.
도 7을 참조하면, 장치(10)는 기준 디지털 신호를 전-처리(pre-processing)할 수 있다(S105). 예시적 실시예에 있어서, 기준 디지털 신호를 전-처리하는 과정은, 기준 디지털 신호를 부호화(encoding)하고, 부호화된 기준 디지털 신호에 노이즈를 부가하고, 노이즈가 부가된 부호화된 기준 디지털 신호를 복호화(decoding)하는 과정일 수 있다. 기준 디지털 신호를 전-처리하기 위한 부호화, 노이즈 부가 및 복호화의 순서는 달라질 수 있다.
다른 예시적 실시예에 있어서, 기준 디지털 신호를 전-처리하는 과정은 무선 통신 네트워크를 통한 신호 전달을 시뮬레이션하는 과정에 대응할 수 있다.
다음, 장치(10)는 전-처리된 기준 디지털 신호를 제1 입력 디지털 신호로서 획득할 수 있다(S110).
다음, 장치(10)는 제1 입력 디지털 신호로부터 업스케일링된 제1 출력 디지털 신호와 전-처리되지 않은 기준 디지털 신호의 차이가 존재하는 지의 여부를 판단할 수 있다(S120). 예시적 실시예에 있어서, 차이는 전-처리되지 않은 기준 디지털 신호의 복수의 샘플들 중 제1 출력 디지털 신호의 복수의 샘플들에 대응하지 않는 적어도 하나의 샘플과 관련될 수 있다.
차이가 존재하는 경우, 장치(10)는 차이를 도출할 수 있다(S130). 예시적 실시예에 있어서, 장치(10)는 기준 디지털 신호를 전-처리한 제2 입력 디지털 신호 및 도출된 차이를 뉴럴 네트워크 모델로 입력하고, 뉴럴 네트워크 모델로부터 식별된 적어도 하나의 부가 샘플을 제2 입력 디지털 신호에 부가함으로써 제2 입력 디지털 신호를 업스케일링할 수 있다. 예를 들어, 뉴럴 네트워크 모델은 도출된 차이, 기준 디지털 신호를 전-처리한 제2 입력 디지털 신호 및 소정의 가중치에 기초하여 적어도 하나의 부가 샘플을 식별할 수 있다. 다른 예시적 실시예에 있어서, 뉴럴 네트워크 모델은 도출된 차이의 입력에 기초하여, 기준 디지털 신호와 기준 디지털 신호를 전-처리한 제2 입력 디지털 신호의 차이가 발생하지 않도록 가중치를 수정할 수 있다.
도 8은 본 개시의 예시적 실시 예에 따른 장치가 뉴럴 네트워크 모델을 생성하는 실시예를 나타낸다. 도 8에 도시된 구성 중, 도 6과 중복되는 구성에 대한 설명은 생략하기로 한다.
도 8을 참조하면, 장치(10)는 신호의 네트워크에서의 전달을 시뮬레이션하는 시뮬레이션 모듈(13)을 더 포함할 수 있다. 예시적 실시예에 있어서, 시뮬레이션 모듈(13)은 부호화기(13c), 노이즈 발생기(13b) 및 복호화기(13a)를 포함할 수 있다.
시뮬레이션 모듈(13)은 입력받은 기준 디지털 신호(S_SIG)를 전-처리(pre-processing)하여 입력 디지털 신호(I_SIG)를 생성할 수 있다. 예시적 실시예에 있어서, 부호화기(13c)는 기준 디지털 신호(S_SIG)를 부호화(encoding)하고, 노이즈 발생기(13b)는 부호화된 기준 디지털 신호에 노이즈를 부가하고, 복호화기(13a)는 노이즈가 부가된 부호화된 기준 디지털 신호를 복호화(decoding)할 수 있다. 예를 들어, 기준 디지털 신호(S_SIG)에 대한 부호화기(13c), 노이즈 발생기(13b) 및 복호화기(13a)의 동작 순서는 달라질 수 있다.
프로세서(11)는 기준 디지털 신호가 전-처리된 입력 디지털 신호(I_SIG)를 업스케일링하여 출력 디지털 신호(O_SIG)를 생성할 수 있다.
연산기(12)는 전-처리되지 않은 기준 디지털 신호(S_SIG)의 복수의 샘플들 중 출력 디지털 신호(O_SIG)의 복수의 샘플들에 대응하지 않는 적어도 하나의 샘플을 차이로서 도출할 수 있다. 연산기(12)는 도출한 차이를 프로세서(11)로 피드백할 수 있다.
예시적 실시예에 있어서, 프로세서(11)는 연산기(12)로부터 입력받은 차이에 기초하여, 전-처리되지 않은 기준 디지털 신호(S_SIG) 및 출력 디지털 신호(O_SIG) 간의 차이가 발생하지 않도록 뉴럴 네트워크 모델에서의 업스케일링 시 적용되는 가중치를 수정할 수 있다.
다른 예시적 실시예에 있어서, 프로세서(11)는 뉴럴 네트워크 모델로 연산기(12)로부터 입력받은 차이 및 기준 디지털 신호(S_SIG)가 전-처리된 입력 디지털 신호(I_SIG)를 입력하고, 뉴럴 네트워크 모델로부터 출력 디지털 신호(O_SIG)를 획득할 수 있다. 뉴럴 네트워크 모델은 기준 디지털 신호(S_SIG)가 전-처리된 입력 디지털 신호(I_SIG), 소정의 가중치 및 연산기(12)로부터 입력받은 차이에 기초하여 출력 디지털 신호(O_SIG)를 결정할 수 있다.
도 9는 본 개시의 예시적 실시 예에 따른 장치의 블록도를 도시한다.
도 9를 참조하면, 장치(10)는 제어기(20) 및 트랜시버(30)를 포함할 수 있다. 또한, 도시되지는 않았으나, 장치(10)는 메모리 등 다양한 구성요소들을 추가적으로 포함할 수도 있다.
예시적 실시예에 있어서, 메모리는 프로그램(또는 소프트웨어)으로서, 커널, 미들웨어, API(Application Programming Interface) 및 어플리케이션을 저장할 수 있다. 커널, 미들웨어, API 의 적어도 일부는, 운영 시스템으로 지칭될 수도 있다. 커널은 예를 들면, 프로그램에 구현된 동작 또는 기능을 실행하는데 사용되는 시스템 리소스들(예를 들어, 제어기 또는 메모리)을 제어 또는 관리할 수 있다. 미들웨어는, 예를 들어 API 또는 어플리케이션이 커널과 통신하여 데이터를 주고 받을 수 있도록 중개 역할을 수행할 수 있다. 어플리케이션은, 예를 들어 트랜시버(30)를 통해 획득한 신호에 대한 다양한 업스케일링(upscailing)효과를 수행하도록 구현될 수 있다.
트랜시버(30)는 안테나 등 통신모듈을 포함할 수 있다. 예시적 실시예에 있어서, 트랜시버(30)는 무선 통신 네트워크를 통해 전달된 디지털 신호를 수신할 수 있다. 예를 들어, 트랜시버(30)는 시간 영역에서 취한 디지털 신호를 제어기(20)로 전달할 수 있다.
제어기(20)는 하나 이상의 프로세서를 포함할 수 있다. 예시적 실시예에 있어서, 제어기(20)는 트랜시버(30)가 디지털 신호를 수신하도록 제어할 수 있다. 다른 예시적 실시예에 있어서, 제어기(20)는 시간 대역의 디지털 신호를 트랜시버(30)로부터 수신하고, 시간대역의 디지털 신호를 변조하여, 시간 대역의 아날로그 신호를 출력할 수 있다.
다른 예시적 실시예에 있어서, 제어기(20)는 하나의 프로세서로서, 프로세서(11), 연산기(12) 및 시뮬레이션 모듈(13) 이 수행하는 동작 등 장치(10)가 수행하는 제어 동작을 모두 수행할 수 있다.
또한, 도시되지는 않았으나, 제어기(20)는 프로세서(11), 연산기(12) 및 시뮬레이션 모듈(13)을 포함할 수 있다. 프로세서(11)는 예를 들면, 입력 디지털 신호(I_SIG)를 업스케일링하여 출력 디지털 신호(O_SIG)를 생성할 수 있다. 연산기(12)는 예를 들면, 하나의 기준 디지털 신호(S_SIG)와 출력 디지털 신호(O_SIG)를 비교하여 차이를 도출할 수 있다. 시뮬레이션 모듈(13)은 예를 들면, 기준 디지털 신호를 전-처리(pre-processing)할 수 있다.
또한, 프로세서(11)는 예를 들면, 뉴럴 네트워크 모델로 입력 디지털 신호(I_SIG)를 입력하고, 뉴럴 네트워크 모델로부터 출력 디지털 신호(O_SIG)를 획득할 수 있다. 예를 들어, 뉴럴 네트워크 모델은 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU) 및 뉴럴 처리 장치(NPU) 중 하나 이상의 연산 장치를 통해 구동될 수 있다.
도 10은 본 개시의 예시적 실시 예에 따른 네트워크 시뮬레이션의 일 예를 설명하는 도면이다.
도 10을 참조하면, 하나 이상의 기준 디지털 신호(Ground Truth audio)를 포함하는 데이터셋(dataset) 중 하나의 기준 디지털 신호는 인코더(14) 및 디코더(15)를 통과한 후, 입력 디지털 신호로서 뉴럴 네트워크 모델로 입력될 수 있다. 예시적 실시예에 있어서, 기준 디지털 신호는 32kHz 의 샘플링 레이트를 가질 수 있다. 다른 예시적 실시예에 있어서, 기준 디지털 신호는 20ms 의 길이를 갖는 프레임으로 분할될 수 있다.
기준 디지털 신호는 인코더(14)로 입력되어 인코딩(encoding)될 수 있다. 인코딩된 기준 디지털 신호는 디코더(15)로 입력되어 디코딩(decoding)될 수 있다. 예시적 실시예에 있어서, 기준 디지털 신호를 인코딩하고 디코딩하는 과정은 무선 통신 네트워크를 통한 신호 전달을 시뮬레이션하는 과정에 대응할 수 있다. 다른 예시적 실시예에 있어서, 기준 디지털 신호는 소정의 시간 길이를 갖는 프레임 별로 인코딩 및 디코딩될 수 있다. 예를 들어, 프레임의 시간 길이는 20ms 일 수 있다. 또 다른 예시적 실시예에 있어서, 인코더(14) 및 디코더(15)는 AMR(Adqptive Multi-Rate)방식을 이용할 수 있다.
인코더(14) 및 디코더(15)를 통과한 기준 디지털 신호는 입력 디지털 신호로서 뉴럴 네트워크에 입력될 수 있다. 예시적 실시예에 있어서, 입력 디지털 신호는 기준 디지털 신호보다 다운스케일링(downscailing)될 수 있다. 예를 들어, 입력 디지털 신호는 8kHz 의 샘플링 레이트를 가질 수 있다. 다른 예시적 실시예에 있어서, 입력 디지털 신호는 기준 디지털 신호와 동일한 시간 길이를 갖는 프레임으로 분할되어있을 수 있다. 예를 들어, 입력 디지털 신호는 20ms 의 길이를 갖는 프레임들로 구성될 수 있다.
도 11은 본 개시의 예시적 실시 예에 따른 뉴럴 네트워크 모델의 일 예를 설명하는 도면이다.
도 11을 참조하면, 뉴럴 네트워크(NN)는 입력 레이어, 히든 레이어들 및 출력 레이어를 포함하는 구조를 가질 수 있다. 뉴럴 네트워크(NN)는 수신되는 입력 데이터(예를 들어, I1 또는 I2)를 기초로 연산을 수행하고, 수행 결과를 기초로 출력 데이터(예를 들어, Q1 또는 Q2)를 생성할 수 있다. 예시적 실시예에 있어서, 뉴럴 네트워크(NN)는 장치(10)에 채용됨으로써, 입력 디지털 신호(I_SIG)를 입력받아 기준 디지털 신호(S_SIG)에 근접한 출력 디지털 신호(O_SIG)를 생성할 수 있다.
뉴럴 네트워크(NN)는 2개 이상의 히든 레이어들을 포함하는 딥 뉴럴 네트워크(Deep Neural Network, DNN) 또는 n-레이어 뉴럴 네트워크(n-layers neural networks)일 수 있다. 예를 들어, 도 11에 도시된 바와 같이, 뉴럴 네트워크(NN)는 입력 레이어(210), 제1 및 제2 히든 레이어(212, 213) 및 출력 레이어(216)를 포함하는 DNN일 수 있다. DNN은 Convolution Neural Networks(CNN), Recurrent Neural Networks(RNN), Deep Belief Networks, Restricted Boltzman Machines 등을 포함할 수 있으나, 이에 제한되지 않는다.
뉴럴 네트워크(NN)가 DNN 구조를 갖는 경우 유효한 정보를 추출할 수 있는 보다 많은 레이어들을 포함하므로, 뉴럴 네트워크(NN)는 복잡한 데이터 집합들을 처리할 수 있다. 한편, 뉴럴 네트워크(NN)는 4개의 레이어들(210, 212, 214, 216)을 포함하는 것으로 도시되었으나, 이는 예시에 불과할 뿐 뉴럴 네트워크(NN)는 더 적거나 더 많은 레이어들을 포함할 수 있다. 또한, 뉴럴 네트워크(NN)는 도 11에 도시된 것과는 다른 다양한 구조의 레이어들을 포함할 수도 있다.
뉴럴 네트워크(NN)에 포함된 레이어들(210, 212, 214, 216) 각각은 복수의 뉴런(neuron)들을 포함할 수 있다. 뉴런은, 프로세싱 엘리먼트(Processing Element, PE), 유닛(unit)또는 이와 유사한 용어들로 알려진, 복수의 인공 노드(artificial node)들에 해당될 수 있다. 예를 들어, 도 11에 도시된 바와 같이, 입력 레이어(210)는 2개의 뉴런들(노드들), 제1 및 제2 히든 레이어(212, 214) 각각은 3개의 뉴런들(노드들)을 포함할 수 있다. 다만, 이는 예시에 불과할 뿐 뉴런 네트워크(NN)에 포함된 레이어들 각각은 다양한 개수의 뉴런들(노드들)을 포함할 수 있다.
뉴런 네트워크(NN)에 포함된 레이어들 각각에 포함된 뉴런들은 서로 연결되어 데이터를 교환할 수 있다. 하나의 뉴런은 다른 뉴런들로부터 데이터를 수신하여 연산할 수 있고, 연산 결과를 또 다른 뉴런들로 출력할 수 있다.
뉴런들(노드들) 각각의 입력 및 출력은 입력 액티베이션(activation) 및 출력 액티베이션으로 지칭될 수 있다. 즉, 액티베이션은 한 뉴런의 출력임과 동시에, 다음 레이어에 포함된 뉴런들의 입력에 해당되는 파라미터일 수 있다. 한편, 뉴런들 각각은 이전 레이어에 포함된 뉴런들로부터 수신된 액티베이션들 및 가중치(weight)들에 기초하여 자신의 액티베이션을 결정할 수 있다. 가중치는 각 뉴런에서의 출력 액티베이션을 계산하기 위해 이용되는 파라미터로서, 뉴런들 간의 연결 관계에 할당되는 값일 수 있다.
뉴런들 각각은 입력을 수신하여 액티베이션을 출력하는 연산 유닛(computational unit) 또는 프로세싱 엘리먼트에 의해 처리될 수 있고, 뉴런들 각각의 입력-출력은 맵핑될 수 있다. 예를 들어
Figure pat00001
는 액티베이션 함수(activation function)이고,
Figure pat00002
는 (i-1) 번째 레이어에 포함된 k 번째 뉴런으로부터 i 번째 레이어에 포함된 j 번째 뉴런으로의 가중치 값일 수 있다.
Figure pat00003
는 i 번째 레이어에 포함된 j 번째 뉴런의 바이어스(bias) 값이고,
Figure pat00004
는 i 번째 레이어의 j 번째 뉴런의 액티베이션, 다시 말해서 포스트 액티베이션(post activation)으로 지칭될 수 있다. 포스트 액티베이션
Figure pat00005
는 다음의 [수학식 1]을 이용하여 계산 될 수 있다.
Figure pat00006
도 11에 도시된 바와 같이, 제1 히든 레이어(212)의 첫 번째 뉴런의 포스트 액티베이션은
Figure pat00007
로 표현될 수 있다. 또한,
Figure pat00008
은 [수학식 1]에 따라
Figure pat00009
의 값을 가질 수 있다. 다시 말해서, 포스트 액티베이션은 이전 레이어로부터 수신된 액티베이션들의 합(sum)에 액티베이션 함수를 적용하여 획득된 값일 수 있다. 다만, [수학식 1]은 뉴럴 네트워크에서 데이터를 처리하기 위해 이용되는 액티베이션 및 가중치를 설명하기 위한 예시일 뿐, 이에 제한되지 않는다.
도 12는 본 개시의 예시적 실시 예에 따른 뉴럴 네트워크 모델에 기반하여 디지털 신호를 업스케일링하는 실시예를 나타낸다.
도 12를 참조하면, 입력 디지털 신호(I_SIG)는 뉴럴 네트워크 모델로 입력되어 각 레이어(L_VAR)들에서 처리됨으로써, 출력 디지털 신호(O_SIG)로 업스케일링될 수 있다. 예시적 실시예에 있어서, 뉴럴 네트워크 모델의 각 레이어(L_VAR)들은 부호화기(encoder) 및 복호화기(decoder)를 모델링할 수 있다.
다른 예시적 실시예에 있어서, 부호화기(encoder) 측의 레이어(L_VAR)들은 복호화기(decoder) 측의 레이어(L_VAR)들과 연접될 수 있다. 예를 들어, 부호화기(encoder) 측의 다운샘플링 레이어(L_VAR)의 경우, 이에 대응하는 복호화기(decoder) 측의 레이어(L_VAR)에 대한 스킵 연결(skip connection)들이 추가될 수 있다.
또 다른 예시적 실시예에 있어서, 뉴럴 네트워크 모델의 각 레이어(L_VAR)는 디지털 신호로부터 학습되어 생성될 수 있다.
또 다른 예시적 실시예에 있어서, 뉴럴 네트워크의 손실 함수는 [수학식 2]를 이용하여 계산될 수 있다.
Figure pat00010
도 13은 본 개시의 예시적 실시 예에 따른 장치의 구성을 나타내는 블록도이다.
도 13을 참조하면, 본원 발명의 동작은 장치(10) 레벨에서 수행되는 동작 및 제어기(20) 레벨에서 수행되는 동작을 포함할 수 있다. 장치(10) 레벨에서 수행되는 동작으로서, 셀룰러 네트워크(cellular network)로부터의 디지털 신호는 기저대역 프로세서(baseband processor)에 의해 수신될 수 있다. 또한, 제어기(20)에서 출력된 디지털 신호는 스피커 출력(speaker output)으로 출력될 수 있다. 이를 위해, 장치(10)는 예를 들면, 디지털 신호를 아날로그 신호로 변조하여 스피커로 출력할 수 있다.
제어기(20) 레벨에서 수행되는 동작으로서, 제어기(20)는 오디오 하드웨어 추상 계층(audio hardware abstraction layer)을 통해 디지털 신호에 접근하여, 디지털 신호를 AudioFlinger / AudioMixer로 유입시킬 수 있다. AudioFilnger/ AudioMixer는 유입된 디지털 신호를 MediaRecorder 로 전달할 수 있고, MediaRecorder 는 협대역으로 변조된 디지털 신호를 Deep Neural Network 로 입력시킬 수 있다. Deep Neural Network 는 협대역으로 변조된 디지털 신호를 입력받아 처리하여 광대역으로 변조된 디지털 신호를 생성할 수 있다. Deep Neural Network 에서 출력된 광대역으로 변조된 디지털 신호는 스피커 상에서의 출력을 위해 AudioFlinger / AudioMixer에 반환될 수 있다.
도 14는 본 개시의 예시적 실시 예에 따른 무선 통신 시스템을 나타낸다.
도 14를 참조하면, 무선 통신 시스템은 송신 측 단말(1b) 및 수신 측 단말(10b)을 포함할 수 있다. 예시적 실시예에 있어서, 송신 측 단말(1b)은 아날로그 형태의 음성 신호를 수신하여 디지털 신호로 변환할 수 있다. 단말(1b, 10b)들 사이에 주고받는 신호는 기지국을 필요로 하지 않을 수 있다. 수신 측 단말(10b)은 디지털 형태의 음성 신호를 수신하여 아날로그 신호로 변환할 수 있다. 수신 측 단말(10b)은 아날로그 신호로 변환된 음성 신호를 수신 측 단말(10b)에 내장된 스피커를 통해 출력할 수 있다.
이상에서와 같이 도면과 명세서에서 예시적인 실시 예들이 개시되었다. 본 명세서에서 특정한 용어를 사용하여 실시 예들을 설명하였으나, 이는 단지 본 개시의 기술적 사상을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 개시의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 개시의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (15)

  1. 무선 통신을 위한 장치로서,
    트랜시버; 및
    상기 트랜시버에 연결된 제어기를 포함하고,
    상기 제어기는:
    디지털 신호에 기초하여 적어도 하나의 부가 샘플을 뉴럴 네트워크 모델을 이용하여 식별하고,
    상기 디지털 신호의 복수의 샘플들에 상기 식별된 적어도 하나의 부가 샘플을 부가하여 상기 디지털 신호를 업스케일링(upscailing)하도록 구성되는 장치.
  2. 제1 항에 있어서,
    상기 제어기는 상기 디지털 신호에 기초하여 상기 적어도 하나의 부가 샘플을 상기 뉴럴 네트워크 모델을 이용하여 식별하기 위해,
    상기 디지털 신호에 응답하여 가중치를 결정하고,
    상기 디지털 신호 및 상기 가중치에 기초하여 상기 적어도 하나의 부가 샘플을 식별하도록 구성되는 장치.
  3. 제1 항에 있어서,
    상기 제어기는,
    제1 입력 디지털 신호에 응답하여 상기 제1 입력 디지털 신호로부터 업스케일링된 제1 출력 디지털 신호를 획득하고, 적어도 하나의 기준 디지털 신호의 세트 중 하나의 기준 디지털 신호와 상기 제1 출력 디지털 신호의 차이를 획득하고, 제2 입력 디지털 신호 및 상기 차이에 기초하여 상기 제2 입력 디지털 신호로부터 업스케일링된 제2 출력 디지털 신호를 획득하는 것을 통해 상기 뉴럴 네트워크 모델을 생성하도록 구성되는 장치.
  4. 제3 항에 있어서,
    상기 차이는 상기 하나의 기준 디지털 신호의 복수의 샘플들 중 상기 제1 출력 디지털 신호의 복수의 샘플들에 대응하지 않는 적어도 하나의 샘플과 관련되는 장치.
  5. 제3 항에 있어서,
    상기 제어기는,
    상기 적어도 하나의 기준 디지털 신호들 중 제1 기준 디지털 신호 및 제2 기준 디지털 신호를 각각 전-처리(pre-processing)하여 상기 제1 입력 디지털 신호 및 상기 제2 입력 디지털 신호를 생성하도록 구성되는 장치.
  6. 제5 항에 있어서,
    상기 제어기는 상기 제1 기준 디지털 신호 및 상기 제2 기준 디지털 신호를 각각 전-처리하기 위해,
    상기 제1 기준 디지털 신호 및 상기 제2 기준 디지털 신호를 각각 부호화하고, 상기 부호화된 제1 기준 디지털 신호 및 상기 부호화된 제2 기준 디지털 신호에 노이즈를 부가하고, 상기 노이즈가 부가된 부호화된 제1 기준 디지털 신호 및 상기 노이즈가 부가된 부호화된 제2 기준 디지털 신호를 각각 복호화하도록 구성되는 장치.
  7. 제5 항에 있어서,
    상기 제1 기준 디지털 신호의 샘플링 레이트 및 상기 제2 기준 디지털 신호의 샘플링 레이트는 상기 제1 입력 디지털 신호의 샘플링 레이트 및 상기 제2 입력 디지털 신호의 샘플링 레이트보다 각각 높은 장치.
  8. 무선 통신을 위한 방법으로서,
    디지털 신호에 기초하여 적어도 하나의 부가 샘플을 뉴럴 네트워크 모델을 이용하여 식별하는 단계; 및
    상기 디지털 신호의 복수의 샘플들에 상기 식별된 적어도 하나의 부가 샘플을 부가하여 상기 디지털 신호를 업스케일링(upscailing)하는 단계를 포함하는 방법.
  9. 제8 항에 있어서,
    상기 뉴럴 네트워크 모델을 이용하여 식별하는 단계는,
    상기 디지털 신호에 응답하여 가중치를 결정하는 단계; 및
    상기 디지털 신호 및 상기 가중치에 기초하여 상기 적어도 하나의 부가 샘플을 식별하는 단계를 포함하는 방법.
  10. 제8 항에 있어서,
    상기 뉴럴 네트워크 모델을 생성하는 단계를 더 포함하고,
    상기 뉴럴 네트워크 모델을 생성하는 단계는,
    제1 입력 디지털 신호에 응답하여 상기 제1 입력 디지털 신호로부터 업스케일링된 제1 출력 디지털 신호를 획득하는 단계;
    적어도 하나의 기준 디지털 신호의 세트 중 하나의 기준 디지털 신호와 상기 제1 출력 디지털 신호의 차이를 획득하는 단계; 및
    제2 입력 디지털 신호 및 상기 차이에 기초하여 상기 제2 입력 디지털 신호로부터 업스케일링된 제2 출력 디지털 신호를 획득하는 단계를 포함하는 방법.
  11. 제10 항에 있어서,
    상기 차이는 상기 하나의 기준 디지털 신호의 복수의 샘플들 중 상기 제1 출력 디지털 신호의 복수의 샘플들에 대응하지 않는 적어도 하나의 샘플과 관련되는 방법.
  12. 제10 항에 있어서,
    상기 적어도 하나의 기준 디지털 신호들 중 제1 기준 디지털 신호 및 제2 기준 디지털 신호를 각각 전-처리(pre-processing)하여 상기 제1 입력 디지털 신호 및 상기 제2 입력 디지털 신호를 생성하는 단계를 더 포함하는 방법.
  13. 제12 항에 있어서,
    상기 제1 입력 디지털 신호 및 상기 제2 입력 디지털 신호를 생성하는 단계는,
    상기 제1 기준 디지털 신호 및 상기 제2 기준 디지털 신호를 각각 부호화하는 단계;
    상기 부호화된 제1 기준 디지털 신호 및 상기 부호화된 제2 기준 디지털 신호에 노이즈를 부가하는 단계; 및
    상기 노이즈가 부가된 부호화된 제1 기준 디지털 신호 및 상기 노이즈가 부가된 부호화된 제2 기준 디지털 신호를 각각 복호화하는 단계를 포함하는 방법.
  14. 제12 항에 있어서,
    상기 제1 기준 디지털 신호의 샘플링 레이트 및 상기 제2 기준 디지털 신호의 샘플링 레이트는 상기 제1 입력 디지털 신호의 샘플링 레이트 및 상기 제2 입력 디지털 신호의 샘플링 레이트보다 각각 높은 방법.
  15. 제8 항 내지 제14 항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020190001317A 2019-01-04 2019-01-04 뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하는 장치 및 방법 KR102645659B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020190001317A KR102645659B1 (ko) 2019-01-04 2019-01-04 뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하는 장치 및 방법
EP20736167.6A EP3843092A4 (en) 2019-01-04 2020-01-02 DEVICE AND METHOD FOR WIRELESS COMMUNICATION BASED ON A NEURAL NETWORK MODEL
PCT/KR2020/000044 WO2020141898A1 (ko) 2019-01-04 2020-01-02 뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하는 장치 및 방법
US17/278,874 US11508394B2 (en) 2019-01-04 2020-01-02 Device and method for wirelessly communicating on basis of neural network model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190001317A KR102645659B1 (ko) 2019-01-04 2019-01-04 뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하는 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20200085148A true KR20200085148A (ko) 2020-07-14
KR102645659B1 KR102645659B1 (ko) 2024-03-11

Family

ID=71406607

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190001317A KR102645659B1 (ko) 2019-01-04 2019-01-04 뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하는 장치 및 방법

Country Status (4)

Country Link
US (1) US11508394B2 (ko)
EP (1) EP3843092A4 (ko)
KR (1) KR102645659B1 (ko)
WO (1) WO2020141898A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210056220A1 (en) * 2019-08-22 2021-02-25 Mediatek Inc. Method for improving confidentiality protection of neural network model

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130031849A (ko) * 2010-05-25 2013-03-29 노키아 코포레이션 대역폭 확장기

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100396268B1 (ko) 2001-10-24 2003-09-02 삼성전자주식회사 멀티미디어 서비스를 제공하기 위한 이동통신단말기에서의 오디오 업 샘플링 방법
US20050267739A1 (en) 2004-05-25 2005-12-01 Nokia Corporation Neuroevolution based artificial bandwidth expansion of telephone band speech
US7698143B2 (en) 2005-05-17 2010-04-13 Mitsubishi Electric Research Laboratories, Inc. Constructing broad-band acoustic signals from lower-band acoustic signals
US8311840B2 (en) 2005-06-28 2012-11-13 Qnx Software Systems Limited Frequency extension of harmonic signals
US7912729B2 (en) 2007-02-23 2011-03-22 Qnx Software Systems Co. High-frequency bandwidth extension in the time domain
DK3401907T3 (da) 2007-08-27 2020-03-02 Ericsson Telefon Ab L M Fremgangsmåde og indretning til perceptuel spektral afkodning af et audiosignal omfattende udfyldning af spektrale huller
JP6464650B2 (ja) 2014-10-03 2019-02-06 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
GB201604672D0 (en) * 2016-03-18 2016-05-04 Magic Pony Technology Ltd Generative methods of super resolution
US10460747B2 (en) 2016-05-10 2019-10-29 Google Llc Frequency based audio analysis using neural networks
CN105869653B (zh) 2016-05-31 2019-07-12 华为技术有限公司 话音信号处理方法和相关装置和系统
KR101871604B1 (ko) 2016-12-15 2018-06-27 한양대학교 산학협력단 심화 신경망을 이용한 다채널 마이크 기반의 잔향시간 추정 방법 및 장치
KR20180111271A (ko) 2017-03-31 2018-10-11 삼성전자주식회사 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치
US10068557B1 (en) * 2017-08-23 2018-09-04 Google Llc Generating music with deep neural networks

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130031849A (ko) * 2010-05-25 2013-03-29 노키아 코포레이션 대역폭 확장기

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kuleshov, Volodymyr, S. Zayd Enam, and Stefano Ermon. "Audio super resolution using neural networks." arXiv preprint arXiv:1708.00853 (2017). (2017.08.02.)* *

Also Published As

Publication number Publication date
US11508394B2 (en) 2022-11-22
US20220051688A1 (en) 2022-02-17
EP3843092A1 (en) 2021-06-30
WO2020141898A1 (ko) 2020-07-09
KR102645659B1 (ko) 2024-03-11
EP3843092A4 (en) 2021-11-24

Similar Documents

Publication Publication Date Title
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
EP3252767B1 (en) Voice signal processing method, related apparatus, and system
CN111292768B (zh) 丢包隐藏的方法、装置、存储介质和计算机设备
KR102488338B1 (ko) 언어 모델을 압축하기 위한 전자 장치, 추천 워드를 제공하기 위한 전자 장치 및 그 동작 방법들
CN116030792B (zh) 用于转换语音音色的方法、装置、电子设备和可读介质
CN110321962B (zh) 一种数据处理方法及装置
CN114582329A (zh) 语音识别方法、装置、计算机可读介质及电子设备
CN116737895A (zh) 一种数据处理方法及相关设备
Bakhtiarnia et al. Dynamic split computing for efficient deep edge intelligence
CN113555032A (zh) 多说话人场景识别及网络训练方法、装置
CN112005300B (zh) 语音信号的处理方法和移动设备
KR102645659B1 (ko) 뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하는 장치 및 방법
Elbaz et al. End to end deep neural network frequency demodulation of speech signals
JP2023169230A (ja) コンピュータプログラム、サーバ装置、端末装置、学習済みモデル、プログラム生成方法、及び方法
CN111653261A (zh) 语音合成方法、装置、可读存储介质及电子设备
CN112802485B (zh) 语音数据处理方法、装置、计算机设备及存储介质
CN103109319A (zh) 确定音调循环能量及按比例缩放激励信号
CN113990347A (zh) 一种信号处理方法、计算机设备及存储介质
JP2024512095A (ja) ニューラルネットワークに基づくエンドツーエンド音声補強方法、装置
CN114783455A (zh) 用于语音降噪的方法、装置、电子设备和计算机可读介质
CN113780534A (zh) 网络模型的压缩方法、图像生成方法、装置、设备及介质
Gong et al. A Scalable Multi-Device Semantic Communication System for Multi-Task Execution
WO2022217502A1 (zh) 信息处理方法、装置、通信设备及存储介质
CN112992168B (zh) 语音降噪器训练方法、装置、计算机设备和存储介质
CN117132686A (zh) 一种数据处理方法及其装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant