KR101591626B1 - 딥신경망에 기초한 패킷 손실 은닉 방법 및 장치 - Google Patents

딥신경망에 기초한 패킷 손실 은닉 방법 및 장치 Download PDF

Info

Publication number
KR101591626B1
KR101591626B1 KR1020150017315A KR20150017315A KR101591626B1 KR 101591626 B1 KR101591626 B1 KR 101591626B1 KR 1020150017315 A KR1020150017315 A KR 1020150017315A KR 20150017315 A KR20150017315 A KR 20150017315A KR 101591626 B1 KR101591626 B1 KR 101591626B1
Authority
KR
South Korea
Prior art keywords
neural network
packet loss
deep neural
feature vectors
packet
Prior art date
Application number
KR1020150017315A
Other languages
English (en)
Inventor
장준혁
이봉기
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020150017315A priority Critical patent/KR101591626B1/ko
Application granted granted Critical
Publication of KR101591626B1 publication Critical patent/KR101591626B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Multimedia (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

딥신경망을 이용하여 음성 통신 시 손실된 패킷을 복원하는 기술이 개시된다. 패킷 손실 복원 방법은, 음성 통신시 패킷 손실이 발생한 타겟 프레임으로부터 특징 벡터들을 추출하는 단계, 상기 타겟 프레임 이전에 수신된 적어도 하나의 이전 프레임으로부터 특징 벡터들을 추출하는 단계, 및 상기 이전 프레임으로부터 추출된 특징 벡터들, 상기 타겟 프레임으로부터 추출된 특징 벡터들, 및 딥신경망(Deep Neural Network)을 이용하여 손실된 패킷을 복원하는 단계를 포함할 수 있다.

Description

딥신경망에 기초한 패킷 손실 은닉 방법 및 장치{METHOD AND APPARATUS FOR CONCEAL PACKET LOSS BASED ON THE DEEP NEURAL NETWORK}
본 발명의 실시예들은 VOIP 음성 통신 또는 블루투스 음성 통신 시 발생하는 패킷 손실을 복원하는 기술에 관한 것이다.
스마트폰 등의 사용자 단말이 보급화됨에 따라, 스마트폰에서 VOIP(Voice over Internet Service)를 제공하려는 어플리케이션(application)이 많이 개발되고 있다. VOIP 음성 통신, 또는 블루투스(bluetooth) 음성 통신의 경우, 음성 통신 중에 패킷 손실이 발생하여 통화품질이 현격하게 낮아진다. ITU-T에 의해 표준화된 G.722는 패킷 손실 은닉 알고리즘을 제안하며, VOIP 음성 통신 시 발생하는 패킷 손실을 감소 또는 제거하고 있다. 패킷 손실 은닉 알고리즘은 통신 중에 소실된 패킷을 보상하여 음성 통화 품질을 높이는 기술이다.
ITU-T에 의해 표준화된 G.722에서 제안된 패킷 손실 은닉 알고리즘은, 이전 프레임의 정보를 단순 복사하여 손실된 프레임을 복원시킨다. 이처럼, 이전 프레임을 단순 복사하여 손실된 패킷을 복원하는 경우, 패킷 손실이 연속하여 발생(consecutive packet losses) 시 통화 품질이 상당히 저하되는 문제가 여전히 존재한다.
따라서, VOIP 또는 블루투스 기반의 음성 통신 시 패킷 손실이 연속하여 발생하더라도, 사용자들이 대화내용을 인지하는 데 불편함이 없도록 통화 품질을 개선할 수 있는 기술이 요구된다.
본 발명의 일실시예는 딥신경망(Deep Neural Network: DNN)을 이용하여 음성 통신 시 손실된 패킷을 복원하기 위한 것이다.
패킷 손실 복원 방법은, 음성 통신시 패킷 손실이 발생한 타겟 프레임으로부터 특징 벡터들을 추출하는 단계, 상기 타겟 프레임 이전에 수신된 적어도 하나의 이전 프레임으로부터 특징 벡터들을 추출하는 단계, 및 상기 이전 프레임으로부터 추출된 특징 벡터들, 상기 타겟 프레임으로부터 추출된 특징 벡터들, 및 딥신경망(Deep Neural Network)을 이용하여 손실된 패킷을 복원하는 단계를 포함할 수 있다.
일측면에 따르면, 상기 손실된 패킷을 복원하는 단계는, 상기 이전 프레임으로부터 추출된 특징 벡터들을 딥신경망의 입력으로 설정하는 단계, 상기 타겟 프레임으로부터 추출된 특징 벡터들을 상기 출력으로 설정하는 단계, 및 상기 입력 및 출력으로 설정된 각 특징 벡터들에 기초하여 딥신경망의 가중치들을 훈련하는 단계를 포함할 수 있다.
다른 측면에 따르면, 상기 가중치들을 훈련하는 단계는, CD(contrastive divergence) 기법에 기초하여 상기 가중치들을 사전 훈련(pre-training)하는 단계, 상기 사전 훈련된 가중치들을 미세 조정(fine-tuning)하여 최소평균제곱오차(Minimum Mean Square Error)를 계산하는 단계, 및 상기 최소평균제곱오차에 기초하여 딥신경망의 가중치들을 업데이트하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 복원하는 단계는, 상기 딥신경망에 기초하여 손실된 패킷의 위상(phase) 및 로그 파워 스펙트라(log power spectra)를 추정하는 단계, 및 상기 추정된 위상 및 로그 파워 스펙트라를 역 퓨리에 변환하여 상기 손실된 패킷을 복원하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 복원된 패킷에 대해 크로스 페이딩(cross fading)을 수행하는 단계를 더 포함할 수 있다.
또 다른 측면에 따르면, 상기 타겟 프레임 또는 상기 이전 프레임으로부터 특징 벡터들을 추출하는 단계는, 상기 타겟 프레임 또는 상기 이전 프레임을 퓨리에 변환(Fourier Transform)하는 단계, 및 상기 퓨리에 변환 계수로부터 위상(phase) 및 로그 파워 스펙트라(log power spectra)를 포함하는 특징 벡터를 추출하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 딥신경망은, 복수의 레이어들(layers)이 적층된 구조를 가지며, 첫번째 레이어는 가우시안-베르누이(Gaussian Bernoulli) RBM이고, 상기 복수의 레이어들 중 상기 첫번째 레이어를 제외한 나머지 레이어들은, 베르누이-베르누이 RBM 레이어일 수 있다.
본 실시예에 따른 패킷 손실 복원 장치는, 음성 통신시 패킷 손실이 발생한 타겟 프레임으로부터 특징 벡터들을 추출하고, 상기 타겟 프레임 이전에 수신된 적어도 하나의 이전 프레임으로부터 특징 벡터들을 추출하는 특징 벡터 추출부, 및 상기 이전 프레임으로부터 추출된 특징 벡터들, 상기 타겟 프레임으로부터 추출된 특징 벡터들, 및 딥신경망(Deep Neural Network)을 이용하여 손실된 패킷을 복원하는 복원부를 포함할 수 있다.
일측면에 따르면, 상기 복원부는, 상기 이전 프레임으로부터 추출된 특징 벡터들을 딥신경망의 입력으로 설정하고, 상기 타겟 프레임으로부터 추출된 특징 벡터들을 상기 출력으로 설정하고, 상기 입력 및 출력으로 설정된 각 특징 벡터들에 기초하여 딥신경망의 가중치들을 훈련시킬 수 있다.
다른 측면에 따르면, 상기 복원부는, CD(contrastive divergence) 기법에 기초하여 상기 가중치들을 사전 훈련(pre-training)시키고, 상기 사전 훈련된 가중치들을 미세 조정(fine-tuning)하여 최소평균제곱오차(Minimum Mean Square Error)를 계산하고, 상기 최소평균제곱오차에 기초하여 딥신경망의 가중치들을 업데이트할 수 있다.
또 다른 측면에 따르면, 상기 복원부는, 상기 딥신경망에 기초하여 손실된 패킷의 위상(phase) 및 로그 파워 스펙트라(log power spectra)를 추정하고, 상기 추정된 위상 및 로그 파워 스펙트라를 역 퓨리에 변환하여 상기 손실된 패킷을 복원할 수 있다.
또 다른 측면에 따르면, 상기 복원된 패킷에 대해 크로스 페이딩(cross fading)을 수행하는 크로스 페이딩부를 더 포함할 수 있다.
또 다른 측면에 따르면, 상기 특징 벡터 추출부는, 상기 타겟 프레임 또는 상기 이전 프레임을 퓨리에 변환(Fourier Transform)하고, 상기 퓨리에 변환 계수로부터 위상(phase) 및 로그 파워 스펙트라(log power spectra)를 포함하는 특징 벡터를 추출할 수 있다.
딥신경망(Deep Neural Network: DNN)을 이용하여 복수의 음성 통신 프레임 각각에서 추출된 FFT 계수와 위상(phase)을 회귀함에 따라, 손실된 패킷을 복원할 수 있다.
도 1은 본 발명의 일실시예에 있어서, 부호화 장치와 복호화 장치를 도시한 도면이다.
도 2는 본 발명의 일실시예에 있어서, 타겟 프레임 및 이전 프레임에서 특징 벡터들을 추출하는 과정을 설명하기 위해 제공되는 도면이다.
도 3은 본 발명의 일실시예에 있어서, 딥신경망의 구조를 도시한 도면이다.
도 4는 본 발명의 일실시예에 있어서, 패킷 손실 복원 장치의 세부 구성을 도시한 블록도이다.
도 5는 본 발명의 일실시예에 있어서, 패킷 손실 복원 방법을 설명하기 위해 제공되는 흐름도이다.
도 6은 본 발명의 일실시예에 있어서, 딥신경망의 훈련 과정을 설명하기 위해 제공되는 도면이다.
도 7은 본 발명의 일실시예에 있어서, DNN 훈련 및 손실된 패킷을 복원하는 세부 동작을 도시한 흐름도이다.
도 8은 본 발명의 일실시예에 있어서, 타겟 프레임의 손실된 특징 벡터를 복원하는 세부 동작을 도시한 흐름도이다.
본 실시예들은 VOIP 또는 블루투스 기반의 음성 통신 시 발생하는 싱글 패킷 손실 또는 연속적인 패킷 손실을 은닉하는 기술을 설명하기 위한 것이다. 패킷 손실 은닉은 손실되니 패킷을 복원하는 것으로서, 본 실시예들에서 복호화 장치는 복원 장치를 의미할 수 있다. 먼저, 본 실시예들의 이해를 돕기 위해 음성 통신을 수행하는 부호화 장치 및 복호화 장치에 대해 간략히 설명하기로 한다.
도 1은 본 발명의 일실시예에 있어서, 부호화 장치와 복호화 장치를 도시한 도면이다.
부호화 장치(101)는 음성 통신을 위해 이용되는 패킷을 부호화(encoding)하여 복호화 장치(100)로 전송할 수 있다. 여기서, 부호화는 음성 통신시 이용되는 다양한 부호화 알고리즘이 이용될 수 있다.
복호화 장치(100)는 부호화된 패킷을 수신하여 복호화할 수 있다. 이때, 복호화 장치(100)는 부호화된 패킷들을 대상으로 윈도우잉(windowing)을 수행하여 프레임을 생성할 수 있다. 그리고, 복호화 장치(100)는 생성된 프레임으로부터 특징 벡터들을 추출할 수 있다.
일례로, 도 2를 참고하면, 복호화 장치(100)는 프레임을 이산 퓨리에 변환(Discrete Fourier Transform: DFT)할 수 있다. 복호화 장치(100)는 이산 퓨리에 변환된 프레임으로부터 위상(phase)과 로그 파워 스펙트라(Log Power Spectra: LPS)를 추출할 수 있다. 복호화 장치(100)는 퓨리에 변환을 통해 생성된 퓨리에 계수(DFT 계수)로부터 크기(magnitude)를 추출하고, 크기의 제곱(|·|2)에 로그(log)를 취함에 따라 로그 파워 스펙트라를 계산할 수 있다. 여기서, 로그 파워 스펙트라와 위상은 특징 벡터를 나타낼 수 있다. 이때, 이상 퓨리에 변환(DFT) 이외에 고속 퓨리에 변환(Fast Fourier Transform: FFT)이 이용될 수도 있다. FFT가 이용되는 경우, 복호화 장치(100)는 FFT 계수로부터 해당 프레임의 로그 파워 스펙트라 및 위상을 추출할 수 있다.
예를 들어, 복호화 장치(100)는 FFT 계수로서, 음성 특징에 더 잘 맞는 로그 파워 스펙트라 형태로 변형된 것을 사용할 수 있으며, 아래의 수학식 1에 기초하여 STFT(Short Time Fourier Transform)을 수행함에 따라, 퓨리에 변환 계수를 계산할 수 있다.
Figure 112015012015223-pat00001
수학식 1에서, k는 주파수 빈 인덱스(frequency bin index)를 나타내고, h(l)은 윈도우 함수, L은 윈도우 길이를 나타낼 수 있다.
수학식 1에 따르면, 복호화 장치(100)는 STFT를 수행한 이후에 아래의 수학식 2에 기초하여 로그 파워 스펙트라를 계산할 수 있다.
Figure 112015012015223-pat00002
수학식 2에서, K=L/2+1일 수 있다.
그리고, 복호화 장치(100)는 위의 수학식 1 및 2에 기초하여 추출된 특징 벡터들과 딥신경망(Deep Neural Network: DNN)을 이용하여 손실된 패킷을 복원할 수 있다. 예를 들어, 복호화 장치(100)는 손실이 발생한 프레임인 타겟 프레임(target frame)의 특징 벡터들을 딥신경망의 출력 레이어로 설정하고, 이전 프레임의 특징 벡터들을 딥신경망의 입력 레이어로 설정할 수 있다. 그리고, 복호화 장치(100)는 딥신경망의 입력 및 출력 레이어에 설정된 특징 벡터들에 기초하여 딥신경망을 이루는 각 레이어에 해당하는 가중치들을 훈련시킬 수 있다. 복호화 장치(100)는 훈련된 가중치들에 기초하여 손실된 패킷을 복원할 수 있다.
여기서, 이전 프레임은, 패킷 손실이 발생한 타겟 프레임 이전에 부호화 장치(101)로부터 수신된 프레임으로서, 하나 이상일 수 있다. 예를 들어, 이전 프레임은, 손실되지 않은 패킷들을 포함하는 프레임일 수도 있고, 손실된 패킷을 일부 또는 연속하여 손실된 패킷을 포함하는 프레임일 수도 있다. 손실된 패킷을 포함하는 프레임이 이전 프레임인 경우, 본 실시예에서 제안하는 방법에 따라 복원된 패킷으로부터 추출된 특징 벡터들에 기초하여 타겟 프레임의 특징 벡터가 복원될 수 있다.
도 3은 본 발명의 일실시예에 있어서, 딥신경망의 구조를 도시한 도면이다.
도 3을 참고하면, 딥신경망(DNN)은, 복수의 레이어들(layers)이 적층된 구조를 가질 수 있다. 예를 들어, 첫번째 레이어는 가우시안-베르누이(Gaussian Bernoulli) RBM(Restricted Boltzmann Machine) 레이어를 나타내고, 복수의 레이어들 중 상기 첫번째 레이어를 제외한 나머지 레이어들은, 베르누이-베르누이 RBM 레이어를 나타낼 수 있다. 각 레이어 별로 DNN의 계수값인 가중치(wk)가 존재하며, 복호화 장치(100)는 각 레이어 별로 사전 훈련(pre-training) 및 미세 조정(fine-tuning)을 수행함에 따라 가중치를 업데이트할 수 있다.
도 4는 본 발명의 일실시예에 있어서, 패킷 손실 복원 장치의 세부 구성을 도시한 블록도이고, 도 5는 본 발명의 일실시예에 있어서, 패킷 손실 복원 방법을 설명하기 위해 제공되는 흐름도이다.
도 4에서, 패킷 손실 복원 장치(400)는 특징 벡터 추출부(410), 복원부(420) 및 크로스 페이딩부(430)를 포함하며, 각 구성 요소는 도 5의 패킷 손실 복원을 위한 각 단계들(510 단계 내지 530 단계)를 수행할 수 있다.
510 단계에서, 특징 벡터 추출부(410)는 패킷 손실이 발생한 타겟 프레임 및 이전 프레임을 수신하고, 수신된 타겟 프레임 및 이전 프레임 각각에서 특징 벡터들을 추출할 수 있다. 타겟 프레임 및 이전 프레임은 부호화 장치에서 부호화되어 복호화 장치로 전송될 수 있다.
예를 들어, 특징 벡터 추출부(410)는 이전 프레임을 FFT 변환하여 FFT 계수를 생성할 수 있다. 그리고, 특징 벡터 추출부(410)는 FFT 계수에서 로그 파워 스펙트라와 위상을 이전 프레임의 특징 벡터로서 추출할 수 있다. 동일한 방법으로, 특징 벡터 추출부(410)는 타겟 프레임을 FFT 변환하여 FFT 계수를 생성하고, 생성된 FFT 계수로부터 타겟 프레임의 특징 벡터를 추출할 수 있다.
520 단계에서, 복원부(420)는 추출된 특징 벡터를 딥신경망의 입력 및 출력으로 설정하여, 딥신경망의 각 레이어에 해당하는 가중치들을 훈련할 수 있다.
예를 들어, 도 6을 참고하면, 복원부(420)는 타겟 프레임(601) 이전에 수신된 P개의 이전 프레임(602)으로부터 추출된 특징 벡터들(603)을 딥신경망의 입력 레이어(604)에 입력시킬 수 있다. 그리고, 복원부(420)는 타겟 프레임(601)으로부터 추출된 특징 벡터들(605)을 딥신경망의 출력 레이어(606)에 입력시키고, 딥신경망(DNN)의 가중치(wk)를 훈련시킬 수 있다. 이때, 복원부(420)는 머신러닝(machine learning)에 기초하여 딥신경망의 가중치를 훈련하여 DNN 모델을 생성할 수 있다. 그리고, 복원부(420)는 생성된 DNN 모델에 기초하여 손실된 패킷을 복원할 수 있다.
530 단계에서, 크로스 페이딩부(430)는 복원된 패킷을 대상으로 크로스 페이딩(cross fading)을 수행할 수 있다. 여기서, 크로스 페이딩을 수행하는 동작은 도 8을 참조하여 후술하기로 한다.
도 7은 본 발명의 일실시예에 있어서, 이전 및 타겟 프레임에서 추출된 특징 벡터들을 이용하여 DNN의 가중치를 훈련하는 세부 동작을 도시한 흐름도이다.
도 7에서 각 단계들(710 단계 내지 730 단계)은 도 4에 도시된 부호화 장치(400)의 각 구성 요소(특징 벡터 추출부, 복원부, 및 크로스 페이딩부)에 의해 수행될 수 있다. 복원부(420)는 DNN 훈련부(421) 및 패킷 복원부(422)를 포함할 수 있다. 도 7에서, DNN을 훈련시키는 과정은 사전 훈련(unsupervised pre-training) 및 미세 조정(supervised fine tuning)으로 구분될 수 있다.
710 단계에서, DNN 훈련부(421)는 특징 벡터 추출부(410)에서 추출된 적어도 하나의 이전 프레임의 특징 벡터들을 사전 훈련(unsupervised pre-training)하여 DNN을 구성하는 각 레이어(RBM)의 가중치들을 초기화할 수 있다. 여기서, DNN 훈련부(421)는 사전 훈련을 위해 CD(contrastive divergence) 트레이닝 기법을 이용할 수 있다.
예를 들어, 이전 프레임은, 손실된 패킷이 없는 하나 이상의 클린 프레임(clean frame)일 수도 있고, 하나 또는 연속된 패킷 손실이 발생한 프레임을 나타낼 수도 있다. 이때, 패킷 손실이 발생한 프레임이 이용되는 경우, 손실된 패킷을 복원하고, 복원된 패킷으로부터 추출된 특징 벡터들이 사전 훈련을 위해 이용될 수 있다.
720 단계에서, DNN 훈련부(421)는 상기 사전 훈련을 통해 초기화된 각 레이어의 가중치를 대상으로 미세 조정(supervised fine tuning)을 수행할 수 있다.
DNN 훈련부(421)는 미세 조정을 수행하여 최소평균제곱오차(Minimum Mean Square Error: MMSE)를 계산할 수 있다. 예를 들어, DNN 훈련부(421)는 아래의 수학식 3에 기초하여 최소 평균제곱오차를 계산할 수 있다.
Figure 112015012015223-pat00003
수학식 3에서,
Figure 112015012015223-pat00004
는 d번째 주파수 빈(frequency bin)의 추정된 로그 파워 스펙트라 또는 위상을 나타내고,
Figure 112015012015223-pat00005
은 타겟 프레임의 로그 파워 스펙트라 또는 위상을 나타낼 수 있다. 그리고, N은 미니배치 사이즈, D는 로그 파워 스펙트라 또는 위상의 사이즈, l은 레이어를 나타낼 수 있다.
730 단계에서, DNN 훈련부(421)는 MMSE에 기초하여 DNN의 각 레이어 별 가중치를 업데이트할 수 있다. 예를 들어, DNN 훈련부(421)는 아래의 수학식 4에 기초하여 가중치를 업데이트할 수 있다.
Figure 112015012015223-pat00006
수학식 4에서, L은 전체 레이어의 개수, L+1은 아웃풋 레이어,λ는 learning rate를 나타낼 수 있다.
이상의 도 7에서 설명한 바와 같이, DNN 훈련부(421)는 이전 프레임들로부터 추출된 특징 벡터들을 DNN의 입력 및 출력 레이어에 입력시킴에 따라, DNN의 가중치들을 훈련시킴으로써, DNN 모델을 생성할 수 있다. 그리고, MMSE에 기초하여 각 레이어 별 가중치들을 계속하여 업데이트함으로써, DNN 모델을 업데이트할 수 있다. 그러면, 패킷 복원부(422)는 손실된 패킷 발생 시 타겟 프레임의 특징 벡터와 DNN 모델을 이용하여 손실된 패킷을 복원할 수 있다. 예를 들어, 패킷 복원부(422)는 DNN 모델을 통해 이전 프레임들의 특징 벡터를 이용하여 타겟 프레임의 손실된 특징 벡터를 복원할 수 있다.
도 8은 본 발명의 일실시예에 있어서, 타겟 프레임의 손실된 특징 벡터를 복원하는 세부 동작을 도시한 흐름도이다.
도 8에서 각 단계들(810 단계 내지 860 단계)은 도 4에 도시된 부호화 장치(400)의 각 구성 요소(특징 벡터 추출부, 복원부, 및 크로스 페이딩부)에 의해 수행될 수 있다. 복원부(420)는 DNN 훈련부(421) 및 패킷 복원부(422)를 포함할 수 있다.
810 단계에서, 타겟 프레임에 손실이 발생한 경우(810:YES), 패킷 복원부(422)는 DNN 모델에 기초하여 손실된 패킷의 특징 벡터를 추정할 수 있다.
일례로, 앞의 도 7에서, 이전 프레임들의 특징 벡터들에 기초하여 DNN의 가중치들을 훈련함으로써, DNN 모델을 생성하는 동작에 대해 설명하였다. 이때, DNN 훈련부(421)는 이전 프레임들로부터 추출된 특징 벡터들을 버퍼 등의 저장 장치에 저장할 수 있다. 그러면, 패킷 복원부(422)는 DNN 모델의 입력 레이어에 이전 프레임들로부터 추출된 특징 벡터들을 입력하고, 상기 타겟 프레임으로부터 추출된 특징 벡터들을 상기 DNN 모델의 출력 레이어에 입력함으로써, 타겟 프레임의 손실된 특징 벡터들(
Figure 112015012015223-pat00007
)을 추정할 수 있다.
820 단계에서, 패킷 복원부(422)는 추정된 타겟 프레임의 손실된 특징 벡터들(
Figure 112015012015223-pat00008
)에 대해 파형 재구성(wave reconstruction)을 수행하여 손실된 패킷을 복원(
Figure 112015012015223-pat00009
)할 수 있다. 예를 들어, 패킷 복원부(422)는 아래의 수학식 5 및 6에 기초하여 손실된 패킷을 복원할 수 있다.
Figure 112015012015223-pat00010
Figure 112015012015223-pat00011
위의 수학식 5에 따르면, 패킷 복원부(422)는 추정된 로그 파워 스펙트라(
Figure 112015012015223-pat00012
)에 지수함수를 적용한 결과값(
Figure 112015012015223-pat00013
)과 추정된 위상(
Figure 112015012015223-pat00014
)을 역 퓨리에 변환함으로써, 시간 영역에서의 파형을 재구성함에 따라 손실 패킷(
Figure 112015012015223-pat00015
)을 복원할 수 있다.
840 단계에서, 크로스 페이딩부(430)는 복원된 패킷을 크로스 페이딩함에 따라 복원된 타겟 프레임과 이전 프레임 간의 불연속성을 제거할 수 있다. 예를 들어, 크로스 페이딩부(430)는 아래의 수학식 7에 기초하여 크로스 페이딩을 수행할 수 있다.
Figure 112015012015223-pat00016
수학식 7에서,
Figure 112015012015223-pat00017
이고, ns와 ne는 손실된 타겟 프레임의 시작점과 끝점을 나타낼 수 있다.
Figure 112015012015223-pat00018
는 롤-오프(roll-off) 파라미터로서, 예를 들어, 3이 이용될 수 있다.
850 단계에서, 특징 벡터 추출부(410)는 크로스 페이딩을 통해 불연속성(discontinuity)이 제거된 복원 패킷으로부터 특징 벡터들을 추출할 수 있다. 그리고, 특징 벡터 추출부(410)는 추출된 특징 벡터들을 이전 프레임으로부터 추출된 특징 벡터들과 함께 버퍼 등의 저장 장치에 저장할 수 있다.
한편, 810 단계에서, 타겟 프레임이 손실이 발생하지 않은 경우(810:NO), 860 단계에서, 복원부(420)는 타겟 프레임을 복호화할 수 있다. 그러면, 특징 벡터 추출부(410)는 복호화된 타겟 프레임으로부터 특징 벡터들을 추출하여 저장 장치에 저장할 수 있다.
이처럼, 패킷 손실이 발생하거나 혹은 손실이 발생하지 하지 않은 프레임들로부터 추출된 특징 벡터들이 저장 장치에 저장되며, DNN 훈련을 수행하여 생성된 DNN 모델에 기초하여 손실된 패킷을 복원할 수 있다. 패킷 손실 복원 장치(400)는 딥신경망(DNN)에 회귀된 FFT 계수와 위상을 이용하여 손실된 패킷을 복원함에 따라, 패킷 손실이 연속하는 경우에도 음성 통화 품질을 향상시킬 수 있다. 예를 들어, 연속된 패킷 손실 발생 시, 이전 패킷 손실에서 추정된 특징 벡터를 그대로 DNN 모델의 입력으로 사용함에 따라, 연속하여 패킷이 손실되더라도 통화 품질이 개선될 수 있다. 이에 따라, 패킷 손실 복원 장치(400)는 DNN 훈련 과정에서 입력 프레임의 수를 늘릴수록 연속된 패킷 손실에 강인해질 수 있다.
이외에, 싱글 패킷 손실이 발생한 경우, 패킷 손실 복원 장치(400)는 DNN 훈련을 통해 잘 훈련된 DNN 모델에 패킷 손실이 발생하기 이전의 프레임들에서 추출된 특징 벡터들을 입력시킬 수 있다. 이후, 패킷 손실 복원 장치(400)는 출력 레이어에서 추출된 특징 벡터들을 이용하여 파형을 재구성함에 따라 손실된 패킷을 복원할 수 있다.
또한, 본 실시예에 따른 패킷 손실 복원 방법 및 장치는 코덱(CODEC)에 독립적이므로, 어떤 종류의 코덱과도 유연하게 결합될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (15)

  1. 음성 통신시 패킷 손실이 발생한 타겟 프레임으로부터 특징 벡터들을 추출하는 단계;
    상기 타겟 프레임 이전에 수신된 적어도 하나의 이전 프레임으로부터 특징 벡터들을 추출하는 단계; 및
    상기 이전 프레임으로부터 추출된 특징 벡터들, 상기 타겟 프레임으로부터 추출된 특징 벡터들, 및 딥신경망(Deep Neural Network)을 이용하여 손실된 패킷을 복원하는 단계
    를 포함하고,
    상기 손실된 패킷을 복원하는 단계는,
    상기 이전 프레임으로부터 추출된 특징 벡터들을 딥신경망의 입력으로, 상기 타겟 프레임으로부터 추출된 특징 벡터들을 출력으로 설정하고, 상기 입력 및 출력으로 설정된 각 특징 벡터들에 기초하여 딥신경망의 가중치들을 훈련시킴으로써 딥신경망(DNN) 모델을 생성하고, 생성된 딥신경망(DNN) 모델에 기초하여 상기 손실된 패킷을 복원하는 것
    을 특징으로 하는 패킷 손실 복원 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 가중치들을 훈련하는 단계는,
    CD(contrastive divergence) 기법에 기초하여 상기 가중치들을 사전 훈련(pre-training)하는 단계;
    상기 사전 훈련된 가중치들을 미세 조정(fine-tuning)하여 최소평균제곱오차(Minimum Mean Square Error)를 계산하는 단계; 및
    상기 최소평균제곱오차에 기초하여 딥신경망의 가중치들을 업데이트하는 단계
    를 포함하는 패킷 손실 복원 방법.
  4. 제1항에 있어서,
    상기 복원하는 단계는,
    상기 딥신경망에 기초하여 손실된 패킷의 위상(phase) 및 로그 파워 스펙트라(log power spectra)를 추정하는 단계; 및
    상기 추정된 위상 및 로그 파워 스펙트라를 역 퓨리에 변환하여 상기 손실된 패킷을 복원하는 단계
    를 포함하는 패킷 손실 복원 방법.
  5. 제1항에 있어서,
    상기 복원된 패킷에 대해 크로스 페이딩(cross fading)을 수행하는 단계
    를 더 포함하는 패킷 손실 복원 방법.
  6. 제1항에 있어서,
    상기 타겟 프레임 또는 상기 이전 프레임으로부터 특징 벡터들을 추출하는 단계는,
    상기 타겟 프레임 또는 상기 이전 프레임을 퓨리에 변환(Fourier Transform)하는 단계; 및
    상기 퓨리에 변환 계수로부터 위상(phase) 및 로그 파워 스펙트라(log power spectra)를 포함하는 특징 벡터를 추출하는 단계
    를 포함하는 패킷 손실 복원 방법.
  7. 제1항에 있어서,
    상기 딥신경망은,
    복수의 레이어들(layers)이 적층된 구조를 가지며,
    첫번째 레이어는 가우시안-베르누이(Gaussian Bernoulli) RBM이고,
    상기 복수의 레이어들 중 상기 첫번째 레이어를 제외한 나머지 레이어들은, 베르누이-베르누이 RBM 레이어인 것
    을 특징으로 하는 패킷 손실 복원 방법.
  8. 제1항, 제3항 내지 제7항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  9. 음성 통신시 패킷 손실이 발생한 타겟 프레임으로부터 특징 벡터들을 추출하고, 상기 타겟 프레임 이전에 수신된 적어도 하나의 이전 프레임으로부터 특징 벡터들을 추출하는 특징 벡터 추출부; 및
    상기 이전 프레임으로부터 추출된 특징 벡터들, 상기 타겟 프레임으로부터 추출된 특징 벡터들, 및 딥신경망(Deep Neural Network)을 이용하여 손실된 패킷을 복원하는 복원부
    를 포함하고,
    상기 복원부는,
    상기 이전 프레임으로부터 추출된 특징 벡터들을 딥신경망의 입력으로, 상기 타겟 프레임으로부터 추출된 특징 벡터들을 출력으로 설정하고, 상기 입력 및 출력으로 설정된 각 특징 벡터들에 기초하여 딥신경망의 가중치들을 훈련시킴으로써 딥신경망(DNN) 모델을 생성하고, 생성된 딥신경망(DNN) 모델에 기초하여 상기 손실된 패킷을 복원하는 것
    을 특징으로 하는 패킷 손실 복원 장치.
  10. 삭제
  11. 제9항에 있어서,
    상기 복원부는,
    CD(contrastive divergence) 기법에 기초하여 상기 가중치들을 사전 훈련(pre-training)시키고, 상기 사전 훈련된 가중치들을 미세 조정(fine-tuning)하여 최소평균제곱오차(Minimum Mean Square Error)를 계산하고, 상기 최소평균제곱오차에 기초하여 딥신경망의 가중치들을 업데이트하는 것
    을 특징으로 하는 패킷 손실 복원 장치.
  12. 제9항에 있어서,
    상기 복원부는,
    상기 딥신경망에 기초하여 손실된 패킷의 위상(phase) 및 로그 파워 스펙트라(log power spectra)를 추정하고, 상기 추정된 위상 및 로그 파워 스펙트라를 역 퓨리에 변환하여 상기 손실된 패킷을 복원하는 것
    을 특징으로 하는 패킷 손실 복원 장치.
  13. 제9항에 있어서,
    상기 복원된 패킷에 대해 크로스 페이딩(cross fading)을 수행하는 크로스 페이딩부
    를 더 포함하는 패킷 손실 복원 장치.
  14. 제9항에 있어서,
    상기 특징 벡터 추출부는,
    상기 타겟 프레임 또는 상기 이전 프레임을 퓨리에 변환(Fourier Transform)하고, 상기 퓨리에 변환 계수로부터 위상(phase) 및 로그 파워 스펙트라(log power spectra)를 포함하는 특징 벡터를 추출하는 것
    을 특징으로 하는 패킷 손실 복원 장치.
  15. 제9항에 있어서,
    상기 딥신경망은,
    복수의 레이어들(layers)이 적층된 구조를 가지며,
    첫번째 레이어는 가우시안-베르누이(Gaussian Bernoulli) RBM이고,
    상기 복수의 레이어들 중 상기 첫번째 레이어를 제외한 나머지 레이어들은, 베르누이-베르누이 RBM 레이어인 것
    을 특징으로 하는 패킷 손실 복원 장치.
KR1020150017315A 2015-02-04 2015-02-04 딥신경망에 기초한 패킷 손실 은닉 방법 및 장치 KR101591626B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150017315A KR101591626B1 (ko) 2015-02-04 2015-02-04 딥신경망에 기초한 패킷 손실 은닉 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150017315A KR101591626B1 (ko) 2015-02-04 2015-02-04 딥신경망에 기초한 패킷 손실 은닉 방법 및 장치

Publications (1)

Publication Number Publication Date
KR101591626B1 true KR101591626B1 (ko) 2016-02-04

Family

ID=55356273

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150017315A KR101591626B1 (ko) 2015-02-04 2015-02-04 딥신경망에 기초한 패킷 손실 은닉 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101591626B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101720514B1 (ko) 2016-02-26 2017-04-11 서강대학교산학협력단 Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법
CN109214501A (zh) * 2017-06-29 2019-01-15 北京京东尚科信息技术有限公司 用于识别信息的方法和装置
KR20190017242A (ko) * 2017-08-10 2019-02-20 한양대학교 산학협력단 대립쌍 구조 기반의 생성모델을 이용한 패킷손실은닉 방법 및 장치
CN111260556A (zh) * 2020-01-16 2020-06-09 中国科学院长春光学精密机械与物理研究所 一种基于深度卷积神经网络的傅里叶叠层显微重建方法
KR102124497B1 (ko) * 2020-03-02 2020-06-18 엔에이치네트웍스 주식회사 영상 개선 장치
US10691971B2 (en) 2016-11-28 2020-06-23 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object
CN112751648A (zh) * 2020-04-03 2021-05-04 腾讯科技(深圳)有限公司 一种丢包数据恢复方法和相关装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101720514B1 (ko) 2016-02-26 2017-04-11 서강대학교산학협력단 Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법
US10691971B2 (en) 2016-11-28 2020-06-23 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object
CN109214501A (zh) * 2017-06-29 2019-01-15 北京京东尚科信息技术有限公司 用于识别信息的方法和装置
CN109214501B (zh) * 2017-06-29 2021-11-30 北京京东尚科信息技术有限公司 用于识别信息的方法和装置
KR20190017242A (ko) * 2017-08-10 2019-02-20 한양대학교 산학협력단 대립쌍 구조 기반의 생성모델을 이용한 패킷손실은닉 방법 및 장치
KR102051891B1 (ko) 2017-08-10 2019-12-04 한양대학교 산학협력단 대립쌍 구조 기반의 생성모델을 이용한 패킷손실은닉 방법 및 장치
CN111260556A (zh) * 2020-01-16 2020-06-09 中国科学院长春光学精密机械与物理研究所 一种基于深度卷积神经网络的傅里叶叠层显微重建方法
CN111260556B (zh) * 2020-01-16 2021-09-28 中国科学院长春光学精密机械与物理研究所 一种基于深度卷积神经网络的傅里叶叠层显微重建方法
KR102124497B1 (ko) * 2020-03-02 2020-06-18 엔에이치네트웍스 주식회사 영상 개선 장치
CN112751648A (zh) * 2020-04-03 2021-05-04 腾讯科技(深圳)有限公司 一种丢包数据恢复方法和相关装置
CN112751648B (zh) * 2020-04-03 2023-09-19 腾讯科技(深圳)有限公司 丢包数据恢复方法和相关装置、设备及存储介质

Similar Documents

Publication Publication Date Title
KR101591626B1 (ko) 딥신경망에 기초한 패킷 손실 은닉 방법 및 장치
KR102051891B1 (ko) 대립쌍 구조 기반의 생성모델을 이용한 패킷손실은닉 방법 및 장치
WO2012050784A2 (en) Progressive encoding of audio
KR20100105496A (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법
US20230377584A1 (en) Real-time packet loss concealment using deep generative networks
CN114267372A (zh) 语音降噪方法、系统、电子设备和存储介质
CN113763973A (zh) 音频信号增强方法、装置、计算机设备和存储介质
JP2002118517A (ja) 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
CN112751820B (zh) 使用深度学习实现数字语音丢包隐藏
JP2005506581A (ja) 正弦波モデルパラメータの周波数差分符号化
Nguyen et al. Improving performance of real-time full-band blind packet-loss concealment with predictive network
KR102613030B1 (ko) 적대적 학습 기법을 이용한 음성 합성 방법 및 장치
EP3281196A1 (en) Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation
Sinha et al. Wavelet based Speech Coding technique using median function thresholding
JP2003133963A (ja) グラフィックアニメーションデータの符号化及び復号装置並びにその方法
KR102078350B1 (ko) 음성 신호 대역폭 확장 장치 및 방법
KR101591597B1 (ko) G.722 코덱 패킷손실은닉 및 최급강하법을 이용한 적응형 뮤팅 시스템 및 방법
JP7490894B2 (ja) 深層生成ネットワークを用いたリアルタイムパケット損失隠蔽
CN113724716B (zh) 语音处理方法和语音处理装置
CN117544603A (zh) 一种语音通信系统及方法
KR101805631B1 (ko) 주파수 영역 변환 기법 및 시간 영역 변환 기법을 전환하며 오디오 신호를 부호화하는 장치 및 방법
KR101414375B1 (ko) 대역 확장 기법을 이용한 부호화/복호화 장치 및 방법
Soltanmohammadi et al. Low-complexity streaming speech super-resolution
JP4054919B2 (ja) 音声処理装置及び音声符号化方法
KR20220022337A (ko) 자기부호화기를 이용한 비트 열 기반의 변형 음성 부호화기, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190102

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 5