KR100729555B1 - 음성 품질의 객관적인 평가방법 - Google Patents

음성 품질의 객관적인 평가방법 Download PDF

Info

Publication number
KR100729555B1
KR100729555B1 KR1020050102755A KR20050102755A KR100729555B1 KR 100729555 B1 KR100729555 B1 KR 100729555B1 KR 1020050102755 A KR1020050102755 A KR 1020050102755A KR 20050102755 A KR20050102755 A KR 20050102755A KR 100729555 B1 KR100729555 B1 KR 100729555B1
Authority
KR
South Korea
Prior art keywords
speech
packet loss
quality
voice
evaluating
Prior art date
Application number
KR1020050102755A
Other languages
English (en)
Other versions
KR20070046272A (ko
Inventor
이민기
김경태
강홍구
박영철
윤대희
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020050102755A priority Critical patent/KR100729555B1/ko
Publication of KR20070046272A publication Critical patent/KR20070046272A/ko
Application granted granted Critical
Publication of KR100729555B1 publication Critical patent/KR100729555B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

본 발명은 객관적인 음성 품질의 평가방법에 관한 것으로서, 더욱 상세하게는 원음에 대한 정보를 제공받지 아니하고 합성된(왜곡된) 음성에 대한 정보만으로 패킷 손실에 가중치를 부여함으로써 음성 품질을 평가하는 객관적인 음성 품질의 평가방법에 관한 것이다.
이를 위해, 본 발명은 객관적인 음성 품질의 평가방법에 있어서, 음성 복호화기에서 통신채널을 통과한 음성 신호를 복호하고 매 프레임마다 음성 신호를 합성하는 제 1 단계; 음성 특성 분류기에서 상기 1 단계에서 합성된(왜곡된) 음성신호를 통계적 특성에 따라서 분류하는 제 2 단계; 패킷 손실 감지기에서 상기 음성 복호화기를 통과하여 합성된 왜곡음을 받아 상기 음성 복호화기를 통과하면서 발생한 패킷 손실의 발생 여부를 감지하는 제 3 단계;및 상기 제 3 단계에서 패킷 손실이 감지되면 상기 패킷 손실에 가중치를 부여함으로써 음성 품질을 평가하는 제 4 단계를 포함하여 이루어지는 것을 특징으로 하는 객관적인 음성 품질의 평가방법을 제공한다.
음성 품질, 음성 품질 평가, 싱글 엔드, 더블 엔드, 패킷 손실, 가중치, 비침입적, 침입적, 객관적, 주관적 평가 방법

Description

음성 품질의 객관적인 평가방법{Method for Objective Speech Quality Assessment}
도 1은 싱글 엔드 방식과 더블엔드 방식을 나타낸 블록도.
도 2는 본 발명에 따른 객관적인 음성 품질의 평가방법에서 음성 품질을 평가하는 과정의 흐름도.
도 3은 음성 특성을 고려하여 가중치를 부여하는 예를 나타낸 도면.
도 4는 본 발명에 따른 객관적인 음성 품질의 평가방법의 시뮬레이션에 의한 PESQ-LQ와의 분포도를 나타낸 그래프.
<도면의 주요부분에 대한 부호의 설명>
210 : 복호단계 220 : 분류단계
230 : 감지단계 240 : 평가단계
본 발명은 객관적인 음성 품질의 평가방법에 관한 것으로서, 더욱 상세하게 는 원음에 대한 정보를 제공받지 아니하고 합성된(왜곡된) 음성에 대한 정보만으로 패킷 손실에 가중치를 부여함으로써 음성 품질을 평가하는 객관적인 음성 품질의 평가방법에 관한 것이다.
음성 품질평가방법에는 여러 사용자의 반복 청취 실험을 통한 주관적 음성 품질평가방법이 있다. 일반적으로 MOS(Mean Opinion Score) 평가방법이 사용되는 데, 이는 ITU-T P.800에서 공식화 된 것으로 실험자가 왜곡된 음성 신호를 들은 후 음성 신호의 왜곡 정도를 아래의 표 1과 같이 1단계에서 5단계로 주관적으로 평가하는 방법이다.
Figure 112005062195631-pat00001
그러나 이 방법은 이용자의 체감 음성 품질과 직접적인 관계가 있다는 장점에도 불구하고, 다양한 환경에서 반복해서 수행하기에는 많은 시간과 노력 및 비용이 소모되므로 실제 적용에는 한계를 나타낸다.
따라서 이러한 문제를 극복하기 위하여 주관적으로 평가된 MOS를 평가할 수 있는 객관적 음성 품질평가방법들이 도입되었으며, 구체적인 평가방법은 시간 영역에서의 평가방법, 주파수 영역에서의 평가방법 및 심리음향(psychoacoustic) 영역에서의 평가방법으로 구분된다. 이 중 심리음향 영역에서의 평가가 원음과 왜곡음의 대수적인 차이를 구하는 방법에 있어서 주관적인 음성 품질을 가장 잘 표현하는 것으로 알려져 주로 사용된다.
이러한 심리음향 영역에서의 평가방법은 여러 가지 ITU-T에서 표준화된 알고리즘들이 존재하며, 대표적으로 ITU-T P.862에 의하여 표준화된 더블 엔드(double ended) 방식으로 알려진 침입적(intrusive) 방식의 알고리즘을 들 수 있다. 상기 ITU-T P.862는 PESQ(Perceptual Evaluation of Quality)라고 알려져 있으며 송신단에서 사용된 원음과 수신단에서 합성된 왜곡음을 심리음향 영역에서 비교하는 알고리즘이다.
그러나 상기 PESQ는 심리음향 영역에서 원음과 왜곡음의 대수적인 차이를 구하여 체감 음성 품질을 평가하지만 매번 송신단의 원음과 수신단의 왜곡음을 비교하는 침입적방식이기 때문에 네트워크에 별도의 부하가 작용하거나 송신단과 수신단의 동기화 등과 같은 문제점들이 있다.
이러한 상기 PESQ의 문제점을 해결하고자 ITU-T P.563에 의하여 표준화된 싱글 엔드(single ended) 방식으로 알려진 비침입적(Non-intrusive) 방식의 알고리즘이 개발되었으며, 상기 알고리즘은 원음에 대한 정보 없이 왜곡음에 대한 정보만으로 음성 품질을 평가하는 알고리즘이다. 이것은 도 1의 싱글 엔드 방식과 더블엔드 방식을 나타낸 블록도를 참조하면 분명히 알 수 있다.
그러나 상기 싱글 엔드 방식의 경우 원음에 대한 정보 없이 음성 품질을 평가하는 대신 의사기준음(Pseudo reference signal)을 추정하고 상기 의사기준음과 왜곡음의 차이를 통하여 잡음의 양을 계산하는 방식이므로 상기 PESQ과 비하여 주관적 음성 품질과의 상관도가 떨어지는 문제점이 있다.
본 발명은 상기와 같은 점을 감안하여 안출한 것으로서, 심리 음향 영역의 음성 품질의 평가방법에 있어서 싱글 엔드 방식을 기초로 하여 원음에 대한 정보를 제공받지 아니하고 음성 복호화기에서 합성된(왜곡된) 음성에 대한 정보만을 가지고 패킷 손실이 발생한 경우 음성 품질 저하도와 여러 가지 방법에 의하여 결정된 가중치에 의하여 음성 품질을 평가하는 객관적인 음성 품질의 평가방법을 제공하는데 그 목적이 있다.
이하, 본 발명에 따른 객관적인 음성 품질의 평가방법의 바람직한 실시예를 첨부도면을 참조로 상세하게 설명한다.
첨부한 도 2는 본 발명에 따른 객관적인 음성 품질의 평가방법에서 음성 품질을 평가하는 과정의 흐름도이다. 본 발명에 따른 객관적인 음성 품질의 평가방법은 음성 신호를 복호하는 제 1 단계(S210), 음성 특성에 따라서 분류하는 제 2 단계(S220), 패킷의 손실 여부를 감지하는 제 3 단계(S230), 패킷 손실이 발생한 경우 음성 품질을 평가하는 제 4 단계(S240)로 이루어진다.
상기 제 1 단계(S210)에서는 음성 복호화기에서 통신채널을 통과한 음성 신 호를 복호하는 단계이며, 상기 음성 신호는 프레임 단위의 음성 정보를 가지고 있다. 이 경우 상기 음성 복호화기를 통과한 상기 음성 신호는 매 프레임마다 합성된(왜곡된) 음성 신호를 출력한다.
그러나 상기 음성 신호의 프레임 정보가 손실되면 상기 음성 복호단계에서는 이러한 손실을 감소시키기 위하여 과거 사용된 음성 정보 중에서 적당한 프레임을 선택하여 다시 사용한다.
상기 방식의 알고리즘을 패킷 손실 은닉 알고리즘(packet-loss concealment algorithm)이라고 하며, 구체적인 절차는 프레임의 음성 정보가 손실되어 패킷 손실이 발생하면 송신단의 음성 부호화기는 패킷 손실을 은닉하기 위하여 상기 패킷 손실 은닉 알고리즘에 따라 이전 프레임의 음성 정보를 가지고 손실된 음성 정보를 재구성하는 것이다. 여기서 재구성된 음성이 시불변적 특성이라면 재구성된 음성 정보는 신뢰할 수 있을 것이나 상기 재구성된 음성이 시변적 특성이라면 재구성된 음성 정보는 신뢰할 수 없다.
또한 상기 제 1 단계(S210)에서는 특정의 부호화기에 따라서 결정되는 패킷 손실 은닉 알고리즘에 의하여 음성신호를 합성하며, 이 때 특정의 부호화기는 사용되는 음성 시스템에 따라서 정해지는 부호화기를 말한다. 예를 들어 사용되는 음성 시스템이 인터넷 전화, 이동 통신 등과 같은 경우에 각각 사용되는 특정의 부호화기를 의미한다.
상기 제 2 단계(S220)는 음성 특성 분류단계로서 상기 제 1 단계에서 상기 음성 복호화기를 통과하여 합성된(왜곡된) 왜곡음을 받아 통계적 특성에 따라서 분 류하는 단계이다.
상기 통계적 특성은 예를 들어 SMV(Selective Mode Vocoder)에서 사용되는 프레임 분류를 사용할 수 있다. 여기서 SMV에 의한 분류방법에 대하여 살펴보면, 묵음(silence), 잡음성 무성음(Noise-like unvoiced), 무성음(Unvoiced), 온셋(Onset), 시변 유성음(Non-stationary voiced), 유성음(Voiced)과 같이 5가지로 분류되며 아래 표 2와 같다. 여기서 4번은 쓰이지 아니하므로 생략한다.
Figure 112005062195631-pat00002
그러나 음성 특성을 분류하는 통계적 특성은 상기 SMV 방법만이 사용되는 것은 아니고 사용하고자 하는 음성 시스템에 따라서 다른 통계적 특성이 사용될 수 있다. 예를 들어 음성 복호화기에서 수신된 여러 가지 파라미터만을 가지고 음성 특성을 분류할 수도 있다.
상기 제 3 단계(S230)는 패킷 손실 감지기에서 상기 음성 복호화기에서 합성된 왜곡음의 패킷 손실 여부를 감지하는 단계이며, 이 단계에서는 상기 음성 복호화기에서의 패킷 손실의 유무만을 판단한다.
이어서 (S231)단계에서는 상기 패킷 손실 여부를 판단하여 패킷 손실이 발생하였다면 (S240)단계로 진행하고 패킷 손실이 발생하지 아니한 경우는 본 발명의 특징이 아니므로 설명을 생략한다.
상기 제 4 단계(S240)에서는 패킷 손실이 발생한 경우 패킷 손실에 가중치를 부여함으로써 음성 품질을 평가하는 단계이며, 프레임의 음성 품질의 저하도를 결정하는 제 4-1 단계(S241), 음성 신호의 수신자가 체감하는 음성 품질의 저하량을 결정하는 제 4-2 단계(S242) 및 상기 음성 품질 저하량을 가지고 회귀분석을 수행하여 MOS값을 구하여 음성 품질을 평가하는 제 4-3 단계(S243)로 이루어져 있다.
상기 제 4-1 단계(S241)에서는 상기 제 3 단계에서 패킷 손실이 감지되어 음성 신호에서 패킷 손실이 발생한 경우 패킷 손실이 발생한 이전 이후의 음성 특성을 고려하여 현재 프레임의 음성 품질의 저하도(dpkloss(n))를 결정한다. 여기서 상기 음성 품질의 저하도(dpkloss(n))가 패킷 손실 가중치를 의미한다.
특히, 상기 제 4-1 단계(S241)에서 상기 패킷 손실가중치를 결정하는 방법으로는 음성 특성에 따라서 결정되는 방법, 확률 모델에 따라서 결정되는 방법이 있다.
먼저 상기 패킷 손실 가중치가 음성 특성에 따라서 결정되는 방법에 대하여 살펴본다. 일반적으로 사람은 통화하면서 일정 시간 동안 발생한 통화 품질의 저하는 기억하지만 일정 시간이 길어지게 되면 상기 일정 시간 동안의 통화 품질의 저하는 기억하지 못한다.
따라서 일정 구간(예를 들어 8초) 동안의 음성 품질 저하도의 합을 구하여 음성 품질 저하량을 구하거나 최근의 음성 품질 저하도에 패킷 손실 가중치를 일정한 부여(예를 들어 1)하고 과거로 갈수록 패킷 손실 가중치를 작은 가중치로 부여(예를 들어 0에 가깝게)하여 음성 품질 저하도의 합을 구하는 방법이다.
도 3은 이러한 음성 특성을 고려하여 패킷 손실 가중치를 부여하는 예를 나타낸 도면이다. 여기서 y축은 패킷 손실 가중치를 나타내고 x축은 상기 표 2의 음성의 특성을 나타내며, (a)는 잡음성-무성음인 경우, (b)는 무성음인 경우, (c)는 온셋인 경우, (d)는 시변 유성음인 경우, (e)는 시불변 유성음인 경우를 나타낸다. 특히, 상기 도 3을 참조하면 (c)온셋인 경우와 같이 갑자기 음성이 변하는 구간의 가중치 값이 큰 것을 알 수 있다.
여기서 보통 음성 구간에서 가장 많이 관찰되는 상태변화인 6-6-6(이 때 6은 상기 음성 특성 분류단계에서의 SMV의 6등급 유성음을 말하며 나머지 0, 1, 2, 3, 5도 마찬가지이다.)을 기준 상태 1로 가중치를 두고 다른 상태변화의 패킷 손실 가중치를 나타낸다.
이와 더불어, 상기 패킷 손실이 연속적으로 발생한 경우 도 3의 패킷 손실 가중치에 발생한 횟수를 곱하여 음성 품질 저하량을 결정할 수도 있고, 또는 발생한 횟수를 그대로 곱하는 것이 아니라 여러 차례의 실험을 거쳐서 최적의 가중치를 찾아내어 새로운 가중치를 부여하여 음성 품질 저하량을 결정할 수도 있다.
다음으로 상기 패킷 손실 가중치가 확률 모델에 따라서 결정되는 방법에 대하여 살펴본다. 상기 음성 특성을 따라서 패킷 손실 가중치를 결정하는 방법과 달리 확률 모델에 따라서 패킷 손실을 결정하는 방법은 패킷 손실 이전/이후 상태를 알고 있을 경우에 음성 품질을 평가하는 방법이다.
예를 들어 이전의 음성 특성을 1, 이후의 음성 특성을 6이라고 설정하고 현재의 음성 특성 값은 2 또는 5가 될 수 있다고 가정을 한 때, 현재의 음성 특성이 2가 될 확률이 30%, 5가 될 확률이 70%라고 하자. 이 때 1-2-6에 대한 패킷 손실 가중치와 1-5-6에 대한 패킷 손실 가중치 둘 중 하나를 선택하여야 할 경우 확률이 높은 1-5-6에 대한 패킷 손실 가중치를 구하거나 0.3, 0.7의 확률에 대한 가중치를 통하여 패킷 손실 가중치를 구할 수 있다. 결국 상기와 같이 확률 모델에 따라 패킷 손실 가중치를 부여하여 음성 품질의 평가을 할 수 있는 것이다.
상기 제 4-2 단계(S242)에서는 상기 제 4-1 단계(S241)에서 결정한 음성 품질의 저하도(패킷 손실 가중치)와 과거 일정 구간 N개 프레임에서의 시간 가중치를 곱한 후 합산하여 음성 품질의 저하량(d(n))을 결정한다. 상기 음성 품질의 저하량(d(n))을 구하는 식은 아래 수학식 1과 같다.
Figure 112005062195631-pat00003
여기서 Wm은 시간 가중치를 나타내고 dpkloss(n)는 음성 품질의 저하도(패킷 손실 가중치)이다.
상기 시간 가중치를 이용하여 전체적인 음성 품질의 저하량을 구하는 방법에 대하여 살펴본다. 현재 체감하는 음성 품질의 저하량을 구하기 위하여 정해진 일정 시간 동안(예를 들어 8초)의 음성 품질의 저하도(패킷 손실 가중치)를 나타내는 상기 가중치를 누적한다. 이렇게 합산하는 과정에서 정해진 일정 시간을 넘기지 않으면 수학식 1의 시간 가중치(Wm)를 1로 설정하여 전체적인 음성 품질의 저하량을 계산한다.
하지만 일정 시간을 넘긴 긴 음성에 대해서는 상기 시간가중치(Wm)를 시간에 따라 다른 값을 부여하여 가장 최근의 상기 가중치가 과거의 상기 가중치보다 더 반영된 시간가중치를 사용한다. 예를 들어 현재로부터 8초 이내의 시간가중치는 1, 8초 이전의 시간가중치는 1보다 작은 값을 사용할 수 있다.
상기 제 4-3 단계(S243)에서는 상기 제 4-2 단계에서 결정된 상기 음성 품질 저하량의 회귀분석을 수행하여 음성 품질을 평가하는 단계로서, 주관적 음성 품질 평가의 기준인 MOS값을 구하여 음성 품질을 평가하는 단계이다. 아래의 수학식 2는 P차 회귀분석을 통하여 상기 MOS 값을 구하는 수식이다.
Figure 112005062195631-pat00004
여기서 d(n)은 음성 품질의 저하량이고 αk는 차수에 따른 회귀분석 계수이다. 또한 상기 회기분석에 사용되는 회귀분석식은 음성 분류방법의 종류 및 음성 부호화기의 종류에 따라서 달라진다.
도 4는 본 발명에 따른 객관적인 음성 품질의 평가방법의 시뮬레이션에 의한 PESQ-LQ와의 분포도를 나타낸 그래프이다. 여기서 x축은 본 발명에 따른 음성 품질의 평가값 (PKLOSS-MOS-EST)이고 y축은 PESQ-LQ에 따른 음성 품질의 평가값이다.
실험을 위하여 ITU-T에서 사용한 Coded Speech Data(ITU-T supplement 23)의 음성 샘플을 사용하였으며 영어를 사용하는 여성화자 2명, 남성화자 2명으로 구성되어 있다. 여기서 패킷 손실은 0~10 %까지 총 64000번 랜덤하게 발생시켜 G. 729 음성 부호화기로 복호화시킨 음성 샘플을 사용하였다.
이 때 PESQ 방법은 상술한 바와 같이 원음과 왜곡음을 동시에 요구하는 더블 엔드(또는 침입적) 방식으로 현재 ITU-T에서 주관적 음성 품질과의 상관도가 0.9~0.95로 알려질 정도로 정확한 음성 품질 평가방법이며, 최근 사람의 체감음성 품질을 좀 더 반영한 스케일인 LQ(Listening Quality)로의 변환된 방법이 제안되었다. 따라서 상기 PESQ-LQ와 본 발명에 따른 음성 품질의 객관적인 평가방법과의 상관도를 구함으로써 본 발명과 주관적 음성 품질과의 상관도를 간접적으로 구한 것이다.
상기 도 4는 최종 회귀분석을 통해 본 발명에 따른 객관적인 음성 품질의 평가방법에 의하여 평가된 MOS값과 PESQ-LQ에 의하여 평가된 MOS값의 분포도를 나타낸 것이며, 이 때 상관도는 0.9116)이었다.
결국 상기 본 발명에 따른 객관적인 음성 품질의 평가방법에 의하여 평가된 MOS값과 PESQ-LQ에 의하여 평가된 MOS값의 상관도가 0.9116이라는 것은 본 발명에 따른 객관적인 음성 품질의 평가방법과 주관적 음성 품질과의 상관도 또한 1에 가까운 값을 얻을 수 있으므로 본 발명에 따른 객관적인 음성 품질의 평가방법에 의 하여 주관적 음성 품질을 평가할 수 있다고 할 것이다.
이상 본 발명을 바람직한 실시예를 사용하여 설명하였지만, 본 발명의 범위는 특정 실시예에 한정되는 것은 아니며, 첨부된 특허청구범위에 의해서 해석되어야 할 것이다.
이상에서 본 바와 같이, 본 발명에 따른 객관적인 음성 품질의 평가방법에 의하면, 합성된 음성 신호에 대한 정보와 패킷 손실에 대한 정보만 음성 품질의 평가함으로써 연산량이 적고 실시간으로 MOS값을 결정할 수 있는 효과가 있다.
또한 발명에 따른 객관적인 음성 품질의 평가방법은 싱글 엔드 방식을 제공하면서 동시에 패킷 손실에 대한 가중치의 파라미터를 이용한 방식을 제공함으로써 싱글 엔드 방식의 단점인 주관적 음성 품질과의 상관도를 높이는 효과가 있다.

Claims (8)

  1. 객관적인 음성 품질의 평가방법에 있어서,
    음성 복호화기에서 통신채널을 통과한 음성 신호를 복호하고 매 프레임마다 음성 신호를 합성하되, 특정의 부호화기에 따라서 결정되는 패킷 손실 은닉 알고리즘에 의하여 음성신호를 합성하는 제 1 단계;
    음성 특성 분류기에서 상기 제 1 단계에서 합성된(왜곡된) 음성신호를 통계적 특성에 따라서 분류하는 제 2 단계;
    패킷 손실 감지기에서 상기 음성 복호화기를 통과하여 합성된 왜곡음을 받아 상기 음성 복호화기를 통과하면서 발생한 패킷 손실의 발생 여부를 감지하는 제 3 단계;
    상기 제 3 단계에서 패킷 손실이 감지되면 상기 패킷 손실에 가중치를 부여함으로써 음성 품질을 평가하되, 상기 제 3 단계에서 감지된 패킷 손실에 의하여 음성 품질의 저하도(패킷 손실 가중치)를 결정하는 제 4-1 단계와, 상기 제 4-1 단계에서 결정된 음성 품질의 저하도 (패킷 손실 가중치)와 시간 가중치를 곱한 후 합산하여 음성 품질 저하량을 결정하는 제 4-2 단계와, 상기 제 4-2 단계에서 결정된 음성 품질 저하량의 회귀분석을 수행하여 음성 품질을 평가하는 제 4-3 단계로 이루어지는 제 4 단계;
    를 포함하여 이루어지는 것을 특징으로 하는 객관적인 음성 품질의 평가방법.
  2. 삭제
  3. 삭제
  4. 청구항 1에 있어서, 상기 제 4-1 단계의 패킷 손실 가중치는
    상기 제 3 단계에서 감지된 패킷 손실이 발생한 이전/이후의 적어도 하나 이상의 프레임에서 분류된 음성 특성에 따라서 결정되는 것을 특징으로 하는 객관적인 음성 품질의 평가방법.
  5. 청구항 4에 있어서, 상기 패킷 손실이
    연속적으로 발생하면 상기 패킷 손실 가중치에 발생한 횟수를 곱하는 것을 특징으로 하는 객관적인 음성 품질의 평가방법.
  6. 청구항 4에 있어서, 상기 패킷 손실이
    연속적으로 발생하면 최적의 가중치를 사용하는 것을 특징으로 하는 객관적인 음성 품질의 평가방법.
  7. 청구항 1에 있어서, 상기 제 4-1 단계의 패킷 손실 가중치는
    상기 제 3 단계에서 감지된 패킷 손실의 확률 모델에 따라서 결정되는 것을 특징으로 하는 객관적인 음성 품질의 평가방법.
  8. 청구항 1에 있어서, 상기 제 4-2 단계의 시간 가중치는
    시간 변화에 따라 음질의 저하의 인지도가 변하는 것을 특징으로 하는 객관적인 음성 품질의 평가방법.
KR1020050102755A 2005-10-31 2005-10-31 음성 품질의 객관적인 평가방법 KR100729555B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050102755A KR100729555B1 (ko) 2005-10-31 2005-10-31 음성 품질의 객관적인 평가방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050102755A KR100729555B1 (ko) 2005-10-31 2005-10-31 음성 품질의 객관적인 평가방법

Publications (2)

Publication Number Publication Date
KR20070046272A KR20070046272A (ko) 2007-05-03
KR100729555B1 true KR100729555B1 (ko) 2007-06-19

Family

ID=38271636

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050102755A KR100729555B1 (ko) 2005-10-31 2005-10-31 음성 품질의 객관적인 평가방법

Country Status (1)

Country Link
KR (1) KR100729555B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090041016A1 (en) * 2007-08-07 2009-02-12 Texax Instruments Incorporated Method, system and device to track and record user call experience

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010074412A (ko) * 2000-01-25 2001-08-04 박종섭 심리 음향 캡스트럴 평균 차감법을 이용한 이동통신시스템에서의 음질 평가방법
KR20010076069A (ko) * 2000-01-25 2001-08-11 박종섭 이동통신 시스템에서 객관적 음질 평가 장치 및 그 방법
KR20010076068A (ko) * 2000-01-25 2001-08-11 박종섭 객관적 음질 평가 척도를 이용한 주관적 음질 예측방법
KR20040004353A (ko) * 2001-05-01 2004-01-13 필립스 일렉트로닉스 노쓰 아메리카 코포레이션 복합 객관적 비디오 품질 측정
KR20050001409A (ko) * 2003-06-25 2005-01-06 루센트 테크놀러지스 인크 객관적으로 음성 품질을 평가하는 방법 및 객관적 음성품질 평가 시스템
KR20050012712A (ko) * 2002-07-01 2005-02-02 루센트 테크놀러지스 인크 음성 품질 평가를 위한 발음 종속 조음 보상

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010074412A (ko) * 2000-01-25 2001-08-04 박종섭 심리 음향 캡스트럴 평균 차감법을 이용한 이동통신시스템에서의 음질 평가방법
KR20010076069A (ko) * 2000-01-25 2001-08-11 박종섭 이동통신 시스템에서 객관적 음질 평가 장치 및 그 방법
KR20010076068A (ko) * 2000-01-25 2001-08-11 박종섭 객관적 음질 평가 척도를 이용한 주관적 음질 예측방법
KR20040004353A (ko) * 2001-05-01 2004-01-13 필립스 일렉트로닉스 노쓰 아메리카 코포레이션 복합 객관적 비디오 품질 측정
KR20050012712A (ko) * 2002-07-01 2005-02-02 루센트 테크놀러지스 인크 음성 품질 평가를 위한 발음 종속 조음 보상
KR20050001409A (ko) * 2003-06-25 2005-01-06 루센트 테크놀러지스 인크 객관적으로 음성 품질을 평가하는 방법 및 객관적 음성품질 평가 시스템

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
10-2001-74412
10-2001-76068
10-2001-76069
10-2004-4353
10-2005-12712
10-2005-1409
SK Telecom, 음성 품질 측정 알고리듬 인증 연구 (1999.11.9)
한국과학기술원 석사학위논문, 백금란, CDMA 이동통신 시스템에서의 FRAME ERASURE를 고려한 음질평가척도 (1999.2)

Also Published As

Publication number Publication date
KR20070046272A (ko) 2007-05-03

Similar Documents

Publication Publication Date Title
JP4307557B2 (ja) 音声活性度検出器
Yang et al. Performance of the modified bark spectral distortion as an objective speech quality measure
US20020184015A1 (en) Method for converging a G.729 Annex B compliant voice activity detection circuit
US6807525B1 (en) SID frame detection with human auditory perception compensation
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
JP2009500952A (ja) 音声品質評価方法および音声品質評価システム
KR101430321B1 (ko) 오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템
JPH09505701A (ja) 電気通信装置の試験
JP2009525633A (ja) 不侵入の信号の品質評価
Kokkinakis et al. Evaluation of objective measures for quality assessment of reverberant speech
RU2312405C2 (ru) Способ осуществления машинной оценки качества звуковых сигналов
US8744846B2 (en) Procedure for processing noisy speech signals, and apparatus and computer program therefor
Sharma et al. Data driven method for non-intrusive speech intelligibility estimation
US20080267425A1 (en) Method of Measuring Annoyance Caused by Noise in an Audio Signal
US20090161882A1 (en) Method of Measuring an Audio Signal Perceived Quality Degraded by a Noise Presence
Ding et al. Non-intrusive single-ended speech quality assessment in VoIP
Beritelli et al. Performance evaluation and comparison of ITU-T/ETSI voice activity detectors
KR100729555B1 (ko) 음성 품질의 객관적인 평가방법
JP4761391B2 (ja) 受聴品質評価方法および装置
Kim A cue for objective speech quality estimation in temporal envelope representations
Reimes et al. The relative approach algorithm and its applications in new perceptual models for noisy speech and echo performance
Ding et al. Objective measures for quality assessment of noise-suppressed speech
Close et al. Hallucination in Perceptual Metric-Driven Speech Enhancement Networks
Al-Akhras et al. Perceptual evaluation of speech enhancement
Beritelli et al. A psychoacoustic auditory model to evaluate the performance of a voice activity detector

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130417

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140430

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150616

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160714

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170712

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee