KR20050001409A - 객관적으로 음성 품질을 평가하는 방법 및 객관적 음성품질 평가 시스템 - Google Patents

객관적으로 음성 품질을 평가하는 방법 및 객관적 음성품질 평가 시스템 Download PDF

Info

Publication number
KR20050001409A
KR20050001409A KR1020040047555A KR20040047555A KR20050001409A KR 20050001409 A KR20050001409 A KR 20050001409A KR 1020040047555 A KR1020040047555 A KR 1020040047555A KR 20040047555 A KR20040047555 A KR 20040047555A KR 20050001409 A KR20050001409 A KR 20050001409A
Authority
KR
South Korea
Prior art keywords
speech
frame
distortion
objective
speech quality
Prior art date
Application number
KR1020040047555A
Other languages
English (en)
Other versions
KR101099325B1 (ko
Inventor
김도석
Original Assignee
루센트 테크놀러지스 인크
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 루센트 테크놀러지스 인크 filed Critical 루센트 테크놀러지스 인크
Publication of KR20050001409A publication Critical patent/KR20050001409A/ko
Application granted granted Critical
Publication of KR101099325B1 publication Critical patent/KR101099325B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 전체 음성 품질 평가를 지배할 수 있는 왜곡의 영향을, 이러한 왜곡의 영향을 주관적인 음성 품질 평가에 대해 모델링함으로써 반영하여, 객관적인 음성 품질 평가에서 언어 효과를 고려하는 객관적인 음성 품질 평가 기법이다.

Description

객관적으로 음성 품질을 평가하는 방법 및 객관적 음성 품질 평가 시스템{METHOD OF REFLECTING TIME/LANGUAGE DISTORTION IN OBJECTIVE SPEECH QUALITY ASSESSMENT}
본 발명은 일반적으로 통신 시스템, 특히 음성 품질 평가에 관한 것이다.
무선 통신 시스템의 성능은 특히 음성 품질로서 측정될 수 있다. 현재의 기술에서, 음성 품질 평가에 대해 두 개의 기법이 있다. 첫 번째 기법은 주관적인 기법이다(이하 "주관적인 음성 품질 평가"라고 지칭됨). 주관적인 음성 품질 평가에서, 처리되는 음성의 음성 품질을 평가하는데는 전형적으로 청취자가 이용되는데, 처리되는 음성은 수신기에서 처리된 송신된 음성 신호이다. 이 기법은 주관적인데 그 이유는 개개인의 지각에 기반을 두고, 모국어 청취자, 즉 제공 또는 청취되는 음성의 언어를 말하는 사람에 의한 음성 품질의 사람 평가는 전형적으로 언어 효과를 고려하기 때문이다. 청취자의 언어 지식은 주관적인 듣기 테스트에서의 점수에 영향을 준다고 연구 결과가 보여주었다. 음성에서 언어 정보가 부족한 경우, 즉 묵음인 경우 주관적인 듣기 테스트에서 모국어 청취자에 의해 주어진 점수는 비 모국어 청취자에 의해 주어진 점수에 비교해 더 낮았다. 정상적인 전화 대화에 있어서, 청취자는 보통 모국어 청취자이다. 그러므로, 전형적인 조건을 동등하게 하기 위해 주관적인 음성 품질 평가에 대해 모국어 청취자를 사용하는 것이 바람직하다. 주관적인 음성 품질 평가 기법은 음성 품질의 우수한 평가를 제공하지만 비용이 많이 들며 시간을 소비한다.
두 번째 기법은 객관적인 기법(이하 "객관적인 음성 품질 평가"라고 지칭됨)이다. 객관적인 음성 품질 평가는 개개인의 지각에 기반을 두지 않는다. 몇몇 객관적인 음성 품질 평가 기법은 알려져 있는 소스 음성 또는 처리되는 음성로부터 추정되는 재구성된 소스 음성에 기반을 둔다. 다른 객관적인 음성 품질 평가 기법은 알려져 있는 소스 음성이 아닌 처리되는 음성에만 기반을 둔다. 후자의 기법은 본 명세서에서 "단일 종단 객관적 음성 품질 평가(single-ended objective speech quality assessment techniques)"라 지칭되고, 알려져 있는 소스 음성 또는 재구성된 소스 음성이 이용가능하지 않은 경우 흔히 사용된다.
그러나, 현재의 단일 종단 객관적 음성 품질 평가 기법은 주관적 음성 품질 평가 기법에 비교해 우수한 음성 품질 평가를 제공하지 못한다. 현재의 단일 종단 객관적 음성 품질 평가 기법이 주관적인 음성 품질 평가 기법 만큼 우수하지 못한 하나의 이유는 전자의 기법이 언어 효과를 고려하지 않기 때문이다. 단일 종단 객관적 음성 품질 평가 기법은 음성 평가에서 언어 효과를 고려할 수 없었다.
따라서, 음성 품질의 평가에 있어서 언어 효과를 고려한 단일 종단 객관적인 음성 품질 평가 기법이 필요하다.
본 발명은 전체 음성 품질 평가를 지배할 수 있는 왜곡의 영향을, 이러한 왜곡의 영향을 주관적인 음성 품질 평가에 대해 모델링함으로써 반영하여, 객관적인 음성 품질 평가에서 언어 효과를 고려하는 객관적인 음성 품질 평가 기법이다. 일 실시예에서, 본 발명의 객관적인 음성 품질 기법은 음성 작용의 간격에서 엔벨로프 정보를 이용하여 왜곡을 검출하고 음성 작용에 연관된 객관적인 음성 품질 평가값을 수정하여 주관적인 음성 품질 평가에 대한 왜곡의 영향을 반영하는 단계를 포함한다. 일 실시예에서, 객관적인 음성 품질 평가 기법은 또한 쇼트 버스트, 급정지 및 급출발과 같은 왜곡 유형을 구별하고, 객관적인 음성 품질 평가값을 수정하여 주관적인 음성 품질 평가에 대한 왜곡의 각 유형의 상이한 영향을 반영한다.
도 1은 본 발명의 일 실시예에 따라 언어 효과를 고려한 객관적인 음성 품질 평가를 나타내는 흐름도,
도 2는 본 발명의 일 실시예에 따라 음성 신호와 연관된 엔벨로프 정보를 조사함으로써 음성 작용을 검출하는 음성 작용 검출기(VAD)를 예시하는 흐름도,
도 3은 음성 및 비 음성 작용의 각각의 간격(T 및 G)을 예시하는 VAD 작용 도면,
도 4는 음성 작용이 쇼트 버스트 또는 임펄스형 잡음인지를 결정하고 쇼트 버스트 또는 임펄스형 잡음이 결정되는 경우 객관적인 음성 프레임 품질 평가v s (m)를 수정하는 실시예를 예시하는 흐름도,
도 5는 음성 작용이 급정지 또는 묵음을 갖는지를 결정하고 이러한 음성 작용이 급정지 또는 묵음을 갖는 것으로 결정되는 경우 객관적인 음성 프레임 품질 평가v s (m)를 수정하는 실시예를 예시하는 흐름도,
도 6은 음성 작용이 급출발을 갖는지를 결정하고 이러한 음성 작용이 급출발을 갖는 것으로 결정되는 경우 객관적인 음성 프레임 품질 평가v s (m)를 수정하는 실시예를 예시하는 흐름도.
본 발명의 특징, 관점 및 장점은 후속하는 설명, 부가된 청구항 및 첨부한 도면을 통해 더 잘 이해될 것이다.
본 발명은 전체 음성 품질 평가를 지배할 수 있는 왜곡 영향을, 이러한 왜곡 영향을 주관적 음성 품질 평가에 대해 모델링하여 반영하여 객관적 음성 품질 평가에서 언어 효과를 고려하는 객관적 음성 품질 평가 기법이다.
도 1은 본 발명의 일 실시예에 따라 언어 효과를 고려한 객관적 음성 품질 평가 기법을 예시하는 흐름도(100)이다. 단계(102)에서, 음성 신호s(n)는 객관적인 음성 프레임 품질 평가v s (m), 즉 프레임(m)에서의 객관적인 음성 품질을 결정하도록 처리된다. 일 실시예에서, 각 프레임(m)은 64 ms 간격에 대응한다. 객관적인 음성 프레임 품질 평가v s (m)(언어 효과를 고려하지 않음)를 획득하기 위한 음성 신호s(n)를 처리하는 방식은 당업계에 잘 알려져 있다. 이러한 처리의 일 예는 "Compensaton Of Utterance Dependent Articulation For Speech Quality Assessment"라는 제목으로 김도석이라는 발명자에 의해 7월 1일에 출원되고 동시 계류중인 출원 번호 제 10/186,862 호에 개시되어 있으며 우선권에서 부록 A에 첨부되어 있다.
단계(105)에서, 음성 신호s(n)는 예를 들어 음성 작용 검출기(VAD)에 의해 음성 작용인지에 대해 분석된다. VAD는 당업계에 잘 알려져 있다. 도 2는 본 발명의 일 실시예에 따라 음성 신호와 연관된 엔벨로프 정보를 조사함으로써 음성 작용을 검출하는 VAD를 도시하는 흐름도(200)이다. 단계(205)에서, 엔벨로프 신호γ k (n)는 모든 와우 채널(cochlear channels)(k)에 대해 합산되어 수학식(1)에 따라 합산된 엔벨로프 신호γ k (n)를 형성한다.
수학식(1)
이고, n은 시간 지표이고,N cb 는 임계 구역(critical band)의총 수를 나타내며,s k (n)는 와우 채널(k)을 통한 음성 신호s(n)의 출력, 즉 sk(n)=s(n)*hk(n)을 나타내고,s k (n)의 힐버트 변환이다.
단계(210)에서, 프레임 엔벨로프e(l)은 수학식(2)에 따라 합산된 엔벨로프 신호γ(n)에 4 ms의 해밍 윈도우w(n)를 곱함으로써 2 ms마다 계산된다.
수학식 (2)
여기서,γ (l) (n)은 합산된 엔벨로프 신호γ(n)의 2ms의 제l프레임 신호이다. 프레임 엔벨로프e(l)및 해밍 윈도우w(n)의 기간은 단지 예시적일 뿐이고 다른 기간도 가능하다는 것을 이해해야 한다. 단계(215)에서, 플로어링 연산이 수학식(3)에 따라 프레임 엔벨로프e(l)에 적용된다.
수학식 (3)
단계(220)에서, 플로어링된 프레임 엔벨로프e(l)의 시간 도함수 △e(l)은 수학식(4)에 따라 얻어진다.
수학식(4)
여기서, -3≤j≤3이다.
단계(225)에서, 음성 작용 검출은 수학식(5)에 따라 수행된다.
수학식(5)
단계(230)에서, 수학식(5)의 결과, 즉vad(l)는 출력에서 1's 및 0's의 기간에 근거하여 정련될 수 있다. 예를 들어,vad(l)에서 0's의 기간이 8ms보다 짧은 경우,vad(l)은 그 기간 동안 1's로 변경되어야 한다. 이와 유사하게,vad(l)에서 1's의 기간이 8ms보다 짧은 경우,vad(l)는 그 기간 동안 0's로 변경되어야 한다. 도 3은 음성 작용 및 비 음성 작용의 간격(T 및 G)을 각각 예시하는 예시적인 VAD 작용 도면(30)이다. 간격(T)과 연관된 음성 작용은 예를 들어 실제 음성, 데이터 또는 잡음을 포함할 수 있다는 것을 이해해야 한다.
도 1의 흐름도(100)를 참조하면, 음성 작용에 관해 음성 신호s(n)를 분석할 시, 간격(T)을 조사하여 연관된 음성 작용이 쇼트 버스트 또는 임펄스형 잡음에 대응하는지를 단계(110)에서 결정한다. 간격(T)의 음성 작용이 쇼트 버스트 또는 임펄스형 잡음으로 결정되는 경우, 객관적인 음성 프레임 품질 평가v s (m)는단계(115)에서 수정되어 수정된 객관적인 음성 프레임 품질 평가을 획득한다. 수정된 객관적 음성 프레임 품질 평가는 쇼트 버스트 또는 임펄스형 잡음의 영향을, 주관적 음성 품질 평가에 대해 쇼트 버스트 또는 임펄스형 잡음을 모델링 또는 시뮬레이팅함으로써 고려한다.
단계(115)로부터 또는 단계(110)에서 간격(T)의 음성 작용이 쇼트 버스트 또는 임펄스형 잡음인 것으로 결정되지 않은 경우, 흐름도(100)는 단계(120)로 진행하여 간격(T)의 음성 작용이 조사되어 그것이 급정지 또는 묵음을 갖는지를 결정한다. 간격(T)의 음성 작용이 급정지 또는 묵음을 갖는 것으로 결정되면, 객관적인 음성 프레임 품질 평가v s (m)는 단계(125)에서 수정되어 수정된 객관적인 음성 프레임 품질 평가를 획득한다. 수정된 객관적인 음성 프레임 품질 평가는 급정지 또는 묵음의 영향을, 주관적인 음성 품질에 대한 이 급정지 또는 묵음 및 뒤이은 방출(release)의 영향을 모델링 또는 시뮬레이팅함으로써 고려한다.
단계(125)로부터 또는 단계(120)에서 간격(T)의 음성 작용이 급정지 또는 묵음을 가지는 것으로 결정되는 않는 경우, 흐름도(100)는 단계(130)로 진행하여 간격(T)의 음성 작용이 조사되어 급출발을 갖는지를 결정한다. 간격(T)의 음성 작용이 급출발을 갖는 것으로 결정되는 경우, 객관적인 음성 프레임 품질 평가v s (m)는 단계(135)에서 수정되어 수정된 객관적인 음성 프레임 평가를 획득한다. 객관적인 음성 프레임 품질 평가v s (m)는 급출발의 영향을, 주관적인 음성 품질 평가에 대한 급출발의 영향을 모델링 또는 시뮬레이팅함으로써 고려한다. 단계(135)로부터 또는 단계(130)에서 간격(T)의 음성 작용이 급출발을 가지는 것으로 결정되지 않은 경우, 흐름도(100)는 단계(145)로 진행하여 객관적인 음성 프레임 품질 평가v s (m)에 대한 수정의 결과는 단계(102)의 본래의 객관적인 음성 프레임 품질 평가와 통합된다.
음성 작용이 본 발명의 일 실시예에 따라 객관적인 음성 프레임 품질 평가v s (m)를 수정하는 기법, 즉 단계(115,125 및 135)를 따라 쇼트 버스트(또는 임펄스형 잡음) 또는 급정지(또는 묵음) 또는 급출발, 즉 단계(110,120 및 130)인지 여부를 결정하는 기법이 설명될 것이다. 도 4는 음성 작용이 쇼트 버스트 또는 임펄스형 잡음인지를 결정하고 쇼트 버스트 또는 임펄스형 잡음이 결정되면 객관적인 음성 프레임 품질 평가v s (m)를 수정하는 실시예를 도시하는 흐름도(400)이다. 단계(405)에서, 임펄스형 잡음 프레임(l I)는 간격(T i )에서 프레임(l)을 구함으로써 결정되되 프레임 엔벨로프 e(l)은 예를 들어 수학식(6)에 따른 최대량이다.
수학식(6)
여기서,u i d i 는 간격(T i )의 시작 및 끝의 프레임(l)을 각각 나타낸다. 단계(410)에서, 프레임 엔벨로프 e(l I)은 청취자가 대응 프레임(l I)을 방해 쇼트 버스트(annoying short burst)로서 간주할 수 있는지를 나타내는 청취자 임계값에 필적한다. 일 실시예에서, 청취자 임계값은 8, 즉, 단계(410)에서 e(l I)을 체크하여 그것이 8보다 큰지를 결정한다. 프레임 엔벨로프 e(l I)이 청취자 임계값보다 더 크지 않은 경우, 단계(415)에서 음성 작용은 쇼트 버스트 또는 임펄스형 잡음으로 결정되지 않는다.
프레임 엔벨로프 e(l I)은 청취자 임계값보다 더 큰 경우, 단계(420)에서 간격(T i )의 기간을 체크하여 그것이 쇼트 버스트 임계값 및 지각 임계값 모두를 만족하는지를 결정한다. 즉, 간격(T i )을 체크하여 간격(T i )이 청취자에 의해 지각하기에 너무 짧지 않은지를 또한 쇼트 버스트로서 분류되기에는 너무 길지 않은지를 결정한다. 일 실시예에서, 간격(T i )의 기간은 28ms 이상 60mn 이하, 즉 28≤T i ≤60인 경우, 단계(420)의 임계값 모두는 만족된다. 그렇지 않은 경우 단계(320)의 임계값은 만족되지 않는다. 단계(420)의 임계값이 만족되지 않는 경우, 단계(425)에서 음성 작용은 쇼트 버스트 또는 펄스형 잡음으로 결정되지 않는다.
단계(420)의 임계값이 만족되는 경우, 단계(430)에서 최대 델타 프레임 엔벨로프 △e(l)은 간격(T i )의 시작 이전의 하나 또는 그 이상의 프레임의 프레임 엔벨로프e(l)으로부터 간격(T i )의 제 1 또는 그 이상의 프레임까지 결정되고 이어서 0.25와 같은 급변화 임계값에 비교된다. 일 실시예에서, 최대 델타 프레임 엔벨로프 △e(l)은 프레임 엔벨로프 e(u i -1), 즉 간격(T i )으로 즉각 진행하는 프레임 엔벨로프에서 프레임 엔벨로프 e(u i +5), 즉 간격(T i )의 제 5 프레임 엔벨로프까지 결정되고 0.25의 임계값에 비교, 즉 단계(430)에서, 수학식(7)이 만족되는지를 체크한다.
수학식(7)
최대 델타 프레임 엔벨로프 △e(l)이 임계값을 초과하지 않는 경우, 단계(435)에서 음성 작용은 쇼트 버스트 또는 임펄스형 잡음으로 결정되지 않는다.
최대 델타 프레임 엔벨로프 △e(l)이 임계값을 초과하는 경우, 단계(440)에서 프레임(mI)이 청취자를 충분히 방해할 수 있는지를 결정하는데, mI는 임펄스형 잡음 프레임(l I)에 의해 가장 영향을 받는 프레임(m)에 대응한다. 일 실시예에서, 단계(440)는 변조 잡음 기준 유닛v q(mI)에 대한 객관적 음성 프레임 품질 평가v s (mI)의 비율이 잡음 임계값을 초과하는지를 결정함으로써 이루어진다. 단계(440)는 예를 들어 1.1의 잡음 임계값 및 수학식(8)을 사용하여 표현될 수 있다.
수학식(8)
수학식(8)이 만족되는 경우, 프레임(mI)이 청취자에 대해 충분한 방해를 가지고 있다고 결정될 수 있다. 객관적인 음성 프레임 품질 평가v s (mI)가 청취자를 충분히 방해할 수 있다고 결정되는 경우, 단계(445)에서 음성 작용은 쇼트 버스트 또는 임펄스형 잡음이 아닌 것으로 결정된다.
객관적인 음성 프레임 품질 평가v s (mI)가 청취자에게 방해할 만큼 충분하지 않다고 결정되는 경우, 단계(450)에서 소정의 최소 또는 최대 기간 임계값을 만족시키는 간격(G i- 1, i , G i,i +1, T i -1및/또는 T i +1)의 기간과 연관된 조건을 체크하여 그것이 음성에 속해있는지를 검증한다. 일 실시예에서, 단계(450)의 조건은 수학식(9 및 10)과 같이 표현된다.
수학식(9)
수학식(10)
임의의 이들 수학식 또는 조건들이 만족되는 경우, 단계(445)에서 음성 작용은 쇼트 버스트 또는 임펄스형 잡음이 아닌 것으로 결정된다. 오히려 이 음성 작용은 자연적인 음성로 결정된다. 수학식(9 및 10)에 사용된 최소 및 최대 기간 임계값은 단지 예시적일 뿐이고 다를 수 있다는 것을 이해해야 한다.
단계(450)에서 어떠한 조건도 만족되지 않는 경우, 단계(460)에서 객관적인 음성 프레임 품질 평가v s (m)는 수학식(11)에 따라 수정된다.
수학식(11)
도 5는 음성 작용이 급정지 또는 묵음인 지를 결정하고 음성 작용이 급정지 또는 묵음인 것으로 결정되는 경우 객관적인 음성 프레임 품질 평가v s (m)를 수정하는 실시예를 예시하는 흐름도(500)이다. 단계(505)에서, 급정지 프레임(lM)이 결정된다. 급정지 프레임(l M )은 음성 작용에서 간격(T i )의 모든 프레임(l)을 사용한 델타 프레임 엔벨로프 △e(l)의 네거티브 피크의 제 1 발견에 의해 결정된다. 델타 프레임 엔벨로프 △e(l)은 3≤j≤3에 대해 △e(l)<△e(l+j)인 경우l에서 네거티브 피크를 가진다. 네거티브 피크를 발견할 시, 급정지 프레임(l M )은 델타 프레임 엔벨로프 △e(l)의 네거티브 피크의 최소치로서 결정된다. 단계(510)에서, 델타 프레임 엔벨로프 △e(l M )을 체크하여 급정지 임계값이 만족되는지를 결정한다. 급정지 임계값은 하나의 프레임(l)에서 또 다른 프레임(l+1)으로의 프레임 엔벨로프에서 급정지로서 여겨질 수 있는 충분한 네거티브 변화가 있었는지를 결정하는 기준을 나타낸다. 일 실시예에서, 급정지 임계값은 -0.56이고 단계(510)는 수학식(12)과 같이 표현될 수 있다.
수학식(12)
델타 프레임 엔벨로프 △e(l M )이 급정지 임계값을 만족시키지 않는 경우, 단계(515)에서 음성 작용은 급정지 또는 묵음이 아닌 것으로 결정된다.
델타 프레임 엔벨로프 △e(l M )이 급정지 임계값을 만족시키는 경우, 단계(520)에서 간격(T i )을 체크하여 음성 작용이 충분한 기간, 예를 들어 쇼트 버스트보다 더 긴 기간을 갖는지를 결정한다. 일 실시예에서, 간격(T i )의 기간을 체크하여 기간 임계값, 예를 들어 60mn를 초과하는지를 알아본다. 즉, T i <60nm인 경우, 간격(T i )과 연관된 음성 작용은 충분한 기간을 갖지 않는다. 음성 작용이 충분한 기간을 갖지 않은 것으로 고련되는 경우, 단계(525)에서 음성 작용은 급정지 또는 묵음을 갖지 않는 것으로 결정된다.
음성 작용이 충분한 기간을 갖는 것으로 고려되는 경우, 단계(530)에서 프레임(l M )이전의 하나 또는 그 이상의 프레임에서 프레임(l M ) 또는 그 초과한 프레임까지에 대한 최대 프레임 엔벨로프e(l)이 결정되고, 이어서 정지 에너지 임계값에 비교된다. 정지 에너지 임계값은 프레임 엔벨로프가 묵음 이전에 충분한 에너지를 갖는지를 결정하는 기준을 나타낸다. 일 실시예에서, 프레임(l M-7 내지l M )에 대한 최대 프레임 엔벨로프e(l)이 결정되고 9.5의 정지 에너지 임계값에 비교된다. 즉,이다. 최대 프레임 엔벨로프e(l)이 정지 에너지 임계값을 만족하지 않는 경우, 단계(535)에서 음성 작용은 급정지 또는 묵음을 갖는 것으로 결정되지 않는다.
최대 프레임 엔벨로프e(l)이 정지 에너지 임계값을 만족하는 경우, 객관적인 음성 프레임 품질 평가v s (m)m M ,...,m M +6과 같은 몇몇 프레임(m)에 대해 수학식(13)에 따라 수정된다.
수학식(13)
m M 은 급정지 프레임(l M )에 의해 가장 영향을 받는 프레임(m)에 대응한다.
도 6은 음성 작용이 급출발을 갖는지를 결정하고 이러한 음성 작용이 급출발을 갖는 것으로 결정되는 경우 객관적인 음성 프레임 품질 평가v s (m)를 수정하는 실시예를 도시하는 흐름도(600)이다. 단계(605)에서, 급출발 프레임(lS)이 결정된다. 급출발 프레임(l S )은 음성 작용에서 간격(T i )의 모든 프레임을 사용한 델타 프레임 엔벨로프 △e(l)의 포지티브 피크의 제 1 발견에 의해 결정된다. 델타 프레임 엔벨로프 △e(l)은 3≤j≤3에 대해 △e(l)> △e(l+j)인 경우l에서 포지티브 피크를 갖는다. 포지티브 피크를 발견할 시, 급출발 프레임(l S )은 델타 프레임 엔벨로프 △e(l)의 포지티브 피크의 최대값으로서 결정된다. 단계(610)에서, 델타 프레임 엔벨로프 △e(l S )를 체크하여 급출발 임계값이 만족되는지를 결정한다. 급출발 임계값은 하나의 프레임(l)에서 또 다른 프레임(l+1)으로의 프레임 엔벨로프에서 급출발로서 여겨질 수 있는 충분한 포지티브 변화가 있었는지를 결정하는 기준을 나타낸다. 일 실시예에서, 급출발 임계값은 0.9이고 단계(610)는 수학식(14)으로 표현될 수 있다.
수학식(14)
델타 프레임 엔벨로프 △e(l S )는 급출발 임계값을 만족시키지 않는 경우, 단계(615)에서 음성 작용은 급출발을 갖지 않는 것으로 결정된다.
델타 프레임 엔벨로프 △e(l S )가 급출발 임계값을 만족시키는 경우, 단계(620)에서 간격(T i )을 체크하여 음성 작용이 충분한 기간, 예를 들어 쇼트 버스트보다 더 긴 기간을 갖는지를 결정한다. 일 실시예에서, 간격(T i )의 기간을 체크하여 쇼트 버스트 임계값, 예를 들어 60nm를 초과하는지를 알아본다. 즉, T i <60mn인 경우, 간격(T i )과 연관된 음성 작용은 충분한 기간을 갖지 않는다. 음성 작용이 충분한 기간을 갖지 않는 경우, 단계(625)에서 음성 작용은 급출발을 갖지 않는 것으로 결정된다.
음성 작용이 충분한 기간을 갖는 경우, 단계(630)에서 프레임(l S ) 또는 그 이전의 프레임에서 프레임(l S ) 이후의 하나 또는 그 이상의 프레임까지에 대한 최대 프레임 엔벨로프e(l)이 결정되고 이어서 출발 에너지 임계값에 비교된다. 출발 에너지 임계값은 프레임 엔벨로프가 충분한 에너지를 갖는지를 결정하는 기준을 나타낸다. 일 실시예에서, 프레임(l S 내지l S +7)에 대한 최대 프레임 엔벨로프e(l)이 결정되고 12의 출발 에너지 임계값에 비교된다. 즉,이다. 최대 프레임 엔벨로프e(l)이 출발 에너지 임계값을 만족시키지 않는 경우, 단계(635)에서 음성 작용은 급출발을 갖지 않는 것으로 결정된다.
최대 프레임 엔벨로프e(l)이 출발 에너지 임계값을 만족하는 경우, 객관적인 프레임 품질 평가v s (m)m M ,...,m M +6과 같은 몇몇 프레임(m)에 대해 수학식(15)에 따라 수정된다.
수학식(15)
m S 는 급출발 프레임(l S )에 의해 가장 영향을 받는 프레임(m)에 대응한다. 수학식(11,13 및 15)에 사용된 값은 경험적으로 유도되었다는 것을 이해해야 한다. 다른 값도 가능하다. 그러므로, 본 발명은 이들 특정 값에 제한되어서는 안된다.
수정된 객관적인 음성 프레임 품질 평가를 결정할 시, 단계(145)에서 수행된 통합은 수학식(16)에 의해 달성된다.
v s (m)=min(v s,I (m),v s,M (m),v s,S (m)) 수학식(16)
v s,I (m), v s,M (m)v s,S (m)은 수학식(11,13 및 15)의 수정된 객관적인 음성 프레임 품질 평가에 각각 대응한다.
본 발명이 소정의 실시예를 기준으로 상당히 자세히 설명되었지만, 다른 버전도 가능하다. 예를 들어, 흐름도의 단계의 순서는 재배열될 수 있고, 몇몇 단계(또는 기준)가 흐름도에 부가 또는 삭제될 수 있다. 그러므로, 본 발명의 사상 및 범주는 본 명세서에서 포함된 실시예의 설명에 제한되어서는 안된다. 당업자라면 본 발명은 몇몇 유형의 프로세서로 통합된 하드웨어 또는 소프트웨어로서 구현될 수 있다는 것도 이해할 것이다.
본 발명에 따르면, 음성 품질의 평가에 있어서 언어 효과를 고려하여 주관적인 음성 품질 평가 기법만큼이나 우수한 단일 종단 객관적인 음성 품질 평가 기법을 제공한다.

Claims (10)

  1. 객관적으로 음성 품질을 평가하는 방법으로서,
    엔벨로프 정보를 이용하여 음성 작용(speech activity)의 간격에서의 왜곡을 검출하는 단계와,
    상기 음성 작용과 연관된 객관적인 음성 품질 평가값을 수정(modifying)하여 주관적인 음성 품질 평가에 대한 상기 왜곡의 영향을 반영하는 단계
    를 포함하는 방법.
  2. 제 1 항에 있어서,
    상기 수정하는 단계는 상기 음성 작용에 대한 상기 객관적인 음성 품질값을 결정하는 단계를 포함하는 방법.
  3. 제 1 항에 있어서,
    검출된 상기 왜곡은 임펄스형 잡음, 급정지(abrupt stop) 또는 급출발(abrupt start)인 방법.
  4. 제 1 항에 있어서,
    상기 검출 단계는 왜곡 유형을 결정하는 단계를 포함하는 방법.
  5. 제 4 항에 있어서,
    상기 음성 작용이 청취자에 의해 잡음으로 지각될 수 있다는 것을 상기 상기 엔벨로프 정보가 나타내는 경우 또한 상기 간격이 청취자에 의해 지각될 만큼 충분히 길지만 쇼트 버스트로서는 너무 길지 않은 경우 상기 왜곡 유형은 임펄스형 잡음으로 결정되는 방법.
  6. 제 4 항에 있어서,
    하나의 프레임에서 또 다른 프레임으로의 프레임 에너지가 급정지로서 여겨질만큼 충분한 네거티브 변화였다고 상기 엔벨로프 정보가 나타내는 경우 또한 상기 간격이 쇼트 버스트보다 더 긴 기간인 경우 상기 왜곡은 급정지로 결정되는 방법.
  7. 제 4 항에 있어서,
    하나의 프레임에서 또 다른 프레임으로의 프레임 에너지가 급출발로서 여겨질만큼 충분한 포지티브 변화였다고 상기 엔벨로프 정보가 나타내는 경우 또한 상기 간격이 쇼트 버스트보다 더 긴 기간인 경우 상기 왜곡은 급출발로 결정되는 방법.
  8. 음성 작용의 간격에서의 왜곡을 엔벨로프 정보를 사용하여 검출하는 수단과,
    상기 음성 작용과 연관된 객관적인 음성 품질 평가값을 수정하여 주관적 음성 품질 평가에 대한 상기 왜곡의 영향을 반영하는 수단
    을 포함하는 객관적 음성 품질 평가 시스템.
  9. 제 8 항에 있어서,
    상기 수정 수단은 상기 음성 작용에 대한 왜곡을 고려하지 않고 상기 객관적 음성 품질 평가값을 결정하는 수단을 포함하는 객관적 음성 품질 평가 시스템.
  10. 제 8 항에 있어서,
    상기 검출 수단은 왜곡 유형을 결정하는 수단을 포함하는 객관적 음성 품질 평가 시스템.
KR1020040047555A 2003-06-25 2004-06-24 객관적으로 음성 품질을 평가하는 방법 및 객관적 음성품질 평가 시스템 KR101099325B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/603,212 2003-06-25
US10/603,212 US7305341B2 (en) 2003-06-25 2003-06-25 Method of reflecting time/language distortion in objective speech quality assessment

Publications (2)

Publication Number Publication Date
KR20050001409A true KR20050001409A (ko) 2005-01-06
KR101099325B1 KR101099325B1 (ko) 2011-12-26

Family

ID=33418650

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040047555A KR101099325B1 (ko) 2003-06-25 2004-06-24 객관적으로 음성 품질을 평가하는 방법 및 객관적 음성품질 평가 시스템

Country Status (5)

Country Link
US (1) US7305341B2 (ko)
EP (1) EP1492085A3 (ko)
JP (1) JP4989021B2 (ko)
KR (1) KR101099325B1 (ko)
CN (1) CN100573662C (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100729555B1 (ko) * 2005-10-31 2007-06-19 연세대학교 산학협력단 음성 품질의 객관적인 평가방법

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7308403B2 (en) * 2002-07-01 2007-12-11 Lucent Technologies Inc. Compensation for utterance dependent articulation for speech quality assessment
US7165025B2 (en) * 2002-07-01 2007-01-16 Lucent Technologies Inc. Auditory-articulatory analysis for speech quality assessment
US7305341B2 (en) * 2003-06-25 2007-12-04 Lucent Technologies Inc. Method of reflecting time/language distortion in objective speech quality assessment
CA2536260A1 (en) * 2003-08-26 2005-03-03 Clearplay, Inc. Method and apparatus for controlling play of an audio signal
US7386451B2 (en) * 2003-09-11 2008-06-10 Microsoft Corporation Optimization of an objective measure for estimating mean opinion score of synthesized speech
US7856355B2 (en) * 2005-07-05 2010-12-21 Alcatel-Lucent Usa Inc. Speech quality assessment method and system
JP2007049462A (ja) * 2005-08-10 2007-02-22 Ntt Docomo Inc 音声品質評価装置、音声品質評価プログラム及び音声品質評価方法
JP2007233264A (ja) * 2006-03-03 2007-09-13 Nippon Telegr & Teleph Corp <Ntt> 音声品質客観評価装置および音声品質客観評価方法
EP2148327A1 (en) * 2008-07-23 2010-01-27 Telefonaktiebolaget L M Ericsson (publ) A method and a device and a system for determining the location of distortion in an audio signal
EP2457233A4 (en) * 2009-07-24 2016-11-16 Ericsson Telefon Ab L M PROCESS, COMPUTER PROGRAM AND COMPUTER PROGRAM PRODUCT FOR LANGUAGE QUALITY ASSESSMENT
FR2973923A1 (fr) * 2011-04-11 2012-10-12 France Telecom Evaluation de la qualite vocale d'un signal de parole code
CN103716470B (zh) * 2012-09-29 2016-12-07 华为技术有限公司 语音质量监控的方法和装置
US9349386B2 (en) * 2013-03-07 2016-05-24 Analog Device Global System and method for processor wake-up based on sensor data
DE102013005844B3 (de) * 2013-03-28 2014-08-28 Technische Universität Braunschweig Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals
US9830905B2 (en) * 2013-06-26 2017-11-28 Qualcomm Incorporated Systems and methods for feature extraction
CN105721217A (zh) * 2016-03-01 2016-06-29 中山大学 基于Web的音频通信质量改进方法
CN108010539A (zh) * 2017-12-05 2018-05-08 广州势必可赢网络科技有限公司 一种基于语音激活检测的语音质量评估方法及装置
CN112017694B (zh) * 2020-08-25 2021-08-20 天津洪恩完美未来教育科技有限公司 语音数据的评测方法和装置、存储介质和电子装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3971034A (en) * 1971-02-09 1976-07-20 Dektor Counterintelligence And Security, Inc. Physiological response analysis method and apparatus
EP0572531A4 (en) * 1991-02-22 1995-03-22 Seaway Technologies Inc ACOUSTIC METHOD AND APPARATUS FOR IDENTIFYING HUMAN SOUND SOURCES.
JPH04345327A (ja) * 1991-05-23 1992-12-01 Nippon Telegr & Teleph Corp <Ntt> 通話品質客観測定方法
JPH05313695A (ja) * 1992-05-07 1993-11-26 Sony Corp 音声分析装置
JP2953238B2 (ja) * 1993-02-09 1999-09-27 日本電気株式会社 音質主観評価予測方式
JPH0784596A (ja) * 1993-09-13 1995-03-31 Nippon Telegr & Teleph Corp <Ntt> 符号化音声の品質評価方法
US5454375A (en) * 1993-10-21 1995-10-03 Glottal Enterprises Pneumotachograph mask or mouthpiece coupling element for airflow measurement during speech or singing
JPH09505701A (ja) * 1993-11-25 1997-06-03 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 電気通信装置の試験
AU683183B2 (en) * 1994-08-18 1997-10-30 British Telecommunications Public Limited Company Analysis of audio quality
JPH08101700A (ja) * 1994-09-30 1996-04-16 Toshiba Corp ベクトル量子化装置
US5715372A (en) * 1995-01-10 1998-02-03 Lucent Technologies Inc. Method and apparatus for characterizing an input signal
DE69626115T2 (de) * 1995-07-27 2003-11-20 British Telecomm Signalqualitätsbewertung
GB9604315D0 (en) * 1996-02-29 1996-05-01 British Telecomm Training process
US6119083A (en) * 1996-02-29 2000-09-12 British Telecommunications Public Limited Company Training process for the classification of a perceptual signal
US6052662A (en) * 1997-01-30 2000-04-18 Regents Of The University Of California Speech processing using maximum likelihood continuity mapping
JPH113097A (ja) * 1997-06-13 1999-01-06 Nippon Telegr & Teleph Corp <Ntt> 符号化音声信号品質評価方法及びこれに用いるデータベース
DE19840548C2 (de) 1998-08-27 2001-02-15 Deutsche Telekom Ag Verfahren zur instrumentellen Sprachqualitätsbestimmung
JP2000250568A (ja) * 1999-02-26 2000-09-14 Kobe Steel Ltd 音声区間検出装置
US6246978B1 (en) * 1999-05-18 2001-06-12 Mci Worldcom, Inc. Method and system for measurement of speech distortion from samples of telephonic voice signals
US6609092B1 (en) * 1999-12-16 2003-08-19 Lucent Technologies Inc. Method and apparatus for estimating subjective audio signal quality from objective distortion measures
JP4080153B2 (ja) * 2000-10-31 2008-04-23 京セラコミュニケーションシステム株式会社 音声品質評価方法及び評価装置
FR2817096B1 (fr) 2000-11-23 2003-02-28 France Telecom Procede et systeme de detection non intrusive des defauts d'un signal de parole transmis en telephonie sur reseau de transmission par paquets
JP3868278B2 (ja) * 2001-11-30 2007-01-17 沖電気工業株式会社 音声信号品質評価装置及びその方法
US7308403B2 (en) * 2002-07-01 2007-12-11 Lucent Technologies Inc. Compensation for utterance dependent articulation for speech quality assessment
US7165025B2 (en) * 2002-07-01 2007-01-16 Lucent Technologies Inc. Auditory-articulatory analysis for speech quality assessment
US7305341B2 (en) * 2003-06-25 2007-12-04 Lucent Technologies Inc. Method of reflecting time/language distortion in objective speech quality assessment

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100729555B1 (ko) * 2005-10-31 2007-06-19 연세대학교 산학협력단 음성 품질의 객관적인 평가방법

Also Published As

Publication number Publication date
CN1617222A (zh) 2005-05-18
US20040267523A1 (en) 2004-12-30
US7305341B2 (en) 2007-12-04
JP2005018076A (ja) 2005-01-20
EP1492085A3 (en) 2005-02-16
KR101099325B1 (ko) 2011-12-26
CN100573662C (zh) 2009-12-23
JP4989021B2 (ja) 2012-08-01
EP1492085A2 (en) 2004-12-29

Similar Documents

Publication Publication Date Title
KR101099325B1 (ko) 객관적으로 음성 품질을 평가하는 방법 및 객관적 음성품질 평가 시스템
CN107910014B (zh) 回声消除的测试方法、装置及测试设备
Loizou Speech quality assessment
US6889187B2 (en) Method and apparatus for improved voice activity detection in a packet voice network
US8818798B2 (en) Method and system for determining a perceived quality of an audio system
Taal et al. Speech energy redistribution for intelligibility improvement in noise based on a perceptual distortion measure
US20110196675A1 (en) Operating method for voice activity detection/silence suppression system
EP3605529B1 (en) Method and apparatus for processing speech signal adaptive to noise environment
RU2665916C2 (ru) Оценивание фонового шума в аудиосигналах
JP2002237785A (ja) 人間の聴覚補償によりsidフレームを検出する方法
Plourde et al. Auditory-based spectral amplitude estimators for speech enhancement
EP2743923B1 (en) Voice processing device, voice processing method
Krishnamoorthy An overview of subjective and objective quality measures for noisy speech enhancement algorithms
Moeller et al. Objective estimation of speech quality for communication systems
JP4113481B2 (ja) 音声品質客観評価装置および音声品質客観評価方法
Jaiswal Influence of silence and noise filtering on speech quality monitoring
Koutsogiannaki et al. Intelligibility enhancement of casual speech for reverberant environments inspired by clear speech properties.
Liao et al. Assessing the Effect of Temporal Misalignment between the Probe and Processed Speech Signals on Objective Speech Quality Evaluation
US11924368B2 (en) Data correction apparatus, data correction method, and program
Falk Blind estimation of perceptual quality for modern speech communications
Ghimire Speech intelligibility measurement on the basis of ITU-T Recommendation P. 863
Jebaruby et al. Weighted Energy Reallocation Approach for Near-end Speech Enhancement
Gierlich et al. Conversational speech quality-the dominating parameters in VoIP systems
Reimes et al. Instrumental speech and noise quality assessment for super-wideband and fullband transmission
Kazlauskas Noisy speech intelligibility enhancement

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141212

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee