KR101052432B1 - 음성 품질 평가를 위한 발음 종속 조음 보상 - Google Patents

음성 품질 평가를 위한 발음 종속 조음 보상 Download PDF

Info

Publication number
KR101052432B1
KR101052432B1 KR1020047003130A KR20047003130A KR101052432B1 KR 101052432 B1 KR101052432 B1 KR 101052432B1 KR 1020047003130 A KR1020047003130 A KR 1020047003130A KR 20047003130 A KR20047003130 A KR 20047003130A KR 101052432 B1 KR101052432 B1 KR 101052432B1
Authority
KR
South Korea
Prior art keywords
speech
articulation
power
speech signal
quality
Prior art date
Application number
KR1020047003130A
Other languages
English (en)
Other versions
KR20050012712A (ko
Inventor
김도-석
Original Assignee
알카텔-루센트 유에스에이 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 알카텔-루센트 유에스에이 인코포레이티드 filed Critical 알카텔-루센트 유에스에이 인코포레이티드
Publication of KR20050012712A publication Critical patent/KR20050012712A/ko
Application granted granted Critical
Publication of KR101052432B1 publication Critical patent/KR101052432B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 음성 품질 평가 하에서 음성 신호들을 왜곡시킴으로써 음성 내용들, 말하는 스타일들 또는 개개의 말하는 사람의 차이들을 고려하는 객관적 음성 품질 평가 방법에 관한 것이다. 음성 신호의 왜곡된 버전을 이용함으로써, 음성 품질을 평가할 때 다른 음성 내용들, 다른 개개의 말하는 사람들 및 다른 말하는 스타일들을 보상하는 것이 가능하다. 음성 신호 왜곡에 의한 객관적 음성 품질 평가 시의 품질저하의 양은 다른 음성 신호들에 대하여 유사하게 유지되며, 특히 음성 신호의 왜곡된 버전의 왜곡량이 엄격할 때 그러하다. 왜곡된 음성 신호 및 왜곡되지 않은 오리지날 음성 신호에 대한 객관적 음성 품질 평가는 발음 종속 조음이 보상 음성 품질 평가를 얻기 위하여 비교된다.
왜곡, 객관적 음성 품질 평가, 음성 신호, 왜곡량, 발음 종속 조음

Description

음성 품질 평가를 위한 발음 종속 조음 보상{Compensation for utterance dependent articulation for speech quality assessment}
본 발명은 일반적으로 통신 시스템에 관한 것으로, 특히 음성 품질 평가에 관한 것이다.
무선 통신 시스템의 성능은 특히 음성 품질에 의하여 측정될 수 있다. 현재 기술에는, 2 개의 음성 품질 평가 기술들이 존재한다. 제 1 기술은 주관적 기술(이하, "주관적 음성 품질 평가"라고 함)이다. 주관적 음성 품질 평가에서는 경청자가 처리된 음성의 음성 품질을 평가하는데 이용되며, 처리된 음성은 수신기에서 처리된 전송된 음성 신호이다. 이 기술은 상기 평가가 개인의 인식에 기초하기 때문에 주관적이며, 음성 품질의 사람 평가는 전형적으로 음성 내용들, 말하는 스타일들 또는 개개의 말하는 사람의 차이들을 고려한다. 주관적 음성 품질 평가는 고가이고 시간 소모적이다.
제 2 기술은 객관적 기술(이하, "객관적 음성 품질 평가"라고 함)이다. 객관적 음성 품질 평가는 개인의 인식에 기초하지 않는다. 대부분의 객관적 음성 품질 평가 기술들은 알려진 소스 음성 또는 처리된 음성으로부터 추정된 재구성된 소스 음성에 기초한다. 그러나, 이들 객관적인 기술들은 음성 내용들, 말하는 스타일들 또는 개개의 말하는 사람의 차이들을 고려하지 않는다.
따라서, 음성 내용들, 말하는 스타일들 또는 개개의 말하는 사람의 차이들을 고려하는 객관적 음성 품질 평가 방법이 필요하다.
본 발명은 음성 품질 평가 하에서 음성 신호들을 왜곡시킴으로써 음성 내용들, 말하는 스타일들 또는 개개의 말하는 사람의 차이들을 고려하는 객관적 음성 품질 평가 방법이다. 음성 신호의 왜곡된 버전을 이용함으로써, 음성 품질을 평가할 때 다른 음성 내용들, 다른 개개의 말하는 사람들 및 다른 말하는 스타일들을 보상하는 것이 가능하다. 음성 신호 왜곡에 의한 객관적 음성 품질 평가 시의 품질저하의 양은 다른 음성 신호들에 대하여 유사하게 유지되며, 특히 음성 신호의 왜곡된 버전의 왜곡량이 엄격할 때 그러하다. 왜곡된 음성 신호 및 왜곡되지 않은 오리지날 음성 신호에 대한 객관적 음성 품질 평가는 발음 종속 조음이 보상 음성 품질 평가를 얻기 위하여 비교된다. 일 실시예에서, 상기 비교는 왜곡된 및 왜곡되지 않은 음성 신호들에 대한 객관적 음성 품질 평가들 사이의 차이에 대응한다.
본 발명의 특징들, 측면들 및 이점들은 이하의 설명, 첨부된 청구의 범위 및 첨부된 도면에 대하여 보다 잘 이해되게 된다.
도 1은 본 발명에 따른 발음 종속 조음을 보상하는 객관적 음성 품질 평가 장치를 나타낸 도면.
도 2는 본 발명에 따른 청각-조음 분석 모듈을 이용하는 객관적 음성 품질 평가 모듈의 실시예를 나타낸 도면.
도 3은 본 발명의 일 실시예에 따른 다수의 엔벨로프 ai(t)를 조음 분석 모듈에서 처리하기 위한 흐름도.
도 4는 전력 대 주파수에 대한 변조 스펙트럼 Ai(m,f)를 나타낸 예를 나타낸 도면.
본 발명은 처리된 음성을 왜곡시킴으로써 음성 내용들, 말하는 스타일들 또는 개개의 말하는 사람의 차이를 고려하는 객관적 음성 품질 평가 방법에 관한 것이다. 객관적 음성 품질 평가는 동일한 주관적 음성 품질 점수들을 가지는 다른 음성 신호들에 대해 다른 값들을 산출하는 경향이 있다. 상기 값들이 다른 이유는 변조 스펙트럼 영역에서 스펙트럼 내용들의 분포들이 다르기 때문이다. 처리된 음성 신호의 왜곡된 버전을 이용함으로써, 다른 음성 내용들, 다른 개개의 말하는 사람들, 및 다른 말하는 스타일들을 보상하는 것이 가능하다. 음성 신호 왜곡에 의한 객관적 음성 품질 평가 시의 품질저하의 양은 다른 음성 신호들에 대하여 유사하게 유지되며, 특히 왜곡이 엄격할 때 그러하다. 왜곡된 음성 신호 및 왜곡되지 않은 오리지날 음성 신호에 대한 객관적 음성 품질 평가는 발음 종속 조음이 보상 음성 품질 평가를 얻기 위하여 비교된다.
도 1은 본 발명에 따른 발음 종속 조음을 보상하는 객관적 음성 품질 평가 장치(10)를 도시한다. 객관적 음성 품질 평가 장치(10)는 다수의 객관적 음성 품질 평가 모듈(12, 14), 왜곡 모듈(16) 및 보상 발음 특정 바이어스 모듈(18)을 포함한다. 음성 신호 s(t)는 왜곡 모듈(16) 및 객관적 음성 품질 평가 모듈(12)에 입력된다. 왜곡 모듈(16)에서, 음성 신호 s(t)는 변조된 잡음 기준 유닛(MNRU) 음성 신호 s'(t)를 발생시키기 위하여 왜곡된다. 다시 말해서, 왜곡 모듈(16)은 입력 신호 s(t)의 잡음 버전을 발생시킨다. 그 다음에, MNRU 음성 신호 s'(t)는 객관적 음성 품질 평가 모듈(14)에 입력된다.
객관적 음성 품질 평가 모듈(12, 14)에서, 음성 신호 s(t) 및 MNRU 음성 신호 s'(t)는 객관적 음성 품질 평가 SQ(s(t)) 및 SQ(s'(t))를 얻기 위하여 처리된다. 객관적 음성 품질 평가 모듈(12, 14)은 임의의 입력 음성 신호들에 대하여 수행되는 처리 형태 측면에서 본질적으로 동일하다. 즉, 만일 객관적 음성 품질 평가 모듈들(12, 14) 양자가 동일한 입력 음성 신호를 수신한다면, 양 모듈(12, 14)의 출력 신호들은 대략 동일하다. 다른 실시예에서, 객관적 음성 품질 평가 모듈들(12, 14)이 서로 다른 방식으로 음성 신호들 s(t) 및 s'(t)를 처리할 수 있다는 것을 주의하자. 객관적 음성 품질 평가 모듈들은 본 기술분야에 잘 알려져 있다. 이러한 모듈의 예는 이하에서 설명된다.
다음에, 객관적 음성 품질 평가들 SQ(s(t)) 및 SQ(s'(t))는 발음 종속 조음을 보상하는 음성 품질 평가 SQcompensated 을 얻기 위하여 비교된다. 일실시예에서, 음성 품질 평가 SQcompensated 는 객관적 음성 품질 평가들 SQ(s(t)) 및 SQ(s'(t))를 이용하여 결정된다. 예컨대, SQcompensated 는 SQ(s(t))-SQ(s'(t))와 동일하다(역도 가능함). 다른 실시예에서, 음성 품질 평가 SQcompensated 는 객관적 음성 품질 평가들 SQ(s(t)) 및 SQ(s'(t)) 사이의 비율에 기초하여 결정된다. 예컨대, 다음과 같이 결정된다.
Figure 112004008697705-pct00001
여기서, μ는 작은 상수값이다.
위에서 언급된 바와 같이, 객관적 음성 품질 평가 모듈들(12, 14)은 본 기술분야에 잘 알려져 있다. 도 2는 본 발명에 따라 청각-조음 분석 모듈을 이용하는 객관적 음성 품질 평가 모듈(12, 14)의 실시예(20)를 도시한다. 도 2에 도시된 바와같이, 객관적 품질 평가 모듈(20)은 와우각 필터 뱅크(cochlear filterbank; 22), 엔벨로프 분석 모듈(envelope analysis module; 24) 및 조음 분석 모듈(26)을 포함한다. 객관적 음성 품질 평가 모듈(20)에서, 음성 신호 s(t)는 와우각 필터 뱅크(22)에 입력된다. 와우각 필터 뱅크(22)는 주변 청각 시스템의 제 1 단계에 따라 음성 신호 s(t)를 처리하기 위한 다수의 와우각 필터 hi(t)을 포함하며, 여기서 i=1,2,...,Nc는 특정 와우각 필터 채널을 나타내며, Nc는 와우각 필터 채널들의 전체수를 나타낸다. 특히, 와우각 필터 뱅크(22)는 음성 신호 s(t)를 필터링하여 다수의 임계 대역 신호들 si(t)를 발생시키며, 상기 임계 대역 신호 si(t)는 s(t)*hi(t)과 동일하다.
다수의 임계 대역 신호들 si(t)은 엔벨로프 분석 모듈(24)에 입력된다. 엔벨로프 분석 모듈(24)에서, 다수의 임계 대역 신호들 si(t)은 다수의 엔벨로프 ai(t)를 얻기 위하여 처리되며, 여기서,
Figure 112004008697705-pct00002
다음에, 다수의 엔벨로프 ai(t)는 조음 분석 모듈(26)에 입력된다. 조음 분석 모듈(26)에서, 다수의 엔벨로프 ai(t)는 음성 신호 s(t)의 음성 품질 평가를 얻기 위하여 처리된다. 특히, 조음 분석 모듈(26)은 사람 조음 시스템으로부터 발생된 신호들과 연관된 전력(이후 "조음 전력 PA(m, i)"로 언급됨)과 사람 조음 시스템으로부터 발생되지 않은 신호들과 연관된 전력(이후 "비조음 전력 PNA(m,i)"으로 언급됨)를 비교한다. 그 다음에, 상기 비교는 음성 품질 평가를 하기 위하여 이용된다.
도 3은 본 발명의 일 실시예에 따른 다수의 엔벨로프 ai(t)를 조음 분석 모듈(26)에서 처리하기 위한 흐름도(300)를 도시한다. 단계(310)에서, 푸리에 변환 은 변조 스펙트럼들 Ai(m,f)을 발생시키기 위하여 다수의 엔벨로프 ai(t)의 각각에 대한 프레임 m에 대하여 실행되며, f는 주파수이다.
도 4는 전력 대 주파수에 대한 변조 스펙트럼 Ai(m,f)를 기술하는 실시예(40)를 도시한다. 실시예 (40)에서, 조음 전력 PA(m,i)는 주파수들 2-12.5Hz와 연관된 전력이며, 비조음 전력 PNA(m,i)은 12.5Hz 이상의 주파수들과 연관된 전력이다. 2Hz보다 작은 주파수들과 연관된 전력 PN0(m,i)은 임계 대역 신호 ai(t)의 프레임 m에 대한 DC-성분이다. 이러한 실시예에서, 조음 전력 PA(m,i)은 사람의 조음 음성이 2-12.5Hz인 사실에 기초하여 주파수들 2-12.5Hz과 연관된 전력으로서 선택되며, 조음 전력 PA(m,i) 및 비조음 전력 PNA(m,i)과 연관된 주파수 범위들(이하 각각 "조음 주파수 범위" 및 "비조음 주파수 범위"로 언급함)은 인접한 비중첩 주파수 범위들이다. 이러한 응용을 위하여 용어 "조음 전력 PA(m,i)"은 전술한 주파수 범위 2-12.5 Hz 또는 사람 조음의 주파수 범위에 제한되지 않아야 한다는 것을 이해해야 한다. 마찬가지로, 용어 "비조음 전력 PNA(m,i)"은 조음 전력 PA(m,i)과 연관된 주파수 범위 이상의 주파수 범위들에 제한되지 않아야 한다. 비조음 주파수 범위는 조음 주파수 범위에 인접 또는 중첩되거나 또는 되지 않을 수 있다. 비조음 주파수 범위는 임계 대역 신호 ai(t)의 프레임 m에 대한 DC 성분과 연관된 주파수 범위와 같은 조음 주파수 범위에서 가장 낮은 주파수보다 낮은 주파수를 포함할 수 있다.
단계(320)에서, 각각의 변조 스펙트럼 Ai(m,f)에 대하여 조음 분석 모듈(26)은 조음 전력 PA(m,i)과 비조음 전력 PNA(m,i)간의 비교를 수행한다. 조음 분석 모듈(26)의 실시예에서, 조음 전력 PA(m,i)과 비조음 전력 PNA(m,i)간의 비교는 조음 대 비조음 비 ANR(m,i)이다. ANR은 다음 식에 의하여 정의된다.
Figure 112004008697705-pct00003
------ (1)
여기서, ε임의의 작은 상수값이다. 조음 전력 PA(m,i)과 비조음 전력 PNA(m,i)간의 다른 비교들도 가능하다. 예컨대, 비교는 식(1)의 역수일 수 있거나 또는 비교는 조음 전력 PA(m,i) 및 비조음 전력 PNA(m,i)간의 차이일 수 있다. 설명을 용이하게 하기 위하여, 흐름도(300)에 의하여 기술된 조음 분석 모듈(26)에 대한 실시예는 식(1)의 ANR(m,i)를 이용하여 상기 비교와 관련하여 설명될 것이다. 그러나, 이는 임의의 방식으로 본 발명을 제한하도록 구성되지 않아야 한다.
단계(330)에서, ANR(m,i)는 프레임 m에 대한 로컬 음성 품질 LSQ(m)를 결정하기 위하여 이용된다. 로컬 음성 품질 LSQ(m)은 모든 채널들 i 전반에 걸친 조음 대 비조음 비율 ANR(m,i)과 DC-성분 전력 PN0(m,i)에 기초한 가중 인자 R(m,i)의 집합을 이용하여 결정된다. 특히, 로컬 음성 품질 LSQ(m)는 다음과 같은 식을 이용하여 결정된다.
Figure 112004008697705-pct00004
------ (2)
여기서,
Figure 112004008697705-pct00005
------ (3)
그리고, k는 주파수 인덱스이다.
단계(340)에서, 음성 신호 s(t)에 대한 전체 음성 품질 SQ는 프레임 m에 대한 로컬 음성 품질 LSQ(m) 및 로그 전력 Ps(m)를 이용하여 결정된다. 특히, 음성 품질 SQ는 다음과 같은 식을 이용하여 결정된다.
Figure 112004008697705-pct00006
------ (4)
여기서,
Figure 112008046343080-pct00007
이며, L은 Lp-norm이며, T는 음성 신호들 s(t)에서 전체 프레임의 수이며, λ는 임의의 값이며, Pth는 가청 신호들 및 침묵사이를 구별하기 위한 임계값이다. 일 실시예에서, λ는 바람직하게 홀수 정수값이다.
조음 분석 모듈(26)의 출력은 모든 프레임 m에 대한 음성 품질 SQ의 평가이다. 즉, 음성 품질 SQ는 음성 신호 s(t)에 대한 음성 품질 평가이다.
본 발명이 특정 실시예들을 참조하여 상세히 기술되었으나, 다른 변형 실시예들도 가능하다. 따라서, 본 발명의 취지 및 범위는 여기에 포함된 실시예들에 의하여 한정되어서는 안된다.

Claims (20)

  1. 음성 품질을 평가하는 방법에 있어서,
    제 1 및 제 2 음성 신호들에 대한 제 1 및 제 2 음성 품질 평가들을 각각 결정하는 단계로서, 상기 제 2 음성 신호는 처리된 음성 신호이고, 상기 제 1 음성 신호는 상기 제 2 음성 신호의 왜곡된 버전이고, 상기 제 1 및 제 2 음성 품질들은 청각-조음 분석(auditory articulatory analysis)을 이용하여 평가되는, 상기 결정하는 단계와;
    보상 음성 품질 평가를 얻기 위하여 상기 제 1 및 제 2 음성 품질들을 비교하는 단계를 포함하는, 음성 품질 평가 방법.
  2. 제 1 항에 있어서,
    상기 제 1 및 제 2 음성 품질 평가들을 결정하는 단계 전에, 상기 제 1 음성 신호를 발생시키기 위하여 상기 제 2 음성 신호를 왜곡시키는 단계를 더 포함하는, 음성 품질 평가 방법.
  3. 제 1 항에 있어서,
    상기 제 1 및 제 2 음성 품질들은 객관적 음성 품질 평가를 위해 동일한 기술을 이용하여 평가되는, 음성 품질 평가 방법.
  4. 제 1 항에 있어서,
    상기 보상 음성 품질 평가는 상기 제 1과 제 2 음성 품질들간의 차이에 대응하는, 음성 품질 평가 방법.
  5. 제 1 항에 있어서,
    상기 보상 음성 품질 평가는 상기 제 1과 제 2 음성 품질들간의 비율에 대응하는, 음성 품질 평가 방법.
  6. 삭제
  7. 제 1 항에 있어서,
    상기 제 1 및 제 2 음성 품질 평가들을 결정하는 단계는,
    상기 제 1 음성 신호 또는 제 2 음성 신호에 대한 조음 전력과 비조음 전력을 비교하는 단계로서, 상기 조음 및 비조음 전력들은 상기 제 1 음성 신호 또는 제 2 음성 신호의 조음 및 비조음 주파수들과 연관된 전력들인, 상기 비교하는 단계와;
    상기 조음 전력과 비조음 전력간의 상기 비교에 기초하여 상기 제 1 및 제 2 음성 품질 평가를 결정하는 단계를 포함하는, 음성 품질 평가 방법.
  8. 제 7 항에 있어서,
    상기 조음 주파수들은 2-12.5 Hz인, 음성 품질 평가 방법.
  9. 제 7 항에 있어서,
    상기 조음 주파수들은 사람 조음의 속도에 대응하는, 음성 품질 평가 방법.
  10. 제 7 항에 있어서,
    상기 비조음 주파수들은 상기 조음 주파수들보다 큰, 음성 품질 평가 방법.
  11. 제 7 항에 있어서,
    상기 조음 전력과 비조음 전력간의 상기 비교는 상기 조음 전력과 비조음 전력간의 비율인, 음성 품질 평가 방법.
  12. 제 11 항에 있어서,
    상기 비율은 분모 및 분자를 포함하며, 상기 분자는 상기 조음 전력 및 작은 상수를 포함하며, 상기 분모는 상기 비조음 전력과 상기 작은 상수의 합을 포함하는, 음성 품질 평가 방법.
  13. 제 7 항에 있어서,
    상기 조음 전력과 비조음 전력간의 상기 비교는 상기 조음 전력과 비조음 전력간의 차이인, 음성 품질 평가 방법.
  14. 제 7 항에 있어서,
    상기 제 1 또는 제 2 음성 품질을 평가하는 단계는 상기 비교를 이용하여 로컬 음성 품질을 결정하는 단계를 포함하는, 음성 품질 평가 방법.
  15. 제 14 항에 있어서,
    상기 로컬 음성 품질은 DC-성분 전력에 기초하여 가중 인자를 이용하여 더욱 결정되는, 음성 품질 평가 방법.
  16. 제 15 항에 있어서,
    상기 제 1 또는 제 2 음성 품질 평가는 상기 로컬 음성 품질을 이용하여 결정되는, 음성 품질 평가 방법.
  17. 제 7 항에 있어서,
    상기 조음 전력과 비조음 전력을 비교하는 단계는 복수의 임계 대역 신호들로부터 얻어진 복수의 엔벨로프들(envelopes)의 각각에 대하여 푸리에 변환(Fourier transform)을 수행하는 단계를 포함하는, 음성 품질 평가 방법.
  18. 제 7 항에 있어서,
    상기 조음 전력과 비조음 전력을 비교하는 단계는 복수의 임계 대역 신호들을 얻기 위하여 상기 제 1 또는 제 2 음성 신호를 필터링하는 단계를 포함하는, 음성 품질 평가 방법.
  19. 제 18 항에 있어서,
    상기 조음 전력과 비조음 전력을 비교하는 단계는 복수의 변조 스펙트럼들을 얻기 위하여 상기 복수의 임계 대역 신호들에 대하여 엔벨로프 분석을 수행하는 단계를 포함하는, 음성 품질 평가 방법.
  20. 제 18 항에 있어서,
    상기 조음 전력과 비조음 전력을 비교하는 단계는 상기 복수의 변조 스펙트럼들의 각각에 대하여 푸리에 변환을 수행하는 단계를 포함하는, 음성 품질 평가 방법.
KR1020047003130A 2002-07-01 2003-06-27 음성 품질 평가를 위한 발음 종속 조음 보상 KR101052432B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/186,862 2002-07-01
US10/186,862 US7308403B2 (en) 2002-07-01 2002-07-01 Compensation for utterance dependent articulation for speech quality assessment
PCT/US2003/020354 WO2004003499A2 (en) 2002-07-01 2003-06-27 Compensation for utterance dependent articulation for speech quality assessment

Publications (2)

Publication Number Publication Date
KR20050012712A KR20050012712A (ko) 2005-02-02
KR101052432B1 true KR101052432B1 (ko) 2011-07-29

Family

ID=29779951

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020047003130A KR101052432B1 (ko) 2002-07-01 2003-06-27 음성 품질 평가를 위한 발음 종속 조음 보상

Country Status (7)

Country Link
US (1) US7308403B2 (ko)
EP (1) EP1518096B1 (ko)
JP (1) JP4301514B2 (ko)
KR (1) KR101052432B1 (ko)
CN (1) CN1307611C (ko)
AU (1) AU2003253742A1 (ko)
WO (1) WO2004003499A2 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7165025B2 (en) * 2002-07-01 2007-01-16 Lucent Technologies Inc. Auditory-articulatory analysis for speech quality assessment
US7305341B2 (en) * 2003-06-25 2007-12-04 Lucent Technologies Inc. Method of reflecting time/language distortion in objective speech quality assessment
ES2313413T3 (es) * 2004-09-20 2009-03-01 Nederlandse Organisatie Voor Toegepast-Natuurwetenschappelijk Onderzoek Tno Compensacion en frecuencia para el analisis de precepcion de habla.
CN101262885B (zh) 2005-06-10 2015-04-01 中外制药株式会社 含有sc(Fv)2的药物组合物
US7856355B2 (en) * 2005-07-05 2010-12-21 Alcatel-Lucent Usa Inc. Speech quality assessment method and system
KR100729555B1 (ko) * 2005-10-31 2007-06-19 연세대학교 산학협력단 음성 품질의 객관적인 평가방법
EP2279509B1 (en) * 2008-04-18 2012-12-19 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
CN101609686B (zh) * 2009-07-28 2011-09-14 南京大学 基于语音增强算法主观评估的客观评估方法
CN101894560B (zh) * 2010-06-29 2012-08-15 上海大学 一种无参考源的mp3音频清晰度客观评价方法
CN102157147B (zh) * 2011-03-08 2012-05-30 公安部第一研究所 一种拾音系统语音质量客观评价的测试方法
DE102013005844B3 (de) * 2013-03-28 2014-08-28 Technische Universität Braunschweig Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals
US9830905B2 (en) 2013-06-26 2017-11-28 Qualcomm Incorporated Systems and methods for feature extraction
EP2922058A1 (en) * 2014-03-20 2015-09-23 Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating quality of a degraded speech signal

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000053311A (ko) * 1996-11-15 2000-08-25 슈베르트 헬무트 오디오 신호의 청취하기 적합한 음질 평가
EP1187100A1 (en) * 2000-09-06 2002-03-13 Koninklijke KPN N.V. A method and a device for objective speech quality assessment without reference signal

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3971034A (en) * 1971-02-09 1976-07-20 Dektor Counterintelligence And Security, Inc. Physiological response analysis method and apparatus
IT1121496B (it) 1979-12-14 1986-04-02 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per l effettuazione di misure oggettive di qualita su apparecchiature di trasmissione di segnali fonici
JP2002517175A (ja) * 1991-02-22 2002-06-11 シーウェイ テクノロジーズ インコーポレイテッド 人間の音源を識別するための手段および装置
US5454375A (en) * 1993-10-21 1995-10-03 Glottal Enterprises Pneumotachograph mask or mouthpiece coupling element for airflow measurement during speech or singing
US5794188A (en) * 1993-11-25 1998-08-11 British Telecommunications Public Limited Company Speech signal distortion measurement which varies as a function of the distribution of measured distortion over time and frequency
CA2196553C (en) * 1994-08-18 2000-04-11 Michael Peter Hollier Analysis of audio quality
GB9604315D0 (en) * 1996-02-29 1996-05-01 British Telecomm Training process
WO1997005730A1 (en) * 1995-07-27 1997-02-13 British Telecommunications Public Limited Company Assessment of signal quality
US6052662A (en) * 1997-01-30 2000-04-18 Regents Of The University Of California Speech processing using maximum likelihood continuity mapping
US6246978B1 (en) * 1999-05-18 2001-06-12 Mci Worldcom, Inc. Method and system for measurement of speech distortion from samples of telephonic voice signals
US6609092B1 (en) * 1999-12-16 2003-08-19 Lucent Technologies Inc. Method and apparatus for estimating subjective audio signal quality from objective distortion measures
US7165025B2 (en) * 2002-07-01 2007-01-16 Lucent Technologies Inc. Auditory-articulatory analysis for speech quality assessment
US7305341B2 (en) * 2003-06-25 2007-12-04 Lucent Technologies Inc. Method of reflecting time/language distortion in objective speech quality assessment

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000053311A (ko) * 1996-11-15 2000-08-25 슈베르트 헬무트 오디오 신호의 청취하기 적합한 음질 평가
EP1187100A1 (en) * 2000-09-06 2002-03-13 Koninklijke KPN N.V. A method and a device for objective speech quality assessment without reference signal

Also Published As

Publication number Publication date
JP2005531990A (ja) 2005-10-20
WO2004003499A3 (en) 2004-04-01
JP4301514B2 (ja) 2009-07-22
EP1518096A2 (en) 2005-03-30
CN1307611C (zh) 2007-03-28
WO2004003499A2 (en) 2004-01-08
AU2003253742A8 (en) 2004-01-19
CN1550000A (zh) 2004-11-24
US20040002857A1 (en) 2004-01-01
KR20050012712A (ko) 2005-02-02
US7308403B2 (en) 2007-12-11
AU2003253742A1 (en) 2004-01-19
EP1518096B1 (en) 2014-04-23

Similar Documents

Publication Publication Date Title
Elhilali et al. A spectro-temporal modulation index (STMI) for assessment of speech intelligibility
US7912729B2 (en) High-frequency bandwidth extension in the time domain
US20110188671A1 (en) Adaptive gain control based on signal-to-noise ratio for noise suppression
KR101052432B1 (ko) 음성 품질 평가를 위한 발음 종속 조음 보상
KR101048278B1 (ko) 음성 품질 평가를 위한 청각-조음 분석
KR101148671B1 (ko) 오디오 전송 시스템의 음성 명료도 측정 방법 및 시스템
Hermansky et al. Speech enhancement based on temporal processing
US20040267523A1 (en) Method of reflecting time/language distortion in objective speech quality assessment
US7313517B2 (en) Method and system for speech quality prediction of an audio transmission system
Harlander et al. Sound quality assessment using auditory models
Biberger et al. An objective audio quality measure based on power and envelope power cues
Kates Modeling the effects of single-microphone noise-suppression
Crochiere et al. An interpretation of the log likelihood ratio as a measure of waveform coder performance
Gunawan et al. Speech enhancement using temporal masking and fractional Bark gammatone filters
Chanda et al. Speech intelligibility enhancement using tunable equalization filter
US9659565B2 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal, through providing a difference function representing a difference between signal frames and an output signal indicative of a derived quality parameter
Pourmand et al. Computational auditory models in predicting noise reduction performance for wideband telephony applications
Shinde et al. Quality evaluation of combined temporal and spectral processing for hearing impaired
Leimeister et al. Simple spectral subtraction method enhances speech intelligibility in noise for cochlear implant listeners
Verschuure et al. Technical assessment of fast compression hearing aids
Schlesinger et al. The characterization of the relative information content by spectral features for the objective intelligibility assessment of nonlinearly processed speech.
de Perez et al. Noise reduction and loudness compression in a wavelet modelling of the auditory system
Brouckxon et al. Design and evaluation of a microphone signal conditioning system
Kollmeier Auditory models for audio processing-beyond the current perceived quality?
Sánchez-Bote et al. A New Auditory Based Microphone Array and Objective Evaluation Using E-RASTI

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140711

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150709

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160714

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170713

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee