KR19990028694A - 음성 전달 신호의 속성 평가 방법 및 장치 - Google Patents

음성 전달 신호의 속성 평가 방법 및 장치 Download PDF

Info

Publication number
KR19990028694A
KR19990028694A KR1019970710017A KR19970710017A KR19990028694A KR 19990028694 A KR19990028694 A KR 19990028694A KR 1019970710017 A KR1019970710017 A KR 1019970710017A KR 19970710017 A KR19970710017 A KR 19970710017A KR 19990028694 A KR19990028694 A KR 19990028694A
Authority
KR
South Korea
Prior art keywords
signal
distortion
spectral
distorted
definition function
Prior art date
Application number
KR1019970710017A
Other languages
English (en)
Inventor
마이클 피터 홀리어
필립 줄리언 쉐퍼드
필립 그레이
Original Assignee
세모스 로버트 어니스트 빅커스
브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB9604315.3A external-priority patent/GB9604315D0/en
Application filed by 세모스 로버트 어니스트 빅커스, 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 filed Critical 세모스 로버트 어니스트 빅커스
Publication of KR19990028694A publication Critical patent/KR19990028694A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Testing Electric Properties And Detecting Electric Faults (AREA)

Abstract

본 발명은 음성 전달 신호의 속성 평가 방법 및 장치에 관한 것으로서, 음성 신호(2)는 성도 분석에 주관적이고, 그로부터의 출력은 신경망(5)에 의해 분석되며, 신경망으로부터의 출력은 소스(2)로 공급된 신호의 속성을 측정하기 위해 네트워크 정의 함수(4)에 저장된 파라미터와 비교되고, 상기 네트워크 정의 함수는 왜곡이 인간 청취자에게 인식가능한 범위를 나타내는 왜곡 인식 한도를 트레인가능한 처리 장치에 적용시켜 결정되는 것을 특징으로 한다.

Description

음성 전달 신호의 속성 평가 방법 및 장치
본 발명은 음성을 전달하는 오디오 신호 평가에 관한 것으로서, 그중에서도 사용하는 동안 전기통신 시스템의 상태 평가에 대한 특별한 응용에 관한 것이다.
전기통신 링크를 통해 전달된 신호는 디지털화, 데이터 압축, 데이터 감소, 증폭 등과 같은 많은 변환을 겪을 수 있다. 이러한 모든 처리들은 신호를 일그러뜨릴 수 있다. 예를 들어, 그 진폭이 최대 디지털화 값보다 큰 파형을 디지털화하는 경우, 상기 파형의 피크는 편평한 형태로 변환될 것이다(피크 클리핑으로 알려진 처리). 이것은 상기 신호에 원치않는 고조파를 추가시킨다. 또한 외부 소스로부터의 전자적 간섭에 의해 왜곡이 일어날 수도 있다.
앞서 기술된 프로세스에 의해 소개된 왜곡들은 비선형이고, 따라서 간단한 테스트 신호는 음성과 같은 복잡한 파형으로서 동일한 방법으로 왜곡되지 않거나 전혀 왜곡되지 않을 수 있다. 데이터를 전달하는 전기통신 링크에서, 모든 가능한 데이터 문자(예를 들어 2진 링크에서 1과 0의 두개 문자, 또는 DTMF(dual tone multi-frequency)에서 사용된 12톤의 쌍) 시스템을 이용하여 링크를 테스트하는 것이 가능하다. 그러나 음성은 제한된 수의 잘 정의된 신호 요소로 구성되어 있지 않지만, 그 요소가 음성의 내용(및 사용된 언어)뿐 아니라 각각의 화자의 생리학 및 심리학적 특성에 따라 변화하고, 피치, 볼륨, 특징적인 모음 등과 같은 특성에 영향을 미치는 연속적인 다른 신호이다.
음성의 샘플을 이용하여 테스트 시퀀스를 실행하므로써 전기통신 장비를 테스트하는 것이 알려져 있다. 테스트하에서 장비에 의해 수정된 바와 같은 테스트 시퀀스와 원래의 테스트 시퀀스의 비교는 테스트하에서 장비에 의해 소개된 왜곡을 식별하기 위해 사용될 수 있다. 예를 들어, Edmund Quincy의 IEEE International Conference on Communications 87 33.3회기 제2권(1164-1171쪽)에서 "방식 기본" 시스템("전문가" 시스템으로도 알려짐)을 이용하여 그러한 신호를 분석하는 그러한 방법을 기술하고 있는데, 주어진 입력 신호를 위해 상기 신호의 속성을 나타내는 적절한 출력을 발생시키기 위해 예정된 객관적인 방식이 사용된다.
앞서 기술된 배치는 선배치 테스트 시퀀스의 사용을 요구하는데, 상기 테스트 시퀀스가 전달되는 트래픽에 간섭하고 사용자에게 들리며, 반대로 (그 내용이 예정될 수 없는) 활동적인 트래픽 자신이 테스트 신호의 왜곡으로서 테스트 장비에 의해 검출되기 때문에, 그것이 활동중인 전기통신 링크-소득 트래픽에서 현재 사용중인 링크-에서 사용될 수 없다는 것을 의미한다.
사용중에 장비상의 테스트를 처리하기 위해, 상기 장비에 의해 전달되는 신호에 간섭하는 일없이(소위 비강제 테스트), 상기 테스트 신호로서 활동중인 음성 신호 자신을 이용하여 테스트를 처리하는 것이 바람직하다. 그러나 테스트 신호로서 활동중인 음성을 이용하는 것과 관련된 문제는 측정 포인트에서 원래 신호의 샘플을 습득하는 순간적인 방법이 없다는 것이다. 원래 신호가 측정 위치로 전송될 수 있는 어떠한 수단은 테스트하에서 링크로서 유사한 왜곡에 주관적일 듯하다.
본 출원인과 공동출원한 국제특허출원 WO96/06495 및 WO96/06496(양쪽 모두 1996년 2월 29일에 공개됨)은 이 문제를 위한 두가지 해결방안을 제안하고 있다. WO96/06495는 신호가 전기통신 링크에 의해 변경된 방법을 측정하기 위해 화자 독립적인 특정한 음성 특성의 분석을 설명하고 있다. 그것은 또한 다른 특성과 관련하여 각각의 화자사이에서 일관된 방법으로 그들 자신이 직접적으로 측정가능하지 않게 변화하고, 따라서 이러한 다른 특성에 관한 정보를 얻어내기 위해 사용될 수 있는 특정 음성 특성의 분석을 기술하고 있다. 예를 들어, 무성 마찰음의 스펙트럼 내용은 볼륨(진폭)에 따라, 그러나 각각의 화자에 매우 독립적인 방법으로 변화한다. 따라서 상기 스펙트럼 내용은 원래의 신호 진폭을 추정하기 위해 사용될 수 있고, 화자와 측정 지점간의 감쇠를 추정하기 위해 수신된 신호 진폭과 비교될 수 있다.
WO96/06496에서, 수신된 신호의 내용은 음성 인식기에 의해 분석되고, 이 분석의 결과는 왜곡이 없는 음성 신호를 재발생시키기 위해 음성 신디사이저에 의해 처리된다. 상기 신호는, 예를 들어 국제 특허 출원 WO94/00922 및 WO95/15035에서 기술된 바와 같은 지각적 분석기술을 사용하여 어떠한 왜곡 또는 간섭을 식별하기 위해, 수신된 음성 신호와 비교될 수 있는 원래의 음성 신호를 추정하도록 피치 및 지속기간으로 정규화된다.
일반적으로 제한된 대역폭을 통한 음성 전송은 데이터 감소 예를 들어 LPCs(Linear predictive codecs)를 사용한다. 그러한 코덱은 인간 성도로의 접근을 기초로 하고 있고, 성도 모형에서 대등하는 행위를 일으키도록 요구되는 파라미터로서 음성 파형의 세그먼트을 나타낸다.
본 발명의 제 1 측면에 따르면, 신호가 음성 및 왜곡 신호 요소 양쪽을 파라미터식으로 나타낼 수 있는 계수를 발생시킬 수 있는 스펙트럼 표시 모형에 따라 출력 파라미터를 발생하도록 분석되고, 상기 출력 파라미터는 부과된 출력 파라미터로부터 얻어지는 출력을 발생시키기 위해 예정된 네트워크 정의 함수에 따라 부과되는 것을 특징으로 하는 음성 전달 신호의 속성 평가 방법이 제공된다.
본 발명의 제 2 측면에 따르면, 출력 파라미터를 발생하기 위해 음성 및 왜곡 신호 요소 양쪽을 파라미터식으로 표시할 수 있는 계수를 발생시킬 수 있는 스펙트럼 표시를 사용하여 신호를 분석하는 수단(3);
네트워크 정의 함수를 정의하는 부과 세트를 저장하는 저장수단(4); 및
출력 파라미터 및 상기 네트워크 정의 함수로부터 얻어진 출력값을 발생시키는 수단(5)을 구비하는 것을 특징으로 하는 음성 전달 신호의 속성 평가 장치가 제공된다.
대개, 상기 네트워크 정의 함수는 출력값이 알려지도록 준비 단계에서 데이터로부터 얻어진다.
대개 스펙트럼 표시는 불완전한 성도 모형이다. 그러나, 청각 모형과 같은 스펙트럼 표시도 사용될 수 있다.
이러한 환경에서 "청각 모형"이라는 용어는 인간 청각 시스템(즉, 귀-두뇌 결합)과 동일한 방법으로 자극에 반응하는 모형을 의미한다. 그것은 좀더 일반적인 용어인 "인식" 모형, 즉 인간 청각 시스템과 동일한 방법으로 자극에 반응하는 모형의 특정한 범주이다.
이러한 환경에서 '불완전한 성도 모형'이라는 용어는 이상적이지는 않지만 인간 성도가 생산할 수 없는 청각 스펙트럼 요소와 관련되는 계수를 발생시킬 수도 있는 성도 모형을 의미한다. 특히 그것은 음성 및 왜곡 신호 요소 모두를 파라미터적으로 표시할 수 있는 모형을 의미하고, 성도 모형 디자인을 위한 정규 목적은 아니다.
적절한 실시예에서, 상기 네트워크 정의 함수는 예를 들어 잘 조절되거나 또는 일부러 잘못 조절되는, 알려진 성질을 가지고 있는 음성 샘플들은 상기 성도 모형에 의해 분석되며, 그러면 발생된 파라미터는 잘 조절된 또는 잘못 조절된 신호와 관련하는 것으로 신경망과 같은 트레인가능한 처리에 의해 식별될 수 있다. 이러한 방법으로, 부과는 각각의 신호 타입과 관련된 파라미터를 위해 설계될 수 있고, 따라서 알려지지않은 신호가 처리되는 경우 출력은 상기 알려지지않은 신호와 관련되는 그들 파라미터와 관련된 앞서 발생된 부과를 이용하여 발생될 수 있다.
대개, 내트워크 정의 함수 부과는 일시적인 출력 파라미터 내용에 종속적이다. 이러한 목적을 위해, 각각의 파라미터뿐만 아니라 파라미터의 시퀀스에 부과치가 주어질 수 있다. 연속적인 시간 프레임의 파라미터 시퀀스는 실제 음성에 대응하는 다수의 인식된 시퀀스중의 하나에 따라야 한다. 파라미터의 세트가 앞선 시퀀스 멤버에 따르지 말아야 하거나 또는 전혀 나타나지 말아야 하는 시간 프레임으로 식별된다면, 이것은 왜곡이 존재한다는 것을 나타낸다.
하나의 실시예에서, 상기 장치는 저장된 부과 세트를 발생하는 트레이닝 수단을 구비하고, 상기 트레이닝 수단은 모형화 수단에 음성의 샘플을 제공하는 제 1 입력수단; 상기 음성 샘플과 관련하는 알려진 출력 정보(이후 "라벨"이라 함)를 상기 트레이닝 수단에 제공하는 제 2 입력수단; 상기 라벨에 기초한 모형화 수단으로부터 부과를 발생하는 수단; 및 상기 모형화 수단에 의해 발생된 부과를 저장하는 저장수단을 구비하고 있다.
따라서 트레이닝 샘플에서 사용된 음성 세그먼트은 각각이 잘 조절되거나("좋은") 또는 잘못 조절된("좋지 못한") 것으로 분류되어야 한다. 이것은 일반적인 샘플이 몇시간의 음성으로 이루어지고 그러한 많은 샘플들이 상기 시스템이 화자의 범위, 조건, 및 다른 변수에 정확히 대응하여 트레인하도록 요구되기 때문에 주요 업무가 된다. 각각의 세그먼트의 지속기간은 일반적으로 20ms이고, 그래서 전체적으로 수백만 세그먼트들이 분류되어야 한다.
적절한 실시예에 따라, 상기 트레이닝 수단은 제 1 신호 및 제 1 신호의 왜곡된 변형으로 이루어진 트레이닝 시퀀스를 제공하는 수단, 트레이닝 시퀀스를 수신하고 상기 왜곡이 인간 청취자에게 인식될 수 있는 범위를 가리키는 왜곡 인식 한도를 발생하는 분석 수단, 및 네트워크 정의 함수를 결정하기 위해 상기 왜곡 인식 한도를 트레인할 수 있는 처리 장치에 사용하는 수단을 구비하고 있다.
대개 상기 트레인 가능 처리방법은 제 1 신호 및 제 1 신호의 왜곡된 변형으로 이루어진 트레이닝 시퀀스를 제공하는 단계, 및 상기 신호의 왜곡이 인간 청취자에게 인식가능할 범위를 가리키는 왜곡 인식 한도를 발생하는 단계를 구비하는 분석 처리 방법에 의해 결정된 바와 같이, 각각의 세그먼트에 존재하는 왜곡의 인식정도를 측정하여 네트워크 정의 함수를 결정하는 단계를 구비하고 있다.
적절한 배치에서, 상기 분석 처리는 동일한 신호의 왜곡된 변형 및 왜곡되지 않은 변형에 의해 인간 청각 시스템상에서 산출되는 효과를 추정하고, 상기 효과간의 차이를 결정하며, 상기 차이에 종속하여 상기 왜곡 인식 한도를 발생시킨다. 대개, 상기 분석 처리는 상기 왜곡의 인식 강도에 종속되고, 상기 왜곡의 진폭에 비선형적으로 종속되도록 상기 왜곡 인식 한도를 발생한다.
대개 상기 분석 처리는 상기 테스트 신호 및/또는 상기 왜곡된 신호의 다수의 스펙트럼 성분 신호를 발생시키고, 각각의 스펙트럼 성분 신호를 위해 스펙트럼 성분 신호가 인간 청각 시스템상에서 생산하는 마스크 효과를 추정한다.
적절한 배치에서, 상기 분석 처리는 왜곡된 신호를 다수의 스펙트럼 성분 밴드로 분해하므로써 인간 청각 시스템에서 생산하는 효과를 추정하고, 상기 스펙트럼 성분 밴드는 스펙트럼 마스크를 제공하는 형태가 되고; 그 임시적인 일부에 우선하는 및/또는 계속되는 것에 기인하여 신호의 일시적인 마스크를 연산하며; 스펙트럼 성분 신호 각각을 위해, 왜곡된 신호의 성분 신호와 대응하여 연산된 테스트 신호의 성분간의 차이의 표시를 형성하고; 상기 차이 측정으로부터 상기 왜곡 인식 한도를 발생한다. 특별히 적절한 실시예에서, 상기 분석 처리는 상기 차이 신호로부터 왜곡의 스펙트럼적 및 임시적인 분할의 측정을 발생시킨다.
각각의 트레이닝 시퀀스는 일반적으로 화자들의 특성에서의 변화를 설명하기 위해, 자연 음성의 커다란 총체가 될 것이다. 적절한 실시예에서, 상기 분석 처리 방법은 왜곡된 음성 신호를 다수의 스펙트럼 성분 밴드로 분해하는 단계를 구비하고, 상기 스펙트럼 성분 밴드는 스펙트럼 마스크를 제공하는 형태가 되고; 그 임시적인 일부에 우선하는 및/또는 계속되는 것에 기인하여 신호의 일시적인 마스크를 연산하며; 스펙트럼 성분 신호 각각을 위해, 왜곡된 신호의 성분 신호와 대응하여 연산된 테스트 신호의 성분간의 차이의 표시를 형성하고; 상기 차이 측정으로부터 상기 왜곡 인식 한도를 발생한다. 특별히 적절한 실시예에서, 상기 분석 처리는 상기 차이 신호로부터 왜곡의 스펙트럼적 및 임시적인 분할의 측정을 발생시킨다.
적절한 음성 분석 처리 방법이 국제 특허 출원 WO94/00922, WO95/01011, 및 WO95/15035에 기술되어 있다. 세그먼트들을 자동적으로 분류하므로써, 왜곡 인식 한도를 사용하여 네트워크 정의 함수는 일관적으로 인간 청취자에게 인식가능한 요인에 따라 얻어질 수 있다.
지금부터 본 실시예의 여러 요소의 기능적인 관계를 나타내는 첨부한 도면을 참조하여 본 발명의 전형적인 실시예를 설명하도록 하겠다. 본 발명이 일반 목적 컴퓨터상에서 실행하기 위한 소프트웨어에서 유리하게 실시될 수 있다는 것이 평가될 것이다.
도 1은 트레이닝 처리를 위해 구성된 트레인가능한 시스템의 기능적인 요소를 나타내는 도면,
도 2는 알려지지 않은 데이터로 실행하기 위해 구성된 동일한 시스템의 기능적인 요소를 나타내는 도면,
도 3은 도 1의 트레이닝 장치를 매우 상세히 나타내는 도면,
도 4는 도 3의 분석 장치를 매우 상세히 나타내는 도면, 및
도 5는 데이터 소스에 의해 제공된 초기 음성 샘플이 발생될 수 있는 장치를 나타내고 있다.
도 1 및 도 2의 시스템은 트레이닝 데이터 소스(1) 및 라이브 트래픽(실제 데이터)의 소스(2)를 구비하고 있고, 양쪽 모두 성도 분석기(3)로의 입력을 제공한다. 상기 트레이닝 데이터와 관련된 파라미터는 또한 상기 트레이닝 장치(1)에서 분류 유닛(5)으로 공급되는데, 트레인 가능한 처리, 특히 신경망(5)으로 나타나 있다. 상기 분석기(3)에 의한 파라미터 출력은 상기 신경망(5)으로 공급된다. 트레이닝 처리동안, 상기 신경망(5)은 기억장치(4)로 파라미터를 제공한다. 이러한 파라미터들은 네트워크 정의 함수를 정의한다. 실제 데이터가 읽혀지는 경우, 출력(6)으로 공급되는 분류 데이터를 발생하기 위해 상기 파라미터는 상기 기억장치(4)로부터 검색되고, 성도 분석기(3)에 의해 발생된 값에서 네트워크 정의 함수를 실행하기 위해 신경망(5)에 의해 사용된다. 일반적으로, 상기 출력 데이터는 상기 분석기(3)에 의해 발생되고, 상기 네트워크 정의 함수에 따라 부과되며, 상기 시스템에 의해 식별된 왜곡의 정도를 가리키는 값에 기초한 분류의 형태이다. 예를 들어, 만일 부과된 파라미터가 예정된 값을 초과하고 및/또는 만일 상기 부과된 파라미터들의 수학적 결합(예를 들어 그들의 총합)이 예정된 값을 초과하는 경우, 신호는 '좋은' 것으로 분류될 수 있다. 일부 측정가능한 성질은 하나 또는 그 이상의 다른 측정으로부터 예측가능한 특성값을 갖는다. 만일 실제적으로 측정된 값이 예측된 값과 대응하지 않는다면, 상기 값들중 하나 또는 다른 값이 왜곡되고, 따라서 또다른 신호 속성 표시를 제공한다. 일부 속성 레벨은 다수의 임계값을 설정하므로써 정의될 수 있다.
일반적인 목적으로 상기 신호는 시간 프레임의 시퀀스로서 분석된다. 제 1 시간 프레임과 관련되는 데이터로부터 얻어진 파라미터들은 다음 시간 프레임의 분석에서 사용될 수 있다. 이러한 목적을 위해 상기 성도 분석기(3)의 출력은 신경망(5)의 다음 작동에서 차후 사용하기 위해 버퍼 기억장치(7)에 저장된다.
도 3은 트레이닝 장치(1)를 매우 상세히 나타내고 있다. 그것은 "좋은" 신호를 가진 제 1 기억장치(8a) 및 상기 제 1 기억장치(8a)에 저장된 좋은 신호의 왜곡된 변형을 가지고 있는 제 2 기억장치(8b)를 구비하는 데이터 기억장치(8)를 포함한다. 상기 기억장치(8a)로부터의 좋은 신호 및 그에 대응하는 기억장치(8b)로부터의 왜곡된 변형은 제 1 및 제 2 입력(11,12) 각각을 통해 분석 유닛(9)으로 공급되는데, 상기 분석유닛은 라벨의 시퀀스로 이루어지는 출력을 제공하고, 그러면 상기 시퀀스는 신경망(5)(도 1)으로 전송된다. 상기 신호의 왜곡된 변형은 또한 세그멘터(10)로 전송되고, 상기 세그멘터는 상기 신호를 상기 라벨과 대응하는 각각의 세그먼트로 나눈다. 그러면 이러한 세그먼트들은 성도 분석기(3)(도 1)로 전송된다.
도 4는 분석 유닛(9)을 매우 상세히 나타내고 있다. "좋은" 신호 및 상기 좋은 신호의 왜곡된 변형을 전달하는 제 1 및 제 2 기억장치(8a,8b)로부터의 입력(11,12)은 각각 청각 모형(각각 13,14)을 통해 공급되고, 상기 청각 모형의 출력은 비교기(15)에서 비교된다. 대안적인 배치에서 좋은 신호 및 왜곡된 신호의 대응하는 통로는 대신 동일한 청각 모형 및 좋은 신호 및 왜곡된 신호를 위해 비교된 이 청각 모형의 출력을 통해 공급될 수 있다는 것이 통상의 지식을 가진 자에게 명백해질 것이다. 상기 비교기(15)로부터의 출력은 에러면 발생기(16)에서 에러면을 발생시키기 위해 사용되고, 그래서 발생된 에러면의 성질은 라벨 발생기(17)에서 에러면(16)의 특성에 적절한 라벨을 얻어내기 위해 사용된다. 이러한 라벨들은 상기 세그멘터(10)에서 신호의 세그먼트화와 함께 동기적으로 생산된다. 상기 라벨은 상기 신경망(5)(도 1)으로 출력된다.
도 5는 데이터 기억장치(8)용 데이터의 발생을 나타내고 있다. 원래의 테스트 신호(18)는 어떤 적당한 수단에 의해 발생되고, 뒤에서 설명하는 바와 같이 상기 제 1 기억장치(8a)에 직접적으로 전송된다. 동일한 신호가 또한 왜곡 수단(19)을 통해서 전송되고, 산출된 왜곡 신호는 제 2 기억장치(8b)에 저장된다.
본 명세서에서 성도 분석 시스템 및 트레인 가능한 프로세스의 특성에 대해 간단히 논의하는 것이 적절하다. 성도는 성문으로부터 입술까지 확장되는 비균일 어쿠스틱 튜브이고, 시간 함수로서 모양면에서 다양하다(Fant G C M의 "Acoustic Theory of Speech Production", Mouton and Co. 1960년 네덜란드, 스크래브헤이즈). 시간 변경을 일으키는 주요 해부적 성분은 입술, 턱뼈, 혀 및 연구개이다. 계산을 쉽게 하기 위해, 이러한 시스템을 위한 모형이 선형적이고 시간 불변적인 것이 요구된다. 불행하게도, 인간 음성 메카니즘은 이러한 성질 어느 쪽도 정확히 만족시키지 못한다. 음성은 끊임없는 시변화 프로세스이다. 게다가, 성문은 성도로부터 연결되지 않고, 비선형 특성을 야기시킨다(Flanagan J L의 "Source-System Interactions in the Vocal Tract", Ann. New York Acad. Sci 155, 9-15, 1968). 그러나, 이치에 맞는 가설을 하므로써, 음성 이벤트를 설명하기 위해 짧은 시간격을 통한 선형 시불변적 모형을 개발하는 것이 가능하다(Markel J D와 Gray A H의 "Linear Prediction of Speech", Springer-Verlag Berlin Heidelberg New York, 1976). 선형 예언 코덱은 음성 이벤트를 짧은 시간 간격 또는 프레임으로 나누고, 현 프레임내 음성을 나타내는 예언기 파라미터의 고유 세트를 발생시키기 위해 지난 음성 프레임을 사용한다(Atal B S와 Hanauer S L의 "Speech Analysis and Synthesis by Linear Prediction of the Speech Wave", J. Acoust. Soc. Amer., 1971년 제50권 pp.637-655). 선형 예언 분석은 피치, 포먼트, 및 스펙트럼과 같은 음성 파라미터를 추정하기 위한 방법이 폭넓게 사용되어 왔다.
청각 모형(시간/주파수/진폭 스펙트럼 사진)은 모니터되는 소리의 가청 특성에 의존하고, 성도 모형이 신호가 음성과 유사한지 여부 즉, 실제 성도가 그것을 생산할 수 있었는지 여부를 식별할 수 있는 반면, 그들이 생산되는 방법은 무시한다. 따라서 청각 모형에 의해 인식되지 않는 들을 수 없는 차이는 그럼에도 불구하고 성도 모형에 의해 식별될 것이다.
신호 속성을 측정하기 위해, 발생된 출력 파라미터는 측정되는 성질, 즉 인식된 음성 속성에 민감해야 한다. 따라서 상기 모형은 음성과 유사하지 않은 왜곡을 모형화할 수 있어야 하고, 따라서 이상적인 성도 모형은 적당하지 않다. 이상적인 모형은 모든 입력 신호를 음성과 유사한 형태로 변환한다(만일 왜곡이 심하지 않은 경우 반드시 원래의 것일 필요는 없다). 이것은 왜곡된 입력 및 순수한 입력이 음성과 유사한 것으로 분류됨에 따라, 분류 프로세스를 신뢰할 수 없게 만들고, 트레이닝 프로세스를 불가능하게 만든다. 따라서 잘못 조절된 신호 및 잘 조절된 신호간을 구분하기 위해 프로세스가 비인간 왜곡 요소의 존재성에 민감한 성도 모형으로부터의 출력 파라미터에 의존하기 때문에, 성도 모형이 앞서 정의된 의미로서 '불완전'하다는 것이 중요하다. 분석기(3)와 같은 사용에 적당한 성도 모형은 Rabiner L. R. 및 Schafer R.W의 "Digital Processing of Speech Signals"(Prentice-Hall 1978년) 396페이지에서 설명되는 것과 같은 선형 예언 코딩 모형이다.
스펙트럼 분석은 성도 모형의 대안으로서 예를 들어, R.B.Randall의 "Frequency Analysis"(Bruel & Kjaer 출판, 1987(ISBN 87 87355 078))의 섹션 3.6에서 논의된 바와 같은 "one-third octave analysis" 같은 것이 사용될 수 있다.
트레인 가능한 프로세스의 특성 및 특히 신경망이 지금부터 논의될 것이다. 다수의 입력을 그보다 작은 수의 예정된 결과 분류상으로 사상하기 위해, 특히 만일 사상 프로세스가 자연 분류를 나타내는 경우 규칙의 시리즈를 사용하는 것이 가능하다. 그러나, 만일 상기 자연 분류가 매우 복잡하거나, 또는 요구된 사상이 추상적인 파라미터상에서 작동하면, 트레인가능한 프로세스는 요구된 사상을 개발하기 위해 트레이닝 데이터로 언급된 알려진 결과 시리즈에 응하여 사용될 수 있다. 알려진 결과는 계속되는 알려지지 않은 입력의 결합이 분류될 수 있도록 입력 파라미터와 결과 분류간의 관계를 결정하기 위해 사용된다. 신경망은 두뇌가 특정한 업무 또는 기호적인 기능을 수행하는 방법을 모형화하기 위해 디자인된다. 학습 프로세스를 통해 유용한 연산을 수행하도록 신경망을 트레인할 수 있다(Haykin S의 "Neural Network, A Comprehensive Foundation", Macmillan IEEE Press, 1994). 좋은 성능을 이루기 위해 신경망은 간단한 처리 유닛들의 단단한 상호 연결을 채택한다. 부과로 알려진 유닛 연결 강도를 상호처리하는 것은 상기 시스템의 지식을 저장하기 위해 사용된다(Aleksander I와 Morton H의 "An Introduction of Neural Computing", Chapman and Hall London, 1990). 학습 프로세스를 수행하기 위해 사용되는 프로시저는 학습 알고리즘이라고 불리우는데, 그 기능은 요구된 디자인 목적을 달성하도록 시퀀스에 따른 방식으로 네트워크의 부과를 수정하는 것이다. 신경망의 전력은 대량으로 병렬 분산된 구조 및 그 학습 능력으로부터 얻어지고, 따라서 일반화된다; 일반화는 트레이닝동안 만나지 않는 입력을 위한 정당한 출력을 생산하는 네트워크를 참조하고 있다. 감시되는 학습은 요구된 응답과 시스템의 실제 응답간의 차이를 줄이기위해 네트워크로의 분류의 알려진 예가 존재하고 그러면 상호 연결된 부과를 변경한다. 트레이닝은 상기 네트워크가 안정된 상태에 도달할 때까지 입력의 분류 각각으로부터의 많은 예에서 반복된다. 신경망에 의해 수행된 입력-출력 사상 및 비파라미터적 통계적인 추론에 의해 성취된 분류간의 가까운 유사성이 있다.
지금부터 상기 시스템의 작동을 설명하도록 하겠다. 먼저 도 2를 참조하면, 실제 데이터는 소스(2)로부터 성도 분석 시스템(3)으로 공급될 수 있다. 왜곡 및 간섭은 왜곡되거나 또는 함께 실종되는 원래 신호의 각각의 일부 시간 프레임을 발생시킬 수 있다. 만일 주어진 프레임이 가능한 프레임의 작은 서브셋중의 하나에 따라 나타나기만 한다면, 그 서브셋의 멤버가 아닌 프레임에 따른 그 출현은 종속 프레임 또는 그 선행자 중의 한쪽이 (또는 양쪽) 상기 환경에 적절한 일부 원래의 프레임으로부터 왜곡된 것이라는 것을 가리킨다. 각각의 프레임의 파라미터는 '허가'될 수 있다(즉, 상기 파라미터가 희망되는 범위내로 떨어진다). 그러나 함께 고려되는 파라미터들의 시퀀스는 왜곡이 일어나는 것을 가리키어 유효하지 않을 수 있다. 상기 기억장치(4)에 저장된 파라미터들은 그러한 효과를 포함하는 네트워크 정의 함수를 정의한다. 상기 성도 분석기에 의해 분석된 파라미터들은 출력(6)을 생산하기 위해 입력으로서 상기 신경망(5)으로 공급되는데, 상기 성도 분석기에 의해 발생된 데이터에 네트워크 정의 함수를 사용한다. 네트워크 정의 함수는 소스(2)에 공급된 신호의 속성분류를 얻어내기 위해, 기억장치(4)에 저장된 파라미터에 의해 정의된다.
시간 종속 성질에 관련되는 파라미터를 포함하기 위해, 예를 들어 모형으로부터의 출력의 순간적인 특성이 인간 성도 능력내에 있는지의 여부뿐 아니라, 시불변 성질이 그러한 능력내에 있는지 여부도 식별하기 위해, 상기 성도 분석기로부터의 출력은 버퍼 기억장치(7)내에 저장된다. 예정된 수의 저장된 파라미터들은 현재 샘플에 추가하여 "역사적" 데이터같이 신경망(5)으로의 입력으로 공급될 수 있고, 따라서 상기 신호의 시간 종속적인 특성을 측정한다. 저장된 파라미터는 참작될 샘플의 "전 역사" 및 "후 역사"를 허가하도록 현재 샘플 앞과 뒤 양쪽 모두 상황과 관련될 수 있다. 명백히, 후자의 경우에서, 현재 샘플의 분석은 그 후 역사가 어셈블될 때까지 발생할 수 없다.
소스(2)는 다수의 링크에 걸친 신호 속성을 모니터하기 위해, 시퀀스적으로 많은 각각의 전기통신 링크와 연결될 수 있다. 특히 비강제 측정 프로세스에 적절함에도 불구하고, 본 발명은 테스트 신호는 실제적인 것보다 소스로서 사용되는 소위 "강제" 측정에서도 유용하다.
출력(6)은 사용자에게 어떤 적절한 형태로 표시될 수 있다. 낮은 성능을 나타내는 분류를 발생하는 소스는, 상기 소스(2)에 의해 표시된 전기통신 링크가 사용되지 않을 수 있고 만일 필요하다면 교정될 수 있으며, 상기 링크는 가능하다면 또다른 루팅에 의해 재설치되도록 네트워크 관리자로 표시될 수 있다. 하나의 가능한 실시예에서, 그러한 행위는 자동적으로 제어될 수 있거나, 또는 상기 출력(6)에 의해 공급된 지시로 행위하도록 인간 제어기에게 남겨질 수 있다.
각 시간 프레임을 위해 기록된 파라미터들은 파라미터를 표시하는 짧은 코드로 저장될 수 있다. 이것은 적은 비용이 들고, 상당히 짧은 시간으로 처리할 수 있다. 연속적인 시간 프레임의 코드 시퀀스는 그들이 표시하는 파라미터와 같이 실제 음성 사운드에 대응하는 다수의 인식된 시퀀스들중의 하나를 따라야 한다. 파라미터의 세트들이 앞 시퀀스 멤버에 따르지 말아야할 코드를 가지고 있는, 또는 전혀 코드화되지 않은 시간 프레임을 위해 식별되어야 하는 경우, 이것은 왜곡이 존재한다는 것을 의미한다.
기억장치(4)에 저장되어있는 파라미터를 발생시키기 위해, 상기 신경망(5)은 트레이닝 데이터를 사용하여 제일 먼저 네트워크 정의 기능을 설치하기 위해 트레인되어야 한다. 이 프로세스가 도 1에 설명되어 있다. 테스트 데이터는 트레이닝 장치(1)로부터 성도 분석기(3)로 공급된다. 상기 트레이닝 장치(1)는 또한 기억장치(4)에 저장될 네트워크 정의 기능을 정의하기 위해 라벨의 발생을 허용하도록 상기 테스트 데이터와 관련되는 분류 파라미터를 상기 신경망(5)으로 공급한다.
지금부터 이러한 라벨의 발생을 설명하도록 하겠다. 신경망을 트레인하도록 요구된 데이터의 볼륨을 발생시키기위해, 인간 조작자에 의해 각각 정확히 추정될 매우 짧은 음성 세그먼트를 이용하여 그러한 신호를 발생하는 자동 방법이 발명되어왔다. 이러한 프로세스는 인식할 수 있는 분석 모형의 사용에 의존한다, 즉 신호의 왜곡이 인간 청취자에게 중요한가 여부를 추정하는 프로세스이다. 초기에 테스트 신호의 소스(8)는 두개 관련 기억장치(8a,8b)를 갖도록 제공된다. 제 1 기억장치(8a)는 "좋은" 신호 샘플을 가지고 있다. 완전한 샘플은 일반적으로 몇시간의 길이를 갖는다. 제 2 기억장치(8b)는 같은 샘플의 대응하는 변형을 가지고 있는데, 뒤에서 기술될 수단에 의해 왜곡에 부속됐다. 상기 제 2 기억장치(8b)에 저장된 샘플은 여러 왜곡 정도 및 타입을 포함한다. 왜곡된 신호는 성도 분석기(3)(도 1)로 직접적으로 공급되는 짧은 세그먼트(일반적으로 20㎳)로 나누어진다. 분석 유닛(9)은 "좋은" 샘플과 왜곡된 샘플을 비교하고, 각 세그먼트내 존재하는 왜곡이 인간 청취자에게 인식될 수 있는 모형에 의해 간주되는 정도를 나타내는 라벨의 시퀀스를 발생한다. 이 분석 프로세스는 본 명세서에서 일반적인 용어로 기술될 것이지만, 국제 특허 출원 제 WO94/00922, WO95/01011, 및 WO95/15035에서 사용된 분석기술들이 특히 적당하다.
상기 분석 시스템이 도 4에 매우 상세히 나타나있다. "좋은" 샘플 및 대응하는 왜곡된 신호는 각각 입력(11,12)을 통해 청각 모형(13,14)으로 공급된다. 이들은 각각의 모형이기 때문에 명료하게 나타나 있지만, 상기 샘플들은 대신 동일한 모형을 통해 전송될 수 있다는 것이 평가될 것이다. 동일한 프로세스가 양 신호에 사용된다는 것은 어느 경우에서나 중요하다. 상기 모형은 각각의 신호 세그먼트 특성의 인식가능한 중요성과 관련되는 다수의 파라미터를 발생시킨다. 상기 프로세스는 사운드가 주파수면에서 그것과 근접한 더 조용한 동시 사운드를 마스크하는 동시적인 마스크 현상을 모형화하기 위해 중첩 필터를 사용하여, 샘플을 여러 중첩 스펙트럼 밴드로 분해하는 것과 관계될 수 있고, 더 큰 사운드를 인접하여 선행 또는 후행하는 조용한 사운드가 만일 더 큰 사운드가 존재하지 않는 경우보다 인식력이 낮은 일시적인 마스크 현상을 모형화하기 위해 각각의 세그먼트를 하나 또는 그 이상의 선행 또는 후행 세그먼트와 비교하는 것과도 관계될 수 있다. 앞서 언급한 특허 명세서에서 기술된 바와 같이, 상기 청각 모형 프로세스는 청각면을 발생시키고, 그러면 상기 "좋은" 샘플 및 상기 왜곡된 샘플과 대응하는 두개의 청각면은 에러면을 생산시키기 위해 비교기(15)에서 비교된다. 이러한 면들은 인식된 사운드 신호의 크기가 피치 및 시간 축에 직각을 이루는 축상으로 표시되는 다수의 시간 세그먼트 및 주파수 또는 피치 밴드들(상기 밴드들의 각각의 범위는 동일한 인식 중요성중의 하나가 되도록 예를 들어 신호를 바크 스케일에 따르게 하므로써 선택된다)을 통해 필수적으로 한도가 된다. 여러 부과는 예를 들어 첨가된 소음과 비교된 바와 같은 신호 손실로부터 야기되는 손상에서의 차이를 설명하기 위해 양의 값 또는 음의 값으로 사용될 수 있다. 만일 어떠한 왜곡도 전혀 존재하지 않는다면, 상기 에러면은 전체면에 걸쳐 제로값을 가질 것이다. 만일 예에서 논의된 바와 같이, 상기 에러면상의 값이 청각 모형 출력간의 차이의 절대 크기(설명한 것과 같이 가능하게 부과된)로 결정되는 경우, 상기 모든 에러면의 값은 양이 된다.
앞서 언급한 특허 명세서에서 기술된 바와 같이, 상기 에러면의 특성은 그리로 전달된 에러의 인식 중요성에 대한 값을 얻어내기 위해 사용될 수 있다. 국제 특허 출원 WO95/15035에서 특히 기술된 바와 같이, 상기 에러면에 걸쳐 모인 에러의 절대 크기는 이 값으로 인수가 된다. 그러나, 상기 명세서에서 "에러 엔트로피"와 같이 기술된, 면의 모양에 종속적인 값에 의해 기여할 수도 있다.
존재하는 왜곡의 절대 양을 가리키는 "청취력"의 마지막 부과값(YLE)은 다음과 같이 얻어질 수 있다:
에러 행위,
이때, c(i,j)는 분석될 에러면의 시간 세그먼트(ith) 및 피치 밴드(jth)에서의 에러값이다.
시간 및 피치(또는 에너지가 분포된 범위의 역수에 대응하는 왜곡의 엔트로피)에 걸친 에러의 분포는 다음과 같이 연산된다:
에러 엔트로피,
이때
상기 수식에서 자연 로그(ln)는 에너지의 진폭내 변화가 비선형 압축 함수의 역할을 하여 엔트로피(EE)에 영향을 주는 범위를 제어한다.
에러 행위 및 에러 엔트로피 기준은, 만일 피치 및 시간에 걸쳐 분포되기보다 짧은 시간 주기에 걸친 단일 피치에서 집중되는 경우 청취자가 비교적 더 눈에 띄는 높은 에러 레벨을 발견할 것이기 때문에, 함께 주관적으로 인식된 왜곡 레벨과 대응한다는 것을 알게 된다.
에러 엔트로피(EE)는, 에러 행위(EA)가 그 분포에 독립적인 에러 양의 한도를 제공하는 반면, 전체 에러양의 크기에 독립적인 에러의 분포 한도를 제공한다.
사실, 본 실시예에서 채택된 청각 에러 진폭 스케일의 대수 유닛을 고려하기 위해, EA및 EE를 다음과 같이 E`A및 E`E로 다시 계산하는 것이 편리하다:
그리고
그러면 에러 행위 및 에러 엔트로피 한도는 왜곡에 대한 주관적인 청취자 응답이 존재하는 것을 잘 가리키도록 실제 왜곡 특성에 비교적 강한 방법으로 결합될 수 있다.
주관적 "청취력" 측정(YLE)의 좋은 지시는
YLE= -a1+ a2log10E`A+ a3E`E
이때 a1=8.373; a2=0.05388; 및 a3=0.4090.
YLE의 적절한 임계값은 특정한 샘플이 "잘 조절된" 또는 "잘못 조절된"으로 분류되어야 하는지 여부를 결정하기 위해 사용될 수 있다. 라벨 발생기(17)는 상기 연산을 수행하고, 기억장치(8b)로부터 추출된 신호로부터 임시 세그멘터(10)에 의해 생산된 대응하는 테스트 신호 세그먼트에 적절한 라벨을 신경망(5)으로 출력한다.
기억장치(8)에서 사용된 왜곡된 신호 및 "좋은" 신호의 소스는 선발생 기억장치로부터 공급된다. 여러 적당한 데이터의 본체는 이미 유효하지만, 추가 데이터는 지속적으로 발생될 수 있다. 그러한 데이터의 발생은 비교적 간단하고, 도 5에 설명되어 있다.
실제 음성의 여러 샘플들로 이루어질 수 있는 초기 테스트 신호는 표시 선택을 보장하기 위해 여러 화자를 이용하여 "좋은" 기억장치(8a)로 공급된다. 동일한 신호는 또한 왜곡 발생기(19)를 통해 공급된다. 발생되는 왜곡된 신호는 "왜곡된" 신호 기억장치(8b)에 저장된다. 여러 왜곡의 소스가 사용될 수 있다. 여러 테스트 신호 및 왜곡 타입의 여러 순열을 이용하여, 테스트 데이터의 크고 대표적인 본체는 트레이닝 데이터 소스(1)에 의해 공급될 트레이닝 데이터로서 구동하도록 발생될 수 있다.
일반적인 왜곡의 형태는 대표적인 그러한 신호의 선택을 트레이닝 프로세스로 공급하기 위해 왜곡 발생기(19)에 의해 테스트 신호로 공급된다. 이러한 왜곡은 여러 효과를 모의 시험하기 위해 발생될 수 있다. 그것들은 연산 방식으로(즉, 예를 들어 표준 시스템을 에뮬레이트하기 위해 샘플들을 수학적으로 조작하여) 또는 실제 장치를 통해 원래의 신호를 전달하여, 테스트 설비 또는 전기통신 네트워크와 같은 실제 시스템에서 발생될 수 있다.
트레이닝 장치(1)에 의해 신경망(5)으로 공급된 라벨은 전송되는 트레이닝 신호의 특성을 네트워크로 알릴 것이고, 따라서 이러한 특성을 가지고 있는 데이터에 관하여 기억장치(4)에 저장된 여러 파라미터로 적절한 부과를 적용할 수 있게 한다. 여러 타입의 왜곡된 신호 및 왜곡되지 않은 신호의 예가 상기 트레이닝 장치(1)에 의해 공급되고, 그래서 출력(6)은 인식할 수 있는 왜곡이 존재하고 있다는 것뿐 아니라, 왜곡에 의해 야기된 손상 범위, 즉 그 존재가 청취자에게 어떻게 방해하는가도 식별할 수 있다.
네트워크 정의가 정확하다는 것을 보장하기 위해, 분류가 미리 알려진 테스트 데이터는 입력(2)에서 공급될 수 있고, 그러면 신경망(5)에서 네트워크 정의 함수에 의해 발생된 분류는 (도시되지 않은 수단에 의해) 알려진 분류와 비교된다.

Claims (33)

  1. 신호는 출력 파라미터를 발생시키기 위해 스펙트럼 표시 모형에 따라 분석되고, 상기 출력 파라미터는 예정된 네트워크 정의 함수에 따라 부과되며, 상기 출력은 부과된 출력 파라미터로부터 얻어지는 것을 특징으로 하는 음성 전달 신호의 속성 평가 방법.
  2. 제 1 항에 있어서,
    상기 네트워크 정의 함수는 사전 단계에서 출력값이 알려진 데이터로부터 얻어지는 것을 특징으로 하는 음성 전달 신호의 속성 평가 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 스펙트럼 표시는 불완전한 성도 모형인 것을 특징으로 하는 음성 전달 신호의 속성 평가 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 네트워크 정의 함수는 잘 조절된 샘플 및/또는 잘못 조절된 샘플을 사용하여, 스펙트럼 표시에 의해 모형화된, 트레인할 수 있는 프로세스를 사용하여 발생되는 것을 특징으로 하는 음성 전달 신호의 속성 평가 방법.
  5. 제 4 항에 있어서,
    상기 네트워크 정의 함수는
    제 1 신호 및 상기 제 1 신호의 왜곡된 변형으로 이루어진 트레이닝 시퀀스를 제공하는 단계; 및
    왜곡 인식 한도가 상기 신호의 왜곡이 인간 청취자에게 인식가능할 수 있는 범위를 나타내도록 발생되는 분석 프로세스에 의해 결정되는 바와 같이, 각 세그먼트내에 존재하는 왜곡의 인식할 수 있는 정도를 측정하므로써 상기 네트워크 정의 함수를 결정하는 단계에 의해 설치되는 것을 특징으로 하는 음성 전달 신호의 속성 평가 방법.
  6. 제 5 항에 있어서,
    상기 분석 프로세스는 동일한 신호의 왜곡된 변형 및 왜곡되지 않은 변형에 의해 인간 청각 시스템에서 산출되는 효과를 추정하고,
    상기 효과간의 차이를 측정하며,
    상기 차이에 종속하여 상기 왜곡 인식 한도를 발생시키는 것을 특징으로 하는 음성 전달 신호의 속성 평가 방법.
  7. 제 5 항 또는 제 6 항에 있어서,
    상기 분석 프로세스는 상기 왜곡의 인식가능한 강도에 종속되고, 상기 왜곡의 진폭에 비선형적으로 종속되도록 상기 왜곡 인식 한도를 발생시키는 것을 특징으로 하는 음성 전달 신호의 속성 평가 방법.
  8. 제 5 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 분석 프로세스는 상기 테스트 신호 및/또는 상기 왜곡된 신호의 다수의 스펙트럼 성분 신호를 발생시키는 것을 특징으로 하는 음성 전달 신호의 속성 평가 방법.
  9. 제 8 항에 있어서,
    상기 분석 프로세스는 각각의 스펙트럼 성분 신호를 위해, 상기 스펙트럼 성분 신호가 인간 청각 시스템에서 산출하는 마스크 효과를 추정하는 것을 특징으로 하는 음성 전달 신호의 속성 평가 방법.
  10. 제 5 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 분석 프로세스는 상기 왜곡이 상기 효과의 일시적 지속성을 고려하여 인간 청각 시스템에서 산출하는 효과를 추정하는 것을 특징으로 하는 음성 전달 신호의 속성 평가 방법.
  11. 제 5 항 내지 제 10 항 중 어느 한 항에 있어서,
    상기 분석 프로세스는 왜곡된 신호를 스펙트럼 마스크를 제공하도록 구체화된 다수의 스펙트럼 성분 밴드로 분해하고;
    그 우선하는 일시적인 부분 및/또는 계속되는 일시적인 부분에 기인해 신호의 일시적인 마스크를 연산하며;
    각각의 스펙트럼 성분 신호를 위해, 왜곡된 신호의 성분 신호 및 대응하여 연산된 테스트 신호의 성분간의 차이의 표시를 형성하고;
    상기 차이 표시로부터 상기 왜곡 인식 한도를 발생하는 것을 특징으로 하는 음성 전달 신호의 속성 평가 방법.
  12. 제 11 항에 있어서,
    상기 분석 프로세스는 상기 차이 신호로부터 스펙트럼적이고 일시적인 왜곡의 분포 측정을 발생하는 것을 특징으로 하는 음성 전달 신호의 속성 평가 방법.
  13. 제 1 항 내지 제 12 항 중 어느 한 항에 있어서,
    상기 네트워크 정의 함수 부과는 출력 파라미터의 일시적인 환경에 종속되는 것을 특징으로 하는 음성 전달 신호의 속성 평가 방법.
  14. 제 13 항에 있어서,
    파라미터의 시퀀스들은 파라미터 시퀀스들의 제어 세트로부터 얻어진 부과값으로 분류되는 것을 특징으로 하는 음성 전달 신호의 속성 평가 방법.
  15. 제 14 항에 있어서,
    각각의 시퀀스 멤버로 식별된 파라미터들은 축소된 형태로 저장되고, 시퀀스 라벨 세트에 따라 부과된 파라미터들 또한 축소된 형태로 저장되는 것을 특징으로 하는 음성 전달 신호의 속성 평가 방법.
  16. 출력 파라미터를 발생시키기 위해 스펙트럼 표시를 사용하여 신호를 분석하는 수단(3); 네트워크 정의 함수를 정의하는 부과 세트를 저장하는 저장수단(4); 및 출력 파라미터 및 상기 네트워크 정의 함수로부터 얻어진 출력값을 발생시키는 수단(5)을 구비하는 것을 특징으로 하는 음성 전달 신호의 속성 평가 장치.
  17. 제 16 항에 있어서,
    출력값이 알려진 데이터로부터 저장된 부과를 얻어내는 수단을 구비하는 것을 특징으로 하는 음성 전달 신호의 속성 평가 장치.
  18. 제 16항 또는 제 17 항에 있어서,
    상기 스펙트럼 표시는 불완전한 성도 모형인 것을 특징으로 하는 음성 전달 신호의 속성 평가 장치.
  19. 제 16 항 내지 제 18 항 중 어느 한 항에 있어서,
    저장된 부과 세트를 발생하는 트레이닝 수단(1)을 구비하고,
    상기 트레이닝 수단은 분석 수단(3)에 음성 샘플을 공급하는 수단(10); 및 상기 음성 샘플과 관련되는 부과를 발생시키고, 그것을 저장수단(4)으로 삽입하는 수단(9)을 구비하는 것을 특징으로 하는 음성 전달 신호의 속성 평가 장치.
  20. 제 19 항에 있어서,
    상기 트레이닝 수단은
    제 1 신호(8a) 및 상기 제 1 신호의 왜곡된 변형(8b)으로 이루어지는, 트레이닝 시퀀스를 제공하는 수단(8);
    상기 트레이닝 시퀀스를 수신하고, 상기 왜곡이 인간 청취자에게 인식가능하는 범위를 나타내는 왜곡 인식 한도를 발생시키며, 상기 네트워크 정의 함수(4)를 결정하기 위해 상기 왜곡 인식 한도를 상기 트레인가능한 처리 장치(5)에 적용하는 분석 수단(9)을 구비하는 것을 특징으로 하는 음성 전달 신호의 속성 평가 장치.
  21. 제 20 항에 있어서,
    상기 분석 수단(9)은 인간 청각 시스템에서 산출되는 효과를 동일한 신호의 왜곡된 변형 및 왜곡되지 않은 변형에 의해 추정하는 측정 수단(13,14);
    상기 효과들간의 차이를 결정하는 수단(15); 및
    상기 차이에 종속하여 상기 왜곡 인식 한도를 발생하는 수단(17)을 구비하는 것을 특징으로 하는 음성 전달 신호의 속성 평가 장치.
  22. 제 20 항 또는 제 21 항에 있어서,
    상기 분석 수단(9)은 그 값이 상기 왜곡의 인식 강도에 종속적이고, 상기 왜곡의 진폭에 비선형적으로 종속적인 왜곡 인식 한도를 발생시키는 것을 특징으로 하는 음성 전달 신호의 속성 평가 장치.
  23. 제 20 항 내지 제 22 항에 있어서,
    상기 분석 수단(9)은 상기 테스트 신호 및/또는 상기 왜곡된 신호의 다수 스펙트럼 성분 신호들을 발생시키는 측정 수단(13,14)을 구비하는 것을 특징으로 하는 음성 전달 신호의 속성 평가 장치.
  24. 제 23 항에 있어서,
    상기 측정 수단(13,14)은 각각의 스펙트럼 성분 신호를 위해, 상기 스펙트럼 성분 신호가 인간 청각 시스템에서 산출되는 마스크 효과를 추정하는 것을 특징으로 하는 음성 전달 신호의 속성 평가 장치.
  25. 제 20 항 내지 제 24 항 중 어느 한 항에 있어서,
    상기 분석 수단은, 상기 왜곡이 상기 효과의 일시적 지속성을 고려하여 인간 청각 시스템에서 생산되는 그러한 효과를 추정하는 측정 수단(13,14)을 포함하는 것을 특징으로 하는 음성 전달 신호의 속성 평가 장치.
  26. 제 25 항에 있어서,
    상기 분석 수단(9)은 상기 테스트 신호 및/또는 상기 왜곡 신호로부터 프로세스된 연속적인 신호 세그먼트들의 시간 시퀀스를 발생시키는 측정 수단(13,14)을 구비하고,
    적어도 일부 신호 세그먼트들의 값은 상기 신호 세그먼트를 선행 및/또는 후행하는 상기 테스트 신호 및/또는 왜곡된 신호의 부분에 종속하여 발생되는 것을 특징으로 하는 음성 전달 신호의 속성 평가 장치.
  27. 제 21 항 내지 제 26 항 중 어느 한 항에 있어서,
    상기 분석 처리는 상기 왜곡된 신호를 스펙트럼 마스크를 제공하도록 형태를 갖춘 다수의 스펙트럼 성분 밴드로 분해하고, 그 선행 및/또는 후행하는 일시적인 부분으로 인한 신호의 일시적인 마스크를 연산하는 측정 수단(13,14);
    각각의 스펙트럼 성분 신호를 위해, 왜곡된 신호의 성분 신호와 대응하여 연산된 테스트 신호 성분간의 차이의 표시를 형성하는 수단(15,16); 및
    상기 차이 표시로부터 상기 왜곡 인식 한도를 발생하는 연산수단(17)을 구비하는 것을 특징으로 하는 음성 전달 신호의 속성 평가 장치.
  28. 제 27 항에 있어서,
    상기 연산 수단(17)은 상기 차이 신호로부터 상기 왜곡의 일시적인 스펙트럼 분포 측정을 발생시키는 것을 특징으로 하는 음성 전달 신호의 속성 평가 장치.
  29. 제 16 항 내지 제 28 항 중 어느 한 항에 있어서,
    상기 네트워크 정의 함수를 정의하는 부가는 출력 파라미터의 일시적인 환경에 종속적이고,
    다수의 일시적 순간과 관련하여 출력 파라미터를 저장하는 수단(7), 및 출력값을 상기 저장된 출력 파라미터 및 상기 네트워크 정의 함수로부터 얻어내도록 배치시키는 수단(5)을 구비하는 것을 특징으로 하는 음성 전달 신호의 속성 평가 장치.
  30. 제 29 항에 있어서,
    상기 출력 파라미터의 시퀀스를 그들이 발생된대로 저장하는 수단, 및 그러한 시퀀스들의 예정된 부과 세트에 따라 상기 시퀀스로부터 출력을 발생시키는 수단을 구비하는 것을 특징으로 하는 음성 전달 신호의 속성 평가 장치.
  31. 제 30 항에 있어서,
    상기 시퀀스의 파라미터를 축소된 형태로 저장하는 수단을 구비하는 것을 특징으로 하는 음성 전달 신호의 속성 평가 장치.
  32. 첨부한 도면을 참조하여 설명한 바와 같은 장치.
  33. 첨부한 도면을 참조하여 설명한 바와 같은 방법.
KR1019970710017A 1995-07-27 1996-07-25 음성 전달 신호의 속성 평가 방법 및 장치 KR19990028694A (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
EP95305313 1995-07-27
EP95305313.9 1995-07-27
GB9604315.3 1996-02-29
GBGB9604315.3A GB9604315D0 (en) 1996-02-29 1996-02-29 Training process
EP96301393.3 1996-02-29
EP96301393 1996-02-29

Publications (1)

Publication Number Publication Date
KR19990028694A true KR19990028694A (ko) 1999-04-15

Family

ID=27236875

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970710017A KR19990028694A (ko) 1995-07-27 1996-07-25 음성 전달 신호의 속성 평가 방법 및 장치

Country Status (12)

Country Link
US (1) US6035270A (ko)
EP (1) EP0840975B1 (ko)
JP (1) JP4005128B2 (ko)
KR (1) KR19990028694A (ko)
CN (1) CN1192309A (ko)
AU (1) AU694932B2 (ko)
CA (1) CA2225407C (ko)
DE (1) DE69626115T2 (ko)
MX (1) MX9800434A (ko)
NO (1) NO980331D0 (ko)
NZ (1) NZ313705A (ko)
WO (1) WO1997005730A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190045278A (ko) * 2016-10-12 2019-05-02 아이플라이텍 캄파니 리미티드 음성 품질 평가 방법 및 음성 품질 평가 장치

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9604315D0 (en) * 1996-02-29 1996-05-01 British Telecomm Training process
US6119083A (en) * 1996-02-29 2000-09-12 British Telecommunications Public Limited Company Training process for the classification of a perceptual signal
IL132172A (en) * 1997-05-16 2003-10-31 British Telecomm Method and device for measurement of telecom signal quality
US6438373B1 (en) * 1999-02-22 2002-08-20 Agilent Technologies, Inc. Time synchronization of human speech samples in quality assessment system for communications system
JP4500458B2 (ja) * 1999-05-25 2010-07-14 アルゴレックス インコーポレイテッド 音声及びオーディオ信号用リアルタイム品質アナライザ
WO2001004875A1 (en) * 1999-07-08 2001-01-18 Koninklijke Philips Electronics N.V. Speech recognition device with transfer means
AU773708B2 (en) * 1999-11-08 2004-06-03 British Telecommunications Public Limited Company Non-intrusive speech-quality assessment
WO2001097414A1 (en) 2000-06-12 2001-12-20 British Telecommunications Public Limited Company In-service measurement of perceived speech quality by measuring objective error parameters
EP1241663A1 (en) * 2001-03-13 2002-09-18 Koninklijke KPN N.V. Method and device for determining the quality of speech signal
EP1244312A1 (en) * 2001-03-23 2002-09-25 BRITISH TELECOMMUNICATIONS public limited company Multimodal quality assessment
AU2003212285A1 (en) * 2002-03-08 2003-09-22 Koninklijke Kpn N.V. Method and system for measuring a system's transmission quality
US7308403B2 (en) * 2002-07-01 2007-12-11 Lucent Technologies Inc. Compensation for utterance dependent articulation for speech quality assessment
US7165025B2 (en) * 2002-07-01 2007-01-16 Lucent Technologies Inc. Auditory-articulatory analysis for speech quality assessment
DE60306884T2 (de) * 2003-01-18 2007-09-06 Psytechnics Ltd. Werkzeug zur nicht invasiven Bestimmung der Qualität eines Sprachsignals
EP1492084B1 (en) * 2003-06-25 2006-05-17 Psytechnics Ltd Binaural quality assessment apparatus and method
US7305341B2 (en) * 2003-06-25 2007-12-04 Lucent Technologies Inc. Method of reflecting time/language distortion in objective speech quality assessment
US7801280B2 (en) * 2004-12-15 2010-09-21 Verizon Laboratories Inc. Methods and systems for measuring the perceptual quality of communications
US7856355B2 (en) * 2005-07-05 2010-12-21 Alcatel-Lucent Usa Inc. Speech quality assessment method and system
JP2008185805A (ja) * 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
WO2009023807A1 (en) * 2007-08-15 2009-02-19 Massachusetts Institute Of Technology Speech processing apparatus and method employing feedback
AU2009295251B2 (en) * 2008-09-19 2015-12-03 Newsouth Innovations Pty Limited Method of analysing an audio signal
US20130080172A1 (en) * 2011-09-22 2013-03-28 General Motors Llc Objective evaluation of synthesized speech attributes
US20180082703A1 (en) * 2015-04-30 2018-03-22 Longsand Limited Suitability score based on attribute scores
CN105391873A (zh) * 2015-11-25 2016-03-09 上海新储集成电路有限公司 一种在移动设备中实现本地语音识别的方法
US9591125B1 (en) * 2016-02-23 2017-03-07 Verizon Patent And Licensing Inc. Testing audio quality associated with a user device during a double talk communication
US10249305B2 (en) * 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
EP3373208A1 (en) * 2017-03-08 2018-09-12 Nxp B.V. Method and system for facilitating reliable pattern detection
CN111179973B (zh) * 2020-01-06 2022-04-05 思必驰科技股份有限公司 语音合成质量评价方法及系统
CN111370028A (zh) * 2020-02-17 2020-07-03 厦门快商通科技股份有限公司 一种语音失真检测方法及系统
CN112086100B (zh) * 2020-08-17 2022-12-02 杭州电子科技大学 基于量化误差熵的多层随机神经网络的城市噪音识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04345327A (ja) * 1991-05-23 1992-12-01 Nippon Telegr & Teleph Corp <Ntt> 通話品質客観測定方法
US5715372A (en) * 1995-01-10 1998-02-03 Lucent Technologies Inc. Method and apparatus for characterizing an input signal
US5867813A (en) * 1995-05-01 1999-02-02 Ascom Infrasys Ag. Method and apparatus for automatically and reproducibly rating the transmission quality of a speech transmission system
GB9604315D0 (en) * 1996-02-29 1996-05-01 British Telecomm Training process

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190045278A (ko) * 2016-10-12 2019-05-02 아이플라이텍 캄파니 리미티드 음성 품질 평가 방법 및 음성 품질 평가 장치
US10964337B2 (en) 2016-10-12 2021-03-30 Iflytek Co., Ltd. Method, device, and storage medium for evaluating speech quality

Also Published As

Publication number Publication date
EP0840975A1 (en) 1998-05-13
DE69626115D1 (de) 2003-03-13
AU6623296A (en) 1997-02-26
JPH11510334A (ja) 1999-09-07
MX9800434A (es) 1998-04-30
DE69626115T2 (de) 2003-11-20
EP0840975B1 (en) 2003-02-05
CN1192309A (zh) 1998-09-02
NO980331L (no) 1998-01-26
AU694932B2 (en) 1998-08-06
CA2225407C (en) 2002-04-23
US6035270A (en) 2000-03-07
WO1997005730A1 (en) 1997-02-13
CA2225407A1 (en) 1997-02-13
JP4005128B2 (ja) 2007-11-07
NZ313705A (en) 1998-11-25
NO980331D0 (no) 1998-01-26

Similar Documents

Publication Publication Date Title
KR19990028694A (ko) 음성 전달 신호의 속성 평가 방법 및 장치
Loizou Speech quality assessment
US7620546B2 (en) Isolating speech signals utilizing neural networks
US5794188A (en) Speech signal distortion measurement which varies as a function of the distribution of measured distortion over time and frequency
US5848384A (en) Analysis of audio quality using speech recognition and synthesis
US5715372A (en) Method and apparatus for characterizing an input signal
JP4308278B2 (ja) 電気通信装置の客観的音声品質測定の方法および装置
US5621854A (en) Method and apparatus for objective speech quality measurements of telecommunication equipment
MXPA98000434A (en) Evaluation of quality of se
Steeneken et al. Validation of the revised STIr method
EP1980089A1 (en) Non-intrusive signal quality assessment
KR101148671B1 (ko) 오디오 전송 시스템의 음성 명료도 측정 방법 및 시스템
Dubey et al. Non-intrusive speech quality assessment using several combinations of auditory features
US5799133A (en) Training process
Xiong et al. Exploring auditory-inspired acoustic features for room acoustic parameter estimation from monaural speech
Kitawaki et al. Quality assessment of speech coding and speech synthesis systems
Harrison Variability of formant measurements
Barnwell III Objective measures for speech quality testing
Barnwell III et al. Objective measures for speech quality testing
Hauenstein Application of Meddis' inner hair-cell model to the prediction of subjective speech quality
Shu et al. RNN based noise annoyance measurement for urban noise evaluation
Poblete et al. Optimization of the parameters characterizing sigmoidal rate-level functions based on acoustic features
Côté et al. Speech Quality Measurement Methods
Ullah Neural network based classification of deceptive and stressed speech using nonlinear spectral and cepstral features
Poblete Ramírez et al. Optimization of the parameters characterizing sigmoidal rate-level functions based on acoustic features

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid