KR970072718A - 유성음/무성음을 판정하기 위한 방법과 장치 그리고 음성을 부호화하기 위한 방법 - Google Patents

유성음/무성음을 판정하기 위한 방법과 장치 그리고 음성을 부호화하기 위한 방법 Download PDF

Info

Publication number
KR970072718A
KR970072718A KR1019970012912A KR19970012912A KR970072718A KR 970072718 A KR970072718 A KR 970072718A KR 1019970012912 A KR1019970012912 A KR 1019970012912A KR 19970012912 A KR19970012912 A KR 19970012912A KR 970072718 A KR970072718 A KR 970072718A
Authority
KR
South Korea
Prior art keywords
voiced
unvoiced
sound
converted
parameter
Prior art date
Application number
KR1019970012912A
Other languages
English (en)
Inventor
가즈유끼 이이지마
마사유끼 니시구찌
준 마쯔모또
시로 오모리
Original Assignee
이데이 노브유끼
소니 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이데이 노브유끼, 소니 가부시끼가이샤 filed Critical 이데이 노브유끼
Publication of KR970072718A publication Critical patent/KR970072718A/ko

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

입력음성신호가 유성음인지 무성음인지를 판정하기 위한 유성음/무성음 판별용 장치와 방법. 유성음/무성음(V/UV)을 판별하기 위한 파라미터가 단순화된 알고리즘에 의해 고정밀도가 V/UV 판별을 수행하기 위해서 광범위하게 판정된다. 입력음성신호에 대한 유성음/무성음(V/UV) 판별용 파라미터로서, 입력음성신호의 프레임평균에너지(lev), 정규화 자기상관 피크값(r0r), 스펙트럼 유사도(pos), 영교차수(nZero), 그리고 피치래그(pch)가 입력단자(11∼15)로 공급된다. 만약 이러한 파라미터들이 x로 나타내어진다면, 이러한 파라미터들은 다음의 식으로 표현되는 시그모이드함수 g(x)에 의해 함수계산회로(31∼35)들에 의해 변환된다.
g(x)=A/(1+exp(-(x-b)/a))
여기서, A, a, 그리고 b는 상수이다. 시그모이드함수 g(x)에 의해 변환된 파라미터들을 이용하여서, 유성음/무성음이 V/UV 판별회로(26)에 의해 판별된다.

Description

유성음/무성음을 판정하기 위한 방법과 장치 그리고 음성을 부호화하기 위한 방법
본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음
제2도는 본 발명에 근거해서 음성 부호화 방법을 수행하기 위한 음성신호 부호화 장치의 기본 구조를 나타내는 블록도이다.

Claims (8)

  1. 입력음성신호가 유성음인지 무성음인지를 판정하기 위한 방법에 있어서, 입력음성신호에 대해 유성음/무성음 판정을 하기 위한 파라미터(x)를 다음의 식으로 표현되는 시그모이드함수 g(x)에 의해 변환한다
    g(x)=A/(1+exp(-(x-b)/a))
    여기서, A, a, 그리고 b는 상수이고, 이 시그모이드함수에 의해 변환된 파라미터를 이용하여 유성음/무성음 판별하는 것을 특징으로 하는 입력음성신호가 유성음인지 무성음인지를 판정하기 위한 방법.
  2. 제1항에 있어서, 복수개의 직선으로 시그모이드함수 g(x)를 근사화할 때 얻어지는 함수g'(x)에 의해 파라미터(x)가 변환되고, 변환된 파라미터를 이용하여 유성음/무성음이 판별되는 것을 특징으로 하는 입력음성 신호가 유성음인지 무성음인지를 판정하기 위한 방법.
  3. 제1항에 있어서, 입력음성신호의 프레임평균에너지, 정규화 자기상관 피크값, 스펙트럼 유사도, 영교차수, 그리고 피치주기 중 적어도 하나가 유성음/무성음 판별용 파라미터로 이용되는 것을 특징으로 하는 입력음성 신호가 유성음인지 무성음인지를 판정하기 위한 방법.
  4. 제1항에 있어서, 유성음/무성음 판별용 파라미터로서 입력음성신호(lev)의 프레임평균에너지, 정규화 자기상관 피크값(r0r), 스펙트럼 유사도(pos), 영교차수(nZero), 그리고 피치래그(pch)가 이용되고, 유성음에 대한 셈블런스를 나타내고 이러한 파라미터에 근거한 함수가 각각 pLev(lev), pR0r(r0r), pPos(pos, pNZero, nZero), 그리고 pPch(pch)로 표현된다면, 이러한 함수를 이용한 유성음에 대한 최종 셈블런스를 표현하는 함수f(lev,r0r,pos,nZero,pch)는 다음의 식으로 계산된다.
    f(lev,r0r,pos,nZero,pch)=((αpRor(r0r)+βpLev(lev)/(α+β)
    ×pRos(pos)×pNZero(nZero)×pPch(pch))
    여기서, α와 β는 상수인 것을 특징으로 하는 입력음성신호가 유성음인지 무성음인지를 판정하기 위한 방법.
  5. 입력음성신호가 유성음인지 무성음인지를 판정하기 위한 장치에 있어서, 다음의 식으로 표현되는 시그모이드함수 g(x)에 의해서, 입력음성신호에 대해 유성음/무성음 판정용 파라미터(x)를 변환하기 위한 함수 계산수단
    g(x)=A/(1+exp(-(x-b)/a))
    여기서 A,a, 그리고 b는 상수이며, 함수 출력값을 생성하기 위한 것이다. 그리고 상기 함수 계산 수단에 의해 시그모이드함수 g(x)에 근거하여 얻어진 값을 이용하여 유성음/무성음을 판별하기 위한 수단으로 구성되는 것을 특징으로 하는 입력음성신호가 유성음인지 무성음인지를 판정하기 위한 장치.
  6. 입력음성신호가 시간영역에서 프레임단위로 구분되고 프레임단위로 부호화되는 입력음성신호를 부호화하기 위한 방법에 있어서, 다음의 식으로 표현되는 시그모이드함수 g(x)에 의해서, 입력음성신호에 대한 유성음/무성음 판정용 파라미터(x)를 변환한다.
    g(x)=a/(1+exp(-(x-b)/a))
    여기서 A,a 그리고 b는 상수이고, 이 시그모이드함수에 의해 변환된 파라미터를 이용하여 유성음/무성음을 판별하고, 그리고 유성음이라고 구해진 입력음성신호부분에 대해 유성음/무성음 판별의 결과에 근거하여 사인파 분석 부호화를 행하는 것을 특징으로하는 입력음성신호가 시간영역의 단위로 프레임단위로 구분하고 프레임단위로 부호화되는 입력음성신호를 부호화하기 위한 방법.
  7. 제6항에 있어서, 복수개의 직선으로 시그모이드함수 g(x)를 근사화하여 얻어진 함수 g'(x)에 의해 파라미터(x)가 변환되고, 이 변환된 파라미터를 이용하여 유성음/무성음이 판별되는 것을 특징으로 하는 음성 부호화 방법.
  8. 제6항에 있어서, 무성음이라고 구해진 입력음성신호부분에 대해서는, 합성에 의한 분석법을 이용한 최적벡터의 폐루프 탐색에 의해서, 유성음/무성음 판별의 결과에 근거하여 시간영역 파형이 벡터-양자화되는 것을 특징으로 하는 음성 부호화방법.
    ※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.
KR1019970012912A 1996-04-15 1997-04-08 유성음/무성음을 판정하기 위한 방법과 장치 그리고 음성을 부호화하기 위한 방법 KR970072718A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP09284896A JP3687181B2 (ja) 1996-04-15 1996-04-15 有声音/無声音判定方法及び装置、並びに音声符号化方法
JP96-092.848 1996-04-15

Publications (1)

Publication Number Publication Date
KR970072718A true KR970072718A (ko) 1997-11-07

Family

ID=14065856

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970012912A KR970072718A (ko) 1996-04-15 1997-04-08 유성음/무성음을 판정하기 위한 방법과 장치 그리고 음성을 부호화하기 위한 방법

Country Status (4)

Country Link
US (1) US6023671A (ko)
JP (1) JP3687181B2 (ko)
KR (1) KR970072718A (ko)
CN (1) CN1173690A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100450787B1 (ko) * 1997-06-18 2005-05-03 삼성전자주식회사 스펙트럼의동적영역정규화에의한음성특징추출장치및방법
KR100757366B1 (ko) * 2006-08-11 2007-09-11 충북대학교 산학협력단 Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100474826B1 (ko) * 1998-05-09 2005-05-16 삼성전자주식회사 음성부호화기에서의주파수이동법을이용한다중밴드의유성화도결정방법및그장치
JP2000267690A (ja) * 1999-03-19 2000-09-29 Toshiba Corp 音声検知装置及び音声制御システム
US6795807B1 (en) * 1999-08-17 2004-09-21 David R. Baraff Method and means for creating prosody in speech regeneration for laryngectomees
US6621834B1 (en) * 1999-11-05 2003-09-16 Raindance Communications, Inc. System and method for voice transmission over network protocols
JP2002208922A (ja) * 2001-01-12 2002-07-26 Ntt Docomo Inc 暗号化装置および復号装置ならびに認証情報付与装置、暗号化方法、復号方法、認証情報付与方法
US6633839B2 (en) * 2001-02-02 2003-10-14 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
US6738739B2 (en) * 2001-02-15 2004-05-18 Mindspeed Technologies, Inc. Voiced speech preprocessing employing waveform interpolation or a harmonic model
US20030130588A1 (en) * 2002-01-10 2003-07-10 Igal Kushnir Method and system for analyzing respiratory tract sounds
US20040225500A1 (en) * 2002-09-25 2004-11-11 William Gardner Data communication through acoustic channels and compression
CN1779779B (zh) * 2004-11-24 2010-05-26 摩托罗拉公司 提供语音语料库的方法及其相关设备
KR100714721B1 (ko) * 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
CN101009096B (zh) * 2006-12-15 2011-01-26 清华大学 子带清浊音模糊判决的方法
CN101009097B (zh) * 2007-01-26 2010-11-10 清华大学 1.2kb/s SELP低速率声码器抗信道误码保护方法
DE102008042579B4 (de) * 2008-10-02 2020-07-23 Robert Bosch Gmbh Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten
US9454976B2 (en) 2013-10-14 2016-09-27 Zanavox Efficient discrimination of voiced and unvoiced sounds
CN110619881B (zh) * 2019-09-20 2022-04-15 北京百瑞互联技术有限公司 一种语音编码方法、装置及设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4219695A (en) * 1975-07-07 1980-08-26 International Communication Sciences Noise estimation system for use in speech analysis
JPS59212898A (ja) * 1983-05-18 1984-12-01 株式会社日立製作所 有声・無声判定方式
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
JPH05188986A (ja) * 1992-01-17 1993-07-30 Oki Electric Ind Co Ltd 有声音無声音判定方法
JP3297156B2 (ja) * 1993-08-17 2002-07-02 三菱電機株式会社 音声判別装置
EP0683462A3 (fr) * 1994-03-31 1996-01-17 Philips Electronique Lab Procédé et processeur pour construire une fonction linéaire par morceaux avec discontinuités éventuelles.
JP3557662B2 (ja) * 1994-08-30 2004-08-25 ソニー株式会社 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100450787B1 (ko) * 1997-06-18 2005-05-03 삼성전자주식회사 스펙트럼의동적영역정규화에의한음성특징추출장치및방법
KR100757366B1 (ko) * 2006-08-11 2007-09-11 충북대학교 산학협력단 Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법

Also Published As

Publication number Publication date
JPH09281996A (ja) 1997-10-31
CN1173690A (zh) 1998-02-18
US6023671A (en) 2000-02-08
JP3687181B2 (ja) 2005-08-24

Similar Documents

Publication Publication Date Title
KR970072718A (ko) 유성음/무성음을 판정하기 위한 방법과 장치 그리고 음성을 부호화하기 위한 방법
Gold et al. Speech and audio signal processing: processing and perception of speech and music
Al-Shoshan Speech and music classification and separation: a review
Syrdal et al. TD-PSOLA versus harmonic plus noise model in diphone based speech synthesis
KR19980024970A (ko) 음성 부호화 방법 및 장치, 음성 복호화 방법 및 장치
Yoshimura et al. Incorporating a mixed excitation model and postfilter into HMM‐based text‐to‐speech synthesis
Cherif et al. Pitch detection and formant analysis of Arabic speech processing
Mann An investigation of nonlinear speech synthesis and pitch modification techniques
JP3094622B2 (ja) テキスト音声合成装置
Rengaswamy et al. Robust f0 extraction from monophonic signals using adaptive sub-band filtering
Mittal et al. An impulse sequence representation of the excitation source characteristics of nonverbal speech sounds
RU2589851C2 (ru) Система и способ перевода речевого сигнала в транскрипционное представление с метаданными
Jitca et al. Improved speech synthesis using fuzzy methods
Mittal et al. A sparse representation of the excitation source characteristics of nonnormal speech sounds
Lugger et al. On the relevance of high-level features for speaker independent emotion recognition of spontaneous speech.
Shilkov et al. Notice of Violation of IEEE Publication Principles: Automatic Prosody Markup Based on Fundamental Frequency
KR100269357B1 (ko) 음성 인식 방법
KR100608643B1 (ko) 음성 합성 시스템의 억양 모델링 장치 및 방법
Odéjobí et al. A computational model of intonation for yorùbá text-to-speech synthesis: Design and analysis
Kaufman et al. Using Deepfake Technologies for Word Emphasis Detection
KR970050115A (ko) 한국어 변이음 집단화 수형도를 이용한 변이음 단위의 음성인식 방법
Tan Basics of Spoken Language Processing
JPH04130499A (ja) 音声のセグメンテーション方法
JPH02236600A (ja) 合成音声情緒付与回路
Sheshadri et al. A pattern recognition approach to compare natural and synthesized speech

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application