KR100396748B1 - 유음구간추출처리장치및방법 - Google Patents

유음구간추출처리장치및방법 Download PDF

Info

Publication number
KR100396748B1
KR100396748B1 KR1019960070193A KR19960070193A KR100396748B1 KR 100396748 B1 KR100396748 B1 KR 100396748B1 KR 1019960070193 A KR1019960070193 A KR 1019960070193A KR 19960070193 A KR19960070193 A KR 19960070193A KR 100396748 B1 KR100396748 B1 KR 100396748B1
Authority
KR
South Korea
Prior art keywords
sound
frame
value
section
normalization
Prior art date
Application number
KR1019960070193A
Other languages
English (en)
Other versions
KR19980051308A (ko
Inventor
조창호
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1019960070193A priority Critical patent/KR100396748B1/ko
Publication of KR19980051308A publication Critical patent/KR19980051308A/ko
Application granted granted Critical
Publication of KR100396748B1 publication Critical patent/KR100396748B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 유음구간 추출 처리장치 및 방법에 관한 것으로, 종래에는 유음구간이 추출된 노이즈 성분이 포함될 경우 SCR로 유음구간 판별시 노이즈 성분은 고주파수 성분을 주로 가지고 있어서 유음 판별시 착오를 일으킬 소지가 있는 문제점이 있다. 따라서 본 발명은 입력신호에 대해 정규화하는 제1단계와; 프레임 단위로 구한 샘플값의 합을 샘플 갯수로 나누어 얻은 값(비교값)과 정규화값을 비교하는 제2단계와; 상기에서 비교결과 두 값이 다르면 무음구간으로 판단하고 같으면 유음구간으로 판단하고 그 유음구간의 시작점에 해당하는 프레임 카운트값을 저장하는 제3단계와; 상기 제3단게에서 시작점의 프레임 카운트값과 기설정된 사람의 유효발음최소길이를 비교하여 프레임 카운트값이 작으면 노이즈로 간주하고 크면 상기 제2단계를 수행하는 제4단계와; 상기 제4단계에서 제2단계를 수행한 결과 정규화값이 크면 유음구간의 끝점을 판단하고 그 끝점의 프레임 카운트값을 저장하여 유음구간을 정하는 제5단계로 진행하여 정확한 유음구간을 찾을 수 있도록 하여 인식의 오류를 막고, 압축시 불필요한 데이타를 제거하여 압축 효율을 높일 수 있도록 한다.

Description

유음구간 추출 처리장치 및 방법
본 발명은 신호를 정규화하여 프레임 단위로 검사함에 있어 유음구간으로 판명될 경우 미세 조정으로 정확한 유음구간을 추출하도록 하는 장치 및 방법에 관한 것으로, 음성 인식 및 오디오 신호 코딩시 인식의 오류나 데이타의 손실 방지를 위해 정확한 유음 구간을 추출하여 처리하도록 한 유음구간 추출 처리장치 및 방법에 관한 것이다.
종래 유음구간 추출 처리장치 구성은, 도 1에 도시된 바와같이, 입력되는 신호에 대해 적당한 크기를 갖는 프레임으로 나누는 프레임 분리부(10)와; 상기 프레임 분리부(10)를 통해 분리된 프레임의 에너지와 ZCR(Zero Crossing Rate)을 구하는 프레임 파라미터 검사부(20)와; 상기 프레임 파라미터 검사부(20)를 통해 검사한 에너지와 ZCF을 이용하여 현재의 프레임이 유음 프레임인지 아닌지를 판별하는 프레임 유무음 판정부(30)와; 상기 프레임 유무음 판정부(30)의 판정된 결과 유음 구간이면 유음의 끝을 결정하는 유음구간 끝점 결정부 (40)로 구성된다.
이와같이 구성된 종래의 기술에 대하여 도 2에 의거하여 살펴보면 다음과 같다. 음성 인식이나 압축시 유음구간을 추출하고 그 구간안에서 신호를 처리하여 기준 데이타와 비교하여 음성을 인식하거나 압축한다.
이때 유음 구간을 판별하기 위하여 에너지(energy)나 ZCR(Zero Crossing Rate)와 같은 파라미터를 이용하였다.
상기에서와 같이 에너지나 ZCR의 파라미터를 이용하여 유음구간을 추출하고 처리하는 과정에 대하여 살펴보자.
도 2a에서와 같은 신호가 입력되면, 그 신호를 프레임 분리부(10)에서 입력받아 적당한 크기를 갖는 프레임으로 나눈다. 여기서는 도 2에서 알 수 있듯이 0에서 10구간으로 나누었다.
프레임 분리부(10)에서 10구간으로 나눈 프레임을 프레임 파라미터검사부(20)로 출력시키면 상기 프레임 파라미터 검사부(20)는 프레임의 에너지를 드레쉬홀드 라인과 비교하여 도 2b에서와 같은 에너지 분포도를 구하고, ZCR은 입력 신호가 제로 라인(Zero ine)을 몇번 지나는가를 카운트하고 계산하여 도 2c에서와 같은 ZCR 분포도를 구한다.
이렇게 에너지와 ZCR을 구하여 프레임 유무음 판정부(30)로 출력한다.
이에 상기 프레임 유무음 판정부(30)는 프레임 파라미터 검사부(20)에서 계산된 ZCR을 미리 정한 드레쉬홀드에 의해 현재 입력되는 프레임이 유음프레임인지 아닌지를 판별하도록 하고, 도 2b의 에너지 분포도에 의거하여 유음구간을 프레임 4 ~ 프레임 9까지로 판별한다.
유음구간의 앞부분은 무성음으로 에너지 값이 작기때문에 무음 프레임으로 판별한다.
그런데 드레쉬홀드 라인을 낮출경우 노이즈 성분도 유음으로 판별하여 유음구간을 프레임 1 ~ 프레임 9까지로 정한다.
상기 프레임 유무음 판정부(30)에서 판별한 유음구간을 유음구간 끝점 결정부(40)로 출력하면 상기 유음구간 끝점 결정부(40)는 입력받은 유음구간의 끝부분을 찾아내어 출력한다.
이렇게 유음 구간이 추출되면, 이 추출된 유음 구간안의 신호를 처리하여 기준 데이타와 비교하여 음성을 인식하거나 압축하는데 사용한다.
그러나, 상기와 같은 종래의 기술에서 유음구간이 추출된 곳에 묵음구간이포함될 경우 그 묵음 구간은 노이즈로 작용할 수 있다. 왜냐하면 SCR로 판별시 노이즈 성분은 고주파수 성분을 주로 가지고 있어서 유음 판별시 착오를 일으킬 소지가 있는 문제점이 있다.
따라서 상기에서와 같은 문제점을 해결하기 위한 본 발명의 목적은 신호를 정규화하여 프레임 단이로 검사할 경우 유음구간으로 판명될 경우 미세 조정으로 정확한 유음구간을 추출하여 처리하도록 함으로써 인식의 오류나 데이타의 손실을 방지하도록 한 유음구간 추출 처리장치 및 방법을 제공함에 있다.
도 1은 종래 유음구간 추출 처리장치의 블럭 구성도
도 2는 도 1에서 입력파형에 따른 에너지 및 ZCR(Zero Crossing Rate) 분포도
도 3은 본 발명 유음구간 추출 처리장치의 블럭 구성도.
도 4는 도 3에서 입력파형에 따른 음의 정규화 파형도.
도 5는 본 발명 유음구간 추출 처리방법에 대한 동작 과정도.
***도면의 주요 부분에 대한 부호의 설명***
100 : 프레임 분리부 200 : 정규화부
300 : 프레임 유무음 판정부 400 : 유음구간 미세조정부
500 : 유음 끝점 결정부
상기 목적을 달성하기 위한 본 발명 유음구간 추출 처리방법은, 도 5에 도시한 바와같이, 입력신호에 대해 정규화하는 제1단계와; 프레임 단위로 구한 샘플값의 합을 샘플 갯수로 나누어 얻은 값과 정규화값을 비교하는 제2단계와 상기에서 비교결과 두 값이 다르면 무음구간으로 판단하고 같으면 유음구간으로 판단하며 그 유음구간의 시작점에 해당하는 프레임 카운트값을 저장하는 제3단계와; 상기 제3단계에서 시작점의 프레임 카운트값과 기설정된 사람의 유효발음 최소길이를 비교하여 프레임 카운트값이 작으면 노이즈로 간주하고 크면 상기 제2단계를 수행하는 제4단계와; 상기 제4단계에서 제2단계를 수행한 결과 정규화값이 크면 유음구간의 끝점을 판단하고 그 끝점의 프레임 카운트값을 저장하여 유음구간을 정하는 제5단계로 이루어진다.
상기 각 단계로 이루어진 방법을 수행하기 위한 본 발명 유음구간 추출 처리장치구성은, 도 3에 도시한 바와같이, 입력되는 신호에 대해 적당한 크기의 고정프레임으로 나누는 프레임 분리부(100)와; 상기 프레임 분리부(100)를 통해 분리된 프레임을 음수 또는 양수의 정규화값으로 정규화하는 정규화부(200)와; 프레임단위로 샘플값의 합을 샘플 갯수로 나눈 값(X)를 구하여 이른 정규화값과 비교하여 무음구간과 유음구간을 구하는 프레임 유무음 판정부(300)와; 상기 프레임 유무음 판정부(300)를 통해 판정한 유음구간을 저장하고 사람의 유효 발음 최소길이와 비교하여 유음구간에 대하여 미세조정을 행하는 유음구간 미세조정부(400)와; 상기 유음구간 미세조정부(400)를 통해 조정된 유음구간의 끝점을 결정하고 이를 저장하여 유음구간을 결정하는 유음 끝점 결정부(500)로 구성한다.
이와같이 구성된 본 발명의 동작 및 작용 효과에 대하여 도 4및 도 5에 의거하여 상세히 설명하면 다음과 같다.
프레임 분리부(100)로 도 4a에서와 같은 노이즈성분과 실제음을 갖는 입력신호가 들어오면 상기 프레임 분리부(100)는 적당한 크기의 고정 프레임으로 나눈다. 여기서는 도 4에서와 같이 0에서 10 프레임으로 나누었다.
이렇게 소정의 프레임으로 나누어 정규화부(200)로 출력하면, 상기 정규화부(200)는 프레임별로 정규화함에 있어 입력신호가 양수인 경우 양수의 정규화값으로 음수일 경우 음수의 정규화값으로 정규화시켜 프레임 유무음 판정부(300)로 출력한다. 상기에서와 같이 정규화한 파형은 도 4b에서와 같다.
그러면 상기 프레임 유무음 판정부(300)는 먼저 프레임 단위로 샘플값의 합과 샘플갯수를 구한다음 샘플값의 합을 샘플 갯수로 나눈다.
상기에서 샘플값의 합을 샘플 갯수로 나누어 계산된 값(X: 이하 비교값이라약칭함)과 프레임 별로 정규화하여 얻은 정규화값을 비교하여 그 값이 제로"0"이면 무음구간으로 판별하고, 어떤 값이 존재하되 그 값이 정규화값보다 작으면 프레임의 시작 점을 정규화값에서 비교값(X)을 감산하고, 이 감산한 만큼 이동하고 그 이동한 프레임의 비교값(X)을 계산한다.
상기에서 계산한 비교값이 역시 정구화값 보다 작으면 그 프레임은 무음 프레임으로 결정한다.
그리고, 상기 프레임 유무음 판정부(300)는 상기에서 비교값(X)과 정규화값이 같으면 이는 유음구간으로 판단하고 그 유음구간의 시작점에 해당하는 프레임 카운트값을 유음구간 미세조정부(400)로 출력한다.
그러면 유음구간 미세조정부(400)는 사람이 소리를 발성할 경우 조사 프레임 크기보다 짧게 발음할 수 없기때문에 현재 입력된 시작점에 해당하는 프레임 카운트값이 실제음인지 노이즈인지를 구분하기 위하여 상기 프레임 카운트값과 기설정된 사람의 유효발음 최소길이와 비교한다.
비교결과, 프레임 카운트값이 기설정된 유효발음 최소길이 보다 짧은 경우 이는 이즈로 간주한다.
상기에서와 같이 노이즈 성분에 해당하는 것이 도 2b에서와 같이 프레임 1과 프레임 2에 걸쳐있는 경우이다.
상기에서 프레임 카운트값이 기설정된 유효발음 최소길이 보다 긴 경우 이는 유음구간에 들어있는 실제음에 해당하는 것이므로 그 실제음의 끝 점을 찾기 위하여 유음 끝점 결정부(500)로 출력한다.
그러면 상기 유음 끝정 결정부(500)는 프레임1에서 프레임2까지는 노이즈로 판단한후 프레임 3을 계산하면 정규화값에 못미치므로 그 정규화값에 못미치는 값만큼 시프트하여 다시 프레임을 검사하면 이때는 계산된 비교값(X)이 정규화값과 일치하는 구간이 나타난다.
상기에서 비교값이 정규화값과 일치하는 것은 시프트된 점이 유음구간의 시작점이 되므로 계속해서 프레임을 검사하다가 비교값이 정규화값에 못미치는 값이 나올경우 그 만큼의 프레임 카운트값을 감산하고 나머지 값을 유음구간의 끝점으로 결정한다.
결국, 도 4c에서와 같이 빗금친 부분의 유음구간을 결정한다.
이렇게 결정된 유음구간의 신호를 처리하여 음성을 인식하거나 압축동작을 행한다.
상술한 바와 같이, 본 발명은 음성인식시 유음구간을 결정하여 데이터화하기 때문에 입력 데이타의 정확한 끝점 추출은 인식의 오류를 막을 수 있고, 압축시 불필요한 데이타를 제거하여 압축 효율을 높일 수 있도록 한 효과가 있다.

Claims (3)

  1. 프레임 분리수단을 통해 분리된 프레임별 입력신호에 대해 음수 또는 양수의 정규화값으로 정규화하는 정규화수단과, 프레임 단위로 구한 샘플값의 합을 샘플 갯수로 나눈 값(X)을 구하여 이를 정규화값과 비교하여 무음구간과 유음구간을 판별하는 프레임 유무음 판정수단과, 상기 프레임 유무음 판정수단을 통해 판정한 유음구간을 저장하고 사람의 유효 발음 최소길이와 비교하여 보다 정확한 유음구간을 정하도록 하는 유음구간 미세조정수단과; 상기 유음구간 미세조정수단을 통해 정해진 유음구간의 끝점을 결정하고 이를 저장하여 유음구간을 결정하는 유음 끝점 결정수단으로 구성된 것을 특징으로 하는 유음구간 추출 처리장치.
  2. 입력신호에 대해 정규화하는 제1단계와; 프레임 단위로 구한 샘플값의 합을 샘플갯수로 나누어 얻은 값(비교값)과 정규화값을 비교하는 제2단계와; 상기에서 비교결과 두 값이 다르면 무음구간으로 판단하고 같으면 유음구간으로 판단하며 그 유음구간의 시작점에 해당하는 프레임 카운트값을 저장하는 제3단계와; 상기 제3단계에서 시작점의 프레임 카운트값과 기설정된 사람의 유효발음 최소길이를 비교하여 프레임 카운트값이 작으면 노이즈로 간주하고 크면 상기 제2단계를 수행하는 제4단계와; 상기 제4단계에서 제2단계를 수행한 결과 정규화값이 크면 유음구간의 끝점을 판단하고 그 끝점의 프레임 카운트값을 저장하여 유음구간을 정하는 제5단계로 이루어짐을 특징으로 하는 유음구간 추출 처리방법.
  3. 제2항에 있어서, 제2단계에서 비교결과 어떤 값이 존재하되 정규값보다 작으면 해당 프레임의 정규화값에서 비교값을 감산한 만큼 프레임을 이동하여 계산된 비교값이 역시 정규화값보다 작으면 그 프레임을 무음구간으로 결정하는 단계를 더 포함하여 이루어짐을 특징으로 하는 유음구간 추출 처리방법.
KR1019960070193A 1996-12-23 1996-12-23 유음구간추출처리장치및방법 KR100396748B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960070193A KR100396748B1 (ko) 1996-12-23 1996-12-23 유음구간추출처리장치및방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960070193A KR100396748B1 (ko) 1996-12-23 1996-12-23 유음구간추출처리장치및방법

Publications (2)

Publication Number Publication Date
KR19980051308A KR19980051308A (ko) 1998-09-15
KR100396748B1 true KR100396748B1 (ko) 2003-11-28

Family

ID=37422153

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960070193A KR100396748B1 (ko) 1996-12-23 1996-12-23 유음구간추출처리장치및방법

Country Status (1)

Country Link
KR (1) KR100396748B1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4531228A (en) * 1981-10-20 1985-07-23 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
US4868879A (en) * 1984-03-27 1989-09-19 Oki Electric Industry Co., Ltd. Apparatus and method for recognizing speech
KR890013577A (ko) * 1987-02-23 1989-09-25 아이오 죠이치 패턴식별장치
JPH02296297A (ja) * 1989-05-10 1990-12-06 Nec Corp 音声認識装置
JPH03245193A (ja) * 1990-02-23 1991-10-31 Kokusai Denshin Denwa Co Ltd <Kdd> 単語音声認識方式
KR920001430A (ko) * 1990-06-25 1992-01-30 정용문 음성 데이타 시종점 검출 방법 및 그 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4531228A (en) * 1981-10-20 1985-07-23 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
US4868879A (en) * 1984-03-27 1989-09-19 Oki Electric Industry Co., Ltd. Apparatus and method for recognizing speech
KR890013577A (ko) * 1987-02-23 1989-09-25 아이오 죠이치 패턴식별장치
JPH02296297A (ja) * 1989-05-10 1990-12-06 Nec Corp 音声認識装置
JPH03245193A (ja) * 1990-02-23 1991-10-31 Kokusai Denshin Denwa Co Ltd <Kdd> 単語音声認識方式
KR920001430A (ko) * 1990-06-25 1992-01-30 정용문 음성 데이타 시종점 검출 방법 및 그 장치

Also Published As

Publication number Publication date
KR19980051308A (ko) 1998-09-15

Similar Documents

Publication Publication Date Title
KR100834679B1 (ko) 음성 인식 오류 통보 장치 및 방법
EP0691022B1 (en) Speech recognition with pause detection
KR950013551B1 (ko) 잡음신호예측장치
US5025471A (en) Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
JPH0376472B2 (ko)
KR20170073113A (ko) 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치
Mittal et al. Significance of automatic detection of vowel regions for automatic shout detection in continuous speech
EP0474496B1 (en) Speech recognition apparatus
KR100463657B1 (ko) 음성구간 검출 장치 및 방법
KR100396748B1 (ko) 유음구간추출처리장치및방법
CN108986844B (zh) 一种基于说话人语音特征的语音端点检测方法
JP2797861B2 (ja) 音声検出方法および音声検出装置
JPH05173592A (ja) 音声/非音声判別方法および判別装置
JPH04100099A (ja) 音声検出装置
JP3114757B2 (ja) 音声認識装置
Kyriakides et al. Isolated word endpoint detection using time-frequency variance kernels
JPH05249987A (ja) 音声検出方法および音声検出装置
Aye Speech recognition using Zero-crossing features
JP3008404B2 (ja) 音声認識装置
JPH034918B2 (ko)
JP3049711B2 (ja) 音声処理装置
JPS5925240B2 (ja) 音声区間の語頭検出方式
JP2891259B2 (ja) 音声区間検出装置
JPH03288199A (ja) 音声認識装置
JPH05108088A (ja) 音声区間検出装置

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20060616

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee