KR20020063665A - 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템 - Google Patents

피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템 Download PDF

Info

Publication number
KR20020063665A
KR20020063665A KR1020010004229A KR20010004229A KR20020063665A KR 20020063665 A KR20020063665 A KR 20020063665A KR 1020010004229 A KR1020010004229 A KR 1020010004229A KR 20010004229 A KR20010004229 A KR 20010004229A KR 20020063665 A KR20020063665 A KR 20020063665A
Authority
KR
South Korea
Prior art keywords
pitch
unvoiced
data
section
receives
Prior art date
Application number
KR1020010004229A
Other languages
English (en)
Other versions
KR100391123B1 (ko
Inventor
이태성
Original Assignee
이태성
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이태성 filed Critical 이태성
Priority to KR10-2001-0004229A priority Critical patent/KR100391123B1/ko
Publication of KR20020063665A publication Critical patent/KR20020063665A/ko
Application granted granted Critical
Publication of KR100391123B1 publication Critical patent/KR100391123B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Abstract

본 발명은 피치 검출을 이용하여 음소단위로 패턴매칭을 처리함으로써 처리속도를 향상시킨 음성인식기술에 관한 것이다.
이러한 본 발명의 시스템은 음성신호를 입력받아 피치를 검출하여 피치위치정보를 출력하는 피치검출기; 상기 피치검출기로부터 피치위치정보를 입력받아 피치데이터를 규격화한 후 특징벡터를 추출하여 기 등록된 표준피치 데이터와 비교하여 유성음소 문자열을 생성하는 피치데이터 분석기; 음성신호를 입력받아 묵음구간을 검출하여 묵음구간정보를 출력하는 묵음구간 탐색기; 상기 피치위치정보와 묵음구간정보를 입력받아 무성음구간을 정하고, 상기 음성신호를 입력받아 무성음소 문자열을 출력하는 무성음 식별기; 상기 유성음소 문자열과 무성음소 문자열, 묵음구간정보를 입력받아 발음문자에 대응하는 단음절을 생성하는 음절구분기; 및 상기 음절구분기의 단음절을 입력받아 문법규칙을 적용하여 표준 언어 문자열을 생성하는 언어분석기를 구비한다. 따라서, 본 발명에 따르면 음성신호의 피치를 검출한 후 피치주기로 패턴매칭을 실시하여 음소를 판별하므로 데이터베이스와 계산용량이 작아 상대적으로 적은 용량의 컴퓨터에 의해서도 음성을 정확하게 인식할 수 있다.

Description

피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템 { speech recognition method and system using every single pitch-period data analysis }
본 발명은 음성인식기술에 관한 것으로, 더욱 상세하게는 피치 검출을 이용하여 음소단위로 패턴매칭을 처리함으로써 처리속도를 향상시킨 음성인식기술에 관한 것이다.
일반적으로, 음성인식(speech recognition)은 마이크나 전화기를 통해 화자에 의해 발성된 음향적인 신호를 인간이 이해할 수 있는 단어나 구문들로써 표현하는 일련의 과정을 의미하며, 최종적으로 인식된 단어나 구문등을 컴퓨터나 기계상의 명령이나 제어, 자료입력, 문서의 준비 등을 위한 용도로써 사용하게 된다.
음성인식은 음성신호로부터 음소/음절 혹은 단어를 인식하는 AD(Acoustic Decoder)와 AD의 인식결과와 언어학적 정보를 종합해서 문장을 인식하는 LD로 구성되어 있는데, AD분야를 통상 음성인식이라 한다. 음성인식은 발음된 음성패턴이 주어졌을 때, 인식모델과 패턴매칭을 하여, 가장 근접한 모델의 계수(W)로 인식하는 과정이다. 음성신호는 아날로그-디지털변환(ADC)을 거쳐 음성신호 전처리기로 입력되고, 음성신호 전처리기는 시간도메인의 음성신호를 주파수도메인으로 변환하여 음성에 내재하는 정보가 다음 단의 인식기에서 보다 효과적으로 인식하도록 변환한다. 그리고 음성인식에 사용되는 음성인식 알고리즘으로는 DTW(Dynamic Time Warping)은 HMM(Hidden Markov Mode), 신경망(NN:Neural Network) 등이 있으며, 기본적인 이론은 패턴매칭에 기인한다.
음성인식 기술중에서 음성신호를 문자열로 변환하는 방법을 Speech-To-Text(STT)기술이라 하는데, SST를 위한 종래의 음성인식 기술은 도 14에 도시된 바와 같이 신호처리 과정(2), 목소리 특징 추출 과정(4), 소리 유사성 분석 과정(6), 언어학적 유사성 분석 과정(8)으로 구성되어 목소리로부터 문자와 문장을 구성하였다. 즉, 신호처리과정(2)에서 입력된 음성신호를 디지털로 증폭처리한 후 목소리 특징 추출 과정(4)에서 특징 변환을 하고, 소리 유사성 분석과정(6)에서 소리 DB(10)를 이용하여 상태/음소를 판단한 후 언어학적 유사성 분석과정(8)에서 언어와 발음 DB(12,14)를 이용하여 문장을 판단하였다.
그런데 이와 같은 종래의 기술은 단어나 일정 크기의 버퍼를 기준으로 주파수분석을 하여 음성을 인식하므로 많은 연산량으로 인해 인식속도가 느리고, 표준 데이터 베이스의 크기도 큰 문제점이 있다. 특히, 단어 단위로 인식하는 경우에는 소규모 어휘 인식을 제외하고, 대규모의 어휘 인식을 하기 위해서는 대용량의 컴퓨터가 요구되므로 핸드폰이나 PDA와 같은 휴대용 기기에 적용하기 아려운 문제점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 음성신호를 한 주기의 피치 데이터 단위로 분석하여 음소단위로 음성인식을 하는 피치검출기 및 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템을 제공하는 데 그 목적이 있다.
도 1은 본 발명에 따른 음성인식 시스템을 도시한 블럭도,
도 2는 도 1에 도시된 피치 검출기를 도시한 세부 블럭도,
도 3은 도 2에 도시된 파형 단순화 필터를 도시한 기능 블럭도,
도 4는 본 발명에 따른 임펄스 트레인 필터의 개념도,
도 5는 본 발명에 따른 피치 선택방법을 도시한 흐름도,
도 6은 도 2에 도시된 위치보상기의 개념도,
도 7은 도 1에 도시된 피치 데이터 분석기를 도시한 세부 블럭도,
도 8은 도 1에 도시된 무성음 식별기를 도시한 세부 블럭도,
도 9는 도 1에 도시된 묵음구간 탐색기를 도시한 세부 블럭도,
도 10은 도 1에 도시된 음절 구분기를 도시한 세부 블럭도,
도 11은 도 1에 도시된 언어분석기를 도시한 세부 블럭도,
도 12는 도 7에 도시된 피치데이터 규격화부의 개념을 도시한 개념도,
도 13은 본 발명에 따른 음성인식과정의 예를 도시한 도면,
도 14는 일반적인 음성인식 절차를 도시한 도면이다.
*도면의 주요부분에 대한 부호의 설명
102: 피치검출기104: 피치데이터 분석기
106: 무성음 식별기108: 묵음구간 탐색기
110: 음절구분기112: 언어분석기
202: 파형단순화필터204: 임펄스 트레인 생성기
206: 피치선택부208: 위치보상기
702: 피치추출기704: 피치데이터 규격화부
706: 특징추출기708:표준피치 데이터베이스
710: 특징벡터비교기802: 무성음 분류기
804: 무성음 특징 추출기808: 무성음 특징 비교기
상기와 같은 목적을 달성하기 위하여 본 발명의 음성인식시스템은, 음성신호를 입력받아 피치를 검출하여 피치위치정보를 출력하는 피치검출기; 상기 피치검출기로부터 피치위치정보를 입력받아 피치데이터를 규격화한 후 특징벡터를 추출하여 기 등록된 표준피치 데이터와 비교하여 유성음소 문자열을 생성하는 피치데이터 분석기; 음성신호를 입력받아 묵음구간을 검출하여 묵음구간정보를 출력하는 묵음구간 탐색기; 상기 피치위치정보와 묵음구간정보를 입력받아 무성음구간을 정하고, 상기 음성신호를 입력받아 무성음소 문자열을 출력하는 무성음 식별기; 상기 유성음소 문자열과 무성음소 문자열, 묵음구간정보를 입력받아 발음문자에 대응하는 단음절을 생성하는 음절구분기; 및 상기 음절구분기의 단음절을 입력받아 문법규칙을 적용하여 표준 언어 문자열을 생성하는 언어분석기를 구비한 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위하여 본 발명의 음성인식방법은, 음성신호를 입력받아 음성신호에 대응하는 문자열을 생성하는 스피치문자변환(STT) 방법에 있어서, 상기 입력된 음성신호에서 피치를 검출하는 단계; 상기 검출된 피치위치정보와 음성신호를 분석하여 피치구간과 묵음구간, 및 무성음구간을 설정하는 단계; 상기 피치구간에서 한 주기 피치패턴을 소정의 표준 데이터와 비교하여 유성음소를 판별하는 단계; 상기 무성음구간에서 한 주기 피치패턴을 소정의 표준 데이터와 비교하여 무성음소를 판별하는 단계; 및 상기 판별된 유성음소와 무성음소를 소정 규칙에 따라 결합하여 단음절을 생성하는 단계를 포함하는 것을 특징으로 한다.
또한, 상기와 같은 목적을 달성하기 위하여 본 발명의 피치검출기는, 음성신호를 입력받아 파형을 단순화하는 파형 단순화 필터; 상기 파형단순화 필터의 출력을 기준으로 소정 채널의 임펄스 트레인을 생성하는 임펄스 트레인 생성기; 소정의 피치선택규칙을 적용하여 피치위치를 검출하는 피치선택부; 및 상기 피치선택부에 의해 검출된 피치위치를 원 입력신호와 단순화된 신호 사이의 위치 차이만큼 보상하는 위치보상기를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 자세히 설명하기로 한다.
도 1은 본 발명에 따른 음성인식 시스템을 도시한 블럭도로서, 본 발명의 음성인식시스템(100)은 피치검출기(102), 피치데이터 분석기(104), 무성음 식별기(106), 묵음구간 탐색기(108), 음절 구분기(110), 언어 분석기(112)로 구성되어 음성신호를 입력받아 표준언어 문자열을 출력한다.
도 1을 참조하면, 피치검출기(102)는 도 2에 도시된 바와 같이, 파형단순화필터(202), 임펄스 트레인 생성기(204), 피치선택부(206), 위치보상기(208)로 구성되어 음성신호를 입력받아 파형단순화 필터를 거친신호를 기준으로 임펄스 트레인을 생성하고, 정해진 규칙에 의거하여 필터링한 후 피치선택규칙을 적용하여 피치위치를 찾은 후 원 입력신호와 단순화된 신호 사이의 위치 차이를 보상하는 과정을 거쳐 피치위치정보를 출력한다.
도 2를 참조하면, 파형 단순화 필터(202)는 도 3에 도시된 바와 같이, 5점 산술평균 필터로 구현된다. 도 3에 따르면, 5점 산술평균 필터는 개념적으로 5개의 지연기(302, 304, 306, 308, 310)와 4개의 가산기(312, 314, 316, 318), 멀티플라이어(320)로 구현되어 입력신호를 산술 평균하여 출력한다.
그리고 도 2의 임펄스 트레인 생성기(204)는 입력신호의 극대점과 극소점에서만 값을 가지는 임펄스들의 집합을 정의한다. 특히, 본 발명에서는 임펄스 트레인 필터를 도 4에 도시된 바와 같이, 종래의 신호무시 구간과 지수감소 구간으로 단순하게 구분하지 않고, "거리에 비례적인 피치점 이동구간"과 '지수감소구간'으로 구분하여 피치점 이동을 통해 보다 정확하게 피치주기를 검출할 수 있다. 즉, 본 발명에서는 정확한 피치점을 찾기 위해 신호무시 구간에서라도 이전 피치점으로부터 거리에 비례한 크기보다 큰 임펄스가 있으면 피치점을 이동하는 방식을 택한다. 이 때, 피치검출과정의 유효구간을 정의하기 위하여 입력신호의 낮은 한계치를 평균잡음치의 약 1.5 배로 설정한다. 그리고 본 발명의 실시예에서는 6채널의 임펄스 트레인 필터를 이용하여 6채널의 임펄스 트레인을 출력한다.
도 2의 피치선택부(206)는 도 5에 도시된 비와 같은 피치선택규칙에 따라 피치를 선택한다. 피치선택규칙은 임펄스트레인 채널 1~3이 일치되는 위치를 기준으로 한 선택과, 채널4~6이 일치되는 위치를 기준으로 한 선택으로 구성되어 있다. 피치점으로 선택하는 경우는 모두 세가지로 다음과 같다.
<선택규칙1>
현재 데이터 위치에서 채널2의 임펄스가 존재하고, 채널1과 채널3 중에서 적어도 하나의 임펄스가 존재하며, 이전에 선택된 피치점과 현재 위치 사이에 채널 4~6의 임펄스가 3개 이상 존재하는 경우, 현재 위치를 피치점으로 선택한다.
<선택규칙2>
현재 데이터 위치에서 채널 4~6의 임펄스가 모두 나타나고, 이전 피치점과 현재 위치 사이에 채널2의 임펄스가 존재하며, 그 채널2 임펄스와 이전에 선택된 피치점 사이에 채널4~6의 임펄스가 2개 이상 존재하는 경우, 채널2 임펄스의 위치를 피치점으로 선택한다.
<선택규칙3>
현재 데이터 위치에서 채널4의 임펄스가 존재하고, 채널5와 6중에서 적어도 하나의 임펄스가 존재하며, 이전에 선택된 피치점과 현재 위치 사이에 피치점 후보가 존재하고, 그 피치점 후보와 이전에 선택된 피치점 사이에 채널 4~6의 임펄스가 2개 이상 존재하는 경우, 피치점 후보의 위치를 피치점으로 선택한다.
이와 같은 피치선택규칙을 적용하기 위한 절차는 도 5에 도시된 바와 같이, 현재 데이터를 입력받아 마지막 데이터인지를 판단하여 마지막 데이터이면 피치선택규칙을 종료한다(S1).
마지막 데이터가 아니면, 채널2를 포함한 피크 임펄스 수가 2 이상인가를 판단(S2)하여 예(yes)이면 이전에 선택된 피치점과 현재위치 사이에 벨리 임펄스가 3개 이상 존재하는가를 판단한다(S3). 판단결과 3개 이상 존재하면 현재위치를 피치점으로 선택한다(S4).
S2단계에서 판단결과 아니오(No)이면 벨리 임펄스가 3개인가를 판단(S5)하여 예(Yes)이면 이전에 선택한 피치점과 현재위치 사이에 0이 아닌 채널1이 존재하는가를 판단(S6)하여 예(Yes)이면 이전 채널1의 위치를 피치점으로 선택한다(S8).
S5단계에서 판단결과 아니오(No)이면 벨리 임펄스가 2개이고 채널4가 0보다 큰값인가를 판단(S9)하여 예(Yes)이면 이전에 선택한 피치점과 현재위치 사이에 피치점 후보가 존재하고, 그 사이에 벨리 임펄스가 2개이상 존재하는가를 판단(S10)하여 예(Yes)이면 이전 피크 후보의 위치를 피치점으로 선택한다(S11).
위치보상기(도 2의 208)의 개념은 도 6에 도시된 바와 같다.
일반적으로, 파형 단순화 필터를 거친 신호의 피크점 위치와 원래 입력신호의 피크점 위치는 일치하지 않기 때문에, 이 차이를 보상해 주지 않으면 원래 입력신호의 피치를 추출하고 분석할 때 정확한 결과를 얻을 수 없다. 위치보상기(208)는 이 차이를 보상하여 입력신호에서 파형을 추출할 경우에도 정확한 피치의 위치를 찾도록 한다. 위치보상기(208)는 파형 단순화 필터를 거친 신호에서 얻어진 피치점의 위치를 중심으로 산술평균 필터에 사용한 차수(degree of median filter)와 동일한 크기의 데이터 영역을 탐색하여 최대값을 찾는 구조로 되어 있다.
이와 같이 본 발명에 따라 임펄스 트레인을 이용하여 피치주기를 예측하는 방법은 피치주기의 정확한 예측뿐만 아니라 한 주기의 피치 데이터를 분석하여 그 특징을 추출하고 비교할 수 있는 기반을 제시하여 음성인식을 위한 파형분석이나 화자의 특성을 추출하는 데 효과적이다.
다시 도 1을 참조하면, 피치 데이터 분석기(104)는 도 7에 도시된 바와 같이 피치추출기(702), 피치데이터 규격화부(704), 특징추출기(706), 표준 피치 데이터베이스(708), 특징 벡터 비교기(710)로 구성되어 피치위치정보를 입력받아 피치데이터를 규격화한 후 특징벡터를 추출하고, 추출된 특징벡터와 피치길이정보를 기준으로 기 등록된 표준 피치 데이터와 비교하여 유성음소 문자열을 생성한다. 이 때 사용되는 표준 피치데이터 베이스의 구조는 다음 표 1과 같다.
길이음소 70 80 90 ....... 340 350 360 370
....
상기 표 1을 참조하면, 표준 피치 데이터베이스는 음소별로 피치길이를 소정주파수 대역( 예컨대, 70Hz~370Hz대역)에서 소정 주파수(예컨대, 10Hz) 간격으로 구별한다.
도 7을 참조하면, 피치추출기(702)는 피치위치정보를 입력받아 입력신호에서 피치를 추출하여 피치길이정보를 특징벡터 비교기(710)와 피치데이터 규격화부(704)로 출력한다.
피치데이터 규격화부(704)는 피치길이정보를 입력받아 도 12에 도시된 바와 같이 규격화한다. 도 12를 참조하여 피치 데이터 규격화 과정을 설명하면 다음과 같다.
먼저, 단음절 전체 데이터에서 인접한 두 피치점을 잇는 선의 기울기 A를 구한다. 이어 각 피치점을 기준으로 소정 시간(예컨대, 약 10ms) 영역을 탐색하여 극소점(minimum position)을 찾아 두 극소점을 잇는 선의 기울기 B를 구한다. 이어 다음 수학식1에 따라 두 기울기의 평균(C)을 구하고, 원래의 기울기 A에서 평균기울기(C)를 감하여 규격화된 기울기(A')를 구한다(A'=A-C). 이와 같이 규격화된 n 번째 피치 데이터는 다음 수학식 2와 같이 구할 수 있다.
상기 수학식 2에서 X'(n)은 규격화된 피치데이터이고, X(n)은 원래 피치데이터이다.
특징 추출기(706)는 규격화된 피치 데이터에서 특징벡터를 추출한다. 특징벡터 비교기(710)는 특징 추출기(706)로부터 입력받은 특징벡터와 피치 추출기(702)로부터 입력받은 피치길이정보를 표준 피치 데이터베이스(708)의 기준치와 비교하여 유성음소 문자열을 결정한다.
도 1을 참조하면, 무성음 식별기(106)는 도 8에 도시된 바와 같이, 무성음 분류기(802), 무성음 특징 추출기(804), 무성음 표준 데이터베이스(806), 무성음 특징 비교기(808)로 구성되어 피치위치정보와 음성신호를 입력으로 받아 피치구간의 시작점 이전 소정 시간(예컨대, 125msec)의 신호를 추출하여 '무성음 구간'으로 정하고, 그 구간의 음성신호를 분석하여 무성음을 크게 마찰음, 파열음, 비음으로 구분한 후 무성음 특징벡터를 추출하고, 무성음 표준 데이터와 비교하여 무성음소 문자열을 출력한다.
도 8을 참조하면, 무성음 분류기(802)는 음성신호와 피치위치정보를 입력받아 무성음구간에서 무성음신호를 추출하고, 무성음 특징 추출기(804)는 무성음구간의 음성신호를 분석하여 무성음을 마찰음, 파열음, 비음 등으로 구분한 후 무성음 특징벡터를 추출하며, 무성음 특징 비교기(808)는 무성음 특징벡터를 무성음 표준 데이터와 비교하여 무성음소 문자열을 결정한다.
다시 도 1을 참조하면, 묵음구간 탐색기(108)는 도 9에 도시된 바와 같이, 영교차율 측정부(902), 평균음압 측정부(904), 묵음구간 추출부(906)로 구성되어 음성신호를 입력받아 영교차율(Zero Crossing Rate)과 평균진폭(AverageAmplitude)을 측정하여 평균진폭의 크기와 영교차율이 모두 기준 값보다 작으면 묵음구간으로 설정한다.
도 9을 참조하면, 영교차율 측정부(902)는 입력신호에서 영교차율을 측정하고, 평균음압 측정부(904)는 입력신호에서 평균음압을 측정하며, 묵음구간 추출부(906)는 영교차율과 평균음압, 피치위치정보를 입력받아 묵음구간정보를 출력한다.
다시 도 1을 참조하면, 음절 구분기(110)는 도 10에 도시된 바와 같이, 문자열 정보 동기화부(1002)와 음절구분부(1004)로 구성되어 유성음소 문자열과 무성음소 문자열, 그리고 묵음구간정보를 입력받아 단음절의 경계를 설정하고, 경계내에 있는 유성음소 문자열중에서 가장 빈도가 높은 유성음소 문자열을 '중성'으로 정하고 피치 구간에 앞서 오는 무성음구간으로부터 얻어진 무성음소문자를 '초성'으로, 피치구간뒤에 오는 약 피치구간 또는 묵음 구간으로부터 얻어진 무성음소문자를 '종성'으로 한 후 이를 결합하여 발음 문자 한글자를 생성한다.
도 10을 참조하면, 문자열정보 동기화부(1002)는 유성음소 문자열과 무성음소 문자열, 묵음구간정보를 입력받아 초성, 중성, 종성으로 구분하고, 음절구분부(1004)는 음절구분규칙에 따라 발음 문자열을 출력한다.
도 1에서 언어분석기(112)는 도 11에 도시된 바와 같이, 언어/문법 데이터베이스(1102)와 언어모델부(1104)로 구성되어 음절구분기(110)에서 얻어진 발음 문자열을 입력받아 단어 데이터 베이스와 비교하고, 문법규칙을 적용하여 표준언어 문자열을 생성한다.
도 13은 본 발명에 따른 음성인식과정의 한 예를 도시한 도면이다.
도 13을 참조하면, 단음절 "강"이 발음된 경우, 음성신호 파형은 시간영역에서 묵음구간, 무성음구간(초성구간), 피치구간(중성구간), 약피치구간(종성구간), 묵음구간으로 구분되어 나타난다. 본 발명에 따라 무성음구간의 파형분석에 의해 무성음소 "ㄱ"을 인식하고, 피치구간에서 유성음소를 분석하여 다수의 "ㅏ" 특징을 검출한다. 이어 약피치구간에서 무성음소 "ㅇ"을 검출하여 음소문자열을 정의한다. 이어 음절구분규칙에 따라 음소문자를 조합하여 "강"이라는 단어를 인식한다.
이상에서 설명한 바와 같이, 본 발명에 따르면 음성신호의 피치를 검출한 후 피치주기로 패턴매칭을 실시하여 음소를 판별하므로 데이터베이스와 계산용량이 작아 상대적으로 적은 용량의 컴퓨터에 의해서도 음성을 정확하게 인식할 수 있다. 따라서 본 발명은 핸드폰이나 PDA 등과 같이 휴대용 장치의 음성인식수단(STT)에 널리 사용될 수 있다. 또한 음소단위로 인식과정을 수행함으로써 인식 어휘 수에 제한이 없다.

Claims (14)

  1. 음성신호를 입력받아 피치를 검출하여 피치위치정보를 출력하는 피치검출기;
    상기 피치검출기로부터 피치위치정보를 입력받아 피치데이터를 규격화한 후 특징벡터를 추출하여 기 등록된 표준피치 데이터와 비교하여 유성음소 문자열을 생성하는 피치데이터 분석기;
    음성신호를 입력받아 묵음구간을 검출하여 묵음구간정보를 출력하는 묵음구간 탐색기;
    상기 피치위치정보와 묵음구간정보를 입력받아 무성음구간을 정하고, 상기 음성신호를 입력받아 무성음소 문자열을 출력하는 무성음 식별기;
    상기 유성음소 문자열과 무성음소 문자열, 묵음구간정보를 입력받아 발음문자에 대응하는 단음절을 생성하는 음절구분기; 및
    상기 음절구분기의 단음절을 입력받아 문법규칙을 적용하여 표준 언어 문자열을 생성하는 언어분석기를 구비한 것을 특징으로 하는 음성인식시스템.
  2. 제1항에 있어서, 상기 피치검출기는
    음성신호를 입력받아 파형을 단순화하는 파형 단순화 필터;
    상기 파형 단순화 필터의 출력을 기준으로 소정 채널의 임펄스 트레인을 생성하는 임펄스 트레인 생성기;
    소정의 피치선택규칙을 적용하여 피치위치를 검출하는 피치선택부; 및
    상기 피치선택부에 의해 검출된 피치위치를 원 입력신호와 단순화된 신호 사이의 위치 차이만큼 보상하는 위치보상기로 구성된 것을 특징으로 하는 음성인식시스템.
  3. 제2항에 있어서, 상기 파형 단순화 필터는 산술평균 필터로 구현된 것을 특징으로 하는 음성인식시스템.
  4. 제2항에 있어서, 상기 피치선택부는 임펄스 트레인 채널 1~3이 일치되는 위치를 기준으로 선택하거나 채널4~6이 일치되는 위치를 기준으로 피치점을 선택하는 것을 특징으로 하는 음성인식시스템.
  5. 제1항에 있어서, 상기 피치데이터 분석기는
    피치위치정보를 입력받아 입력신호에서 피치를 추출하여 피치길이정보를 출력하는 피치추출기; 상기 피치길이정보를 입력받아 규격화하는 피치데이터 규격화부; 상기 규격화된 피치 데이터에서 특징벡터를 추출하는 특징 추출기; 미리 정의된 표준 피치 데이터를 저장하고 있는 표준 피치 데이터베이스; 상기 특징 추출기로부터 입력받은 특징벡터와 상기 피치 추출기로부터 입력받은 피치길이정보를 상기 표준 피치 데이터베이스의 기준치와 비교하여 유성음소 문자열을 결정하는 특징벡터 비교기로 구성된 것을 특징으로 하는 음성인식시스템.
  6. 제5항에 있어서, 상기 표준 피치 데이터베이스는 음소별로 피치길이를 소정 주파수 대역에서 소정 주파수 간격으로 구별한 것을 특징으로 하는 음성인식시스템.
  7. 제5항에 있어서, 상기 피치데이터 규격화부는
    인접한 두 피치점을 잇는 선의 기울기 A를 구하고, 각 피치점을 기준으로 소정 시간 영역을 탐색하여 극소점을 찾아 두 극소점을 잇는 선의 기울기 B를 구한 후 두 기울기의 평균(C)을 구하여, 원래의 기울기 A에서 평균기울기(C)를 감하여 규격화된 기울기(A')를 구함으로써
    n 번째 피치 데이터를으로 규격화하는 것을 특징으로 하는 음성인식시스템.
  8. 제1항에 있어서, 상기 묵음구간 탐색기는
    입력신호에서 영교차율을 측정하는 영교차율 측정부; 입력신호에서 평균음압을 측정하는 평균음압 측정부; 영교차율과 평균음압, 피치위치정보를 입력받아 묵음구간정보를 출력하는 묵음구간 추출부로 구성된 것을 특징으로 하는 음성인식시스템.
  9. 제1항에 있어서, 상기 무성음 식별기는
    음성신호와 피치위치정보를 입력받아 무성음구간에서 무성음신호를 추출하는 무성음 분류기; 무성음구간의 음성신호를 분석하여 무성음을 마찰음, 파열음, 비음 등으로 구분한 후 무성음 특징벡터를 추출하는 무성음 특징 추출기; 무성음 특징벡터를 무성음 표준 데이터와 비교하여 무성음소 문자열을 결정하는 무성음 특징 비교기를 포함하는 것을 특징으로 하는 음성인식시스템.
  10. 음성신호를 입력받아 파형을 단순화하는 파형 단순화 필터;
    상기 파형단순화 필터의 출력을 기준으로 소정 채널의 임펄스 트레인을 생성하는 임펄스 트레인 생성기;
    소정의 피치선택규칙을 적용하여 피치위치를 검출하는 피치선택부; 및
    상기 피치선택부에 의해 검출된 피치위치를 원 입력신호와 단순화된 신호 사이의 위치 차이만큼 보상하는 위치보상기를 포함하는 것을 특징으로 하는 피치검출기.
  11. 제10항에 있어서, 상기 파형단순화 필터는 산술평균 필터로 구현되는 것을 특징으로 하는 피치검출기.
  12. 제10항에 있어서, 상기 피치선택부는
    상기 임펄스 트레인 생성기가 6채널의 임펄스 트레인을 생성할 경우에,
    선택규칙1: 현재 데이터 위치에서 채널2의 임펄스가 존재하고, 채널1과 채널3 중에서 적어도 하나의 임펄스가 존재하며, 이전에 선택된 피치점과 현재 위치 사이에 채널 4~6의 임펄스가 3개 이상 존재하는 경우, 현재 위치를 피치점으로 선택하고,
    선택규칙2: 현재 데이터 위치에서 채널 4~6의 임펄스가 모두 나타나고, 이전 피치점과 현재 위치 사이에 채널2의 임펄스가 존재하며, 그 채널2 임펄스와 이전에 선택된 피치점 사이에 채널4~6의 임펄스가 2개 이상 존재하는 경우, 채널2 임펄스의 위치를 피치점으로 선택하며,
    선택규칙3: 현재 데이터 위치에서 채널4의 임펄스가 존재하고, 채널5와 6중에서 적어도 하나의 임펄스가 존재하며, 이전에 선택된 피치점과 현재 위치 사이에 피치점 후보가 존재하고, 그 피치점 후보와 이전에 선택된 피치점 사이에 채널 4~6의 임펄스가 2개 이상 존재하는 경우, 피치점 후보의 위치를 피치점으로 선택하는 것을 특징으로 하는 피치검출기.
  13. 음성신호를 입력받아 음성신호에 대응하는 문자열을 생성하는 스피치문자변환(STT) 방법에 있어서,
    상기 입력된 음성신호에서 피치를 검출하는 단계;
    상기 검출된 피치위치정보와 음성신호를 분석하여 피치구간과 묵음구간, 및 무성음구간을 설정하는 단계;
    상기 피치구간에서 한 주기 피치패턴을 소정의 표준 데이터와 비교하여 유성음소를 판별하는 단계;
    상기 무성음구간에서 한 주기 피치패턴을 소정의 표준 데이터와 비교하여 무성음소를 판별하는 단계; 및
    상기 판별된 유성음소와 무성음소를 소정 규칙에 따라 결합하여 단음절을 생성하는 단계를 포함하는 것을 특징으로 하는 음성인식방법.
  14. 제13항에 있어서, 상기 피치구간 후에 약피치구간을 설정하고, 상기 약피치구간에서 종성으로 오는 유성자음을 판별하는 단계를 더 구비한 것을 특징으로 하는 음성인식방법.
KR10-2001-0004229A 2001-01-30 2001-01-30 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템 KR100391123B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2001-0004229A KR100391123B1 (ko) 2001-01-30 2001-01-30 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0004229A KR100391123B1 (ko) 2001-01-30 2001-01-30 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20020063665A true KR20020063665A (ko) 2002-08-05
KR100391123B1 KR100391123B1 (ko) 2003-07-12

Family

ID=27692700

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0004229A KR100391123B1 (ko) 2001-01-30 2001-01-30 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR100391123B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030060593A (ko) * 2002-01-10 2003-07-16 주식회사 현대오토넷 피치값을 이용한 음성 인식 방법
KR100526110B1 (ko) * 2003-11-19 2005-11-08 학교법인연세대학교 화자인식시스템의 화자 특징벡터 생성방법 및 시스템
KR100902112B1 (ko) * 2006-11-13 2009-06-09 한국전자통신연구원 키 재동기 구간의 음성 데이터를 예측하기 위한 벡터 정보삽입 방법, 전송 방법 및 벡터 정보를 이용한 키 재동기구간의 음성 데이터 예측 방법
KR100906766B1 (ko) * 2007-06-18 2009-07-09 한국전자통신연구원 키 재동기 구간의 음성 데이터 예측을 위한 음성 데이터송수신 장치 및 방법
WO2021107565A1 (en) * 2019-11-26 2021-06-03 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same, and storage medium

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9286888B1 (en) * 2014-11-13 2016-03-15 Hyundai Motor Company Speech recognition system and speech recognition method
KR101934086B1 (ko) * 2018-08-06 2018-12-31 주식회사 아이티지 한글 완성형 음원 인식 기능을 갖춘 비상벨 시스템 및 그 제어 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6462700A (en) * 1987-09-03 1989-03-09 Mitsubishi Electric Corp Voice recognition equipment
JP3403838B2 (ja) * 1994-10-28 2003-05-06 三菱電機株式会社 句境界確率計算装置および句境界確率利用連続音声認識装置
KR19990050440A (ko) * 1997-12-17 1999-07-05 정선종 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식방법 및 음성인식장치
KR19990030943U (ko) * 1997-12-30 1999-07-26 전주범 가습기의 살균장치
KR100319237B1 (ko) * 1999-12-01 2002-01-09 안병엽 유성음/무성음/묵음 정보를 이용한 동적 시간정합고립단어 인식 시스템

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030060593A (ko) * 2002-01-10 2003-07-16 주식회사 현대오토넷 피치값을 이용한 음성 인식 방법
KR100526110B1 (ko) * 2003-11-19 2005-11-08 학교법인연세대학교 화자인식시스템의 화자 특징벡터 생성방법 및 시스템
KR100902112B1 (ko) * 2006-11-13 2009-06-09 한국전자통신연구원 키 재동기 구간의 음성 데이터를 예측하기 위한 벡터 정보삽입 방법, 전송 방법 및 벡터 정보를 이용한 키 재동기구간의 음성 데이터 예측 방법
KR100906766B1 (ko) * 2007-06-18 2009-07-09 한국전자통신연구원 키 재동기 구간의 음성 데이터 예측을 위한 음성 데이터송수신 장치 및 방법
WO2021107565A1 (en) * 2019-11-26 2021-06-03 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same, and storage medium
US11735167B2 (en) 2019-11-26 2023-08-22 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same, and storage medium

Also Published As

Publication number Publication date
KR100391123B1 (ko) 2003-07-12

Similar Documents

Publication Publication Date Title
Zissman et al. Automatic language identification
US10410623B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
US6553342B1 (en) Tone based speech recognition
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US6618702B1 (en) Method of and device for phone-based speaker recognition
RU2466468C1 (ru) Система и способ распознавания речи
Mouaz et al. Speech recognition of moroccan dialect using hidden Markov models
JPH09500223A (ja) 多言語音声認識システム
JPH06105394B2 (ja) 音声認識方式
JP2006215499A (ja) 音声処理装置
KR100391123B1 (ko) 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
JP2996019B2 (ja) 音声認識装置
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
Phoophuangpairoj et al. Two-Stage Gender Identification Using Pitch Frequencies, MFCCs and HMMs
KR0136608B1 (ko) 음성신호 검색용 음성인식 장치
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
Prukkanon et al. F0 contour approximation model for a one-stream tonal word recognition system
JP2006010739A (ja) 音声認識装置
Laleye et al. Automatic text-independent syllable segmentation using singularity exponents and rényi entropy
Laleye et al. Automatic boundary detection based on entropy measures for text-independent syllable segmentation
RU2763124C1 (ru) Способ дикторонезависимого распознавания фонемы в речевом сигнале
KR20180057315A (ko) 자연어 발화 음성 판별 시스템 및 방법
Mengistu et al. Text independent amharic language dialect recognition using neuro-fuzzy gaussian membership function
KR20040100592A (ko) 이동 기기에서의 실시간 화자독립가변어 음성인식 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080630

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee