KR102148245B1

KR102148245B1 - 문자 음성변환 시스템

Info

Publication number: KR102148245B1
Application number: KR1020170164122A
Authority: KR
Inventors: 김효순
Original assignee: 주식회사 더하일
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2020-08-26
Also published as: KR20190064853A

Abstract

본 발명은 음성파일이 저장된 데이터베이스부; 문자를 입력하는 문자입력부; 상기 문자입력부에서 입력된 문자에 해당하는 음성파일을 상기 데이터베이스부로부터 추출하는 제어부; 상기 제어부로부터 전달된 음성파일을 오디오웨이브데이터로 변환하는 TTS엔진; 상기 TTS엔진에 연결되어 상기 TTS엔진에서 변환된 오디오웨이브데이터를 아날로그 음성신호로 변환하여 스피커로 전달하는 오디오처리부;를 포함하는 것을 특징으로 한다.

Description

문자 음성변환 시스템{Text to speech system}

본 발명은 문자입력에 의해 입력된 문자가 음성으로 매칭되어 구현되는 TTS시스템에 관한 것이다.

TTS(Text To Speech)시스템은 일반적인 텍스트를 사람의 음성으로 변환하는 기술을 말하는데, 예를 들어 데이터베이스에 저장되어 있는 각 텍스트에 상응하는 분절음을 읽어 들여 조합함으로써 원하는 음성을 생성한다. 이러한 TTS시스템은 주로 무인 자동응답시스템(ARS)이나 시각 장애인을 위해 텍스트 정보를 음성으로 변환하여 제공하는 기술 등에 적용되어 왔다.

일 예로 대한민국 특허등록 제10-1180783호에서는 텍스트를 음성으로 변환하는 기능(TTS: Text To Speech)을 구비한 방송 단말에서 수행하되, 사용자 취향정보가 입력된 경우에 이렇게 입력된 내용에 따라 사용자 취향정보 데이터베이스를 갱신하는 (a)단계; 방송 프로그램 정보를 수신하여 방송 프로그램 정보 데이터베이스를 구축하는 (b)단계: 맞춤형 TTS 서비스가 선택된 경우에 상기 방송 프로그램 정보 데이터베이스와 상기 취향정보 데이터베이스의 내용을 매칭시켜 사용자의 취향에 맞는 맞춤형 방송 프로그램 데이터베이스를 시간별 혹은 채널별로 구축하는 (c)단계 및 상기 (c)단계에서 구축된 상기 맞춤형 방송 프로그램 정보 데이터베이스의 텍스트 데이터를 음성으로 변환하여 출력하는 (d)를 포함하고 예약시청 또는 예약녹화의 서비스를 음성으로 단말에 명령하는 단계(e)를 더 포함하여 이루어진 TTS 기술을 이용한 사용자 맞춤형 방송 서비스 방법을 제시하고 있다.

그러나 상기 기술의 경우 데이터베이스에 데이터화 된 음성파일에 잡음 등 에러가 발생되는 경우 이후 TTS시스템의 구현에 에러가 발생되거나 부하가 발생되는 문제에 대한 어떠한 기술도 없다.

대한민국 특허등록 제10-1180783호

본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, TTS시스템을 구현하되 데이터화 된 음성파일의 건전성을 높여 구현도를 높이고 부하를 방지할 수 있는 TTS시스템을 제공하고자 함이다.

상기 목적을 이루기 위한 본 발명의 문자 음성변환 시스템은, 음성파일이 저장된 데이터베이스부; 문자를 입력하는 문자입력부; 상기 문자입력부에서 입력된 문자에 해당하는 음성파일을 상기 데이터베이스부로부터 추출하는 제어부; 상기 제어부로부터 전달된 음성파일을 오디오웨이브데이터로 변환하는 TTS엔진; 상기 TTS엔진에 연결되어 상기 TTS엔진에서 변환된 오디오웨이브데이터를 아날로그 음성신호로 변환하여 스피커로 전달하는 오디오처리부;를 포함하는 것을 특징으로 한다.

하나의 예로 상기 데이터베이스부에 음성파일이 입력되도록 하는 음성입력부가 구성되되, 상기 음성입력부는 입력자로부터 근거리의 근거리마이크와, 입력자로부터 원거리의 원거리마이크와, 상기 근거리마이크와 상기 원거리마이크로부터 입력되는 입력신호를 푸리에 변환을 통해 주파수 성분을 연산하고 각 마이크의 주파수 성분을 통해 주파수 신호 전력을 연산하며 상기 근거리마이크의 주파수 신호전력과 상기 원거리마이크의 주파수 신호전력을 비교 분석하여 양 신호 전력의 비값을 연산하고 연산된 상기 양 신호 전력의 비값에 기초하여 상기 데이터베이스부에 저장될 음성파일 유무를 판단하는 잡음제거부를 포함하는 것을 특징으로 한다.

하나의 예로 상기 음성입력부에는 상기 근거리마이크 및 상기 원거리마이크가 노출되는 하우징이 구성되고 상기 하우징 내에 상기 잡음제거부가 내재되며 상기 원거리마이크는 상기 근거리마이크 방향으로 복수의 유동공이 형성되며 반대방향에는 폐면을 형성하는 반사파차단커버에 의해 커버된 형상으로 구성됨을 특징으로 한다.

하나의 예로 상기 음성입력부에는 상기 근거리마이크 및 상기 원거리마이크가 노출되는 하우징이 구성되고 상기 하우징에 있어 상기 근거리마이크에서 상기 원거리마이크에는 요홈형상의 유도홈이 형성되며 상기 원거리마이크는 상기 유도홈의 끝단 측벽에 형성되고 상기 원거리마이크가 형성된 유도홈 끝단부에는 반사파차단커버가 형성되는 것을 특징으로 한다.

본 발명의 문자 음성변환 시스템은 안내방송 자동응답 시스템, 대중교통 안내 네비게이션, 교육용 어플리케이션 등 다양한 용도에 적용되어 편리성, 음성의 일관성, 경제성 등의 효과가 발현될 수 있는 장점이 있다.

또한 음성파일의 저장에 있어 잡음이 제거된 순수 음성파일만이 데이터로서 저장되도록 함으로써 TTS시스템의 운용효율을 높일 수 있는 장점이 있다.

도 1은 본 발명의 문자 음성변환 시스템을 보여주는 블록도.
도 2는 본 발명의 일 구성인 음성입력부의 상세 구성을 나타내는 블록도.
도 3 및 도 4는 상기 음성입력부의 각 실시 예를 나타내는 개략도.

이하, 도면을 참고하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.

본 발명의 문자 음성변환 시스템(1)은 도 1에서 보는 바와 같이 음성파일이 저장된 데이터베이스부(2); 문자를 입력하는 문자입력부(3); 상기 문자입력부(3)에서 입력된 문자에 해당하는 음성파일을 상기 데이터베이스부(2)로부터 추출하는 제어부(4); 상기 제어부(4)로부터 전달된 음성파일을 오디오웨이브데이터로 변환하는 TTS엔진(5); 상기 TTS엔진(5)에 연결되어 상기 TTS엔진(5)에서 변환된 오디오웨이브데이터를 아날로그 음성신호로 변환하여 스피커(7)로 전달하는 오디오처리부(6);를 포함하는 것을 특징으로 한다.

또한 도면에 도시된 바는 없으나 디스플레이부가 더 구성되어 사용자가 상기 문자입력부(3)에 입력한 문자가 상기 디스플레이부에 디스플레이 되도록 하고 상기 스피커(7)를 통해 표출되는 음성신호에 해당하는 텍스트가 디스플레이 되도록 할 수 있다.

상기 데이터베이스부(2)는 각종 음성파일이 저장되는 구성으로 이하에서 설명할 음성입력부(8)에 의해 입력된 음성파일이 저장되는 구성에 해당한다.

상기 문자입력부(3)는 상기 제어부(4)와 연결되어 있으며, 다수의 숫자 키와 각종 기능을 수행하기 위한 기능 키를 구비한다.

상기 제어부(220)는 상기 문자입력부(3)에서 입력된 문자에 해당하는 음성파일을 상기 데이터베이스부(2)로부터 추출하여 상기 TTS엔진(5)으로 추출된 음성파일을 전달하는 구성에 해당한다.

상기 TTS엔진(5)은 상기 제어부(4)의 일측에 연결되어 있어, 상기 제어부(4)로부터 전달된 소정의 언어로 입력된 텍스트 문장 즉 음성파일을 오디오웨이브데이터로 변환하는 구성에 해당한다.

상기 오디오처리부(6)는 상기 TTS엔진(5)의 일측에 연결되어 있어, 상기 TTS엔진(5)에서 변환된 오디오웨이브데이터를 아날로그 음성신호로 변환한다. 상기 오디오처리부(6)는 일반적인 소프트웨어모듈로서 오디오 드라이버와 하드웨어 블락으로서 오디오 카드를 포함하여 구성한다.

또한 도 1에서 보는 바와 같이 본 발명에는 상기 데이터베이스부(2)에 음성파일이 입력되도록 하는 음성입력부(8)가 구성되도록 하는데 특히 본 발명에서는 상기 데이터베이스부(2)에 데이터화 되는 음성파일에 잡음이 혼입되어 TTS시스템의 구현에 에러가 발생되거나 부하가 발생되는 문제를 해결하는 실시 예를 제시하고 있다.

본 실시 예의 음성입력부(8)는 도 2에서 보는 바와 같이 입력자로부터 근거리의 근거리마이크(81)와, 입력자로부터 원거리의 원거리마이크(82)와, 상기 근거리마이크(81)와 상기 원거리마이크(82)로부터 입력되는 입력신호를 푸리에 변환을 통해 주파수 성분을 연산하고 각 마이크의 주파수 성분을 통해 주파수 신호 전력을 연산하며 상기 근거리마이크(81)의 주파수 신호전력과 상기 원거리마이크(82)의 주파수 신호전력을 비교 분석하여 양 신호 전력의 비값을 연산하고 연산된 상기 양 신호 전력의 비값에 기초하여 상기 데이터베이스부(2)에 저장될 음성파일 유무를 판단하는 잡음제거부(83)를 포함하는 것을 특징으로 한다.

상기 근거리마이크(81)는 입력자의 입과 근접하여 위치하고, 상기 원거리마이크(82)는 상기 근거리마이크(81)에 비해서 입력자의 입에서 상대적으로 멀리 떨어져 위치하도록 한다.

상기 잡음제거부(83)에서는 우선 각각의 마이크(81, 82)로부터 입력되는 아날로그 신호를 아날로그-디지털 변환기(analog to digital converter)를 통해 디지털 신호로 변환토록 한다.

상기 잡음제거부(83)는 근거리마이크(81)의 주파수 신호 전력과 원거리마이크(82)의 주파수 신호 전력을 비교 분석하여 양 신호 전력의 비값을 연산하고, 연산된 상기 양 신호 전력의 비값에 기초하여 상기 데이터베이스부(2)에 저장될 음성파일 유무 즉 음성파일 외의 신호를 잡음으로 추정하고 이를 제거토록 하는 것이다.

이를 더욱 상세히 설명하면 상기 잡음제거부(83)는 디지털 신호형태로 입력된 상기 근거리마이크(81)의 음성신호와 상기 원거리마이크(82)의 음성신호에 대한 주파수 성분을 파악할 수 있도록 각각의 음성신호에 대하여 푸리에 변환을 실시한다.

이때, 상기 근거리마이크(81)의 입력 음성신호를 d(n), 상기 원거리마이크(82)의 입력 음성신호를 x(n)이라 하면, 상기 d(n)의 푸리에 변환에 의한 d(k)와 상기 x(n)의 푸리에 변환에 의한 x(k)은 하기의 수학식 1에 의해 도출된다.

여기서, 'N'은 푸리에 변환 시의 현재 샘플을 포함한 이전 소정기간 동안의 블록의 샘플 수로서 0≤n≤N-1, 0≤k≤N-1이다.

이후, 상기 잡음제거부(83)는 양 마이크(81, 82)의 주파수 신호전력을 연산하는 바, 상기 수학식 1에서 k번째의 주파수 성분 d(k) 및 x(k)의 주파수 신호 전력을 각각 D(k) 및 X(k)라 하면, 상기 D(k) 및 X(k)은 하기 수학식 2에 의해 도출된다.

이와 같이 2 개의 마이크(81, 82)가 근접하여 위치했을 때, 입력자의 입보다 상대적으로 멀리 떨어져 있는 잡음신호인 경우에는 각 마이크(81, 82)에 거의 비슷한 레벨의 신호전력으로 잡음신호가 입력된다.

반대로 입력자의 입과 가까이 있는 근거리마이크(81)에는 원거리마이크(82)보다 큰 레벨의 주파수 신호 전력으로 입력자의 목소리가 입력되는 것이다.

본 실시예에서는 이러한 현상을 이용하여 잡음구간을 추정하여 데이터베이스부(2)에 진성의 음성파일만이 데이터화 되어 TTS시스템의 구현효율을 높이도록 하는 것이다.

먼저, 본 발명의 일 실시예에 따른 잡음구간 추정방법을 설명하자면, 상기 수학식 2에서 도출된 D(k) 및 X(k)값에서 D(k)〈X(k)일 경우, 즉 원거리마이크(82)의 주파수 신호전력이 근거리마이크(81)의 주파수 신호전력보다 클 경우, l번째 프레임에서 두 마이크(81, 82)의 신호 전력 D(k), X(k)의 비값 A(l)는 하기 수학식 3에 의해 도출된다.

여기서, N은 한 블록의 샘플수이며, l은 프레임 인덱스이다.

일반적으로 잡음은 입력자의 입보다 상대적으로 먼 거리에서 마이크로 입력되기 때문에 두 개의 마이크(81, 82)에 거의 비슷한 레벨의 주파수 신호전력이 입력될 수 있으며, 이때의 A(l)값은 거의 "1"에 가까워 지게 된다.

이에 따라, 본 실시예에 따른 잡음제거부(83)는 상기 수학식 3으로부터 도출된 D(k), X(k)의 비값 A(l)을 임계값과 비교 분석하여 잡음구간을 추정하는 것으로, l번째 프레임에서 A(l)〉Thr_A를 만족하는 경우 이를 잡음구간으로 추정할 수 있다. 여기서, 임계값 Thr_A는 0과 1 사이의 값이다.

상기 임계값 Thr_A는 반복적 실험 결과에서 얻어진 최적의 설정값으로, 본 발명이 이에 한정되는 것은 아니다.

다른 실시 예에 따른 잡음구간 추정방법으로는, 상술한 실시 예와 반대개념으로 상기 수학식 2에서 도출된 D(k) 및 X(k)값에서 D(k)〉X(k)일 경우, 즉 근거리마이크(81)의 주파수 신호전력이 원거리마이크(82)의 주파수 신호전력보다 클 경우, l번째 프레임에서 두 마이크(81, 82)의 전력신호 D(k), X(k)의 비값 B(l)는 하기 수학식 4를 통해 도출된다.

여기서, N은 한 블록의 샘플수이며, l은 프레임 인덱스이다.

본 실시예의 경우, 입력자의 목소리가 원거리마이크(82)보다 근거리마이크(81)에 상대적으로 큰 레벨로 입력되기 때문에 이때의 B(l)은 "1" 이하의 값으로 앞서 실시예에서의 A(l)보다 작은 경향을 보여준다.

따라서, l번째 프레임에서의 B(l)은 B(l)〈Thr_B를 만족할 때 잡음구간으로 추정할 수 있다. 여기서 임계값 Thr_B는 0과 1 사이 값이다. 여기서, 상기 임계값 Thr_B 역시 반복적 실험 결과에서 얻어진 최적의 설정값으로, 본 발명이 이에 한정되는 것은 아니다.

상기 B(l)값은 음성활동이 없는 구간(Noise)에서는 큰 값을, 음성활동이 있는 구간에서는 상대적으로 작은 값은 나타내는 바, 음성활동이 없는 구간에서만 잡음 신호의 스펙트럼을 추출함으로써 잡음을 제거하도록 하는 것이다.

상술한 두 가지 실시예를 통해 잡음제거부(83)는 음성파일 구간과 잡음구간을 구분하게 되며, 잡음신호만을 추출 및 제거할 수 있게 되는 것이다.

한편, 본 발명의 바람직한 실시예에 따르면, 상기 잡음제거부(83)에 의해 잡음구간을 추정할 때 음성파일 구간을 보호하기 위하여 상기 수학식 3 및 수학식 4에서 도출된 A(l)과 B(l) 각각에 대하여 스무딩(smoothing)을 실시하도록 한다.

예를 들면, A(l)의 경우

i) A(l)≥A(l-1)일때, A(l)=α1*A(l)+(1-α1)*A(l-1)

ii) A(l)〈A(l-1)일때, A(l)=α2*A(l)+(1-α2)*A(l-1)

여기서, 0〈α1〈α2〈1 이다.

상기와 같이 스무딩하면 A(l)은 천천히 증가하고 빨리 감소하게 된다.

반대로 B(l)의 경우

i) B(l)〉B(l-1)일때, B(l)=β1*B(l)+(1-β1)*B(l-1)

ii) B(l)≤B(l-1)일때, B(l)=β2*B(l)+(1-β2)*B(l-1)

여기서, 1〉β1〉β2〉0 이다.

상기와 같이 스무딩하면 B(l)는 A(l)보다 상대적으로 빨리 증가하고 천천히 감소하게 된다.

여기서, 상기 스무딩 방식은 공지 기술 등을 통해 다양하게 실시될 수 있는 바, 상기 본 발명에서 제시하는 예에 한정되는 것은 아니다.

이후, 상기 잡음제거부(83)에서 양 신호 전력의 비값이 임계값과의 비교 분석을 통해 잡음구간으로 추정되지 않은 경우 음성활동이 있다고 판단하고 음성활동이 있음을 나타내는 신호를 출력한다. 즉 음성파일 구간으로 판단한다.

이러한 잡음구간으로 추정되는 신호와 음성파일 신호는 잡음제거부(83)에서 입력된 신호를 기초하여 각 마이크(81, 82)으로부터 입력되어 디지털로 변환된 신호에서 선택적으로 신호의 편집을 실시함으로써, 잡음을 제거하게 되는 것이다.

이와 같이 본 발명에서는 상기의 작동기작을 통해 데이터베이스부(2)에 입력될 수 있는 잡음을 제거토록 하는데 이러한 잡음은 각각 마이크(81, 82)로 입력자의 음성신호와 함께 실내의 컴퓨터 팬 소음, TV 소리와 같은 주변 잡음으로 유입되는 것으로 이러한 잡음은 상기 잡음제거부(83)의 작동기작에 의해 제거가 용이할 것으로 보이나 음성신호가 가구 등에 반사되어 형성되는 반사파인 경우 음성신호와 유사한 주파수를 가지고 있어 이를 상기 잡음제거부(83)에서 제거하는 것이 용이하지 않은 문제가 있다. 즉 반사파의 경우 잡음제거부(83)에서 잘못된 음성파일이 데이터화 될 수 있는 요인이 될 수 있다.

이에 본 발명에서는 2가지 실시 예를 제시하고 있는 바, 첫 번째 실시 예가 도 3에 도시되고 있다.

본 실시 예의 음성입력부(8)는 상기 근거리마이크(81) 및 상기 원거리마이크(82)가 노출되는 하우징(84)이 구성되고 상기 하우징(84) 내에 상기 잡음제거부(83)가 내재되며 상기 원거리마이크(82)는 상기 근거리마이크(81) 방향으로 복수의 유동공(851)이 형성되며 반대방향에는 폐면(852)을 형성하는 반사파차단커버(85)에 의해 커버된 형상으로 구성됨을 특징으로 한다.

상기 원거리마이크(82)가 상기 반사파차단커버(85)에 내재된 상태로 구성되는데 입력자는 근거리마이크(81)에 근접하여 음성신호를 발생시키는 바, 이러한 음성신호(S1)가 바로 원거리마이크(82)로 유입되는 경우는 상기 유동공(851)을 통해 유입되도록 하면서 음성신호에 대한 반사파의 경우 반사파차단커버(85)의 폐면(852)에 의해 상기 원거리마이크(82)로 반사파의 유입이 차단되도록 하는 것이다.

즉 근거리마이크(81)에는 원거리마이크(82)보다 큰 레벨의 주파수 신호 전력으로 입력자의 목소리가 입력되는데 반해 원거리마이크(82)는 작은 레벨의 주파수 신호 전력으로 입력자의 목소리가 입력되어 반사파의 영향으로 신호왜곡의 위험이 큰 바, 원거리마이크(82)에서 반사파가 유입되는 것을 차단토록 하는 것이다.

바람직하게는 반사파차단커버(85)는 다양한 공지의 흡음성재질을 사용하여 반사파가 반사파차단커버(85)에서 흡수되도록 하는 것이 타당하다.

두 번째 실시 예가 도 4에 도시되고 있다.

본 실시 예의 음성입력부(8)는 상기 근거리마이크(81) 및 상기 원거리마이크(82)가 노출되는 하우징(84)이 구성되고 상기 하우징(84)에 있어 상기 근거리마이크(81)에서 상기 원거리마이크(82)에는 요홈형상의 유도홈(86)이 형성되며 상기 원거리마이크(82)는 상기 유도홈(86)의 끝단 측벽에 형성되고 상기 원거리마이크(82)가 형성된 유도홈(86) 끝단부에는 반사파차단커버(87)가 형성되는 것을 특징으로 한다.

상기 원거리마이크(82)가 유도홈(86)과 상기 반사파차단커버(87)에 내재된 상태로 구성되는데 입력자는 근거리마이크(81)에 근접하여 음성신호를 발생시키는 바, 이러한 음성신호(S1)가 바로 원거리마이크(82)로 유입되는 경우는 유도홈(86)을 타고 유도홈(86)과 반사파차단커버(87)에 의해 형성되는 유로를 통해 유입되도록 하면서 음성신호에 대한 반사파(S2)의 경우 반사파차단커버(87)에 의해 상기 원거리마이크(82)로 반사파의 유입이 차단되도록 하는 것이다.

이 경우도 근거리마이크(81)에는 원거리마이크(82)보다 큰 레벨의 주파수 신호 전력으로 입력자의 목소리가 입력되는데 반해 원거리마이크(82)는 작은 레벨의 주파수 신호 전력으로 입력자의 목소리가 입력되어 반사파의 영향으로 신호왜곡의 위험이 큰 바, 원거리마이크(82)에서 반사파가 유입되는 것을 차단토록 하는 것이다.

본 실시 예의 경우도 반사파차단커버(87)는 다양한 공지의 흡음성재질을 사용하여 반사파가 반사파차단커버(87)에서 흡수되도록 하는 것이 타당하다.

이상 설명한 내용을 통해 당업자라면 본 발명의 기술사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정 가능함을 알 수 있을 것이다. 따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허청구범위에 의해 정해져야만 할 것이다.

1 : 본 발명 2 : 데이터베이스부
3 : 문자입력부 4 : 제어부
5 : TTS엔지 6 : 오디오처리부
7 : 스피커 8 : 음성입력부

Claims

음성파일이 저장된 데이터베이스부;
문자를 입력하는 문자입력부;
상기 문자입력부에서 입력된 문자에 해당하는 음성파일을 상기 데이터베이스부로부터 추출하는 제어부;
상기 제어부로부터 전달된 음성파일을 오디오웨이브데이터로 변환하는 TTS엔진;
상기 TTS엔진에 연결되어 상기 TTS엔진에서 변환된 오디오웨이브데이터를 아날로그 음성신호로 변환하여 스피커로 전달하는 오디오처리부; 및
상기 데이터베이스부에 음성파일이 입력되도록 하는 음성입력부;를 포함하며,
상기 음성입력부는,
입력자로부터 근거리에 위치하는 근거리마이크와, 입력자로부터 원거리에 위치하여 상기 근거리마이크보다 상대적으로 작은 레벨의 주파수 신호로 입력자의 목소리가 입력되는 원거리마이크와, 상기 근거리마이크 및 상기 원거리마이크로부터 입력되는 입력신호를 푸리에 변환을 통해 주파수 성분을 연산하고 각 마이크의 주파수 성분을 통해 주파수 신호 전력을 연산하며, 상기 근거리 마이크의 주파수 신호전력과 상기 원거리마이크의 주파수 신호전력을 비교 분석하여 양 신호 전력의 비값을 연산하고 연산된 상기 양 신호 전력의 비값에 기초하여 상기 데이터베이스부에 저장될 음성파일 유무를 판단하고 음성파일 외의 신를 잡음으로 추정하여 제거하는 잡음제거부를 포함하되,
상기 잡음제거부는,
상기 근거리마이크와 원거리마이크로부터 입력되는 아날로그 신호를 아날로그-디지털 변환기를 통해 디지털 신호로 변환하고, 상기 근거리마이크의 입력 음성신호를 d(n), 상기 원거리마이크의 입력 음성신호를 x(n)이라 하면, 상기 d(n)의 푸리에 변환에 의한 d(k)와 상기 x(n)의 푸리에 변환에 의한 x(k)은 하기의 수학식 1에 의해 도출되며,
[수학식 1]

('N'은 푸리에 변환 시의 현재 샘플을 포함한 이전 소정기간 동안의 블록의 샘플 수로서 0≤n≤N-1, 0≤k≤N-1)
상기 근거리마이크와 원거리마이크의 주파수 신호전력을 연산하는 바, 상기 수학식 1에서 k번째의 주파수 성분 d(k) 및 x(k)의 주파수 신호 전력을 각각 D(k) 및 X(k)라 하면, 상기 D(k) 및 X(k)은 하기 수학식 2에 의해 도출되고,
[수학식 2]

2 개의 마이크가 근접하여 위치했을 때 입력자의 입보다 상대적으로 떨어져 있는 잡음신호인 경우에는 각 마이크에 상호 근접한 레벨의 신호전력으로 잡음신호가 입력되고, 반대로 입력자의 입과 상대적으로 가까이 있는 근거리마이크에는 원거리마이크보다 큰 레벨의 주파수 신호전력으로 입력자의 목소리가 입력되며,
상기 수학식 2에서 도출된 D(k) 및 X(k)값에서 D(k)〈X(k)일 경우, l번째 프레임에서 두 마이크의 신호 전력 D(k), X(k)의 비값 A(l)는 하기 수학식 3에 의해 도출되고,
[수학식 3]

(N은 한 블록의 샘플수이며, l은 프레임 인덱스)
상기 수학식 3으로부터 도출된 D(k), X(k)의 비값 A(l)을 임계값 Thr_A(0과 1 사이의 값)과 비교 분석하여 l번째 프레임에서 A(l)〉Thr_A를 만족하는 경우 이를 잡음구간으로 추정하며,
상기 수학식 2에서 도출된 D(k) 및 X(k)값에서 D(k)〉X(k)일 경우, l번째 프레임에서 두 마이크의 전력신호 D(k), X(k)의 비값 B(l)는 하기 수학식 4를 통해 도출되고,
[수학식 4]

(N은 한 블록의 샘플수이며, l은 프레임 인덱스)
상기 수학식 4로부터 도출된 D(k), X(k)의 비값 B(l)을 임계값 Thr_B(0과 1 사이 값)과 비교 분석하여 l번째 프레임에서 비값 B(l)〈Thr_B를 만족하는 경우 이를 잡음구간으로 추정하며,
상기 잡음제거부에 의해 잡음구간을 추정할 때 음성파일 구간을 보호하기 위하여 상기 수학식 3 및 수학식 4에서 도출된 A(l)과 B(l) 각각에 대하여 아래의 식을 통해 스무딩(smoothing)을 실시하고,
A(l)≥A(l-1)일때, A(l)=α1*A(l)+(1-α1)*A(l-1)
A(l)〈A(l-1)일때, A(l)=α2*A(l)+(1-α2)*A(l-1)
(0〈α1〈α2〈1)
B(l)〉B(l-1)일때, B(l)=β1*B(l)+(1-β1)*B(l-1)
B(l)≤B(l-1)일때, B(l)=β2*B(l)+(1-β2)*B(l-1)
(1〉β1〉β2〉0)
상기 음성입력부에는 상기 근거리마이크 및 상기 원거리마이크가 노출되는 하우징이 구성되고 상기 하우징에 있어 상기 근거리마이크에서 상기 원거리마이크에는 요홈형상의 유도홈이 형성되며 상기 원거리마이크는 상기 유도홈의 끝단 측벽에 형성되고 상기 원거리마이크가 형성된 유도홈 끝단부에는 반사파차단커버가 형성되어 상기 원거리마이크가 유도홈과 상기 반사파차단커버에 내재된 상태로 구성되며, 입력자가 근거리마이크에 근접하여 음성신호를 발생시켜 상기 음성신호가 원거리마이크로 유입되는 경우 상기 유도홈을 타고 유도홈과 반사파차단커버에 의해 형성되는 유로를 통해 유입되도록 하면서 음성신호에 대한 반사파가 상기 반사파차단커버에 의해 상기 원거리마이크로 반사파의 유입이 차단되는 것을 특징으로 하는 문자 음성변환 시스템.
삭제
삭제
삭제