KR102148245B1 - 문자 음성변환 시스템 - Google Patents

문자 음성변환 시스템 Download PDF

Info

Publication number
KR102148245B1
KR102148245B1 KR1020170164122A KR20170164122A KR102148245B1 KR 102148245 B1 KR102148245 B1 KR 102148245B1 KR 1020170164122 A KR1020170164122 A KR 1020170164122A KR 20170164122 A KR20170164122 A KR 20170164122A KR 102148245 B1 KR102148245 B1 KR 102148245B1
Authority
KR
South Korea
Prior art keywords
input
far
microphone
voice
equation
Prior art date
Application number
KR1020170164122A
Other languages
English (en)
Other versions
KR20190064853A (ko
Inventor
김효순
Original Assignee
주식회사 더하일
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 더하일 filed Critical 주식회사 더하일
Priority to KR1020170164122A priority Critical patent/KR102148245B1/ko
Publication of KR20190064853A publication Critical patent/KR20190064853A/ko
Application granted granted Critical
Publication of KR102148245B1 publication Critical patent/KR102148245B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 음성파일이 저장된 데이터베이스부; 문자를 입력하는 문자입력부; 상기 문자입력부에서 입력된 문자에 해당하는 음성파일을 상기 데이터베이스부로부터 추출하는 제어부; 상기 제어부로부터 전달된 음성파일을 오디오웨이브데이터로 변환하는 TTS엔진; 상기 TTS엔진에 연결되어 상기 TTS엔진에서 변환된 오디오웨이브데이터를 아날로그 음성신호로 변환하여 스피커로 전달하는 오디오처리부;를 포함하는 것을 특징으로 한다.

Description

문자 음성변환 시스템{Text to speech system}
본 발명은 문자입력에 의해 입력된 문자가 음성으로 매칭되어 구현되는 TTS시스템에 관한 것이다.
TTS(Text To Speech)시스템은 일반적인 텍스트를 사람의 음성으로 변환하는 기술을 말하는데, 예를 들어 데이터베이스에 저장되어 있는 각 텍스트에 상응하는 분절음을 읽어 들여 조합함으로써 원하는 음성을 생성한다. 이러한 TTS시스템은 주로 무인 자동응답시스템(ARS)이나 시각 장애인을 위해 텍스트 정보를 음성으로 변환하여 제공하는 기술 등에 적용되어 왔다.
일 예로 대한민국 특허등록 제10-1180783호에서는 텍스트를 음성으로 변환하는 기능(TTS: Text To Speech)을 구비한 방송 단말에서 수행하되, 사용자 취향정보가 입력된 경우에 이렇게 입력된 내용에 따라 사용자 취향정보 데이터베이스를 갱신하는 (a)단계; 방송 프로그램 정보를 수신하여 방송 프로그램 정보 데이터베이스를 구축하는 (b)단계: 맞춤형 TTS 서비스가 선택된 경우에 상기 방송 프로그램 정보 데이터베이스와 상기 취향정보 데이터베이스의 내용을 매칭시켜 사용자의 취향에 맞는 맞춤형 방송 프로그램 데이터베이스를 시간별 혹은 채널별로 구축하는 (c)단계 및 상기 (c)단계에서 구축된 상기 맞춤형 방송 프로그램 정보 데이터베이스의 텍스트 데이터를 음성으로 변환하여 출력하는 (d)를 포함하고 예약시청 또는 예약녹화의 서비스를 음성으로 단말에 명령하는 단계(e)를 더 포함하여 이루어진 TTS 기술을 이용한 사용자 맞춤형 방송 서비스 방법을 제시하고 있다.
그러나 상기 기술의 경우 데이터베이스에 데이터화 된 음성파일에 잡음 등 에러가 발생되는 경우 이후 TTS시스템의 구현에 에러가 발생되거나 부하가 발생되는 문제에 대한 어떠한 기술도 없다.
대한민국 특허등록 제10-1180783호
본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, TTS시스템을 구현하되 데이터화 된 음성파일의 건전성을 높여 구현도를 높이고 부하를 방지할 수 있는 TTS시스템을 제공하고자 함이다.
상기 목적을 이루기 위한 본 발명의 문자 음성변환 시스템은, 음성파일이 저장된 데이터베이스부; 문자를 입력하는 문자입력부; 상기 문자입력부에서 입력된 문자에 해당하는 음성파일을 상기 데이터베이스부로부터 추출하는 제어부; 상기 제어부로부터 전달된 음성파일을 오디오웨이브데이터로 변환하는 TTS엔진; 상기 TTS엔진에 연결되어 상기 TTS엔진에서 변환된 오디오웨이브데이터를 아날로그 음성신호로 변환하여 스피커로 전달하는 오디오처리부;를 포함하는 것을 특징으로 한다.
하나의 예로 상기 데이터베이스부에 음성파일이 입력되도록 하는 음성입력부가 구성되되, 상기 음성입력부는 입력자로부터 근거리의 근거리마이크와, 입력자로부터 원거리의 원거리마이크와, 상기 근거리마이크와 상기 원거리마이크로부터 입력되는 입력신호를 푸리에 변환을 통해 주파수 성분을 연산하고 각 마이크의 주파수 성분을 통해 주파수 신호 전력을 연산하며 상기 근거리마이크의 주파수 신호전력과 상기 원거리마이크의 주파수 신호전력을 비교 분석하여 양 신호 전력의 비값을 연산하고 연산된 상기 양 신호 전력의 비값에 기초하여 상기 데이터베이스부에 저장될 음성파일 유무를 판단하는 잡음제거부를 포함하는 것을 특징으로 한다.
하나의 예로 상기 음성입력부에는 상기 근거리마이크 및 상기 원거리마이크가 노출되는 하우징이 구성되고 상기 하우징 내에 상기 잡음제거부가 내재되며 상기 원거리마이크는 상기 근거리마이크 방향으로 복수의 유동공이 형성되며 반대방향에는 폐면을 형성하는 반사파차단커버에 의해 커버된 형상으로 구성됨을 특징으로 한다.
하나의 예로 상기 음성입력부에는 상기 근거리마이크 및 상기 원거리마이크가 노출되는 하우징이 구성되고 상기 하우징에 있어 상기 근거리마이크에서 상기 원거리마이크에는 요홈형상의 유도홈이 형성되며 상기 원거리마이크는 상기 유도홈의 끝단 측벽에 형성되고 상기 원거리마이크가 형성된 유도홈 끝단부에는 반사파차단커버가 형성되는 것을 특징으로 한다.
본 발명의 문자 음성변환 시스템은 안내방송 자동응답 시스템, 대중교통 안내 네비게이션, 교육용 어플리케이션 등 다양한 용도에 적용되어 편리성, 음성의 일관성, 경제성 등의 효과가 발현될 수 있는 장점이 있다.
또한 음성파일의 저장에 있어 잡음이 제거된 순수 음성파일만이 데이터로서 저장되도록 함으로써 TTS시스템의 운용효율을 높일 수 있는 장점이 있다.
도 1은 본 발명의 문자 음성변환 시스템을 보여주는 블록도.
도 2는 본 발명의 일 구성인 음성입력부의 상세 구성을 나타내는 블록도.
도 3 및 도 4는 상기 음성입력부의 각 실시 예를 나타내는 개략도.
이하, 도면을 참고하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.
본 발명의 문자 음성변환 시스템(1)은 도 1에서 보는 바와 같이 음성파일이 저장된 데이터베이스부(2); 문자를 입력하는 문자입력부(3); 상기 문자입력부(3)에서 입력된 문자에 해당하는 음성파일을 상기 데이터베이스부(2)로부터 추출하는 제어부(4); 상기 제어부(4)로부터 전달된 음성파일을 오디오웨이브데이터로 변환하는 TTS엔진(5); 상기 TTS엔진(5)에 연결되어 상기 TTS엔진(5)에서 변환된 오디오웨이브데이터를 아날로그 음성신호로 변환하여 스피커(7)로 전달하는 오디오처리부(6);를 포함하는 것을 특징으로 한다.
또한 도면에 도시된 바는 없으나 디스플레이부가 더 구성되어 사용자가 상기 문자입력부(3)에 입력한 문자가 상기 디스플레이부에 디스플레이 되도록 하고 상기 스피커(7)를 통해 표출되는 음성신호에 해당하는 텍스트가 디스플레이 되도록 할 수 있다.
상기 데이터베이스부(2)는 각종 음성파일이 저장되는 구성으로 이하에서 설명할 음성입력부(8)에 의해 입력된 음성파일이 저장되는 구성에 해당한다.
상기 문자입력부(3)는 상기 제어부(4)와 연결되어 있으며, 다수의 숫자 키와 각종 기능을 수행하기 위한 기능 키를 구비한다.
상기 제어부(220)는 상기 문자입력부(3)에서 입력된 문자에 해당하는 음성파일을 상기 데이터베이스부(2)로부터 추출하여 상기 TTS엔진(5)으로 추출된 음성파일을 전달하는 구성에 해당한다.
상기 TTS엔진(5)은 상기 제어부(4)의 일측에 연결되어 있어, 상기 제어부(4)로부터 전달된 소정의 언어로 입력된 텍스트 문장 즉 음성파일을 오디오웨이브데이터로 변환하는 구성에 해당한다.
상기 오디오처리부(6)는 상기 TTS엔진(5)의 일측에 연결되어 있어, 상기 TTS엔진(5)에서 변환된 오디오웨이브데이터를 아날로그 음성신호로 변환한다. 상기 오디오처리부(6)는 일반적인 소프트웨어모듈로서 오디오 드라이버와 하드웨어 블락으로서 오디오 카드를 포함하여 구성한다.
또한 도 1에서 보는 바와 같이 본 발명에는 상기 데이터베이스부(2)에 음성파일이 입력되도록 하는 음성입력부(8)가 구성되도록 하는데 특히 본 발명에서는 상기 데이터베이스부(2)에 데이터화 되는 음성파일에 잡음이 혼입되어 TTS시스템의 구현에 에러가 발생되거나 부하가 발생되는 문제를 해결하는 실시 예를 제시하고 있다.
본 실시 예의 음성입력부(8)는 도 2에서 보는 바와 같이 입력자로부터 근거리의 근거리마이크(81)와, 입력자로부터 원거리의 원거리마이크(82)와, 상기 근거리마이크(81)와 상기 원거리마이크(82)로부터 입력되는 입력신호를 푸리에 변환을 통해 주파수 성분을 연산하고 각 마이크의 주파수 성분을 통해 주파수 신호 전력을 연산하며 상기 근거리마이크(81)의 주파수 신호전력과 상기 원거리마이크(82)의 주파수 신호전력을 비교 분석하여 양 신호 전력의 비값을 연산하고 연산된 상기 양 신호 전력의 비값에 기초하여 상기 데이터베이스부(2)에 저장될 음성파일 유무를 판단하는 잡음제거부(83)를 포함하는 것을 특징으로 한다.
상기 근거리마이크(81)는 입력자의 입과 근접하여 위치하고, 상기 원거리마이크(82)는 상기 근거리마이크(81)에 비해서 입력자의 입에서 상대적으로 멀리 떨어져 위치하도록 한다.
상기 잡음제거부(83)에서는 우선 각각의 마이크(81, 82)로부터 입력되는 아날로그 신호를 아날로그-디지털 변환기(analog to digital converter)를 통해 디지털 신호로 변환토록 한다.
상기 잡음제거부(83)는 근거리마이크(81)의 주파수 신호 전력과 원거리마이크(82)의 주파수 신호 전력을 비교 분석하여 양 신호 전력의 비값을 연산하고, 연산된 상기 양 신호 전력의 비값에 기초하여 상기 데이터베이스부(2)에 저장될 음성파일 유무 즉 음성파일 외의 신호를 잡음으로 추정하고 이를 제거토록 하는 것이다.
이를 더욱 상세히 설명하면 상기 잡음제거부(83)는 디지털 신호형태로 입력된 상기 근거리마이크(81)의 음성신호와 상기 원거리마이크(82)의 음성신호에 대한 주파수 성분을 파악할 수 있도록 각각의 음성신호에 대하여 푸리에 변환을 실시한다.
이때, 상기 근거리마이크(81)의 입력 음성신호를 d(n), 상기 원거리마이크(82)의 입력 음성신호를 x(n)이라 하면, 상기 d(n)의 푸리에 변환에 의한 d(k)와 상기 x(n)의 푸리에 변환에 의한 x(k)은 하기의 수학식 1에 의해 도출된다.
Figure 112017120257335-pat00001
Figure 112017120257335-pat00002
여기서, 'N'은 푸리에 변환 시의 현재 샘플을 포함한 이전 소정기간 동안의 블록의 샘플 수로서 0≤n≤N-1, 0≤k≤N-1이다.
이후, 상기 잡음제거부(83)는 양 마이크(81, 82)의 주파수 신호전력을 연산하는 바, 상기 수학식 1에서 k번째의 주파수 성분 d(k) 및 x(k)의 주파수 신호 전력을 각각 D(k) 및 X(k)라 하면, 상기 D(k) 및 X(k)은 하기 수학식 2에 의해 도출된다.
Figure 112017120257335-pat00003
Figure 112017120257335-pat00004
이와 같이 2 개의 마이크(81, 82)가 근접하여 위치했을 때, 입력자의 입보다 상대적으로 멀리 떨어져 있는 잡음신호인 경우에는 각 마이크(81, 82)에 거의 비슷한 레벨의 신호전력으로 잡음신호가 입력된다.
반대로 입력자의 입과 가까이 있는 근거리마이크(81)에는 원거리마이크(82)보다 큰 레벨의 주파수 신호 전력으로 입력자의 목소리가 입력되는 것이다.
본 실시예에서는 이러한 현상을 이용하여 잡음구간을 추정하여 데이터베이스부(2)에 진성의 음성파일만이 데이터화 되어 TTS시스템의 구현효율을 높이도록 하는 것이다.
먼저, 본 발명의 일 실시예에 따른 잡음구간 추정방법을 설명하자면, 상기 수학식 2에서 도출된 D(k) 및 X(k)값에서 D(k)〈X(k)일 경우, 즉 원거리마이크(82)의 주파수 신호전력이 근거리마이크(81)의 주파수 신호전력보다 클 경우, l번째 프레임에서 두 마이크(81, 82)의 신호 전력 D(k), X(k)의 비값 A(l)는 하기 수학식 3에 의해 도출된다.
Figure 112017120257335-pat00005
여기서, N은 한 블록의 샘플수이며, l은 프레임 인덱스이다.
일반적으로 잡음은 입력자의 입보다 상대적으로 먼 거리에서 마이크로 입력되기 때문에 두 개의 마이크(81, 82)에 거의 비슷한 레벨의 주파수 신호전력이 입력될 수 있으며, 이때의 A(l)값은 거의 "1"에 가까워 지게 된다.
이에 따라, 본 실시예에 따른 잡음제거부(83)는 상기 수학식 3으로부터 도출된 D(k), X(k)의 비값 A(l)을 임계값과 비교 분석하여 잡음구간을 추정하는 것으로, l번째 프레임에서 A(l)〉Thr_A를 만족하는 경우 이를 잡음구간으로 추정할 수 있다. 여기서, 임계값 Thr_A는 0과 1 사이의 값이다.
상기 임계값 Thr_A는 반복적 실험 결과에서 얻어진 최적의 설정값으로, 본 발명이 이에 한정되는 것은 아니다.
다른 실시 예에 따른 잡음구간 추정방법으로는, 상술한 실시 예와 반대개념으로 상기 수학식 2에서 도출된 D(k) 및 X(k)값에서 D(k)〉X(k)일 경우, 즉 근거리마이크(81)의 주파수 신호전력이 원거리마이크(82)의 주파수 신호전력보다 클 경우, l번째 프레임에서 두 마이크(81, 82)의 전력신호 D(k), X(k)의 비값 B(l)는 하기 수학식 4를 통해 도출된다.
Figure 112017120257335-pat00006
여기서, N은 한 블록의 샘플수이며, l은 프레임 인덱스이다.
본 실시예의 경우, 입력자의 목소리가 원거리마이크(82)보다 근거리마이크(81)에 상대적으로 큰 레벨로 입력되기 때문에 이때의 B(l)은 "1" 이하의 값으로 앞서 실시예에서의 A(l)보다 작은 경향을 보여준다.
따라서, l번째 프레임에서의 B(l)은 B(l)〈Thr_B를 만족할 때 잡음구간으로 추정할 수 있다. 여기서 임계값 Thr_B는 0과 1 사이 값이다. 여기서, 상기 임계값 Thr_B 역시 반복적 실험 결과에서 얻어진 최적의 설정값으로, 본 발명이 이에 한정되는 것은 아니다.
상기 B(l)값은 음성활동이 없는 구간(Noise)에서는 큰 값을, 음성활동이 있는 구간에서는 상대적으로 작은 값은 나타내는 바, 음성활동이 없는 구간에서만 잡음 신호의 스펙트럼을 추출함으로써 잡음을 제거하도록 하는 것이다.
상술한 두 가지 실시예를 통해 잡음제거부(83)는 음성파일 구간과 잡음구간을 구분하게 되며, 잡음신호만을 추출 및 제거할 수 있게 되는 것이다.
한편, 본 발명의 바람직한 실시예에 따르면, 상기 잡음제거부(83)에 의해 잡음구간을 추정할 때 음성파일 구간을 보호하기 위하여 상기 수학식 3 및 수학식 4에서 도출된 A(l)과 B(l) 각각에 대하여 스무딩(smoothing)을 실시하도록 한다.
예를 들면, A(l)의 경우
i) A(l)≥A(l-1)일때, A(l)=α1*A(l)+(1-α1)*A(l-1)
ii) A(l)〈A(l-1)일때, A(l)=α2*A(l)+(1-α2)*A(l-1)
여기서, 0〈α1〈α2〈1 이다.
상기와 같이 스무딩하면 A(l)은 천천히 증가하고 빨리 감소하게 된다.
반대로 B(l)의 경우
i) B(l)〉B(l-1)일때, B(l)=β1*B(l)+(1-β1)*B(l-1)
ii) B(l)≤B(l-1)일때, B(l)=β2*B(l)+(1-β2)*B(l-1)
여기서, 1〉β1〉β2〉0 이다.
상기와 같이 스무딩하면 B(l)는 A(l)보다 상대적으로 빨리 증가하고 천천히 감소하게 된다.
여기서, 상기 스무딩 방식은 공지 기술 등을 통해 다양하게 실시될 수 있는 바, 상기 본 발명에서 제시하는 예에 한정되는 것은 아니다.
이후, 상기 잡음제거부(83)에서 양 신호 전력의 비값이 임계값과의 비교 분석을 통해 잡음구간으로 추정되지 않은 경우 음성활동이 있다고 판단하고 음성활동이 있음을 나타내는 신호를 출력한다. 즉 음성파일 구간으로 판단한다.
이러한 잡음구간으로 추정되는 신호와 음성파일 신호는 잡음제거부(83)에서 입력된 신호를 기초하여 각 마이크(81, 82)으로부터 입력되어 디지털로 변환된 신호에서 선택적으로 신호의 편집을 실시함으로써, 잡음을 제거하게 되는 것이다.
이와 같이 본 발명에서는 상기의 작동기작을 통해 데이터베이스부(2)에 입력될 수 있는 잡음을 제거토록 하는데 이러한 잡음은 각각 마이크(81, 82)로 입력자의 음성신호와 함께 실내의 컴퓨터 팬 소음, TV 소리와 같은 주변 잡음으로 유입되는 것으로 이러한 잡음은 상기 잡음제거부(83)의 작동기작에 의해 제거가 용이할 것으로 보이나 음성신호가 가구 등에 반사되어 형성되는 반사파인 경우 음성신호와 유사한 주파수를 가지고 있어 이를 상기 잡음제거부(83)에서 제거하는 것이 용이하지 않은 문제가 있다. 즉 반사파의 경우 잡음제거부(83)에서 잘못된 음성파일이 데이터화 될 수 있는 요인이 될 수 있다.
이에 본 발명에서는 2가지 실시 예를 제시하고 있는 바, 첫 번째 실시 예가 도 3에 도시되고 있다.
본 실시 예의 음성입력부(8)는 상기 근거리마이크(81) 및 상기 원거리마이크(82)가 노출되는 하우징(84)이 구성되고 상기 하우징(84) 내에 상기 잡음제거부(83)가 내재되며 상기 원거리마이크(82)는 상기 근거리마이크(81) 방향으로 복수의 유동공(851)이 형성되며 반대방향에는 폐면(852)을 형성하는 반사파차단커버(85)에 의해 커버된 형상으로 구성됨을 특징으로 한다.
상기 원거리마이크(82)가 상기 반사파차단커버(85)에 내재된 상태로 구성되는데 입력자는 근거리마이크(81)에 근접하여 음성신호를 발생시키는 바, 이러한 음성신호(S1)가 바로 원거리마이크(82)로 유입되는 경우는 상기 유동공(851)을 통해 유입되도록 하면서 음성신호에 대한 반사파의 경우 반사파차단커버(85)의 폐면(852)에 의해 상기 원거리마이크(82)로 반사파의 유입이 차단되도록 하는 것이다.
즉 근거리마이크(81)에는 원거리마이크(82)보다 큰 레벨의 주파수 신호 전력으로 입력자의 목소리가 입력되는데 반해 원거리마이크(82)는 작은 레벨의 주파수 신호 전력으로 입력자의 목소리가 입력되어 반사파의 영향으로 신호왜곡의 위험이 큰 바, 원거리마이크(82)에서 반사파가 유입되는 것을 차단토록 하는 것이다.
바람직하게는 반사파차단커버(85)는 다양한 공지의 흡음성재질을 사용하여 반사파가 반사파차단커버(85)에서 흡수되도록 하는 것이 타당하다.
두 번째 실시 예가 도 4에 도시되고 있다.
본 실시 예의 음성입력부(8)는 상기 근거리마이크(81) 및 상기 원거리마이크(82)가 노출되는 하우징(84)이 구성되고 상기 하우징(84)에 있어 상기 근거리마이크(81)에서 상기 원거리마이크(82)에는 요홈형상의 유도홈(86)이 형성되며 상기 원거리마이크(82)는 상기 유도홈(86)의 끝단 측벽에 형성되고 상기 원거리마이크(82)가 형성된 유도홈(86) 끝단부에는 반사파차단커버(87)가 형성되는 것을 특징으로 한다.
상기 원거리마이크(82)가 유도홈(86)과 상기 반사파차단커버(87)에 내재된 상태로 구성되는데 입력자는 근거리마이크(81)에 근접하여 음성신호를 발생시키는 바, 이러한 음성신호(S1)가 바로 원거리마이크(82)로 유입되는 경우는 유도홈(86)을 타고 유도홈(86)과 반사파차단커버(87)에 의해 형성되는 유로를 통해 유입되도록 하면서 음성신호에 대한 반사파(S2)의 경우 반사파차단커버(87)에 의해 상기 원거리마이크(82)로 반사파의 유입이 차단되도록 하는 것이다.
이 경우도 근거리마이크(81)에는 원거리마이크(82)보다 큰 레벨의 주파수 신호 전력으로 입력자의 목소리가 입력되는데 반해 원거리마이크(82)는 작은 레벨의 주파수 신호 전력으로 입력자의 목소리가 입력되어 반사파의 영향으로 신호왜곡의 위험이 큰 바, 원거리마이크(82)에서 반사파가 유입되는 것을 차단토록 하는 것이다.
본 실시 예의 경우도 반사파차단커버(87)는 다양한 공지의 흡음성재질을 사용하여 반사파가 반사파차단커버(87)에서 흡수되도록 하는 것이 타당하다.
이상 설명한 내용을 통해 당업자라면 본 발명의 기술사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정 가능함을 알 수 있을 것이다. 따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허청구범위에 의해 정해져야만 할 것이다.
1 : 본 발명 2 : 데이터베이스부
3 : 문자입력부 4 : 제어부
5 : TTS엔지 6 : 오디오처리부
7 : 스피커 8 : 음성입력부

Claims (4)

  1. 음성파일이 저장된 데이터베이스부;
    문자를 입력하는 문자입력부;
    상기 문자입력부에서 입력된 문자에 해당하는 음성파일을 상기 데이터베이스부로부터 추출하는 제어부;
    상기 제어부로부터 전달된 음성파일을 오디오웨이브데이터로 변환하는 TTS엔진;
    상기 TTS엔진에 연결되어 상기 TTS엔진에서 변환된 오디오웨이브데이터를 아날로그 음성신호로 변환하여 스피커로 전달하는 오디오처리부; 및
    상기 데이터베이스부에 음성파일이 입력되도록 하는 음성입력부;를 포함하며,
    상기 음성입력부는,
    입력자로부터 근거리에 위치하는 근거리마이크와, 입력자로부터 원거리에 위치하여 상기 근거리마이크보다 상대적으로 작은 레벨의 주파수 신호로 입력자의 목소리가 입력되는 원거리마이크와, 상기 근거리마이크 및 상기 원거리마이크로부터 입력되는 입력신호를 푸리에 변환을 통해 주파수 성분을 연산하고 각 마이크의 주파수 성분을 통해 주파수 신호 전력을 연산하며, 상기 근거리 마이크의 주파수 신호전력과 상기 원거리마이크의 주파수 신호전력을 비교 분석하여 양 신호 전력의 비값을 연산하고 연산된 상기 양 신호 전력의 비값에 기초하여 상기 데이터베이스부에 저장될 음성파일 유무를 판단하고 음성파일 외의 신를 잡음으로 추정하여 제거하는 잡음제거부를 포함하되,
    상기 잡음제거부는,
    상기 근거리마이크와 원거리마이크로부터 입력되는 아날로그 신호를 아날로그-디지털 변환기를 통해 디지털 신호로 변환하고, 상기 근거리마이크의 입력 음성신호를 d(n), 상기 원거리마이크의 입력 음성신호를 x(n)이라 하면, 상기 d(n)의 푸리에 변환에 의한 d(k)와 상기 x(n)의 푸리에 변환에 의한 x(k)은 하기의 수학식 1에 의해 도출되며,
    [수학식 1]
    Figure 112020008014885-pat00012

    Figure 112020008014885-pat00013

    ('N'은 푸리에 변환 시의 현재 샘플을 포함한 이전 소정기간 동안의 블록의 샘플 수로서 0≤n≤N-1, 0≤k≤N-1)
    상기 근거리마이크와 원거리마이크의 주파수 신호전력을 연산하는 바, 상기 수학식 1에서 k번째의 주파수 성분 d(k) 및 x(k)의 주파수 신호 전력을 각각 D(k) 및 X(k)라 하면, 상기 D(k) 및 X(k)은 하기 수학식 2에 의해 도출되고,
    [수학식 2]
    Figure 112020008014885-pat00014

    Figure 112020008014885-pat00015

    2 개의 마이크가 근접하여 위치했을 때 입력자의 입보다 상대적으로 떨어져 있는 잡음신호인 경우에는 각 마이크에 상호 근접한 레벨의 신호전력으로 잡음신호가 입력되고, 반대로 입력자의 입과 상대적으로 가까이 있는 근거리마이크에는 원거리마이크보다 큰 레벨의 주파수 신호전력으로 입력자의 목소리가 입력되며,
    상기 수학식 2에서 도출된 D(k) 및 X(k)값에서 D(k)〈X(k)일 경우, l번째 프레임에서 두 마이크의 신호 전력 D(k), X(k)의 비값 A(l)는 하기 수학식 3에 의해 도출되고,
    [수학식 3]
    Figure 112020008014885-pat00016

    (N은 한 블록의 샘플수이며, l은 프레임 인덱스)
    상기 수학식 3으로부터 도출된 D(k), X(k)의 비값 A(l)을 임계값 Thr_A(0과 1 사이의 값)과 비교 분석하여 l번째 프레임에서 A(l)〉Thr_A를 만족하는 경우 이를 잡음구간으로 추정하며,
    상기 수학식 2에서 도출된 D(k) 및 X(k)값에서 D(k)〉X(k)일 경우, l번째 프레임에서 두 마이크의 전력신호 D(k), X(k)의 비값 B(l)는 하기 수학식 4를 통해 도출되고,
    [수학식 4]
    Figure 112020008014885-pat00017

    (N은 한 블록의 샘플수이며, l은 프레임 인덱스)
    상기 수학식 4로부터 도출된 D(k), X(k)의 비값 B(l)을 임계값 Thr_B(0과 1 사이 값)과 비교 분석하여 l번째 프레임에서 비값 B(l)〈Thr_B를 만족하는 경우 이를 잡음구간으로 추정하며,
    상기 잡음제거부에 의해 잡음구간을 추정할 때 음성파일 구간을 보호하기 위하여 상기 수학식 3 및 수학식 4에서 도출된 A(l)과 B(l) 각각에 대하여 아래의 식을 통해 스무딩(smoothing)을 실시하고,
    A(l)≥A(l-1)일때, A(l)=α1*A(l)+(1-α1)*A(l-1)
    A(l)〈A(l-1)일때, A(l)=α2*A(l)+(1-α2)*A(l-1)
    (0〈α1〈α2〈1)
    B(l)〉B(l-1)일때, B(l)=β1*B(l)+(1-β1)*B(l-1)
    B(l)≤B(l-1)일때, B(l)=β2*B(l)+(1-β2)*B(l-1)
    (1〉β1〉β2〉0)
    상기 음성입력부에는 상기 근거리마이크 및 상기 원거리마이크가 노출되는 하우징이 구성되고 상기 하우징에 있어 상기 근거리마이크에서 상기 원거리마이크에는 요홈형상의 유도홈이 형성되며 상기 원거리마이크는 상기 유도홈의 끝단 측벽에 형성되고 상기 원거리마이크가 형성된 유도홈 끝단부에는 반사파차단커버가 형성되어 상기 원거리마이크가 유도홈과 상기 반사파차단커버에 내재된 상태로 구성되며, 입력자가 근거리마이크에 근접하여 음성신호를 발생시켜 상기 음성신호가 원거리마이크로 유입되는 경우 상기 유도홈을 타고 유도홈과 반사파차단커버에 의해 형성되는 유로를 통해 유입되도록 하면서 음성신호에 대한 반사파가 상기 반사파차단커버에 의해 상기 원거리마이크로 반사파의 유입이 차단되는 것을 특징으로 하는 문자 음성변환 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
KR1020170164122A 2017-12-01 2017-12-01 문자 음성변환 시스템 KR102148245B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170164122A KR102148245B1 (ko) 2017-12-01 2017-12-01 문자 음성변환 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170164122A KR102148245B1 (ko) 2017-12-01 2017-12-01 문자 음성변환 시스템

Publications (2)

Publication Number Publication Date
KR20190064853A KR20190064853A (ko) 2019-06-11
KR102148245B1 true KR102148245B1 (ko) 2020-08-26

Family

ID=66847104

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170164122A KR102148245B1 (ko) 2017-12-01 2017-12-01 문자 음성변환 시스템

Country Status (1)

Country Link
KR (1) KR102148245B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100904300B1 (ko) * 2008-12-12 2009-06-25 씨아이씨라이프(주) 음성합성엔진(tts)을 이용한 자동 안내 방송 장치 및 자동 안내 방송 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100565462B1 (ko) * 2003-12-03 2006-03-29 주식회사 비에스이 지향성 콘덴서 마이크로폰용 홀더 키트
JP2008512888A (ja) * 2004-09-07 2008-04-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 改善した雑音抑圧を有する電話装置
JP4328347B2 (ja) * 2006-11-10 2009-09-09 ホシデン株式会社 マイクロホン及びその実装構造
KR101180783B1 (ko) 2009-12-11 2012-09-07 전자부품연구원 Tts 기술을 이용한 사용자 맞춤형 방송 서비스 방법
KR20160026317A (ko) * 2014-08-29 2016-03-09 삼성전자주식회사 음성 녹음 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100904300B1 (ko) * 2008-12-12 2009-06-25 씨아이씨라이프(주) 음성합성엔진(tts)을 이용한 자동 안내 방송 장치 및 자동 안내 방송 방법

Also Published As

Publication number Publication date
KR20190064853A (ko) 2019-06-11

Similar Documents

Publication Publication Date Title
US8442833B2 (en) Speech processing with source location estimation using signals from two or more microphones
US7072834B2 (en) Adapting to adverse acoustic environment in speech processing using playback training data
US7613611B2 (en) Method and apparatus for vocal-cord signal recognition
KR100547533B1 (ko) 음성 인식 장치 및 음성 인식 방법
CN111161752A (zh) 回声消除方法和装置
JP2021503633A (ja) 音声ノイズ軽減方法、装置、サーバー及び記憶媒体
JP2018156044A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JPH11126090A (ja) 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
US8200488B2 (en) Method for processing speech using absolute loudness
CN110570853A (zh) 基于语音数据的意图识别方法和装置
JP2004347761A (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
US8209167B2 (en) Mobile radio terminal, speech conversion method and program for the same
CN111883135A (zh) 语音转写方法、装置和电子设备
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
KR20210000802A (ko) 인공지능 음성 인식 처리 방법 및 시스템
US11862141B2 (en) Signal processing device and signal processing method
KR102148245B1 (ko) 문자 음성변환 시스템
KR102330345B1 (ko) Pu 적용 cts 컨바인 시스템
JP3555490B2 (ja) 声質変換システム
KR20200116617A (ko) 주변의 환경에 기초하여 오디오의 전처리 방법을 결정하는 방법 및 장치
KR101361034B1 (ko) 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
JP2003163951A (ja) 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
Kaur et al. Power-Normalized Cepstral Coefficients (PNCC) for Punjabi automatic speech recognition using phone based modelling in HTK
KR20180087038A (ko) 화자 특성을 고려하는 음성합성 기능의 보청기 및 그 보청 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant