KR101836430B1 - 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 - Google Patents
음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 Download PDFInfo
- Publication number
- KR101836430B1 KR101836430B1 KR1020170099839A KR20170099839A KR101836430B1 KR 101836430 B1 KR101836430 B1 KR 101836430B1 KR 1020170099839 A KR1020170099839 A KR 1020170099839A KR 20170099839 A KR20170099839 A KR 20170099839A KR 101836430 B1 KR101836430 B1 KR 101836430B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- noise
- language
- dialect
- tone color
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000001965 increasing effect Effects 0.000 abstract description 5
- 230000002159 abnormal effect Effects 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013075 data extraction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G06F17/289—
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
음성 인식 방법과 그를 위한 단말 장치 및 서버가 개시된다. 이를 위한 본 실시 예들은 음성이 사투리가 섞인 발성 음성에 해당되면, 인식된 사투리 음성이 갖고 있는 음색 노이즈를 제거하고, 음색 노이즈가 제거된 사투리 언어 데이터를 자국의 표준 언어 데이터로 변환하며, 변환된 표준 언어 데이터를 번역기를 통해 소정의 타국어로 번역하고, 번역된 타국어를 출력 인터페이스를 통해 표시 화면에 표시하거나 음성 형태로 출력하는 메카니즘을 제공한다.
이에, 본 발명의 실시 예들은 표준 언어에 비해 사투리와 같은 비정상적인 음성에 대해 음색과 음소와 관련한 노이즈를 제거함으로써, 사투리에 대한 음성 인식률을 높이는 효과가 있다.
이에, 본 발명의 실시 예들은 표준 언어에 비해 사투리와 같은 비정상적인 음성에 대해 음색과 음소와 관련한 노이즈를 제거함으로써, 사투리에 대한 음성 인식률을 높이는 효과가 있다.
Description
본 발명의 실시 예들은 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버에 관한 것으로서, 더욱 상세하게는 음성 인식률을 높여 번역하기 위한 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버에 관한 것이다.
최근에는 온라인 상에서 자국의 언어를 타국의 언어로 음성 번역이 활성되고 있다. 그러나, 언어가 갖고 있는 속성이 달라 어려움이 따른다. 특히, 한국어, 중국어와 같이 각국의 언어마다 가지고 있는 사투리 음성을 타국의 언어로 번역하기란 더욱 어렵다.
예를 들면, 한국어인 경우, 전라도, 경상도, 강원도 및 제주도마다 가지고 있는 고유의 사투리 음색과 음소가 표준 한국어의 음색과 음소에 비하여 큰 차이를 보이고 있기 때문에, 사투리 음성을 제대로된 표준 한국어로 음성 인식하는 것이 쉽지 않다.
본 발명의 실시 예들은 사투리가 섞인 발성 음성에 대해 음성 인식률을 높여 번역하기 위한 음성 인식 및 번역 방법과 그를 위한 단말 장치 및 서버를 제공하는데 그 목적이 있다.
전술한 문제점을 해결 하기 위한, 본 발명의 실시 예들은 단말 장치에서 사투리가 섞인 음성을 인식하여 번역하기 위한 방법으로서, (a) 발성된 음성을 입력 인터페이스를 통해 인식하는 단계; (b) 상기 인식된 음성이 사투리가 섞인 발성 음성에 해당되면, 상기 인식된 사투리 음성이 갖고 있는 음색 노이즈를 제거하는 단계; (c) 상기 음색 노이즈가 제거된 사투리 언어 데이터를 자국의 표준 언어 데이터로 변환하는 단계; (d) 상기 변환된 표준 언어 데이터를 번역기를 통해 소정의 타국어로 번역하는 단계; 및 (e) 상기 번역된 타국어를 출력 인터페이스를 통해 표시 화면에 표시하거나 음성 형태로 출력하는 단계를 포함하는 음성 인식과 번역 방법을 제공한다.
일 실시 예에서, 상기 (b) 단계는 상기 사투리 음성이 갖고 있는 제1 음색 수치가 상기 표준 음성이 갖고 있는 제2 음색 수치를 비교한 언어 식별 정확도에 근거하여 상기 음색 노이즈를 제거할 수 있다.
일 실시 예에서, 상기 (b) 단계는 상기 음색 노이즈가 제거된 발성 음성에 대해 음소 노이즈를 더 제거하는 단계를 더 포함하고, 상기 (c) 단계는 상기 음색 노이즈 및 상기 음소 노이즈를 제거한 상기 사투리 언어 데이터를 상기 자국의 표준 언어 데이터로 더 변환할 수 있다.
일 실시 예에서, 상기 (b) 단계는 상기 사투리가 섞인 언어 데이터를 정량화하여 지방별 음소 노이즈 데이터를 저장시키는 단계; 상기 음색 노이즈가 제거된 발성 음성으로부터 복수의 음소 특징 요소를 추출하는 단계; 및 상기 저장된 음소 노이즈 데이터에 근거하여 상기 복수의 음소 특징 요소에 포함된 상기 음소 노이즈를 제거하는 단계를 포함할 수 있다.
일 실시 예에서, 상기 음성 인식과 번역 방법은 (f) 상기 음성이 사투리가 섞인 발성 음성에 해당되지 않으면, 상기 언어 데이터로부터 해당 표준 언어 데이터를 추출하는 단계를 더 포함하고, 상기 (d) 단계는 상기 추출된 표준 언어 데이터를 번역기를 통해 상기 소정의 타국어로 번역할 수 있다.
일 실시 예에서, 상기 사투리 언어 데이터는 지방별 사투리 속성에 기반하여 구축될 수 있다.
한편, 전술한 문제점을 해결 하기 위한, 다른 실시 예는 발성한 음성을 입력받는 입력 인터페이스; 사투리 언어 데이터를 포함한 언어 데이터를 저장하는 저장부; 이하의 제어기의 명령에 대응하여 해당하는 데이터를 출력하는 출력 인터페이스; 및 상기 입력 인터페이스와 상기 저장부 및 상기 출력 인터페이스를 제어하는 제어기를 포함하는 단말 장치를 제공하고, 상기 제어기는 상기 입력 인터페이스를 통해 상기 발성한 음성을 인식하는 음성 인식부; 상기 인식된 음성이 사투리가 섞인 발성 음성에 해당되면, 상기 인식된 사투리 음성이 갖고 있는 음색 노이즈를 제거하는 노이즈 제거부; 상기 음색 노이즈가 제거된 사투리 언어 데이터를 자국의 표준 언어 데이터로 변환하는 표준 언어 변환부; 상기 변환된 표준 언어 데이터를 번역 알고리즘을 통해 소정의 타국어로 번역하는 타국어 번역부; 및 상기 번역된 타국어를 출력 인터페이스를 통해 표시 화면에 표시하거나 음성 형태로 출력시키는 출력부를 포함하는 것을 특징으로 한다.
다른 실시 예에서, 상기 노이즈 제거부는 상기 사투리 음성이 갖고 있는 제1 음색 수치가 상기 표준 음성이 갖고 있는 제2 음색 수치를 비교한 언어 식별 정확도에 근거하여 상기 음색 노이즈를 제거할 수 있다.
다른 실시 예에서, 상기 노이즈 제거부는 상기 음색 노이즈가 제거된 발성 음성에 대해 음소 노이즈를 더 제거하고, 상기 표준 언어 변환부는 상기 음색 노이즈 및 상기 음소 노이즈를 제거한 상기 사투리 언어 데이터를 상기 자국의 표준 언어 데이터로 더 변환할 수 있다.
다른 실시 예에서, 상기 단말 장치는 상기 음성이 사투리가 섞인 발성 음성에 해당되지 않으면, 상기 언어 데이터로부터 해당 표준 언어 데이터를 추출하는 표준 데이터 추출부를 더 포함하고, 상기 타국어 번역부는 상기 추출된 표준 언어 데이터를 번역기를 통해 상기 소정의 타국어로 번역할 수 있다.
다른 실시 예에서, 상기 노이즈 제거부는 상기 사투리가 섞인 언어 데이터를 정량화하여 지방별 음소 노이즈 데이터를 상기 저장 장치에 저장시키고, 상기 음색 노이즈가 제거된 발성 음성으로부터 복수의 음소 특징 요소를 추출하며, 상기 저장 장치에 저장된 음소 노이즈 데이터에 근거하여 상기 복수의 음소 특징 요소에 포함된 상기 음소 노이즈를 제거할 수 있다.
한편, 전술한 문제점을 해결 하기 위한, 또 다른 실시 예는 단말 장치에서 전송된 사용자의 발성 음성을 통신 네트워크를 통해 수신하는 데이터 수신부; 상기 수신된 음성이 사투리가 섞인 발성 음성에 해당되면, 상기 인식된 사투리 음성이 갖고 있는 음색 노이즈와 음소 노이즈를 제거하는 노이즈 제거부; 상기 음색 노이즈 및 음소 노이즈가 제거된 사투리 언어 데이터를 자국의 표준 언어 데이터로 변환하는 표준 언어 변환부; 상기 변환된 표준 언어 데이터를 번역 알고리즘을 통해 소정의 타국어로 번역하는 타국어 번역부; 및 상기 번역된 타국어를 음성 형태 또는 표시 데이터 형태로 상기 통신 네트워크를 통해 상기 단말 장치에 전송하는 데이터 전송부를 포함하는 서버를 제공한다.
또 다른 실시 예에서, 상기 노이즈 제거부는 상기 사투리 음성이 갖고 있는 제1 음색 수치가 상기 표준 음성이 갖고 있는 제2 음색 수치를 비교한 언어 식별 정확도에 근거하여 상기 음색 노이즈를 제거할 수 있다.
또 다른 실시 예에서, 상기 노이즈 제거부는 상기 사투리가 섞인 발성 음성을 정량화하여 지방별 음소 노이즈 데이터를 상기 데이터베이스에 저장시키는 저장 제어부; 상기 음색 노이즈가 제거된 발성 음성으로부터 복수의 음소 특징 요소를 추출하는 특징 요소 추출부; 및 상기 데이터베이스에 저장된 음소 노이즈 데이터에 근거하여 상기 복수의 음소 특징 요소에 포함된 상기 음소 노이즈를 제거하는 음소 노이즈 제거부를 포함할 수 있다.
이상과 같이, 본 발명의 실시 예들은 표준 언어에 비해 사투리와 같은 비정상적인 음성에 대해 음색과 음소와 관련한 노이즈를 제거함으로써, 사투리에 대한 음성 인식률을 높이는 효과가 있다.
또한, 본 발명의 실시 예들은 사투리가 섞인 음성을 보다 정확히 인식하여 타국어로 변역 가능한 효과가 있다.
이하에 첨부되는 도면들은 본 발명의 이해를 돕기 위한 것으로, 상세한 설명과 함께 실시 예들을 제공한다. 다만, 본 발명의 기술적 특징이 특정 도면에 한정되는 것은 아니며, 각 도면에서 개시하는 특징들은 서로 조합되어 새로운 실시 예로 구성될 수 있다.
이하에 첨부되는 도면들은 본 발명의 이해를 돕기 위한 것으로, 상세한 설명과 함께 실시 예들을 제공한다. 다만, 본 발명의 기술적 특징이 특정 도면에 한정되는 것은 아니며, 각 도면에서 개시하는 특징들은 서로 조합되어 새로운 실시 예로 구성될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 음성 인식과 번역 방법을 예시적으로 나타낸 순서도이다.
도 2는 본 발명에 따른 도 1의 음성 인식과 번역 방법의 120 단계를 보다 구체적으로 나타낸 순서도이다.
도 3은 본 발명에 따른 도 1 및 도 2의 음성 인식과 번역 방법을 실현하는 시스템 구성도이다.
도 4는 본 발명의 다른 실시 예에 따른 단말 장치를 예시적으로 나타낸 블럭 구성도이다.
도 5는 본 발명의 일 실시 예에 따른 서버를 예시적으로 나타낸 블럭 구성도이다.
도 1은 본 발명의 일 실시 예에 따른 음성 인식과 번역 방법을 예시적으로 나타낸 순서도이다.
도 2는 본 발명에 따른 도 1의 음성 인식과 번역 방법의 120 단계를 보다 구체적으로 나타낸 순서도이다.
도 3은 본 발명에 따른 도 1 및 도 2의 음성 인식과 번역 방법을 실현하는 시스템 구성도이다.
도 4는 본 발명의 다른 실시 예에 따른 단말 장치를 예시적으로 나타낸 블럭 구성도이다.
도 5는 본 발명의 일 실시 예에 따른 서버를 예시적으로 나타낸 블럭 구성도이다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시 예들에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시 예들에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 본 실시 예들은 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시 예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
한편, 이하의 실시 예들 및 특허 청구 범위에서 개시되는 용어들은 단지 특정한 일례를 설명하기 위하여 사용된 것이지 이들로부터 제한되는 것은 아니다.
예를 들면, 이하의 실시 예들 및 특허 청구 범위에서 개시되는 '및/또는'은 열거되는 관련 항목들 중 하나 이상의 항목에 대한 임의의 및 모든 가능한 조합들을 포함하는 것으로 이해되어야 한다.
또한, 이하의 실시 예들 및 특허 청구 범위에서 개시되는 '포함하다' 또는 '이루어지다' 등의 용어 들은, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재될 수 있음을 의미하는 것으로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함하는 것으로 이해되어야 한다.
또한, 이하의 실시 예들 및 특허청구범위에서 개시되는 단수 표현인 '상기'는 아래위 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현도 포함하는 것으로 이해될 수 있다.
또한, 이하의 실시 예들 및 특허청구범위에서 개시되는 "제1"과 "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
이를 토대로, 이하의 실시 예들 및 특허 청구 범위에서 개시되는 음성 인식 및 번역 방법과 그의 장치들에 대해 해당 도면을 참조하여 보다 구체적으로 설명하고자 한다.
<음성 인식/번역 방법의 실시 예>
도 1은 본 발명의 일 실시 예에 따른 음성 인식과 번역 방법을 예시적으로 나타낸 순서도이고, 도 2는 본 발명에 따른 도 1의 음성 인식과 번역 방법의 120 단계를 보다 구체적으로 나타낸 순서도이며, 도 3은 본 발명에 따른 도 1 및 도 2의 음성 인식과 번역 방법을 실현하는 시스템 구성도이다.
도 2 및 도 3은 도 1를 설명할 때 보조적으로 인용하기로 한다.
도 1를 참조하면, 일 실시 예에 따른 음성 인식과 번역 방법은 단말 장치에서 수행되는 110 단계 내지 150 단계를 포함한다.
상기 단말 장치는 도 3에서와 같이 통신 네트워크를 통해 서버에 연결될 수 있으며, 통신 네트워크의 양태에 따라 예컨대, 이동 단말기, 무선 단말기, 와이브로 단말기 또는 유선 단말기일 수 있다. 상기 유선 단말기는 개인용 컴퓨터일 수 있다.
이러한 단말 장치는 도 1의 110 단계 내지 150 단계를 실질적으로 실현하는 제어기 및 상기 제어기에 의해 제어되는 입력 인터페이스, 출력 인터페이스 및 메모리를 포함할 수 있다.
일 실시 예에서, 서버는 사투리 언어 데이터 및 표준 언어 데이터를 포함한 언어 데이터를 데이터베이스에 저장하고, 전술한 단말 장치의 요청에 대응하여 해당 데이터를 추출하여 단말 장치로 제공할 수 있다.
이하에서는, 도 2의 단말 장치의 제어기에 의해 처리되는 도 1의 각 단계는 다음과 같다.
먼저, 110 단계에서, 단말 장치의 제어기는 임의의 사람이 발성한 음성을 입력 인터페이스를 통해 인식할 수 있다.
상기 입력 인터페이스는 발성된 음성을 제어기로 전달하기 까지의 입력 수단으로서, 예컨대, 마이크와 같은 입력 수단을 통해 입력된 음성을 제어기로 전달함으로써, 제어기는 입력 수단을 통해 입력된 발성 음성을 인식할 수 있게 된다. 그러나, 전술한 입력 인터페이스에 한정되는 것은 아니다.
120 단계에서, 단말 장치의 제어기는 전술한 110 단계에 의해 인식된 음성이 사투리가 섞인 음성 인지를 판단할 수 있다.
예를 들면, 단말 장치의 제어기는 전술한 110 단계에 의해 인식된 음성이 사투리가 섞인 발성 음성에 해당되면, 인식된 사투리 음성이 갖고 있는 음색 노이즈를 제거할 수 있다.
통상, 사투리 음색은 표준어로 발음된 음성의 음색과 다른 형태의 음색으로 인해 음성 인식이 매우 어렵다. 특히, 예컨대, 억양이 강한 전라도의 음성인 경우 더욱더 사투리 음성의 음색이 표준어로 발음된 음성의 음색에 비하여 높낮이가 매우 커 음성 인식이 어렵다.
이러한 사투리 음성만이 갖고 있는 사투리 음색을 제거하기 위하여, 본 실시 예에 따른 단말 장치의 제어기는 해당 표준어 음성의 음색보다 큰 사투리 음성이 갖고 있는 음색 노이즈를 제거할 수 있다.
예를 들면, A 표준어 음성이 30의 음색 크기를 가질 경우, 상기 A 표준어 음성에 해당하는 사투리 음성의 음색 크기가 40일 경우, 단말 장치의 제어기는 해당하는 사투리 음성에 대해 -10만큼의 음색 크기를 제거할 수 있다.
게다가, 120 단계에서, 단말 장치의 제어기는 사투리 음성이 갖고 있는 제1 음색 수치가 표준 음성이 갖고 있는 제2 음색 수치를 비교한 언어 식별 정확도에 근거하여 해당 표준어 음성의 음색보다 큰 사투리 음성이 갖고 있는 음색 노이즈를 제거할 수 있다.
언급된 제1 음색 수치는 해당 사투리 언어가 갖는 정해진 음색의 높낮이 크기를 가리키며, 제2 음색 수치는 사투리 언어에 매칭된 표준 언어가 갖는 정해진 음색의 높낮이 크기를 가리킬 수 있다. 따라서, 언어 식별 정확도는 각 단어 또는 문장마다 제1 음색 수치가 제2 음색 수치에 비하여 얼마나 큰가에 따라 결정될 수 있다.
이에 따라, 단말 장치의 제어기는 전술한 언어 식별 정확도에 근거하여 해당하는 사투리 음성에 포함된 음색 노이즈를 제거함으로써, 해당 사투리 음성 인식률을 높일 수 있다.
더욱이, 120 단계에서, 단말 장치의 제어기는 전술한 바와 같이 인식된 음성이 사투리가 섞인 발성 음성에 해당되고, 전술한 바와 같이 음색 노이즈가 제거되면, 음색 노이즈가 제거된 발성 음성에 대해 음소 노이즈를 더 제거할 수 있다.
통상, 사투리 음성에는 예컨대, 'ㅆ', 'ㅃ'와 같이 쌍자음 발음이 많이 포함되어 있기 때문에, 이런 쌍자음 발음과 관련한 음소 노이즈로 인해, 해당 사투리 음성을 제대로 인식할 수 없었다.
이런 음소 노이즈를 제거하기 위하여, 단말 장치의 제어기는 도 2에서와 같이 121 단계 내지 123 단계를 더 포함할 수 있다.
121 단계에서, 단말 장치의 제어기는 사투리가 섞인 언어 데이터를 정량화하여 지방별 음소 노이즈 데이터를 메모리에 저장시킬 수 있다. 이때, 음소 노이즈 데이터는 통신 네트워크로 연결된 서버로부터 제공받을 수 있음은 물론이다.
122 단계에서, 단말 장치의 제어기는 음색 노이즈가 제거된 발성 음성 또는 전술한 110 단계에 의해 인식된 발성 음성으로부터 복수의 음소 특징 요소를 추출할 수 있다.
예를 들면, 단말 장치의 제어기는 음색 노이즈가 제거된 발성 음성으로부터 예컨대, 'ㅆ', 'ㅃ'와 같이 쌍자음 발음과 관련한 복수의 음소 특징 요소를 추출할 수 있다.
123 단계에서, 단말 장치의 제어기는 메모리에 저장된 음소 노이즈 데이터에 근거하여 복수의 음소 특징 요소에 포함된 음소 노이즈를 제거함으로써, 사투리 음성 인식률을 높일 수 있다.
다른 기법으로서, 일 실시 예에 따른 단말 장치의 제어기는 전술한 지방별 음소 노이즈 데이터를 생성하지 않고 하기의 수학식 1에 도시된 E(v,h)의 에너지 확률 기반 잡음 패턴을 이용하여 복수의 음소 특징 요소에 포함된 음소 노이즈를 제거할 수도 있다.
여기서, v는 입력 정보이고, h는 출력 정보이며, w는 적용치로서 하기의 수학식 2을 이용하여 계산될 수 있다.
이때, η은 음소 노이즈의 크기 rate이고, t는 시간이며, △w는 음소 노이즈의 적용치 변화이며, 상기 적용치 변화는 하기의 수학식 2를 이용하여 산출될 수 있다.
이때, 상기 적용치 변화는 음소 노이즈의 크기 에너지 차이를 줄이는 알고리즘이며, ε은 적용치 확률(∂w)과 에너지 확률(∂E)에서 기대값을 의미할 수 있다.
이와 같이, 단말 장치의 제어기는 전술한 수학식 1 내지 3을 이용하여 음소 노이즈의 잡음 패턴을 구하고, 상기 음소 노이즈의 잡음 패턴에 기초하여 복수의 음소 특징 요소에 포함된 음소 노이즈를 제거함으로써, 사투리 음성 인식률을 높일 수 있다.
한편, 120 단계에서, 단말 장치의 제어기는 전술한 110 단계에 의해 인식된 음성이 사투리가 섞인 음성에 해당되지 않으면, 메모리에 저장된 언어 데이터로부터 해당 표준 언어 데이터를 추출할 수 있다.
130 단계에서, 단말 장치의 제어기는 전술한 120 단계에 의해 음색 노이즈 또는 음색 노이즈/음소 노이즈가 제거되면, 사투리가 포함된 발성 음성에 대해 보다 정확한 사투리 언어 데이터를 메모리에 저장된 언어 데이터로부터 찾아낼 수 있고, 정확히 찾아진 사투리 언어 데이터를 자국의 표준 언어 데이터로 변환시킬 수 있게 된다.
언급된 사투리 언어 데이터는 지방별 사투리 속성에 기반하여 구축된 데이터일 수 있다. 따라서, 언어 데이터는 표준 언어와 상기 표준 언어에 매칭된 사투리 언어 데이터를 포함할 수 있으며, 이 데이터는 메모리에 미리 저장될 수 있다. 상기 메모리는 랜덤 액세스 메모리("RAM"), 판독 전용 메모리("ROM"), 자기 또는 광학 디스크 등의 정적 저장 디바이스, 또는 임의의 기타 타입의 컴퓨터 판독 가능한 매체로 이루어질 수 있다.
140 단계에서, 단말 장치의 제어기는 전술한 130 단계에 의해 변환된 표준 언어 데이터를 번역 알고리즘이 적용된 번역기를 통해 소정의 타국어로 번역할 수 있다.
아울러, 140 단계에서, 단말 장치의 제어기는 발성 음성이 사투리가 섞인 음성에 해당되지 않을 경우에 메모리에 저장된 언어 데이터로부터 해당 표준 언어 데이터를 추출할 수 있고, 추출된 해당 표준 언어 데이터를 번역기를 통해 소정의 타국어로 더 번역할 수 있다.
마지막으로, 150 단계에서, 단말 장치의 제어기는 전술한 140 단계에 의해 번역된 타국어를 출력 인터페이스를 통해 표시 화면에 표시하거나 음성 형태로 출력시킬 수 있다. 언급된 음성 출력은 스피커일 수 있으며, 표시 화면은 터치 화면일 수 있다.
이와 같이, 본 실시 예에서는 각 지방마다 각기 다른 사투리 음성이라도 음색 노이즈 및/또는 음소 노이즈를 제거함으로써, 보다 정확한 사투리 언어 데이터를 선별함으로써, 사투리 음성 인식률을 높일 수 있고, 선별된 사투리 언어 데이터에 맞는 표준 언어를 찾아 타국어로 번역함으로써, 사투리 음성이라도 보다 정확하게 번역이 이루어지는 장점을 줄 수 있다.
한편, 단말 장치의 제어기는 통신 네트워크에 연결된 서버로부터 사투리 언어 데이터 및 표준 언어 데이터를 포함한 언어 데이터를 각 단계의 필요에 따라 서버로부터 수신하여 메모리에 저장할 수도 있다.
<단말 장치의 실시 예>
도 4는 본 발명의 다른 실시 예에 따른 단말 장치를 예시적으로 나타낸 블럭 구성도이다.
도 4를 참조하면, 일 실시 예에 따른 단말 장치(200)는 입력 인터페이스(210), 저장부(220), 출력 인터페이스(230) 및 제어기(240)를 포함할 수 있다.
먼저, 일 실시 예에 따른 입력 인터페이스(210)는 사람이 발성한 음성을 입력받아 이후에 설명할 제어기(240)로 전달하는 역할을 한다. 이러한 입력 인터페이스(210)는 마이크와 상기 마이크에 의해 인식된 음성 신호를 제어기(240)로 전달하는 입력 신호 인터페이스를 포함할 수 있다.
다음으로, 저장부(220)는 탈부착이 가능한 저장장치일 수 있거나, 고정된 메모리일 수 있다. 상기 저장부(220)가 메모리인 경우, 상기 메모리는 제어기(240)에 포함될 수도 있다. 이외에도 상기 저장부(220)는 탈부착이 가능한 저장 매체일 수도 있다.
이러한 저장부(220)는 전술한 입력 인터페이스를 통해 처리된 데이터를 저장하며, 이후에 설명할 제어기(240) 및 출력 인터페이스(230)에 의해 처리된 데이터를 저장하는 역할을 하며, 언어 번역시 필요한 표준 언어와 사투리 언어를 포함한 언어 데이터를 더 저장할 수도 있다.
이때, 저장부(220)에 저장된 해당 언어 데이터는 통신 네트워크를 통해 서버로부터 전송받은 데이터일 수 있다.
다음으로, 출력 인터페이스(230)는 제어기(240)와 표시 화면 또는 스피커간 주고받는 신호 인터페이스를 지원하는 역할을 한다.
다음으로, 제어기(240)는 명령어들의 세트를 해석하고 실행하는 적어도 하나의 보편적인 프로세서 또는 마이크로프로세서를 포함할 수 있다. 프로세서에 의해 실행될 명령어 및 정보를 저장하기 위한 메모리를 더 포함할 수 있다.
이러한 제어기(240)는 전술한 입력 인터페이스(210), 저장부(220) 및 출력 인터페이스(230)를 제어하여 사투리가 섞인 발성 음성에 대해 번역 오류를 줄이기 위하여, 음성 인식부(241), 노이즈 제거부(242), 표준 데이터 추출부(243), 표준 언어 변환부(244), 타국어 번역부(245) 및 출력부(246)를 포함할 수 있다.
먼저, 일 실시 예에서, 음성 인식부(241)는 임의의 사람이 발성한 음성을 입력 인터페이스(210)를 통해 인식할 수 있다.
상기 입력 인터페이스는 발성된 음성을 제어기로 전달하기 까지의 입력 수단으로서, 예컨대, 마이크와 같은 입력 수단을 통해 입력된 음성을 제어기로 전달함으로써, 제어기는 입력 수단을 통해 입력된 발성 음성을 인식할 수 있게 된다. 그러나, 전술한 입력 인터페이스에 한정되는 것은 아니다.
일 실시 예에서, 노이즈 제거부(242)는 전술한 음성 인식부(241)에 의해 인식된 음성이 사투리가 섞인 음성 인지를 판단할 수 있다.
예를 들면, 노이즈 제거부(242)는 음성 인식부(241)에 의해 인식된 음성이 사투리가 섞인 발성 음성에 해당되면, 인식된 사투리 음성이 갖고 있는 음색 노이즈를 제거할 수 있다.
통상, 사투리 음색은 표준어로 발음된 음성의 음색과 다른 형태의 음색으로 인해 음성 인식이 매우 어렵다. 특히, 예컨대, 억양이 강한 전라도의 음성인 경우 더욱더 사투리 음성의 음색이 표준어로 발음된 음성의 음색에 비하여 높낮이가 매우 커 음성 인식이 어렵다.
이러한 사투리 음성만이 갖고 있는 사투리 음색을 제거하기 위하여, 본 실시 예에 따른 노이즈 제거부(242)는 해당 표준어 음성의 음색보다 큰 사투리 음성이 갖고 있는 음색 노이즈를 제거할 수 있다.
예를 들면, 노이즈 제거부(242)는 A 표준어 음성이 30의 음색 크기를 가지고, 상기 A 표준어 음성에 해당하는 사투리 음성의 음색 크기가 40을 가질 경우, 해당하는 사투리 음성에 대해 -10만큼의 음색 크기를 제거할 수 있다.
게다가, 노이즈 제거부(242)는 사투리 음성이 갖고 있는 제1 음색 수치가 표준 음성이 갖고 있는 제2 음색 수치를 비교한 언어 식별 정확도에 근거하여 해당 표준어 음성의 음색보다 큰 사투리 음성이 갖고 있는 음색 노이즈를 제거할 수도 있다.
언급된 제1 음색 수치는 해당 사투리 언어가 갖는 정해진 음색의 높낮이 크기를 가리키며, 제2 음색 수치는 사투리 언어에 매칭된 표준 언어가 갖는 정해진 음색의 높낮이 크기를 가리킬 수 있다. 따라서, 언어 식별 정확도는 각 단어 또는 문장마다 제1 음색 수치가 제2 음색 수치에 비하여 얼마나 큰가에 따라 결정될 수 있다.
이에 따라, 일 실시 예에 따른 노이즈 제거부(242)는 전술한 언어 식별 정확도에 근거하여 해당하는 사투리 음성에 포함된 음색 노이즈를 제거함으로써, 해당 사투리 음성 인식률을 높일 수 있다.
더욱이, 노이즈 제거부(242)는 인식된 음성이 사투리가 섞인 발성 음성에 해당되고, 전술한 바와 같이 음색 노이즈가 제거되면, 음색 노이즈가 제거된 발성 음성에 대해 음소 노이즈를 더 제거할 수 있다.
통상, 사투리 음성에는 예컨대, 'ㅆ', 'ㅃ'와 같이 쌍자음 발음이 많이 포함되어 있기 때문에, 이런 쌍자음 발음과 관련한 음소 노이즈로 인해, 해당 사투리 음성을 제대로 인식할 수 없었다.
이런 음소 노이즈를 제거하기 위하여, 우선, 노이즈 제거부(242)는 사투리가 섞인 언어 데이터를 정량화하여 지방별 음소 노이즈 데이터를 저장부(220)에 저장시킬 수 있다. 이때, 음소 노이즈 데이터는 통신 네트워크로 연결된 서버로부터 제공받을 수 있음은 물론이다.
이어서, 노이즈 제거부(242)는 음색 노이즈가 제거된 발성 음성 또는 전술한 음성 인식부(241)에 의해 인식된 발성 음성으로부터 복수의 음소 특징 요소를 추출할 수 있다.
예를 들면, 노이즈 제거부(242)는 음색 노이즈가 제거된 발성 음성으로부터 예컨대, 'ㅆ', 'ㅃ'와 같이 쌍자음 발음과 관련한 복수의 음소 특징 요소를 추출할 수 있다.
이어서, 노이즈 제거부(242)는 저장부(220)에 저장된 음소 노이즈 데이터에 근거하여 복수의 음소 특징 요소에 포함된 음소 노이즈를 제거함으로써, 사투리 음성 인식률을 높일 수 있다.
또한, 일 실시 예에 따른 노이즈 제거부(242)는 전술한 지방별 음소 노이즈 데이터를 생성하지 않고 전술한 수학식 1 내지 3을 이용하여 복수의 음소 특징 요소에 포함된 음소 노이즈를 제거할 수도 있다. 상기 수학식 1 내지 3을 이용한 음소 노이즈 제거는 앞서 설명하였기 때문에 그 설명은 생략하기로 한다.
이와 같이, 본 실시 예에서는 전술한 수학식 1 내지 3을 이용하여 음소 노이즈의 잡음 패턴을 구하고, 상기 음소 노이즈의 잡음 패턴에 기초하여 복수의 음소 특징 요소에 포함된 음소 노이즈를 제거함으로써, 사투리 음성 인식률을 높일 수 있다.
일 실시 예에서, 표준 데이터 추출부(243)는 전술한 음성 인식부(241)에 의해 인식된 음성이 사투리가 섞인 음성에 해당되지 않으면, 메모리에 저장된 언어 데이터로부터 해당 표준 언어 데이터를 추출할 수 있다.
일 실시 예에서, 표준 언어 변환부(244)는 전술한 노이즈 제거부(242)에 의해 음색 노이즈 또는 음색 노이즈/음소 노이즈가 제거되면, 사투리가 포함된 발성 음성에 대해 보다 정확한 사투리 언어 데이터를 메모리에 저장된 언어 데이터로부터 찾아낼 수 있고, 정확히 찾아진 사투리 언어 데이터를 자국의 표준 언어 데이터로 변환시킬 수 있게 된다.
언급된 사투리 언어 데이터는 지방별 사투리 속성에 기반하여 구축된 데이터일 수 있다. 따라서, 언어 데이터는 표준 언어와 상기 표준 언어에 매칭된 사투리 언어 데이터를 포함할 수 있으며, 이는 메모리에 미리 저장될 수 있다. 상기 메모리는 랜덤 액세스 메모리("RAM"), 판독 전용 메모리("ROM"), 자기 또는 광학 디스크 등의 정적 저장 디바이스, 또는 임의의 기타 타입의 컴퓨터 판독 가능한 매체로 이루어질 수 있다.
일 실시 예에서, 타국어 번역부(245)는 전술한 표준 언어 변환부(244)에 의해 변환된 표준 언어 데이터를 번역 알고리즘이 적용된 번역기를 통해 소정의 타국어로 번역할 수 있다.
아울러, 타국어 번역부(245)는 발성 음성이 사투리가 섞인 음성에 해당되지 않을 경우에 추출된 표준 언어 데이터를 번역기를 통해 소정의 타국어로 더 번역할 수 있다.
마지막으로, 일 실시 예에 따른 출력부(246)는 전술한 타국어 번역부(245)에 의해 번역된 타국어를 출력 인터페이스를 통해 표시 화면에 표시하거나 음성 형태로 출력시킬 수 있다. 언급된 음성 출력은 스피커일 수 있으며, 표시 화면은 터치 화면일 수 있다.
이와 같이, 본 실시 예에서는 각 지방마다 각기 다른 사투리 음성이라도 음색 노이즈 및/또는 음소 노이즈를 제거함으로써, 보다 정확한 사투리 언어 데이터를 선별함으로써, 사투리 음성 인식률을 높일 수 있고, 선별된 사투리 언어 데이터에 맞는 표준 언어를 찾아 타국어로 번역함으로써, 사투리 음성이라도 보다 정확하게 번역이 이루어지는 장점을 줄 수 있다.
한편, 전술한 단말 장치(200)는 통신 네트워크에 연결된 서버(201)로부터 사투리 언어 데이터 및 표준 언어 데이터를 포함한 언어 데이터를 각 단계의 필요에 따라 서버로부터 수신하여 저장부(229)에 저장할 수도 있다.
<서버의 실시 예>
도 5는 본 발명의 일 실시 예에 따른 서버를 예시적으로 나타낸 블럭 구성도이다.
도 5를 참조하면, 일 실시 예에 따른 서버(300)는 데이터 수신부(310), 노이즈 제거부(320), 표준 언어 변환부(330), 타국어 번역부(340), 데이터 전송부(350) 및 데이터베이스(360)를 포함할 수 있다.
일 실시 예에서, 데이터 수신부(310)는 단말 장치(301)에서 전송된 사용자의 발성 음성을 통신 네트워크를 통해 수신할 수 있다.
언급된 통신 네트워크는 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 통신망(LAN; Local Area Network), 도시권 통신망(MAN; Metropolitan Area Network), 광역 통신망(WAN; Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. 바람직하게는, 본 발명에서 말하는 네트워크는 월드와이드웹(WWW; World Wide Web)일 수도 있다. 이러한 네트워크는 메신저(채팅) 네트워크, 이메일 네트워크 및 인터넷 네트워크(웹사이트 접속 네트워크)를 포함할 수 있다.
일 실시 예에서, 노이즈 제거부(320)는 전술한 데이터 수신부(310)에 의해 수신된 음성이 사투리가 섞인 발성 음성에 해당되면, 상기 인식된 사투리 음성이 갖고 있는 음색 노이즈와 음소 노이즈를 제거할 수 있다. 여기서, 음색 노이즈를 제거하는 기법은 앞서 도 1 내지 3에서 충분히 설명하였기 때문에 그 설명은 생략하기로 한다.
반면, 음소 노이즈를 제거하기 위하여, 일 실시 예에 따른 노이즈 제거부(320)는 사투리가 섞인 발성 음성을 정량화하여 지방별 음소 노이즈 데이터를 데이터베이스(360)에 저장시키는 저장 제어부(321), 상기 음색 노이즈가 제거된 발성 음성으로부터 복수의 음소 특징 요소를 추출하는 특징 요소 추출부(322) 및 상기 데이터베이스(360)에 저장된 음소 노이즈 데이터에 근거하여 상기 복수의 음소 특징 요소에 포함된 상기 음소 노이즈를 제거하는 음소 노이즈 제거부(323)를 포함할 수 있다.
이러한 음소 노이즈 제거 기법은 앞서 도 1 내지 도 3에서 충분히 설명하였기 때문에 더 이상의 설명은 생략하기로 한다.
한편, 언급된 데이터베이스(360)는 컴퓨터 판독 가능한 기록 매체를 포함하는 개념으로서, 협의의 데이터베이스뿐만 아니라, 파일 시스템에 기반한 데이터 기록 등을 포함하는 넓은 의미의 데이터베이스도 포함하여 지칭하며, 단순한 로그의 집합이라도 이를 검색하여 데이터를 추출할 수 있다면 본 발명에서 말하는 데이터베이스의 범주안에 포함된다.
일 실시 예에서, 표준 언어 변환부(330)는 전술한 노이즈 제거부(320)에 의해 음색 노이즈 및 음소 노이즈가 제거된 사투리 언어 데이터를 자국의 표준 언어 데이터로 변환할 수 있다.
일 실시 예에서, 타국어 번역부(340)는 전술한 표준 언어 변환부(330)에 의해 변환된 표준 언어 데이터를 번역 알고리즘을 통해 소정의 타국어로 번역할 수 있고, 더 나아가 전술한 데이터 수신부(310)에 의해 수신된 음성이 사투리가 섞인 발성 음성에 해당되지 않을 경우에 추출된 해당 표준 언어 데이터를 소정의 타국어로 더 번역할 수 있다.
한편, 표준 언어 변환부(330) 및 타국어 번역부(340)는 전술한 특징에 한정되지 않고 앞서 도 3에서 설명한 표준 언어 변환부(244) 및 타국어 번역부(245)와 동일한 기능을 수행하므로 설명되지 않은 내용도 본 실시 예에서 적용될 수 있음은 물론이다.
마지막으로, 일 실시 예에서, 데이터 전송부(350)는 전술한 타국어 번역부(340)에 의해 번역된 타국어를 음성 형태 또는 표시 데이터 형태로 통신 네트워크를 통해 단말 장치(301)로 전송할 수 있다. 따라서, 단말 장치(301)의 표시 화면(302)은 사투리가 섞인 음성에 대한 음성 인식률을 높여서, 질 좋은 해당 타국어로 번역된 결과를 표시할 수 있을 것이고, 단말 장치(301)의 출력 장치(303)는 사투리가 섞인 음성에 대한 음성 인식률을 높여서, 질 좋은 해당 타국어 음성으로 출력시킬 수 있을 것이다. 상기 출력 장치는 스피커를 포함할 수 있다.
이상에서 설명된 음성 인식과 번역 방법은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 매체에 기록될 수 있다.
컴퓨터 판독 가능한 매체는 프로세서에 의해 액세스 가능한 임의의 매체일 수 있다. 이러한 매체는 휘발성 및 비휘발성 매체 둘 다, 착탈식과 비착탈식 매체, 저장 매체 및 컴퓨터 저장 매체를 포함할 수 있다.
언급된 저장 매체는 RAM, 플래시 메모리, ROM, EPROM, 전기적으로 소거 가능한 판독 전용 메모리("EEPROM"), 레지스터, 하드 디스크, 착탈식 디스크, 콤팩트 디스크 판독 전용 메모리("CD-ROM"), 또는 공지된 임의의 기타 형태의 저장 매체를 포함할 수 있다.
언급된 컴퓨터 저장 매체는, 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 그 밖의 데이터와 같은 정보를 저장하기 위한 임의의 방법이나 기술로 구현되는 착탈형(removable)과 고정형(non-removable), 및 휘발성과 비휘발성 매체를 포함한다.
이러한 컴퓨터 저장 매체는 RAM, ROM, EPROM, EEPROM, 플래시 메모리, 다른 고체 메모리 기술, CDROM, 디지털 다용도 디스크(DVD), 또는 다른 광 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수도 있다.
언급된 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.
이상에서와 같이, 본 출원의 바람직한 실시 예 들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 출원을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
200 : 단말 장치 201, 301 : 서버
210 : 입력 인터페이스 220 : 저장부
230 : 출력 인터페이스 240 : 제어기
241 : 음성 인식부 242 : 노이즈 제거부
243 : 표준 데이터 추출부 244 : 표준 언어 변환부
245 : 타국어 번역부 246 : 출력부
300 : 서버 302 : 표시 화면
303 : 출력 장치 310 : 데이터 수신부
320 : 노이즈 제거부 321 : 저장 제어부
322 : 특징 요소 추출부 323 : 음소 노이즈 제거부
330 : 표준 언어 변환부 340 : 타국어 번역부
350 : 데이터 전송부 360 : 데이터베이스
210 : 입력 인터페이스 220 : 저장부
230 : 출력 인터페이스 240 : 제어기
241 : 음성 인식부 242 : 노이즈 제거부
243 : 표준 데이터 추출부 244 : 표준 언어 변환부
245 : 타국어 번역부 246 : 출력부
300 : 서버 302 : 표시 화면
303 : 출력 장치 310 : 데이터 수신부
320 : 노이즈 제거부 321 : 저장 제어부
322 : 특징 요소 추출부 323 : 음소 노이즈 제거부
330 : 표준 언어 변환부 340 : 타국어 번역부
350 : 데이터 전송부 360 : 데이터베이스
Claims (14)
- 단말 장치에서 사투리가 섞인 음성을 인식하여 번역하기 위한 방법으로서,
(a) 발성된 음성을 입력 인터페이스를 통해 인식하는 단계;
(b) 상기 인식된 음성이 사투리가 섞인 발성 음성에 해당되면, 상기 인식된 사투리 음성이 갖고 있는 음색 노이즈를 제거하는 단계;
(c) 상기 음색 노이즈가 제거된 사투리 언어 데이터를 자국의 표준 언어 데이터로 변환하는 단계;
(d) 상기 변환된 표준 언어 데이터를 번역기를 통해 소정의 타국어로 번역하는 단계; 및
(e) 상기 번역된 타국어를 출력 인터페이스를 통해 표시 화면에 표시하거나 음성 형태로 출력하는 단계;
를 포함하는 음성을 인식하여 번역하는 방법에 있어서,
상기 (b) 단계는,
상기 인식된 음성에 대한 표준어의 제2 음색 수치와 상기 사투리 음성의 제1 음색 수치를 비교한 언어 식별 정확도를 기초로, 상기 표준어의 음색보다 큰 상기 사투리 음성의 음색 노이즈를 제거하는 단계; 및
상기 음색 노이즈가 제거된 음성에 대해 음소 노이즈를 더 제거하는 단계;
를 더 포함하며,
상기 제1 음색 수치는,
상기 사투리가 갖는 정해진 음색의 높낮이 크기이며,
상기 제2 음색 수치는,
상기 사투리에 매칭된 표준어가 갖는 정해진 음색의 높낮이 크기이고,
상기 언어 식별 정확도는,
상기 인식된 음성이 포함하는 각 단어 또는 문장마다 상기 제1 음색 수치와 제2 음색 수치를 비교하여 결정되며,
상기 음소 노이즈는 쌍자음 발음인 ㅆ 및 ㅃ에 대한 노이즈인,
음성을 인식하여 번역하는 방법. - 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170099839A KR101836430B1 (ko) | 2017-08-07 | 2017-08-07 | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170099839A KR101836430B1 (ko) | 2017-08-07 | 2017-08-07 | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101836430B1 true KR101836430B1 (ko) | 2018-03-08 |
Family
ID=61725749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170099839A KR101836430B1 (ko) | 2017-08-07 | 2017-08-07 | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101836430B1 (ko) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190080833A (ko) | 2019-06-18 | 2019-07-08 | 엘지전자 주식회사 | 음성 정보 기반 언어 모델링 시스템 및 방법 |
KR20190080834A (ko) | 2019-06-18 | 2019-07-08 | 엘지전자 주식회사 | 사투리 음소 적응 학습 시스템 및 방법 |
KR20190112682A (ko) | 2019-05-30 | 2019-10-07 | 엘지전자 주식회사 | 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템 |
CN110379421A (zh) * | 2019-04-03 | 2019-10-25 | 深圳市尚可饰科技有限公司 | 一种方言语音ai控制方法、装置及终端 |
KR102062524B1 (ko) * | 2019-05-10 | 2020-01-06 | 고현선 | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 |
KR20200007983A (ko) | 2020-01-03 | 2020-01-22 | 엘지전자 주식회사 | 지역적 특징 기반의 음성인식 방법 및 시스템 |
CN112164387A (zh) * | 2020-09-22 | 2021-01-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频合成方法、装置及电子设备和计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011065120A (ja) * | 2009-09-17 | 2011-03-31 | Tze Fen Li | すべての言語の音声識別及び音声識別を利用した単字入力の方法 |
KR101753649B1 (ko) * | 2015-12-30 | 2017-07-06 | (주)마이콤마 | 위치정보 기반의 실시간 자동 번역 및 통역 서비스 시스템 및 그 방법 |
-
2017
- 2017-08-07 KR KR1020170099839A patent/KR101836430B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011065120A (ja) * | 2009-09-17 | 2011-03-31 | Tze Fen Li | すべての言語の音声識別及び音声識別を利用した単字入力の方法 |
KR101753649B1 (ko) * | 2015-12-30 | 2017-07-06 | (주)마이콤마 | 위치정보 기반의 실시간 자동 번역 및 통역 서비스 시스템 및 그 방법 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110379421A (zh) * | 2019-04-03 | 2019-10-25 | 深圳市尚可饰科技有限公司 | 一种方言语音ai控制方法、装置及终端 |
KR102062524B1 (ko) * | 2019-05-10 | 2020-01-06 | 고현선 | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 |
KR20190112682A (ko) | 2019-05-30 | 2019-10-07 | 엘지전자 주식회사 | 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템 |
WO2019172734A3 (ko) * | 2019-05-30 | 2020-04-16 | 엘지전자 주식회사 | 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템 |
US11495234B2 (en) | 2019-05-30 | 2022-11-08 | Lg Electronics Inc. | Data mining apparatus, method and system for speech recognition using the same |
KR20190080833A (ko) | 2019-06-18 | 2019-07-08 | 엘지전자 주식회사 | 음성 정보 기반 언어 모델링 시스템 및 방법 |
KR20190080834A (ko) | 2019-06-18 | 2019-07-08 | 엘지전자 주식회사 | 사투리 음소 적응 학습 시스템 및 방법 |
US11056100B2 (en) | 2019-06-18 | 2021-07-06 | Lg Electronics Inc. | Acoustic information based language modeling system and method |
US11189272B2 (en) | 2019-06-18 | 2021-11-30 | Lg Electronics Inc. | Dialect phoneme adaptive training system and method |
KR20200007983A (ko) | 2020-01-03 | 2020-01-22 | 엘지전자 주식회사 | 지역적 특징 기반의 음성인식 방법 및 시스템 |
US11488587B2 (en) | 2020-01-03 | 2022-11-01 | Lg Electronics Inc. | Regional features based speech recognition method and system |
CN112164387A (zh) * | 2020-09-22 | 2021-01-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频合成方法、装置及电子设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101836430B1 (ko) | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 | |
JP4786384B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
US10163436B1 (en) | Training a speech processing system using spoken utterances | |
US7415411B2 (en) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers | |
CN109313891B (zh) | 用于语音合成的系统和方法 | |
US20070016421A1 (en) | Correcting a pronunciation of a synthetically generated speech object | |
US20140303958A1 (en) | Control method of interpretation apparatus, control method of interpretation server, control method of interpretation system and user terminal | |
WO2007118020A2 (en) | Method and system for managing pronunciation dictionaries in a speech application | |
JP2001188781A (ja) | 会話処理装置および方法、並びに記録媒体 | |
USH2187H1 (en) | System and method for gender identification in a speech application environment | |
WO2006083020A1 (ja) | 抽出された音声データを用いて応答音声を生成する音声認識システム | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
US20230298564A1 (en) | Speech synthesis method and apparatus, device, and storage medium | |
JPH11175082A (ja) | 音声対話装置及び音声対話用音声合成方法 | |
KR20180033875A (ko) | 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스 | |
KR102069697B1 (ko) | 자동 통역 장치 및 방법 | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP6723907B2 (ja) | 言語認識システム、言語認識方法、及び言語認識プログラム | |
KR101598950B1 (ko) | 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체 | |
JP3911178B2 (ja) | 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 | |
US11043212B2 (en) | Speech signal processing and evaluation | |
Syadida et al. | Sphinx4 for indonesian continuous speech recognition system | |
JP6517417B1 (ja) | 評価システム、音声認識装置、評価プログラム、及び音声認識プログラム | |
JP2006098994A (ja) | 辞書を準備する方法、音響モデルのためのトレーニングデータを準備する方法、およびコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |