KR20230080557A - 보이스 교정 시스템 - Google Patents
보이스 교정 시스템 Download PDFInfo
- Publication number
- KR20230080557A KR20230080557A KR1020210167874A KR20210167874A KR20230080557A KR 20230080557 A KR20230080557 A KR 20230080557A KR 1020210167874 A KR1020210167874 A KR 1020210167874A KR 20210167874 A KR20210167874 A KR 20210167874A KR 20230080557 A KR20230080557 A KR 20230080557A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- data
- text
- correction system
- correction
- Prior art date
Links
- 238000012937 correction Methods 0.000 title claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 238000006243 chemical reaction Methods 0.000 claims abstract description 14
- 238000000926 separation method Methods 0.000 claims abstract description 5
- 239000000284 extract Substances 0.000 claims description 5
- 238000011835 investigation Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 238000000034 method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000013139 quantization Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
본 발명은 보이스 교정 시스템에 관한 것으로서, 더욱 상세하게는 유튜브 등에 업로드되는 동영상이나 온라인 강의 등에 사용되는 동영상에서 음성을 분리하여 시청자가 듣기 불편한 문장을 순화함으로써, 시청자가 해당 동영상을 시청할 때, 불쾌감이 들지 않도록 하여 편안한 상태로 동영상을 시청할 수 있게 하는 보이스 교정 시스템에 관한 것이다.
상기한 목적을 달성하기 위한 본 발명은 사용자의 음성을 추출하는 1차 음성 추출 단계와, 서버에서 사용자 단말기로부터 교정할 영상을 수신하는 영상 수신 단계와, 수신된 영상에서 음성 데이터를 분리하는 음성 분리 단계와, 분리된 음성 데이터를 텍스트로 변환하는 음성 인식 단계와, 상기 음성 인식 단계에서 도출된 텍스트 데이터를 교정하는 교정단계와, 교정된 테스트 데이터를 다시 사용자의 음성으로 변환하는 음성 변환 단계와, 교정된 음성 데이터를 영상에 합치는 믹싱 단계로 이루어지는 것을 특징으로 한다.
상기한 목적을 달성하기 위한 본 발명은 사용자의 음성을 추출하는 1차 음성 추출 단계와, 서버에서 사용자 단말기로부터 교정할 영상을 수신하는 영상 수신 단계와, 수신된 영상에서 음성 데이터를 분리하는 음성 분리 단계와, 분리된 음성 데이터를 텍스트로 변환하는 음성 인식 단계와, 상기 음성 인식 단계에서 도출된 텍스트 데이터를 교정하는 교정단계와, 교정된 테스트 데이터를 다시 사용자의 음성으로 변환하는 음성 변환 단계와, 교정된 음성 데이터를 영상에 합치는 믹싱 단계로 이루어지는 것을 특징으로 한다.
Description
본 발명은 보이스 교정 시스템에 관한 것으로서, 더욱 상세하게는 유튜브 등에 업로드되는 동영상이나 온라인 강의 등에 사용되는 동영상에서 음성을 분리하여 시청자가 듣기 불편한 문장을 순화함으로써, 시청자가 해당 동영상을 시청할 때, 불쾌감이 들지 않도록 하여 편안한 상태로 동영상을 시청할 수 있게 하는 보이스 교정 시스템에 관한 것이다.
음성 코덱(codec)이란, 음성 신호를 디지털 신호로 변환하는 코더/인코더(coder/encoder)와 그 반대로 변환시켜주는 디코더(decoder)를 합성한 용어로서, MP3, AC3, AAC, OGG, WMA 등과 같은 코덱 기술이 알려져 있다.
음성 코덱의 한 종류인 파형 보간(waveform interpolation, WI) 방법은, 도 1과 같이 음성의 파라미터를 추출하고 음성을 합성하는 과정을 거친다. 도 1은 종래기술에 의한 음성 코덱 중 파형 보간 방법의 실행 과정을 개념적으로 도시한 도면이다. 도 1에 도시된 바와 같이, 종래기술에 의한 파형 보간 방법은, 음성 통신을 위해 전송할 수 있는 대역폭이 제한적이므로, 원래의 파라미터를 양자화(quantization)시킴으로써 데이터량을 감소시키는 처리를 수행한다. 보다 구체적으로, 인코더 측에서 디지털화된 음성이 분석기에 입력되면(분석기-합성기 레이어), 입력된 음성의 파라미터들이 양자화된다(양자화 레이어) 양자화 이후에는, 파라미터들이 다시 역양자화(dequantization)되어(양자화 레이어), 합성기로 전달되고, 합성기로부터 디지털화된 음성이 출력된다.
이와 관련하여, 대한민국 등록특허공보 제10-0768090호(2007.10.17.등록)에서는 디코딩에서의 재정렬 파라미터의 계산량을 감소시키기 위한 파형 보간 방법 및 장치를 개시하고 있고, 대한민국 공개특허공보 제10-2001-0087391호(2001.09.15.공개)에서는 인코딩에 필요한 비트를 최소화시키는 음성 세그먼트를 위한 시간 동기식 파형 보간법을 개시하고 있다.
그리고, 전술한 음성을 보간하는 방법과 더불에 음성을 인식하는 기술도 많이 사용되고 있는데, 그 일 예로서 도 1에 도시된 바와 같은 한국공개특허 제10-2017-0017379호(2017.02.15.공개)에 기재된 기술이 있는데, 그 기술적 특징은 화자가 발화하는 음성을 수신하는 음성 입력부; 음성 인식 과정을 통해 상기 음성 입력부로부터 수신되는 음성 데이터를 텍스트 데이터로 변환하는 음성처리부; 상기 음성 데이터를 분석하여 문장의 끝을 파악하고, 상기 문장의 끝을 나타내는 EPD(End-Point Detector) 정보를 생성하는 음성 분석부; 상기 EPD 정보 및 상기 텍스트 데이터에 포함된 단어들의 형태소 정보 중 적어도 하나를 이용하여 상기 텍스트 데이터에서의 의미단위 및 문장의 끝을 판별하며, 상기 의미단위 또는 상기 문장의 끝을 기준으로 상기 텍스트 데이터를 분할하는 의미단위 판별부; 및 상기 의미단위 판별부로부터 수신되는 상기 분할된 텍스트 데이터를 번역하는 번역부;를 포함하는 것을 특징으로 한다.
그런데, 전술한 선행기술에서는 음성을 보간하는 방법이나 음성을 텍스트로 변환하고 이를 번역하는 기술만 나타나 있을 뿐, 듣기 불편한 문장을 순화된 문장으로 바꿔주는 기술은 나타나 있지 않다.
즉, 요즘 많이 사용되는 동영상 강의나 유튜브 등에서의 영상에서 시청자들이 들을 때, 비속어나 사투리와 같은 불편한 문장이 포함되어 있을 경우 시청자들이 불쾌감을 느껴 더이상 시청하지 않을 경우가 많은데, 이러한 문제점을 해결할 수 있는 기술들이 요구되고 있는 실정이다.
본 발명은 상기한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 유튜브 등에 업로드되는 동영상이나 온라인 강의 등에 사용되는 동영상에서 음성을 분리하여 비속어, 은어, 사투리 등을 표준어로 교정하고, 의미 없이 반복되는 조사와 접속사를 제거하도록 함으로써, 시청자가 해당 동영상을 시청할 때, 불쾌감이 들지 않도록 하여 편안한 상태로 동영상을 시청할 수 있게 하는 보이스 교정 시스템을 제공하는 것이다.
이러한 문제점을 해결하기 위한 본 발명은;
사용자의 음성을 추출하는 1차 음성 추출 단계와, 서버에서 사용자 단말기로부터 교정할 영상을 수신하는 영상 수신 단계와, 수신된 영상에서 음성 데이터를 분리하는 음성 분리 단계와, 분리된 음성 데이터를 텍스트로 변환하는 음성 인식 단계와, 상기 음성 인식 단계에서 도출된 텍스트 데이터를 교정하는 교정단계와, 교정된 테스트 데이터를 다시 사용자의 음성으로 변환하는 음성 변환 단계와, 교정된 음성 데이터를 영상에 합치는 믹싱 단계로 이루어지는 것을 특징으로 한다.
여기서, 상기 1차 음성 추출 단계는 사용자에 의해서 녹음된 특정 문장의 음성 데이터에서 상기 서버에 구비된 음성 추출 모듈을 통하여 단어별 및 음절별로 음성 정보를 추출하고, 상기 특정 문장은 상기 서버로부터 상기 사용자 단말기로 전송된 것을 특징으로 한다.
그리고, 상기 음성 인식 단계는 상기 서버에 구비된 음성 인식 모듈을 통하여 영상에서 분리된 음성 데이터를 텍스트로 변환하되, 상기 음성 인식 모듈에는 형태소 분석기가 구비되며, 상기 형태소 분석기를 통하여 변환된 텍스트를 문장단위로 분리는 것을 특징으로 한다.
이때, 상기 음성 인식 단계는 각 문장과 영상의 싱크 정보를 획득하는 것을 특징으로 한다.
한편, 상기 음성 인식 단계 후, 상기 영상에서 분리된 음성 데이터에서 상기 음성 추출 모듈을 통하여 단어별 및 음절별 음성정보를 추출하는 2차 음성 추출 단계가 더 수행되는 것을 특징으로 한다.
여기서, 상기 교정 단계는 상기 음성 인식 단계에서 도출된 각 문장에서 비속어, 은어, 사투리를 표준어로 교정하는 제1교정단계와, 상기 제1교정단계를 거친 문장에서 단순 반복되는 조사, 접속사를 제거하는 제2교정단계로 이루어지는 것을 특징으로 한다.
또한, 상기 음성 변환 단계는 상기 1차 음성 추출 단계 및 2차 음성 추출 단계에서 추출한 음성 정보를 사용하여 교정을 거친 텍스트를 음성으로 변환하되, 교정을 거친 텍스트를 음성으로 변환하기 위한 음성 정보가 없을 경우, 상기 음성 변환 단계 전에 필요한 단어에 대한 음성 정보를 상기 사용자 단말기로부터 수신하는 3차 음성 추출 단계를 더 수행하는 것을 특징으로 한다.
상기한 구성의 본 발명에 따르면, 유튜브 등에 업로드되는 동영상이나 온라인 강의 등에 사용되는 동영상에서 음성을 분리하여 비속어, 은어, 사투리 등을 표준어로 교정하고, 의미 없이 반복되는 조사와 접속사를 제거하도록 함으로써, 시청자가 해당 동영상을 시청할 때, 불쾌감이 들지 않도록 하여 편안한 상태로 동영상을 시청할 수 있게 하는 효과가 있다.
도 1은 종래의 음성 인식 번역 시스템의 개념도이다.
도 2는 본 발명에 따른 보이스 교정 시스템의 개념도이다.
도 3은 본 발명에 따른 보이스 교정 시스템의 블럭도이다.
도 4는 본 발명에 따른 보이스 교정 시스템의 흐름도이다.
도 2는 본 발명에 따른 보이스 교정 시스템의 개념도이다.
도 3은 본 발명에 따른 보이스 교정 시스템의 블럭도이다.
도 4는 본 발명에 따른 보이스 교정 시스템의 흐름도이다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 보다 상세하게 설명한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다. 그리고, 본 발명은 다수의 상이한 형태로 구현될 수 있고, 기술된 실시 예에 한정되지 않음을 이해하여야 한다.
도 2는 본 발명에 따른 보이스 교정 시스템의 개념도이고, 도 3은 본 발명에 따른 보이스 교정 시스템의 블럭도이고, 도 4는 본 발명에 따른 보이스 교정 시스템의 흐름도이다.
본 발명은 온라인 강의나 유튜브 등에 업로드되는 영상에서 음성 데이터를 교정하기 위한 보이스 교정 시스템에 관한 것으로 도 2 내지 도 4에 도시된 바와 같이 그 구성은 서버(100)와 상기 서버(100)와 통신으로 연결되는 사용자 단말기(200)로 이루어질 수 있는데, 상기 사용자 단말기(200)는 스마트폰이나 테블릿 등으로 이루어질 수도 있고, 개인용 컴퓨터로 이루어질 수도 있다.
여기서, 상기 서버(100)는 각 사용자의 정보가 저장되는 고객 DB(110)와 사전DB(120)와 음성을 텍스트로 변환하는 음성 인식 모듈(130)과 사용자의 음성 정보를 추출하는 음성 추출 모듈(140)과 변환된 텍스트를 교정하는 교정 모듈(150)과 교정된 텍스트를 다시 사용자의 음성으로 변환하는 TTS(text to speech)모듈(160)과 영상에서 음성 데이터를 분리하거나 영상에 음성 데이터를 합치는 영상 편집 모듈(170)로 이루어질 수 있다.
그래서, 사용자가 사용자 단말기(200)를 통하여 서버(100)로 접속하여 교정을 원하는 영상을 전송하면 서버(100)에서 영상에 포함된 음성 데이터를 교정하게 된다.
이때, 상기 음성 인식 모듈(130), 음성 추출 모듈(140), 교정 모듈(150) 및 TTS 모듈(160)은 모두 딥러닝을 통하여 학습된 인공지능을 사용하도록 함으로써, 오류를 최소화할 수 있게 된다.
그리고, 전술한 바와 같이 영상에 포함된 음성 데이터를 교정하는 과정을 살펴보면, 사용자의 음성을 추출하는 1차 음성 추출 단계(S100)와 상기 서버(100)에서 상기 사용자 단말기(200)로부터 교정할 영상을 수신하는 영상 수신 단계(S200)와, 수신된 영상에서 음성 데이터를 분리하는 음성 분리 단계(S300)와, 분리된 음성 데이터를 텍스트로 변환하는 음성 인식 단계(S400)와, 상기 음성 인식 단계(S400)에서 도출된 텍스트 데이터를 교정하는 교정단계(S500)와, 교정된 테스트 데이터를 다시 사용자의 음성으로 변환하는 음성 변환 단계(S700)와, 교정된 음성 데이터를 영상에 합치는 믹싱 단계(S800)로 이루어질 수 있다.
여기서, 상기 1차 음성 추출 단계(S100)는 상기 음성 변환 단계(S700)에서 텍스트를 음성으로 변환할 때, 사용하기 위한 사용자의 음성을 추출하기 위한 단계로서 서버(100)에서 준비된 다수 개의 특정 문장을 사용자 단말기(200)로 전송하고, 사용자는 수신한 특정 문장을 소리내어 읽음으로써, 상기 사용자 단말기(200)에 구비되는 마이크(미도시)를 통하여 녹음하게 되고, 이렇게 녹음된 음성 파일이 서버(100)로 전송된다.
이때, 상기 서버(100)에는 상기 음성 추출 모듈(140)이 구비되어 수신된 사용자의 음성 파일(음성 데이터)을 분석하여 단어별 및 음절별로 사용자의 음성 정보를 추출하게 된다.
한편, 상기 음성 분리 단계(S300)는 상기 서버(100)에 구비되는 영상 편집 모듈(170)을 통하여 상기 영상 수신 단계(S200)에서 수신한 영상에서 음성 데이터를 분리하게 된다.
여기서, 상기 음성 인식 단계(S400)는 상기 서버(100)에 구비된 음성 인식 모듈(130)을 통하여 영상에서 분리된 음성 데이터를 텍스트로 변환하게 되는데, 상기 음성 인식 모듈(130)에는 형태소 분석기(132)가 구비될 수 있으며, 상기 형태소 분석기(132)는 변환된 텍스트 분석하여 문장단위로 분리하게 된다.
이때, 상기 음성 인식 단계(S400)는 각 문장과 영상의 싱크 정보를 획득하고 획득한 정보를 영상 데이터 및 텍스트 데이터에 각각 저장하게 된다.
그리고, 상기 음성 인식 단계(S400) 후, 상기 음성 추출 모듈(140)을 통하여 상기 영상에서 분리된 음성 데이터에서 단어별 및 음절별 음성정보를 추출하는 2차 음성 추출 단계(S410)가 더 수행될 수 있다.
그래서, 상기 1차 음성 추출 단계(S100)에서 추출된 음성 정보에는 포함되지 않은 음성 정보를 추가로 추출할 수 있어 상기 음성 변환 단계(S700)에서 오류 없이 완전하게 음성을 복원할 수 있게 된다.
한편, 상기 교정 단계(S500)는 상기 음성 인식 단계(S400)에서 도출된 각 문장에서 비속어, 은어, 사투리를 표준어로 교정하는 제1교정단계(S510)와 상기 제1교정단계(S510)를 거친 문장에서 단순 반복되는 조사, 접속사를 제거하는 제2교정단계(S520)로 이루어질 수 있다.
이때 상기 교정 단계(S500)에서는 서버(100)에 구비되는 상기 교정 모듈(150)을 사용하여 텍스트를 교정하게 되는데, 상기 서버(100)에는 전술한 바와 같이 사전 DB(120)가 구비되어 비속어, 은어, 사투리를 표준어로 정확하게 교정하게 된다.
그리고, 상기 교정 단계(S500)를 통하여 교정된 텍스트는 상기 음성 변환 단계(SP700)에서 상기 TTS 모듈(160)을 사용하여 사용자의 음성으로 변환하게 되는데, 상기 교정 단계(S500)를 거치면서 새로운 단어가 추가될 경우, 상기 1차 음성 추출 단계(S100) 및 2차 음성 추출 단계(S410)에서 추출한 음성 정보에 텍스트를 사용자의 음성으로 변환하기 위한 음성 정보가 없을 수도 있다.
여기서, 상기 음성 변환 단계(SP700)를 수행하기 전에 필요한 단어에 대한 음성 정보를 상기 사용자 단말기(200)로부터 수신하는 3차 음성 추출 단계(S600)를 더 수행할 수 있다.
이때, 상기 3차 음성 추출 단계(S600)는 전술한 바와 같이, 필요한 단어를 사용자 단말기(200)로 전송하고, 사용자가 직접 육성으로 녹음한 해당 단어에 대한 음성 정보를 서버(100)에서 수신하여 상기 음성 추출 모듈(140)을 통하여 추출하게 된다.
그래서, 상기 음성 변환 단계(S700)에서 텍스트를 사용자의 음성으로 변환할 때, 어색함이 없이 정확하게 변환할 수 있게 된다.
한편, 상기 믹싱 단계(S800)에서는 상기 영상 편집 모듈(170)을 통하여 분리된 영상과 최종 변환된 음성 데이터를 합치게 되는데, 상기 음성 인식 단계(S400)에서 획득한 싱크 정보를 통하여 영상에 음성 데이터의 싱크를 조절하여 믹싱하게 된다.
이상에서 본 발명의 바람직한 실시 예를 설명하였으나, 본 발명의 권리범위는 이에 한정되지 않으며, 본 발명의 실시 예와 실질적으로 균등한 범위에 있는 것까지 본 발명의 권리 범위가 미치는 것으로 본 발명의 정신을 벗어나지 않는 범위 내에서 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것이다.
본 발명은 보이스 교정 시스템에 관한 것으로서, 더욱 상세하게는 유튜브 등에 업로드되는 동영상이나 온라인 강의 등에 사용되는 동영상에서 음성을 분리하여 시청자가 듣기 불편한 문장을 순화함으로써, 시청자가 해당 동영상을 시청할 때, 불쾌감이 들지 않도록 하여 편안한 상태로 동영상을 시청할 수 있게 하는 보이스 교정 시스템에 관한 것이다.
100 : 서버
110 : 고객 DB
120 : 사전 DB 130 : 음성 인식 모듈
140 : 음성 추출 모듈 150 : 교정 모듈
160 : TTS 모듈 170 : 영상 편집 모듈
200 : 사용자 단말기
120 : 사전 DB 130 : 음성 인식 모듈
140 : 음성 추출 모듈 150 : 교정 모듈
160 : TTS 모듈 170 : 영상 편집 모듈
200 : 사용자 단말기
Claims (7)
- 사용자의 음성을 추출하는 1차 음성 추출 단계와,
서버에서 사용자 단말기로부터 교정할 영상을 수신하는 영상 수신 단계와,
수신된 영상에서 음성 데이터를 분리하는 음성 분리 단계와,
분리된 음성 데이터를 텍스트로 변환하는 음성 인식 단계와,
상기 음성 인식 단계에서 도출된 텍스트 데이터를 교정하는 교정단계와,
교정된 테스트 데이터를 다시 사용자의 음성으로 변환하는 음성 변환 단계와,
교정된 음성 데이터를 영상에 합치는 믹싱 단계로 이루어지는 것을 특징으로 하는 보이스 교정 시스템.
- 제1항에 있어서,
상기 1차 음성 추출 단계는 사용자에 의해서 녹음된 특정 문장의 음성 데이터에서 상기 서버에 구비된 음성 추출 모듈을 통하여 단어별 및 음절별로 음성 정보를 추출하고,
상기 특정 문장은 상기 서버로부터 상기 사용자 단말기로 전송된 것을 특징으로 하는 보이스 교정 시스템.
- 제2항에 있어서,
상기 음성 인식 단계는 상기 서버에 구비된 음성 인식 모듈을 통하여 영상에서 분리된 음성 데이터를 텍스트로 변환하되,
상기 음성 인식 모듈에는 형태소 분석기가 구비되며,
상기 형태소 분석기를 통하여 변환된 텍스트를 문장단위로 분리는 것을 특징으로 하는 보이스 교정 시스템.
- 제3항에 있어서,
상기 음성 인식 단계는 각 문장과 영상의 싱크 정보를 획득하는 것을 특징으로 하는 보이스 교정 시스템.
- 제3항에 있어서,
상기 음성 인식 단계 후,
상기 영상에서 분리된 음성 데이터에서 상기 음성 추출 모듈을 통하여 단어별 및 음절별 음성정보를 추출하는 2차 음성 추출 단계가 더 수행되는 것을 특징으로 하는 보이스 교정 시스템.
- 제3항에 있어서,
상기 교정 단계는 상기 음성 인식 단계에서 도출된 각 문장에서 비속어, 은어, 사투리를 표준어로 교정하는 제1교정단계와,
상기 제1교정단계를 거친 문장에서 단순 반복되는 조사, 접속사를 제거하는 제2교정단계로 이루어지는 것을 특징으로 하는 보이스 교정 시스템.
- 제6항에 있어서,
상기 음성 변환 단계는 상기 1차 음성 추출 단계 및 2차 음성 추출 단계에서 추출한 음성 정보를 사용하여 교정을 거친 텍스트를 음성으로 변환하되,
교정을 거친 텍스트를 음성으로 변환하기 위한 음성 정보가 없을 경우, 상기 음성 변환 단계 전에 필요한 단어에 대한 음성 정보를 상기 사용자 단말기로부터 수신하는 3차 음성 추출 단계를 더 수행하는 것을 특징으로 하는 보이스 교정 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210167874A KR20230080557A (ko) | 2021-11-30 | 2021-11-30 | 보이스 교정 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210167874A KR20230080557A (ko) | 2021-11-30 | 2021-11-30 | 보이스 교정 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230080557A true KR20230080557A (ko) | 2023-06-07 |
Family
ID=86761171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210167874A KR20230080557A (ko) | 2021-11-30 | 2021-11-30 | 보이스 교정 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20230080557A (ko) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010087391A (ko) | 1998-11-13 | 2001-09-15 | 밀러 럿셀 비 | 시간 동기식 파형 보간법을 이용한 피치 프로토타입파형으로부터의 음성 합성 |
KR100768090B1 (ko) | 2006-06-19 | 2007-10-17 | 한국전자통신연구원 | 디코딩의 계산량 감소를 위한 파형 인터폴레이션 인코딩장치 및 그 방법 |
KR101666930B1 (ko) | 2015-04-29 | 2016-10-24 | 서울대학교산학협력단 | 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치 |
KR20170017379A (ko) | 2015-08-06 | 2017-02-15 | 한국전자통신연구원 | 자동 음성 번역 장치 및 그 방법 |
-
2021
- 2021-11-30 KR KR1020210167874A patent/KR20230080557A/ko not_active Application Discontinuation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010087391A (ko) | 1998-11-13 | 2001-09-15 | 밀러 럿셀 비 | 시간 동기식 파형 보간법을 이용한 피치 프로토타입파형으로부터의 음성 합성 |
KR100768090B1 (ko) | 2006-06-19 | 2007-10-17 | 한국전자통신연구원 | 디코딩의 계산량 감소를 위한 파형 인터폴레이션 인코딩장치 및 그 방법 |
KR101666930B1 (ko) | 2015-04-29 | 2016-10-24 | 서울대학교산학협력단 | 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치 |
KR20170017379A (ko) | 2015-08-06 | 2017-02-15 | 한국전자통신연구원 | 자동 음성 번역 장치 및 그 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11699456B2 (en) | Automated transcript generation from multi-channel audio | |
US20200226327A1 (en) | System and method for direct speech translation system | |
US7627471B2 (en) | Providing translations encoded within embedded digital information | |
US8447606B2 (en) | Method and system for creating or updating entries in a speech recognition lexicon | |
US12026476B2 (en) | Methods and systems for control of content in an alternate language or accent | |
US20180288109A1 (en) | Conference support system, conference support method, program for conference support apparatus, and program for terminal | |
CN115485768A (zh) | 端到端多发言者重叠语音识别 | |
WO2021169825A1 (zh) | 语音合成方法、装置、设备和存储介质 | |
US20190121860A1 (en) | Conference And Call Center Speech To Text Machine Translation Engine | |
JP3473204B2 (ja) | 翻訳装置及び携帯端末装置 | |
CN117727290A (zh) | 一种语音合成方法、装置、设备及可读存储介质 | |
KR20230080557A (ko) | 보이스 교정 시스템 | |
Bigi et al. | CLeLfPC: a Large Open Multi-Speaker Corpus of French Cued Speech | |
CN115171645A (zh) | 一种配音方法、装置、电子设备以及存储介质 | |
KR101920653B1 (ko) | 비교음 생성을 통한 어학학습방법 및 어학학습프로그램 | |
Ding | Wideband audio over narrowband low-resolution media | |
KR101556483B1 (ko) | 디지털 오디오 신호를 감속시키는 방법 및 디바이스 | |
KR20220105043A (ko) | 음성 변환 방법 및 장치 | |
WO2014059585A1 (zh) | 一种通话即时翻译系统和方法 | |
KR102207812B1 (ko) | 발화 장애인들 및 외국인의 보편적 의사소통을 위한 음성 개선 방법 | |
CN118101877A (zh) | 用于实时通讯的字幕生成方法、系统、存储介质及电子设备 | |
JP2024017475A (ja) | 音声通信方式 | |
CN117857873A (zh) | 流媒体处理方法、装置、系统、电子设备和存储介质 | |
KR20210067201A (ko) | 발달 장애인 음성 인식 점수 산출 장치 및 그 방법 | |
CN118741029A (zh) | 音视频通话的同译同传方法及系统、计算机装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E601 | Decision to refuse application |