KR20210100823A - 디지털 음성 마크 생성 장치 - Google Patents

디지털 음성 마크 생성 장치 Download PDF

Info

Publication number
KR20210100823A
KR20210100823A KR1020200014638A KR20200014638A KR20210100823A KR 20210100823 A KR20210100823 A KR 20210100823A KR 1020200014638 A KR1020200014638 A KR 1020200014638A KR 20200014638 A KR20200014638 A KR 20200014638A KR 20210100823 A KR20210100823 A KR 20210100823A
Authority
KR
South Korea
Prior art keywords
voice
digital
text
feature
mark
Prior art date
Application number
KR1020200014638A
Other languages
English (en)
Inventor
김민서
Original Assignee
김민서
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김민서 filed Critical 김민서
Priority to KR1020200014638A priority Critical patent/KR20210100823A/ko
Publication of KR20210100823A publication Critical patent/KR20210100823A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 디지털 음성 마크 생성 장치에 관한 것으로, 음성 제공용 텍스트를 결정하는 텍스트 결정부, 텍스트의 음성 변환 과정에서 사용되고 특정인의 음성 특성을 나타내는 음성 피처를 결정하고, 음성 피처를 통해 텍스트를 음성 변환하여 텍스트 변환 피처 음성을 생성하는 피처 음성 변환부 및 텍스트 변환 피처 음성에 디지털 음성 마크를 삽입하는 디지털 음성 마크 처리부를 포함한다.

Description

디지털 음성 마크 생성 장치{DIGITAL VOICE MARK PRODUCING DEVICE}
본 발명은 디지털 음성 마크 생성 장치에 관한 것으로, 보다 상세하게는, 제공된 텍스트에 대해 생성된 텍스트 변환 피처 음성을 감지하고 이에 대한 디지털 음성 마크를 삽입하여 사용자로 하여금 제공된 텍스트에 의해 생성된 음성임을 알 수 있도록 하는 디지털 음성 마크 생성 장치에 관한 것이다.
우리도 모르는 사이에 지하철이나 버스에서 들리는 안내 목소리는 꽤 자연스러워졌다. 처음에는 전문 성우로부터 모든 안내 멘트를 녹음해 방송했을 거라고 착각할 정도였다. 그만큼 여기에 쓰이는 음성합성시스템(TTS)이 많은 발전을 거듭해 온 것이다. 빅데이터와 인공지능(AI) 기술이 결합하면서 TTS도 새로운 단계로 진입했다. 기존 문자를 목소리로 바꾸던 개념에서 벗어나 사용자 목소리를 직접 학습하고 따라하는 형태로 진화하고 있다.
최근 음성을 변조한 보이스 피싱사례가 늘어나고 있는 추세다. 누군가 자신이나 가족 목소리를 AI에 학습시켜 보이스피싱에 동원할 수도 있기 때문이다.
이러한 음성 합성을 하는 방법에 대해서는 산업상으로 빠르게 발전하고 있는 추세이지만, 이를 검출하고 표시하는 방법 및 장치에 대해서는 연구가 부족한 실정에 있다.
한국등록특허 제10-0434538(2004.05.25)호는 음성의 천이 구간 검출 장치, 그 방법 및 천이 구간의음성 합성 방법에 관한 것으로, 음성에 대한 여기신호에서 피크치가 포함된 구간을 강조하는 여기신호 전처리부, 전처리된 여기신호의 피크치를 구하고, 소정의 기준 피크치를 이용하여 상대적 피크치를 구하는 상대적 피크치 계산부 및 상대적 피크치에 근거하여 천이 구간의 유무를 판단하는 천이 구간 검출부를 구비하는 것을 특징으로 한다.
한국등록특허 제10-0463657(2004.12.16)호는 음성구간 검출 장치 및 방법에 관한 것으로, 음성신호가 입력되면 입력된 음성신호를 프레임 단위로 나누어 프레임에 백색잡음을 합성하여 주변잡음을 백색화시킨 다음, 백색화된 프레임에서 프레임의 랜덤성을 나타내는 랜덤 파라미터를 추출하여 추출된 랜덤 파라미터값에 따라 프레임을 음성프레임과 잡음프레임으로 구분한 후, 이를 기초로 음성의 시작위치와 끝위치를 계산하여 음성구간을 검출함으로써, 다량의 유색잡음이 섞여 있는 음성신호에서도 정확하게 음성구간을 검출할 수 있도록 구성된 것을 특징으로 한다.
한국등록특허 제10-0434538(2004.05.25)호 한국등록특허 제10-0463657(2004.12.16)호
본 발명의 일 실시예는 특정인의 음성 특성을 추출하여 특정인에 따른 음성 피처에 대해 텍스트 변환 피처 음성을 생성할 수 있는 디지털 음성 마크 생성 장치를 제공하고자 한다.
본 발명의 일 실시예는 텍스트 변환 피처 음성에 대해서 디지털 음성 마크를 삽입하여 사용자로 하여금 합성된 음성임을 인식할 수 있도록 하는 디지털 음성 마크 생성 장치를 제공하고자 한다.
본 발명의 일 실시예는 디지털 음성 마크를 배경음으로서 제공할 수 있고 배경음이 아니더라도 사용자의 화면에 디지털 음성 마크를 통해 텍스트 변환된 메타데이터를 표시할 수 있는 디지털 음성 마크 생성 장치를 제공하고자 한다.
실시예들 중에서, 디지털 음성 마크 생성 장치는 음성 제공용 텍스트를 결정하는 텍스트 결정부, 상기 텍스트의 음성 변환 과정에서 사용되고 특정인의 음성 특성을 나타내는 음성 피처를 결정하고, 상기 음성 피처를 통해 상기 텍스트를 음성 변환하여 텍스트 변환 피처 음성을 생성하는 피처 음성 변환부 및 상기 텍스트 변환 피처 음성에 디지털 음성 마크를 삽입하는 디지털 음성 마크 처리부를 포함할 수 있다.
상기 피처 음성 변환부는 인명별 음성 피처로 구성된 피처 음성 데이터베이스를 제공하고 사용자의 선택을 통해 상기 특정인을 선택할 수 있다.
상기 피처 음성 변환부는 상기 텍스트 변환 피처 음성을 생성하는 과정에서, 인코딩을 수행하여 디지털 워터 마크를 상기 텍스트 변환 피처 음성에 삽입할 수 있다.
상기 디지털 음성 마크 처리부는 상기 디지털 워터 마크를 검출하는 제1 단계, 상기 디지털 워터 마크의 위치를 통해 상기 인코딩을 특정하는 제2 단계, 상기 특정된 인코딩에 대응하는 디코딩을 검출하는 제3단계 및 상기 특정된 디코딩을 수행하는 과정에서 상기 텍스트 변환 피처 음성에 디지털 음성마크를 삽입하는 제4 단계를 통해 상기 텍스트 변환 피처 음성에 상기 디지털 음성 마크를 삽입할 수 있다.
상기 디지털 음성 마크 처리부는 상기 디지털 음성 마크를 배경 사운드로 생성하여 상기 텍스트 변환 피처 음성이 상기 특정인의 실제 음성이 아님을 나타내도록 상기 텍스트 변환 피처 음성에 상기 배경 사운드를 합성할 수 있다.
상기 디지털 음성 마크 처리부는 특정 주기로 상기 디지털 음성 마크를 배경 경고음으로서 삽입할 수 있다.
상기 디지털 음성 마크 처리부는 상기 디지털 음성 마크를 디지털 텍스트로 변환하고 상기 텍스트 변환 피처 음성이 상기 특정인의 실제 음성이 아님을 나타내도록 상기 텍스트 변환 피처 음성을 저장한 전자 파일의 메타데이터로 상기 디지털 텍스트를 저장하고, 상기 텍스트 변환 피처 음성이 검출되지 않더라도, 과거에 저장된 상기 디지털 텍스트를 확인하여 과거에 상기 디지털 음성 마크가 삽입된 이력이 검출되는 경우에 과거 저장된 상기 디지털 텍스트를 표시할 수 있다.
상기 디지털 음성 마크 처리부는 디지털 워터 마크가 검출되는 경우, 상기 디지털 텍스트를 사용자 단말에 제공할 수 있다.
실시예들 중에서, 디지털 음성 마크 생성 장치는 주어진 음성의 재생 전에 상기 디지털 음성 마크를 검출하고 사용자의 선택 또는 제3자의 권한 부여에 따라 상기 디지털 음성 마크를 음소거 하여 상기 텍스트 변환 피처 음성만 출력하는 피처 음성 출력부를 더 포함할 수 있다.
개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명의 일 실시예에 따른 디지털 음성 마크 생성 장치는 특정인의 음성 특성을 추출하여 특정인에 따른 음성 피처에 대해 텍스트 변환 피처 음성을 생성할 수 있다.
본 발명의 일 실시예에 따른 디지털 음성 마크 생성 장치는 텍스트 변환 피처 음성에 대해서 디지털 음성 마크를 삽입하여 사용자로 하여금 합성된 음성임을 인식할 수 있다.
본 발명의 일 실시예에 따른 디지털 음성 마크 생성 장치는 디지털 음성 마크를 배경음으로서 제공할 수 있고 배경음이 아니더라도 사용자의 화면에 디지털 음성 마크를 통해 텍스트 변환된 메타데이터를 표시할 수 있다.
도 1은 일 실시예에 따른 디지털 음성 마크 생성 시스템을 설명하는 도면이다.
도 2는 일 실시예에 따른 디지털 음성 마크 생성 장치의 물리적 구성을 설명하는 도면이다.
도 3은 일 실시예에 따른 디지털 음성 마크 생성 장치의 기능적 구성을 설명하는 도면이다.
도 4는 일 실시예에 따른 디지털 음성 마크 생성 장치에 의한 디지털 음성 마크 생성 과정을 설명하는 블록도이다.
도 5는 일 실시예에 따른 디지털 음성 마크를 삽입하는 과정을 설명하는 도면이다.
도 6은 일 실시예에 따른 디지털 워터 마크를 검출하여 디지털 음성 마크를 삽입하는 과정을 설명하는 도면이다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한, 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
도 1은 본 발명의 일 실시예에 따른 디지털 음성 마크 생성 시스템(100)을 설명하는 도면이다.
도 1을 참조하면, 디지털 음성 마크 생성 시스템(100)은 사용자 단말(110), 디지털 음성 마크 생성 장치(130) 및 데이터베이스(150)를 포함할 수 있다.
사용자 단말(110)은 디지털 음성 마크 생성 장치(130)에 의해 생성된 디지털 음성 마크 배경 경고음을 재생하고 디지털 텍스트를 확인 및 관리하는 컴퓨팅 장치에 해당할 수 있고, 스마트폰, 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 태블릿 PC 등 다양한 디바이스로도 구현될 수 있다. 사용자 단말(110)은 디지털 음성 마크 생성 장치(130)와 네트워크를 통해 연결될 수 있고, 복수의 사용자 단말(110)들은 디지털 음성 마크 생성 장치(130)와 동시에 연결될 수 있다.
일 실시예에서, 사용자 단말(110)은 디지털 음성 마크 생성 장치(130)에 의해 생성된 메타 데이터를 확인하고, 메타 데이터를 다시 업데이트하는 장치가 될 수 있다.
일 실시예에서, 사용자 단말(110)은 디지털 음성 마크 생성 장치(130)에 의해 생성된 디지털 음성 마크 및 디지털 텍스트를 수신할 수 있다. 예를 들어, 디지털 음성 마크 생성 장치(130)는 디지털 워터 마크를 감지한 경우에, "합성음 입니다"라는 디지털 음성 마크 및 디지털 텍스트를 생성할 수 있고, 해당 디지털 음성 마크 및 디지털 텍스트를 사용자 단말(110)에서 플레이 혹은 디스플레이 될 수 있도록 제공할 수 있다.
디지털 음성 마크 생성 장치(130)는 결정된 텍스트 및 음성 피처를 통해 텍스트 변환 피처 음성을 생성하고 이에 디지털 음성 마크를 삽입하는 과정을 수행하는 컴퓨터 또는 프로그램에 해당하는 서버로 구현될 수 있다. 디지털 음성 마크 생성 장치(130)는 사용자 단말(110)과 블루투스, WiFi, 통신망 등을 통해 무선으로 연결될 수 있고, 네트워크를 통해 사용자 단말(110)과 데이터를 주고받을 수 있다.
일 실시예에서, 디지털 음성 마크 생성 장치(130)는 상기 도 1과는 다르게, 사용자 단말(110) 내부에 설치되는 장치에 해당할 수 있다. 예를 들어, 디지털 음성 마크 생성 장치(130)는 독립적으로 결정된 텍스트 및 음성 피처를 통해 텍스트 변환 피처 음성을 생성하고 이에 디지털 음성 마크를 삽입하는 과정을 수행하는 장치이면서도 다른 장치와 융합되어 외관상 사용자 단말(110)과 같은 형태를 가질 수 있다.
데이터베이스(150)는 결정된 텍스트 및 음성 피처를 통해 텍스트 변환 피처 음성을 생성하고 이에 디지털 음성 마크를 삽입하는 과정에서 필요한 다양한 정보들을 저장하는 저장장치에 해당할 수 있다. 뿐만 아니라, 데이터베이스(150)는 디지털 음성 마크 생성 장치(130)가 결정된 텍스트 및 음성 피처를 통해 텍스트 변환 피처 음성을 생성하고 이에 디지털 음성 마크를 삽입하는 과정에서 다양한 형태로 수집 또는 가공된 정보들을 저장할 수 있다.
도 2는 일 실시예에 따른 디지털 음성 마크 생성 장치(130)의 물리적 구성을 설명하는 도면이다.
도 2를 참조하면, 디지털 음성 마크 생성 장치(130)는 프로세서(210), 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)를 포함하여 구현될 수 있다.
프로세서(210)는 결정된 텍스트 및 음성 피처를 통해 텍스트 변환 피처 음성을 생성하고 이에 디지털 음성 마크를 삽입하는 과정에서 동작을 수행하는 프로시저를 실행할 수 있고, 그 과정 전반에서 읽혀지거나 작성되는 메모리(230)를 관리할 수 있으며, 메모리(230)에 있는 휘발성 메모리와 비휘발성 메모리 간의 동기화 시간을 스케줄할 수 있다. 프로세서(210)는 디지털 음성 마크 생성 장치(130)의 동작 전반을 제어할 수 있고, 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)와 전기적으로 연결되어 이들 간의 데이터 흐름을 제어할 수 있다. 프로세서(210)는 디지털 음성 마크 생성 장치(130)의 CPU(Central Processing Unit)로 구현될 수 있다.
메모리(230)는 SSD(Solid State Drive) 또는 HDD(Hard Disk Drive)와 같은 비휘발성 메모리로 구현되어 디지털 음성 마크 생성 장치(130)에 필요한 데이터 전반을 저장하는데 사용되는 보조기억장치를 포함할 수 있고, RAM(Random Access Memory)과 같은 휘발성 메모리로 구현된 주기억장치를 포함할 수 있다.
사용자 입출력부(250)는 사용자 입력을 수신하기 위한 환경 및 사용자에게 특정 정보를 출력하기 위한 환경을 포함할 수 있다. 예를 들어, 사용자 입출력부(250)는 터치 패드, 터치 스크린, 화상 키보드 또는 포인팅 장치와 같은 어댑터를 포함하는 입력장치 및 모니터 또는 터치스크린과 같은 어댑터를 포함하는 출력장치를 포함할 수 있다. 일 실시예에서, 사용자 입출력부(250)는 원격 접속을 통해 접속되는 컴퓨팅 장치에 해당할 수 있고, 그러한 경우, 디지털 음성 마크 생성 장치(130)는 서버로서 수행될 수 있다.
네트워크 입출력부(270)는 네트워크를 통해 외부 장치 또는 시스템과 연결하기 위한 환경을 포함하고, 예를 들어, LAN(Local Area Network), MAN(Metropolitan Area Network), WAN(Wide Area Network) 및 VAN(Value Added Network) 등의 통신을 위한 어댑터를 포함할 수 있다.
도 3은 일 실시예에 따른 디지털 음성 마크 생성 장치(130)의 기능적 구성을 설명하는 도면이다.
도 3을 참조하면, 디지털 음성 마크 생성 장치(130)는 텍스트 결정부(310), 피처 음성 변환부(330), 디지털 음성 마크 처리부(350), 피처 음성 출력부(370) 및 제어부(390)를 포함할 수 있다.
텍스트 결정부(310)는 음성 제공용 텍스트를 결정할 수 있다. 예를 들어, 텍스트 결정부(310)는 피처 음성 변환부(330)에 의해 음성으로 생성될 텍스트에 대해서 결정할 수 있다. 음성 제공용 텍스트는 사용자에 의해 목록으로 저장될 수 있고, 텍스트 결정부(310)는 이에 대해 특정 음성 제공용 텍스트를 결정할 수 있다. 또한, 텍스트 결정부(310)는 사용자에 의해 목록으로 저장된 텍스트뿐만 아니라, 실시간으로 사용자가 입력하는 텍스트를 음성 제공용 텍스트로 결정할 수 있다.
피처 음성 변환부(330)는 텍스트의 음성 변환 과정에서 사용되고 특정인의 음성 특성을 나타내는 음성 피처를 결정하고, 음성 피처를 통해 텍스트를 음성 변환하여 텍스트 변환 피처 음성을 생성할 수 있다. 피처 음성 변환부(330)는 특정인에 따른 음성의 피치(Pitch), 길이, 음색 및 음의 세기를 포함하는 특정인의 목소리를 구성하는 요소인 음성 피처를 결정할 수 있다. 예를 들어, 피처 음성 변환부(330)는 음편 별로 특정인에 따른 음성 피처를 각각 결정할 수 있다. 다른 예를 들어, 피처 음성 변환부(330)는 특정인의 음편에 대한 음성 피처를 통계에 따라 각각 결정할 수 있다.
피처 음성 변환부(330)는 결정된 음성 피처를 통해 텍스트를 변환하여 텍스트 변환 피처 음성을 생성할 수 있다. 예를 들어, 피처 음성 변환부(330)는 주어진 텍스트를 음편별로 분해하고, 해당 음편 별로 특정인의 음성 특성인 음성 피처를 통해 음성의 특성을 구성하는 파라미터 별로 값을 지정하여 텍스트 변환 피처 음성을 생성할 수 있다.
일 실시예에서, 피처 음성 변환부(330)는 인명별 음성 피처로 구성된 피처 음성 데이터베이스를 제공하고 사용자의 선택을 통해 특정인을 선택할 수 있다. 피처 음성 변환부(330)는 기 생성된 음성 피처를 데이터베이스에 저장해 놓았다가 사용자의 선택에 따라서 음성 합성을 위해 제공할 수 있다.
도 6은 디지털 워터 마크를 검출하여 디지털 음성 마크를 삽입하는 과정을 설명하는 도면으로서, 도 6을 참조하면, 일 실시예에서, 피처 음성 변환부(330)는 텍스트 변환 피처 음성을 생성하는 과정에서, 인코딩을 수행하여 디지털 워터 마크를 텍스트 변환 피처 음성에 삽입할 수 있다. 인코딩은 파일에 저장된 정보의 형태를 다른 것으로 변경하는 것으로 부호화 과정에 해당한다. 디지털 워터 마크는 해당 텍스트 변환 피처 음성이 합성된 음성이라는 것을 나타내는 동시에 어떤 합성 방법을 사용하였는지를 나타내는 표시에 해당할 수 있다. 예를 들어, 디지털 워터 마크는 해당 인코딩 방법에 따라서, 사람이 인지할 수 없는 소리 주파수인 20Hz 미만 20000Hz 이상에 표시될 수 있다. 또한 디지털 워터 마크는 해당 인코딩 방법에 따라서 다른 방법으로 표시될 수 있다.
디지털 음성 마크 처리부(350)는 텍스트 변환 피처 음성에 디지털 음성 마크를 삽입할 수 있다. 디지털 음성 마크 처리부(350)는 텍스트 변환 피처 음성이 검출되면 디지털 음성 마크를 삽입할 수 있다.
도 5는 일 실시예에 따른 디지털 음성 마크를 삽입하는 과정을 설명하는 도면으로서, 도 5를 참조하면, 사용자는 디지털 음성 마크를 삽입하는 기능을 온/오프 할 수 있다. 디지털 음성 마크 처리부(350)는 디지털 마크 삽입 기능이 오프되어 있는 경우에는 디지털 마크를 삽입하지 않고 입력된 음성을 그대로 전달할 수 있다. 디지털 음성 마크 처리부(350)는 디지털 마크 삽입 기능이 온되어 있는 상태에서 텍스트 변환 피처 음성이 검출되는 경우에 디지털 음성 마크를 삽입할 수 있다.
일 실시예에서, 디지털 음성 마크 처리부(350)는 디지털 워터 마크를 검출하는 제1 단계, 디지털 워터 마크의 위치를 통해 인코딩을 특정하는 제2 단계, 특정된 인코딩에 대응하는 디코딩을 검출하는 제3단계 및 특정된 디코딩을 수행하는 과정에서 텍스트 변환 피처 음성에 디지털 음성마크를 삽입하는 제4 단계를 통해 텍스트 변환 피처 음성에 디지털 음성 마크를 삽입할 수 있다. 예를 들어, 디지털 음성 마크 처리부(350)는 디지털 워터 마크가 삽입된 주파수 대역 및 내용을 확인하여 해당 디지털 워터 마크를 삽입한 인코딩을 결정하고 이에 대응되는 디코딩을 검출할 수 있다.
일 실시예에서, 디지털 음성 마크 처리부(350)는 디지털 음성 마크를 배경 사운드로 생성하여 텍스트 변환 피처 음성이 특정인의 실제 음성이 아님을 나타내도록 텍스트 변환 피처 음성에 배경 사운드를 합성할 수 있다. 디지털 음성 마크 처리부(350)는 디지털 음성 마크로서 배경 사운드를 생성하고, 텍스트 변환 피처 음성이 검출되는 경우 해당 배경 사운드를 합성할 수 있다.
일 실시예에서, 디지털 음성 마크 처리부(350)는 텍스트 변환 피처 음성의 시작과 끝을 검출하여 해당 음성의 시작과 끝 부분에 배경 사운드를 합성할 수 있다. 디지털 음성 마크 처리부(350)는 텍스트 변환 피처 음성과 배경 사운드를 동시에 송출하도록 설정할 수 있다. 예를 들어, 디지털 음성 마크 처리부(350)는 텍스트 변환 피처 음성의 시작 시점에 "TTS 음성입니다." 라는 배경 사운드를 송출할 수 있다.
일 실시예에서, 디지털 음성 마크 처리부(350)는 특정 주기로 디지털 음성 마크를 배경 경고음으로서 삽입할 수 있다. 특정 주기는 사용자에 의해 설정될 수 있다.
일 실시예에서, 디지털 음성 마크 처리부(350)는 디지털 음성 마크를 디지털 텍스트로 변환하고 텍스트 변환 피처 음성이 특정인의 실제 음성이 아님을 나타내도록 텍스트 변환 피처 음성을 저장한 전자 파일의 메타데이터로 디지털 텍스트를 저장할 수 있다. 디지털 음성 마크 처리부(350)는 디지털 음성 마크를 텍스트 변환 피처 음성에 삽입하지 않고 이를 디지털 텍스트로 변환할 수 있다. 예를 들어, 디지털 음성 마크 처리부(350)는 생성된 디지털 텍스트를 사용자 단말(110)에 전달할 수 있다.
디지털 음성 마크 처리부(350)는 디지털 텍스트를 생성할 때, 상대방 연락처에 대한 데이터를 포함하여 신고하기 탭을 같이 생성할 수 있다. 디지털 음성 마크 처리부(350)는 사용자에 의해 신고 및 텍스트 변환 피처 음성을 포함하여 메타데이터로 저장할 수 있다. 예를 들어, 디지털 음성 마크 처리부(350)는 기존에 해당 텍스트 변환 피처 음성에 대해서 신고가 되어있는 횟수, 일자 및 해당 음성에 대한 특정인 등을 포함하는 정보를 디지털 텍스트로 표시할 수 있다.
일 실시예에서, 디지털 음성 마크 처리부(350)는 디지털 음성 마크 및 디지털 텍스트를 동시에 생성할 수 있다. 예를 들어, 디지털 음성 마크 처리부(350)는 디지털 음성 마크를 텍스트 변환 피처 음성에 삽입하는 동시에 디지털 텍스트를 사용자 단말(110)에 제공할 수 있다.
일 실시예에서, 디지털 음성 마크 처리부(350)는 텍스트 변환 피처 음성이 검출되지 않더라도, 과거에 저장된 디지털 텍스트를 확인하여 과거에 디지털 음성 마크가 삽입된 이력이 검출되는 경우에 과거 저장된 디지털 텍스트를 표시할 수 있다. 예를 들어, 디지털 음성 마크 처리부(350)는 과거에 저장된 디지털 텍스트를 확인하여, 텍스트 변환 피처 음성이 생성되었는지를 확인하여 텍스트 변환 피처 음성이 생성된 내역이 존재한다면 이에 대한 디지털 텍스트에 대한 정보를 사용자 단말(110)에 제공할 수 있다.
일 실시예에서, 디지털 음성 마크 처리부(350)는 과거 저장된 디지털 텍스트를 검색하여 특정인의 음성이 사용된 횟수를 검출하고 특정 기준 이상 특정인의 음성이 사용된 경우에 해당 디지털 텍스트를 사용자 단말(110)에 제공할 수 있다. 다른 예를 들어, 디지털 음성 마크 처리부(350)는 시간 변화에 따른 특정인의 음성이 사용된 횟수를 검출하여 특정 기준 이상의 양의 변화율을 가지는 경우에 해당 디지털 텍스트를 사용자 단말(110)에 제공할 수 있다.
일 실시예에서, 디지털 음성 마크 처리부(350)는 디지털 워터 마크가 검출되는 경우, 상기 디지털 텍스트를 사용자 단말(110)에 제공할 수 있다.
피처 음성 출력부(370)는 주어진 음성의 재생 전에 디지털 음성 마크를 검출하고 사용자의 선택에 따라 디지털 음성 마크를 음소거 하여 텍스트 변환 피처 음성만 출력할 수 있다. 예를 들어, 피처 음성 출력부(370)는 사용자가 텍스트변환 피처 음성만을 수신할 수 있도록 디지털 음성 마크를 음소거 할 수 있다.
일 실시예에서, 피처 음성 출력부(370)는 특정 주기로 디지털 음성 마크를 배경 경고음으로서 삽입할 수 있다. 피처 음성 출력부(370)는 디지털 음성 마크의 시작과 끝에 디지털 음성 마크를 배경 경고음으로 삽입할 수 있다.
제어부(390)는 디지털 음성 마크 생성 장치(130)의 전체적인 동작을 제어하고, 텍스트 결정부(310), 피처 음성 변환부(330), 디지털 음성 마크 처리부(350) 및 피처 음성 출력부(370) 간의 제어 흐름 또는 데이터 흐름을 관리할 수 있다.
도 4는 일 실시예에 따른 디지털 음성 마크 생성 장치(130)에 의한 디지털 음성 마크 생성 과정을 설명하는 블록도이다.
도 4를 참조하면, 디지털 음성 마크 생성 장치(130)는 텍스트 결정부(310)를 통해, 음성 제공용 텍스트를 결정할 수 있다(S410).
디지털 음성 마크 생성 장치(130)는 피처 음성 변환부(330)를 통해, 텍스트의 음성 변환 과정에서 사용되고 특정인의 음성 특성을 나타내는 음성 피처를 결정하고, 음성 피처를 통해 텍스트를 음성 변환하여 텍스트 변환 피처 음성을 생성할 수 있다(S430).
디지털 음성 마크 생성 장치(130)는 디지털 음성 마크 처리부(350)를 통해, 텍스트 변환 피처 음성에 디지털 음성 마크를 삽입할 수 있다(S450).
디지털 음성 마크 생성 장치(130)는 피처 음성 출력부(370)를 통해, 주어진 음성의 재생 전에 디지털 음성 마크를 검출하고 텍스트 변환 피처 음성을 수신하는 사용자의 선택에 따라 디지털 음성 마크를 음소거 하여 텍스트 변환 피처 음성만 출력할 수 있다(S470).
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 디지털 음성 마크 생성 시스템
110: 사용자 단말
130: 디지털 음성 마크 생성 장치
150: 데이터베이스
210: 프로세서 230: 메모리
250: 사용자 입출력부 270: 네트워크 입출력부
310: 텍스트 결정부 330: 피처 음성 변환부
350: 디지털 음성 마크 처리부 370: 피처 음성 출력부
390: 제어부

Claims (8)

  1. 음성 제공용 텍스트를 결정하는 텍스트 결정부;
    상기 텍스트의 음성 변환 과정에서 사용되고 특정인의 음성 특성을 나타내는 음성 피처를 결정하고, 상기 음성 피처를 통해 상기 텍스트를 음성 변환하여 텍스트 변환 피처 음성을 생성하는 피처 음성 변환부; 및
    상기 텍스트 변환 피처 음성에 디지털 음성 마크를 삽입하는 디지털 음성 마크 처리부를 포함하는 디지털 음성 마크 생성 장치.
  2. 제1항에 있어서, 상기 피처 음성 변환부는
    인명별 음성 피처로 구성된 피처 음성 데이터베이스를 제공하고 사용자의 선택을 통해 상기 특정인을 선택하는 것을 특징으로 하는 디지털 음성 마크 생성 장치.
  3. 제1항에 있어서, 상기 피처 음성 변환부는
    상기 텍스트 변환 피처 음성을 생성하는 과정에서, 인코딩을 수행하여 디지털 워터 마크를 상기 텍스트 변환 피처 음성에 삽입하는 것을 특징으로 하는 디지털 음성 마크 생성 장치.
  4. 제3항에 있어서, 상기 디지털 음성 마크 처리부는
    상기 디지털 워터 마크를 검출하는 제1 단계, 상기 디지털 워터 마크의 위치를 통해 상기 인코딩을 특정하는 제2 단계, 상기 특정된 인코딩에 대응하는 디코딩을 검출하는 제3단계 및 상기 특정된 디코딩을 수행하는 과정에서 상기 텍스트 변환 피처 음성에 디지털 음성마크를 삽입하는 제4 단계를 통해 상기 텍스트 변환 피처 음성에 상기 디지털 음성 마크를 삽입하는 것을 특징으로 하는 디지털 음성 마크 생성 장치.
  5. 제1항에 있어서, 상기 디지털 음성 마크 처리부는
    상기 디지털 음성 마크를 배경 사운드로 생성하여 상기 텍스트 변환 피처 음성이 상기 특정인의 실제 음성이 아님을 나타내도록 상기 텍스트 변환 피처 음성에 상기 배경 사운드를 합성하는 것을 특징으로 하는 디지털 음성 마크 생성 장치.
  6. 제5항에 있어서, 상기 디지털 음성 마크 처리부는
    특정 주기로 상기 디지털 음성 마크를 배경 경고음으로서 삽입하는 것을 특징으로 하는 디지털 음성 마크 생성 장치.
  7. 제1항에 있어서, 상기 디지털 음성 마크 처리부는
    상기 디지털 음성 마크를 디지털 텍스트로 변환하고 상기 텍스트 변환 피처 음성이 상기 특정인의 실제 음성이 아님을 나타내도록 상기 텍스트 변환 피처 음성을 저장한 전자 파일의 메타데이터로 상기 디지털 텍스트를 저장하고, 상기 텍스트 변환 피처 음성이 검출되지 않더라도, 과거에 저장된 상기 디지털 텍스트를 확인하여 과거에 상기 디지털 음성 마크가 삽입된 이력이 검출되는 경우에 과거 저장된 상기 디지털 텍스트를 표시하는 것을 특징으로 하는 디지털 음성 마크 생성 장치.
  8. 제7항에 있어서, 상기 디지털 음성 마크 처리부는
    디지털 워터 마크가 검출되는 경우, 상기 디지털 텍스트를 사용자 단말에 제공하고,
    주어진 음성의 재생 전에 상기 디지털 음성 마크를 검출하고 사용자의 선택 또는 제3자의 권한 부여에 따라 상기 디지털 음성 마크를 음소거 하여 상기 텍스트 변환 피처 음성만 출력하는 피처 음성 출력부를 더 포함하는 것을 특징으로 하는 디지털 음성 마크 생성 장치.

KR1020200014638A 2020-02-07 2020-02-07 디지털 음성 마크 생성 장치 KR20210100823A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200014638A KR20210100823A (ko) 2020-02-07 2020-02-07 디지털 음성 마크 생성 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200014638A KR20210100823A (ko) 2020-02-07 2020-02-07 디지털 음성 마크 생성 장치

Publications (1)

Publication Number Publication Date
KR20210100823A true KR20210100823A (ko) 2021-08-18

Family

ID=77464812

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200014638A KR20210100823A (ko) 2020-02-07 2020-02-07 디지털 음성 마크 생성 장치

Country Status (1)

Country Link
KR (1) KR20210100823A (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100434538B1 (ko) 1999-11-17 2004-06-05 삼성전자주식회사 음성의 천이 구간 검출 장치, 그 방법 및 천이 구간의음성 합성 방법
KR100463657B1 (ko) 2002-11-30 2004-12-29 삼성전자주식회사 음성구간 검출 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100434538B1 (ko) 1999-11-17 2004-06-05 삼성전자주식회사 음성의 천이 구간 검출 장치, 그 방법 및 천이 구간의음성 합성 방법
KR100463657B1 (ko) 2002-11-30 2004-12-29 삼성전자주식회사 음성구간 검출 장치 및 방법

Similar Documents

Publication Publication Date Title
US20210266274A1 (en) Data processing method, apparatus, and device based on instant messaging application, and storage medium
CN105516651B (zh) 用于在成像设备中提供组合摘要的方法和设备
WO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
WO2016119370A1 (zh) 一种实现录音的方法、装置和移动终端
CN110246472B (zh) 一种音乐风格的转换方法、装置及终端设备
JP2008022103A (ja) テレビ番組動画像ハイライト抽出装置及び方法
JP2021099536A (ja) 情報処理方法、情報処理装置およびプログラム
CN111885313A (zh) 一种音视频的修正方法、装置、介质及计算设备
JP2019015951A (ja) 電子機器のウェイクアップ方法、装置、デバイス及びコンピュータ可読記憶媒体
CN112954434A (zh) 字幕处理方法、系统、电子设备和存储介质
JP2021101252A (ja) 情報処理方法、情報処理装置およびプログラム
US20140019132A1 (en) Information processing apparatus, information processing method, display control apparatus, and display control method
US20120154514A1 (en) Conference support apparatus and conference support method
KR102643902B1 (ko) 회의록 관리 방법 및 장치
KR20210100823A (ko) 디지털 음성 마크 생성 장치
JP6295381B1 (ja) 表示タイミング決定装置、表示タイミング決定方法、及びプログラム
CN115294960A (zh) 声码器的训练方法、语音合成的方法及相关产品
JP6639857B2 (ja) 聴力検査装置、聴力検査方法および聴力検査プログラム
KR20160141070A (ko) 영상이미지를 이용한 음악연주장치, 그 방법 및 영상이미지를 이용한 음악연주 프로그램을 저장하는 저장매체
CN113590871A (zh) 一种音频分类方法、装置及计算机可读存储介质
KR20220089367A (ko) 회의록 작성 시스템
CN100375084C (zh) 一种带有语言复读功能的计算机及其实现方法
KR20150055921A (ko) 동영상 재생 제어 방법 및 장치
US20230197114A1 (en) Storage apparatus, playback apparatus, storage method, playback method, and medium
CN113823300B (zh) 语音处理方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
E601 Decision to refuse application