KR20230082485A - 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치 및 방법 - Google Patents

오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치 및 방법 Download PDF

Info

Publication number
KR20230082485A
KR20230082485A KR1020210170436A KR20210170436A KR20230082485A KR 20230082485 A KR20230082485 A KR 20230082485A KR 1020210170436 A KR1020210170436 A KR 1020210170436A KR 20210170436 A KR20210170436 A KR 20210170436A KR 20230082485 A KR20230082485 A KR 20230082485A
Authority
KR
South Korea
Prior art keywords
text
request
prosody
providing server
sound data
Prior art date
Application number
KR1020210170436A
Other languages
English (en)
Other versions
KR102548088B1 (ko
Inventor
윤혜은
박지혜
윤수민
Original Assignee
주식회사 셀바스에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 셀바스에이아이 filed Critical 주식회사 셀바스에이아이
Priority to KR1020210170436A priority Critical patent/KR102548088B1/ko
Publication of KR20230082485A publication Critical patent/KR20230082485A/ko
Application granted granted Critical
Publication of KR102548088B1 publication Critical patent/KR102548088B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명의 실시예에 따른 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치 및 방법이 제공된다. 본 발명의 실시예에 따른 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치는, 데이터를 송수신하도록 구성된 통신부, 데이터를 표시하도록 구성된 표시부 및 통신부, 및 표시부와 연결하도록 구성된 제어부를 포함하고, 제어부는, 텍스트를 기반으로 하는 오디오 콘텐츠 제작을 위한 제1 요청을 오디오 콘텐츠 제작 서비스를 제공하는 서비스 제공 서버로 전달하고, 상기 제1 요청에 따라 상기 오디오 콘텐츠 제작에 관한 인터페이스 화면을 상기 표시부를 통해 표시하도록 구성된다.

Description

오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치 및 방법{APPARATUS AND METHOD FOR PROVIDING USER INTERFACE FOR AUDIO CONTENTS CREATION}
본 발명은 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치 및 방법에 관한 것이다.
일반적으로 TTS(Text to Speech)는 텍스트를 사람의 음성으로 변환하는 기술로서, 무인 자동 응답 시스템(ARS), 안내 방송 및 음성 자막 서비스 등과 같이 여러가지 분야에서 이용된다.
인공지능 기반 자연어 처리 기술이 발전함에 따라 기존의 기계음을 이용한 오디오 콘텐츠보다 사람에 가까운 음성을 가지는 사람 친화적인 오디오 콘텐츠를 이용하려는 이용자가 늘어나고 있다. 이에 따라, 최근에는 텍스트를 입력하면 입력된 텍스트를 다양한 성별의 화자가 읽어주는 듯한 합성음 데이터를 제공하는 다양한 TTS 서비스가 제공되고 있다.
그러나, 이러한 TTS 서비스는 입력창에 텍스트를 입력해야 하는 번거로움이 있고, 화자의 성별 또는 언어 선택 정도의 기능 이외에 특정 구간의 합성음의 강도, 속도 및 음량 등을 조절하거나, 다양한 감정을 적용하는 등의 사용자가 원하는 수준의 합성음 데이터를 제공하기 어렵다는 문제점이 있다.
따라서, 사용자의 편의성을 높이면서 사용자가 원하는 사용자 맞춤형 오디오 콘텐츠를 제공하기 위한 방법이 요구된다.
본 발명의 발명자들은 기존의 TTS 서비스가 사용자의 니즈(needs)를 만족시키는 오디오 콘텐츠를 제공하기 어렵다는 사실을 인식하였다.
또한, 본 발명의 발명자들은 기존의 TTS 서비스가 사용자가 합성음 데이터의 강도, 속도 및 음량 등을 조절하거나, 다양한 감정을 적용하는 등의 음성 특성을 조절하기 어렵다는 사실을 인식하였다.
또한, 본 발명의 발명자들은 기존의 TTS 서비스가 합성음 데이터의 일부를 편집하는 기능을 제공하더라도 사용자가 자신이 편집한 다양한 기능들을 직관적으로 확인하기 어렵다는 사실을 인식하였다.
본 발명이 해결하고자 하는 과제는 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치 및 방법을 제공하는 것이다.
구체적으로, 본 발명이 해결하고자 하는 과제는 사용자가 쉽고 편리하게 사용자가 원하는 사용자 맞춤형 오디오 콘텐츠를 제작할 수 있는 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치 및 방법을 제공하는 것이다.
본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 실시예에 따른 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치 및 방법이 제공된다. 본 발명의 실시예에 따른 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치는, 데이터를 송수신하도록 구성된 통신부, 데이터를 표시하도록 구성된 표시부 및 통신부, 및 표시부와 연결하도록 구성된 제어부를 포함하고, 제어부가 텍스트를 기반으로 하는 오디오 콘텐츠 제작을 위한 제1 요청을 오디오 콘텐츠 제작 서비스를 제공하는 서비스 제공 서버로 전달하고, 제1 요청에 따라 오디오 콘텐츠 제작에 관한 인터페이스 화면을 표시부를 통해 표시하도록 구성된다.
본 발명의 실시예에 따른 인터페이스 화면은, 텍스트를 표시하는 텍스트 표시 영역 및 텍스트를 기반으로 생성된 합성음 데이터의 적어도 일부 구간에 대한 운율 특성을 조절하기 위한 운율 제어 영역을 포함한다.
본 발명의 실시예에 따른 제어부는, 적어도 일부 구간의 상기 운율 특성을 조절하기 위한 제2 요청을 서비스 제공 서버로 전달하고, 제2 요청에 따라 서비스 제공 서버에 의해 적어도 일부 구간에 대한 운율 특성이 조절되면 운율 특성이 조절된 적어도 일부 구간에 대응하는 텍스트에, 조절된 운율 특성을 시각적으로 나타내는 그래픽 객체를 표시하도록 구성된다.
본 발명의 실시예에 따른 운율 특성은, 합성음 데이터의 강도(pitch), 속도(speed), 음량(volume) 및 끊어읽기 중 적어도 하나를 포함한다.
본 발명의 실시예에 따른 제어부는, 강도, 속도, 음량 및 끊어읽기를 서로 다른 그래픽 객체로서 표현하도록 구성된다.
본 발명의 실시예에 따른 제1 요청은, 텍스트 및 사용자에 의해서 선택된 화자에 기반하여 합성음 데이터를 생성하기 위한 요청일 수 있다.
본 발명의 실시예에 따른 제2 요청은, 텍스트 표시 영역에 표시되는 텍스트 중 사용자에 의해서 선택된 적어도 일부 텍스트에 해당하는 적어도 일부 합성음 데이터의 운율 특성을 조절하기 위한 요청일 수 있다.
본 발명의 실시예에 따른 제어부는, 둘 이상의 운율 특성을 조절하기 위한 요청을 서비스 제공 서버로 전달하고, 서비스 제공 서버에 의해 선택된 적어도 일부 구간에 대한 둘 이상의 운율 특성이 조절되면 선택된 적어도 일부 구간에 대응하는 텍스트와 둘 이상의 조절된 운율 특성 각각을 나타내는 그래픽 객체를 서로 중첩하여 표시하도록 구성된다.
본 발명의 실시예에 따른 둘 이상의 조절된 운율 특성 각각의 그래픽 객체는 서로 다른 색상 및 형태를 갖을 수 있다.
본 발명의 실시예에 따른 인터페이스 화면은, 선택된 화자의 발음 특성을 설정하기 위한 적어도 하나의 객체를 포함하는 발음 제어 영역을 더 포함한다.
본 발명의 실시예에 따른 제어부에 의해서 수행되는 오디오 콘텐츠를 제작하기 위한 사용자 인터페이스 제공 방법은, 텍스트를 기반으로 하는 오디오 콘텐츠 제작을 위한 제1 요청을 오디오 콘텐츠 제작 서비스를 제공하는 서비스 제공 서버로 전달하는 단계, 제1 요청에 따라 텍스트를 표시하는 텍스트 표시 영역 및 텍스트를 기반으로 생성된 합성음 데이터의 적어도 일부 구간에 대한 운율 특성을 조절하기 위한 운율 제어 영역을 포함하는 인터페이스 화면을 표시하는 단계, 적어도 일부 구간의 운율 특성을 조절하기 위한 제2 요청을 상기 서비스 제공 서버로 전달하는 단계 및 제2 요청에 따라 서비스 제공 서버에 의해 적어도 일부 구간에 대한 운율 특성이 조절되면 운율 특성이 조절된 적어도 일부 구간에 대응하는 텍스트에, 조절된 운율 특성을 시각적으로 나타내는 그래픽 객체를 표시하는 단계를 포함한다.
본 발명의 실시예에 따른 오디오 콘텐츠를 제작하기 위한 사용자 인터페이스 제공 방법은, 둘 이상의 운율 특성을 조절하기 위한 요청을 서비스 제공 서버로 전달하는 단계 및 서비스 제공 서버에 의해 선택된 적어도 일부 구간에 대한 둘 이상의 운율 특성이 조절되면 선택된 적어도 일부 구간에 대응하는 텍스트와 둘 이상의 조절된 운율 특성 각각을 나타내는 그래픽 객체를 서로 중첩하여 표시하는 단계를 더 포함한다.
기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명은 사용자가 쉽고 편리하게 사용자가 원하는 사용자 맞춤형 오디오 콘텐츠를 제작 및 편집할 수 있고, 사용자가 편집한 오디오 콘텐츠에 대한 정보를 직관적으로 확인할 수 있어 사용자 친화적인 합성음 편집 툴을 제공할 수 있다.
본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.
도 1은 본 발명의 실시예에 따른 시스템을 설명하기 위한 개략도이다.
도 2는 본 발명의 실시예에 따른 사용자 장치에 대한 개략도이다.
도 3는 본 발명의 실시예에 따른 서비스 제공 서버에 대한 개략도이다.
도 4는 본 발명의 실시예에 따른 오디오 콘텐츠 제작을 위한 사용자 인터페이스를 제공하는 방법에 대한 흐름도이다.
도 5 내지 도 13은 본 발명의 실시예에 따른 오디오 콘텐츠 제작에 관한 다양한 인터페이스 화면에 대한 예시도들이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조부호가 사용될 수 있다.
본 문서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 문서에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는(3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 문서에서 사용된 "제1," "제2," "첫째," 또는 "둘째," 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 예를 들면, 제1 사용자 기기와 제2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 문서에 기재된 권리범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 바꾸어 명명될 수 있다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~ 를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된)프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
본 문서에서 사용된 용어들은 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 다른 실시예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 문서에 기재된 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 문서에 사용된 용어들 중 일반적인 사전에 정의된 용어들은, 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 문서의 실시 예들을 배제하도록 해석될 수 없다.
본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.
이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.
도 1은 본 발명의 실시예에 따른 시스템을 설명하기 위한 개략도이다.
도 1을 참조하면, 시스템(100)은 텍스트를 기반으로 오디오 콘텐츠를 제작하기 위한 사용자 인터페이스를 제공하는 시스템으로서, 오디오 콘텐츠 제작을 위한 텍스트를 제공하는 사용자 장치(110) 및 사용자 장치(110)로부터 제공된 텍스트에 대한 오디오 콘텐츠를 제작하는 서비스를 제공하는 서비스 제공 서버(120)를 포함할 수 있다.
먼저, 사용자 장치(110)는 텍스트에 대한 오디오 콘텐츠 제작을 요청하고, 이에 대한 사용자 인터페이스를 제공하는 전자 장치로서, 스마트폰, 태블릿 PC(Personal Computer), 노트북 및/또는 PC 등 중 적어도 하나를 포함할 수 있다.
구체적으로, 사용자 장치(110)는 오디오 콘텐츠 제작을 위한 요청을 서비스 제공 서버(120)로 전달하고, 서비스 제공 서버(120)에서 제공하는 오디오 콘텐츠 제작을 위한 웹 사이트에 접근하여 해당 웹 사이트에 대한 웹 페이지(즉, 인터페이스 화면)를 웹 브라우저를 통해 제공한다. 제시된 실시예에서는 오디오 콘텐츠 제작/편집을 위한 웹 사이트를 설명하였으나, 이에 한정되지 않으며, 애플리케이션, 위젯 및/또는 프로그램 등으로 제공될 수 있다.
예를 들어, 사용자 장치(110)는 오디오 콘텐츠 제작을 위한 텍스트를 입력하거나, 텍스트를 읽어주는 화자를 선택하거나, 입력된 텍스트 및 선택된 화자에 따라 생성된 합성음 데이터에 관한 인터페이스 화면 등을 제공할 수 있다. 나아가, 사용자 장치(110)는 생성된 합성음 데이터의 운율 특성을 조절하거나, 화자를 변경하거나, 합성음 데이터의 적어도 일부 구간의 발음 특성을 설정하는 등의 인터페이스 화면을 제공할 수 있다.
다음으로, 서비스 제공 서버(120)는 사용자 장치(110)로부터 제공된 텍스트에 대한 오디오 콘텐츠를 제작하는 서비스를 제공하기 위해 다양한 연산을 수행하는 범용 컴퓨터, 랩탑, 웹 서버(web server), 및/또는 클라우드 서버(cloud server) 등일 수 있다. 특히, 서비스 제공 서버(120)는 텍스트에 대한 오디오 콘텐츠를 제작하는 서비스에 관한 웹 사이트를 호스팅하는 웹 서버 또는 모바일 웹 사이트를 제공하는 모바일 웹 서버일 수 있으나, 이에 한정되지 않는다. 다양한 실시예에서 서비스 제공 서버(120)는 애플리케이션, 위젯 및/또는 프로그램 등의 서버일 수도 있다.
구체적으로, 서비스 제공 서버(120)는 사용자 장치(110)로부터 오디오 콘텐츠 제작을 위한 텍스트 및 특정 화자에 대한 선택을 수신하고, 텍스트를 특정 화자가 읽은 듯한 합성음 데이터를 생성할 수 있다.
이어서, 서비스 제공 서버(120)는 오디오 콘텐츠 제작에 관한 다양한 웹 사이트를 호스팅할 수 있다. 예를 들어, 다양한 웹 사이트는 오디오 콘텐츠 제작을 위한 텍스트를 입력하거나, 텍스트를 읽어주는 화자를 선택하거나, 입력된 텍스트 및 선택된 화자에 따라 생성된 합성음 데이터를 생성하기 위한 웹 사이트일 수 있다. 나아가, 다양한 웹 사이트는 생성된 합성음 데이터의 운율 특성을 변경하거나, 화자를 변경하거나, 합성음 데이터의 적어도 일부 구간의 발음 특성을 설정하는 등에 관련된 웹 사이트일 수 있으나, 이에 한정되지 않는다.
이와 같이 서비스 제공 서버(120)로부터 제공되는 데이터는 사용자 장치(110)에 설치된 웹 브라우저를 통해 웹 페이지로 제공되거나, 애플리케이션, 위젯, 및/또는 프로그램 형태로 제공될 수 있다. 다양한 실시예에서 이러한 데이터는 클라이언트-서버 환경에서 플랫폼에 포함되는 형태로 제공될 수 있다.
이를 통해 본 발명은 사용자가 쉽고 편리하게 합성음 데이터를 제작 및 편집할 수 있다.
하기에서는 도 2를 참조하여 사용자 장치(110)에 대해서 상세하게 설명하도록 한다.
도 2는 본 발명의 실시예에 따른 사용자 장치에 대한 개략도이다.
도 2를 참조하면, 사용자 장치(200)는 통신부(210), 표시부(220), 저장부(230) 및 제어부(240)를 포함한다. 제시된 실시예에서 사용자 장치(200)는 도 1의 사용자 장치(110)를 의미할 수 있다.
통신부(210)는 사용자 장치(200)가 외부 장치와 통신이 가능하도록 연결한다. 통신부(210)는 유/무선 통신을 이용하여 서비스 제공 서버(120)와 연결되어 다양한 데이터를 송수신할 수 있다. 예를 들어, 통신부(210)는 서비스 제공 서버(120)로 오디오 콘텐츠 제작을 위한 텍스트를 전달하고, 서비스 제공 서버(120)로부터 텍스트에 기반하여 생성된 합성음 데이터를 수신할 수 있다.
표시부(220)는 사용자에게 각종 콘텐츠(예: 텍스트, 이미지, 비디오, 아이콘, 배너 또는 심볼 등)를 표시할 수 있다. 구체적으로, 표시부(220)는 오디오 콘텐츠 제작을 위한 다양한 인터페이스 화면을 표시할 수 있다. 예를 들어, 다양한 인터페이스 화면은 서비스 제공 서버(120)에서 호스팅하는 오디오 콘텐츠 제작을 위한 웹 사이트의 다양한 웹 페이지일 수 있으나, 이에 한정되지 않는다.
다양한 실시예에서 표시부(220)는 터치스크린을 포함할 수 있으며, 예를 들면, 전자 펜 또는 사용자의 신체의 일부를 이용한 터치(touch), 제스처(gesture), 근접, 드래그(drag), 스와이프(swipe) 또는 호버링(hovering) 입력 등을 수신할 수 있다.
저장부(230)는 오디오 콘텐츠 제작을 위한 사용자 인터페이스를 제공하기 위해 사용되는 다양한 데이터를 저장할 수 있다. 다양한 실시예에서 저장부(230)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 사용자 장치(200)는 인터넷(internet)상에서 상기 저장부(230)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다.
제어부(240)는 통신부(210), 표시부(220) 및 저장부(230)와 동작 가능하게 연결되며, 오디오 콘텐츠 제작에 관한 사용자 인터페이스를 제공하기 위한 다양한 명령들을 수행할 수 있다.
구체적으로, 제어부(240)는 텍스트를 획득하고, 획득된 텍스트에 대한 합성음 데이터의 생성을 서비스 제공 서버(120)로 요청할 수 있다. 이어서, 제어부(240)는 합성음 데이터에 관한 오디오 콘텐츠 제작을 위한 인터페이스 화면을 표시부(220)를 통해서 표시할 수 있다. 예를 들어, 제어부(240)는 웹 브라우저를 통해 서비스 제공 서버(120)에서 호스팅하는 오디오 콘텐츠 제작을 위한 다양한 웹 페이지를 표시할 수 있다. 여기서, 웹 브라우저를 통해 표시되는 웹 페이지는 인터페이스 화면을 의미할 수 있다.
이러한 인터페이스 화면은 획득된 텍스트를 표시하는 텍스트 표시 영역 및 해당 텍스트에 기반하여 생성된 합성음 데이터의 적어도 일부 구간에 대한 음성 특성을 조절 또는 설정하기 위한 영역을 포함할 수 있다. 여기서, 음성 특성은 운율 특성 및 발음 특성을 포함한다. 운율 특성은 합성음 데이터의 강도(pitch), 속도(speed), 음량(volume) 및 끊어읽기 중 적어도 하나를 포함할 수 있다. 발음 특성은 알파벳 읽기, 한 문자씩 읽기, 숫자 읽기 및 괄호 읽기 중 적어도 하나를 포함할 수 있다.
다양한 실시예에서 인터페이스 화면은 서비스 제공 서버(120)에 의해서 텍스트에 기반하여 생성된 합성음 데이터를 재생/정지/앞으로감기/뒤로감기 등의 기능을 수행하기 위한 합성음 제어 영역을 더 포함할 수 있다.
이어서, 텍스트 표시 영역에서 합성음 데이터의 적어도 일부 구간에 해당하는 적어도 일부 텍스트가 선택되고, 특성 설정 영역에서 적어도 일부 구간에 대한 운율 특성을 조절하기 위한 입력(또는 선택)이 있으면 제어부(240)는 적어도 일부 구간에 대한 운율 특성을 조절하기 위한 요청을 서비스 제공 서버(120)로 전달한다.
해당 요청에 따라 서비스 제공 서버(120)에 의해 적어도 일부 구간에 대한 운율 특성이 조절되면 제어부(240)는 운율 특성이 조절된 적어도 일부 구간에 대응하는 텍스트에, 조절된 운율 특성을 시각적으로 나타내는 그래픽 객체를 표시한다.
다양한 실시예에서 둘 이상의 운율 특성이 조절된 경우 제어부(240)는 둘 이상의 운율 특성이 조절된 적어도 일부 구간에 대응하는 텍스트에, 둘 이상의 조절된 운율 특성 각각을 시각적으로 나타내는 그래픽 객체를 표시할 수 있다. 각 운율 특성을 나타내는 그래픽 객체는 서로 다른 형태 및/또는 색상 등으로 표현될 수 있으나, 이에 한정되지 않으며, 둘 이상의 조절된 음율 특성 각각을 서로 다르게 표현하기 위한 다양한 표현 방법이 이용될 수 있다.
다양한 실시예에서 인터페이스 화면은 합성음 데이터의 발음 특성을 설정하기 위한 발음 제어 영역을 더 포함할 수 있다. 여기서, 발음 특성의 설정은 합성음 데이터의 적어도 일부 구간을 알파벳으로 읽는 '알파벳 읽기' 설정, 문자와 문자 사이에 기 설정된 시간 간격으로 읽는 '한 문자씩 읽기' 설정, 숫자가 시간, 돈, 날짜, 및 전화번호 등 중 어느 하나로 표현되도록 읽는 '숫자 읽기' 설정 및 괄호를 읽는 '괄호 읽기' 설정 중 적어도 하나를 포함할 수 있다.
이러한 경우 발음 제어 영역을 통해 다양한 발음 특성을 설정하기 위한 요청이 있으면 제어부(240)는 해당 요청을 서비스 제공 서버(120)로 전달하여 서비스 제공 서버(120)에 의해 다양한 발음 특성이 합성음 데이터에 설정되도록 할 수 있다. 서비스 제공 서버(120)에 의해 발음 특성이 합성음 데이터에 설정되면 제어부(240)는 발음 특성이 설정된 합성음 데이터에 관한 인터페이스 화면을 표시할 수 있다. 예를 들어, 제어부(240)는 설정된 발음 특성을 시각적으로 나타내기 위해 발음 제어 영역을 통해 표시하거나, 발음 특성이 설정된 합성음 데이터에 대응하는 텍스트에, 설정된 발음 특성을 시각적으로 나타내기 위한 그래픽 객체를 중첩하여 더 표시할 수도 있으나, 이에 한정되지 않는다.
다양한 실시예에서 인터페이스 화면은 합성음 데이터의 화자를 선택 또는 변경하기 위한 화자 선택 영역을 더 포함할 수 있다. 예를 들어, 화자 선택 영역은 오디오 콘텐츠 제작을 위해 제공되는 적어도 하나의 화자를 나타내는 객체를 포함할 수 있다. 여기서, 적어도 하나의 화자는 성별 및 연령에 따라 구분되고, 희로애락 등과 같은 감정을 표현하거나, 다국어가 가능한 화자가 포함될 수 있다. 이러한 경우 화자를 선택 또는 변경하기 위한 요청이 있으면 제어부(240)는 기존의 합성음 데이터를 선택된 화자의 합성음 데이터로 변경하도록 서비스 제공 서버(120)로 요청할 수 있다. 서비스 제공 서버(120)에 의해 선택된 화자의 합성음 데이터로의 변경이 수행되면 제어부(240)는 변경된 화자의 합성음 데이터에 관한 인터페이스 화면을 표시할 수 있다. 예를 들어, 제어부(240)는 텍스트 영역에 텍스트와 함께 선택된 화자를 나타내는 그래픽 객체를 더 표시할 수 있다. 다양한 실시예에서 합성음 제어 영역을 통해 합성음 데이터를 재생하기 위한 요청이 있으면 제어부(240)는 해당 합성음 데이터를 재생하여 출력할 수 있다.
하기에서는 도 3를 참조하여 서비스 제공 서버(120)에 대해서 상세하게 설명하도록 한다.
도 3는 본 발명의 실시예에 따른 서비스 제공 서버에 대한 개략도이다.
도 3를 참조하면, 서비스 제공 서버(300)는 통신부(310), 저장부(320) 및 제어부(330)를 포함한다. 제시된 실시예에서 서비스 제공 서버(300)는 도 1의 서비스 제공 서버(120)를 의미할 수 있다.
통신부(310)는 서비스 제공 서버(300)가 외부 장치와 통신이 가능하도록 연결한다. 통신부(310)는 유/무선 통신을 이용하여 사용자 장치(110)와 연결되어 다양한 데이터를 송수신할 수 있다. 예를 들어, 통신부(310)는 사용자 장치(110)로부터 오디오 콘텐츠 제작을 위한 텍스트를 수신하고, 수신된 텍스트에 기반하여 생성된 합성음 데이터를 사용자 장치(110)로 전달할 수 있다.
저장부(320)는 오디오 콘텐츠 제작 서비스를 제공하기 위한 다양한 데이터를 저장할 수 있다. 다양한 실시예에서 저장부(330)는 플래시 메모리 타입, 하드디스크 타입, 멀티미디어 카드 마이크로 타입, 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램, SRAM, 롬, EEPROM, PROM, 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 서비스 제공 서버(300)는 인터넷상에서 상기 저장부(330)의 저장 기능을 수행하는 웹 스토리지와 관련되어 동작할 수도 있다.
제어부(330)는 통신부(310) 및 저장부(320)와 동작 가능하게 연결되며, 오디오 콘텐츠 제작 서비스를 제공하기 위한 다양한 명령들을 수행할 수 있다.
구체적으로, 제어부(330)는 통신부(310)를 통해 사용자 장치(110)로부터 텍스트와 함께 오디오 콘텐츠 제작을 위한 요청을 수신한다. 제어부(330)는 수신된 텍스트에 기반하여 합성음 데이터를 생성하고, 생성된 합성음 데이터를 사용자 장치(110)로 제공할 수 있다.
합성음 데이터를 생성하기 위해 제어부(330)는 텍스트를 정규화하여 사전을 통해 형태소 및 구문을 분석하고, 이를 발음으로 변환하여 억양, 지속 시간, 세기 등과 같은 운율을 예측하고, 특정 화자에 대한 음성 유닛을 이용하여 합성음 데이터를 생성한다. 다양한 실시예에서 사용자 장치(110)로부터 텍스트와 함께 특정 화자에 대한 선택이 수신되면 제어부(330)는 텍스트에 기반하여 특정 화자에 대한 합성음 데이터를 생성할 수 있다. 다양한 실시예에서 서비스 제공 서버(120)는 합성음 데이터를 생성하기 위해 인공지능 기반 음성 합성 엔진을 이용할 수 있으나, 이에 한정되지 않는다.
이어서, 제어부(330)는 사용자 장치(110)로부터 합성음 데이터의 적어도 일부 구간에 해당하는 적어도 일부 텍스트가 선택되고, 선택된 적어도 일부 텍스트에 해당하는 적어도 일부 구간에 대한 운율 특성을 조절하기 위한 요청을 수신할 수 있다. 이러한 요청에 따라 제어부(330)는 합성음 데이터의 적어도 일부 구간에 대한 운율 특성을 조절하고, 이에 대한 결과 데이터를 사용자 장치(110)로 제공할 수 있다. 여기서, 결과 데이터는 운율 특성이 조절된 적어도 일부 구간에 해당하는 합성음 데이터이거나, 운율 특성이 조절된 적어도 일부 구간을 포함하는 합성음 데이터일 수 있다.
다양한 실시예에서 사용자 장치(110)로부터 발음 특성을 설정하기 위한 요청이 수신되면 제어부(330)는 합성음 데이터에 요청된 발음 특성을 설정하고, 발음 특성이 설정된 합성음 데이터를 사용자 장치(110)로 제공할 수 있다.
다양한 실시예에서 사용자 장치(110)로부터 합성음 데이터의 화자를 변경하기 위한 요청이 수신되면 제어부(330)는 사용자 장치(110)에 의해 선택된 화자의 합성음 데이터를 생성하고, 생성된 합성음 데이터를 사용자 장치(110)로 제공할 수 있다.
이하에서는 오디오 콘텐츠 제작을 위한 사용자 인터페이스를 제공하는 방법에 도 4를 참조하여 설명하도록 한다.
도 4는 본 발명의 실시예에 따른 오디오 콘텐츠 제작을 위한 사용자 인터페이스를 제공하는 방법에 대한 흐름도이다. 하기에서 서술하는 동작들은 사용자 장치(200)의 제어부(240)에 의해서 수행될 수 있다.
도 4를 참조하면, 사용자 장치(200)는 텍스트를 기반으로 하는 오디오 콘텐츠 제작을 위한 제1 요청을 오디오 콘텐츠 제작 서비스를 제공하는 서비스 제공 서버(120)로 전달하고(S400), 제1 요청에 따라 텍스트를 표시하는 텍스트 표시 영역 및 텍스트를 기반으로 생성된 합성음 데이터의 적어도 일부 구간에 대한 운율 특성을 조절하기 위한 운율 제어 영역을 포함하는 인터페이스 화면을 표시한다(S410). 여기서, 운율 특성은 상기 합성음 데이터의 강도, 속도, 음량 및 끊어읽기 중 적어도 하나를 포함한다. 각각의 운율 특성은 서로 다른 그래픽 객체로서 표현될 수 있다. 예를 들어, 각각의 운율 특성은 서로 다른 색상 및/또는 형태의 그래픽 객체로 표현될 수 있으나, 이에 한정되지 않는다.
나아가, 제1 요청은 텍스트 및 사용자에 의해 선택된 화자에 기반하여 합성음 데이터를 생성하기 위한 요청일 수 있다.
사용자 장치(200)는 적어도 일부 구간의 운율 특성을 조절하기 위한 제2 요청을 서비스 제공 서버(120)로 전달한다(S420). 이어서, 제2 요청에 따라 서비스 제공 서버(120)에 의해 적어도 일부 구간에 대한 운율 특성이 조절되면 사용자 장치(200)는 운율 특성이 조절된 적어도 일부 구간에 대응하는 텍스트에, 조절된 운율 특성을 시각적으로 나타내는 그래픽 객체를 표시한다(S430). 여기서, 제2 요청은 텍스트 표시 영역에 표시되는 텍스트 중 사용자에 의해서 선택된 적어도 일부 텍스트에 해당하는 적어도 일부 합성음 데이터의 운율 특성을 조절하기 위한 요청일 수 있다.
다양한 실시예에서 사용자 장치(200)는 둘 이상의 운율 특성을 조절하기 위한 요청을 서비스 제공 서버(120)로 전달하고, 요청에 따라 서비스 제공 서버(120)에 의해 상기 선택된 적어도 일부 구간의 둘 이상의 운율 특성이 조절되면 선택된 적어도 일부 구간에 대응하는 텍스트와 둘 이상의 조절된 운율 특성 각각을 나타내는 그래픽 객체를 서로 중첩하여 표시할 수 있다.
이와 같이 본 발명은 사용자에게 합성음 데이터를 쉽고 편리하게 제작 또는 편집할 수 있고, 사용자의 편집 내용을 직관적으로 확인할 수 있어 사용자 친화적인 합성음 편집 툴을 제공할 수 있다.
하기에서는 오디오 콘텐츠 제작에 관한 다양한 인터페이스 화면에 대해서 도 5 내지 도 13을 참조하여 설명하도록 한다.
도 5 내지 도 13은 본 발명의 실시예에 따른 오디오 콘텐츠 제작에 관한 다양한 인터페이스 화면에 대한 예시도들이다. 이러한 인터페이스 화면들은 사용자 장치(200)의 표시부(220)를 통해서 표시될 수 있다. 제시된 실시예에서 하기의 동작들은 사용자 장치의 제어부(240)를 통해서 수행될 수 있다.
도 5를 참조하면, 제어부(240)는 오디오 콘텐츠 제작을 위해 이용되는 텍스트를 획득하기 위한 인터페이스 화면(500)을 표시할 수 있다.
이러한 인터페이스 화면(500)은 텍스트를 획득하기 위한 제1 객체(510) 및 제2 객체(520)를 포함한다. 여기서, 제1 객체(510)는 화자 선택 및 텍스트 입력을 위한 객체이고, 제2 객체(520)는 파일 형식의 텍스트를 획득하기 위한 객체일 수 있다.
제1 객체(510)가 선택되면 제어부(240)는 도 6과 같이 화자 선택 및 텍스트 입력을 위한 인터페이스 화면(600)을 표시할 수 있다.
도 6을 참조하면, 인터페이스 화면(600)은 화자를 선택하기 위한 객체(620) 및 텍스트 입력을 위한 입력 영역(630)을 갖는 화자별 텍스트 영역(610)을 포함한다.
객체(620)가 선택되면 제어부(240)는 오디오 콘텐츠 제작을 위해 선택될 수 있는 복수의 화자를 나타내는 윈도우(640)를 표시할 수 있다. 여기서, 윈도우(640)는 다양한 종류의 화자를 선택할 수 있는 아이콘들이 포함될 수 있다. 예를 들어, 다양한 종류의 화자는 성별 및/또는 연령으로 구분될 수 있고, 따뜻한 느낌의 목소리, 신뢰감을 주는 목소리, 세련된 목소리 및/또는 귀여운 목소리 등을 가질 수 있거나, 다양한 감정표현 및/또는 다국어 사용이 가능한 화자일 수 있으나, 이에 한정되지 않는다.
윈도우(640)에 의해 어느 하나의 화자의 아이콘이 선택되고, 텍스트가 입력되면 제어부(240)는 선택된 화자 및 입력된 텍스트를 서비스 제공 서버(120)로 전달하고, 서비스 제공 서버(120)는 선택된 화자 및 입력된 텍스트에 기반하여 합성음 데이터를 생성한 후 이를 사용자 장치(110)로 전달할 수 있다.
이러한 경우 제어부(240)는 도 7과 같이 합성음 데이터의 적어도 일부 구간의 음성 특성을 설정(또는 조정)하기 위한 객체들을 포함하는 인터페이스 화면(700)을 표시할 수 있다.
도 7을 참조하면, 인터페이스 화면(700)은 합성음 데이터의 음성 특성을 설정(또는 조절)하기 위한 객체들을 포함하는 제1 영역(710) 및 합성음 데이터의 재생/멈춤/앞으로가기/뒤로가기를 설정하기 위한 제2 영역(720)을 더 포함할 수 있다.
특히, 제1 영역(710)은 합성음 데이터에 관련하여 강도, 속도, 음량 및 끊어읽기 각각의 운율 특성을 조절하기 위한 객체를 포함할 수 있다. 뿐만 아니라, 제1 영역(710)은 알파벳으로 읽기, 한 문자씩 읽기, 숫자 읽기 및 괄호 읽기와 같이 발음 특성을 설정하기 위한 객체를 더 포함할 수 있다.
이러한 인터페이스 화면(700)은 화자별 텍스트 영역(610)을 선택하기 위한 체크박스와 같은 그래픽 객체(730)를 더 포함하고, 화자별 텍스트 영역(610)이 선택되거나, 그래픽 객체(730)가 선택되면 제어부(240)는 해당 화자를 선택하고, 선택된 화자를 나타내기 위한 화자 아이콘(740)을 제1 영역(710)에 더 표시할 수 있다.
뿐만 아니라, 제2 영역(720)은 화자별 텍스트 영역(610)이 선택되거나, 그래픽 객체(730)가 선택되는 경우 활성화될 수 있다. 이는 후술하는 다양한 인터페이스 화면에 대해서도 동일하게 적용될 수 있다. 특히, 화자별 텍스트 영역(610)에 표시된 문장이 선택되거나, 어절이 선택되는 경우 제2 영역(720)의 재생/멈춤/앞으로가기/뒤로가기를 위한 객체들을 통해, 선택된 문장 또는 어절에 해당하는 합성음 데이터의 재생/멈춤/앞으로가기/뒤로가기가 가능하다. 예를 들어, 문장이 선택되거나, 어절이 선택된 상태에서 재생을 위한 객체가 선택되면 제어부(240)는 해당 문장 또는 어절에 해당하는 합성음 데이터를 재생할 수 있다. 마우스 커서가 텍스트의 특정 위치에 있는 상태에서 재생을 위한 객체가 선택되면 제어부(240)는 마우스 커서 위치에 해당하는 문장 또는 어절이 시작되는 부분의 합성음 데이터를 재생할 수 있다.
다시 도 5를 참조하여 제2 객체(520)가 선택되면 제어부(240)는 텍스트 파일을 선택 및 업로드하기 위한 인터페이스 화면을 표시할 수 있다. 이를 통해 텍스트 파일이 획득되면 제어부(240)는 획득된 텍스트 파일을 기반으로 하는 합성음 데이터를 생성하기 위한 제1 요청을 서비스 제공 서버(120)로 전달한다.
이어서, 제어부(240)는 도 8과 같이 오디오 콘텐츠 제작을 위한 인터페이스 화면(800)을 표시할 수 있다.
도 8을 참조하면, 인터페이스 화면(800)은 화자별 텍스트를 표시하기 위한 제1 영역(805)을 포함한다. 여기서, 제1 영역(805)은 텍스트 파일에 해당하는 텍스트를 표시할 수 있다. 나아가, 제1 영역(805)은 화자를 선택하기 위한 객체(810) 및 텍스트가 표시되는 텍스트 표시 영역(815)을 더 포함한다. 이러한 객체(810)가 선택되면 제어부(240)는 도 6을 참조하여 설명한 바와 같이 적어도 하나의 화자를 선택하기 위한 윈도우를 더 표시할 수 있다. 해당 윈도우에서 화자가 선택되면 제어부(240)는 선택된 화자 및 텍스트를 기반으로 하는 합성음 데이터를 서비스 제공 서버(120)로 요청할 수 있다. 이러한 요청에 따라 서비스 제공 서버(120)는 선택된 화자 및 텍스트를 기반으로 합성음 데이터를 생성하고, 생성된 합성음 데이터를 사용자 장치(200)로 제공할 수 있다.
이어서, 인터페이스 화면(800)은 서비스 제공 서버(120)로부터 제공된 합성음 데이터의 운율 특성 및 발음 특성을 조정(또는 설정)하기 위한 제2 영역(820)을 더 포함할 수 있다. 여기서, 제1 영역(805)이 선택되거나, 제1 영역(805)을 선택하기 위한 체크박스가 선택되면 제어부(240)는 선택된 제1 영역(805)의 화자를 나타내는 화자 아이콘(825)을 제2 영역(820)에 더 표시할 수 있다.
제2 영역(820)은 운율 특성을 조정하기 위한 객체들(830, 835, 840, 845)을 포함하는 운율 제어 영역(825) 및 발음 특성을 설정하기 위한 객체들(855, 860, 865, 870)을 포함하는 발음 제어 영역(850)을 포함한다.
운율 제어 영역(825)은 합성음 데이터의 강도를 조절하기 위한 제1 객체(830), 합성음 데이터의 속도를 조절하기 위한 제2 객체(835), 합성음 데이터의 음량을 조절하기 위한 제3 객체(840) 및 끊어읽기 설정을 위한 제4 객체(845)를 포함할 수 있다. 예를 들어, 이러한 객체들 각각은 수치를 조절할 수 있는 조절 바 형태의 그래픽 객체로 이루어질 수 있으나, 이에 한정되지 않는다. 이러한 운율 제어 영역(825)은 텍스트의 적어도 일부를 선택하는 경우 활성화될 수 있다. 특히, 문장 또는 어절을 선택할 경우 운율 제어 영역(825)의 제1 객체, 제2 객체 및 제3 객체(830, 835, 840)가 활성화될 수 있다.
텍스트 표시 영역(815)에 표시된 텍스트의 적어도 일부를 선택하고, 제1, 제2, 제3 및 제4 객체(830, 835, 840, 845) 중 적어도 하나를 조절(또는 설정)하는 입력이 있으면 제어부(240)는 선택된 적어도 일부의 텍스트에 대응하는 적어도 일부의 합성음 데이터의 강도 조절, 속도 조절, 음량 조절 및 끊어읽기 설정 중 적어도 하나를 서비스 제공 서버(120)로 요청할 수 있다. 예를 들어, 텍스트 표시 영역(815)에 표시된 텍스트 위에 마우스 커서가 위치하면 제어부(240)는 선택 가능한 문장을 호버(hover) 상태로 표현할 수 있다. 이어서, 마우스 커서에 의해 특정 문장이 클릭되면 해당 문장이 선택될 수 있다. 나아가, 어절에 대한 마우스 커서의 더블 클릭이 감지되면 해당 어절이 선택될 수 있다. 다양한 실시예에서 마우스 드래그를 통해 문장 또는 어절이 선택될 수도 있다. 다양한 실시예에서 어절과 어절 사이 또는 문장과 문자 사이에 마우스 커서가 위치하면 끊어읽기 설정을 위한 제4 객체(845)가 활성화될 수 있다.
이러한 요청에 따라 서비스 제공 서버(120)는 적어도 일부의 합성음 데이터의 강도 조절, 속도 조절, 음량 조절 및 끊어읽기 설정 중 적어도 하나를 수행하고, 이에 대한 결과 데이터를 사용자 장치(200)에 제공한다.
예를 들어, 제어부(240)는 텍스트 중 “목마른 까마귀가 숲속에서”를 선택하고, 운율 제어 영역(825)에서 강도를 조절하기 위한 제1 객체(830)에 대한 입력을 수신할 수 있다. 강도를 '-20'으로 조정하는 경우 제어부(240)는 선택된 일부 텍스트인 “목마른 까마귀가 숲속에서”에 해당하는 합성음 데이터의 강도를 '-20'으로 조절하도록 서비스 제공 서버(120)로 요청할 수 있다.
요청에 따라 서비스 제공 서버(120)에 의해 “목마른 까마귀가 숲속에서”에 해당하는 합성음 데이터의 강도가 '-20'으로 조절되면 제어부(240)는 텍스트 입력 영역(815)의 “목마른 까마귀가 숲속에서”에 중첩하여 “목마른 까마귀가 숲속에서”에 대응하는 합성음 데이터의 강도가 조절됨을 나타내기 위한 제1 그래픽 객체(875)를 표시할 수 있다.
이어서, 제어부(240)는 텍스트 중 “목마른 까마귀가 숲속에서 물병을”를 선택하고, 운율 제어 영역(825)에서 속도를 조절하기 위한 제2 객체(835)에 대한 입력을 수신할 수 있다. 속도를 '-20'으로 조정하는 경우 제어부(240)는 합성음 데이터에서 “목마른 까마귀가 숲속에서 물병을”에 해당하는 합성음의 속도를 '-20'으로 조절하도록 서비스 제공 서버(120)로 요청할 수 있다. 요청에 따라 서비스 제공 서버(120)에 의해 “목마른 까마귀가 숲속에서 물병을”에 해당하는 합성음의 속도가 '-20'으로 조절되면 제어부(240)는 텍스트 입력 영역(815)의 “목마른 까마귀가 숲속에서 물병을”에 중첩하여 “목마른 까마귀가 숲속에서 물병을”에 대응하는 합성음의 속도가 조절됨을 나타내기 위한 제2 그래픽 객체(880)를 표시할 수 있다. 둘 이상의 운율 특성이 조절된 경우 도 8에 도시된 바와 같이 제1 및 제2 그래픽 객체들(875, 880)은 일부 중첩되도록 표시될 수 있다. 나아가, 제1 및 제2 그래픽 객체들(875, 880)은 서로 구분되도록 서로 다른 색상을 가질 수 있다.
다양한 실시예에서 제어부(240)는 텍스트 중 “물병속에”와 “넣기 시작했습니다.” 사이를 선택하고, 운율 제어 영역(825)에서 끊어읽기를 설정하기 위한 제4 객체(845)에 대한 입력을 수신할 수 있다. 끓어읽기 시간을 '1.2초'로 설정하는 경우 제어부(240)는 합성음 데이터에서 “물병속에”에 해당하는 합성음과 “넣기 시작했습니다”에 해당하는 합성음 사이가 1.2초 간격을 두도록 서비스 제공 서버(120)로 요청할 수 있다. 요청에 따라 서비스 제공 서버(120)에 의해 “물병속에”에 해당하는 합성음과 “넣기 시작했습니다”에 해당하는 합성음 사이가 1.2초 간격을 두도록 설정되면 텍스트 입력 영역(815)의 “물병속에”와 “넣기 시작했습니다.” 사이에, 끊어읽기가 설정됨을 나타내기 위한 제3 그래픽 객체(885)(예: 1.2s)를 표시할 수 있다.
한편, 발음 제어 영역(850)은 알파벳으로 읽기를 설정하기 위한 제5 객체(855), 한 문자씩 읽기를 설정하기 위한 제6 객체(860), 숫자 읽기를 설정하기 위한 제7 객체(865) 및 괄호 읽기를 설정하기 위한 제8 객체(870)를 포함할 수 있다. 예를 들어, 발음 제어 영역(850)의 제5 객체, 제6 객체 및 제7 객체(855, 860, 865)는 텍스트 표시 영역(815)에 표시된 텍스트 중 어절이 선택되는 경우 활성화될 수 있다. 다양한 실시예에서 제8 객체(870)는 제1 영역(805)이 선택되면 활성화될 수도 있다.
텍스트 표시 영역(815)에 표시된 텍스트의 적어도 일부를 선택하고, 제5, 제6, 제7 및 제8 객체(850, 855, 860, 865) 중 적어도 하나를 설정하는 입력이 있으면 제어부(240)는 선택된 적어도 일부의 텍스트에 대응하는 적어도 일부의 합성음 데이터의 알파벳으로 읽기 설정, 한 문자씩 읽기 설정, 숫자 읽기 설정 및 괄호 읽기 설정 중 적어도 하나를 서비스 제공 서버(120)로 요청할 수 있다. 여기서, 알파벳으로 읽기 설정은 텍스트에 알파벳이 포함되는 경우 화자가 그 부분을 알파벳으로 발음하도록 설정하는 것을 의미하고, 한 문자씩 읽기 설정은 선택된 일부의 텍스트를 화자가 한 문자씩 발음하도록 설정하는 것을 의미할 수 있다. 또한, 숫자 읽기 설정은 텍스트에 숫자가 포함된 경우 해당 숫자가 “기본, 날짜, 전화번호, 또는 돈” 등으로 발음하도록 설정하는 것을 의미하며, 괄호 읽기 설정은 텍스트에 괄호가 포함된 경우 화자가 괄호를 발음하도록 설정하는 것을 의미한다.
이러한 요청에 따라 서비스 제공 서버(120)는 적어도 일부의 합성음 데이터의 알파벳으로 읽기 설정, 한 문자씩 읽기 설정, 숫자 읽기 설정 및 괄호 읽기 설정 중 적어도 하나를 수행하고, 이에 대한 결과 데이터를 사용자 장치(200)에 제공한다.
예를 들어, 제어부(240)는 텍스트 중 “괜찮은거니?”를 선택하고, 발음 제어 영역(850)에서 한 문자씩 읽기 설정을 위한 제6 객체(860)에 대한 입력을 수신할 수 있다. 제어부(240)는 선택된 일부 텍스트인 “괜찮은거니?”를 화자가 한 문자씩 발음하도록 서비스 제공 서버(120)로 요청할 수 있다. 요청에 따라 서비스 제공 서버(120)는 화자가 “괜찮은거니?”를 한 문자씩 발음하도록 합성음을 변경하고, 이를 사용자 장치(200)로 제공할 수 있다.
이러한 경우 제어부(240)는 텍스트 입력 영역(815)의 “괜찮은거니?”에 중첩하여 “괜찮은거니?”에 해당하는 합성음이 한 문자씩 발음하도록 설정됨을 나타내기 위한 제4 그래픽 객체(890)를 표시할 수 있다.
다양한 실시예에서 제어부(240)는 도 9와 같이 다양한 감정 표현이 가능한 화자를 선택하기 위한 인터페이스 화면(900)을 표시할 수 있다.
도 9를 참조하면, 인터페이스 화면(900)은 텍스트를 표시하기 위한 제1 영역(910)을 포함하고, 제1 영역(910)은 화자를 선택하기 위한 객체(920)를 포함할 수 있다.
객체(920)가 선택되면 제어부(240)는 선택될 수 있는 복수의 화자를 나타내는 윈도우(930)를 표시할 수 있다. 여기서, 윈도우(930)는 다양한 종류의 화자를 선택할 수 있는 아이콘들이 포함될 수 있다. 다양한 감정 표현이 가능한 화자의 아이콘이 선택되면 제어부(240)는 화자의 감정을 선택하기 위한 감정 선택 영역(940)을 인터페이스 화면(900)에 표시할 수 있다.
감정 선택 영역(940)은 화자가 표현할 수 있는 복수의 감정 각각에 대응하는 아이콘을 포함할 수 있다. 예를 들어, 슬픈 감정에 대응하는 아이콘(950)이 선택되면 제어부(240)는 해당 화자가 슬픔 감정을 표현하여 텍스트를 발음한 합성음 데이터를 서비스 제공 서버(120)로 요청할 수 있다.
요청에 따라 서비스 제공 서버(120)는 화자의 슬픈 감정으로 표현된 합성음 데이터를 생성하고, 생성된 합성음 데이터를 사용자 장치(200)로 제공할 수 있다.
다양한 실시예에서 도 9에서 설명한 바와 같이 윈도우(930)에서 다국어가 가능한 화자가 선택되면 제어부(240)는 도 10과 같이 다국어가 가능한 화자의 언어를 선택하기 위한 인터페이스 화면(1000)을 표시할 수 있다.
도 10을 참조하면, 인터페이스 화면(1000)은 화자의 언어를 선택하기 위한 언어 선택 영역(1010)을 포함할 수 있다. 언어 선택 영역(1010)은 화자가 가능한 복수의 언어 각각을 나타내는 아이콘을 포함할 수 있다. 예를 들어, '영어'를 나타내는 아이콘(1020)이 선택되면 제어부(240)는 텍스트 및 선택된 언어인 '영어'에 기반하여 합성음 데이터를 생성하도록 서비스 제공 서버(120)로 요청할 수 있다.
요청에 따라 서비스 제공 서버(120)는 텍스트 및 영어를 기반으로 하는 합성음 데이터를 생성하고, 생성된 합성음 데이터를 사용자 장치(200)로 제공할 수 있다.
다양한 실시예에서 화자별 텍스트 영역이 둘 이상 선택되면 도 10과 같이 둘 이상의 화자별 텍스트 영역의 화자들을 나타내는 화자 아이콘들이 함께 표시될 수 도 있다.
다양한 실시예에서 운율 특성 및 발음 특성에 대한 조절(또는 설정)이 완료되면 제어부(240)는 도 11과 같이 앞서 설명한 운율 특성 및 발음 특성이 조절(또는 설정)된 합성음 데이터를 출력하기 위한 인터페이스 화면(1100)을 표시할 수 있다.
도 11을 참조하면, 인터페이스 화면(1100)은 전체 문장에 해당하는 합성음 데이터 또는 선택된 문장에 해당하는 합성음 데이터를 생성하기 위한 선택 영역(1110) 및 생성된 합성음 데이터를 다운로드하기 위한 아이콘(1120)을 포함할 수 있다.
예를 들어, 전체 문장에 해당하는 합성음 데이터를 생성하기 위한 선택과 함께 다운로드를 위한 아이콘(1120)이 선택되면 제어부(240)는 전체 문장에 해당하는 합성음 데이터를 서비스 제공 서버(120)로 요청할 수 있다. 요청에 따라 서비스 제공 서버(120)는 전체 문장에 해당하는 합성음 데이터를 생성하고, 생성된 합성음 데이터를 사용자 장치(200)로 제공할 수 있다. 제어부(240)는 서비스 제공 서버(120)로부터 제공된 합성음 데이터를 저장부(230)에 저장할 수 있다.
다양한 실시예에서 선택된 문장에 해당하는 합성음 데이터의 생성이 선택되고, 텍스트 표시 영역(1130)에서 일부의 텍스트가 선택된 후 아이콘(1120)이 선택되면 제어부(240)는 선택된 텍스트에 해당하는 합성음 데이터를 서비스 제공 서버(120)로 요청할 수 있다.
요청에 따라 서비스 제공 서버(120)는 선택된 텍스트에 해당하는 합성음 데이터를 생성하고, 생성된 합성음 데이터를 사용자 장치(200)로 제공할 수 있다. 제어부(240)는 서비스 제공 서버(120)로부터 제공된 합성음 데이터를 저장부(230)에 저장할 수 있다.
다양한 실시예에서 텍스트 파일의 텍스트가 복수의 문단으로 구분되어 있을 경우 제어부(240)는 도 12와 같이 각 문단에 따라 별개의 화자를 선택하고, 선택된 화자 및 각 문단을 나타내는 텍스트를 표시할 수 있는 인터페이스 화면(1210)을 표시할 수 있다.
도 12를 참조하면, 텍스트 파일(1200)은 문단별로 분리된 텍스트를 포함할 수 있다. 이러한 텍스트 파일(1200)이 획득되면 제어부(240)는 획득된 텍스트 파일에 대한 합성음 데이터의 생성을 서비스 제공 서버(120)로 요청할 수 있다.
요청에 따라 서비스 제공 서버(120)는 텍스트 파일의 문단별로 분리된 텍스트에 기반하여 합성음 데이터를 생성하고, 생성된 합성음 데이터를 사용자 장치(200)로 제공할 수 있다. 이러한 경우 제어부(240)는 문단별로 구분된 텍스트를 표시하기 위한 다수의 텍스트 표시 영역을 포함하는 인터페이스 화면(1210)을 제공할 수 있다. 이를 통해 사용자가 문단별로 텍스트를 일일이 분리할 필요 없이 편리하게 문단 단위로 운율 제어 및 발음 제어 등이 가능하다.
하기에서는 음성 특성 중 발음 특성을 설정하기 위한 인터페이스 화면에 대해서 도 13을 참조하여 구체적으로 설명하도록 한다.
도 13을 참조하면, 제어부(240)는 음성 특성 중 발음 특성을 설정하기 위한 인터페이스 화면(1300)을 표시할 수 있다.
이러한 인터페이스 화면(1300)은 화자별 텍스트를 표시하기 위한 제1 영역(1305) 및 텍스트에 관련하여 서비스 제공 서버(120)로부터 제공된 합성음 데이터의 운율 특성 및 발음 특성을 조정하기 위한 제2 영역(1310)을 포함할 수 있다.
여기서, 제1 영역(1305)은 선택된 화자를 선택하기 위한 객체(또는 선택된 화자를 나타내는 객체)(1315) 및 텍스트를 표시하는 텍스트 표시 영역(1320)을 포함할 수 있다. 화자 선택의 경우 도 6을 통해서 설명한 바와 같은 화자 선택 동작이 수행될 수 있다.
제1 영역(1305)이 선택되거나, 화자 선택을 위한 체크박스와 같은 아이콘(1325)이 선택되면 제어부(240)는 선택된 화자를 나타내는 화자 아이콘(1330)을 제2 영역(1310)에 더 표시할 수 있다.
이어서, 텍스트 표시 영역(1320)을 통해 텍스트의 적어도 일부가 선택되면 제어부(240)는 선택된 적어도 일부의 텍스트에 해당하는 합성음 데이터의 운율 특성을 조절하기 위한 운율 제어 영역(1335) 및 발음 특성을 설정하기 위한 발음 제어 영역(1340)을 활성화할 수 있다.
특히, 발음 제어 영역(1340)은 알파벳으로 읽기, 한 문자씩 읽기, 숫자 읽기 및 괄호 읽기와 같은 발음 제어 설정을 위한 객체들(1345, 1350, 1355, 1360)을 포함할 수 있다.
예를 들어, 텍스트 표시 영역(1320)에 표시된 문장(예: “알파벳으로 읽기 표기”)(1365)이 선택되고 알파벳으로 읽기 설정을 위한 객체(1345)가 선택되면 제어부(240)는 선택된 문장을 화자가 알파벳으로 발음하도록 설정하기 위한 요청을 서비스 제공 서버(120)로 전달한다. 이러한 요청에 따라 서비스 제공 서버(120)는 화자가 “알파벳으로 읽기 표기” 문장을 알파벳으로 읽는 합성음 데이터를 생성하고, 생성된 합성음 데이터를 사용자 장치(200)로 제공한다. 다양한 실시예에서 서비스 제공 서버(120)는 합성음 데이터 전체 중 “알파벳으로 읽기 표기” 문장에 해당하는 적어도 일부를 화자가 알파벳으로 읽는 것으로 변환하고, 일부 변환된 합성음 데이터를 사용자 장치(200)로 제공할 수도 있다.
이러한 경우 제어부(240)는 텍스트 입력 영역(1320)의 “알파벳으로 읽기 표기”에 알파벳 읽기가 설정됨을 알리기 위한 제1 그래픽 객체(1370)를 표시할 수 있다. 이러한 제1 그래픽 객체(1370)는 알파벳 읽기가 설정된 문장의 앞뒤에 표시될 수 있으나, 이에 한정되지 않는다.
다양한 실시예에서 텍스트 표시 영역(1320)에 표시된 문장(예: “숫자읽기 표기(상세옵션 구분은 하지 않음)”)이 선택되고, 숫자 읽기 설정을 위한 객체(1355)가 선택되면 제어부(240)는 선택된 문장을 화자가 시간, 돈, 날짜, 및 전화번호 등 중 어느 하나의 숫자로 발음하도록 설정하기 위한 요청을 서비스 제공 서버(120)로 전달한다. 이때, 숫자의 발음을 선택하기 위해 제어부(240)는 시간, 돈, 날짜, 및 전화번호 등 중 어느 하나의 숫자 발음을 선택하기 위한 윈도우를 표시할 수 있다. 윈도우를 통해 어느 하나의 숫자 발음이 선택되면 제어부(240)는 선택된 숫자 발음과 함께 요청을 서비스 제공 서버(120)로 전달한다.
이러한 요청에 따라 서비스 제공 서버(120)는 화자가 “숫자읽기 표기(상세옵션 구분은 하지 않음)” 문장을 시간, 돈, 날짜, 및 전화번호 등 중 어느 하나의 숫자 발음으로 읽는 합성음 데이터를 생성하고, 생성된 합성음 데이터를 사용자 장치(200)로 제공한다.
이러한 경우 제어부(240)는 텍스트 입력 영역(1320)의 “숫자읽기 표기(상세옵션 구분은 하지 않음)”에 숫자 읽기가 설정됨을 알리기 위한 제2 그래픽 객체(1375)를 표시할 수 있다. 이러한 제2 그래픽 객체(1375)는 숫자 읽기가 설정된 문장의 앞뒤에 표시될 수 있으나, 이에 한정되지 않는다.
다양한 실시예에서 텍스트 표시 영역(1320)에 표시된 문장(예: “동일 영역에 [알파벳으로 읽기], [숫자 읽기] 옵션을 적용 시”)이 선택되고, 해당 문장에 둘 이상의 발음 특성을 설정하기 위한 선택이 있으면 제어부(240)는 해당 문장에 대한 둘 이상의 발음 특성을 설정하기 위한 요청을 서비스 제공 서버(120)로 전달한다. 예를 들어, 알파벳으로 읽기 및 숫자 읽기 설정이 선택된 경우 서비스 제공 서버(120)는 선택된 문장을 화자가 알파벳과 숫자로 발음하는 합성음 데이터를 생성하거나, 합성음 데이터 전체 중 선택된 문장에 해당하는 일부의 합성음 데이터를 화자가 알파벳과 숫자로 발음하는 합성음 데이터로 변환하여 이를 사용자 장치(200)로 제공할 수 있다.이러한 경우 제어부(240)는 텍스트 입력 영역(1320)의 “동일 영역에 [알파벳으로 읽기], [숫자 읽기] 옵션을 적용 시”에 알파벳 읽기 및 숫자 읽기가 설정됨을 나타내기 위한 그래픽 객체들(1380)을 표시할 수 있다. 이러한 그래픽 객체들(1380)은 서로 대응시킨 제1 그래픽 객체(1370)와 제2 그래픽 객체(1375)를 포함할 수 있다. 이러한 그래픽 객체들(1380) 또한 해당 문장의 앞뒤에 표시될 수 있으나, 이에 한정되지 않는다.
다양한 실시예에서 표시된 그래픽 객체들(예: 제1 그래픽 객체(1370), 제2 그래픽 객체(1375) 및 그래픽 객체들(1380)) 중 적어도 하나가 선택되면 해당 그래픽 객체들 중 적어도 하나가 앞뒤에 표시된 문장 전체가 선택될 수 있다.
다양한 실시예에서 텍스트 표시 영역(1320)에 표시된 문장(예: “말풍선 선택시 괄호읽기가 활성화, 기본적으로 체그된 상태이며 언체크시 텍스트컬러를 흐리게 보여줌)”)이 선택되고, 해당 문장에 괄호 읽기를 설정하기 위한 객체(1360)가 선택되면 제어부(240)는 해당 문장에 대한 괄호 읽기를 설정하기 위한 요청을 서비스 제공 서버(120)로 전달한다. 예를 들어, 해당 문장은 괄호를 포함할 수 있다.
이러한 요청에 따라 서비스 제공 서버(120)는 화자가 문장에 포함된 괄호를 발음하는 합성음 데이터를 생성하거나, 합성음 데이터 전체 중 선택된 문장에 해당하는 일부의 합성음 데이터를 화자가 문장에 포함된 괄호를 발음하는 합성음 데이터로 변환하여 이를 사용자 장치(200)로 제공할 수 있다.
이러한 경우 제어부(240)는 텍스트 입력 영역(1320)의 “(말풍선 선택시 괄호읽기가 활성화, 기본적으로 체그된 상태이며 언체크시 텍스트컬러를 흐리게 보여줌)”에 괄호 읽기가 설정됨을 나타내기 위해 도면부호 1385와 같이 표시할 수 있다. 예를 들어, 제어부(240)는 해당 문장이 텍스트 표시 영역(1320)에 표시되는 다른 문장들과 서로 다른 색상을 갖도록 표시할 수 있으나, 이에 한정되지 않으며, 괄호 읽기가 설정됨을 나타내기 위한 다양한 방식으로 표현될 수 있다.
제시된 실시예에서 설명한 인터페이스 화면들의 구성은 상술한 내용으로 한정되지 않으며, 각 인터페이스 화면을 구성하는 객체들은 다양하게 구성될 수 있다.
이와 같이 본 발명은 사용자가 쉽고 편리하게 사용자가 원하는 사용자 맞춤형 오디오 콘텐츠를 제작 및 편집할 수 있고, 사용자가 편집한 오디오 콘텐츠에 대한 정보를 직관적으로 확인할 수 있다.
본 발명의 실시예에 따른 장치 및 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 시스템
110, 200: 사용자 장치
120, 300: 서비스 제공 서버

Claims (14)

  1. 데이터를 송수신하도록 구성된 통신부;
    데이터를 표시하도록 구성된 표시부; 및
    상기 통신부, 및 상기 표시부와 연결하도록 구성된 제어부를 포함하고,
    상기 제어부는,
    텍스트를 기반으로 하는 오디오 콘텐츠 제작을 위한 제1 요청을 오디오 콘텐츠 제작 서비스를 제공하는 서비스 제공 서버로 전달하고,
    상기 제1 요청에 따라 상기 오디오 콘텐츠 제작에 관한 인터페이스 화면을 상기 표시부를 통해 표시하도록 구성되고,
    상기 인터페이스 화면은, 상기 텍스트를 표시하는 텍스트 표시 영역 및 상기 텍스트를 기반으로 생성된 합성음 데이터의 적어도 일부 구간에 대한 운율 특성을 조절하기 위한 운율 제어 영역을 포함하고,
    상기 제어부는, 상기 적어도 일부 구간의 상기 운율 특성을 조절하기 위한 제2 요청을 상기 서비스 제공 서버로 전달하고,
    상기 제2 요청에 따라 상기 서비스 제공 서버에 의해 상기 적어도 일부 구간에 대한 운율 특성이 조절되면 상기 운율 특성이 조절된 적어도 일부 구간에 대응하는 텍스트에, 상기 조절된 운율 특성을 시각적으로 나타내는 그래픽 객체를 표시하도록 구성되는, 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치.
  2. 제1항에 있어서, 상기 운율 특성은,
    상기 합성음 데이터의 강도(pitch), 속도(speed), 음량(volume) 및 끊어읽기 중 적어도 하나를 포함하고,
    상기 제어부는, 상기 강도, 상기 속도, 상기 음량 및 상기 끊어읽기를 서로 다른 그래픽 객체로서 표현하도록 구성되는, 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치.
  3. 제1항에 있어서, 상기 제1 요청은,
    상기 텍스트 및 사용자에 의해서 선택된 화자에 기반하여 상기 합성음 데이터를 생성하기 위한 요청인, 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치.
  4. 제2항에 있어서, 상기 제2 요청은,
    상기 텍스트 표시 영역에 표시되는 텍스트 중 사용자에 의해서 선택된 적어도 일부 텍스트에 해당하는 적어도 일부 합성음 데이터의 상기 운율 특성을 조절하기 위한 요청인, 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치.
  5. 제4항에 있어서, 상기 제어부는,
    둘 이상의 운율 특성을 조절하기 위한 요청을 상기 서비스 제공 서버로 전달하고, 상기 서비스 제공 서버에 의해 상기 선택된 적어도 일부 구간에 대한 상기 둘 이상의 운율 특성이 조절되면 상기 선택된 적어도 일부 구간에 대응하는 텍스트와 상기 둘 이상의 조절된 운율 특성 각각을 나타내는 그래픽 객체를 서로 중첩하여 표시하도록 구성되는, 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치.
  6. 제3항에 있어서,
    상기 둘 이상의 조절된 운율 특성 각각의 그래픽 객체는 서로 다른 색상 및 형태를 갖는, 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치.
  7. 제3항에 있어서, 상기 인터페이스 화면은,
    상기 선택된 화자의 발음 특성을 설정하기 위한 적어도 하나의 객체를 포함하는 발음 제어 영역을 더 포함하는, 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치.
  8. 제어부에 의해서 수행되는 오디오 콘텐츠를 제작하기 위한 사용자 인터페이스 제공 방법에 있어서,
    텍스트를 기반으로 하는 오디오 콘텐츠 제작을 위한 제1 요청을 오디오 콘텐츠 제작 서비스를 제공하는 서비스 제공 서버로 전달하는 단계;
    상기 제1 요청에 따라 상기 텍스트를 표시하는 텍스트 표시 영역 및 상기 텍스트를 기반으로 생성된 합성음 데이터의 적어도 일부 구간에 대한 운율 특성을 조절하기 위한 운율 제어 영역을 포함하는 인터페이스 화면을 표시하는 단계;
    상기 적어도 일부 구간의 상기 운율 특성을 조절하기 위한 제2 요청을 상기 서비스 제공 서버로 전달하는 단계; 및
    상기 제2 요청에 따라 상기 서비스 제공 서버에 의해 상기 적어도 일부 구간에 대한 운율 특성이 조절되면 상기 운율 특성이 조절된 적어도 일부 구간에 대응하는 텍스트에, 상기 조절된 운율 특성을 시각적으로 나타내는 그래픽 객체를 중첩하여 표시하는 단계를 포함하는, 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 방법.
  9. 제8항에 있어서, 상기 운율 특성은,
    상기 합성음 데이터의 강도(pitch), 속도(speed), 음량(volume) 및 끊어읽기 중 적어도 하나를 포함하고,
    상기 강도, 상기 속도, 상기 음량 및 상기 끊어읽기는 서로 다른 그래픽 객체로서 표현되도록 구성되는, 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 방법.
  10. 제8항에 있어서, 상기 제1 요청은,
    상기 텍스트 및 사용자에 의해서 선택된 화자에 기반하여 상기 합성음 데이터를 생성하기 위한 요청인, 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 방법.
  11. 제9항에 있어서, 상기 제2 요청은,
    상기 텍스트 표시 영역에 표시되는 텍스트 중 사용자에 의해서 선택된 적어도 일부 텍스트에 해당하는 적어도 일부 합성음 데이터의 상기 운율 특성을 조절하기 위한 요청인, 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 방법.
  12. 제11항에 있어서,
    둘 이상의 운율 특성을 조절하기 위한 요청을 상기 서비스 제공 서버로 전달하는 단계; 및
    상기 서비스 제공 서버에 의해 상기 선택된 적어도 일부 구간에 대한 상기 둘 이상의 운율 특성이 조절되면 상기 선택된 적어도 일부 구간에 대응하는 텍스트와 상기 둘 이상의 조절된 운율 특성 각각을 나타내는 그래픽 객체를 서로 중첩하여 표시하는 단계를 더 포함하는, 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 방법.
  13. 제10항에 있어서,
    상기 둘 이상의 조절된 운율 특성 각각의 그래픽 객체는 서로 다른 색상 및 형태를 갖는, 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 방법.
  14. 제10항에 있어서, 상기 인터페이스 화면은,
    상기 선택된 화자의 발음 특성을 설정하기 위한 적어도 하나의 객체를 포함하는 발음 제어 영역을 더 포함하는, 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 방법.
KR1020210170436A 2021-12-01 2021-12-01 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치 및 방법 KR102548088B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210170436A KR102548088B1 (ko) 2021-12-01 2021-12-01 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210170436A KR102548088B1 (ko) 2021-12-01 2021-12-01 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20230082485A true KR20230082485A (ko) 2023-06-08
KR102548088B1 KR102548088B1 (ko) 2023-06-27

Family

ID=86766018

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210170436A KR102548088B1 (ko) 2021-12-01 2021-12-01 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102548088B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210082153A (ko) * 2019-04-09 2021-07-02 네오사피엔스 주식회사 사용자 인터페이스를 통해 텍스트에 대한 합성 음성을 생성하는 방법 및 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210082153A (ko) * 2019-04-09 2021-07-02 네오사피엔스 주식회사 사용자 인터페이스를 통해 텍스트에 대한 합성 음성을 생성하는 방법 및 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Alexander J. Fiannaca et al., ‘ Voicesetting: Voice Authoring UIs for Improved Expressivity in Augmentative Communication’, CHI 2018, April 2018.* *

Also Published As

Publication number Publication date
KR102548088B1 (ko) 2023-06-27

Similar Documents

Publication Publication Date Title
US10671251B2 (en) Interactive eReader interface generation based on synchronization of textual and audial descriptors
US6324511B1 (en) Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment
JP3938121B2 (ja) 情報処理装置及びその制御方法、プログラム
JP5248321B2 (ja) 翻訳文の柔軟な表示
KR101143034B1 (ko) 음성 명령을 명확하게 해주는 중앙집중식 방법 및 시스템
US20060194181A1 (en) Method and apparatus for electronic books with enhanced educational features
US11657725B2 (en) E-reader interface system with audio and highlighting synchronization for digital books
US8798999B2 (en) Dialog design tool and method
US10692494B2 (en) Application-independent content translation
CN112219214A (zh) 用于面试训练的具有时间匹配反馈的系统及方法
US7165034B2 (en) Information processing apparatus and method, and program
JP5321058B2 (ja) 情報付与システム、情報付与方法、情報付与プログラム及び情報付与プログラム記録媒体
JP2005174026A (ja) 情報処理装置及びその制御方法、プログラム
US7730403B2 (en) Fonts with feelings
US20140349259A1 (en) Device, method, and graphical user interface for a group reading environment
JP2003241880A (ja) 制御装置
US20140315163A1 (en) Device, method, and graphical user interface for a group reading environment
TW200842616A (en) Techniques for customization of phonetic schemes
JP7200533B2 (ja) 情報処理装置およびプログラム
US20080243510A1 (en) Overlapping screen reading of non-sequential text
KR101406983B1 (ko) 텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 서버 및 단말
KR102353797B1 (ko) 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템
KR102548088B1 (ko) 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치 및 방법
US20140067399A1 (en) Method and system for reproduction of digital content
KR102689396B1 (ko) 인공지능 기술이 융합된 전자책 기반의 디지털 저작 장치 및 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right