KR102465504B1 - 디지털 오디오북 제작시스템 및 그 방법 - Google Patents

디지털 오디오북 제작시스템 및 그 방법 Download PDF

Info

Publication number
KR102465504B1
KR102465504B1 KR1020200139958A KR20200139958A KR102465504B1 KR 102465504 B1 KR102465504 B1 KR 102465504B1 KR 1020200139958 A KR1020200139958 A KR 1020200139958A KR 20200139958 A KR20200139958 A KR 20200139958A KR 102465504 B1 KR102465504 B1 KR 102465504B1
Authority
KR
South Korea
Prior art keywords
digital audio
digital
data
text data
audio data
Prior art date
Application number
KR1020200139958A
Other languages
English (en)
Other versions
KR20220055644A (ko
Inventor
이장우
Original Assignee
이장우
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이장우 filed Critical 이장우
Priority to KR1020200139958A priority Critical patent/KR102465504B1/ko
Priority to PCT/KR2021/012649 priority patent/WO2022092565A1/ko
Publication of KR20220055644A publication Critical patent/KR20220055644A/ko
Application granted granted Critical
Publication of KR102465504B1 publication Critical patent/KR102465504B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 디지털 오디오북 제작시스템 및 그 방법에 관한 것으로서, 더욱 상세하게는 텍스트 데이터를 디지털 오디오 데이터로 변환하여 온디맨드 디지털 오디오북을 제작하고 지정형으로 유저가 원하는 음색을 선택적으로 적용하여 디지털 오디오북을 제작하며, 유저가 텍스트 데이터를 업로딩하여 맞춤형 디지털 오디오 북을 제작하는 시스템 및 그 방법에 관한 것이다.
본 발명의 실시예에 따른 디지털 오디오북 제작시스템은, 저작권을 갖는 출판사 서버와 계약을 체결하고 해당 출판사의 서적 데이터를 수집하여 디지털 텍스트 데이터로 변환하고, 이를 디지털 음성 파일 형태의 로 디지털 오디오 데이터로 변환하며, 상기 음성 파일 형태의 로(Raw) 디지털 오디오 데이터를 유저 단말에서 선택한 음색으로 변환해서 유저 단말에 제공하는 디지털 오디오북 서버; 및
상기 디지털 오디오북 서버에 유무선 네트워크를 통해 접속하여 로(Raw) 디지털 오디오 데이터나, 원하는 음색을 선택해서 상기 로 디지털 오디오 파일을 원하는 음색으로 변환한 지정 디지털 오디오 데이터를 다운로드하여 실행하고, 텍스트 데이터를 업로드해서 이 텍스트 데이터에 대한 로(Raw) 디지털 오디오 데이터나 지정 디지털 오디오 데이터를 다운로드하여 실행하는 다수의 유저 단말;
을 포함하여 구성된다.

Description

디지털 오디오북 제작시스템 및 그 방법 {Digital Audio Book Production System and the Method}
본 발명은 디지털 오디오북 제작시스템 및 그 방법에 관한 것으로서, 더욱 상세하게는 텍스트 데이터를 디지털 오디오 데이터로 변환하여 온디맨드(on-demand) 디지털 오디오북을 제작하고 지정형(designated type)으로 유저가 원하는 음색을 선택적으로 적용하여 디지털 오디오북을 제작하며, 유저가 텍스트 데이터를 업로딩해서 맞춤형(customized type) 디지털 오디오북을 제작하는 시스템 및 그 방법에 관한 것이다.
성우나 자원봉사자들이 낭독(내레이션)을 통하여 녹음하여 저장하는 방식의 아날로그 오디오북에 비해, 디지털 오디오북은 문자나 화상과 같은 정보가 도서로 간행되었거나 간행될 수 있는 저작물의 내용이 내레이션 과정을 거치지 않고 디지털 텍스트 데이터를 디지털 오디오 데이터로 전자 기록매체·저장장치에 수록된 뒤, 유무선 정보통신망을 통해 컴퓨터나 휴대 단말기로 그 내용을 읽고 보고 들을 수 있도록 한 디지털 도서를 의미한다.
이 디지털 오디오북은 서적의 문자나 화상이 표시되는 전용의 리더기 또는 디스플레이 수단이 마련된 PC 등의 단말기를 통해 시각적, 청각적으로 표시되도록 하여 구현되며, 그 기술이 점차 발달함에 따라 사용자가 직접 읽는 형태에서 벗어나 서적의 내용을 음성(디지털 오디오 데이터)으로 출력하여 시각장애인이나 유아, 어린이 등이 서적과 친숙할 수 있도록 하거나, 운전이나 운동 등 비주얼(visual) 데이터를 볼 수 없는 상황에서 유용하게 오더블(audible) 데이터로 출력하는 형태이다.
특히, 이 디지털 오디오북은 구매자의 입장에서 종이책에 비해 저렴한 가격, 온라인 구매(전자책 출판사 웹사이트에서 다운로드)를 통한 시간절약, 필요한 부분의 별도구매는 물론, 독서를 하면서 동영상 자료를 보거나 배경음악을 들을 수도 있는 이점을 제공하고, 출판사의 입장에서는 인쇄나 제본 등의 제작비와 유통비 절약, 적은 재고 부담과 책 내용의 손쉬운 업데이트 등에 의해 영업상의 이익을 얻을 수 있게 된다.
그런데 기존의 아날로그 오디오북을 제작하고자 할 경우, 성우를 채용하여 전용의 스튜디오에서 내레이션과 녹음의 출판과정을 수행하기 때문에 과도한 제작경비와 책 한 권당 최소 7~8시간의 녹음 과정을 거쳐야 하므로 절대로 대량 생산체제를 갖출 수 없는 문제점이 발생된다.
특히, 상기와 같은 과도한 제작경비와 아날로그 방식의 제작시간 및 전용의 스튜디오를 갖춘 오디오북 출판사의 높은 벽에 전세계에서 실시간으로 출판되는 각종 소설, 수필 등의 문학이나 전공기술 등의 전문분야 서적들이 오디오북으로 제작되지 못하여 오디오북 자체가 대단히 제한된 수량만 한정적으로 제작되는 문제점이 있었다.
등록번호 제10-1789057호(공고일자 2017년10월23일)
본 발명은 상술한 문제점을 해결하기 위하여 안출된 것으로서, 오디오북을 더욱 저렴한 경비에 의해 손쉽고 빠르게 실시간으로 제작할 수 있도록 하고, 이를 통하여 전세계 서적들이 필요시 원하는 대로 디지털 오디오북으로 생성될 수 있도록 하는 디지털 오디오북 제작시스템 및 그 방법을 제공하는데 그 목적이 있다.
상술한 목적을 달성하기 위한 본 발명의 실시예에 따른 디지털 오디오북 제작시스템은, 저작권을 갖는 출판사 서버와 계약을 체결하고 해당 출판사의 서적 데이터를 수집하여 디지털 텍스트 데이터로 변환하고, 이를 디지털 음성 파일 형태의 로(Raw) 디지털 오디오 데이터로 변환하며, 상기 음성 파일 형태의 로(Raw) 디지털 오디오 데이터를 유저 단말에서 선택한 음색으로 변환해서 유저 단말에 제공하는 디지털 오디오북 서버; 및
상기 디지털 오디오북 서버에 유무선 네트워크를 통해 접속하여 로(Raw) 디지털 오디오 데이터나, 원하는 음색을 선택해서 상기 로 디지털 오디오 파일을 원하는 음색으로 변환한 지정 디지털 오디오 데이터를 다운로드하여 실행하며, 텍스트 데이터를 업로드해서 이 텍스트 데이터에 대한 로(Raw) 디지털 오디오 데이터나 지정 디지털 오디오 데이터를 다운로드하여 실행하는 다수의 유저 단말;
을 포함하여 구성된다.
또한, 상기 유저 단말은 디지털 오디오 데이터를 실행하면서 듣다가 중요한 대목이 있을 경우 음성 명령을 통하여 검색이나 추출을 통해 디지털 오디오 데이터의 필요 부분을 오디오 및 텍스트 데이터로 저장하는 것을 특징으로 한다..
또한, 상기 디지털 오디오북 서버는 수집한 디지털 텍스트 데이터나, 유저 단말에서 업로드한 디지털 텍스트 데이터를 각종 언어로 번역하고, 번역 디지털 텍스트 데이터를 로 디지털 오디오 데이터나 지정 디지털 오디오 데이터로 변환하는 것을 특징으로 한다.
또한, 상기 디지털 오디오북 서버는 수집한 디지털 텍스트 데이터나, 유저 단말에서 업로드한 디지털 텍스트 데이터에 대해 인공지능으로 전체 문맥을 분석하여 문맥에 어울리는 음색으로 로 디지털 오디오 데이터를 생성하는 것을 특징으로 한다.
또한, 상기 디지털 오디오북 서버는 유저 단말의 유저를 무료의 일반 유저와 유료의 고객 유저로 구분하여 관리하고, 일반 유저와 고객 유저의 디지털 오디오북 서비스를 차등 제공하는 것을 특징으로 한다.
그리고 상기 디지털 오디오북 서버는 유저 단말을 통한 유저의 사용 데이터를 인공지능으로 분석하여 유저가 필요로 하거나 선호하는 디지털 오디오 데이터를 유저 단말에 추천하는 것을 특징으로 한다.
본 발명의 실시예에 따른 디지털 오디오북 제작방법은, (A) 유저 단말에서 유무선 네트워크를 통해 디지털 오디오북 서버에 접속하여 디지털 오디오북 서버에서 제공하는 디지털 텍스트 데이터를 선택하거나 자체 저장한 디지털 텍스트 데이터를 업로드하는 단계;
(B) 상기 디지털 텍스트 파일을 선택한 경우 디지털 오디오북 서버에서 이를 디지털 음성 파일 형태의 로 디지털 오디오 데이터로 변환하는 단계;
(C) 상기 유저 단말에서 원하는 음색을 선택한 경우 디지털 오디오북 서버에서 로 디지털 오디오 데이터를 선택된 음색으로 변환하여(지정 디지털 오디오 데이터로 변환하여) 유저 단말에 제공하는 단계;
(D) 상기 유저 단말에서 제공된 지정 디지털 오디오 데이터를 실행하여 디지털 오디오북 서비스를 이용하는 단계;
(E) 상기 (A)단계에서 자체 저장한 디지털 텍스트 데이터를 업로드할 때 원하는 언어를 선택하여 업로드할 경우 디지털 오디오북 서버에서 업로드한 디지털 텍스트 데이터를 선택된 언어로 번역하여 번역 디지털 텍스트 데이터를 생성한 후, 상기 (B)단계 이후를 수행하는 것을 특징으로 한다.
또한, 상기 (B)단계에서 디지털 오디오북 서버가 인공지능으로 전체 문맥을 분석하여 문맥에 부합하는 음색을 지정하는 것을 특징으로 한다.
그리고 (F) 상기 (D)단계의 지정 디지털 오디오 데이터를 실행하는 도중에 유저 단말의 음성 명령을 통해 검색(indexing)하거나 필요 부분을 추출(copy)하는 단계와,
(G) 상기 필요 부분을 추출(copy)하는 경우 추출된 디지털 오디오/텍스트 데이터를 유저 단말에 저장(paste)하는 단계 및
(G') 상기 검색(indexing)하는 경우 인덱싱된 디지털 오디오/텍스트 데이터를 반복 실행하거나 유저 단말에 저장하는 단계를 더 수행하는 것을 특징으로 한다.
상술한 과제의 해결 수단에 의하면, 제작경비를 상승시키고 제작시간이 과도하게 소비되는 방식인 별도의 스튜디오나 성우 등에 의존하지 않고 대단히 저렴하고 실시간으로 대량생산이 가능한 시스템에 의해 디지털 오디오북의 제작이 가능하게 함으로써, 전세계에 출판되었거나 출판될 각종 서적들을 유저 단말을 통하여 책을 읽을 수 없는 환경에서 저렴하고 편리하게 오디오북을 듣게 함으로써 전인류의 집단 지성을 획기적으로 끌어 올릴 수 있는 플랫폼이 될 수 있다.
도 1은 본 발명의 실시예에 따른 디지털 오디오북 제작시스템의 구성도이다.
도 2는 도 1에 나타낸 디지털 오디오북 서버의 내부 구성도이다.
도 3은 본 발명의 실시예에 따른 디지털 오디오북 제작방법을 나타내는 순서도이다.
도 4는 본 발명의 실시예에 따른 디지털 오디오 데이터 실행 중 음성명령을 통한 인덱싱 및 추출 저장 방법을 나타내는 순서도이다.
이하 본 발명의 실시예에 대하여 첨부된 도면을 참고로 그 구성 및 작용을 설명하기로 한다.
도면들 중 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 참조번호 및 부호들로 나타내고 있음에 유의해야 한다.
하기에서 본 발명을 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명의 실시예에 따른 디지털 오디오북 제작시스템의 구성도이고, 도 2는 도 1에 나타낸 디지털 오디오북 서버의 내부 구성도이다.
도 1에 도시된 바와 같이 본 발명의 실시예에 따른 디지털 오디오북 제작시스템은 다수의 유저 단말(100a,100b,…,100n)과 디지털 오디오북 서버(300)가 유무선 네트워크(200)를 통하여 연결된다.
상기 유저 단말(100a,100b,…,100n)은 유무선 네트워크(200)를 통하여 디지털 오디오북 서버(300)에 접속하여 디지털 오디오북 서비스를 제공받는 유저가 소지하는 단말로서 예를 들어 PC나 스마트폰일 수 있다.
이를 위해 상기 유저 단말(100a,100b,…,100n)은 디지털 오디오북 서버(300)에서 제작하여 로 디지털 오디오 DB(312)에 저장한 로(Raw) 디지털 오디오 데이터를 다운로드하여 실행함으로써 편리하고 자유롭게 다양한 서적(디지털 오디오 데이터)을 들을 수 있게 하는 온디맨드(on-demand) 디지털 오디오북 서비스를 이용할 수 있다.
이때 유저 단말(100a,100b,…,100n)에서 원하는 음색을 선택해서 디지털 오디오북 서버(300)를 통해 상기 로 디지털 오디오 데이터를 원하는 음색으로 변환하여 지정(designated) 디지털 오디오 DB(314)에 저장할 수 있다.
또한, 상기 유저 단말(100a,100b,…,100n)은 미리 제작되어 있는 디지털 오디오북이 아니라, 유저 단말에서 자체 저장하고 있는 텍스트 데이터를 디지털 오디오 데이터로 변환하고자 할 경우 텍스트 데이터를 유저 단말(100a,100b,…,100n)에서 디지털 오디오북 서버(300)에 업로드하여 디지털 오디오북 서버(300)를 통해 로 디지털 오디오 데이터로 변환하고 원하는 음색을 선택 변환함으로써 맞춤형(customized) 디지털 오디오 데이터를 제작할 수 있다.
또한, 상기 유저 단말(100a,100b,…,100n)은 디지털 오디오북 서버(300)의 디지털 오디오 데이터를 실행하면서 듣다가 중요한 대목이 있을 경우 음성 명령을 통하여 검색이나 추출을 통해 디지털 오디오 데이터의 필요 부분을 오디오 및 텍스트 데이터로 저장할 수 있다.
이를 통해 기존 오디오북의 경우 듣고 있다가 중요한 대목이 있어 저장하고자 할 경우 실행을 멈추고 기록해야 하는 번거로움을 해결할 수 있다.
또한, 상기 유저 단말(100a,100b,…,100n)은 디지털 오디오북 서버(300)의 번역 모듈(304)의 텍스트 데이터 번역 기능을 통하여 원하는 언어로 번역시킨 후 번역된 텍스트 데이터를 디지털 오디오 데이터로 변환 생성할 수 있다.
예를 들어 한글로 된 텍스트 데이터를 디지털 오디오 데이터로 제작하되, 텍스트 데이터를 선택하는(원하는) 언어로 번역시켜 번역된 텍스트 데이터를 디지털 오디오 데이터로 제작함으로써, 어떠한 텍스트 데이터를 원하는 언어의 디지털 오디오 데이터로 제작하고 유저가 디지털 오디오 데이터를 듣다가 원하는 언어로 전환하여 들을 수 있으며, 이를 통해 언어 학습에 유용하게 활용할 수 있다.
그리고 상기 유저 단말(100a,100b,…,100n)은 부정확하거나 부적합한 디지털 오디오 데이터에 대하여 디지털 오디오북 서버(300)에 업로드를 통해 업그레이드시키고 빅데이터화함으로써 디지털 오디오 서버(300)의 디지털 오디오 데이터 생성 알고리즘을 지속적으로 고도화시킬 수 있다.
도 2에 도시된 바와 같이, 디지털 오디오북 서버(300)는 라이센싱 모듈(301), TTS 모듈(302), 변환 모듈(303), 번역 모듈(304) 및 분석 모듈(305)을 포함하고, 서적에 대한 저작권을 갖는 출판사 서버(400) 및 성우의 내레이션과 흡사한 다양한 음색을 구비한 음색 서버(500)와 유무선으로 연결되어 있다.
상기 라이센싱 모듈(301)은 각종 출판사 서버와(400) 지적재산권 계약이나 저작권 계약을 체결하고 해당 출판사의 서적 데이터를 수집하여 디지털 텍스트로 변환해서 디지털 텍스트 DB(310)에 저장 관리한다.
상기 TTS 모듈(302)은 상기 디지털 텍스트 DB(310)에 저장된 텍스트 파일 형태의 각종 디지털 텍스트 데이터를 디지털 음성 파일 형태의 로 디지털 오디오 데이터로 변환하여 로 디지털 오디오 DB(312)에 저장 관리한다.
여기 TTS 모듈(302)은 TTS 알고리즘을 통하여 최적의 운율 모델을 추출하여 자연음 및 자연 음색에 가깝게 디지털 음성 파일 형태로 변환한다.
상기 변환 모듈(303)은 로 디지털 오디오 DB(312)에 저장된 디지털 음성 파일 형태의 로 디지털 오디오 데이터를 유저 단말(100a,100b,…,100n)의 요청에 따라 음색 서버(500)에서 음색을 선택하여 선택된 음색으로 변환해서 유저 단말(100a,100b,…,100n)에 제공하고, 지정 디지털 오디오 DB(314)에 저장 관리한다.
인간의 귀는 매우 예민하고 감각적이므로 반복적인 소리에 쉽게 피로를 느끼고 집중력이 저하되나, 본 발명에 따르면 유저가 상황에 따라 듣고 싶어하는 음색을 선택적으로 적용하여 맞춤형 지정 디지털 오디오 데이터를 제작하여 상시적으로 디지털 오디오북을 이용하더라도 항상 새롭고 쉽게 피로를 느끼거나 집중력이 저하되지 않는다.
상기 번역 모듈(304)은 라이센싱 모듈(301)을 통하여 수집되어 디지털 텍스트 DB(310)에 저장된 텍스트 파일 형태의 각종 디지털 텍스트 데이터나, 유저 단말(100a,100b,…,100n)에서 업로드된 디지털 텍스트 데이터를 각종 언어로 번역하여 번역 디지털 텍스트 DB(316)에 저장 관리한다.
상기 번역된 디지털 텍스트 데이터는 상기 유저 단말의 요청에 따라 상기 TTS 모듈(302)과 변환 모듈(303)을 통하여 지정 디지털 오디오 데이터로 변환되어 지정 디지털 오디오 DB(314)에 저장 관리된다.
상기 분석 모듈(305)은 유저 단말(100a,100b,…,100n)을 통한 유저의 사용 데이터를 인공지능으로 분석하여 유저가 필요로 하거나 선호하는 디지털 오디오 데이터를 추천 제공한다.
또한, 상기 분석 모듈(305)은 수집한 디지털 텍스트 데이터나, 유저 단말(100a,100b,…,100n)에서 업로드한 디지털 텍스트 데이터를 인공지능으로 전체 문맥을 분석하여 문맥에 가장 잘 어울리는 최적의 음색으로 로(기본) 디지털 오디오 데이터를 생성하되, 특히 대화형 텍스트에 대하여 문맥에 가장 잘 부합하는 음색으로 디지털 오디오 데이터를 생성함으로써 가장 자연음 및 자연음색에 가깝게 변환한다.
그리고 상기 각 모듈의 구현을 위해 상기 디지털 오디오북 서버(300)는 디지털 텍스트 DB(310), 로 디지털 오디오 DB(312), 지정 디지털 오디오 DB(314), 번역 디지털 텍스트 DB(316)를 운용하고 관리한다.
한편, 상기 디지털 오디오북 서버(300)는 유저 단말(100a,100b,…,100n)의 유저를 디지털 오디오북 서비스 이용료를 납부하지 않는 무료의 일반 유저와 디지털 오디오북 서비스 이용료를 납부하는 유료의 고객 유저로 구분하여 미도시된 유저 DB에 저장 관리하고, 일반 유저와 고객 유저의 디지털 오디오북 서비스를 다르게(차별하여) 제공할 수 있다.
예를 들어 일반 유저는 유저의 1일 또는 1회 사용 데이터를 제한하는 반면에 고객 유저의 1일 또는 1회 사용 데이터를 제한하지 않을 수도 있고, 일반 유저에게는 번역 모듈(304)의 번역 서비스나 분석 모듈(305)의 추천 서비스를 제공하지 않는 반면에 고객 유저에게는 번역이나 추천 서비스를 제공할 수 있다.
도 3은 본 발명의 실시예에 따른 디지털 오디오북 제작방법을 나타내는 순서도이다.
유저는 유저 단말(100a,100b,…,100n)을 이용하여 유무선 네트워크(200)를 통해 디지털 오디오북 서버(300)에 접속하여(S302) 로그인을 수행한 후, 디지털 오디오북 서비스를 이용하고자 하는 디지털 텍스트 데이터를 디지털 텍스트 DB(310)에서 선택하거나 유저 단말(100a,100b,…,100n)에 저장된 서적(디지털 텍스트 데이터)을 업로드한다(S034).
상기 디지털 텍스트 DB(310)에서 디지털 텍스트 데이터를 선택한 경우 TTS 모듈(302)에서 텍스트 파일 형태의 디지털 텍스트 데이터를 디지털 음성 파일 형태의 로 디지털 오디오 데이터로 변환하여 로 디지털 오디오 DB(312)에 저장한다(S306).
이를 위해서 인공지능으로 전체 문맥을 분석하여 문맥에 가장 잘 부합하는 최적의 음색을 지정할 수도 있다.
다음 유저 단말(100a,100b,…,100n)이 음색 서버(500)에서 원하는 음색을 선택하면(S308), 변환 모듈(303)에서 로 디지털 오디오 데이터를 선택된 음색으로 변환하여(지정 디지털 오디오 데이터로 변환하여) 지정 디지털 오디오 DB(314)에 저장하고 유저 단말(100a,100b,…,100n)에 제공한다(S310).
상기 유저 단말(100a,100b,…,100n)은 제공된 지정 디지털 오디오 데이터를 실행하여 디지털 오디오북 서비스를 이용한다.
상기 S304 단계에서 유저 단말(100a,100b,…,100n)에서 저장된 서적(디지털 텍스트 데이터)을 업로드하는 경우 유저가 원하는 언어를 선택하여 업로드할 경우도 있다(S320).
이때 디지털 오디오북 서버(300)의 번역 모듈(304)에서는 업로드한 디지털 텍스트 데이터를 선택된 언어로 번역하여 번역 디지털 텍스트 데이터를 생성하고(S322), 이후 번역 디지털 텍스트 데이터에 대해 S306 단계를 포함한 이후 단계를 수행한다.
도 4는 본 발명의 실시예에 따른 디지털 오디오 데이터 실행 중 음성명령을 통한 인덱싱 및 추출 저장 방법을 나타내는 순서도이다.
도 3의 상기 S312 단계 즉, 지정 디지털 오디오 데이터를 실행하여 유저가 유저 단말(100a,100b,…,100n)을 통해 디지털 오디오북 서비스를 제공받는 도중에(S402) 중요한 대목이 있어 저장하고자 할 경우 유저 단말(100a,100b,…,100n)의 음성 명령(Search by Voice Command)을 통해 검색(Indexing)을 하거나 필요 부분을 추출(Copy)한다(S404).
상기 필요 부분을 추출(Copy)하는 경우 추출된 디지털 오디오/텍스트 데이터를 유저 단말(100a,100b,…,100n)에 저장(Paste)하고(S406), 상기 저장된 디지털 오디오/텍스트 데이터를 번역한다(S408).
상기 검색(Indexing)을 하는 경우 인덱싱된 디지털 오디오/텍스트 데이터를 반복 실행하거나 유저 단말(100a,100b,…,100n)에 저장(Paste)하고(S410), 상기 저장된 디지털 오디오/텍스트 데이터를 번역한다(S412).
이와 같이 본 발명은 모든 서적들을 디지털 오디오북 서버를 통해 디지털 오디오 데이터로 변환하여 온디맨드(on-demand) 디지털 오디오북을 생성하고 지정형(designated type)으로 유저가 원하는 음색을 선택적으로 적용하여 디지털 오디오북을 다운받을 수 있으며, 유저 단말에서 디지털 오디오북 서버에 접속하고 텍스트 데이터를 업로딩하여 유저가 맞춤형(customized type) 디지털 오디오 데이터로 변환하여 다운로드 받을 수 있다.
또한, 생성된 디지털 오디오 데이터를 실행하고 들으면서 첫째 음성 명령을 통하여 디지털 오디오 데이터의 필요 부분을 오디오 및 텍스트 데이터로 추출하여 저장 기록할 수 있고, 둘째 음성 명령을 통하여 키워드로 검색하여 해당 데이터를 반복 재생하는 기술을 통하여 유저가 운전 중이나 운동 중 등 비주얼(visual) 데이터를 볼 수 없는 상황에서 유용하게 오더블(audible) 데이터를 실행하여 유익한 지식과 정보를 상시적으로 습득할 수 있다.
이상에서 본 발명에 대한 기술 사상을 첨부 도면과 함께 서술하였지만, 이는 본 발명의 바람직한 실시예를 예시적으로 설명한 것이지 본 발명을 한정하는 것은 아니다.
또한, 이 기술 분야의 통상의 지식을 가진 자라면 누구나 본 발명의 기술 사상의 범주를 이탈하지 않는 범위 내에서 다양한 변형 및 모방이 가능함은 명백한 사실이다.
100a,100b,…,100n: 유저 단말 200: 유무선 네트워크
300: 디지털 오디오북 서버 301: 라이센싱 모듈
302: TTS 모듈 303: 변환 모듈
304: 번역 모듈 305: 분석 모듈
400: 출판사 서버 500: 음색 서버

Claims (9)

  1. 지적재산권이나 저작권을 갖는 출판사 서버와 계약을 체결하고 해당 출판사의 서적 데이터를 수집하여 디지털 텍스트 데이터로 변환하고, 이를 디지털 음성 파일 형태의 로(Raw) 디지털 오디오 데이터로 변환하며, 상기 음성 파일 형태의 로(Raw) 디지털 오디오 데이터를 유저 단말에서 선택한 음색으로 변환해서 유저 단말에 제공하는 디지털 오디오북 서버; 및
    상기 디지털 오디오북 서버에 유무선 네트워크를 통해 접속하여 로(Raw) 디지털 오디오 데이터나, 원하는 음색을 선택해서 상기 로 디지털 오디오 데이터를 원하는 음색으로 변환한 지정 디지털 오디오 데이터를 다운로드하여 실행하고, 텍스트 데이터를 업로드해서 이 텍스트 데이터에 대한 로(Raw) 디지털 오디오 데이터나 지정 디지털 오디오 데이터를 다운로드하여 실행하는 다수의 유저 단말; 을 포함하되,
    상기 유저 단말은 디지털 오디오 데이터를 실행하면서 듣다가 중요한 대목이 있을 경우 음성 명령을 통하여 검색이나 추출을 통해 디지털 오디오 데이터의 필요 부분을 오디오 및 텍스트 데이터로 저장하고,
    상기 디지털 오디오북 서버는 수집한 디지털 텍스트 데이터나, 유저 단말에서 업로드한 디지털 텍스트 데이터에 대해 인공지능으로 전체 문맥을 분석하여 문맥에 어울리는 음색으로 로 디지털 오디오 데이터를 생성하는 것을 특징으로 하는 디지털 오디오북 제작시스템.
  2. 삭제
  3. 제1항에 있어서,
    상기 디지털 오디오북 서버는 수집한 디지털 텍스트 데이터나, 유저 단말에서 업로드한 디지털 텍스트 데이터를 각종 언어로 번역하고, 번역 디지털 텍스트 데이터를 로 디지털 오디오 데이터나 지정 디지털 오디오 데이터로 변환하는 것을 특징으로 하는 디지털 오디오북 제작시스템.
  4. 삭제
  5. 제1항에 있어서,
    상기 디지털 오디오북 서버는 유저 단말의 유저를 무료의 일반 유저와 유료의 고객 유저로 구분하여 관리하고, 일반 유저와 고객 유저의 디지털 오디오북 서비스를 차등 제공하는 것을 특징으로 하는 디지털 오디오북 제작시스템.
  6. 제1항에 있어서,
    상기 디지털 오디오북 서버는 유저 단말을 통한 유저의 사용 데이터를 인공지능으로 분석하여 유저가 필요로 하거나 선호하는 디지털 오디오 데이터를 유저 단말에 추천하는 것을 특징으로 하는 디지털 오디오북 제작시스템.
  7. (A) 유저 단말에서 유무선 네트워크를 통해 디지털 오디오북 서버에 접속하여 디지털 오디오북 서버에서 제공하는 디지털 텍스트 데이터를 선택하거나 자체 저장한 디지털 텍스트 데이터를 업로드하는 단계;
    (B) 상기 디지털 텍스트 데이터를 선택한 경우 디지털 오디오북 서버에서 이를 디지털 음성 파일 형태의 로 디지털 오디오 데이터로 변환하는 단계;
    (C) 상기 유저 단말에서 원하는 음색을 선택한 경우 디지털 오디오북 서버에서 로 디지털 오디오 데이터를 선택된 음색으로 변환하여(지정 디지털 오디오 데이터로 변환하여) 유저 단말에 제공하는 단계;
    (D) 상기 유저 단말에서 제공된 지정 디지털 오디오 데이터를 실행하여 디지털 오디오북 서비스를 이용하는 단계;
    (E) 상기 (A)단계에서 자체 저장한 디지털 텍스트 데이터를 업로드할 때 원하는 언어를 선택하여 업로드할 경우 디지털 오디오북 서버에서 업로드한 디지털 텍스트 데이터를 선택된 언어로 번역하여 번역 디지털 텍스트 데이터를 생성한 후, 상기 (B)단계 이후를 수행하는 단계를 포함하되,
    상기 (A)단계 이전에 디지털 오디오북 서버에서 지적재산권이나 저작권을 갖는 출판사 서버와 계약을 체결하고 해당 출판사의 서적 데이터를 수집하여 디지털 텍스트 데이터로 변환하고,
    상기 (B)단계에서 디지털 오디오북 서버가 인공지능으로 전체 문맥을 분석하여 문맥에 부합하는 음색을 지정하여 로 디지털 오디오 데이터를 생성하며,
    (F) 상기 (D)단계의 지정 디지털 오디오 데이터를 실행하는 도중에 유저 단말의 음성 명령을 통해 검색(indexing)하거나 필요 부분을 추출(copy)하는 단계와,
    (G) 상기 필요 부분을 추출(copy)하는 경우 추출된 디지털 오디오/텍스트 데이터를 유저 단말에 저장(paste)하는 단계 및
    (G') 상기 검색(indexing)하는 경우 인덱싱된 디지털 오디오/텍스트 데이터를 반복 실행하거나 유저 단말에 저장하는 단계를 더 수행하는 것을 특징으로 하는 디지털 오디오북 제작방법.
  8. 삭제
  9. 삭제
KR1020200139958A 2020-10-27 2020-10-27 디지털 오디오북 제작시스템 및 그 방법 KR102465504B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200139958A KR102465504B1 (ko) 2020-10-27 2020-10-27 디지털 오디오북 제작시스템 및 그 방법
PCT/KR2021/012649 WO2022092565A1 (ko) 2020-10-27 2021-09-16 디지털 오디오북 제작시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200139958A KR102465504B1 (ko) 2020-10-27 2020-10-27 디지털 오디오북 제작시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20220055644A KR20220055644A (ko) 2022-05-04
KR102465504B1 true KR102465504B1 (ko) 2022-11-11

Family

ID=81384169

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200139958A KR102465504B1 (ko) 2020-10-27 2020-10-27 디지털 오디오북 제작시스템 및 그 방법

Country Status (2)

Country Link
KR (1) KR102465504B1 (ko)
WO (1) WO2022092565A1 (ko)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070118408A (ko) * 2006-06-12 2007-12-17 에스케이 텔레콤주식회사 오디오북 서비스 제공 방법 및 시스템
US8756534B2 (en) * 2009-03-16 2014-06-17 Apple Inc. Methods and graphical user interfaces for editing on a multifunction device with a touch screen display
KR101578735B1 (ko) * 2009-06-10 2015-12-21 엘지전자 주식회사 이동 단말기 및 그 제어방법
KR101814431B1 (ko) * 2011-03-23 2018-01-30 에스케이플래닛 주식회사 오디오 파일 동기화를 위한 번역 서비스 시스템 및 그 방법
KR20130117996A (ko) * 2012-04-19 2013-10-29 정지훈 스마트 러닝 서비스를 제공하기 위한 시스템 및 그 방법
KR101789057B1 (ko) 2016-06-17 2017-10-23 한밭대학교 산학협력단 시각 장애인을 위한 자동 오디오 북 시스템 및 그 운영 방법

Also Published As

Publication number Publication date
KR20220055644A (ko) 2022-05-04
WO2022092565A1 (ko) 2022-05-05

Similar Documents

Publication Publication Date Title
CN101042752B (zh) 用于电子邮件管理的方法和系统
US6687383B1 (en) System and method for coding audio information in images
JP5030617B2 (ja) デジタル・オーディオ・プレーヤ上でrssコンテンツをレンダリングするためのrssコンテンツ管理のための方法、システム、およびプログラム(デジタル・オーディオ・プレーヤ上でrssコンテンツをレンダリングするためのrssコンテンツ管理)
US20130076788A1 (en) Apparatus, method and software products for dynamic content management
CN102867526A (zh) 用于分布式音频文件编辑的门户网站
CN101639943B (zh) 制作动画的方法和设备
US20130246063A1 (en) System and Methods for Providing Animated Video Content with a Spoken Language Segment
CN107015950A (zh) 一种scorm课件的生成方法及装置
JP2002304419A5 (ko)
JP2020056996A (ja) 音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体
CN105005431A (zh) 听写设备及其数据处理方法和相关装置
Hong et al. The use of AR to preserve and popularize traditional Chinese musical instruments as part of the formation of the tourist attractiveness of the national art of Guizhou province
KR101108003B1 (ko) 사용자 단어검색 이력을 통한 학습컨텐츠 제공 시스템
CN104065908B (zh) 用于创建和再现生动图片文件的设备和方法
WO2018120821A1 (zh) 一种演示文稿的制作方法和装置
US20150003812A1 (en) Method for collaborative creation of shareable secondary digital media programs
US20240205515A1 (en) Information processing system, information processing method, and storage medium
WO2018120820A1 (zh) 一种演示文稿的制作方法和装置
US20220391440A1 (en) Content providing system, content providing method, and storage medium
KR102465504B1 (ko) 디지털 오디오북 제작시스템 및 그 방법
KR101124798B1 (ko) 전자 그림책 편집 장치 및 방법
KR20090000745A (ko) 인터넷을 이용한 사용자 녹음방식의 소리책 제작 시스템 및방법
KR101432791B1 (ko) 문장 음 높낮이 표시방법 및 문장 음 높낮이를 표시하는 어학콘텐츠 서비스 시스템과 그 방법
KR102020341B1 (ko) 악보 구현 및 음원 재생 시스템 및 그 방법
KR20030013791A (ko) 인터넷 기반의 도서 음성 재생 시스템 및 그 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant