KR102632135B1

KR102632135B1 - 인공지능 독서 플랫폼

Info

Publication number: KR102632135B1
Application number: KR1020200107697A
Authority: KR
Inventors: 주세훈
Original assignee: 주세훈
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2024-02-01
Also published as: KR20220026771A

Abstract

본 발명은 인공지능 독서 플랫폼에 관한 것으로, 보다 상세하게는 인공지능을 통해 텍스트가 기 저장된 보이스에 상응하는 음성으로 표출되고, 표출되는 음성과 더불어 BGM(Background music) 등과 함께 재생되고, 기 저장된 보이스가 텍스트에 사용되는 비율 및 보이스의 범위가 소정의 방식으로 제어되어 적은 비용으로도 다수의 오디오북 출판이 가능한 인공지능 독서 플랫폼에 관한 것이다.
본 발명에 따른 인공지능 독서 플랫폼은, 선정된 도서의 텍스트데이터를 포함하는 도서정보를 수집하는 도서정보수집부, 그리고 유명인의 목소리로 녹음된 문장으로부터 음성데이터를 수집하는 음성정보수집부, 그리고 상기 텍스트데이터 및 상기 음성데이터를 연결 합성하는 연결 합성 파트, 연결 합성된 텍스트-음성데이터로부터 스펙트로그램을 생성하는 스펙트로그램 생성 파트 및 상기 스펙트로그램에 상응하는 파형을 갖는 음성을 표출시키는 음성표출부를 포함하는 AI 음성합성부, 그리고 상기 선정된 도서의 텍스트를 음성으로 녹음한 제1보이스, 상기 AI 음성합성부에서 합성된 제2보이스 및 선택된 BGM을 조합하여 오디오북을 생성하는 오디오북 생성부를 포함한다.

Description

인공지능 독서 플랫폼{ARTIFICIAL INTELLIGENCE READING PLATFORM}

본 발명은 인공지능 독서 플랫폼에 관한 것으로, 보다 상세하게는 인공지능(AI)을 통해 텍스트가 기 저장된 보이스에 상응하는 음성으로 표출되고, 표출되는 음성과 더불어 BGM(Background music) 및 효과음도 함께 재생되어 책의 내용이 생동감 있게 전달되며, 기 저장된 보이스가 텍스트에 사용되는 비율 및 보이스의 범위가 소정의 방식으로 제어되어 적은 비용으로도 다수의 오디오북 출판이 가능한 인공지능 독서 플랫폼에 관한 것이다.

음성 합성 기술은 문장 데이터로부터 음성 데이터를 생성해내는 기술로, 일반적으로 다음과 같은 세 단계를 따른다. 첫 번째 단계인 문장 데이터 분석 단계에서는 규칙 기반 기술을 이용하여 문장 데이터에서 음소 데이터와 각 음소별 지속시간 데이터를 분석한다. 두 번째 단계는 음소 데이터를 바탕으로 미리 학습된 음향 모델을 이용하여 입력된 음소 데이터가 어떤 음성 데이터에 가장 가까운지 판단하여, 이로부터 음성 특징벡터를 합성하는 단계이다. 이 때, 사용되는 각 음소별 확률 모델을 음향 모델이라고 부른다. 세 번째 단계는 음성 특징벡터를 바탕으로 실제 음성을 합성하는 단계이며, 이러한 작업을 하는 모델을 보코더(Vocoder)라고 한다.

최근에는 스마트폰, 차량 네비게이션 등 개인 휴대용 장치의 개발과 보급이 활발하게 이루어짐에 따라 음성 합성 기술에 대한 요구 또한 급속도로 증가하고 있다.

한편 종래의 경우, 머신 러닝을 통해 입력된 텍스트에서 음절 간의 포먼트(formant)를 추론하고, 추론된 포먼트에 기반하여 합성되는 음성의 음정을 조절하는 기법 등이 많이 활용되었으나, 유명 연예인, 성우 등의 목소리를 함께 합성을 수행하는 데에는 많은 부자연스러움이 존재하였다.

유명 연예인, 성우 등의 목소리를 함께 합성시킴으로써 어린이, 청소년 등 독서에 관심이 없는 사람들 또한 흥미롭게 전자 책을 청독할 수 있는 인공지능 독서 플랫폼의 제공을 목적으로 한다.

또한 전자 책 상의 텍스트를 구체적으로 분류 처리함으로써 텍스트에 정확하게 대응되는 음성을 표출시킬 수 있는 인공지능 독서 플랫폼의 제공을 목적으로 한다.

또한 AI 음성합성부에서 합성된 음성 및 성우 등에 의해 직접 녹음된 음성을 혼용함으로써 적은 비용으로도 다수의 오디오북 출판이 가능할 뿐만 아니라 다량의 음성데이터를 확보함으로써 고객 맞춤형 오디오북을 제공할 수 있는 인공지능 독서 플랫폼의 제공을 목적으로 한다.

상기 과제의 해결을 목적으로 하는 본 발명에 따른 인공지능 독서 플랫폼은, 컴퓨터상에서 구현되는 인공지능 독서 플랫폼에 있어서, 선정된 도서의 텍스트데이터를 포함하는 도서정보를 수집하는 도서정보수집부, 그리고 유명인의 목소리로 녹음된 문장으로부터 음성데이터를 수집하는 음성정보수집부, 그리고 상기 텍스트데이터 및 상기 음성데이터를 연결 합성하는 연결 합성 파트, 연결 합성된 텍스트-음성데이터로부터 스펙트로그램을 생성하는 스펙트로그램 생성 파트 및 상기 스펙트로그램에 상응하는 파형을 갖는 음성을 표출시키는 음성표출부를 포함하는 AI 음성합성부, 그리고 상기 선정된 도서의 텍스트를 음성으로 녹음한 제1보이스, 상기 AI 음성합성부에서 합성된 제2보이스 및 선택된 BGM을 조합하여 오디오북을 생성하는 오디오북 생성부를 포함한다.

또한 상기 연결 합성 파트 및 상기 스펙트로그램 생성 파트는 Tacotron2로 구현되고, 상기 음성표출부는 Waveglow로 구현된다.

또한 소정의 회원의 정기구독을 처리하는 정기구독처리부를 더 포함하되, 상기 정기구독처리부는, 정기구독 결제를 수신하는 결제수신파트, 수신된 결제에 따라 해당 회원 자격에 정기구독회원을 할당하는 자격할당파트 및, 상기 결제에 따라 해당 회원에게 종이책 및 전차책 중 적어도 하나와 상기 오디오북을 조합한 상품을 할당하는 상품할당파트를 포함한다.

또한 상기 정기구독처리부는 사용자의 결제 요청을 처리하는 결제 인터페이스를 더 포함하고, 상기 결제 인터페이스는, 사용자의 결제를 처리하는 결제 화면에 결제 인증 수단에 따라 결정되는 특정 문자, 특정 숫자, 지문 모양의 일부분 중 어느 하나로 구성된 인증 경로 및 동전 형상의 아이콘을 출력하여, 상기 아이콘이 상기 인증 경로를 따라 드래그된 경우에만 결제 인증을 완료하되, 시점과 종점을 제외한 상기 인증 경로의 어느 한 지점에 상기 아이콘과 동일한 형상의 인증포인트를 생성하고, 상기 인증포인트에서 드래그 동작을 멈추면, 상기 인증포인트의 내부가 점점 채워지는 효과를 출력하고, 상기 인증포인트가 모두 채워진 후에만 상기 드래그 동작을 재개할 수 있도록 구성된다.

상기 구성, 단계 및 특징을 갖는 본 발명은 유명 연예인, 성우 등의 목소리를 함께 합성시킴으로써 어린이, 청소년 등 독서에 관심이 없는 사람들 또한 흥미롭게 전자책을 청독할 수 있는 효과를 갖는다.

또한 AI 음성합성부에서 합성된 음성 및 성우 등에 의해 직접 녹음된 음성을 혼용함으로써 적은 비용으로도 다수의 오디오북 출판이 가능할 뿐만 아니라 다량의 음성데이터를 확보함으로써 고객 맞춤형 오디오북을 제공할 수 있다는 효과를 갖는다.

또한 청독자가 음성뿐만 아니라 분위기에 맞는 배경음악 및 효과음도 같이 들을 수 있음으로써 보다 생동감 있게 청독할 수 있는 효과를 갖는다.

도 1은 본 발명에 따른 인공지능 독서 플랫폼의 기능부를 도시한 블록도.
도 2는 TTS의 알고리즘을 개념적으로 도시한 블록도.
도 3는 STT의 알고리즘을 개념적으로 도시한 블록도.
도 4는 하이브리드 오디오북의 생성 알고리즘을 도시한 블록도.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 구현예(態樣, aspect)(또는 실시예)들을 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 구현예(태양, 態樣, aspect)(또는 실시예)를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, ~포함하다~ 또는 ~이루어진다~ 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 명세서에서 기재한 ~제1~, ~제2~ 등은 서로 다른 구성 요소들임을 구분하기 위해서 지칭할 것일 뿐, 제조된 순서에 구애받지 않는 것이며, 발명의 상세한 설명과 청구범위에서 그 명칭이 일치하지 않을 수 있다.

먼저 컴퓨터상(CPU 등의 프로세서가 사용되는 모든 디바이스를 통칭)에서 구현되는 인공지능 독서 플랫폼에 있어서, 선정된 도서의 텍스트데이터를 포함하는 도서정보를 수집하는 도서정보수집부(10)에 대해 살펴보기로 한다.

상기 텍스트는 세부적으로 구분시키면 하나의 종합된 음의 뭉치로 이루어진 덩어리인 음절과 음운의 최소단위에 해당하는 음소로 구분할 수 있는데, 어떠한 텍스트를 먼저 음절이나 음소로 분해할 필요가 있고, 분해된 음절이나 음소를 텍스트 벡터로 사상(寫像)시켜야 한다.

분해된 음절이나 음소를 텍스트 벡터로 사상하기 위해서는 원-핫 인코딩을 통해서 나온 원-핫 벡터들은 표현하고자 하는 텍스트 인덱스를 1로 주고, 나머지 인덱스에는 전부 0으로 표현하는 벡터 또는 매트릭스로 표현된 형태이다. 그런데 텍스트를 컴퓨터 등이 읽을 수 있는 형태로 모아 놓은 언어자료 등에 해당하는 코퍼스(Corpus)가 2만개에 해당하는 경우에 이러한 원-핫 벡터들의 차원(Dimension) 또한 2만개에 해당하게 되어 항상 고차원의 벡터 또는 메트릭스가 형성되어 공간적인 낭비를 야기하게 된다.

따라서 본 발명에 따른 도서의 텍스트데이터를 포함하는 도서정보를 수집하는 도서정보수집부(10)는 텍스트 벡터의 차원을 코퍼스로 상정하지 않고, 기 설정된 값으로 차원을 설정할 수 있는데, 가령 차원을 128로 설정하였다면, 텍스트 벡터의 차원은 128로 설정될 수 있고, 또한 이에 따라 텍스트 벡터의 인덱스들은 0과 1로만 구성되는 것이 아니라 실수 값도 가질 수 있게 된다. 따라서 상기한 원-핫 인코딩을 통해 사상한 원-핫 벡터들(카운트 기반의 단어 표현을 포함)과는 달리 본 발명에 따라 생성된 텍스트 벡터는 공간적인 낭비가 없는 장점이 존재하게 된다.

또한 본 발명과 같이, 기 설정된 차원에 실수 값을 갖는 인덱스가 분배됨으로써 각 단어 간의 유사도를 알 수 있게 되는 장점이 존재하게 된다. 가령, 강아지라는 단어는 통상적으로 귀엽다, 예쁘다 등과 같은 단어와 함께 쓰이기 마련인데, 강아지를 표현하는 인덱스들의 집합으로 이루어진 텍스트 벡터와 귀엽다를 표현하는 인덱스들의 집합으로 이루어진 텍스트 벡터 사이의 거리는 가깝게 구성될 수 있다는 것이다. 즉, 종래의 원-핫 벡터들로만 구성할 경우에는 단순히 인덱스들이 0과 1의 값을 독립된 차원에 독립적으로 분배되는 형식인 반면에 본 발명에 따른 텍스트 벡터의 경우에는 독립된 차원에 독립적으로 분배되는 형식이 아니라 독립된 차원에다가 인덱스들을 적절히 분산(따라서 인덱스는 0 및 1의 값만 갖는 것이 아니라 실수 값을 갖게 되는 것이다.)하여 표현하게 되는 것이다.

물론 설정된 차원으로 인덱스들을 분배시키기 위해서는 원-핫 벡터들에 특정 가중치

를 곱하여 텍스트 벡터를 생성해야 하며, 이러한 텍스트 벡터를 생성시키는 일 실시예로, Word2Vec, FastText, Glove 등을 들 수 있겠다.

그리고 상기한 텍스트 백터를 생성을 하기 전에, 텍스트를 전처리하는 텍스트 전처리부를 더 포함할 수 있는데, 여기서 텍스트 전처리라고 함은 한국어는 교착어라는 점을 감안할 때, 형태소를 분류하는 작업을 포함하는 토큰화 작업, 유의미한 토큰만을 선별하기 위해 큰 의미가 없는 토큰을 제거시키는 불용어 제거 작업, 병렬 연산 처리를 위한 패딩 작업을 수행하는 것을 말한다.

그리고 형태소를 분류하는 작업을 포함하는 토큰화 작업은 텍스트를 음절, 음소 단위 등으로 분류하여 인덱스를 부여함은 물론, 자립형태소인지 의존형태소인지도 고려하여 인덱스를 부여하는 것을 말한다.

예컨대, 접사, 어미, 조사 등과 상관없이 자립하여 사용할 수 있는 자립형태소로서 체언(명사, 대명사, 수사 등), 수식언(관형사, 부사), 감탄사 등이 있고, 다른 형태소와 결합하여 사용되는 의존형태소로서 접사, 어미, 조사, 어간 등이 있는데, '나는 어제 밥을 먹었다.'에서 자립형태소는 '나', '어제', '밥'이 해당되고 의존형태소로 '는', '을', '먹-', '었-', '다.' 가 해당한다.

즉, 영어 등과는 달리 한국어의 경우 어절 별로 항상 동일하게 독립적인 단어를 구성하는 것이 아니어서 본 발명과 같이 한국어에 대한 자연어 처리를 올바르게 수행하기 위해서 형태소 별로도 토큰화 작업을 수행하게 된다.

그 다음으로 유의미한 토큰만을 선별하기 위해 큰 의미가 없는 토큰을 제거시키는 불용어 제거라 함은 예컨대, '아', '차라리', '비추어보아' 등과 같이, 실질적으로 큰 의미가 없는 텍스트 등을 제거하는 작업을 말하는데, 이를 수행하는 이유는 실제 의미 분석을 수행하는 데에는 거의 기여하는 바 없는 단어 토큰을 제거함으로써 보다 정확한 자연어 처리를 수행하기 위함이다.

물론 상기한 토큰화 작업은 자모 별, 형태소 별 등을 기준으로 인덱스를 부여함으로써 실시될 수 있고, 불용어 제거의 경우에는 토큰을 삭제함으로써 실시될 수 있다.(물론 이러한 기준으로 부여된 인덱스를 통해 원-핫 벡터를 추출하는 것이다.)

그 다음으로 병렬 연산 처리를 위한 패딩(padding)이라 함은 자연어 처리를 수행하는 과정에서 각 문장의 길이가 서로 다르기 마련인데, 이 때 그 문장들의 길이를 전부 동일하게 만드는 과정을 말한다.

이처럼 문장들의 길이를 전부 동일하게 만든 경우에는 연산 과정에서 같은 문서 자체를 하나의 매트릭스로 파악하여 병렬 처리를 수행할 수 있게 되는 것이다. 예컨대, 제일 긴 문장의 길이가 7인 경우에는 길이가 5인 문장의 마지막 두 번째 성분과 마지막 성분은 0을 가지기 때문에 자연어 처리 과정에서 0을 갖는 부분은 모두 무시한 채로 하나의 매트릭스로 병렬 처리할 수 있게 되는 것이다.

그 다음으로 유명인의 목소리로 녹음된 문장으로부터 음성데이터를 수집하는 음성정보수집부(20)에 대해 살펴보기로 한다.

그 전에 먼저 텍스트데이터는 두 가지로 분류될 수 있는데, 문장의 종류에 따라 평서문과 대화문으로 분류될 수 있으며, 이들의 분류 기준은 따옴표의 유무에 해당하고, 분류 단위는 문장 단위로 수행된다.

즉, 따옴표가 존재하지 않는 문장의 경우에는 평서문으로 인식되고, 따옴표가 존재하는 문장의 경우에는 대화문으로 인식하게 된다.

먼저 텍스트데이터가 평서문으로 인식이 된 경우에는 후술할 인공지능 TTS에 의해 상기 텍스트데이터는 음성 문장으로 변환이 이루어진 후에 상기 음성 문장을 다시 STT를 이용하여 검수용 텍스트로 변환시켜 상기 평서문과 검수용 텍스트의 일치 여부를 확인함으로써 올바른 음성 문장을 표출할 수 있게 된다.

상기 평서문과 검수용 텍스트가 일치하는 경우에는 정상 판단을 받게 되고, 일치하지 않는 경우에는 비정상 판단을 받아 다음 프로세스로 진행이 되지 않고, 마킹을 수행하게 된다.

그리고 정상 판단을 받은 다음에는 다시 음성 평서문끼리 문장 단위로 다시 매칭이 수행된다. 여기서 매칭이 수행된다는 것은 음성 문장의 시간적 정렬이 텍스트데이터와 동일하게 이루어지게 되어 문장 단위로 분류된 음성 문장들이 텍스트데이터의 순서와 일치되는 것을 의미한다. 그리고 후술할 음성 대화문이 음성 평서문 사이에 삽입되어 텍스트데이터에 완전하게 대응되는 음성데이터가 형성될 수 있게 된다.

여기서 음성 문장으로 변환시키기 위한 인공지능 TTS에 기준으로서 사용되는 데이터가 상기한 음성데이터에 해당한다.

상기 음성데이터는 기 녹음된 유명인의 목소리를 기반으로 하여 텍스트데이터와 연결 합성(Concat)의 재료가 될 수 있는 데이터를 말하는데, 이에 대해서는 뒤에서 자세히 설명하기로 한다.

그리고 유명인 별로 음성데이터가 구분되고, 구분된 음성데이터 별로 음성 문장 또한 구분될 수 있다. 예컨대 제1유명인에 의해 녹음된 목소리를 기반으로 하여 수집된 음성데이터를 제1음성데이터라고 하였을 때, 인공지능 TTS를 이용하여 어떤 텍스트데이터와 제1음성데이터를 연결 합성 등의 과정을 거쳐 생성시킨 음성 문장이 제1음성 문장이 되는 것이다. 그리고 하나의 도서에 복수의 음성데이터, 복수의 음성 문장이 사용될 수 있다.

그 다음으로 텍스트데이터에 따옴표가 존재하여 대화문으로 인식이 된 경우에 대해 살펴보면, 각 대화문에 해당하는 텍스트데이터를 유명인, 성우 등이 더빙하여 녹음을 수행하여 음성 대화문을 생성한다.

이도 마찬가지로 생성된 음성 대화문을 STT를 통해 검수용 텍스트로 변환시켜 상기 대화문과 검수용 텍스트의 일치 여부를 확인함으로써 올바른 음성 문장을 표출할 수 있게 된다.

그리고 음성데이터를 수집한다는 말의 의미는 텍스트데이터 또는 음성 문장으로부터 음성 벡터를 생성시킨다는 의미인데, 이 또한 AI에 의해 수행될 수 있으며, 더 구체적으로는 기 공지된 화자 임베딩 방식을 통하여 음성 벡터가 생성될 수 있겠다.

즉, 상기한 음성정보수집부(20)의 음성 벡터는 상기한 텍스트 벡터 생성 원리와 동일한 원리로 생성될 수 있으며, 물론 상기 텍스트 벡터 생성 과정과는 달리 텍스트의 음소, 음절, 형태소 등을 분류하여 전처리시키는 과정은 포함되지 않는다.

그리고 상기 텍스트데이터 및 상기 음성데이터를 연결 합성하는 연결 합성 파트 및 연결 합성된 텍스트-음성 데이터로부터 스펙트로그램을 생성하는 스펙트로그램 생성 파트를 포함하는 AI 음성합성부(30)에 대해 살펴보기로 한다.

먼저 여기서 상기 텍스트데이터 및 상기 음성데이터를 연결 합성한다고 함은 상기 텍스트 벡터 및 상기 음성 벡터를 연결(Concat)한다는 것을 의미하는데, 더욱 구체적으로는 특정 부분의 텍스트를 특정 음성으로 할당시키기 위해 i번째 텍스트 벡터를 하나의 열로 갖고, j번째 음성 벡터를 또 다른 열로 갖는 벡터 세트(set)들을 성분으로 하는 매트릭스를 생성하는 것을 의미한다.

즉,

를 만족하는 매트릭스를 생성하는 것을 의미하는데, 여기서

가 i번째 텍스트 벡터에 해당하고,

가 j번째 보이스 벡터에 해당하게 된다. 따라서

가

에 연결된 경우에는 i번째 텍스트는 j번째 보이스에 분배될 수 있게 되는 것이다.

즉, 단일한 하나의 음성 합성 모델에서 여러 사람(유명 연예인, 성우 등)의 목소리를 합성할 수 있도록 설계된 것이다.

그리고 연결 합성된 텍스트-음성데이터(텍스트-음성 벡터를 의미)를 Attention 시키기 위해서는 시퀀스 투 시퀀스 네트워크, Attention Mechanism를 포함하는 딥러닝 네트워크를 사용할 수 있는데, 여기서 딥러닝 네트워크를 통하여 복수의 텍스트 벡터, 음성 벡터 쌍으로부터 두 데이터 간의 시간적 정렬을 추정하는 방법을 학습하게 된다. 그리고 이는 기 공지된 어텐션 스코어 함수를 사용하여 수행될 수 있다.

그리고 여기서 사용되는 인공신경망은 입력층 및 출력층 이외에도 입력층 및 출력층 사이에 은닉층을 더 포함하는 심층신경망이 사용되는데, 이러한 심층신경망을 이용하여 가중치를 스스로 찾게 된다. 이러한 심층신경망의 실시예로 RNN, LSTM, 양방향 LSTM 등이 사용될 수 있다.

그리고 이렇게 Attention된 텍스트-음성 벡터들을 통해 멜 스펙트로그램을 생성하게 되는 것이다.

그 다음으로 AI 음성합성부(30)는 상기 스펙트로그램에 상응하는 파형을 갖는 음성을 표출시키는 음성표출부를 더 포함한다. 상기 음성표출부의 실시예로 Waveglow 등의 보코더를 들 수 있겠다. 또한 상기 연결 합성 파트 및 상기 스펙트로그램 생성 파트의 실시예로서 Tacotron2를 들 수 있겠다.

그 다음으로 상기 선정된 도서의 텍스트를 음성으로 녹음한 제1보이스, 상기 AI 음성합성부(30)에서 합성된 제2보이스 및 선택된 BGM을 조합하여 오디오북을 생성하는 오디오북 생성부(40)에 대해 살펴보기로 한다.

여기에서 제1보이스라고 함은 앞서 언급한 대화문이 유명인의 목소리로 직접 녹음된 부분을 말하고, 제2보이스라고 함은 앞서 언급한 평서문이 인공지능 TTS로 녹음된 부분을 말하는 것이다. 그리고 이들과 선택된 BGM을 조합하여 완전한 오디오북을 생성하게 되는 것이다.

특징적인 점은 도서의 모든 부분이 유명인의 목소리로 녹음되지 않아 비용 및 시간을 절약할 수 있게 되며, 평서문은 다양한 목소리(다양한 음성데이터)를 기반으로 인공지능 TTS를 통해 다양한 음성 문장의 표출할 수 있게 된다. 아울러 대화문은 성우 등의 목소리가 직접 녹음된 음성 문장이 표출되어 해당 도서를 입체적으로 전달할 수 있게 되는 효과를 갖게 된다.

여기서 다양한 음성데이터가 사용될 수 있는 이유로는 종래와는 달리 전체 텍스트를 유명인의 목소리로 녹음하는 것이 아니고, 텍스트의 일부분만을 녹음하여 음성정보수집부(20)에 저장하는 형태여서, 동일한 비용으로도 다양한 유명인의 음성데이터를 수집할 수 있게 되는 것이다.

그 다음으로 소정의 회원의 정기구독을 처리하는 정기구독처리부(50)를 더 포함하는데, 상기 정기구독처리부(50)는, 정기구독 결제를 수신하는 결제수신파트, 수신된 결제에 따라 해당 회원 자격에 정기구독회원을 할당하는 자격할당파트 및, 상기 결제에 따라 해당 회원에게 종이책 및 전차책 중 적어도 하나와 상기 오디오북을 조합한 상품을 할당하는 상품할당파트를 포함하게 된다.

여기서 상기 정기구독처리부(50)는 정기구독 결제를 완료하여 회원 자격을 얻게 된 회원에게 원하는 책 또는 앞으로 읽어야 할 책을 추천하는 로드맵 서비스 파트를 더 포함한다. 여기서 로드맵 서비스 파트는 회원의 독서 이력 등을 참조하여 추천을 수행할 수 있으며, 여기서 추천을 한다는 의미는 하드웨어적으로는 디스플레이 상에 소정의 추천 팝업창 등을 띄운다거나 스피커 상에 추천 음성을 출력한다거나 다양하게 수행될 수 있을 것이다. 물론 로드맵 서비스 파트는 인공지능을 이용하여 구현될 수 있겠다.

그리고 회원에게 원하는 목소리(톤, 피치, 강세 등)를 추천하여 추천이 승인된 목소리를 제2보이스로 하여 오디오북을 재생시키거나 추천이 승인된 목소리가 녹음된 오디오북을 추천하는 보이스추천 서비스 파트를 포함한다.

즉, 5만여종 이상의 다수의 책이 저장되어 있는 독서 플랫폼 상에서 로드맵 서비스 및 보이스추천 서비스를 받아 책에 대한 접근성을 대폭 높일 수 있게 된다.

가령, 동일한 내용을 담고 있는 책이라고 하더라도 자간, 여백의 간격 등에 따라 전달력의 차이를 갖게 되는데, 고객(회원)이 원하는 목소리(예컨대 해당 고객이 평소 좋아하는 연예인의 목소리)로 책의 내용을 접하게 됨으로써 꼭 읽어야만 하는 책이지만 단순히 눈에 잘 들어오지 않아 읽지 않게 되는 일을 방지할 수 있게 된다.

즉, 시각적인 요소 이외에도 청각적인 요소를 제공하여 책의 내용을 습득할 수 있으면서도 고객이 원하는 목소리로 청독(聽讀)할 수 있어 책을 흥미롭게 읽을 수 있게 된다. 이는 결국 서적을 시각 요소, 청각 요소 및 구체화된 청각 요소를 결합시킴으로써 서적에 입체감을 부여함으로써 이루어지는 것이다.

여기서 구체화된 청각 요소라고 함은 앞서 언급한 복수의 음성데이터 및 복수의 음성데이터를 기반으로 생성된 복수의 음성 문장을 의미한다.(또한 이는 결국 앞서 언급했듯이 동일한 비용으로도 훨씬 더 많은 음성데이터를 구비할 수 있기 때문에 가능한 것이다.) 이에 더하여 대량 제작이 가능하므로 풍부한 컨텐츠를 구비할 수 있다는 장점 또한 갖게 된다.

아울러 발품을 팔지 않고서도 고객이 원하는 책을 추천받을 수 있어 시간을 절약할 수 있다는 장점을 갖게 된다. 이는 특히, 시간이 부족한 수험생이 다수의 과목을 포함하는 수험서적을 추천받을 수 있을 때 그 효과가 더욱 극대화될 수 있게 된다.

또한 글자를 읽는 데에 어려움이 있는 미취학 아동에게는 책에 대한 접근성을 대폭 높일 수 있다는 효과를 갖게 된다. 그리고 후술하겠지만 보이스 오디션 파트를 통해 선정된 후보의 목소리를 기반으로 하여 제2보이스를 생성시켜 미취학 아동에게 적합한 목소리로 책의 내용을 전달할 수 있다는 효과를 갖는다.

그 다음으로 상품할당파트에서 할당되는 상품으로는 이북(e-book)과 더불어 일반오디오북 및 하이브리드오디오북을 포함하는데, 먼저 일반오디오북은 인공지능 TTS 기반으로 생성된 제2보이스 및 BGM이 조합된 오디오북을 말하며, 하이브리드오디오북은 대화문이 유명인의 목소리로 녹음된 제1보이스, 인공지능 TTS 기반으로 합성된 제2보이스 및 BGM이 조합된 오디오북을 말한다.

여기서 일반오디오북은 평서문 위주의 실용서, 인문교양서적 등에 적합할 것이며, 하이브리드오디오북의 경우 대화문도 함께 섞여 있는 소설 등에 적합할 것이다.

그 다음으로는 본 발명에 따른 인공지능 독서 플랫폼은 전술한 바와 같이 보이스 오디션 파트를 포함하는데, 텍스트데이터의 일정 부분이 녹음된 회원의 목소리가 보이스 오디션 파트의 입력부에 입력되면 보이스 오디션 파트의 선정부에 의해 선정된 목소리가 보이스 오디션 파트의 출력부에서 출력된다.

여기서 보이스 오디션 파트의 선정부에 의해 목소리가 선정되는 방식은 해당 플랫폼을 관리하는 관리자에 의해 선정되거나 AI에 의해 해당 플랫폼에 등록되어 있는 목소리와 최대한 겹치지 않는 목소리가 선정되거나 각 회원들에 의해 진행된 온라인 투표 결과를 반영하여 선정하는 등 해당 선정 방식은 다양할 수 있다.

그리고 여기서 특징적인 점은 기존에는 값 비싼 성우, 유명인 등만이 녹음에 참여하여 오디오북의 비용이 올라갈 수밖에 없었는데, 회원의 목소리도 사용함으로써 성우 목소리의 사용에 따른 비용절감 및 보이스 오디션 파트의 출력부에서 출력이 이루어지는 회원에게는 소정의 수익이 제공되어 경제적인 선순환이 유도될 수 있다.

그리고 상기 소정의 수익은 음원처럼 목소리가 일정 시간 이상 플레이된 경우 일정 시간만큼 음성권 정산을 해주는 방식과 일정 기간별 사용권 정산 방식을 통해 분배될 수 있으며, 이는 수익관리부에 의해 수행된다. 보다 구체적으로 상기 수익관리부는 선정된 목소리의 재생 시간을 저장하는 저장 파트, 상기 저장파트에 저장된 재생 시간을 바탕으로 단위 시간 당 수익금을 계산하거나 단위 날짜 별 수익금을 계산하는 정산 파트를 포함한다. 따라서 선정된 고객은 음성권 등에 대해 정산을 받을 수 있게 되는 것이다.

한편, 스마트폰, 테블릿 PC 등 터치스크린(D) 형식의 디바이스가 널리 사용됨에 따라 터치스크린(D) 상에서 빠르고, 간편하게 사용자의 결제 요청을 처리하는 결제 인터페이스를 더 포함할 수 있는데, 종래에 왕왕 사용되었던 결제 인증수단으로서의 공인인증서의 경우 공인인증서 비밀번호를 터치스크린(D) 상의 자판을 통해 번거롭게 입력해야 하고, 아울러 최근에는 비밀번호에 특수문자를 섞어야 하는 등 해당 비밀번호를 외우기에도 상당히 까다로워져 스마트기기에 익숙하지 않은 사용자(예컨대 노인)의 경우에는 결제 인증에 상당히 애를 먹고 있는 실정이다.

아울러, 비밀번호를 외우고 있다 손 치더라도 통상적으로 비밀번호가 매우 조그맣게 표시되어 노안이 있는 사용자의 경우에는 인증번호 식별이 곤란하였는바, 이에 따라 누구나 간편하게 터치스크린(D) 상에 출력된 인증경로를 드래그를 수행하기만 하면 빠르고, 간편하게 사용자의 결제 요청을 처리할 수 있는 결제 인터페이스를 소개하고자 한다.

먼저 상기 결제 인터페이스는, 사용자의 결제를 처리하는 결제 화면에 결제 인증 수단에 따라 결정되는 특정 문자, 특정 숫자, 지문 모양의 일부분 중 어느 하나로 구성된 인증 경로(P1) 및 동전 형상의 아이콘(I)을 출력하게 된다.

그리고 여기서의 인증수단은 공인인증서, 주민등록번호, 지문 등에 해당할 수 있으며 예컨대 공인인증서를 인증수단으로 설정한 경우 비밀번호에 포함되어 있는 문자, 사용자의 이름 중 하나의 글자로 구성되는 문자 등이 인증수단에 따라 결정되는 특정 문자로 결정될 수 있고, 같은 원리로 지문을 인증수단으로 설정한 경우 지문에 포함되어 있는 모양의 일부분이 인증 경로(P1)로 구성된다.

즉, 서버로부터 인증 요청을 수신한 사용자는 기 설정된 인증수단(공인인증서, 주민등록번호, 지문 등)에 따라 결정되는 특정 문자, 숫자, 지문 모양의 일부분 중 어느 하나로 구성된 인증 경로(P1) 및 동전 형상의 아이콘(I)이 화면에 출력되는 것이다.

그리고 상기 아이콘(I)이 상기 인증 경로(P1)를 따라 드래그된 경우에 결제 인증이 완료되는 것인데, 여기서 특징적인 점은 단순히 드래그가 이루어진 경우에 결제 인증이 완료된다고 하면 스마트폰 등을 바지주머니 속에 넣어둔 상태에서 원치 않은 접촉에 의해 드래그가 완성되어 결제 인증이 완료될 위험이 존재한다.

따라서 본 발명에 따른 결제 인터페이스의 경우 시점(P11)과 종점(P12)을 제외한 상기 인증 경로(P1)의 어느 한 지점에 상기 아이콘(I)과 동일한 형상의 인증포인트(P2)를 생성시키게 되어 오(誤)접촉에 따른 인증을 1차적으로 방지할 수 있게 된다.

보다 상세히 살펴보면, 도 5에 도시된 바와 같이, 상기 인증포인트(P2) 부분에서 드래그 동작을 멈춘 채로 손가락을 올려놓고 있으면 상기 인증포인트(P2)의 내부가 점점 채워지는 효과를 출력하게 되며, 상기 인증포인트(P2)가 모두 채워진 후에만 상기 드래그 동작을 재개할 수 있도록 구성되는 것이다.

아울러 이러한 인증포인트(P2)는 사용자에 의해 기 설정된 위치에 생성될 수 있는데, 예컨대 도 5에 도시된 바와 같이 지문 모양의 인증 경로(P1) 1시 부분에 인증포인트(P2)를 설정해 놓은 경우에 그 부분에서 인증포인트(P2)를 적절히 채워야만 인증이 완료되는 것이다. 그리고 사용자에 의해 기 설정된 위치와 다른 위치에서 인증포인트(P2)를 채운 경우에는 경로가 제거되어 결제 인증이 수행될 수 없다.

그리고 도 5에는 인증포인트(P2)가 하나만 도시되어 있으나 인증포인트(P2)를 복수로 설정해두어 보안을 더욱 강하게 설정할 수도 있겠다.

그리고 결제 화면에 출력된 아이콘(I)을 한 번 더 클릭을 하면 상기 아이콘(I)이 확대된 확대 화면이 출력되어 전술한 바와 같이, 노안을 겪고 있는 사용자도 매우 간편하게 인증 경로(P1)를 완성시킴으로써 결제 인증을 완료할 수 있는 것이다.

즉, 노안에 의해 문자 식별이 곤란한 사용자 또는 스마트기기에 미숙한 사용자 등은 직관적인 방식의 결제 인터페이스를 통해 편리하게 결제 인증을 완료할 수 있게 되는 것이다.

아울러, 기존의 비밀번호 입력 방식 등의 경우에는 비밀번호에 무조건적으로 특수문자를 포함해야 하는 등 암기가 쉽지 않으며, 암기를 위해 스마트기기의 메모장에 입력을 해두는 등 오히려 보안에 더 취약해지는 문제가 빈번히 발생하였다.

그리고 이러한 인증포인트(P2) 채움 방식이 구비됨에도 불구하고 이 또한 오접촉에 의해 인증포인트(P2) 부분이 모두 채워질 위험이 존재하는데, 이에 대한 대비책으로 상기 인증포인트(P2)를 채우는 과정에서 상기 인증포인트(P2)의 내부를 채우지 못하거나 과도하게 채운 경우에는 상기 인증 경로(P1)를 사라지게 구성하여 오접촉에 따른 인증을 2차적으로 방지할 수 있게 된다.

이상에서 첨부된 도면을 참조하여 설명한 본 발명은 통상의 기술자에 의하여 다양한 변형 및 변경이 가능하고, 이러한 변형 및 변경은 본 발명의 권리범위에 포함되는 것으로 해석되어야 한다.

10 : 도서정보수집부 20 : 음성정보수집부
30 : AI 음성합성부 40 : 오디오북 생성부
50 : 정기구독처리부

Claims

컴퓨터상에서 구현되는 인공지능 독서 플랫폼에 있어서,
선정된 도서의 텍스트데이터를 포함하는 도서정보를 수집하는 도서정보수집부;
유명인의 목소리로 녹음된 문장으로부터 음성데이터를 수집하는 음성정보수집부;
상기 텍스트데이터 및 상기 음성데이터를 연결 합성하는 연결 합성 파트, 연결 합성된 텍스트-음성데이터로부터 스펙트로그램을 생성하는 스펙트로그램 생성 파트 및 상기 스펙트로그램에 상응하는 파형을 갖는 음성을 표출시키는 음성표출부를 포함하는 AI 음성합성부; 및
상기 선정된 도서의 텍스트를 음성으로 녹음한 제1보이스, 상기 AI 음성합성부에서 합성된 제2보이스 및 선택된 BGM을 조합하여 오디오북을 생성하는 오디오북 생성부;
를 포함하고,
상기 연결 합성 파트 및 상기 스펙트로그램 생성 파트는 Tacotron2로 구현되고, 상기 음성표출부는 Waveglow로 구현되고,
소정의 회원의 정기구독을 처리하는 정기구독처리부를 더 포함하되,
상기 정기구독처리부는, 정기구독 결제를 수신하는 결제수신파트, 수신된 결제에 따라 해당 회원 자격에 정기구독회원을 할당하는 자격할당파트 및, 상기 결제에 따라 해당 회원에게 종이책 및 전차책 중 적어도 하나와 상기 오디오북을 조합한 상품을 할당하는 상품할당파트를 포함하고,
상기 도서정보수집부는 상기 텍스트데이터는 음절 또는 음소로 분해하여 텍스트 벡터를 생성하고, 상기 텍스트 벡터의 인덱스는 실수를 갖고,
상기 텍스트 벡터가 생성되기 전에 상기 텍스트를 전처리 하는 텍스트 전처리부를 더 포함하고,
상기 텍스트 전처리부는 텍스트가 자립형태소인지 의존형태소인지 고려하여 인덱스를 부여하고,
상기 텍스트 전처리부는 상기 텍스트에서 불용어를 제거하고,
상기 제1보이스는 상기 텍스트데이터에서 따옴표가 존재하는 대화문을 유명인의 목소리로 직접 녹음된 부분이고, 제2보이스는 상기 텍스트데이터에서 따옴표가 존재하지 않는 평서문을 인공지능 TTS를 통해 생성된 것을 특징으로 하는 인공지능 독서 플랫폼.
삭제
삭제
청구항 1에 있어서,
상기 정기구독처리부는 사용자의 결제 요청을 처리하는 결제 인터페이스를 더 포함하고,
상기 결제 인터페이스는,
사용자의 결제를 처리하는 결제 화면에 결제 인증 수단에 따라 결정되는 특정 문자, 특정 숫자, 지문 모양의 일부분 중 어느 하나로 구성된 인증 경로 및 동전 형상의 아이콘을 출력하여, 상기 아이콘이 상기 인증 경로를 따라 드래그된 경우에만 결제 인증을 완료하되,
시점과 종점을 제외한 상기 인증 경로의 어느 한 지점에 상기 아이콘과 동일한 형상의 인증포인트를 생성하고,
상기 인증포인트에서 드래그 동작을 멈추면, 상기 인증포인트의 내부가 점점 채워지는 효과를 출력하고, 상기 인증포인트가 모두 채워진 후에만 상기 드래그 동작을 재개할 수 있도록 구성되는 것을 특징으로 하는 인공지능 독서 플랫폼.