KR102637257B1 - 사용자 성문을 갖는 등장인물 기반 스토리 재생 장치 및 재생 방법 - Google Patents

사용자 성문을 갖는 등장인물 기반 스토리 재생 장치 및 재생 방법 Download PDF

Info

Publication number
KR102637257B1
KR102637257B1 KR1020220009302A KR20220009302A KR102637257B1 KR 102637257 B1 KR102637257 B1 KR 102637257B1 KR 1020220009302 A KR1020220009302 A KR 1020220009302A KR 20220009302 A KR20220009302 A KR 20220009302A KR 102637257 B1 KR102637257 B1 KR 102637257B1
Authority
KR
South Korea
Prior art keywords
story
user
voice
character
playback device
Prior art date
Application number
KR1020220009302A
Other languages
English (en)
Other versions
KR20230112990A (ko
Inventor
설영은
Original Assignee
주식회사 에스와이컴퍼니
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에스와이컴퍼니 filed Critical 주식회사 에스와이컴퍼니
Priority to KR1020220009302A priority Critical patent/KR102637257B1/ko
Publication of KR20230112990A publication Critical patent/KR20230112990A/ko
Application granted granted Critical
Publication of KR102637257B1 publication Critical patent/KR102637257B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 개시의 예시적 실시예에 따르면 사용자 성문을 갖는 등장인물 기반 스토리 재생 장치에 있어서, 사용자 성문 추출을 위한 사용자 음성을 입력 받고, 사용자에 의해 선택된 판매 정보가 제1 판매 정보인 경우 상기 사용자 음성에 대한 음성 선명도 판단 요청 정보를 출력하고, 상기 음성 선명도 판단 요청 정보에 대한 응답 정보에 기초하여 제1 컨텐츠 사용 범위를 설정하며, 상기 판매 정보가 제2 판매 정보인 경우 제2 컨텐츠 사용 범위를 설정하는 사용 범위 설정부, 상기 사용자 음성으로부터 추출된 사용자 성문에 기초하여 상기 설정된 컨텐츠 사용 범위에 포함된 스토리의 등장인물 음성을 생성하는 음성 생성부 및 상기 스토리에 포함된 복수의 단어들로부터 추출된 감정 벡터와 기준 벡터와의 거리가 기준 값 이상인 경우 제1 시간대에 상기 스토리를 추천하며, 상기 기준 값 미만인 경우 제2 시간대에 상기 스토리를 추천하는 스토리 추천부를 포함할 수 있다.

Description

사용자 성문을 갖는 등장인물 기반 스토리 재생 장치 및 재생 방법{Device for playing character-based story having user's voice print and playing method thereof}
본 개시의 기술적 사상은 재생 장치에 관한 것으로, 더욱 상세하게는, 사용자 성문을 갖는 등장인물 기반의 스토리 재생 장치 및 재생 방법에 관한 것이다.
디지털로 변환되어 전자기기 등으로 읽거나 들을 수 있는 책과 그를 디스플레이하는 전자기기 단말을 통해 사용자는 전자기기를 통해 컨텐츠를 접할 수 있었다. 이 때, 전자기기는 스피커를 통해 사용자에게 음성 데이터로 컨텐츠를 전달할 수 있고, 이는 오디오북으로 지칭될 수도 있다. 오디오북을 통해 컨텐츠를 제공하는 플랫폼은 복수의 화자들에 의해 입력된 음성을 통해 사용자에게 컨텐츠를 제공하기도 하였다.
본 개시의 기술적 사상이 해결하려는 과제는, 사용자가 직접 입력한 음성으로부터 성문을 추출하여 등장인물의 음성을 생성하고, 스토리를 재생할 때 판매 정보에 따라 서로 다른 서비스를 제공하며, 스토리 내용에 부합되는 시간대에 스토리를 제공하는 데에 있다.
본 개시의 예시적 실시예에 따르면 사용자 성문을 갖는 등장인물 기반 스토리 재생 장치에 있어서, 사용자 성문 추출을 위한 사용자 음성을 입력 받고, 사용자에 의해 선택된 판매 정보가 제1 판매 정보인 경우 상기 사용자 음성에 대한 음성 선명도 판단 요청 정보를 출력하고, 상기 음성 선명도 판단 요청 정보에 대한 응답 정보에 기초하여 제1 컨텐츠 사용 범위를 설정하며, 상기 판매 정보가 제2 판매 정보인 경우 제2 컨텐츠 사용 범위를 설정하는 사용 범위 설정부, 상기 사용자 음성으로부터 추출된 사용자 성문에 기초하여 상기 설정된 컨텐츠 사용 범위에 포함된 스토리의 등장인물 음성을 생성하는 음성 생성부 및 상기 스토리에 포함된 복수의 단어들로부터 추출된 감정 벡터와 기준 벡터와의 거리가 기준 값 이상인 경우 제1 시간대에 상기 스토리를 추천하며, 상기 기준 값 미만인 경우 제2 시간대에 상기 스토리를 추천하는 스토리 추천부를 포함할 수 있다.
본 개시의 실시예에 따른 스토리 재생 장치는 스토리의 내용에 따라 스토리를 추천해주는 시간대를 설정할 수 있고, 스토리에 등장하는 등장인물의 음성을 사용자가 선택할 수 있게함으로써 사용자 맞춤의 스토리 재생 방법을 제공할 수 있다. 아울러, 스토리 재생 장치는 등장인물로서 선택되는 화자의 음성이 스토리에 부합하는 음성인지 여부를 판단함으로써 사용자 만족도 높은 스토리 재생 방법을 제공할 수 있다.
본 개시의 예시적 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 아니하며, 언급되지 아니한 다른 효과들은 이하의 기재로부터 본 개시의 예시적 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 도출되고 이해될 수 있다. 즉, 본 개시의 예시적 실시예들을 실시함에 따른 의도하지 아니한 효과들 역시 본 개시의 예시적 실시예들로부터 당해 기술분야의 통상의 지식을 가진 자에 의해 도출될 수 있다.
도 1은 본 개시의 실시예에 따른 스토리 재생 장치의 구성을 개략적으로 도시한 블록도이다.
도 2는 본 개시의 실시예에 따른 스토리 재생 장치의 프로세서를 도시한 블록도이다.
도 3은 일실시예에 따른 사용 범위 설정부에 의해 컨텐츠 사용 범위가 설정되는 방법을 도시한 흐름도이다.
도 4는 일실시예에 따른 음성 선명도 판단부에 의해 사용자 음성에 대한 승인 정보를 출력하는 방법을 도시한 흐름도이다.
도 5는 일실시예에 따른 음성 생성부에 의해 등장인물의 음성을 생성하는 방법을 도시한 흐름도이다.
도 6 및 도 7은 일실시예에 따라 사용자 조작에 기초하여 스토리가 작성되거나 스토리가 재생되는 방법을 도시한 도면이다.
도 8은 일실시예에 따른 스토리 추천부에 의해 스토리를 추천해주는 시간대를 결정하는 방법을 도시한 흐름도이다.
도 9는 일실시예에 따라 감정 벡터를 조정하는 방법을 도시한 흐름도이다.
이하, 본 개시의 다양한 실시예가 첨부된 도면과 연관되어 기재된다. 본 개시의 다양한 실시예는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들이 도면에 예시되고 관련된 상세한 설명이 기재되어 있다. 그러나 이는 본 개시의 다양한 실시예를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 다양한 실시예의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용되었다.
본 개시의 다양한 실시예에서, "포함하다." 또는 "가지다." 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시의 다양한 실시예에서 "또는" 등의 표현은 함께 나열된 단어들의 어떠한, 그리고 모든 조합을 포함한다. 예를 들어, "A 또는 B"는, A를 포함할 수도, B를 포함할 수도, 또는 A 와 B 모두를 포함할 수도 있다.
본 개시의 다양한 실시예에서 사용된 "제1", "제2", "첫째", 또는 "둘째" 등의 표현들은 다양한 실시예들의 다양한 구성요소들을 수식할 수 있지만, 해당 구성요소들을 한정하지 않는다. 예를 들어, 상기 표현들은 해당 구성요소들의 순서 및/또는 중요도 등을 한정하지 않으며, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 새로운 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
본 개시의 실시 예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.
일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미가 있는 것으로 해석되어야 하며, 본 개시의 다양한 실시예에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 개시에서, 인공 지능(artificial intelligence, AI)은 인공적인 지능 또는 이를 만들 수 있는 방법론을 연구하는 분야를 의미할 수 있고, 기계 학습(machine learning)은 인공지능 기술의 한 분야로서 컴퓨팅 장치가 데이터를 통해 학습하여 특정 대상 혹은 조건을 이해할 수 있게 하거나 데이터의 패턴을 찾아내 분류하는 기술적 방식으로써 컴퓨터가 데이터를 분석할 수 있게 하는 알고리즘일 수 있다. 본 발명에서 개시하는 기계 학습은 인공지능 모델을 학습하기 위한 동작 방법을 포함하는 의미로서 이해될 수 있다.
이하에서, 첨부된 도면을 이용하여 본 발명의 다양한 실시 예들에 대하여 구체적으로 설명한다.
도 1은 본 개시의 실시예에 따른 스토리 재생 장치(1)의 구성을 개략적으로 도시한 블록도이다.
도 1을 참조하면, 본 개시의 스토리 재생 장치(1)는 입력부(10), 프로세서(20), 및 출력부(30)를 포함할 수 있다. 입력부(10)는 사용자의 조작 및 응답을 입력 받는 수단으로서, 사용자 조작 및 응답을 디지털 신호로 변환하여 프로세서(20)로 전달시킬 수 있다. 입력부(10)는 예시적으로, 터치 패드, 키보드, 마이크, 또는 마우스를 포함할 수 있고, 사용자로부터 입력된 정보를 수신할 수 있는 모든 구성들을 포함할 수 있다. 출력부(30)는 프로세서(20)에 의해 연산된 데이터를 출력하여 사용자에게 제공할 수 있는 수단으로서, 사용자가 식별 가능한 정보로서 디스플레이하는 구성일 수 있다. 출력부(30)는 예시적으로, 모니터 또는 스피커를 포함할 수 있다.
프로세서(20)는 스토리 재생 장치(1)의 전반적인 동작을 제어할 수 있다. 프로세서(20)는 입력부(10)에 의해 수신된 데이터를 수신하고, 사용자 조작 및 응답에 대응되는 데이터를 사용자에게 제공하기 위한 연산 처리를 수행하는 구성일 수 있다. 프로세서(20)는 메모리에 저장된 프로그램들 및/또는 데이터를 처리 또는 실행할 수 있다. 일실시예에 있어서, 프로세서(20)는 메모리에 저장된 프로그램을 실행함으로써, 사용자 조작 및 응답에 대응되는 데이터를 처리하여 사용자에게 제공하기 위한 정보를 생성할 수 있다.
도 2는 본 개시의 실시예에 따른 스토리 재생 장치(1)의 프로세서(20)를 도시한 블록도이다.
도 2를 참조하면, 프로세서(20)는 사용 범위 설정부(100), 등장인물 선택부(200), 음성 생성부(300), 스토리 추천부(400), 및 음성 선명도 판단부(500)를 포함할 수 있다. 사용 범위 설정부(100), 등장인물 선택부(200), 음성 생성부(300), 스토리 추천부(400), 및 음성 선명도 판단부(500)는 서로 다른 하드웨어 모듈로서 구성될 수 있지만, 본 개시의 실시예는 이에 국한되지 않고, 하나의 하드웨어 모듈에 복수의 소프트웨어들로서 구분되어 구성될 수 있다.
사용 범위 설정부(100)는 사용자가 선택한 판매 정보에 따라 사용자가 액세스할 수 있는 컨텐츠 사용 범위를 설정할 수 있다. 판매 정보는 유료 판매 정보 및 무료 판매 정보로 구성될 수 있다. 유료 판매 정보는 사용자가 서비스 이용을 위해 일정 비용을 지불함으로써 관리자가 사용자에 대해 활성화시켜준 액세스 정보일 수 있고, 무료 판매 정보는 사용자가 비용을 지불하지 않아 일정 컨텐츠에 대해 제한되는 액세스 정보일 수 있다. 사용 범위 설정부(100)가 사용자에 대응되는 컨텐츠 사용 범위를 설정하는 실시예는 도 3을 통해 후술하도록 한다.
등장인물 선택부(200)는 사용자 조작에 따라 스토리에 등장하는 등장인물을 선택할 수 있다. 이 때, 각 등장인물에 서로 다른 성문이 대응될 수 있고, 스토리 재생 장치(1)는 각 등장인물에 대응되는 성문을 미리 저장하거나, 데이터 통신을 통해 성문 데이터를 로드할 수 있다. 일실시예에 따르면, 등장인물 선택부(200)는 사용자 선택에 의해 이미 선택된 등장인물로부터 다른 등장인물이 지정될 수 있으며, 다른 등장인물에 대한 컨텐츠 사용 범위와 스토리 태그 정보를 비교함으로써 다른 등장인물이 해당 스토리에서 재생 가능한지 여부를 판단할 수 있다.
일실시예에 따르면, 등장인물 선택부(200)는 최초 등장인물 성문의 임베딩 벡터를 생성할 수 있으며, 생성된 임베딩 벡터로부터 결정 경계를 획득할 수 있으며, 결정 경계를 기초로 등장인물 추천할 수 있다.
등장인물 선택부(200)는 기저장된 복수의 등장인물의 성문 데이터를 벡터화함으로써 임베딩 벡터를 생성할 수 있다. 예컨대, 제1 등장인물의 성문 데이터는 제1 임베딩 벡터로 변환될 수 있으며, 제2 등장인물의 성문 데이터는 제2 임베딩 벡터로 변환될 수 있다. 일 예로 등장인물의 성문은 스토리 재생 장치(1)의 저장부(미도시)에 기저장된 데이터일 수 있으며, 다른 예로 등장인물의 성문은 입력부(10)를 통해 입력된 사용자의 음성일 수 있다.
등장인물 선택부(200)는 복수의 임베딩 벡터들 중 하나를 선택하여 사용자에게 최종적으로 출력하는 등장인물의 목소리를 선택할 수 있다. 등장인물 선택부(200)는 최초 설정된 제1 등장인물의 제1 성문을 출력할 수 있지만, 사용자의 선택에 따라 제1 등장인물의 성문을 제2 성문으로 출력할 수도 있다. 이 때, 제2 성문을 선택함에 있어서, 등장인물 선택부(200)는 제1 성문으로부터 획득한 임베딩 벡터로부터 결정 경계 내부에 있는 복수의 성문들에 대한 복수의 임베딩 벡터들 중 적어도 하나를 선택하여 추천할 수 있다. 이 때, 등장인물 선택부(200)는 결정 경계로부터 멀리있는 임베딩 벡터의 성문을 우선으로 하여 추천할 수 있다.
음성 생성부(300)는 선택된 등장인물의 성문 데이터에 기초하여 등장인물의 음성을 생성할 수 있다. 일실시예에 따르면, 음성 생성부(300)는 선택된 등장인물의 성문 데이터에 기초하여 스토리의 대사에 부합하는 음성 데이터를 생성하기 위해 뉴럴 네트워크로 구성된 음성 생성 모델을 트레이닝시킬 수 있다. 음성 생성부(300)는 음성 생성 모델을 트레이닝 시킨 후, 음성 생성 모델에 기초하여 스토리 대사에 대응되는 등장인물의 음성 데이터를 생성할 수 있다. 이 때, 등장인물의 성문 데이터는 사용자 음성으로부터 추출된 사용자의 성문일 수 있고, 사용자 성문에 기초하여 등장인물의 음성을 생성하는 실시예는 도 5를 통해 후술하도록 한다.
스토리 추천부(400)는 설정된 컨텐츠 사용 범위의 스토리에 포함된 복수의 단어들로부터 감정 벡터를 연산하고, 연산된 감정 벡터와 기준 벡터와의 거리에 따라 해당 스토리를 추천하는 시간대를 결정할 수 있다. 감정 벡터는 단어의 긍정도에 따라 결정될 수 있으며, 복수의 단어들의 긍정도를 합산함으로써 결정된 벡터일 수 있다. 연산된 감정 벡터와 기준 벡터와의 거리에 따라 서로 다른 시간대에 스토리를 추천하는 방법은 도 8 및 도 9를 통해 후술하도록 한다.
음성 선명도 판단부(500)는 음성 선명도 판단 요청 정보가 생성되는 경우 응답하여 학습 데이터들의 음성들과 사용자 음성의 파형 유사도를 판단하고, 파형 유사도가 기 설정된 기준 유사도 이상인 경우 사용자 음성에 대한 승인 정보를 출력할 수 있다. 사용자 음성에 대한 음성 선명도를 판단하는 것은 도 4를 통해 후술하도록 한다. 이하 명세서는 도 1 및 도 2에 기초하여 설명될 수 있다.
도 3은 일실시예에 따른 사용 범위 설정부(100)에 의해 컨텐츠 사용 범위가 설정되는 방법을 도시한 흐름도이다.
도 3을 참조하면, 스토리 재생 장치(1)는 사용자 음성을 입력 받고, 판매 정보의 타입에 따라 서로 다른 프로세스로 컨텐츠 사용 범위를 설정할 수 있다. 단계(S110)에서, 스토리 재생 장치(1)는 사용자 음성을 입력 받을 수 있다. 사용자 음성을 입력 받은 스토리 재생 장치(1)는 사용자 음성으로부터 사용자 성문을 추출할 수 있다.
단계(S120)에서, 스토리 재생 장치(1)는 사용자에 대응되는 판매 정보를 수신할 수 있다. 사용자가 서비스 이용을 위해 비용 지불을 완료한 경우, 스토리 재생 장치(1)는 제1 판매 정보를 수신할 수 있고, 비용을 지불하지 않은 경우, 스토리 재생 장치(1)는 제2 판매 정보를 수신할 수 있다. 제1 판매 정보는 유료 판매 정보로, 제2 판매 정보는 무료 판매 정보로 지칭될 수도 있다.
단계(S130)에서, 스토리 재생 장치(1)는 사용자에 대응되는 판매 정보가 제1 판매 정보인지 여부를 판단할 수 있다. 판매 정보가 제1 판매 정보인 경우, 스토리 재생 장치(1)는 단계(S140)으로 진행할 수 있고, 제2 판매 정보인 경우, 스토리 재생 장치(1)는 단계(S170)으로 진행할 수 있다.
단계(S140)에서, 스토리 재생 장치(1)는 사용자 음성의 선명도를 판단하기 위해 음성 선명도 판단 요청 정보를 출력할 수 있다.
단계(S150)에서, 스토리 재생 장치(1)는 요청 정보에 대응하여 사용자 음성에 대한 응답 정보를 수신할 수 있다. 이 때, 스토리 재생 장치(1)가 사용자 음성에 대한 승인 정보를 수신하는 경우, 단계(S160)으로 진행할 수 있다.
단계(S160)에서, 스토리 재생 장치(1)는 제1 판매 정보에 대응하여 사용자가 선택할 수 있는 컨텐츠의 사용 범위를 제1 컨텐츠 사용 범위로 설정할 수 있다.
단계(S170)에서, 스토리 재생 장치(1)는 판매 정보가 제2 판매 정보인 경우, 사용자가 선택할 수 있는 컨텐츠의 사용 범위를 제2 컨텐츠 사용 범위로 설정할 수 있다. 이 때, 제1 컨텐츠 사용 범위는 제2 컨텐츠 사용 범위에 비해 넓은 범위로서, 더 많은 수의 스토리 컨텐츠에 상응되는 범위일 수 있다.
이에 따라, 본 개시의 스토리 재생 장치(1)는 사용자가 유료로 서비스를 이용하는 경우, 사용자 음성이 성문을 추출할 수 있을 정도로 선명한지 여부를 판단하고, 무료로 서비스를 이용하는 경우에 비해 더 많은 스토리 컨텐츠의 등장인물 음성을 사용자 음성으로 생성할 수 있도록 설정할 수 있다.
도 4는 일실시예에 따른 음성 선명도 판단부(500)에 의해 사용자 음성에 대한 승인 정보를 출력하는 방법을 도시한 흐름도이다.
도 4를 참조하면, 스토리 재생 장치(1)는 음성 선명도 판단 요청 정보가 생성된 경우에 응답하여 사용자 음성에 노이즈 성분으로 인한 선명도가 떨어지는지 여부를 판단할 수 있다. 스토리 재생 장치(1)는 음성 파형이 정현파 형태와 유사한 지 여부에 따라 음성 선명도를 판단할 수 있다.
단계(S210)에서, 스토리 재생 장치(1)는 판매 정보가 제1 판매 정보로 선택됨에 따라 음성 선명도 판단 요청 정보를 생성할 수 있다. 스토리 재생 장치(1)는 요청 정보에 응답하여 수신된 사용자 음성의 선명도 판단을 개시할 수 있다.
단계(S220)에서, 스토리 재생 장치(1)는 학습 데이터들의 음성들과 사용자 음성의 파형 유사도를 계산할 수 있다. 학습 데이터들의 음성들은 선명도가 임계 선명도 이상으로 높은 음성들일 수 있다. 예시적으로, 스토리 재생 장치(1)는 사용자에게 특정 내용의 대사를 발화하도록 요청하고, 특정 내용의 대사를 응답한 사용자로부터 음성 데이터를 수신할 수 있다. 이 때, 학습 데이터들의 음성들은 서로 다른 화자로부터 특정 내용의 대사로 획득된 선명도 높은 음성 데이터일 수 있다.
스토리 재생 장치(1)는 학습 데이터들 각각의 음성 파형과 사용자 음성의 파형의 차이를 계산하고, 차이의 적분 값의 역수를 유사도로 결정할 수 있다. 학습 데이터들 각각에 대해 사용자 음성도와의 유사도를 계산할 수 있고, 이 중 가장 높은 유사도를 기준 유사도와 비교할 파형 유사도로 결정할 수 있다. 각 학습 데이터에 대응되는 유사도와 파형 유사도는 다음 수학식 1로 표현될 수 있다.
[수학식 1]
여기에서 는 사용자 음성의 파형이고, 는 i번째 학습 데이터의 음성 파형이며, 는 i번째 학습 데이터에 대한 사용자 음성과의 유사도이고, 는 복수의 유사도들 중 가장 큰 값을 갖는 파형 유사도일 수 있다.
단계(S230)에서, 스토리 재생 장치(1)는 파형 유사도가 기준 유사도 이상인지 여부를 판단할 수 있다. 파형 유사도가 기준 유사도 이상인 경우, 스토리 재생 장치(1)는 단계(S240)으로 진행할 수 있고, 파형 유사도가 기준 유사도 미만인 경우, 스토리 재생 장치(1)는 단계(S250)으로 진행할 수 있다.
단계(S240)에서, 스토리 재생 장치(1)는 파형 유사도가 기준 유사도 이상으로서, 사용자 음성의 선명도는 기준 선명도 이상이라고 판단함으로써 사용자 음성에 대한 승인 정보를 응답 정보로 출력할 수 있다.
단계(S250)에서, 스토리 재생 장치(1)는 파형 유사도가 기준 유사도 미만으로서, 사용자로부터 음성을 재요청할 것을 지시하는 재요청 정보를 응답 정보로 출력할 수 있다. 재요청 정보가 생성되는 경우, 스토리 재생 장치(1)는 컨텐츠 사용 범위를 설정하지 않고, 다시 사용자에게 음성 데이터를 요청할 수 있다.
도 5는 일실시예에 따른 음성 생성부(300)에 의해 등장인물의 음성을 생성하는 방법을 도시한 흐름도이다.
도 5를 참조하면, 스토리 재생 장치(1)는 사용자 음성으로부터 사용자 성문을 추출함으로써 사용자 음성으로 등장인물 음성을 생성할 수 있다.
단계(S310)에서, 스토리 재생 장치(1)는 사용자 음성으로부터 사용자 성문을 추출할 수 있다. 일실시예에 따르면, 스토리 재생 장치(1)는 사용자 음성의 주파수, 크기, 시간 도메인에서의 주파수 평균 변화율, 및 음성 크기 변화율 중 적어도 하나에 기초하여 사용자 성문을 추출할 수 있다. 본 개시의 스토리 재생 장치(1)가 사용자 성문을 추출하는 방법은 이에 국한되지 않고, 사용자 성문을 추출하는 모든 방법이 활용될 수 있다.
단계(S320)에서, 스토리 재생 장치(1)는 추출된 사용자 성문에 기초하여 등장인물 음성을 생성할 수 있다. 등장인물 음성은 스토리에 포함된 대사 텍스트에 사용자 성문을 적용하여 생성된 음성 데이터일 수 있다. 일실시예에 따르면, 스토리 재생 장치(1)는 등장인물 음성을 생성하기 위해 사용자 성문에 대응되는 음성 생성 모델을 트레이닝시킬 수 있다. 스토리 재생 장치(1)는 트레이닝된 음성 생성 모델로 텍스트 데이터와 사용자 성문을 입력함으로써 사용자 성문이 적용된 음성 데이터를 출력할 수 있다.
도 6 및 도 7은 일실시예에 따라 사용자 조작에 기초하여 스토리가 작성되거나 스토리가 재생되는 방법을 도시한 도면이다.
도 6 및 도 7을 참조하면, 스토리 재생 장치(1)는 출력부(30)를 통해 선택이 활성화된 '스토리 작성' 인터페이스와 '스토리 재생' 인터페이스를 출력할 수 있다. 사용자는 출력된 인터페이스에 기초하여 '스토리 작성' 및 '스토리 재생' 중 어느 하나를 선택할 수 있다.
도 6을 참조하면, 사용자가 '스토리 작성' 인터페이스를 선택한 경우, 스토리 재생 장치(1)는 스토리를 생성하기 위한 화면으로 전환될 수 있다. 사용자는 복수의 등장인물들이 등장하는 스토리를 텍스트를 입력함으로써 각 등장인물에 대응되는 대사를 작성할 수 있다.
이 때, 복수의 사용자들이 각자의 사용자 단말을 통해 하나의 스토리 작성을 하는 경우, 각 사용자가 입력한 대사는 스토리 작성에 참여한 다른 사용자들에게 공유될 수 있다. 스토리 재생 장치(1)는 사용자마다 등장인물을 할당할 수 있고, 각 사용자는 본인에게 할당된 등장인물의 대사를 입력할 수 있다. 이에 따라, 스토리 재생 장치(1)는 복수의 사용자들이 상호 작용함으로써 하나의 스토리를 작성할 수 있다.
도 7을 참조하면, 사용자가 '스토리 재생' 인터페이스를 선택하는 경우, 스토리 재생 장치(1)는 저장된 스토리를 재생할 수 있다. 스토리 재생 장치(1)는 사용자 성문에 기초하여 저장된 스토리의 등장인물들 중 어느 하나의 음성 데이터를 생성할 수 있다. 이 때, 등장인물들 중 나머지 등장인물들의 음성 데이터는 다른 사용자의 성문에 기초하여 생성되었을 수 있다.
일실시예에 따르면, 스토리 재생 장치(1)는 사용자가 등장인물들 중 어느 하나의 아이콘을 선택하는 경우, 컨텐츠 사용 범위에 기반한 등장인물 선택 화면을 출력할 수 있다. 등장인물 선택 화면은 아이콘이 선택된 등장인물로부터 다른 등장인물로 화자를 변경하기 위한 화면으로서, 대체 가능한 음성을 갖는 복수의 화자들의 정보가 출력될 수 있다. 제1 컨텐츠 사용 범위로 설정된 경우에는 제2 컨텐츠 사용 범위로 설정된 경우에 비해 스토리 재생 장치(1)는 더 많은 선택 가능한 등장인물들을 팝업시킬 수 있다.
일실시예에 따르면, 스토리 재생 장치(1)는 사용자로부터 교체할 등장인물이 선택되는 경우 선택된 등장인물에 대한 정보와 스토리 태그 정보를 비교함으로써 선택된 등장인물이 재생 가능한 등장인물인지 여부를 판단할 수 있다. 등장인물에 대한 정보는 등장인물의 연령, 성별 등 등장인물에 대한 특징으로 미리 태그되어 있는 정보일 수 있다. 스토리 태그 정보는 스토리 장르, 출연 등장인물의 연령대 등 스토리에 대한 특징이 미리 태그되어 있는 정보일 수 있다.
예시적으로, 스토리 재생 장치(1)는 선택된 등장인물에 대한 정보가 19세 미만의 청소년인 경우, 19세 이상의 성인들만이 등장하는 것으로 태그되어 있는 스토리에서 선택된 등장인물로 스토리를 재생할 수 없다고 판단할 수 있다.
도 8은 일실시예에 따른 스토리 추천부(400)에 의해 스토리를 추천해주는 시간대를 결정하는 방법을 도시한 흐름도이다.
도 8을 참조하면, 스토리 재생 장치(1)는 스토리에 포함된 단어들로부터 감정 벡터를 추출하고, 감정 벡터와 기준 벡터의 거리에 따라 스토리를 추천할 시간대를 결정할 수 있다.
단계(S410)에서, 스토리 재생 장치(1)는 스토리에 포함된 단어들로부터 감정 벡터를 추출할 수 있다. 스토리 재생 장치(1)는 단어의 성질에 따라 해당 단어가 긍정적인 감정을 나타내는 단어인지, 부정적인 감정을 나타내는 단어인지 여부를 판단하여 긍정도를 도출할 수 있다. 스토리 재생 장치(1)는 복수의 단어들에 대해 판단된 긍정도들을 종합하여 스토리의 감정 벡터를 결정할 수 있다.
단계(S420)에서, 스토리 재생 장치(1)는 감정 벡터와 기준 벡터의 거리가 기준 값 이상인지 여부를 판단할 수 있다. 기준 벡터는 미리 지정되어 있을 수 있고, 스토리가 긍정적인 내용으로 구성되어 있음을 구분하는 기준이 되는 벡터일 수 있다.
단계(S430)에서, 스토리 재생 장치(1)는 감정 벡터와 기준 벡터의 거리가 기준 값 이상인 경우 해당 스토리를 제1 시간대에 추천할 수 있고, 기준 값 미만인 경우 해당 스토리를 제2 시간대에 추천할 수 있다. 예시적으로, 제1 시간대는 낮일 수 있고, 제2 시간대는 밤일 수 있다.
도 9는 일실시예에 따라 감정 벡터를 조정하는 방법을 도시한 흐름도이다.
도 9를 참조하면, 스토리 재생 장치(1)는 감정 벡터를 추출하고, 등장인물의 녹음 대사로부터 추출된 단어 및 대사의 평균 주파수에 기초하여 추출된 감정 벡터를 조정할 수 있다.
단계(S510)에서, 스토리 재생 장치(1)는 감정 벡터를 추출할 수 있다.
단계(S520)에서, 스토리 재생 장치(1)는 녹음 대사로부터 추출된 단어에 기초하여 감정 벡터를 조정할 수 있다.
단계(S530)에서, 스토리 재생 장치(1)는 녹음 대사의 평균 주파수에 기반한 가중치에 따라 감정 벡터를 조정할 수 있다. 녹음 대사의 주파수는 등장 인물 음성의 높낮이에 대응될 수 있다. 예시적으로, 높은 주파수는 등장인물이 높은 음역대로 발화하는 것을 의미하고, 낮은 주파수는 등장인물이 낮은 음역대로 발화하는 것을 의미할 수 있다.
일실시예에 따르면, 스토리 재생 장치(1)는 등장 인물에 대응되는 화자의 녹음 대사의 평균 주파수와 스토리에 포함된 복수의 단어들 각각에 대응되는 음성의 주파수를 계산할 수 있다. 이 때, 스토리 재생 장치(1)는 평균 주파수와 각 단어에 대응되는 주파수의 차이를 가중치로 결정할 수 있다. 즉, 평균 주파수에 비해 해당 단어에 대응되는 음성의 주파수가 현저히 큰 경우, 해당 단어는 스토리에서 강조되고 있는 단어일 가능성이 크고, 스토리 재생 장치(1)는 강조되는 단어에 더 높은 가중치를 부여하여 감정 벡터를 계산할 수 있다.
이상에서와 같이 도면과 명세서에서 예시적인 실시예들이 개시되었다. 본 명세서에서 특정한 용어를 사용하여 실시예들을 설명되었으나, 이는 단지 본 개시의 기술적 사상을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 개시의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 개시의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (7)

  1. 사용자 성문을 갖는 등장인물 기반 스토리 재생 장치에 있어서,
    사용자 성문 추출을 위한 사용자 음성을 입력 받고, 사용자에 의해 선택된 판매 정보가 제1 판매 정보인 경우 상기 사용자 음성에 대한 음성 선명도 판단 요청 정보를 출력하고, 상기 음성 선명도 판단 요청 정보에 대한 응답 정보에 기초하여 제1 컨텐츠 사용 범위를 설정하며, 상기 판매 정보가 제2 판매 정보인 경우 제2 컨텐츠 사용 범위를 설정하는 사용 범위 설정부;
    상기 사용자 음성으로부터 추출된 사용자 성문에 기초하여 상기 설정된 컨텐츠 사용 범위에 포함된 스토리의 등장인물 음성을 생성하는 음성 생성부;
    상기 스토리에 포함된 복수의 단어들로부터 추출된 감정 벡터와 기준 벡터와의 거리가 기준 값 이상인 경우 제1 시간대에 상기 스토리를 추천하며, 상기 기준 값 미만인 경우 제2 시간대에 상기 스토리를 추천하는 스토리 추천부; 및
    상기 사용자로부터 작성 조작 또는 재생 조작을 입력 받으며, 상기 작성 조작을 입력 받는 경우 제1 등장인물 및 제2 등장인물로 스토리를 작성 받고, 상기 재생 조작을 입력 받는 경우 상기 제1 등장인물 선택에 응답하여 컨텐츠 사용 범위에 기반한 제3 등장인물 선택 화면을 출력하는 등장인물 선택부
    를 포함하는 스토리 재생 장치.
  2. 제1항에 있어서,
    상기 제1 판매 정보는 유료 판매 정보이고, 상기 제2 판매 정보는 무료 판매 정보이며,
    상기 제1 컨텐츠 사용 범위는 상기 제2 컨텐츠 사용 범위보다 더 많은 수의 스토리 컨텐츠에 상응하는 범위인 것을 특징으로 하는 스토리 재생 장치.
  3. 제1항에 있어서,
    상기 음성 선명도 판단 요청 정보에 응답하여 학습 데이터들의 음성들과 상기 사용자 음성의 파형 유사도가 기 설정된 기준 유사도 이상인 경우 상기 응답 정보로 상기 사용자 음성에 대한 승인 정보를 출력하는 음성 선명도 판단부
    를 더 포함하는 것을 특징으로 하는 스토리 재생 장치.
  4. 삭제
  5. 제1항에 있어서,
    상기 등장인물 선택부는,
    상기 사용자로부터 상기 제3 등장인물이 선택되는 경우, 상기 제3 등장인물에 대한 정보와 상기 스토리의 태그 정보를 비교함으로써 상기 제3 등장인물로 상기 스토리를 재생 가능한지 여부를 판단하는 것을 특징으로 하는 스토리 재생 장치.
  6. 제1항에 있어서,
    상기 스토리 추천부는,
    상기 등장인물의 녹음 대사로부터 추출된 단어에 기초하여 상기 감정 벡터를 조정하는 것을 특징으로 하는 스토리 재생 장치.
  7. 제1항에 있어서,
    상기 스토리 추천부는,
    상기 등장인물의 녹음 대사의 평균 주파수에 기반한 가중치에 따라 상기 감정 벡터를 조정하는 것을 특징으로 하는 스토리 재생 장치.
KR1020220009302A 2022-01-21 2022-01-21 사용자 성문을 갖는 등장인물 기반 스토리 재생 장치 및 재생 방법 KR102637257B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220009302A KR102637257B1 (ko) 2022-01-21 2022-01-21 사용자 성문을 갖는 등장인물 기반 스토리 재생 장치 및 재생 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220009302A KR102637257B1 (ko) 2022-01-21 2022-01-21 사용자 성문을 갖는 등장인물 기반 스토리 재생 장치 및 재생 방법

Publications (2)

Publication Number Publication Date
KR20230112990A KR20230112990A (ko) 2023-07-28
KR102637257B1 true KR102637257B1 (ko) 2024-02-16

Family

ID=87427097

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220009302A KR102637257B1 (ko) 2022-01-21 2022-01-21 사용자 성문을 갖는 등장인물 기반 스토리 재생 장치 및 재생 방법

Country Status (1)

Country Link
KR (1) KR102637257B1 (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10261964B2 (en) * 2016-01-04 2019-04-16 Gracenote, Inc. Generating and distributing playlists with music and stories having related moods
KR102004187B1 (ko) * 2017-09-14 2019-10-17 (주) 엠티콤 음성인식처리장치 및 그 동작 방법
KR102614882B1 (ko) * 2020-02-21 2023-12-18 주식회사 케이티 사용자의 감정에 기초하여 대화 서비스를 제공하는 장치, 방법 및 컴퓨터 프로그램

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
우정권, ‘감성 상태 기반의 영상 저작물 스토리 분석 시스템 및 분석 방법 개발에 관한 연구’, Journal of Engineering Education Research,18(6), 2015.11.30.

Also Published As

Publication number Publication date
KR20230112990A (ko) 2023-07-28

Similar Documents

Publication Publication Date Title
KR102222451B1 (ko) 텍스트 기반 사용자심리상태예측 및 콘텐츠추천 장치 및 그 방법
EP3803846B1 (en) Autonomous generation of melody
US20210225380A1 (en) Voiceprint recognition method and apparatus
EP3709156A2 (en) Systems and methods for providing a virtual assistant
CN109887525A (zh) 智能客服方法、装置及计算机可读存储介质
CN109785820A (zh) 一种处理方法、装置及设备
US8204837B2 (en) Information processing apparatus and method, and program for providing information suitable for a predetermined mood of a user
JP7086521B2 (ja) 情報処理方法および情報処理装置
CN110462676A (zh) 电子装置、其控制方法和非暂态计算机可读记录介质
KR102637257B1 (ko) 사용자 성문을 갖는 등장인물 기반 스토리 재생 장치 및 재생 방법
JP6856115B2 (ja) 情報処理方法および情報処理装置
US11244166B2 (en) Intelligent performance rating
KR20230157116A (ko) 사용자 요청에 실시간 반응하는 인공지능 음성합성 방법 및 이를 포함하는 전자장치
JP5589426B2 (ja) コンテンツ提供システム、コンテンツ提供方法、およびコンテンツ提供プログラム
US20220207066A1 (en) System and method for self-generated entity-specific bot
US20220382799A1 (en) Recommending multimedia information
CN110717817A (zh) 贷前审核方法及装置、电子设备和计算机可读存储介质
CN112397072B (zh) 语音检测方法、装置、电子设备及存储介质
TWM578858U (zh) 跨通路人工智慧對話式平台
US20210283505A1 (en) Video Game Content Provision System and Method
KR102138248B1 (ko) 온라인 채팅의 배경음악생성방법 및 그 장치
KR102608964B1 (ko) 적어도 하나의 이벤트 키워드를 참조로 하여 사용자에게훈련 컨텐츠를 제공하기 위한 방법 및 컴퓨팅 장치
KR102583986B1 (ko) 목소리에 기반한 감정 분류가 반영된 음성 메시지의 말풍선 표현 방법 및 시스템
KR102607387B1 (ko) 메시지 검증 방법, 장치 및 컴퓨터 프로그램
KR102610273B1 (ko) 메타버스를 활용하여 특정 사용자의 특정 아바타에게 트리거링 아바타와의 인터랙션을 유도하기 위한 컨텐츠를 제공하는 방법 및 장치

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant