KR102232642B1 - 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버 - Google Patents

스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버 Download PDF

Info

Publication number
KR102232642B1
KR102232642B1 KR1020180051486A KR20180051486A KR102232642B1 KR 102232642 B1 KR102232642 B1 KR 102232642B1 KR 1020180051486 A KR1020180051486 A KR 1020180051486A KR 20180051486 A KR20180051486 A KR 20180051486A KR 102232642 B1 KR102232642 B1 KR 102232642B1
Authority
KR
South Korea
Prior art keywords
sound effect
story content
sentence
text data
content
Prior art date
Application number
KR1020180051486A
Other languages
English (en)
Other versions
KR20190127202A (ko
Inventor
박광현
김종주
정철범
홍순천
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020180051486A priority Critical patent/KR102232642B1/ko
Publication of KR20190127202A publication Critical patent/KR20190127202A/ko
Application granted granted Critical
Publication of KR102232642B1 publication Critical patent/KR102232642B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • Signal Processing (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치는 기저장된 스토리 컨텐츠의 내용에 대해 사용자가 발화한 음성을 입력받는 입력부, 상기 입력된 음성 데이터를 음성 인식 서버로 전송하는 전송부, 상기 음성 인식 서버로부터 상기 음성 데이터에 기초하여 변환된 텍스트 데이터를 수신하는 수신부, 상기 기저장된 스토리 컨텐츠 및 상기 수신된 텍스트 데이터를 비교하여 상기 텍스트 데이터에 대응하는 음향 효과를 상기 기저장된 스토리 컨텐츠로부터 추출하는 음향 효과 추출부 및 상기 추출된 음향 효과를 제공하는 음향 효과 제공부를 포함되, 상기 음향 효과는 일반 효과음 및 대화 효과음을 포함한다.

Description

스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버{MEDIA PLAY DEVICE AND VOICE RECOGNITION SERVER FOR PROVIDING SOUND EFFECT OF STORY CONTENTS}
본 발명은 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버에 관한 것이다.
전자책(electronic book)이란 문자나 화상과 같은 정보를 전자 매체에 기록하여 서적처럼 이용할 수 있는 디지털 도서를 의미한다. 전자책은 종이책에 비해 저렴한 가격으로 이용가능하며, 독서를 하면서 동영상 자료를 보거나, 배경음악을 들을 수 있으며, 언제 어디서든 쉽게 책을 볼 수 있다는 장점을 갖는다.
이러한 전자책과 관련하여 선행기술인 한국공개특허 제 2014-0037824호는 전자책 인터페이스 시스템 및 방법을 개시하고 있다.
최근에는 아이들을 위한 동화책이 전자책으로 제공되고 있다. 그러나 여러 연구 결과에 따르면 전자책을 통해 아이가 직접 동화책을 읽거나, TV를 통해 기계음으로 동화책 내용을 청취하기 보다는 부모가 직접 동화책을 읽어주는 것이 아이의 정서나 창의력 개발에 효과적이라고 한다.
따라서, 부모가 직접 동화책을 읽어주되, 아이가 동화책 내용에 좀더 몰입할 수 있는 방안이 요구되고 있다.
스토리 컨텐츠를 청취하는 청취자의 집중도를 높여주도록 다양한 효과를 제공하는 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버를 제공하고자 한다. 사용자가 스토리 컨텐츠의 문장을 정확히 읽은 것으로 판단된 경우, 성우의 목소리가 녹음된 대화 효과음이 인터랙티브 재생됨으로써, 마치 대화가 이루어지는 듯한 음향 효과를 제공하는 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버를 제공하고자 한다. 사용자가 발화한 스토리 컨텐츠의 음성을 텍스트로 변환하고, 텍스트에 오류가 포함된 경우 오류 보정 알고리즘을 이용하여 해당 텍스트를 보정하는 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버를 제공하고자 한다. 사용자가 발화한 스토리 컨텐츠의 문맥의 흐름을 인식하고, 문맥의 흐름에 적합한 음향 효과, 진동 효과 및 조명 효과를 제공하는 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버를 제공하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 기저장된 스토리 컨텐츠의 내용에 대해 사용자가 발화한 음성을 입력받는 입력부, 상기 입력된 음성 데이터를 음성 인식 서버로 전송하는 전송부, 상기 음성 인식 서버로부터 상기 음성 데이터에 기초하여 변환된 텍스트 데이터를 수신하는 수신부, 상기 기저장된 스토리 컨텐츠 및 상기 수신된 텍스트 데이터를 비교하여 상기 텍스트 데이터에 대응하는 음향 효과를 상기 기저장된 스토리 컨텐츠로부터 추출하는 음향 효과 추출부 및 상기 추출된 음향 효과를 제공하는 음향 효과 제공부를 포함하되, 상기 음향 효과는 일반 효과음 및 대화 효과음을 포함하는 것인 미디어 재생 장치를 제공할 수 있다.
본 발명의 다른 실시예는, 사용자로부터 스토리 컨텐츠의 내용을 발화한 음성을 입력받는 입력부, 상기 입력된 음성에 관한 음성 데이터를 음성 인식 서버로 전송하는 전송부, 상기 음성 인식 서버로부터 상기 전송된 음성 데이터에 대응하는 음향 효과를 수신하는 수신부 및 상기 수신한 음향 효과를 제공하는 음향 효과 제공부를 포함하고, 상기 음성 데이터는 상기 음성 인식 서버에 의해 텍스트 데이터로 변환되고, 상기 음향 효과는 상기 변환된 텍스트 데이터 및 상기 스토리 컨텐츠가 비교됨으로써, 상기 텍스트 데이터에 대응하는 음향 효과가 추출되는 것이되, 상기 음향 효과는 일반 효과음 및 대화 효과음을 포함하는 것인 미디어 재생 장치를 제공할 수 있다.
본 발명의 또 다른 실시예는, 미디어 재생 장치로부터 사용자에 의해 스토리 컨텐츠의 내용이 발화된 음성 데이터를 수신하는 수신부, 상기 수신한 음성 데이터를 텍스트 데이터로 변환하는 변환부, 상기 스토리 컨텐츠 및 상기 변환된 텍스트 데이터를 비교하여 상기 텍스트 데이터에 대응하는 음향 효과를 상기 스토리 컨텐츠로부터 추출하는 음향 효과 추출부 및 상기 추출된 음향 효과를 상기 미디어 재생 장치로 제공하는 음향 효과 제공부를 포함하되, 상기 음향 효과는 일반 효과음 및 대화 효과음을 포함하는 것인, 음성 인식 서버를 제공할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 스토리 컨텐츠를 청취하는 청취자의 집중도를 높여주도록 다양한 효과를 제공하는 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버를 제공할 수 있다. 사용자가 스토리 컨텐츠의 문장을 정확히 읽은 것으로 판단된 경우, 성우의 목소리가 녹음된 대화 효과음이 인터랙티브 재생됨으로써, 마치 대화가 이루어지는 듯한 음향 효과를 제공하는 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버를 제공할 수 있다. 사용자가 발화한 스토리 컨텐츠의 음성을 텍스트로 변환하고, 텍스트에 오류가 포함된 경우 오류 보정 알고리즘을 이용하여 해당 텍스트를 보정하는 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버를 제공할 수 있다. 사용자가 발화한 스토리 컨텐츠의 문맥의 흐름을 인식하고, 문맥의 흐름에 적합한 음향 효과, 진동 효과 및 조명 효과를 제공하는 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버를 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음향 효과 제공 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 미디어 재생 장치의 구성도이다.
도 3은 본 발명의 일 실시예에 따른 미디어 재생 장치에서 스토리 컨텐츠에 대한 음향 효과를 제공하는 방법의 순서도이다.
도 4는 본 발명의 다른 실시예에 따른 미디어 재생 장치에서 스토리 컨텐츠에 대한 음향 효과를 제공하는 방법의 순서도이다.
도 5는 본 발명의 일 실시예에 따른 음성 인식 서버의 구성도이다.
도 6은 본 발명의 일 실시예에 따른 음성 인식 서버에서 스토리 컨텐츠에 대한 음향 효과를 제공하는 방법의 순서도이다.
도 7a 및 도 7b는 본 발명의 일 실시예에 따른 스토리 컨텐츠 및 변환된 텍스트 데이터를 비교하여 텍스트 데이터에 포함된 오류를 보정하는 과정을 설명하기 위한 예시적인 도면이다.
도 8a 내지 도 8c는 본 발명의 일 실시예에 따른 스토리 컨텐츠로부터 일반 효과음을 포함하는 음향 효과를 추출하는 과정을 설명하기 위한 예시적인 도면이다.
도 9a 내지 도 9e는 본 발명의 일 실시예에 따른 스토리 컨텐츠로부터 일반 효과음 및 대화 효과음을 포함하는 음향 효과를 추출하는 과정을 설명하기 위한 예시적인 도면이다.
도 10a 및 도 10b는 본 발명이 일 실시예에 따른 스토리 컨텐츠로부터 조명 효과를 제공하는 과정을 설명하기 위한 예시적인 도면이다.
도 11은 본 발명의 일 실시예에 따른 스토리 컨텐츠에 대한 문맥 기반 효과음 및 키워드 기반 효과음을 비교한 예시적인 도면이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 음향 효과 제공 시스템의 구성도이다. 도 1을 참조하면, 음향 효과 제공 시스템(1)은 미디어 재생 장치(110) 및 음성 인식 서버(120)를 포함할 수 있다. 미디어 재생 장치(110) 및 음성 인식 서버(120)는 음향 효과 제공 시스템(1)에 의하여 제어될 수 있는 구성요소들을 예시적으로 도시한 것이다.
도 1의 음향 효과 제공 시스템(1)의 각 구성요소들은 일반적으로 네트워크(network)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 미디어 재생 장치(110)는 음성 인식 서버(120)와 동시에 또는 시간 간격을 두고 연결될 수 있다.
네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.
일 실시예에 따르면, 미디어 재생 장치(110)에서 스토리 컨텐츠의 문맥을 스스로 인식하여 음향 효과를 제공할 수 있다.
미디어 재생 장치(110)는 사용자(100)로부터 복수의 스토리 컨텐츠 중 어느 하나의 컨텐츠를 요청받고, 요청받은 스토리 컨텐츠를 컨텐츠 제공 서버(미도시)로부터 다운로드하여 관리할 수 있다. 스토리 컨텐츠는 스토리 컨텐츠가 기재되어 있는 적어도 하나의 문단, 각 문단에 포함된 적어도 하나의 문장 및 적어도 하나의 문장에 포함된 적어도 하나의 대화문으로 계층화된 것일 수 있다.
미디어 재생 장치(110)는 기저장된 스토리 컨텐츠의 내용에 대해 사용자(100)가 발화한 음성을 입력받고, 입력된 음성 데이터를 음성 인식 서버(120)로 전송할 수 있다. 예를 들어, 스토리 컨텐츠가 "잭과 콩나무"인 경우, 사용자(100)는 "잭과 콩나무"의 스크립트(예를 들어, 문서 형태 또는 e-book 형태의 스크립트)를 읽어서 발화하고, 미디어 재생 장치(110)는 사용자(100)로부터 발화된 해당 음성을 입력받을 수 있다.
미디어 재생 장치(110)는 음성 인식 서버(120)로부터 음성 데이터에 기초하여 변환된 텍스트 데이터를 수신할 수 있다.
미디어 재생 장치(110)는 텍스트 데이터를 기저장된 스토리 컨텐츠와 비교하여 텍스트 데이터에 포함된 오류를 보정할 수 있다. 구체적으로, 미디어 재생 장치(110)는 오류 보정 알고리즘을 적용하여 텍스트 데이터의 문장과 기저장된 스토리 컨텐츠의 문장 간의 유사도가 임계치 이상인 문장을 검색할 수 있다. 예를 들어, 텍스트 데이터의 문장과 기저장된 스토리 컨텐츠의 문장 간의 유사도가 임계치 이상인 문장이 검색된 경우, 미디어 재생 장치(110)는 검색된 스토리 컨텐츠의 문장에 기초하여 텍스트 데이터에 포함된 오류를 보정할 수 있다. 다른 예를 들어, 텍스트 데이터의 문장과 기저장된 스토리 컨텐츠의 문장 간의 유사도가 임계치 이상인 문장이 복수개로 검색된 경우, 미디어 재생 장치(110)는 문맥 추적 알고리즘을 이용하여 복수개의 문장 중 어느 하나를 선택하고, 선택된 문장에 기초하여 텍스트 데이터에 포함된 오류를 보정할 수 있다.
미디어 재생 장치(110)는 계층화된 스토리 컨텐츠로부터 텍스트 데이터에 해당하는 스토리 컨텐츠의 문맥을 추적할 수 있다. 예를 들어, 미디어 재생 장치(110)는 스토리 컨텐츠의 문맥을 추적하여 스토리 컨텐츠로부터 텍스트 데이터에 해당하는 문장을 추출할 수 있다. 이 때, 텍스트 데이터에 해당하는 문장이 스토리 컨텐츠에 적어도 둘 이상 포함되어 있는 경우, 미디어 재생 장치(110)는 텍스트 데이터에 해당하는 둘 이상의 문장 중 유사도 가중 파라미터 및 디스턴스 가중 파라미터를 적용하여 텍스트 데이터에 해당하는 문장을 추출할 수 있다.
미디어 재생 장치(110)는 사용자(100)가 발화한 음성에 대해 마이크 레벨을 확인하고, 확인된 마이크 레벨에 기초하여 사용자(100)가 발화한 음성의 묵음 구간을 검출할 수 있다.
미디어 재생 장치(110)는 기저장된 스토리 컨텐츠 및 수신된 텍스트 데이터를 비교하여 텍스트 데이터에 대응하는 음향 효과를 기저장된 스토리 컨텐츠로부터 추출하고, 추출된 음향 효과를 제공할 수 있다. 예를 들어, 미디어 재생 장치(110)는 추출된 문장에 대응하는 음향 효과를 기저장된 스토리 컨텐츠로부터 추출하고, 추출된 음향 효과를 제공할 수 있다.
여기서, 음향 효과는 일반 효과음 및 대화 효과음을 포함할 수 있다. 일반 효과음은 각 문단(paragraph)에 대응될 수 있는 배경음(BGM) 및 각 문장(sentence)에 대응될 수 있는 부가 효과음(예를 들어, 박수 소리, 웃음 소리 등)을 포함하고, 대화 효과음은 각 대화문에 대응될 수 있는 효과음으로서, 해당 대화문을 성우의 목소리로 녹음된 효과음을 의미한다. 대화 효과음은 사용자가 발화한 음성에 대해 성우의 목소리를 통해 대화로 응답하는 듯한 효과를 제공할 수 있다.
예를 들어, 미디어 재생 장치(110)는 추출된 문장에 대응하는 음향 효과가 일반 효과음인 경우, 기저장된 스토리 컨텐츠로부터 일반 효과음을 추출할 수 있다. 이 때, 미디어 재생 장치(110)는 추출된 문장과 관련하여 사용자(100)가 발화하는 중에 추출된 일반 효과음을 제공할 수 있다. 다른 예를 들어, 미디어 재생 장치(110)는 추출된 문장 내에 대화문이 포함된 경우, 기저장된 스토리 컨텐츠로부터 대화문에 대응하는 상기 대화 효과음을 추출할 수 있다. 이 때, 미디어 재생 장치(110)는 추출된 묵음 구간에 기초하여 추출된 문장과 관련하여 사용자(100)가 완전히 발화하였다고 판단된 경우, 추출된 묵음 구간 후에 대화 효과음을 제공할 수 있다. 또한, 미디어 재생 장치(110)는 대화문에 포함된 대화 스크립트에 기초하여 대화 효과음에 대응하는 시가적 효과를 제공할 수 있다.
미디어 재생 장치(110)는 텍스트 데이터에 대응하는 진동 효과 또는 조명 효과를 제공하도록 복수의 기기와의 연동을 통해 제어할 수 있다.
음성 인식 서버(120)는 미디어 재생 장치(110)로부터 사용자(100)에 의해 스토리 컨텐츠의 내용이 발화된 음성 데이터를 수신할 수 있다.
음성 인식 서버(120)는 수신한 음성 데이터를 텍스트 변환할 수 있다.
음성 인식 서버(120)는 변환된 텍스트 데이터를 미디어 재생 장치(110)로 전송할 수 있다.
즉, 일 실시예에 따르면, 미디어 재생 장치(110)는 사용자(100)로부터 발화된 음성의 텍스트 데이터를 통해 이에 대응하는 스토리 컨텐츠의 내용 및 문맥을 직접 인식하여 음향 효과를 추출 및 제공하는 역할을 수행하고, 음성 인식 서버(120)는 사용자(100)가 발화한 스토리 컨텐츠의 내용에 관한 음성 데이터를 텍스트 데이터로 변환하는 역할을 수행할 수 있다.
다른 실시예에 따르면, 음성 인식 서버(120)에서 사용자(100)로부터 발화된 음성의 텍스트 데이터를 통해 이에 대응하는 스토리 컨텐츠의 내용 및 문맥을 인식하여 음향 효과를 미디어 재생 장치(110)로 전송할 수 있다.
미디어 재생 장치(110)는 사용자(100)로부터 스토리 컨텐츠의 내용을 발화한 음성을 입력받을 수 있다.
미디어 재생 장치(110)는 입력된 음성에 관한 음성 데이터를 음성 인식 서버(120)로 전송할 수 있다.
미디어 재생 장치(110)는 음성 인식 서버(120)로부터 전송된 음성 데이터에 대응하는 음향 효과를 수신할 수 있다.
미디어 재생 장치(110)는 수신한 음향 효과를 제공할 수 있다.
이러한 미디어 재생 장치(110)는 안드로이드 또는 iOS의 운영 체제가 탑재된 인공지능 스피커, 스마트폰, 태블릿 PC 등을 포함하나, 이에 한정하지 않는다. 음성 인식 서버(120)는 스토리 컨텐츠를 데이터베이스에 저장하여 관리할 수 있다. 스토리 컨텐츠는 스토리 컨텐츠가 기재되어 있는 적어도 하나의 문단, 각 문단에 포함된 적어도 하나의 문장 및 적어도 하나의 문장에 포함된 적어도 하나의 대화문으로 계층화된 것일 수 있다. 이 때, 스토리 컨텐츠는 계층화된 적어도 하나의 문단, 각 문단에 포함된 적어도 하나의 문장 및 적어도 하나의 문장에 포함된 적어도 하나의 대화문이 소정의 상위 문단에 포함되도록 확장된 계층화 구조를 갖도록 구성될 수 있다.
음성 인식 서버(120)는 미디어 재생 장치(110)로부터 사용자(100)에 의해 스토리 컨텐츠의 내용이 발화된 음성 데이터를 수신할 수 있다.
음성 인식 서버(120)는 수신한 음성 데이터를 텍스트 데이터로 변환할 수 있다.
음성 인식 서버(120)는 텍스트 데이터를 스토리 컨텐츠와 비교하여 텍스트 데이터에 포함된 오류를 보정할 수 있다. 구체적으로, 음성 인식 서버(120)는 오류 보정 알고리즘을 적용하여 텍스트 데이터의 문장과 스토리 컨텐츠의 문장 간의 유사도가 임계치 이상인 문장을 검색할 수 있다. 예를 들어, 음성 인식 서버(120)는 텍스트 데이터의 문장과 스토리 컨텐츠의 문장 간의 유사도가 임계치 이상인 문장이 검색된 경우, 검색된 스토리 컨텐츠의 문장에 기초하여 텍스트 데이터에 포함된 오류를 보정할 수 있다. 다른 예를 들어, 음성 인식 서버(120)는 텍스트 데이터의 문장과 스토리 컨텐츠의 문장 간의 유사도가 임계치 이상인 문장이 복수개로 검색된 경우, 문맥 추적 알고리즘을 이용하여 복수개의 문장 중 어느 하나를 선택하고, 선택된 문장에 기초하여 텍스트 데이터에 포함된 오류를 보정할 수 있다.
음성 인식 서버(120)는 계층화된 스토리 컨텐츠로부터 텍스트 데이터에 해당하는 스토리 컨텐츠의 문맥을 추적할 수 있다. 예를 들어, 음성 인식 서버(120)는 스토리 컨텐츠의 문맥을 추적하여 스토리 컨텐츠로부터 텍스트 데이터에 해당하는 문장을 추출할 수 있다.
음성 인식 서버(120)는 스토리 컨텐츠 및 변환된 텍스트 데이터를 비교하여 텍스트 데이터에 대응하는 음향 효과를 스토리 컨텐츠로부터 추출할 수 있다. 여기서, 음향 효과는 일반 효과음 및 대화 효과음을 포함할 수 있다. 예를 들어, 음성 인식 서버(120)는 추출된 문장에 대응하는 음향 효과가 일반 효과음에 해당하는 경우, 기저장된 스토리 컨텐츠로부터 일반 효과음을 추출할 수 있다. 다른 예를 들어, 음성 인식 서버(120)는 추출된 문장 내에 대화문이 포함되어 있는 경우, 기저장된 스토리 컨텐츠로부터 대화문에 대응하는 대화 효과음을 추출할 수 있다.
음성 인식 서버(120)는 추출된 음향 효과를 미디어 재생 장치(110)로 제공할 수 있다.
즉, 다른 실시예에 따르면, 미디어 재생 장치(110)는 음성 인식 서버(120)로부터 음향 효과를 수신하여 출력하는 역할을 수행하고, 음성 인식 서버(120)는 사용자(100)가 발화한 스토리 컨텐츠의 내용에 관한 음성 데이터를 텍스트 데이터로 변환하고, 스토리 컨텐츠의 문맥을 직접 인식하여 음향 효과를 추출하여 미디어 재생 장치(110)로 제공하는 역할을 수행할 수 있다.
디스플레이 장치(미도시)는 미디어 재생 장치(110)에서 디스플레이 기능을 제공하지 않은 경우, 미디어 재생 장치(110)와 HDMI 또는 Wi-Fi와 같이 유무선 인터페이스로 연결되어 스토리 컨텐츠에 대응하는 시각적 효과를 제공할 수 있다.
도 2는 본 발명의 일 실시예에 따른 미디어 재생 장치의 구성도이다. 일 실시예에 따르면, 미디어 재생 장치(110)는 관리부(200), 입력부(210), 전송부(220), 수신부(230), 오류 보정부(240), 문맥 추적부(250), 묵음 구간 검출부(260), 음향 효과 추출부(270), 음향 효과 제공부(280), 디스플레이부(290) 및 제어부(300)를 포함할 수 있다.
관리부(200)는 사용자(100)로부터 복수의 스토리 컨텐츠 중 어느 하나의 컨텐츠를 요청받고, 요청받은 스토리 컨텐츠를 컨텐츠 제공 서버(미도시)로부터 다운로드하여 관리할 수 있다. 여기서, 스토리 컨텐츠는 스토리 컨텐츠가 기재되어 있는 적어도 하나의 문단, 각 문단에 포함된 적어도 하나의 문장 및 적어도 하나의 문장에 포함된 적어도 하나의 대화문으로 계층화된 것일 수 있다. 즉, 적어도 하나의 대화문을 포함하는 적어도 하나의 문장이 모여 문단을 형성하고, 적어도 하나의 문단이 모여 스토리 컨텐츠를 형성할 수 있다.
입력부(210)는 기저장된 스토리 컨텐츠의 내용에 대해 사용자(100)가 발화한 음성을 입력받을 수 있다.
전송부(220)는 입력된 음성 데이터를 음성 인식 서버(120)로 전송할 수 있다.
수신부(230)는 음성 인식 서버(120)로부터 음성 데이터에 기초하여 변환된 텍스트 데이터를 수신할 수 있다.
오류 보정부(240)는 텍스트 데이터를 기저장된 스토리 컨텐츠와 비교하여 텍스트 데이터에 포함된 오류를 보정할 수 있다.
구체적으로, 오류 보정부(240)는 오류 보정 알고리즘을 적용하여 텍스트 데이터의 문장과 기저장된 스토리 컨텐츠의 문장 간의 유사도가 임계치 이상인 문장을 검색할 수 있다. 오류 보정 알고리즘이란 텍스트 데이터에 오류가 포함되더라도, 텍스트 데이터에 포함된 오류를 보정하여 스토리 컨텐츠의 문장을 인지하는 알고리즘을 의미한다. 예를 들어, 오류 보정부(240)는 텍스트 데이터의 문장과 기저장된 스토리 컨텐츠의 문장 간의 유사도가 임계치 이상인 문장이 검색된 경우, 검색된 스토리 컨텐츠의 문장에 기초하여 텍스트 데이터에 포함된 오류를 보정할 수 있다. 다른 예를 들어, 오류 보정부(240)는 변환된 텍스트 데이터의 문장과 기저장된 스토리 컨텐츠의 문장 간의 유사도가 임계치 이상인 문장이 복수개로 검색된 경우, 문맥 추적 알고리즘을 이용하여 복수개의 문장 중 어느 하나를 선택하고, 선택된 문장에 기초하여 텍스트 데이터에 포함된 오류를 보정할 수 있다. 문맥 추적 알고리즘이란 스토리 컨텐츠에 복수의 문단에 동일 문장이 반복된 경우, 이에 대응하는 문단을 추적하여 적절한 음향 효과를 추출할 수 있도록 하는 알고리즘을 나타낸다.
문맥 추적부(250)는 계층화된 스토리 컨텐츠로부터 텍스트 데이터에 해당하는 스토리 컨텐츠의 문맥을 추적할 수 있다. 예를 들어, 문맥 추적부(250)는 스토리 컨텐츠의 문맥을 추적하여 스토리 컨텐츠로부터 텍스트 데이터에 해당하는 문장을 추출할 수 있다. 이 때, 문맥 추적부(250)는 텍스트 데이터에 해당하는 문장이 스토리 컨텐츠에 적어도 둘 이상 포함되어 있는 경우, 텍스트 데이터에 해당하는 둘 이상의 문장 중 유사도 가중 파라미터 및 디스턴스 가중 파라미터를 적용하여 텍스트 데이터에 해당하는 문장을 추출할 수 있다.
묵음 검출부(260)는 사용자(100)가 발화한 음성에 대해 마이크 레벨을 확인하고, 확인된 마이크 레벨에 기초하여 사용자(100)가 발화한 음성의 묵음 구간을 검출할 수 있다. 이는, 기존의 문장에 대응하는 부가 효과음의 경우, 빠른 플레이를 위해 전체 문장이 인식되지 않더라도 중간 인식 결과를 통해 문장의 정합성이 맞을 경우 바로 재생된다는 장점을 가지나, 문장에 포함된 대화문의 경우, 사용자(100)가 문장을 모두 발화하지 않았음에도 대화문에 해당하는 대화 효과음이 재생되어 대화의 충돌이 발생하므로, 이를 방지하기 위함이다. 따라서, 묵음 검출부(260)에서 사용자(100)의 음성의 묵음 구간의 검출을 통해 사용자(100)가 문장의 발화를 마쳤는지를 확인할 수 있다.
음향 효과 추출부(270)는 기저장된 스토리 컨텐츠 및 수신된 텍스트 데이터를 비교하여 상기 텍스트 데이터에 대응하는 음향 효과를 기저장된 스토리 컨텐츠로부터 추출할 수 있다. 예를 들어, 음향 효과 추출부(270)는 추출된 문장에 대응하는 음향 효과를 기저장된 스토리 컨텐츠로부터 추출할 수 있다. 여기서, 음향 효과는 일반 효과음 및 대화 효과음을 포함할 수 있다.
예를 들어, 음향 효과 추출부(270)는 추출된 문장에 대응하는 음향 효과가 일반 효과음인 경우, 기저장된 스토리 컨텐츠로부터 일반 효과음을 추출할 수 있다. 다른 예를 들어, 음향 효과 추출부(270)는 추출된 문장 내에 대화문이 포함되어 있는 경우, 기저장된 스토리 컨텐츠로부터 대화문에 대응하는 대화 효과음을 추출할 수 있다. 여기서, 대화문은 대화문 스크립트를 포함할 수 있다.
음향 효과 제공부(280)는 추출된 음향 효과를 제공할 수 있다. 예를 들어, 음향 효과 제공부(280)는 추출된 문장과 관련하여 사용자(100)가 발화하는 중에 추출된 일반 효과음을 제공할 수 있다. 다른 예를 들어, 음향 효과 제공부(280)는 추출된 묵음 구간에 기초하여 추출된 문장과 관련하여 사용자(100)가 완전히 발화하였다고 판단된 경우, 추출된 묵음 구간 후에 대화 효과음을 제공할 수 있다.
디스플레이부(290)는 대화문에 포함된 대화문 스크립트에 기초하여 대화 효과음에 대응하는 정지 이미지 또는 동영상과 같은 시각적 효과를 제공할 수 있다.
제어부(300)는 텍스트 데이터에 대응하는 진동 효과 또는 조명 효과를 제공하도록 복수의 기기와의 연동을 통해 제어할 수 있다.
즉, 일 실시예에 따르면, 미디어 재생 장치(110)는 스토리 컨텐츠의 변환된 텍스트 데이터의 오류 보정 및 텍스트 데이터에 대응하는 음향 효과를 추출하여 이를 출력하는 역할을 수행할 수 있다.
다른 실시예에 따르면, 미디어 재생 장치(110)는 입력부(210), 전송부(220), 수신부(230) 및 음향 효과 제공부(280)를 포함할 수 있다.
입력부(210)는 사용자(100)로부터 스토리 컨텐츠의 내용을 발화한 음성을 입력받을 수 있다.
전송부(220)는 입력된 음성에 관한 음성 데이터를 음성 인식 서버(120)로 전송할 수 있다.
수신부(230)는 음성 인식 서버(120)로부터 전송된 음성 데이터에 대응하는 음향 효과를 수신할 수 있다.
묵음 검출부(260)는 사용자(100)가 발화한 음성에 대해 마이크 레벨을 확인하고, 확인된 마이크 레벨에 기초하여 사용자(100)가 발화한 음성의 묵음 구간을 검출할 수 있다.
음향 효과 제공부(280)는 수신한 음향 효과를 제공할 수 있다.
즉, 다른 실시예에 따르면, 미디어 재생 장치(110)는 음성 인식 서버(120)로부터 음향 효과를 수신하여 이를 출력하는 역할만을 수행할 수도 있다.
도 3은 본 발명의 일 실시예에 따른 미디어 재생 장치에서 스토리 컨텐츠에 대한 음향 효과를 제공하는 방법의 순서도이다. 도 3에 도시된 미디어 재생 장치(110)에서 스토리 컨텐츠에 대한 음향 효과를 제공하는 방법은 도 1 및 도 2에 도시된 실시예에 따른 음향 효과 제공 시스템(1)에 의해 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 및 도 2에 도시된 실시예에 따른 미디어 재생 장치(110)에서 스토리 컨텐츠에 대한 음향 효과를 제공하는 방법에도 적용된다.
단계 S310에서 미디어 재생 장치(110)는 기저장된 스토리 컨텐츠의 내용에 대해 사용자(100)가 발화한 음성을 입력받을 수 있다.
단계 S320에서 미디어 재생 장치(110)는 입력된 음성 데이터를 음성 인식 서버(120)로 전송할 수 있다.
단계 S330에서 미디어 재생 장치(110)는 음성 인식 서버(120)로부터 음성 데이터에 기초하여 변환된 텍스트 데이터를 수신할 수 있다.
단계 S340에서 미디어 재생 장치(110)는 기저장된 스토리 컨텐츠 및 수신된 텍스트 데이터를 비교하여 텍스트 데이터에 대응하는 음향 효과를 기저장된 스토리 컨텐츠로부터 추출할 수 있다. 여기서, 음향 효과는 예를 들어, 일반 효과음 및 대화 효과음을 포함할 수 있다.
단계 S350에서 미디어 재생 장치(110)는 추출된 음향 효과를 제공할 수 있다.
상술한 설명에서, 단계 S310 내지 S350은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.
도 4는 본 발명의 다른 실시예에 따른 미디어 재생 장치에서 스토리 컨텐츠에 대한 음향 효과를 제공하는 방법의 순서도이다. 도 4에 도시된 미디어 재생 장치(110)에서 스토리 컨텐츠에 대한 음향 효과를 제공하는 방법은 도 1 내지 도 3에 도시된 실시예에 따른 음향 효과 제공 시스템(1)에 의해 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 3에 도시된 실시예에 따른 미디어 재생 장치(110)에서 스토리 컨텐츠에 대한 음향 효과를 제공하는 방법에도 적용된다.
단계 S410에서 미디어 재생 장치(110)는 사용자(100)로부터 스토리 컨텐츠의 내용을 발화한 음성을 입력받을 수 있다.
단계 S420에서 미디어 재생 장치(110)는 입력된 음성에 관한 음성 데이터를 음성 인식 서버(120)로 전송할 수 있다.
단계 S430에서 미디어 재생 장치(110)는 음성 인식 서버(120)로부터 전송된 음성 데이터에 대응하는 음향 효과를 수신할 수 있다. 여기서, 음향 효과는 예를 들어, 일반 효과음 및 대화 효과음을 포함할 수 있다.
단계 S440에서 미디어 재생 장치(110)는 수신한 음향 효과를 제공할 수 있다.
상술한 설명에서, 단계 S410 내지 S440은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.
도 5는 본 발명의 일 실시예에 따른 음성 인식 서버의 구성도이다. 일 실시예에 따르면, 음성 인식 서버(120)는 수신부(510), 변환부(520), 오류 보정부(530), 문맥 추적부(540), 음향 효과 추출부(550) 및 음향 효과 제공부(560)를 포함할 수 있다.
수신부(510)는 미디어 재생 장치(110)로부터 사용자(100)에 의해 스토리 컨텐츠의 내용이 발화된 음성 데이터를 수신할 수 있다. 여기서, 스토리 컨텐츠는 스토리 컨텐츠가 기재되어 있는 적어도 하나의 문단, 각 문단에 포함된 적어도 하나의 문장 및 적어도 하나의 문장에 포함된 적어도 하나의 대화문으로 계층화되도록 구성되며, 계층화된 적어도 하나의 문단, 각 문단에 포함된 적어도 하나의 문장 및 적어도 하나의 문장에 포함된 적어도 하나의 대화문이 소정의 상위 문단에 포함되도록 확장된 계층화 구조를 갖도록 구성될 수 있다.
변환부(520)는 수신한 음성 데이터를 텍스트 데이터로 변환할 수 있다.
오류 보정부(530)는 텍스트 데이터를 스토리 컨텐츠와 비교하여 텍스트 데이터에 포함된 오류를 보정할 수 있다.
구체적으로, 오류 보정부(530)는 오류 보정 알고리즘을 적용하여 텍스트 데이터의 문장과 스토리 컨텐츠의 문장 간의 유사도가 임계치 이상인 문장을 검색할 수 있다. 오류 보정 알고리즘이란 텍스트 데이터에 오류가 포함되더라도, 텍스트 데이터에 포함된 오류를 보정하여 스토리 컨텐츠의 문장을 인지하는 알고리즘을 의미한다. 예를 들어, 텍스트 데이터의 문장과 스토리 컨텐츠의 문장 간의 유사도가 임계치 이상인 문장이 검색된 경우, 오류 보정부(530)는 검색된 스토리 컨텐츠의 문장에 기초하여 텍스트 데이터에 포함된 오류를 보정할 수 있다. 다른 예를 들어, 텍스트 데이터의 문장과 스토리 컨텐츠의 문장 간의 유사도가 임계치 이상인 문장이 복수개로 검색된 경우, 오류 보정부(530)는 문맥 추적 알고리즘을 이용하여 복수개의 문장 중 어느 하나를 선택하고, 선택된 문장에 기초하여 텍스트 데이터에 포함된 오류를 보정할 수 있다. 문맥 추적 알고리즘이란 스토리 컨텐츠에 복수의 문단에 동일 문장이 반복된 경우, 이에 대응하는 문단을 추적하여 적절한 음향 효과를 추출할 수 있도록 하는 알고리즘을 나타낸다.
문맥 추적부(540)는 계층화된 스토리 컨텐츠로부터 텍스트 데이터에 해당하는 스토리 컨텐츠의 문맥을 추적할 수 있다. 예를 들어, 문맥 추적부(540)는 스토리 컨텐츠의 문맥을 추적하여 스토리 컨텐츠로부터 텍스트 데이터에 해당하는 문장을 추출할 수 있다.
음향 효과 추출부(550)는 스토리 컨텐츠 및 변환된 텍스트 데이터를 비교하여 텍스트 데이터에 대응하는 음향 효과를 스토리 컨텐츠로부터 추출할 수 있다. 음향 효과는 예를 들어, 일반 효과음 및 대화 효과음을 포함할 수 있다. 예를 들어, 음향 효과 추출부(550)는 추출된 문장에 대응하는 음향 효과가 일반 효과음인 경우, 기저장된 스토리 컨텐츠로부터 일반 효과음을 추출할 수 있다. 다른 예를 들어, 음향 효과 추출부(550)는 추출된 문장 내에 대화문이 포함되어 있는 경우, 기저장된 스토리 컨텐츠로부터 대화문에 대응하는 대화 효과음을 추출할 수 있다.
음향 효과 제공부(560)는 추출된 음향 효과를 미디어 재생 장치(110)로 제공할 수 있다.
즉, 일 실시예에 따르면, 음성 인식 서버(120)는 스토리 컨텐츠의 변환된 텍스트 데이터의 오류 보정 및 텍스트 데이터에 대응하는 음향 효과를 추출하여 이를 미디어 재생 장치(110)로 제공하는 역할을 수행할 수 있다.
다른 실시예에 따르면, 음성 인식 서버(120)는 수신부(510), 변환부(520) 및 전송부(미도시)를 포함할 수 있다.
수신부(510)는 미디어 재생 장치(110)로부터 사용자(100)에 의해 스토리 컨텐츠의 내용이 발화된 음성 데이터를 수신할 수 있다.
변환부(520)는 수신한 음성 데이터를 텍스트 데이터로 변환할 수 있다.
전송부(미도시)는 변환된 텍스트 데이터를 미디어 재생 장치(110)로 전송할 수 있다.
즉, 다른 실시예에 따르면, 음성 인식 서버(120)는 미디어 재생 장치(110)로부터 수신한 음성 데이터를 텍스트 데이터로 변환하는 기능만을 수행할 수도 있다.
도 6은 본 발명의 일 실시예에 따른 음성 인식 서버에서 스토리 컨텐츠에 대한 음향 효과를 제공하는 방법의 순서도이다. 도 6에 도시된 음성 인식 서버(120)에서 스토리 컨텐츠에 대한 음향 효과를 제공하는 방법은 도 1 내지 도 5에 도시된 실시예에 따른 음향 효과 제공 시스템(1)에 의해 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 5에 도시된 실시예에 따른 음성 인식 서버(120)에서 스토리 컨텐츠에 대한 음향 효과를 제공하는 방법에도 적용된다.
단계 S610에서 음성 인식 서버(120)는 미디어 재생 장치(110)로부터 사용자(100)에 의해 스토리 컨텐츠의 내용이 발화된 음성 데이터를 수신할 수 있다.
단계 S620에서 음성 인식 서버(120)는 수신한 음성 데이터를 텍스트 데이터로 변환할 수 있다.
단계 S630에서 음성 인식 서버(120)는 스토리 컨텐츠 및 변환된 텍스트 데이터를 비교하여 텍스트 데이터에 대응하는 음향 효과를 스토리 컨텐츠로부터 추출할 수 있다.
단계 S640에서 음성 인식 서버(120)는 추출된 음향 효과를 미디어 재생 장치(110)로 제공할 수 있다.
상술한 설명에서, 단계 S610 내지 S640은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.
도 7a 및 도 7b는 본 발명의 일 실시예에 따른 스토리 컨텐츠 및 변환된 텍스트 데이터를 비교하여 텍스트 데이터에 포함된 오류를 보정하는 과정을 설명하기 위한 예시적인 도면이다.
도 7a는 본 발명의 일 실시예에 따른 스토리 컨텐츠 및 사용자가 음성 발화한 스토리 컨텐츠의 내용에 기초하여 변환된 텍스트 데이터를 비교한 예시적인 도면이다. 도 7a를 참조하면, 음성 인식 서버(120)는 미디어 재생 장치(110)로부터 사용자(100)가 발화한 스토리 컨텐츠의 내용에 대한 음성 데이터를 수신하고, 수신한 음성 데이터를 텍스트 데이터(710)로 변환할 수 있다. 음성 인식 서버(120)는 스토리 컨텐츠(700)와 변환된 텍스트 데이터(710)를 비교하여 텍스트 데이터(710)에 포함된 오류를 보정할 수 있다. 음성 인식 서버(120)는 텍스트 데이터(710)에 붉은색으로 표시된 단어를 오류로 판단할 수 있다.
이러한 미디어 재생 장치(110) 또는 음성 인식 서버(120)는 사용자(100)가 스토리 컨텐츠의 어느 부분을 읽고 있는지를 추적하여 음향 효과를 제공하기 위해, 텍스트 데이터(710)에 오류가 포함되어 있다고 하더라도 보정 알고리즘을 통해 스토리 컨텐츠의 내용을 유추할 수 있어야 한다.
도 7b는 본 발명의 일 실시예에 따른 스토리 컨텐츠 및 텍스트 데이터의 비교를 통해 텍스트 데이터에 포함된 오류를 보정하는 과정을 설명하기 위한 예시적인 도면이다. 도 7b를 참조하면, 스토리 컨텐츠(720)의 내용이 "나무꾼은 호랑이가 무서웠지만 아파하는 호랑이를 내버려둘 수 없었어요"라는 부분을 사용자(100)가 음성 발화한 경우, 음성 인식 서버(120)는 이를 정확히 인지하지 못하고 "호랑이가 무서워지만 아빠는 호랑이를 내버려 둘 수 없어요"라고 인식하여 텍스트 데이터(730)로 변환할 수 있다.
종래의 방법으로 오류가 포함된 텍스트 데이터(730)를 단순히 스트링 비교만을 통해 스토리 컨텐츠(720)에서 문장을 검색할 경우 원하는 검색 결과를 얻을 수 없으므로, 음성 인식 서버(120)는 오류 보정 알고리즘으로 O(ND) Diff 알고리즘을 이용하여 스토리 컨텐츠(720) 및 텍스트 데이터(730) 간의 유사도가 가장 높은 문장을 검색하여 오류를 보정(740)할 수 있다. 음성 인식 서버(120)는 유사도가 임계값 이상인 경우, 해당 문장을 선택하고, 유사도가 임계값 이상인 문장이 복수개가 검색된 경우(예를 들어, 동일 문장이 1문단, 3문단, 5문단 등에서 검색된 경우), 문맥 추적 알고리즘을 이용하여 가장 알맞은 문장을 선택하여 오류를 보정(740)할 수 있다.
도 8a 내지 도 8c는 본 발명의 일 실시예에 따른 스토리 컨텐츠로부터 일반 효과음을 포함하는 음향 효과를 추출하는 과정을 설명하기 위한 예시적인 도면이다.
도 8a는 본 발명의 일 실시예에 따른 미디어 재생 장치에서 제공되는 일반 효과음을 포함하는 음향 효과를 도시한 예시적인 도면이다. 도 8a를 참조하면, 미디어 재생 장치(110)에서 제공되는 일반 효과음은 배경음(800) 및 효과음(810)을 포함할 수 있다. 배경음(800)은 하나의 문단 내용에 대응되는 음향 효과로서 예를 들어, 군중소리(801), 정글소리(802) 등을 포함하고, 효과음(810)은 특정 문장 내용에 대응되는 음향 효과로서 따릉따릉소리(811), 노젓는 소리(812) 등을 포함할 수 있다.
도 8b는 본 발명의 일 실시예에 따른 계층 구조로 구성된 스토리 컨텐츠로부터 일반 효과음을 포함하는 음향 효과를 추출하는 과정을 설명하기 위한 예시적인 도면이다. 도 8b를 참조하면, 스토리 컨텐츠의 XML 파일은 Class에 스토리 컨텐츠를 나타내는 ClassName과 언어를 나타내는 Language 파라미터로 정의될 수 있다. 이 때, 음성 인식 서버(120)는 음성 인식 언어를 동적으로 변경할 수 없으므로, 사용자(100)가 말한 스토리 컨텐츠의 제목을 ClassName과 비교하여 해당 스토리 컨텐츠를 준비하고, 해당 스토리 컨텐츠에 정의된 Language 파라미터를 통해 인식 언어를 설정 및 변경할 수 있다. 예를 들어, 국문 스토리 컨텐츠일 경우 Language 파라미터를 "ko"로 설정하고, 영어 스토리 컨텐츠일 경우 Language 파라미터를 "en'으로 설정할 수 있다. 이를 통해, 본 발명은 Language 파라미터를 이용하여 STT(Speech To Text) API의 인식 언어를 설정 및 변경이 가능해지므로, 음향 효과 인터렉티브 서비스를 한글뿐만 아니라 영어 등의 다국어 지원을 통해 유아 및 어린이 영어회화, 롤플레이 대화, 영어 연극 등의 학습 컨텐츠, 청소년 및 일반인 영어회화 컨텐츠와 같이 영어 스토리 컨텐츠 서비스로 확장이 가능함으로써, 스토리 컨텐츠 서비스 시장을 확대시킬 수 있다.
또한, 영어 스토리 컨텐츠 및 사용자(100)의 음성 인식 결과의 유사도 레벨을 변경하여, 영어 스토리 컨텐츠 읽기의 난이도를 조절함으로써, 어린이의 영어 스토리 컨텐츠 읽기의 흥미를 점진적으로 발전시킬 수도 있다. 예를 들어, 사용자(100)의 음성 인식 결과와 스토리 컨텐츠의 문장을 1:1로 비교하여 0%~100% 사이의 유사성을 난이도로 조정하게끔 함으로써, 학습 효과를 제공할 수 있다.
미디어 재생 장치(110) 또는 음성 인식 서버(120)는 배경음과 효과음을 효과적으로 재생하기 위해 스토리 컨텐츠를 문단과 문장을 계층적으로 구분하여 관리할 수 있다. 이 때, 스토리 컨텐츠는 문단과 문장이 계층적 구조로 표현된 XML 파일을 통해, 어느 시점에 어떤 음을 추출해야 하는지를 알 수 있게 하여 그에 대응하는 음향 효과를 추출할 수 있도록 한다.
예를 들어, "곰돌이가 자전거를 타고 가요/ 곰돌아 어디가니/ 시장에 갈 거야"(830)라는 문단이 사용자(100)로부터 발화되어 미디어 재생 장치에(120)에 입력되는 동안 '군중소리'(820)가 배경음으로 재생되도록 하고, 각각의 문장 중 "곰돌이가 자전거를 타고 가요."(831)에 해당하는 문장이 사용자(100)로부터 발화되어 미디어 재생 장치에(120)에 입력되는 동안 '따릉따릉소리'(832)가 재생되도록 할 수 있다.
다른 예를 들어, "곰돌이가 뗏목을 타고 가요/ 곰돌아 어디가니?/ 정글에 갈거야."(850)라는 문단이 사용자(100)로부터 발화되어 미디어 재생 장치에(120)에 입력되는 동안 '정글소리'(840)가 배경음으로 재생되도록 하고, 각각의 문장 중 "곰돌이가 뗏목을 타고 가요."(851)에 해당하는 문장이 사용자(100)로부터 발화되어 미디어 재생 장치에(120)에 입력되는 동안 '노젓는 소리'(852)가 재생되도록 할 수 있다.
이와 같이, 본 발명은 스토리 컨텐츠의 문단과 문장을 계층적 구조로 구분하여 관리함으로써 다음과 같은 효과를 얻을 수 있다. 예를 들어, 특정 문장을 인식하지 못하는 예외 상황이 발생하더라도, 해당 문단의 배경음을 추출할 수 있다. 종래의 방법을 이용하는 경우, "곰돌이가 자전거를 타고 가요"라는 문장에 배경음인 "군중소리.wav"를 지정하였으나, 변환된 텍스트에 오류가 포함됨으로써 "곰돌이가 자전거를 타고 가요"라는 문장을 인식하지 못하게 되는 경우, 다음 문장인 "곰돌아 어디가니?"와 "시장에 갈거야."에서 "군중소리.wav"의 재생 시점을 놓치게 된다. 그러나 본 발명의 방법을 이용하는 경우, 문단이 계층 구조로 구성됨으로써, "곰돌이가 자전거를 타고 가요"라는 문장을 놓치게 되더라도 "곰돌아 어디가니?" 또는 "시장에 갈거야."라는 문장이 인식될 때, 사용자(100)가 첫번째 문단을 발화하고 있음을 인지하여 "군중소리.wav"를 재생할 수 있게 된다.
또한, 스토리 컨텐츠 내에 동일 문장이 반복되더라도 문맥의 흐름을 파악할 수 있다는 장점을 갖는다. 예를 들어, 스토리 컨텐츠를 구성하는 서로 다른 제 1 문단 및 제 2 문단에 동일한 문장인 "곰돌아 어디가니?"라는 문장이 중복되어 있는 경우, 오류 보정 알고리즘에 의해 "곰돌아 어디가니?"라는 사용자(100)의 발화에 대해 2개의 후보 문장을 선정하더라도, 이전에 인식된 문장이 제 1 문단에 기재된 "곰돌이가 자전거를 타고 가요"인지 또는 제 2 문단에 기재된 "곰돌이가 뗏목을 타고 가요"인지를 판단하여 2 개의 "곰돌아 어디가니?" 중 문맥에 맞는 최적의 문장을 선택할 수 있다.
이를 위해, 유사도 가중치 파라미터와 디스턴스 가중치 파라미터를 이용할 수 있다. 유사도 가중치 파라미터는 문장의 유사도를 측정하고, 가중치 파라미터는 마지막 인식 문장에서 현재 위치까지 얼마나 떨어져 있는지를 판별할 수 있다. 예를 들어, "곰돌아 어디가니?"라는 음성 인식 결과가 나온 경우, 제 1 및 제 2 문단에 동일하게 존재하는 "곰돌아 어디가니?"라는 문장과 유사도는 동일하게 측정될 수 있으나, 바로 이전에 인식된 문장이 제 1 문단에 포함된 "곰돌이가 자전거를 타고가요"인지 또는 제 2 문단의 "곰돌이가 뗏목을 타고 가요"인지에 따라 디스턴스 가중치가 달라지므로 좀더 문맥에 맞는 최적의 문장을 선택할 수 있게 된다.
즉, 스토리 컨텐츠가 문단 및 문장으로 계층화됨으로써, 문맥 추적 알고리즘을 이용하여 사용자(100)가 어느 문단을 읽고 있는 지를 판단할 수 있게 된다.
도 8c는 본 발명의 일 실시예에 따른 확장된 계층 구조로 구성된 스토리 컨텐츠로부터 일반 효과음을 포함하는 음향 효과를 추출하는 과정을 설명하기 위한 예시적인 도면이다. 도 8c를 참조하면, 확장된 계층 구조로 구성된 스토리 컨텐츠는 상위 문단(860 및 880)에 배경음을 정의하는 복수의 문단(870, 875, 890, 895)을 포함할 수 있다. 이 때, 상위 문단(860 및 880)은 조명의 밝기를 달리하는 명령어를 각각 포함함으로써 낮(예를 들어, LightLevel="90")과 밤(예를 들어, LightLevel="15")을 구분되도록 할 수 있다. 이외에도, 확장된 계층 구조로 구성된 스토리 컨텐츠를 통해 다양한 효과를 컨텐츠에 포함시킬 수 있다.
도 9a 내지 도 9e는 본 발명의 일 실시예에 따른 스토리 컨텐츠로부터 일반효과음 및 대화 효과음을 포함하는 음향 효과를 추출하는 과정을 설명하기 위한 예시적인 도면이다.
도 9a는 본 발명의 일 실시예에 따른 미디어 재생 장치에서 제공되는 일반 효과음 및 대화 효과음을 포함하는 음향 효과를 추출 도시한 예시적인 도면이다. 도 9a를 참조하면, 미디어 재생 장치(110)에서 제공되는 음향 효과는 일반 효과음 및 대화 효과음을 포함할 수 있다. 일반 효과음은 배경음 및 효과음을 포함하고, 대화 효과음은 성우의 목소리를 포함할 수 있다. 배경음은 하나의 문단 내용에 대응되는 음향 효과로서 예를 들어, '긴장되는 음악'(910)을 포함하고, 효과음은 특정 문장 내용에 대응되는 음향 효과로서 '쏘옥소리'(920), '문덜컹 소리'(921) 등을 포함할 수 있다. 대화 효과음은 성우의 목소리로 녹음된 문장이 대응되는 음향 효과로서, 예를 들어, 오누이 - "어? 엄마 손이 왜이리 거칠어요?"(930), 엄마 - "일을 많이 해서 그렇단다"(931), 호랑이 - "너희 엄마는 내가 잡아먹었다."(932) 등을 포함하며, 대화 효과음을 통해 마치 대화가 이루어지는 듯한 효과를 제공할 수 있다.
도 9b는 본 발명의 일 실시예에 따른 계층 구조로 구성된 스토리 컨텐츠로부터 일반 효과음 및 대화 효과음을 포함하는 음향 효과를 추출하는 과정을 설명하기 위한 예시적인 도면이다. 도 9b를 참조하면, 스토리 컨텐츠의 XML 파일은 Class에 스토리 컨텐츠를 나타내는 ClassName과 언어를 나타내는 Language 파라미터로 정의될 수 있다. 이 때, 음성 인식 서버(120)는 음성 인식 언어를 동적으로 변경할 수 없으므로, 사용자(100)가 말한 스토리 컨텐츠의 제목을 ClassName과 비교하여 해당 스토리 컨텐츠를 준비하고, 해당 스토리 컨텐츠에 정의된 Language 파라미터를 통해 인식 언어를 설정 및 변경할 수 있다. 예를 들어, 국문 스토리 컨텐츠일 경우 Language 파라미터를 "ko"로 설정하고, 영어 스토리 컨텐츠일 경우 Language 파라미터를 "en'으로 설정할 수 있다. 이를 통해, 본 발명은 Language 파라미터를 이용하여 음향 효과 인터렉티브 서비스를 영어 스토리 컨텐츠 서비스로 확장이 가능함으로써, 스토리 컨텐츠 서비스 시장을 확대시킬 수 있다.
미디어 재생 장치(110) 또는 음성 인식 서버(120)는 음향 효과를 효과적으로 재생하기 위해 스토리 컨텐츠를 문단, 문장 및 대화문을 계층적으로 구분하여 관리할 수 있다. 이 때, 스토리 컨텐츠는 문단, 문장 및 대화문이 계층적 구조로 표현된 XML 파일을 통해, 어느 시점에 어떤 음을 추출해야 하는지를 알 수 있게 하여 그에 대응하는 음향 효과를 추출할 수 있도록 한다.
예를 들어, "떡가루를 묻히고 방으로 쑥 들이밀었어"(951) 및 "오누이가 속아 문을 열어주자 호랑이가 달려들었지"(961)라는 내용을 포함하는 문단(940)이 사용자(100)로부터 발화되어 미디어 재생 장치(110)에 입력되는 동안 '긴장되는 음악'(941)을 배경음으로 재생되도록 할 수 있다.
미디어 재생 장치(110)는 사용자(100)로부터 문단(940)에 포함된 "떡가루를 묻히고 방으로 쑥 들이밀었어"(951)라는 내용을 포함하는 제 1 문장(950)이 발화되면, '쏘옥 소리'(952)를 사용자(100)가 발화하는 중에 부가 효과음으로 재생되도록 할 수 있다. 이 때, 미디어 재생 장치(110)는 제 1 문장(950) 내에 대화문이 포함되어 있는 경우, 사용자(100)가 발화한 음성에 대해 마이크 레벨을 확인하고, 확인된 마이크 레벨에 기초하여 사용자(100)가 발화한 음성의 묵음 구간을 추출한 후, 추출된 묵음 구간에 기초하여 추출된 문장과 관련하여 사용자(100)가 완전히 발화하였다고 판단되는 경우, 대화문에 대응하는 '오누이 - "어? 엄마 손이 왜이리 거칠어요?"(953)', '엄마 - "일을 많이 해서 그렇단다"(954)'와 같이 해당 대화문에 대응하는 녹음된 성우의 목소리를 대화 효과음으로 재생할 수 있다.
미디어 재생 장치(110)는 사용자(100)로부터 문단(940)에 포함된 "오누이가 속아 문을 열어주자 호랑이가 달려들었지"(961)라는 내용을 포함하는 제 2 문장(960)이 발화되면, '문덜컹소리'(962)를 사용자(100)가 발화하는 중에 부가 효과음으로 재생되도록 할 수 있다. 이 때, 미디어 재생 장치(110)는 제 2 문장(960) 내에 대화문이 포함되어 있는 경우, 사용자(100)가 발화한 음성에 대해 마이크 레벨을 확인하고, 확인된 마이크 레벨에 기초하여 사용자(100)가 발화한 음성의 묵음 구간을 추출한 후, 추출된 묵음 구간에 기초하여 추출된 문장과 관련하여 사용자(100)가 완전히 발화하였다고 판단되는 경우, 대화문에 대응하는 '호랑이 - "너희 엄마는 내가 잡아먹었다"(963)와 같이 해당 대화문에 대응하는 성우의 목소리를 대화 효과음으로 재생할 수 있다.
이러한 과정을 통해 사용자(100)가 스토리 컨텐츠의 문장을 발화하면, 문장에 포함된 대화문에 해당하는 내용이 성우 목소리를 통해 재생되어 인터랙티브(interactive)하게 재생됨으로써, 마치 대화가 이루어지는 듯한 효과를 제공할 수 있다.
도 9c는 본 발명의 일 실시예에 따른 미디어 재생 장치에서 대화 효과음에 대응하는 시각적 효과를 제공하는 과정을 설명하기 위한 예시적인 도면이다. 도 9c를 참조하면, 스토리 컨텐츠의 문장 내에 포함된 대화문은 대화문 스크립트를 포함하며, 미디어 재생 장치(110)는 대화문 스크립트에 기초하여 대화 효과음에 대응하는 시각적 효과를 제공할 수 있다.
예를 들어, 사용자(100)가 제 1 문장(950)에 해당하는 "떡가루를 묻히고 방으로 쑥 들이밀었어"(951)라는 내용을 발화한 경우, 미디어 재생 장치(110)가 대화 효과음에 해당하는 "어? 엄마 손이 왜이리 거칠어요?"(953) 및 "일을 많이 해서 그렇단다"(954)를 재생하면서, 대화 효과음의 성우 목소리에 해당하는 문장 내용을 시각적으로 디스플레이를 통해 출력할 수 있다.
다른 예를 들어, 사용자(100)가 제 2 문장(960)에 해당하는 "오누이가 속아 문을 열어주자 호랑이가 달려들었지"(961)라는 내용을 발화한 경우, 미디어 재생 장치(110)가 대화 효과음에 해당하는 "너희 엄마는 내가 잡아먹었다"(963)를 재생하면서, 대화 효과음의 성우 목소리에 해당하는 문장 내용을 시각적으로 디스플레이를 통해 출력할 수 있다.
도 9d는 본 발명의 일 실시예에 따른 미디어 재생 장치에서 계층 구조로 구성된 스토리 컨텐츠로부터 대화 효과음에 대응하는 시각적 효과를 추출하는 과정을 설명하기 위한 예시적인 도면이다. 도 9c 및 9d를 참조하면, 미디어 재생 장치(110)는 사용자(100)로부터 문단(940)에 포함된 "오누이가 속아 문을 열어주자 호랑이가 달려들었지"(961)라는 내용을 포함하는 제 2 문장(960)이 발화되면, '문덜컹소리'(962)를 사용자(100)가 발화하는 중에 부가 효과음으로 재생되도록 하며, 이와 동시에, 스토리 컨텐츠에 포함된 'VideoAction = 호랑이.gif'(964)'에 기초하여 호랑이의 정지 이미지 또는 동영상을 디스플레이 장치를 통해 재생되도록 할 수 있다.
도 9e는 본 발명의 일 실시예에 따른 미디어 재생 장치에서 대화 효과음에 대응하는 비디오 효과를 제공하는 과정을 설명하기 위한 예시적인 도면이다. 도 9c 내지 도 9e를 참조하면, 사용자(100)가 "오누이가 속아 문을 열어주자 호랑이가 달려들었지"라는 내용을 포함하는 제 2 문장(960)을 발화하면, 미디어 재생 장치(110)는 스토리 컨텐츠에 포함된 'VideoAction = 호랑이.gif'를 디스플레이 장치를 통해 호랑이와 관련된 비디오 효과(970)를 재생할 수 있다. 비디오 효과의 파일은 짧은 동영상 형태의 경우 gif 파일로 정의하고, 정지 이미지를 디스플레이하기 위해서는 png, jpg 등의 파일 포맷이 이용될 수 있고, 오디오를 포함하는 mp4, avi 등의 동영상 파일이 이용될 수도 있다. 이 때, 오디오를 포함하는 mp4, avi 등의 파일을 사용할 경우, 동영상 재생과 함께 오디오도 함께 재생될 수 있다.
도 10a 및 도 10b는 본 발명이 일 실시예에 따른 스토리 컨텐츠로부터 조명 효과를 제공하는 과정을 설명하기 위한 예시적인 도면이다.
도 10a는 본 발명의 일 실시예에 따른 스토리 컨텐츠와 텍스트 데이터의 문장이 일치한 경우 조명 효과를 추출하는 과정을 설명하기 위한 예시적인 도면이다. 도 10a를 참조하면, 미디어 재생 장치(110) 또는 음성 인식 서버(120)는 제 1 문장에 해당하는 "덜커덩하고 문이 열리며 어마어마하게 큰 거인이 나타났어요"(1000)라는 문장에 대해 'LEDAction=twinkle', 'LEDColor=255.0.0', 'LEDRepeat=3'으로 추출하고, 제 3 문장에 해당하는 "거인은 자루를 풀러 암탉 한 마리를 꺼냈어요."(1010)라는 문장에 대해 'LEDAction=loop', 'LEDColor=255.255.0', 'LEDRepeat=2'으로 추출할 수 있다.
도 10b는 본 발명의 일 실시예에 따른 조명 효과를 제공하는 과정을 설명하기 위한 예시적인 도면이다. 도 10b를 참조하면, 스토리 컨텐츠(1020)의 내용과 사용자(100)가 발화한 스토리 컨텐츠의 문장이 동일한 경우, 미디어 재생 장치(110)는 그에 대응하는 적절한 음향 효과(1030) 및 조명 효과(1035)를 제공할 수 있다.
예를 들어, 사용자(100)가 발화한 스토리 컨텐츠의 문장이 "히히히히힝! 따그닥따그닥! 다그닥따그닥! "앗 마차다! 어! 위험해! 소녀는 급히 달려오는 마차를 피하려가 그만 넘어지고 말았어요"이고, 스토리 컨텐츠의 내용(1025)과 동일한 경우, 미디어 재생 장치(110)는 "히히히히힝! 따그닥따그닥! 따그닥따그닥!" 문장에 말 울음 소리 및 말 걸음 소리를 음향 효과를 출력할 수 있다. 또한, 미디어 재생 장치(110)는 "앗 마차다! 어! 위험해! 소녀는 급히 달려오는 마차를 피하려다" 문장에 마차 소리를 음향 효과를 출력할 수 있다. 또한, 미디어 재생 장치(110)는 "그만 넘어지고 말았어요" 문장에 사람이 넘어지는 소리를 음향 효과로 출력하고, 조명이 깜빡여지도록 직접 출력하거나, 다른 기기(1040)와의 연동을 통해 조명이 깜빡여지도록 다른 기기(1040)를 제어할 수 있다.
도 11은 본 발명의 일 실시예에 따른 스토리 컨텐츠에 대한 문맥 기반 효과음 및 키워드 기반 효과음을 비교한 예시적인 도면이다. 도 11을 참조하면, 키워드 기반 효과음(1110)은 '호랑이', '나무를 하다'와 같이 단편적인 단어만을 추출하여 상황에 맞는 효과적인 음향 효과의 제공에 제약이 있을 수 있다.
그러나 본원 발명에서 제안하는 문맥 기반 효과음(1100)은 문장의 내용/의미/문맥에 맞는 효과를 제공함으로써, 좀더 자연스러운 음향 효과를 제공할 수 있다.
도 1 내지 도 11을 통해 설명된 미디어 재생 장치 및 음성 인식 서버에서 스토리 컨텐츠에 대한 음향 효과를 제공하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 또한, 도 1 내지 도 11을 통해 설명된 미디어 재생 장치 및 음성 인식 서버에서 스토리 컨텐츠에 대한 음향 효과를 제공하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램의 형태로도 구현될 수 있다.
컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
110: 미디어 재생 장치
120: 음성 인식 서버
200: 관리부
210: 입력부
220: 전송부
230: 수신부
240: 오류 보정부
250: 문맥 추적부
260: 묵음 구간 검출부
270: 음향 효과 추출부
280: 음향 효과 제공부
290: 디스플레이부
300: 제어부
510: 수신부
520: 변환부
530: 오류 보정부
540: 문맥 추적부
550: 음향 효과 추출부
560: 음향 효과 제공부

Claims (19)

  1. 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치에 있어서,
    기저장된 스토리 컨텐츠의 내용에 대해 사용자가 발화한 음성을 입력받는 입력부;
    상기 입력된 음성 데이터를 음성 인식 서버로 전송하는 전송부;
    상기 음성 인식 서버로부터 상기 음성 데이터에 기초하여 변환된 텍스트 데이터를 수신하는 수신부;
    상기 기저장된 스토리 컨텐츠 및 상기 수신된 텍스트 데이터를 비교하여 상기 텍스트 데이터에 대응하는 음향 효과를 상기 기저장된 스토리 컨텐츠로부터 추출하는 음향 효과 추출부; 및
    상기 추출된 음향 효과를 제공하는 음향 효과 제공부를 포함하되,
    상기 음향 효과는 일반 효과음 및 대화 효과음을 포함하는 것이되,
    상기 기저장된 스토리 컨텐츠 및 상기 텍스트 데이터 간의 유사도에 기초하여 상기 텍스트 데이터에 포함된 오류를 보정하는 오류 보정부를 더 포함하는 것이되,
    상기 스토리 컨텐츠로부터 상기 텍스트 데이터에 해당하는 문장을 추출하는 문맥 추적부를 더 포함하고,
    상기 문맥 추적부는 상기 텍스트 데이터에 해당하는 문장이 상기 스토리 컨텐츠에 적어도 둘 이상 포함되어 있는 경우, 유사도 가중 파라미터 및 디스턴스 가중 파라미터를 적용하여 상기 텍스트 데이터에 해당하는 둘 이상의 문장 중 상기 텍스트 데이터에 해당하는 문장을 추출하는 것인, 미디어 재생 장치.
  2. 제 1 항에 있어서,
    상기 사용자로부터 복수의 스토리 컨텐츠 중 어느 하나의 컨텐츠를 요청받고, 상기 요청받은 스토리 컨텐츠를 컨텐츠 제공 서버로부터 다운로드하여 관리하는 관리부를 더 포함하는, 미디어 재생 장치.
  3. 제 2 항에 있어서,
    상기 스토리 컨텐츠는 상기 스토리 컨텐츠가 기재되어 있는 적어도 하나의 문단, 각 문단에 포함된 적어도 하나의 문장 및 상기 적어도 하나의 문장에 포함된 적어도 하나의 대화문으로 계층화되어 있는 것인, 미디어 재생 장치.
  4. 제 3 항에 있어서,
    상기 문맥 추적부는 상기 계층화된 스토리 컨텐츠로부터 상기 텍스트 데이터에 해당하는 상기 스토리 컨텐츠의 문맥을 추적하는 것인, 미디어 재생 장치.
  5. 삭제
  6. 제 1 항에 있어서,
    상기 음향 효과 추출부는 상기 추출된 문장에 대응하는 음향 효과가 일반 효과음인 경우, 상기 기저장된 스토리 컨텐츠로부터 상기 일반 효과음을 추출하는 것인, 미디어 재생 장치.
  7. 제 6 항에 있어서,
    상기 음향 효과 제공부는 상기 추출된 문장과 관련하여 상기 사용자가 발화하는 중에 상기 추출된 일반 효과음을 제공하는 것인, 미디어 재생 장치.
  8. 제 1 항에 있어서,
    상기 음향 효과 추출부는 상기 추출된 문장 내에 대화문이 포함되어 있는 경우, 상기 기저장된 스토리 컨텐츠로부터 상기 대화문에 대응하는 대화 효과음을 추출하는 것인, 미디어 재생 장치.
  9. 제 8 항에 있어서,
    상기 사용자가 발화한 음성에 대해 마이크 레벨을 확인하고, 상기 확인된 마이크 레벨에 기초하여 상기 사용자가 발화한 음성의 묵음 구간을 검출하는 묵음 구간 검출부를 더 포함하는, 미디어 재생 장치.
  10. 제 9 항에 있어서,
    상기 음향 효과 제공부는 상기 추출된 묵음 구간에 기초하여 상기 추출된 문장과 관련하여 상기 사용자가 완전히 발화하였다고 판단된 경우, 상기 추출된 묵음 구간 후에 상기 대화 효과음을 제공하는 것인, 미디어 재생 장치.
  11. 제 10 항에 있어서,
    상기 대화문은 대화문 스크립트를 포함하고,
    상기 대화문 스크립트에 기초하여 상기 대화 효과음에 대응하는 시각적 효과를 제공하는 디스플레이부를 더 포함하는, 미디어 재생 장치.
  12. 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치에 있어서,
    사용자로부터 스토리 컨텐츠의 내용을 발화한 음성을 입력받는 입력부;
    상기 입력된 음성에 관한 음성 데이터를 음성 인식 서버로 전송하는 전송부;
    상기 음성 인식 서버로부터 상기 전송된 음성 데이터에 대응하는 음향 효과를 수신하는 수신부; 및
    상기 수신한 음향 효과를 제공하는 음향 효과 제공부를 포함하고,
    상기 음성 데이터는 상기 음성 인식 서버에 의해 텍스트 데이터로 변환되고,
    상기 음향 효과는 상기 변환된 텍스트 데이터 및 상기 스토리 컨텐츠가 비교됨으로써, 상기 텍스트 데이터에 대응하는 음향 효과가 추출되는 것이되,
    상기 음향 효과는 일반 효과음 및 대화 효과음을 포함하는 것이되,
    상기 텍스트 데이터는 상기 스토리 컨텐츠 및 상기 텍스트 데이터 간의 유사도에 기초하여 오류가 보정되는 것이되,
    상기 스토리 컨텐츠로부터 상기 텍스트 데이터에 해당하는 문장을 추출하는 문맥 추적부를 더 포함하고,
    상기 문맥 추적부는 상기 텍스트 데이터에 해당하는 문장이 상기 스토리 컨텐츠에 적어도 둘 이상 포함되어 있는 경우, 유사도 가중 파라미터 및 디스턴스 가중 파라미터를 적용하여 상기 텍스트 데이터에 해당하는 둘 이상의 문장 중 상기 텍스트 데이터에 해당하는 문장을 추출하는 것인, 미디어 재생 장치.
  13. 스토리 컨텐츠에 대한 음향 효과를 제공하는 음성 인식 서버에 있어서,
    미디어 재생 장치로부터 사용자에 의해 스토리 컨텐츠의 내용이 발화된 음성 데이터를 수신하는 수신부;
    상기 수신한 음성 데이터를 텍스트 데이터로 변환하는 변환부;
    상기 스토리 컨텐츠 및 상기 변환된 텍스트 데이터를 비교하여 상기 텍스트 데이터에 대응하는 음향 효과를 상기 스토리 컨텐츠로부터 추출하는 음향 효과 추출부; 및
    상기 추출된 음향 효과를 상기 미디어 재생 장치로 제공하는 음향 효과 제공부를 포함하되,
    상기 음향 효과는 일반 효과음 및 대화 효과음을 포함하는 것이되,
    상기 스토리 컨텐츠 및 상기 텍스트 데이터 간의 유사도에 기초하여 상기 텍스트 데이터에 포함된 오류를 보정하는 오류 보정부를 더 포함하는 것이되,
    상기 스토리 컨텐츠로부터 상기 텍스트 데이터에 해당하는 문장을 추출하는 문맥 추적부를 더 포함하고,
    상기 문맥 추적부는 상기 텍스트 데이터에 해당하는 문장이 상기 스토리 컨텐츠에 적어도 둘 이상 포함되어 있는 경우, 유사도 가중 파라미터 및 디스턴스 가중 파라미터를 적용하여 상기 텍스트 데이터에 해당하는 둘 이상의 문장 중 상기 텍스트 데이터에 해당하는 문장을 추출하는 것인, 음성 인식 서버.
  14. 제 13 항에 있어서,
    상기 스토리 컨텐츠는 상기 스토리 컨텐츠가 기재되어 있는 적어도 하나의 문단, 각 문단에 포함된 적어도 하나의 문장 및 상기 적어도 하나의 문장에 포함된 적어도 하나의 대화문으로 계층화되어 있는 것인, 음성 인식 서버.
  15. 제 14 항에 있어서,
    상기 스토리 컨텐츠는 상기 계층화된 적어도 하나의 문단, 각 문단에 포함된 적어도 하나의 문장 및 상기 적어도 하나의 문장에 포함된 적어도 하나의 대화문이 소정의 상위 문단에 포함되도록 확장된 계층화 구조를 갖도록 구성된 것인, 음성 인식 서버.
  16. 제 15 항에 있어서,
    상기 문맥 추적부는 상기 계층화된 스토리 컨텐츠로부터 상기 텍스트 데이터에 해당하는 상기 스토리 컨텐츠의 문맥을 추적하는 것인, 음성 인식 서버.
  17. 삭제
  18. 제 13 항에 있어서,
    상기 음향 효과 추출부는 상기 추출된 문장에 대응하는 음향 효과가 일반 효과음인 경우, 상기 스토리 컨텐츠로부터 상기 일반 효과음을 추출하는 것인, 음성 인식 서버.
  19. 제 13 항에 있어서,
    상기 음향 효과 추출부는 상기 추출된 문장 내에 대화문이 포함되어 있는 경우, 상기 스토리 컨텐츠로부터 상기 대화문에 대응하는 대화 효과음을 추출하는 것인, 음성 인식 서버.
KR1020180051486A 2018-05-03 2018-05-03 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버 KR102232642B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180051486A KR102232642B1 (ko) 2018-05-03 2018-05-03 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180051486A KR102232642B1 (ko) 2018-05-03 2018-05-03 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버

Publications (2)

Publication Number Publication Date
KR20190127202A KR20190127202A (ko) 2019-11-13
KR102232642B1 true KR102232642B1 (ko) 2021-03-26

Family

ID=68535212

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180051486A KR102232642B1 (ko) 2018-05-03 2018-05-03 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버

Country Status (1)

Country Link
KR (1) KR102232642B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210101374A (ko) * 2020-02-07 2021-08-19 삼성전자주식회사 오디오 신호 제공 방법 및 장치
WO2023158050A1 (en) * 2022-02-18 2023-08-24 Samsung Electronics Co., Ltd. Methods and electronic device for providing interaction with virtual assistant

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100722003B1 (ko) * 2006-01-21 2007-05-25 (주)퓨전정보기술 플래시애니메이션 제작 장치
KR101663300B1 (ko) * 2015-11-04 2016-10-07 주식회사 디앤피코퍼레이션 인터랙티브 동화책 구현 장치 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140058127A (ko) * 2012-11-06 2014-05-14 삼성전자주식회사 음성인식장치 및 음성인식방법
KR20170129979A (ko) * 2016-05-12 2017-11-28 곽진 음향 효과 제공시스템
KR101842362B1 (ko) * 2016-09-01 2018-03-26 성균관대학교산학협력단 인공 신경망 기반의 문단 생성 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100722003B1 (ko) * 2006-01-21 2007-05-25 (주)퓨전정보기술 플래시애니메이션 제작 장치
KR101663300B1 (ko) * 2015-11-04 2016-10-07 주식회사 디앤피코퍼레이션 인터랙티브 동화책 구현 장치 및 방법

Also Published As

Publication number Publication date
KR20190127202A (ko) 2019-11-13

Similar Documents

Publication Publication Date Title
US11195531B1 (en) Accessory for a voice-controlled device
JP6463825B2 (ja) 多重話者音声認識修正システム
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
US9318100B2 (en) Supplementing audio recorded in a media file
US10607595B2 (en) Generating audio rendering from textual content based on character models
US20160021334A1 (en) Method, Apparatus and System For Regenerating Voice Intonation In Automatically Dubbed Videos
US10789948B1 (en) Accessory for a voice controlled device for output of supplementary content
CN110782900A (zh) 协作ai讲故事
US11457061B2 (en) Creating a cinematic storytelling experience using network-addressable devices
WO2019214456A1 (zh) 一种肢体语言翻译系统、方法及服务器
JP2020056996A (ja) 音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体
KR102044689B1 (ko) 방송자막 제작 시스템 및 방법
KR102232642B1 (ko) 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버
US20080162559A1 (en) Asynchronous communications regarding the subject matter of a media file stored on a handheld recording device
WO2020124754A1 (zh) 多媒体文件的翻译方法、装置及翻译播放设备
US20200135169A1 (en) Audio playback device and audio playback method thereof
KR20160131505A (ko) 음성 변환 방법 및 음성 변환 장치
KR102179452B1 (ko) 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버
US8553855B2 (en) Conference support apparatus and conference support method
CN110767233A (zh) 一种语音转换系统及方法
KR101618777B1 (ko) 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법
JP6306447B2 (ja) 複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム
KR20210015064A (ko) 전자장치와 그의 제어방법, 및 기록매체
WO2021157192A1 (ja) 制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システム
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant