KR20230057514A - 시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템 - Google Patents

시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템 Download PDF

Info

Publication number
KR20230057514A
KR20230057514A KR1020210140921A KR20210140921A KR20230057514A KR 20230057514 A KR20230057514 A KR 20230057514A KR 1020210140921 A KR1020210140921 A KR 1020210140921A KR 20210140921 A KR20210140921 A KR 20210140921A KR 20230057514 A KR20230057514 A KR 20230057514A
Authority
KR
South Korea
Prior art keywords
voice
visual content
book
audiobook
visual
Prior art date
Application number
KR1020210140921A
Other languages
English (en)
Inventor
김동현
Original Assignee
주식회사 포레스트페어리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 포레스트페어리 filed Critical 주식회사 포레스트페어리
Priority to KR1020210140921A priority Critical patent/KR20230057514A/ko
Publication of KR20230057514A publication Critical patent/KR20230057514A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L2013/021Overlap-add techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Business, Economics & Management (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따른 시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템은, 도서데이터를 저장하는 도서DB 및, 키워드가 설정된 시각적 이미지인 시각 컨텐츠를 저장한 컨텐츠DB를 포함하는 데이터베이스; 상기 도서데이터에 대한 음성을 입력받는 음성 입력 모듈; STT(sound-to-text)를 기반으로 상기 음성을 텍스트로 변환하고, 변환된 텍스트로부터 복수의 키워드를 추출하는 키워드 추출 모듈; 텍스트로부터 추출된 키워드에 대응되는 시각 컨텐츠를 필터링하는 컨텐츠 추출 모듈; 상기 음성에서 상기 키워드가 등장하는 시점과 일치하도록 상기 음성과 상기 필터링된 시각 컨텐츠를 동시 출력하는 출력 모듈;을 포함하는 것을 특징으로 한다.
본 발명의 시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템에 의하면, 도서를 읽어주는 음성에서 등장한 키워드와 대응된 시각적 컨텐츠를 음성과 함께 출력하여 독자로 하여금 몰입감 및 집중도를 높일 수 있도록 한 효과가 있다.

Description

시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템{Audio book platform providing system with visual content}
본 발명은 시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템에 관한 것으로서, 보다 상세히 설명하면에 도서를 음성으로 읽어주는 오디오북 플랫폼에 있어서, 오디오북의 내용과 상응하는 시각적 효과, 이모지, 기타 이미지 등을 포함하는 시각적 컨텐츠를 오디오북과 함께 출력할 수 있도록 함으로써 도서에 대한 몰입감을 높일 수 있도록 한, 오디오북 플랫폼 제공 시스템에 관한 것이다.
휴대 단말기 및 인터넷 기술이 발달하면서, 단말기 사용자들은 인터넷을 통하여 각종 다양한 정보를 획득할 수 있게 되었다. 예컨대, 단말기는 도서 내용에 대한 정보를 인터넷을 통하여 다운로드 받고 다운로드 받은 정보를 단말기 화면에 디스플레이함으로써 사용자는 단말기를 통하여 독서를 할 수 있다.
나아가, 도서 내용이 단말기에 음성으로 출력되는 오디오북 서비스는 이동 단말기가 대중화됨에 따라 그 사용이 날로 증가하고 있다. 오디오북을 이용할 경우 실제 독서를 하지 않더라도 그 내용을 음성으로 전달받을 수 있기 때문에, 휴대 단말기의 보급에 따라 사용자의 폭이 크게 늘어나고 있다.
오디오북 서비스는 단말기 화면에 계속 집중하지 않고도 이동 중 이어폰을 이용하여 도서 내용을 전달받을 수 있을 뿐만 아니라, 시각 장애인들도 도서 내용을 손쉽게 획득할 수 있는 장점이 있다.
한편, 종래의 오디오북 서비스는 도서 내용을 특정인의 음성으로 직접 녹음하고, 녹음된 음성 정보를 저장하고 있는 소정의 저장 매체를 단말기에 실행시켜 음성 정보가 출력되도록 하였다. 또는 소정의 서버가 녹음된 음성정보를 음성 통화가 수행되는 방법과 동일하게 서킷망 또는 패킷망을 통하여 제공하고 있다.
이러한 오디오 북 서비스에 관련한 선행기술로서, 한국 등록특허 제 10-0835109호에 ‘배경음이 출력되는 오디오북 서비스 제공 방법 및 시스템’이 개시되어 있다.
상기 발명은 배경음이 출력되는 오디오북 서비스 제공 방법 및 시스템에 관한 것으로서, 오디오북 컨텐츠를 텍스트 정보 형태로 저장하는 텍스트 저장부, 단말기에 오디오북 컨텐츠의 출력과 동기화되어 출력되는 배경음을 저장하는 배경음 저장부, 텍스트 저장부에서 단말기가 요청하는 오디오북 컨텐츠에 해당하는 텍스트 정보를 추출하고 배경음 저장부에서 단말기가 요청하는 오디오북 컨텐츠에 상응하는 배경음을 추출하며 추출된 텍스트 정보 및 배경음을 디지털 정보로 변환하는 정보 변환부, 및 디지털 정보로 변환된 오디오북 컨텐츠 및 배경음을 단말기로 전송하는 송수신부를 포함하는 오디오북 서버; 및 오디오북 서버로부터 수신된 디지털 정보를 음성 정보로 합성하는 음성 합성부, 및 음성 합성부에 의해 합성된 음성 정보와 오디오북 서버로부터 수신된 배경음을 출력하는 출력부를 포함하는 단말기를 포함하는 것을 특징으로 한다.
상기 선행 기술은 오디오북 컨텐츠에 대한 음성 정보의 음색 및 음조 등을 사용자 개성에 따라 제어함으로써 자연음에 가까운 소리로 상기 오디오북 컨텐츠에 대한 음성 정보를 출력할 수 있도록 하여 몰입감을 높일 수 있도록 하였다.
그러나 상기와 같은 오디오북 플랫폼 제공 시스템은 청각적인 효과에 집중한 것으로서, 몰입감을 보다 제공할 수 있는 기타 다른 구성은 제공되지 못하고 있다는 한계점이 있었다.
따라서 상술한 바와 같은 문제점을 해결하기 위해, 오디오북의 내용에 맞는 시각적 이미지를 시각 컨텐츠로써 오디오북 음성과 함께 제공할 수 있도록 하여, 독자로 하여금 몰입감 및 집중력을 보다 높일 수 있도록 한, 시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템을 개발할 필요성이 대두되는 실정이다.
본 발명은 시각적 컨텐츠를 함께 제공하여 몰입감을 높인 오디오북 플랫폼을 제공하는 것을 주요 목적으로 한다.
본 발명의 다른 목적은, 도서를 읽어주는 사람의 영상을 음성과 함께 출력하는 것이다.
본 발명의 또 다른 목적은, 도서 내용에서 드러나는 감정에 따라 시각적 컨텐츠의 크기나 위치를 제어하도록 하는 것이다.
본 발명의 추가 목적은, 목소리에서 느껴지는 감정에 따라 시각적 컨텐츠의 크기나 위치를 제어하도록 하는 것이다.
상기 목적을 달성하기 위하여, 본 발명에 따른 시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템은, 도서데이터를 저장하는 도서DB 및, 키워드가 설정된 시각적 이미지인 시각 컨텐츠를 저장한 컨텐츠DB를 포함하는 데이터베이스; 상기 도서데이터에 대한 음성을 입력받는 음성 입력 모듈; STT(sound-to-text)를 기반으로 상기 음성을 텍스트로 변환하고, 변환된 텍스트로부터 복수의 키워드를 추출하는 키워드 추출 모듈; 텍스트로부터 추출된 키워드에 대응되는 시각 컨텐츠를 필터링하는 컨텐츠 추출 모듈; 상기 음성에서 상기 키워드가 등장하는 시점과 일치하도록 상기 음성과 상기 필터링된 시각 컨텐츠를 동시 출력하는 출력 모듈;을 포함하는 것을 특징으로 한다.
나아가, 상기 시스템은, 출연자가 도서데이터를 읽고 있는 영상을 입력받는 영상 입력 모듈;을 포함하고, 상기 출력 모듈은, 상기 영상에 상기 음성을 더빙하여 출력하되, 상기 음성에서 상기 키워드가 등장하는 시점에 맞추어 상기 영상에 상기 필터링된 시각 컨텐츠를 합성하여 출력하는 것을 특징으로 한다.
더하여, 상기 출력 모듈은, 상기 영상에 합성될 시각 컨텐츠의 크기를 제어하는 크기 조절부를 포함하는 것을 특징으로 한다.
또한, 상기 출력 모듈은, 영상이 출력되는 화면을 상기 출연자를 포함하는 인물 영역과 상기 인물 영역을 제외한 주변 영역으로 구획하는 영역 구획부 및, 상기 주변 영역에 필터링된 시각 컨텐츠를 합성하여 출력하는 영역 지정 합성부를 포함하는 것을 특징으로 한다.
본 발명의 시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템에 의하면,
1) 도서를 읽어주는 음성에서 등장한 키워드와 대응된 시각적 컨텐츠를 음성과 함께 출력하여 독자로 하여금 몰입감 및 집중도를 높일 수 있도록 하고,
2) 도서를 읽어주는 네이티브 스피커나 성우의 영상을 음성과 함께 출력함과 동시에 시각적 컨텐츠를 더하여 몰입감을 보다 높이며,
3) 도서를 읽어주는 음성에서 추출된 키워드 중에서도 형용사를 통해 감정에 따라 시각적 컨텐츠의 크기나 위치를 제어하도록 함으로써 감정 상태에 따른 시각적 컨텐츠의 변화를 추구함과 동시에,
4) 목소리에서 느껴지는 감정에 따라 시각적 컨텐츠의 크기나 위치를 제어하도록 하여 텍스트나 내용에서 나타나지 않는 감정적 변화까지 나타낼 수 있도록 한 효과가 있다.
도 1은 본 발명의 시스템에 대한 개략적인 구성을 나타낸 개념도.
도 2는 본 발명의 시스템의 전체 구성을 도시한 블록도.
도 3은 본 발명의 시각 컨텐츠 제공 예시를 나타낸 개념도.
도 4는 영상을 포함하는 오디오북 제공 예시를 나타낸 개념도.
도 5는 본 발명의 차트의 일 실시예를 나타낸 개념도.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명하도록 한다. 첨부된 도면은 축척에 의하여 도시되지 않았으며, 각 도면의 동일한 참조 번호는 동일한 구성 요소를 지칭한다.
도 1은 본 발명의 시스템에 대한 개략적인 구성을 나타낸 개념도이다.
도 1을 참조하여 설명하면, 본 발명의 시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템은 오디오북 단말(1) 및 메인서버(2)를 포함하여 구성될 수 있다.
오디오북 단말(1)은 본 발명을 통해 제공되는 오디오북 컨텐츠, 즉 도서의 내용을 읽어주는 음성 및 음성의 내용, 즉 도서의 내용와 관련한 시각적 이미지인 시각 컨텐츠를 함께 출력하여 제공할 수 있는 기기로서, 그를 위해서는 스피커 및 디스플레이를 기본적으로 구비하는 것을 특징으로 한다. 여기서 바람직하게 오디오북 단말(1)은 스마트폰, 태블릿PC, 전자책 리더기, 데스크탑PC 등일 수 있다.
메인서버(2)는 데이터베이스(100)를 통해 오디오북으로 제공하고자 하는 도서의 내용인 도서데이터, 그리고 키워드가 설정된 시각적 이미지인 시각 컨텐츠를 저장하고 있다가, 도서데이터를 읽어주는 오디오북 음성이 입력되면 해당 오디오북 음성의 내용을 분석하여 키워드를 추출하고, 추출된 키워드가 설정되어있는 시각 컨텐츠를 추출하여 음성과 시각 컨텐츠를 오디오북 단말(1)에 동시 출력하는 기능을 수행한다.
이때 본 발명의 오디오북 플랫폼 제공 시스템은 오디오북 음성 상에서 특정 키워드가 등장하는 시점에 맞추어 시각 컨텐츠를 음성과 동시 출력한다. 즉 오디오북 음성 상에서 키워드가 등장하는 시점과 일치되도록 음성과 시각 컨텐츠를 동시 출력함으로서, 도서의 내용에 맞추어 시각 컨텐츠가 출력되게 함으로써 청각적 효과 및 시각적 몰입감을 동시에 제공할 수 있다.
따라서 바람직하게 본 발명의 시스템을 구현하는 주체가 메인서버(2)라 할 수 있으며, 별도의 언급이 없는 경우 본 발명에서는 시스템과 메인서버(2)는 동일한 것으로 간주하도록 한다.
이때 메인서버(2)는 본 발명의 시스템을 구현해내기 위한 일련의 주체로서, 서버PC 및 네트워크 통신망 등을 함께 포함한다. 더불어 메인서버(2)는 중앙처리장치(CPU) 및 메모리와 하드디스크와 같은 저장수단을 구비한 하드웨어 기반에서 중앙처리장치에서 수행될 수 있는 프로그램, 즉 소프트웨어가 설치되어 이 소프트웨어를 실행할 수 있는데 이러한 소프트웨어에 대한 일련의 구체적 구성을 '모듈' 및 '부', '파트' 등의 구성단위로써 후술할 예정이다.
이러한 '모듈' 또는 '부' 또는 '인터페이스' 또는 ‘파트’ 등 의 구성은 메인서버(2)의 저장수단에 설치 및 저장된 상태에서 CPU 및 메모리를 매개로 실행되는 소프트웨어 또는 FPGA 내지 ASIC과 같은 하드웨어의 일 구성을 의미한다.
이때, '모듈' 또는 '부', '인터페이스'라는 구성은 하드웨어에 한정되는 의미는 아니고, 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.
일 예로서 '모듈' 또는 '부' 또는 '인터페이스'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.
이러한 '모듈' 또는 '부' 또는 '인터페이스'에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부' 또는'모듈'들로 결합되거나 추가적인 구성요소들과 '부' 또는 '모듈'들로 더 분리될 수 있다.
더불어, 메인서버(2)는 적어도 하나의 프로세서를 포함하는 모든 종류의 하드웨어 장치를 의미하는 것이고, 실시예에 따라 해당 하드웨어 장치에서 동작하는 소프트웨어적 구성도 포괄하는 의미로서 이해될 수 있다.
예를 들어, 서버의 일 예로서의 컴퓨팅 장치는 스마트폰, 태블릿 PC, 데스크탑, 노트북 및 각 장치에서 구동되는 사용자 클라이언트 및 애플리케이션을 모두 포함하는 의미로서 이해될 수 있으며, 또한 이에 제한되는 것은 아니다.
이하, 이러한 메인서버(2)의 구성을 기반으로 하여 본 발명의 시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템에 대해 도면과 함께 설명하면 다음과 같다.
도 2는 본 발명의 시스템의 전체 구성을 도시한 블록도이며, 도 3은 본 발명의 시각 컨텐츠 제공 예시를 나타낸 개념도이다.
먼저 도 2를 참조하여 설명하면, 본 발명의 시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템은 데이터베이스(100), 음성 입력 모듈(200), 키워드 추출 모듈(300), 컨텐츠 추출 모듈(400), 출력 모듈(500)을 포함하는 것을 특징으로 한다.
데이터베이스(100)는 본 발명을 통한 오디오북 제공을 위한 데이터를 저장하는 것으로서, 기본적으로 도서데이터를 저장하는 도서DB(110) 및 시각적 이미지인 시각 컨텐츠를 저장한 컨텐츠DB(120)일 수 있다.
이때 도서DB(110)는 바람직하게는 도서의 내용이라 할 수 있는 도서데이터를 저장하는 것으로서, 도서데이터라 함은 도서의 제목, 글쓴이 및 옮긴이에 대한 정보, 출판사 정보, 목차, 그리고 본문에 대한 정보를 포함한다. 따라서 도서에 담긴 모든 내용이 곧 도서데이터가 되는 것이라 할 수 있으며, 이러한 도서데이터는 출판사서버와 연동되어 출판사서버로부터 전송된 것을 도서DB(110)에 저장할 수도 있으며, 혹은 시스템 관리자에 의해 도서데이터가 입력 및 저장될 수도 있다.
컨텐츠DB(120)는 키워드가 설정된 시각적 이미지인 시각 컨텐츠를 저장하는 것으로서, 이때 시각 컨텐츠라 함은 이모지(emoji)나 아이콘, 특정한 명사에 대한 이미지 등일 수 있다. 예를 들어 ‘꽃’이라는 키워드가 설정된 특정한 꽃에 대한 그림이나 사진이 시각 컨텐츠가 될 수도 있고, ‘호랑이’라는 키워드가 설정된 호랑이에 대한 아이콘, 그림, 사진 등이 시각 컨텐츠가 될 수도 있으며,‘슬픔’이라는 키워드가 설정된 우는 얼굴의 이모지가 시각 컨텐츠가 될 수도 있다. 또는 ‘우는 호랑이’가 있는 경우 울고 있는 호랑이를 묘사한 그림이나 아이콘, 사진 등이 시각 컨텐츠가 될 수 있다.
따라서 이모지, 사진, 그림, 아이콘 등을 포함하는 시각적 이미지에 해당 이미지의 주제나 내용을 포함하는 키워드를 설정하는 경우 그 모두가 시각 컨텐츠라 할 수 있다. 이는 종래의 스마트폰 이모지에 있어서의 키워드(색인)설정 방식이나 종래의 이미지 검색 등에서의 이미지 별 키워드 설정에 대한 것을 참조하면 되므로, 보다 상세한 설명은 생략하도록 한다.
더불어 여기서 키워드라 함은 기본적으로 의미를 포함할 수 있는 것, 즉 명사 또는 형용사, 동사가 키워드가 된다고 할 수 있다. 즉 의미를 포함하지 않는 말을 제외하고, 의미를 포함할 수 있어 그를 시각화하여 나타낼 수 있는 명사, 형용사, 동사가 키워드가 될 수 있다.
음성 입력 모듈(200)은 도서데이터에 대한 음성을 입력받는 기능을 수행하는 것으로서, 이때 일반적으로 오디오북을 읽어주는 사람이 직접 도서데이터를 읽은 음성을 입력받는 것이다.
여기서 가장 기본적으로는 도서데이터의 전문을 읽은 음성을 입력받는 것을 기본으로 하나, 혹은 도서데이터의 일부를 읽은 음성, 혹은 도서데이터 전문에 도서를 읽는 자의 의견 등을 덧붙인 음성을 입력하는 것 역시 가능하다.
더불어 음성을 제공하는 자, 즉 도서데이터를 읽는 자는 전문 성우일 수 있으며, 혹은 도서가 외국어 도서인 경우 해당 외국어를 네이티브로 구사하는 네이티브 스피커가 도서데이터에 대한 음성을 제공할 수 있다.
이때 도서데이터에 대한 음성 제공을 위해서는 별도로 준비한 마이크를 통해 음성 제공자, 즉 네이티브 스피커나 전문 성우, 혹은 도서 읽기 전문가 등이 도서데이터의 내용을 읽도록 하고, 해당 내용을 읽은 음성을 입력 처리할 수 있다. 나아가 입력된 도서데이터에 대한 음성은 데이터베이스(100)에 별도로 저장될 수 있다. 이때 이를 위해 데이터베이스(100)는 음성 저장을 위한 음성DB를 포함할 수 있다.
키워드 추출 모듈(300)은 입력된 음성을 텍스트로 변환하고, 변환된 텍스트를 분석 처리하여 텍스트로부터 복수의 키워드를 산출하는 기능을 수행한다. 이를 위해서는 기본적으로 음성의 텍스트 변환을 위한 STT(Sound-To-Text) 기능을 탑재하여, STT 기능을 통해 음성을 텍스트로 변환 처리한다.
여기서 상술한 설명에서와 같이 도서데이터에 대한 음성을 제공하는 자는 바람직하게 성우 또는 외국어의 네이티브 스피커일 수 있으므로 성우나 네이티브 스피커의 경우 상대적으로 분명하고 또렷한 발음을 가지고 있는 바, STT 기능을 통한 텍스트 변환 시에도 매우 정확한 변환도를 기대할 수 있다. 더불어 여기서 STT 기능이라 함은 종래의 음성인식에서의 텍스트 변환 관련 종래 기술을 참조하면 되므로, 보다 상세한 설명은 생략하기로 한다.
더불어 변환된 텍스트로부터 복수의 키워드를 추출하게 되는데, 여기서 키워드라 함은 상술한 바와 같이 기본적으로 의미를 표현하는, 즉 명사나 형용사, 동사를 포함하는 것을 특징으로 한다. 따라서 도서데이터의 음성을 텍스트로 변환하고, 변환된 텍스트에서 의미를 갖는 어근인 명사, 형용사, 동사를 포함하는 키워드를 추출해내는 것이다.
예를 들어 ‘아름다운 무궁화가 피었습니다’의 경우 ‘아름다운’,‘무궁화’,‘피었습니다.’의 3개의 키워드가 추출되는 것이며, ‘아주 멋진 남자가 산다.’의 경우 ‘멋진’,‘남자’,‘산다’의 3개의 키워드가 추출될 수 있다.
컨텐츠 추출 모듈(400)은, 텍스트로부터 추출된 키워드가 설정되어 있는 시각 컨텐츠를 추출한다. 즉 컨텐츠DB(120)에 저장된 시각 컨텐츠 중에서, 텍스트로부터 추출된 각각의 키워드에 대응되는 시각 컨텐츠만을 추출해내는 것이다. 즉 컨텐츠DB(120)에 저장된 시각 컨텐츠 중에서, 텍스트로부터 추출된 키워드의 의미를 가진 것만을 필터링해낸다.
예를 들어 ‘남자’.‘꽃’,‘즐거운’이라는 키워드가 텍스트에 포함되어 있었을 경우, ‘남자’라는 키워드를 가진 시각 컨텐츠, ‘꽃’이라는 키워드를 가진 시각 컨텐츠,‘즐거운’이라는 키워드를 가진 시각 컨텐츠 만을 추출해내는 것이라 할 수 있다. 이는 마치 컨텐츠DB(120) 내에서 추출된 키워드를 기반으로 키워드 검색을 수행하여, 시각 컨텐츠를 필터링하는 것이라 할 수 있다.
마지막으로 출력 모듈(500)은, 음성 입력 모듈(200)을 통해 입력된 음성과 시각 콘텐츠를 동시에 출력하되, 음성에서 특정 키워드가 등장하는 시점과 일치하도록 필터링된 시각 컨텐츠를 동시 출력한다. 즉 음성의 내용에서 특정 키워드가 등장하는 시점과 일치하도록, 키워드와 대응되는 시각 컨텐츠(필터링된 시각 컨텐츠) 및 음성을 동시 출력하는 것이다.
예를 들어, ‘꽃을 들고 있는 즐거운 남자가 있었습니다.’ 라는 문장을 음성으로 읽어준다 하였을 때, ‘꽃’이라는 키워드를 읽을 때에 맞추어 화면에 꽃에 대응되는 시각 컨텐츠, 즉 꽃 아이콘이나 꽃 그림, 사진 등을 출력 처리하고, ‘즐거운’이라는 키워드를 읽는 타이밍에 맞추어 ‘즐거운’이라는 키워드와 연동된 웃거나 즐거워하는 이모지를 출력 처리하며, 나아가 ‘남자’라는 키워드를 읽는 타이밍에 맞추어 ‘남자’라는 키워드에 연동된 이모지, 아이콘, 그림, 사진 등을 함께 출력하는 것이다.
나아가 여기서 출력된 시각 컨텐츠는 기 설정된 시간동안 유지되었다 사라지는데, 여기서 유지 시간은 0.5초, 1초, 2초, 5초 등 시스템 관리자에 의해 설정될 수 있다. 따라서 복수의 시각 컨텐츠가 중첩되어 출력되는 것 역시 가능하며, 이때 복수의 시각 컨텐츠가 중복으로 출력되는 경우 복수의 시각 컨텐츠는 서로 분산 배치될 수도, 일부 혹은 전체가 겹쳐져서 출력될 수도 있음은 물론이다.
이와 같은 방식을 통해, 오디오북의 형태로 도서의 내용을 읽어줌과 동시에 도서의 내용의 포인트가 되는 키워드의 경우 해당 키워드와 관련된 시각적 이미지(시각 컨텐츠)를 시각화하여 출력하게 하는 것이다.
그에 따라 직접적으로 독자로 하여금 도서의 내용을 음성으로 전달받게 함으로써 텍스트를 읽어야 하는 필요성은 없애면서도, 도서에 내용에 포함된 다양한 키워드들을 시각적 이미지, 즉 시각 컨텐츠의 형태로 함께 출력함으로써 내용에 대한 강조 뿐 아니라 독자의 몰입감을 높이고, 나아가 도서의 내용을 보다 잘 기억할 수 있도록 할 수 있다.
도 4는 영상을 포함하는 오디오북 제공 예시를 나타낸 개념도이다.
도 4를 참조하여 설명하면, 본 발명의 오디오북 플랫폼 제공 시스템은 음성과 시각 컨텐츠를 제공하는 것에서 더 나아가, 음성을 읽고 있는 사람의 영상을 함께 출력할 수 있다. 즉 도서데이터, 다시 말해 도서의 내용을 읽어주는 사람의 영상을 제공하는 것이라 할 수 있는데, 이를 위해 본 발명의 시스템은 영상 입력 모듈(600)을 기본적으로 포함할 수 있다.
영상 입력 모듈(600)은 출연자가 도서데이터를 읽고 있는 영상을 입력받는다. 이를 위해서는 별도의 카메라가 준비되어 영상을 촬영할 수 있으며, 여기서 바람직하게 출연자는 상술한 설명에서 도서데이터에 대한 음성을 입력하는 성우 또는 네이티브 스피커일 수도 있으며, 혹은 출연자와 음성 입력자는 다른 인물일 수도 있음은 물론이다.
나아가 여기서 도서데이터를 읽고 있는 영상이라 함은 실제로 도서를 손에 들고 읽고 있는 영상일 수도 있으나, 프롬프터를 보고 출연자가 도서의 내용을 보고 있는 상태에서 화면을 향해 도서의 내용을 말해주는 것과 같이 도서데이터를 읽을 수도 있음은 물론이다.
따라서 영상 입력 모듈(600)을 통해 실제로 출연자가 도서데이터의 내용, 즉 도서의 내용을 읽고 있는 영상을 입력받게 되면 이를 음성, 그리고 시각 컨텐츠와 함께 출력할 수 있다.
따라서 이 경우 출력 모듈(500)은 입력된 영상에 입력된 음성을 더빙하여 출력함으로써 영상에서의 도서데이터 읽는 속도와 음성으로 읽는 속도를 일치시키고, 거기에 시각 컨텐츠를 합성하여 출력하게 된다. 즉 영상에서 출연자가 도서데이터를 읽는 모습이 출력되는 상태에서, 영상의 일 측에 시각 컨텐츠가 합성되는 것이다.
이때 상술한 바와 같이 음성에서 특정한 키워드가 등장하는 시점에 맞추어 필터링된 시각 컨텐츠가 합성됨으로서, 도서데이터를 읽은 음성에서 특정 키워드가 등장하는 타이밍마다 해당 키워드에 대응되는 시각 컨텐츠가 함께 출력되도록 하는 것이다.
이를 통해 본 발명의 오디오북은 음성으로 도서를 읽어주는 느낌을 제공함과 더불어 실제 출연자가 도서를 읽어주는 영상을 함께 제공할 수 있도록 하여 마치 직접 도서를 읽어주는 듯한 느낌을 낼 수 있도록 하며, 그때 도서 내용에서의 키워드 등장 타이밍과 일치하는 시각 컨텐츠가 합성되어 출력됨으로써 몰입감 및 집중력을 보다 높일 수 있게 된다.
나아가 이와 같이 시각 컨텐츠의 합성 및 출력이 이루어지는 경우, 합성 및 출력될 시각 컨텐츠의 크기를 제어하는 것 역시 가능함은 물론인데 이를 위해 출력 모듈(500)은 크기 조절부(530)를 포함할 수 있다.
크기 조절부(530)는 영상에 합성될 시각 컨텐츠의 크기를 제어하는 기능을 수행하는 것으로서, 가장 단순하게는 포토샵이나 그림판과 같은 이미지 툴에서 특정 이미지의 테두리를 따라 크기를 가로, 세로, 대각선으로 늘이거나 줄이는 방식으로 시각 컨텐츠의 크기를 제어할 수 있다. 혹은 오디오북의 영상이 출력될 화면의 해상도에 따라 합성될 시각 컨텐츠의 크기를 자동 제어하는 것도 가능하며, 혹은 영상에서 출연하는 출연자의 크기에 따라, 즉 화면에서 출연자가 차지하는 영역의 크기에 따라 시각 컨텐츠의 크기를 차등 제어할 수도 있다.
이와 같은 방식으로 시각 컨텐츠의 크기를 제어할 수 있도록 함으로써 시각 컨텐츠로 도서의 내용을 강조할 수 있도록 하되, 시각 컨텐츠가 영상 내에서 출연자가 출연하는 영역을 과하게 침범하거나 거슬릴 정도로 크게 되지 않도록 사이즈를 조절할 수 있도록 하여, 화면 내에서 출연자와 시각 컨텐츠의 밸런스를 유지할 수 있도록 한다.
나아가 본 발명의 출력 모듈(500)은 영상이 출력되는 화면을 인물 영역(11)과 주변 영역(12)으로 구획하고, 시각 컨텐츠가 출력되는 영역을 특정 영역으로 규정할 수 있다. 이를 위해 출력 모듈(500)은 영역 구획부(510) 및 영역 지정 합성부(520)를 포함한다.
영역 구획부(510)는 영상이 출력되는 화면을 인물 영역(11)과 주변 영역(12)으로 구획하는 기능을 수행한다. 여기서 인물 영역(11)이라 함은 출연자가 출력되는 영역을 포함하는 것으로서, 즉 화면에서 출연자가 포함되는 영역을 인물 영역(11)으로, 출연자가 포함되지 않는 영역을 주변 영역(12)으로 구획한다.
책을 읽어주는 출연자의 경우 화면 안에서 움직임이 그리 크지 않은 것이 일반적이므로, 화면 내에서 출연자가 차지하는 영역, 그리고 출연자의 움직임을 고려해 설정되는 일부 여유분을 포함하는 영역이 인물 영역(11)이 되고, 화면 중에서 인물 영역(11)을 제외한 영역은 주변 영역(12)이 되는 것이다.
여기서 구획을 보다 세밀하게 수행하기 위해서는, 해당 영상이 출력되는 화면에서 객체라 할 수 있는 인물, 즉 출연자가 차지하는 영역을 프레임별로 추출하여, 프레임별로 인물 영역(11) 및 주변 영역(12)을 별도로 구획하는 것도 가능하다.
다시 말하자면, 영상은 복수의 프레임으로 이루어지는 바, 각각의 프레임 상에서 정적인 피사체인 출연자(인물)만을 객체 추출하여 이를 인물 영역(11)으로 구획하고, 화면 상에서 인물 영역(11)을 제한 나머지 영역을 주변 영역(12)으로 구획할 수도 있다. 그러나 상술한 방법만으로 인물 영역(11) 및 주변 영역(12)을 구획할 수 있는 것만은 아니므로 별도의 제한을 두지 않는 것을 기본으로 한다.
따라서 이와 같이 인물 영역(11) 및 주변 영역(12)이 구획되는 경우, 영역 지정 합성부(520)는 필터링된 시각 컨텐츠를 화면 중에서도 주변 영역(12)에 합성하여 출력하게 된다. 따라서 출연자가 도서데이터를 읽는 영상 및 도서데이터를 읽는 음성이 출력되면서, 이때 화면 내에서 출연자가 포함되는 인물 영역(11)을 제외한 주변 영역(12)에 시각 컨텐츠가 합성되어 출력된다. 이때 시각 컨텐츠는 음성에서 등장하는 키워드에 대응되는 것이 합성되는 것이며, 특정 키워드가 등장함과 동시에 시각 컨텐츠가 합성되어 제공될 수 있다.
이와 같은 구성에 따르면 출연자가 도서데이터를 읽어주는 영상에 음성이 더빙되서 제공됨과 동시에 시각 컨텐츠가 키워드 등장 타이밍에 맞추어 합성 제공되나, 시각 컨텐츠가 출력되는 영역과 출연자가 나타나는 영역이 서로 구획되어 있어 시각 컨텐츠가 출연자를 가리는 것을 방지할 수 있음은 물론이다.
나아가 상술한 설명에서 키워드는 어근인 명사, 형용사, 동사를 포함할 수 있다고 하였는데, 상술한 크기 조절부(530)는 시각 컨텐츠의 크기를 시스템 관리자에 의해 수동 제어할 수도 있으나, 필터링된 키워드가 명사, 형용사, 동사 중 어느 것에 속하는지의 여부에 따라 추출된 시각 컨텐츠의 크기를 차등 제어할 수 있다.
다시 말해 시각 컨텐츠 중에서도 대응되는 키워드가 명사형인 시각 컨텐츠는 대응된 키워드가 형용사형, 동사형인 시각 컨텐츠에 비해 크기를 보다 크게 조절할 수 있으며, 혹은 형용사>동사>명사와 같이 대응되는 키워드의 종류에 따라 시각 컨텐츠의 크기를 차등 제어할 수 있다.
혹은 시스템 관리자에 의해 합성되는 시각 컨텐츠의 기본 크기를 설정한 상태에서, 키워드의 종류, 즉 명사/형용사/동사 종류에 따라 명사와 대응되는 시각 컨텐츠의 크기는 늘이고, 동사와 대응되는 시각 컨텐츠의 크기는 줄이고, 형용사에 대응되는 시각 컨텐츠의 크기는 가장 많이 늘이는 방식 등을 통해 시각 컨텐츠의 크기를 차등 조절할 수 있다.
이때 어떠한 종류의 시각 컨텐츠의 크기를 얼마나 키울 것인지에 대해서는 별도의 한정을 두지 않으므로, 시스템 관리자에 의해 설정될 수 있는 것을 기본으로 한다.
따라서 키워드의 명사, 형용사, 동사 등의 분류에 따라 합성되는 시각 컨텐츠의 크기를 차등 조절함으로써 감정에 대한 단어(형용사), 단순 명사, 나아가 행동에 관한 내용(동사)에 따라 특정한 종류의 시각 컨텐츠를 보다 강조할 수 있도록 하여 내용 전달의 효율성을 높일 수 있다.
나아가 이때 명사나 동사의 경우 단순한 물건이나 물품, 나아가 행동이라 할 수 있는데, 형용사의 경우에는 내용을 보다 풍성하게 하는 표현들이 등장한다. 즉 보다 실감나게 도서를 읽어주거나, 도서에서 특정 내용을 강조하여 전달하려 한다면 형용사를 강조하는 것이 가장 바람직하다 할 수 있다.
따라서 이러한 형용사에 대응되는 시각 컨텐츠 제어 구성을 보다 상세화하여, 도서의 내용 진전에 따라 나타나는 내용 상의 감정 변화를 기반으로 형용사에 대응되는 시각 컨텐츠의 크기를 보다 세부적으로 제어할 수 있는데, 이를 위한 구성에 대해 설명하면 다음과 같다.
도 6은 본 발명의 차트의 일 실시예를 나타낸 개념도이다.
도 6을 참조하여 설명하면, 본 발명의 시스템은 음성이 변환된 텍스트에서 추출된 형용사를 감정상태에 따라 분류하고, 이를 기반으로 도서의 내용 진행에 따른 감정 변화를 파악할 수 있다. 이때 감정 변화는 차트의 형태로 표시될 수 있는데, 이를 위해 본 발명의 시스템은 차트 생성 모듈(700)을 포함할 수 있다. 이때 바람직하게 차트 생성 모듈(700)은 형용사 분류부(710), 감정수치 산출부(720), 차트 표시부(730)를 포함한다.
형용사 분류부(710)는 음성이 변환되어 생성된 텍스트에서 추출된 형용사를 긍정감정, 중립감정, 부정감정을 포함하는 감정그룹으로 분류하는 기능을 수행한다. 여기서 감정그룹은 긍정감정, 중립감정, 부정감정을 포함하는데, 여기서 긍정감정이라 함은 긍정적인 감정을 나타내는 표현, 중립감정은 중립적인 감정이 나타나거나 감정과 관련 없는 표현, 부정감정은 부정적인 감정을 나타내는 표현을 일컫는다.
예를 들어 ‘즐겁다’,‘슬프다’,‘둥글다’가 있는 경우 즐겁다는 긍정감정, 슬프다는 부정감정, 둥글다는 중립감정으로 분류된다. 만약 긍정감정, 부정감정, 중립감정의 분류가 어려운 형용사의 경우 유의어를 파악하여, 유의어의 긍정감정/부정감정/중립감정의 여부에 따라 분류하게 된다.
여기서 긍정감정, 부정감정, 중립감정으로 추출된 형용사를 분류하는 것은 시스템 관리자에 의해 이루어질 수도 있으며, 혹은 시스템 상에서 자동적으로 형용사의 분류를 수행하는 것도 가능하다.
이때 시스템 상에서 자동분류를 수행하기 위해서는 사전과 연동되어 다양한 형용사를 시스템의 데이터베이스(100)에 저장하도록 하고, 데이터베이스(100)에 저장된 형용사를 긍정감정, 부정감정, 중립감정을 나타내도록 분류하여 일종의 인덱스(index)를 만들어 놓을 수 있다. 그 후 텍스트에서 추출된 형용사를 인덱스와 비교 처리하여 형용사를 긍정감정, 중립감정, 부정감정을 포함하는 감정그룹으로 분류 처리할 수 있다.
감정수치 산출부(720)는 파악된 형용사가 속한 감정그룹을 기반으로, 음성이 변환된 내용인 텍스트에서의 감정 변화를 수치화한 감정수치를 산출한다. 이는 가장 간단하게는 텍스트 상에서 내용의 흐름에 따라, 즉 해당 텍스트를 읽는 시간대별로 나타난 형용사가 속한 감정그룹에 따라 감정 변화를 수치화하는 것이다.
예를 들어 ‘즐거운 왕자님이 있었는데, 공주님에게 이별을 당하고 슬퍼서 울었습니다.’란 문장이 있고, 여기서 나타나는 형용사는 ‘즐거운’ 및 ‘슬퍼서’이다. 나아가 긍정감정의 형용사는 하나당 +1점, 중립감정의 형용사는 하나당 +0점, 부정감정의 형용사는 하나당 -1점의 감정수치를 갖는다 가정하여 설명한다.
만약 ‘즐거운’이라는 형용사는 음성 기준 0시 0분 53초에 등장하고, ‘슬퍼서’라는 형용사는 0시 1분 02초에 등장하는 경우, 0시 0분 53초의 감정수치는 +1점, 0시 1분 02초의 감정수치는 -1점이 될 수 있따.
이런 식으로 매 초마다 세분화되어 감정수치를 나타낼 수도 있으며, 형용사의 경우 시간대별로 나타날 수 있으므로 텍스트의 감정 변화의 경우 시간대 별로 산출될 수 있다. 예를 들어 음성이 시작된 이래로, 즉 도서의 내용을 읽기 시작한 이래로 1분 간격으로 감정수치를 산출하는 것도 가능하며, 혹은 30초, 2분, 3분 등 시스템 관리자에 의해 설정된 시간 간격에 따라 감정수치를 산출할 수도 있다.
따라서 다시 말하면, 음성이 변환된 텍스트에 있어 감정 상태를 산출한다 하는 것은 해당 텍스트가 음성으로 읽어지는 시간대에서 해당 텍스트에서 등장한 형용사를 기준으로 하여, 해당 형용사가 나타내는 긍정/중립/부정의 감정을 수치화한 것이라 할 수 있다. 이는 상술한 바와 같이 개별 그룹에 속한 형용사별로 점수를 부여하고, 어떠한 형용사가 등장하였는지, 몇 번 등장하였는지에 따라 감정수치가 산출될 수 있는 것이다.
차트 표시부(730)는 도서를 읽어주는 음성이 재생되는 시간에 따라 감정수치가 변화되는 것을 차트로 표시하는 기능을 수행한다. 이때 바람직하게는 시간에 따라 감정수치가 변화된다는 것은, 음성이 재생되는 시간을 30초, 1분, 1분 30초 등 시스템 관리자에 의해 기 설정될 수 있는 시간 단위에 따라 분류하고, 해당 시간 단위 길이마다 감정수치를 통합적으로 산출하여 차트로 표시한다.
즉 x축은 음성이 재생되는 시간, 즉 도서를 읽어주는 음성의 재생 시간을 의미하며 y축은 감정수치라 할 수 있는데, 이때 막대그래프의 형태로 시간 단위별 감정수치의 변화를 나타내도록 하여 음성이 출력되는 시간의 흐름에 따른 감정수치의 변화를 차트, 다시 말해 그래프의 형태로 나타낼 수 있도록 한다,
따라서 상술한 바와 같이 만약 ‘즐거운’이라는 형용사는 음성 기준 0시 0분 53초에 등장하고, ‘슬퍼서’라는 형용사는 0시 1분 02초에 등장하는 경우, 0시 0분 53초의 감정수치는 +1점, 0시 1분 02초의 감정수치는 -1점이라 하였는데, 이때 1분 간격 (0~1분 / 1분~2분) 간격별로 산출된 감정수치의 변화를 파악하는 것이라 할 수 있다. 즉 0~1분 시간대의 감정수치는 +1, 1분~2분 시간대의 감정수치는 -1이 될 수 있다.
따라서 바람직하게는 감정수치가 긍정감정이 강할수록 감정수치는 양의 값, 부정감정이 강할수록 음의 값을 나타내며, 중립감정에 가까울수록 0에 가까운 값을 가질 수 있다.
따라서 이와 같이 차트가 생성되는 경우, 크기 제어부는 차트 상에서의 음성 재생 시간대에 따른 감정수치의 변화에 따라 등장하는 형용사에 대응된 시각 컨텐츠의 크기를 차등 제어하는 기능을 포함할 수 있다.
다시 말하자면, 차트 상에서 음성이 재생되는 시간에 따라 해당 음성이 변환된 텍스트의 감정수치의 변화를 확인할 수 있다 하였는데, 이때 해당 시간대별로, 즉 특정 시간대에 등장하는 형용사에 대응된 시각 컨텐츠의 크기를 차등 제어한다.
상술한 바와 같이 0~1분 시간대의 감정수치가 +1, 1~2분 시간대의 감정수치가 -1이며, 나아가 2~3분 시간대의 감정수치가 0이라고 하자.
이때 0~1분 시간대에 ‘즐거운’, 1~2분 시간대에 ‘슬퍼서’, 2~3분 시간대에 ‘둥근’이 등장한다 했을 때, ‘즐거운’에 대응되는 시각 컨텐츠, 즉 웃는 얼굴을 나타내는 이모지의 크기는 크게, ‘슬퍼서’에 대응되는 시각 컨텐츠, 즉 우는 얼굴을 나타내는 이모지의 크기는 ‘즐거운’에 대응되는 시각 컨텐츠의 크기와 동일하게, ‘둥근’을 나타내는 이모지의 크기는 가장 작게 차등 제어할 수 있다.
즉 특정 시간대에 긍정적인 감정이나 부정적인 감정이 강하게 나타날수록 (양수인 긍정감정, 음수인 부정감정이 강하게 나타날 경우) 해당 시간대에 등장하는 형용사에 대응되는 시각 컨텐츠는 크기를 크게 하고, 특정 시간대의 별다른 감정이 등장하지 않을수록, 즉 중립에 가까운 감정이 나타날수록 해당 시간대에 등장하는 형용사에 대응되는 시각 컨텐츠는 크기를 작게 하는 방식으로 시각 컨텐츠 크기의 차등 제어가 가능하다.
이때 차트 상에서 음성이 재생되는 시간에 따른 감정수치의 변화에 따라 해당 시간대에 등장하는 형용사에 대응되는 시각 컨텐츠의 크기를 얼마나 늘릴 것인지, 긍정/중립/부정 감정별로 얼마나 키울 것인지, 늘릴 것인지에 대해서는 제한을 두지 않으므로 시스템 관리자에 의해 설정될 수 있다.
더불어 상술한 출력 모듈(500)의 영역 구획부(510)의 구성에서 영상이 출력되는 화면을 인물 영역(11) 및 주변 영역(12)으로 구획 가능하다 하였는데, 이때 영역 지정 합성부(520)에 있어 추출된 명사 및 형용사에 대응되는 시각 컨텐츠를 상기 주변 영역(12)에 출력하되, 음성이 재생되는 시간대에 따른 감정수치의 변화에 따라 특정 시간대에 등장하는 형용사에 대응되는 시각 컨텐츠의 출력 위치를 제어하도록 할 수 있다.
다시 말해, 감정수치의 증가 또는 감소, 긍정 방향에서 중립으로의 변화, 중립에서 부정으로의 변화, 부정에서의 중립으로의 변화 등과 같이 음성으로 읽어주는 도서 내용 상에서의 감정의 크기 또는 감정의 종류의 흐름에 따라서 감정을 나타내는 표현, 형용사와 대응된 시각 컨텐츠의 배치 위치를 조절함으로써 보다 다양한 시각적 효과를 제공하고, 몰입감을 높일 수 있게 된다.
나아가 본 발명의 오디오북 플랫폼 제공 시스템은 음성을 통해, 목소리의 형태로 도서의 내용을 제공하는 만큼, 단순히 내용 뿐 아니라 음성을 통해 제공되는 느낌, 즉 뉘앙스나 목소리의 톤(tone) 등을 기반으로 내용을 보다 실감나게 전달할 수 있다. 예를 들어 슬픈 내용의 경우 보다 낮은 톤으로, 즐겁고 기쁜 내용은 높은 톤으로 쾌활하게 전달할 수 있는 것이다.
그러한 만큼 목소리에서 느껴지는 톤을 이용하여 상술한 감정수치를 보정 처리할 수 있는데, 이를 위해 차트 생성 모듈(700)은 표준 설정부(740), 변동 파악부(750), 수치 보정부(760)를 포함할 수 있다.
표준 설정부(740)는 음성에 대한 표준 톤(standard tone)을 설정하는 것으로서, 여기서 표준 톤을 이루는 목소리의 요소는 주파수, 거칠기, 진폭 등이다. 따라서 녹음을 통해 목소리의 형태로 도서의 내용을 전달하는 자, 즉 네이티브 스피커나 성우로 하여금 긍정적인 감정이나 부정적인 감정이 담겨있지 않은, 무덤덤하고 중립적인 감정 상태로 특정한 문구나 책을 읽게 하고, 그때 입력된 음성의 주파수, 거칠기, 진폭을 분석하여 해당 성우/네이티브 스피커의 표준 톤을 설정하는 것이다.
이때 톤에 포함되는 요소는 주파수, 거칠기, 진폭이라 했는데 이는 이때 주파수는 음성의 높낮이를 분석하는데 이용되며, 거칠기는 목소리의 음색을 의미한다. 다른 말로는 보이스컬러라고도 할 수 있다. 이 때 거칠기라 함은 전반적인 파형이 매끄러운 형태를 띠는지, 혹은 파장이 매끄럽지 못하고 거친 형태를 나타내는 지에 대한 것으로서, 파장의 거칠기에 따라 음색이 달라지게 된다. 나아가 진폭의 경우 음성의 세기나 크기를 의미하는 것이다.
나아가 이때 파악된 표준 톤에 의해 표준 톤 가중치가 설정될 수 있는데, 이러한 표준 톤 가중치는 -3 내지 +3의 값을 가질 수 있는 것으로서, 기본적인 표준 톤 자체가 중립적인 감정이 드는 경우(매우 무덤덤한 목소리인 경우) 0에 가깝게, 긍정감정이 느껴지기 쉬운 목소리의 톤인 경우 양의 값에 가깝게, 부정감정이 느껴지기 쉬운 목소리의 톤인 경우 음의 값에 가깝게 설정될 수 있다. 이때 값을 설정하는건 시스템 관리자에 의해 이루어질 수 있다.
변동 파악부(750)는 특정 도서데이터에 대해 입력된 음성의 주파수, 거칠기, 진폭을 분석하여 변동 톤(flexible tone)을 파악하는 기능을 수행한다.
이는 특정 도서데이터를 읽은 음성에서의 높낮이, 음색, 그리고 목소리의 세기 및 크기의 변화를 파악하여 도서데이터의 음성에서 드러날 수 있는 감정을 파악한다. 이때 변동 톤 역시 도서의 내용이 진행됨에 따라 감정이 달라지면서 점차적으로 변화하며, 이를 수치화한 변동 톤 가중치를 가질 수 있다.
이때 도서의 내용이 진행되면서 감정 변화에 의해 나타나는 목소리의 특성에 의해 변동 톤 가중치가 설정될 수 있으며, 이는 -10 내지 10의 값의 범위에서 설정될 수 있다. 여기서 특정 시점의 변동 톤이 중립적인 감정이 드는 경우(매우 무덤덤한 목소리인 경우) 0에 가깝게, 긍정감정이 느껴지기 쉬운 목소리의 톤인 경우 양의 값에 가깝게, 부정감정이 느껴지기 쉬운 목소리의 톤인 경우 음의 값에 가깝게 설정될 수 있다. 이때 값을 설정하는건 시스템 관리자에 의해 이루어질 수 있다.
수치 보정부(760)는 표준 톤과 변동 톤 사이의 비교 처리를 기반으로 상기 감정수치를 보정 처리하는 기능을 수행하는데, 이때 감정수치는 상술한 바와 같이 차트 상에서 확인할 수 있는 값이며, 이에 표준 톤 가중치와 변동 톤 가중치의 비교 처리를 수행한 값이 반영되어 감정수치가 보정될 수 있다.
이때, 바람직하게 보정된 감정수치는 다음의 수학식 1을 통해 산출될 수 있다.
수학식 1,
Figure pat00001
여기서,
Figure pat00002
는 보정된 감정수치,
Figure pat00003
는 특정 시점의 변동 톤 가중치,
Figure pat00004
는 특정 도서데이터에 대해 입력된 음성에서의 변동 톤 가중치의 평균값,
Figure pat00005
는 해당 음성을 제공한 자의 표준 톤 가중치,
Figure pat00006
는 특정 시점에 대해 산출된 감정수치를 의미한다.
만약 감정수치가 5이고, 특정 도서데이터를 읽은 음성, 즉 오디오북의 음성에 있어 0분 20초의 변동 톤 가중치가 4이며, 해당 도서데이터를 읽은 음성, 즉 오디오북의 음성에 있어 변동 톤 가중치의 평균값이 2이고, 표준 톤 가중치가 1이라 할 경우,
Figure pat00007
이 산출될 수 있다.
상술한 수학식 1은 특정 시점에서 산출된 감정수치를 해당 음성을 입력한 자의 표준 톤, 그리고 해당 시점에서의 순간적인 톤 및 해당 도서에서 나타나는 평균 톤을 반영하여 보정 처리한 식이다.
이때 단순히 선형 보정을 수행하는 것이 아닌, 감정의 변화가 선형적일 수 없는 점을 고려하여 비선형적 모델인 하이퍼사인 모델을 취해 반영하였으며, 이때 특정 시점의 변동 톤 가중치, 특정 도서데이터에 대해 입력된 변동 톤 가중치의 평균값, 표준 톤 가중치의 상호 비교에 있어서도 서로 값을 곱한 다음 제곱근을 취해 기하평균의 값을 구하거나, 산술평균의 값을 동시에 구해 상호 비교를 가능케 함으로써 서로 다른 변수 간의 비교를 가능케 하였다.
지금까지 설명한 바와 같이, 본 발명에 따른 시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템의 구성 및 작용을 상기 설명 및 도면에 표현하였지만 이는 예를 들어 설명한 것에 불과하여 본 발명의 사상이 상기 설명 및 도면에 한정되지 않으며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양한 변화 및 변경이 가능함은 물론이다.
1 : 오디오북 단말 2 : 메인서버
11 : 인물 영역 12 : 주변 영역
100 : 데이터베이스 110 : 도서DB
120 : 컨텐츠DB 200 : 음성 입력 모듈
300 : 키워드 추출 모듈 400 : 컨텐츠 추출 모듈
500 : 출력 모듈 510 : 영역 구획부
520 : 영역 지정 합성부 530 : 크기 조절부
600 : 영상 입력 모듈 700 : 차트 생성 모듈
710 : 형용사 분류부 720 : 감정수치 산출부
730 : 차트 표시부 740 : 표준 설정부
750 : 변동 파악부 760 : 수치 보정부

Claims (9)

  1. 시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템으로서,
    도서데이터를 저장하는 도서DB 및, 키워드가 설정된 시각적 이미지인 시각 컨텐츠를 저장한 컨텐츠DB를 포함하는 데이터베이스;
    상기 도서데이터에 대한 음성을 입력받는 음성 입력 모듈;
    STT(sound-to-text)를 기반으로 상기 음성을 텍스트로 변환하고, 변환된 텍스트로부터 복수의 키워드를 추출하는 키워드 추출 모듈;
    텍스트로부터 추출된 키워드에 대응되는 시각 컨텐츠를 필터링하는 컨텐츠 추출 모듈;
    상기 음성에서 상기 키워드가 등장하는 시점과 일치하도록 상기 음성과 상기 필터링된 시각 컨텐츠를 동시 출력하는 출력 모듈;을 포함하는 것을 특징으로 하는, 오디오북 플랫폼 제공 시스템.
  2. 제 1항에 있어서,
    상기 시스템은,
    출연자가 도서데이터를 읽고 있는 영상을 입력받는 영상 입력 모듈;을 포함하고,
    상기 출력 모듈은,
    상기 영상에 상기 음성을 더빙하여 출력하되, 상기 음성에서 상기 키워드가 등장하는 시점에 맞추어 상기 영상에 상기 필터링된 시각 컨텐츠를 합성하여 출력하는 것을 특징으로 하는, 오디오북 플랫폼 제공 시스템.
  3. 제 2항에 있어서,
    상기 출력 모듈은,
    상기 영상에 합성될 시각 컨텐츠의 크기를 제어하는 크기 조절부를 포함하는 것을 특징으로 하는, 오디오북 플랫폼 제공 시스템.
  4. 제 2항에 있어서,
    상기 출력 모듈은,
    영상이 출력되는 화면을 상기 출연자를 포함하는 인물 영역과 상기 인물 영역을 제외한 주변 영역으로 구획하는 영역 구획부 및,
    상기 주변 영역에 필터링된 시각 컨텐츠를 합성하여 출력하는 영역 지정 합성부를 포함하는 것을 특징으로 하는, 오디오북 플랫폼 제공 시스템.
  5. 제 1항에 있어서,
    상기 키워드는,
    명사 및 형용사와 동사를 포함하고,
    상기 시스템은,
    출연자가 도서데이터를 읽고 있는 영상을 입력받는 영상 입력 모듈; 및,
    상기 출력 모듈은,
    명사, 형용사, 동사 여부에 따라 상기 추출된 시각 컨텐츠의 크기를 차등 제어하는 크기 조절부를 포함하는 것을 특징으로 하는, 오디오북 플랫폼 제공 시스템.
  6. 제 5항에 있어서,
    상기 시스템은,
    텍스트에서 추출된 형용사를 긍정감정, 중립감정, 부정감정을 포함하는 감정그룹으로 분류하는 형용사 분류부와,
    파악된 형용사가 속한 감정그룹을 기반으로 하여, 상기 텍스트의 감정 상태를 수치화한 감정수치를 산출하는 감정수치 산출부와,
    상기 음성이 재생되는 시간대에 따른 상기 감정수치의 변화를 차트로 표시하는 차트 표시부를 포함하는 차트 생성 모듈;을 포함하고,
    상기 크기 제어부는,
    차트 상에서의 음성이 재생되는 시간대에 따른 감정수치의 변화에 따라, 특정 시간대에 등장하는 형용사에 대응되는 시각 컨텐츠의 크기를 차등 제어하는 기능을 포함하는 것을 특징으로 하는, 오디오북 플랫폼 제공 시스템.
  7. 제 6항에 있어서,
    상기 출력 모듈은,
    영상이 출력되는 화면을 상기 출연자를 포함하는 인물 영역과 상기 인물 영역을 제외한 주변 영역으로 구획하는 영역 구획부와,
    추출된 명사 및 형용사에 대응되는 시각 컨텐츠를 상기 주변 영역에 출력하되, 상기 음성이 재생되는 시간대에 따른 감정수치의 변화에 따라 특정 시간대에 등장하는 형용사에 대응되는 시각 컨텐츠의 출력 위치를 제어하는 영역 지정 합성부를 포함하는 것을 특징으로 하는, 오디오북 플랫폼 제공 시스템.
  8. 제 6항에 있어서,
    상기 차트 생성 모듈은,
    상기 음성에 대한 표준 톤(standard tone)을 설정하는 표준 설정부와,
    특정 도서데이터에 대해 입력된 음성의 주파수, 거칠기, 진폭을 분석하여 변동 톤(flexible tone)을 파악하는 변동 파악부와,
    상기 표준 톤과 상기 변동 톤 사이의 비교 처리를 기반으로 상기 감정수치를 보정 처리하는 수치 보정부를 포함하는 것을 특징으로 하는, 오디오북 플랫폼 제공 시스템.
  9. 제 8항에 있어서,
    상기 보정된 감정수치는,
    다음의 수학식 1을 통해 산출되는 것을 특징으로 하는, 오디오북 플랫폼 제공 시스템.
    수학식 1,
    Figure pat00008

    (여기서,
    Figure pat00009
    는 보정된 감정수치,
    Figure pat00010
    는 특정 시점의 변동 톤 가중치,
    Figure pat00011
    는 특정 도서데이터에 대해 입력된 음성에서의 변동 톤 가중치의 평균값,
    Figure pat00012
    는 해당 음성을 제공한 자의 표준 톤 가중치,
    Figure pat00013
    는 특정 시점에 대해 산출된 감정수치)
KR1020210140921A 2021-10-21 2021-10-21 시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템 KR20230057514A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210140921A KR20230057514A (ko) 2021-10-21 2021-10-21 시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210140921A KR20230057514A (ko) 2021-10-21 2021-10-21 시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템

Publications (1)

Publication Number Publication Date
KR20230057514A true KR20230057514A (ko) 2023-05-02

Family

ID=86387918

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210140921A KR20230057514A (ko) 2021-10-21 2021-10-21 시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템

Country Status (1)

Country Link
KR (1) KR20230057514A (ko)

Similar Documents

Publication Publication Date Title
US20190196666A1 (en) Systems and Methods Document Narration
US8364488B2 (en) Voice models for document narration
US8793133B2 (en) Systems and methods document narration
WO2020081872A1 (en) Characterizing content for audio-video dubbing and other transformations
CN109801349B (zh) 一种声音驱动的三维动画角色实时表情生成方法和系统
CN113010138B (zh) 文章的语音播放方法、装置、设备及计算机可读存储介质
CN112188266A (zh) 视频生成方法、装置及电子设备
CN112750187A (zh) 一种动画生成方法、装置、设备及计算机可读存储介质
WO2022242706A1 (zh) 基于多模态的反应式响应生成
CN113538628A (zh) 表情包生成方法、装置、电子设备及计算机可读存储介质
CN112492400B (zh) 互动方法、装置、设备以及通信方法、拍摄方法
JP6222465B2 (ja) アニメーション生成装置、アニメーション生成方法およびプログラム
KR20230057514A (ko) 시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템
CN111160051B (zh) 数据处理方法、装置、电子设备及存储介质
WO2022041177A1 (zh) 通信消息处理方法、设备及即时通信客户端
Desai et al. Understanding and Enhancing The Role of Speechreading in Online d/DHH Communication Accessibility
WO2023167212A1 (ja) コンピュータプログラム、情報処理方法及び情報処理装置
CN113823329B (en) Data processing method and computer device
Liu et al. Integrating Natural Language Processing & Computer Vision into an Interactive Learning Platform
Lovely et al. Rule-based lip-syncing algorithm for virtual character in voice chatbot
CN116580721B (zh) 表情动画的生成方法、装置和数字人平台
KR102261548B1 (ko) 감성에 기초한 작품의 멀티미디어 변환 장치
JP2024066971A (ja) 映画生成装置及び映画生成システム
CN116974372A (zh) 一种唱歌实现方法、装置、ar显示设备及存储介质
Danylov OPEN SOURCE AND PROPRIETARY SOFTWARE FOR AUDIO DEEPFAKES AND VOICE CLONING: GROWTH AREAS, PAIN POINTS, FUTURE INFLUENCE

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right