KR102261539B1 - 지능형 한국 문화 플랫폼 서비스 제공 시스템 - Google Patents

지능형 한국 문화 플랫폼 서비스 제공 시스템 Download PDF

Info

Publication number
KR102261539B1
KR102261539B1 KR1020200066333A KR20200066333A KR102261539B1 KR 102261539 B1 KR102261539 B1 KR 102261539B1 KR 1020200066333 A KR1020200066333 A KR 1020200066333A KR 20200066333 A KR20200066333 A KR 20200066333A KR 102261539 B1 KR102261539 B1 KR 102261539B1
Authority
KR
South Korea
Prior art keywords
korean
content
language
user
user terminal
Prior art date
Application number
KR1020200066333A
Other languages
English (en)
Inventor
이현수
최윤희
Original Assignee
주식회사 날다
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 날다 filed Critical 주식회사 날다
Priority to KR1020200066333A priority Critical patent/KR102261539B1/ko
Application granted granted Critical
Publication of KR102261539B1 publication Critical patent/KR102261539B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0356Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Computing Systems (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

지능형 한국 문화 플랫폼 서비스 제공 시스템이 제공되며, 한국어 학습 플레이어를 설치 및 구동하고, 음악, 드라마 및 영화를 포함하는 콘텐츠 중 어느 하나를 선택하여 재생하며, 콘텐츠 내에 포함된 메타데이터 중 한국어 자막을 싱크(Sync)를 맞춰 출력할 때, 싱크에 맞도록 사용자가 설정한 모국어 텍스트와 한국어 텍스트를 출력하고, 사용자의 음성발화가 인식되는 경우, 사용자의 음성발화와 콘텐츠 내 음성발화를 비교평가한 결과를 출력하는 사용자 단말 및 한국어 학습 플레이어를 제공하고, 한국어 학습 플레이어 내에 적어도 하나의 종류의 음악, 드라마 및 영화를 콘텐츠 제공 서버로부터 수신하여 업로드하는 제공부, 사용자 단말에서 모국어를 선택하는 경우 사용자 단말과 모국어를 매핑하여 저장하는 저장부, 사용자 단말에서 콘텐츠가 출력되는 경우, 모국어의 모국어 텍스트와 한국어 텍스트를 싱크에 맞도록 출력되도록 제어하는 제어부, 사용자 단말에서 음성인식으로 사용자의 음성발화가 입력되는 경우 콘텐츠 내 음성발화와 비교한 결과를 사용자 단말로 전송하는 발음교정부를 포함하는 플랫폼 서비스 제공 서버를 포함한다.

Description

지능형 한국 문화 플랫폼 서비스 제공 시스템{SYSTEM FOR PROVIDING ARTIFICIAL INTELLIGENCE BASED KOREAN CULTURE PLATFORM SERVICE}
본 발명은 지능형 한국 문화 플랫폼 서비스 제공 시스템에 관한 것으로, 한국 콘텐츠의 스트리밍은 물론 이에 포함된 한국어 텍스트까지 한국어 학습에 이용할 수 있는 플랫폼을 제공한다.
현재 한류는 협의의 대중 문화에서 K-Culture로 탈바꿈하여 전 세계로 퍼져나가고 있으며 한국어에 대한 관심도 높아지고 있다. 한류에 매혹된 한류팬들은 한국에 대해 더 알고 싶어 하고 이 과정에서 자연히 한국어와 한국문화를 배우고자 하는 욕구가 생기게 마련이다. 한류와 한국 상품의 영향력 증대에 의한 한국 유학과 외국인의 한국에서의 취업을 위한 한국어 학습에 대한 필요 수요가 급속히 증가하면서, 한국어와 한국문화 교육은 한류팬을 포함하는 한국어와 한국문화에 관심을 가지는 모든 사람들이 인문학의 한류를 이해하고 또 이들에게 이것을 전파하는 중요한 수단이 된다. 현재 외국어 교육에서 외국어를 배우거나 가르칠 때 언어를 배우는 사람은 물론, 가르치는 사람 모두가 해당 언어와 함께 그 언어가 속해 있는 공동체의 문화를 다루어야 함은 언어를 다루고 있는 모든 사람들이 공감하고 실천하려고 하는 현상이다.
이때, 영상 내 대사를 이용하여 언어를 학습할 수 있는 플랫폼이 연구 및 개발되었는데, 이와 관련하여 선행기술인 한국공개특허 제2018-0013475호(2018년02월07일 공개)에는, 영상에 수록된 대사를 외국어 음원으로 처리하여 저장한 음원데이터베이스, 음원데이터베이스의 외국어 음원을 외국어 없이 발음 그대로 한글 텍스트 처리한 한글 발음자막을 저장한 발음 데이터베이스, 외국어 음원 및 한글 발음자막을 문장 내지 단어 별로 구획하여 이를 데이터베이스화하는 발음구획모듈, 발음구획모듈을 통해 구획된 문장 내지 단어를 포함하는 영상을 파트 영상으로 지정하여 영상데이터베이스로 저장하되, 파트 영상은 구획된 문장 내지 단어와 연계되는 전후 화면의 문장 내지 단어를 포함하여 복수 개의 화면으로서 이루어지게 구획 처리되도록 하는 영상구획모듈, 외국어 음원 내지 한글 발음자막을 화면과 함께 출력하는 방식으로 영상을 재생하는 영상재생모듈을 포함하는 구성이 개시된다.
다만, 언어 교육에서 언어가 문화와 함께 다루어져야 한다는 것은 외국어 교육의 가장 중요한 목적 중 하나가 되며, 언어와 문화의 상호관계가 의미를 만들어내는 체계가 없이는 언어를 제대로 이해하지 못하는 이유가 된다. 상술한 구성을 이용할지라도 학습자가 언어와 문화를 이해하고 습득하기 위하여서는 문화 속에서 언어와 문화를 이해함은 물론 읽고 쓸 수 있는 기능을 습득 달성하여야 한다는 견해를 전혀 고려하지 못한다. 언어 학습자들이 문화 경험을 높이기 위해 문화 정보를 수집하고, 문화 행동을 고취하며, 문화 해석을 발견할 뿐만 아니라 자아 의식을 함양하는 경험적 학습 사이클에 참여하여야 하므로, 문화와 언어를 연계시켜 한국어를 한류와 연계하여 교육하기 위한 플랫폼의 연구 및 개발이 요구된다.
본 발명의 일 실시예는, 음악, 드라마 및 영화를 포함하는 콘텐츠를 수집하고, 수집된 콘텐츠 내의 자막을 TTS(Text To Speech)로 원어민 발음으로 생성하며, 이를 사용자의 음성발화와 비교하여 파형을 분석함으로써 원어민 발음에 유사한 언어학습이 가능하도록 하며, 학습자가 언어와 문화를 이해하고 습득하기 위하여서는 문화 속에서 언어와 문화를 이해함은 물론 읽고 쓸 수 있는 기능을 습득 달성할 수 있는 문화 경험 학습 모델(Model)로 한국 드라마나 영화를 선정함으로써 문화와 언어를 연계할 수 있도록 하고, 인간 집단의 발전하는 생활 방식으로 공유된 문화 산물과 연결되어 있는 공유된 실천으로 인간이 공유하는 일련의 세계관에 입각하여 구체적인 사회맥락 안에서 설정되는 문화와 함께 한국어를 배울 수 있도록 함으로써 한국어의 이해도를 높일 수 있는, 지능형 한국 문화 플랫폼 서비스 제공 방법을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 한국어 학습 플레이어를 설치 및 구동하고, 음악, 드라마 및 영화를 포함하는 콘텐츠 중 어느 하나를 선택하여 재생하며, 콘텐츠 내에 포함된 메타데이터 중 한국어 자막을 싱크(Sync)를 맞춰 출력할 때, 싱크에 맞도록 사용자가 설정한 모국어 텍스트와 한국어 텍스트를 출력하고, 사용자의 음성발화가 인식되는 경우, 사용자의 음성발화와 콘텐츠 내 음성발화를 비교평가한 결과를 출력하는 사용자 단말 및 한국어 학습 플레이어를 제공하고, 한국어 학습 플레이어 내에 적어도 하나의 종류의 음악, 드라마 및 영화를 콘텐츠 제공 서버로부터 수신하여 업로드하는 제공부, 사용자 단말에서 모국어를 선택하는 경우 사용자 단말과 모국어를 매핑하여 저장하는 저장부, 사용자 단말에서 콘텐츠가 출력되는 경우, 모국어의 모국어 텍스트와 한국어 텍스트를 싱크에 맞도록 출력되도록 제어하는 제어부, 사용자 단말에서 음성인식으로 사용자의 음성발화가 입력되는 경우 콘텐츠 내 음성발화와 비교한 결과를 사용자 단말로 전송하는 발음교정부를 포함하는 플랫폼 서비스 제공 서버를 포함한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 음악, 드라마 및 영화를 포함하는 콘텐츠를 수집하고, 수집된 콘텐츠 내의 자막을 TTS(Text To Speech)로 원어민 발음으로 생성하며, 이를 사용자의 음성발화와 비교하여 파형을 분석함으로써 원어민 발음에 유사한 언어학습이 가능하도록 하며, 학습자가 언어와 문화를 이해하고 습득하기 위하여서는 문화 속에서 언어와 문화를 이해함은 물론 읽고 쓸 수 있는 기능을 습득 달성할 수 있는 문화 경험 학습 모델(Model)로 한국 드라마나 영화를 선정함으로써 문화와 언어를 연계할 수 있도록 하고, 인간 집단의 발전하는 생활 방식으로 공유된 문화 산물과 연결되어 있는 공유된 실천으로 인간이 공유하는 일련의 세계관에 입각하여 구체적인 사회맥락 안에서 설정되는 문화와 함께 한국어를 배울 수 있도록 함으로써 한국어의 이해도를 높일 수 있다.
도 1은 본 발명의 일 실시예에 따른 지능형 한국 문화 플랫폼 서비스 제공 시스템을 설명하기 위한 도면이다.
도 2는 도 1의 시스템에 포함된 플랫폼 서비스 제공 서버를 설명하기 위한 블록 구성도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 지능형 한국 문화 플랫폼 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 지능형 한국 문화 플랫폼 서비스 제공 방법을 설명하기 위한 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본 발명의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본 발명의 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다. 한편, '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, '~부'는 어드레싱 할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체 지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.
본 명세서에 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.
본 명세서에서 있어서, 단말과 매핑(Mapping) 또는 매칭(Matching)으로 기술된 동작이나 기능 중 일부는, 단말의 식별 정보(Identifying Data)인 단말기의 고유번호나 개인의 식별정보를 매핑 또는 매칭한다는 의미로 해석될 수 있다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 지능형 한국 문화 플랫폼 서비스 제공 시스템을 설명하기 위한 도면이다. 도 1을 참조하면, 지능형 한국 문화 플랫폼 서비스 제공 시스템(1)은, 적어도 하나의 사용자 단말(100), 플랫폼 서비스 제공 서버(300) 및 적어도 하나의 콘텐츠 제공 서버(400)를 포함할 수 있다. 다만, 이러한 도 1의 지능형 한국 문화 플랫폼 서비스 제공 시스템(1)은, 본 발명의 일 실시예에 불과하므로, 도 1을 통하여 본 발명이 한정 해석되는 것은 아니다.
이때, 도 1의 각 구성요소들은 일반적으로 네트워크(network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 적어도 하나의 사용자 단말(100)은 네트워크(200)를 통하여 플랫폼 서비스 제공 서버(300)와 연결될 수 있다. 그리고, 플랫폼 서비스 제공 서버(300)는, 네트워크(200)를 통하여 적어도 하나의 사용자 단말(100), 적어도 하나의 콘텐츠 제공 서버(400)와 연결될 수 있다. 또한, 적어도 하나의 콘텐츠 제공 서버(400)는, 네트워크(200)를 통하여 플랫폼 서비스 제공 서버(300)와 연결될 수 있다.
여기서, 네트워크는, 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷(WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), 5GPP(5th Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), RF(Radio Frequency), 블루투스(Bluetooth) 네트워크, NFC(Near-Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.
하기에서, 적어도 하나의 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. 또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시예에 따라 변경가능하다 할 것이다.
적어도 하나의 사용자 단말(100)은, 지능형 한국 문화 플랫폼 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 한국 음악, 영화 및 드라마를 포함하는 콘텐츠를 재생하고, 모국어 자막 및 한국어 자막을 싱크로 함께 출력하며 이에 대한 모국어 뜻을 화면에 출력하고 한국어 학습시 TTS(Text To Speech)로 생성된 음원과 사용자 단말(100)로 입력된 사용자의 음성발화를 비교하거나, 콘텐츠 내에 포함된 한국어 발음과 사용자의 음성발화를 비교하여 그 결과를 파형을 분석한 결과로 출력하거나 점수로 출력하는 단말일 수 있다. 이를 위하여,사용자 단말(100)은, 플랫폼 서비스 제공 서버(300)로부터 한국어 학습 플레이어를 다운로드 및 설치하여 구동시키는 단말일 수 있다. 이때, 사용자 단말(100)은 한국어 학습 플레이어 상의 콘텐츠를 선택하여 재생하고 한국어 학습을 진행하는 사용자의 단말일 수 있다.
여기서, 적어도 하나의 사용자 단말(100)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 사용자 단말(100)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 사용자 단말(100)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(Smartphone), 스마트 패드(Smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
플랫폼 서비스 제공 서버(300)는, 지능형 한국 문화 플랫폼 서비스 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 제공하는 서버일 수 있다. 그리고, 플랫폼 서비스 제공 서버(300)는, 적어도 하나의 콘텐츠 공급 서버(400)로부터 영화, 음악 및 드라마와 같은 한국문화를 접할 수 있는 콘텐츠를 공급받고 이를 한국어 학습 플레이어에 로딩하는 서버일 수 있다. 그리고, 플랫폼 서비스 제공 서버(300)는, 음악의 가사분석정보(KLAI, Korean Lyrics Analysis Information)와 상기 드라마 및 영화의 대사분석정보(KDAI, Korean Dialog Analysis Information)를 수집하는 AI(Artificial Intelligence) 봇을 이용하여 각 영상프레임 또는 음악파일의 싱크에 맞게 저장하는 서버일 수 있고, 사용자 단말(100)에서 음악 또는 영상을 재생했을 때 이를 출력하도록 하는 서버일 수 있다. 또한, 플랫폼 서비스 제공 서버(300)는, 사용자의 음성발화와 TTS(Text to Speech) 엔진을 이용하여 생성된 음성 간의 차이 및 유사도에 기반하여 점수를 출력하고 파형을 출력하여 발음이 다른 부분을 비교할 수 있도록 하는 서버일 수 있다. 그리고, 플랫폼 서비스 제공 서버(300)는, 영상에 존재하는 적어도 하나의 상품을 구매할 수 있는 쇼핑몰을 연계시키고, 사용자 간 커뮤니티를 만들어 공유를 하도록 하는 서버일 수 있다.
여기서, 플랫폼 서비스 제공 서버(300)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.
적어도 하나의 콘텐츠 제공 서버(400)는, 지능형 한국 문화 플랫폼 서비스 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하거나 이용하지 않고 콘텐츠를 플랫폼 서비스 제공 서버(300)로 제공하는 서버일 수 있다. 이때, 적어도 하나의 콘텐츠 제공 서버(400)는, 저작권 계약에 따른 수수료나 금액을 플랫폼 서비스 제공 서버(300)로부터 정산받는 서버일 수 있다.
여기서, 적어도 하나의 콘텐츠 제공 서버(400)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 콘텐츠 제공 서버(400)는, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 콘텐츠 제공 서버(400)는, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(Smartphone), 스마트 패드(Smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
도 2는 도 1의 시스템에 포함된 플랫폼 서비스 제공 서버를 설명하기 위한 블록 구성도이고, 도 3 및 도 4는 본 발명의 일 실시예에 따른 지능형 한국 문화 플랫폼 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 2를 참조하면, 플랫폼 서비스 제공 서버(300)는, 제공부(310), 저장부(320), 제어부(330), 발음교정부(340), AI부(350), SNS부(360) 및 쇼핑몰부(370)를 포함할 수 있다.
본 발명의 일 실시예에 따른 플랫폼 서비스 제공 서버(300)나 연동되어 동작하는 다른 서버(미도시)가 적어도 하나의 사용자 단말(100) 및 적어도 하나의 콘텐츠 제공 서버(400)로 지능형 한국 문화 플랫폼 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 전송하는 경우, 적어도 하나의 사용자 단말(100) 및 적어도 하나의 콘텐츠 제공 서버(400)는, 지능형 한국 문화 플랫폼 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 서비스 프로그램이 적어도 하나의 사용자 단말(100) 및 적어도 하나의 콘텐츠 제공 서버(400)에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: World Wide Web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(Hyper Text Mark-up Language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크롬(Chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(Application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(App)을 포함한다.
도 2를 참조하면, 제공부(310)는, 한국어 학습 플레이어를 제공하고, 한국어 학습 플레이어 내에 적어도 하나의 종류의 음악, 드라마 및 영화를 콘텐츠 제공 서버(400)로부터 수신하여 업로드할 수 있다. 사용자 단말(100)은, 한국어 학습 플레이어를 설치 및 구동하고, 음악, 드라마 및 영화를 포함하는 콘텐츠 중 어느 하나를 선택하여 재생하며, 콘텐츠 내에 포함된 메타데이터 중 한국어 자막을 싱크(Sync)를 맞춰 출력할 때, 싱크에 맞도록 사용자가 설정한 모국어 텍스트와 한국어 텍스트를 출력하고, 사용자의 음성발화가 인식되는 경우, 사용자의 음성발화와 콘텐츠 내 음성발화를 비교평가한 결과를 출력할 수 있다.
저장부(320)는, 사용자 단말(100)에서 모국어를 선택하는 경우 사용자 단말(100)과 모국어를 매핑하여 저장할 수 있다. 이를 통하여, 음악에서 나오는 가사나 영화나 드라마에서 나오는 대사를 어느 나라 언어로 출력할 것인지, 또 한국어 학습 플레이어에서 한국어의 뜻을 찾아볼 때 어느 나라 언어를 기준으로 사전을 제공할 것인지에 대한 기준값을 얻을 수 있다.
제어부(330)는, 사용자 단말(100)에서 콘텐츠가 출력되는 경우, 모국어의 모국어 텍스트와 한국어 텍스트를 싱크에 맞도록 출력되도록 제어할 수 있다. 여기서, 제어부(330)에서 자막을 싱크하는 과정이나 배열하는 과정은 이하의 AI부(350)에서 함께 설명하기로 한다.
발음교정부(340)는, 사용자 단말(100)에서 음성인식으로 사용자의 음성발화가 입력되는 경우 콘텐츠 내 음성발화와 비교한 결과를 사용자 단말(100)로 전송할 수 있다. 이때, 콘텐츠 내 음성발화는, TTS(Text To Speech) 기반 한국어 합성기를 이용하여 생성된 음성으로 대체가능하다. 예를 들어, 드라마의 대사는 그 감정에 기반하므로 발음이 뭉개질 수도 있고, 음악과 같은 경우에도 랩의 경우에는 빠르게 발음하여 제대로 못알아들을 수도 있으며, 영화의 경우 배경음악에 가려져서 대사가 제대로 안들릴 수도 있다. 이를 위하여, TTS를 이용하여 가사나 대사와 같은 텍스트만 콘텐츠로부터 추출하고, 이를 발음하도록 함으로써 정확한 발음을 들을 수 있고 이후에 사용자 음성발화와 비교할 수 있는 기준값으로 설정할 수 있다.
이때, 생성된 음성은 여성용 및 남성용이 구분되어 생성될 수 있다. 각국의 언어는 대체로 각 계급이나 계층 또는 성별에 따라 서로 다른 엑세트와 억양 등을 가지게 되는데, 예를 들어, 미국인 남자친구에게 영어를 배운 여성은 미국인 남자의 말투와 어휘를 가지게 되고, 반대로 미국인 여자친구에게 영어를 배운 남성은 미국인 여성의 특유의 말투와 어휘를 가지게 된다. 마찬가지로 각 지방의 사투리나 각 세대의 특유의 어휘와 말투가 존재하므로 최소한 표준어를 기준으로 하는 경우일지라도, 자신이 어떠한 성별인지를 알아야 TTS에서 텍스트로 음성발화를 생성할 때 기준을 삼을 수 있다. 이에 따라, 동일한 텍스트를 읽는 경우에도 여성이 발음하는지, 남성이 발음하는지를 구분하도록 할 수 있고, 이에 따른 억양과 엑센트를 배울 수 있도록 한다.
이때, 발음교정부(340)는, 콘텐츠 내 음성발화와 사용자의 음성발화 간의 차이를 분석하여, 발음, 엑센트, 억양 및 타이밍의 유사도를 그래프로 시각화하여 출력할 수 있다. 이때, 콘텐츠 내 음성발화와 사용자의 음성발화 간의 차이는 음성파형 분석에 의해 비교될 수 있다. 발음교정부(340)에서는 파형 시퀀스 공통 특징 추출 과정을 이용할 수 있다. 우선, 발음교정부(340)는 사용자 단말(100)로부터 입력된 음성발화에 대응하는 음성 데이터를 수신하는 경우, 파형을 수치화할 수 있다. 파형의 마디와 마디 사이 형태, 진폭과 주기를 분석하여 모음 및 자음 파형 모형에 대하여 특정 구간의 특징적인 부분을 추출하고 구간을 설정할 수 있다. 추출한 특징적인 구간을 가지고 음성데이터 분석 및 비교가 가능해진다. 여기서, 파형은, 시간축을 X로 하고 음압을 Y축으로 하는 그래프일 수도 있고, 이를 주파수축을 X축으로 하고 스펙트럼 진폭을 Y로 하는 그래프로 변환하여 비교할 수도 있다.
이 외에도, HMM(hidden markov model)과 TDNN(Time-Delay Neural Network)를 이용할 수 있는데, HMM은 음운, 단어와 같은 인식하고자 하는 음성의 단위를 통계적으로 모델화한 것으로, 기준 패턴이 되는 단어 중에서 테스트 패턴과의 유사도를 계산하여 그 중 가장 비슷한 단어로 인식하는 개념이다. HMM으로 음소를 인식하는 과정은 다음과 같다. 먼저 미지의 입력 음성으로부터 전처리를 한 후, 입력 음성의 특징 파라미터를 추출한다. Viterbi 알고리즘을 이용하여 각 기준음소 HMM에서 입력 음성의 관측 확률을 계산하여, 가장 높은 관측확률을 나타내는 HMM의 음소로 인식하게 된다. 높은 정확도를 위하여, 미리 방대한 양의 학습을 필요로 할 수 있고, 확률 모델을 이용하여 인식 과정에 약간의 딜레이는 존재할 수 있다.
TDNN은 음운 식별용 신경망으로 화자종속 음운 인식에 있어서 매우 높은 인식률을 나타내는 시스템이다. TDNN 구조를 이용한 한국어 음소 인식 시스템은 자음/모음 인식기, 자음그룹 인식기와 모음그룹 인식기, 각 음소 그룹에서의 음소인식기를 포함할 수 있다. 각각의 인식기는 TDNN으로 구성되고, 연속 단어 화자 독립이나 실시간처리가 아니며 모음의 인식률이 80%정도로 HMM에 비해 낮을 수 있다. 또한, 음소를 기본 단위로 하는 음성 인식에는 음소 ‘ㅅ’, ‘ㅈ’, ‘ㅊ’ 인식 방법이 존재하는데, 이는 부호 분포 변동성이라는 지표를 활용하여, 기존의 영교차율(ZCR) 방법에 비해 에러율을 크게 감소시킬 수 있다.
상술한 음성 파형 분석 이외에도, 사용자가 발화한 음성을 분석하기 위해서는 음성 인식 과정이 더 필요하다. 먼저 사용자 단말(100)에서 사용자의 음성을 입력으로 받고, 사용자 단말(100) 내부에서 이미 훈련되어 있는 음성인식 모델을 사용하여 입력 음성을 인식하고 텍스트로 변환한다. 이렇게 변환된 텍스트를 최종 출력으로 가지게 된다. 이때 사용하는 음성 인식 모델은 다양한 구조를 가질 수 있지만, 본 발명의 일 실시예에 따른 구조는 다음과 같다. 입력 음성이 특징 추출(Feature extraction), 음향 모델(Acoustic model) 그리고 언어 모델(Language model)을 거쳐 최종적으로 단어열로 인식하게 된다. 특징 추출에서는 입력 음성을 짧은 시간 단위인 프레임(Frame)으로 자르고 매 프레임마다 MFCC(Mel-Frequency Cepstral Coefficients), 필터 뱅크(Filter bank) 등의 방법을 이용하여 수십 차원의 특징 벡터를 추출하여 음향 모델에 넘겨준다. 음향 모델은 입력으로 받은 특징 벡터를 음소(Phoneme)로 인식하는 역할을 한다. 음향 모델은 가우시안 혼합 모델 기반 은식 마르코프 모델(Gaussian Mixture Model based Hidden Markov Model, GMM-HMM) 등을 사용할 수 있다. 음향 모델이 입력 음성으로부터 음소열을 인식한 후에는, 언어 모델이 음소열을 단어열로 변환하는 역할을 수행한다. 이러한 언어 모델은 N-gram 등을 사용할 수 있다.
이때, 심층신경망(Deep Neural Network, DNN) 알고리즘이 이용될 수도 있는데, 음성인식 모델에 신경망을 적용한 하이브리드 모델이 적용될 수도 있다. 음향 모델의 경우 GMM-HMM 모델에서 GMM의 역할을 DNN으로 대체한 DNN-HMM 하이브리드 모델을 이용할 수도 있으며, DNN을 개선하여 CNN(Convolutional Neural Network)나 RNN(Recurrent Neural Network)를 사용한 모델을 이용할 수도 있다. 첫 번째 단계에서는 음성 파형을 비교하여 엑센트나 음압 억양과 같은 발음의 유사성에 기초했다면, 두 번째 단계에서는 인식된 문장이나 단어가 기 저장된 텍스트와 동일한지를 비교하는 단계로 뜻이 맞는지를 확인하는 과정을 거칠 수 있다. 물론, 상술한 것들로 한정되지 않으며 다양한 종류의 알고리즘이나 모델이 이용될 수 있음은 물론이라 할 것이다.
AI부(350)는, 음악의 가사분석정보(KLAI, Korean Lyrics Analysis Information)와 드라마 및 영화의 대사분석정보(KDAI, Korean Dialog Analysis Information)를 수집하는 AI(Artificial Intelligence) 봇(Bot)을 이용하여 콘텐츠 내 한국어를 시간에 동기화되도록 추출 및 각 프레임에 매핑할 수 있다. 이때, 봇 또는 매크로는 사람이 일일이 하기에는 방대하면서도 단순한 작업을 수행하는 AI인데, 각 자막 텍스트를 모으도록 하거나 또는 분석정보를 수집하도록 프로그래밍을 시켜놓으면 이를 수집하고 분석할 수 있다. 여기서, 지상파 DTV(Digital TV)가 시작되면서 자막 데이터가 지상파에서도 디지털 데이터로 송신되기 시작했는데, 이를 이용하여 자막을 싱크에 맞게 데이터베이스화할 수도 있고, 또는 적어도 하나의 사용자 단말(100)에서 자막과 싱크 및 모국어 해석까지 모두 맞춰놓은 SAMI(Syncronized Accessible Media Interchange) 파일을 수집하고, 이를 음악, 영화 및 드라마에 싱크를 시키는 방법을 이용할 수도 있다. 이때, SAMI 표준이 아니더라도 국제표준이 변경되는 경우 변경된 국제표준파일을 이용할 수 있음은 물론이라 할 것이다.
전자의 경우, 지상파 DTV 방송 스트리밍의 전송단위인 MPEG-2 Transport Stream이며, PSIP(Program and System Information Protocol) 표준규격과 국내의 DTV 자막방송 표준규격을 참고하여 자막의 추출과 해석을 수행할 수 있다. Caption Service Descriptor(이하 CSD) 해석을 설명한다. 자막의 추출에 앞서 CSD는 PSIP의 PMT(Program Map Table) 또는 EIT(Event Information Table)에 존재하는 서술자(Descriptor)로서, 자막의 유형과 속성을 기술한다. 언어는 자막에 존재하는 3Byte 코드이고 각 언어의 코드는 ISO 639.2/B에 정의되어 있으며, 한국어의 경우 KOR로 표기한다. Korean_Code는 자막 언어가 한글인 경우 완성형(0)인지 유니코드(1)인지를 표현한다. 그 밖의 모든 필드에 대한 분석이 완료되면, 이후에 전송되는 자막을 CSD의 정보에 따라서 해석할 수 있다.
그 다음 MPEG-2 TS 비디오 스트림 추출 과정을 설명한다. 디지털방송의 전송규격인 MPEG-2 Systems에 정의되어 있는 TS(Transport Stream)는 188Byte 단위의 패킷 구조로 되어 있으며, 패킷 헤더의 식별자(Packet Identifier, PID)를 통하여 해당 TS의 페이로드(Payload)가 어떤 데이터인지를 알 수 있다. 이때, 페이로드는, 비디오, 오디오 등을 구분한다. DTV 방송 자막은 비디오 스트림 내의 Picture user data 구문에 포함되어 있으므로 MPEG-2 TS 비디오 스트림의 추출이 필요하다. 비디오 스트림의 추출은 PAT(Program Association Table)와 PMT의 해석에 의해서 비디오 스트림의 PID를 얻어냄으로써 수행될 수 있다. 이 밖에 설명되지 않은 사항은 MPEG-2 Systems의 표준을 참조하기로 한다.
자막 데이터 추출 과정을 설명한다. 추출된 비디오 스트림은 PES(Packetized Elementary Stream)로 구성되어 있으며, 자막 데이터는 PES 내의 Picture user data에 cc_data() 필드로 정의되어 있다. cc_data() 필드 중 cc_data_1과 cc_data_2는 자막 데이터의 첫 번째 byte와 두 번째 byte를 나타내며, cc_count의 개수만큼 자막 데이터를 구성할 수 있다. 위의 과정을 통하여 구성된 자막 데이터는 패킷 계층에 해당한다. 이후에 뒤따르는 서비스 계층, 코딩 계층 그리고 해석 계층의 분석을 통하여 최종적인 자막 데이터와 자막의 구성 정보를 얻을 수 있다.
그 다음 SAMI 파일 생성 과정을 설명한다. DTV 방송으로부터 추출된 자막 데이터는 SAMI 파일로 변환될 수 있다. SAMI 파일 생성을 위해서는 재생되는 영상과 동기화 시간(Sync Time, ST)과 각 ST에 재생되는 자막의 적절한 배치가 중요하다. 이하의 과정을 통하여 결정된 ST와 연결된 자막은 자막파일(*.smi)의 생성을 위하여 SAMI 파일 규격이 적용될 수 있다.
첫 번째로 동기화 시간을 계산하는 과정이다. SAMI 파일구조에는 기본적으로 자막이 재생되는 밀리세컨드(Milisecond) 단위의 동기화 시간 정보가 포함된다. DTV 방송의 자막 데이터가 비디오 스트림에 포함되어 있기 때문에 비디오 스트림 PES의 헤더에 포함되어 있는 PTS(Presentation Time Stamp)를 SAMI 파일의 자막재생시간 정보로 이용할 수 있다. PTS는 PES의 헤더에 위치되어 있는 33bit의 필드로 PES의 재생시간을 나타낸다. 단위는 시스템 클록 주파수 단위이며, SAMI 파일의 동기화 시간 단위로 환산하기 위해서는 ST=(PTS/90)-(PTSstart/90)을 이용할 수 있다. PTS를 초단위로 환산하기 위해서는 90kHz로 나누는 연산이 필요하지만, 90kHz로 나누면 초단위의 값이 계산되기 때문에 SAMI의 ms 단위 값을 얻기 위해서는 PTS를 90Hz로 나눈다. PTSstart는 첫 번째 PES 헤더의 PTS를 의미한다. PES는 PTS의 순서대로 항상 전송 및 저장된다는 보장이 없기 때문에 비디오 스트렘의 각 PES에서 추출된 자막에 대응하는 ST는 오름차순으로 정렬되어야 한다.
두 번째는 자막의 연결 및 배치 과정을 설명한다. 추출된 자막을 완전한 단어나 문장의 형태로 배열하기 위해서는 상황에 따라서 다수의 PES에서 추출된 자막을 문장단위 또는 일정 길이로 연결하는 작업이 필요하다. TV 화면에 나타나는 자막의 행이나 열의 수를 결정하기 위한 기준의 하나로, DTV 방송 자막 표준의 해석계층에 정의되어 있는 Command Description 중 하나, 즉 DefineWindow를 이용할 수 있다. DefineWindow Command Descrption의 row count와 column count는 각각 화면에 나타나는 행과 열의 수를 나타내며, row lock과 column lock은 row/column count에서 명시된 값을 화면 출력시에 고정된 값으로 사용하는지 여부를 나타낸다. row/column lock의 값이 yes(1)로 설정된 경우 명시된 row/column count에 맞춰서 화면에 자막이 재생되어야 하지만, no(0)로 설정된 경우 row/column count의 값이 화면 재생시에 절대적이지 않다. row/column lock이 no(0)로 설정된 경우만을 고려하여 이때 row/column count는 각 ST에 자막이 배치되는 최대 길이를 기준으로 이용할 수 있다.
여기서, 기준은 문장 단위로 자막을 연결하고 문장의 마침을 뜻하는 특수문자(.,?,!)는 한 문장의 끝으로 인식하고, 하나의 ST에 해당하는 자막의 최대길이가 row count x column count를 넘지 않도록 하는 것으로 설정할 수 있으나 이에 한정되는 것은 아니다. 특수문자는 자막에 따라서 Caption Service Descriptor의 korean_code 필드에 명시된 한글자막의 종류(완성형 또는 유니코드)와 다르게 1byte의 ASCII 코드일 수도 있으므로 이를 고려하는 인자를 더 넣을 수도 있다. 자막 연결의 과정을 거치면 ST도 하나의 연결된 자막에 다수가 존재하게 된다. 이때, 연결된 자막에서 첫 번째 자막의 ST를 최종 ST로 결정할 수 있다. 이 과정을 통하여 콘텐츠 공급 서버(400)로부터 직접 메타데이터와 자막 파일을 받지 않아도 또는 다른 사용자 단말(100)로부터 자막 파일을 받지 않아도 DTV 서비스를 통하여 공급되는 자막 데이터를 이용하여 자체적으로 자막 파일을 만들고 싱크를 맞추며 배열까지 할 수 있다. 음악이나 영화와 같은 경우에는 자막 데이터가 함께 오는 경우도 많지만, 대부분 스트리밍 사용권을 획득한 회사에서 자체적으로 인력을 사용(넷플릭스는 자체 자막팀 인력이 별도로 작업)하거나 고객의 참여로 자막 서비스가 되는 경우가 많기 때문에 DTV를 이용하여 공중파로 중계되는 자막을 얻어 데이터베이스화되는 경우, 이후 예능 프로그램이나 토크쇼와 같은 프로그램의 스트리밍권을 얻었을 때 별도로 자막 파일에 대한 수수료를 지불하지 않고도 자체적으로 자막 서비스를 제공할 수 있게 된다. 물론, 자동으로 자막을 생성한 경우일지라도 자체 인력으로 다시 검수를 하게 하거나 최종적으로 업로드하기 이전에 검수 과정은 사람이 할 수도 있다. 하지만, 처음부터 모두 싱크를 맞추고 자막을 배열하는 과정을 사람이 하고 검수를 하는 것보다는, 자동으로 싱크 및 배열된 자막을 검수하는 작업은 초기부터 작업을 하는 것보다는 시간 낭비를 줄일 수 있다.
SNS부(360)는, 사용자 단말(100)은 복수인 경우, 복수의 사용자 단말(100) 간 커뮤니케이션을 위한 페이지를 제공할 수 있다. 이때, 사용자가 복수라는 뜻은 한 명의 사용자가 여러 대의 디바이스를 가지고 있다는 뜻이 아니라, 여러 명의 사용자(서로 다른 주체)가 존재하는 것을 의미한다. 이때, 세계공용어는 영어이긴 하지만, 영어를 제외한 나머지 언어를 사용하여 댓글을 쓰거나 의견을 쓸 때에는, 동일한 드라마에 달린 댓글을 실제로 "공유"할 수 없게 되어 다국어로 표현된 사이트에 대한 텍스트 분석도 가능하지 않다. 어느 나라에서 한국 드라마나 음악 등이 인기가 있고, 어느 나라에서는 어느 부분이 그 문화에 거부반응을 보이는지는, 앞으로 어떠한 종류의 콘텐츠를 어떠한 나라에 스트리밍할 것인지를 결정하는 중요한 요소가 된다.
다언어 감성분석을 위하여 다양한 언어의 댓글 등에 대해 우선 단일 언어로 번역한 후 번역된 텍스트로 분석하는 것인데, 번역 알고리즘을 사용하여 한 가지 언어로 통일시키는 경우, 두 언어에 관련된 배경이나 문화가 차이가 있고, 쓰는 방식(Writing Style)이나 사용되는 언어학적 어휘(Linguistic Term)이 다르기 때문에 번역을 한다고 해도 원 문서에 있는 모든 단어나 문법을 정확히 표현할 수 없다. 즉, 번역 과정에서 단어의 뜻이 달라지는 경우가 있어 감성의 미묘한 왜곡이 될 수 있다. 그러므로 언어의 번역과정에서 일어나는 극성치의 변경 현상을 최소화하는 방법이 필요하다. 따라서 본 발명의 일 실시예는 다중 언어로 수집되는 텍스트를 번역하지 않고, 해당 언어별로 텍스트를 분리한 다음 각각 감성분석을 진행하고, 나중에 각각의 극성치를 종합하는 방법으로 각 나라의 반응을 분석하는 구성을 더 추가할 수 있다.
다중언어 감성분석을 위한 방법은 크게 3단계로 구성될 수 있다. 우선 감성분석을 하고자 하는 문장을 입력받으면 그 문장을 단어 단위로 쪼갠 후 형태소 분석기를 통해 각 단어의 형태소를 판단하고, 형태소 중 명사, 동사, 형용사, 부사의 개수를 센다. 특히 한글의 경우 단어구성이 중 외국어와 다르기 때문에 한글은 명사, 동사, 형용사, 부사 외에 어근도 추가하여 센다. 또한 이모티콘의 감성값이 긍정 혹은 부정이면 이모티콘의 개수를 센다. 이와 같이 개수의 합을 한국어는 ∑Wk(korean), 외국어는 ∑Wf(foreign language), 이모티콘은 ∑Ec로 표현한다. 여기서, Wf는 외국어 전체를 뜻하는 것이 아니라, 특정 외국어를 의미한다. 예를 들어, 독일어일 수도 있고, 불어일 수도 있으며, 외국어의 갯수가 늘어나면 이 수도 함께 늘어나되, 각 외국어별로 개별처리된다. 예를 들어, 중국어와 영어가 포함된 댓글이라면 ∑Wc(Chinese), ∑We(English)로 구분될 수 있다.
두 번째 단계에서는 감성사전을 통한 감성분석을 진행한다. 만약 분리된 단어가 감성사전에 속해 있는 단어이면, 감성사전 중의 감성점수로 그 단어의 감성값을 반영한다. 이는 Sj=S(Wj)(Wj∈∑SDW)로 표현할 수 있다. Sj는 특정 단어의 감성점수, Wj는 다중 언어로 구성된 구절을 Segmentation과정을 거쳐서 얻은 특정단어이며 SDW는 감성사전에 포함되어 있는 감성단어이다. 상술한 수학식을 통하여 특정단어가 감성사전 속 단어에 포함되어 있지 않는 조건을 만족하는 경우에는 특정단어의 감성점수 Sj값은 0이 되는 것도 도출가능하다.
마지막으로 언어별로 얻은 총 감성점수를 명사, 동사, 형용사, 부사, 어근(한국어의 경우에만 해당) 및 긍정과 부정 감성값이 존재하는 이모티콘 개수(이모티콘의 경우에만 해당)의 합으로 나눈 후 나온 결과와 각 언어에서 할당된 가중치를 반영하여 최종 얻고자 하는 다중언어 감성점수를 구하게 된다. 이는 이하 수학식 1과 같이 계산될 수 있다.
Figure 112020056582956-pat00001
Wf는 외국어가 전체 다중언어에 차지하는 가중치, Wk는 한국어가 차지하는 가중치이며 We는 이모티콘이 차지하는 가중치이다. Sf는 감성분석을 하고자 하는 모든 외국어의 감성점수 Sj의 합이고, Sk는 외국어와 마찬가지로 모든 한국어 감성점수 Sj의 합이며, Se는 모든 이모티콘의 감성점수 Sj의 합이다. S는 마지막 우리가 얻고자 하는 다중언어의 감성점수이다. 이를 통하여, 어떠한 음악, 영화 및 드라마나 쇼 등에 좋은 감성이 달렸는지, 외국인들의 감정(피드백)은 어떠한지를 번역의 오역없이 추출해낼 수 있다. 또, 해당 댓글이 달린 음악이나 영화의 시간을 추출함으로써 어떠한 장면이나 멜로디가 그 국가에서 좋은 반응을 얻었는지도 확인할 수 있다.
쇼핑몰부(370)는, 콘텐츠의 메타데이터 내 적어도 하나의 상품의 정보를 표시하고, 적어도 하나의 상품을 판매하는 적어도 하나의 쇼핑몰 서버(미도시)와 연결시킬 수 있다. 각종 메타데이터(Metadata)를 통하여 각 프레임마다 어떤 배우나 가수가 입고 나온 옷이나 귀걸이 화장품 등을 IPTV 서비스나 VOD 서비스를 실시하면서 통신사 3사에서는 이에 대한 정보를 이미 제공하고 있다. 이에 따라, 쇼핑몰부(370)는, 메타데이터를 리딩 및 추출함으로써 어떠한 상품을 어디에서 판매하고 있는지를 확인하고, 이에 대한 쇼핑몰 정보를 제공할 수 있다. 여기서, 제휴 쇼핑몰의 정보만을 제공할 수도 있고, 웹크롤러를 이용하여 해당 정보를 수집하여 링크를 제공하고 이에 대한 수수료를 받는 방식으로 진행할 수도 있다.
이때, 웹 크롤러란 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다. 웹 크롤러가 하는 작업을 웹크롤링(WebCrawling) 혹은 스파이더링(Spidering)이라 부르며 봇이나 소프트웨어 에이전트의 한 형태이다. 웹 크롤러는 크게 일반 웹크롤러와 분산 웹 크롤러가 있다. 웹 크롤러의 기본 동작을 설명하면, 우선 URL 프론티어(Frontier) 모듈에서 URL을 가져와 HTTP 프로토콜을 사용해 해당 URL의 웹 페이지를 가져오는 것으로 시작한다. 그런 다음 패치(Fetch) 모듈에서 임시 저장소에 웹 페이지를 저장하고, 파서(Parser) 모듈에서 텍스트와 링크를 추출을 하고 텍스트는 인덱서(Indexer)에 보내진다. 링크의 경우는 URL 프론티어에 추가되어야 하는지에 대해 Content Seen, URL Filter, Duplication URL Element 모듈들을 거치면서 판단하게 된다.이때, 웹 문서를 전부를 일반 웹 크롤러로 크롤링 한다는 것은 사실상 불가능하기 때문에 분산 웹 크롤러를 더 사용할 수 있다.
분산 웹 크롤러는 크게 2가지로 나누어지는데 그 중 하나가 중앙 집중식(Centralized) 방식이고 다른 하나는 P2P(or Fully-Distributed) 방식이다. 중앙 집중식 분산 웹 크롤러는 URL 매니저가 서버와 같은 역을 수행하고, 크롤러가 클라이언트 역을 하는 구조이다. 크롤러에서 문서를 다운로드 받고 아웃링크(OutLink) URL을 추출하여 URL 매니저에게 넘겨주면 URL 매니저는 다운로드 받은 문서의 URL인지 검사하여 URL 중복을 제거를 한다. 즉 일반 웹 크롤러에서 URL 중복과 URL 관리를 하는 부분을 URL 매니저가 대신 해 주는 것이다. 한편, P2P 방식은 각 Crawler가 완전 독립적인 구조를 가진다. P2P 방식은 각각의 크롤러가 일반 웹 크롤러처럼 동작을 한다. 각각의 크롤러는 문서를 다운로드 받고 OutLink URL을추출하고 URL 중복제거까지 모두 각각의 크롤러가 독립적으로 동작한다. 이렇게 하기 위해서는 각각의 크롤러에서 관리하는 다운로드 받은 URL 목록은 서로 배타적이어야 한다. 그렇지 않으면 서로 다른 크롤러에서 같은 문서를 다운로드 받는 현상이 발생할 것이다. 이것을 해결하는 방법으로 각각의 크롤러는 다운로드 받을 URL 도메인(Domain)을 서로 배타적으로 나눠서 관리할 수 있다. 즉, 자신이 다운로드 도메인에 속하는 것만 관리하고 나머지 URL은 다른 크롤러에게 넘기는 방법인데, 이러한 방법을 이용하는 경우 각각의 크롤러가 독립적으로 동작할 수 있다.
그 다음은 웹 콘텐츠를 추출해야 하는데, 웹 콘텐츠 추출 기술은 웹 문서로부터 정보 분석에 활용될 콘텐츠인 리셀 상품의 상품명, 작성자, 게시일, 본문, 본문 내 상세정보 등을 자동으로 추출하는 기능을 제공한다. 웹 콘텐츠 추출 시스템은 콘텐츠를 추출하는 규칙을 자동 생산해 콘텐츠만을 추출하는 장치로 콘텐츠 추출 규칙을 자동 생성하는 규칙 생성기(Rule Generator), 주어진 웹 문서에서 내비게이션 콘텐츠를 제거하는 네비게이션 콘텐츠 제거기(Navigation Content Eliminator), 콘텐츠 추출 규칙 키워드 유사도 비교를 통해 콘텐츠를 추출하는 콘텐츠 추출기(Core Context Extractor)로 구성될 수 있다.
이하, 상술한 도 2의 플랫폼 서비스 제공 서버의 구성에 따른 동작 과정을 도 3 및 도 4를 예로 들어 상세히 설명하기로 한다. 다만, 실시예는 본 발명의 다양한 실시예 중 어느 하나일 뿐, 이에 한정되지 않음은 자명하다 할 것이다.
도 3a를 참조하면, 본 발명의 일 실시예에 따르면, 한류 콘텐츠(K-POP, 드라마, 영화)를 K-Talk 한글 학습 솔루션 기능과 동기화하여 K-POP의 가사, 그리고 드라마나 영화의 대사의 한글을 의미 전달(소통 언어) 및 반복적인 학습을 통해 한글을 배울 수 있도록 한다. 학습 솔루션 기능을 위한 주요 기술은 가사나 대사의 문장을 음성으로 변환하여 한글 텍스트를 학습할 수 있는 고음질의 44khZ의 음성합성(TTS,Text to Speech) 기술과 한글 발음 교정을 도와주는 음성인식(SR, Speech Recognition) 학습 기능을 적용하고, 저작권 보호 및 콘텐츠의 다양성 및 활성화를 위해 멀티미디어 콘텐츠 동기화 편집기를 무상으로 배포하여 사용자 참여를 적극적 유도함으로써 제품의 자율적 확장성을 제공할 수 있다.
또, 본 발명의 일 실시예는, 콘텐츠의 가사분석정보(KLAI, Korean Lyrics Analysis Information) 및 대사분석정보(KDAI, Korean Dialog Analysis Information) 수집 로봇을 제공할 수 있다. 수집된 정보는 매칭 시스템을 통해 콘텐츠와 연동, 온라인 및 오프라인의 멀티미디어 콘텐츠 재생 애플리케이션에서 이용도 분석, 선호도 분석, 매칭 정확도 분석을 통해 한글 학습을 효과적으로 제공할 수 있다. 이를 위하여, 본 발명의 일 실시예는, 고음질의 음성합성 기술에 의한 콘텐츠 매칭 및 동기화 기능, 음성인식 기술에 의한 한국어 발음 교정 및 학습 기능, KLAI/KDAI 사용자 편집기능 및 배포 시스템, 보유 콘텐츠(K-POP, 드라마, 영화)의 온라인 KLAI/KDAI 데이터 정보수집 로봇 기능, 이용도 분석, 선호도 분석, 매칭 정확도 분석을 통한 콘텐츠 이용 통계 기능, KLAI/KDAI 재생에서의 키워드 및 단어/문장 검색에 의한 콘텐츠 연동 재생 기능, 콘텐츠와 KLAI/KDAI 연동 서비스에 대한 댓글 및 조회, 선호도(좋아요/나빠요) 기능, 체계적인 한글 학습 및 단계별 학습과정(난이도) 교육 시스템, 한류 콘텐츠 정보 서비스 기능, 글로벌 및 각국 콘텐츠 랭킹정보 수집기술과 SNS 연동 서비스를 제공할 수 있다.
본 발명의 일 실시예에 따른 서비스 플랫폼으로는, 인터넷 웹(MS Explorer, Edge /Google Chrome /Apple Web Browser 등), 모바일 및 태블릿 PC(Google Android /Apple iOS), 사용자 PC 애플리케이션(콘텐츠 플레이어 및 한글 학습 프로그램, KLAI/KDAI 제작 프로그램) 등을 이용할 수 있으나, 나열된 것에 한정되지 않으며 열거되지 않은 이유로 배제되지 않는다.
도 3b를 참조하면, KSR(Korean Speech Recognize)에 의한 한국어 발음 교정 및 한국어 학습 인식을 수행하고, KLAI/KDAI 생성을 위한 콘텐츠 매칭 및 동기화 분석 편집기를 이용하며, K-Talk 전용 플레이어(음원, 뮤직비디오, 드라마, 영화) 및 콘텐츠 한글 학습기를 이용하고, 한류 콘텐츠와 KLAI/KDAI 연동 재생을 시키며, 이용도 분석, 선호도 분석, 매칭 정확도 분석기술에 기반하여 사용자가 원하는 콘텐츠를 제공할 수 있도록 한다.
도 3c 및 도 3d를 참조하면, 한류 비즈니스의 성공 요인으로서 날로 성장하고 진화하는 한류 팬들의 정확한 필요(Needs)를 파악하고 한류팬의 언어소통장애로 인한 갈증을 해소할 수 있으며, 본 발명의 일 실시예에 따른 K-Learn Talk은 한류를 단기적인 트랜드가 아닌 지속적이고 성공적인 문화사업으로 성장시키기 위해 필요한 솔루션이다. 도 3e를 참조하면, 본 발명의 한국어 학습 플레이어를 이용하여 콘텐츠도 재생하면서 한국어 공부도 함께 할 수 있으며 어떠한 것을 선호하는지에 대한 사용자 취향을 반영하여 매칭도 해줄 수 있다. 또, 도 3f와 같이 본 발명의 일 실시예에 따른 K-Learn Talk 포털 사이트를 제공하여 한국은 물론, 해외 각국별 서버를 통한 포털 사이트를 구축하여 독립적 운영을 하며, 각국 간 서버의 연계를 통해 콘텐츠 정보 및 서비스, KLAI/KDAI 데이터 공유, 네티즌 커뮤니케이션 등의 상호 교류를 원활히 할 수 있도록 한다. 이때, 기본 서비스 및 독립 서비스의 내용은 이하 표 1과 같다.
공통 제공 서비스(한국 서버 -> 해당국 서버) 독립적 운영 서비스
뉴스 정보
K-Learn Talk 이벤트
콘텐츠 정보 서비스
한글 정보 서비스
유료 쇼핑몰
KLAI/KDAI KTA 인증정보
타 국가 네티즌 커뮤니케이션 데이터
통계정보(차트, 조회수 등)
기타(고객정보, 어플리케이션 등)
뉴스 정보
이벤트 / 공지
콘텐츠 정보 서비스
커뮤니케이션
KLAI/KDAI 자료실
기본적인 서비스 구성은 각국 문화와 트랜드에 맞게 재구성하여 서비스되는 것을 원칙으로 합니다. 기본적 공통사항의 서비스 구성은, 한류 뉴스와 정보 서비스, 한국어 정보 서비스, K-POP 음원 정보 서비스(노래, 뮤직비디오, 랭킹, 앨범, 가수/그룹 소개 등), 한국 영화 정보 서비스(장르별, 신작, 추천영화 등), 한국 드라마 정보 서비스(장르별, 기획작품, 탤런트 소개, 추천드라마 등), 기타 동영상 정보 서비스(연예오락, 다큐 등), KLAI/KDAI 커뮤니티 페이지, 쇼핑몰(K-POP음원, 영화, 드라마 등의 미디어 콘텐츠), 커뮤니케이션(각국 트랜드에 맞는 다양한 게시판, 각국 네티즌 간의 정보교류), 개인정보 맞춤형 서비스 등일 수 있으나 나열된 것들로 한정되지는 않는다.
운영 및 수익구조는, 콘텐츠(K-POP음원, 영화, 드라마 등) 유료 판매와 광고를 통한 수익 구조를 갖고 있지만, K-Talk의 서비스 특성상 이용자의 참여에 의한 서비스로, 이용자에 의해 제작되고 배포되는 KLAI/KDAI 정보 데이터의 수익분배형의 수익 구조가 특징이다. 수익 모델은, 유료 콘텐츠(K-POP 음원, 영화, 드라마 등), 포털 사이트 배너 광고, 노출광고 등, K-Learn Talk Player의 배너광고, KLAI/KDAI 서비스된 콘텐츠 플레이시 시청광고(3 ~ 10초)에 대한 수익분배(최대 10%), KTA(K-Talk Authentication, 정확도/유용도) 인증된 콘텐츠와 유저평가도(조회수, 선호도, 인기도 등)가 높은 콘텐츠를 대상으로 기업광고가 게시되며, 그에 따른 수익의 10%를 제작/배포한 유저에게 지급, KLAI/KDAI 유료 서비스(본사 및 K-Talk 추천 데이터, 유저에 10% 수익분배), 응용 솔루션 등의 기타 수익모델이 포함될 수 있으나 이에 한정되지는 않는다.
도 3f와 같이 본 발명의 일 실시예에 따른 한국어 학습 플레이어는, 한류 콘텐츠 플레이어 및 콘텐츠를 통해 한글을 배우는 한글 학습기를 포함할 수 있다. 도 4a 내지 도 4f는 본 발명의 일 실시예에 따른 한국어 학습 플레이어의 일 실시예 화면이고, 도 4a는 한국어 학습 플레이어의 메인 화면, 도 4b는 메뉴의 구성 및 미디어 화면을 도시하고, 도 4c는 K-POP 구성과 플레이어 팝업 메뉴, 도 4d는 KLAI의 기능, 도 4e는 BBS 기능, 도 4f는 음성 출력 및 한국어 듣기 연습 화면이다. 도 4g는 본 발명의 일 실시예에 따른 한국어 학습 플레이어의 특징인 발음비교분석, 발음교정, 학습결과확인, 반복학습 및 시나리오 기반의 한국어학습을 도시하고, 도 4h는 단계별로 어떠한 방식으로 학습이 진행되어 가는지를 도시한다. 물론, 각 단계는 변경될 수도 있고 삭제, 추가 등의 실시예 변경도 가능함은 물론이다.
이와 같은 도 2 내지 도 4의 지능형 한국 문화 플랫폼 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1을 통해 지능형 한국 문화 플랫폼 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 5는 본 발명의 일 실시예에 따른 도 1의 지능형 한국 문화 플랫폼 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다. 이하, 도 5를 통해 각 구성들 상호간에 데이터가 송수신되는 과정의 일 예를 설명할 것이나, 이와 같은 실시예로 본원이 한정 해석되는 것은 아니며, 앞서 설명한 다양한 실시예들에 따라 도 5에 도시된 데이터가 송수신되는 과정이 변경될 수 있음은 기술분야에 속하는 당업자에게 자명하다.
도 5를 참조하면, 플랫폼 서비스 제공 서버는, 한국어 학습 플레이어를 제공하고, 한국어 학습 플레이어 내에 적어도 하나의 종류의 음악, 드라마 및 영화를 콘텐츠 제공 서버로부터 수신하여 업로드한다(S5100).
그리고, 플랫폼 서비스 제공 서버는, 사용자 단말에서 모국어를 선택하는 경우 사용자 단말과 모국어를 매핑하여 저장하고(S5200), 사용자 단말에서 콘텐츠가 출력되는 경우, 모국어의 모국어 텍스트와 한국어 텍스트를 싱크에 맞도록 출력되도록 제어한다(S5300).
마지막으로, 플랫폼 서비스 제공 서버는, 사용자 단말에서 음성인식으로 사용자의 음성발화가 입력되는 경우 콘텐츠 내 음성발화와 비교한 결과를 사용자 단말로 전송한다(S5400).
상술한 단계들(S5100~S5400)간의 순서는 예시일 뿐, 이에 한정되지 않는다. 즉, 상술한 단계들(S5100~S5400)간의 순서는 상호 변동될 수 있으며, 이중 일부 단계들은 동시에 실행되거나 삭제될 수도 있다.
이와 같은 도 5의 지능형 한국 문화 플랫폼 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 4를 통해 지능형 한국 문화 플랫폼 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 5를 통해 설명된 일 실시예에 따른 지능형 한국 문화 플랫폼 서비스 제공 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 일 실시예에 따른 지능형 한국 문화 플랫폼 서비스 제공 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 지능형 한국 문화 플랫폼 서비스 제공 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (7)

  1. 한국어 학습 플레이어를 설치 및 구동하고, 음악, 드라마 및 영화를 포함하는 콘텐츠 중 어느 하나를 선택하여 재생하며, 상기 콘텐츠 내에 포함된 메타데이터 중 한국어 자막을 싱크(Sync)를 맞춰 출력할 때, 상기 싱크에 맞도록 사용자가 설정한 모국어 텍스트와 한국어 텍스트를 출력하고, 사용자의 음성발화가 인식되는 경우, 상기 사용자의 음성발화와 상기 콘텐츠 내 음성발화를 비교평가한 결과를 출력하는 사용자 단말(100); 및
    상기 한국어 학습 플레이어를 제공하고, 상기 한국어 학습 플레이어 내에 적어도 하나의 종류의 음악, 드라마 및 영화를 콘텐츠 제공 서버(400)로부터 수신하여 업로드하는 제공부(310), 상기 사용자 단말(100)에서 모국어를 선택하는 경우 상기 사용자 단말(100)과 모국어를 매핑하여 저장하는 저장부(320), 상기 사용자 단말(100)에서 상기 콘텐츠가 출력되는 경우, 상기 모국어의 모국어 텍스트와 상기 한국어 텍스트를 싱크에 맞도록 출력되도록 제어하는 제어부(330), 상기 사용자 단말(100)에서 음성인식으로 상기 사용자의 음성발화가 입력되는 경우 상기 콘텐츠 내 음성발화와 비교한 결과를 상기 사용자 단말(100)로 전송하는 발음교정부(340)를 포함하는 플랫폼 서비스 제공 서버(300);를 포함하며,
    상기 콘텐츠 내 음성발화는, TTS(Text To Speech) 기반 한국어 합성기를 이용하여 생성된 음성으로 대체가능하고,
    상기 생성된 음성은 여성용 및 남성용이 구분되어 생성되며,
    상기 플랫폼 서비스 제공 서버(300)는, 상기 음악의 가사분석정보(KLAI, Korean Lyrics Analysis Information)와 상기 드라마 및 영화의 대사분석정보(KDAI, Korean Dialog Analysis Information)를 수집하는 AI(Artificial Intelligence) 봇(Bot)을 이용하여 상기 콘텐츠 내 한국어를 시간에 동기화되도록 추출 및 각 프레임에 매핑하는 AI부(350);를 더 포함하고,
    상기 플랫폼 서비스 제공 서버(300)는, 상기 콘텐츠의 메타데이터 내 적어도 하나의 상품의 정보를 표시하고, 상기 적어도 하나의 상품을 판매하는 적어도 하나의 쇼핑몰 서버와 연동시키는 쇼핑몰부(370);를 더 포함하며,
    상기 사용자 단말(100)은 복수이고,
    상기 플랫폼 서비스 제공 서버(300)는,
    복수의 사용자 단말(100) 간 커뮤니케이션을 위한 페이지를 제공하는 SNS부(360);를 더 포함하고,
    상기 SNS부(360)는, 상기 복수의 사용자 단말(100)로부터 상기 커뮤니케이션을 위한 페이지를 통해 복수의 언어인 다중 언어로 수집되는 텍스트를 해당 언어별로 분리한 다음 각 언어별로 감성분석을 진행하고, 각 언어별로 감성분석된 각각의 극성치를 종합하는 방법으로 다중 언어의 반응을 분석하는 다중 언어 감성분석을 이용하며,
    상기 다중 언어 감성분석은 상기 커뮤니케이션을 위한 페이지를 통해, 감성분석을 하고자 하는 문장을 입력받으면 해당 문장을 단어 단위로 구분한 후 형태소 분석기를 통해 각 단어의 형태소를 판단하고, 형태소 중 명사, 동사, 형용사, 부사의 개수를 카운팅하되, 한글은 어근도 추가하여 카운팅하며, 이모티콘의 감성값이 긍정 혹은 부정이면 이모티콘의 개수도 카운팅한 후 개수의 합을 한국어는 ∑Wk(korean), 외국어는 ∑Wf(foreign language), 이모티콘은 ∑Ec로 표현하되, 상기 Wf는 외국어 전체를 의미하는 것이 아니라, 특정 외국어를 의미하는 것인 제1단계와,
    감성사전을 구비하고, 분리된 단어가 감성사전에 속해 있는 단어이면, 감성사전 중의 감성점수로 그 단어의 감성값을 반영하되, Sj=S(Wj)(Wj∈∑SDW)로 표현(여기서, Sj는 특정 단어의 감성점수, Wj는 다중 언어로 구성된 구절을 Segmentation과정을 거쳐서 얻은 특정단어이며, SDW는 감성사전에 포함되어 있는 감성단어이다.)하며, 분리된 단어가 감성사전 속 단어에 포함되어 있지 않는 조건을 만족하는 경우에는 특정단어의 감성점수 Sj값은 0이 되는 것으로 도출하는 제2단계와,
    분리된 단어별로 얻은 총 감성점수를 명사, 동사, 형용사, 부사, 어근(한국어의 경우에만 해당) 및 긍정과 부정 감성값이 존재하는 이모티콘 개수(이모티콘의 경우에만 해당)의 합으로 나눈 후 나온 결과와 각 언어에서 할당된 가중치를 반영하여 최종 얻고자 하는 다중언어 감성점수를 하기의 수학식 1을 통해 획득하는 제3단계로 이루어진 것을 특징으로 하는 지능형 한국 문화 플랫폼 서비스 제공 시스템.
    [수학식 1]
    Figure 112021034971629-pat00019

    여기서, Wf는 외국어가 전체 다중언어에 차지하는 가중치이고, Wk는 한국어가 차지하는 가중치이며, Sf는 감성분석을 하고자 하는 모든 외국어의 감성점수 Sj의 합이며, Sk는 모든 한국어 감성점수 Sj의 합이며, S는 다중언어의 감성점수이다.
  2. 제 1 항에 있어서,
    상기 발음교정부(340)는,
    상기 콘텐츠 내 음성발화와 상기 사용자의 음성발화 간의 차이를 분석하여, 발음, 엑센트, 억양 및 타이밍의 유사도를 그래프로 시각화하여 출력하는 것을 특징으로 하는 지능형 한국 문화 플랫폼 서비스 제공 시스템.
  3. 삭제
  4. 제 1 항에 있어서,
    상기 콘텐츠 내 음성발화와 상기 사용자의 음성발화 간의 차이는 음성파형 분석에 의해 비교되는 것을 특징으로 하는 지능형 한국 문화 플랫폼 서비스 제공 시스템.
  5. 삭제
  6. 삭제
  7. 삭제
KR1020200066333A 2020-06-02 2020-06-02 지능형 한국 문화 플랫폼 서비스 제공 시스템 KR102261539B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200066333A KR102261539B1 (ko) 2020-06-02 2020-06-02 지능형 한국 문화 플랫폼 서비스 제공 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200066333A KR102261539B1 (ko) 2020-06-02 2020-06-02 지능형 한국 문화 플랫폼 서비스 제공 시스템

Publications (1)

Publication Number Publication Date
KR102261539B1 true KR102261539B1 (ko) 2021-06-07

Family

ID=76374007

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200066333A KR102261539B1 (ko) 2020-06-02 2020-06-02 지능형 한국 문화 플랫폼 서비스 제공 시스템

Country Status (1)

Country Link
KR (1) KR102261539B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490971A (zh) * 2021-12-30 2022-05-13 重庆特斯联智慧科技股份有限公司 基于人机对话交互的机器人控制方法及系统
KR102402884B1 (ko) * 2021-07-20 2022-05-30 (주)아몬드미디어 자동번역 기반 글로벌 온라인 커뮤니티 서비스 제공 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090075051A (ko) * 2008-01-03 2009-07-08 황인도 영어학습을 위한 멀티미디어 컨텐츠 제공방법
KR101429397B1 (ko) * 2013-04-11 2014-08-14 전북대학교산학협력단 소셜 네트워크 서비스의 메시지 분석을 이용한 핵심사건 추출 방법 및 시스템
KR20160122542A (ko) * 2015-04-14 2016-10-24 주식회사 셀바스에이아이 발음 유사도 측정 방법 및 장치
KR20170051759A (ko) * 2015-10-30 2017-05-12 김태정 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
KR20170089103A (ko) * 2016-01-26 2017-08-03 (주)네오팝콘 방송 컨텐츠를 이용한 한국어 교육 제공 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090075051A (ko) * 2008-01-03 2009-07-08 황인도 영어학습을 위한 멀티미디어 컨텐츠 제공방법
KR101429397B1 (ko) * 2013-04-11 2014-08-14 전북대학교산학협력단 소셜 네트워크 서비스의 메시지 분석을 이용한 핵심사건 추출 방법 및 시스템
KR20160122542A (ko) * 2015-04-14 2016-10-24 주식회사 셀바스에이아이 발음 유사도 측정 방법 및 장치
KR20170051759A (ko) * 2015-10-30 2017-05-12 김태정 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
KR20170089103A (ko) * 2016-01-26 2017-08-03 (주)네오팝콘 방송 컨텐츠를 이용한 한국어 교육 제공 시스템 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102402884B1 (ko) * 2021-07-20 2022-05-30 (주)아몬드미디어 자동번역 기반 글로벌 온라인 커뮤니티 서비스 제공 시스템
CN114490971A (zh) * 2021-12-30 2022-05-13 重庆特斯联智慧科技股份有限公司 基于人机对话交互的机器人控制方法及系统
CN114490971B (zh) * 2021-12-30 2024-04-05 重庆特斯联智慧科技股份有限公司 基于人机对话交互的机器人控制方法及系统

Similar Documents

Publication Publication Date Title
KR102018295B1 (ko) 구간 영상 검색 및 제공 장치, 방법 및 컴퓨터-판독가능 매체
US9552807B2 (en) Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
CN101030368B (zh) 在保持情感的同时跨通道进行通信的方法和系统
US20170047060A1 (en) Text-to-speech method and multi-lingual speech synthesizer using the method
US20200166670A1 (en) Personalizing weather forecast
Öktem et al. Prosodic phrase alignment for machine dubbing
US20220092109A1 (en) Method and system for presenting a multimedia stream
KR102261539B1 (ko) 지능형 한국 문화 플랫폼 서비스 제공 시스템
KR102177768B1 (ko) 클라우드 기반 음성결합을 이용한 맞춤형 동영상 제작 서비스 제공 시스템
Pahamzah et al. Translation techniques of subtitling: A case for Trolls movie
Yang et al. An automated analysis and indexing framework for lecture video portal
JP5751627B2 (ja) 音声データ書き起こし用webサイトシステム
CN116092472A (zh) 一种语音合成方法和合成系统
Dahmani et al. Natural Arabic language resources for emotion recognition in Algerian dialect
Öktem et al. Corpora compilation for prosody-informed speech processing
Rakib et al. Ood-speech: A large bengali speech recognition dataset for out-of-distribution benchmarking
US20210264812A1 (en) Language learning system and method
Spolaôr et al. A video indexing and retrieval computational prototype based on transcribed speech
Otake et al. Lexical selection in action: Evidence from spontaneous punning
Coats A pipeline for the large-scale acoustic analysis of streamed content
CN116129868A (zh) 一种结构化画本的生成方法和生成系统
Sannino et al. Lessonable: leveraging deep fakes in MOOC content creation
Adda-Decker Towards multilingual interoperability in automatic speech recognition
Wei et al. MSEVA: A System for Multimodal Short Videos Emotion Visual Analysis
Jin et al. SpeechCraft: A Fine-grained Expressive Speech Dataset with Natural Language Description

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant