KR102084372B1 - 사투리 db를 이용한, 동영상 자막생성을 위한 서버에서의 stt 변환방법 - Google Patents

사투리 db를 이용한, 동영상 자막생성을 위한 서버에서의 stt 변환방법 Download PDF

Info

Publication number
KR102084372B1
KR102084372B1 KR1020190134532A KR20190134532A KR102084372B1 KR 102084372 B1 KR102084372 B1 KR 102084372B1 KR 1020190134532 A KR1020190134532 A KR 1020190134532A KR 20190134532 A KR20190134532 A KR 20190134532A KR 102084372 B1 KR102084372 B1 KR 102084372B1
Authority
KR
South Korea
Prior art keywords
stt
text
dialect
database
subtitle
Prior art date
Application number
KR1020190134532A
Other languages
English (en)
Inventor
이광선
Original Assignee
이광선
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이광선 filed Critical 이광선
Priority to KR1020190134532A priority Critical patent/KR102084372B1/ko
Application granted granted Critical
Publication of KR102084372B1 publication Critical patent/KR102084372B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • G10L15/265
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명에 따른 사투리 데이터베이스를 이용한, 서버에서의 동영상 자막생성을 위한 STT 변환방법은, 사투리 텍스트들과 그에 대응되는 표준어 텍스트들이 매칭된 데이터베이스를 구축하는 단계; 타겟 동영상에 대한 자막제공 요청에 응답하여 STT(Speech To Text) 결과를 획득하는 단계; 상기 STT 결과에 상기 데이터베이스에 저장된 특정 사투리 텍스트가 포함되어 있지 않으면 상기 STT 결과를 상기 타겟 동영상에 대한 자막으로 제공하는 단계; 및 상기 STT 결과에 상기 데이터베이스에 저장된 상기 사투리 텍스트가 포함되어 있으면, 상기 STT 결과에서 상기 특정 사투리 텍스트를 상기 특정 사투리 텍스트에 대응되는 특정 표준어 텍스트로 변환하여 상기 타겟 동영상에 대한 자막으로 제공하는 단계를 포함할 수 있다.

Description

사투리 DB를 이용한, 동영상 자막생성을 위한 서버에서의 STT 변환방법{speech to text translation method for generating subtitle of moving picture in server using dialect database}
본 발명은 STT 변환방법에 관한 것으로, 보다 상세하게는, 사투리 데이터 베이스를 이용하여 동영상에 포함된 음성신호를 분리하여 자막을 생성하기 위한 STT 변환방법에 관한 것이다.
최근 유튜브와 같은 1인 미디어가 급격히 확산되고 있다. 단순히 1인 미디어에 의하여 생성된 컨텐츠는 동영상이 많은 부분을 차지하는데, 동영상에 포함된 음성신호를 자막으로 제공하는 기술에 대한 연구와 관심 역시 크게 증가하고 있다.
동영상의 음성신호를 추출하여 자막을 생성하는 방법은 음성인식(STT: Speech To Text) 결과를 이용하는 것인데, 매우 정교한 데이터베이스와 알고리즘을 이용한다 하더라도 이러한 음성인식에는 적지않은 오류가 발생한다.
이는 외국어 대비 STT에 이용되는 말뭉치가 턱없이 부족한 한글 STT의 경우에는 그 오류 정도가 더 심할 수밖에 없다. 이는 우리나라의 각 지방의 사투리에 대해서는 더욱 그러하다 할 것이다. 특히, 사투리에 대한 오류가 포함된 STT 결과를 외국어로 번역한다면, 그 의미를 파악할 수 없을 정도임이 자명하다.
이에 본 발명이 해결하고자 하는 기술적 과제는, STT 변환을 통하여 동영상의 자막을 생성하되, 미리 구축되어 있는 사투리 데이터베이스를 이용하여 동영상의 사투리 음성신호를 정확한 표준어 자막으로 제공할 수 있는 서버에서의 STT 변환방법을 제공하는 것이다.
본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 사투리 데이터베이스를 이용한, 동영상 자막생성을 위한 서버에서의 STT 변환방법은, 사투리 텍스트들과 그에 대응되는 표준어 텍스트들이 매칭된 데이터베이스를 구축하는 단계; 타겟 동영상에 대한 자막제공 요청에 응답하여 STT(Speech To Text) 결과를 획득하는 단계; 상기 STT 결과에 상기 데이터베이스에 저장된 특정 사투리 텍스트가 포함되어 있지 않으면 상기 STT 결과를 상기 타겟 동영상에 대한 자막으로 제공하는 단계; 및 상기 STT 결과에 상기 데이터베이스에 저장된 상기 사투리 텍스트가 포함되어 있으면, 상기 STT 결과에서 상기 특정 사투리 텍스트를 상기 특정 사투리 텍스트에 대응되는 특정 표준어 텍스트로 변환하여 상기 타겟 동영상에 대한 자막으로 제공하는 단계를 포함할 수 있다.
상기 STT 결과를 획득하는 단계는, 상기 타겟 동영상에 대한 STT 변환을 상기 서버와 연동되는 다른 STT 변환 시스템에 요청하는 단계; 및 상기 다른 STT 변환 시스템으로부터 상기 타겟 동영상에 대한 상기 STT 결과를 수신하는 단계를 포함할 수 있다.
상기 데이터베이스에는, 상기 사투리 텍스트들에 대응되는 샘플 음성신호들이 더 포함되며, 상기 서버에서의 동영상 자막생성을 위한 STT 방법은, 상기 STT 결과에 상기 특정 사투리 텍스트가 포함되어 있으면, 상기 특정 사투리 텍스트에 대응되는 샘플 음성신호와 상기 타겟 동영상의 음성신호에서 상기 특정 사투리 텍스트에 대응되는 타겟 음성신호 파트를 비교하는 단계; 및 상기 비교결과에 기초하여, 상기 STT 결과에서 상기 특정 사투리 텍스트를 상기 특정 표준어 텍스트로 변환할지를 결정하는 단계를 더 포함할 수 있다.
상기 서버에서의 동영상 자막생성을 위한 STT 방법은, 상기 STT 결과에 상기 특정 사투리 텍스트가 포함되어 있으면, 상기 STT 결과에서 상기 특정 사투리 텍스트의 앞 또는 뒤에 적어도 하나의 다른 텍스트를 포함하는 말뭉치에서 상기 특정 사투리 텍스트를 상기 특정 표준어 텍스트로 변환한 타겟 말뭉치를 획득하는 단계; 상기 타겟 말뭉치를 말뭉치 데이터베이스와 비교하는 단계; 및 상기 비교결과에 기초하여, 상기 STT 결과에서 상기 특정 사투리 텍스트를 상기 특정 표준 텍스트로 변환할지를 결정하는 단계를 더 포함할 수 있다.
상기 말뭉치 데이터베이스는, 상기 서버와 연동되는 다른 STT 변환 시스템에 저장되어 있거나, 상기 서버의 상기 데이터베이스에 포함되어 있을 수 있다.
본 발명에 따른 사투리 데이터베이스를 이용한, 동영상 자막생성을 위한 서버에서의 STT 변환방법은 자막제공 서비스를 제공하는 과정에서 사투리 음성신호를 표준어 자막으로 변환하여 제공할 수 있다.
그러므로 본 발명에 따른 사투리 데이터베이스를 이용한, 동영상 자막생성을 위한 서버에서의 STT 변환방법은 사투리 음성신호를 포함하는 동영상에 대해서도 번역오류가 매우 낮은 외국어 자막을 제공할 수 있다.
그리고 본 발명에 따른 사투리 데이터베이스를 이용한, 서버에서의 동영상 자막생성을 위한 STT 변환방법은 기본 STT 변환은 다른 STT 변환 시스템을 통하여 수행하게 하고, 사투리를 고려한 오류 감소를 위한 과정만을 수행함으로써 빠르고 효율적인 자막제공 서비스를 제공할 수 있다.
도 1은 본 발명에 따른 사투리 데이터베이스를 이용한, 동영상 자막 제공 서비스 시스템(10)의 구성도이다.
도 2 및 도 3은 본 발명에 따른 사투리 데이터베이스를 이용한, 자막제공 서비스 서버(100)에서의 동영상 자막생성을 위한 STT 변환방법의 일예를 나타내는 흐름도이다.
도 4 및 도 5는 본 발명에 따른 서버에서 제공하는 STT 변환방법을 수행하기 위하여 제공하는 홈페이지의 GUI(Graphic User Interface, 400)를 나타낸다.
도 6은 도 2에 도시된 STT 변환방법에 따라 자막오류 감소에 활용될 사투리 데이터베이스의 일예를 나타낸다.
도 7 내지 도 9는 도 2에 도시된 STT 변환방법에 따라 동영상에 대한 자막생성을 위한 STT 변환이 이루어지는 일예를 설명하기 위한 도면이다.
본 발명과 본 발명의 동작상 또는 기능상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낼 수 있다.
도 1은 본 발명에 따른 사투리 데이터베이스를 이용한, 동영상 자막제공 서비스 시스템(10)의 구성도이다. 도 1을 참조하면 상기 자막제공 서비스 시스템(10)은 자막제공 서비스 서버(100), 사용자 단말기(200) 및 다른 STT 변환 시스템(300)을 포함한다.
상기 자막제공 서비스 서버(100)는 본 발명에 따라 사용자가 요청하는 동영상에 대해 STT 기반으로 자막을 생성하여 제공하되, 이미 구축되어 있는 사투리 데이터베이스화를 활용함으로써, STT 결과를 표준어로 변환하여 제공할 수 있다. 이에 대해서는 향후 도 2 내지 도 9를 참조하여 보다 상세히 살펴본다.
이와 같이, 사투리 음성신호를 표준어로 변환함으로써, 상기 자막제공 서비스 서버(100)는 사투리 음성신호를 포함하는 동영상에 대해서도 오류가 매우 낮은 외국어 자막 서비스를 제공할 수 있다. 예컨대, 상기 자막제공 서비스 서버(100)는 사투리 음성신호를 포함하는 동영상에 대해, 사투리 자막, 상기 사투리 자막에 대응되는 표준어 자막 및 상기 사투리 음성신호에 대응되는 외국어 자막 중 적어도 하나를 제공할 수 있다.
상기 자막제공 서비스 서버(100)의 데이터베이스에는 사투리 텍스트들, 상기 사투리 텍스트들에 대한 표준어 텍스트들, 상기 사투리 텍스트들에 대응되는 샘플 음성신호들 및 말뭉치 데이터베이스 등 사투리 텍스트 관련 정보가 포함될 수 있다.
상기 사용자 단말기(200)는, 상기 자막제공 서비스 서버(100)와 연동되는 장치로, 도 1에서는 PC로 구현되었으나, 본 발명은 이로 한정되지 않으며, 노트북, 테블릿, 스마트폰 등 다른 종류의 다양한 장치로 구현될 수도 있다. 사용자는 상기 사용자 단말기(200)를 이용하여 상기 자막제공 서비스 서버(100)에 접속하여 동영상 자막제공과 관련된 각종 조치를 취할 수 있고, 그에 따른 자막제공 관련 서비스를 제공받을 수 있다.
상기 다른 STT 변환 시스템(300)은 대용량의 말뭉치 데이터베이스를 구축하고 있는 STT 서비스 제공 시스템으로, 상기 자막제공 서비스 서버(100)의 요청에 응답하여 동영상의 음성신호에 대한 STT 결과를 상기 자막제공 서비스 서버(100)로 제공할 수 있다.
상기 자막제공 서비스 서버(100)는 동영상의 음성신호를 추출하여 이에 대한 STT 변환을 상기 다른 STT 변환 시스템(300)을 통하여 수행하게 하고, 그 결과를 수신할 수 있다. 그리고 수신된 결과에 포함된 사투리 텍스트를 상기 데이터베이스에 저장된 사투리 텍스트 관련 정보를 이용하여 표준어로 변환하여 상기 동영상에 대한 표준어 자막을 제공하거나 표준어 자막에 기반하여 번역된 외국어 자막을 제공할 수 있다. 물론, 경우에 따라서 상기 자막제공 서비스 서버(100)는 자체 말뭉치 데이터베이스를 구축하여 자체적으로 동영상의 음성신호에 대한 STT 변환을 수행할 수도 있다.
도 2 및 도 3은 사투리 데이터베이스를 이용한, 본 발명에 따른 자막제공 서비스 서버(100)에서의 동영상 자막생성을 위한 STT 변환방법의 일예를 나타내는 흐름도이다. 도 4 및 도 5는 본 발명에 따른 서버에서 제공하는 STT 변환방법을 수행하기 위하여 제공하는 홈페이지의 GUI(Graphic User Interface, 400)를 나타낸다. 도 6은 도 2에 도시된 STT 변환방법에 따라 자막오류 감소에 활용될 사투리 데이터베이스의 일예를 나타낸다. 도 7 내지 도 9는 도 2에 도시된 STT 변환방법에 따라 동영상에 대한 자막생성을 위한 STT 변환이 이루어지는 일예를 설명하기 위한 도면이다. 이하, 상술한 도면들을 참조하여 본 발명에 따른 STT 변환방법을 상세히 살펴본다.
먼저, 상기 자막제공 서비스 서버(100)에는 자막제공 서비스 과정에서 활용될 사투리 텍스트들, 상기 텍스트들에 대응되는 표준어 텍스트들, 상기 사투리 텍스트들에 대응되는 샘플 음성신호들 및 말뭉치 데이터베이스를 포함하는 데이터베이스가 구축되어 저장된다(S100).
상기 데이터베이스가 구축된 상태에서, 사용자 단말기(200)를 통하여 상기 자막제공 서비스 서버(100)로 타겟 동영상에 대한 자막제공 요청이 수신되면(S110), 상기 자막제공 서비스 서버(100)는 상기 타겟 동영상에 대한 STT 결과를 획득한다(S120).
이때, 상기 타겟 동영상에 대한 STT 변환은 다른 STT 변환 시스템(300)에 의하여 이루어질 수 있다. 예컨대, 상기 자막제공 서비스 서버(100)는 STT 변환을 상기 다른 STT 변환 시스템(300)에 요청하고, 상기 다른 STT 변환 시스템(300)으로 STT 결과를 수신할 수 있다.
여기서, 상기 다른 STT 변환 시스템(300)은 방대한 말뭉치 데이터베이스를 구축하고 있으며 뛰어난 데이터 처리능력을 보유하고 있어, 상기 자막제공 서비스 서버(100)에 비하여 훨씬 빠르게 STT 변환을 수행할 수 있는 시스템일 수 있다. 즉, 상기 자막제공 서비스 서버(100)는 상기 다른 STT 변환 시스템(300)이 STT 변환을 수행케 하고, 자체 보유하고 있는 사투리 데이터베이스를 이용하여 상기 STT 결과에 포함된 사투리 텍스트에 대한 표준어 변환과정만을 수행할 수 있다.
이러한 동영상의 음성신호에 대한 STT 변환과 사투리의 표준화 처리 과정의 이원화를 통하여, 본 발명에 따른 STT 변환방법은 빠르고, 정확하며, 효율적인 자막제공 서비스를 제공할 수 있다. 물론, 상기 자막제공 서비스 서버(100)는 자체 말뭉치 데이터베이스를 이용하여 STT 변환을 수행할 수도 있다.
다시 도 2를 참조하면, 상기 자막제공 서비스 서버(100)는 상기 타겟 동영상에 대한 상기 STT 결과에 특정 사투리 텍스트가 포함되어 있는지를 판단한다(S130). 상기 특정 사투리 텍스트는 상기 데이터베이스에 저장된 복수의 사투리 텍스트 중 하나를 의미한다.
만약, 상기 STT 결과에 상기 특정 사투리 텍스트가 포함되어 있지 않으면, 상기 자막제공 서비스 서버(100)는 상기 STT 결과를 상기 타겟 동영상에 대한 자막으로 제공한다(S140).
이상에서 상술한 내용을 확인하기 위하여, 도 4 및 도 5를 참조하여, 상기 자막제공 서비스 서버(100)에서 제공하는 자막제공 서비스를 위한 GUI(400)의 예를 살펴본다.
도 4는 상기 GUI(400)의 초기상태로, 상기 GUI(400)에는 자막제공 요청의 대상이 되는 동영상에 제공되는 URL을 입력하기 위한 제1 영역(410) 및 자막언어를 선택하기 위한 제2 영역(420)이 포함되는 것을 알 수 있다. 한편, 자막제공 요청을 위한 동영상은 상기 사용자 단말기(200)를 통하여 상기 자막제공 서비스 서버(100)로 제공될 수도 있다.
도 5는 도 4의 상태에서, 사용자가 상기 제1 영역(410)에 자막생성을 위한 동영상의 URL을 입력한 것을 나타낸다. 도 5를 참조하면, 동영상의 URL이 상기 제1 영역(410)에 입력되면, 상기 GUI(400)에는 동영상 재생과정을 보여주는 제3 영역(430)이 추가되며, 영상을 다운로드하거나 음성파일을 다운로드할 수 있는 기능을 수행하기 위한 제4 영역(440)이 추가된다.
도 5에서 사용자가 상기 제2 영역(420)에서 자막언어를 선택하면, 상기 자막제공 서비스 서버(100)는 선택된 언어로 자막을 생성할 수 있다. 예컨대, 동영상의 음성신호가 한국어인데 사용자가 한글을 선택하면 당연히 한글로 자막이 생성되어 제공될 수 있다. 이 경우 상기 자막제공 서비스 서버(100)는 사투리 자막을 표준어 자막으로 변환하여 제공하는 기능을 수행할 수 있다.
그러나 동영상의 음성신호는 한국어인데 사용자가 영어를 선택하면 상기 자막제공 서비스 서버(100)는 한국어 1차 자막을 생성한 다음 이를 영어로 번역한 2차 자막을 제공할 수 있다. 물론, 상기 자막제공 서비스 서버(100)는 영어 자막과 함께 한국어 1차 자막도 사용자에게 제공할 수 있다.
이상에서 상술한 내용을 확인하기 위하여, 도 6을 참조하여, 상기 자막제공 서비스 서버(100)에서 사투리 데이터베이스 구축 방식의 예를 살펴본다.
상기 사투리 관련 데이터베이스에는 다양한 사투리 텍스트(500)와 그에 대응되는 표준어 텍스트(510) 및 상기 사투리 텍스트(500)에 대응되는 샘플 음성 신호(520)가 포함되어 있다. 참고로, 도 6의 데이터베이스는 특정 규칙없이 임의의 사투리 텍스트에 대한 데이터베이스를 예로 든 것이다.
다시 도 2를 참조하면, 상기 STT 결과에 상기 특정 사투리 텍스트가 포함되어 있으면, 상기 자막제공 서비스 서버(100)는 상기 특정 사투리 텍스트에 대응되는 샘플 음성신호와 상기 타겟 동영상의 음성신호에서 상기 특정 사투리 텍스트에 대응되는 타겟 음성신호 파트를 비교하여(S150), 상기 두 음성신호가 유사한지를 판단한다(S160).
상기 두 음성신호가 비유사하다고 판단되면, 상기 자막제공 서비스 서버(100)는 상기 STT 결과를 상기 타겟 동영상에 대한 자막으로 제공한다(S140). 이는 상기 자막제공 서비스 서버(100)가 정확도가 높은 음성신호를 비교를 통하여 상기 특정 사투리 텍스트를 그에 대응되는 사투리 텍스트로 변환하는 것이 바람직하지 않은 것으로 판단하였기 때문이다.
그러나 상기 두 음성신호가 유사하다고 판단되면, 상기 자막제공 서비스 서버(100)는 상기 STT 결과에서 상기 특정 표준어 텍스트가 적용된 타겟 말뭉치를 획득한다(S170). 즉, 상기 타겟 말뭉치는 상기 STT 결과의 상기 특정 사투리 텍스트의 앞 또는 뒤에 적어도 하나의 텍스트를 포함하는 말뭉치에서 상기 특정 사투리 텍스트를 상기 특정 표준어 텍스트로 변환한 말뭉치를 의미한다.
상기 타겟 말뭉치가 획득되면, 상기 자막제공 서비스 서버(100)는 상기 타겟 말뭉치를 말뭉치 데이터베이스와 비교하고(S180), 상기 비교결과에 기초하여 상기 말뭉치가 유효한 것인지를 판단한다(S190).
상기 비교결과 상기 타겟 말뭉치가 유효한 것으로 판단되지 않으면, 상기 자막제공 서비스 서버(100)는 상기 STT 결과를 상기 타겟 동영상에 대한 자막으로 제공한다(S140). 왜냐하면, 상기 타겟 말뭉치는 문맥이나 문법에 맞지 않는 비정상적인 것이어서 상기 STT 결과에 상기 특정 표준어 텍스트를 적용하는 것은 바람직하지 않기 때문이다.
그러나, 상기 비교결과 상기 타겟 말뭉치가 유효한 것으로 판단되면, 상기 자막제공 서비스 서버(100)는 상기 STT 결과에서 상기 특정 사투리 텍스트를 상기 특정 표준어 텍스트로 변환하여 이를 상기 타겟 동영상에 대한 자막으로 제공할 수 있다(S200).
한편, 상기 타겟 말뭉치의 유효성을 판단하기 위하여 비교대상이 되는 말뭉치 데이터베이스는 상기 자막제공 서비스 서버(100)와 연동되는 상기 다른 STT 변환 시스템(300)에 저장되어 있을 수 있다. 이는 상기 다른 STT 변환 시스템(300)은 상기 자막제공 서비스 서버(100)에 비하여 보다 풍부한 말뭉치 데이터베이스를 구축하고 있기 때문에, 상기 다른 STT 변환 시스템(300)의 말뭉치를 활용하면 상기 타겟 말뭉치의 유효성 판단의 정확도를 더 높일 수 있기 때문이다. 물론 상기 타겟 말뭉치의 유효성을 판단하기 위하여 비교대상이 되는 말뭉치 데이터베이스는 상기 자막제공 서비스 서버(100)에 저장되어 있을 수도 있다.
이와 같이, 상기 자막제공 서비스 서버(100)는 상기 타겟 동영상에 대한 STT 결과에 수정이 필요한 텍스트가 있다고 판단되는 경우에도, 그 수정 유무를 판단하기 위하여 음성신호의 비교 및 말뭉치 비교 과정을 추가적으로 수행함으로써 보다 정확한 자막제공 서비스를 수행할 수 있다. 한편, 본 발명에 따른 STT 변환방법에서 이러한 음성신호 비교 및 말뭉치 비교 과정은 선택적 과정일 수도 있다.
이상에서 살펴본 내용과 도 7 내지 도 9를 참조하여, 본 발명에 따른 자막제공 서비스 서버(100)에서 타겟 동영상에 대한 자막생성을 위한 STT 변환이 이루어지는 일예를 살펴본다.
도 7은 타겟 동영상에 대한 STT 결과에 상기 자막제공 서비스 서버(100)의 사투리 관련 데이터베이스에 저장된 특정 사투리 텍스트(500)인 "도팍"이 포함되어 있는 것이 확인되어, 상기 자막제공 서비스 서버(100)는 그에 대응되는 표준어 텍스트(510)인 "돌멩이"를 적용하여 자막을 완성한 것을 나타낸다.
이때, 상기 자막제공 서비스 서버(100)는, 도 8에 도시된 바와 같이, 도 2의 S150 및 S160 단계에 따라, 상기 특정 사투리 텍스트(500)에 대응되는 샘플 음성신호(520)와 상기 타겟 동영상에서 상기 특전 사투리 텍스트(500)에 대응되는 타겟 음선신호 파트(531)를 비교한다. 한편, 상기 자막제공 서비스 서버(100)는 상기 특정 사투리 텍스트(500)를 포함하는 음절의 음성신호(530)에서 조사에 대응되는 부분(532)을 제외하여 상기 타겟 음성신호 파트(531)를 획득할 수 있다.
상기 비교결과, 상기 자막제공 서비스 서버(100)는 상기 두 음성신호 파트가 유사함을 확인하였다. 이를 통하여 상기 STT 결과에 상기 특정 표준어 텍스트(510)를 적용하는 것이 타당함을 1차적으로 검증한 것이다.
그리고, 상기 자막제공 서비스 서버(100)는, 도 9에 도시된 바와 같이, 도 2의 S180 및 S190 단계에 따라, 타겟 말뭉치(540)를 말뭉치 데이터베이스(550)와 비교한다. 상기 비교결과, 상기 자막제공 서비스 서버(100)는 상기 타겟 말뭉치(540)의 유효함을 확인하여 상기 특정 표준어 텍스트(510)가 상기 STT에 적용되는 것이 바람직함을 2차로 검증한 것이다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
10: 동영상 자막 제공 서비스 시스템 100: 자막제공 서비스 서버
200: 사용자 단말기 300: 다른 STT 변환 시스템
400: GUI 500: 특정 사투리 텍스트
510: 특정 표준어 텍스트 520: 샘플 음성신호
530: 타겟 음성신호 파트 540: 타겟 말뭉치
550: 말뭉치 데이터베이스

Claims (6)

  1. 사투리 텍스트들과 그에 대응되는 표준어 텍스트들 및 샘플 음성신호들이 매칭된 데이터베이스를 구축하는 단계;
    타겟 동영상에 대한 자막제공 요청에 응답하여 STT(Speech To Text) 결과를 획득하는 단계;
    상기 STT 결과에 상기 데이터베이스에 저장된 특정 사투리 텍스트가 포함되어 있지 않으면 상기 STT 결과를 상기 타겟 동영상에 대한 자막으로 제공하는 단계;
    상기 STT 결과에 상기 데이터베이스에 저장된 상기 특정 사투리 텍스트가 포함되어 있으면, 상기 특정 사투리 텍스트를 상기 특정 사투리 텍스트에 대응되는 특정 표준어 텍스트로 변환할지를 결정하는 단계; 및
    상기 결정 결과에 기초하여, 상기 STT 결과에서 상기 특정 사투리 텍스트를 상기 특정 표준어 텍스트로 변환하여 상기 타겟 동영상에 대한 자막으로 제공하는 단계를 포함하며,
    상기 특정 사투리 텍스트를 상기 특정 표준어 텍스트로 변환할지를 결정하는 단계는,
    상기 데이터베이스에 저장된 상기 특정 사투리 텍스트에 대응되는 샘플 음성신호와 상기 타겟 동영상의 음성신호에서 상기 특정 사투리 텍스트에 대응되는 타겟 음성신호 파트를 비교하는 단계;
    상기 STT 결과에서 상기 특정 사투리 텍스트의 앞 또는 뒤에 적어도 하나의 다른 텍스트를 포함하는 말뭉치에서 상기 특정 사투리 텍스트를 상기 특정 표준어 텍스트로 변환한 타겟 말뭉치를 획득하고, 상기 타겟 말뭉치를 말뭉치 데이터베이스와 비교하는 단계; 및
    상기 타겟 음성신호 파트에 대한 비교 결과 및 상기 타겟 말뭉치에 대한 비교 결과에 기초하여 상기 특정 사투리 텍스트를 상기 특정 표준어 텍스트로 변환할지를 결정하는 단계를 포함하는, 사투리 데이터베이스를 이용한 서버에서의 동영상 자막생성을 위한 STT 변환방법.
  2. 제1항에 있어서, 상기 STT 결과를 획득하는 단계는,
    상기 타겟 동영상에 대한 STT 변환을 상기 서버와 연동되는 다른 STT 변환 시스템에 요청하는 단계; 및
    상기 다른 STT 변환 시스템으로부터 상기 타겟 동영상에 대한 상기 STT 결과를 수신하는 단계를 포함하는 것을 특징으로 하는, 사투리 데이터베이스를 이용한 서버에서의 동영상 자막생성을 위한 STT 변환방법.
  3. 삭제
  4. 삭제
  5. 제1항에 있어서, 상기 말뭉치 데이터베이스는,
    상기 서버와 연동되는 다른 STT 변환 시스템에 저장되어 있는 것을 특징으로 하는, 사투리 데이터베이스를 이용한 서버에서의 동영상 자막생성을 위한 STT 변환방법.
  6. 제1항에 있어서, 상기 말뭉치 데이터베이스는,
    상기 서버의 상기 데이터베이스에 포함되는 것을 특징으로 하는, 사투리 데이터베이스를 이용한 서버에서의 동영상 자막생성을 위한 STT 변환방법.
KR1020190134532A 2019-10-28 2019-10-28 사투리 db를 이용한, 동영상 자막생성을 위한 서버에서의 stt 변환방법 KR102084372B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190134532A KR102084372B1 (ko) 2019-10-28 2019-10-28 사투리 db를 이용한, 동영상 자막생성을 위한 서버에서의 stt 변환방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190134532A KR102084372B1 (ko) 2019-10-28 2019-10-28 사투리 db를 이용한, 동영상 자막생성을 위한 서버에서의 stt 변환방법

Publications (1)

Publication Number Publication Date
KR102084372B1 true KR102084372B1 (ko) 2020-03-03

Family

ID=69938105

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190134532A KR102084372B1 (ko) 2019-10-28 2019-10-28 사투리 db를 이용한, 동영상 자막생성을 위한 서버에서의 stt 변환방법

Country Status (1)

Country Link
KR (1) KR102084372B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259083A (zh) * 2020-10-16 2021-01-22 北京猿力未来科技有限公司 音频处理方法及装置
CN114996506A (zh) * 2022-05-24 2022-09-02 腾讯科技(深圳)有限公司 语料生成方法、装置、电子设备和计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009288567A (ja) * 2008-05-29 2009-12-10 Ricoh Co Ltd 議事録作成装置、議事録作成方法、議事録作成プログラム、議事録作成システム
KR101848467B1 (ko) * 2016-10-17 2018-04-12 임민우 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009288567A (ja) * 2008-05-29 2009-12-10 Ricoh Co Ltd 議事録作成装置、議事録作成方法、議事録作成プログラム、議事録作成システム
KR101848467B1 (ko) * 2016-10-17 2018-04-12 임민우 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259083A (zh) * 2020-10-16 2021-01-22 北京猿力未来科技有限公司 音频处理方法及装置
CN112259083B (zh) * 2020-10-16 2024-02-13 北京猿力未来科技有限公司 音频处理方法及装置
CN114996506A (zh) * 2022-05-24 2022-09-02 腾讯科技(深圳)有限公司 语料生成方法、装置、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
KR102703668B1 (ko) 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
US11997344B2 (en) Translating a media asset with vocal characteristics of a speaker
CN112115706B (zh) 文本处理方法、装置、电子设备及介质
CN108780643B (zh) 自动配音方法和装置
KR102589637B1 (ko) 기계 번역 방법 및 장치
US8620139B2 (en) Utilizing subtitles in multiple languages to facilitate second-language learning
US8239207B2 (en) Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy
US9984689B1 (en) Apparatus and method for correcting pronunciation by contextual recognition
US10607652B2 (en) Dubbing and translation of a video
US20140372100A1 (en) Translation system comprising display apparatus and server and display apparatus controlling method
KR102084372B1 (ko) 사투리 db를 이용한, 동영상 자막생성을 위한 서버에서의 stt 변환방법
US11514948B1 (en) Model-based dubbing to translate spoken audio in a video
KR20160056734A (ko) 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
KR102143755B1 (ko) 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템 및 방법
US20160098395A1 (en) System and method for separate audio program translation
US11620328B2 (en) Speech to media translation
JPWO2019123854A1 (ja) 翻訳装置、翻訳方法、及びプログラム
US11056103B2 (en) Real-time utterance verification system and method thereof
KR102106738B1 (ko) 서버에서의 동영상 자막생성을 위한 stt 변환방법
KR20230020508A (ko) 텍스트 에코 제거
KR102253015B1 (ko) 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치 및 그 방법
KR20160131730A (ko) 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
KR101925253B1 (ko) 문맥 독립형 화자확인 장치 및 이를 이용한 화자확인 방법
WO2021161908A1 (ja) 情報処理装置及び情報処理方法
CN114861640B (zh) 文本摘要模型的训练方法及装置

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant