KR101848467B1 - Speech recognition database construction system using digital content - Google Patents

Speech recognition database construction system using digital content Download PDF

Info

Publication number
KR101848467B1
KR101848467B1 KR1020160134423A KR20160134423A KR101848467B1 KR 101848467 B1 KR101848467 B1 KR 101848467B1 KR 1020160134423 A KR1020160134423 A KR 1020160134423A KR 20160134423 A KR20160134423 A KR 20160134423A KR 101848467 B1 KR101848467 B1 KR 101848467B1
Authority
KR
South Korea
Prior art keywords
data
voice
unit
caption
audio
Prior art date
Application number
KR1020160134423A
Other languages
Korean (ko)
Inventor
임민우
Original Assignee
임민우
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 임민우 filed Critical 임민우
Priority to KR1020160134423A priority Critical patent/KR101848467B1/en
Application granted granted Critical
Publication of KR101848467B1 publication Critical patent/KR101848467B1/en

Links

Images

Classifications

    • G06F17/30746
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Various embodiments of the present invention relate to a voice recognition database construction system using digital content. To this end, the voice recognition database construction system using digital content comprises: a data acquiring part acquiring digital content including voice information; a data extracting part extracting voice data from the digital content acquired from the data acquiring part; a data matching part matching subtitle data corresponding to the voice data extracted from the data extracting part; a data storing part storing the voice data and the subtitle data matched by the data matching part; and a data distributing part distributing the corresponding voice data and subtitle data from the data storing part, if a confirmation request of the voice data exists.

Description

디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템{Speech recognition database construction system using digital content}[0001] Speech recognition database construction system using digital contents [

본 발명의 다양한 실시예는 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템에 관한 것이다.Various embodiments of the present invention are directed to a system for building a speech recognition database utilizing digital content.

종래의 음성 인식 데이터 베이스 시스템은 성우 또는 특정 분야에 한정된 사람들이 녹음한 데이터를 기반으로 기본 음성 검색 데이터 베이스를 제공하였다. 따라서, 종래에는 음성 인식 데이터 베이스 시스템이 지속적으로 및/또는 자동적으로 업데이트되지 못함으로써, 신조어 등의 인식률이 현저히 낮은 문제가 있었다.The conventional speech recognition database system has provided a basic voice search database based on data recorded by voice actors or people limited to a specific field. Therefore, conventionally, there has been a problem that the recognition rate of a coined word or the like is remarkably low because the speech recognition database system is not continuously and / or automatically updated.

또한, 종래의 음성 인식 데이터 베이스 시스템은 연령대별(예를 들면, 어린이 또는 노인)로 구별되는 음성 데이터 베이스를 구축하지 못하여, 특정 연령대에서 음성 인식률이 현저히 낮은 문제가 있었다.In addition, the conventional speech recognition database system has not been able to establish a speech database distinguished by age group (for example, children or the elderly), and thus has a problem that speech recognition rate is remarkably low at a specific age range.

또한, 종래의 음성 인식 데이터 베이스 시스템은 주로 스튜디오에서 녹음된 콘텐츠를 기반으로 구축되었기 때문에 실외 등의 다양한 환경에서 음성 인식률이 현저히 낮은 문제가 있었다.In addition, since the conventional speech recognition database system is constructed based on contents recorded in a studio, there is a problem that speech recognition rate is remarkably low in various environments such as outdoor.

더욱이, 종래의 음성 인식 데이터 베이스 시스템은 표준어 외에 사투리 등에 대한 다양한 내용을 포함하지 못하였고, 또한 한국어 외의 외국어에 대한 음성 인식률이 현저히 낮은 문제가 있었다.Moreover, the conventional speech recognition database system does not include diverse contents in addition to the standard language, such as dialect, and also has a problem that the voice recognition rate for foreign languages other than Korean is remarkably low.

이러한 발명의 배경이 되는 기술에 개시된 상술한 정보는 본 발명의 배경에 대한 이해도를 향상시키기 위한 것뿐이며, 따라서 종래 기술을 구성하지 않는 정보를 포함할 수도 있다.The above-described information disclosed in the background of the present invention is only for improving the understanding of the background of the present invention, and thus may include information not constituting the prior art.

본 발명의 해결하고자 하는 과제는 텔레비전이나 라디오 등의 실시간 콘텐츠, 녹화 방송, 스트리밍 방송, 오디오 북 등의 녹화 콘텐츠, 방송 편성 정보와 같은 다양한 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템을 제공하는데 있다. 즉, 본 발명의 해결하고자 하는 과제는 방송 및 다양한 디지털 콘텐츠에서 사용되고 있는 영상 파일로부터 음성 파일 및 기타 데이터를 추출/활용하여 음성 데이터를 분리/결합/매칭 등을 통해 음성 인식에 사용되는 음성 데이터 베이스를 구축하고, 이를 다양한 분야에서 활용할 수 있도록 제공하는 빅데이터 또는 통합 시스템으로서 종래의 음성 검색 방식 대비 다양한 음성 데이터를 지속적으로 생성(또는 업데이트)할 수 있고, 실시간 방송어 등의 새로운 서비스를 제공할 수 있는 복합 솔루션 또는 복합 시스템을 제공하는데 있다.A problem to be solved by the present invention is to provide a system for constructing a voice recognition database utilizing various digital contents such as a recorded content such as a real time content such as a television or a radio, a recorded broadcast, a streaming broadcast, an audio book, . That is, a problem to be solved by the present invention is to extract and utilize voice files and other data from video files used in broadcasting and various digital contents, (Or update) a variety of voice data compared to the conventional voice search method, and to provide a new service such as a real-time broadcast language or the like Or a composite system that can be used as a solution.

본 발명의 다양한 실시예에 따른 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템은 음성 정보를 포함하는 디지털 콘텐츠를 입수하는 데이터 입수부; 상기 데이터 입수부에서 입수된 디지털 콘텐츠로부터 음성 데이터를 추출하는 데이터 추출부; 상기 데이터 추출부로부터 추출된 음성 데이터에 대응하는 자막 데이터를 매칭하는 데이터 매칭부; 상기 데이터 매칭부에서 매칭된 음성 데이터 및 자막 데이터를 저장하는 데이터 저장부; 및, 음성 데이터의 확인 요청이 있는 경우, 상기 데이터 저장부로부터 해당 음성 데이터 및 자막 데이터를 배포하는 데이터 배포부를 포함할 수 있다.A system for constructing a voice recognition database using digital contents according to various embodiments of the present invention includes a data acquisition unit for acquiring digital contents including voice information; A data extracting unit for extracting audio data from the digital contents acquired by the data acquiring unit; A data matching unit for matching the caption data corresponding to the audio data extracted from the data extracting unit; A data storage unit for storing audio data and caption data matched by the data matching unit; And a data distribution unit for distributing the audio data and the caption data from the data storage unit when there is a request for verification of the audio data.

상기 데이터 저장부에서 저장된 음성 데이터를 분류하는 데이터 분류부를 더 포함할 수 있다.And a data classifier for classifying the voice data stored in the data storage unit.

상기 데이터 분류부는 상기 저장된 음성 데이터를 형태소별, 단어별, 문장별, 날짜별, 연령별, 장소별, 시간별 또는 장르별로 분류할 수 있다.The data classification unit may classify the stored voice data by morpheme, word, sentence, date, age, place, time or genre.

상기 디지털 콘텐츠는 텔레비젼 방송 또는 라디오 방송을 포함하는 실시간 방송 콘텐츠, 녹화 방송, 스트리밍 방송 또는 오디오 북을 포함하는 녹화 콘텐츠, 또는 방송 편성 정보 콘텐츠일 수 있다.The digital content may be a recorded content including a real-time broadcast content including a television broadcast or a radio broadcast, a recorded broadcast, a streaming broadcast, or an audio book, or a broadcast program information.

상기 디지털 콘텐츠가 자막 정보를 포함하고 있으면 상기 데이터 추출부가 상기 디지털 콘텐츠로부터 자막 데이터도 추출할 수 있다.If the digital content includes caption information, the data extraction unit may extract caption data from the digital content.

상기 데이터 매칭부는 특정 기간 동안 사용된 음성 데이터와 자막 데이터를 모두 비교하여, 가장 많이 중복되는 음성 데이터와 자막 데이터를 매칭하는 교집합 방식으로 동작할 수 있다.The data matching unit compares the audio data and the caption data used for a specific period of time and operates in an intersection scheme in which the most frequently overlapped audio data and caption data are matched.

상기 데이터 매칭부는 상기 분리된 자막 데이터를 TTS(Text-To-Speech) 기능 또는 STT(Speech-To-Text) 기능을 통해 음성 데이터로 변환하고, 변환된 음성 데이터와 가장 비슷한 분리된 음성 데이터를 상기 분리된 자막 데이터에 매칭하는 TTS 또는 STT 방식으로 동작할 수 있다.The data matching unit converts the separated caption data into voice data through a TTS (Text-To-Speech) function or a STT (Speech-To-Text) function, and separates the separated voice data, And can operate in a TTS or STT scheme matching the separated caption data.

상기 데이터 매칭부는 상기 분리된 음성 데이터와 자막 데이터 사이의 오차를 통계로 계산하여 음성 데이터와 자막 데이터를 매칭하는 시간 오차 분석 방식으로 동작할 수 있다.The data matching unit may operate as a time error analysis method of calculating the error between the separated voice data and the caption data statistically and matching the voice data and the caption data.

상기 데이터 매칭부는 상기 분리된 자막 데이터를 음성 엔진에 연동하여 출력된 결과 값과 상기 분리된 음성 데이터를 매칭하는 음성 엔진 연동 방식으로 동작할 수 있다.The data matching unit may operate in a voice engine interlocking manner in which the separated subtitle data is interlocked with a speech engine and the output result is matched with the separated speech data.

상기 데이터 매칭부는 과거의 멀티미디어 콘텐츠 기반으로 구축된 자체 데이터 베이스와 연동하여 음성 데이터와 자막 데이터를 매칭하는 과거 멀티미디어 콘텐츠 연관어 연동 방식으로 동작할 수 있다.The data matching unit may operate in association with a past multimedia content associating interface that matches audio data with caption data in cooperation with a self-database built on a past multimedia content.

본 발명의 다양한 실시예에 따른 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템은 방송 및 다양한 디지털 콘텐츠에서 사용되고 있는 영상 파일로부터 음성 파일 및 기타 데이터를 활용/추출하여 음성 데이터를 분리/결합/매칭 등을 통해 음성 인식에 사용되는 음성 데이터 베이스를 구축하고, 이를 다양한 분야에서 활용할 수 있도록 제공하는 빅데이터 또는 통합 시스템으로서 종래의 음성 검색 방식 대비 다양한 음성 데이터를 지속적으로 생성할 수 있고, 실시간 방송어 등의 새로운 서비를 제공할 수 있는 복합 솔루션 또는 복합 시스템을 제공한다.The voice recognition database construction system utilizing digital contents according to various embodiments of the present invention utilizes / extracts voice files and other data from video files used in broadcasting and various digital contents to separate / combine / match voice data A large data or an integrated system that provides a voice data base used for voice recognition through a variety of fields and can continuously generate various voice data compared to a conventional voice search method, To provide a new solution or a hybrid solution.

즉, 종래의 음성 데이터 베이스는 성우 또는 특정 분야에 한정된 사람들이 녹음한 데이터를 기반으로 기본 음성 검색 데이터 베이스를 활용하였으나, 본 발명의 다양한 실시예에 따른 음성 인식 데이터 베이스 구축 시스템은 다양한 방송에서 사용되는 음성 데이터를 가공하여 음성 검색 기반에 이용할 수 있도록 한다.That is, in the conventional voice database, a basic voice search database is used based on data recorded by a voice actor or a person limited to a specific field. However, the speech recognition database construction system according to various embodiments of the present invention is used in various broadcasts To be used for the voice search base.

또한, 본 발명의 다양한 실시예에 따른 음성 인식 데이터 베이스 구축 시스템은 구축된 음성 데이터 베이스를 문장별/단어별/형태소별/글자별로 구분하여 저장하고 각각 시간, 상황, 연령별 구분하여 제공함으로써, 여러 가지 상황에 맞춰 사용할 수 있도록 한다.In addition, the speech recognition database construction system according to various embodiments of the present invention divides the constructed speech database by sentence, word, morpheme, and letter, and classifies the speech database by time, Make it available for different situations.

또한, 본 발명의 다양한 실시예에 따른 음성 인식 데이터 베이스 구축 시스템은 구축된 음성 데이터 베이스를 다양한 서비스에 활용할 수 있도록 다양한 연동 시스템을 구축하도록 한다.In addition, the speech recognition database construction system according to various embodiments of the present invention constructs various interworking systems so that the constructed speech database can be utilized for various services.

또한, 본 발명의 다양한 실시예에 따른 음성 인식 데이터 베이스 구축 시스템은 실시간 인기 방송어 순위 시스템도 구축하도록 한다.In addition, the speech recognition database construction system according to various embodiments of the present invention may also construct a real-time popular broadcast language ranking system.

도 1은 본 발명의 다양한 실시예에 따른 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템의 구성을 도시한 블럭도이다.
도 2는 본 발명의 다양한 실시예에 따른 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템의 동작 흐름을 도시한 흐름도이다.
도 3은 본 발명의 다양한 실시예에 따른 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템의 동작 중 음성/자막 다중 교집합 분석의 일례를 도시한 도면이다.
도 4는 본 발명의 다양한 실시예에 따른 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템의 동작 중 메타 분석의 일례를 도시한 도면이다.
1 is a block diagram showing a configuration of a speech recognition database construction system utilizing digital contents according to various embodiments of the present invention.
2 is a flowchart illustrating an operation flow of a system for building a voice recognition database using digital contents according to various embodiments of the present invention.
FIG. 3 is a diagram illustrating an example of voice / subtitle multiplex intersection analysis during operation of a voice recognition database construction system utilizing digital contents according to various embodiments of the present invention.
FIG. 4 is a diagram illustrating an example of meta-analysis during operation of a speech recognition database building system utilizing digital contents according to various embodiments of the present invention.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

본 발명의 실시예들은 당해 기술 분야에서 통상의 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위하여 제공되는 것이며, 하기 실시예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 하기 실시예에 한정되는 것은 아니다. 오히려, 이들 실시예는 본 개시를 더욱 충실하고 완전하게 하고, 당업자에게 본 발명의 사상을 완전하게 전달하기 위하여 제공되는 것이다.The embodiments of the present invention are described in order to more fully explain the present invention to those skilled in the art, and the following embodiments may be modified into various other forms, It is not limited to the embodiment. Rather, these embodiments are provided so that this disclosure will be more faithful and complete, and will fully convey the scope of the invention to those skilled in the art.

또한, 이하의 도면에서 각 층의 두께나 크기는 설명의 편의 및 명확성을 위하여 과장된 것이며, 도면상에서 동일 부호는 동일한 요소를 지칭한다. 본 명세서에서 사용된 바와 같이, 용어 "및/또는"은 해당 열거된 항목 중 어느 하나 및 하나 이상의 모든 조합을 포함한다. 또한, 본 명세서에서 "연결된다"라는 의미는 A 부재와 B 부재가 직접 연결되는 경우뿐만 아니라, A 부재와 B 부재의 사이에 C 부재가 개재되어 A 부재와 B 부재가 간접 연결되는 경우도 의미한다.In the following drawings, thickness and size of each layer are exaggerated for convenience and clarity of description, and the same reference numerals denote the same elements in the drawings. As used herein, the term "and / or" includes any and all combinations of one or more of the listed items. In the present specification, the term " connected "means not only the case where the A member and the B member are directly connected but also the case where the C member is interposed between the A member and the B member and the A member and the B member are indirectly connected do.

본 명세서에서 사용된 용어는 특정 실시예를 설명하기 위하여 사용되며, 본 발명을 제한하기 위한 것이 아니다. 본 명세서에서 사용된 바와 같이, 단수 형태는 문맥상 다른 경우를 분명히 지적하는 것이 아니라면, 복수의 형태를 포함할 수 있다. 또한, 본 명세서에서 사용되는 경우 "포함한다(comprise, include)" 및/또는 "포함하는(comprising, including)"은 언급한 형상들, 숫자, 단계, 동작, 부재, 요소 및/또는 이들 그룹의 존재를 특정하는 것이며, 하나 이상의 다른 형상, 숫자, 동작, 부재, 요소 및 /또는 그룹들의 존재 또는 부가를 배제하는 것이 아니다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. As used herein, the singular forms "a," "an," and "the" include singular forms unless the context clearly dictates otherwise. Also, " comprise, " and / or "comprising, " when used in this specification, are intended to be interchangeable with the said forms, numbers, steps, operations, elements, elements and / And does not preclude the presence or addition of one or more other features, integers, operations, elements, elements, and / or groups.

본 명세서에서 제1, 제2 등의 용어가 다양한 부재, 부품, 영역, 층들 및/또는 부분들을 설명하기 위하여 사용되지만, 이들 부재, 부품, 영역, 층들 및/또는 부분들은 이들 용어에 의해 한정되어서는 안 됨은 자명하다. 이들 용어는 하나의 부재, 부품, 영역, 층 또는 부분을 다른 영역, 층 또는 부분과 구별하기 위하여만 사용된다. 따라서, 이하 상술할 제1부재, 부품, 영역, 층 또는 부분은 본 발명의 가르침으로부터 벗어나지 않고서도 제2부재, 부품, 영역, 층 또는 부분을 지칭할 수 있다.Although the terms first, second, etc. are used herein to describe various elements, components, regions, layers and / or portions, these members, components, regions, layers and / It is obvious that no. These terms are only used to distinguish one member, component, region, layer or section from another region, layer or section. Thus, a first member, component, region, layer or section described below may refer to a second member, component, region, layer or section without departing from the teachings of the present invention.

"하부(beneath)", "아래(below)", "낮은(lower)", "상부(above)", "위(upper)"와 같은 공간에 관련된 용어가 도면에 도시된 한 요소 또는 특징과 다른 요소 또는 특징의 용이한 이해를 위해 이용될 수 있다. 이러한 공간에 관련된 용어는 본 발명의 다양한 공정 상태 또는 사용 상태에 따라 본 발명의 용이한 이해를 위한 것이며, 본 발명을 한정하기 위한 것은 아니다. 예를 들어, 도면의 요소 또는 특징이 뒤집어지면, "하부" 또는 "아래"로 설명된 요소 또는 특징은 "상부" 또는 "위에"로 된다. 따라서, "아래"는 "상부" 또는 "아래"를 포괄하는 개념이다.It is to be understood that the terms related to space such as "beneath," "below," "lower," "above, But may be utilized for an easy understanding of other elements or features. Terms related to such a space are for easy understanding of the present invention depending on various process states or use conditions of the present invention, and are not intended to limit the present invention. For example, if an element or feature of the drawing is inverted, the element or feature described as "lower" or "below" will be "upper" or "above." Thus, "below" is a concept covering "upper" or "lower ".

또한, 본 발명에 따른 시스템(컨트롤러), 서버 및/또는 다른 관련 기기 또는 부품은 임의의 적절한 하드웨어, 펌웨어(예를 들어, 주문형 반도체), 소프트웨어, 또는 소프트웨어, 펌웨어 및 하드웨어의 적절한 조합을 이용하여 구현될 수 있다. 예를 들어, 본 발명에 따른 시스템(컨트롤러), 서버 및/또는 다른 관련 기기 또는 부품의 다양한 구성 요소들은 하나의 집적회로 칩 상에, 또는 별개의 집적회로 칩 상에 형성될 수 있다. 또한, 시스템(컨트롤러), 서버의 다양한 구성 요소는 가요성 인쇄 회로 필름 상에 구현 될 수 있고, 테이프 캐리어 패키지, 인쇄 회로 기판, 또는 시스템(컨트롤러), 서버와 동일한 서브스트레이트 상에 형성될 수 있다. 또한, 시스템(컨트롤러), 서버의 다양한 구성 요소는, 하나 이상의 컴퓨팅 장치에서, 하나 이상의 프로세서에서 실행되는 프로세스 또는 쓰레드(thread)일 수 있고, 이는 이하에서 언급되는 다양한 기능들을 수행하기 위해 컴퓨터 프로그램 명령들을 실행하고 다른 구성 요소들과 상호 작용할 수 있다. 컴퓨터 프로그램 명령은, 예를 들어, 랜덤 액세스 메모리와 같은 표준 메모리 디바이스를 이용한 컴퓨팅 장치에서 실행될 수 있는 메모리에 저장된다. 컴퓨터 프로그램 명령은 또한 예를 들어, CD-ROM, 플래시 드라이브 등과 같은 다른 비-일시적 컴퓨터 판독 가능 매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 본 발명에 관련된 당업자는 다양한 컴퓨팅 장치의 기능이 상호간 결합되거나, 하나의 컴퓨팅 장치로 통합되거나, 또는 특정 컴퓨팅 장치의 기능이, 본 발명의 예시적인 실시예를 벗어나지 않고, 하나 이상의 다른 컴퓨팅 장치들에 분산될 수 될 수 있다는 것을 인식해야 한다.In addition, the system (controller), server and / or other associated device or component in accordance with the present invention may be implemented using any suitable hardware, firmware (e.g., on-demand semiconductor), software, or a suitable combination of software, Can be implemented. For example, various components of a system (controller), a server, and / or other associated equipment or components according to the present invention may be formed on one integrated circuit chip or on a separate integrated circuit chip. In addition, the various components of the system (controller), server may be implemented on a flexible printed circuit film and formed on the same substrate as a tape carrier package, printed circuit board, or system (controller), server . In addition, the various components of the system (controller), the server, may be a process or thread running on one or more processors in one or more computing devices, which may be implemented as computer program instructions And interact with other components. The computer program instructions are stored in a memory that can be executed on a computing device using standard memory devices, such as, for example, random access memory. The computer program instructions may also be stored in other non-transitory computer readable media, such as, for example, CD-ROMs, flash drives, and the like. Further, those skilled in the art will appreciate that the functions of the various computing devices may be combined with one another, integrated into one computing device, or the functionality of a particular computing device may be implemented within one or more other computing devices Lt; / RTI > can be dispersed in the < / RTI >

일례로, 본 발명에 따른 시스템(컨트롤러), 서버는 중앙처리장치, 하드디스크 또는 고체상태디스크와 같은 대용량 저장 장치, 휘발성 메모리 장치, 키보드 또는 마우스와 같은 입력 장치, 모니터 또는 프린터와 같은 출력 장치로 이루어진 통상의 상용 컴퓨터에서 운영될 수 있다. As an example, a system (controller) according to the present invention, a server may be a central processing unit, a mass storage device such as a hard disk or solid state disk, an input device such as a volatile memory device, a keyboard or a mouse, Lt; RTI ID = 0.0 > commercial < / RTI >

도 1은 본 발명의 다양한 실시예에 따른 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템(100)의 구성을 도시한 블럭도이다.1 is a block diagram showing the configuration of a speech recognition database construction system 100 using digital contents according to various embodiments of the present invention.

도 1에 도시된 바와 같이, 본 발명의 다양한 실시예에 따른 음성 인식 데이터 베이스 구축 시스템(100)은 데이터 입수부(110), 데이터 추출부(120), 데이터 매칭부(130), 데이터 저장부(150) 및 데이터 배포부(170)를 포함할 수 있다. 1, a speech recognition database construction system 100 according to various embodiments of the present invention includes a data input unit 110, a data extraction unit 120, a data matching unit 130, (150) and a data distribution unit (170).

또한, 본 발명의 다양한 실시예에 따른 음성 인식 데이터 베이스 구축 시스템(100)은 데이터 검증부(140) 및/또는 데이터 분류부(160)를 더 포함할 수 있다. In addition, the speech recognition database construction system 100 according to various embodiments of the present invention may further include a data verification unit 140 and / or a data classification unit 160.

또한, 본 발명의 다양한 실시예에 따른 음성 인식 데이터 베이스 구축 시스템(100)은 데이터 추출부(120)의 후단에 1차 데이터 저장부(121)가, 데이터 매칭부(130)의 후단에 2차 데이터 저장부(131)가, 데이터 검증부(140)의 후단에 3차 데이터 저장부(141)가 연결될 수 있다. The system 100 for constructing a speech recognition database according to various embodiments of the present invention includes a primary data storage unit 121 at the rear end of the data extraction unit 120 and a secondary data storage unit 121 at the rear end of the data matching unit 130. [ The data storage unit 131 may be connected to the tertiary data storage unit 141 at the rear end of the data verification unit 140.

또한, 데이터 배포부(170)에는 정산 관리 서버(180)가 더 연결될 수도 있다.In addition, the settlement management server 180 may be further connected to the data distribution unit 170.

데이터 입수부(110)는, 음성 정보 및/또는 자막 정보를 포함하는 다양한 종류의 디지털 콘텐츠를 입수하는 역할을 한다. 여기서, 디지털 콘텐츠는, 예를 들면, 한정하는 것은 아니지만, 텔레비젼 방송(위성 방송, IP TV, 무선 방송, 유선 방송, DMB 방송) 또는 라디오 방송(무선 방송, 인터넷 방송, DMB 방송) 등을 포함하는 실시간 방송 콘텐츠, 녹화 방송, 스트리밍 방송 및/또는 오디오 북 등을 포함하는 녹화 콘텐츠, 및/또는 방송 편성 정보(EPG) 콘텐츠 등을 포함할 수 있다. 또한, 이러한 디지털 콘텐츠는 일반적으로 음성 정보를 포함하지만, 이와 대응하는 자막 정보를 포함할 수도 있고 포함하지 않을 수도 있다. 자막 정보를 포함하는 디지털 콘텐츠와, 자막 정보를 포함하지 않는 디지털 콘텐츠는 그 처리 방법이 약간 상이하며, 이는 아래에서 다시 설명하기로 한다. The data receiving unit 110 plays a role of obtaining various kinds of digital contents including audio information and / or caption information. Here, the digital content includes, for example, but not limited to, television broadcasting (satellite broadcasting, IP TV, wireless broadcasting, cable broadcasting, DMB broadcasting) or radio broadcasting (wireless broadcasting, Internet broadcasting, DMB broadcasting) And / or broadcast programming information (EPG) content, including real-time broadcast content, recorded broadcasts, streaming broadcasts and / or audiobooks, and the like. Further, such digital contents generally include voice information, but may or may not include corresponding caption information. The digital contents including the caption information and the digital contents not including the caption information are slightly different from each other, and this will be described below again.

여기서, 데이터 입수부(110)는, 예를 들면, 한정하는 것은 아니지만, 연결 서버, 메인 시스템 및/또는 수집 서버를 포함할 수 있다. 연결 서버는, 예를 들면, 한정하는 것은 아니지만, 텔레비젼 방송 또는 라디오 방송 등을 포함하는 실시간 방송 콘텐츠에 연결하여, 이를 메인 시스템으로 전달하는 역할을 한다. 또한, 수집 서버는, 예를 들면, 한정하는 것은 아니지만, 녹화 방송, 스트리밍 방송 및/또는 오디오 북 등을 포함하는 녹화 콘텐츠, 및/또는 방송 편성 정보(EPG) 콘텐츠 등을 수집하여 메인 시스템에 전달하는 역할을 한다.Here, the data acquisition unit 110 may include, for example, but not limited to, a connection server, a main system, and / or a collection server. The connection server connects, for example, but not limited to, a real-time broadcast content including a television broadcast or a radio broadcast, and transmits the live broadcast content to the main system. Also, the collection server collects, for example, but not limited to, recorded contents including broadcast programs, streaming broadcasts and / or audio books, and / or broadcast programming information (EPG) contents and transmits them to the main system .

데이터 추출부(120)는, 데이터 입수부(110)에서 입수된 다양한 종류의 디지털 콘텐츠로부터 음성 데이터를 추출하는 역할을 한다. 또한, 데이터 추출부(120)는, 디지털 콘텐츠가 자막 정보를 포함할 경우, 디지털 콘텐츠로부터 자막 데이터를 추출한다. 더욱이, 데이터 추출부(120)는, 디지털 콘텐츠로부터 부가 데이터(예를 들면, 시청 가능 연령, 배경 장소, 창작 시간, 장르, 창작자, 창작 회사 등등)를 추출한다. 여기서, 디지털 콘텐츠가 자막 정보를 갖지 않을 경우, 자막 정보는 추출되지 않을 수 있다.The data extracting unit 120 extracts audio data from various types of digital contents obtained by the data obtaining unit 110. [ The data extracting unit 120 extracts caption data from the digital content when the digital content includes the caption information. Furthermore, the data extracting unit 120 extracts additional data (e.g., viewable age, background place, creation time, genre, creator, creative company, etc.) from the digital contents. Here, when the digital content does not have the caption information, the caption information may not be extracted.

1차 데이터 저장부(121)는, 상술한 바와 같이 데이터 추출부(120)로부터 추출된 음성 데이터, 부가 정보 및/또는 자막 데이터를 각각 또는 일체로 저장하는 역할을 한다. The primary data storage unit 121 stores the audio data, the additional information, and / or the caption data extracted from the data extracting unit 120 as described above or in one piece.

데이터 매칭부(130)는, 데이터 추출부(120) 및/또는 1차 데이터 저장부(121)로부터 상술한 바와 같이 추출된 음성 데이터에 대응하는 자막 데이터를 매칭하는 역할을 한다. 데이터 매칭은 음성 엔진을 이용한 방식, 교집합 매칭 방식, 추측 매칭 방식 등 다양한 방식에 의해 수행될 수 있다.The data matching unit 130 matches the subtitle data corresponding to the extracted audio data from the data extraction unit 120 and / or the primary data storage unit 121 as described above. The data matching can be performed by various methods such as a method using a voice engine, an intersection matching method, and a guess matching method.

일례로, 한정하는 것은 아니지만, 음성 엔진을 이용한 방식은, 데이터 매칭부(130)가 상술한 바와 같이 분리된 자막 데이터를 음성 엔진에 연동하여 출력된 결과 값과 분리된 음성 데이터를 매칭하는 방식이다. 여기서, 음성 엔진은, 예를 들면, 한정하는 것은 아니지만, 자막 데이터를 음성 데이터로 변환하는 소프트웨어 또는 프로그램일 수 있다.For example, the method using the speech engine is a method in which the data matching unit 130 matches the separated resultant audio data with the output result of the separated subtitle data interlocked with the speech engine . Here, the speech engine may be, for example, but not limited to, software or a program for converting subtitle data into audio data.

다른 예로, 한정하는 것은 아니지만, 교집합 매칭 방식은, 데이터 매칭부(130)가 특정 기간 또는 구간 동안 사용된 음성 데이터와 자막 데이터를 모두 비교하여, 가장 많이 중복되는 음성 데이터와 자막 데이터를 매칭하는 방식이다.As another example, the intersection matching method may include a method of comparing the audio data and the caption data used by the data matching unit 130 for a specific period or interval and matching the caption data with the audio data that is most frequently overlapped to be.

또 다른 예로, 한정하는 것은 아니지만, 데이터 매칭부(130)는 분리된 자막 데이터를 TTS(Text-To-Speech) 기능 또는 STT(Speech-To-Text) 기능을 통해 음성 데이터로 변환하고, 변환된 음성 데이터와 가장 비슷한 상술한 분리된 음성 데이터를 분리된 자막 데이터에 매칭하는 TTS 또는 STT 방식으로 동작하는 방식이다.As another example, the data matching unit 130 may convert the separated caption data into speech data through a text-to-speech (TTS) function or a speech-to-text (STT) And operates in a TTS or STT scheme for matching the above-described separated voice data most similar to the voice data to the separated caption data.

여기서, STT 방식은 디지털 콘텐츠가 자막 정보를 갖고 있지 않을 경우, STT 기능을 이용해 음성 데이터를 자막 데이터로 변환함으로써, 음성 데이터와 자막 데이터를 매칭하는데 유용하다.Here, the STT method is useful for matching voice data and caption data by converting voice data into caption data using the STT function when the digital contents do not have caption information.

또 다른 예로, 한정하는 것은 아니지만, 데이터 매칭부(130)는 분리된 음성 데이터와 자막 데이터 사이의 오차를 통계로 계산하여 음성 데이터와 자막 데이터를 매칭하는 시간 오차 분석 방식으로 동작할 수도 있다.As another example, the data matching unit 130 may operate as a time error analysis method of calculating the error between the separated voice data and the caption data statistically and matching the voice data and the caption data.

또 다른 예로, 한정하는 것은 아니지만, 데이터 매칭부(130)는 과거의 멀티미디어 콘텐츠 기반으로 이미 구축 완료된 자체 데이터 베이스와 연동하여 음성 데이터와 자막 데이터를 매칭하는 과거 멀티미디어 콘텐츠 연관어 연동 방식으로 동작할 수도 있다.As another example, although not limited, the data matching unit 130 may operate in a past multimedia content association interworking system that matches voice data and caption data in cooperation with a self-built database already built on the basis of past multimedia contents have.

2차 데이터 저장부(131)는, 상술한 바와 같이 데이터 매칭부(130)로부터 음성 엔진, 교집합 매칭, 추측 매칭 등에 의해 음성 데이터와 자막 데이터가 매칭된 데이터를 저장하는 역할을 한다.The secondary data storage unit 131 stores data matching the audio data and the caption data from the data matching unit 130 through a speech engine, intersection matching, speculative matching, or the like as described above.

데이터 검증부(140)는, 예를 들면, 한정하는 것은 아니지만, 음성 검증 및/또는 형태 검증을 통해 상호간 매칭된 음성 데이터와 자막 데이터가 적절한지 검증하는 역할을 한다. 일례로, 데이터 검증부(140)는 매칭된 음성 데이터와 자막 데이터가 기존에 이미 구축된 데이터와 패턴 비교를 통해 적절한지 아닌지 검증한다.The data verification unit 140 serves to verify whether the audio data and the caption data matched with each other through audio verification and / or type verification, for example, are not limited. For example, the data verifying unit 140 verifies whether the matched voice data and the caption data are appropriate through pattern comparison with previously established data.

3차 데이터 저장부(141)는, 상술한 바와 같이 데이터 검증부(140)를 통해 검증을 완료한 또는 검증을 통과한 상호간 매칭된 음성 데이터와 자막 데이터를 저장하는 역할을 한다.The tertiary data storage unit 141 stores the matched voice data and the caption data that have been verified through the data verification unit 140 or passed the verification as described above.

데이터 저장부(150)는, 예를 들면, 한정하는 것은 아니지만, 상술한 1차 데이터 저장부(121)로부터 추출된 음성 데이터, 추출된 부가 데이터 및/또는 추출된 자막 데이터를 전달받아 저장하고, 또한 2차 데이터 저장부(131)로부터 음성 엔진, 교집합 매칭 및/또는 추측 매칭된 음성 데이터와 자막 데이터를 전달받아 저장하며, 또한 3차 데이터 저장부(141)로부터 음성 검증 및/또는 형태 검증이 완료된 음성 데이터와 자막 데이터를 전달받아 저장한다.The data storage unit 150 receives and stores audio data extracted from the above-described primary data storage unit 121, extracted additional data, and / or extracted subtitle data, for example, but not limited thereto, Further, the speech data and the subtitling data are received and stored from the secondary data storage unit 131, and the voice data and / or the type verification is transmitted from the tertiary data storage unit 141 And transmits and stores the completed audio data and subtitle data.

데이터 분류부(160)는, 예를 들면, 한정하는 것은 아니지만, 데이터 저장부(150)에 저장된 다양한 종류의 음성 데이터 및 자막 데이터를 형태소별, 단어별, 문장별 및/또는 날짜별로 분류하는 역할을 한다. 또한, 데이터 분류부(160)는, 예를 들면, 한정하는 것은 아니지만, 데이터 저장부(150)에 저장된 음성 데이터 및 자막 데이터를 연령별, 장소별, 시간별 및/또는 장르별로 분류하는 역할을 할 수도 있다.The data classification unit 160 classifies various types of audio data and caption data stored in the data storage unit 150 by morpheme, word, sentence, and / or date, for example, . The data classification unit 160 may classify the audio data and the caption data stored in the data storage unit 150 by age, place, time, and / or genre, for example, but not limited to, have.

데이터 배포부(170)는, 예를 들면, 한정하는 것은 아니지만, 내부 또는 외부로부터 음성 데이터의 확인 요청이 있는 경우, 데이터 저장부(150)로부터 해당 음성 데이터 및 자막 데이터를 배포하는 역할을 한다. The data distribution unit 170 distributes the audio data and the caption data from the data storage unit 150, for example, when there is a request for confirmation of audio data from the inside or outside, for example, but not limited thereto.

이러한 데이터 배포부(170)에 의해 구축된 음성 데이터 및 자막 데이터가 다양한 서비스에 활용될 수 있게 된다. 즉, 구축된 해당 데이터 베이스는 음성 인식을 사용하는 다양한 디바이스 및/또는 서비스에서 사용할 수 있도록 배포된다.The voice data and the caption data constructed by the data distribution unit 170 can be utilized for various services. That is, the established database is distributed for use in various devices and / or services using speech recognition.

정산 관리 서버(180)는, 예를 들면, 한정하는 것은 아니지만, 유료 디지털 콘텐츠를 활용하여 음성 데이터 및 자막 데이터를 생성한 경우, 원소스 제공자 별로 구분하여 요금 정산을 할 수 있도록 한다.The settlement management server 180 allows, for example, but not limited to, charge data settlement for each one-by-one provider when voice data and caption data are generated using pay digital contents.

이와 같이 하여 본 발명의 다양한 실시예에 따른 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템(100)은 자동적으로 구축 및 업그레이드가 이루어질 수 있다. 즉, 시스템 구축으로 데이터 베이스가 지속적으로 끊임없이 생성되어 신조어 등이 자동적으로 데이터 베이스에 포함될 수 있다.In this manner, the system 100 for building a voice recognition database using digital contents according to various embodiments of the present invention can be automatically constructed and upgraded. In other words, the database is constantly generated by system construction, and new terms can automatically be included in the database.

또한, 본 발명의 다양한 실시예에 따른 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템(100)은 다양한 연령별 데이터 베이스를 구축할 수 있게 된다. 즉, 다양한 디지털 콘텐츠를 이용함으로써, 종래의 음성 데이터 베이스에서 보유하지 못한 어린이 등 다양한 연령별 데이터 베이스의 확보가 가능하다.In addition, the system 100 for building a voice recognition database using digital contents according to various embodiments of the present invention can construct databases for various ages. That is, by using various digital contents, it is possible to secure databases for various ages such as children who can not be held in the conventional voice database.

또한, 본 발명의 다양한 실시예에 따른 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템(100)은 다양한 상황별 데이터 베이스를 구축할 수 있게 된다. 즉, 스튜디오 및 외부 등 다양한 환경에서 녹화된 방송 콘텐츠를 이용하여 인식률이 향상된다. In addition, the speech recognition database construction system 100 using the digital contents according to various embodiments of the present invention can construct a database for various situations. That is, the recognition rate is improved by using the broadcast contents recorded in various environments such as the studio and the outside.

더불어, 본 발명의 다양한 실시예에 따른 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템(100)은 표준어와 사투리 등 다양한 데이터 베이스의 구축도 가능하고, 또한 한국어 이외의 다국어도 구축 가능하다.In addition, the system 100 for building a voice recognition database using digital contents according to various embodiments of the present invention can construct various databases such as a standard language and a dialect, and can also construct a multilingual language other than Korean.

더욱이, 본 발명의 다양한 실시예는 수없이 생성되는 디지털 콘텐츠를 활용 하여 음성 데이터 베이스 시스템을 구축함으로써, 음성 인식률을 높여 다양한 분야에 활용하여 품질을 개선할 수 있다. 예를 들면, 연령별 데이터 베이스를 구축(현재 음성 데이터 베이스는 유아와 노인 전용 음성 데이터 베이스는 별도로 없음)할 수 있고, 상황별 데이터 베이스를 구축(날짜, 계절, 장소가 포함되어 있는 음성 데이터 베이스)할 수 있으며, 신조어, 외래어 등 특수 단어를 포함하는 음성 데이터 베이스를 구축할 수 있으며, 성인물 관련 음성 데이터가 필터링 음성 데이터 베이스가 구축(성인 채널의 음성을 활용 하여 필터링 데이터 베이스 구축)될 수 있다.In addition, various embodiments of the present invention can improve the quality by utilizing the digital contents that are generated many times to improve the voice recognition rate by utilizing the voice database system in various fields. For example, a database for each age can be constructed (currently, there is no separate voice database for infants and elderly people) and a database for each situation (voice database including dates, seasons, and places) A speech database including a special word such as a coined word or a foreign word can be constructed, and a filtering speech database for adult-related speech data can be constructed (a filtering database can be constructed by utilizing the voice of an adult channel).

또한, 본 발명의 다양한 실시예는, 예를 들면, 한정하는 것은 아니지만, 데이터 배포부(170)를 통하여, 실시간 방송어 정보 및 순서를 방송사 등에 제공할 수 있다. 즉, 본 발명의 실시예는 방송에서 가장 많이 사용되고 있는 단어를 순위로 방송사 등에 제공(포털 사이트의 실시간 검색어와 유사)할 수 있다.In addition, various embodiments of the present invention may provide, for example, but not limited to, real-time broadcast information and sequences to broadcasters and the like through the data distribution unit 170. [ That is, the embodiment of the present invention can provide the broadcasters with the most frequently used words in the broadcast (similar to the real-time search term of the portal site).

또한, 본 발명의 다양한 실시예는, 방송 모니터링 시스템(방송 심의 등 규제에 활용)에 활용될 수 있고, 향후 TV 자동 자막 방송 기능 제공에 이용될 수 있으며, 자동 번역의 기본 기능으로 활용 가능하다.Further, the various embodiments of the present invention can be utilized for a broadcasting monitoring system (used for regulation of broadcasting deliberation and the like), and can be used for providing TV automatic subtitle broadcasting function and can be used as a basic function of automatic translation.

도 2는 본 발명의 다양한 실시예에 따른 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템(100)의 동작 흐름을 도시한 흐름도이다. 여기서, 도 2의 흐름도는 도 1의 구성도와 거의 유사하나, 본 발명의 용이한 이해를 위해 시간 흐름에 따라 재배열한 것이다.FIG. 2 is a flowchart illustrating an operation flow of a system 100 for building a voice recognition database using digital contents according to various embodiments of the present invention. Here, the flowchart of FIG. 2 is substantially similar to the configuration of FIG. 1, but is rearranged according to time for easy understanding of the present invention.

도 2에 도시된 바와 같이, 음성 인식 데이터 베이스 구축 시스템(100)은, 대략적으로, 디지털 콘텐츠 입수 단계(S1), 디지털 콘텐츠의 소스 분리 단계(S2), 음성 데이터 베이스 매칭 단계(S3) 및 음성 데이터 베이스 저장 단계(S4)를 순차적으로 수행할 수 있다.2, the speech recognition database construction system 100 roughly includes a digital content acquisition step S1, a digital content source separation step S2, a voice database matching step S3, And a database storage step (S4).

디지털 콘텐츠 입수 단계(S1)에서, 예를 들면, 한정하는 것은 아니지만, TV 생방송(예를 들면, 위성 방송)(10), 녹화 영상(예를 들면, VOD, DVD) 파일(20), 방송 메타 정보(30) 및/또는 기존 음성 정보(40)를 입수할 수 있다.In the digital contents acquisition step S1, for example, a TV live broadcast (for example, a satellite broadcast) 10, a recorded video (e.g., VOD, DVD) file 20, Information 30 and / or existing voice information 40 may be obtained.

TV 생방송(10) 관련하여, 위성 방송과 IP TV 방송 데이터의 소스에서 대역대 별로 구분하여 영상/음성/자막을 구분하여 데이터 베이스 매칭 및 생성에 활용(이때, 자막과 음성의 씽크가 일치하지 않을 수 있음)할 수 있다. In relation to TV live broadcast (10), video / audio / subtitles are separated by the source of satellite broadcast and IP TV broadcast data and used for database matching and generation (in this case, .

녹화 영상(예를 들면, VOD, DVD) 파일(20) 관련하여, 영상 파일에서 음성 파일과 자막 파일을 구분하여 데이터 베이스 매칭 및 생성에 활용(이때, 자막과 음성의 씽크가 일치할 수 있음)할 수 있다.Regarding the recorded video (for example, VOD, DVD) file 20, the audio file and the subtitle file are separated from each other in the video file and used for database matching and generation (in this case, the subtitle and audio sync may coincide) can do.

예를 들어, 위성 방송의 경우, 위성 방송이 방송 입수 시스템(11)을 통해 입수되면, 재생(12)과 영상 저장(13)이 동시에 수행되고, 영상/음성의 재생 도중에 자막/음성이 별도로 추출(14)된다. 그런 후, 음성 데이터 분리(15)와 자막 데이터 분리(16)가 각각 수행된다.For example, in the case of satellite broadcasting, when the satellite broadcasting is obtained through the broadcasting receiving system 11, the reproduction 12 and the image storage 13 are performed simultaneously, and the subtitle / (14). Then, the audio data separation 15 and the caption data separation 16 are performed respectively.

방송 메타 정보(30) 관련하여, 편성표 정보에서 영상 관련 메타 데이터(예를 들면, 출연자, 장소 및/또는 시간 등)를 추출/분리(31)하여 데이터 베이스 매칭 생성에 활용할 수 있다.With respect to the broadcast meta information 30, image related metadata (e.g., performer, place and / or time) can be extracted / separated 31 from the schedule table information and utilized for database matching generation.

또한, 기존 음성 정보(40) 관련하여, 별도의 추출이나 분리 작업없이 음성 데이터 베이스 매칭 단계(S3)를 즉시 수행할 수 있다. In addition, with respect to the existing voice information 40, the voice database matching step S3 can be performed immediately without any separate extraction or separation operation.

디지털 콘텐츠의 소스 분리 단계(S2)에서, 예를 들면, 한정하는 것은 아니지만, 생방송 중 자막 포함 방송의 경우, 생방송 중 자막 비포함 방송의 경우, 녹화 영상 파일 중 자막 포함 방송의 경우, 녹화 영상 파일 중 자막 미포함 방송의 경우등으로 분류해서, 소스 분리 단계가 수행될 수 있다.In the digital content source separation step S2, for example, in the case of broadcasting including subtitles during live broadcasting, although not limited, in the case of broadcasting including subtitles during live broadcasting, in the case of subtitling broadcasting among recorded video files, The case of non-captioned broadcasting, and the like, and the source separation step can be performed.

먼저, 생방송/자막 포함 방송의 경우, 위성 방송 소스에서 음성 파일과 자막 파일을 시간별로 분리(이때, 다중 언어 지원인 경우 해당 파일까지 분리할 수 있음)할 수 있다.First, in the case of live broadcast / closed caption broadcasting, it is possible to separate the audio file and the caption file from the satellite broadcasting source by time (in this case, the corresponding file can be separated in the case of multi language support).

다음으로, 생방송/자막 비포함 방송의 경우, 음성 파일을 형태소 별로 분리(이때, 다중 언어 지원인 경우 해당 파일까지 분리할 수 있음)할 수 있다. Next, in the case of live broadcasting / subtitle non-broadcasting, audio files can be separated by morphemes (in this case, corresponding files can be separated in the case of multi-language support).

녹화 영상 파일/자막 포함 방송의 경우, 방송 소스에서 음성 파일과 자막 파일을 노출 시간에 맞춰서 개별 분리(이때, 다중 언어 지원인 경우 해당 파일까지 분리할 수 있음)할 수 있다.In the case of the recording video file / subtitle broadcasting, it is possible to separately separate the audio file and the subtitle file from the broadcasting source according to the exposure time (in this case, the corresponding file can also be separated in the case of multi language support).

녹화 영상 파일/자막 미포함 방송의 경우, 방송 소스에서 음성 파일을 개별 분리(이때, 다중 언어 지원인 경우 해당 파일까지 분리할 수 있음)할 수 있다.In the case of a recorded video file / subtitle-free broadcasting, it is possible to separately separate the audio file from the broadcasting source (in this case, the corresponding file can be separated in the case of multi-language support).

음성 데이터 베이스 매칭 단계(S3)에서, 예를 들면, 한정하는 것은 아니지만, 음성/자막 다중 교집합 분석 방식(51)(도 3 참조), 음성 자막 매칭 방식(52)(도 4 참조), 기존 음성 데이터 베이스 매칭 분석 방식(53) 및/또는 TTS/SST 매칭 분석 방식(54) 등이 이용될 수 있으며, 이를 차례로 설명한다.In the voice database matching step S3, for example, a voice / caption multiplex intersection analysis method 51 (see FIG. 3), a voice caption matching method 52 (see FIG. 4) A database matching analysis method 53 and / or a TTS / SST matching analysis method 54 may be used.

음성/자막 다중 교집합 분석 방식(도 3 참조)(51)의 경우, 다음과 같이 음성 데이터 베이스를 매칭/생성한다.In the case of the audio / subtitle multiplex intersection analysis method (see FIG. 3) 51, the audio database is matched / generated as follows.

먼저, 입력된 음성 시점에서 N초 딜레이된 자막과 셋트(set)로 N개를 저장한다. 예를 들면, N초는 빅데이터 분석을 통해 대략 1~3초 내외로 설정할 수 있고, 또한, N개는 대략 1초에 포함되는 형태소로 1초당 대략 1~3개 내외를 초기 빅데이터 분석을 통해서 설정할 수 있다. First, N pieces of subtitles and sets delayed by N seconds are stored at the input voice time point. For example, N seconds can be set to about 1 to 3 seconds by big data analysis, and N is a morpheme included in about 1 second. .

이어서, 음성과 자막으로 셋트(set)를 이루는 데이터 베이스중 최대 빈도로 매칭되는 소스를 구별한다.Subsequently, a source matching a maximum frequency among the databases constituting the set of audio and subtitles is distinguished.

마지막으로, 자막에서 같은 단어가 포함된 셋트끼리 교집합 분석을 통해 확인(예를 들면, 9시가 들어가는 자막의 소스를 모두 분석하여 비슷한 패턴의 음성을 구분)한다. 여기서, 매칭되지 않은 소스도 데이터 베이스화하여 다음 셋트에 사용하여 신속/정확성을 높인다. 또한, 같은 단어로 인식된 음성 웨이브(wav) 형태를 분석하여 오차 범위를 벗어나는 경우 해당 데이터 베이스는 제외하고 별도 관리한다.Finally, the sets containing the same words in the subtitles are checked by intersection analysis (for example, all the sources of subtitles at 9 o'clock are analyzed to distinguish similar patterns of speech). Here, unmatched sources are also databaseized and used in the next set to increase speed / accuracy. In addition, if the type of a voice wave (wav) recognized as the same word is analyzed and deviates from the error range, the corresponding database is excluded and managed separately.

음성 자막 매칭(도 4 참조) 방식(추측 분석)(52)의 경우, 다음과 같이 음성 데이터 베이스를 매칭/생성한다.In the case of the audio subtitle matching (see FIG. 4) scheme (speculative analysis) 52, the audio database is matched / generated as follows.

먼저, 방송 관련 메타 정보를 입수한다. 그런 후, 형태소별로 구분된 음성 파일과 자막 파일을 비교한다. 마지막으로, 동일한 패턴을 보이는 음성 파일을 별도로 저장함으로써, 음성 데이터 베이스를 매칭/생성한다.First, the broadcast related meta information is obtained. Then, the subtitle file is compared with the voice file classified by the morpheme. Finally, the voice database is matched / created by separately storing the voice file showing the same pattern.

기존 음성 데이터 베이스 매칭 분석 방식(53)의 경우, 다음과 같이 음성 데이터 베이스를 생성한다.In the case of the existing speech database matching analysis method 53, a speech database is generated as follows.

먼저, 형태소별로 구분된 음성 파일을 생성한다. 그런 후, 기존 음성 데이터 베이스의 음성 파일 파장 분석을 통해 해당 파일의 자막을 확인함으로써, 음성 데이터 베이스를 매칭/생성한다.First, a voice file is generated which is divided into morphemes. Then, the audio database is matched / generated by confirming the caption of the file by analyzing the voice file wavelength of the existing voice database.

다음으로, TTS/SST Next, TTS / SST 매칭matching 분석 방식(54)의 경우, 분리된 자막 데이터를 TTS 기능 또는  In the case of the analysis method (54), the separated subtitle data is converted into the TTS function or STTSTT 기능을 통해 음성 데이터로 변환하고, 변환된 음성 데이터와 가장 비슷한 상술한 분리된 음성 데이터를 분리된 자막 데이터에  Function and converts the above-described separated voice data, which is the most similar to the converted voice data, into the separated caption data 매칭함으로써By matching , 음성 데이터 베이스를 , Voice database 매칭matching /생성한다./ Create.

여기서, here, STTSTT 방식은 디지털 콘텐츠가 자막 정보를 갖고 있지 않을 경우,  If the digital content does not have subtitle information, STTSTT 기능을 이용해 음성 데이터를 자막 데이터로 변환함으로써, 음성 데이터와 자막 데이터를 매칭/생성하는데 유용하다. Function is used to convert audio data into caption data, which is useful for matching / generating audio data and caption data.

마지막으로, 음성 데이터 베이스 저장 단계(Finally, the voice database storage step ( S4S4 )에서, 상술한 바와 같이 4가지 방식 중 어느 한 방식을 이용하여 음성 데이터와 자막 데이터를 ), The audio data and the caption data are reproduced using any one of the four methods as described above 매칭한Matched 후 이를 1차로 데이터 베이스(61)에 저장하고, 그런 후, 데이터 베이스의 내부 검증 알고리즘에 따라 매칭된 음성 데이터 및 자막 데이터가 적절한지 판단하며(62), 이후 데이터 분류(63) 및 최종 음성 데이터 베이스로서 저장(64)한다. And then determines whether the matched voice data and caption data are appropriate according to the internal verification algorithm of the database (62). Then, the data classification (63) and the final voice data And stored (64) as a base.

도 3은 본 발명의 다양한 실시예에 따른 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템(100)의 동작 중 음성/자막 다중 교집합 분석의 일례를 도시한 도면이다.FIG. 3 is a diagram illustrating an example of voice / caption multiplex intersection analysis during operation of the speech recognition database construction system 100 using digital contents according to various embodiments of the present invention.

도 3에 도시된 바와 같이, 별도 음성 인식 없이 음성을 공백으로 하여 1차로 구분하고, 구분된 데이터를 반복적으로 비교하여 유사한 패턴의 단어는 저장하고 패턴이 다른 데이터는 삭제하는 방식으로 데이터 량이 많아지게 되면서 정확도가 높아지는 방식이다.As shown in FIG. 3, the voice is blanked without voice recognition, the voice data is divided first, the divided data is repeatedly compared, words of similar patterns are stored, and data of different patterns are deleted. This is a way to increase accuracy.

도 4는 본 발명의 다양한 실시예에 따른 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템(100)의 동작 중 메타 분석의 일례를 도시한 도면이다.FIG. 4 is a diagram illustrating an example of meta-analysis during operation of the speech recognition database building system 100 using digital contents according to various embodiments of the present invention.

도 4에 도시된 바와 같이, 추출된 음성과 방송 편성 정보(EPG)를 활용하여 앞뒤 단어를 예측하는데 더 많은 데이터를 제공하여 음성 검색 정확도를 높인다. 예를 들면, 8월 시점에서, "해운대"라는 영화의 제목이 방송에서 가장 많이 사용되면 음성 검색 시 "해운대"를 우선 순위로 노출할 수 있다.As shown in FIG. 4, the extracted voice and broadcast programming information (EPG) are utilized to provide more data for predicting the preceding and succeeding words, thereby improving the voice search accuracy. For example, in August, when the title of the movie "Haeundae" is used most frequently in broadcasting, "Haeundae" can be exposed as a priority in voice search.

이상에서 설명한 것은 본 발명에 따른 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구범위에서 청구하는 바와 같이 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.The present invention is not limited to the above-described embodiments, and various modifications and changes may be made without departing from the scope of the present invention. It will be understood by those of ordinary skill in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined in the appended claims.

100; 음성 인식 데이터 베이스 구축 시스템
110; 데이터 입수부 120; 데이터 추출부
121; 1차 데이터 저장부 130; 데이터 매칭부
131; 2차 데이터 저장부 140; 데이터 검증부
141; 3차 데이터 저장부 150; 데이터 저장부
160; 데이터 분류부 170; 데이터 배포부
180; 정산 관리 서버
100; Speech Recognition Database Construction System
110; Data acquisition unit 120; The data extracting unit
121; A primary data storage unit 130; The data-
131; A secondary data storage unit 140; The data verification unit
141; A tertiary data storage unit 150; The data storage unit
160; A data classifier 170; The data distribution unit
180; Settlement management server

Claims (10)

음성 정보를 포함하는 디지털 콘텐츠를 입수하는 데이터 입수부;
상기 데이터 입수부에서 입수된 디지털 콘텐츠로부터 음성 데이터를 추출하는 데이터 추출부;
상기 데이터 추출부로부터 추출된 음성 데이터에 대응하는 자막 데이터를 매칭하는 데이터 매칭부;
상기 데이터 매칭부에서 매칭된 음성 데이터 및 자막 데이터를 저장하는 데이터 저장부; 및,
음성 데이터의 확인 요청이 있는 경우, 상기 데이터 저장부로부터 해당 음성 데이터 및 자막 데이터를 배포하는 데이터 배포부를 포함하고,
상기 디지털 콘텐츠가 자막 정보를 포함하고 있으면 상기 데이터 추출부가 상기 디지털 콘텐츠로부터 자막 데이터도 추출하고,
상기 데이터 매칭부는 특정 기간 동안 사용된 음성 데이터와 자막 데이터를 모두 비교하여, 가장 많이 중복되는 음성 데이터와 자막 데이터를 매칭하는 교집합 방식으로 동작함을 특징으로 하는 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템.
A data acquisition unit for acquiring digital contents including audio information;
A data extracting unit for extracting audio data from the digital contents acquired by the data acquiring unit;
A data matching unit for matching the caption data corresponding to the audio data extracted from the data extracting unit;
A data storage unit for storing audio data and caption data matched by the data matching unit; And
And a data distribution unit for distributing the audio data and the caption data from the data storage unit when there is a request for confirming the audio data,
If the digital content includes caption information, the data extracting unit also extracts caption data from the digital content,
Wherein the data matching unit compares the audio data and the caption data used for a specific period of time and operates in an intersection scheme for matching the most overlapping audio data with caption data. system.
제 1 항에 있어서,
상기 데이터 저장부에서 저장된 음성 데이터를 분류하는 데이터 분류부를 더 포함함을 특징으로 하는 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템.
The method according to claim 1,
Further comprising a data classifier for classifying the voice data stored in the data storage unit.
제 2 항에 있어서,
상기 데이터 분류부는 상기 저장된 음성 데이터를 형태소별, 단어별, 문장별, 날짜별, 연령별, 장소별, 시간별 또는 장르별로 분류함을 특징으로 하는 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템.
3. The method of claim 2,
Wherein the data classification unit classifies the stored voice data by morpheme, word, sentence, date, age, place, time, or genre.
제 1 항에 있어서,
상기 디지털 콘텐츠는 텔레비젼 방송 또는 라디오 방송을 포함하는 실시간 방송 콘텐츠, 녹화 방송, 스트리밍 방송 또는 오디오 북을 포함하는 녹화 콘텐츠, 또는 방송 편성 정보 콘텐츠인 것을 특징으로 하는 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템.
The method according to claim 1,
Wherein the digital content is a recorded content including a real-time broadcast content including a television broadcast or a radio broadcast, a recorded broadcast, a streaming broadcast, or an audio book, or broadcast programming information content. system.
삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete
KR1020160134423A 2016-10-17 2016-10-17 Speech recognition database construction system using digital content KR101848467B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160134423A KR101848467B1 (en) 2016-10-17 2016-10-17 Speech recognition database construction system using digital content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160134423A KR101848467B1 (en) 2016-10-17 2016-10-17 Speech recognition database construction system using digital content

Publications (1)

Publication Number Publication Date
KR101848467B1 true KR101848467B1 (en) 2018-04-12

Family

ID=61969133

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160134423A KR101848467B1 (en) 2016-10-17 2016-10-17 Speech recognition database construction system using digital content

Country Status (1)

Country Link
KR (1) KR101848467B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102084372B1 (en) * 2019-10-28 2020-03-03 이광선 speech to text translation method for generating subtitle of moving picture in server using dialect database
CN113920507A (en) * 2021-12-13 2022-01-11 成都索贝数码科技股份有限公司 Rolling caption extraction method for news scene

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102084372B1 (en) * 2019-10-28 2020-03-03 이광선 speech to text translation method for generating subtitle of moving picture in server using dialect database
CN113920507A (en) * 2021-12-13 2022-01-11 成都索贝数码科技股份有限公司 Rolling caption extraction method for news scene
CN113920507B (en) * 2021-12-13 2022-04-12 成都索贝数码科技股份有限公司 Rolling caption extraction method for news scene

Similar Documents

Publication Publication Date Title
US10034028B2 (en) Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs
US11803589B2 (en) Systems, methods, and media for identifying content
EP3579118A1 (en) Clarifying audible verbal information in video content
US20140143218A1 (en) Method for Crowd Sourced Multimedia Captioning for Video Content
US20070214480A1 (en) Method and apparatus for conducting media content search and management by integrating EPG and internet search systems
US20120020647A1 (en) Filtering repeated content
US9426411B2 (en) Method and apparatus for generating summarized information, and server for the same
US12019985B2 (en) Language-based content recommendations using closed captions
US20170150225A1 (en) Reminders of Media Content Referenced in Other Media Content
US12003830B2 (en) Media environment driven content distribution platform
KR20110033844A (en) Device and method for providing a television sequence
KR101293301B1 (en) System and method for serching images using caption of moving picture in keyword
KR101478918B1 (en) Apparatus and method for correcting caption subtitle
JP2007102489A (en) Program data processor, program data processing method, control program, recording medium, and video recorder, reproduction device and information display device with program data processor
KR101848467B1 (en) Speech recognition database construction system using digital content
US20120150990A1 (en) System and method for synchronizing with multimedia broadcast program and computer program product thereof
KR20200138710A (en) Coordinates as auxiliary data
JP6811811B1 (en) Metadata generation system, video content management system and programs
US20080016068A1 (en) Media-personality information search system, media-personality information acquiring apparatus, media-personality information search apparatus, and method and program therefor
US20210211753A1 (en) Media environment driven content distribution platform
Armstrong Automatic recovery and verification of subtitles for large collections of video clips
Gibbon et al. Automated content metadata extraction services based on MPEG standards
Kannao et al. A system for semantic segmentation of TV news broadcast videos
WO2016094767A1 (en) Processing segments of closed-caption text using external sources
Series Artificial intelligence systems for programme production and exchange

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant