KR101984042B1

KR101984042B1 - 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법, 그리고 그 시스템

Info

Publication number: KR101984042B1
Application number: KR1020170067179A
Authority: KR
Inventors: 이만홍
Original assignee: 주식회사 엠글리쉬
Priority date: 2017-05-30
Filing date: 2017-05-30
Publication date: 2019-06-04
Also published as: KR20180130933A

Abstract

본 발명은 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법, 그리고 그 시스템에 관한 것으로, 청크 및 핵심어 구현 앱(100)이 외부로부터 입력되거나 데이터베이스(140)에 저장된 영어 기반 음성 정보를 포함한 영상 데이터에서 영어 기반 음성 정보를 인식한 뒤, 인식된 영어 기반 음성 정보의 음구분강도(Intensity)에 대한 분석을 수행하여 음구분강도(Intensity) 중 미리 설정된 강도 레벨 이상으로 지속되는 미리 설정된 지속 시간을 기준으로 청크단위(Chunk Unit)를 추출하는 제 1 단계; 청크 및 핵심어 구현 앱(100)이 각 청크단위(Chunk Unit)에 대한 음절 및 음소 분석을 수행하는 제 2 단계; 및 청크 및 핵심어 구현 앱(100)이 노이즈 게이트 알고리즘(130a)에 의한 노이즈 필터링(Noise Filtering)을 통한 청크단위(Chunk Unit) 내에서 임계 음량 정보(Threshold) 이상의 음성신호 추출을 통해 핵심어를 분석하는 제 3 단계; 를 포함하는 것이 특징이다.
이에 의해, 종래의 문자 인식 기반이 아닌 소리분리단위에 해당하는 청크단위(Chunk Unit) 기반을 통해 어른, 어린이, 남자, 여자 등 다양한 환경에 따라 달라지는 영어 음성신호의 특성을 공통적인 분석 방식을 통해 정밀하게 인식할 수 있는 효과를 제공한다.
또한, 소리단위 기반으로 문장의 청크, 강세 및 핵심어를 추출하고, 이와 연계된 학습 자막을 제공함으로써 보다 효율적인 영어 학습 방법을 제공할 수 있는 효과가 있다.
뿐만 아니라, 청크단위로 새롭게 개편된 영어 학습 기반으로 각 청크단위에서 추출 가능한 핵심어를 기준으로 자동 강세를 제공함으로써, 실제의 영어 학습이 기존의 눈을 통한 학습에서 말하고 들을 수 있는 학습으로의 획기적인 전환이 최소의 알고리즘을 통해서 수행될 수 있도록 하는 효과를 제공한다.

Description

영상데이터 음성신호 기반 청크 및 핵심어 분석 방법, 그리고 그 시스템{ANALYSIS METHOD FOR CHUNK AND KEY WORD BASED ON VOICE SIGNAL OF VIDEO DATA, AND SYSTEM THEREOF}

본 발명은 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법, 그리고 그 시스템에 관한 것으로, 보다 구체적으로는, 종래의 문자 인식 기반이 아닌 소리분리단위에 해당하는 청크단위(Chunk Unit) 기반을 통해 어른, 어린이, 남자, 여자 등 다양한 환경에 따라 달라지는 영어 음성신호의 특성을 공통적인 분석 방식을 통해 정밀하게 인식하도록 하기 위한 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법, 그리고 그 시스템에 관한 것이다.

종래의 기술에 따른 영어 음성인식 기반의 자막생성시, 영화, 동영상 등과 같이 영어 음성신호가 포함된 상태에서 구문단위(문자) 영어 음성신호 인식을 통해 아날로그 신호에 대한 수집 이후 노이즈 필터링을 통해 노이즈를 제거하고 디지털 변환 방식을 통해 자막 텍스트에 대한 생성을 수행할 수 있다.

이후, 폰트크기 및 색상강조 등과 같은 방식을 통해 영어 음성신호의 특성을 구문분석을 통해 강세 및 발음 등으로 표현할 수 있다.

그러나 이 과정에서 문자를 이용한 구문단위 분석시 미리 정의된 알고리즘 규칙에 따라 일정한 결과가 유도되는데, 어른, 어린이, 남자, 여자 등 다양한 환경에 따라 달라지는 영어 음성신호의 특성을 정밀하게 인식하기에는 근본적인 한계가 있다.

이에 따라 해당 기술분야에 있어서는 모든 음성신호에 공통적인 분석 방법을 제공함으로써, 구문단위(문자) 학습의 한계점을 해결하기 위한 기술개발이 요구되고 있다.

대한민국 특허출원 출원번호 제10-1993-0003917호 "영어문자인식방법 및 시스템(METHOD AND SYSTEM FOR ENGLISH CHARACTTER RECOGNITION)" 대한민국 특허등록공보 등록번호 제10-1171221호 "영어 기반 문자 소통 시스템 및 그 방법(SYSTEM AND METHOD FOR COMMUNICATINNG A ENGLISH-BASED CHARACTER MESSAGE)"

본 발명은 상기의 문제점을 해결하기 위한 것으로, 종래의 문자 인식 기반이 아닌 소리분리단위에 해당하는 청크단위(Chunk Unit) 기반을 통해 어른, 어린이, 남자, 여자 등 다양한 환경에 따라 달라지는 영어 음성신호의 특성을 공통적인 분석 방식을 통해 정밀하게 인식하도록 하기 위한 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법, 그리고 그 시스템을 제공하기 위한 것이다.

또한, 본 발명은 소리단위 기반으로 문장의 청크, 강세 및 핵심어를 추출하고, 이와 연계된 학습 자막을 제공함으로써 보다 효율적인 영어 학습 방법을 제공하도록 하기 위한 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법, 그리고 그 시스템을 제공하기 위한 것이다.

또한, 본 발명은 청크단위로 새롭게 개편된 영어 학습 기반으로 각 청크단위에서 추출 가능한 핵심어를 기준으로 자동 강세를 제공함으로써, 실제의 영어 학습이 기존의 눈을 통한 학습에서 말하고 들을 수 있는 학습으로의 획기적인 전환이 최소의 알고리즘을 통해서 수행될 수 있도록 하기 위한 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법, 그리고 그 시스템을 제공하기 위한 것이다.

그러나 본 발명의 목적들은 상기에 언급된 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기의 목적을 달성하기 위해 본 발명의 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법은, 청크 및 핵심어 구현 앱(100)이 인식된 외국어 기반 음성 정보의 음구분강도(Intensity)에 대한 분석을 수행하여 청크단위(Chunk Unit)를 추출하는 제 1 단계; 상기 청크 및 핵심어 구현 앱(100)이 각 청크단위(Chunk Unit)에 대한 음절 및 음소 분석을 수행하는 제 2 단계; 및 상기 청크 및 핵심어 구현 앱(100)이 노이즈 게이트 알고리즘(130a)에 의한 노이즈 필터링(Noise Filtering)을 통한 청크단위(Chunk Unit) 내에서 임계 음량 정보(Threshold) 이상의 음성신호 추출을 통해 핵심어를 분석하는 제 3 단계; 를 포함하는 것이 바람직하다.

이때, 본 발명의 다른 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법에 있어서, 상기 제 1 단계의 음구분강도(Intensity)는, 단위 면적당 소리의 강도를 나타내는 물리량(W/m²)인 것이 바람직하다.

또한, 본 발명의 또 다른 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법에 있어서, 상기 제 1 단계는, 상기 청크 및 핵심어 구현 앱(100)이 음구분강도(Intensity) 중 노이즈(Noise)와 묵음(Silence)에 대해 미리 설정된 각각의 강도 레벨 및 지속 시간의 집합 정보를 활용함으로써, 청크단위(Chunk Unit) 내에서 노이즈(Noise)와 묵음(Silence)을 구별하고, 노이즈와 묵음 중 묵음을 기준으로 청크단위로 분리하는 것이 바람직하다.

또한, 본 발명의 또 다른 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법에 있어서, 상기 제 2 단계는, 상기 청크 및 핵심어 구현 앱(100)이 청크단위(Chunk Unit)에 대해서 음높낮이에 해당하는 피치(Pitch)를 이용해 구분된 음절 단위를 추출하며, 피치로 구별되지 않은 자음 구간인 음소를 구별하여 추출하는 것이 바람직하다.

또한, 본 발명의 또 다른 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법에 있어서, 상기 제 2 단계는, 상기 청크 및 핵심어 구현 앱(100)이 음절을 구별하여 추출시 미리 설정된 피치 이상의 하이 피치(High Pitch)에 대한 분석을 통해 음절의 강세(Stress), 강세(Stress) 지속 시간을 더 추출하는 것이 바람직하다.

또한, 본 발명의 또 다른 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법에 있어서, 상기 제 2 단계는, 상기 청크 및 핵심어 구현 앱(100)이 추출된 음절 및 음소 지속 시간, 그리고 강세(Stress) 지속 시간을 활용하여 청크 및 핵심어 구현 앱(100)의 결과물인 청크단위 강세 학습 파일의 자막 텍스트의 강세(Stress) 부분으로 구현을 수행하는 것이 바람직하다.

또한, 본 발명의 또 다른 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법에 있어서, 상기 제 3 단계는, 상기 청크 및 핵심어 구현 앱(100)이 노이즈 게이트 알고리즘(130a)에 대한 임계 음량 정보(Threshold)에 따른 노이즈 필터링을 통해 청크단위(Chunk Unit) 구간내 미리 설정된 임계 음량 레벨 이상의 음성신호 및 음성신호 지속시간을 추출한 뒤, 추출된 음성신호 지속시간을 활용하여 청크 및 핵심어 구현 앱(100)의 결과물인 청크단위 강세 학습 파일의 자막 텍스트의 핵심어(Key Word) 부분으로 구현하는 것이 바람직하다.

또한, 본 발명의 또 다른 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법은, 청크 및 핵심어 구현 앱(100)이 외부로부터 입력되거나 데이터베이스(140)에 저장된 외국어 기반 음성 정보를 포함한 영상 데이터에서 외국어 기반 음성 정보를 인식한 뒤, 인식된 외국어 기반 음성 정보의 음구분강도(Intensity)에 대한 분석을 수행하여 음구분강도(Intensity) 중 미리 설정된 강도 레벨 이상으로 지속되는 미리 설정된 지속 시간을 기준으로 청크단위(Chunk Unit)를 추출하는 제 1 단계; 청크 및 핵심어 구현 앱(100)이 각 청크단위(Chunk Unit)에 대한 음절 및 음소 분석을 수행하는 제 2 단계; 및 청크 및 핵심어 구현 앱(100)이 노이즈 게이트 알고리즘(130a)에 의한 노이즈 필터링(Noise Filtering)을 통한 청크단위(Chunk Unit) 내에서 임계 음량 정보(Threshold) 이상의 음성신호 추출을 통해 핵심어를 분석하는 제 3 단계; 를 포함하는 것이 바람직하다.

상기의 목적을 달성하기 위해 본 발명의 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 시스템은, 외국어 기반 음성 정보의 음구분강도(Intensity)에 대한 분석을 수행하여 청크단위(Chunk Unit)를 추출하는 청크 추출 모듈(110); 각 청크단위(Chunk Unit)에 대한 음절 및 음소 분석을 수행하는 음절 및 음소 추출 모듈(120); 및 노이즈 게이트 알고리즘(130a)에 의한 노이즈 필터링(Noise Filtering)을 통한 청크단위(Chunk Unit) 내에서 임계 음량 정보(Threshold) 이상의 음성신호 추출을 통해 핵심어를 분석하는 핵심어 추출 모듈(130);을 포함할 수 있다.

이때, 본 발명의 다른 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 시스템에 있어서, 음구분강도(Intensity)는, 단위 면적당 소리의 강도를 나타내는 물리량(W/m²)인 것이 바람직하다.

또한, 본 발명의 또 다른 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 시스템에 있어서, 청크 추출 모듈(110)은, 음구분강도(Intensity) 중 노이즈(Noise)와 묵음(Silence)에 대해 미리 설정된 각각의 강도 레벨 및 지속 시간의 집합 정보를 활용함으로써, 청크단위(Chunk Unit) 내에서 노이즈(Noise)와 묵음(Silence)을 구별하고, 노이즈와 묵음 중 묵음을 기준으로 청크단위로 분리하는 것이 바람직하다.

또한, 본 발명의 또 다른 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 시스템에 있어서, 음절 및 음소 추출 모듈(120)은, 청크단위(Chunk Unit)에 대해서 음높낮이에 해당하는 피치(Pitch)를 이용해 구분된 음절 단위를 추출하며, 피치로 구별되지 않은 자음 구간인 음소를 구별하여 추출하는 것이 바람지하다.

또한, 본 발명의 또 다른 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 시스템에 있어서, 음절 및 음소 추출 모듈(120)은, 음절을 구별하여 추출시 미리 설정된 피치 이상의 하이 피치(High Pitch)에 대한 분석을 통해 음절의 강세(Stress), 강세(Stress) 지속 시간을 더 추출하는 것이 바람직하다.

또한, 본 발명의 또 다른 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 시스템에 있어서, 음절 및 음소 추출 모듈(120)은, 추출된 음절 및 음소 지속 시간, 그리고 강세(Stress) 지속 시간을 활용하여 결과물인 청크단위 강세 학습 파일의 자막 텍스트의 강세(Stress) 부분으로 구현을 수행하는 것이 바람직하다.

또한, 본 발명의 또 다른 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 시스템에 있어서, 핵심어 추출 모듈(130)은, 노이즈 게이트 알고리즘(130a)에 대한 임계 음량 정보(Threshold)에 따른 노이즈 필터링을 통해 청크단위(Chunk Unit) 구간내 미리 설정된 임계 음량 레벨 이상의 음성신호 및 음성신호 지속시간을 추출한 뒤, 추출된 음성신호 지속시간을 활용하여 결과물인 청크단위 강세 학습 파일의 자막 텍스트의 핵심어(Key Word) 부분으로 구현하는 것이 바람직하다.

또한, 본 발명의 또 다른 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 시스템은, 외부로부터 입력되거나 데이터베이스(140)에 저장된 외국어 기반 음성 정보를 포함한 영상 데이터에서 외국어 기반 음성 정보를 인식한 뒤, 인식된 외국어 기반 음성 정보의 음구분강도(Intensity)에 대한 분석을 수행하여 음구분강도(Intensity) 중 미리 설정된 강도 레벨 이상으로 지속되는 미리 설정된 지속 시간을 기준으로 청크단위(Chunk Unit)를 추출하는 청크 추출 모듈(110); 각 청크단위(Chunk Unit)에 대한 음절 및 음소 분석을 수행하는 음절 및 음소 추출 모듈(120); 및 노이즈 게이트 알고리즘(130a)에 의한 노이즈 필터링(Noise Filtering)을 통한 청크단위(Chunk Unit) 내에서 임계 음량 정보(Threshold) 이상의 음성신호 추출을 통해 핵심어를 분석하는 핵심어 추출 모듈(130);을 포함하는 것이 바람직하다.

본 발명의 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법, 그리고 그 시스템은, 종래의 문자 인식 기반이 아닌 소리분리단위에 해당하는 청크단위(Chunk Unit) 기반을 통해 어른, 어린이, 남자, 여자 등 다양한 환경에 따라 달라지는 영어 음성신호의 특성을 공통적인 분석 방식을 통해 정밀하게 인식할 수 있는 효과를 제공한다.

또한, 본 발명의 다른 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법, 그리고 그 시스템은, 소리단위 기반으로 문장의 청크, 강세 및 핵심어를 추출하고, 이와 연계된 학습 자막을 제공함으로써 보다 효율적인 영어 학습 방법을 제공할 수 있는 효과가 있다.

뿐만 아니라, 본 발명의 다른 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법, 그리고 그 시스템은, 청크단위로 새롭게 개편된 영어 학습 기반으로 각 청크단위에서 추출 가능한 핵심어를 기준으로 자동 강세를 제공함으로써, 실제의 영어 학습이 기존의 눈을 통한 학습에서 말하고 들을 수 있는 학습으로의 획기적인 전환이 최소의 알고리즘을 통해서 수행될 수 있도록 하는 효과를 제공한다.

도 1은 본 발명의 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 구현 시스템을 나타내는 도면이다.
도 2는 본 발명의 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법을 나타내는 흐름도이다.
도 3은 본 발명의 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 구현 시스템의 구동 원리를 나타내는 개략도이다.
도 4 및 도 5는 본 발명의 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 구현 시스템에서 청크 및 핵심어 구현 앱(100)에 의한 청크 및 핵심어 구현 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 구현 시스템에서 핵심어 추출 모듈(130)에 구비된 노이즈 게이트 알고리즘(130a)에 구현된 노이즈게이트 유저인터페이스(Noise Gare User Interface) 화면을 나타내는 도면이다.
도 7은 본 발명의 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 구현 시스템에서 핵심어 추출 모듈(130)에 구비된 노이즈 게이트 알고리즘(130a)의 작동 원리를 설명하기 위한 도면이다.

이하, 본 발명의 바람직한 실시예의 상세한 설명은 첨부된 도면들을 참조하여 설명할 것이다. 하기에서 본 발명을 설명함에 있어서, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.

도 1은 본 발명의 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 구현 시스템을 나타내는 도면이다. 도 2는 본 발명의 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법을 나타내는 흐름도이다.

먼저, 도 1을 참조하면, 영상데이터 음성신호 기반 청크 및 핵심어 구현 시스템은 청크 및 핵심어 구현 어플리케이션(이하, 청크 및 핵심어 구현 앱)(100)과 사용자 스마트 디바이스(200)를 포함할 수 있다.

먼저 도 2를 참조하면, 청크 및 핵심어 구현 앱(100)은 청크 분석을 수행한다(S10).

보다 구체적으로, 청크 및 핵심어 구현 앱(100)은 음구분강도(Intensity)를 통한 청크(chunk)를 분리시 외부로부터 입력되거나 데이터베이스(140)에 저장된 영화, 동영상 등과 같은 영어 기반 음성 정보를 포함한 영상 데이터에서 영어 기반 음성 정보를 인식한 뒤, 인식된 영어 기반 음성 정보의 음구분강도(Intensity)에 대한 분석을 수행함으로서, 음구분강도(Intensity) 중 미리 설정된 강도 레벨 이상으로 지속되는 미리 설정된 지속 시간에 대해서 청크단위(Chunk Unit)를 추출할 수 있다.

여기서, 영어 기반 음성 정보를 포함한 영상 데이터로 설명하였으나 이에 국한되는 것이 아님은 명백하며, 일본어, 중국어 등 다양한 외국어 기반 음성 정보를 포함한 영상 데이터도 사용될 수 있음은 물론이다.

한편, 청크 및 핵심어 구현 앱(100)은 미리 설정된 강도 레벨(I1) 이상으로 지속되는 미리 설정된 지속 시간(T1)이 아닌 각 음절(도 2의 A, B, C)을 구성하는 것과 같이 음구분강도(Intensity) 중 노이즈(Noise)와 묵음(Silence)에 대한 미리 설정된 각각의 강도 레벨 및 지속 시간의 집합 정보를 미리 설정함으로써, 하나의 문장단위 내에서 노이즈(Noise)와 묵음(Silence)을 구별하는 방식으로 청크단위를 분리할 수 있다.

단계(S10) 이후, 청크 및 핵심어 구현 앱(100)은 음절 및 음소 분석을 수행한다(S20). 보다 구체적으로 청크 및 핵심어 구현 앱(100)은 단계(S10)에서 분석된 청크단위(Chunk Unit)에 대해서 음높낮이에 해당하는 피치(Pitch)를 이용해 구분된 음절 단위를 추출하며, 피치로 구별되지 않은 자음 구간인 음소를 구별하여 추출한다. 또한, 청크 및 핵심어 구현 앱(100)은 음절을 구별하여 추출시 미리 설정된 피치 이상의 하이 피치(High Pitch)에 대한 분석을 통해 음절의 강세(Stress), 강세(Stress) 지속 시간을 추출할 수 있으며, 추출된 음절 및 음소 지속 시간, 그리고 강세(Stress) 지속 시간을 활용하여 청크 및 핵심어 구현 앱(100)의 결과물인 청크단위 강세 학습 파일의 자막 텍스트의 강세(Stress) 부분으로 구현을 수행할 수 있다.

이때, 강세는 피치에 나타난 모음구간인 음절에만 표시됨은 물론이다.

단계(S20) 이후, 청크 및 핵심어 구현 앱(100)은 핵심어 분석을 수행한다(S30). 보다 구체적으로, 청크 및 핵심어 구현 앱(100)은 노이즈 게이트 알고리즘(130a)에 의한 노이즈 필터링(Noise Filtering)을 통한 청크단위(Chunk Unit) 내에서 핵심어를 추출할 수 있다. 즉, 청크 및 핵심어 구현 앱(100)은 노이즈 게이트 알고리즘(130a)에 대한 임계 음량 정보(Threshold)에 따른 노이즈 필터링을 통해 청크단위(Chunk Unit) 구간내 미리 설정된 임계 음량 레벨 이상의 음성신호 및 음성신호 지속시간을 추출한 뒤, 추출된 음성신호 지속시간을 활용하여 청크 및 핵심어 구현 앱(100)의 결과물인 청크단위 강세 학습 파일의 자막 텍스트의 핵심어(Key Word) 부분으로 구현되도록 할 수 있다. 이때, 핵심어에 대한 최후 강세가 남을 때까지 노이즈 필터링을 계속해서 진행할 수 있음은 물론이다.

다음으로, 도 3은 본 발명의 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 구현 시스템의 구동 원리를 나타내는 개략도이다. 도 4 및 도 5는 본 발명의 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 구현 시스템에서 청크 및 핵심어 구현 앱(100)에 의한 청크 및 핵심어 구현 과정을 설명하기 위한 도면이다. 도 6은 본 발명의 실시예에 따른 영상데이터 음성신호 기반 청크 및 핵심어 구현 시스템에서 핵심어 추출 모듈(130)에 구비된 노이즈 게이트 알고리즘(130a)에 구현된 노이즈게이트 유저인터페이스(Noise Gare User Interface) 화면을 나타내는 도면이다.

다시 도 1을 참조하여 청크 및 핵심어 구현 앱(100)의 구성요소는 세부 구성요소로 청크 추출 모듈(110), 음절 및 음소 추출 모듈(120), 그리고 핵심어 추출 모듈(130)을 구비할 수 있다.

이하에서는 청크 및 핵심어 구현 앱(100)의 세부 구성요소를 중심으로, 도 1, 도 3 내지 도 6을 참조하여 영상데이터 음성신호 기반 청크 및 핵심어 구현 시스템에 대해서 구체적으로 살펴보도록 한다.

도 3에 도시된 바와 같이, 영상데이터 음성신호 기반 청크 및 핵심어 구현 시스템의 구동 원리는 영화, 동영상 등과 같은 영어 기반 음성 정보를 포함한 영상 데이터에서 전체 사운드를 분석하여 음성 정보를 제외한 노이즈를 필터링하여 제거한 뒤, 음절과 음소를 분리하여 추출된 핵심어를 폰트 크기나 색상 등을 차별화시켜 표시되도록 한다.

여기서, 청크 추출 모듈(110)은 음구분강도(Intensity)를 통한 청크(chunk)를 분리하며, 음절 및 음소 추출 모듈(120)은 피치(Pitch)를 통한 음절과 음소를 분리하며, 핵심어 추출 모듈(130)은 핵심어를 추출할 수 있다.

보다 구체적으로, 청크 추출 모듈(110)은 외부로부터 입력되거나 데이터베이스(140)에 저장된 영화, 동영상 등과 같은 영어 기반 음성 정보를 포함한 영상 데이터에서 영어 기반 음성 정보를 인식한 뒤, 인식된 영어 기반 음성 정보의 음구분강도(Intensity)에 대한 분석을 수행한다.

한편, 본 발명에서 청크(Chunk)를 구분하기 위한 음구분강도(Intensity)란 단위 면적당 소리의 강도를 나타내는 물리량(W/m²)에 해당할 수 있다.

도 4는 청크단위를 추출하는 일 실시예로, 예시된 바와 같은 영어 기반 음성 정보에 해당하는 "What's the(A) purpose(B) of your visit(C)?"가 청크단위(Chunk Unit)일 수 있다. 청크 추출 모듈(110)은 음구분강도(Intensity) 중 미리 설정된 강도 레벨(I1) 이상으로 지속되는 미리 설정된 지속 시간(T1)을 기준으로 청크단위(Chunk Unit)를 추출할 수 있다.

본 발명의 다른 실시예로, 청크 추출 모듈(110)은 음구분강도(Intensity) 중 노이즈(Noise)와 묵음(Silence)에 대한 음구분강도로 상술한 청크단위 구분을 위한 것과 다르게 설정된 각각의 강도 레벨 및 지속 시간의 집합 정보를 미리 설정함으로써, 청크단위(Chunk Unit) 내에서 노이즈(Noise)와 묵음(Silence)을 구별할 수 있고, 묵음를 통한 기준에 의해서도 청크단위로 분리하는 방법을 취할 수 있다.

음절 및 음소 추출 모듈(120)은 청크 추출 모듈(110)에 의해 추출된 청크단위(Chunk Unit)에 대해서 음높낮이에 해당하는 피치(Pitch)를 이용해 구분된 음절 단위(A, B, C)를 추출하며, 피치로 구별되지 않은 자음 구간인 음소를 구별하여 추출한다. 여기서, 피치(Pitch)란 음높낮이를 표현하며, 음성학에서는 피치를 이용해 성대의 진동이 1초에 몇번 있는가를 나타내며, 남성은 120Hz, 여성은 230Hz 정도에 해당한다. 이에 따라, 음절 및 음소 추출 모듈(120)은 75 내지 600Hz 구간에서 유성음, 모음 등에 대한 피치(Pitch)를 측정할 수 있다.

여기서 음절 및 음소 추출 모듈(120)이 음절을 구별하여 추출시 미리 설정된 피치 이상의 하이 피치(High Pitch)에 대한 분석을 통해 음절의 강세(Stress), 강세(Stress) 지속 시간을 추출할 수 있으며, 추출된 음절 및 음소 지속 시간, 그리고 강세(Stress) 지속 시간을 활용하여 청크 및 핵심어 구현 앱(100)의 결과물인 청크단위 강세 학습 파일의 자막 텍스트의 강세(Stress) 부분으로 구현을 수행할 수 있다.

본 발명의 일 실시예로, 음절 및 음소 추출 모듈(120)에 의한 음절 및 음소 분리시 모음은 유성음으로 발음되기 때문에 피치를 통해 음성 신호의 끝점인 음절을 검출하고, 모음 구간인 음절내에서 데이터베이스(140)에 저장된 유성음 모델 파라미터를 이용해 모음을 삭제하는 방식으로 자음 구간인 음소를 구별할 수 있다.

한편, 음절 및 음소 추출 모듈(120)은 강세(Stress) 추출시 음절 중 모음 구간의 피치의 변화를 분석함으로써, 발음의 강세를 파악할 수 있으며, 음절내 하이 피치(High Pitch)에 대한 추출을 통해 강세를 분석할 수 있다.

핵심어 추출 모듈(130)은 노이즈 게이트 알고리즘(130a)을 구비함으로써, 노이즈 필터링(Noise Filtering)을 통한 청크단위(Chunk Unit) 내에서 핵심어를 추출할 수 있다.

보다 구체적으로, 핵심어 추출 모듈(130)은 노이즈 게이트 알고리즘(130a)에 대한 임계 음량 정보(Threshold)에 따른 노이즈 필터링을 통해 청크단위(Chunk Unit) 구간내 미리 설정된 임계 음량 레벨 이상의 음성신호 및 음성신호 지속시간을 추출한 뒤, 추출된 음성신호 지속시간을 활용하여 청크 및 핵심어 구현 앱(100)의 결과물인 청크단위 강세 학습 파일의 자막 텍스트의 핵심어(Key Word) 부분으로 구현되도록 할 수 있다.

노이즈 게이트 알고리즘(130a)은 청크단위(Chunk unit) 또는 음절단위(Syllable Unit) 내에서 노이즈 필터링을 통해 음성신호 중 특정 주파수를 필터링할 수 있다. 본 발명에서, 노이즈 게이트 알고리즘(130a)은 High-Pass Filtering일 수 있으며, 임계 음량 정보(Threshold) 이상 구간의 음성신호 및 지속시간을 추출할 수 있다.

한편, 도 6은 노이즈 게이트 알고리즘(130a)에 의한 노이즈 필터링 이후의 피치(Pitch)와 음구분강도(Intensity)의 보정 효과를 나타내며, 본 발명의 다른 실시예로, 상술한 청크 추출 모듈(110), 음절 및 음소 추출 모듈(120)도 각각 노이즈 게이트 알고리즘(130a)을 활용하여 청크 추출, 그리고 음절 및 음소와 강세(Stress) 추출을 수행할 수 있다.

이를 위해 노이즈 게이트 알고리즘(130a)은 도 5와 같은 노이즈 게이트 유저인터페이스(Noise Gate User Interface) 화면을 자체적인 입출력부 또는 사용자 스마트 디바이스(200)의 터치스크린으로 제공함으로써, 음성신호 레벨이 전체적으로 임계 음량 정보(Threshold)이하가 되면, 음성신호 증폭수단을 통해 신속하게 미리 설정된 비율로 증폭하여 음성신호 출력 레벨을 조절할 수 있다.

일반적으로 노이즈(Noise) 레벨은 음성신호에 비해 상당히 낮기 때문에 임계 음량 정보(Threshold)에 대한 설정에 의해 핵심어 추출을 원하는 음성신호에는 영향을 주지 않을 수 있다.

도 7을 참조하면, 임계 음량 정보(Threshold)를 통해 노이즈 게이트 알고리즘(130a)은 미리 설정해 놓은 임계 음량 보다 낮은 음량이라면 절대 통과시키지 않는 방식으로 작동될 수 있다.

예를 들어 도 7a와 같이 Vocal Recording을 완료했지만, 주변 환경 등에 의해 녹음물에 노이즈(Noise)가 함께 저장된 것으로 가정하면, 이 노이즈(Noise)는 음성신호가 출력되는 경우, 음성신호의 상대적으로 큰 음량에 가려서 잘 들리지 않지만, 음성신호의 출력이 잠깐 멈추는 묵음(Silence) 구간에서는 잘 들릴 수 있다. 이에 따라, 도 7b와 같이, 노이즈 게이트 알고리즘(130a)은 임계 음량 정보(Threshold)를 필요한 음성신호의 음량보다는 작게, 하지만 노이즈(Noise) 음량 보다는 크게 설정할 수 있다.

이상과 같이, 본 명세서와 도면에는 본 발명의 바람직한 실시예에 대하여 개시하였으며, 비록 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시예 외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

100 : 청크 및 핵심어 구현 어플리케이션(청크 및 핵심어 구현 앱)
110 : 청크 추출 모듈
120 : 음절 및 음소 추출 모듈
130 : 핵심어 추출 모듈
130a : 노이즈 게이트 알고리즘
140 : 데이터베이스(DB)
200 : 사용자 스마트 디바이스

Claims

청크 및 핵심어 구현 앱(100)이 인식된 외국어 기반 음성 정보의 음구분강도(Intensity)에 대한 분석을 수행하여 청크단위(Chunk Unit)를 추출하는 제 1 단계;
상기 청크 및 핵심어 구현 앱(100)이 각 청크단위(Chunk Unit)에 대한 음절 및 음소 분석을 수행하는 제 2 단계; 및
상기 청크 및 핵심어 구현 앱(100)이 노이즈 게이트 알고리즘(130a)에 의한 노이즈 필터링(Noise Filtering)을 통한 청크단위(Chunk Unit) 내에서 임계 음량 정보(Threshold) 이상의 음성신호 추출을 통해 핵심어를 분석하는 제 3 단계; 를 포함하며,
상기 제 3 단계는,
상기 청크 및 핵심어 구현 앱(100)이 노이즈 게이트 알고리즘(130a)에 대한 임계 음량 정보(Threshold)에 따른 노이즈 필터링을 통해 청크단위(Chunk Unit) 구간내 미리 설정된 임계 음량 레벨 이상의 음성신호 및 음성신호 지속시간을 추출한 뒤, 추출된 음성신호 지속시간을 활용하여 상기 청크 및 핵심어 구현 앱(100)의 결과물인 청크단위 강세 학습 파일의 자막 텍스트의 핵심어(Key Word) 부분으로 구현하는 것을 특징으로 하는 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법.
청구항 1에 있어서, 상기 제 1 단계의 음구분강도(Intensity)는,
단위 면적당 소리의 강도를 나타내는 물리량(W/m²)인 것을 특징으로 하는 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법.
청구항 1에 있어서, 상기 제 1 단계는,
상기 청크 및 핵심어 구현 앱(100)이 음구분강도(Intensity) 중 노이즈(Noise)와 묵음(Silence)에 대해 미리 설정된 각각의 강도 레벨 및 지속 시간의 집합 정보를 활용함으로써, 청크단위(Chunk Unit) 내에서 노이즈(Noise)와 묵음(Silence)을 구별하고, 노이즈와 묵음 중 묵음을 기준으로 청크단위로 분리하는 것을 특징으로 하는 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법.
청구항 1에 있어서, 상기 제 2 단계는,
상기 청크 및 핵심어 구현 앱(100)이 청크단위(Chunk Unit)에 대해서 음높낮이에 해당하는 피치(Pitch)를 이용해 구분된 음절 단위를 추출하며, 피치로 구별되지 않은 자음 구간인 음소를 구별하여 추출하는 것을 특징으로 하는 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법.
청구항 4에 있어서, 상기 제 2 단계는,
상기 청크 및 핵심어 구현 앱(100)이 음절을 구별하여 추출시 미리 설정된 피치 이상의 하이 피치(High Pitch)에 대한 분석을 통해 강세(Stress), 강세(Stress) 지속 시간을 더 추출하는 것을 특징으로 하는 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법.
청구항 5에 있어서, 상기 제 2 단계는,
상기 청크 및 핵심어 구현 앱(100)이 추출된 음절 및 음소 지속 시간, 그리고 강세(Stress) 지속 시간을 활용하여 청크 및 핵심어 구현 앱(100)의 결과물인 청크단위 강세 학습 파일의 자막 텍스트의 강세(Stress) 부분으로 구현을 수행하는 것을 특징으로 하는 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법.
삭제
청크 및 핵심어 구현 앱(100)이 외부로부터 입력되거나 데이터베이스(140)에 저장된 외국어 기반 음성 정보를 포함한 영상 데이터에서 외국어 기반 음성 정보를 인식한 뒤, 인식된 외국어 기반 음성 정보의 음구분강도(Intensity)에 대한 분석을 수행하여 음구분강도(Intensity) 중 미리 설정된 강도 레벨 이상으로 지속되는 미리 설정된 지속 시간을 기준으로 청크단위(Chunk Unit)를 추출하는 제 1 단계;
청크 및 핵심어 구현 앱(100)이 각 청크단위(Chunk Unit)에 대한 음절 및 음소 분석을 수행하는 제 2 단계; 및
청크 및 핵심어 구현 앱(100)이 노이즈 게이트 알고리즘(130a)에 의한 노이즈 필터링(Noise Filtering)을 통한 청크단위(Chunk Unit) 내에서 임계 음량 정보(Threshold) 이상의 음성신호 추출을 통해 핵심어를 분석하는 제 3 단계; 를 포함하며,
상기 제 3 단계는,
상기 청크 및 핵심어 구현 앱(100)이 노이즈 게이트 알고리즘(130a)에 대한 임계 음량 정보(Threshold)에 따른 노이즈 필터링을 통해 청크단위(Chunk Unit) 구간내 미리 설정된 임계 음량 레벨 이상의 음성신호 및 음성신호 지속시간을 추출한 뒤, 추출된 음성신호 지속시간을 활용하여 상기 청크 및 핵심어 구현 앱(100)의 결과물인 청크단위 강세 학습 파일의 자막 텍스트의 핵심어(Key Word) 부분으로 구현하는 것을 특징으로 하는 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법.
외국어 기반 음성 정보의 음구분강도(Intensity)에 대한 분석을 수행하여 청크단위(Chunk Unit)를 추출하는 청크 추출 모듈(110);
각 청크단위(Chunk Unit)에 대한 음절 및 음소 분석을 수행하는 음절 및 음소 추출 모듈(120); 및
노이즈 게이트 알고리즘(130a)에 의한 노이즈 필터링(Noise Filtering)을 통한 청크단위(Chunk Unit) 내에서 임계 음량 정보(Threshold) 이상의 음성신호 추출을 통해 핵심어를 분석하는 핵심어 추출 모듈(130);을 포함하며,
상기 핵심어 추출 모듈(130)은,
상기 노이즈 게이트 알고리즘(130a)에 대한 임계 음량 정보(Threshold)에 따른 노이즈 필터링을 통해 청크단위(Chunk Unit) 구간내 미리 설정된 임계 음량 레벨 이상의 음성신호 및 음성신호 지속시간을 추출한 뒤, 추출된 음성신호 지속시간을 활용하여 결과물인 청크단위 강세 학습 파일의 자막 텍스트의 핵심어(Key Word) 부분으로 구현하는 것을 특징으로 하는 영상데이터 음성신호 기반 청크 및 핵심어 분석 시스템.
청구항 9에 있어서, 상기 음구분강도(Intensity)는,
단위 면적당 소리의 강도를 나타내는 물리량(W/m²)인 것을 특징으로 하는 영상데이터 음성신호 기반 청크 및 핵심어 분석 시스템.
청구항 9에 있어서, 상기 청크 추출 모듈(110)은,
상기 음구분강도(Intensity) 중 노이즈(Noise)와 묵음(Silence)에 대해 미리 설정된 각각의 강도 레벨 및 지속 시간의 집합 정보를 활용함으로써, 청크단위(Chunk Unit) 내에서 노이즈(Noise)와 묵음(Silence)을 구별하고, 노이즈와 묵음 중 묵음을 기준으로 청크단위로 분리하는 것을 특징으로 하는 영상데이터 음성신호 기반 청크 및 핵심어 분석 시스템.
청구항 9에 있어서, 상기 음절 및 음소 추출 모듈(120)은,
청크단위(Chunk Unit)에 대해서 음높낮이에 해당하는 피치(Pitch)를 이용해 구분된 음절 단위를 추출하며, 피치로 구별되지 않은 자음 구간인 음소를 구별하여 추출하는 것을 특징으로 하는 영상데이터 음성신호 기반 청크 및 핵심어 분석 시스템.
청구항 9에 있어서, 상기 음절 및 음소 추출 모듈(120)은,
음절을 구별하여 추출시 미리 설정된 피치 이상의 하이 피치(High Pitch)에 대한 분석을 통해 음절의 강세(Stress), 강세(Stress) 지속 시간을 더 추출하는 것을 특징으로 하는 영상데이터 음성신호 기반 청크 및 핵심어 분석 시스템.
청구항 9에 있어서, 상기 음절 및 음소 추출 모듈(120)은,
추출된 음절 및 음소 지속 시간, 그리고 강세(Stress) 지속 시간을 활용하여 결과물인 청크단위 강세 학습 파일의 자막 텍스트의 강세(Stress) 부분으로 구현을 수행하는 것을 특징으로 하는 영상데이터 음성신호 기반 청크 및 핵심어 분석 시스템.
삭제
외부로부터 입력되거나 데이터베이스(140)에 저장된 외국어 기반 음성 정보를 포함한 영상 데이터에서 외국어 기반 음성 정보를 인식한 뒤, 인식된 외국어 기반 음성 정보의 음구분강도(Intensity)에 대한 분석을 수행하여 음구분강도(Intensity) 중 미리 설정된 강도 레벨 이상으로 지속되는 미리 설정된 지속 시간을 기준으로 청크단위(Chunk Unit)를 추출하는 청크 추출 모듈(110);
각 청크단위(Chunk Unit)에 대한 음절 및 음소 분석을 수행하는 음절 및 음소 추출 모듈(120); 및
노이즈 게이트 알고리즘(130a)에 의한 노이즈 필터링(Noise Filtering)을 통한 청크단위(Chunk Unit) 내에서 임계 음량 정보(Threshold) 이상의 음성신호 추출을 통해 핵심어를 분석하는 핵심어 추출 모듈(130);을 포함하며,
상기 핵심어 추출 모듈(130)은,
상기 노이즈 게이트 알고리즘(130a)에 대한 임계 음량 정보(Threshold)에 따른 노이즈 필터링을 통해 청크단위(Chunk Unit) 구간내 미리 설정된 임계 음량 레벨 이상의 음성신호 및 음성신호 지속시간을 추출한 뒤, 추출된 음성신호 지속시간을 활용하여 결과물인 청크단위 강세 학습 파일의 자막 텍스트의 핵심어(Key Word) 부분으로 구현하는 것을 특징으로 하는 영상데이터 음성신호 기반 청크 및 핵심어 분석 시스템.