KR20230123409A

KR20230123409A - 음성 인식을 통한 영상 검색 시스템 및 방법

Info

Publication number: KR20230123409A
Application number: KR1020220095850A
Authority: KR
Inventors: 곽옥남
Original assignee: 곽옥남
Priority date: 2022-02-16
Filing date: 2022-08-02
Publication date: 2023-08-23

Abstract

본 발명의 일 실시예에 따른 음성 인식을 통한 영상 검색 시스템 및 방법은 동영상 파일을 입력 받아 상기 동영상 파일에서 재생되는 내용을 텍스트 데이터로 변환하는 텍스트 변환부; 및 사용자로부터 입력되는 키워드와 관련된 키워드 관련 단어를 산출하고, 상기 키워드 및 상기 키워드 관련 단어를 상기 텍스트 데이터에서 검색하는 텍스트 검색부;를 포함하고, 상기 텍스트 변환부는, 상기 동영상 파일의 영상의 변화 및 상기 동영상 파일의 음성의 변화를 인식하여 문장의 시작과 끝을 결정하여 상기 텍스트 데이터를 문장으로 구분하여 출력하는 텍스트 변환 모델 및 상기 텍스트 데이터를 분석하여 문단으로 구분하는 텍스트 분석 모델을 포함하는 것을 특징으로 한다.

Description

음성 인식을 통한 영상 검색 시스템 및 방법{Searching System and Method through voice recognition}

본 명세서는 음성 인식을 통한 영상 검색 시스템 및 방법에 관한 것이다.

컴퓨팅 기술의 발달로, 음악, 비디오, 이미지 등 다양한 멀티미디어 컨텐츠의 생성과 멀티미디어 컨텐츠의 전송 및 구매가 용이해짐에 따라 컨텐츠의 양과 질은 매우 급속하게 증대되고 있다. 즉, 현재 다양한 종류의 방대한 양의 컨텐츠들이 웹 상에 공급 및 존재하며, 사용자들은 웹 환경에서 원하는 비디오 컨텐츠를 검색 및 획득하여 이를 재생 및 시청할 수 있게 되었다.

이러한 환경에서 사용자들은 웹 환경에 존재하는 비디오 컨텐츠 내의 내용을 보다 빠르고 간편하게 검색하고자 하는 욕구를 가진다.

본 발명은 영상에 포함된 음성을 인식하여 사용자가 입력한 키워드를 용이하게 검색하는 음성 인식을 통한 영상 검색 시스템 및 방법을 제공하는 것을 그 기술적 과제로 한다.

본 발명에 따른 음성 인식을 통한 영상 검색 시스템 및 방법은 동영상 형태의 컨텐츠를 텍스트로 변환하여 컨텐츠 내에서 사용자가 원하는 정보를 보다 신속하게 검색할 수 있는 효과가 있다.

본 발명에 따른 음성 인식을 통한 영상 검색 시스템 및 방법은 동영상 형태의 컨텐츠를 텍스트로 변환하여 변환된 텍스트를 기반으로 동영상에 포함되는 내용을 분석하여 사용자에게 동영상에 대한 정보를 용이하게 제공할 수 있다.

본 발명에 따른 음성 인식을 통한 영상 검색 시스템 및 방법은 동영상 형태의 컨텐츠를 문장 단위 또는 문단 단위로 동영상 파일을 분리하여 분리된 동영상 파일을 각각 NFT로 만들어 동영상 파일 내의 모든 문장 또는 문단을 가장 자산화 할 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성 인식을 통한 영상 검색 시스템의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 음성 인식을 통한 영상 검색 방법의 플로우 차트이다.
도 3은 본 발명의 일 실시예에 따른 음성 인식을 통한 영상 검색 방법의 텍스트 변환 과정을 나타낸 플로우 차트이다.
도 4는 본 발명의 일 실시예에 따른 음성 인식을 통한 영상 검색 방법의 텍스트 검색 과정을 나타낸 플로우 차트이다.
도 5는 본 발명의 일 실시예에 따른 음성 인식을 통한 영상 검색 방법의 NFT 생성과정을 나타낸 플로우 차트이다.

명세서 전체에 걸쳐서 동일한 참조번호들은 실질적으로 동일한 구성요소들을 의미한다. 이하의 설명에서, 본 발명의 핵심 구성과 관련이 없는 경우 및 본 발명의 기술분야에 공지된 구성과 기능에 대한 상세한 설명은 생략될 수 있다. 본 명세서에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 발명의 실시예를 설명하기 위한 도면에 개시된 형상, 크기, 비율, 각도, 개수 등은 예시적인 것이므로 본 발명이 도시된 사항에 한정되는 것은 아니다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다. 또한, 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다.

본 명세서에서 언급된 '포함한다', '갖는다', '이루어진다' 등이 사용되는 경우 '~만'이 사용되지 않는 이상 다른 부분이 추가될 수 있다. 구성 요소를 단수로 표현한 경우에 특별히 명시적인 기재 사항이 없는 한 복수를 포함하는 경우를 포함한다.

구성 요소를 해석함에 있어서, 별도의 명시적 기재가 없더라도 오차 범위를 포함하는 것으로 해석한다.

시간 관계에 대한 설명일 경우, 예를 들어, '~후에', '~에 이어서', '~다음에', '~전에' 등으로 시간적 선후 관계가 설명되는 경우, '바로' 또는 '직접'이 사용되지 않는 이상 연속적이지 않은 경우도 포함할 수 있다.

제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않는다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있다.

"적어도 하나"의 용어는 하나 이상의 관련 항목으로부터 제시 가능한 모든 조합을 포함하는 것으로 이해되어야 한다. 예를 들어, "제1 항목, 제2 항목 및 제3 항목 중에서 적어도 하나"의 의미는 제1 항목, 제2 항목 또는 제3 항목 각각뿐만 아니라 제1 항목, 제2 항목 및 제3 항목 중에서 2개 이상으로부터 제시될 수 있는 모든 항목의 조합을 의미할 수 있다.

본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하고, 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시할 수도 있다.

이하, 도 1을 참조하여, 본 발명의 일 실시예에 따른 음성 인식을 통한 영상 검색 시스템에 대해 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 음성 인식을 통한 영상 검색 시스템의 블록도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 음성 인식을 통한 영상 검색 시스템(10)은 텍스트 변환부(100), 텍스트 검색부(200) 및 NFT 생성부(300)를 포함한다.

텍스트 변환부(100)는 동영상 파일(Video)을 입력 받아, 동영상 파일(Video)에서 재생되는 컨텐츠를 텍스트 데이터(Text)로 변환한다. 텍스트 변환부(100)는 텍스트 변환 모델을 포함할 수 있으며, 이러한 텍스트 변환 모델은 동영상 파일(Video)를 입력 받아 동영상 파일(Video)의 재생시간에 대응하는 텍스트 데이터(Text)로 변환한다.

본 발명의 일 실시예에 따르면, 텍스트 변환 모델은 동영상 파일(Video)의 영상의 변화 및 동영상 파일(Video)의 음성의 변화를 인식하여 문장의 시작과 끝을 보다 정확하게 결정하여, 변환되는 텍스트를 문장으로 구분되는 텍스트 데이터(Text)를 출력한다. 예를 들어, 텍스트 변환 모델은 동영상 파일(Video)의 영상에 나타나는 화자의 표정, 행동 등의 변화를 인식하여 문장의 시작과 끝을 보다 정확하게 결정할 수 있다. 이를 위해, 텍스트 변환 모델은 적어도 하나의 자연어 처리(Natural Language Processing) 모델 또는 적어도 하나의 딥러닝 기반 영상 처리 모델을 포함할 수 있다.

본 발명의 다른 일 실시예에 따르면, 텍스트 변환 모델은 동영상 파일(Video)의 영상에 사람의 얼굴이 포함되어 있는지 판단하고, 동영상 파일(Video)의 영상에 사람의 얼굴이 포함되어 있는 경우, 동영상 파일(Video)의 영상 및 동영상 파일(Video)의 음성을 이용하여 문장의 시작과 끝을 판별하고, 동영상 파일(Video)의 영상에 사람의 얼굴이 포함되어 있지 않은 경우, 동영상 파일(Video)의 음성 크기의 변화량 및 높낮이의 변화량을 이용하여 문장의 시작과 끝을 판별한다. 특히, 동영상 파일(Video)의 영상에 사람의 얼굴이 포함되어 있는 경우, 텍스트 변환 모델은 동영상 파일(Video)의 영상에 포함된 사람의 얼굴 표정 변화 및 동영상 파일(Video)의 음성 크기의 변화량 및 높낮이의 변화량을 이용하여 문장의 시작과 끝을 판별한다. 이를 위해, 텍스트 변환 모델은 사람의 얼굴을 포함하는 복수의 영상을 입력 받아 학습된 모델 및 복수의 음성을 입력 받아 학습된 모델을 포함할 수 있다.

또한, 텍스트 변환부(100)는 텍스트 분석 모델을 포함할 수 있다. 즉, 텍스트 분석 모델은 텍스트 데이터(Text)를 이용하여 동영상 파일(Video)에서 재생되는 내용의 문단 및 고빈도 단어를 산출할 수 있다. 구체적으로, 텍스트 분석 모델은 텍스트 데이터(Text)를 입력 받고 텍스트 데이터(Text)에서 빈번하게 사용되는 고빈도 단어들과 각 고빈도 단어들의 빈도수를 추출한다. 텍스트 분석 모델은 추출한 각 고빈도 단어들의 빈도수 및 각 고빈도 단어들의 관련도를 산출하고, 산출된 고빈도 단어들 간의 관련도를 이용하여 텍스트 데이터(Text)를 주제별로 분류하고 문단을 구분할 수 있다. 예를 들어, 텍스트 분석 모델은 텍스트 데이터(Text)를 구성하는 각 문장들 사이의 상관관계를 파악하여 문단을 분류할 수 있다. 이를 위해, 텍스트 분석 모델은 텍스트 마이닝(Text Mining)을 이용하여 텍스트 데이터(Text)의 문단을 구분할 수 있다.

텍스트 검색부(200)는 사용자로부터 키워드(KWord)를 입력 받고, 텍스트 변환부(100)에서 텍스트 데이터(Text)를 입력 받아, 텍스트 데이터(Text)에서 키워드(KWord)를 검색한다.

텍스트 검색부(200)는 사용자가 입력한 키워드(KWord)를 분석하여 키워드(KWord)와 관련이 있는 키워드 관련 단어를 산출하고, 산출된 키워드 관련 단어를 텍스트 데이터(Text)에서 검색할 수 있다. 예를 들어, 텍스트 검색부(200)는 사용자가 입력한 키워드(KWord)의 유의어를 키워드 관련 단어로서 산출하고, 키워드(KWord) 및 키워드 관련 단어를 텍스트 데이터(Text)에서 검색한다. 이때, 검색 결과로서 동영상 파일(Video)에서 키워드(KWord) 및 키워드 관련 단어를 포함하는 텍스트 데이터(Text)에 대응되는 재생시간을 표시하거나, 텍스트 데이터(Text)에서 키워드 및 키워드 관련 단어의 위치를 표시할 수 있다. 또는, 텍스트 검색부(200)는 키워드(KWord) 및 키워드 관련 단어를 포함하는 문장의 재생시간 및 그 문장에 포함된 키워드 및 키워드 관련 단어를 리스트로 표시할 수 있다.

본 발명의 일 실시예에 따르면, 동영상 형태의 컨텐츠에서 사용자가 원하는 정보를 보다 신속하게 검색할 수 있으며, 동영상 형태의 컨텐츠 내용을 인식 및 분석하여 사용자에게 동영상에 포함된 컨텐츠에 대한 정보를 용이하게 제공할 수 있다.

NFT 생성부(300)는 동영상 파일(Video)을 입력 받아, 동영상 파일(Video)을 문장 또는 문단 단위로 편집하여 NFT(Non-Fungible Token)으로 만든다. 구체적으로, NFT 생성부(300)는 텍스트 변환부(100)에서 출력하는 동영상 파일(Video)을 문장 단위로 각 문장의 재생시간에 대응하여 편집하여 분리하고, 문장 단위로 분리된 동영상 파일(Video) 각각을 NFT로 만들 수 있다. 또는, 텍스트 변환부에 포함된 텍스트 분석 모델로부터 출력되는 문단 단위로 각 문단의 재생시간에 대응하여 편집하여 분리하고, 문단 단위로 분리된 동영상 파일(Video) 각각을 NFT로 만들 수 있다.

본 발명에 따른 음성 인식을 통한 영상 검색 시스템 및 방법은 동영상 형태의 컨텐츠를 문장 단위 또는 문단 단위로 동영상 파일을 분리하여 분리된 동영상 파일을 각각 NFT로 만들어 동영상 파일 내의 모든 문장 또는 문단을 가장 자산화하여 거래할 수 있다.

이하, 도 2 내지 도 4를 참조하여, 본 발명의 일 실시예에 따른 음성 인식을 통한 영상 검색 방법에 대해 상세히 설명한다.

도 2는 본 발명의 일 실시예에 따른 음성 인식을 통한 영상 검색 방법의 플로우 차트이고, 도 3은 본 발명의 일 실시예에 따른 음성 인식을 통한 영상 검색 방법의 텍스트 변환 과정을 나타낸 플로우 차트이다. 도 4는 본 발명의 일 실시예에 따른 음성 인식을 통한 영상 검색 방법의 텍스트 검색 과정을 나타낸 플로우 차트이다.

도 2를 참조하면, 텍스트 변환부(100)는 동영상 파일(Video)을 입력 받는다(s201).

이후, 텍스트 변환부(100)는 텍스트 변환 모델을 이용하여 동영상 파일(Video)에서 재생되는 컨텐츠를 텍스트 데이터(Text)로 변환한다(s202).

구체적으로, 도 3에 도시된 바와 같이, 텍스트 변환부(100)의 텍스트 변환 모델에 동영상 파일(Video)을 입력한다(s301).

텍스트 변환 모델은 동영상 파일(Video)의 재생시간에 대응하는 텍스트 데이터(Text)를 출력한다(s302). 텍스트 변환 모델은 동영상 파일(Video)을 입력 받아, 동영상 파일(Video)의 재생시간에 대응하는 텍스트 데이터(Text)로 변환한다. 구체적으로, 텍스트 변환 모델은 동영상 파일(Video)에서 나타나는 화자의 표정, 행동 및 음성의 변화를 인식하여 문장의 시작과 끝을 보다 정확하게 결정하여, 변환되는 텍스트를 문장으로 구분되는 텍스트 데이터(Text)를 출력한다. 이를 위해, 텍스트 변환 모델은 적어도 하나의 자연어 처리(Natural Language Processing) 모델 또는 적어도 하나의 딥러닝 기반 영상 처리 모델을 포함할 수 있다.

텍스트 분석 모델은 출력되는 텍스트 데이터(Text)를 이용하여 동영상 파일(Video)에 포함된 내용을 분석한다(s303). 구체적으로, 텍스트 분석 모델은 텍스트 데이터(Text)를 입력 받고 텍스트 데이터(Text)에서 빈번하게 사용되는 고빈도 단어들과 각 고빈도 단어들의 빈도수를 추출한다. 텍스트 분석 모델은 추출한 각 고빈도 단어들의 빈도수 및 각 고빈도 단어들의 관련도를 산출하고, 산출된 고빈도 단어들 간의 관련도를 이용하여 텍스트 데이터(Text)를 주제별로 분류하고 문단을 구분할 수 있다. 예를 들어, 텍스트 분석 모델은 텍스트 데이터(Text)를 구성하는 각 문장들 사이의 상관관계를 파악하여 문단을 분류할 수 있다. 이를 위해, 텍스트 분석 모델은 텍스트 마이닝(Text Mining)을 이용하여 텍스트 데이터(Text)의 문단을 구분할 수 있다.

이후, 텍스트 검색부(200)는 사용자로부터 입력된 키워드를 변환된 텍스트 데이터(Text)에서 검색한다(s203).

구체적으로, 도 4에 도시된 바와 같이, 텍스트 검색부(200)는 사용자로부터 키워드(KWord)를 입력 받는다(s401).

텍스트 검색부(200)는 키워드 분석 모델을 통해 키워드(KWord)와 관련 있는 키워드 관련 단어를 산출한다(s402). 구체적으로, 텍스트 검색부(200)는 키워드(KWord)와 관련 있는 단어인 키워드 관련 단어를 산출하는 키워드 분석 모델을 포함하고, 이러한 키워드 분석 모델을 통해 키워드(KWord)와 관련 있는 키워드 관련 단어를 산출한다. 예를 들어, 텍스트 검색부(200)는 사용자가 입력한 키워드(KWord)의 유의어를 키워드 관련 단어로서 산출할 수 있다.

텍스트 검색부(200)는 텍스트 변환부(100)에서 출력된 텍스트 데이터(Text)에서 키워드(KWord) 및 키워드 관련 단어에 대해 검색한다(s403).

다시, 도 2를 참조하면, 텍스트 변환부(100)에서 산출되는 텍스트 분석 결과 및 텍스트 검색부(200)에서 산출되는 검색 결과를 사용자에게 제공한다(s204). 예를 들어, 텍스트 분석 결과로서, 텍스트 데이터(Text) 및 텍스트 데이터(Text)의 분석 결과를 표시할 수 있으며, 또한, 검색 결과로서 동영상 파일(Video)에서 키워드(KWord) 및 키워드 관련 단어를 포함하는 텍스트 데이터(Text)에 대응되는 재생시간을 표시하거나, 텍스트 데이터(Text)에서 키워드 및 키워드 관련 단어의 위치를 표시할 수 있다. 또는, 텍스트 검색부(200)는 키워드(KWord) 및 키워드 관련 단어를 포함하는 문장의 재생시간 및 그 문장에 포함된 키워드 및 키워드 관련 단어를 리스트로 표시할 수 있다.

이하, 도 5를 참조하면, 본 발명의 일 실시예에 따른 동영상 파일에 대한 NFT 생성과정에 대해 상세히 설명한다.

도 5는 본 발명의 일 실시예에 따른 음성 인식을 통한 영상 검색 방법의 NFT 생성과정을 나타낸 플로우 차트이다.

도 5에 도시된 바와 같이, NFT 생성부(300)는 동영상 파일(Video)을 입력 받은 텍스트 변환부(100)로부터 텍스트 데이터(Text)를 입력 받는다(s501).

이후, NFT 생성부(300)는 입력 받은 텍스트 데이터(Text) 및 텍스트 분석 결과를 이용하여 문장 또는 문단 단위로 동영상을 분리한다(s502). 구체적으로, NFT 생성부(300)는 텍스트 변환부(100)에서 출력하는 각 문장의 재생시간에 대응하여 동영상 파일(Video)을 문장 또는 문단 단위로 편집하여 분리한다.

이후, NFT 생성부(300)는 문장 또는 문단 단위로 분리된 동영상 파일(Video)을 NFT로 만든다(s503).

본 발명이 속하는 기술분야의 당업자는 상술한 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.

또한, 본 명세서에 설명되어 있는 방법들은 적어도 부분적으로, 하나 이상의 컴퓨터 프로그램 또는 구성요소를 사용하여 구현될 수 있다.　 이 구성요소는 휘발성 및 비휘발성 메모리를 포함하는 컴퓨터로 판독 가능한 매체 또는 기계 판독 가능한 매체를 통해 일련의 컴퓨터 지시어들로서 제공될 수 있다. 상기 지시어들은 소프트웨어 또는 펌웨어로서 제공될 수 있으며, 전체적 또는 부분적으로, ASICs, FPGAs, DSPs, 또는 그 밖의 다른 유사 소자와 같은 하드웨어 구성에 구현될 수도 있다. 상기 지시어들은 하나 이상의 프로세서 또는 다른 하드웨어 구성에 의해 실행되도록 구성될 수 있는데, 상기 프로세서 또는 다른 하드웨어 구성은 상기 일련의 컴퓨터 지시어들을 실행할 때 본 명세서에 개시된 방법들 및 절차들의 모두 또는 일부를 수행하거나 수행할 수 있도록 한다.

그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

10: 음성 인식을 통한 영상 검색 시스템
100: 텍스트 변환부
200: 텍스트 검색부
300: NFT 생성부

Claims

동영상 파일을 입력 받아 상기 동영상 파일에서 재생되는 내용을 텍스트 데이터로 변환하는 텍스트 변환부; 및
사용자로부터 입력되는 키워드와 관련된 키워드 관련 단어를 산출하고, 상기 키워드 및 상기 키워드 관련 단어를 상기 텍스트 데이터에서 검색하는 텍스트 검색부;를 포함하고,
상기 텍스트 변환부는,
상기 동영상 파일의 영상의 변화 및 상기 동영상 파일의 음성의 변화 중 적어도 하나를 인식하여 상기 텍스트 데이터를 문장으로 구분하여 출력하는 텍스트 변환 모델 및
상기 텍스트 데이터를 분석하여 문단으로 구분하는 텍스트 분석 모델을 포함하는 것을 특징으로 하는 음성 인식을 통한 영상 검색 시스템.
제1항에 있어서,
상기 텍스트 변환 모델은 적어도 하나의 자연어 처리 모델 또는 적어도 하나의 딥러닝 기반 영상 처리 모델을 포함하는 것을 특징으로 하는 음성 인식을 통한 영상 검색 시스템.
제1항에 있어서,
상기 텍스트 변환 모델은,
상기 동영상 파일의 영상에 사람의 얼굴이 포함되어 있는지 판별하고,
상기 동영상 파일의 영상에 사람의 얼굴이 포함되어 있는 경우, 상기 동영상 파일의 영상에 포함된 사람의 얼굴 표정 변화 및 상기 동영상 파일의 음성 크기 및 높낮이의 변화량을 이용하여 문장의 시작과 끝을 판별하고,
상기 동영상 파일의 영상에 사람의 얼굴이 포함되지 않은 경우, 상기 동영상 파일의 음성 크기 및 높낮이의 변화량을 이용하여 문장의 시작과 끝을 판별하는 것을 특징으로 하는 음성 인식을 통한 영상 검색 시스템.
제1항에 있어서,
상기 텍스트 분석 모델은 상기 텍스트 데이터에서 빈번하게 사용되는 고빈도 단어들 및 상기 고빈도 단어들 각각의 빈도수를 산출하고, 상기 고빈도 단어들 사이의 관련도를 산출하여 상기 텍스트 데이터를 문단으로 구분하는 것을 특징으로 하는 음성 인식을 통한 영상 검색 시스템.
제1항에 있어서,
상기 텍스트 분석 모델은 상기 텍스트 데이터의 각 문장들 사이의 관련도를 산출하여 상기 텍스트 데이터를 문단으로 구분하는 것을 특징으로 하는 음성 인식을 통한 영상 검색 시스템.
제1항에 있어서,
상기 동영상 파일을 문장 또는 문단 단위로 분리하여 각 문장 또는 문단에 대한 동영상 파일을 NFT로 만드는 NFT 생성부;를 더 포함하는 것을 특징으로 하는 음성 인식을 통한 영상 검색 시스템.
제1항에 있어서,
상기 동영상 파일을 문장 또는 문단 단위로 분리하여 NFT로 만드는 NFT 생성부;
상기 텍스트 변환부는 텍스트 분석 모델을 포함하고,
상기 텍스트 분석 모델은 상기 텍스트 데이터에서 빈번하게 사용되는 고빈도 단어들 및 상기 고빈도 단어들 각각의 빈도수를 산출하고, 상기 고빈도 단어들 사이의 관련도를 산출하거나, 상기 텍스트 데이터의 각 문장들 사이의 관련도를 산출하여 상기 텍스트 데이터를 주제에 따라 문단을 구분하고,
상기 NFT 생성부는 상기 텍스트 분석 모델에 의해 구분된 문장 또는 문단을 기준으로 상기 동영상 파일을 분리하여 NFT로 만드는 것을 특징으로 하는 음성 인식을 통한 영상 검색 시스템.
동영상 파일을 입력 받아 텍스트 데이터로 변환하는 단계; 및
사용자로부터 키워드를 입력 받고 상기 텍스트 데이터에서 상기 키워드를 검색하는 단계;를 포함하고,
상기 텍스트 데이터로 변환하는 단계는,
텍스트 변환 모델을 통해 동영상 파일에서 재생되는 컨텐츠를 문장으로 구분되는 텍스트 데이터로 출력하는 단계; 및
텍스트 분석 모델을 통해 상기 텍스트 데이터를 문단으로 구분하는 단계;를 포함하고,
상기 키워드를 검색하는 단계는,
상기 키워드와 관련된 키워드 관련 단어를 산출하는 단계; 및
상기 키워드 및 상기 키워드 관련 단어를 텍스트 데이터에서 검색하는 단계;를 포함하는 것을 특징으로 하는 음성 인식을 통한 영상 검색 시스템.
제8항에 있어서,
상기 텍스트 변환 모델을 통해 동영상 파일에서 재생되는 컨텐츠를 문장으로 구분되는 텍스트 데이터로 출력하는 단계에서,
상기 텍스트 변환 모델은 적어도 하나의 자연어 처리 모델 또는 적어도 하나의 딥러닝 기반 영상 처리 모델을 포함하는 것을 특징으로 하는 음성 인식을 통한 영상 검색 시스템.
제8항에 있어서,
상기 텍스트 변환 모델을 통해 동영상 파일에서 재생되는 컨텐츠를 문장으로 구분되는 텍스트 데이터로 출력하는 단계에서,
상기 텍스트 변환 모델은,
상기 동영상 파일의 영상에 사람의 얼굴이 포함되어 있는지 판별하고,
상기 동영상 파일의 영상에 사람의 얼굴이 포함되어 있는 경우, 상기 동영상 파일의 영상에 포함된 사람의 얼굴 표정 변화 및 상기 동영상 파일의 음성 크기 및 높낮이의 변화량을 이용하여 문장의 시작과 끝을 판별하고,
상기 동영상 파일의 영상에 사람의 얼굴이 포함되지 않은 경우, 상기 동영상 파일의 음성 크기 및 높낮이의 변화량을 이용하여 문장의 시작과 끝을 판별하는 것을 특징으로 하는 음성 인식을 통한 영상 검색 시스템.
제8항에 있어서,
상기 텍스트 데이터를 문단으로 구분하는 단계에서
상기 텍스트 분석 모델은 상기 텍스트 데이터에서 빈번하게 사용되는 고빈도 단어들 및 상기 고빈도 단어들 각각의 빈도수를 산출하고, 상기 고빈도 단어들 사이의 관련도를 산출하여 상기 텍스트 데이터를 문단으로 구분하는 것을 특징으로 하는 음성 인식을 통한 영상 검색 시스템.
제8항에 있어서,
상기 텍스트 분석 모델은 상기 텍스트 데이터의 각 문장들 사이의 관련도를 산출하여 상기 텍스트 데이터를 문단으로 구분하는 것을 특징으로 하는 음성 인식을 통한 영상 검색 시스템.
제8항에 있어서,
상기 동영상 파일을 문장 또는 문단 단위로 분리하여 각 문장 또는 문단에 대한 동영상 파일을 NFT로 만드는 단계;를 더 포함하는 것을 특징으로 하는 음성 인식을 통한 영상 검색 시스템.
제8항에 있어서,
상기 텍스트 분석 모델을 통해 문단으로 구분된 텍스트 데이터 및 상기 상기 키워드 및 상기 키워드 관련 단어를 텍스트 데이터에서 검색한 결과를 사용자에게 표시하는 단계;를 더 포함하는 것을 특징으로 하는 음성 인식을 통한 영상 검색 시스템.