KR102536356B1

KR102536356B1 - 동영상 장면 검색 시스템 및 방법

Info

Publication number: KR102536356B1
Application number: KR1020220139287A
Authority: KR
Inventors: 김성준; 민형기; 오수민; 이세이
Original assignee: 주식회사 위씨테크
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-05-30

Abstract

본 발명의 목적은 동영상으로부터 사운드 검색과 이미지 검색이 함께 이루어짐과 아울러 획득한 동영상의 사운드 정보와 이미지 정보의 유사성을 인지할 수 있도록 하여 동영상 내의 일부 장면을 검색하는 동영상 장면 검색 시스템 및 방법을 제공하는 것이다.
상기 목적을 달성하기 위해, 본 발명에 따른 동영상 장면 검색 시스템은, 사용자가 원하는 동영상에 대한 이미지 검색 데이터와, 사운드 검색 데이터가 입력되는 입력부; 및 상기 이미지 검색 데이터와 상기 사운드 검색 데이터에 따른 특정 장면의 검색을 수행하는 서버;를 포함하는 것을 특징으로 한다.

Description

동영상 장면 검색 시스템 및 방법{SYSTEM AND METHOD FOR SEARCHING MOVING PICTURE SCENE}

본 발명은 동영상 장면 검색 시스템 및 방법에 관한 것으로, 특히 동영상 내의 일부 장면을 검색하는 동영상 장면 검색 시스템 및 방법에 관한 것이다.

최근 사용자들은 인터넷을 통하여 고용량의 데이터를 용이하게 전송하거나 전송 받을 수 있게 되었다.

따라서, 기존에는 용이하지 않았던 고화질의 동영상 데이터를 인터넷을 통하여 다운로드 받아서 실시간으로 재생하는 것이 최근에는 매우 용이하다.

실제로, 대부분의 TV 프로그램을 인터넷 또는 IP TV를 통하여 다시 볼 수 있으며, 인터넷을 통하여 공중파/위성 TV, 영화, 뮤직비디오 및 스포츠 중계 등의 다양한 동영상이 제공되고 있다.

인터넷을 통하여 제공되는 동영상은 일방적으로 편성된 프로그램에 따라 방송되는 TV 등과는 달리, 사용자가 원하는 시간에 원하는 내용의 동영상을 재생할 수 있다는 장점이 있다.

예를 들어, 9시 뉴스를 시청하고자 하는 사용자는 다음날 오전이라도 인터넷을 통하여 9시 뉴스를 검색하여 시청할 수 있다.

그러나, 인터넷을 통하여 동영상을 시청하고자 하는 경우에 사용자는 인터넷을 통하여 제공되는 수많은 동영상들 중 원하는 동영상을 검색하여야만 한다.

예를 들어, 최근 유행하는 영화의 일부 구간을 시청하고자 하는 사용자는 해당 영화의 제목이나 또는 해당 영화의 주인공 이름을 이용한 키워드 검색 등을 하여 자신이 원하는 프로그램 동영상을 찾아야 한다.

따라서, 효과적으로 사용자가 원하는 동영상을 검색할 수 있는 동영상 검색 서비스를 제공하기 위한 다양한 시도가 있어 왔다.

한편, 사용자는 특정 프로그램의 일부 내용에 대해서 관심이 있는 경우가 많다.

즉, 사용자가 프로그램 전체가 아니라 프로그램의 일부분 내용에 대해서 관심을 가지는 경우가 많다.

예를 들어, 축구 중계를 시청하고자 하는 사용자는 축구 중계 프로그램 전체를 시청하기보다는 특정 선수가 골을 넣은 장면만을 시청하고자 하는 경우가 있을 수 있다.

또한, 영화 시청자가 주인공이 이별하는 장면 또는 재회하는 장면만을 시청하고자 하는 경우가 있을 수 있다.

기존의 일반적인 동영상 검색 방법은 해당 프로그램 전체를 그 검색의 대상으로 하므로, 사용자가 원하는 동영상의 일부 장면 등을 검색할 수가 없었다.

이를 해결하기 위해, 기존에는 동영상의 일부분에 대한 검색을 가능하게 하기 위해서 동영상의 이미지를 이용하여 동영상 검색을 하려는 시도가 있었다.

즉, 특정 동영상의 이미지로부터 사용자가 원하는 부분을 검색함으로써, 사용자가 원하는 동영상의 일부분을 찾을 수 있도록 하고자 하였다.

그러나, 동영상의 이미지만으로는 사용자가 원하는 특정 부분의 동영상의 내용을 적절히 반영할 수 없는 경우가 많다.

예를 들어, "주인공이 식당에서 피아노 소리를 들으며 식사를 하는" 장면의 신을 찾고자 하는 경우에, 동영상의 이미지만으로는 피아노 소리를 검색할 수 없어 사용자가 원하는 장면을 찾기는 매우 어렵다.

이를 해결하기 위해, 최근 동영상으로부터 사운드(음성 또는 소리)에서 획득한 정보를 이용하여 동영상의 장면을 검색하는 기술이 개발되어 있다.

하지만, 종래에는 동영상으로부터 사운드(음성 또는 소리)에서 획득한 정보를 이용한 장면 검색 또는 동영상 이미지로부터의 장면 검색이 각각 이루어지는 문제점이 있었다.

즉, 동영상으로부터 사운드 검색과, 동영상으로부터 이미지 검색이 함께 이루어지지 않고 각각 개별로 이루어짐으로써, 기존에는 사용자가 원하는 동영상 장면을 검색하기 위해 각각 2번(사운드 검색과 이미지 검색)에 걸쳐 검색을 수행해야 하는 문제점이 있었다.

또한, 종래에는 검색 시스템이 동영상으로부터 획득한 사운드 정보와, 동영상 이미지로부터 획득한 정보의 유사성을 인지하지 못하는 문제점이 있었다.

국내 등록특허공보 제10-0930248호

상기한 바와 같은 종래의 문제점을 해결하기 위한 본 발명의 목적은 동영상으로부터 사운드 검색과 이미지 검색이 함께 이루어짐과 아울러 획득한 동영상의 사운드 정보와 이미지 정보의 유사성을 인지할 수 있도록 하여 동영상 내의 일부 장면을 검색하는 동영상 장면 검색 시스템 및 방법을 제공하는 것이다.

상기 목적을 달성하기 위해, 본 발명에 따른 동영상 장면 검색 시스템은, 사용자가 원하는 동영상에 대한 검색 데이터가 입력되는 입력부; 및 상기 검색 데이터에 의거하여 이미지 데이터와 사운드 데이터에 따른 특정 장면의 검색을 수행하는 서버;를 포함하는 것을 특징으로 한다.

또한, 본 발명에 따른 동영상 장면 검색 시스템에서, 상기 서버는, 상기 입력부로부터 입력된 상기 동영상에 대한 검색 데이터를 수신하는 수신부; 수신된 상기 검색 데이터에 대한 사용자의 검색 질의를 분석하는 분석부; 및 분석된 검색 질의에 해당하는 이미지 데이터와 사운드 데이터를 분리하여 검색하는 검색부;를 포함하는 것을 특징으로 한다.

또한, 본 발명에 따른 동영상 장면 검색 시스템에서, 상기 서버는, 상기 동영상에 대한 이미지 데이터 태그와 사운드 데이터 태그가 미리 정해진 시간 단위로 테이블화되어 저장되는 DB; 및 상기 DB로부터 상기 특정 장면에 해당하는 부분 동영상을 추출하여 매칭하는 추출부;를 포함하는 것을 특징으로 한다.

또한, 본 발명에 따른 동영상 장면 검색 시스템에서, 상기 서버는, 사용자 질의에 대해, 상기 이미지 데이터의 유사도를 학습하여 예측하는 학습부;를 포함하는 것을 특징으로 한다.

또한, 본 발명에 따른 동영상 장면 검색 시스템에서, 상기 서버는, 상기 학습부에 의해 예측된 상기 이미지 데이터의 유사도가 출력되는 출력부;를 포함하는 것을 특징으로 한다.

한편, 상기 목적을 달성하기 위해, 본 발명에 따른 동영상 장면 검색 방법은, 사용자가 원하는 동영상에 대한 검색 데이터가 입력부에 의해 입력되는 단계; 및 상기 검색 데이터에 의거하여 이미지 데이터와 사운드 데이터에 따른 특정 장면의 검색을 서버에 의해 수행하는 단계;를 포함하는 것을 특징으로 한다.

또한, 본 발명에 따른 동영상 장면 검색 방법에서, 상기 서버는, 상기 입력부로부터 입력된 상기 동영상에 대한 검색 데이터를 수신하는 수신부; 수신된 상기 검색 데이터에 대한 사용자의 검색 질의를 분석하는 분석부; 및 분석된 검색 질의에 해당하는 이미지 데이터와 사운드 데이터를 분리하여 검색하는 검색부;를 포함하는 것을 특징으로 한다.

또한, 본 발명에 따른 동영상 장면 검색 방법에서, 상기 서버는, 상기 동영상에 대한 이미지 데이터 태그와 사운드 데이터 태그가 미리 정해진 시간 단위로 테이블화되어 저장되는 DB; 및 상기 DB로부터 상기 특정 장면에 해당하는 부분 동영상을 추출하여 매칭하는 추출부;를 포함하는 것을 특징으로 한다.

또한, 본 발명에 따른 동영상 장면 검색 방법에서, 상기 서버는, 사용자 질의에 대해, 상기 이미지 데이터의 유사도를 학습하여 예측하는 학습부;를 포함하는 것을 특징으로 한다.

또한, 본 발명에 따른 동영상 장면 검색 방법에서, 상기 서버는, 상기 학습부에 의해 예측된 상기 이미지 데이터의 유사도가 출력되는 출력부;를 포함하는 것을 특징으로 한다.

기타 실시 예의 구체적인 사항은 "발명을 실시하기 위한 구체적인 내용" 및 첨부 "도면"에 포함되어 있다.

본 발명의 이점 및/또는 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 각종 실시 예를 참조하면 명확해질 것이다.

그러나 본 발명은 이하에서 개시되는 각 실시 예의 구성만으로 한정되는 것이 아니라 서로 다른 다양한 형태로도 구현될 수도 있으며, 단지 본 명세서에서 개시한 각각의 실시 예는 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구범위의 각 청구항의 범주에 의해 정의될 뿐임을 알아야 한다.

본 발명에 의하면, 동영상으로부터 사운드 검색과 이미지 검색이 함께 이루어짐과 아울러 획득한 동영상의 사운드 정보와 이미지 정보의 유사성을 인지할 수 있도록 하여 동영상 내의 일부 장면을 검색하는 효과가 있다.

도 1은 본 발명에 따른 동영상 장면 검색 시스템의 전체 구성을 나타내는 블록도.
도 2는 본 발명에 따른 동영상 장면 검색 시스템에서, 서버의 구성을 나타내는 블록도.
도 3은 본 발명에 따른 동영상 장면 검색 방법의 전체 흐름을 나타내는 플로우 차트.
도 4는 본 발명에 따른 동영상 장면 검색 시스템 및 방법에서, 학습부의 이미지 데이터 학습을 위한 알고리즘의 예를 나타내는 도면.
도 5는 본 발명에 따른 동영상 장면 검색 시스템 및 방법에서, 학습부의 사운드 데이터 학습을 위한 알고리즘의 예를 나타내는 도면.

본 발명을 상세하게 설명하기 전에, 본 명세서에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 무조건 한정하여 해석되어서는 아니 되며, 본 발명의 발명자가 자신의 발명을 가장 최선의 방법으로 설명하기 위해서 각종 용어의 개념을 적절하게 정의하여 사용할 수 있고, 더 나아가 이들 용어나 단어는 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 함을 알아야 한다.

즉, 본 명세서에서 사용된 용어는 본 발명의 바람직한 실시 예를 설명하기 위해서 사용되는 것일 뿐이고, 본 발명의 내용을 구체적으로 한정하려는 의도로 사용된 것이 아니며, 이들 용어는 본 발명의 여러 가지 가능성을 고려하여 정의된 용어임을 알아야 한다.

또한, 본 명세서에서, 단수의 표현은 문맥상 명확하게 다른 의미로 지시하지 않는 이상, 복수의 표현을 포함할 수 있으며, 유사하게 복수로 표현되어 있다고 하더라도 단수의 의미를 포함할 수 있음을 알아야 한다.

본 명세서의 전체에 걸쳐서 어떤 구성 요소가 다른 구성 요소를 "포함"한다고 기재하는 경우에는, 특별히 반대되는 의미의 기재가 없는 한 임의의 다른 구성 요소를 제외하는 것이 아니라 임의의 다른 구성 요소를 더 포함할 수도 있다는 것을 의미할 수 있다.

더 나아가서, 어떤 구성 요소가 다른 구성 요소의 "내부에 존재하거나, 연결되어 설치된다"라고 기재한 경우에는, 이 구성 요소가 다른 구성 요소와 직접적으로 연결되어 있거나 접촉하여 설치되어 있을 수 있고, 일정한 거리를 두고 이격되어 설치되어 있을 수도 있으며, 일정한 거리를 두고 이격되어 설치되어 있는 경우에 대해서는 해당 구성 요소를 다른 구성 요소에 고정 내지 연결하기 위한 제 3의 구성 요소 또는 수단이 존재할 수 있으며, 이 제 3의 구성 요소 또는 수단에 대한 설명은 생략될 수도 있음을 알아야 한다.

반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결"되어 있다거나, 또는 "직접 접속"되어 있다고 기재되는 경우에는, 제 3의 구성 요소 또는 수단이 존재하지 않는 것으로 이해하여야 한다.

마찬가지로, 각 구성 요소 간의 관계를 설명하는 다른 표현들, 즉 " ~ 사이에"와 "바로 ~ 사이에", 또는 " ~ 에 이웃하는"과 " ~ 에 직접 이웃하는" 등도 마찬가지의 취지를 가지고 있는 것으로 해석되어야 한다.

또한, 본 명세서에서 "일면", "타면", "일측", "타측", "제 1", "제 2" 등의 용어는, 사용된다면, 하나의 구성 요소에 대해서 이 하나의 구성 요소가 다른 구성 요소로부터 명확하게 구별될 수 있도록 하기 위해서 사용되며, 이와 같은 용어에 의해서 해당 구성 요소의 의미가 제한적으로 사용되는 것은 아님을 알아야 한다.

또한, 본 명세서에서 "상", "하", "좌", "우" 등의 위치와 관련된 용어는, 사용된다면, 해당 구성 요소에 대해서 해당 도면에서의 상대적인 위치를 나타내고 있는 것으로 이해하여야 하며, 이들의 위치에 대해서 절대적인 위치를 특정하지 않는 이상은, 이들 위치 관련 용어가 절대적인 위치를 언급하고 있는 것으로 이해하여서는 아니된다.

또한, 본 명세서에서는 각 도면의 각 구성 요소에 대해서 그 도면 부호를 명기함에 있어서, 동일한 구성 요소에 대해서는 이 구성 요소가 비록 다른 도면에 표시되더라도 동일한 도면 부호를 가지고 있도록, 즉 명세서 전체에 걸쳐 동일한 참조 부호는 동일한 구성 요소를 지시하고 있다.

본 명세서에 첨부된 도면에서 본 발명을 구성하는 각 구성 요소의 크기, 위치, 결합 관계 등은 본 발명의 사상을 충분히 명확하게 전달할 수 있도록 하기 위해서 또는 설명의 편의를 위해서 일부 과장 또는 축소되거나 생략되어 기술되어 있을 수 있고, 따라서 그 비례나 축척은 엄밀하지 않을 수 있다.

또한, 이하에서, 본 발명을 설명함에 있어서, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 구성, 예를 들어, 종래 기술을 포함하는 공지 기술에 대해 상세한 설명은 생략될 수도 있다.

이하, 본 발명의 실시 예에 대해 관련 도면들을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명에 따른 동영상 장면 검색 시스템의 전체 구성을 나타내는 블록도이다.

도 1을 참조하면, 본 발명에 따른 동영상 장면 검색 시스템(1000)은 입력부(100)와, 서버(200)를 포함한다.

여기서, 입력부(100)는 사용자가 원하는 동영상에 대한 검색 데이터가 입력된다.

이러한 입력부(100)로는 PC, 노트북, 핸드폰, 스마트폰, 스마트북, E-북, 스마트 패드 등 사용자가 문장을 입력할 수 있는 모든 장치를 포괄하는 개념으로 이해될 수 있다.

또한, 사용자가 입력하는 검색 데이터는 이미지와 사운드일 수 있다.

특히, 이미지에서는 오브젝트(object)일 수 있다.

상술한 입력부(100)는 통신부(도시 생략)를 포함할 수 있다.

서버(200)는 입력부(100)에 의해 입력된 검색 데이터에 의거하여 이미지 데이터와 사운드 데이터에 따른 특정 장면의 검색을 수행한다.

여기서, 입력부(100)의 통신부와 서버(200)는 유선 통신 또는 무선 통신으로 데이터를 전송할 수 있다.

특히, 무선 통신으로는 블루투스(Bluetooth) 모듈, 와이파이(Wi-fi) 모듈, 와이브로(Wireless Broadband) 모듈 외에도, GSM(Global System For Mobile Communication), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), UMTS(Universal Mobile Telecommunications System), TDMA(Time Division Multiple Access), LTE(Long Term Evolution) 등 다양한 무선 통신 방식을 지원하는 무선 통신 모듈을 포함할 수 있다.

또한, 좀 더 상세하게는 사용자는 동영상에서 원하는 부분의 부분 동영상을 시청하기 위해, 입력부(100)를 통해 검색 데이터를 입력하게 되고, 후술하는 서버(200)는 입력부(100)에 의해 입력된 검색 데이터에 의거하여 이미지 데이터와 사운드 데이터에 따른 특정 장면의 검색을 수행하게 된다.

상술한 서버(200)에 대해, 도 2를 참조하여 좀 더 상세히 설명하도록 한다.

도 2는 본 발명에 따른 동영상 장면 검색 시스템에서, 서버의 구성을 나타내는 블록도이다.

도 2를 참조하면, 본 발명에 따른 동영상 장면 검색 시스템(1000)에서, 서버(200)는 수신부(210)와, 분석부(220)와, 검색부(230)와, DB(240)와, 추출부(250)와, 학습부(260)와, 출력부(270)를 포함한다.

수신부(210)는 입력부(100)로부터 입력된 동영상에 대한 검색 데이터를 수신한다.

분석부(220)는 수신부(210)에 의해 수신된 검색 데이터에 대한 사용자의 검색 질의를 분석한다.

예를 들어, 사용자가 입력부(100)를 통해 "사람이 강아지와 가방을 들고 있고, 강아지 소리와 비행기 소리가 들리는 장면"이라는 검색 데이터를 입력하고, 서버(200)의 데이터 수신부(210)가 상기 검색 데이터를 수신하면, 분석부(220)는 해당 내용인 "사람이 강아지와 가방을 들고 있고, 강아지 소리와 비행기 소리가 들리는 장면"으로부터 검색 질의를 분석하게 된다.

이와 같은 검색 데이터로부터 분석부(220)는 객체인 "사람"과, "강아지"와, "가방" 등의 오브젝트는 이미지 데이터로 분석하고, "강아지 소리"와, "비행기 소리" 등의 사운드는 사운드 데이터로 분석하게 된다.

검색부(230)는 분석된 검색 질의에 해당하는 이미지 데이터와 사운드 데이터를 분리하여 검색한다.

즉, 분석부(220)에 의해 분석된 이미지 데이터와, 사운드 데이터는 각각 후술하는 DB(240)에 저장되고, 검색부(230)는 검색 질의에 해당하는 이미지 데이터와 사운드 데이터를 분리하여 검색하게 된다.

DB(240)는 동영상에 대한 이미지 데이터 태그와 사운드 데이터 태그가 미리 정해진 시간 단위로 테이블화되어 저장된다.

예를 들어, 테이블에서 1초 단위 또는 5초 단위 등과 같이 미리 정해진 시간 단위가 각 행들로 형성되고, 미리 정해진 시간 단위마다 해당 시간의 동영상으로부터 이미지 데이터 태그가 제 1 열로 형성되며, 미리 정해진 시간 단위마다 해당 시간의 동영상으로부터 사운드 데이터 태그가 2열로 형성된다.

이때, 이미지 데이터 태그와 사운드 데이터 태그는 벡터로 변환되어 각각의 열에 형성된다.

예를 들어, "사람이 강아지와 가방을 들고 있고, 강아지 소리와 비행기 소리가 들리는 장면"에서는 "사람"과, "강아지"와, "가방" 등의 이미지 데이터와, "강아지 소리"와, "비행기 소리" 등의 사운드 데이터가 분석부(220)에 의해 분석된다.

이때, DB(240)의 테이블의 각 열에는 이미지 데이터 태그와, 사운드 데이터 태그가 각각 백터화되어 저장된다.

예를 들어, 상술한 "사람"에는 숫자 1이라는 자리수를 부여하고, "강아지"에는 숫자 2라는 자리수를 부여하며, "가방"에는 숫자 10이라는 자리수를 부여한다.

이와 같이 부여된 숫자를 백터화할 경우, [0, 1, 1, 0, 0, 0, …, 1]이라는 1차원 백터로 변환된다.

여기서, 0자리 숫자는 0이며, "사람"을 나타내는 1자리 숫자 위치에 1이 기재되고, "강아지"를 나타내는 2자리 숫자 위치에 1이 기재되며, "가방"을 나타내는 10자리 숫자에 1이 기재된다.

이외의 나머지 자리수에는 0이 기재된다.

좀 더 상세히 설명하면, 3자리 숫자부터 9자리 숫자까지는 0이 기재된다.

즉, 자리수가 부여된 단어인 "사람"과, "강아지"와, "가방"은 각각 숫자 1이 기재되고, 나머지 자리에는 모두 0이 기재된다.

따라서, 1차원 벡터에는 사용자가 요하는 문장에서 각각의 단어에 자리수가 부여되고, 자리수가 부여된 단어들에는 숫자 1이 기재되고, 나머지 자리수에는 모두 숫자 0이 기재된다.

마찬가지로, "강아지 소리"와 "비행기 소리"도 상술한 바와 같은 방식으로 벡터화된다.

즉, 제 1 데이터를 벡터화하기 위해서는, 이미지 데이터의 객체와 사운드 데이터에 대해 각각의 자리수를 부여함으로써, 사용자가 요하는 검색 데이터를 1차원 벡터화하게 된다.

또한, DB(240)는 다수의 동영상 데이터를 저장하고 있다.

또한, DB(240)는 이미지 데이터에 대한 유사도가 함께 저장된다.

추출부(250)는 보유하고 있는 DB(240)의 동영상 데이터로부터 이미지 데이터 태그와 사운드 데이터 태그에 의거한 특정 장면에 해당하는 각각의 부분 동영상을 추출하여 서로 매칭한다.

학습부(260)는 사용자 질의에 대해, 이미지 데이터의 유사도를 학습하여 그 결과를 예측한다.

이미지 데이터, 특히 오브젝트 데이터에 대한 학습으로는 예를 들어 Yolo 학습 모델을 이용하여 학습을 수행한다.

또한, 학습부(260)는 사용자 질의에 대해, 사운드 데이터를 학습하여 그 결과를 예측한다.

사운드 데이터는 예를 들어 사운드 분류 모델을 이용하여 학습을 수행한다.

학습부(260)가 사용자로부터 제공되는 검색 데이터로부터 검색 질의에 따라 분리된 이미지 데이터를 학습시, "강아지 소리"와, "동물 소리" 에서 학습부(260)가 강아지와 동물의 의미를 인식하지 못하기 때문에, 강아지와 동물 사이의 유사도를 계산하고, 유사도가 높은 오브젝트에 대해서는 함께 검색되도록 유사도를 학습하게 된다.

이와 같은 이미지 데이터에 대한 유사도는 다음과 같은 방식으로 계산하게 된다.

즉, 거리 방식과, 코사인 함수 방식이다.

거리 방식은 상술한 바와 같이, 예를 들어 상술한 바와 같이 이미지 데이터는 "사람"에는 숫자 1이라는 자리수를 부여하고, "강아지"에는 숫자 2라는 자리수를 부여하며, "가방"에는 숫자 10이라는 자리수를 부여한다.

이와 같이 부여된 숫자를 백터화할 경우, [0, 1, 1, 0, 0, 0, …, 1]이다.

또한, "동물" 에는 숫자 4라는 자리수를 부여한다.

이와 같이 동물로 부여된 숫자를 상술한 사람과 가방을 포함시켜 벡터화할 경우, [0, 1, 0, 1, 0, 0, …, 1]이라는 벡터로 변환된다.

여기서, 강아지를 포함하는 이미지 데이터와, 동물을 포함하는 이미지 데이터의 유사도를 계산시에는 벡터의 거리 계산인 RMS(Root Means Square) 방식을 이용할 수 있다.

즉, 강아지를 포함하는 벡터와, 동물을 포함하는 벡터 사이의 거리에 의한 유사도는 하기 수식 1에 의해 계산된다.

[0, 1, 1, 0, 0, 0, …, 1]

[수식 1]

{(0 - 0)² + (1 - 1)² + (1 - 0)² + (0 - 1)² + (0 - 0)² + (0 - 0)² + (0 - 0)² + … + (1-1)²}^1/2 = (2)^1/2

즉, 강아지를 포함하는 벡터와, 동물을 포함하는 벡터는 그 사이의 거리가 (2)^1/2이며, (2)^1/2의 유사도를 가진다.

이와 같은 방식은 벡터 사이의 거리가 가까울수록 서로 가깝거나 유사한 유사도를 가진다.

또한 삼각 함수 중 코사인을 이용한 코사인 함수 방식은 예를 들어 평면 좌표 상에, 상술한 바와 같은 강아지를 포함하는 벡터와, 동물을 포함하는 벡터를 좌표 평면 상의 좌표로 변환하는 방식이다.

즉, 강아지의 좌표를 (2, 4)로 부여하고, 동물의 좌표를 (3, 7)로 부여할 경우, 강아지의 좌표를 포함하는 벡터와, 동물의 좌표를 포함하는 벡터에서 코사인 함수에 따른 밑변 / 빗변의 각이 서로 유사하게 된다.

이와 같은 방식은 벡터 좌표에 따른 코사인 각도, 즉 밑변 / 빗변의 각도가 서로 가까울수록 유사한 유사도를 가진다.

또한, 본 발명에서는 상술한 바와 같은 거리 방식과, 코사인 함수 방식을 함께 이용하여 유사도를 계산하게 되며, 후술하는 학습부(260)는 계산된 유사도를 학습하여 그 결과를 예측하게 된다.

환언하면, 학습부(260)는 이미지 데이터의 유사도를 학습하여 예측한다.

좀 더 바람직하게는 사용자의 검색 데이터를 자연어 처리한 이미지 데이터의 유사도를 학습하여 예측한다.

즉, 학습부(260)의 입력값은 자연어 처리되어 벡터로 변환된 이미지 데이터이다.

또한, 학습부(260)의 출력값은 이미지 데이터에 대한 유사도 값이다.

이와 같은 학습부(260)는 자연어 처리되어 벡터로 변환된 이미지 데이터의 유사도 값을 학습하고 예측한다.

학습부(260)는 수신부(210)에 의해 수신되고, 자연어 처리되어 벡터로 변환된 이미지 데이터로부터 데이터 셋을 생성하고, 생성된 데이터 셋을 기반으로 기계 학습 또는 지도 학습을 수행하여 인공 지능 모델을 생성하는 유닛인 것이 바람직하다.

학습부(260)에서는 먼저 자연어 처리되어 벡터로 변환된 이미지 데이터로부터 생성된 데이터 셋을 사용하여 인공 지능 모델을 생성한 후, 생성된 인공 지능 모델을 DB(240)에 저장할 수 있다.

학습부(260)에는 인공 지능에 사용되는 알고리즘이 저장되어 있고, 이러한 알고리즘은 예를 들어, 인공 신경망(Artificial Neural Networks) 또는 퍼지 신경망(Fuzzy Neural Networks)을 사용하는 것이 바람직하다.

특히, 학습부(260)에는 자연어 처리를 위한 알고리즘이 저장되어 있는 것이 바람직하다.

인공 신경망은 구조 및 기능에 따라 여러 종류로 구분되며, 가장 일반적인 인공 신경망은 한 개의 입력층과 출력층 사이에 다수의 은닉층(Hidden Layer)이 있는 다층 퍼셉트론(Multilayer Perceptron)이다.

인공 신경망은 학습부(260)를 통해 구현될 수 있으며, 기초 컴퓨팅 단위인 뉴런 여러 개가 가중된 링크(Weighted Link)로 연결된 형태로서, 가중된 링크(Weighted Link)는 주어진 환경에 적응할 수 있도록 가중치를 조정할 수 있다.

인공 신경망은 자기 조직화 지도(SOM: Self-Organizing Map), 순환 신경망(RNN: Recurrent Neural Network), 콘볼루션 신경망(CNN: Convolutional Neural Network)과 같은 다양한 모델을 포함하며, 이에 한정되지 않는다.

퍼지 신경망은 규칙들을 언어적으로 표현하거나 지식 베이스에 새로운 규칙을 갱신하는데 신경망의 학습 능력을 이용하는 시스템이다.

본 발명에서 퍼지 신경망을 사용할 경우, 규칙들은 이미지 데이터끼리의 거리 기반 추천과, 각도(코사인 함수) 기반 추천으로 분류하여 서로 유사한 이미지 데이터끼리 매칭 등이며, 학습된 패턴과 실제 패턴을 비교하여 예측하는 예측값 등을 산출하는 데에 정의되어 사용될 수 있다.

출력부(270)는 학습부(260)에 의해 예측된 이미지 데이터의 유사도가 높은 순으로 출력된다.

이와 같이 본 발명에 따른 동영상 장면 검색 시스템(1000)에 의하면, 동영상으로부터 사운드 검색과 이미지 검색이 함께 이루어짐과 아울러 획득한 동영상의 사운드 정보와 이미지 정보의 유사성을 인지할 수 있도록 하여 동영상 내의 일부 장면을 검색하는 효과가 있다.

한편, 본 발명에 따른 동영상 장면 검색 시스템(1000)은 후술하는 본 발명에 따른 동영상 장면 검색 방법에 의해 구현될 수 있다.

도 3은 본 발명에 따른 동영상 장면 검색 방법의 전체 흐름을 나타내는 플로우 차트이다.

본 실시예에서는, 상술한 동영상 장면 검색 시스템(1000)과 동일한 구성에 대해서는 그 자세한 설명을 생략하도록 하고, DB(240)와, 유사도의 구성과, 학습부(260)의 구성에 대해서만 상세히 설명하도록 한다.

도 3을 참조하면, 본 발명에 따른 동영상 장면 검색 방법은 2개의 단계를 포함한다.

제 1 단계(S100)에서는, 사용자가 원하는 동영상에 대한 검색 데이터가 입력부(100)에 의해 입력된다.

제 2 단계(S200)에서는, 입력부(100)에 의해 입력된 검색 데이터에 의거하여 이미지 데이터와 사운드 데이터에 따른 특정 장면의 검색을 서버(200)에 의해 수행한다.

서버(200)는 수신부(210)와, 분석부(220)와, 검색부(230)와, DB(240)와, 추출부(250)와, 학습부(260)와, 출력부(270)를 포함한다.

이외의 나머지 자리수에는 0이 기재된다.

또한, DB(240)는 다수의 동영상 데이터를 저장하고 있다.

즉, 거리 방식과, 코사인 함수 방식이다.

또한, "동물" 에는 숫자 4라는 자리수를 부여한다.

즉, 강아지를 포함하는 벡터와, 동물을 포함하는 벡터 사이의 거리에 의한 유사도는 하기 수식 2에 의해 계산된다.

[0, 1, 1, 0, 0, 0, …, 1]

[수식 2]

이와 같이 본 발명에 따른 동영상 장면 검색 방법에 의하면, 동영상으로부터 사운드 검색과 이미지 검색이 함께 이루어짐과 아울러 획득한 동영상의 사운드 정보와 이미지 정보의 유사성을 인지할 수 있도록 하여 동영상 내의 일부 장면을 검색하는 효과가 있다.

도 4는 본 발명에 따른 동영상 장면 검색 시스템 및 방법에서, 학습부의 이미지 데이터 학습을 위한 알고리즘의 예를 나타내는 도면이다.

도 4를 참조하면, 학습부(260)는 사용자 질의에 대해, 이미지 데이터의 유사도를 학습하여 그 결과를 예측한다.

도 5는 본 발명에 따른 동영상 장면 검색 시스템 및 방법에서, 학습부의 사운드 데이터 학습을 위한 알고리즘의 예를 나타내는 도면이다.

또한, 도 5를 참조하면, 학습부(260)는 사용자 질의에 대해, 사운드 데이터를 학습하여 그 결과를 예측한다.

한편, 본 발명의 상기 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다.

컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.

또한 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이상, 일부 예를 들어서 본 발명의 바람직한 여러 가지 실시 예에 대해서 설명하였지만, 본 "발명을 실시하기 위한 구체적인 내용" 항목에 기재된 여러 가지 다양한 실시 예에 관한 설명은 예시적인 것에 불과한 것이며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 이상의 설명으로부터 본 발명을 다양하게 변형하여 실시하거나 본 발명과 균등한 실시를 행할 수 있다는 점을 잘 이해하고 있을 것이다.

또한, 본 발명은 다른 다양한 형태로 구현될 수 있기 때문에 본 발명은 상술한 설명에 의해서 한정되는 것이 아니며, 이상의 설명은 본 발명의 개시 내용이 완전해지도록 하기 위한 것으로 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이며, 본 발명은 청구범위의 각 청구항에 의해서 정의될 뿐임을 알아야 한다.

100 : 입력부
200 : 서버
210 : 수신부
220 : 분석부
230 : 검색부
240 : DB
250 : 추출부
260 : 학습부
270 : 출력부
1000 : 동영상 장면 검색 시스템

Claims

사용자가 원하는 동영상에 대한 검색 데이터가 입력되는 입력부; 및
상기 검색 데이터에 의거하여 이미지 데이터와 사운드 데이터에 따른 특정 장면의 검색을 수행하는 서버;를 포함하며,
상기 서버는,
상기 입력부로부터 입력된 상기 동영상에 대한 검색 데이터를 수신하는 수신부;
수신된 상기 검색 데이터에 대한 사용자의 검색 질의를 분석하는 분석부;
분석된 검색 질의에 해당하는 이미지 데이터와 사운드 데이터를 분리하여 검색하는 검색부;
사용자 질의에 대해, 상기 이미지 데이터의 유사도를 학습하여 예측하는 학습부; 및
상기 학습부에 의해 예측된 상기 이미지 데이터의 유사도가 출력되는 출력부;를 포함하고,
상기 사용자가 요하는 문장에서 각각의 단어에 대해 좌표 평면 상의 좌표가 각각 부여되며,
부여된 상기 좌표에서 코사인 함수에 따른 밑변 / 빗변의 각도를 이용하여 상기 유사도를 계산하고,
상기 밑변 / 빗변의 각도가 서로 가까울수록 유사한 유사도를 갖는 것을 특징으로 하는,
동영상 장면 검색 시스템.
삭제
제 1 항에 있어서,
상기 서버는,
상기 동영상에 대한 이미지 데이터 태그와 사운드 데이터 태그가 미리 정해진 시간 단위로 테이블화되어 저장되는 DB; 및
상기 DB로부터 상기 특정 장면에 해당하는 부분 동영상을 추출하여 매칭하는 추출부;를 포함하는 것을 특징으로 하는,
동영상 장면 검색 시스템.
삭제
삭제
사용자가 원하는 동영상에 대한 검색 데이터가 입력부에 의해 입력되는 단계; 및
상기 검색 데이터에 의거하여 이미지 데이터와 사운드 데이터에 따른 특정 장면의 검색을 서버에 의해 수행하는 단계;를 포함하며,
상기 서버는,
상기 입력부로부터 입력된 상기 동영상에 대한 검색 데이터를 수신하는 수신부;
수신된 상기 검색 데이터에 대한 사용자의 검색 질의를 분석하는 분석부;
분석된 검색 질의에 해당하는 이미지 데이터와 사운드 데이터를 분리하여 검색하는 검색부;
사용자 질의에 대해, 상기 이미지 데이터의 유사도를 학습하여 예측하는 학습부; 및
상기 학습부에 의해 예측된 상기 이미지 데이터의 유사도가 출력되는 출력부;를 포함하고,
상기 사용자가 요하는 문장에서 각각의 단어에 대해 좌표 평면 상의 좌표가 각각 부여되며,
부여된 상기 좌표에서 코사인 함수에 따른 밑변 / 빗변의 각도를 이용하여 상기 유사도를 계산하고,
상기 밑변 / 빗변의 각도가 서로 가까울수록 유사한 유사도를 갖는 것을 특징으로 하는,
동영상 장면 검색 방법.
삭제
제 6 항에 있어서,
상기 서버는,
상기 동영상에 대한 이미지 데이터 태그와 사운드 데이터 태그가 미리 정해진 시간 단위로 테이블화되어 저장되는 DB; 및
상기 DB로부터 상기 특정 장면에 해당하는 부분 동영상을 추출하여 매칭하는 추출부;를 포함하는 것을 특징으로 하는,
동영상 장면 검색 방법.
삭제
삭제