KR101551080B1 - Method and apparatus for providing video contents search service based on knowledge structure - Google Patents
Method and apparatus for providing video contents search service based on knowledge structure Download PDFInfo
- Publication number
- KR101551080B1 KR101551080B1 KR1020140042826A KR20140042826A KR101551080B1 KR 101551080 B1 KR101551080 B1 KR 101551080B1 KR 1020140042826 A KR1020140042826 A KR 1020140042826A KR 20140042826 A KR20140042826 A KR 20140042826A KR 101551080 B1 KR101551080 B1 KR 101551080B1
- Authority
- KR
- South Korea
- Prior art keywords
- knowledge structure
- image contents
- proximity
- query
- words
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/41—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 영상 콘텐츠 검색 기술에 관한 것으로, 특히 영상 콘텐츠에 대응되는 지식 구조를 생성 및 구축하고, 이를 이용하여 영상 콘텐츠 검색 동작을 수행할 수 있도록 하는 영상 콘텐츠 검색 방법 및 시스템에 관한 것이다. The present invention relates to a video content retrieval technology, and more particularly, to a video content retrieval method and system capable of creating and constructing a knowledge structure corresponding to video content and performing an image content retrieval operation using the constructed information structure.
최근 IPTV와 스마트 TV 등의 등장과 영상 콘텐츠를 시청하고 검색할 수 있는 웹 서비스의 등장으로 영상 콘텐츠의 접근이 용이해져 사용자들은 자신이 원하는 콘텐츠를 찾고자 하는 요구가 증가하고 있다. Recently, the emergence of IPTV and smart TV, and the emergence of Web services that can view and search image contents, makes it easy to access image contents, and users are increasingly searching for desired contents.
그러나 서비스되는 콘텐츠의 양 또한 기하급수적으로 증가하여, 영상 콘텐츠를 검색할 때 사용하는 키워드 기반의 검색은 많은 양의 결과를 가져오며 사용자가 필요로 하지 않은 결과가 검색된다. 따라서 사용자가 원하는 영상 콘텐츠의 검색 시간과 노력이 증가하게 되었다. 이를 극복하기 위해 영상 콘텐츠 추천 및 검색에 대한 연구가 수행되어 왔다.However, the amount of content to be served increases exponentially, so that the keyword-based search used to search for image content results in a large amount of results and results that the user does not need are searched. Therefore, the search time and effort of the desired image contents are increased. To overcome this problem, research on video content recommendation and retrieval has been carried out.
특히, 기존의 영화와 같은 영상 콘텐츠를 제공하는 서비스에서는 단지 특정 영상 콘텐츠의 메타데이터를 나열함으로써 영상 콘텐츠의 각종 정보(예를 들어, 장르, 감독, 배우, 키워드)를 제공함을 고려하여, 메타데이터를 기반으로 한 영상 콘텐츠 추천 및 검색 서비스가 널리 개발 및 이용되고 있다. In particular, in a service for providing image contents such as existing movies, considering the provision of various information (for example, genre, supervision, actor, keyword) of image contents by merely listing metadata of specific image contents, Based video content recommendation and search service are widely developed and used.
다만, 영상 콘텐츠에 매핑된 메타데이터는 해당 콘텐츠를 대표하는 정보를 가지고 있으나, 콘텐츠 내용에 관련된 정보를 제공해 주지는 못한다. 이러한 경우 영상 콘텐츠에 매핑된 메타 데이터에 포함된 한정된 정보를 기반으로, 영상 검색 동작이 수행됨에 따라 영상 검색의 정확성이 상대적으로 저하되는 문제가 발생한다. However, the meta data mapped to the image content has information representative of the corresponding content, but does not provide information related to the content content. In this case, based on the limited information included in the metadata mapped to the image content, the accuracy of the image search relatively decreases as the image search operation is performed.
한편, 영화와 같은 영상 콘텐츠의 경우, 영상 콘텐츠에 매핑되는 줄거리 정보에는 일반적으로 영화 검색에 사용되는 장르, 감독, 배우, 키워드와 같은 메타데이터와는 다르게 해당영화의 간단한 내용을 담고 있기 때문에 사용자에게 특정 영화를 대표하는 정보를 전달해 줄 수 있다. On the other hand, in the case of video content such as a movie, the plot information mapped to the video content contains a simple content of the movie, unlike the metadata, such as genre, director, actor, It can deliver information representative of a specific movie.
따라서 영화 메타데이터 온톨로지에서 줄거리 검색을 통하여 사용자가 원하는 영화를 검색하고 추천할 수 있으며, 영화 검색을 할 때 사용하는 대표 메타데이터들은 다르지만 유사한 내용을 담고 있는 영화의 검색이 가능하다. 그러나 이러한 경우에도 질의어에 포함된 단어들을 추출하고, 줄거리에 해당 단어들이 포함되어 있는 지만을 분석하여 영화 추천 동작이 수행되기 때문에 질의어에 포함된 의도까지는 충분히 반영하지는 못하는 문제가 여전히 잔존하게 된다. Therefore, it is possible to search for and recommend a movie to the user through a story search in the movie metadata ontology, and it is possible to search for a movie containing similar contents although the representative metadata used when searching for the movie is different. However, even in this case, since the movie recommendation operation is performed by extracting the words included in the query word and analyzing the fact that the words are included in the story, the problem that the intention contained in the query word is not fully reflected still remains.
본 발명은 상기와 같은 문제점을 해결하기 위한 것으로서, 영상 콘텐츠에 대응되는 지식 구조를 생성 및 구축하고, 이를 이용하여 영상 콘텐츠 검색 동작을 수행할 수 있도록 함으로써, 질의어에 포함된 사용자 의도까지도 반영한 영상 콘텐츠 검색 동작을 수행할 수 있도록 하는 영상 콘텐츠 검색 방법 및 시스템을 제공하고자 한다. SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and it is an object of the present invention to provide a method and apparatus for generating and constructing a knowledge structure corresponding to image contents, And to provide a video content search method and system capable of performing a search operation.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
The objects of the present invention are not limited to the above-mentioned objects, and other objects not mentioned can be clearly understood by those skilled in the art from the following description.
상기 과제를 해결하기 위한 수단으로서, 본 발명의 일 실시 형태에 따르면, 사용자가 입력한 질의어에 대응되는 영상 콘텐츠들을 선별하는 단계; 상기 선별된 영상 콘텐츠들 각각에 대응되는 지식 구조를 획득하는 단계; 상기 지식 구조를 기반으로 상기 선별된 영상 콘텐츠들 각각에 대한 영상 콘텐츠와 질의어간 근접성을 계산하는 단계; 및 상기 근접성 계산 결과를 기반으로 상기 선별된 영상 콘텐츠들의 추천 순서를 결정하는 단계를 포함하는 지식 구조를 기반으로 한 영상 콘텐츠 검색 방법을 제공한다. According to an aspect of the present invention, there is provided a method for searching a video content, the method comprising: selecting image contents corresponding to a query input by a user; Acquiring a knowledge structure corresponding to each of the selected image contents; Calculating proximity between image content and query terms for each of the selected image content based on the knowledge structure; And a step of determining a recommendation order of the selected image contents based on the proximity calculation result.
상기 지식 구조를 획득하는 단계는 상기 선별된 영상 콘텐츠 각각에 대응되는 줄거리 정보를 획득하고, 상기 줄거리 정보를 기반으로 상기 선별된 영상 콘텐츠 각각에 대응되는 핵심 개념을 추출하는 단계; 상기 추출된 핵심 개념으로부터 다수의 핵심 개념쌍을 획득하고, 상기 다수의 핵심 개념쌍 각각에 대응되는 공기정보(Co-occurrence)를 이용하여 상기 선별된 영상 콘텐츠 각각에 대응되는 핵심 개념간 연관관계를 추출하는 단계; 및 상기 핵심 개념간 연관관계를 기반으로 상기 선별된 영상 콘텐츠 각각에 대응되는 지식 구조를 생성하는 단계를 포함하는 것을 특징으로 한다. Acquiring the knowledge structure includes acquiring plot information corresponding to each of the selected image contents and extracting a core concept corresponding to each of the selected image contents based on the plot information; Acquiring a plurality of key concept pairs from the extracted core concept, and associating key concepts corresponding to each of the selected image contents with air information (Co-occurrence) corresponding to each of the plurality of core concept pairs Extracting; And generating a knowledge structure corresponding to each of the selected image contents based on the association between the key concepts.
상기 지식 구조는 다수의 핵심 개념에 각각 대응되는 다수의 노드와, 상기 다수의 노드간 연관 관계를 표현하는 다수의 링크를 포함하며, 상기 노드간 거리는 노드간 연관관계에 반비례하는 것을 특징으로 한다. The knowledge structure includes a plurality of nodes respectively corresponding to a plurality of core concepts and a plurality of links expressing the association between the plurality of nodes, and the inter-node distance is inversely proportional to the inter-node association.
상기 영상 콘텐츠와 질의어간 근접성을 계산하는 단계는 상기 질의어에 포함된 단어들을 추출하고, 상기 추출된 단어들을 두 개씩 조합하여 다수의 단어쌍을 만드는 단계; 상기 단어쌍 각각을 상기 지식 구조에 대입하여 지식구조상에서의 단어간 거리를 획득 및 수집한 후, 평균화하여 단어간 평균 거리를 획득하는 단계; 및 상기 단어간 평균 거리를 기반으로 영상 콘텐츠와 질의어간 근접성을 계산하는 단계를 포함하는 것을 특징으로 한다. Wherein the step of calculating the proximity between the image content and the query term comprises the steps of extracting words included in the query word and combining the extracted words to form a plurality of word pairs; Assigning each of the word pairs to the knowledge structure to acquire and collect word-to-word distances on a knowledge structure, and then average the words to obtain an average distance between words; And calculating the proximity between the image content and the query based on the average distance between the words.
상기 단어간 평균 거리를 획득하는 단계는 ""을 통해 상기 단어간 평균 거리(DistanceSore)를 획득하며, 상기 Q는 질의어, 상기 D는 영화 콘텐츠, 상기 (ti, tj)는 질의어에 포함된 단어쌍, 상기 Nt는 단어 개수, 상기 Distance(ti, tj)는 지식구조상에서 단어쌍(ti, tj)의 거리, 상기 maxDistance(D)는 지식구조의 핵심 개념간 거리의 최대값을 의미하는 것을 특징으로 한다.Wherein the step of acquiring the mean distance between words comprises: (T i , t j ) is a word pair included in the query term, N t is the number of words, and N is the number of words in the query word. Distance (t i , t j ) is the distance of the word pair (t i , t j ) in the knowledge structure, and maxDistance (D) is the maximum value of the distance between core concepts of the knowledge structure.
상기 영상 콘텐츠와 질의어간 근접성을 계산하는 단계는 ""을 통해 상기 영상 콘텐츠와 질의어간 근접성(Proximity)을 계산하며, 상기 a는 단어간 평균 거리와 영화와 질의어간 근접성을 반영하는 볼록 곡선의 볼록도를 조정하는 매개 변수인 것을 특징으로 한다. Wherein the step of calculating the proximity between the video content and the query term comprises " Quot; is a parameter for adjusting the convexity of the convex curve reflecting the proximity between the word and the query distance, and the average distance between the words.
상기 영상 콘텐츠들을 선별하는 단계는 랭킹 함수를 통해 다수의 영상 콘텐츠들 각각에 대응되는 랭킹 점수를 계산하고, 상기 랭킹 점수가 기 설정된 값보다 큰 영화 콘텐츠들을 사용자가 입력한 질의어에 관련된 영화들로 획득하는 것을 특징으로 한다.The step of selecting the image contents may include calculating a ranking score corresponding to each of a plurality of image contents through a ranking function, acquiring movie contents whose ranking score is larger than a preset value, as movies related to a query input by the user .
상기 선별된 영상 콘텐츠들의 추천 순서를 결정하는 단계는 상기 선별된 영상 콘텐츠들의 추천 순서 결정시, 상기 랭킹 점수 계산 결과를 추가 고려하는 기능을 더 포함하는 것을 특징으로 한다.
Wherein the step of determining the recommendation order of the selected image contents further includes a function of further considering the ranking score calculation result when determining the recommendation order of the selected image contents.
상기 과제를 해결하기 위한 수단으로서, 본 발명의 다른 실시 형태에 따르면, 사용자가 입력한 질의어에 대응되는 영상 콘텐츠들을 선별하는 콘텐츠 검색부; 다수의 영상 콘텐츠 각각에 대응되는 지식 구조를 생성 및 관리하는 지식 구조 관리부; 상기 선별된 영상 콘텐츠들 각각에 대응되는 지식 구조를 획득한 후, 상기 획득된 지식 구조를 기반으로 상기 선별된 영상 콘텐츠들 각각에 대한 영상 콘텐츠와 질의어간 근접성을 계산하는 근접성 계산부; 및 상기 근접성 계산 결과를 기반으로 상기 선별된 영상 콘텐츠들의 추천 순서를 결정하고, 영화 추천 동작을 수행하는 영화 추천부를 포함하는 지식 구조를 기반으로 한 영상 콘텐츠 검색 서버를 제공한다.
According to another aspect of the present invention, there is provided, as a means for solving the above problems, a content retrieval unit for selecting image contents corresponding to a query input by a user; An information structure managing unit for creating and managing a knowledge structure corresponding to each of a plurality of image contents; A proximity calculator for acquiring a knowledge structure corresponding to each of the selected image contents and calculating proximity between image contents and query terms for each of the selected image contents based on the acquired knowledge structure; And a movie recommendation unit for determining a recommendation order of the selected image contents based on the proximity calculation result and performing a movie recommendation operation.
본 발명에서는 분석 대상의 핵심 개념은 무엇인지, 핵심 개념간 연관 관계를 알려주는 핵심 개념별 가중치는 얼마인지 알려주는 지식 구조를 기반으로 영화 검색 동작이 수행되도록 함으로써, 보다 신뢰성있는 영상 콘텐츠 검색 동작이 수행되도록 한다. In the present invention, a movie search operation is performed based on a knowledge structure that indicates what a core concept of an object to be analyzed is and how much weight is given to a core concept that indicates the association between the core concepts, .
또한 질의어에 포함된 단어들을 추출한 후 단어간 연관 관계를 반영하여, 질의어와 영상 콘텐츠와의 근접성을 파악하도록 함으로써, 영화 검색 결과가 사용자 의도를 보다 잘 반영할 수 있도록 한다.
Also, by extracting the words included in the query word and reflecting the relationship between the words, it is possible to grasp the proximity between the query word and the image content, so that the movie search result can better reflect the user intention.
도1은 본 발명의 일 실시예에 따른 영상 콘텐츠 검색 시스템을 도시한 도면이다.
도2은 본 발명의 일 실시예에 따른 영상 콘텐츠 검색 서버를 도시한 도면이다.
도3은 본 발명의 일 실시예에 따른 영상 콘텐츠 검색 서비스 제공 방법을 도시한 도면이다.
도4은 본 발명에서 이용하고자 하는 지식 구조의 개념을 설명하기 위한 도면이다.
도5은 본 발명의 일 실시예에 따라 생성된 지식 구조를 설명하기 위한 도면이다.
도6은 본 발명의 일 실시예에 따른 영상 콘텐츠 검색 서비스 제공 방법의 지식 구조 획득 단계를 보다 상세하게 설명하기 위한 도면이다.
도7은 본 발명의 일 실시예에 따른 영상 콘텐츠 검색 서비스 제공 방법의 근접성 계산 단계를 보다 상세하게 설명하기 위한 도면이다.
도8은 본 발명의 단어간 평균 거리와 근접성간 상관관계를 도시한 도면이다.FIG. 1 is a diagram illustrating a video content retrieval system according to an embodiment of the present invention. Referring to FIG.
2 is a diagram illustrating a video content search server according to an embodiment of the present invention.
FIG. 3 illustrates a method of providing a video content search service according to an embodiment of the present invention. Referring to FIG.
4 is a diagram for explaining the concept of a knowledge structure to be used in the present invention.
5 is a diagram for explaining a knowledge structure generated according to an embodiment of the present invention.
FIG. 6 is a diagram for explaining the knowledge structure obtaining step of the method of providing an image content search service according to an embodiment of the present invention in more detail.
FIG. 7 is a diagram for explaining the proximity calculation step of the image content search service providing method according to an embodiment of the present invention in more detail.
8 is a graph showing the correlation between the mean distance between words and the proximity of the present invention.
본 발명의 목적 및 효과, 그리고 그것들을 달성하기 위한 기술적 구성들은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.BRIEF DESCRIPTION OF THE DRAWINGS The above and other objects, features and advantages of the present invention will be more apparent from the following detailed description taken in conjunction with the accompanying drawings, in which: FIG. In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear.
그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다.The following terms are defined in consideration of the functions of the present invention, and these may be changed according to the intention of the user, the operator, or the like.
그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있다. 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. These embodiments are provided so that this disclosure will be thorough and complete, and will fully convey the scope of the invention to those skilled in the art to which the present invention pertains. Only. Therefore, the definition should be based on the contents throughout this specification.
도1 및 도2는 본 발명의 일 실시예에 따른 영상 콘텐츠 검색 시스템을 도시한 도면이다. FIG. 1 and FIG. 2 illustrate an image content retrieval system according to an embodiment of the present invention.
도1에 도시된 바와 같이, 본 발명의 영상 콘텐츠 검색 시스템은 크게 영화 검색 서비스를 제공하는 영상 콘텐츠 검색 서버(10)와, 영상 콘텐츠 검색 서버(10)에 접속하여 사용자가 원하는 영상 콘텐츠를 검색하는 다수의 사용자 단말(20) 등을 구비할 수 있다. As shown in FIG. 1, the video content search system of the present invention includes a video
그리고 도2에 도시된 바와 같이, 영상 콘텐츠 검색 서버(10)는 영상 검색 페이지를 구성 및 제공하는 화면 구성 및 제공부(11), 랭킹 함수를 통해 영상 검색 페이지에 입력된 질의어에 관련된 영상 콘텐츠를 선별하는 콘텐츠 검색부(12), 영상 콘텐츠 각각에 대응되는 지식 구조를 생성 및 관리하는 지식 구조 관리부(13), 상기 선별된 영상 콘텐츠들 각각에 대응되는 지식 구조를 획득한 후, 이들을 기반으로 상기 선별된 영상 콘텐츠들 각각에 대한 영상 콘텐츠와 질의어간 근접성을 계산하는 근접성 계산부 근접성 계산부(14), 및 근접성 계산 결과를 기반으로 상기 선별된 영상 콘텐츠들의 추천 순서를 결정하고, 영상 추천 동작을 수행하는 영상 추천부(15), 및 영상 콘텐츠에 관련된 각종 정보(예를 들어, 영화 콘텐츠에 대응되는 메타 데이터, 줄거리 정보 등)을 저장하는 데이터베이스(16) 등을 구비할 수 있다.
As shown in FIG. 2, the image
이하, 도3 내지 도8을 참고하여 본 발명의 영상 콘텐츠 검색 시스템의 동작 방법에 대해 상세히 살펴보기로 한다. 다만, 이하의 설명에서는 설명의 편이를 위해 영상 콘텐츠의 예로 영화 콘텐츠를 들어 설명하기로 한다. 또한, 이때의 영화 콘텐츠에는 영화의 내용을 요약 설명한 줄거리 정보가 매핑되어있다고 가정하기로 한다. Hereinafter, an operation method of the video contents retrieval system of the present invention will be described in detail with reference to FIG. 3 to FIG. In the following description, for convenience of explanation, the movie contents will be described as an example of the image contents. It is assumed that the movie content at this time is mapped with plot information that summarizes the contents of the movie.
도3은 본 발명의 일 실시예에 따른 영상 콘텐츠 검색 서비스 제공 방법을 도시한 도면이다. FIG. 3 illustrates a method of providing a video content search service according to an embodiment of the present invention. Referring to FIG.
도3에 도시된 바와 같이, 본 발명의 영상 콘텐츠 검색 서비스 제공 방법은 질의어 입력 단계(S10), 영화 선별 단계(S20), 각 영화의 지식 구조 획득 단계(S30), 지식 구조를 기반으로 영화와 질의어간 연관관계 계산 단계(S40), 영화 추천 순서 결정 단계(S50), 및 영화 추천 단계(S60) 등을 포함하여 구성된다. As shown in FIG. 3, the method of providing a video content search service of the present invention includes a query input step S10, a movie selection step S20, a knowledge structure acquisition step S30 of each movie, A query inter-word association relationship calculation step S40, a movie recommendation order determination step S50, a movie recommendation step S60, and the like.
단계 S10에서, 영상 콘텐츠 검색 서버(10)는 영화 검색 페이지를 생성 및 제공한다. 그리고 사용자가 자신의 단말(20)을 통해 이에 접근한 후 질의어 입력창에 적어도 하나의 단어를 입력하면, 이를 질의어로 획득하도록 한다. In step S10, the video
단계 S20에서, 영상 콘텐츠 검색 서버(10)는 랭킹 함수를 통해 데이터베이스(16)에 저장된 영화 콘텐츠 모두를 분석하여 영화 콘텐츠 각각에 대응되는 랭킹 점수를 획득하고, 랭킹 점수가 기 설정된 값보다 큰 영화 콘텐츠들만을 사용자가 입력한 질의어에 관련된 영화들로 획득하도록 한다. In step S20, the video
참고로, 랭킹 함수(Ranking function)는 검색 엔진이 주어진 질의문에 대해 일치하는 문서들의 순위를 매길 수 있도록 하는 함수로, 대표적인 예로 Okapi BM25 알고리즘이 존재한다. Okapi BM25는 각 문서의 단어들의 등장 빈도를 이용하여 확률적 모델을 적용하여 랭킹 점수(즉, BM25 점수)를 계산하는 것으로, 단어 q1,...,qn를 포함하고 있는 질의 문서 Q에 대한 문서 D의 랭킹 점수는 다음과 같이 계산된다.As a reference, a ranking function is a function that allows the search engine to rank matching documents for a given query. For example, the Okapi BM25 algorithm exists. Okapi BM25 computes the ranking score (ie, BM25 score) by applying a stochastic model using the frequency of occurrence of words in each document. It calculates the score of the query document Q containing the words q 1 , ..., q n The ranking score of document D is calculated as follows.
[수학식 1][Equation 1]
여기서 f(qi, D)는 문서 D에서 단어 qi가 등장하는 빈도를 나타낸다. |D|는 문서 D의 단어 개수를 의미하며 avgdl은 비교 대상 문서군의 평균 단어 개수 이다. k1 과 b는 자유파라미터로서 보통 k1 =2.0, b=0.75의 값을 사용한다.Here, f (q i , D) represents the frequency with which the word q i appears in document D. | D | denotes the number of words in document D, and avgdl is the average number of words in the document group to be compared. k 1 and b are free parameters, usually k 1 = 2.0 and b = 0.75.
이하에서는, 설명의 편이를 위해, 랭킹 함수의 일례로 Okapi BM25 알고리즘을 들어 설명하기로 한다. Hereinafter, for convenience of explanation, Okapi BM25 algorithm will be described as an example of a ranking function.
IDF(qi)는 단어 qi의 역 문서 빈도(inverse document frequency)로서 다음과 같이 계산된다.IDF (q i ) is the inverse document frequency of the word q i and is calculated as follows.
[수학식 2]&Quot; (2) "
위의 식에서 N은 비교 대상 문서군의 문서 개수이며, n(qi)는 단어 qi를 포함하는 문서의 개수이다. Okapi BM25의 Score값을 계산하여 임계값 이하의 문서를 필터링 하여 심층 검사에서 제외함으로서 검색 대상의 축소를 통한 성능 향상의 효과를 얻을 수 있다. In the above equation, N is the number of documents in the document group to be compared, and n (q i ) is the number of documents including the word q i . By calculating the score of Okapi BM25 and filtering out documents below the threshold value, it is possible to obtain the effect of improving the performance by reducing the search target by excluding it from the depth test.
단계 S30에서는, 영상 콘텐츠 검색 서버(10)가 단계 S20을 통해 선별된 영화 각각에 대응되는 지식 구조를 획득한다. In step S30, the image
지식 구조는 학습자가 어떤 문서나 매체를 통해 학습할 때 생성되는 핵심 개념들과 그들의 연관관계에 기반한 연관 관계를 조직적으로 나타낸 모형으로서, 개념간에 연결된 선은 두 개념이 의미적으로 밀접한 관계가 있음을 나타낸다. 가령, 학습자가 도4에서와 같이"컴퓨터의 구성"이라는 문서를 학습했고, 해당 문서내의 핵심 개념들이 Computer, CPU, Cache Memory, Main Memory 그리고 Hard Disk가 있었다고 한다면, 해당 문서를 학습한 학습자의 머리 속에는 핵심 개념들이 그들의 연관 관계를 통해 상호 연결된 구조가 형성될 수 있으며, 이러한 조직적인 체계가 지식 구조가 될 수 있다. 이에 본 발명에서는 지식 구조 관리부(13)를 통해 영화 줄거리에 포함된 단어들을 분석하여 핵심 단어들을 추출하고, 핵심 단어간 공기정보(Co-occurrence)를 이용하여 핵심 단어간 연관 관계를 파악하고, 이를 반영하는 지식 구조를 생성한 후, 이를 영화 검색에 활용하도록 한다. The knowledge structure is a systematic representation of associations based on key concepts and their associations that are generated when a learner learns through a certain document or medium. The lines connected between concepts are closely related to each other. . For example, if a learner has learned a document called "Composition of Computer" as shown in FIG. 4 and the core concepts in the document are Computer, CPU, Cache Memory, Main Memory and Hard Disk, Inside, the core concepts can be formed by interconnected structures, and this organizational structure can be the knowledge structure. In the present invention, the knowledge
이때, 지식 구조는 도5에 도시된 바와 같이, 다수의 노드와 다수의 링크로 표현될 수 있다. At this time, the knowledge structure can be represented by a plurality of nodes and a plurality of links as shown in Fig.
다수의 노드 각각은 영화 줄거리에 포함된 주요 키워드들 각각에 대응되며, 소정의 면적을 가지는 각종 도형(예를 들어, 원, 사각형 등)으로 표현될 수 있다. 그리고 키워드 발생 빈도에 비례하여 노드의 가중치(이때, 도형의 면적은 가중치에 따라 비례됨)을 변화시켜 줌으로써, 노드의 가중치만으로 해당 키워드의 발생 빈도수를 손쉽게 파악할 수 있도록 한다. Each of the plurality of nodes corresponds to each of the main keywords included in the movie plot, and can be represented by various graphics (e.g., circles, squares, etc.) having a predetermined area. In addition, by changing the weight of the node (the area of the figure is proportional to the weight) in proportion to the frequency of occurrence of the keyword, the frequency of occurrence of the keyword can be easily grasped only by the weight of the node.
다수의 링크 각각은 노드간 연관 관계를 나타내며, 이는 해당 링크로 연결된 키워드간의 관계(즉, 연관성, 관련성)에 따라 굵기, 색상, 종류 등이 다양하게 달라지는 선으로 표현될 수 있다. Each of the plurality of links represents an association between nodes, which can be represented by lines varying in thickness, color, and type according to the relationship (i.e., relevance, relevance) between the keywords linked to the link.
그리고 노드간 거리는 노드간 연관관계에 반비례하는 특징을 가진다. 즉, 노드간 거리가 멀수록 해당 노드끼리의 연관관계는 낮아지게 된다. The distance between nodes is inversely proportional to the correlation between nodes. That is, as the distance between the nodes increases, the association between the nodes decreases.
단계 S40에서는, 획득된 지식 구조를 기반으로 선별된 영화와 질의어간 근접성을 계산한다. 즉, 질의어에 포함된 단어들을 기반으로 적어도 하나의 단어쌍을 만든 후, 단어쌍 각각을 지식 구조에 대입하여 지식구조상에서의 단어간 거리를 획득한다. 그리고 이들의 거리를 평균화한 후, 이를 근접성 점수로 환산함으로써, 영화와 질의어간 근접성을 확인하도록 한다. In step S40, the proximity between the movie and the query word selected based on the acquired knowledge structure is calculated. That is, at least one word pair is created based on the words included in the query word, and then each word pair is substituted into the knowledge structure to obtain the word-to-word distance on the knowledge structure. After averaging these distances, convert them into proximity scores, and check the proximity between the movie and the query words.
단계 S50에서는, 단계 S40에서 계산된 근접성 점수를 고려하여, 또는 단계 S20에서 계산된 BM25 점수와 단계 S40에서 계산된 근접성 점수를 함께 고려하여, 단계 S20을 통해 선별된 영화들의 추천 순서를 결정한다. In step S50, considering the proximity score calculated in step S40 or considering the BM25 score calculated in step S20 and the proximity score calculated in step S40, the recommendation order of movies selected through step S20 is determined.
단계 S60에서는, 단계 S50에서 결정된 추천 순서로 영화 콘텐츠를 정렬하고, 이를 영화 검색 페이지를 통해 안내하도록 한다.
In step S60, the movie contents are arranged in the recommended order determined in step S50, and the movie contents are guided through the movie search page.
도6은 본 발명의 일 실시예에 따른 영상 콘텐츠 검색 서비스 제공 방법의 지식 구조 획득 단계를 보다 상세하게 설명하기 위한 도면으로, 도6의 방법은 단계 S20을 통해 선별된 영화 각각에 대해 수행되도록 한다. FIG. 6 is a diagram for explaining a step of acquiring a knowledge structure of a method of providing an image content search service according to an exemplary embodiment of the present invention in more detail. The method of FIG. 6 is performed for each selected movie through step S20 .
단계 S31에서는, 단계 S20을 통해 선별된 영화에 대응되는 지식 구조를 검색한다. In step S31, the knowledge structure corresponding to the selected movie is retrieved through step S20.
단계 S32에서는, 지식 구조의 검색 결과를 확인하고, 지식 구조가 검색되었으면, 단계 S35를 진행하고, 그렇지 않으면 단계 S33를 진행하도록 한다. In step S32, the search result of the knowledge structure is confirmed. If the knowledge structure is found, the process proceeds to step S35; otherwise, the process proceeds to step S33.
단계 S33에서는, 영화 콘텐츠에 대응되는 줄거리 정보를 획득하고, 이에 포함된 단어들에 대한 형태소 분석을 하여 줄거리 정보에 포함된 단어 중 명사만을 선별한 후, 단어 사용 빈도를 기반으로 주요 키워드, 즉 핵심 개념을 추출한다.In step S33, plot information corresponding to the movie content is obtained, morphological analysis is performed on the words included in the plot, and only nouns included in the plot information are selected. Then, based on the frequency of word usage, Extract the concept.
단계 S34에서는, 핵심 개념에 대응되는 단어를 두 개씩 묶어 다수의 핵심 개념쌍을 획득하고, 이들의 공기정보(Co-occurrence)를 이용하여 영상 콘텐츠의 핵심 개념간 연관관계를 추출한다. In step S34, a plurality of key concept pairs are acquired by grouping two words corresponding to the core concept, and the association between key concepts of the image content is extracted using the air information (Co-occurrence).
본 발명에서는 공기정보를 두 핵심 개념이 같은 문장에서 동시 출현하는 빈도수인 문장 공기정보와 두 개념이 같은 문단에서 동시 출현하는 문단 공기정보로 세분화한 후, 단순 공기정보를 이용하여, 핵심 개념간 연관관계 유사도를 측정한다. In the present invention, the air information is divided into sentence air information, which is the frequency of simultaneous occurrence of the two key concepts in the same sentence, and paragraph air information, in which the two concepts appear simultaneously in the same paragraph, Measure the relationship similarity.
수학식 1은 문장 간 공기정보를 이용하여 구한 단어간 유사도(Sentence cooccurrences Similarity: SS)를, 수학식2는 문단간 공기정보를 이용하여 구한 단어간 유사도 (Paragraph co-occurrences Similarity: PS)를 구하기 위한 식이다. In Equation (1), Sentence co-occurrence similarity (SS) is calculated using inter-sentence air information, and Equation (2) is used to obtain Paragraph co- occurrences Similarity (PS) .
[수학식 1][Equation 1]
[수학식 2]&Quot; (2) "
이때, Ns와 Np는 각각, 문서에 나타난 순서에 따른 문장 번호, 문단 번호가 된다. In this case, the N s p N, respectively, and the sentence number, the paragraph number in accordance with the order in which they appear in the document.
단어와 단어의 유사도는 각 문장 혹은 각 문단에서 동시 출현한 횟수를 총 더한 것을, 문서에서 나타난 각 문서, 문단 공기정보의 최대값으로 나누어 0과 1사이의 값으로 정규화시킨다.The similarity between words and words is normalized to the value between 0 and 1 by dividing the sum of the number of simultaneous appearances in each sentence or each paragraph by the maximum value of each document and paragraph air information shown in the document.
상기의 수학식으로 공기정보를 이용하여 쉽게 단어 간유사도를 측정할 수 있지만, 이 방법은 많이 출현한 단어일수록 다른 단어들과 유사관계가 높아지는 문제점을 갖는다. 이러한 문제점을 해결하기 위해 문서 군집화에 널리 쓰이는 코사인 유사도 측정 방법을 변형하여 사용한다.Although the similarity between words can be easily measured using the air information in the above equation, this method has a problem that the similarity relation with other words becomes higher as the word appears more frequently. To solve these problems, a method of measuring the degree of similarity of cosine, which is widely used in document clustering, is modified and used.
표 1에서처럼 각 문장에 출현하는 개념의 빈도수로 이루어진 ISV(Inverted Senteces Vetcor)를 생성한다.As shown in Table 1, an ISV (Inverted Sentences Vetcor) consisting of the frequency of concepts appearing in each sentence is generated.
[수학식3]&Quot; (3) "
그 후 수학식 3을 이용하여 단일 문서로부터 각 개념간의 코사인 유사도(Sentence co-occurrences Cosine Similarity: SCS)를 측정할 수 있다.Then, using Equation (3), it is possible to measure the cosine similarity (SCS) between each concept from a single document.
표 1의 문장 번호를 문단 번호로 바꾸어 동일한 방식으로 개념간의 코사인 유사도(Paragraph cooccurrences Cosine Similarity: PSC)를 측정할 수 있으며, 위의 방식은 단어가 출현한 빈도수에 상관없이 동시 출현한 정도에 따라 유사도가 측정되므로 단일 문서 안에서의 핵심 개념 간 연관관계 측정에 적합하다.In the same way, it is possible to measure the similarity of paragon cog- nocurrences cosine similarity (PSC) by replacing the sentence number in Table 1 with the paragraph number. In this way, regardless of the frequency of occurrences of words, , It is suitable for measuring the correlation between key concepts in a single document.
[수학식 4]&Quot; (4) "
단계 S35에서는, 수학식5를 이용하여 핵심 개념 간 연관관계(Dij)를 7점 스케일로 변환한 후(1:매우 관련 있음, 7:전혀 관련 없음), 핵심 개념 간 연관관계로 이루어진 유사도 측정 테이블을 작성하고, 패스파인더(Pathfinder) 알고리즘, 7-scale score 등을 적용하여, 각 핵심 개념간을 최단 거리로 연결하여 주는 지식구조를 자동 생성한다. 그리고 생성된 지식 구조를 다음 단계로 제공하도록 한다.In step S35, the correlation (D ij ) between the core concepts is converted into a 7-point scale (1: highly related, 7: not relevant at all) using Equation (5) By creating a table, applying a pathfinder algorithm, 7-scale score, etc., a knowledge structure is automatically created that connects the core concepts to each other at the shortest distance. Then, provide the generated knowledge structure to the next step.
[수학식 5]&Quot; (5) "
단계 S36에서는, 단계 S31을 통해 검색된 지식 구조를 다음 단계로 제공하도록 한다.In step S36, the knowledge structure retrieved through step S31 is provided to the next step.
다만, 이와 같이 줄거리 정보를 기반으로 지식 구조를 생성하는 경우, 줄거리 정보의 길이에 따라 지식 구조 정확성이 변화될 수 있다. 즉, 줄거리 정보의 길이가 너무 긴 경우, 지식 구조의 크기가 너무 커져 지식 구조의 정확성이 떨어질 수 있으므로, 줄거리 정보의 길이에는 제한을 두도록 한다. However, when the knowledge structure is generated based on the storyline information, the accuracy of the knowledge structure may be changed according to the length of the storyline information. In other words, if the length of the plot information is too long, the length of the plot information is limited because the size of the knowledge structure becomes too large and the accuracy of the knowledge structure may deteriorate.
또한, 줄거리 정보에는 배우 이름과 해당 배우의 극중 이름이 혼용되어 기재될 수 있는 데, 사용자는 배우 이름과 극중 이름 모두를 이용하여 질의 동작을 수행할 수 있다. 이에 본 발명에서는 배우 이름과 극중 이름을 서로 매핑해줌으로써, 사용자가 배우 이름과 극중 이름에 상관없이 영화 검색 동작을 수행할 수 있도록 해준다.
In addition, the plot information may include a name of an actor and a name of a play of a corresponding actor, and the user can perform a query operation using both an actor name and a play name. Accordingly, the present invention allows the user to perform a movie search operation regardless of the name of the actor and the name of the movie by mapping the actor name and the name of the play to each other.
도7은 본 발명의 일 실시예에 따른 영상 콘텐츠 검색 서비스 제공 방법의 근접성 계산 단계를 보다 상세하게 설명하기 위한 도면으로, 도7의 방법 또한 단계 S20을 통해 선별된 영화 각각에 대해 수행되도록 한다. FIG. 7 is a diagram for explaining the proximity calculation step of the image content search service providing method according to an embodiment of the present invention in more detail. The method of FIG. 7 is also performed for each selected movie through step S20.
단계 S41에서는, 질의어에 대한 형태소 분석을 하여 질의어에 포함된 단어들을 추출하고, 이들을 두 개씩 조합하여 다수의 단어쌍을 만든다. 예를 들어, 질의어에 t1, t2, t3의 단어가 포함되어 있다고 가정한다면, 본 발명에서는 (t1,t2), (t1,t2), (t1,t2), (t1,t2), (t1,t2), (t1,t2), (t1,t2), (t1,t2), (t1,t2)의 단어쌍을 생성할 수 있을 것이다. In step S41, morphological analysis is performed on the query term to extract words included in the query term, and a plurality of word pairs are formed by combining the two words. For example, assuming that contain words of t 1, t 2, t 3 to the query, in the present invention, (t 1, t 2), (
단계 S42에서는, 단어쌍 각각을 지식 구조에 대입하여 지식구조상에서의 단어간 거리를 획득하고, 단계 S43에서는 수학식6에서와 같이 이들 거리를 모두 수집한 후 평균화하여 단어간 평균 거리를 획득한다. In step S42, each of the word pairs is substituted into the knowledge structure to obtain the word-to-word distance on the knowledge structure. In step S43, the distance between words is obtained by collecting all the distances as shown in equation (6) and averaging them.
[수학식 6]&Quot; (6) "
이때, Q는 질의어, D는 영화 콘텐츠, (ti, tj)는 질의어에 포함된 단어쌍, Nt는 단어 개수, Distance(ti, tj)는 지식구조상에서 단어쌍(ti, tj)의 거리, maxDistance(D)는 지식구조의 핵심 개념간 거리의 최대값을 의미한다. (T i , t j ) is the word pair contained in the query term, N t is the word count, and Distance (t i , t j ) is the word pair (t i , t j ), and maxDistance (D) is the maximum value of the distance between core concepts of the knowledge structure.
단계 S44에서는, 사전에 정의된 단어간 평균 거리와 근접성간 상관관계를 참고하여, 단계 S43을 통해 획득한 단어간 평균 거리에 대응되는 영화와 질의어간 근접성을 획득한다. In step S44, the proximity between the movie and the query corresponding to the average distance between the words acquired in step S43 is obtained by referring to the correlation between the average distance between the predefined words and the proximity.
도8은 본 발명의 단어간 평균 거리와 근접성간 상관관계를 도시한 도면으로, 이를 참고하면, 단어간 평균 거리와 영화와 질의어간 근접성은 볼록 곡선의 형태를 가지며, 단어간 평균 거리가 작을수록 더 강한 연관 관계를 가지게 됨을 알 수 있다. FIG. 8 is a graph showing the correlation between the average distance between words and the proximity of the present invention. As shown in FIG. 8, when the average distance between words and the proximity between the movie and the query have a convex curve shape, It can be seen that there is a stronger association.
이에 본 발명에서는 단계 S43을 통해 획득한 단어간 평균 거리를 다음의 수학식에 따라 영화와 질의어간 근접성으로 환산하도록 한다. In the present invention, the average distance between words acquired through step S43 is converted into the proximity between the movie and the query word according to the following equation.
[수학식 7]&Quot; (7) "
이때, a는 단어간 평균 거리와 영화와 질의어간 근접성을 반영하는 볼록 곡선의 볼록도를 조정하는 매개 변수이다. Where a is a parameter that adjusts the convexity of the convex curve that reflects the average distance between words and the proximity between the movie and the query.
참고로, a값이 클수록 단어 간의 거리와 근접성의 관계 함수는 더욱 볼록해지며, a값이 작을수록 둘 간의 관계는 선형에 가깝게 되는 특징을 가진다. 특히, a 값이 0.6~0.8 사이일 때 가장 좋은 결과를 획득할 수 있으며, 이는 단어간 평균거리와 근접성의 관계 함수가 지수함수의 관계(볼록 함수)를 갖는다는 것을 반증한다. Note that the larger the value of a, the more convex function of the distance between words and proximity becomes, and the smaller the value of a, the closer the relationship between the two becomes. In particular, the best results can be obtained when a is between 0.6 and 0.8, which implies that the relationship between the mean distance between words and proximity has a function of exponential function (convex function).
그러면, 단계 S50에서는 근접성 점수만을 고려하거나, 또한 이하의 수학식을 기반으로 근접성 점수와 BM25 점수를 함께 고려하여 단계 S20을 통해 선별된 영화들의 추천 순서를 결정할 수 있게 된다. Then, in step S50, it is possible to consider only the proximity score, or to determine the recommendation order of movies selected in step S20 by considering the proximity score and the BM25 score together based on the following mathematical expression.
[수학식 8]&Quot; (8) "
KSRM(Q,D) = BM25(Q,D) * Proximity(Q,D)KSRM (Q, D) = BM25 (Q, D) * Proximity (Q, D)
다만, 근접성 점수 이외에 BM25 점수를 추가 고려하는 경우에는, 단어의 빈도수까지 고려한 영화 추천 순서 결정 동작을 수행할 수 있는 장점을 가지게 된다. 이는 BM25 점수가 단어 빈도수에 비례하는 값을 가지는 특징을 가지기 때문이다.
However, when the BM25 score is considered in addition to the proximity score, the motion recommendation order decision operation considering the frequency of the words is performed. This is because the BM25 score has a value proportional to the word frequency.
상기의 설명에서는 랭킹 함수의 일례로 BM25를 들어 설명하였지만, 질의어에 관련된 순위를 매길 수 있는 모든 종류의 랭킹 함수가 적용 가능할 것이다. 즉, 여기서 적용하는 지식구조 생성과 재랭킹(re-ranking) 방법은 다른 랭킹 함수에 기반한 검색에도 적용 가능할 것이다. Although BM25 has been described as an example of the ranking function in the above description, all kinds of ranking functions capable of ranking related to query terms will be applicable. That is, the knowledge structure generation and re-ranking method applied here may be applied to searches based on other ranking functions.
이상에서 전술한 바와 같은 이를 구현하기 위한 프로그램 명령어로서 구현될 수 있으며, 이러한 프로그램 명령어를 기록한 컴퓨터로 읽힐 수 있는 기록매체는, 일 예로, ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 미디어 저장장치 등이 있다. The computer-readable recording medium on which the program commands are recorded may be a ROM, a RAM, a CD-ROM, a magnetic tape, a floppy disk, Media storage devices.
또한 전술한 바와 같은 프로그램을 기록한 컴퓨터로 읽힐 수 있는 기록매체는 네트워크로 커넥션된 컴퓨터 장치에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 이 경우, 다수의 분산된 컴퓨터 중 어느 하나 이상의 컴퓨터는 상기에 제시된 기능들 중 일부를 실행하고, 그 결과를 다른 분산된 컴퓨터들 중 하나 이상에 그 실행 결과를 전송할 수 있으며, 그 결과를 전송받은 컴퓨터 역시 상기에 제시된 기능들 중 일부를 실행하여, 그 결과를 역시 다른 분산된 컴퓨터들에 제공할 수 있다.The computer-readable recording medium on which the above-described program is recorded may be distributed to a computer apparatus connected via a network so that computer-readable codes can be stored and executed in a distributed manner. In this case, one or more of the plurality of distributed computers may execute some of the functions presented above and send the results of the execution to one or more of the other distributed computers, The computer may also perform some of the functions described above and provide the results to other distributed computers as well.
본 발명의 각 실시예에 따른 지식 구조를 기반으로 한 영상 콘텐츠 검색 방법을 구동시키기 위한 프로그램인 애플리케이션을 기록한 기록매체를 읽을 수 있는 컴퓨터는, 일반적인 데스크 탑이나 노트북 등의 일반 PC뿐 만 아니라, 스마트 폰, 태블릿 PC, PDA(Personal Digital Assistants) 및 이동통신 단말 등의 모바일 단말을 포함할 수 있으며, 이뿐만 아니라, 컴퓨팅(Computing) 가능한 모든 기기로 해석되어야 할 것이다. A computer capable of reading a recording medium on which an application, which is a program for driving a video content retrieval method based on the knowledge structure according to each embodiment of the present invention, is read may include not only a general PC such as a general desktop or a notebook computer, A mobile terminal such as a cellular phone, a tablet PC, a PDA (Personal Digital Assistants), and a mobile communication terminal. In addition to this, it should be interpreted as all devices capable of computing.
이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 등이 포함될 수 있다.While the present invention has been described in connection with what is presently considered to be the most practical and preferred embodiments, it is to be understood that the invention is not limited to the disclosed embodiments. That is, within the scope of the present invention, all of the components may be selectively coupled to one or more of them. In addition, although all of the components may be implemented as one independent hardware, some or all of the components may be selectively combined to perform a part or all of the functions in one or a plurality of hardware. As shown in FIG. The codes and code segments constituting the computer program may be easily deduced by those skilled in the art. Such a computer program can be stored in a computer-readable storage medium, readable and executed by a computer, thereby realizing an embodiment of the present invention. As a storage medium of the computer program, a magnetic recording medium, an optical recording medium, or the like can be included.
또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재될 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥 상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.It is also to be understood that the terms such as " comprises, "" comprising," or "having ", as used herein, mean that a component can be implanted unless specifically stated to the contrary. But should be construed as including other elements. All terms, including technical and scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs, unless otherwise defined. Commonly used terms, such as predefined terms, should be interpreted to be consistent with the contextual meanings of the related art, and are not to be construed as ideal or overly formal, unless expressly defined to the contrary.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The foregoing description is merely illustrative of the technical idea of the present invention, and various changes and modifications may be made by those skilled in the art without departing from the essential characteristics of the present invention. Therefore, the embodiments disclosed in the present invention are not intended to limit the scope of the present invention but to limit the scope of the technical idea of the present invention. The scope of protection of the present invention should be construed according to the following claims, and all technical ideas within the scope of equivalents should be construed as falling within the scope of the present invention.
Claims (11)
상기 선별된 영상 콘텐츠들 각각에 대응되는 지식 구조를 획득하는 단계;
상기 지식 구조를 기반으로 상기 선별된 영상 콘텐츠들 각각에 대한 영상 콘텐츠와 질의어간 근접성을 계산하는 단계; 및
상기 근접성 계산 결과를 기반으로 상기 선별된 영상 콘텐츠들의 추천 순서를 결정하는 단계를 포함하며,
상기 지식 구조를 획득하는 단계는
상기 선별된 영상 콘텐츠 각각에 대응되는 줄거리 정보를 획득하고, 상기 줄거리 정보를 기반으로 상기 선별된 영상 콘텐츠 각각에 대응되는 핵심 개념을 추출하는 단계;
상기 추출된 핵심 개념으로부터 다수의 핵심 개념쌍을 획득하고, 상기 다수의 핵심 개념쌍 각각에 대응되는 공기정보(Co-occurrence)를 이용하여 상기 선별된 영상 콘텐츠 각각에 대응되는 핵심 개념간 연관관계를 추출하는 단계; 및
상기 핵심 개념간 연관관계를 기반으로 상기 선별된 영상 콘텐츠 각각에 대응되는 지식 구조를 생성하는 단계를 포함하는 것을 특징으로 하는 지식 구조를 기반으로 한 영상 콘텐츠 검색 방법. Selecting image contents corresponding to a query input by a user;
Acquiring a knowledge structure corresponding to each of the selected image contents;
Calculating proximity between image content and query terms for each of the selected image content based on the knowledge structure; And
And determining a recommendation order of the selected image contents based on the proximity calculation result,
The step of acquiring the knowledge structure
Acquiring plot information corresponding to each of the selected image contents and extracting a key concept corresponding to each of the selected image contents based on the plot information;
Acquiring a plurality of key concept pairs from the extracted core concept, and associating key concepts corresponding to each of the selected image contents with air information (Co-occurrence) corresponding to each of the plurality of core concept pairs Extracting; And
And generating a knowledge structure corresponding to each of the selected image contents based on the association between the key concepts.
다수의 핵심 개념에 각각 대응되는 다수의 노드와, 상기 다수의 노드간 연관 관계를 표현하는 다수의 링크를 포함하며, 상기 노드간 거리는 노드간 연관관계에 반비례하는 것을 특징으로 하는 지식 구조를 기반으로 한 영상 콘텐츠 검색 방법. 2. The method of claim 1,
A plurality of nodes respectively corresponding to a plurality of key concepts and a plurality of links expressing an association between the plurality of nodes, wherein the inter-node distance is inversely proportional to the inter-node association. A method of searching a video content.
상기 질의어에 포함된 단어들을 추출하고, 상기 추출된 단어들을 두 개씩 조합하여 다수의 단어쌍을 만드는 단계;
상기 단어쌍 각각을 상기 지식 구조에 대입하여 지식구조상에서의 단어간 거리를 획득 및 수집한 후, 평균화하여 단어간 평균 거리를 획득하는 단계; 및
상기 단어간 평균 거리를 기반으로 영상 콘텐츠와 질의어간 근접성을 계산하는 단계를 포함하는 것을 특징으로 하는 지식 구조를 기반으로 한 영상 콘텐츠 검색 방법. 2. The method of claim 1, wherein calculating the proximity between the image content and query terms
Extracting words included in the query term, and combining the extracted words to form a plurality of word pairs;
Assigning each of the word pairs to the knowledge structure to acquire and collect word-to-word distances on a knowledge structure, and then average the words to obtain an average distance between words; And
And calculating the proximity between the image content and the query word based on the average distance between the words.
이하의 수학식을 통해 상기 단어간 평균 거리(DistanceSore)를 획득하는 것을 특징으로 하는 지식 구조를 기반으로 한 영상 콘텐츠 검색 방법,
상기 Q는 질의어, 상기 D는 영화 콘텐츠, 상기 (ti, tj)는 질의어에 포함된 단어쌍, 상기 Nt는 단어 개수, 상기 Distance(ti, tj)는 지식구조상에서 단어쌍(ti, tj)의 거리, 상기 maxDistance(D)는 지식구조의 핵심 개념간 거리의 최대값을 의미함. 5. The method of claim 4, wherein obtaining the average distance between words comprises:
The method comprising: acquiring an average distance (DistanceSore) between words using the following formula:
(T i , t j ) is a word pair included in a query term, N t is a word number, and Distance (t i , t j ) is a word pair t i , t j ), and maxDistance (D) is the maximum value of the distance between core concepts of the knowledge structure.
이하의 수학식을 통해 상기 영상 콘텐츠와 질의어간 근접성(Proximity)을 계산하는 것을 특징으로 하는 지식 구조를 기반으로 한 영상 콘텐츠 검색 방법,
상기 a는 단어간 평균 거리와 영화와 질의어간 근접성을 반영하는 볼록 곡선의 볼록도를 조정하는 매개 변수임. 5. The method of claim 4, wherein calculating the proximity between the video content and the query terms
Wherein the proximity between the image content and the query word is calculated through the following equation: < EMI ID =
A is a parameter that adjusts the convexity of the convex curve reflecting the average distance between words and the proximity between the movie and the query word.
랭킹 함수를 통해 다수의 영상 콘텐츠들 각각에 대응되는 랭킹 점수를 계산하고, 상기 랭킹 점수가 기 설정된 값보다 큰 영화 콘텐츠들을 사용자가 입력한 질의어에 관련된 영화들로 획득하는 것을 특징으로 하는 지식 구조를 기반으로 한 영상 콘텐츠 검색 방법.The method of claim 1, wherein selecting the image content comprises:
Calculating a ranking score corresponding to each of a plurality of image contents through a ranking function and acquiring movie contents whose ranking score is larger than a predetermined value as movies related to a query inputted by a user, Based video contents retrieval method.
상기 선별된 영상 콘텐츠들의 추천 순서 결정시, 상기 랭킹 점수 계산 결과를 추가 고려하는 기능을 더 포함하는 것을 특징으로 하는 지식 구조를 기반으로 한 영상 콘텐츠 검색 방법. 8. The method of claim 7, wherein determining the recommendation order of the selected video content comprises:
Further comprising a function of considering the ranking score calculation result when determining the recommendation order of the selected image contents.
다수의 영상 콘텐츠 각각에 대응되는 지식 구조를 생성 및 관리하는 지식 구조 관리부;
상기 선별된 영상 콘텐츠들 각각에 대응되는 지식 구조를 획득한 후, 상기 획득된 지식 구조를 기반으로 상기 선별된 영상 콘텐츠들 각각에 대한 영상 콘텐츠와 질의어간 근접성을 계산하는 근접성 계산부; 및
상기 근접성 계산 결과를 기반으로 상기 선별된 영상 콘텐츠들의 추천 순서를 결정하고, 영화 추천 동작을 수행하는 영화 추천부를 포함하며,
상기 지식 구조 관리부는
상기 선별된 영상 콘텐츠 각각에 대응되는 줄거리 정보를 획득하고, 상기 줄거리 정보를 기반으로 상기 선별된 영상 콘텐츠 각각에 대응되는 핵심 개념을 추출하고, 상기 추출된 핵심 개념으로부터 다수의 핵심 개념쌍을 획득하고, 상기 다수의 핵심 개념쌍 각각에 대응되는 공기정보(Co-occurrence)를 이용하여 상기 선별된 영상 콘텐츠 각각에 대응되는 핵심 개념간 연관관계를 추출하고, 상기 핵심 개념간 연관관계를 기반으로 상기 선별된 영상 콘텐츠 각각에 대응되는 지식 구조를 생성하는 것을 특징으로 하는 지식 구조를 기반으로 한 영상 콘텐츠 검색 서버. A content search unit for selecting image contents corresponding to a query input by a user;
An information structure managing unit for creating and managing a knowledge structure corresponding to each of a plurality of image contents;
A proximity calculator for acquiring a knowledge structure corresponding to each of the selected image contents and calculating proximity between image contents and query terms for each of the selected image contents based on the acquired knowledge structure; And
And a movie recommendation unit for determining a recommendation order of the selected image contents based on the proximity calculation result and performing a movie recommendation operation,
The knowledge structure management unit
Acquiring plot information corresponding to each of the selected image contents, extracting a core concept corresponding to each of the selected image contents based on the plot information, acquiring a plurality of key concept pairs from the extracted core concept Extracting a correlation between key concepts corresponding to each of the selected image contents using air information (Co-occurrence) corresponding to each of the plurality of key concept pairs, and based on the correlation between the key concepts, And generating a knowledge structure corresponding to each of the plurality of image contents.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140042826A KR101551080B1 (en) | 2014-04-10 | 2014-04-10 | Method and apparatus for providing video contents search service based on knowledge structure |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140042826A KR101551080B1 (en) | 2014-04-10 | 2014-04-10 | Method and apparatus for providing video contents search service based on knowledge structure |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101551080B1 true KR101551080B1 (en) | 2015-09-07 |
Family
ID=54247548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140042826A KR101551080B1 (en) | 2014-04-10 | 2014-04-10 | Method and apparatus for providing video contents search service based on knowledge structure |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101551080B1 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006279429A (en) * | 2005-03-29 | 2006-10-12 | Kddi Corp | Recommendation system for video content |
-
2014
- 2014-04-10 KR KR1020140042826A patent/KR101551080B1/en active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006279429A (en) * | 2005-03-29 | 2006-10-12 | Kddi Corp | Recommendation system for video content |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220284234A1 (en) | Systems and methods for identifying semantically and visually related content | |
US20220035827A1 (en) | Tag selection and recommendation to a user of a content hosting service | |
US8589434B2 (en) | Recommendations based on topic clusters | |
US20170116200A1 (en) | Trust propagation through both explicit and implicit social networks | |
US8965872B2 (en) | Identifying query formulation suggestions for low-match queries | |
US9053115B1 (en) | Query image search | |
RU2501078C2 (en) | Ranking search results using edit distance and document information | |
CA2823408C (en) | Methods and apparatus for providing information of interest to one or more users | |
US20130110839A1 (en) | Constructing an analysis of a document | |
US10152478B2 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
KR101538998B1 (en) | Method and apparatus for providing search service based on knowladge service | |
CN111475729A (en) | Search content recommendation method and device | |
AU2013222184A1 (en) | Related entities | |
Xu et al. | Generating temporal semantic context of concepts using web search engines | |
Gong | Learning user interest model for content-based filtering in personalized recommendation system | |
US20110078162A1 (en) | Web-scale entity summarization | |
US10127322B2 (en) | Efficient retrieval of fresh internet content | |
JP5194731B2 (en) | Document relevance calculation system, document relevance calculation method, and document relevance calculation program | |
Nguyen et al. | Tag-based paper retrieval: minimizing user effort with diversity awareness | |
JP2012008874A (en) | Image selection device, method and program | |
Toraman et al. | Discovering story chains: A framework based on zigzagged search and news actors | |
CN113657116B (en) | Social media popularity prediction method and device based on visual semantic relationship | |
KR101551080B1 (en) | Method and apparatus for providing video contents search service based on knowledge structure | |
Vrochidis et al. | Utilizing implicit user feedback to improve interactive video retrieval | |
Tian et al. | A prediction model for web search hit counts using word frequencies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
R401 | Registration of restoration |