WO2017164510A2 - Voice data-based multimedia content tagging method, and system using same - Google Patents
Voice data-based multimedia content tagging method, and system using same Download PDFInfo
- Publication number
- WO2017164510A2 WO2017164510A2 PCT/KR2017/001103 KR2017001103W WO2017164510A2 WO 2017164510 A2 WO2017164510 A2 WO 2017164510A2 KR 2017001103 W KR2017001103 W KR 2017001103W WO 2017164510 A2 WO2017164510 A2 WO 2017164510A2
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- voice
- multimedia content
- tag
- server
- keyword information
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000001360 synchronised effect Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 241000282693 Cercopithecidae Species 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Definitions
- the present invention relates to a voice data-based multimedia content tagging method and a system using the same. More particularly, the present invention relates to a voice data-based multimedia for generating a voice tag based on voice data of the multimedia content and tagging the generated voice tag to the multimedia content. It relates to a content tagging method and a system using the same.
- multimedia content refers to information service contents utilized in systems and services that integrate, create, transmit, and process various types of information such as text, voice, and video.
- Such multimedia contents can deliver much more information amount more effectively than other images, sounds, and texts at the same time, and the demand is gradually increased compared to contents composed of other images, sounds, and texts only.
- the conventional method of searching for multimedia contents is to search for desired contents because the user needs to search and play the actual multimedia contents, or search based on description contents composed of images or texts to describe the multimedia contents. It takes a lot of time, and there is a disadvantage that does not exactly search the content desired.
- Korean Patent Registration No. 10-1403317 (including video with tagging information) that includes tag information that appears as an image in the multimedia and provides information to the user Information providing system) is invented, but also tag information is composed of images to check images one by one, search for desired multimedia contents, and use only images stored in tag information among images included in multimedia contents. Because of searching multimedia content, there is a problem that the search results cannot be trusted.
- the present invention has been made to solve the above problems and an object of the present invention is to generate a voice tag based on the voice data of the multimedia content, and to tag the generated voice tag to the multimedia content And providing a system.
- Another object of the present invention is to provide a voice data-based multimedia content tagging method and system capable of searching for multimedia content associated with a specific search word based on a voice tag.
- a voice data-based multimedia content tagging method includes: extracting voice keyword information based on multimedia content by a server; Generating, by the server, a voice tag based on the extracted voice keyword information; And tagging, by the server, the generated voice tag on the multimedia content.
- the server separates the voice data included in the multimedia content into morpheme units, selects voice data corresponding to lexical morphemes from the separated voice data, and selects the selected voice data from the voice. Can be extracted as keyword information.
- the server converts the extracted voice keyword information into text and matches the textual voice keyword information with synchronization time information of the voice data synchronized to a timeline of the multimedia content. You can create tags.
- the server may add the generated voice tag to the multimedia content and encode the tag in a predetermined format.
- the generating may include generating the voice tag by matching the extracted voice keyword information with synchronization time information of the voice data synchronized to the timeline of the multimedia content.
- the generating may include generating the voice tag by matching the extracted voice keyword information with the synchronization time information of the voice data synchronized with the timeline of the multimedia content and the URL address to which the multimedia content is linked. Can be generated.
- the server textifies the extracted voice keyword information, sets at least one voice keyword information among the textized voice keyword information as a keyword, and the remaining voice keyword information not set as the keyword. If set to a stop word, the voice tag may be generated by selecting only the voice data set as the keyword except filtering the voice data set as the stop word.
- the voice data-based multimedia content tagging method includes the steps of requesting the mobile terminal a search based on a specific search word to the server; And performing, by the server, the requested search.
- the server may compare the tagged voice tag with the search word to detect a voice tag associated with the search word among the tagged voice tags, thereby performing the search.
- the server detects a voice tag associated with the search word and provides a voice tag associated with the search word to the mobile terminal as a result of the search, but includes a voice tag including the same voice data as the search word. If a plurality of voice tags including the same voice data as the search word are provided, the voice tag including voice data similar to the search word may be provided.
- the mobile terminal may preferentially provide a voice tag of a multimedia content having a relatively high number of download requests and a real time play request to a voice tag of a multimedia content having a relatively low number of download requests and a real time play request.
- the voice data-based multimedia content tagging system extracts the voice keyword information based on the multimedia content, and generates a voice tag based on the extracted voice keyword information
- a server tagging the generated voice tag on the multimedia content
- a mobile terminal provided with the tagged multimedia content from the server. It includes.
- the mobile terminal extracts the voice keyword information based on the multimedia content; Generating, by the mobile terminal, a voice tag based on the extracted voice keyword information; And tagging, by the mobile terminal, the generated voice tag to the multimedia content, wherein the generating step includes: extracting the voice keyword information and the multimedia content when the voice keyword information is extracted.
- the voice tag may be generated by matching the path information with respect to the storage path.
- a search service for searching for multimedia content desired by a user can be provided to a user of the mobile terminal.
- a reliable search result may be obtained by searching for a voice tag associated with a specific search word among voice tags generated based on voice data.
- FIG. 1 is a diagram illustrating a voice data-based multimedia content tagging system according to an embodiment of the present invention.
- FIG. 2 is a diagram illustrating the configuration of a voice data based multimedia content tagging system according to an embodiment of the present invention.
- FIG. 3 is a flowchart illustrating a voice data-based multimedia content tagging method according to an embodiment of the present invention.
- FIG. 4 is a diagram illustrating a data structure of multimedia content tagged with a voice data-based multimedia content tagging method according to an embodiment of the present invention.
- FIG. 5 is a flowchart illustrating a method of tagging voice data based multimedia content according to an embodiment of the present invention in more detail.
- FIG. 6 is a diagram illustrating a process of extracting voice keyword information in a voice data-based multimedia content tagging method according to an embodiment of the present invention.
- FIG. 7 is a diagram illustrating a process of generating a voice tag using a voice data based multimedia content tagging method according to an embodiment of the present invention.
- FIG. 8 is a diagram illustrating a process of generating a voice tag using a voice data-based multimedia content tagging method according to an embodiment of the present invention.
- FIG. 9 is a flowchart illustrating a voice data-based multimedia content tagging method according to an embodiment of the present invention in more detail.
- FIG. 1 is a diagram illustrating a voice data based multimedia content tagging system according to an embodiment of the present invention
- FIG. 2 is a diagram illustrating a configuration of a voice data based multimedia content tagging system according to an embodiment of the present invention.
- FIGS. 1 and 2 a voice data based multimedia content tagging system according to the present embodiment will be described with reference to FIGS. 1 and 2.
- a voice data-based multimedia content tagging system generates a voice tag based on voice data of the multimedia content, tags the generated voice tag on the multimedia content, and associates a specific search term with the tagged voice tag. It is provided to perform a search of multimedia content.
- the present voice data-based multimedia content tagging system includes a server 100 and a mobile terminal 200.
- the server 100 is provided to tag the voice tag to the multimedia content and to search for the multimedia content associated with the specific search word based on the tagged voice tag.
- the server 100 may extract voice keyword information based on the multimedia content, generate a voice tag based on the extracted voice keyword information, and tag the generated voice tag on the multimedia content.
- the server 100 may search for multimedia content associated with the specific search word based on the tagged voice tag.
- the server 100 includes a communication unit 110, a control unit 120 and a storage unit 130.
- the communication unit 110 of the server is provided to perform internet communication with the external device and the mobile terminal 200 using a network communication network.
- the communication unit 110 may provide tagged multimedia content to the mobile terminal 200.
- the controller 120 of the server is provided to extract voice keyword information based on the multimedia content, generate a voice tag based on the extracted voice keyword information, and tag the generated voice tag on the multimedia content.
- the controller 120 may search for multimedia content associated with the specific search word based on the tagged voice tag.
- the storage unit 130 of the server is provided to store multimedia content tagged with a voice tag.
- the storage unit 130 may store data for a search service for multimedia content and a URL address to which the multimedia content is linked.
- the mobile terminal 200 is provided to enable internet communication with the server 100 using a network communication network, and provides tagged multimedia content from the server 100, and requests the server 100 to search based on a specific search word. Can be.
- the mobile terminal 200 includes a communication unit 210, a control unit 220, a storage unit 230, and a display unit 240.
- the communication unit 210 of the mobile terminal is provided to perform internet communication with the server 100 using a network communication network.
- the communication unit 210 may request a search from the server 100 based on a specific search word or receive multimedia content provided from the server 100.
- the controller 220 of the mobile terminal is provided to control the first half of the mobile terminal 200. For example, if an input signal for requesting a search based on a specific search word is input through a separate input unit, a search request may be made to the server 100 based on the specific search word through the communication unit 210.
- the storage unit 230 of the mobile terminal is provided to store various programs necessary for driving the mobile terminal 200.
- the storage unit 230 may store data of a search service for searching for multimedia content or multimedia content provided from the server 100.
- the display unit 240 of the mobile terminal is provided for outputting image information to be output by the mobile terminal 200.
- the display 240 may output multimedia content provided from the server 100.
- FIG. 3 is a flowchart illustrating a method of tagging multimedia data based multimedia data according to an embodiment of the present invention
- FIG. 4 is a diagram of multimedia content tagged using the voice data based multimedia content tagging method according to an embodiment of the present invention. It is a figure for demonstrating the data structure of the figure.
- the server 100 extracts voice keyword information based on the multimedia content (S110). For example, the server 100 separates voice data included in multimedia content into morpheme units, selects voice data corresponding to lexical morphemes from the separated voice data, and extracts the selected voice data as voice keyword information. can do.
- morphemes are the smallest units at the morphological level of language, which impart the function of meaning
- lexical morphemes are morphemes that represent specific objects, actions and states.
- the server 100 when the voice keyword information is extracted, the server 100 generates a voice tag based on the extracted voice keyword information (S120). For example, the server 100 may generate the voice tag by matching the extracted voice keyword information with the synchronization time information of the voice data.
- the server 100 may generate the voice tag by matching the extracted voice keyword information with the synchronization time information of the voice data and the URL address information to which the multimedia content is linked.
- the server 100 may store the generated voice tag separately without tagging the multimedia content.
- the voice tag may be stored in the storage 130 of the server in a file format separate from the multimedia content.
- the server 100 may provide the mobile terminal 200 with a voice tag of the multimedia content corresponding to the search condition.
- the mobile terminal may receive the multimedia content linked to the URL address by decoding the URL address information area of the voice tag.
- the server 100 tags the generated voice tag to the multimedia content (S130). For example, the server 100 may add the generated voice tag to the multimedia content and encode the tag in a predetermined format.
- the server 100 may preset the format of the multimedia content, thereby standardizing the format of the multimedia content encoded in various formats.
- the encoded and tagged multimedia content may be stored in the server 100 as a new file.
- the multimedia content tagged with the voice tag may be composed of a data area of the voice tag and a data area of the multimedia content as shown in FIG. 4.
- the server 100 may add a voice tag generated by decoding the encoded content and re-encode the tag in a predetermined format.
- the server 100 may generate a voice tag by matching the extracted voice keyword information with path information on a storage path of the multimedia content.
- the storage path refers to a storage path of a file in which multimedia content is stored in a storage unit in the form of a file.
- the server 100 When the mobile terminal 200 requests the server 100 to search based on a specific search word (S140), the server 100 performs the requested search (S150). For example, the server 100 may perform a search by comparing a tagged voice tag with a search word and detecting a voice tag associated with the search word among the tagged voice tags.
- the mobile terminal 200 installs an application for performing a voice data-based multimedia content tagging method and installs the application.
- voice keyword information may be extracted based on the multimedia content.
- the mobile terminal 200 may generate a voice tag based on the extracted voice keyword information.
- the mobile terminal 200 may generate the voice tag by matching the extracted voice keyword information with the path information of the multimedia content.
- the mobile terminal 200 may tag the multimedia content or otherwise store it separately without tagging the multimedia content.
- the mobile terminal 200 may add the generated voice tag to the multimedia content and encode the tag in the predetermined format.
- the encoded and tagged multimedia content may be stored in the mobile terminal 200 as a new file.
- the multimedia content corresponding to the search condition is selected in the voice keyword information area of the tagged voice tag among the multimedia contents stored in the mobile terminal 200.
- the multimedia content can be retrieved and executed in the mobile terminal 200.
- FIG. 5 is a flowchart illustrating a voice data based multimedia content tagging method according to an embodiment of the present invention in more detail.
- FIG. 6 is a voice keyword in the voice data based multimedia content tagging method according to an embodiment of the present invention.
- FIG. 7 is a diagram illustrating a process of extracting information, and FIG. 7 is a diagram illustrating a process of generating a voice tag using a voice data-based multimedia content tagging method according to an embodiment of the present invention. Is a view illustrating a process of generating a voice tag using a voice data based multimedia content tagging method according to an embodiment of the present invention.
- the server 100 separates the voice data included in the multimedia content into morpheme units (S210), and selects voice data corresponding to the lexical morphemes from the separated voice data (S220). Voice data may be extracted as voice keyword information (S230).
- the server 100 may use the voice data.
- the server 100 the voice data corresponding to the lexical morpheme of the separated voice data, "Mononglong”, “swing”, “Chunhyang”, “Bo (da)”, “Love” and “Pa (lo)"
- the selected voice data may be extracted as voice keyword information in operation S230.
- the server 100 may generate the voice tag by matching the extracted voice keyword information with the synchronization time information of the voice data (S240).
- FIG. 7 is a diagram schematically illustrating a timeline of multimedia content
- FIG. 8 illustrates a voice tag generated by matching voice keyword information with synchronization time information.
- the extracted voice keyword information is extracted voice data
- the synchronization time information of the voice data is information including a synchronization start time and a synchronization end time of the voice data synchronized to the timeline of the multimedia content.
- the server 100 may synchronize the voice keyword information including the voice data of "swing” with the synchronization time information from which T1 (16:30) to T2 (16:42) is synchronized and the voice of "swing".
- the voice tag may be generated by matching keyword information.
- the server 100 includes the voice keyword information including the voice data of "Chunhyang” and the synchronization time information of which the voice data of "Chunhyang” is synchronized from T3 (17:30) to T4 (18:22).
- the voice tag may be generated by matching keyword information.
- the server 100 may text the extracted voice keyword information and match the textual voice keyword information with the synchronization time information of the voice data to generate a voice tag.
- the server 100 may text-extract the extracted voice keyword information, set at least one voice keyword information among the textized voice keyword information as a keyword, and set the remaining voice keyword information not set as the keyword. If it is set as a stop word, the voice tag may be generated by selecting only the voice data set as a keyword and filtering out the voice data set as the stop word.
- the server 100 selects the voice data corresponding to the lexical morphemes of the separated voice data such as “mongryong”, “swing”, “chunhyang”, “bo”, “love” and “fast”. If it is selected and extracted as voice keyword information, it is textized, and if the textualized voice keyword information of "Chunhyang” among the textized voice keyword information is set as a keyword, the remaining "monglong” and "swing” are not set as keywords. Textual voice keyword information such as “bo”, “love”, and “fast” is excluded as a stop word, and only the textual voice data of "chunhyang" set as a keyword is selected. You can create tags.
- the keyword here means the headword
- the stop word means the negative word
- the server 100 may generate the voice tag by matching the extracted voice keyword information with the synchronization time information of the voice data and the URL address to which the multimedia content is linked.
- the mobile terminal 200 may receive the multimedia content linked to the URL address based on the voice tag of the retrieved multimedia content. Can be.
- the server 100 may add the generated voice tag to the multimedia content, encode the tag in a predetermined format, and tag it (S250).
- the server 100 may preset the format of the multimedia content, thereby standardizing the format of the multimedia content encoded in various formats.
- the server 100 may add a voice tag generated by decoding the encoded content and re-encode the tag in a predetermined format.
- the server 100 may perform the requested search (S270).
- the search term is any word of natural language.
- FIG. 9 is a flowchart illustrating a voice data-based multimedia content tagging method according to an embodiment of the present invention in more detail.
- the server 100 may extract voice keyword information based on the multimedia content as described above (S410).
- the server 100 may generate a voice tag based on the extracted voice keyword information (S420).
- the server 100 may tag the generated voice tag to the multimedia content (S430).
- the server 100 After tagging the voice tag to the multimedia content, when the mobile terminal 200 requests the server 100 to search based on a specific search word (S440), the server 100 performs tagging to perform the requested search.
- the voice tag is compared with the search word received from the mobile terminal 200 to determine whether there is a voice tag associated with the search word among the tagged voice tags (S450).
- the server 100 may perform a search by detecting the detected voice tag.
- the server 100 preferentially provides a voice tag including voice data identical to the search word (S460) and provides a voice tag including voice data similar to the search word (S470).
- the server 100 determines that the voice tag of the multimedia content has a relatively high number of download requests and real time playback requests among voice tags including the same voice data as the search word. Is provided preferentially over voice tags of multimedia content having relatively few download requests and real-time playback requests.
- the number of download requests and the number of real-time playback requests of the multimedia content refer to the number of times that the download request is requested by the other mobile terminal 200 and the number of times that the real-time playback is requested.
- a voice tag associated with a specific search word may be searched among voice tags generated based on voice data, and a reliable search result may be obtained through the search.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
Disclosed are: a voice data-based multimedia content tagging method for generating a voice tag on the basis of voice data of multimedia content and tagging the generated voice tag to the multimedia content; and a system using the same. The voice data-based multimedia content tagging method comprises the steps of: allowing a server to generate a voice tag on the basis of extracted voice keyword information; and allowing the server to tag the generated voice tag to multimedia content. Therefore, a search service enabling a user of a mobile terminal to search for desired multimedia content can be provided to the user. In addition, in a search related to a specific search word, a reliable search result can be acquired by searching for voice tags related to the specific search word from among voice tags generated on the basis of voice data.
Description
본 발명은 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법 및 이를 이용한 시스템에 관한 것으로, 더욱 상세하게는 멀티미디어 콘텐츠의 음성 데이터를 기반으로 음성 태그를 생성하고, 생성된 음성 태그를 멀티미디어 콘텐츠에 태깅하는 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법 및 이를 이용한 시스템에 관한 것이다.The present invention relates to a voice data-based multimedia content tagging method and a system using the same. More particularly, the present invention relates to a voice data-based multimedia for generating a voice tag based on voice data of the multimedia content and tagging the generated voice tag to the multimedia content. It relates to a content tagging method and a system using the same.
일반적으로 멀티미디어 콘텐츠는 문자, 음성 및 영상 등의 다양한 정보 형태가 통합되어 생성, 전달 및 처리되도록 하는 시스템 및 서비스에서 활용되는 정보서비스 내용물을 의미한다.In general, multimedia content refers to information service contents utilized in systems and services that integrate, create, transmit, and process various types of information such as text, voice, and video.
이러한 멀티미디어 콘텐츠는, 기타 이미지, 소리, 텍스트에 비해 훨씬 많은 정보량을 같은 시간 동안 더 효과적으로 전달할 수 있어 기타 이미지, 소리, 텍스트만으로 구성된 콘텐츠에 비해 상대적으로 수요가 점차 증대되고 있다.Such multimedia contents can deliver much more information amount more effectively than other images, sounds, and texts at the same time, and the demand is gradually increased compared to contents composed of other images, sounds, and texts only.
그러나 기존의 멀티미디어 콘텐츠를 검색하는 방법은, 사용자가 실제 멀티미디어 콘텐츠를 일일이 재생시켜 확인하거나, 해당 멀티미디어 콘텐츠의 설명하기 위해 이미지 또는 텍스트로 구성된 설명 콘텐츠를 기반으로 검색해야 하기 때문에 자신이 원하는 콘텐츠를 검색하는데 많은 시간이 필요하며, 자신이 원하는 콘텐츠를 정확히 검색하지 못하는 단점이 존재한다.However, the conventional method of searching for multimedia contents is to search for desired contents because the user needs to search and play the actual multimedia contents, or search based on description contents composed of images or texts to describe the multimedia contents. It takes a lot of time, and there is a disadvantage that does not exactly search the content desired.
위와 같이 멀티미디어 콘텐츠의 검색 시 발생하는 단점을 해결하기 위해, 멀티미디어에 이미지로 보이는 태그 정보를 포함시키고, 태그 정보를 사용자에게 정보를 제공하는 한국등록특허 제10-1403317(태깅 정보를 가지는 동영상을 이용한 정보 제공 시스템)가 발명되었지만, 이 역시 태그 정보가 이미지로 구성되어 검색 시 이미지를 일일이 확인하며, 자신이 원하는 멀티미디어 콘텐츠를 검색해야 하며, 멀티미디어 콘텐츠에 포함된 이미지 중 태그 정보에 저장된 이미지만을 이용하여 멀티미디어 콘텐츠를 검색하기 때문에, 검색 결과를 신뢰할 수 없다는 문제가 존재한다. In order to solve the disadvantage that occurs when searching for multimedia content as described above, Korean Patent Registration No. 10-1403317 (including video with tagging information) that includes tag information that appears as an image in the multimedia and provides information to the user Information providing system) is invented, but also tag information is composed of images to check images one by one, search for desired multimedia contents, and use only images stored in tag information among images included in multimedia contents. Because of searching multimedia content, there is a problem that the search results cannot be trusted.
이에, 자신이 원하는 멀티미디어 콘텐츠를 검색할 수 있는 서비스를 제공하되, 일일이 멀티미디어 콘텐츠의 내용을 확인하지 않아도, 태그 정보를 이용하여 자신이 원하는 멀티미디어 콘텐츠를 검색할 수 있으며, 검색 결과를 신뢰할 수 있는 검색 서비스를 제공하기 위한 방안의 모색이 요구된다. Therefore, it provides a service that can search the desired multimedia content, without having to check the contents of the multimedia content one by one, you can search the desired multimedia content by using the tag information, reliable search results search There is a need to find ways to provide services.
본 발명은 상기와 같은 문제를 해결하기 위해 안출된 것으로 본 발명의 목적은 멀티미디어 콘텐츠의 음성 데이터를 기반으로 음성 태그를 생성하고, 생성된 음성 태그를 멀티미디어 콘텐츠에 태깅하는 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법 및 시스템을 제공함에 있다.The present invention has been made to solve the above problems and an object of the present invention is to generate a voice tag based on the voice data of the multimedia content, and to tag the generated voice tag to the multimedia content And providing a system.
또한, 본 발명의 다른 목적은, 음성 태그를 기반으로 특정 검색어와 연관된 멀티미디어 콘텐츠의 검색이 가능한 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법 및 시스템을 제공함에 있다.Further, another object of the present invention is to provide a voice data-based multimedia content tagging method and system capable of searching for multimedia content associated with a specific search word based on a voice tag.
상기와 같은 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법은, 서버가 멀티미디어 콘텐츠를 기반으로 음성 키워드 정보를 추출하는 단계; 상기 서버가 상기 추출된 음성 키워드 정보를 기반으로 음성 태그를 생성하는 단계; 및 상기 서버가 상기 생성된 음성 태그를 상기 멀티미디어 콘텐츠에 태깅하는 단계;를 포함한다. According to an embodiment of the present invention, a voice data-based multimedia content tagging method includes: extracting voice keyword information based on multimedia content by a server; Generating, by the server, a voice tag based on the extracted voice keyword information; And tagging, by the server, the generated voice tag on the multimedia content.
또한, 상기 추출 단계는, 상기 서버가 상기 멀티미디어 콘텐츠에 포함된 음성 데이터를 형태소 단위로 분리하고, 상기 분리된 음성 데이터 중 어휘형태소에 해당하는 음성 데이터를 선별하여, 상기 선별된 음성 데이터를 상기 음성 키워드 정보로 추출할 수 있다.In the extracting step, the server separates the voice data included in the multimedia content into morpheme units, selects voice data corresponding to lexical morphemes from the separated voice data, and selects the selected voice data from the voice. Can be extracted as keyword information.
그리고 상기 생성 단계는, 상기 서버가 상기 추출된 음성 키워드 정보를 텍스트화하고, 상기 텍스트화된 음성 키워드 정보를 상기 멀티미디어 콘텐츠의 타임 라인에 동기화되는 상기 음성 데이터의 동기화 시간 정보와 매칭되도록 하여 상기 음성 태그를 생성할 수 있다.In the generating step, the server converts the extracted voice keyword information into text and matches the textual voice keyword information with synchronization time information of the voice data synchronized to a timeline of the multimedia content. You can create tags.
또한, 상기 태깅 단계는, 상기 서버가 상기 생성된 음성 태그를 상기 멀티미디어 콘텐츠에 부가하고, 기설정된 포맷으로 인코딩하여 태깅할 수 있다.In the tagging step, the server may add the generated voice tag to the multimedia content and encode the tag in a predetermined format.
그리고 상기 생성 단계는, 상기 서버가 상기 추출된 음성 키워드 정보를 상기 멀티미디어 콘텐츠의 타임 라인에 동기화되는 상기 음성 데이터의 동기화 시간 정보와 매칭되도록 하여 상기 음성 태그를 생성할 수 있다.The generating may include generating the voice tag by matching the extracted voice keyword information with synchronization time information of the voice data synchronized to the timeline of the multimedia content.
또한, 상기 생성 단계는, 상기 서버가 상기 추출된 음성 키워드 정보를 상기 멀티미디어 콘텐츠의 타임 라인에 동기화되는 상기 음성 데이터의 동기화 시간 정보 및 상기 멀티미디어 콘텐츠가 링크된 URL 주소와 매칭되도록 하여 상기 음성 태그를 생성할 수 있다.The generating may include generating the voice tag by matching the extracted voice keyword information with the synchronization time information of the voice data synchronized with the timeline of the multimedia content and the URL address to which the multimedia content is linked. Can be generated.
그리고 상기 생성 단계는, 상기 서버가 상기 추출된 음성 키워드 정보를 텍스트화하며, 상기 텍스트화된 음성 키워드 정보 중 적어도 하나의 음성 키워드 정보를 키워드로 설정하고, 상기 키워드로 설정되지 않은 나머지 음성 키워드 정보를 스톱 워드로 설정하면, 상기 스톱 워드로 설정된 음성 데이터를 걸러내어 제외하고, 상기 키워드로 설정된 음성 데이터만 선별하여 상기 음성 태그를 생성할 수 있다. In the generating step, the server textifies the extracted voice keyword information, sets at least one voice keyword information among the textized voice keyword information as a keyword, and the remaining voice keyword information not set as the keyword. If set to a stop word, the voice tag may be generated by selecting only the voice data set as the keyword except filtering the voice data set as the stop word.
또한, 본 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법은 모바일 단말이 상기 서버에 특정 검색어를 기반으로 검색을 요청하는 단계; 및 상기 서버가 상기 요청된 검색을 수행하는 단계;를 더 포함할 수 있다. In addition, the voice data-based multimedia content tagging method according to the present embodiment includes the steps of requesting the mobile terminal a search based on a specific search word to the server; And performing, by the server, the requested search.
그리고 여기서, 상기 수행 단계는, 상기 서버가 상기 태깅된 음성 태그와 상기 검색어를 비교하여 상기 태깅된 음성 태그 중 상기 검색어에 연관된 음성 태그가 검출되도록 함으로써, 상기 검색을 수행할 수 있다.Here, in the performing of the search, the server may compare the tagged voice tag with the search word to detect a voice tag associated with the search word among the tagged voice tags, thereby performing the search.
또한, 상기 수행 단계는, 상기 서버가 상기 검색어에 연관된 음성 태그를 검출하여 상기 모바일 단말에 상기 검색의 결과로 상기 검색어에 연관된 음성 태그를 제공하되, 상기 검색어와 동일한 음성 데이터를 포함하는 음성 태그를 상기 검색어와 유사한 음성 데이터를 포함하는 음성 태그보다 우선적으로 제공하도록 하고, 상기 검색어와 동일한 음성 데이터를 포함하는 상기 음성 태그가 복수이면, 상기 검색어와 동일한 음성 데이터를 포함하는 상기 음성 태그 중 기존에 다른 모바일 단말에 의해 다운로드 요청 횟수 및 실시간 재생 요청 횟수가 상대적으로 많은 멀티미디어 콘텐츠의 음성 태그를 상기 다운로드 요청 횟수 및 실시간 재생 요청 횟수가 상대적으로 적은 멀티미디어 콘텐츠의 음성 태그보다 우선적으로 제공하도록 할 수 있다. In the performing of the step, the server detects a voice tag associated with the search word and provides a voice tag associated with the search word to the mobile terminal as a result of the search, but includes a voice tag including the same voice data as the search word. If a plurality of voice tags including the same voice data as the search word are provided, the voice tag including voice data similar to the search word may be provided. The mobile terminal may preferentially provide a voice tag of a multimedia content having a relatively high number of download requests and a real time play request to a voice tag of a multimedia content having a relatively low number of download requests and a real time play request.
그리고 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 시스템은, 상기 멀티미디어 콘텐츠를 기반으로 음성 키워드 정보를 추출하고, 상기 추출된 음성 키워드 정보를 기반으로 음성 태그를 생성하며, 상기 생성된 음성 태그를 상기 멀티미디어 콘텐츠에 태깅하는 서버; 및 상기 서버로부터 상기 태깅된 멀티미디어 콘텐츠가 제공되는 모바일 단말; 을 포함한다. And the voice data-based multimedia content tagging system according to an embodiment of the present invention for achieving the above object, extracts the voice keyword information based on the multimedia content, and generates a voice tag based on the extracted voice keyword information A server tagging the generated voice tag on the multimedia content; And a mobile terminal provided with the tagged multimedia content from the server. It includes.
또한, 그리고 상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법은, 모바일 단말이 멀티미디어 콘텐츠를 기반으로 음성 키워드 정보를 추출하는 단계; 상기 모바일 단말이 상기 추출된 음성 키워드 정보를 기반으로 음성 태그를 생성하는 단계; 및 상기 모바일 단말이 상기 생성된 음성 태그를 상기 멀티미디어 콘텐츠에 태깅하는 단계를 포함하고, 상기 생성 단계는, 상기 음성 키워드 정보가 추출되면, 상기 모바일 단말이 상기 추출된 음성 키워드 정보 및 상기 멀티미디어 콘텐츠의 저장 경로에 대한 경로 정보가 매칭되도록 하여 상기 음성 태그를 생성할 수 있다.In addition, and a voice data-based multimedia content tagging method according to another embodiment of the present invention for achieving the above object, the mobile terminal extracts the voice keyword information based on the multimedia content; Generating, by the mobile terminal, a voice tag based on the extracted voice keyword information; And tagging, by the mobile terminal, the generated voice tag to the multimedia content, wherein the generating step includes: extracting the voice keyword information and the multimedia content when the voice keyword information is extracted. The voice tag may be generated by matching the path information with respect to the storage path.
이에 의해, 모바일 단말의 사용자에게 사용자가 원하는 멀티미디어 콘텐츠를 검색할 수 있는 검색 서비스를 제공할 수 있다.As a result, a search service for searching for multimedia content desired by a user can be provided to a user of the mobile terminal.
또한, 특정 검색어와 연관된 검색 시, 음성 데이터를 기반으로 생성된 음성 태그 중 특정 검색어와 연관된 음성 태그를 검색함으로써, 신뢰할 수 있는 검색 결과를 획득할 수 있다. In addition, during a search associated with a specific search word, a reliable search result may be obtained by searching for a voice tag associated with a specific search word among voice tags generated based on voice data.
도 1은 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 시스템을 도시한 도면이다.1 is a diagram illustrating a voice data-based multimedia content tagging system according to an embodiment of the present invention.
도 2는 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 시스템의 구성을 설명하기 위해 도시한 도면이다.2 is a diagram illustrating the configuration of a voice data based multimedia content tagging system according to an embodiment of the present invention.
도 3은 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법을 설명하기 위해 도시한 흐름도이다.3 is a flowchart illustrating a voice data-based multimedia content tagging method according to an embodiment of the present invention.
도 4는 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법으로 태깅된 멀티미디어 콘텐츠의 데이터 구성을 설명하기 위해 도시한 도면이다. FIG. 4 is a diagram illustrating a data structure of multimedia content tagged with a voice data-based multimedia content tagging method according to an embodiment of the present invention.
도 5는 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법을 더욱 상세히 설명하기 위해 도시한 흐름도이다.5 is a flowchart illustrating a method of tagging voice data based multimedia content according to an embodiment of the present invention in more detail.
도 6은 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법에서 음성 키워드 정보를 추출하는 과정을 설명하기 위해 도시한 도면이다. FIG. 6 is a diagram illustrating a process of extracting voice keyword information in a voice data-based multimedia content tagging method according to an embodiment of the present invention.
도 7은 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법으로 음성 태그를 생성하는 과정을 설명하기 위해 도시한 도면이다. FIG. 7 is a diagram illustrating a process of generating a voice tag using a voice data based multimedia content tagging method according to an embodiment of the present invention.
도 8은 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법으로 음성 태그를 생성하는 과정을 설명하기 위해 도시한 도면이다. 8 is a diagram illustrating a process of generating a voice tag using a voice data-based multimedia content tagging method according to an embodiment of the present invention.
도 9는 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법을 더욱 상세히 설명하기 위해 도시한 흐름도이다.9 is a flowchart illustrating a voice data-based multimedia content tagging method according to an embodiment of the present invention in more detail.
이하에서는 도면을 참조하여 본 발명에 대해 보다 상세히 설명하기로 한다. 이하에 소개되는 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것이다. 본 발명은 이하 설명되는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다.Hereinafter, with reference to the drawings will be described in more detail with respect to the present invention. The embodiments introduced below are provided as an example to sufficiently convey the spirit of the present invention to those skilled in the art to which the present invention pertains. The invention is not limited to the embodiments described below and may be embodied in other forms.
도 1은 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 시스템을 도시한 도면이고, 도 2는 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 시스템의 구성을 설명하기 위해 도시한 도면이다.1 is a diagram illustrating a voice data based multimedia content tagging system according to an embodiment of the present invention, and FIG. 2 is a diagram illustrating a configuration of a voice data based multimedia content tagging system according to an embodiment of the present invention. Drawing.
이하에서는 도 1 내지 도 2를 참고하여, 본 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 시스템에 대하여 설명하기로 한다.Hereinafter, a voice data based multimedia content tagging system according to the present embodiment will be described with reference to FIGS. 1 and 2.
본 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 시스템은, 멀티미디어 콘텐츠의 음성 데이터를 기반으로 음성 태그를 생성하고, 생성된 음성 태그를 멀티미디어 콘텐츠에 태깅하며, 태깅된 음성 태그를 기반으로 특정 검색어와 연관된 멀티미디어 콘텐츠의 검색을 수행하기 위해 마련된다. According to the present embodiment, a voice data-based multimedia content tagging system generates a voice tag based on voice data of the multimedia content, tags the generated voice tag on the multimedia content, and associates a specific search term with the tagged voice tag. It is provided to perform a search of multimedia content.
이를 위해, 본 음성 데이터 기반 멀티미디어 콘텐츠 태깅 시스템은, 서버(100) 및 모바일 단말(200)을 포함한다.To this end, the present voice data-based multimedia content tagging system includes a server 100 and a mobile terminal 200.
서버(100)는, 음성 태그를 멀티미디어 콘텐츠에 태깅하고, 태깅된 음성 태그를 기반으로 특정 검색어와 연관된 멀티미디어 콘텐츠의 검색을 수행하기 위해 마련된다. The server 100 is provided to tag the voice tag to the multimedia content and to search for the multimedia content associated with the specific search word based on the tagged voice tag.
구체적으로, 서버(100)는, 멀티미디어 콘텐츠를 기반으로 음성 키워드 정보를 추출하고, 추출된 음성 키워드 정보를 기반으로 음성 태그를 생성하며, 생성된 음성 태그를 상기 멀티미디어 콘텐츠에 태깅할 수 있다.In detail, the server 100 may extract voice keyword information based on the multimedia content, generate a voice tag based on the extracted voice keyword information, and tag the generated voice tag on the multimedia content.
또한, 서버(100)는, 모바일 단말(200)로부터 특정 검색어를 기반으로 하는 검색이 요청되면, 태깅된 음성 태그를 기반으로 특정 검색어와 연관된 멀티미디어 콘텐츠의 검색을 수행할 수 있다.In addition, when a search based on a specific search word is requested from the mobile terminal 200, the server 100 may search for multimedia content associated with the specific search word based on the tagged voice tag.
이를 위하여 서버(100)는, 통신부(110), 제어부(120) 및 저장부(130)를 포함한다.To this end, the server 100 includes a communication unit 110, a control unit 120 and a storage unit 130.
서버의 통신부(110)는, 네트워크 통신망을 이용하여 외부 기기 및 모바일 단말(200)과 인터넷 통신을 수행하기 위해 마련된다. 예를 들면, 통신부(110)는 모바일 단말(200)에 태깅된 멀티미디어 콘텐츠를 제공할 수 있다.The communication unit 110 of the server is provided to perform internet communication with the external device and the mobile terminal 200 using a network communication network. For example, the communication unit 110 may provide tagged multimedia content to the mobile terminal 200.
서버의 제어부(120)는, 멀티미디어 콘텐츠를 기반으로 음성 키워드 정보를 추출하고, 추출된 음성 키워드 정보를 기반으로 음성 태그를 생성하며, 생성된 음성 태그를 상기 멀티미디어 콘텐츠에 태깅하기 위해 마련된다.The controller 120 of the server is provided to extract voice keyword information based on the multimedia content, generate a voice tag based on the extracted voice keyword information, and tag the generated voice tag on the multimedia content.
또한, 제어부(120)는 모바일 단말(200)로부터 특정 검색어를 기반으로 하는 검색이 요청되면, 태깅된 음성 태그를 기반으로 특정 검색어와 연관된 멀티미디어 콘텐츠의 검색을 수행할 수 있다.In addition, when a search based on a specific search word is requested from the mobile terminal 200, the controller 120 may search for multimedia content associated with the specific search word based on the tagged voice tag.
서버의 저장부(130)는, 음성 태그가 태깅된 멀티미디어 콘텐츠를 저장하기 위해 마련된다. The storage unit 130 of the server is provided to store multimedia content tagged with a voice tag.
또한, 저장부(130)는, 멀티미디어 콘텐츠의 검색 서비스를 위한 데이터 및 멀티미디어 콘텐츠가 링크된 URL 주소를 저장할 수 있다.In addition, the storage unit 130 may store data for a search service for multimedia content and a URL address to which the multimedia content is linked.
모바일 단말(200)은, 네트워크 통신망을 이용하여 서버(100)와 인터넷 통신이 가능하도록 마련되어 서버(100)로부터 태깅된 멀티미디어 콘텐츠가 제공되고, 서버(100)에 특정 검색어를 기반으로 하는 검색을 요청할 수 있다.The mobile terminal 200 is provided to enable internet communication with the server 100 using a network communication network, and provides tagged multimedia content from the server 100, and requests the server 100 to search based on a specific search word. Can be.
이를 위하여 모바일 단말(200)은, 통신부(210), 제어부(220), 저장부(230) 및 디스플레이부(240)를 포함한다.To this end, the mobile terminal 200 includes a communication unit 210, a control unit 220, a storage unit 230, and a display unit 240.
모바일 단말의 통신부(210)는 네트워크 통신망을 이용하여 서버(100)와 인터넷 통신을 수행하기 위해 마련된다. 예를 들면, 통신부(210)는 특정 검색어를 기반으로 서버(100)에 검색을 요청하거나 서버(100)로부터 제공되는 멀티미디어 콘텐츠를 수신할 수 있다.The communication unit 210 of the mobile terminal is provided to perform internet communication with the server 100 using a network communication network. For example, the communication unit 210 may request a search from the server 100 based on a specific search word or receive multimedia content provided from the server 100.
모바일 단말의 제어부(220)는 모바일 단말(200)의 전반을 제어하기 위해 마련된다. 간단히 예를 들면, 별도로 마련된 입력부를 통해 특정 검색어를 기반으로 검색을 요청하기 위한 입력 신호가 입력되면, 통신부(210)를 통하여 특정 검색어를 기반으로 서버(100)에 검색을 요청할 수 있다.The controller 220 of the mobile terminal is provided to control the first half of the mobile terminal 200. For example, if an input signal for requesting a search based on a specific search word is input through a separate input unit, a search request may be made to the server 100 based on the specific search word through the communication unit 210.
모바일 단말의 저장부(230)는 모바일 단말(200)을 구동시키기 위해 필요한 각종 프로그램을 저장하기 위해 마련된다. The storage unit 230 of the mobile terminal is provided to store various programs necessary for driving the mobile terminal 200.
또한, 저장부(230)는 멀티미디어 콘텐츠를 검색하는 검색 서비스의 데이터 또는 서버(100)로부터 제공되는 멀티미디어 콘텐츠를 저장할 수 있다.In addition, the storage unit 230 may store data of a search service for searching for multimedia content or multimedia content provided from the server 100.
모바일 단말의 디스플레이부(240)는 모바일 단말(200)이 출력하고자 하는 영상 정보를 출력하기 위해 마련된다. 예를 들면, 디스플레이부(240)는 서버(100)로부터 제공되는 멀티미디어 콘텐츠를 출력할 수 있다. The display unit 240 of the mobile terminal is provided for outputting image information to be output by the mobile terminal 200. For example, the display 240 may output multimedia content provided from the server 100.
도 3은 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법을 설명하기 위해 도시한 흐름도이고, 도 4는 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법으로 태깅된 멀티미디어 콘텐츠의 데이터 구성을 설명하기 위해 도시한 도면이다. 3 is a flowchart illustrating a method of tagging multimedia data based multimedia data according to an embodiment of the present invention, and FIG. 4 is a diagram of multimedia content tagged using the voice data based multimedia content tagging method according to an embodiment of the present invention. It is a figure for demonstrating the data structure of the figure.
이하에서는 도 3 내지 도 4를 참고하여, 본 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법에 대하여 설명하기로 한다.Hereinafter, a method of tagging multimedia data based multimedia content according to the present embodiment will be described with reference to FIGS. 3 to 4.
우선 서버(100)는, 멀티미디어 콘텐츠를 기반으로 음성 키워드 정보를 추출한다(S110). 예를 들면, 서버(100)는, 멀티미디어 콘텐츠에 포함된 음성 데이터를 형태소 단위로 분리하고, 분리된 음성 데이터 중 어휘형태소에 해당하는 음성 데이터를 선별하여, 선별된 음성 데이터를 음성 키워드 정보로 추출할 수 있다.First, the server 100 extracts voice keyword information based on the multimedia content (S110). For example, the server 100 separates voice data included in multimedia content into morpheme units, selects voice data corresponding to lexical morphemes from the separated voice data, and extracts the selected voice data as voice keyword information. can do.
여기서, 형태소는 의미의 기능을 부여하는, 언어의 형태론적 수준에서의 최소단위이며, 어휘형태소는 구체적인 대상이나 동작, 상태를 표시하는 형태소이다.Here, morphemes are the smallest units at the morphological level of language, which impart the function of meaning, and lexical morphemes are morphemes that represent specific objects, actions and states.
한편, 서버(100)는 음성 키워드 정보가 추출되면, 추출된 음성 키워드 정보를 기반으로 음성 태그를 생성한다(S120). 예를 들면, 서버(100)는 추출된 음성 키워드 정보를 음성 데이터의 동기화 시간 정보와 매칭시켜, 음성 태그를 생성할 수 있다. Meanwhile, when the voice keyword information is extracted, the server 100 generates a voice tag based on the extracted voice keyword information (S120). For example, the server 100 may generate the voice tag by matching the extracted voice keyword information with the synchronization time information of the voice data.
또한, 다른 예를 들면, 서버(100)는 추출된 음성 키워드 정보를 음성 데이터의 동기화 시간 정보 및 멀티미디어 콘텐츠가 링크된 URL 주소 정보와 매칭시켜, 음성 태그를 생성할 수 있다.In another example, the server 100 may generate the voice tag by matching the extracted voice keyword information with the synchronization time information of the voice data and the URL address information to which the multimedia content is linked.
이때, 서버(100)는 생성된 음성 태그를 멀티미디어 콘텐츠에 태깅하지 않고, 별도로 저장할 수 있다. 구체적으로 음성 태그는, 멀티미디어 콘텐츠와는 별도의 파일 형태로 서버의 저장부(130)에 저장될 수 있다. In this case, the server 100 may store the generated voice tag separately without tagging the multimedia content. In more detail, the voice tag may be stored in the storage 130 of the server in a file format separate from the multimedia content.
서버(100)는 모바일 단말(200)이 멀티미디어 콘텐츠를 검색하면, 검색 조건에 부합하는 멀티미디어 콘텐츠의 음성 태그를 모바일 단말(200)에 제공할 수 있다.When the mobile terminal 200 searches for the multimedia content, the server 100 may provide the mobile terminal 200 with a voice tag of the multimedia content corresponding to the search condition.
음성 태그가 제공되면, 모바일 단말은, 음성 태그의 URL 주소 정보 영역을 해독하여 URL 주소에 링크된 멀티미디어 콘텐츠를 제공받을 수 있다.When the voice tag is provided, the mobile terminal may receive the multimedia content linked to the URL address by decoding the URL address information area of the voice tag.
또한, 서버(100)는 음성 태그가 생성되면, 생성된 음성 태그를 멀티미디어 콘텐츠에 태깅한다(S130). 예를 들면, 서버(100)는 생성된 음성 태그를 멀티미디어 콘텐츠에 부가하고, 기설정된 포맷으로 인코딩하여 태깅할 수 있다. In addition, when the voice tag is generated, the server 100 tags the generated voice tag to the multimedia content (S130). For example, the server 100 may add the generated voice tag to the multimedia content and encode the tag in a predetermined format.
이때, 서버(100)는 멀티미디어 콘텐츠의 포맷을 미리 설정함으로써, 다양한 포맷으로 인코딩된 멀티미디어 콘텐츠의 포맷을 표준화할 수 있다. At this time, the server 100 may preset the format of the multimedia content, thereby standardizing the format of the multimedia content encoded in various formats.
이때, 인코딩되어 태깅된 멀티미디어 콘텐츠는 새로운 파일로 서버(100)에 저장될 수 있다. In this case, the encoded and tagged multimedia content may be stored in the server 100 as a new file.
이를 통해, 음성 태그가 태깅된 멀티미디어 콘텐츠는 도 4에 도시된 바와 같이 음성 태그의 데이터 영역과 멀티미디어 콘텐츠의 데이터 영역으로 구성될 수 있다.Through this, the multimedia content tagged with the voice tag may be composed of a data area of the voice tag and a data area of the multimedia content as shown in FIG. 4.
또한, 서버(100)는 멀티미디어 콘텐츠가 인코딩된 경우, 이를 디코딩하여 생성된 음성 태그를 부가하여 기설정된 포맷으로 다시 인코딩하여 태깅할 수 있다.In addition, when the multimedia content is encoded, the server 100 may add a voice tag generated by decoding the encoded content and re-encode the tag in a predetermined format.
다른 예를 들면, 서버(100)는 추출된 음성 키워드 정보를 멀티미디어 콘텐츠의 저장 경로에 대한 경로 정보와 매칭하여 음성 태그를 생성할 수 있다. For another example, the server 100 may generate a voice tag by matching the extracted voice keyword information with path information on a storage path of the multimedia content.
여기서 저장 경로는 멀티미디어 콘텐츠가 파일 형태로 저장부에 저장된 파일의 저장 경로를 의미한다.Here, the storage path refers to a storage path of a file in which multimedia content is stored in a storage unit in the form of a file.
모바일 단말(200)이 서버(100)에 특정 검색어를 기반으로 검색을 요청하면(S140), 서버(100)는, 요청된 검색을 수행한다(S150). 예를 들면, 서버(100)는 태깅된 음성 태그와 검색어를 비교하여 태깅된 음성 태그 중 검색어에 연관된 음성 태그가 존재하면, 이를 검출함으로써, 검색을 수행할 수 있다.When the mobile terminal 200 requests the server 100 to search based on a specific search word (S140), the server 100 performs the requested search (S150). For example, the server 100 may perform a search by comparing a tagged voice tag with a search word and detecting a voice tag associated with the search word among the tagged voice tags.
한편, 본 발명의 다른 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법을 설명하면, 본 실시예에 따른 모바일 단말(200)은 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법을 수행하기 위한 애플리케이션을 설치하고, 설치된 애플리케이션을 실행하여 멀티미디어 콘텐츠를 기반으로 음성 키워드 정보를 추출할 수 있다.Meanwhile, referring to a voice data-based multimedia content tagging method according to another embodiment of the present invention, the mobile terminal 200 according to the present embodiment installs an application for performing a voice data-based multimedia content tagging method and installs the application. In this way, voice keyword information may be extracted based on the multimedia content.
그리고 모바일 단말(200)은 음성 키워드 정보가 추출되면, 추출된 음성 키워드 정보를 기반으로 음성 태그를 생성할 수 있다. When the voice keyword information is extracted, the mobile terminal 200 may generate a voice tag based on the extracted voice keyword information.
구체적으로 설명하면, 모바일 단말(200)은 음성 키워드 정보가 추출되면, 추출된 음성 키워드 정보를 멀티미디어 콘텐츠의 경로 정보와 매칭하여 음성 태그를 생성할 수 있다. In detail, when the voice keyword information is extracted, the mobile terminal 200 may generate the voice tag by matching the extracted voice keyword information with the path information of the multimedia content.
여기서, 모바일 단말(200)은 추출된 음성 키워드 정보 및 경로 정보를 매칭하여 음성 태그를 생성하면, 이를 멀티미디어 콘텐츠에 태깅하거나, 또는 이를 멀티미디어 콘텐츠에 태깅하지 않고, 별도로 저장할 수 있다. Here, when the mobile terminal 200 generates the voice tag by matching the extracted voice keyword information and the path information, the mobile terminal 200 may tag the multimedia content or otherwise store it separately without tagging the multimedia content.
모바일 단말(200)이 생성된 음성 태그를 멀티미디어 콘텐츠에 태깅하는 것을 구체적인 예로 들면, 모바일 단말(200)은 생성된 음성 태그를 멀티미디어 콘텐츠에 부가하고, 기설정된 포맷으로 인코딩하여 태깅할 수 있다. 이때, 인코딩되어 태깅된 멀티미디어 콘텐츠는 새로운 파일로 모바일 단말(200)에 저장될 수 있다. As a specific example of the tagging of the generated voice tag to the multimedia content, the mobile terminal 200 may add the generated voice tag to the multimedia content and encode the tag in the predetermined format. In this case, the encoded and tagged multimedia content may be stored in the mobile terminal 200 as a new file.
이를 통해, 모바일 단말(200)이 태깅된 멀티미디어 콘텐츠를 검색하면, 모바일 단말(200)에 저장된 멀티미디어 콘텐츠 중 태깅된 음성 태그의 음성 키워드 정보 영역이 검색 조건에 부합하는 멀티미디어 콘텐츠가 선별되도록 하고, 선별된 멀티미디어 콘텐츠의 경로 정보 영역을 해독하여 멀티미디어 콘텐츠를 불러내어 모바일 단말(200) 내에서 실행시킬 수 있다.As a result, when the mobile terminal 200 searches for tagged multimedia content, the multimedia content corresponding to the search condition is selected in the voice keyword information area of the tagged voice tag among the multimedia contents stored in the mobile terminal 200. By deciphering the path information area of the multimedia content, the multimedia content can be retrieved and executed in the mobile terminal 200.
도 5는 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법을 더욱 상세히 설명하기 위해 도시한 흐름도이고, 도 6은 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법에서 음성 키워드 정보를 추출하는 과정을 설명하기 위해 도시한 도면이며, 도 7은 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법으로 음성 태그를 생성하는 과정을 설명하기 위해 도시한 도면이고, 도 8은 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법으로 음성 태그를 생성하는 과정을 설명하기 위해 도시한 도면이다. FIG. 5 is a flowchart illustrating a voice data based multimedia content tagging method according to an embodiment of the present invention in more detail. FIG. 6 is a voice keyword in the voice data based multimedia content tagging method according to an embodiment of the present invention. FIG. 7 is a diagram illustrating a process of extracting information, and FIG. 7 is a diagram illustrating a process of generating a voice tag using a voice data-based multimedia content tagging method according to an embodiment of the present invention. Is a view illustrating a process of generating a voice tag using a voice data based multimedia content tagging method according to an embodiment of the present invention.
이하에서는 도 5 내지 도 8을 참고하여, 본 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법에 대하여 더욱 상세히 설명하기로 한다.Hereinafter, with reference to FIGS. 5 to 8, a voice data-based multimedia content tagging method according to the present embodiment will be described in more detail.
우선, 상술한 바와 같이 서버(100)는, 멀티미디어 콘텐츠에 포함된 음성 데이터를 형태소 단위로 분리하고(S210), 분리된 음성 데이터 중 어휘형태소에 해당하는 음성 데이터를 선별하여(S220), 선별된 음성 데이터를 음성 키워드 정보로 추출할 수 있다(S230).First, as described above, the server 100 separates the voice data included in the multimedia content into morpheme units (S210), and selects voice data corresponding to the lexical morphemes from the separated voice data (S220). Voice data may be extracted as voice keyword information (S230).
도 6에 도시된 바와 같이 구체적으로 예를 들어, 특정 멀티미디어 콘텐츠에 "몽룡은 그네를 타는 춘향을 보고 단번에 사랑에 빠졌다"라는 음성 데이터가 포함되어 있다고 가정하면, 서버(100)는, 상기 음성 데이터를 "몽룡", "은", "그네", "를", "타는", "춘향", "을", "보고", "단-", "번", "에", "사랑", "에", "빠", "-졌" 및 "-다"와 같이 형태소 단위로 분리할 수 있다(S210). Specifically, as shown in FIG. 6, for example, assuming that a specific multimedia content includes voice data, “Monkey is in love at a time of seeing Chun Hyang riding a swing,” the server 100 may use the voice data. "Monkey", "S", "Swing", "S", "Riding", "Chunhyang", "To", "Report", "Dan-", "Burn", "On", "Love", It can be separated into morphological units, such as "e", "fa", "-" and "-da" (S210).
그리고 서버(100)는, 분리된 음성 데이터 중 어휘형태소에 해당하는 음성 데이터인 "몽룡", "그네", "춘향", "보(다)", "사랑" 및 "빠(지다)"를 선별하고(S220), 선별된 음성 데이터를 음성 키워드 정보로 추출할 수 있다(S230).And the server 100, the voice data corresponding to the lexical morpheme of the separated voice data, "Mononglong", "swing", "Chunhyang", "Bo (da)", "Love" and "Pa (lo)" In operation S220, the selected voice data may be extracted as voice keyword information in operation S230.
한편, 서버(100)는 음성 키워드 정보가 추출되면, 서버(100)는 추출된 음성 키워드 정보를 음성 데이터의 동기화 시간 정보와 매칭시켜, 음성 태그를 생성할 수 있다(S240). Meanwhile, when the voice keyword information is extracted, the server 100 may generate the voice tag by matching the extracted voice keyword information with the synchronization time information of the voice data (S240).
여기서, 도 7은 멀티미디어 콘텐츠의 타임 라인을 개략적으로 도시한 도면이고, 도 8은 음성 키워드 정보가 동기화 시간 정보와 매칭되어 생성된 음성 태그를 도시화한 것이다. 구체적으로 설명하면, 여기서 추출된 음성 키워드 정보는 추출된 음성 데이터이고, 음성 데이터의 동기화 시간 정보는 멀티미디어 콘텐츠의 타임 라인에 동기화되는 음성 데이터의 동기화 시작 시각 및 동기화 종료 시각이 포함된 정보이다. 7 is a diagram schematically illustrating a timeline of multimedia content, and FIG. 8 illustrates a voice tag generated by matching voice keyword information with synchronization time information. Specifically, the extracted voice keyword information is extracted voice data, and the synchronization time information of the voice data is information including a synchronization start time and a synchronization end time of the voice data synchronized to the timeline of the multimedia content.
도 7 내지 도 8에 도시된 바와 같이 예를 들어, "그네"라는 음성 데이터가 포함된 음성 키워드 정보가 Ta 동안 동기화되고, "춘향"이라는 음성 데이터가 포함된 음성 키워드 정보가 Tb 동안 동기화된다고 가정하면, 서버(100)는 "그네"라는 음성 데이터가 포함된 음성 키워드 정보가 T1(16:30)부터 T2(16:42)까지 동기화되는 동기화 시간 정보와 "그네"라는 음성 데이터가 포함된 음성 키워드 정보를 매칭시켜 음성 태그를 생성할 수 있다.As shown in Figs. 7 to 8, for example, it is assumed that voice keyword information including voice data of "swing" is synchronized during Ta and voice keyword information containing voice data of "chunhyang" is synchronized during Tb. In this case, the server 100 may synchronize the voice keyword information including the voice data of "swing" with the synchronization time information from which T1 (16:30) to T2 (16:42) is synchronized and the voice of "swing". The voice tag may be generated by matching keyword information.
또한, 서버(100)는 "춘향"이라는 음성 데이터가 포함된 음성 키워드 정보가 T3(17:30)부터 T4(18:22)까지 동기화되는 동기화 시간 정보와 "춘향"이라는 음성 데이터가 포함된 음성 키워드 정보를 매칭시켜 음성 태그를 생성할 수 있다.In addition, the server 100 includes the voice keyword information including the voice data of "Chunhyang" and the synchronization time information of which the voice data of "Chunhyang" is synchronized from T3 (17:30) to T4 (18:22). The voice tag may be generated by matching keyword information.
다른 예를 들면, 서버(100)는 추출된 음성 키워드 정보를 텍스트화하고, 텍스트화된 음성 키워드 정보를 음성 데이터의 동기화 시간 정보와 매칭시켜, 음성 태그를 생성할 수 있다. For another example, the server 100 may text the extracted voice keyword information and match the textual voice keyword information with the synchronization time information of the voice data to generate a voice tag.
또 다른 예를 들면, 서버(100)는 추출된 음성 키워드 정보를 텍스트화하고, 텍스트화된 음성 키워드 정보 중 적어도 하나의 음성 키워드 정보를 키워드로 설정하고, 키워드로 설정되지 않은 나머지 음성 키워드 정보를 스톱 워드로 설정하면, 스톱 워드로 설정된 음성 데이터를 걸러내어 제외하고, 키워드로 설정된 음성 데이터만 선별하여 음성 태그를 생성할 수 있다.As another example, the server 100 may text-extract the extracted voice keyword information, set at least one voice keyword information among the textized voice keyword information as a keyword, and set the remaining voice keyword information not set as the keyword. If it is set as a stop word, the voice tag may be generated by selecting only the voice data set as a keyword and filtering out the voice data set as the stop word.
이는 서버(100)가, 분리된 음성 데이터 중 어휘형태소에 해당하는 음성 데이터인 "몽룡", "그네", "춘향", "보(다)", "사랑" 및 "빠(지다)"를 선별하여 음성 키워드 정보로 추출한 경우, 이를 텍스트화하고, 텍스트화된 음성 키워드 정보 중 "춘향"이라는 텍스트화된 음성 키워드 정보를 키워드로 설정하면, 키워드로 설정되지 않은 나머지 "몽룡", "그네", "보(다)", "사랑" 및 "빠(지다)"라는 텍스트화된 음성 키워드 정보는 스톱 워드로 설정되어 제외되고, 키워드로 설정된 "춘향"이라는 텍스트화된 음성 데이터만 선별하여 음성 태그를 생성할 수 있다.This means that the server 100 selects the voice data corresponding to the lexical morphemes of the separated voice data such as "mongryong", "swing", "chunhyang", "bo", "love" and "fast". If it is selected and extracted as voice keyword information, it is textized, and if the textualized voice keyword information of "Chunhyang" among the textized voice keyword information is set as a keyword, the remaining "monglong" and "swing" are not set as keywords. Textual voice keyword information such as "bo", "love", and "fast" is excluded as a stop word, and only the textual voice data of "chunhyang" set as a keyword is selected. You can create tags.
여기서 키워드는 표제어를 의미하고, 스톱 워드는 제외어를 의미한다.The keyword here means the headword, and the stop word means the negative word.
또 다른 예를 들면, 서버(100)는 추출된 음성 키워드 정보를 음성 데이터의 동기화 시간 정보 및 멀티미디어 콘텐츠가 링크된 URL 주소와 함께 매칭시켜, 음성 태그를 생성할 수 있다. As another example, the server 100 may generate the voice tag by matching the extracted voice keyword information with the synchronization time information of the voice data and the URL address to which the multimedia content is linked.
음성 태그에 음성 키워드 정보를 URL 주소와 함께 매칭시킴으로써, 검색 서비스를 통해 특정 멀티미디어 콘텐츠가 검색되면, 모바일 단말(200)은 검색된 멀티미디어 콘텐츠의 음성 태그를 기반으로 URL 주소에 링크된 멀티미디어 콘텐츠를 제공받을 수 있다.By matching the voice tag information with the URL address to the voice tag, when specific multimedia content is searched through the search service, the mobile terminal 200 may receive the multimedia content linked to the URL address based on the voice tag of the retrieved multimedia content. Can be.
서버(100)는 음성 태그가 생성되면, 생성된 음성 태그를 멀티미디어 콘텐츠에 부가하고, 기설정된 포맷으로 인코딩하여 태깅할 수 있다(S250). When the voice tag is generated, the server 100 may add the generated voice tag to the multimedia content, encode the tag in a predetermined format, and tag it (S250).
이때, 서버(100)는 멀티미디어 콘텐츠의 포맷을 미리 설정함으로써, 다양한 포맷으로 인코딩된 멀티미디어 콘텐츠의 포맷을 표준화할 수 있다. At this time, the server 100 may preset the format of the multimedia content, thereby standardizing the format of the multimedia content encoded in various formats.
또한, 서버(100)는 멀티미디어 콘텐츠가 인코딩된 경우, 이를 디코딩하여 생성된 음성 태그를 부가하여 기설정된 포맷으로 다시 인코딩하여 태깅할 수 있다.In addition, when the multimedia content is encoded, the server 100 may add a voice tag generated by decoding the encoded content and re-encode the tag in a predetermined format.
모바일 단말(200)이 서버(100)에 특정 검색어를 기반으로 검색을 요청하면(S260), 서버(100)는, 요청된 검색을 수행할 수 있다(S270). 다만, 여기서 검색어는 자연어 중 어느 하나의 단어이다.When the mobile terminal 200 requests a search from the server 100 based on a specific search word (S260), the server 100 may perform the requested search (S270). However, the search term is any word of natural language.
도 9는 본 발명의 일 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법을 더욱 상세히 설명하기 위해 도시한 흐름도이다.9 is a flowchart illustrating a voice data-based multimedia content tagging method according to an embodiment of the present invention in more detail.
이하에서는 도 9를 참고하여, 본 실시예에 따른 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법에 대하여 더욱 상세히 설명하기로 한다.Hereinafter, referring to FIG. 9, a voice data-based multimedia content tagging method according to the present embodiment will be described in more detail.
우선 서버(100)는, 상술한 바와 같이 멀티미디어 콘텐츠를 기반으로 음성 키워드 정보를 추출할 수 있다(S410). First, the server 100 may extract voice keyword information based on the multimedia content as described above (S410).
한편, 서버(100)는 음성 키워드 정보가 추출되면, 추출된 음성 키워드 정보를 기반으로 음성 태그를 생성할 수 있다(S420). Meanwhile, when the voice keyword information is extracted, the server 100 may generate a voice tag based on the extracted voice keyword information (S420).
또한, 서버(100)는 음성 태그가 생성되면, 생성된 음성 태그를 멀티미디어 콘텐츠에 태깅할 수 있다(S430). In addition, when the voice tag is generated, the server 100 may tag the generated voice tag to the multimedia content (S430).
음성 태그를 멀티미디어 콘텐츠에 태깅한 이후, 모바일 단말(200)이 서버(100)에 특정 검색어를 기반으로 검색을 요청하면(S440), 서버(100)는, 요청된 검색을 수행하기 위해, 태깅된 음성 태그와 모바일 단말(200)로부터 수신된 검색어를 비교하여 태깅된 음성 태그 중 검색어에 연관된 음성 태그가 존재하는지 판단한다(S450).After tagging the voice tag to the multimedia content, when the mobile terminal 200 requests the server 100 to search based on a specific search word (S440), the server 100 performs tagging to perform the requested search. The voice tag is compared with the search word received from the mobile terminal 200 to determine whether there is a voice tag associated with the search word among the tagged voice tags (S450).
서버(100)는 태깅된 음성 태그 중 검색어에 연관된 음성 태그가 존재하면(S450-Y), 이를 검출함으로써 검색을 수행할 수 있다.If there is a voice tag associated with the search word among the tagged voice tags (S450 -Y), the server 100 may perform a search by detecting the detected voice tag.
구체적으로 설명하면, 서버(100)는 검색어와 동일한 음성 데이터를 포함하는 음성 태그를 우선적으로 제공하고(S460), 검색어와 유사한 음성 데이터를 포함하는 음성 태그를 제공하도록 한다(S470).In detail, the server 100 preferentially provides a voice tag including voice data identical to the search word (S460) and provides a voice tag including voice data similar to the search word (S470).
또한, 서버(100)는, 검색어와 동일한 음성 데이터를 포함하는 음성 태그가 복수이면, 검색어와 동일한 음성 데이터를 포함하는 음성 태그 중 다운로드 요청 횟수 및 실시간 재생 요청 횟수가 상대적으로 많은 멀티미디어 콘텐츠의 음성 태그를 다운로드 요청 횟수 및 실시간 재생 요청 횟수가 상대적으로 적은 멀티미디어 콘텐츠의 음성 태그보다 우선적으로 제공하도록 한다.In addition, when there are a plurality of voice tags including the same voice data as the search word, the server 100 determines that the voice tag of the multimedia content has a relatively high number of download requests and real time playback requests among voice tags including the same voice data as the search word. Is provided preferentially over voice tags of multimedia content having relatively few download requests and real-time playback requests.
여기서, 멀티미디어 콘텐츠의 다운로드 요청 횟수 및 실시간 재생 요청 횟수는 기존에 다른 모바일 단말(200)에 의해 다운로드 요청된 횟수 및 실시간 재생이 요청된 횟수를 의미한다.Here, the number of download requests and the number of real-time playback requests of the multimedia content refer to the number of times that the download request is requested by the other mobile terminal 200 and the number of times that the real-time playback is requested.
이를 통해, 특정 검색어와 연관된 검색 시, 음성 데이터를 기반으로 생성된 음성 태그 중 특정 검색어와 연관된 음성 태그를 검색할 수 있으며, 검색을 통해 신뢰할 수 있는 검색 결과를 획득할 수 있다. As a result, during a search associated with a specific search word, a voice tag associated with a specific search word may be searched among voice tags generated based on voice data, and a reliable search result may be obtained through the search.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.While the above has been shown and described with respect to preferred embodiments of the present invention, the present invention is not limited to the specific embodiments described above, it is usually in the technical field to which the invention belongs without departing from the spirit of the invention claimed in the claims. Various modifications can be made by those skilled in the art, and these modifications should not be individually understood from the technical spirit or the prospect of the present invention.
Claims (12)
- 서버가 멀티미디어 콘텐츠를 기반으로 음성 키워드 정보를 추출하는 단계; Extracting, by the server, voice keyword information based on the multimedia content;상기 서버가 상기 추출된 음성 키워드 정보를 기반으로 음성 태그를 생성하는 단계; 및Generating, by the server, a voice tag based on the extracted voice keyword information; And상기 서버가 상기 생성된 음성 태그를 상기 멀티미디어 콘텐츠에 태깅하는 단계;를 포함하는 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법. And tagging, by the server, the generated voice tag to the multimedia content.
- 제1항에 있어서,The method of claim 1,상기 추출 단계는, The extraction step,상기 서버가 상기 멀티미디어 콘텐츠에 포함된 음성 데이터를 형태소 단위로 분리하고, 상기 분리된 음성 데이터 중 어휘형태소에 해당하는 음성 데이터를 선별하여, 상기 선별된 음성 데이터를 상기 음성 키워드 정보로 추출하는 것을 특징으로 하는 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법. The server separates the voice data included in the multimedia content into morpheme units, selects voice data corresponding to lexical morphemes from the separated voice data, and extracts the selected voice data as the voice keyword information. A method for tagging voice content based multimedia content.
- 제2항에 있어서,The method of claim 2,상기 생성 단계는,The generating step,상기 서버가 상기 추출된 음성 키워드 정보를 텍스트화하고, 상기 텍스트화된 음성 키워드 정보를 상기 멀티미디어 콘텐츠의 타임 라인에 동기화되는 상기 음성 데이터의 동기화 시간 정보와 매칭되도록 하여 상기 음성 태그를 생성하는 것을 특징으로 하는 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법.The server generates the voice tag by textualizing the extracted voice keyword information and matching the textualized voice keyword information with synchronization time information of the voice data synchronized to a timeline of the multimedia content. A method for tagging voice content based multimedia content.
- 제3항에 있어서,The method of claim 3,상기 태깅 단계는,The tagging step,상기 서버가 상기 생성된 음성 태그를 상기 멀티미디어 콘텐츠에 부가하고, 기설정된 포맷으로 인코딩하여 태깅하는 것을 특징으로 하는 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법.And the server adds the generated voice tag to the multimedia content, encodes the tag in a predetermined format, and tags the voice data based multimedia content.
- 제2항에 있어서,The method of claim 2,상기 생성 단계는, The generating step,상기 서버가 상기 추출된 음성 키워드 정보를 상기 멀티미디어 콘텐츠의 타임 라인에 동기화되는 상기 음성 데이터의 동기화 시간 정보와 매칭되도록 하여 상기 음성 태그를 생성하는 것을 특징으로 하는 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법.And generating the voice tag by matching the extracted voice keyword information with the synchronization time information of the voice data synchronized to the timeline of the multimedia content.
- 제2항에 있어서,The method of claim 2,상기 생성 단계는,The generating step,상기 서버가 상기 추출된 음성 키워드 정보를 상기 멀티미디어 콘텐츠의 타임 라인에 동기화되는 상기 음성 데이터의 동기화 시간 정보 및 상기 멀티미디어 콘텐츠가 링크된 URL 주소와 매칭되도록 하여 상기 음성 태그를 생성하는 것을 특징으로 하는 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법.The server generates the voice tag by matching the extracted voice keyword information with the synchronization time information of the voice data synchronized with the timeline of the multimedia content and the URL address with which the multimedia content is linked. Data-based multimedia content tagging method.
- 제2항에 있어서,The method of claim 2,상기 생성 단계는,The generating step,상기 서버가 상기 추출된 음성 키워드 정보를 텍스트화하며, 상기 텍스트화된 음성 키워드 정보 중 적어도 하나의 텍스트화된 음성 키워드 정보를 키워드로 설정하고, The server textifies the extracted voice keyword information, sets at least one textualized voice keyword information among the textified voice keyword information as a keyword,상기 키워드로 설정되지 않은 나머지 음성 키워드 정보를 스톱 워드로 설정하면, 상기 스톱 워드로 설정된 음성 데이터를 걸러내어 제외하고, 상기 키워드로 설정된 음성 데이터만 선별하여 상기 음성 태그를 생성하는 것을 특징으로 하는 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법. When the remaining voice keyword information not set as the keyword is set as a stop word, the voice tag is selected by filtering only the voice data set as the keyword, except for filtering out the voice data set as the stop word. Data-based multimedia content tagging method.
- 제1항에 있어서,The method of claim 1,모바일 단말이 상기 서버에 특정 검색어를 기반으로 검색을 요청하는 단계; 및 Requesting a search by the mobile terminal based on a specific search word from the server; And상기 서버가 상기 요청된 검색을 수행하는 단계;를 더 포함하는 것을 특징으로 하는 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법.And the server performing the requested search.
- 제8항에 있어서,The method of claim 8,상기 수행 단계는, The performing step,상기 서버가 상기 태깅된 음성 태그와 상기 검색어를 비교하여 상기 태깅된 음성 태그 중 상기 검색어에 연관된 음성 태그가 검출되도록 함으로써, 상기 검색을 수행하는 것을 특징으로 하는 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법.And the server performs the search by comparing the tagged voice tag with the search word to detect a voice tag associated with the search word among the tagged voice tags.
- 제9항에 있어서,The method of claim 9,상기 수행 단계는, The performing step,상기 서버가 상기 검색어에 연관된 음성 태그를 검출하여 상기 모바일 단말에 상기 검색의 결과로 상기 검색어에 연관된 음성 태그를 제공하되, The server detects a voice tag associated with the search word and provides the voice tag associated with the search word to the mobile terminal as a result of the search.상기 검색어와 동일한 음성 데이터를 포함하는 음성 태그를 상기 검색어와 유사한 음성 데이터를 포함하는 음성 태그보다 우선적으로 제공하도록 하고, Providing a voice tag including voice data identical to the search word preferentially to a voice tag including voice data similar to the search word,상기 검색어와 동일한 음성 데이터를 포함하는 상기 음성 태그가 복수이면, 상기 검색어와 동일한 음성 데이터를 포함하는 상기 음성 태그 중 기존에 다른 모바일 단말에 의한 다운로드 요청 횟수 및 실시간 재생 요청 횟수가 상대적으로 많은 멀티미디어 콘텐츠의 음성 태그를 상기 다운로드 요청 횟수 및 실시간 재생 요청 횟수가 상대적으로 적은 멀티미디어 콘텐츠의 음성 태그보다 우선적으로 제공하도록 하는 것을 특징으로 하는 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법.When the voice tag including the same voice data as the search word is plural, multimedia content having a relatively high number of download requests and real time playback requests by other mobile terminals among the voice tags including the same voice data as the search word. And provide a voice tag of a voice tag of a multimedia content having a relatively small number of download requests and a real time playback request.
- 멀티미디어 콘텐츠를 기반으로 음성 키워드 정보를 추출하고, 상기 추출된 음성 키워드 정보를 기반으로 음성 태그를 생성하며, 상기 생성된 음성 태그를 상기 멀티미디어 콘텐츠에 태깅하는 서버; 및 A server for extracting voice keyword information based on multimedia content, generating a voice tag based on the extracted voice keyword information, and tagging the generated voice tag on the multimedia content; And상기 서버로부터 상기 태깅된 멀티미디어 콘텐츠가 제공되는 모바일 단말; 을 포함하는 음성 데이터 기반 멀티미디어 콘텐츠 태깅 시스템.A mobile terminal provided with the tagged multimedia content from the server; Voice data-based multimedia content tagging system comprising a.
- 모바일 단말이 멀티미디어 콘텐츠를 기반으로 음성 키워드 정보를 추출하는 단계;Extracting, by the mobile terminal, voice keyword information based on the multimedia content;상기 모바일 단말이 상기 추출된 음성 키워드 정보를 기반으로 음성 태그를 생성하는 단계; 및 Generating, by the mobile terminal, a voice tag based on the extracted voice keyword information; And상기 모바일 단말이 상기 생성된 음성 태그를 상기 멀티미디어 콘텐츠에 태깅하는 단계를 포함하고, Tagging, by the mobile terminal, the generated voice tag on the multimedia content;상기 생성 단계는,The generating step,상기 음성 키워드 정보가 추출되면, 상기 모바일 단말이 상기 추출된 음성 키워드 정보 및 상기 멀티미디어 콘텐츠의 저장 경로에 대한 경로 정보가 매칭되도록 하여 상기 음성 태그를 생성하는 것을 특징으로 하는 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법.When the voice keyword information is extracted, the mobile terminal generates the voice tag by matching the extracted voice keyword information with the path information on the storage path of the multimedia content. .
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160036059A KR101832050B1 (en) | 2016-03-25 | 2016-03-25 | Tagging method for mutimedia contents base on sound data and system using the smae |
KR10-2016-0036059 | 2016-03-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
WO2017164510A2 true WO2017164510A2 (en) | 2017-09-28 |
WO2017164510A3 WO2017164510A3 (en) | 2018-08-02 |
Family
ID=59900594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2017/001103 WO2017164510A2 (en) | 2016-03-25 | 2017-02-02 | Voice data-based multimedia content tagging method, and system using same |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR101832050B1 (en) |
WO (1) | WO2017164510A2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109215657A (en) * | 2018-11-23 | 2019-01-15 | 四川工大创兴大数据有限公司 | A kind of grain depot monitoring voice robot and its application |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102523135B1 (en) * | 2018-01-09 | 2023-04-21 | 삼성전자주식회사 | Electronic Device and the Method for Editing Caption by the Device |
KR20220138512A (en) | 2021-04-05 | 2022-10-13 | 이피엘코딩 주식회사 | Image Recognition Method with Voice Tagging for Mobile Device |
KR102692018B1 (en) * | 2021-09-12 | 2024-08-05 | 커넥트밸류 주식회사 | Apparatus and method for applying data tagging using AI-based lecture video analysis |
WO2023233421A1 (en) * | 2022-05-31 | 2023-12-07 | Humanify Technologies Pvt Ltd | System and method for tagging multimedia content |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4802689B2 (en) * | 2005-12-08 | 2011-10-26 | 株式会社日立製作所 | Information recognition apparatus and information recognition program |
KR20090062371A (en) * | 2007-12-13 | 2009-06-17 | 주식회사 그래텍 | System and method for providing additional information |
KR20130060226A (en) * | 2010-04-30 | 2013-06-07 | 나우 테크놀로지스 (아이피) 리미티드 | Content management apparatus |
KR101356006B1 (en) * | 2012-02-06 | 2014-02-12 | 한국과학기술원 | Method and apparatus for tagging multimedia contents based upon voice enable of range setting |
KR20130141094A (en) * | 2012-06-15 | 2013-12-26 | 휴텍 주식회사 | Method for managing searches of web-contents using voice tags, and computer-readable recording medium with management program for the same |
-
2016
- 2016-03-25 KR KR1020160036059A patent/KR101832050B1/en active IP Right Grant
-
2017
- 2017-02-02 WO PCT/KR2017/001103 patent/WO2017164510A2/en active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109215657A (en) * | 2018-11-23 | 2019-01-15 | 四川工大创兴大数据有限公司 | A kind of grain depot monitoring voice robot and its application |
Also Published As
Publication number | Publication date |
---|---|
WO2017164510A3 (en) | 2018-08-02 |
KR20170111161A (en) | 2017-10-12 |
KR101832050B1 (en) | 2018-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017164510A2 (en) | Voice data-based multimedia content tagging method, and system using same | |
WO2010117213A2 (en) | Apparatus and method for providing information related to broadcasting programs | |
WO2011053010A2 (en) | Apparatus and method for synchronizing e-book content with video content and system thereof | |
WO2016060358A1 (en) | Video processing apparatus and method | |
EP2499612A2 (en) | Method and apparatus for managing data | |
WO2018097379A1 (en) | Method for inserting hash tag by image recognition, and software distribution server storing software for performing same method | |
WO2017138766A1 (en) | Hybrid-based image clustering method and server for operating same | |
WO2016035970A1 (en) | Advertisement system using search advertisement | |
WO2011162446A1 (en) | Module and method for deciding named entity of term using named entity dictionary combined with ontology schema and mining rule | |
WO2015088155A1 (en) | Interactive system, server and control method thereof | |
WO2015129983A1 (en) | Device and method for recommending movie on basis of distributed mining of fuzzy association rules | |
WO2013165083A1 (en) | System and method for providing image-based video service | |
EP3175626A1 (en) | Server, information providing method of server, display apparatus, controlling method of display apparatus and information providing system | |
WO2012070766A2 (en) | Method for generating video markup data on the basis of video fingerprint information, and method and system for providing information using same | |
WO2023018150A1 (en) | Method and device for personalized search of visual media | |
WO2022119326A1 (en) | Method for providing service of producing multimedia conversion content by using image resource matching, and apparatus thereof | |
WO2016186326A1 (en) | Search word list providing device and method using same | |
WO2020138608A1 (en) | Question answering method and apparatus using plurality of chatbots | |
WO2019240369A1 (en) | Display device and control method therefor | |
WO2010076917A2 (en) | Operating method of broadcasting receiver storing broadcasting program and broadcasting receiver enabling of the method | |
WO2022065537A1 (en) | Video reproduction device for providing subtitle synchronization and method for operating same | |
WO2016195324A1 (en) | Device for providing messenger-based service and method using same | |
WO2011118989A2 (en) | Method of managing selection information with respect to media content, and user device, service, and storage medium for executing the method | |
WO2021091003A1 (en) | Method for managing copyright of content | |
WO2019160388A1 (en) | Apparatus and system for providing content based on user utterance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
NENP | Non-entry into the national phase in: |
Ref country code: DE |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17770481 Country of ref document: EP Kind code of ref document: A2 |
|
32PN | Ep: public notification in the ep bulletin as address of the adressee cannot be established |
Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 21.01.2019) |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 17770481 Country of ref document: EP Kind code of ref document: A2 |