KR20110101324A - Method and apparatus for providing interactive contents service - Google Patents

Method and apparatus for providing interactive contents service Download PDF

Info

Publication number
KR20110101324A
KR20110101324A KR1020100020257A KR20100020257A KR20110101324A KR 20110101324 A KR20110101324 A KR 20110101324A KR 1020100020257 A KR1020100020257 A KR 1020100020257A KR 20100020257 A KR20100020257 A KR 20100020257A KR 20110101324 A KR20110101324 A KR 20110101324A
Authority
KR
South Korea
Prior art keywords
voice
video
additional information
information
viewer
Prior art date
Application number
KR1020100020257A
Other languages
Korean (ko)
Other versions
KR101156036B1 (en
Inventor
장영규
Original Assignee
주식회사 코리아퍼스텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 코리아퍼스텍 filed Critical 주식회사 코리아퍼스텍
Priority to KR1020100020257A priority Critical patent/KR101156036B1/en
Publication of KR20110101324A publication Critical patent/KR20110101324A/en
Application granted granted Critical
Publication of KR101156036B1 publication Critical patent/KR101156036B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/173Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

본 발명은 양방향 콘텐츠 제공방법을 개시한다. 특히, 본 발명은 IPTV 와 같은 양방향 콘텐츠 제공시스템에서 시청자가 동영상에 등장하는 객체를 음성으로 선택하고 그 부가정보를 확인할 수 있도록 하는 음성인식형 양방향 콘텐츠 제공방법 및 장치에 관한 것이다.
상세하게는, 본 발명은 동영상에 등장하는 객체와 연결된 부가정보를 시청자의 음성인식을 통해 제공하는 방법에 있어서, 객체가 매핑된 동영상을 선택받아, 선택받은 동영상, 객체의 지칭하는 음역주파수가 정의된 음성정보 및 부가정보를 수신하고, 동영상을 재생한다. 이후, 동영상 재생 중, 시청자의 음성감지 결과를 수신하면, 음성감지 결과를 음성정보와 비교분석하여 객체를 지정하는 것으로 판단되는 경우 객체와 연결된 부가정보를 추출하여 표시하는 특징이 있다.
따라서, 양방향 콘텐츠를 제공받는 시청자는 화면상에서 음성을 통해 해당 객체를 선택할 수 있어, 그에 대한 부가정보를 보다 손쉽게 확인 할 수 있는 효과가 있다.
The present invention discloses a method for providing interactive content. In particular, the present invention relates to a voice recognition interactive content providing method and apparatus that enables a viewer to select an object appearing in a video as a voice and check the additional information in an interactive content providing system such as an IPTV.
In detail, the present invention provides a method of providing additional information connected to an object appearing in a video through a viewer's voice recognition, by selecting a video to which the object is mapped and defining a range of frequencies of the selected video and the object. Received audio information and additional information, and plays a video. Subsequently, when a viewer receives a voice detection result while the video is being played, the voice detection result is compared with the voice information, and when it is determined that the object is designated, the additional information associated with the object is extracted and displayed.
Therefore, the viewer who is provided with the interactive content can select the corresponding object through the voice on the screen, so that the additional information about it can be easily checked.

Description

음성인식형 양방향 콘텐츠 제공방법 및 장치{METHOD AND APPARATUS FOR PROVIDING INTERACTIVE CONTENTS SERVICE}Method and device for providing speech recognition interactive contents {METHOD AND APPARATUS FOR PROVIDING INTERACTIVE CONTENTS SERVICE}

본 발명은 양방향 콘텐츠 제공방법에 관한 것으로, 특히 IPTV 와 같은 양방향 콘텐츠 제공 시스템에서 시청자가 동영상에 등장하는 객체를 음성으로 선택하고 그 부가정보를 확인할 수 있도록 하는 음성인식형 양방향 콘텐츠 제공방법 및 장치에 관한 것이다.The present invention relates to a method for providing two-way content, and more particularly, to a method and apparatus for providing voice recognition-type interactive content that enables a viewer to select an object appearing in a video as a voice and check additional information in an interactive content providing system such as an IPTV. It is about.

최근, IPTV 시스템과 같은 양방향 콘텐츠 제공 플랫폼이 개시됨에 따라, 콘텐츠 제공자는 단순히 디지털 콘텐츠 자체를 일방적으로 제공하는 것만이 아닌, 시청자의 의사를 반영하여 콘텐츠와 관련된 다양한 부가정보들을 함께 제공하는 형태로 발전되고 있다. 이러한 흐름에 따라 특히 주목받고 있는 서비스로서, 시청자가 재생중인 동영상내에 등장하는 특정장소 내지 인물 등에 대하여 보다 상세히 알고자 할 때, 키보드, 리모콘 등의 인터페이스 수단을 이용하여 선택하면 이에 대한 장소의 명칭 및 위치, 인물의 성명 및 이력 등을 제공하는 양방향 콘텐츠 정보 제공서비스가 제안되었다.Recently, with the introduction of an interactive content providing platform such as an IPTV system, a content provider has developed into a form of providing various additional information related to the content in consideration of the viewer's intention, as well as merely providing the digital content itself unilaterally. It is becoming. As a service attracting particular attention according to such a flow, when a viewer wants to know more about a specific place or person appearing in a video being played, the user can select the name of the place and An interactive content information providing service providing location, name and history of a person has been proposed.

이러한 양방향 콘텐츠 정보 제공서비스는, 먼저 제공하고자 하는 동영상에 대하여 동영상의 각 프레임상에 객체들이 위치하는 좌표를 추출 및 추적하고, 추출된 좌표로부터 사용자가 포인팅시 선택되는 영역을 정의한다. 이후, 추출된 해당 객체들에 대한 상세한 설명을 포함하는 부가정보, 즉 시청자가 특정 객체를 선택하였을 경우 제공되는 정보를 전술한 영역과 연결하고, 시청자 단말에 전송하여 시청자가 특정 객체영역을 선택하면 이와 연결된 부가정보를 제공하는 서비스이다.The bidirectional content information providing service first extracts and tracks coordinates where objects are positioned on each frame of a video with respect to a video to be provided, and defines an area selected when the user points from the extracted coordinates. Subsequently, additional information including detailed descriptions of the extracted objects, that is, information provided when the viewer selects a specific object, is connected to the above-described area, and transmitted to the viewer terminal, where the viewer selects a specific object area. This service provides additional information connected with it.

이에 따라, 시청자는 동영상의 시청 중에 특정 장소, 인물 내지 상품에 대하여 부가정보를 얻고 싶을 때는, 시청자 단말을 제어하는 키보드, 리모트 컨트롤러와 같은 인터페이스 수단을 이용하여 해당 객체를 선택하면 원하는 정보를 얻을 수 와다. Accordingly, when a viewer wants to obtain additional information about a specific place, person, or product while watching a video, the viewer can obtain desired information by selecting the corresponding object using an interface means such as a keyboard and a remote controller that controls the viewer's terminal. Come.

그러나, 콘텐츠의 양이 기하급수적으로 증가함에 따라 시청자는 원하는 채널 및 콘텐츠에 대한 부가정보를 리모컨 등을 이용하여 일일이 선택해야만 하는 문제점이 부각되고 있으며, 또한 전술한 객체정보 서비스의 이용시 화면상에서 빠르게 이동하는 객체를 직접 인터페이스 수단을 이용하여 쫓아 지정해야만 하는 불편함이 있다.However, as the amount of content increases exponentially, a problem that viewers must select additional information about a desired channel and content by using a remote controller is highlighted. Also, when the above-described object information service is used, the viewer quickly moves on the screen. It is inconvenient to follow the object directly by using the interface means.

본 발명은 전술한 문제점을 극복하기 위해 안출된 것으로, 시청자의 음성을 통해 양방향 동영상내에 등장하는 객체와 연관된 부가정보를 제공하는 음성인식형 양방향 콘텐츠 제공방법 및 장치를 제공하는 데 그 목적이 있다.Disclosure of Invention The present invention has been made to overcome the above-described problem, and an object thereof is to provide a method and an apparatus for providing a speech recognition interactive content that provides additional information associated with an object appearing in an interactive video through a viewer's voice.

전술한 목적을 달성하기 위해, 본 발명의 제1 실시예에 따른 동영상에 등장하는 객체와 연결된 부가정보를 시청자의 음성인식을 통해 제공하는 방법은 (a) 객체가 매핑된 동영상을 선택받는 단계; (b) 선택받은 상기 동영상, 상기 객체를 식별하는 음역주파수가 정의된 음성정보 및 부가정보를 요청 및 수신하는 단계; (c) 상기 동영상을 재생하는 단계; (d) 상기 동영상 재생 중, 시청자의 음성감지 결과를 수신하는 단계; 및, (e) 상기 음성감지 결과를 상기 음성정보와 비교분석하여 상기 객체를 지정하는 것으로 판단되면 상기 객체와 연결된 부가정보를 추출하여 표시하고, 그렇지 않으면 상기 단계 (c)를 계속 수행하는 단계를 포함한다.In order to achieve the above object, a method of providing additional information associated with an object appearing in a video according to a first embodiment of the present invention through a viewer's voice recognition includes: (a) receiving a video to which the object is mapped; (b) requesting and receiving the selected video and voice information and additional information in which sound frequency frequencies for identifying the object are defined; (c) playing the video; (d) receiving a voice detection result of the viewer during the video playback; And (e) extracting and displaying additional information associated with the object if it is determined that the voice detection result is compared with the voice information to designate the object, and otherwise performing the step (c). Include.

또한, 전술한 목적을 달성하기 위해, 본 발명의 제2 실시예에 따른 동영상에 등장하는 객체와 연결된 부가정보를 시청자의 음성인식을 통해 제공하는 방법은 (a) 객체가 매핑된 동영상을 선택받는 단계; (b) 선택받은 상기 동영상 및 부가정보를 요청 및 수신하는 단계; (c) 상기 동영상을 재생하는 단계; (d) 상기 동영상 재생 중, 시청자의 음성감지 결과를 수신하면, 상기 객체를 식별하는 음역주파수가 정의된 음성정보를 요청 및 수신하는 단계; 및, (e) 상기 음성감지 결과를 상기 음성정보와 비교분석하여 상기 객체를 지정하는 것으로 판단되면 상기 객체와 연결된 부가정보를 추출하여 표시하고, 그렇지 않으면 상기 단계 (c)를 계속 수행하는 단계를 포함한다.In addition, in order to achieve the above object, a method of providing additional information connected to an object appearing in a video according to a second embodiment of the present invention through a viewer's voice recognition (a) receiving a video to which the object is mapped step; (b) requesting and receiving the selected video and additional information; (c) playing the video; (d) requesting and receiving voice information in which sound range frequencies for identifying the object are defined when receiving a voice detection result of the viewer during the playback of the video; And (e) extracting and displaying additional information associated with the object if it is determined that the voice detection result is compared with the voice information to designate the object, and otherwise performing the step (c). Include.

상기 음성정보는 상기 동영상에 등장하는 인물, 배경지역, 음원 및 상품 중  하나에 대한 명칭을 포함하는 것을 특징으로 한다.The voice information may include a name of one of a person, a background region, a sound source, and a product appearing in the video.

상기 단계 (c)는, 상기 동영상에 등장하는 객체가 음성정보와 매핑되어 있는 경우, 화면상에 알림아이콘을 표시하는 단계를 더 포함하는 것을 특징으로 한다.The step (c) may further include displaying a notification icon on the screen when an object appearing in the video is mapped with voice information.

상기 단계 (e)는, (e1) 상기 음성감지 결과의 음역 주파수를 분석하는 단계; (e2) 분석된 음역주파수와 상기 음성정보에 정의된 음역주파수를 비교하여 유사도를 산출하는 단계; 및, (e3) 상기 유사도가 소정의 임계치내이면 상기 음성정보와 매핑된 객체가 지정된 것이라고 판단하는 단계를 포함하는 것을 특징으로 한다.Step (e) may include: (e1) analyzing a sound frequency of the voice detection result; (e2) calculating a similarity by comparing the analyzed sound frequency with the sound frequency defined in the voice information; And (e3) if the similarity is within a predetermined threshold, determining that the object mapped with the voice information is designated.

상기 단계 (e3) 이후, (e4) 상기 단계 (e3)에서 판단된 객체와 연결되는 부가정보를 추출하는 단계를 더 포함하는 것을 특징으로 한다.After the step (e3), (e4) characterized in that it further comprises the step of extracting additional information connected to the object determined in the step (e3).

상기 음성정보는, 상기 객체를 지칭하는 단어 또는 문장에 대한 음역주파수이며, 상기 단어 또는 문장은, 다국어를 포함하는 것을 특징으로 한다.The voice information is a frequency range of a word or sentence referring to the object, and the word or sentence includes multilingual.

또한, 본 발명의 실시예에 따른 동영상에 등장하는 객체와 연결된 부가정보를 시청자의 음성인식을 통해 제공하는 장치는 인터페이스 장치로부터 객체가 연결된 동영상을 선택받고, 시청자의 음성감지 결과를 수신하는 IR 수신모듈; 상기 IR 수신모듈이 선택받은 상기 동영상에 따라, 상기 동영상, 상기 동영상에 등장하는 객체에 연결된 음성정보 및 부가정보를 수신하는 통신모듈; 상기 통신모듈이 수신한 상기 동영상을 재생하는 동영상 재생모듈; 및, 상기 동영상 재생모듈에 의한 동영상 재생 중, 상기 IR 수신모듈이 수신한 상기 음성감지 결과에 따라, 상기 객체와 연결된 부가정보를 추출하여 표시하는 음성처리부를 포함한다.In addition, an apparatus for providing additional information associated with an object appearing in a video through a viewer through voice recognition according to an embodiment of the present invention receives an IR connection for receiving a voice detection result of the viewer by selecting the video connected to the object from the interface device module; A communication module configured to receive voice information and additional information connected to the video and an object appearing in the video according to the video selected by the IR receiving module; A video playing module for playing the video received by the communication module; And a voice processing unit for extracting and displaying additional information connected to the object according to the voice detection result received by the IR receiving module during video playback by the video playback module.

상기 음성처리부는, 상기 음성감지 결과와 상기 음성정보를 비교분석하는 음성판단 모듈; 상기 부가정보를 저장하는 로딩모듈; 및, 상기 음성판단모듈의 판단결과에 따라, 상기 로딩모듈로부터 상기 객체와 연결된 부가정보를 추출하는 부가정보 추출모듈을 포함한다.The voice processing unit includes: a voice determination module for comparing and analyzing the voice detection result and the voice information; A loading module for storing the additional information; And an additional information extraction module for extracting additional information associated with the object from the loading module according to a determination result of the voice determination module.

상기 음성판단모듈은, 상기 음성감지 결과의 음역 주파수를 분석하고, 상기 음역주파수와 상기 음성정보에 정의된 음역주파수를 비교하여 유사도를 산출하고  상기 유사도가 소정 임계치내이면 상기 음성정보와 매핑된 객체가 지정된 것으로 판단하는 것을 특징으로 한다.The voice determination module analyzes the sound frequency of the voice detection result, compares the sound frequency with the sound frequency defined in the sound information, calculates similarity, and if the similarity is within a predetermined threshold, the object mapped with the sound information. It is characterized by determining that is specified.

본 발명의 바람직한 실시예에 따르면, 다수의 디지털 콘텐츠를 제공받는 시청자는 화면상에서 음성을 통해 해당 객체를 선택할 수 있어, 그에 대한 부가정보를 보다 손쉽게 확인 할 수 있는 효과가 있다.According to a preferred embodiment of the present invention, a viewer who is provided with a plurality of digital contents can select a corresponding object through a voice on the screen, so that the additional information about it can be more easily confirmed.

또한, 음성인식형 동영상 제공시에 대용량의 음성정보를 콘텐츠 제공장치에 저장하는 것이 아닌, 필요시에만 객체와 관련된 음성정보를 전송함으로서 트래픽 부하를 줄이고, 고속으로 데이터를 처리할 수 있는 효과가 있다.In addition, it is possible to reduce the traffic load and process data at high speed by transmitting voice information related to an object only when necessary, rather than storing a large amount of voice information in a content providing device when providing a voice recognition video. .

도 1은 본 발명의 실시예에 따른 음성인식형 양방향 콘텐츠 제공장치의 전체 구성을 개략적으로 도시한 도면이다.
도 2는 본 발명의 실시예에 따른 음성인식형 양방향 콘텐츠 제공장치를 도시한 도면이다.
도 3은 본 발명의 제1 실시예에 따른 음성인식형 양방향 콘텐츠  제공방법을 도시한 도면이다.
도 4는 본 발명의 전체 시스템상에서의 음성인식형 양방향 콘텐츠 제공방법을 도시한 도면이다.
도 5는 본 발명의 제2 실시예에 따른 음성인식형 양방향 콘텐츠 제공방법을 도시한 도면이다.
1 is a view schematically showing the overall configuration of a voice recognition interactive content providing apparatus according to an embodiment of the present invention.
2 is a diagram illustrating an apparatus for providing a voice recognition interactive content according to an embodiment of the present invention.
3 is a diagram illustrating a voice recognition interactive content providing method according to a first embodiment of the present invention.
4 is a diagram illustrating a method for providing voice recognition interactive content on an entire system of the present invention.
FIG. 5 is a diagram illustrating a voice recognition interactive content providing method according to a second embodiment of the present invention.

이하, 도면을 참조하여 본 발명의 바람직한 실시예에 따른 음성인식형 양방향 콘텐츠 제공방법 및 장치를 설명한다.Hereinafter, a method and apparatus for providing voice recognition interactive content according to a preferred embodiment of the present invention will be described with reference to the accompanying drawings.

이하의 설명에서는 각 프레임마다 객체가 영상내에서 이동하는 동영상 콘텐츠를 일예로서 설명하였지만, 본 발명의 기술적 사상은 동영상 뿐만 아니라, 이미지 콘텐츠 등과 같은 정지영상에도 적용하여 객체정보의 제공이 가능하다.In the following description, as an example, moving image content in which an object moves within an image for each frame has been described as an example. However, the technical idea of the present invention can be provided not only for moving images but also for still images such as image contents to provide object information.

도 1은 본 발명의 실시예에 따른 음성인식형 양방향 콘텐츠 제공장치의 전체 구성을 개략적으로 도시한 도면이다. 1 is a view schematically showing the overall configuration of a voice recognition interactive content providing apparatus according to an embodiment of the present invention.

도시한 바와 같이, 본 발명의 음성인식형 양방향 콘텐츠 제공장치의 전체 구성은, 다양한 디지털 콘텐츠를 배포하는 IPTV 서비스 시스템(100)과, 정보통신망을 통해 디지털 콘텐츠를 각 서비스 가입자에 분배하는 네트워크 장치(120)와, 객체서비스가 적용된 양방향 콘텐츠를 제공하는 동영상 제공시스템(300)과, 객체서비스를 위한 음성정보를 제공하는 음성정보 제공장치(400)와, 시청자의 요구에 따라 객체 서비스가 적용된 양방향 콘텐츠를 수신 및 제공하는 콘텐츠 제공장치(200), 양방향 콘텐츠를 표시하는 디스플레이 장치(290)와, 그리고 시청자의 조작을 입력받고 음성을 인식하여 콘텐츠 제공장치(200)에 전송하는 인터페이스 장치(500)를 포함한다. As shown, the overall configuration of the voice recognition interactive content providing apparatus of the present invention, the IPTV service system 100 for distributing various digital content, and the network device for distributing digital content to each service subscriber through an information communication network ( 120, a video providing system 300 providing interactive content to which an object service is applied, a voice information providing apparatus 400 to provide voice information for an object service, and interactive content to which an object service is applied according to a viewer's request. A content providing device 200 for receiving and providing a message, a display device 290 for displaying interactive content, and an interface device 500 for receiving a viewer's operation, recognizing a voice, and transmitting the voice to the content providing device 200. Include.

상세하게는, IPTV 서비스 시스템(100)은 콘텐츠  프로바이더로부터 동영상 및 음성신호 등 각종 방송 프로그램을 위한 테이터를 공급받아 서비스 가입자의 단말에 전송한다. 이를 위해, 도시하지는 않았지만 IPTV 서비스 시스템(100)은 공급되는 를 압축 및 다중화하고 송출을 위한 패킷화하는 압축 다중화 시스템과, 양방향 서비스를 위한 리턴패스 시스템과, 동영상 및 음성신호의 불법 유출을 막기 위한 보안시스템 등을 더 포함할 수 있다.In detail, the IPTV service system 100 receives data for various broadcast programs such as video and audio signals from a content provider and transmits the data to a terminal of a service subscriber. To this end, although not shown, the IPTV service system 100 includes a compression multiplexing system that compresses, multiplexes, and packetizes a transmitted packet, a return path system for bidirectional service, and a system for preventing illegal leakage of video and audio signals. It may further include a security system.

네트워크 장치(120)는 멀티캐스트 라우팅 프로토콜을 사용하는 기가비트(Gigabit) 이상의 고속 라우터 및 스위치를 포함하며, IPTV 시스템(100)에서 배포하는 양방향 동영상을 정보통신망을 통해 해당 채널에 조인된 다수의 시청자의 콘텐츠 제공장치(200)로 전송한다.The network device 120 includes a gigabit or more high-speed router and a switch using a multicast routing protocol, and a plurality of viewers joined to a corresponding channel through a telecommunication network for two-way video distributed by the IPTV system 100. It transmits to the content providing device 200.

콘텐츠 제공장치(200)는 IPTV 서비스 시스템(150)으로부터 방송채널을 전송받고, 양방향 동영상 및 음성신호와, 이를 위한 데이터에 대한 패킷화된 전송 스트림을 전송받아 디스플레이 장치(290)가 표시하도록 재생하는 장치로서, 기존 IPTV 플랫폼의 셋탑박스와 대응한다. 즉, 콘텐츠 제공장치(200)는 사용자 인터페이스 장치(500), 즉 셋탑조작기능을 가지는 리모컨과 같은 기기의 신호의 조작에 따라 IPTV 서비스 시스템(100)과 데이터 송수신을 하기 위한 IPTV 서비스 모듈을 내장한다. 또한, 콘텐츠 제공장치(200)는 음성인식형 양방향 콘텐츠 서비스를 위한 관련모듈들을 포함하며, 이에 대한 상세한 설명은 후술하도록 한다.The content providing apparatus 200 receives a broadcast channel from the IPTV service system 150, receives a bidirectional video and audio signal, and a packetized transport stream for data for playback, so that the display apparatus 290 displays the content. As a device, it corresponds to the set-top box of the existing IPTV platform. That is, the content providing device 200 includes an IPTV service module for transmitting and receiving data with the IPTV service system 100 according to a signal of a user interface device 500, that is, a device such as a remote controller having a set-top operation function. . In addition, the content providing apparatus 200 includes related modules for voice recognition interactive content service, a detailed description thereof will be described later.

디스플레이 장치(290)는 콘텐츠 제공장치(200)의 출력부와 연결되어, 콘텐츠 제공장치(200)가 재생하는 양방향 동영상을 표시한다.  The display apparatus 290 is connected to the output unit of the content providing apparatus 200 to display an interactive video played by the content providing apparatus 200.

동영상 제공시스템(300)은 IPTV 서비스 시스템(100)과 정보통신망을 통해 연결되어 배포되는 동영상 중, 객체 서비스가 적용된 양방향 동영상과, 동영상에 등장하는 객체와 연관된 부가정보를 콘텐츠 제공장치(200)에 제공하는 장치이다. 여기서, 객체는 동영상의 각 프레임별로 소정의 저작툴에 의해 추출 및 추적되어 전술한 부가정보와 연결되어 있으며, 이에 따라 동영상을 이용하는 사용자에 의해 특정객체가 선택되면 해당 부가정보를 더 표시할 수 있다. 이러한 객체는 이를 식별할 수 있는 음성정보와 매핑되어 있으며, 동영상 제공시스템(300)은 IPTV 서비스 시스템(100)의 요청에 따라 해당 시청자의 콘텐츠 제공장치(200)에 동영상 및 이에 관련된 정보들을 제공한다.The video providing system 300 transmits, to the content providing apparatus 200, an interactive video to which an object service is applied and additional information associated with an object appearing in the video among the videos distributed and connected through the IPTV service system 100 and the information communication network. It is a device to provide. Here, the object is extracted and tracked by a predetermined authoring tool for each frame of the video and connected to the aforementioned additional information. Accordingly, when a specific object is selected by the user who uses the video, the object may be further displayed. Such an object is mapped with voice information for identifying it, and the video providing system 300 provides a video and related information to the content providing apparatus 200 of a corresponding viewer at the request of the IPTV service system 100. .

또한, 전술한 부가정보는, 일례로서 객체가 특정장소인 경우 명칭, 위치, 촬영날짜 및 교통상황 등을 포함할 수 있으며, 객체가 광고상품일 경우 명칭, 제조사, 가격, 구입방법 및 판매사이트의 인터넷 링크주소 등을 포함할 수 있다.In addition, the above-described additional information may include, for example, a name, a location, a shooting date, and a traffic situation when the object is a specific place, and when the object is an advertisement product, the name, manufacturer, price, purchase method, and sale site Internet link address and the like.

음성정보 제공장치(400)는 객체 서비스가 적용된 양방향 동영상에 매핑되는 음성정보를 제공하는 장치이다. 음성정보 제공장치(400)는 수십 내지 수만건의 단어 또는 문장에 대한 음성정보를 저장하고 있으며, 이러한 음성정보는 객체를 선택하기 위해 시청자가 발음하는 단어 또는 문장과 대조하여 동일하거나 소정 임계치내에서 유사할 경우 매핑된 객체를 선택한 것이라고 판단하는 데 이용된다. The voice information providing apparatus 400 is a device for providing voice information mapped to an interactive video to which an object service is applied. The voice information providing apparatus 400 stores voice information about tens or tens of thousands of words or sentences, and the voice information is the same or similar within a predetermined threshold in contrast to a word or sentence pronounced by a viewer to select an object. If used, it is used to determine that the mapped object is selected.

인터페이스 장치(500)는 시청자가 콘텐츠 제공장치(200)를 제어하기 위해 이용하는 장치로서, 일반적인 리모트 컨트롤러가 적용될 수 있다. 시청자는 인터페이스 장치(500)의 조작을 통해 콘텐츠 제공장치(200)의 부팅, 채널 및 메뉴선택, 양방향 동영상 재생, 그리고 객체선택을 수행한다. 특히, 현재 널리 이용되는 셋탑박스와 인터페이스 장치간의 통신방식으로 IR 적외선 방식이 채용되며, 본 발명의 기술적 사상에 따라, 전술한 인터페이스 장치(500)는 기존의 리모트 콘트롤러에 음성감지수단이 구비된 형태이거나, 또는 콘텐츠 제공장치(200)의 제어모듈이 내장된 스마트폰(smart phone)이 이용되는 형태일 수 있다.The interface device 500 is a device used by a viewer to control the content providing device 200, and a general remote controller may be applied. The viewer performs booting, channel and menu selection, interactive video playback, and object selection of the content providing apparatus 200 through manipulation of the interface device 500. In particular, the IR infrared method is adopted as a communication method between the set-top box and the interface device which is widely used at present, and according to the technical concept of the present invention, the above-described interface device 500 is provided with a voice sensing means in the existing remote controller. Alternatively, or a smart phone in which the control module of the content providing apparatus 200 is built may be used.

전술한 구성에 따라, 본 발명의 음성인식형 양방향 콘텐츠 제공장치는 IPTV 서비스 시스템과 같은 양방향 동영상 제공 시스템과 연동하여, 양방향 동영상을 제공하고 시청자의 음성을 감지함으로서 동영상에 등장하는 객체를 선택 및 부가정보를 더 제공한다.According to the above-described configuration, the voice recognition interactive content providing apparatus of the present invention works in conjunction with an interactive video providing system such as an IPTV service system to provide an interactive video and to detect and add a viewer's voice to select and add an object appearing in the video. Provide more information.

이하, 도면을 참조하여 본 발명의 바람직한 실시예에 따른 음성인식형 양방향 콘텐츠  제공장치를 보다 상세히 설명한다.Hereinafter, with reference to the drawings will be described in more detail the apparatus for providing speech recognition interactive content according to an embodiment of the present invention.

도 2는 본 발명의 실시예에 따른 음성인식형 양방향 콘텐츠  제공장치를 도시한 도면이다.2 is a diagram illustrating an apparatus for providing a voice recognition type bidirectional content according to an embodiment of the present invention.

도시한 바와 같이, 본 발명의 콘텐츠 제공장치(200)는, 동영상에 등장하는 객체와 연결된 부가정보를 시청자의 음성인식을 통해 제공하는 장치로서, 객체가 연결된 동영상을 선택받고, 시청자의 음성감지 결과를 수신하는 IR 수신모듈(210)과, 선택받은 동영상에 따라, 동영상, 음성정보 및 부가정보를 수신하는 통신모듈(220)과, 동영상을 재생하는 동영상 재생모듈(230)과, 음성감지 결과에 따라, 객체와 연결된 부가정보를 추출하여 표시하는 음성처리부(250)를 포함한다.As shown, the content providing apparatus 200 of the present invention is a device for providing additional information connected to an object appearing in a video through a viewer's voice recognition, receiving a video connected with the object, and the viewer's voice detection result IR receiving module 210 for receiving the video, communication module 220 for receiving video, voice information and additional information according to the selected video, video playback module 230 for playing the video, and the voice detection result Accordingly, the voice processing unit 250 extracts and displays additional information associated with the object.

상세하게는, IR 수신모듈(210)은 인터페이스 장치로부터 객체가 연결된 동영상을 선택받고, 시청자의 음성감지 결과를 수신하는 기능을 수행하는 장치이다. 인터페이스 장치는 전술한 바와 같이 마이크를 구비한 리모트 콘트롤 또는 스마트폰이 될 수 있으며, IR 수신모듈(210)은 시청자의 조작에 의한 콘텐츠 제공장치(200) 제어신호를 수신하고, 또한 IPTV 서비스 시스템이 제공하는 초기화면, 채널 및 메뉴 선택란에서 객체 서비스가 적용된 양방향 동영상을 선택시 이를 수신한다.In detail, the IR receiving module 210 is a device that receives a video connected to an object from an interface device and receives a voice detection result of the viewer. The interface device may be a remote control or a smartphone having a microphone as described above, the IR receiving module 210 receives the control signal of the content providing device 200 by the viewer's operation, and also the IPTV service system Receive this when selecting the interactive video to which the object service is applied from the provided initial screen, channel and menu check box.

통신모듈(220)은 IR 수신모듈(210)이 수신한 동영상 선택에 따라, 동영상 제공시스템(300)으로부터 해당 동영상과, 동영상에 등장하는 객체에 연결된 음성정보 및 부가정보를 수신하는 기능을 수행한다. 도시하지는 않았지만, 통신모듈(220)은 먼저 IPTV 서비스 시스템에 선택된 동영상의 제공을 요청하고, IPTV 서비스 시스템은 이러한 요청에 따라 동영상 제공시스템(300)에 동영상을 해당 콘텐츠 제공장치(200)에 전송할 것을 요청한다. 이후, 도시한 바와 같이 동영상 제공시스템(300)은 요청된 동영상을 추출 및 해당 콘텐츠 제공장치(200)에 제공하게 된다.The communication module 220 receives a video from the video providing system 300 and voice information and additional information connected to an object appearing in the video according to the video selection received by the IR receiving module 210. . Although not shown, the communication module 220 first requests to provide the selected video to the IPTV service system, and the IPTV service system transmits the video to the corresponding content providing apparatus 200 to the video providing system 300 according to the request. request. Thereafter, as shown in the drawing, the video providing system 300 extracts the requested video and provides the corresponding content providing apparatus 200.

동영상 재생모듈(230)은 통신모듈(220)이 수신한 동영상을 디스플레이 장치(290)를 통해 재생하는 기능을 수행한다. The video play module 230 plays a video received by the communication module 220 through the display device 290.

음성처리부(250)는 동영상 재생모듈(230)에 의한 동영상 재생 중, IR 수신모듈(210)이 수신한 음성감지 결과에 따라, 객체와 연결된 부가정보를 추출하여 표시하는 기능을 수행한다. 동영상 시청 중, 동영상에 등장하는 복수의 객체에서 부가정보를 더 제공받길 원하는 경우, 시청자가 객체에 대한 식별할 수 있는 단어 또는 문장을 음성으로 표현하면 인터페이스 장치는 이를 감지하여 IR 수신모듈(210)에 전송하고, 음성처리부는 수신된 음성감지결과를 해당 객체와 매핑된 음성정보와 비교분석하여 객체와 연결된 부가정보를 추출한다. 여기서, 시청자가 표현하는 단어 또는 문장은 다국어가 될 수 있다.The voice processing unit 250 performs a function of extracting and displaying additional information associated with an object according to a voice detection result received by the IR receiving module 210 during video playback by the video playback module 230. If the viewer wants to receive additional information from a plurality of objects appearing in the video, the interface device detects the words or sentences that can be identified for the object by voice and the IR receiving module 210 detects them. The voice processor extracts additional information associated with the object by comparing the received voice detection result with the voice information mapped to the object. Here, the word or sentence expressed by the viewer may be multilingual.

전술한 기능을 수행하기 위해, 음성처리부(250)는, IR 수신모듈(210)이 수신한 음성감지 결과와 음성정보를 비교분석하는 음성판단 모듈(252)과, 판단결과에 따라, 객체와 연결된 부가정보를 추출하는 부가정보 추출모듈(254)과, 부가정보를 저장하는 로딩모듈(256)을 포함한다.In order to perform the above-described function, the voice processing unit 250 is connected to the object according to the voice determination module 252 for comparing and analyzing the voice detection result and the voice information received by the IR reception module 210, and the determination result. An additional information extraction module 254 for extracting additional information and a loading module 256 for storing the additional information.

먼저, 음성판단 모듈(252)은 IR 수신모듈(210)이 수신한 음성감지 결과에 대해 음역 주파수를 분석하고, 분석된 음역주파수와 상기 음성정보에 어휘별로 정의된 음역주파수에 대비하여 동일한 파장이거나, 또는 파장의 유사정도가 소정 임계치내에 포함되면 음성정보와 매핑된 객체가 지정된 것이라고 판단한다.First, the voice determination module 252 analyzes a sound range frequency with respect to a voice detection result received by the IR reception module 210, and compares the analyzed sound frequency with the sound frequency defined for each vocabulary in the voice information. When the degree of similarity between the or wavelengths is included within a predetermined threshold, it is determined that the object mapped with the voice information is designated.

부가정보 추출모듈(254)은 음성판단 모듈(252)이 음성감지 결과와 음성정보의 비교분석 결과에 따라, 객체가 지정된 것이라고 판단되면 해당 객체와 연결된 부가정보를 로딩모듈(256)을 참조하여 추출하고, 동영상 재생모듈(220)을 통해 화면으로 표시한다.The additional information extracting module 254 extracts the additional information associated with the object by referring to the loading module 256 when it is determined that the object is designated according to the result of the voice detection result and the comparative analysis of the voice information. Then, the video is displayed on the screen through the video playback module 220.

로딩모듈(256)은, 통신모듈(220)이 동영상, 부가정보 및 음성정보를 수신하면 이를 저장해두었다고, 부가정보 추출모듈(254)의 참조에 따라 해당 부가정보를 제공한다. The loading module 256, when the communication module 220 receives the video, the additional information, and the voice information, stores it, and provides the additional information according to the reference of the additional information extraction module 254.

전술한 구성에 따라, 본 발명의 음성인식형 양방향 콘텐츠 제공장치는 양방향 동영상을 제공하고, 시청자의 음성표현에 따라 시청자의 음성감지 결과에 대응하여 객체지정을 판단하고 해당하는 부가정보를 제공한다.According to the above-described configuration, the apparatus for providing a speech recognition interactive content according to the present invention provides an interactive video, determines an object designation according to the viewer's voice detection result according to the viewer's voice expression, and provides corresponding additional information.

이하, 도면을 참조하여 본 발명의 제1 실시예에 따른 음성인식형 양방향 콘텐츠 제공방법을 설명한다.Hereinafter, a voice recognition interactive content providing method according to a first embodiment of the present invention will be described with reference to the drawings.

도 3은 본 발명의 제1 실시예에 따른 음성인식형 양방향 콘텐츠 제공방법을 도시한 도면이다.3 is a diagram illustrating a voice recognition interactive content providing method according to a first embodiment of the present invention.

도시한 바와 같이, 본 발명의 콘텐츠 제공방법은, 동영상 선택단계(S510), 동영상, 음성정보 및 부가정보 수신단계(S520), 동영상 재생단계(S530), 음성감지단계(S540), 음성판단단계(S550), 부가정보 추출 및 제공단계(S560)를 포함한다.As shown, the content providing method of the present invention, the video selection step (S510), video, voice information and additional information receiving step (S520), video playback step (S530), voice detection step (S540), voice determination step In step S550, the additional information extraction and providing step S560 is included.

상세하게는 동영상 선택단계(S510)는, 시청자의 인터페이스 장치 조작에 따라 콘텐츠 제공장치의 IR 수신모듈이 초기화면에서 객체가 매핑된 동영상 선택을 입력받는 단계이다. In detail, the video selection step (S510) is a step in which the IR reception module of the content providing device receives a video selection on which an object is mapped on the initial screen according to the viewer's manipulation of the interface device.

동영상, 음성정보 및 부가정보 수신단계(S520)는, 동영상 제공시스템(300)으로부터 통신모듈이 시청자가 선택한 동영상을 수신하는 단계이다. 이때, 해당 동영상 뿐만 아니라, 이와 연결된 객체를 지칭하는 음역주파수가 정의된 음성정보 및 부가정보를 함께 수신하게 된다. 여기서 수신한 데이터들은 로딩모듈에 저장된다. 또한 전술한 음성정보는 어휘사전에 기록된 모든 단어 또는 문장에 대한 데이터가 아닌, 객체 서비스 저작자에 의해 설정된 소정개의 핵심단어 또는 문장만이 정의된다. 일예로서, 음성정보는 동영상에 등장하는 인물, 배경지역, 음원 및 상품에 대한 일반적인 명칭을 포함한다. Receiving a video, audio information and additional information (S520), the communication module receives a video selected by the viewer from the video providing system 300. In this case, not only the corresponding video, but also voice information and additional information in which sound frequency frequencies indicating objects connected thereto are received together. The data received here is stored in the loading module. In addition, the above-mentioned voice information is defined only a predetermined key word or sentence set by the object service author, not data for all words or sentences recorded in the lexicon. As an example, the voice information includes general names of persons, background regions, sound sources, and merchandise appearing in the video.

동영상 재생단계(S530)는, 동영상 재생모듈이 디스플레이 장치를 통해 해당 동영상을 재생하는 단계이다. 이때, 동영상이 표시되는 화면의 일부분에 동영상이 객체 서비스가 적용된, 즉 음성정보를 가지고 있다는 알림아이콘을 더 표시할 수 있다.The video playback step S530 is a step in which the video playback module plays the corresponding video through the display device. In this case, a notification icon indicating that the video has an object service, that is, voice information may be further displayed on a portion of the screen where the video is displayed.

음성감지단계(S540)는 동영상 재생 중, 인터페이스 장치가 시청자의 음성을 감지하고, IR 수신모듈이 음성감지 결과를 수신하는 단계이다. 이때, 인터페이스 장치가 감지하는 음성에는 시청자 음성 뿐만 아니라, 시청자 주변에서 발생하는 소음 및 디스플레이 장치에서 나오는 잡음 등이 포함될 수 있다. 이러한 소음 및 잡음에 따라 음성정보와 비교분석시 오류가 발생할 수 있으며, 설계자는 전술한 소음등을 고려하여 임계치값을 설정해야 한다.In the voice detection step S540, the interface device detects the viewer's voice and the IR receiving module receives the voice detection result while the video is being played. In this case, the voice detected by the interface device may include not only the viewer voice, but also noise generated around the viewer and noise from the display device. According to the noise and noise, errors may occur in comparison with the voice information, and the designer should set the threshold value in consideration of the noise mentioned above.

음성판단단계(S550)는 음성처리부의 음성판단모듈이 음성감지 결과에 따라 객체의 지정유무를 판단하는 단계이다. 음성판단모듈은 음성감지 결과의 음역 주파수를 분석하고, 분석된 음역주파수와 상기 음성정보에 정의된 음역주파수의 유사도를 비교하여 상기 유사도가 소정 임계치내로 유사하면 상기 음성정보와 매핑된 객체가 지정된 것이라고 판단한다.The voice judging step S550 is a step in which the voice judging module of the voice processor determines whether an object is designated according to the voice detection result. The voice judging module analyzes the sound frequency of the voice detection result and compares the similarity between the analyzed sound frequency and the sound frequency defined in the sound information, and if the similarity is similar within a predetermined threshold, the object mapped with the sound information is designated. To judge.

부가정부 추출 및 제공단계(S560)는 전술한 S550 단계에 따라 객체가 지정된 것이라고 판단되면, 부가정보 추출모듈이 로딩모듈을 참조하여 지정된 객체와 연결된 부가정보를 추출하고, 동영상 재생모듈을 통해 동영상화면상에 표시하는 단계이다. 만약 S560 단계에서 객체가 지정된 것이 아니라고 판단되면, 동영상 재생모듈은 현재 동영상을 계속 표시하게 된다.If it is determined that the object is designated according to step S550 described above, the additional information extracting module extracts additional information associated with the specified object with reference to the loading module, and displays the video screen through the video playing module. It is a step to display on. If it is determined in step S560 that the object is not designated, the video playback module continues to display the current video.

전술한 단계에 따라, 본 발명의 음성인식형 양방향 콘텐츠 제공방법은 양방향 동영상을 제공하고, 시청자의 음성표현에 따라 시청자의 음성감지 결과에 대응하여 객체지정을 판단하고 관련된 부가정보를 제공한다.According to the above-described steps, the voice recognition interactive content providing method of the present invention provides an interactive video, and determines the object designation in response to the viewer's voice detection result according to the viewer's voice expression and provides the associated additional information.

이하, 도면을 참조하여 본 발명의 제1 실시예에 따른 전체 시스템상에서의 음성인식형 양방향 콘텐츠 제공방법을 설명한다.Hereinafter, a voice recognition interactive content providing method on an entire system according to a first embodiment of the present invention will be described with reference to the accompanying drawings.

도 4는 본 발명의 전체 시스템상에서의 음성인식형 양방향 콘텐츠 제공방법을 도시한 도면이다.4 is a diagram illustrating a method for providing voice recognition interactive content on an entire system of the present invention.

도시한 바와 같이, 본 발명의 콘텐츠 제공방법에 따르면 IPTV 서비스 시스템(100)이 콘텐츠 제공장치(200)에 초기화면을 제공하고(S501), 시청자가 인터페이스 장치(500)를 이용해 초기화면의 메뉴 등을 선택해서 제공받고자 하는 양방향 동영상을 선택하면(S511), 콘텐츠 제공장치(200)는 이를 수신하고 IPTV 서비스 시스템(100)을 거쳐 동영상 제공시스템(300)에 해당 동영상을 요청한다(S512).As shown, according to the content providing method of the present invention, the IPTV service system 100 provides an initial screen to the content providing device 200 (S501), and the viewer uses the interface device 500 to display a menu of the initial screen. If the user selects the interactive video to be provided (S511), the content providing apparatus 200 receives the request and requests the video from the video providing system 300 via the IPTV service system 100 (S512).

동영상 제공시스템(300)은 요청된 동영상의 객체와 매핑된 음성정보를 판단하고(S513), 이에 따라 음성인식형 객체 서비스에 필요한 음성정보를 음성정보 제공장치(400)에 요청하고(S514), 음성정보 제공장치(400)는 해당 음성정보를 동영상 제공시스템(300)에 제공한다(S515).The video providing system 300 determines the voice information mapped to the object of the requested video (S513), thereby requesting the voice information providing apparatus 400 for the voice information necessary for the voice recognition object service (S514), The voice information providing apparatus 400 provides the corresponding voice information to the video providing system 300 (S515).

이후, 동영상 제공시스템(300)은 요청된 양방향 동영상, 동영상내의 객체와 매핑된 음성정보 및 부가정보를 정보통신망을 통해 콘텐츠 제공장치(200)에 전송한다(S520). 이에 따라, 콘텐츠 제공장치(200)는 수신한 동영상을 디스플레이 장치를 통해 재생한다. 이때, 콘텐츠 제공장치는 동영상 재생시, 화면상에 본 동영상이 음성인식형 객체 서비스가 적용된 것임을 알리는 알림아이콘을 더 표시할 수 있다. Thereafter, the video providing system 300 transmits the requested interactive video, voice information and additional information mapped to the object in the video to the content providing apparatus 200 through the information communication network (S520). Accordingly, the content providing device 200 plays the received video through the display device. In this case, the content providing apparatus may further display a notification icon indicating that the voice recognition object service is applied to the video on the screen when the video is played.

시청자는 양방향 동영상 감상 중, 이에 등장하는 객체에 대하여 부가정보를 더 제공받고자 하는 경우, 인터페이스 장치(500)를 통해 객체를 식별할 수 있는 단어 또는 문장을 음성으로 표현하면(S541), 인터페이스 장치(500)는 이를 감지하여 음성감지결과를 콘텐츠 제공장치(200)에 전송한다(S542). 이때, 인터페이스 장치(500)가 항상 음성감지 대기상태로 설정되면 전력낭비등의 문제점이 발생할 수 있으므로, 인터페이스 장치(500)에는 시청자가 음성인식 서비스 받고자 할 때만 음성감지 활성화상태로 전환할 수 있는 수단이 더 구비되는 것이 바람직하다.When the viewer wants to receive additional information about the object appearing during the interactive video, if the word or sentence for identifying the object is spoken through the interface device 500 (S541), the interface device ( 500 detects this and transmits the voice detection result to the content providing device 200 (S542). In this case, if the interface device 500 is always set to the voice detection standby state, problems such as power waste may occur, so that the interface device 500 may switch to the voice detection activated state only when the viewer wants to receive voice recognition service. It is preferable that this is further provided.

전술한 S542 단계에 따라, 콘텐츠 제공장치(200)는 수신한 음성감지결과를 음성정보와 비교분석하여 어떤 객체와 매핑되었는지를 판단하고(S550), 특정 객체와 매핑되었다고 판단되면, 해당 객체와 연결된 부가정보를 추출 및 표시한다(S560). 만약, 매핑된 객체가 없다면 재생중인 동영상을 계속 재생한다. According to the above-described step S542, the content providing device 200 compares the received voice detection result with the voice information to determine which object is mapped (S550), and if it is determined that it is mapped to a specific object, it is connected to the object The additional information is extracted and displayed (S560). If there is no mapped object, the playing video continues to play.

이하, 도면을 참조하여 본 발명의 제2 실시예에 따른 음성인식형 양방향 동영상 제공방법에 대하여 설명한다. 본 발명의 제2 실시예는 데이터 전송에 따른 트래픽의 증가를 감소하기 위한 것으로, 하나의 동영상에 대하여 전체 음성정보를 한번에 수신하는 것이 아닌, 객체선택에 따라 실시간으로 수신하는 특징이 있다. Hereinafter, a voice recognition type interactive video providing method according to a second exemplary embodiment of the present invention will be described with reference to the accompanying drawings. The second embodiment of the present invention is to reduce the increase in traffic due to data transmission, and has a feature of receiving in real time according to object selection instead of receiving all voice information for one video at a time.

도 5는 본 발명의 제2 실시예에 따른 음성인식형 양방향 콘텐츠 제공방법을 도시한 도면이다.FIG. 5 is a diagram illustrating a voice recognition interactive content providing method according to a second embodiment of the present invention.

도시한 바와 같이, 본 발명의 콘텐츠 제공방법은, 동영상 선택단계(S610), 동영상 및 부가정보 수신단계(S620), 동영상 재생단계(S630), 음성감지 및 음성정보 수신단계(S640), 음성판단단계(S650), 부가정보 추출 및 제공단계(S660)를 포함한다.As shown, the content providing method of the present invention, video selection step (S610), video and additional information receiving step (S620), video playback step (S630), voice detection and voice information receiving step (S640), voice judgment In step S650, the additional information extraction and providing step S660 is included.

상세하게는 동영상 선택단계(S610)는, 시청자의 인터페이스 장치 조작에 따라 콘텐츠 제공장치의 IR 수신모듈이 초기화면에서 객체가 매핑된 동영상 선택을 입력받는 단계이다. In detail, the video selection step (S610) is a step in which the IR reception module of the content providing device receives a video selection on which an object is mapped on the initial screen according to the viewer's manipulation of the interface device.

동영상, 음성정보 및 부가정보 수신단계(S620)는, 동영상 제공시스템으로부터 통신모듈이 시청자가 선택한 동영상을 수신하는 단계이다. Receiving a video, voice information and additional information (S620), the communication module receives a video selected by the viewer from the video providing system.

동영상 재생단계(S630)는, 동영상 재생모듈이 디스플레이 장치를 통해 해당 동영상을 재생하는 단계이다.The video playback step S630 is a step in which the video playback module plays the corresponding video through the display device.

음성감지단계(S640)는 동영상 재생 중, 인터페이스 장치가 시청자의 음성을 감지하고, IR 수신모듈이 음성감지 결과 및 음성정보를 수신하는 단계이다. 상세하게는 시청자가 객체선택을 위해 핵심단어를 음성으로 표현하면, 동영상 제공시스템으로부터 이와 연결된 객체를 지칭하는 음역주파수가 정의된 음성정보를 함께 수신하게 된다. 즉, 음성정보는 객체선택에 따라 실시간으로 콘텐츠 제공장치에 로딩된다. The voice detection step S640 is a step in which the interface device detects the viewer's voice while the IR receiving module receives the voice detection result and the voice information while playing the video. In detail, when a viewer expresses a key word by voice for object selection, the viewer receives voice information in which a frequency range defining an object connected thereto is received from the video providing system. That is, the voice information is loaded into the content providing device in real time according to the object selection.

음성판단단계(S650)는 음성처리부의 음성판단모듈이 음성감지 결과에 따라 객체의 지정유무를 판단하는 단계이다. 음성판단모듈은 음성감지 결과의 음역 주파수를 분석하고, 분석된 음역주파수와 상기 음성정보에 정의된 음역주파수의 유사도를 비교하여 상기 유사도가 소정 임계치내로 유사하면 상기 음성정보와 매핑된 객체가 지정된 것이라고 판단한다.The voice judging step S650 is a step in which the voice judging module of the voice processing unit determines whether an object is designated according to the voice detection result. The voice judging module analyzes the sound frequency of the voice detection result and compares the similarity between the analyzed sound frequency and the sound frequency defined in the sound information, and if the similarity is similar within a predetermined threshold, the object mapped with the sound information is designated. To judge.

부가정부 추출 및 제공단계(S660)는 전술한 S650 단계에 따라 객체가 지정된 것이라고 판단되면, 부가정보 추출모듈이 로딩모듈을 참조하여 지정된 객체와 연결된 부가정보를 추출하고, 동영상 재생모듈을 통해 동영상화면상에 표시하는 단계이다.If it is determined that the object is designated according to the above-described step S650, the additional information extracting module extracts additional information associated with the specified object with reference to the loading module, and displays the video screen through the video playing module. It is a step to display on.

전술한 음성인식형 양방향 콘텐츠 제공방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 씨디롬, 램, 롬, 플로피 디스크, 하드 디스크 및 광자기 디스크 등을 포함하는 기록매체에 저장될 수 있다. The aforementioned voice recognition interactive content providing method may be implemented in a program and stored in a recording medium including a computer readable CD-ROM, a RAM, a ROM, a floppy disk, a hard disk, and a magneto-optical disk.

이상에서 본 발명에 대한 기술사상을 첨부도면과 함께 서술하였지만 이는 본 발명의 바람직한 실시예를 예시적으로 설명한 것이지 본 발명을 한정하는 것은 아니다. 또한, 이 기술분야의 통상의 지식을 가진 자라면 누구나 본 발명의 기술사상의 범주를 이탈하지 않는 범위 내에서 다양한 변형 및 모방이 가능함은 명백한 사실이다.The technical spirit of the present invention has been described above with reference to the accompanying drawings, but this is by way of example only and not intended to limit the present invention. In addition, it is a matter of course that various modifications and variations are possible without departing from the scope of the technical idea of the present invention by anyone having ordinary skill in the art.

100 : IPTV 서비스 시스템 120 : 네트워크 장치
200 : 콘텐츠 제공장치 290 : 디스플레이 장치
300 : 동영상 제공시스템   400 : 음성정보 제공장치
500 : 인터페이스 장치
100: IPTV service system 120: network device
200: content providing device 290: display device
300: video providing system 400: voice information providing device
500: interface device

Claims (10)

동영상에 등장하는 객체와 연결된 부가정보를 시청자의 음성인식을 통해 제공하는 방법에 있어서,
(a) 객체가 매핑된 동영상을 선택받는 단계;
(b) 선택받은 상기 동영상, 상기 객체를 식별하는 음역주파수가 정의된 음성정보 및 부가정보를 요청 및 수신하는 단계;
(c) 상기 동영상을 재생하는 단계;
(d) 상기 동영상 재생 중, 시청자의 음성감지 결과를 수신하는 단계; 및,
(e) 상기 음성감지 결과를 상기 음성정보와 비교분석하여 상기 객체를 지정하는 것으로 판단되면 상기 객체와 연결된 부가정보를 추출하여 표시하고, 그렇지 않으면 상기 단계 (c)를 계속 수행하는 단계
를 포함하는 음성인식형 양방향 콘텐츠 제공방법.
In the method for providing additional information associated with the object appearing in the video through the viewer voice recognition,
(a) receiving a video to which the object is mapped;
(b) requesting and receiving the selected video and voice information and additional information in which sound frequency frequencies for identifying the object are defined;
(c) playing the video;
(d) receiving a voice detection result of the viewer during the video playback; And,
(e) extracting and displaying additional information associated with the object if it is determined that the voice detection result is compared with the voice information to designate the object; otherwise, continuing with step (c)
Voice recognition interactive content providing method comprising a.
동영상에 등장하는 객체와 연결된 부가정보를 시청자의 음성인식을 통해 제공하는 방법에 있어서,
(a) 객체가 매핑된 동영상을 선택받는 단계;
(b) 선택받은 상기 동영상 및 부가정보를 요청 및 수신하는 단계;
(c) 상기 동영상을 재생하는 단계;
(d) 상기 동영상 재생 중, 시청자의 음성감지 결과를 수신하면, 상기 객체를 식별하는 음역주파수가 정의된 음성정보를 요청 및 수신하는 단계; 및,
(e) 상기 음성감지 결과를 상기 음성정보와 비교분석하여 상기 객체를 지정하는 것으로 판단되면 상기 객체와 연결된 부가정보를 추출하여 표시하고, 그렇지 않으면 상기 단계 (c)를 계속 수행하는 단계
를 포함하는 음성인식형 양방향 콘텐츠 제공방법.
In the method for providing additional information associated with the object appearing in the video through the viewer voice recognition,
(a) receiving a video to which the object is mapped;
(b) requesting and receiving the selected video and additional information;
(c) playing the video;
(d) requesting and receiving voice information in which sound range frequencies for identifying the object are defined when receiving a voice detection result of the viewer during the playback of the video; And,
(e) extracting and displaying additional information associated with the object if it is determined that the voice detection result is compared with the voice information to designate the object; otherwise, continuing with step (c)
Voice recognition interactive content providing method comprising a.
제 1 항 또는 제 2 항 중 하나의 항에 있어서,
상기 음성정보는 상기 동영상에 등장하는 인물, 배경지역, 음원 및 상품 중  하나에 대한 명칭을 포함하는 것을 특징으로 하는 음성인식형 양방향 콘텐츠 제공방법.
The method according to claim 1 or 2,
And the voice information includes a name of one of a person, a background region, a sound source, and a product appearing in the video.
제 1 항 또는 제 2 항 중 하나의 항에 있어서,
상기 단계 (c)는,
상기 동영상에 등장하는 객체가 음성정보와 매핑되어 있는 경우, 화면상에 알림아이콘을 표시하는 단계
를 더 포함하는 것을 특징으로 하는 음성인식형 양방향 콘텐츠 제공방법.
The method according to claim 1 or 2,
Step (c) is,
Displaying a notification icon on a screen when an object appearing in the video is mapped with voice information;
Voice recognition interactive content providing method further comprising a.
제 1 항 또는 제 2 항 중 하나의 항에 있어서,
상기 단계 (e)는,
(e1) 상기 음성감지 결과의 음역 주파수를 분석하는 단계;
(e2) 분석된 음역주파수와 상기 음성정보에 정의된 음역주파수를 비교하여 유사도를 산출하는 단계; 및,
(e3) 상기 유사도가 소정의 임계치내이면 상기 음성정보와 매핑된 객체가 지정된 것이라고 판단하는 단계
를 포함하는 것을 특징으로 하는 음성인식형 양방향 콘텐츠 제공방법.
The method according to claim 1 or 2,
Step (e),
(e1) analyzing a sound frequency of the voice detection result;
(e2) calculating a similarity by comparing the analyzed sound frequency with the sound frequency defined in the voice information; And,
(e3) determining that an object mapped with the voice information is designated if the similarity is within a predetermined threshold;
Voice recognition interactive content providing method comprising a.
제 5 항에 있어서,
상기 단계 (e3) 이후,
(e4) 상기 단계 (e3)에서 판단된 객체와 연결되는 부가정보를 추출하는 단계를 더 포함하는 것을 특징으로 하는 음성인식형 양방향 콘텐츠 제공방법.
The method of claim 5, wherein
After the above step (e3),
and (e4) extracting additional information connected to the object determined in the step (e3).
제 1 항 또는 제 2 항 중 하나의 항에 있어서,
상기 음성정보는, 상기 객체를 지칭하는 단어 또는 문장에 대한 음역주파수이며,
상기 단어 또는 문장은, 다국어를 포함하는 것을 특징으로 하는 음성인식형 양방향 콘텐츠 제공방법.
The method according to claim 1 or 2,
The voice information is a frequency range of a word or sentence that refers to the object,
The word or sentence, speech recognition interactive content providing method characterized in that it comprises a multi-language.
동영상에 등장하는 객체와 연결된 부가정보를 시청자의 음성인식을 통해 제공하는 장치에 있어서,
인터페이스 장치로부터 객체가 연결된 동영상을 선택받고, 시청자의 음성감지 결과를 수신하는 IR 수신모듈;
상기 IR 수신모듈이 선택받은 상기 동영상에 따라, 상기 동영상, 상기 동영상에 등장하는 객체에 연결된 음성정보 및 부가정보를 수신하는 통신모듈;
상기 통신모듈이 수신한 상기 동영상을 재생하는 동영상 재생모듈; 및,
상기 동영상 재생모듈에 의한 동영상 재생 중, 상기 IR 수신모듈이 수신한 상기 음성감지 결과에 따라, 상기 객체와 연결된 부가정보를 추출하여 표시하는 음성처리부
를 포함하는 음성인식형 양방향 콘텐츠 제공장치.
In the device for providing additional information connected to the object appearing in the video through the voice recognition of the viewer,
An IR receiving module which receives a video connected to an object from an interface device and receives a viewer's voice detection result;
A communication module configured to receive voice information and additional information connected to the video and an object appearing in the video according to the video selected by the IR receiving module;
A video playing module for playing the video received by the communication module; And,
The voice processing unit extracts and displays additional information connected to the object according to the voice detection result received by the IR receiving module during video playback by the video playback module.
Voice recognition interactive content providing device comprising a.
제 8 항에 있어서,
상기 음성처리부는,
상기 음성감지 결과와 상기 음성정보를 비교분석하는 음성판단 모듈;
상기 부가정보를 저장하는 로딩모듈; 및,
상기 음성판단모듈의 판단결과에 따라, 상기 로딩모듈로부터 상기 객체와 연결된 부가정보를 추출하는 부가정보 추출모듈
을 포함하는 것을 특징으로 하는 음성인식형 양방향 콘텐츠 제공장치.
The method of claim 8,
The voice processing unit,
A voice determination module for comparing and analyzing the voice detection result and the voice information;
A loading module for storing the additional information; And,
The additional information extraction module extracts the additional information connected to the object from the loading module according to the determination result of the voice determination module.
Voice recognition interactive content providing device comprising a.
제 9 항에 있어서,
상기 음성판단모듈은, 상기 음성감지 결과의 음역 주파수를 분석하고, 상기 음역주파수와 상기 음성정보에 정의된 음역주파수를 비교하여 유사도를 산출하고  상기 유사도가 소정 임계치내이면 상기 음성정보와 매핑된 객체가 지정된 것으로 판단하는 것을 특징으로 하는 음성인식형 양방향 콘텐츠 제공장치.
The method of claim 9,
The voice determination module analyzes a sound frequency of the voice detection result, compares the sound frequency with a sound frequency defined in the sound information, calculates a similarity, and if the similarity is within a predetermined threshold, the object mapped with the sound information. Voice recognition interactive content providing device, characterized in that determined to be specified.
KR1020100020257A 2010-03-08 2010-03-08 Method and apparatus for providing interactive contents service KR101156036B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100020257A KR101156036B1 (en) 2010-03-08 2010-03-08 Method and apparatus for providing interactive contents service

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100020257A KR101156036B1 (en) 2010-03-08 2010-03-08 Method and apparatus for providing interactive contents service

Publications (2)

Publication Number Publication Date
KR20110101324A true KR20110101324A (en) 2011-09-16
KR101156036B1 KR101156036B1 (en) 2012-06-18

Family

ID=44953362

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100020257A KR101156036B1 (en) 2010-03-08 2010-03-08 Method and apparatus for providing interactive contents service

Country Status (1)

Country Link
KR (1) KR101156036B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180065872A (en) * 2016-12-07 2018-06-18 주식회사 알티캐스트 Method and apparatus for providing interactive screen
KR20190115839A (en) * 2018-04-04 2019-10-14 에스케이텔레콤 주식회사 Method and apparatus for providing services linked to video contents

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100513293B1 (en) * 2002-12-28 2005-09-09 삼성전자주식회사 System and method for broadcast contents using voice input remote control
KR100714007B1 (en) * 2006-02-13 2007-05-04 엘지전자 주식회사 Fusion service apparatus of broadcasting data and method thereof
KR100768653B1 (en) * 2006-05-26 2007-10-18 주식회사 케이티 System and method for the ip-tv service controlling on based the speech recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180065872A (en) * 2016-12-07 2018-06-18 주식회사 알티캐스트 Method and apparatus for providing interactive screen
KR20190115839A (en) * 2018-04-04 2019-10-14 에스케이텔레콤 주식회사 Method and apparatus for providing services linked to video contents

Also Published As

Publication number Publication date
KR101156036B1 (en) 2012-06-18

Similar Documents

Publication Publication Date Title
US11594028B2 (en) Video processing for enabling sports highlights generation
CN106796496B (en) Display apparatus and method of operating the same
KR102166423B1 (en) Display device, server and method of controlling the display device
KR102128359B1 (en) Using an audio stream to identify metadata associated with a currently playing television program
US9721564B2 (en) Systems and methods for performing ASR in the presence of heterographs
US9131280B2 (en) Customizing the display of information by parsing descriptive closed caption data
US11227620B2 (en) Information processing apparatus and information processing method
US8745683B1 (en) Methods, devices, and mediums associated with supplementary audio information
US8453179B2 (en) Linking real time media context to related applications and services
US8949123B2 (en) Display apparatus and voice conversion method thereof
US11533542B2 (en) Apparatus, systems and methods for provision of contextual content
US8000578B2 (en) Method, system, and medium for providing broadcasting service using home server and mobile phone
KR20150084520A (en) Display apparatus, interative server and method for providing response information
JP6202815B2 (en) Character recognition device, character recognition method, and character recognition program
US9392206B2 (en) Methods and systems for providing auxiliary viewing options
JP2011164681A (en) Device, method and program for inputting character and computer-readable recording medium recording the same
KR101156036B1 (en) Method and apparatus for providing interactive contents service
KR20200008341A (en) Media play device and method for controlling screen and server for analyzing screen
KR101962126B1 (en) Multimedia device for accessing database according to result of voice recognition and method for controlling the same
CN113170228A (en) Audio processing for extracting variable length disjoint segments from audiovisual content
US11868399B2 (en) System and methods for resolving query related to content
KR102292552B1 (en) Video synchronization system to improve viewing rights for the disabled
JP7229906B2 (en) Command controller, control method and control program
KR102544612B1 (en) Method and apparatus for providing services linked to video contents
US20230403430A1 (en) Speaker-Identification Model for Controlling Operation of a Media Player

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150608

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160607

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170605

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180605

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190605

Year of fee payment: 8