WO2013015546A2 - 방송콘텐츠의 부가정보 제공 방법 및 그 시스템 - Google Patents

방송콘텐츠의 부가정보 제공 방법 및 그 시스템 Download PDF

Info

Publication number
WO2013015546A2
WO2013015546A2 PCT/KR2012/005468 KR2012005468W WO2013015546A2 WO 2013015546 A2 WO2013015546 A2 WO 2013015546A2 KR 2012005468 W KR2012005468 W KR 2012005468W WO 2013015546 A2 WO2013015546 A2 WO 2013015546A2
Authority
WO
WIPO (PCT)
Prior art keywords
voice feature
additional information
information
broadcast content
feature data
Prior art date
Application number
PCT/KR2012/005468
Other languages
English (en)
French (fr)
Other versions
WO2013015546A3 (ko
Inventor
조영봉
김도형
Original Assignee
주식회사 아이플래테아코리아
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아이플래테아코리아 filed Critical 주식회사 아이플래테아코리아
Priority to EP12817169.1A priority Critical patent/EP2739060A4/en
Priority to US14/129,968 priority patent/US9301006B2/en
Priority to CN201280034697.3A priority patent/CN103748887B/zh
Publication of WO2013015546A2 publication Critical patent/WO2013015546A2/ko
Publication of WO2013015546A3 publication Critical patent/WO2013015546A3/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/254Management at additional data server, e.g. shopping server, rights management server
    • H04N21/2542Management at additional data server, e.g. shopping server, rights management server for selling goods, e.g. TV shopping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4126The peripheral being portable, e.g. PDAs or mobile phones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41407Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43079Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of additional data with content streams on multiple devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/47815Electronic shopping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/61Network physical structure; Signal processing
    • H04N21/6106Network physical structure; Signal processing specially adapted to the downstream path of the transmission network
    • H04N21/6125Network physical structure; Signal processing specially adapted to the downstream path of the transmission network involving transmission via Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/61Network physical structure; Signal processing
    • H04N21/6156Network physical structure; Signal processing specially adapted to the upstream path of the transmission network
    • H04N21/6187Network physical structure; Signal processing specially adapted to the upstream path of the transmission network involving transmission via a telephone network, e.g. POTS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages

Definitions

  • the present invention relates to a method and system for providing additional information of broadcast content, and more particularly, to a method and system for providing additional information corresponding to broadcast content displayed through a television to a separate viewer terminal.
  • T-commerce in which electronic commerce is implemented through a television as a medium, is commercially available, and additional information on various goods, places, and the like exposed through broadcast contents is provided to viewers in real time. That is, the viewer may purchase various goods or perform financial services through the television, and may recognize information about a product, a place, and the like, which are exposed in the broadcast content being viewed in real time. For example, a viewer may purchase a desired product by using an Internet television, and may directly access a uniform resource locator (URL) provided with broadcast content using a DMB receiver to obtain desired information.
  • URL uniform resource locator
  • the additional information is output to overlap with the image of the broadcast content being displayed, so that there is a problem of hindering the viewer's viewing environment. Since the additional information is output on the image displayed through a television or a DMB receiver, a part of the displayed image is obscured.
  • the device for displaying the broadcast content (for example, a personal computer or a mobile terminal) runs software such as a web browser to view the viewer.
  • the environment is interrupted.
  • the display screen may be split and the broadcast content display screen and the web page access screen may be displayed at the same time.
  • the video content of the broadcast content is reduced and the viewer's viewing environment is still hindered.
  • tee-commerce means electronic commerce using a television and / or DMB receiver, because when the viewer wants to use electronic commerce through a television or the like, the viewing environment of the viewer is inevitably interrupted.
  • Internet TV Internet TV
  • a device eg, a television, a desktop computer, etc.
  • a viewer watches broadcast content and a device providing additional information need to be separated, and the broadcast content and the additional information are synchronized for the separation. Should be.
  • the related art is a method of transmitting and receiving broadcasts such that the same time is maintained using a GPS clock only in real time broadcasting (US Pat. No. 7,673,316).
  • the related art has no disadvantage in that it does not automatically find out what content the viewer is currently watching and cannot be applied to content such as video on demand or DVD. That is, the related art has a problem that the present technology is applicable only to broadcast content currently provided by a broadcaster (CP).
  • CP broadcaster
  • a server receives voice information of a content that a viewer is watching, and determines a temporal position of the received voice information (eg, audio fingerprint) in the corresponding content. For example, there is a method of detecting additional information corresponding to the determined temporal position and transmitting the additional information to the terminal of the viewer (US Patent Publication No. US2011 / 0063503).
  • another related art uses the voice information received from the remote server to search for the temporal position of the voice information, so that whether the viewer has changed the viewing content (ie, moving the channel or skipping the play time) is determined. Since the viewer terminal and the server must periodically communicate with each other to find out, the network bandwidth is consumed and a load is placed on the server.
  • network bandwidth consumption and / or load on the server can be reduced, but a new problem arises in that it cannot respond sensitively to changes in viewing content of viewers.
  • the present invention is to provide a method and system for providing additional information of broadcast content that can transmit additional information on content that a viewer is watching to a terminal separate from the terminal on which the content is displayed.
  • the present invention is to provide a method and system for providing additional information of broadcast content that can automatically find out what content the viewer is watching.
  • the present invention is to provide a method and system for providing additional information of broadcast content that can minimize the load on the system and minimize network bandwidth consumption.
  • the audio feature data of the broadcast content is extracted and grouped in a predetermined unit. Storing the information in the provided storage space; And detecting the voice feature information corresponding to the voice feature data received from the viewer terminal among one or more stored voice feature information and transmitting the detected voice feature information to the viewer terminal, wherein the viewer terminal is preset in the input audio signal. Extracting the voice feature data and transmitting the extracted voice feature data to the voice feature extraction server, determining a temporal location corresponding to the voice feature data from the received voice feature information, and displaying additional information corresponding to the temporal location.
  • a method of providing additional information of a broadcast content is provided.
  • the method of providing additional information of the broadcast content may further include transmitting the additional information corresponding to the voice feature information to the viewer terminal.
  • the method may further include transmitting the corresponding additional information to the viewer terminal when the additional information request is received from the viewer terminal, wherein the viewer terminal has information about the temporal position.
  • the additional information request including a may be transmitted, and when the additional information is received in response to the additional information request, the additional information corresponding to the temporal position may be displayed.
  • the extracting and grouping the audio feature data of the broadcast content into a preset unit may include grouping the audio feature data of the broadcast content into a predetermined time unit or a capacity unit.
  • the voice feature is extracted from the input audio signal according to a preset method and connected through a data communication network. Transmitting to the extraction server; Determining an n th temporal position corresponding to the n th voice feature data from the n th voice feature information received corresponding to the n th voice feature data; And displaying additional information corresponding to the n th temporal position, wherein n is a natural number, and the voice feature extraction server extracts audio feature data of the broadcast content and groups the feature information in a predetermined unit.
  • a method for providing additional information of broadcast content characterized in that for detecting and transmitting the n-th voice feature information corresponding to the n-th voice feature data.
  • the displaying of the additional information may include transmitting an additional information request including information about the nth temporal location to the voice feature extraction server; Receiving the additional information from the voice feature extraction server in response to the additional information request; And displaying additional information corresponding to the n th temporal position.
  • the voice feature extraction server may transmit the additional information corresponding to the n th temporal position when the additional information request is received.
  • the method may further include receiving the additional information corresponding to the nth voice feature information from the voice feature extraction server.
  • the method for providing additional information of the broadcast content may include extracting n + 1 th voice feature data when a preset event occurs; Detecting n + 1 th voice feature information corresponding to the n th +1 th voice feature data among one or more previously stored voice feature information; Determining an n + 1 th temporal position corresponding to the n + 1 th voice characteristic data from the n th +1 th voice characteristic information; And displaying additional information corresponding to the n + 1 th temporal position.
  • the method may further include extracting the n + 1 th voice feature data from the n + 1 th voice feature data if the voice feature information corresponding to the n th +1 th voice feature data is not found among one or more pre-stored voice feature information. Transmitting to a server; And receiving the n + 1 th voice feature information from the voice feature extraction server in response to the n th +1 th voice feature data.
  • the extracting of the n + 1 th voice feature data may include extracting the n + 1 th voice feature data when a predetermined time elapses.
  • a computer-readable recording medium having recorded thereon a program for executing the above-described method for providing additional information of broadcast content on a computer.
  • the viewer may transmit additional information about the content being watched to a terminal separate from the terminal on which the content is displayed.
  • FIG. 1 is a schematic configuration diagram of a system for providing additional information according to an embodiment of the present invention.
  • FIG. 2 is a block diagram of a voice feature extraction server according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating an embodiment of an image of broadcast content being displayed through a television.
  • FIG. 4 is a diagram illustrating a case where additional information is displayed on a television by a conventional technology.
  • FIG. 5 is a diagram illustrating a case in which additional information is displayed through a viewer terminal according to an embodiment of the present invention.
  • FIG. 6 is a flowchart illustrating a method of storing voice feature information of broadcast content in a voice feature extraction server according to an embodiment of the present invention.
  • FIG. 7 is a flowchart illustrating a method for providing additional information of broadcast content according to an embodiment of the present invention.
  • FIG. 8 is a flowchart illustrating a method for providing additional information of broadcast contents according to another embodiment of the present invention.
  • first and second may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another.
  • FIG. 1 is a schematic configuration diagram of a system for providing additional information according to an embodiment of the present invention.
  • the additional information providing system 100 includes an additional information providing system 100, a broadcasting providing apparatus 110, a broadcasting communication network 120, a television 130, a voice feature extraction server 140, and a smart phone. And a viewer terminal (hereinafter, referred to collectively as 150-m, where m is a natural number), a data communication network 160, and a web server 170 (150-1).
  • the additional information providing system 100 may further include a radio (not shown).
  • the broadcast providing device 110 is a television 130, radio (not shown) and / or voice feature extraction server 140 using the broadcast communication network 120, such as satellite, terrestrial, Internet or cable to broadcast content Send it out.
  • the broadcast content refers to voice and / or video distributed through broadcast media such as satellite, terrestrial wave, and cable
  • the broadcast communication network 120 includes a broadcast content in the broadcast providing device 110 such as a television 130 and a radio ( (Not shown) and / or means a network to be transmitted to the voice feature extraction server 140.
  • the television 130 and the radio convert the received broadcast content into video and / or audio so that the viewer can recognize the broadcast content visually and / or audibly.
  • the voice feature extraction server 140 extracts the audio feature data of the broadcast content and stores it in a storage space having the voice feature information grouped in predetermined units.
  • the voice feature extraction server 140 may receive broadcast content from the broadcast providing device 110.
  • the voice feature extraction server 140 may receive broadcast content through an external data input / output device (eg, CD player, USB port, etc.).
  • an external data input / output device eg, CD player, USB port, etc.
  • a detailed description of the operation of generating voice feature information will be given later.
  • the voice feature extraction server 140 detects the voice feature information corresponding to the voice feature data received from the viewer terminal 150-m among the one or more voice feature information stored in the storage space to the viewer terminal 150-m. send.
  • the voice feature extraction server 140 transmits additional information corresponding to the broadcast content output from the television 130 and the radio (not shown) to the viewer terminal 150-m through the data communication network 160.
  • the data communication network 160 is a communication network capable of providing data to the viewer terminal 150-m, and includes the Internet, a mobile network, an intranet, and the like.
  • the viewer terminal 150-m When the viewer terminal 150-m starts to operate as an additional information receiving mode according to a viewer's operation, the viewer terminal 150-m generates voice feature data according to a preset method from an input audio signal to the voice feature extraction server 140. send. In addition, the viewer terminal 150-m analyzes the voice feature information in response to the transmission of the voice feature data, and analyzes the voice feature information to determine a temporal position corresponding to the voice feature data in the viewer. You can determine which part of the video you are watching. Here, a detailed description of the generation method of the voice feature data and the above-described temporal position determination will be described later.
  • the viewer terminal 150-m may display it in synchronization with the currently displayed screen. Accordingly, the viewer can recognize in real time the additional information about the broadcast content that he is currently watching.
  • the viewer terminal 150-m may be a smartphone, a mobile phone, a tablet computer, a PDA, a personal digital assistant, a personal computer, or the like. It may be a device.
  • the additional information may be data including information related to the broadcast content, such as information on the broadcast content itself, information on a product used by the performer, information on a shooting location, and a web page address related to the broadcast content.
  • the web server 170 is a server that provides data corresponding to the request of the viewer terminal 150.
  • the additional information received from the voice feature extraction server 140 includes the address of the web server 170, and the viewer terminal 150-m has the address of the web server 170 according to the viewer's selection. Assume that you are connected to.
  • the web server 170 may transmit the data stored in advance to the viewer terminal (150-m).
  • the voice feature extraction server 140 extracts the audio feature data of the broadcast content received from the broadcast providing apparatus 110 and stores the grouped in a predetermined unit, and then stores the viewer terminal 150-m. Voice feature information corresponding to the voice feature data received from the mobile station is detected and transmitted to the viewer terminal 150-m. In addition, the voice feature extraction server 140 may transmit additional information corresponding to the voice feature information to the viewer terminal 150-m.
  • the viewer terminal 150-m may analyze the voice feature information to determine what part of the broadcast content the viewer is currently watching, and output corresponding additional information.
  • the device for outputting the broadcast content and the device for outputting the additional information can be separated from each other, and the viewer can easily use the additional information without interrupting or inhibiting the broadcast content viewing environment.
  • operations of the voice feature extraction server 140 and the viewer terminal 150-m will be described in detail with reference to FIGS. 2 and 3.
  • FIG. 2 is a block diagram of a voice feature extraction server according to an embodiment of the present invention.
  • the voice feature extraction server 140 includes a broadcast content receiver 210, a voice voice feature information extractor 220, a database unit 230, and a server communication unit 250.
  • a broadcast content receiver 210 receives broadcast content from the voice feature extraction server 140 and transmits data with an external device or storage medium.
  • a voice voice feature information extractor 220 extracts voice features from the voice feature information extractor 220 and a database unit 230.
  • a server communication unit 250 may further include an external input / output unit (eg, CD player, USB port, etc.) (not shown) for transmitting and receiving data with an external device or storage medium.
  • an external input / output unit eg, CD player, USB port, etc.
  • the broadcast content receiver 210 receives broadcast content from the broadcast providing device 110 connected through the broadcast communication network 120 and outputs it to the voice feature information extracting unit 220.
  • the broadcast content receiver 210 may include a set top box, and the set top box may be provided as many as the number of broadcast channels through which broadcast content is transmitted. For example, assuming that there are currently 100 broadcasting channels (that is, the number of providers (PP, Program Provider, eg, CNN, NBC, etc.) providing broadcast contents is 100), the broadcast content receiver 210 ) May include 100 set top boxes.
  • the broadcast content may be input through an external input / output unit (not shown).
  • the voice feature information extracting unit 220 extracts the voice feature information according to a preset method using the input broadcast content. That is, the voice feature information extracting unit 220 may extract audio feature data of the broadcast content, group it in a predetermined unit, and extract voice feature information.
  • the voice feature information extractor 220 extracts information (eg, audio feature data) about voice frequency components of the broadcast content according to a preset method, and groups the extracted information by a predetermined time unit. Voice feature information can be generated. In other words, it is assumed that the running time of the broadcast content is 60 minutes and the preset time is 10 minutes. In this case, the voice feature information extracting unit 220 may extract audio feature data of the broadcast content to generate a total of six voice feature information. In addition, each of the voice feature information may be feature information on the voice of the broadcast content corresponding to 10 minutes.
  • information eg, audio feature data
  • the voice feature information extracting unit 220 may extract audio feature data of the broadcast content to generate a total of six voice feature information.
  • each of the voice feature information may be feature information on the voice of the broadcast content corresponding to 10 minutes.
  • the voice feature information extractor 220 may extract the audio feature data of the broadcast content according to a preset method, and generate the voice feature information by grouping the extracted information by a predetermined capacity unit.
  • the capacity of the audio feature data for the entire broadcast content is 300 [KB] and the preset time is 50 [KB].
  • the voice feature information extractor 220 may generate audio feature data of six pieces by extracting audio feature data of the broadcast content.
  • the audio feature data may be an audio fingerprint
  • a technique for extracting the audio fingerprint from the voice of broadcast content is obvious to those skilled in the art, and thus description thereof will be omitted.
  • the database 230 stores voice feature information extracted by the voice feature information extractor 220 and additional information matching each voice feature information.
  • the additional information may be stored in the database unit 230 according to the operator of the voice feature extraction server 140. That is, the additional information is not included in the broadcast content and received by the voice feature extraction server 140, but may be information input and stored through a method separate from reception of the broadcast content.
  • the additional information may be information generated by an operator of the voice feature extraction server 140 by operating an input unit (for example, a keyboard or a mouse) connected to the voice feature extraction server 140.
  • the additional information may be information received from another device through the Internet, a local area network, or the like.
  • the additional information is described as matching each voice feature information, but this is merely an example. Therefore, the additional information may be matched to the entire broadcast content. That is, the additional information may include only information on the broadcast content displayed for a time corresponding to the matched voice feature information, or may include all the information on the entire broadcast content.
  • the server communication unit 240 includes a modem connected to the viewer terminal 150-m and the data communication network 160 to transmit and receive various types of data with the viewer terminal 150-m.
  • the voice feature extraction server 140 extracts audio feature data of the broadcast content, groups the voice feature data in a predetermined unit (ie, time and / or capacity unit) to generate voice feature information, and generates the generated voice feature information.
  • the data is stored in the database unit 230.
  • the viewer terminal 150-m synchronizes the broadcast content being watched by the viewer with additional information using the voice feature information received by the voice feature extraction server 140 will be described in detail.
  • the viewer terminal 150-m may extract the n th voice feature data from the audio signal input for a preset time through the provided microphone.
  • the voice data may be generated and transmitted to the voice feature extraction server 140 (where n is a natural number).
  • the voice feature data may be an audio fingerprint, and a technique for extracting the audio fingerprint from the voice of broadcast content is obvious to those skilled in the art, and thus description thereof will be omitted.
  • the n th voice feature data refers to the n th generated voice feature data.
  • the voice feature extraction server 140 detects n-th voice feature information corresponding to the received n-th voice feature data among one or more voice feature information stored in the database unit 230, and the viewer terminal. Transfer to (150-m). At this time, the voice feature extraction server 140 may transmit additional information matching the detected n-th voice feature information to the viewer terminal 150-m.
  • the n-th voice feature information is grouped in units of 10 minutes, the data capacity of the audio finger print corresponding to 10 minutes of audio is generally about 50 [KB], so that bandwidth consumption of the data communication network 160 is almost reduced. Will not occur.
  • the n th voice feature information means voice feature information including a 'part' corresponding to the n th voice feature data.
  • the viewer terminal 150-m determines the n-th temporal position corresponding to the n-th voice feature data from the n-th voice feature information.
  • the temporal position means a temporal position corresponding to the voice feature data in the voice feature information.
  • the n-th audio feature information is grouped by 10 minutes and corresponds to a running time of 1 second to 10 minutes of the broadcast content that the viewer is watching.
  • the n-th voice feature data corresponds to 5 minutes of the n-th voice feature information.
  • the viewer terminal 150-m may determine the temporal position of the portion corresponding to the n th voice feature data in the n th voice feature information by comparing the n th voice feature information and the n th voice feature data.
  • the viewer terminal 150-m may determine whether the received n-th voice feature information is voice feature information of a portion from 1 second to 10 minutes of the running time of the broadcast content being watched. By comparing the voice feature information and the n-th voice feature data, it may be determined that the m-th voice feature data is voice feature data for 5 minutes of the running time of the broadcast content being viewed. Thus, in the above example, the nth temporal position will correspond to 5 minutes.
  • the viewer terminal 150-m may display additional information corresponding to the determined n th temporal position.
  • the additional information may be received by the viewer terminal 150-m together with the n th voice feature information, and the voice feature extracts the additional information corresponding to the n th temporal position determined by the viewer terminal 150-m. It may be requested by the server 140 and received. That is, the viewer terminal 150-m receives the additional information together with the n th voice feature information or determines the n th temporal position and requests the additional information corresponding to the n th temporal position to the voice feature extraction server 140 for reception. You may.
  • the voice feature extraction server 140 receives additional information corresponding to the n th temporal position from the database unit 230 among the additional information corresponding to the n th voice feature information. It may be read and transmitted to the viewer terminal 150-m.
  • the viewer terminal 150-m may display the additional information in consideration of the elapsed time until the nth voice feature data is generated and the nth temporal position is determined. . That is, when the n th voice feature data is generated and the time elapsed until the n th temporal position is determined is '2 seconds', the viewer terminal 150-m corresponds to the 'n' th temporal position '5 minutes'. The additional information corresponding to '5 minutes 2 seconds' may be displayed instead of the additional information.
  • the viewer terminal 150-m extracts the n th voice feature data and then extracts the n + 1 th voice feature data when a preset event occurs.
  • the viewer terminal 150-m may extract the n + 1 th voice feature data from the audio signal input through the microphone when a predetermined time elapses after the n th voice feature data is extracted.
  • the viewer terminal 150-m may input the n + 1 th voice characteristic data from an audio signal input through a microphone when a viewer's input unit (eg, touch pad, keypad, etc.) (not shown) is input. Can be extracted.
  • a viewer's input unit eg, touch pad, keypad, etc.
  • the viewer terminal 150-m compares the extracted n + 1 th voice feature data with one or more pre-stored voice feature information to determine the n + 1 th temporal position.
  • the operation of determining the n + 1 th temporal position by the viewer terminal 150-m may be the same as or similar to the operation of determining the n th temporal position described above. That is, the viewer terminal 150-m may store the received voice feature information, and if a predetermined event occurs later, the n + 1 voice feature data is extracted and prestored one or more voice feature information and n ++.
  • the voice characteristic data may be compared to determine the n + 1 th temporal position (that is, the running time of the broadcast content at the time when the n + 1 th voice characteristic data is generated).
  • the viewer terminal 150-m displays additional information corresponding to the determined n + 1 th temporal position.
  • the additional information corresponding to the n + 1 th temporal position is received from the voice feature extraction server 140 and stored in the viewer terminal 150-m, or the viewer terminal 150-m corresponds to the n + 1 th temporal position.
  • the additional information request may be transmitted to the voice feature extraction server 140 for reception.
  • the viewer terminal 150-m transmits the n + 1 th voice feature data to the voice feature extraction server 140.
  • the voice feature extraction server 140 reads the n + 1 th voice feature information corresponding to the n th +1 th voice feature data from the database unit 230 to display the viewer terminal 150. -m). Thereafter, the viewer terminal 150-m may determine the n + 1 th temporal position by using the received n + 1 th voice feature information and display the corresponding additional information.
  • the voice feature extraction server 140 in the additional information providing system 100 of the broadcast content detects only the n th voice feature information corresponding to the n th voice feature data and the viewer terminal 150-. m), the viewer terminal 150-m determines the nth temporal position and displays additional information in synchronization with the broadcast content that the viewer is watching.
  • the n th temporal position determination operation performed by the viewer terminal 150-m is an operation for finding the position of the n th voice feature data, and is an operation having a very heavy load to be performed by the voice feature extraction server 140. This is because a large amount of voice feature information is stored in the database unit 230 of the voice feature extraction server 140, and voice feature data is received from most viewer terminals 150-m.
  • the viewer terminal 150-m performs an operation for determining the nth temporal position, thereby reducing the load on the voice feature extraction server 140.
  • network bandwidth consumption may be minimized. This is because the voice feature extraction server 140 receives the voice feature data of the low capacity from the viewer terminal 150-m and transmits the voice feature information of the low capacity to the viewer terminal 150-m correspondingly.
  • the audio finger print corresponding to the voice feature data and the audio finger print corresponding to the voice feature information may be different from each other. This is because the method of extracting the audiofingerprint from the voice may vary. In this case, since different audio fingerprints are used, a plurality of voice feature information generated by different methods will be stored in the database unit 230 of the voice feature extraction server 140. That is, the voice feature extraction server 140 may generate a plurality of audio feature data according to a plurality of audio finger print generation methods for one broadcast content. For example, the voice feature extraction server 140 may generate audio feature data for one broadcast content according to the first audio finger print generation method and the second audio finger print generation method, respectively.
  • voice feature data is generated according to a first audio finger print generation method (hereinafter referred to as a first method) and a second audio finger print generation method (hereinafter referred to as a second method), respectively. It is assumed that the voice feature data generated according to the method is transmitted to the voice feature extraction server 140. At this time, the voice feature extraction server 140 detects voice feature information corresponding to the received voice feature data among the voice feature information generated according to the first method, and detects the voice feature information generated by the second method. Read the voice feature information corresponding to the " voice feature information " and transmit the " read voice feature information " to the viewer terminal 150-m. Thereafter, when the viewer terminal 150-m receives the voice feature information, the viewer terminal 150-m may determine the temporal position by comparing the voice feature data generated according to the second method with the received voice feature information.
  • a first method hereinafter referred to as a first method
  • a second audio finger print generation method hereinafter referred to as a second method
  • an audio finger print generation method suitable for detecting voice feature information corresponding to the voice feature data and an audio finger print generation method suitable for determining an accurate temporal position corresponding to the voice feature data among the voice feature information may be different from each other. to be.
  • the voice feature extraction server 140 for convenience of understanding and explanation.
  • the additional information may be stored in another server and / or device in addition to the voice feature extraction server 140. Can be. Therefore, it is apparent that the server and / or the device storing the additional information does not limit the scope of the present invention.
  • FIG. 3 is a diagram illustrating an embodiment of an image of broadcast content displayed on a television.
  • FIG. 4 is a diagram illustrating a case in which additional information is displayed on a television according to a conventional technology. According to an embodiment of the present invention is a diagram illustrating a case in which the additional information is displayed through the viewer terminal.
  • a broadcast content corresponding to news is displayed on the television 130, and the content of the news is about a new product of Nike.
  • the remote control 440 is a device designed to change the channel of the television, so There is a problem that a user interface (UI) for using additional information is not suitable.
  • UI user interface
  • the device displaying the additional information is different from the device displaying the broadcasting content, it is obvious that the use of the additional information does not impair the viewing environment of the viewer and furthermore, the activation of the tee-commerce is possible.
  • FIG. 6 is a flowchart illustrating a method of storing voice feature information of broadcast content in a voice feature extraction server according to an embodiment of the present invention.
  • each step to be described below may be steps performed by each component of the voice feature extraction server 140 described with reference to FIG. 2, but is performed by the voice feature extraction server 140 for convenience of understanding and description. It will collectively explain. Therefore, the subject performing the steps described below can be omitted.
  • step S610 when the broadcast content is received from the broadcast providing device 110 connected through the broadcast communication network 120, or when the broadcast content is input through an external I / O unit (not shown), audio feature data of the broadcast content is extracted,
  • the voice feature information is extracted by grouping it in a predetermined unit (step S620).
  • the voice feature extraction server 140 extracts information (eg, audio feature data) about voice frequency components of the broadcast content according to a preset method, and groups the extracted information by a predetermined unit of time. Feature information can be generated.
  • the voice feature information extractor 220 may extract the audio feature data of the broadcast content according to a preset method, and generate the voice feature information by grouping the extracted information by a predetermined capacity unit.
  • the audio feature data may be an audio fingerprint, and a technique for extracting the audio fingerprint from the voice of broadcast content is obvious to those skilled in the art, and thus description thereof will be omitted.
  • the extracted voice feature information is stored in a storage space (ie, the database unit 230).
  • the additional information corresponding to the broadcast content is stored in the storage space provided.
  • the additional information may be stored in the database unit 230 according to the operation of the operator of the voice feature extraction server 140. That is, the additional information may be information received through a method separate from the reception of broadcast content that is not included in the broadcast content and received by the voice feature extraction server 140.
  • the additional information may be additional information matched with each of the grouped voice feature information, or may include information including all information about the entire broadcast content.
  • FIG. 7 is a flowchart illustrating a method for providing additional information of broadcast content according to an embodiment of the present invention.
  • each step to be described below may be steps performed by each component of the voice feature extraction server 140 and the viewer terminal 150-m described with reference to FIGS. 1 and 2, but for convenience of understanding and description. In order to collectively described as being performed in the voice feature extraction server 140 or the viewer terminal 150-m. In addition, each step to be described below may be an operation performed after the method for storing feature information of the broadcast content described with reference to FIG. 6 is performed.
  • the viewer terminal 150-m when the viewer terminal 150-m starts to operate in the additional information receiving mode according to the viewer's operation, the viewer terminal 150-m extracts and transmits the n th voice feature data according to a preset method from the audio signal input through the microphone (Ste S720).
  • the audio feature data may be an audio fingerprint, and a technique for extracting the audio fingerprint from the voice of broadcast content is obvious to those skilled in the art, and thus description thereof will be omitted.
  • the voice feature extraction server 140 detects n th voice feature information corresponding to the received n th voice feature data. That is, the voice feature extraction server 140 compares the received n-th voice feature data with one or more voice feature information previously stored in the database unit 230 to obtain n-th voice feature information corresponding to the n-th voice feature data. Can be detected.
  • the voice feature extraction server 140 transmits the detected m th voice feature information to the viewer terminal 150-m.
  • the viewer terminal 150-m determines the nth temporal position using the received n th voice feature information and the n th voice feature data. That is, the viewer terminal 150-m determines the n th temporal position corresponding to the n th voice feature data from the n th voice feature information.
  • the temporal position means a temporal position corresponding to the voice feature data in the voice feature information.
  • the n th voice feature information is grouped in units of 10 minutes and corresponds to a running time of 1 second to 10 minutes of the broadcast content that the viewer is watching.
  • the n-th voice feature data corresponds to 5 minutes of the n-th voice feature information.
  • the viewer terminal 150-m may determine the temporal position of the portion corresponding to the n th voice feature data in the n th voice feature information by comparing the n th voice feature information and the n th voice feature data. That is, in the above-described example, the viewer terminal 150-m may determine whether the received n th voice feature information is voice feature information for a part from 1 second to 10 minutes of the running time of the broadcast content being viewed, By comparing the voice feature information and the n-th voice feature data, it may be determined that the m-th voice feature data is voice feature data for 5 minutes of the running time of the broadcast content being viewed. Thus, in the above example, the nth temporal position will correspond to 5 minutes.
  • step S760 the viewer terminal 150-m transmits the additional information request for additional information corresponding to the nth temporal position to the voice feature extraction server 140, and the voice feature extraction server 140 requests the additional information. If received, the additional information corresponding to the nth temporal position is detected by the database unit 230 and transmitted to the viewer terminal 150-m (step S770).
  • the viewer terminal 150-m displays the additional information corresponding to the nth temporal position.
  • the viewer terminal 150-m may display additional information in consideration of the elapsed time until the n th voice feature data is generated and the n th temporal position is determined.
  • FIG. 8 is a flowchart illustrating a method of providing additional information of broadcast content according to another embodiment of the present invention.
  • FIG. 8 a method of providing additional information of broadcast content according to another embodiment of the present invention will be described with reference to FIG. 8.
  • Each step to be described below may be steps performed by the viewer terminal 150-m described with reference to FIG. 1. Therefore, the subject performing the steps described below will be omitted.
  • step S810 when a preset event occurs, the n + 1 th voice feature data is extracted (step S820).
  • the viewer terminal 150-m may extract the n + 1 th voice feature data from the audio signal input through the microphone when a predetermined time elapses after the n th voice feature data is extracted.
  • the viewer terminal 150-m may input the n + 1 th voice characteristic data from an audio signal input through a microphone when a viewer's input unit (eg, touch pad, keypad, etc.) (not shown) is input. Can be extracted.
  • a viewer's input unit eg, touch pad, keypad, etc.
  • step S830 the extracted n + 1 th voice feature data is compared with one or more pre-stored voice feature information to determine an n + 1 th temporal position.
  • the operation of determining the n + 1 th temporal position by the viewer terminal 150-m may be the same as or similar to the operation of determining the n th temporal position described above. That is, the viewer terminal 150-m may store the received voice feature information, and if a predetermined event occurs later, the n + 1 voice feature data is extracted and prestored one or more voice feature information and n ++.
  • the voice characteristic data may be compared to determine the n + 1 th temporal position (that is, the running time of the broadcast content at the time when the n + 1 th voice characteristic data is generated).
  • step S840 if the n + 1 th temporal position can be determined, additional information corresponding to the determined n + 1 th temporal position is displayed (step S850).
  • the additional information corresponding to the n + 1 th temporal position is received from the voice feature extraction server 140 and stored in the viewer terminal 150-m, or the viewer terminal 150-m corresponds to the n + 1 th temporal position.
  • the additional information request may be transmitted to the voice feature extraction server 140 for reception.
  • step S840 if it is determined in step S840 that the n + 1 temporal position is not determined, the n + 1 th voice feature data is transmitted to the voice feature extraction server 140 (step S860). This is because the case where the n + 1 th temporal position is not determined is that the voice feature information corresponding to the n + 1 th voice feature data is not stored in the viewer terminal 150-m.
  • the voice feature extraction server 140 reads the n + 1 th voice feature information corresponding to the n + 1 th voice feature data from the database unit 230 to display the viewer. Transmitting to the terminal 150-m, the viewer terminal 150-m may determine the n + 1 th temporal position using the received n + 1 th voice feature information to display additional information (that is, described above). One step below S730).
  • the voice feature extraction server 140 transfers a portion (ie, voice feature information) of the audio feature data corresponding to the broadcast content that the viewer is watching or listening to the viewer terminal 150-m.
  • the viewer terminal 150-m may determine a temporal position corresponding to the voice feature data from the received voice feature information, and may synchronize the display to the broadcast content that the viewer is watching or listening to.
  • the device on which the broadcast content is displayed and the device on which the additional information is displayed are different from each other, even when the viewer uses the additional information, the viewing environment of the broadcast content may not be impaired or interrupted.
  • the device on which the additional information is displayed may be a smartphone, a tablet computer, or the like, which can be easily manipulated by the viewer, the T-commerce can be activated. When viewers touch the smartphone's touchpad to access web pages displayed as additional information, the viewing environment of the broadcast content is not impeded or interrupted, so that the viewer can smoothly watch the broadcast content and use the additional information widely. to be.
  • a viewer uses broadcast content in which a new song of a singer A is introduced through a radio (not shown).
  • the viewer can obtain information on the new song (for example, composer, songwriter, song lyrics, etc.) in real time using his smart phone 150-1, and further, can immediately purchase the new song.
  • Web pages can be accessed by simple touchpad operation.
  • a viewer uses broadcast content for an advertisement of a product B through the television 130.
  • the viewer can obtain information about the product (for example, price, features, purchase event, etc.) in real time using his or her tablet computer (not shown), and further, the user can obtain the product by simple touchpad operation. You can access a web page that you can buy immediately.
  • the additional information may be used while watching the broadcast content, and the viewer who listens to the radio may also broadcast. Additional information about the content can be used. Conventionally, viewers who cannot use the Internet television and viewers who listen to the radio cannot use additional information on the broadcast content that they watch or listen to in real time.
  • the voice feature extraction server 140 transmits the corresponding additional information to the smartphone 150-1, and synchronizes the additional information received from the smartphone 150-1 with the broadcast content output. It is obvious that the viewer using the analog-TV 130 or the viewer using the radio (not shown) can use additional information of the broadcast content in real time.
  • the viewer since the viewer uses the additional information of the broadcast content by using the viewing data generated through the viewer terminal 150-m, it is obvious that there is no need to purchase a separate Internet television to use the additional information. .
  • the voice feature extraction server 140 detects only the n th voice feature information corresponding to the n th voice feature data and transmits it to the viewer terminal 150-m, and the viewer terminal 150-m receives the first feature.
  • the additional information is displayed in synchronization with the broadcast content being viewed by the viewer, thereby reducing the load on the voice feature extraction server 140 and minimizing network bandwidth consumption. This is because the voice feature extraction server 140 receives the voice feature data of the low capacity from the viewer terminal 150-m and transmits the voice feature information of the low capacity to the viewer terminal 150-m correspondingly.
  • Computer-readable recording media include all kinds of recording media having data stored thereon that can be decrypted by a computer system.
  • ROM read only memory
  • RAM random access memory
  • magnetic tape magnetic tape
  • magnetic disk magnetic disk
  • flash memory an optical data storage device
  • the computer readable recording medium can also be distributed over computer systems connected over a computer network, stored and executed as readable code in a distributed fashion.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 방송콘텐츠의 부가정보 제공 방법 및 그 시스템에 관한 것으로서, 보다 상세하게는 텔레비전을 통하여 디스플레이되는 방송콘텐츠에 상응하는 부가정보를 별도의 시청자단말기로 제공하는 방법 및 그 시스템에 관한 것이다. 본 발명에 따른 방송콘텐츠의 부가정보 제공 방법은 음성특징추출서버에서 수행되고, 방송콘텐츠의 오디오특징데이터를 추출하여 미리 설정된 단위로 그룹화한 음성특징정보를 구비된 저장 공간에 저장하는 단계 및 저장된 하나 이상의 음성특징정보 중 시청자단말기로부터 수신된 음성특징데이터에 상응하는 음성특징정보를 검출하여 시청자단말기로 전송하는 단계를 포함하되, 시청자단말기는 입력된 오디오신호에서 미리 설정된 방법에 따라 음성특징데이터를 추출하여 음성특징추출서버로 전송하고, 수신된 음성특징정보에서 음성특징데이터에 대응되는 시간적위치를 판단하며, 시간적위치에 상응하는 부가정보를 디스플레이하는 것을 특징으로 한다.

Description

방송콘텐츠의 부가정보 제공 방법 및 그 시스템
본 발명은 방송콘텐츠의 부가정보 제공 방법 및 그 시스템에 관한 것으로서, 보다 상세하게는 텔레비전을 통하여 디스플레이되는 방송콘텐츠에 상응하는 부가정보를 별도의 시청자단말기로 제공하는 방법 및 그 시스템에 관한 것이다.
오늘날 디지털 기술의 발달로 텔레비전(TV)이 점차 디지털화되고 있고(기존 아날로그 텔레비전에서 디지털 텔레비전으로 교체되고 있음), 한편으론 별도의 망을 통해 서로 다른 특성의 콘텐츠를 제공하던 방송과 통신의 융합이 가속화되고 있다. 즉, 일 방향의 아날로그 방송에서 시청자인 시청자와 대화하는 양방향성의 디지털 방송으로 그 주도권이 넘어가고 있다. 또한, 이동식 멀티미디어 방송(DMB, Digital Multimedia Broadcasting), 인터넷 등을 통하여 방송콘텐츠가 제공되는 등 시청자가 방송콘텐츠를 이용할 수 있는 방법도 다양해지고 있다.
이와 더불어, 텔레비전을 매체로 전자상거래가 구현되는 티-커머스(T-commerce)가 상용화되고 있고, 방송콘텐츠를 통하여 노출되는 각종 상품, 장소 등에 대한 부가정보들이 실시간으로 시청자에게 제공되고 있다. 즉, 시청자는 텔레비전을 통하여 각종 상품을 구매하거나 금융업무를 수행할 수 있고, 시청 중인 방송콘텐츠에서 노출되는 상품, 장소 등에 대한 정보를 실시간으로 인식할 수도 있다. 예를 들어, 시청자는 인터넷 텔레비전을 이용하여 원하는 상품을 구매할 수 있고, DMB 수신장치를 이용하여 방송콘텐츠와 함께 제공되는 유알엘(URL, Uniform Resource Locator)에 바로 접속하여 원하는 정보를 얻을 수도 있다.
그런데, 종래의 경우 부가정보는 디스플레이되는 방송콘텐츠의 영상에 겹치게 출력되므로 시청자의 방송콘텐츠 시청환경을 저해하는 문제점이 있다. 부가정보가 텔레비전 또는 DMB 수신장치 등을 통해 디스플레이되는 영상 위에 출력되므로 디스플레이되는 영상의 일부분이 가려질 수 밖에 없기 때문이다.
또한, 시청자가 부가정보에 포함된 유알엘에 접속하고자 하는 경우, 방송콘텐츠를 디스플레이하는 장치(예를 들어, 개인컴퓨터 또는 이동단말기 등)에서는 웹브라우저(web browser) 등의 소프트웨어가 실행되어 시청자의 시청환경이 중단되는 문제점이 있다. 물론, 디스플레이 화면을 분할하여 방송콘텐츠가 디스플레이되는 화면과 웹페이지 접속화면을 동시에 디스플레이할 수도 있지만 이 경우에는 방송콘텐츠의 영상이 작아지게 되어 시청자의 시청환경이 저해되는 문제점이 여전히 남게 된다. 이는 티-커머스(T-commerce) 활성화의 주된 장애요인이 되고 있다. 즉, 티-커머스는 텔레비전 및/또는 DMB 수신장치를 이용한 전자상거래를 의미하는데, 시청자가 텔레비전 등을 통하여 전자상거래를 이용하고자 하는 경우 상술한 이유로 시청자의 시청환경이 중단될 수 밖에 없기 때문이다.
또한, 아날로그 텔레비전을 이용하거나 공공장소에 설치된 텔레비전을 이용하여 방송콘텐츠를 시청하는 시청자는 부가정보를 이용할 수 없는 문제점이 있다. 아날로그 텔레비전은 부가정보 자체를 수신할 수 없으므로 시청자가 당연히 부가정보를 이용할 수 없고, 공공장소에 설치된 텔레비전은 부가정보를 수신하였다고 하여도 시청자가 당해 텔레비전을 조작할 수 없는 경우가 대부분이기 때문이다.
또한, 시청자가 방송콘텐츠를 시청하면서 관련된 부가정보를 이용하기 위해서는 별도의 인터넷 텔레비전(Internet TV) 등을 구매하여야 하므로 시청자에게 금전적인 부담을 주는 문제점도 남아 있다.
이를 해결하기 위하여, 시청자가 방송콘텐츠를 시청하고 있는 장치(예를 들어, 텔레비전, 데스크탑 컴퓨터 등)와 부가정보가 제공되는 장치가 분리될 필요가 있고, 당해 분리를 위해서는 방송콘텐츠와 부가정보가 동기화되어야 한다.
이와 관련하여, 종래기술로는 실시간 방송에 한하여 방송을 송출하는 쪽과 수신하는 쪽이 GPS 시계 등을 이용해 동일한 시간을 유지하는 방식이 있다(미국특허등록번호 US 7,673,316). 그런데, 당해 종래기술은 현재 시청자가 어떠한 콘텐츠를 시청 중인지를 자동으로 알아낼 방법이 없으며 주문형 비디오나 디브이디(DVD) 등의 콘텐츠에는 적용될 수 없는 단점이 있다. 즉, 당해 종래기술은 오로지 현재 방송사업자(CP, Contents Provider)에 의하여 제공되고 있는 방송콘텐츠에 대해서만 적용 가능한 기술인 문제점이 있다.
다른 종래기술로는 서버(Server)에서 시청자가 시청하고 있는 콘텐츠의 음성정보를 수신하고, 수신된 음성정보(예를 들어, 오디오 핑거프린트, Audio fingerprint)의 당해 콘텐츠 내에서의 시간적 위치를 판단하며, 판단된 시간적 위치에 상응하는 부가정보를 검출하여 시청자의 단말기로 전송하는 방식이 있다(미국특허공개번호 US2011/0063503). 그런데, 당해 다른 종래기술은 원격 서버에서 수신된 음성정보를 이용하여 당해 음성정보의 시간적 위치에 대한 검색이 이뤄지므로 시청자가 시청 콘텐츠를 변경(즉, 채널 이동 또는 재생 시간 건너 뛰기 등)하였는지 여부를 알아내기 위해 주기적으로 시청자 단말기와 서버가 상호 통신을 수행해야 하므로 네트워크 대역이 소모되고 서버에 부하를 주는 단점이 있다. 물론, 서버와 시청자 단말기 간의 통신 주기를 길게 하면 네트워크 대역 소모 및/또는 서버에 가해지는 부하는 경감할 수 있으나 시청자의 콘텐츠 시청 변화에 민감하게 대응할 수 없는 문제점이 새롭게 발생된다.
상술한 문제점을 해결하기 위하여 본 발명은 시청자가 시청 중인 콘텐츠에 대한 부가정보를 당해 콘텐츠가 디스플레이되고 있는 단말기와 별도의 단말기로 전송할 수 있는 방송콘텐츠의 부가정보 제공 방법 및 그 시스템을 제공하고자 한다.
또한, 본 발명은 시청자가 어떠한 콘텐츠를 시청 중인지를 자동으로 알아낼 수 있는 방송콘텐츠의 부가정보 제공 방법 및 그 시스템을 제공하고자 한다.
또한, 본 발명은 시스템의 부하를 최소화하고 네크워크 대역 소모를 최소화할 수 있는 방송콘텐츠의 부가정보 제공 방법 및 그 시스템을 제공하고자 한다.
본 발명의 일 측면에 따르면, 음성특징추출서버에서 데이터통신망을 통하여 연결된 시청자단말기로 방송콘텐츠의 부가정보를 제공하는 방법에 있어서, 방송콘텐츠의 오디오특징데이터를 추출하여 미리 설정된 단위로 그룹화한 음성특징정보를 구비된 저장 공간에 저장하는 단계; 및 저장된 하나 이상의 상기 음성특징정보 중 상기 시청자단말기로부터 수신된 음성특징데이터에 상응하는 음성특징정보를 검출하여 상기 시청자단말기로 전송하는 단계;를 포함하되, 상기 시청자단말기는 입력된 오디오신호에서 미리 설정된 방법에 따라 상기 음성특징데이터를 추출하여 상기 음성특징추출서버로 전송하고, 수신된 상기 음성특징정보에서 상기 음성특징데이터에 대응되는 시간적위치를 판단하며, 상기 시간적위치에 상응하는 부가정보를 디스플레이하는 것을 특징으로 하는 방송콘텐츠의 부가정보 제공 방법이 제공된다.
여기서, 상기 방송콘텐츠의 부가정보 제공 방법은 상기 음성특징정보에 상응하는 상기 부가정보를 상기 시청자단말기로 전송하는 단계;를 더 포함할 수 있다.
또한, 상기 방송콘텐츠의 부가정보 제공 방법은 상기 시청자단말기로부터 부가정보요청이 수신되면 상응하는 상기 부가정보를 상기 시청자단말기로 전송하는 단계;를 더 포함하되, 상기 시청자단말기는 상기 시간적위치에 대한 정보가 포함된 상기 부가정보요청을 전송하고, 상기 부가정보요청에 대응하여 상기 부가정보가 수신되면 상기 시간적위치에 상응하는 부가정보를 디스플레이할 수 있다.
또한, 상기 방송콘텐츠의 오디오특징데이터를 추출하여 미리 설정된 단위로 그룹화하는 단계는, 상기 방송콘텐츠의 오디오특징데이터를 미리 설정된 시간 단위 또는 용량 단위로 그룹화하는 단계;를 포함할 수 있다.
본 발명의 다른 측면에 따르면, 시청자단말기에서 시청자에게 방송콘텐츠의 부가정보를 제공하는 방법에 있어서, 입력된 오디오신호에서 미리 설정된 방법에 따라 제n 음성특징데이터를 추출하여 데이터통신망을 통하여 연결된 음성특징추출서버로 전송하는 단계; 상기 제n 음성특징데이터에 대응하여 수신된 제n 음성특징정보에서 상기 제n 음성특징데이터에 대응되는 제n 시간적위치를 판단하는 단계; 및 상기 제n 시간적위치에 상응하는 부가정보를 디스플레이하는 단계;를 포함하되, 상기 n은 자연수이고, 상기 음성특징추출서버는 방송콘텐츠의 오디오특징데이터를 추출하여 미리 설정된 단위로 그룹화한 음성특징정보 중 상기 제n 음성특징데이터에 상응하는 상기 제n 음성특징정보를 검출하여 전송하는 것을 특징으로 하는 방송콘텐츠의 부가정보 제공 방법이 제공된다.
여기서, 상기 부가정보를 디스플레이하는 단계는, 상기 제n 시간적위치에 대한 정보가 포함된 부가정보요청을 상기 음성특징추출서버로 전송하는 단계; 상기 음성특징추출서버로부터 상기 부가정보요청에 대응하여 상기 부가정보가 수신되는 단계; 및 상기 제n 시간적위치에 상응하는 부가정보를 디스플레이하는 단계;를 포함하되, 상기 음성특징추출서버는 상기 부가정보요청이 수신되면 상기 제n 시간적위치에 상응하는 상기 부가정보를 전송할 수 있다.
또한, 상기 방송콘텐츠의 부가정보 제공 방법은 상기 음성특징추출서버로부터 상기 제n 음성특징정보에 상응하는 상기 부가정보를 수신하는 단계;를 더 포함할 수 있다.
또한, 상기 방송콘텐츠의 부가정보 제공 방법은 미리 설정된 이벤트가 발생되면 제n+1 음성특징데이터를 추출하는 단계; 기저장된 하나 이상의 음성특징정보 중 상기 제n+1 음성특징데이터에 상응하는 제n+1 음성특징정보를 검출하는 단계; 상기 제n+1 음성특징정보에서 상기 제n+1 음성특징데이터에 대응되는 제n+1 시간적위치를 판단하는 단계; 및 상기 제n+1 시간적위치에 상응하는 부가정보를 디스플레이하는 단계;를 더 포함할 수 있다.
또한, 상기 방송콘텐츠의 부가정보 제공 방법은 기저장된 하나 이상의 음성특징정보 중 상기 제n+1 음성특징데이터에 상응하는 음성특징정보가 검색되지 않으면, 제n+1 음성특징데이터를 상기 음성특징추출서버로 전송하는 단계; 및 상기 음성특징추출서버로부터 상기 제n+1 음성특징데이터에 대응하여 상기 제n+1 음성특징정보가 수신되는 단계;를 더 포함할 수 있다.
또한, 상기 제n+1 음성특징데이터를 추출하는 단계는, 미리 설정된 시간이 경과되면 상기 제n+1 음성특징데이터를 추출하는 단계;를 포함할 수 있다.
본 발명의 또 다른 측면에 따르면, 상술한 방송콘텐츠의 부가정보 제공 방법을 컴퓨터에서 실행시키기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체가 제공된다.
본 발명에 따르면, 시청자가 시청 중인 콘텐츠에 대한 부가정보를 당해 콘텐츠가 디스플레이되고 있는 단말기와 별도의 단말기로 전송할 수 있다.
또한, 본 발명에 따르면 방송콘텐츠의 부가정보 제공 시스템의 부하를 최소화할 수 있으며, 네크워크 대역 소모를 최소화할 수도 있다.
도 1은 본 발명의 일 실시예에 따른 부가정보제공시스템의 개략적인 구성도.
도 2는 본 발명의 일 실시예에 따른 음성특징추출서버에 대한 블록구성도.
도 3은 텔레비전을 통하여 디스플레이되고 있는 방송콘텐츠의 영상의 일 실시예를 도시한 도면.
도 4는 종래의 기술에 의하여 부가정보가 텔레비전을 통하여 디스플레이되고 있는 경우를 예시한 도면.
도 5는 본 발명의 일 실시예에 의하여 부가정보가 시청자단말기를 통하여 디스플레이되고 있는 경우를 예시한 도면.
도 6은 본 발명의 일 실시예에 따른 음성특징추출서버에서 방송콘텐츠의 음성특징정보를 저장하는 방법에 대한 순서도.
도 7은 본 발명의 일 실시예에 따른 방송콘텐츠의 부가정보 제공 방법에 대한 순서도.
도 8은 본 발명의 다른 실시예에 따른 방송콘텐츠의 부가정보 제공 방법에 대한 순서도.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 이하, 본 발명의 실시예를 첨부한 도면들을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 부가정보제공시스템의 개략적인 구성도이다.
도 1을 참조하면, 부가정보제공시스템(100)은 부가정보제공시스템(100), 방송제공장치(110), 방송통신망(120), 텔레비전(130), 음성특징추출서버(140), 스마트폰(150-1), 노트북컴퓨터(150-2) 등의 시청자단말기(이하, 150-m으로 통칭함, 단 m은 자연수), 데이터통신망(160) 및 웹서버(170)를 포함한다. 또한, 비록 도시되지는 않았지만 부가정보제공시스템(100)은 라디오(Radio, 미도시)를 더 포함할 수도 있다.
여기서, 방송제공장치(110)는 텔레비전(130), 라디오(미도시) 및/또는 음성특징추출서버(140)로 방송콘텐츠를 위성, 지상파, 인터넷 또는 케이블 등과 같은 방송통신망(120)을 이용하여 송출한다. 즉, 방송콘텐츠는 위성, 지상파, 케이블 등의 방송매체를 통하여 유통되는 음성 및/또는 영상을 통칭하고, 방송통신망(120)은 방송콘텐츠가 방송제공장치(110)에서 텔레비전(130), 라디오(미도시) 및/또는 음성특징추출서버(140)로 전송될 수 있도록 하는 네트워크를 의미한다.
텔레비전(130), 라디오(미도시)는 수신된 방송콘텐츠를 영상 및/또는 음성으로 바꾸어 출력하여, 시청자로 하여금 방송콘텐츠를 시각적 및/또는 청각적으로 인식할 수 있도록 한다.
음성특징추출서버(140)는 방송콘텐츠의 오디오특징데이터를 추출하여 미리 설정된 단위로 그룹화한 음성특징정보를 구비된 저장 공간에 저장한다. 여기서, 음성특징추출서버(140)는 방송제공장치(110)에서 방송콘텐츠를 수신할 수 있다. 또한, 음성특징추출서버(140)는 구비된 외부 데이터 입출력 장치(예를 들어, CD플레이어, USB 포트 등)를 통하여 방송콘텐츠를 수신할 수도 있다. 또한, 음성특징정보의 생성 동작에 대한 상세한 설명은 후술한다.
또한, 음성특징추출서버(140)는 저장 공간에 저장된 하나 이상의 음성특징정보 중 시청자단말기(150-m)로부터 수신된 음성특징데이터에 상응하는 음성특징정보를 검출하여 시청자단말기(150-m)로 전송한다.
또한, 음성특징추출서버(140)는 텔레비전(130), 라디오(미도시)에서 출력되는 방송콘텐츠에 상응하는 부가정보를 데이터통신망(160)을 통하여 시청자단말기(150-m)로 전송한다. 여기서, 데이터통신망(160)은 시청자단말기(150-m)로 데이터를 제공할 수 있는 통신망으로서, 인터넷(Internet), 이동통신망(Mobile network), 인트라넷(Intranet) 등을 포함한다.
시청자단말기(150-m)는 시청자의 조작에 따라 부가정보수신모드로서 동작이 개시되면 구비된 마이크를 입력된 오디오신호에서 미리 설정된 방법에 따라 음성특징데이터를 생성하여 음성특징추출서버(140)로 전송한다. 또한, 시청자단말기(150-m)는 음성특징데이터의 전송에 대응하여 음성특징정보가 수신되면 음성특징정보를 분석하여 음성특징정보에서 당해 음성특징데이터에 대응되는 시간적위치를 판단하여 시청자가 방송콘텐츠의 어느 부분을 시청하고 있는지를 판단할 수 있다. 여기서, 음성특징데이터의 생성 방법 및 상술한 시간적위치 판단에 대한 상세한 설명은 후술한다.
또한, 시청자단말기(150-m)는 음성특징추출서버(140)에서 데이터통신망(160)을 통하여 부가정보가 수신되면 이를 현재 디스플레이되는 화면과 동기화하여 디스플레이할 수 있다. 따라서, 시청자는 현재 시청하고 있는 방송콘텐츠에 대한 부가정보를 실시간으로 인식할 수 있다. 여기서, 시청자단말기(150-m)는 스마트폰(Smartphone), 이동통신 단말기(Mobile Phone), 태블릿 컴퓨터(Tablet computer), 피디에이(PDA, Personal Digital Assistant), 개인용 컴퓨터(PC, Personal Computer) 등의 장치일 수 있다. 또한, 부가정보는 방송콘텐츠 자체에 대한 정보, 출연자가 사용하는 상품에 대한 정보, 촬영 장소에 대한 정보, 방송콘텐츠에 관련된 웹페이지 주소 등 당해 방송콘텐츠에 관련된 정보가 포함된 데이터일 수 있다.
또한, 웹서버(170)는 시청자단말기(150-m)가 접속되면, 시청자단말기(150)의 요청에 상응하는 데이터를 제공하는 서버이다. 예를 들어, 음성특징추출서버(140)에서 수신된 부가정보에 당해 웹서버(170)의 주소가 포함되어 있고, 시청자단말기(150-m)가 시청자의 선택에 따라 웹서버(170)의 주소에 접속한 경우를 가정한다. 이때, 웹서버(170)는 시청자단말기(150-m))로 미리 저장되어 있는 데이터를 전송할 수 있다.
상술한 바와 같이, 음성특징추출서버(140)는 방송제공장치(110)에서 수신된 방송콘텐츠의 오디오특징데이터를 추출하여 '미리 설정된 단위로 그룹화'하여 저장한 후, 추후 시청자단말기(150-m)로부터 수신된 음성특징데이터에 상응하는 음성특징정보를 검출하여 시청자단말기(150-m)로 전송한다. 또한, 음성특징추출서버(140)는 음성특징정보에 상응하는 부가정보를 시청자단말기(150-m)로 전송할 수 있다.
이후, 시청자단말기(150-m)는 음성특징정보를 분석하여 현재 시청자가 시청하고 있는 부분이 당해 방송콘텐츠의 어떠한 부분인지를 판단하여, 상응하는 부가정보가 출력되도록 할 수 있다.
이에 따라, 방송콘텐츠가 출력되는 장치와 부가정보가 출력되는 장치가 서로 분리될 수 있고, 시청자는 방송콘텐츠 시청 환경이 중단되거나 저해되지 않으면서 부가정보를 용이하게 이용할 수 있다. 이하, 도 2 및 도 3을 참조하여 음성특징추출서버(140) 및 시청자단말기(150-m)의 동작에 대하여 상세하게 설명한다.
도 2는 본 발명의 일 실시예에 따른 음성특징추출서버에 대한 블록구성도이다.
도 2를 참조하면, 음성특징추출서버(140)는 방송콘텐츠수신부(210), 음성음성특징정보추출부(220), 데이터베이스부(230) 및 서버통신부(250)를 포함한다. 또한, 비록 도시되지는 않았지만, 외부의 장치 또는 저장 매체와 데이터를 송수신하기 위한 외부입출력부(예를 들어, CD플레이어, USB 포트 등)(미도시)를 더 포함할 수 있음은 상술한 바와 같다.
먼저, 방송콘텐츠수신부(210)는 방송통신망(120)을 통하여 연결된 방송제공장치(110)로부터 방송콘텐츠를 수신하여 음성특징정보추출부(220)로 출력한다. 여기서, 방송콘텐츠수신부(210)는 셋톱박스(Set top box)를 포함할 수 있고, 셋톱박스는 방송콘텐츠가 전송되는 방송채널(Broadcast channel)의 개수만큼 구비될 수 있다. 예를 들어, 현재 방송채널이 100개인 경우(즉, 방송콘텐츠를 제공하는 사업자(PP, Program Provider, 예를 들어, CNN, NBC 등)의 수가 100인 경우)를 가정하면, 방송콘텐츠수신부(210)는 100개의 셋톱박스를 포함할 수 있다. 한편, 방송콘텐츠는 외부입출력부(미도시)를 통하여 입력될 수도 있음은 자명하다.
음성특징정보추출부(220)는 입력된 방송콘텐츠를 이용하여 미리 설정된 방법에 따라 음성특징정보를 추출한다. 즉, 음성특징정보추출부(220)는 방송콘텐츠의 오디오특징데이터를 추출하고, 이를 미리 설정된 단위로 그룹화하여 음성특징정보를 추출할 수 있다.
예를 들어, 음성특징정보추출부(220)는 방송콘텐츠의 음성 주파수 성분에 대한 정보 등(즉, 오디오특징데이터)을 미리 설정된 방법에 따라 추출하고, 추출된 정보를 미리 설정된 시간 단위로 그룹화하여 음성특징정보를 생성할 수 있다. 즉, 당해 방송콘텐츠의 러닝타임(Running time)이 60분이고, 미리 설정된 시간이 10분인 경우를 가정한다. 이때, 음성특징정보추출부(220)는 당해 방송콘텐츠의 오디오특징데이터를 추출하여 총 6개의 음성특징정보를 생성할 수 있다. 또한, 각각의 음성특징정보는 10분에 상응하는 방송콘텐츠의 음성에 대한 특징정보일 수 있다.
다른 예를 들어, 음성특징정보추출부(220)는 방송콘텐츠의 오디오특징데이터를 미리 설정된 방법에 따라 추출하고, 추출된 정보를 미리 설정된 용량 단위로 그룹화하여 음성특징정보를 생성할 수도 있다. 즉, 당해 방송콘텐츠 전체에 대한 오디오특징데이터의 용량이 300[KB]이고, 미리 설정된 시간이 50[KB]인 경우를 가정한다. 이때, 음성특징정보추출부(220)는 당해 방송콘텐츠의 오디오특징데이터를 추출하여 총 6개의 음성특징정보를 생성할 수 있을 것이다.
여기서, 오디오특징데이터는 오디오핑거프린트(audio fingerprint)일 수 있고, 방송콘텐츠의 음성에서 오디오핑거프린트를 추출하는 기술은 당업자에 있어서 자명한 사항이므로 이에 대한 설명은 생략한다.
데이터베이스부(230)에는 음성특징정보추출부(220)에서 추출된 음성특징정보 및 각각의 음성특징정보에 매칭되는 부가정보가 저장된다. 여기서, 부가정보는 음성특징추출서버(140) 운영자의 조작에 따라 데이터베이스부(230)에 저장될 수 있다. 즉, 부가정보는 방송콘텐츠에 포함되어 음성특징추출서버(140)로 수신되는 것이 아니라, 방송콘텐츠의 수신과는 별개의 방법을 통하여 입력되어 저장된 정보일 수 있다. 예를 들어, 부가정보는 음성특징추출서버(140)의 운영자가 음성특징추출서버(140)와 연결된 입력부(예를 들어, 키보드, 마우스 등)를 조작하여 생성한 정보일 수 있다. 다른 예를 들어, 부가정보는 인터넷, 근거리통신망 등을 통하여 다른 장치로부터 수신된 정보일 수도 있다.
또한, 여기에서는 부가정보가 각각의 음성특징정보에 매칭되는 것으로 설명하였으나, 이는 예시에 불과하다. 따라서, 부가정보는 방송콘텐츠 전체에 매칭될 수도 있을 것이다. 즉, 부가정보는 매칭된 음성특징정보에 상응하는 시간 동안 디스플레이되는 방송콘텐츠에 대한 정보만을 포함할 수도 있고, 방송콘텐츠 전체에 대한 정보를 모두 포함할 수도 있다.
서버통신부(240)는 시청자단말기(150-m)와 데이터통신망(160)을 통하여 연결되어 시청자단말기(150-m)와 각종 데이터를 송수신하는 모뎀을 포함한다.
상술한 바와 같이, 음성특징추출서버(140)는 방송콘텐츠의 오디오특징데이터를 추출하여 미리 설정된 단위(즉, 시간 및/또는 용량 단위)로 그룹화하여 음성특징정보를 생성하고, 생성된 음성특징정보를 데이터베이스부(230)에 저장한다. 이하, 시청자단말기(150-m)가 음성특징추출서버(140)에 수신된 음성특징정보를 이용하여 시청자가 시청 중인 방송콘텐츠와 부가정보를 동기화하는 동작에 대하여 상세하게 설명한다.
다시 도 1을 참조하면, 시청자단말기(150-m)는 시청자의 조작에 의하여 부가정보수신모드로 동작이 개시되면, 구비된 마이크를 통하여 미리 설정된 시간 동안 입력된 오디오신호에서 제n 음성특징데이터를 생성할 수 있고, 생성된 음성데이터를 음성특징추출서버(140)로 전송한다(단, n은 자연수). 여기서, 음성특징데이터는 오디오핑거프린트(audio fingerprint)일 수 있고, 방송콘텐츠의 음성에서 오디오핑거프린트를 추출하는 기술은 당업자에 있어서 자명한 사항이므로 이에 대한 설명은 생략한다. 또한, 제n 음성특징데이터는 n번째 생성된 음성특징데이터를 의미하는 것이다.
음성특징추출서버(140)는 제n 음성특징데이터가 수신되면, 데이터베이스부(230)에 저장된 하나 이상의 음성특징정보 중 수신된 제n 음성특징데이터에 상응하는 제n 음성특징정보를 검출하여 시청자단말기(150-m)로 전송한다. 이때, 음성특징추출서버(140)는 검출된 제n 음성특징정보에 매칭되는 부가정보도 시청자단말기(150-m)로 전송할 수 있다. 한편, 제n 음성특징정보가 10분 단위로 그룹화된 경우, 10분의 오디오에 상응하는 오디오핑거프린트의 데이터 용량은 50[KB] 정도인 경우가 일반적이므로 데이터통신망(160)의 대역폭 소모는 거의 발생되지 않을 것이다. 또한, 제n 음성특징정보는 제n 음성특징데이터에 상응하는 '부분'을 포함하는 음성특징정보를 의미하는 것이다.
시청자단말기(150-m)는 제n 음성특징데이터의 전송에 대응하여 제n 음성특징정보가 수신되면, 제n 음성특징정보에서 제n 음성특징데이터에 대응되는 제n 시간적위치를 판단한다.
여기서, 시간적위치는 음성특징정보에서 음성특징데이터에 대응되는 시간적 위치를 의미한다. 예를 들어, 제n 음성특징정보가 10분 단위로 그룹화되었고, 시청자가 시청 중인 방송콘텐츠의 러닝타임1초부터 10분까지에 상응하는 경우를 가정한다. 또한, 제n 음성특징데이터가 제n 음성특징정보 중 5분에 상응하는 경우를 가정한다. 이때, 시청자단말기(150-m)는 제n 음성특징정보와 제n 음성특징데이터를 비교하여 제n 음성특징정보에서 제n 음성특징데이터에 상응하는 부분에 대한 시간적위치를 판단할 수 있을 것이다. 즉, 상술한 예시에서 시청자단말기(150-m)는 수신된 제n 음성특징정보가 시청 중인 방송콘텐츠의 러닝타임 중 1초부터 10분까지 부분에 대한 음성특징정보인지 판단할 수 있고, 제n 음성특징정보와 제n 음성특징데이터를 비교하여 제m 음성특징데이터가 시청 중인 방송콘텐츠의 러닝타임 중 5분 부분에 대한 음성특징데이터임을 판단할 수 있을 것이다. 따라서, 상술한 예시에서 제n 시간적위치는 5분에 상응할 것이다.
이후, 시청자단말기(150-m)는 판단된 제n 시간적위치에 상응하는 부가정보를 디스플레이할 수 있다. 부가정보는 상술한 바와 같이 제n 음성특징정보와 함께 시청자단말기(150-m)로 수신될 수도 있고, 시청자단말기(150-m)가 판단된 제n 시간적위치에 상응하는 부가정보를 음성특징추출서버(140)로 요청하여 수신할 수도 있다. 즉, 시청자단말기(150-m)는 부가정보를 제n 음성특징정보와 함께 수신하거나 제n 시간적위치를 판단한 후 제n 시간적위치에 상응하는 부가정보를 음성특징추출서버(140)로 요청하여 수신할 수도 있다. 따라서, 음성특징추출서버(140)는 제n 시간적위치에 상응하는 부가정보요청이 수신되면 제n 음성특징정보에 상응하는 부가정보 중 제n 시간적위치에 상응하는 부가정보를 데이터베이스부(230)에서 독출하여 시청자단말기(150-m)로 전송할 수 있을 것이다.
한편, 시청자단말기(150-m)는 부가정보를 디스플레이할 때, 제n 음성특징데이터가 생성되고, 제n 시간적위치가 판단될 때까지의 경과된 시간을 고려하여 부가정보를 디스플레이할 수도 있을 것이다. 즉, 제n 음성특징데이터가 생성되고, 제n 시간적위치가 판단될 때까지 경과된 시간이 '2초'인 경우, 시청자단말기(150-m)는 제n 시간적위치인 '5분'에 상응하는 부가정보가 아닌 '5분 2초'에 상응하는 부가정보를 디스플레이할 수 있을 것이다.
한편, 시청자단말기(150-m)는 제n 음성특징데이터를 추출한 후 미리 설정된 이벤트가 발생되면 제n+1 음성특징데이터를 추출한다. 예를 들어, 시청자단말기(150-m)는 제n 음성특징데이터가 추출된 후 미리 설정된 시간이 경과되면 마이크를 통하여 입력되는 오디오신호에서 제n+1 음성특징데이터를 추출할 수 있다. 다른 예를 들어, 시청자단말기(150-m)는 시청자의 입력부(예를 들어, 터치패드, 키패드 등)(미도시) 조작이 입력되면 마이크를 통하여 입력되는 오디오신호에서 제n+1 음성특징데이터를 추출할 수 있다.
또한, 시청자단말기(150-m)는 추출된 제n+1 음성특징데이터와 기저장된 하나 이상의 음성특징정보를 비교하여 제n+1 시간적위치를 판단한다. 시청자단말기(150-m)가 제n+1 시간적위치를 판단하는 동작은 상술한 제n 시간적위치를 판단하는 동작과 동일 또는 유사할 수 있다. 즉, 시청자단말기(150-m)는 수신된 음성특징정보를 저장하고 있을 수 있고, 추후 미리 설정된 이벤트가 발생되면 제n+1 음성특징데이터를 추출하여 기저장된 하나 이상의 음성특징정보와 제n+1 음성특징데이터를 비교하여 제n+1 시간적위치(즉, 제n+1 음성특징데이터가 생성될 시점의 방송콘텐츠의 러닝타임)를 판단할 수 있을 것이다.
또한, 시청자단말기(150-m)는 판단된 제n+1 시간적위치에 상응하는 부가정보를 디스플레이한다. 제n+1 시간적위치에 상응하는 부가정보는 음성특징추출서버(140)로부터 수신되어 시청자단말기(150-m)에 기저장되어 있거나 시청자단말기(150-m)가 제n+1 시간적위치에 상응하는 부가정보요청을 음성특징추출서버(140)로 전송하여 수신할 수도 있다.
또한, 시청자단말기(150-m)는 제n+1 시간적위치가 판단되지 않으면 제n+1 음성특징데이터를 음성특징추출서버(140)로 전송한다. 제n+1 시간적위치가 판단되지 않는 경우는 제n+1 음성특징데이터에 상응하는 음성특징정보가 시청자단말기(150-m)에 저장되어 있지 않는 경우일 것이기 때문이다. 따라서, 음성특징추출서버(140)는 제n+1 음성특징데이터가 수신되면 제n+1 음성특징데이터에 상응하는 제n+1 음성특징정보를 데이터베이스부(230)에서 독출하여 시청자단말기(150-m)로 전송할 수 있다. 이후, 시청자단말기(150-m)는 수신된 제n+1 음성특징정보를 이용하여 제n+1 시간적위치를 판단하고, 상응하는 부가정보를 디스플레이할 수 있다.
상술한 바와 같이, 본 발명에 따른 방송콘텐츠의 부가정보제공시스템(100)에서의 음성특징추출서버(140)는 제n 음성특징데이터에 상응하는 제n 음성특징정보 만을 검출해서 시청자단말기(150-m)로 전송할 뿐이고, 시청자단말기(150-m)에서 제n 시간적위치를 판단하여 부가정보를 시청자가 시청 중인 방송콘텐츠와 동기화하여 디스플레이한다.
시청자단말기(150-m)에서 수행되는 제n 시간적위치 판단 동작은 제n 음성특징데이터의 위치를 찾아내는 동작으로서 음성특징추출서버(140)에서 수행되기에는 부하가 매우 큰 연산이다. 음성특징추출서버(140)의 데이터베이스부(230)에는 대용량의 음성특징정보가 저장되어 있으며, 대다수의 시청자단말기(150-m)로부터 음성특징데이터가 수신되기 때문이다.
따라서, 본 발명에 따른 방송콘텐츠의 부가정보제공시스템(100)에서는 시청자단말기(150-m)가 제n 시간적위치를 판단하는 연산을 수행하도록 함으로서 음성특징추출서버(140)에 가중되는 부하를 줄이고, 네트워크 대역 소모를 최소화할 수 있을 것이다. 음성특징추출서버(140)는 시청자단말기(150-m)로부터 저용량의 음성특징데이터를 수신하고, 이에 대응하여 저용량의 음성특징정보를 시청자단말기(150-m)로 전송할 뿐이기 때문이다.
또한, 음성특징데이터에 상응하는 오디오핑거프린트와 음성특징정보에 상응하는 오디오핑거프린트는 서로 상이할 수도 있다. 음성에서 오디오핑거프린트를 추출하는 방법은 다양할 수 있기 때문이다. 이 경우 서로 상이한 오디오핑거프린트를 사용하였으므로, 음성특징추출서버(140)의 데이터베이스부(230)에는 상이한 방법에 의하여 생성된 복수의 음성특징정보가 각각 저장될 것이다. 즉, 음성특징추출서버(140)는 하나의 방송콘텐츠에 대하여 복수의 오디오핑거프린트 생성 방법에 따라 복수의 오디오특징데이터를 생성할 수 있다. 예를 들어, 음성특징추출서버(140)는 하나의 방송콘텐츠에 대하여 제1 오디오핑거프린트생성방법 및 제2 오디오핑거프린트생성방법에 따라 오디오특징데이터를 각각 생성할 수 있다.
여기서, 시청자단말기(150-m)에서 제1 오디오핑거프린트생성방법(이하 제1 방법) 및 제2 오디오핑거프린트생성방법(이하, 제2 방법)에 따라 음성특징데이터가 각각 생성되고, 제1 방법에 따라 생성된 음성특징데이터가 음성특징추출서버(140)로 전송된 경우를 가정한다. 이때, 음성특징추출서버(140)는 제1 방법에 따라 생성된 음성특징정보 중 수신된 음성특징데이터에 상응하는 음성특징정보를 검출하고, 제2 방법에 따라 생성된 음성특징정보 중 상기 '검출된 음성특징정보'에 대응되는 음성특징정보를 독출하여 '독출된 음성특징정보'를 시청자단말기(150-m)로 전송할 수 있다. 이후, 시청자단말기(150-m)는 음성특징정보를 수신하면 제2 방법에 따라 생성된 음성특징데이터와 수신된 음성특징정보를 비교하여 시간적위치를 판단할 수 있을 것이다.
이는 음성특징데이터에 상응하는 음성특징정보를 검출하는데에 적합한 오디오핑거프린트생성방법과 음성특징정보 중 음성특징데이터에 상응하는 정확한 시간적위치를 판단하는데 적합한 오디오핑거프린트생성방법이 서로 상이할 수 있기 때문이다.
한편, 이상에서는 이해와 설명의 편의를 위하여 부가정보가 음성특징추출서버(140)에 저장되어 있는 것을 가정하였으나, 부가정보는 음성특징추출서버(140) 외에 다른 서버 및/또는 장치에 저장되어 있을 수 있다. 따라서, 부가정보가 저장되는 서버 및/또는 장치 등은 본 발명의 권리범위를 제한하지 못함은 자명하다.
이하, 도 3 내지 도 5의 예시를 참조하여 종래의 경우 및 본 발명에 따른 경우의 각 실시예를 비교하여 설명한다.
도 3은 텔레비전을 통하여 디스플레이되고 있는 방송콘텐츠의 영상의 일 실시예를 도시한 도면이고, 도 4는 종래의 기술에 의하여 부가정보가 텔레비전을 통하여 디스플레이되고 있는 경우를 예시한 도면이며, 도 5는 본 발명의 일 실시예에 의하여 부가정보가 시청자단말기를 통하여 디스플레이되고 있는 경우를 예시한 도면이다.
먼저, 도 3을 참조하면 텔레비전(130)에서 뉴스(NEWS)에 상응하는 방송콘텐츠가 디스플레이되고 있고, 뉴스의 내용은 나이키(NIKE)의 신제품에 대한 것인 경우가 예시된다.
또한, 도 4를 참조하면 종래의 기술에 의하여 텔레비전(130)에 방송콘텐츠인 뉴스(410), 나이키의 신제품에 대한 설명(420) 및 뉴스 프로그램 자체에 대한 설명(430)이 각각 디스플레이되고 있는 경우가 예시된다. 즉, 종래에는 방송콘텐츠에 대한 부가정보가 방송콘텐츠의 영상 위에 겹쳐져서 디스플레이되거나 도 4에 예시된 바와 같이 방송콘텐츠의 크기를 줄이고, 나머지 부분에 부가정보가 디스플레이될 수 밖에 없었다. 하나의 장치에서 방송콘텐츠와 부가정보가 동시에 디스플레이되거나 둘 중 하나만 디스플레이되어야 하기 때문이다. 또한, 시청자는 티-커머스 또는 부가정보를 이용하기 위하여 리모콘(440)(Remote control)을 이용하여야 하는데, 리모콘(440)은 텔레비전의 채널을 변경하기 위하여 제작된 장치이므로 티-커머스 또는 방송콘텐츠의 부가정보를 이용하기 위한 유저인터페이스(UI, User Interface)는 적합하지 않은 문제점이 있다.
반면, 도 5를 참조하면 본 발명에 따라 텔레비전(130)에는 방송콘텐츠인 뉴스만 디스플레이되고, 뉴스에 대한 부가정보인 나이키의 신제품에 대한 설명(510) 및 뉴스 프로그램 자체에 대한 설명(520)은 시청자단말기(150-m)를 통하여 디스플레이된다. 따라서, 시청자는 시청자단말기(150-m)를 이용하여 당해 나이키의 신제품에 대한 상세한 설명을 시청자단말기(150-m)를 통하여 얻을 수 있고, 나아가 당해 나이키 신제품을 구매할 수 있는 웹사이트로 바로 접속하여 당해 상품을 용이하게 구매할 수 있을 것이다.
그러므로 본 발명에 따르면 부가정보가 디스플레이되는 장치가 방송콘텐츠가 디스플레이되는 장치와 상이하므로 부가정보의 이용이 시청자의 시청환경을 저해하지 않으며 나아가 티-커머스의 활성화를 도모할 수 있음은 자명하다.
도 6은 본 발명의 일 실시예에 따른 음성특징추출서버에서 방송콘텐츠의 음성특징정보를 저장하는 방법에 대한 순서도이다.
이하, 도 6을 참조하여 본 발명의 일 실시예에 따른 음성특징추출서버(140)에서 방송콘텐츠에 대한 음성특징정보를 저장하는 방법에 대하여 설명한다. 이하에서 설명될 각 단계들은 도 2를 참조하여 설명한 음성특징추출서버(140)의 각 구성요소들에 의하여 수행되는 단계들일 수 있으나, 이해와 설명의 편의를 위하여 음성특징추출서버(140)에서 수행되는 것으로 통칭하여 설명한다. 따라서, 이하에서 설명되는 각 단계들을 수행하는 주체는 생략될 수 있다.
단계 S610에서, 방송통신망(120)을 통하여 연결된 방송제공장치(110)로부터 방송콘텐츠가 수신되면, 또는 외부입출력부(미도시)를 통하여 방송콘텐츠가 입력되면 방송콘텐츠의 오디오특징데이터를 추출하고, 이를 미리 설정된 단위로 그룹화하여 음성특징정보를 추출한다(단계 S620). 예를 들어, 음성특징추출서버(140)는 방송콘텐츠의 음성 주파수 성분에 대한 정보 등(즉, 오디오특징데이터)을 미리 설정된 방법에 따라 추출하고, 추출된 정보를 미리 설정된 시간 단위로 그룹화하여 음성특징정보를 생성할 수 있다. 다른 예를 들어, 음성특징정보추출부(220)는 방송콘텐츠의 오디오특징데이터를 미리 설정된 방법에 따라 추출하고, 추출된 정보를 미리 설정된 용량 단위로 그룹화하여 음성특징정보를 생성할 수도 있다. 여기서, 오디오특징데이터는 오디오핑거프린트(audio fingerprint)일 수 있고, 방송콘텐츠의 음성에서 오디오핑거프린트를 추출하는 기술은 당업자에 있어서 자명한 사항이므로 이에 대한 설명은 생략한다.
단계 S630에서, 추출된 음성특징정보를 구비된 저장 공간(즉, 데이터베이스부(230))에 저장한다.
단계 S640에서, 당해 방송콘텐츠에 상응하는 부가정보를 구비된 저장 공간에 저장한다. 여기서, 부가정보는 음성특징추출서버(140)의 운영자의 조작에 따라 데이터베이스부(230)에 저장될 수 있다. 즉, 부가정보는 방송콘텐츠에 포함되어 음성특징추출서버(140)로 수신되는 것이 아닌 방송콘텐츠의 수신과는 별개의 방법을 통하여 수신된 정보일 수도 있다. 또한, 부가정보는 그룹화된 음성특징정보 각각에 매칭되는 부가정보이거나, 방송콘텐츠 전체에 대한 정보를 모두 포함하는 정보일 수 있다.
도 7은 본 발명의 일 실시예에 따른 방송콘텐츠의 부가정보 제공 방법에 대한 순서도이다.
이하, 도 7을 참조하여 본 발명의 일 실시예에 따른 방송콘텐츠의 부가정보 제공 방법에 대하여 설명한다. 이하에서 설명될 각 단계들은 도 1 및 도 2를 참조하여 설명한 음성특징추출서버(140)의 각 구성요소 및 시청자단말기(150-m)에 의하여 수행되는 단계들일 수 있으나, 이해와 설명의 편의를 위하여 음성특징추출서버(140) 또는 시청자단말기(150-m)에서 수행되는 것으로 통칭하여 설명한다. 또한, 이하에서 설명될 각 단계들은 도 6을 참조하여 설명한 방송콘텐츠의 특징정보 저장 방법이 수행된 이후에 수행되는 동작일 수 있다.
단계 S710에서, 시청자단말기(150-m)는 시청자의 조작에 따라 부가정보수신모드로 동작 개시되면, 마이크를 통하여 입력된 오디오신호에서 미리 설정된 방법에 따라 제n 음성특징데이터를 추출하여 전송한다(단계 S720). 여기서, 오디오특징데이터는 오디오핑거프린트(audio fingerprint)일 수 있고, 방송콘텐츠의 음성에서 오디오핑거프린트를 추출하는 기술은 당업자에 있어서 자명한 사항이므로 이에 대한 설명은 생략한다.
단계 S730에서, 음성특징추출서버(140)는 수신된 제n 음성특징데이터에 상응하는 제n 음성특징정보를 검출한다. 즉, 음성특징추출서버(140)는 수신된 제n 음성특징데이터와 데이터베이스부(230)에 기저장되어 있는 하나 이상의 음성특징정보를 비교하여 제n 음성특징데이터에 상응하는 제n 음성특징정보를 검출할 수 있다.
단계 S740에서, 음성특징추출서버(140)는 검출된 제m 음성특징정보를 시청자단말기(150-m)로 전송한다.
단계 S750에서, 시청자단말기(150-m)는 수신된 제n 음성특징정보와 제n 음성특징데이터를 이용하여 제n 시간적위치를 판단한다. 즉, 시청자단말기(150-m)는 제n 음성특징정보에서 제n 음성특징데이터에 대응되는 제n 시간적위치를 판단한다. 여기서, 시간적위치는 음성특징정보에서 음성특징데이터에 대응되는 시간적 위치를 의미한다. 예를 들어, 제n 음성특징정보가 10분 단위로 그룹화되었고, 시청자가 시청 중인 방송콘텐츠의 러닝타임1초부터 10분까지에 상응하는 경우를 가정한다. 또한, 제n 음성특징데이터가 제n 음성특징정보 중 5분에 상응하는 경우를 가정한다. 이때, 시청자단말기(150-m)는 제n 음성특징정보와 제n 음성특징데이터를 비교하여 제n 음성특징정보에서 제n 음성특징데이터에 상응하는 부분에 대한 시간적위치를 판단할 수 있을 것이다. 즉, 상술한 예시에서 시청자단말기(150-m)는 수신된 제n 음성특징정보가 시청 중인 방송콘텐츠의 러닝타임 중 1초부터 10분까지 부분에 대한 음성특징정보인지 판단할 수 있고, 제n 음성특징정보와 제n 음성특징데이터를 비교하여 제m 음성특징데이터가 시청 중인 방송콘텐츠의 러닝타임 중 5분 부분에 대한 음성특징데이터임을 판단할 수 있을 것이다. 따라서, 상술한 예시에서 제n 시간적위치는 5분에 상응할 것이다.
단계 S760에서, 시청자단말기(150-m)는 제n 시간적위치에 상응하는 부가정보를 요청하는 부가정보요청을 음성특징추출서버(140)로 전송하고, 음성특징추출서버(140)는 부가정보요청을 수신하면 제n 시간적위치에 상응하는 부가정보를 데이터베이스부(230)에서 검출하여 시청자단말기(150-m)로 전송한다(단계 S770).
단계 S780에서, 시청자단말기(150-m)는 부가정보가 수신되면 제n 시간적위치에 상응하는 부가정보를 디스플레이한다. 이때, 시청자단말기(150-m)는 제n 음성특징데이터가 생성되고, 제n 시간적위치가 판단될 때까지의 경과된 시간을 고려하여 부가정보를 디스플레이할 수도 있을 것이다.
도 8은 본 발명의 다른 실시예에 따른 방송콘텐츠의 부가정보 제공 방법에 대한 순서도이다.
이하, 도 8을 참조하여 본 발명의 다른 실시예에 따른 방송콘텐츠의 부가정보 제공 방법에 대하여 설명한다. 이하에서 설명될 각 단계들은 도 1을 참조하여 설명한 시청자단말기(150-m)에 의하여 수행되는 단계들일 수 있다. 따라서, 이하에서 설명될 각 단계들을 수행하는 주체는 생략한다.
단계 S810에서, 미리 설정된 이벤트가 발생되면 제n+1 음성특징데이터를 추출한다(단계 S820). 예를 들어, 시청자단말기(150-m)는 제n 음성특징데이터가 추출된 후 미리 설정된 시간이 경과되면 마이크를 통하여 입력되는 오디오신호에서 제n+1 음성특징데이터를 추출할 수 있다. 다른 예를 들어, 시청자단말기(150-m)는 시청자의 입력부(예를 들어, 터치패드, 키패드 등)(미도시) 조작이 입력되면 마이크를 통하여 입력되는 오디오신호에서 제n+1 음성특징데이터를 추출할 수 있다.
단계 S830에서, 추출된 제n+1 음성특징데이터와 기저장된 하나 이상의 음성특징정보를 비교하여 제n+1 시간적위치를 판단한다. 시청자단말기(150-m)가 제n+1 시간적위치를 판단하는 동작은 상술한 제n 시간적위치를 판단하는 동작과 동일 또는 유사할 수 있다. 즉, 시청자단말기(150-m)는 수신된 음성특징정보를 저장하고 있을 수 있고, 추후 미리 설정된 이벤트가 발생되면 제n+1 음성특징데이터를 추출하여 기저장된 하나 이상의 음성특징정보와 제n+1 음성특징데이터를 비교하여 제n+1 시간적위치(즉, 제n+1 음성특징데이터가 생성될 시점의 방송콘텐츠의 러닝타임)를 판단할 수 있을 것이다.
단계 S840에서, 제n+1 시간적위치가 판단 가능하면, 판단된 제n+1 시간적위치에 상응하는 부가정보를 디스플레이한다(단계 S850). 제n+1 시간적위치에 상응하는 부가정보는 음성특징추출서버(140)로부터 수신되어 시청자단말기(150-m)에 기저장되어 있거나 시청자단말기(150-m)가 제n+1 시간적위치에 상응하는 부가정보요청을 음성특징추출서버(140)로 전송하여 수신할 수도 있다.
반면, 단계 S840에서의 판단 결과 제n+1 시간적위치가 판단되지 않으면 제n+1 음성특징데이터를 음성특징추출서버(140)로 전송한다(단계 S860). 제n+1 시간적위치가 판단되지 않는 경우는 제n+1 음성특징데이터에 상응하는 음성특징정보가 시청자단말기(150-m)에 저장되어 있지 않는 경우일 것이기 때문이다.
따라서, 단계 S870에서 음성특징추출서버(140)는 제n+1 음성특징데이터가 수신되면 제n+1 음성특징데이터에 상응하는 제n+1 음성특징정보를 데이터베이스부(230)에서 독출하여 시청자단말기(150-m)로 전송하고, 시청자단말기(150-m)는 수신된 제n+1 음성특징정보를 이용하여 제n+1 시간적위치를 판단하여 부가정보를 디스플레이할 수 있다(즉, 상술한 단계 S730 이하 단계).
상술한 바와 같이, 본 발명에 따른 음성특징추출서버(140)는 시청자가 시청 또는 청취하고 있는 방송콘텐츠에 상응하는 오디오특징데이터 중 일부분(즉, 음성특징정보)을 시청자단말기(150-m)로 전송할 수 있고, 시청자단말기(150-m)는 수신된 음성특징정보에서 음성특징데이터에 대응되는 시간적위치를 판단하여 시청자가 시청 또는 청취하고 있는 방송콘텐츠에 동기화하여 디스플레이할 수 있다.
따라서, 본 발명에 따르면 방송콘텐츠가 디스플레이되는 장치와 부가정보가 디스플레이되는 장치가 서로 상이하므로 시청자가 부가정보를 이용하는 경우에도 시청자의 방송콘텐츠 시청환경이 저해되거나 중단되지 않을 수 있다. 또한, 본 발명에 따르면 부가정보가 디스플레이되는 장치가 시청자의 조작이 용이한 스마트폰, 태블릿 컴퓨터 등일 수 있으므로 티-커머스의 활성화를 도모할 수 있다. 시청자가 스마트폰의 터치패드를 터치하여 부가정보로서 디스플레이되는 웹페이지에 접속하여도 방송콘텐츠의 시청환경이 저해되거나 중단되지 않으므로 시청자는 원활하게 방송콘텐츠 시청과 부가정보의 폭넓은 이용이 가능하기 때문이다.
예를 들어, 시청자가 라디오(미도시)을 통하여 A라는 가수(singer, 歌手)의 신곡이 소개되는 방송콘텐츠를 이용하고 있는 경우를 가정한다. 이때, 시청자는 자신의 스마트폰(150-1)을 이용하여 당해 신곡에 대한 정보(예를 들어, 작곡가, 작사가, 노래가사 등)를 실시간으로 얻을 수 있고, 나아가 당해 신곡을 즉시 구매할 수 있는 웹페이지에 간단한 터치패드 조작에 의하여 접속할 수 있다.
다른 예를 들어, 시청자가 텔레비전(130)을 통하여 B라는 상품의 광고에 대한 방송콘텐츠를 이용하고 있는 경우를 가정한다. 이때, 시청자는 자신의 태블릿 컴퓨터(미도시)를 이용하여 당해 상품에 대한 정보(예를 들어, 가격, 특징, 구매이벤트 등)를 실시간으로 얻을 수 있고, 나아가 간단한 터치패드 조작에 의하여 당해 상품을 즉시 구매할 수 있는 웹페이지에 접속할 수 있다.
또한, 본 발명에 따르면 시청자가 아날로그 텔레비전(130)을 시청하거나, 공공의 장소에서 텔레비전(130)을 시청하는 경우에도 방송콘텐츠를 시청하면서 관련된 부가정보를 이용할 수 있고, 라디오를 청취하는 시청자도 방송콘텐츠에 대한 부가정보를 이용할 수 있다. 기존에는 인터넷 텔레비전을 이용할 수 없는 시청자와 라디오를 청취하는 시청자는 시청 또는 청취하는 방송콘텐츠에 대한 부가정보를 실시간으로 이용할 수 없었으나, 본 발명은 시청자의 스마트폰(150-1) 등이 음성특징데이터를 생성하여 전송하면, 음성특징추출서버(140)에서 상응하는 부가정보를 스마트폰(150-1)으로 전송하고, 스마트폰(150-1)에서 수신된 부가정보와 출력되는 방송콘텐츠를 동기화하여 디스플레이하기 때문에 아날로그-텔레비전(130)을 이용하는 시청자나 라디오(미도시)를 이용하는 시청자도 방송콘텐츠의 부가정보를 실시간으로 이용할 수 있음은 자명하다.
또한, 본 발명에 따르면 시청자는 시청자단말기(150-m)를 통하여 생성된 시청데이터를 이용하여 방송콘텐츠의 부가정보를 이용하므로 부가정보의 이용을 위하여 별도의 인터넷 텔레비전을 구매할 필요가 없음은 자명하다.
또한, 본 발명에 따르면 음성특징추출서버(140)는 제n 음성특징데이터에 상응하는 제n 음성특징정보 만을 검출해서 시청자단말기(150-m)로 전송할 뿐이고, 시청자단말기(150-m)에서 제n 시간적위치를 판단하여 부가정보를 시청자가 시청 중인 방송콘텐츠와 동기화하여 디스플레이하므로 음성특징추출서버(140)에 가중되는 부하를 줄이고, 네트워크 대역 소모를 최소화할 수 있을 것이다. 음성특징추출서버(140)는 시청자단말기(150-m)로부터 저용량의 음성특징데이터를 수신하고, 이에 대응하여 저용량의 음성특징정보를 시청자단말기(150-m)로 전송할 뿐이기 때문이다.
상술한 본 발명에 따른 방송콘텐츠의 부가정보 제공 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
또한, 상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (11)

  1. 음성특징추출서버에서 데이터통신망을 통하여 연결된 시청자단말기로 방송콘텐츠의 부가정보를 제공하는 방법에 있어서,
    방송콘텐츠의 오디오특징데이터를 추출하여 미리 설정된 단위로 그룹화한 음성특징정보를 구비된 저장 공간에 저장하는 단계; 및
    저장된 하나 이상의 상기 음성특징정보 중 상기 시청자단말기로부터 수신된 음성특징데이터에 상응하는 음성특징정보를 검출하여 상기 시청자단말기로 전송하는 단계;
    를 포함하되,
    상기 시청자단말기는 입력된 오디오신호에서 미리 설정된 방법에 따라 상기 음성특징데이터를 추출하여 상기 음성특징추출서버로 전송하고, 수신된 상기 음성특징정보에서 상기 음성특징데이터에 대응되는 시간적위치를 판단하며, 상기 시간적위치에 상응하는 부가정보를 디스플레이하는 것을 특징으로 하는 방송콘텐츠의 부가정보 제공 방법.
  2. 제1항에 있어서,
    상기 음성특징정보에 상응하는 상기 부가정보를 상기 시청자단말기로 전송하는 단계;
    를 더 포함하는 것을 특징으로 하는 방송콘텐츠의 부가정보 제공 방법.
  3. 제1항에 있어서,
    상기 시청자단말기로부터 부가정보요청이 수신되면 상응하는 상기 부가정보를 상기 시청자단말기로 전송하는 단계;
    를 더 포함하되,
    상기 시청자단말기는 상기 시간적위치에 대한 정보가 포함된 상기 부가정보요청을 전송하고, 상기 부가정보요청에 대응하여 상기 부가정보가 수신되면 상기 시간적위치에 상응하는 부가정보를 디스플레이하는 것을 특징으로 하는 방송콘텐츠의 부가정보 제공 방법.
  4. 제1항에 있어서,
    상기 방송콘텐츠의 오디오특징데이터를 추출하여 미리 설정된 단위로 그룹화하는 단계는,
    상기 방송콘텐츠의 오디오특징데이터를 미리 설정된 시간 단위 또는 용량 단위로 그룹화하는 단계;
    를 포함하는 것을 특징으로 하는 방송콘텐츠의 부가정보 제공 방법.
  5. 시청자단말기에서 시청자에게 방송콘텐츠의 부가정보를 제공하는 방법에 있어서,
    입력된 오디오신호에서 미리 설정된 방법에 따라 제n 음성특징데이터를 추출하여 데이터통신망을 통하여 연결된 음성특징추출서버로 전송하는 단계;
    상기 제n 음성특징데이터에 대응하여 수신된 제n 음성특징정보에서 상기 제n 음성특징데이터에 대응되는 제n 시간적위치를 판단하는 단계; 및
    상기 제n 시간적위치에 상응하는 부가정보를 디스플레이하는 단계;
    를 포함하되,
    상기 n은 자연수이고, 상기 음성특징추출서버는 방송콘텐츠의 오디오특징데이터를 추출하여 미리 설정된 단위로 그룹화한 음성특징정보 중 상기 제n 음성특징데이터에 상응하는 상기 제n 음성특징정보를 검출하여 전송하는 것을 특징으로 하는 방송콘텐츠의 부가정보 제공 방법.
  6. 제5항에 있어서,
    상기 부가정보를 디스플레이하는 단계는,
    상기 제n 시간적위치에 대한 정보가 포함된 부가정보요청을 상기 음성특징추출서버로 전송하는 단계;
    상기 음성특징추출서버로부터 상기 부가정보요청에 대응하여 상기 부가정보가 수신되는 단계; 및
    상기 제n 시간적위치에 상응하는 부가정보를 디스플레이하는 단계;
    를 포함하되,
    상기 음성특징추출서버는 상기 부가정보요청이 수신되면 상기 제n 시간적위치에 상응하는 상기 부가정보를 전송하는 것을 특징으로 하는 방송콘텐츠의 부가정보 제공 방법.
  7. 제5항에 있어서,
    상기 음성특징추출서버로부터 상기 제n 음성특징정보에 상응하는 상기 부가정보를 수신하는 단계;
    를 더 포함하는 것을 특징으로 하는 방송콘텐츠의 부가정보 제공 방법.
  8. 제5항에 있어서,
    미리 설정된 이벤트가 발생되면 제n+1 음성특징데이터를 추출하는 단계;
    기저장된 하나 이상의 음성특징정보 중 상기 제n+1 음성특징데이터에 상응하는 제n+1 음성특징정보를 검출하는 단계;
    상기 제n+1 음성특징정보에서 상기 제n+1 음성특징데이터에 대응되는 제n+1 시간적위치를 판단하는 단계; 및
    상기 제n+1 시간적위치에 상응하는 부가정보를 디스플레이하는 단계;
    를 더 포함하는 것을 특징으로 하는 방송콘텐츠의 부가정보 제공 방법.
  9. 제8항에 있어서,
    기저장된 하나 이상의 음성특징정보 중 상기 제n+1 음성특징데이터에 상응하는 음성특징정보가 검색되지 않으면, 제n+1 음성특징데이터를 상기 음성특징추출서버로 전송하는 단계; 및
    상기 음성특징추출서버로부터 상기 제n+1 음성특징데이터에 대응하여 상기 제n+1 음성특징정보가 수신되는 단계;
    를 더 포함하는 것을 특징으로 하는 방송콘텐츠의 부가정보 제공 방법.
  10. 제8항에 있어서,
    상기 제n+1 음성특징데이터를 추출하는 단계는,
    미리 설정된 시간이 경과되면 상기 제n+1 음성특징데이터를 추출하는 단계;
    를 포함하는 것을 특징으로 하는 방송콘텐츠의 부가정보 제공 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 기재된 방송콘텐츠의 부가정보 제공 방법을 컴퓨터에서 실행시키기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.
PCT/KR2012/005468 2011-07-25 2012-07-10 방송콘텐츠의 부가정보 제공 방법 및 그 시스템 WO2013015546A2 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP12817169.1A EP2739060A4 (en) 2011-07-25 2012-07-10 METHOD AND SYSTEM FOR PROVIDING ADDITIONAL INFORMATION ON BROADCAST CONTENT
US14/129,968 US9301006B2 (en) 2011-07-25 2012-07-10 Method and system for providing additional information on broadcasting content
CN201280034697.3A CN103748887B (zh) 2011-07-25 2012-07-10 用于在广播内容上提供附加信息的方法及系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2011-0073412 2011-07-25
KR1020110073412A KR101248844B1 (ko) 2011-07-25 2011-07-25 방송콘텐츠의 부가정보 제공 방법 및 그 시스템

Publications (2)

Publication Number Publication Date
WO2013015546A2 true WO2013015546A2 (ko) 2013-01-31
WO2013015546A3 WO2013015546A3 (ko) 2013-03-21

Family

ID=47601607

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/005468 WO2013015546A2 (ko) 2011-07-25 2012-07-10 방송콘텐츠의 부가정보 제공 방법 및 그 시스템

Country Status (5)

Country Link
US (1) US9301006B2 (ko)
EP (1) EP2739060A4 (ko)
KR (1) KR101248844B1 (ko)
CN (1) CN103748887B (ko)
WO (1) WO2013015546A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2526154A (en) * 2014-05-16 2015-11-18 Intrasonics Sarl Broadcast media synchronisation system
WO2017116052A1 (ko) * 2015-12-28 2017-07-06 삼성전자 주식회사 컨텐트 인식 장치 및 그 동작 방법

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101369475B1 (ko) 2013-01-23 2014-03-06 (주)엔써즈 방송 시청률 조사 시스템 및 방법
KR102069547B1 (ko) 2013-04-19 2020-01-28 삼성전자주식회사 방송 통신 시스템에서 부가 정보를 송수신하는 방법 및 장치
US10504200B2 (en) 2014-03-13 2019-12-10 Verance Corporation Metadata acquisition using embedded watermarks
JP2017514345A (ja) 2014-03-13 2017-06-01 ベランス・コーポレイション 埋め込みコードを用いた対話型コンテンツ取得
WO2016028936A1 (en) * 2014-08-20 2016-02-25 Verance Corporation Watermark detection using a multiplicity of predicted patterns
EP3225034A4 (en) 2014-11-25 2018-05-02 Verance Corporation Enhanced metadata and content delivery using watermarks
US9942602B2 (en) 2014-11-25 2018-04-10 Verance Corporation Watermark detection and metadata delivery associated with a primary content
CN104519373B (zh) * 2014-12-16 2017-12-01 微梦创科网络科技(中国)有限公司 媒体节目互动方法及相关设备
WO2016100916A1 (en) 2014-12-18 2016-06-23 Verance Corporation Service signaling recovery for multimedia content using embedded watermarks
KR20160146022A (ko) * 2015-06-11 2016-12-21 삼성전자주식회사 디스플레이장치, 사용자단말기 및 그 제어방법
WO2017043378A1 (ja) * 2015-09-07 2017-03-16 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US9596502B1 (en) * 2015-12-21 2017-03-14 Max Abecassis Integration of multiple synchronization methodologies
US11540009B2 (en) 2016-01-06 2022-12-27 Tvision Insights, Inc. Systems and methods for assessing viewer engagement
WO2017120469A1 (en) 2016-01-06 2017-07-13 Tvision Insights, Inc. Systems and methods for assessing viewer engagement
WO2017119604A1 (ko) * 2016-01-08 2017-07-13 주식회사 아이플래테아 시청률 산출 서버, 시청률 산출 방법, 및 시청률 산출 리모트 장치
CN105828220A (zh) * 2016-03-23 2016-08-03 乐视网信息技术(北京)股份有限公司 一种向视频文件中添加音频文件的方法和装置
US11770574B2 (en) * 2017-04-20 2023-09-26 Tvision Insights, Inc. Methods and apparatus for multi-television measurements
US20210337274A1 (en) * 2019-05-02 2021-10-28 Lg Electronics Inc. Artificial intelligence apparatus and method for providing visual information
KR102281494B1 (ko) * 2020-02-18 2021-07-26 주식회사 엘지유플러스 멀티미디어 콘텐츠 재생 처리를 위한 장치, 시스템 및 제어방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7673316B2 (en) 2001-05-10 2010-03-02 Yahoo! Inc. System and method for enhancing broadcast programs with information on the world wide web
US20110063503A1 (en) 2009-07-06 2011-03-17 Brand Steven M Synchronizing secondary content to a multimedia presentation

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100727072B1 (ko) * 2005-10-28 2007-06-12 주식회사 케이티프리텔 방송 컨텐츠 정보 제공 방법 및 시스템
US7913155B2 (en) * 2006-02-15 2011-03-22 International Business Machines Corporation Synchronizing method and system
KR20070097678A (ko) * 2006-03-28 2007-10-05 주식회사 케이티프리텔 방송 프로그램과 연동한 부가 정보 제공 장치 및 방법과이를 이용한 모바일 정보통신 단말
KR101436887B1 (ko) * 2008-02-26 2014-09-02 에스케이플래닛 주식회사 방송 컨텐츠와 부가 정보의 동기화 방법 및 시스템
KR101370315B1 (ko) * 2008-11-05 2014-03-05 에스케이플래닛 주식회사 셋탑박스를 이용한 방송컨텐츠의 상세정보 전송시스템 및 그 방법
US8489774B2 (en) * 2009-05-27 2013-07-16 Spot411 Technologies, Inc. Synchronized delivery of interactive content
US20110307917A1 (en) * 2010-06-11 2011-12-15 Brian Shuster Method and apparatus for interactive mobile coupon/offer delivery, storage and redemption system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7673316B2 (en) 2001-05-10 2010-03-02 Yahoo! Inc. System and method for enhancing broadcast programs with information on the world wide web
US20110063503A1 (en) 2009-07-06 2011-03-17 Brand Steven M Synchronizing secondary content to a multimedia presentation

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2526154A (en) * 2014-05-16 2015-11-18 Intrasonics Sarl Broadcast media synchronisation system
GB2526154B (en) * 2014-05-16 2020-12-30 Intrasonics Sarl Broadcast media synchronisation system
WO2017116052A1 (ko) * 2015-12-28 2017-07-06 삼성전자 주식회사 컨텐트 인식 장치 및 그 동작 방법
KR20170077730A (ko) * 2015-12-28 2017-07-06 삼성전자주식회사 컨텐트 인식 장치 및 그 동작 방법
US11151185B2 (en) 2015-12-28 2021-10-19 Samsung Electronics Co., Ltd. Content recognition apparatus and method for operating same
KR102560635B1 (ko) 2015-12-28 2023-07-28 삼성전자주식회사 컨텐트 인식 장치 및 그 동작 방법

Also Published As

Publication number Publication date
KR101248844B1 (ko) 2013-04-01
US9301006B2 (en) 2016-03-29
US20140130087A1 (en) 2014-05-08
EP2739060A2 (en) 2014-06-04
KR20130012306A (ko) 2013-02-04
CN103748887B (zh) 2017-07-21
WO2013015546A3 (ko) 2013-03-21
EP2739060A4 (en) 2015-02-11
CN103748887A (zh) 2014-04-23

Similar Documents

Publication Publication Date Title
WO2013015546A2 (ko) 방송콘텐츠의 부가정보 제공 방법 및 그 시스템
KR102058761B1 (ko) 단말 장치, 서버 장치, 정보 처리 방법, 프로그램, 및 링킹 애플리케이션 공급 시스템
WO2012148055A1 (ko) 클라이언트 단말기측으로 네트워크를 통해 방송에 포함된 광고와 연관된 정보를 제공하는 시스템 및 방법
KR101313293B1 (ko) 방송콘텐츠의 부가정보 제공 시스템 및 그 방법
WO2013022172A1 (en) Broadcast signal receiver, method for providing broadcast signal relation information, and server
JP2005510103A (ja) クローズドキャプションを使用する2つ以上の接続された再生装置の再生を同期するシステム
WO2010093189A2 (ko) 채널전환시간동안 광고영상을 보여주는 방송수신장치 및 이의 제어방법
US20090193463A1 (en) Method and system for sharing information between users in media reproducing system
WO2012108737A2 (ko) 디지털 방송 시스템에서 컨텐츠 송수신 장치 및 방법
WO2013133477A1 (ko) 온라인 생방송을 위한 실시간 다국어 자막 서비스 시스템 및 그 방법
WO2012030103A2 (en) Method and apparatus for providing preferred broadcast information
WO2014119883A1 (en) Method and device for providing service
KR20130074922A (ko) 디지털 워터마크를 이용한 멀티 디바이스간 프로그램 동기화 방법 및 이를 구현하기 위한 시스템
US20150193451A1 (en) Detecting Which Channel a Local STB is Displaying Using a Local Tuner
EP2874399A1 (en) Transmission device, information processing method, program, reception device, and application linking system
WO2017039152A1 (en) Broadcast receiving device, method for controlling the same and computer-readable recording medium
WO2015009115A1 (ko) 디지털 방송 수신기, 디지털 방송 수신기 제어 방법, 서버, 서버 제어 방법 및 컴퓨터 판독 가능 매체
WO2012070766A2 (ko) 동영상 핑거프린트 정보에 기반한 동영상 마크업 데이터 생성 방법 및 이를 이용한 정보 제공 방법 및 시스템
WO2018117430A1 (en) Electronic apparatus and control method thereof
US20090199247A1 (en) Video content distribution system and video content distribution reservation method
WO2015005613A1 (ko) 네트워크 부하 분산 기반 vod 콘텐츠 제공 장치 및 방법
KR101737897B1 (ko) 실시간정보 제공 시스템
KR20120063798A (ko) 방송콘텐츠의 부가정보 제공 시스템 및 그 방법
WO2019098624A1 (ko) 디스플레이장치 및 그 제어방법
WO2019098635A1 (ko) 북마크된 컨텐츠와 관련된 정보를 제공하는 전자 장치 및 그 전자 장치의 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12817169

Country of ref document: EP

Kind code of ref document: A2

WWE Wipo information: entry into national phase

Ref document number: 14129968

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE