WO2019172726A1 - 신호 송신 장치, 신호 수신 장치, 신호 전송 방법, 및 신호 수신 방법 - Google Patents
신호 송신 장치, 신호 수신 장치, 신호 전송 방법, 및 신호 수신 방법 Download PDFInfo
- Publication number
- WO2019172726A1 WO2019172726A1 PCT/KR2019/002786 KR2019002786W WO2019172726A1 WO 2019172726 A1 WO2019172726 A1 WO 2019172726A1 KR 2019002786 W KR2019002786 W KR 2019002786W WO 2019172726 A1 WO2019172726 A1 WO 2019172726A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- context
- data
- keyword
- information
- user
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/835—Generation of protective data, e.g. certificates
- H04N21/8352—Generation of protective data, e.g. certificates involving content or source identification data, e.g. Unique Material Identifier [UMID]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
- G06F16/784—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/7854—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using shape
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
- H04N21/8405—Generation or processing of descriptive data, e.g. content descriptors represented by keywords
Definitions
- the present invention relates to a signal transmission device, a signal reception device, a signal transmission method, and a signal reception method.
- the digital broadcast signal may include a larger amount of video / audio data than the analog broadcast signal, and may further include various types of additional data as well as the video / audio data.
- the digital broadcasting system may provide high definition (HD) images, multichannel audio, and various additional services.
- HD high definition
- data transmission efficiency for a large amount of data transmission, robustness of a transmission / reception network, and network flexibility in consideration of a mobile receiving device should be improved.
- the present invention can provide various broadcast services by processing data according to service characteristics to control a quality of service (QoS) for each service or service component.
- QoS quality of service
- the present invention can achieve transmission flexibility by transmitting various broadcast services through the same radio frequency (RF) signal bandwidth.
- RF radio frequency
- the present invention can improve data transmission efficiency and robustness of transmission and reception of broadcast signals using a multiple-input multiple-output (MIMO) system.
- MIMO multiple-input multiple-output
- the present invention it is possible to provide a broadcast signal transmission and reception method and apparatus capable of receiving a digital broadcast signal without errors even when using a mobile reception device or in an indoor environment.
- FIG. 1 illustrates a structure of a broadcast signal transmission apparatus for a next generation broadcast service according to embodiments of the present invention.
- FIG. 2 illustrates a structure of a broadcast signal receiving apparatus for a next generation broadcast service according to embodiments of the present invention.
- FIG. 3 illustrates a configuration of a system including a signal transmission device and a signal reception device according to embodiments of the present invention.
- FIG. 4 illustrates a structure of service data based on a context.
- FIG. 5 shows a configuration of service data and signaling information transmitted by the signal transmission apparatus.
- FIG. 6 shows a structure of a file format in which context information is inserted.
- FIG. 7 shows the syntax of a sample group box of a media file format.
- FIG. 8 shows the syntax of a sample group description box in a media file format.
- 11 shows a configuration of a context-based AI media service system.
- FIG. 13 illustrates a method of providing service guide information by a signal receiving apparatus according to embodiments of the present invention.
- FIG. 14 illustrates a method in which a signal receiving device receives a user request according to embodiments of the present invention.
- 15 illustrates a method of performing AI control by a signal receiving apparatus receiving a user request according to embodiments of the present invention.
- FIG. 16 illustrates a signal transmission method according to embodiments of the present invention.
- FIG. 17 illustrates a signal receiving method according to embodiments of the present invention.
- the present invention provides an apparatus and method for transmitting and receiving broadcast signals for next generation broadcast services.
- the next generation broadcast service includes a terrestrial broadcast service, a mobile broadcast service, a UHDTV service, and the like.
- a broadcast signal for a next generation broadcast service may be processed through a non-multiple input multiple output (MIMO) or MIMO scheme.
- MIMO multiple input multiple output
- the non-MIMO scheme may include a multiple input single output (MISO) scheme, a single input single output (SISO) scheme, and the like.
- the MISO or MIMO scheme uses two antennas, but the present invention can be applied to a system using two or more antennas.
- FIG. 1 shows a structure of a broadcast signal transmission apparatus for a next generation broadcast service according to an embodiment of the present invention.
- a broadcast signal transmission apparatus for a next generation broadcast service includes an input format block 1000, a bit interleaved coding & modulation (BICM) block 1010, and a frame building block 1020, orthogonal frequency division multiplexing (OFDM) generation block (OFDM generation block) 1030, and signaling generation block 1040. The operation of each block of the broadcast signal transmission apparatus will be described.
- BICM bit interleaved coding & modulation
- OFDM generation block orthogonal frequency division multiplexing
- signaling generation block 1040 The operation of each block of the broadcast signal transmission apparatus will be described.
- IP streams / packets and MPEG2-TS are the main input formats and other stream types are treated as general streams.
- management information is input to control the scheduling and allocation of the corresponding bandwidth for each input stream.
- One or multiple TS streams, IP streams and / or general stream inputs are allowed at the same time.
- the input format block 1000 can demultiplex each input stream into one or multiple data pipes to which independent coding and modulation is applied.
- the data pipe is the basic unit for controlling robustness, which affects the quality of service (QoS).
- QoS quality of service
- One or multiple services or service components may be delivered by one data pipe. Detailed operations of the input format block 1000 will be described later.
- a data pipe is a logical channel at the physical layer that carries service data or related metadata that can carry one or multiple services or service components.
- the data pipe unit is a basic unit for allocating data cells to data pipes in one frame.
- parity data is added for error correction and the encoded bit stream is mapped to a complex value constellation symbol.
- the symbols are interleaved over the specific interleaving depth used for that data pipe.
- MIMO encoding is performed at BICM block 1010 and additional data paths are added to the output for MIMO transmission. Detailed operations of the BICM block 1010 will be described later.
- the frame building block 1020 may map data cells of an input data pipe to OFDM solid balls within one frame. After mapping, frequency interleaving is used for frequency domain diversity, in particular to prevent frequency selective fading channels. Detailed operations of the frame building block 1020 will be described later.
- the OFDM generation block 1030 can apply existing OFDM modulation having a cyclic prefix as the guard interval.
- a distributed MISO scheme is applied across the transmitter.
- a peak-to-average power ratio (PAPR) scheme is implemented in the time domain.
- PAPR peak-to-average power ratio
- the proposal provides a variety of FFT sizes, guard interval lengths, and sets of corresponding pilot patterns. Detailed operations of the OFDM generation block 1030 will be described later.
- the signaling generation block 1040 may generate physical layer signaling information used for the operation of each functional block.
- the signaling information is also transmitted such that the service of interest is properly recovered at the receiver side.
- FIG. 2 illustrates a structure of a broadcast signal receiving apparatus for a next generation broadcast service according to an embodiment of the present invention.
- the broadcast signal receiving apparatus for the next generation broadcast service may correspond to the broadcast signal transmitting apparatus for the next generation broadcast service described with reference to FIG. 1.
- An apparatus for receiving broadcast signals for a next generation broadcast service includes a synchronization & demodulation module 9000, a frame parsing module 9010, a demapping and decoding module a demapping & decoding module 9020, an output processor 9030, and a signaling decoding module 9040. The operation of each module of the broadcast signal receiving apparatus will be described.
- the synchronization and demodulation module 9000 receives an input signal through m reception antennas, performs signal detection and synchronization on a system corresponding to the broadcast signal receiving apparatus, and performs a reverse process of the procedure performed by the broadcast signal transmitting apparatus. Demodulation can be performed.
- the frame parsing module 9010 may parse an input signal frame and extract data in which a service selected by a user is transmitted.
- the frame parsing module 9010 may execute deinterleaving corresponding to the reverse process of interleaving. In this case, positions of signals and data to be extracted are obtained by decoding the data output from the signaling decoding module 9040, so that the scheduling information generated by the broadcast signal transmission apparatus may be restored.
- the demapping and decoding module 9020 may convert the input signal into bit region data and then deinterleave the bit region data as necessary.
- the demapping and decoding module 9020 can perform demapping on the mapping applied for transmission efficiency, and correct an error generated in the transmission channel through decoding. In this case, the demapping and decoding module 9020 can obtain transmission parameters necessary for demapping and decoding by decoding the data output from the signaling decoding module 9040.
- the output processor 9030 may perform a reverse process of various compression / signal processing procedures applied by the broadcast signal transmission apparatus to improve transmission efficiency.
- the output processor 9030 may obtain necessary control information from the data output from the signaling decoding module 9040.
- the output of the output processor 8300 corresponds to a signal input to the broadcast signal transmission apparatus and may be MPEG-TS, IP stream (v4 or v6), and GS.
- the signaling decoding module 9040 may obtain PLS information from the signal demodulated by the synchronization and demodulation module 9000. As described above, the frame parsing module 9010, the demapping and decoding module 9200, and the output processor 9300 may execute the function using data output from the signaling decoding module 9040.
- the signal transmission device and the signal reception device according to embodiments of the present invention may include a broadcast transmission and reception device as shown in FIGS. 1 to 2. Furthermore, the signal transmission device and the signal reception device according to the embodiments of the present invention are not limited to the broadcast transmission and reception device, and include a device for processing and transmitting data and a device for receiving.
- FIG. 3 illustrates a configuration of a system including a signal transmission device and a signal reception device according to embodiments of the present invention.
- a system including a signal transmission device and a signal reception device may provide a context-based artificial intelligence (AI) media service.
- the signal transmission apparatus may include a production 30100 and a system 30200.
- Production (Produntion) 30100 may generate content data.
- the production 30100 inserts context identification information (context ID) and keyword (Keyword) on the service data constituting the content data.
- the context identification information refers to information that can identify context information of service data of content.
- the keyword refers to a keyword that can be recognized by AI.
- the keyword may include natural language used by the user.
- the signal transmission apparatus according to the embodiments of the present invention may use a context identifier and a natural language keyword to provide a context-based media service. Through the context and keywords, the signal transmission apparatus according to the embodiments of the present invention may provide a specific and selective media service desired by the user.
- context identification information and keyword information may be referred to as AI / context identifier.
- the service data constituting the content may include A / V data 30110.
- the service data may include 'A' data (A scene, 30110), 'B' data (B scene), and 'C' data (C scene).
- the production 30100 may insert the AI / context identifier 30120 including the context identifier information and the keyword information representing the 'A' data onto the 'A' data.
- the position at which the AI / context identifier 30120 is inserted may be located after 'A' data as shown in FIG. 3.
- Production 30100 according to embodiments of the present invention can directly process the matching of the natural language requested by the user by inserting the AI / context identifier 30120 directly into the service data.
- the production 30100 may insert an AI / context identifier associated with each data to the 'B' data (B scene) and the 'C' data (C scene).
- the production 30100 transmits the generated content to the system 30200 based on the context identification information and the keyword information.
- the production 30100 generates the AI / context identification information 30120 based on the context of the media data included in the media stream, and the generated AI / context identification information 30120 is the media data. Used as mark-up information for.
- the production 30100 may be located before the BICM 1010 in the configuration of the broadcast signal transmission apparatus of FIG. 1.
- the production 30100 may be located in front of an encoder encoding service data by a separate system in addition to the broadcast signal transmission apparatus.
- the production 30100 may be referred to as a content generator, a generator, a first generator, or the like.
- the system 30200 includes an encoder 30210, a file generator 30220, a signaling information generator 30230, and / or a transmitter 30240. can do.
- Encoder 30210 may encode content generated by production 30100.
- the encoder 30210 may correspond to the BICM module 1010 of FIG. 1.
- the encoder 30210 may perform BCH (Bose, Chaudhuri, Hocquenghem) encoding or Low-Density Parity Check (LDPC) encoding.
- the encoder 30210 may identify errors or correct errors for the data including the content.
- Encoder 30210 passes data containing the content to file generator 30220.
- the encoder 30210 receives the content including the media data 30110, the context identification information 30120, and the AI keyword 30120 from the production 30100, and encodes the content. do.
- the encoder 30210 according to the embodiments of the present invention can recognize mark-up information such as context identification information 30120 and AI keyword 30120, mark-up information and media Encode a sequence or stream that contains data.
- mark-up information such as context identification information 30120 and AI keyword 30120
- the context identification information 30120 and the AI keyword the context identification information 30120 and the AI keyword
- the encoder encodes only media data, ignoring mark-up information such as 30120.
- the file generator 30220 may generate data including content in a format according to ISO BMFF (base media file format).
- the ISO BMFF media file may be used in broadcast network / broadband delivery, media encapsulation and / or synchronization format.
- data including content may be referred to as service data or media data.
- the service data is all data related to the service, and may be a concept including service components constituting the linear service, signaling information thereof, non real time (NRT) data, and other files.
- the file generator 30220 may transfer the service data to the transmitter 30240.
- the file generator 30220 may be referred to as a first generator, a second generator, or the like.
- the signaling information generator 30230 may generate signaling information about the media data.
- the signaling information generator 30230 may provide signaling information according to MPEG-DASH (Moving Picture Picture Experts Group Dynamic Picture Streaming Streaming HTTP).
- the media data may follow the format of the DASH-based media, where the signaling information includes attributes for playing the DASH-based media, synchronization information, and the like.
- the format of the media data may vary, and the signaling information may be defined according to the format of the media data.
- the signaling information generator 30230 may generate signaling information about the media data and transmit the signaling information to the transmitter 30240.
- the signaling information generator 30230 may be referred to as a first generator, a second generator, or the like.
- the transmitter 30240 may generate a signal including service data and signaling information about the service data.
- the transmitter 30240 may transmit a signal.
- the transmitter 30240 may transmit a signal through a broadcast network or broadband.
- the signal is not limited to the broadcast signal and may be interpreted as a signal including video data or audio data.
- a signal receiving apparatus may include a system 32000 and a display 32100.
- the system 32000 may include a receiver 32010, a file 32020, a signaling information decoder 32030, a controller 32040, and / or a decoder 32050. Can be.
- the receiver 32010 may receive a signal.
- the receiver 32010 may receive a signal including data.
- the receiver 32010 may transmit a signal including data to the file 32020.
- the signal may include service data and signaling information.
- the file 32020 may acquire or parse service data in a file format from a signal.
- the file 32020 may perform an inverse operation of the file generator 30220 of the signal transmission device according to embodiments of the present invention.
- the file 32020 may be referred to as a file parser, a file decoder, or the like.
- File 32020 may deliver service data to decoder 32050.
- the signaling information decoder 32030 may obtain or decode signaling information for service data from the signal.
- the signaling information decoder 32030 may perform an inverse process of the signaling information generator 30230 of the signal transmission apparatus according to the embodiments of the present invention.
- the controller 32040 may receive a request from a user.
- the user's request may include a user's input signal, a user's command, and the like.
- the signal receiving apparatus may display guide information on service data to a user through service guide information included in a signal.
- the signaling information decoder 32030 may obtain signaling information from the signal and provide signaling information about the service data to the user.
- the user may request a service desired by the user through the signaling information to the controller 32040 through natural language.
- the controller 32040 receives a request through natural language from a user.
- the controller 32040 controls the signal receiving apparatus to access the service data desired by the user through the signaling information.
- the controller may use AI (Artificial Intelligence) in the process of responding to requests through natural language from the user.
- AI Artificial Intelligence
- Decoder 32050 decodes service data and signaling information for service data.
- the decoder 32050 performs an inverse process of the encoder 30200 of the signal transmission apparatus according to the embodiments of the present invention.
- the decoder 32050 transmits service data and signaling information about the service data to the display 32100.
- the display 32100 may display the A / V data 32100 included in the service data.
- the data 32100 may be 'A' data included in the data 30110 generated by the signal transmission apparatus according to the exemplary embodiments of the present invention.
- the display 32100 may be referred to as a display unit, a display unit, or the like.
- the display 32100 according to embodiments of the present invention may selectively display media data based on request information received from a user through the controller 32040.
- the production 30110 may insert an AI / Context identifier including the context identifier and one or more AI keywords into the service data.
- the system 30200 including the encoder 30200 may recognize only a media data sequence and encode data. For this reason, the system 30200 does not recognize context based service data. Therefore, the signal transmission apparatus according to the embodiments of the present invention may generate context-based service data as shown in FIG. 4 through the production 30110.
- the production 30100 may transmit the content to the encoder 30200, and the encoder 30200 may encode service data included in the content.
- the production 30100 transmits the content to the file generator 30220, and the file generator 30220 may generate a structure of media data used for transmission from context-based information and service data included in the content.
- the structure of specific media data will be described in detail with reference to FIGS. 4 and 5.
- the raw video sequence may be input to the production 30100.
- the raw video column data may include A data (A Scene, 4020), B data (B Scene, 4030), and the like.
- the production 30100 inserts into the A data a context identifier 4010 that can identify the A data and one or more keywords 4010 related to the A data.
- production 30100 may insert context identifier and keyword 4010 before A data.
- Production 30100 according to embodiments of the present invention may insert a context identifier and keyword 4010 after A data.
- the production 30100 generates a piece of content including the A data and the context identifier and keywords related to the A data.
- the production 30100 inserts context identifiers and keywords into the data based on the context timeline 4040 to identify the data based on the context.
- the production 30100 may generate a video sequence including a plurality of contents by inserting context identifiers and keywords for each data in a plurality of A data and B data included in the row video column.
- Production 30100 delivers
- context identification information and AI keyword information 4010 for marking up the A data may be inserted before one or more A data included in the video sequence.
- the ball touch scene of player A appearing in the soccer game is classified as A data
- context identification information and AI for each A data also appear for player B and player C appearing in A data.
- the keyword information 4010 may be used to mark up.
- the mark-up information and the media data targeted for the mark-up information may be classified in various ways according to embodiments of the present invention.
- the encoder 30200 delivers the content to the encoder 30200.
- the 3030 may receive the content as timed metadata in the form of a track aligned with a timeline such as the context timeline 4040.
- an encoder that is not supported by the AI system may process A data (Scene grouping) included in the media data. Accordingly, the signal transmission device and the reception device according to the embodiments of the present invention can provide compatibility between an encoder supported by the AI system and an encoder not supported by the AI system.
- the encoder 30200 when the encoder 30200 according to the embodiments of the present invention receives the media data and the timed metadata from the production 30100 in two tracks, the encoder may encode only the media data. . When the encoder 30200 receives content from the production 30100 on a single track, the encoder 30200 may ignore the mark-up information included in the video stream and encode only the video data.
- a data (A scene) of FIG. 4 may mean a sample group.
- a sample represents a frame in a media file. That is, one sample means one frame of media, or an accessible media accessing unit of frame or less. Accordingly, the signal receiving apparatus according to the embodiments of the present invention may access the sorted sample or sample group through the sample entry.
- a sample group means a bundle of samples. The sample group represents a meaningful group of samples, and the sample group is accessed through the description of the sample entry and the sample group. Comparing the sample group entry and the sample entry, the sample group entry represents the bundled sample group according to the grouping attribute, and the sample entry represents the sample accessible without the grouping attribute.
- the grouping attribute is represented by grouping type information (grouping_type).
- FIG. 5 shows a configuration of service data and signaling information transmitted by the signal transmission apparatus.
- the system 30200 since the system 30200 cannot recognize and process context-based data, the system 30200 provides a service in a form in which a signal transmission device can transmit the context-based content generated by the production 30110. Generate data. Furthermore, the system 30200 generates signaling information about the service data to be transmitted.
- System 30200 receives content 5010 from production 30110.
- the content 5010 includes a context identifier and a keyword for each data.
- the encoder 30200 encodes media data included in the content.
- File generator 30220 may generate content 5010 from production 30110 to generate media data 5030 in file format.
- the file generator 30220 may transmit the media data based on the container format 5030 for transmitting the media data.
- the media data 5030 may include a box form according to ISO BMFF. Boxes according to ISO BMFF include moov boxes, moof boxes, mdat boxes, and the like. Such boxes may have a hierarchical structure. The hierarchical structure of the box is described in detail in FIG.
- system 30200 generates signaling information 5020 that includes information including context identifiers and keywords from content 5010, and context identifiers and keywords from content 5010.
- Media data 5030 is generated by extracting only the service data (A Scene, B Scene, etc.) except for the following.
- the signaling information 5020 may be generated by the signaling information generator 30230.
- Media data 5030 may be generated by file generator 30220.
- the moof box 5032 is a Movie Fragment Box and is included in the file.
- the moof box 5032 contains a class of hierarchies, and a particular class includes a sample description corresponding to each entry instance according to an entry of data present in the media file.
- the file of media data may provide information accessing each sample or clusters of samples.
- the media data or segment 5030 includes a moov box 5031, and the moov box 5031 may contain decoding initialization information for media samples (A Secne, B Scene, etc.) following the moov box 5031. Can be.
- the moov box 5031 may include sample description information and sample grouping information for media samples (A Secne, B Scene, etc.).
- Media data or segment 5030 includes a moov box 5031 followed by a moof box 5032.
- the moof box 5032 may provide a description of a specific sample by grouping the time indexing information of the sample and the sample using a media fragment included in the moof box 5032.
- the signal transmission apparatus uses a sample group box (SampleToGroup Box, sbgp) included in the moov box 5031 to provide sample grouping.
- the SampleToGroup Box (sbgp) contains grouping information for each sample, and each grouped entry is assigned to a specific description based on the class of the sample group description box. Can provide. Specific syntax of the sample group box (sbgp) is described with reference to FIG. 7, and specific syntax of the sample group description box is described with reference to FIGS. 8 to 9.
- the signal transmission apparatus Since the signal transmission apparatus according to the embodiments of the present invention generates media data using content in which context information is directly inserted into data, as shown in FIG. have.
- the signal transmission device may transmit time metadata. This approach may process additional data via a System Time Aligned Hint Track associated with the media track. Although the system generates metadata to transmit media related data and transmits metadata, the metadata cannot reflect the context of the media data.
- the apparatus for transmitting a signal may insert an additional text metadata sample into an encoding frame structure of data. The signal transmission device may insert an additional metadata sample at a location designated by an insertion point on the encoding frame structure.
- the signal transmission apparatus proposes a method of directly inserting context information of media data on a frame structure including media data, rather than inserting metadata at a specific location.
- the signal transmission apparatus does not need a method of accessing the media included in the file based on the byte sequence of the video data.
- the signal transmission apparatus configures a media file format for information for context-based access.
- system 30200 can encode media data. This encoding scheme is not limited to the encoding frame attribute of the media data. That is, the media data can be accessed based on the person, episode, view, etc., which are information related to the media data.
- the information for context-based access is not limited to video optional initialization information of media data or additional metadata in the form of URI, and may be defined by extending specific information included in ISO BMFF.
- the signaling information generator 30230 generates signaling information based on data, context identifiers, and keywords included in the content that the system 30200 receives from the production 30110.
- the signal transmission device and the signal reception device according to embodiments of the present invention may provide a context-based media service based on the signaling information generated by the signaling information generator 30230.
- the signal transmission device and the signal reception device according to the embodiments of the present invention may provide a context-based AI media service based on the signaling information.
- the signaling information generator 30230 may generate signaling information and insert the signaling information into the manifest 5020.
- the manifest 5020 may include information for identifying service data included in content, context identification information for service data, keyword information for an AI media service, and the like.
- the manifest may transmit content related additional data through service signaling.
- the signaling information generator 30230 recognizes context-related additional data of the content generated by the production 30110.
- the signaling information generator 30230 inserts context-related additional data of the content as service signaling information in the manifest.
- the signal transmission apparatus can access a scene or sequence for a media file based on a context identifier.
- the controller 32040 receives the AI request of the user and acquires service signaling information included in the manifest corresponding to the context.
- the controller 32040 requests a file matching the context and AI natural language.
- Display 32100 then plays the matching file.
- the signal transmission apparatus may provide a context-based AI media service to a user.
- FIG. 6 shows a structure of a file format in which context information is inserted.
- the production 30100 generates content using context related information including a context identifier and keywords according to the context timeline.
- System 30200 extracts service data 4020 and 4030 from the content and generates boxes 5031 and 5032 to generate media data.
- 6 illustrates a hierarchical structure of a file format of media data in which timed context related information is inserted.
- the media file format of FIG. 6 may be understood with reference to the ISO / IEC 14496-12 standard.
- the media file format according to the embodiments of the present invention may be defined according to the structure of a container or box form as shown in FIG. 6.
- the media data 5030 includes a first box 61000 including context related signaling information and a second box mdat 62000 including context related media data.
- the second box mdat 62000 means a media data container or a media data box.
- the first box 61000 includes a third box ftyp 61100 and a fourth box moov 61200.
- the third box (ftyp, 61100) is a file type box and contains information indicating the type of media file.
- the file can be identified through the information in the third box.
- the third box 61100 may be located in front of the media data.
- the fourth box (moov) 61200 is a movie box and is located behind the third box (61100).
- the fourth box 61200 includes metadata for presentation.
- the fourth box (moov, 61200) includes a fifth box (Trak, 61210).
- the fourth box moov 61200 may be referred to as a movie box.
- the fifth box Trak 61210 is a track box.
- the fifth box Trak 61210 refers to a container box for a single track of the presentation.
- the presentation consists of one or more tracks.
- the fifth box Trak 61210 includes temporal and spatial information of the media data.
- the fifth box Trak 61210 includes a sixth box tkhd 61220.
- the sixth box tkhd, 61220 is a track header box. Since one track box is included in one track, the sixth box tkhd and 61220 includes characteristic information of a single track. When the track identifier TrackID is 1, the sixth box tkhd 6161 includes a seventh box Muf 61240.
- the seventh box (Minf) 61240 is a media information box and includes characteristic information of the media included in the track.
- the seventh box (Minf, 61240) includes an eighth box (stbl, 61250).
- the eighth box stbl 61250 is a sample table box and is included in the media information box minf.
- the eighth box stbl 61250 includes information about media samples included in the track. Using the information included in the eighth box (stbl, 61250), it is possible to determine the location of the samples in time, the type and size of the samples, and the like.
- the eighth box (stbl, 61250) includes a ninth box (stsd, 61252) and a tenth box (sgpd, 61252).
- the ninth box stsd 61252 is a sample description box and is included in the sample table box stbl.
- a ninth box stsd 61252 includes coding type information and / or initialization information required for coding.
- the tenth box (sgpd) 61252 is a sample group description box and is included in a sample table box.
- the tenth box sgpd 61252 includes characteristic information of sample groups.
- the tenth box (sgpd) 61252 includes information necessary to define or characterize a sample group. When the number of sample groups for the samples included in the track is plural, there may be several instances of the sample group description box.
- the ninth box stsd 61252 includes eleventh boxes hvc1 and 61251-1.
- the eleventh box hvc1 and 61251-1 includes a twelfth box hvcC 61251-2.
- the eleventh boxes hvc1 and 61251-1 and the twelfth box hvcC and 61251-2 are video sample description boxes based on video encoding of HEVC (High Efficiency Video Decodec).
- the ninth box stsd and 61252 may include sample descriptions according to various video encoding methods such as MPEG-2, AVC, HEVC, and the like. 6 illustrates a structure in which a class of hvc1-hvcC description according to the HEVC scheme is used.
- the tenth box includes a twelfth box (tcin, 61252-1).
- the tenth box sgpd 6161 may be defined below the ninth box stsd 61252.
- the tenth box (sgpd, 61252) is located below the ninth box (stsd, 61252), so that the tenth box (sgpd, 61252) receives grouping information about the sample according to the attributes of the ninth box (stsd, 61252). Because it can be used to provide.
- Specific syntax for the sample and sample grouping according to the structure of the box of FIG. 6 will be described in detail with reference to FIGS. 7 to 9.
- the signal transmission apparatus may include a group description index, a context sequence number, and an AI keyword included in a twelfth box tcin 61252-1. Can be used to provide descriptions for the samples included in the media data or video sequence and for each entry grouping the samples. Specific syntax of the twelfth box tcin 61252-1 will be described with reference to FIG. 9.
- the second box mdat 62000 is a media data box and is a container for media data. In the case of a video track, the second box (mdat) 62000 contains video frames.
- the presentation includes zero or one or more media data boxes. 6 shows a configuration in which the second box mdat 62000 includes a context for media data.
- the second box mdat 62000 may include a plurality of contexts. In the present specification, the plurality of contexts may be referred to as a first context 6210, a second context 6620, a third context 6230, a fourth context 6040, and the like.
- the ninth box stsd and 61252 may describe information defining a sample description through the eleventh boxes hvc1 and 61251-1 and the twelfth box hvcC 61251-2. If the second box (mdat) 62000 contains a plurality of media data, for example video data, the media file format includes a sample description in accordance with time aligned time context information. can do. Information for the sample description may be included in the eleventh boxes hvc1 and 61251-1 and the twelfth box hvcC 61251-2, which are lower boxes of the ninth box stsd and 61252.
- the signal transmission apparatus can separate a video sequence according to a context, and provide an effect of selectively and independently reproducing video data by accessing a video sequence separated for each context.
- the signal transmission apparatus uses a plurality of contexts through sample grouping information in a media file format as shown in FIG. Can be distinguished. The syntax of specific sample groupings is described in FIG.
- FIG. 7 shows the syntax of a sample group box of a media file format.
- the sample group box (sbgp) of FIG. 7 may be further included in the eighth box (stbl) 61250 of FIG. 6.
- the sample group box may be used to find a group to which a sample belongs.
- the SampleToGroup Box can be used to find descriptions associated with a sample group.
- the sample group box (SampleToGroup Box) may include grouping type (Grouping_type) information and group description index (group_description_index) information.
- the grouping type is information for identifying the type of sample grouping.
- the grouping type (Grouping_type) indicates a criterion or type used to create a sample group.
- the grouping type (Grouping_type) may be used to link to the sample group description table having the same value for the grouping type.
- the same sample group box with the same value for the grouping type based on the grouping type parameter (grouping_type_parameter) may exist at most once for one track.
- the group description index indicates an index of a sample group entry that describes the samples included in the group.
- the index may have a value from 1 to the number of sample group entries included in the sample group description box. If the sample is a member of a group other than a group of this type, the index may have a value of zero.
- sample group box can provide samples and descriptions associated with a particular sample group to provide group information for various entry instances.
- Grouping type (Grouping_type) information and group description index (group_description_index) information of the sample group box may be defined based on 14496-12 ISOBMFF.
- the signal transmission apparatus may further extend the grouping type information and the group description index information.
- the signal transmission apparatus may define tcin by newly allocating a value of grouping type information.
- the sample group corresponding to the case where the context group type is tcin may support optional context-based media services.
- the grouping type parameter grouping_type_parameter may indicate a sample group having the same value when there is a box having the same sample group type in one track.
- the entry count information of the sample group box indicates the number of entries included in the table.
- the entry count information indicates the total number of sequences separated by context based on the entire video sequence.
- the entry count information may indicate a group entry.
- the sequence for the gig entry count includes a sample count and a group description index.
- the sample count indicates the number of samples included in the sequence.
- the group description index indicates indexing information for bundles grouped according to context identifiers.
- the group description index means identification information (ID) for identifying a context in which video data is divided into conditions such as an episode and a person.
- ID identification information
- the media file format can be further extended. The further extended file format is described in detail in FIG.
- FIG. 8 shows the syntax of a sample group description box in a media file format.
- the sample group description box of FIG. 8 corresponds to the tenth box sgpd 6161.
- the sample group description box of FIG. 8 is a box that may describe the description of group entries defined in the SampleToGroup Box of FIG.
- the number of descriptions for an entry which is a bundle of currently specified samples, can be adjusted according to the entry value.
- the signal transmission apparatus may identify a collection or sequence of samples corresponding to the context for the video data or the media data, and access the media data through a keyword for the user's request.
- the sample group description box further includes a sample group entry.
- the sample group entry can be further extended by further including a visual sample group entry.
- the interior of the visual sample group entry may be further expanded as shown in FIG.
- the extended internal structure of the visual sample group entry is described in detail in FIG.
- the grouping type is information for identifying the type of sample grouping.
- the entry count represents the total number of sequences separated by context based on the entire video sequence. For each entry count, the length or number of descriptions for the separated sequence for each context may be defined.
- the default length indicates the length of the sample that should be accessed by default in the sample grouping bundle according to the grouping type.
- the default sample description index (default_sample_description_index) indicates the index of the default sample description when there is a sample description that should be accessed by default among the sample description for the entry.
- the entry count indicates the number of sample groupings. For each entry count, if the default length is zero, the length of the description corresponding to the entry is included in the sample description box. For each entry count, if the grouping type is tcin, the sample group entry is included in the sample description box.
- the sample group description box provides information about the type and description length for the sample group, and further, provides a context based group for the sample group entry by providing a sample group entry for each entry.
- the sample group entry may further include a visual sample group entry, and the visual sample group entry may be extended through the timed context information sample entry of FIG. 9.
- the context identification information is a delimiter or identifier for identifying a context.
- the context identification information Context_id may indicate the same meaning as the group description index included in the sample group box (sbgp).
- the group description index may be referred to as a sample description index.
- the group description index means information indicating a bundle grouped on the basis of context identification information.
- the group description index or sample description index is used to context group index the grouped bundle.
- the apparatus for transmitting a signal parses a content having context identification information and an AI keyword inserted therein and uses the context identification information for the media data included in the content. Can be categorized and categorized. Therefore, the value of the context identification information is categorized by keyword and context.
- the value of the categorized context identification information may be defined in the DASH Media Presentation Description (MPD).
- MPD DASH Media Presentation Description
- the signal transmission device or the signal reception device according to the embodiments of the present invention may perform matching for each context using a value included in the MPD.
- the default sequence play indicator indicates whether the sequence should be played.
- the apparatus for receiving a signal may check whether a default sequence sequence play indicator (default_sequence_play_indicator) is checked before playing media data selectively or independently according to a context.
- the default sequence play context ID (default_sequence_play_context_id) indicates a reference context id corresponding to a sequence to be played before the selective playback according to the context.
- the apparatus for receiving a signal identifies the bundled samples for each context, identifies a sequence to be played by default among the samples, and corresponds to a group description index when a sequence to be played by default exists. You can check the context identifier of the sequence that should be played by default for the group.
- the movie fragment sequence number (movie_fragment_sequence_number) represents the number of the movie fragment sequence at the present time.
- the context sequence number (context_sequence_number) represents the sequence number of consecutive samples grouped by the current context.
- the keyword AI_keyword indicates whether the consecutive samples grouped by the current context include the keyword AI. If the grouping samples include a keyword, the keyword value (keyowrd) is included in the time context information sample entry as a string type.
- the keyword represents a keyword that can recognize the AI based request of the user. Specifically, the keyword may include the name of the program, the type of the program, the performer of the program, and the like.
- the inclusion of a keyword value is optional. That is, the signal transmission apparatus according to the embodiments of the present invention may insert a keyword for samples for each context or may not insert the keyword.
- the apparatus for receiving a signal parses sample entry information, checks keyword values for each context identification information, connects to keywords included in the natural language requested by the user, and provides an optional media service to the user. can do.
- the signal transmission apparatus may obtain context identification information that may distinguish media data or a video sequence according to a context included in content.
- the sequence according to the context identification information can be selectively played.
- the signal transmission apparatus or the signal reception apparatus according to the embodiments of the present invention may selectively reproduce a sequence corresponding to the AI request of the user through an AI keyword included in a sample entry box for context information. .
- the signal transmission device and the reception device can provide a context-based media service. That is, the signal transmission device and the reception device recognize a user's natural language keyword based on an AI method, and connect the recognized keyword with context related information included in the media service to provide a selective media service.
- the signal transmission apparatus further provides a service guide based on schematic information such as a title, genre, and character of a specific program or content, and uses an AI scheme to Can understand natural language. Furthermore, the signal transmission apparatus of the present invention may build big data based on the natural language of the user and utilize the big data. In addition, the signal transmission apparatus according to the embodiments of the present invention may further provide a media service by recognizing the context, in addition to the VOD service, the OTT application, the service for each episode, and the content for each movie and the date. Application services and Automatic Content Recognition (ACR) services are limited to UTC-based synchronized services.
- ACR Automatic Content Recognition
- Keywords according to embodiments of the present invention are not limited to keywords such as titles or starring actors. Therefore, the apparatus for transmitting a signal according to the embodiments of the present invention enables media access based on various keywords based on context.
- step S10000 of FIG. 10 after the production 30110 of the signal transmission apparatus according to the exemplary embodiments of the present invention generates the content based on the context related information including the context identification information and the AI keyword, the system 30200.
- Signaling information about the context related information is generated, and content is generated in a file format.
- the signal transmission apparatus video sequence or media data according to embodiments of the present invention can be classified into a sample or a group of samples through a file format, and an entry for a sample and an entry for a sample group.
- a video sequence can be selectively acquired using context identification information and keyword information.
- the signal receiving apparatus receives a signal for requesting content from a user or a client through the controller 32040.
- the controller 32040 analyzes a signal from which the client requests content based on an AI method, and obtains an AI keyword from the content request signal.
- the signal receiving apparatus may receive signaling information and confirm that the currently received content is a media service capable of selective playback for each context through an AI keyword.
- a signal receiving apparatus may provide a service guide through service signaling based on signaling information (manifest).
- the signal receiving apparatus When receiving a request from a client, the signal receiving apparatus according to embodiments of the present invention obtains a file corresponding to an AI keyword related to the client request by using signaling information (manifest). After receiving the file, the signal receiving apparatus according to the embodiments of the present invention may selectively decode the sequence according to the context ID corresponding to the AI keyword.
- the signal receiving apparatus refers to each description box of the media data of the file format through an AI keyword, and meets a user's request by using context identification information and keyword information included in each description box. A sequence can be obtained.
- the decoder 3250 of the apparatus for receiving a signal selectively decodes a sequence corresponding to a request of a user. 10 shows how the decoder 3250 extracts a sequence A from the user's AI keyword and selectively decodes it.
- the display 32100 of the signal receiving apparatus displays the selectively decoded sequence.
- 11 shows a configuration of a context-based AI media service system.
- the signal receiving apparatus may include a decoder 111000, a player 113000, and a server 117020.
- the configuration of FIG. 11 may be included in the decoder 32050 of FIG. 3 described above.
- the decoder 111000 includes a signaling decoder 111010, segment interpreters 111020 and 111030, a video buffer 111040, and an audio buffer 111050.
- the signaling decoder 111010 receives the media stream data included in the signal received by the tuner 32010 and decodes the signaling information from the media stream data.
- the signaling decoder 111010 obtains service information and channel information from the media stream data, and delivers the service information and the channel information to the database 116000.
- Segment interpreter 111020 and segment interpreter 111030 interpret the video and audio segments of the media stream data, respectively.
- Video segment interpreter 111020 delivers video data to video buffer 111050.
- the audio segment interpreter 111050 delivers the audio data to the audio decoder 111050.
- the video buffer 111040 receives the video data from the video segment analyzer 111020 and stores the video data in the buffer.
- the video buffer 111040 transfers the video data stored in the buffer to the video decoder 112000.
- the audio decoder 111050 receives the audio data from the audio segment analyzer 111050 and decodes the audio data.
- the video decoder 112000 receives video data from the video buffer 111040, decodes the video data, and delivers the video data to the player 113000.
- the audio decoder 112010 receives audio data from the audio decoder 111050, decodes the audio data, and delivers the audio data to the player 113000.
- the initialization server 114000 stores initialization information required when the power of the receiving device is activated. When the power of the receiving device is activated, the initialization server 114000 automatically initializes a channel and transmits metadata about automatic channel initialization to the IP channel 115000.
- the IP channel 115000 provides information about the IP channel to the database 116000 when the receiving device is connected to the IP.
- the signal receiving apparatus includes a device to which an IP is connected. When the power of the receiving device to which IP is connected is activated, the signal receiving device according to the embodiments of the present invention may scan not only a terrestrial channel but also an IP channel. The channel 115000 may also provide information on the IP channel.
- the database 116000 receives service information and channel information from the signaling decoder 111010, and receives information about an IP channel from the IP channel 115000.
- the database 116000 may generate a database for the channel, and generate and provide service guide information (ESG) for service data of the media stream to the user.
- ESG service guide information
- a signal receiving apparatus receives a request for service data from a user and receives a media stream corresponding to a channel related to the request.
- the database 116000 may store the IP channel scanning information in the terrestrial channel database and provide the user with an ESG including the terrestrial channel and the IP channel.
- the player 113000 of the signal receiving apparatus provides a user interface (UX) / UX (user experience) service that can be provided. Can be displayed based on.
- the server 117020 is a content server 117010 for providing content for user selection 117000.
- the server 117020 may provide the content to the user in response to a user action in which the user selects the content based on the ESG-related UI / UX.
- the context-based AI media service system of FIG. 11 may be included in the system 32000 of FIG. 3 described above.
- the AI controller 32040 receives a user's natural language request.
- the user's request includes a natural language request based on the context, and includes all of the various natural language requests for the media data that the user wants to view.
- the user may request the AI controller 32040 to show sequence data related to the person B appearing in the service data A.
- FIG. The user may request the AI controller 32040 to show the athlete B's goal scene in the sport A game.
- the context of the user's natural request is not limited to the genre, time, person, place, appearance element, etc. of the service, and include all contexts related to data included in the signal.
- the AI controller 32040 analyzes an AI keyword from a natural language including a received user's request.
- the AI controller 32040 extracts a keyword included in natural language using an AI analysis method.
- the AI controller 32040 accesses a server to obtain a service corresponding to an AI keyword. Since the service related to the AI keyword corresponds to the data that the user wants to watch, the AI controller 32040 approaches the server 117020 to obtain a service related to the AI keyword.
- the AI controller 32040 acquires service data A from the server 117020 and starts streaming. In response to the user's request to display the athlete B's goal scene, the AI controller 32040 must first obtain service data A including the athlete B's goal scene based on the context of the athlete B's goal scene. Because.
- the system 32000 parses a file containing media data of a signal received by the tuner 32010.
- the system 32000 may check context information about a sample or a sample group for the video sequence by parsing the above-described file of FIGS. 5 to 10, and may identify a container that may access the sample or the sample group.
- the system 32000 classifies and stores only the data related to the goal scene of the athlete B using the keyword for the user's request, the context identification information and the keyword included in the file, and stores the data in the buffer 111040.
- the system 32000 may store video data and audio data in a buffer to collect and play only video sequences requested by a user.
- the decoders 32050, 112000, and 112010 decode only a sequence including data related to the athlete B's goal scene.
- the players 32100 and 113000 selectively display only a sequence desired by the user.
- the user can watch the content that they want to watch through the ESG.
- the user can check the information about the content being watched through the ESG.
- the signal receiving apparatus according to the embodiments of the present invention may guide and inform the user that context and keyword access based on AI natural language are available to the user through a display.
- the user may confirm that the media data can be selectively viewed based on the context and the keyword, and request the keyword desired by the user to the signal receiving apparatus according to the embodiments of the present invention.
- the signal receiving apparatus according to the embodiments of the present invention may inform the user of context information related to the content to guide the user to select a selective playback.
- the user can watch only the sequence requested by the user through the above-described process. If the user wants to watch a specific sequence related to other content besides the content currently being viewed, the user may transmit a request message to the AI controller 32040 in natural language.
- the user can selectively or independently view the service data for the broadcasting network or the broadband network.
- the signal transmission device or the signal reception device may insert the context identification information into the media keyword and the signaling information for the media data, and by using the user's natural language keyword and the AI control scheme, The context identification information and the keywords may be connected to provide a specific service desired by the user.
- the user can select media services independently and selectively.
- the selective media service provides a model that can divide a single content into a plurality of data and consume variously.
- FIG. 13 illustrates a method of providing service guide information by a signal receiving apparatus according to embodiments of the present invention.
- the signal receiving apparatus may display the content 134000 through the player 113000.
- the main device 134000 may correspond to the player 113000 and may be referred to as a displayer.
- the signal receiving apparatus may display the service guide information (ESG) 133000 on the main device.
- the service guide information 133000 may indicate information 133000 of content included in each channel 131000 based on the time 132000.
- the service guide information 133000 may represent content that can be viewed for each channel based on the current viewing time as shown in FIG. 13.
- the service guide information 133000 may be displayed on the main device or the second device.
- the service guide information 133000 may be displayed on the entire screen or a partial screen of the main device.
- the user may speak to the AI controller 32040 of a natural language request to show other content for person A 136000 appearing in the content being watched. Since the user may check the service guide information 133000 or the information 135000 about the content of the channel other than the channel being currently watched, the user may tell the AI controller 32040 that he / she wants to watch the second content 135000. .
- the second content 135000 is a sports game content
- the user may tell the AI controller 32040 that he / she wants to watch a game image of the sports team B for a predetermined period.
- the user may tell the AI controller 32040 that he / she wants to watch scene D of athlete C belonging to sports team B.
- the AI controller 32040 extracts keywords such as person A, sports team B, athlete C, and scene D from the user's natural language, and based on context information such as keywords, AI-based media service. Can be provided to the user.
- the AI controller 32040 may access the servers 137000 and 117020 to obtain content related to a keyword requested by the user.
- FIG. 14 illustrates a method in which a signal receiving device receives a user request according to embodiments of the present invention.
- the signal receiving apparatus receives a signal including ESG data (S14001).
- the signal receiving apparatus displays ESG data on the main device (S14002).
- the signal receiving apparatus generates a list for each content for each channel and displays the list on the main device (S14003).
- the ESG data may be displayed on all or part of the main device (or display screen) for each channel, time, and content.
- the signal receiving apparatus according to the embodiments of the present invention may display service data that can be viewed per channel, time, and content on a display screen (1401).
- the signal receiving apparatus according to the embodiments of the present invention may display information on the component for each component constituting the service data on the display screen (1402).
- the component represents a meaning including a video component, an audio component, a closed caption component, an application component, and the like that constitute service data.
- the signal receiving apparatus according to embodiments of the present invention may display context information related to service data on the display screen (1402-1).
- the signal receiving device receives a request from a user in operation S14004.
- the user includes a sequence including a specific person, a sequence including a specific scene, a sequence including a specific time, a sequence including a specific video, and a specific audio by referring to the displayed context information and information about a component.
- a sequence, a sequence related to a specific application, a sequence including a specific subtitle, etc. may be selectively and independently requested from the signal receiving apparatus according to the embodiments of the present invention.
- the controller 32040 may control and display information for assisting an AI request of a user.
- the AI request of the user is not limited to information displayed in relation to the ESG data, and the user may request a request related to data desired to be viewed through natural language (32040).
- the signal receiving apparatus may display ESG data related to a user's request (S14005). In the process of displaying 1401 1402 received by the signal receiving apparatus, ESG data related to a user's request may be displayed.
- the signal receiving apparatus may provide information related to an AI service to a user through a partial region 1404 of the display screen.
- the partial region 1404 may be displayed by adjusting the position, size, and the like on the display screen.
- Some areas 1404 may include lists 1401 and 1402 indicating context-related information for the above-mentioned ESG data and AI services. Some areas 1404 may display an AI service start guide message to the user.
- the controller 32040 may analyze the natural language included in the user's request and display the context of the analysis result through the partial region 1404.
- the signal receiving apparatus displays the content on the display screen of the main device according to the user's request (S14006).
- the user can watch specific sequence data included in one piece of content.
- the user can watch the specific sequence data included in the plurality of contents.
- 15 illustrates a method of performing AI control by a signal receiving apparatus receiving a user request according to embodiments of the present invention.
- the signal receiving apparatus may guide the AI control process to the user through the area 1404 on the display screen.
- the display area 1404 of FIG. 14 may correspond to the display information 1501 of FIG. 15.
- the controller 32040 may understand and analyze the natural language of the user.
- the controller 32040 may manage data on natural language analysis of a person based on big data.
- the controller 32040 may extract a keyword by analyzing a context of a natural language of the user.
- the controller 32040 may extract one or more keywords 1502 and display the same on the display area 1404.
- the system 32000 of the signal receiving apparatus receives a signal.
- the receiver 32010 of the system 32000 forwards the received signal to a parser that includes a file parser 32020 and a signaling parser 32030.
- the parser parses the signaling information 1503 included in the signal.
- the signaling information 1503 includes information that can scan and obtain a service.
- the signal receiving apparatus may access and decode desired service data from among a plurality of service data included in the signal through the signaling information 1503.
- the signaling information 1503 includes context identification information and keyword information related to context information for service data.
- the controller 32040 compares the keyword 1502 obtained from the context of the user's request information with the context identification information and the keyword information of the signaling information 1503 to determine whether there is a service matching the desired context.
- the controller 32040 checks the service 1504 that matches the context desired by the user, and accesses the service data 1504.
- the controller 32040 controls the parser to parse the file format 1504 of the service data.
- Service data 1504 includes a box or container that contains signaling information for the context.
- the file parser 32020 receives signaling information about a context from the signaling parser 32030 or keyword information from the controller 32040 to parse a data sequence related to a context desired by a user included in the service data 1504. .
- Decoder 32050 selectively decodes the data sequence.
- Player 113000 displays the data sequence.
- the controller 3240 controls the player 113000 to display specific sequences 1507 and 1508 included in the service data 1504 accessed based on the signaling information 1503 on the main device 1506.
- the controller 3240 may access a sample for the sequence or a sample group including the sequence through context identification information and keyword information included in the description (box or container) described above with reference to FIGS. 7 to 9.
- the signal receiving apparatus may display a sequence including scene A and data B associated with a keyword of the user, as shown in FIG. 15, or display a sequence including a plurality of scene A. Can be displayed.
- FIG. 16 illustrates a signal transmission method according to embodiments of the present invention.
- the signal transmission method In relation to step S16010, the signal transmission method according to the embodiments of the present invention generates a content by inserting a context identifier and a keyword into service data.
- the generation of the content is performed by the production 30110, and a detailed generation method is described above with reference to FIGS.
- the signal transmission method extracts service data from the content and inserts a description including a context identifier and a keyword to generate media data.
- the generating of the media data is performed by the file generator 30020 of the system 30200 or the system 30200, and a detailed generating method is described above with reference to FIGS. 3 and 5.
- the signal transmission method In relation to step S16010, the signal transmission method according to the embodiments of the present invention generates signaling information including a context identifier and a keyword.
- the generating of the signaling information is performed by the system 30200 or the signaling information generator 30230, and a detailed generating method has been described with reference to FIGS. 3 and 5 to 9.
- the signal transmission method transmits a signal including media data and signaling information.
- the step of transmitting the signal is performed by the system 30200 or the transmitter 30240.
- a signal transmission method according to embodiments of the present invention may modulate a signal using an Orthogonal Frequency Division Multiplex (OFDM) scheme.
- OFDM Orthogonal Frequency Division Multiplex
- FIG. 17 illustrates a signal receiving method according to embodiments of the present invention.
- the signal receiving method receives a signal.
- the signal is received by the system 32000 or the receiver 32010.
- the signal receiving method according to embodiments of the present invention may detect a signal for channel synchronization and demodulate a signal, which is an inverse process of modulation, by using an OFDM scheme.
- the signal receiving method receives a user's request for service data from the user, and extracts a keyword from the context included in the user's request.
- the controller 32040 receives the user's request, analyzes the user's request using an AI method, and extracts a keyword. A detailed process of receiving a user request has been described above with reference to FIGS. 3 and 10.
- the method of receiving a signal may acquire media data related to a keyword based on context identification information and keyword information included in a keyword and signaling information for a user's request, Parse data related to the user's request based on context identification information and keyword information of the description included in the media data.
- the signaling information parser 32030 parses service identification information, context information, and keyword information included in the signaling information.
- the file parser 32020 parses the description included in the media data. The process of parsing or decoding the media data and signaling information has been described above with reference to FIGS. 6 to 11.
- the signal receiving method decodes data related to a request of a user.
- the decoding process is performed by the system 32000 or the decoder 32050. A detailed data decoding process has been described above with reference to FIGS. 12 to 15.
- a module or a unit may be processors for executing consecutive processes stored in a memory (or a storage unit). Each step described in the above embodiments may be performed by hardware, software, and processors. Each module / block / unit described in the above embodiments can operate as hardware, software, or processor.
- the methods proposed by the present invention can be executed as code. This code can be written to a processor readable storage medium and thus read by a processor provided by an apparatus.
- Apparatus and method according to the present invention is not limited to the configuration and method of the embodiments described as described above, the above-described embodiments may be selectively all or part of each embodiment so that various modifications can be made It may be configured in combination.
- the processor-readable recording medium includes all kinds of recording devices that store data that can be read by the processor.
- Examples of the processor-readable recording medium include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, and the like, and may also be implemented in the form of a carrier wave such as transmission over the Internet.
- the processor-readable recording medium can also be distributed over network coupled computer systems so that the processor-readable code is stored and executed in a distributed fashion.
- the invention is used in the field of signal provision comprising a series of data.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
컨텍스트 식별자 및 키워드를 서비스 데이터에 삽입하여 콘텐츠를 생성하고, 상기 콘텐츠로부터 상기 서비스 데이터를 추출하고, 상기 컨텍스트 식별자 및 상기 키워드를 포함하는 디스크립션을 삽입하여 미디어 데이터를 생성하고, 상기 컨텍스트 식별자 및 상기 키워드를 포함하는 시그널링 정보를 생성하고, 상기 미디어 데이터 및 상기 시그널링 정보를 포함하는 신호를 전송하는 신호 전송 방법.
Description
본 발명은 신호 송신 장치, 신호 수신 장치, 신호 전송 방법, 및 신호 수신 방법에 관한 것이다.
아날로그 방송 신호 송신이 종료됨에 따라, 디지털 방송 신호를 송수신하기 위한 다양한 기술이 개발되고 있다. 디지털 방송 신호는 아날로그 방송 신호에 비해 더 많은 양의 비디오/오디오 데이터를 포함할 수 있고, 비디오/오디오 데이터뿐만 아니라 다양한 종류의 부가 데이터를 더 포함할 수 있다.
즉, 디지털 방송 시스템은 HD(High Definition) 이미지, 멀티채널(multi channel, 다채널) 오디오, 및 다양한 부가 서비스를 제공할 수 있다. 그러나, 디지털 방송을 위해서는, 많은 양의 데이터 전송에 대한 데이터 전송 효율, 송수신 네트워크의 견고성(robustness), 및 모바일 수신 장치를 고려한 네트워크 유연성(flexibility)이 향상되어야 한다.
목적 및 다른 이점을 달성하기 위해, 본 발명의 목적에 따라, 여기에 포함되고 대략적으로 기재된 바와 같이, 방송 신호 송신 방법은
본 발명은 서비스 특성에 따라 데이터를 처리하여 각 서비스 또는 서비스 컴포넌트에 대한 QoS (Quality of Service)를 제어함으로써 다양한 방송 서비스를 제공할 수 있다.
본 발명은 동일한 RF (radio frequency) 신호 대역폭을 통해 다양한 방송 서비스를 전송함으로써 전송 유연성(flexibility)을 달성할 수 있다.
본 발명은 MIMO (Multiple-Input Multiple-Output) 시스템을 이용하여 데이터 전송 효율 및 방송 신호의 송수신 견고성(Robustness)을 향상시킬 수 있다.
본 발명에 따르면, 모바일 수신 장치를 사용하거나 실내 환경에 있더라도, 에러 없이 디지털 방송 신호를 수신할 수 있는 방송 신호 송신 및 수신 방법 및 장치를 제공할 수 있다.
본 발명에 대해 더욱 이해하기 위해 포함되며 본 출원에 포함되고 그 일부를 구성하는 첨부된 도면은 본 발명의 원리를 설명하는 상세한 설명과 함께 본 발명의 실시예를 나타낸다.
도 1은 본 발명의 실시예들에 따른 차세대 방송 서비스에 대한 방송 신호 송신 장치의 구조를 나타낸다.
도2는 본 발명의 실시예들에 따른 차세대 방송 서비스에 대한 방송 신호 수신 장치의 구조를 나타낸다.
도3은 본 발명의 실시예들에 따른 신호 전송 장치 및 신호 수신 장치를 포함하는 시스템의 구성을 나타낸다.
도4는 컨텍스트(context) 기반의 서비스 데이터의 구조를 나타낸다.
도5는 신호 전송 장치가 전송하는 서비스 데이터 및 시그널링 정보의 구성을 나타낸다.
도6은 컨텍스트 정보를 삽입한 파일 포맷의 구조를 나타낸다.
도7은 미디어 파일 포맷의 샘플 그룹 박스의 신택스를 나타낸다.
도8은 미디어 파일 포맷의 샘플 그룹 디스크립션 박스의 신택스를 나타낸다.
도9는 컨텍스트 정보를 위한 샘플 엔트리의 신택스를 나타낸다.
도10은 컨텍스트 관련 정보에 기반한 선택적 재생 방법을 나타낸다.
도11은 컨텍스트 기반의 AI미디어 서비스 시스템의 구성을 나타낸다.
도12는 본 발명의 실시예들에 따른 신호 수신 방법을 나타낸다.
도13은 본 발명의 실시예들에 따른 신호 수신 장치가 서비스 가이드 정보를 제공하는 방법을 나타낸다.
도14는 본 발명의 실시예들에 따른 신호 수신 장치가 사용자 요청을 수신하는 방법을 나타낸다.
도15는 본 발명의 실시예들에 따른 신호 수신 장치가 사용자의 요청을 수신하여 AI제어를 수행하는 방법을 나타낸다.
도16은 본 발명의 실시예들에 따른 신호 송신 방법을 나타낸다.
도17은 본 발명의 실시예들에 따른 신호 수신 방법을 나타낸다.
본 발명의 바람직한 실시예에 대해 구체적으로 설명하며, 그 예는 첨부된 도면에 나타낸다. 첨부된 도면을 참조한 아래의 상세한 설명은 본 발명의 실시예에 따라 구현될 수 있는 실시예만을 나타내기보다는 본 발명의 바람직한 실시예를 설명하기 위한 것이다. 다음의 상세한 설명은 본 발명에 대한 철저한 이해를 제공하기 위해 세부 사항을 포함한다. 그러나 본 발명이 이러한 세부 사항 없이 실행될 수 있다는 것은 당업자에게 자명하다.
본 발명에서 사용되는 대부분의 용어는 해당 분야에서 널리 사용되는 일반적인 것들에서 선택되지만, 일부 용어는 출원인에 의해 임의로 선택되며 그 의미는 필요에 따라 다음 설명에서 자세히 서술한다. 따라서 본 발명은 용어의 단순한 명칭이나 의미가 아닌 용어의 의도된 의미에 근거하여 이해되어야 한다.
본 발명은 차세대 방송 서비스에 대한 방송 신호 송신 및 수신 장치 및 방법을 제공한다. 본 발명의 일 실시예에 따른 차세대 방송 서비스는 지상파 방송 서비스, 모바일 방송 서비스, UHDTV 서비스 등을 포함한다. 본 발명은 일 실시예에 따라 비-MIMO (non-Multiple Input Multiple Output) 또는 MIMO 방식을 통해 차세대 방송 서비스에 대한 방송 신호를 처리할 수 있다. 본 발명의 일 실시예에 따른 비-MIMO 방식은 MISO (Multiple Input Single Output) 방식, SISO (Single Input Single Output) 방식 등을 포함할 수 있다.
이하에서는 설명의 편의를 위해 MISO 또는 MIMO 방식은 두 개의 안테나를 사용하지만, 본 발명은 두 개 이상의 안테나를 사용하는 시스템에 적용될 수 있다.
도 1은 본 발명의 일 실시예에 따른 차세대 방송 서비스에 대한 방송 신호 송신 장치의 구조를 나타낸다.
본 발명의 일 실시예에 따른 차세대 방송 서비스에 대한 방송 신호 송신 장치는 인풋 포맷 블록 (Input Format block) (1000), BICM (bit interleaved coding & modulation) 블록(1010), 프레임 빌딩 블록 (Frame building block) (1020), OFDM (orthogonal frequency division multiplexing) 제너레이션 블록 (OFDM generation block)(1030), 및 시그널링 생성 블록(1040)을 포함할 수 있다. 방송 신호 송신 장치의 각 블록의 동작에 대해 설명한다.
IP 스트림/패킷 및 MPEG2-TS은 주요 입력 포맷이고, 다른 스트림 타입은 일반 스트림으로 다루어진다. 이들 데이터 입력에 추가로, 관리 정보가 입력되어 각 입력 스트림에 대한 해당 대역폭의 스케줄링 및 할당을 제어한다. 하나 또는 다수의 TS 스트림, IP 스트림 및/또는 일반 스트림 입력이 동시에 허용된다.
인풋 포맷 블록(1000)은 각각의 입력 스트림을 독립적인 코딩 및 변조가 적용되는 하나 또는 다수의 데이터 파이프로 디멀티플렉싱 할 수 있다. 데이터 파이프는 견고성(robustness) 제어를 위한 기본 단위이며, 이는 QoS (Quality of Service)에 영향을 미친다. 하나 또는 다수의 서비스 또는 서비스 컴포넌트가 하나의 데이터 파이프에 의해 전달될 수 있다. 인풋 포맷 블록(1000)의 자세한 동작은 후술한다.
데이터 파이프는 하나 또는 다수의 서비스 또는 서비스 컴포넌트를 전달할 수 있는 서비스 데이터 또는 관련 메타데이터를 전달하는 물리 계층(physical layer)에서의 로지컬 채널이다.
또한, 데이터 파이프 유닛은 하나의 프레임에서 데이터 셀을 데이터 파이프에 할당하기 위한 기본 유닛이다.
인풋 포맷 블록(1000)에서, 패리티(parity) 데이터는 에러 정정을 위해 추가되고, 인코딩된 비트 스트림은 복소수값 컨스텔레이션 심볼에 매핑된다. 해당 심볼은 해당 데이터 파이프에 사용되는 특정 인터리빙 깊이에 걸쳐 인터리빙 된다. 어드벤스 프로파일에 있어서, BICM 블록(1010)에서 MIMO 인코딩이 실행되고 추가 데이터 경로가 MIMO 전송을 위해 출력에 추가된다. BICM 블록(1010)의 자세한 동작은 후술한다.
프레임 빌딩 블록(1020)은 하나의 프레임 내에서 입력 데이터 파이프의 데이터 셀을 OFDM 실볼로 매핑할 수 있다. 매핑 후, 주파수 영역 다이버시티를 위해, 특히 주파수 선택적 페이딩 채널을 방지하기 위해 주파수 인터리빙이 이용된다. 프레임 빌딩 블록(1020)의 자세한 동작은 후술한다.
프리앰블을 각 프레임의 시작에 삽입한 후, OFDM 제너레이션 블록(1030)은 사이클릭 프리픽스(cyclic prefix)을 가드 인터벌로 갖는 기존의 OFDM 변조를 적용할 수 있다. 안테나 스페이스 다이버시티를 위해, 분산된(distributed) MISO 방식이 송신기에 걸쳐 적용된다. 또한, PAPR (peak-to-average power ratio) 방식이 시간 영역에서 실행된다. 유연한 네트워크 방식을 위해, 해당 제안은 다양한 FFT 사이즈, 가드 인터벌 길이, 해당 파일럿 패턴의 집합을 제공한다. OFDM 제너레이션 블록(1030)의 자세한 동작은 후술한다.
시그널링 생성 블록(1040)은 각 기능 블록의 동작에 사용되는 물리 계층(physical layer) 시그널링 정보를 생성할 수 있다. 해당 시그널링 정보는 또한 관심 있는 서비스가 수신기 측에서 적절히 복구되도록 전송된다.
도 2는 본 발명의 일 실시예에 따른 차세대 방송 서비스에 대한 방송 신호 수신 장치의 구조를 나타낸다.
본 발명의 일 실시예에 따른 차세대 방송 서비스에 대한 방송 신호 수신 장치는 도 1을 참조하여 설명한 차세대 방송 서비스에 대한 방송 신호 송신 장치에 대응할 수 있다.
본 발명의 일 실시예에 따른 차세대 방송 서비스에 대한 방송 신호 수신 장치는 동기 및 복조 모듈 (synchronization & demodulation module) (9000), 프레임 파싱 모듈 (frame parsing module) (9010), 디매핑 및 디코딩 모듈 (demapping & decoding module) (9020), 출력 프로세서 (output processor) (9030), 및 시그널링 디코딩 모듈 (signaling decoding module) (9040)을 포함할 수 있다. 방송 신호 수신 장치의 각 모듈의 동작에 대해 설명한다.
동기 및 복조 모듈(9000)은 m개의 수신 안테나를 통해 입력 신호를 수신하고, 방송 신호 수신 장치에 해당하는 시스템에 대해 신호 검출 및 동기화를 실행하고, 방송 신호 송신 장치에 의해 실행되는 절차의 역과정에 해당하는 복조를 실행할 수 있다.
프레임 파싱 모듈(9010)은 입력 신호 프레임을 파싱하고, 사용자에 의해 선택된 서비스가 전송되는 데이터를 추출할 수 있다. 방송 신호 송신 장치가 인터리빙을 실행하면, 프레임 파싱 모듈(9010)은 인터리빙의 역과정에 해당하는 디인터리빙을 실행할 수 있다. 이 경우, 추출되어야 하는 신호 및 데이터의 위치가 시그널링 디코딩 모듈(9040)로부터 출력된 데이터를 디코딩함으로써 획득되어, 방송 신호 송신 장치에 의해 생성된 스케줄링 정보가 복원될 수 있다.
디매핑 및 디코딩 모듈(9020)은 입력 신호를 비트 영역 데이터로 변환한 후, 필요에 따라 비트 영역 데이터들을 디인터리빙할 수 있다. 디매핑 및 디코딩 모듈(9020)은 전송 효율을 위해 적용된 매핑에 대한 디매핑을 실행하고, 디코딩을 통해 전송 채널에서 발생한 에러를 정정할 수 있다. 이 경우, 디매핑 및 디코딩 모듈(9020)은 시그널링 디코딩 모듈(9040)로부터 출력된 데이터를 디코딩함으로써 디매핑 및 디코딩을 위해 필요한 전송 파라미터를 획득할 수 있다.
출력 프로세서(9030)는 전송 효율을 향상시키기 위해 방송 신호 송신 장치에 의해 적용되는 다양한 압축/신호 처리 절차의 역과정을 실행할 수 있다. 이 경우, 출력 프로세서(9030)는 시그널링 디코딩 모듈(9040)로부터 출력된 데이터에서 필요한 제어 정보를 획득할 수 있다. 출력 프로세서(8300)의 출력은 방송 신호 송신 장치에 입력되는 신호에 해당하고, MPEG-TS, IP 스트림 (v4 또는 v6) 및 GS일 수 있다.
시그널링 디코딩 모듈(9040)은 동기 및 복조 모듈(9000)에 의해 복조된 신호로부터 PLS 정보를 획득할 수 있다. 전술한 바와 같이, 프레임 파싱 모듈(9010), 디매핑 및 디코딩 모듈(9200), 출력 프로세서(9300)는 시그널링 디코딩 모듈(9040)로부터 출력된 데이터를 이용하여 그 기능을 실행할 수 있다.
본 발명의 실시예들에 따른 신호 전송 장치 및 신호 수신 장치는 도1 내지 도2와 같은 방송 송신 및 수신 장치를 포함할 수 있다. 나아가, 본 발명의 실시예들에 따른 신호 전송 장치 및 신호 수신 장치는 방송 송신 및 수신 장치에 제한되지 않고, 데이터를 처리하여 송신하는 장치 및 수신하는 장치를 포함한다.
도3은 본 발명의 실시예들에 따른 신호 전송 장치 및 신호 수신 장치를 포함하는 시스템의 구성을 나타낸다.
본 발명의 실시예들에 따른 신호 전송 장치 및 신호 수신 장치를 포함하는 시스템은 컨텍스트(context) 기반의 AI (Artificial Intelligence) 미디어 서비스를 제공할 수 있다. 본 발명의 실시예들에 따른 신호 전송 장치는 프로덕션(Production, 30100) 및 시스템(30200)을 포함할 수 있다.
본 발명의 실시예들에 따른 프로덕션(Produntion, 30100)은 컨텐츠(content) 데이터를 생성할 수 있다. 프로덕션(30100)은 컨텐츠 데이터를 구성하는 서비스 데이터 상에 컨텍스트 식별 정보(context ID) 및 키워드(Keyword)를 삽입한다. 컨텍스트 식별 정보는 컨텐트의 서비스 데이터의 컨텍스트 정보를 식별할 수 있는 정보를 의미한다. 키워드는 AI로 인식 가능한 키워드를 의미한다. 키워드는 사용자가 사용하는 자연어를 포함할 수 있다. 본 발명의 실시예들에 따른 신호 전송 장치는 컨텍스트 기반의 미디어 서비스를 제공하기 위해서 컨텍스트 식별자 및 자연어 키워드를 사용할 수 있다. 컨텍스트 및 키워드를 통해서, 본 발명의 실시예들에 따른 신호 전송 장치는 사용자가 원하는 구체적이고, 선별적인 미디어 서비스를 제공할 수 있다. 본 명세서에서 컨텍스트 식별 정보 및 키워드 정보를 AI/context식별자라고 명명할 수 있다.
도3을 참조하면, 콘텐츠를 구성하는 서비스 데이터는 A/V 데이터(30110)를 포함할 수 있다. 서비스 데이터는 'A'데이터(A scene, 30110), 'B'데이터(B scene), 'C'데이터(C scene) 등을 포함할 수 있다. 프로덕션(30100)은 'A'데이터를 나타내는 컨텍스트 식별자 정보 및 키워드 정보를 포함하는 AI/context 식별자(30120)를 'A'데이터의 상에 삽입할 수 있다. AI/context 식별자(30120)가 삽입되는 위치는 도3과 같이 'A'데이터 뒤에 위치할 수 있다. 본 발명의 실시예들에 따른 프로덕션(30100)은 AI/context식별자(30120)를 서비스 데이터에 직접 삽입함으로써, 사용자가 요청하는 자연어의 매칭을 처리할 수 있다. AI/context식별자(30120)가 없는 서비스 데이터를 인코딩하는 경우, 인코딩된 데이터는 시스티매틱(systematic)한 정보이므로, 사용자의 자연어 요청을 신호 처리 장치가 처리할 수 없다. 'A'데이터와 마찬가지로, 프로덕션(30100)은 'B'데이터(B scene), 'C'데이터(C scene) 등에 각 데이터와 관련된 AI/context 식별자를 삽입할 수 있다. 프로덕션(30100)은 컨텍스트 식별 정보 및 키워드 정보에 기반하여 생성된 콘텐츠를 시스템(30200)에 전송한다.
본 발명의 실시예들에 따른 프로덕션(30100)은 미디어 스트림 내에 포함된 미디어 데이터의 컨텍스트에 기반하여 AI/context 식별 정보(30120)를 생성하고, 생성된 AI/context 식별 정보(30120)는 미디어 데이터에 대한 표시(mark-up)정보로 사용된다.
한편, 프로덕션(30100)은 도1에 따른 방송 신호 전송 장치의 구성 상 BICM(1010) 이전에 위치할 수 있다. 또한, 프로덕션(30100)은 방송 신호 전송 장치 외에 별도의 시스템으로 서비스 데이터를 인코딩하는 인코더 앞에 위치할 수 있다. 본 명세서에서 프로덕션(30100)은 콘텐츠 생성부, 생성부, 제1생성부 등으로 명명할 수 있다.
본 발명의 실시예들에 따른 시스템(30200)은 인코더(Encoder, 30210), 파일 생성기(File Gnerator, 30220), 시그널링 정보 생성기(Presentation Manifest, 30230), 및/또는 전송기(Transmitter, 30240)를 포함할 수 있다.
본 발명의 실시예들에 따른 인코더(30210)는 프로덕션(30100)에 의해 생성된 콘텐츠를 인코딩할 수 있다. 인코더(30210)는 도1의 BICM모듈(1010)에 대응될 수 있다. 인코더(30210)는 BCH (Bose, Chaudhuri, Hocquenghem) 인코딩 또는 LDPC (Low-Density Parity Check) 인코딩 등을 수행할 수 있다. 인코더(30210)는 콘텐츠를 포함하는 데이터에 대해 에러를 확인하고, 또는 에러를 정정할 수 있다. 인코더(30210)는 콘텐츠를 포함하는 데이터를 파일 생성기(30220)으로 전달한다.
다시 말해, 본 발명의 실시예들에 따른 인코더(30210)는 프로덕션(30100)으로부터 미디어 데이터(30110), 컨텍스트 식별 정보(30120), AI 키워드(30120)를 포함하는 콘텐츠를 수신하고, 콘텐츠를 인코딩한다. 본 발명의 실시예들에 따른 인코더(30210)가 컨텍스트 식별 정보(30120), AI 키워드(30120)와 같은 표시(mark-up)정보를 인식할 수 있는 경우, 표시(mark-up)정보와 미디어 데이터를 포함하는 시퀀스 또는 스트림을 인코딩한다. 본 발명의 실시예들에 따른 인코더(30210)가 컨텍스트 식별 정보(30120), AI 키워드(30120)와 같은 표시(mark-up)정보를 인식할 수 없는 경우, 컨텍스트 식별 정보(30120), AI 키워드(30120)와 같은 표시(mark-up)정보를 무시하고, 미디어 데이터만 인코더가 인코딩한다.
파일 생성기(30220)는 콘텐츠를 포함하는 데이터를 ISO BMFF (base media file format) 에 따른 포맷으로 생성할 수 있다. ISO BMFF 미디어 파일은 방송망/브로드밴드 딜리버리, 미디어 인캡슐레이션(media encapsulation) 및/또는 동기화 포맷(synchronization format) 으로 사용될 수 있다. 본 명세서에서 콘텐츠를 포함하는 데이터는 서비스 데이터 또는 미디어 데이터 등으로 명명될 수 있다. 또한, 서비스 데이터는 서비스와 관련된 모든 데이터로서, 리니어 서비스를 이루는 서비스 컴포넌트들, 그에 대한 시그널링 정보, NRT (Non Real Time) 데이터, 기타 파일들 등을 포함하는 개념일 수 있다. 파일 생성기(30220)는 서비스 데이터를 전송기(30240)로 전달할 수 있다. 본 명세서에서 파일 생성기(30220)는 제 1생성기, 제2생성기 등으로 명명될 수 있다.
시그널링 정보 생성기(30230)는 미디어 데이터에 대한 시그널링 정보를 생성할 수 있다. 본 발명의 실시예들에 따른 시그널링 정보 생성기(30230)는 MPEG-DASH (Moving Picture Experts Group- Dynamic Adaptive Streaming over HTTP)에 따른 시그널링 정보(Manifest signaling)을 제공할 수 있다. 본 발명의 실시예들에 따라, 미디어 데이터는 DASH기반 미디어의 포맷을 따를 수 있고, 이때 시그널링 정보는 DASH기반 미디어를 재생하기 위한 속성, 동기화 정보 등을 포함한다. 본 발명의 실시예들에 따라, 미디어 데이터의 포맷은 다양할 수 있고, 이때 시그널링 정보는 미디어 데이터의 포맷에 따라서 정의될 수 있다.
시그널링 정보 생성기(30230)은 미디어 데이터에 대한 시그널링 정보를 생성하여 전송기(30240)으로 전달할 수 있다. 본 명세서에서 시그널링 정보 생성기(30230)은 제 1 생성기, 제 2 생성기 등으로 명명될 수 있다.
전송기(30240)는 서비스 데이터 및 서비스 데이터에 대한 시그널링 정보를 포함하는 신호를 생성할 수 있다. 전송기(30240)는 신호를 전송할 수 있다. 전송기(30240)는 방송망 또는 브로드밴드를 통해 신호를 전송할 수 있다. 본 명세서에서 신호는 방송 신호에 제한되지 않고, 비디오 데이터 또는 오디오 데이터 등을 포함하는 신호로 해석될 수 있다.
본 발명의 실시예들에 따른 신호 수신 장치는 시스템(32000) 및 디스플레이(32100)을 포함할 수 있다.
본 발명의 실시예들에 따른 시스템(32000)은 수신기(32010), 파일(32020), 시그널링 정보 디코더(Presentation Manifest, 32030), 컨트롤러(Controller, 32040), 및/또는 디코더(32050)를 포함할 수 있다.
수신기(32010)는 신호를 수신할 수 있다. 수신기(32010)는 데이터를 포함하는 신호를 수신할 수 있다. 수신기(32010)는 데이터를 포함하는 신호를 파일(32020)에 전달할 수 있다. 신호는 서비스 데이터 및 시그널링 정보 등을 포함할 수 있다.
파일(32020)은 신호로부터 파일 포맷의 서비스 데이터를 획득 또는 파싱(parsing)할 수 있다. 파일(32020)은 본 발명의 실시예들에 따른 신호 전송 장치의 파일 생성기(30220)의 역과정의 동작을 수행할 수 있다. 본 명세서에서 파일(32020)은 파일 파서, 파일 디코더 등으로 명명될 수 있다. 파일(32020)은 서비스 데이터를 디코더(32050)로 전달할 수 있다.
시그널링 정보 디코더(32030)는 신호로부터 서비스 데이터에 대한 시그널링 정보를 획득 또는 디코딩할 수 있다. 시그널링 정보 디코더(32030)는 본 발명의 실시예들에 따른 신호 전송 장치의 시그널링 정보 생성기(30230)의 역과정의 동작을 수행할 수 있다.
컨트롤러(32040)는 사용자의 요청을 수신할 수 있다. 본 명세서에서 사용자의 요청은 사용자의 입력 신호, 사용자의 명령어 등을 포함할 수 있다. 본 발명의 실시예들에 따른 신호 수신 장치는 신호에 포함된 서비스 가이드 정보를 통해 서비스 데이터에 대한 가이드 정보를 사용자에게 디스플레이할 수 있다. 시그널링 정보 디코더(32030)는 신호로부터 시그널링 정보를 획득하여 서비스 데이터에 대한 시그널링 정보를 사용자에게 제공할 수 있다. 사용자는 시그널링 정보를 통해 사용자가 원하는 서비스를 자연어를 통해서 컨트롤러(32040)에 요청할 수 있다. 컨트롤러(32040)는 사용자로부터 자연어를 통한 요청을 수신한다. 컨트롤러(32040)는 시그널링 정보를 통해 사용자가 원하는 서비스 데이터에 접근할 수 있도록 신호 수신 장치를 제어한다. 컨트롤러는 사용자로부터 자연어를 통한 요청에 대응하는 과정에서 AI (Artificial Intelligence) 방식을 사용할 수 있다.
디코더(32050)는 서비스 데이터 및 서비스 데이터에 대한 시그널링 정보를 디코딩한다. 디코더(32050)는 본 발명의 실시예들에 따른 신호 전송 장치의 인코더(30200)의 역과정의 동작을 수행한다. 디코더(32050)는 서비스 데이터 및 서비스 데이터에 대한 시그널링 정보를 디스플레이(32100)에 전달한다.
디스플레이(32100)는 서비스 데이터에 포함된 A/V 데이터(32100)를 디스플레이할 수 있다. 데이터(32100)는 본 발명의 실시예들에 따른 신호 전송 장치가 생성한 데이터(30110)에 포함된 'A'데이터일 수 있다. 본 명세서에서 디스플레이(32100)는 디스플레이부, 디스플레이 유닛 등으로 명명될 수 있다. 본 발명의 실시예들에 따른 디스플레이(32100)는 컨트롤러(32040)를 통해 사용자로부터 수신한 요청 정보에 기반하여 미디어 데이터를 선택적으로 디스플레이할 수 있다.
도4는 컨텍스트 기반의 서비스 데이터의 구조를 나타낸다.
프로덕션(30110)은 컨텍스트 식별자(Context Identifier) 및 하나 또는 하나 이상의 키워드(AI keywords)를 포함하는 AI/Context 식별자를 서비스 데이터에 삽입할 수 있다. 인코더(30200) 등을 포함하는 시스템(30200)은 미디어 데이터 열(media data sequence)만 인식하여, 데이터를 인코딩할 수 있다. 이러한 이유로, 시스템(30200)이 컨텍스트 기반한 서비스 데이터를 인식하지 못 한다. 따라서, 본 발명의 실시예들에 따른 신호 전송 장치는 프로덕션(30110)을 통해 도4와 같이 컨텍스트 기반의 서비스 데이터를 생성할 수 있다.
따라서, 본 발명의 실시예들에 따른 프로덕션(30100)은 콘텐츠를 인코더(30200)으로 전송하고, 인코더(30200)는 콘텐츠에 포함된 서비스 데이터를 인코딩할 수 있다. 프로덕션(30100)은 콘텐츠를 파일 생성기(30220)으로 전송하고, 파일 생성기(30220)는 콘텐츠에 포함된 컨텍스트 기반의 정보 및 서비스 데이터로부터 전송 시 사용되는 미디어 데이터의 구조를 생성할 수 있다. 구체적인 미디어 데이터의 구조는 도4 및 도5에서 상세히 설명한다.
프로덕션(30100)에 로우 비디오 열(Raw Video Sequence)가 입력될 수 있다. 로우 비디오 열 데이터는 A데이터(A Scene, 4020), B데이터(B Scene, 4030)등을 포함할 수 있다. 프로덕션(30100)은 A데이터를 식별할 수 있는 컨텍스트 식별자(4010) 및 A데이터에 관련된 하나 또는 하나 이상의 키워드들(4010)을 A데이터에 삽입한다. 바람직하게는, 프로덕션(30100)은 컨텍스트 식별자 및 키워드(4010)를 A데이터의 앞에 삽입할 수 있다. 본 발명의 실시예들에 따른 프로덕션(30100)은 컨텍스트 식별자 및 키워드(4010)를 A데이터의 뒤에 삽입할 수 있다. 프로덕션(30100)은 A데이터 및 A데이터에 관한 컨텍스트 식별자 및 키워드를 포함하여 하나의 콘텐츠를 생성한다. 프로덕션(30100)은 컨텍스트에 기반하여 데이터를 식별하기 위해서, 컨텍스트 타임라인(Context Timeline, 4040)에 기초하여 컨텍스트 식별자 및 키워드를 데이터에 삽입한다. 프로덕션(30100)은 로우 비디오 열에 포함된 복수의 A데이터, B데이터 등에 각 데이터에 대한 컨텍스트 식별자 및 키워드를 삽입하여 복수의 콘텐츠를 포함하는 비디오 시퀀스를 생성할 수 있다. 프로덕션(30100)은 콘텍스트 기반의 콘텐츠 데이터를 시스템(30200)으로 전달한다.
예를 들어, 축구 경기에 대한 미디어 데이터가 있는 경우, 축구 경기에 등장하는 선수A에 대한 A데이터(A scene)가 비디오 시퀀스에 있을 수 있다. 여기서 A데이터를 마크-업하기 위한 컨텍스트 식별 정보 및 AI키워드 정보(4010)가 비디오 시퀀스에 포함된 하나 또는 하나 이상의 A데이터 앞에 삽입될 수 있다.
또한, 본 발명의 실시예들에 따라, 축구 경기에 등장하는 선수A의 볼터치 장면을 A데이터라고 분류한다면, A데이터에 등장하는 선수B, 선수C에 대해서도 각 A데이터 마다 컨텍스트 식별 정보 및 AI 키워드 정보(4010)를 사용하여 마크-업할 수 있다. 마크-업 정보 및 마크-업 정보의 대상이 되는 미디어 데이터는 본 발명의 실시예들에 따라서 다양하게 분류될 수 있다.
프로덕션(30100)은 콘텐츠를 컨텍스트 타임라인(4040)에 따라 컨텍스트 식별 정보 및 키워드 정보(4010)를 미디어 데이터에 삽입 또는 표시(mark-up)하여, 인코더(30200)로 콘텐츠를 전달하기 때문에, 인코더(30200)는 컨텍스트 타임라인(4040)과 같은 타임라인에 따라 조정된(aligned) 트랙 형태로 콘텐츠를 타임 메타데이터(timed metadata)처럼 수신할 수 있다. 도4와 같이, 프로덕션(30100)이 콘텐츠를 생성함으로써, AI시스템이 지원되지 않는 인코더라도 미디어 데이터에 포함된 A데이터(Scene grouping)을 처리할 수 있다. 따라서, 본 발명의 실시예들에 따른 신호 전송 장치 및 수신 장치는 AI시스템이 지원되는 인코더 및 AI시스템이 지원되지 않는 인코더 간 호환성을 제공할 수 있다. 즉, 본 발명의 실시예들에 따른 인코더(30200)는 프로덕션(30100)으로부터 투 트랙(two track)으로 미디어 데이터 및 메타데이터(timed metadata)로 수신하는 경우, 인코더가 미디어 데이터만을 인코딩할 수 있다. 인코더(30200)가 프로덕션(30100)으로부터 싱글 트랙(single track)으로 콘텐츠를 수신하는 경우 비디오 스트림에 포함된 마크-업 정보를 무시하고, 비디오 데이터만 인코딩할 수 있다.
도4의 A데이터(A Scene)는 샘플 그룹을 의미할 수 있다. 샘플이란, 미디어 파일에서 프레임을 나타낸다. 즉, 하나의 샘플은 미디어의 한 프레임을 의미하거나, 또는 프레임 단위 이하의 접근 가능한 미디어 엑세싱 단위를 의미한다. 따라서, 본 발명의 실시예들에 따른 신호 수신 장치는 샘플 엔트리를 통해 정렬된 샘플 또는 샘플 그룹에 접근할 수 있다. 샘플 그룹이란, 샘플들의 번들(bundle)을 의미한다. 샘플 그룹은 샘플들의 의미있는 그룹을 나타내고, 샘플 그룹은 샘플 엔트리 및 샘플 그룹에 대한 디스크립션을 통해 엑세싱된다. 샘플 그룹 엔트리 및 샘플 엔트리를 비교하면, 샘플 그룹 엔트리는 그룹핑 속성에 따라 번들된 샘플 그룹을 나타내고, 샘플 엔트리는 그룹핑 속성 없이 접근 가능한 샘플을 나타낸다. 여기서 그룹핑 속성은 그룹핑 타입 정보(grouping_type)에 의해 표현된다.
도5는 신호 전송 장치가 전송하는 서비스 데이터 및 시그널링 정보의 구성을 나타낸다.
상술한 바와 같이 시스템(30200)은 컨텍스트 기반의 데이터를 인식하고, 처리할 수 없기 때문에, 시스템(30200)은 프로덕션(30110)이 생성한 컨텍스트 기반의 콘텐츠를 신호 전송 장치가 전송할 수 있는 형태로 서비스 데이터를 생성한다. 나아가, 시스템(30200)은 전송하는 서비스 데이터에 대한 시그널링 정보를 생성한다.
시스템(30200)은 프로덕션(30110)으로부터 콘텐츠(5010)을 수신한다. 콘텐츠(5010)는 각 데이터 마다 컨텍스트 식별자 및 키워드를 포함한다. 인코더(30200)는 콘텐츠에 포함된 미디어 데이터를 인코딩한다.
파일 생성기(30220)는 프로덕션(30110)으로부터 콘텐츠(5010)를 수신하여 파일 포맷의 미디어 데이터(5030)를 생성할 수 있다. 파일 생성기(30220)는 미디어 데이터를 전송하기 위한 컨테이너 포맷(5030)에 기반하여 미디어 데이터를 전송할 수 있다.
본 발명의 실시예들에 따른 미디어 데이터(5030)는 ISO BMFF에 따라 박스 형태를 포함할 수 있다. ISO BMFF에 따른 박스는 moov박스, moof박스, mdat박스 등을 포함한다. 이러한 박스는 계층적 구조를 가질 수 있다. 박스의 계층적 구조는 도6에서 구체적으로 설명한다.
다시 말해, 본 발명의 실시예들에 따른 시스템(30200)은 콘텐츠(5010)로부터 컨텍스트 식별자 및 키워드를 포함하는 정보를 포함하는 시그널링 정보(5020)을 생성하고, 콘텐츠(5010)로부터 콘텍스트 식별자 및 키워드를 제외한, 서비스 데이터(A Scene, B Scene 등)만을 추출하여 미디어 데이터(5030)을 생성한다. 시그널링 정보(5020)는 시그널링 정보 생성기(30230)에 의해 생성될 수 있다. 미디어 데이터(5030)는 파일 생성기(30220)에 의해 생성될 수 있다.
도5는 moov박스(5031), moof박스(5032)이 포함된 미디어 데이터(5030)를 도시한다. moof박스(5032)는 무비 프래그먼트 박스(Movie Fragment Box)이고 파일에 포함된다. moof박스(5032)는 계층 구조의 클래스를 포함하고, 특정 클래스는 현재 미디어 파일이 가진 데이터의 엔트리(entry)에 따라서 각 엔트리 인스턴스에 해당하는 샘플 디스크립션(sample descrption)을 포함한다. 미디어 데이터의 파일은 각 샘플에 접근하거나 샘플들의 군집들에 접근하는 정보를 제공할 수 있다.
미디어 데이터 또는 세크먼트(5030)는 moov박스(5031)를 포함하고, moov박스(5031)는 moov박스(5031)의 뒤에 이어지는 미디어 샘플(A Secne, B Scene 등)에 대한 디코딩 초기화 정보를 포함할 수 있다. moov박스(5031)는 미디어 샘플(A Secne, B Scene 등)에 대한 샘플 디스크립션 정보 및 샘플 그룹핑 정보를 포함할 수 있다.
미디어 데이터 또는 세크먼트(5030)는 moov박스(5031)에 이어서 moof박스(5032)를 포함한다. moof박스(5032)는 moof박스(5032)에 포함된 미디어 프래그먼트를 사용하여 샘플의 타임 인덱싱 정보(time indexing) 및 샘플을 그룹핑하여 특정 샘플의 디스크립션을 제공할 수 있다. 본 발명의 실시예들에 따른 신호 송신 장치는 샘플 그룹핑을 제공하기 위해서, moov박스(5031)에 포함된 샘플 그룹 박스(SampleToGroup Box, sbgp)를 사용한다. 샘플 그룹 박스(SampleToGroup Box, sbgp)는 각 샘플에 대한 그룹핑 정보(group type)를 포함하고, 각 그룹핑된 엔트리(entry)를 샘플 그룹 디스크립션 박스(sample group description box)의 클래스에 기반하여 구체적인 디스크립션을 제공할 수 있다. 샘플 그룹 박스(SampleToGroup Box, sbgp)의 구체적인 신택스는 도7에서 설명하고, 샘플 그룹 디스크립션 박스(sample group description box)의 구체적인 신택스는 도8 내지 도9에서 설명한다.
본 발명의 실시예들에 따른 신호 전송 장치는 도5와 같이 컨텍스트 정보를 직접 데이터에 삽입한 콘텐츠를 사용하여 미디어 데이터를 생성하기 때문에, 미디어 데이터에 대한 컨텍스트 기반의 접근이 가능한 효과를 제공할 수 있다.
또한, 비디오 데이터 열만을 기준으로 생성된 박스 형태의 파일로부터 컨텍스트 기반의 접근을 위한 정보를 획득할 수 없다. 나아가, 파일 포맷에 포함된 부가적인 정보를 전달하기 위해서, 신호 전송 장치는 타임 메타데이터(Timed Metadata)를 전송할 수 있다. 이러한 방식은, 미디어 트랙과 연결된 시스템 타임 얼라인된(System Time Aligned) 힌트 트랙(Hint Track)을 통해 부가적인 데이터를 처리할 수 있다. 시스템이 미디어 관련 데이터를 전송하기 위해서 메티데이터를 생성하고, 메타데이터를 전송하더라도, 메타데이터는 미디어 데이터의 컨텍스트를 반영할 수 없다. 또한, 신호 전송 장치는 추가적인 텍스트 메타데이터 샘플(Text Metadata Sample)을 데이터의 인코딩 프레임 구조에 삽입할 수 있다. 신호 전송 장치는 인코딩 프레임 구조 상의 삽입점(Random Access Point)이 지정하는 위치에 추가적인 메타데이터 샘플을 삽입할 수 있다. 하지만, 본 발명의 실시예들에 따른 신호 전송 장치는 특정 위치에 메타데이터를 삽입하는 방식이 아닌, 미디어 데이터를 포함하는 프레임 구조 상에 미디어 데이터의 컨텍스트 정보를 직접적으로 삽입하는 방식을 제안한다.
다시 말해, 본 발명의 실시예들에 따른 신호 전송 장치는 비디오 데이터의 바이트(Byte) 열(Sequence)을 기반으로 파일에 포함된 미디어에 접근하는 방식이 필요 없다. 또한, 본 발명의 실시예들에 따른 신호 전송 장치는 컨텍스트 기반의 접근을 위한 정보를 미디어 파일 포맷을 구성한다. 나아가, 컨텍스트 기반의 접근을 위한 정보를 사용하여, 시스템(30200)은 미디어 데이터를 인코딩할 수 있다. 이러한 인코딩 방식은, 미디어 데이터의 인코딩 프레임 속성에 제한되지 않는다. 즉, 미디어 데이터에 관련된 정보인 인물, 에피소드, 뷰(View) 등을 기준으로 미디어 데이터에 접근할 수 있는 효과가 있다. 컨텍스트 기반의 접근을 위한 정보는 미디어 데이터의 비디오 옵셔널(Optional) 초기화 정보 또는 URI 형태의 부가적인 메타데이터에 한정되지 않고, ISO BMFF에 포함된 특정 정보를 확장함으로써 정의될 수 있다.
시그널링 정보 생성기(30230)는 시스템(30200)이 프로덕션(30110)으로부터 수신한 콘텐츠에 포함된 데이터, 컨텍스트 식별자, 및 키워드에 기초하여 시그널링 정보를 생성한다. 본 발명의 실시예들에 따른 신호 전송 장치 및 신호 수신 장치는 시그널링 정보 생성기(30230)가 생성한 시그널링 정보에 기반하여 컨텍스트 기반의 미디어 서비스를 제공할 수 있다. 또한, 본 발명의 실시예들에 따른 신호 전송 장치 및 신호 수신 장치는 시그널링 정보에 기반하여 컨텍스트 기반의 AI 미디어 서비스를 제공할 수 있다.
시그널링 정보 생성기(30230)는 시그널링 정보를 생성하여 manifest(5020)에 삽입할 수 있다. manifest(5020)는 콘텐츠에 포함된 서비스 데이터를 식별하는 정보, 서비스 데이터에 대한 컨텍스트 식별 정보, AI미디어 서비스를 위한 키워드 정보 등을 포함할 수 있다. manifest는 콘텐츠 관련 부가 데이터를 서비스 시그널링을 통해 전송할 수 있다.
또한, 시그널링 정보 생성기(30230)는 프로덕션(30110)이 생성한 콘텐츠의 컨텍스트 관련 부가 데이터를 인식한다. 시그널링 정보 생성기(30230)은 manifest에 서비스 시그널링 정보로써 콘텐츠의 컨텍스트 관련 부가 데이터를 삽입한다.
도5와 같은 미디어 데이터 및 시그널링 정보를 통해, 본 발명의 실시예들에 따른 신호 전송 장치는 미디어 파일에 대한 장면(Scene) 또는 시퀀스(Sequecne)마다 컨텍스트 식별자에 기반하여 접근할 수 있다. 또한, 컨트롤러(32040)는 사용자의 AI요청을 수신하여, 컨텍스트에 부합하는 manifest에 포함된 서비스 시그널링 정보를 획득한다. 따라서, 컨트롤러(32040)는 컨텍스트 및 AI자연어와 부합하는 파일을 요청한다. 그리고 디스플레이(32100)는 부합하는 파일을 재생한다. 본 발명의 실시예들에 따른 신호 전송 장치는 사용자에게 컨텍스트 기반의 AI 미디어 서비스를 제공할 수 있다.
도6은 컨텍스트 정보를 삽입한 파일 포맷의 구조를 나타낸다.
상술한 바와 같이, 프로덕션(30100)은 컨텍스트 타임라인에 따라서 컨텍스트 식별자 및 키워드를 포함하는 컨텍스트 관련 정보를 이용하여 콘텐츠를 생성한다. 시스템(30200)은 콘텐츠로부터 서비스 데이터(4020, 4030)를 추출하고, 박스(5031, 5032)를 생성하여 미디어 데이터를 생성한다. 도6은 타임 컨텍스트(Timed Context) 관련 정보가 삽입된 미디어 데이터의 파일 포맷 의 계층적 구조를 나타낸다. 도6의 미디어 파일 포맷은 ISO/IEC 14496-12 표준을 참조하여 이해될 수 있다. 본 발명의 실시예들에 따른 미디어 파일 포맷은 ISO/IEC 14496-12 표준 외에도 도6과 같은 컨테이너 또는 박스 형태의 구조에 따라 정의될 수 있다.
본 발명의 실시예들에 따른 미디어 데이터(5030)는 컨텍스트 관련 시그널링 정보를 포함하는 제1 박스(61000) 및 컨텍스트 관련 미디어 데이터를 포함하는 제 2 박스(mdat, 62000)을 포함한다. 제 2 박스(mdat, 62000)는 미디어 데이터 컨테이너 또는 미디어 데이터 박스를 의미한다.
제1박스(61000)는 제3박스(ftyp, 61100) 및 제4박스(moov, 61200)를 포함한다.
제3박스(ftyp, 61100)는 파일 타입 박스이고, 미디어 파일의 타입을 나타내는 정보를 포함합니다. 제3박스의 정보를 통해 파일을 식별할 수 있다. 제3박스(ftyp, 61100)는 미디어 데이터의 앞에 위치할 수 있다.
제4박스(moov, 61200)는 무비 박스이고, 제3박스(61100) 뒤에 위치한다. 제4박스(61200)는 프리젠테이션(Presentation)을 위한 메타데이터를 포함한다. 제4박스(moov, 61200)는 제5박스(Trak, 61210)를 포함한다. 본 명세서에서 제4박스(moov, 61200)는 무비박스(Movie Box)라고 호칭될 수 있다.
제5박스(Trak, 61210)는 트랙 박스이다. 제5박스(Trak, 61210)는 프리젠테이션의 싱글 트랙(single track)을 위한 컨테이너 박스를 의미한다. 프리젠테이션은 하나 또는 하나 이상의 트랙으로 구성된다. 제5박스(Trak, 61210)은 미디어 데이터의 시간 및 공간 정보를 포함한다. 제5박스(Trak, 61210)는 제6박스(tkhd, 61220)을 포함한다.
제6박스(tkhd, 61220)는 트랙 헤더 박스이다. 하나의 트랙 내에 하나의 트랙 박스가 포함되기 때문에 제6박스(tkhd, 61220)는 싱글 트랙의 특성 정보를 포함한다. 트랙 식별자(TrackID)가 1인 경우, 제6박스(tkhd, 61220)는 제7박스(Minf, 61240)를 포함한다.
제7박스(Minf, 61240)는 미디어 인포메이션 박스이고, 트랙에 포함된 미디어의 특성 정보를 포함한다. 제7박스(Minf, 61240)는 제8박스(stbl, 61250)를 포함한다.
제8박스(stbl, 61250)는 샘플 테이블 박스이고, 미디어 인포메이션 박스(minf)에 포함된다. 제8박스(stbl, 61250)는 트랙에 포함된 미디어 샘플들에 대한 정보를 포함한다. 제8박스(stbl, 61250)에 포함된 정보를 사용하여, 시간 상 샘플들을 위치를 알 수 있고, 샘플들의 타입 및 크기 등을 알 수 있다. 제8박스(stbl, 61250)는 제9박스(stsd, 61252) 및 제10박스(sgpd, 61252)를 포함한다.
제9박스(stsd, 61252)는 샘플 디스크립션 박스이고, 샘플 테이블 박스(stbl)에 포함된다. 제9박스(stsd, 61252)는 코딩 타입의 정보 및/또는 코딩에 필요한 초기화 정보를 포함한다.
제10박스(sgpd, 61252)는 샘플 그룹 디스크립션 박스이고, 샘플 테이블 박스에 포함된다. 제10박스(sgpd, 61252)는 샘플 그룹들의 특성 정보를 포함한다. 제10박스(sgpd, 61252)는 샘플 그룹을 정의하거나 특성을 나타내는데 필요한 정보를 포함한다. 트랙에 포함된 샘플들을 위한 샘플 그룹의 개수가 복수인 경우 샘플 그룹 디스크립션 박스의 인스턴스(instance)의 개수가 여러 개 있을 수 있다.
제9박스(stsd, 61252)는 제11박스(hvc1, 61251-1)을 포함한다. 제11박스(hvc1, 61251-1)는 제12박스(hvcC, 61251-2)를 포함한다. 제11박스(hvc1, 61251-1) 및 제12박스(hvcC, 61251-2)는 HEVC(High Efficiency Video Codec)의 비디오 인코딩에 기반한 비디오 샘플 디스크립션 박스이다. 제9박스(stsd, 61252)는 MPEG-2, AVC, HEVC 등 다양한 비디오 인코딩 방법에 따른 샘플 디스크립션을 포함할 수 있다. 도6은 HEVC 방식에 따른 hvc1-hvcC 디스크립션의 클래스가 사용되는 구조를 나타낸다.
제10박스(sgpd, 61252)는 제12박스(tcin, 61252-1)를 포함한다. 제10박스(sgpd, 61252)는 제9박스(stsd, 61252)의 하위에 정의될 수 있다. 제10박스(sgpd, 61252)는 제9박스(stsd, 61252)의 하위에 위치함으로써, 제9박스(stsd, 61252)의 속성에 따라서 제10박스(sgpd, 61252)가 샘플에 대한 그룹핑 정보를 제공하기 위해 사용될 수 있기 때문이다. 도6의 박스의 구조(hierarchy)에 따른 샘플 및 샘플 그룹핑에 대한 구체적인 신택스는 도7 내지 도9에서 구체적으로 설명한다.
본 발명의 실시예들에 따른 신호 전송 장치는 제12박스(tcin, 61252-1)에 포함된 그룹 디스크립션 인덱스(group description index), 컨텍스트 시퀀스 넘버(context sequence number), AI키워드(AI Keyword)를 사용하여 미디어 데이터 또는 비디오 시퀀스에 포함된 샘플 및 샘플을 그룹핑한 각 엔트리에 대한 디스크립션 정보를 제공할 수 있다. 제12박스(tcin, 61252-1)의 구체적인 신택스는 도9에서 설명한다.
제 2 박스(mdat, 62000)는 미디어 데이터 박스이고, 미디어 데이터를 위한 컨테이너이다. 비디오 트랙의 경우, 제 2 박스(mdat, 62000)는 비디오 프레임을 포함한다. 프리젠테이션은 제로 또는 하나 이상의 미디어 데이터 박스들을 포함한다. 도6은 제 2 박스(mdat, 62000)가 미디어 데이터에 대한 컨텍스트를 포함하는 구성을 나타낸다. 제 2 박스(mdat, 62000)는 복수 개의 컨텍스트들을 포함할 수 있다. 본 명세서에서 복수개의 컨텍스트는 제1컨텍스트(62010), 제2컨텍스트(62020), 제3컨텍스트(62030), 제4컨텍스트(62040) 등으로 명명될 수 있다.
제9박스(stsd, 61252)는 제11박스(hvc1, 61251-1) 및 제12박스(hvcC, 61251-2)를 통해서 샘플 디스크립션을 정의하는 정보를 기술할 수 있다. 제 2 박스(mdat, 62000)가 복수 개의 미디어 데이터, 예들 들어, 비디오 데이터를 포함하는 경우, 타임 얼라인드된(time aligned) 타임 컨텍스트 인포메이션(timed context information)에 따라서 미디어 파일 포맷이 샘플 디스크립션을 포함할 수 있다. 그리고 샘플 디스크립션을 위한 정보가 제9박스(stsd, 61252)의 하위 박스인 제11박스(hvc1, 61251-1) 및 제12박스(hvcC, 61251-2)에 포함될 수 있다.
본 발명의 실시예들에 따른 신호 전송 장치는 비디오 시퀀스를 컨텍스트에 따라서 분리할 수 있고, 컨텍스트 별로 분리된 비디오 시퀀스에 접근하여, 선택적 및 독립적으로 비디오 데이터를 재생할 수 있는 효과를 제공한다. 비디오 데이터에 컨텍스트에 기반하여 접근하고, 선택적 및 독립적으로 비디오 데이터를 재생하기 위해서, 본 발명의 실시예들에 따른 신호 전송 장치는 도6과 같이, 미디어 파일 포맷의 샘플 그룹핑 정보를 통해 복수의 컨텍스트를 구분할 수 있다. 구체적인 샘플 그룹핑의 신택스는 도7에서 설명한다.
도7은 미디어 파일 포맷의 샘플 그룹 박스의 신택스를 나타낸다.
도7의 샘플 그룹 박스(SampleToGroup Box, sbgp)는 도6의 제8박스(stbl, 61250)에 더 포함될 수 있다. 샘플 그룹 박스(SampleToGroup Box)는 샘플이 속한 그룹을 찾기 위해 사용될 수 있다. 샘플 그룹 박스(SampleToGroup Box)는 샘플 그룹과 관련된 디스크립션을 찾기 위해 사용될 수 있다. 샘플 그룹 박스(SampleToGroup Box)는 그룹핑 타입 (Grouping_type) 정보 및 그룹 디스크립션 인덱스 (group_description_index) 정보를 포함할 수 있다.
그룹핑 타입(Grouping_type)은 샘플 그룹핑의 타입을 식별하는 정보이다. 그룹핑 타입(Grouping_type)은 샘플 그룹을 생성하는데 사용된 기준 또는 타입을 나타낸다. 또한, 그룹핑 타입(Grouping_type)은 그룹핑 타입에 대한 같은 값을 갖는 샘플 그룹 디스크립션 테이블에 링크되는데 사용될 수 있다. 그룹핑 타입 파라미터(grouping_type_parameter)에 기초한 그룹핑 타입에 대한 같은 값을 같은 샘플 그룹 박스는 하나의 트랙을 위해 최대 한번 존재할 수 있다.
그룹 디스크립션 인덱스(group_description_index)는 그룹에 포함된 샘플들을 설명하는 샘플 그룹 엔트리의 인덱스를 나타낸다. 인덱스는 1부터 샘플 그룹 디스크립션 박스에 포함된 샘플 그룹 엔트리들의 개수까지의 값을 가질 수 있다. 샘플이 이 타입을 갖는 그룹이 아닌 그룹의 멤버인 경우, 인덱스는 0의 값을 가질 수 있다.
따라서, 샘플 그룹 박스는 특정 샘플 그룹과 관련된 샘플과 디스크립션을 제공하여 다양한 엔트리 인스턴스에 대한 그룹 정보를 제공할 수 있다.
샘플 그룹 박스의 그룹핑 타입 (Grouping_type) 정보 및 그룹 디스크립션 인덱스 (group_description_index) 정보는 14496-12 ISOBMFF에 기초하여 정의될 수 있다.
본 발명의 실시예들에 따른 신호 전송 장치는 그룹핑 타입 (Grouping_type) 정보 및 그룹 디스크립션 인덱스 (group_description_index) 정보를 더 확장하여 사용할 수 있다. 본 발명의 실시예들에 따른 신호 전송 장치는 그룹핑 타입 (Grouping_type) 정보의 값을 새로 할당하여 tcin을 정의할 수 있다.
도7은 컨텍스트 그룹 타입이 tcin인 경우를 나타낸다. 컨텍스트 그룹 타입이 tcin인 경우에 해당하는 샘플 그룹은 컨텍스트 기반의 선택적 미디어 서비스를 지원할 수 있다.
그룹핑 타입 파라미터(grouping_type_parameter)는 하나의 트랙에 같은 샘플 그룹 타입을 갖는 박스가 있는 경우, 같은 값을 갖는 샘플 그룹을 나타낼 수 있다.
샘플 그룹 박스의 엔트리 카운트(entry_count) 정보는 테이블에 포함된 엔트리들의 개수를 나타낸다. 컨텍스트 그룹 타입이 tcin인 경우, 엔트리 카운트 정보는 전체 비디오 시퀀스를 컨텍스트에 기반하여 컨텍스트 별로 분리한 시퀀스의 총 개수를 나타낸다. 엔트리 카운드 정보는 그룹 엔트리(group entry)를 나타낼 수 있다. 긱 엔트리 카운트에 대한 시퀀스는 샘플 카운트 및 그룹 디스크립션 인덱스를 포함한다.
샘플 카운트는 시퀀스에 포함된 샘플의 개수를 나타낸다. 그룹 디스트립션 인덱스는 컨텍스트 식별자에 따라 그룹핑된 번들에 대한 인덱싱 정보를 나타낸다. 컨텍스트 그룹 타입이 tcin인 경우, 그룹 디스트립션 인덱스는 비디오 데이터를 에피소드, 인물 등과 같은 조건으로 나뉘어진 컨텍스트를 식별할 수 있는 식별 정보(ID)를 의미한다. 컨텍스트 별로 미디어 데이터를 나누기 위해서, 미디어 파일 포맷을 더 확장할 수 있다. 추가 확장된 파일 포맷은 도8에서 구체적으로 설명한다.
도8은 미디어 파일 포맷의 샘플 그룹 디스크립션 박스의 신택스를 나타낸다
도8의 샘플 그룹 디스크립션 박스는 제10박스(sgpd, 61252)에 대응된다. 도8의 샘플 그룹 디스크립션 박스는 도7의 샘플 그룹 박스(SampleToGroup Box)에서 정의된 그룹 엔트리(group entry)들의 디스크립션을 설명할 수 있는 박스이다. 엔트리(entry) 값에 따라서 현재 지정된 샘플(sample)들의 묶음인 엔트리(entry)에 대한 디스크립션의 수를 조정할 수 있다. 본 발명의 실시예들에 따른 신호 전송 장치가 비디오 데이터 또는 미디어 데이터에 대한 컨텍스트에 부합하는 샘플들의 집한 또는 시퀀스(sequence)를 식별하고, 사용자의 요청을 위한 키워드를 통해 미디어 데이터에 접근할 수 있도록, 샘플 그룹 디스크립션 박스는 샘플 그룹 엔트리(Sample GroupEntry)를 더 포함한다. 샘플 그룹 엔트리는 비쥬얼샘플그룹엔트리(visualsmplegroupentry)를 더 포함함으로써 더 확장될 수 있다. 비쥬얼 샘플그룹 엔트리의 내부가 도9와 같이 추가적으로 확장될 수 있다. 비쥬얼 샘플그룹 엔트리의 확장된 내부 구조는 도9에서 구체적으로 설명한다.
그룹핑 타입은 샘플 그룹핑의 타입을 식별하는 정보이다. 엔트리 카운트는 전체 비디오 시퀀스를 컨텍스트에 기반하여 컨텍스트 별로 분리한 시퀀스의 총 개수를 나타낸다. 각 엔트리 카운트마다 컨텍스트 별로 분리된 시퀀스에 대한 디스크립션의 길이(length) 또는 개수가 정의될 수 있다.
디폴트 길이(default length)는 그룹핑 타입에 따른 샘플 그룹핑 묶음에서 디폴트로 엑세싱해야 하는 샘플에 대한 길이를 나타낸다.
디폴트 샘플 디스크립션 인덱스(default_sample_description_index)는 엔트리에 대한 샘플 디스크립션 중에서 디폴트로 엑세싱해야하는 샘플 디스크립션이 있는 경우, 디폴트 샘플 디스크립션의 인덱스를 나타낸다.
엔트리 카운트는 샘플 그룹핑들의 개수를 나타낸다. 각 엔트리 카운트마다, 디폴트 길이가 제로인 경우, 엔트리에 해당하는 디스크립션의 길이가 샘플 디스크립션 박스에 포함된다. 그리고, 각 엔트리 카운트마다, 그룹핑 타입이 tcin경우, 샘플 그룹 엔트리가 샘플 디스크립션 박스에 포함된다.
다시 말해, 샘플 그룹 디스크립션 박스는 그룹핑 타입이 tcin에 해당하는 경우, 샘플 그룹에 대한 타입과 디스크립션 길이 등에 관한 정보를 제공하고, 나아가, 각 엔트리마다 샘플 그룹 엔트리를 제공함으로써 샘플 그룹 엔트리를 위한 컨텍스트 기반 미디어 서비스를 제공한다.
도9는 컨텍스트 정보를 위한 샘플 엔트리의 신택스를 나타낸다.
그룹핑 타입이 tcin인 경우, 샘플 그룹 엔트리는 비쥬얼 샘플 그룹 엔트리를 더 포함하고, 비쥬얼 샘플 그룹 엔트리는 도9의 타임 컨텍스트 인포메이션 샘플 엔트리(Timed context information Sample Entry)를 통해 확장될 수 있다.
컨텍스트 식별 정보(Context_id)는 컨텍스트를 구분하는 구분자 또는 식별자이다. 컨텍스트 식별 정보(Context_id)는 샘플 그룹 박스(SampleToGroup Box, sbgp)에 포함된 그룹 디스크립션 인덱스(group description index)와 동일한 의미를 나타낼 수 있다. 그룹 디스크립션 인덱스(group description index)는 샘플 디스크립션 인덱스(sample description index)으로 명명될 수 있다. 그룹 디스크립션 인덱스란, 컨텍스트 식별 정보에 기초하여 그룹핑한 번들(bundle)을 나타내는 정보를 의미한다. 그룹 디스크립션 인덱스 또는 샘플 디스크립션 인덱스는, 그룹핑한 번들을 컨텍스트 그룹 인덱싱하기 위해 사용된다.
본 발명의 실시예들에 따른 신호 전송 장치는 도3에서 상술한 바와 같이, 컨텍스트 식별 정보 및 키워드(AI keyword)가 삽입된 콘텐츠를 파싱하여 콘텐츠에 포함된 미디어 데이터를 컨텍스트 식별 정보를 사용하여 컨텍스트 별로 분류하고, 카테고리화할 수 있다. 따라서, 컨텍스트 식별 정보의 값은 키워드(AI keyword) 및 컨텍스트 별로 카테고리화된다. 카테고리화된 컨텍스트 식별 정보의 값은 DASH Media Presentation Description (MPD)에 정의될 수 있다. 본 발명의 실시예들에 따른 신호 전송 장치 또는 신호 수신 장치는 MPD에 포함된 값을 이용하여 컨텍스트별로 매칭을 할 수 있다.
디콜트 시퀀스 플레이 인디케이터(default_sequence_play_indicator)는 반드시 재생해야 하는 시퀀스인지 여부를 나타낸다. 본 발명의 실시예들에 따른 신호 수신 장치는 컨텍스트에 따라 선택적 또는 독립적으로 미디어 데이터를 재생하기 전에, 디콜트 시퀀스 플레이 인디케이터 (default_sequence_play_indicator)를 확인하여 반드시 재생해야 하는 시퀀스인지 여부를 확인할 수 있다.
디폴트 시퀀스 플레이 컨텍스트 아이디(default_sequence_play_context_id)는 컨텍스트에 따른 선택적 재생을 진행하기 전, 반드시 재생해야 하는 시퀀스에 해당하는 레퍼런스 컨텍스트 아이디(reference context id)를 나타낸다. 본 발명의 실시예들에 따른 신호 수신 장치는, 컨텍스트 별로 번들된 샘플들을 식별하고, 샘플들 중 디폴트로 플레이해야 하는 시퀀스를 확인하여, 디폴트로 플레이해야 하는 시퀀스가 존재하는 경우 그룹 디스크립션 인덱스에 해당하는 그룹에 대하여 디콜트로 플레이해야 하는 시퀀스의 컨텍스트 식별자를 확인할 수 있다.
무비 프래그먼트 시퀀스 넘버(movie_fragment_sequence_number)는 현재 시점의 무비 프래그먼트 시퀀스의 번호를 나타낸다.
컨텍스트 시퀀스 넘버(context_sequence_number)는 현재 컨텍스트 별 그룹핑된 연속된 샘플들의 시퀀스 번호를 나타낸다.
키워드(AI_keyword)는 현재 컨텍스트 별 그룹핑된 연속된 샘플들이 키워드(AI keyword)를 포함하는지 여부를 나타낸다. 그룹핑 샘플들이 키워드를 포함하는 경우, 키워드 값(keyowrd)이 스트링 타입으로 타임 컨텍스트 인포메이션 샘플 엔트리에 포함된다. 키워드(Keyword)는 사용자의 AI기반 요청을 인식할 수 있는 키워드를 나타낸다. 구체적으로, 키워드는 프로그램의 명칭, 프로그램의 종류, 프로그램의 출연자 등을 포함할 수 있다. 키워드(keyowrd) 값의 포함여부는 옵셔널(optional)하다. 즉, 본 발명의 실시예들에 따른 신호 전송 장치는 컨텍스트 별 샘플들에 대해 키워드를 삽입할 수 있고, 키워드를 삽입하지 않을 수도 있다. 본 발명의 실시예들에 따른 신호 수신 장치는, 샘플 엔트리 정보를 파싱하여, 컨텍스트 식별 정보 별로 키워드 값을 확인하고, 사용자가 요청한 자연어에 포함된 키워드와 연결하여, 선택적인 미디어 서비스를 사용자에게 제공할 수 있다.
도9의 컨텍스트 정보를 위한 샘플 엔트리 박스를 이용하여, 본 발명의 실시예들에 따른 신호 전송 장치는 콘텐츠에 포함된 컨텍스트에 따라서 미디어 데이터 또는 비디오 시퀀스를 구분할 수 있는 컨텍스트 식별 정보를 획득할 수 있고, 컨텍스트 식별 정보에 따른 시퀀스를 선택적으로 재생할 수 있다. 또한, 본 발명의 실시예들에 따른 신호 전송 장치 또는 신호 수신 장치는 컨텍스트 정보를 위한 샘플 엔트리 박스에 포함된 키워드(AI keyword)를 통해, 사용자의 AI요청에 부합하는 시퀀스를 선택적으로 재생할 수 있다.
도7 내지 도9와 같은 디스크립션 박스를 사용함으로써, 본 발명의 실시예들에 따른 신호 전송 장치 및 수신 장치는 컨텍스트 기반 미디어 서비스를 제공할 수 있다. 즉, 신호 전송 장치 및 수신 장치는 사용자의 자연어 키워드를 AI방식에 기반하여 인식하고, 인식된 키워드를 미디어 서비스에 포함된 컨텍스트 관련 정보와 연결하여, 선별적인 미디어 서비스를 제공한다.
본 발명의 실시예들에 따른 신호 전송 장치는 특정 프로그램, 또는 콘텐츠의 타이틀, 장르, 및 등장인물과 같은 개략적인 정보에 기초하여 서비스 가이드를 제공하는 방식에서 더 나아가, AI 방식을 사용하여 사용자의 자연어를 이해할 수 있다. 나아가, 본 발명의 신호 전송 장치는 사용자의 자연어에 기반한 빅데이터를 구축하여, 빅데이터를 활용할 수 있다. 또한, 본 발명의 실시예들에 따른 신호 전송 장치는 VOD 서비스, OTT 애플리케이션, 회차별 서비스 제공, 영화별, 날짜별 콘텐츠 제공하는 방식에서 더 나아가, 컨텍스트를 인식하여 미디어 서비스를 제공할 수 있다. 애플리케이션 서비스, ACR(Automatic Content Recognition) 서비스는 UTC 기반의 동기화된 서비스에 제한된다.
본 발명의 실시예들에 따른 키워드(AI keyword)는 타이틀 또는 주연배우와 같은 키워드에 제한되지 않는다. 따라서, 본 발명의 실시예들에 따른 신호 전송 장치는 컨텍스트에 기반한 다양한 키워드에 기반한 미디어 접근이 가능하다.
도10은 컨텍스트 관련 정보에 기반한 선택적 재생 방법을 나타낸다.
도10의 S10000단계를 참조하면, 본 발명의 실시예들에 따른 신호 전송 장치의 프로덕션(30110)이 컨텍스트 식별 정보 및 AI키워드를 포함하는 컨텍스트 관련 정보에 기반한 콘텐츠를 생성한 후, 시스템(30200)이 컨텍스트 관련 정보에 대한 시그널링 정보를 생성하고, 콘텐츠를 파일 포맷으로 생성한다. 도6에서 상술한 바와 같이, 파일 포맷을 통해 본 발명의 실시예들에 따른 신호 전송 장치 비디오 시퀀스 또는 미디어 데이터를 샘플 또는 샘플들의 그룹으로 분류할 수 있고, 샘플에 대한 엔트리 및 샘플 그룹에 대한 엔트리를 정의함으로써 컨텍스트 식별 정보 및 키워드 정보를 사용하여 비디오 시퀀스를 선택적으로 획득할 수 있다.
도10의S10010단계를 참조하면, 본 발명의 실시예들에 따른 신호 수신 장치는 컨트롤러(32040)를 통해 사용자 또는 클라이언트로부터 콘텐츠를 요청하는 신호를 수신한다. 컨트롤러(32040)는 클라이언트가 콘텐츠를 요청하는 신호를 AI 방식에 기반하여 분석하여 콘텐츠 요청 신호로부터 AI 키워드를 획득한다.
본 발명의 실시예들에 따른 신호 수신 장치는 시그널링 정보(manifest)를 수신하고, 시그널링 정보를 통해 현재 수신한 콘텐츠가 AI키워드를 통한 컨텍스트 별 선택적 재생이 가능한 미디어 서비스임을 확인할 수 있다. 본 발명의 실시예들에 따른 신호 수신 장치는 시그널링 정보(manifest)에 기초한 서비스 시그널링을 통해 서비스 가이드를 제공할 수 있다. 본 발명의 실시예들에 따른 신호 수신 장치는 클라이언트로부터 요청을 수신하면, 시그널링 정보(manifest)를 사용하여 클라이언트 요청에 관련된 AI 키워드에 해당하는 파일을 획득한다. 본 발명의 실시예들에 따른 신호 수신 장치는 파일을 수신한 이후, AI 키워드에 부합하는 컨텍스트 식별 정보(context id)에 따라서 시퀀스를 선택적으로 디코딩할 수 있다.
본 발명의 실시예들에 따른 신호 수신 장치는 AI 키워드를 통해, 파일 포맷의 미디어 데이터의 각 디스크립션 박스를 참조하고, 각 디스크립션 박스에 포함된 컨텍스트 식별 정보 및 키워드 정보를 사용하여 사용자의 요청에 부합하는 시퀀스를 획득할 수 있다.
도10의 S10020단계를 참조하면, 본 발명의 실시예들에 따른 신호 수신 장치의 디코더(3250)는 사용자의 요청에 부합하는 시퀀스를 선별적으로 디코딩한다. 도10은 디코더(3250)가 사용자의 AI키워드로부터 시퀀스 A를 추출하고, 선별적으로 디코딩하는 모습을 나타낸다. 본 발명의 실시예들에 따른 신호 수신 장치의 디스플레이(32100)는 선별적으로 디코딩된 시퀀스를 디스플레이한다.
도11은 컨텍스트 기반의 AI미디어 서비스 시스템의 구성을 나타낸다.
본 발명의 실시예들에 따른 신호 수신 장치는 디코더(111000), 재생기(113000), 및 서버(117020)를 포함할 수 있다. 도11의 구성은 상술한 도3의 디코더(32050)에 포함될 수 있다.
디코더(111000)는 시그널링 복호화기(111010), 세그먼트 해석기(111020, 111030), 비디오 버퍼(111040), 오디오 버퍼(111050)를 포함한다.
시그널링 복호화기(111010)는 튜너(32010)가 수신한 신호에 포함된 미디어 스트림 데이터를 수신하여, 미디어 스트림 데이터로부터 시그널링 정보를 복호한다. 시그널링 복호화기(111010)는 미디어 스트림 데이터로부터 서비스 정보 및 채널 정보를 획득하여 데이터베이스(116000)에 전달한다.
세그먼트 해석기(111020) 및 세그먼트 해석기(111030)은 미디어 스트림 데이터의 비디오 세그먼트 및 오디오 세그먼트를 각각 해석한다. 비디오 세그먼트 해석기(111020)는 비디오 데이터를 비디오 버퍼(111050)에 전달한다. 오디오 세그먼트 해석기(111050)는 오디오 데이터를 오디오 디코더(111050)에 전달한다.
비디오 버퍼(111040)는 비디오 세그먼트 해석기(111020)으로부터 비디오 데이터를 수신하여 버퍼에 비디오 데이터를 저장한다. 비디오 버퍼(111040)는 버퍼에 저장된 비디오 데이터를 비디오 복호기(112000)에 전달한다.
오디오 디코더(111050)는 오디오 세그먼트 해석기(111050)로부터 오디오 데이터를 수신하여 오디오 데이터를 디코딩한다.
비디오 복호기(112000)는 비디오 버퍼(111040)로부터 비디오 데이터를 수신하여 비디오 데이터를 복호하고 재생기(113000)에 전달한다.
오디오 복호기(112010)는 오디오 디코더(111050)으로부터 오디오 데이터를 수신하고, 오디오 데이터를 복호하여 재생기(113000)으로 전달한다.
초기화 서버(114000)는 수신 장치의 전원이 활성화 될 때 요구되는 초기화 정보를 저장한다. 수신 장치의 전원이 활성화 되면, 초기화 서버(114000)는 자동으로 채널을 초기화하고, 자동 채널 초기화에 대한 메타데이터를 IP 채널(115000)에 전달한다.
IP 채널(115000)은 수신 장치가 IP에 연결된 경우, IP채널에 관한 정보를 데이터베이스(116000)에 제공한다. 본 발명의 실시예들에 따른 신호 수신 장치는 IP가 연결된 장치를 포함한다. IP가 연결된 수신 장치의 전원이 활성화 되는 경우, 본 발명의 실시예들에 따른 신호 수신 장치는 지상파 채널뿐만 아니라 IP채널도 함께 스캐닝할 수 있다. 채널(115000)은 IP채널에 대한 정보도 함께 제공할 수 있다.
데이터베이스(116000)는 시그널링 복호화기(111010)으로부터 서비스 정보 및 채널 정보를 수신하고, IP 채널 (115000)로부터 IP채널에 대한 정보를 수신한다. 데이터베이스(116000)는 채널에 대한 데이터베이스를 생성하고, 미디어 스트림의 서비스 데이터에 대한 서비스 가이드 정보(Electronic Service Guide, ESG)를 생성하여 사용자에게 제공할 수 있다. 본 발명의 실시예들에 따른 신호 수신 장치는 사용자로부터 서비스 데이터에 대한 요청을 수신하여, 요청에 관련된 채널에 해당하는 미디어 스트림을 수신한다.
데이터베이스(116000)는 IP채널 스캐닝 정보를 지상파 채널 데이터베이스에 저장하고, 지상파 채널 및 IP 채널을 포함하는 ESG를 사용자에게 제공할 수 있다. 사용자가 ESG를 통해 시청하고 싶은 채널 또는 서비스 데이터를 선택(117000)하면, 본 발명의 실시예들에 따른 신호 수신 장치의 재생기(113000)는 제공 가능한 서비스를 UI(user interface)/UX(User experience)에 기반하여 디스플레이할 수 있다.
서버(117020)는 사용자의 선택(117000)에 대한 컨텐츠를 제공하기 위한 컨텐츠 서버(117010)이다. 서버(117020)는 사용자가 ESG 관련 UI/UX에 기반하여 컨텐츠를 선택한 유저 액션에 대응하여, 컨텐츠를 사용자에게 제공할 수 있다.
도11의 컨텍스트 기반의 AI미디어 서비스 시스템은 상술한 도3의 시스템(32000)에 포함될 수 있다.
도12는 본 발명의 실시예들에 따른 수신 방법을 나타낸다.
단계 S12001을 참조하면, AI컨트롤러(32040)는 사용자의 자연어 요청을 수신한다. 사용자의 요청은 컨텍스트에 기반한 자연어 요청을 포함하고, 사용자가 시청하고 싶은 미디어 데이터에 대한 다양한 자연어 요청을 모두 포함한다. 사용자는 서비스 데이터A에 출연한 인물B에 관련된 시퀀스 데이터를 보여달라고 AI컨트롤러(32040)에 요청할 수 있다. 사용자는 스포츠A경기에서 운동선수B의 골 장면을 보여달라고 AI컨트롤러(32040)에 요청할 수 있다. 본 발명의 실시예들에 따라, 사용자의 자연여 요청에 대한 컨텍스트는 서비스의 장르, 시간, 인물, 장소, 등장 요소 등 그 대상이 한정되지 않고, 신호에 포함된 데이터와 관련된 컨텍스트를 모두 포함할 수 있다. 따라서 사용자는 제한 없이 자연어를 통해 수신 장치에 요청할 수 있고, 수신 장치는 AI 제어를 통해 사용자의 요청에 포함된 컨텍스트와 관련된 데이터를 신호로부터 획득하여 사용자에게 제공할 수 있다.
단계 S12002 을 참조하면, AI컨트롤러(32040)는 수신한 사용자의 요청을 포함하는 자연어로부터 AI키워드를 분석한다. AI컨트롤러(32040)는 AI분석 방식을 사용하여 자연어에 포함된 키워드를 추출한다.
단계 S12003 을 참조하면, AI컨트롤러(32040)는 AI 키워드에 해당하는 서비스를 획득하기 위해 서버에 접근한다. AI 키워드와 관련 있는 서비스가 사용자가 시청하고 싶은 데이터에 해당하기 때문에, AI컨트롤러(32040)는 AI 키워드와 관련이 있는 서비스를 획득하기 위해서 서버(117020)에 접근한다.
단계 S12004 을 참조하면, AI컨트롤러(32040)는 서버(117020)로부터 서비스 데이터 A를 획득하여 스트리밍을 시작한다. 운동선수B의 골 장면을 보여달라는 사용자의 요청에 대응하여, AI컨트롤러(32040)는 운동선수 B의 골 장면이라는 콘텍스트에 기반하여, 운동선수B의 골 장면을 포함하는 서비스 데이터A를 우선 획득해야 하기 때문이다.
단계 S12005을 참조하면, 시스템(32000)은 튜너(32010)가 수신한 신호의 미디어 데이터를 포함하는 파일을 파싱한다. 시스템(32000)은 상술한 도5내지10의 파일을 파싱함으로써 비디오 시퀀스에 대한 샘플 또는 샘플 그룹에 대한 컨텍스트 정보를 확인하고, 샘플 또는 샘플 그룹에 접근할 수 있는 컨테이너 등을 확인할 수 있다.
단계 S12006을 참조하면, 시스템(32000)은 사용자의 요청에 대한 키워드, 파일에 포함된 컨텍스트 식별 정보 및 키워드를 이용하여 운동선수B의 골 장면에 관련된 데이터만을 분류하여 및 버퍼(111040)에 저장한다. 시스템(32000)은 사용자가 요청한 비디오 시퀀스만을 모아서 재생하기하기 위해서, 비디오 데이터 및 오디오 데이터를 버퍼에 저장할 수 있다.
단계 S12007을 참조하면, 디코더(32050, 112000, 112010)는 운동선수B의 골 장면에 관련된 데이터를 포함하는 시퀀스만 디코딩한다.
단계 S12008을 참조하면, 재생기(32100, 113000)는 사용자가 원하는 시퀀스만 선택적 디스플레이한다. 사용자는 ESG를 통해서 시청하고 싶은 콘텐츠를 시청할 수 있다. 사용자는 ESG를 통해서 시청하고 있는 콘텐츠에 대한 정보를 확인할 수 있다. 본 발명의 실시예들에 따른 신호 수신 장치는 디스플레이를 통해서 사용자에게 AI자연어에 기반한 컨텍스트 및 키워드 접근이 가능한 것을 가이드하여 알려줄 수 있다. 사용자는 컨텍스트 및 키워드에 기반하여 미디어 데이터를 선별적으로 시청할 수 있음을 확인하고, 본 발명의 실시예들에 따른 신호 수신 장치에 사용자가 원하는 키워드를 요청할 수 있다. 나아가, 본 발명의 실시예들에 따른 신호 수신 장치는 콘텐츠에 관련된 컨텍스트 정보를 사용자에게 알려줘서, 사용자가 선별적 재생을 선택할 수 있게 가이드할 수 있다.
사용자는 현재 시청하는 콘텐츠에 대한 요청 메시지를 AI컨트롤러(32040)에 주면, 상술한 과정을 통해서 사용자가 요청한 시퀀스만 시청할 수 있다. 사용자는 현재 시청하는 콘텐츠 외에도 다른 콘텐츠와 관련된 특정 시퀀스를 시청하고 싶으면, AI컨트롤러(32040)에 요청 메시지를 자연어로 전달할 수 있다. 사용자는 방송망 또는 브로드밴드망에 대한 서비스 데이터를 선택적 또는 독립적으로 시청할 수 있다. 본 발명의 실시예들에 따른 신호 전송 장치 또는 신호 수신 장치는 컨텍스트 식별 정보를 AI키워드를 미디어 데이터 및 미디어 데이터에 대한 시그널링 정보에 삽입할 수 있고, 사용자의 자연어 키워드 및 AI제어 방식을 이용해서, 컨텍스트 식별 정보 및 키워드를 연결하여 사용자가 원하는 구체적인 서비스를 제공할 수 있다. 사용자는 미디어 서비스를 독립적 및 선별적으로 선택할 수 있다. 이러한 선택적 미디어 서비스는 1개의 콘텐츠를 복수의 데이터로 나누어 다양하게 소비할 수 있는 모델을 제공한다.
도13은 본 발명의 실시예들에 따른 신호 수신 장치가 서비스 가이드 정보를 제공하는 방법을 나타낸다.
본 발명의 실시예들에 따른 신호 수신 장치는 콘텐츠를 재생기(113000)를 통해 디스플레이(134000)할 수 있다. 메인 디바이스(134000)는 재생기(113000) 에 대응될 수 있고, 디스플레이어 등으로 명명될 수 있다.
본 발명의 실시예들에 따른 신호 수신 장치는 서비스 가이드 정보(ESG, 133000)를 메인 디바이스에 디스플레이할 수 있다. 서비스 가이드 정보(133000)는 채널(131000)마다 포함된 콘텐츠의 정보(133000)를 시간(132000)을 기준으로 나타낼 수 있다. 서비스 가이드 정보(133000)는 현재 시청 시간을 기준으로 각 채널마다 시청할 수 있는 콘텐츠를 도13과 같이 나타낼 수 있다. 서비스 가이드 정보(133000)는 메인 디바이스 또는 세컨 디바이스에 표시될 수 있다. 메인 디바이스의 전체 화면 또는 일부 화면 상에 서비스 가이드 정보(133000)가 디스플레이될 수 있다.
현재 시청 중인 콘텐츠(136000)이 메인 디바이스(134000)에서 재생되는 동안, 현재 시청 중인 채널이 아닌 채널의 콘텐츠에 대한 정보(135000)가 메인 디바이스(134000)에 함께 디스플레이될 수 있다. 사용자는 현재 시청 중인 콘텐츠에 등장하는 인물A(136000)에 대한 다른 콘텐츠를 보여달라는 자연어 요청을 AI컨트롤러(32040)에 말할 수 있다. 사용자는 서비스 가이드 정보(133000) 또는 현재 시청 중인 채널이 아닌 채널의 콘텐츠에 대한 정보(135000)를 확인할 수 있으므로, 제2콘텐츠(135000)를 시청하고 싶다는 요청을 AI컨트롤러(32040)에 말할 수 있다. 나아가, 예를 들어, 제2콘텐츠(135000)가 스포츠 경기 콘텐츠인 경우, 스포츠 팀B의 일정 기간의 경기 영상을 시청하고 싶다는 요청을 사용자가 AI컨트롤러(32040)에 말할 수 있다. 또는 사용자가 스포츠 팀B에 속한 운동선수C의 장면D를 시청하고 싶다는 요청을 AI컨트롤러(32040)에 말할 수 있다. 이러한 경우, AI컨트롤러(32040)는 인물A, 스포츠팀B, 운동선수C, 장면D 등과 같은 키워드를 사용자의 자연어로부터 추출하고, 키워드와 같은 컨텍스트 정보에 기반하여 상술한 과정을 통해 AI기반 미디어 서비스를 사용자에게 제공할 수 있다. AI컨트롤러(32040)는 필요한 경우 서버(137000, 117020)에 접근하여 사용자가 요청한 키워드와 관련된 컨텐츠를 획득할 수 있다.
도14는 본 발명의 실시예들에 따른 신호 수신 장치가 사용자 요청을 수신하는 방법을 나타낸다.
본 발명의 실시예들에 따른 신호 수신 장치는 ESG 데이터를 포함하는 신호를 수신한다(S14001).
신호 수신 장치는 메인 디바이스에 ESG 데이터를 디스플레이한다(S14002).
신호 수신 장치는 채널 별 컨텐츠 별로 리스트를 생성하여 메인 디바이스에 디스플레이한다(S14003). ESG데이터는 상술한 바와 같이 채널, 시간, 콘텐츠 별로 메인 디바이스(또는 디스플레이 스크린)의 전체 또는 일부에 디스플레이될 수 있다. ESG 데이터를 디스플레이하는 방법 관련하여, 본 발명의 실시예들에 따른 신호 수신 장치는 디스플레이 스크린 상에 채널 별, 시간 별, 콘텐츠 별로 시청할 수 있는 서비스 데이터를 디스플레이할 수 있다(1401). 본 발명의 실시예들에 따른 신호 수신 장치는 디스플레이 스크린 상에 서비스 데이터를 구성하는 컴포넌트 별로 컴포넌트에 대한 정보를 디스플레이할 수 있다(1402). 본 명세서에서 컴포넌트는 서비스 데이터를 구성하는 비디오 컴포넌트, 오디오 컴포넌트, 자막(Closed Caption) 컴포넌트, 애플리케이션 컴포넌트 등을 포함하는 의미를 나타낸다. 본 발명의 실시예들에 따른 신호 수신 장치는 디스플레이 스크린 상에 서비스 데이터에 관련된 컨텍스트 정보를 디스플레이할 수 있다(1402-1).
신호 수신 장치는 사용자로부터 요청을 수신한다(S14004). 사용자는 디스플레이되는 컨텍스트 정보 및 컴포넌트에 대한 정보를 참고하여, 시청하고자 하는 특정 인물을 포함하는 시퀀스, 특정 장면을 포함하는 시퀀스, 특정 시간을 포함하는 시퀀스, 특정 비디오를 포함하는 시퀀스, 특정 오디오를 포함하는 시퀀스, 특정 애플리케이션에 관련된 시퀀스, 특정 자막을 포함하는 시퀀스 등을 선택적 및 독립적으로 본 발명의 실시예들에 따른 신호 수신 장치에 요청할 수 있다.
컨트롤러(32040)는 사용자의 AI 요청을 돕기 위한 정보를 제어하여 디스플레이할 수 있다. 사용자의 AI요청은ESG데이터 관련하여 디스플레이되는 정보에 제한되지 않고, 사용자는 자연어를 통해 시청을 원하는 데이터와 관련된 요청을 컨트럴로(32040)에 요청할 수 있다.
신호 수신 장치는 사용자의 요청과 관련된 ESG 데이터를 디스플레이할 수 있다(S14005). 신호 수신 장치가 수신한 ESG 데이터를 디스플레이(1401. 1402)하는 과정에서 사용자의 요청과 관련된 ESG데이터를 디스플레이할 수 있다. 본 발명의 실시예들에 따른 신호 수신 장치는 디스플레이 스크린의 일부 영역(1404)를 통해서 AI서비스와 관련된 정보를 사용자에게 제공할 수 있다. 일부 영역(1404)은 디스플레이 스크린 상에 위치, 크기 등이 조정되어 표시될 수 있다. 일부 영역(1404)은 상술한 ESG 데이터 및 AI서비스를 위한 컨텍스르 관련 정보를 나타내는 리스트(1401, 1402)를 포함할 수 있다. 일부 영역(1404)은 사용자에게 AI 서비스 시작 안내 메시지를 표시할 수 있다. 컨트롤러(32040)는 사용자의 요청에 포함된 자연어를 분석하여 일부 영역(1404)을 통해 분석 결과에 대한 컨텍스트를 디스플레이할 수 있다.
본 발명의 실시예들에 따른 신호 수신 장치는 사용자의 요청에 따라 메인 디바이스의 디스플레이 스크린 상에 컨텐츠를 디스플레이한다(S14006). 사용자는 하나의 콘텐츠에 포함된 특정 시퀀스 데이터를 시청할 수 있다. 사용자는 복수의 콘텐츠에 포함된 특정 시퀀스 데이터를 시청할 수 있다.
도15는 본 발명의 실시예들에 따른 신호 수신 장치가 사용자의 요청을 수신하여 AI제어를 수행하는 방법을 나타낸다.
본 발명의 실시예들에 따른 신호 수신 장치는 디스플레이 스크린 상의 영역(1404)을 통해서 사용자에게 AI제어 과정을 안내할 수 있다. 도14의 디스플레이 영역(1404)이 도15의 디스플레이 정보(1501)에 대응될 수 있다. 컨트롤러(32040)는 사용자의 자연어를 이해하고 분석할 수 있다. 컨트롤러(32040)는 사람의 자연어 분석에 대한 데이터를 빅데이터에 기반하여 관리할 수 있다. 컨트롤러(32040)은 사용자의 자연어의 컨텍스트를 분석하여 키워드를 추출할 수 있다. 컨트롤러(32040)는 하나 또는 하나 이상의 키워드(1502)를 추출하여 디스플레이 영역(1404)에 디스플레이할 수 있다.
본 발명의 실시예들에 따른 신호 수신 장치의 시스템(32000)은 신호를 수신한다. 시스템(32000)의 수신기(32010)는 수신한 신호를 파일 파서(32020) 및 시그널링 파서(32030)을 포함하는 파서에 전달한다. 파서는 신호에 포함된 시그널링 정보(1503)를 파싱한다. 시그널링 정보(1503)는 서비스를 스캔하고 획득할 수 있는 정보를 포함한다. 시그널링 정보(1503)를 통해 신호 수신 장치는 신호에 포함된 복수의 서비스 데이터 중에서 원하는 서비스 데이터에 접근하여 디코딩할 수 있다. 시그널링 정보(1503)은 서비스 데이터에 대한 컨텍스트 정보에 관련된 컨텍스트 식별 정보 및 키워드 정보를 포함한다. 컨트롤러(32040)는 사용자의 요청 정보의 컨텍스트로부터 획득한 키워드(1502)와 시그널링 정보(1503)의 컨텍스트 식별 정보 및 키워드 정보를 비교하여 사용자가 원하는 컨텍스트에 매칭되는 서비스가 있는지 확인한다. 컨트롤러(32040)는 사용자가 원하는 컨텍스트에 매칭되는 서비스(1504)를 확인하고, 서비스 데이터(1504)에 접근한다. 컨트롤러(32040)는 서비스 데이터의 파일 포맷(1504)을 파서가 파싱하도록 제어한다. 서비스 데이터(1504)는 컨텍스트에 대한 시그널링 정보를 포함하는 박스 또는 컨테이너를 포함한다. 파일 파서(32020)는 시그널링 파서(32030)로부터 컨텍스트에 대한 시그널링 정보를 수신하거나 컨트롤러(32040)으로부터 키워드 정보를 수신하여, 서비스 데이터(1504)에 포함된 사용자가 원하는 컨텍스트에 관련된 데이터 시퀀스를 파싱한다. 디코더(32050)는 데이터 시퀀스를 선택적으로 디코딩한다. 재생기(113000)는 데이터 시퀀스를 디스플레이한다.
컨트롤러(3240)는 메인 디바이스(1506) 상에 시그널링 정보(1503)에 기반하여 접근한 서비스 데이터(1504)에 포함된 특정 시퀀스(1507, 1508)를 디스플레이하도록 재생기(113000)를 제어한다. 컨트롤러(3240)는 도7내지도9에서 상술한 디스크립션(박스 또는 컨테이너)에 포함된 컨텍스트 식별 정보 및 키워드 정보 등을 통해서 시퀀스에 대한 샘플 또는 시퀀스를 포함하는 샘플 그룹에 접근할 수 있다. 본 발명의 실시예들에 따른 신호 수신 장치는, 도15와 같이, 사용자의 키워드와 관련된 A장면 데이터 및 B장면 데이터를 포함하는 시퀀스를 디스플레이할 수 있고, 또는 복수의 A장면을 포함하는 시퀀스를 디스플레이할 수 있다.
도16은 본 발명의 실시예들에 따른 신호 송신 방법을 나타낸다.
단계 S16010와 관련하여, 본 발명의 실시예들에 따른 신호 송신 방법은, 컨텍스트 식별자 및 키워드를 서비스 데이터에 삽입하여 콘텐츠를 생성한다. 콘텐츠를 생성하는 단계는 프로덕션(30110)에 의해 수행되며, 구체적인 생성 방법은 도3 내지 도4에서 상술하였다.
단계 S16010와 관련하여, 본 발명의 실시예들에 따른 신호 송신 방법은, 콘텐츠로부터 서비스 데이터를 추출하고, 컨텍스트 식별자 및 키워드를 포함하는 디스크립션을 삽입하여 미디어 데이터를 생성한다. 미디어 데이터를 생성하는 단계는 시스템(30200) 또는 시스템(30200)의 파일 생성기(30220)에 의해 수행되며, 구체적인 생성 방법은 도3 및 도 5에서 상술하였다.
단계 S16010와 관련하여, 본 발명의 실시예들에 따른 신호 송신 방법은, 컨텍스트 식별자 및 키워드를 포함하는 시그널링 정보를 생성한다. 시그널링 정보를 생성하는 단계는 시스템(30200) 또는 시그널링 정보 생성기(30230)에 의해 수행되며, 구체적인 생성 방법은 도3, 도5 내지 9에서 상술하였다.
단계 S16010와 관련하여, 본 발명의 실시예들에 따른 신호 송신 방법은, 미디어 데이터 및 시그널링 정보를 포함하는 신호를 전송한다. 신호를 전송하는 단계는 시스템(30200) 또는 전송기(30240)에 의해 수행된다. 본 발명의 실시예들에 따른 신호 송신 방법은 OFDM (Orthogonal Frequency Division Multiplex) 방식을 사용하여 신호를 모듈레이션할 수 있다.
도17은 본 발명의 실시예들에 따른 신호 수신 방법을 나타낸다.
단계S17010와 관련하여, 본 발명의 실시예들에 따른 신호 수신 방법은 신호를 수신한다. 신호는 시스템(32000) 또는 수신기(32010)에 의해 수신된다. 본 발명의 실시예들에 따른 신호 수신 방법은 채널 동기화를 위한 신호를 검출하고, OFDM 방식을 사용하여 신호를 모듈레이션의 역과정인 디모듈레이션할 수 있다.
단계S17010와 관련하여, 본 발명의 실시예들에 따른 신호 수신 방법은, 사용자로부터 서비스 데이터에 대한 사용자의 요청을 수신하고, 사용자의 요청에 포함된 컨텍스트로부터 키워드를 추출한다. 컨트롤러(32040)가 사용자의 요청을 수신하고, AI방식을 사용하여 사용자의 요청을 분석하고, 키워드를 추출한다. 구체적인 사용자 요청 수신 과정은 도3, 도10 등에서 상술하였다.
단계S17010와 관련하여, 본 발명의 실시예들에 따른 신호 수신 방법은, 사용자의 요청에 대한 키워드 및 시그널링 정보에 포함된 컨텍스트 식별 정보 및 키워드 정보에 기반하여, 키워드에 관련된 미디어 데이터를 획득하고, 미디어 데이터에 포함된 디스크립션의 컨텍스트 식별 정보 및 키워드 정보에 기반하여, 사용자의 요청에 관련된 데이터를 파싱한다. 시그널링 정보 파서(32030)가 시그널링 정보에 포함된 서비스 식별 정보, 컨텍스트 정보 및 키워드 정보를 파싱한다. 파일 파서(32020)가 미디어 데이터에 포함된 디스크립션을 파싱한다. 미디어 데이터 및 시그널링 정보 파싱 또는 디코딩 과정은 도6 내지 도11에서 상술하였다.
단계S17010와 관련하여, 본 발명의 실시예들에 따른 신호 수신 방법은, 사용자의 요청에 관련된 데이터를 디코딩한다. 디코딩하는 과정은 시스템(32000) 또는 디코더(32050)에 의해 수행된다. 구체적인 데이터 디코딩 과정은 도12 내지 도15에서 상술하였다.
본 명세서에서 모듈 또는 유닛은 메모리(또는 저장 유닛)에 저장된 연속된 수행과정들을 실행하는 프로세서들일 수 있다. 전술한 실시예에 기술된 각 단계들은 하드웨어, 소트프웨어, 프로세서들에 의해 수행될 수 있다. 전술한 실시예에 기술된 각 모듈/블락/유닛들은 하드웨어, 소프트웨어, 프로세서로서 동작할 수 있다. 또한, 본 발명이 제시하는 방법들은 코드로서 실행될 수 있다. 이 코드는 프로세서가 읽을 수 있는 저장매체에 쓰여질 수 있고, 따라서 장치(apparatus)가 제공하는 프로세서에 의해 읽혀질 수 있다.
설명의 편의를 위하여 각 도면을 나누어 설명하였으나, 각 도면에 서술되어 있는 실시 예들을 병합하여 새로운 실시 예를 구현하도록 설계하는 것도 가능하다. 그리고, 통상의 기술자의 필요에 따라, 이전에 설명된 실시 예들을 실행하기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체를 설계하는 것도 본 발명의 권리범위에 속한다.
본 발명에 따른 장치 및 방법은 상술한 바와 같이 설명된 실시 예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상술한 실시 예들은 다양한 변형이 이루어질 수 있도록 각 실시 예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
한편, 본 발명이 제안하는 방법을 네트워크 디바이스에 구비된, 프로세서가 읽을 수 있는 기록매체에, 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 기록매체는 프로세서에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 프로세서가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한, 인터넷을 통한 전송 등과 같은 캐리어 웨이브의 형태로 구현되는 것도 포함한다. 또한, 프로세서가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 프로세서가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해돼서는 안 될 것이다.
그리고, 당해 명세서에서는 물건 발명과 방법 발명이 모두 설명되고 있으며, 필요에 따라 양 발명의 설명은 보충적으로 적용될 수가 있다.
본 발명의 사상이나 범위를 벗어나지 않고 본 발명에서 다양한 변경 및 변형이 가능함은 당업자에게 이해된다. 따라서, 본 발명은 첨부된 청구항 및 그 동등 범위 내에서 제공되는 본 발명의 변경 및 변형을 포함하는 것으로 의도된다.
본 명세서에서 장치 및 방법 발명이 모두 언급되고, 장치 및 방법 발명 모두의 설명은 서로 보완하여 적용될 수 있다.
다양한 실시예가 본 발명을 실시하기 위한 최선의 형태에서 설명되었다.
본 발명은 일련의 데이터를 포함하는 신호 제공 분야에서 이용된다.
본 발명의 사상이나 범위를 벗어나지 않고 본 발명에서 다양한 변경 및 변형이 가능함은 당업자에게 자명하다. 따라서, 본 발명은 첨부된 청구항 및 그 동등 범위 내에서 제공되는 본 발명의 변경 및 변형을 포함하는 것으로 의도된다.
Claims (14)
- 컨텍스트 식별자 및 키워드를 서비스 데이터에 삽입하여 콘텐츠를 생성하는 단계;상기 콘텐츠로부터 상기 서비스 데이터를 추출하고, 상기 컨텍스트 식별자 및 상기 키워드를 포함하는 디스크립션을 삽입하여 미디어 데이터를 생성하는 단계;상기 컨텍스트 식별자 및 상기 키워드를 포함하는 시그널링 정보를 생성하는 단계;상기 미디어 데이터 및 상기 시그널링 정보를 포함하는 신호를 전송하는 단계; 를 포함하는,신호 전송 방법.
- 제1항에 있어서,상기 컨텍스트 식별자 및 상기 키워드는 상기 서비스 데이터에 대한 컨텍스트 정보를 타내고,상기 서비스 데이터에 포함된 복수의 컴포넌트 데이터의 각 컨텍스트 정보가 각 컨텍스트 식별자 및 각 키워드에 의해 표현되고,각 컨텍스트 식별자 및 각 키워드는 상기 복수의 컴포넌트 데이터 각각의 앞에 컨텍스트 타임라인에 기초하여 위치하는,신호 전송 방법.
- 제1항에 있어서,상기 미디어 데이터는 상기 미디어 데이터에 포함된 상기 서비스 데이터에 대한 메타데이터를 포함하는 컨테이너를 포함하고, 상기 컨테이너는 상기 컨텍스트 식별자 및 상기 키워드를 나타내는 디스크립션을 포함하고,상기 컨테이너는 상기 미디어 데이터의 앞에 위치하는,신호 전송 방법.
- 컨텍스트 식별자 및 키워드를 서비스 데이터에 삽입하여 콘텐츠를 생성하는 제 1 생성기;상기 콘텐츠로부터 상기 서비스 데이터를 추출하고, 상기 컨텍스트 식별자 및 상기 키워드를 포함하는 디스크립션을 삽입하여 미디어 데이터를 생성하는 제2생성기(파일 생성기, 3220);상기 컨텍스트 식별자 및 상기 키워드를 포함하는 시그널링 정보 생성하는 제 3 생성기(manifest, 30230);상기 미디어 데이터 및 상기 시그널링 정보를 포함하는 신호를 전송하는 전송기; 를 포함하는,신호 전송 장치.
- 제4항에 있어서,상기 컨텍스트 식별자 및 상기 키워드는 상기 서비스 데이터에 대한 컨텍스트 정보를 타내고,상기 서비스 데이터에 포함된 복수의 컨포넌트 데이터의 각 컨텍스트 정보가 각 컨텍스트 식별자 및 각 키워드에 의해 표현되고,각 컨텍스트 식별자 및 각 키워드는 상기 복수의 컴포넌트 데이터 각각의 앞에 컨텍스트 타임라인에 기초하여 위치하는,신호 전송 장치.
- 제4항에 있어서,상기 미디어 데이터는 상기 미디어 데이터에 포함된 상기 서비스 데이터에 대한 메타데이터를 포함하는 컨테이너를 포함하고, 상기 컨테이너는 상기 컨텍스트 식별자 및 상기 키워드를 나타내는 디스크립션을 포함하고,상기 컨테이너는 상기 미디어 데이터의 앞에 위치하는,신호 전송 장치.
- 신호를 수신하는 단계,상기 신호는 미디어 데이터 및 시그널링 정보를 포함하고,상기 미디어 데이터는 서비스 데이터를 포함하고, 상기 서비스 데이터에 대한 컨텍스트 식별 정보 및 키워드 정보를 포함하는 디스크립션을 포함하고, 상기 시그널링 정보는 상기 컨텍스트 식별 정보 및 상기 키워드 정보를 포함함;사용자로부터 상기 서비스 데이터에 대한 사용자의 요청을 수신하고, 상기 사용자의 요청에 포함된 컨텍스트로부터 키워드를 추출하는 제어하는 단계;상기 사용자의 요청에 대한 상기 키워드 및 상기 시그널링 정보에 포함된 상기 컨텍스트 식별 정보 및 상기 키워드 정보에 기반하여, 상기 키워드에 관련된 미디어 데이터를 획득하고,상기 미디어 데이터에 포함된 디스크립션의 컨텍스트 식별 정보 및 키워드 정보에 기반하여, 상기 사용자의 요청에 관련된 데이터를 파싱하는 단계;상기 사용자의 요청에 관련된 데이터를 디코딩하는 단계; 를 포함하는,신호 수신 방법.
- 제7항에 있어서,상기 컨텍스트 식별자 및 상기 키워드는 상기 서비스 데이터에 대한 컨텍스트 정보를 타내고,상기 서비스 데이터에 포함된 복수의 컨포넌트 데이터의 각 컨텍스트 정보가 각 컨텍스트 식별자 및 각 키워드에 의해 표현되고,각 컨텍스트 식별자 및 각 키워드는 상기 복수의 컴포넌트 데이터 각각의 앞에 컨텍스트 타임라인에 기초하여 위치하는,신호 수신 방법.
- 제7항에 있어서,상기 미디어 데이터는 상기 미디어 데이터에 포함된 상기 서비스 데이터에 대한 메타데이터를 포함하는 컨테이너를 포함하고, 상기 컨테이너는 상기 컨텍스트 식별자 및 상기 키워드를 나타내는 디스크립션을 포함하고,상기 컨테이너는 상기 미디어 데이터의 앞에 위치하는,신호 수신 방법.
- 제1항에 있어서,상기 제어하는 단계는 상기 사용자의 요청에 대한 상기 키워드를 나타내는 정보를 디스플레이 스크린 상에 디스플레이하고, 사용자의 입력 신호에 응답하여, 상기 사용자의 요청에 관련된 데이터를 포함하는 시퀀스를 상기 디스클레이 스크린 상에 디스플레이하는,신호 수신 방법.
- 신호를 수신하는 튜너,상기 신호는 미디어 데이터 및 시그널링 정보를 포함하고,상기 미디어 데이터는 서비스 데이터를 포함하고, 상기 서비스 데이터에 대한 컨텍스트 식별 정보 및 키워드 정보를 포함하는 디스크립션을 포함하고, 상기 시그널링 정보는 상기 컨텍스트 식별 정보 및 상기 키워드 정보를 포함함;사용자로부터 상기 서비스 데이터에 대한 사용자의 요청을 수신하고, 상기 사용자의 요청에 포함된 컨텍스트로부터 키워드를 추출하는 컨트롤러;상기 사용자의 요청에 대한 상기 키워드 및 상기 시그널링 정보에 포함된 상기 컨텍스트 식별 정보 및 상기 키워드 정보에 기반하여, 상기 키워드에 관련된 미디어 데이터를 획득하고,상기 미디어 데이터에 포함된 디스크립션의 컨텍스트 식별 정보 및 키워드 정보에 기반하여, 상기 사용자의 요청에 관련된 데이터를 파싱하는 파서;상기 사용자의 요청에 관련된 데이터를 디코딩하는 디코더; 를 포함하는,신호 수신 장치.
- 제11항에 있어서,상기 컨텍스트 식별자 및 상기 키워드는 상기 서비스 데이터에 대한 컨텍스트 정보를 타내고,상기 서비스 데이터에 포함된 복수의 컨포넌트 데이터의 각 컨텍스트 정보가 각 컨텍스트 식별자 및 각 키워드에 의해 표현되고,각 컨텍스트 식별자 및 각 키워드는 상기 복수의 컴포넌트 데이터 각각의 앞에 컨텍스트 타임라인에 기초하여 위치하는,신호 수신 장치.
- 제11항에 있어서,상기 미디어 데이터는 상기 미디어 데이터에 포함된 상기 서비스 데이터에 대한 메타데이터를 포함하는 컨테이너를 포함하고, 상기 컨테이너는 상기 컨텍스트 식별자 및 상기 키워드를 나타내는 디스크립션을 포함하고,상기 컨테이너는 상기 미디어 데이터의 앞에 위치하는,신호 수신 장치.
- 제11항에 있어서,상기 컨트롤러는 상기 사용자의 요청에 대한 상기 키워드를 나타내는 정보를 디스플레이 스크린 상에 디스플레이하고,사용자의 입력 신호에 응답하여, 상기 컨트롤러는 상기 사용자의 요청에 관련된 데이터를 포함하는 시퀀스를 상기 디스클레이 스크린 상에 디스플레이하는,신호 수신 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/969,368 US11350183B2 (en) | 2018-03-09 | 2019-03-11 | Signal transmitting device, signal receiving device, signal transmitting method, and signal receiving method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20180027861 | 2018-03-09 | ||
KR10-2018-0027861 | 2018-03-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019172726A1 true WO2019172726A1 (ko) | 2019-09-12 |
Family
ID=67847298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2019/002786 WO2019172726A1 (ko) | 2018-03-09 | 2019-03-11 | 신호 송신 장치, 신호 수신 장치, 신호 전송 방법, 및 신호 수신 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11350183B2 (ko) |
WO (1) | WO2019172726A1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112673638B (zh) * | 2018-07-06 | 2024-04-19 | 诺基亚技术有限公司 | 处理媒体数据的方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060262744A1 (en) * | 2005-04-26 | 2006-11-23 | Samsung Electronics Co., Ltd. | Apparatus and method for transmitting and receiving broadcasting in a digital multimedia broadcasting system |
US20090103649A1 (en) * | 2007-10-22 | 2009-04-23 | Nokia Corporation | Digital Broadcast Signaling Metadata |
US20120078899A1 (en) * | 2010-09-27 | 2012-03-29 | Fontana James A | Systems and methods for defining objects of interest in multimedia content |
US20120079380A1 (en) * | 2010-09-27 | 2012-03-29 | Johney Tsai | Systems and methods for managing interactive features associated with multimedia content |
US20130219431A1 (en) * | 2010-09-14 | 2013-08-22 | Lg Electronics Inc. | Apparatus for transmitting broadcasting signal, apparatus for receiving broadcasting signal, and method for transmitting/receiving broadcasting signal through apparatus for transmitting/receiving broadcasting signal |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2727110A1 (en) * | 2011-06-30 | 2014-05-07 | Human Monitoring Ltd | Methods and systems of editing and decoding a video file |
EP3092772B1 (en) * | 2014-01-07 | 2019-07-31 | Nokia Technologies Oy | Media encapsulating and decapsulating |
US9942622B2 (en) * | 2014-01-24 | 2018-04-10 | Hiperwall, Inc. | Methods and systems for synchronizing media stream presentations |
US10349093B2 (en) * | 2014-03-10 | 2019-07-09 | Cisco Technology, Inc. | System and method for deriving timeline metadata for video content |
WO2016111563A1 (ko) * | 2015-01-07 | 2016-07-14 | 삼성전자 주식회사 | 통신 시스템에서 미디어 정보를 송수신하는 방법 및 장치 |
US10560726B2 (en) * | 2017-07-26 | 2020-02-11 | CodeShop BV | System and method for delivery and caching of personalized media streaming content |
-
2019
- 2019-03-11 WO PCT/KR2019/002786 patent/WO2019172726A1/ko active Application Filing
- 2019-03-11 US US16/969,368 patent/US11350183B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060262744A1 (en) * | 2005-04-26 | 2006-11-23 | Samsung Electronics Co., Ltd. | Apparatus and method for transmitting and receiving broadcasting in a digital multimedia broadcasting system |
US20090103649A1 (en) * | 2007-10-22 | 2009-04-23 | Nokia Corporation | Digital Broadcast Signaling Metadata |
US20130219431A1 (en) * | 2010-09-14 | 2013-08-22 | Lg Electronics Inc. | Apparatus for transmitting broadcasting signal, apparatus for receiving broadcasting signal, and method for transmitting/receiving broadcasting signal through apparatus for transmitting/receiving broadcasting signal |
US20120078899A1 (en) * | 2010-09-27 | 2012-03-29 | Fontana James A | Systems and methods for defining objects of interest in multimedia content |
US20120079380A1 (en) * | 2010-09-27 | 2012-03-29 | Johney Tsai | Systems and methods for managing interactive features associated with multimedia content |
Also Published As
Publication number | Publication date |
---|---|
US20200404395A1 (en) | 2020-12-24 |
US11350183B2 (en) | 2022-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2015002500A1 (ko) | 실시간 전송 프로토콜 기반의 방송 시스템에서 미디어 방송 신호의 송수신 방법 및 장치 | |
WO2009134105A2 (en) | Method of receiving broadcasting signal and apparatus for receiving broadcasting signal | |
WO2013058633A1 (ko) | 방송 서비스 수신 방법 및 방송 서비스 수신 장치 | |
WO2013169084A1 (ko) | Mmt 패킷 포맷 확장을 통한 하이브리드 전송 방법 | |
WO2013022309A1 (ko) | 방송 서비스 전송 방법, 그 수신 방법 및 방송 서비스 수신 장치 | |
WO2012011724A2 (ko) | 미디어 파일 송수신 방법 및 그를 이용한 송수신 장치 | |
WO2011071285A2 (en) | Image display apparatus and method for operating the same | |
WO2016129891A1 (ko) | 방송 신호 송수신 방법 및 장치 | |
WO2011043534A1 (en) | A method for operating an interactive program guide, a user device for an interactive program guide, a method and a device for providing a consolidated data guide information listing | |
WO2016089093A1 (ko) | 방송 신호 송수신 방법 및 장치 | |
WO2015034245A1 (en) | Transmitting apparatus, receiving apparatus, and signal processing method thereof | |
WO2012060581A2 (ko) | 미디어 콘텐트 송수신 방법 및 그를 이용한 송수신 장치 | |
WO2013089437A1 (ko) | 미디어 컨텐트를 수신하는 장치 및 방법 | |
WO2017007192A1 (ko) | 방송 신호 송신 장치, 방송 신호 수신 장치, 방송 신호 송신 방법, 및 방송 신호 수신 방법 | |
WO2012177041A2 (ko) | 미디어 컨텐트 송수신 방법 및 그를 이용한 송수신 장치 | |
WO2012173441A2 (ko) | 방송 서비스 전송 방법, 그 수신 방법 및 방송 서비스 수신 장치 | |
EP2596629A2 (en) | Method and apparatus for transmitting and receiving adaptive streaming mechanism-based content | |
WO2013154397A1 (en) | Transmitting system and receiving apparatus for providing hybrid service, and service providing method thereof | |
WO2012169779A2 (ko) | 방송 서비스 전송 방법, 그 수신 방법 및 그 수신 장치 | |
WO2011062386A2 (ko) | 방송 신호 송수신 방법 및 그를 이용한 방송 수신 장치 | |
WO2015046829A1 (en) | Transmitter, receiver, and controlling method thereof | |
WO2012011722A2 (ko) | 미디어 송수신 방법 및 그를 이용한 송수신 장치 | |
WO2011037358A2 (ko) | 방송 네트워크와 ip 네트워크에 접속 가능한 디지털 디바이스 및 그 제어 방법 | |
WO2020096148A1 (ko) | 미디어 서비스 채널 전환 방법 및 장치 | |
WO2011037359A2 (ko) | 확장된 서비스/프로그램 가이드를 수신하는 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19764698 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19764698 Country of ref document: EP Kind code of ref document: A1 |