WO2020103674A1 - 自然语言描述信息的生成方法及装置 - Google Patents

自然语言描述信息的生成方法及装置

Info

Publication number
WO2020103674A1
WO2020103674A1 PCT/CN2019/115079 CN2019115079W WO2020103674A1 WO 2020103674 A1 WO2020103674 A1 WO 2020103674A1 CN 2019115079 W CN2019115079 W CN 2019115079W WO 2020103674 A1 WO2020103674 A1 WO 2020103674A1
Authority
WO
WIPO (PCT)
Prior art keywords
natural language
feature
language description
model
resource
Prior art date
Application number
PCT/CN2019/115079
Other languages
English (en)
French (fr)
Inventor
王柏瑞
马林
冯洋
刘威
Original Assignee
腾讯科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 腾讯科技(深圳)有限公司 filed Critical 腾讯科技(深圳)有限公司
Priority to EP19886674.1A priority Critical patent/EP3885966B1/en
Publication of WO2020103674A1 publication Critical patent/WO2020103674A1/zh
Priority to US17/183,127 priority patent/US11868738B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Definitions

  • This application relates to the field of computers, and in particular, to a method and device for generating natural language description information.
  • the industry mainly generates description information through the structure of encoders and decoders. Specifically, taking a video clip as an example, first extract features for each frame of the video clip, and then transform the frame-level features into video-level features through average features, attention mechanisms, or other methods, and finally use the video-level features as The input of the decoder is described in natural language.
  • the embodiments of the present application provide a method and a device for generating natural language description information, so as to at least solve the technical problem that the natural language description information generated for media resources in the related art has low accuracy in describing media resources.
  • a method for generating natural language description information including: separately processing media resources through multiple natural language description models to obtain first feature vectors output by each natural language description model, The first feature vector output by each natural language description model corresponds to different feature types; the first feature vector output by each natural language description model is fused to obtain a second feature vector; and the target is generated according to the second feature vector Natural language description information, wherein the target natural language description information is used to represent the media resource in natural language.
  • a device for generating natural language description information including: an input module for processing media resources through multiple natural language description models to obtain each natural language description model The first feature vector output, the first feature vector output by each natural language description model corresponds to different feature types; the fusion module is used to fuse the first feature vector output by each natural language description model to obtain the second Feature vector; a generating module, configured to generate target natural language description information according to the second feature vector, wherein the target natural language description information is used to represent the media resource in natural language.
  • a storage medium in which a computer program is stored, wherein the computer program is set to execute the method described in any one of the above when it is run.
  • an electronic device including a memory and a processor, a computer program is stored in the memory, and the processor is configured to execute any of the above through the computer program The method described in.
  • the architecture of multiple natural language description models is used to process the media resources separately, and the first feature vectors of different feature types extracted by each model are fused into the second feature vector, and then the second feature vector is used according to the second feature vector Generate target natural language description information to represent media resources, thus integrating different types of information in the media resources with semantic complementary characteristics to generate target natural language description information for the media resources, so that the generated target natural language description information more accurately reflects the media The content of the resource, thereby achieving the technical effect of improving the accuracy of the natural language description information generated for the media resource on the description of the media resource, and thereby solving the accuracy of the natural language description information generated for the media resource in the related technology on the description of the media resource Lower technical issues.
  • FIG. 1 is a schematic diagram of an alternative method for generating natural language description information according to an embodiment of the present application
  • FIG. 2 is a schematic diagram of an application environment of an optional method for generating natural language description information according to an embodiment of the present application
  • FIG. 3 is a schematic diagram of an alternative method for generating natural language description information according to an alternative embodiment of the present application
  • FIG. 4 is a schematic diagram of another alternative method for generating natural language description information according to an alternative embodiment of the present application.
  • FIG. 5 is a schematic diagram of another alternative method for generating natural language description information according to an alternative embodiment of the present application.
  • FIG. 6 is a schematic diagram of another alternative method for generating natural language description information according to an alternative embodiment of the present application.
  • FIG. 7 is a schematic diagram of another alternative method for generating natural language description information according to an alternative embodiment of the present application.
  • FIG. 8 is a schematic diagram of an optional device for generating natural language description information according to an embodiment of the present application.
  • FIG. 9 is a schematic diagram of an application scenario of an optional method for generating natural language description information according to an embodiment of the present application.
  • FIG. 10 is a schematic diagram of an optional electronic device according to an embodiment of the present application.
  • a method for generating natural language description information includes:
  • S102 Process media resources through multiple natural language description models to obtain first feature vectors output by each natural language description model, where the first feature vectors output by each natural language description model correspond to different feature types;
  • each natural language description model is used to generate natural language description information based on the input information, and the natural language description information is used to represent the input information of the natural language description model through natural language;
  • S106 Generate target natural language description information according to the second feature vector, where the target natural language description information is used to represent the media resource in natural language.
  • the above method for generating natural language description information may be applied to a hardware environment composed of a server 202 and a client 204 as shown in FIG. 2.
  • the server 202 processes media resources through multiple natural language description models, obtains the first feature vector output by each natural language model, and obtains multiple first feature vectors, where each first The feature vector corresponds to one feature type, and each first feature vector corresponds to a different feature type, that is, the server 202 can obtain first feature vectors of multiple feature types; then the server 202 compares the first feature vectors of multiple feature types Fusion is performed to obtain a second feature vector; target natural language description information is generated according to the second feature vector, where the target natural language description information is used to represent media resources in natural language.
  • the server 202 may perform operations such as classification, search, and retrieval of media resources according to target natural language description information.
  • the client 204 is provided with services.
  • the above method for generating natural language description information may be, but not limited to, applied to a scenario in which natural language description information is generated for media resources.
  • the above client may be, but not limited to, various types of applications, applets, websites, etc., for example, online education, instant messaging, community space, games, shopping, browsers, finance, multimedia Category, live broadcast, etc.
  • it can be applied to, but not limited to, scenarios where natural language description information is generated for media resources in the above multimedia applications, or can be but not limited to, scenarios where natural language description information is generated for media resources in the above instant messaging applications In order to improve the accuracy of the description of the media resources by the natural language description information generated for the media resources.
  • the above is only an example, and there is no limitation on this in this embodiment.
  • the above media resources may include, but are not limited to: video resources, audio resources, picture resources, webpage resources, and so on.
  • each of the plurality of first feature vectors includes one or more features used to characterize the media resource.
  • the second feature vector fused from multiple first feature vectors includes one or more features used to characterize the media resource.
  • the natural language description information may include, but is not limited to, sentences, phrases, phrases, etc. in various languages. For example: English, Chinese, Spanish, French, Italian, Arabic, etc.
  • multiple natural language description models are different natural language description models trained separately, which can describe media resources from different angles, so that multiple natural language description models are generated
  • the second feature vector obtained by fusing multiple first feature vectors can carry comprehensive information of the media resource, thereby making the description of the media resource by the target natural language description information more accurate.
  • multiple natural language description models are trained, namely model 1, model 2, ..., model n, through model 1, Model 2, ..., model n process the video resources to obtain multiple first feature vectors (v1, v2, ..., vn) belonging to multiple feature types output by model 1, model 2, ... v1, v2, ..., vn are fused into a second feature vector V, and natural language description information S is generated according to the second feature vector V.
  • the natural language description model is used to generate natural language description information based on the input information to describe the input information of the model, and the natural language description information is generated by the feature vector extracted from the input information, using multiple natural The architecture of the language description model, the first feature vectors of different feature types extracted by each model are fused into the second feature vector, and then the target natural language description information is generated according to the second feature vector to represent the media resource, thus integrating the media resource
  • Different types of information jointly generate target natural language description information for media resources, so that the generated target natural language description information more accurately reflects the content of the media resources, thereby realizing the improvement of the description of media resources by the natural language description information generated for the media resources.
  • the technical effect of accuracy further solves the technical problem that the natural language description information generated for the media resources in the related art has low accuracy in describing the media resources.
  • processing the media resources through multiple natural language description models to obtain the first feature vector output by each natural language description model includes:
  • a first feature vector is generated by each natural language description model in the plurality of natural language description models, where one first feature vector includes the first feature corresponding to the resource block.
  • the resource blocks included in the media resource may be, but not limited to, any manner of dividing the media resource.
  • the media resource may include, but is not limited to, one or more resource blocks.
  • the resource blocks of the video resource may be, but not limited to, divided by frames, and one resource block may include, but not limited to, one or more video frames.
  • the resource blocks of the video resources may be, but not limited to, divided according to time, and one resource block may be, but not limited to, a video segment lasting one second or more.
  • picture resources the resource blocks of the picture resources may be but not limited to be divided by pixels, and one resource block may be but not limited to a picture area including one or more pixels.
  • the resource blocks of the picture resource may be, but not limited to, divided according to size, and one resource block may be, but not limited to, a picture area of a predetermined size.
  • each natural language description model generates a first feature for each resource block, so that each natural language description model generates a first feature corresponding to the resource block for the media resource, and obtains The first feature vector including these first features.
  • the media resource includes multiple resource blocks, where generating each first feature vector using each of the multiple natural language description models includes:
  • the sequence information may include, but is not limited to: timing information, position sequence information, spatiotemporal sequence information, and so on.
  • the timing information can be used to indicate the time sequence of multiple resource blocks in the media resource
  • the position sequence information can be used to indicate the arrangement order of the multiple resource blocks in the media resource
  • the space-time sequence information can be used to indicate the multiple resource blocks in the The order of time and space in the media resources.
  • the timing information of the video frame may be used for encoding
  • the position of different regions may be used for encoding in sequence.
  • sequential coding may include, but is not limited to, timing coding, spatial coding, spatio-temporal coding, and so on.
  • multiple first features are extracted from multiple resource blocks of the media resource. These first features may be out of order.
  • the order information of multiple resource blocks is obtained from the media resource and
  • the first feature vector obtained by sequentially encoding the first features according to the order information can carry the order information of multiple resource blocks, and can reflect the arrangement order of the multiple first features in the media resource.
  • the decoder takes the video feature expression generated at this stage as input and generates a corresponding natural language description in the form of predicting one word at each step.
  • the reconstructor reconstructs the input video features according to the hidden state of each step of the decoder, namely
  • the "self-judgment" method of reinforcement learning is used to directly use the indicators of people to measure the quality of the sentence as the optimization goal to train the model.
  • a plurality of trained natural language description models are fused at the prediction end of the decoder, and a second feature vector is obtained according to multiple first feature vectors to jointly generate the same target natural language description information.
  • each natural language description model may include multiple feature extraction models, and each feature extraction model corresponds to a different feature type, and multiple resource blocks are processed through the feature extraction model included in each natural language description model.
  • Treatment includes:
  • S1 input multiple resource blocks into each feature extraction model included in each natural language description model, obtain a set of second features output by each feature extraction model, and obtain multiple sets of second features, each of the multiple sets of second features
  • the second set of features includes features corresponding to each resource block one-to-one;
  • multiple feature extraction models may be, but not limited to, multiple convolutional neural networks, such as P3D, C3D, I3D, etc., to perform feature extraction for each frame of image.
  • the features are extracted from the video using an algorithm or network called C3D or P3D.
  • C3D or P3D an algorithm or network
  • These algorithms or networks can be used to classify images or videos. These models process pictures or videos and can output category information. The intermediate output of these classification models can be extracted as the features of images or videos.
  • Different algorithms or network models have different methods for extracting features, different efficiencies, and the proposed features are also different. Therefore, different algorithms or network models can be used to extract different types of features.
  • 2D convolution features such as InceptionV4, Resnet152, Inception_Resnet_v2, nasnet, and pnasnet features
  • 2D convolution features such as InceptionV4, Resnet152, Inception_Resnet_v2, nasnet, and pnasnet features
  • 3D convolution features such as C3D, P3D, and I3D features, can be applied to multiple consecutive images.
  • the extracted features include timing information between pictures, and the content may be richer than 2D convolution features.
  • two feature fusion strategies can be used, one is direct feature cascading, and the other is feature reduction , And then cascade.
  • I3D features two types of features, namely I3D features and P3D features, are used as examples to illustrate the two feature fusion strategies.
  • the following Represents I3D feature sequence, each feature length is 1024 dimensions, Represents a P3D feature sequence, each feature length is 2048 dimensions.
  • the features corresponding to the same frame or region in different feature sequences are connected in the length dimension:
  • the above formula represents the direct concatenation of two different features in the t-th frame or the t-th area.
  • the length dimension of v t here is 3072 dimensions.
  • FC layer For features that are dimension-reduced first and then cascaded, first use a linear layer such as the FC layer to reduce high-dimensional features to the target dimension:
  • using the sequence information to sequentially encode multiple first features to obtain the first feature vector includes:
  • S4 Process a plurality of third features through a decoder model included in each natural language description model, where the decoder model is used to generate a first feature vector according to the plurality of third features.
  • the sequential encoder may include, but is not limited to, a timing encoder and the like.
  • the time-series encoder may include a multi-layer perceptron and a recurrent neural network.
  • the neural network may be an ordinary recurrent neural network unit RNN, a long-short-term memory unit LSTM, a gated recurrent unit GRU, and so on.
  • LSTM long-short-term memory unit
  • GRU gated recurrent unit
  • the timing encoder reads the feature sequence into the multi-layer perceptron MLP for the first time in the correct order to further reduce the dimension, and then input it into the LSTM unit.
  • the timing encoder outputs a state corresponding to the input feature at each step. This state is the feature expression after the input feature is embedded in the timing information at that time:
  • the decoder may include a recurrent neural network to generate natural language description information in units of words.
  • the decoder can focus on capturing image features related to the word, introducing an attention mechanism to dynamically determine and select key image features. For the currently important features, the attention mechanism gives a larger feature weight, and conversely, a smaller feature weight.
  • the integrated features of the video at the current moment are obtained:
  • ⁇ t represents the feature that is dynamically selected and integrated by the attention mechanism.
  • s i ⁇ S ⁇ s 1 , s 2 , ..., s n ⁇ represents the i-th word in the sentence S.
  • the decoder gets the predicted word at the current moment according to the following formula:
  • h t represents the t-th hidden state of the decoder network
  • SoftMax () obtains the probability distribution of words function.
  • the loss function of the decoder is:
  • V i ; ⁇ ) represents the probability of generating a natural language description for a video segment
  • represents the parameters of the network to be optimized.
  • the media resource includes multiple resource blocks, and each first feature vector in the multiple first feature vectors includes multiple fourth features in one-to-one correspondence with the multiple resource blocks. Fusion of the first feature vector to obtain the second feature vector includes:
  • each feature set in the multiple feature sets includes one resource block in multiple resource blocks in multiple The corresponding fourth feature in a feature vector
  • the hidden state sequence H ⁇ h 1 , h 2 , ..., h n ⁇ of each decoder is averaged according to the resource block, that is, the average characteristics of each h 1 are Each h 2 performs an average feature,..., Performs an average feature on each h n , and determines each obtained average feature as a feature included in the second feature vector.
  • the media resource includes a first number of resource blocks
  • the second feature vector includes a first number of features corresponding to the first number of resource blocks, wherein the target natural language description is generated according to the second feature vector
  • the information includes:
  • the first quantity and the second quantity may be the same or different. That is, the first number of features and the second number of words need not correspond one-to-one.
  • the sentence integrated according to the second number of words may be, but not limited to, a sentence, a phrase, a phrase, or the like.
  • the sentence can be a sentence with a subject-predicate-object structure, a sentence with a subject-predicate-object-complement structure, or a phrase with a predicate-object structure.
  • the objective function is a function to obtain the probability distribution of words, for example, the function SoftMax ().
  • the method before processing the media resources through multiple natural language description models to obtain the first feature vector output by each natural language description model, the method further includes:
  • each joint model of the multiple joint models is A model obtained by cascading a first model and a reconstructor model.
  • the reconstructor model is used to reconstruct the characteristics of resource samples according to the description of the optimized model output.
  • the second loss function is configured according to each joint model Loss function
  • the use of resource samples to train the initial natural language description model, the joint model and the second model can optimize the initial natural language description model, the joint model and the second model.
  • the loss function of the above model or other evaluation parameters When the corresponding preset conditions are met, the training can be stopped.
  • the preset condition may be set according to actual needs, for example, it may be set to a loss function or the evaluation parameter is in a convergence state, and for example, it may be set to a loss function or the evaluation parameter is less than a preset threshold.
  • model training process may include, but is not limited to, three parts:
  • the model that is not added to the reconstructor can be trained using traditional training methods, and the optimization goal is to minimize the decoder loss function
  • the second part on the basis of the completion of the first part of the model training, adds the reconstructor and still trains in the traditional way.
  • the optimization goal at this time is to minimize the joint loss function
  • the third part based on the end of the second part of the model training, uses the "self-judgment" method of reinforcement learning to further train the model, and the optimization goal is the METEOR value, which is an indifferentiable index for evaluating the quality of natural sentences. Since the gradient of METEOR is unavailable, the traditional training method that uses gradient descent to update the parameters by gradient gradient is no longer used here. Reinforcement learning algorithms can solve this problem. In general, the optimization goal of reinforcement learning based on the "bottom line" can be expressed as:
  • r (S i ) is the optimization index
  • the “bottom line” b is an arbitrary function that has nothing to do with S i . Its introduction is to reduce the high deviation of gradient estimation in a single sample.
  • the “bottom line” b is the METEOR value obtained by the model at the verification stage, ie among them Describe the natural language description information generated by the current model during the verification phase. This method uses its own indicators As a "bottom line" to optimize itself, it is called “self-evaluation”.
  • the reconstructor network may include a recurrent neural network.
  • the reconstructor reconstructs the global video feature.
  • the decoder's hidden state sequence H ⁇ h 1 , h 2 , ..., h n ⁇ is averaged to obtain the predicted global expression of the natural language description:
  • the reconstructor uses the average feature, the current corresponding decoder state h t and its own last state As input, generate a new hidden state
  • the hidden state also serves as the reconstruction feature at the current moment:
  • the average feature is used in the hidden state sequence of the reconstructor Get a feature expression that represents the global structure of the video clip
  • the Euclidean distance between the original video feature and the reconstructed video feature as a loss function of the reconstructor network is expressed as:
  • E ( ⁇ ) represents Euclidean distance
  • a device for generating natural language description information for implementing the above method for generating natural language description information includes:
  • the processing module 82 is configured to separately process media resources through multiple natural language description models to obtain first feature vectors output by each natural language description model, and the first feature vectors output by each natural language description model correspond to different feature types ;
  • the fusion module 84 is used to fuse the first feature vector output from each natural language description model to obtain a second feature vector
  • the generating module 86 is configured to generate target natural language description information according to the second feature vector, where the target natural language description information is used to represent the media resource in natural language.
  • the processing module includes:
  • a first acquiring unit configured to acquire media resources and determine the resource blocks included in the media resources
  • the first input unit is used to input the resource block as input information to each natural language description model in the multiple natural language description models;
  • the generating unit is configured to generate a first feature vector from each of the multiple natural language description models, wherein the first feature vector includes the first feature corresponding to the resource block.
  • the media resource includes multiple resource blocks, where the generating unit includes:
  • a processing subunit configured to process multiple resource blocks through the feature extraction model included in each natural language description model, wherein the feature extraction model is used to extract first features from each resource block to obtain multiple first features;
  • An obtaining subunit used to obtain sequence information of multiple resource blocks, wherein the sequence information is used to indicate the sequence of multiple resource blocks in the media resource;
  • An encoding subunit is used to sequentially encode multiple first features using order information to obtain a first feature vector.
  • each natural language description model includes multiple feature extraction models, each of which corresponds to a different feature type, and the processing subunit is used to:
  • Input a plurality of resource blocks into each feature extraction model included in each natural language description model, obtain a set of second features output by each of the feature extraction models, and obtain multiple sets of second features, each of the multiple sets of second features
  • the second set of features includes multiple features that have corresponding relationships with multiple resource blocks
  • the features corresponding to the same resource block in the multiple sets of second features are fused into one feature to obtain multiple first features.
  • the coding subunit is used for:
  • a plurality of third features are processed through a decoder model included in each natural language description model, where the decoder model is used to generate a first feature vector according to the plurality of third features.
  • the media resource includes multiple resource blocks, and each first feature vector in the multiple first feature vectors includes multiple fourth features in one-to-one correspondence with the multiple resource blocks, where the fusion module includes :
  • An extraction unit configured to extract multiple feature sets corresponding to multiple resource blocks from multiple first feature vectors, wherein each feature set in the multiple feature sets includes one resource block in the multiple resource blocks The corresponding fourth feature in the plurality of first feature vectors;
  • the second obtaining unit is used to obtain the average feature of each feature set in the multiple feature sets to obtain multiple average features corresponding to the multiple resource blocks one-to-one;
  • the determining unit is configured to determine a feature vector including multiple average features as the second feature vector.
  • the media resource includes a first number of resource blocks
  • the second feature vector includes a first number of features corresponding to the first number of resource blocks
  • the generation module includes:
  • the processing unit is configured to process a first number of features through an objective function to obtain a second number of words that maximize the objective function, where the objective function is a function to obtain a probability distribution of words;
  • the integration unit is used to integrate the second number of words into a sentence, and determine the sentence as target natural language description information.
  • the above device further includes:
  • the first training module is used to train each of the multiple initial natural language description models using resource samples to obtain multiple first models with a first loss function satisfying the first preset condition, where the first loss function Is a loss function configured for each of the multiple initial natural language description models;
  • the second training module is used for training each joint model among the multiple joint models using resource samples to obtain multiple second models whose second loss functions satisfy the second preset condition.
  • Each joint model is a model obtained by cascading a first model and a reconstructor model.
  • the reconstructor model is used to reconstruct the characteristics of the resource samples according to the description results output by the first model.
  • the second loss function is based on Loss function of a joint model configuration;
  • the third training module is used to train multiple second models to obtain multiple natural language description models whose evaluation parameters meet the third preset condition.
  • the above method for generating natural language description information may be, but not limited to, applied to a scenario in which natural language description information is generated for video resources as shown in FIG. 9.
  • a video segment description information generation method based on video timing information and multi-scale fusion is proposed.
  • This method can be used to generate natural language paragraph descriptions for video clips in a database in the cloud.
  • This method can complete the fusion, extraction and reconstruction of video clip features, the encoding of time series information and the generation of natural language description through neural networks.
  • the image encoder extracts the features of the convolutional neural network for each image in the video clip, and then uses the recurrent neural network (timing encoder) to further process the features to obtain the image feature expression including the timing information of the video clip .
  • the non-linear network is used to further process the image feature expression including the time sequence information extracted at this stage, to obtain a video clip feature expression carrying key frame information.
  • use the recurrent neural network (decoder) to generate the natural language description of the video segment feature expression, and according to the description generated at this stage, use another recurrent neural network (reconstructor) to reconstruct the characteristics of the input video.
  • the generation of natural language descriptions is constrained by reducing the difference between the reconstructed video features and the original video features.
  • the description generation network is further trained. Finally, multiple trained networks are fused at the word prediction end to generate a more accurate description of the video clip.
  • convolutional neural networks are used to fuse different types of features of the same video segment.
  • the advantage of fused features is that they can simultaneously use complementary semantic information from different features.
  • a timing encoder is constructed using the ability of the cyclic neural network to process time series data.
  • the time series encoder further processes the image features generated by the encoder, encodes the video time series information into the image features, and makes full use of the time series information provided by the video sequence.
  • the use of recurrent neural networks to build a reconstructor aims to obtain backward semantic information in the training data. Training with the "self-judgment" structure in the reinforcement learning algorithm directly optimizes the indicators that people care about, which helps to further improve performance. For multiple models that have been trained, the prediction ends of multiple models are fused during application, and the characteristics of different models are used to generate more accurate natural language descriptions for video clips.
  • the video content understanding service can be provided in the above manner.
  • the encoder performs different types of feature extraction on each frame of the video and performs feature fusion.
  • the fused feature is processed by a timing encoder to obtain a high-level image feature sequence embedded with video timing information, and a natural language description is obtained by a decoder.
  • the natural language description is reconstructed into the input video features through the reconstructor network.
  • the whole process uses the "self-judgment" structure in the reinforcement learning algorithm for training.
  • the trained multiple models are fused at the prediction end to generate natural language descriptions. Can be deployed on video sites for video classification, viewing, and fast retrieval.
  • each model has its own performance focus, which leads to multiple The model describes the same video segment differently. Combining multiple models to generate the same natural language description can take advantage of the different emphasis of different models at the same time, making the description more accurate.
  • the prediction ends of the decoder are fused, and a word is generated together at every moment.
  • Averaging different decoder states at the same time Represents the decoder state of the kth model at time t, and q represents the number of models.
  • the softmax function is used to obtain the probability distribution of the word list, and then the word st at time t is obtained .
  • st will serve as a common input for multiple model decoders.
  • the electronic device for implementing the above method for generating natural language description information.
  • the electronic device includes: one or more (only shown in the figure) A) a processor 1002, a memory 1004, a sensor 1006, an encoder 1008, and a transmission device 1010.
  • a computer program is stored in the memory.
  • the processor is configured to execute the steps in any of the above method embodiments through the computer program.
  • the above-mentioned electronic device may be located in at least one network device among multiple network devices of the computer network.
  • the foregoing processor may be configured to perform the following steps through a computer program:
  • the structure shown in FIG. 10 is only an illustration, and the electronic device may also be a smart phone (such as an Android phone, an iOS phone, etc.), a tablet computer, a palmtop computer, and a mobile Internet device (Mobile Internet devices, MID), PAD and other terminal devices.
  • FIG. 10 does not limit the structure of the above electronic device.
  • the electronic device may further include more or fewer components than those shown in FIG. 10 (such as a network interface, a display device, etc.), or have a configuration different from that shown in FIG. 10.
  • the memory 1002 can be used to store software programs and modules, such as the program instructions / modules corresponding to the method and device for generating natural language description information in the embodiments of the present application, and the processor 1004 runs the software programs and modules stored in the memory 1002 In order to perform various functional applications and data processing, that is, to achieve the control method of the target component described above.
  • the memory 1002 may include a high-speed random access memory, and may also include a non-volatile memory, such as one or more magnetic storage devices, flash memory, or other non-volatile solid-state memory.
  • the memory 1002 may further include memories remotely provided with respect to the processor 1004, and these remote memories may be connected to the terminal through a network. Examples of the above network include but are not limited to the Internet, intranet, local area network, mobile communication network, and combinations thereof.
  • the transmission device 1010 described above is used to receive or transmit data via a network.
  • Specific examples of the aforementioned network may include a wired network and a wireless network.
  • the transmission device 1010 includes a network adapter (Network Interface Controller, NIC), which can be connected to other network devices and routers through a network cable to communicate with the Internet or a local area network.
  • the transmission device 1010 is a radio frequency (RF) module, which is used to communicate with the Internet in a wireless manner.
  • RF radio frequency
  • the memory 1002 is used to store application programs.
  • An embodiment of the present application further provides a storage medium in which a computer program is stored, wherein the computer program is configured to execute any of the steps in the above method embodiments during runtime.
  • the above storage medium may be set to store a computer program for performing the following steps:
  • the storage medium is further configured to store a computer program for performing the steps included in the method in the foregoing embodiment, which will not be repeated in this embodiment.
  • the storage medium may include: a flash disk, a read-only memory (Read-Only Memory, ROM), a random access device (Random Access Memory, RAM), a magnetic disk, or an optical disk.
  • the integrated unit in the above embodiment is implemented in the form of a software functional unit and sold or used as an independent product, it may be stored in the computer-readable storage medium.
  • the technical solution of the present application may essentially be a part that contributes to the existing technology or all or part of the technical solution may be embodied in the form of a software product, and the computer software product is stored in a storage medium.
  • Several instructions are included to enable one or more computer devices (which may be personal computers, servers, network devices, etc.) to perform all or part of the steps of the methods described in the embodiments of the present application.
  • the disclosed client may be implemented in other ways.
  • the device embodiments described above are only schematic.
  • the division of the unit is only a logical function division.
  • there may be another division manner for example, multiple units or components may be combined or may Integration into another system, or some features can be ignored, or not implemented.
  • the displayed or discussed mutual coupling or direct coupling or communication connection may be indirect coupling or communication connection through some interfaces, units or modules, and may be in electrical or other forms.
  • the units described as separate components may or may not be physically separated, and the components displayed as units may or may not be physical units, that is, they may be located in one place, or may be distributed on multiple network units. Some or all of the units may be selected according to actual needs to achieve the purpose of the solution of this embodiment.
  • each functional unit in each embodiment of the present application may be integrated into one processing unit, or each unit may exist alone physically, or two or more units may be integrated into one unit.
  • the above integrated unit may be implemented in the form of hardware or software functional unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种自然语言描述信息的生成方法及装置。其中,方法包括:通过多个自然语言描述模型分别对媒体资源进行处理,获得各个自然语言描述模型输出的第一特征向量,各个自然语言描述模型输出的第一特征向量对应不同特征类型(S102);对多个第一特征向量进行融合,得到第二特征向量(S104);根据第二特征向量生成目标自然语言描述信息(S106)。该方法解决了相关技术中为媒体资源生成的自然语言描述信息对媒体资源描述的准确性较低的技术问题。

Description

自然语言描述信息的生成方法及装置
本申请要求于2018年11月23日提交中国国家知识产权局、申请号为201811409084.9、申请名称为“自然语言描述信息的生成方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及计算机领域,具体而言,涉及一种自然语言描述信息的生成方法及装置。
背景技术
随着信息技术的不断发展,包括图片、视频、网页等在内的媒体资源呈爆炸性增长,为了帮助用户快速获取指定的媒体资源,可以通过为上述媒体资源生成描述信息,基于该描述信息进行检索而实现。
目前,业界主要是通过编码器和解码器结构生成描述信息。具体地,以视频片段为例,先对视频片段的每一帧图像提取特征,再通过平均特征、注意力机制或其他方法将帧级别的特征变换为视频级别特征,最后将该视频级别特征作为解码器的输入得到自然语言描述。
然而,这种利用单一的编解码网络生成自然语言描述的方法在实际应用时存在准确性不高的问题,因而难以得到广泛应用。
发明内容
本申请实施例提供了一种自然语言描述信息的生成方法及装置,以至少解决相关技术中为媒体资源生成的自然语言描述信息对媒体资源描述的准确性较低的技术问题。
根据本申请实施例的一个方面,提供了一种自然语言描述信息的生成方法,包括:通过多个自然语言描述模型分别对媒体资源进行处理,获得各个自然语 言描述模型输出的第一特征向量,所述各个自然语言描述模型输出的第一特征向量对应不同特征类型;对所述各个自然语言描述模型输出的第一特征向量进行融合,得到第二特征向量;根据所述第二特征向量生成目标自然语言描述信息,其中,所述目标自然语言描述信息用于通过自然语言表示所述媒体资源。
根据本申请实施例的另一方面,还提供了一种自然语言描述信息的生成装置,包括:输入模块,用于通过多个自然语言描述模型分别对媒体资源进行处理,获得各个自然语言描述模型输出的第一特征向量,所述各个自然语言描述模型输出的第一特征向量对应不同特征类型;融合模块,用于对所述各个自然语言描述模型输出的第一特征向量进行融合,得到第二特征向量;生成模块,用于根据所述第二特征向量生成目标自然语言描述信息,其中,所述目标自然语言描述信息用于通过自然语言表示所述媒体资源。
根据本申请实施例的另一方面,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项中所述的方法。
根据本申请实施例的另一方面,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行上述任一项中所述的方法。
在本申请实施例中,采用多个自然语言描述模型的架构分别对媒体资源进行处理,将各个模型提取出的不同特征类型的第一特征向量融合成第二特征向量,再根据第二特征向量生成目标自然语言描述信息来表示媒体资源,从而整合了媒体资源中不同类型、具有语义互补特性的信息共同为媒体资源生成目标自然语言描述信息,使得生成的目标自然语言描述信息更加准确地体现媒体资源的内容,从而实现了提高为媒体资源生成的自然语言描述信息对媒体资源描述的准确性的技术效果,进而解决了相关技术中为媒体资源生成的自然语言描述信息对媒体资源描述的准确性较低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的自然语言描述信息的生成方法的示意图;
图2是根据本申请实施例的一种可选的自然语言描述信息的生成方法的应用环境示意图;
图3是根据本申请可选的实施方式的一种可选的自然语言描述信息的生成方法的示意图;
图4是根据本申请可选的实施方式的另一种可选的自然语言描述信息的生成方法的示意图;
图5是根据本申请可选的实施方式的另一种可选的自然语言描述信息的生成方法的示意图;
图6是根据本申请可选的实施方式的另一种可选的自然语言描述信息的生成方法的示意图;
图7是根据本申请可选的实施方式的另一种可选的自然语言描述信息的生成方法的示意图;
图8是根据本申请实施例的一种可选的自然语言描述信息的生成装置的示意图;
图9是根据本申请实施例的一种可选的自然语言描述信息的生成方法的应用场景示意图;以及
图10是根据本申请实施例的一种可选的电子装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种自然语言描述信息的生成方法,如图1所示,该方法包括:
S102,通过多个自然语言描述模型分别对媒体资源进行处理,获得各个自然语言描述模型输出的第一特征向量,其中,所述各个自然语言描述模型输出的第一特征向量对应不同特征类型;
多个自然语言描述模型中每个自然语言描述模型用于根据输入信息生成自然语言描述信息,自然语言描述信息用于通过自然语言表示自然语言描述模型的输入信息;
S104,对各个自然语言描述模型输出的第一特征向量进行融合,得到第二特征向量;
S106,根据第二特征向量生成目标自然语言描述信息,其中,目标自然语言描述信息用于通过自然语言表示媒体资源。
可选地,在本实施例中,上述自然语言描述信息的生成方法可以应用于如图2所示的服务器202和客户端204所构成的硬件环境中。如图2所示,服务器202通过多个自然语言描述模型分别对媒体资源进行处理,获取每个自然语言模型输出的第一特征向量,得到多个第一特征向量,其中,每个个第一特征向量对应一种特征类型,且每个第一特征向量对应的特征类型不同,也即服务器202可以得到多种特征类型的第一特征向量;然后服务器202对多种特征类型的第一特征向量进行融合,得到第二特征向量;根据第二特征向量生成目标自然语言描述信息,其中,目标自然语言描述信息用于通过自然语言表示媒体资源。
可选地,在本实施例中,服务器202可以根据目标自然语言描述信息对媒体资源进行分类、查阅以及检索等操作。从而为客户端204提供服务。
可选地,在本实施例中,上述自然语言描述信息的生成方法可以但不限于应用于为媒体资源生成自然语言描述信息的场景中。其中,上述客户端可以但不限于为各种类型的应用、小程序、网站等等,例如,在线教育类、即时通讯类、社区空间类、游戏类、购物类、浏览器、金融类、多媒体类、直播类等。具体的,可以但不限于应用于在上述多媒体应用中为媒体资源生成自然语言描述信息的场景中,或还可以但不限于应用于在上述即时通讯应用中为媒体资源生成自然语言描述信息的场景中,以提高为媒体资源生成的自然语言描述信息对媒体资源描述的准确性。上述仅是一种示例,本实施例中对此不做任何限定。
可选地,在本实施例中,上述媒体资源可以但不限于包括:视频资源、音频资源、图片资源、网页资源等等。
可选地,在本实施例中,多个第一特征向量中每个第一特征向量中包括一个或者多个用于表征媒体资源的特征。由多个第一特征向量融合成的第二特征向量中包括一个或者多个用于表征媒体资源的特征。
可选地,在本实施例中,自然语言描述信息可以但不限于包括各种语言的语句、短语、词组等等。比如:英语、汉语、西班牙语、法语、意大利语、阿拉伯语等等。
可选地,在本实施例中,多个自然语言描述模型是分别训练出的不同的自然语言描述模型,其能够从不同的角度对媒体资源进行描述,使得将多个自然语言描述模型生成的多个第一特征向量融合得到的第二特征向量能够携带媒体资源全面的信息,从而使得目标自然语言描述信息对媒体资源的描述更加地准确。
在一个可选的实施方式中,以媒体资源为视频资源为例,如图3所示,训练好多个自然语言描述模型,分别是模型1、模型2、……、模型n,通过模型1、模型2、……、模型n对视频资源进行处理,得到模型1、模型2……模型n输出的属于多种特征类型的多个第一特征向量(v1,v2,……,vn),将v1,v2,……,vn融合成第二特征向量V,根据第二特征向量V生成自然语言描述信息S。
可见,通过上述步骤,自然语言描述模型用于根据所述输入信息生成自然语言描述信息用以描述模型的输入信息,通过从输入信息中提取出的特征向量生成自然语言描述信息,采用多个自然语言描述模型的架构,将各个模型提取出的不同特征类型的第一特征向量融合成第二特征向量,再根据第二特征向量生成目标自然语言描述信息来表示媒体资源,从而整合了媒体资源中不同类型的信息共同为媒体资源生成目标自然语言描述信息,使得生成的目标自然语言描述信息更加准确地体现媒体资源的内容,从而实现了提高为媒体资源生成的自然语言描述信息对媒体资源描述的准确性的技术效果,进而解决了相关技术中为媒体资源生成的自然语言描述信息对媒体资源描述的准确性较低的技术问题。
作为一种可选的方案,通过多个自然语言描述模型分别对媒体资源进行处理,获得各个自然语言描述模型输出的第一特征向量包括:
S1,获取媒体资源,并确定媒体资源所包括的资源块;
S2,将资源块作为输入信息输入多个自然语言描述模型中每个自然语言描述模型;
S3,通过多个自然语言描述模型中的每个自然语言描述模型生成一个第一特征向量,其中,一个第一特征向量包括资源块对应的第一特征。
可选地,在本实施例中,媒体资源所包括的资源块可以但不限于为任一种对媒体资源进行划分的方式。媒体资源可以但不限于包括一个或者多个资源块,以视频资源为例,视频资源的资源块可以但不限于按照帧来划分,一个资源块可以但不限于包括一个或者多个视频帧。或者视频资源的资源块可以但不限于按照时间来划分,一个资源块可以但不限于为一个持续一秒或者多秒的视频片段。以图片资源为例,图片资源的资源块可以但不限于按照像素来划分,一个资源块可以但不限于包括一个或者多个像素的图片区域。或者图片资源的资源块可以但不限于按照尺寸来划分,一个资源块可以但不限于为一个预定尺寸的图片区域。
可选地,在本实施例中,每个自然语言描述模型对每个资源块生成一个第一特征,这样每个自然语言描述模型对于媒体资源生成了与资源块对应的第一特征,得到了包括这些第一特征的第一特征向量。
作为一种可选的方案,媒体资源包括多个资源块,其中,利用多个自然语言描述模型中的每个自然语言描述模型生成一个第一特征向量包括:
S1,通过每个自然语言描述模型包括的特征提取模型对多个资源块进行处理,其中,特征提取模型用于从各个资源块中提取所述第一特征,得到多个第一特征;
S2,获取多个资源块的顺序信息,其中,顺序信息用于指示多个资源块在媒体资源中的顺序;
S3,使用顺序信息对多个第一特征进行顺序编码,得到第一特征向量。
可选地,在本实施例中,顺序信息可以但不限于包括:时序信息、位置顺序信息、时空顺序信息等等。时序信息可以用于指示多个资源块在媒体资源中的时间顺序,位置顺序信息可以用于指示多个资源块在媒体资源中的排列位置顺序,时空顺序信息可以用于指示多个资源块在媒体资源中在时间和空间上的排列顺序。例如,在视频资源处理场景中,可以利用视频帧的时序信息进行编码,在图像资源处理场景中,可以利用不同区域的位置顺序进行编码。
可选地,在本实施例中,顺序编码可以但不限于包括时序编码、空间编码、时空编码等等。
可选地,在本实施例中,从媒体资源的多个资源块中提取出多个第一特征,这些第一特征可能是无序的,从媒体资源中获取多个资源块的顺序信息并根据该顺序信息对第一特征进行顺序编码得到的第一特征向量能够携带有多个资源块的顺序信息,能够体现出多个第一特征在媒体资源中的排列顺序。
在一个可选的实施方式中,以视频资源的自然语言描述信息的生成过程为例,如图4所示,对于具有m帧图像的视频片段,每个自然语言描述模型的编码器获得每一帧图像的不同类型特征
Figure PCTCN2019115079-appb-000001
Figure PCTCN2019115079-appb-000002
其中,i和j表示不同种类的特征,相同图像的特征进行融合得到融合后图像特征序列V={v 1,v 2,…,v m}。随后时序编码器对该阶段特征序列进行时序编码,将视频片段的时序信息融入到图像特征序列。在解码器进行生成描述前,注意力机制赋予每个图像特征特定的权重,该特征序列的权重和即为视频片段的特征表达。解码器以该阶段产生的视频特征表达作为输入,以每一步预测一个单词的形式生成对应的自然语言描述。完成自然语言描述的生 成后,重构器根据解码器每一步的隐藏状态重构出输入视频特征,即
Figure PCTCN2019115079-appb-000003
Figure PCTCN2019115079-appb-000004
训练过程中,利用强化学习的“自我评判”方法直接以人们度量句子好坏的指标为优化目标,训练模型。在应用中多个已经训练好的自然语言描述模型在解码器的预测端进行融合,根据多个第一特征向量得到第二特征向量,共同产生同一个目标自然语言描述信息。
作为一种可选的方案,每个自然语言描述模型可以包括多个特征提取模型,每个特征提取模型对应不同特征类型,通过每个自然语言描述模型包括的特征提取模型对多个资源块进行处理包括:
S1,将多个资源块输入每个自然语言描述模型包括的各个特征提取模型,获取每个特征提取模型输出的一组第二特征,得到多组第二特征,多组第二特征中的每组第二特征包括与每个资源块一一对应的特征;
S2,将多组第二特征中与同一资源块对应的特征融合为一个特征,得到多个第一特征。
可选地,在本实施例中,多个特征提取模型可以但不限于为多种卷积神经网络,比如P3D,C3D,I3D等网络,对每一帧图像进行特征提取。
可选地,在本实施例中,对于不同特征,比如C3D特征,P3D特征,是用叫C3D或P3D的算法或网络对视频提取的特征。这些算法或网络是可以用来对图像或视频进行分类的,这些模型处理图片或视频,可以输出类别信息。可以提取这些分类模型的中间输出,作为图像或视频的特征。不同的算法或网络模型提取特征的方法不同,效率不同,提出的特征也有差异,因此可以使用不同的算法或者网络模型提取不同类型的特征。
可选地,在本实施例中,可以但不限于包括两大类特征:2D卷积特征和3D卷积特征。2D卷积特征,比如InceptionV4,Resnet152,Inception_Resnet_v2,nasnet,pnasnet特征,可以作用于单张图像,提取单张图像的特征。3D卷积特征,比如C3D,P3D,I3D特征,可以作用于连续的多张图像的,提取的特征包括图片之间的时序信息,内容上可能会比2D卷积特征要丰富。
在一个可选的实施方式中,在获得多种图像特征(即多组第二特征)的基础上,可以采用两种特征融合策略,一是特征直接级联方式,二是特征先被降维,再级联的方式。
此处以两种特征,即I3D特征和P3D特征为例,说明两种特征融合策略。以下
Figure PCTCN2019115079-appb-000005
表示I3D特征序列,每个特征长度为1024维,
Figure PCTCN2019115079-appb-000006
Figure PCTCN2019115079-appb-000007
表示P3D特征序列,每个特征长度为2048维。
对于特征直接级联方法,将不同特征序列中对应同一帧或区域的特征在长度维度上连接:
Figure PCTCN2019115079-appb-000008
上式表示在第t帧或第t个区域的两种不同特征的直接级联。此处v t的长度维度为3072维。
对于特征先被降维,再级联的方式,首先利用线性层例如FC层将高维度特征降低到目标维度:
Figure PCTCN2019115079-appb-000009
Figure PCTCN2019115079-appb-000010
再将不同特征序列中对应的特征在长度维度上连接。
Figure PCTCN2019115079-appb-000011
上式表示在第t帧或第t个区域的两种降维后的不同特征进行级联。此处v t的长度维度为目标维度的两倍。
作为一种可选的方案,使用顺序信息对多个第一特征进行顺序编码,得到第一特征向量包括:
S1,将第一特征按照顺序输入到顺序编码器;
S2,利用顺序编码器生成时序特征向量;
S3,通过注意力机制模型对时序特征向量进行处理,得到多个第三特征,其中,注意力机制模型用于根据每个资源块与资源特征之间的相关度确定每个资源块对应的加权特征;
S4,通过每个自然语言描述模型包括的解码器模型对多个第三特征进行处理,其中,解码器模型用于根据多个第三特征生成第一特征向量。
可选地,在本实施例中,顺序编码器可以但不限于包括时序编码器等等。
在一个可选的实施方式中,时序编码器可以包括多层感知机和循环神经网络,神经网络可以是普通循环神经网络单元RNN,长短期记忆单元LSTM,门控循环单元GRU等。以LSTM为例,如图5所示,在上一阶段得到的融合 后特征序列中,并不包含两个特征以及多个特征之间的时序关系。时序编码器将特征序列按正确顺序首次读入到多层感知机MLP中对其进一步降维,之后再输入到LSTM单元中。时序编码器在每一步对应于输入特征输出一个状态,该状态即为该时刻输入特征嵌入时序信息后的特征表达:
x t=LSTM(v i,x t-1)
其中x t既表示LSTM网络在t时刻的隐藏状态,也表示该时刻经过时序编码后的图像特征表达,最终得到含有时序信息的特征序列X={x 1,x 2,…,x m}。
在上述可选的实施方式中,如图6所示,解码器可以包括循环神经网络,以单词为单位生成自然语言描述信息。为了在每一步生成单词时,解码器能重点捕获与该单词相关的图像特征,引入注意力机制,动态判断并选择关键图像特征。对于当前重要的特征,注意力机制赋予较大的特征权重,反之,赋予较小的特征权重。经过注意力机制对特征的整合,得到该视频在当前时刻下的整合特征:
Figure PCTCN2019115079-appb-000012
其中
Figure PCTCN2019115079-appb-000013
表示在t时刻注意力机制赋予图像特征x i的特征权重,其遵从
Figure PCTCN2019115079-appb-000014
μ t表示经过注意力机制动态选择并整合后的特征。s i∈S={s 1,s 2,…,s n}表示句子S中的第i个单词。
在每一时刻,解码器按下列公式得到当前时刻预测的单词:
h t=LSTM(s i-1,h t-1t)
s t=max(SoftMax(h t))
其中h t表示解码器网络的第t个隐藏状态,s t∈S={s 1,s 2,…,s n}表示句子S中的第t个单词,SoftMax()是获得单词概率分布的函数。在训练过程中,解码器的损失函数为:
Figure PCTCN2019115079-appb-000015
其中P(S i|V i;θ)表示对一个视频片段生成自然语言描述的概率,θ表示网络待优化参数。
作为一种可选的方案,媒体资源包括多个资源块,多个第一特征向量中每个第一特征向量包括与多个资源块一一对应的多个第四特征,其中,对多个第一特征向量进行融合,得到第二特征向量包括:
S1,从多个第一特征向量中提取出与多个资源块一一对应的多个特征集合,其中,多个特征集合中每个特征集合包括多个资源块中一个资源块在多个第一特征向量中对应的第四特征;
S2,获取多个特征集合中每个特征集合的平均特征,得到与多个资源块一一对应的多个平均特征;
S3,将包括多个平均特征的特征向量确定为第二特征向量。
可选的,在本实施例中,将每个解码器的隐藏状态序列H={h 1,h 2,…,h n}按照资源块进行平均特征,即对各个h 1进行平均特征,对各个h 2进行平均特征,……,对各个h n进行平均特征,将各个得到的平均特征确定为第二特征向量中包括的特征。
作为一种可选的方案,媒体资源包括第一数量的资源块,第二特征向量包括与第一数量的资源块对应的第一数量的特征,其中,根据第二特征向量生成目标自然语言描述信息包括:
S1,通过目标函数对第一数量的特征进行处理,得到使得目标函数最大化的第二数量的单词,其中,目标函数为获得单词概率分布的函数;
S2,将第二数量的单词整合为语句,并将语句确定为目标自然语言描述信息。
可选地,在本实施例中,第一数量和第二数量可以相同也可以不同。即第一数量的特征与第二数量的单词不必一一对应。
可选地,在本实施例中,根据第二数量的单词整合出的语句可以但不限于是句子、词组、短语等等形式。也就是说,语句可以是主谓宾结构的句子,主谓宾定状补结构的句子,或者谓宾机构的短语等等形式。
可选地,在本实施例中,目标函数为获得单词概率分布的函数,例如:函数SoftMax()。
作为一种可选的方案,在通过多个自然语言描述模型分别对媒体资源进行处理,获得各个自然语言描述模型输出的第一特征向量之前,方法还包括:
S1,使用资源样本对多个初始自然语言描述模型中的每个模型进行训练,得到多个第一损失函数满足第一预设条件的第一模型,其中,第一损失函数是根据多个初始自然语言描述模型中的每个模型配置的损失函数;
S2,使用资源样本对多个联合模型中的每个联合模型进行训练,得到多个第二损失函数满足第二预设条件的第二模型,其中,多个联合模型中的每个联合模型为一个第一模型与一个重构器模型级联得到的模型,重构器模型用于根据优化后模型输出的描述结果重构出资源样本的特征,第二损失函数是根据每个联合模型配置的损失函数;
S3,对多个第二模型进行训练,得到评价参数满足第三预设条件的多个自然语言描述模型。
其中,利用资源样本对上述初始自然语言描述模型、联合模型以及第二模型进行训练,可以实现对初始自然语言描述模型、联合模型以及第二模型的优化,当上述模型的损失函数或者其他评价参数满足各自对应的预设条件时,可以停止训练。
其中,预设条件可以根据实际需求而设置,例如可以设置为损失函数或者评价参数处于收敛状态,又例如可以设置为损失函数或者评价参数小于预设阈值。
可选地,在本实施例中,模型训练过程可以但不限于包括三个部分:
第一部分,对未加入重构器部分的模型可以利用传统训练方法训练,优化目标为最小化解码器损失函数
Figure PCTCN2019115079-appb-000016
第二部分,在第一部分模型训练结束的基础上,加入重构器,仍以传统方法进行训练。此时的优化目标为最小化联合损失函数
Figure PCTCN2019115079-appb-000017
第三部分,在第二部分模型训练结束的基础上,利用强化学习的“自我评判”方法对该模型进一步训练,优化目标为METEOR值,这是一个不可微分的评价自然语句质量的指标。由于METEOR的梯度不可求,传统的通过对损失 函数求梯度进而利用梯度下降更新参数的训练方式在此处不再使用。而强化学习算法恰好可以解决该问题。一般来说,基于“底线”的强化学习的优化目标可表示为:
Figure PCTCN2019115079-appb-000018
其中r(S i)为优化指标,“底线”b是个与S i无关的任意函数,它的引入是为了减小了单个样本中梯度估计的高偏差。采用“自我评判”方法,“底线”b为该模型在验证阶段得到的METEOR值,即
Figure PCTCN2019115079-appb-000019
其中
Figure PCTCN2019115079-appb-000020
为当前模型在验证阶段产生的自然语言描述信息。这种方法以自身的指标
Figure PCTCN2019115079-appb-000021
作为“底线”优化自身,因此叫做“自我评价”。
在一个可选的实施方式中,重构器网络可以包括循环神经网络,通过解码器的隐藏状态序列H={h 1,h 2,…,h n},重构器重构出视频的全局特征。如图7所示,在重构视频全局特征前,将解码器的隐藏状态序列H={h 1,h 2,…,h n}进行平均特征,得到预测的自然语言描述的全局表达:
Figure PCTCN2019115079-appb-000022
其中
Figure PCTCN2019115079-appb-000023
表示平均特征操作。在重构器的每一时刻,重构器以该平均特征、当前对应的解码器状态h t的以及自身的上一时刻状态
Figure PCTCN2019115079-appb-000024
作为输入,产生新的隐藏状态
Figure PCTCN2019115079-appb-000025
同时该隐藏状态也作为当前时刻的重构特征:
Figure PCTCN2019115079-appb-000026
Figure PCTCN2019115079-appb-000027
最终将平均特征用于重构器的隐藏状态序列
Figure PCTCN2019115079-appb-000028
得到表示视频片段全局结构的特征表达
Figure PCTCN2019115079-appb-000029
原始视频特征和重构视频特征之间的欧氏距离作为重构器网络的损失函数,表示为:
Figure PCTCN2019115079-appb-000030
这里E(·)表示欧式距离。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
根据本申请实施例的另一个方面,还提供了一种用于实施上述自然语言描述信息的生成方法的自然语言描述信息的生成装置,如图8所示,该装置包括:
处理模块82,用于通过多个自然语言描述模型分别对媒体资源进行处理,获得各个自然语言描述模型输出的第一特征向量,所述各个自然语言描述模型输出的第一特征向量对应不同特征类型;
融合模块84,用于对各个自然语言描述模型输出的第一特征向量进行融合,得到第二特征向量;
生成模块86,用于根据第二特征向量生成目标自然语言描述信息,其中,目标自然语言描述信息用于通过自然语言表示媒体资源。
作为一种可选的方案,处理模块包括:
第一获取单元,用于获取媒体资源,并确定媒体资源所包括的资源块;
第一输入单元,用于将资源块作为输入信息输入多个自然语言描述模型中每个自然语言描述模型;
生成单元,用于通过多个自然语言描述模型中的每个自然语言描述模型分别生成一个第一特征向量,其中,一个第一特征向量包括资源块对应的第一特征。
作为一种可选的方案,媒体资源包括多个资源块,其中,生成单元包括:
处理子单元,用于通过每个自然语言描述模型包括的特征提取模型对多个资源块进行处理,其中,特征提取模型用于从各个资源块中提取第一特征,得到多个第一特征;
获取子单元,用于获取多个资源块的顺序信息,其中,顺序信息用于指示多个资源块在媒体资源中的顺序;
编码子单元,用于使用顺序信息对多个第一特征进行顺序编码,得到第一特征向量。
作为一种可选的方案,所述每个自然语言描述模型包括多个特征提取模型,每个所述特征提取模型对应不同特征类型,处理子单元用于:
将多个资源块输入每个自然语言描述模型包括的各个特征提取模型,获取每个所述特征提取模型输出的一组第二特征,得到多组第二特征,多组第二特征中的每组第二特征包括多个与多个资源块具有对应关系的特征;
将多组第二特征中与同一资源块对应的特征融合为一个特征,得到多个第一特征。
作为一种可选的方案,编码子单元用于:
将第一特征按照顺序输入到顺序编码器;
利用顺序编码器生成时序特征向量;
通过注意力机制模型对时序特征向量进行处理,得到多个第三特征,其中,注意力机制模型用于根据每个资源块与资源特征之间的相关度确定每个资源块对应的加权特征;
通过每个自然语言描述模型包括的解码器模型对多个第三特征进行处理,其中,解码器模型用于根据多个第三特征生成第一特征向量。
作为一种可选的方案,媒体资源包括多个资源块,多个第一特征向量中每个第一特征向量包括与多个资源块一一对应的多个第四特征,其中,融合模块包括:
提取单元,用于从多个第一特征向量中提取出与多个资源块一一对应的多个特征集合,其中,多个特征集合中每个特征集合包括多个资源块中一个资源块在多个第一特征向量中对应的第四特征;
第二获取单元,用于获取多个特征集合中每个特征集合的平均特征,得到与多个资源块一一对应的多个平均特征;
确定单元,用于将包括多个平均特征的特征向量确定为第二特征向量。
作为一种可选的方案,媒体资源包括第一数量的资源块,第二特征向量包括与第一数量的资源块对应的第一数量的特征,其中,生成模块包括:
处理单元,用于通过目标函数对第一数量的特征进行处理,得到使得目标函数最大化的第二数量的单词,其中,目标函数为获得单词概率分布的函数;
整合单元,用于将第二数量的单词整合为语句,并将语句确定为目标自然语言描述信息。
作为一种可选的方案,上述装置还包括:
第一训练模块,用于使用资源样本对多个初始自然语言描述模型中的每个模型进行训练,得到多个第一损失函数满足第一预设条件的第一模型,其中,第一损失函数是根据多个初始自然语言描述模型中的每个模型配置的损失函数;
第二训练模块,用于使用资源样本对多个联合模型中的每个联合模型进行训练,得到多个第二损失函数满足第二预设条件的第二模型,其中,多个联合模型中的每个联合模型为一个第一模型与一个重构器模型级联得到的模型,重构器模型用于根据第一模型输出的描述结果重构出资源样本的特征,第二损失函数是根据每个联合模型配置的损失函数;
第三训练模块,用于对多个第二模型进行训练,得到评价参数满足第三预设条件的多个自然语言描述模型。
作为一种可选的实施例,上述自然语言描述信息的生成方法可以但不限于应用于如图9所示的为视频资源生成自然语言描述信息的场景中。在本场景中,提出了一种基于视频时序信息和多尺度融合的视频片段描述信息生成方法。本方法可用于云端对数据库中的视频片段生成自然语言段落描述。本方法可以通过神经网络完成视频片段特征的融合、提取和重构,时序信息的编码以及自然语言描述的生成。
在本场景中,图像编码器对视频片段中的每一帧图像提取卷积神经网络特征,之后利用循环神经网络(时序编码器)对特征进行进一步处理,得到包括视频片段时序信息的图像特征表达。利用非线性网络对该阶段提取的包括时序 信息的图像特征表达进一步处理,得到携带有重点帧信息的视频片段特征表达。接着利用循环神经网络(解码器)对该视频片段特征表达进行自然语言描述的生成,并根据该阶段生成的描述,利用另一个循环神经网络(重构器)重构出输入视频的特征。通过减小重构的视频特征与原始视频特征的差异约束自然语言描述的生成。再通过强化学习算法中的“自我评判”结构,进一步训练该描述生成网络。最终,将多个已经训练好的网络在单词预测端进行融合,生成更准确的视频片段描述。通过上述过程,能对视频片段生成准确的自然语言描述,从而可以有效地对视频片段进行理解和分析。
在本场景中,利用卷积神经网络把同一视频片段特征的不同类型特征进行融合,融合特征的好处是能够同时利用不同特征中的互补语义信息。利用循环神经网络处理时序数据的能力构造了一个时序编码器,时序编码器对编码器生成的图像特征进一步处理,将视频时序信息编码到图像特征中,充分利用视频序列提供的时序信息。利用循环神经网络搭建重构器,目的是获得训练数据中的后向语义信息。利用强化学习算法中的“自我评判”结构进行训练,直接优化人们关心的指标,有助于性能进一步提升。对于多个已经训练好的模型,应用时将多个模型的预测端进行融合,利用不同模型各自的特性为视频片段生成更加准确的自然语言描述。
采用上述方式可以提供视频内容理解服务,在后台服务器,编码器对视频的每一帧图像进行不同类型的特征提取,并进行特征融合。接着该融合后的特征经过时序编码器的处理得到嵌入了视频时序信息的高级图像特征序列,并通过解码器得到自然语言描述。同时,通过重构器网络将该自然语言描述重构为输入的视频特征。整个过程利用强化学习算法中的“自我评判”结构进行训练。最终对于已训练好的多个模型,在其预测端进行融合,用于生成自然语言描述。可以部署在视频类网站用于视频的分类、查阅以及快速检索。
在一个可选的实施方式中,如图9所示,对于使用上述方案训练得到的多个模型,由于用于训练模型的特征种类以及数量不同,每个模型性能各有侧重,这导致多个模型对同一个视频片段生成描述是不同的。融合多个模型生成同一个自然语言描述,可以同时利用不同模型不同侧重的优势,使得描述更加准确。 在应用时将解码器预测端进行融合,每一时刻共同产生一个单词。
在同一时刻,多个模型的解码器状态融合如下:
Figure PCTCN2019115079-appb-000031
s t=max(SoftMax(h t))
对同一时刻的不同解码器状态求均值,
Figure PCTCN2019115079-appb-000032
表示第k个模型在t时刻的解码器状态,q表示模型的个数。对于平均后的解码器状态h t再通过SoftMax函数求得单词表的概率分布,进而得到t时刻的单词s t。在t+1时刻,s t将作为多个模型解码器的共同输入。
通过上述过程,能够有效地同时获取多种特征的信息,视频片段中的时序信息,以及视频片段与自然语言描述之间的双向信息,同时能利用多个模型进行自然语言描述生成,有效提高了现有的视频描述能力,并能将生成的视频描述用于视频的分类、查阅以及快速检索,具有潜在的经济效益。
除了上述的视频描述信息的生成方式,其他的在视频描述生成方式中融合多种视频特征,用循环神经网络编码视频时序信息以及融合多种已训练模型并用于提高视频描述准确性的方法也在本实施例的保护范围之内。
根据本申请实施例的又一个方面,还提供了一种用于实施上述自然语言描述信息的生成方法的电子装置,如图10所示,该电子装置包括:一个或多个(图中仅示出一个)处理器1002、存储器1004、传感器1006、编码器1008以及传输装置1010,该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,通过多个自然语言描述模型分别对媒体资源进行处理,获得各个自 然语言描述模型输出的第一特征向量,所述各个自然语言描述模型输出的第一特征向量对应不同特征类型
S2,对各个自然语言描述模型输出的第一特征向量进行融合,得到第二特征向量;
S3,根据第二特征向量生成目标自然语言描述信息,其中,目标自然语言描述信息用于通过自然语言表示媒体资源。
可选地,本领域普通技术人员可以理解,图10所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示不同的配置。
其中,存储器1002可用于存储软件程序以及模块,如本申请实施例中的自然语言描述信息的生成方法和装置对应的程序指令/模块,处理器1004通过运行存储在存储器1002内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的目标组件的控制方法。存储器1002可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1002可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置1010用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1010包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1010为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器1002用于存储应用程序。
本申请的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,通过多个自然语言描述模型分别对媒体资源进行处理,获得各个自然语言描述模型输出的第一特征向量,所述各个自然语言描述模型输出的第一特征向量对应不同特征类型;
S2,对各个自然语言描述模型输出的第一特征向量进行融合,得到第二特征向量;
S3,根据第二特征向量生成目标自然语言描述信息,其中,目标自然语言描述信息用于通过自然语言表示媒体资源。
可选地,存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序,本实施例中对此不再赘述。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例 中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (15)

  1. 一种自然语言描述信息的生成方法,应用于服务器,包括:
    通过多个自然语言描述模型分别对媒体资源进行处理,获得各个自然语言描述模型输出的第一特征向量,所述各个自然语言描述模型输出的第一特征向量对应不同特征类型;
    对所述各个自然语言描述模型输出的第一特征向量进行融合,得到第二特征向量;
    根据所述第二特征向量生成目标自然语言描述信息,其中,所述目标自然语言描述信息用于通过自然语言表示所述媒体资源。
  2. 根据权利要求1所述的方法,所述通过多个自然语言描述模型分别对媒体资源进行处理,获得各个自然语言描述模型输出的第一特征向量包括:
    获取所述媒体资源,并确定所述媒体资源所包括的资源块;
    将所述资源块作为输入信息输入所述多个自然语言描述模型中每个自然语言描述模型;
    通过所述多个自然语言描述模型中的所述每个自然语言描述模型分别生成一个第一特征向量,其中,所述一个第一特征向量包括所述资源块对应的第一特征。
  3. 根据权利要求2所述的方法,所述媒体资源包括多个所述资源块,其中,利用所述多个自然语言描述模型中的所述每个自然语言描述模型生成一个第一特征向量包括:
    通过所述每个自然语言描述模型包括的特征提取模型对多个所述资源块进行处理,其中,所述特征提取模型用于从各个所述资源块中提取所述第一特征,得到多个所述第一特征;
    获取多个所述资源块的顺序信息,其中,所述顺序信息用于指示多个所述资源块在所述媒体资源中的顺序;
    使用所述顺序信息对多个所述第一特征进行顺序编码,得到所述第一特征向量。
  4. 根据权利要求3所述的方法,所述每个自然语言描述模型包括多个特征提取模型,每个所述特征提取模型对应不同特征类型,所述通过所述每个自然 语言描述模型包括的特征提取模型对多个所述资源块进行处理包括:
    将多个所述资源块输入所述每个自然语言描述模型包括的各个特征提取模型,获取每个所述特征提取模型输出的一组第二特征,得到多组第二特征,所述多组第二特征中的每组第二特征包括与每个所述资源块一一对应的特征;
    将所述多组第二特征中与同一资源块对应的特征融合为一个特征,得到多个所述第一特征。
  5. 根据权利要求3所述的方法,使用所述顺序信息对多个所述第一特征进行顺序编码,得到所述第一特征向量包括:
    将所述第一特征按照所述顺序输入到顺序编码器;
    利用所述顺序编码器生成时序特征向量;
    通过注意力机制模型对所述时序特征向量进行处理,得到多个第三特征,其中,所述注意力机制模型用于根据每个资源块与资源特征之间的相关度确定每个资源块对应的加权特征;
    通过所述每个自然语言描述模型包括的解码器模型对所述多个第三特征进行处理,其中,所述解码器模型用于根据所述多个第三特征生成所述第一特征向量。
  6. 根据权利要求1所述的方法,所述媒体资源包括多个资源块,所述多个第一特征向量中每个第一特征向量包括与多个所述资源块一一对应的多个第四特征,其中,对所述多个第一特征向量进行融合,得到第二特征向量包括:
    从所述多个第一特征向量中提取出与多个所述资源块一一对应的多个特征集合,其中,所述多个特征集合中每个特征集合包括多个所述资源块中一个资源块在所述多个第一特征向量中对应的第四特征;
    获取所述多个特征集合中每个特征集合的平均特征,得到与多个所述资源块一一对应的多个平均特征;
    将包括所述多个平均特征的特征向量确定为所述第二特征向量。
  7. 根据权利要求1所述的方法,所述媒体资源包括第一数量的资源块,所述第二特征向量包括与所述第一数量的资源块对应的第一数量的特征,其中,根据所述第二特征向量生成目标自然语言描述信息包括:
    通过目标函数对所述第一数量的特征进行处理,得到使得所述目标函数最 大化的第二数量的单词,其中,所述目标函数为获得单词概率分布的函数;
    将所述第二数量的单词整合为语句,并将所述语句确定为所述目标自然语言描述信息。
  8. 根据权利要求1所述的方法,在通过多个自然语言描述模型对媒体资源进行处理,得到多个第一特征向量之前,所述方法还包括:
    使用资源样本对多个初始自然语言描述模型中的每个模型进行训练,得到多个第一损失函数满足第一预设条件的第一模型,其中,所述第一损失函数是根据所述多个初始自然语言描述模型中的所述每个模型配置的损失函数;
    使用所述资源样本对多个联合模型中的每个联合模型进行训练,得到多个第二损失函数满足第二预设条件的第二模型,其中,所述多个联合模型中的每个联合模型为一个所述第一模型与一个重构器模型级联得到的模型,所述重构器模型用于根据所述第一模型输出的描述结果重构出所述资源样本的特征,所述第二损失函数是根据所述每个联合模型配置的损失函数;
    对所述多个第二模型进行训练,得到评价参数满足第三预设条件的多个自然语言描述模型。
  9. 一种自然语言描述信息的生成装置,包括:
    处理模块,用于通过多个自然语言描述模型分别对媒体资源进行处理,获得各个自然语言描述模型输出的第一特征向量,所述各个自然语言描述模型输出的第一特征向量对应不同特征类型;
    融合模块,用于对所述各个自然语言描述模型输出的第一特征向量进行融合,得到第二特征向量;
    生成模块,用于根据所述第二特征向量生成目标自然语言描述信息,其中,所述目标自然语言描述信息用于通过自然语言表示所述媒体资源。
  10. 根据权利要求9所述的装置,所述处理模块包括:
    第一获取单元,用于获取所述媒体资源,并确定所述媒体资源所包括的资源块;
    第一输入单元,用于将所述资源块作为输入信息输入所述多个自然语言描述模型中每个自然语言描述模型;
    生成单元,用于通过所述多个自然语言描述模型中的所述每个自然语言描 述模型分别生成一个第一特征向量,其中,所述一个第一特征向量包括所述资源块对应的第一特征。
  11. 根据权利要求9所述的装置,所述媒体资源包括多个资源块,每个所述第一特征向量包括与多个所述资源块一一对应的多个第四特征,其中,所述融合模块包括:
    提取单元,用于从所述多个第一特征向量中提取出与多个所述资源块一一对应的多个特征集合,其中,所述多个特征集合中每个特征集合包括多个所述资源块中一个资源块在所述多个第一特征向量中对应的第四特征;
    第二获取单元,用于获取所述多个特征集合中每个特征集合的平均特征,得到与多个所述资源块一一对应的多个平均特征;
    确定单元,用于将包括所述多个平均特征的特征向量确定为所述第二特征向量。
  12. 根据权利要求9所述的装置,所述媒体资源包括第一数量的资源块,所述第二特征向量包括与所述第一数量的资源块对应的第一数量的特征,其中,所述生成模块包括:
    处理单元,用于通过目标函数对所述第一数量的特征进行处理,得到使得所述目标函数最大化的第二数量的单词,其中,所述目标函数为获得单词概率分布的函数;
    整合单元,用于将所述第二数量的单词整合为语句,并将所述语句确定为所述目标自然语言描述信息。
  13. 根据权利要求9所述的装置,所述装置还包括:
    第一训练模块,用于使用资源样本对多个初始自然语言描述模型中的每个模型进行训练,得到多个第一损失函数满足第一预设条件的第一模型,其中,所述第一损失函数是根据所述多个初始自然语言描述模型中的所述每个模型配置的损失函数;
    第二训练模块,用于使用所述资源样本对多个联合模型中的每个联合模型进行训练,得到多个第二损失函数满足第二预设条件的第二模型,其中,所述多个联合模型中的每个联合模型为一个所述第一模型与一个重构器模型级联得到的模型,所述重构器模型用于根据所述优化后模型输出的描述结果重构出 所述资源样本的特征,所述第二损失函数是根据所述每个联合模型配置的损失函数;
    第三训练模块,用于对所述多个第二模型进行训练,得到评价参数满足第三预设条件的多个自然语言描述模型。
  14. 一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。
  15. 一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。
PCT/CN2019/115079 2018-11-23 2019-11-01 自然语言描述信息的生成方法及装置 WO2020103674A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP19886674.1A EP3885966B1 (en) 2018-11-23 2019-11-01 Method and device for generating natural language description information
US17/183,127 US11868738B2 (en) 2018-11-23 2021-02-23 Method and apparatus for generating natural language description information

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811409084.9A CN109871736B (zh) 2018-11-23 2018-11-23 自然语言描述信息的生成方法及装置
CN201811409084.9 2018-11-23

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/183,127 Continuation US11868738B2 (en) 2018-11-23 2021-02-23 Method and apparatus for generating natural language description information

Publications (1)

Publication Number Publication Date
WO2020103674A1 true WO2020103674A1 (zh) 2020-05-28

Family

ID=66916992

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/115079 WO2020103674A1 (zh) 2018-11-23 2019-11-01 自然语言描述信息的生成方法及装置

Country Status (4)

Country Link
US (1) US11868738B2 (zh)
EP (1) EP3885966B1 (zh)
CN (1) CN109871736B (zh)
WO (1) WO2020103674A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871736B (zh) * 2018-11-23 2023-01-31 腾讯科技(深圳)有限公司 自然语言描述信息的生成方法及装置
CN110225368B (zh) * 2019-06-27 2020-07-10 腾讯科技(深圳)有限公司 一种视频定位方法、装置及电子设备
US11375204B2 (en) * 2020-04-07 2022-06-28 Nokia Technologies Oy Feature-domain residual for video coding for machines
CN111639547B (zh) * 2020-05-11 2021-04-30 山东大学 基于生成对抗网络的视频描述方法及系统
CN114881715A (zh) * 2021-02-05 2022-08-09 阿里巴巴集团控股有限公司 文本生成方法及装置
CN113742815B (zh) * 2021-08-02 2024-06-04 上海建工四建集团有限公司 一种ifc子模型融合方法
CN113723072A (zh) * 2021-08-25 2021-11-30 北京来也网络科技有限公司 Rpa结合ai的模型融合结果获取方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845443A (zh) * 2017-02-15 2017-06-13 福建船政交通职业学院 基于多特征融合的视频火焰检测方法
CN107256221A (zh) * 2017-04-26 2017-10-17 苏州大学 基于多特征融合的视频描述方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN109871736A (zh) * 2018-11-23 2019-06-11 腾讯科技(深圳)有限公司 自然语言描述信息的生成方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6763148B1 (en) * 2000-11-13 2004-07-13 Visual Key, Inc. Image recognition methods
US20140278957A1 (en) * 2013-03-13 2014-09-18 Deja.io, Inc. Normalization of media object metadata
CN103854016B (zh) * 2014-03-27 2017-03-01 北京大学深圳研究生院 基于方向性共同发生特征的人体行为分类识别方法及系统
US20160267396A1 (en) * 2015-03-09 2016-09-15 Skytree, Inc. System and Method for Using Machine Learning to Generate a Model from Audited Data
CN107040568B (zh) 2016-09-28 2018-07-13 平安科技(深圳)有限公司 标识信息生成方法和装置
CN106599198B (zh) * 2016-12-14 2021-04-06 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106778926A (zh) * 2016-12-23 2017-05-31 深圳市唯特视科技有限公司 一种基于视觉注意模型的图像文字描述方法
CN107918782B (zh) * 2016-12-29 2020-01-21 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
US10417498B2 (en) * 2016-12-30 2019-09-17 Mitsubishi Electric Research Laboratories, Inc. Method and system for multi-modal fusion model
EP3610414A4 (en) * 2017-04-10 2020-11-18 Hewlett-Packard Development Company, L.P. IMAGE SEARCH BY AUTOMATIC LEARNING
CN107766894B (zh) * 2017-11-03 2021-01-22 吉林大学 基于注意力机制和深度学习的遥感图像自然语言生成方法
CN108647705B (zh) * 2018-04-23 2019-04-05 北京交通大学 基于图像和文本语义相似度的图像语义消歧方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845443A (zh) * 2017-02-15 2017-06-13 福建船政交通职业学院 基于多特征融合的视频火焰检测方法
CN107256221A (zh) * 2017-04-26 2017-10-17 苏州大学 基于多特征融合的视频描述方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN109871736A (zh) * 2018-11-23 2019-06-11 腾讯科技(深圳)有限公司 自然语言描述信息的生成方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3885966A4

Also Published As

Publication number Publication date
EP3885966A4 (en) 2022-01-26
EP3885966A1 (en) 2021-09-29
US11868738B2 (en) 2024-01-09
EP3885966B1 (en) 2024-02-28
US20210174031A1 (en) 2021-06-10
CN109871736A (zh) 2019-06-11
CN109871736B (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
WO2020103674A1 (zh) 自然语言描述信息的生成方法及装置
JP7179183B2 (ja) ビデオキャプションの生成方法、装置、デバイスおよびコンピュータプログラム
US11783199B2 (en) Image description information generation method and apparatus, and electronic device
US11934454B2 (en) Video processing method and apparatus, video retrieval method and apparatus, storage medium, and server
EP3745305B1 (en) Video description generation method and device, video playing method and device, and storage medium
CN107861938B (zh) 一种poi文案生成方法及装置,电子设备
WO2020177673A1 (zh) 一种视频序列选择的方法、计算机设备及存储介质
WO2023273769A1 (zh) 视频标签推荐模型的训练方法和确定视频标签的方法
JP2023545543A (ja) 情報生成方法、装置、コンピュータ機器、記憶媒体及びコンピュータプログラム
CN109919221B (zh) 基于双向双注意力机制图像描述方法
CN110751649A (zh) 视频质量评估方法、装置、电子设备及存储介质
CN113766299B (zh) 一种视频数据播放方法、装置、设备以及介质
CN112989212B (zh) 媒体内容推荐方法、装置和设备及计算机存储介质
CN112200041A (zh) 视频动作识别方法、装置、存储介质与电子设备
CN115293348A (zh) 一种多模态特征提取网络的预训练方法及装置
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN113761280A (zh) 媒体数据处理方法、装置、电子设备及计算机存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
US20220327663A1 (en) Video Super-Resolution using Deep Neural Networks
CN114386569A (zh) 一种使用胶囊网络的新型图像描述生成算法
US20200321026A1 (en) Method and apparatus for generating video
Chen et al. Generative Multi-Modal Mutual Enhancement Video Semantic Communications.
CN117729391A (zh) 一种视频分割方法、装置、计算机设备、介质及产品
CN116980645A (zh) 摘要视频片段生成方法、装置、计算机设备和存储介质
CN116962600A (zh) 字幕内容的显示方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19886674

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019886674

Country of ref document: EP

Effective date: 20210623