WO2019011185A1 - 一种会话信息处理方法、装置、电子设备 - Google Patents

一种会话信息处理方法、装置、电子设备 Download PDF

Info

Publication number
WO2019011185A1
WO2019011185A1 PCT/CN2018/094783 CN2018094783W WO2019011185A1 WO 2019011185 A1 WO2019011185 A1 WO 2019011185A1 CN 2018094783 W CN2018094783 W CN 2018094783W WO 2019011185 A1 WO2019011185 A1 WO 2019011185A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
processed
session
processed voice
decoration
Prior art date
Application number
PCT/CN2018/094783
Other languages
English (en)
French (fr)
Inventor
周琪
Original Assignee
阿里巴巴集团控股有限公司
周琪
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 阿里巴巴集团控股有限公司, 周琪 filed Critical 阿里巴巴集团控股有限公司
Publication of WO2019011185A1 publication Critical patent/WO2019011185A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • H04L51/043Real-time or near real-time messaging, e.g. instant messaging [IM] using or handling presence information

Definitions

  • the embodiment of the present specification belongs to the technical field of information data processing, and in particular, to a session information processing method, device, and electronic device.
  • voice chat is one of the most common and important chat modes for current users, and the two or more parties interact with each other through audio as the information carrier. Because of the carrier characteristics of the audio information itself, the language information in the voice chat can be directly read like the text text, and the information content is quickly perceived through the visual.
  • the audio information needs to be played to know its specific information content or meaning. For example, in the conversation interface shown in FIG. 1, the language information of the voice chat is displayed in a single strip style in the session, and the user needs to pass Click to play the voice message to get its meaning.
  • the audio information displayed in the session interface is equivalent to a black box, and the user does not know the information content of the expression at all, and usually needs to play and listen by clicking the audio information. Therefore, there is a need for a voice information content display method that is more intuitive, more interesting, and has a better user experience.
  • the embodiment of the present specification aims to provide a method, a device, and an electronic device for processing session information, which can additionally describe or decorate an audio message body by analyzing keywords or emotional information in the audio, so that the content of the audio information can be visually Show up, improve chat fun and improve user experience.
  • the method, device, and electronic device for processing session information provided by the embodiments of the present disclosure are implemented as follows:
  • a session information processing method comprising:
  • the rendered display carrier is displayed.
  • a session information processing method comprising:
  • the rendered display carrier is displayed.
  • a session information processing method comprising:
  • the to-be-processed voice information Obtaining the to-be-processed voice information, and identifying the information content of the to-be-processed voice information, where the information content includes at least one of keyword information included in the to-be-processed voice information and emotion information to be processed by the to-be-processed voice information;
  • the rendered display carrier is displayed.
  • a session information processing method comprising:
  • the to-be-processed session information and identifying the information content of the to-be-processed session information, where the information content includes at least one of keyword information included in the session information to be processed and emotion information to be processed by the session information to be processed;
  • the rendered display carrier is displayed.
  • a session information processing apparatus comprising:
  • An emotion recognition module configured to acquire the to-be-processed voice information, and identify the information content of the to-be-processed voice information, where the information content includes at least the emotion information expressed by the to-be-processed voice information;
  • a decoration matching module configured to acquire decoration configuration information that matches the information content
  • a rendering module configured to render the display carrier of the to-be-processed voice information by using the decoration configuration information
  • An effect display module configured to display the rendered display carrier.
  • a session information processing apparatus comprising:
  • a keyword identification module configured to acquire the to-be-processed voice information, and identify the information content of the to-be-processed voice information, where the information content includes at least the keyword information included in the to-be-processed voice information;
  • a decoration matching module configured to acquire decoration configuration information that matches the information content
  • a rendering module configured to render the display carrier of the to-be-processed voice information by using the decoration configuration information
  • An effect display module configured to display the rendered display carrier.
  • a session information processing apparatus comprising:
  • the information content identification module is configured to obtain the to-be-processed voice information, and identify the information content of the to-be-processed voice information, where the information content includes at least the keyword information included in the to-be-processed voice information and the emotion information expressed by the to-be-processed voice information.
  • a decoration matching module configured to acquire decoration configuration information that matches the information content
  • a rendering module configured to render the display carrier of the to-be-processed voice information by using the decoration configuration information
  • An effect display module configured to display the rendered display carrier.
  • a session information processing apparatus comprising:
  • the information content identification module is configured to obtain the information about the session to be processed, and identify the information content of the session information to be processed, where the information content includes at least the keyword information included in the session information to be processed and the emotion information expressed by the session information to be processed.
  • a decoration matching module configured to acquire decoration configuration information that matches the identified information content
  • a rendering module configured to render the display carrier of the to-be-processed session information by using the decoration configuration information
  • An effect display module configured to display the rendered display carrier.
  • a session information processing apparatus includes a processor and a memory for storing processor-executable instructions, the processor implementing the instructions to:
  • the to-be-processed session information and identifying the information content of the to-be-processed session information, where the information content includes at least one of keyword information included in the session information to be processed and emotion information to be processed by the session information to be processed;
  • the rendered display carrier is displayed.
  • An electronic device comprising at least one processor and a memory in which a user stores processor-executable instructions, the processor implementing the instructions to:
  • the to-be-processed session information and identifying the information content of the to-be-processed session information, where the information content includes at least one of keyword information included in the session information to be processed and emotion information to be processed by the session information to be processed;
  • the rendered display carrier is displayed.
  • a session information processing method, apparatus, and electronic device may acquire voice information to be processed, and identify emotion information expressed by the voice information to be processed. Then, the corresponding decoration configuration information may be retrieved according to the information content including the emotion content, and then the display carrier (for example, the audio information bar) of the to-be-processed voice information is rendered and displayed by using the decoration configuration information.
  • the display carrier for example, the audio information bar
  • the display carrier is rendered and displayed, not only can express or partially express the content of the voice information, but also increase the interest of the voice information chat.
  • the audio message body can be additionally described or decorated by analyzing the hot words or feelings in the audio, so that the content of the audio information can be visually displayed, the chat interest is improved, and the user experience is improved.
  • 1 is a schematic diagram showing a body of a voice information message in an existing session interface
  • FIG. 2 is a schematic flowchart of an embodiment of a method for processing session information provided by the present specification
  • FIG. 3 is a schematic diagram of a scenario of an embodiment of a method according to an embodiment of the present disclosure
  • FIG. 4 is a schematic diagram of another embodiment of a method according to an embodiment of the present specification.
  • FIG. 5 is a schematic diagram of another embodiment of a method according to an embodiment of the present disclosure.
  • FIG. 6 is a schematic flow chart of a method of another embodiment of the method provided by the present specification.
  • FIG. 7 is a schematic diagram of a process flow in an application scenario of another embodiment of the method provided by the present specification.
  • FIG. 8 is a schematic flow chart of a method of another embodiment of the method provided by the present specification.
  • FIG. 9 is a schematic structural diagram of a module of an embodiment of a session information processing apparatus provided by the present specification.
  • FIG. 10 is a schematic structural diagram of another embodiment of a session information processing apparatus provided by the present specification.
  • FIG. 11 is a block diagram showing the structure of an embodiment of the keyword recognition module in the apparatus provided in the present specification.
  • FIG. 12 is a block diagram showing the structure of another embodiment of the apparatus provided in the present specification.
  • Figure 13 is a block diagram showing the structure of another embodiment of the apparatus provided in the present specification.
  • FIG. 14 is a schematic structural diagram of an electronic device provided by the present specification.
  • FIG. 2 is a schematic flowchart diagram of an embodiment of a method for processing session information provided by the present specification.
  • the present specification provides method operation steps or device structures as shown in the following embodiments or figures, there may be more or partial merged fewer operational steps in the method or device based on conventional or no inventive labor. Or module unit.
  • the execution order of the steps or the module structure of the device is not limited to the execution order or the module structure shown in the embodiment or the drawings.
  • the device, server or terminal product of the method or module structure When the device, server or terminal product of the method or module structure is applied, it may be executed sequentially or in parallel according to the method or module structure shown in the embodiment or the drawing (for example, parallel processor or multi-thread processing). Environment, even including distributed processing, server cluster implementation environment).
  • the embodiments provided by the embodiments of the present specification can be used in various terminal devices having a session function, such as a mobile intelligent terminal, an in-vehicle device, a personal computer (PC), a wearable device, a server of a business system, and the like.
  • the terminal device may be installed or configured with an instant messaging application, a temporary session, and the like.
  • the implementation provided by the embodiment of the present disclosure may be used in a session application scenario based on the foregoing terminal device.
  • the embodiment of the present specification can perform keyword or emotion recognition on the voice information, and then display it on the audio information display carrier.
  • the method may include: analyzing the single or multiple pieces of voice information, and determining the sentiment of the voice information sender according to the recognition algorithm.
  • the display medium style of the audio information can be re-rendered (for example, changing the color of the message body, adding an Emoji expression head, etc.), thereby greatly improving chat interest and user experience, and performing content information content of the audio information.
  • Display or partial display for example, as shown in FIG. 2, in an embodiment of a method for processing session information provided by the present specification, the method may include:
  • S2 Acquire the to-be-processed voice information, and identify the information content of the to-be-processed voice information, where the information content includes at least the emotion information expressed by the to-be-processed voice information.
  • the user can obtain the voice information as the to-be-processed voice information for performing session information processing in this embodiment.
  • the voice information input by the user may be further processed by the processing, and then displayed in the session interface together with the decoration configuration information as shown below, or the message body of the piece of voice information may be displayed first (here may be referred to as containing the voice information) Display the carrier, such as the audio information bar in the session interface, and then render the message body to display the animation effect.
  • the information content in the to-be-processed voice information may be identified, where the identified information may include at least the emotion information expressed by the to-be-processed voice information.
  • the identified emotional information may be specifically represented by a feature word or an identifier, such as "happy", “sad”, “surprise”, and the like.
  • the manner of identifying the sentiment information in the to-be-processed voice information may be processed by using various algorithms or models.
  • the analysis processing of the language information may include extracting audio information features, and the recognition of the speaker's emotions, such as joy, anger, and the like.
  • the information content of the to-be-processed voice information may include:
  • S20 Extract audio feature data of the to-be-processed voice information, input the audio feature data into a pre-constructed emotion recognition model, and determine, by the emotion recognition model, an emotion category to which the to-be-processed voice information belongs.
  • a feature signal such as speech rate, pitch, frequency, etc.
  • the feature information can be modeled, and the model is trained through multiple samples to optimize the model.
  • the model training can be used as a classifier to classify the emotions reflected by the newly input audio signal of the to-be-processed voice information, and determine the emotion information expressed by the to-be-processed voice information, such as “joy” and “anger”.
  • the emotion recognition model may include an algorithm that can identify the emotion classification to which the audio information belongs by using the selected recognition algorithm or the network model after training through the sample data. For example, a KNN (k-Nearest Neighbor) classification algorithm, or a deep neural network/convolution neural network and a neural network after the transformation/variation can be selected.
  • KNN k-Nearest Neighbor
  • the extracted audio feature data includes at least one of biometric emotional feature data and mood characteristic data of the to-be-processed speech information.
  • the emotion characteristic data of the creature may include emotions such as anger, anger, sadness, joy, etc.
  • the tone feature data may include feature data in a tone state such as a question, a statement, a question, a sigh, and the like.
  • the extracted audio feature data may include feature data that may reflect the emotional aspect of the person, such as reflecting the emotion of the person based on the speech rate, pitch, frequency, etc., in a specific example, such as fast speech rate and high pitch. It can be reflected that the spokesperson’s mood is relatively high. Conversely, a slow speech rate and a low pitch can reflect the low sentiment of the spokesperson.
  • the tone feature data may also be obtained from the grammatical point of view as audio feature data.
  • the voice information to be processed to determine whether the speaker is doubt or sigh can also be combined to judge the inventor's emotion through the extracted tonal feature data and the subject-predicate order.
  • the corresponding type of audio feature data to be extracted may be set according to an application environment or a data processing requirement or the like.
  • a decoration configuration database may be preset, and the decoration configuration database may store decoration configuration information for decorating a display carrier of audio information, such as discoloration of an audio information strip.
  • the decoration configuration database may be set in a local terminal, such as a server local storage, or a client local storage, or may be stored in a remote server. In this way, after acquiring the information content in the to-be-processed voice information, the decoration configuration information matching the identified information content may be acquired from the decoration configuration database.
  • the information content may include emotion information.
  • the identified information content may include multiple or more emotional information, such as "happy”, “like”, “surprise”, etc., which tend to be positive positive emotion categories. Therefore, in one or more embodiments provided by the present specification, the recognition results of the identified plurality of emotion information may be combined and converted into corresponding request parameters.
  • the corresponding decoration configuration information can be retrieved through unified and standardized request parameters.
  • the obtaining the decoration configuration information that matches the identified information content may include:
  • the above “happy”, “like”, “surprise” can be merged into request parameters including two emotional categories “happy” and “surprise”, and then one or two corresponding ones can be matched from the decoration configuration database.
  • Decorative configuration information Certainly, in other implementation manners, the information of the foregoing three emotion categories may be combined into one request parameter “happy” according to the set processing rule, and the decoration configuration information of “happy” is retrieved according to the request parameter.
  • the decoration configuration information described in the embodiments of the present specification may include, but is not limited to, a text description, an Emoji expression, a background color, an animation effect, and the like.
  • An emotional information or an emotional information or a request parameter may correspond to one or more decorative configuration information, and may be set with a corresponding mapping relationship, such as "happy” emotions may correspond to "happy 1", “happy 2", “happy” 3" three decoration configuration information, which decoration configuration information is used, can be executed in order or randomly or in other defined manners.
  • the decoration configuration information may include at least one of the following:
  • the interest of the session can be greatly increased, and the presentation manner of a single voice information bar can be changed.
  • the set decoration configuration information is associated with and matched with the expressed emotion information in the voice information, and the content of the voice information may be displayed or partially displayed by the decoration configuration information, thereby improving the user experience.
  • S6 The display carrier of the to-be-processed voice information is rendered by using the decoration configuration information.
  • the display carrier can be rendered by using the decoration configuration information.
  • the display carrier may include, for example, an audio information strip, and may also include other message carriers in the session interface for indicating that the information content sent by the user is voice information, such as an audio information strip, an audio information box, and audio information. Windows, audio symbols, etc.
  • the audio information window may include a window for playing the audio information by the individual user. For example, after the user inputs the voice information, the audio information window may be popped up at a specified position of the session interface or separately for playing the voice information.
  • the configuration information is decorated to render the audio information window.
  • the display carrier may also be an audio symbol or other form, such as a speaker audio match, a button labeled "voice", a "voice” character, and the like. Therefore, in other embodiments of the method, the display carrier may include:
  • At least one of an audio information strip, an audio information window, and an audio symbol At least one of an audio information strip, an audio information window, and an audio symbol.
  • the rendered display carrier can be displayed in a session interface.
  • the animation information is rendered by using the decoration configuration information to present an animation effect of “rainbow transformation”.
  • an animation effect can be set in the preset position of the display carrier, as shown in FIG. 3, which is a schematic diagram of an embodiment of the method in the embodiment of the present specification.
  • FIG. 3 when the user is identified as "question” according to the voice information input by the user, a short animation of "three question marks" can be played on the right side of the audio information bar, and each question mark symbol can be popped up at predetermined intervals.
  • the decoration configuration information may include a deformation animation effect of the display carrier.
  • FIG. 4 is a schematic diagram of another embodiment of a method according to an embodiment of the present specification.
  • the audio information bar of the voice information 1 input by the user may be set to “rainbow transformation” of a plurality of color-specified frequency conversions.
  • the animation effect presents an atmosphere of joy that corresponds to the emotion expressed by the voice information input by the user.
  • the emotion information is identified as "sadness”
  • the "folly" decoration assembly information of the blue and purple slower frequency conversion can be used, as shown in FIG.
  • FIG. 5 is a schematic diagram of another embodiment of a method according to an embodiment of the present specification.
  • a session information processing method provided by one or more embodiments of the present disclosure may acquire voice information to be processed and identify emotion information expressed by the voice information to be processed. Then, the corresponding decoration configuration information may be retrieved according to the information content including the emotion content, and then the display carrier (for example, the audio information bar) of the to-be-processed voice information is rendered and displayed by using the decoration configuration information.
  • the display carrier for example, the audio information bar
  • the audio message body can be additionally described or decorated by analyzing the emotional information in the audio, so that the content of the audio information can be visually displayed, the chat interest is improved, and the user experience is improved.
  • the voice information content may also be identified from the dimension of the keyword information included in the voice information, and then matched according to the information content including the keyword.
  • Corresponding decoration configuration information is further displayed on the presentation interface after rendering the display carrier of the voice information.
  • FIG. 6 is a schematic flowchart of a method of another embodiment of the method provided by the present specification.
  • the method may include:
  • S120 Acquire the to-be-processed voice information, and identify the information content of the to-be-processed voice information, where the information content includes at least the keyword information included in the to-be-processed voice information;
  • S140 Acquire decoration configuration information that matches the identified information content
  • S160 The display carrier of the to-be-processed voice information is rendered by using the decoration configuration information
  • the to-be-processed voice information is not processed, and the voice-to-word processing is performed, and the generated text is extracted according to rules (such as extracting network hot words or syntactic elements such as subject-predicate).
  • the identifying the information content of the to-be-processed voice information may include:
  • the keywords may include pre-screened words (eg, network popular vocabulary), and the words may be stored in a preset vocabulary.
  • pre-screened words eg, network popular vocabulary
  • the words may be stored in a preset vocabulary.
  • the algorithm for extracting keywords can be implemented by string search.
  • the specific algorithms can include full search, KMP (an improved string matching algorithm, proposed by DEKnuth, JHMorris and VRPratt), Boyer More (a character Classical algorithms such as string matching algorithms).
  • the identifying the information content of the to-be-processed voice information may also include:
  • the extracted keyword is identified based on a grammatical element such as a subject-predicate of the converted text.
  • the embodiment of the present invention may further include other embodiments in the embodiment, in a specific embodiment,
  • the obtaining the decoration configuration information that matches the identified information content may include:
  • the obtaining the decoration configuration information that is matched based on the request parameter may include:
  • a session information processing method provided by one or more embodiments of the present disclosure may acquire voice information to be processed, convert the to-be-processed voice information into text information, and extract keywords in the text information. Then, the corresponding decoration configuration information may be retrieved according to the information content including the keyword, and then the display carrier (for example, the audio information bar) of the to-be-processed voice information is rendered and displayed by using the decoration configuration information.
  • the corresponding decoration configuration information is used to render the display carrier, and the content of the voice information can be expressed or partially expressed, and the interest of the voice information chat is also increased.
  • the audio message body can be additionally described or decorated by analyzing keywords in the audio, so that the content of the audio information can be visually displayed, the chat interest is improved, and the user experience is improved.
  • the implementation manner of the keyword information and the emotion information based on the to-be-processed voice information may be combined to identify the to-be-processed from at least one of the two dimensions.
  • the information content of the voice message is then matched with the decoration configuration information, and the message carrier is rendered and displayed.
  • the keyword information in the to-be-processed voice information and the expressed emotion information can be simultaneously identified. Therefore, in one session information processing method provided by one or more embodiments of the present specification, the method includes:
  • the to-be-processed voice information Obtaining the to-be-processed voice information, and identifying the information content of the to-be-processed voice information, where the information content includes at least one of keyword information included in the to-be-processed voice information and emotion information to be processed by the to-be-processed voice information;
  • the rendered display carrier is displayed.
  • the to-be-processed voice information when the information about the to-be-processed voice information includes the keyword information included in the to-be-processed voice information and the emotion information expressed by the voice information to be processed, the to-be-processed
  • the recognition results of the keyword information and the emotion information in the voice information are combined to generate a request parameter.
  • the obtaining the decoration configuration information that matches the information content comprises acquiring the decoration configuration information matched according to the request parameter.
  • FIG. 7 is a schematic flowchart of processing in an application scenario of another embodiment of the method provided by the present specification.
  • the combination of the recognition of the keywords in the to-be-processed voice information and the recognition result of the emotion information can optimize the content of the identified information content, and can match the more accurate matching with the decoration configuration information of the content of the to-be-processed voice information, thereby improving the display effect. To improve the user experience.
  • the processed data object may not be limited to voice information, and other implementation scenarios may also include information such as text, image, or video.
  • information content of at least one of keyword information and expressed emotion information in the characters, images or videos can be identified, and then based on the recognition The information content matches the corresponding decoration configuration information, and the presentation carrier of the session information is rendered and displayed in the session interface. Therefore, the present specification further provides a session information processing method, and the method may include:
  • S220 Acquire the to-be-processed session information, and identify the information content of the to-be-processed session information, where the information content includes at least one of keyword information included in the to-be-processed session information and emotion information to be processed by the session information to be processed;
  • S240 Acquire decoration configuration information that matches the identified information content
  • S260 The display carrier of the to-be-processed session information is rendered by using the decoration configuration information
  • FIG. 8 is a schematic flow chart of a method of another embodiment of the method provided by the present specification.
  • the description of the method for processing the voice data processing method may also include other implementation manners.
  • the specific implementation manners may refer to the description of the related method embodiments, and will not be described herein. .
  • the session information processing method provided in the embodiments of the present disclosure can be used not only for the processing of voice information, but also for the rendered message body, including text text, video, and the like.
  • the implementation of the problem is similar to the processing of the foregoing voice information. Therefore, the specific implementation of the embodiment of the present specification can be referred to the implementation of the foregoing voice information processing method, and the repeated description is not repeated.
  • a session information processing method provided by one or more embodiments of the present disclosure may acquire voice information to be processed, and identify emotion information expressed by the voice information to be processed. Then, the corresponding decoration configuration information may be retrieved according to the information content including the emotion content, and then the display carrier (for example, the audio information bar) of the to-be-processed voice information is rendered and displayed by using the decoration configuration information.
  • the display carrier for example, the audio information bar
  • the audio message body can be additionally described or decorated by analyzing the hot words or feelings in the audio, so that the content of the audio information can be visually displayed, the chat interest is improved, and the user experience is improved.
  • one or more embodiments of the present specification further provide a session information processing apparatus.
  • the apparatus may include a system (including a distributed system), software (applications), modules, components, servers, clients, etc., using the methods described in the embodiments of the present specification, in conjunction with necessary implementation hardware.
  • the apparatus in one or more embodiments provided by the embodiments of the present specification is as described in the following embodiments.
  • the term "unit” or "module” may implement a combination of software and/or hardware of a predetermined function.
  • FIG. 9 is a schematic structural diagram of a module of an embodiment of a session information processing apparatus provided in this specification. As shown in FIG. 9, the apparatus may include:
  • the emotion recognition module 101 may be configured to acquire the to-be-processed voice information, and identify the information content of the to-be-processed voice information, where the information content includes at least the emotion information expressed by the to-be-processed voice information;
  • the decoration matching module 102 can be configured to obtain decoration configuration information that matches the information content
  • the rendering module 103 can be configured to render the display carrier of the to-be-processed voice information by using the decoration configuration information;
  • the effect display module 104 can be used to display the rendered display carrier.
  • the emotion recognition module 101 may include:
  • An emotion recognition model unit configured to extract audio feature data of the to-be-processed voice information, input the audio feature data into a pre-built emotion recognition model, and determine, by the emotion recognition model, the to-be-processed voice information The emotional category.
  • the extracted audio feature data includes at least one of emotional characteristic data and mood characteristic data of the biological information of the to-be-processed voice information.
  • FIG. 10 is a schematic structural diagram of another embodiment of a session information processing apparatus provided in this specification. As shown in FIG. 10, the apparatus may include:
  • the keyword identification module 201 may be configured to acquire the to-be-processed voice information, and identify the information content of the to-be-processed voice information, where the information content includes at least the keyword information included in the to-be-processed voice information;
  • the decoration matching module 202 can be configured to obtain decoration configuration information that matches the information content
  • the rendering module 203 is configured to render the display carrier of the to-be-processed voice information by using the decoration configuration information;
  • the effect display module 204 can be used to display the rendered display carrier.
  • the emotion recognition module 201 may include:
  • the text conversion unit 2011 can be configured to convert the to-be-processed voice information into text text.
  • the lexicon matching unit 2012 can be configured to match the text text with keywords in the preset vocabulary, and extract the included keyword information.
  • the keyword identification module 201 may include:
  • the text conversion unit 2011 can be configured to convert the to-be-processed voice information into text text.
  • the grammar matching unit 2013 may be configured to convert the to-be-processed voice information into text text, and extract keywords in the text text according to the used text grammar rules.
  • the keyword identifying apparatus may be configured to include the lexicon matching unit and the grammar matching unit, and use one or two of the methods to identify keywords in the voice information.
  • FIG. 11 is a block diagram showing the structure of an embodiment of the keyword recognition module in the apparatus provided in the present specification.
  • the above-mentioned device based on keyword or emotion recognition in the voice information may further include other embodiments.
  • the device may further include:
  • the feature merging unit may be configured to combine the recognition result of the keyword information or the emotion information in the to-be-processed voice information to generate a request parameter;
  • the decoration matching module can match the decoration configuration information based on the request parameter.
  • the decoration configuration information may include at least one of the following:
  • the display carrier may include:
  • At least one of an audio information bar, an audio information window, and an audio match At least one of an audio information bar, an audio information window, and an audio match.
  • a processing module including a recognition module for identifying keywords in the voice information and an emotion module for recognizing the expression of the voice information may be provided.
  • the apparatus may identify the information content of the voice information to be processed based on any one of the modules or using the two modules described above. Accordingly, the present specification also provides an embodiment of another session information processing apparatus, which may include:
  • the information content identification module 301 is configured to obtain the to-be-processed voice information, and identify the information content of the to-be-processed voice information, where the information content includes at least the keyword information included in the to-be-processed voice information, and the emotion expressed by the to-be-processed voice information.
  • the decoration matching module 302 can be configured to obtain decoration configuration information that matches the information content
  • the rendering module 303 can be configured to render the display carrier of the to-be-processed voice information by using the decoration configuration information;
  • the effect display module 304 can be used to display the rendered display carrier.
  • Figure 12 is a block diagram showing the structure of another embodiment of the apparatus provided in the present specification. As shown in FIG. 12, in another embodiment of the session information processing apparatus, if the processing method of the voice information keyword and the emotion information is used, the apparatus may further include:
  • the feature merging unit 305 may be configured to combine the keyword information and the recognition result of the emotion information in the to-be-processed voice information to generate a request parameter.
  • the decoration matching module 302 can match the decoration configuration information based on the request parameter.
  • a session information processing apparatus may acquire voice information to be processed and identify emotion information expressed by the voice information to be processed. Then, the corresponding decoration configuration information may be retrieved according to the information content including the emotion content, and then the display carrier (for example, the audio information bar) of the to-be-processed voice information is rendered and displayed by using the decoration configuration information.
  • the display carrier for example, the audio information bar
  • the audio message body can be additionally described or decorated by analyzing the hot words or feelings in the audio, so that the content of the audio information can be visually displayed, the chat interest is improved, and the user experience is improved.
  • the identified information source may further include text, images, video, etc., and may identify keywords or emotion information included in session information such as text or video, and then match corresponding Decorate configuration information to render the message body.
  • FIG. 13 is a block diagram of another embodiment of the apparatus provided by the present specification, and the apparatus may include:
  • the information content identification module 401 may be configured to obtain the to-be-processed session information, and identify the information content of the to-be-processed session information, where the information content includes at least the keyword information included in the to-be-processed session information, and the emotion expressed by the session information to be processed.
  • the decoration matching module 402 is configured to obtain decoration configuration information that matches the identified information content
  • the rendering module 403 is configured to render the display carrier of the to-be-processed session information by using the decoration configuration information
  • the effect display module 404 can be used to display the rendered display carrier.
  • the description of the voice data processing method embodiment may further include other implementation manners, and the implementation solution of the problem is similar to the processing of the foregoing voice information, and therefore the present specification is for specific implementations of the multiple embodiments, reference may be made to the implementation of the foregoing voice information processing method, and the repeated description is not repeated.
  • the foregoing session information processing method or apparatus provided by the embodiments of the present specification may be implemented by a processor executing a corresponding program instruction in a computer, such as using a C++ language of a Windows operating system on a PC side, or other programs such as using an android or iOS system.
  • the design language is implemented in intelligent terminals, as well as processing logic based on quantum computers.
  • Another embodiment of a session information processing apparatus provided by the present specification may include a processor and a memory for storing processor-executable instructions, when the processor executes the instructions:
  • the to-be-processed voice information Obtaining the to-be-processed voice information, and identifying the information content of the to-be-processed voice information, where the information content includes at least one of keyword information included in the to-be-processed voice information and emotion information to be processed by the to-be-processed voice information;
  • the rendered display carrier is displayed.
  • processors and memory for storing processor-executable instructions are implemented, the processor implementing the instructions to:
  • the to-be-processed session information and identifying the information content of the to-be-processed session information, where the information content includes at least one of keyword information included in the session information to be processed and emotion information to be processed by the session information to be processed;
  • the rendered display carrier is displayed.
  • the to-be-processed session information may include at least one of voice information, text information, image information, and video information.
  • a session information processing apparatus provided in an embodiment of the present disclosure can acquire voice information to be processed and identify emotion information expressed by the voice information to be processed. Then, the corresponding decoration configuration information may be retrieved according to the information content including the emotion content, and then the display carrier (for example, the audio information bar) of the to-be-processed voice information is rendered and displayed by using the decoration configuration information.
  • the display carrier for example, the audio information bar
  • the display carrier is rendered and displayed, not only can express or partially express the content of the voice information, but also increase the interest of the voice information chat.
  • the audio message body can be additionally described or decorated by analyzing the hot words or feelings in the audio, so that the content of the audio information can be visually displayed, the chat interest is improved, and the user experience is improved.
  • the method or device described above can be used in a plurality of electronic devices having a session function, such as a mobile intelligent terminal, an in-vehicle device, a PC (personal computer), a smart wearable device, a server of a business system, etc.
  • the message display carrier performs secondary rendering to improve the chat interest and improve the user experience.
  • the present specification provides an electronic device, as shown in FIG. 14, which may include at least one processor and a memory in which a user stores processor-executable instructions, when the processor executes the instructions:
  • the to-be-processed session information and identifying the information content of the to-be-processed session information, where the information content includes at least one of keyword information included in the session information to be processed and emotion information to be processed by the session information to be processed;
  • the rendered display carrier is displayed.
  • the to-be-processed session information may include at least one of voice information, text information, image information, and video information.
  • voice information may include at least one of voice information, text information, image information, and video information.
  • other types of pending session information may be included according to different data sources, and the specific information may be determined according to actual session scenarios.
  • the device or the electronic device described in the foregoing description may further include other embodiments according to the description of the related method embodiments.
  • the various embodiments in the specification are described in a progressive manner, and the same or similar parts between the various embodiments may be referred to each other, and each embodiment focuses on the differences from the other embodiments.
  • the description is relatively simple, and the relevant parts can be referred to the description of the method embodiment.
  • a session information processing method, apparatus, and electronic device may acquire voice information to be processed, and identify emotion information expressed by the voice information to be processed. Then, the corresponding decoration configuration information may be retrieved according to the information content including the emotion content, and then the display carrier (for example, the audio information bar) of the to-be-processed voice information is rendered and displayed by using the decoration configuration information.
  • the display carrier for example, the audio information bar
  • the display carrier is rendered and displayed, not only can express or partially express the content of the voice information, but also increase the interest of the voice information chat.
  • the audio message body can be additionally described or decorated by analyzing the hot words or feelings in the audio, so that the content of the audio information can be visually displayed, the chat interest is improved, and the user experience is improved.
  • embodiments of the present specification are not limited to being necessarily in accordance with industry communication standards, standard computer data processing and storage rules, or as described in one or more embodiments of the specification.
  • Certain industry standards or implementations that have been modified in a manner that uses a custom approach or an embodiment described above may also achieve the same, equivalent, or similar, or post-deformation implementation effects of the above-described embodiments.
  • Embodiments obtained by applying these modified or modified data acquisition, storage, judgment, processing methods, etc. may still fall within the scope of alternative embodiments of the embodiments of the present specification.
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • HDL Hardware Description Language
  • the controller can be implemented in any suitable manner, for example, the controller can take the form of, for example, a microprocessor or processor and a computer readable medium storing computer readable program code (eg, software or firmware) executable by the (micro)processor.
  • computer readable program code eg, software or firmware
  • examples of controllers include, but are not limited to, the following microcontrollers: ARC 625D, Atmel AT91SAM, The Microchip PIC18F26K20 and the Silicone Labs C8051F320, the memory controller can also be implemented as part of the memory's control logic.
  • the controller can be logically programmed by means of logic gates, switches, ASICs, programmable logic controllers, and embedding.
  • a controller can be considered a hardware component, and the means for implementing various functions included therein can also be considered as a structure within the hardware component.
  • a device for implementing various functions can be considered as a software module that can be both a method of implementation and a structure within a hardware component.
  • the system, device, module or unit illustrated in the above embodiments may be implemented by a computer chip or an entity, or by a product having a certain function.
  • a typical implementation device is a computer.
  • the computer can be, for example, a personal computer, a laptop computer, a car-mounted human-machine interaction device, a cellular phone, a camera phone, a smart phone, a personal digital assistant, a media player, a navigation device, an email device, a game console, a tablet.
  • each module may be implemented in the same software or software and/or hardware when implementing one or more of the specification, or the modules implementing the same function may be implemented by a plurality of sub-modules or a combination of sub-units, etc. .
  • the device embodiments described above are merely illustrative.
  • the division of the unit is only a logical function division.
  • there may be another division manner for example, multiple units or components may be combined or integrated. Go to another system, or some features can be ignored or not executed.
  • the mutual coupling or direct coupling or communication connection shown or discussed may be an indirect coupling or communication connection through some interface, device or unit, and may be electrical, mechanical or otherwise.
  • the controller can be logically programmed by means of logic gates, switches, ASICs, programmable logic controllers, and embedding.
  • the computer program instructions can also be stored in a computer readable memory that can direct a computer or other programmable data processing device to operate in a particular manner, such that the instructions stored in the computer readable memory produce an article of manufacture comprising the instruction device.
  • the apparatus implements the functions specified in one or more blocks of a flow or a flow and/or block diagram of the flowchart.
  • These computer program instructions can also be loaded onto a computer or other programmable data processing device such that a series of operational steps are performed on a computer or other programmable device to produce computer-implemented processing for execution on a computer or other programmable device.
  • the instructions provide steps for implementing the functions specified in one or more of the flow or in a block or blocks of a flow diagram.
  • a computing device includes one or more processors (CPUs), input/output interfaces, network interfaces, and memory.
  • processors CPUs
  • input/output interfaces network interfaces
  • memory volatile and non-volatile memory
  • the memory may include non-persistent memory, random access memory (RAM), and/or non-volatile memory in a computer readable medium, such as read only memory (ROM) or flash memory.
  • RAM random access memory
  • ROM read only memory
  • Memory is an example of a computer readable medium.
  • Computer readable media includes both permanent and non-persistent, removable and non-removable media.
  • Information storage can be implemented by any method or technology.
  • the information can be computer readable instructions, data structures, modules of programs, or other data.
  • Examples of computer storage media include, but are not limited to, phase change memory (PRAM), static random access memory (SRAM), dynamic random access memory (DRAM), other types of random access memory (RAM), read only memory.
  • PRAM phase change memory
  • SRAM static random access memory
  • DRAM dynamic random access memory
  • RAM random access memory
  • ROM read only memory
  • EEPROM electrically erasable programmable read only memory
  • flash memory or other memory technology
  • compact disk read only memory CD-ROM
  • DVD digital versatile disk
  • Magnetic cassette tape magnetic tape storage
  • graphene storage or other magnetic storage devices or any other non-transportable media
  • computer readable media does not include temporary storage of computer readable media, such as modulated data signals and carrier waves.
  • one or more embodiments of the present specification can be provided as a method, system, or computer program product.
  • one or more embodiments of the present specification can take the form of an entirely hardware embodiment, an entirely software embodiment or a combination of software and hardware.
  • one or more embodiments of the present specification can employ a computer program embodied on one or more computer usable storage media (including but not limited to disk storage, CD-ROM, optical storage, etc.) having computer usable program code embodied therein. The form of the product.
  • One or more embodiments of the present specification can be described in the general context of computer-executable instructions executed by a computer, such as a program module.
  • program modules include routines, programs, objects, components, data structures, and the like that perform particular tasks or implement particular abstract data types.
  • One or more embodiments of the present specification can also be practiced in distributed computing environments where tasks are performed by remote processing devices that are connected through a communication network.
  • program modules can be located in both local and remote computer storage media including storage devices.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本说明书实施例公开了一种会话信息处理方法、装置、电子设备。所述方法包括:可以获取待处理语音信息,识别所述待处理语音信息表达的情绪信息。然后可以根据包括所述情绪内容的信息内容调取相应的装饰配置信息,进而利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染,例如音频信息条,然后展示渲染后的音频信息条。

Description

一种会话信息处理方法、装置、电子设备 技术领域
本说明书实施例属于信息数据处理技术领域,尤其涉及一种会话信息处理方法、装置、电子设备。
背景技术
随着互联网和智能终端的快速发展,用户聊天交互的方式也多种多样。如即时通讯软件中的文本、语音、视频聊天等。
其中,语音聊天是当前用户常用也较为重要的聊天方式之一,主要通过音频为信息载体进行双方或多方的信息交互。因为音频信息自身的载体特性,语音聊天中的语言信息不像文本文字一样可以直接阅读,通过视觉快速感知信息内容。在会话聊天中需要播放出音频信息才能知道其具体的信息内容或含义,例如图1中所示的会话界面中,语音聊天的语言信息在会话中展示的是单一的条状样式,用户需要通过点击播放该语音信息来获取其含义。对于用户来说,展示在会话界面中的音频信息相当于一个黑盒子,用户完全不知道其表述的信息内容,通常需要通过点击音频信息进行播放收听。因此,需要一种语音信息内容展示更直观、趣味性更高、用户体验更好的会话信息处理方式。
发明内容
本说明书实施例目的在于提供一种会话信息处理方法、装置、电子设备,可以通过分析音频内的关键词或者感情信息,对音频消息体进行额外的描述或装饰,让音频信息的内容可以从视觉上展示,提高聊天趣味性,提高用户体验。
本说明书实施例提供的一种会话信息处理方法、装置、电子设备是包括如下的方式实现的:
一种会话信息处理方法,所述方法包括:
获取待处理语音信息,识别所述待处理语音信息的信息内容,所述信息内容至少包括所述待处理语音信息表达的情绪信息;
获取与所述信息内容相匹配的装饰配置信息;
利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染;
展示所述渲染后的展示载体。
一种会话信息处理方法,所述方法包括:
获取待处理语音信息,识别所述待处理语音信息的信息内容,所述信息内容至少包括.待处理语音信息中包含的关键词信息;
获取与所述信息内容相匹配的装饰配置信息;
利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染;
展示所述渲染后的展示载体。
一种会话信息处理方法,所述方法包括:
获取待处理语音信息,识别所述待处理语音信息的信息内容,所述信息内容至少包括待处理语音信息中包含的关键词信息、待处理语音信息表达的情绪信息中的一种;
获取与所述信息内容相匹配的装饰配置信息;
利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染;
展示所述渲染后的展示载体。
一种会话信息处理方法,所述方法包括:
获取待处理会话信息,识别所述待处理会话信息的信息内容,所述信息内容至少包括待处理会话信息中包含的关键词信息、待处理会话信息表达的情绪信息中的一种;
获取与识别出的所述信息内容相匹配的装饰配置信息;
利用所述装饰配置信息对所述待处理会话信息的展示载体进行渲染;
展示所述渲染后的展示载体。
一种会话信息处理装置,所述装置包括:
情绪识别模块,用于获取待处理语音信息,识别所述待处理语音信息的信息内容,所述信息内容至少包括所述待处理语音信息表达的情绪信息;
装饰匹配模块,用于获取与所述信息内容相匹配的装饰配置信息;
渲染模块,用于利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染;
效果展示模块,用于展示所述渲染后的展示载体。
一种会话信息处理装置,所述装置包括:
关键词识别模块,用于获取待处理语音信息,识别所述待处理语音信息的信息内容,所述信息内容至少包括所述待处理语音信息包含的关键词信息;
装饰匹配模块,用于获取与所述信息内容相匹配的装饰配置信息;
渲染模块,用于利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染;
效果展示模块,用于展示所述渲染后的展示载体。
一种会话信息处理装置,所述装置包括:
信息内容识别模块,用于获取待处理语音信息,识别所述待处理语音信息的信息内容,所述信息内容至少包括待处理语音信息中包含的关键词信息、待处理语音信息表达的情绪信息中的一种;
装饰匹配模块,用于获取与所述信息内容相匹配的装饰配置信息;
渲染模块,用于利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染;
效果展示模块,用于展示所述渲染后的展示载体。
一种会话信息处理装置,所述装置包括:
信息内容识别模块,用于获取待处理会话信息,识别所述待处理会话信息的信息内容,所述信息内容至少包括待处理会话信息中包含的关键词信息、待处理会话信息表达的情绪信息中的一种;
装饰匹配模块,用于获取与识别出的所述信息内容相匹配的装饰配置信息;
渲染模块,用于利用所述装饰配置信息对所述待处理会话信息的展示载体进行渲染;
效果展示模块,用于展示所述渲染后的展示载体。
一种会话信息处理装置,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取待处理会话信息,识别所述待处理会话信息的信息内容,所述信息内容至少包括待处理会话信息中包含的关键词信息、待处理会话信息表达的情绪信息中的一种;
获取与识别出的所述信息内容相匹配的装饰配置信息;
利用所述装饰配置信息对所述待处理会话信息的展示载体进行渲染;
展示所述渲染后的展示载体。
一种电子设备,包括至少一个处理器以及用户存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取待处理会话信息,识别所述待处理会话信息的信息内容,所述信息内容至少包括待处理会话信息中包含的关键词信息、待处理会话信息表达的情绪信息中的一种;
获取与识别出的所述信息内容相匹配的装饰配置信息;
利用所述装饰配置信息对所述待处理会话信息的展示载体进行渲染;
展示所述渲染后的展示载体。
本说明书一个或多个实施例提供的一种会话信息处理方法、装置、电子设备,可以获取待处理语音信息,识别所述待处理语音信息表达的情绪信息。然后可以根据包括所述情绪内容的信息内容调取相应的装饰配置信息,进而利用所述装饰配置信息对所述待处理语音信息的展示载体(例如音频信息条)进行渲染后进行展示。这样根据语音信息表达的情感对展示载体进行渲染后展示,不仅可以表达或部分表达了语音信息的内容,还增加了语音信息聊天时的趣味性。利用本说明书实施例提供的实施方案,可以通过分析音频内热词或者感情, 对音频消息体进行额外的描述或装饰,让音频信息的内容可以从视觉上展示,提高聊天趣味性,提高用户体验。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是现有会话界面中一种展示语音信息消息体的示意图;
图2是本说明书提供的所述一种会话信息处理方法实施例的流程示意图;
图3是本说明书实施例所述方法的一个实施例场景示意图;
图4是本说明书实施例所述方法的另一个实施例场景示意图;
图5是本说明书实施例所述方法的另一个实施例场景示意图;
图6是本说明书提供的所述方法另一个实施例的方法流程示意图;
图7是本说明书提供的所述方法的另一个实施例应用场景中的处理流程示意图;
图8是本说明书提供的所述方法另一种实施例的方法流程示意图;
图9是本说明书提供的一种会话信息处理装置实施例的模块结构示意图;
图10是本说明书提供的另一种会话信息处理装置实施例的模块结构示意图;
图11是本说明书提供的所述装置中所述关键词识别模块一个实施例的模块结构示意图;
图12是本说明书提供的所述装置的另一个实施例的模块结构示意图;
图13是本说明书提供的所述装置的另一个实施例的模块结构示意图;
图14是本说明书提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是说明书一部分实施例,而不是全部的实施例。基于说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书实施例方案保护的范围。
图2是本说明书提供的所述一种会话信息处理方法实施例的流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置、服务器或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。
本说明书实施例提供的实施方案可以用于多种具有会话功能的终端装置中,如移动智能终端、车载设备、PC(personal computer,个人电脑)、穿戴设备、业务系统的服务器等。所述的终端装置可以安装或构建有即时通讯应用、临时会话等,本说明书实施例提供的实施方案可以用于包括基于上述终端装置的会话应用场景中。本说明书实施例可以通过对语音信息进行关键词或情感识别,然后展示在音频信息展示载体上。具体的可以包括通过对单条或多条语音信息进行分析,根据识别算法,判断语音信息发送方的情绪。然后可以根据情绪信息,对音频信息的展示载体样式进行二次渲染(如:改变消息体颜色,添加Emoji表情头等),大大提高聊天趣味性和用户体验,并可以对音频信息的表达信息内容进行展示或部分展示。具体的一个实施例如图2所示,本说明书提供的一 种会话信息处理方法的一种实施例中,所述方法可以包括:
S2:获取待处理语音信息,识别所述待处理语音信息的信息内容,所述信息内容至少包括所述待处理语音信息表达的情绪信息。
在本实施例中,用户在会话界面中输入一段语音信息后,可以获取该语音信息,作为本实施例进行会话信息处理的待处理语音信息。用户输入的语音信息可以先由于处理进行进一步处理后,如下述的利用装饰配置信息进行渲染后一同展示在会话界面中,也可以先展示该段语音信息的消息体(这里可以指包含语音信息的展示载体,如会话界面中的音频信息条),然后再对该消息体进行渲染后展示动画效果等。
本实施例应用场景中,获取待处理语音信息后,可以识别所述待处理语音信息中的信息内容,其中识别的信息内中可以至少包括所述待处理语音信息所表达的情绪信息。识别出的情绪信息具体的可以采用特征词或标识符来表示,如“高兴”、“悲伤”、“惊喜”等。所述待处理语音信息中情感信息的识别方式可以采用多种算法或模型进行处理。本实施例中,对语言信息的分析处理可以包括提取音频信息特征,可以通过识别算法,识别说话者的情绪,如喜悦、愤怒等。本说明书实施例提供所述方法的一个实施例中,所述识别所述待处理语音信息的信息内容可以包括:
S20:提取所述待处理语音信息的音频特征数据,将所述音频特征数据输入预先构建的情绪识别模型,通过所述情绪识别模型确定所述待处理语音信息所属的情绪类别。
具体的实现方式中,可以从数字化的音频信号中提取出特征信号,如语速、音调、频率等,可以对这些特征信息进行建模,通过多个样本进行模型训练,优化模型。模型训练完成后可以用来作为分类器,对新输入的待处理语音信息的音频信号反映出来的情绪进行分类,确定所述待处理语音信息表达的情绪信息,如“喜悦”、“愤怒”。所述的情绪识别模型可以包括采用选取的识别算法或网络模型经过样本数据训练后得到的可以识别音频信息所属情绪分类的算法。 例如可以选取KNN(k-NearestNeighbor,K最邻近)分类算法,或者深度神经网络/卷积神经网络及其变换/变种后的神经网络等。
本说明书提供的一个或多个实施例中,提取的所述音频特征数据包括所述待处理语音信息的生物的情感特征数据、语气特征数据中的至少一种。
所述的生物的情感特征数据可以包括生气、愤怒、悲伤、喜悦等情感,所述的语气特征数据可以包括疑问、陈述、反问、感叹等语气语态上的特征数据。在一个实施例中,提取音频特征数据可以包括可以反映人的情感方面的特征数据,如基于语速、音调、频率等反映出人的情绪,具体的一个示例中,如语速快、音调高可以反映发言人的情绪较为高涨,反之,语速慢、音调低可以反映发言人的情绪较为低落。其他的实施例中,也可以从语法的角度获取语气特征数据,作为音频特征数据。例如从.待处理语音信息中的来判断发言人是疑惑还是感叹。当然,也可以将上述两者结合,通过提取的音调特征数据以及主谓宾顺序判断发明人的情绪。具体的可以根据应用环境或数据处理需求等设置相应的所要提取的音频特征数据的种类。
S4:获取与所述信息内容相匹配的装饰配置信息。
本说明书的一个实施例中,可以预先设置装饰配置数据库,所述装饰配置数据库可以存储对音频信息的展示载体进行装饰的装饰配置信息,如音频信息条变色等。所述的装饰配置数据库可以设置在本地终端,如服务器本地存储,或者客户端本地存储,也可以存储在远程服务端中。这样,在获取所述待处理语音信息中的信息内容后,可以从所述装饰配置数据库中获取与识别出的所述信息内容相匹配的装饰配置信息。
本实施例应用场景中,所述信息内容可以包括情绪信息。一些实施例中,识别出的信息内容可以包括多个或多种情绪信息,如“高兴”、“喜欢”、“惊讶”等倾向于正向积极的情绪类别。因此,本说明书提供的一个或多个实施例中,可以对识别出的多个情绪信息的识别结果进行合并,转换成相应的请求参数。 可以通过统一、规范化的请求参数调取相应的装饰配置信息。具体的,一个实施例中,所述获取与识别出的所述信息内容相匹配的装饰配置信息可以包括:
S40:将所述待处理语音信息中情绪信息的识别结果进行合并,生成请求参数;
S42:获取基于所述请求参数匹配出的装饰配置信息。
如上述“高兴”、“喜欢”、“惊讶”可以合并为包括“happy”、“surprise”两个情绪类别的请求参数,然后可以从所述装饰配置数据库中匹配出一个或两个相对应的装饰配置信息。当然,其他的实施方式中,也可以根据设置的处理规则将上述三个情绪类别的信息合并为一个请求参数“happy”,根据该请求参数调取“happy”的装饰配置信息。
本说明书实施例所述的装饰配置信息可以包含(但不限于)文字描述、Emoji表情、背景颜色、动画效果等。一个情绪信息或一种情绪信息或一个请求参数可以对应一个或多个装饰配置信息,可以设置有相应的映射关系,如“高兴”的情绪可以对应“高兴1”、“高兴2”、“高兴3”三个装饰配置信息,具体的使用哪个装饰配置信息,可以按序或者随机或者其他定义的方式执行。
因此,本说明书的一个或多个实施例中,所述装饰配置信息可以包括下述中的至少一种:
文字描述、表情、变更背景颜色、在所述展示载体预设位置播放动画效果、所述展示载体的变形动画效果。
利用包括上述类型的装饰配置信息,可以大幅增加会话的趣味性,改变单一的语音信息条的展示方式。并且,设置的装饰配置信息与语音信息中的所表达的情绪信息相关联、匹配,可以通过所述装饰配置信息展示或部分展示出语音信息的内容,提高用户体验。
S6:利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染。
获取装饰配置信息后,可以利用所述装饰配置信息对展示载体进行渲染。 所说的展示载体,可以包括例如音频信息条的方式,也可以包括其他的在会话界面中用于表示用户发出的信息内容为语音信息的消息载体,如音频信息条、音频信息框、音频信息窗口、音频符号等。所述的音频信息窗口可以包括单独用户播放音频信息的窗口,例如,当用户输入语音信息后,可以在会话界面的指定位置或单独弹出音频信息窗口用于播放语音信息,此时可以利用所述装饰配置信息来渲染所述音频信息窗口。当然,所述展示载体也可以是音频符号或其他形式,如喇叭音频符合、标记有“语音”的按键、“voice”字符等。因此,所述方法的其他实施例中,所述展示载体可以包括:
音频信息条、音频信息窗口、音频符号中的至少一种。
S8:展示所述渲染后的展示载体。
可以在会话界面中展示所述渲染后的展示载体。例如利用所述装饰配置信息对语音信息条渲染后呈现“彩虹变换”的动画效果。
具体的一个实施场景中,可以设置在所述展示载体预设位置播放动画效果,如图3所示,图3是本说明书实施例所述方法的一个实施例场景示意图。在图3中,根据用户输入的语音信息识别出用户为“疑问”时,可以在音频信息条的水平右侧播放“三个问号”的短动画,每个问号符号可以间隔预定时间弹出。
另一个实施场景中,所述装饰配置信息可以包括所述展示载体的变形动画效果。如图4所示,图4是本说明书实施例所述方法的另一个实施例场景示意图。图4中,用户输入语音信息1后,识别出用户的情绪信息为“高兴”,则可以将该用户输入的语音信息1的音频信息条设置为多种颜色指定频率变换的“彩虹变换”的动画效果,呈现出喜悦的气氛,与用户输入的语音信息所表达的情绪相对应。相应的,如果识别出情绪信息为“悲伤”,则可以使用蓝色与紫色较慢频率变换的“忧郁”的装饰装配信息,如图5所示。图5是本说明书实施例所述方法的另一个实施例场景示意图。
本说明书一个或多个实施例提供的一种会话信息处理方法,可以获取待处 理语音信息,识别所述待处理语音信息表达的情绪信息。然后可以根据包括所述情绪内容的信息内容调取相应的装饰配置信息,进而利用所述装饰配置信息对所述待处理语音信息的展示载体(例如音频信息条)进行渲染后进行展示。这样根据语音信息表达的情感对展示载体进行渲染后展示,不仅可以表达或部分表达了语音信息的内容,还增加了语音信息聊天时的趣味性。利用本说明书实施例提供的实施方案,可以通过分析音频内的感情信息,对音频消息体进行额外的描述或装饰,让音频信息的内容可以从视觉上展示,提高聊天趣味性,提高用户体验。
本说明书一个或多个实施例提供的所述会话信息处理方法中,还可以从语音信息中包含的关键词信息这一维度来识别语音信息内容,然后根据包含所述关键词的信息内容匹配出相应的装饰配置信息,进一步的对语音信息的展示载体进行渲染后展示在会话界面中。具体的,如图6所示,图6是本说明书提供的所述方法另一个实施例的方法流程示意图。本说明书提供的所述方法的另一个实施例中,所述方法可以包括:
S120:获取待处理语音信息,识别所述待处理语音信息的信息内容,所述信息内容至少包括.待处理语音信息中包含的关键词信息;
S140:获取与识别出的所述信息内容相匹配的装饰配置信息;
S160:利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染;
S180:展示所述渲染后的展示载体。
具体的处理过程中,可以判断待处理语音信息未处理时,进行语音转文字处理,对生成的文本根据规则(如提取网络热词、或者主谓宾等句法元素)提取关键词。所述识别所述待处理语音信息的信息内容可以包括:
将所述待处理语音信息转换为文字文本;
将所述文字文本与预设词库中的关键词进行匹配,提取所包含的关键词信息。
所述的关键词可以包括提前筛选出来词语(如:网络流行词汇),这些词语可以存储在预设词库中。本说明书的一个实施例中,可以对语音进行文本转化后,判断文本中的词是否包含有所述预测词库中的关键词,如果有,则提取出该关键词。提取关键词的算法可以采用通过字符串搜索实现,具体的算法可以包括全搜、KMP(一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出)、Boyer More(一种字符串匹配算法)等经典算法。
其他的实施方式中,所述识别所述待处理语音信息的信息内容也可以包括:
将所述待处理语音信息转换为文字文本,根据采用的文本语法规则提取所述文字文本中的关键词。
例如根据转换后的文字文本的主谓宾等语法元素来识别提取关键词。
当然,参照前述基于识别.待处理语音中的情感信息的实施方式,本说明书中利用语音信息转换成文字文本后识别关键词的实施方式还可以包括其他的实施例,具体的一个实施例中,所述获取与识别出的所述信息内容相匹配的装饰配置信息可以包括:
将所述待处理语音信息中关键词信息的识别结果进行合并,生成请求参数;
获取基于所述请求参数匹配出的装饰配置信息。
以及,所述获取基于所述请求参数匹配出的装饰配置信息可以包括:
将所述请求参数在本地预设的装饰配置数据库中进行匹配,获取装饰配置信息;
或者,
向远程服务端发送所述请求参数,获取所述远程服务端根据所述请求参数匹配得到的装饰配置信息。
根据前述实施例描述,还可以包括其他更多实施方式,如所述装饰配置信息的种类等。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。具体的可以参照相关实施例的描述,在此不做一一赘述。
本说明书一个或多个实施例提供的一种会话信息处理方法,可以获取待处理语音信息,将所述待处理语音信息转换成文本信息,提取文本信息中的关键词。然后可以根据包括所述关键词的信息内容调取相应的装饰配置信息,进而利用所述装饰配置信息对所述待处理语音信息的展示载体(例如音频信息条)进行渲染后进行展示。这样根据语音信息所包含的关键词调取相应的装饰配置信息对展示载体进行渲染后展示,不仅可以表达或部分表达了语音信息的内容,还增加了语音信息聊天时的趣味性。利用本说明书实施例提供的实施方案,可以通过分析音频内的关键词,对音频消息体进行额外的描述或装饰,让音频信息的内容可以从视觉上展示,提高聊天趣味性,提高用户体验。
本说明书提供的所述方法的另一种实施例式中,可以将上述基于.待处理语音信息中的关键词信息、情绪信息的实施方式合并,从这两个维度中的至少一个识别待处理语音信息的信息内容,然后匹配出装饰配置信息,对消息载体渲染后展示。例如,可以同时识别待处理语音信息中的关键词信息和所表达的情绪信息。因此,本说明书的一个或多个实施例提供的一种会话信息处理方法中,所述方法包括:
获取待处理语音信息,识别所述待处理语音信息的信息内容,所述信息内容至少包括待处理语音信息中包含的关键词信息、待处理语音信息表达的情绪信息中的一种;
获取与识别出的所述信息内容相匹配的装饰配置信息;
利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染;
展示所述渲染后的展示载体。
本说明书一个或多个实施例中,当采用上述识别待处理语音信息中包括待处理语音信息中包含的关键词信息、待处理语音信息表达的情绪信息的信息内容时,可以将所述待处理语音信息中关键词信息、情绪信息的识别结果进行合并,生成请求参数。相应的,所述获取与所述信息内容相匹配的装饰配置信息 包括获取基于所述请求参数匹配出的装饰配置信息。如图7所示,图7是本说明书提供的所述方法的另一个实施例应用场景中的处理流程示意图。
这样,待处理语音信息中关键词的识别结合与情绪信息的识别结果进行合并,可以优化识别的信息内容结果,可以匹配更加准确的匹配符合.待处理语音信息内容的装饰配置信息,提高展示效果,提高用户体验。
进一步的,基于本说明书实施例的创新思想,在会话信息处理场景中,处理的数据对象可以不限于语音信息,其他的实施场景中也可以包括文字、图像或视频等信息。基于本说明书上述实施方案,在处理文字、图像或视频的会话信息时,可以识别这些文字、图像或视频中的关键词信息、所表达的情绪信息中的至少一种的信息内容,然后基于识别出的信息内容匹配相应的装饰配置信息,对会话信息的展示载体进行渲染后展示在会话界面中。因此,本说明书还提供一种会话信息处理方法,所述方法可以包括:
S220:获取待处理会话信息,识别所述待处理会话信息的信息内容,所述信息内容至少包括待处理会话信息中包含的关键词信息、待处理会话信息表达的情绪信息中的一种;
S240:获取与识别出的所述信息内容相匹配的装饰配置信息;
S260:利用所述装饰配置信息对所述待处理会话信息的展示载体进行渲染;
S280:展示所述渲染后的展示载体。
图8是本说明书提供的所述方法另一种实施例的方法流程示意图。同样的,上述所述的其他数据源的会话处理方法根据语音信息处理方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书实施例提供的会话信息处理方法不仅可以用于语音信息的处理,渲染的消息体还可以包括文本文字、视频等。其解决问题的实现方案与前述语音信息的处理相似,因此本说明书实施例具体的实施可以参见前述语音信息处 理方法的实施,重复之处不再赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书一个或多个实施例提供的一种会话信息处理方法,可以获取待处理语音信息,识别所述待处理语音信息表达的情绪信息。然后可以根据包括所述情绪内容的信息内容调取相应的装饰配置信息,进而利用所述装饰配置信息对所述待处理语音信息的展示载体(例如音频信息条)进行渲染后进行展示。这样根据语音信息表达的情感对展示载体进行渲染后展示,不仅可以表达或部分表达了语音信息的内容,还增加了语音信息聊天时的趣味性。利用本说明书实施例提供的实施方案,可以通过分析音频内热词或者感情,对音频消息体进行额外的描述或装饰,让音频信息的内容可以从视觉上展示,提高聊天趣味性,提高用户体验。
基于上述所述的会话信息处理方法,本说明书一个或多个实施例还提供一种会话信息处理装置。所述的装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参见前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。具体的,图9是本说明书提供的一种会话信息处理装置实施例的模块结构示意图,如图9所示,所 述装置可以包括:
情绪识别模块101,可以用于获取待处理语音信息,识别所述待处理语音信息的信息内容,所述信息内容至少包括所述待处理语音信息表达的情绪信息;
装饰匹配模块102,可以用于获取与所述信息内容相匹配的装饰配置信息;
渲染模块103,可以用于利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染;
效果展示模块104,可以用于展示所述渲染后的展示载体。
当然,参照前述方法实施例描述,所述装置的其他实施例中,所述情绪识别模块101可以包括:
情绪识别模型单元,可以用于提取所述待处理语音信息的音频特征数据,将所述音频特征数据输入预先构建的情绪识别模型,以及,通过所述情绪识别模型确定所述待处理语音信息所属的情绪类别。
以及另一个实施例中,提取的所述音频特征数据包括所述待处理语音信息的生物的情感特征数据、语气特征数据中的至少一种。
其他的装置实施例中,也可以通过识别语音信息中的关键词来匹配装饰配置信息。图10是本说明书提供的另一种会话信息处理装置实施例的模块结构示意图,如图10所示,所述装置可以包括:
关键词识别模块201,可以用于获取待处理语音信息,识别所述待处理语音信息的信息内容,所述信息内容至少包括所述待处理语音信息包含的关键词信息;
装饰匹配模块202,可以用于获取与所述信息内容相匹配的装饰配置信息;
渲染模块203,可以用于利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染;
效果展示模块204,可以用于展示所述渲染后的展示载体。
当然,参照前述方法实施例描述,所述装置的其他实施例中,所述情绪识别模块201可以包括:
文本转换单元2011,可以用于将所述待处理语音信息转换为文字文本;
词库匹配单元2012,可以用于将所述文字文本与预设词库中的关键词进行匹配,提取所包含的关键词信息。
所述一种会话信息处理装置其他的实施例中,所述关键词识别模块201可以包括:
文本转换单元2011,可以用于将所述待处理语音信息转换为文字文本;
语法匹配单元2013,可以用于将所述待处理语音信息转换为文字文本,根据使用的文本语法规则提取所述文字文本中的关键词。
当然,所述装置的其他实施例中,所述关键词识别装置可以设置包括所述词库匹配单元和所述语法匹配单元,使用其中一种或两种方式来来识别语音信息中的关键词。如图11所示,图11是本说明书提供的所述装置中所述关键词识别模块一个实施例的模块结构示意图。
根据前述相应方法实施例所述,上述所述基于语音信息中关键词或情绪识别的装置还可以包括其他的实施例。所述装置还可以包括:
特征合并单元,可以用于将所述待处理语音信息中关键词信息或情绪信息的识别结果进行合并,生成请求参数;
相应的,所述装饰匹配模块可以基于所述请求参数匹配装饰配置信息。
其他的实施例中,所述装饰配置信息可以包括下述中的至少一种:
文字描述、表情、变更背景颜色、在所述展示载体预设位置播放动画效果、所述展示载体的变形动画效果。以及其他的实施例中,所述展示载体可以包括:
音频信息条、音频信息窗口、音频符合中的至少一种。
所述装置的另一种实施例中,可以设置包括识别语音信息中的关键词的处理模块和识别语音信息表达的情绪信息的处理模块。所述装置可以基于其中任意一个模块或者使用上述两个模块来识别待处理语音信息的信息内容。因此,本说明书还提供另一个会话信息处理装置的实施例,所述装置可以包括:
信息内容识别模块301,可以用于获取待处理语音信息,识别所述待处理 语音信息的信息内容,所述信息内容至少包括待处理语音信息中包含的关键词信息、待处理语音信息表达的情绪信息中的一种;
装饰匹配模块302,可以用于获取与所述信息内容相匹配的装饰配置信息;
渲染模块303,可以用于利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染;
效果展示模块304,可以用于展示所述渲染后的展示载体。
图12是本说明书提供的所述装置的另一个实施例的模块结构示意图。如图12所示,另一种会话信息处理装置的实施例中,如果使用识别语音信息关键词和情绪信息的处理方式时,所述装置还可以包括:
特征合并单元305,可以用于将所述待处理语音信息中关键词信息和情绪信息的识别结果进行合并,生成请求参数;
相应的,所述装饰匹配模块302可以基于所述请求参数匹配装饰配置信息。
需要说明的,上述所述的装置根据方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书一个或多个实施例提供的一种会话信息处理装置,可以获取待处理语音信息,识别所述待处理语音信息表达的情绪信息。然后可以根据包括所述情绪内容的信息内容调取相应的装饰配置信息,进而利用所述装饰配置信息对所述待处理语音信息的展示载体(例如音频信息条)进行渲染后进行展示。这样根据语音信息表达的情感对展示载体进行渲染后展示,不仅可以表达或部分表达了语音信息的内容,还增加了语音信息聊天时的趣味性。利用本说明书实施例提供的实施方案,可以通过分析音频内热词或者感情,对音频消息体进行额外的描述或装饰,让音频信息的内容可以从视觉上展示,提高聊天趣味性,提高用户体验。
另一种会话信息处理装置的实施例中,识别的处理的信息源还可以包括文字、图像、视频等,可以识别出文字或视频等会话信息中包含的关键词或情绪 信息,然后匹配相应的装饰配置信息来渲染消息体。具体的一个实施例如图13所示,图13是本说明书提供的所述装置的另一个实施例的模块结构示意图,所述装置可以包括:
信息内容识别模块401,可以用于获取待处理会话信息,识别所述待处理会话信息的信息内容,所述信息内容至少包括待处理会话信息中包含的关键词信息、待处理会话信息表达的情绪信息中的一种;
装饰匹配模块402,可以用于获取与识别出的所述信息内容相匹配的装饰配置信息;
渲染模块403,可以用于利用所述装饰配置信息对所述待处理会话信息的展示载体进行渲染;
效果展示模块404,可以用于展示所述渲染后的展示载体。
同样的,上述所述的其他数据源的会话处理方法根据语音信息处理方法实施例的描述还可以包括其他的实施方式,其解决问题的实现方案与前述语音信息的处理相似,因此本说明书一个或多个实施例具体的实施可以参见前述语音信息处理方法的实施,重复之处不再赘述。
本说明书实施例提供的上述会话信息处理方法或装置可以在计算机中由处理器执行相应的程序指令来实现,如使用windows操作系统的c++语言在PC端实现,或其他例如使用android、iOS系统程序设计语言在智能终端实现,以及基于量子计算机的处理逻辑实现等。本说明书提供的一种会话信息处理装置的另一种实施例中,可以包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取待处理语音信息,识别所述待处理语音信息的信息内容,所述信息内容至少包括待处理语音信息中包含的关键词信息、待处理语音信息表达的情绪信息中的一种;
获取与所述信息内容相匹配的装饰配置信息;
利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染;
展示所述渲染后的展示载体。
所示装置的另一种实施例中,可以包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取待处理会话信息,识别所述待处理会话信息的信息内容,所述信息内容至少包括待处理会话信息中包含的关键词信息、待处理会话信息表达的情绪信息中的一种;
获取与识别出的所述信息内容相匹配的装饰配置信息;
利用所述装饰配置信息对所述待处理会话信息的展示载体进行渲染;
展示所述渲染后的展示载体。
所述待处理会话信息可以包括语音信息、文本信息、图像信息、视频信息中的至少一种。
需要说明的,上述所述的装置根据方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书实施例提供的一种会话信息处理装置,可以获取待处理语音信息,识别所述待处理语音信息表达的情绪信息。然后可以根据包括所述情绪内容的信息内容调取相应的装饰配置信息,进而利用所述装饰配置信息对所述待处理语音信息的展示载体(例如音频信息条)进行渲染后进行展示。这样根据语音信息表达的情感对展示载体进行渲染后展示,不仅可以表达或部分表达了语音信息的内容,还增加了语音信息聊天时的趣味性。利用本说明书实施例提供的实施方案,可以通过分析音频内热词或者感情,对音频消息体进行额外的描述或装饰,让音频信息的内容可以从视觉上展示,提高聊天趣味性,提高用户体验。
上述所述的方法或装置可以用于多种具有会话功能的电子设备中,如移动智能终端、车载设备、PC(personal computer,个人电脑)、智能穿戴设备、业务系统的服务器等,可以对展示消息的展示载体进行二次渲染,提高聊天趣味性, 提高用户体验。具体的,本说明书提供一种电子设备,如图14所示,可以包括至少一个处理器以及用户存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取待处理会话信息,识别所述待处理会话信息的信息内容,所述信息内容至少包括待处理会话信息中包含的关键词信息、待处理会话信息表达的情绪信息中的一种;
获取与识别出的所述信息内容相匹配的装饰配置信息;
利用所述装饰配置信息对所述待处理会话信息的展示载体进行渲染;
展示所述渲染后的展示载体。
所述电子设备的一个实施例中,所述待处理会话信息可以包括语音信息、文本信息、图像信息、视频信息中的至少一种。当前,根据不同的数据源还可以包括其他类型的待处理会话信息,具体的可以根据实际会话场景确定。
需要说明的是说明书上述所述的装置或电子设备根据相关方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照方法实施例的描述,在此不作一一赘述。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书一个或多个实施例提供的一种会话信息处理方法、装置、电子设备,可以获取待处理语音信息,识别所述待处理语音信息表达的情绪信息。然后可以根据包括所述情绪内容的信息内容调取相应的装饰配置信息,进而利用 所述装饰配置信息对所述待处理语音信息的展示载体(例如音频信息条)进行渲染后进行展示。这样根据语音信息表达的情感对展示载体进行渲染后展示,不仅可以表达或部分表达了语音信息的内容,还增加了语音信息聊天时的趣味性。利用本说明书实施例提供的实施方案,可以通过分析音频内热词或者感情,对音频消息体进行额外的描述或装饰,让音频信息的内容可以从视觉上展示,提高聊天趣味性,提高用户体验。
尽管说明书实施例内容中提到语音到文本的识别转换、KMP算法的关键字搜索、利用神经网络识别情绪信息、装饰配置信息匹配方式/展示效果等之类的数据/定义、获取、交互、计算、判断等描述,但是,本说明书实施例并不局限于必须是符合行业通信标准、标准计算机数据处理和存储规则或本说明书一个或多个实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本说明书实施例的可选实施方案范围之内。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的 改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包 括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些 接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计 算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储、石墨烯存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较 简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书一个或多个实施例的实施例而已,并不用于限制本本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在权利要求范围之内。

Claims (35)

  1. 一种会话信息处理方法,所述方法包括:
    获取待处理语音信息,识别所述待处理语音信息的信息内容,所述信息内容至少包括所述待处理语音信息表达的情绪信息;
    获取与所述信息内容相匹配的装饰配置信息;
    利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染;
    展示所述渲染后的展示载体。
  2. 如权利要求1所述的一种会话信息处理方法,所述识别所述待处理语音信息的信息内容包括:
    提取所述待处理语音信息的音频特征数据,将所述音频特征数据输入预先构建的情绪识别模型,通过所述情绪识别模型确定所述待处理语音信息所属的情绪类别。
  3. 如权利要求2所述的一种会话信息处理方法,提取的所述音频特征数据包括所述待处理语音信息的生物的情感特征数据、语气特征数据中的至少一种。
  4. 如权利要求1至3中任意一项所述的一种会话信息处理方法,所述获取与识别出的所述信息内容相匹配的装饰配置信息包括:
    将所述待处理语音信息中情绪信息的识别结果进行合并,生成请求参数;
    获取基于所述请求参数匹配出的装饰配置信息。
  5. 如权利要求4所述的一种会话信息处理方法,所述获取基于所述请求参数匹配出的装饰配置信息包括:
    将所述请求参数在本地预设的装饰配置数据库中进行匹配,获取装饰配置信息;
    或者,
    向远程服务端发送所述请求参数,获取所述远程服务端根据所述请求参数匹配得到的装饰配置信息。
  6. 如权利要求1所述的一种会话信息处理方法,所述装饰配置信息包括下 述中的至少一种:
    文字描述、表情、变更背景颜色、在所述展示载体预设位置播放动画效果、所述展示载体的变形动画效果。
  7. 如权利要求1所述的一种会话信息处理方法,所述展示载体包括:
    音频信息条、音频信息窗口、音频符号中的至少一种。
  8. 一种会话信息处理方法,所述方法包括:
    获取待处理语音信息,识别所述待处理语音信息的信息内容,所述信息内容至少包括.待处理语音信息中包含的关键词信息;
    获取与所述信息内容相匹配的装饰配置信息;
    利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染;
    展示所述渲染后的展示载体。
  9. 如权利要求8所述的一种会话信息处理方法,所述识别所述待处理语音信息的信息内容包括:
    将所述待处理语音信息转换为文字文本;
    将所述文字文本与预设词库中的关键词进行匹配,提取所包含的关键词信息。
  10. 如权利要求8所述的一种会话信息处理方法,所述识别所述待处理语音信息的信息内容包括:
    将所述待处理语音信息转换为文字文本,根据使用的文本语法规则提取所述文字文本中的关键词。
  11. 如权利要求8至10中任意一项所述的一种会话信息处理方法,所述获取与识别出的所述信息内容相匹配的装饰配置信息包括:
    将所述待处理语音信息中关键词信息的识别结果进行合并,生成请求参数;
    获取基于所述请求参数匹配出的装饰配置信息。
  12. 如权利要求11所述的一种会话信息处理方法,所述获取基于所述请求参数匹配出的装饰配置信息包括:
    将所述请求参数在本地预设的装饰配置数据库中进行匹配,获取装饰配置信息;
    或者,
    向远程服务端发送所述请求参数,获取所述远程服务端根据所述请求参数匹配得到的装饰配置信息。
  13. 如权利要求8所述的一种会话信息处理方法,所述装饰配置信息包括下述中的至少一种:
    文字描述、表情、变更背景颜色、在所述展示载体预设位置播放动画效果、所述展示载体的变形动画效果。
  14. 如权利要求8所述的一种会话信息处理方法,所述展示载体包括:
    音频信息条、音频信息窗口、音频符合中的至少一种。
  15. 一种会话信息处理方法,所述方法包括:
    获取待处理语音信息,识别所述待处理语音信息的信息内容,所述信息内容至少包括待处理语音信息中包含的关键词信息、待处理语音信息表达的情绪信息中的一种;
    获取与所述信息内容相匹配的装饰配置信息;
    利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染;
    展示所述渲染后的展示载体。
  16. 如权利要求15所述的一种会话信息处理方法,当识别包括待处理语音信息中包含的关键词信息、待处理语音信息表达的情绪信息的信息内容时,所述方法还包括:
    将所述待处理语音信息中关键词信息、情绪信息的识别结果进行合并,生成请求参数;
    相应的,所述获取与所述信息内容相匹配的装饰配置信息包括获取基于所述请求参数匹配出的装饰配置信息。
  17. 一种会话信息处理方法,所述方法包括:
    获取待处理会话信息,识别所述待处理会话信息的信息内容,所述信息内容至少包括待处理会话信息中包含的关键词信息、待处理会话信息表达的情绪信息中的一种;
    获取与识别出的所述信息内容相匹配的装饰配置信息;
    利用所述装饰配置信息对所述待处理会话信息的展示载体进行渲染;
    展示所述渲染后的展示载体。
  18. 一种会话信息处理装置,所述装置包括:
    情绪识别模块,用于获取待处理语音信息,识别所述待处理语音信息的信息内容,所述信息内容至少包括所述待处理语音信息表达的情绪信息;
    装饰匹配模块,用于获取与所述信息内容相匹配的装饰配置信息;
    渲染模块,用于利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染;
    效果展示模块,用于展示所述渲染后的展示载体。
  19. 如权利要求18所述的一种会话信息处理装置,所述情绪识别模块包括:
    情绪识别模型单元,用于提取所述待处理语音信息的音频特征数据,将所述音频特征数据输入预先构建的情绪识别模型,以及通过所述情绪识别模型确定所述待处理语音信息所属的情绪类别。
  20. 如权利要求19所述的一种会话信息处理装置,提取的所述音频特征数据包括所述待处理语音信息的生物的情感特征数据、语气特征数据中的至少一种。
  21. 如权利要求18至20中任意一项所述的一种会话信息处理装置,所述装置还包括:
    特征合并单元,用于将所述待处理语音信息中情绪信息的识别结果进行合并,生成请求参数;
    相应的,所述装饰匹配模块基于所述请求参数匹配装饰配置信息。
  22. 如权利要求18至20中任意一项所述的一种会话信息处理装置,所述装饰配置信息包括下述中的至少一种:
    文字描述、表情、变更背景颜色、在所述展示载体预设位置播放动画效果、所述展示载体的变形动画效果。
  23. 如权利要求18至20中任意所述的一种会话信息处理装置,所述展示载体包括:
    音频信息条、音频信息窗口、音频符合中的至少一种。
  24. 一种会话信息处理装置,所述装置包括:
    关键词识别模块,用于获取待处理语音信息,识别所述待处理语音信息的信息内容,所述信息内容至少包括所述待处理语音信息包含的关键词信息;
    装饰匹配模块,用于获取与所述信息内容相匹配的装饰配置信息;
    渲染模块,用于利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染;
    效果展示模块,用于展示所述渲染后的展示载体。
  25. 如权利要求24所述的一种会话信息处理装置,所述关键词识别模块包括:
    文本转换单元,用于将所述待处理语音信息转换为文字文本;
    语法匹配单元,用于将所述待处理语音信息转换为文字文本,根据使用的文本语法规则提取所述文字文本中的关键词。
  26. 如权利要求24所述的一种会话信息处理装置,所述关键词识别模块包括:
    文本转换单元,用于将所述待处理语音信息转换为文字文本;
    词库匹配单元,用于将所述文字文本与预设词库中的关键词进行匹配,提取所包含的关键词信息。
  27. 如权利要求24至26中任意一项所述的一种会话信息处理装置,所述装置还包括:
    特征合并单元,用于将所述待处理语音信息中情绪信息的识别结果进行合并,生成请求参数;
    相应的,所述装饰匹配模块基于所述请求参数匹配装饰配置信息。
  28. 如权利要求24至26中任意一项所述的一种会话信息处理装置,所述装饰配置信息包括下述中的至少一种:
    文字描述、表情、变更背景颜色、在所述展示载体预设位置播放动画效果、所述展示载体的变形动画效果。
  29. 如权利要求24至26中任意一项所述的一种会话信息处理装置,所述展示载体包括:
    音频信息条、音频信息窗口、音频符合中的至少一种。
  30. 一种会话信息处理装置,所述装置包括:
    信息内容识别模块,用于获取待处理语音信息,识别所述待处理语音信息的信息内容,所述信息内容至少包括待处理语音信息中包含的关键词信息、待处理语音信息表达的情绪信息中的一种;
    装饰匹配模块,用于获取与所述信息内容相匹配的装饰配置信息;
    渲染模块,用于利用所述装饰配置信息对所述待处理语音信息的展示载体进行渲染;
    效果展示模块,用于展示所述渲染后的展示载体。
  31. 如权利要求30所述的一种会话信息处理装置,所述装置还包括:
    特征合并单元,用于将所述待处理语音信息中关键词信息和情绪信息的识别结果进行合并,生成请求参数;
    相应的,所述装饰匹配模块基于所述请求参数匹配装饰配置信息。
  32. 一种会话信息处理装置,所述装置包括:
    信息内容识别模块,用于获取待处理会话信息,识别所述待处理会话信息的信息内容,所述信息内容至少包括待处理会话信息中包含的关键词信息、待处理会话信息表达的情绪信息中的一种;
    装饰匹配模块,用于获取与识别出的所述信息内容相匹配的装饰配置信息;
    渲染模块,用于利用所述装饰配置信息对所述待处理会话信息的展示载体进行渲染;
    效果展示模块,用于展示所述渲染后的展示载体。
  33. 一种会话信息处理装置,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
    获取待处理会话信息,识别所述待处理会话信息的信息内容,所述信息内容至少包括待处理会话信息中包含的关键词信息、待处理会话信息表达的情绪信息中的一种;
    获取与识别出的所述信息内容相匹配的装饰配置信息;
    利用所述装饰配置信息对所述待处理会话信息的展示载体进行渲染;
    展示所述渲染后的展示载体。
  34. 如权利要求33所述的一种会话信息处理装置,所述待处理会话信息包括语音信息、文本信息、图像信息、视频信息中的至少一种。
  35. 一种电子设备,包括至少一个处理器以及用户存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
    获取待处理会话信息,识别所述待处理会话信息的信息内容,所述信息内容至少包括待处理会话信息中包含的关键词信息、待处理会话信息表达的情绪信息中的一种;
    获取与识别出的所述信息内容相匹配的装饰配置信息;
    利用所述装饰配置信息对所述待处理会话信息的展示载体进行渲染;
    展示所述渲染后的展示载体。
PCT/CN2018/094783 2017-07-10 2018-07-06 一种会话信息处理方法、装置、电子设备 WO2019011185A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710555403.6 2017-07-10
CN201710555403.6A CN107516533A (zh) 2017-07-10 2017-07-10 一种会话信息处理方法、装置、电子设备

Publications (1)

Publication Number Publication Date
WO2019011185A1 true WO2019011185A1 (zh) 2019-01-17

Family

ID=60722330

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/094783 WO2019011185A1 (zh) 2017-07-10 2018-07-06 一种会话信息处理方法、装置、电子设备

Country Status (3)

Country Link
CN (1) CN107516533A (zh)
TW (1) TWI671739B (zh)
WO (1) WO2019011185A1 (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516533A (zh) * 2017-07-10 2017-12-26 阿里巴巴集团控股有限公司 一种会话信息处理方法、装置、电子设备
CN110312161B (zh) * 2018-03-20 2020-12-11 Tcl科技集团股份有限公司 一种视频配音方法、装置及终端设备
CN110798393B (zh) * 2018-08-02 2021-10-26 腾讯科技(深圳)有限公司 声纹气泡的展示方法及使用声纹气泡的终端
CN109448728A (zh) * 2018-10-29 2019-03-08 苏州工业职业技术学院 融合情感识别的多方会话可视化方法和系统
CN109521932A (zh) * 2018-11-06 2019-03-26 斑马网络技术有限公司 语音控件显示处理方法、装置、车辆、存储介质及设备
CN109525725B (zh) * 2018-11-21 2021-01-15 三星电子(中国)研发中心 一种基于情绪状态的信息处理方法和装置
CN109547332B (zh) * 2018-11-22 2022-05-13 腾讯科技(深圳)有限公司 通讯会话交互方法、装置、计算机设备
CN109768913A (zh) * 2018-12-11 2019-05-17 平安科技(深圳)有限公司 信息处理方法、装置、计算机设备及存储介质
CN109597493B (zh) * 2018-12-11 2022-05-17 科大讯飞股份有限公司 一种表情推荐方法及装置
CN109831572A (zh) * 2018-12-14 2019-05-31 深圳壹账通智能科技有限公司 聊天图片控制方法、装置、计算机设备及存储介质
CN109448735B (zh) 2018-12-21 2022-05-20 深圳创维-Rgb电子有限公司 基于声纹识别的视频参数调整方法、装置及读存储介质
CN110187862A (zh) * 2019-05-29 2019-08-30 北京达佳互联信息技术有限公司 语音消息显示方法、装置、终端及存储介质
CN112037821A (zh) * 2019-06-03 2020-12-04 阿里巴巴集团控股有限公司 语音情感的视觉化表示方法、装置及计算机存储介质
TWI684964B (zh) * 2019-07-09 2020-02-11 香港商智園香港有限公司 知識點標記生成系統及其方法
CN110311858B (zh) * 2019-07-23 2022-06-07 上海盛付通电子支付服务有限公司 一种发送会话消息的方法与设备
CN110417641B (zh) * 2019-07-23 2022-05-17 上海盛付通电子支付服务有限公司 一种发送会话消息的方法与设备
CN112910753A (zh) * 2019-12-04 2021-06-04 上海掌门科技有限公司 一种语音消息展示方法及设备
CN111372029A (zh) * 2020-04-17 2020-07-03 维沃移动通信有限公司 视频显示方法、装置及电子设备
CN111865766B (zh) * 2020-07-20 2024-02-02 博泰车联网科技(上海)股份有限公司 基于音像传输的互动方法、介质、设备及系统
CN112667196A (zh) * 2021-01-28 2021-04-16 百度在线网络技术(北京)有限公司 信息展示方法及装置、电子设备和介质
CN112883181A (zh) * 2021-02-26 2021-06-01 腾讯科技(深圳)有限公司 会话消息的处理方法、装置、电子设备及存储介质
CN112860213B (zh) * 2021-03-09 2023-08-25 腾讯科技(深圳)有限公司 音频的处理方法和装置、存储介质及电子设备
CN113407092A (zh) * 2021-06-17 2021-09-17 北京达佳互联信息技术有限公司 一种文本框信息处理方法、装置、电子设备及存储介质
CN113595868B (zh) * 2021-06-28 2023-05-16 深圳云之家网络有限公司 基于即时通讯的语音消息处理方法、装置和计算机设备
TWI779916B (zh) * 2021-11-02 2022-10-01 宏碁股份有限公司 遠端通訊的方法及系統

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041279A (ja) * 2000-07-21 2002-02-08 Megafusion Corp エージェント伝言システム
CN1427626A (zh) * 2001-12-20 2003-07-02 松下电器产业株式会社 虚拟电视通话装置
CN101702316A (zh) * 2009-11-20 2010-05-05 北京中星微电子有限公司 一种将midi音乐转化为颜色信息的方法和系统
US20140163980A1 (en) * 2012-12-10 2014-06-12 Rawllin International Inc. Multimedia message having portions of media content with audio overlay
CN107516533A (zh) * 2017-07-10 2017-12-26 阿里巴巴集团控股有限公司 一种会话信息处理方法、装置、电子设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1848192A4 (en) * 2005-02-08 2012-10-03 Nippon Telegraph & Telephone END DEVICE, SYSTEM, METHOD AND PROGRAM FOR INFORMATION COMMUNICATION AND RECORDING MEDIUM WHICH RECORDED THE PROGRAM
CN100538823C (zh) * 2006-07-13 2009-09-09 英业达股份有限公司 语言辅助表达系统及方法
TWI395201B (zh) * 2010-05-10 2013-05-01 Univ Nat Cheng Kung 情緒語音辨識方法及系統
CN102664007B (zh) * 2012-03-27 2016-08-31 上海量明科技发展有限公司 用于生成字符标识内容的方法、客户端及系统
CN103543979A (zh) * 2012-07-17 2014-01-29 联想(北京)有限公司 一种输出语音的方法、语音交互的方法及电子设备
CN103634472B (zh) * 2013-12-06 2016-11-23 惠州Tcl移动通信有限公司 根据通话语音判断用户心情及性格的方法、系统及手机
CN103886869B (zh) * 2014-04-09 2016-09-21 北京京东尚科信息技术有限公司 一种基于语音情感识别的信息反馈方法和系统
US20150356836A1 (en) * 2014-06-05 2015-12-10 Microsoft Corporation Conversation cues within audio conversations
CN104022942B (zh) * 2014-06-26 2018-09-11 北京奇虎科技有限公司 处理交互式消息的方法、客户端、电子设备及系统
US10068588B2 (en) * 2014-07-21 2018-09-04 Microsoft Technology Licensing, Llc Real-time emotion recognition from audio signals
US9786299B2 (en) * 2014-12-04 2017-10-10 Microsoft Technology Licensing, Llc Emotion type classification for interactive dialog system
KR101634086B1 (ko) * 2015-01-19 2016-07-08 주식회사 엔씨소프트 감정 분석을 통한 스티커 추천 방법 및 시스템
CN105049637A (zh) * 2015-08-25 2015-11-11 努比亚技术有限公司 一种控制即时通讯的装置和方法
CN106899486B (zh) * 2016-06-22 2020-09-25 阿里巴巴集团控股有限公司 一种消息显示方法及装置
CN106531149B (zh) * 2016-12-07 2018-02-23 腾讯科技(深圳)有限公司 信息处理方法及装置
CN106888158B (zh) * 2017-02-28 2020-07-03 天翼爱动漫文化传媒有限公司 一种即时通信方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041279A (ja) * 2000-07-21 2002-02-08 Megafusion Corp エージェント伝言システム
CN1427626A (zh) * 2001-12-20 2003-07-02 松下电器产业株式会社 虚拟电视通话装置
CN101702316A (zh) * 2009-11-20 2010-05-05 北京中星微电子有限公司 一种将midi音乐转化为颜色信息的方法和系统
US20140163980A1 (en) * 2012-12-10 2014-06-12 Rawllin International Inc. Multimedia message having portions of media content with audio overlay
CN107516533A (zh) * 2017-07-10 2017-12-26 阿里巴巴集团控股有限公司 一种会话信息处理方法、装置、电子设备

Also Published As

Publication number Publication date
TWI671739B (zh) 2019-09-11
CN107516533A (zh) 2017-12-26
TW201909171A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
WO2019011185A1 (zh) 一种会话信息处理方法、装置、电子设备
US11705096B2 (en) Autonomous generation of melody
CN114578969B (zh) 用于人机交互的方法、装置、设备和介质
US9805720B2 (en) Speech recognition candidate selection based on non-acoustic input
WO2018045553A1 (zh) 人机交互的系统及方法
JP2017527926A (ja) 社交的会話入力に対するコンピュータレスポンスの生成
WO2023124933A1 (zh) 虚拟数字人的视频生成方法及装置、存储介质、终端
TW201543467A (zh) 語音輸入方法、裝置和系統
WO2022170848A1 (zh) 人机交互方法、装置、系统、电子设备以及计算机介质
CN110148406B (zh) 一种数据处理方法和装置、一种用于数据处理的装置
WO2015191651A1 (en) Advanced recurrent neural network based letter-to-sound
CN112765971B (zh) 文本语音的转换方法、装置、电子设备及存储介质
WO2022242706A1 (zh) 基于多模态的反应式响应生成
Fang et al. Facial expression GAN for voice-driven face generation
CN113743267A (zh) 一种基于螺旋和文本的多模态视频情感可视化方法及装置
US9077813B2 (en) Masking mobile message content
CN112331209B (zh) 一种语音转文本的方法、装置、电子设备及可读存储介质
US10599784B2 (en) Automated interpretation method and apparatus, and machine translation method
US11792365B1 (en) Message data analysis for response recommendations
CN110795581B (zh) 图像搜索方法、装置、终端设备及存储介质
US20230223008A1 (en) Method and electronic device for intelligently reading displayed contents
CN111914115B (zh) 一种声音信息的处理方法、装置及电子设备
CN116597821A (zh) 一种基于深度学习的智能客服语音识别方法和系统
Wyawahare et al. ListenBot: Augmented Reality Based Speech To Sign Language Conversion
CN115620750A (zh) 语音情绪识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18832168

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18832168

Country of ref document: EP

Kind code of ref document: A1