WO2019031621A1 - 통화 중 감정을 인식하여 인식된 감정을 활용하는 방법 및 시스템 - Google Patents

통화 중 감정을 인식하여 인식된 감정을 활용하는 방법 및 시스템 Download PDF

Info

Publication number
WO2019031621A1
WO2019031621A1 PCT/KR2017/008557 KR2017008557W WO2019031621A1 WO 2019031621 A1 WO2019031621 A1 WO 2019031621A1 KR 2017008557 W KR2017008557 W KR 2017008557W WO 2019031621 A1 WO2019031621 A1 WO 2019031621A1
Authority
WO
WIPO (PCT)
Prior art keywords
emotion
content
call
providing
party
Prior art date
Application number
PCT/KR2017/008557
Other languages
English (en)
French (fr)
Inventor
박정준
이동원
조종진
조인원
Original Assignee
라인 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 라인 가부시키가이샤 filed Critical 라인 가부시키가이샤
Priority to PCT/KR2017/008557 priority Critical patent/WO2019031621A1/ko
Priority to KR1020197036741A priority patent/KR102387400B1/ko
Priority to JP2020506229A priority patent/JP2020529680A/ja
Publication of WO2019031621A1 publication Critical patent/WO2019031621A1/ko
Priority to US16/780,246 priority patent/US20200176019A1/en
Priority to JP2021168170A priority patent/JP2022020659A/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions

Definitions

  • the following description relates to a technique for recognizing an in-flight emotion and utilizing the recognized emotion.
  • Communication between human beings consists of several elements such as voice, gesture, facial expression, etc., individually or in combination, to transmit and recognize sentiment.
  • Korean Patent Laid-Open Publication No. 10-2010-0128023 (published on December 07, 2010) discloses a technique of recognizing emotions by applying a pattern recognition algorithm to a user's biological signals.
  • the present invention provides a method and system for recognizing emotions during a call using a VoIP and utilizing the sensed emotions.
  • a method and system for displaying representative emotions on a call history based on emotions recognized during a call are provided.
  • a method for providing emotion-based call content that is implemented by a computer, the method comprising: recognizing an emotion from a call content during a call between a user and a counterpart; And storing at least a part of the call content on the basis of the recognized feeling and providing the content as content related to the call.
  • the recognizing step may recognize emotion using at least one of a video and a voice exchanged between the user and the other party.
  • the recognizing step may recognize an emotion for at least one of the user and the other party from the call content.
  • the recognizing step may include recognizing emotional intensity in a call content of a corresponding section in each predetermined unit interval, and providing the emotional intensity in a period in which the emotion having the strongest intensity is recognized And storing the contents of the call as highlight contents.
  • the providing step may provide the highlight content through an interface screen associated with the call.
  • the providing step may provide a function of sharing the highlight content with another person.
  • the method may further include selecting a representative emotion using at least one of the type and intensity of the recognized emotion, and then providing the content corresponding to the representative emotion.
  • the step of providing the contents corresponding to the representative emotions may include the steps of selecting emotions having the greatest appearance frequency or emotional intensity as the representative emotions, or summing the emotional strengths according to emotional types, And selecting the representative emotion.
  • an icon representing the representative emotion may be displayed through an interface screen related to the call.
  • the method may further include calculating emotional ranking for the other party by accumulating the recognized emotions for each other, and then providing the counterpart list reflecting the emotional ranking.
  • the step of providing the counterpart list reflecting the emotion ranking may include calculating the emotion ranking for the counterpart by adding the intensity of the emotion corresponding to the predetermined type in the recognized emotion have.
  • the step of providing the counterpart list reflecting the emotional ranking may include calculating emotional ranking for the other party according to the emotional category and providing a counterpart list according to the emotional ranking corresponding to the user request.
  • a computer program recorded on a computer-readable recording medium for executing a method for providing emotion-based call content comprising: recognizing an emotion from a call content during a call between a user and a party; And storing at least a part of the call content on the basis of the recognized feeling and providing the content as content related to the call.
  • a computer-implemented emotion-based call content providing system comprising: at least one processor configured to execute computer-readable instructions, wherein the at least one processor is configured to recognize emotions An emotion recognition unit; And a content providing unit for storing at least a part of the call content based on the recognized feeling and providing the content as content related to the call.
  • FIG. 1 is a block diagram for explaining an example of the internal configuration of a computer system according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating an example of components that a processor of a computer system according to an embodiment of the present invention may include.
  • FIG. 3 is a flowchart illustrating an example of a method for providing emotion-based call content that can be performed by a computer system according to an embodiment of the present invention.
  • FIG. 4 is a flowchart illustrating an example of a process of recognizing emotions in speech according to an exemplary embodiment of the present invention.
  • FIG. 5 is a flowchart illustrating an example of a process of recognizing emotion in an image according to an exemplary embodiment of the present invention.
  • 6 to 9 are exemplary diagrams illustrating a process of providing highlight contents in an embodiment of the present invention.
  • 10 to 11 are exemplary diagrams illustrating a process of providing contents corresponding to a representative emotion in an embodiment of the present invention.
  • FIG. 12 is an exemplary diagram for explaining a process of providing a partner list reflecting emotional ranking in an embodiment of the present invention.
  • Embodiments of the present invention are directed to techniques for recognizing on-the-fly emotions and utilizing the recognized emotions.
  • Embodiments including those specifically disclosed herein, recognize the on-the-call emotions and generate and provide content related to the call based on the recognized emotions, provide various UIs or fun elements related to the calls, Elements, diversity, efficiency, and the like.
  • 'call' may refer to a voice call that exchanges voice with the other party and a video call that exchanges video and voice with the other party.
  • voice and / or video may be transmitted through a network using an IP address (VoIP) of a technology for converting and transmitting digital packets into digital packets.
  • VoIP IP address
  • FIG. 1 is a block diagram for explaining an example of the internal configuration of a computer system according to an embodiment of the present invention.
  • the emotion-based call content providing system can be implemented through the computer system 100 of FIG. 1, the computer system 100 includes a processor 110, a memory 120, a persistent storage 130, a bus 140, an input / output (I / O) An interface 150 and a network interface 160.
  • the computer system 100 includes a processor 110, a memory 120, a persistent storage 130, a bus 140, an input / output (I / O) An interface 150 and a network interface 160.
  • Processor 110 may include or be part of any device capable of processing a sequence of instructions.
  • the processor 110 may comprise, for example, a processor and / or a digital processor within a computer processor, a mobile device, or other electronic device.
  • the processor 110 may be, for example, a server computing device, a server computer, a series of server computers, a server farm, a cloud computer, a content platform, a mobile computing device, a smart phone, a tablet,
  • the processor 110 may be connected to the memory 120 via a bus 140.
  • the memory 120 may include volatile memory, permanent, virtual or other memory for storing information used by or output by the computer system 100.
  • memory 120 may include random access memory (RAM) and / or dynamic RAM (DRAM).
  • RAM random access memory
  • DRAM dynamic RAM
  • the memory 120 may be used to store any information, such as the state information of the computer system 100.
  • Memory 120 may also be used to store instructions of computer system 100, including, for example, instructions for controlling a call function.
  • Computer system 100 may include one or more processors 110 as needed or where appropriate.
  • the bus 140 may comprise a communication infrastructure that enables interaction between the various components of the computer system 100.
  • the bus 140 may carry data between components of the computer system 100, for example, between the processor 110 and the memory 120.
  • the bus 140 may comprise a wireless and / or wired communication medium between the components of the computer system 100 and may include parallel, serial, or other topology arrangements.
  • the persistent storage 130 may store components such as memory or other persistent storage as used by the computer system 100 to store data for a predetermined extended period of time (e.g., as compared to the memory 120) .
  • the persistent storage device 130 may include non-volatile main memory as used by the processor 110 in the computer system 100.
  • the persistent storage device 130 may comprise flash memory, hard disk, optical disk, or other computer readable medium.
  • the input / output interface 150 may include interfaces to a keyboard, a mouse, a microphone, a camera, a display, or other input or output device. Configuration commands and / or input associated with the call function may be received via the input / output interface 150.
  • the network interface 160 may include one or more interfaces to networks such as a local area network or the Internet.
  • the network interface 160 may include interfaces for wired or wireless connections. Configuration commands may be received via the network interface 160. Information related to the call function may be received or transmitted via the network interface 160.
  • the computer system 100 may include more components than the components of FIG. However, there is no need to clearly illustrate most prior art components.
  • FIG. 2 is a diagram illustrating an example of a component that a processor of a computer system according to an embodiment of the present invention may include;
  • FIG. 3 is a diagram illustrating an emotional base
  • FIG. 8 is a flowchart showing an example of a method of providing call content;
  • the processor 110 may include an emotion recognition unit 210, a content providing unit 220, and a list providing unit 230.
  • the components of such a processor 110 may be representations of different functions performed by the processor 110 in accordance with control commands provided by at least one program code.
  • the emotion recognition unit 210 may be used as a functional representation in which the processor 110 operates to control the computer system 100 to recognize emotions in the call.
  • the components of the processor 110 and the processor 110 may perform the steps S310 to S340 included in the emotion-based call content providing method of FIG.
  • the components of processor 110 and processor 110 may be implemented to execute instructions in accordance with the at least one program code described above and the code of the operating system that memory 120 contains.
  • at least one program code may correspond to a code of a program implemented to process the emotion-based call content providing method.
  • the emotion-based call content providing method may not occur in the order shown in FIG. 3, and some of the steps may be omitted or an additional process may be further included.
  • the processor 110 may load the program code stored in the program file for the emotion-based call content providing method into the memory 120.
  • a program file for a method for providing emotion-based call content may be stored in the persistent storage 130 described with reference to FIG. 1, and the processor 110 may store the program stored in the persistent storage 130 And control the computer system 110 such that the program code is loaded from the file into the memory 120.
  • each of the emotion recognition unit 210, the content providing unit 220, and the list providing unit 230 included in the processor 110 and the processor 110 may store the corresponding part of the program code loaded into the memory 120 And may be different functional representations of the processor 110 for executing subsequent steps (S320 through S340).
  • the processor 110 and the components of the processor 110 may process an operation according to a direct control command or control the computer system 100.
  • the emotion recognition unit 210 can recognize the emotion from the conversation contents during the call.
  • the call content may include at least one of a voice and an image exchanged between the user and the other party during the call, and the emotion recognition unit 210 may receive at least one of the user and the partner Can be recognized.
  • the emotion of the user can be recognized by using at least one of the user's voice and the image directly input through the input device (microphone or camera) included in the computer system 100 and the emotion of the user can be recognized through the network interface 160 Side voice and the image received from the device of the other party (not shown) through the use of at least one of the voice and the image of the other party.
  • the concrete process of recognizing the emotion will be described below again.
  • the content providing unit 220 may generate and provide content related to the call based on the recognized emotion.
  • the content providing unit 220 may store at least a part of the conversation contents as highlight contents according to the strength (size) of the emotion recognized in the conversation contents.
  • the highlight contents may include at least And may include one section.
  • the content providing unit 220 can store the image of the section in which the emotion having the greatest intensity during the conversation is displayed as the main scene of the call.
  • the content providing unit 220 may generate at least one of a user-side voice and an image based on the emotion of the other party in the case of the highlight content, or may use at least one of the partner- .
  • the content providing unit 220 may generate video call scenes of both of the video calls, which have caused the emotion of the greatest intensity to the other party, or video call scenes of both of the users, .
  • the content providing unit 220 can generate and provide contents corresponding to the representative emotions after selecting the representative emotions according to the frequency or intensity of the emotions recognized in the conversation contents. For example, the content providing unit 220 may select the most frequently recognized sentiment among the conversations as the representative sentiment of the corresponding call and display an icon representing the representative sentiment of the corresponding call in the call history. At this time, the content providing unit 220 can generate the representative emotion based on the emotion of the user.
  • the list providing unit 230 may accumulate the recognized emotion for each other to calculate the emotional ranking for the other party, and then provide the partner list reflecting the emotional ranking. At this time, the list providing unit 230 may calculate the emotional ranking for the other party based on the emotion of the user recognized during the call. For example, the list providing unit 230 may calculate the emotional ranking for the other party according to the emotional type, and may provide the partner list according to the emotional ranking corresponding to the user request.
  • the list providing unit 230 classifies emotions (for example, positive emotions: warm, happy, laugh, sweet, etc.) of a predetermined type among emotions recognized during a call for each call with the other party, By summing the strengths of the large emotions, the emotion value for the corresponding party can be calculated, and the party list sorted in ascending or descending order can be provided based on the emotion value for each party.
  • emotions for example, positive emotions: warm, happy, laugh, sweet, etc.
  • Another example of a method of calculating the emotion value by the other party is to accumulate the intensity of the emotion most frequently recognized among the emotions recognized during the call.
  • FIG. 4 is a flowchart illustrating an example of a process of recognizing emotions in speech according to an exemplary embodiment of the present invention.
  • step S401 the emotion recognition unit 210 can receive a voice call from the other party's device through the network interface 160.
  • the emotion recognition unit 210 can receive voice input from the other party's device during communication in accordance with the voice of the other party.
  • the emotion recognition unit 210 can recognize the emotion of the other party by extracting emotion information from the call voice received in step S401.
  • the emotion recognition unit 210 can extract the emotion information from the sentence after acquiring the sentence corresponding to the voice through the speech to text (STT).
  • the emotion information may include emotion type and emotion intensity.
  • the term indicating the emotion, that is, the emotional terms is determined in advance and is classified into a plurality of types of emotions (for example, joy, sadness, surprise, anxiety, suffering, anxiety, fear, (For example, 1 to 10) in accordance with the degree of strength.
  • Emotional terms can include specific words that express emotions, as well as phrases or sentences that contain specific words.
  • the emotion recognition unit 210 may extract a morpheme in a sentence corresponding to a voice of the other party, extract a predetermined emotion term from the extracted morpheme, and classify the emotion type and the emotion intensity corresponding to the extracted emotion term .
  • the emotion recognition unit 210 may divide the voice of the other party by a predetermined interval (for example, 2 seconds) to extract the emotion information by intervals.
  • a weight can be calculated according to the emotional type and the emotional intensity to which the emotional term belongs, thereby calculating emotional vectors for the emotional information,
  • the emotion information can be extracted. It is also possible to extract emotion information using at least one of tone information of voice and tempo information in addition to extracting emotion information from voice using emotion terms.
  • the emotion recognition unit 210 recognizes the emotion in the voice of the other party during the call and the emotion of the other party is recognized in the above description, the recognition of the emotion of the user from the user- same.
  • the emotion information extraction technique described with reference to FIG. 4 is illustrative and not limited thereto, and it is also possible to use other techniques already well known.
  • FIG. 5 is a flowchart illustrating an example of a process of recognizing emotion in an image according to an exemplary embodiment of the present invention.
  • the emotion recognition unit 210 may receive the call image from the other party's device through the network interface 160.
  • the emotion recognition unit 210 can receive the image of the face of the other party from the other party's device during the communication.
  • the emotion recognition unit 210 may extract the face area from the call image received in step S501.
  • the emotion recognition unit 210 may extract a face area from a call image based on adaptive boosting or a face detection method based on skin color information, or may use other well-known techniques. Do.
  • the emotion recognition unit 210 can recognize emotion of the other party by extracting emotion information from the face area extracted in step S502.
  • the emotion recognition unit 210 can extract emotion information including the emotion type and the emotion intensity from the facial expression based on the image. Facial expression is caused by contraction of facial muscles that occurs when facial elements such as eyebrows, eyes, nose, mouth, and skin are deformed, and the intensity of facial expression can be determined by geometric changes in facial features or density of muscle expressions have.
  • the emotion recognition unit 210 extracts a region of interest (e.g., an eye region, a brow region, a nose region, a mouth region, and the like) for extracting a feature according to a facial expression, Can be used to determine a certain feature value.
  • the feature value corresponds to a specific numerical value representing a human expression based on the distance between feature points and the like.
  • the emotion recognition unit 210 may map the emotion recognition value model and the intensity value and extract the type and intensity of the emotion determined according to the result of applying the intensity value to the emotion recognition value model.
  • the emotion recognition unit 210 recognizes the emotion in the image of the other party during the call, and the emotion of the other party is recognized in the above, the recognition of the emotion of the user from the user- same.
  • the emotion information extraction technique described with reference to FIG. 5 is illustrative and not limited thereto, and it is also possible to use other techniques already well known.
  • 6 to 9 are exemplary diagrams illustrating a process of providing highlight contents in an embodiment of the present invention.
  • FIG. 6 shows an example of a communication screen with the other party, and shows a video call screen 600 for exchanging video and audio.
  • the video phone screen 600 provides the counterpart side image 601 as a main screen and provides the user side face image 602 in one area.
  • the emotion recognition unit 210 recognizes the emotion in the voice of the other party during the call, and the content providing unit 220 may generate at least a part of the call video as the highlight content based on the emotion of the other party.
  • the highlight content can be generated by storing the call content including the user-side face image 602 of a certain section of the call, and in another example, it is also possible to store the call content including the partner side image 601 .
  • the content providing unit 220 temporarily buffers the call content 700 by a predetermined interval (for example, two seconds) 701 when a call is started. At this time, the content providing unit 220 compares the intensity of the emotion ([emotion type, emotion intensity]) 710 recognized in the call content 700 of the corresponding section by interval unit, If the recognized emotion is larger, the temporarily stored conversation contents are replaced with the conversation contents of the latest section. According to this method, the content providing unit 220 can acquire, as highlight contents, the contents of the section in which the emotion with the greatest intensity during the conversation is recognized. For example, as shown in FIG. 7, since the [happy, 9] corresponds to the emotion having the greatest intensity in the whole section during the conversation, the contents of the section corresponding to the section [5] become the highlight contents.
  • a predetermined interval for example, two seconds
  • the user can move to the conversation interface screen 800 showing the call history with the other party, for example, as shown in FIG.
  • the conversation interface screen 800 may include a conversation-based interface, and may collect not only the characters exchanged with the other party but also the conversation history of the video phone or the voice phone.
  • the content providing unit 220 may provide the highlight contents of the call for each call included in the call history.
  • the content providing unit 220 provides the UI 811 for reproducing the highlight content of the corresponding call in response to the call item 810 on the dialog interface screen 800 when the call with the other party is terminated .
  • the content providing unit 220 may provide the highlight contents through the telephone interface screen 900 which shows the call history of the video call or voice call as shown in FIG.
  • the telephone interface screen 900 may include a contact list 910 having a call history with the user and at this time the contents provider 220 may display the contact list 910 on the item indicating each contact in the contact list 910, And can provide a UI 911 for playing back highlight content in recent calls.
  • the content providing unit 220 can provide a function of sharing highlight contents with others through various media (for example, messenger, mail, message, etc.). It is possible to generate the highlighted content as the highlighted content of the conversation and to share the highlighted content with others in the form of content such as a cookie.
  • various media for example, messenger, mail, message, etc.
  • 10 to 11 are exemplary diagrams illustrating a process of providing contents corresponding to a representative emotion in an embodiment of the present invention.
  • the emotion recognition unit 210 recognizes the emotion from the voice of the user during the communication with the other party, and the content providing unit 220 determines the representative emotion of the corresponding call on the basis of the appearance frequency or intensity of the emotion during communication, Content can be provided.
  • the emotion recognition unit 210 may recognize the emotion 1010 from the voice of each interval by a predetermined interval unit (for example, 2 seconds) when the call is started,
  • the icon 1020 corresponding to the representative emotion 1011 can be generated as contents related to the call by considering the emotion most frequently recognized among the recognized emotion 1010 in the whole section as the representative emotion 1011.
  • the icon 1020 may be composed of an emoticon, a sticker, an image, or the like.
  • the emotion of the greatest intensity among the whole sections is judged as the representative emotion, or the emotion intensity is added to each emotion type to judge the emotion having the largest sum value as the representative emotion It is also possible.
  • the content providing unit 220 may provide a representative emotion of the call through the interface screen associated with the call when the call is terminated. For example, referring to FIG. 11, the content providing unit 220 may display a representative emotion of a call through a telephone interface screen 1100 showing a call history of a video call or a voice call.
  • the telephone interface screen 1100 may include a contact list 1110 having a user and a call history.
  • the contents provider 220 may display the contact list 1110 on the item indicating each contact in the contact list 1110
  • An icon 1120 indicating the representative emotion determined in the recent call can be displayed.
  • FIG. 12 is an exemplary diagram for explaining a process of providing a partner list reflecting emotional ranking in an embodiment of the present invention.
  • the list providing unit 230 may provide an interface screen 1200 including a partner list 1210 in which emotion ranking is reflected as shown in FIG. 12 in response to a user's request.
  • the list providing unit 230 may calculate the emotional ranking for the other party based on the emotions of the user recognized during the call. For example, the list providing unit 230 may transmit positive emotions (e.g., warm, happy, laugh, sweet, and the like), and summing up the strengths of the greatest emotions among the classified emotions, the emotional ranking can be calculated according to the emotional values added to each other.
  • the list providing unit 230 may provide a partner list 1210 sorted in ascending or descending order based on the emotion value of the other party. At this time, the list providing unit 230 may display the rating information 1211 indicating the emotion value for the other party on the item indicating each party in the partner list 1210.
  • the list providing unit 230 may calculate the emotional ranking for each emotional category in addition to the emotional ranking for the predetermined emotional category and provide the partner list according to the emotional ranking of the category selected by the user.
  • the present invention it is possible to provide content (highlight content, representative emotion icon, etc.) related to the call based on the emotion recognized from the call content during the call and based on the emotion recognized in the call content, or to provide a list of the parties reflecting the emotion ranking .
  • the apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components.
  • the apparatus and components described in the embodiments may be implemented as a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA), a programmable logic unit, a microprocessor, or any other device capable of executing and responding to instructions.
  • the processing device may execute an operating system (OS) and one or more software applications running on the operating system.
  • the processing device may also access, store, manipulate, process, and generate data in response to execution of the software.
  • the processing apparatus may be described as being used singly, but those skilled in the art will recognize that the processing apparatus may have a plurality of processing elements and / As shown in FIG.
  • the processing unit may comprise a plurality of processors or one processor and one controller.
  • Other processing configurations are also possible, such as a parallel processor.
  • the software may include a computer program, code, instructions, or a combination of one or more of the foregoing, and may be configured to configure the processing device to operate as desired or to process it collectively or collectively Device can be commanded.
  • the software and / or data may be embodied in any type of machine, component, physical device, computer storage media, or device for interpretation by a processing device or to provide instructions or data to the processing device have.
  • the software may be distributed over a networked computer system and stored or executed in a distributed manner.
  • the software and data may be stored on one or more computer readable recording media.
  • the method according to an embodiment may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable medium.
  • the medium may be a program that continuously stores a computer executable program, or temporarily stores the program for execution or downloading.
  • the medium may be a variety of recording means or storage means in the form of a combination of a single hardware or a plurality of hardware, but is not limited to a medium directly connected to any computer system, but may be dispersed on a network.
  • the medium examples include a magnetic medium such as a hard disk, a floppy disk and a magnetic tape, an optical recording medium such as CD-ROM and DVD, a magneto-optical medium such as a floptical disk, And program instructions including ROM, RAM, flash memory, and the like.
  • a recording medium or a storage medium that is managed by a site or a server that supplies or distributes an application store or various other software is also enumerated.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)
  • Telephone Function (AREA)

Abstract

통화 중 감정을 인식하여 인식된 감정을 활용하는 방법 및 시스템이 개시된다. 감정 기반 통화 컨텐츠 제공 방법은 사용자와 상대방 간의 통화 중 통화 내용으로부터 감정을 인식하는 단계; 및 상기 인식된 감정을 바탕으로 상기 통화 내용 중 적어도 일부를 저장하여 상기 통화와 관련된 컨텐츠로 제공하는 단계를 포함한다.

Description

통화 중 감정을 인식하여 인식된 감정을 활용하는 방법 및 시스템
아래의 설명은 통화 중 감정을 인식하여 인식된 감정을 활용하는 기술에 관한 것이다.
의사소통에 있어 감정의 전달과 인식은 매우 중요한 요소인데, 이는 사람 사이의 의사소통뿐 아니라 사람과 기계 사이에서도 정확한 의사소통을 위해 필요한 요소이다.
사람 사이의 의사소통은 음성, 제스처, 표정 등 여러 가지 요소들이 개별적 혹은 상호 복합적으로 작용하여 감 정의 전달과 인식이 이루어진다.
최근 사물인터넷(IoT) 기술이 발달함에 따라 사람과 기계 사이의 의사소통이나 감정 전달도 중요한 요소로 떠오르고 있는데, 이를 위해 얼굴 표정이나 음성, 생체 신호 등을 기반으로 사람의 감정을 인식하는 기술이 이용되고 있다.
예컨대, 한국공개특허공보 제10-2010-0128023호(공개일 2010년 12월 07일)에는 사용자의 생체 신호에 대해 패턴인식 알고리즘을 적용하여 감정을 인식하는 기술이 개시되어 있다.
인터넷 전화(VoIP)를 이용한 통화에서 통화 중 감정을 인식하고 인식된 감정을 활용할 수 있는 방법 및 시스템을 제공한다.
통화 중 인식된 감정을 바탕으로 통화 종료 후 주요 장면을 제공할 수 있는 방법 및 시스템을 제공한다.
통화 중 인식된 감정을 바탕으로 통화 내역에 대표 감정을 표시할 수 있는 방법 및 시스템을 제공한다.
컴퓨터로 구현되는 감정 기반 통화 컨텐츠 제공 방법에 있어서, 사용자와 상대방 간의 통화 중 통화 내용으로부터 감정을 인식하는 단계; 및 상기 인식된 감정을 바탕으로 상기 통화 내용 중 적어도 일부를 저장하여 상기 통화와 관련된 컨텐츠로 제공하는 단계를 포함하는 감정 기반 통화 컨텐츠 제공 방법을 제공한다.
일 측면에 따르면, 상기 인식하는 단계는, 상기 사용자와 상기 상대방 간에 주고 받는 영상과 음성 중 적어도 하나를 이용하여 감정을 인식할 수 있다.
다른 측면에 따르면, 상기 인식하는 단계는, 상기 통화 내용으로부터 상기 사용자와 상기 상대방 중 적어도 하나에 대한 감정을 인식할 수 있다.
또 다른 측면에 따르면, 상기 인식하는 단계는, 일정 단위의 구간 별로 해당 구간의 통화 내용에서 감정 강도를 인식하고, 상기 제공하는 단계는, 상기 통화의 전체 구간 중 강도가 가장 큰 감정이 인식된 구간의 통화 내용을 하이라이트 컨텐츠로 저장하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 제공하는 단계는, 상기 통화와 관련된 인터페이스 화면을 통해 상기 하이라이트 컨텐츠를 제공할 수 있다.
또 다른 측면에 따르면, 상기 제공하는 단계는, 상기 하이라이트 컨텐츠를 타인과 공유하는 기능을 제공할 수 있다.
또 다른 측면에 따르면, 상기 인식된 감정의 종류와 강도 중 적어도 하나를 이용하여 대표 감정을 선정한 후 상기 대표 감정에 대응되는 컨텐츠를 제공하는 단계를 더 포함할 수 있다.
또 다른 측면에 따르면, 상기 대표 감정에 대응되는 컨텐츠를 제공하는 단계는, 출현 빈도나 감정 강도가 가장 큰 감정을 상기 대표 감정으로 선정하거나 감정 강도를 감정 종류 별로 합산하여 합산 값이 가장 큰 감정을 상기 대표 감정으로 선정하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 대표 감정에 대응되는 컨텐츠를 제공하는 단계는, 상기 통화와 관련된 인터페이스 화면을 통해 상기 대표 감정을 나타내는 아이콘을 표시할 수 있다.
또 다른 측면에 따르면, 상기 인식된 감정을 상대방 별로 누적함으로써 상대방에 대한 감정 랭킹을 산출한 후 상기 감정 랭킹을 반영한 상대방 목록을 제공하는 단계를 더 포함할 수 있다.
또 다른 측면에 따르면, 상기 감정 랭킹을 반영한 상대방 목록을 제공하는 단계는, 상기 인식된 감정 중 사전에 정해진 종류에 해당되는 감정의 강도를 합산하여 상대방에 대한 감정 랭킹을 산출하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 감정 랭킹을 반영한 상대방 목록을 제공하는 단계는, 감정 종류 별로 상대방에 대한 감정 랭킹을 산출하고 사용자 요청에 대응되는 종류의 감정 랭킹에 따른 상대방 목록을 제공할 수 있다.
감정 기반 통화 컨텐츠 제공 방법을 실행시키기 위해 컴퓨터 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 있어서, 상기 감정 기반 통화 컨텐츠 제공 방법은, 사용자와 상대방 간의 통화 중 통화 내용으로부터 감정을 인식하는 단계; 및 상기 인식된 감정을 바탕으로 상기 통화 내용 중 적어도 일부를 저장하여 상기 통화와 관련된 컨텐츠로 제공하는 단계를 포함하는, 컴퓨터 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램을 제공한다.
컴퓨터로 구현되는 감정 기반 통화 컨텐츠 제공 시스템에 있어서, 컴퓨터가 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 사용자와 상대방 간의 통화 중 통화 내용으로부터 감정을 인식하는 감정 인식부; 및 상기 인식된 감정을 바탕으로 상기 통화 내용 중 적어도 일부를 저장하여 상기 통화와 관련된 컨텐츠로 제공하는 컨텐츠 제공부를 포함하는 감정 기반 통화 컨텐츠 제공 시스템을 제공한다.
본 발명의 실시예들에 따르면, 인터넷 전화(VoIP)를 이용한 통화에서 통화 중 감정을 인식하고 인식된 감정을 바탕으로 통화와 관련된 컨텐츠를 생성하여 활용할 수 있다.
본 발명의 실시예들에 따르면, 인터넷 전화(VoIP)를 이용한 통화에서 통화 중 감정을 인식하고 인식된 감정을 바탕으로 통화와 관련된 다양한 UI나 재미 요소를 제공할 수 있다.
도 1은 본 발명의 일 실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 컴퓨터 시스템이 수행할 수 있는 감정 기반 통화 컨텐츠 제공 방법의 예를 도시한 순서도이다.
도 4는 본 발명의 일 실시예에 있어서 음성에서 감정을 인식하는 과정의 예를 도시한 순서도이다.
도 5는 본 발명의 일 실시예에 있어서 영상에서 감정을 인식하는 과정의 예를 도시한 순서도이다.
도 6 내지 도 9는 본 발명의 일 실시예에 있어서 하이라이트 컨텐츠를 제공하는 과정을 설명하기 위한 예시 도면이다.
도 10 내지 도 11은 본 발명의 일 실시예에 있어서 대표 감정과 대응되는 컨텐츠를 제공하는 과정을 설명하기 위한 예시 도면이다.
도 12는 본 발명의 일 실시예에 있어서 감정 랭킹을 반영한 상대방 목록을 제공하는 과정을 설명하기 위한 예시 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명의 실시예들은 통화 중 감정을 인식하여 인식된 감정을 활용하는 기술에 관한 것이다.
본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 통화 중 감정을 인식하고 인식된 감정을 바탕으로 통화와 관련된 컨텐츠를 생성하여 제공하거나 통화와 관련된 다양한 UI나 재미 요소를 제공할 수 있고 이를 통해 재미 요소, 다양성, 효율성 등의 측면에 있어서 상당한 장점들을 달성한다.
본 명세서에서 '통화'는 상대방과 음성을 주고 받는 음성 전화와 상대방과 영상과 음성을 주고 받는 영상 전화를 포괄하여 의미할 수 있고, 일례로 IP 주소를 사용하는 네트워크를 통해 음성 및/또는 영상을 디지털 패킷으로 변환하여 전송하는 기술의 인터넷 전화(VoIP)를 의미할 수 있다.
도 1은 본 발명의 일 실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.
본 발명의 실시예들에 따른 감정 기반 통화 컨텐츠 제공 시스템이 도 1의 컴퓨터 시스템(100)을 통해 구현될 수 있다. 도 1에 도시한 바와 같이, 컴퓨터 시스템(100)은 감정 기반 통화 컨텐츠 제공 방법을 실행하기 위한 구성요소로서 프로세서(110), 메모리(120), 영구 저장 장치(130), 버스(140), 입출력 인터페이스(150) 및 네트워크 인터페이스(160)를 포함할 수 있다.
프로세서(110)는 명령어들의 시퀀스를 처리할 수 있는 임의의 장치를 포함하거나 그의 일부일 수 있다. 프로세서(110)는 예를 들어 컴퓨터 프로세서, 이동 장치 또는 다른 전자 장치 내의 프로세서 및/또는 디지털 프로세서를 포함할 수 있다. 프로세서(110)는 예를 들어, 서버 컴퓨팅 디바이스, 서버 컴퓨터, 일련의 서버 컴퓨터들, 서버 팜, 클라우드 컴퓨터, 컨텐츠 플랫폼, 이동 컴퓨팅 장치, 스마트폰, 태블릿, 셋톱 박스 등에 포함될 수 있다. 프로세서(110)는 버스(140)를 통해 메모리(120)에 접속될 수 있다.
메모리(120)는 컴퓨터 시스템(100)에 의해 사용되거나 그에 의해 출력되는 정보를 저장하기 위한 휘발성 메모리, 영구, 가상 또는 기타 메모리를 포함할 수 있다. 예를 들어, 메모리(120)는 랜덤 액세스 메모리(RAM: random access memory) 및/또는 동적 RAM(DRAM: dynamic RAM)을 포함할 수 있다. 메모리(120)는 컴퓨터 시스템(100)의 상태 정보와 같은 임의의 정보를 저장하는 데 사용될 수 있다. 메모리(120)는 예를 들어 통화 기능을 제어하기 위한 명령어들을 포함하는 컴퓨터 시스템(100)의 명령어들을 저장하는 데에도 사용될 수 있다. 컴퓨터 시스템(100)은 필요에 따라 또는 적절한 경우에 하나 이상의 프로세서(110)를 포함할 수 있다.
버스(140)는 컴퓨터 시스템(100)의 다양한 컴포넌트들 사이의 상호작용을 가능하게 하는 통신 기반 구조를 포함할 수 있다. 버스(140)는 컴퓨터 시스템(100)의 컴포넌트들 사이에, 예를 들어 프로세서(110)와 메모리(120) 사이에 데이터를 운반할 수 있다. 버스(140)는 컴퓨터 시스템(100)의 컴포넌트들 간의 무선 및/또는 유선 통신 매체를 포함할 수 있으며, 병렬, 직렬 또는 다른 토폴로지 배열들을 포함할 수 있다.
영구 저장 장치(130)는 (예를 들어 메모리(120)에 비해) 소정의 연장된 기간 동안 데이터를 저장하기 위해 컴퓨터 시스템(100)에 의해 사용되는 바와 같은 메모리 또는 다른 영구 저장 장치와 같은 컴포넌트들을 포함할 수 있다. 영구 저장 장치(130)는 컴퓨터 시스템(100) 내의 프로세서(110)에 의해 사용되는 바와 같은 비휘발성 메인 메모리를 포함할 수 있다. 예를 들어, 영구 저장 장치(130)는 플래시 메모리, 하드 디스크, 광 디스크 또는 다른 컴퓨터 판독 가능 매체를 포함할 수 있다.
입출력 인터페이스(150)는 키보드, 마우스, 마이크, 카메라, 디스플레이 또는 다른 입력 또는 출력 장치에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 통화 기능과 관련된 입력이 입출력 인터페이스(150)를 통해 수신될 수 있다.
네트워크 인터페이스(160)는 근거리 네트워크 또는 인터넷과 같은 네트워크들에 대한 하나 이상의 인터페이스를 포함할 수 있다. 네트워크 인터페이스(160)는 유선 또는 무선 접속들에 대한 인터페이스들을 포함할 수 있다. 구성 명령들은 네트워크 인터페이스(160)를 통해 수신될 수 있다. 그리고, 통화 기능과 관련된 정보들은 네트워크 인터페이스(160)를 통해 수신 또는 송신될 수 있다.
또한, 다른 실시예들에서 컴퓨터 시스템(100)은 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 시스템(100)은 상술한 입출력 인터페이스(150)와 연결되는 입출력 장치들 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다. 보다 구체적인 예로, 컴퓨터 시스템(100)이 스마트폰과 같은 모바일 기기의 형태로 구현되는 경우, 일반적으로 모바일 기기가 포함하고 있는 카메라, 가속도 센서나 자이로 센서, 카메라, 각종 물리적인 버튼, 터치패널을 이용한 버튼, 입출력 포트, 진동을 위한 진동기 등의 다양한 구성요소들이 컴퓨터 시스템(100)에 더 포함되도록 구현될 수 있다.
도 2는 본 발명의 일 실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이고, 도 3은 본 발명의 일 실시예에 따른 컴퓨터 시스템이 수행할 수 있는 감정 기반 통화 컨텐츠 제공 방법의 예를 도시한 순서도이다.
도 2에 도시된 바와 같이, 프로세서(110)는 감정 인식부(210), 컨텐츠 제공부(220), 및 목록 제공부(230)를 포함할 수 있다. 이러한 프로세서(110)의 구성요소들은 적어도 하나의 프로그램 코드에 의해 제공되는 제어 명령에 따라 프로세서(110)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 프로세서(110)가 통화 중 감정을 인식하도록 컴퓨터 시스템(100)을 제어하기 위해 동작하는 기능적 표현으로서 감정 인식부(210)가 사용될 수 있다. 프로세서(110) 및 프로세서(110)의 구성요소들은 도 3의 감정 기반 통화 컨텐츠 제공 방법이 포함하는 단계들(S310 내지 S340)을 수행할 수 있다. 예를 들어, 프로세서(110) 및 프로세서(110)의 구성요소들은 메모리(120)가 포함하는 운영체제의 코드와 상술한 적어도 하나의 프로그램 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 적어도 하나의 프로그램 코드는 감정 기반 통화 컨텐츠 제공 방법을 처리하기 위해 구현된 프로그램의 코드에 대응될 수 있다.
감정 기반 통화 컨텐츠 제공 방법은 도 3에 도시된 순서대로 발생하지 않을 수 있으며, 단계들 중 일부가 생략되거나 추가의 과정이 더 포함될 수 있다.
단계(S310)에서 프로세서(110)는 감정 기반 통화 컨텐츠 제공 방법을 위한 프로그램 파일에 저장된 프로그램 코드를 메모리(120)에 로딩할 수 있다. 예를 들어, 감정 기반 통화 컨텐츠 제공 방법을 위한 프로그램 파일은 도 1을 통해 설명한 영구 저장 장치(130)에 저장되어 있을 수 있고, 프로세서(110)는 버스를 통해 영구 저장 장치(130)에 저장된 프로그램 파일로부터 프로그램 코드가 메모리(120)에 로딩되도록 컴퓨터 시스템(110)을 제어할 수 있다. 이때, 프로세서(110) 및 프로세서(110)가 포함하는 감정 인식부(210)와 컨텐츠 제공부(220) 및 목록 제공부(230) 각각은 메모리(120)에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(S320 내지 S340)을 실행하기 위한 프로세서(110)의 서로 다른 기능적 표현들일 수 있다. 단계들(S320 내지 S340)의 실행을 위해, 프로세서(110) 및 프로세서(110)의 구성요소들은 직접 제어 명령에 따른 연산을 처리하거나 또는 컴퓨터 시스템(100)을 제어할 수 있다.
단계(S320)에서 감정 인식부(210)는 통화 중 통화 내용으로부터 감정을 인식할 수 있다. 이때, 통화 내용은 통화 중 사용자와 상대방이 주고 받는 음성과 영상 중 적어도 하나를 포함할 수 있고, 감정 인식부(210)는 사용자와 상대방이 주고 받는 통화 내용으로부터 사용자와 상대방 중 적어도 하나의 감정을 인식할 수 있다. 사용자의 감정은 컴퓨터 시스템(100)에 포함된 입력 장치(마이크 또는 카메라)를 통해 직접 입력되는 사용자 측 음성과 영상 중 적어도 하나를 이용하여 인식할 수 있고, 상대방의 감정은 네트워크 인터페이스(160)를 통해 상대방의 디바이스(미도시)로부터 수신된 상대방 측 음성과 영상 중 적어도 하나를 이용하여 인식할 수 있다. 감정을 인식하는 구체적인 과정에서 대해서는 이하에서 다시 설명하기로 한다.
단계(S330)에서 컨텐츠 제공부(220)는 인식된 감정을 바탕으로 통화와 관련된 컨텐츠를 생성하여 제공할 수 있다. 일례로, 컨텐츠 제공부(220)는 통화 내용에서 인식된 감정의 강도(크기)에 따라 통화 내용 중 적어도 일부를 하이라이트 컨텐츠로 저장할 수 있으며, 이때 하이라이트 컨텐츠는 통화 내용에 해당되는 음성과 영상 중 적어도 하나의 일부 구간을 포함할 수 있다. 예를 들어, 컨텐츠 제공부(220)는 통화 중 가장 큰 강도의 감정이 나타난 구간의 영상을 해당 통화의 주요 장면으로 저장할 수 있다. 이때, 컨텐츠 제공부(220)는 하이라이트 컨텐츠의 경우 상대방의 감정을 기준으로 사용자 측 음성과 영상 중 적어도 하나를 이용하여 생성하거나, 혹은 사용자의 감정을 기준으로 상대방 측 음성과 영상 중 적어도 하나를 이용하여 생성할 수 있다. 하이라이트 컨텐츠 생성 시 반대측 음성과 영상 중 적어도 하나를 함께 이용하여 생성하는 것 또한 가능하다. 예를 들어, 컨텐츠 제공부(220)는 영상 통화 중 상대방에게 가장 큰 강도의 감정을 일으킨 양자의 영상 통화 장면, 또는 사용자에게 가장 큰 강도의 감정을 일으킨 양자의 영상 통화 장면을 하이라이트 컨텐츠로 생성할 수 있다. 다른 예로, 컨텐츠 제공부(220)는 통화 내용에서 인식된 감정 별 출현 빈도나 강도에 따라 대표 감정을 선정한 후 대표 감정과 대응되는 컨텐츠를 생성하여 제공할 수 있다. 예를 들어, 컨텐츠 제공부(220)는 통화 중 가장 빈번하게 인식된 감정을 해당 통화의 대표 감정으로 선정하고 통화 내역에 해당 통화의 대표 감정을 나타내는 아이콘을 표시할 수 있다. 이때, 컨텐츠 제공부(220)는 대표 감정을 나타내는 아이콘의 경우 사용자의 감정을 기준으로 생성할 수 있다.
단계(S340)에서 목록 제공부(230)는 인식된 감정을 상대방 별로 누적하여 상대방에 대한 감정 랭킹을 산출한 후 감정 랭킹을 반영한 상대방 목록을 제공할 수 있다. 이때, 목록 제공부(230)는 통화 중 인식된 사용자의 감정을 기준으로 상대방에 대한 감정 랭킹을 산출할 수 있다. 일례로, 목록 제공부(230)는 감정의 종류 별로 상대방에 대한 감정 랭킹을 산출할 수 있고 사용자 요청에 대응되는 종류의 감정 랭킹에 따른 상대방 목록을 제공할 수 있다. 다른 예로, 목록 제공부(230)는 상대방과의 통화마다 통화 중 인식된 감정 중 사전에 정해진 종류의 감정(예컨대, positive emotion: warm, happy, laugh, sweet 등)을 분류하고 분류된 감정 중 가장 큰 감정의 강도를 모두 합산함으로써 해당 상대방에 대한 감정 값을 산출할 수 있고 이러한 상대방 별 감정 값을 기준으로 내림차순 혹은 오름차순으로 정렬한 상대방 목록을 제공할 수 있다. 상대방 별 감정 값을 산출하는 방식의 다른 예로는 통화 중 인식된 감정 중 가장 빈번하게 인식된 감정의 강도를 누적하는 것 또한 가능하다.
도 4는 본 발명의 일 실시예에 있어서 음성에서 감정을 인식하는 과정의 예를 도시한 순서도이다.
단계(S401)에서 감정 인식부(210)는 네트워크 인터페이스(160)를 통해 상대방의 디바이스로부터 통화 음성을 수신할 수 있다. 다시 말해, 감정 인식부(210)는 통화 중 상대방의 디바이스로부터 상대방의 발화에 따른 음성 입력을 수신할 수 있다.
단계(S402)에서 감정 인식부(210)는 단계(S401)에서 수신된 통화 음성에서 감정 정보를 추출함으로써 상대방의 감정을 인식할 수 있다. 감정 인식부(210)는 STT(speech to text)를 통해 음성에 대응되는 문장을 획득한 후 해당 문장에서 감정 정보를 추출할 수 있다. 이때, 감정 정보는 감정 종류와 감정 강도를 포함할 수 있다. 감정을 나타내는 용어, 즉 감정 용어들은 사전에 정해지며 소정 기준에 따라 복수 개의 감정 종류(예컨대, 기쁨, 슬픔, 놀람, 고민, 괴로움, 불안, 공포, 혐오, 분노 등)로 분류되고 감정 용어의 강약에 따라 복수 개의 강도 등급(예컨대, 1~10)으로 분류될 수 있다. 감정 용어는 감정을 나타내는 특정 단어는 물론, 특정 단어를 포함한 구절이나 문장 등을 포함할 수 있다. 예를 들어, '좋아해요'나 '괴롭지만요'와 같은 단어, 혹은 '너무너무 좋아해요'와 같은 구절이나 문장 등이 감정 용어의 범주에 포함될 수 있다. 일례로, 감정 인식부(210)는 상대방의 통화 음성에 따른 문장에서 형태소를 추출한 후 추출된 형태소에서 미리 정해진 감정 용어를 추출하여 추출된 감정 용어에 대응되는 감정 종류와 감정 강도를 분류할 수 있다. 감정 인식부(210)는 상대방의 음성을 일정 구간 단위(예컨대, 2초)로 나누어 구간 별로 감정 정보를 추출할 수 있다. 이때, 하나의 구간의 음성에 복수 개의 감정 용어가 포함된 경우 감정 용어가 속한 감정 종류와 감정 강도에 따라 가중치를 계산할 수 있고 이를 통해 감정 정보에 대한 감정 벡터를 계산하여 해당 구간의 음성을 대표하는 감정 정보를 추출할 수 있다. 감정 용어를 이용하여 음성에서 감정 정보를 추출하는 것 이외에 음성의 톤 정보와 템포 정보 중 적어도 하나를 이용하여 감정 정보를 추출하는 것 또한 가능하다.
따라서, 감정 인식부(210)는 통화 중 상대방의 음성에서 감정을 인식할 수 있으며, 상기에서는 상대방의 감정을 인식하는 것으로 설명하고 있으나 사용자 측 음성으로부터 사용자의 감정을 인식하는 것 또한 상기한 방법과 동일하다.
도 4를 통해 설명한 감정 정보 추출 기술은 예시적인 것으로 이에 한정되는 것은 아니며, 이미 잘 알려진 다른 기술들을 이용하는 것 또한 가능하다.
도 5는 본 발명의 일 실시예에 있어서 영상에서 감정을 인식하는 과정의 예를 도시한 순서도이다.
단계(S501)에서 감정 인식부(210)는 네트워크 인터페이스(160)를 통해 상대방의 디바이스로부터 통화 영상을 수신할 수 있다. 다시 말해, 감정 인식부(210)는 통화 중 상대방의 디바이스로부터 상대방의 얼굴이 촬영된 영상을 수신할 수 있다.
단계(S502)에서 감정 인식부(210)는 단계(S501)에서 수신된 통화 영상에서 얼굴 영역을 추출할 수 있다. 예를 들어, 감정 인식부(210)는 아다부스트(adaptive boosting) 또는 피부색 정보에 기초한 얼굴 검출 방법 등에 기초하여 통화 영상에서 얼굴 영역을 추출할 수 있으며, 이외에도 이미 잘 알려진 다른 기술들을 이용하는 것 또한 가능하다.
단계(S503)에서 감정 인식부(210)는 단계(S502)에서 추출된 얼굴 영역에서 감정 정보를 추출함으로써 상대방의 감정을 인식할 수 있다. 감정 인식부(210)는 영상을 기반으로 얼굴 표정으로부터 감정 종류와 감정 강도를 포함한 감정 정보를 추출할 수 있다. 얼굴 표정은 눈썹, 눈, 코, 입, 피부와 같은 얼굴 요소들의 변형이 일어날 때 발생하는 얼굴 근육의 수축에 의하여 나타나며, 얼굴 표정의 강도는 얼굴 특징의 기하학적 변화 또는 근육 표현의 밀도에 따라서 결정될 수 있다. 일례로, 감정 인식부(210)는 표정에 따른 특징을 추출하기 위한 관심 영역(예컨대, 눈 영역, 눈썹 영역, 코 영역, 입 영역 등)을 추출한 후 관심 영역에서 특징점(point)을 추출하고 특징점을 이용하여 일정한 특징값을 결정할 수 있다. 특징값은 특징점 사이의 거리 등을 기반으로 사람의 표정을 나타내는 특정한 수치에 해당한다. 감정 인식부(210)는 결정한 특징값을 감정 감응치 모델에 적용하기 위하여 영상에 나타난 특징값에 대한 수치의 정도에 따라 일정한 세기값을 결정하고, 미리 마련한 맵핑 테이블을 이용하여 각 특정값의 수치에 매칭하는 일정한 세기값을 결정한다. 맵핑 테이블은 감정 감응치 모델에 따라 사전에 마련된다. 감정 인식부(210)는 감정 감응치 모델과 세기값을 맵핑하고 해당 세기값을 감정 감응치 모델에 적용한 결과에 따라 결정한 감정의 종류와 강도를 추출할 수 있다.
따라서, 감정 인식부(210)는 통화 중 상대방의 영상에서 감정을 인식할 수 있으며, 상기에서는 상대방의 감정을 인식하는 것으로 설명하고 있으나 사용자 측 영상으로부터 사용자의 감정을 인식하는 것 또한 상기한 방법과 동일하다.
도 5를 통해 설명한 감정 정보 추출 기술은 예시적인 것으로 이에 한정되는 것은 아니며, 이미 잘 알려진 다른 기술들을 이용하는 것 또한 가능하다.
도 6 내지 도 9는 본 발명의 일 실시예에 있어서 하이라이트 컨텐츠를 제공하는 과정을 설명하기 위한 예시 도면이다.
도 6은 상대방과의 통화 화면의 예를 도시한 것으로, 영상과 음성을 주고 받는 영상 전화 화면(600)을 나타내고 있다. 영상 전화 화면(600)은 상대방 측 영상(601)을 메인 화면으로 제공하고 일 영역에 사용자 측 얼굴 영상(602)을 함께 제공한다.
예를 들어, 감정 인식부(210)는 통화 중 상대방의 음성에서 감정을 인식하고 컨텐츠 제공부(220)는 상대방의 감정에 기초하여 통화 영상의 적어도 일부를 하이라이트 컨텐츠로 생성할 수 있다. 이때, 하이라이트 컨텐츠는 통화 중 일부 구간의 사용자 측 얼굴 영상(602)을 포함한 통화 내용을 저장함으로써 생성할 수 있고, 다른 예로는 상대방 측 영상(601)을 함께 포함한 통화 내용을 저장하는 것 또한 가능하다.
보다 상세하게, 도 7을 참조하면 컨텐츠 제공부(220)는 통화가 시작되면 일정 구간 단위(예컨대, 2초)(701)만큼 통화 내용(700)을 임시로 저장한다(buffering). 이때, 컨텐츠 제공부(220)는 구간 단위 별로 해당 구간의 통화 내용(700)에서 인식된 감정([감정 종류, 감정 강도])(710)의 강도를 비교하여 이전 구간에서 인식된 감정보다 최근 구간에서 인식된 감정이 더 크다고 판단되는 경우 임시 저장된 통화 내용을 최근 구간의 통화 내용으로 교체한다. 이러한 방식에 따르면, 컨텐츠 제공부(220)는 통화 중 가장 큰 강도의 감정이 인식된 구간의 통화 내용을 하이라이트 컨텐츠로 획득할 수 있다. 예를 들어, 도 7에 도시한 바와 같이 통화 중 전체 구간에서 [happy, 9]가 가장 큰 강도의 감정에 해당되므로 [section 5]에 해당되는 구간의 통화 내용이 하이라이트 컨텐츠가 된다.
도 6의 영상 전화 화면(600)에서 상대방과의 통화가 종료되면 예를 들어 도 8에 도시한 바와 같이 해당 상대방과의 통화 내역을 보여주는 대화 인터페이스 화면(800)으로 이동할 수 있다.
대화 인터페이스 화면(800)은 대화 기반의 인터페이스로 구성되어 상대방과 주고 받은 문자는 물론, 영상 전화나 음성 전화의 통화 내역 등을 모아 제공할 수 있다. 이때, 컨텐츠 제공부(220)는 통화 내역에 포함된 통화 건별로 해당 통화의 하이라이트 컨텐츠를 제공할 수 있다. 예를 들어, 컨텐츠 제공부(220)는 상대방과의 통화가 종료되면 대화 인터페이스 화면(800) 상의 통화 건별 항목(810)에 대응하여 해당 통화의 하이라이트 컨텐츠를 재생하기 위한 UI(811)를 제공할 수 있다.
다른 예로, 컨텐츠 제공부(220)는 도 9에 도시한 바와 같이 영상 전화나 음성 전화의 통화 내역을 모아 보여주는 전화 인터페이스 화면(900)을 통해 하이라이트 컨텐츠를 제공하는 것도 가능하다. 전화 인터페이스 화면(900)은 사용자와 통화 내역이 있는 상대방 목록(910)을 포함할 수 있고, 이때 컨텐츠 제공부(220)는 상대방 목록(910)에서 각 상대방을 나타내는 항목 상에 해당 상대방과의 가장 최근 통화에서의 하이라이트 컨텐츠를 재생하기 위한 UI(911)를 제공할 수 있다.
더 나아가, 컨텐츠 제공부(220)는 하이라이트 컨텐츠의 경우 다양한 매체(예컨대, 메신저, 메일, 메시지 등)를 통해 타인과 공유할 수 있는 기능을 제공할 수 있다. 통화 중 가장 큰 감정을 일으킨 통화 내용을 하이라이트 컨텐츠로 생성할 수 있고, 이러한 하이라이트 컨텐츠를 짤방과 같은 컨텐츠 형태로 타인과 공유할 수 있다.
도 10 내지 도 11은 본 발명의 일 실시예에 있어서 대표 감정과 대응되는 컨텐츠를 제공하는 과정을 설명하기 위한 예시 도면이다.
감정 인식부(210)는 상대방과의 통화 중 사용자의 음성에서 감정을 인식하고 컨텐츠 제공부(220)는 통화 중 감정 별 출현 빈도나 강도를 바탕으로 해당 통화의 대표 감정을 판단하여 대표 감정에 대응되는 컨텐츠를 제공할 수 있다.
도 10을 참조하면, 감정 인식부(210)는 통화가 시작되면 일정 구간 단위(예컨대, 2초)로 각 구간의 음성에서 감정(1010)을 인식할 수 있고, 컨텐츠 제공부(220)는 통화 전체 구간에서 인식된 감정(1010) 중에서 가장 빈번하게 인식된 감정을 대표 감정(1011)으로 간주하여 대표 감정(1011)에 대응되는 아이콘(1020)을 해당 통화와 관련된 컨텐츠로 생성할 수 있다. 이때, 아이콘(1020)은 감정을 나타내는 이모티콘이나 스티커, 이미지 등으로 구성될 수 있다. 대표 감정을 판단함에 있어 출현 빈도가 가장 높은 감정 이외에도 전체 구간 중에서 가장 큰 강도의 감정을 대표 감정으로 판단하거나, 혹은 감정 강도를 감정 종류 별로 합산하여 합산 값이 가장 큰 감정을 대표 감정으로 판단하는 것 또한 가능하다.
컨텐츠 제공부(220)는 통화가 종료되면 해당 통화와 관련된 인터페이스 화면을 통해 해당 통화의 대표 감정을 제공할 수 있다. 예를 들어, 도 11을 참조하면 컨텐츠 제공부(220)는 영상 전화나 음성 전화의 통화 내역을 모아 보여주는 전화 인터페이스 화면(1100)을 통해 통화의 대표 감정을 표시할 수 있다. 전화 인터페이스 화면(1100)은 사용자와 통화 내역이 있는 상대방 목록(1110)을 포함할 수 있고, 이때 컨텐츠 제공부(220)는 상대방 목록(1110)에서 각 상대방을 나타내는 항목 상에 해당 상대방과의 가장 최근 통화에서 판단된 대표 감정을 나타내는 아이콘(1120)을 표시할 수 있다.
도 12는 본 발명의 일 실시예에 있어서 감정 랭킹을 반영한 상대방 목록을 제공하는 과정을 설명하기 위한 예시 도면이다.
목록 제공부(230)는 사용자의 요청에 응답하여 도 12에 도시한 바와 같이 감정 랭킹이 반영된 상대방 목록(1210)을 포함하는 인터페이스 화면(1200)을 제공할 수 있다. 목록 제공부(230)는 통화 중 인식된 사용자의 감정을 바탕으로 상대방에 대한 감정 랭킹을 산출할 수 있으며, 예를 들어 상대방과의 통화마다 통화 중 인식된 감정 중 긍정적인 감정(예컨대, warm, happy, laugh, sweet 등)을 분류하고 분류된 감정 중 가장 큰 감정의 강도를 모두 합산함으로써 상대방 별로 합산된 감정 값에 따라 감정 랭킹을 산출할 수 있다. 목록 제공부(230)는 상대방에 대한 감정 값을 기준으로 내림차순 혹은 오름차순으로 정렬한 상대방 목록(1210)을 제공할 수 있다. 이때, 목록 제공부(230)는 상대방 목록(1210)에서 각 상대방을 나타내는 항목 상에 해당 상대방에 대한 감정 값을 나타내는 평점 정보(1211)를 함께 표시할 수 있다.
목록 제공부(230)는 사전에 정해진 감정에 대한 감정 랭킹 이외에도 감정 종류 별로 감정 랭킹을 산출하여 사용자가 선택한 종류의 감정 랭킹에 따라 상대방 목록을 제공하는 것 또한 가능하다.
따라서, 본 발명에서는 통화 중 통화 내용으로부터 감정을 인식할 수 있고 통화 내용에서 인식된 감정을 바탕으로 통화와 관련된 컨텐츠(하이라이트 컨텐츠, 대표 감정 아이콘 등)를 제공하거나 감정 랭킹을 반영한 상대방 목록을 제공할 수 있다.
이처럼 본 발명의 실시예들에 따르면, 통화 중 감정을 인식하고 인식된 감정을 바탕으로 통화와 관련된 컨텐츠를 생성하여 활용할 수 있고 통화와 관련된 다양한 UI나 재미 요소를 제공할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 컴퓨터로 구현되는 감정 기반 통화 컨텐츠 제공 방법에 있어서,
    사용자와 상대방 간의 통화 중 통화 내용으로부터 감정을 인식하는 단계; 및
    상기 인식된 감정을 바탕으로 상기 통화 내용 중 적어도 일부를 저장하여 상기 통화와 관련된 컨텐츠로 제공하는 단계
    를 포함하는 감정 기반 통화 컨텐츠 제공 방법.
  2. 제1항에 있어서,
    상기 인식하는 단계는,
    상기 사용자와 상기 상대방 간에 주고 받는 영상과 음성 중 적어도 하나를 이용하여 감정을 인식하는 것
    을 특징으로 하는 감정 기반 통화 컨텐츠 제공 방법.
  3. 제1항에 있어서,
    상기 인식하는 단계는,
    상기 통화 내용으로부터 상기 사용자와 상기 상대방 중 적어도 하나에 대한 감정을 인식하는 것
    을 특징으로 하는 감정 기반 통화 컨텐츠 제공 방법.
  4. 제1항에 있어서,
    상기 인식하는 단계는,
    일정 단위의 구간 별로 해당 구간의 통화 내용에서 감정 강도를 인식하고,
    상기 제공하는 단계는,
    상기 통화의 전체 구간 중 강도가 가장 큰 감정이 인식된 구간의 통화 내용을 하이라이트 컨텐츠로 저장하는 단계
    를 포함하는 감정 기반 통화 컨텐츠 제공 방법.
  5. 제4항에 있어서,
    상기 제공하는 단계는,
    상기 통화와 관련된 인터페이스 화면을 통해 상기 하이라이트 컨텐츠를 제공하는 것
    을 특징으로 하는 감정 기반 통화 컨텐츠 제공 방법.
  6. 제4항에 있어서,
    상기 제공하는 단계는,
    상기 하이라이트 컨텐츠를 타인과 공유하는 기능을 제공하는 것
    을 특징으로 하는 감정 기반 통화 컨텐츠 제공 방법.
  7. 제1항에 있어서,
    상기 인식된 감정의 종류와 강도 중 적어도 하나를 이용하여 대표 감정을 선정한 후 상기 대표 감정에 대응되는 컨텐츠를 제공하는 단계
    를 더 포함하는 감정 기반 통화 컨텐츠 제공 방법.
  8. 제7항에 있어서,
    상기 대표 감정에 대응되는 컨텐츠를 제공하는 단계는,
    출현 빈도나 감정 강도가 가장 큰 감정을 상기 대표 감정으로 선정하거나 감정 강도를 감정 종류 별로 합산하여 합산 값이 가장 큰 감정을 상기 대표 감정으로 선정하는 단계
    를 포함하는 감정 기반 통화 컨텐츠 제공 방법.
  9. 제7항에 있어서,
    상기 대표 감정에 대응되는 컨텐츠를 제공하는 단계는,
    상기 통화와 관련된 인터페이스 화면을 통해 상기 대표 감정을 나타내는 아이콘을 표시하는 것
    을 특징으로 하는 감정 기반 통화 컨텐츠 제공 방법.
  10. 제1항에 있어서,
    상기 인식된 감정을 상대방 별로 누적함으로써 상대방에 대한 감정 랭킹을 산출한 후 상기 감정 랭킹을 반영한 상대방 목록을 제공하는 단계
    를 더 포함하는 감정 기반 통화 컨텐츠 제공 방법.
  11. 제10항에 있어서,
    상기 감정 랭킹을 반영한 상대방 목록을 제공하는 단계는,
    상기 인식된 감정 중 사전에 정해진 종류에 해당되는 감정의 강도를 합산하여 상대방에 대한 감정 랭킹을 산출하는 단계
    를 포함하는 감정 기반 통화 컨텐츠 제공 방법.
  12. 제10항에 있어서,
    상기 감정 랭킹을 반영한 상대방 목록을 제공하는 단계는,
    감정 종류 별로 상대방에 대한 감정 랭킹을 산출하고 사용자 요청에 대응되는 종류의 감정 랭킹에 따른 상대방 목록을 제공하는 것
    을 특징으로 하는 감정 기반 통화 컨텐츠 제공 방법.
  13. 감정 기반 통화 컨텐츠 제공 방법을 실행시키기 위해 컴퓨터 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 있어서,
    상기 감정 기반 통화 컨텐츠 제공 방법은,
    사용자와 상대방 간의 통화 중 통화 내용으로부터 감정을 인식하는 단계; 및
    상기 인식된 감정을 바탕으로 상기 통화 내용 중 적어도 일부를 저장하여 상기 통화와 관련된 컨텐츠로 제공하는 단계
    를 포함하는, 컴퓨터 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램.
  14. 컴퓨터로 구현되는 감정 기반 통화 컨텐츠 제공 시스템에 있어서,
    컴퓨터가 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서
    를 포함하고,
    상기 적어도 하나의 프로세서는,
    사용자와 상대방 간의 통화 중 통화 내용으로부터 감정을 인식하는 감정 인식부; 및
    상기 인식된 감정을 바탕으로 상기 통화 내용 중 적어도 일부를 저장하여 상기 통화와 관련된 컨텐츠로 제공하는 컨텐츠 제공부
    를 포함하는 감정 기반 통화 컨텐츠 제공 시스템.
  15. 제14항에 있어서,
    상기 감정 인식부는,
    상기 사용자와 상기 상대방 간에 주고 받는 영상과 음성 중 적어도 하나를 이용하여 감정을 인식하고,
    상기 통화 내용으로부터 상기 사용자와 상기 상대방 중 적어도 하나에 대한 감정을 인식하는 것
    을 특징으로 하는 감정 기반 통화 컨텐츠 제공 시스템.
  16. 제14항에 있어서,
    상기 인식부는,
    일정 단위의 구간 별로 해당 구간의 통화 내용에서 감정 강도를 인식하고,
    상기 컨텐츠 제공부는,
    상기 통화의 전체 구간 중 강도가 가장 큰 감정이 인식된 구간의 통화 내용을 하이라이트 컨텐츠로 저장하는 것
    을 특징으로 하는 감정 기반 통화 컨텐츠 제공 시스템.
  17. 제14항에 있어서,
    상기 컨텐츠 제공부는,
    상기 인식된 감정의 종류와 강도 중 적어도 하나를 이용하여 대표 감정을 선정한 후 상기 대표 감정에 대응되는 컨텐츠를 제공하는 것
    을 특징으로 하는 감정 기반 통화 컨텐츠 제공 시스템.
  18. 제17항에 있어서,
    상기 컨텐츠 제공부는,
    출현 빈도나 감정 강도가 가장 큰 감정을 상기 대표 감정으로 선정하거나 감정 강도를 감정 종류 별로 합산하여 합산 값이 가장 큰 감정을 상기 대표 감정으로 선정하는 것
    을 특징으로 하는 감정 기반 통화 컨텐츠 제공 시스템.
  19. 제14항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 인식된 감정을 상대방 별로 누적함으로써 상대방에 대한 감정 랭킹을 산출한 후 상기 감정 랭킹을 반영한 상대방 목록을 제공하는 목록 제공부
    를 더 포함하는 감정 기반 통화 컨텐츠 제공 시스템.
  20. 제19항에 있어서,
    상기 목록 제공부는,
    상기 인식된 감정 중 사전에 정해진 종류에 해당되는 감정의 강도를 합산하여 상대방에 대한 감정 랭킹을 산출하는 것
    을 특징으로 하는 감정 기반 통화 컨텐츠 제공 시스템.
PCT/KR2017/008557 2017-08-08 2017-08-08 통화 중 감정을 인식하여 인식된 감정을 활용하는 방법 및 시스템 WO2019031621A1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
PCT/KR2017/008557 WO2019031621A1 (ko) 2017-08-08 2017-08-08 통화 중 감정을 인식하여 인식된 감정을 활용하는 방법 및 시스템
KR1020197036741A KR102387400B1 (ko) 2017-08-08 2017-08-08 통화 중 감정을 인식하여 인식된 감정을 활용하는 방법 및 시스템
JP2020506229A JP2020529680A (ja) 2017-08-08 2017-08-08 通話中の感情を認識し、認識された感情を活用する方法およびシステム
US16/780,246 US20200176019A1 (en) 2017-08-08 2020-02-03 Method and system for recognizing emotion during call and utilizing recognized emotion
JP2021168170A JP2022020659A (ja) 2017-08-08 2021-10-13 通話中の感情を認識し、認識された感情を活用する方法およびシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2017/008557 WO2019031621A1 (ko) 2017-08-08 2017-08-08 통화 중 감정을 인식하여 인식된 감정을 활용하는 방법 및 시스템

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/780,246 Continuation US20200176019A1 (en) 2017-08-08 2020-02-03 Method and system for recognizing emotion during call and utilizing recognized emotion

Publications (1)

Publication Number Publication Date
WO2019031621A1 true WO2019031621A1 (ko) 2019-02-14

Family

ID=65271617

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/008557 WO2019031621A1 (ko) 2017-08-08 2017-08-08 통화 중 감정을 인식하여 인식된 감정을 활용하는 방법 및 시스템

Country Status (4)

Country Link
US (1) US20200176019A1 (ko)
JP (2) JP2020529680A (ko)
KR (1) KR102387400B1 (ko)
WO (1) WO2019031621A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021177362A (ja) * 2020-05-08 2021-11-11 ヤフー株式会社 情報処理装置、情報処理方法、情報処理プログラム及び端末装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10990166B1 (en) * 2020-05-10 2021-04-27 Truthify, LLC Remote reaction capture and analysis system
JP7169031B1 (ja) 2022-05-16 2022-11-10 株式会社RevComm プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末
JP7169030B1 (ja) 2022-05-16 2022-11-10 株式会社RevComm プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060047452A (ko) * 2004-04-23 2006-05-18 삼성전자주식회사 휴대단말기의 상태 표시장치 및 방법
KR20070030061A (ko) * 2005-09-12 2007-03-15 엘지전자 주식회사 감정 인식에 의한 데이터 처리 기능을 갖는이동통신단말기, 기지국 서버 및 이를 이용한 방법
KR100835375B1 (ko) * 2007-02-08 2008-06-04 삼성전자주식회사 휴대 단말기의 인간관계 중심 사용자 인터페이스 구성 방법
KR20090034522A (ko) * 2007-10-04 2009-04-08 에스케이 텔레콤주식회사 사용자 감정 상태 정보 제공 장치 및 방법
KR20150055926A (ko) * 2013-11-14 2015-05-22 신동현 휴대용 단말기 및 이의 사용자 감정상태 결정 방법

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005044120A (ja) * 2003-07-22 2005-02-17 Sony Corp 情報蓄積装置、情報検索装置、情報蓄積方法、情報検索方法、情報蓄積システム、情報検索システム、クライアント装置およびサーバ装置
JP2005192024A (ja) * 2003-12-26 2005-07-14 Fujitsu I-Network Systems Ltd コールセンタにおける通話音声データ管理方式およびそれに用いるオペレータ端末
JP4871552B2 (ja) * 2004-09-10 2012-02-08 パナソニック株式会社 情報処理端末
WO2006028223A1 (ja) * 2004-09-10 2006-03-16 Matsushita Electric Industrial Co., Ltd. 情報処理端末
WO2007069361A1 (ja) * 2005-12-16 2007-06-21 Matsushita Electric Industrial Co., Ltd. 情報処理端末
US7893342B2 (en) * 2006-09-08 2011-02-22 Panasonic Corporation Information processing terminal and music information generating program
JP2008113331A (ja) * 2006-10-31 2008-05-15 Aplix Corp 電話システム、電話機、サーバ装置およびプログラム
DE602009000214D1 (de) * 2008-04-07 2010-11-04 Ntt Docomo Inc Gefühlerkennungsmitteilungssystem und Mitteilungsspeicherserver dafür
JPWO2010001512A1 (ja) * 2008-07-03 2011-12-15 パナソニック株式会社 印象度抽出装置および印象度抽出方法
JP5407777B2 (ja) * 2009-11-12 2014-02-05 船井電機株式会社 携帯端末装置および携帯端末装置間の通信方法
US9641480B2 (en) * 2012-02-05 2017-05-02 Apple Inc. Automated participant account determination for a communication session
KR20130131059A (ko) * 2012-05-23 2013-12-03 삼성전자주식회사 감정 정보를 포함한 폰북 서비스를 제공하기 위한 방법 및 그 전자 장치
JP2013255162A (ja) * 2012-06-08 2013-12-19 Kyocera Corp 通信装置、制御方法、及び制御プログラム
JP2014026351A (ja) * 2012-07-24 2014-02-06 Shunji Sugaya コミュニケーション端末、コミュニケーション方法、及び、コミュニケーション端末用プログラム
JP6189684B2 (ja) * 2013-08-29 2017-08-30 京セラ株式会社 端末装置及び通話データ処理方法
CN104811469B (zh) * 2014-01-29 2021-06-04 北京三星通信技术研究有限公司 用于移动终端的情绪共享方法和装置及其移动终端
US10057305B2 (en) * 2014-09-10 2018-08-21 Microsoft Technology Licensing, Llc Real-time sharing during a phone call
CN105615902A (zh) * 2014-11-06 2016-06-01 北京三星通信技术研究有限公司 情绪监控方法和装置
CN114461062A (zh) * 2014-11-07 2022-05-10 索尼公司 信息处理系统、控制方法和计算机可读存储介质
JP2016153833A (ja) * 2015-02-20 2016-08-25 ダイヤル・サービス株式会社 性格評価支援システム及び採用試験システム
JP6881831B2 (ja) * 2015-03-31 2021-06-02 日本電気株式会社 情報処理システム、情報処理方法および情報処理プログラム
JP2017085411A (ja) * 2015-10-29 2017-05-18 オー・エイ・エス株式会社 メンタル状態管理装置及びプログラム
US20170359393A1 (en) * 2016-06-14 2017-12-14 Wipro Limited System and Method for Building Contextual Highlights for Conferencing Systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060047452A (ko) * 2004-04-23 2006-05-18 삼성전자주식회사 휴대단말기의 상태 표시장치 및 방법
KR20070030061A (ko) * 2005-09-12 2007-03-15 엘지전자 주식회사 감정 인식에 의한 데이터 처리 기능을 갖는이동통신단말기, 기지국 서버 및 이를 이용한 방법
KR100835375B1 (ko) * 2007-02-08 2008-06-04 삼성전자주식회사 휴대 단말기의 인간관계 중심 사용자 인터페이스 구성 방법
KR20090034522A (ko) * 2007-10-04 2009-04-08 에스케이 텔레콤주식회사 사용자 감정 상태 정보 제공 장치 및 방법
KR20150055926A (ko) * 2013-11-14 2015-05-22 신동현 휴대용 단말기 및 이의 사용자 감정상태 결정 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021177362A (ja) * 2020-05-08 2021-11-11 ヤフー株式会社 情報処理装置、情報処理方法、情報処理プログラム及び端末装置

Also Published As

Publication number Publication date
JP2022020659A (ja) 2022-02-01
KR102387400B1 (ko) 2022-04-15
KR20200029394A (ko) 2020-03-18
US20200176019A1 (en) 2020-06-04
JP2020529680A (ja) 2020-10-08

Similar Documents

Publication Publication Date Title
WO2019031621A1 (ko) 통화 중 감정을 인식하여 인식된 감정을 활용하는 방법 및 시스템
WO2018038277A1 (ko) 대화방을 통해 각 사용자의 상태를 반영한 화상 데이터를 공유하는 메시지 공유 방법메시지 공유 방법 및 상기 방법을 실행시키기 위한 컴퓨터 프로그램
CN108491147A (zh) 一种基于虚拟人物的人机交互方法及移动终端
WO2014003365A1 (en) Method and apparatus for processing multiple inputs
WO2019132135A1 (ko) 사용자간 대화 세션에 대한 능동적 모니터링 및 개입을 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체
WO2018021651A1 (ko) 사용자의 감정 정보를 이용한 오프라인 캐릭터 인형 제어 장치 및 방법
WO2022196921A1 (ko) 인공지능 아바타에 기초한 인터랙션 서비스 방법 및 장치
CN110399470A (zh) 会话消息处理
WO2019164321A1 (en) Method for intelligent assistance
WO2019132459A1 (ko) 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법 및 그 장치
WO2019156536A1 (ko) 학습 데이터 중 식별 가능하지만 학습 가능성이 없는 데이터의 레이블화를 통한, 대화형 ai 에이전트 시스템을 위한 지식베이스 모델의 구축 또는 갱신 방법, 컴퓨터 장치, 및 컴퓨터 판독 가능 기록 매체
WO2019132066A1 (ko) 다중 프로필을 제공하는 방법 및 시스템
WO2018182063A1 (ko) 영상 통화 제공 장치, 방법, 및 컴퓨터 프로그램
WO2018169276A1 (ko) 언어 정보를 처리하기 위한 방법 및 그 전자 장치
WO2022182064A1 (ko) 인공지능 아바타 튜터를 활용한 회화 학습 시스템 및 그 방법
WO2016182393A1 (ko) 사용자의 감성을 분석하는 방법 및 디바이스
WO2013125915A1 (en) Method and apparatus for processing information of image including a face
WO2021066399A1 (ko) 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템
WO2019168235A1 (ko) 복수 개의 같은 유형의 엔티티 정보의 분석에 기초한 인텐트 결정을 제공하는 방법 및 대화형 ai 에이전트 시스템, 및 컴퓨터 판독가능 기록 매체
WO2016163565A1 (ko) 멀티모달 다중 에이전트 기반의 감정 통신 시스템
CN112764600B (zh) 资源处理方法、装置、存储介质及计算机设备
WO2019098423A1 (ko) 메시지의 대화 흐름을 파악하기 위한 방법과 시스템 및 비-일시적인 컴퓨터 판독 가능한 기록 매체
WO2015037871A1 (ko) 텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 서버 및 단말
CN107783650A (zh) 一种基于虚拟机器人的人机交互方法及装置
WO2020149621A1 (ko) 영어 말하기 평가 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17921418

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020506229

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17921418

Country of ref document: EP

Kind code of ref document: A1