WO2020067666A1 - 버추얼 상담 시스템 및 이를 이용한 상담방법 - Google Patents

버추얼 상담 시스템 및 이를 이용한 상담방법 Download PDF

Info

Publication number
WO2020067666A1
WO2020067666A1 PCT/KR2019/011796 KR2019011796W WO2020067666A1 WO 2020067666 A1 WO2020067666 A1 WO 2020067666A1 KR 2019011796 W KR2019011796 W KR 2019011796W WO 2020067666 A1 WO2020067666 A1 WO 2020067666A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
information
voice
user
text
Prior art date
Application number
PCT/KR2019/011796
Other languages
English (en)
French (fr)
Inventor
민성태
Original Assignee
주식회사 솔루게이트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 솔루게이트 filed Critical 주식회사 솔루게이트
Publication of WO2020067666A1 publication Critical patent/WO2020067666A1/ko
Priority to US17/212,890 priority Critical patent/US11837251B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0281Customer communication at a business location, e.g. providing product or service information, consulting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
    • G06Q30/016After-sales
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Definitions

  • the present invention relates to a virtual counseling system and a counseling method using a virtual counseling system that allows a user to input question information into a system and receive virtual counseling.
  • the call center originally meant a place where the company simply received customer inquiries, but recently, it responded to various requests from customers related to product and delivery information, corporate image enhancement, marketing, and customer service. It is performing the function of creating added value.
  • the above-described call center service is generally provided using a telephone.
  • the method of providing services using these telephones is when a customer makes a call, and after receiving inquiries and problems, such as corporate, product, delivery, customer service, and other information, through an agent, information or measures corresponding thereto. Is how to answer.
  • the above-mentioned ARS informs the customer of the information retrieval method, and then inputs the necessary information, and outputs it, so that the customer needs to be familiar with the above-described information retrieval method, which consumes a large amount of time and has a conversation-based processing system. Because it is not, it is very inconvenient to use the information retrieval method. Therefore, even with the above-mentioned conventional ARS, there is a problem that it is difficult to accurately and quickly acquire information desired by the customer.
  • Patent Document 1 Publication No. 10-2008-0112771
  • the purpose of the present invention is to solve the above-mentioned problems, to provide accurate answer data to questions entered by users, and to analyze users' emotions to enable more detailed consultation.
  • an object of the present invention is to provide a virtual counseling system and a counseling method using the virtual counseling system capable of accurately grasping the user's intention and emotion and conducting a smooth counseling based on the question.
  • the virtual consultation system for achieving the problem to be solved is provided with an input unit for generating voice data by acquiring voice information of a user, and receiving the voice data through the input unit, the voice data Determining a type, generating a type information for the voice data, and receiving the type information from the determining unit to generate object data, convert the contents of the voice data into first text data, and It may include; a text data generating unit for generating the second text data by combining the object data and the first text data.
  • the content of the voice data is converted into the first text data, and the object data and the first text data are combined to be expressed as being divided into the second text data.
  • the present invention is not limited thereto, and the voice data is converted to the first text data, and the object data and the first text data can be combined with each other. That is, since the object data and the first text data may be combined in the process of converting the speech data into the first text data, the conversion of the speech data into the first text data ends and the second text data may be generated. have.
  • the determining unit may include a reference unit including reference information for determining the type of the voice data, and a voice classification unit determining the type of the voice data and generating the type information.
  • the reference unit and the voice classification unit of the determination unit may be configured as one unit. That is, if the voice classification unit takes the configuration including the reference information, the reference unit may not be configured separately.
  • the type information may include first type information including emotion information of the user and second type information including sentence type information of the voice data.
  • the reference unit may include learning data serving as the reference information.
  • the learning data may include emotion word data for determining the user's emotion, and sentence shape data for determining the sentence shape of the voice data.
  • the text data generation unit may include a first text generation unit that generates the first text data, an object data generation unit that generates the object data, and a second text generation unit that generates the second text data. have.
  • the object data includes emotion information of the user and information about whether the content of the user's voice data is a question or a plain text.
  • the user may additionally input voice information through the input unit.
  • the input unit may amplify the volume of the voice information in order to improve the reliability of the user's voice data.
  • the reliability of the voice data may be improved by amplifying the volume of the voice information or removing noise from the voice information.
  • the virtual consultation method for achieving the problem to be solved, an input step of obtaining voice data from a user, receiving the voice data, determining the type of the voice data, and the voice A determination step of generating type information for data, generating object data by receiving the type information, converting the content of the voice data into first text data, and combining the object data and the first text data And a text data generation step of generating second text data and an output step of generating feedback data based on the second text data and providing the feedback data to the user.
  • the type information is generated by the determination unit, but the determination unit includes a reference unit including reference information for determining the type of the audio data, and a voice classification unit determining the type of the audio data to generate the type information. It can contain.
  • the reference unit and the voice classification unit of the determination unit may be configured as one unit. That is, if the voice classification unit takes the configuration including the reference information, the reference unit may not be configured separately.
  • the type information may include first type information including emotion information of the user and second type information including sentence type information of the voice data.
  • the reference unit may include learning data serving as the reference information.
  • the learning data may include emotion word data for determining the user's emotion and sentence shape data for determining the sentence shape of the voice data.
  • the object data includes emotion information of the user and information about whether the content of the user's voice data is a question or a plain text.
  • the second text data is transmitted to the counselor, and the counselor consults with the user based on the second text data.
  • the second text data is transmitted at the time of consultation, but in some cases, the first text data or object data may be transmitted. If based on the second text data, counseling of the counselor may be smoother, but counseling of the counselor may be possible even when the first text data or object data is used.
  • a virtual counseling system and a counseling method using the same are provided to accurately grasp the user's question intention and emotion and conduct a smooth counseling based on the question.
  • FIG. 1 shows the overall configuration of a virtual counseling system according to an embodiment of the present invention.
  • FIG. 2 is a view showing a determination unit of a virtual counseling system according to an embodiment of the present invention.
  • FIG 3 shows a text data generation unit of a virtual counseling system according to an embodiment of the present invention.
  • FIG. 4 is a flowchart of a virtual counseling method using a virtual counseling system according to an embodiment of the present invention.
  • FIG. 1 shows the overall configuration of a virtual counseling system according to an embodiment of the present invention
  • FIG. 2 shows a determination unit of the virtual counseling system
  • FIG. 3 shows a text data generation unit of the virtual counseling system.
  • the virtual consultation system 100 includes an input unit 110, a determination unit 120, a text data generation unit 130, an output unit 140, and storage It may include a portion 150.
  • the input unit 110 acquires user input information and generates voice data.
  • Various input devices may be included to receive data from a user.
  • the input unit 110 recognizes the user's voice and generates voice data.
  • an apparatus such as removing a frequency other than the human voice frequency or an internal processing step is additionally provided, so that the recognition rate of the voice can be improved.
  • the input unit 110 may amplify the volume of the voice information in order to improve the reliability of the user's voice data. Through this, the recognition rate of the user's voice information may be improved.
  • the determination unit 120 is connected to the input unit 110, and receives the voice data generated by the input unit 110 to determine the characteristics of the voice data. That is, the determination unit 120 receives the audio data through the input unit 110, determines the type of the audio data, and generates type information for the audio data.
  • the determination unit 120 includes a reference unit 121 including reference information for determining the type of the audio data, and a voice classification unit 122 for determining the type of the audio data and generating the type information It may include.
  • the type information may include first type information including user's emotion information and second type information including sentence form information of voice data.
  • the sentence shape information may be information about whether the voice data generated from the user's voice information is a question, a plain text, a question, a request, a claim, or the like.
  • the reference unit 121 may include learning data that serves as reference information for determining what type of audio data is.
  • the learning data may include emotion word data for determining a user's emotion and sentence shape data for determining a sentence shape of the voice data. That is, the reference unit 121 may include emotion word data, which is reference data that can determine a user's emotion from the user's voice data.
  • the reference unit 121 may include sentence form data, which is reference data capable of determining the sentence form through the content, phrase, and tone of the sentence intended by the user in the user's voice data.
  • the reference unit 121 may include, in addition to the data listed above, voice shape data capable of directly determining a human voice.
  • voice shape data capable of directly determining a human voice.
  • the content of the learning data of the reference unit 121 is updated as the consultation is repeated and the voice data of users is accumulated. That is, the contents of the learning data become rich.
  • Such learning may be performed by a machine learning method, which is an algorithm of artificial intelligence (AI).
  • the voice classification unit 122 when the learning data of the reference unit 121 is updated, the voice classification unit 122, which will be described later, more accurately recognizes the user's voice through learning based on machine learning based on the updated data. Can be divided. That is, the voice classification unit 122 may extend the voice classification function through learning based on the updated data of the reference unit 121.
  • the reference unit 121 may include a storage device to store learning data.
  • the voice classification unit 122 compares the voice data with the learning data of the reference unit 121, and generates type information through this. Alternatively, the voice classification unit 122 may generate type information through a humidified system based on voice data.
  • the voice classifying unit 122 compares the user's tone and feeling included in the voice data, and the emotional word data of the learning data with each other to determine the user's emotional state. In addition, the voice classification unit 122 determines the sentence type of the user by comparing the sentence type data of the learning data with the user's tone, speech content (explanatory request, question, request, claim, etc.) included in the voice data. .
  • the voice classification unit 122 can learn to directly classify the sung data, and through this, the voice classification unit ( 122) can directly classify the user's voice data by type, without relying on data stored in the reference unit 121. That is, the data of the reference unit 121 is used as data that the voice classification unit 122 can learn by machine learning, and may not be used as data that is directly compared with the user's voice data.
  • the voice classification unit 122 finally generates type information.
  • the type information may include first type information including user's emotion information and second type information including sentence type information of the voice data.
  • the type information may include only one of the first type information and the second type information.
  • the voice classification unit 122 of the determination unit 120 may include a control device or a signal processing device to compare voice data and learning data and thereby generate type information.
  • the voice classification unit 122 may generate type information from voice data based on information and logic acquired by learning. That is, based on the information acquired by machine learning, the voice classification unit 122 may generate type information from voice data.
  • the text data generation unit 130 receives the type information from the determination unit 120 to generate object data, converts the content of the voice data into first text data, and the object data and the first text
  • the second text data is generated by combining the data.
  • the second text data generated by the text data generating unit 130 is the best method.
  • the text data generating unit 130 does not convert the voice data into the first text data, but directly combines the object data with the voice data to form fusion data, and generates the second text data from the fusion data. You may.
  • the text data generation unit 130 includes a first text generation unit 131 for generating the first text data, an object data generation unit 132 for generating the object data, and the second text data.
  • a second text generation unit 133 to be generated may be included.
  • the first text generation unit 131 texts the content of the user's speech included in the voice data.
  • the first text generator 131 may include voice text information in which voice and text match each other. That is, the first text generation unit 131 compares and analyzes the user's voice data and voice text information to generate first text data.
  • the first text generating unit 131 is implemented based on machine learning, the first text generating unit 131 is based on the voice data by the learned logic without comparing and analyzing each other between the voice data and the voice text information. First text data is generated.
  • the object data generation unit 132 generates object data based on the type information transmitted from the determination unit 120.
  • the object data includes information about the emotion of the user and whether the content of the user's voice data is a question or a plain text.
  • the object data generation unit 132 generates the user's emotion information (angry, surprise, question, happiness, gratitude, urgency, etc.) based on the first type information among the type information. In addition, the object data generation unit 132 generates information on whether the sentence type is a question or a plain text based on the second type information among the type information. The information generated in this way is included in the object data.
  • the second text generation unit 133 finally generates the second text data by combining the first text data and the object data.
  • the first text data contains only the content of the utterance, and does not clearly include the user's emotions or intentions. Accordingly, the user's exact counseling intention can be grasped by combining the user's emotion and sentence form (intention), which is the object data, with the first text data and generating the second text data.
  • the first text data may display emotion information in the form of an emoticon, or a question mark may be included in the first text data. In this way, the object data is displayed on the first text data in various hyohyeon forms.
  • the output unit 140 generates feedback data including an answer corresponding to the user's consultation intention based on the second text data.
  • the output unit 140 provides the generated feedback data to the user.
  • the user can determine whether the contents of his / her consultation were performed correctly by checking the feedback data. In the unlikely event that the user does not receive a satisfactory consultation, the user may receive additional consultation by inputting additional voice information through the input unit 110.
  • the determination unit 120 analyzes the user's voice data and determines that it is difficult for the user to proceed with a normal consultation (for example, when the volume of the voice included in the voice data is greater than a preset decibel (dB)), virtual Counseling may be discontinued and consultation with an actual counselor may proceed.
  • a normal consultation for example, when the volume of the voice included in the voice data is greater than a preset decibel (dB)
  • dB decibel
  • the above-described second text data is transmitted to the counselor, and the counselor can grasp the user's counseling intention and emotional state before the counseling starts.
  • the counselor can perform a preliminary work in which a smoother consultation can be conducted, and the user can receive a satisfactory consultation.
  • information output from the output unit 140 may be stored in the storage unit 150.
  • information When information is stored in the storage unit 150, it is stored by the blockchain, so that consultation information can be stored in time series.
  • the storage unit 150 may store information such as the content of the user's consultation, the user's speech, habits, date and time of consultation, and weather.
  • the storage unit 150 may store the user's consultation content, that is, the user's voice.
  • FIG. 4 is a flowchart of a virtual counseling method using a virtual counseling system according to an embodiment of the present invention.
  • the virtual counseling method (S100) using the virtual counseling system includes an input step (S110), a determination step (S120), a text data generation step (S130), and an output.
  • Step S140 may be included.
  • voice data is acquired from a user. That is, the user inputs voice information and converts it into an electric signal to obtain voice data.
  • voice data in order to improve the degree of extraction of voice data, a user's voice information can be amplified.
  • the determination step S120 receives the voice data, determines the type of the voice data, and generates type information for the voice data.
  • the generation of the type information is made in the above-described determination unit (120 in FIG. 1), wherein the determination unit 120 includes a reference unit (121 in FIG. 2) including reference information for determining the type of the voice data, A voice classification unit (122 of FIG. 2) may be included to determine the type of the voice data and generate the type information.
  • the type information may include first type information including emotion information of the user and second type information including sentence type information of the voice data.
  • the reference unit 121 may include learning data serving as reference information.
  • the learning data includes emotional word data for determining the user's emotion and sentence shape data for determining the sentence shape of the voice data.
  • the information of the emotional word data and the sentence form data may be updated through repeated consultation.
  • the learning data may include a user's voice. Accordingly, the voice classification unit 122 may progress through the learning data of the reference unit 121. That is, the voice classification unit 122 can determine the counseling content of the user from the voice data of the user from the learning data by machine learning.
  • the object data is generated by receiving the above-described type information, the contents of the voice data are converted into the first text data, and the second text is combined by combining the object data and the first text data.
  • the object data may include emotion information of the user and information about whether the content of the user's voice data is a question or a plain text.
  • the output step S140 may generate feedback data based on the second text data described above, provide feedback data to the user, and receive a response to the consultation content inquired by the user.
  • the user additionally inputs voice information through the input unit, thereby further consulting Can receive
  • the amount of information of the learning data described above increases, and the amount of information of the voice classification unit 122 is also increased by the increased amount of information.
  • the voice classification unit 122 has the ability to more accurately determine the type of voice data of the user.
  • the second text data is transmitted to the counselor, and the counselor can proceed with the user based on the second text data.
  • a situation in which a separate weight is applied to each sentence or word, context, and emotion based on the first text data or object data included in the second text data generated in the process of virtual consultation with the user, and a response is required It can be calculated numerically how close to the threshold for.
  • a complaint index can be provided, and the complaint index builds each sentence, word, etc. into a separate database in advance, and the corresponding sentence or word When appears directly or a similar word appears, a predetermined index is assigned to the corresponding sub-complain index to determine the comp- indic index, which is the sum of the sub-complain indexes.
  • a high weight can be applied to words or sentences that directly indicate customer complaints.
  • the value of the complain index which is the sum of the subcomplain indexes, exceeds a predetermined threshold, the complain counselor who has the highest matching rate and is the currently responding complainant among the competing staffs stored or managed in advance And matching, the complainant can accurately recognize the previous virtual counseling situation based on the transmitted second text data and continuously respond.
  • the matching rate of the complainant may be calculated according to the type of the second text data classified according to a predetermined criterion. To this end, the second text data may be given a type by a predetermined classification.
  • the match rate of the complain counselor may further consider whether there is a corresponding experience in a similar complain situation and may be determined based on the similarity with the type of the second text data.
  • counseling history data can be collected and managed for each complaint counselor, and the personality of each complaint counselor or behavior type is analyzed in advance to determine which advisor is better suited to the situation, complaint intensity, complaint theme, complaint reason, etc. You can.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Psychiatry (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 이용자가 질문정보를 시스템에 입력하여 가상으로 상담을 받을 수 있는 버추얼 상담 시스템에 관한 것이다. 본 발명의 일 실시예에 따른 버추얼 상담 시스템은, 이용자의 음성정보를 획득하여 음성데이터를 생성하는 입력부와, 상기 입력부를 통해 상기 음성데이터를 제공받아, 상기 음성데이터의 타입을 판단하고, 상기 음성데이터에 대한 타입정보를 생성하는 판단부와, 상기 판단부로부터 타입정보를 제공받아 객체데이터를 생성하고, 상기 음성데이터의 내용을 제 1 텍스트데이터로 변환하며, 상기 객체데이터와 상기 제 1 텍스트데이터를 결합하여 제 2 텍스트데이터를 생성하는 텍스트데이터 생성부;를 포함할 수 있다.

Description

버추얼 상담 시스템 및 이를 이용한 상담방법
본 발명은 이용자가 질문정보를 시스템에 입력하여 가상으로 상담을 받을 수 있는 버추얼 상담 시스템 및 이를 이용한 상담방법에 관한 것이다.
본 출원은 2018년 9월 28일에 출원된 한국특허출원 제10-2018-0115490호에 기초한 우선권을 주장하며, 해당 출원의 명세서 및 도면에 개시된 모든 내용은 본 출원에 원용된다.
콜센터(Call Center)란, 원래 기업에서 고객의 문의전화를 단순히 받는 곳을 의미하였으나, 최근에는 제품 및 배송 등에 관련된 정보제공, 기업이미지 제고, 마케팅, 고객서비스 등과 관련된 고객의 다양한 요청을 응대하면서 새로운 부가가치를 창조해 내는 기능을 수행하고 있다.
상술한 콜센터의 서비스는 일반적으로 전화를 이용하여 제공되고 있다. 이러한 전화를 이용하여 서비스를 제공하는 방법은 고객이 전화를 걸면, 상담원을 통해 기업, 상품, 배송, 고객서비스 및 기타 정보 등에 대한 질의사항 및 문제점 등을 접수한 후, 이에 대응되는 정보 또는 조치 등을 답변하는 방법이다.
이러한 전화를 이용하여 콜센터의 서비스를 제공하는 방법은 항상 상담원이 상주해야하는 문제점이 있다. 이에 따라, 상담원이 퇴근한 이후에는, 콜센터의 서비스가 불가능한 문제가 있으며, 또한, 상담원을 추가로 운용하는 경우, 인건비 등 비용이 증대되는 문제가 있다. 이에 따라, 근래에, 문자로 저장된 데이터를 음성으로 변환하여 제공하거나, 각종 정보를 음성으로 저장하여 두고 고객이 전화를 이용하여 시스템에 접속하면 음성으로 필요한 정보를 검색할 수 있도록 사용법을 알려주고, 필요한 정보를 찾으면 이를 음성으로 들려 주는 ARS(Automatic Response System)이 도입되었다.
그러나, 상술한 ARS는 고객에게 정보검색 방법을 알려준 다음, 필요한 정보를 입력하는 경우, 이를 출력하는 것으로써, 고객이 상술한 정보검색 방법을 숙지해야하는데 시간의 소모가 크고, 대화기반의 처리시스템이 아니기 때문에, 정보검색 방법의 사용이 매우 불편하다. 따라서, 상술한 종래의 ARS에 의하더라도, 고객이 원하는 정보를 정확하고 신속하게 획득하기가 어렵다는 문제가 있다.
(특허문헌 1) 공개특허공보 제10-2008-0112771호
본 발명의 목적은 상술한 문제점을 해결하기 위한 것으로, 이용자가 입력하는 질문에 대해 정확한 답변데이터를 제공하고, 이용자의 감정도 분석하여 보다 세밀한 상담이 이루어질 수 있도록 하는 것이다.
이에, 본 발명의 목적은 이용자의 질문 의도와 감정을 정확히 파악하고 이를 바탕으로 원활한 상담을 진행할 수 있는 버추얼 상담 시스템 및 이를 이용한 상담 방법을 제공하는데 있다.
본 발명의 다른 목적 및 이점은 하기의 발명의 상세한 설명, 청구범위 및 도면에 의해 보다 명확하게 된다.
상기 해결하려는 과제를 달성하기 위한 본 발명의 일 실시예에 따른 버추얼 상담 시스템은, 이용자의 음성정보를 획득하여 음성데이터를 생성하는 입력부와, 상기 입력부를 통해 상기 음성데이터를 제공받아, 상기 음성데이터의 타입을 판단하고, 상기 음성데이터에 대한 타입정보를 생성하는 판단부와, 상기 판단부로부터 타입정보를 제공받아 객체데이터를 생성하고, 상기 음성데이터의 내용을 제 1 텍스트데이터로 변환하며, 상기 객체데이터와 상기 제 1 텍스트데이터를 결합하여 제 2 텍스트데이터를 생성하는 텍스트데이터 생성부;를 포함할 수 있다. 여기서, 음성데이터의 내용이 제1 텍스트데이터로 변환되고, 객체데이터와 제1 텍스트데이터가 결합되어 제2 텍스트데이터가 생성되는 것으로 구분하여 표현하였다. 그러나, 이에 한정되는 것은 아니고, 음성데이터가 제1 텍스트데이터로 변환됨과 동시에, 객체데이터와 제1 텍스트데이터가 서로 결합될 수 있다. 즉, 음성데이터가 제1 텍스트데이터로 변환되는 과정에서 객체데이터와 제1 텍스트데이터가 결합될 수 있으므로, 음성데이터가 제1 텍스트데이터로 변환되는 것이 종료됨과 동시에 상기 제2 텍스트데이터가 생성될 수도 있다.
상기 판단부는, 상기 음성데이터의 타입을 판단하기 위한 기준 정보를 포함하는 레퍼런스부와, 상기 음성데이터의 타입을 결정하여 상기 타입정보를 생성하는 음성분류부를 포함할 수 있다.
한편, 판단부의 레퍼런스부와 음성분류부는 하나의 단위로 구성될 수도 있다. 즉, 음성분류부가 상기 기준 정보를 포함하는 구성을 취한다면, 레퍼런스부는 별도로 구성되지 않을 수도 있다.
상기 타입정보는, 상기 이용자의 감정정보가 포함된 제 1 타입정보와, 상기 음성데이터의 문장형태 정보가 포함된 제 2 타입정보를 포함할 수 있다.
상기 레퍼런스부는 상기 기준 정보로 작용하는 학습데이터를 포함할 수 있다.
상기 학습데이터는, 상기 이용자의 감정을 판단하기 위한 감정단어데이터와, 상기 음성데이터의 문장형태를 판단하기 위한 문장형태데이터를 포함할 수 있다.
반복되는 상담을 통해 상기 감정단어데이터와 상기 문장형태데이터의 정보가 갱신된다.
*상기 텍스트데이터 생성부는, 상기 제 1 텍스트데이터를 생성하는 제 1 텍스트생성부와, 상기 객체데이터를 생성하는 객체데이터생성부와, 상기 제 2 텍스트데이터를 생성하는 제 2 텍스트생성부를 포함할 수 있다.
상기 객체데이터는 상기 이용자의 감정정보와, 상기 이용자의 음성데이터의 내용이 의문문 또는 평서문인지에 대한 정보가 포함된다.
상기 제 2 텍스트데이터를 바탕으로 생성된 피드백 데이터가 상기 이용자에게 제공되되, 상기 이용자가 만족할만한 상담을 받지 못했을 경우, 상기 이용자는 상기 입력부를 통해 추가로 음성정보를 입력할 수 있다.
상기 입력부는 상기 이용자의 음성데이터의 신뢰도를 향상시키기 위해, 상기 음성정보의 음량을 증폭시킬 수 있다.
보다 구체적으로, 상기 음성데이터의 신뢰도를 향상시키기 위하여, 음성정보의 음량을 증폭시키거나 음성정보에서 잡음을 제거시켜, 음성데이터의 신뢰도를 향상시킬 수 있다.
상기 해결하려는 과제를 달성하기 위한 본 발명의 다른 실시예에 따른 버추얼 상담 방법은, 이용자로부터 음성데이터를 획득하는 입력단계와, 상기 음성데이터를 제공받아, 상기 음성데이터의 타입을 판단하고, 상기 음성데이터에 대한 타입정보를 생성하는 판단단계와, 상기 타입정보를 제공받아 객체데이터를 생성하고, 상기 음성데이터의 내용을 제 1 텍스트데이터로 변환하며, 상기 객체데이터와 상기 제 1 텍스트데이터를 결합하여 제 2 텍스트데이터를 생성하는 텍스트데이터 생성단계와, 상기 제2 텍스트데이터를 바탕으로 피드백 데이터를 생성하여 상기 이용자에게 상기 피드백 데이터를 제공하는 출력단계;를 포함할 수 있다.
상기 타입정보의 생성은 판단부에서 이루어지되, 상기 판단부는 상기 음성데이터의 타입을 판단하기 위한 기준 정보를 포함하는 레퍼런스부와, 상기 음성데이터의 타입을 결정하여 상기 타입정보를 생성하는 음성분류부를 포함할 수 있다.
한편, 판단부의 레퍼런스부와 음성분류부는 하나의 단위로 구성될 수도 있다. 즉, 음성분류부가 상기 기준 정보를 포함하는 구성을 취한다면, 레퍼런스부는 별도로 구성되지 않을 수 있다.
상기 타입정보는 상기 이용자의 감정정보가 포함된 제 1 타입정보와, 상기 음성데이터의 문장형태 정보가 포함된 제 2 타입정보를 포함할 수 있다.
상기 레퍼런스부는 상기 기준 정보로 작용하는 학습데이터를 포함할 수 있다.
상기 학습데이터는 상기 이용자의 감정을 판단하기 위한 감정단어데이터와 상기 음성데이터의 문장형태를 판단하기 위한 문장형태데이터를 포함할 수 있다.
반복되는 상담을 통해 상기 감정단어데이터와 상기 문장형태데이터의 정보가 갱신된다.
상기 객체데이터는 상기 이용자의 감정정보와, 상기 이용자의 음성데이터의 내용이 의문문 또는 평서문인지에 대한 정보가 포함된다.
상기 이용자와 버추얼 상담을 진행하기 곤란하다 판단되는 경우, 상기 제 2 텍스트데이터를 상담사에게 전송하고, 상기 상담사는 상기 제 2 텍스트데이터에 기반하여 상기 이용자와 상담한다.
상담시에는 상기 제2 텍스트데이터가 전송되는 것을 원칙으로 하나, 경우에 따라 제1 텍스트데이터나 객체데이터가 전달될 수 있다. 제2 텍스트데이터에 기반할 경우, 상담사의 상담이 보다 원활할 수 있으나, 제1 텍스트데이터 또는 객체데이터에 의할 경우에도, 상담사의 상담은 가능할 수 있다.
본 발명에 의할 경우, 이용자의 질문 의도와 감정을 정확히 파악하고 이를 바탕으로 원활한 상담을 진행할 수 있는 버추얼 상담 시스템 및 이를 이용한 상담 방법을 제공된다.
도 1은 본 발명의 일 실시예에 따른 버추얼 상담 시스템의 전체 구성을 도시한 것이다.
도 2는 본 발명의 일 실시예에 따른 버추얼 상담 시스템의 판단부를 나타낸 것이다.
도 3은 본 발명의 일 실시예에 따른 버추얼 상담 시스템의 텍스트데이터 생성부를 나타낸 것이다.
도 4는 본 발명의 일 실시예에 따른 버추얼 상담 시스템을 이용한 버추얼 상담 방법의 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 아래 첨부된 도면을 참조하여 본 발명의 실시를 위한 구체적인 내용을 상세히 설명한다. 도면에 관계없이 동일한 부재번호는 동일한 구성요소를 지칭하며, "및/또는"은 언급된 아이템들의 각각 및 하나 이상의 모든 조합을 포함한다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 본 발명의 실시예에 따른 버추얼(virtual) 상담 시스템 및 이를 이용한 상담방법을 설명한다.
도 1은 본 발명의 일 실시예에 따른 버추얼 상담 시스템의 전체 구성을 도시한 것이고, 도 2는 상기 버추얼 상담 시스템의 판단부를 나타낸 것이고, 도 3은 상기 버추얼 상담 시스템의 텍스트데이터 생성부를 나타낸 것이다.
도 1 내지 도 3을 참고하면, 본 발명의 일 실시예에 따른 버추얼 상담 시스템(100)은 입력부(110), 판단부(120), 텍스트데이터 생성부(130), 출력부(140), 저장부(150)를 포함할 수 있다.
입력부(110)는 이용자의 입력정보를 획득하여 음성데이터를 생성한다. 이용자로부터 데이터를 전달받을 수 있도록 각종 입력장치를 포함할 수 있다.
즉, 입력부(110)는 이용자의 음성을 인식하여 음성데이터를 생성한다. 이때, 사람의 음성주파수 외의 주파수를 제거하는 등의 장치 또는 내부의 처리 단계가 추가로 구비됨으로써, 음성의 인식률이 향상될 수 있다. 또한, 입력부(110)는 이용자의 음성데이터의 신뢰도를 향상시키기 위해, 상기 음성정보의 음량을 증폭시킬 수 있다. 이를 통해 이용자의 음성정보에 대한 인식률이 향상될 수 있다.
다음으로, 판단부(120)는 입력부(110)와 연결되고, 입력부(110)에서 생성된 음성데이터를 수신하여 음성데이터의 특징을 판별한다. 즉, 판단부(120)는 입력부(110)를 통해 상기 음성데이터를 제공받아, 상기 음성데이터의 타입을 판단하고, 상기 음성데이터에 대한 타입정보를 생성한다.
이를 위해, 판단부(120)는 상기 음성데이터의 타입을 판단하기 위한 기준 정보를 포함하는 레퍼런스부(121)와, 상기 음성데이터의 타입을 결정하여 상기 타입정보를 생성하는 음성분류부(122)를 포함할 수 있다.
여기서, 타입정보는 이용자의 감정정보가 포함된 제 1 타입정보와, 음성데이터의 문장형태정보가 포함된 제 2 타입정보를 포함할 수 있다. 문장형태정보는 이용자의 음성정보로부터 생성된 음성데이터가 의문문인지, 평서문인지, 질문인지, 요청인지, 클레임인지 등에 대한 정보일 수 있다.
한편, 레퍼런스부(121)는 음성데이터가 어떤 타입인지 판단할 수 있는 기준 정보로 작용하는 학습데이터를 포함할 수 있다. 여기서, 학습데이터는 이용자의 감정을 판단하기 위한 감정단어데이터와 상기 음성데이터의 문장형태를 판단하기 위한 문장형태데이터를 포함할 수 있다. 즉, 레퍼런스부(121)는 이용자의 음성데이터에서 이용자의 감정을 판단할 수 있는 기준데이터인 감정단어데이터를 포함할 수 있다. 또한, 레퍼런스부(121)는 이용자의 음성데이터에서 이용자가 의도한 문장의 내용 및 어감, 어투를 통해 문장형태를 판단할 수 있는 기준데이터인 문장형태데이터를 포함할 수 있다.
또한, 레퍼런스부(121)는 상기 나열한 데이터 외에, 사람의 음성을 직접 판단할 수 있는 음성형태데이터도 포함할 수 있다. 이를 통해, 본 발명의 일 실시예에 따른 버추얼 상담 시스템은 궁극적으로 사람의 음성을 통한 머신러닝이 가능해 질 수 있다.
한편, 상담이 반복되고, 이용자들의 음성데이터가 축적될수록 레퍼런스부(121)의 학습데이터의 내용이 갱신된다. 즉, 학습데이터의 내용이 풍부해진다. 전반적으로 상담을 통해 상기 감정단어데이터와 상기 문장형태데이터의 정보가 갱신되어, 본 발명의 실시예에 따른 버추얼 상담 시스템의 상담 완성도가 향상될 수 있다. 이러한 학습은 인공지능(Artificial Intelligence, AI)의 알고리즘인 머신러닝(machine learning)법에 의해 진행될 수 있다.
보다 구체적으로, 상술한 바와 같이, 레퍼런스부(121)의 학습데이터가 갱신되면, 후술하는 음성분류부(122)가 갱신된 데이터를 바탕으로 머신러닝에 기반하여 학습을 통해 이용자의 음성을 보다 정확하게 분듀될 수 있다. 즉, 레퍼런스부(121)의 갱신된 데이터들을 기반으로 음성분류부(122)는 학습을 통해 음성 분류 기능을 확장시킬 수 있다.
레퍼런스부(121)는 학습데이터를 저장할 수 있도록 저장장치를 포함할 수 있다.
음성분류부(122)는 음성데이터와 레퍼런스부(121)의 학습데이터를 서로 비교하고, 이를 통해 타입정보를 생성한다. 또는 음성분류부(122)는 음성데이터를 기반으로 힉습된 시스템을 통해 타입정보를 생성할 수도 있다.
즉, 음성분류부(122)는 음성데이터에 포함된 이용자의 어투 및 어감 등과 학습데이터의 감정단어데이터를 서로 비교하여, 이용자의 감정상태를 판단한다. 또한, 음성분류부(122)는 음성데이터에 포함된 이용자의 어투, 발화 내용(설명요청, 질문, 요청, 클레임 등)등과 학습데이터의 문장형태데이터를 서로 비교하여, 이용자의 문장형태를 판단한다.
또는, 상술한 바와 같이, 레퍼런스부(121)에 포함된 데이터들 또는 갱신되는 데이터들을 통해 음성분류부(122)는 은성데이터를 직접 분류할 수 있는 학습이 가능하며, 이를 통해, 음성분류부(122)는 레퍼런스부(121)에 저장된 데이터들에 의하지 않고, 직접 학습하며, 이용자의 음성데이터를 타입별로 분류할 수도 있다. 즉, 레퍼런스부(121)의 데이터들은 음성분류부(122)가 머신러닝에 의해 학습할 수 있는 자료로 사용되고, 이용자의 음성데이터와 직접 비교되는 자료로 사용되지 않을 수도 있다.
이러한 과정을 통해, 음성분류부(122)는 최종적으로 타입정보를 생성한다. 상술한 바와 같이, 타입정보는 이용자의 감정정보가 포함된 제 1 타입정보와, 상기 음성데이터의 문장형태 정보가 포함된 제 2 타입정보를 포함할 수 있다. 또는, 타입정보는 상기 제1 타입정보 및 제2 타입정보 중 어느 하나만을 포함할 수도 있다.
판단부(120)의 음성분류부(122)는 음성데이터와 학습데이터를 비교하고, 이에 의해 타입정보를 생성할 수 있도록, 제어장치 또는 신호처리장치를 포함할 수 있다. 또는 음성분류부(122)는 학습에 의해 습득한 정보 및 로직을 바탕으로 음성데이터로부터 타입정보를 생성할 수 있다. 즉, 머신러닝에 의해 습득한 정보를 바탕으로, 음성분류부(122)는 음성데이터로부터 타입정보를 생성할 수 있다.
다음으로, 텍스트데이터 생성부(130)는 판단부(120)로부터 타입정보를 제공받아 객체데이터를 생성하고, 상기 음성데이터의 내용을 제 1 텍스트데이터로 변환하며, 상기 객체데이터와 상기 제 1 텍스트데이터를 결합하여 제 2 텍스트데이터를 생성한다.
한편, 텍스트데이터 생성부(130)가 생성하는 상기 제2 텍스트데이터가 가장 최선의 방식이다. 다만, 경우에 따라 텍스트데이터 생성부(130)는 음성데이터를 제1 텍스트데이터로 변환하지 않고, 음성데이터에 객체데이터를 바로 결합하여 융합데이터를 형성하고, 융합데이터로부터 상기 제2 텍스트데이터를 생성할 수도 있다.
이를 위해, 텍스트데이터 생성부(130)는 상기 제 1 텍스트데이터를 생성하는 제 1 텍스트생성부(131)와, 상기 객체데이터를 생성하는 객체데이터생성부(132)와, 상기 제 2 텍스트데이터를 생성하는 제 2 텍스트생성부(133)를 포함할 수 있다.
제1 텍스트생성부(131)는 음성데이터에 포함된 이용자의 발화 내용을 텍스트화한다. 이를 위해, 제1 텍스트생성부(131)는 음성과 텍스트가 서로 매칭된 음성텍스트정보를 포함할 수 있다. 즉, 제1 텍스트생성부(131)는 이용자의 음성데이터와 음성텍스트정보를 서로 비교 및 분석하여, 제1 텍스트데이터를 생성한다.
한편, 제1 텍스트생성부(131)가 머신러닝 기반으로 구현될 경우, 제1 텍스트생성부(131)는 음성데이터와 음성텍스트정보 간에 서로 비교 및 분석 없이, 학습된 로직에 의해 음성데이터를 바탕으로 제1 텍스트데이터를 생성한다.
객체데이터생성부(132)는 판단부(120)에서 전송된 타입정보를 바탕으로 객체데이터를 생성한다. 객체데이터는 이용자의 감정정보와, 이용자의 음성데이터의 내용이 의문문 또는 평서문인지에 대한 정보를 포함한다.
보다 구체적으로, 객체데이터생성부(132)는 타입정보 중 제1 타입정보를 바탕으로 이용자의 감정정보(화남, 놀람, 의문, 행복, 감사, 긴급 등)를 생성한다. 또한, 객체데이터생성부(132)는 타입정보 중 제2 타입정보를 바탕으로, 문장형태가 의문문인지 평서문인지 등에 대한 정보를 생성한다. 이렇게 생성된 정보는 객체데이터에 포함된다.
제2 텍스트생성부(133)는 제1 텍스트데이터와 객체데이터를 결합하여 제2 텍스트데이터를 최종적으로 생성한다. 제1 텍스트데이터에는 발화의 내용만 포함되어 있을뿐, 이용자의 감정이나 의도등이 명확히 포함되지 않는다. 이에, 객체데이터인 이용자의 감정 및 문장형태(의도) 등을 제1 텍스트데이터에 결합하여 제2 텍스트데이터를 생성함으로써, 이용자의 정확한 상담의도를 파악할 수 있다. 이때, 제1 텍스트데이터에는 이모티콘 형식으로 감정정보가 표시되거나, 의문부호등이 제1 텍스트데이터에 포함될 수 있다. 이렇게, 객체데이터는 여러 효현형태로 제1 텍스트데이터에 표시된다.
한편, 출력부(140)는 제2 텍스트데이터를 기반으로, 이용자의 상담의도에 대응하는 답변이 포함된 피드백 데이터를 생성한다. 출력부(140)는 생성된 피드백 데이터를 이용자에게 제공한다. 이용자는 피드백 데이터를 확인하여, 본인의 상담 내용이 정확히 수행되었는지 판단할 수 있다. 먼약, 이용자가 만족할만한 상담을 받지 못했을 경우, 이용자는 입력부(110)를 통해 추가로 음성정보를 입력하여 추가 상담을 받을 수 있다.
한편, 이용자가 과격한 감정상태인 경우, 버추얼 상담이 원활히 진행되지 않을 수 있다. 판단부(120)가 이용자의 음성데이터를 분석하여, 이용자가 정상적인 상담을 진행하기 어렵다고 판단되는 경우(예를들어, 음성데이터에 포함된 음성의 크기가 기 설정된 데시벨(dB) 이상인 경우), 버추얼 상담이 중단되고, 실제 상담사와 상담이 진행될 수 있다.
이때, 상술한 제2 텍스트데이터가 상담사에게 전달되어, 상담사는 이에 근거하여 상담이 개시되기 전에 이용자의 상담의도 및 감정상태를 파악할 수 있다. 이에 의해, 상담사는 보다 원활한 상담을 진행할 수 있는 사전작업을 진행할 수 있고, 이용자는 만족할만한 상담을 받을 수 있다.
한편, 출력부(140)에서 출력된 정보는 저장부(150)에 저장될 수 있다. 저장부(150)에 정보가 저장될 때, 이는 블록체인에 의해 저장되어, 시계열적으로 상담내용이 저장될 수 있다. 저장부(150)에는 이용자의 상담 내용, 상담시 이용자의 말투, 습관, 상담일시, 날씨 등의 정보가 저장될 수 있다. 또한, 저장부(150)는 이용자의 상담내용, 즉 이용자의 음성을 저장할 수 있다.
이용자가 추후에 본 발명의 버추얼 상담 시스템(100)을 이용할 때, 저장된 정보를 바탕으로 이용자의 이전 상담내용을 참고하여 보다 원활한 상담을 진행할 수 있다.
다음으로, 본 발명의 일실시예에 따른 버추얼 상담 시스템(100)을 이용한 버추얼 상담 방법에 대해 상세히 설명한다. 도 4는 본 발명의 일 실시예에 따른 버추얼 상담 시스템을 이용한 버추얼 상담 방법의 순서도이다.
도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 버추얼 상담 시스템을 이용한 버추얼 상담 방법(S100)은 입력단계(S110), 판단단계(S120), 텍스트데이터 생성단계(S130), 및 출력단계(S140)를 포함할 수 있다.
입력단계(S110)에서는 이용자로부터 음성데이터를 획득한다. 즉, 이용자가 음성정보를 입력하고, 이를 전기신호로 변환하여 음성데이터를 획득한다. 본 단계에서 음성데이터의 추출도를 향상시키기 위해, 이용자의 음성정보를 증폭시킬 수 있다.
계속해서, 판단단계(S120)는 음성데이터를 제공받아, 상기 음성데이터의 타입을 판단하고, 상기 음성데이터에 대한 타입정보를 생성한다.
타입정보의 생성은 상술한 판단부(도 1의 120)에서 이루어지되, 상기 판단부(120)는 상기 음성데이터의 타입을 판단하기 위한 기준 정보를 포함하는 레퍼런스부(도 2의 121)와, 상기 음성데이터의 타입을 결정하여 상기 타입정보를 생성하는 음성분류부(도 2의 122)를 포함할 수 있다.
여기서, 타입정보는 상기 이용자의 감정정보가 포함된 제 1 타입정보와, 상기 음성데이터의 문장형태 정보가 포함된 제 2 타입정보를 포함할 수 있다.
한편, 레퍼런스부(121)는 기준 정보로 작용하는 학습데이터를 포함할 수 있다. 여기서, 학습데이터는 상기 이용자의 감정을 판단하기 위한 감정단어데이터와 상기 음성데이터의 문장형태를 판단하기 위한 문장형태데이터를 포함한다. 이때, 감정단어데이터와 상기 문장형태데이터의 정보는 반복되는 상담을 통해 갱신될 수 있다. 또한, 학습데이터는 이용자의 음성을 포함할 수도 있다. 이에 의해, 레퍼런스부(121)의 학습데이터를 통해 음성분류부(122)가 학습을 진행할 수 있다. 즉, 음성분류부(122)가 머신러닝에 의해 학습데이터로부터 이용자의 음성데이터로부터, 이용자의 상담내용을 판단할 수 있다.
텍스트데이터 생성단계(S130)는 상술한 타입정보를 제공받아 객체데이터를 생성하고, 상기 음성데이터의 내용을 제 1 텍스트데이터로 변환하며, 상기 객체데이터와 상기 제 1 텍스트데이터를 결합하여 제 2 텍스트데이터를 생성한다. 여기서, 객체데이터는 상기 이용자의 감정정보와, 상기 이용자의 음성데이터의 내용이 의문문 또는 평서문인지에 대한 정보가 포함될 수 있다.
출력단계(S140)는 상술한 제2 텍스트데이터를 바탕으로 피드백 데이터를 생성하여 상기 이용자에게 피드백 데이터를 제공하여, 이용자가 문의한 상담 내용에 대한 답변을 받을 수 있다. 참고로, 제 2 텍스트데이터를 바탕으로 생성된 피드백 데이터가 상기 이용자에게 제공되었으나, 상기 이용자가 만족할만한 상담을 받지 못했을 경우, 상기 이용자는 상기 입력부를 통해 추가로 음성정보를 입력하여, 추가의 상담을 받을 수 있다. 추가의 음성정보 입력을 통해 상술한 학습데이터의 정보량은 증가하고, 증가된 정보량에 의해 음성분류부(122)의 학습량도 증가된다. 이에 의해, 음성분류부(122)는 보다 정확하게 이용자의 음성데이터의 타입을 판단할 수 있는 능력을 갖추게 된다.
한편, 이용자와 버추얼 상담을 진행하기 곤란하다고 판단되는 경우, 상기 제 2 텍스트데이터를 상담사에게 전송하고, 상기 상담사는 상기 제 2 텍스트데이터에 기반하여 상기 이용자와 상담을 진행할 수 있다.
구체적으로, 이용자와 버추얼 상담이 진행되는 과정에서 생성된 제2 텍스트데이터 내에 포함된 제1 텍스트데이터 또는 객체데이터를 기초로 각 문장 또는 단어, 문맥, 감정 등에 개별적인 가중치를 적용하고, 대응이 필요한 상황에 대한 임계치에 어느 정도 근접했는지 수치적으로 계산할 수 있다. 사전에 버추얼 상담 외에 전문 상담사가 직접 통화로 상담을 진행해야 할 사례인지를 평가하기 위해, 컴플레인 인덱스를 제공할 수 있으며 컴플레인 인덱스는 각 문장, 단어 등을 미리 별도의 데이터베이스로 구축하고 해당 문장 또는 단어가 직접 등장하거나 또는 유사단어가 등장할 경우, 해당 서브 컴플레인 인덱스에 소정의 가중치를 부여하여 서브 컴플레인 인덱스의 총합인 컴플레인 인덱스가 결정될 수 있다. 직접적으로 고객 불만 등을 나타내는 단어나 문장에 대해서는 가중치를 높게 적용할 수 있다. 버추얼 상담이 지속되면서, 각 서브 컴플레인 인덱스들의 합인 컴플레인 인덱스의 값이 소정의 임계값을 초과하는 경우, 사전에 저장 또는 관리 되고 있는 컴플레인 대응팀 데이터베이스 상의 대응인력 중에서 매칭율이 가장 높고 현재 대응가능한 컴플레인 상담자를 매칭하고, 해당 컴플레인 상담자는 전송된 제2 텍스트데이터를 기초로 이전 버추얼 상담 상황을 정확히 인지하고 연속적인 대응이 가능할 수 있다. 이 과정에서, 컴플레인 상담자의 매칭율은 상기 컴플레인 인덱스의 총합 외에도, 소정 기준에 따라 분류된 상기 제2 텍스트데이터의 타입에 따라 산정될 수 있다. 이를 위해 제2 텍스트데이터는 소정의 분류에 의해 타입이 부여될 수 있다. 컴플레인 상담자의 매칭율은 기존에 유사한 컴플레인 상황의 대응경험이 있는지를 추가로 고려할 수 있으며 상기한 제2 텍스트데이터의 타입과의 유사도를 기초로 결정될 수 있다. 이를 위해, 각 컴플레인 상담자별로 상담 히스토리 데이터를 수집 및 관리할 수 있으며, 각 컴플레인 상담자의 성격이나, 행동유형을 미리 분석하여 상황이나 컴플레인 강도, 컴플레인 주제, 컴플레인 이유 등과 더 잘 부합되는 컴플레인 상담자를 결정할 수 있다.
이상 본 발명의 실시예들을 설명하였으나, 본 발명은 상기 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 제조될 수 있으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims (18)

  1. 이용자의 음성정보를 획득하여 음성데이터를 생성하는 입력부;
    상기 입력부를 통해 상기 음성데이터를 제공받아, 상기 음성데이터의 타입을 판단하고, 상기 음성데이터에 대한 타입정보를 생성하는 판단부; 및
    상기 판단부로부터 타입정보를 제공받아 객체데이터를 생성하고, 상기 음성데이터의 내용을 제 1 텍스트데이터로 변환하며, 상기 객체데이터와 상기 제 1 텍스트데이터를 결합하여 제 2 텍스트데이터를 생성하는 텍스트데이터 생성부;를 포함하는 버추얼 상담 시스템.
  2. 제1 항에 있어서,
    상기 판단부는,
    상기 음성데이터의 타입을 판단하기 위한 기준 정보를 포함하는 레퍼런스부와,
    상기 음성데이터의 타입을 결정하여 상기 타입정보를 생성하는 음성분류부를 포함하는 버추얼 상담 시스템.
  3. 제2 항에 있어서,
    상기 타입정보는,
    상기 이용자의 감정정보가 포함된 제 1 타입정보와, 상기 음성데이터의 문장형태 정보가 포함된 제 2 타입정보를 포함하는 버추얼 상담 시스템.
  4. 제2 항에 있어서,
    상기 레퍼런스부는 상기 기준 정보로 작용하는 학습데이터를 포함하는 버추얼 상담 시스템.
  5. 제4 항에 있어서,
    상기 학습데이터는,
    상기 이용자의 감정을 판단하기 위한 감정단어데이터와, 상기 음성데이터의 문장형태를 판단하기 위한 문장형태데이터를 포함하는 버추얼 상담 시스템.
  6. 제5 항에 있어서,
    반복되는 상담을 통해 상기 감정단어데이터와 상기 문장형태데이터의 정보가 갱신되는 버추얼 상담 시스템.
  7. 제1 항에 있어서,
    상기 텍스트데이터 생성부는,
    상기 제 1 텍스트데이터를 생성하는 제 1 텍스트생성부와,
    상기 객체데이터를 생성하는 객체데이터생성부와,
    상기 제 2 텍스트데이터를 생성하는 제 2 텍스트생성부를 포함하는 버추얼 상담 시스템.
  8. 제7 항에 있어서,
    상기 객체데이터는 상기 이용자의 감정정보와, 상기 이용자의 음성데이터의 내용이 의문문 또는 평서문인지에 대한 정보가 포함된 버추얼 상담 시스템.
  9. 제1 항에 있어서,
    상기 제 2 텍스트데이터를 바탕으로 생성된 피드백 데이터가 상기 이용자에게 제공되되,
    상기 이용자가 만족할만한 상담을 받지 못했을 경우, 상기 이용자는 상기 입력부를 통해 추가로 음성정보를 입력하는 버추얼 상담 시스템.
  10. 제1 항에 있어서,
    상기 입력부는 상기 이용자의 음성데이터의 신뢰도를 향상시키기 위해, 상기 음성정보의 음량을 증폭시키는 버추얼 상담 시스템.
  11. 이용자로부터 음성데이터를 획득하는 입력단계;
    상기 음성데이터를 제공받아, 상기 음성데이터의 타입을 판단하고, 상기 음성데이터에 대한 타입정보를 생성하는 판단단계;
    상기 타입정보를 제공받아 객체데이터를 생성하고, 상기 음성데이터의 내용을 제 1 텍스트데이터로 변환하며, 상기 객체데이터와 상기 제 1 텍스트데이터를 결합하여 제 2 텍스트데이터를 생성하는 텍스트데이터 생성단계; 및
    상기 제2 텍스트데이터를 바탕으로 피드백 데이터를 생성하여 상기 이용자에게 상기 피드백 데이터를 제공하는 출력단계;를 포함하는 버추얼 상담 방법.
  12. 제11 항에 있어서,
    상기 타입정보의 생성은 판단부에서 이루어지되,
    상기 판단부는 상기 음성데이터의 타입을 판단하기 위한 기준 정보를 포함하는 레퍼런스부와, 상기 음성데이터의 타입을 결정하여 상기 타입정보를 생성하는 음성분류부를 포함하는 버추얼 상담 방법.
  13. 제12 항에 있어서,
    상기 타입정보는 상기 이용자의 감정정보가 포함된 제 1 타입정보와, 상기 음성데이터의 문장형태 정보가 포함된 제 2 타입정보를 포함하는 버추얼 상담 방법.
  14. 제12 항에 있어서,
    상기 레퍼런스부는 상기 기준 정보로 작용하는 학습데이터를 포함하는 버추얼 상담 방법.
  15. 제14 항에 있어서,
    상기 학습데이터는 상기 이용자의 감정을 판단하기 위한 감정단어데이터와 상기 음성데이터의 문장형태를 판단하기 위한 문장형태데이터를 포함하는 버추얼 상담 방법.
  16. 제15 항에 있어서,
    반복되는 상담을 통해 상기 감정단어데이터와 상기 문장형태데이터의 정보가 갱신되는 버추얼 상담 방법.
  17. 제11 항에 있어서,
    상기 객체데이터는 상기 이용자의 감정정보와,
    상기 이용자의 음성데이터의 내용이 의문문 또는 평서문인지에 대한 정보가 포함된 버추얼 상담 방법.
  18. 제11 항에 있어서,
    상기 이용자와 버추얼 상담을 진행하기 곤란하다 판단되는 경우, 상기 제 2 텍스트데이터를 상담사에게 전송하고, 상기 상담사는 상기 제 2 텍스트데이터에 기반하여 상기 이용자와 상담하는 버추얼 상담 방법.
PCT/KR2019/011796 2018-09-28 2019-09-11 버추얼 상담 시스템 및 이를 이용한 상담방법 WO2020067666A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/212,890 US11837251B2 (en) 2018-09-28 2021-03-25 Virtual counseling system and counseling method using the same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180115490A KR102219189B1 (ko) 2018-09-28 2018-09-28 버추얼 상담 시스템 및 이를 이용한 상담방법
KR10-2018-0115490 2018-09-28

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/212,890 Continuation US11837251B2 (en) 2018-09-28 2021-03-25 Virtual counseling system and counseling method using the same

Publications (1)

Publication Number Publication Date
WO2020067666A1 true WO2020067666A1 (ko) 2020-04-02

Family

ID=69953002

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/011796 WO2020067666A1 (ko) 2018-09-28 2019-09-11 버추얼 상담 시스템 및 이를 이용한 상담방법

Country Status (3)

Country Link
US (1) US11837251B2 (ko)
KR (1) KR102219189B1 (ko)
WO (1) WO2020067666A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599359A (zh) * 2020-05-09 2020-08-28 标贝(北京)科技有限公司 人机交互方法、服务端、客户端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120117041A (ko) * 2011-04-14 2012-10-24 한국과학기술원 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체
KR20140060187A (ko) * 2012-11-09 2014-05-19 현대자동차주식회사 음성인식시스템의 증폭율 조정장치 및 방법
KR20160060243A (ko) * 2014-11-19 2016-05-30 한국전자통신연구원 고객 응대 서비스 장치 및 방법
KR20160114668A (ko) * 2014-01-28 2016-10-05 조몰 초어친 게엠베하 자동으로 텍스트의 의미를 검출하고 텍스트의 일의성을 측정하기 위한 방법
JP2018073343A (ja) * 2016-11-04 2018-05-10 トヨタ自動車株式会社 感情推定方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100911312B1 (ko) 2007-06-22 2009-08-11 주식회사 엘지씨엔에스 보이스 포털서비스 시스템 및 보이스 포털서비스 방법
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
KR101719196B1 (ko) * 2014-06-09 2017-03-23 삼성생명보험주식회사 고객 상담 의도를 예측하여 대응하기 위한 장치 및 컴퓨터-판독가능 매체
KR20160138613A (ko) * 2015-05-26 2016-12-06 한국전자통신연구원 이모티콘을 이용한 자동통역 방법 및 이를 이용한 장치
US10957083B2 (en) * 2016-08-11 2021-03-23 Integem Inc. Intelligent interactive and augmented reality based user interface platform
KR101827320B1 (ko) * 2017-06-08 2018-02-09 윤준호 인공지능 콜센터 서버
US10681311B1 (en) * 2017-10-30 2020-06-09 Affective Software, Inc. Semi-automated, distributed, interactive relationship counseling system
KR102135182B1 (ko) * 2019-04-05 2020-07-17 주식회사 솔루게이트 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템
US11417330B2 (en) * 2020-02-21 2022-08-16 BetterUp, Inc. Determining conversation analysis indicators for a multiparty conversation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120117041A (ko) * 2011-04-14 2012-10-24 한국과학기술원 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체
KR20140060187A (ko) * 2012-11-09 2014-05-19 현대자동차주식회사 음성인식시스템의 증폭율 조정장치 및 방법
KR20160114668A (ko) * 2014-01-28 2016-10-05 조몰 초어친 게엠베하 자동으로 텍스트의 의미를 검출하고 텍스트의 일의성을 측정하기 위한 방법
KR20160060243A (ko) * 2014-11-19 2016-05-30 한국전자통신연구원 고객 응대 서비스 장치 및 방법
JP2018073343A (ja) * 2016-11-04 2018-05-10 トヨタ自動車株式会社 感情推定方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599359A (zh) * 2020-05-09 2020-08-28 标贝(北京)科技有限公司 人机交互方法、服务端、客户端及存储介质

Also Published As

Publication number Publication date
US20210249036A1 (en) 2021-08-12
US11837251B2 (en) 2023-12-05
KR20200036188A (ko) 2020-04-07
KR102219189B1 (ko) 2021-02-23

Similar Documents

Publication Publication Date Title
WO2020207035A1 (zh) 骚扰电话拦截方法、装置、设备及存储介质
WO2019168253A1 (ko) 계층적으로 사용자 표현을 이해하고 답변을 생성하는 대화형 상담 챗봇 장치 및 방법
WO2011074771A2 (ko) 외국어 학습 장치 및 그 제공 방법.
WO2018128238A1 (ko) 디스플레이 장치를 이용한 가상 상담 시스템 및 방법
WO2015005679A1 (ko) 음성 인식 방법, 장치 및 시스템
EP3545487A1 (en) Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium
WO2018174443A1 (en) Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium
WO2021010744A1 (ko) 음성 인식 기반의 세일즈 대화 분석 방법 및 장치
WO2018169276A1 (ko) 언어 정보를 처리하기 위한 방법 및 그 전자 장치
WO2020067666A1 (ko) 버추얼 상담 시스템 및 이를 이용한 상담방법
JP4441782B2 (ja) 情報提示方法及び情報提示装置
WO2021066399A1 (ko) 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템
KR100868638B1 (ko) 영상 통화 말풍선 제공 시스템 및 방법
WO2019031621A1 (ko) 통화 중 감정을 인식하여 인식된 감정을 활용하는 방법 및 시스템
Ramadani et al. A new technology on translating Indonesian spoken language into Indonesian sign language system.
TWI751504B (zh) 人機協作對話系統與方法
WO2019142976A1 (ko) 사용자 발화 입력에 대한 대화 응답 후보를 표시하도록 하는 디스플레이 제어 방법, 컴퓨터 판독가능 기록 매체 및 컴퓨터 장치
WO2021261664A1 (ko) 인공지능 음성 대화 기반의 관광서비스시스템
CN110288996A (zh) 一种语音识别装置和语音识别方法
KR20200028767A (ko) 발화자의 감정 분석에 따른 언어 순화 장치
JP4451037B2 (ja) 情報検索システム及び情報検索方法
KR102370437B1 (ko) 버추얼 상담 시스템 및 이를 이용한 상담방법
WO2021182782A1 (ko) 오디오 데이터 식별장치
CN111324719B (zh) 用于法律咨询的模糊识别系统
WO2017159902A1 (ko) 온라인 면접 시스템 및 그 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19867683

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19867683

Country of ref document: EP

Kind code of ref document: A1