KR20220136846A - Method of feedback salesman by analyzing the sounds or face image of both themselves and client and the apparatus thereof - Google Patents

Method of feedback salesman by analyzing the sounds or face image of both themselves and client and the apparatus thereof Download PDF

Info

Publication number
KR20220136846A
KR20220136846A KR1020210043024A KR20210043024A KR20220136846A KR 20220136846 A KR20220136846 A KR 20220136846A KR 1020210043024 A KR1020210043024 A KR 1020210043024A KR 20210043024 A KR20210043024 A KR 20210043024A KR 20220136846 A KR20220136846 A KR 20220136846A
Authority
KR
South Korea
Prior art keywords
data
sales
customer
training
sales staff
Prior art date
Application number
KR1020210043024A
Other languages
Korean (ko)
Inventor
여승기
Original Assignee
주식회사 디에스랩글로벌
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 디에스랩글로벌 filed Critical 주식회사 디에스랩글로벌
Priority to KR1020210043024A priority Critical patent/KR20220136846A/en
Publication of KR20220136846A publication Critical patent/KR20220136846A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • G06Q10/063114Status monitoring or status determination for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06398Performance of employee with respect to a job function

Abstract

The present invention relates to a content production and training system for sales staff training. More specifically, the present invention relates to a content production and training system for sales staff training. The system comprises: a step (S301) of receiving data from a terminal (110) while sales work is being performed; a step (S302) of extracting sound and image data from the received data; a step (S303) of analyzing the extracted sound and images; a step (S304) of generating data for content for sales staff training from the analyzed data; and a step (S305) of processing and outputting content necessary for providing content for sales staff training, wherein each step is performed by a service server (120). The step (S301) of receiving data from the terminal (110) while sales work is being performed is to receive basic information, individual information, voice or face screens of a user and a customer. According to the present invention, it is possible to produce and provide content for sales staff training by collecting verbal and/or non-verbal elements occurring in the field where actual sales work is being performed.

Description

고객 또는 영업 직원의 음성과 얼굴 이미지를 분석하여 피드백을 주는 방법 및 그 장치{Method of feedback salesman by analyzing the sounds or face image of both themselves and client and the apparatus thereof}Method of feedback salesman by analyzing the sounds or face image of both themselves and client and the apparatus thereof

본 발명은 영업 직원 업무 관리 및 훈련 시스템에 대한 것이다. The present invention relates to a sales staff business management and training system.

승무원 등 항공사 직원, 병원 코디네이터, 서비스 강사 등과 같이 고객을 응대하여야 하는 서비스 직종 등 영업직무를 수행하는 직원(이하, 본 발명에서는 "영업직원"이라고 한다)에게는, 고객을 응대하기 전, 고객을 응대할 때에, 고객을 응대하고 나서 등 고객을 응대하기 전, 중, 후 시간의 흐름에 따라, 언제, 어디서 만나고, 어떤 내용으로 영업을 하는 지 관리를 할 필요가 있다.Airline staff such as flight attendants, hospital coordinators, service instructors, etc., who perform sales duties such as service jobs requiring customer service (hereinafter referred to as "sales staff" in the present invention), serve customers before serving customers. It is necessary to manage when, where, when, and with what content, according to the flow of time, before, during, and after serving customers, such as after serving customers.

특히, 영업은 말(言)로 이뤄지는 경우가 많아 비록 메모를 남긴다고 하더라도 녹음이나 녹화 등을 통하여 기록되지 않는 한 100% 정확히 기록되지 않게 된다.In particular, sales are often conducted verbally, so even if a memo is left, it is not recorded 100% accurately unless it is recorded through recording or recording.

따라서 고객을 응대하는 과정에서 영업 직원이 영업 내용을 녹음 또는 녹화하는 게 좋은데, 녹음 또는 녹화를 하더라도 사전에 고객으로부터 동의를 받아야 함은 물론이거니와, 녹음 또는 녹화 중에라도 고객과 영업 직원 간에 소리나 이미지의 구분, 그리고 녹음 또는 녹화 뒤에라도 영업 직무 수행 중 어떠한 내용이 오고 갔는지, 그 뒤에는 어떻게 진행되어야 하는지 업무 관리의 필요성이 요구된다.Therefore, it is good for the sales staff to record or record the sales contents in the process of dealing with customers. The need for business management is required to determine what kind of content came and went during the performance of sales duties, even after recording or recording, and how to proceed after that.

게다가 녹음된 소리나 녹화된 영상을 영업 직무 수행 이후에 본다고 하더라도 그 만큼 시간을 들여 정리하여야 하는 등 번거로움이 따르고, 그로 인한 시간 낭비 등 영업 직무 외의 요소로 인하여 업무 효율이 낮아지는 등 번거로움이 발생하고 있다.In addition, even if the recorded sound or recorded video is viewed after the sales job is performed, it is cumbersome, such as having to spend a lot of time to organize it, and the work efficiency is lowered due to factors other than the sales job such as a waste of time. is occurring

한편, 영업직원들에게는 응대하는 고객들을 편안하게 하기 위한 말이나, 억양, 강세 등 언어적 요소뿐만 아니라, 미소, 자세 또는 말하는 모습 등 이른바 비(非)언어적 요소가 직무 수행에 있어서 매우 중요하게 고려된다.On the other hand, for sales staff, not only linguistic elements such as words, intonation, and stress, but also so-called non-verbal elements such as smiles, postures, or speaking appearances are very important in their job performance to make customers feel comfortable. are considered

그렇기 때문에 영업 직무를 이해하고 학습하도록 교육하는 학원들도 존재하는데, 최근 서비스업이나 관광 산업 등의 추세를 보건대, 이러한 전문 서비스업의 인력 규모는 점차 확대될 것으로 예상된다.Therefore, there are private academies that educate people to understand and learn sales jobs. Looking at the recent trends in the service industry and tourism industry, it is expected that the size of the workforce in these specialized service industries will gradually expand.

따라서 영업직원을 대상으로 많은 비용과 시간을 들여 훈련을 시키고, 다양한 교재 매뉴얼과 프로그램을 제공하여 영업직원의 언어적 또는 비언어적 요소를 파악하고 개선해나가고 있다. Therefore, we train sales staff with a lot of money and time, and provide various textbooks and programs to identify and improve the verbal and non-verbal factors of sales staff.

그러나 영업 직원들은 개별적으로 자기 고유의 언어적 요소와 비언어적 요소를 기초로 고객들을 응대하고 직무를 수행하므로, 그 결과 각 영업직원들마다 결과가 상이할뿐더러, 고객들마저도 개별적인 변수로 작용한 결과, 일반적인 기업에서 시행하는 획일화된 매뉴얼과 프로그램만으로는 다른 영업직원들에게까지 훈련이 되지 않는 문제점이 존재하였다.However, since sales staff individually deal with customers and perform their duties based on their own verbal and non-verbal factors, the results are different for each sales employee, and even customers act as individual variables. There was a problem that even other sales staff could not be trained with the uniform manual and program implemented by the company.

특히 이러한 획일화된 매뉴얼과 프로그램은 실제 영업직무를 수행하는 현장에서의 소리를 알 수 없고, 단순히 텍스트로 된 교재를 읽고 보거나, 역할 놀이를 하는 정도에 불과하여 실제 영업 현장과 같은 교육하기 어려웠고, 실제 현장에서 각각의 직원들이 갖는 고유의 요소에 의존할 수 밖에 없었다.In particular, these standardized manuals and programs were difficult to provide education like in the actual sales field, as it was difficult to understand the sound of the actual sales job site, read and view textual textbooks, or just play a role. In the actual field, we had to rely on the unique elements of each employee.

이에, 실제 현장에서의 언어적, 비언어적 요소를 있는 그대로 저장하고 분석하여 이른바 성공하는 영업 직무 수행 방법에 근거하여 훈련, 교육하는 컨텐츠 제공이 요구되는 실정이다.Accordingly, it is required to provide training and education contents based on the so-called successful sales job performance method by storing and analyzing verbal and non-verbal elements in the actual field as they are.

다른 한편, 영업 직원 스스로에게도 자기의 영업에 대한 피드백을 줌과 아울러 어떠한 경우 영업에 성공하고 어떠한 경우에 영업을 실패할지 자기 분석이 중요할 것인데, 이를 위해 영업 직원 스스로 피드백을 받을 수 있도록 녹음된 소리 또는 녹화된 영상 등에 기반하여 피드백을 주는 시스템이 요구되고 있다.On the other hand, it will be important to give feedback on their sales to the sales staff themselves, and to self-analyze in which cases the sales will succeed and in which cases the sales will fail. Alternatively, a system for providing feedback based on a recorded image or the like is required.

상기 서술한 바에 따라, 본 발명은 다음의 과제를 해결하고자 한다.As described above, the present invention aims to solve the following problems.

영업 직원으로 하여금 영업 직무에만 충실할 수 있도록 업무를 관리할 수 있도록 영업 내용의 녹음 또는 녹화 등을 통해 영업 이후 별도의 정리를 요하지 않도록 하는 업무 관리 시스템을 제공하는 것을 일 목적으로 한다.Its purpose is to provide a business management system that eliminates the need for separate arrangement after sales through recording or recording of sales content so that sales employees can manage their business so that they can be faithful to their sales duties.

또한, 실제 영업 직무를 수행하는 현장에서 발생되는 언어적 및/또는 비언어적 요소를 수집하여 영업 직원의 훈련을 위하여 컨텐츠를 생성, 제공하는 영업 직원 훈련 시스템을 제공하는 것을 일 목적으로 한다.In addition, an object of the present invention is to provide a sales staff training system that generates and provides content for training sales staff by collecting verbal and/or non-verbal elements generated in the field performing actual sales duties.

또한, 본 발명은 영업 직원 스스로에게 피드백을 줄 수 있고, 영업 결과를 예상하는 등 자기 평가가 가능한 영업 직원 훈련 시스템을 제공하는 것을 일 목적으로 한다.In addition, an object of the present invention is to provide a sales staff training system capable of self-evaluation, such as being able to give feedback to sales staff themselves and predicting sales results.

하기 각 단계는 서비스 서버(120)에서 수행되는 것으로, 단말(110)로부터 영업 직무 수행 중 데이터를 수신하는 단계(S301); 수신된 데이터로부터 소리와 영상 데이터를 추출하는 단계(S302); 추출된 음성과 영상을 분석하는 단계(S303); 분석된 데이터로부터 영업 직원 업무 관리 및 훈련을 위한 데이터를 생성하는 단계(S304); 영업 직원 교육을 위한 컨텐츠 제공을 위하여 필요한 컨텐츠를 처리하고 출력하는 단계(S305);를 포함하는 것으로, 영업 직원 교육을 위한 컨텐츠 제공을 위하여 필요한 컨텐츠를 처리하고 출력하는 단계(S305)는, 일정 시점부터 일정 종점까지의 녹음된 음성 데이터 또는 녹화된 영상 데이터를 텍스트 데이터로 변환, 생성하는 것을 특징으로 하는, 영업 직원 업무 관리 및 훈련 시스템을 일 수단으로 할 수 있다.Each of the following steps is performed by the service server 120, and receiving data from the terminal 110 while performing a sales job (S301); extracting sound and image data from the received data (S302); analyzing the extracted audio and video (S303); Generating data for sales staff work management and training from the analyzed data (S304); Including; processing and outputting content necessary for providing content for sales staff training (S305), the step of processing and outputting content necessary for providing content for sales staff training (S305) is at a certain point in time A sales staff business management and training system, characterized in that by converting and generating recorded audio data or recorded video data from to a certain end point to text data, can be one means.

바람직하게는, 영업 직원 교육을 위한 컨텐츠 제공을 위하여 필요한 컨텐츠를 처리하고 출력하는 단계(S305)는, 음성 또는 영상 데이터는 텍스트 데이터와 함께 시간 순으로 병렬하여 재생될 수 있도록 생성될 수 있도록 하는, 영업 직원 업무 관리 및 훈련 시스템을 일 수단으로 할 수 있다.Preferably, the step (S305) of processing and outputting content necessary for providing content for sales staff training is such that the audio or video data can be generated so that it can be reproduced in parallel in chronological order together with the text data, Sales staff work management and training system can be a means of work.

또한 바람직하게는, 영업 직원 교육을 위한 컨텐츠 제공을 위하여 필요한 컨텐츠를 처리하고 출력하는 단계(S305)는, 고객 또는 영업 직원의 음성 또는 얼굴 이미지를 분석하여 해당 직원에게 피드백을 하는 것을 포함하며, 상기 피드백은, 음성 데이터를 스크립트 형태의 텍스트 데이터로 제공하고, 음성 데이터 또는 얼굴 이미지의 분석 결과를 상기 텍스트 데이터와 함께 연동되게끔 하여, 영업 직원이 스크립트 형태의 텍스트 데이터를 선택하면, 고객 또는 영업 직원의 음성 데이터 또는 얼굴 이미지의 분석 결과를 함께 제공하도록 하며, 고객의 음성 또는 얼굴 이미지로부터, 고객의 부정, 중립 또는 긍정 상태를 도출하되, 상기 상태를 도출할 때에는, 고객의 영업 전 상태를 반영하는 것을 특징으로 하며, 상기 도출된 고객의 상태에 기초하여 영업 결과를 예측하는 것을 특징으로 하는, 영업 직원 업무 관리 및 훈련 시스템을 일 수단으로 할 수 있다.Also preferably, the step (S305) of processing and outputting content necessary for providing content for sales staff training includes analyzing the voice or face image of a customer or sales employee and giving feedback to the corresponding employee, Feedback provides voice data as text data in the form of a script, and links the analysis result of voice data or face image with the text data. The result of analysis of voice data or facial image of the customer is provided together, and the customer's negative, neutral or positive state is derived from the customer's voice or face image. It is characterized in that, based on the derived state of the customer, characterized in that for predicting the sales results, the sales staff work management and training system can be one means.

다만, 본 발명의 과제를 해결하기 위한 수단은 이에 한하지 아니한다.However, the means for solving the problems of the present invention are not limited thereto.

상기 해결 수단에 따라, 본 발명은 다음의 효과를 달성할 수 있다.According to the above solution means, the present invention can achieve the following effects.

영업 직원으로 하여금 영업 직무에만 충실할 수 있도록 업무를 관리할 수 있도록 영업 내용의 녹음 또는 녹화 등을 통해 영업 이후 별도의 정리를 요하지 않도록 하는 업무 관리 시스템을 제공할 수 있다.It is possible to provide a business management system that does not require separate arrangement after sales through recording or recording of sales content so that sales employees can manage their business so that they can be faithful to their sales duties.

또한, 실제 영업 직무를 수행하는 현장에서 발생되는 언어적 및/또는 비언어적 요소를 수집하여 영업 직원의 훈련을 위하여 컨텐츠를 생성, 제공하는 영업 직원 훈련 시스템을 제공할 수 있다.In addition, it is possible to provide a sales staff training system that generates and provides content for training sales staff by collecting verbal and/or non-verbal elements generated in the field performing actual sales duties.

또한, 본 발명은 영업 직원 스스로에게 피드백을 줄 수 있고, 영업 결과를 예상하는 등 자기 평가가 가능한 영업 직원 업무 훈련 시스템을 제공할 수 있다.In addition, the present invention can provide a sales staff job training system capable of self-evaluation, such as giving feedback to the sales staff themselves and predicting sales results.

도 1은 본 발명의 직원 교육을 위한 훈련 및 컨텐츠 제작 시스템에 관한 블록 개요도이다.
도 2는 본 발명의 일실시예에 따른 서비스 서버(120)의 구성 블록도이다.
도 3은 본 발명의 일 실시예에 영업 직원 업무 관리 및 훈련 컨텐츠 제공 방법을 설명하기 위해 도시한 순서도이다.
1 is a block schematic diagram of a training and content creation system for employee education of the present invention.
2 is a block diagram of a service server 120 according to an embodiment of the present invention.
3 is a flowchart illustrating a method for managing sales staff work and providing training content according to an embodiment of the present invention.

이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings. DETAILED DESCRIPTION The detailed description set forth below in conjunction with the appended drawings is intended to describe exemplary embodiments of the present invention and is not intended to represent the only embodiments in which the present invention may be practiced.

단지 본 실시예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전히 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.Only the present embodiments are provided so that the disclosure of the present invention is complete, and the scope of the invention to those of ordinary skill in the art to which the present invention belongs, is provided, and the present invention is to be defined by the scope of the claims. only

몇몇의 경우, 본 발명의 개념이 모호해지는 것을 피하기 위하여 공지의 구조 및 장치는 생략되거나, 각 구조 및 장치의 핵심기능을 중심으로 한 블록도 형식으로 도시될 수 있다. 또한, 본 명세서 전체에서 동일한 구성요소에 대해서는 동일한 도면 부호를 사용하여 설명한다.In some cases, in order to avoid obscuring the concept of the present invention, well-known structures and devices may be omitted or shown in block diagram form focusing on core functions of each structure and device. In addition, the same reference numerals are used to describe the same components throughout this specification.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함(comprising 또는 including)"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. Throughout the specification, when a part is said to "comprising or including" a certain component, it does not exclude other components unless otherwise stated, meaning that other components may be further included. do.

또한, 명세서에 기재된 "…부"의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 나아가, "일(a 또는 an)", "하나(one)", 및 유사 관련어는 본 발명을 기술하는 문맥에 있어서 본 명세서에 달리 지시되거나 문맥에 의해 분명하게 반박되지 않는 한, 단수 및 복수 모두를 포함하는 의미로 사용될 수 있다.In addition, the term “…unit” described in the specification means a unit that processes at least one function or operation, which may be implemented as hardware or software or a combination of hardware and software. Furthermore, "a or an", "one", and like related terms in the context of describing the present invention are used in both the singular and the plural unless otherwise indicated herein or otherwise clearly contradicted by the context. may be used in a sense including

아울러, 본 발명의 실시예들에서 사용되는 특정(特定) 용어들은 본 발명의 이해를 돕기 위해서 제공된 것이며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 이러한 특정 용어의 사용은 본 발명의 기술적 사상을 벗어나지 않는 범위에서 다른 형태로 변경될 수 있다.In addition, specific terms used in the embodiments of the present invention are provided to help the understanding of the present invention, and unless otherwise defined, all terms used herein, including technical or scientific terms, refer to the present invention. It has the same meaning as commonly understood by those of ordinary skill in the art to which it belongs. The use of these specific terms may be changed to other forms without departing from the technical spirit of the present invention.

한편, 본 발명에 따른 시스템은, 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터 판독 가능 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터 판독 가능 매체에 여러 수단을 통하여 기록될 수 있다. 본 발명의 다양한 방법들을 수행하기 위한 실행 가능한 컴퓨터 코드를 저장하는 컴퓨터 판독 가능 매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, DVD 등)와 같은 저장 매체를 포함한다.Meanwhile, the system according to the present invention can be written as a program that can be executed on a computer, and can be implemented in a general-purpose digital computer that operates the program using a computer-readable medium. In addition, the structure of the data used in the above method may be recorded in a computer-readable medium through various means. A computer readable medium storing executable computer code for performing various methods of the present invention includes a magnetic storage medium (eg, ROM, floppy disk, hard disk, etc.), an optically readable medium (eg, CD-ROM, DVD). storage media, such as).

본원 발명의 실시예들과 관련된 기술 분야에서 통상의 지식을 가진 자는 상기 기재의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로, 개시된 방법들은 한정적인 관점이 아닌 설명적 관점에서 고려되어야 한다. 본 발명의 범위는 발명의 상세한 설명이 아닌 특허청구 범위에 나타나며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Those of ordinary skill in the art related to the embodiments of the present invention will understand that it may be implemented in a modified form within a range that does not depart from the essential characteristics of the description. Therefore, the disclosed methods are to be considered in an illustrative and not a restrictive sense. The scope of the present invention is indicated in the claims rather than in the detailed description of the invention, and all differences within the scope equivalent thereto should be construed as being included in the scope of the present invention.

도 1은 본 발명의 일 실시예에 따른 영업 직원 업무 관리 및 훈련 시스템의 개략도이다.1 is a schematic diagram of a sales staff work management and training system according to an embodiment of the present invention;

도 1을 참조하면, 영업 직원 업무 관리 및 훈련 시스템(100)은, 단말(110)과 서비스 서버(120)을 포함하여 구성되나, 본 발명은 이에 한정되는 것은 아니며, 실시예에 따라 하나 또는 그 이상의 구성요소를 더 포함하여 구현될 수 있다.Referring to FIG. 1 , the sales staff work management and training system 100 is configured to include a terminal 110 and a service server 120 , but the present invention is not limited thereto. It may be implemented by further including the above components.

한편, 직원 교육을 위한 훈련 및 컨텐츠 제작 시스템(100)에 속한 구성요소들 간의 통신 내지 데이터 커뮤니케이션(이하 '데이터 커뮤니케이션')은 유/무선 통신 네트워크를 통하여 이루어지며, 상기 각 구성요소 사이의 통신 프로토콜이 모두 동일할 필요는 없다.On the other hand, communication or data communication (hereinafter 'data communication') between the components belonging to the training and content production system 100 for employee education is made through a wired/wireless communication network, and a communication protocol between each component They don't all have to be the same.

단말(110)은 영업 직무를 수행하는 직원이 직원 교육을 위한 훈련 및 컨텐츠 제작 시스템을 이용하기 위한 장치로서, 상기 직원이 서비스 서버(120)로부터 동 시스템을 위한 각종 정보와 데이터를 서비스 서버(120)로 전송할 수 있다.The terminal 110 is a device for an employee performing a sales job to use a training and content production system for employee education, and the employee transmits various information and data for the system from the service server 120 to the service server 120 . ) can be transmitted.

단말(110)은 비디오 및 오디오 입출력 장치를 포함하여 직원 교육을 위한 훈련 및 컨텐츠 제작 시스템을 위한 각종 정보와 데이터를 입력받을 수 있고, 서비스 서버(120)로부터 수신한 각종 정보와 데이터를 출력할 수 있다.The terminal 110 may receive various information and data for training and content production system for employee education, including video and audio input/output devices, and may output various information and data received from the service server 120 . have.

단말(110)은 복수의 단말들을 통하여 하나의 사용자에게 직원 교육을 위한 훈련 및 컨텐츠 제작 시스템을 지원 또는 제공할 수 있다. 예를 들어, 제1 단말은 상기 시스템을 위한 각종 정보와 데이터를 입력받을 수 있고, 제2 단말은 상기 서비스 서버(120)로부터 수신한 각종 정보와 데이터를 출력할 수 있다.The terminal 110 may support or provide a training and content production system for employee education to one user through a plurality of terminals. For example, the first terminal may receive various information and data for the system, and the second terminal may output various information and data received from the service server 120 .

상기 제1 단말은 전술한 바와 같이, 영업 직원이 수행하는 영업 활동 상에 음성 및/또는 영상 신호를 입력받는 것으로, TV, PC, 디지털 사이니지와 같은 고정 단말과, 스마트폰, 태블릿PC, 노트북과 같은 이동 단말 중 적어도 어느 하나이면 족하다. As described above, the first terminal receives audio and/or video signals on sales activities performed by sales staff, and includes fixed terminals such as TVs, PCs, and digital signage, smartphones, tablet PCs, and notebook computers. At least one of mobile terminals such as

상기 제2 단말은 전술한 바와 같이, 직원 교육을 위한 훈련 및 컨텐츠 제작 시스템에서 서비스 서버(120)가 처리한 데이터를 출력하는, 예를 들어, TV, PC, 디지털 사이니지와 같은 고정 단말과, 스마트폰, 태블릿PC, 노트북과 같은 이동 단말 중 적어도 어느 하나이면 족하다. As described above, the second terminal outputs the data processed by the service server 120 in the training and content production system for employee education, for example, a fixed terminal such as TV, PC, digital signage, At least one of a mobile terminal such as a smartphone, a tablet PC, and a notebook computer is sufficient.

더불어, 도 1에서는 하나의 단말(110)만을 예시하였으나, 실시예에 따라서, n개(여기서, n은 양의 정수)의 단말이 동시(同時) 또는 이시(異時)에 서비스 서버(120)와 데이터 커뮤니케이션을 수행할 수 있으며, 각 단말은, 각 사용자를 위한 서비스를 제공할 수 있다.In addition, although only one terminal 110 is illustrated in FIG. 1 , according to an embodiment, n (here, n is a positive integer) number of terminals are simultaneously (simultaneous) or at the same time (異time) service server 120 and data communication may be performed, and each terminal may provide a service for each user.

한편, 하나의 제1 단말과 복수의 제2 단말이 단말(110)을 구성할 수 있으며, 이 경우 상기 제1 단말은 적어도 하나의 직원 교육을 위한 컨텐츠에 대하여 동시에 복수의 사용자에 대한 직원 교육을 위한 훈련 서비스 제공을 위한 가이드 데이터 등을 제공할 수도 있다.On the other hand, one first terminal and a plurality of second terminals may constitute the terminal 110, and in this case, the first terminal performs employee education for a plurality of users at the same time with respect to at least one content for employee education. It is also possible to provide guide data for providing a training service for

실시예에 따라, 단말(110)은, 직원 교육을 위한 훈련 및 컨텐츠 제작 서비스는 어플리케이션의 실행을 통하여 제공할 수 있는데, 이 경우 상기 어플리케이션 내지 프로그램과 같은 소프트웨어는 서비스 서버(120)로부터 미리 다운로드 받아 설치할 수 있다. According to an embodiment, the terminal 110 may provide training and content creation services for employee education through the execution of an application. In this case, the software such as the application or program is downloaded from the service server 120 in advance. can be installed

한편, 단말(110)은 상기한 서비스를 위하여 관련 API(Application Program Interface) 또는 임베디드 소프트웨어(Embedded Software)를 포함할 수 있다. Meanwhile, the terminal 110 may include a related application program interface (API) or embedded software for the above-described service.

다시 말해, 이하 본 발명에 따른 영업 직원 업무 관리 및 훈련 시스템(100)은, 단말(110)에 미리 설치된 API 또는 임베디드 소프트웨어를 포함하는 어플리케이션을 통해 이루어지는 것을 일실시예로 한다. 다만, 본 발명은 이에 한정되는 것은 아니며, 웹 서비스 형태로 제공될 수도 있다.In other words, hereinafter, the sales staff work management and training system 100 according to the present invention is made through an application including an API or embedded software pre-installed in the terminal 110 as an embodiment. However, the present invention is not limited thereto, and may be provided in the form of a web service.

한편, 단말(110)은 자체적으로 서비스 서버(120)로 데이터 또는 (이를 포함한) 신호를 전송하거나 수신할 수 있으며, 이를 위한 데이터 변환 등 필요한 가공도 할 수 있다. 또한, Meanwhile, the terminal 110 may transmit or receive data or a signal (including it) to the service server 120 by itself, and may also perform necessary processing such as data conversion for this. In addition,

상기 단말(110)은, 상기 서비스 서버(120)로 데이터 송신하거나 그로부터 데이터를 수신하기 위하여 필요한 경우 하나 또는 그 이상의 장치의 도움을 받거나 그를 통할 수 있다. The terminal 110 may be assisted by or through one or more devices when necessary to transmit data to or receive data from the service server 120 .

다음으로, 서비스 서버(120)는 유/무선 통신 네트워크를 통하여 적어도 하나 이상의 다른 장치, 즉 단말(110)과 데이터 커뮤니케이션을 수행하는 개체(entity)로서, 본 발명에 따른 서비스 제공을 위하여 단말(110)과 데이터 커뮤니케이션을 수행하며, 그를 통한 데이터를 처리하며 필요한 데이터를 생성, 저장, 전송 등 중 적어도 하나 이상의 기능을 수행하는 장치이며, 그를 위한 프로그램 내지 소프트웨어를 포함할 수 있다. Next, the service server 120 is an entity that performs data communication with at least one or more other devices, that is, the terminal 110 through a wired/wireless communication network, and in order to provide a service according to the present invention, the terminal 110 ) and data communication, processing data through it, and generating, storing, and transmitting necessary data, a device that performs at least one function, and may include a program or software for it.

비록 도 1에서는 하나의 서비스 서버(120)를 도시하였으나, 본 발명은 이에 한정되지 않고, 복수의 서비스 서버(120)가 서비스 시스템(100)에 포함될 수 있으며, 직원 교육 훈련을 위한 데이터 처리를 위하여 클라이언트 서버 등 하나 또는 그 이상의 서버들을 더 포함할 수도 있다. Although one service server 120 is illustrated in FIG. 1 , the present invention is not limited thereto, and a plurality of service servers 120 may be included in the service system 100 , for data processing for employee education and training. It may further include one or more servers, such as a client server.

한편, 본 발명에 따른 서비스 서버(120)는 단말(110)을 통해 수신되는 데이터를 포함하여 직원 교육 훈련을 위한 서비스 제공을 위하여 필요한 데이터/빅데이터를 수집, 처리, 저장 등 중 적어도 하나의 기능을 수행하는 데이터베이스(DB: database)를 내장 또는 외장할 수 있다. 이러한 데이터베이스는 복수 개일 수 있다.Meanwhile, the service server 120 according to the present invention includes at least one function of collecting, processing, storing data/big data necessary for providing a service for employee education and training, including data received through the terminal 110 . A database (DB: database) that performs There may be a plurality of such databases.

서비스 서버(120)는, 클라우드(Cloud) 서버, IMS(IP Multimedia Subsystem) 서버, 텔레포니 어플리케이션(Telephony Application) 서버, IM(Instant Messaging) 서버, MGCF(Media Gateway Control Function) 서버, MSG(Messaging Gateway) 서버, CSCF(Call Session Control Function) 서버 등 중 적어도 하나를 일실시예로 할 수 있다. Service server 120, cloud (Cloud) server, IMS (IP Multimedia Subsystem) server, telephony application (Telephony Application) server, IM (Instant Messaging) server, MGCF (Media Gateway Control Function) server, MSG (Messaging Gateway) At least one of a server and a Call Session Control Function (CSCF) server may be used as an embodiment.

유/무선 통신 네트워크는 단말(110)과 서비스 서버(120) 사이의 텍스트(text), 이미지, 음성 등 다양한 포맷의 데이터의 데이터 커뮤니케이션을 지원하는 데이터 통신망을 의미하며, 그 종류에는 특별히 제한되지 않는다.The wired/wireless communication network means a data communication network that supports data communication of data in various formats, such as text, image, and voice, between the terminal 110 and the service server 120, and the type is not particularly limited. .

예를 들어, 유/무선 통신 네트워크는, 인터넷 프로토콜(IP)을 통하여 대용량 데이터 커뮤니케이션을 지원하는 아이피(IP: Internet Protocol)망 또는 서로 다른 IP 망을 통합한 올 아이피(All IP) 망일 수 있다. For example, the wired/wireless communication network may be an IP (Internet Protocol) network supporting large-capacity data communication through the Internet Protocol (IP) or an All IP network integrating different IP networks.

또한, 유/무선 통신 네트워크는, 유선망, Wibro(Wireless Broadband)망, WCDMA를 포함하는 이동 통신망, HSDPA(High Speed Downlink Packet Access)망 및 LTE(Long Term Evolution) 망을 포함하는 이동 통신망, LTE advanced(LTE-A)를 포함하는 이동 통신망, 위성 통신망 및 와이파이(Wi-Fi)망 중 하나이거나 또는 이들 중 적어도 하나 이상의 결합에 의하여 형성될 수도 있다.In addition, the wired / wireless communication network includes a wired network, a Wibro (Wireless Broadband) network, a mobile communication network including WCDMA, a High Speed Downlink Packet Access (HSDPA) network, and a Long Term Evolution (LTE) network including a mobile communication network, LTE advanced (LTE-A) including a mobile communication network, satellite communication network, and Wi-Fi (Wi-Fi) network, or may be formed by a combination of at least one or more of them.

한편, 도 1에서 제1 단말과 제2 단말 역시 유무선 통신 프로토콜에 기초하여 데이터 커뮤니케이션을 수행할 수 있다. 예컨대, 제1 단말과 제2 단말은 블루투스를 통해 서로 페어링되거나 와이파이를 통하여 데이터를 주고받을 수 있다. 상기 데이터에는 특정 기능 내지 동작 수행을 위한 제어 데이터도 포함될 수 있다.Meanwhile, in FIG. 1 , the first terminal and the second terminal may also perform data communication based on a wired/wireless communication protocol. For example, the first terminal and the second terminal may be paired with each other through Bluetooth or may exchange data through Wi-Fi. The data may also include control data for performing a specific function or operation.

도 2는 본 발명의 일실시예에 따른 서비스 서버(120)의 구성 블록도이다. 2 is a block diagram of a service server 120 according to an embodiment of the present invention.

도 2는 서비스 서버(120)의 구성 블록도의 일실시예를 도시한 것으로, 필수 구성요소만을 도시한바, 본 발명이 반드시 이에 한정되는 것은 아니다. FIG. 2 shows an embodiment of a configuration block diagram of the service server 120, and shows only essential components, but the present invention is not necessarily limited thereto.

실시예에 따라, 도 2에서 일부 구성요소가 추가되거나 반대로 제거될 수도 있으며, 복수의 구성요소가 모듈화되어 하나의 구성으로 구현되거나 반대일 수도 있다. According to an embodiment, some components may be added or removed in FIG. 2 , and a plurality of components may be modularized and implemented as one configuration or vice versa.

또한, 실시예에 따라, 도 2에서 일부 구성요소은 제거되고 해당 기능은 타구성요소에서 수행될 수도 있다. 예를 들어, 실시예에 따라, 도 2는 단말(110)의 구성요소로 볼 수도 있다.In addition, according to an embodiment, some components may be removed from FIG. 2 and a corresponding function may be performed by other components. For example, according to an embodiment, FIG. 2 may be viewed as a component of the terminal 110 .

서비스 서버(120)는, 통신부(201), 데이터추출부(202), 데이터분석부(203), 데이터생성부(204), 컨텐츠처리부(205), 제어부(206), 데이터베이스(DB)(207)을 포함하여 구성될 수 있다. The service server 120 includes a communication unit 201 , a data extraction unit 202 , a data analysis unit 203 , a data generation unit 204 , a content processing unit 205 , a control unit 206 , and a database (DB) 207 . ) may be included.

통신부(201)는, 단말(110)과의 데이터 커뮤니케이션을 인터페이스를 지원하며, 상기 단말(110)로부터 데이터를 수신하여 전달한다.The communication unit 201 supports an interface for data communication with the terminal 110 , and receives and transmits data from the terminal 110 .

데이터추출부(202)는 수신된 데이터로부터 소리와 영상 데이터를 추출한다.The data extraction unit 202 extracts sound and image data from the received data.

데이터 분석부(203)은 추출된 음성과 영상 데이터로부터 필요한 데이터와 불필요한 데이터를 분석한다.The data analysis unit 203 analyzes necessary data and unnecessary data from the extracted audio and video data.

데이터생성부(204)는 분석된 필요 데이터와 불필요 데이터로부터 영업 직원 교육 훈련을 위한 컨텐츠를 위한 데이터를 생성한다.The data generation unit 204 generates data for content for sales staff education and training from the analyzed necessary data and unnecessary data.

컨텐츠처리부(205)는, 단말(110)의 영업 직원 교육을 위한 컨텐츠 제공을 위하여 필요한 컨텐츠 또는 컨텐츠 리스트 등을 처리한다.The content processing unit 205 processes content or a content list required to provide content for training sales staff of the terminal 110 .

제어부(206)는, 상기한 구성요소들을 포함하여 서비스 서버(120)의 전반적인 기능 제어를 수행한다.The control unit 206 performs overall function control of the service server 120 including the above-described components.

데이터베이스(207)는, 단말(110)로부터 수신되는 데이터를 일시 저장하는 구성으로서, 실시예에 따라서, 서비스 서버(120)의 내부 또는 외부에 구현될 수 있으며, 복수 개일 수 있다.The database 207 is a configuration for temporarily storing data received from the terminal 110 , and may be implemented inside or outside the service server 120 , depending on the embodiment, or may be plural.

단, 여기서 구성요소에 대한 각 설명은 개략적인 기능에 대한 설명이고, 본 발명의 설명 전체에서 각 구성요소에 대한 구체적인 설명이 더해질 수 있다.However, here, each description of the components is a description of a schematic function, and a detailed description of each component may be added throughout the description of the present invention.

도 3은 본 발명의 일 실시예에 따른 영업 직원 업무 관리 및 훈련 시스템을 설명하기 위해 도시한 순서도이다. 3 is a flowchart illustrating a sales staff work management and training system according to an embodiment of the present invention.

도 3을 참조하여 설명하면, 서비스 서버(120)의 관점에서 영업 직원 업무 관리 및 훈련 시스템을 설명한다.Referring to FIG. 3 , a sales staff work management and training system is described from the perspective of the service server 120 .

서비스 서버(120)은 단말(110)로부터 영업 직무 수행 중 데이터를 수신한다(S301).The service server 120 receives data while performing a sales job from the terminal 110 (S301).

데이터추출부(202)는 수신된 데이터로부터 소리와 영상 데이터를 추출한다(S302).The data extraction unit 202 extracts sound and image data from the received data (S302).

데이터 분석부(203)은 추출된 음성과 영상 데이터로부터 필요한 데이터와 불필요한 데이터를 분석한다(S303).The data analysis unit 203 analyzes necessary data and unnecessary data from the extracted audio and video data (S303).

데이터생성부(204)는 분석된 필요 데이터와 불필요 데이터로부터 영업 직원 교육 훈련을 위한 컨텐츠를 위한 데이터를 생성한다(S304).The data generation unit 204 generates data for content for sales staff education and training from the analyzed necessary data and unnecessary data (S304).

컨텐츠처리부(205)는, 단말(110)의 영업 직원 교육을 위한 컨텐츠 제공을 위하여 필요한 컨텐츠 또는 컨텐츠 리스트 등을 처리하고 출력한다(S305).The content processing unit 205 processes and outputs content or a content list required to provide content for training the sales staff of the terminal 110 (S305).

상기 각 나열한 단계와 병행하여 제어부(206)은 각 구성요소를 본 발명에 따라 제어하도록 하며, 데이터베이스(207)는 서비스 서버(120)가 수신, 생성, 처리, 출력하는 등의 일체의 데이터를 저장하며, 별도로 언급되지 않는다고 하더라도 통상의 지식을 가진 자에게 자명하다고 할 수 있다.In parallel with each of the steps listed above, the control unit 206 controls each component according to the present invention, and the database 207 stores all data received, generated, processed, output by the service server 120, and the like. And even if not mentioned otherwise, it can be said to be obvious to those with ordinary knowledge.

또한, 각 구성이 수행하는 기능이나 역할이 구분될 수 있으나, 이하 내용에서는 각 구성이 수행하는 기능이나 역할이 서로 겹쳐서 설명될 수 있으며, 통상의 지식을 가진 자에게 본 발명을 이해하는 데에는 자명하다고 할 것이다.In addition, the functions or roles performed by each component may be distinguished, but in the following description, the functions or roles performed by each component may be described overlapping each other, and it is obvious to those of ordinary skill in the art to understand the present invention. something to do.

상기, 서비스 서버(120)은 단말(110)로부터 영업 직무 수행 중 데이터를 수신하는 단계(S301)를 상세히 설명한다.The step ( S301 ) of the service server 120 receiving data while performing a sales job from the terminal 110 will be described in detail.

단말(110)로부터 수신되는 영업 직무 수행 중 데이터는, 기본 정보를 포함할 수 있다. 이 때, 기본 정보라 함은, 사용자 개인 정보와 단말(110)의 식별 정보를 포함할 수 있다.The data received from the terminal 110 while performing a sales job may include basic information. In this case, the basic information may include user personal information and identification information of the terminal 110 .

상기 사용자 개인 정보라 함은, 성별, 나이, 신장, 몸무게와 같은 신체정보, 생김새, 목소리, 옷차림, 성격, 취미, 특기, 성향, 습관 등 영업 직원의 전체적인 외관과 특성 등을 포함할 수 있다.The user personal information may include physical information such as gender, age, height, and weight, appearance, voice, attire, personality, hobbies, specialties, dispositions, habits, etc. of the sales staff as a whole.

상기 기본 정보는, 단말(110)에서 실행 중인 서비스 어플리케이션 실행 과정에서 제공되는 항목에 의하여 사용자의 입력 내지 선택에 따라 서비스 서버(120)로 전송되나, 반드시 이에 한정하는 것은 아니며, 음성, 제스처, 이미지 등의 형태 또는 그 결합 형태로 전송될 수 있다.The basic information is transmitted to the service server 120 according to a user's input or selection according to an item provided during the service application execution process being executed in the terminal 110, but is not necessarily limited thereto, and includes voice, gesture, image It may be transmitted in the form of or a combination thereof.

또한, 단말(110)로부터 수신되는 영업 직무 수행 중 데이터는, 소리와 영상일 수 있다.In addition, the data received from the terminal 110 while performing a sales job may be a sound and an image.

여기서 소리 또는 영상이란 사용자가 영업 직무 수행 중 고객과 응대하는 동안 녹음 또는 녹화된 것을 말하나, 이에 한하지 않고, 영업 직무 수행에 있어 필요하거나 도움이 될 수 있는 소리 또는 영상을 모두 포함한다.Here, the sound or image refers to a recording or recording while the user interacts with the customer while performing the sales job, but is not limited thereto, and includes all sounds or images that may be necessary or helpful in the performance of the sales job.

상기 소리는 예를 들어, 영업 직무를 수행하는 사용자가 직무 수행 중 선택된 어느 일정 시점부터 녹음된 것으로, 고객 응대 전 녹음 사항, 고객 응대 중 녹음 사항, 고객 응대 후 녹음 사항을 포함할 수 있다.The sound is, for example, recorded from a certain point in time selected by a user performing a sales job while performing his/her duties, and may include a recording prior to customer service, a recording during customer service, and a recording after customer service.

고객 응대 전 녹음 사항이란, 고객을 응대하기 전 사용자가 내부적으로 확인하고 사용하기 위한 녹음 사항을 말하고, 고객 응대 중 녹음 사항은 고객을 응대시점부터 종점까지의 녹음 사항, 그리고 고객 응대 후 녹음 사항은 고객 응대가 종료된 후 사용자가 내부적으로 확인하고 사용하기 위한 녹음 사항을 말한다. 그러나 이는 본 발명의 설명을 위한 일 구분에 불과하며, 녹음 전체를 구분하여 보는 것이라면 그 구분의 기준 시점은 달리 하여도 무관하다.Recordings before customer service refer to recordings that the user checks and uses internally before responding to customers. It refers to the recording for the user to check and use internally after the customer service is finished. However, this is only a division for the purpose of explaining the present invention, and if the entire recording is viewed separately, the reference point of the division may be different.

상기 영상은 예를 들어, 영업 직무를 수행하는 사용자가 직무 수행 중 선택된 어느 일정 시점부터 녹화된 것으로, 고객 응대 전 녹화 사항, 고객 응대 중 녹화 사항, 고객 응대 후 녹화 사항을 포함할 수 있으며, 이는 본 발명의 설명을 위한 일 구분에 불과하며, 녹화 전체를 구분하여 보는 것이라면 그 구분의 기준 시점은 달리 하여도 무관하다.The image is, for example, recorded from a certain point in time selected by a user performing a sales job while performing his/her duties, and may include recordings before customer service, recording during customer service, and recording after customer service, which This is merely a division for the purpose of explaining the present invention, and if the entire recording is viewed separately, the reference point of the division may be different.

각 녹화 사항은 상기 서술한 녹음 사항과 같은 설명으로 여기서는 생략하되, 상기 소리 또는 영상에 대해서 보다 상세한 설명은 후술하기로 한다.Each recording item has the same description as the above-described recording item and is omitted here, but a more detailed description of the sound or image will be described later.

또한, 단말(110)로부터 수신되는 영업 직무 수행 중 데이터는, 영업 직무가 수행된 일시와 장소, 참석인원, 고객정보, 영업 목적, 언어 등을 포함할 수 있다.In addition, the sales job performance data received from the terminal 110 may include the date and time and place where the sales job was performed, the number of attendees, customer information, sales purpose, language, and the like.

상기 나열한, 수행 일시, 수행 장소, 참석인원, 고객정보 및 영업목적, 언어 등은 상기 기본 정보와는 다른 각 고객마다 다른 개별적의 정보라고 할 것이므로, 상기 기본 정보와 구별하여 '개별 정보'라고 한다.Since the above-listed date and time of execution, place of execution, number of attendees, customer information and business purpose, language, etc., are different individual information for each customer that is different from the basic information, it is called 'individual information' to be distinguished from the basic information. .

상기 기본 정보와 개별 정보는 단말(110)에서 실행 중인 서비스 어플리케이션 실행 과정에서 제공되는 항목에 의하여 사용자의 입력 내지 선택에 따라 서비스 서버(120)로 전송되거나, 녹음 또는 녹화가 시작되는 시점에 자동으로 단말(110)이 일시와 장소를 파악하여 서비스 서버(120)로 전송될 수 있으나 이에 한하지 아니한다.The basic information and the individual information are transmitted to the service server 120 according to the user's input or selection according to the items provided during the service application execution process being executed in the terminal 110, or automatically at the time of recording or recording start. The terminal 110 may determine the date and time and place and transmit it to the service server 120, but is not limited thereto.

또한, 상기 기본 정보와 개별정보는 녹음된 소리 또는 녹화된 영상이 본 발명에 따라 입력, 수신, 분석, 처리, 출력, 저장 등이 되는 단계에서 태그(tag)되어 언제든지 소리 또는 영상의 주체나 일시, 장소 등을 확인할 수 있도록 한다.In addition, the basic information and individual information are tagged at the stage when the recorded sound or recorded image is input, received, analyzed, processed, output, stored, etc. according to the present invention, so that the subject or date and time of the sound or image is , location, etc.

한편, 상술한 녹음 또는 녹화에 대하여 보다 상세히 설명한다.Meanwhile, the above-described recording or recording will be described in more detail.

사용자는 고객 응대시 녹음 또는 녹화 전 사전 동의를 받을 수 있으며, 사전 동의를 하는 것은 서면으로도 작성될 수 있으나, 녹음 또는 녹화로도 가능하고, 녹음 또는 녹화되는 경우에는 사용자가 직접 구두로 설명하는 과정을 녹음 또는 녹화하거나, 사전에 단말(110)에 입력된 영상과 음성으로 설명하는 과정을 포함하고, 고객이 여기에 대하여 대답하거나 또는 전자적으로 서명하는 등의 방법으로도 진행될 수 있다. Users may obtain prior consent prior to recording or recording when interacting with customers, and prior consent may be written in writing, but recording or recording is also possible. It includes a process of recording or recording the process, or explaining the process with video and audio input to the terminal 110 in advance, and the customer answers or electronically signs the process.

또한, 사전 동의는 이미 동의를 받은 고객인 경우에는 생략될 수 있다. 예를 들어, 2회차 이상 만나게 되는 고객들을 대상으로 매번 녹음 또는 녹화를 진행할 경우 매번 동의를 받아야 하는 절차의 번거로움이 있으므로, 최초 만남 단계에서 동의를 득한 경우에는 그 이후 동일 고객에 대해서는 별도의 사전 동의 취득 절차를 진행하지 않는 것으로 할 수 있고, 또는 간이 절차를 마련하여 소리 또는 영상을 통해서도 사전 동의 취득을 할 수 있다.In addition, prior consent may be omitted in the case of a customer who has already obtained consent. For example, if you record or record each time for customers you meet more than twice, there is a cumbersome procedure to obtain consent each time. It may be decided not to proceed with the consent acquisition procedure, or a simplified procedure may be provided to obtain prior consent through sound or video.

일 예로, 이러한 사전 동의 과정에서 사용자와 고객의 성문 분석 또는 얼굴 이미지 등의 사전 정보 입수 과정이 있을 수 있다.For example, in the prior consent process, there may be a process of analyzing the voice print of the user and the customer or obtaining prior information such as a face image.

예를 들어, 이미 사전 동의 절차를 취득한 것인지 아닌지 구체적으로 문의할 필요가 없이, 후술할 성문 분석 또는 이미지 분석을 통해서도 수행될 수 있다. 더 구체적으로 예를 들면, 2회차 이상 접하게 되는 고객들을 대상으로, 이미 과거에 만났을 때에 앞으로 있을 모든 영업 활동에서 녹음 또는 녹화의 사전 동의에 대하여 수락한 경우라면, 녹음 또는 녹화를 시작하는 과정에서 성문 분석 또는 이미지 분석을 통해 사전 동의에 대하여 과거에 수락한 고객이라며 별도의 절차를 진행할 필요도 없이 그대로 녹음 또는 녹화가 진행될 수 있다.For example, it is not necessary to specifically inquire whether or not the informed consent procedure has already been obtained, and it can also be performed through glottal analysis or image analysis, which will be described later. More specifically, for customers who will come into contact with you more than once, if you have already accepted the prior consent for recording or recording in all future sales activities when you have met in the past, you may be asked to write a letter in the process of initiating recording or recording. Through analysis or image analysis, it is possible to record or record as it is without the need to go through a separate procedure for customers who have accepted prior consent in the past.

그러나, 사전 동의에 수락되지 아니한 고객의 성문 분석 또는 이미지 분석이라면 현장에서의 동의 없이는 더 이상 녹음 또는 녹화되지 않도록 할 수 있다. 따라서, 상기 성문 분석 또는 이미지 분석 등을 위해 성문 또는 이미지를 입수하는 것이 필요하다.However, if the customer's voiceprint analysis or image analysis has not been consented to in advance, it can be recorded or not recorded any more without consent on the spot. Therefore, it is necessary to obtain a glottis or an image for the glottal analysis or image analysis or the like.

예를 들어, 사용자와 고객의 음성을 1회 이상 반복하여 단말(110)에 입력되게끔 하여 단말(110)은 사용자와 고객의 음성이 구체적인 영업 과정이 수행되기 전 녹음되게끔 하여 성문 분석을 위한 기본 정보를 입수할 수 있다.For example, by repeating the voices of the user and the customer one or more times to be input to the terminal 110, the terminal 110 allows the voices of the user and the customer to be recorded before a specific sales process is performed, so as to analyze the voiceprint. Basic information can be obtained.

또한 예를 들어, 사용자와 고객의 얼굴을 1회 이상 반복하여 단말(110)에 입력되게끔 하여 단말(110)은 사용자와 고객의 얼굴이 구체적인 영업 과정이 수행되기 전 녹화되게끔 하여 영상 분석을 위한 정보를 입수할 수 있다. 한편, 사전 동의를 위한 성문 또는 이미지 취득 과정에서 사전 입수되는 정보는 음성이나 목소리에 한하지 않고, 주변의 소리(예를 들어, 카페에서 진행하는 경우 카페 배경음, 카페 내 타 인원으로부터 발생되는 소음, 커피 제조 과정에서 발생되는 소음 등을 말한다)를 입수할 수 있다거나, 사용자나 고객의 전체적인 외관이나 영업 장소의 배경 영상을 입수할 수도 있다.Also, for example, by repeating the faces of the user and the customer one or more times and inputting them into the terminal 110, the terminal 110 records the faces of the user and the customer before a specific sales process is performed to perform image analysis. information can be obtained for On the other hand, information obtained in advance in the process of acquiring a voice letter or image for prior consent is not limited to voice or voice, but is not limited to voices or sounds, It is also possible to obtain a background image of a user or customer's overall appearance or business location).

이러한 사전 정보 입수를 위하여 단말(110)은 사용자로 하여금 사전 정보 입수를 위한 인터페이스를 제공할 수 있다.In order to obtain such prior information, the terminal 110 may provide an interface for the user to obtain prior information.

또한, 단말(110)은 녹음 또는 녹화되는 과정에서 시작, 종료, 일시정지 등의 기본적인 인터페이스를 제공할 수 있다.In addition, the terminal 110 may provide a basic interface such as start, end, pause, etc. in the course of recording or recording.

또한 상기 인터페이스에는 중요한 내용을 고객과 주고받을 때 강조를 하거나 책갈피와 같은 기능을 수행할 수 있도록 북마크 기능이 제공될 수도 있다.In addition, the interface may be provided with a bookmark function to emphasize important content when exchanging with the customer or to perform a function such as a bookmark.

예를 들어, 녹음 시작, 녹음 종료, 일시정지 등의 인터페이스를 제공할 때에는 단말(110)은 물리적인 버튼을 제공할 수도 있고, 단말(110)의 디스플레이부를 통해 출력되는 소프트 키 방식의 버튼일 수 있으며, 신체 접촉 없이 사전 녹음 또는 녹화된 특정 소리나 표정, 또는 제스처 등에 의해서 시작, 종료, 강조, 또는 북마크 기능을 제공할 수도 있다.For example, when providing an interface such as recording start, recording end, and pause, the terminal 110 may provide a physical button, or it may be a soft key type button output through the display unit of the terminal 110 . Also, it is possible to provide a start, end, highlight, or bookmark function by means of a pre-recorded or recorded specific sound, expression, or gesture without physical contact.

상기 소리 또는 영상을 입수하기 위해서 단말(110)은 1개 이상의 입력 장치를 구비할 수 있고, 바람직하게는, 2개 이상의 마이크와 2개 이상의 카메라를 구비할 수 있다. In order to obtain the sound or image, the terminal 110 may include one or more input devices, preferably, two or more microphones and two or more cameras.

단일한 마이크 또는 단일한 카메라의 경우 영업 직원의 성문, 음성과 얼굴 이미지, 고객의 성문, 음성과 얼굴 이미지를 병행하여 취득할 수 없고, 경우에 따라서는 겹침이 계속 발생하여 성문 분석 등에 제한이 될 수 있기 때문이다.In the case of a single microphone or a single camera, it is not possible to simultaneously acquire a salesperson's voice print, voice and face image, customer's voice print, or voice and face image. because it can

영업 직원이 고객 응대가 종료된 다음에는 녹음 또는 녹화가 중단될 수 있도록 할 수도 있고, 계속해서 녹음 또는 녹화를 유지할 수도 있다.The salesperson may allow the recording or recording to stop after the customer service has been completed, or it may continue to record or maintain the recording.

녹음 또는 녹화가 중단한 경우라고 하더라도, 별도의 인터페이스를 제공하여 영업 직원으로 하여금 고객 응대 후 정보를 입력할 수 있도록 하는 인터페이스를 제공할 수 있고, 녹음 또는 녹화가 계속된 경우라면 음성 또는 제스처 등을 통해 고객 응대 후 정보를 입력할 수 있도록 할 수 있다.Even when recording or recording is stopped, a separate interface may be provided to provide an interface that allows sales staff to input information after responding to customers, and if recording or recording is continued, voice or gestures, etc. may be provided. Through this, information can be entered after responding to the customer.

이상, 영업 직원이 본 발명에 따른 시스템을 수행하는 단말(110)을 이용하여 고객을 응대하기 전, 중, 후 과정을 수행을 하는 시나리오를 다음과 같이 볼 수 있다.Above, a scenario in which a sales employee performs a process before, during, and after serving a customer using the terminal 110 performing the system according to the present invention can be seen as follows.

[시나리오#1][Scenario #1]

영업 직원은 고객을 응대하기 전에 고객의 기본 정보와 개별 정보를 입력한다.The salesperson enters the customer's basic and personal information before serving the customer.

영업 직원은 처음 만난 고객 또는 2회차 이상 만나는 고객이라고 하더라도 사전 동의를 득하지 아니한 고객을 대상으로 녹음 또는 녹화 사전 동의 취득 절차를 진행하고, 만약 2회차 이상 만나게 된 고객이 이미 과거에 사전 동의를 수락한 바 있으면 그대로 녹음 또는 녹화를 진행한다.The sales staff proceeds with the procedure for obtaining prior consent for recording or recording for customers who have not obtained prior consent, even if they are customers they meet for the first time or customers they meet twice or more. If there is one, record or record as it is.

이와 동시에, 단말(110)은 고객의 성문 또는 이미지를 취득하고, 취득한 성문 또는 이미지를 이용하여 사전 동의가 이미 취득된 것이라면 그대로 녹음 또는 녹화를 진행하고, 이미 취득된 고객이 아니라면, 녹음 또는 녹화를 중단하고 고객의 사전 동의를 취득하여야 녹음 또는 녹화가 진행될 수 있다.At the same time, the terminal 110 acquires the customer's voiceprint or image, and if prior consent has already been obtained using the acquired voiceprint or image, the recording or recording proceeds as it is, and if the customer is not already acquired, the recording or recording is performed. Recording or recording can be performed only after stopping and obtaining the customer's prior consent.

영업 직원은 고객을 응대하면서, 응대 과정에서 영업 직원과 고객의 대화 및 현장이 녹음되거나 녹화될 수 있고, 녹음 또는 녹화 과정은 물리적 버튼, 소프트 키 또는 사전에 입력한 특정한 언어나 제스처 등을 통해 제어될 수 있다.While the salesperson is interacting with the customer, the conversation between the salesperson and the customer and the scene may be recorded or recorded during the response process. can be

영업 직원은 고객 응대 후 녹음 또는 녹화를 중단시켜 직접 정보를 입력하거나, 녹음 또는 녹화를 계속하여 음성 또는 제스처로 고객 응대 후 정보를 입력할 수도 있다.Sales staff can enter information directly after interacting with customers by stopping recording or recording, or continuing recording or recording and entering information after interacting with customers by voice or gesture.

데이터추출부(202)는 수신된 데이터로부터 소리와 영상 데이터를 추출하는 단계(S302)는, 수신된 데이터 중 기본정보와 개별정보, 그리고 고객과 응대하여 영업 직무를 수행 중의 녹음된 소리, 녹화된 영상을 추출하는 것이고, 데이터 분석부(203)는 추출된 데이터를 분석하는 것인데(S303), 데이터추출부(202)에 의한 추출단계(S302)와 분석단계(S303)는 다 같이 상술한다.The data extraction unit 202 extracts sound and image data from the received data (S302), basic information and individual information among the received data, and the recorded sound and recorded sound while performing sales duties in response to customers The image is extracted, and the data analysis unit 203 analyzes the extracted data (S303), and the extraction step (S302) and the analysis step (S303) by the data extraction unit 202 are described in detail together.

먼저, 사용자 기본 정보와 개별 정보는, 데이터베이스화하여 활용될 수 있다.First, user basic information and individual information may be utilized by forming a database.

일 예로, 복수의 영업 직원들로부터 입수된 기본 정보, 개별 정보를 서로 비교하여, 동일, 유사한 점에 근거하여 일 군(group)으로 분류, 분석될 수도 있다.For example, basic information and individual information obtained from a plurality of sales staff may be compared with each other and classified and analyzed into a group based on the same or similar points.

이를 테면, 영업 직원과 고객이 각각 다르다고 하더라도, 그러한 차이에도 불구하고 동일, 유사한 점에 근거하여 일 군(group)으로 분류 및 분석될 수 있도록 할 수 있다. For example, even if sales staff and customers are different, they can be classified and analyzed into a group based on the same and similar points despite such differences.

여기서 복수의 영업 직원은 완전히 영업 분야가 다른 영업 직원들로부터 입수된 정보일 수도 있고, 영업 분야가 같거나 비슷한 부서의 소속 직원들로부터 입수된 정보일 수 있으나, 이에 한정되지 않는다.Here, the plurality of sales staff may be information obtained from sales staff having completely different sales fields, or information obtained from employees belonging to a department having the same or similar sales field, but is not limited thereto.

일 예로, 동일인이 누적적으로 영업 직무를 수행하는 과정에서 입수된 기본 정보나 개별 정보가 축적되어 축적된 정보 간에 동일, 유사한 점에 근거하여 일 군(group)으로 분류, 분석될 수도 있다.As an example, basic information or individual information obtained in the course of performing a sales job by the same person may be accumulated and classified and analyzed into a group based on the same or similarity among the accumulated information.

일 군의 분류 및/또는 분석은, 입수된 기본 정보나 개별 정보를 서로 비교하여, 사용자의 기본 정보가 동일하거나 비슷한 경우, 고객의 정보가 동일하거나 비슷한 경우, 제공 장소나 일시 등이 동일, 유사한 경우 등 각 정보마다 하나의 카테고리를 형성할 수 있도록 분석한다. Classification and/or analysis of a group compares the obtained basic information or individual information with each other, and if the basic information of the user is the same or similar, if the customer information is the same or similar, the location or date of provision is the same or similar Analyze to form one category for each information such as case.

이를 통해 복수의 영업 직원들로부터 입수된 정보를 바탕으로, 동일하거나 유사한 영업 직원들이 갖는 특징, 동일하거나 유사한 고객들이 갖는 특징, 복수의 영업 직원들이 같거나 비슷한 장소나 일시 등에서 영업직무를 수행하는 경우 갖는 특징 등 각각 다른 상황에도 불구하고 동일하거나 유사한 점을 분류, 분석하여 영업 직원의 교육을 위한 데이터로 활용될 수 있다.Based on information obtained from multiple sales staff through this, characteristics of the same or similar sales staff, characteristics of the same or similar customers, and multiple sales staff performing sales duties at the same or similar place or time, etc. It can be used as data for training sales staff by categorizing and analyzing the same or similar points in spite of different situations such as characteristics.

또한, 동일인인 영업 직원이 직무를 수행하는 과정에서 각기 다른 고객들을 접촉하는 과정에서 축적된 정보를 비교하여 동일하거나 유사한 점이 있으면 어떠한 특징이 있는지, 사용자의 영업 직무 수행 결과를 분석하거나 향후 동일인인 영업 직원이 영업 직무 수행 과정을 피드백 받을 수 있도록 할 수 있다.In addition, by comparing the information accumulated in the process of contacting different customers in the process of performing duties of the same sales staff, if there are any similarities or similarities, what characteristics are there, and the results of the user's sales job performance are analyzed or future sales of the same person are compared. You can enable employees to receive feedback on the progress of their sales job performance.

한편, 데이터 분석부(203)는, 상기 단말(110)에서 녹음된 소리 또는 녹화된 영상으로 데이터 추출부(202)에 의해 추출된 소리 또는 영상에 대하여 분석할 수 있다.Meanwhile, the data analyzer 203 may analyze the sound or image extracted by the data extractor 202 as the sound or recorded image recorded by the terminal 110 .

일 실시예에 따라, 녹음된 소리를 분석할 때에는 영업 직원과 고객의 성문 분석을 위해, 사전에 입수된 소리를 분석하여 녹음된 소리에서 화자와 청자가 구분될 수 있도록 한다.According to an exemplary embodiment, when analyzing the recorded sound, the sound obtained in advance is analyzed so that the speaker and the listener can be distinguished from the recorded sound in order to analyze the voiceprints of the sales staff and the customer.

화자와 청자는 각각 적어도 1명 이상일 수 있으며, 이 경우 각각의 성문 분석을 수행할 수 있다. Each of the speaker and the listener may be at least one or more, and in this case, each glottal analysis may be performed.

성문 분석시 소리의 크기, 음색, 주파수(음 높이), 말의 속도, 발음의 특징 등을 기준으로 수행할 수 있으나, 여기에 한정되지 않는다.The glottal analysis may be performed based on the loudness, tone, frequency (pitch), speed of speech, and characteristics of pronunciation, but is not limited thereto.

일 실시예에 따라, 녹화된 영상을 분석할 때에는 영업직원과 고객의 얼굴 분석을 위해, 사전에 입수된 얼굴을 분석하여 화자와 청자가 녹화된 영상에서 구분될 수 있도록 한다.According to an embodiment, when analyzing the recorded image, the face obtained in advance is analyzed so that the speaker and the listener can be distinguished from the recorded image in order to analyze the faces of the sales staff and the customer.

화자와 청자가 각각 적어도 1명 이상일 수 있으며, 이 경우 각각의 이목구비의 위치, 크기, 비율, 헤어 스타일 등을 기준을 수행할 수 있으며, 여기에 한정되지 않는다.Each of the speaker and the listener may be at least one or more, and in this case, the position, size, proportion, hairstyle, etc. of each feature may be used as a criterion, but the present invention is not limited thereto.

녹음된 소리 또는 녹화된 영상으로부터 말(言)이 아닌 소음(noise)을 분석하고 제거할 수 있다.It is possible to analyze and remove non-speech noise from the recorded sound or recorded video.

여기서 소음은 화자와 청자의 음성을 제외한 나머지 소리라고 할 수 있는데, 예를 들어, 단말(110)로부터 입력된 화자와 청자를 제외한 소리인 배경음이 될 수 있다.Here, the noise may be a sound other than the speaker's and listener's voices, for example, it may be a background sound input from the terminal 110 excluding the speaker and listener's voice.

이처럼, 소음에 대하여는 실제 영업 직무 수행 전 입력된 기본 또는 개별정보, 기존에 축적된 데이터, 그리고 영업이 수행된 장소나 일시로부터 파악되는 전형적인 소음 데이터와 비교하여, 화자와 청자의 소리 또는 영상과 구분하여 분석할 수 있다.In this way, for noise, it is distinguished from the sound or image of the speaker and listener by comparing it with the basic or individual information entered before the actual sales job performance, the previously accumulated data, and the typical noise data identified from the place or time when the business was performed. can be analyzed.

예를 들어, 카페에서 수행되는 영업 직무의 경우, 카페에서 발생되는 전형적인 소음인 배경음, 커피 제조 과정에서 발생되는 소음, 카페 내 인원의 수 등에 따라 발생되는 웅성거리는 소리를 기 축적된 데이터 또는 외부로부터 수신하여 수집하고, 현재 녹음된 소리 또는 녹화된 영상과 비교하여 소음을 구분해내도록 한다.For example, in the case of a sales job performed in a cafe, background noise, which is a typical noise generated in a cafe, noise generated during the coffee making process, and a buzzing sound generated according to the number of people in the cafe are received from the accumulated data or from outside. to distinguish the noise by comparing it with the currently recorded sound or recorded video.

소음을 구분해내는 시나리오는 다음과 같이 볼 수 있다.Scenarios for classifying noise can be viewed as follows.

[시나리오#2][Scenario #2]

영업 직원은 고객과 응대 하기 전 기본 정보와 개별 정보를 입력하는 과정에서 영업이 수행되는 장소와 일시를 입력한다. 이 때, 단말(110)은 인터페이스 상으로 영업 직원에게 장소와 시간을 입력할 수 있도록 대표되는 보기를 제공하거나 또는 실제 입력할 수 있도록 할 수 있다.Sales staff enter the location and date and time of sales in the process of entering basic and individual information before interacting with customers. In this case, the terminal 110 may provide a representative view for inputting the place and time to the sales staff on the interface or may allow the actual input.

일 예로 대로 변에 위치한 카페에서 이른 아침에 수행한다고 가정할 경우, 영업 직원은 주변 차량이 많이 지나다니는 경우라거나 차량이 많이 다니지 않는다거나, 이른 아침에 카페 내에서 상주하는 인원이 적다거나 많다거나 하는 것을 정성적 또는 정량적으로 평가할 수 있도록 제공된 대표 보기를 선택하거나, 실제 구체적으로 입력한다.For example, if it is assumed that the performance is carried out in the early morning at a cafe located on the side of the road, the sales staff may say that a lot of surrounding vehicles pass, that there are not many vehicles, or that there are few or many people resident in the cafe in the early morning. Select a representative example provided so that it can be evaluated qualitatively or quantitatively, or actually enter it specifically.

영업 직원은 자기 성문와 얼굴 이미지를 미리 입력할 수도 있고, 고객의 성문 또는 얼굴 이미지가 입력될 때에 함께 입력할 수 있고, 이후 영업 직원은 고객을 상대로 영업 활동을 전개해나간다.The sales person may input his/her own voice print and face image in advance, or may input the customer's voice print or face image together when they are input, and then the sales employee will develop sales activities for the customer.

이후, 데이터 추출부(202)와 데이터 분석부(203)는 녹음된 소리 또는 녹화된 영상으로부터, 화자와 청자의 음성만을 남기도록 영업 직원이 입력한 장소, 시간, 주변 인원, 차량 소음 등의 정보, 그러한 소음이 갖는 전형적인 소음 데이터, 그리고 외부로부터 수신된 소음의 전형적인 데이터를 기초로, 소음을 제거한다.Thereafter, the data extraction unit 202 and the data analysis unit 203 receive information such as location, time, people around, and vehicle noise input by the sales staff so as to leave only the speaker and listener's voice from the recorded sound or recorded image. , the noise is removed based on the typical noise data that such noise has, and the typical data of the noise received from the outside.

일 실시예에 따라, 데이터 분석부(203)는 화자와 청자의 말이 겹칠 때에는 화자와 청자의 음성을 구분하여 분석할 수 있으며, 이는 사전에 입수 및 분석한 화자와 청자의 성문 분석 등에 기초하여 이뤄질 수 있다. According to an embodiment, when the words of the speaker and the listener overlap, the data analysis unit 203 may distinguish and analyze the speaker's and the listener's voices, which may be performed based on the speech text analysis of the speaker and the listener obtained and analyzed in advance. can

이를 통해 화자와 청자의 음성이 시간상 겹침이 발생하여 겹쳐진 상태에서 듣는 경우 발화 내용이 명확히 들리지 않는 경우를 방지할 수 있다.Through this, it is possible to prevent a case in which the contents of the utterance cannot be clearly heard when the speaker and the listener's voices overlap in time and are heard in the overlapped state.

이 경우 화자가 갖는 독특한 성문과 청자가 갖는 독특한 성문을 기준으로, 성문이 겹친다고 할 경우 어느 일 성문만을 지우거나 줄이도록 하여 다른 성문이 잘 보이도록 하고, 그 결과 어느 일 성문이 다른 성문과 겹침으로 인하여 발생된 노이즈를 제거하거나 최소화할 수 있도록 한다.In this case, based on the unique voice gates of the speaker and the unique voice gates of the listener, if the voice gates overlap, only one voice gate is erased or reduced so that the other gate gate is clearly visible, and as a result, one voice gate overlaps the other gate gate. It is possible to remove or minimize the noise generated by this.

일 실시예에 따라, 데이터 분석부(203)는 시작, 종료, 강조 또는 북마크 기능을 수행하도록 하는 음성, 즉 큐사인과 같은 기능을 수행하는 음성을 분석하도록 한다. According to an embodiment, the data analysis unit 203 analyzes a voice that performs a start, end, highlight, or bookmark function, that is, a voice that performs a function such as cue sign.

이를 통해 사용자가 녹음 중에 시작, 종료, 강조 또는 북마크 기능을 하게끔 한 음성을 녹음 데이터에서 찾아내어 시작, 종료 강조 또는 북마크 기능이 구현되게끔 할 수 있다.Through this, it is possible to find a voice that causes the user to start, end, highlight, or bookmark the recording data from the recording data so that the start, end highlight or bookmark function is implemented.

일 실시예에 따라, 데이터 분석부(203)는 화자와 청자의 언어에 따라서 달리 분석할 수 있다.According to an embodiment, the data analysis unit 203 may analyze differently according to the language of the speaker and the listener.

예를 들어, 한국어로 녹음된 경우에는 기 축적된 데이터 또는 외부로부터 수신한 한국어 데이터, 그리고 화자와 청자가 갖는 한국어 특징을 분석하여 보다 명확하고 깔끔한 분석을 수행할 수 있다. For example, in the case of recording in Korean, a clearer and cleaner analysis can be performed by analyzing the previously accumulated data or the Korean data received from the outside, and the Korean characteristics of the speaker and the listener.

또한, 화자와 청자가 같은 한국어라고 하더라도 방언을 사용하는 등의 경우에는 그러한 사투리의 전형적인 특징에 기반하여 분석을 수행할 수 있다.In addition, even if the speaker and the listener speak the same Korean, in the case of using a dialect, analysis can be performed based on the typical characteristics of such a dialect.

또한, 예를 들어 영어로 녹음된 경우에도 기 축적된 데이터 또는 외부로부터 수신한 영어 데이터, 그리고 화자와 청자가 갖는 영어 특징을 분석하여 보다 명확하고 깔끔한 분석을 수행할 수 있다. Also, for example, even when recorded in English, it is possible to perform clearer and cleaner analysis by analyzing previously accumulated data or English data received from the outside, and English characteristics of the speaker and the listener.

또한, 화자와 청자가 같은 영어라고 하더라도, 한국인이 말하는 영어, 뉴욕에 거주하는 뉴욕의 영어와 같이 화자와 청자의 특성을 반영한 영어 데이터를 기 축적된 데이터 또는 외부로부터 수신하여 비교, 분석할 수 있다.In addition, even if the speaker and listener are the same English, it is possible to compare and analyze the English data that reflects the characteristics of the speaker and the listener, such as English spoken by Koreans and English in New York living in New York, received from the accumulated data or from outside. .

일 실시예에 따라, 데이터 분석부(203)는 녹음된 음성에서 명사, 동사, 조사, 어미, 특정 문장 등을 구분하여 분석할 수 있다.According to an exemplary embodiment, the data analysis unit 203 may classify and analyze a noun, a verb, a proposition, a suffix, a specific sentence, and the like from the recorded voice.

예를 들어, 어간이 중요한 의미이고 어미는 다양하게 변형될 수 있는데, 기 축적된 데이터 또는 외부로부터 수신한 데이터와 비교, 분석하여 어간을 중심으로 분석한다거나, 명사와 동사가 의미 전달에서 중요할 것이므로, 부사나 접속어 등은 비중을 적게 두고 분석한다.For example, the stem is an important meaning, and the ending can be changed in various ways. Because the stem is important for analysis, or the noun and verb will be important in conveying the meaning by comparing and analyzing it with previously accumulated data or data received from the outside. , adverbs and conjunctions are analyzed with less weight.

여기서 명사, 동사, 조사, 어미 등이 구분되고 분석되게끔 하기 위해서는 명사, 동사, 조사, 어미 등을 영업 직원에 의해 사전에 입력된 것일 수도 있고, 기존 과거 데이터 또는 다른 영업 직원들로부터 취득한 데이터 등을 종합하여 분석될 수 있다.Here, in order to distinguish and analyze nouns, verbs, propositions, endings, etc., the nouns, verbs, propositions, endings, etc. may have been entered in advance by the sales staff, or existing historical data or data acquired from other sales staff, etc. can be analyzed collectively.

예를 들어, 화자와 청자로부터 발화된 내용이 과거에 논의된 사항에 관한 것이라면, 과거에 논의된 사항과 관련하여 그 시작과 끝이 되는 명사나 동사, 특정 문장 또는 특정 큐 사인 등을 분석할 수 있다.For example, if the content uttered by the speaker and listener is about a matter discussed in the past, it is possible to analyze the noun or verb that begins and ends with the matter discussed in the past, a particular sentence, or a particular cue sign. have.

그리고 과거에 논의된 사항에 관한 것이라면, 기존 데이터 상에도 언급된 바 있었을 것이므로, 기존 데이터 상에 존재하는 명사나, 동사와 일치도를 비교하여 판단할 수 있다.And if it is about the matter discussed in the past, since it would have been mentioned in the existing data, it can be determined by comparing the degree of agreement with a noun or a verb existing in the existing data.

예를 들어, 화자와 청자로부터 발화된 내용이 다음 미팅 일정에 관한 것이라면 날짜나 시간 등에 대한 발화 내용을 체크하여 다음 미팅 일정이라고 분석할 수 있다.For example, if the content uttered by the speaker and the listener relates to the next meeting schedule, the utterance content of the date or time may be checked and analyzed as the next meeting schedule.

또한, 예를 들어 화자와 청자로부터 발화된 내용이 금전적인 문제에 관한 것이라면, 그러한 금전적인 문제와 관련된 명사, 동사, 조사, 어미, 문장, 큐사인 등을 통해 분석될 수 있다.Also, for example, if the content uttered by the speaker and the listener relates to a financial problem, it can be analyzed through a noun, a verb, a preposition, a ending, a sentence, a cue sign, etc. related to the financial problem.

이처럼, 다음 미팅 일정 등에 관한 발화 내용이 파악될 경우에는 영업 직원의 다음 업무 일정에 반영되게끔 하여, 미리 알릴 수 있도록 하거나, 중요한 내용(예를 들어 금전적인 내용이나 중요 거래 내용)이 있는 경우에는 해당 고객에게 별도 태그를 두어 해당 고객과 관련된 정보를 열람할 때에는 항상 중요한 내용을 같이 볼 수 있도록 할 수 있다.In this way, if the contents of the speech regarding the next meeting schedule, etc. are identified, it is reflected in the next business schedule of the sales staff so that it can be notified in advance, or if there are important contents (for example, financial contents or important transaction contents) By putting a separate tag on the customer, you can always see important content when viewing information related to the customer.

녹화된 영상을 분석함에 있어, 녹화 도중 녹음된 소리에 대해서는 상기 서술한 녹음에 대한 분석 방법과 다르지 않으므로 생략하고, 녹화된 영상에 대한 분석을 설명하기로 한다.In analyzing the recorded image, the sound recorded during recording is omitted because it is not different from the above-described analysis method for the recording, and the analysis of the recorded image will be described.

녹화된 영상을 분석함에 있어, 기 입력된 화자와 청자의 얼굴의 특징을 기준으로 화자와 청자의 기본 표정 상태, 놀람 표정 상태, 기쁜 표정 상태, 슬픈 표정 상태, 진지한 표정 상태 등을 분석한다.In analyzing the recorded video, the basic expression state of the speaker and listener, the surprised expression state, the happy expression state, the sad expression state, the serious expression state, etc. are analyzed based on the previously inputted facial features of the speaker and listener.

이 때, 기 축적된 데이터 및/또는 외부로부터 수신한 다양한 얼굴 표정에 대한 데이터와 비교하여 분석할 수 있다.In this case, it may be analyzed by comparing it with previously accumulated data and/or data on various facial expressions received from the outside.

예를 들어, 화자와 청자의 국적, 연령대 등을 기초로 하여 해당 국적의 사람들이 갖는 얼굴과 표정의 특징, 특정 연령대가 갖는 얼굴과 표정의 특징을 고려하여 분석할 수 있다. For example, based on the nationalities and age groups of the speaker and the listener, it is possible to analyze the features of the faces and expressions of people of the corresponding nationality and the features of the faces and expressions of a specific age group.

데이터생성부(204)는 분석된 데이터로부터 영업 직원 업무 관리 및 훈련을 위한 컨텐츠를 위한 데이터를 생성한다(S304).The data generation unit 204 generates data for content for sales staff work management and training from the analyzed data (S304).

분석된 데이터 중 기본 정보와 개별 정보는 영업 직원 교육을 위한 컨텐츠 제작 및 훈련을 위해 제공되되, 카테고리별로 분류되어 생성될 수 있다.Among the analyzed data, basic information and individual information are provided for content creation and training for sales staff education, but may be generated after being classified by category.

예를 들어, 피교육자의 특징이 대체로 키가 작은 경우에는, 키가 작은 영업 직원의 데이터로 분류하여 생성하는 것이고, 아침에 영업을 하게 되는 경우에는, 아침에 영업 직무를 수행한 영업 직원의 데이터로 분류하여 생성하는 것이고, 이러한 예에 한정되지 않고, 앞서 서술한 각각의 카테고리별로 분류하여 생성할 수 있다.For example, if the characteristics of the trainee are generally short, it is generated by classifying it as the data of a short sales employee. It is generated by classification, and is not limited to this example, and may be generated by classification for each category described above.

분석된 데이터 중 모든 말(言)은 텍스트 데이터로 변환되어 생성될 수 있다.All words among the analyzed data may be converted into text data and generated.

예를 들어, 아무런 가감 없이 녹음이 시작되고 끝날 때까지 모든 말(사용자가 고객 응대 전, 후 내부적으로 확인하기 위한 것도 모두 포함)이 텍스트로 변환되어 생성될 수 있고, 경우에 따라서는 고객 응대 과정에서 발생된 것만을 기준으로 텍스트 데이터로 변환, 생성될 수 있다.For example, from the beginning of the recording to the end of the recording without any addition or subtraction, all speech (including both for the user to check internally before and after the customer interaction) can be converted to text and generated, in some cases, the customer interaction process It can be converted and created into text data based on only the generated data.

또한 예를 들어, 일정 시점부터 일정 종점까지의 녹음이 된 음성 데이터를 텍스트 데이터로 변환, 생성할 수 있다. Also, for example, voice data recorded from a certain point in time to a certain end point may be converted into text data and generated.

이 경우 고객의 응대 시작 전, 응대 시작 직후, 응대 시작 후 응대 종료, 응대 종료 전, 응대 종료 후 등 다양한 구간을 설정하여 텍스트 데이터로 변환, 생성할 수 있다.In this case, it is possible to convert and create text data by setting various sections such as before the customer's response start, right after the response start, after the response starts, after the response ends, before the response ends, after the response ends, etc.

이 때, 분석된 영상 데이터는 음성 데이터와 마찬가지로 다양한 구간을 설정하여 텍스트 데이터와 함께 변환될 수 있다.At this time, the analyzed image data may be converted together with the text data by setting various sections like the audio data.

한편, 음성 또는 영상 데이터는 텍스트 데이터와 함께 시간 순으로 병렬하여 재생될 수 있도록 생성될 수 있되, 후술하는 바와 같이 생성된 데이터의 재생 등 출력의 제어를 통해 음성과 영상, 그리고 텍스트 등이 서로 엇 박자가 나도록 시간 차를 두게끔 생성할 수도 있다.On the other hand, audio or image data may be generated so that they can be reproduced in parallel in chronological order together with text data, but as will be described later, audio, video, and text are different from each other through output control such as reproduction of the generated data. It can also be created to have a time difference so that the beat occurs.

음성 또는 영상 데이터를 이용하여 텍스트 데이터를 생성할 때에는 성문 분석의 결과를 참고하여 소음과 말을 구분해내고, 말을 텍스트 데이터로 변환할 때에는 화자와 청자의 반응을 같이 생성할 수 있다. When text data is generated using audio or video data, noise and speech are distinguished by referring to the results of glottal analysis, and when speech is converted into text data, the responses of the speaker and the listener can be generated together.

이를 테면, 화자가 크게 말할 때에는 텍스트 데이터로 변환할 때에 그 부분에 대하여 다른 텍스트와 대비하여 글자 크기를 크게 하거나, 색깔을 달리 하거나, 글자체를 달리하는 등 강조 표시를 둘 수 있으며, 경우에 따라서는 텍스트의 상단이나 하단 또는 앞에 괄호 병기를 하여 강조 표시를 할 수 있다.For example, when the speaker speaks loudly, when converting to text data, highlighting such as increasing the font size, changing the color, or changing the font in comparison with other text for that part can be placed, and in some cases You can highlight text by placing parentheses at the top, bottom, or in front of it.

여기서 강조 표시를 하는 대상은 음성 또는 영상 데이터를 기준으로 중요하다고 하는 부분이라고 구분하여 입력된 부분 또는 음성의 크기나 발화 내용 자체일 수 있다.Here, the target to be highlighted may be a part input by classifying it as an important part based on voice or image data, or the volume of the voice or the content of the utterance itself.

예를 들어, 음성 또는 영상 데이터를 기준으로 중요하다고 하는 부분이라고 구분하여 입력된 부분은, 사용자가 별도로 버튼을 입력하거나 음성을 통해 기 설정된 음성을 발화하거나, 손으로 괄호 표시를 하거나 브이 체크를 하는 등의 기 설정된 제스처를 통해 영상에서 중요하다는 부분이라고 하는 부분을 입력할 수 있다. For example, the input part is classified as important based on audio or video data, and the user separately inputs a button, utters a preset voice through voice, displays parentheses by hand, or checks V. It is possible to input a part called an important part of the image through a preset gesture, such as a gesture.

예를 들어, 강조 표시를 하는 대상을 구분하게 하는 것은 음성의 크기나 발화 내용 자체일 수 있는데, 이 경우 음성의 크기가 전체 음성 데이터 중 평균 음성 크기보다 크게 입력되거나, 또는 발화 내용 그 자체로 중요한 내용인 경우에는 해당 부분이 중요한 부분이라고 입력될 수 있다.For example, it may be the volume of speech or the content of the speech itself that distinguishes the subject for highlighting. In this case, the volume of the speech is input larger than the average speech volume of the entire speech data, or the speech content itself is important. In the case of content, the corresponding part may be input as an important part.

한편, 음성과 영상 데이터는 텍스트 데이터로 변환될 때에 화자와 청자로 구분된 한 단락의 문구를 기준으로 변환될 수 있으나, 이에 한정되지 않는다.Meanwhile, when the audio and video data are converted into text data, they may be converted based on a phrase of a paragraph divided into a speaker and a listener, but is not limited thereto.

일 예로, 단순히 텍스트 데이터로 변환할 때에는 화자가 말하고 청자가 듣고, 그 다음에 청자가 말하고 화자가 말하는 턴(turn)제 방식에 따라 텍스트가 생성되고, 이 때에는 화자가 말하고 나서 일정 시간 동안 화자의 음성이 입력되지 않을 경우 화자가 말을 끝낸 것으로 알고 한 단락의 문구를 매듭짓도록 한다. 화자의 말이 끝난 후 성문 분석 결과가 다른 청자가 말을 할 경우 청자가 말을 하는 것으로 인지하고 텍스트 데이터로 변환하되, 이 경우 단락을 달리하여 구성될 수 있다.For example, when simply converting into text data, the speaker speaks and the listener listens, and then the listener speaks and the text is generated according to the turn system in which the speaker speaks. In this case, after the speaker speaks, the speaker's If there is no voice input, it is assumed that the speaker has finished speaking, and the sentence of one paragraph is concluded. When a different listener speaks after the speaker's speech is over, it is recognized that the listener is speaking and converted into text data, but in this case, the paragraph may be different.

그러나 이에 한하지 아니하며, 예를 들어 화자와 청자가 겹치게 말을 할 수도 있다. 예를 들어, 말의 겹침이 겹침이 생길 경우 텍스트 데이터를 겹치도록 하여, 어느 시점에는 말이 겹치고, 어느 시점에는 말이 겹치지 않음을 표시할 수 있다.However, the present invention is not limited thereto, and for example, the speaker and the listener may speak overlappingly. For example, when overlapping of words occurs, text data may be overlapped to indicate that words overlap at a certain point in time and do not overlap at a certain point in time.

여기서 겹침을 처리하는 방식은 화자와 청자의 발화 텍스트를 달리하되, 옆으로 일부 구간이 겹치게끔 표시하는 것으로 할 수 있으나, 이에 한하지 아니한다.Here, the overlapping process may be performed such that the uttered texts of the speaker and the listener are different, but some sections are displayed so that they overlap each other, but the present invention is not limited thereto.

한편, 음성 또는 영상 데이터를 분석하고 텍스트 데이터를 생성할 경우 해당 텍스트 데이터는 음성 또는 영상 데이터와 연결되도록 하여 텍스트 데이터와 함께 처리될 수 있도록 한다. Meanwhile, when audio or image data is analyzed and text data is generated, the corresponding text data is connected to the audio or image data so that it can be processed together with the text data.

예를 들어, 후술할 컨텐츠 처리부(205)에서 해당 텍스트 데이터를 선택할 경우 해당 텍스트 데이터와 연관된 음성이나 영상 데이터가 같이 출력될 수 있도록 하는 것이다.For example, when the corresponding text data is selected by the content processing unit 205 to be described later, voice or image data related to the corresponding text data can be output together.

한편, 영상 데이터를 분석하는 경우 화자와 청자의 표정을 분석할 수 있고, 분석의 결과 긍정, 부정 또는 중립이라는 상태로 분석하여 표정 데이터를 생성한다. 여기서 생성된 표정 데이터는 후술할 컨텐츠처리부(205)에서 스크립트와 영상 데이터가 제공될 때에 표정 데이터를 제공하여 보는 사람으로 하여금 어떠한 표정을 짓도록 할 것인지 제공한다.On the other hand, when analyzing the image data, it is possible to analyze the expressions of the speaker and the listener, and as a result of the analysis, the expression data is generated by analyzing it in a positive, negative, or neutral state. The facial expression data generated here provides facial expression data when the script and image data are provided by the content processing unit 205, which will be described later, to provide what kind of facial expression the viewer will make.

여기서 고객의 표정을 두고 긍정, 부정 또는 중립이라는 상태를 판단하는 기준은 고객의 눈썹, 입술, 팔자주름, 눈깜빡임, 눈매의 변화 등을 기준으로 할 수 있으나, 이에 한하지 아니하고, 경우에 따라서는 2회 이상 만나게 되는 동일한 고객의 경우 전 회차까지 입력된 고객의 표정 데이터를 참고하여 판단할 수 있다.Here, the criteria for judging the status of positive, negative or neutral based on the customer's expression may be based on the customer's eyebrows, lips, nasolabial folds, blinking eyes, and changes in the eyes, but it is not limited thereto, and in some cases, In the case of the same customer who meets twice or more, it can be judged by referring to the facial expression data of the customer entered up to the previous round.

또한 경우에 따라서는, 영업 직원이 별도로 입력한 고객에 대한 정보에 기초하여 판단될 수도 있다. 예를 들어, 고객마다 영업 직원이 직접 대면하여 느끼는 개별적인 느낌, 표정, 성향 등이 있을 수 있으므로 실제 고객을 대면한 영업 직원이 이와 관련된 내용을 입력하고, 입력된 것을 기초로 표정 데이터를 참고하여 부정, 긍정 또는 중립을 평가할 수 있다.In addition, in some cases, the determination may be made based on customer information separately input by the sales staff. For example, since each customer may have individual feelings, facial expressions, and dispositions that a sales employee directly feels, a sales employee who actually faces a customer enters the relevant information and based on the input, the sales staff refer to the facial expression data and deny it. , can be evaluated as positive or neutral.

구체적인 예로, 해당 고객이 당초부터 표정 변화가 없거나 기본 표정이 무표정인 경우 또는 응대하기 전부터 좋지 않은 일이 있어 기분이나 표정이 좋지 않은 경우라고 하여 해당 직원이 고객 응대 후 느낀 바가 입력되면, 표정의 기본 값이 중립 값이 부정적인 것으로 옮겨 가게 되는 것이고, 반대로 해당 고객이 당초부터 표정 변화가 크거나 기본 표정이 매우 밝은 경우, 또는 응대하기 전에 좋은 일이 있어 기분이나 표정이 좋은 경우라고 하여 해당 직원이 고객 응대 후 느낀 바가 입력되면, 표정의 기본 값이 중립 값이 긍정적인 것으로 옮겨 가게 되어 영점 조정이 되는 것이다.As a specific example, if the employee's feelings after serving the customer are inputted, such as when the customer has no change in facial expression from the beginning or the basic facial expression is expressionless, or when the mood or expression is not good because something bad happened before responding to the customer The value is shifted from a neutral value to a negative one. Conversely, if the customer has a large change in facial expression from the beginning, if the basic expression is very bright, or if a good thing happened before responding and the employee has a good mood or expression, If what you feel after responding is input, the default value of the expression is moved from a neutral value to a positive value, and the zero point is adjusted.

또한, 이러한 표정 데이터는 실제 영업 직무를 수행한 영업 직원에게 피드백을 주거나, 영업 결과를 예측하는 데에 도움이 될 수 있으며, 이 경우 음성 데이터 또는 텍스트 데이터와 함께 제공될 수 있도록 할 수 있다.In addition, such facial expression data may provide feedback to sales staff who performed actual sales duties or help predict sales results, and in this case, may be provided together with voice data or text data.

예를 들어, 해당 표정 데이터를 이용하여 영업 직무 수행 중 전반적인 고객의 반응, 특정 시점에서의 고객의 반응을 분석하고 영업 직무를 수행한 직원에게 피드백을 주어 업무 개선에 도움을 줄 수 있다. For example, by using the facial expression data, it is possible to analyze the overall customer response during sales job performance, customer response at a specific point in time, and provide feedback to employees who have performed the sales job to help improve work.

또한 예를 들어, 고객의 표정을 분석하여 해당 영업 직무 수행을 통해 영업의 결과를 예측하는 데에 도움이 될 수 있도록 한다.Also, for example, by analyzing the facial expressions of customers, it can help to predict the results of sales through the performance of the corresponding sales job.

또한 예를 들어, 음성 데이터 또는 텍스트 데이터와 함께 표정 데이터를 제공하여, 어느 시점에서 어떠한 표정을 짓는지 어떠한 반응을 보이는 지 등 교육 자료로서도 활용될 수 있다.In addition, for example, by providing facial expression data together with voice data or text data, it can be used as educational materials, such as what kind of facial expression is made at what point in time and what kind of reaction is shown.

다른 한편, 영상 데이터를 분석하되 고객이 아닌 영업 직원의 음성 또는 영상 데이터를 분석하여 피드백 데이터를 생성할 수 있다.On the other hand, the feedback data may be generated by analyzing the video data, but by analyzing the voice or video data of a sales person who is not a customer.

예를 들어, 고객을 응대하기 시작할 때에는 어떠한 표정을 짓는지, 어느 정도의 톤과 높이로 말을 할지, 말의 속도는 어떠한지, 말을 하는 과정에서 짓는 제스쳐, 말을 하지 않고 고객으로부터 말을 듣는 때, 아무도 말을 하지 않고 있을 때에 어떠한 행동을 하는지 등을 분석하여 피드백 주게끔 피드백 데이터를 생성할 수 있다.For example, what kind of expression do you make when you start serving customers, what kind of tone and height you want to speak, what is the speed of your speech, the gestures you make in the course of speaking, and listen to the customer without speaking. When no one is speaking, feedback data can be generated to give feedback by analyzing what kind of actions people take when no one is speaking.

이에 따른 시나리오는 다음과 같을 수 있다.The resulting scenario may be as follows.

[시나리오#3][Scenario #3]

영업 직원은 고객과 응대하기 전, 영업 내용 또는 영업 내용 외의 사유로 인하여 부정적인 분위기와 인상을 갖는 고객을 상대한다고 가정한다.Before dealing with customers, it is assumed that sales staff deal with customers who have a negative atmosphere and impression due to business or non-sales reasons.

이 경우 단말(110)은 불쾌하거나 부정적인 분위기와 인상, 표정을 갖는 고객의 성문 및 얼굴 이미지 자료를 취득하고, 당황하거나 불편한 감을 가질 수 있는 영업 직원의 성문 또는 얼굴 이미지 자료를 취득할 수 있다.In this case, the terminal 110 may acquire the voice print and face image data of a customer having an unpleasant or negative atmosphere, impression, and expression, and may acquire the voice print or face image data of a sales employee who may feel embarrassed or uncomfortable.

취득된 성문과 얼굴 이미지 자료에 기초하여, 영업 직원과 고객을 분석하는 영점은 중립에서 다소 부정이라는 척도에서 시작하게 되고, 영업 직무 수행 중 고객이 긍정적인 반응을 보이는 경우에는 중립 상태에서 시작하여 긍정적인 반응을 보인 경우보다 더 가중치를 두고 영업 내용 및 그 결과에 긍정적인 피드백을 줄 수 있다.Based on the acquired voiceprint and facial image data, the zero point for analyzing sales staff and customers starts from a neutral to somewhat negative scale, and if the customer responds positively during sales job performance, it starts from a neutral state and is positive. It is possible to give positive feedback on sales contents and results by giving more weight than the case of a positive response.

[시나리오 #4][Scenario #4]

영업 직원은 단말(110)을 이용하여 고객의 음성 또는 얼굴 이미지가 아닌 자기 음성 또는 얼굴 이미지를 취득할 수 있다.A sales employee may use the terminal 110 to acquire a customer's own voice or face image instead of the customer's voice or face image.

자기 음성 또는 얼굴 이미지를 이용하여 영업 직원 스스로에게 자기 음성이 어떠한지, 얼굴 이미지는 어떠한지를 고객의 반응과 연계하여 피드백을 제공할 수 있다.By using the self-voice or face image, it is possible to provide feedback to the sales staff themselves in connection with the customer's reaction about how their voice is and what their face image is.

피드백 과정에서 영업 직원이 어떠한 언행을 하였을 때에 고객이 어떠한 반응을 보였는지, 또는 고객이 어떠한 언행을 하였을 때에 자기가 어떠한 반응을 보였는지를 알 수 있게 한다.In the feedback process, it is possible to know how the customer reacted to what the sales staff said or did, or how the customer reacted to what the customer did.

컨텐츠처리부(205)는, 단말(110)에 대하여 영업 직원의 업무 관리 및 훈련을 위한 컨텐츠 제공을 위하여 필요한 컨텐츠 또는 컨텐츠 리스트 등을 처리하고 출력하는 단계(S305)를 상세히 설명한다.The content processing unit 205, for the terminal 110, the step (S305) of processing and outputting content or a content list required to provide content for business management and training of the sales staff will be described in detail.

여기서 단말(110)은 본 발명에 따른 영업 직원의 업무 관리 및 훈련을 위한 기초 자료인 실제 영업 직원의 음성이나 영상 등이 입력되는 것일 뿐만 아니라, 경우에 따라서는 인터페이스로 피교육자 교육 및 훈련을 위한 컨텐츠 제공 기능을 수행할 수 있으며, 이러한 기능을 수행하기 위해 적합한 인터페이스를 가질 수 있으나, 이에 한하지 아니하며, 별도의 단말을 통해서 제공되는 것일 수 있다.Here, the terminal 110 not only inputs the voice or video of an actual sales employee, which is basic data for business management and training of the sales employee according to the present invention, but also provides content for education and training of trainees as an interface in some cases. It may perform a providing function and may have an interface suitable for performing such a function, but is not limited thereto, and may be provided through a separate terminal.

여기서 말하는 영업 직원 훈련을 위한 컨텐츠는 앞서 입력된 음성 데이터, 영상 데이터 및 텍스트 데이터 및 이의 파생물을 포함할 수 있다.The content for sales staff training referred to herein may include previously inputted voice data, image data, and text data, and derivatives thereof.

여기서 말하는 음성 데이터는 해당 음성 데이터의 원본으로 영업직무를 수행하는 직원이 영업 직무 수행 중에 녹음한 데이터 또는 그 데이터로부터 가공처리된 음성 데이터를 포함하는 것이고, 영상 데이터 또한 마찬가지로 원본으로 영업 직원이 직무 수행 중에 녹화한 데이터 또는 그 데이터로부터 가공 처리된 영상 데이터를 포함하는 것이며, 텍스트 데이터는 음성 또는 영상 데이터로부터 추출되어 생성, 변환된 것 또는 이의 가공 처리된 것을 말한다.The voice data referred to herein includes data recorded during sales by an employee performing sales duties as the source of the voice data or audio data processed from the data, and the video data is also the same as the original, and the sales employee performs his/her duties It includes data recorded during recording or video data processed from the data, and text data refers to a thing extracted from audio or video data, generated, converted, or processed.

여기서 음성 데이터를 출력하는 인터페이스는 단순히 음성을 재생, 일시정지, 정지, 되감기, 빨리감기, 북마크, 다음 넘김, 뒤로 넘김 등의 기능을 가지고 있는 것뿐만 아니라Here, the interface for outputting voice data not only has functions such as playing, pausing, stopping, rewinding, fast forwarding, bookmarking, skipping next, and skipping backwards.

여기서 영상 데이터를 출력하는 인터페이스는 음성 데이터를 출력하는 인터페이스와 같거나 이를 포함할 수 있다.Here, the interface for outputting image data may be the same as or include an interface for outputting audio data.

여기서 텍스트 데이터를 출력하는 인터페이스는 앞의 음성 데이터 또는 영상 데이터와 함께 제공되거나 따로 제공되되, 음성 데이터 또는 영상 데이터와 함께 제공되는 경우에는 음성 또는 영상 데이터를 출력하는 인터페이스를 그대로 유지할 수 있다.Here, the interface for outputting text data is provided together with the previous audio data or image data or provided separately, but when provided together with audio data or image data, the interface for outputting audio or image data may be maintained as it is.

또한, 텍스트 데이터는 스크립트의 형태로 제공되는 것으로, 화자와 청자가 구분되어서 표시될 수 있다.In addition, the text data is provided in the form of a script, and the speaker and the listener may be displayed separately.

여기서 화자와 청자가 구분되어서 표시되는 것은, 글자체, 글자색, 글자 배경, 스크립트의 위치, 스크립트의 표시 순서, 음영의 차이 등에 따를 수 있으나, 이에 한정되지 않는다.Here, the speaker and the listener may be displayed separately depending on the font, the character color, the character background, the position of the script, the display order of the script, the difference in shading, and the like, but is not limited thereto.

일 예로, 화자와 청자가 각각 1명씩 있는 상황에서 스크립트는 컨텐츠의 처음부터 끝까지 전체 스크립트를 보여줄 수 있거나, 전체 스크립트를 표시한 상태에서 음성 또는 영상 데이터의 재생 시간에 따라서 순차적으로 보여줄 수도 있고, 음성 또는 영상 데이터의 재생 시간에 따라 순차적으로 보여줄 때에는 재생 시간에 맞추어 스크립트가 없었다가 새로 생성되는 형태로 보여주거나 또는 전체 화면에서 스크롤 방식을 통해 아래로 내려가면서 순차적으로 표시하는 것으로 보여줄 수도 있다.For example, in a situation where there is one speaker and one listener, the script may show the entire script from the beginning to the end of the content, or may show the entire script sequentially according to the playback time of audio or video data while displaying the entire script, Alternatively, when sequentially displaying the image data according to the playback time, the script may be displayed in a newly created form after not having a script according to the playback time, or it may be displayed sequentially while scrolling down through the entire screen.

일 예로, 화자와 청자가 각각 적어도 2명 이상인 경우에는 화자와 청자 각각의 스크립트가 다른 것으로 표시할 수 있고, 경우에 따라서는 화자와 청자의 실명과 사진을 함께 표시하도록 보여줄 수 있다.For example, when there are at least two speakers and listeners, respectively, scripts of the speakers and listeners may be displayed as different, and in some cases, the real names and photos of the speaker and listener may be displayed together.

한편, 경우에 따라서는 음성, 영상 또는 텍스트 데이터를 기초로 하여 고객의 음성, 영상 또는 텍스트만 두고 피교육자가 영업 직원의 역할로 하여 직무 연습을 수행할 수 있다.Meanwhile, in some cases, the trainee may perform job practice in the role of a sales employee with only the customer's voice, image, or text based on the voice, image, or text data.

이 경우 출력되는 고객의 음성, 영상 또는 텍스트는 단발성 영업 활동에 의해 취득한 음성, 영상 또는 텍스트일 수도 있고, 복수의 데이터로부터 취합된 결과에 따라 인공지능 등을 통해 분석, 생성된 데이터일 수 있고, 경우에 따라서는 인공지능 등을 통해 분석, 생성된 데이터가 출력되어 피교육자가 대응한 것에 따라서 다시금 인공지능 등을 통해, 피교육자의 대응을 고려하여 분석, 생성된 데이터가 출력될 수 있다.In this case, the output customer's voice, video or text may be audio, video, or text acquired through a one-time sales activity, or may be data analyzed and generated through artificial intelligence, etc. according to the results collected from a plurality of data, In some cases, the data analyzed and generated through artificial intelligence or the like is output, and according to the response of the trainee, the analyzed and generated data may be output again through artificial intelligence, etc. in consideration of the trainee's response.

따라서 피교육자는 주어진 고객의 음성, 영상, 텍스트 또는 이들의 조합에 대응하여 인사, 설명 등의 학습을 할 수 있고, 인공지능 등에 따라 분석, 생성된 다양한 상황에서의 대응을 통해 실전 경험을 익힐 수 있도록 한다.Therefore, trainees can learn greetings, explanations, etc. in response to a given customer's voice, video, text, or a combination thereof, and learn practical experiences by responding in various situations analyzed and created according to artificial intelligence. do.

이러한 학습을 통해 구체적인 상황에 놓이지 않은 상태에서 단순한 역할 놀이 또는 텍스트 기반의 메뉴얼 또는 프로그램으로 학습한 경우보다 더 나은 학습 효과를 도모할 수 있다.Through such learning, better learning effects can be achieved than when learning is done through simple role play or text-based manuals or programs without being placed in a specific situation.

이러한 내용에 참고되는 시나리오는 다음과 같다.Scenarios referenced in these contents are as follows.

[시나리오 #5] [Scenario #5]

영업 직원들 중 가장 영업 실적이 좋은 영업 직원의 녹음된 소리 또는 녹화된 영상으로부터 음성 데이터, 영상 데이터를 추출하고, 그로부터 텍스트 데이터를 생성한다.Audio data and video data are extracted from the recorded sound or recorded video of a sales employee with the best sales performance among sales staff, and text data is generated therefrom.

생성된 텍스트 데이터를 스크립트 형태로 다른 영업 직원들에게 제공할 수 있다.The generated text data can be provided to other sales staff in the form of a script.

제공되는 스크립트는 음성 데이터를 텍스트 데이터로 변환한 것 외에도 비언어적인 요소를 지문처럼 표시한다.In addition to converting voice data into text data, the provided script also displays non-verbal elements like fingerprints.

또한, 제공되는 스크립트를 피교육자가 선택할 경우 이에 대응되는 음성 또는 영상 데이터가 함께 제공될 수 있다.In addition, when the trainee selects the provided script, corresponding audio or image data may be provided together.

한편, 영업 직원은 자기가 수행한 영업 활동의 결과물을 받아볼 수 있으며, 이 경우 최초 입수된 원본 데이터부터 가공된 데이터까지 편집, 가공, 삭제, 보관 등을 할 수 있다.On the other hand, sales staff can receive the results of their sales activities, and in this case, they can edit, process, delete, store, etc. from the original data initially obtained to the processed data.

일 예로, 영업 직원은 본 발명에 따른 시스템이 취득한 정보를 보다 명확히 가공, 편집할 수 있으며, 경우에 따라서는 메모, 사진, 영상 등을 덧붙일 수 있다. For example, the sales staff may more clearly process and edit the information acquired by the system according to the present invention, and in some cases may add memos, photos, videos, and the like.

이는 자기가 수행한 영업 직무를 수행한 다음에 피드백을 받거나 기록 보관을 위해 활용될 수 있고, 또는 피교육자들의 학습을 위해 도움이 되는 자료를 덧붙일 수 있도록 하는 것이다.This can be used to receive feedback or record keeping after performing the sales job performed, or to add material to help trainees learn.

이처럼, 출력된 음성 또는 영상, 텍스트 데이터를 참고로, 교육 시 사용자의 적극적 참여 내지 이용을 유도하기 위하여 재생 중인 데이터의 출력을 조정할 수 있다. 이를테면, 음성 데이터의 경우 오디오 출력을 조정하거나 영상 데이터의 경우 제공 중인 데이터를 확대하는 등의 조정이 있을 수 있다. As such, with reference to the output audio, video, or text data, the output of the reproduced data may be adjusted in order to induce active participation or use of the user during education. For example, in the case of audio data, there may be adjustments such as adjusting an audio output or expanding data being provided in the case of image data.

여기서 출력되는 데이터는 앞의 데이터 생성부(204)가 생성한 데이터를 출력할 수 있는 것으로, 컨텐츠처리부(205) 단락에서 나열한 것에 한하지 아니한다.The data output here can output the data generated by the previous data generation unit 204, and is not limited to those listed in the content processing unit 205 paragraph.

Claims (3)

하기 각 단계는 서비스 서버(120)에서 수행되는 것으로,
단말(110)로부터 영업 직무 수행 중 데이터를 수신하는 단계(S301);
수신된 데이터로부터 소리와 영상 데이터를 추출하는 단계(S302);
추출된 음성과 영상을 분석하는 단계(S303);
분석된 데이터로부터 영업 직원 업무 관리 및 훈련을 위한 데이터를 생성하는 단계(S304);
영업 직원 교육을 위한 컨텐츠 제공을 위하여 필요한 컨텐츠를 처리하고 출력하는 단계(S305);를 포함하는 것으로,
영업 직원 교육을 위한 컨텐츠 제공을 위하여 필요한 컨텐츠를 처리하고 출력하는 단계(S305)는,
일정 시점부터 일정 종점까지의 녹음된 음성 데이터 또는 녹화된 영상 데이터를 텍스트 데이터로 변환, 생성하는 것을 특징으로 하는,
영업 직원 업무 관리 및 훈련 시스템.
Each of the following steps is performed in the service server 120,
Receiving data while performing a sales job from the terminal 110 (S301);
extracting sound and image data from the received data (S302);
analyzing the extracted audio and video (S303);
Generating data for sales staff work management and training from the analyzed data (S304);
To include a; processing and outputting the necessary content to provide content for sales staff training (S305);
Step (S305) of processing and outputting the necessary content to provide content for sales staff training,
Characterized in converting and generating recorded audio data or recorded image data from a certain point in time to a certain end point into text data,
Sales staff work management and training system.
제1항에 있어서,
영업 직원 교육을 위한 컨텐츠 제공을 위하여 필요한 컨텐츠를 처리하고 출력하는 단계(S305)는,
음성 또는 영상 데이터는 텍스트 데이터와 함께 시간 순으로 병렬하여 재생될 수 있도록 생성될 수 있도록 하는,
영업 직원 업무 관리 및 훈련 시스템.
The method of claim 1,
Step (S305) of processing and outputting the necessary content to provide content for sales staff training,
Audio or video data can be generated so that it can be reproduced in parallel in chronological order with text data,
Sales staff work management and training system.
제1항에 있어서,
영업 직원 교육을 위한 컨텐츠 제공을 위하여 필요한 컨텐츠를 처리하고 출력하는 단계(S305)는,
고객 또는 영업 직원의 음성 또는 얼굴 이미지를 분석하여 해당 직원에게 피드백을 하는 것을 포함하며,
상기 피드백은,
음성 데이터를 스크립트 형태의 텍스트 데이터로 제공하고, 음성 데이터 또는 얼굴 이미지의 분석 결과를 상기 텍스트 데이터와 함께 연동되게끔 하여, 영업 직원이 스크립트 형태의 텍스트 데이터를 선택하면, 고객 또는 영업 직원의 음성 데이터 또는 얼굴 이미지의 분석 결과를 함께 제공하도록 하며, 고객의 음성 또는 얼굴 이미지로부터, 고객의 부정, 중립 또는 긍정 상태를 도출하되, 상기 상태를 도출할 때에는, 고객의 영업 전 상태를 반영하는 것을 특징으로 하며,
상기 도출된 고객의 상태에 기초하여 영업 결과를 예측하는 것을 특징으로 하는,
영업 직원 업무 관리 및 훈련 시스템.
The method of claim 1,
Step (S305) of processing and outputting the necessary content to provide content for sales staff training,
Analyzing the voice or facial image of a customer or sales associate and providing feedback to that employee;
The feedback is
The voice data is provided as text data in the form of a script, and the analysis result of the voice data or face image is linked together with the text data. Alternatively, the analysis result of the face image is provided together, and the customer's negative, neutral or positive state is derived from the customer's voice or face image, but when deriving the state, the customer's pre-sales state is reflected. and
Characterized in predicting sales results based on the derived customer status,
Sales staff work management and training system.
KR1020210043024A 2021-04-01 2021-04-01 Method of feedback salesman by analyzing the sounds or face image of both themselves and client and the apparatus thereof KR20220136846A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210043024A KR20220136846A (en) 2021-04-01 2021-04-01 Method of feedback salesman by analyzing the sounds or face image of both themselves and client and the apparatus thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210043024A KR20220136846A (en) 2021-04-01 2021-04-01 Method of feedback salesman by analyzing the sounds or face image of both themselves and client and the apparatus thereof

Publications (1)

Publication Number Publication Date
KR20220136846A true KR20220136846A (en) 2022-10-11

Family

ID=83599194

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210043024A KR20220136846A (en) 2021-04-01 2021-04-01 Method of feedback salesman by analyzing the sounds or face image of both themselves and client and the apparatus thereof

Country Status (1)

Country Link
KR (1) KR20220136846A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102583312B1 (en) 2022-12-29 2023-09-26 크디랩 주식회사 Method and system for evaluating of salesman training using analyzation of language and gesture

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102583312B1 (en) 2022-12-29 2023-09-26 크디랩 주식회사 Method and system for evaluating of salesman training using analyzation of language and gesture

Similar Documents

Publication Publication Date Title
Bokhove et al. Automated generation of ‘good enough’transcripts as a first step to transcription of audio-recorded data
US20220059096A1 (en) Systems and Methods for Improved Digital Transcript Creation Using Automated Speech Recognition
Kawas et al. Improving real-time captioning experiences for deaf and hard of hearing students
US20170213190A1 (en) Method and system for analysing subjects
US11012486B2 (en) Personalized video playback
CN110517689B (en) Voice data processing method, device and storage medium
US9245254B2 (en) Enhanced voice conferencing with history, language translation and identification
US20240119934A1 (en) Systems and methods for recognizing a speech of a speaker
Berke et al. Deaf and hard-of-hearing perspectives on imperfect automatic speech recognition for captioning one-on-one meetings
JP6705956B1 (en) Education support system, method and program
Leander et al. Speaking and writing: How talk and text interact in situated practices
US11636850B2 (en) Method, system, and device for performing real-time sentiment modulation in conversation systems
Seita et al. Behavioral changes in speakers who are automatically captioned in meetings with deaf or hard-of-hearing peers
Millett Accuracy of Speech-to-Text Captioning for Students Who are Deaf or Hard of Hearing.
Reverdy et al. Roomreader: A multimodal corpus of online multiparty conversational interactions
KR20220136846A (en) Method of feedback salesman by analyzing the sounds or face image of both themselves and client and the apparatus thereof
JPH0749695A (en) Time sequential data recording and reproducing device
KR20220136844A (en) Method of obtaining client's approval for recording the sounds and video and the apparatus thereof
US20230274730A1 (en) Systems and methods for real time suggestion bot
US20230315983A1 (en) Computer method and system for parsing human dialouge
WO2019003395A1 (en) Call center conversational content display system, method, and program
KR20220136845A (en) Method for analyzing the sounds or video of both salesman and client by removing noise and the apparatus thereof
US11436934B2 (en) Systems and methods for providing a dialog assessment platform
Aruffo Reading scripted dialogue: Pretending to take turns
KR101957043B1 (en) Class assisit method for simultaneous interpretation class instructor and computer readable medium for performing the method

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application