KR102568994B1 - Apparatus and method for providing feedback for improving a user's speech ability - Google Patents
Apparatus and method for providing feedback for improving a user's speech ability Download PDFInfo
- Publication number
- KR102568994B1 KR102568994B1 KR1020210109689A KR20210109689A KR102568994B1 KR 102568994 B1 KR102568994 B1 KR 102568994B1 KR 1020210109689 A KR1020210109689 A KR 1020210109689A KR 20210109689 A KR20210109689 A KR 20210109689A KR 102568994 B1 KR102568994 B1 KR 102568994B1
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- user
- server
- data
- input
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
- G06Q50/2057—Career enhancement or continuing education service
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/002—Specific input/output arrangements not covered by G06F3/01 - G06F3/16
- G06F3/005—Input arrangements through a video camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/003—Navigation within 3D models or images
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/04—Speaking
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B9/00—Simulators for teaching or training purposes
Abstract
본 개시의 일 실시 예에 따르면, 차 사용자의 스피치 능력을 개선하기 위한 서버의 동작 방법은, 상기 사용자의 스피치에 기반하여 시각적 및 청각적 입력을 실시간으로 획득하는 과정과, 상기 입력에 대응하는 데이터를 생성하는 과정과, 상기 데이터를 생성하는 것에 응답하여, 상기 사용자의 스피치에 대응하는 피드백 정보를 생성하는 과정과, 상기 피드백 정보에 따라, 영상 또는 음성 출력을 제공하는 과정을 포함할 수 있다. According to an embodiment of the present disclosure, a method of operating a server for improving a speech ability of a car user includes obtaining visual and auditory inputs in real time based on the speech of the user, and data corresponding to the inputs. It may include a process of generating a process, a process of generating feedback information corresponding to the user's speech in response to generating the data, and a process of providing a video or audio output according to the feedback information.
Description
본 개시의 다양한 실시 예들은 사용자의 스피치 능력을 개선하도록 피드백을 제공하기 위한 기술에 관한 것으로, 예를 들어 가상 현실(virtual reality, VR) 컨텐츠를 이용한 스피치 피드백을 제공한다.Various embodiments of the present disclosure relate to a technique for providing feedback to improve a user's speech ability, for example, providing speech feedback using virtual reality (VR) content.
다수의 청중 앞에서 하게 되는 스피치는, 환경적인 요인으로 인해 사전에 연습할 수 있는 기회가 부족한 실정이고, 그러한 기회가 주어지더라도 즉각적인 피드백을 받기 어려우므로 스피치 능력을 향상시키기 위한 명확한 기술적 방안을 찾기 어려웠다.Speech in front of a large audience lacks opportunities to practice in advance due to environmental factors, and even if such an opportunity is given, it is difficult to receive immediate feedback, so it is difficult to find clear technical measures to improve speech ability. .
최근 VR 컨텐츠 산업에 급속한 성장세에 접어들었고, 이를 삶의 다양한 영역에 접목시켜 현실적인 경험과 피드백을 제공하기 위한 시도가 지속적으로 이루어지고 있음에도, VR 기술을 활용하여 스피치 능력을 개선하기 위한 기술적 과제 해결은 여전히 요원하다.Recently, the VR content industry has entered a rapid growth trend, and although attempts are continuously being made to provide realistic experiences and feedback by applying it to various areas of life, solving technical challenges to improve speech ability using VR technology still far away
본 개시(disclosure)는, VR 컨텐츠 기술에 기반하여 사용자의 스피치 능력을 개선하기 위한 적응적 피드백을 생성하기 위한 장치 및 방법을 제공한다. The present disclosure provides an apparatus and method for generating adaptive feedback for improving a user's speech ability based on VR content technology.
본 개시의 일 실시 예에 따르면, 차 사용자의 스피치 능력을 개선하기 위한 서버의 동작 방법은, 상기 사용자의 스피치에 기반하여 시각적 및 청각적 입력을 실시간으로 획득하는 과정과, 상기 입력에 대응하는 데이터를 생성하는 과정과, 상기 데이터를 생성하는 것에 응답하여, 상기 사용자의 스피치에 대응하는 피드백 정보를 생성하는 과정과, 상기 피드백 정보에 따라, 영상 또는 음성 출력을 제공하는 과정을 포함할 수 있다. According to an embodiment of the present disclosure, a method of operating a server for improving a speech ability of a car user includes obtaining visual and auditory inputs in real time based on the speech of the user, and data corresponding to the inputs. It may include a process of generating a process, a process of generating feedback information corresponding to the user's speech in response to generating the data, and a process of providing a video or audio output according to the feedback information.
본 개시의 일 실시 예에 따르면, 사용자의 스피치 능력을 개선하기 위한 서버의 장치는, 송수신기; 및 상기 송수신기와 동작 가능하게 연결되는 적어도 하나의 제어부를 포함하며, 상기 적어도 하나의 제어부는, 상기 사용자의 스피치에 기반하여 시각적 및 청각적 입력을 실시간으로 획득하는 과정과, 상기 입력에 대응하는 데이터를 생성하는 과정과, 상기 데이터를 생성하는 것에 응답하여, 상기 사용자의 스피치에 대응하는 피드백 정보를 생성하는 과정과, 상기 피드백 정보에 따라, 영상 또는 음성 출력을 제공하는 과정을 포함할 수 있다.According to an embodiment of the present disclosure, an apparatus of a server for improving a user's speech ability includes a transceiver; and at least one control unit operatively connected to the transceiver, wherein the at least one control unit performs a process of acquiring visual and auditory inputs in real time based on the user's speech, and data corresponding to the inputs. It may include a process of generating a process, a process of generating feedback information corresponding to the user's speech in response to generating the data, and a process of providing a video or audio output according to the feedback information.
본 개시의 다양한 실시 예들에 따른 장치 및 방법은, 스피치 입력을 실시간으로 반영하여 VR 컨텐츠형 피드백을 적응적으로 제공함으로써 사용자의 스피치 능력을 효과적으로 개선할 수 있다. The apparatus and method according to various embodiments of the present disclosure can effectively improve speech ability of a user by reflecting speech input in real time and adaptively providing VR content-type feedback.
본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.Effects obtainable in the present disclosure are not limited to the effects mentioned above, and other effects not mentioned may be clearly understood by those skilled in the art from the description below. will be.
도 1은, 본 개시의 일 실시 예에 따른 사용자 스피치 능력 개선을 위한 시스템의 구성을 도시한 것이다.
도 2는, 본 개시의 일 실시 예들에 따른 사용자 스피치 능력 개선을 위한 서버의 동작을 도시한 순서도이다.
도 3은, 본 개시의 다른 실시 예에 따른 사용자 스피치 능력 개선을 위한 서버의 동작을 도시한 순서도이다.
도 4는, 본 개시의 일 실시 예에 따른 사용자 스피치 능력 개선을 위한 서버가 출력하는 피드백 정보의 분류를 도시한 것이다.1 illustrates the configuration of a system for improving a user's speech ability according to an embodiment of the present disclosure.
2 is a flowchart illustrating an operation of a server for improving user speech capability according to an embodiment of the present disclosure.
3 is a flowchart illustrating operations of a server for improving a user's speech capability according to another embodiment of the present disclosure.
4 illustrates classification of feedback information output by a server for improving a user's speech ability according to an embodiment of the present disclosure.
아래의 상세한 설명에 들어가기 전에, 본 특허 문서 전체에서 사용되는 특정 단어 및 어구들의 정의를 기재하는 것이 본 발명을 이해하는데 도움이 될 수 있다. 용어 "커플(couple)" 및 그 파생어는 두 개 이상의 구성 요소 사이의 어떤 직접 또는 간접 통신을 나타내거나, 이들 요소가 서로 물리적으로 접촉하고 있는지의 여부를 나타낼 수 있다. 용어 "송신(transmit)", "수신(receive)" 그리고 "통신(communicate)"뿐만 아니라 그 파생어 또한, 이들의 직/간접 통신을 포함한다. 용어 "포함한다(include)" 및 "구성한다(comprise)" 뿐만 아니라 그 파생어 또한, 제한 없이 포함을 의미한다. 용어 "또는(or)"은 포괄적 의미로써, '및/또는'을 의미한다. 문구 "~와 관련되다(associated with)" 뿐만 아니라 그 파생어 또한 ~을 포함한다(include), ~에 포함된다(be included within), ~와 결합하다(interconnect with), ~을 함유하다(contain), ~에 함유되어 있다(be contained within), ~에 연결한다(connect to or with), ~와 결합하다(couple to or with), ~ 전달한다(be communicable with), 와 협력하다(cooperate with), ~를 끼우다(interleave), ~을 나란히 놓다(juxtapose), ~에 인접하다(be proximate to), 구속하다/구속되다(be bound to or with), 소유하다(have), 속성을 가지다(have a property of), ~와 관계를 가지다(have a relationship to or with) 등을 의미할 수 있다. 용어 "제어기(controller)"는 적어도 하나의 동작을 제어하는 어떤 장치, 시스템 또는 그 일부를 의미한다. 이러한 제어기는 하드웨어 또는 하드웨어와 소프트웨어의 조합 및/또는 펌웨어로 구현될 수 있다. 특정 제어기와 관련된 기능은 로컬 또는 원격으로 중앙 집중식으로(centralized) 또는 분산(distributed)처리될 수 있다. 문구 "적어도 하나"가 나열된 항목과 사용될 때, 나열된 항목 중 하나 이상의 상이한 조합이 사용될 수 있음을 의미한다. 예를 들어, "A, B, C 중 적어도 하나"는 A, B, C, A와 B, A와 C, B와 C, 그리고 A와 B와 C 결합들을 중 어느 하나를 포함한다.Before entering into the detailed description below, it may be helpful to understand the present invention to set forth definitions of certain words and phrases used throughout this patent document. The term “couple” and its derivatives may refer to any direct or indirect communication between two or more elements, or whether or not these elements are in physical contact with each other. The terms "transmit", "receive" and "communicate", as well as their derivatives, include direct and indirect communication thereof. The terms "include" and "comprise", as well as their derivatives, mean inclusion without limitation. The term "or" is inclusive and means 'and/or'. The phrase "associated with", as well as its derivatives, also include, be included within, interconnect with, contain , be contained within, connect to or with, couple to or with, be communicable with, cooperate with , interleave, juxtapose, be proximate to, be bound to or with, have, have properties It can mean a property of), have a relationship to or with. The term “controller” means any device, system, or part thereof that controls at least one operation. Such a controller may be implemented in hardware or a combination of hardware and software and/or firmware. Functions related to a particular controller may be centralized or distributed, either locally or remotely. When the phrase “at least one” is used with a listed item, it means that different combinations of one or more of the listed items may be used. For example, "at least one of A, B, C" includes any one of A, B, C, A and B, A and C, B and C, and A and B and C combinations.
또한, 이하에서 설명하는 다양한 기능들은 하나 이상의 컴퓨터 프로그램에 의해 구현되거나 지원 될 수 있으며, 각각의 컴퓨터 프로그램은 컴퓨터 판독 가능 프로그램 코드로 형성되고 컴퓨터 판독 가능 매체에 구현된다. "어플리케이션"및 "프로그램"이라는 용어는 적절한 컴퓨터 판독 가능 프로그램에서 구현하기 위해 적응 된 하나 이상의 컴퓨터 프로그램, 소프트웨어 구성 요소, 명령어 세트, 절차, 기능, 객체, 클래스, 인스턴스, 관련 데이터 또는 그 일부를 나타낸다. "컴퓨터 판독 가능 프로그램 코드"라는 문구는 소스 코드, 오브젝트 코드 및 실행 가능 코드를 포함하여 모든 유형의 컴퓨터 코드를 포함한다. "컴퓨터 판독 가능 매체"라는 문구는 판독 전용 메모리 (read only memory, ROM), 랜덤 액세스 메모리(random access memory, RAM), 하드 디스크 드라이브, 컴팩트 디스크(compact disc, CD), 디지털 등의 컴퓨터에 의해 액세스 될 수 있는 임의의 유형의 매체를 포함한다. 비디오 디스크(digital video disc, DVD), 또는 임의의 다른 유형의 메모리 일 수 있다. "일시적이지 않은(non-transitory)"컴퓨터 판독 가능 매체는 일시적인 전기적 또는 다른 신호를 전송하는 유선, 무선, 광학 또는 다른 통신 링크를 배제한다. 비 일시적인 컴퓨터 판독 가능 매체는 데이터가 영구적으로 저장될 수 있는 매체 및 재기록 가능한 광 디스크 또는 소거 가능 메모리 장치와 같이 데이터가 저장되고 나중에 겹쳐 쓰기 될 수 있는 매체를 포함한다.In addition, various functions described below may be implemented or supported by one or more computer programs, and each computer program is formed as computer readable program code and implemented in a computer readable medium. The terms "application" and "program" refer to one or more computer programs, software components, instruction sets, procedures, functions, objects, classes, instances, related data, or portions thereof adapted for implementation in an appropriate computer readable program. . The phrase "computer readable program code" includes all types of computer code, including source code, object code and executable code. The phrase "computer readable medium" means a medium stored by a computer, including read only memory (ROM), random access memory (RAM), hard disk drive, compact disc (CD), digital It includes any type of medium that can be accessed. It may be a digital video disc (DVD), or any other type of memory. A “non-transitory” computer readable medium excludes wired, wireless, optical or other communication links that transmit transitory electrical or other signals. Non-transitory computer readable media include media on which data can be permanently stored and media on which data can be stored and later overwritten, such as rewritable optical discs or removable memory devices.
특정 단어들 및 구문들의 정의가 본 개시 전반에 걸쳐서 제공되고, 통상의 기술자는 대부분의 경우에, 이러한 정의들이 정의된 단어들 및 구문들로 미래뿐 아니라 이전의 사용들에도 적용될 수 있음을 이해하여야 한다.Definitions of certain words and phrases are provided throughout this disclosure, and skilled artisans should understand that, in most cases, these definitions may apply to prior as well as future uses of the defined words and phrases. do.
아래에 논의된 도 1 내지 도 4 및 본 개시의 원리를 설명하기 위해 이용되는 다양한 실시 예들은 단지 예시를 위한 것으로 어떠한 방식으로든 본 개시의 범위를 한정하는 의미로 해석되어서는 안 된다. 통상의 기술자들은 본 개시의 원리가 적절하게 배치된 무선 통신 시스템으로 구현될 수 있음을 이해할 것이다.1 through 4 discussed below and the various embodiments used to explain the principles of the present disclosure are for illustrative purposes only and should not be construed as limiting the scope of the present disclosure in any way. Those skilled in the art will appreciate that the principles of this disclosure may be implemented in any suitably arranged wireless communication system.
도 1은, 본 개시의 일 실시 예에 따른 사용자 스피치 능력 개선을 위한 시스템의 구성을 도시한 것이다. 1 illustrates the configuration of a system for improving a user's speech ability according to an embodiment of the present disclosure.
도 1을 참조하면, 본 개시의 일 실시 예에 따른 시스템은, 클라이언트 기기, 음성 인식 장치 및 외부 전자 장치를 포함할 수 있다.Referring to FIG. 1 , a system according to an embodiment of the present disclosure may include a client device, a voice recognition device, and an external electronic device.
도1에 도시된 바 없으나, 본 개시의 일 실시 예에 따른 시스템은, 서버를 더 포함할 수 있다. 서버는, 클라이언트 기기, 음성 인식 장치 및 외부 전자 장치 간의 데이터 송신 또는 수신을 제어할 수 있고, 시스템에 포함된 해당 장치들과 전기적으로 또는 동작 가능하게 연결되거나, 무선 네트워크를 통해 신호 및 데이터를 교환하도록 구성될 수 있다. Although not shown in FIG. 1, the system according to an embodiment of the present disclosure may further include a server. The server may control data transmission or reception between the client device, the voice recognition device, and an external electronic device, and is electrically or operably connected to the corresponding devices included in the system, or exchanges signals and data through a wireless network. can be configured to
클라이언트 기기는 사용자가 휴대하거나 착용할 수 있도록 구성된 전자 장치일 수 있다. 예로써, 클라이언트 기기는 사용자가 머리에 착용할 수 있는 헤드 마운트 디스플레이(HMD)일 수 있다. 이 경우, 클라이언트 기기는 VR 컨텐츠, 음성 메시지 등을 클라이언트 기기 자체에 포함된 디스플레이 또는 스피커를 통해 사용자에게 제공할 수 있다. 클라이언트 기기는 사용자의 스피치에 응답하여 생성 및 전송되는 피드백 정보를 사용자가 경험하도록 출력할 수 있다. The client device may be an electronic device configured to be carried or worn by a user. By way of example, the client device may be a head mounted display (HMD) worn on the head by a user. In this case, the client device may provide VR contents, voice messages, and the like to the user through a display or speaker included in the client device itself. The client device may output feedback information generated and transmitted in response to the user's speech so that the user may experience it.
음성 인식 장치는, 사용자가 휴대하거나 착용할 수 있도록 구성된 전자 장치일 수 있다. 예로써, 음성 인식 장치는, 사용자의 스피치 음성에 기반하여 디지털 신호를 생성하고 이를 외부 서버 또는 컴퓨팅 디바이스로 전송하는 마이크 또는 녹음기 형태의 전자 장치일 수 있다. 사용자가 스피치를 진행하는 동안 사용자에 의해 생성된 음성 컨텐츠는, 음성 인식 장치를 통해 데이터화 될 수 있고, 이를 음성 데이터로 지칭할 수 있다. 음성 데이터는 외부 서버 또는 외부 장치를 통해 전송되거나, 음성 인식 장치 내부에 구비된 저장소에 저장될 수 있다. 클라이언트 기기와 음성 인식 장치는 실시간으로 획득한 음성 및 영상 데이터를 교환하거나 상호 호환되도록 동기화할 수 있다.The voice recognition device may be an electronic device configured to be carried or worn by a user. For example, the voice recognition device may be an electronic device in the form of a microphone or recorder that generates a digital signal based on a user's speech voice and transmits the digital signal to an external server or computing device. Voice content generated by the user while the user is speaking may be converted into data through a voice recognition device, and may be referred to as voice data. Voice data may be transmitted through an external server or an external device, or may be stored in a storage provided inside the voice recognition device. The client device and the voice recognition device may exchange voice and video data obtained in real time or synchronize them to be compatible with each other.
외부 전자 장치는, 클라이언트 장치 및/또는 음성인식 장치와 동작 가능하게 연결되어 음성 데이터 또는 영상 데이터를 수신할 수 있다. 음성 데이터 또는 영상 데이터의 수신은 미리 구축된 무선 네트워크에 기반하여 수행될 수 있다. 외부 전자 장치는 예로써, 휴대폰 단말기, 스마트폰, 노트북 컴퓨터, 개인용 컴퓨터 등을 포함할 수 있다. 보다 바람직하게는, 카메라가 구비되어 스피치를 수행하는 사용자의 움직임을 동적 이미지로 획득하거나 저장할 수 있도록 구성된 전자 장치일 수 있다. 따라서, 웹캠을 구비한 노트북 컴퓨터, 스마트폰 또는 태블릿 PC일 수 있다. The external electronic device may be operatively connected to the client device and/or the voice recognition device to receive audio data or video data. Reception of audio data or video data may be performed based on a pre-established wireless network. The external electronic device may include, for example, a mobile phone terminal, a smart phone, a notebook computer, and a personal computer. More preferably, it may be an electronic device equipped with a camera and configured to acquire or store a motion of a user performing a speech as a dynamic image. Thus, it can be a laptop computer, smart phone or tablet PC equipped with a webcam.
외부 전자 장치는, 스피치를 수행하는 사용자의 행동, 제스처, 걸음걸이, 안색, 표정 등에 대응하는 정적 또는 동적 이미지를 획득하고, 이를 처리하여 데이터화 할 수 있다. The external electronic device may obtain a static or dynamic image corresponding to a user's behavior, gesture, gait, complexion, facial expression, etc. performing speech, and may process and convert it into data.
본 개시의 일 실시 예에 따른 시스템에서, 클라이언트 기기를 휴대한 사용자가 스피치를 수행하는 경우, 사용자의 움직임, 표정, 제스처 등 시각적인 정보는 외부 전자 장치의 입력부(예: 카메라)를 통해 획득 및 처리될 수 있다. 본 개시에서는, 외부 전자 장치가 사용자의 움직임 등에 대한 행동 정보를 획득하는 실시 예만 설명하였으나, 클라이언트 기기 자체에 구비된 입력부를 통해 사용자의 행동 정보를 획득하는 것도 배제하는 것은 아니다.In the system according to an embodiment of the present disclosure, when a user carrying a client device speaks, visual information such as movement, expression, and gesture of the user is obtained through an input unit (eg, camera) of an external electronic device and can be processed In the present disclosure, only an embodiment in which an external electronic device acquires behavioral information about a user's movement has been described, but acquisition of the user's behavioral information through an input unit provided in the client device itself is not excluded.
본 개시의 일 실시 예에 따른 시스템에서, 음성 인식 장치를 휴대한 사용자가 스피치를 수행하는 경우, 사용자의 말투, 목소리, 억양, 스피츠에 포함된 텍스트, 볼륨, 빠르기 등의 청각적인 정보는 음성 인식 장치를 통해 획득 및 처리될 수 있고, 획득 및 처리된 청각적인 정보는, 외부 전자 장치 또는 서버로 송신될 수 있다. In the system according to an embodiment of the present disclosure, when a user carrying a voice recognition device performs speech, auditory information such as tone, voice, intonation, text included in speech, volume, tempo, etc. is used for voice recognition. It may be obtained and processed through the device, and the acquired and processed auditory information may be transmitted to an external electronic device or server.
클라이언트 기기, 음성 인식 장치 및 외부 전자 장치에 의해 획득되거나 수신된 음성 및 영상 데이터는, 서버로 전달될 수 있다. 본 개시에서 서버를 개시하였으나, 서버 외에도, 획득된 음성 및 영상 데이터를 수집하여 처리하기 위해 동작하는 장치라면 다양한 공지의 수단이 이용될 수 있다. Voice and video data acquired or received by the client device, voice recognition device, and external electronic device may be transmitted to the server. Although the server is disclosed in the present disclosure, other than the server, various known means may be used as long as the device operates to collect and process acquired audio and video data.
서버는, 획득한 음성 및 영상 데이터에 기반하여, 미리 저장된 데이터베이스에 따라 피드백 정보를 생성할 수 있다. 생성된 피드백 정보는, 외부 전자 장치 또는 클라이언트 기기를 통해 실시간으로 출력될 수 있다. The server may generate feedback information according to a pre-stored database based on the acquired audio and video data. The generated feedback information may be output in real time through an external electronic device or a client device.
도 2는, 본 개시의 일 실시 예들에 따른 사용자 스피치 능력 개선을 위한 서버의 동작을 도시한 순서도이다.2 is a flowchart illustrating an operation of a server for improving user speech capability according to an embodiment of the present disclosure.
도 2를 참조하면, 서버는 사용자의 스피치가 이루어지는 상황에서 일련의 동작을 수행할 수 있고, 후술하는 동작은 단계적으로 수행될 수 있으나, 기재된 단계의 순서가 수행되는 동작의 시계열적인 순서를 한정하는 것은 아닐 수 있다.Referring to FIG. 2, the server may perform a series of operations in a situation where a user's speech is made, and the operations described below may be performed step by step, but the sequence of the described steps limits the time-sequential order of the operations to be performed. it may not be
단계(201)에서, 서버는 사용자의 스피치에 기반하여 시각적 및 청각적 입력을 획득한다.In step 201, the server obtains visual and auditory input based on the user's speech.
서버가 획득하는 시각적 및 청각적 입력은, 서버와 동작 가능하게 연결되는 외부 입력 장치를 통해 획득될 수 있다. 예를 들어, 음성 입력 또는 영상 입력을 마이크 또는 카메라를 구비한 외부 입력 장치가 먼저 획득하고, 이를 외부 입력 장치가 서버로 전달하거나, 음성 또는 영상 데이터로 처리하여 서버로 전송할 수 있다. Visual and auditory input obtained by the server may be obtained through an external input device operatively connected to the server. For example, an external input device equipped with a microphone or camera first acquires voice input or video input, and the external input device transmits it to the server or processes it into audio or video data and transmits it to the server.
시각적 및 청각적 입력은 사용자의 스피치에 기반한 것일 수 있다. 따라서, 시각적 및 청각적 입력은, 사용자가 스피치를 수행하는 과정에서 발생하는 소리, 움직임 등에 대한 정보와 연관된 정보를 포함할 수 있다.Visual and auditory input may be based on the user's speech. Accordingly, the visual and auditory inputs may include information related to sound and motion information generated in the course of the user's speech.
단계(203)에서, 서버는 입력에 대응하는 데이터를 생성한다.In step 203, the server generates data corresponding to the input.
입력에 대응하는 데이터는, 서버가 획득한 시각적 및 청각적 입력과 연관되거나, 관련되는 데이터를 의미할 수 있다. 이 때, 데이터는 시각적 및 청각적 입력에 대응하는 아날로그 신호를 디지털 신호로 변환하는 것에 그치는 것이 아니라, 스피치에 대한 피드백을 생성하기 위해 미리 설정된 기준에 따라 입력을 분류하는 것을 의미할 수 있다. 예를 들어, 서버가 청각적 입력을 획득하여 이것에 기반하여 음성 데이터를 생성하는 동작은, 문장 구조, 어조, 억양, 키워드 등과 같이 미리 결정된 분류 기준에 따라 처리된 음성 데이터를 생성하는 것을 의미할 수 있다. 마찬가지로, 서버가 시각적 입력을 획득하여 이것에 기반하여 영상 데이터를 생성하는 동작은, 제스처, 자세, 표정, 안색 등과 같이 미리 결정된 분류 기준에 따라 처리된 영상 데이터를 생성하는 것을 의미할 수 있다. Data corresponding to the input may refer to data related to or associated with visual and auditory inputs obtained by the server. In this case, data may mean not only converting analog signals corresponding to visual and auditory inputs into digital signals, but also classifying inputs according to preset criteria to generate speech feedback. For example, an operation in which a server obtains auditory input and generates voice data based thereon may mean generating voice data processed according to predetermined classification criteria such as sentence structure, tone, intonation, and keywords. can Similarly, an operation by which the server obtains a visual input and generates image data based thereon may mean generating image data processed according to a predetermined classification criterion, such as a gesture, posture, facial expression, complexion, and the like.
단계(205)에서, 서버는 데이터를 생성하는 것에 응답하여, 사용자의 스피치에 대응하는 피드백 정보를 생성한다.In step 205, the server generates feedback information corresponding to the user's speech in response to generating the data.
서버가 피드백 정보를 생성하는 것은, 미리 저장된 기준에 기반하여 수행되는 것일 수 있다. 미리 저장된 기준이라 함은, 피드백 생성을 위한 평가지표에 해당할 수 있다. 예를 들어, 서버가 음성 데이터를 통해, 스피치 속도가 너무 빠르다고 판단하는 경우, 서버는 '스피치 속도가 빠름'에 대응되는 피드백을 생성할 수 있다. 이때, 스피치 속도가 빠른 것인지 여부는 미리 설정된 기준, 예를 들어 임계 템포에 따라 결정될 수 있다.Generation of the feedback information by the server may be performed based on pre-stored criteria. The pre-stored criterion may correspond to an evaluation index for generating feedback. For example, when the server determines through voice data that the speech speed is too fast, the server may generate feedback corresponding to 'speech speed is fast'. In this case, whether the speech speed is fast may be determined according to a preset criterion, for example, a critical tempo.
단계(207)에서, 서버는 피드백 정보에 따라 영상 또는 음성 출력을 제공한다.In step 207, the server provides video or audio output according to the feedback information.
서버는, 피드백 정보를 스피치를 수행하는 사용자가 확인할 수 있도록 하기 위해, 영상 또는 음성을 통해 피드백 정보를 제공할 수 있다.The server may provide feedback information through video or audio so that the user performing the speech can check the feedback information.
이때, 피드백 정보의 제공은, 서버와 동작 가능하게 연결된 스피커 또는 디스플레이 장치에 의해 수행될 수 있다. 예를 들어, 서버는, 사용자가 VR 컨텐츠를 경험할 수 있는 HMD를 착용하고 있는 경우, 청중의 환호, 박수 등의 피드백을 360도 패키징 영상을 통해 HMD에 출력시킬 수 있다. 이때 청중의 ?T, 박수 등에 대응되는 음성 피드백은 서버와 연결된 스피커를 통해 출력될 수 있다.At this time, the provision of feedback information may be performed by a speaker or display device operatively connected to the server. For example, when a user is wearing an HMD capable of experiencing VR content, the server may output feedback such as audience cheers and applause to the HMD through a 360-degree packaging image. At this time, voice feedback corresponding to ?T, applause, etc. of the audience may be output through a speaker connected to the server.
서버가 피드백 정보를 제공하는 동작은, 사용자로부터 시각적 및 청각적 입력을 획득하는 동작에 대응하여 실시간으로 수행될 수 있다. An operation of providing feedback information by the server may be performed in real time in response to an operation of obtaining visual and auditory inputs from the user.
도 3은, 본 개시의 다른 실시 예에 따른 사용자 스피치 능력 개선을 위한 서버의 동작을 도시한 순서도이다. 3 is a flowchart illustrating operations of a server for improving a user's speech capability according to another embodiment of the present disclosure.
단계(301)에서, 서버는 스피치 입력을 획득한다.At step 301, the server obtains speech input.
스피치 입력은 청각적 및 시각적 입력의 형태로 획득될 수 있다. 이 단계는 도 2의 단계(201)과 유사할 수 있다.Speech input can be obtained in the form of auditory and visual input. This step may be similar to step 201 of FIG. 2 .
단계(303)에서, 서버는 피드백 정보에 관한 파라미터를 결정한다.In step 303, the server determines parameters related to the feedback information.
피드백 정보에 관한 파라미터는, 피드백 정보의 유형을 결정하는 변수일 수 있다. 피드백 정보의 유형은, 사용자의 스피치를 평가하기 위한 평가지표에 기반하여 결정될 수 있다. 예를 들어 피드백 정보의 유형은, 기본적인 스피치 피드백, 내용전달 능력에 관한 피드백, 실시간 반응 감정 피드백, 스피치 행동 피드백 중 적어도 하나를 포함할 수 있다. 상기 나열된 피드백 유형 외에도 스피치를 평가할 수 있는 기본적인 기준에 관련된 유형이 더 포함될 수 있다. A parameter related to feedback information may be a variable that determines the type of feedback information. The type of feedback information may be determined based on an evaluation index for evaluating a user's speech. For example, the type of feedback information may include at least one of basic speech feedback, content delivery capability feedback, real-time response emotion feedback, and speech behavior feedback. In addition to the feedback types listed above, types related to basic criteria for evaluating speech may be further included.
단계(305)에서, 서버는 파라미터에 대응하는 스피치 입력의 항목을 결정한다.In step 305, the server determines the item of speech input corresponding to the parameter.
파라미터에 대응하는 스피치 입력의 항목이란, 파라미터에 따라 스피치를 평가하기 위해, 고려해야할 항목을 의미할 수 있다. 이러한 항목은 미리 저장된 정보에 따라 결정되거나, 사용자의 입력에 의해 추가될 수 있다. 예를 들어, 파라미터, 즉 피드백 정보의 유형이 실시간 감정 반응 피드백인 경우, 스피치 입력 항목은, 사용자의 심전도와 홍채, 눈의 변화 등의 정보일 수 있다. Items of the speech input corresponding to the parameters may refer to items to be considered in order to evaluate speech according to the parameters. These items may be determined according to pre-stored information or may be added by a user's input. For example, when the parameter, that is, the type of feedback information is real-time emotional response feedback, the speech input item may be information such as the user's electrocardiogram, iris, and eye changes.
스피치 입력의 항목은, 획득된 음성 및 영상 데이터에 기반하여 결정될 수 있다. 따라서, 파라미터가 실시간 감정 반응 피드백인 경우, 스피치 입력 항목은 주로 영상 데이터에 기반하여 결정될 수 있다. Items of speech input may be determined based on acquired audio and video data. Accordingly, when the parameter is real-time emotional response feedback, the speech input item may be determined mainly based on video data.
스피치 입력의 항목은, 서로 다른 파라미터에 대응되는 것이라도 상호 중첩될 수 있다. 예를 들어, 실시간 감정 반응 피드백과 스피치 행동 피드백 모두, 얼굴 표정의 변화 여부가 피드백 생성의 판단 기준이 될 수 있다.Items of the speech input may overlap each other even if they correspond to different parameters. For example, in both the real-time emotional response feedback and the speech behavior feedback, whether or not a facial expression has changed may be a criterion for determining feedback generation.
단계(307)에서, 서버는 스피치 입력의 항복에 대응하는 측정 값을 결정한다.At step 307, the server determines a measurement value corresponding to the breakdown of the speech input.
서버는, 스피치에 기반하여 결정된 음성 및 영상 데이터에서, 결정된 스피치 입력의 항목 부분에 해당하는 영역의 수치적인 값을 결정할 수 있다. 예를 들어, 스피치 입력의 항목이 얼굴 표정의 변화 정도인 경우, 서버는 영상 데이터에 기반하여 측정된 얼굴 표정의 변화가 어느 정도인지를 결정할 수 있다. 이때, 얼굴 표정의 변화 여부는 미리 설정된 테이블에 기반하여 수치화 또는 레벨화 될 수 있다. The server may determine a numerical value of a region corresponding to the item part of the determined speech input in the audio and video data determined based on the speech. For example, when the item of the speech input is the degree of change in facial expression, the server may determine the degree of change in the measured facial expression based on the image data. In this case, the change in facial expression may be digitized or leveled based on a preset table.
단계(309)에서, 서버는 측정 값이 임계 값 이상인지 여부를 판단한다.In step 309, the server determines whether the measured value is greater than or equal to a threshold value.
임계 값은, 미리 정해진 데이터에 기반하여 결정될 수 있다. 이 때, 임계 값은, 서버가 생성하게 되는 피드백이 긍정적일지 부정적일지를 결정하는 기준이 될 수 있다. 따라서, 임계 값을 결정하는 미리 정해진 데이터는, 지속적으로 환경의 변화나 스피치를 수행하는 사용자에 따라 지속적으로 업데이트 될 수 있다. The threshold value may be determined based on predetermined data. At this time, the threshold value may be a criterion for determining whether the feedback generated by the server is positive or negative. Accordingly, predetermined data for determining the threshold value may be continuously updated according to changes in the environment or a user performing a speech.
서버가 측정 값이 임계 값 이상인 것으로 판단하는 것에 대응하여, 서버는 단계(313)을 수행할 수 있다. 서버가 측정 값이 임계 값 미만인 것으로 판단하는 것에 대응하여, 서버는 단계(311)을 수행할 수 있다.In response to the server determining that the measurement value is greater than or equal to the threshold value, the server may perform step 313. In response to the server determining that the measurement value is less than the threshold value, the server may perform step 311 .
단계(311)에서, 서버는 긍정적인 피드백을 출력한다.At step 311, the server outputs positive feedback.
서버는, 측정 값이 임계 값에 미치지 못하는 것으로 결정되는 것에 대응하여, 긍정적인 피드백을 외부 전자 장치로 출력할 수 있다. 예를 들어, 사용자가 시청할 수 있는 디스플레이를 통해 청중의 환호하는 모습, 박수치는 모습, 관심을 갖는 제스처 등을 출력할 수 있다. The server may output a positive feedback to the external electronic device in response to the determination that the measurement value does not fall short of the threshold value. For example, a cheering image, a clapping image, a gesture of interest, and the like of the audience may be output through a display that can be viewed by the user.
단계(313)에서, 서버는 부정적인 피드백을 출력한다.At step 313, the server outputs negative feedback.
서버는, 측정 값이 임계 값 이상인 것으로 결정되는 것에 대응하여, 부정적인 피드백을 외부 전자 장치로 출력할 수 있다. 예를 들어, 사용자가 시청할 수 있는 디스플레이를 통해 청중의 야유하는 모습, 무관심한 모습, 퇴실하는 모습 등을 출력할 수 있다. The server may output negative feedback to an external electronic device in response to determining that the measured value is greater than or equal to the threshold value. For example, it is possible to output images of the audience booing, indifference, and leaving the room through a display that the user can view.
서버는 긍정적이거나 부정적인 피드백을 사용자가 스피치를 수행하는 동안 실시간으로 사용자에게 제공할 수 있다. 이 경우, 사용자는 스피치를 수행하면서 피드백을 확인할 수 있는 환경에 있을 수 있다.The server may provide positive or negative feedback to the user in real time while the user is performing the speech. In this case, the user may be in an environment where feedback can be checked while performing speech.
도 4는, 본 개시의 일 실시 예에 따른 사용자 스피치 능력 개선을 위한 서버가 출력하는 피드백 정보의 분류를 도시한 것이다.4 illustrates classification of feedback information output by a server for improving a user's speech ability according to an embodiment of the present disclosure.
서버는 외부로부터 스피치 입력을 획득할 수 있다. The server may acquire speech input from the outside.
서버는 획득한 스피치 입력에 기반하여 피드백 정보를 생성할 수 있다. The server may generate feedback information based on the acquired speech input.
구체적으로 서버는, VR/AI 기술을 기반으로 VR의 현실감 있는 상황 만들어 스피치 시에 발생되는 여러 상황에 대해 적응하고 익숙해지는 상황 적응 서비스를 제공할 수 있다.Specifically, the server can provide a situation adaptation service that adapts to and gets used to various situations that occur during speech by creating realistic VR situations based on VR/AI technology.
서버는 제어부를 포함하고, 서버의 제어부는 애플리케이션에 의해 구동될 수 있다. 애플리케이션은 피드백 정보를 생성하기 위한 구체적 상황 별 조건을 설정하고, 클라이언트 기기를 통해 현장 속에 있는 사용자의 행동과 감정을 체크하여 기록할 수 있다. 또한 애플리케이션은, AI의 음성인식으로 스피치의 정확성과 유창성을 판단하여, 피드백이 가상세계 속 청중들의 반응을 실시간으로 확인할 수 있도록 하는 현실감 있는 스피치 능력 향상 훈련 서비스를 제공할 수 있다. The server includes a control unit, and the control unit of the server may be driven by an application. The application can set specific conditions for generating feedback information, and check and record the user's behavior and emotions in the field through the client device. In addition, the application can provide a realistic speech ability improvement training service that judges the accuracy and fluency of speech with AI's voice recognition and allows the feedback to check the audience's reaction in the virtual world in real time.
애플리케이션을 통해 구체적인 상황의 조건, 장소, 청중의 인원, 시간 설정 등 피드백이 필요한 자료가 입력할 수 있으며, 애플리케이션은 휴대용 기기 또는 PC로 화상카메라에 제어 명령을 송신함으로써, 스피치 할 때 나오는 습관적 제스처, 모습까지도 녹화하여 저장 및 확인할 수 있도록 한다.Through the application, you can input data that requires feedback, such as specific situation conditions, place, number of audience members, and time settings. Even the appearance is recorded so that it can be stored and checked.
클라이언트 기기는 눈의 변화로 표정을 알 수 있고, 홍체인식과 심전도 측정을 가능하게 함으로써, 긴장감을 유발하는 상황, 시기 등이 분석되어 기록된다. AI의 음성인식은 발표자 목소리의 진동, 톤, 속도, 발음 등을 체크함으로써 발표자의 준비된 정보 전달 능력, 상황의 능숙함을 측정해 기본 설정되어 있는 청중들의 행동적 피드백으로 반영할 수 있다.The client device can know the facial expression by changing the eyes, and by enabling iris recognition and electrocardiogram measurement, situations and times that cause tension are analyzed and recorded. AI's voice recognition measures the presenter's prepared information delivery ability and situational proficiency by checking the vibration, tone, speed, and pronunciation of the presenter's voice, and can reflect it as default behavioral feedback from the audience.
이때 청중 피드백이란, 발표자의 행동과 음성을 통해 달라지는 청중들의 현실성 있는 행동과 표정일 수 있고, 이를 통해 사용자는 청중들로 인해 긴장을 유발하는 것을 미리 대비할 수 있다.At this time, the audience feedback may be realistic actions and expressions of the audience that change through the actions and voices of the presenter, and through this, the user can prepare in advance for causing tension due to the audience.
스피치를 할 때 다수가 있는 강당, 비즈니스 상황, 수업, 면접장 등 다양한 스피치 상황의 데이터를 통해 적절한 언어의 사용도 요구된다. 음성인식을 통해 반응되는 이 부분은 목소리로 알 수 있는 발표자의 자신감뿐만 아니라 현장에서 필요한 언어사용 즉, 습관적인 감탄사, 비속어 사용을 방지시킬 수 있는 부분이다. 모국어 외에도 제2 외국어 설정이 가능하여 올바른 문법과 어순, 발음까지 피드백을 받을 수 있다.When giving a speech, the use of appropriate language is also required through data of various speech situations such as an auditorium with many people, business situations, classes, and interviews. This part that responds through voice recognition is not only the speaker's confidence that can be known by voice, but also the part that can prevent the use of language necessary in the field, such as habitual interjections and slang. In addition to the native language, it is possible to set a second foreign language, so you can receive feedback on correct grammar, word order, and pronunciation.
설정한 시간이 끝나면 애플리케이션을 통해 피드백을 받을 수 있고, 준비했던 대본 또는 전달해야 하는 핵심 키워드를 정리해볼 수 있다. 피드백은 데이터화되어 정리되며, 녹화된 영상을 통해 습관적으로 긴장할 때 나오는 본인의 모습을 보고 수정할 수 있다.When the set time is over, you can receive feedback through the application, and you can organize the script you prepared or the key keywords you need to deliver. The feedback is dataized and organized, and through the recorded video, you can see and correct your appearance when you are habitually nervous.
본 개시의 일 실시 예에 따른, 시스템에서, 피드백 정보는 피드백 정보의 성격에 따라 두가지로 분류될 수 있다. In the system according to an embodiment of the present disclosure, feedback information may be classified into two types according to the nature of the feedback information.
청중 피드백은, 스피치에 진행에 따라서 청중들의 반응을 즉각적으로 볼 수 있도록 하는 정보일 수 있다. 이때 원하는 피드백의 우선순위에 따라 청중들의 반응이 변화할 수 있고, 기본 테스트로 인해 진행된 레벨에 따라 청중들의 돌발 행동이 다양해지고 상황을 대처하면서 당황하거나 긴장되는 순간들의 감정들까지도 기록될 수 있다.Audience feedback may be information that allows an immediate view of the audience's reaction as the speech progresses. At this time, the reaction of the audience can be changed according to the priority of the desired feedback, and the unexpected behavior of the audience can be varied according to the level progressed due to the basic test, and even emotions of panicked or nervous moments while coping with the situation can be recorded.
상황 피드백은, 예상치 못하는 상황, 환경적인 상황(소음, 날씨, 사람 등)Situational feedback includes unexpected situations, environmental situations (noise, weather, people, etc.)
환경 변화로 나타는 상황적 피드백일 수 있고, 레벨에 따라 발생할 수 있다. It can be a situational feedback that appears as an environment change, and can occur according to the level.
청중 피드백에서 긍정 피드백과 부정 피드백을 분류할 수 있다. 긍정 피드백은 예를 들어, 청중이 박수를 치거나, 고개를 끄덕이거나, 메모를 하거나, 질문을 하는 동작, 웃거나, 눈을 마주치는 동작 등이 있을 수 있다.Audience feedback can be categorized into positive and negative feedback. Positive feedback can be, for example, the audience clapping, nodding their heads, taking notes, asking questions, laughing, or making eye contact.
부정 피드백은, 고개를 숙이거나, 핸드폰을 하거나, 엎드려 있거나, 퇴실을 하거나, 전화를 받거나, 수다를 떨거나, 음식을 먹거나, 소리를 내며 행동하거나, 의자에 바르게 앉지 않는 등의 동작이 있을 수 있다. Negative feedback can include actions such as lowering your head, using your phone, lying down, leaving the room, answering the phone, chatting, eating, making noise, or not sitting properly in your chair. there is.
환경 피드백은, 발표 중 소음이나, 예외 상황이 발생하는 경우에 대응하는 피드백일 수 있다. 상황이 설정된 데이터 기반으로 이루어지며 모든 수치화되는 데이터를 평균수치화하여 적용시킬 수 있다. 청중피드백은 설정한 피드백의 우선순위, 청중의 인원, 스피치레벨, 환경에 따라서 변화를 보일 수 있다. The environmental feedback may be noise during presentation or feedback corresponding to a case where an exceptional situation occurs. The situation is based on the set data, and all digitized data can be averaged and applied. Audience feedback can show changes according to the set priority of feedback, the number of people in the audience, speech level, and environment.
도 4를 참조하면, 본 개시의 일 실시 예들에 따라, 피드백 정보를 4가지 기준으로 분류할 수 있다. Referring to FIG. 4 , according to an embodiment of the present disclosure, feedback information may be classified into four criteria.
제1 피드백 정보는, 기본적인 스피치 피드백에 대응될 수 있다.The first feedback information may correspond to basic speech feedback.
기본적인 스피치 피드백은, 속도, 발음, 억양, 강세, 목소리톤, 크기, 적절한 언어사용, 비즈니스 언어, 유머, 신조어, 비속어, 감탄사 사용 등이 음성인식을 통해서 판별될 수 있고, 전체 내용 대비 전달된 키워드가 자동 인식되고, 녹화된 영상을 초 단위로 세분화적으로 캐치하도록 획득된 정보를 이용할 수 있다. For basic speech feedback, speed, pronunciation, intonation, stress, tone of voice, size, proper use of language, business language, humor, neologisms, slang, and interjections can be determined through voice recognition, and keywords delivered in comparison to the entire content is automatically recognized, and the obtained information can be used to catch the recorded video subdivided in units of seconds.
(1)발음과 억양: 정확도~100%(표준어기준)(1) Pronunciation and intonation: Accuracy ~ 100% (based on standard language)
(2)속도, 크기, 강세와 목소리톤: 영상 초단위 그래프화(처음 시작 시 테스트한 각각의 본인 목소리를 데이터화 된 기반으로 측정됨)(2) Speed, loudness, stress and tone of voice: Graphing the video in seconds (measured based on the data of each person's voice tested at the beginning)
(3)비즈니스 언어와 신조어, 비속어, 감탄사 사용: 적합성 퍼센트~100% (어플리케이션에 자동으로 음성인식이 되어 언어가 자막화 되는데, 그때 나오는 적절치 못한 데이터들이 걸러지고, 올바르지 않은 언어사용이 체크됨)(3) Use of business language, neologisms, slang, and interjections: Conformity percentage ~ 100% (The application automatically recognizes speech and subtitles the language, and inappropriate data from that time is filtered out and incorrect language usage is checked)
녹화된 영상을 초 단위로 끊어서 확인이 가능하고, 그 순간의 기본적 스피치 피드백이 수치화와 그래프화 되어 나눠져서 어플리케이션에 기록이 되고, 해당 피드백을 누르면 더 상세한 피드백으로 이어진다. It is possible to check the recorded video by cutting it off in seconds, and the basic speech feedback at that moment is digitized and graphed and recorded in the application, and pressing the corresponding feedback leads to more detailed feedback.
개별 수치화나 그래프화 된 것뿐 아니라, 대본의 수정 또는 유사한 언어, 사자성어 등 사회경제에서 사용되는 고급언어로 전환하여 피드백이 되어 조금 더 비즈니스 할 때에 전문적인 모습으로 훈련해 볼 수 있다.In addition to being individually quantified or graphed, it is possible to train in a more professional manner when doing business as feedback by modifying the script or converting to a high-level language used in social economy, such as a similar language or lion idiom.
발음이나 억양의 관한 훈련을 할 수 있도록 해당 스피치 교육프로그램으로 이어지거나 해당 링크가 연결되어 비교해 볼 수 있다(사투리, 외국어, 발음 등).It is connected to the corresponding speech education program so that pronunciation or intonation training can be performed, or the corresponding link is connected and can be compared (dialect, foreign language, pronunciation, etc.).
제2 피드백 정보는 내용전달 능력 피드백에 대응될 수 있다.The second feedback information may correspond to content delivery capability feedback.
내용전달 능력 피드백은, 등록된 파일의 기본적인 내용을 기반으로 음성인식을 통해 전달된 키워드를 대조함으로써 생성될 수 있으며, 설정한 키워드가 알맞게 스피치가 되었는지 또는 정확한 키워드가 아니더라도 유사한 언어의 데이터를 기반으로 퍼센트로 세분화해서 나타날 수 있다.Content delivery ability feedback can be generated by comparing keywords delivered through voice recognition based on the basic content of registered files, and based on data of similar languages even if the set keywords are properly spoken or not accurate keywords. It can be broken down into percentages.
기본적 스피치 피드백과 동일하게 내용의 좀 더 고급화를 원할 경우 해당 추가로 알아야 할 기사나 뉴스 내용이 더 포함될 수 있다.Similar to the basic speech feedback, if more advanced content is desired, additional articles or news content to be known may be included.
제3 피드백 정보는, 실시간 반응 감정 피드백에 대응될 수 있다.The third feedback information may correspond to real-time reaction emotion feedback.
실시간 반응 감정 피드백은, 현장에서 나오는 청중 피드백 및 시작과 동시에 획득된 정보에 기반하여 생성 수 있고, 심전도와 홍채, 눈의 변화에 기반하여 생성될 수 있다.Real-time reaction emotion feedback can be generated based on audience feedback from the field and information obtained at the same time as the start, and can be generated based on changes in the electrocardiogram, iris, and eye.
이 또한 그래프화 되어 긴장도와 당황했던 순간이 어떤 순간인지 어떻게 대응해야 하는 건지 영상과 그래프를 대조화 시키면서 당황했던 순간을 기억해보고 상황 별 대처능력을 향상시킬 수 있다. 눈에 표정 변화와 심전도, 홍채인식이 그래프화 되어 출력할 수 있다. This is also graphed, so you can remember the moment you were embarrassed and improve your ability to cope with each situation while contrasting the video and graph to see what kind of moment you were embarrassed and how you should respond. Changes in facial expression, electrocardiogram, and iris recognition can be graphed and output.
제4 피드백 정보는 스피치 행동 피드백에 대응될 수 있다.The fourth feedback information may correspond to speech action feedback.
스피치 행동 피드백은, 영상 데이터에 기반하여 초단위로 행동의 변화를 체크하고, 습관적으로 나오는 발표 시의 습관에 기반하여 생성될 수 있다. 예를 들면 짝다리로 서있거나, 삿대질 또는 발표 시 발표자료 활용, 당황할 때 나오는 습관적인 제스처에 기반하여 생성될 수 있다.Speech behavioral feedback may be generated based on a behavioral change in units of seconds based on video data and a habitual presentation habit. For example, it can be created based on habitual gestures made when standing with one leg, pointing with a finger, using presentation materials when presenting, or being embarrassed.
본 개시의 일 실시 예에 따르면, 차 사용자의 스피치 능력을 개선하기 위한 서버의 동작 방법은, 상기 사용자의 스피치에 기반하여 시각적 및 청각적 입력을 실시간으로 획득하는 과정과, 상기 입력에 대응하는 데이터를 생성하는 과정과, 상기 데이터를 생성하는 것에 응답하여, 상기 사용자의 스피치에 대응하는 피드백 정보를 생성하는 과정과, 상기 피드백 정보에 따라, 영상 또는 음성 출력을 제공하는 과정을 포함할 수 있다. According to an embodiment of the present disclosure, a method of operating a server for improving a speech ability of a car user includes obtaining visual and auditory inputs in real time based on the speech of the user, and data corresponding to the inputs. It may include a process of generating a process, a process of generating feedback information corresponding to the user's speech in response to generating the data, and a process of providing a video or audio output according to the feedback information.
바람직하게는, 상기 데이터는, 음성데이터 및 영상데이터를 포함하고, 상기 피드백 정보는, 상기 사용자의 기본적인 스피치 능력에 대한 제1 피드백 정보; 상기 사용자의 스피치 내용전달 능력에 대한 제2 피드백 정보; 상기 사용자의 스피치 중 감정 제어에 대한 제3 피드백 정보; 및 상기 사용자의 스피치 중 행동에 대한 제4 피드백 정보를 포함할 수 있다.Preferably, the data includes audio data and video data, and the feedback information includes: first feedback information on basic speech ability of the user; second feedback information about the user's speech content delivery ability; third feedback information about emotion control in the user's speech; and fourth feedback information about the user's behavior during speech.
바람직하게는, 상기 음성 또는 영상 출력은, 상기 서버와 동작 가능하게 연결된 상기 사용자의 클라이언트 장치로 제공되고, 상기 클라이언트 장치는, VR 컨텐츠를 출력하는 것을 특징으로 한다.Preferably, the audio or video output is provided to the user's client device operatively connected to the server, and the client device outputs VR content.
바람직하게는, 상기 방법은, 상기 제1 피드백 정보 내지 상기 제4 피드백 정보 중 미리 설정된 기준에 기반하여 우선순위를 결정하는 과정을 더 포함하고, 상기 영상 또는 음성 출력은, 상기 우선순위에 기반하여 제공될 수 있다.Preferably, the method further comprises determining a priority based on a preset criterion among the first feedback information to the fourth feedback information, and the video or audio output is based on the priority can be provided.
바람직하게는, 상기 방법은, 미리 저장된 기준 정보와 상기 입력에 대응하는 데이터를 비교하는 것에 기반하여 상기 피드백 정보를 결정하는 과정을 더 포함하고, 상기 미리 저장된 기준 정보는, 특정 임계치에 관한 정보이며, 상기 피드백 정보를 결정하는 과정은, 상기 입력에 대응하는 데이터가 특정 임계치를 초과하였는지 여부를 결정하는 과정을 더 포함할 수 있다.Preferably, the method further comprises determining the feedback information based on comparing pre-stored reference information with data corresponding to the input, wherein the pre-stored reference information is information about a specific threshold , The process of determining the feedback information may further include a process of determining whether data corresponding to the input exceeds a specific threshold.
본 개시의 일 실시 예에 따르면, 사용자의 스피치 능력을 개선하기 위한 서버의 장치는, 송수신기; 및 상기 송수신기와 동작 가능하게 연결되는 적어도 하나의 제어부를 포함하며, 상기 적어도 하나의 제어부는, 상기 사용자의 스피치에 기반하여 시각적 및 청각적 입력을 실시간으로 획득하는 과정과, 상기 입력에 대응하는 데이터를 생성하는 과정과, 상기 데이터를 생성하는 것에 응답하여, 상기 사용자의 스피치에 대응하는 피드백 정보를 생성하는 과정과, 상기 피드백 정보에 따라, 영상 또는 음성 출력을 제공하는 과정을 포함할 수 있다.According to an embodiment of the present disclosure, an apparatus of a server for improving a user's speech ability includes a transceiver; and at least one control unit operatively connected to the transceiver, wherein the at least one control unit performs a process of acquiring visual and auditory inputs in real time based on the user's speech, and data corresponding to the inputs. It may include a process of generating a process, a process of generating feedback information corresponding to the user's speech in response to generating the data, and a process of providing a video or audio output according to the feedback information.
바람직하게는, 상기 데이터는, 음성데이터 및 영상데이터를 포함하고, 상기 피드백 정보는, 상기 사용자의 기본적인 스피치 능력에 대한 제1 피드백 정보; 상기 사용자의 스피치 내용전달 능력에 대한 제2 피드백 정보; 상기 사용자의 스피치 중 감정 제어에 대한 제3 피드백 정보; 및 상기 사용자의 스피치 중 행동에 대한 제4 피드백 정보를 포함할 수 있다.Preferably, the data includes audio data and video data, and the feedback information includes: first feedback information on basic speech ability of the user; second feedback information about the user's speech content delivery ability; third feedback information about emotion control in the user's speech; and fourth feedback information about the user's behavior during speech.
바람직하게는, 상기 음성 또는 영상 출력은, 상기 서버와 동작 가능하게 연결된 상기 사용자의 클라이언트 장치로 제공되고, 상기 클라이언트 장치는, VR 컨텐츠를 출력하는 것을 특징으로 한다.Preferably, the audio or video output is provided to the user's client device operatively connected to the server, and the client device outputs VR content.
바람직하게는, 상기 적어도 하나의 제어부는, 상기 제1 피드백 정보 내지 상기 제4 피드백 정보 중 미리 설정된 기준에 기반하여 우선순위를 결정하도록 더 구성되고, 상기 영상 또는 음성 출력은, 상기 우선순위에 기반하여 제공될 수 있다.Preferably, the at least one control unit is further configured to determine a priority based on a preset criterion among the first feedback information to the fourth feedback information, and the video or audio output is based on the priority. can be provided.
바람직하게는, 상기 적어도 하나의 제어부는, 미리 저장된 기준 정보와 상기 입력에 대응하는 데이터를 비교하는 것에 기반하여 상기 피드백 정보를 결정하도록 더 구성되고, 상기 미리 저장된 기준 정보는, 특정 임계치에 관한 정보이며, 상기 적어도 하나의 제어부는, 상기 피드백 정보를 결정하기 위해, 상기 입력에 대응하는 데이터가 특정 임계치를 초과하였는지 여부를 결정하도록 더 구성될 수 있다.Preferably, the at least one control unit is further configured to determine the feedback information based on comparing pre-stored reference information with data corresponding to the input, wherein the pre-stored reference information includes information about a specific threshold. And, the at least one controller may be further configured to determine whether data corresponding to the input exceeds a specific threshold in order to determine the feedback information.
다양한 실시 예들에 따르면, 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시 예들에 따르면, 전술된 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 통합 이전에 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.According to various embodiments, each component (eg, module or program) of the described components may include a singular object or a plurality of entities. According to various embodiments, one or more components or operations among the corresponding components described above may be omitted, or one or more other components or operations may be added. Alternatively or additionally, a plurality of components (eg modules or programs) may be integrated into a single component. In this case, the integrated component may perform one or more functions of each of the plurality of components identically or similarly to those performed by the corresponding component among the plurality of components prior to integration. According to various embodiments, operations performed by a module, program, or other component are executed sequentially, in parallel, iteratively, or heuristically, or one or more of the operations are executed in a different order, omitted, or Or one or more other actions may be added.
Claims (10)
상기 방법은,
(A)상기 사용자의 스피치에 기반하여 시각적 및 청각적 입력을 실시간으로 획득하는 과정;
(B)상기 입력에 대응하는 데이터를 생성하는 과정과,
(C)상기 데이터를 생성하는 것에 응답하여, 상기 사용자의 스피치에 대응하는 피드백 정보를 생성하는 과정,
(D)상기 피드백 정보에 따라, 영상 또는 음성 출력을 제공하는 과정,
(E)제1 피드백 정보 내지 제4 피드백 정보 중 미리 설정된 기준에 기반하여 우선순위를 결정하는 과정,
(F)미리 저장된 기준 정보와 상기 입력에 대응하는 데이터를 비교하는 것에 기반하여 상기 피드백 정보를 결정하는 과정; 을 포함하고,
상기 미리 저장된 기준 정보는, 특정 임계치에 관한 정보이며,
상기 (F)의 과정; 은
상기 입력에 대응하는 데이터가 특정 임계치를 초과하였는지 여부를 결정하는 과정; 을 포함하고
상기 데이터는, 음성데이터 및 영상데이터를 포함하고,
상기 피드백 정보는,
상기 사용자의 기본적인 스피치 능력에 대한 제1 피드백 정보;
상기 사용자의 스피치 내용전달 능력에 대한 제2 피드백 정보;
상기 사용자의 스피치 중 감정 제어에 대한 제3 피드백 정보; 및
상기 사용자의 스피치 중 행동에 대한 제4 피드백 정보; 를 포함하고
상기 (A)의 과정은,
상기 시각적 및 청각적 입력을 서버와 동작 가능하게 연결되는 외부 입력 장치를 통해 획득되는 과정;
음성 입력 또는 영상 입력을 마이크 또는 카메라를 구비한 외부 입력 장치가 먼저 획득하는 과정; 및
외부 입력 장치가 서버로 전달하거나, 음성 또는 영상 데이터로 처리하여 서버로 전송하는 과정; 을 포함하고,
상기 시각적 및 청각적 입력은
사용자의 스피치에 기반하고, 사용자가 스피치를 수행하는 과정에서 발생하는 소리, 움직임에 대한 정보와 연관된 정보를 포함하고,
상기 (B)의 과정; 은
(B-1)스피치에 대한 피드백을 생성하기 위해, 미리 설정된 기준에 따라 입력을 분류하는 과정;
(B-2)서버가 청각적 입력을 획득하고 획득한 청각적 입력에 기반하여 음성 데이터를 생성하는 과정;
(B-3)문장 구조, 어조, 억양, 키워드를 포함하는 미리 결정된 분류 기준에 따라 처리된 음성 데이터를 생성하는 과정;
(B-4)서버가 시각적 입력을 획득하고, 시각적 입력에 기반하여 영상 데이터를 생성하는 과정; 및
(B-5)제스처, 자세, 표정, 안색을 포함하는 미리 결정된 분류 기준에 따라 처리된 영상 데이터를 생성하는 과정; 을 포함하고
상기 (B-1)의 단계; 는
서버에서 스피치에 기반하여 결정된 음성 및 영상 데이터에서, 결정된 스피치 입력의 항목 부분에 해당하는 영역의 수치적인 값을 결정하고,
스피치 입력의 항목이 얼굴 표정 변화 정도인 경우, 서버는 영상 데이터에 기반하여 측정된 얼굴 표정의 변화가 어느 정도인지를 결정하고, 얼굴 표정 변화 여부는 미리 설정된 테이블에 기반하여 수치화 또는 레벨화 되는 것을 특징으로 하는 방법.
A method of operating a server for improving a user's speech ability,
The method,
(A) obtaining visual and auditory inputs in real time based on the user's speech;
(B) a process of generating data corresponding to the input;
(C) generating feedback information corresponding to the user's speech in response to generating the data;
(D) providing a video or audio output according to the feedback information;
(E) determining a priority based on a preset criterion among first feedback information to fourth feedback information;
(F) determining the feedback information based on comparing previously stored reference information with data corresponding to the input; including,
The pre-stored reference information is information about a specific threshold,
The process of (F) above; silver
determining whether data corresponding to the input exceeds a specific threshold; contains
The data includes audio data and video data,
The feedback information,
first feedback information about the basic speech ability of the user;
second feedback information about the user's speech content delivery ability;
third feedback information about emotion control in the user's speech; and
fourth feedback information about the user's behavior during speech; and
The process of (A) above,
acquiring the visual and auditory inputs through an external input device operably connected to a server;
A process in which an external input device having a microphone or a camera first obtains a voice input or an image input; and
A process in which an external input device transmits data to a server or processes audio or video data and transmits the data to the server; including,
The visual and auditory inputs are
It is based on the user's speech and includes information related to sound and motion information generated in the course of the user's speech;
The process of (B) above; silver
(B-1) classifying an input according to a preset criterion to generate feedback on speech;
(B-2) the server acquiring an auditory input and generating voice data based on the acquired auditory input;
(B-3) generating voice data processed according to predetermined classification criteria including sentence structure, tone, intonation, and keywords;
(B-4) a process in which the server acquires a visual input and generates image data based on the visual input; and
(B-5) generating processed image data according to predetermined classification criteria including gestures, postures, facial expressions, and complexion; contains
Step (B-1) above; Is
determining a numerical value of an area corresponding to an item part of the determined speech input in the audio and video data determined based on the speech in the server;
When the item of the speech input is the degree of change in facial expression, the server determines the degree of change in the measured facial expression based on the image data, and the change in facial expression is digitized or leveled based on a preset table. How to characterize.
상기 음성 또는 영상 출력은,
상기 서버와 동작 가능하게 연결된 상기 사용자의 클라이언트 장치로 제공되고,
상기 클라이언트 장치는, VR 컨텐츠를 출력하는 것을 특징으로 하는 방법.
The method of claim 1,
The audio or video output,
Provided to the user's client device operably connected with the server;
Wherein the client device outputs VR content.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210109689A KR102568994B1 (en) | 2021-08-19 | 2021-08-19 | Apparatus and method for providing feedback for improving a user's speech ability |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210109689A KR102568994B1 (en) | 2021-08-19 | 2021-08-19 | Apparatus and method for providing feedback for improving a user's speech ability |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20230027658A KR20230027658A (en) | 2023-02-28 |
KR102568994B1 true KR102568994B1 (en) | 2023-08-22 |
Family
ID=85326813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210109689A KR102568994B1 (en) | 2021-08-19 | 2021-08-19 | Apparatus and method for providing feedback for improving a user's speech ability |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102568994B1 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200000215A (en) * | 2018-06-22 | 2020-01-02 | 이미진 | System and method for providing speech coaching service |
KR20200043658A (en) * | 2018-10-18 | 2020-04-28 | 주식회사 지엔아이씨티 | Vr presentation and interview training system |
KR20200129278A (en) * | 2019-05-08 | 2020-11-18 | 주식회사 씨크릿우먼 | Self-generated self coaching system and method for training employee by analyzing voice data from users |
-
2021
- 2021-08-19 KR KR1020210109689A patent/KR102568994B1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20230027658A (en) | 2023-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190156222A1 (en) | Artificial intelligence platform with improved conversational ability and personality development | |
US7983910B2 (en) | Communicating across voice and text channels with emotion preservation | |
US10614203B2 (en) | Robot-human interactive device which performs control for authenticating a user, robot, interaction method, and recording medium storing program | |
US11450311B2 (en) | System and methods for accent and dialect modification | |
Bahreini et al. | Towards real-time speech emotion recognition for affective e-learning | |
CN115413348B (en) | System and method for automatically verifying and quantifying interview question answers | |
US20170213190A1 (en) | Method and system for analysing subjects | |
US10839788B2 (en) | Systems and methods for selecting accent and dialect based on context | |
Dias et al. | Visibility of speech articulation enhances auditory phonetic convergence | |
Bhattacharya et al. | Quality of experience evaluation of voice communication: an affect-based approach | |
US9922644B2 (en) | Analysis of professional-client interactions | |
Seita et al. | Behavioral changes in speakers who are automatically captioned in meetings with deaf or hard-of-hearing peers | |
US11636850B2 (en) | Method, system, and device for performing real-time sentiment modulation in conversation systems | |
Ritschel et al. | Multimodal joke generation and paralinguistic personalization for a socially-aware robot | |
JP2014123813A (en) | Automatic scoring device for dialog between operator and customer, and operation method for the same | |
KR102568994B1 (en) | Apparatus and method for providing feedback for improving a user's speech ability | |
Klaylat et al. | Enhancement of an Arabic speech emotion recognition system | |
KR102463243B1 (en) | Tinnitus counseling system based on user voice analysis | |
US11485022B2 (en) | Dialogue apparatus and control program for dialogue apparatus | |
KR20190033330A (en) | Method, Electronic Apparatus and System for Generating of Minutes | |
EP4256459A1 (en) | Method of training a neural network | |
KR20110064964A (en) | The intelligent language system which has a improve on pronunciation | |
JP6930781B1 (en) | Learning method and content playback device | |
US20220020368A1 (en) | Output apparatus, output method and non-transitory computer-readable recording medium | |
WO2022180852A1 (en) | Video session evaluation terminal, video session evaluation system, and video session evaluation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |