KR102364935B1 - A method and apparatus for data transmission for improving 5G-based speech recognition response speed - Google Patents
A method and apparatus for data transmission for improving 5G-based speech recognition response speed Download PDFInfo
- Publication number
- KR102364935B1 KR102364935B1 KR1020190176417A KR20190176417A KR102364935B1 KR 102364935 B1 KR102364935 B1 KR 102364935B1 KR 1020190176417 A KR1020190176417 A KR 1020190176417A KR 20190176417 A KR20190176417 A KR 20190176417A KR 102364935 B1 KR102364935 B1 KR 102364935B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice signal
- text information
- user
- voice
- data transmission
- Prior art date
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000004044 response Effects 0.000 title claims abstract description 23
- 238000004891 communication Methods 0.000 claims description 21
- 238000013473 artificial intelligence Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 230000036632 reaction speed Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003334 potential effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법 및 장치에 관한 것이다. 본 발명의 일 실시예에 따른 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법은 (a) 사용자 단말로부터 사용자의 제1 음성 신호를 수신하는 단계; (b) 음성인식을 통해 상기 제1 음성 신호를 제1 텍스트 정보로 변환하는 단계; (c) 상기 제1 텍스트 정보를 이용하여 상기 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하는 단계; 및 (d) 상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신하는 단계;를 포함할 수 있다. The present invention relates to a data transmission method and apparatus for improving 5G-based voice recognition response speed. A data transmission method for improving response speed of 5G-based voice recognition according to an embodiment of the present invention includes the steps of: (a) receiving a user's first voice signal from a user terminal; (b) converting the first voice signal into first text information through voice recognition; (c) estimating second text information corresponding to the user's second voice signal using the first text information; and (d) transmitting at least one of the first text information and the second text information to the user terminal.
Description
본 발명은 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법 및 장치에 관한 것으로, 더욱 상세하게는 실시간 단어 분석을 통한 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법 및 장치에 관한 것이다.The present invention relates to a data transmission method and apparatus for improving 5G-based voice recognition reaction speed, and more particularly, to a data transmission method and apparatus for improving 5G-based speech recognition reaction speed through real-time word analysis.
음성 인식 기술은 미리 수집된 음성데이터로부터 각 음소별 확률 모델을 미리 학습하고, 이후 입력된 음성데이터가 어느 음소에 가장 가까운지를 판단하여 이로부터 음소열을 추정하는 방식을 사용한다. 이때 사용하는 각 음소별 확률 모델을 음향모델이라고 부르며, 음향모델은 음성 인식 기술의 성능을 좌우하는 중요한 요소 중에 하나이다.Speech recognition technology uses a method of pre-learning a probabilistic model for each phoneme from previously collected voice data, determining which phoneme the input voice data is closest to, and estimating a phoneme sequence from this. The probabilistic model for each phoneme used at this time is called an acoustic model, and the acoustic model is one of the important factors influencing the performance of speech recognition technology.
최근 음성 인식 기술의 관심이 집중되면서, 음성 인식을 용이하게 하기 위한 다양한 알고리즘이 제안되었다. 다만, 기존의 음성 인식 기술은 음성 인식을 어떠한 방식으로 수행할 것인지에 대한 연구만이 진행되고 있을 뿐, 음성인식 반응속도를 향상시키기 위한 방식을 제시하지 못하는 문제점이 있다.As interest in speech recognition technology has recently been focused, various algorithms for facilitating speech recognition have been proposed. However, the existing voice recognition technology has a problem in that only research on how to perform voice recognition is being conducted, and a method for improving the voice recognition reaction speed cannot be presented.
본 발명은 전술한 문제점을 해결하기 위하여 창출된 것으로, 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법 및 장치를 제공하는 것을 그 목적으로 한다.The present invention was created to solve the above problems, and an object of the present invention is to provide a data transmission method and apparatus for improving 5G-based voice recognition response speed.
본 발명은 사용자의 제1 음성 신호로부터 변환된 제1 텍스트 정보를 이용하여 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하기 위한 방법 및 장치를 제공하는 것을 그 목적으로 한다. An object of the present invention is to provide a method and apparatus for estimating second text information corresponding to a user's second voice signal by using the first text information converted from the user's first voice signal.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.Objects of the present invention are not limited to the objects mentioned above, and other objects not mentioned will be clearly understood from the description below.
상기한 목적들을 달성하기 위하여, 본 발명의 일 실시예에 따른 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법은 (a) 사용자 단말로부터 사용자의 제1 음성 신호를 수신하는 단계; (b) 음성인식을 통해 상기 제1 음성 신호를 제1 텍스트 정보로 변환하는 단계; (c) 상기 제1 텍스트 정보를 이용하여 상기 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하는 단계; 및 (d) 상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신하는 단계;를 포함할 수 있다.In order to achieve the above objects, according to an embodiment of the present invention, there is provided a data transmission method for improving a 5G-based voice recognition response speed, comprising the steps of: (a) receiving a user's first voice signal from a user terminal; (b) converting the first voice signal into first text information through voice recognition; (c) estimating second text information corresponding to the user's second voice signal using the first text information; and (d) transmitting at least one of the first text information and the second text information to the user terminal.
실시예에서, 상기 (a) 단계는, 상기 제1 음성 신호의 데시벨(decibel, dB)이 임계값 이상인 경우, 상기 사용자의 제1 음성 신호를 획득하는 단계;를 포함할 수 있다. In an embodiment, the step (a) may include obtaining the first voice signal of the user when the decibel (dB) of the first voice signal is equal to or greater than a threshold value.
실시예에서, 상기 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법은 상기 (c) 단계와 (d) 단계 사이에, 상기 사용자 단말로부터 상기 사용자의 제2 음성 신호를 수신하는 단계;를 더 포함할 수 있다. In an embodiment, the data transmission method for improving the 5G-based voice recognition response speed includes, between steps (c) and (d), receiving the user's second voice signal from the user terminal; may include
실시예에서, 상기 (d) 단계는, 상기 추정된 제2 텍스트 정보를 상기 제2 음성 신호로 역변환하는 단계; 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는지 여부를 판단하는 단계; 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는 경우, 상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신하는 단계;를 포함할 수 있다. In an embodiment, the step (d) includes: inversely transforming the estimated second text information into the second voice signal; determining whether the inversely transformed second voice signal matches the received second voice signal; and transmitting at least one of the first text information and the second text information to the user terminal when the inversely transformed second voice signal matches the received second voice signal.
실시예에서, 상기 (d) 단계는, 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하지 않는 경우, 상기 음성인식을 통해 상기 수신된 제2 음성 신호를 제2 텍스트 정보로 변환하는 단계; 및 상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신하는 단계;를 포함할 수 있다. In an embodiment, in the step (d), when the inversely transformed second voice signal and the received second voice signal do not match, the second voice signal received through the voice recognition is converted into second text information. converting; and transmitting at least one of the first text information and the second text information to the user terminal.
실시예에서, 상기 (c) 단계는, 상기 제1 텍스트 정보를 음성인식 인공지능 학습모델에 적용하여, 상기 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하는 단계;를 포함할 수 있다. In an embodiment, the step (c) may include estimating second text information corresponding to the user's second voice signal by applying the first text information to a voice recognition artificial intelligence learning model. there is.
실시예에서, 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 장치는 사용자 단말로부터 사용자의 제1 음성 신호를 수신하는 통신부; 및 음성인식을 통해 상기 제1 음성 신호를 제1 텍스트 정보로 변환하고, 상기 제1 텍스트 정보를 이용하여 상기 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하는 제어부;를 포함하고, 상기 통신부는, 상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신할 수 있다. In an embodiment, a data transmission apparatus for improving 5G-based voice recognition response speed includes: a communication unit configured to receive a user's first voice signal from a user terminal; and a controller for converting the first voice signal into first text information through voice recognition and estimating second text information corresponding to the user's second voice signal using the first text information; The communication unit may transmit at least one of the first text information and the second text information to the user terminal.
실시예에서, 상기 통신부는, 상기 제1 음성 신호의 데시벨(decibel, dB)이 임계값 이상인 경우, 상기 사용자의 제1 음성 신호를 획득할 수 있다. In an embodiment, the communication unit may acquire the user's first voice signal when a decibel (dB) of the first voice signal is equal to or greater than a threshold value.
실시예에서, 상기 통신부는, 상기 사용자 단말로부터 상기 사용자의 제2 음성 신호를 수신할 수 있다. In an embodiment, the communication unit may receive the user's second voice signal from the user terminal.
실시예에서, 상기 제어부는, 상기 추정된 제2 텍스트 정보를 상기 제2 음성 신호로 역변환하고, 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는지 여부를 판단하고, 상기 통신부는, 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는 경우, 상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신할 수 있다. In an embodiment, the control unit inversely transforms the estimated second text information into the second voice signal, determines whether the inversely transformed second voice signal matches the received second voice signal, and the communication unit may transmit at least one of the first text information and the second text information to the user terminal when the inversely transformed second voice signal matches the received second voice signal.
실시예에서, 상기 제어부는, 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하지 않는 경우, 상기 음성인식을 통해 상기 수신된 제2 음성 신호를 제2 텍스트 정보로 변환하고, 상기 통신부는, 상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신할 수 있다. In an embodiment, when the inversely transformed second voice signal and the received second voice signal do not match, the control unit converts the received second voice signal into second text information through the voice recognition, The communication unit may transmit at least one of the first text information and the second text information to the user terminal.
실시예에서, 상기 제어부는, 상기 제1 텍스트 정보를 음성인식 인공지능 학습모델에 적용하여, 상기 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정할 수 있다. In an embodiment, the controller may apply the first text information to a speech recognition artificial intelligence learning model to estimate second text information corresponding to the user's second voice signal.
상기한 목적들을 달성하기 위한 구체적인 사항들은 첨부된 도면과 함께 상세하게 후술될 실시예들을 참조하면 명확해질 것이다.Specific details for achieving the above objects will become clear with reference to the embodiments to be described in detail below in conjunction with the accompanying drawings.
그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라, 서로 다른 다양한 형태로 구성될 수 있으며, 본 발명의 개시가 완전하도록 하고 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자(이하, "통상의 기술자")에게 발명의 범주를 완전하게 알려주기 위해서 제공되는 것이다.However, the present invention is not limited to the embodiments disclosed below, it may be configured in various different forms, and those of ordinary skill in the art to which the present invention belongs ( Hereinafter, "a person skilled in the art") is provided to fully inform the scope of the invention.
본 발명의 일 실시예에 의하면, 사용자의 제1 음성 신호로부터 변환된 제1 텍스트 정보를 이용하여 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정함으로써, 음성인식 반응속도를 향상시킬 수 있다. According to an embodiment of the present invention, by estimating the second text information corresponding to the user's second voice signal using the first text information converted from the user's first voice signal, it is possible to improve the speech recognition reaction speed. there is.
본 발명의 효과들은 상술된 효과들로 제한되지 않으며, 본 발명의 기술적 특징들에 의하여 기대되는 잠정적인 효과들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.Effects of the present invention are not limited to the above-described effects, and potential effects expected by the technical features of the present invention will be clearly understood from the following description.
도 1은 본 발명의 일 실시예에 따른 음성인식 시스템을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 사용자의 음성 신호를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법을 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 장치를 도시한 도면이다.1 is a diagram illustrating a voice recognition system according to an embodiment of the present invention.
2 is a diagram illustrating a user's voice signal according to an embodiment of the present invention.
3 is a diagram illustrating a data transmission method for improving 5G-based voice recognition response speed according to an embodiment of the present invention.
4 is a diagram illustrating a data transmission apparatus for improving 5G-based voice recognition response speed according to an embodiment of the present invention.
본 발명은 다양한 변경을 가할 수 있고, 여러 가지 실시예들을 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 이를 상세히 설명하고자 한다. Since the present invention can have various changes and can have various embodiments, specific embodiments are illustrated in the drawings and described in detail.
청구범위에 개시된 발명의 다양한 특징들은 도면 및 상세한 설명을 고려하여 더 잘 이해될 수 있을 것이다. 명세서에 개시된 장치, 방법, 제법 및 다양한 실시예들은 예시를 위해서 제공되는 것이다. 개시된 구조 및 기능상의 특징들은 통상의 기술자로 하여금 다양한 실시예들을 구체적으로 실시할 수 있도록 하기 위한 것이고, 발명의 범위를 제한하기 위한 것이 아니다. 개시된 용어 및 문장들은 개시된 발명의 다양한 특징들을 이해하기 쉽게 설명하기 위한 것이고, 발명의 범위를 제한하기 위한 것이 아니다.Various features of the invention disclosed in the claims may be better understood upon consideration of the drawings and detailed description. The apparatus, methods, preparations, and various embodiments disclosed herein are provided for purposes of illustration. The disclosed structural and functional features are intended to enable those skilled in the art to specifically practice the various embodiments, and are not intended to limit the scope of the invention. The disclosed terms and sentences are for the purpose of easy-to-understand descriptions of various features of the disclosed invention, and are not intended to limit the scope of the invention.
본 발명을 설명함에 있어서, 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.In describing the present invention, if it is determined that a detailed description of a related known technology may unnecessarily obscure the gist of the present invention, the detailed description thereof will be omitted.
이하, 본 발명의 일 실시예에 따른 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법 및 장치를 설명한다.Hereinafter, a data transmission method and apparatus for improving 5G-based voice recognition response speed according to an embodiment of the present invention will be described.
도 1은 본 발명의 일 실시예에 따른 음성인식 시스템(100)을 도시한 도면이다. 도 2는 본 발명의 일 실시예에 따른 사용자의 음성 신호를 도시한 도면이다.1 is a diagram illustrating a
도 1을 참고하면, 음성인식 시스템(100)은 사용자 단말(110)과 클라우드 서버(120)를 포함할 수 있다. Referring to FIG. 1 , the
사용자에 의해 일정 데시벨(decibel, dB) 이상의 음성 신호가 발생되는 경우, 사용자 단말(110)은 해당 음성 신호를 일정 데시벨 이하로 측정될 때까지 획득할 수 있다. When a voice signal higher than a certain decibel (dB) is generated by the user, the
이후, 사용자 단말(110)은 획득되는 음성 신호를 실시간으로 클라우드 서버(120)에게 송신할 수 있다. Thereafter, the
클라우드 서버(120)는 실시간으로 수신된 음성 신호를 음성인식 분석하여, 음성 신호를 텍스트 정보로 변환하여 텍스트 정보를 사용자 단말(110)에게 송신할 수 있다. The
예를 들어, 도 2를 참고하면, 클라우드 서버(120)는 사용자 단말(110)로부터 시간 구간 T1에서 획득된 음성 신호 A를 수신할 수 있다. 이후, 클라우드 서버(120)는 실시간으로 음성 신호 A를 텍스트 정보 A로 변환하여 사용자 단말(110)에게 송신할 수 있다.For example, referring to FIG. 2 , the
또한, 클라우드 서버(120)는 사용자 단말(110)로부터 시간 구간 T2에서 획득된 음성 신호 B를 수신할 수 있다. 이후, 클라우드 서버(120)는 실시간으로 음성 신호 B를 텍스트 정보 B로 변환하여 사용자 단말(110)에게 송신할 수 있다. Also, the
즉, 본 발명에 따르면, 사용자의 음성 신호 전체를 수신한 후, 이를 음성 인식하는 것이 아니라, 실시간으로 획득된 음성 신호를 바로 음성 인식하여 분석 후, 해당 문장의 의미를 빠르게 파악할 수 있으며, 이로 인해, 음성 인식의 반응속도를 향상시킬 수 있다. That is, according to the present invention, instead of recognizing the user's entire voice signal after receiving it, the voice signal acquired in real time is immediately recognized and analyzed, and the meaning of the sentence can be quickly grasped. , it is possible to improve the reaction speed of speech recognition.
또한, 클라우드 서버(120)는 획득된 음성 신호 A와 음성 신호 B를 이용하여, 다음 시간 구간 T3에 수신될 것으로 예측되는 음성 신호 C를 추정할 수 있다. 즉, 기존 대화 내용(예: 음성 신호 A)와 현재 단어(예: 음성 신호 B)를 통해 미래 변환할 내용(예: 음성 신호 C)를 빠르게 예측하여 반응속도를 개선할 수 있다. In addition, the
일 실시예에서, 사용자 단말(110)은 키오스크(kiosk), 스마트폰, 태블릿 PC, 노트북 등 다양한 형태로 구현될 수 있으나, 이에 제한되지 않는다. In an embodiment, the
도 3은 본 발명의 일 실시예에 따른 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법을 도시한 도면이다. 일 실시예에서, 도 3의 각 단계는 클라우드 서버(120)에 의해 수행될 수 있다. 3 is a diagram illustrating a data transmission method for improving 5G-based voice recognition response speed according to an embodiment of the present invention. In an embodiment, each step of FIG. 3 may be performed by the
도 3을 참고하면, S301 단계는, 사용자 단말(110)로부터 사용자의 제1 음성 신호를 수신하는 단계이다. 일 실시예에서, 제1 음성 신호의 데시벨(decibel, dB)이 임계값 이상인 경우, 사용자의 제1 음성 신호를 획득할 수 있다. Referring to FIG. 3 , step S301 is a step of receiving a user's first voice signal from the
S303 단계는, 음성인식을 통해 제1 음성 신호를 제1 텍스트 정보로 변환하는 단계이다. Step S303 is a step of converting the first voice signal into the first text information through voice recognition.
S305 단계는, 제1 텍스트 정보를 이용하여 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하는 단계이다. 일 실시예에서, 제1 텍스트 정보를 음성인식 인공지능 학습모델에 적용하여, 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정할 수 있다. Step S305 is a step of estimating second text information corresponding to the user's second voice signal by using the first text information. In an embodiment, the second text information corresponding to the user's second voice signal may be estimated by applying the first text information to the voice recognition artificial intelligence learning model.
일 실시예에서, S305 단계와 S307 단계 사이에, 사용자 단말(110)로부터 사용자의 제2 음성 신호를 수신할 수 있다. 이후, 상기 추정된 제2 텍스트 정보를 제2 음성 신호로 역변환할 수 있다. 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는지 여부를 판단할 수 있다. In an embodiment, between steps S305 and S307 , the user's second voice signal may be received from the
일 실시예에서, 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는 경우, 수신된 제2 음성 신호를 별도로 제2 텍스트 정보로 변환하는 음성인식 과정을 거치지 않고, 바로 사용자 단말(110)에게 상기 제1 텍스트 정보 및 상기 추정된 제2 텍스트 정보 중 적어도 하나를 송신할 수 있다. In an embodiment, when the inversely-converted second voice signal and the received second voice signal match, the user terminal does not go through a voice recognition process of separately converting the received second voice signal into second text information. At least one of the first text information and the estimated second text information may be transmitted to 110 .
일 실시예에서, 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하지 않는 경우, 음성인식을 통해 상기 수신된 제2 음성 신호를 제2 텍스트 정보로 변환할 수 있다. 이후, 사용자 단말(110)에게 상기 제1 텍스트 정보 및 상기 변환된 제2 텍스트 정보 중 적어도 하나를 송신할 수 있다. In an embodiment, when the inversely transformed second voice signal and the received second voice signal do not match, the received second voice signal may be converted into second text information through voice recognition. Thereafter, at least one of the first text information and the converted second text information may be transmitted to the
S307 단계는, 사용자 단말(110)에게 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신하는 단계이다. Step S307 is a step of transmitting at least one of the first text information and the second text information to the
일 실시예에서, 제1 텍스트 정보 및 제2 텍스트 정보를 이용하여, 사용자의 제1 음성 신호 및 제2 음성 신호에 대응하는 답변 메시지를 생성하고, 생성된 답변 메시지를 사용자 단말(110)에게 송신할 수 있다. In an embodiment, by using the first text information and the second text information, a response message corresponding to the user's first voice signal and the second voice signal is generated, and the generated response message is transmitted to the
일 실시예에서, 종래와 같이, 사용자 단말(110)이 음성 분석(STT(Speech to Text) 이후 분석)을 기존에 다 끝나고, 클라우드 서버(120)로 보내서 한번에 분석하고, 다시 받아오는 형태(TTS(Text-to-Speech))가 아니라, 본 발명에 따르면, 핵심 단어부터 순차적으로 보내서, 실시간으로 바로 단어 분석 후, 해당 문장의 의미를 빠르게 파악해서, 답변하여 반응속도를 향상시킬 수 있다. In one embodiment, as in the prior art, the
도 4는 본 발명의 일 실시예에 따른 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 장치(400)를 도시한 도면이다. 4 is a diagram illustrating a
도 4를 참고하면, 데이터 전송 장치(400)는 통신부(410), 제어부(420), 및 저장부(430)를 포함할 수 있다. 일 실시예에서, 데이터 전송 장치(400)는 클라우드 서버(120)를 포함할 수 있다. Referring to FIG. 4 , the
통신부(410)는 사용자 단말(110)로부터 사용자의 제1 음성 신호를 수신할 수 있다. 일 실시예에서, 통신부(410)는 사용자 단말(110)에게 제1 음성 신호로부터 변환된 제1 텍스트 정보 및 제2 음성 신호에 대응하여 추정된 제2 텍스트 정보 중 적어도 하나를 송신할 수 있다. The
일 실시예에서, 통신부(410)는 유선 통신 모듈 및 무선 통신 모듈 중 적어도 하나를 포함할 수 있다. 통신부(410)의 전부 또는 일부는 '송신부', '수신부' 또는 '송수신부(transceiver)'로 지칭될 수 있다.In an embodiment, the
제어부(420)는 음성인식을 통해 제1 음성 신호를 제1 텍스트 정보로 변환하고, 제1 텍스트 정보를 이용하여 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정할 수 있다. The
일 실시예에서, 제어부(420)는 적어도 하나의 프로세서 또는 마이크로(micro) 프로세서를 포함하거나, 또는, 프로세서의 일부일 수 있다. 또한, 제어부(420)는 CP(communication processor)라 지칭될 수 있다. 제어부(420)는 본 발명의 다양한 실시예에 따른 데이터 전송 장치(400)의 동작을 제어할 수 있다. In one embodiment, the
저장부(430)는 사용자 단말(110)로부터 수신된 음성 신호들과 각 음성 신호에 대응하는 텍스트 정보를 저장할 수 있다. 일 실시예에서, 저장부(430)는 음성인식 인공지능 학습모델을 저장할 수 있다. The
일 실시예에서, 저장부(430)는 휘발성 메모리, 비휘발성 메모리 또는 휘발성 메모리와 비휘발성 메모리의 조합으로 구성될 수 있다. 그리고, 저장부(430)는 제어부(420)의 요청에 따라 저장된 데이터를 제공할 수 있다.In an embodiment, the
도 4를 참고하면, 데이터 전송 장치(400)는 통신부(410), 제어부(420), 및 저장부(430)를 포함할 수 있다. 본 발명의 다양한 실시 예들에서 데이터 전송 장치(400)는 도 4에 설명된 구성들이 필수적인 것은 아니어서, 도 4에 설명된 구성들보다 많은 구성들을 가지거나, 또는 그보다 적은 구성들을 가지는 것으로 구현될 수 있다.Referring to FIG. 4 , the
이상의 설명은 본 발명의 기술적 사상을 예시적으로 설명한 것에 불과한 것으로, 통상의 기술자라면 본 발명의 본질적인 특성이 벗어나지 않는 범위에서 다양한 변경 및 수정이 가능할 것이다.The above description is merely illustrative of the technical spirit of the present invention, and various changes and modifications may be made by those skilled in the art without departing from the essential characteristics of the present invention.
따라서, 본 명세서에 개시된 실시예들은 본 발명의 기술적 사상을 한정하기 위한 것이 아니라, 설명하기 위한 것이고, 이러한 실시예들에 의하여 본 발명의 범위가 한정되는 것은 아니다.Accordingly, the embodiments disclosed in the present specification are not intended to limit the technical spirit of the present invention, but to illustrate, and the scope of the present invention is not limited by these embodiments.
본 발명의 보호범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 이해되어야 한다.The protection scope of the present invention should be construed by the claims, and all technical ideas within the scope equivalent thereto should be understood to be included in the scope of the present invention.
100: 음성인식 시스템
110: 사용자 단말
120: 클라우드 서버
400: 데이터 전송 장치
410: 통신부
420: 제어부
430: 저장부100: voice recognition system
110: user terminal
120: cloud server
400: data transmission device
410: communication department
420: control unit
430: storage
Claims (12)
음성인식을 통해 상기 제1 음성 신호를 제1 텍스트 정보로 변환하는 단계;
상기 제1 텍스트 정보를 이용하여 상기 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하는 단계;
상기 사용자 단말로부터 상기 사용자의 제2 음성 신호를 수신하는 단계;
상기 추정된 제2 텍스트 정보를 상기 제2 음성 신호로 역변환하는 단계;
상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는지 여부를 판단하는 단계; 및
상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는 경우, 상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신하는 단계;
를 포함하는,
5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법.
Receiving a user's first voice signal from the user terminal;
converting the first voice signal into first text information through voice recognition;
estimating second text information corresponding to the user's second voice signal by using the first text information;
receiving a second voice signal of the user from the user terminal;
inversely transforming the estimated second text information into the second speech signal;
determining whether the inversely transformed second voice signal matches the received second voice signal; and
transmitting at least one of the first text information and the second text information to the user terminal when the inversely transformed second voice signal matches the received second voice signal;
containing,
5G-based data transmission method for improving response speed of voice recognition.
상기 제1 음성 신호를 수신하는 단계는,
상기 제1 음성 신호의 데시벨(decibel, dB)이 임계값 이상인 경우, 상기 사용자의 제1 음성 신호를 획득하는 단계;
를 포함하는,
5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법.
According to claim 1,
Receiving the first voice signal comprises:
obtaining a first voice signal of the user when the decibel (dB) of the first voice signal is equal to or greater than a threshold value;
containing,
5G-based data transmission method for improving response speed of voice recognition.
상기 송신하는 단계는,
상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하지 않는 경우, 상기 음성인식을 통해 상기 수신된 제2 음성 신호를 제2 텍스트 정보로 변환하는 단계; 및
상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신하는 단계;
를 포함하는,
5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법.
According to claim 1,
The sending step is
converting the received second voice signal into second text information through the voice recognition when the inversely transformed second voice signal and the received second voice signal do not match; and
transmitting at least one of the first text information and the second text information to the user terminal;
containing,
5G-based data transmission method for improving response speed of voice recognition.
상기 추정하는 단계는,
상기 제1 텍스트 정보를 음성인식 인공지능 학습모델에 적용하여, 상기 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하는 단계;
를 포함하는,
5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법.
According to claim 1,
The estimating step is
estimating second text information corresponding to the user's second voice signal by applying the first text information to a voice recognition artificial intelligence learning model;
containing,
5G-based data transmission method for improving response speed of voice recognition.
음성인식을 통해 상기 제1 음성 신호를 제1 텍스트 정보로 변환하고,
상기 제1 텍스트 정보를 이용하여 상기 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하는 제어부;
를 포함하고,
상기 통신부는, 상기 사용자 단말로부터 상기 사용자의 제2 음성 신호를 수신하고,
상기 제어부는, 상기 추정된 제2 텍스트 정보를 상기 제2 음성 신호로 역변환하고, 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는지 여부를 판단하고,
상기 통신부는, 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는 경우, 상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신하는,
5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 장치.
a communication unit configured to receive a user's first voice signal from the user terminal; and
converting the first voice signal into first text information through voice recognition,
a controller for estimating second text information corresponding to the user's second voice signal by using the first text information;
including,
The communication unit receives the user's second voice signal from the user terminal,
The control unit inversely transforms the estimated second text information into the second voice signal, and determines whether the inversely transformed second voice signal matches the received second voice signal;
The communication unit transmits at least one of the first text information and the second text information to the user terminal when the inversely transformed second voice signal matches the received second voice signal;
5G-based data transmission device to improve response speed of voice recognition.
상기 통신부는,
상기 제1 음성 신호의 데시벨(decibel, dB)이 임계값 이상인 경우, 상기 사용자의 제1 음성 신호를 획득하는,
5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 장치.
8. The method of claim 7,
The communication unit,
When the decibel (dB) of the first voice signal is greater than or equal to a threshold, obtaining the first voice signal of the user,
5G-based data transmission device to improve response speed of voice recognition.
상기 제어부는,
상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하지 않는 경우, 상기 음성인식을 통해 상기 수신된 제2 음성 신호를 제2 텍스트 정보로 변환하고,
상기 통신부는,
상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신하는,
5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 장치.
8. The method of claim 7,
The control unit is
When the inversely transformed second voice signal and the received second voice signal do not match, the received second voice signal is converted into second text information through the voice recognition;
The communication unit,
transmitting at least one of the first text information and the second text information to the user terminal;
5G-based data transmission device to improve response speed of voice recognition.
상기 제어부는,
상기 제1 텍스트 정보를 음성인식 인공지능 학습모델에 적용하여, 상기 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하는,
5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 장치.
8. The method of claim 7,
The control unit is
applying the first text information to a voice recognition artificial intelligence learning model to estimate second text information corresponding to the user's second voice signal,
5G-based data transmission device to improve response speed of voice recognition.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190176417A KR102364935B1 (en) | 2019-12-27 | 2019-12-27 | A method and apparatus for data transmission for improving 5G-based speech recognition response speed |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190176417A KR102364935B1 (en) | 2019-12-27 | 2019-12-27 | A method and apparatus for data transmission for improving 5G-based speech recognition response speed |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210083782A KR20210083782A (en) | 2021-07-07 |
KR102364935B1 true KR102364935B1 (en) | 2022-02-18 |
Family
ID=76862083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190176417A KR102364935B1 (en) | 2019-12-27 | 2019-12-27 | A method and apparatus for data transmission for improving 5G-based speech recognition response speed |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102364935B1 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008268340A (en) * | 2007-04-17 | 2008-11-06 | Honda Motor Co Ltd | Voice recognition device, voice recognition method, and program for voice recognition |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102549204B1 (en) | 2017-09-26 | 2023-06-30 | 주식회사 케이티 | Device, server and method for providing speech recognition service |
KR20190092168A (en) * | 2018-01-30 | 2019-08-07 | 주식회사 엘지유플러스 | Apparatus for providing voice response and method thereof |
-
2019
- 2019-12-27 KR KR1020190176417A patent/KR102364935B1/en active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008268340A (en) * | 2007-04-17 | 2008-11-06 | Honda Motor Co Ltd | Voice recognition device, voice recognition method, and program for voice recognition |
Also Published As
Publication number | Publication date |
---|---|
KR20210083782A (en) | 2021-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6828001B2 (en) | Voice wakeup method and equipment | |
JP6613347B2 (en) | Method and apparatus for pushing information | |
US11869487B1 (en) | Allocation of local and remote resources for speech processing | |
CN110049270B (en) | Multi-person conference voice transcription method, device, system, equipment and storage medium | |
US11227129B2 (en) | Language translation device and language translation method | |
KR102611751B1 (en) | Augmentation of key phrase user recognition | |
KR20190075800A (en) | Intelligent personal assistant interface system | |
CN110047481B (en) | Method and apparatus for speech recognition | |
JP2015135494A (en) | Voice recognition method and device | |
KR20150063423A (en) | Improved hybrid controller for asr | |
CN109712610A (en) | The method and apparatus of voice for identification | |
WO2015103836A1 (en) | Voice control method and device | |
CN105206272A (en) | Voice transmission control method and system | |
US11790893B2 (en) | Voice processing method based on artificial intelligence | |
CN110992955A (en) | Voice operation method, device, equipment and storage medium of intelligent equipment | |
KR20150145024A (en) | Terminal and server of speaker-adaptation speech-recognition system and method for operating the system | |
KR20200074690A (en) | Electonic device and Method for controlling the electronic device thereof | |
KR20210153165A (en) | An artificial intelligence device that provides a voice recognition function, an operation method of the artificial intelligence device | |
CN113674742A (en) | Man-machine interaction method, device, equipment and storage medium | |
CN116075888A (en) | System and method for reducing latency in cloud services | |
KR102364935B1 (en) | A method and apparatus for data transmission for improving 5G-based speech recognition response speed | |
KR20200109841A (en) | A speech recognition apparatus | |
WO2021253779A1 (en) | Speech recognition method and system | |
CN114999496A (en) | Audio transmission method, control equipment and terminal equipment | |
US11587554B2 (en) | Control apparatus, voice interaction apparatus, voice recognition server, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |